CN107012250B - 一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及应用 - Google Patents

一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及应用 Download PDF

Info

Publication number
CN107012250B
CN107012250B CN201710344514.2A CN201710344514A CN107012250B CN 107012250 B CN107012250 B CN 107012250B CN 201710344514 A CN201710344514 A CN 201710344514A CN 107012250 B CN107012250 B CN 107012250B
Authority
CN
China
Prior art keywords
editing
lys
leu
dna fragment
glu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710344514.2A
Other languages
English (en)
Other versions
CN107012250A (zh
Inventor
吴强
李金环
寿佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201710344514.2A priority Critical patent/CN107012250B/zh
Publication of CN107012250A publication Critical patent/CN107012250A/zh
Application granted granted Critical
Publication of CN107012250B publication Critical patent/CN107012250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/34Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving hydrolase
    • C12Q1/44Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving hydrolase involving esterase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/10Plasmid DNA
    • C12N2800/106Plasmid DNA for vertebrates
    • C12N2800/107Plasmid DNA for vertebrates for mammalian
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2810/00Vectors comprising a targeting moiety
    • C12N2810/10Vectors comprising a non-peptidic targeting moiety
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/90Enzymes; Proenzymes
    • G01N2333/914Hydrolases (3)
    • G01N2333/916Hydrolases (3) acting on ester bonds (3.1), e.g. phosphatases (3.1.3), phospholipases C or phospholipases D (3.1.4)
    • G01N2333/922Ribonucleases (RNAses); Deoxyribonucleases (DNAses)
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)

Abstract

本发明属于生物技术领域,具体涉及一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及其应用。本发明所述分析方法将Cas9核酸酶对基因组DNA双链进行切割的方式区分为钝末端切割与突出末端切割,钝末端切割方式对应的切割末端占比为钝断裂末端占比,突出末端切割方式对应的切割末端占比为突出断裂末端占比,通过预测候选sgRNA组合在每种切割方式下对应的断裂末端序列,并结合所述钝断裂末端占比与突出断裂末端占比,来预测采用候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度。采用所述分析法可先对编辑方法进行精准度预测,能够略去繁杂的实验,从而提高实验效率。

Description

一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的 分析方法及应用
技术领域
本发明属于生物技术领域,具体涉及一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及其应用。
背景技术
生物技术对于国家的生物工业发展及农业和健康产业至关重要。自从人类基因组计划(Human Genome Project)和DNA元件百科全书(Encyclopedia of DNA Elements)项目的完成,科学家们分析和鉴定了大量的基因组中的基因和DNA调控元件[1,2]。在基因表达调控中起重要作用的DNA调控元件包括启动子、增强子、沉默子和绝缘子等。然而,多数调控元件的功能并没有得到实验的验证和阐明[2-8]。探索基因和DNA调控元件的功能,可以通过遗传学DNA片段编辑来进行研究。
早期的基因编辑和基因功能修饰是通过基因转座和转基因实现的[9-14]。伴随测序技术的发展反向遗传学被应用于对基因组进行特定的突变[15,16]。特别是依赖于同源重组的基因打靶小鼠迅速地被应用到科学研究中[15,17,18]。此外,在小鼠和斑马鱼中DNA片段的反转和重复被应用于去研究特定的基因组结构变化[19-24]。
近几年,源于细菌和古菌的Ⅱ型成簇规律间隔短回文重复系统[Clusteredregularly interspaced short palindromic repeats(CRISPR)/CRISPR-associatednuclease 9(Cas9),CRISPR/Cas9]是新兴基因组编辑技术[25-27],由于它设计简单和操作方便,迅速地被应用到真核基因组编辑。我们利用CRISPR/Cas9系统在人细胞系和小鼠中实现了DNA片段遗传编辑(删除、反转和重复)[28]。通过Cas9和两个sgRNAs在基因组中进行两个位点靶向断裂后在CtIP等蛋白参与的修复系统作用下可以实现DNA片段的删除、反转(倒位)、重复、易位和插入(如果提供供体)等[29-32]。通过对DNA片段编辑的遗传操作,能够用来研究原钙粘蛋白和珠蛋白的基因表达调控和三维基因组结构[28,31-33]。
然而,现有技术中,需要经过大量繁杂的实验,才能采用CRISPR/Cas9系统进行高精准度基因组DNA片段编辑。
发明内容
为了克服现有技术中所存在的问题,本发明的目的在于提供一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及其应用。
为了实现上述目的以及其他相关目的,本发明采用如下技术方案:
本发明的第一方面,提供一种基因组DNA片段编辑精准度的分析方法,适用于CRISPR/Cas9系统,所述分析方法将Cas9核酸酶对基因组DNA双链进行切割的方式区分为钝末端切割与突出末端切割,钝末端切割方式对应的切割末端占比为钝断裂末端占比,突出末端切割方式对应的切割末端占比为突出断裂末端占比,通过预测候选sgRNA组合在每种切割方式下对应的断裂末端序列,并结合所述钝断裂末端占比与突出断裂末端占比,来预测候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度。
优选地,所述编辑精准度是指针对待分析的编辑方式,符合所述编辑方式的基因组DNA片段编辑中,精准编辑所占的比例。
优选地,所述分析方法,包括如下步骤:
(A)获得选用的Cas9核酸酶在候选sgRNA组合中各sgRNA的介导下对基因组DNA片段进行切割的精准度系数:
(1)预测sgRNA组合中的单个sgRNA及选用的Cas9核酸酶对待编辑基因组DNA片段切割时,在突出末端切割方式下对应的突出断裂末端序列,以及在钝末端切割方式下对应的钝断裂末端序列;
(2)按补平连接的方式来预测各个突出断裂末端序列对待分析基因组DNA片段编辑方式所得序列的影响;将精准符合预期编辑的各个突出断裂末端占比之和作为第一精准度参考因子C1的值;若都不能精准符合预期编辑,则第一精准度参考因子C1为0;
(3)按直接连接的方式预测所述钝断裂末端序列对待分析基因组DNA片段编辑方式所得序列的影响;若精准符合预期编辑,则将钝断裂末端占比作为第二精准度参考因子C2的值;若不能精准符合预期编辑,则第二精准度参考因子C2为0;
(4)将第一精准度参考因子C1的值与第二精准度参考因子C2的值相加获得该sgRNA及选用的Cas9核酸酶对待编辑基因组DNA片段进行切割的精准度系数X;
(B)获得候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度:
将候选sgRNA组合中各sgRNA对应的精准度系数X相乘获得该候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度对基因组DNA片段编辑的精准度Z。
优选地,所述候选sgRNA组合中,sgRNA的个数为两个及以上。
本发明的第二方面,提供前述基因组DNA片段编辑精准度的分析方法用于基因组DNA片段编辑的用途。
本发明的第三方面,提供一种基因组DNA片段编辑方法,利用前述编辑精准度的分析方法分析候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段的编辑精准度,采用编辑精准度较高的sgRNA组合及Cas9核酸酶,来编辑基因组DNA片段。
优选地,所述的基因组DNA片段编辑方法,包括如下步骤:
(1)针对待编辑的基因组DNA片段,根据需要的编辑方式,设计候选sgRNA组合;
(2)利用权利要求前述的基因组DNA片段编辑精准度的分析方法,从所述候选的sgRNA组合选择出针对所需要的编辑方式精准度较高的sgRNA组合;
(3)采用步骤(2)所选的sgRNA组合,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行编辑。
优选地,所述步骤(2)为利用前述的基因组DNA片段编辑精准度的分析方法,分析各候选sgRNA组合与各候选Cas9核酸酶配合时,针对所需要的编辑方式的编辑精准度,从中选择精准度较高的sgRNA组合对以及与之配合的Cas9核酸酶;所述步骤(3)为采用步骤(2)所选的sgRNA组合以及与之配合的Cas9核酸酶,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行编辑。
优选地,步骤(3)中,将所选的sgRNA组合,以及含有所述Cas9核酸酶编码基因的质粒一同转入细胞中,对待编辑的基因组DNA片段进行编辑。
优选地,步骤(1)中,设计候选sgRNA组合时,至少针对两种以上的PAM组合设计其候选sgRNA组合。
优选地,所述PAM组合包括第一PAM和第二PAM。
进一步地,所述第一PAM和第二PAM均位于待编辑的基因组DNA片段同一条DNA链上。所述同一条DNA链可以是正义链,也可以是反义链。
进一步地,所述第一PAM靠近同一条DNA链的5’端,所述第二PAM靠近同一条DNA链的3’端。
所述第一PAM的序列为NGG或CCN,所述第二PAM的序列为NGG或CCN,其中N为任意核苷酸。
优选地,所述PAM组合选自:NGG-NGG组合、CCN-CCN组合、CCN-NGG组合、NGG-CCN组合中的一种、两种、三种或四种。
进一步地,CRISPR/Cas9系统中的Cas9核酸酶能够特异性识别PAM组合中第一PAM和第二PAM,从而在第一PAM和第二PAM的上游处分别切割基因组DNA双链,产生突出断裂末端或钝断裂末端。
所产生的突出断裂末端或钝断裂末端在细胞自身存在的DNA损伤修复系统的作用下产生DNA片段编辑。
本发明中例举了当CRISPR/Cas9系统中的Cas9核酸酶能够特异性识别PAM组合中第一PAM和第二PAM,从而在第一PAM和第二PAM的上游3bp或4bp处分别切割基因组DNA双链,产生突出断裂末端或钝断裂末端。产生的钝断裂末端直接连接;而产生的突出断裂末端,则以补平连接的方式加入与突出断裂末端互补的碱基后再连接。
若要进行精准的DNA片段删除,可选用NGG-CCN组合作为PAM组合,来设计其候选sgRNA组合。
若要进行一侧接头的精准DNA片段反转或倒位,可选用NGG-NGG或CCN-CCN组合作为PAM组合,来设计其候选sgRNA组合。
若要进行精准的DNA片段重复,可选用CCN-NGG组合作为PAM组合,来设计sgRNA组合。
优选地,所述编辑方式选自突变、删除、反转或倒位、重复、易位或插入。
进一步地,细胞会借助自身存在的同源重组修复(HDR)或者非同源末端连接机制(NHEJ)对断裂的DNA进行修复。
优选地,步骤(3)中,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行所需要的编辑过程中,加入CtIP抑制剂。
优选地,将所选的sgRNA组合,以及含有所述Cas9核酸酶编码基因的质粒共同转入细胞这一步骤的前期、中期或后期,加入CtIP抑制剂。
优选地,所述CtIP抑制剂用于提高基因组DNA片段编辑的精准率。
优选地,所述CtIP抑制剂用于提高基因组DNA片段编辑后连接接头的直接连接率。
所述提高是指与未采用CtIP抑制剂时相比。
所述CtIP抑制剂是指对于CtIP具有抑制效果的化合物。
对于CtIP具有抑制效果包括但不限于:抑制CtIP活性,抑制CtIP的磷酸化,或者抑制CtIP基因的转录、剪接、翻译、修饰或任何形式的活性表达。
所述CtIP抑制剂可为siRNA、shRNA、sgRNA、抗体、小分子化合物等。
如本发明实施例1所例举的CtIP抑制剂可以是包含针对CtIP的sgRNAs(SEQ IDNO.5~8所示)与SpCas9的CRISPR-Cas9系统。如本发明实施例3所列举所述CtIP抑制剂也可选自小分子化合物3-AP。
所述基因组DNA片段编辑方法可以是体内的,亦可以是体外的。
与现有技术相比,本发明具有如下有益效果:
本发明经过广泛而深入的研究,提供了一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及其应用,所述分析方法将Cas9核酸酶对DNA双链进行切割的方式区分为钝末端切割与突出末端切割,钝末端切割方式对应的切割末端占比为钝断裂末端占比,突出末端切割方式对应的切割末端占比为突出断裂末端占比,通过预测候选sgRNA组合在每种切割方式下对应的末端序列,并结合所述钝断裂末端占比与突出断裂末端占比,来预测采用候选sgRNA组合对基因组DNA片段编辑的精准度。采用所述分析法可先对编辑方法进行精准度预测,能够略去繁杂的实验,从而提高实验效率。
附图说明
图1A:加入了靶向CtIP基因的sgRNAs与针对STM位点的sgRNAs、人源化SpCas9质粒共同转染人胚肾HEK293T细胞,STM位点的删除片段连接接头的精准连接结果。
图1B:加入了靶向CtIP基因的sgRNAs与针对HS51位点的sgRNAs、人源化SpCas9质粒共同转染人胚肾HEK293T细胞,HS51位点的删除片段连接接头的精准连接结果。
图1C:加入了靶向CtIP基因的sgRNAs与针对β-globin locus位点的sgRNAs、人源化SpCas9质粒共同转染人胚肾HEK293T细胞,β-globin locus位点的删除片段连接接头的精准连接结果。
图1D:筛选得到的2个CtIP基因突变细胞中CtIP基因敲除情况。
图1E:CtIP基因敲除的细胞系与正常HEK293T细胞相比,STM位点DNA片段删除接头的精准连接情况。
图1F:CtIP基因敲除的细胞系与正常HEK293T细胞相比,HS51位点DNA片段删除接头的精准连接情况。
图1G:CtIP基因敲除的细胞系与正常HEK293T细胞相比,β-globin locus位点DNA片段删除接头的精准连接情况。
图1H:正常HEK293T细胞、CtIP-#14和CtIP-#27突变细胞系中,3-AP对STM位点的DNA片段删除精准连接的情况。
图1I:正常HEK293T细胞、CtIP-#14和CtIP-#27突变细胞系中,3-AP对HS51位点的DNA片段删除精准连接的情况。
图2A:Cas9在两个sgRNAs介导下对DNA双链进行切割产生四个断裂末端,这些断裂末端在细胞修复系统的作用下产生DNA片段删除、反转和重复。
图2B:针对HS51位点的DNA片段删除、反转和重复情况。
图2C:DNA片段删除接头处存在“G”的加入。
图2D:DNA片段重复接头处存在“T”的加入。
图2E:DNA片段下游反转接头处存在“A”、“G”和“AG”的加入。
图2F:针对这两个特定序列的sgRNAs,Cas9切割的方式比例特征。
图3A:Cas9核酸酶的结构示意图。
图3B:β-globin RE2位点进行DNA片段编辑的两个sgRNAs的示意图。
图3C:通过检测DNA片段重复接头连接情况统计出各Cas9核酸酶在sgRNA1的介导下对基因组DNA片段进行切割时所产生的各种切割末端的占比。
图3D:针对上游sgRNA1,Cas9以及Cas9突变体对目的DNA片段的切割情况。
图3E:通过检测DNA片段删除接头连接情况统计出各Cas9核酸酶在sgRNA2的介导下对基因组DNA片段进行切割时所产生的各种切割末端的占比。
图3F:针对下游sgRNA2,Cas9以及Cas9突变体对目的DNA片段的切割情况。
图3G:当Cas9核酸酶分别选用WT、G915F、F916P、ΔF916、K918A、R919P、Q920P或R780A时候,在候选sgRNA组合(包括两个sgRNA,分别是sgRNA1和sgRNA2)的介导下,对基因组DNA片段(β-globin RE2位点)进行编辑,可能出现的编辑方式及这种编辑方式下的精准度Z分析;以及实际检查到的编辑方式情况。
图3H:Cas9以及Cas9突变体在DNA片段反转一侧接头处碱基加入的实际和预测比例。
图4:不同PAM组合进行DNA片段精准编辑示意图。
图5A:不同PAM组合下,DNA片段删除情况。
图5B:不同PAM组合下,上游接头的反转情况。
图5C:不同PAM组合下,下游接头的反转情况。
图5D:不同PAM组合下,DNA片段重复情况。
图6:利用特定的PAM组合编辑CBS所在的DNA片段。
图7:利用CRISPR编辑细胞系研究CTCF功能。
具体实施方式
适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法
本发明的基因组DNA片段编辑精准度的分析方法,适用于CRISPR/Cas9系统,CRISPR/Cas9系统包括Cas9核酸酶和sgRNA组合,Cas9核酸酶在sgRNA组合中各sgRNA的介导下对基因组DNA片段进行切割,所述分析方法将Cas9核酸酶对基因组DNA双链进行切割的方式区分为钝末端切割与突出末端切割,钝末端切割方式对应的切割末端占比为钝断裂末端占比,突出末端切割方式对应的切割末端占比为突出断裂末端占比,通过预测候选sgRNA组合在每种切割方式下对应的断裂末端序列,并结合所述钝断裂末端占比与突出断裂末端占比,来预测候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度。
所述钝末端切割是指:Cas9核酸酶在sgRNA的介导下对基因组DNA片段切割出平滑末端的切割方式。
在钝末端切割方式下对应产生的切割末端为钝断裂末端。
如本发明一些实施方式中所例举的,野生型Cas9核酸酶SpCas9(简称WT或Cas9WT)在sgRNA1的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA1互补的DNA链在PAM上游3个碱基处进行切割,对与sgRNA1非互补DNA链也是在PAM(AGG)上游3个碱基处进行切割,此时产生的切割末端U3就是钝断裂末端。野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA2的介导下,对基因组DNA片段进行切割时,对与sgRNA2互补的DNA链在PAM上游3个碱基处进行切割,对与sgRNA2非互补DNA链也是在PAM(TGG)上游3个碱基处进行切割,此时产生的切割末端D3就是钝断裂末端。
Figure BDA0001296125690000071
所述突出末端切割是指:Cas9核酸酶在sgRNA的介导下对基因组DNA片段切割出粘性末端的切割方式。
在突出末端切割方式下对应产生的切割末端为突出断裂末端。
如本发明一些实施方式中所例举的,野生型Cas9核酸酶SpCas9(简称WT或Cas9WT)在sgRNA1的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA1互补的DNA链在PAM上游3个碱基处进行切割,对与sgRNA1非互补DNA链也是在PAM(AGG)上游4个碱基处进行切割,此时产生的切割末端U4就是突出断裂末端。
野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA1的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA1互补的DNA链在PAM上游3个碱基处进行切割,对与sgRNA1非互补DNA链也是在PAM(AGG)上游5个碱基处进行切割,此时产生的切割末端U5就是突出断裂末端。
野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA2的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3个碱基处进行切割,对与sgRNA2非互补DNA链也是在PAM(TGG)上游4个碱基处进行切割,此时产生的切割末端D4就是突出断裂末端。
野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA2的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3个碱基处进行切割,对与sgRNA2非互补DNA链也是在PAM(TGG)上游5个碱基处进行切割,此时产生的切割末端D5就是突出断裂末端。
野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA2的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3个碱基处进行切割,对与sgRNA2非互补DNA链也是在PAM(TGG)上游6个碱基处进行切割,此时产生的切割末端D6就是突出断裂末端。
Figure BDA0001296125690000081
所述钝断裂末端占比是指:Cas9核酸酶在某sgRNA的介导下对基因组DNA片段进行切割时,在所产生的所有的断裂末端中,钝断裂末端所占的比例。
所述突出断裂末端占比是指:Cas9核酸酶在某sgRNA的介导下对基因组DNA片段进行切割时,在所产生的所有的断裂末端中,突出断裂末端所占的比例。
如本发明的一些实施方式中所例举的,野生型Cas9核酸酶(简称Cas9 WT,WT)在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割所产生的断裂末端中,钝断裂末端U3的占比为X1=94.30%、突出断裂末端U4的占比X2=5.70%、U5突出末端切割的占比X3=0.00%。
所述编辑精准度是指针对待分析的编辑方式,符合所述待分析的编辑方式的基因组DNA片段编辑中,精准编辑所占的比例。
在利用候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段进行编辑时,会出现多种编辑方式(例如删除、重复、反转或倒位、易位、插入等),待分析的编辑方式可以是选自删除、重复、反转或倒位、易位、插入等编辑方式中的任一种。根据待分析编辑方式的不同,编辑精准度可以是删除编辑精准度、重复编辑精准度、反转编辑精准度、易位编辑精准度及插入编辑精准度等中的任一种。
精准编辑是指:编辑方式为待分析的编辑方式,且编辑后的序列完全符合预期的基因组DNA片段编辑。相比预期序列,有碱基的不同则认为不属于精准编辑。
例如利用野生型Cas9核酸酶即某对sgRNA对基因组DNA片段进行编辑时,实际检测发现发生了删除、重复、反转、易位、插入多种编辑方式。当预期的编辑为DNA删除时,需要分析删除编辑精准度,这时可以通过测序等方式知道符合预期序列的删除编辑的量及删除编辑的总量,进而通过计算符合预期序列的删除编辑在删除编辑总量中的占比获得删除编辑精准度;当预期的编辑为DNA片段重复时,需要分析重复编辑精准度,这时可以通过测序等方式知道符合预期序列的重复编辑的量及重复编辑的总量,进而通过计算符合预期序列的重复编辑在重复编辑总量中的占比获得重复编辑精准度;当预期的编辑为DNA片段反转时,需要分析反转编辑精准度,这时可以通过测序等方式知道符合预期序列的反转编辑的量及反转编辑的总量,进而通过计算符合预期序列的反转编辑在反转编辑总量中的占比获得反转编辑精准度;当预期的编辑为DNA片段易位时,需要分析易位编辑精准度,这时可以通过测序等方式知道符合预期序列的易位编辑的量及易位编辑的总量,进而通过计算符合预期序列的易位编辑在易位编辑总量中的占比获得易位编辑精准度;当预期的编辑为DNA片段插入时,需要分析插入编辑精准度,这时可以通过测序等方式知道符合预期序列的插入编辑的量及插入编辑的总量,进而通过计算符合预期序列的插入编辑在插入编辑总量中的占比获得插入编辑精准度。
如本发明的一些实施方式中所列举的,假设精准编辑为DNA片段只发生了反转,且DNA片段反转连接接头处不存在其他碱基的改变。那么DNA片段重复、DNA片段删除等反转以外的编辑方式及虽然发生了DNA片段反转但是反转连接接头处碱基发生了改变的编辑方式都不属于精准编辑。这时,反转编辑就是待分析的编辑方式,DNA片段重复、DNA片段删除等反转以外的编辑方式都不属于待分析的编辑方式,而精准编辑及发生了DNA片段反转但是反转连接接头处碱基发生了改变的编辑方式均属于待分析的编辑方式。此时,编辑精准度就是所有发生了DNA片段反转的编辑中,精准编辑的占比。
进一步地,所述分析方法,包括如下步骤:
(A)获得选用的Cas9核酸酶在候选sgRNA组合中各sgRNA的介导下对基因组DNA片段进行切割的精准度系数:
(1)预测sgRNA组合中的单个sgRNA及选用的Cas9核酸酶对待编辑基因组DNA片段切割时,在突出末端切割方式下对应的突出断裂末端序列,以及在钝末端切割方式下对应的钝断裂末端序列。
当确定了所采用的Cas9核酸酶及sgRNA后,可以通过Cas9核酸酶的切割规则及该sgRNA的靶向序列,根据现有技术预知会产生的突出断裂末端序列及钝断裂末端序列。
如本发明的一些实施方式中所例举的,根据野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)的切割规则及sgRNA1的靶向序列,可知野生型Cas9核酸酶SpCas9(简称WT或Cas9WT)在sgRNA1的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,可以产生钝断裂末端U3、突出断裂末端U4及突出断裂末端U5。各断裂末端的序列如下表所示:
Figure BDA0001296125690000101
根据野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)的切割规则及sgRNA2的靶向序列,可知野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA2的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,可以产生钝断裂末端D3、突出断裂末端D4、突出断裂末端D5及突出断裂末端U6。各断裂末端的序列如下表所示:
Figure BDA0001296125690000102
Cas9核酸酶的切割规则可以经由现有技术确定,也可通过实验的方式(例如切割后测序)确定。
(2)按补平连接的方式来预测各个突出断裂末端序列对待分析基因组DNA片段编辑方式所得序列的影响;将精准符合预期编辑的各个突出断裂末端占比之和作为第一精准度参考因子C1的值;若都不能精准符合预期编辑,则第一精准度参考因子C1为0;
所述补平连接是指:所述突出断裂末端会先通过碱基互补配对加入与突出的末端互补的碱基补平为钝末端之后再连接。
如本发明的一些实施方式中所例举的,野生型Cas9核酸酶SpCas9(简称WT或Cas9WT)在sgRNA1的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,所产生的突出断裂末端U4,在细胞修复系统的作用下产生DNA反转时,所述突出断裂末端U4会先通过碱基互补配对加入与突出的末端C互补的碱基G补平为钝末端后再与反转连接接头连接,因此会导致DNA反转连接接头处C碱基的加入,虽然是符合预期的DNA反转的,但是由于DNA反转连接接头处存在C碱基的加入,因此不能精准符合预期的“DNA片段反转且反转接头处无碱基加入”的编辑方式。因此,突出断裂末端U4的占比=U4突出末端切割方式的占比=5.70%,就不能够算入第一精准度参考因子C1sgRNA1的值。
野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA1的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,所产生的突出断裂末端U5,在细胞修复系统的作用下产生DNA反转时,所述突出断裂末端U5会先通过碱基互补配对加入与突出的末端GC互补的碱基CG补平为钝末端后再与反转连接接头连接,因此会导致DNA反转连接接头处GC碱基的加入,虽然是符合预期的DNA反转的,但是由于DNA反转连接接头处存在GC碱基的加入,因此不能精准符合预期的“DNA片段反转且反转接头处无碱基加入”的编辑方式。因此,突出断裂末端U5的占比=U5突出末端切割方式的占比=0.00%,就不能够算入第一精准度参考因子C1sgRNA1的值。
所以,按照补平连接的方式预测突出断裂末端U4和突出断裂末端U5,对待编辑基因组DNA片段编辑所得序列的影响,均不能精准符合预期编辑,因而,第一精准度参考因子C1sgRNA1的值为0;
(3)按直接连接的方式预测所述钝断裂末端序列对待分析基因组DNA片段编辑方式所得序列的影响;若精准符合预期编辑,则将钝断裂末端占比作为第二精准度参考因子C2的值;若不能精准符合预期编辑,则第二精准度参考因子C2为0;
所述直接连接是指:所述钝断裂末端直接与连接接头连接。
如本发明的一些实施方式中所例举的,野生型Cas9核酸酶SpCas9(简称WT或Cas9WT)在sgRNA1的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,所产生的钝断裂末端U3,在细胞修复系统的作用下产生DNA反转时,所述钝断裂末端U3与反转连接接头直接连接,不会导致DNA反转连接接头处碱基的加入,因此是能精准符合预期的“DNA片段反转且反转接头处无碱基加入”的编辑方式。所以第二精准度参考因子C2sgRNA1的值=钝断裂末端U3的占比=94.30%。
(4)将第一精准度参考因子C1的值与第二精准度参考因子C2的值相加获得该sgRNA及选用的Cas9核酸酶对待编辑基因组DNA片段进行切割的精准度系数X;
如本发明的一些实施方式所例举的,所选用的野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在候选sgRNA组合中sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数XsgRNA1=C1sgRNA1+C2sgRNA1=0+94.30%=94.30%。
同理,按照(1)~(4)的方法,计算所选用的野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在候选sgRNA组合中sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数XsgRNA2
野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA2的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,所产生的突出断裂末端D4,在细胞修复系统的作用下产生DNA反转时,所述突出断裂末端D4会先通过碱基互补配对加入与突出的末端T互补的碱基A补平为钝末端后再与反转连接接头连接,因此会导致DNA反转连接接头处T碱基的加入,虽然是符合预期的DNA反转的,但是由于DNA反转连接接头处存在T碱基的加入,因此不能精准符合预期的“DNA片段反转且反转接头处无碱基加入”的编辑方式。因此,突出断裂末端D4的占比=D4突出末端切割方式的占比=24.50%,就不能够算入第一精准度参考因子C1的值。
野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA2的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,所产生的突出断裂末端D5,在细胞修复系统的作用下产生DNA反转时,所述突出断裂末端D5会先通过碱基互补配对加入与突出的末端AT互补的碱基TA补平为钝末端后再与反转连接接头连接,因此会导致DNA反转连接接头处AT碱基的加入,虽然是符合预期的DNA反转的,但是由于DNA反转连接接头处存在AT碱基的加入,因此不能精准符合预期的“DNA片段反转且反转接头处无碱基加入”的编辑方式。因此,突出断裂末端D5的占比=D5突出末端切割方式的占比=42.57%不能计算入第一精准度参考因子C1sgRNA2的值。
野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA2的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,所产生的突出断裂末端D6,在细胞修复系统的作用下产生DNA反转时,所述突出断裂末端D6会先通过碱基互补配对加入与突出的末端CAT互补的碱基GTA补平为钝末端后再与反转连接接头连接,因此会导致DNA反转连接接头处CAT碱基的加入,虽然是符合预期的DNA反转的,但是由于DNA反转连接接头处存在CAT碱基的加入,因此不能精准符合预期的“DNA片段反转且反转接头处无碱基加入”的编辑方式。因此,突出断裂末端D6的占比=D6突出末端切割方式的占比=4.19%不能计算入第一精准度参考因子C1sgRNA2的值。
所以,按照补平连接的方式预测突出断裂末端D4、突出断裂末端D5和突出断裂末端D6,对待编辑基因组DNA片段编辑所得序列的影响,均不能精准符合预期编辑,因而,第一精准度参考因子C1sgRNA2的值为0;
野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在sgRNA2的介导下,对基因组DNA片段(β-globin RE2位点)进行切割时,所产生的钝断裂末端D3,在细胞修复系统的作用下产生DNA反转时,所述钝断裂末端D3与反转连接接头直接连接,不会导致DNA反转连接接头处碱基的加入,因此是能精准符合预期的“DNA片段反转且反转接头处无碱基加入”的编辑方式。所以第二精准度参考因子C2sgRNA2的值=钝断裂末端U3的占比=28.74%。
将第一精准参考因子C1sgRNA2的值与第二精准参考因子C2sgRNA2的值相加,获得选用的野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在候选sgRNA组合中sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数XsgRNA2=C1sgRNA2+C2sgRNA2=0+27.84%=28.74%。
(B)获得候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度:
将候选sgRNA组合中各sgRNA对应的精准度系数X相乘获得该候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度对基因组DNA片段编辑的精准度Z。
如本发明的一些实施方式所例举的,将选用的野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT)在候选sgRNA组合中sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数XsgRNA1与选用的Cas9核酸酶在候选sgRNA组合中sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数XsgRNA2相乘获得选用的Cas9核酸酶在候选sgRNA组合的介导下对对基因组DNA片段(β-globin RE2位点)进行编辑的精准度Z,亦即Z=X×Y=94.30%×28.74%=27.10%。
利用高通量测序技术检测DNA片段反转,且DNA片段反转连接接头精准连接,不存在任何碱基的加入的比例为27.15%。
此外,当待分析的编辑方式(也就是预期的编辑)是DNA反转且下游连接接头处仅有T碱基加入、或DNA反转且下游连接接头处仅有AT碱基加入、或DNA反转且下游连接接头处仅有CAT碱基加入、或DNA反转且下游连接接头处仅有G碱基加入、DNA反转且下游连接接头处仅有GT碱基加入、或DNA反转且下游连接接头处仅有GAT碱基加入、或DNA反转且下游连接接头处仅有GCAT碱基加入、或DNA反转且下游连接接头处仅有GC碱基加入、DNA反转且下游连接接头处仅有GCT碱基加入、或DNA反转且下游连接接头处仅有GCCAT碱基加入时,采用上述分析方法获得的各编辑方式下的精准度Z均与实际检测到的编辑精准度基本一致。
因此,本发明的适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法准确度高,实用性强,可用于基因组DNA片段编辑。
进一步地,所述候选sgRNA组合中,sgRNA的个数为两个及以上。本发明的一些实施方式中,例举了候选sgRNA组合中,sgRNA的个数为两个。所述候选sgRNA组合中,sgRNA的个数还可以是两个以上,例如,三个,四个,五个,六个,七个,八个,九个,十个及十个以上等。
基因组DNA片段编辑方法
本发明的基因组DNA片段编辑方法,利用前述编辑精准度的分析方法分析候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段的编辑精准度,采用编辑精准度较高的sgRNA组合及Cas9核酸酶,来编辑基因组DNA片段。
进一步地,所述的基因组DNA片段编辑方法,包括如下步骤:
(1)针对待编辑的基因组DNA片段,根据需要的编辑方式,设计候选sgRNA组合;
(2)利用权利要求前述的基因组DNA片段编辑精准度的分析方法,从所述候选的sgRNA组合中选择出针对所需要的编辑方式精准度较高的sgRNA组合;
(3)采用步骤(2)所选的sgRNA组合,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行编辑。
所述步骤(2)为利用前述的基因组DNA片段编辑精准度的分析方法,分析各候选sgRNA组合与各候选Cas9核酸酶配合时,针对所需要的编辑方式的编辑精准度,从中选择精准度较高的sgRNA组合以及与之配合的Cas9核酸酶;所述步骤(3)为采用步骤(2)所选的sgRNA组合以及与之配合的Cas9核酸酶,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行编辑。
步骤(3)中,将所选的sgRNA组合,以及含有所述Cas9核酸酶编码基因的质粒一同转入细胞中,对待编辑的基因组DNA片段进行编辑。
进一步地,步骤(1)中,设计候选sgRNA组合时,至少针对两种以上的PAM组合设计其候选sgRNA组合。
所述PAM组合包括第一PAM和第二PAM。
进一步地,所述第一PAM和第二PAM均位于待编辑的基因组DNA片段同一条DNA链上。所述同一条DNA链可以是正义链,也可以是反义链。
进一步地,所述第一PAM靠近同一条DNA链的5’端,所述第二PAM靠近同一条DNA链的3’端。
所述第一PAM的序列为NGG或CCN,所述第二PAM的序列为NGG或CCN,其中N为任意核苷酸。
优选地,所述PAM组合选自:NGG-NGG组合、CCN-CCN组合、CCN-NGG组合、NGG-CCN组合中的一种、两种、三种或四种。
进一步地,CRISPR/Cas9系统中的Cas9核酸酶能够特异性识别PAM组合中第一PAM和第二PAM,从而在第一PAM和第二PAM的上游处分别切割基因组DNA双链,产生突出断裂末端或钝断裂末端。
所产生的突出断裂末端或钝断裂末端在细胞自身存在的DNA损伤修复系统的作用下产生DNA片段编辑。
本发明中例举了当CRISPR/Cas9系统中的Cas9核酸酶能够特异性识别PAM组合中第一PAM和第二PAM,从而在第一PAM和第二PAM的上游3bp或4bp处分别切割基因组DNA双链,产生突出断裂末端或钝断裂末端。产生的钝断裂末端直接连接;而产生的突出断裂末端,则以补平连接的方式可加入与突出断裂末端互补的碱基后再连接。
若要进行精准的DNA片段删除,可选用NGG-CCN组合作为PAM组合,来设计其候选sgRNA组合。
若要进行一侧接头的精准DNA片段反转或倒位,可选用NGG-NGG或CCN-CCN组合作为PAM组合,来设计其候选sgRNA组合。
若要进行精准的DNA片段重复,可选用CCN-NGG组合作为PAM组合,来设计sgRNA组合。所述编辑方式选自突变、删除、反转或倒位、重复、易位或插入。细胞会借助自身存在的同源重组修复(HDR)或者非同源末端连接机制(NHEJ)对断裂的DNA进行修复。
进一步地,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行所需要的编辑过程中,加入CtIP抑制剂。可将所选的sgRNA组合,以及含有所述Cas9核酸酶编码基因的质粒一同转入细胞中之前、之时或之后,加入CtIP抑制剂。
所述CtIP抑制剂用于提高基因组DNA片段编辑的精准率。
所述CtIP抑制剂用于提高基因组DNA片段编辑后连接接头的直接连接率。
所述提高是指与未采用CtIP抑制剂时相比。
CtIP
CtIP,又称为RBBP8,其22-45氨基酸是与MRN复合物(Mre11-Rad50-Nbs1)的连接区域,它和C端的650-897氨基酸共同快速识别并与MRN复合物相互结合作用,定位于受损DNA序列上完成损伤修复过程。
CtIP抑制剂
CtIP又称为RBBP8,其22-45氨基酸是与MRN复合物(Mre11-Rad50-Nbs1)的连接区域,它和C端的650-897氨基酸共同快速识别并与MRN复合物相互结合作用,定位于受损DNA序列上完成损伤修复过程。
CtIP抑制剂是指对于CtIP具有抑制效果的化合物。对于CtIP具有抑制效果包括但不限于:抑制CtIP活性,抑制CtIP的磷酸化,或者抑制CtIP基因的转录、剪接、翻译、修饰或任何形式的活性表达。
所述CtIP抑制剂包括但不限于siRNA、shRNA、sgRNA、抗体、小分子化合物。
如本发明实施例1所例举的CtIP抑制剂可以是针对CtIP基因的CRISPR/Cas9系统,所述针对CtIP基因的CRISPR/Cas9系统包括靶向CtIP基因的sgRNA(SEQ ID NO.5~8所示)以及负责对CtIP基因进行切割的Cas9核酸酶。
如本发明实施例3所列举所述CtIP抑制剂还可以是能够抑制CtIP活性的小分子化合物3-AP。此外,小分子化合物Roscovitine(Rosc)也可以抑制CtIP活性。
抑制CtIP活性是指使CtIP活性下降。优选地,相比于抑制前,CtIP活性降低至少10%,较佳的降低至少30%,再佳的降低至少50%,更佳的降低至少70%,最佳的降低至少90%。
抑制CtIP磷酸化可抑制CtIP介导的细胞修复。
抑制CtIP的基因转录或表达是指:使CtIP的基因不转录,或降低CtIP的基因的转录活性,或者使CtIP的基因不表达,或降低CtIP的基因的表达活性。
本领域技术人员还可以使用常规方法对CtIP基因转录或表达进行调节,如基因敲除、同源重组,干扰RNA等。
CtIP的基因转录或表达的抑制可以通过PCR及Western Blot检测表达量验证。
优选地,与野生型相比,CtIP基因转录或表达降低至少10%,较佳的降低至少30%,再佳的降低至少50%,更佳的降低至少70%,又佳的降低至少90%,可能最佳地CtIP基因完全没有表达。
此外,也可采用本领域常规的技术来抑制CtIP基因的翻译、修饰或任何形式的活性表达来起到抑制CtIP活性的作用。
小分子化合物
本发明中指由几个或几十个原子组成,分子质量在1000以下的化合物。
3-AP(3-aminopyridine-2-carboxaldehyde thiosemicarbazone)是一种核糖核苷酸还原酶小分子抑制剂,有文章报道,3-AP通过抑制CtIP蛋白磷酸化抑制CtIP介导的细胞修复。
Roscovitine(ROSC)是细胞周期蛋白依赖性激酶(CDK)抑制剂,可作为CtIP抑制剂。
说明:
在本发明中,Cas9可作为Cas9核酸酶的简称使用,意思与Cas9核酸酶相同。SpCas9是一种野生型Cas9核酸酶,可简写为WT或Cas9 WT。在本发明中,Cas9-G915F、G915F、915F之间可替换使用,意思均为名称为G915F的Cas9核酸酶。在本发明中,Cas9-ΔF916、ΔF916、ΔF916突变体之间可替换使用,意思均为名称为ΔF916的Cas9核酸酶。在本发明中,Cas9-F916P、F916P、F916P突变体之间可替换使用,意思均为名称为F916P的Cas9核酸酶。在本发明中,Cas9-K918A、K918A、K918A突变体之间可替换使用,意思均为名称为K918A的Cas9核酸酶。在本发明中,Cas9-R919P、R919P、R919P突变体之间可替换使用,意思均为名称为R919P的Cas9核酸酶。在本发明中,Cas9-Q920P、Q920P、Q920P突变体之间可替换使用,意思均为名称为Q920P的Cas9核酸酶。在本发明中,Cas9-R780A、R780A、R780A突变体之间可替换使用,意思均为名称为R780A的Cas9核酸酶。
在进一步描述本发明具体实施方式之前,应理解,本发明的保护范围不局限于下述特定的具体实施方案;还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围。下列实施例中未注明具体条件的试验方法,通常按照常规条件,或者按照各制造商所建议的条件。
当实施例给出数值范围时,应理解,除非本发明另有说明,每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义,本发明中使用的所有技术和科学术语与本技术领域技术人员通常理解的意义相同。除实施例中使用的具体方法、设备、材料外,根据本技术领域的技术人员对现有技术的掌握及本发明的记载,还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。
除非另外说明,本发明中所公开的实验方法、检测方法、制备方法均采用本技术领域常规的分子生物学、生物化学、染色质结构和分析、分析化学、细胞培养、重组DNA技术及相关领域的常规技术。这些技术在现有文献中已有完善说明,具体可参见Sambrook等MOLECULAR CLONING:A LABORATORY MANUAL,Second edition,Cold Spring HarborLaboratory Press,1989 and Third edition,2001;Ausubel等,CURRENT PROTOCOLS INMOLECULAR BIOLOGY,John Wiley&Sons,New York,1987 and periodic updates;theseries METHODS IN ENZYMOLOGY,Academic Press,San Diego;Wolffe,CHROMATINSTRUCTURE AND FUNCTION,Third edition,Academic Press,San Diego,1998;METHODS INENZYMOLOGY,Vol.304,Chromatin(P.M.Wassarman and A.P.Wolffe,eds.),AcademicPress,San Diego,1999;和METHODS IN MOLECULAR BIOLOGY,Vol.119,ChromatinProtocols(P.B.Becker,ed.)Humana Press,Totowa,1999等。
实施例1转染针对CtIP基因的sgRNAs能够提高DNA片段删除后的精准连接效率
1.STM位点和CtIP基因的sgRNAs质粒构建
(1)购买引物
从上海桑尼生物科技有限公司购买分别针对STM位点(β-globin RE1)和CtIP基因的sgRNAs靶向序列的有5’悬挂端“ACCG”和“AAAC”可以互补配对的正反向脱氧寡核苷酸。
正反向脱氧寡核苷酸:
β-globin RE1sgRNA1F:accgATTGTTGTTGCCTTGGAGTG(SEQ ID NO.1)
β-globin RE1sgRNA1R:aaacCACTCCAAGGCAACAACAAT(SEQ ID NO.2)
β-globin RE1sgRNA2F:accgCTGGTCCCCTGGTAACCTGG(SEQ ID NO.3)
β-globin RE1sgRNA2R:aaacCCAGGTTACCAGGGGACCAG(SEQ ID NO.4)
CtIPsgRNA1F:accgGAGCAGAGCAGCGGGGCAA(SEQ ID NO.5)
CtIPsgRNA1R:aaacTTGCCCCGCTGCTCTGCTC(SEQ ID NO.6)
CtIPsgRNA2F:accgTTGCCCAAAGATTCCCCAG(SEQ ID NO.7)
CtIPsgRNA2R:aaacCTGGGGAATCTTTGGGCAA(SEQ ID NO.8)。
(2)获得互补配对的带有悬挂端的双链DNA
1)用ddH2O将脱氧寡核苷酸溶解至100μM,并稀释至20μM;
2)将正反脱氧寡核苷酸加入如下反应体系:
Figure BDA0001296125690000191
反应条件:95℃水浴,5min,然后打开水浴锅盖子温度降至60℃左右,盖上盖子冷却至室温。
(3)酶切pGL3-U6-sgRNA-PGK-Puro vector
1)用BsaI限制性内切酶酶切载体质粒,反应体系如下:
Figure BDA0001296125690000192
反应条件:37℃,1.5小时;
2)胶回收纯化DNA酶切片段,按照胶回收试剂盒(Axygen)说明纯化。
(4)连接酶切后的载体与带有悬挂端的双链DNA
连接体系如下:
Figure BDA0001296125690000193
反应条件:室温反应1.5小时。
(5)转化连接产物
用Stbl3感受态转化连接产物,在含氨苄抗生素(Amp,100mg/L)LB平板培养过夜,37℃。
(6)挑取单克隆测序
1)从氨苄抗生素LB平板上挑取单菌落,LB(Amp,100mg/L)液体培养过夜。
2)质粒提取,按照质粒小抽试剂盒(Axygen)说明提取。
3)提取后的质粒送上海桑尼生物科技有限公司测序。
(7)测序成功质粒进行中抽
1)测序成功的质粒用Stbl3感受态重新转化,在含Amp(100mg/L)的LB平板培养过夜。
2)上午挑取单菌落在2ml LB(Amp,100mg/L)液体培养基中培养8小时,然后转接到200ml LB(Amp,100mg/L)液体培养基中培养过夜。
3)收集细菌,按照质粒中抽试剂盒(Qiagen)说明提取质粒。
2.人源化Cas9质粒制备
1)人源化Cas9质粒从北京大学席建中实验室获得。
2)用Stbl3感受态重新转化,在LB平板(Amp,100mg/L)培养过夜。
3)上午挑取单菌落在2ml LB(Amp,100mg/L)液体培养基中培养8小时,然后转接到200ml LB(Amp,100mg/L)液体培养基中培养过夜,进行质粒中抽。
3.用Lipofectamine 2000进行细胞转染
1)HEK293T细胞培养在培养瓶中,在37℃,含有5%CO2细胞培养箱中培养,待其长至培养瓶80~90%。
2)将长好的细胞在12孔板中用DMEM完全无抗培养基(加入10%胎牛血清,无青链霉素双抗)进行铺板,过夜培养。
3)待12孔板中的细胞长至80~90%时,将制备好的人缘化Cas9质粒(800ng)、STM位点的sgRNAs质粒(各600ng)和CtIP基因的sgRNAs质粒(各600ng)通过Lipofectamine2000进行细胞转染,每个样品各两个重复。
4)转染后两天,收集细胞,用基因组提取试剂盒(
Figure BDA0001296125690000201
Genomic DNAPurification kit,Promega)提取基因组。
4.制备高通量测序文库
在DNA片段预期删除接头的精准连接位点(PAM上游3bp处Cas9切割后接头直接相连)上游大约30bp处设计引物,然后将引物5’端加上带有barcode的Illumina的测序接头,下游引物可以设计在远离拼接位点一些的位置并加上Illumina的测序接头,从生工生物工程(上海)有限公司引物合成后进行PCR扩增,然后使用罗氏PCR纯化试剂盒(Product No.:11732676001)进行纯化,DNA产物溶解在10mM Tris-HCL buffer(PH=8.5),等量混合后形成库,进行PE150第二代高通量测序。
5.高通量测序数据处理
高通量测序完成后,使用Linux程序将样品的测序结果从文库中通过barcode分出来,保存在各自的文件夹,然后进行BWA-MEM比对,比对后的序列通过Varscan2程序(V2.3.9)分析DNA片段的插入和删除突变,Varscan2程序参数如下:
Min coverage: 8
Min reads2: 2
Min varfreq: 0.01
Min avgqual: 15
P-value thresh: 0.01
针对STM位点,利用高通量测序引物对DNA片段删除事件进行PCR扩增,进行高通量测序分析删除事件的DNA末端连接情况,根据测序结果统计DNA片段删除连接接头精准和不精准情况。
研究表明,如图1A所示,和对照组相比,加入了靶向CtIP基因的sgRNAs与针对STM位点的sgRNAs、人源化SpCas9质粒共同转染人胚肾HEK293T细胞,干扰了CtIP基因表达,STM位点的删除片段连接接头的精准连接比例明显提高(与对照组比精准连接比例提高25.33%),并且在连接接头处的精准连接效率大大提高(与对照组比精准连接效率提高20.29%)。
同时参照上述方法,对于另外一个HS51RE1(HS51位点)DNA遗传编辑片段,结果如图1B所示,和对照组相比,加入了靶向CtIP基因的sgRNAs与针对HS51位点的sgRNAs、人源化SpCas9质粒共同转染人胚肾HEK293T细胞,干扰了CtIP基因表达,HS51位点的删除接头连接处精准的连接比例也有明显的提高(与对照组比精准连接比例提高12.56%),并且在连接接头处的精准连接效率大大提高(与对照组比精准连接效率提高10.85%)。
此外,选取的另一个β-globin位点(β-globin locus)DNA遗传编辑片段,结果如图1C所示,和对照组相比,加入了靶向CtIP基因的sgRNAs与针对β-globin locus位点的sgRNAs、人源化SpCas9质粒共同转染人胚肾HEK293T细胞,干扰了CtIP基因表达,β-globin位点的删除接头连接处精准的连接比例也有明显的提高(与对照组比精准连接比例提高12.62%),并且在连接接头处的精准连接效率大大提高(与对照组比精准连接效率提高12.71%)。
针对上述不同位点的sgRNAs靶向序列:
β-globin RE1sgRNA1:GATTGTTGTTGCCTTGGAGTG(SEQ ID NO.9)
β-globin RE1sgRNA2:GCTGGTCCCCTGGTAACCTGG(SEQ ID NO.10)
HS51 RE1sgRNA1:GCCACACATCCAAGGCTGAC(SEQ ID NO.11)
HS51 RE1sgRNA2:GAGATTTGGGGCGTCAGGAAG(SEQ ID NO.12)
β-globin locussgRNA1:GGAGATGGCAGTGTTGAAGC(SEQ ID NO.13)
β-globin locussgRNA2:CTAGGGGTCAGAAGTAGTTC(SEQ ID NO.14)
针对上述不同位点的的高通量引物:
Hiseq-hSTM-del-aF1:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTTGCTTAGAGCCAGGACTAATTGC(SEQ ID NO.15)
Hiseq-hSTM-del-2R:
CAAGCAGAAGACGGCATACGAGATAGTCAAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCTCTGCCTGAAAGGAGTC(SEQ ID NO.16)
Hiseq-hHs51-del-aF:
ATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGCAAGGAGATCCGTGTCGTC(SEQ ID NO.17)
Hiseq-hHs51-del-bR:
CAAGCAGAAGACGGCATACGAGATTTGACTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTTTTGGCTAACAACATAGTGCTTC(SEQ ID NO.18)
Hiseq-glob-del-aF2:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGGTTAGCGGCTTGCTCAATTC(SEQ ID NO.19)
Hiseq-glob-del-bR1:
CAAGCAGAAGACGGCATACGAGATATCACGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTCTTCAGCCATCCCAAGACTC(SEQ ID NO.20)。
综上所述,CtIP是在NHEJ(non-homologous end-joining)系统中对DNA断裂末端进行切割的重要辅助蛋白,转染了靶向CtIP基因sgRNAs的细胞干扰了CtIP基因表达,以致抑制了该蛋白功能,从而在DNA断裂后修复复合物对DNA末端进行切割的能力降低。
通过CRISPR/Cas9系统用两个sgRNAs靶向细胞修复系统中负责切割DNA双链的CtIP基因和针对目的DNA片段的两个sgRNAs共同作用,能够有效提高目的DNA片段删除接头处精准连接的比例和效率。
实施例2细胞系中CtIP突变能够有效提高目的DNA片段删除的精准连接效率
1.通过CRISPR系统获得CtIP突变的细胞系
1)HEK293T细胞培养在培养瓶中,待其长至培养瓶80~90%,将长好的细胞在12孔板中用DMEM完全无抗培养基进行铺板,过夜培养。待12孔板中的细胞长至80~90%时,将制备好的人源化Cas9质粒(800ng)和CtIP位点的sgRNAs质粒(各600ng)通过Lipofectamine2000进行细胞转染。
2)转染后48小时的细胞加入Puromycin(2μg/ml)进行四天药物筛选,然后在新鲜培养基中培养八天,收集细胞,将均匀分散的细胞进行细胞计数,然后稀释到一定数目种到96孔板中(每孔只有一个细胞),培养6天后只有一个细胞团的孔板继续加培养液再培养8天。
3)收集部分细胞用CtIP筛选引物鉴定DNA片段编辑情况,剩余细胞继续培养。
CtIP基因筛选引物:
CR-CtIP1-1F:GTACTACTTCTGGGTCTCCCGC(SEQ ID NO.21)
CR-CtIP1-1R:CACTACACTGCAGGTGCTCACC(SEQ ID NO.22)
CR-CtIP2-1F:CATGAATGGAGACTGTGTGATGG(SEQ ID NO.23)
CR-CtIP2-1R:CAAACTTTCACGTGGACGTAGAG(SEQ ID NO.24)
2.用Lipofectamine 2000进行CtIP突变细胞系转染
HEK293T细胞和CtIP突变细胞培养在培养瓶中,待其长至培养瓶80~90%,将长好的细胞在12孔板中用DMEM完全无抗培养基进行铺板,过夜培养。待12孔板中的细胞长至80~90%时,将制备好的人源化Cas9质粒(800ng)和STM位点的sgRNAs质粒(各600ng)通过Lipofectamine 2000进行细胞转染,每个样品各两个重复。转染后两天,收集细胞,用基因组提取试剂盒(
Figure BDA0001296125690000231
Genomic DNA Purification kit,Promega)提取基因组。
3.制备高通量测序文库
方法与实施例1中相同。
4.高通量测序数据处理
方法与实施例1中相同。
如上所述,将转染了Cas9质粒和针对CtIP基因的sgRNAs的HEK293T细胞进行单克隆化,通过CtIP基因筛选引物进行PCR筛选。在96个单克隆细胞中,筛选得到2个CtIP基因敲除的细胞系,即CtIP-#27和CtIP-#14(如图1D所示)。
接下来,在这两个CtIP基因敲除的细胞系和正常HEK293T细胞中,均转染针对STM位点的sgRNAs、Cas9质粒,转染48小时后收集基因组DNA,利用高通量测序引物对靶向位点进行PCR扩增,建库进行高通量测序。结果如图1E所示,这两个CtIP基因敲除的细胞系与正常HEK293T细胞相比,STM位点DNA片段删除接头的精准连接效率有效提高(分别提高17.02%和21.45%),然而,对插入突变影响较小。
在这两个CtIP基因敲除的细胞系和正常HEK293T细胞中,均转染针对HS51位点的sgRNAs、Cas9质粒,转染48小时后收集基因组DNA,利用高通量测序引物对靶向位点进行PCR扩增,建库进行高通量测序。结果如图1F所示,这两个CtIP基因敲除的细胞系与正常HEK293T细胞相比,HS51位点DNA片段删除接头的精准连接效率有效提高(分别提高8.63%和7.83%),然而,对插入突变影响较小。
在这两个CtIP基因敲除的细胞系和正常HEK293T细胞中,均转染针对β-globin位点的sgRNAs、Cas9质粒,转染48小时后收集基因组DNA,利用高通量测序引物对靶向位点进行PCR扩增,建库进行高通量测序。结果如图1G所示,这两个CtIP基因敲除的细胞系与正常HEK293T细胞相比,β-globin位点DNA片段删除接头的精准连接效率有效提高(分别提高12.58%和13.75%),然而,对插入突变影响较小。综上所述,细胞系中CtIP基因突变后可以有效地提高目的DNA片段删除接头处精准连接的效率。
实施例3 3-AP提高DNA片段删除的精准连接效率
1.在STM位点用Lipofectamine 2000进行细胞系转染
将HEK293T细胞和CtIP突变细胞在12孔板中用DMEM完全无抗培养基进行铺板,过夜培养。待12孔板中的细胞长至80~90%时,去除培养基,加入含有DMSO或不同浓度的0.2μM,0.4μM,0.8μM,1.6μM的3-AP(SML0568,Sigma)的DMEM完全无抗培养基,将制备好的人源化Cas9质粒(800ng)和针对STM位点的sgRNAs(各600ng)通过Lipofectamine 2000进行细胞转染。24小时后,去除培养基,加入DMEM完全双抗培养基(加入10%胎牛血清和1%青链霉素双抗),再过24小时,收集细胞,用基因组提取试剂盒(
Figure BDA0001296125690000241
Genomic DNA Purificationkit,Promega)提取基因组,每个样品各两个重复。
2.制备高通量测序文库
方法与实施例1中相同。
3.高通量测序数据处理
方法与实施例1中相同。
3-AP(3-aminopyridine-2-carboxaldehyde thiosemicarbazone)是一种核糖核苷酸还原酶小分子抑制剂,有文章报道,3-AP通过抑制CtIP蛋白磷酸化抑制CtIP介导的同源重组修复[34]。在正常HEK293T细胞、CtIP-#14和CtIP-#27突变细胞系中,在含有DMSO(对照)或不同浓度(0.2μM,0.4μM,0.8μM,1.6μM)的3-AP(Sigma)的培养基培养条件下,转染Cas9质粒和针对STM位点的sgRNAs质粒,24小时后,收集细胞提取基因组。用高通量测序引物进行PCR扩增获得STM位点的DNA片段删除接头片段,等分子量混合后形成库,进行高通量测序。结果如图1H所示,对于正常的HEK293T细胞,加入0.2~0.8μM的3AP就可以提高DNA片段删除的精准连接比例;在CtIP-#14细胞系中,伴随3-AP浓度的增加,DNA片段删除的精准连接比例不断增加;在CtIP-#27细胞系中,伴随3-AP浓度增加到0.4μM,DNA片段删除的精准连接比例就不再增加;CtIP-#27和CtIP-#14细胞系中的精准连接比例均高于正常的HEK293T细胞中;这也是与前面的实验结果相符合。此外,CtIP-#27细胞系中的精准连接比例高于CtIP-#14细胞细胞系中的精准连接比例。在CtIP突变的细胞系中,加入低浓度的3-AP就可以提高DNA片段删除的精准连接比例。
在正常HEK293T细胞、CtIP-#14和CtIP-#27突变细胞系中,在含有DMSO(对照)或不同浓度(0.2μM,0.4μM,0.8μM,1.6μM)的3-AP(Sigma)的培养基培养条件下,转染Cas9质粒和针对HS51位点的sgRNAs质粒,24小时后,收集细胞提取基因组。用高通量测序引物进行PCR扩增获得HS51位点的DNA片段删除接头片段,等分子量混合后形成库,进行高通量测序。结果如图1I所示,对于正常的HEK293T细胞,加入0.2~0.8μM的3AP就可以提高DNA片段删除的精准连接比例;在CtIP-#14细胞系中,伴随3-AP浓度的增加,DNA片段删除的精准连接比例不断增加;在CtIP-#27细胞系中,伴随3-AP浓度增加到0.4μM,DNA片段删除的精准连接比例就不再增加;CtIP-#27和CtIP-#14细胞系中的精准连接比例均高于正常的HEK293T细胞中;这也是与前面的实验结果相符合。此外,CtIP-#27细胞系中的精准连接比例高于CtIP-#14细胞细胞系中的精准连接比例。在CtIP突变的细胞系中,加入低浓度的3-AP就可以提高DNA片段删除的精准连接比例。
综上所述,3-AP可以显著提高目的DNA片段删除的精准连接比例。
实施例4研究DNA片段编辑接头的连接情况发现Cas9切割新机制
针对HS51位点,构建针对HS51位点的sgRNAs质粒:
(1)购买引物
从上海桑尼生物科技有限公司购买分别针对HS51位点和的sgRNAs靶向序列的有5’悬挂端“ACCG”和“AAAC”可以互补配对的正反向脱氧寡核苷酸;
针对上述HS51位点的sgRNAs靶向序列:
HS51 RE1sgRNA1:GCCACACATCCAAGGCTGAC(SEQ ID NO.25)
HS51 RE1sgRNA2:GAGATTTGGGGCGTCAGGAAG(SEQ ID NO.26)
(2)获得互补配对的带有悬挂端的双链DNA
1)用ddH2O将脱氧寡核苷酸溶解至100μM,并稀释至20μM;
2)将正反脱氧寡核苷酸加入如下反应体系:
Figure BDA0001296125690000261
反应条件:95℃水浴,5min,然后打开水浴锅盖子温度降至60℃左右,盖上盖子冷却至室温。
(3)酶切pGL3-U6-sgRNA-PGK-Puro vector
1)用BsaI限制性内切酶酶切载体质粒,反应体系如下:
Figure BDA0001296125690000262
反应条件:37℃,1.5小时;
2)胶回收纯化DNA酶切片段,按照胶回收试剂盒(Axygen)说明纯化。
(4)连接酶切后的载体与带有悬挂端的双链DNA
连接体系如下:
Figure BDA0001296125690000271
反应条件:室温反应1.5小时;
(5)转化连接产物
用Stbl3感受态转化连接产物,在含氨苄抗生素(Amp,100mg/L)LB平板培养过夜,37℃。
(6)挑取单克隆测序
1)从氨苄抗生素LB平板上挑取单菌落,LB(Amp,100mg/L)液体培养过夜;
2)质粒提取,按照质粒小抽试剂盒(Axygen)说明提取;
3)提取后的质粒送上海桑尼生物科技有限公司测序。
(7)测序成功质粒进行中抽
1)测序成功的质粒用Stbl3感受态重新转化,在含Amp(100mg/L)的LB平板培养过夜;
2)上午挑取单菌落在2ml LB(Amp,100mg/L)液体培养基中培养8小时,然后转接到200ml LB(Amp,100mg/L)液体培养基中培养过夜;
3)收集细菌,按照质粒中抽试剂盒(Qiagen)说明提取质粒。
2.人源化Cas9质粒制备
1)人源化Cas9质粒从北京大学席建中实验室获得;
2)用Stbl3感受态重新转化,在LB平板(Amp,100mg/L)培养过夜;
3)上午挑取单菌落在2ml LB(Amp,100mg/L)液体培养基中培养8小时,然后转接到200ml LB(Amp,100mg/L)液体培养基中培养过夜,进行质粒中抽。
3.用Lipofectamine 2000进行细胞转染
1)HEK293T细胞培养在培养瓶中,在37℃,含有5%CO2细胞培养箱中培养,待其长至培养瓶80~90%。
2)将长好的细胞在12孔板中用DMEM完全无抗培养基(加入10%胎牛血清,无青链霉素双抗)进行铺板,过夜培养。
3)待12孔板中的细胞长至80~90%时,将制备好的人源化Cas9质粒(800ng)和针对HS51位点的sgRNAs质粒(各600ng)通过Lipofectamine 2000进行细胞转染,每个样品各两个重复。
4)转染后两天,收集细胞,用基因组提取试剂盒(
Figure BDA0001296125690000281
Genomic DNAPurification kit,Promega)提取基因组。
4.制备高通量测序文库
在DNA片段预期删除、反转和重复接头的精准连接位点上游大约30bp处设计引物,然后将引物5’端加上带有barcode的Illumina的测序接头,下游引物可以设计在远离拼接位点一些的位置并加上Illumina的测序接头,进行PCR扩增,然后使用罗氏PCR纯化试剂盒(Product No.:11732676001)进行纯化,DNA产物溶解在10mM Tris-HCL buffer(PH=8.5),等量混合后形成库,进行高通量测序。
高通量引物:
Hiseq-hHs51-aF:
ATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGCAAGGAGATCCGTGTCGTC(SEQ ID NO.27)
Hiseq-hs51-aRa:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTAAGGATGTTGTGGAAGGCGAGCAG(SEQ ID NO.28)
Hiseq-hs51-bFa:
CAAGCAGAAGACGGCATACGAGATGGACGGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTTTACATGACAGCTTCCGGTAG(SEQ ID NO.29)
Hiseq-hHs51-bR:
CAAGCAGAAGACGGCATACGAGATTTGACTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTTTTGGCTAACAACATAGTGCTTC(SEQ ID NO.30)。
5.高通量测序数据处理
高通量测序完成后,使用Linux程序将样品的测序结果从文库中通过barcode分出来,保存在各自的文件夹,然后进行BWA-MEM比对,比对后的序列通过Varscan2程序(V2.3.9)分析DNA片段的插入和删除突变,Varscan2程序参数如下:
Min coverage: 8
Min reads2: 2
Min var freq: 0.01
Min avg qual: 15
P-value thresh: 0.01。
本发明通过研究DNA片段编辑的末端连接情况发现Cas9核酸酶切割新机制。
如图2A所示,采用两个sgRNAs形成的sgRNA组合及Cas9核酸酶对基因组DNA片段进行编辑时,Cas9核酸酶在两个sgRNAs介导下对基因组DNA双链进行切割产生四个断裂末端(DSB),这些断裂末端(DSB)在细胞修复系统(例如,MRN/CtIP)的作用下产生DNA片段删除、反转和重复等DNA片段编辑。
如图2B所示,针对基因组DNA片段HS51 RE1(HS51位点),我们采用sgRNA1和sgRNA2形成的sgRNA组合及Cas9核酸酶对其进行编辑。而后,我们检测到了DNA片段删除、反转和重复,再利用高通量测序技术检测DNA片段删除、反转和重复连接接头的情况,除了与预期相符的精准连接(Joined precisely)外,DNA片段删除连接接头、反转下游连接接头和重复连接接头处都存在一定比例的碱基加入(Insertion)。
如图2C所示,利用高通量测序技术检测DNA片段删除连接接头的情况,与预期相符的精准连接(Joined precisely)比例占79.23%,删除接头处还存在“G”碱基的加入(Insertion,与预期的精准连接相比),其比例占11.13%。
与预期的精准连接相比,推测DNA片段删除连接接头处加入的“G”碱基是来源于模版DNA(HS51 RE1,HS51位点)的PAM上游3bp附近(具体为PAM上游4bp处)的碱基。因此,推测Cas9核酸酶对与sgRNA互补的DNA链进行切割时,是在PAM上游3bp处进行切割;而Cas9核酸酶对与sgRNA非互补的DNA链进行切割时,可在PAM上游3bp处更远的4bp处进行切割。根据DNA片段删除连接接头处存在“G”碱基的加入(与预期的精准连接相比),推测Cas9核酸酶在sgRNA2介导下对基因组DNA片段进行切割时,有钝末端切割和突出末端切割,进而产生不同断裂末端。当Cas9核酸酶在sgRNA2介导下对基因组DNA片段进行了钝末端切割时,也就是Cas9核酸酶对与sgRNA互补的DNA链及非互补的DNA链进行切割时均是在PAM上游3bp处进行切割,产生了钝断裂末端“E3”。钝断裂末端“E3”在细胞修复系统的作用下产生DNA片段删除时,不会导致DNA片段删除连接接头处“G”碱基的加入,而是产生与预期相符的精准连接(Joined precisely)。当Cas9核酸酶在sgRNA2介导下对基因组DNA片段进行了突出末端切割时,也就是Cas9核酸酶对与sgRNA互补的DNA链进行切割时是在PAM上游3bp处进行切割,而对与sgRNA非互补的DNA链进行切割时是在PAM上游4bp处进行切割,从而产生了5’突出断裂末端“E4”。5’突出断裂末端“E4”在细胞修复系统的作用下产生DNA片段删除时,会导致DNA片段删除连接接头处“G”碱基的加入。
因此,我们认为:在Cas9核酸酶的切割下,产生的断裂末端中,钝断裂末端E3的比例=预期相符的精准连接(Joined precisely)的比例=79.23%。突出断裂末端E4的比例=“G”碱基的加入比例=11.13%。
但是,我们观察到,除了与预期相符的精准连接(Joined precisely)以及DNA片段删除连接接头处存在“G”碱基的加入这两大类情况以外,还有一类随机的碱基删除(Smalldeletion)。我们认为这类随机的碱基删除(Small deletion)是各断裂末端(钝断裂末端E3和突出断裂末端E4)在细胞修复系统的作用下随机产生的,各断裂末端以均等的概率来产生碱基删除(Small deletion),各断裂末端在细胞修复系统的作用下所产生的碱基删除(Small deletion)的数量与各断裂末端的数量成正比。
基于随机碱基删除现象的存在,我们认为,经过测序获得的各断裂末端的实测比例与其真实比例存在差距,需要进行修正还原,即以各种断裂末端的实测比例之和为基准,计算各断裂末端的比例,以此作为该断裂末端的占比。即对Cas9核酸酶的切割所产生的各断裂末端的比例进行标准化计算,钝断裂末端E3的比例为87.7%【计算方法为:79.23%÷(79.23%+11.13%)】。突出断裂末端E4的比例为12.3%【计算方法为:11.13%÷(79.23%+11.13%)】。亦即,Cas9核酸酶在sgRNA2的介导下对基因组DNA片段进行的切割方式中,钝末端切割的比例为87.7%,突出末端切割的比例为12.3%。
如图2D所示,利用高通量测序技术检测DNA片段重复连接接头的情况,与预期相符的精准连接(Joined precisely)的比例占8.96%,连接接头处存在“T”碱基的加入(Insertion,与预期的精准连接相比)的比例占82.92%。
与预期的精准连接相比,推测DNA片段重复连接接头处加入的“T”碱基是来源于模版DNA(HS51 RE1,HS51位点)上的PAM上游3bp附近(具体为PAM上游4bp处)的碱基。因此,推测Cas9核酸酶对与sgRNA互补的DNA链进行切割时,是在PAM上游3bp处进行切割;而Cas9核酸酶对与sgRNA非互补的DNA链进行切割时,可在PAM上游3bp处更远的4bp处进行切割。根据DNA片段重复连接接头处检测到存在“T”碱基的加入(与预期的精准连接相比),推测Cas9核酸酶在sgRNA1介导下对基因组DNA片段进行切割时,有钝末端切割和突出末端切割,进而产生不同断裂末端。当Cas9核酸酶在sgRNA1介导下对基因组DNA片段进行了钝末端切割时,也就是Cas9核酸酶对与sgRNA互补的DNA链及非互补的DNA链进行切割时均是在PAM上游3bp处进行切割,产生了钝断裂末端“C3”。钝断裂末端“C3”在细胞修复系统的作用下产生DNA片段重复时,不会导致DNA片段重复连接接头处“T”碱基的加入,而是产生与预期相符的精准连接(Joined precisely)。当Cas9核酸酶在sgRNA1介导下对基因组DNA片段进行了突出末端切割时,也就是Cas9核酸酶对与sgRNA互补的DNA链进行切割时是在PAM上游3bp处进行切割,而对与sgRNA非互补的DNA链进行切割时是在PAM上游4bp处进行切割,从而产生了5’突出断裂末端“C4”。5’突出断裂末端“C4”在细胞修复系统的作用下产生DNA片段重复时,会导致DNA片段重复连接接头处“T”碱基的加入。
因此,我们认为:在Cas9核酸酶的切割下,产生的断裂末端中,钝断裂末端C3的比例=预期相符的精准连接(Joined precisely)的比例=8.96%。突出断裂末端C4的比例=“T”碱基的加入比例=82.92%。
但是,我们观察到,除了与预期相符的精准连接(Joined precisely)以及DNA片段重复连接接头处存在“T”碱基的加入这两大类情况以外,还有一类随机的碱基删除(Smalldeletion)。我们认为这类随机的碱基删除(Small deletion)是各断裂末端(钝断裂末端C3和突出断裂末端C4)在细胞修复系统的作用下随机产生的,各断裂末端以均等的概率来产生碱基删除(Small deletion),各断裂末端在细胞修复系统的作用下所产生的碱基删除(Small deletion)的数量与各断裂末端的数量成正比。
基于随机碱基删除现象的存在,我们认为,经过测序获得的各断裂末端的实测比例与其真实比例存在差距,需要进行修正还原,即以各种断裂末端的实测比例之和为基准,计算各断裂末端的比例,以此作为该断裂末端的占比。即对Cas9核酸酶的切割所产生的各断裂末端的比例进行标准化计算,钝断裂末端C3的比例为9.75%【计算方法为:8.96%÷(8.96%+82.92%)】。突出断裂末端C4的比例为90.25%【计算方法为:82.92%÷(8.96%+82.92%)】。亦即,Cas9核酸酶在sgRNA1的介导下对基因组DNA片段进行的切割方式中,钝末端切割的比例为9.75%,突出末端切割的比例为90.25%。
如图2E所示,根据Cas9核酸酶在sgRNA1和sgRNA2的介导下分别对基因组DNA片段进行切割的方式比例,预测产生的断裂末端的序列,进而推算出DNA片段反转下游连接接头处的碱基加入情况及比例。
当Cas9核酸酶在sgRNA1的介导下对基因组DNA片段进行突出末端切割,产生突出断裂末端“C4”,Cas9核酸酶在sgRNA2的介导下对基因组DNA片段进行钝末端切割,产生钝断裂末端“E3”,则在细胞修复系统的作用下,DNA片段反转下游接头处会出现“A”碱基的加入,且发生的比例为79.14%【计算方法为:“C4”突出断裂末端占比(90.25%)x“E3”钝断裂末端占比(87.7%)=79.14%】,与实验检测到的DNA片段反转下游接头处“A”碱基加入比例71.94%相近。
当Cas9核酸酶在sgRNA1的介导下对基因组DNA片段进行钝末端切割,产生钝断裂末端“C3”,Cas9核酸酶在sgRNA2的介导下对基因组DNA片段进行突出末端切割,产生突出断裂末端“E4”,则在细胞修复系统的作用下,DNA片段反转下游接头处会出现“G”碱基的加入,且发生的比例为1.19%【计算方法为:“C3”钝断裂末端占比(9.75%)x“E4”突出断裂末端占比(12.3%)=1.19%】,与实验检测到的DNA片段反转下游接头处“G”碱基加入比例8.54%相近。
当Cas9核酸酶在sgRNA1的介导下对基因组DNA片段进行突出末端切割,产生突出断裂末端“C4”,Cas9核酸酶在sgRNA2的介导下对基因组DNA片段进行突出末端切割,产生突出断裂末端“E4”,则在细胞修复系统的作用下,DNA片段反转下游接头处会出现“AG”碱基的加入,且发生的比例为11%【计算方法为:“C4”突出断裂末端占比(90.25%)x“E4”突出断裂末端占比(12.3%)=11%】,与实验检测到的DNA片段反转下游接头处“AG”碱基加入比例3.66%相近。
当Cas9核酸酶在sgRNA1的介导下对基因组DNA片段进行钝末端切割,产生钝断裂末端“C3”,Cas9核酸酶在sgRNA2的介导下对基因组DNA片段进行钝末端切割,产生钝断裂末端“E3”,则在细胞修复系统的作用下,DNA片段反转下游接头精准连接,且发生的比例为8.55%【计算方法为:“C3”钝断裂末端占比(9.75%)x“E3”钝断裂末端占比(87.7%)=8.55%】,与实验检测到的DNA片段反转下游接头精准连接比例6.67%相近。
综上所述,图2E的实验结果进一步证实了:Cas9核酸酶对与sgRNA非互补的DNA链进行切割时,可在PAM上游3bp处到更远碱基处进行切割。Cas9核酸酶在sgRNA介导下对基因组DNA片段进行切割时,有钝末端切割和突出末端切割,进而产生不同断裂末端。这些断裂末端在细胞修复系统的作用下,产生与预期相符的精准DNA片段编辑(特定碱基的精准编辑)或者与预期不符的基因编辑(随机的碱基删除)。
如图2F所示,sgRNA组合中,sgRNA的设计不同(靶序列不同),Cas9核酸酶在sgRNA的介导下对基因组DNA片段进行切割方式比例不同,产生的断裂末端比例不同。具体地,Cas9核酸酶在sgRNA1的介导下对基因组DNA片段进行切割时,钝末端切割方式的占比高于突出末端切割方式占比,产生的钝断裂末端占比高于5’突出断裂末端占比。然而Cas9核酸酶在sgRNA2的介导下对基因组DNA片段进行切割时,突出末端切割方式的占比高于钝末端切割方式占比,产生的5’突出断裂末端占比也高于钝断裂末端占比。
由于发现Cas9核酸酶在sgRNA介导下对基因组DNA片段进行切割的方式有钝末端切割和突出末端切割,当Cas9核酸酶在sgRNA介导下对基因组DNA片段进行突出末端切割,产生突出断裂末端时,按照补平连接的方式可加入与突出断裂末端互补的碱基,从而实现对基因组DNA片段特定位置的碱基加入。
实施例5突变SpCas9获得切割方式改变的特定Cas9实现精准的DNA片段编辑
1.构建Cas9突变体
1)使用NEB突变试剂盒(Q5Site-Directed Mutagenesis Kit,#E0554S)构建Cas9突变体,首先进行PCR扩增,反应如下:
Figure BDA0001296125690000331
Figure BDA0001296125690000332
2)KLD(Kinase,Ligase&DpnI)处理,反应如下:
Figure BDA0001296125690000333
反应条件:室温10分钟
3)将2)中的反应产物全部用于感受态细菌Stbl3(50μl)的转化,在含氨苄抗生素(Amp,100mg/L)LB平板培养过夜,37℃。挑取单克隆,质粒提取后送测序。
SpCas9的氨基酸序列如SEQ ID NO.31所示,具体为:
Figure BDA0001296125690000341
SpCas9的编码核苷酸序列如SEQ ID NO.32所示,具体为:
Figure BDA0001296125690000342
Figure BDA0001296125690000351
Figure BDA0001296125690000361
Figure BDA0001296125690000371
如图3A所示,Cas9核酸酶含有RuvC和HNH功能域,RuvC功能域负责切割与sgRNA非互补的DNA链,HNH功能域负责切割与sgRNA互补的DNA链[35]。
对SpCas9的氨基酸残基进行突变,获得的Cas9突变体包括:
(1)Cas9-G915F(将SpCas9核酸酶第915位甘氨酸突变成苯丙氨酸):
Cas9-G915F的氨基酸序列如SEQ ID NO.33所示,具体为:
Figure BDA0001296125690000372
Figure BDA0001296125690000381
Cas9-G915F的编码核苷酸序列如SEQ ID NO.34所示,具体为:
Figure BDA0001296125690000382
Figure BDA0001296125690000391
Figure BDA0001296125690000401
(2)Cas9-ΔF916(将SpCas9核酸酶第916位苯丙氨酸删除):
Cas9-ΔF916的氨基酸序列如SEQ ID NO.35所示,具体为:
Figure BDA0001296125690000402
Figure BDA0001296125690000411
Cas9-ΔF916的编码核苷酸序列如SEQ ID NO.36所示,具体为:
Figure BDA0001296125690000412
Figure BDA0001296125690000421
Figure BDA0001296125690000431
(3)Cas9-F916P:
Cas9-F916P的氨基酸序列如SEQ ID NO.37所示,具体为:
Figure BDA0001296125690000432
Figure BDA0001296125690000441
Cas9-F916P的编码核苷酸序列如SEQ ID NO.38所示,具体为:
Figure BDA0001296125690000442
Figure BDA0001296125690000451
Figure BDA0001296125690000461
Figure BDA0001296125690000471
(4)Cas9-K918A:
Cas9-K918A的氨基酸序列如SEQ ID NO.39所示,具体为:
Figure BDA0001296125690000472
Cas9-K918A的编码核苷酸序列如SEQ ID NO.40所示,具体为:
Figure BDA0001296125690000481
Figure BDA0001296125690000491
Figure BDA0001296125690000501
(5)Cas9-R919P:
Cas9-R919P的氨基酸序列如SEQ ID NO.41,具体为:
Figure BDA0001296125690000502
Figure BDA0001296125690000511
Cas9-R919P的编码核苷酸序列如SEQ ID NO.42所示,具体为:
Figure BDA0001296125690000512
Figure BDA0001296125690000521
Figure BDA0001296125690000531
(6)Cas9-Q920P:
Cas9-Q920P的氨基酸序列如SEQ ID NO.43所示,具体为:
Figure BDA0001296125690000532
Figure BDA0001296125690000541
Cas9-Q920P的编码核苷酸序列如SEQ ID NO.44所示,具体为:
Figure BDA0001296125690000542
Figure BDA0001296125690000551
Figure BDA0001296125690000561
(7)Cas9-R780A:
Cas9-R780A的氨基酸序列如SEQ ID NO.45所示,具体为:
Figure BDA0001296125690000571
Cas9-R780A的编码核苷酸序列如SEQ ID NO.46所示,具体为:
Figure BDA0001296125690000572
Figure BDA0001296125690000581
Figure BDA0001296125690000591
Figure BDA0001296125690000601
2.Cas9突变体进行DNA片段编辑
(1)针对β-globin RE2(RRM21位点),构建RRM21位点(β-globin RE2)的sgRNAs。
所述sgRNAs靶向序列:
β-globin RE2sgRNA1:ACCCAATGACCTCAGGCTGT(SEQ ID NO.47)
β-globin RE2sgRNA2:TCACTTGTTAGCGGCATCTG(SEQ ID NO.48)。
从上海桑尼生物科技有限公司购买针对β-globin RE2(RRM21位点)的sgRNAs靶向序列的有5’悬挂端“ACCG”和“AAAC”可以互补配对的正反向脱氧寡核苷酸。
(2)获得互补配对的带有悬挂端的双链DNA
1)用ddH2O将脱氧寡核苷酸溶解至100μM,并稀释至20μM;
2)将正反脱氧寡核苷酸加入如下反应体系:
Figure BDA0001296125690000602
反应条件:95℃水浴,5min,然后打开水浴锅盖子温度降至60℃左右,盖上盖子冷却至室温。
(3)酶切pGL3-U6-sgRNA-PGK-Puro vector
1)用BsaI限制性内切酶酶切载体质粒,反应体系如下:
Figure BDA0001296125690000603
Figure BDA0001296125690000611
反应条件:37℃,1.5小时;
2)胶回收纯化DNA酶切片段,按照胶回收试剂盒(Axygen)说明纯化。
(4)连接酶切后的载体与带有悬挂端的双链DNA
连接体系如下:
Figure BDA0001296125690000612
反应条件:室温反应1.5小时;
(5)转化连接产物
用Stbl3感受态转化连接产物,在含氨苄抗生素(Amp,100mg/L)LB平板培养过夜,37℃。
(6)挑取单克隆测序
1)从氨苄抗生素LB平板上挑取单菌落,LB(Amp,100mg/L)液体培养过夜;
2)质粒提取,按照质粒小抽试剂盒(Axygen)说明提取;
3)提取后的质粒送上海桑尼生物科技有限公司测序。
(7)测序成功质粒进行中抽
1)测序成功的质粒用Stbl3感受态重新转化,在含Amp(100mg/L)的LB平板培养过夜;
2)上午挑取单菌落在2ml LB(Amp,100mg/L)液体培养基中培养8小时,然后转接到200ml LB(Amp,100mg/L)液体培养基中培养过夜;
3)收集细菌,按照质粒中抽试剂盒(Qiagen)说明提取质粒。
(8)用Lipofectamine 2000进行细胞转染
1)HEK293T细胞培养在培养瓶中,在37℃,含有5%CO2细胞培养箱中培养,待其长至培养瓶80~90%,将长好的细胞在12孔板中用DMEM完全无抗培养基进行铺板,过夜培养;
2)待12孔板中的细胞长至80~90%时,将制备好的Cas9和Cas9突变体质粒(800ng)与针对RRM21位点的sgRNAs质粒(各600ng)通过Lipofectamine 2000进行细胞转染,每个样品各两个重复。
3)转染后两天,收集细胞,用基因组提取试剂盒(
Figure BDA0001296125690000621
Genomic DNAPurification kit,Promega)提取基因组。
(9)制备高通量测序文库
在DNA片段预期删除、反转和重复接头的精准连接位点上游大约30bp处设计引物,然后将引物5’端加上带有barcode的Illumina的测序接头,下游引物可以设计在远离拼接位点一些的位置并加上Illumina的测序接头,进行PCR扩增,然后使用罗氏PCR纯化试剂盒(Product No.:11732676001)进行纯化,DNA产物溶解在10mM Tris-HCL buffer(PH=8.5),等量混合后形成库,进行高通量测序。
Cas9突变引物:
Cas9-G915F-F:GGATAAAGCAttcTTCATCAAAAGGCAGC(SEQ ID NO.49)
Cas9-G915F-R:AACTCAGACAGGCCACCT(SEQ ID NO.50)
Cas9-ΔF916-F:ATCAAAAGGCAGCTTGTTG(SEQ ID NO.51)
Cas9-ΔF916-R:GCCTGCTTTATCCAACTC(SEQ ID NO.52)
Cas9-F916P-F:TAAAGCAGGCcccATCAAAAGGCAG(SEQ ID NO.53)
Cas9-F916P-R:TCCAACTCAGACAGGCCA(SEQ ID NO.54)
Cas9-K918A-F:AGGCTTCATCgccAGGCAGCTTG(SEQ ID NO.55)
Cas9-K918A-R:GCTTTATCCAACTCAGAC(SEQ ID NO.56)
Cas9-R919P-F:CTTCATCAAAcccCAGCTTGTTGAGACACG(SEQ ID NO.57)
Cas9-R919P-R:CCTGCTTTATCCAACTCAG(SEQ ID NO.58)
Cas9-Q920P-F:CATCAAAAGGcccCTTGTTGAGACAC(SEQ ID NO.59)
Cas9-Q920P-R:AAGCCTGCTTTATCCAAC(SEQ ID NO.60)
Cas9-R780-A-F:CAGTAGGGAAgccATGAAGAGGATTGAAG(SEQ ID NO.61)
Cas9-R780-A-R:TTCTTCTGTCCCTTCTGG(SEQ ID NO.62)
(10)高通量测序数据处理
高通量测序完成后,使用Linux程序将样品的测序结果从文库中通过barcode分出来,保存在各自的文件夹,然后进行BWA-MEM比对,比对后的序列通过Varscan2程序(V2.3.9)分析DNA片段的插入和删除突变,Varscan2程序参数如下:
Min coverage: 8
Min reads2: 2
Min var freq: 0.01
Min avg qual: 15
P-value thresh: 0.01。
针对β-globin RE2位点,利用高通量测序引物进行PCR扩增DNA片段删除、反转和重复,建库进行高通量测序。
高通量引物:
Hiseq-RRM-1F3:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTATATGGCATCCTAGCCTTAAGAAACTAG(SEQ ID NO.63)
Hiseq-RRM-1R2:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTTACGACGCAGGAGCCGTATCATG(SEQ ID NO.64)
Hiseq-RRM-3F2:
CAAGCAGAAGACGGCATACGAGATAAGCTAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATAGCAATGAAATCTTGAAGGAGTG(SEQ ID NO.65)
Hiseq-RRM-3R2:
CAAGCAGAAGACGGCATACGAGATTCAAGTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCACAGCCCTGCTCTATTACG(SEQ ID NO.66)。
参照上述实施例4的方法,采用两个sgRNAs形成的sgRNA组合及Cas9核酸酶对基因组DNA片段进行编辑后,可利用高通量测序技术检测DNA片段删除和重复的连接接头碱基加入情况,进而计算出Cas9核酸酶在各sgRNA介导下对基因组DNA片段进行切割时,钝末端切割方式和突出末端切割方式的占比。
具体地,各Cas9核酸酶(WT、G915F、F916P、ΔF916、K918A、R919P、Q920P和R780A)(图3A)在sgRNA组合中各sgRNA介导下对基因组DNA片段β-globin RE2位点进行编辑的两个sgRNAs的示意图如图3B。
如图3C所示,利用高通量测序技术检测DNA片段重复连接接头的情况,除了与预期相符的精准连接(Joined precisely)以外,还存在与预期的精准连接相比,连接接头处加入了“C”碱基和“GC”碱基的情况。选用不同的Cas9核酸酶时,检测到的与预期相符的精准连接(Joined precisely)、“+C”碱基、“+GC”碱基的占比不同。以选用G915F这个Cas9核酸酶为例,检测到与预期相符的精准连接(Joined precisely)的占比为68.76%,“+C”碱基的占比为15.04%“+GC”碱基的占比为0.20%。
鉴于DNA片段重复连接接头处检测到存在“C”碱基的加入(与预期的精准连接相比),我们推测DNA片段重复连接接头处加入的“C”碱基是来源于模版DNA(β-globin RE2位点)上的PAM(AGG)上游4bp处的碱基。并且,进一步推测G915F这个Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA互补的DNA链进行切割时,是在PAM上游3bp处进行切割,而对与sgRNA非互补DNA链进行切割时,则是在PAM(AGG)上游4bp处进行突出末端切割,从而产生了突出断裂末端U4。突出断裂末端U4在细胞修复系统的作用下产生DNA片段重复时,导致了DNA片段重复连接接头处“C”碱基的加入。
同理,鉴于DNA片段重复连接接头处检测到存在“GC”碱基的加入(与预期的精准连接相比),我们推测DNA片段重复连接接头处加入的“GC”碱基是来源于模版DNA(β-globinRE2位点)上的PAM(AGG)上游4bp处和5bp的碱基。进一步推测G915F这个Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA互补的DNA链进行切割时,是在PAM上游3bp处进行切割,而对与sgRNA非互补DNA链进行切割时,是在PAM(AGG)上游5bp处进行突出末端切割,从而产生了突出断裂末端U5。突出断裂末端U5在细胞修复系统的作用下产生DNA片段重复时,导致了DNA片段重复连接接头处“GC”碱基的加入。
而当G915F这个Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA互补的DNA链进行切割时,是在PAM上游3bp处进行切割,对与sgRNA非互补DNA链进行切割时,是在PAM(AGG)上游3bp处进行钝末端切割,从而产生了钝断裂末端U3。钝断裂末端U3在细胞修复系统的作用下产生DNA片段重复时,不会导致DNA片段重复连接接头处碱基的加入,而是产生与预期相符的精准连接(Joined precisely)。
因此,我们认为:在Cas9核酸酶G915F的切割下,产生的断裂末端中,钝断裂末端U3的占比=预期相符的精准连接(Joined precisely)的比例=68.76%。突出断裂末端U4的比例=“C”碱基的加入比例=15.04%。突出断裂末端U5的比例=“GC”碱基的加入比例=0.20%。
但是,我们观察到,除了与预期相符的精准连接(Joined precisely)、“C”碱基的加入、以及“GC”碱基的加入这三大类情况以外,还有一类随机的碱基删除(Smalldeletion)。我们认为这类随机的碱基删除(Small deletion)是各断裂末端(钝断裂末端U3/突出断裂末端U4/突出断裂末端U5)在细胞修复系统的作用下随机产生的,各断裂末端以均等的概率来产生碱基删除(Small deletion),各断裂末端在细胞修复系统的作用下所产生的碱基删除(Small deletion)的数量与各断裂末端的数量成正比。
基于随机碱基删除现象的存在,我们认为,经过测序获得的各断裂末端的实测比例与其真实比例存在差距,需要进行修正还原,即以各种断裂末端的实测比例之和为基准,计算各断裂末端的比例,以此作为该断裂末端的占比。即对Cas9核酸酶G915F的切割所产生的各断裂末端的占比进行标准化计算,钝断裂末端U3的占比为81.86%【计算方法为:68.76%÷(68.76%+15.04%+0.20%)】。突出断裂末端U4的比例为17.90%【计算方法为:15.04%÷(68.76%+15.04%+0.20%)】。突出断裂末端U5的比例为0.24%【计算方法为:0.20%÷(68.76%+15.04%+0.20%)】。
亦即,Cas9核酸酶G915F在sgRNA1的介导下对基因组DNA片段进行的切割方式中,U3钝末端切割的比例为81.86%,U4突出末端切割的比例为17.90%,U5突出末端切割的比例为0.24%。
参照上述方法,依次计算出其他各Cas9核酸酶(WT、F916P、ΔF916、K918A、R919P、Q920P和R780A)在sgRNA1的介导下对基因组DNA片段进行的切割方式中,U3钝末端切割的占比X1、U4突出末端切割X2、U5突出末端切割的占比X3。结果,如图3D和下表5-1所示:
表5-1
Figure BDA0001296125690000651
可见,在sgRNA1的介导下,相比于SpCas9核酸酶(Cas9 WT),G915F、ΔF916、F916P和Q920P这四个Cas9核酸酶突变体对与sgRNA1非互补的DNA链进行切割时,在PAM上游4bp处进行切割的比例明显提高(U4),在PAM上游3bp处进行切割的比例减少(U3)。
如图3E所示,利用高通量测序技术检测DNA片段删除连接接头的情况,除了与预期相符的精准连接(Joined precisely)以外,还存在与预期的精准连接相比,删除连接接头处加入了“T”碱基、“AT”碱基、“CAT”碱基的情况。选用不同的Cas9核酸酶时,检测到的与预期相符的精准连接(Joined precisely)、“+T”碱基、“+AT”碱基、“+CAT”碱基的占比不同。以选用G915F这个Cas9核酸酶为例,检测到与预期相符的精准连接(Joined precisely)的占比为14.77%,“+T”碱基的占比为17.77%,“+AT”碱基的占比为40.39%,“+CAT”碱基的占比为2.09%。
鉴于DNA片段删除连接接头处检测到存在“T”碱基的加入(与预期的精准连接相比),我们推测DNA片段删除连接接头处加入的“T”碱基是来源于模版DNA(β-globin RE2位点)上的PAM(TGG)上游4bp处的碱基。并且,进一步推测G915F这个Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA互补的DNA链进行切割时,是在PAM上游3bp处进行切割,而对与sgRNA非互补DNA链进行切割时,则是在PAM(TGG)上游4bp处进行突出末端切割,从而产生了突出断裂末端D4。突出断裂末端D4在细胞修复系统的作用下产生DNA片段删除时,导致了DNA片段删除连接接头处“T”碱基的加入。
同理,鉴于DNA片段删除连接接头处检测到存在“AT”碱基的加入(与预期的精准连接相比),我们推测DNA片段删除连接接头处加入的“AT”碱基是来源于模版DNA(β-globinRE2位点)上的PAM(TGG)上游4bp和5bp处的碱基。进一步推测G915F这个Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA互补的DNA链进行切割时,是在PAM上游3bp处进行切割,而对与sgRNA非互补DNA链进行切割时,是在PAM(TGG)上游5bp处进行突出末端切割,从而产生了突出断裂末端D5。突出断裂末端D5在细胞修复系统的作用下产生DNA片段删除时,导致了DNA片段删除连接接头处“AT”碱基的加入。
同理,鉴于DNA片段删除连接接头处检测到存在“CAT”碱基的加入(与预期的精准连接相比),我们推测DNA片段删除连接接头处加入的“CAT”碱基是来源于模版DNA(β-globin RE2位点)上的PAM(TGG)上游4bp、5bp、6bp处的碱基。进一步推测G915F这个Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA互补的DNA链进行切割时,是在PAM上游3bp处进行切割,而对与sgRNA非互补DNA链进行切割时,是在PAM(TGG)上游6bp处进行突出末端切割,从而产生了突出断裂末端D6。突出断裂末端D5在细胞修复系统的作用下产生DNA片段删除时,导致了DNA片段删除连接接头处“CAT”碱基的加入。
而当G915F这个Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA互补的DNA链进行切割时,是在PAM上游3bp处进行切割,对与sgRNA非互补DNA链进行切割时,是在PAM(TGG)上游3bp处进行钝末端切割,从而产生了钝断裂末端D3。钝断裂末端D3在细胞修复系统的作用下产生DNA片段删除时,不会导致DNA片段删除连接接头处碱基的加入,而是产生与预期相符的精准连接(Joined precisely)。
因此,我们认为:在Cas9核酸酶G915F的切割下,产生的断裂末端中,钝断裂末端D3的占比=预期相符的精准连接(Joined precisely)的占比=14.77%。突出断裂末端D4的占比=“T”碱基的加入占比=17.77%。突出断裂末端D5的占比=“AT”碱基的加入占比=40.39%。突出断裂末端D6的占比=“CAT”碱基的加入占比=2.09%。
但是,我们观察到,除了与预期相符的精准连接(Joined precisely)、DNA片段删除连接接头处加入了“T”碱基、“+AT”碱基、“+CAT”碱基这四大类情况以外,还有一类随机的碱基删除(Small deletion)。我们认为这类随机的碱基删除(Small deletion)是各断裂末端(钝断裂末端D3/突出断裂末端D4/突出断裂末端D5/突出断裂末端D6)在细胞修复系统的作用下随机产生的,各断裂末端以均等的概率来产生碱基删除(Small deletion),各断裂末端在细胞修复系统的作用下所产生的碱基删除(Small deletion)的数量与各断裂末端的数量成正比。
基于随机碱基删除现象的存在,我们认为,经过测序获得的各断裂末端的实测比例与其真实比例存在差距,需要进行修正还原,即以各种断裂末端的实测比例之和为基准,计算各断裂末端的比例,以此作为该断裂末端的占比。即对Cas9核酸酶G915F的切割所产生的各断裂末端的占比进行标准化计算,钝断裂末端D3的占比为19.68%
【计算方法为:14.77%÷(14.77%+17.77%+40.39%+2.09%)】。
突出断裂末端D4的比例为23.69%
【计算方法为:17.77%÷(14.77%+17.77%+40.39%+2.09%)】。
突出断裂末端D5的比例为53.83%
【计算方法为:40.39%÷(14.77%+17.77%+40.39%+2.09%)】。
突出断裂末端D6的比例为2.79%
【计算方法为:2.09%÷(14.77%+17.77%+40.39%+2.09%)】。
亦即,Cas9核酸酶G915F在sgRNA2的介导下对基因组DNA片段进行的切割方式中,D3钝末端切割的占比为19.68%,D4突出末端切割的占比为23.69%,D5突出末端切割的占比为53.83%,D6突出末端切割的占比为2.79%。
参照上述方法,计算出其他各Cas9核酸酶(WT、F916P、ΔF916、K918A、R919P、Q920P和R780A)在sgRNA2的介导下对基因组DNA片段进行的切割方式中,D3钝末端切割的占比Y1、D4突出末端切割的占比Y2、D5突出末端切割的占比Y3、D6突出末端切割的占比Y4。结果如图3F和表5-2所示:
表5-2
Figure BDA0001296125690000681
可见,在sgRNA2的介导下,相比于SpCas9核酸酶(Cas9WT),G915F突变体对基因组DNA片段中与sgRNA2非互补的DNA链进行切割时,在PAM上游5bp处进行切割的比例明显提高,ΔF916、F916P、K918A和R919P这四个突变体在PAM上游4bp处进行切割的比例明显提高(D4),R780A这个突变体在PAM上游3bp处进行切割比例明显提高(D3)。
更进一步证实了Cas9核酸酶在sgRNA组合的介导下,可以在PAM上游3bp处到更远碱基处切割非互补DNA单链。
实施例6适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法
基于上述研究内容及成果(主要是实施例4和实施例5),本实施例接下来提供一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法。CRISPR/Cas9系统包括Cas9核酸酶和sgRNA组合。Cas9核酸酶在sgRNA组合中各sgRNA的介导下对基因组DNA片段进行切割,所述分析方法将Cas9核酸酶对基因组DNA双链进行切割的方式区分为钝末端切割与突出末端切割,钝末端切割方式对应的切割末端占比为钝断裂末端占比,突出末端切割方式对应的切割末端占比为突出断裂末端占比。通过预测候选sgRNA组合在每种切割方式下对应的断裂末端序列,并结合所述钝断裂末端占比与突出断裂末端占比,来预测候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度。
所述钝末端切割是指:Cas9核酸酶在sgRNA的介导下对基因组DNA片段切割出平末端的切割方式。
在钝末端切割方式下对应产生的切割末端为钝断裂末端。
所述突出末端切割是指:Cas9核酸酶在sgRNA的介导下对基因组DNA片段切割出粘性末端的切割方式。
在突出末端切割方式下对应产生的切割末端为突出断裂末端。
同实施例5,本实施例中,基因组DNA片段为β-globin RE2位点。Cas9核酸酶可选用WT、G915F、F916P、ΔF916、K918A、R919P、Q920P或R780A中的任一种。候选sgRNA组合包括两个sgRNA,分别是sgRNA1和sgRNA2。
下面先分析当选用野生型Cas9核酸酶SpCas9(简称WT或Cas9 WT),采用由sgRNA1和sgRNA2组成的候选sgRNA组合对基因组DNA片段(β-globin RE2位点)进行编辑时的精准度。
所述编辑精准度是指针对待分析的编辑方式,符合所述待分析的编辑方式的基因组DNA片段编辑中,精准编辑所占的比例。
在利用候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段进行编辑时,会出现多种编辑方式(例如删除、重复、反转或倒位、易位、插入等),待分析的编辑方式可以是选自删除、重复、反转或倒位、易位、插入等编辑方式中的任一种。根据待分析编辑方式的不同,编辑精准度可以是删除编辑精准度、重复编辑精准度、反转编辑精准度、易位编辑精准度及插入编辑精准度等中的任一种。
精准编辑是指:编辑方式为待分析的编辑方式,且编辑后的序列完全符合预期的基因组DNA片段编辑。相比预期序列,有碱基的不同则认为不属于精准编辑。
假设精准编辑为DNA片段只发生了反转,且DNA片段反转连接接头处不存在其他碱基的改变。那么DNA片段重复、DNA片段删除等反转以外的编辑方式及虽然发生了DNA片段反转但是反转连接接头处碱基发生了改变的编辑方式都不属于精准编辑。这时,反转编辑就是待分析的编辑方式,DNA片段重复、DNA片段删除等反转以外的编辑方式都不属于待分析的编辑方式,而精准编辑及发生了DNA片段反转但是反转连接接头处碱基发生了改变的编辑方式均属于待分析的编辑方式。此时,编辑精准度就是所有发生了DNA片段反转的编辑中,精准编辑的占比。
(A)获得选用的Cas9核酸酶在候选sgRNA组合中各sgRNA的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数
(1)获得选用的Cas9核酸酶在候选sgRNA组合中sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数
如表5-1所示,各Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割,切割方式有U3钝末端切割、U4突出末端切割、U5突出末端切割。
U4突出末端切割这种切割方式是指Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA1互补的DNA链在PAM上游3bp处进行切割,对与sgRNA1非互补DNA链是在PAM(AGG)上游4bp处进行突出末端切割,从而产生了突出断裂末端U4,突出断裂末端U4在细胞修复系统的作用下产生DNA反转时,突出断裂末端U4会补平之后再与反转连接接头连接,因此会导致DNA反转连接接头处碱基的加入,从而不能精准符合预期编辑。Cas9WT突出断裂末端U4的占比=U4突出末端切割方式的占比=5.70%。突出断裂末端U4的占比不能计算入第一精准度参考因子C1sgRNA1的值。
U5突出末端切割这种切割方式是指Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA1互补的DNA链在PAM上游3bp处进行切割,对与sgRNA1非互补DNA链是在PAM(AGG)上游5bp处进行突出末端切割,从而产生了突出断裂末端U5,突出断裂末端U5在细胞修复系统的作用下产生DNA反转时,突出断裂末端U5会补平之后再与反转连接接头连接,因此会导致DNA反转连接接头处碱基的加入,从而不能精准符合预期编辑。Cas9WT突出断裂末端U5的占比=U5突出末端切割方式的占比=0.00%。突出断裂末端U5的占比不能计算入第一精准度参考因子C1sgRNA1的值。
所以,按照补平连接的方式预测突出断裂末端U4和突出断裂末端U5,对待编辑基因组DNA片段编辑所得序列的影响,均不能精准符合预期编辑,因而,第一精准度参考因子C1sgRNA1的值为0;
U3钝末端切割这种切割方式是指Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA1互补的DNA链在PAM上游3bp处进行切割,对与sgRNA1非互补DNA链是在PAM(AGG)上游3bp处进行钝末端切割,从而产生了钝断裂末端U3,钝断裂末端U3在细胞修复系统的作用下产生DNA反转时,钝断裂末端U3与反转连接接头直接连接,不会导致DNA反转连接接头处碱基的加入,能精准符合预期编辑。钝断裂末端U3的占比=U3钝末端切割方式的占比=94.30%。所以第二精准度参考因子C2sgRNA1的值=钝断裂末端U3的占比=94.30%。
将第一精准参考因子C1sgRNA1的值与第二精准参考因子C2sgRNA1的值相加,获得选用的Cas9核酸酶在候选sgRNA组合中sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数XsgRNA1=C1+C2=0+94.30%=94.30%。
(2)获得选用的Cas9核酸酶在候选sgRNA组合中sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数
如表5-2所示,各Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割,切割方式有D3钝末端切割、D4突出末端切割、D5突出末端切割、D6突出末端切割。
D4突出末端切割这种切割方式是指Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3bp处进行切割,对与sgRNA2非互补DNA链是在PAM(TGG)上游4bp处进行突出末端切割,从而产生了突出断裂末端D4,突出断裂末端D4在细胞修复系统的作用下产生DNA反转时,突出断裂末端D4会补平之后再与反转连接接头连接,因此会导致DNA反转连接接头处碱基的加入,从而不能精准符合预期编辑。突出断裂末端D4的占比=D4突出末端切割方式的占比=24.50%。突出断裂末端D4的占比不能计算入第一精准度参考因子C1sgRNA2的值。
D5突出末端切割这种切割方式是指Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3bp处进行切割,对与sgRNA2非互补DNA链是在PAM(TGG)上游5bp处进行突出末端切割,从而产生了突出断裂末端D5,突出断裂末端D5在细胞修复系统的作用下产生DNA反转时,突出断裂末端D5会补平之后再与反转连接接头连接,因此会导致DNA反转连接接头处碱基的加入,从而不能精准符合预期编辑。突出断裂末端D5的占比=D5突出末端切割方式的占比=42.57%。突出断裂末端D5的占比不能计算入第一精准度参考因子C1sgRNA2的值。
D6突出末端切割这种切割方式是指Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3bp处进行切割,对与sgRNA2非互补DNA链是在PAM(TGG)上游6bp处进行突出末端切割,从而产生了突出断裂末端D6,突出断裂末端D6在细胞修复系统的作用下产生DNA反转时,突出断裂末端D6会补平之后再与反转连接接头连接,因此会导致DNA反转连接接头处碱基的加入,从而不能精准符合预期编辑。突出断裂末端D6的占比=D6突出末端切割方式的占比=4.19%。突出断裂末端D6的占比不能计算入第一精准度参考因子C1sgRNA2的值。
所以,按照补平连接的方式预测突出断裂末端D4、突出断裂末端D5和突出断裂末端D6,对待编辑基因组DNA片段编辑所得序列的影响,均不能精准符合预期编辑,因而,第一精准度参考因子C1sgRNA2的值为0;
D3钝末端切割这种切割方式是指Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3bp处进行切割,对与sgRNA2非互补DNA链是在PAM(TGG)上游3bp处进行钝末端切割,从而产生了钝断裂末端D3,钝断裂末端D3在细胞修复系统的作用下产生DNA反转时,钝断裂末端D3与反转连接接头直接连接,不会导致DNA反转连接接头处碱基的加入,能精准符合预期编辑。钝断裂末端D3的占比=D3钝末端切割方式的占比=28.74%。所以第二精准度参考因子C2sgRNA2的值=钝断裂末端D3的占比=28.74%。
将第一精准参考因子C1sgRNA2的值与第二精准参考因子C2sgRNA2的值相加,获得选用的Cas9核酸酶在候选sgRNA组合中sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数Y=C1sgRNA2+C2sgRNA2=0+28.74%=28.74%。
(B)获得选用的Cas9核酸酶在候选sgRNA组合的介导下对基因组DNA片段(β-globinRE2位点)进行编辑的精准度
将选用的Cas9核酸酶在候选sgRNA组合中sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数X sgRNA1与选用的Cas9核酸酶在候选sgRNA组合中sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数YsgRNA2相乘获得选用的Cas9核酸酶在候选sgRNA组合的介导下对对基因组DNA片段(β-globin RE2位点)进行编辑的精准度Z,亦即Z=X sgRNA1×Y sgRNA2=94.30%×28.74%=27.10%。
利用高通量测序技术检测DNA片段反转,且DNA片段反转连接接头精准连接,不存在任何碱基的加入的比例为27.15%。由此可见,采用本发明的分析方法获得的编辑的精准度与实际检测到的高度一致。因此,本发明的分析方法的准确度很高,是可行的。
如果预测:假设待分析的编辑方式,也就是预期编辑为DNA片段反转,且DNA片段反转连接接头精准连接,不存在任何碱基的加入。选用的Cas9核酸酶为G915F,采用由sgRNA1和sgRNA2组成的候选sgRNA组合对基因组DNA片段(β-globin RE2位点)进行编辑时的精准度。
按照上述同样的分析方法,选用的Cas9核酸酶在候选sgRNA组合的介导下对对基因组DNA片段(β-globin RE2位点)进行编辑的精准度Z,亦即Z=X×Y=81.86%×19.68%=16.11%。利用高通量测序技术检测DNA片段反转,且DNA片段反转连接接头精准连接,不存在任何碱基的加入的比例为16.40%。由此可见,采用本发明的分析方法获得的编辑的精准度与实际检测到的高度一致。
如果预测:假设待分析的编辑方式,也就是预期编辑为DNA片段反转,且DNA片段反转连接接头精准连接,不存在任何碱基的加入。选用的Cas9核酸酶为R780A,采用由sgRNA1和sgRNA2组成的候选sgRNA组合对基因组DNA片段(β-globin RE2位点)进行编辑时的精准度。
按照上述同样的分析方法,选用的Cas9核酸酶在候选sgRNA组合的介导下对对基因组DNA片段(β-globin RE2位点)进行编辑的精准度Z,亦即Z=XsgRNA1×YsgRNA2=90.02%×41.68%=37.52%。利用高通量测序技术检测DNA片段反转,且DNA片段反转连接接头精准连接,不存在任何碱基的加入的比例为40.59%。由此可见,采用本发明的分析方法获得的编辑的精准度与实际检测到的高度一致。
当Cas9核酸酶分别选用WT、G915F、F916P、ΔF916、K918A、R919P、Q920P或R780A时候,在候选sgRNA组合(包括两个sgRNA,分别是sgRNA1和sgRNA2)的介导下,对基因组DNA片段(β-globin RE2位点)进行编辑,可能出现的编辑方式及这种编辑方式下的精准度Z分析如图3G和图3H所示。
如果将待分析的编辑方式,也就是预期编辑定为DNA片段反转,且DNA片段反转连接接头精准连接,不存在任何碱基的加入。那么选用R780A为Cas9核酸酶,在候选sgRNA组合(包括两个sgRNA,分别是sgRNA1和sgRNA2)的介导下,对基因组DNA片段(β-globinRE2位点)进行编辑,精准度是最高的。与用高通量测序技术检测到的结果基本一致。
将待分析的编辑方式,也就是将预期编辑定为DNA片段反转,且只在DNA片段反转下游连接接头处加入T碱基为精准编辑。选用SpCas9(简称WT,或Cas9WT)作为Cas9核酸酶,候选sgRNA组合包括两个sgRNAs,分别是sgRNA1和sgRNA2。
(A)获得选用的Cas9核酸酶在候选sgRNA组合中各sgRNA的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数
(1)获得选用的Cas9核酸酶在候选sgRNA组合中sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数
如表5-1所示,各Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割,切割方式有U3钝末端切割、U4突出末端切割、U5突出末端切割。
U4突出末端切割这种切割方式是指Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA1互补的DNA链在PAM上游3bp处进行切割,对与sgRNA1非互补DNA链是在PAM(AGG)上游4bp处进行突出末端切割,从而产生了突出断裂末端U4,突出断裂末端U4在细胞修复系统的作用下产生DNA反转时,突出断裂末端U4会补平之后再与反转连接接头连接,因此会导致DNA反转下游连接接头处C碱基的加入,从而不能精准符合预期编辑。突出断裂末端U4的占比=U4突出末端切割方式的占比=5.70%。突出断裂末端U4的占比不能计算入第一精准度参考因子C1sgRNA1的值。
U5突出末端切割这种切割方式是指Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA1互补的DNA链在PAM上游3bp处进行切割,对与sgRNA1非互补DNA链是在PAM(AGG)上游5bp处进行突出末端切割,从而产生了突出断裂末端U5,突出断裂末端U5在细胞修复系统的作用下产生DNA反转时,突出断裂末端U5会补平之后再与反转连接接头连接,因此会导致DNA反转下游连接接头处CG碱基的加入,从而不能精准符合预期编辑。突出断裂末端U5的占比=U5突出末端切割方式的占比=0.00%。突出断裂末端U5的占比不能计算入第一精准度参考因子C1sgRNA1的值。
所以,按照补平连接的方式预测突出断裂末端U4和突出断裂末端U5,对待编辑基因组DNA片段编辑所得序列的影响,均不能精准符合预期编辑,因而,第一精准度参考因子C1sgRNA1的值为0;
U3钝末端切割这种切割方式是指Cas9核酸酶在sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA1互补的DNA链在PAM上游3bp处进行切割,对与sgRNA1非互补DNA链是在PAM(AGG)上游3bp处进行钝末端切割,从而产生了钝断裂末端U3,钝断裂末端U3在细胞修复系统的作用下产生DNA反转时,钝断裂末端U3与反转连接接头直接连接,不会导致DNA下游反转连接接头处碱基的加入,能精准符合预期编辑。钝断裂末端U3的占比=U3钝末端切割方式的占比=94.30%。所以第二精准度参考因子C2sgRNA1的值=钝断裂末端U3的占比=94.30%。
将第一精准参考因子C1sgRNA1的值与第二精准参考因子C2sgRNA1的值相加,获得选用的Cas9核酸酶在候选sgRNA组合中sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数XsgRNA1=C1sgRNA1+C2sgRNA1=0+94.30%=94.30%。
(2)获得选用的Cas9核酸酶在候选sgRNA组合中sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数
如表5-2所示,各Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割,切割方式有D3钝末端切割、D4突出末端切割、D5突出末端切割、D6突出末端切割。
D4突出末端切割这种切割方式是指Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3bp处进行切割,对与sgRNA2非互补DNA链是在PAM(TGG)上游4bp处进行突出末端切割,从而产生了突出断裂末端D4,突出断裂末端D4在细胞修复系统的作用下产生DNA反转时,突出断裂末端D4会补平之后再与反转连接接头连接,因此会导致DNA反转连下接接头处T碱基的加入,从而能精准符合预期编辑。突出断裂末端D4的占比=D4突出末端切割方式的占比=24.50%。突出断裂末端D4的占比可计算入第一精准度参考因子C1sgRNA2的值。
D5突出末端切割这种切割方式是指Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3bp处进行切割,对与sgRNA2非互补DNA链是在PAM(TGG)上游5bp处进行突出末端切割,从而产生了突出断裂末端D5,突出断裂末端D5在细胞修复系统的作用下产生DNA反转时,突出断裂末端D5会补平之后再与反转连接接头连接,因此会导致DNA反转下游连接接头处碱基AT的加入,从而不能精准符合预期编辑。突出断裂末端D5的占比=D5突出末端切割方式的占比=42.57%。突出断裂末端D5的占比不能计算入第一精准度参考因子C1sgRNA2的值。
D6突出末端切割这种切割方式是指Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3bp处进行切割,对与sgRNA2非互补DNA链是在PAM(TGG)上游6bp处进行突出末端切割,从而产生了突出断裂末端D6,突出断裂末端U6在细胞修复系统的作用下产生DNA反转时,突出断裂末端D6会补平之后再与反转连接接头连接,因此会导致DNA反转下游连接接头处CAT碱基的加入,从而不能精准符合预期编辑。突出断裂末端D6的占比=D6突出末端切割方式的占比=4.19%。突出断裂末端D6的占比不能计算入第一精准度参考因子C1sgRNA2的值。
所以,按照补平连接的方式预测突出断裂末端D4、突出断裂末端D5和突出断裂末端D6,对待编辑基因组DNA片段编辑所得序列的影响,其中只有突出断裂末端D4精准符合预期编辑,因而,第一精准度参考因子C1sgRNA2的值为24.50%;
D3钝末端切割这种切割方式是指Cas9核酸酶在sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行切割时,对与sgRNA2互补的DNA链在PAM上游3bp处进行切割,对与sgRNA2非互补DNA链是在PAM(TGG)上游3bp处进行钝末端切割,从而产生了钝断裂末端D3,钝断裂末端D3在细胞修复系统的作用下产生DNA反转时,钝断裂末端D3与反转连接接头直接连接,不会导致DNA反转下游连接接头处碱基的加入,不能精准符合预期编辑。钝断裂末端D3的占比=D3钝末端切割方式的占比=28.74%。所以第二精准度参考因子C2sgRNA2的值=0。
将第一精准参考因子C1的值与第二精准参考因子C2的值相加,获得选用的Cas9核酸酶在候选sgRNA组合中sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数Y=C1sgRNA2+C2sgRNA2=24.50%+0=24.50%。
(B)获得选用的Cas9核酸酶在候选sgRNA组合的介导下对基因组DNA片段(β-globinRE2位点)进行编辑的精准度
将选用的Cas9核酸酶在候选sgRNA组合中sgRNA1的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数XsgRNA1与选用的Cas9核酸酶在候选sgRNA组合中sgRNA2的介导下对基因组DNA片段(β-globin RE2位点)进行编辑的精准度系数YsgRNA2相乘获得选用的Cas9核酸酶在候选sgRNA组合的介导下对对基因组DNA片段(β-globin RE2位点)进行编辑的精准度Z,亦即Z=XsgRNA1×YsgRNA2=94.30%×24.50%=23.10%。
利用高通量测序技术检测DNA片段反转,且DNA片段反转连接接头精准连接,不存在任何碱基的加入的比例为24.07%。由此可见,采用本发明的分析方法获得的编辑的精准度与实际检测到的高度一致。因此,本发明的分析方法的准确度很高,是可行的。
当Cas9核酸酶分别选用WT、G915F、F916P、ΔF916、K918A、R919P、Q920P或R780A时候,在候选sgRNA组合(包括两个sgRNA,分别是sgRNA1和sgRNA2)的介导下,对基因组DNA片段(β-globin RE2位点)进行编辑。如果将待分析的编辑方式,也就是预期编辑定为DNA片段反转,且DNA片段反转下游连接接头仅存在T碱基的加入。那么选用K918A为Cas9核酸酶,在候选sgRNA组合(包括两个sgRNA,分别是sgRNA1和sgRNA2)的介导下,对基因组DNA片段(β-globin RE2位点)进行编辑,精准度是最高的。与用高通量测序技术检测到的结果基本一致。
如图3G和图3H所示,当待分析的编辑方式(也就是预期的编辑)是DNA反转且下游连接接头处无任何碱基加入、或DNA反转且下游连接接头处仅有T碱基加入、或DNA反转且下游连接接头处仅有AT碱基加入、或DNA反转且下游连接接头处仅有CAT碱基加入、或DNA反转且下游连接接头处仅有G碱基加入、DNA反转且下游连接接头处仅有GT碱基加入、或DNA反转且下游连接接头处仅有GAT碱基加入、或DNA反转且下游连接接头处仅有GCAT碱基加入、或DNA反转且下游连接接头处仅有GC碱基加入、DNA反转且下游连接接头处仅有GCT碱基加入、或DNA反转且下游连接接头处仅有GCCAT碱基加入时,采用上述分析方法获得的各编辑方式下的精准度Z均与实际检测到的编辑精准度基本一致。
因此,本发明的适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法准确度高,实用性强,可用于基因组DNA片段编辑。
实施例7通过特定的PAM组合实现精准的DNA片段编辑
(一)基因组DNA片段编辑方法
本发明的基因组DNA片段编辑方法,采用实施例6的基因组DNA片段编辑精准度的分析方法,分析候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段的编辑精准度,采用编辑精准度较高的sgRNA组合,利用CRISPR/CAS9系统,来编辑基因组DNA片段。
进一步地,所述的基因组DNA片段编辑方法,包括如下步骤:
(1)针对待编辑的基因组DNA片段,根据需要的编辑方式,设计候选sgRNA组合;
(2)利用权利要求前述的基因组DNA片段编辑精准度的分析方法,从所述候选的sgRNA组合中选择出针对所需要的编辑方式精准度较高的sgRNA组合;
(3)采用步骤(2)所选的sgRNA组合,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行编辑。
所述步骤(2)为利用前述的基因组DNA片段编辑精准度的分析方法,分析各候选sgRNA组合与各候选Cas9核酸酶配合时,针对所需要的编辑方式的编辑精准度,从中选择精准度较高的sgRNA组合以及与之配合的Cas9核酸酶;所述步骤(3)为采用步骤(2)所选的sgRNA组合以及与之配合的Cas9核酸酶,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行编辑。
步骤(3)中,将所选的sgRNA组合,以及含有所述Cas9核酸酶编码基因的质粒一同转入细胞中,对待编辑的基因组DNA片段进行编辑。
进一步地,步骤(1)中,设计候选sgRNA组合时,至少针对两种以上的PAM组合设计其候选sgRNA组合。
如图4所示,所述PAM组合包括第一PAM和第二PAM。所述第一PAM和第二PAM均位于待编辑的基因组DNA片段同一条DNA链上(本发明记为第一PAM和第二PAM均位于待编辑的基因组DNA正义链上)。所述第一PAM靠近同一条DNA链的5’端,所述第二PAM靠近同一条DNA链的3’端。所述第一PAM的序列为NGG或CCN,所述第二PAM的序列为NGG或CCN,其中N为任意核苷酸。具体地,所述PAM组合为NGG-NGG组合、CCN-CCN组合、CCN-NGG组合或NGG-CCN组合。Cas9核酸酶能够特异性识别PAM组合中第一PAM和第二PAM,从而在第一PAM和第二PAM的上游处分别切割基因组DNA双链,产生突出末端或钝末端。所产生的突出末端或钝末端在细胞自身存在的DNA损伤修复系统的作用下产生DNA片段编辑。
采用上述方法分析采用I、II、III、IV中PAM组合设计的成对sgRNAs及与之配合的Cas9核酸酶时的编辑精准度。
对于DNA片段删除这种编辑方式,计算和分析下来采用IV中PAM组合(NGG-CCN)设计的成对sgRNAs及与之配合的Cas9核酸酶进行基因编辑时,精准度最高,产生的突出末端补平后连接导致精准的连接。而分别采用I(NGG-NGG)和II(CCN-CCN)中PAM组合设计的sgRNAs及与之配合的Cas9核酸酶进行编辑时,精确度低于IV,产生的突出末端补平后连接导致一侧碱基的加入。采用III中PAM组合(CCN-NGG)设计的sgRNAs及与之配合的Cas9核酸酶进行编辑时,精确度低于IV,产生的突出末端补平后连接导致两侧碱基的加入。
对于DNA片段反转这种编辑方式,计算和分析下来,分别采用I(NGG-NGG)和II(CCN-CCN)中PAM组合设计的成对sgRNAs及与之配合的Cas9核酸酶进行基因编辑时,精准度最高,产生的突出末端补平后连接导致一侧反转接头碱基的加入和一侧反转接头精准的连接。采用III(CCN-NGG)或IV(NGG-CCN)中PAM组合及与之配合的Cas9核酸酶进行基因编辑时,精准度低于I和II。
对于DNA片段重复这种编辑方式,采用III(CCN-NGG)中PAM组合设计的成对sgRNAs及与之配合的Cas9核酸酶进行基因编辑时,精准度最高,产生的突出末端补平后连接导致重复接头精准的连接。而分别采用I(NGG-NGG)、II(CCN-CCN)和IV(NGG-CCN)中PAM组合设计的成对sgRNAs及与之配合的Cas9核酸酶进行基因编辑时,精准度低于III,突出末端补平后连接导致重复接头碱基的加入。
通过上述分析方法得知,(1)若要进行精准的DNA片段删除,可选用NGG-CCN组合作为PAM组合,来设计其候选sgRNA组合;(2)若要进行一侧接头的精准DNA片段反转,可选用NGG-NGG组合或CCN-CCN组合作为PAM组合,来设计其候选sgRNA组合;(3)若要进行精准的DNA片段重复,可选用CCN-NGG组合作为PAM组合,来设计sgRNA组合。
(二)运用分析结果进行基因组DNA片段编辑
选取四种含有不同PAM组合的位点,有STM位点(NGG和NGG组合)、β-globin位点(CCN和CCN组合)、HoxD位点(CCN和NGG组合)和RRM21位点(NGG和CCN组合)。
针对这四个位点分别构建sgRNAs质粒:
(1)从上海桑尼生物科技有限公司购买分别针对STM位点(NGG和NGG组合)、β-globin位点(CCN和CCN组合)、HoxD位点(CCN和NGG组合)和RRM21位点(NGG和CCN组合)的sgRNAs靶向序列的有5’悬挂端“ACCG”和“AAAC”可以互补配对的正反向脱氧寡核苷酸,
上述sgRNAs靶向序列:
β-globin RE1sgRNA1:GATTGTTGTTGCCTTGGAGTG(SEQ ID NO.67)
β-globin RE1sgRNA2:GCTGGTCCCCTGGTAACCTGG(SEQ ID NO.68)
β-globin locussgRNA1:GGAGATGGCAGTGTTGAAGC(SEQ ID NO.69)
β-globin locussgRNA2:CTAGGGGTCAGAAGTAGTTC(SEQ ID NO.70)
HoxD sgRNA1:TCTGTTTTCCTCGCGGTTTC(SEQ ID NO.71)
HoxD sgRNA2:GGAGCGCGCTCGCCATCTCC(SEQ ID NO.72)
β-globin RE3sgRNA1:TCACTTGTTAGCGGCATCTG(SEQ ID NO.73)
β-globin RE3sgRNA2:GGAGATGGCAGTGTTGAAGC(SEQ ID NO.74);
(2)获得互补配对的带有悬挂端的双链DNA
1)用ddH2O将脱氧寡核苷酸溶解至100μM,并稀释至20μM;
2)将正反脱氧寡核苷酸加入如下反应体系:
Figure BDA0001296125690000801
反应条件:95℃水浴,5min,然后打开水浴锅盖子温度降至60℃左右,盖上盖子冷却至室温。
(3)酶切pGL3-U6-sgRNA-PGK-Puro vector
1)用BsaI限制性内切酶酶切载体质粒,反应体系如下:
Figure BDA0001296125690000802
反应条件:37℃,1.5小时;
2)胶回收纯化DNA酶切片段,按照胶回收试剂盒(Axygen)说明纯化。
(4)连接酶切后的载体与带有悬挂端的双链DNA
连接体系如下:
Figure BDA0001296125690000803
反应条件:室温反应1.5小时;
(5)转化连接产物
用Stbl3感受态转化连接产物,在含氨苄抗生素(Amp,100mg/L)LB平板培养过夜,37℃。
(6)挑取单克隆测序
1)从氨苄抗生素LB平板上挑取单菌落,LB(Amp,100mg/L)液体培养过夜;
2)质粒提取,按照质粒小抽试剂盒(Axygen)说明提取;
3)提取后的质粒送上海桑尼生物科技有限公司测序。
(7)测序成功质粒进行中抽
1)测序成功的质粒用Stbl3感受态重新转化,在含Amp(100mg/L)的LB平板培养过夜;
2)上午挑取单菌落在2ml LB(Amp,100mg/L)液体培养基中培养8小时,然后转接到200ml LB(Amp,100mg/L)液体培养基中培养过夜;
3)收集细菌,按照质粒中抽试剂盒(Qiagen)说明提取质粒。
2.人源化Cas9质粒制备
1)人源化Cas9质粒从北京大学席建中实验室获得;
2)用Stbl3感受态重新转化,在LB平板(Amp,100mg/L)培养过夜;
3)上午挑取单菌落在2ml LB(Amp,100mg/L)液体培养基中培养8小时,然后转接到200ml LB(Amp,100mg/L)液体培养基中培养过夜,进行质粒中抽。
3.用Lipofectamine 2000进行细胞转染
1)HEK293T细胞培养在培养瓶中,在37℃,含有5%CO2细胞培养箱中培养,待其长至培养瓶80~90%。
2)将长好的细胞在12孔板中用DMEM完全无抗培养基(加入10%胎牛血清,无青链霉素双抗)进行铺板,过夜培养。
3)待12孔板中的细胞长至80~90%时,将制备好的人源化Cas9质粒(800ng)分别与这四个位点的sgRNAs质粒(各600ng)通过Lipofectamine 2000进行细胞转染,每个样品各两个重复。
4)转染后两天,收集细胞,用基因组提取试剂盒(
Figure BDA0001296125690000811
Genomic DNAPurification kit,Promega)提取基因组。
4.制备高通量测序文库
在DNA片段预期删除、反转和重复接头的精准连接位点上游大约30bp处设计引物,然后将引物5’端加上带有barcode的Illumina的测序接头,下游引物可以设计在远离拼接位点一些的位置并加上Illumina的测序接头,进行PCR扩增,然后使用罗氏PCR纯化试剂盒(Product No.:11732676001)进行纯化,DNA产物溶解在10mM Tris-HCL buffer(PH=8.5),等量混合后形成库,进行高通量测序。
上述高通量引物:
Hiseq-hSTM-aF1:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTTGCTTAGAGCCAGGACTAATTGC(SEQ ID NO.75)
Hiseq-hSTM-aR2:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTTGGGTGTAGAAATGAGCAAATAAGT(SEQ ID NO.76)
Hiseq-hSTM-2F:
CAAGCAGAAGACGGCATACGAGATGATCGTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGATTGAGTTCTGTTTGTTTCATCTAC(SEQ ID NO.77)
Hiseq-hSTM-2R:
CAAGCAGAAGACGGCATACGAGATAGTCAAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCTCTGCCTGAAAGGAGTC(SEQ ID NO.78)
Hiseq-glob-aF2:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGGTTAGCGGCTTGCTCAATTC(SEQ ID NO.79)
Hiseq-glob-aR2:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTTCTGAGAGACAGGGATGTGTTTTAC(SEQ ID NO.80)
Hiseq-glob-2F2:
CAAGCAGAAGACGGCATACGATTAGGCGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATTCCCTGTGTGATTACTTGCTTAC(SEQ ID NO.81)
Hiseq-glob-bR1:
CAAGCAGAAGACGGCATACGAGATATCACGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTCTTCAGCCATCCCAAGACTC(SEQ ID NO.82)
Hiseq-RRM2-3F2:
CAAGCAGAAGACGGCATACGAGATACTGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATAGCAATGAAATCTTGAAGGAGTG(SEQ ID NO.83)
Hiseq-RRM2-3R2:
CAAGCAGAAGACGGCATACGAGATATTCCTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCACAGCCCTGCTCTATTACG(SEQ ID NO.84)
Hiseq-HoxD-2F:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTTGCGCACTGCTTGGGTGGAAATC(SEQ ID NO.85)
Hiseq-HoxD-2R2:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTCAGCTTAGTCCCCAGTGACTGCG(SEQ ID NO.86)
Hiseq-HoxD-2R4:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGTGACTGCGTCTCCGACTTG(SEQ ID NO.87)
Hiseq-HoxD-4F:
CAAGCAGAAGACGGCATACGAGATTGGTCAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTACCGCCCTTCACTGTTGATC(SEQ ID NO.88)
Hiseq-HoxD-4R:
CAAGCAGAAGACGGCATACGAGATCACTGTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGAGGTCTGGCAGGCAAAGTC(SEQ ID NO.89)
5.高通量测序数据处理
高通量测序完成后,使用Linux程序将样品的测序结果从文库中通过barcode分出来,保存在各自的文件夹,然后进行BWA-MEM比对,比对后的序列通过Varscan2程序(V2.3.9)分析DNA片段的插入和删除突变,Varscan2程序参数如下:
Min coverage: 8
Min reads2: 2
Min var freq: 0.01
Min avg qual: 15
P-value thresh: 0.01。
选取β-globin RE1位点的(STM位点)NGG和NGG组合的两个sgRNAs、β-globin位点的(β-globin locus)CCN和CCN组合的两个sgRNAs、HoxD位点的(HoxD locus)CCN和NGG组合的两个sgRNAs和β-globin RE3位点的(RRM21位点)NGG和CCN组合的两个sgRNAs,分别将这四种组合的sgRNAs和Cas9质粒转染人胚肾HEK293T细胞,转染48小时后收集基因组。针对这四个位点,利用高通量测序引物进行PCR扩增DNA片段删除、反转和重复。RRM21位点NGG和CCN组合的DNA片段删除接头没有碱基加入(图5A),精准连接的比例较高(图5A),和预期一致,其他三种组合都有不同程度的碱基加入(图5A),所以通过NGG和CCN组合可以实现DNA片段的精准删除。根据Cas9独特的切割方式,推测NGG和NGG组合与CCN和CCN组合可以实现一侧接头的精准反转,实验结果表明NGG和NGG组合可以实现上游接头的精准反转(图5B),精准连接比例较高(图5B),并且没有碱基加入(图5B);CCN和CCN组合可以实现下游接头的精准反转(图5C),精准连接比例较高(图5C),碱基加入较少(图5C)。对于另外两种组合,不同sgRNAs的被切割方式不同,就会有不同的DNA断裂末端连接方式,不可预期(图5B~C)。所以,NGG和NGG组合与CCN和CCN组合可以实现可预测的一侧精准反转。HoxD位点CCN和NGG组合的DNA片段重复的精准连接比例较高(图5D),并且没有碱基加入(图5D),与预期一致,其他三种组合都有一定程度的碱基加入并且不同的sgRNAs组合可能会有不同的结果,不可预期。所以CCN和NGG组合可以实现可预期的精准DNA片段重复。
实施例8通过特定PAM组合的DNA片段编辑研究细胞构架蛋白CTCF结合位点的功能
1.通过CRISPR获得CTCF结合位点反转的细胞系
选取β-globin位点旁边的处于基因组拓扑区域边界的三个连续的CTCF结合位点(CBS13-15)进行DNA片段编辑。在CBS13和CBS14之间,CBS14和CBS15之间,CBS13和CBS15外侧设计sgRNAs,构建sgRNAs质粒(方法参照实施例1),对CBS15,CBS14-15,CBS13-14进行DNA片段编辑。HEK293T细胞培养在培养瓶中,待其长至培养瓶80~90%,将长好的细胞在12孔板中用DMEM完全无抗培养基进行铺板,过夜培养。待12孔板中的细胞长至80~90%时,将Cas9质粒(800ng)和针对编辑位点的sgRNAs质粒(各600ng)通过Lipofectamine 2000进行细胞转染。转染后48小时的细胞加入Puromycin(2μg/ml)进行四天药物筛选,然后在新鲜培养基中培养八天,收集细胞,将均匀分散的细胞进行细胞计数,稀释到一定数目种到96孔板中(每孔只有一个细胞),培养6天后只有一个细胞团的孔板继续加培养液再培养8天。收集部分细胞用筛选引物鉴定DNA片段编辑情况,剩余细胞继续培养。
2.通过4C实验研究CTCF结合位点反转的细胞系
获得了CTCF结合位点反转的细胞系后,通过4C实验来研究CTCF结合位点功能。4C实验主要依照已公开发表的文章进行[43,44]。
简单描述,收集500万的细胞进行甲醛交联,进行6bp的EcoRI酶切连接,然后去交联,再进行4bp的NlaIII进行酶切连接,回收好连接产物,用高保真的Taq酶进行反向PCR。将一系列的PCR产物通过Hiseq X Ten平台进行高通量测序,测序结果通过Bowtie2进行比对[45],然后用r3Cseq程序分析4C数据[46]。所有4C实验进行两个重复。
本发明通过特定PAM组合的DNA片段编辑研究细胞构架蛋白CTCF结合位点功能,哺乳动物的CTCF蛋白(CCCTC-binding factor)是一种锌指蛋白,在基因组DNA相互作用方面有重要作用[36,37]。最近一些研究表明CTCF蛋白结合位点(CBSs)的相对位置和方向与基因组DNA相互作用有密切关系[33,38-42]。然而,位于基因组拓扑区域边界处的CBSs数量是否影响基因组相互作用还不清楚,我们通过CRISPR系统利用特定的PAM组合(NGG-NGG)去编辑CBS所在的DNA片段来研究CBS功能(图6A)。选取β-globin位点旁边的处于基因组拓扑区域边界的三个连续的CTCF结合位点(CBS13-15)[33]进行DNA片段编辑。在CBS13和CBS14之间,CBS14和CBS15之间,CBS13和CBS15外侧设计sgRNAs,对CBS15,CBS14-15,CBS13-14进行DNA片段编辑。在HEK293T细胞中,转染Cas9质粒和针对编辑片段的两个sgRNAs,然后进行单克隆化。在筛选CBS15反转时,从49个单克隆细胞中,得到2个克隆完全反转,8个克隆同时具有反转和删除,选取其中3个克隆进行4C(Circularized chromosome conformationcapture)实验[43](图6B)。在筛选CBS14-15反转时,从40个单克隆细胞中,得到1个克隆完全反转,7个克隆同时具有反转和删除,选取其中2个克隆进行4C实验(图6B)。在筛选CBS13-14反转时,从40个单克隆细胞中,得到1个克隆完全反转,3个克隆同时具有反转和删除,选取其中2个克隆进行4C实验(图6B)。从这些筛选的单克隆测序结果来看,NGG-NGG的PAM组合获得的DNA片段反转克隆反转接头一侧具有精准的连接,另一侧具有碱基加入(图6B)。
上述sgRNAs靶向序列:
RRMoutCBS15-sgRNA:ACCCAATGACCTCAGGCTGT(SEQ ID NO.90)
RRMCBS15-sgRNA:ACCCAATGACCTCAGGCTGT(SEQ ID NO.91)
RRMCBS14-sgRNA:GCCTTTCCTAAGGGTCTGTG(SEQ ID NO.92)
RRMoutCBS13-sgRNA:TCACTTGTTAGCGGCATCTG(SEQ ID NO.93)
以上筛选引物:
CR-RRM1F:AGGTTGAATGAATGCGTGACTG(SEQ ID NO.94)
CR-RRM1F2:CTGCCTCTTTATGGGTCTAATGTAC(SEQ ID NO.95)
CR-RRM1R:AGAGCCACCAGTCCACAGATC(SEQ ID NO.96)
CR-RRM-1R2:ACGCAGGAGCCGTATCATG(SEQ ID NO.97)
CR-RRM-3F2:ATAGCAATGAAATCTTGAAGGAGTG(SEQ ID NO.98)
CR-RRM3R2:GCACAGCCCTGCTCTATTACG(SEQ ID NO.99)
CR-RRM15F1:TGAGACCCGCTAGGAAATGG(SEQ ID NO.100)
CR-RRM15R1:CCCACAACTCCCTTTCAATCAG(SEQ ID NO.101)
CR-RRM14F1:AGTGGAGCACCCTCACATCC(SEQ ID NO.102)
CR-RRM14F2:GCGCTCAGTGTAGAGCTCGTG(SEQ ID NO.103)
CR-RRM14R1:GGATCGGCTGTTTGCTAGGTC(SEQ ID NO.104)
获得了CTCF结合位点反转的细胞系后,通过4C实验来研究它们的基因组相互作用情况,进而阐述CTCF功能。对照细胞系(Ctr:control)和CBS13-15反转细胞系(E79)在本实验室保存,具体信息可参见:Guo,Y,et al.(2015).CRISPR Inversion of CTCF SitesAlters Genome Topology and Enhancer/Promoter Function.Cell,162:900-910。将Ctr、E79、CBS15反转的细胞系(A29,A49,A3)、CBS14-15反转的细胞系(B36,B26)和CBS13-14反转的细胞系(E19,E37)进行4C实验,每个样品各两个生物学重复。在正常的细胞(Ctr)中,CBS13-15与CBS10-12有较强的相互作用,与CBS16-18几乎没有相互作用(图7),方向相反的CBS13-15和CBS16位于基因组拓扑结构的边界处。在CBS15反转的细胞系中,与预期推测结果一致,CBS15与CBS16-18产生新的相互作用,尤其与其具有方向相反的CBS17-18有较强的相互作用,新增相互作用由33.7%增加到60.7%(图7);剩余的CBS13-14仍然与CBS10-12有相互作用,但是相互作用强度有所下降,由66.3%下降到39.3%(图7)。所以,单一CBS反转就可以与其相对的CBS产生新的相互作用。在CBS14-15反转的细胞系中,与CBS15反转的细胞系结果相似,CBS14-15与CBS16-18产生新的相互作用,尤其与其具有方向相反的CBS17-18有较强的相互作用,新增相互作用由33.7%增加到53.0%(图7);剩余的CBS13仍然与CBS10-12有相互作用,但是相互作用强度有所下降,由66.3%下降到47.0%(图7)。在CBS13-15反转的细胞系中,与之前发表文章(Guo,Y,et al.(2015).CRISPR Inversion ofCTCF Sites Alters Genome Topology and Enhancer/Promoter Function.Cell,162:900-910)结果一致,CBS13-15与CBS16-18产生新的相互作用,尤其与其具有方向相反的CBS17-18有较强的相互作用,新增相互作用由33.7%增加到85.3%(图7),与CBS10-12几乎没有相互作用(图7),三个CBS反转与其相对的CBS产生最强的相互作用。在CBS13-14反转的细胞系中,与Ctr细胞系结果相似,CBS13-14反转并没有与CBS16-18产生新的相互作用,被具有方向相反的CBS15与CBS16阻隔(图7);剩余的CBS15仍然与CBS10-12有相互作用(图7)。根据以上4C结果,我们推测在没有方向相反的CBS存在时,反转单一的CBS可以与其相对的CBS产生新的相互作用,进一步证明了CTCF的功能与CBS的方向有关;并且CBS的数量与CTCF的功能相关,反转三个CBS产生更强的相互作用;方向相反的一对CBS可以阻隔相互作用的产生。所以,CRIPSR介导的特定PAM组合的DNA片段编辑为研究基因组的调控元件提供了有利手段。
4C引物:
4C_hEN_CBS13-15_F:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTTCACGCCCTGAAGCTTGTCTGGAG(SEQ ID NO.105)
4C_hEN_CBS13-15_R:
CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTCATTTGGGGTGTTATATGC(SEQ ID NO.106)
本申请的参考文献如下:
1.Stamatoyannopoulos,JA.(2012).What does our genome encode?GenomeRes,22:1602-1611.
2.The ENCODE Project Consortium.(2012).An integrated encyclopedia ofDNA elements in the human genome.Nature,489:57-74.
3.Banerji,J,L Olson,and W Schaffner.(1983).A lymphocyte-specificcellular enhancer is located downstream of the joining region inimmunoglobulin heavy chain genes.Cell,33:729-740.
4.Zhang,T,P Haws,and Q Wu.(2004).Multiple variable first exons:amechanism for cell-and tissue-specific gene regulation.Genome Res,14:79-89.
5.Neph,S,et al.(2012).An expansive human regulatory lexicon encodedin transcription factor footprints.Nature,489:83-90.
6.Shen,Y,et al.(2012).A map of the cis-regulatory sequences in themouse genome.Nature,488:116-120.
7.Thurman,RE,et al.(2012).The accessible chromatin landscape of thehuman genome.Nature,489:75-82.
8.de Laat,W and D Dubole.(2013).Topology of mammalian developmentalenhancers and their regulatory landscapes.Nature,502:499-506.
9.McClintock,B.(1950).The origin and behavior of mutable loci inmaize.Proc Natl Acad Sci U S A,36:344-355.
10.McClintock,B.(1984).The significance of responses of the genome tochallenge.Science,226:792-801.
11.Brinster,RL,et al.(1981).Somatic expression of herpes thymidinekinase in mice following injection of a fusion gene into eggs.Cell,27:223-231.
12.Harbers,K,D Jahner,and R Jaenisch.(1981).Microinjection of clonedretroviral genomes into mouse zygotes:integration and expression in theanimal.Nature,293:540-542.
13.Gordon,JW,et al.(1980).Genetic transformation of mouse embryos bymicroinjection of purified DNA.Proc Natl Acad Sci U S A,77:7380-7384.
14.Palmiter,RD,et al.(1982).Dramatic growth of mice that develop fromeggs microinjected with metallothionein-growth hormone fusion genes.Nature,300:611-615.
15.Capecchi,MR.(2005).Gene targeting in mice:functional analysis ofthe mammalian genome for the twenty-first century.Nat Rev Genet,6:507-512.
16.Carroll,D.(2014).Genome engineering with targetable nucleases.AnnuRev Biochem,83:409-439.
17.Smithies,O,et al.(1985).Insertion of DNA sequences into the humanchromosomal beta-globin locus by homologous recombination.Nature,317:230-234.
18.Thomas,KR and MR Capecchi.(1986).Introduction of homologous DNAsequences into mammalian cells induces mutations in the cognate gene.Nature,324:34-38.
19.Zheng,B,et al.(2000).Engineering mouse chromosomes with Cre-loxP:range,efficiency,and somatic applications.Mol Cell Biol,20:648-655.
20.Wu,S,et al.(2007).Toward simpler and faster genome-widemutagenesis in mice.Nat Genet,39:922-930.
21.Gupta,A,et al.(2013).Targeted chromosomal deletions and inversionsin zebrafish.Genome Res,23:1008-1017.
22.Xiao,A,et al.(2013).Chromosomal deletions and inversions mediatedby TALENs and CRISPR/Cas in zebrafish.Nucleic Acids Res,41:e141.
23.Kraft,K,et al.(2015).Deletions,Inversions,Duplications:Engineeringof Structural Variants using CRISPR/Cas in Mice.Cell Rep,10:833-839.
24.Wu,S,et al.(2008).A protocol for constructing gene targetingvectors:generating knockout mice for the cadherin family and beyond.NatureProtocol,3:1056-1076.
25.Jinek,M,et al.(2012).A programmable dual-RNA-guided DNAendonuclease in adaptive bacterial immunity.Science,337:816-821.
26.Cong,L,et al.(2013).Multiplex genome engineering using CRISPR/Cassystems.Science,339:819-823.
27.Mali,P,et al.(2013).RNA-guided human genome engineering viaCas9.Science,339:823-826.
28.Li,J,et al.(2015).Efficient inversions and duplications ofmammalian regulatory DNA elements and gene clusters by CRISPR/Cas9.J Mol CellBiol,7:284-298.
29.Sartori,AA,et al.(2007).Human CtIP promotes DNA endresection.Nature,450:509-514.
30.Anand,R,et al.(2016).Phosphorylated CtIP Functions as a Co-factorof the MRE11-RAD50-NBS1 Endonuclease in DNA End Resection.Mol Cell,64:940-950.
31.Li,J,J Shou,and Q Wu.(2015).DNA fragment editing of genomes byCRISPR/Cas9.Hereditas,37:992-1002.
32.Huang,H and Q Wu.(2016).CRISPR Double Cutting through theLabyrinthine Architecture of 3D Genomes.J Genet Genomics,43:273-288.
33.Guo,Y,et al.(2015).CRISPR Inversion of CTCF Sites Alters GenomeTopology and Enhancer/Promoter Function.Cell,162:900-910.
34.Lin,ZP,et al.(2014).Triapine disrupts CtIP-mediated homologousrecombination repair and sensitizes ovarian cancer cells to PARP andtopoisomerase inhibitors.Mol Cancer Res,12:381-393.
35.Jiang,F,et al.(2016).Structures of a CRISPR-Cas9R-loop complexprimed for DNA cleavage.Science,351:867-871.
36.Lobanenkov,VV,et al.(1990).A novel sequence-specific DNA bindingprotein which interacts with three regularly spaced direct repeats of theCCCTC-motif in the 5'-flanking sequence of the chicken c-myc gene.Oncogene,5:1743-1753.
37.Ong,CT and VG Corces.(2014).CTCF:an architectural protein bridginggenome topology and function.Nat Rev Genet,15:234-246.
38.Monahan,K,et al.(2012).Role of CCCTC binding factor(CTCF)andcohesin in the generation of single-cell diversity of protocadherin-alphagene expression.Proc Natl Acad Sci U S A,109:9125-9130.
39.Rao,SS,et al.(2014).A 3D map of the human genome at kilobaseresolution reveals principles of chromatin looping.Cell,159:1665-1680.
40.Vietri Rudan,M,et al.(2015).Comparative Hi-C reveals that CTCFunderlies evolution of chromosomal domain architecture.Cell Rep,10:1297-1309.
41.Tang,Z,et al.(2015).CTCF-Mediated Human 3D Genome ArchitectureReveals Chromatin Topology for Transcription.Cell,163:1611-1627.
42.de Wit,E,et al.(2015).CTCF Binding Polarity Determines ChromatinLooping.Mol Cell,60:676-684.
43.Splinter,E,et al.(2012).Determining long-range chromatininteractions for selected genomic sites using 4C-seq technology:from fixationto computation.Methods,58:221-230.
44.Hagège,H,et al.(2007).Quantitative analysis of chromosomeconformation capture assays(3C-qPCR).Nat Protoc,2:1722-1733.
45.Langmead,B and SL Salzberg.(2012).Fast gapped-read alignment withBowtie 2.Nat Methods,9:357-359.
46.Thongjuea,S,et al.(2013).r3Cseq:an R/Bioconductor package for thediscovery of long-range genomic interactions from chromosome conformationcapture andnext-generation sequencing data.Nucleic Acids Res,41:e132.
以上所述,仅为本发明的较佳实施例,并非对本发明任何形式上和实质上的限制,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还将可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员,在不脱离本发明的精神和范围的情况下,当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变,均仍属于本发明的技术方案的范围内。
SEQUENCE LISTING
<110> 上海交通大学
<120> 一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及应
<130> 171291
<160> 106
<170> PatentIn version 3.3
<210> 1
<211> 24
<212> DNA
<213> Artificial
<220>
<223> β-globin RE1sgRNA1F
<400> 1
accgattgtt gttgccttgg agtg 24
<210> 2
<211> 24
<212> DNA
<213> Artificial
<220>
<223> β-globin RE1sgRNA1R
<400> 2
aaaccactcc aaggcaacaa caat 24
<210> 3
<211> 24
<212> DNA
<213> Artificial
<220>
<223> β-globin RE1sgRNA2F
<400> 3
accgctggtc ccctggtaac ctgg 24
<210> 4
<211> 24
<212> DNA
<213> Artificial
<220>
<223> β-globin RE1sgRNA2R
<400> 4
aaacccaggt taccagggga ccag 24
<210> 5
<211> 23
<212> DNA
<213> Artificial
<220>
<223> CtIPsgRNA1F
<400> 5
accggagcag agcagcgggg caa 23
<210> 6
<211> 23
<212> DNA
<213> Artificial
<220>
<223> CtIPsgRNA1R
<400> 6
aaacttgccc cgctgctctg ctc 23
<210> 7
<211> 23
<212> DNA
<213> Artificial
<220>
<223> CtIPsgRNA2F
<400> 7
accgttgccc aaagattccc cag 23
<210> 8
<211> 23
<212> DNA
<213> Artificial
<220>
<223> CtIPsgRNA2R
<400> 8
aaacctgggg aatctttggg caa 23
<210> 9
<211> 21
<212> DNA
<213> Artificial
<220>
<223> β-globin RE1sgRNA1
<400> 9
gattgttgtt gccttggagt g 21
<210> 10
<211> 21
<212> DNA
<213> Artificial
<220>
<223> β-globin RE1sgRNA2
<400> 10
gctggtcccc tggtaacctg g 21
<210> 11
<211> 20
<212> DNA
<213> Artificial
<220>
<223> HS51 RE1sgRNA1
<400> 11
gccacacatc caaggctgac 20
<210> 12
<211> 21
<212> DNA
<213> Artificial
<220>
<223> HS51 RE1sgRNA2
<400> 12
gagatttggg gcgtcaggaa g 21
<210> 13
<211> 20
<212> DNA
<213> Artificial
<220>
<223> β-globin locussgRNA1
<400> 13
ggagatggca gtgttgaagc 20
<210> 14
<211> 20
<212> DNA
<213> Artificial
<220>
<223> β-globin locussgRNA2
<400> 14
ctaggggtca gaagtagttc 20
<210> 15
<211> 81
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hSTM-del-aF1
<400> 15
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatcttg 60
cttagagcca ggactaattg c 81
<210> 16
<211> 85
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hSTM-del-2R
<400> 16
caagcagaag acggcatacg agatagtcaa gtgactggag ttcagacgtg tgctcttccg 60
atctcagctc tgcctgaaag gagtc 85
<210> 17
<211> 77
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hHs51-del-aF
<400> 17
atgatacggc gaccaccgag atctacactc tttccctaca cgacgctctt ccgatctgca 60
aggagatccg tgtcgtc 77
<210> 18
<211> 89
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hHs51-del-bR
<400> 18
caagcagaag acggcatacg agatttgact gtgactggag ttcagacgtg tgctcttccg 60
atcttttttg gctaacaaca tagtgcttc 89
<210> 19
<211> 79
<212> DNA
<213> Artificial
<220>
<223> Hiseq-glob-del-aF2
<400> 19
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctgg 60
ttagcggctt gctcaattc 79
<210> 20
<211> 85
<212> DNA
<213> Artificial
<220>
<223> Hiseq-glob-del-bR1
<400> 20
caagcagaag acggcatacg agatatcacg gtgactggag ttcagacgtg tgctcttccg 60
atcttcttca gccatcccaa gactc 85
<210> 21
<211> 22
<212> DNA
<213> Artificial
<220>
<223> CR-CtIP1-1F
<400> 21
gtactacttc tgggtctccc gc 22
<210> 22
<211> 22
<212> DNA
<213> Artificial
<220>
<223> CR-CtIP1-1R
<400> 22
cactacactg caggtgctca cc 22
<210> 23
<211> 23
<212> DNA
<213> Artificial
<220>
<223> CR-CtIP2-1F
<400> 23
catgaatgga gactgtgtga tgg 23
<210> 24
<211> 23
<212> DNA
<213> Artificial
<220>
<223> CR-CtIP2-1R
<400> 24
caaactttca cgtggacgta gag 23
<210> 25
<211> 20
<212> DNA
<213> Artificial
<220>
<223> HS51 RE1sgRNA1
<400> 25
gccacacatc caaggctgac 20
<210> 26
<211> 21
<212> DNA
<213> Artificial
<220>
<223> HS51 RE1sgRNA2
<400> 26
gagatttggg gcgtcaggaa g 21
<210> 27
<211> 77
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hHs51-aF
<400> 27
atgatacggc gaccaccgag atctacactc tttccctaca cgacgctctt ccgatctgca 60
aggagatccg tgtcgtc 77
<210> 28
<211> 82
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hs51-aRa
<400> 28
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctaa 60
ggatgttgtg gaaggcgagc ag 82
<210> 29
<211> 87
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hs51-bFa
<400> 29
caagcagaag acggcatacg agatggacgg gtgactggag ttcagacgtg tgctcttccg 60
atctctttac atgacagctt ccggtag 87
<210> 30
<211> 89
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hHs51-bR
<400> 30
caagcagaag acggcatacg agatttgact gtgactggag ttcagacgtg tgctcttccg 60
atcttttttg gctaacaaca tagtgcttc 89
<210> 31
<211> 1401
<212> PRT
<213> Artificial
<220>
<223> SpCas9
<400> 31
Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala
1 5 10 15
Ala Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
20 25 30
Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys
35 40 45
Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu
50 55 60
Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg
65 70 75 80
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile
85 90 95
Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp
100 105 110
Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys
115 120 125
Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala
130 135 140
Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val
145 150 155 160
Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala
165 170 175
His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn
180 185 190
Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr
195 200 205
Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp
210 215 220
Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu
225 230 235 240
Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly
245 250 255
Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn
260 265 270
Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr
275 280 285
Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala
290 295 300
Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser
305 310 315 320
Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala
325 330 335
Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu
340 345 350
Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe
355 360 365
Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala
370 375 380
Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met
385 390 395 400
Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu
405 410 415
Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
420 425 430
Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro
435 440 445
Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg
450 455 460
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala
465 470 475 480
Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu
485 490 495
Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met
500 505 510
Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His
515 520 525
Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val
530 535 540
Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu
545 550 555 560
Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val
565 570 575
Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe
580 585 590
Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu
595 600 605
Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu
610 615 620
Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu
625 630 635 640
Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr
645 650 655
Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg
660 665 670
Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg
675 680 685
Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
690 695 700
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr
705 710 715 720
Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser
725 730 735
Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys
740 745 750
Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met
755 760 765
Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn
770 775 780
Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg
785 790 795 800
Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His
805 810 815
Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr
820 825 830
Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn
835 840 845
Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu
850 855 860
Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn
865 870 875 880
Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met
885 890 895
Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg
900 905 910
Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu
915 920 925
Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile
930 935 940
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr
945 950 955 960
Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys
965 970 975
Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val
980 985 990
Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala
995 1000 1005
Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser
1010 1015 1020
Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met
1025 1030 1035
Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr
1040 1045 1050
Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr
1055 1060 1065
Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn
1070 1075 1080
Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala
1085 1090 1095
Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys
1100 1105 1110
Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu
1115 1120 1125
Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp
1130 1135 1140
Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr
1145 1150 1155
Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys
1160 1165 1170
Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg
1175 1180 1185
Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly
1190 1195 1200
Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr
1205 1210 1215
Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser
1220 1225 1230
Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys
1235 1240 1245
Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys
1250 1255 1260
Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln
1265 1270 1275
His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe
1280 1285 1290
Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu
1295 1300 1305
Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala
1310 1315 1320
Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro
1325 1330 1335
Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr
1340 1345 1350
Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser
1355 1360 1365
Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly
1370 1375 1380
Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys
1385 1390 1395
Lys Lys Lys
1400
<210> 32
<211> 4206
<212> DNA
<213> Artificial
<220>
<223> SpCas9
<400> 32
atggccccaa agaagaagcg gaaggtcggt atccacggtg tcccagcagc catggacaag 60
aagtactcca ttgggctcga tatcggcaca aacagcgtcg gctgggccgt cattacggac 120
gagtacaagg tgccgagcaa aaaattcaaa gttctgggca ataccgatcg ccacagcata 180
aagaagaacc tcattggcgc cctcctgttc gactccgggg agacggccga agccacgcgg 240
ctcaaaagaa cagcacggcg cagatatacc cgcagaaaga atcggatctg ctacctgcag 300
gagatcttta gtaatgagat ggctaaggtg gatgactctt tcttccatag gctggaggag 360
tcctttttgg tggaggagga taaaaagcac gagcgccacc caatctttgg caatatcgtg 420
gacgaggtgg cgtaccatga aaagtaccca accatatatc atctgaggaa gaagcttgta 480
gacagtactg ataaggctga cttgcggttg atctatctcg cgctggcgca tatgatcaaa 540
tttcggggac acttcctcat cgagggggac ctgaacccag acaacagcga tgtcgacaaa 600
ctctttatcc aactggttca gacttacaat cagcttttcg aagagaaccc gatcaacgca 660
tccggagttg acgccaaagc aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa 720
aacctcatcg cacagctccc tggggagaag aagaacggcc tgtttggtaa tcttatcgcc 780
ctgtcactcg ggctgacccc caactttaaa tctaacttcg acctggccga agatgccaag 840
cttcaactga gcaaagacac ctacgatgat gatctcgaca atctgctggc ccagatcggc 900
gaccagtacg cagacctttt tttggcggca aagaacctgt cagacgccat tctgctgagt 960
gatattctgc gagtgaacac ggagatcacc aaagctccgc tgagcgctag tatgatcaag 1020
cgctatgatg agcaccacca agacttgact ttgctgaagg cccttgtcag acagcaactg 1080
cctgagaagt acaaggaaat tttcttcgat cagtctaaaa atggctacgc cggatacatt 1140
gacggcggag caagccagga ggaattttac aaatttatta agcccatctt ggaaaaaatg 1200
gacggcaccg aggagctgct ggtaaagctt aacagagaag atctgttgcg caaacagcgc 1260
actttcgaca atggaagcat cccccaccag attcacctgg gcgaactgca cgctatactc 1320
aggcggcaag aggatttcta cccctttttg aaagataaca gggaaaagat tgagaaaatc 1380
ctcacatttc ggatacccta ctatgtaggc cccctcgccc ggggaaattc cagattcgcg 1440
tggatgactc gcaaatcaga agagaccatc actccctgga acttcgagga agtcgtggat 1500
aagggggcct ctgcccagtc cttcatcgaa aggatgacta actttgataa aaatctgcct 1560
aacgaaaagg tgcttcctaa acactctctg ctgtacgagt acttcacagt ttataacgag 1620
ctcaccaagg tcaaatacgt cacagaaggg atgagaaagc cagcattcct gtctggagag 1680
cagaagaaag ctatcgtgga cctcctcttc aagacgaacc ggaaagttac cgtgaaacag 1740
ctcaaagaag actatttcaa aaagattgaa tgtttcgact ctgttgaaat cagcggagtg 1800
gaggatcgct tcaacgcatc cctgggaacg tatcacgatc tcctgaaaat cattaaagac 1860
aaggacttcc tggacaatga ggagaacgag gacattcttg aggacattgt cctcaccctt 1920
acgttgtttg aagataggga gatgattgaa gaacgcttga aaacttacgc tcatctcttc 1980
gacgacaaag tcatgaaaca gctcaagagg cgccgatata caggatgggg gcggctgtca 2040
agaaaactga tcaatgggat ccgagacaag cagagtggaa agacaatcct ggattttctt 2100
aagtccgatg gatttgccaa ccggaacttc atgcagttga tccatgatga ctctctcacc 2160
tttaaggagg acatccagaa agcacaagtt tctggccagg gggacagtct tcacgagcac 2220
atcgctaatc ttgcaggtag cccagctatc aaaaagggaa tactgcagac cgttaaggtc 2280
gtggatgaac tcgtcaaagt aatgggaagg cataagcccg agaatatcgt tatcgagatg 2340
gcccgagaga accaaactac ccagaaggga cagaagaaca gtagggaaag gatgaagagg 2400
attgaagagg gtataaaaga actggggtcc caaatcctta aggaacaccc agttgaaaac 2460
acccagcttc agaatgagaa gctctacctg tactacctgc agaacggcag ggacatgtac 2520
gtggatcagg aactggacat caatcggctc tccgactacg acgtggatca tatcgtgccc 2580
cagtcttttc tcaaagatga ttctattgat aataaagtgt tgacaagatc cgataaaaat 2640
agagggaaga gtgataacgt cccctcagaa gaagttgtca agaaaatgaa aaattattgg 2700
cggcagctgc tgaacgccaa actgatcaca caacggaagt tcgataatct gactaaggct 2760
gaacgaggtg gcctgtctga gttggataaa gcaggcttca tcaaaaggca gcttgttgag 2820
acacgccaga tcaccaagca cgtggcccaa attctcgatt cacgcatgaa caccaagtac 2880
gatgaaaatg acaaactgat tcgagaggtg aaagttatta ctctgaagtc taagctggtc 2940
tcagatttca gaaaggactt tcagttttat aaggtgagag agatcaacaa ttaccaccat 3000
gcgcatgatg cctacctgaa tgcagtggta ggcactgcac ttatcaaaaa atatcccaag 3060
cttgaatctg aatttgttta cggagactat aaagtgtacg atgttaggaa aatgatcgca 3120
aagtctgagc aggaaatagg caaggccacc gctaagtact tcttttacag caatattatg 3180
aattttttca agaccgagat tacactggcc aatggagaga ttcggaagcg accacttatc 3240
gaaacaaacg gagaaacagg agaaatcgtg tgggacaagg gtagggattt cgcgacagtc 3300
cggaaggtcc tgtccatgcc gcaggtgaac atcgttaaaa agaccgaagt acagaccgga 3360
ggcttctcca aggaaagtat cctcccgaaa aggaacagcg acaagctgat cgcacgcaaa 3420
aaagattggg accccaagaa atacggcgga ttcgattctc ctacagtcgc ttacagtgta 3480
ctggttgtgg ccaaagtgga gaaagggaag tctaaaaaac tcaaaagcgt caaggaactg 3540
ctgggcatca caatcatgga gcgatcaagc ttcgaaaaaa accccatcga ctttctcgag 3600
gcgaaaggat ataaagaggt caaaaaagac ctcatcatta agcttcccaa gtactctctc 3660
tttgagcttg aaaacggccg gaaacgaatg ctcgctagtg cgggcgagct gcagaaaggt 3720
aacgagctgg cactgccctc taaatacgtt aatttcttgt atctggccag ccactatgaa 3780
aagctcaaag ggtctcccga agataatgag cagaagcagc tgttcgtgga acaacacaaa 3840
cactaccttg atgagatcat cgagcaaata agcgaattct ccaaaagagt gatcctcgcc 3900
gacgctaacc tcgataaggt gctttctgct tacaataagc acagggataa gcccatcagg 3960
gagcaggcag aaaacattat ccacttgttt actctgacca acttgggcgc gcctgcagcc 4020
ttcaagtact tcgacaccac catagacaga aagcggtaca cctctacaaa ggaggtcctg 4080
gacgccacac tgattcatca gtcaattacg gggctctatg aaacaagaat cgacctctct 4140
cagctcggtg gagacaagcg tcctgctgct actaagaaag ctggtcaagc taagaaaaag 4200
aaataa 4206
<210> 33
<211> 1401
<212> PRT
<213> Artificial
<220>
<223> Cas9 G915F
<400> 33
Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala
1 5 10 15
Ala Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
20 25 30
Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys
35 40 45
Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu
50 55 60
Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg
65 70 75 80
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile
85 90 95
Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp
100 105 110
Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys
115 120 125
Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala
130 135 140
Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val
145 150 155 160
Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala
165 170 175
His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn
180 185 190
Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr
195 200 205
Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp
210 215 220
Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu
225 230 235 240
Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly
245 250 255
Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn
260 265 270
Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr
275 280 285
Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala
290 295 300
Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser
305 310 315 320
Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala
325 330 335
Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu
340 345 350
Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe
355 360 365
Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala
370 375 380
Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met
385 390 395 400
Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu
405 410 415
Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
420 425 430
Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro
435 440 445
Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg
450 455 460
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala
465 470 475 480
Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu
485 490 495
Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met
500 505 510
Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His
515 520 525
Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val
530 535 540
Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu
545 550 555 560
Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val
565 570 575
Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe
580 585 590
Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu
595 600 605
Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu
610 615 620
Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu
625 630 635 640
Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr
645 650 655
Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg
660 665 670
Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg
675 680 685
Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
690 695 700
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr
705 710 715 720
Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser
725 730 735
Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys
740 745 750
Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met
755 760 765
Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn
770 775 780
Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg
785 790 795 800
Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His
805 810 815
Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr
820 825 830
Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn
835 840 845
Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu
850 855 860
Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn
865 870 875 880
Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met
885 890 895
Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg
900 905 910
Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu
915 920 925
Asp Lys Ala Phe Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile
930 935 940
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr
945 950 955 960
Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys
965 970 975
Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val
980 985 990
Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala
995 1000 1005
Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser
1010 1015 1020
Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met
1025 1030 1035
Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr
1040 1045 1050
Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr
1055 1060 1065
Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn
1070 1075 1080
Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala
1085 1090 1095
Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys
1100 1105 1110
Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu
1115 1120 1125
Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp
1130 1135 1140
Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr
1145 1150 1155
Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys
1160 1165 1170
Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg
1175 1180 1185
Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly
1190 1195 1200
Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr
1205 1210 1215
Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser
1220 1225 1230
Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys
1235 1240 1245
Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys
1250 1255 1260
Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln
1265 1270 1275
His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe
1280 1285 1290
Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu
1295 1300 1305
Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala
1310 1315 1320
Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro
1325 1330 1335
Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr
1340 1345 1350
Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser
1355 1360 1365
Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly
1370 1375 1380
Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys
1385 1390 1395
Lys Lys Lys
1400
<210> 34
<211> 4206
<212> DNA
<213> Artificial
<220>
<223> Cas9 G915F
<400> 34
atggccccaa agaagaagcg gaaggtcggt atccacggtg tcccagcagc catggacaag 60
aagtactcca ttgggctcga tatcggcaca aacagcgtcg gctgggccgt cattacggac 120
gagtacaagg tgccgagcaa aaaattcaaa gttctgggca ataccgatcg ccacagcata 180
aagaagaacc tcattggcgc cctcctgttc gactccgggg agacggccga agccacgcgg 240
ctcaaaagaa cagcacggcg cagatatacc cgcagaaaga atcggatctg ctacctgcag 300
gagatcttta gtaatgagat ggctaaggtg gatgactctt tcttccatag gctggaggag 360
tcctttttgg tggaggagga taaaaagcac gagcgccacc caatctttgg caatatcgtg 420
gacgaggtgg cgtaccatga aaagtaccca accatatatc atctgaggaa gaagcttgta 480
gacagtactg ataaggctga cttgcggttg atctatctcg cgctggcgca tatgatcaaa 540
tttcggggac acttcctcat cgagggggac ctgaacccag acaacagcga tgtcgacaaa 600
ctctttatcc aactggttca gacttacaat cagcttttcg aagagaaccc gatcaacgca 660
tccggagttg acgccaaagc aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa 720
aacctcatcg cacagctccc tggggagaag aagaacggcc tgtttggtaa tcttatcgcc 780
ctgtcactcg ggctgacccc caactttaaa tctaacttcg acctggccga agatgccaag 840
cttcaactga gcaaagacac ctacgatgat gatctcgaca atctgctggc ccagatcggc 900
gaccagtacg cagacctttt tttggcggca aagaacctgt cagacgccat tctgctgagt 960
gatattctgc gagtgaacac ggagatcacc aaagctccgc tgagcgctag tatgatcaag 1020
cgctatgatg agcaccacca agacttgact ttgctgaagg cccttgtcag acagcaactg 1080
cctgagaagt acaaggaaat tttcttcgat cagtctaaaa atggctacgc cggatacatt 1140
gacggcggag caagccagga ggaattttac aaatttatta agcccatctt ggaaaaaatg 1200
gacggcaccg aggagctgct ggtaaagctt aacagagaag atctgttgcg caaacagcgc 1260
actttcgaca atggaagcat cccccaccag attcacctgg gcgaactgca cgctatactc 1320
aggcggcaag aggatttcta cccctttttg aaagataaca gggaaaagat tgagaaaatc 1380
ctcacatttc ggatacccta ctatgtaggc cccctcgccc ggggaaattc cagattcgcg 1440
tggatgactc gcaaatcaga agagaccatc actccctgga acttcgagga agtcgtggat 1500
aagggggcct ctgcccagtc cttcatcgaa aggatgacta actttgataa aaatctgcct 1560
aacgaaaagg tgcttcctaa acactctctg ctgtacgagt acttcacagt ttataacgag 1620
ctcaccaagg tcaaatacgt cacagaaggg atgagaaagc cagcattcct gtctggagag 1680
cagaagaaag ctatcgtgga cctcctcttc aagacgaacc ggaaagttac cgtgaaacag 1740
ctcaaagaag actatttcaa aaagattgaa tgtttcgact ctgttgaaat cagcggagtg 1800
gaggatcgct tcaacgcatc cctgggaacg tatcacgatc tcctgaaaat cattaaagac 1860
aaggacttcc tggacaatga ggagaacgag gacattcttg aggacattgt cctcaccctt 1920
acgttgtttg aagataggga gatgattgaa gaacgcttga aaacttacgc tcatctcttc 1980
gacgacaaag tcatgaaaca gctcaagagg cgccgatata caggatgggg gcggctgtca 2040
agaaaactga tcaatgggat ccgagacaag cagagtggaa agacaatcct ggattttctt 2100
aagtccgatg gatttgccaa ccggaacttc atgcagttga tccatgatga ctctctcacc 2160
tttaaggagg acatccagaa agcacaagtt tctggccagg gggacagtct tcacgagcac 2220
atcgctaatc ttgcaggtag cccagctatc aaaaagggaa tactgcagac cgttaaggtc 2280
gtggatgaac tcgtcaaagt aatgggaagg cataagcccg agaatatcgt tatcgagatg 2340
gcccgagaga accaaactac ccagaaggga cagaagaaca gtagggaaag gatgaagagg 2400
attgaagagg gtataaaaga actggggtcc caaatcctta aggaacaccc agttgaaaac 2460
acccagcttc agaatgagaa gctctacctg tactacctgc agaacggcag ggacatgtac 2520
gtggatcagg aactggacat caatcggctc tccgactacg acgtggatca tatcgtgccc 2580
cagtcttttc tcaaagatga ttctattgat aataaagtgt tgacaagatc cgataaaaat 2640
agagggaaga gtgataacgt cccctcagaa gaagttgtca agaaaatgaa aaattattgg 2700
cggcagctgc tgaacgccaa actgatcaca caacggaagt tcgataatct gactaaggct 2760
gaacgaggtg gcctgtctga gttggataaa gcattcttca tcaaaaggca gcttgttgag 2820
acacgccaga tcaccaagca cgtggcccaa attctcgatt cacgcatgaa caccaagtac 2880
gatgaaaatg acaaactgat tcgagaggtg aaagttatta ctctgaagtc taagctggtc 2940
tcagatttca gaaaggactt tcagttttat aaggtgagag agatcaacaa ttaccaccat 3000
gcgcatgatg cctacctgaa tgcagtggta ggcactgcac ttatcaaaaa atatcccaag 3060
cttgaatctg aatttgttta cggagactat aaagtgtacg atgttaggaa aatgatcgca 3120
aagtctgagc aggaaatagg caaggccacc gctaagtact tcttttacag caatattatg 3180
aattttttca agaccgagat tacactggcc aatggagaga ttcggaagcg accacttatc 3240
gaaacaaacg gagaaacagg agaaatcgtg tgggacaagg gtagggattt cgcgacagtc 3300
cggaaggtcc tgtccatgcc gcaggtgaac atcgttaaaa agaccgaagt acagaccgga 3360
ggcttctcca aggaaagtat cctcccgaaa aggaacagcg acaagctgat cgcacgcaaa 3420
aaagattggg accccaagaa atacggcgga ttcgattctc ctacagtcgc ttacagtgta 3480
ctggttgtgg ccaaagtgga gaaagggaag tctaaaaaac tcaaaagcgt caaggaactg 3540
ctgggcatca caatcatgga gcgatcaagc ttcgaaaaaa accccatcga ctttctcgag 3600
gcgaaaggat ataaagaggt caaaaaagac ctcatcatta agcttcccaa gtactctctc 3660
tttgagcttg aaaacggccg gaaacgaatg ctcgctagtg cgggcgagct gcagaaaggt 3720
aacgagctgg cactgccctc taaatacgtt aatttcttgt atctggccag ccactatgaa 3780
aagctcaaag ggtctcccga agataatgag cagaagcagc tgttcgtgga acaacacaaa 3840
cactaccttg atgagatcat cgagcaaata agcgaattct ccaaaagagt gatcctcgcc 3900
gacgctaacc tcgataaggt gctttctgct tacaataagc acagggataa gcccatcagg 3960
gagcaggcag aaaacattat ccacttgttt actctgacca acttgggcgc gcctgcagcc 4020
ttcaagtact tcgacaccac catagacaga aagcggtaca cctctacaaa ggaggtcctg 4080
gacgccacac tgattcatca gtcaattacg gggctctatg aaacaagaat cgacctctct 4140
cagctcggtg gagacaagcg tcctgctgct actaagaaag ctggtcaagc taagaaaaag 4200
aaataa 4206
<210> 35
<211> 1400
<212> PRT
<213> Artificial
<220>
<223> Cas9 ΔF916
<400> 35
Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala
1 5 10 15
Ala Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
20 25 30
Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys
35 40 45
Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu
50 55 60
Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg
65 70 75 80
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile
85 90 95
Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp
100 105 110
Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys
115 120 125
Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala
130 135 140
Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val
145 150 155 160
Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala
165 170 175
His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn
180 185 190
Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr
195 200 205
Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp
210 215 220
Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu
225 230 235 240
Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly
245 250 255
Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn
260 265 270
Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr
275 280 285
Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala
290 295 300
Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser
305 310 315 320
Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala
325 330 335
Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu
340 345 350
Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe
355 360 365
Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala
370 375 380
Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met
385 390 395 400
Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu
405 410 415
Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
420 425 430
Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro
435 440 445
Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg
450 455 460
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala
465 470 475 480
Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu
485 490 495
Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met
500 505 510
Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His
515 520 525
Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val
530 535 540
Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu
545 550 555 560
Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val
565 570 575
Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe
580 585 590
Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu
595 600 605
Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu
610 615 620
Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu
625 630 635 640
Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr
645 650 655
Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg
660 665 670
Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg
675 680 685
Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
690 695 700
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr
705 710 715 720
Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser
725 730 735
Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys
740 745 750
Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met
755 760 765
Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn
770 775 780
Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg
785 790 795 800
Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His
805 810 815
Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr
820 825 830
Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn
835 840 845
Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu
850 855 860
Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn
865 870 875 880
Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met
885 890 895
Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg
900 905 910
Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu
915 920 925
Asp Lys Ala Gly Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
930 935 940
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
945 950 955 960
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
965 970 975
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
980 985 990
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
995 1000 1005
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu
1010 1015 1020
Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile
1025 1030 1035
Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe
1040 1045 1050
Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu
1055 1060 1065
Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly
1070 1075 1080
Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr
1085 1090 1095
Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys
1100 1105 1110
Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro
1115 1120 1125
Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp
1130 1135 1140
Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser
1145 1150 1155
Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu
1160 1165 1170
Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser
1175 1180 1185
Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr
1190 1195 1200
Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser
1205 1210 1215
Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala
1220 1225 1230
Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr
1235 1240 1245
Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly
1250 1255 1260
Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His
1265 1270 1275
Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser
1280 1285 1290
Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser
1295 1300 1305
Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu
1310 1315 1320
Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala
1325 1330 1335
Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr
1340 1345 1350
Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile
1355 1360 1365
Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly
1370 1375 1380
Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys
1385 1390 1395
Lys Lys
1400
<210> 36
<211> 4203
<212> DNA
<213> Artificial
<220>
<223> Cas9 ΔF916
<400> 36
atggccccaa agaagaagcg gaaggtcggt atccacggtg tcccagcagc catggacaag 60
aagtactcca ttgggctcga tatcggcaca aacagcgtcg gctgggccgt cattacggac 120
gagtacaagg tgccgagcaa aaaattcaaa gttctgggca ataccgatcg ccacagcata 180
aagaagaacc tcattggcgc cctcctgttc gactccgggg agacggccga agccacgcgg 240
ctcaaaagaa cagcacggcg cagatatacc cgcagaaaga atcggatctg ctacctgcag 300
gagatcttta gtaatgagat ggctaaggtg gatgactctt tcttccatag gctggaggag 360
tcctttttgg tggaggagga taaaaagcac gagcgccacc caatctttgg caatatcgtg 420
gacgaggtgg cgtaccatga aaagtaccca accatatatc atctgaggaa gaagcttgta 480
gacagtactg ataaggctga cttgcggttg atctatctcg cgctggcgca tatgatcaaa 540
tttcggggac acttcctcat cgagggggac ctgaacccag acaacagcga tgtcgacaaa 600
ctctttatcc aactggttca gacttacaat cagcttttcg aagagaaccc gatcaacgca 660
tccggagttg acgccaaagc aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa 720
aacctcatcg cacagctccc tggggagaag aagaacggcc tgtttggtaa tcttatcgcc 780
ctgtcactcg ggctgacccc caactttaaa tctaacttcg acctggccga agatgccaag 840
cttcaactga gcaaagacac ctacgatgat gatctcgaca atctgctggc ccagatcggc 900
gaccagtacg cagacctttt tttggcggca aagaacctgt cagacgccat tctgctgagt 960
gatattctgc gagtgaacac ggagatcacc aaagctccgc tgagcgctag tatgatcaag 1020
cgctatgatg agcaccacca agacttgact ttgctgaagg cccttgtcag acagcaactg 1080
cctgagaagt acaaggaaat tttcttcgat cagtctaaaa atggctacgc cggatacatt 1140
gacggcggag caagccagga ggaattttac aaatttatta agcccatctt ggaaaaaatg 1200
gacggcaccg aggagctgct ggtaaagctt aacagagaag atctgttgcg caaacagcgc 1260
actttcgaca atggaagcat cccccaccag attcacctgg gcgaactgca cgctatactc 1320
aggcggcaag aggatttcta cccctttttg aaagataaca gggaaaagat tgagaaaatc 1380
ctcacatttc ggatacccta ctatgtaggc cccctcgccc ggggaaattc cagattcgcg 1440
tggatgactc gcaaatcaga agagaccatc actccctgga acttcgagga agtcgtggat 1500
aagggggcct ctgcccagtc cttcatcgaa aggatgacta actttgataa aaatctgcct 1560
aacgaaaagg tgcttcctaa acactctctg ctgtacgagt acttcacagt ttataacgag 1620
ctcaccaagg tcaaatacgt cacagaaggg atgagaaagc cagcattcct gtctggagag 1680
cagaagaaag ctatcgtgga cctcctcttc aagacgaacc ggaaagttac cgtgaaacag 1740
ctcaaagaag actatttcaa aaagattgaa tgtttcgact ctgttgaaat cagcggagtg 1800
gaggatcgct tcaacgcatc cctgggaacg tatcacgatc tcctgaaaat cattaaagac 1860
aaggacttcc tggacaatga ggagaacgag gacattcttg aggacattgt cctcaccctt 1920
acgttgtttg aagataggga gatgattgaa gaacgcttga aaacttacgc tcatctcttc 1980
gacgacaaag tcatgaaaca gctcaagagg cgccgatata caggatgggg gcggctgtca 2040
agaaaactga tcaatgggat ccgagacaag cagagtggaa agacaatcct ggattttctt 2100
aagtccgatg gatttgccaa ccggaacttc atgcagttga tccatgatga ctctctcacc 2160
tttaaggagg acatccagaa agcacaagtt tctggccagg gggacagtct tcacgagcac 2220
atcgctaatc ttgcaggtag cccagctatc aaaaagggaa tactgcagac cgttaaggtc 2280
gtggatgaac tcgtcaaagt aatgggaagg cataagcccg agaatatcgt tatcgagatg 2340
gcccgagaga accaaactac ccagaaggga cagaagaaca gtagggaaag gatgaagagg 2400
attgaagagg gtataaaaga actggggtcc caaatcctta aggaacaccc agttgaaaac 2460
acccagcttc agaatgagaa gctctacctg tactacctgc agaacggcag ggacatgtac 2520
gtggatcagg aactggacat caatcggctc tccgactacg acgtggatca tatcgtgccc 2580
cagtcttttc tcaaagatga ttctattgat aataaagtgt tgacaagatc cgataaaaat 2640
agagggaaga gtgataacgt cccctcagaa gaagttgtca agaaaatgaa aaattattgg 2700
cggcagctgc tgaacgccaa actgatcaca caacggaagt tcgataatct gactaaggct 2760
gaacgaggtg gcctgtctga gttggataaa gcaggcatca aaaggcagct tgttgagaca 2820
cgccagatca ccaagcacgt ggcccaaatt ctcgattcac gcatgaacac caagtacgat 2880
gaaaatgaca aactgattcg agaggtgaaa gttattactc tgaagtctaa gctggtctca 2940
gatttcagaa aggactttca gttttataag gtgagagaga tcaacaatta ccaccatgcg 3000
catgatgcct acctgaatgc agtggtaggc actgcactta tcaaaaaata tcccaagctt 3060
gaatctgaat ttgtttacgg agactataaa gtgtacgatg ttaggaaaat gatcgcaaag 3120
tctgagcagg aaataggcaa ggccaccgct aagtacttct tttacagcaa tattatgaat 3180
tttttcaaga ccgagattac actggccaat ggagagattc ggaagcgacc acttatcgaa 3240
acaaacggag aaacaggaga aatcgtgtgg gacaagggta gggatttcgc gacagtccgg 3300
aaggtcctgt ccatgccgca ggtgaacatc gttaaaaaga ccgaagtaca gaccggaggc 3360
ttctccaagg aaagtatcct cccgaaaagg aacagcgaca agctgatcgc acgcaaaaaa 3420
gattgggacc ccaagaaata cggcggattc gattctccta cagtcgctta cagtgtactg 3480
gttgtggcca aagtggagaa agggaagtct aaaaaactca aaagcgtcaa ggaactgctg 3540
ggcatcacaa tcatggagcg atcaagcttc gaaaaaaacc ccatcgactt tctcgaggcg 3600
aaaggatata aagaggtcaa aaaagacctc atcattaagc ttcccaagta ctctctcttt 3660
gagcttgaaa acggccggaa acgaatgctc gctagtgcgg gcgagctgca gaaaggtaac 3720
gagctggcac tgccctctaa atacgttaat ttcttgtatc tggccagcca ctatgaaaag 3780
ctcaaagggt ctcccgaaga taatgagcag aagcagctgt tcgtggaaca acacaaacac 3840
taccttgatg agatcatcga gcaaataagc gaattctcca aaagagtgat cctcgccgac 3900
gctaacctcg ataaggtgct ttctgcttac aataagcaca gggataagcc catcagggag 3960
caggcagaaa acattatcca cttgtttact ctgaccaact tgggcgcgcc tgcagccttc 4020
aagtacttcg acaccaccat agacagaaag cggtacacct ctacaaagga ggtcctggac 4080
gccacactga ttcatcagtc aattacgggg ctctatgaaa caagaatcga cctctctcag 4140
ctcggtggag acaagcgtcc tgctgctact aagaaagctg gtcaagctaa gaaaaagaaa 4200
taa 4203
<210> 37
<211> 1401
<212> PRT
<213> Artificial
<220>
<223> Cas9 F916P
<400> 37
Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala
1 5 10 15
Ala Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
20 25 30
Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys
35 40 45
Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu
50 55 60
Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg
65 70 75 80
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile
85 90 95
Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp
100 105 110
Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys
115 120 125
Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala
130 135 140
Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val
145 150 155 160
Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala
165 170 175
His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn
180 185 190
Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr
195 200 205
Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp
210 215 220
Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu
225 230 235 240
Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly
245 250 255
Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn
260 265 270
Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr
275 280 285
Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala
290 295 300
Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser
305 310 315 320
Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala
325 330 335
Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu
340 345 350
Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe
355 360 365
Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala
370 375 380
Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met
385 390 395 400
Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu
405 410 415
Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
420 425 430
Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro
435 440 445
Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg
450 455 460
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala
465 470 475 480
Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu
485 490 495
Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met
500 505 510
Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His
515 520 525
Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val
530 535 540
Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu
545 550 555 560
Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val
565 570 575
Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe
580 585 590
Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu
595 600 605
Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu
610 615 620
Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu
625 630 635 640
Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr
645 650 655
Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg
660 665 670
Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg
675 680 685
Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
690 695 700
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr
705 710 715 720
Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser
725 730 735
Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys
740 745 750
Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met
755 760 765
Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn
770 775 780
Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg
785 790 795 800
Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His
805 810 815
Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr
820 825 830
Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn
835 840 845
Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu
850 855 860
Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn
865 870 875 880
Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met
885 890 895
Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg
900 905 910
Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu
915 920 925
Asp Lys Ala Gly Pro Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile
930 935 940
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr
945 950 955 960
Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys
965 970 975
Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val
980 985 990
Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala
995 1000 1005
Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser
1010 1015 1020
Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met
1025 1030 1035
Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr
1040 1045 1050
Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr
1055 1060 1065
Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn
1070 1075 1080
Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala
1085 1090 1095
Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys
1100 1105 1110
Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu
1115 1120 1125
Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp
1130 1135 1140
Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr
1145 1150 1155
Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys
1160 1165 1170
Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg
1175 1180 1185
Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly
1190 1195 1200
Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr
1205 1210 1215
Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser
1220 1225 1230
Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys
1235 1240 1245
Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys
1250 1255 1260
Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln
1265 1270 1275
His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe
1280 1285 1290
Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu
1295 1300 1305
Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala
1310 1315 1320
Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro
1325 1330 1335
Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr
1340 1345 1350
Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser
1355 1360 1365
Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly
1370 1375 1380
Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys
1385 1390 1395
Lys Lys Lys
1400
<210> 38
<211> 4206
<212> DNA
<213> Artificial
<220>
<223> Cas9 F916P
<400> 38
atggccccaa agaagaagcg gaaggtcggt atccacggtg tcccagcagc catggacaag 60
aagtactcca ttgggctcga tatcggcaca aacagcgtcg gctgggccgt cattacggac 120
gagtacaagg tgccgagcaa aaaattcaaa gttctgggca ataccgatcg ccacagcata 180
aagaagaacc tcattggcgc cctcctgttc gactccgggg agacggccga agccacgcgg 240
ctcaaaagaa cagcacggcg cagatatacc cgcagaaaga atcggatctg ctacctgcag 300
gagatcttta gtaatgagat ggctaaggtg gatgactctt tcttccatag gctggaggag 360
tcctttttgg tggaggagga taaaaagcac gagcgccacc caatctttgg caatatcgtg 420
gacgaggtgg cgtaccatga aaagtaccca accatatatc atctgaggaa gaagcttgta 480
gacagtactg ataaggctga cttgcggttg atctatctcg cgctggcgca tatgatcaaa 540
tttcggggac acttcctcat cgagggggac ctgaacccag acaacagcga tgtcgacaaa 600
ctctttatcc aactggttca gacttacaat cagcttttcg aagagaaccc gatcaacgca 660
tccggagttg acgccaaagc aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa 720
aacctcatcg cacagctccc tggggagaag aagaacggcc tgtttggtaa tcttatcgcc 780
ctgtcactcg ggctgacccc caactttaaa tctaacttcg acctggccga agatgccaag 840
cttcaactga gcaaagacac ctacgatgat gatctcgaca atctgctggc ccagatcggc 900
gaccagtacg cagacctttt tttggcggca aagaacctgt cagacgccat tctgctgagt 960
gatattctgc gagtgaacac ggagatcacc aaagctccgc tgagcgctag tatgatcaag 1020
cgctatgatg agcaccacca agacttgact ttgctgaagg cccttgtcag acagcaactg 1080
cctgagaagt acaaggaaat tttcttcgat cagtctaaaa atggctacgc cggatacatt 1140
gacggcggag caagccagga ggaattttac aaatttatta agcccatctt ggaaaaaatg 1200
gacggcaccg aggagctgct ggtaaagctt aacagagaag atctgttgcg caaacagcgc 1260
actttcgaca atggaagcat cccccaccag attcacctgg gcgaactgca cgctatactc 1320
aggcggcaag aggatttcta cccctttttg aaagataaca gggaaaagat tgagaaaatc 1380
ctcacatttc ggatacccta ctatgtaggc cccctcgccc ggggaaattc cagattcgcg 1440
tggatgactc gcaaatcaga agagaccatc actccctgga acttcgagga agtcgtggat 1500
aagggggcct ctgcccagtc cttcatcgaa aggatgacta actttgataa aaatctgcct 1560
aacgaaaagg tgcttcctaa acactctctg ctgtacgagt acttcacagt ttataacgag 1620
ctcaccaagg tcaaatacgt cacagaaggg atgagaaagc cagcattcct gtctggagag 1680
cagaagaaag ctatcgtgga cctcctcttc aagacgaacc ggaaagttac cgtgaaacag 1740
ctcaaagaag actatttcaa aaagattgaa tgtttcgact ctgttgaaat cagcggagtg 1800
gaggatcgct tcaacgcatc cctgggaacg tatcacgatc tcctgaaaat cattaaagac 1860
aaggacttcc tggacaatga ggagaacgag gacattcttg aggacattgt cctcaccctt 1920
acgttgtttg aagataggga gatgattgaa gaacgcttga aaacttacgc tcatctcttc 1980
gacgacaaag tcatgaaaca gctcaagagg cgccgatata caggatgggg gcggctgtca 2040
agaaaactga tcaatgggat ccgagacaag cagagtggaa agacaatcct ggattttctt 2100
aagtccgatg gatttgccaa ccggaacttc atgcagttga tccatgatga ctctctcacc 2160
tttaaggagg acatccagaa agcacaagtt tctggccagg gggacagtct tcacgagcac 2220
atcgctaatc ttgcaggtag cccagctatc aaaaagggaa tactgcagac cgttaaggtc 2280
gtggatgaac tcgtcaaagt aatgggaagg cataagcccg agaatatcgt tatcgagatg 2340
gcccgagaga accaaactac ccagaaggga cagaagaaca gtagggaaag gatgaagagg 2400
attgaagagg gtataaaaga actggggtcc caaatcctta aggaacaccc agttgaaaac 2460
acccagcttc agaatgagaa gctctacctg tactacctgc agaacggcag ggacatgtac 2520
gtggatcagg aactggacat caatcggctc tccgactacg acgtggatca tatcgtgccc 2580
cagtcttttc tcaaagatga ttctattgat aataaagtgt tgacaagatc cgataaaaat 2640
agagggaaga gtgataacgt cccctcagaa gaagttgtca agaaaatgaa aaattattgg 2700
cggcagctgc tgaacgccaa actgatcaca caacggaagt tcgataatct gactaaggct 2760
gaacgaggtg gcctgtctga gttggataaa gcaggcccca tcaaaaggca gcttgttgag 2820
acacgccaga tcaccaagca cgtggcccaa attctcgatt cacgcatgaa caccaagtac 2880
gatgaaaatg acaaactgat tcgagaggtg aaagttatta ctctgaagtc taagctggtc 2940
tcagatttca gaaaggactt tcagttttat aaggtgagag agatcaacaa ttaccaccat 3000
gcgcatgatg cctacctgaa tgcagtggta ggcactgcac ttatcaaaaa atatcccaag 3060
cttgaatctg aatttgttta cggagactat aaagtgtacg atgttaggaa aatgatcgca 3120
aagtctgagc aggaaatagg caaggccacc gctaagtact tcttttacag caatattatg 3180
aattttttca agaccgagat tacactggcc aatggagaga ttcggaagcg accacttatc 3240
gaaacaaacg gagaaacagg agaaatcgtg tgggacaagg gtagggattt cgcgacagtc 3300
cggaaggtcc tgtccatgcc gcaggtgaac atcgttaaaa agaccgaagt acagaccgga 3360
ggcttctcca aggaaagtat cctcccgaaa aggaacagcg acaagctgat cgcacgcaaa 3420
aaagattggg accccaagaa atacggcgga ttcgattctc ctacagtcgc ttacagtgta 3480
ctggttgtgg ccaaagtgga gaaagggaag tctaaaaaac tcaaaagcgt caaggaactg 3540
ctgggcatca caatcatgga gcgatcaagc ttcgaaaaaa accccatcga ctttctcgag 3600
gcgaaaggat ataaagaggt caaaaaagac ctcatcatta agcttcccaa gtactctctc 3660
tttgagcttg aaaacggccg gaaacgaatg ctcgctagtg cgggcgagct gcagaaaggt 3720
aacgagctgg cactgccctc taaatacgtt aatttcttgt atctggccag ccactatgaa 3780
aagctcaaag ggtctcccga agataatgag cagaagcagc tgttcgtgga acaacacaaa 3840
cactaccttg atgagatcat cgagcaaata agcgaattct ccaaaagagt gatcctcgcc 3900
gacgctaacc tcgataaggt gctttctgct tacaataagc acagggataa gcccatcagg 3960
gagcaggcag aaaacattat ccacttgttt actctgacca acttgggcgc gcctgcagcc 4020
ttcaagtact tcgacaccac catagacaga aagcggtaca cctctacaaa ggaggtcctg 4080
gacgccacac tgattcatca gtcaattacg gggctctatg aaacaagaat cgacctctct 4140
cagctcggtg gagacaagcg tcctgctgct actaagaaag ctggtcaagc taagaaaaag 4200
aaataa 4206
<210> 39
<211> 1401
<212> PRT
<213> Artificial
<220>
<223> Cas9 K918A
<400> 39
Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala
1 5 10 15
Ala Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
20 25 30
Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys
35 40 45
Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu
50 55 60
Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg
65 70 75 80
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile
85 90 95
Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp
100 105 110
Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys
115 120 125
Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala
130 135 140
Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val
145 150 155 160
Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala
165 170 175
His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn
180 185 190
Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr
195 200 205
Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp
210 215 220
Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu
225 230 235 240
Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly
245 250 255
Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn
260 265 270
Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr
275 280 285
Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala
290 295 300
Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser
305 310 315 320
Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala
325 330 335
Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu
340 345 350
Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe
355 360 365
Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala
370 375 380
Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met
385 390 395 400
Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu
405 410 415
Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
420 425 430
Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro
435 440 445
Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg
450 455 460
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala
465 470 475 480
Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu
485 490 495
Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met
500 505 510
Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His
515 520 525
Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val
530 535 540
Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu
545 550 555 560
Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val
565 570 575
Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe
580 585 590
Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu
595 600 605
Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu
610 615 620
Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu
625 630 635 640
Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr
645 650 655
Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg
660 665 670
Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg
675 680 685
Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
690 695 700
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr
705 710 715 720
Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser
725 730 735
Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys
740 745 750
Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met
755 760 765
Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn
770 775 780
Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg
785 790 795 800
Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His
805 810 815
Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr
820 825 830
Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn
835 840 845
Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu
850 855 860
Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn
865 870 875 880
Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met
885 890 895
Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg
900 905 910
Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu
915 920 925
Asp Lys Ala Gly Phe Ile Ala Arg Gln Leu Val Glu Thr Arg Gln Ile
930 935 940
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr
945 950 955 960
Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys
965 970 975
Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val
980 985 990
Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala
995 1000 1005
Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser
1010 1015 1020
Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met
1025 1030 1035
Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr
1040 1045 1050
Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr
1055 1060 1065
Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn
1070 1075 1080
Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala
1085 1090 1095
Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys
1100 1105 1110
Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu
1115 1120 1125
Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp
1130 1135 1140
Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr
1145 1150 1155
Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys
1160 1165 1170
Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg
1175 1180 1185
Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly
1190 1195 1200
Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr
1205 1210 1215
Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser
1220 1225 1230
Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys
1235 1240 1245
Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys
1250 1255 1260
Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln
1265 1270 1275
His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe
1280 1285 1290
Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu
1295 1300 1305
Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala
1310 1315 1320
Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro
1325 1330 1335
Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr
1340 1345 1350
Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser
1355 1360 1365
Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly
1370 1375 1380
Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys
1385 1390 1395
Lys Lys Lys
1400
<210> 40
<211> 4206
<212> DNA
<213> Artificial
<220>
<223> Cas9 K918A
<400> 40
atggccccaa agaagaagcg gaaggtcggt atccacggtg tcccagcagc catggacaag 60
aagtactcca ttgggctcga tatcggcaca aacagcgtcg gctgggccgt cattacggac 120
gagtacaagg tgccgagcaa aaaattcaaa gttctgggca ataccgatcg ccacagcata 180
aagaagaacc tcattggcgc cctcctgttc gactccgggg agacggccga agccacgcgg 240
ctcaaaagaa cagcacggcg cagatatacc cgcagaaaga atcggatctg ctacctgcag 300
gagatcttta gtaatgagat ggctaaggtg gatgactctt tcttccatag gctggaggag 360
tcctttttgg tggaggagga taaaaagcac gagcgccacc caatctttgg caatatcgtg 420
gacgaggtgg cgtaccatga aaagtaccca accatatatc atctgaggaa gaagcttgta 480
gacagtactg ataaggctga cttgcggttg atctatctcg cgctggcgca tatgatcaaa 540
tttcggggac acttcctcat cgagggggac ctgaacccag acaacagcga tgtcgacaaa 600
ctctttatcc aactggttca gacttacaat cagcttttcg aagagaaccc gatcaacgca 660
tccggagttg acgccaaagc aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa 720
aacctcatcg cacagctccc tggggagaag aagaacggcc tgtttggtaa tcttatcgcc 780
ctgtcactcg ggctgacccc caactttaaa tctaacttcg acctggccga agatgccaag 840
cttcaactga gcaaagacac ctacgatgat gatctcgaca atctgctggc ccagatcggc 900
gaccagtacg cagacctttt tttggcggca aagaacctgt cagacgccat tctgctgagt 960
gatattctgc gagtgaacac ggagatcacc aaagctccgc tgagcgctag tatgatcaag 1020
cgctatgatg agcaccacca agacttgact ttgctgaagg cccttgtcag acagcaactg 1080
cctgagaagt acaaggaaat tttcttcgat cagtctaaaa atggctacgc cggatacatt 1140
gacggcggag caagccagga ggaattttac aaatttatta agcccatctt ggaaaaaatg 1200
gacggcaccg aggagctgct ggtaaagctt aacagagaag atctgttgcg caaacagcgc 1260
actttcgaca atggaagcat cccccaccag attcacctgg gcgaactgca cgctatactc 1320
aggcggcaag aggatttcta cccctttttg aaagataaca gggaaaagat tgagaaaatc 1380
ctcacatttc ggatacccta ctatgtaggc cccctcgccc ggggaaattc cagattcgcg 1440
tggatgactc gcaaatcaga agagaccatc actccctgga acttcgagga agtcgtggat 1500
aagggggcct ctgcccagtc cttcatcgaa aggatgacta actttgataa aaatctgcct 1560
aacgaaaagg tgcttcctaa acactctctg ctgtacgagt acttcacagt ttataacgag 1620
ctcaccaagg tcaaatacgt cacagaaggg atgagaaagc cagcattcct gtctggagag 1680
cagaagaaag ctatcgtgga cctcctcttc aagacgaacc ggaaagttac cgtgaaacag 1740
ctcaaagaag actatttcaa aaagattgaa tgtttcgact ctgttgaaat cagcggagtg 1800
gaggatcgct tcaacgcatc cctgggaacg tatcacgatc tcctgaaaat cattaaagac 1860
aaggacttcc tggacaatga ggagaacgag gacattcttg aggacattgt cctcaccctt 1920
acgttgtttg aagataggga gatgattgaa gaacgcttga aaacttacgc tcatctcttc 1980
gacgacaaag tcatgaaaca gctcaagagg cgccgatata caggatgggg gcggctgtca 2040
agaaaactga tcaatgggat ccgagacaag cagagtggaa agacaatcct ggattttctt 2100
aagtccgatg gatttgccaa ccggaacttc atgcagttga tccatgatga ctctctcacc 2160
tttaaggagg acatccagaa agcacaagtt tctggccagg gggacagtct tcacgagcac 2220
atcgctaatc ttgcaggtag cccagctatc aaaaagggaa tactgcagac cgttaaggtc 2280
gtggatgaac tcgtcaaagt aatgggaagg cataagcccg agaatatcgt tatcgagatg 2340
gcccgagaga accaaactac ccagaaggga cagaagaaca gtagggaaag gatgaagagg 2400
attgaagagg gtataaaaga actggggtcc caaatcctta aggaacaccc agttgaaaac 2460
acccagcttc agaatgagaa gctctacctg tactacctgc agaacggcag ggacatgtac 2520
gtggatcagg aactggacat caatcggctc tccgactacg acgtggatca tatcgtgccc 2580
cagtcttttc tcaaagatga ttctattgat aataaagtgt tgacaagatc cgataaaaat 2640
agagggaaga gtgataacgt cccctcagaa gaagttgtca agaaaatgaa aaattattgg 2700
cggcagctgc tgaacgccaa actgatcaca caacggaagt tcgataatct gactaaggct 2760
gaacgaggtg gcctgtctga gttggataaa gcaggcttca tcgccaggca gcttgttgag 2820
acacgccaga tcaccaagca cgtggcccaa attctcgatt cacgcatgaa caccaagtac 2880
gatgaaaatg acaaactgat tcgagaggtg aaagttatta ctctgaagtc taagctggtc 2940
tcagatttca gaaaggactt tcagttttat aaggtgagag agatcaacaa ttaccaccat 3000
gcgcatgatg cctacctgaa tgcagtggta ggcactgcac ttatcaaaaa atatcccaag 3060
cttgaatctg aatttgttta cggagactat aaagtgtacg atgttaggaa aatgatcgca 3120
aagtctgagc aggaaatagg caaggccacc gctaagtact tcttttacag caatattatg 3180
aattttttca agaccgagat tacactggcc aatggagaga ttcggaagcg accacttatc 3240
gaaacaaacg gagaaacagg agaaatcgtg tgggacaagg gtagggattt cgcgacagtc 3300
cggaaggtcc tgtccatgcc gcaggtgaac atcgttaaaa agaccgaagt acagaccgga 3360
ggcttctcca aggaaagtat cctcccgaaa aggaacagcg acaagctgat cgcacgcaaa 3420
aaagattggg accccaagaa atacggcgga ttcgattctc ctacagtcgc ttacagtgta 3480
ctggttgtgg ccaaagtgga gaaagggaag tctaaaaaac tcaaaagcgt caaggaactg 3540
ctgggcatca caatcatgga gcgatcaagc ttcgaaaaaa accccatcga ctttctcgag 3600
gcgaaaggat ataaagaggt caaaaaagac ctcatcatta agcttcccaa gtactctctc 3660
tttgagcttg aaaacggccg gaaacgaatg ctcgctagtg cgggcgagct gcagaaaggt 3720
aacgagctgg cactgccctc taaatacgtt aatttcttgt atctggccag ccactatgaa 3780
aagctcaaag ggtctcccga agataatgag cagaagcagc tgttcgtgga acaacacaaa 3840
cactaccttg atgagatcat cgagcaaata agcgaattct ccaaaagagt gatcctcgcc 3900
gacgctaacc tcgataaggt gctttctgct tacaataagc acagggataa gcccatcagg 3960
gagcaggcag aaaacattat ccacttgttt actctgacca acttgggcgc gcctgcagcc 4020
ttcaagtact tcgacaccac catagacaga aagcggtaca cctctacaaa ggaggtcctg 4080
gacgccacac tgattcatca gtcaattacg gggctctatg aaacaagaat cgacctctct 4140
cagctcggtg gagacaagcg tcctgctgct actaagaaag ctggtcaagc taagaaaaag 4200
aaataa 4206
<210> 41
<211> 1401
<212> PRT
<213> Artificial
<220>
<223> Cas9 R919P
<400> 41
Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala
1 5 10 15
Ala Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
20 25 30
Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys
35 40 45
Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu
50 55 60
Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg
65 70 75 80
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile
85 90 95
Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp
100 105 110
Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys
115 120 125
Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala
130 135 140
Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val
145 150 155 160
Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala
165 170 175
His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn
180 185 190
Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr
195 200 205
Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp
210 215 220
Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu
225 230 235 240
Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly
245 250 255
Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn
260 265 270
Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr
275 280 285
Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala
290 295 300
Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser
305 310 315 320
Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala
325 330 335
Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu
340 345 350
Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe
355 360 365
Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala
370 375 380
Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met
385 390 395 400
Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu
405 410 415
Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
420 425 430
Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro
435 440 445
Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg
450 455 460
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala
465 470 475 480
Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu
485 490 495
Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met
500 505 510
Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His
515 520 525
Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val
530 535 540
Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu
545 550 555 560
Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val
565 570 575
Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe
580 585 590
Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu
595 600 605
Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu
610 615 620
Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu
625 630 635 640
Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr
645 650 655
Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg
660 665 670
Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg
675 680 685
Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
690 695 700
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr
705 710 715 720
Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser
725 730 735
Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys
740 745 750
Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met
755 760 765
Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn
770 775 780
Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg
785 790 795 800
Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His
805 810 815
Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr
820 825 830
Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn
835 840 845
Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu
850 855 860
Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn
865 870 875 880
Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met
885 890 895
Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg
900 905 910
Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu
915 920 925
Asp Lys Ala Gly Phe Ile Lys Pro Gln Leu Val Glu Thr Arg Gln Ile
930 935 940
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr
945 950 955 960
Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys
965 970 975
Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val
980 985 990
Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala
995 1000 1005
Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser
1010 1015 1020
Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met
1025 1030 1035
Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr
1040 1045 1050
Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr
1055 1060 1065
Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn
1070 1075 1080
Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala
1085 1090 1095
Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys
1100 1105 1110
Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu
1115 1120 1125
Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp
1130 1135 1140
Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr
1145 1150 1155
Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys
1160 1165 1170
Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg
1175 1180 1185
Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly
1190 1195 1200
Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr
1205 1210 1215
Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser
1220 1225 1230
Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys
1235 1240 1245
Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys
1250 1255 1260
Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln
1265 1270 1275
His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe
1280 1285 1290
Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu
1295 1300 1305
Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala
1310 1315 1320
Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro
1325 1330 1335
Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr
1340 1345 1350
Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser
1355 1360 1365
Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly
1370 1375 1380
Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys
1385 1390 1395
Lys Lys Lys
1400
<210> 42
<211> 4206
<212> DNA
<213> Artificial
<220>
<223> Cas9 R919P
<400> 42
atggccccaa agaagaagcg gaaggtcggt atccacggtg tcccagcagc catggacaag 60
aagtactcca ttgggctcga tatcggcaca aacagcgtcg gctgggccgt cattacggac 120
gagtacaagg tgccgagcaa aaaattcaaa gttctgggca ataccgatcg ccacagcata 180
aagaagaacc tcattggcgc cctcctgttc gactccgggg agacggccga agccacgcgg 240
ctcaaaagaa cagcacggcg cagatatacc cgcagaaaga atcggatctg ctacctgcag 300
gagatcttta gtaatgagat ggctaaggtg gatgactctt tcttccatag gctggaggag 360
tcctttttgg tggaggagga taaaaagcac gagcgccacc caatctttgg caatatcgtg 420
gacgaggtgg cgtaccatga aaagtaccca accatatatc atctgaggaa gaagcttgta 480
gacagtactg ataaggctga cttgcggttg atctatctcg cgctggcgca tatgatcaaa 540
tttcggggac acttcctcat cgagggggac ctgaacccag acaacagcga tgtcgacaaa 600
ctctttatcc aactggttca gacttacaat cagcttttcg aagagaaccc gatcaacgca 660
tccggagttg acgccaaagc aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa 720
aacctcatcg cacagctccc tggggagaag aagaacggcc tgtttggtaa tcttatcgcc 780
ctgtcactcg ggctgacccc caactttaaa tctaacttcg acctggccga agatgccaag 840
cttcaactga gcaaagacac ctacgatgat gatctcgaca atctgctggc ccagatcggc 900
gaccagtacg cagacctttt tttggcggca aagaacctgt cagacgccat tctgctgagt 960
gatattctgc gagtgaacac ggagatcacc aaagctccgc tgagcgctag tatgatcaag 1020
cgctatgatg agcaccacca agacttgact ttgctgaagg cccttgtcag acagcaactg 1080
cctgagaagt acaaggaaat tttcttcgat cagtctaaaa atggctacgc cggatacatt 1140
gacggcggag caagccagga ggaattttac aaatttatta agcccatctt ggaaaaaatg 1200
gacggcaccg aggagctgct ggtaaagctt aacagagaag atctgttgcg caaacagcgc 1260
actttcgaca atggaagcat cccccaccag attcacctgg gcgaactgca cgctatactc 1320
aggcggcaag aggatttcta cccctttttg aaagataaca gggaaaagat tgagaaaatc 1380
ctcacatttc ggatacccta ctatgtaggc cccctcgccc ggggaaattc cagattcgcg 1440
tggatgactc gcaaatcaga agagaccatc actccctgga acttcgagga agtcgtggat 1500
aagggggcct ctgcccagtc cttcatcgaa aggatgacta actttgataa aaatctgcct 1560
aacgaaaagg tgcttcctaa acactctctg ctgtacgagt acttcacagt ttataacgag 1620
ctcaccaagg tcaaatacgt cacagaaggg atgagaaagc cagcattcct gtctggagag 1680
cagaagaaag ctatcgtgga cctcctcttc aagacgaacc ggaaagttac cgtgaaacag 1740
ctcaaagaag actatttcaa aaagattgaa tgtttcgact ctgttgaaat cagcggagtg 1800
gaggatcgct tcaacgcatc cctgggaacg tatcacgatc tcctgaaaat cattaaagac 1860
aaggacttcc tggacaatga ggagaacgag gacattcttg aggacattgt cctcaccctt 1920
acgttgtttg aagataggga gatgattgaa gaacgcttga aaacttacgc tcatctcttc 1980
gacgacaaag tcatgaaaca gctcaagagg cgccgatata caggatgggg gcggctgtca 2040
agaaaactga tcaatgggat ccgagacaag cagagtggaa agacaatcct ggattttctt 2100
aagtccgatg gatttgccaa ccggaacttc atgcagttga tccatgatga ctctctcacc 2160
tttaaggagg acatccagaa agcacaagtt tctggccagg gggacagtct tcacgagcac 2220
atcgctaatc ttgcaggtag cccagctatc aaaaagggaa tactgcagac cgttaaggtc 2280
gtggatgaac tcgtcaaagt aatgggaagg cataagcccg agaatatcgt tatcgagatg 2340
gcccgagaga accaaactac ccagaaggga cagaagaaca gtagggaaag gatgaagagg 2400
attgaagagg gtataaaaga actggggtcc caaatcctta aggaacaccc agttgaaaac 2460
acccagcttc agaatgagaa gctctacctg tactacctgc agaacggcag ggacatgtac 2520
gtggatcagg aactggacat caatcggctc tccgactacg acgtggatca tatcgtgccc 2580
cagtcttttc tcaaagatga ttctattgat aataaagtgt tgacaagatc cgataaaaat 2640
agagggaaga gtgataacgt cccctcagaa gaagttgtca agaaaatgaa aaattattgg 2700
cggcagctgc tgaacgccaa actgatcaca caacggaagt tcgataatct gactaaggct 2760
gaacgaggtg gcctgtctga gttggataaa gcaggcttca tcaaacccca gcttgttgag 2820
acacgccaga tcaccaagca cgtggcccaa attctcgatt cacgcatgaa caccaagtac 2880
gatgaaaatg acaaactgat tcgagaggtg aaagttatta ctctgaagtc taagctggtc 2940
tcagatttca gaaaggactt tcagttttat aaggtgagag agatcaacaa ttaccaccat 3000
gcgcatgatg cctacctgaa tgcagtggta ggcactgcac ttatcaaaaa atatcccaag 3060
cttgaatctg aatttgttta cggagactat aaagtgtacg atgttaggaa aatgatcgca 3120
aagtctgagc aggaaatagg caaggccacc gctaagtact tcttttacag caatattatg 3180
aattttttca agaccgagat tacactggcc aatggagaga ttcggaagcg accacttatc 3240
gaaacaaacg gagaaacagg agaaatcgtg tgggacaagg gtagggattt cgcgacagtc 3300
cggaaggtcc tgtccatgcc gcaggtgaac atcgttaaaa agaccgaagt acagaccgga 3360
ggcttctcca aggaaagtat cctcccgaaa aggaacagcg acaagctgat cgcacgcaaa 3420
aaagattggg accccaagaa atacggcgga ttcgattctc ctacagtcgc ttacagtgta 3480
ctggttgtgg ccaaagtgga gaaagggaag tctaaaaaac tcaaaagcgt caaggaactg 3540
ctgggcatca caatcatgga gcgatcaagc ttcgaaaaaa accccatcga ctttctcgag 3600
gcgaaaggat ataaagaggt caaaaaagac ctcatcatta agcttcccaa gtactctctc 3660
tttgagcttg aaaacggccg gaaacgaatg ctcgctagtg cgggcgagct gcagaaaggt 3720
aacgagctgg cactgccctc taaatacgtt aatttcttgt atctggccag ccactatgaa 3780
aagctcaaag ggtctcccga agataatgag cagaagcagc tgttcgtgga acaacacaaa 3840
cactaccttg atgagatcat cgagcaaata agcgaattct ccaaaagagt gatcctcgcc 3900
gacgctaacc tcgataaggt gctttctgct tacaataagc acagggataa gcccatcagg 3960
gagcaggcag aaaacattat ccacttgttt actctgacca acttgggcgc gcctgcagcc 4020
ttcaagtact tcgacaccac catagacaga aagcggtaca cctctacaaa ggaggtcctg 4080
gacgccacac tgattcatca gtcaattacg gggctctatg aaacaagaat cgacctctct 4140
cagctcggtg gagacaagcg tcctgctgct actaagaaag ctggtcaagc taagaaaaag 4200
aaataa 4206
<210> 43
<211> 1401
<212> PRT
<213> Artificial
<220>
<223> Cas9 Q920P
<400> 43
Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala
1 5 10 15
Ala Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
20 25 30
Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys
35 40 45
Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu
50 55 60
Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg
65 70 75 80
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile
85 90 95
Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp
100 105 110
Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys
115 120 125
Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala
130 135 140
Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val
145 150 155 160
Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala
165 170 175
His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn
180 185 190
Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr
195 200 205
Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp
210 215 220
Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu
225 230 235 240
Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly
245 250 255
Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn
260 265 270
Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr
275 280 285
Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala
290 295 300
Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser
305 310 315 320
Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala
325 330 335
Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu
340 345 350
Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe
355 360 365
Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala
370 375 380
Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met
385 390 395 400
Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu
405 410 415
Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
420 425 430
Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro
435 440 445
Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg
450 455 460
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala
465 470 475 480
Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu
485 490 495
Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met
500 505 510
Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His
515 520 525
Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val
530 535 540
Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu
545 550 555 560
Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val
565 570 575
Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe
580 585 590
Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu
595 600 605
Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu
610 615 620
Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu
625 630 635 640
Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr
645 650 655
Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg
660 665 670
Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg
675 680 685
Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
690 695 700
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr
705 710 715 720
Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser
725 730 735
Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys
740 745 750
Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met
755 760 765
Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn
770 775 780
Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg
785 790 795 800
Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His
805 810 815
Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr
820 825 830
Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn
835 840 845
Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu
850 855 860
Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn
865 870 875 880
Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met
885 890 895
Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg
900 905 910
Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu
915 920 925
Asp Lys Ala Gly Phe Ile Lys Arg Pro Leu Val Glu Thr Arg Gln Ile
930 935 940
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr
945 950 955 960
Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys
965 970 975
Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val
980 985 990
Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala
995 1000 1005
Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser
1010 1015 1020
Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met
1025 1030 1035
Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr
1040 1045 1050
Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr
1055 1060 1065
Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn
1070 1075 1080
Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala
1085 1090 1095
Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys
1100 1105 1110
Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu
1115 1120 1125
Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp
1130 1135 1140
Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr
1145 1150 1155
Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys
1160 1165 1170
Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg
1175 1180 1185
Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly
1190 1195 1200
Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr
1205 1210 1215
Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser
1220 1225 1230
Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys
1235 1240 1245
Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys
1250 1255 1260
Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln
1265 1270 1275
His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe
1280 1285 1290
Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu
1295 1300 1305
Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala
1310 1315 1320
Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro
1325 1330 1335
Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr
1340 1345 1350
Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser
1355 1360 1365
Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly
1370 1375 1380
Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys
1385 1390 1395
Lys Lys Lys
1400
<210> 44
<211> 4206
<212> DNA
<213> Artificial
<220>
<223> Cas9 Q920P
<400> 44
atggccccaa agaagaagcg gaaggtcggt atccacggtg tcccagcagc catggacaag 60
aagtactcca ttgggctcga tatcggcaca aacagcgtcg gctgggccgt cattacggac 120
gagtacaagg tgccgagcaa aaaattcaaa gttctgggca ataccgatcg ccacagcata 180
aagaagaacc tcattggcgc cctcctgttc gactccgggg agacggccga agccacgcgg 240
ctcaaaagaa cagcacggcg cagatatacc cgcagaaaga atcggatctg ctacctgcag 300
gagatcttta gtaatgagat ggctaaggtg gatgactctt tcttccatag gctggaggag 360
tcctttttgg tggaggagga taaaaagcac gagcgccacc caatctttgg caatatcgtg 420
gacgaggtgg cgtaccatga aaagtaccca accatatatc atctgaggaa gaagcttgta 480
gacagtactg ataaggctga cttgcggttg atctatctcg cgctggcgca tatgatcaaa 540
tttcggggac acttcctcat cgagggggac ctgaacccag acaacagcga tgtcgacaaa 600
ctctttatcc aactggttca gacttacaat cagcttttcg aagagaaccc gatcaacgca 660
tccggagttg acgccaaagc aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa 720
aacctcatcg cacagctccc tggggagaag aagaacggcc tgtttggtaa tcttatcgcc 780
ctgtcactcg ggctgacccc caactttaaa tctaacttcg acctggccga agatgccaag 840
cttcaactga gcaaagacac ctacgatgat gatctcgaca atctgctggc ccagatcggc 900
gaccagtacg cagacctttt tttggcggca aagaacctgt cagacgccat tctgctgagt 960
gatattctgc gagtgaacac ggagatcacc aaagctccgc tgagcgctag tatgatcaag 1020
cgctatgatg agcaccacca agacttgact ttgctgaagg cccttgtcag acagcaactg 1080
cctgagaagt acaaggaaat tttcttcgat cagtctaaaa atggctacgc cggatacatt 1140
gacggcggag caagccagga ggaattttac aaatttatta agcccatctt ggaaaaaatg 1200
gacggcaccg aggagctgct ggtaaagctt aacagagaag atctgttgcg caaacagcgc 1260
actttcgaca atggaagcat cccccaccag attcacctgg gcgaactgca cgctatactc 1320
aggcggcaag aggatttcta cccctttttg aaagataaca gggaaaagat tgagaaaatc 1380
ctcacatttc ggatacccta ctatgtaggc cccctcgccc ggggaaattc cagattcgcg 1440
tggatgactc gcaaatcaga agagaccatc actccctgga acttcgagga agtcgtggat 1500
aagggggcct ctgcccagtc cttcatcgaa aggatgacta actttgataa aaatctgcct 1560
aacgaaaagg tgcttcctaa acactctctg ctgtacgagt acttcacagt ttataacgag 1620
ctcaccaagg tcaaatacgt cacagaaggg atgagaaagc cagcattcct gtctggagag 1680
cagaagaaag ctatcgtgga cctcctcttc aagacgaacc ggaaagttac cgtgaaacag 1740
ctcaaagaag actatttcaa aaagattgaa tgtttcgact ctgttgaaat cagcggagtg 1800
gaggatcgct tcaacgcatc cctgggaacg tatcacgatc tcctgaaaat cattaaagac 1860
aaggacttcc tggacaatga ggagaacgag gacattcttg aggacattgt cctcaccctt 1920
acgttgtttg aagataggga gatgattgaa gaacgcttga aaacttacgc tcatctcttc 1980
gacgacaaag tcatgaaaca gctcaagagg cgccgatata caggatgggg gcggctgtca 2040
agaaaactga tcaatgggat ccgagacaag cagagtggaa agacaatcct ggattttctt 2100
aagtccgatg gatttgccaa ccggaacttc atgcagttga tccatgatga ctctctcacc 2160
tttaaggagg acatccagaa agcacaagtt tctggccagg gggacagtct tcacgagcac 2220
atcgctaatc ttgcaggtag cccagctatc aaaaagggaa tactgcagac cgttaaggtc 2280
gtggatgaac tcgtcaaagt aatgggaagg cataagcccg agaatatcgt tatcgagatg 2340
gcccgagaga accaaactac ccagaaggga cagaagaaca gtagggaaag gatgaagagg 2400
attgaagagg gtataaaaga actggggtcc caaatcctta aggaacaccc agttgaaaac 2460
acccagcttc agaatgagaa gctctacctg tactacctgc agaacggcag ggacatgtac 2520
gtggatcagg aactggacat caatcggctc tccgactacg acgtggatca tatcgtgccc 2580
cagtcttttc tcaaagatga ttctattgat aataaagtgt tgacaagatc cgataaaaat 2640
agagggaaga gtgataacgt cccctcagaa gaagttgtca agaaaatgaa aaattattgg 2700
cggcagctgc tgaacgccaa actgatcaca caacggaagt tcgataatct gactaaggct 2760
gaacgaggtg gcctgtctga gttggataaa gcaggcttca tcaaaaggcc ccttgttgag 2820
acacgccaga tcaccaagca cgtggcccaa attctcgatt cacgcatgaa caccaagtac 2880
gatgaaaatg acaaactgat tcgagaggtg aaagttatta ctctgaagtc taagctggtc 2940
tcagatttca gaaaggactt tcagttttat aaggtgagag agatcaacaa ttaccaccat 3000
gcgcatgatg cctacctgaa tgcagtggta ggcactgcac ttatcaaaaa atatcccaag 3060
cttgaatctg aatttgttta cggagactat aaagtgtacg atgttaggaa aatgatcgca 3120
aagtctgagc aggaaatagg caaggccacc gctaagtact tcttttacag caatattatg 3180
aattttttca agaccgagat tacactggcc aatggagaga ttcggaagcg accacttatc 3240
gaaacaaacg gagaaacagg agaaatcgtg tgggacaagg gtagggattt cgcgacagtc 3300
cggaaggtcc tgtccatgcc gcaggtgaac atcgttaaaa agaccgaagt acagaccgga 3360
ggcttctcca aggaaagtat cctcccgaaa aggaacagcg acaagctgat cgcacgcaaa 3420
aaagattggg accccaagaa atacggcgga ttcgattctc ctacagtcgc ttacagtgta 3480
ctggttgtgg ccaaagtgga gaaagggaag tctaaaaaac tcaaaagcgt caaggaactg 3540
ctgggcatca caatcatgga gcgatcaagc ttcgaaaaaa accccatcga ctttctcgag 3600
gcgaaaggat ataaagaggt caaaaaagac ctcatcatta agcttcccaa gtactctctc 3660
tttgagcttg aaaacggccg gaaacgaatg ctcgctagtg cgggcgagct gcagaaaggt 3720
aacgagctgg cactgccctc taaatacgtt aatttcttgt atctggccag ccactatgaa 3780
aagctcaaag ggtctcccga agataatgag cagaagcagc tgttcgtgga acaacacaaa 3840
cactaccttg atgagatcat cgagcaaata agcgaattct ccaaaagagt gatcctcgcc 3900
gacgctaacc tcgataaggt gctttctgct tacaataagc acagggataa gcccatcagg 3960
gagcaggcag aaaacattat ccacttgttt actctgacca acttgggcgc gcctgcagcc 4020
ttcaagtact tcgacaccac catagacaga aagcggtaca cctctacaaa ggaggtcctg 4080
gacgccacac tgattcatca gtcaattacg gggctctatg aaacaagaat cgacctctct 4140
cagctcggtg gagacaagcg tcctgctgct actaagaaag ctggtcaagc taagaaaaag 4200
aaataa 4206
<210> 45
<211> 1401
<212> PRT
<213> Artificial
<220>
<223> Cas9 R780A
<400> 45
Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala
1 5 10 15
Ala Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
20 25 30
Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys
35 40 45
Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu
50 55 60
Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg
65 70 75 80
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile
85 90 95
Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp
100 105 110
Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys
115 120 125
Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala
130 135 140
Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val
145 150 155 160
Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala
165 170 175
His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn
180 185 190
Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr
195 200 205
Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp
210 215 220
Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu
225 230 235 240
Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly
245 250 255
Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn
260 265 270
Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr
275 280 285
Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala
290 295 300
Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser
305 310 315 320
Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala
325 330 335
Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu
340 345 350
Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe
355 360 365
Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala
370 375 380
Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met
385 390 395 400
Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu
405 410 415
Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
420 425 430
Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro
435 440 445
Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg
450 455 460
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala
465 470 475 480
Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu
485 490 495
Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met
500 505 510
Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His
515 520 525
Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val
530 535 540
Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu
545 550 555 560
Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val
565 570 575
Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe
580 585 590
Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu
595 600 605
Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu
610 615 620
Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu
625 630 635 640
Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr
645 650 655
Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg
660 665 670
Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg
675 680 685
Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
690 695 700
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr
705 710 715 720
Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser
725 730 735
Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys
740 745 750
Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met
755 760 765
Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn
770 775 780
Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Ala Met Lys Arg
785 790 795 800
Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His
805 810 815
Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr
820 825 830
Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn
835 840 845
Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu
850 855 860
Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn
865 870 875 880
Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met
885 890 895
Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg
900 905 910
Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu
915 920 925
Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile
930 935 940
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr
945 950 955 960
Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys
965 970 975
Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val
980 985 990
Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala
995 1000 1005
Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser
1010 1015 1020
Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met
1025 1030 1035
Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr
1040 1045 1050
Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr
1055 1060 1065
Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn
1070 1075 1080
Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala
1085 1090 1095
Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys
1100 1105 1110
Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu
1115 1120 1125
Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp
1130 1135 1140
Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr
1145 1150 1155
Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys
1160 1165 1170
Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg
1175 1180 1185
Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly
1190 1195 1200
Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr
1205 1210 1215
Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser
1220 1225 1230
Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys
1235 1240 1245
Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys
1250 1255 1260
Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln
1265 1270 1275
His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe
1280 1285 1290
Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu
1295 1300 1305
Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala
1310 1315 1320
Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro
1325 1330 1335
Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr
1340 1345 1350
Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser
1355 1360 1365
Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly
1370 1375 1380
Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys
1385 1390 1395
Lys Lys Lys
1400
<210> 46
<211> 4206
<212> DNA
<213> Artificial
<220>
<223> Cas9 R780A
<400> 46
atggccccaa agaagaagcg gaaggtcggt atccacggtg tcccagcagc catggacaag 60
aagtactcca ttgggctcga tatcggcaca aacagcgtcg gctgggccgt cattacggac 120
gagtacaagg tgccgagcaa aaaattcaaa gttctgggca ataccgatcg ccacagcata 180
aagaagaacc tcattggcgc cctcctgttc gactccgggg agacggccga agccacgcgg 240
ctcaaaagaa cagcacggcg cagatatacc cgcagaaaga atcggatctg ctacctgcag 300
gagatcttta gtaatgagat ggctaaggtg gatgactctt tcttccatag gctggaggag 360
tcctttttgg tggaggagga taaaaagcac gagcgccacc caatctttgg caatatcgtg 420
gacgaggtgg cgtaccatga aaagtaccca accatatatc atctgaggaa gaagcttgta 480
gacagtactg ataaggctga cttgcggttg atctatctcg cgctggcgca tatgatcaaa 540
tttcggggac acttcctcat cgagggggac ctgaacccag acaacagcga tgtcgacaaa 600
ctctttatcc aactggttca gacttacaat cagcttttcg aagagaaccc gatcaacgca 660
tccggagttg acgccaaagc aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa 720
aacctcatcg cacagctccc tggggagaag aagaacggcc tgtttggtaa tcttatcgcc 780
ctgtcactcg ggctgacccc caactttaaa tctaacttcg acctggccga agatgccaag 840
cttcaactga gcaaagacac ctacgatgat gatctcgaca atctgctggc ccagatcggc 900
gaccagtacg cagacctttt tttggcggca aagaacctgt cagacgccat tctgctgagt 960
gatattctgc gagtgaacac ggagatcacc aaagctccgc tgagcgctag tatgatcaag 1020
cgctatgatg agcaccacca agacttgact ttgctgaagg cccttgtcag acagcaactg 1080
cctgagaagt acaaggaaat tttcttcgat cagtctaaaa atggctacgc cggatacatt 1140
gacggcggag caagccagga ggaattttac aaatttatta agcccatctt ggaaaaaatg 1200
gacggcaccg aggagctgct ggtaaagctt aacagagaag atctgttgcg caaacagcgc 1260
actttcgaca atggaagcat cccccaccag attcacctgg gcgaactgca cgctatactc 1320
aggcggcaag aggatttcta cccctttttg aaagataaca gggaaaagat tgagaaaatc 1380
ctcacatttc ggatacccta ctatgtaggc cccctcgccc ggggaaattc cagattcgcg 1440
tggatgactc gcaaatcaga agagaccatc actccctgga acttcgagga agtcgtggat 1500
aagggggcct ctgcccagtc cttcatcgaa aggatgacta actttgataa aaatctgcct 1560
aacgaaaagg tgcttcctaa acactctctg ctgtacgagt acttcacagt ttataacgag 1620
ctcaccaagg tcaaatacgt cacagaaggg atgagaaagc cagcattcct gtctggagag 1680
cagaagaaag ctatcgtgga cctcctcttc aagacgaacc ggaaagttac cgtgaaacag 1740
ctcaaagaag actatttcaa aaagattgaa tgtttcgact ctgttgaaat cagcggagtg 1800
gaggatcgct tcaacgcatc cctgggaacg tatcacgatc tcctgaaaat cattaaagac 1860
aaggacttcc tggacaatga ggagaacgag gacattcttg aggacattgt cctcaccctt 1920
acgttgtttg aagataggga gatgattgaa gaacgcttga aaacttacgc tcatctcttc 1980
gacgacaaag tcatgaaaca gctcaagagg cgccgatata caggatgggg gcggctgtca 2040
agaaaactga tcaatgggat ccgagacaag cagagtggaa agacaatcct ggattttctt 2100
aagtccgatg gatttgccaa ccggaacttc atgcagttga tccatgatga ctctctcacc 2160
tttaaggagg acatccagaa agcacaagtt tctggccagg gggacagtct tcacgagcac 2220
atcgctaatc ttgcaggtag cccagctatc aaaaagggaa tactgcagac cgttaaggtc 2280
gtggatgaac tcgtcaaagt aatgggaagg cataagcccg agaatatcgt tatcgagatg 2340
gcccgagaga accaaactac ccagaaggga cagaagaaca gtagggaagc catgaagagg 2400
attgaagagg gtataaaaga actggggtcc caaatcctta aggaacaccc agttgaaaac 2460
acccagcttc agaatgagaa gctctacctg tactacctgc agaacggcag ggacatgtac 2520
gtggatcagg aactggacat caatcggctc tccgactacg acgtggatca tatcgtgccc 2580
cagtcttttc tcaaagatga ttctattgat aataaagtgt tgacaagatc cgataaaaat 2640
agagggaaga gtgataacgt cccctcagaa gaagttgtca agaaaatgaa aaattattgg 2700
cggcagctgc tgaacgccaa actgatcaca caacggaagt tcgataatct gactaaggct 2760
gaacgaggtg gcctgtctga gttggataaa gcaggcttca tcaaaaggca gcttgttgag 2820
acacgccaga tcaccaagca cgtggcccaa attctcgatt cacgcatgaa caccaagtac 2880
gatgaaaatg acaaactgat tcgagaggtg aaagttatta ctctgaagtc taagctggtc 2940
tcagatttca gaaaggactt tcagttttat aaggtgagag agatcaacaa ttaccaccat 3000
gcgcatgatg cctacctgaa tgcagtggta ggcactgcac ttatcaaaaa atatcccaag 3060
cttgaatctg aatttgttta cggagactat aaagtgtacg atgttaggaa aatgatcgca 3120
aagtctgagc aggaaatagg caaggccacc gctaagtact tcttttacag caatattatg 3180
aattttttca agaccgagat tacactggcc aatggagaga ttcggaagcg accacttatc 3240
gaaacaaacg gagaaacagg agaaatcgtg tgggacaagg gtagggattt cgcgacagtc 3300
cggaaggtcc tgtccatgcc gcaggtgaac atcgttaaaa agaccgaagt acagaccgga 3360
ggcttctcca aggaaagtat cctcccgaaa aggaacagcg acaagctgat cgcacgcaaa 3420
aaagattggg accccaagaa atacggcgga ttcgattctc ctacagtcgc ttacagtgta 3480
ctggttgtgg ccaaagtgga gaaagggaag tctaaaaaac tcaaaagcgt caaggaactg 3540
ctgggcatca caatcatgga gcgatcaagc ttcgaaaaaa accccatcga ctttctcgag 3600
gcgaaaggat ataaagaggt caaaaaagac ctcatcatta agcttcccaa gtactctctc 3660
tttgagcttg aaaacggccg gaaacgaatg ctcgctagtg cgggcgagct gcagaaaggt 3720
aacgagctgg cactgccctc taaatacgtt aatttcttgt atctggccag ccactatgaa 3780
aagctcaaag ggtctcccga agataatgag cagaagcagc tgttcgtgga acaacacaaa 3840
cactaccttg atgagatcat cgagcaaata agcgaattct ccaaaagagt gatcctcgcc 3900
gacgctaacc tcgataaggt gctttctgct tacaataagc acagggataa gcccatcagg 3960
gagcaggcag aaaacattat ccacttgttt actctgacca acttgggcgc gcctgcagcc 4020
ttcaagtact tcgacaccac catagacaga aagcggtaca cctctacaaa ggaggtcctg 4080
gacgccacac tgattcatca gtcaattacg gggctctatg aaacaagaat cgacctctct 4140
cagctcggtg gagacaagcg tcctgctgct actaagaaag ctggtcaagc taagaaaaag 4200
aaataa 4206
<210> 47
<211> 20
<212> DNA
<213> Artificial
<220>
<223> β-globin RE2sgRNA1
<400> 47
acccaatgac ctcaggctgt 20
<210> 48
<211> 20
<212> DNA
<213> Artificial
<220>
<223> β-globin RE2sgRNA2
<400> 48
tcacttgtta gcggcatctg 20
<210> 49
<211> 29
<212> DNA
<213> Artificial
<220>
<223> Cas9-G915F-F
<400> 49
ggataaagca ttcttcatca aaaggcagc 29
<210> 50
<211> 18
<212> DNA
<213> Artificial
<220>
<223> Cas9-G915F-R
<400> 50
aactcagaca ggccacct 18
<210> 51
<211> 19
<212> DNA
<213> Artificial
<220>
<223> Cas9-?F916-F
<400> 51
atcaaaaggc agcttgttg 19
<210> 52
<211> 18
<212> DNA
<213> Artificial
<220>
<223> Cas9-?F916-R
<400> 52
gcctgcttta tccaactc 18
<210> 53
<211> 25
<212> DNA
<213> Artificial
<220>
<223> Cas9-F916P-F
<400> 53
taaagcaggc cccatcaaaa ggcag 25
<210> 54
<211> 18
<212> DNA
<213> Artificial
<220>
<223> Cas9-F916P-R
<400> 54
tccaactcag acaggcca 18
<210> 55
<211> 23
<212> DNA
<213> Artificial
<220>
<223> Cas9-K918A-F
<400> 55
aggcttcatc gccaggcagc ttg 23
<210> 56
<211> 18
<212> DNA
<213> Artificial
<220>
<223> Cas9-K918A-R
<400> 56
gctttatcca actcagac 18
<210> 57
<211> 30
<212> DNA
<213> Artificial
<220>
<223> Cas9-R919P-F
<400> 57
cttcatcaaa ccccagcttg ttgagacacg 30
<210> 58
<211> 19
<212> DNA
<213> Artificial
<220>
<223> Cas9-R919P-R
<400> 58
cctgctttat ccaactcag 19
<210> 59
<211> 26
<212> DNA
<213> Artificial
<220>
<223> Cas9-Q920P-F
<400> 59
catcaaaagg ccccttgttg agacac 26
<210> 60
<211> 18
<212> DNA
<213> Artificial
<220>
<223> Cas9-Q920P-R
<400> 60
aagcctgctt tatccaac 18
<210> 61
<211> 29
<212> DNA
<213> Artificial
<220>
<223> Cas9-R780-A-F
<400> 61
cagtagggaa gccatgaaga ggattgaag 29
<210> 62
<211> 18
<212> DNA
<213> Artificial
<220>
<223> Cas9-R780-A-R
<400> 62
ttcttctgtc ccttctgg 18
<210> 63
<211> 86
<212> DNA
<213> Artificial
<220>
<223> Hiseq-RRM-1F3
<400> 63
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctat 60
atggcatcct agccttaaga aactag 86
<210> 64
<211> 81
<212> DNA
<213> Artificial
<220>
<223> Hiseq-RRM-1R2
<400> 64
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctta 60
cgacgcagga gccgtatcat g 81
<210> 65
<211> 89
<212> DNA
<213> Artificial
<220>
<223> Hiseq-RRM-3F2
<400> 65
caagcagaag acggcatacg agataagcta gtgactggag ttcagacgtg tgctcttccg 60
atctatagca atgaaatctt gaaggagtg 89
<210> 66
<211> 85
<212> DNA
<213> Artificial
<220>
<223> Hiseq-RRM-3R2
<400> 66
caagcagaag acggcatacg agattcaagt gtgactggag ttcagacgtg tgctcttccg 60
atctgcacag ccctgctcta ttacg 85
<210> 67
<211> 21
<212> DNA
<213> Artificial
<220>
<223> β-globin RE1sgRNA1
<400> 67
gattgttgtt gccttggagt g 21
<210> 68
<211> 21
<212> DNA
<213> Artificial
<220>
<223> β-globin RE1sgRNA2
<400> 68
gctggtcccc tggtaacctg g 21
<210> 69
<211> 20
<212> DNA
<213> Artificial
<220>
<223> β-globin locussgRNA1
<400> 69
ggagatggca gtgttgaagc 20
<210> 70
<211> 20
<212> DNA
<213> Artificial
<220>
<223> β-globin locussgRNA2
<400> 70
ctaggggtca gaagtagttc 20
<210> 71
<211> 20
<212> DNA
<213> Artificial
<220>
<223> HoxD sgRNA1
<400> 71
tctgttttcc tcgcggtttc 20
<210> 72
<211> 20
<212> DNA
<213> Artificial
<220>
<223> HoxD sgRNA2
<400> 72
ggagcgcgct cgccatctcc 20
<210> 73
<211> 20
<212> DNA
<213> Artificial
<220>
<223> β-globin RE3sgRNA1
<400> 73
tcacttgtta gcggcatctg 20
<210> 74
<211> 20
<212> DNA
<213> Artificial
<220>
<223> β-globin RE3sgRNA2
<400> 74
ggagatggca gtgttgaagc 20
<210> 75
<211> 81
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hSTM-aF1
<400> 75
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatcttg 60
cttagagcca ggactaattg c 81
<210> 76
<211> 83
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hSTM-aR2
<400> 76
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatcttg 60
ggtgtagaaa tgagcaaata agt 83
<210> 77
<211> 91
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hSTM-2F
<400> 77
caagcagaag acggcatacg agatgatcgt gtgactggag ttcagacgtg tgctcttccg 60
atctagattg agttctgttt gtttcatcta c 91
<210> 78
<211> 85
<212> DNA
<213> Artificial
<220>
<223> Hiseq-hSTM-2R
<400> 78
caagcagaag acggcatacg agatagtcaa gtgactggag ttcagacgtg tgctcttccg 60
atctcagctc tgcctgaaag gagtc 85
<210> 79
<211> 79
<212> DNA
<213> Artificial
<220>
<223> Hiseq-glob-aF2
<400> 79
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctgg 60
ttagcggctt gctcaattc 79
<210> 80
<211> 83
<212> DNA
<213> Artificial
<220>
<223> Hiseq-glob-aR2
<400> 80
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatcttc 60
tgagagacag ggatgtgttt tac 83
<210> 81
<211> 89
<212> DNA
<213> Artificial
<220>
<223> Hiseq-glob-2F2
<400> 81
caagcagaag acggcatacg attaggcgat gtgactggag ttcagacgtg tgctcttccg 60
atctattccc tgtgtgatta cttgcttac 89
<210> 82
<211> 85
<212> DNA
<213> Artificial
<220>
<223> Hiseq-glob-bR1
<400> 82
caagcagaag acggcatacg agatatcacg gtgactggag ttcagacgtg tgctcttccg 60
atcttcttca gccatcccaa gactc 85
<210> 83
<211> 89
<212> DNA
<213> Artificial
<220>
<223> Hiseq-RRM2-3F2
<400> 83
caagcagaag acggcatacg agatactgat gtgactggag ttcagacgtg tgctcttccg 60
atctatagca atgaaatctt gaaggagtg 89
<210> 84
<211> 85
<212> DNA
<213> Artificial
<220>
<223> Hiseq-RRM2-3R2
<400> 84
caagcagaag acggcatacg agatattcct gtgactggag ttcagacgtg tgctcttccg 60
atctgcacag ccctgctcta ttacg 85
<210> 85
<211> 81
<212> DNA
<213> Artificial
<220>
<223> Hiseq-HoxD-2F
<400> 85
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatcttg 60
cgcactgctt gggtggaaat c 81
<210> 86
<211> 81
<212> DNA
<213> Artificial
<220>
<223> Hiseq-HoxD-2R2
<400> 86
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctca 60
gcttagtccc cagtgactgc g 81
<210> 87
<211> 78
<212> DNA
<213> Artificial
<220>
<223> Hiseq-HoxD-2R4
<400> 87
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctgt 60
gactgcgtct ccgacttg 78
<210> 88
<211> 84
<212> DNA
<213> Artificial
<220>
<223> Hiseq-HoxD-4F
<400> 88
caagcagaag acggcatacg agattggtca gtgactggag ttcagacgtg tgctcttccg 60
atctaccgcc cttcactgtt gatc 84
<210> 89
<211> 84
<212> DNA
<213> Artificial
<220>
<223> Hiseq-HoxD-4R
<400> 89
caagcagaag acggcatacg agatcactgt gtgactggag ttcagacgtg tgctcttccg 60
atctgaggtc tggcaggcaa agtc 84
<210> 90
<211> 20
<212> DNA
<213> Artificial
<220>
<223> RRMoutCBS15-sgRNA
<400> 90
acccaatgac ctcaggctgt 20
<210> 91
<211> 20
<212> DNA
<213> Artificial
<220>
<223> RRMCBS15-sgRNA
<400> 91
acccaatgac ctcaggctgt 20
<210> 92
<211> 20
<212> DNA
<213> Artificial
<220>
<223> RRMCBS14-sgRNA
<400> 92
gcctttccta agggtctgtg 20
<210> 93
<211> 20
<212> DNA
<213> Artificial
<220>
<223> RRMoutCBS13-sgRNA
<400> 93
tcacttgtta gcggcatctg 20
<210> 94
<211> 22
<212> DNA
<213> Artificial
<220>
<223> CR-RRM1F
<400> 94
aggttgaatg aatgcgtgac tg 22
<210> 95
<211> 25
<212> DNA
<213> Artificial
<220>
<223> CR-RRM1F2
<400> 95
ctgcctcttt atgggtctaa tgtac 25
<210> 96
<211> 21
<212> DNA
<213> Artificial
<220>
<223> CR-RRM1R
<400> 96
agagccacca gtccacagat c 21
<210> 97
<211> 19
<212> DNA
<213> Artificial
<220>
<223> CR-RRM-1R2
<400> 97
acgcaggagc cgtatcatg 19
<210> 98
<211> 25
<212> DNA
<213> Artificial
<220>
<223> CR-RRM-3F2
<400> 98
atagcaatga aatcttgaag gagtg 25
<210> 99
<211> 21
<212> DNA
<213> Artificial
<220>
<223> CR-RRM3R2
<400> 99
gcacagccct gctctattac g 21
<210> 100
<211> 20
<212> DNA
<213> Artificial
<220>
<223> CR-RRM15F1
<400> 100
tgagacccgc taggaaatgg 20
<210> 101
<211> 22
<212> DNA
<213> Artificial
<220>
<223> CR-RRM15R1
<400> 101
cccacaactc cctttcaatc ag 22
<210> 102
<211> 20
<212> DNA
<213> Artificial
<220>
<223> CR-RRM14F1
<400> 102
agtggagcac cctcacatcc 20
<210> 103
<211> 21
<212> DNA
<213> Artificial
<220>
<223> CR-RRM14F2
<400> 103
gcgctcagtg tagagctcgt g 21
<210> 104
<211> 21
<212> DNA
<213> Artificial
<220>
<223> CR-RRM14R1
<400> 104
ggatcggctg tttgctaggt c 21
<210> 105
<211> 82
<212> DNA
<213> Artificial
<220>
<223> 4C_hEN_CBS13-15_F
<400> 105
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatcttc 60
acgccctgaa gcttgtctgg ag 82
<210> 106
<211> 85
<212> DNA
<213> Artificial
<220>
<223> 4C_hEN_CBS13-15_R
<400> 106
caagcagaag acggcatacg agatcgtgat gtgactggag ttcagacgtg tgctcttccg 60
atctctcatt tggggtgtta tatgc 85

Claims (13)

1.一种基因组DNA片段编辑精准度的分析方法,适用于CRISPR/Cas9系统,所述分析方法将Cas9核酸酶对基因组DNA双链进行切割的方式区分为钝末端切割与突出末端切割,钝末端切割方式对应的切割末端占比为钝断裂末端占比,突出末端切割方式对应的切割末端占比为突出断裂末端占比,通过预测候选sgRNA组合在每种切割方式下对应的断裂末端序列,并结合所述钝断裂末端占比与突出断裂末端占比,来预测候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度;所述钝末端切割是指:Cas9核酸酶在sgRNA的介导下对基因组DNA片段切割出平滑末端的切割方式;所述编辑精准度是指针对待分析的编辑方式,符合所述编辑方式的基因组DNA片段编辑中,精准编辑所占的比例;所述突出末端切割是指:Cas9核酸酶在sgRNA的介导下对基因组DNA片段切割出粘性末端的切割方式;
所述分析方法包括如下步骤:
(A)获得选用的Cas9核酸酶在候选sgRNA组合中各sgRNA的介导下对基因组DNA片段进行切割的精准度系数:
(1)预测sgRNA组合中的单个sgRNA及选用的Cas9核酸酶对待编辑基因组DNA片段切割时,在突出末端切割方式下对应的突出断裂末端序列,以及在钝末端切割方式下对应的钝断裂末端序列;
(2)按补平连接的方式来预测各个突出断裂末端序列对待分析基因组DNA片段编辑方式所得序列的影响;将精准符合预期编辑的各个突出断裂末端占比之和作为第一精准度参考因子C1的值;若都不能精准符合预期编辑,则第一精准度参考因子C1为0;
(3)按直接连接的方式预测所述钝断裂末端序列对待分析基因组DNA片段编辑方式所得序列的影响;若精准符合预期编辑,则将钝断裂末端占比作为第二精准度参考因子C2的值;若不能精准符合预期编辑,则第二精准度参考因子C2为0;
(4)将第一精准度参考因子C1的值与第二精准度参考因子C2的值相加获得该sgRNA及选用的Cas9核酸酶对待编辑基因组DNA片段进行切割的精准度系数X;
(B)获得候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度:将候选sgRNA组合中各sgRNA对应的精准度系数X相乘获得该候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段编辑的精准度对基因组DNA片段编辑的精准度Z。
2.根据权利要求1所述的分析方法,其特征在于,所述候选sgRNA组合中,sgRNA的个数为两个及以上。
3.如权利要求1-2任一项所述的基因组DNA片段编辑精准度的分析方法用于基因组DNA片段编辑的用途。
4.一种基因组DNA片段编辑方法,利用权利要求1-2任一项所述的分析方法分析候选sgRNA组合及选用的Cas9核酸酶对基因组DNA片段的编辑精准度,采用编辑精准度较高的sgRNA组合及Cas9核酸酶,来编辑基因组DNA片段。
5.如权利要求4所述的基因组DNA片段编辑方法,其特征在于,包括如下步骤:
(1)针对待编辑的基因组DNA片段,根据需要的编辑方式,设计候选sgRNA组合;
(2)利用权利要求1-2任一权利要求所述的基因组DNA片段编辑精准度的分析方法,从所述候选的sgRNA组合中选择出针对所需要的编辑方式精准度较高的sgRNA组合;
(3)采用步骤(2)所选的sgRNA组合,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行编辑。
6.根据权利要求5所述的基因组DNA片段编辑方法,其特征在于,所述步骤(2)为利用权利要求1-2任一权利要求所述的基因组DNA片段编辑精准度的分析方法,分析各候选sgRNA组合与各候选Cas9核酸酶配合时,针对所需要的编辑方式的编辑精准度,从中选择精准度较高的sgRNA组合对以及与之配合的Cas9核酸酶;所述步骤(3)为采用步骤(2)所选的sgRNA组合以及与之配合的Cas9核酸酶,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行编辑。
7.根据权利要求5或6所述的基因组DNA片段编辑方法,其特征在于,步骤(3)中,将所选的sgRNA组合,以及含有所述Cas9核酸酶编码基因的质粒一同转入细胞中,对待编辑的基因组DNA片段进行编辑。
8.根据权利要求5或6所述的基因组DNA片段编辑方法,其特征在于,步骤(1)中,设计候选sgRNA组合时,至少针对两种以上的PAM组合设计其候选sgRNA组合。
9.根据权利要求8所述的基因组DNA片段编辑方法,其特征在于,所述PAM组合选自:NGG-NGG组合、CCN-CCN组合、CCN-NGG组合、NGG-CCN组合中的一种、两种、三种或四种。
10.根据权利要求9所述的基因组DNA片段编辑方法,其特征在于,还包括以下特征中的任一项或多项:(1)若要进行精准的DNA片段删除,可选用NGG-CCN组合作为PAM组合,来设计其候选sgRNA组合;(2)若要进行一侧接头的精准DNA片段反转或倒位,可选用NGG-NGG或CCN-CCN组合作为PAM组合,来设计其候选sgRNA组合;(3)若要进行精准的DNA片段重复,可选用CCN-NGG组合作为PAM组合,来设计sgRNA组合。
11.根据权利要求5或6所述的基因组DNA片段编辑方法,其特征在于,所述编辑方式选自突变、删除、反转或倒位、重复、易位或插入。
12.根据权利要求5或6所述的基因组DNA片段编辑方法,其特征在于,步骤(3)中,利用CRISPR/Cas9系统对待编辑的基因组DNA片段进行所需要的编辑过程中,加入CtIP抑制剂。
13.根据权利要求5或6所述的基因组DNA片段编辑方法,所采用的CRISPR/Cas9系统中的Cas9核酸酶选自SpCas9核酸酶或氨基酸序列如SEQ ID NO.33、35、37、39、41、43、45之任一所示的Cas9核酸酶突变体。
CN201710344514.2A 2017-05-16 2017-05-16 一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及应用 Active CN107012250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710344514.2A CN107012250B (zh) 2017-05-16 2017-05-16 一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710344514.2A CN107012250B (zh) 2017-05-16 2017-05-16 一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及应用

Publications (2)

Publication Number Publication Date
CN107012250A CN107012250A (zh) 2017-08-04
CN107012250B true CN107012250B (zh) 2021-01-29

Family

ID=59450183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710344514.2A Active CN107012250B (zh) 2017-05-16 2017-05-16 一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及应用

Country Status (1)

Country Link
CN (1) CN107012250B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3613852A3 (en) 2011-07-22 2020-04-22 President and Fellows of Harvard College Evaluation and improvement of nuclease cleavage specificity
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9228207B2 (en) 2013-09-06 2016-01-05 President And Fellows Of Harvard College Switchable gRNAs comprising aptamers
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US9322037B2 (en) 2013-09-06 2016-04-26 President And Fellows Of Harvard College Cas9-FokI fusion proteins and uses thereof
US20150166982A1 (en) 2013-12-12 2015-06-18 President And Fellows Of Harvard College Methods for correcting pi3k point mutations
US10077453B2 (en) 2014-07-30 2018-09-18 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
IL294014B1 (en) 2015-10-23 2024-03-01 Harvard College Nucleobase editors and their uses
AU2017306676B2 (en) 2016-08-03 2024-02-22 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
CA3033327A1 (en) 2016-08-09 2018-02-15 President And Fellows Of Harvard College Programmable cas9-recombinase fusion proteins and uses thereof
WO2018039438A1 (en) 2016-08-24 2018-03-01 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
CN110214180A (zh) 2016-10-14 2019-09-06 哈佛大学的校长及成员们 核碱基编辑器的aav递送
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
JP2020510439A (ja) 2017-03-10 2020-04-09 プレジデント アンド フェローズ オブ ハーバード カレッジ シトシンからグアニンへの塩基編集因子
KR20190130613A (ko) 2017-03-23 2019-11-22 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵산 프로그램가능한 dna 결합 단백질을 포함하는 핵염기 편집제
WO2018209320A1 (en) 2017-05-12 2018-11-15 President And Fellows Of Harvard College Aptazyme-embedded guide rnas for use with crispr-cas9 in genome editing and transcriptional activation
WO2019023680A1 (en) 2017-07-28 2019-01-31 President And Fellows Of Harvard College METHODS AND COMPOSITIONS FOR EVOLUTION OF BASIC EDITORS USING PHAGE-ASSISTED CONTINUOUS EVOLUTION (PACE)
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
US11795443B2 (en) 2017-10-16 2023-10-24 The Broad Institute, Inc. Uses of adenosine base editors
CN110684755B (zh) * 2018-07-05 2021-12-31 清华大学 基于进化信息构建嵌合SaCas9用于增强和扩展PAM位点的识别
CN111690724B (zh) * 2019-03-15 2022-04-26 北京大学 一种检测双链断裂产生试剂活性的方法
EP3942040A1 (en) 2019-03-19 2022-01-26 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
CN110241098B (zh) * 2019-06-05 2021-04-30 复旦大学 酿脓链球菌的CRISPR核酸酶SpCas9的截短型高特异性变异体及其应用
MX2022014008A (es) 2020-05-08 2023-02-09 Broad Inst Inc Métodos y composiciones para la edición simultánea de ambas cadenas de una secuencia de nucleótidos de doble cadena objetivo.

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105567734A (zh) * 2016-01-18 2016-05-11 丹弥优生物技术(湖北)有限公司 一种基因组dna序列精准编辑方法
CN105647968A (zh) * 2016-02-02 2016-06-08 浙江大学 一种CRISPR/Cas9工作效率快速测试系统及其应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105567734A (zh) * 2016-01-18 2016-05-11 丹弥优生物技术(湖北)有限公司 一种基因组dna序列精准编辑方法
CN105647968A (zh) * 2016-02-02 2016-06-08 浙江大学 一种CRISPR/Cas9工作效率快速测试系统及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CRISPR/Cas9系统在基因组DNA片段编辑中的应用;李金环 等;《遗传》;20150901;第37卷(第10期);第901-1002页 *
Precise and Predictable CRISPR Chromosomal Rearrangements Reveal Principles of Cas9-Mediated Nucleotide Insertion.;Jia Shou等;《Biorxiv》;20170509;第1-55页 *

Also Published As

Publication number Publication date
CN107012250A (zh) 2017-08-04

Similar Documents

Publication Publication Date Title
CN107012250B (zh) 一种适用于CRISPR/Cas9系统的基因组DNA片段编辑精准度的分析方法及应用
CN106957830B (zh) 一种Cas9核酸酶ΔF916及其用途
CN106957831B (zh) 一种Cas9核酸酶K918A及其用途
CN106947750B (zh) 一种Cas9核酸酶Q920P及其用途
CN106967697B (zh) 一种Cas9核酸酶G915F及其用途
CN106939303B (zh) 一种Cas9核酸酶R919P及其用途
JP7154248B2 (ja) 標的遺伝子座を修飾するための方法及び組成物
CN106987570A (zh) 一种Cas9核酸酶R780A及其用途
JP7430358B2 (ja) Dnaが編集された真核細胞を製造する方法、および当該方法に用いられるキット
AU2017308889B2 (en) Programmable Cas9-recombinase fusion proteins and uses thereof
JP7423520B2 (ja) Cas9ベースノックイン方針の効力を改善するための組成物及び方法
WO2016108926A1 (en) Crispr mediated in vivo modeling and genetic screening of tumor growth and metastasis
US11396664B2 (en) Replicative transposon system
JP2017538428A (ja) 単一ステップの複数標的化を通じた標的化された遺伝子修飾のための方法及び組成物
WO2016081798A1 (en) Methods relating to the detection of recurrent and non-specific double strand breaks in the genome
US20030104352A1 (en) Methods for analyzing the insertion capabilities of modified group II introns
ES2923629T3 (es) Métodos para la introducción sin cicatrices de modificaciones dirigidas en vectores de direccionamiento
JP2024501892A (ja) 新規の核酸誘導型ヌクレアーゼ
WO2018015995A1 (ja) 長鎖一本鎖dnaを調製する方法
CN107119077B (zh) CtIP抑制剂的新用途及一种精准的基因组DNA片段编辑方法
CN106987571A (zh) 一种Cas9核酸酶F916P及其用途
Casini Better safe than sorry: new CRISPR/Cas9 tools for improved genome engineering
Rich Massively parallel analysis of the functional effects of mutations
Sarkar Directed evolution of an HIV-1 LTR specific recombinase for anti-retroviral therapy-a proof of concept study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant