CN111763686B - 实现c到a以及c到g碱基突变的碱基编辑系统及其应用 - Google Patents

实现c到a以及c到g碱基突变的碱基编辑系统及其应用 Download PDF

Info

Publication number
CN111763686B
CN111763686B CN202010836208.2A CN202010836208A CN111763686B CN 111763686 B CN111763686 B CN 111763686B CN 202010836208 A CN202010836208 A CN 202010836208A CN 111763686 B CN111763686 B CN 111763686B
Authority
CN
China
Prior art keywords
base
cytosine deaminase
uracil dna
amino acid
ncas9
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010836208.2A
Other languages
English (en)
Other versions
CN111763686A (zh
Inventor
张学礼
毕昌昊
赵东东
李斯微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Institute of Industrial Biotechnology of CAS
Original Assignee
Tianjin Institute of Industrial Biotechnology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Institute of Industrial Biotechnology of CAS filed Critical Tianjin Institute of Industrial Biotechnology of CAS
Publication of CN111763686A publication Critical patent/CN111763686A/zh
Application granted granted Critical
Publication of CN111763686B publication Critical patent/CN111763686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/70Vectors or expression systems specially adapted for E. coli
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/24Hydrolases (3) acting on glycosyl compounds (3.2)
    • C12N9/2497Hydrolases (3) acting on glycosyl compounds (3.2) hydrolysing N- glycosyl compounds (3.2.2)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y302/00Hydrolases acting on glycosyl compounds, i.e. glycosylases (3.2)
    • C12Y302/02Hydrolases acting on glycosyl compounds, i.e. glycosylases (3.2) hydrolysing N-glycosyl compounds (3.2.2)
    • C12Y302/02027Uracil-DNA glycosylase (3.2.2.27)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04001Cytosine deaminase (3.5.4.1)
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Mycology (AREA)
  • Cell Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

本发明公开了实现C到A以及C到G碱基突变的碱基编辑系统及其应用。本发明公开的C突变为A的碱基编辑系统包括胞嘧啶脱氨酶AID和nCas9核酸酶或包括胞嘧啶脱氨酶AID、nCas9核酸酶和尿嘧啶DNA糖苷酶;本发明公开的C突变为G的碱基编辑系统包括胞嘧啶脱氨酶APOBEC、nCas9核酸酶和尿嘧啶DNA糖苷酶。通过实验证明:将C到A、C到T以及A到G三种碱基编辑系统相结合可以在原核生物中实现A、T、C或者G到任意碱基的突变;将C到G、C到T以及A到G三种碱基编辑系统相结合可以在真核生物中实现A、T、C或者G到任意碱基的突变。

Description

实现C到A以及C到G碱基突变的碱基编辑系统及其应用
技术领域
本发明属于生物技术领域,具体涉及实现C到A以及C到G碱基突变的碱基编辑系统及其应用。
背景技术
基因组编辑是指在基因组尺度对细胞进行有效设计与高效改造,早期的基因组编辑技术主要利用同源重组介导的打靶技术,但由于效率较低(10-6-10-9),为解决这一难题,一系列人工核酸内切酶介导的基因组编辑技术被开发。目前主要有3种编辑技术,分别为人工核酸酶介导的锌指核酸酶(zinc-finger nucleases,ZFN)技术、转录激活因子效应物核酸酶(transcription activator-like effector nucleases,TALEN)技术和RNA引导的CRISPR/Cas9核酸酶(CRISPR/Cas RGNs)技术,其中CRISPR-Cas9技术相较而言设计更加简单、操作更便捷、基因编辑效率更高,目前已经成功的应用于多种目的细胞的基因组编辑研究。
虽然CRISPR/Cas9方法可以精确地对DNA进行编辑,但受限于同源DNA修复的效率低的缺点,因此现在主要用于基因的敲除,无法高效产生单核苷酸突变。为了提高定点突变的效率,将CRISPR系统与胞嘧啶脱氨酶或者腺嘌呤脱氨酶结合构建的单碱基编辑系统,可以在不产生双链DNA断裂的情况下对特定靶位点实现胞嘧啶C到胸腺嘧啶T、腺嘌呤A到鸟嘌呤G的精确替换。单碱基编辑系统作为新一代基因编辑工具,目前仍然存在一定的缺陷:由于酶功能的限制,目前单碱基编辑系统只能实现单个碱基C→T或A→G的编辑,限制了碱基编辑系统的应用,这就急切需要构建新的碱基编辑方式甚至任意碱基到任意碱基的单碱基编辑系统。
发明内容
本发明的目的是如何实现将基因组序列中的靶标碱基C突变为A,以及提高靶标碱基C突变为A、靶标碱基C突变为G的碱基编辑效率,进而实现任意碱基到任意碱基的突变。
为了实现上述目的,本发明首先提供了一种将基因组序列中的靶标碱基C突变为A的方法。
本发明提供的将基因组序列中的靶标碱基C突变为A的方法为如下D1)或D2)或D3)或D4):
D1)所述方法包括如下步骤:使用CRISPR/Cas9系统、胞嘧啶脱氨酶和尿嘧啶DNA糖苷酶进行单碱基编辑,实现靶标碱基C突变为A;
D2)所述方法包括如下步骤:使用CRISPR/Cas9系统和胞嘧啶脱氨酶进行单碱基编辑,实现靶标碱基C突变为A;
D3)所述方法包括如下步骤:使用CRISPR/Cas9系统、胞嘧啶脱氨酶AID和尿嘧啶DNA糖苷酶进行单碱基编辑,实现靶标碱基C突变为A;
D4)所述方法包括如下步骤:使用CRISPR/Cas9系统和胞嘧啶脱氨酶AID进行单碱基编辑,实现靶标碱基C突变为A。
进一步的,所述将基因组序列中的靶标碱基C突变为A的方法为如下d1)或d2)或d3)或d4):
d1)所述方法包括如下步骤:将胞嘧啶脱氨酶的编码基因、CRISPR核酸酶的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因导入受体生物或受体生物细胞中,使胞嘧啶脱氨酶的编码基因、CRISPR核酸酶的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因均得到表达,实现靶标碱基C突变为A;
d2)所述方法包括如下步骤:将胞嘧啶脱氨酶的编码基因、CRISPR核酸酶的编码基因和sgRNA的编码基因导入受体生物或受体生物细胞中,使胞嘧啶脱氨酶的编码基因、CRISPR核酸酶的编码基因和sgRNA的编码基因均得到表达,实现靶标碱基C突变为A;
d3)所述方法包括如下步骤:将胞嘧啶脱氨酶AID的编码基因、nCas9核酸酶的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因导入受体生物或受体生物细胞中,使胞嘧啶脱氨酶AID的编码基因、nCas9核酸酶的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因均得到表达,实现靶标碱基C突变为A;
d4)所述方法包括如下步骤:将胞嘧啶脱氨酶AID的编码基因、nCas9核酸酶的编码基因和sgRNA的编码基因导入受体生物或受体生物细胞中,使胞嘧啶脱氨酶AID的编码基因、nCas9核酸酶的编码基因和sgRNA的编码基因均得到表达,实现靶标碱基C突变为A;
所述sgRNA靶向靶点序列;所述靶标碱基C位于所述靶点序列。
所述d1)和所述d3)中,所述胞嘧啶脱氨酶或所述胞嘧啶脱氨酶AID、所述CRISPR核酸酶或nCas9核酸酶与所述尿嘧啶DNA糖苷酶在所述受体生物或受体生物细胞中可进行融合表达,也可游离表达。
所述d2)和所述d4)中,所述胞嘧啶脱氨酶或所述胞嘧啶脱氨酶AID与所述CRISPR核酸酶或nCas9核酸酶在所述受体生物或受体生物细胞中可进行融合表达,也可游离表达。
所述胞嘧啶脱氨酶可为不同来源的胞嘧啶脱氨酶,如鼠源的胞嘧啶脱氨酶APOBEC1(GenBank:AAH03792.1)、人源的胞嘧啶脱氨酶APOBEC3A(GenBank:AKE33285.1)、七鳃鳗来源的胞嘧啶脱氨酶pmCDA(Accession:ABO15149.1)等。具体的,所述胞嘧啶脱氨酶或所述胞嘧啶脱氨酶AID为七鳃鳗来源的胞嘧啶脱氨酶pmCDA,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的胞嘧啶脱氨酶的氨基酸序列如NCBI中Accession:ABO15149.1所示。
所述尿嘧啶DNA糖苷酶可为不同来源的尿嘧啶DNA糖苷酶,如人源的尿嘧啶DNA糖苷酶UNG(GenBank:CAG46474.1)、酵母来源的尿嘧啶DNA糖苷酶ung1(Accession:CAA86634.1)、大肠杆菌来源的尿嘧啶DNA糖苷酶ung(Accession:EGT65982.1)等。具体的,所述尿嘧啶DNA糖苷酶为大肠杆菌来源的尿嘧啶DNA糖苷酶ung,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的尿嘧啶DNA糖苷酶的氨基酸序列如NCBI中Accession:EGT65982.1所示。
所述CRISPR核酸酶可为不同来源的CRISPR核酸酶或其突变体,如化脓链球菌来源的Cas9核酸酶(Accession:Q99ZW2.1)或其突变体、金黄色葡萄球菌来源的Cas9核酸酶(Accession:AYD60528.1)或其突变体、土拉热弗朗西丝菌来源的cpf1核酸酶(Accession:A0Q7Q2.1)或其突变体。具体的,所述CRISPR核酸酶或所述nCas9核酸酶为Cas9突变体nCas9-D10A,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的CRISPR核酸酶的氨基酸序列为将NCBI中Accession:Q99ZW2.1所示的氨基酸序列自N端起第10位所示的天冬氨酸(D)突变为丙氨酸(A)后得到的氨基酸序列。
更进一步的,所述d3)中,所述胞嘧啶脱氨酶AID的编码基因、所述nCas9核酸酶的编码基因、所述尿嘧啶DNA糖苷酶的编码基因通过重组质粒A导入受体生物或受体生物细胞中;所述重组质粒A表达由胞嘧啶脱氨酶AID、nCas9核酸酶、尿嘧啶DNA糖苷酶组成的融合蛋白。
所述d4)中,所述胞嘧啶脱氨酶AID的编码基因和所述nCas9核酸酶的编码基因通过重组质粒B导入受体生物或受体生物细胞中;所述重组质粒B表达由胞嘧啶脱氨酶AID和nCas9核酸酶组成的融合蛋白。
在本发明的具体实施例中,所述重组质粒B的核苷酸序列如序列1所示;所述重组质粒A的核苷酸序列如序列3所示。
上述将基因组序列中的靶标碱基C突变为A的方法中,所述受体生物可为原核生物;所述C突变为A为在原核生物中实现C突变为A。
进一步的,所述原核生物可为大肠杆菌。
更进一步的,所述大肠杆菌具体为野生型大肠杆菌MG1655或大肠杆菌ATCC 8739。
为了实现上述目的,本发明又提供了一种提高将基因组序列中的靶标碱基C突变为A的碱基编辑效率的方法。
本发明提供的提高将基因组序列中的靶标碱基C突变为A的碱基编辑效率的方法为上述D1)或D3)所述的方法或上述d1)或d3)所述的方法。
为了实现上述目的,本发明还提供了一种提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的方法。
本发明提供的提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的方法为如下E1)或E2):
E1)所述方法包括如下步骤:使用CRISPR/Cas9系统、胞嘧啶脱氨酶和尿嘧啶DNA糖苷酶进行单碱基编辑,实现提高靶标碱基C突变为G的碱基编辑效率;
E2)所述方法包括如下步骤:使用CRISPR/Cas9系统、胞嘧啶脱氨酶APOBEC和尿嘧啶DNA糖苷酶进行单碱基编辑,实现提高靶标碱基C突变为G的碱基编辑效率。
进一步的,上述提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的方法为如下e1)或e2):
e1)所述方法包括如下步骤:将胞嘧啶脱氨酶的编码基因、CRISPR核酸酶的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因导入受体生物或受体生物细胞中,使胞嘧啶脱氨酶的编码基因、CRISPR核酸酶的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因均得到表达,实现提高靶标碱基C突变为G的碱基编辑效率;
e2)所述方法包括如下步骤:将胞嘧啶脱氨酶APOBEC的编码基因、nCas9核酸酶的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因导入受体生物或受体生物细胞中,使胞嘧啶脱氨酶APOBEC的编码基因、nCas9核酸酶的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因均得到表达,实现提高靶标碱基C突变为G的碱基编辑效率;
所述sgRNA靶向靶点序列,所述靶标碱基位于所述靶点序列。
所述e1)和所述e2)中,所述胞嘧啶脱氨酶或所述胞嘧啶脱氨酶APOBEC、所述CRISPR核酸酶或nCas9核酸酶与所述尿嘧啶DNA糖苷酶在所述受体生物或受体生物细胞可进行融合表达,也可游离表达。
所述胞嘧啶脱氨酶可为不同来源的胞嘧啶脱氨酶,如鼠源的胞嘧啶脱氨酶APOBEC1(GenBank:AAH03792.1)、人源的胞嘧啶脱氨酶APOBEC3A(GenBank:AKE33285.1)、七鳃鳗来源的胞嘧啶脱氨酶pmCDA(Accession:ABO15149.1)等。具体的,所述胞嘧啶脱氨酶或所述胞嘧啶脱氨酶APOBEC为鼠源的胞嘧啶脱氨酶APOBEC1,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的胞嘧啶脱氨酶的氨基酸序列如NCBI中GenBank:AAH03792.1所示。
所述尿嘧啶DNA糖苷酶可为不同来源的尿嘧啶DNA糖苷酶,如人源的尿嘧啶DNA糖苷酶UNG(GenBank:CAG46474.1)、酵母来源的尿嘧啶DNA糖苷酶ung1(Accession:CAA86634.1)、大肠杆菌来源的尿嘧啶DNA糖苷酶ung(Accession:EGT65982.1)等。具体的,所述尿嘧啶DNA糖苷酶为改造后的人源的尿嘧啶DNA糖苷酶UNG,其氨基酸序列为将NCBI中GenBank:CAG46474.1所示的人源的尿嘧啶DNA糖苷酶UNG的氨基酸序列自N端起第1-84位所示的氨基酸序列删除后得到的氨基酸序列。
所述CRISPR核酸酶可为不同来源的CRISPR核酸酶或其突变体,如化脓链球菌来源的Cas9核酸酶(Accession:Q99ZW2.1)或其突变体、金黄色葡萄球菌来源的Cas9核酸酶(Accession:AYD60528.1)或其突变体、土拉热弗朗西丝菌来源的cpf1核酸酶(Accession:A0Q7Q2.1)或其突变体。具体的,所述CRISPR核酸酶或所述nCas9核酸酶为Cas9突变体nCas9-D10A,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的CRISPR核酸酶的氨基酸序列为将NCBI中Accession:Q99ZW2.1所示的氨基酸序列自N端起第10位所示的天冬氨酸(D)突变为丙氨酸(A)后得到的氨基酸序列。
更进一步的,所述e2)中,所述胞嘧啶脱氨酶APOBEC的编码基因、所述nCas9核酸酶的编码基因、所述尿嘧啶DNA糖苷酶的编码基因通过重组质粒C导入受体生物或受体生物细胞中;所述重组质粒C表达由胞嘧啶脱氨酶APOBEC、nCas9核酸酶、尿嘧啶DNA糖苷酶组成的融合蛋白。
在本发明的具体实施例中,所述重组质粒C的核苷酸序列如序列5所示。
上述提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的方法中,所述受体生物细胞可为真核生物细胞。
进一步的,所述真核生物细胞可为哺乳动物细胞。所述哺乳动物包括人。
更进一步的,所述哺乳动物细胞具体为HEK293T细胞或Hela细胞。
为了实现上述目的,本发明还提供了一种在原核生物中实现基因组序列中的任意碱基到任意碱基定点突变的方法。
本发明提供的在原核生物中实现基因组序列中的任意碱基到任意碱基定点突变的方法(原理如图1所示)为如下M1)或M2)或M3)或M4):
M1)包括m1)或m2)或m3):
m1)当基因组序列中的靶标碱基为碱基C时,由碱基C出发,利用C突变为T的碱基编辑系统可将靶标碱基由碱基C突变为碱基T,实现了碱基C到碱基T的编辑;
m2)当基因组序列中的靶标碱基为碱基C时,由碱基C出发,利用C突变为A的碱基编辑系统可将靶标碱基由碱基C突变为碱基A,实现了碱基C到碱基A的编辑;
m3)当基因组序列中的靶标碱基为碱基C时,按照m2)所述方法获得靶标碱基为碱基A的突变体,由碱基A出发,利用A突变为G的碱基编辑系统可将靶标碱基由碱基A突变为碱基G,实现了碱基C到碱基G的编辑;
由此实现了碱基C到碱基T、碱基A以及碱基G的任意定点突变;
M2)当基因组序列中的靶标碱基为碱基G时,由于碱基G为碱基C的互补碱基,按照M1)所述方法也实现了碱基G到碱基A、碱基T以及碱基C的任意定点突变;
M3)包括m4)或m5)或m6):
m4)当基因组序列中的靶标碱基为碱基T时,靶标碱基的互补碱基为碱基A,由碱基A出发,利用A突变为G的碱基编辑系统可将靶标碱基的互补碱基由碱基A突变为碱基G,碱基G的互补碱基为碱基C,实现了碱基T到碱基C的编辑;
m5)当基因组序列中的靶标碱基为碱基T时,按照m4)所述方法获得靶标碱基为碱基C的突变体,由碱基C出发,利用C突变为A的碱基编辑系统可将靶标碱基由碱基C突变为碱基A,实现了碱基T到碱基A的编辑;
m6)当基因组序列中的靶标碱基为碱基T时,按照m5)所述方法获得靶标碱基为碱基A的突变体,由碱基A出发,利用A突变为G的碱基编辑系统可将靶标碱基由碱基A突变为碱基G,实现了碱基T到碱基G的编辑;
由此实现了碱基T到碱基C、碱基A和碱基G的任意定点突变;
M4)当基因组序列中的靶标碱基为碱基A时,由于碱基A为碱基T的互补碱基,按照M3)所述方法也实现了碱基A到碱基G、碱基T和碱基C的任意定点突变;
所述C突变为A的碱基编辑系统为C突变为A的碱基编辑系统Ⅰ或C突变为A的碱基编辑系统Ⅱ或C突变为A的碱基编辑系统Ⅲ或C突变为A的碱基编辑系统Ⅳ;
所述C突变为A的碱基编辑系统Ⅰ包括胞嘧啶脱氨酶或与所述胞嘧啶脱氨酶相关的生物材料、CRISPR核酸酶或与所述CRISPR核酸酶相关的生物材料和尿嘧啶DNA糖苷酶或与所述尿嘧啶DNA糖苷酶相关的生物材料;
所述C突变为A的碱基编辑系统Ⅱ包括胞嘧啶脱氨酶或与所述胞嘧啶脱氨酶相关的生物材料和CRISPR核酸酶或与所述CRISPR核酸酶相关的生物材料;
所述C突变为A的碱基编辑系统Ⅲ包括胞嘧啶脱氨酶AID或与所述胞嘧啶脱氨酶AID相关的生物材料、nCas9核酸酶或与所述nCas9核酸酶相关的生物材料和尿嘧啶DNA糖苷酶或与所述尿嘧啶DNA糖苷酶相关的生物材料;
所述C突变为A的碱基编辑系统Ⅳ包括胞嘧啶脱氨酶AID或与所述胞嘧啶脱氨酶AID相关的生物材料和nCas9核酸酶或与所述nCas9核酸酶相关的生物材料。
进一步的,所述胞嘧啶脱氨酶可为不同来源的胞嘧啶脱氨酶,如鼠源的胞嘧啶脱氨酶APOBEC1(GenBank:AAH03792.1)、人源的胞嘧啶脱氨酶APOBEC3A(GenBank:AKE33285.1)、七鳃鳗来源的胞嘧啶脱氨酶pmCDA(Accession:ABO15149.1)等。具体的,所述胞嘧啶脱氨酶或所述胞嘧啶脱氨酶AID为七鳃鳗来源的胞嘧啶脱氨酶pmCDA,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的胞嘧啶脱氨酶的氨基酸序列如NCBI中Accession:ABO15149.1所示。
所述尿嘧啶DNA糖苷酶可为不同来源的尿嘧啶DNA糖苷酶,如人源的尿嘧啶DNA糖苷酶UNG(GenBank:CAG46474.1)、酵母来源的尿嘧啶DNA糖苷酶ung1(Accession:CAA86634.1)、大肠杆菌来源的尿嘧啶DNA糖苷酶ung(Accession:EGT65982.1)等。具体的,所述尿嘧啶DNA糖苷酶为大肠杆菌来源的尿嘧啶DNA糖苷酶ung,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的尿嘧啶DNA糖苷酶的氨基酸序列如NCBI中Accession:EGT65982.1所示。
所述CRISPR核酸酶可为不同来源的CRISPR核酸酶或其突变体,如化脓链球菌来源的Cas9核酸酶(Accession:Q99ZW2.1)或其突变体、金黄色葡萄球菌来源的Cas9核酸酶(Accession:AYD60528.1)或其突变体、土拉热弗朗西丝菌来源的cpf1核酸酶(Accession:A0Q7Q2.1)或其突变体。具体的,所述CRISPR核酸酶或所述nCas9核酸酶为Cas9突变体nCas9-D10A,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的CRISPR核酸酶的氨基酸序列为将NCBI中Accession:Q99ZW2.1所示的氨基酸序列自N端起第10位所示的天冬氨酸(D)突变为丙氨酸(A)后得到的氨基酸序列。
所述原核生物为大肠杆菌。
更进一步的,所述大肠杆菌为大肠杆菌MG1655或大肠杆菌ATCC 8739。
为了实现上述目的,本发明还提供了一种在真核生物中实现基因组序列中的任意碱基到任意碱基定点突变的方法。
本发明提供的在真核生物中实现基因组序列中的任意碱基到任意碱基定点突变的方法(原理如图2所示)为如下N1)或N2)或N3)或N4):
N1)包括n1)或n2)或n3):
n1)当基因组序列中的靶标碱基为碱基C时,由碱基C出发,利用C突变为T的碱基编辑系统可将靶标碱基由碱基C突变为碱基T,实现了碱基C到碱基T的编辑;
n2)当基因组序列中的靶标碱基为碱基C时,由碱基C出发,利用C突变为G的碱基编辑系统可将靶标碱基由碱基C突变为碱基G,实现了碱基C到碱基G的编辑;
n3)当基因组序列中的靶标碱基为碱基C时,按照n2)所述方法获得靶标碱基为碱基G的突变体,碱基G的互补碱基为碱基C,由碱基C出发,利用C突变为T的碱基编辑系统可将靶标碱基的互补碱基由碱基C突变为碱基T,碱基T的互补碱基为碱基A,实现了碱基C到碱基A的编辑;
由此实现了碱基C到碱基T、碱基A以及碱基G的任意定点突变;
N2)当基因组序列中的靶标碱基为碱基G时,由于碱基G为碱基C的互补碱基,按照N1)所述方法也实现了碱基G到碱基A、碱基T以及碱基C的任意定点突变;
N3)包括n4)或n5)或n6):
n4)当基因组序列中的靶标碱基为碱基T时,碱基T的互补碱基为碱基A,由碱基A出发,利用A突变为G的碱基编辑系统可将靶标碱基的互补碱基由碱基A突变为碱基G,碱基G的互补碱基为碱基C,实现了碱基T到碱基C的编辑;
n5)当基因组序列中的靶标碱基为碱基T时,按照n4)所述方法获得靶标碱基为碱基C的突变体,由碱基C出发,利用C突变为G的碱基编辑系统可将靶标碱基由碱基C突变为碱基G,实现了碱基T到碱基G的编辑;
n6)当基因组序列中的靶标碱基为碱基T时,按照n5)所述方法获得靶标碱基为碱基G的突变体,碱基G的互补碱基为碱基C,由碱基C出发,利用C突变为T的碱基编辑系统可将靶标碱基的互补碱基由碱基C突变为碱基T,实现碱基T到碱基A的编辑;
由此实现了碱基T到碱基C、碱基A和碱基G的任意定点突变;
N4)当基因组序列中的靶标碱基为碱基A时,由于碱基A为碱基T的互补碱基,按照N3)所述方法也实现了碱基A到碱基G、碱基T和碱基C的任意定点突变;
所述C突变为G的碱基编辑系统为C突变为G的碱基编辑系统Ⅰ或C突变为G的碱基编辑系统Ⅱ或C突变为G的碱基编辑系统Ⅲ或C突变为G的碱基编辑系统Ⅳ;
所述C突变为G的碱基编辑系统Ⅰ包括胞嘧啶脱氨酶或与所述胞嘧啶脱氨酶相关的生物材料、CRISPR核酸酶或与所述CRISPR核酸酶相关的生物材料和尿嘧啶DNA糖苷酶或与所述尿嘧啶DNA糖苷酶相关的生物材料;
所述C突变为G的碱基编辑系统Ⅱ包括胞嘧啶脱氨酶或与所述胞嘧啶脱氨酶相关的生物材料和CRISPR核酸酶或与所述CRISPR核酸酶相关的生物材料;
所述C突变为G的碱基编辑系统Ⅲ包括胞嘧啶脱氨酶APOBEC或与所述胞嘧啶脱氨酶APOBEC相关的生物材料、nCas9核酸酶或与所述nCas9核酸酶相关的生物材料和尿嘧啶DNA糖苷酶或与所述尿嘧啶DNA糖苷酶相关的生物材料;
所述C突变为G的碱基编辑系统Ⅳ包括胞嘧啶脱氨酶APOBEC或与所述胞嘧啶脱氨酶APOBEC相关的生物材料和nCas9核酸酶或与所述nCas9核酸酶相关的生物材料。
进一步的,所述胞嘧啶脱氨酶可为不同来源的胞嘧啶脱氨酶,如鼠源的胞嘧啶脱氨酶APOBEC1(GenBank:AAH03792.1)、人源的胞嘧啶脱氨酶APOBEC3A(GenBank:AKE33285.1)、七鳃鳗来源的胞嘧啶脱氨酶pmCDA(Accession:ABO15149.1)等。具体的,所述胞嘧啶脱氨酶或所述胞嘧啶脱氨酶APOBEC为鼠源的胞嘧啶脱氨酶APOBEC1,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的胞嘧啶脱氨酶的氨基酸序列如NCBI中GenBank:AAH03792.1所示。
所述尿嘧啶DNA糖苷酶可为不同来源的尿嘧啶DNA糖苷酶,如人源的尿嘧啶DNA糖苷酶UNG(GenBank:CAG46474.1)、酵母来源的尿嘧啶DNA糖苷酶ung1(Accession:CAA86634.1)、大肠杆菌来源的尿嘧啶DNA糖苷酶ung(Accession:EGT65982.1)等。具体的,所述尿嘧啶DNA糖苷酶为改造后的人源的尿嘧啶DNA糖苷酶UNG,其氨基酸序列为将NCBI中GenBank:CAG46474.1所示的人源的尿嘧啶DNA糖苷酶UNG的氨基酸序列自N端起第1-84位所示的氨基酸序列删除后得到的氨基酸序列。
所述CRISPR核酸酶可为不同来源的CRISPR核酸酶或其突变体,如化脓链球菌来源的Cas9核酸酶(Accession:Q99ZW2.1)或其突变体、金黄色葡萄球菌来源的Cas9核酸酶(Accession:AYD60528.1)或其突变体、土拉热弗朗西丝菌来源的cpf1核酸酶(Accession:A0Q7Q2.1)或其突变体。具体的,所述CRISPR核酸酶或所述nCas9核酸酶为Cas9突变体nCas9-D10A,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的CRISPR核酸酶的氨基酸序列为将NCBI中Accession:Q99ZW2.1所示的氨基酸序列自N端起第10位所示的天冬氨酸(D)突变为丙氨酸(A)后得到的氨基酸序列。
所述真核生物为真核生物细胞。
更进一步的,所述真核生物细胞为哺乳动物细胞,如HEK293T细胞或Hela细胞。
为了实现上述目的,本发明还提供了如下a1)-a8)中任一种应用:
a1)上述C突变为A的碱基编辑系统Ⅰ在将基因组序列中的靶标碱基C突变为A中的应用;
a2)上述C突变为A的碱基编辑系统Ⅱ在将基因组序列中的靶标碱基C突变为A中的应用;
a3)尿嘧啶DNA糖苷酶或上述C突变为A的碱基编辑系统Ⅰ在提高将基因组序列中的靶标碱基C突变为A的碱基编辑效率中的应用;
a4)尿嘧啶DNA糖苷酶或上述C突变为G的碱基编辑系统Ⅰ在提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率中的应用;
a5)上述C突变为A的碱基编辑系统Ⅰ、C突变为T的碱基编辑系统和A突变为G的碱基编辑系统在原核生物中实现基因组序列中任意碱基到任意碱基的定点突变中的应用;
a6)上述C突变为A的碱基编辑系统Ⅱ、C突变为T的碱基编辑系统和A突变为G的碱基编辑系统在原核生物中实现基因组序列中任意碱基到任意碱基的定点突变中的应用;
a7)上述C突变为G的碱基编辑系统Ⅰ、C突变为T的碱基编辑系统和A突变为G的碱基编辑系统在真核生物中实现基因组序列中任意碱基到任意碱基的定点突变中的应用;
a8)上述C突变为G的碱基编辑系统Ⅱ、C突变为T的碱基编辑系统和A突变为G的碱基编辑系统在真核生物中实现基因组序列中任意碱基到任意碱基的定点突变中的应用。
为了实现上述目的,本发明还提供了如下b1)-b8)中任一种应用:
b1)上述C突变为A的碱基编辑系统Ⅲ在将基因组序列中的靶标碱基C突变为A中的应用;
b2)上述C突变为A的碱基编辑系统Ⅳ在将基因组序列中的靶标碱基C突变为A中的应用;
b3)尿嘧啶DNA糖苷酶或上述C突变为A的碱基编辑系统Ⅲ在提高将基因组序列中的靶标碱基C突变为A的碱基编辑效率中的应用;
b4)尿嘧啶DNA糖苷酶或上述C突变为G的碱基编辑系统Ⅲ在提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率中的应用;
b5)上述C突变为A的碱基编辑系统Ⅲ、C突变为T的碱基编辑系统和A突变为G的碱基编辑系统在原核生物中实现基因组序列中任意碱基到任意碱基的定点突变中的应用;
b6)上述C突变为A的碱基编辑系统Ⅳ、C突变为T的碱基编辑系统和A突变为G的碱基编辑系统在原核生物中实现基因组序列中任意碱基到任意碱基的定点突变中的应用;
b7)上述C突变为G的碱基编辑系统Ⅲ、C突变为T的碱基编辑系统和A突变为G的碱基编辑系统在真核生物中实现基因组序列中任意碱基到任意碱基的定点突变中的应用;
b8)上述C突变为G的碱基编辑系统Ⅳ、C突变为T的碱基编辑系统和A突变为G的碱基编辑系统在真核生物中实现基因组序列中任意碱基到任意碱基的定点突变中的应用。
为了实现上述目的,本发明最后提供了如下c1)-c5)中任一种产品:
c1)将基因组序列中的靶标碱基C突变为A的产品,其包括上述C突变为A的碱基编辑系统Ⅰ或上述C突变为A的碱基编辑系统Ⅱ或上述C突变为A的碱基编辑系统Ⅲ或上述C突变为A的碱基编辑系统Ⅳ;
c2)提高将基因组序列中的靶标碱基C突变为A的碱基编辑效率的产品,其包括上述C突变为A的碱基编辑系统Ⅰ或上述C突变为A的碱基编辑系统Ⅲ;
c3)提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的产品,其包括上述C突变为G的碱基编辑系统Ⅰ或上述C突变为G的碱基编辑系统Ⅲ;
c4)在原核生物中实现基因组序列中任意碱基到任意碱基定点突变的产品,其包括C突变为A的碱基编辑系统、C突变为T的碱基编辑系统和A突变为G的碱基编辑系统;所述C突变为A的碱基编辑系统为上述C突变为A的碱基编辑系统Ⅰ或上述C突变为A的碱基编辑系统Ⅱ或上述C突变为A的碱基编辑系统Ⅲ或上述C突变为A的碱基编辑系统Ⅳ;
c5)在真核生物中实现基因组序列中任意碱基到任意碱基定点突变的产品,其包括C突变为G的碱基编辑系统、C突变为T的碱基编辑系统和A突变为G的碱基编辑系统;所述C突变为G的碱基编辑系统为上述C突变为G的碱基编辑系统Ⅰ或上述C突变为G的碱基编辑系统Ⅱ或上述C突变为G的碱基编辑系统Ⅲ或上述C突变为G的碱基编辑系统Ⅳ。
上述任一所述应用或产品或方法中,所述a1)或a2)或a3)或b1)或b2)或b3)或c1)或c2)或d1)或d2)或d3)或d4)中,所述靶标碱基C突变为A为在原核生物中实现靶标碱基C突变为A。
所述a4)或b4)或c3)或e1)或e2)中,所述靶标碱基C突变为G为在真核生物中实现靶标碱基C突变为G。
上述任一所述应用或产品中,所述胞嘧啶脱氨酶可为不同来源的胞嘧啶脱氨酶,如鼠源的胞嘧啶脱氨酶APOBEC1(GenBank:AAH03792.1)、人源的胞嘧啶脱氨酶APOBEC3A(GenBank:AKE33285.1)、七鳃鳗来源的胞嘧啶脱氨酶pmCDA(Accession:ABO15150.1)。具体的,在原核生物(如大肠杆菌)中进行C到A的碱基编辑所使用的胞嘧啶脱氨酶为七鳃鳗来源的胞嘧啶脱氨酶pmCDA,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的胞嘧啶脱氨酶的氨基酸序列如NCBI中Accession:ABO15149.1所示;在真核生物(如哺乳动物细胞)中进行C到G的碱基编辑所使用的胞嘧啶脱氨酶为鼠源的胞嘧啶脱氨酶APOBEC1,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的胞嘧啶脱氨酶的氨基酸序列如NCBI中GenBank:AAH03792.1所示。
与所述胞嘧啶脱氨酶或所述胞嘧啶脱氨酶AID或所述胞嘧啶脱氨酶APOBEC相关的生物材料为如下X1)至X5)中的任一种:
X1)编码所述胞嘧啶脱氨酶或所述胞嘧啶脱氨酶AID或所述胞嘧啶脱氨酶APOBEC的核酸分子;
X2)含有X1)所述核酸分子的表达盒;
X3)含有X1)所述核酸分子的重组载体、或含有X2)所述表达盒的重组载体;
X4)含有X1)所述核酸分子的重组微生物、或含有X2)所述表达盒的重组微生物、或含有X3)所述重组载体的重组微生物;
X5)含有X1)所述核酸分子的转基因细胞系、或含有X2)所述表达盒的转基因细胞系。
编码所述胞嘧啶脱氨酶的核酸分子为如下x1)或x2)或x3):
x1)序列表中序列1第4405-5028位(编码胞嘧啶脱氨酶pmCDA)或序列4第1038-1721位(编码胞嘧啶脱氨酶APOBEC1)所示的cDNA分子或DNA分子;
x2)与x1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述胞嘧啶脱氨酶的cDNA分子或DNA分子;
x3)在严格条件下与x1)或x2)限定的核苷酸序列杂交,且编码所述胞嘧啶脱氨酶的cDNA分子或DNA分子。
所述CRISPR核酸酶可为不同来源的CRISPR核酸酶或其突变体,如化脓链球菌来源的Cas9核酸酶(Accession:Q99ZW2.1)或其突变体、金黄色葡萄球菌来源的Cas9核酸酶(Accession:AYD60528.1)或其突变体、土拉热弗朗西丝菌来源的cpf1核酸酶(Accession:A0Q7Q2.1)或其突变体。具体的,在原核生物(如大肠杆菌)中进行C到A的碱基编辑或在真核生物(如哺乳动物细胞)中进行C到G的碱基编辑所使用的CRISPR核酸酶均为化脓链球菌来源的Cas9核酸酶的Cas9突变体nCas9-D10A,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的CRISPR核酸酶的氨基酸序列为将NCBI中Accession:Q99ZW2.1所示的氨基酸序列自N端起第10位所示的天冬氨酸(D)突变为丙氨酸(A)后得到的氨基酸序列。
与所述CRISPR核酸酶或所述nCas9核酸酶相关的生物材料为如下Y1)至Y5)中的任一种:
Y1)编码所述CRISPR核酸酶或所述nCas9核酸酶的核酸分子;
Y2)含有Y1)所述核酸分子的表达盒;
Y3)含有Y1)所述核酸分子的重组载体、或含有Y2)所述表达盒的重组载体;
Y4)含有Y1)所述核酸分子的重组微生物、或含有Y2)所述表达盒的重组微生物、或含有Y3)所述重组载体的重组微生物;
Y5)含有Y1)所述核酸分子的转基因细胞系、或含有Y2)所述表达盒的转基因细胞系。
编码所述Cas9突变体nCas9-D10A的核酸分子为如下y1)或y2)或y3):
y1)序列表中序列1第1-4104位所示的cDNA分子或DNA分子;
y2)与y1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述nCas9核酸酶的cDNA分子或DNA分子;
y3)在严格条件下与y1)或y2)限定的核苷酸序列杂交,且编码所述nCas9核酸酶的cDNA分子或DNA分子。
所述尿嘧啶DNA糖苷酶可为不同来源的尿嘧啶DNA糖苷酶,如人源的尿嘧啶DNA糖苷酶UNG(GenBank:CAG46474.1)、酵母来源的尿嘧啶DNA糖苷酶ung1(Accession:CAA86634.1)、大肠杆菌来源的尿嘧啶DNA糖苷酶ung(Accession:EGT65982.1)等。具体的,在原核生物(如大肠杆菌)中进行C到A的碱基编辑所使用的尿嘧啶DNA糖苷酶为大肠杆菌来源的尿嘧啶DNA糖苷酶ung,其氨基酸序列是本领域公知的,在本发明的一个例子中,使用的尿嘧啶DNA糖苷酶的氨基酸序列如NCBI中Accession:EGT65982.1所示;在真核生物(如哺乳动物细胞)中进行C到G的碱基编辑所使用的尿嘧啶DNA糖苷酶为改造后的人源的尿嘧啶DNA糖苷酶UNG,其氨基酸序列为将NCBI中GenBank:CAG46474.1所示的人源的尿嘧啶DNA糖苷酶UNG的氨基酸序列自N端起第1-84位所示的氨基酸序列删除后得到的氨基酸序列。
与所述尿嘧啶DNA糖苷酶相关的生物材料为如下Z1)至Z5)中的任一种:
Z1)编码所述尿嘧啶DNA糖苷酶的核酸分子;
Z2)含有Z1)所述核酸分子的表达盒;
Z3)含有Z1)所述核酸分子的重组载体、或含有Z2)所述表达盒的重组载体;
Z4)含有Z1)所述核酸分子的重组微生物、或含有Z2)所述表达盒的重组微生物、或含有Z3)所述重组载体的重组微生物;
Z5)含有Z1)所述核酸分子的转基因细胞系、或含有Z2)所述表达盒的转基因细胞系。
编码所述尿嘧啶DNA糖苷酶的核酸分子为如下z1)或z2)或z3):
z1)序列表中序列3第1-687位(编码大肠杆菌来源的尿嘧啶DNA糖苷酶ung)或序列5第1-663位(编码改造后的人源的尿嘧啶DNA糖苷酶UNG)所示的cDNA分子或DNA分子;
z2)与z1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述尿嘧啶DNA糖苷酶的cDNA分子或DNA分子;
z3)在严格条件下与z1)或z2)限定的核苷酸序列杂交,且编码所述尿嘧啶DNA糖苷酶的cDNA分子或DNA分子。
上述任一所述方法或应用或产品中,所述C突变为T的碱基编辑系统可为现有技术中本领域技术人员公知的任一种可实现C突变为T的碱基编辑系统,如包括胞嘧啶脱氨酶(胞嘧啶脱氨酶APOBEC1)和nCas9核酸酶的碱基编辑系统,或者包括胞嘧啶脱氨酶(胞嘧啶脱氨酶APOBEC1)、nCas9核酸酶和尿嘧啶DNA糖基化酶抑制蛋白UGI的碱基编辑系统。
上述任一所述方法或应用或产品中,所述A突变为G的碱基编辑系统可为现有技术中本领域技术人员公知的任一种可实现A突变为G的碱基编辑系统,如包括腺嘌呤脱氨酶(如腺嘌呤脱氨酶TadA)和nCas9核酸酶的碱基编辑系统。
上述任一所述应用或产品中,所述碱基编辑系统均还包括sgRNA;所述sgRNA靶向靶点序列,所述靶标碱基位于所述靶点序列。
上述任一所述方法或应用或产品中,所述任意碱基为A、G、C或T。
本发明提供了在原核生物中实现C突变为A的碱基编辑系统以及在真核生物中实现C突变为G的碱基编辑系统及其应用。C突变为A的碱基编辑系统包括胞嘧啶脱氨酶AID和nCas9核酸酶或包括胞嘧啶脱氨酶AID、nCas9核酸酶和尿嘧啶DNA糖苷酶;C突变为G的碱基编辑系统包括胞嘧啶脱氨酶APOBEC、nCas9核酸酶和尿嘧啶DNA糖苷酶。通过实验证明:将C到A、C到T以及A到G三种碱基编辑系统相结合可以在原核生物(如大肠杆菌)中实现A、T、C或者G到任意碱基的突变;将C到G、C到T以及A到G三种碱基编辑系统相结合可以在真核生物(如哺乳动物细胞)中实现A、T、C或者G到任意碱基的突变。
附图说明
图1为将C突变为A的碱基编辑系统、C突变为T的碱基编辑系统以及A突变为G的碱基编辑系统相结合实现A、T、C或者G到任意碱基的突变的碱基编辑示意图。上图为由C或者G出发实现任意碱基的突变的碱基编辑示意图;下图为由A或者T出发实现任意碱基的突变的碱基编辑示意图。
图2为将C突变为G的碱基编辑系统、C突变为T的碱基编辑系统以及A突变为G的碱基编辑系统相结合实现A、T、C或者G到任意碱基的突变的碱基编辑示意图。上图为由C或者G出发实现任意碱基的突变的碱基编辑示意图;下图为由A或者T出发实现任意碱基的突变的碱基编辑示意图。
图3为ptrc_nCas9_AID质粒(pnCas9_AID质粒)的图谱。
图4为大肠杆菌gRNA质粒的图谱。
图5为ptrc_ung_nCas9_AID质粒(pUNG_nCas9_AID质粒)的图谱。
图6为pAPOBEC_nCas9质粒(pAPOBEC_nCas9_UGI质粒)的图谱。
图7为pAPOBEC_nCas9_UNG质粒的图谱。
图8为哺乳动物细胞gRNA质粒的图谱。
图9为实施例3的靶基因、靶序列及编辑结果。图9A为在HEK293T细胞中的定点碱基替换的靶基因、靶序列及编辑结果;图9B为在Hela细胞中的定点碱基替换的靶基因、靶序列及编辑结果。
图10为pTadA_nCas9质粒的图谱。
图11为实施例4的靶基因、靶序列及编辑结果。图11A为以C碱基出发到任意碱基的编辑效率;图11B为以T碱基出发到任意碱基的编辑效率。
图12为xcas9(3.7)-ABE(7.10)质粒的图谱。
图13为实施例5的靶基因、靶序列及编辑结果。
具体实施方式
以下的实施例便于更好地理解本发明,但并不限定本发明。下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。以下实施例中的定量试验,均设置三次重复实验,结果取平均值。
下述实施例中的HEK293T细胞、Hela细胞、野生型大肠杆菌MG1655、野生型大肠杆菌ATCC 8739均是美国菌种保藏中心的产品。
下述实施例中在哺乳动物细胞中使用的胞嘧啶脱氨酶APOBEC为胞嘧啶脱氨酶APOBEC1(GenBank:AAH03792.1),其编码基因序列如序列4第1038-1721位所示。
下述实施例中在大肠杆菌中使用的胞嘧啶脱氨酶AID为胞嘧啶脱氨酶pmCDA(Accession:ABO15149.1),其编码基因序列如序列1第4405-5028位所示。
下述实施例中在大肠杆菌中使用的尿嘧啶DNA糖苷酶为大肠杆菌来源的尿嘧啶DNA糖苷酶ung(Accession:EGT65982.1),其编码基因序列如序列3第1-687位。
下述实施例中在哺乳动物细胞中使用的尿嘧啶DNA糖苷酶为改造后的人源的尿嘧啶DNA糖苷酶UNG,其氨基酸序列为将人源的尿嘧啶DNA糖苷酶UNG(GenBank:CAG46474.1)氨基酸序列的第1-84位所示的氨基酸序列删除后得到的氨基酸序列,其编码基因序列如序列5第1-663位。
下述实施例中在哺乳动物和大肠杆菌中使用的nCas9核酸酶均为Cas9突变体nCas9-D10A,其氨基酸序列为将Cas9核酸酶(Accession:Q99ZW2.1)氨基酸序列的第10位所示的天冬氨酸(D)突变为丙氨酸(A)后得到的氨基酸序列,其编码基因序列如序列1第1-4104位所示。
下述实施例中各基因靶序列编辑后的PCR检测引物序列如表1所示。
表1、各基因靶序列编辑后的PCR检测引物序列
引物名称 引物序列
dcuA_genome_F TGCTGGCGATCTTCTTGGG
dcuA_genome_R CCCGTGTCATCCATCTGTACC
dcuB_genome_F AACGGATCGCTGGTTATCTG
dcuB_genome_R CCGGTACGGAGATGAATTTCTG
dcuC_genome_F ATCGGCGCGAATGATATG
dcuC_genome_R ATCACTAGCCCAACAAGC
dcuD_genome_F CGGTTATGCCCGCTACATGG
dcuD_genome_R GGGATCGCTGTTCGCTTCAC
relA_genome_F TCGCGTACTGGATCTGTTCTGC
relA_genome_R GTTGCCAACACCTTCGACTACC
rpoS_genome_F AACCAGTACGCCTATCTC
rpoS_genome_R ACTCAGGGTTCTGGATTG
spoT_genome_F CCTGGCCTTTGAGATGAG
spoT_genome_R GTTCAGGACGCTGTAGAG
lacZ1_genome_F AGTTGCGTGACTACCTAC
lacZ1_genome_R AGACCAGACCGTTCATAC
lacZ2_genome_F CGTCTGAATTTGACCTGAG
lacZ2_genome_R CCGTCGATATTCAGCCATGTG
ung_genome_F CCCTCTTCCGCTTAGTAACTTG
ung_genome_R GAAGTGTTGCGTCGTCAG
RNF2_genome_F CCTGATCACCTCCCAAAGTC
RNF2_genome_R CCTGATCACCTCCCAAAGTC
实施例1、一种在大肠杆菌中实现C突变为A的碱基编辑方法
将胞嘧啶脱氨酶(AID)与nCas9在大肠杆菌中融合表达,在gRNA的引导下可以实现大肠杆菌特定位点胞嘧啶(C)到胸腺嘧啶(T)、胞嘧啶(C)到腺嘌呤(A)的定点突变,其中C到T的突变占总突变的40.7%,C到A的突变占总突变的59.3%。
一、试验方法
将含有胞嘧啶脱氨酶(AID)和nCas9融合表达系统的pnCas9_AID质粒分别与含有不同靶向位点的大肠杆菌gRNA质粒导入野生型大肠杆菌MG1655或者野生型大肠杆菌ATCC8739中,培养24小时后涂板,随机选择部分菌落对被编辑位点进行PCR检测并测序。
pnCas9_AID质粒的图谱如图3所示,其核苷酸序列如序列1所示,其中,第1-4104位为nCas9的编码基因序列,第4405-5028位为胞嘧啶脱氨酶(AID)的编码基因序列,第6609-7268位为氯霉素基因,第8335-6245位复制原点。pnCas9_AID质粒表达由胞嘧啶脱氨酶(AID)与nCas9组成的融合蛋白。
含有不同靶向位点的大肠杆菌gRNA质粒为靶向不同基因dcuA、dcuB、dcuC、dcuD、relA、rpoS、lacZ或靶向同一基因不同位点的gRNA质粒。gRNA质粒的具体靶向位点如表2所示。以靶向lacZ基因第1444-1463位的gRNA质粒为例,其图谱如图4所示,其核苷酸序列如序列2所示,其中,第336-1148位为安普霉素基因,第1421-1440位为靶点序列,第1441-1518位为gRNA序列,第2001-2620位为复制原点。本实施例或下文中的靶向其他位点的大肠杆菌gRNA质粒仅将序列2所示的gRNA质粒中的靶点序列替换为其他基因靶点序列或同一基因的其他靶点序列即可得到。
表2、gRNA质粒的具体靶向位点
Figure BDA0002639751750000131
二、试验结果
在野生型大肠杆菌MG1655和ATCC 8739中利用胞嘧啶脱氨酶(AID)与nCas9融合表达系统分别选择dcuA、dcuB、dcuC、dcuD、relA、rpoS、lacZ等不同基因以及同一基因不同位点进行定点碱基编辑。
编辑结果如表2所示。结果表明:在大肠杆菌MG1655的7个靶位点中,共有51个C变成T,70个C变成A。在大肠杆菌ATCC 8739的6个靶位点中,共有10个C变成T,19个C变成A。其中,C到T的突变占总突变的40.7%(61/150),C到A的突变占总突变的59.3%(89/150)。以上结果表明:利用胞嘧啶脱氨酶(AID)与nCas9组成的碱基编辑系统不仅可实现胞嘧啶(C)到胸腺嘧啶(T)的碱基替换,还可实现胞嘧啶(C)到腺嘌呤(A)的碱基替换。
实施例2、一种在大肠杆菌中提高C突变为A的碱基编辑效率的方法
为了提高大肠杆菌特定位点胞嘧啶(C)突变为腺嘌呤(A)的碱基编辑效率,将胞嘧啶脱氨酶(AID)、nCas9以及尿嘧啶DNA糖苷酶在大肠杆菌中融合表达,使胞嘧啶(C)突变为腺嘌呤(A)的碱基编辑效率能达到94.5%。
一、试验方法
将含有胞嘧啶脱氨酶(AID)、nCas9以及尿嘧啶DNA糖苷酶融合表达系统的pUNG_nCas9_AID质粒与含有不同靶向位点的大肠杆菌gRNA质粒导入野生型大肠杆菌MG1655中,培养24小时后涂板,随机选择部分菌落对被编辑位点进行PCR检测并测序。
pUNG_nCas9_AID质粒的图谱如图5所示,其核苷酸序列如序列3所示,其中,第1-687位为尿嘧啶DNA糖苷酶的编码基因序列,第736-4839位为nCas9的编码基因序列,第5140-5781位为胞嘧啶脱氨酶(AID)的编码基因序列,第7344-8003位为氯霉素基因,第6070-6980位复制原点。pUNG_nCas9_AID质粒表达由胞嘧啶脱氨酶(AID)、nCas9与尿嘧啶DNA糖苷酶组成的融合蛋白。
含有不同靶向位点的大肠杆菌gRNA质粒为靶向lacZ基因不同位点的gRNA质粒。gRNA质粒的具体靶向位点如表3所示。
表3、gRNA质粒的具体靶向位点
Figure BDA0002639751750000141
二、试验结果
在野生型大肠杆菌MG1655中选择lacZ基因四个位点进行定点碱基编辑,并计算碱基编辑效率{碱基编辑效率=(发生目标碱基替换的阳性菌株个数/分析的总的阳性菌株的个数)*100%}。
编辑结果如图7所示。结果表明:在野生型大肠杆菌MG1655的4个靶位点中,共有121个C突变为A,5个C突变为T,2个C突变为G。C到A的突变占总突变的94.5%(121/128)。以上结果表明:利用胞嘧啶脱氨酶(AID)、nCas9以及尿嘧啶DNA糖苷酶组成的碱基编辑系统可以显著提高C突变为A的碱基编辑效率。
实施例3、一种在哺乳动物细胞中提高C突变为G的碱基编辑效率的方法
文献:Komor,A.C.,Kim,Y.B.,Packer,M.S.,Zuris,J.A.&Liu,D.R.Programmableediting of a target base in genomic DNA without double-stranded DNAcleavage.Nature 533,420-424(2016).中已发现将胞嘧啶脱氨酶(APOBEC)与nCas9在哺乳动物细胞中融合表达可以实现哺乳动物细胞特定位点胞嘧啶(C)到胸腺嘧啶(T)、胞嘧啶(C)到鸟嘌呤(G)的碱基替换,其中C到T的突变占总突变的89.6%,C到G的突变占总突变的10.4%。
为了提高哺乳动物细胞特定位点胞嘧啶(C)到鸟嘌呤(G)的碱基编辑效率,将胞嘧啶脱氨酶(APOBEC)、nCas9以及尿嘧啶DNA糖苷酶在哺乳动物细胞中融合表达,使胞嘧啶(C)到鸟嘌呤(G)特异性碱基编辑效率能到达95.2%。
一、试验方法
将含有胞嘧啶脱氨酶(APOBEC)、nCas9和尿嘧啶DNA糖基化酶抑制蛋白(UGI)融合表达系统的pAPOBEC_nCas9_UGI质粒和含有胞嘧啶脱氨酶(APOBEC)、nCas9和尿嘧啶DNA糖苷酶的融合表达系统的pAPOBEC_nCas9_UNG质粒分别与含有靶向靶位点的哺乳动物细胞gRNA质粒利用Lipofectamine 2000(Life,Invitrogen,11668019)试剂转染到HEK293T或者Hela细胞,转染96小时后提取细胞基因组DNA,对被编辑位点进行PCR检测并测序。每种组合方式每种细胞做两个平行(实验1和实验2)。
pAPOBEC_nCas9_UGI质粒的图谱如图6所示,其核苷酸序列如序列4所示,其中,第1038-1721位为胞嘧啶脱氨酶(APOBEC1)的编码基因序列,第1773-5873位为nCas9的编码基因序列,第5943-6191位为尿嘧啶DNA糖基化酶抑制蛋白(UGI)的编码基因序列,第7430-8018位为大肠杆菌扩增用的复制子,第8189-9049位为大肠杆菌扩增用的氨苄霉素抗性基因。pAPOBEC_nCas9_UGI质粒表达由胞嘧啶脱氨酶(APOBEC)、nCas9和尿嘧啶DNA糖基化酶抑制蛋白(UGI)组成的融合蛋白。
pAPOBEC_nCas9_UNG质粒的图谱如图7所示,其核苷酸序列如序列5所示,其中,第1-663位为尿嘧啶DNA糖苷酶的编码基因序列,第1902-2490位为大肠杆菌扩增用的复制子,第2661-3521位为大肠杆菌扩增用的氨苄霉素抗性基因,第4695-5375位为胞嘧啶脱氨酶(APOBEC)的编码基因序列,第5430-9530位为nCas9的编码基因序列。pAPOBEC_nCas9_UNG质粒表达由胞嘧啶脱氨酶(APOBEC)、nCas9和尿嘧啶DNA糖苷酶组成的融合蛋白。
含有靶向靶位点(靶向RNF2基因第42220-42239位)的哺乳动物细胞gRNA质粒的图谱如图8所示,其核苷酸序列如序列6所示,其中,第322-341位为靶点序列,第342-417位为gRNA序列,第1167-1766位为哺乳动物细胞嘌呤霉素基因,第2453-3041位为大肠杆菌扩增用复制子,第3212-4072位为大肠杆菌扩增用氨苄霉素基因。本实施例或下文中的靶向其他位点的哺乳动物细胞gRNA质粒仅将序列6所示的gRNA质粒中的靶点序列替换为其他基因靶点序列或同一基因的其他靶点序列即可得到。
二、试验结果
在哺乳动物细胞HEK293T或者Hela中选择RNF2基因靶位点进行定点碱基编辑,对靶位点进行PCR并对PCR产物进行深度测序分析,每个PCR产物深度测序reads数超过10万,并按照如下公式计算碱基编辑效率:碱基编辑效率=(发生目标碱基替换reads数/分析的总reads数)*100%。测序引物序列如下:
RNF2-deep-F1:CGTGTATCACCACGCC;
RNF2-deep-R1:CAATACAAAGATTTTCCTAC;
RNF2-deep-F2:TGAGATGGAGTCTTGCTGTG;
RNF2-deep-R2:CAGGCAGATCACAAGGTCAG。
编辑结果如图9所示。结果表明:在HEK293T细胞中C6位的C到G的碱基编辑效率由10.4%提高到95.2%,在Hela细胞中C6位的C到G的碱基编辑效率由14.8%提高到87.9%。
实施例4、一种在大肠杆菌中实现任意碱基到任意碱基定点突变的碱基编辑方法
将C突变为A的碱基编辑系统、C突变为T的碱基编辑系统以及A突变为G的碱基编辑系统相结合在大肠杆菌中实现A、T、C或者G到任意碱基的突变,如图1所示。
一、试验方法
1、以碱基C出发到任意碱基的突变
将含有胞嘧啶脱氨酶(AID)、nCas9以及尿嘧啶DNA糖苷酶融合表达系统的pUNG_nCas9_AID质粒与大肠杆菌gRNA质粒(gRNA质粒中的靶序列为TTTCTTTCACAGATGTGGAT,下划线所示的碱基为待编辑的特定位点)导入野生型大肠杆菌MG1655中,培养24小时后涂板,随机选择部分菌落对被编辑位点进行PCR检测并测序,分别筛选出特定位点由C突变为A的菌株,实现碱基C到碱基A的编辑。
将含有胞嘧啶脱氨酶(AID)、nCas9融合表达系统的pnCas9_AID质粒与大肠杆菌gRNA质粒(gRNA质粒中的靶序列为TTTCTTTCACAGATGTGGAT,下划线所示的碱基为待编辑的特定位点)导入野生型大肠杆菌MG1655中,培养24小时后涂板,随机选择部分菌落对被编辑位点进行PCR检测并测序,分别筛选出特定位点由C突变为T的菌株,实现碱基C到碱基T的编辑。
将筛选出的C突变为A的菌株培养并丢失质粒,然后将含有腺嘌呤脱氨酶(TadA)和nCas9融合表达系统的pTadA_nCas9质粒与大肠杆菌gRNA质粒(gRNA质粒中的靶序列为TTTATTTCACAGATGTGGAT,下划线所示的碱基为待编辑的特定位点)导入C突变为A的菌株中,培养24小时后涂板,随机选择部分菌落对被编辑位点进行PCR检测并测序,筛选出特定位点由C突变为G的菌株,实现碱基C到碱基G的编辑。
2、以碱基T出发到任意碱基的突变
将含有腺嘌呤脱氨酶(TadA)和nCas9融合表达系统的pTadA_nCas9质粒与大肠杆菌gRNA质粒(gRNA质粒中的靶序列为AGGCCAATCCGCGCCGGATG,下划线所示的碱基为待编辑的特定位点)导入野生型大肠杆菌MG1655中,培养24小时后涂板,随机选择部分菌落对被编辑位点进行PCR检测并测序,筛选出特定位点由A突变为G的菌株,实现碱基T到碱基C的编辑。
将筛选出的A突变为G的菌株无抗生素培养丢失质粒,再将含有胞嘧啶脱氨酶(AID)、nCas9以及UNG融合表达系统的pUNG_nCas9_AID质粒与大肠杆菌gRNA质粒(gRNA质粒中的靶序列为GATCGGCCTGAACTGCCAGC,下划线所示的碱基为待编辑的特定位点)导入A突变为G的菌株中,培养24小时后涂板,随机选择部分菌落对被编辑位点进行PCR检测并测序,筛选出特定位点由C突变为A的菌株,实现碱基T到碱基A的编辑。
将筛选出的C突变为A的菌株无抗生素培养丢失质粒,再将含有腺嘌呤脱氨酶(TadA)和nCas9融合表达系统的pTadA_nCas9质粒与大肠杆菌gRNA质粒(gRNA质粒中的靶点序列为GATAGGCCTGAACTGCCAGC,下划线所示的碱基为待编辑的特定位点)导入C突变为A的菌株中培养24小时后涂板,随机选择部分菌落对被编辑位点进行PCR检测并测序,筛选出特定位点由A突变为G的菌株,实现碱基T到碱基G的编辑。
pTadA_nCas9质粒的图谱如图10所示,其核苷酸序列如序列7所示,其中,第3982-4530位为腺嘌呤脱氨酶(TadA)编码基因序列,第4531-8637位为nCas9编码基因序列,第1563-2222位为氯霉素基因,第289-1199位为复制原点。pTadA_nCas9质粒表达由腺嘌呤脱氨酶(TadA)和nCas9组成的融合蛋白。
二、试验结果
在野生型大肠杆菌MG1655中选择lacZ基因两个位点进行任意碱基编辑,并计算碱基编辑效率{碱基编辑效率=(发生目标碱基替换的阳性菌株个数/分析的总的阳性菌株的个数)*100%}。
编辑结果如图11所示。结果表明:以碱基C出发,碱基C到碱基T的编辑效率为66.7%,碱基C到碱基A的编辑效率为96%,碱基C到碱基G的编辑效率为96%*41.2%=39.6%。以碱基T(互补碱基为碱基A)出发,碱基T到碱基C的编辑效率为45.8%,碱基T到碱基A的编辑效率为45.8%*95.4%=43.7%,碱基T到碱基G的编辑效率为45.8%*95.4%*50.2%=21.9%。
实施例5、一种在哺乳动物细胞中实现任意碱基到任意碱基定点突变的编辑方法
将C突变为G的碱基编辑系统、C突变为T的碱基编辑系统以及A突变为G的碱基编辑系统相结合在哺乳动物细胞中实现A、T、C或者G到任意碱基的突变,如图2所示。
一、试验方法
1、以碱基C出发到任意碱基的突变
将含有胞嘧啶脱氨酶(APOBEC)、nCas9以及尿嘧啶DNA糖苷酶融合表达系统的pAPOBEC_nCas9_UNG质粒与哺乳动物细胞gRNA质粒(gRNA质粒中的靶序列为TCCCAAAGTACTGAGATTAC,下划线所示的碱基为待编辑的特定位点)转染HEK293T细胞,转染24小时后加入终浓度为5ug/ml的嘌呤霉素(puromycin),72小时后使用流式细胞仪分选单个细胞,96孔板培养,24小时后提取细胞基因组进行PCR检测并测序,分别筛选出特定位点由C突变为G的细胞,实现碱基C到碱基G的编辑。
将含有胞嘧啶脱氨酶(APOBEC)、nCas9融合表达系统的pAPOBEC_nCas9质粒与哺乳动物细胞gRNA质粒(gRNA质粒中的靶序列为TCCCAAAGTACTGAGATTAC,下划线所示的碱基为待编辑的特定位点)转染HEK293T细胞,转染24小时后加入终浓度为5ug/ml的嘌呤霉素(puromycin),72小时后使用流式细胞仪分选单个细胞,96孔板培养,24小时后提取细胞基因组进行PCR检测并测序,分别筛选出特定位点由C突变为T的细胞,实现碱基C到碱基T的编辑。
将含有胞嘧啶脱氨酶(APOBEC)、nCas9以及尿嘧啶DNA糖基化酶抑制蛋白(UGI)融合表达系统的pAPOBEC_nCas9_UGI质粒与哺乳动物细胞gRNA质粒(gRNA质粒中的靶序列为GTACTTTCGGAGGCCGAGGC,下划线所示的碱基为待编辑的特定位点)转染C突变为G的细胞,转染24小时后加入终浓度为5ug/ml的嘌呤霉素(puromycin),72小时后使用流式细胞仪分选单个细胞,96孔板培养,24小时后提取细胞基因组进行PCR检测并测序,筛选出特定位点由C突变为T的细胞,实现碱基C到碱基A的编辑。
2、以碱基T出发到任意碱基的突变
将含有腺嘌呤脱氨酶(TadA)和xCas9(3.7)融合表达系统的xcas9(3.7)-ABE(7.10)质粒与哺乳动物细胞gRNA质粒(gRNA质粒中的靶序列为GCTTTAGCGTCTTGAGTAGC,下划线所示的碱基为待编辑的特定位点)转染HEK293T细胞,转染24小时后加入终浓度为5ug/mL的嘌呤霉素(puromycin),72小时后使用流式细胞仪分选单个细胞,96孔板培养,24小时后提取细胞基因组进行PCR检测并测序,筛选出特定位点由A突变为G的细胞,实现碱基T到碱基C的编辑。
将含有胞嘧啶脱氨酶(APOBEC)、nCas9以及尿嘧啶DNA糖苷酶融合表达系统的pAPOBEC_nCas9_UNG质粒和哺乳动物细胞gRNA质粒(gRNA质粒中的靶点序列为CGCCAAAGCAGGAGAATCGC,下划线所示的碱基为待编辑的特定位点)转染A突变为G的细胞,转染24小时后加入终浓度为5ug/ml的嘌呤霉素(puromycin),72小时后使用流式细胞仪分选单个细胞,96孔板培养,24小时后提取细胞基因组进行PCR检测并测序,筛选出特定位点由C突变G的细胞,实现碱基T到碱基G的编辑。
将含有胞嘧啶脱氨酶(APOBEC)与nCas9融合表达系统的pAPOBEC_nCas9质粒和哺乳动物细胞gRNA质粒(gRNA质粒中的靶点序列为GCTTTCGCGTCTTGAGTAGC,下划线所示的碱基为待编辑的特定位点)转染C突变为G的细胞,转染24小时后加入终浓度为5ug/ml的嘌呤霉素(puromycin),72小时后使用流式细胞仪分选单个细胞,96孔板培养,24小时后提取细胞基因组进行PCR检测并测序,筛选出特定位点由C突变为T的细胞,实现碱基T到碱基A的编辑。
xcas9(3.7)-ABE(7.10)质粒的图谱如图12所示,其核苷酸序列如序列7所示,其中,第676-1176位为腺嘌呤脱氨酶(TadA)的编码基因序列,第1867-5967位为xCas9(3.7)的编码基因序列,第7544-8404位为氨苄基因,第6785-7373位为复制原点。
二、试验结果
在HEK293T细胞中选择RNF2基因两个位点进行任意碱基编辑,对靶位点进行PCR并对PCR产物进行深度测序分析,每个PCR产物深度测序reads数超过10万,并按照如下公式计算碱基编辑效率:碱基编辑效率=(发生目标碱基替换reads数/分析的总reads数)*100%。测序引物序列如下:
RNF2-deep-F1:CGTGTATCACCACGCC;
RNF2-deep-R1:CAATACAAAGATTTTCCTAC;
RNF2-deep-F2:TGAGATGGAGTCTTGCTGTG;
RNF2-deep-R2:CAGGCAGATCACAAGGTCAG。
编辑结果如图13所示。结果表明:以碱基C出发,碱基C到碱基T的编辑效率为52.5%,碱基C到碱基G的编辑效率为46.3%,碱基C到碱基A的编辑效率为46.3%*43.5%=20.1%。以碱基T(互补碱基为碱基A)出发,碱基T到碱基C的编辑效率为48.6%,碱基T到碱基G的编辑效率为48.6%*38.2%=18.6%,碱基T到碱基A的编辑效率为48.6%*38.2%*50.7%=9.4%。
序列表
<110>中国科学院天津工业生物技术研究所
<120>实现C到A以及C到G碱基突变的碱基编辑系统及其应用
<160>7
<170>PatentIn version 3.5
<210>1
<211>9027
<212>DNA
<213>Artificial Sequence
<400>1
atggataaga aatactcaat aggcttagct atcggcacaa atagcgtcgg atgggcggtg 60
atcactgatg aatataaggt tccgtctaaa aagttcaagg ttctgggaaa tacagaccgc 120
cacagtatca aaaaaaatct tataggggct cttttatttg acagtggaga gacagcggaa 180
gcgactcgtc tcaaacggac agctcgtaga aggtatacac gtcggaagaa tcgtatttgt 240
tatctacagg agattttttc aaatgagatg gcgaaagtag atgatagttt ctttcatcga 300
cttgaagagt cttttttggt ggaagaagac aagaagcatg aacgtcatcc tatttttgga 360
aatatagtag atgaagttgc ttatcatgag aaatatccaa ctatctatca tctgcgaaaa 420
aaattggtag attctactga taaagcggat ttgcgcttaa tctatttggc cttagcgcat 480
atgattaagt ttcgtggtca ttttttgatt gagggagatt taaatcctga taatagtgat 540
gtggacaaac tatttatcca gttggtacaa acctacaatc aattatttga agaaaaccct 600
attaacgcaa gtggagtaga tgctaaagcg attctttctg cacgattgag taaatcaaga 660
cgattagaaa atctcattgc tcagctcccc ggtgagaaga aaaatggctt atttgggaat 720
ctcattgctt tgtcattggg tttgacccct aattttaaat caaattttga tttggcagaa 780
gatgctaaat tacagctttc aaaagatact tacgatgatg atttagataa tttattggcg 840
caaattggag atcaatatgc tgatttgttt ttggcagcta agaatttatc agatgctatt 900
ttactttcag atatcctaag agtaaatact gaaataacta aggctcccct atcagcttca 960
atgattaaac gctacgatga acatcatcaa gacttgactc ttttaaaagc tttagttcga 1020
caacaacttc cagaaaagta taaagaaatc ttttttgatc aatcaaaaaa cggatatgca 1080
ggttatattg atgggggagc tagccaagaa gaattttata aatttatcaa accaatttta 1140
gaaaaaatgg atggtactga ggaattattg gtgaaactaa atcgtgaaga tttgctgcgc 1200
aagcaacgga cctttgacaa cggctctatt ccccatcaaa ttcacttggg tgagctgcat 1260
gctattttga gaagacaaga agacttttat ccatttttaa aagacaatcg tgagaagatt 1320
gaaaaaatct tgacttttcg aattccttat tatgttggtc cattggcgcg tggcaatagt 1380
cgttttgcat ggatgactcg gaagtctgaa gaaacaatta ccccatggaa ttttgaagaa 1440
gttgtcgata aaggtgcttc agctcaatca tttattgaac gcatgacaaa ctttgataaa 1500
aatcttccaa atgaaaaagt actaccaaaa catagtttgc tttatgagta ttttacggtt 1560
tataacgaat tgacaaaggt caaatatgtt actgaaggaa tgcgaaaacc agcatttctt 1620
tcaggtgaac agaagaaagc cattgttgat ttactcttca aaacaaatcg aaaagtaacc 1680
gttaagcaat taaaagaaga ttatttcaaa aaaatagaat gttttgatag tgttgaaatt 1740
tcaggagttg aagatagatt taatgcttca ttaggtacct accatgattt gctaaaaatt 1800
attaaagata aagatttttt ggataatgaa gaaaatgaag atatcttaga ggatattgtt 1860
ttaacattga ccttatttga agatagggag atgattgagg aaagacttaa aacatatgct 1920
cacctctttg atgataaggt gatgaaacag cttaaacgtc gccgttatac tggttgggga 1980
cgtttgtctc gaaaattgat taatggtatt agggataagc aatctggcaa aacaatatta 2040
gattttttga aatcagatgg ttttgccaat cgcaatttta tgcagctgat ccatgatgat 2100
agtttgacat ttaaagaaga cattcaaaaa gcacaagtgt ctggacaagg cgatagttta 2160
catgaacata ttgcaaattt agctggtagc cctgctatta aaaaaggtat tttacagact 2220
gtaaaagttg ttgatgaatt ggtcaaagta atggggcggc ataagccaga aaatatcgtt 2280
attgaaatgg cacgtgaaaa tcagacaact caaaagggcc agaaaaattc gcgagagcgt 2340
atgaaacgaa tcgaagaagg tatcaaagaa ttaggaagtc agattcttaa agagcatcct 2400
gttgaaaata ctcaattgca aaatgaaaag ctctatctct attatctcca aaatggaaga 2460
gacatgtatg tggaccaaga attagatatt aatcgtttaa gtgattatga tgtcgatcac 2520
attgttccac aaagtttcct taaagacgat tcaatagaca ataaggtctt aacgcgttct 2580
gataaaaatc gtggtaaatc ggataacgtt ccaagtgaag aagtagtcaa aaagatgaaa 2640
aactattgga gacaacttct aaacgccaag ttaatcactc aacgtaagtt tgataattta 2700
acgaaagctg aacgtggagg tttgagtgaa cttgataaag ctggttttat caaacgccaa 2760
ttggttgaaa ctcgccaaat cactaagcat gtggcacaaa ttttggatag tcgcatgaat 2820
actaaatacg atgaaaatga taaacttatt cgagaggtta aagtgattac cttaaaatct 2880
aaattagttt ctgacttccg aaaagatttc caattctata aagtacgtga gattaacaat 2940
taccatcatg cccatgatgc gtatctaaat gccgtcgttg gaactgcttt gattaagaaa 3000
tatccaaaac ttgaatcgga gtttgtctat ggtgattata aagtttatga tgttcgtaaa 3060
atgattgcta agtctgagca agaaataggc aaagcaaccg caaaatattt cttttactct 3120
aatatcatga acttcttcaa aacagaaatt acacttgcaa atggagagat tcgcaaacgc 3180
cctctaatcg aaactaatgg ggaaactgga gaaattgtct gggataaagg gcgagatttt 3240
gccacagtgc gcaaagtatt gtccatgccc caagtcaata ttgtcaagaa aacagaagta 3300
cagacaggcg gattctccaa ggagtcaatt ttaccaaaaa gaaattcgga caagcttatt 3360
gctcgtaaaa aagactggga tccaaaaaaa tatggtggtt ttgatagtcc aacggtagct 3420
tattcagtcc tagtggttgc taaggtggaa aaagggaaat cgaagaagtt aaaatccgtt 3480
aaagagttac tagggatcac aattatggaa agaagttcct ttgaaaaaaa tccgattgac 3540
tttttagaag ctaaaggata taaggaagtt aaaaaagact taatcattaa actacctaaa 3600
tatagtcttt ttgagttaga aaacggtcgt aaacggatgc tggctagtgc cggagaatta 3660
caaaaaggaa atgagctggc tctgccaagc aaatatgtga attttttata tttagctagt 3720
cattatgaaa agttgaaggg tagtccagaa gataacgaac aaaaacaatt gtttgtggag 3780
cagcataagc attatttaga tgagattatt gagcaaatca gtgaattttc taagcgtgtt 3840
attttagcag atgccaattt agataaagtt cttagtgcat ataacaaaca tagagacaaa 3900
ccaatacgtg aacaagcaga aaatattatt catttattta cgttgacgaa tcttggagct 3960
cccgctgctt ttaaatattt tgatacaaca attgatcgta aacgatatac gtctacaaaa 4020
gaagttttag atgccactct tatccatcaa tccatcactg gtctttatga aacacgcatt 4080
gatttgagtc agctaggagg tgacccaaag aagaaacgca aggtcggtgg tggtggctct 4140
ggcggtggcg gttctgcaga atacgtgcgc gccctgttcg actttaacgg caacgatgag 4200
gaggatctgc cattcaagaa gggcgatatc ctccgcatcc gtgataagcc tgaggaacag 4260
tggtggaacg ccgaagactc cgaaggtaag cgcggcatga tccctgtgcc atacgtcgag 4320
aagtactccg gcgattacaa ggaccatgat ggcgattata aggatcacga catcgactat 4380
aaggacgacg acgataaatc ccgcatgacc gatgcggagt acgttcgtat ccacgaaaag 4440
ctggatatct acaccttcaa gaagcagttc tttaacaaca agaaaagcgt gagccaccgt 4500
tgctacgttc tgttcgagct gaaacgtcgt ggtgaacgtc gtgcgtgctt ttggggctat 4560
gcggtgaaca agccgcaaag cggtaccgag cgtggcatcc acgcggaaat cttcagcatt 4620
cgtaaagttg aggaatacct gcgtgacaac ccgggccagt ttaccatcaa ctggtatagc 4680
agctggagcc cgtgcgcgga ttgcgcggag aagattctgg aatggtacaa ccaagagctg 4740
cgtggtaacg gccacaccct gaagatctgg gcgtgcaaac tgtactatga aaagaacgcg 4800
cgtaaccaga ttggcctgtg gaacctgcgt gacaacggtg tgggcctgaa cgtgatggtt 4860
agcgagcact atcaatgctg ccgtaaaatc tttattcaga gcagccacaa ccaactgaac 4920
gagaaccgtt ggctggaaaa gaccctgaaa cgtgcggaga agcgtcgtag cgaactgagc 4980
atcatgattc aagtgaaaat cctgcacacc accaagagcc cggcggttag ccgtggtagc 5040
ggctaagtgc ctccccatgc gagagtaggg aactgccagg catcaaataa aacgaaaggc 5100
tcagtcgaaa gactgggcct ttcgttttat ctgttgtttg tcggtgaacg ctctcctgag 5160
taggacaaat ccgccgggag cggatttgaa cgttgcgaag caacggcccg gagggtggcg 5220
ggcaggacgc ccgccataaa ctgccaggca tcaaattaag cagaaggcca tcctgacgga 5280
tggccttttt gcgtttcttt aattaacgat gataagctgt caaacatgag aattacaact 5340
tatatcgtat ggggctgact tcaggtgcta catttgaaga gataaattgc actgaaatct 5400
agaaatattt tatctgatta ataagatgat cttcttgaga tcgttttggt ctgcgcgtaa 5460
tctcttgctc tgaaaacgaa aaaaccgcct tgcagggcgg tttttcgaag gttctctgag 5520
ctaccaactc tttgaaccga ggtaactggc ttggaggagc gcagtcacca aaacttgtcc 5580
tttcagttta gccttaaccg gcgcatgact tcaagactaa ctcctctaaa tcaattacca 5640
gtggctgctg ccagtggtgc ttttgcatgt ctttccgggt tggactcaag acgatagtta 5700
ccggataagg cgcagcggtc ggactgaacg gggggttcgt gcatacagtc cagcttggag 5760
cgaactgcct acccggaact gagtgtcagg cgtggaatga gacaaacgcg gccataacag 5820
cggaatgaca ccggtaaacc gaaaggcagg aacaggagag cgcacgaggg agccgccagg 5880
gggaaacgcc tggtatcttt atagtcctgt cgggtttcgc caccactgat ttgagcgtca 5940
gatttcgtga tgcttgtcag gggggcggag cctatggaaa aacggctttg ccgcggccct 6000
ctcacttccc tgttaagtat cttcctggca tcttccagga aatctccgcc ccgttcgtaa 6060
gccatttccg ctcgccgcag tcgaacgacc gagcgtagcg agtcagtgag cgaggaagcg 6120
gaatatatcc tgtatcacat attctgctga cgcaccggtg cagccttttt tctcctgcca 6180
catgaagcac ttcactgaca ccctcatcag tgccaacata gtaagccagt atacactccg 6240
ctagcgctga tgtccggcgg tgcttttgcc gttacgcacc accccgtcag tagctgaaca 6300
ggagggacag ctgatagaaa cagaagccac tggagcacct caaaaacacc atcatacact 6360
aaatcagtaa gttggcagca tcacccgacg cactttgcgc cgaataaata cctgtgacgg 6420
aagatcactt cgcagaataa ataaatcctg gtgtccctgt tgataccggg aagccctggg 6480
ccaacttttg gcgaaaatga gacgttgatc ggcacgtaag aggttccaac tttcaccata 6540
atgaaataag atcactaccg ggcgtatttt ttgagttatc gagattttca ggagctaagg 6600
aagctaaaat ggagaaaaaa atcactggat ataccaccgt tgatatatcc caatggcatc 6660
gtaaagaaca ttttgaggca tttcagtcag ttgctcaatg tacctataac cagaccgttc 6720
agctggatat tacggccttt ttaaagaccg taaagaaaaa taagcacaag ttttatccgg 6780
cctttattca cattcttgcc cgcctgatga atgctcatcc ggaattccgt atggcaatga 6840
aagacggtga gctggtgata tgggatagtg ttcacccttg ttacaccgtt ttccatgagc 6900
aaactgaaac gttttcatcg ctctggagtg aataccacga cgatttccgg cagtttctac 6960
acatatattc gcaagatgtg gcgtgttacg gtgaaaacct ggcctatttc cctaaagggt 7020
ttattgagaa tatgtttttc gtctcagcca atccctgggt gagtttcacc agttttgatt 7080
taaacgtggc caatatggac aacttcttcg cccccgtttt caccatgggc aaatattata 7140
cgcaaggcga caaggtgctg atgccgctgg cgattcaggt tcatcatgcc gtctgtgatg 7200
gcttccatgt cggcagaatg cttaatgaat tacaacagta ctgcgatgag tggcagggcg 7260
gggcgtaatt tttttaaggc agttattggt gcccttaaac gcctggttgc tacgcctgaa 7320
taagtgataa taagcggatg aatggcagaa attcgaaagc aaattcgacc cggtcgtcgg 7380
ttcagggcag ggtcgttaaa tagccgctta tgtctattgc tggtttaccg gtttattgac 7440
taccggaagc agtgtgaccg tgtgcttctc aaatgcctga ggccagtttg ctcaggctct 7500
cccttaatta aactagtcat atgggcatgc atttacgttg acaccatcga atggtgcaaa 7560
acctttcgcg gtatggcatg atagcgcccg gaagagagtc aattcagggt ggtgaatgtg 7620
aaaccagtaa cgttatacga tgtcgcagag tatgccggtg tctcttatca gaccgtttcc 7680
cgcgtggtga accaggccag ccacgtttct gcgaaaacgc gggaaaaagt ggaagcggcg 7740
atggcggagc tgaattacat tcccaaccgc gtggcacaac aactggcggg caaacagtcg 7800
ttgctgattg gcgttgccac ctccagtctg gccctgcacg cgccgtcgca aattgtcgcg 7860
gcgattaaat ctcgcgccga tcaactgggt gccagcgtgg tggtgtcgat ggtagaacga 7920
agcggcgtcg aagcctgtaa agcggcggtg cacaatcttc tcgcgcaacg cgtcagtggg 7980
ctgatcatta actatccgct ggatgaccag gatgccattg ctgtggaagc tgcctgcact 8040
aatgttccgg cgttatttct tgatgtctct gaccagacac ccatcaacag tattattttc 8100
tcccatgaag acggtacgcg actgggcgtg gagcatctgg tcgcattggg tcaccagcaa 8160
atcgcgctgt tagcgggccc attaagttct gtctcggcgc gtctgcgtct ggctggctgg 8220
cataaatatc tcactcgcaa tcaaattcag ccgatagcgg aacgggaagg cgactggagt 8280
gccatgtccg gttttcaaca aaccatgcaa atgctgaatg agggcatcgt tcccactgcg 8340
atgctggttg ccaacgatca gatggcgctg ggcgcaatgc gcgccattac cgagtccggg 8400
ctgcgcgttg gtgcggatat ctcggtagtg ggatacgacg ataccgaaga cagctcatgt 8460
tatatcccgc cgttaaccac catcaaacag gattttcgcc tgctggggca aaccagcgtg 8520
gaccgcttgc tgcaactctc tcagggccag gcggtgaagg gcaatcagct gttgcccgtc 8580
tcactggtga aaagaaaaac caccctggcg cccaatacgc aaaccgcctc tccccgcgcg 8640
ttggccgatt cattaatgca gctggcacga caggtttccc gactggaaag cgggcagtga 8700
gcgcaacgca attaatgtga gttagcgcga attgatctgg tttgacagct tatcatcgac 8760
tgcacggtgc accaatgctt ctggcgtcag gcagccatcg gaagctgtgg tatggctgtg 8820
caggtcgtaa atcactgcat aattcgtgtc gctcaaggcg cactcccgtt ctggataatg 8880
ttttttgcgc cgacatcata acggttctgg caaatattct gaaatgagct gttgacaatt 8940
aatcatccgg ctcgtataat gtgtggaatt gtgagcggat aacaatttca cacaggaaac 9000
agaccatgga attcaaggag atatacc 9027
<210>2
<211>2681
<212>DNA
<213>Artificial Sequence
<400>2
aaatttaatt aagtgtaggc tggagctgct tcgaagttcc tatactttct agagaatagg 60
aacttcggaa taggaacttc aagatcccct cacgctgccg caagcacgtg atcgaaatcc 120
agatccttga cccgcagttg caaaccctca ctgatccggc tcacggtaac tgatgccgta 180
tttgcagtac cagcgtacgg cccacagaat gatgtcacgc tgaaaatgcc ggcctttgaa 240
tgggttcatg tgcagctcca tcagcaaaag gggatgataa gtttatcacc accgactatt 300
tgcaacagtg ccgttgatcg tgctatgatc gactgatgtc atcagcggtg gagtgcaatg 360
tcgtgcaata cgaatggcga aaagccgagc tcatcggtca gcttctcaac cttggggtta 420
cccccggcgg tgtgctgctg gtccacagct ccttccgtag cgtccggccc ctcgaagatg 480
ggccacttgg actgatcgag gccctgcgtg ctgcgctggg tccgggaggg acgctcgtca 540
tgccctcgtg gtcaggtctg gacgacgagc cgttcgatcc tgccacgtcg cccgttacac 600
cggaccttgg agttgtctct gacacattct ggcgcctgcc aaatgtaaag cgcagcgccc 660
atccatttgc ctttgcggca gcggggccac aggcagagca gatcatctct gatccattgc 720
ccctgccacc tcactcgcct gcaagcccgg tcgcccgtgt ccatgaactc gatgggcagg 780
tacttctcct cggcgtggga cacgatgcca acacgacgct gcatcttgcc gagttgatgg 840
caaaggttcc ctatggggtg ccgagacact gcaccattct tcaggatggc aagttggtac 900
gcgtcgatta tctcgagaat gaccactgct gtgagcgctt tgccttggcg gacaggtggc 960
tcaaggagaa gagccttcag aaggaaggtc cagtcggtca tgcctttgct cggttgatcc 1020
gctcccgcga cattgtggcg acagccctgg gtcaactggg ccgagatccg ttgatcttcc 1080
tgcatccgcc agagggcggg atgcgaagaa tgcgatgccg ctcgccagtc gattggctga 1140
gctcatgagc ggagaacgag atgacgttgg aggggcaagg tcgcgctgat tgctggggca 1200
acacgtgaaa ggcgagatca ccaaggtagt cggcaaataa tgtctaacaa ttcgttcaag 1260
ccgacgccgc ttcgcggcgc ggcttaactc aagcgttaga tgcactaagc acataattgc 1320
tcacagccaa actatcaggt caagtctgct ctagcacctg aagtcagcct gtctaggttt 1380
atacataggc gagtactctg ttatggagtc agatcttagc tcccgcccgg tgcagtatga 1440
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 1500
ggcaccgagt cggtgcttag catccaaact cgagtaagga tctccaggca tcaaataaaa 1560
cgaaaggctc agtcgaaaga ctgggccttt cgttttatct gttgtttgtc ggtgaacgct 1620
ctctactaga gtcacactgg ctcaccttcg ggtgggcctt tctgcgttta tacctagggc 1680
gttcggctgc ggctctactt ttgtttgtta gtcttgatgc ttcactgata gatacaagag 1740
ccataagaac ctcagatcct tccgtattta gccagtatgt tctctagtgt ggttcgttga 1800
gcgacagatc gctgagatag gtgcctcact gattaagcat tggtaactgt cagaccaagt 1860
ttactcatat atactttaga ttgatttaaa acttcatttt taatttaaaa ggatctaggt 1920
gaagatcctt tttgataatc tcatgaccaa aatcccttaa cgtgagtttt cgttccactg 1980
agcgtcagac cccgtagaaa agatcaaagg atcttcttga gatccttttt ttctgcgcgt 2040
aatctgctgc ttgcaaacaa aaaaaccacc gctaccagcg gtggtttgtt tgccggatca 2100
agagctacca actctttttc cgaaggtaac tggcttcagc agagcgcaga taccaaatac 2160
tgtccttcta gtgtagccgt agttaggcca ccacttcaag aactctgtag caccgcctac 2220
atacctcgct ctgctaatcc tgttaccagt ggctgctgcc agtggcgata agtcgtgtct 2280
taccgggttg gactcaagac gatagttacc ggataaggcg cagcggtcgg gctgaacggg 2340
gggttcgtgc acacagccca gcttggagcg aacgacctac accgaactga gatacctaca 2400
gcgtgagcta tgagaaagcg ccacgcttcc cgaagggaga aaggcggaca ggtatccggt 2460
aagcggcagg gtcggaacag gagagcgcac gagggagctt ccagggggaa acgcctggta 2520
tctttatagt cctgtcgggt ttcgccacct ctgacttgag cgtcgatttt tgtgatgctc 2580
gtcagggggg cggagcctat ggaaaaacgc cagcaacgcg gcctttttac ggttcctggc 2640
cttttgctgg ccttttgctc acatgttctt tcctgcgatt t 2681
<210>3
<211>9762
<212>DNA
<213>Artificial Sequence
<400>3
atggctaacg aattaacctg gcatgacgtg ctggctgaag agaagcagca accctatttt 60
cttaataccc ttcagaccgt cgccagcgag cggcagtccg gcgtcactat ctacccacca 120
caaaaagatg tctttaacgc gttccgcttt acagagttgg gtgacgttaa agtggtgatt 180
ctcggccagg atccttatca cggaccggga caggcgcatg gtctggcatt ttccgttcgt 240
cccggcattg ccattcctcc gtcattattg aatatgtata aagagctgga aaatactatt 300
ccgggcttca cccgccctaa tcatggttat cttgaaagct gggcgcgtca gggcgttctg 360
ctactcaata ctgtgttgac ggtacgcgca ggtcaggcgc attcccacgc cagcctcggc 420
tgggaaacct tcaccgataa agtgatcagc ctgattaacc agcatcgcga aggcgtggtg 480
tttttgttgt ggggatcgca tgcgcaaaag aaaggggcga ttatagataa gcaacgccat 540
catgtactga aagcaccgca tccgtcgccg ctttcggcgc atcgtggatt ctttggctgc 600
aaccattttg tgctggcaaa tcagtggctg gaacaacgtg gcgagacgcc gattgactgg 660
atgccagtat taccggcaga gagtgagagc ggtagcgaaa ccccgggtac cagcgagagc 720
gcgaccccgg aaagcatgga taagaaatac tcaataggct tagctatcgg cacaaatagc 780
gtcggatggg cggtgatcac tgatgaatat aaggttccgt ctaaaaagtt caaggttctg 840
ggaaatacag accgccacag tatcaaaaaa aatcttatag gggctctttt atttgacagt 900
ggagagacag cggaagcgac tcgtctcaaa cggacagctc gtagaaggta tacacgtcgg 960
aagaatcgta tttgttatct acaggagatt ttttcaaatg agatggcgaa agtagatgat 1020
agtttctttc atcgacttga agagtctttt ttggtggaag aagacaagaa gcatgaacgt 1080
catcctattt ttggaaatat agtagatgaa gttgcttatc atgagaaata tccaactatc 1140
tatcatctgc gaaaaaaatt ggtagattct actgataaag cggatttgcg cttaatctat 1200
ttggccttag cgcatatgat taagtttcgt ggtcattttt tgattgaggg agatttaaat 1260
cctgataata gtgatgtgga caaactattt atccagttgg tacaaaccta caatcaatta 1320
tttgaagaaa accctattaa cgcaagtgga gtagatgcta aagcgattct ttctgcacga 1380
ttgagtaaat caagacgatt agaaaatctc attgctcagc tccccggtga gaagaaaaat 1440
ggcttatttg ggaatctcat tgctttgtca ttgggtttga cccctaattt taaatcaaat 1500
tttgatttgg cagaagatgc taaattacag ctttcaaaag atacttacga tgatgattta 1560
gataatttat tggcgcaaat tggagatcaa tatgctgatt tgtttttggc agctaagaat 1620
ttatcagatg ctattttact ttcagatatc ctaagagtaa atactgaaat aactaaggct 1680
cccctatcag cttcaatgat taaacgctac gatgaacatc atcaagactt gactctttta 1740
aaagctttag ttcgacaaca acttccagaa aagtataaag aaatcttttt tgatcaatca 1800
aaaaacggat atgcaggtta tattgatggg ggagctagcc aagaagaatt ttataaattt 1860
atcaaaccaa ttttagaaaa aatggatggt actgaggaat tattggtgaa actaaatcgt 1920
gaagatttgc tgcgcaagca acggaccttt gacaacggct ctattcccca tcaaattcac 1980
ttgggtgagc tgcatgctat tttgagaaga caagaagact tttatccatt tttaaaagac 2040
aatcgtgaga agattgaaaa aatcttgact tttcgaattc cttattatgt tggtccattg 2100
gcgcgtggca atagtcgttt tgcatggatg actcggaagt ctgaagaaac aattacccca 2160
tggaattttg aagaagttgt cgataaaggt gcttcagctc aatcatttat tgaacgcatg 2220
acaaactttg ataaaaatct tccaaatgaa aaagtactac caaaacatag tttgctttat 2280
gagtatttta cggtttataa cgaattgaca aaggtcaaat atgttactga aggaatgcga 2340
aaaccagcat ttctttcagg tgaacagaag aaagccattg ttgatttact cttcaaaaca 2400
aatcgaaaag taaccgttaa gcaattaaaa gaagattatt tcaaaaaaat agaatgtttt 2460
gatagtgttg aaatttcagg agttgaagat agatttaatg cttcattagg tacctaccat 2520
gatttgctaa aaattattaa agataaagat tttttggata atgaagaaaa tgaagatatc 2580
ttagaggata ttgttttaac attgacctta tttgaagata gggagatgat tgaggaaaga 2640
cttaaaacat atgctcacct ctttgatgat aaggtgatga aacagcttaa acgtcgccgt 2700
tatactggtt ggggacgttt gtctcgaaaa ttgattaatg gtattaggga taagcaatct 2760
ggcaaaacaa tattagattt tttgaaatca gatggttttg ccaatcgcaa ttttatgcag 2820
ctgatccatg atgatagttt gacatttaaa gaagacattc aaaaagcaca agtgtctgga 2880
caaggcgata gtttacatga acatattgca aatttagctg gtagccctgc tattaaaaaa 2940
ggtattttac agactgtaaa agttgttgat gaattggtca aagtaatggg gcggcataag 3000
ccagaaaata tcgttattga aatggcacgt gaaaatcaga caactcaaaa gggccagaaa 3060
aattcgcgag agcgtatgaa acgaatcgaa gaaggtatca aagaattagg aagtcagatt 3120
cttaaagagc atcctgttga aaatactcaa ttgcaaaatg aaaagctcta tctctattat 3180
ctccaaaatg gaagagacat gtatgtggac caagaattag atattaatcg tttaagtgat 3240
tatgatgtcg atcacattgt tccacaaagt ttccttaaag acgattcaat agacaataag 3300
gtcttaacgc gttctgataa aaatcgtggt aaatcggata acgttccaag tgaagaagta 3360
gtcaaaaaga tgaaaaacta ttggagacaa cttctaaacg ccaagttaat cactcaacgt 3420
aagtttgata atttaacgaa agctgaacgt ggaggtttga gtgaacttga taaagctggt 3480
tttatcaaac gccaattggt tgaaactcgc caaatcacta agcatgtggc acaaattttg 3540
gatagtcgca tgaatactaa atacgatgaa aatgataaac ttattcgaga ggttaaagtg 3600
attaccttaa aatctaaatt agtttctgac ttccgaaaag atttccaatt ctataaagta 3660
cgtgagatta acaattacca tcatgcccat gatgcgtatc taaatgccgt cgttggaact 3720
gctttgatta agaaatatcc aaaacttgaa tcggagtttg tctatggtga ttataaagtt 3780
tatgatgttc gtaaaatgat tgctaagtct gagcaagaaa taggcaaagc aaccgcaaaa 3840
tatttctttt actctaatat catgaacttc ttcaaaacag aaattacact tgcaaatgga 3900
gagattcgca aacgccctct aatcgaaact aatggggaaa ctggagaaat tgtctgggat 3960
aaagggcgag attttgccac agtgcgcaaa gtattgtcca tgccccaagt caatattgtc 4020
aagaaaacag aagtacagac aggcggattc tccaaggagt caattttacc aaaaagaaat 4080
tcggacaagc ttattgctcg taaaaaagac tgggatccaa aaaaatatgg tggttttgat 4140
agtccaacgg tagcttattc agtcctagtg gttgctaagg tggaaaaagg gaaatcgaag 4200
aagttaaaat ccgttaaaga gttactaggg atcacaatta tggaaagaag ttcctttgaa 4260
aaaaatccga ttgacttttt agaagctaaa ggatataagg aagttaaaaa agacttaatc 4320
attaaactac ctaaatatag tctttttgag ttagaaaacg gtcgtaaacg gatgctggct 4380
agtgccggag aattacaaaa aggaaatgag ctggctctgc caagcaaata tgtgaatttt 4440
ttatatttag ctagtcatta tgaaaagttg aagggtagtc cagaagataa cgaacaaaaa 4500
caattgtttg tggagcagca taagcattat ttagatgaga ttattgagca aatcagtgaa 4560
ttttctaagc gtgttatttt agcagatgcc aatttagata aagttcttag tgcatataac 4620
aaacatagag acaaaccaat acgtgaacaa gcagaaaata ttattcattt atttacgttg 4680
acgaatcttg gagctcccgc tgcttttaaa tattttgata caacaattga tcgtaaacga 4740
tatacgtcta caaaagaagt tttagatgcc actcttatcc atcaatccat cactggtctt 4800
tatgaaacac gcattgattt gagtcagcta ggaggtgacc caaagaagaa acgcaaggtc 4860
ggtggtggtg gctctggcgg tggcggttct gcagaatacg tgcgcgccct gttcgacttt 4920
aacggcaacg atgaggagga tctgccattc aagaagggcg atatcctccg catccgtgat 4980
aagcctgagg aacagtggtg gaacgccgaa gactccgaag gtaagcgcgg catgatccct 5040
gtgccatacg tcgagaagta ctccggcgat tacaaggacc atgatggcga ttataaggat 5100
cacgacatcg actataagga cgacgacgat aaatcccgca tgaccgatgc ggagtacgtt 5160
cgtatccacg aaaagctgga tatctacacc ttcaagaagc agttctttaa caacaagaaa 5220
agcgtgagcc accgttgcta cgttctgttc gagctgaaac gtcgtggtga acgtcgtgcg 5280
tgcttttggg gctatgcggt gaacaagccg caaagcggta ccgagcgtgg catccacgcg 5340
gaaatcttca gcattcgtaa agttgaggaa tacctgcgtg acaacccggg ccagtttacc 5400
atcaactggt atagcagctg gagcccgtgc gcggattgcg cggagaagat tctggaatgg 5460
tacaaccaag agctgcgtgg taacggccac accctgaaga tctgggcgtg caaactgtac 5520
tatgaaaaga acgcgcgtaa ccagattggc ctgtggaacc tgcgtgacaa cggtgtgggc 5580
ctgaacgtga tggttagcga gcactatcaa tgctgccgta aaatctttat tcagagcagc 5640
cacaaccaac tgaacgagaa ccgttggctg gaaaagaccc tgaaacgtgc ggagaagcgt 5700
cgtagcgaac tgagcatcat gattcaagtg aaaatcctgc acaccaccaa gagcccggcg 5760
gttagccgtg gtagcggcta agtgcctccc catgcgagag tagggaactg ccaggcatca 5820
aataaaacga aaggctcagt cgaaagactg ggcctttcgt tttatctgtt gtttgtcggt 5880
gaacgctctc ctgagtagga caaatccgcc gggagcggat ttgaacgttg cgaagcaacg 5940
gcccggaggg tggcgggcag gacgcccgcc ataaactgcc aggcatcaaa ttaagcagaa 6000
ggccatcctg acggatggcc tttttgcgtt tctttaatta acgatgataa gctgtcaaac 6060
atgagaatta caacttatat cgtatggggc tgacttcagg tgctacattt gaagagataa 6120
attgcactga aatctagaaa tattttatct gattaataag atgatcttct tgagatcgtt 6180
ttggtctgcg cgtaatctct tgctctgaaa acgaaaaaac cgccttgcag ggcggttttt 6240
cgaaggttct ctgagctacc aactctttga accgaggtaa ctggcttgga ggagcgcagt 6300
caccaaaact tgtcctttca gtttagcctt aaccggcgca tgacttcaag actaactcct 6360
ctaaatcaat taccagtggc tgctgccagt ggtgcttttg catgtctttc cgggttggac 6420
tcaagacgat agttaccgga taaggcgcag cggtcggact gaacgggggg ttcgtgcata 6480
cagtccagct tggagcgaac tgcctacccg gaactgagtg tcaggcgtgg aatgagacaa 6540
acgcggccat aacagcggaa tgacaccggt aaaccgaaag gcaggaacag gagagcgcac 6600
gagggagccg ccagggggaa acgcctggta tctttatagt cctgtcgggt ttcgccacca 6660
ctgatttgag cgtcagattt cgtgatgctt gtcagggggg cggagcctat ggaaaaacgg 6720
ctttgccgcg gccctctcac ttccctgtta agtatcttcc tggcatcttc caggaaatct 6780
ccgccccgtt cgtaagccat ttccgctcgc cgcagtcgaa cgaccgagcg tagcgagtca 6840
gtgagcgagg aagcggaata tatcctgtat cacatattct gctgacgcac cggtgcagcc 6900
ttttttctcc tgccacatga agcacttcac tgacaccctc atcagtgcca acatagtaag 6960
ccagtataca ctccgctagc gctgatgtcc ggcggtgctt ttgccgttac gcaccacccc 7020
gtcagtagct gaacaggagg gacagctgat agaaacagaa gccactggag cacctcaaaa 7080
acaccatcat acactaaatc agtaagttgg cagcatcacc cgacgcactt tgcgccgaat 7140
aaatacctgt gacggaagat cacttcgcag aataaataaa tcctggtgtc cctgttgata 7200
ccgggaagcc ctgggccaac ttttggcgaa aatgagacgt tgatcggcac gtaagaggtt 7260
ccaactttca ccataatgaa ataagatcac taccgggcgt attttttgag ttatcgagat 7320
tttcaggagc taaggaagct aaaatggaga aaaaaatcac tggatatacc accgttgata 7380
tatcccaatg gcatcgtaaa gaacattttg aggcatttca gtcagttgct caatgtacct 7440
ataaccagac cgttcagctg gatattacgg cctttttaaa gaccgtaaag aaaaataagc 7500
acaagtttta tccggccttt attcacattc ttgcccgcct gatgaatgct catccggaat 7560
tccgtatggc aatgaaagac ggtgagctgg tgatatggga tagtgttcac ccttgttaca 7620
ccgttttcca tgagcaaact gaaacgtttt catcgctctg gagtgaatac cacgacgatt 7680
tccggcagtt tctacacata tattcgcaag atgtggcgtg ttacggtgaa aacctggcct 7740
atttccctaa agggtttatt gagaatatgt ttttcgtctc agccaatccc tgggtgagtt 7800
tcaccagttt tgatttaaac gtggccaata tggacaactt cttcgccccc gttttcacca 7860
tgggcaaata ttatacgcaa ggcgacaagg tgctgatgcc gctggcgatt caggttcatc 7920
atgccgtctg tgatggcttc catgtcggca gaatgcttaa tgaattacaa cagtactgcg 7980
atgagtggca gggcggggcg taattttttt aaggcagtta ttggtgccct taaacgcctg 8040
gttgctacgc ctgaataagt gataataagc ggatgaatgg cagaaattcg aaagcaaatt 8100
cgacccggtc gtcggttcag ggcagggtcg ttaaatagcc gcttatgtct attgctggtt 8160
taccggttta ttgactaccg gaagcagtgt gaccgtgtgc ttctcaaatg cctgaggcca 8220
gtttgctcag gctctccctt aattaaacta gtcatatggg catgcattta cgttgacacc 8280
atcgaatggt gcaaaacctt tcgcggtatg gcatgatagc gcccggaaga gagtcaattc 8340
agggtggtga atgtgaaacc agtaacgtta tacgatgtcg cagagtatgc cggtgtctct 8400
tatcagaccg tttcccgcgt ggtgaaccag gccagccacg tttctgcgaa aacgcgggaa 8460
aaagtggaag cggcgatggc ggagctgaat tacattccca accgcgtggc acaacaactg 8520
gcgggcaaac agtcgttgct gattggcgtt gccacctcca gtctggccct gcacgcgccg 8580
tcgcaaattg tcgcggcgat taaatctcgc gccgatcaac tgggtgccag cgtggtggtg 8640
tcgatggtag aacgaagcgg cgtcgaagcc tgtaaagcgg cggtgcacaa tcttctcgcg 8700
caacgcgtca gtgggctgat cattaactat ccgctggatg accaggatgc cattgctgtg 8760
gaagctgcct gcactaatgt tccggcgtta tttcttgatg tctctgacca gacacccatc 8820
aacagtatta ttttctccca tgaagacggt acgcgactgg gcgtggagca tctggtcgca 8880
ttgggtcacc agcaaatcgc gctgttagcg ggcccattaa gttctgtctc ggcgcgtctg 8940
cgtctggctg gctggcataa atatctcact cgcaatcaaa ttcagccgat agcggaacgg 9000
gaaggcgact ggagtgccat gtccggtttt caacaaacca tgcaaatgct gaatgagggc 9060
atcgttccca ctgcgatgct ggttgccaac gatcagatgg cgctgggcgc aatgcgcgcc 9120
attaccgagt ccgggctgcg cgttggtgcg gatatctcgg tagtgggata cgacgatacc 9180
gaagacagct catgttatat cccgccgtta accaccatca aacaggattt tcgcctgctg 9240
gggcaaacca gcgtggaccg cttgctgcaa ctctctcagg gccaggcggt gaagggcaat 9300
cagctgttgc ccgtctcact ggtgaaaaga aaaaccaccc tggcgcccaa tacgcaaacc 9360
gcctctcccc gcgcgttggc cgattcatta atgcagctgg cacgacaggt ttcccgactg 9420
gaaagcgggc agtgagcgca acgcaattaa tgtgagttag cgcgaattga tctggtttga 9480
cagcttatca tcgactgcac ggtgcaccaa tgcttctggc gtcaggcagc catcggaagc 9540
tgtggtatgg ctgtgcaggt cgtaaatcac tgcataattc gtgtcgctca aggcgcactc 9600
ccgttctgga taatgttttt tgcgccgaca tcataacggt tctggcaaat attctgaaat 9660
gagctgttga caattaatca tccggctcgt ataatgtgtg gaattgtgag cggataacaa 9720
tttcacacag gaaacagacc atggaattca aggagatata cc 9762
<210>4
<211>9185
<212>DNA
<213>Artificial Sequence
<400>4
gccaagctaa ttcgagctcg gtacctgacc cggtcgtgcc cctctctaga gataatgagc 60
attgcatgtc taagttataa aaaattacca catatttttt ttgtcacact tgtttgaagt 120
gcagtttatc tatctttata catatattta aactttactc tacgaataat ataatctata 180
gtactacaat aatatcagtg ttttagagaa tcatataaat gaacagttag acatggtcta 240
aaggacaatt gcatgaagaa tctgcttagg gttaggcgtt ttgcgctgct tcgcgatgta 300
cgggccagat atacgcgttg acattgatta ttgactagtt attaatagta atcaattacg 360
gggtcattag ttcatagccc atatatggag ttccgcgtta cataacttac ggtaaatggc 420
ccgcctggct gaccgcccaa cgacccccgc ccattgacgt caataatgac gtatgttccc 480
atagtaacgc caatagggac tttccattga cgtcaatggg tggagtattt acggtaaact 540
gcccacttgg cagtacatca agtgtatcat atgccaagta cgccccctat tgacgtcaat 600
gacggtaaat ggcccgcctg gcattatgcc cagtacatga ccttatggga ctttcctact 660
tggcagtaca tctacgtatt agtcatcgct attaccatgg tgatgcggtt ttggcagtac 720
atcaatgggc gtggatagcg gtttgactca cggggatttc caagtctcca ccccattgac 780
gtcaatggga gtttgttttg gcaccaaaat caacgggact ttccaaaatg tcgtaacaac 840
tccgccccat tgacgcaaat gggcggtagg cgtgtacggt gggaggtcta tataagcaga 900
gctctctggc taactagaga acccactgct tactggctta tcgaaattaa tacgactcac 960
tatagggaga cccaagctgg ctagcgttta aacttaagct tgtcgacgga tccatgccaa 1020
agaagaagag gaaggtttca tcggagaccg gccctgttgc tgttgacccc accctgcggc 1080
ggagaatcga gccacacgag ttcgaggtgt tcttcgaccc aagggagctc cgcaaggaga 1140
cgtgcctcct gtacgagatc aactggggcg gcaggcactc catctggagg cacaccagcc 1200
aaaacaccaa caagcacgtg gaggtcaact tcatcgagaa gttcaccacc gagaggtact 1260
tctgcccaaa cacccgctgc tccatcacct ggttcctgtc ctggagccca tgcggcgagt 1320
gctccagggc catcaccgag ttcctcagcc gctacccaca cgtcaccctg ttcatctaca 1380
tcgccaggct ctaccaccac gccgacccaa ggaacaggca gggcctccgc gacctgatct 1440
ccagcggcgt gaccatccaa atcatgaccg agcaggagtc cggctactgc tggaggaact 1500
tcgtcaacta ctccccaagc aacgaggccc actggccaag gtacccacac ctctgggtgc 1560
gcctctacgt gctcgagctg tactgcatca tcctcggcct gccaccatgc ctcaacatcc 1620
tgaggcgcaa gcaaccacag ctgaccttct tcaccatcgc cctccaaagc tgccactacc 1680
agaggctccc accacacatc ctgtgggcta ccggcctcaa gtccggcagc gagacgccag 1740
gcacctccga gagcgctacg cctgaactta aggacaagaa gtactcgatc ggcctcgcca 1800
tcgggacgaa ctcagttggc tgggccgtga tcaccgacga gtacaaggtg ccctctaaga 1860
agttcaaggt cctggggaac accgaccgcc attccatcaa gaagaacctc atcggcgctc 1920
tcctgttcga cagcggggag accgctgagg ctacgaggct caagagaacc gctaggcgcc 1980
ggtacacgag aaggaagaac aggatctgct acctccaaga gattttctcc aacgagatgg 2040
ccaaggttga cgattcattc ttccaccgcc tggaggagtc tttcctcgtg gaggaggata 2100
agaagcacga gcggcatccc atcttcggca acatcgtgga cgaggttgcc taccacgaga 2160
agtaccctac gatctaccat ctgcggaaga agctcgtgga ctccaccgat aaggcggacc 2220
tcagactgat ctacctcgct ctggcccaca tgatcaagtt ccgcggccat ttcctgatcg 2280
agggggatct caacccagac aacagcgatg ttgacaagct gttcatccaa ctcgtgcaga 2340
cctacaacca actcttcgag gagaacccga tcaacgcctc tggcgtggac gcgaaggcta 2400
tcctgtccgc gaggctctcg aagtccagga ggctggagaa cctgatcgct cagctcccag 2460
gcgagaagaa gaacggcctg ttcgggaacc tcatcgctct cagcctgggg ctcaccccga 2520
acttcaagtc gaacttcgat ctcgctgagg acgccaagct gcaactctcc aaggacacct 2580
acgacgatga cctcgataac ctcctggccc agatcggcga tcaatacgcg gacctgttcc 2640
tcgctgccaa gaacctgtcg gacgccatcc tcctgtcaga tatcctccgc gtgaacaccg 2700
agatcacgaa ggctccactc tctgcctcca tgatcaagcg ctacgacgag caccatcagg 2760
atctgaccct cctgaaggcg ctggtccgcc aacagctccc ggagaagtac aaggagattt 2820
tcttcgatca gtcgaagaac ggctacgctg ggtacatcga cggcggggcc tcacaagagg 2880
agttctacaa gttcatcaag ccaatcctgg agaagatgga cggcacggag gagctcctgg 2940
tgaagctcaa cagggaggac ctcctgcgga agcagagaac cttcgataac ggcagcatcc 3000
cccaccaaat ccatctcggg gagctgcacg ccatcctgag aaggcaagag gacttctacc 3060
ctttcctcaa ggataaccgg gagaagatcg agaagatcct gaccttcaga atcccatact 3120
acgtcggccc tctcgcgcgg gggaactcaa gattcgcttg gatgacccgc aagtctgagg 3180
agaccatcac gccgtggaac ttcgaggagg tggtggacaa gggcgctagc gctcagtcgt 3240
tcatcgagag gatgaccaac ttcgacaaga acctgcccaa cgagaaggtg ctccctaagc 3300
actcgctcct gtacgagtac ttcaccgtct acaacgagct cacgaaggtg aagtacgtca 3360
ccgagggcat gcgcaagcca gcgttcctgt ccggggagca gaagaaggct atcgtggacc 3420
tcctgttcaa gaccaaccgg aaggtcacgg ttaagcaact caaggaggac tacttcaaga 3480
agatcgagtg cttcgattcg gtcgagatca gcggcgttga ggaccgcttc aacgccagcc 3540
tcgggaccta ccacgatctc ctgaagatca tcaaggataa ggacttcctg gacaacgagg 3600
agaacgagga tatcctggag gacatcgtgc tgaccctcac gctgttcgag gacagggaga 3660
tgatcgagga gcgcctgaag acgtacgccc atctcttcga tgacaaggtc atgaagcaac 3720
tcaagcgccg gagatacacc ggctggggga ggctgtcccg caagctcatc aacggcatcc 3780
gggacaagca gtccgggaag accatcctcg acttcctcaa gagcgatggc ttcgccaaca 3840
ggaacttcat gcaactgatc cacgatgaca gcctcacctt caaggaggat atccaaaagg 3900
ctcaagtgag cggccagggg gactcgctgc acgagcatat cgcgaacctc gctggctccc 3960
ccgcgatcaa gaagggcatc ctccagaccg tgaaggttgt ggacgagctc gtgaaggtca 4020
tgggccggca caagcctgag aacatcgtca tcgagatggc cagagagaac caaaccacgc 4080
agaaggggca aaagaactct agggagcgca tgaagcgcat cgaggagggc atcaaggagc 4140
tggggtccca aatcctcaag gagcacccag tggagaacac ccaactgcag aacgagaagc 4200
tctacctgta ctacctccag aacggcaggg atatgtacgt ggaccaagag ctggatatca 4260
accgcctcag cgattacgac gtcgatcata tcgttcccca gtctttcctg aaggatgact 4320
ccatcgacaa caaggtcctc accaggtcgg acaagaaccg cggcaagtca gataacgttc 4380
catctgagga ggtcgttaag aagatgaaga actactggag gcagctcctg aacgccaagc 4440
tgatcacgca aaggaagttc gacaacctca ccaaggctga gagaggcggg ctctcagagc 4500
tggacaaggc cggcttcatc aagcggcagc tggtcgagac cagacaaatc acgaagcacg 4560
ttgcgcaaat cctcgactct cggatgaaca cgaagtacga tgagaacgac aagctgatca 4620
gggaggttaa ggtgatcacc ctgaagtcta agctcgtctc cgacttcagg aaggatttcc 4680
agttctacaa ggttcgcgag atcaacaact accaccatgc ccatgacgct tacctcaacg 4740
ctgtggtcgg caccgctctg atcaagaagt acccaaagct ggagtccgag ttcgtgtacg 4800
gggactacaa ggtttacgat gtgcgcaaga tgatcgccaa gtcggagcaa gagatcggca 4860
aggctaccgc caagtacttc ttctactcaa acatcatgaa cttcttcaag accgagatca 4920
cgctggccaa cggcgagatc cggaagagac cgctcatcga gaccaacggc gagacggggg 4980
agatcgtgtg ggacaagggc agggatttcg cgaccgtccg caaggttctc tccatgcccc 5040
aggtgaacat cgtcaagaag accgaggtcc aaacgggcgg gttctcaaag gagtctatcc 5100
tgcctaagcg gaacagcgac aagctcatcg ccagaaagaa ggactgggac ccaaagaagt 5160
acggcgggtt cgacagccct accgtggcct actcggtcct ggttgtggcg aaggttgaga 5220
agggcaagtc caagaagctc aagagcgtga aggagctcct ggggatcacc atcatggaga 5280
ggtccagctt cgagaagaac ccaatcgact tcctggaggc caagggctac aaggaggtga 5340
agaaggacct gatcatcaag ctcccgaagt actctctctt cgagctggag aacggcagga 5400
agagaatgct ggcttccgct ggcgagctcc agaaggggaa cgagctcgcg ctgccaagca 5460
agtacgtgaa cttcctctac ctggcttccc actacgagaa gctcaagggc agcccggagg 5520
acaacgagca aaagcagctg ttcgtcgagc agcacaagca ttacctcgac gagatcatcg 5580
agcaaatctc cgagttcagc aagcgcgtga tcctcgccga cgcgaacctg gataaggtcc 5640
tctccgccta caacaagcac cgggacaagc ccatcagaga gcaagcggag aacatcatcc 5700
atctcttcac cctgacgaac ctcggcgctc ctgctgcttt caagtacttc gacaccacga 5760
tcgatcggaa gagatacacc tccacgaagg aggtcctgga cgcgaccctc atccaccagt 5820
cgatcaccgg cctgtacgag acgaggatcg acctctcaca actcggcggg gataagagac 5880
ccgcagcaac caagaaggca gggcaagcaa agaagaagaa gacgcgtgac tccggcggca 5940
gcaccaacct gtccgacatc atcgagaagg agacgggcaa gcaactcgtg atccaggaga 6000
gcatcctcat gctgccagag gaggtggagg aggtcatcgg caacaagcca gagtccgaca 6060
tcctggtgca caccgcctac gacgagtcca ccgacgagaa cgtcatgctc ctgaccagcg 6120
acgccccaga gtacaagcca tgggccctcg tcatccagga cagcaacggg gagaacaaga 6180
tcaagatgct gtcggggggg agcccaaaga agaagcggaa ggtgtagtgt acaagtaacc 6240
cgggaattcg gtacgctgaa atcaccagtc tctctctaca aatctatctc tctctatttt 6300
ctccataaat aatgtgtgag tagtttcccg ataagggaaa ttagggttct tatagggttt 6360
cgctcatgtg ttgagcatat aagaaaccct tagtatgtat ttgtatttgt aaaatacttc 6420
tatcaataaa atttctaatt cctaaaacca aaatccagta ctaaaatcca gatctcctaa 6480
agtccctata gatctttgtc gtgaatataa accagacacg agacgactaa acctggagcc 6540
cagacgccgt tcgaagctag aagtaccgct taggcaggag gccgttaggg aaaagatgct 6600
aaggcagggt tggttacgtt gactcccccg taggtttggt ttaaatatga tgaagtggac 6660
ggaaggaagg aggaagacaa ggaaggataa ggttgcaggc cctgtgcaag gtaagaagat 6720
ggaaatttga tagaggtacg ctactatact tatactatac gctaagggaa tgcttgtatt 6780
tataccctat accccctaat aaccccttat caatttaaga aataatccgc ataagccccc 6840
gcttaaaaat tggtatcaga gccatgaata ggtctatgac caaaactcaa gaggataaaa 6900
cctcaccaaa atacgaaaga gttcttaact ctaaagataa aagatctttc aagatcaaaa 6960
ctagttccct cacaccggtg acggggatcg catgcgatat ctcgagatct agcttggcgt 7020
aatcatggtc atagctgttt cctgtgtgaa attgttatcc gctcacaatt ccacacaaca 7080
tacgagccgg aagcataaag tgtaaagcct ggggtgccta atgagtgagc taactcacat 7140
taattgcgtt gcgctcactg cccgctttcc agtcgggaaa cctgtcgtgc cagctgcatt 7200
aatgaatcgg ccaacgcgcg gggagaggcg gtttgcgtat tgggcgctct tccgcttcct 7260
cgctcactga ctcgctgcgc tcggtcgttc ggctgcggcg agcggtatca gctcactcaa 7320
aggcggtaat acggttatcc acagaatcag gggataacgc aggaaagaac atgtgagcaa 7380
aaggccagca aaaggccagg aaccgtaaaa aggccgcgtt gctggcgttt ttccataggc 7440
tccgcccccc tgacgagcat cacaaaaatc gacgctcaag tcagaggtgg cgaaacccga 7500
caggactata aagataccag gcgtttcccc ctggaagctc cctcgtgcgc tctcctgttc 7560
cgaccctgcc gcttaccgga tacctgtccg cctttctccc ttcgggaagc gtggcgcttt 7620
ctcatagctc acgctgtagg tatctcagtt cggtgtaggt cgttcgctcc aagctgggct 7680
gtgtgcacga accccccgtt cagcccgacc gctgcgcctt atccggtaac tatcgtcttg 7740
agtccaaccc ggtaagacac gacttatcgc cactggcagc agccactggt aacaggatta 7800
gcagagcgag gtatgtaggc ggtgctacag agttcttgaa gtggtggcct aactacggct 7860
acactagaag aacagtattt ggtatctgcg ctctgctgaa gccagttacc ttcggaaaaa 7920
gagttggtag ctcttgatcc ggcaaacaaa ccaccgctgg tagcggtggt ttttttgttt 7980
gcaagcagca gattacgcgc agaaaaaaag gatctcaaga agatcctttg atcttttcta 8040
cggggtctga cgctcagtgg aacgaaaact cacgttaagg gattttggtc atgagattat 8100
caaaaaggat cttcacctag atccttttaa attaaaaatg aagttttaaa tcaatctaaa 8160
gtatatatga gtaaacttgg tctgacagtt accaatgctt aatcagtgag gcacctatct 8220
cagcgatctg tctatttcgt tcatccatag ttgcctgact ccccgtcgtg tagataacta 8280
cgatacggga gggcttacca tctggcccca gtgctgcaat gataccgcga gacccacgct 8340
caccggctcc agatttatca gcaataaacc agccagccgg aagggccgag cgcagaagtg 8400
gtcctgcaac tttatccgcc tccatccagt ctattaattg ttgccgggaa gctagagtaa 8460
gtagttcgcc agttaatagt ttgcgcaacg ttgttgccat tgctacaggc atcgtggtgt 8520
cacgctcgtc gtttggtatg gcttcattca gctccggttc ccaacgatca aggcgagtta 8580
catgatcccc catgttgtgc aaaaaagcgg ttagctcctt cggtcctccg atcgttgtca 8640
gaagtaagtt ggccgcagtg ttatcactca tggttatggc agcactgcat aattctctta 8700
ctgtcatgcc atccgtaaga tgcttttctg tgactggtga gtactcaacc aagtcattct 8760
gagaatagtg tatgcggcga ccgagttgct cttgcccggc gtcaatacgg gataataccg 8820
cgccacatag cagaacttta aaagtgctca tcattggaaa acgttcttcg gggcgaaaac 8880
tctcaaggat cttaccgctg ttgagatcca gttcgatgta acccactcgt gcacccaact 8940
gatcttcagc atcttttact ttcaccagcg tttctgggtg agcaaaaaca ggaaggcaaa 9000
atgccgcaaa aaagggaata agggcgacac ggaaatgttg aatactcata ctcttccttt 9060
ttcaatatta ttgaagcatt tatcagggtt attgtctcat gagcggatac atatttgaat 9120
gtatttagaa aaataaacaa ataggggttc cgcgcacatt tccccgaaaa gtgccacctg 9180
ccagt 9185
<210>5
<211>9599
<212>DNA
<213>Artificial Sequence
<400>5
atgtttggag agagctggaa gaagcacctc agcggggagt tcgggaaacc gtattttatc 60
aagctaatgg gatttgttgc agaagaaaga aagcattaca ctgtttatcc acccccacac 120
caagtcttca cctggaccca gatgtgtgac ataaaagatg tgaaggttgt catcctggga 180
caggatccat atcatggacc taatcaagct cacgggctct gctttagtgt tcaaaggcct 240
gttccgcctc cgcccagttt ggagaacatt tataaagagt tgtctacaga catagaggat 300
tttgttcatc ctggccatgg agatttatct gggtgggcca agcaaggtgt tctccttctc 360
aacgctgtcc tcacggttcg tgcccatcaa gccaactctc ataaggagcg aggctgggag 420
cagttcactg atgcagttgt gtcctggcta aatcagaact cgaatggcct tgttttcttg 480
ctctggggct cttatgctca gaagaagggc agtgccattg ataggaagcg gcaccatgta 540
ctacagacgg ctcatccctc ccctttgtca gtgtatagag ggttctttgg atgtagacac 600
ttttcaaaga ccaatgagct gctgcagaag tctggcaaga agcccattga ctggaaggag 660
ctgtcggggg ggagcccaaa gaagaagcgg aaggtgtagt gtacaagtaa cccgggaatt 720
cggtacgctg aaatcaccag tctctctcta caaatctatc tctctctatt ttctccataa 780
ataatgtgtg agtagtttcc cgataaggga aattagggtt cttatagggt ttcgctcatg 840
tgttgagcat ataagaaacc cttagtatgt atttgtattt gtaaaatact tctatcaata 900
aaatttctaa ttcctaaaac caaaatccag tactaaaatc cagatctcct aaagtcccta 960
tagatctttg tcgtgaatat aaaccagaca cgagacgact aaacctggag cccagacgcc 1020
gttcgaagct agaagtaccg cttaggcagg aggccgttag ggaaaagatg ctaaggcagg 1080
gttggttacg ttgactcccc cgtaggtttg gtttaaatat gatgaagtgg acggaaggaa 1140
ggaggaagac aaggaaggat aaggttgcag gccctgtgca aggtaagaag atggaaattt 1200
gatagaggta cgctactata cttatactat acgctaaggg aatgcttgta tttataccct 1260
atacccccta ataacccctt atcaatttaa gaaataatcc gcataagccc ccgcttaaaa 1320
attggtatca gagccatgaa taggtctatg accaaaactc aagaggataa aacctcacca 1380
aaatacgaaa gagttcttaa ctctaaagat aaaagatctt tcaagatcaa aactagttcc 1440
ctcacaccgg tgacggggat cgcatgcgat atctcgagat ctagcttggc gtaatcatgg 1500
tcatagctgt ttcctgtgtg aaattgttat ccgctcacaa ttccacacaa catacgagcc 1560
ggaagcataa agtgtaaagc ctggggtgcc taatgagtga gctaactcac attaattgcg 1620
ttgcgctcac tgcccgcttt ccagtcggga aacctgtcgt gccagctgca ttaatgaatc 1680
ggccaacgcg cggggagagg cggtttgcgt attgggcggc cttccgcttc ctcgctcact 1740
gactcgctgc gctcggtcgt tcggctgcgg cgagcggtat cagctcactc aaaggcggta 1800
atacggttat ccacagaatc aggggataac gcaggaaaga acatgtgagc aaaaggccag 1860
caaaaggcca ggaaccgtaa aaaggccgcg ttgctggcgt ttttccatag gctccgcccc 1920
cctgacgagc atcacaaaaa tcgacgctca agtcagaggt ggcgaaaccc gacaggacta 1980
taaagatacc aggcgtttcc ccctggaagc tccctcgtgc gctctcctgt tccgaccctg 2040
ccgcttaccg gatacctgtc cgcctttctc ccttcgggaa gcgtggcgct ttctcatagc 2100
tcacgctgta ggtatctcag ttcggtgtag gtcgttcgct ccaagctggg ctgtgtgcac 2160
gaaccccccg ttcagcccga ccgctgcgcc ttatccggta actatcgtct tgagtccaac 2220
ccggtaagac acgacttatc gccactggca gcagccactg gtaacaggat tagcagagcg 2280
aggtatgtag gcggtgctac agagttcttg aagtggtggc ctaactacgg ctacactaga 2340
agaacagtat ttggtatctg cgctctgctg aagccagtta ccttcggaaa aagagttggt 2400
agctcttgat ccggcaaaca aaccaccgct ggtagcggtg gtttttttgt ttgcaagcag 2460
cagattacgc gcagaaaaaa aggatctcaa gaagatcctt tgatcttttc tacggggtct 2520
gacgctcagt ggaacgaaaa ctcacgttaa gggattttgg tcatgagatt atcaaaaagg 2580
atcttcacct agatcctttt aaattaaaaa tgaagtttta aatcaatcta aagtatatat 2640
gagtaaactt ggtctgacag ttaccaatgc ttaatcagtg aggcacctat ctcagcgatc 2700
tgtctatttc gttcatccat agttgcctga ctccccgtcg tgtagataac tacgatacgg 2760
gagggcttac catctggccc cagtgctgca atgataccgc gagacccacg ctcaccggct 2820
ccagatttat cagcaataaa ccagccagcc ggaagggccg agcgcagaag tggtcctgca 2880
actttatccg cctccatcca gtctattaat tgttgccggg aagctagagt aagtagttcg 2940
ccagttaata gtttgcgcaa cgttgttgcc attgctacag gcatcgtggt gtcacgctcg 3000
tcgtttggta tggcttcatt cagctccggt tcccaacgat caaggcgagt tacatgatcc 3060
cccatgttgt gcaaaaaagc ggttagctcc ttcggtcctc cgatcgttgt cagaagtaag 3120
ttggccgcag tgttatcact catggttatg gcagcactgc ataattctct tactgtcatg 3180
ccatccgtaa gatgcttttc tgtgactggt gagtactcaa ccaagtcatt ctgagaatag 3240
tgtatgcggc gaccgagttg ctcttgcccg gcgtcaatac gggataatac cgcgccacat 3300
agcagaactt taaaagtgct catcattgga aaacgttctt cggggcgaaa actctcaagg 3360
atcttaccgc tgttgagatc cagttcgatg taacccactc gtgcacccaa ctgatcttca 3420
gcatctttta ctttcaccag cgtttctggg tgagcaaaaa caggaaggca aaatgccgca 3480
aaaaagggaa taagggcgac acggaaatgt tgaatactca tactcttcct ttttcaatat 3540
tattgaagca tttatcaggg ttattgtctc atgagcggat acatatttga atgtatttag 3600
aaaaataaac aaataggggt tccgcgcaca tttccccgaa aagtgccacc tgccagtgcc 3660
aagctaattc gagctcggta cctgacccgg tcgtgcccct ctctagagat aatgagcatt 3720
gcatgtctaa gttataaaaa attaccacat attttttttg tcacacttgt ttgaagtgca 3780
gtttatctat ctttatacat atatttaaac tttactctac gaataatata atctatagta 3840
ctacaataat atcagtgttt tagagaatca tataaatgaa cagttagaca tggtctaaag 3900
gacaattgca tgaagaatct gcttagggtt aggcgttttg cgctgcttcg cgatgtacgg 3960
gccagatata cgcgttgaca ttgattattg actagttatt aatagtaatc aattacgggg 4020
tcattagttc atagcccata tatggagttc cgcgttacat aacttacggt aaatggcccg 4080
cctggctgac cgcccaacga cccccgccca ttgacgtcaa taatgacgta tgttcccata 4140
gtaacgccaa tagggacttt ccattgacgt caatgggtgg agtatttacg gtaaactgcc 4200
cacttggcag tacatcaagt gtatcatatg ccaagtacgc cccctattga cgtcaatgac 4260
ggtaaatggc ccgcctggca ttatgcccag tacatgacct tatgggactt tcctacttgg 4320
cagtacatct acgtattagt catcgctatt accatggtga tgcggttttg gcagtacatc 4380
aatgggcgtg gatagcggtt tgactcacgg ggatttccaa gtctccaccc cattgacgtc 4440
aatgggagtt tgttttggca ccaaaatcaa cgggactttc caaaatgtcg taacaactcc 4500
gccccattga cgcaaatggg cggtaggcgt gtacggtggg aggtctatat aagcagagct 4560
ctctggctaa ctagagaacc cactgcttac tggcttatcg aaattaatac gactcactat 4620
agggagaccc aagctggcta gcgtttaaac ttaagcttgt cgacggatcc atgccaaaga 4680
agaagaggaa ggtttcatcg gagaccggcc ctgttgctgt tgaccccacc ctgcggcgga 4740
gaatcgagcc acacgagttc gaggtgttct tcgacccaag ggagctccgc aaggagacgt 4800
gcctcctgta cgagatcaac tggggcggca ggcactccat ctggaggcac accagccaaa 4860
acaccaacaa gcacgtggag gtcaacttca tcgagaagtt caccaccgag aggtacttct 4920
gcccaaacac ccgctgctcc atcacctggt tcctgtcctg gagcccatgc ggcgagtgct 4980
ccagggccat caccgagttc ctcagccgct acccacacgt caccctgttc atctacatcg 5040
ccaggctcta ccaccacgcc gacccaagga acaggcaggg cctccgcgac ctgatctcca 5100
gcggcgtgac catccaaatc atgaccgagc aggagtccgg ctactgctgg aggaacttcg 5160
tcaactactc cccaagcaac gaggcccact ggccaaggta cccacacctc tgggtgcgcc 5220
tctacgtgct cgagctgtac tgcatcatcc tcggcctgcc accatgcctc aacatcctga 5280
ggcgcaagca accacagctg accttcttca ccatcgccct ccaaagctgc cactaccaga 5340
ggctcccacc acacatcctg tgggctaccg gcctcaagtc cggcagcgag acgccaggca 5400
cctccgagag cgctacgcct gaacttaagg acaagaagta ctcgatcggc ctcgccatcg 5460
ggacgaactc agttggctgg gccgtgatca ccgacgagta caaggtgccc tctaagaagt 5520
tcaaggtcct ggggaacacc gaccgccatt ccatcaagaa gaacctcatc ggcgctctcc 5580
tgttcgacag cggggagacc gctgaggcta cgaggctcaa gagaaccgct aggcgccggt 5640
acacgagaag gaagaacagg atctgctacc tccaagagat tttctccaac gagatggcca 5700
aggttgacga ttcattcttc caccgcctgg aggagtcttt cctcgtggag gaggataaga 5760
agcacgagcg gcatcccatc ttcggcaaca tcgtggacga ggttgcctac cacgagaagt 5820
accctacgat ctaccatctg cggaagaagc tcgtggactc caccgataag gcggacctca 5880
gactgatcta cctcgctctg gcccacatga tcaagttccg cggccatttc ctgatcgagg 5940
gggatctcaa cccagacaac agcgatgttg acaagctgtt catccaactc gtgcagacct 6000
acaaccaact cttcgaggag aacccgatca acgcctctgg cgtggacgcg aaggctatcc 6060
tgtccgcgag gctctcgaag tccaggaggc tggagaacct gatcgctcag ctcccaggcg 6120
agaagaagaa cggcctgttc gggaacctca tcgctctcag cctggggctc accccgaact 6180
tcaagtcgaa cttcgatctc gctgaggacg ccaagctgca actctccaag gacacctacg 6240
acgatgacct cgataacctc ctggcccaga tcggcgatca atacgcggac ctgttcctcg 6300
ctgccaagaa cctgtcggac gccatcctcc tgtcagatat cctccgcgtg aacaccgaga 6360
tcacgaaggc tccactctct gcctccatga tcaagcgcta cgacgagcac catcaggatc 6420
tgaccctcct gaaggcgctg gtccgccaac agctcccgga gaagtacaag gagattttct 6480
tcgatcagtc gaagaacggc tacgctgggt acatcgacgg cggggcctca caagaggagt 6540
tctacaagtt catcaagcca atcctggaga agatggacgg cacggaggag ctcctggtga 6600
agctcaacag ggaggacctc ctgcggaagc agagaacctt cgataacggc agcatccccc 6660
accaaatcca tctcggggag ctgcacgcca tcctgagaag gcaagaggac ttctaccctt 6720
tcctcaagga taaccgggag aagatcgaga agatcctgac cttcagaatc ccatactacg 6780
tcggccctct cgcgcggggg aactcaagat tcgcttggat gacccgcaag tctgaggaga 6840
ccatcacgcc gtggaacttc gaggaggtgg tggacaaggg cgctagcgct cagtcgttca 6900
tcgagaggat gaccaacttc gacaagaacc tgcccaacga gaaggtgctc cctaagcact 6960
cgctcctgta cgagtacttc accgtctaca acgagctcac gaaggtgaag tacgtcaccg 7020
agggcatgcg caagccagcg ttcctgtccg gggagcagaa gaaggctatc gtggacctcc 7080
tgttcaagac caaccggaag gtcacggtta agcaactcaa ggaggactac ttcaagaaga 7140
tcgagtgctt cgattcggtc gagatcagcg gcgttgagga ccgcttcaac gccagcctcg 7200
ggacctacca cgatctcctg aagatcatca aggataagga cttcctggac aacgaggaga 7260
acgaggatat cctggaggac atcgtgctga ccctcacgct gttcgaggac agggagatga 7320
tcgaggagcg cctgaagacg tacgcccatc tcttcgatga caaggtcatg aagcaactca 7380
agcgccggag atacaccggc tgggggaggc tgtcccgcaa gctcatcaac ggcatccggg 7440
acaagcagtc cgggaagacc atcctcgact tcctcaagag cgatggcttc gccaacagga 7500
acttcatgca actgatccac gatgacagcc tcaccttcaa ggaggatatc caaaaggctc 7560
aagtgagcgg ccagggggac tcgctgcacg agcatatcgc gaacctcgct ggctcccccg 7620
cgatcaagaa gggcatcctc cagaccgtga aggttgtgga cgagctcgtg aaggtcatgg 7680
gccggcacaa gcctgagaac atcgtcatcg agatggccag agagaaccaa accacgcaga 7740
aggggcaaaa gaactctagg gagcgcatga agcgcatcga ggagggcatc aaggagctgg 7800
ggtcccaaat cctcaaggag cacccagtgg agaacaccca actgcagaac gagaagctct 7860
acctgtacta cctccagaac ggcagggata tgtacgtgga ccaagagctg gatatcaacc 7920
gcctcagcga ttacgacgtc gatcatatcg ttccccagtc tttcctgaag gatgactcca 7980
tcgacaacaa ggtcctcacc aggtcggaca agaaccgcgg caagtcagat aacgttccat 8040
ctgaggaggt cgttaagaag atgaagaact actggaggca gctcctgaac gccaagctga 8100
tcacgcaaag gaagttcgac aacctcacca aggctgagag aggcgggctc tcagagctgg 8160
acaaggccgg cttcatcaag cggcagctgg tcgagaccag acaaatcacg aagcacgttg 8220
cgcaaatcct cgactctcgg atgaacacga agtacgatga gaacgacaag ctgatcaggg 8280
aggttaaggt gatcaccctg aagtctaagc tcgtctccga cttcaggaag gatttccagt 8340
tctacaaggt tcgcgagatc aacaactacc accatgccca tgacgcttac ctcaacgctg 8400
tggtcggcac cgctctgatc aagaagtacc caaagctgga gtccgagttc gtgtacgggg 8460
actacaaggt ttacgatgtg cgcaagatga tcgccaagtc ggagcaagag atcggcaagg 8520
ctaccgccaa gtacttcttc tactcaaaca tcatgaactt cttcaagacc gagatcacgc 8580
tggccaacgg cgagatccgg aagagaccgc tcatcgagac caacggcgag acgggggaga 8640
tcgtgtggga caagggcagg gatttcgcga ccgtccgcaa ggttctctcc atgccccagg 8700
tgaacatcgt caagaagacc gaggtccaaa cgggcgggtt ctcaaaggag tctatcctgc 8760
ctaagcggaa cagcgacaag ctcatcgcca gaaagaagga ctgggaccca aagaagtacg 8820
gcgggttcga cagccctacc gtggcctact cggtcctggt tgtggcgaag gttgagaagg 8880
gcaagtccaa gaagctcaag agcgtgaagg agctcctggg gatcaccatc atggagaggt 8940
ccagcttcga gaagaaccca atcgacttcc tggaggccaa gggctacaag gaggtgaaga 9000
aggacctgat catcaagctc ccgaagtact ctctcttcga gctggagaac ggcaggaaga 9060
gaatgctggc ttccgctggc gagctccaga aggggaacga gctcgcgctg ccaagcaagt 9120
acgtgaactt cctctacctg gcttcccact acgagaagct caagggcagc ccggaggaca 9180
acgagcaaaa gcagctgttc gtcgagcagc acaagcatta cctcgacgag atcatcgagc 9240
aaatctccga gttcagcaag cgcgtgatcc tcgccgacgc gaacctggat aaggtcctct 9300
ccgcctacaa caagcaccgg gacaagccca tcagagagca agcggagaac atcatccatc 9360
tcttcaccct gacgaacctc ggcgctcctg ctgctttcaa gtacttcgac accacgatcg 9420
atcggaagag atacacctcc acgaaggagg tcctggacgc gaccctcatc caccagtcga 9480
tcaccggcct gtacgagacg aggatcgacc tctcacaact cggcggggat aagagacccg 9540
cagcaaccaa gaaggcaggg caagcaaaga agaagaagac gcgtgactcc ggcggcagc 9599
<210>6
<211>4950
<212>DNA
<213>Artificial Sequence
<400>6
ggtaccgatt agtgaacgga tctcgacggt atcgatcacg agactagcct cgagcggccg 60
cccccttcac cgagggccta tttcccatga ttccttcata tttgcatata cgatacaagg 120
ctgttagaga gataattgga attaatttga ctgtaaacac aaagatatta gtacaaaata 180
cgtgacgtag aaagtaataa tttcttgggt agtttgcagt tttaaaatta tgttttaaaa 240
tggactatca tatgcttacc gtaacttgaa agtatttcga tttcttggct ttatatatct 300
tgtggaaagg acgaaacacc ggtcatctta gtcattacct ggttttagag ctagaaatag 360
caagttaaaa taaggctagt ccgttatcaa cttgaaaaag tggcaccgag tcggtgcttt 420
ttttaaagaa ttctcgacct cgagacaaat ggcagtattc atccacaatt ttaaaagaaa 480
aggggggatt ggggggtaca gtgcagggga aagaatagta gacataatag caacagacat 540
acaaactaaa gaattacaaa aacaaattac aaaaattcaa aattttcggg tttattacag 600
ggacagcaga gatccacttt ggccgcggct cgagggggtt ggggttgcgc cttttccaag 660
gcagccctgg gtttgcgcag ggacgcggct gctctgggcg tggttccggg aaacgcagcg 720
gcgccgaccc tgggactcgc acattcttca cgtccgttcg cagcgtcacc cggatcttcg 780
ccgctaccct tgtgggcccc ccggcgacgc ttcctgctcc gcccctaagt cgggaaggtt 840
ccttgcggtt cgcggcgtgc cggacgtgac aaacggaagc cgcacgtctc actagtaccc 900
tcgcagacgg acagcgccag ggagcaatgg cagcgcgccg accgcgatgg gctgtggcca 960
atagcggctg ctcagcaggg cgcgccgaga gcagcggccg ggaaggggcg gtgcgggagg 1020
cggggtgtgg ggcggtagtg tgggccctgt tcctgcccgc gcggtgttcc gcattctgca 1080
agcctccgga gcgcacgtcg gcagtcggct ccctcgttga ccgaatcacc gacctctctc 1140
cccaggggga tccaccggag cttaccatga ccgagtacaa gcccacggtg cgcctcgcca 1200
cccgcgacga cgtccccagg gccgtacgca ccctcgccgc cgcgttcgcc gactaccccg 1260
ccacgcgcca caccgtcgat ccggaccgcc acatcgagcg ggtcaccgag ctgcaagaac 1320
tcttcctcac gcgcgtcggg ctcgacatcg gcaaggtgtg ggtcgcggac gacggcgccg 1380
cggtggcggt ctggaccacg ccggagagcg tcgaagcggg ggcggtgttc gccgagatcg 1440
gcccgcgcat ggccgagttg agcggttccc ggctggccgc gcagcaacag atggaaggcc 1500
tcctggcgcc gcaccggccc aaggagcccg cgtggttcct ggccaccgtc ggcgtctcgc 1560
ccgaccacca gggcaagggt ctgggcagcg ccgtcgtgct ccccggagtg gaggcggccg 1620
agcgcgccgg ggtgcccgcc ttcctggaaa cctccgcgcc ccgcaacctc cccttctacg 1680
agcggctcgg cttcaccgtc accgccgacg tcgaggtgcc cgaaggaccg cgcacctggt 1740
gcatgacccg caagcccggt gcctgacgcc cgccccacga cccgcagcgc ccgaccgaaa 1800
ggagcgcacg accccatgca tcggtacctt taagaccaat gacttacaag gcagctgtag 1860
atcttagcca ctttctagag tcggggcggc cggccgcttc gagcagacat gataagatac 1920
attgatgagt ttggacaaac cacaactaga atgcagtgaa aaaaatgctt tatttgtgaa 1980
atttgtgatg ctattgcttt atttgtaacc attataagct gcaataaaca agttaacaac 2040
aacaattgca ttcattttat gtttcaggtt cagggggagg tgtgggaggt tttttaaagc 2100
aagtaaaacc tctacaaatg tggtaaaatc gataaggatc cgtcgaccga tgcccttgag 2160
agccttcaac ccagtcagct ccttccggtg ggcgcggggc atgactatcg tcgccgcact 2220
tatgactgtc ttctttatca tgcaactcgt aggacaggtg ccggcagcgc tcttccgctt 2280
cctcgctcac tgactcgctg cgctcggtcg ttcggctgcg gcgagcggta tcagctcact 2340
caaaggcggt aatacggtta tccacagaat caggggataa cgcaggaaag aacatgtgag 2400
caaaaggcca gcaaaaggcc aggaaccgta aaaaggccgc gttgctggcg tttttccata 2460
ggctccgccc ccctgacgag catcacaaaa atcgacgctc aagtcagagg tggcgaaacc 2520
cgacaggact ataaagatac caggcgtttc cccctggaag ctccctcgtg cgctctcctg 2580
ttccgaccct gccgcttacc ggatacctgt ccgcctttct cccttcggga agcgtggcgc 2640
tttctcaatg ctcacgctgt aggtatctca gttcggtgta ggtcgttcgc tccaagctgg 2700
gctgtgtgca cgaacccccc gttcagcccg accgctgcgc cttatccggt aactatcgtc 2760
ttgagtccaa cccggtaaga cacgacttat cgccactggc agcagccact ggtaacagga 2820
ttagcagagc gaggtatgta ggcggtgcta cagagttctt gaagtggtgg cctaactacg 2880
gctacactag aaggacagta tttggtatct gcgctctgct gaagccagtt accttcggaa 2940
aaagagttgg tagctcttga tccggcaaac aaaccaccgc tggtagcggt ggtttttttg 3000
tttgcaagca gcagattacg cgcagaaaaa aaggatctca agaagatcct ttgatctttt 3060
ctacggggtc tgacgctcag tggaacgaaa actcacgtta agggattttg gtcatgagat 3120
tatcaaaaag gatcttcacc tagatccttt taaattaaaa atgaagtttt aaatcaatct 3180
aaagtatata tgagtaaact tggtctgaca gttaccaatg cttaatcagt gaggcaccta 3240
tctcagcgat ctgtctattt cgttcatcca tagttgcctg actccccgtc gtgtagataa 3300
ctacgatacg ggagggctta ccatctggcc ccagtgctgc aatgataccg cgggacccac 3360
gctcaccggc tccagattta tcagcaataa accagccagc cggaagggcc gagcgcagaa 3420
gtggtcctgc aactttatcc gcctccatcc agtctattaa ttgttgccgg gaagctagag 3480
taagtagttc gccagttaat agtttgcgca acgttgttgc cattgctaca ggcatcgtgg 3540
tgtcacgctc gtcgtttggt atggcttcat tcagctccgg ttcccaacga tcaaggcgag 3600
ttacatgatc ccccatgttg tgcaaaaaag cggttagctc cttcggtcct ccgatcgttg 3660
tcagaagtaa gttggccgca gtgttatcac tcatggttat ggcagcactg cataattctc 3720
ttactgtcat gccatccgta agatgctttt ctgtgactgg tgagtactca accaagtcat 3780
tctgagaata gtgtatgcgg cgaccgagtt gctcttgccc ggcgtcaata cgggataata 3840
ccgcgccaca tagcagaact ttaaaagtgc tcatcattgg aaaacgttct tcggggcgaa 3900
aactctcaag gatcttaccg ctgttgagat ccagttcgat gtaacccact cgtgcaccca 3960
actgatcttc agcatctttt actttcacca gcgtttctgg gtgagcaaaa acaggaaggc 4020
aaaatgccgc aaaaaaggga ataagggcga cacggaaatg ttgaatactc atactcttcc 4080
tttttcaata ttattgaagc atttatcagg gttattgtct catgagcgga tacatatttg 4140
aatgtattta gaaaaataaa caaatagggg ttccgcgcac atttccccga aaagtgccac 4200
ctgacgcgcc ctgtagcggc gcattaagcg cggcgggtgt ggtggttacg cgcagcgtga 4260
ccgctacact tgccagcgcc ctagcgcccg ctcctttcgc tttcttccct tcctttctcg 4320
ccacgttcgc cggctttccc cgtcaagctc taaatcgggg gctcccttta gggttccgat 4380
ttagtgcttt acggcacctc gaccccaaaa aacttgatta gggtgatggt tcacgtagtg 4440
ggccatcgcc ctgatagacg gtttttcgcc ctttgacgtt ggagtccacg ttctttaata 4500
gtggactctt gttccaaact ggaacaacac tcaaccctat ctcggtctat tcttttgatt 4560
tataagggat tttgccgatt tcggcctatt ggttaaaaaa tgagctgatt taacaaaaat 4620
ttaacgcgaa ttttaacaaa atattaacgt ttacaatttc ccattcgcca ttcaggctgc 4680
gcaactgttg ggaagggcga tcggtgcggg cctcttcgct attacgccag cccaagctac 4740
catgataagt aagtaatatt aaggtacggg aggtacttgg agcggccgca ataaaatatc 4800
tttattttca ttacatctgt gtgttggttt tttgtgtgaa tcgatagtac taacatacgc 4860
tctccatcaa aacaaaacga aacaaaacaa actagcaaaa taggctgtcc ccagtgcaag 4920
tgcaggtgcc agaacatttc tctatcgata 4950
<210>7
<211>8731
<212>DNA
<213>Artificial Sequence
<400>7
gtgcctcccc atgcgagagt agggaactgc caggcatcaa ataaaacgaa aggctcagtc 60
gaaagactgg gcctttcgtt ttatctgttg tttgtcggtg aacgctctcc tgagtaggac 120
aaatccgccg ggagcggatt tgaacgttgc gaagcaacgg cccggagggt ggcgggcagg 180
acgcccgcca taaactgcca ggcatcaaat taagcagaag gccatcctga cggatggcct 240
ttttgcgttt ctttaattaa cgatgataag ctgtcaaaca tgagaattac aacttatatc 300
gtatggggct gacttcaggt gctacatttg aagagataaa ttgcactgaa atctagaaat 360
attttatctg attaataaga tgatcttctt gagatcgttt tggtctgcgc gtaatctctt 420
gctctgaaaa cgaaaaaacc gccttgcagg gcggtttttc gaaggttctc tgagctacca 480
actctttgaa ccgaggtaac tggcttggag gagcgcagtc accaaaactt gtcctttcag 540
tttagcctta accggcgcat gacttcaaga ctaactcctc taaatcaatt accagtggct 600
gctgccagtg gtgcttttgc atgtctttcc gggttggact caagacgata gttaccggat 660
aaggcgcagc ggtcggactg aacggggggt tcgtgcatac agtccagctt ggagcgaact 720
gcctacccgg aactgagtgt caggcgtgga atgagacaaa cgcggccata acagcggaat 780
gacaccggta aaccgaaagg caggaacagg agagcgcacg agggagccgc cagggggaaa 840
cgcctggtat ctttatagtc ctgtcgggtt tcgccaccac tgatttgagc gtcagatttc 900
gtgatgcttg tcaggggggc ggagcctatg gaaaaacggc tttgccgcgg ccctctcact 960
tccctgttaa gtatcttcct ggcatcttcc aggaaatctc cgccccgttc gtaagccatt 1020
tccgctcgcc gcagtcgaac gaccgagcgt agcgagtcag tgagcgagga agcggaatat 1080
atcctgtatc acatattctg ctgacgcacc ggtgcagcct tttttctcct gccacatgaa 1140
gcacttcact gacaccctca tcagtgccaa catagtaagc cagtatacac tccgctagcg 1200
ctgatgtccg gcggtgcttt tgccgttacg caccaccccg tcagtagctg aacaggaggg 1260
acagctgata gaaacagaag ccactggagc acctcaaaaa caccatcata cactaaatca 1320
gtaagttggc agcatcaccc gacgcacttt gcgccgaata aatacctgtg acggaagatc 1380
acttcgcaga ataaataaat cctggtgtcc ctgttgatac cgggaagccc tgggccaact 1440
tttggcgaaa atgagacgtt gatcggcacg taagaggttc caactttcac cataatgaaa 1500
taagatcact accgggcgta ttttttgagt tatcgagatt ttcaggagct aaggaagcta 1560
aaatggagaa aaaaatcact ggatatacca ccgttgatat atcccaatgg catcgtaaag 1620
aacattttga ggcatttcag tcagttgctc aatgtaccta taaccagacc gttcagctgg 1680
atattacggc ctttttaaag accgtaaaga aaaataagca caagttttat ccggccttta 1740
ttcacattct tgcccgcctg atgaatgctc atccggaatt ccgtatggca atgaaagacg 1800
gtgagctggt gatatgggat agtgttcacc cttgttacac cgttttccat gagcaaactg 1860
aaacgttttc atcgctctgg agtgaatacc acgacgattt ccggcagttt ctacacatat 1920
attcgcaaga tgtggcgtgt tacggtgaaa acctggccta tttccctaaa gggtttattg 1980
agaatatgtt tttcgtctca gccaatccct gggtgagttt caccagtttt gatttaaacg 2040
tggccaatat ggacaacttc ttcgcccccg ttttcaccat gggcaaatat tatacgcaag 2100
gcgacaaggt gctgatgccg ctggcgattc aggttcatca tgccgtctgt gatggcttcc 2160
atgtcggcag aatgcttaat gaattacaac agtactgcga tgagtggcag ggcggggcgt 2220
aattttttta aggcagttat tggtgccctt aaacgcctgg ttgctacgcc tgaataagtg 2280
ataataagcg gatgaatggc agaaattcga aagcaaattc gacccggtcg tcggttcagg 2340
gcagggtcgt taaatagccg cttatgtcta ttgctggttt accggtttat tgactaccgg 2400
aagcagtgtg accgtgtgct tctcaaatgc ctgaggccag tttgctcagg ctctccctta 2460
attaaactag tcatatgggc atgcatttac gttgacacca tcgaatggtg caaaaccttt 2520
cgcggtatgg catgatagcg cccggaagag agtcaattca gggtggtgaa tgtgaaacca 2580
gtaacgttat acgatgtcgc agagtatgcc ggtgtctctt atcagaccgt ttcccgcgtg 2640
gtgaaccagg ccagccacgt ttctgcgaaa acgcgggaaa aagtggaagc ggcgatggcg 2700
gagctgaatt acattcccaa ccgcgtggca caacaactgg cgggcaaaca gtcgttgctg 2760
attggcgttg ccacctccag tctggccctg cacgcgccgt cgcaaattgt cgcggcgatt 2820
aaatctcgcg ccgatcaact gggtgccagc gtggtggtgt cgatggtaga acgaagcggc 2880
gtcgaagcct gtaaagcggc ggtgcacaat cttctcgcgc aacgcgtcag tgggctgatc 2940
attaactatc cgctggatga ccaggatgcc attgctgtgg aagctgcctg cactaatgtt 3000
ccggcgttat ttcttgatgt ctctgaccag acacccatca acagtattat tttctcccat 3060
gaagacggta cgcgactggg cgtggagcat ctggtcgcat tgggtcacca gcaaatcgcg 3120
ctgttagcgg gcccattaag ttctgtctcg gcgcgtctgc gtctggctgg ctggcataaa 3180
tatctcactc gcaatcaaat tcagccgata gcggaacggg aaggcgactg gagtgccatg 3240
tccggttttc aacaaaccat gcaaatgctg aatgagggca tcgttcccac tgcgatgctg 3300
gttgccaacg atcagatggc gctgggcgca atgcgcgcca ttaccgagtc cgggctgcgc 3360
gttggtgcgg atatctcggt agtgggatac gacgataccg aagacagctc atgttatatc 3420
ccgccgttaa ccaccatcaa acaggatttt cgcctgctgg ggcaaaccag cgtggaccgc 3480
ttgctgcaac tctctcaggg ccaggcggtg aagggcaatc agctgttgcc cgtctcactg 3540
gtgaaaagaa aaaccaccct ggcgcccaat acgcaaaccg cctctccccg cgcgttggcc 3600
gattcattaa tgcagctggc acgacaggtt tcccgactgg aaagcgggca gtgagcgcaa 3660
cgcaattaat gtgagttagc gcgaattgat ctggtttgac agcttatcat cgactgcacg 3720
gtgcaccaat gcttctggcg tcaggcagcc atcggaagct gtggtatggc tgtgcaggtc 3780
gtaaatcact gcataattcg tgtcgctcaa ggcgcactcc cgttctggat aatgtttttt 3840
gcgccgacat cataacggtt ctggcaaata ttctgaaatg agctgttgac aattaatcat 3900
ccggctcgta taatgtgtgg aattgtgagc ggataacaat ttcacacagg aaacagacca 3960
tggaattcaa ggagatatac catgagcgag gtggaattca gccacgagta ctggatgcgt 4020
cacgcgctga ccctggcgaa acgtgcgcgt gacgagcgtg aagtgccggt tggtgcggtg 4080
ctggttctga acaaccgtgt gatcggcgag ggctggaacc gtgcgattgg cctgcatgac 4140
ccgaccgcgc atgcggaaat catggcgctg cgtcagggtg gcctggttat gcaaaactac 4200
cgtctgattg atgcgaccct gtatgtgacc ttcgaaccgt gcgttatgtg cgcgggtgcg 4260
atgatccaca gccgtattgg tcgtgtggtt tttggcgttc gtaacgcgaa aaccggtgcg 4320
gcgggcagcc tgatggatgt gctgcactac ccgggtatga accaccgtgt tgagatcacc 4380
gaaggcattc tggcggatga gtgcgcggcg ctgctgtgct atttctttcg tatgccgcgt 4440
caggtgttca acgcgcagaa gaaagcgcaa agcagcaccg atagcggtag cgaaaccccg 4500
ggtaccagcg agagcgcgac cccggaaagc atggataaga aatactcaat aggcttagct 4560
atcggcacaa atagcgtcgg atgggcggtg atcactgatg aatataaggt tccgtctaaa 4620
aagttcaagg ttctgggaaa tacagaccgc cacagtatca aaaaaaatct tataggggct 4680
cttttatttg acagtggaga gacagcggaa gcgactcgtc tcaaacggac agctcgtaga 4740
aggtatacac gtcggaagaa tcgtatttgt tatctacagg agattttttc aaatgagatg 4800
gcgaaagtag atgatagttt ctttcatcga cttgaagagt cttttttggt ggaagaagac 4860
aagaagcatg aacgtcatcc tatttttgga aatatagtag atgaagttgc ttatcatgag 4920
aaatatccaa ctatctatca tctgcgaaaa aaattggtag attctactga taaagcggat 4980
ttgcgcttaa tctatttggc cttagcgcat atgattaagt ttcgtggtca ttttttgatt 5040
gagggagatt taaatcctga taatagtgat gtggacaaac tatttatcca gttggtacaa 5100
acctacaatc aattatttga agaaaaccct attaacgcaa gtggagtaga tgctaaagcg 5160
attctttctg cacgattgag taaatcaaga cgattagaaa atctcattgc tcagctcccc 5220
ggtgagaaga aaaatggctt atttgggaat ctcattgctt tgtcattggg tttgacccct 5280
aattttaaat caaattttga tttggcagaa gatgctaaat tacagctttc aaaagatact 5340
tacgatgatg atttagataa tttattggcg caaattggag atcaatatgc tgatttgttt 5400
ttggcagcta agaatttatc agatgctatt ttactttcag atatcctaag agtaaatact 5460
gaaataacta aggctcccct atcagcttca atgattaaac gctacgatga acatcatcaa 5520
gacttgactc ttttaaaagc tttagttcga caacaacttc cagaaaagta taaagaaatc 5580
ttttttgatc aatcaaaaaa cggatatgca ggttatattg atgggggagc tagccaagaa 5640
gaattttata aatttatcaa accaatttta gaaaaaatgg atggtactga ggaattattg 5700
gtgaaactaa atcgtgaaga tttgctgcgc aagcaacgga cctttgacaa cggctctatt 5760
ccccatcaaa ttcacttggg tgagctgcat gctattttga gaagacaaga agacttttat 5820
ccatttttaa aagacaatcg tgagaagatt gaaaaaatct tgacttttcg aattccttat 5880
tatgttggtc cattggcgcg tggcaatagt cgttttgcat ggatgactcg gaagtctgaa 5940
gaaacaatta ccccatggaa ttttgaagaa gttgtcgata aaggtgcttc agctcaatca 6000
tttattgaac gcatgacaaa ctttgataaa aatcttccaa atgaaaaagt actaccaaaa 6060
catagtttgc tttatgagta ttttacggtt tataacgaat tgacaaaggt caaatatgtt 6120
actgaaggaa tgcgaaaacc agcatttctt tcaggtgaac agaagaaagc cattgttgat 6180
ttactcttca aaacaaatcg aaaagtaacc gttaagcaat taaaagaaga ttatttcaaa 6240
aaaatagaat gttttgatag tgttgaaatt tcaggagttg aagatagatt taatgcttca 6300
ttaggtacct accatgattt gctaaaaatt attaaagata aagatttttt ggataatgaa 6360
gaaaatgaag atatcttaga ggatattgtt ttaacattga ccttatttga agatagggag 6420
atgattgagg aaagacttaa aacatatgct cacctctttg atgataaggt gatgaaacag 6480
cttaaacgtc gccgttatac tggttgggga cgtttgtctc gaaaattgat taatggtatt 6540
agggataagc aatctggcaa aacaatatta gattttttga aatcagatgg ttttgccaat 6600
cgcaatttta tgcagctgat ccatgatgat agtttgacat ttaaagaaga cattcaaaaa 6660
gcacaagtgt ctggacaagg cgatagttta catgaacata ttgcaaattt agctggtagc 6720
cctgctatta aaaaaggtat tttacagact gtaaaagttg ttgatgaatt ggtcaaagta 6780
atggggcggc ataagccaga aaatatcgtt attgaaatgg cacgtgaaaa tcagacaact 6840
caaaagggcc agaaaaattc gcgagagcgt atgaaacgaa tcgaagaagg tatcaaagaa 6900
ttaggaagtc agattcttaa agagcatcct gttgaaaata ctcaattgca aaatgaaaag 6960
ctctatctct attatctcca aaatggaaga gacatgtatg tggaccaaga attagatatt 7020
aatcgtttaa gtgattatga tgtcgatgcc attgttccac aaagtttcct taaagacgat 7080
tcaatagaca ataaggtctt aacgcgttct gataaaaatc gtggtaaatc ggataacgtt 7140
ccaagtgaag aagtagtcaa aaagatgaaa aactattgga gacaacttct aaacgccaag 7200
ttaatcactc aacgtaagtt tgataattta acgaaagctg aacgtggagg tttgagtgaa 7260
cttgataaag ctggttttat caaacgccaa ttggttgaaa ctcgccaaat cactaagcat 7320
gtggcacaaa ttttggatag tcgcatgaat actaaatacg atgaaaatga taaacttatt 7380
cgagaggtta aagtgattac cttaaaatct aaattagttt ctgacttccg aaaagatttc 7440
caattctata aagtacgtga gattaacaat taccatcatg cccatgatgc gtatctaaat 7500
gccgtcgttg gaactgcttt gattaagaaa tatccaaaac ttgaatcgga gtttgtctat 7560
ggtgattata aagtttatga tgttcgtaaa atgattgcta agtctgagca agaaataggc 7620
aaagcaaccg caaaatattt cttttactct aatatcatga acttcttcaa aacagaaatt 7680
acacttgcaa atggagagat tcgcaaacgc cctctaatcg aaactaatgg ggaaactgga 7740
gaaattgtct gggataaagg gcgagatttt gccacagtgc gcaaagtatt gtccatgccc 7800
caagtcaata ttgtcaagaa aacagaagta cagacaggcg gattctccaa ggagtcaatt 7860
ttaccaaaaa gaaattcgga caagcttatt gctcgtaaaa aagactggga tccaaaaaaa 7920
tatggtggtt ttgatagtcc aacggtagct tattcagtcc tagtggttgc taaggtggaa 7980
aaagggaaat cgaagaagtt aaaatccgtt aaagagttac tagggatcac aattatggaa 8040
agaagttcct ttgaaaaaaa tccgattgac tttttagaag ctaaaggata taaggaagtt 8100
aaaaaagact taatcattaa actacctaaa tatagtcttt ttgagttaga aaacggtcgt 8160
aaacggatgc tggctagtgc cggagaatta caaaaaggaa atgagctggc tctgccaagc 8220
aaatatgtga attttttata tttagctagt cattatgaaa agttgaaggg tagtccagaa 8280
gataacgaac aaaaacaatt gtttgtggag cagcataagc attatttaga tgagattatt 8340
gagcaaatca gtgaattttc taagcgtgtt attttagcag atgccaattt agataaagtt 8400
cttagtgcat ataacaaaca tagagacaaa ccaatacgtg aacaagcaga aaatattatt 8460
catttattta cgttgacgaa tcttggagct cccgctgctt ttaaatattt tgatacaaca 8520
attgatcgta aacgatatac gtctacaaaa gaagttttag atgccactct tatccatcaa 8580
tccatcactg gtctttatga aacacgcatt gatttgagtc agctaggagg tgactaactc 8640
gagtaaggat ctccaggcat caaataaaac gaaaggctca gtcgaaagac tgggcctttc 8700
gttttatctg ttgtttgtcg gtgaacgctc t 8731

Claims (13)

1.一种将基因组序列中的靶标碱基C突变为A的方法,其特征在于所述方法包括如下步骤:将胞嘧啶脱氨酶AID的编码基因、nCas9核酸酶的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因导入受体生物或受体生物细胞中,使胞嘧啶脱氨酶的编码基因、nCas9核酸酶的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因均得到表达,实现靶标碱基C突变为A;其中,所述sgRNA靶向靶点序列,所述靶标碱基C位于所述靶点序列;
所述nCas9核酸酶为:将NCBI中Accession Number:Q99ZW2.1所示的化脓链球菌来源的Cas9氨基酸序列自N端起第10位所示的天冬氨酸突变为丙氨酸后得到的突变体;
所述受体生物为大肠杆菌;
所述受体生物细胞为大肠杆菌细胞。
2. 根据权利要求1所述的将基因组序列中的靶标碱基C突变为A的方法,其特征在于所述胞嘧啶脱氨酶AID为七鳃鳗来源的胞嘧啶脱氨酶pmCDA,其氨基酸序列如NCBI中Accession Number:ABO15149.1所示。
3. 根据权利要求1或2所述的将基因组序列中的靶标碱基C突变为A的方法,其特征在于,所述尿嘧啶DNA糖苷酶为人源的尿嘧啶DNA糖苷酶UNG,其氨基酸序列如NCBI中Accession Number:CAG46474 .1所示;或将人源的尿嘧啶DNA糖苷酶UNG氨基酸序列自N端起第1-84位所示的氨基酸序列删除后得到的氨基酸序列所示的蛋白质,所述人源的尿嘧啶DNA糖苷酶UNG的氨基酸序列如NCBI中Accession Number:CAG46474.1所示;或酵母来源的尿嘧啶DNA糖苷酶ung1,其氨基酸序列如NCBI中Accession Number:CAA86634.1所示;或大肠杆菌来源的尿嘧啶DNA糖苷酶ung,其氨基酸序列如NCBI中Accession Number:EGT65982.1所示。
4.根据权利要求3所述的将基因组序列中的靶标碱基C突变为A的方法,其特征在于将所述胞嘧啶脱氨酶AID的编码基因、所述nCas9核酸酶的编码基因、所述尿嘧啶DNA糖苷酶的编码基因通过重组质粒A导入受体生物或受体生物细胞中;所述重组质粒A表达由胞嘧啶脱氨酶AID、nCas9核酸酶和尿嘧啶DNA糖苷酶组成的融合蛋白;所述重组质粒A的核苷酸序列如序列3所示。
5. 根据权利要求1或2所述的将基因组序列中的靶标碱基C突变为A的方法,所述大肠杆菌为大肠杆菌MG1655或大肠杆菌ATCC 8739。
6.一种提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的方法,其特征在于所述方法包括如下步骤:将胞嘧啶脱氨酶的编码基因、nCas9的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因导入受体生物或受体生物细胞中,使胞嘧啶脱氨酶的编码基因、nCas9的编码基因、尿嘧啶DNA糖苷酶的编码基因和sgRNA的编码基因均得到表达,实现提高靶标碱基C突变为G的碱基编辑效率;其中,所述sgRNA靶向靶点序列,所述靶标碱基C位于所述靶点序列;
所述nCas9核酸酶为:将NCBI中Accession Number:Q99ZW2.1所示的化脓链球菌来源的Cas9氨基酸序列自N端起第10位所示的天冬氨酸突变为丙氨酸后得到的突变体;
所述受体生物为哺乳动物;
所述受体生物细胞为哺乳动物细胞;
所述方法为非疾病治疗目的的方法。
7.根据权利要求6所述的提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的方法,其特征在于所述胞嘧啶脱氨酶是胞嘧啶脱氨酶APOBEC。
8. 根据权利要求7中所述的提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的方法,其特征在于所述胞嘧啶脱氨酶APOBEC为鼠源的胞嘧啶脱氨酶APOBEC1,其氨基酸序列如NCBI中Accession Number:AAH03792.1所示;或人源的胞嘧啶脱氨酶APOBEC3A,其氨基酸序列如NCBI中Accession Number:AKE33285.1所示;或七鳃鳗来源的胞嘧啶脱氨酶pmCDA,其氨基酸序列如NCBI中Accession Number:ABO15149.1所示。
9. 根据权利要求6-8中任一项所述的提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的方法,其特征在于:所述尿嘧啶DNA糖苷酶为人源的尿嘧啶DNA糖苷酶UNG,其氨基酸序列如NCBI中Accession Number:CAG46474 .1所示;或将人源的尿嘧啶DNA糖苷酶UNG氨基酸序列自N端起第1-84位所示的氨基酸序列删除后得到的氨基酸序列所示的蛋白质,所述人源的尿嘧啶DNA糖苷酶UNG的氨基酸序列如NCBI中Accession Number:CAG46474.1所示;或酵母来源的尿嘧啶DNA糖苷酶ung1,其氨基酸序列如NCBI中AccessionNumber:CAA86634.1所示;或大肠杆菌来源的尿嘧啶DNA糖苷酶ung,其氨基酸序列如NCBI中Accession Number:EGT65982.1所示。
10.根据权利要求9所述的提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的方法,其特征在于将所述胞嘧啶脱氨酶APOBEC的编码基因、所述nCas9核酸酶的编码基因、所述尿嘧啶DNA糖苷酶的编码基因通过重组质粒C导入受体生物或受体生物细胞中;所述重组质粒C表达由胞嘧啶脱氨酶APOBEC、nCas9核酸酶和尿嘧啶DNA糖苷酶组成的融合蛋白;所述重组质粒C的核苷酸序列如序列5所示。
11.根据权利要求6-8任一项所述的提高将基因组序列中的靶标碱基C突变为G的碱基编辑效率的方法,其特征在于所述哺乳动物细胞为HEK293T细胞或Hela细胞。
12.一种碱基编辑产品,其特征在于由胞嘧啶脱氨酶、nCas9核酸酶、尿嘧啶DNA糖苷酶和sgRNA相关的生物材料构成,能够用于实现权利要求1-11任一项所述的方法;
所述胞嘧啶脱氨酶是胞嘧啶脱氨酶AID或胞嘧啶脱氨酶APOBEC;
所述nCas9核酸酶为:将NCBI中Accession Number:Q99ZW2.1所示的化脓链球菌来源的Cas9氨基酸序列自N端起第10位所示的天冬氨酸突变为丙氨酸后得到的突变体。
13.一种碱基编辑应用,其特征在于使用权利要求12所述的碱基编辑产品;所述应用为非疾病治疗目的的应用。
CN202010836208.2A 2019-08-20 2020-08-19 实现c到a以及c到g碱基突变的碱基编辑系统及其应用 Active CN111763686B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910767298 2019-08-20
CN2019107672981 2019-08-20

Publications (2)

Publication Number Publication Date
CN111763686A CN111763686A (zh) 2020-10-13
CN111763686B true CN111763686B (zh) 2023-03-28

Family

ID=72729052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010836208.2A Active CN111763686B (zh) 2019-08-20 2020-08-19 实现c到a以及c到g碱基突变的碱基编辑系统及其应用

Country Status (3)

Country Link
US (1) US20220380749A1 (zh)
CN (1) CN111763686B (zh)
WO (1) WO2021032108A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113621634B (zh) * 2021-07-07 2023-09-15 浙江大学杭州国际科创中心 一种增加基因组突变率的碱基编辑系统及碱基编辑方法
CN114085859B (zh) * 2021-11-10 2024-02-13 浙江工业大学 一种新金色分枝杆菌工程菌的基因编辑方法及系统
CN116135974A (zh) * 2021-11-17 2023-05-19 中国科学院天津工业生物技术研究所 一种重组糖基化酶碱基编辑系统及其应用
CN114395586A (zh) * 2022-01-12 2022-04-26 中国科学院天津工业生物技术研究所 非整合慢病毒载体系统在基因编辑器递送中的应用
CN114854723A (zh) * 2022-05-26 2022-08-05 中国科学院分子植物科学卓越创新中心 水稻尿嘧啶dna糖苷酶及其在基因编辑诱导植物单碱基多样性中的应用
CN116004592B (zh) * 2022-11-18 2024-01-26 南京医科大学 一种实现DNA上C/G到T/A编辑的RsCBE系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513575A (zh) * 2015-10-23 2018-09-07 哈佛大学的校长及成员们 核碱基编辑器及其用途
CN107043779B (zh) * 2016-12-01 2020-05-12 中国农业科学院作物科学研究所 一种CRISPR/nCas9介导的定点碱基替换在植物中的应用
CN106834341B (zh) * 2016-12-30 2020-06-16 中国农业大学 一种基因定点突变载体及其构建方法和应用
JP2020510439A (ja) * 2017-03-10 2020-04-09 プレジデント アンド フェローズ オブ ハーバード カレッジ シトシンからグアニンへの塩基編集因子
SG11201908658TA (en) * 2017-03-23 2019-10-30 Harvard College Nucleobase editors comprising nucleic acid programmable dna binding proteins
CN108823202A (zh) * 2017-06-15 2018-11-16 中山大学 用于特异性修复人hbb基因突变的碱基编辑系统、方法、试剂盒及其应用
CN109136272A (zh) * 2017-06-15 2019-01-04 中山大学 用于特异性修复人hbb基因突变的碱基编辑系统、方法、试剂盒及其在人生殖系中的应用
CN109021111B (zh) * 2018-02-23 2021-12-07 上海科技大学 一种基因碱基编辑器

Also Published As

Publication number Publication date
WO2021032108A1 (zh) 2021-02-25
US20220380749A1 (en) 2022-12-01
CN111763686A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN111763686B (zh) 实现c到a以及c到g碱基突变的碱基编辑系统及其应用
CN108138121B (zh) 用微生物高水平生产长链二羧酸
CN108753778B (zh) 利用碱基编辑修复fbn1t7498c突变的试剂和方法
KR20230165368A (ko) Cpf1 또는 csm1을 사용하여 게놈을 변형하기 위한 조성물 및 방법
CN112166188B (zh) 用于使用经工程化的酵母产生乙醇的方法
US20040166580A1 (en) Vector constructs
CN109906270A (zh) 经遗传修饰的乳酸消耗酵母以及使用此类经遗传修饰的酵母的发酵工艺
CN108779480A (zh) 生产鞘氨醇碱和鞘脂类的方法
KR20150042856A (ko) 클라빈-유형 알칼로이드의 생산을 위한 유전자 및 방법
KR102303832B1 (ko) 내산성을 갖는 효모 세포, 상기 효모 세포를 제조하는 방법 및 이의 용도
KR102227976B1 (ko) Nadh 데히드로게나제가 불활성화된 효모 세포 및 그를 이용한 락테이트를 생산하는 방법
CN107429220A (zh) 经葡糖淀粉酶修饰的酵母菌株和用于产生生物产物的方法
CN108368490A (zh) 真菌产生fdca
KR20180084135A (ko) 감소된 clr2 활성을 갖는 사상 진균에서 단백질을 생산하는 방법
KR102311681B1 (ko) 내산성을 갖는 효모 세포, 그를 이용하여 유기산을 생산하는 방법 및 상기 내산성 효모 세포를 생산하는 방법
CN111088176B (zh) 产β-胡萝卜素的基因工程菌及其应用
CN113302303A (zh) 经修饰的丝状真菌宿主细胞
KR20180081817A (ko) 감소된 clr1 활성을 갖는 사상 진균에서 단백질을 생산하는 방법
CN109762846B (zh) 利用碱基编辑修复与克拉伯病相关的galcc1586t突变的试剂和方法
CN109593695B (zh) 一种在枯草芽孢杆菌芽孢表面展示葡萄糖氧化酶的方法与应用
CN111534542A (zh) piggyBac转座子系统介导的真核生物转基因细胞系及构建方法
US6531289B1 (en) Regulated gene expression in yeast and method of use
CN110734480A (zh) 大肠杆菌分子伴侣GroEL/ES在协助合成植物Rubisco中的应用
KR102341583B1 (ko) 스플릿 인테인을 접목한 가용성 향상 이중 기능성 융합 태그를 이용한 재조합 섬유아세포 성장인자 수용체의 제조방법, 정제방법, 및 이의 용도
CN116135974A (zh) 一种重组糖基化酶碱基编辑系统及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant