CN112105627A - 非天然碱基对组合物及使用方法 - Google Patents

非天然碱基对组合物及使用方法 Download PDF

Info

Publication number
CN112105627A
CN112105627A CN201880090147.0A CN201880090147A CN112105627A CN 112105627 A CN112105627 A CN 112105627A CN 201880090147 A CN201880090147 A CN 201880090147A CN 112105627 A CN112105627 A CN 112105627A
Authority
CN
China
Prior art keywords
nucleic acid
natural
modified
amino
uracil
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880090147.0A
Other languages
English (en)
Other versions
CN112105627B (zh
Inventor
F·E·罗梅斯伯格
M·P·莱德贝特
R·J·卡拉狄玛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Scripps Research Institute
Original Assignee
Scripps Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Scripps Research Institute filed Critical Scripps Research Institute
Publication of CN112105627A publication Critical patent/CN112105627A/zh
Application granted granted Critical
Publication of CN112105627B publication Critical patent/CN112105627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P21/00Preparation of peptides or proteins
    • C12P21/02Preparation of peptides or proteins having a known sequence of two or more amino acids, e.g. glutathione
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/67General methods for enhancing the expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/70Vectors or expression systems specially adapted for E. coli
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/74Vectors or expression systems specially adapted for prokaryotic hosts other than E. coli, e.g. Lactobacillus, Micromonospora
    • C12N15/76Vectors or expression systems specially adapted for prokaryotic hosts other than E. coli, e.g. Lactobacillus, Micromonospora for Actinomyces; for Streptomyces
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/96Stabilising an enzyme by forming an adduct or a composition; Forming enzyme conjugates
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P19/00Preparation of compounds containing saccharide radicals
    • C12P19/26Preparation of nitrogen-containing carbohydrates
    • C12P19/28N-glycosides
    • C12P19/30Nucleotides
    • C12P19/34Polynucleotides, e.g. nucleic acids, oligoribonucleotides
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/405Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from algae
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/31Chemical structure of the backbone
    • C12N2310/312Phosphonates
    • C12N2310/3125Methylphosphonates
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Saccharide Compounds (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本文公开了用于增加包含一种或多种非天然氨基酸的多肽的产生的方法、细胞、工程化微生物和试剂盒。还提供了用于增加编码所述非天然氨基酸的非天然核酸在工程化细胞或半合成生物体中的保留的细胞、工程化微生物和试剂盒。

Description

非天然碱基对组合物及使用方法
相关申请的交叉引用
本申请要求2017年12月29日提交的美国临时专利申请号62/612,062的权益,其通过引用以其整体并入本文。
关于联邦赞助研究的声明
本文公开的本发明至少部分是在美国国立卫生研究院(NIH)的授权号R35GM118178/GM/NIGMS下在美国政府的支持下完成的。因此,美国政府对本发明拥有一定的权利。
序列表
本申请含有以ASCII格式电子提交并且通过引用以其整体特此并入的序列表。2018年12月20日创建的所述ASCII副本命名为46085-712_601_SL.txt并且大小为116,287字节。
背景技术
用聚合酶以序列特异性方式合成/扩增寡核苷酸(DNA或RNA)的能力的应用受限于天然遗传字母(DNA中的四个天然核苷酸A、C、G和T以及RNA中的四个天然核苷酸A、C、G和U)中存在的有限的化学/物理多样性。包括非天然核酸的扩展的遗传字母增加了细胞中可以储存的信息并且促进产生使用该增加的信息产生新型形式的基因表达产物的半合成生物体(SSO)。
发明内容
在某些实施方案中,本文描述了用于增加包含非天然核苷酸的核酸分子的产生的方法、细胞、工程化微生物、质粒和试剂盒。在一些实施方案中,本文描述的内容还包括利用了修饰的转座相关蛋白、修饰的DNA修复蛋白或其组合的细胞、工程化微生物、质粒和使用方法,所述细胞、工程化微生物、质粒和使用方法用于增加包含非天然核苷酸的核酸分子的产生。
本文所公开的方面提供了工程化宿主细胞,所述工程化宿主细胞包含:包含非天然核苷酸的第一核酸分子;和任选地,编码修饰的转座相关蛋白或可转座元件的第二核酸分子。在一些实施方案中,所述工程化宿主细胞还包含编码修饰的核苷三磷酸转运蛋白的第三核酸分子,其中第三核酸分子被掺入工程化宿主细胞的基因组序列中,或者包含编码修饰的核苷三磷酸转运蛋白的质粒。在一些实施方案中,如与在不包含编码修饰的转座相关蛋白的第二核酸分子的等同工程化宿主细胞中的表达相比,修饰的核苷三磷酸转运蛋白在工程化宿主细胞中展现增加的表达稳定性。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含编码核苷三磷酸转运蛋白的整个核酸分子的缺失、N末端截短、C末端截短或两个末端的截短。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含来自三角褐指藻(Phaeodactylum tricornutum)的核苷三磷酸转运蛋白(PtNTT2)。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含缺失。在一些实施方案中,缺失是末端缺失或内部缺失。在一些实施方案中,缺失是N末端截短、C末端截短或两个末端的截短。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含约5、10、15、20、22、25、30、40、44、50、60、66、70或更多个氨基酸残基的缺失。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含N末端的约5、10、15、20、22、25、30、40、44、50、60、66、70或更多个氨基酸残基的缺失。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含N末端的约66个氨基酸残基的缺失。在一些实施方案中,PtNTT2在选自pSC质粒的启动子或来自lac操纵子的启动子的控制下。在一些实施方案中,所述工程化宿主细胞还包含Cas9多肽或其变体;以及包含crRNA-tracrRNA支架的单一指导RNA(sgRNA),其中Cas9多肽或其变体与sgRNA的组合调节编码非天然核苷酸的第一核酸分子的复制。在一些实施方案中,sgRNA包含识别所述核酸分子内的非天然核苷酸位置处的修饰的靶基序。在一些实施方案中,sgRNA还包含原型间隔子邻近基序(PAM)识别元件。在一些实施方案中,PAM元件与靶基序的3'末端相邻。在一些实施方案中,靶基序的长度在15至30个核苷酸之间。在一些实施方案中,Cas9多肽或其变体与sgRNA的组合将包含修饰的核酸分子的复制速率降低约80%、85%、95%、99%或更高。在一些实施方案中,Cas9多肽是野生型Cas9。在一些实施方案中,第二核酸分子包含含有过氧化氢酶(cat)、IS1蛋白insB-4(insB-4)、IS1蛋白insA-4(insA-4)或其组合的基因。在一些实施方案中,修饰的转座相关蛋白包含插入元件IS1 4蛋白InsB、插入元件IS1 4蛋白InsA或其组合;并且其中修饰的可转座元件包含IS1。在一些实施方案中,所述基因包含一个或多个缺失,其中所述一个或多个缺失包含N末端缺失、C末端缺失、两个末端的截短、内部缺失和/或整个基因的缺失。在一些实施方案中,所述工程化宿主细胞还包含编码修饰的DNA修复反应相关蛋白的第五核酸分子,其中DNA修复反应包括重组修复、SOS反应、核苷酸切除修复或甲基定向的错配修复或其组合。在一些实施方案中,修饰的DNA修复反应相关蛋白包含RecA、Rad51、RadA或LexA或其组合。在一些实施方案中,工程化宿主细胞是原核细胞,包括大肠杆菌(Escherichia coli)细胞、大肠杆菌BL21(DE3)细胞。在一些实施方案中,非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。在一些实施方案中,非天然碱基选自:
Figure BDA0002646587660000041
在一些实施方案中,非天然核苷酸还包含非天然糖部分。在一些实施方案中,非天然糖部分选自:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOC H3、SO2 CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)n O]mCH3、-O(CH2)nO CH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)n CH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。在一些实施方案中,所述工程化宿主细胞还包含聚合酶。在一些实施方案中,聚合酶是组成性表达的。在一些实施方案中,聚合酶过表达。在一些实施方案中,聚合酶是DNA聚合酶。在一些实施方案中,DNA聚合酶是DNA聚合酶II。在一些实施方案中,聚合酶由polB基因编码。在一些实施方案中,polB基因是去阻遏的。在一些实施方案中,polB基因是通过在操纵基因半位点上整合而去阻遏的。在一些实施方案中,操纵基因是lexA操纵基因。在一些实施方案中,聚合酶是DNA聚合酶I。在一些实施方案中,聚合酶由polA基因编码。在一些实施方案中,聚合酶是DNA聚合酶III。在一些实施方案中,聚合酶由dnaQ基因编码。
本文所公开的方面提供了增加包含非天然核苷酸的核酸分子的产生的方法,所述方法包括:将工程化宿主细胞与多种非天然核苷酸一起孵育,其中所述工程化宿主细胞包含修饰的核苷三磷酸转运蛋白以及任选地修饰的转座相关蛋白或可转座元件;并且将所述多种非天然核苷酸掺入一条或多条新合成的DNA链中,由此产生非天然核酸分子;其中所述修饰的转座相关蛋白或可转座元件以及所述修饰的核苷三磷酸转运蛋白增加了包含所述非天然核苷酸的非天然碱基对在所述一条或多条新合成的DNA链中的保留。在一些实施方案中,所述修饰的转座相关蛋白包含插入元件IS1 4蛋白InsB、插入元件IS1 4蛋白InsA或其组合;并且其中所述修饰的可转座元件包含IS1。在一些实施方案中,所述修饰的核苷三磷酸转运蛋白包含密码子优化的来自三角褐指藻的核苷三磷酸转运蛋白(PtNTT2)。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含缺失。在一些实施方案中,缺失是末端缺失或内部缺失。在一些实施方案中,缺失是N末端截短、C末端截短或两个末端的截短。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含约5、10、15、20、22、25、30、40、44、50、60、66、70或更多个氨基酸残基的缺失。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含N末端的约5、10、15、20、22、25、30、40、44、50、60、66、70或更多个氨基酸残基的缺失。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含N末端的约66个氨基酸残基的缺失。在一些实施方案中,所述工程化宿主细胞还包含Cas9多肽或其变体;以及包含crRNA-tracrRNA支架的单一指导RNA(sgRNA),其中Cas9多肽或其变体与sgRNA的组合调节编码非天然核苷酸的第一核酸分子的复制。在一些实施方案中,sgRNA包含识别所述核酸分子内的非天然核苷酸位置处的修饰的靶基序。在一些实施方案中,sgRNA还包含原型间隔子邻近基序(PAM)识别元件。在一些实施方案中,PAM元件与靶基序的3'末端相邻。在一些实施方案中,靶基序的长度在15至30个核苷酸之间。在一些实施方案中,Cas9多肽或其变体与sgRNA的组合将包含修饰的核酸分子的复制速率降低约80%、85%、95%、99%或更高。在一些实施方案中,Cas9多肽是野生型Cas9。在一些实施方案中,非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。在一些实施方案中,非天然碱基选自:
Figure BDA0002646587660000071
在一些实施方案中,非天然核苷酸还包含非天然糖部分。在一些实施方案中,非天然糖部分选自:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2 CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)n O]mCH3、-O(CH2)nOCH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)n CH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。在一些实施方案中,所述工程化宿主细胞还包含聚合酶。在一些实施方案中,聚合酶是组成性表达的。在一些实施方案中,聚合酶过表达。在一些实施方案中,聚合酶是DNA聚合酶。在一些实施方案中,DNA聚合酶是DNA聚合酶II。在一些实施方案中,聚合酶由polB基因编码。在一些实施方案中,polB基因是去阻遏的。在一些实施方案中,polB基因是通过在操纵基因半位点上整合而去阻遏的。在一些实施方案中,操纵基因是lexA操纵基因。在一些实施方案中,聚合酶是DNA聚合酶I。在一些实施方案中,聚合酶由polA基因编码。在一些实施方案中,聚合酶是DNA聚合酶III。在一些实施方案中,聚合酶由dnaQ基因编码。
本文所公开的方面提供了制备包含非天然氨基酸的修饰的多肽的方法,所述方法包括:将工程化宿主细胞与多种非天然核苷酸一起孵育,其中所述工程化宿主细胞包含修饰的核苷三磷酸转运蛋白以及任选地修饰的转座相关蛋白或可转座元件;以及将所述多种非天然核苷酸掺入一条或多条新合成的DNA链中,由此产生非天然核酸分子;其中所述修饰的转座相关蛋白或可转座元件以及所述修饰的核苷三磷酸转运蛋白增加非天然碱基对的保留,从而促进将所述多种非天然核苷酸掺入新合成的多肽中以产生所述修饰的多肽。在一些实施方案中,所述修饰的转座相关蛋白包含插入元件IS1 4蛋白InsB、插入元件IS1 4蛋白InsA或其组合;并且其中所述修饰的可转座元件包含IS1。在一些实施方案中,所述修饰的核苷三磷酸转运蛋白包含密码子优化的来自三角褐指藻的核苷三磷酸转运蛋白(PtNTT2)。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含缺失。在一些实施方案中,缺失是末端缺失或内部缺失。在一些实施方案中,缺失是N末端截短、C末端截短或两个末端的截短。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含约5、10、15、20、22、25、30、40、44、50、60、66、70或更多个氨基酸残基的缺失。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含N末端的约5、10、15、20、22、25、30、40、44、50、60、66、70或更多个氨基酸残基的缺失。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含N末端的约66个氨基酸残基的缺失。在一些实施方案中,所述工程化宿主细胞还包含Cas9多肽或其变体;以及包含crRNA-tracrRNA支架的单一指导RNA(sgRNA),其中Cas9多肽或其变体与sgRNA的组合调节编码非天然核苷酸的第一核酸分子的复制。在一些实施方案中,sgRNA包含识别所述核酸分子内的非天然核苷酸位置处的修饰的靶基序。在一些实施方案中,sgRNA还包含原型间隔子邻近基序(PAM)识别元件。在一些实施方案中,PAM元件与靶基序的3'末端相邻。在一些实施方案中,靶基序的长度在15至30个核苷酸之间。在一些实施方案中,Cas9多肽或其变体与sgRNA的组合将包含修饰的核酸分子的复制速率降低约80%、85%、95%、99%或更高。在一些实施方案中,Cas9多肽是野生型Cas9。在一些实施方案中,非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。在一些实施方案中,非天然碱基选自:
Figure BDA0002646587660000101
在一些实施方案中,非天然核苷酸还包含选自以下的非天然糖部分:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2 CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)n O]mCH3、-O(CH2)nOCH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)nCH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。在一些实施方案中,所述工程化宿主细胞还包含聚合酶。在一些实施方案中,聚合酶是组成性表达的。在一些实施方案中,聚合酶过表达。在一些实施方案中,聚合酶是DNA聚合酶。在一些实施方案中,DNA聚合酶是DNA聚合酶II。在一些实施方案中,聚合酶由polB基因编码。在一些实施方案中,polB基因是去阻遏的。在一些实施方案中,polB基因是通过在操纵基因半位点上整合而去阻遏的。在一些实施方案中,操纵基因是lexA操纵基因。在一些实施方案中,聚合酶是DNA聚合酶I。在一些实施方案中,聚合酶由polA基因编码。在一些实施方案中,聚合酶是DNA聚合酶III。在一些实施方案中,聚合酶由dnaQ基因编码。
本文所公开的方面提供了用于产生包含修饰的DNA修复反应相关蛋白的非天然产物的工程化宿主细胞。在一些实施方案中,DNA修复反应包括重组修复。在一些实施方案中,DNA修复反应包括SOS反应。在一些实施方案中,工程化宿主细胞是原核细胞、真核细胞或酵母细胞。在一些实施方案中,工程化宿主细胞是原核细胞。在一些实施方案中,原核细胞是大肠杆菌细胞。在一些实施方案中,大肠杆菌细胞是大肠杆菌BL21(DE3)细胞。在一些实施方案中,修饰的DNA修复反应相关蛋白是RecA。在一些实施方案中,工程化宿主细胞被工程化以表达编码RecA的基因。在一些实施方案中,修饰的DNA修复反应相关蛋白是Rad51。在一些实施方案中,工程化宿主细胞被工程化以表达编码Rad51的基因。在一些实施方案中,修饰的DNA修复反应相关蛋白是RadA。在一些实施方案中,修饰的DNA修复反应相关蛋白是LexA。在一些实施方案中,编码修饰的DNA修复反应相关蛋白的基因包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,所述基因包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA、rad51和/或radA包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,recA、rad51和radA各自独立地包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含残基2-347的内部缺失。在一些实施方案中,lexA包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,lexA包含氨基酸位置S119的突变,任选地S119A突变。在一些实施方案中,所述工程化宿主细胞还包含聚合酶。在一些实施方案中,聚合酶是组成性表达的。在一些实施方案中,聚合酶过表达。在一些实施方案中,聚合酶是DNA聚合酶。在一些实施方案中,DNA聚合酶是DNA聚合酶II。在一些实施方案中,聚合酶由polB基因编码。在一些实施方案中,polB基因是去阻遏的。在一些实施方案中,polB基因是通过在操纵基因半位点上整合而去阻遏的。在一些实施方案中,操纵基因是lexA操纵基因。在一些实施方案中,聚合酶是DNA聚合酶I。在一些实施方案中,聚合酶由polA基因编码。在一些实施方案中,聚合酶是DNA聚合酶III。在一些实施方案中,聚合酶由dnaQ基因编码。
本文所公开的方面提供了用于产生包含修饰的DNA修复反应相关蛋白和聚合酶的非天然产物的工程化宿主细胞,其中相对于包含具有基础表达水平的等同聚合酶的等同宿主细胞,所述聚合酶具有升高的表达。在一些实施方案中,DNA修复反应包括重组修复。在一些实施方案中,DNA修复反应包括SOS反应。在一些实施方案中,聚合酶是组成性表达的。在一些实施方案中,聚合酶是DNA聚合酶II。在一些实施方案中,DNA修复反应包括重组修复、SOS反应、核苷酸切除修复或甲基定向的错配修复。在一些实施方案中,DNA修复反应包括重组修复。在一些实施方案中,DNA修复反应包括SOS反应。在一些实施方案中,工程化宿主细胞是原核细胞、真核细胞或酵母细胞。在一些实施方案中,工程化宿主细胞是原核细胞。在一些实施方案中,原核细胞是大肠杆菌细胞。在一些实施方案中,大肠杆菌细胞是大肠杆菌BL21(DE3)细胞。在一些实施方案中,修饰的DNA修复反应相关蛋白是RecA。在一些实施方案中,修饰的DNA修复反应相关蛋白是Rad51。在一些实施方案中,修饰的DNA修复反应相关蛋白是RadA。在一些实施方案中,修饰的DNA修复反应相关蛋白是LexA。在一些实施方案中,编码缺陷蛋白的基因包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,所述基因包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA、rad51和/或radA包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,recA、rad51和radA各自独立地包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含残基2-347的内部缺失。在一些实施方案中,lexA包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,lexA包含氨基酸位置S119的突变,任选地S119A突变。在一些实施方案中,所述工程化宿主细胞还包含来自三角褐指藻的核苷三磷酸转运蛋白(PtNTT2)。在一些实施方案中,来自PtNTT2的核苷三磷酸转运蛋白是修饰的。在一些实施方案中,修饰的核苷三磷酸转运蛋白由核酸分子编码。在一些实施方案中,将编码修饰的核苷三磷酸转运蛋白的核酸分子掺入工程化宿主细胞的基因组序列中。在一些实施方案中,工程化宿主细胞包含含有编码修饰的核苷三磷酸转运蛋白的核酸分子的质粒。在一些实施方案中,修饰的核苷三磷酸转运蛋白是密码子优化的来自三角褐指藻的核苷三磷酸转运蛋白。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含缺失。在一些实施方案中,所述缺失是末端缺失或内部缺失。在一些实施方案中,缺失是N末端截短、C末端截短或两个末端的截短。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含约5、10、15、20、22、25、30、40、44、50、60、66、70或更多个氨基酸残基的缺失。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含N末端的约5、10、15、20、22、25、30、40、44、50、60、66、70或更多个氨基酸残基的缺失。在一些实施方案中,修饰的核苷三磷酸转运蛋白包含N末端的约66个氨基酸残基的缺失。在一些实施方案中,修饰的核苷三磷酸转运蛋白在选自pSC质粒的启动子或来自lac操纵子的启动子的控制下。在一些实施方案中,lac操纵子是大肠杆菌lac操纵子。在一些实施方案中,lac操纵子选自Pbla、Plac、PlacUV5、PH207、Pλ、Ptac或PN25。在一些实施方案中,修饰的核苷三磷酸转运蛋白在启动子PlacUV5的控制下。在一些实施方案中,所述工程化宿主细胞还包含Cas9多肽或其变体,以及包含crRNA-tracrRNA支架的单一指导RNA(sgRNA),其中Cas9多肽或其变体与sgRNA的组合调节包含非天然核苷酸的核酸分子的复制。在一些实施方案中,sgRNA包含识别所述核酸分子内的非天然核苷酸位置处的修饰的靶基序。在一些实施方案中,sgRNA还包含原型间隔子邻近基序(PAM)识别元件。在一些实施方案中,PAM元件与靶基序的3'末端相邻。在一些实施方案中,靶基序的长度在15至30个核苷酸之间。在一些实施方案中,Cas9多肽或其变体与sgRNA的组合将包含修饰的核酸分子的复制速率降低约80%、85%、95%、99%或更高。在一些实施方案中,Cas9多肽是野生型Cas9。在一些实施方案中,所述工程化宿主细胞还包含非天然核苷酸。在一些实施方案中,非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。在一些实施方案中,非天然碱基选自
Figure BDA0002646587660000141
在一些实施方案中,非天然核苷酸还包含非天然糖部分。在一些实施方案中,非天然糖部分选自:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2 CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)n O]mCH3、-O(CH2)nOCH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)n CH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。在一些实施方案中,非天然碱基选自
Figure BDA0002646587660000151
在一些实施方案中,非天然核苷酸还包含非天然骨架。在一些实施方案中,非天然骨架选自硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、C1-C10膦酸酯、3'-亚烷基膦酸酯、手性膦酸酯、次膦酸酯、氨基磷酸酯、3'-氨基氨基磷酸酯、氨基烷基氨基磷酸酯、硫羰基氨基磷酸酯、硫羰基烷基膦酸酯、硫羰基烷基磷酸三酯和硼烷磷酸酯。在一些实施方案中,非天然核苷酸是dNaMTP和/或dTPT3TP。在一些实施方案中,非天然核苷酸被整合至工程化宿主细胞基因组中。在一些实施方案中,非天然核苷酸被整合至染色体中。在一些实施方案中,非天然核苷酸被整合至arsB基因座中。在一些实施方案中,相对于不存在修饰的DNA修复反应相关蛋白或不存在修饰的DNA修复反应相关蛋白与过表达的聚合酶的组合的等同工程化宿主细胞,所述工程化宿主细胞使得非天然碱基对能保留约50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。在一些实施方案中,所述工程化宿主细胞使得在超过50代、超过100代、超过120代、超过130代、超过150代或超过200代之后,非天然碱基对能保留至少50%。在一些实施方案中,所述工程化宿主细胞使得在超过50代、超过100代、超过120代、超过130代、超过137代、超过150代或超过200代之后,非天然碱基对能保留至少55%。在一些实施方案中,非天然产物是包含非天然核苷酸的核酸分子。在一些实施方案中,非天然产物是包含非天然氨基酸的多肽。在一些实施方案中,工程化宿主细胞是半合成生物体。
本文所公开的方面提供了由本文所述的工程化宿主细胞产生的包含非天然核苷酸的核酸分子。
本文所公开的方面提供了由本文所述的工程化宿主细胞产生的包含一种或多种非天然氨基酸的多肽。
本文所公开的方面提供了增加包含非天然核苷酸的核酸分子的复制的保真度的方法,所述方法包括:(a)将本文所述的工程化宿主细胞与多种非天然核苷酸一起孵育;并且(b)将所述多种非天然核苷酸掺入一条或多条新合成的DNA链中,由此产生非天然核酸分子;其中所述修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶增加了所述一条或多条新合成的DNA链中包含所述非天然核苷酸的非天然碱基对的复制的保真度。在一些实施方案中,DNA修复反应包括重组修复。在一些实施方案中,DNA修复反应包括SOS反应。在一些实施方案中,增加的包含非天然核苷酸的核酸分子的产生是相对于所述核酸分子在不存在修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶的等同宿主细胞中的产生而言的。在一些实施方案中,增加的所述核酸分子的产生比所述核酸分子在不存在修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶的等同宿主细胞中的产生高至少5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或99%。在一些实施方案中,增加的所述核酸分子的产生是所述核酸分子在不存在修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶的等同宿主细胞中的产生的超过1倍、2倍、3倍、4倍、5倍、10倍、15倍、20倍、25倍、30倍、40倍、50倍、100倍或更高。在一些实施方案中,增加的所述核酸分子的产生比所述核酸分子在不存在修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶的等同宿主细胞中的产生高1倍至5倍、5倍至10倍、10倍至15倍、15倍至20倍、20倍至25倍、25倍至30倍、30倍至40倍、40倍至50倍、50倍至60倍、60倍至70倍、70倍至80倍、80倍至90倍、90倍至100倍或100倍至200倍。在一些实施方案中,非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。在一些实施方案中,非天然碱基选自
Figure BDA0002646587660000181
在一些实施方案中,非天然核苷酸还包含非天然糖部分。在一些实施方案中,非天然糖部分选自:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2 CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)n O]mCH3、-O(CH2)nOCH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)n CH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。在一些实施方案中,非天然碱基选自
Figure BDA0002646587660000182
在一些实施方案中,非天然核苷酸还包含非天然骨架。在一些实施方案中,非天然骨架选自硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、C1-C10膦酸酯、3'-亚烷基膦酸酯、手性膦酸酯、次膦酸酯、氨基磷酸酯、3'-氨基氨基磷酸酯、氨基烷基氨基磷酸酯、硫羰基氨基磷酸酯、硫羰基烷基膦酸酯、硫羰基烷基磷酸三酯和硼烷磷酸酯。在一些实施方案中,非天然核苷酸是dNaMTP和/或dTPT3TP。在一些实施方案中,非天然核苷酸被整合至工程化宿主细胞基因组中。在一些实施方案中,非天然核苷酸被整合至染色体中。在一些实施方案中,非天然核苷酸被整合至arsB基因座中。在一些实施方案中,修饰的DNA修复反应相关蛋白是RecA。在一些实施方案中,修饰的DNA修复反应相关蛋白是Rad51。在一些实施方案中,修饰的DNA修复反应相关蛋白是RadA。在一些实施方案中,修饰的DNA修复反应相关蛋白是LexA。在一些实施方案中,编码修饰的DNA修复反应相关蛋白的基因包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,所述基因包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA、rad51和/或radA包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,recA、rad51和radA各自独立地包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含残基2-347的内部缺失。在一些实施方案中,lexA包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,lexA包含氨基酸位置S119的突变,任选地S119A突变。
本文所公开的方面提供了增加包含非天然核苷酸的核酸分子的产生的方法,所述方法包括:(a)将本文所述的工程化宿主细胞与多种非天然核苷酸一起孵育;并且(b)将所述多种非天然核苷酸掺入一条或多条新合成的DNA链中,由此产生非天然核酸分子;其中所述修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶增加了包含所述非天然核苷酸的非天然碱基对在所述一条或多条新合成的DNA链中的保留。在一些实施方案中,DNA修复反应包括重组修复。在一些实施方案中,DNA修复反应包括SOS反应。在一些实施方案中,增加的包含非天然核苷酸的核酸分子的产生是相对于所述核酸分子在不存在修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶的等同宿主细胞中的产生而言的。在一些实施方案中,增加的所述核酸分子的产生比所述核酸分子在不存在修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶的等同宿主细胞中的产生高至少5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或99%。在一些实施方案中,增加的所述核酸分子的产生是所述核酸分子在不存在修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶的等同宿主细胞中的产生的超过1倍、2倍、3倍、4倍、5倍、10倍、15倍、20倍、25倍、30倍、40倍、50倍、100倍或更高。在一些实施方案中,增加的所述核酸分子的产生比所述核酸分子在不存在修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶的等同宿主细胞中的产生高1倍至5倍、5倍至10倍、10倍至15倍、15倍至20倍、20倍至25倍、25倍至30倍、30倍至40倍、40倍至50倍、50倍至60倍、60倍至70倍、70倍至80倍、80倍至90倍、90倍至100倍或100倍至200倍。在一些实施方案中,非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。在一些实施方案中,非天然碱基选自
Figure BDA0002646587660000211
在一些实施方案中,非天然核苷酸还包含非天然糖部分。在一些实施方案中,非天然糖部分选自:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2 CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)n O]mCH3、-O(CH2)nOCH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)n CH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。在一些实施方案中,非天然碱基选自
Figure BDA0002646587660000221
在一些实施方案中,非天然核苷酸还包含非天然骨架。在一些实施方案中,非天然骨架选自硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、C1-C10膦酸酯、3'-亚烷基膦酸酯、手性膦酸酯、次膦酸酯、氨基磷酸酯、3'-氨基氨基磷酸酯、氨基烷基氨基磷酸酯、硫羰基氨基磷酸酯、硫羰基烷基膦酸酯、硫羰基烷基磷酸三酯和硼烷磷酸酯。在一些实施方案中,非天然核苷酸是dNaMTP和/或dTPT3TP。在一些实施方案中,非天然核苷酸被整合至工程化宿主细胞基因组中。在一些实施方案中,非天然核苷酸被整合至染色体中。在一些实施方案中,非天然核苷酸被整合至arsB基因座中。在一些实施方案中,修饰的DNA修复反应相关蛋白是RecA。在一些实施方案中,修饰的DNA修复反应相关蛋白是Rad51。在一些实施方案中,修饰的DNA修复反应相关蛋白是RadA。在一些实施方案中,修饰的DNA修复反应相关蛋白是LexA。在一些实施方案中,编码修饰的DNA修复反应相关蛋白的基因包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,所述基因包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA、rad51和/或radA包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,recA、rad51和radA各自独立地包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含残基2-347的内部缺失。在一些实施方案中,lexA包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,lexA包含氨基酸位置S119的突变,任选地S119A突变。
本文所公开的方面提供了制备包含非天然氨基酸的修饰的多肽的方法,所述方法包括:(a)将本文所述的工程化宿主细胞与多种非天然氨基酸一起孵育;并且(b)将所述多种非天然氨基酸掺入新合成的多肽中,由此产生所述修饰的多肽;其中所述修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶增加了非天然碱基对的保留,从而促进将所述多种非天然氨基酸掺入所述新合成的多肽中以产生所述修饰的多肽。在一些实施方案中,DNA修复反应包括重组修复。在一些实施方案中,DNA修复反应包括SOS反应。在一些实施方案中,修饰的多肽与缀合部分进一步缀合以产生修饰的多肽缀合物。在一些实施方案中,缀合部分是蛋白质或其结合片段、聚合物、治疗剂、成像剂或其组合。在一些实施方案中,修饰的多肽与治疗剂进一步缀合。在一些实施方案中,修饰的多肽是成像剂。在一些实施方案中,将修饰的多肽缀合物用药物赋形剂进一步配制,以产生药物组合物。在一些实施方案中,非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。在一些实施方案中,非天然碱基选自
Figure BDA0002646587660000241
在一些实施方案中,非天然核苷酸还包含非天然糖部分。在一些实施方案中,非天然糖部分选自:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2 CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)n O]mCH3、-O(CH2)nOCH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)n CH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。在一些实施方案中,非天然碱基选自
Figure BDA0002646587660000251
在一些实施方案中,非天然核苷酸还包含非天然骨架。在一些实施方案中,非天然骨架选自硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、C1-C10膦酸酯、3'-亚烷基膦酸酯、手性膦酸酯、次膦酸酯、氨基磷酸酯、3'-氨基氨基磷酸酯、氨基烷基氨基磷酸酯、硫羰基氨基磷酸酯、硫羰基烷基膦酸酯、硫羰基烷基磷酸三酯和硼烷磷酸酯。在一些实施方案中,非天然核苷酸是dNaMTP和/或dTPT3TP。在一些实施方案中,非天然核苷酸被整合至工程化宿主细胞基因组中。在一些实施方案中,非天然核苷酸被整合至染色体中。在一些实施方案中,非天然核苷酸被整合至arsB基因座中。在一些实施方案中,修饰的DNA修复反应相关蛋白是RecA。在一些实施方案中,修饰的DNA修复反应相关蛋白是Rad51。在一些实施方案中,修饰的DNA修复反应相关蛋白是RadA。在一些实施方案中,修饰的DNA修复反应相关蛋白是LexA。在一些实施方案中,编码修饰的DNA修复反应相关蛋白的基因包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,所述基因包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA、rad51和/或radA包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,recA、rad51和radA各自独立地包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含残基2-347的内部缺失。在一些实施方案中,lexA包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,lexA包含氨基酸位置S119的突变,任选地S119A突变。
本文所公开的方面提供了治疗疾病或病症的方法,所述方法包括向有需要的受试者给予包含通过本文所公开的方法制备的修饰的多肽的药物组合物,由此治疗所述疾病或病症。
本文所公开的方面提供了包含本文所述的工程化宿主细胞的试剂盒。
本文所公开的方面提供了用于产生包含修饰的RecA的非天然产物的工程化宿主细胞。在一些实施方案中,编码修饰的RecA的基因包含一个或多个突变、一个或多个缺失或其组合。在一些实施方案中,所述基因包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含N末端缺失、C末端缺失、两个末端的截短或内部缺失。在一些实施方案中,recA包含残基2-347的内部缺失。
本文所公开的方面提供了用于产生包含修饰的RecA和过表达的DNA聚合酶II的非天然产物的工程化宿主细胞,其中所述过表达的DNA聚合酶II的表达水平是相对于包含具有基础表达水平的等同DNA聚合酶II的等同宿主细胞而言的。
本文所公开的方面提供了增加包含非天然核苷酸的核酸分子的产生的方法,所述方法包括:(a)将工程化宿主细胞与多种非天然核苷酸一起孵育,其中所述工程化宿主细胞包含修饰的RecA以及任选地过表达的DNA聚合酶II,并且其中所述过表达的DNA聚合酶II的表达水平是相对于包含具有基础表达水平的等同DNA聚合酶II的等同宿主细胞而言的;并且(b)将所述多种非天然核苷酸掺入一条或多条新合成的DNA链中,由此产生非天然核酸分子;其中所述修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶增加了包含所述非天然核苷酸的非天然碱基对在所述一条或多条新合成的DNA链中的保留。
本文所公开的方面提供了制备包含非天然氨基酸的修饰的多肽的方法,所述方法包括:(a)将工程化宿主细胞与多种非天然氨基酸一起孵育,其中所述工程化宿主细胞包含修饰的RecA以及任选地过表达的DNA聚合酶II,并且其中所述过表达的DNA聚合酶II的表达水平是相对于包含具有基础表达水平的等同DNA聚合酶II的等同宿主细胞而言的;并且(b)将所述多种非天然氨基酸掺入新合成的多肽中,由此产生所述修饰的多肽;其中所述修饰的DNA修复反应相关蛋白以及任选地过表达的聚合酶增加了非天然碱基对的保留,从而促进将所述多种非天然氨基酸掺入所述新合成的多肽中以产生所述修饰的多肽。在一些实施方案中,DNA修复反应包括重组修复。在一些实施方案中,DNA修复反应包括SOS反应。在一些实施方案中,非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。
在一些实施方案中,非天然碱基选自
Figure BDA0002646587660000281
在一些实施方案中,非天然核苷酸还包含非天然糖部分。在一些实施方案中,非天然糖部分选自:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OC F3、SOCH3、SO2 CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)n O]mCH3、-O(C H2)nOCH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nO N[(CH2)n CH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。在一些实施方案中,非天然碱基选自
Figure BDA0002646587660000282
在一些实施方案中,非天然核苷酸还包含非天然骨架。在一些实施方案中,非天然骨架选自硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、C1-C10膦酸酯、3'-亚烷基膦酸酯、手性膦酸酯、次膦酸酯、氨基磷酸酯、3'-氨基氨基磷酸酯、氨基烷基氨基磷酸酯、硫羰基氨基磷酸酯、硫羰基烷基膦酸酯、硫羰基烷基磷酸三酯和硼烷磷酸酯。在一些实施方案中,非天然核苷酸是dNaMTP和/或dTPT3TP。在一些实施方案中,非天然核苷酸被整合至工程化宿主细胞基因组中。在一些实施方案中,非天然核苷酸被整合至染色体中。在一些实施方案中,非天然核苷酸被整合至arsB基因座中。
附图说明
本发明的各个方面具体陈述于所附的权利要求中。通过参考阐述其中利用了本发明原理的说明性实施方案的以下详细说明和附图将更好地理解本发明的特征和优点,在所述附图中:
图1A-图1E展示了非天然碱基对(UBP),以及DNA损伤和耐受途径对其保留的贡献。图1A展示了dNaM-dTPT3 UBP和天然dG-dC碱基对。图1B展示了缺乏NER(ΔuvrC)、MMR(ΔmutH)或RER(ΔrecA)的菌株。图1C展示了缺乏RER和SOS的菌株(ΔrecA)以及仅缺乏SOS的菌株(lexA(S119A))。图1D展示了缺乏SOS调节的聚合酶Pol II(ΔpolB)或Pol IV和V(ΔdinBΔumuCD)或RER和SOS(ΔrecA)的菌株。图1E展示了在野生型、ΔpolB或ΔpolBΔrecA背景中具有Pol Iexo-(polA(D424A、K890R))或Pol IIIexo-(dnaQ(D12N))的菌株。在每种情形中,通过复制所指示序列内嵌入有UBP的质粒来激发所指示菌株(X=dNaM)。对于所示的所有数据,n≥3;点表示单独复制物;条形表示样品平均值;误差条表示S.D.。
图2A-图2C展示了复制体重编程导致优化的UBP保留。图2A展示了在固体生长培养基上选择后,UBP在WT-Opt(中灰色)、ΔrecA-Opt(深灰色)和Pol II+ΔrecA-Opt(浅灰色)的单独克隆中的保留。通过在不同难度的序列背景中(GTAXAGA<TCCXCGT<TCCXGGT)复制pINF荷载的UBP来激发每种菌株。每个点表示单独克隆,并且每种分布的n≥12。图2B展示了在含有(圆形/实线)和不含(正方形/虚线)dNaMTP和dTPT3TP的培养基中在指数期生长期间,WT-Opt(中灰色)、ΔrecA-Opt(深灰色)和Pol II+ΔrecA-Opt(浅灰色)细胞的染色体UBP整合体的生长曲线。将数据用理论指数生长曲线拟合。n=3;小点表示单独复制物;大点表示样品平均值;时间和OD600的误差条表示S.D.。图2C展示了随着长期生长测量染色体dNaM-dTPT3 UBP在WT-Opt(中灰色)、ΔrecA-Opt(深灰色)和Pol II+ΔrecA-Opt(浅灰色)细胞中的保留。n=3;小点表示单独复制物;大点表示样品平均值;误差条表示除了Pol II+ΔrecA-Opt数据以外,细胞倍增和保留二者的两个S.D.。在大约七十次倍增后,Pol II+ΔrecA-Opt菌株的一个复制物被WT-Opt细胞污染。因此,黑色箭头处和黑色箭头之后的数据表示Pol II+ΔrecA-Opt的仅两个独立实验的平均值。
图3展示了如与已经工程化以组成性表达来自染色体lacZYA基因座的修饰的PtNTT2核苷酸转运蛋白基因的YZ3菌株相比,在含有IS1的敲除的菌株中,随着长期生长(10次传代)增加的PtNTT2活性。
图4A-图4C例示了PtNTT2表达构建体。显示PtNTT2(66-575)的表达构建体。图4A显示使用pACS2产生图1中所提供的除了Pol IIIExo-菌株以外的所有数据。图4B显示使用pACS2+dnaQ(D12N)产生Pol IIIexo-菌株数据。图4C显示使用来自lacZYA基因座的染色体表达产生图3的所有数据。
图5展示了复制TCAXAGT的外切核酸酶缺陷性聚合酶,显示外切核酸酶缺陷性聚合酶菌株的pINF复制数据。还测试了来自图1E的相同菌株复制TCAXAGT的能力(X=dNaM)。对于所示的所有数据,N>≥3;误差条表示95%经验bootstrap置信区间。
图6A-图6B展示了polA(D424A、K890R)、P_polB设计。显示polA(D424A、K890R)和去阻遏的PpolB的构建策略。图6A显示,将polA截短至其5″---3″外切核酸酶结构域(对应于PolA(1-341))。然后引入所需的D424A突变。K890R突变发生在PCR中并且被预测对Pol I功能具有有限的影响。图6B显示,通过在启动子的-35序列上游存在的lexA操纵基因半位点之一(粗体)上整合,使PpolB去阻遏(PPol II+)。
图7A-图7C展示了UBP染色体整合。图7A显示arsB::UBP整合盒的构建策略。整合盒是通过含有短UBP的DNA与pKD13质粒的neo盒的重叠PCR来构建。图7B显示通过PCR和生物素移位PCR确认染色体UBP的成功整合。显示ΔrecA-Opt和Pol II+ΔrecA-Opt SSO整合体(分别是A2和B3)的确认。青绿色条带指示曝光过度。图7C显示将初始整合体重铺板和分离单独克隆快速鉴定ΔrecA-Opt和Pol II+ΔrecA-Opt(分别是A2.1和B3.1)的100%保留克隆。针对WT-Opt整合体(C1)的相同程序没有实现快速鉴定。显示重铺板克隆的代表性子集。红色条带指示曝光过度。在图B和图C中,用于产生每个凝胶的引物组的身份在每个凝胶的上方给出。在以碱基对数量计的尺寸标准品旁边提供分子量。在泳道下方提供相关移位%值,并且分别用黑色和红色箭头指示链霉亲和素-DNA和DNA种类。
图8A-图8B显示重编程的菌株和染色体整合体倍增时间表征。图8A显示不含染色体UBP的重编程菌株(WT-Opt(红色)、ΔrecA-Opt(蓝色)和Pol II+ΔrecA-Opt(金色))和具有氯霉素抗性的野生型BL21(DE3)(lacZYA::cat(黑色))的生长曲线。圆形/实线表示在含有dNaMTP和dTPT3TP的培养基中的生长。正方形/虚线表示在不含dNaMTP和dTPT3TP的培养基中的生长。图8B显示呈现含有和不含染色体UBP以及添加和不添加dXTP的所有菌株的平均测量的倍增时间(n=3)。图6B分别按出现顺序公开SEQ ID NO 28和29。
图9A-图9B显示Pol II+ΔrecA-Opt染色体UBP整合体被WT-Opt细胞污染。Pol II+ΔrecA-Opt整合体的复制物3在第13次传代时被WT-Opt细胞污染。图9A显示通过对来自PolII+ΔrecA-Opt整合体的复制物3传代的gDNA样品进行的PCR监测PpolB基因座。具有PPolII+突变的菌株产生比具有氯霉素抗性的野生型BL21(DE3)(lacZYA::cat)更大的扩增子(a),如从对UBP整合前的Pol II+ΔrecA-Opt的分析可见(b)。图9B显示通过对来自Pol II+ΔrecA-Opt整合体的复制物3传代的gDNA样品进行的PCR监测recA基因座。具有ΔrecA突变的菌株产生比具有氯霉素抗性的野生型BL21(DE3)(lacZYA::cat)更小的扩增子(a),如从对UBP整合前的Pol II+ΔrecA-Opt的分析可见(b)。
图10A-图10B展示了传代期间的WT-Opt染色体UBP整合体PtNTT2(66-575)突变。对WT-Opt的传代期间的PtNTT2(66-575)突变的描述以及其表征。图10A显示在传代期间产生WT-Opt突变体,其中cat与IS1之间的区域(上图)被截短至PtNTT2(66-575)和IS1的C末端(中图)。测序确认了这个转座(下图)。图10A分别按出现顺序公开SEQ ID NO 30-32。图10B显示,通过对来自WT-Opt的传代的gDNA进行的PCR监测通过IS1转座子使PtNTT2(66-575)失活(引物见表S1)。转座事件使PtNTT2(66-575)失活并且尺寸范围在约3000-4000bp之间。失活发生在UBP损失的快速期期间。在具有氯霉素抗性的野生型BL21(DE3)(lacZYA::cat)(a)、UBP整合前的WT-Opt(b)和野生型BL21(DE3)(c)中,通过这些引物还产生另一个扩增子(尺寸为大约1500bp)。
具体实施方式
允许细胞储存和检索增加的信息的非天然碱基对(UBP)的开发在包括人类健康应用在内的实际应用中具有深远的影响,其促进产生含有非天然氨基酸的蛋白质用于作为治疗药来开发。然而,UBP在细胞群内的保留是序列依赖性的,并且在一些序列中,对于实际应用(例如,蛋白质表达),UBP维持不充分或以降低的水平维持,从而限制了可用密码子的数量。
虽然在延长的生长期间UBP的损失可以通过经由引导至切割并由此降解已经损失UBP的DNA序列的Cas9表达对三磷酸酯摄取和UBP保留施加选择压力来减轻,但是在一些序列背景中,保留仍然具有挑战性。此外,这种方法需要针对要保留的每个序列优化不同的指导RNA,这对于许多应用而言具有挑战性,例如,涉及随机DNA序列的增殖的那些。另外,预期染色体中(如与质粒相反)具有UBP的编码信息与施加该选择压力不相容,这是由于对含有UBP的序列的不期望的切割和/或因为切割会导致破坏染色体(与影响较小的消除质粒的多个拷贝之一相反)。
在一些实施方案中,本文公开了用于增加UBP的保留的方法、组合物、细胞、工程化微生物、质粒和试剂盒,它们利用修饰的DNA修复相关蛋白(例如,参与重组修复、SOS反应、核苷酸切除修复或甲基定向的错配修复的蛋白质)和/或修饰的转座相关蛋白(例如,插入元件IS1 4蛋白InsB、插入元件IS1 4蛋白InsA)。在一些情况下,DNA修复相关蛋白的组成性表达或过表达和/或转座相关蛋白的缺失或降低的表达促进增加的核苷三磷酸转运蛋白稳定性,从而导致产生特征为UBP染色体保留增加的SSO。
在某些实施方案中,本文公开了用于增加包含非天然核苷酸的核酸分子的产生的方法、组合物、细胞、工程化微生物、质粒和试剂盒。在一些情况下,本文公开了包含以下的工程化细胞:(a)包含非天然核苷酸的第一核酸分子;以及(b)编码修饰的转座相关蛋白的第二核酸分子。在一些实施方案中,工程化细胞还包含编码修饰的核苷三磷酸转运蛋白的第三核酸分子,其中第三核酸分子被掺入工程化宿主细胞的基因组序列中,或者包含编码修饰的核苷三磷酸转运蛋白的质粒。在一些实施方案中,工程化细胞还包含Cas9多肽或其变体;以及包含crRNA-tracrRNA支架的单一指导RNA(sgRNA),其中Cas9多肽或其变体与sgRNA的组合调节编码非天然核苷酸的第一核酸分子的复制。在某些实施方案中,工程化细胞还包含:(a)编码Cas9多肽或其变体的第四核酸分子;以及(b)编码包含crRNA-tracrRNA支架的单一指导RNA(sgRNA)的第五核酸分子。在一些情况下,第一、第二、第三、第四和第五核酸分子是在一种或多种质粒中编码,并且第五核酸分子编码的sgRNA包含识别第一核酸分子内的非天然核苷酸位置处的修饰的靶基序。
在一些实施方案中,本文还提供的内容包括通过一种过程产生的含有非天然核苷酸的核酸分子,所述过程包括将工程化细胞与以下一起孵育:(a)包含非天然核苷酸的第一核酸分子;(b)编码修饰的转座相关蛋白的第二核酸分子;(c)编码修饰的核苷三磷酸转运蛋白的第三核酸分子;(d)编码Cas9多肽或其变体的第四核酸分子;以及(e)编码包含crRNA-tracrRNA支架的单一指导RNA(sgRNA)的第五核酸分子。在一些情况下,第一核酸分子内的非天然核苷酸位置处的修饰产生修饰的第一核酸分子,并且Cas9多肽或其变体与sgRNA的组合调节修饰的第一核酸分子的复制,从而导致产生含有非天然核苷酸的核酸分子。在一些情况下,工程化细胞中修饰的转座相关蛋白的表达增加了三磷酸转运蛋白的稳定性。在一些实施方案中,增加的三磷酸转运蛋白稳定性促进以下的增加:(i)包含由非天然核苷酸编码的非天然氨基酸的修饰的多肽的产生,和/或(ii)非天然核苷酸在工程化细胞的基因组中增加的保留。
在一些实施方案中,本文另外提供的内容包括通过一种过程产生的半合成生物体(SSO),所述过程包括将生物体与以下一起孵育:(a)包含非天然核苷酸的第一核酸分子;(b)编码修饰的转座相关蛋白的第二核酸分子;(c)编码修饰的核苷三磷酸转运蛋白的第三核酸分子;(d)编码Cas9多肽或其变体的第四核酸分子;以及(e)编码包含crRNA-tracrRNA支架的单一指导RNA(sgRNA)的第五核酸分子。在一些情况下,第一核酸分子内的非天然核苷酸位置处的修饰产生修饰的第一核酸分子,并且Cas9多肽或其变体与sgRNA的组合调节修饰的第一核酸分子的复制,从而导致产生含有包含非天然核苷酸的核酸分子的半合成生物体。在一些情况下,工程化细胞中修饰的转座相关蛋白的表达增加了三磷酸转运蛋白的稳定性。在一些实施方案中,增加的三磷酸转运蛋白稳定性促进以下的增加:(i)包含由非天然核苷酸编码的非天然氨基酸的修饰的多肽的产生,和/或(ii)非天然核苷酸在SSO基因组中增加的保留。
DNA修复机构
DNA修复机制包括核苷酸切除修复(NER)、核糖核苷酸切除修复(RER)、SOS反应、甲基定向的错配修复(MMR)和重组修复。NER、MMR、RER和SOS反应是由信号诱导的,所述信号可以通过将UBP引入宿主基因组中来模拟。原核细胞中参与重组修复和/或SOS反应的DNA修复相关蛋白的非限制性例子包括RecA、Rad51、RadA和LexA。原核细胞中参与重组修复的DNA修复相关蛋白的非限制性例子包括RecO、RecR、RecN和RuvABC。原核细胞中参与NER的DNA修复相关蛋白的非限制性例子包括UvrA和UvrB。原核细胞中参与MMR的DNA修复相关蛋白的非限制性例子包括MutS、MutH和MutL。
在一些实施方案中,在本文所述的工程化细胞或SSO中引入修饰的DNA修复相关蛋白,以增加染色体UBP保留。在一些实施方案中,修饰的DNA修复相关蛋白包含以下的缺失:RecA、Rad51、RadA、LexA、RecO、RecR、RecN、RuvABC、MutS、MutH、MutL、UvrA和/或UvrB。在一些实施方案中,所述缺失包括N末端缺失、C末端缺失、两个末端的截短、内部缺失和/或整个基因的缺失。在一些实施方案中,编码DNA修复相关蛋白的核酸分子中的缺失或突变被修饰以实现缺失。
转座相关蛋白
在大肠杆菌中,包含核酸序列的可转座元件(例如,ISI)存在复制性和保守性(非复制性)转座模式。在复制性途径中,在转座事件中产生可转座元件的新拷贝。转座的结果是,一个拷贝出现在新位点,并且一个拷贝保留在原位点。在保守性途径中,不存在复制。而是所述元件被从染色体或质粒切除并且被整合至新位点中。在这些情形中,元件的DNA复制不发生,并且在初始染色体的所述位点中失去所述元件。可转座元件的缺失引起在其附近的缺失(例如,可转座元件以及还有侧翼或周围DNA的缺失)的高发生率。
insB-4和insA-4基因编码IS1转座子的转座所需的两种蛋白质,即InsB和InsA。IS1转座导致9至8碱基对靶标倍增。insB-4的缺失导致阻遏由InsB介导的异常转座事件。
在一些实施方案中,本文所述的方法、工程化细胞和半合成生物体包含编码转座相关蛋白的修饰的核酸分子。在一些实施方案中,转座相关蛋白包含insB和/或insA。在一些实施方案中,编码转座相关蛋白的修饰的核酸分子包含缺失或突变。在一些实施方案中,所述缺失包括N末端缺失、C末端缺失、两个末端的截短、内部缺失和/或整个基因的缺失。在一些实施方案中,突变导致减少的insB和/或InsA的表达。在一些实施方案中,编码转座相关蛋白的修饰的核酸分子的缺失或突变有效地稳定三磷酸核苷酸转运蛋白的表达和/或活性,由此增加UBP的保留。
在一些实施方案中,本文所述的方法、工程化细胞和半合成生物体包含编码IS1可转座元件的修饰的核酸分子。在一些实施方案中,编码IS1可转座元件的修饰的核酸分子包含缺失或突变。在一些实施方案中,缺失包括编码IS1转座子的核酸分子的全部或部分的敲除或敲低。在一些实施方案中,突变导致减少的IS1转座子的表达。在一些实施方案中,编码IS1转座子的修饰的核酸分子的缺失或突变有效地稳定三磷酸核苷酸转运蛋白的表达和/或活性,由此增加UBP的保留。在一些情况下,编码IS1可转座元件的修饰的核酸分子包含SEQ ID NO.4。
CRISPR/CRISPR相关(Cas)编辑系统
在一些实施方案中,本文公开的方法、细胞和工程化微生物利用CRISPR/CRISPR相关(Cas)系统来修饰包含非天然核苷酸的核酸分子。在一些情况下,CRISPR/Cas系统调节在非天然核苷酸位置处包含修饰的修饰的核酸分子的保留。在一些情况下,保留是减少修饰的核酸分子的复制。在一些情况下,CRISPR/Cas系统在修饰的核酸分子内产生双链断裂,从而导致涉及DNA修复蛋白(如RecBCD及其相关核酸酶)的降解。
在一些实施方案中,CRISPR/Cas系统涉及:(1)称为“间隔子”的与包含非天然核苷酸的目的核酸分子同源的遗传物质短区域在宿主基因组中以聚簇阵列整合,(2)来自间隔子的短指导RNA(crRNA)的表达,(3)crRNA与目的核酸分子中称为原型间隔子的特定部分的结合,以及(4)CRISPR相关核酸酶(Cas)对原型间隔子的降解。在一些情形中,II型CRISPR系统已经描述于细菌酿脓链球菌(Streptococcus pyogenes)中,其中Cas9和两个非编码小RNA(前crRNA和tracrRNA(反式激活型CRISPR RNA))协同作用以用序列特异性方式靶向并降解目的核酸分子(Jinek等人,“A Programmable Dual-RNA-Guided DNA Endonucleasein Adaptive Bacterial Immunity,”Science 337(6096):816-821(2012年8月,电子出版于2012年6月28日))。在一些情况下,两个非编码RNA进一步融合为一个单一指导RNA(sgRNA)。在一些情况下,sgRNA包含识别目的核酸分子内的非天然核苷酸位置处的修饰的靶基序。在一些实施方案中,所述修饰是取代、插入或缺失。在一些情形中,sgRNA包含识别目的核酸分子内的非天然核苷酸位置处的取代的靶基序。在一些情形中,sgRNA包含识别目的核酸分子内的非天然核苷酸位置处的缺失的靶基序。在一些情形中,sgRNA包含识别目的核酸分子内的非天然核苷酸位置处的插入的靶基序。
在一些情形中,靶基序的长度在10至30个核苷酸之间。在一些情况下,靶基序的长度在15至30个核苷酸之间。在一些情形中,靶基序的长度为约11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。在一些情形中,靶基序的长度为约15、16、17、18、19、20、21或22个核苷酸。
在一些情形中,sgRNA还包含原型间隔子邻近基序(PAM)识别元件。在一些情况下,PAM位于与靶基序的3'末端相邻。在一些情形中,靶基序内与目的核酸分子内非天然核苷酸位置处的修饰形成沃森-克里克碱基对的核苷酸位于距PAM的5'末端3至22个核苷酸之间、5至20个核苷酸之间、5至18个核苷酸之间、5至15个核苷酸之间、5至12个核苷酸之间或5至10个核苷酸之间。在一些情形中,靶基序内与目的核酸分子内非天然核苷酸位置处的修饰形成沃森-克里克碱基对的核苷酸位于距PAM的5'末端约3、4、5、6、7、8、9、10、11、12、13、14或15个核苷酸处。
在一些情况下,CRISPR/Cas系统利用Cas9多肽或其变体。Cas9是具有两个活性切割位点的双链核酸酶,一个切割位点用于双螺旋的每条链。在一些情况下,Cas9多肽或其变体产生双链断裂。在一些情形中,Cas9多肽是野生型Cas9。在一些情况下,Cas9多肽是针对在本文所述的细胞和/或工程化微生物中的表达优化的Cas9。
在一些实施方案中,Cas9/sgRNA复合物结合至目的核酸分子(例如,DNA)中含有与例如PAM上游sgRNA的17-20个核苷酸匹配的序列的一部分。一旦结合,则Cas9中两个独立的核酸酶结构域各自在PAM上游3个碱基处切割一条DNA链,从而留下平末端DNA双链断裂(DSB)。在一些情况下,然后DSB的存在导致目的DNA被RecBCD及其相关核酸酶降解。
在一些情况下,Cas9/sgRNA复合物调节在非天然核苷酸位置处包含修饰的修饰的核酸分子的保留。在一些情况下,保留是减少修饰的核酸分子的复制。在一些情形中,Cas9/sgRNA将修饰的核酸分子的复制速率降低约80%、85%、95%、99%或更高。
在一些情况下,包含非天然核苷酸的核酸分子的产生增加约30%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或更高。在一些情况下,包含非天然核苷酸的核酸分子的产生增加约50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或更高。
在一些情形中,包含非天然核苷酸的核酸分子的保留增加约30%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或更高。在一些情况下,包含非天然核苷酸的核酸分子的保留增加约50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或更高。
在一些实施方案中,CRISPR/Cas系统包含两种或更多种sgRNA。在一些情况下,两种或更多种sgRNA中的每一种独立地包含识别目的核酸分子内的非天然核苷酸位置处的修饰的靶基序。在一些实施方案中,所述修饰是取代、插入或缺失。在一些情形中,两种或更多种sgRNA中的每一种包含识别目的核酸分子内的非天然核苷酸位置处的取代的靶基序。在一些情形中,两种或更多种sgRNA中的每一种包含识别目的核酸分子内的非天然核苷酸位置处的缺失的靶基序。在一些情形中,两种或更多种sgRNA中的每一种包含识别目的核酸分子内的非天然核苷酸位置处的插入的靶基序。
在一些实施方案中,CRISPR组分与目的核酸分子的结合的特异性受sgRNA的前crRNA部分中非重复性间隔子元件的控制,所述前crRNA部分在与tracrRNA部分一起转录后将Cas9核酸酶引导至原型间隔子:crRNA异源双链体并诱导双链断裂(DSB)形成。在一些情况下,sgRNA的特异性为约80%、85%、90%、95%、96%、97%、98%、99%或更高。在一些情况下,sgRNA具有低于约20%、15%、10%、5%、3%、1%或更低的脱靶结合率。
核酸分子
在一些实施方案中,核酸(例如,在本文中也称为目的核酸分子)来自任何来源或组合物,例如,如DNA、cDNA、gDNA(基因组DNA)、RNA、siRNA(短抑制RNA)、RNAi、tRNA、mRNA或rRNA(核糖体RNA),并且呈任何形式(例如,线性、环状、超螺旋、单链、双链等)。在一些实施方案中,核酸包含核苷酸、核苷或多核苷酸。在一些情形中,核酸包含天然核酸和非天然核酸。在一些情形中,核酸还包含非天然核酸,如DNA或RNA类似物(例如,含有碱基类似物、糖类似物和/或非天然骨架等)。应理解,术语“核酸”并非是指或意指特定长度的多核苷酸链,因此多核苷酸和寡核苷酸也包括在定义内。示例性天然核苷酸包括而不限于ATP、UTP、CTP、GTP、ADP、UDP、CDP、GDP、AMP、UMP、CMP、GMP、dATP、dTTP、dCTP、dGTP、dADP、dTDP、dCDP、dGDP、dAMP、dTMP、dCMP和dGMP。示例性天然脱氧核糖核苷酸包括dATP、dTTP、dCTP、dGTP、dADP、dTDP、dCDP、dGDP、dAMP、dTMP、dCMP和dGMP。示例性天然核糖核苷酸包括ATP、UTP、CTP、GTP、ADP、UDP、CDP、GDP、AMP、UMP、CMP和GMP。对于RNA,尿嘧啶碱基是尿苷。核酸有时是载体、质粒、噬菌粒、自主复制序列(ARS)、着丝粒、人工染色体、酵母人工染色体(例如,YAC)或能够在宿主细胞中复制或被复制的其他核酸。在一些情形中,非天然核酸是核酸类似物。在另外的情形中,非天然核酸来自细胞外来源。在其他情形中,非天然核酸可用于本文所提供的生物体(例如遗传修饰的生物体)的细胞内空间。
非天然核酸
核苷酸类似物或非天然核苷酸包括含有对碱基、糖或磷酸部分的某一类型修饰的核苷酸。在一些实施方案中,修饰包括化学修饰。在一些情形中,修饰发生在3'OH或5'OH基团处、在骨架处、在糖组分处或在核苷酸碱基处。在一些情况下,修饰任选地包括非天然存在的接头分子和/或链间或链内交联。在一方面,修饰的核酸包括以下中的一种或多种的修饰:3'OH或5'OH基团、骨架、糖组分或核苷酸碱基,和/或非天然存在的接头分子的添加。在一方面,修饰的骨架包括除了磷酸二酯骨架以外的骨架。在一方面,修饰的糖包括除了脱氧核糖以外(在修饰的DNA中)或除了核糖以外(修饰的RNA)的糖。在一方面,修饰的碱基包括除了腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶以外的碱基(在修饰的DNA中)或除了腺嘌呤、鸟嘌呤、胞嘧啶或尿嘧啶以外的碱基(在修饰的RNA中)。
在一些实施方案中,核酸包含至少一种修饰的碱基。在一些情况下,核酸包含2、3、4、5、6、7、8、9、10、15、20或更多种修饰的碱基。在一些情形中,对碱基部分的修饰包括A、C、G和T/U以及不同的嘌呤或嘧啶碱基的天然修饰和合成修饰。在一些实施方案中,修饰是针对腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶的修饰形式(在修饰的DNA中)或腺嘌呤、鸟嘌呤、胞嘧啶或尿嘧啶的修饰形式(修饰的RNA)。
非天然核酸的修饰的碱基包括但不限于尿嘧啶-5-基,次黄嘌呤-9-基(I),2-氨基腺嘌呤-9-基,5-甲基胞嘧啶(5-me-C),5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,2-氨基腺嘌呤,腺嘌呤和鸟嘌呤的6-甲基和其他烷基衍生物,腺嘌呤和鸟嘌呤的2-丙基和其他烷基衍生物,2-硫尿嘧啶,2-硫代胸腺嘧啶和2-硫代胞嘧啶,5-卤代尿嘧啶和胞嘧啶,5-丙炔基尿嘧啶和胞嘧啶,6-偶氮尿嘧啶、胞嘧啶和胸腺嘧啶,5-尿嘧啶(假尿嘧啶),4-硫尿嘧啶,8-卤代、8-氨基、8-硫醇、8-硫代烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤,5-卤代(特别是5-溴)、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶,7-甲基鸟嘌呤和7-甲基腺嘌呤,8-氮杂鸟嘌呤和8-氮杂腺嘌呤,7-脱氮杂鸟嘌呤和7-脱氮杂腺嘌呤以及3-脱氮杂鸟嘌呤和3-脱氮杂腺嘌呤。某些非天然核酸,如5-取代的嘧啶、6-氮杂嘧啶和N-2取代的嘌呤、N-6取代的嘌呤、O-6取代的嘌呤、2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶、5-丙炔基胞嘧啶、5-甲基胞嘧啶、增加双链体形成的稳定性的那些、通用核酸、疏水核酸、混杂核酸、尺寸扩展的核酸、氟化核酸、5-取代的嘧啶、6-氮杂嘧啶以及N-2、N-6和0-6取代的嘌呤,包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶(5-me-C),5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,2-氨基腺嘌呤,腺嘌呤和鸟嘌呤的6-甲基、其他烷基衍生物,腺嘌呤和鸟嘌呤的2-丙基和其他烷基衍生物,2-硫尿嘧啶、2-硫代胸腺嘧啶和2-硫代胞嘧啶,5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基(-C≡C-CI1/4)尿嘧啶,5-丙炔基胞嘧啶,嘧啶核酸的其他炔基衍生物,6-偶氮尿嘧啶,6-偶氮胞嘧啶,6-偶氮胸腺嘧啶,5-尿嘧啶(假尿嘧啶),4-硫尿嘧啶,8-卤素、8-氨基、8-硫醇、8-硫代烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤,5-卤素(特别是5-溴)、5-三氟甲基、其他5-取代的尿嘧啶和胞嘧啶,7-甲基鸟嘌呤,7-甲基腺嘌呤,2-F-腺嘌呤,2-氨基-腺嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂腺嘌呤,3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),其中嘌呤或嘧啶碱基被其他杂环替代的那些,7-脱氮杂-腺嘌呤,7-脱氮杂鸟苷,2-氨基吡啶,2-吡啶酮,氮杂胞嘧啶,5-溴胞嘧啶,溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,2-氨基-腺嘌呤,6-硫鸟嘌呤,2-硫代胸腺嘧啶,4-硫代胸腺嘧啶,5-丙炔基-尿嘧啶,4-硫代尿嘧啶,N4-乙基胞嘧啶,7-脱氮杂鸟嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,5-羟基胞嘧啶,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷,以及以下文献中所述的那些:美国专利号3,687,808;4,845,205;4,910,300;4,948,882;5,093,232;5,130,302;5,134,066;5,175,273;5,367,066;5,432,272;5,457,187;5,459,255;5,484,908;5,502,177;5,525,711;5,552,540;5,587,469;5,594,121;5,596,091;5,614,617;5,645,985;5,681,941;5,750,692;5,763,588;5,830,653和6,005,096;WO 99/62923;Kandimalla等人,(2001)Bioorg.Med.Chem.9:807-813;TheConcise Encyclopedia of Polymer Science and Engineering,Kroschwitz,J.I.,编辑,John Wiley&Sons,1990,858-859;Englisch等人,Angewandte Chemie,国际版,1991,30,613;和Sanghvi,第15章,Antisense Research and Applications,Crookeand Lebleu编辑,CRC Press,1993,273-288。另外的碱基修饰可以发现于例如以下文献中:美国专利号3,687,808;Englisch等人,Angewandte Chemie,国际版,1991,30,613;和Sanghvi,第15章,Antisense Research and Applications,第289-302页,Crooke和Lebleu编辑,CRC Press,1993。
包含各种杂环碱基和各种糖部分(和糖类似物)的非天然核酸是本领域中可获得的,并且在一些情形中,核酸包括除了天然存在的核酸的五种主要碱基组分以外的一种或若干种杂环碱基。例如,在一些情形中,杂环碱基包括尿嘧啶-5-基、胞嘧啶-5-基、腺嘌呤-7-基、腺嘌呤-8-基、鸟嘌呤-7-基、鸟嘌呤-8-基、4-氨基吡咯并[2.3-d]嘧啶-5-基、2-氨基-4-氧代吡咯并[2,3-d]嘧啶-5-基、2-氨基-4-氧代吡咯并[2.3-d]嘧啶-3-基,其中嘌呤经由9位附接至核酸的糖部分,嘧啶经由1位附接,吡咯并嘧啶经由7位附接,并且吡唑并嘧啶经由1位附接。
在一些实施方案中,非天然核酸的修饰的碱基描绘于下文中,其中波浪线标识与(脱氧)核糖或核糖的附接点。
Figure BDA0002646587660000411
Figure BDA0002646587660000421
Figure BDA0002646587660000431
Figure BDA0002646587660000441
Figure BDA0002646587660000451
在一些实施方案中,核苷酸类似物还在磷酸部分进行修饰。修饰的磷酸部分包括但不限于在两个核苷酸之间的连接处具有修饰的那些,并且含有例如硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基和其他烷基膦酸酯(包括3'-亚烷基膦酸酯)和手性膦酸酯、次膦酸酯、氨基磷酸酯(包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯、硫羰基氨基磷酸酯)、硫羰基烷基膦酸酯、硫羰基烷基磷酸三酯和硼烷磷酸酯。应理解,两个核苷酸之间的这些磷酸酯或修饰的磷酸酯连接是通过3'-5'连接或2'-5'连接实现的,并且所述连接含有反向极性,如3'-5'至5'-3'或2'-5'至5'-2'。还包括各种盐、混合盐和游离酸形式。多个美国专利传授如何制备和使用含有修饰的磷酸酯的核苷酸,并且所述美国专利包括但不限于3,687,808;4,469,863;4,476,301;5,023,243;5,177,196;5,188,897;5,264,423;5,276,019;5,278,302;5,286,717;5,321,131;5,399,676;5,405,939;5,453,496;5,455,233;5,466,677;5,476,925;5,519,126;5,536,821;5,541,306;5,550,111;5,563,253;5,571,799;5,587,361;和5,625,050。
在一些实施方案中,非天然核酸包括2',3'-二脱氧-2',3'-二脱氢-核苷(PC T/US2002/006460)、5'-取代的DNA和RNA衍生物(PCT/US2011/033961;Sa ha等人,J.OrgChem.,1995,60,788-789;Wang等人,Bioorganic&Medic inal Chemistry Letters,1999,9,885-890;和Mikhailov等人,Nucleosides&Nucleotides,1991,10(1-3),339-343;Leonid等人,1995,14(3-5),901-905;和Eppacher等人,Helvetica Chimica Acta,2004,87,3004-3020;PCT/JP2000/004720;PCT/JP2003/002342;PCT/JP2004/013216;PCT/JP2005/020435;PCT/JP2006/315479;PCT/JP2006/324484;PCT/JP2009/056718;PCT/JP2010/067560)、或制备为具有修饰的碱基的单磷酸酯的5'-取代的单体(Wang等人,Nucleosides Nucleotides&Nucleic Acids,2004,23(1&2),317-337)。
在一些实施方案中,非天然核酸包括糖环的5'位和2'位的修饰(PCT/US94/02993),如5'-CH2-取代的2'-O-保护的核苷(Wu等人,Helvetica Chimica Acta,2000,83,1127-1143;和Wu等人,Bioconjugate Chem.1999,10,921-924)。在一些情形中,非天然核酸包括酰胺连接的核苷二聚体,其已经被制备用于掺入寡核苷酸中,其中二聚体中3'连接的核苷(5'至3')包含2'-OCH3和5'-(S)-CH3(Mesmaeker等人,Synlett,1997,1287-1290)。非天然核酸可以包括2'-取代的5'-CH2(或O)修饰的核苷(PCT/US92/01020)。非天然核酸可以包括5'-亚甲基膦酸酯DNA和RNA单体和二聚体(Bohringer等人,Tet.Lett.,1993,34,2723-2726;Collingwood等人,Synlett,1995,7,703-705;和Hutt er等人,Helvetica ChimicaActa,2002,85,2777-2806)。非天然核酸可以包括具有2'-取代的5'-膦酸酯单体(US2006/0074035)和其他修饰的5'-膦酸酯单体(WO1997/35869)。非天然核酸可以包括5'-修饰的亚甲基膦酸酯单体(E P614907和EP629633)。非天然核酸可以包括在5'和/或6'位包含羟基的5'或6'-膦酸酯核糖核苷的类似物(Chen等人,Phosphorus,Sulfur and Silicon,2002,777,1783-1786;Jung等人,Bioorg.Med.Chem.,2000,8,2501-2509;Gallier等人,Eur.J.Org.Chem.,2007,925-933;和Hampton等人,J.Med.Che m.,1976,19(8),1029-1033)。非天然核酸可以包括具有5'-磷酸基的5'-膦酸酯脱氧核糖核苷单体和二聚体(Nawrot等人,Oligonucleotides,2006,16(1),68-82)。非天然核酸可以包括具有6'-膦酸基的核苷,其中5'或/和6'位未取代或被以下取代:硫代叔丁基(SC(CH3)3)(及其类似物);亚甲基氨基(CH2NH2)(及其类似物)或氰基(CN)(及其类似物)(Fairhurst等人,Synlett,2001,4,467-472;Kappler等人,J.Med.Chem.,1986,29,1030-1038;Kappler等人,J.Med.Chem.,1982,25,1179-1184;Vrudhula等人,J.Med.Che m.,1987,30,888-894;Hampton等人,J.Med.Chem.,1976,19,1371-1377;Geze等人,J.Am.Chem.Soc,1983,105(26),7638-7640;和Hampton等人,J.Am.Chem.Soc,1973,95(13),4404-4414)。
在一些实施方案中,非天然核酸还包括糖部分的修饰。在一些情形中,核酸含有一个或多个核苷,其中糖基团已经被修饰。此类糖修饰的核苷可以赋予增强的核酸酶稳定性、增加的结合亲和力或一些其他有益的生物特性。在某些实施方案中,核酸包含化学修饰的呋喃核糖环部分。化学修饰的呋喃核糖环的例子包括而不限于添加取代基(包括5'和/或2'取代基);桥接两个环原子以形成二环核酸(BNA);用S、N(R)或C(Ri)(R2)(R=H、C1-C12烷基或保护基团)替代核糖基环氧原子;及其组合。化学修饰的糖的例子可以发现于WO2008/101157、US2005/0130923和WO2007/134181中。
在一些情况下,修饰的核酸包含修饰的糖或糖类似物。因此,除了核糖和脱氧核糖以外,糖部分可以是戊糖、脱氧戊糖、己糖、脱氧己糖、葡萄糖、阿拉伯糖、木糖、来苏糖或糖“类似物”环戊基。糖可以呈吡喃糖基或呋喃糖基形式。糖部分可以是核糖、脱氧核糖、阿拉伯糖或2'-O-烷基核糖的呋喃糖苷,并且糖可以附接至呈[α]或[β]异头构型的相应杂环碱基。糖修饰包括但不限于2'-烷氧基-RNA类似物、2'-氨基-RNA类似物、2'-氟-DNA、和2'-烷氧基-或氨基-RNA/DNA嵌合体。例如,糖修饰可以包括2'-O-甲基-尿苷或2'-O-甲基-胞苷。糖修饰包括2'-O-烷基-取代的脱氧核糖核苷和2'-O-乙二醇样核糖核苷。这些糖或糖类似物及相应“核苷”的制备是已知的,其中将此类糖或类似物附接至杂环碱基(核酸碱基)。糖修饰还可以用其他修饰制备和组合。
对糖部分的修饰包括核糖和脱氧核糖的天然修饰以及非天然修饰。糖修饰包括但不限于在2'位的以下修饰:OH;F;O-、S-或N-烷基;O-、S-或N-烯基;O-、S-或N-炔基;或O-烷基-O-烷基,其中烷基、烯基和炔基可以是取代的或未取代的C1至C10烷基或C2至C10烯基和炔基。2'糖修饰还包括但不限于-O[(CH2)nO]m CH3、-O(CH2)nOCH3、-O(CH2)nNH2、-O(CH2)nCH3、-O(CH2)nONH2和-O(CH2)nON[(CH2)n CH3)]2,其中n和m是1至约10。
在2'位的其他修饰包括但不限于:C1至C10低级烷基、取代的低级烷基、烷芳基、芳烷基、O-烷芳基、O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团、以及具有类似特性的其他取代基。还可以在糖上的其他位置进行类似修饰,特别是3'末端核苷酸上或2'-5'连接的寡核苷酸中的糖的3'位,以及5'末端核苷酸的5'位。修饰的糖还包括在桥接环氧处含有修饰(如CH2和S)的那些。核苷酸糖类似物还可以具有糖模拟物,如代替戊呋喃糖基糖的环丁基部分。有多个美国专利传授此类修饰的糖结构的制备,并且所述美国专利详述并描述多种碱基修饰,如美国专利号4,981,957;5,118,800;5,319,080;5,359,044;5,393,878;5,446,137;5,466,786;5,514,785;5,519,134;5,567,811;5,576,427;5,591,722;5,597,909;5,610,300;5,627,053;5,639,873;5,646,265;5,658,873;5,670,633;4,845,205;5,130,302;5,134,066;5,175,273;5,367,066;5,432,272;5,457,187;5,459,255;5,484,908;5,502,177;5,525,711;5,552,540;5,587,469;5,594,121、5,596,091;5,614,617;5,681,941;和5,700,920,每个专利都通过引用以其整体并入本文。
具有修饰的糖部分的核酸的例子包括而不限于包含以下的核酸:5'-乙烯基、5'-甲基(R或S)、4'-S、2'-F、2'-OCH3和2'-O(CH2)2OCH3取代基。在2'位的取代基还可以选自烯丙基、氨基、叠氮基、硫基、O-烯丙基、O-(C1-C1O烷基)、OCF3、O(CH2)2SCH3、O(CH2)2-O-N(Rm)(Rn)和O-CH2-C(=O)-N(Rm)(Rn),其中每个Rm和Rn独立地是H或者取代的或未取代的C1-C10烷基。
在某些实施方案中,本文所述的核酸包括一种或多种二环核酸。在某些此类实施方案中,二环核酸包含4'与2'核糖基环原子之间的桥。在某些实施方案中,本文提供的核酸包括一种或多种二环核酸,其中所述桥包含4'至2'二环核酸。此类4'至2'二环核酸的例子包括但不限于以下式中的一种:4'-(CH2)-O-2'(LNA);4'-(CH2)-S-2';4'-(CH2)2-O-2'(ENA);4'-CH(CH3)-O-2'和4'-CH(CH2OCH3)-O-2'及其类似物(参见,美国专利号7,399,845);4'-C(CH3)(CH3)-O-2'及其类似物(参见WO2009/006478、WO2008/150729、US2004/0171570、美国专利号7,427,672;Chattopadhyaya等人,J.Org.Chem.,209,74,118-134;和WO2008/154401)。还参见例如:Singh等人,Chem.Commun.,1998,4,455-456;Koshkin等人,Tetrahedron,1998,54,3607-3630;Wahlest edt等人,Proc.Natl.Acad.Sci.U.S.A.,2000,97,5633-5638;Kumar等人,Bioorg.Med.Chem.Lett.,1998,8,2219-2222;Singh等人,J.Org.Chem.,1998,63,10035-10039;Srivastava等人,J.Am.Chem.Soc.,2007,129(26)8362-8379;Elayadi等人,Curr.Opinion Invens.Drugs,2001,2,558-561;Braasch等人,Chem.Biol,2001,8,1-7;Oram等人,Curr.Opinion Mol.Ther.,2001,3,239-243;美国专利号4,849,513;5,015,733;5,118,800;5,118,802;7,053,207;6,268,490;6,770,748;6,794,499;7,034,133;6,525,191;6,670,461;和7,399,845;国际公开号WO2004/106356、WO1994/14226、WO2005/021570、WO2007/090071和WO2007/134181;美国专利公开号US2004/0171570、US2007/0287831和US2008/0039618;美国临时申请号60/989,574、61/026,995、61/026,998、61/056,564、61/086,231、61/097,787和61/099,844;以及国际申请号PCT/US2008/064591、PCT US2008/066154、PCT US2008/068922和PCT/DK98/00393。
在某些实施方案中,核酸包含连接的核酸。核酸可以使用任何核酸间连接连接在一起。核酸间连接基团的两个主要种类是依据磷原子的存在或不存在来定义的。代表性含磷核酸间连接包括但不限于磷酸二酯、磷酸三酯、甲基膦酸酯、氨基磷酸酯和硫代磷酸酯(P=S)。代表性不含磷核酸间连接基团包括但不限于亚甲基甲基亚氨基(-CH2-N(CH3)-O-CH2-)、硫代二酯(-O-C(O)-S-)、硫羰基氨基甲酸酯(-O-C(O)(NH)-S-);硅氧烷(-O-Si(H)2-O-);和N,N*-二甲肼(-CH2-N(CH3)-N(CH3))。在某些实施方案中,可以将具有手性原子的核酸间连接制备为外消旋混合物,制备为分开的对映异构体,例如,烷基膦酸酯和硫代磷酸酯。非天然核酸可以含有单一修饰。非天然核酸可以含有在一个部分内或在不同部分之间的多个修饰。
对核酸的骨架磷酸修饰包括但不限于甲基膦酸酯、硫代磷酸酯、氨基磷酸酯(桥接或非桥接)、磷酸三酯、二硫代磷酸酯(phosphorodithioate)、二硫代磷酸酯(phosphodithioate)和硼烷磷酸酯,并且可以以任何组合来使用。还可以使用其他非磷酸酯连接。
在一些实施方案中,骨架修饰(例如,甲基膦酸酯、硫代磷酸酯、氨基磷酸酯和二硫代磷酸酯核苷酸间连接)可以在修饰的核酸上赋予免疫调节活性和/或增强其体内稳定性。
在一些情况下,磷衍生物(或修饰的磷酸基)附接至糖或糖类似物部分,并且可以是单磷酸酯、二磷酸酯、三磷酸酯、烷基膦酸酯、硫代磷酸酯、二硫代磷酸酯、氨基磷酸酯等。含有修饰的磷酸酯连接或非磷酸酯连接的示例性多核苷酸可以发现于以下文献中:Peyrottes等人,1996,Nucleic Acids Res.24:1841-1848;Chaturvedi等人,1996,NucleicAcids Res.24:2318-2323;和Schultz等人,(1996)Nucleic Acids Res.24:2966-2973;Matteucci,1997,“Oligonucleotide Analogs:an Overview”in Oligonucleotides asTherapeutic Agents,(Chadwick和Cardew,编辑)John Wiley and Sons,纽约,纽约州;Zon,1993,“Oligonucleoside Phosphorothioates”in Protocols for Oligonucleotidesand Analogs,Synthesis and Properties,Humana Press,第165-190页;Miller等人,1971,JACS 93:6657-6665;Jager等人,1988,Biochem.27:7247-7246;Nelson等人,1997,JOC 62:7278-7287;美国专利号5,453,496;和Micklefield,2001,Curr.Med.Chem.8:1157-1179。
在一些情形中,骨架修饰包括用可替代部分如阴离子基团、中性基团或阳离子基团替代磷酸二酯连接。此类修饰的例子包括:阴离子核苷间连接;N3'至P5'氨基磷酸酯修饰;硼烷磷酸酯DNA;原寡核苷酸;中性核苷间连接,如甲基膦酸酯;酰胺连接的DNA;亚甲基(甲基亚氨基)连接;甲缩醛(formacetal)和硫代甲缩醛连接;含有磺酰基的骨架;吗啉代寡聚物;肽核酸(PNA);以及带正电荷的脱氧核糖核酸胍(DNG)寡聚物(Micklefield,2001,Current Medicinal Chemistry 8:1157-1179)。修饰的核酸可以包含含有一种或多种修饰的嵌合或混合骨架,例如磷酸酯连接的组合,如磷酸二酯与硫代磷酸酯连接的组合。
磷酸酯的取代物包括例如短链烷基或环烷基核苷间连接、混合的杂原子和烷基或环烷基核苷间连接、或者一种或多种短链杂原子或杂环核苷间连接。这些包括具有以下的那些:吗啉代连接(部分从核苷的糖部分形成);硅氧烷骨架;硫化物、亚砜和砜骨架;甲酰基(formacetyl)和硫代甲酰基骨架;亚甲基甲酰基和硫代甲酰基骨架;含烯烃骨架;氨基磺酸酯骨架;亚甲基亚氨基和亚甲基肼基骨架;磺酸酯和磺酰胺骨架;酰胺骨架;以及具有混合的N、O、S和CH2组成部分的其他连接。多个美国专利披露如何制备和使用这些类型的磷酸酯替代品,并且包括但不限于美国专利号5,034,506;5,166,315;5,185,444;5,214,134;5,216,141;5,235,033;5,264,562;5,264,564;5,405,938;5,434,257;5,466,677;5,470,967;5,489,677;5,541,307;5,561,225;5,596,086;5,602,240;5,610,289;5,602,240;5,608,046;5,610,289;5,618,704;5,623,070;5,663,312;5,633,360;5,677,437;和5,677,439。还应理解,在核苷酸取代物中,核苷酸的糖和磷酸部分二者都可以被替代,例如被酰胺型连接(氨乙基甘氨酸)(PNA)替代。美国专利号5,539,082;5,714,331;和5,719,262传授如何制备和使用PNA分子,每个专利通过引用并入本文。还参见Nielsen等人,Science,1991,254,1497-1500。还可能将其他类型的分子(缀合物)连接至核苷酸或核苷酸类似物,以增强例如细胞摄取。缀合物可以化学连接至核苷酸或核苷酸类似物。此类缀合物包括但不限于脂质部分,如胆固醇部分(Letsinger等人,Proc.Natl.Acad.Sci.USA,1989,86,6553-6556)、胆酸(Manoharan等人,Bioorg.Med.Chem.Let.,1994,4,1053-1060)、硫醚,例如,己基-S-三苯甲基硫醇(Manoharan等人,Ann.KY.Acad.Sci.,1992,660,306-309;Manoharan等人,Bioorg.Med.Chem.Let.,1993,3,2765-2770)、硫代胆固醇(Oberhauser等人,Nucl.Acids Res.,1992,20,533-538)、脂肪族链,例如,十二烷二醇或十一烷基残基(Saison-Behmoaras等人,EM5OJ,1991,10,1111-1118;Kabanov等人,FEBS Lett.,1990,259,327-330;Svinarchuk等人,Biochimie,1993,75,49-54)、磷脂,例如,二-十六烷基-rac-甘油或l-二-O-十六烷基-rac-甘油-S-H-膦酸三乙铵(Manoharan等人,TetrahedronLett.,1995,36,3651-3654;Shea等人,Nucl.Acids Res.,1990,18,3777-3783)、多胺或聚乙二醇链(Manoharan等人,Nucleosides&Nucleotides,1995,14,969-973)、或金刚烷乙酸(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654)、棕榈基部分(Mishra等人,Biochem.Biophys.Acta,1995,1264,229-237)、或十八烷胺或己基氨基-羰基-氧基胆固醇部分(Crooke等人,J.Pharmacol.Exp.Ther.,1996,277,923-937)。多个美国专利传授此类缀合物的制备,并且包括但不限于美国专利号4,828,979;4,948,882;5,218,105;5,525,465;5,541,313;5,545,730;5,552,538;5,578,717、5,580,731;5,580,731;5,591,584;5,109,124;5,118,802;5,138,045;5,414,077;5,486,603;5,512,439;5,578,718;5,608,046;4,587,044;4,605,735;4,667,025;4,762,779;4,789,737;4,824,941;4,835,263;4,876,335;4,904,582;4,958,013;5,082,830;5,112,963;5,214,136;5,082,830;5,112,963;5,214,136;5,245,022;5,254,469;5,258,506;5,262,536;5,272,250;5,292,873;5,317,098;5,371,241、5,391,723;5,416,203、5,451,463;5,510,475;5,512,667;5,514,785;5,565,552;5,567,810;5,574,142;5,585,481;5,587,371;5,595,726;5,597,696;5,599,923;5,599,928和5,688,941。
核酸碱基配对特性
在一些实施方案中,非天然核酸与另一核酸形成碱基对。在一些实施方案中,稳定整合的非天然核酸是可以与另一核酸(例如,天然或非天然核酸)形成碱基对的非天然核酸。在一些实施方案中,稳定整合的非天然核酸是可以与另一非天然核酸形成碱基对(非天然核酸碱基对(UBP))的非天然核酸。例如,第一非天然核酸可以与第二非天然核酸形成碱基对。例如,可以在掺入核酸时碱基配对的一对非天然核苷酸三磷酸包括d5SICS的三磷酸酯(d5SICSTP)和dNaM的三磷酸酯(dNaMTP)。此类非天然核苷酸可以具有核糖或脱氧核糖糖部分。在一些实施方案中,非天然核酸基本上不与天然核酸(A、T、G、C)形成碱基对。在一些实施方案中,稳定整合的非天然核酸可以与天然核酸形成碱基对。
在一些实施方案中,稳定整合的非天然核酸是可以形成UBP,但是基本上不与四种天然核酸中的每一种形成碱基对的非天然核酸。在一些实施方案中,稳定整合的非天然核酸是可以形成UBP,但是基本上不与一种或多种天然核酸形成碱基对的非天然核酸。例如,稳定整合的非天然核酸可能基本上不与A、T和C形成碱基对,但是可以与G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与A、T和G形成碱基对,但是可以与C形成碱基对。例如,稳定整合的非天然核酸可能基本上不与C、G和A形成碱基对,但是可以与T形成碱基对。例如,稳定整合的非天然核酸可能基本上不与C、G和T形成碱基对,但是可以与A形成碱基对。例如,稳定整合的非天然核酸可能基本上不与A和T形成碱基对,但是可以与C和G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与A和C形成碱基对,但是可以与T和G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与A和G形成碱基对,但是可以与C和T形成碱基对。例如,稳定整合的非天然核酸可能基本上不与C和T形成碱基对,但是可以与A和G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与C和G形成碱基对,但是可以与T和G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与T和G形成碱基对,但是可以与A和G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与G形成碱基对,但是可以与A、T和C形成碱基对。例如,稳定整合的非天然核酸可能基本上不与A形成碱基对,但是可以与G、T和C形成碱基对。例如,稳定整合的非天然核酸可能基本上不与T形成碱基对,但是可以与G、A和C形成碱基对。例如,稳定整合的非天然核酸可能基本上不与C形成碱基对,但是可以与G、T和A形成碱基对。
能够在体内条件下形成非天然DNA或RNA碱基对(UBP)的示例性非天然核苷酸包括但不限于5SICS、d5SICS、NAM、dNaM、dTPT3及其组合。在一些实施方案中,非天然核苷酸包括:
Figure BDA0002646587660000531
工程化生物体
在一些实施方案中,本文公开的方法和质粒被进一步用于产生工程化生物体,例如以改进的UBP保留掺入并复制非天然核苷酸或非天然核酸碱基对(UBP)并且还将含有非天然核苷酸或非天然核酸碱基对的核酸转录并翻译为含有非天然氨基酸残基的蛋白质的生物体。在一些情况下,所述生物体是半合成生物体(SSO)。在一些情况下,所述SSO是细胞。
在一些情况下,用编码异源蛋白质(例如,能够将非天然核苷酸三磷酸转运至细胞中的核苷三磷酸转运蛋白、增加核苷酸三磷酸转运蛋白的稳定性的修饰的转座相关蛋白、用于去除非天然核苷酸三磷酸位置的修饰的CRISPR/Cas9系统、和/或具有非天然核酸的高保真度的聚合酶)的表达盒将所用细胞遗传转化,使得将非天然核苷酸掺入细胞核酸中,并且例如在体内条件下形成非天然碱基对。在一些情况下,细胞还包含增强的用于非天然核酸摄取的活性。在一些情形中,细胞还包含增强的用于非天然核酸输入的活性。在一些情形中,细胞还包含增强的针对非天然核酸的聚合酶活性。
在一些实施方案中,Cas9和sgRNA是在分开的质粒上编码。在一些情况下,Cas9和sgRNA是在同一质粒上编码。在一些情形中,编码Cas9、sgRNA或包含非天然核苷酸的核酸分子的核酸分子位于一种或多种质粒上。在一些情况下,Cas9在第一质粒上编码,并且sgRNA和包含非天然核苷酸的核酸分子在第二质粒上编码。在一些情况下,Cas9、sgRNA和包含非天然核苷酸的核酸分子在同一质粒上编码。在一些情况下,核酸分子包含两种或更多种非天然核苷酸。
在一些情况下,将编码Cas9和sgRNA的第一质粒和编码包含非天然核苷酸的核酸分子的第二质粒引入工程化微生物中。在一些情况下,将编码Cas9的第一质粒和编码sgRNA和包含非天然核苷酸的核酸分子的第二质粒引入工程化微生物中。在一些情况下,将编码Cas9、sgRNA和包含非天然核苷酸的核酸分子的质粒引入工程化微生物中。在一些情况下,核酸分子包含两种或更多种非天然核苷酸。
在一些实施方案中,产生在其核酸内掺入至少一种非天然核苷酸和/或至少一种非天然碱基对(UBP)的活细胞。在一些情况下,非天然碱基对包括一对非天然互相碱基配对的核苷酸,在通过核苷酸三磷酸转运蛋白的作用将所述非天然互相碱基配对的核苷酸作为其相应三磷酸酯吸收至细胞中时,所述核苷酸能够在体内条件下形成非天然碱基对。可以通过编码核苷酸三磷酸转运蛋白的表达盒将细胞遗传转化,使得核苷酸三磷酸转运蛋白被表达并且可用于将非天然核苷酸转运至细胞中。可以通过编码聚合酶的表达盒将细胞遗传转化,使得聚合酶被表达并且可用于将非天然核苷酸掺入细胞的核酸中。细胞可以是原核或真核细胞,并且作为相应三磷酸酯的非天然互相碱基配对的核苷酸对可以是d5SICS的三磷酸酯(d5SICSTP)和dNaM的三磷酸酯(dNaMTP)。
在一些实施方案中,细胞是用核酸遗传转化的细胞,所述核酸例如编码能够将此类非天然核苷酸转运至细胞中的核苷酸三磷酸转运蛋白的表达盒。细胞可以包含异源核苷酸三磷酸转运蛋白,其中异源核苷酸三磷酸转运蛋白可以将天然和非天然核苷酸三磷酸转运至细胞中。细胞可以包含异源聚合酶,其中异源聚合酶具有针对非天然核酸的活性。
在一些情形中,本文所述的方法还包括在磷酸钾和/或磷酸酶或核苷酸酶的抑制剂存在下使遗传转化的细胞与非天然核苷酸的相应三磷酸酯形式接触。在此接触期间或之后,可以将细胞置于适合于细胞的生长和复制的生命支持培养基内。可以将细胞维持在生命支持培养基中,使得将非天然核苷酸的相应三磷酸酯形式掺入细胞内的核酸中,并且经过细胞的至少一个复制周期。作为相应三磷酸酯的非天然互相碱基配对的核苷酸对可以包含d5SICS的三磷酸酯(d5SICSTP)和dNaM的三磷酸酯(dNaMTP),所述细胞可以是大肠杆菌,并且可以通过转运蛋白PtNTT2将d5SICSTP和dNaMTP高效输入大肠杆菌中,其中大肠杆菌聚合酶如Pol I可以高效使用非天然三磷酸酯来复制DNA,由此将非天然核苷酸和/或非天然碱基对掺入细胞环境内的细胞核酸中。
通过实践本发明的方法,普通技术人员可以获得在维持在至少一些单独细胞内的至少一个核酸内具有至少一种非天然核苷酸和/或至少一种非天然碱基对(UBP)的活增殖细胞群,其中所述至少一个核酸在所述细胞内稳定增殖,并且其中在适合于生物体的生长和复制的生命支持培养基中与一种或多种非天然核苷酸接触(例如,在其存在下生长)时,所述细胞表达适于提供一种或多种非天然核苷酸的三磷酸酯形式的细胞摄取的核苷酸三磷酸转运蛋白。
在通过核苷酸三磷酸转运蛋白转运至细胞中之后,通过细胞机构(例如,细胞自身的DNA和/或RNA聚合酶、异源聚合酶或已经使用定向进化进化出的聚合酶)将非天然碱基配对的核苷酸掺入细胞内的核酸中(Chen T,Romesberg FE,FEBS Lett.2014年1月21日;588(2):219-29;Betz K等人,J Am Chem Soc.2013年12月11日;135(49):18637-43)。可以将非天然核苷酸掺入细胞核酸中,所述核酸如基因组DNA、基因组RNA、mRNA、结构RNA、微小RNA和自主复制的核酸(例如,质粒、病毒或载体)。
在一些情形中,通过将核酸(例如,异源核酸)引入细胞中来产生基因工程化细胞。本文所述的任何细胞都可以是宿主细胞,并且可以包含表达载体。在一个实施方案中,宿主细胞是原核细胞。在另一个实施方案中,宿主细胞是大肠杆菌。在一些实施方案中,细胞包含一种或多种异源多核苷酸。可以使用各种技术将核酸试剂引入微生物中。用于将异源核酸引入各种生物体中的方法的非限制性例子包括:转化、转染、转导、电穿孔、超声介导的转化、粒子轰击等。在一些情况下,添加载体分子(例如,双苯并咪唑基化合物,例如,参见美国专利号5,595,899)可以增加DNA在通常即使通过常规方法也难以转化的细胞中的摄取。常规转化方法是技术人员容易获得的,并且可以发现于以下文献中:Maniatis,T.,E.F.Fritsch和J.Sambrook(1982)Molecular Cloning:a Laboratory Manual;ColdSpring Harbor Laboratory,Cold Spring Harbor,纽约。
在一些情况下,遗传转化是使用在但不限于质粒、病毒载体、病毒核酸、噬菌体核酸、噬菌体、粘粒和人工染色体中的表达盒的直接转移,或者经由细胞或载体如阳离子脂质体中遗传物质的转移来获得。此类方法是本领域中可获得的,并且易于针对在本文所述方法中的使用来调整。转移载体可以是用于将基因递送至细胞(例如,质粒)中的任何核苷酸构建体,或者作为递送基因的通用策略的一部分,例如,作为重组逆转录病毒或腺病毒的一部分(Ram等人Cancer Res.53:83-88,(1993))。适当的转染方式,包括病毒载体、化学转染体或物理-机械方法如电穿孔以及DNA的直接扩散,描述于例如以下文献中:Wolff,J.A.,等人,Science,247,1465-1468,(1990);和Wolff,J.A.Nature,352,815-818,(1991)。
例如,可以通过任何方法将核苷酸三磷酸转运蛋白或聚合酶核酸分子、表达盒和/或载体引入细胞中,所述方法包括但不限于钙介导的转化、电穿孔、显微注射、脂转染、粒子轰击等。
在一些情形中,细胞包含掺入细胞内的一种或多种核酸中的非天然核苷酸三磷酸。例如,细胞可以是能够将至少一种非天然核苷酸掺入维持在细胞内的DNA或RNA内的活细胞。所述细胞还可以在体内条件下将包含一对非天然互相碱基配对的核苷酸的至少一种非天然碱基对(UBP)掺入细胞内的核酸中,其中所述非天然互相碱基配对的核苷酸(例如,其相应三磷酸酯)通过核苷酸三磷酸转运蛋白的作用被吸收到所述细胞中,所述核苷酸三磷酸转运蛋白的基因通过遗传转化被呈递(例如,被引入)所述细胞中。例如,在掺入维持在细胞内的核酸中之后,d5SICS和dNaM可以形成稳定的非天然碱基对,所述碱基对可以通过生物体的DNA复制机构稳定增殖,例如,当在包含d5SICS和dNaM的生命支持培养基中生长时。
在一些情形中,细胞能够复制非天然核酸。此类方法可以包括用编码核苷酸三磷酸转运蛋白的表达盒对细胞进行遗传转化,所述核苷酸三磷酸转运蛋白能够在体内条件下将作为相应三磷酸酯的一种或多种非天然核苷酸转运至细胞中。可替代地,可以采用先前已经用表达盒遗传转化的细胞,所述表达盒可以表达所编码的核苷酸三磷酸转运蛋白。所述方法还可以包括在适合于细胞的生长和复制的生命支持培养基中使遗传转化的细胞接触或暴露于磷酸钾以及至少一种非天然核苷酸(例如,能够形成非天然碱基对(UBP)的两个互相碱基配对的核苷酸)的相应三磷酸酯形式,并且在至少一种非天然核苷酸(例如,能够形成非天然碱基对(UBP)的两个互相碱基配对的核苷酸)的相应三磷酸酯形式存在下,在体内条件下,将转化的细胞维持在生命支持培养基中,经过细胞的至少一个复制周期。
在一些实施方案中,细胞包含稳定掺入的非天然核酸。一些实施方案包括在维持在细胞内的核酸内稳定掺入除了A、G、T和C以外的核苷酸的细胞(例如,如大肠杆菌)。例如,除了A、G、T和C以外的核苷酸可以是d5SICS、dNaM和dTPT3,它们在掺入细胞的核酸中之后可以在核酸内形成稳定的非天然碱基对。在一方面,当用三磷酸转运蛋白的基因转化的生物体在包括磷酸钾和d5SICS、dNaM和dTPT3的三磷酸酯形式的生命支持培养基中生长时,非天然核苷酸和非天然碱基对可以通过生物体的复制装置稳定增殖。
在一些情形中,细胞包含扩展的遗传字母。细胞可以包含稳定掺入的非天然核酸。在一些实施方案中,具有扩展的遗传字母的细胞包含可以与另一核酸(例如,天然或非天然核酸)形成碱基对(bp)的非天然核酸。在一些实施方案中,具有扩展的遗传字母的细胞包含与另一核酸以氢键键结的非天然核酸。在一些实施方案中,具有扩展的遗传字母的细胞包含未与碱基配对的另一核酸以氢键键结的非天然核酸。在一些实施方案中,具有扩展的遗传字母的细胞包含经由疏水相互作用与另一核酸碱基配对的非天然核酸。在一些实施方案中,具有扩展的遗传字母的细胞包含经由非氢键相互作用与另一核酸碱基配对的非天然核酸。具有扩展的遗传字母的细胞可以是可以拷贝同源核酸以形成包含非天然核酸的核酸的细胞。具有扩展的遗传字母的细胞可以是包含与另一非天然核酸碱基配对的非天然核酸(非天然核酸碱基对(UBP))的细胞。
在一些实施方案中,细胞在体内条件下从输入的非天然核苷酸形成非天然DNA碱基对(UBP)。在一些实施方案中,磷酸钾和/或磷酸酶和/或核苷酸酶活性的抑制剂可以促进非天然核酸的转运。所述方法包括使用表达异源核苷酸三磷酸转运蛋白的细胞。在使这种细胞与一种或多种核苷酸三磷酸接触时,所述核苷酸三磷酸被转运至所述细胞中。细胞可以处于磷酸钾和/或磷酸酶和核苷酸酶的抑制剂的存在下。非天然核苷酸三磷酸可以通过细胞的天然机构被掺入细胞内的核酸中,并且可以在细胞的核酸内互相碱基配对以形成非天然碱基对。
在一些实施方案中,UBP可以在暴露于非天然三磷酸酯时被掺入细胞或细胞群中。在一些实施方案中,UBP可以在基本上一致地暴露于非天然三磷酸酯时被掺入细胞或细胞群中。在一些实施方案中,UBP的复制不会导致显著降低的生长速率。在一些实施方案中,异源蛋白(例如,核苷酸三磷酸转运蛋白)的复制表达不会导致显著降低的生长速率。
在一些实施方案中,与没有诱导异源基因的表达的细胞的生长和摄取相比,在细胞中诱导异源基因(例如,NTT)的表达可以导致更慢的细胞生长和增加的非天然核酸摄取。在一些实施方案中,与没有诱导异源基因的表达的细胞的生长和摄取相比,在细胞中诱导异源基因(例如,NTT)的表达可以导致增加的细胞生长和增加的非天然核酸摄取。
在一些实施方案中,UBP是在对数生长期期间掺入。在一些实施方案中,UBP是在非对数生长期期间掺入。在一些实施方案中,UBP是在基本上线性的生长期期间掺入。在一些实施方案中,UBP是在生长一段时间后稳定掺入细胞或细胞群中。例如,UBP可以在生长至少约1、2、3、4、5、6,、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45或50或更多次倍增后稳定掺入细胞或细胞群中。例如,UBP可以在生长至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24小时生长后稳定掺入细胞或细胞群中。例如,UBP可以在生长至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31天生长后稳定掺入细胞或细胞群中。例如,UBP可以在生长至少约1、2、3、4、5、6,、7、8、9、10、11或12个月生长后稳定掺入细胞或细胞群中。例如,UBP可以在生长至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、50年生长后稳定掺入细胞或细胞群中。
在一些实施方案中,细胞进一步利用本文所述的聚合酶来产生突变体mRNA,所述突变体mRNA含有包含一种或多种非天然核酸碱基的突变体密码子。在一些情况下,细胞进一步利用本文所公开的聚合酶来产生突变体tRNA,所述突变体tRNA含有包含一种或多种非天然核酸碱基的突变体反密码子。在一些情况下,突变体反密码子表示非天然氨基酸。在一些情况下,在翻译以合成含有非天然氨基酸的蛋白质期间,突变体tRNA的反密码子与突变体mRNA的密码子配对。
如本文所用,氨基酸残基可以指同时含有氨基和羧基的分子。合适的氨基酸包括而不限于天然存在的氨基酸的D-异构体和L-异构体二者,以及通过有机合成或其他代谢途径制备的非天然存在的氨基酸。如本文所用术语氨基酸包括但不限于α-氨基酸、天然氨基酸、非天然氨基酸和氨基酸类似物。
术语“α-氨基酸”可以指同时含有与命名为α-碳的碳结合的氨基和羧基的分子。
术语“β-氨基酸”可以指呈β构型的同时含有氨基和羧基的分子。
“天然存在的氨基酸”可以指一般在自然界中合成的肽中发现的二十种氨基酸中的任一种,并且以单字母缩写A、R、N、C、D、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V而为人所知。
下表显示天然氨基酸的特性的汇总:
Figure BDA0002646587660000591
Figure BDA0002646587660000601
“疏水氨基酸”包括小疏水氨基酸和大疏水氨基酸。“小疏水氨基酸”可以是甘氨酸、丙氨酸、脯氨酸及其类似物。“大疏水氨基酸”可以是缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸、甲硫氨酸、色氨酸及其类似物。“极性氨基酸”可以是丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、酪氨酸及其类似物。“带电荷的氨基酸”可以是赖氨酸、精氨酸、组氨酸、天冬氨酸、谷氨酸及其类似物。
“氨基酸类似物”可以是结构上与氨基酸类似并且可以在拟肽大环的形成中取代氨基酸的分子。氨基酸类似物包括而不限于β-氨基酸和其中氨基或羧基被类似反应性基团取代(例如,伯胺被仲胺或叔胺取代,或者羧基被酯取代)的氨基酸。
“非天然氨基酸”可以是并非一般在自然界中合成的肽中发现并且以单字母缩写A、R、N、C、D、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V而为人所知的二十种氨基酸之一的氨基酸。
氨基酸类似物可以包括β-氨基酸类似物。β-氨基酸类似物的例子包括但不限于以下:环状β-氨基酸类似物;β-丙氨酸;(R)-β-苯丙氨酸;(R)-1,2,3,4-四氢-异喹啉-3-乙酸;(R)-3-氨基-4-(1-萘基)-丁酸;(R)-3-氨基-4-(2,4-二氯苯基)丁酸;(R)-3-氨基-4-(2-氯苯基)-丁酸;(R)-3-氨基-4-(2-氰基苯基)-丁酸;(R)-3-氨基-4-(2-氟苯基)-丁酸;(R)-3-氨基-4-(2-呋喃基)-丁酸;(R)-3-氨基-4-(2-甲基苯基)-丁酸;(R)-3-氨基-4-(2-萘基)-丁酸;(R)-3-氨基-4-(2-噻吩基)-丁酸;(R)-3-氨基-4-(2-三氟甲基苯基)-丁酸;(R)-3-氨基-4-(3,4-二氯苯基)丁酸;(R)-3-氨基-4-(3,4-二氟苯基)丁酸;(R)-3-氨基-4-(3-苯并噻吩基)-丁酸;(R)-3-氨基-4-(3-氯苯基)-丁酸;(R)-3-氨基-4-(3-氰基苯基)-丁酸;(R)-3-氨基-4-(3-氟苯基)-丁酸;(R)-3-氨基-4-(3-甲基苯基)-丁酸;(R)-3-氨基-4-(3-吡啶基)-丁酸;(R)-3-氨基-4-(3-噻吩基)-丁酸;(R)-3-氨基-4-(3-三氟甲基苯基)-丁酸;(R)-3-氨基-4-(4-溴苯基)-丁酸;(R)-3-氨基-4-(4-氯苯基)-丁酸;(R)-3-氨基-4-(4-氰基苯基)-丁酸;(R)-3-氨基-4-(4-氟苯基)-丁酸;(R)-3-氨基-4-(4-碘苯基)-丁酸;(R)-3-氨基-4-(4-甲基苯基)-丁酸;(R)-3-氨基-4-(4-硝基苯基)-丁酸;(R)-3-氨基-4-(4-吡啶基)-丁酸;(R)-3-氨基-4-(4-三氟甲基苯基)-丁酸;(R)-3-氨基-4-五氟-苯基丁酸;(R)-3-氨基-5-己烯酸;(R)-3-氨基-5-己炔酸;(R)-3-氨基-5-苯基戊酸;(R)-3-氨基-6-苯基-5-己烯酸;(S)-1,2,3,4-四氢-异喹啉-3-乙酸;(S)-3-氨基-4-(1-萘基)-丁酸;(S)-3-氨基-4-(2,4-二氯苯基)丁酸;(S)-3-氨基-4-(2-氯苯基)-丁酸;(S)-3-氨基-4-(2-氰基苯基)-丁酸;(S)-3-氨基-4-(2-氟苯基)-丁酸;(S)-3-氨基-4-(2-呋喃基)-丁酸;(S)-3-氨基-4-(2-甲基苯基)-丁酸;(S)-3-氨基-4-(2-萘基)-丁酸;(S)-3-氨基-4-(2-噻吩基)-丁酸;(S)-3-氨基-4-(2-三氟甲基苯基)-丁酸;(S)-3-氨基-4-(3,4-二氯苯基)丁酸;(S)-3-氨基-4-(3,4-二氟苯基)丁酸;(S)-3-氨基-4-(3-苯并噻吩基)-丁酸;(S)-3-氨基-4-(3-氯苯基)-丁酸;(S)-3-氨基-4-(3-氰基苯基)-丁酸;(S)-3-氨基-4-(3-氟苯基)-丁酸;(S)-3-氨基-4-(3-甲基苯基)-丁酸;(S)-3-氨基-4-(3-吡啶基)-丁酸;(S)-3-氨基-4-(3-噻吩基)-丁酸;(S)-3-氨基-4-(3-三氟甲基苯基)-丁酸;(S)-3-氨基-4-(4-溴苯基)-丁酸;(S)-3-氨基-4-(4-氯苯基)丁酸;(S)-3-氨基-4-(4-氰基苯基)-丁酸;(S)-3-氨基-4-(4-氟苯基)丁酸;(S)-3-氨基-4-(4-碘苯基)-丁酸;(S)-3-氨基-4-(4-甲基苯基)-丁酸;(S)-3-氨基-4-(4-硝基苯基)-丁酸;(S)-3-氨基-4-(4-吡啶基)-丁酸;(S)-3-氨基-4-(4-三氟甲基苯基)-丁酸;(S)-3-氨基-4-五氟-苯基丁酸;(S)-3-氨基-5-己烯酸;(S)-3-氨基-5-己炔酸;(S)-3-氨基-5-苯基戊酸;(S)-3-氨基-6-苯基-5-己烯酸;1,2,5,6-四氢吡啶-3-甲酸;1,2,5,6-四氢吡啶-4-甲酸;3-氨基-3-(2-氯苯基)-丙酸;3-氨基-3-(2-噻吩基)-丙酸;3-氨基-3-(3-溴苯基)-丙酸;3-氨基-3-(4-氯苯基)-丙酸;3-氨基-3-(4-甲氧基苯基)-丙酸;3-氨基-4,4,4-三氟-丁酸;3-氨基己二酸;D-β-苯丙氨酸;β-亮氨酸;L-β-高丙氨酸;L-β-高天冬氨酸γ-苄基酯;L-β-高谷氨酸δ-苄基酯;L-β-高异亮氨酸;L-β-高亮氨酸;L-β-高甲硫氨酸;L-β-高苯丙氨酸;L-β-高脯氨酸;L-β-高色氨酸;L-β-高缬氨酸;L-Nω-苄氧基羰基-β-高赖氨酸;Nω-L-β-高精氨酸;O-苄基-L-β-高羟脯氨酸;O-苄基-L-β-高丝氨酸;O-苄基-L-β-高苏氨酸;O-苄基-L-β-高酪氨酸;γ-三苯甲基-L-β-高天冬酰胺;(R)-β-苯丙氨酸;L-β-高天冬氨酸γ-叔丁基酯;L-β-高谷氨酸δ-叔丁基酯;L-Nω-β-高赖氨酸;Nδ-三苯甲基-L-β-高谷氨酰胺;Nω-2,2,4,6,7-五甲基-二氢苯并呋喃-5-磺酰基-L-β-高精氨酸;O-叔丁基-L-β-高羟脯氨酸;O-叔丁基-L-β-高丝氨酸;O-叔丁基-L-β-高苏氨酸;O-叔丁基-L-β-高酪氨酸;2-氨基环戊烷羧酸;和2-氨基环己烷羧酸。
氨基酸类似物可以包括丙氨酸、缬氨酸、甘氨酸或亮氨酸的类似物。丙氨酸、缬氨酸、甘氨酸和亮氨酸的氨基酸类似物的例子包括但不限于以下:α-甲氧基甘氨酸;α-烯丙基-L-丙氨酸;α-氨基异丁酸;α-甲基-亮氨酸;β-(1-萘基)-D-丙氨酸;β-(1-萘基)-L-丙氨酸;β-(2-萘基)-D-丙氨酸;β-(2-萘基)-L-丙氨酸;β-(2-吡啶基)-D-丙氨酸;β-(2-吡啶基)-L-丙氨酸;β-(2-噻吩基)-D-丙氨酸;β-(2-噻吩基)-L-丙氨酸;β-(3-苯并噻吩基)-D-丙氨酸;β-(3-苯并噻吩基)-L-丙氨酸;β-(3-吡啶基)-D-丙氨酸;β-(3-吡啶基)-L-丙氨酸;β-(4-吡啶基)-D-丙氨酸;β-(4-吡啶基)-L-丙氨酸;β-氯-L-丙氨酸;β-氰基-L-丙氨酸;β-环己基-D-丙氨酸;β-环己基-L-丙氨酸;β-环戊烯-1-基-丙氨酸;β-环戊基-丙氨酸;β-环丙基-L-Ala-OH.二环己基铵盐;β-叔丁基-D-丙氨酸;β-叔丁基-L-丙氨酸;γ-氨基丁酸;L-α,β-二氨基丙酸;2,4-二硝基-苯基甘氨酸;2,5-二氢-D-苯基甘氨酸;2-氨基-4,4,4-三氟丁酸;2-氟-苯基甘氨酸;3-氨基-4,4,4-三氟-丁酸;3-氟-缬氨酸;4,4,4-三氟-缬氨酸;4,5-脱氢-L-leu-OH.二环己基铵盐;4-氟-D-苯基甘氨酸;4-氟-L-苯基甘氨酸;4-羟基-D-苯基甘氨酸;5,5,5-三氟-亮氨酸;6-氨基己酸;环戊基-D-Gly-OH.二环己基铵盐;环戊基-Gly-OH.二环己基铵盐;D-α,β-二氨基丙酸;D-α-氨基丁酸;D-α-叔丁基甘氨酸;D-(2-噻吩基)甘氨酸;D-(3-噻吩基)甘氨酸;D-2-氨基己酸;D-2-茚满基甘氨酸;D-烯丙基甘氨酸-二环己基铵盐;D-环己基甘氨酸;D-正缬氨酸;D-苯基甘氨酸;β-氨基丁酸;β-氨基异丁酸;(2-溴苯基)甘氨酸;(2-甲氧基苯基)甘氨酸;(2-甲基苯基)甘氨酸;(2-噻唑基)甘氨酸;(2-噻吩基)甘氨酸;2-氨基-3-(二甲基氨基)-丙酸;L-α,β-二氨基丙酸;L-α-氨基丁酸;L-α-叔丁基甘氨酸;L-(3-噻吩基)甘氨酸;L-2-氨基-3-(二甲基氨基)-丙酸;L-2-氨基己酸二环己基-铵盐;L-2-茚满基甘氨酸;L-烯丙基甘氨酸.二环己基铵盐;L-环己基甘氨酸;L-苯基甘氨酸;L-炔丙基甘氨酸;L-正缬氨酸;N-α-氨基甲基-L-丙氨酸;D-α,γ-二氨基丁酸;L-α,γ-二氨基丁酸;β-环丙基-L-丙氨酸;(N-β-(2,4-二硝基苯基))-L-α,β-二氨基丙酸;(N-β-1-(4,4-二甲基-2,6-二氧代环己-1-亚基)乙基)-D-α,β-二氨基丙酸;(N-β-1-(4,4-二甲基-2,6-二氧代环己-1-亚基)乙基)-L-α,β-二氨基丙酸;(N-β-4-甲基三苯甲基)-L-α,β-二氨基丙酸;(N-β-烯丙氧基羰基)-L-α,β-二氨基丙酸;(N-γ-1-(4,4-二甲基-2,6-二氧代环己-1-亚基)乙基)-D-α,γ-二氨基丁酸;(N-γ-1-(4,4-二甲基-2,6-二氧代环己-1-亚基)乙基)-L-α,γ-二氨基丁酸;(N-γ-4-甲基三苯甲基)-D-α,γ-二氨基丁酸;(N-γ-4-甲基三苯甲基)-L-α,γ-二氨基丁酸;(N-γ-烯丙氧基羰基)-L-α,γ-二氨基丁酸;D-α,γ-二氨基丁酸;4,5-脱氢-L-亮氨酸;环戊基-D-Gly-OH;环戊基-Gly-OH;D-烯丙基甘氨酸;D-高环己基丙氨酸;L-1-芘基丙氨酸;L-2-氨基己酸;L-烯丙基甘氨酸;L-高环己基丙氨酸;和N-(2-羟基-4-甲氧基-Bzl)-Gly-OH。
氨基酸类似物可以包括精氨酸或赖氨酸的类似物。精氨酸和赖氨酸的氨基酸类似物的例子包括但不限于以下:瓜氨酸;L-2-氨基-3-胍基丙酸;L-2-氨基-3-脲基丙酸;L-瓜氨酸;Lys(Me)2-OH;Lys(N3)-OH;Nδ-苄氧基羰基-L-鸟氨酸;Nω-硝基-D-精氨酸;Nω-硝基-L-精氨酸;α-甲基-鸟氨酸;2,6-二氨基庚二酸;L-鸟氨酸;(Nδ-1-(4,4-二甲基-2,6-二氧代-环己-1-亚基)乙基)-D-鸟氨酸;(Nδ-1-(4,4-二甲基-2,6-二氧代-环己-1-亚基)乙基)-L-鸟氨酸;(Nδ-4-甲基三苯甲基)-D-鸟氨酸;(Nδ-4-甲基三苯甲基)-L-鸟氨酸;D-鸟氨酸;L-鸟氨酸;Arg(Me)(Pbf)-OH;Arg(Me)2-OH(不对称);Arg(Me)2-OH(对称);Lys(ivDde)-OH;Lys(Me)2-OH.HCl;Lys(Me3)-OH氯化物;Nω-硝基-D-精氨酸;和Nω-硝基-L-精氨酸。
氨基酸类似物可以包括天冬氨酸或谷氨酸的类似物。天冬氨酸和谷氨酸的氨基酸类似物的例子包括但不限于以下:α-甲基-D-天冬氨酸;α-甲基-谷氨酸;α-甲基-L-天冬氨酸;γ-亚甲基-谷氨酸;(N-γ-乙基)-L-谷氨酰胺;[N-α-(4-氨基苯甲酰基)]-L-谷氨酸;2,6-二氨基庚二酸;L-α-氨基辛二酸;D-2-氨基己二酸;D-α-氨基辛二酸;α-氨基庚二酸;亚氨基二乙酸;L-2-氨基己二酸;苏式-β-甲基-天冬氨酸;γ-羧基-D-谷氨酸γ,γ-二-叔丁基酯;γ-羧基-L-谷氨酸γ,γ-二-叔丁基酯;Glu(OAll)-OH;L-Asu(OtBu)-OH;和焦谷氨酸。
氨基酸类似物可以包括半胱氨酸和甲硫氨酸的类似物。半胱氨酸和甲硫氨酸的氨基酸类似物的例子包括但不限于Cys(法呢基)-OH、Cys(法呢基)-OMe、α-甲基-甲硫氨酸、Cys(2-羟乙基)-OH、Cys(3-氨基丙基)-OH、2-氨基-4-(乙硫基)丁酸、丁硫氨酸、丁硫氨酸亚砜亚胺、乙硫氨酸、甲硫氨酸甲基锍氯化物、硒代甲硫氨酸、磺基丙氨酸、[2-(4-吡啶基)乙基]-DL-青霉胺、[2-(4-吡啶基)乙基]-L-半胱氨酸、4-甲氧基苄基-D-青霉胺、4-甲氧基苄基-L-青霉胺、4-甲基苄基-D-青霉胺、4-甲基苄基-L-青霉胺、苄基-D-半胱氨酸、苄基-L-半胱氨酸、苄基-DL-高半胱氨酸、氨基甲酰基-L-半胱氨酸、羧乙基-L-半胱氨酸、羧甲基-L-半胱氨酸、二苯基甲基-L-半胱氨酸、乙基-L-半胱氨酸、甲基-L-半胱氨酸、叔丁基-D-半胱氨酸、三苯甲基-L-高半胱氨酸、三苯甲基-D-青霉胺、胱硫醚、高胱氨酸、L-高胱氨酸、(2-氨基乙基)-L-半胱氨酸、硒代-L-胱氨酸、胱硫醚、Cys(StBu)-OH和乙酰胺基甲基-D-青霉胺。
氨基酸类似物可以包括苯丙氨酸和酪氨酸的类似物。苯丙氨酸和酪氨酸的氨基酸类似物的例子包括β-甲基-苯丙氨酸、β-羟基苯丙氨酸、α-甲基-3-甲氧基-DL-苯丙氨酸、α-甲基-D-苯丙氨酸、α-甲基-L-苯丙氨酸、1,2,3,4-四氢异喹啉-3-甲酸、2,4-二氯-苯丙氨酸、2-(三氟甲基)-D-苯丙氨酸、2-(三氟甲基)-L-苯丙氨酸、2-溴-D-苯丙氨酸、2-溴-L-苯丙氨酸、2-氯-D-苯丙氨酸、2-氯-L-苯丙氨酸、2-氰基-D-苯丙氨酸、2-氰基-L-苯丙氨酸、2-氟-D-苯丙氨酸、2-氟-L-苯丙氨酸、2-甲基-D-苯丙氨酸、2-甲基-L-苯丙氨酸、2-硝基-D-苯丙氨酸、2-硝基-L-苯丙氨酸、2;4;5-三羟基-苯丙氨酸、3,4,5-三氟-D-苯丙氨酸、3,4,5-三氟-L-苯丙氨酸、3,4-二氯-D-苯丙氨酸、3,4-二氯-L-苯丙氨酸、3,4-二氟-D-苯丙氨酸、3,4-二氟-L-苯丙氨酸、3,4-二羟基-L-苯丙氨酸、3,4-二甲氧基-L-苯丙氨酸、3,5,3'-三碘-L-甲状腺原氨酸、3,5-二碘-D-酪氨酸、3,5-二碘-L-酪氨酸、3,5-二碘-L-甲状腺原氨酸、3-(三氟甲基)-D-苯丙氨酸、3-(三氟甲基)-L-苯丙氨酸、3-氨基-L-酪氨酸、3-溴-D-苯丙氨酸、3-溴-L-苯丙氨酸、3-氯-D-苯丙氨酸、3-氯-L-苯丙氨酸、3-氯-L-酪氨酸、3-氰基-D-苯丙氨酸、3-氰基-L-苯丙氨酸、3-氟-D-苯丙氨酸、3-氟-L-苯丙氨酸、3-氟-酪氨酸、3-碘-D-苯丙氨酸、3-碘-L-苯丙氨酸、3-碘-L-酪氨酸、3-甲氧基-L-酪氨酸、3-甲基-D-苯丙氨酸、3-甲基-L-苯丙氨酸、3-硝基-D-苯丙氨酸、3-硝基-L-苯丙氨酸、3-硝基-L-酪氨酸、4-(三氟甲基)-D-苯丙氨酸、4-(三氟甲基)-L-苯丙氨酸、4-氨基-D-苯丙氨酸、4-氨基-L-苯丙氨酸、4-苯甲酰基-D-苯丙氨酸、4-苯甲酰基-L-苯丙氨酸、4-双(2-氯乙基)氨基-L-苯丙氨酸、4-溴-D-苯丙氨酸、4-溴-L-苯丙氨酸、4-氯-D-苯丙氨酸、4-氯-L-苯丙氨酸、4-氰基-D-苯丙氨酸、4-氰基-L-苯丙氨酸、4-氟-D-苯丙氨酸、4-氟-L-苯丙氨酸、4-碘-D-苯丙氨酸、4-碘-L-苯丙氨酸、高苯丙氨酸、甲状腺素、3,3-二苯丙氨酸、甲状腺原氨酸、乙基-酪氨酸和甲基-酪氨酸。
氨基酸类似物可以包括脯氨酸的类似物。脯氨酸的氨基酸类似物的例子包括但不限于3,4-脱氢-脯氨酸、4-氟-脯氨酸、顺式-4-羟基-脯氨酸、噻唑烷-2-甲酸和反式-4-氟-脯氨酸。
氨基酸类似物可以包括丝氨酸和苏氨酸的类似物。丝氨酸和苏氨酸的氨基酸类似物的例子包括但不限于3-氨基-2-羟基-5-甲基己酸、2-氨基-3-羟基-4-甲基戊酸、2-氨基-3-乙氧基丁酸、2-氨基-3-甲氧基丁酸、4-氨基-3-羟基-6-甲基庚酸、2-氨基-3-苄氧基丙酸、2-氨基-3-苄氧基丙酸、2-氨基-3-乙氧基丙酸、4-氨基-3-羟基丁酸和α-甲基丝氨酸。
氨基酸类似物可以包括色氨酸的类似物。色氨酸的氨基酸类似物的例子包括但不限于以下:α-甲基-色氨酸;β-(3-苯并噻吩基)-D-丙氨酸;β-(3-苯并噻吩基)-L-丙氨酸;1-甲基-色氨酸;4-甲基-色氨酸;5-苄氧基-色氨酸;5-溴-色氨酸;5-氯-色氨酸;5-氟-色氨酸;5-羟基-色氨酸;5-羟基-L-色氨酸;5-甲氧基-色氨酸;5-甲氧基-L-色氨酸;5-甲基-色氨酸;6-溴-色氨酸;6-氯-D-色氨酸;6-氯-色氨酸;6-氟-色氨酸;6-甲基-色氨酸;7-苄氧基-色氨酸;7-溴-色氨酸;7-甲基-色氨酸;D-1,2,3,4-四氢-去甲哈尔满-3-甲酸;6-甲氧基-1,2,3,4-四氢去甲哈尔满-1-甲酸;7-氮杂色氨酸;L-1,2,3,4-四氢-去甲哈尔满-3-甲酸;5-甲氧基-2-甲基-色氨酸;和6-氯-L-色氨酸。
氨基酸类似物可以是外消旋的。在一些情况下,使用氨基酸类似物的D异构体。在一些情形中,使用氨基酸类似物的L异构体。在一些情况下,氨基酸类似物包含呈R或S构型的手性中心。有时,β-氨基酸类似物的一个或多个氨基被保护基团取代,所述保护基团例如叔丁氧基羰基(BOC基团)、9-芴基甲氧基羰基(FMOC)、甲苯磺酰基等。有时,β-氨基酸类似物的羧酸官能团受保护,例如,作为其酯衍生物受保护。在一些情形中,使用氨基酸类似物的盐。
在一些实施方案中,非天然氨基酸是以下文献中所述的非天然氨基酸:Liu C.C.,Schultz,P.G.Annu.Rev.Biochem.2010,79,413。在一些实施方案中,非天然氨基酸包括N6(2-叠氮基乙氧基)-羰基-L-赖氨酸。
细胞类型
在一些实施方案中,使用许多类型的细胞/微生物,例如,用于转化或基因工程化。在一些实施方案中,细胞是原核细胞或真核细胞。在一些情形中,细胞是微生物,如细菌细胞、真菌细胞、酵母或单细胞原生动物。在其他情形中,细胞是真核细胞,如培养的动物、植物或人细胞。在另外的情形中,细胞存在于生物体如植物或动物中。
在一些实施方案中,工程化微生物是单细胞生物体,通常能够分裂和增殖。微生物可以包括以下特征中的一种或多种:需氧菌、厌氧菌、丝状、非丝状、单倍体、二倍体、营养缺陷型和/或非营养缺陷型。在某些实施方案中,工程化微生物是原核微生物(例如,细菌),并且在某些实施方案中,工程化微生物是非原核微生物。在一些实施方案中,工程化微生物是真核微生物(例如,酵母、真菌、变形虫)。在一些实施方案中,工程化微生物是真菌。在一些实施方案中,工程化生物体是酵母。
可以选择任何合适的酵母作为宿主微生物、工程化微生物、遗传修饰的生物体、或者异源多核苷酸或修饰的多核苷酸的来源。酵母包括但不限于耶氏酵母属(Yarrowia)酵母(例如,解脂耶氏酵母(Y.lipolytica)(曾归类为解脂假丝酵母(Candida lipolytica)))、假丝酵母属(Candida)酵母(例如,C.revkaufi、维斯假丝酵母(C.viswanathii)、铁红假丝酵母(C.pulcherrima)、热带假丝酵母(C.tropicalis)、产蛋白假丝酵母(C.utilis))、红酵母属(Rhodotorula)酵母(例如,粘红酵母(R.glutinus)、禾本红酵母(R.graminis))、红冬孢酵母属(Rhodosporidium)酵母(例如,圆红冬孢酵母(R.toruloides))、酵母属(Saccharomyces)酵母(例如,酿酒酵母(S.cerevisiae)、贝酵母(S.bayanus)、巴斯德酵母(S.pastorianus)、卡尔酵母(S.carlsbergensis))、隐球酵母属(Cryptococcus)酵母、丝孢酵母属(Trichosporon)酵母(例如,茁芽丝孢酵母(T.pullans)、皮状丝孢酵母(T.cutaneum))、毕赤酵母属(Pichia)酵母(例如,巴斯德毕赤酵母(P.pastoris))和油脂酵母属(Lipomyces)酵母(例如,斯达氏油脂酵母(L.starkeyii)、脂褐质油脂酵母(L.lipoferus))。在一些实施方案中,合适的酵母属于以下属:Arachniotus、曲霉菌属(Aspergillus)、短梗霉属(Aureobasidium)、Auxarthron、芽生菌属(Blastomyces)、假丝酵母属、金孢子菌属(Chrysosporuim)、德巴利酵母属(Debaryomyces)、球孢子菌属(Coccidiodes)、隐球酵母属、裸子囊菌属(Gymnoascus)、汉逊酵母属(Hansenula)、组织胞浆菌属(Histoplasma)、伊萨酵母属(Issatchenkia)、克鲁维酵母属(Kluyveromyces)、油脂酵母属、Lssatchenkia、小孢子菌属(Microsporum)、Myxotrichum、Myxozyma、树粉孢属(Oidiodendron)、管囊酵母属(Pachysolen)、青霉属(Penicillium)、毕赤酵母属、红冬孢酵母属、红酵母属、红酵母属、酵母属、裂殖酵母属(Schizosaccharomyces)、帚霉属(Scopulariopsis)、瘤胞霉属(Sepedonium)、丝孢酵母属或耶氏酵母属。在一些实施方案中,合适的酵母属于一下物种:Arachniotus flavoluteus、黄曲霉菌(Aspergillusflavus)、烟曲霉菌(Aspergillus fumigatus)、黑曲霉菌(Aspergillus niger)、出芽短梗霉菌(Aureobasidium pullulans)、Auxarthron thaxteri、皮炎芽生菌(Blastomycesdermatitidis)、白色假丝酵母(Candida albicans)、都柏林假丝酵母(Candidadubliniensis)、无名假丝酵母(Candida famata)、光滑假丝酵母(Candida glabrata)、吉利蒙假丝酵母(Candida guilliermondii)、乳酒假丝酵母(Candida kefyr)、克鲁斯假丝酵母(Candida krusei)、郎比可假丝酵母(Candida lambica)、解脂假丝酵母、Candidalustitaniae、近平滑假丝酵母(Candida parapsilosis)、铁红假丝酵母、Candidarevkaufi、皱褶假丝酵母(Candida rugosa)、热带假丝酵母、产蛋白假丝酵母、维斯假丝酵母、Candida xestobii、嗜角质金孢子菌(Chrysosporuim keratinophilum)、粗球孢子菌(Coccidiodes immitis)、浅白色隐球酵母扩散型变种(Cryptococcus albidusvar.diffluens)、罗伦隐球酵母(Cryptococcus laurentii)、新型隐球酵母(Cryptococcusneofomans)、汉氏德巴利酵母(Debaryomyces hansenii)、Gymnoascus dugwayensis、异常汉逊酵母(Hansenula anomala)、荚膜组织胞浆菌(Histoplasma capsulatum)、西方伊萨酵母(Issatchenkia occidentalis)、东方伊萨酵母(Isstachenkia orientalis)、乳酸克鲁维酵母(Kluyveromyces lactis)、马克斯克鲁维酵母(Kluyveromyces marxianus)、耐热克鲁维酵母(Kluyveromyces thermotolerans)、沃尔提克鲁维酵母(Kluyveromyceswaltii)、脂褐质油脂酵母、斯达氏油脂酵母、石膏样小孢子菌(Microsporum gypseum)、Myxotrichum deflexum、棘刺树粉孢(Oidiodendron echinulatum)、嗜鞣管囊酵母(Pachysolen tannophilis)、点青霉(Penicillium notatum)、异常毕赤酵母(Pichiaanomala)、巴斯德毕赤酵母、树干毕赤酵母(Pichia stipitis)、圆红冬孢酵母、粘红酵母、禾本红酵母、酿酒酵母、克鲁弗酵母(Saccharomyces kluyveri)、粟酒裂殖酵母(Schizosaccharomyces pombe)、顶孢帚霉(Scopulariopsis acremonium)、黄瘤孢菌(Sepedonium chrysospermum)、皮状丝孢酵母、茁芽丝孢酵母、解脂耶氏酵母、或解脂耶氏酵母(曾归类为解脂假丝酵母)。在一些实施方案中,酵母是解脂耶氏酵母菌株,包括但不限于ATCC20362、ATCC8862、ATCC18944、ATCC20228、ATCC76982和LGAM S(7)1菌株(Papanikolaou S.和Aggelis G.,Bioresour.Technol.82(1):43-9(2002))。在某些实施方案中,酵母是假丝酵母属物种(即,假丝酵母属物种)酵母。可以使用任何合适的假丝酵母属物种来产生脂肪二羧酸(例如,辛二酸、癸二酸、十二烷二酸、十四烷二酸、十六烷二酸、十八烷二酸、二十烷二酸),和/或可以针对脂肪二羧酸(例如,辛二酸、癸二酸、十二烷二酸、十四烷二酸、十六烷二酸、十八烷二酸、二十烷二酸)的产生对任何合适的假丝酵母属物种进行遗传修饰。在一些实施方案中,合适的假丝酵母属物种包括但不限于白色假丝酵母、都柏林假丝酵母、无名假丝酵母、光滑假丝酵母、吉利蒙假丝酵母、乳酒假丝酵母、克鲁斯假丝酵母、郎比可假丝酵母、解脂假丝酵母、Candida lustitaniae、近平滑假丝酵母、铁红假丝酵母、Candida revkaufi、皱褶假丝酵母、热带假丝酵母、产蛋白假丝酵母、维斯假丝酵母、Candida xestobii以及本文所述的任何其他假丝酵母属物种酵母。假丝酵母属物种菌株的非限制性例子包括但不限于sAA001(ATCC20336)、sAA002(ATCC20913)、sAA003(ATCC20962)、sAA496(US2012/0077252)、sAA106(US2012/0077252)、SU-2(ura3-/ura3-)、H5343(β氧化阻断的;美国专利号5648247)菌株。可以利用来自假丝酵母属物种酵母的任何合适的菌株作为用于遗传修饰的亲本菌株。
酵母属、物种和菌株的遗传内容通常密切相关,使得可能难以将它们区分、分类和/或命名。在一些情形中,解脂假丝酵母和解脂耶氏酵母的菌株可能难以区分、分类和/或命名,并且在一些情形中,可能被视为相同的生物体。在一些情形中,热带假丝酵母和维斯假丝酵母的各种菌株可能难以区分、分类和/或命名(例如,参见Arie等人,J.Gen.Appl.Microbiol.,46,257-262(2000))。从ATCC以及从其他商业或学术来源获得的一些热带假丝酵母和维斯假丝酵母菌株可以被视为是等同的并且同样适合于本文所述的实施方案。在一些实施方案中,热带假丝酵母和维斯假丝酵母的一些亲本菌株被视为仅名称不同。
可以选择任何合适的真菌作为宿主微生物、工程化微生物或异源多核苷酸的来源。真菌的非限制性例子包括但不限于曲霉菌属真菌(例如,寄生曲霉(A.parasiticus)、构巢曲霉(A.nidulans))、破囊壶菌属(Thraustochytrium)真菌、裂殖壶菌属(Schizochytrium)真菌和根霉属(Rhizopus)真菌(例如,无根根霉(R.arrhizus)、米根霉(R.oryzae)、黑根霉(R.nigricans))。在一些实施方案中,真菌是寄生曲霉菌株,包括但不限于菌株ATCC24690,并且在某些实施方案中,真菌是构巢曲霉菌株,包括但不限于菌株ATCC38163。
可以选择任何合适的原核生物作为宿主微生物、工程化微生物或异源多核苷酸的来源。可以选择革兰氏阴性菌或革兰式阳性菌。细菌的例子包括但不限于芽孢杆菌属(Bacillus)细菌(例如,枯草芽孢杆菌(B.subtilis)、巨大芽胞杆菌(B.megaterium))、不动杆菌属(Acinetobacter)细菌、诺卡氏菌属(Norcardia)细菌、黄色杆菌属(Xanthobacter)细菌、埃希氏菌属(Escherichia)细菌(例如,大肠杆菌(例如,菌株DH10B、Stbl2、DH5-α、DB3、DB3.1)、DB4、DB5、JDP682和ccdA-over(例如,美国申请号09/518,188))、链霉菌属(Streptomyces)细菌、欧文氏菌属(Erwinia)细菌、克雷伯氏菌属(Klebsiella)细菌、沙雷氏菌属(Serratia)细菌(例如,粘质沙雷氏菌(S.marcessans))、假单胞菌属(Pseudomonas)细菌(例如,绿脓假单胞菌(P.aeruginosa))、沙门氏菌属(Salmonella)细菌(例如,鼠伤寒沙门氏菌(S.typhimurium)、伤寒沙门氏菌(S.typhi))、巨球形菌属(Megasphaera)细菌(例如,埃氏巨球形菌(Megasphaera elsdenii))。细菌还包括但不限于光合细菌(例如,绿色非硫细菌(例如,绿弯菌属(Choroflexus)细菌(例如,橙黄绿弯菌(C.aurantiacus))、绿线菌属(Chloronema)细菌(例如,巨大绿线菌(C.gigateum)))、绿色硫细菌(例如,绿菌属(Chlorobium)细菌(例如,泥生绿菌(C.limicola))、暗网菌属(Pelodictyon)细菌(例如,微黄暗网菌(P.luteolum)))、紫色硫细菌(例如,着色菌属(Chromatium)细菌(例如,奥氏着色菌(C.okenii)))和紫色非硫细菌(例如,红螺菌属(Rhodospirillum)细菌(例如,深红红螺菌(R.rubrum))、红杆菌属(Rhodobacter)细菌(例如,球形红杆菌(R.sphaeroides)、荚膜红杆菌(R.capsulatus))和红微菌属(Rhodomicrobium)细菌(例如,范氏红微菌(R.vanellii))))。
可以利用来自非微生物生物体的细胞作为宿主微生物、工程化微生物或异源多核苷酸的来源。此类细胞的例子包括但不限于昆虫细胞(例如,果蝇属(Drosophila)(例如,黑腹果蝇(D.melanogaster))、斜纹夜蛾属(Spodoptera)(例如,草地贪夜蛾(S.frugiperda)Sf9或Sf21细胞)和粉夜蛾属(Trichoplusa)(例如,High-Five细胞);线虫细胞(例如,秀丽隐杆线虫(C.elegans)细胞);禽类细胞;两栖动物细胞(例如,非洲爪蟾(Xenopus laevis)细胞);爬虫类动物细胞;哺乳动物细胞(例如,NIH3T3、293、CHO、COS、VERO、C127、BHK、Per-C6、Bowes黑色素瘤和HeLa细胞);以及植物细胞(例如,拟南芥(Arabidopsis thaliana)、烟草(Nicotania tabacum)、Cuphea acinifolia、Cuphea aequipetala、小叶萼距花(Cupheaangustifolia)、Cuphea appendiculata、Cuphea avigera、Cuphea avigeravar.pulcherrima、Cuphea axilliflora、巴菲萼距花(Cuphea bahiensis)、Cupheabaillonis、Cuphea brachypoda、Cuphea bustamanta、Cuphea calcarata、Cupheacalophylla、Cuphea calophylla subsp.mesostemon、Cuphea carthagenensis、圆叶萼距花(Cuphea circaeoides)、Cuphea confertiflora、心叶萼距花(Cuphea cordata)、Cupheacrassiflora、蓝斑萼距草(Cuphea cyanea)、Cuphea decandra、粗齿萼距花(Cupheadenticulata)、Cuphea disperma、Cuphea epilobiifolia、Cuphea ericoides、黄色萼距花(Cuphea flava)、Cuphea flavisetula、Cuphea fuchsiifolia、Cuphea gaumeri、Cupheaglutinosa、异叶萼距花(Cuphea heterophylla)、萼距花(Cuphea hookeriana)、细叶萼距花(Cuphea hyssopifolia)(墨西哥石楠花)、Cuphea hyssopoides、火红萼距花(Cupheaignea)、Cuphea ingrata、Cuphea jorullensis、披针叶萼距花(Cuphea lanceolata)、Cuphea linarioides、Cuphea llavea、Cuphea lophostoma、金黄萼距花(Cuphea lutea)、浅黄萼距花(Cuphea lutescens)、Cuphea melanium、Cuphea melvilla、小花萼距花(Cuphea micrantha)、小瓣萼距花(Cuphea micropetala)、Cuphea mimuloides、Cupheanitidula、沼泽萼距花(Cuphea palustris)、Cuphea parsonsia、Cuphea pascuorum、寡瓣萼距花(Cuphea paucipetala)、平卧萼距花(Cuphea procumbens)、Cuphea pseudosilene、Cuphea pseudovaccinium、美丽萼距花(Cuphea pulchra)、总状萼距花(Cuphearacemosa)、匍匐萼距花(Cuphea repens)、柳叶萼距花(Cuphea salicifolia)、Cupheasalvadorensis、Cuphea schumannii、无柄萼距花(Cuphea sessiliflora)、Cupheasessilifolia、刚毛萼距花(Cuphea setosa)、Cuphea spectabilis、Cuphea spermacoce、Cuphea splendida、Cuphea splendida var.viridiflava、Cuphea strigulosa、Cupheasubuligera、Cuphea teleandra、Cuphea thymoides、Cuphea tolucana、Cuphea urens、Cuphea utriculosa、蓝叶柄萼距花(Cuphea viscosissima)、Cuphea watsoniana、Cupheawrightii、披针叶萼距花)。
用作宿主生物体或异源多核苷酸的来源的微生物或细胞可在市场购得。本文所述的微生物和细胞以及其他合适的微生物和可以从例如以下获得:Invitrogen Corporation(卡尔斯巴德,加利福尼亚州)、美国典型培养物保藏中心(马纳萨斯,维吉尼亚州)和农业研究培养物保藏中心(NRRL;皮奥瑞亚,伊利诺伊州)。宿主微生物和工程化微生物可以以任何合适的形式来提供。例如,此类微生物可以以液体培养物或固体培养物(例如,基于琼脂的培养基)来提供,其可以是原代培养物或者可以已经传代(例如,稀释并培养)一次或多次。微生物还可以以冷冻形式或干燥形式(例如,冻干的)来提供。微生物可以以任何合适的浓度来提供。
聚合酶
聚合酶的特别有用的功能是使用现有核酸作为模板催化核酸链聚合。有用的其他功能描述于本文其他地方。有用的聚合酶的例子包括DNA聚合酶和RNA聚合酶。
非天然核酸改进聚合酶的特异性、持续合成能力或其他特征的能力在例如需要非天然核酸掺入的多种情况下是非常期望的,所述情况包括扩增、测序、标记、检测、克隆和许多其他情况。本发明提供了具有修饰的对非天然核酸的特性的聚合酶、制备此类聚合酶的方法、使用此类聚合酶的方法以及在完整查看下文后将变得清楚的多种其他特征。
在一些情况下,本文公开的内容包括例如在DNA扩增期间将非天然核酸掺入生长中的模板拷贝中的聚合酶。在一些实施方案中,可以修饰聚合酶,使得聚合酶的活性位点被修饰以减小非天然核酸进入所述活性位点中的空间进入抑制。在一些实施方案中,可以修饰聚合酶以提供与非天然核酸的一种或多种非天然特征的互补性。此类聚合酶可以在细胞中表达或工程化以用于将UBP稳定掺入细胞中。因此,本发明包括包含异源或重组聚合酶的组合物及其使用方法。
聚合酶可以使用关于蛋白质工程化的方法来修饰。例如,可以基于晶体结构进行分子建模,以鉴定聚合酶中可以进行突变以修饰目标活性的位置。被鉴定为替代靶标的残基可以用使用能量最小化建模、同源建模和/或保守氨基酸取代选择的残基来替代,如以下文献中所述:Bordo,等人J Mol Biol 217:721-729(1991)和Hayes,等人Proc Natl AcadSci,USA 99:15926-15931(2002)。
多种聚合酶中的任一种可以用于本文所述的方法或组合物中,包括例如,从生物系统分离的基于蛋白质的酶及其功能变体。提及特定聚合酶(如下文所例示的那些)时将理解为包括其功能变体,除非另有指示。在一些实施方案中,聚合酶是野生型聚合酶。在一些实施方案中,聚合酶是修饰的或突变体聚合酶。
还可以使用具有改进非天然核酸进入活性位点区域以及在活性位点区域中与非天然核苷酸配合的特征的聚合酶。在一些实施方案中,修饰的聚合酶具有修饰的核苷酸结合位点。
在一些实施方案中,修饰的聚合酶对非天然核酸的特异性是野生型聚合酶对非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含修饰的糖的非天然核酸的特异性是野生型聚合酶对天然核酸和/或不含修饰的糖的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含修饰的碱基的非天然核酸的特异性是野生型聚合酶对天然核酸和/或不含修饰的碱基的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含三磷酸酯的非天然核酸的特异性是野生型聚合酶对包含三磷酸酯的核酸和/或不含三磷酸酯的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。例如,修饰的或野生型聚合酶对包含三磷酸酯的非天然核酸的特异性可以是野生型聚合酶对具有二磷酸酯或单磷酸酯、或无磷酸酯或其组合的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。
在一些实施方案中,修饰的或野生型聚合酶具有对非天然核酸的松弛的特异性。在一些实施方案中,修饰的或野生型聚合酶对非天然核酸的特异性和对天然核酸的特异性是野生型聚合酶对天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含修饰的糖的非天然核酸的特异性和对天然核酸的特异性是野生型聚合酶对天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含修饰的碱基的非天然核酸的特异性和对天然核酸的特异性是野生型聚合酶对天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。
外切核酸酶活性的不存在可以是野生型特征或由变体或工程化聚合酶赋予的特征。例如,exo-Klenow片段是Klenow片段的突变形式,其缺少3'至5'校对外切核酸酶活性。
本发明的方法可以用于扩展任何DNA聚合酶的底物范围,所述DNA聚合酶缺少固有的3'至5'外切核酸酶校对活性或者其中3'至5'外切核酸酶校对活性已经例如因突变而失能。DNA聚合酶的例子包括polA、polB(参见例如Parrel和Loeb,Nature Struc Biol 2001)polC、polD、polY、polX和逆转录酶(RT),但是优选地是进行性高保真度聚合酶(PCT/GB2004/004643)。在一些实施方案中,修饰的或野生型聚合酶基本上缺少3'至5'校对外切核酸酶活性。在一些实施方案中,修饰的或野生型聚合酶基本上缺少针对非天然核酸的3'至5'校对外切核酸酶活性。在一些实施方案中,修饰的或野生型聚合酶具有3'至5'校对外切核酸酶活性。在一些实施方案中,修饰的或野生型聚合酶具有针对天然核酸的3'至5'校对外切核酸酶活性并且基本上缺少针对非天然核酸的3'至5'校对外切核酸酶活性。
在一些实施方案中,修饰的聚合酶的3'至5'校对外切核酸酶活性是野生型聚合酶的校对外切核酸酶活性的至少约60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的聚合酶对非天然核酸的3'至5'校对外切核酸酶活性是野生型聚合酶对天然核酸的校对外切核酸酶活性的至少约60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的聚合酶对非天然核酸的3'至5'校对外切核酸酶活性和对天然核酸的3'至5'校对外切核酸酶活性是野生型聚合酶对天然核酸的校对外切核酸酶活性的至少约60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的聚合酶对天然核酸的3'至5'校对外切核酸酶活性是野生型聚合酶对天然核酸的校对外切核酸酶活性的至少约60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。
在一些实施方案中,聚合酶是根据其从核酸解离的速率来表征的。在一些实施方案中,聚合酶具有相对低的针对一种或多种天然和非天然核酸的解离速率。在一些实施方案中,聚合酶具有相对高的针对一种或多种天然和非天然核酸的解离速率。解离速率是在本文所述方法中可以调整以调谐反应速率的聚合酶活性。
在一些实施方案中,聚合酶是根据其与特定天然和/或非天然核酸或者天然和/或非天然核酸的集合一起使用时的保真度来表征的。保真度通常是指聚合酶在制备核酸模板的拷贝时将正确核酸掺入生长中的核酸链中的准确度。在天然和非天然核酸例如以相等浓度存在以竞争聚合酶-链-模板核酸二元复合物中相同位点的链合成时,DNA聚合酶保真度可以作为正确的与错误的天然和非天然核酸掺入的比率来测量。DNA聚合酶保真度可以作为天然和非天然核酸的(kcat/Km)与错误的天然和非天然核酸的(kcat/Km)的比率来计算;其中kcat和Km是稳态酶动力学中的Michaelis-Menten参数(Fersht,A.R.(1985)EnzymeStructure and Mechanism,第2版,第350页,W.H.Freeman&Co.,纽约,通过引用并入本文)。在一些实施方案中,聚合酶的保真度值为至少约100、1000、10,000、100,000或1x106,具有或不具有校对活性。
在一些实施方案中,使用检测具有特定结构的非天然核酸的掺入的测定筛选来自天然来源的聚合酶或其变体。在一个例子中,可以针对掺入非天然核酸或UBP(例如,d5SICSTP、dNaMTP或d5SICSTP-dNaMTP UBP)的能力来筛选聚合酶。可以使用展示如与野生型聚合酶相比对非天然核酸的修饰的特性的聚合酶(例如,异源聚合酶)。例如,修饰的特性可以是例如Km、kcat、Vmax、聚合酶在非天然核酸(或天然存在的核苷酸)存在下的持续合成能力、聚合酶在非天然核酸存在下的平均模板读长(read-length)、聚合酶对非天然核酸的特异性、非天然核酸的结合率、产物(焦磷酸酯、三磷酸酯等)释放的比率、分支率或其任何组合。在一个实施方案中,修饰的特性是降低的针对非天然核酸的Km和/或增加的针对非天然核酸的kcat/Km或Vmax/Km。类似地,如与野生型聚合酶相比,聚合酶任选地具有增加的非天然核酸的结合率、增加的产物释放率和/或降低的分支率。
同时,聚合酶可以将天然核酸(例如A、C、G和T)掺入生长中的核酸拷贝中。例如,聚合酶任选地展示对天然核酸的特异性活性高达相应野生型聚合酶的至少约5%(例如,5%、10%、25%、50%、75%、100%或更高),并且在模板存在下使用天然核酸的持续合成能力高达在天然核酸存在下野生型聚合酶的至少5%(例如,5%、10%、25%、50%、75%、100%或更高)。任选地,聚合酶展示针对天然存在的核苷酸的kcat/Km或Vmax/Km高达野生型聚合酶的至少约5%(例如,约5%、10%、25%、50%、75%或100%或更高)。
本文所用的可以具有掺入特定结构的非天然核酸的能力的聚合酶还可以使用定向进化方法来产生。可以使用核酸合成测定来筛选具有对多种非天然核酸中的任一种的特异性的聚合酶变体。例如,可以针对将非天然核酸或UBP(例如,d5SICSTP、dNaMTP或d5SICSTP-dNaMTP UBP)掺入核酸中的能力来筛选聚合酶变体。在一些实施方案中,这种测定是体外测定,例如,使用重组聚合酶变体。在一些实施方案中,这种测定是体内测定,例如,在细胞中表达聚合酶变体。此类定向进化技术可以用于针对对本文所述的任何非天然核酸的活性来筛选任何合适的聚合酶的变体。
所述组合物的修饰的聚合酶可以任选地是修饰的和/或重组的Φ29型DNA聚合酶。任选地,聚合酶可以是修饰的和/或重组的Φ29、B103、GA-1、PZA、Φ15、BS32、M2Y、Nf、G1、Cp-1、PRD1、PZE、SF5、Cp-5、Cp-7、PR4、PR5、PR722或L17聚合酶。
所述组合物的修饰的聚合酶可以任选地是修饰的和/或重组的原核DNA聚合酶,例如,DNA聚合酶II(Pol II)、DNA聚合酶III(Pol III)、DNA聚合酶IV(Pol IV)、DNA聚合酶V(Pol V)。在一些实施方案中,修饰的聚合酶包括介导横越非指导性损伤的核苷酸的DNA合成的聚合酶。在一些实施方案中,编码Pol I、Pol II(polB)、Poll IV(dinB)和/或Pol V(umuCD)的基因在工程化细胞或SSO中组成性表达或过表达。在一些实施方案中,Pol II的表达增加或过表达促进增加的非天然碱基对(UBP)在工程化细胞或SSO中的保留。
本发明中通常有用的核酸聚合酶包括DNA聚合酶、RNA聚合酶、逆转录酶及其突变体或改变的形式。DNA聚合酶及其特性尤其详细描述于以下文献中:DNAReplication第2版,Kornberg和Baker,W.H.Freeman,纽约,纽约州(1991)。本发明中有用的已知常规DNA聚合酶包括但不限于强烈火球菌(Pyrococcus furiosus)(Pfu)DNA聚合酶(Lundberg等人,1991,Gene,108:1,Stratagene)、乌兹炽热球菌(Pyrococcus woesei)(Pwo)DNA聚合酶(Hinnisdaels等人,1996,Biotechniques,20:186-8,Boehringer Mannheim)、嗜热栖热菌(Thermus thermophilus)(Tth)DNA聚合酶(Myers和Gelfand 1991,Biochemistry 30:7661)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)DNA聚合酶(Stenesh和McGowan,1977,Biochim Biophys Acta 475:32)、嗜热高温球菌(Thermococcuslitoralis)(TIi)DNA聚合酶(也称为VentTM DNA聚合酶,Cariello等人,1991,Polynucleotides Res,19:4193,New England Biolabs)、9°NmTM DNA聚合酶(New EnglandBiolabs)、Stoffel片段、Thermo
Figure BDA0002646587660000761
(Amersham Pharmacia Biotech UK)、TherminatorTM(New England Biolabs)、海栖热袍菌(Thermotoga maritima)(Tma)DNA聚合酶(Diaz和Sabino,1998Braz J Med.Res,31:1239)、水生栖热菌(Thermus aquaticus)(Taq)DNA聚合酶(Chien等人,1976,J.Bacteoriol,127:1550)、DNA聚合酶、超好热焦球菌(Pyrococcus kodakaraensis)KOD DNA聚合酶(Takagi等人,1997,Appl.Environ.Microbiol.63:4504)、JDF-3DNA聚合酶(来自热球菌(thermococcus)属物种JDF-3,专利申请WO 0132887)、焦球菌属(Pyrococcus)GB-D(PGB-D)DNA聚合酶(也称为DeepVentTM DNA聚合酶,Juncosa-Ginesta等人,1994,Biotechniques,16:820,New EnglandBiolabs)、UlTma DNA聚合酶(来自嗜热生物海栖热袍菌;Diaz和Sabino,1998BrazJ.Med.Res,31:1239;PE Applied Biosystems)、Tgo DNA聚合酶(来自thermococcusgorgonarius,Roche Molecular Biochemicals)、大肠杆菌DNA聚合酶I(Lecomte和Doubleday,1983,Polynucleotides Res.11:7505)、T7 DNA聚合酶(Nordstrom等人,1981,JBiol.Chem.256:3112)、和古细菌DP1I/DP2 DNA聚合酶II(Cann等人,1998,Proc.Natl.Acad.Sci.USA 95:14250)。考虑嗜温性聚合酶和嗜热性聚合酶二者。嗜热性DNA聚合酶包括但不限于
Figure BDA0002646587660000771
9°NmTM、TherminatorTM、Taq、Tne、Tma、Pfu、TfI、Tth、TIi、Stoffel片段、VentTM和Deep VentTM DNA聚合酶、KOD DNA聚合酶、Tgo、JDF-3及其突变体、变体和衍生物。还考虑作为3'外切核酸酶缺陷性突变体的聚合酶。本发明中有用的逆转录酶包括但不限于来自以下的逆转录酶:HIV、HTLV-I、HTLV-II、FeLV、FIV、SIV、AMV、MMTV、MoMuLV和其他逆转录病毒(参见Levin,Cell 88:5-8(1997);Verma,Biochim BiophysActa.473:1-38(1977);Wu等人,CRC Crit Rev Biochem.3:289-347(1975))。聚合酶的其他例子包括但不限于9°N DNA聚合酶、Taq DNA聚合酶、
Figure BDA0002646587660000772
DNA聚合酶、Pfu DNA聚合酶、RB69DNA聚合酶、KOD DNA聚合酶和
Figure BDA0002646587660000773
DNA聚合酶(Gardner等人(2004)"Comparative Kinetics of Nucleotide Analog Incorporation by Vent DNAPolymerase"J.Biol.Chem.,279(12),11834-11842;Gardner和Jack"Determinants ofnucleotide sugar recognition in an archaeon DNA polymerase"Nucleic AcidsResearch,27(12)2545-2553。)从非嗜热性生物体分离的聚合酶可以是热不可失活的。例子是来自噬菌体的DNA聚合酶。将理解,可以修饰来自多种来源中的任一种的聚合酶以增加或减少其对高温条件的耐受性。在一些实施方案中,聚合酶可以是嗜热性的。在一些实施方案中,嗜热性聚合酶可以是热不可失活的。嗜热性聚合酶通常可用于高温条件或热循环条件中,如用于聚合酶链式反应(PCR)技术的那些。
在一些实施方案中,聚合酶包括Φ29、B103、GA-1、PZA、Φ15、BS32、M2Y、Nf、G1、Cp-1、PRD1、PZE、SF5、Cp-5、Cp-7、PR4、PR5、PR722、L17、
Figure BDA0002646587660000774
9°NmTM、TherminatorTM DNA聚合酶、Tne、Tma、TfI、Tth、TIi、Stoffel片段、VentTM和Deep VentTM DNA聚合酶、KOD DNA聚合酶、Tgo、JDF-3、Pfu、Taq、T7 DNA聚合酶、T7 RNA聚合酶、PGB-D、UlTmaDNA聚合酶、大肠杆菌DNA聚合酶I、大肠杆菌DNA聚合酶III、古细菌DP1I/DP2 DNA聚合酶II、9°N DNA聚合酶、Taq DNA聚合酶、
Figure BDA0002646587660000781
DNA聚合酶、Pfu DNA聚合酶、SP6 RNA聚合酶、RB69 DNA聚合酶、禽成髓细胞瘤病毒(AMV)逆转录酶、莫洛尼鼠白血病病毒(MMLV)逆转录酶、
Figure BDA0002646587660000782
II逆转录酶和
Figure BDA0002646587660000783
III逆转录酶。
在一些实施方案中,聚合酶是DNA聚合酶1-Klenow片段、Vent聚合酶、
Figure BDA0002646587660000784
DNA聚合酶、KOD DNA聚合酶、Taq聚合酶、T7 DNA聚合酶、T7 RNA聚合酶、TherminatorTM DNA聚合酶、POLB聚合酶、SP6 RNA聚合酶、大肠杆菌DNA聚合酶I、大肠杆菌DNA聚合酶III、禽成髓细胞瘤病毒(AMV)逆转录酶、莫洛尼鼠白血病病毒(MMLV)逆转录酶、
Figure BDA0002646587660000785
II逆转录酶或
Figure BDA0002646587660000786
III逆转录酶。
另外,此类聚合酶可以用于DNA扩增和/或测序应用,包括实时应用,例如,在扩增或测序包括通过聚合酶将非天然核酸残基掺入DNA中的情况下。在其他实施方案中,所掺入的非天然核酸可以与天然残基相同,例如,其中在掺入期间通过聚合酶的作用去除非天然核酸的标记或其他部分,或者非天然核酸可以具有将其与天然核酸区分的一种或多种特征。
核苷酸转运蛋白
核苷酸转运蛋白(NT)是一组膜转运蛋白,其促进核苷底物跨越细胞膜和囊泡。在一些实施方案中,存在两种类型的核苷转运蛋白,即集中性核苷转运蛋白和平衡性核苷转运蛋白。在一些情况下,NT还涵盖有机阴离子转运蛋白(OAT)和有机阳离子转运蛋白(OCT)。在一些情况下,核苷酸转运蛋白是核苷三磷酸转运蛋白。
在一些实施方案中,核苷酸三磷酸转运蛋白(NTT)来自细菌、植物或藻类。在一些实施方案中,核苷酸核苷三磷酸转运蛋白是TpNTT1、TpNTT2、TpNTT3、TpNTT4、TpNTT5、TpNTT6、TpNTT7、TpNTT8(假微型海链藻(T.pseudonana))、PtNTT1、PtNTT2、PtNTT3、PtNTT4、PtNTT5、PtNTT6(三角褐指藻)、GsNTT(Galdieria sulphuraria)、AtNTT1、AtNTT2(拟南芥)、CtNTT1、CtNTT2(沙眼衣原体(Chlamydia trachomatis))、PamNTT1、PamNTT2(Protochlamydia amoebophila)、CcNTT(Caedibacter caryophilus)、RpNTT1(普氏立克次氏体(Rickettsia prowazekii))。
在一些实施方案中,NTT是CNT1、CNT2、CNT3、ENT1、ENT2、OAT1、OAT3或OCT1。
在一些实施方案中,NTT将非天然核酸输入生物体(例如,细胞)中。在一些实施方案中,可以修饰NTT,使得NTT的核苷酸结合位点被修饰以减小非天然核酸进入核苷酸结合位点中的空间进入抑制。在一些实施方案中,可以修饰NTT,以提供增加的与非天然核酸的一种或多种非天然特征的相互作用。此类NTT可以在细胞中表达或工程化用于将UBP稳定输入细胞中。因此,本发明包括包含异源或重组NTT的组合物及其使用方法。
NTT可以使用关于蛋白质工程化的方法来修饰。例如,可以基于晶体结构进行分子建模,以鉴定NTT中可以进行突变以修饰目标活性或结合位点的位置。被鉴定为替代靶标的残基可以用使用能量最小化建模、同源建模和/或保守氨基酸取代选择的残基来替代,如以下文献中所述:Bordo,等人J Mol Biol 217:721-729(1991)和Hayes,等人Proc Natl AcadSci,USA99:15926-15931(2002)。
多种NTT中的任一种可以用于本文所述的方法或组合物中,包括例如,从生物系统分离的基于蛋白质的酶及其功能变体。提及特定NTT(如下文所例示的那些)时将理解为包括其功能变体,除非另有指示。在一些实施方案中,NTT是野生型NTT。在一些实施方案中,NTT是修饰的或突变体NTT。
还可以使用具有改进非天然核酸进入细胞中以及在核苷酸结合区域中与非天然核苷酸配合的特征的NTT。在一些实施方案中,修饰的NTT具有修饰的核苷酸结合位点。在一些实施方案中,修饰的或野生型NTT具有对非天然核酸的松弛的特异性。
在一些实施方案中,修饰的NTT对非天然核酸的特异性是野生型NTT对非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的或野生型NTT对包含修饰的糖的非天然核酸的特异性是野生型NTT对天然核酸和/或不含修饰的糖的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的或野生型NTT对包含修饰的碱基的非天然核酸的特异性是野生型NTT对天然核酸和/或不含修饰的碱基的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含三磷酸酯的非天然核酸的特异性是野生型NTT对包含三磷酸酯的核酸和/或不含三磷酸酯的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。例如,修饰的或野生型NTT对包含三磷酸酯的非天然核酸的特异性可以是野生型NTT对具有二磷酸酯或单磷酸酯、或无磷酸酯或其组合的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。
在一些实施方案中,修饰的或野生型NTT对非天然核酸的特异性和对天然核酸的特异性是野生型NTT对天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的或野生型NTT对包含修饰的糖的非天然核酸的特异性和对天然核酸的特异性是野生型NTT对天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的或野生型NTT对包含修饰的碱基的非天然核酸的特异性和对天然核酸的特异性是野生型NTT对天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。
NTT可以根据其从核酸解离的速率来表征。在一些实施方案中,NTT具有相对低的针对一种或多种天然和非天然核酸的解离速率。在一些实施方案中,NTT具有相对高的针对一种或多种天然和非天然核酸的解离速率。解离速率是在本文所述方法中可以调整以调谐反应速率的NTT活性。
可以使用检测具有特定结构的非天然核酸的输入的测定筛选来自天然来源的NTT或其变体。在一个例子中,可以针对输入非天然核酸或UBP(例如,d5SICSTP、dNaMTP或d5SICSTP-dNaMTP UBP)的能力来筛选NTT。可以使用展示如与野生型NTT相比对非天然核酸的修饰的特性的NTT(例如,异源NTT)。例如,修饰的特性可以是例如Km、kcat、Vmax、NTT在非天然核酸(或天然存在的核苷酸)存在下的输入、具有NTT的细胞在非天然核酸存在下的平均模板读长、NTT对非天然核酸的特异性、非天然核酸的结合率、或产物释放率或其任何组合。在一个实施方案中,修饰的特性是降低的针对非天然核酸的Km和/或增加的针对非天然核酸的kcat/Km或Vmax/Km。类似地,如与野生型NTT相比,NTT任选地具有增加的非天然核酸的结合率、增加的产物释放率和/或增加的细胞输入率。
同时,NTT可以将天然核酸(例如,A、C、G和T)输入细胞中。例如,NTT任选地展示对天然核酸的特异性输入活性高达相应野生型NTT的至少约5%(例如,5%、10%、25%、50%、75%、100%或更高)。任选地,NTT展示针对天然存在的核苷酸的kcat/Km或Vmax/Km高达野生型NTT的至少约5%(例如,约5%、10%、25%、50%、75%或100%或更高)。
本文所用的可以具有输入特定结构的非天然核酸的能力的NTT还可以使用定向进化方法来产生。可以使用核酸合成测定来筛选具有对多种非天然核酸中的任一种的特异性的NTT变体。例如,可以针对将非天然核酸或UBP(例如,d5SICSTP、dNaMTP或d5SICSTP-dNaMTP UBP)输入核酸中的能力来筛选NTT变体。在一些实施方案中,这种测定是体外测定,例如,使用重组NTT变体。在一些实施方案中,这种测定是体内测定,例如,在细胞中表达NTT变体。此类定向进化技术可以用于针对对本文所述的任何非天然核酸的活性来筛选任何合适的NTT的变体。
核酸试剂和工具
用于本文所述的方法、细胞或工程化微生物的核酸试剂包含一个或多个ORF。ORF可以来自任何合适的来源,有时来自基因组DNA、mRNA、逆转录RNA或互补DNA(cDNA)或包含前述一种或多种的核酸文库,并且来自含有目的核酸序列、目的蛋白质或目的活性的任何生物体物种。可以从其获得ORF的生物体的非限制性例子包括例如细菌、酵母、真菌、人、昆虫、线虫、牛科动物、马科动物、犬科动物、猫科动物、大鼠或小鼠。在一些实施方案中,本文所述的核酸试剂或其他试剂是分离的或纯化的。
核酸试剂有时包含与ORF相邻的核苷酸序列,其与ORF结合翻译并编码氨基酸标签。编码标签的核苷酸序列位于核酸试剂中ORF的3'和/或5',由此编码由ORF编码的蛋白质或肽的C末端或N末端的标签。可以利用不消除体外转录和/或翻译的任何标签,并且可以由技术人员适当地选择。标签可以促进从培养物或发酵培养基分离和/或纯化所需ORF产物。
核酸或核酸试剂可以包含通常根据核酸的计划用途选择的某些元件,例如,调节元件。核酸试剂中可以包括或排除以下元件中的任一种。例如,核酸试剂可以包括以下核苷酸元件中的一种或多种或全部:一种或多种启动子元件、一个或多个5'非翻译区(5'UTR)、一个或多个可以插入靶核苷酸序列的区域(“插入元件”)、一种或多种靶核苷酸序列、一个或多个3'非翻译区(3'UTR)、以及一种或多种选择元件。核酸试剂可以提供有一种或多种此类元件,并且可以在将核酸引入所需生物体中之前将其他元件插入核酸中。在一些实施方案中,所提供的核酸试剂包含启动子、5'UTR、可选的3'UTR和一种或多种插入元件,通过所述插入元件将靶核苷酸序列插入(即,克隆)至核酸试剂中。在某些实施方案中,所提供的核酸试剂包含启动子、一种或多种插入元件和可选的3'UTR,并且用可选的3'UTR插入5'UTR/靶核苷酸序列。所述元件可以按适合于在所选表达系统中表达(例如,在所选生物体中的表达,或者例如在无细胞系统中的表达)的任何顺序排列,并且在一些实施方案中,核酸试剂在5'至3'方向上包含以下元件:(1)启动子元件、5'UTR和一种或多种插入元件;(2)启动子元件、5'UTR和靶核苷酸序列;(3)启动子元件、5'UTR、一种或多种插入元件和3'UTR;以及(4)启动子元件、5'UTR、靶核苷酸序列和3'UTR。
核酸试剂(例如,表达盒和/或表达载体)可以包括多种调节元件,包括启动子、增强子、翻译起始序列、转录终止序列和其他元件。“启动子”通常是一个或多个DNA序列,其在位于关于转录起始位点的相对固定位置时发挥作用。例如,启动子可以位于核苷酸三磷酸转运蛋白核酸区段的上游。“启动子”含有RNA聚合酶与转录因子的基础相互作用所需的核心元件,并且可以含有上游元件和反应元件。“增强子”通常是指DNA序列,其不在转录起始位点的固定距离处发挥作用,并且可以位于转录单元的5'或3”。此外,增强子可以在内含子内以及在编码序列本身内。增强子的长度通常在10与300之间,并且它们顺式作用。增强子发挥作用以增加来自附近启动子的转录。增强子像启动子一样,通常也含有介导转录调节的反应元件。增强子通常决定表达的调节。
如上所述,核酸试剂还可以包含一个或多个5'UTR以及一个或多个3'UTR。例如,真核宿主细胞(例如,酵母、真菌、昆虫、植物、动物、人或有核细胞)和原核宿主细胞(例如,病毒、细菌)中使用的表达载体可以含有针对转录终止进行信号传导的序列,所述序列可能影响mRNA表达。这些区域可以被转录为编码组织因子蛋白的mRNA的非翻译部分中的多腺苷酸化区段。3”非翻译区还包括转录终止位点。在一些优选实施方案中,转录单元包含多腺苷酸化区域。这个区域的一个益处在于,它增加像mRNA一样处理并转运所转录单元的可能性。表达构建体中的多腺苷酸化信号的鉴定和使用众所周知。在一些优选实施方案中,同源多腺苷酸化信号可以用于转基因构建体中。
5'UTR可以包含对于其所源自的核苷酸序列为内源的一种或多种元件,并且有时包括一种或多种外源元件。5'UTR可以源自任何合适的核酸,如基因组DNA、质粒DNA、RNA或mRNA,例如,源自任何合适的生物体(例如,病毒、细菌、酵母、真菌、植物、昆虫或哺乳动物)。技术人员可以基于所选表达系统(例如,在所选生物体中的表达,或者例如在无细胞系统中的表达)选择用于5'UTR的适当元件。5'UTR有时包含技术人员已知的以下元件中的一种或多种:增强子序列(例如,转录或翻译)、转录起始位点、转录因子结合位点、翻译调节位点、翻译起始位点、翻译因子结合位点、辅助蛋白结合位点、反馈调节剂结合位点、普里布诺盒(Pribnow box)、TATA盒、-35元件、E-盒(螺旋-环-螺旋结合元件)、核糖体结合位点、复制子、内部核糖体进入位点(IRES)、沉默子元件等。在一些实施方案中,可以分离启动子元件,使得适当的条件性调节所需的所有5'UTR元件都含于启动子元件片段中,或者启动子元件片段的功能性子序列内。
核酸试剂中的5'UTR可以包含翻译增强子核苷酸序列。翻译增强子核苷酸序列通常位于核酸试剂中的启动子与靶核苷酸序列之间。翻译增强子序列通常结合至核糖体,有时是18S rRNA结合核糖核苷酸序列(即,40S核糖体结合序列),并且有时是内部核糖体进入序列(IRES)。IRES通常形成具有精确放置的RNA三级结构的RNA支架,所述RNA三级结构经由多种特定分子间相互作用接触40S核糖体亚基。核糖体增强子序列的例子是已知的并且可以由技术人员鉴定(例如,Mignone等人,Nucleic Acids Research 33:D141-D146(2005);Paulous等人,Nucleic Acids Research 31:722-733(2003);Akbergenov等人,NucleicAcids Research 32:239-247(2004);Mignone等人,Genome Biology 3(3):reviews0004.1-0001.10(2002);Gallie,Nucleic Acids Research 30:3401-3411(2002);Shaloiko等人,DOI:10.1002/bit.20267;和Gallie等人,Nucleic Acids Research 15:3257-3273(1987))。
翻译增强子序列有时是真核序列,如Kozak共有序列或其他序列(例如,水螅体序列,GenBank登录号U07128)。翻译增强子序列有时是原核序列,如Shine-Dalgarno共有序列。在某些实施方案中,翻译增强子序列是病毒核苷酸序列。翻译增强子序列有时来自植物病毒的5'UTR,所述植物病毒如例如烟草花叶病毒(TMV)、苜蓿花叶病毒(AMV);烟草蚀纹病毒(ETV);马铃薯Y病毒(PVY);芜菁花叶(poty)病毒和豌豆种传花叶病毒。在某些实施方案中,在核酸试剂中包括来自TMV的长度约67个碱基的ω序列作为翻译增强子序列(例如,缺乏鸟苷核苷酸并且包括长度为25个核苷酸的聚(CAA)中心区域)。
3'UTR可以包含对于其所源自的核苷酸序列为内源的一种或多种元件,并且有时包括一种或多种外源元件。3'UTR可以源自任何合适的核酸,如基因组DNA、质粒DNA、RNA或mRNA,例如,源自任何合适的生物体(例如,病毒、细菌、酵母、真菌、植物、昆虫或哺乳动物)。技术人员可以基于所选表达系统(例如,在所选生物体中的表达)选择用于3'UTR的适当元件。3'UTR有时包含技术人员已知的以下元件中的一种或多种:转录调节位点、转录起始位点、转录终止位点、转录因子结合位点、翻译调节位点、翻译终止位点、翻译起始位点、翻译因子结合位点、核糖体结合位点、复制子、增强子元件、沉默子元件和聚腺苷尾。3'UTR通常包括聚腺苷尾并且有时不包括,并且如果存在聚腺苷尾,可以在其中添加或缺失一个或多个腺苷部分(例如,可以添加或减去约5、约10、约15、约20、约25、约30、约35、约40、约45或约50个腺苷部分)。
在一些实施方案中,使用5'UTR和/或3'UTR的修饰改变(例如,增加、添加、降低或基本上消除)启动子的活性。通过来自可操作地连接的包含修饰的5'或3'UTR的启动子元件的一个或多个目的核苷酸序列的转录的改变,启动子活性的改变又可以改变肽、多肽或蛋白质的活性(例如,酶活性)。例如,在某些实施方案中,微生物可以通过遗传修饰来工程化以表达包含修饰的5'或3'UTR的核酸试剂,所述修饰的5'或3'UTR可以添加新型活性(例如,通常在宿主生物体中没有发现的活性),或者通过增加来自与目的核苷酸序列(例如,目的同源或异源核苷酸序列)可操作地连接的同源或异源启动子的转录来增加现有活性的表达。在一些实施方案中,在某些实施方案中,微生物可以通过遗传修饰来工程化以表达包含修饰的5'或3'UTR的核酸试剂,所述修饰的5'或3'UTR可以通过降低或基本上消除来自与目的核苷酸序列可操作地连接的同源或异源启动子的转录来降低活性的表达。
来自表达盒或表达载体的核苷酸三磷酸转运蛋白的表达可以通过能够在原核细胞或真核细胞中表达的任何启动子来控制。DNA合成和/或RNA合成通常需要启动子元件。启动子元件通常包含可以促进特定基因转录的DNA区域,通过提供对应于基因的RNA合成的起始位点来促进。在一些实施方案中,启动子通常位于其所调节的基因附近,位于基因上游(例如,基因的5'),并且与基因的有义链在相同的DNA链上。在一些实施方案中,启动子元件可以从基因或生物体分离,并且经插入而与多核苷酸序列呈功能性连接,以允许改变和/或调节表达。用于核酸表达的非天然启动子(例如,通常与给定的核酸序列无关的启动子)通常被称为异源启动子。在某些实施方案中,异源启动子和/或5'UTR可以经插入而与编码如本文所述的具有所需活性的多肽的多核苷酸呈功能性连接。如本文关于启动子所用的术语“可操作地连接”和“与……呈功能性连接”是指编码序列与启动子元件之间的关系。在启动子元件调节或控制编码序列经由转录的表达时,启动子与编码序列可操作地连接或呈功能性连接。术语“可操作地连接”和“与……呈功能性连接”在本文中关于启动子元件可互换使用。
启动子通常与RNA聚合酶相互作用。聚合酶是催化使用预先存在的核酸试剂合成核酸的酶。在模板是DNA模板时,转录RNA分子后合成蛋白质。具有适合于在本方法中使用的聚合酶活性的酶包括在使用所选模板合成蛋白质的所选系统中有活性的任何聚合酶。在一些实施方案中,启动子(例如,异源启动子)在本文中也称为启动子元件,可以与核苷酸序列或开放阅读框(ORF)可操作地连接。从启动子元件转录可以催化对应于与所述启动子可操作地连接的核苷酸序列或ORF序列的RNA的合成,这又导致所需肽、多肽或蛋白质的合成。
启动子元件有时展现对调节性控制的反应性。启动子元件有时还可以通过选择剂来调节。也就是说,来自启动子元件的转录有时可以响应于环境、营养或内部条件或信号的变化而被打开、关闭、上调或下调(例如,热诱导性启动子、光调节的启动子、反馈调节的启动子、激素影响的启动子、组织特异性启动子、氧和pH影响的启动子、对选择剂(例如,卡那霉素)有反应的启动子等)。受环境、营养或内部信号影响的启动子经常受在启动子处或附近结合并且增加或减少靶序列在某些条件下的表达的信号(直接的或间接的)影响。
本文所述的实施方案中使用的影响从启动子元件转录的选择剂或调节剂的非限制性例子包括而不限于:(1)编码提供针对原本有毒的化合物(例如,抗生素)的抗性的产物的核酸区段;(2)编码原本在受体细胞中缺少的产物(例如,必需产物、tRNA基因、营养缺陷型标记)的核酸区段;(3)编码抑制基因产物的活性的产物的核酸区段;(4)编码可能易于鉴定的产物(例如,表型标记如抗生素(例如,β-内酰胺酶)、β-半乳糖苷酶、绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)和细胞表面蛋白)的核酸区段;(5)结合原本对细胞存活和/或功能有害的产物的核酸区段;(6)原本抑制上文1-5号中所述任何核酸区段的活性的核酸区段(例如,反义寡核苷酸);(7)结合修饰底物的产物(例如,限制内切核酸酶)的核酸区段;(8)可以用于分离或鉴定所需分子的核酸区段(例如,特异性蛋白质结合位点);(9)编码可能原本无功能的特定核苷酸序列(例如,用于分子的子群体的PCR扩增)的核酸区段;(10)在不存在时直接或间接赋予对特定化合物的抗性或敏感性的核酸区段;(11)编码在受体细胞中有毒或将相对无毒化合物转化为毒性化合物的产物(例如,单纯疱疹胸苷激酶、胞嘧啶脱氨酶)的核酸区段;(12)抑制核酸分子的复制、分配或遗传力的核酸区段,所述核酸分子含有所述核酸区段;和/或(13)编码条件复制功能(例如,在某些宿主或宿主细胞株系中或在某些环境条件(例如,温度、营养条件等)下复制)的核酸区段。在一些实施方案中,可以添加调节或选择剂以改变生物体所经受的现有生长条件(例如,在液体培养中生长,在发酵罐中生长、在固体营养板上生长等)。
在一些实施方案中,启动子元件的调节可以用于改变(例如,增加、添加、降低或基本上消除)肽、多肽或蛋白质的活性(例如,酶活性)。例如,在某些实施方案中,微生物可以通过遗传修饰进行工程化以表达核酸试剂,所述核酸试剂可以添加新型活性(例如,通常在宿主生物体中未发现的活性),或者通过增加来自与目的核苷酸序列(例如,同源或异源目的核苷酸序列)可操作地连接的同源或异源启动子的转录来增加现有活性的表达。在一些实施方案中,在某些实施方案中,微生物可以通过遗传修饰进行工程化以表达核酸试剂,所述核酸试剂可以通过降低或基本上消除来自与目的核苷酸序列可操作地连接的同源或异源启动子的转录来降低活性的表达。
可以将编码异源蛋白(例如,核苷酸三磷酸转运蛋白)的核酸插入或用于任何合适的表达系统中。在一些实施方案中,在某些实施方案中,核酸试剂有时被稳定整合至宿主生物体的染色体中,或者核酸试剂可以是宿主染色体的一部分的缺失(例如,遗传修饰的生物体,其中宿主基因组的改变赋予选择性或优先维持携带所述遗传修饰的所需生物体的能力)。此类核酸试剂(例如,核酸或遗传修饰的生物体,其改变的基因组赋予所述生物体以可选性状)可以针对其指导所需蛋白质或核酸分子的产生的能力加以选择。在需要时,可以改变核酸试剂使得密码子编码:(i)相同的氨基酸,使用与在天然序列中所指定的不同的tRNA,或(ii)与正常的不同的氨基酸,包括非常规或非天然氨基酸(包括可检测地标记的氨基酸)。
重组表达是使用可以作为载体如质粒的一部分的表达盒有效地完成。载体可以包括与编码核苷酸三磷酸转运蛋白的核酸可操作地连接的启动子。载体还可以包括如本文所述的转录和翻译所需的其他元件。表达盒、表达载体以及盒或载体中的序列对于与非天然核苷酸接触的细胞可以是异源的。例如,核苷酸三磷酸转运蛋白序列对于所述细胞可以是异源的。
可以产生适于携带、编码和/或表达核苷酸三磷酸转运蛋白的多种原核和真核表达载体。此类表达载体包括例如pET、pET3d、pCR2.1、pBAD、pUC和酵母载体。所述载体可以用于例如多种体内和体外情形中。可以使用的原核启动子的非限制性例子包括SP6、T7、T5、tac、bla、trp、gal、lac或麦芽糖启动子。可以使用的真核启动子的非限制性例子包括组成性启动子,例如,病毒启动子,如CMV、SV40和RSV启动子;以及可调节启动子,例如,可诱导或可阻遏启动子,如tet启动子、hsp70启动子和通过CRE调节的合成启动子。用于细菌表达的载体包括pGEX-5X-3,并且用于真核表达的载体包括pCIneo-CMV。可以采用的病毒载体包括与以下相关的那些:慢病毒、腺病毒、腺相关病毒、疱疹病毒、牛痘病毒、小儿麻痹症病毒、AIDS病毒、神经元营养病毒、辛德毕斯病毒和其他病毒。另外有用的是共享这些病毒的特性而使它们适于用作载体的任何病毒家族。可以采用的逆转录病毒载体包括以下文献中所述的那些:Verma,American Society for Microbiology,第229-232页,Washington,(1985)。例如,此类逆转录病毒载体可以包括莫洛尼鼠白血病病毒、MMLV和表达期望特性的其他逆转录病毒。通常,病毒载体含有非结构性早期基因、结构性晚期基因、RNA聚合酶III转录物、复制和衣壳化所需的反向末端重复序列,以及控制病毒基因组的转录和复制的启动子。在作为载体工程化时,病毒通常去除一个或多个早期基因,并且将基因或基因/启动子盒插入病毒基因组中代替所去除的病毒核酸。
克隆
可以利用本领域中已知的任何便利克隆策略将元件如ORF掺入核酸试剂中。可以利用已知方法将元件插入与插入元件无关的模板中,如:(1)在一个或多个现有限制酶位点处切割模板并连接目的元件,以及(2)通过使包括一个或多个合适的限制酶位点的寡核苷酸引物杂交将限制酶位点添加至模板,并通过聚合酶链式反应进行扩增(本文中更详细地描述)。其他克隆策略利用存在于或插入核酸试剂中的一个或多个插入位点,如例如用于PCR的寡核苷酸引物杂交位点,以及本文所述的其他位点。在一些实施方案中,克隆策略可以与遗传操纵如重组(例如,将具有目的核酸序列的核酸试剂重组至要修饰的生物体的基因组中,如本文进一步描述)组合。在一些实施方案中,克隆的一个或多个ORF可以通过用一个或多个目的ORF将微生物工程化来产生(直接地或间接地)修饰的或野生型核苷酸三磷酸转运蛋白和/或聚合酶,所述微生物包含改变的核苷酸三磷酸转运蛋白活性或聚合酶活性的活性。
可以通过使核酸与一种或多种特异性切割剂接触将所述核酸特异性切割。特异性切割剂通常将根据特定核苷酸序列在特定位点进行特异性切割。酶特异性切割剂的例子包括而不限于内切核酸酶(例如,DNA酶(例如,DNA酶I、II);RNA酶(例如,RNA酶E、F、H、P);CleavaseTM酶;Taq DNA聚合酶;大肠杆菌DNA聚合酶I和真核结构特异性内切核酸酶;鼠FEN-1内切核酸酶;I、II或III型限制内切核酸酶,如Acc I、Afl III、Alu I、Alw44 I、Apa I、AsnI、Ava I、Ava II、BamH I、Ban II、Bcl I、Bgl I、Bgl II、Bln I、BsaI、Bsm I、BsmBI、BssHII、BstE II、Cfo I、CIa I、Dde I、Dpn I、Dra I、EcIX I、EcoR I、EcoR I、EcoR II、EcoR V、Hae II、Hae II、Hind II、Hind III、Hpa I、Hpa II、Kpn I、Ksp I、Mlu I、MIuN I、Msp I、Nci I、Nco I、Nde I、Nde II、Nhe I、Not I、Nru I、Nsi I、Pst I、Pvu I、Pvu II、Rsa I、SacI、Sal I、Sau3A I、Sca I、ScrF I、Sfi I、Sma I、Spe I、Sph I、Ssp I、Stu I、Sty I、Swa I、Taq I、Xba I、Xho I);糖基化酶(例如,尿嘧啶-DNA糖基化酶(UDG)、3-甲基腺嘌呤DNA糖基化酶、3-甲基腺嘌呤DNA糖基化酶II、嘧啶水合物-DNA糖基化酶、FaPy-DNA糖基化酶、胸腺嘧啶错配-DNA糖基化酶、次黄嘌呤-DNA糖基化酶、5-羟甲基尿嘧啶DNA糖基化酶(HmUDG)、5-羟甲基胞嘧啶DNA糖基化酶或1,N6-亚乙烯基-腺嘌呤DNA糖基化酶);外切核酸酶(例如,外切核酸酶III);核酶,以及DNA酶。样品核酸可以用化学剂处理,或者使用修饰的核苷酸合成,并且可以切割修饰的核酸。在非限制性例子中,样品核酸可以用以下处理:(i)烷化剂,如甲基亚硝脲,其产生若干种烷化碱基,包括N3-甲基腺嘌呤和N3-甲基鸟嘌呤,所述烷化碱基被烷基嘌呤DNA-糖基化酶识别并切割;(ii)亚硫酸氢钠,其引起DNA中的胞嘧啶残基发生脱氨以形成尿嘧啶残基,所述尿嘧啶残基可以被尿嘧啶N-糖基化酶切割;以及(iii)将鸟嘌呤转化为其氧化形式8-羟基鸟嘌呤的化学剂,所述8-羟基鸟嘌呤可以被甲酰胺基嘧啶DNAN-糖基化酶切割。化学切割过程的例子包括而不限于烷化(例如,硫代磷酸酯修饰的核酸的烷化);含有P3'-N5'-氨基磷酸酯的核酸的酸不稳定性的切割;以及核酸的四氧化锇和哌啶处理。
在一些实施方案中,核酸试剂包括一个或多个重组酶插入位点。重组酶插入位点是核酸分子上的识别序列,其参与重组蛋白的整合/重组反应。例如,Cre重组酶的重组位点是loxP,它是34碱基对序列,由在8碱基对核心序列侧翼的两个13碱基对反向重复序列(用作重组酶结合位点)构成(例如,Sauer,Curr.Opin.Biotech.5:521-527(1994))。重组位点的其他例子包括attB、attP、attL和attR序列以及其突变体、片段、变体和衍生物,它们由重组蛋白λInt以及由辅助蛋白整合宿主因子(IHF)、FIS和切除酶(Xis)识别(例如,美国专利号5,888,732;6,143,557;6,171,861;6,270,969;6,277,608;和6,720,140;美国专利申请号09/517,466和09/732,914;美国专利公开号US2002/0007051;以及Landy,Curr.Opin.Biotech.3:699-707(1993))。
克隆核酸的重组酶的例子在
Figure BDA0002646587660000891
系统(Invitrogen,加利福尼亚州)中,所述系统包括至少一个重组位点以用于在体内或在体外克隆所需核酸分子。在一些实施方案中,所述系统利用含有至少两个不同的位点特异性重组位点的载体,所述重组位点通常基于噬菌体λ系统(例如,att1和att2),并且是从野生型(att0)位点突变的。每个突变的位点对其相同类型的同源配偶体att位点(即,其结合配偶体重组位点)具有独特的特异性(例如,attB1对attP1,或者attL1对attR1),并且不会与其他突变类型的重组位点或与野生型att0位点交叉反应。不同的位点特异性允许所需分子的定向克隆或连接,从而提供所克隆分子的所需取向。使用
Figure BDA0002646587660000901
系统通过替代受体质粒分子上侧翼为att位点的可选标记(例如,ccdB)对侧翼为重组位点的核酸片段进行克隆和亚克隆,所述受体质粒分子有时称为目标载体(Destination Vector)。然后通过转化ccdB敏感性宿主菌株和对受体分子上的标记进行阳性选择来选择所需克隆。用于阴性选择(例如,使用毒性基因)的类似策略可以用于其他生物体中,如胸苷激酶(TK)用于哺乳动物和昆虫中。
核酸试剂有时含有一个或多个复制起点(ORI)元件。在一些实施方案中,模板包含两个或更多个ORI,其中一个ORI在一种生物体(例如,细菌)中高效发挥作用,并且另一个ORI在另一种生物体(例如,真核生物,如例如酵母)中高效发挥作用。在一些实施方案中,ORI可以在一个物种(例如,酿酒酵母)中高效发挥作用,并且另一个ORI可以在不同的物种(例如,粟酒裂殖酵母)中高效发挥作用。核酸试剂有时还包括一个或多个转录调节位点。
核酸试剂(例如,表达盒或载体)可以包括编码标记产物的核酸序列。标记产物用于确定是否已经将基因递送至细胞,以及一旦已被递送,则确定基因是否被表达。标记基因的例子包括编码β-半乳糖苷酶的大肠杆菌lacZ基因和绿色荧光蛋白。在一些实施方案中,标记可以是可选标记。在将此类可选标记成功转移至宿主细胞中时,转化的宿主细胞在被置于选择压力下时可以存活。有两个广泛使用的不同类别的选择方案。第一个类别基于细胞的代谢和突变体细胞系的使用,所述突变体细胞系缺少独立于补充的培养基生长的能力。第二个类别是显性选择,它是指用于任何细胞类型并且不需要使用突变体细胞系的选择方案。这些方案通常使用药物来阻止宿主细胞的生长。具有新型基因的那些细胞会表达传递抗药性的蛋白质并且会在选择中存活。这种显性选择的例子使用以下药物:新霉素(Southern等人,J.Molec.Appl.Genet.1:327(1982))、霉酚酸(Mulligan等人,.Science209:1422(1980))或潮霉素(Sugden,等人,Mol.Cell.Biol.5:410-413(1985))。
核酸试剂可以包括一个或多个选择元件(例如,用于选择核酸试剂的存在,并且不用于激活可以被选择性调节的启动子元件的元件)。选择元件通常使用已知过程用于确定细胞中是否包括核酸试剂。在一些实施方案中,核酸试剂包括两个或更多个选择元件,其中一个选择元件在一种生物体中高效发挥作用,并且另一个选择元件在另一种生物体中高效发挥作用。选择元件的例子包括但不限于:(1)编码提供针对原本有毒的化合物(例如,抗生素)的抗性的产物的核酸区段;(2)编码原本在受体细胞中缺少的产物(例如,必需产物、tRNA基因、营养缺陷型标记)的核酸区段;(3)编码抑制基因产物的活性的产物的核酸区段;(4)编码可能易于鉴定的产物(例如,表型标记如抗生素(例如,β-内酰胺酶)、β-半乳糖苷酶、绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)和细胞表面蛋白)的核酸区段;(5)结合原本对细胞存活和/或功能有害的产物的核酸区段;(6)原本抑制上文1-5号中所述任何核酸区段的活性的核酸区段(例如,反义寡核苷酸);(7)结合修饰底物的产物(例如,限制内切核酸酶)的核酸区段;(8)可以用于分离或鉴定所需分子的核酸区段(例如,特异性蛋白质结合位点);(9)编码可能原本无功能的特定核苷酸序列(例如,用于分子的子群体的PCR扩增)的核酸区段;(10)在不存在时直接或间接赋予对特定化合物的抗性或敏感性的核酸区段;(11)编码在受体细胞中有毒或将相对无毒化合物转化为毒性化合物的产物(例如,单纯疱疹胸苷激酶、胞嘧啶脱氨酶)的核酸区段;(12)抑制核酸分子的复制、分配或遗传力的核酸区段,所述核酸分子含有所述核酸区段;和/或(13)编码条件复制功能(例如,在某些宿主或宿主细胞株系中或在某些环境条件(例如,温度、营养条件等)下复制)的核酸区段。
核酸试剂可以呈用于体内转录和/或翻译的任何形式。核酸有时是质粒如超螺旋质粒,有时是酵母人工染色体(例如,YAC),有时是线性核酸(例如,通过PCR或通过限制消化产生的线性核酸),有时是单链并且有时是双链。核酸试剂有时是通过扩增过程制备的,如聚合酶链式反应(PCR)过程或转录介导的扩增过程(TMA)。在TMA中,在等温反应中使用两种酶产生通过光发射检测的扩增产物(例如,Biochemistry 1996年6月25日;35(25):8429-38)。标准PCR过程是已知的(例如,美国专利号4,683,202;4,683,195;4,965,188;和5,656,493),并且通常循环进行。每个循环包括热变性,其中杂合核酸解离;冷却,其中引物寡核苷酸杂交;以及通过聚合酶(即,Taq聚合酶)延伸寡核苷酸。PCR循环过程的例子是将样品在95℃下处理5分钟;重复95℃持续1分钟、59℃持续1分钟10秒和72℃持续1分钟30秒的四十五个循环;然后将样品在72℃下处理5分钟。多个循环通常是使用市场上购得的热循环仪来进行。有时将PCR扩增产物在较低温度下(例如,在4℃下)储存一段时间,并且有时在分析前将其冷冻(例如,在-20℃下)。
试剂盒/制品
在某些实施方案中,本文公开了与本文所述的一种或多种方法一起使用的试剂盒和制品。此类试剂盒包括载体、包装或容器,其被分隔以容纳一个或多个容器如小瓶、管等,所述一个或多个容器中的每一个包含有待在本文所述的方法中使用的单独要素之一。合适的容器包括例如瓶、小瓶、注射器和试管。在一个实施方案中,容器由各种材料(如玻璃或塑料)形成。
在一些实施方案中,试剂盒包括合适的包装材料来容纳试剂盒的内容物。在一些情形中,包装材料是通过熟知的方法来构建的,优选地以提供无菌无污染的环境。本文所用的包装材料可以包括例如通常用于出售用于与核酸测序系统一起使用的商业试剂盒中的那些。示例性包装材料包括而不限于能够将本文所述的组分保持在固定界限内的玻璃、塑料、纸、箔等。
包装材料可以包括指示组分具体用途的标签。标签所指示的试剂盒的用途可以是对于试剂盒中存在的特定组分组合适当的本文所述的一种或多种方法。例如,标签可以指示,试剂盒用于合成多核苷酸的方法中,或者用于确定核酸序列的方法中。
试剂盒中还可以包括所包装试剂或组分的使用说明。所述说明通常将包括描述反应参数的有形表达,所述反应参数如要混合的试剂盒组分和样品的相对量、试剂/样品混合物的维持时间段、温度、缓冲条件等。
将理解,并非特定反应所需的所有组分都必须存在于特定试剂盒中。而是可以从其他来源提供一种或多种另外的组分。与试剂盒一起提供的说明可以标识要提供的一种或多种另外的组分以及可以从哪里获得所述组分。
在一些实施方案中,提供试剂盒,所述试剂盒用于将非天然核酸稳定掺入细胞核酸中,例如,使用本发明提供的用于制备基因工程化细胞的方法。在一个实施方案中,本文所述的试剂盒包括基因工程化细胞以及一种或多种非天然核酸。在另一个实施方案中,本文所述的试剂盒包括分离且纯化的质粒,所述质粒包含选自SEQ ID NO 1-32的序列。
在另外的实施方案中,本文所述的试剂盒提供细胞和含有用于引入所述细胞中以由此提供基因工程化细胞的异源基因的核酸分子,如包含本段之前描述的任何实施方案的核酸的表达载体。
某些术语
除非另外定义,否则本文中使用的所有技术术语和科学术语具有与要求保护的主题所属领域的技术人员通常所理解的相同的含义。应理解,前述一般说明和以下详细说明只是示例性和解释性的,并且不限制要求保护的任何主题。在本申请中,除非另有明确说明,否则单数的使用包括复数含义。必须指出,如在说明书和所附权利要求中所用,除非上下文另外清楚地规定,否则单数形式“一个/一种(a、an)”和“所述(the)”包括复数指示物。在本申请中,除非另外陈述,否则“或”的使用意指“和/或”。此外,术语“包括(including)”以及其他形式如“包括(include)”、“包括(includes)”和“包括(included)”的使用是非限制性的。
如本文所用,范围和量可以表示为“约”特定的值或范围。约也包括确切的量。因此,“约5μL”意指“约5μL”以及“5μL”。通常,术语“约”包括可预期在实验误差内的量。
本文使用的章节标题仅用于组织目的,而不应解释为限制所描述的主题。
实施例
提供这些实施例仅出于说明性目的,并且不限制本文所提供的权利要求的范围。
实施例1:对细胞如何在大肠杆菌中保留或损失UBP的确定
在稳态条件下,在体外复制含有dNaM-dTPT3 UBP的DNA,其效率接近全天然对应物的效率;然而,这些速率可能受到产物解离的限制。体内复制更具持续性,并且因此不太可能受产物解离的限制。因此,在SSO中复制含有UBP的DNA可能不如全天然DNA的复制高效,并且继而可引起复制叉停滞。另外,结构研究已经指示,UBP在三磷酸酯插入期间采取沃森-克里克样结构,但是一旦插入,UBP采取交叉链嵌入结构,所述结构诱导局部螺旋畸变。8,9细胞将停滞的复制叉和螺旋畸变解释为DNA损伤的迹象,并且启动程序来修复或容忍不良核苷酸,我们怀疑这可能促进UBP损失。
为了确定细胞如何保留或损失UBP,研究了使这些途径失能的影响。结果指示,核苷酸切除修复(NER)或SOS反应都没有显著促进UBP保留或损失。相反,正常的复制体聚合酶、DNA聚合酶III(Pol III)、Pol II和甲基定向的错配修复(MMR)都促进UBP保留;同时停滞的复制叉的重组修复(RER)提供了UBP损失的主要途径。之后,将SOO的复制体重编程以赋予其不仅将UBP更好地保留在质粒上而且在其染色体中稳定包含UBP的能力。
核苷酸切除修复不促进UBP保留或损失
通常,大肠杆菌经由直接逆转损伤、碱基切除修复、NER、MMR、RER和SOS反应来响应DNA损伤。直接逆转损伤或碱基切除修复都不可能促进UBP保留或损失,因为这些途径依赖于识别不可能被UBP模拟的DNA损伤的特定形式的酶。相比之下,NER、MMR、RER和SOS反应是由结构特异性较低的信号诱导的。为了开始探索细胞如何管理以将UBP保留在其DNA中,研究了由蛋白质复合物以非复制依赖性方式介导的NER,所述蛋白质复合物针对由可以通过UBP模拟的大块损伤引起的畸变扫描DNA。通过使uvrC从亲本SSO(大肠杆菌BL21(DE3)+pACS2(图4))缺失来探索NER对UBP保留或损失的贡献,uvrC编码NER的必需组分。质粒pINF1和pINF2中含有定位在两种不同序列背景中的dNaM-dTPT3 UBP的DNA的复制不受uvrC缺失的影响,表明NER对UBP保留或损失无影响(图1B)。
甲基定向的错配修复增加UBP保留
之后研究MMR,其在新合成的DNA在复制期间从DNA聚合酶出现时为所述DNA提供关键性首次检查,并且是通过识别由错配的天然核苷酸引起的螺旋畸变的蛋白质复合物介导的。检测到错配后,MMR复合物在新合成的未甲基化的链上切口,这又导致缺口形成和随后的DNA再合成。与NER相比,MMR经由mutH缺失的失活导致使用pINF1和pINF2二者时UBP保留的减少(图1B)。这些结果指示,与UBP相关的螺旋畸变没有足够严重到激活MMR,或者非天然核苷酸无法被切除,但是通过非天然核苷酸与天然核苷酸的配对引起的畸变由MMR识别并处理。因此,MMR似乎将UBP有效识别为类似天然的,并且选择性去除错配的天然核苷酸,从而支持遗传字母的稳定扩展。
重组修复提供UBP损失的主要途径
RER是由RecA介导的,其在停滞的复制叉之前在单链DNA上形成丝,从而又促进重组中间体的形成,并转换至同源模板以用于连续DNA复制。在相同的RecA丝促进SOS阻遏物LexA的切割时诱导SOS反应,从而导致引起复制叉停滞的受损DNA的容忍和/或修复中涉及的多个基因的去阻遏。我们经由recA的缺失探索了RER和SOS反应的总贡献,并且观察到使用pINF1时UBP保留显著增加(图1B)。为了进一步探索RecA的贡献,在ΔrecA SSO中测量UBP在由pINF3、pINF4和pINF5提供的更具挑战性的序列中的保留(图1C)。在这些序列背景中,recA的不存在导致UBP保留的更显著的增加。
为了辨别recA缺失是否由于消除RER或由于阻止SOS反应的诱导而促进UBP保留,检查不能诱导SOS反应但是胜任RER的SSO(SSO lexA(S119A))(图1C)。尽管选择性抑制SOS反应导致使用pINF3时适度增加的UBP保留,但是所述增加小于使用ΔrecA SSO时观察到的增加。使用pINF4和pINF5时,选择性SOS抑制仅导致UBP保留的适度增加,所述增加远低于使用recA SSO时观察到的那些。这些结果证明,大部分由RecA介导的UBP损失经由RER发生,而不是经由诱导SOS反应发生。
Pol II促进含有UBP的DNA的复制
尽管数据表明,许多UBP损失是经由RER介导的,使用lexA(S119A)SSO时UBP保留的边缘和序列特异性增加表明,一种或多种SOS调节的蛋白质也可能有贡献。研究三种SOS调节的DNA聚合酶Pol II、Pol IV和Pol V的贡献。实际上,Pol IV和Pol V是“跨损伤”聚合酶,它们因为介导跨越“非指导性”受损核苷酸的DNA合成的能力而众所周知。然而,dinB和umuCD(它们分别编码Pol IV和Pol V前体)二者的缺失没有影响使用pINF1或pINF2时的UBP保留(图1D)。与ΔdinBΔumuDC SSO相比,polB(其编码Pol II)的缺失导致使用pINF1和pINF2二者时的UBP损失显著增加(图1D)。总而言之,这些数据证明,RER构成UBP损失的主要途径,并且Pol II提供UBP保留的重要途径。虽然Pol II的产生通过诱导SOS而增加,但数据表明,其有益作用被伴随诱导的RER的有害影响所超过。
DNA聚合酶III也促进含有UBP的DNA的复制
在ΔpolB SSO中降低但仍然可检测到的UBP保留,以及使编码Pol IV和Pol V的基因缺失的可忽略不计的影响有力地表明,其余DNA聚合酶Pol I和Pol III中的一种或两种必然也促进UBP保留。为了特异性地检查Pol I或Pol III是否促进含有UBP的DNA的复制,我们构建并表征如下菌株:其中它们的3'-5'外切核酸酶(“校对”)活性分别经由突变(PolIexo-、polA(D424A,K890R)和Pol IIIexo-、dnaQ(D12N))而消除或受损(图4和图6)。虽然Pol I外切核酸酶活性的缺失对UBP保留没有影响,但是Pol III外切核酸酶缺陷性突变体显示UBP保留显著降低。该数据明确指示,在野生型细胞中,Pol III而不是Pol I促进含有UBP的DNA的复制。
为了确定Pol I或Pol III突变的任何作用是否被Pol II和/或RER的活性遮蔽,在ΔpolB或ΔpolBΔrecA SSO中检查UBP保留。结果指示,UBP在使用ΔpolBΔrecA SSO时保留良好,证明在不存在与RER介导的损失竞争的情况下,除了Pol II以外的聚合酶能够介导高水平UBP保留(图1D)。Pol III外切核酸酶突变体再次在ΔpolB和ΔpolBΔrecA SSO二者中显示降低的UBP保留。然而,与野生型细胞相比,Pol I外切核酸酶活性的缺失在使用ΔpolB和ΔpolBΔrecA SSO时具有显著且相反的作用,其中保留分别增加和降低。这些数据证明,除了Pol II以外,Pol III也促进UBP保留,并且在不存在RER的情况下,Pol I也促进UBP保留。
含有UBP的DNA的复制模型
不希望受任何具体理论的束缚,本文所述的结果提出了在大肠杆菌SSO中含有dNaM-dTPT3 UBP的DNA的以下复制模型(图2)。当具有Pol III的复制体在进行性前导链或后随链复制期间遇到非天然核苷酸时,Pol III掺入天然或非天然核苷酸。如果掺入天然核苷酸,校对速率与持续延伸竞争,并且可能比持续延伸更高效,并且因此一般经由Pol III的校对活性切除天然核苷酸。然而,如果合成了正确的UBP,则更高效的延伸阻止切除,并且复制体继续合成DNA。在其离开聚合酶时,通过MMR复合物扫描初生的双链体,所述复合物通过优先消除逃脱校对的任何错配天然核苷酸而进一步增加UBP保留。
因为即使正确UBP的延伸也可能不如天然合成高效,因此Pol III也可以解离。可能具有紧接模板中的非天然核苷酸之前终止的延伸链的停滞的叉现在是RER的底物,RER使用同源天然序列再次启动合成并由此提供UBP损失的主要机制。然而,在与RecA介导的RER的竞争中,Pol II可以挽救停滞的叉并以高UBP保留再次启动合成,此后其可能让步于PolIII以及正常复制叉的重建。Pol I的贡献更加复杂。在野生型细胞中,Pol I似乎不促进含有UBP的DNA的复制。相比之下,在不存在Pol II和RecA的情况下,Pol I确实促进,并且相应地,Pol I外切核酸酶活性的缺失导致降低的UBP保留。然而,如果消除外切核酸酶活性,PolI在消除Pol II的情况下可以促进保留,并且在该情形中其通过与RER竞争来增加保留。
人们认为,Pol II具有两种假定作用:(1)在复制中在Pol III合成其无法高效延伸的错配后,在Pol II挽救停滞的叉的情况下重新开始;以及(2)作为对链间交联DNA的细胞应答的一部分,Pol II要与RER竞争以填充NER产生的缺口。有趣的是,在与RER的竞争中所诱发的Pol II在挽救在UBP处停滞的复制叉中的作用与两种假定的天然作用的方面极为相似。然而,对含有UBP的DNA的复制的这种作用是在其消除的情况下曾经观察到的最显著的表型。
SSO的优化
UBP保留可以经由操纵RecA和Pol II来优化。为了探索这种可能性,优化SSO,从而缺少recA并且具有或不具有以SOS-去阻遏水平组成性表达的Pol II(分别为ΔrecA和PolII+ΔrecA)(图6)。这些菌株(YZ3)还表达来自染色体基因座的优化的PtNTT2转运蛋白(ΔlacZYA::PlacUV5-PtNTT2(66-575))(图4)。使用具有相同的染色体整合的转运蛋白的野生型菌株(WT-Opt)进行比较。将SSO用pINF1、pINF5或pINF6转化(图3A),其中pINF6将UBP嵌入其保留特别具有挑战性的序列中,并且从单独菌落回收质粒以表征UBP保留。在这种情形中,引入在固体生长培养基上的选择以允许分析单独克隆中的UBP保留,与在先前实验中确定的平均UBP保留相反。在所有SSO中使用每种质粒观察UBP保留的分布,然而,与WT-Opt SSO相比,使用ΔrecA-Opt以及尤其Pol II+ΔrecA SSO时,所述分布朝向更高保留移位。另外,在所检查的每个序列背景中,仅Pol II+ΔrecA SSO产生具有不可检测的UBP损失的克隆。值得注意的是,甚至在使用pINF6时也是如此,对于pINF6野生型SSO中的保留是不可检测的,并且在用Cas9选择执行时仅为中度(<60%)。
评价遗传上优化的ΔrecA-Opt和Pol II+ΔrecA SSO是否可以促进将UBP整合至染色体中。构建将序列GTAXTGA(X=NaM)靶向至arsB基因座的整合盒,并且使用λred重组工程将所述盒整合至WT-Opt、ΔrecA-Opt和Pol II+ΔrecA SSO的染色体中。针对UBP保留筛选整合体鉴定来自ΔrecA-Opt和Pol II+ΔrecA SSO的具有100%保留的克隆,但是尽管付出了大量努力,我们仍然未能分离具有超过91%UBP保留的WT-Opt克隆(图7),表明在所需的生长步骤期间发生了严重的UBP损失。为了表征染色体整合的UBP的作用,将等份的对数中期细胞接种至含有或不含dNaMTP和dTPT3TP的生长培养基中(图3B、图8)。在未提供非天然三磷酸酯时,ΔrecA-Opt和Pol II+ΔrecA整合体生长较差,这与需要RER以高效绕过模板中的非天然核苷酸的模型一致。然而,在提供dNaMTP和dTPT3TP时,这种生长缺陷在两种SSO中几乎完全消除。因此,recA的缺失和Pol II的过表达促进UBP在染色体中的高水平保留,仅具有极小的健康后果。
最后,评价遗传上优化的菌株是否促进染色体整合的UBP的长期稳定性。先前研究已经证明,在不针对保留进行Cas9介导的选择的情况下,质粒荷载的UBP在延长的生长期间损失。将WT-Opt、ΔrecA-Opt和Pol II+ΔrecA整合体在多个世代的生长中连续传代,并表征UBP保留(图3C)。使用WT-Opt时,UBP缓慢损失,直至大约第40代为止,然后更快地损失,截至第90代观察到完全损失。损失的表观双相动力学表明,除了RER以外,至少一个另外的过程有贡献。实际上,测序揭示总体染色体重排,其在UBP保留突然下降时消除了PtNTT2基因(图10)。与WT-Opt相比,对于ΔrecA-Opt和Pol II+ΔrecA SSO二者,PtNTT2保持完整并且基因组UBP保持高保留,尤其使用Pol II+ΔrecA SSO时,其中其在137代后保持>55%。
这些结果证明,recA缺失不仅在复制期间促进UBP保留,其还在延长的生长期间显著增加转运蛋白稳定性。所观察到的保留对应于超过99.6%的每次倍增的保真度,这又对应于每次倍增染色体UBP仅在小部分细胞(<0.4%)中损失。因此,与当前工作中没有采用的Cas9误差消除系统一起,这种误差预防系统应允许在宽范围的序列背景中保留UBP,这又应使得能够储存可能由UBP制造的全部新信息。
从地球上所有生命的最后共同祖先起,生物信息就储存在四个字母的字母表中。Pol II+ΔrecA SSO的重编程的复制体代表朝向该字母表的无限制性扩展的重要进展,并且首次进展经由优化细胞本身来介导。虽然研究的主要目标是理解如何复制UBP以及使用该信息优化SSO,但是结果也提供了研究如何正常管理挑战性复制的新型途径。例如,虽然数据表明大部分含有UBP的DNA是通过Pol III复制的,但数据也明确揭示,大量的所述DNA不是通过Pol III复制的,并且在这些情形中,数据揭示了在Pol II介导的复制重新开始与RecA介导的RER之间的有趣的竞争。此类竞争在挑战性复制期间可能常见,其可能在鉴定Pol II的正常作用中促进挑战。此外,MMR不能识别UBP表明,仅螺旋畸变是不够的,并且所述过程需要与使用非天然核苷酸无法获得的核碱基的特异性相互作用。最后,通过recA缺失提供的增加的遗传稳定性也可能对针对经由琥珀抑制扩展遗传密码的方法具有重要意义,因为这些方法在延长的生长的情况下也经受遗传不稳定性。23不管这些有趣的问题如何,重编程的SSO现在允许更稳定地保留增加的生物信息(包括在其染色体内),并且在先前已经证明可以以具有非经典氨基酸的蛋白质的形式检索此信息的情况下,应提供平台以实现合成生物学的中心目标,即创造具有新形式和新功能的生命。
实施例2.方法和材料
含有pINF/UBP的DNA构建
经由pUCX2与含有dNaM-dTPT3对的插入物dsDNA的金门组装(Golden Gateassembly)构建pINF(图S8),如先前所述3,其中具有以下修改。含有UBP的dsDNA是通过50μLPCR使用化学合成的含有UBP的寡核苷酸(0.025ng/μL)、引入BsaI位点和载体同源性的引物(1μM,表S1)、dTPT3TP(100μM)、dNaMTP(100μM)、dNTP(200μM)、MgSO4(1.2mM)、OneTaq DNA聚合酶(0.025U/μL)和OneTaq标准反应缓冲液(1×,New England Biolabs)产生的。在MJResearch PTC-200系统上经由以下温度方案循环进行反应(时间以mm:ss计):[94℃00:30|25×(94℃00:30|47℃00:30|68℃04:00)]。根据制造商的推荐使用DNA Clean&Concentrator-5(Zymo Research)纯化所得含有UBP的dsDNA。对于pINF组装,将pUCX2(1μg)与插入物DNA以1:4的摩尔比在80μL具有ATP(1mM)、T4 DNA连接酶(6.65U/μL,New EnglandBiolabs)、BsaI-HF(0.66U/μL,New England Biolabs)和CutSmart缓冲液(1×,NewEngland Biolabs)的反应中合并,并且经历以下温度方案:[37℃20min|40×(37℃5min|16℃10min|22℃5min)|37℃20min|50℃15min|70℃30min]。然后添加BsaI-HF(0.33U/μL)和T5外切核酸酶(0.16U/μL,New England Biolabs),并将反应物在37℃下孵育1h以去除任何不含插入物的pUCX2。根据制造商的推荐使用DNA Clean&Concentrator-5纯化该反应物,但是在结合至硅胶柱之前将反应物与3体积的1:1DNA洗涤剂:DNA结合缓冲液混合。
经由150bp含有UBP的dsDNA与pKD13的卡那霉素抗性基因的重叠PCR产生用于arsB基因座的UBP敲入盒(图S4)。所述150bp DNA是通过50μL PCR使用与上文相同的反应溶液条件和以下温度方案(时间以mm:ss计)来产生:[98℃02:00|5×(98℃00:10|50℃00:10|68℃04:00)|15×(98℃00:10|58℃00:10|68℃04:00)]。卡那霉素抗性基因扩增子是经由pKD13的PCR扩增使用Q5 DNA聚合酶根据制造商的推荐来产生。长DNA(大约200bp或更长)的扩增收到dTPT3TP的存在的抑制。因此,按大规模进行含有UBP的扩增子和卡那霉素抗性基因扩增子的重叠组装PCR(将2mL反应混合物分割为40个单独的50μL反应),使用以下溶液条件:含有UBP的扩增子(0.02ng/μL)、卡那霉素抗性基因扩增子(0.02ng/μL)、引物(1μM,表S1)、dTPT3TP(5μM)、dNaMTP(100μM)、dNTP(200μM)、MgSO4(1.2mM)、OneTaq DNA聚合酶(0.025U/μL)和OneTaq标准反应缓冲液(1×)。使反应经历以下温度方案(时间以mm:ss计):[98℃02:00|5×(98℃00:10|50℃00:10|68℃04:00)|15×(98℃00:10|58℃00:10|68℃04:00)]。使用DNA Clean&Concentrator-5根据制造商的推荐汇集这些反应物并浓缩。
基因敲除中的体内UBP复制
根据以下方案测定所有基因敲除(图1和图S2)的复制pINF荷载的UBP的能力。通过使细胞沉淀并用50mL的4℃无菌diH2O洗涤两次,从对数中期细胞的45mL培养物(OD6000.35-0.7)制备电感受态细胞。将洗涤的细胞以40-60的最终OD600重悬于4℃无菌diH2O中。将50μL细胞与2ng的金门组装的pINF混合并将其转移至电穿孔杯(2mm间隙,目录号FB102,Fisher Scientific)中。电穿孔是使用Gene Pulser II(BioRad)根据制造商的推荐(电压25kV,电容2.5μF,电阻200Ω)来进行。将转化的细胞稀释于950μL的含有氯霉素(33μg/mL)和磷酸钾(50mM,pH 7)的2×YT中。将40μL稀释的细胞进一步稀释至最终体积200μL的含有氯霉素(33μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT中,将其转移至1.5mL管中并允许在37℃和230RPM下回收1h。将10μL回收的细胞稀释至96孔板(参考号655161,Greiner Bio-One)的孔中的最终体积100μL的含有氯霉素(33μg/mL)和氨苄西林(100μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和磷酸钾(50mM,pH 7)的2×YT中。另外,将回收的细胞铺板于含有氨苄西林(100μg/mL)和磷酸钾(50mM,pH 7)的2×YT琼脂(2%)上以估计转化效率。将96孔板和转化效率板分别在4℃和37℃下保持过夜(大约12h)。检查转化效率板以确保,在冷冻前,96孔板中的所有样品都接受至少50个菌落形成单位。然后将96孔板转移至37℃和230RPM下。在达到0.6-0.92OD600后,将细胞沉淀,倾析并冷冻。使用ZRPlasmid Miniprep-Classic试剂盒(Zymo Research)和5μg硅胶柱(目录号D4003,ZymoResearch)根据制造商的推荐分离体内复制的pINF,并使其前进至生物素移位PCR分析(参见支持信息(Supporting Information))。对于每个敲除菌株,从电感受态细胞的制备开始,将该程序以至少一式三份进行。
应注意,在这些条件下,复制物和菌株在pINF复制实验期间经历类似但不相同的细胞倍增次数。然而,由于pINF上调的复制起点,匹配复制物与菌株之间的细胞倍增确实对应于匹配pINF复制事件的数量。因此,与估计的保真度相反,图1和图3A中的数据是作为保留值%来报告(进一步的讨论参见补充信息),并且应如此解释。
克隆pINF的检查
评估优化的菌株克隆pINF的能力(图3A),如上文所述,具有以下修改。在回收后,将回收的培养物的稀释物在含有琼脂(2%)、羧苄西林(100μg/mL)、氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT上铺板。将板在37℃下孵育大约12h。挑选单独菌落并转移至96孔板的孔中的100μL含有羧苄西林(100μg/mL)、氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT中。将96孔板在4℃下保持大约12h,然后转移至37℃和230RPM下。在达到0.6-0.9的OD600后,将细胞沉淀,倾析并冷冻。使用ZR Plasmid Miniprep-Classic试剂盒根据制造商的推荐分离体内复制的pINF,并使其前进至生物素移位PCR分析(参见支持信息)。
应注意,这些实验中使用的Pol II+ΔrecA菌株(图3A)在前述recA基因座处具有neo盒(P_polB(-)lexA-polB+FRT+ΔrecA+KanR+lacZYA::P_lacUV5-ΔΔ(CoOp)col 2.1,表S1)。
在arsB处的UBP整合
如上文所述和图S4中所描绘来构建用于arsB基因座的UBP整合盒。该盒的整合是使用标准λred重组工程24来进行,具有以下修改。将具有pKD46的菌株的过夜培养物(WT-Opt、ΔrecA-Opt和Pol II+ΔrecA-Opt,在含有氯霉素(5μg/mL)和KPi(50mM,pH 7)的2×YT中)在含有氨苄西林(100μg/mL)、氯霉素(5μg/mL)和KPi(50mM,pH 7)的2×YT中稀释至0.03OD600。使培养物生长至大约0.1OD600,然后用0.4%L-(+)-阿拉伯糖诱导,并允许其继续生长至大约0.4OD600。如上所述从这些培养物制备电感受态细胞。将50μL电感受态细胞与960ng(5μL,192ng/μL)的上述整合盒混合,并如上所述进行电穿孔。将转化的细胞稀释至最终体积为1mL的含有氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT中,将其转移至1.5mL管中,并允许在37℃和230RPM下回收2h。使细胞沉淀并重悬于115μL的含有氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)、KPi(50mM,pH 7)的2×YT中。将该细胞悬浮液的15μL样品铺板于含有琼脂(2%)、卡那霉素(50μg/mL)、氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT上。将板在37℃下孵育14-24h。挑选菌落并转移至48孔板(参考号677180,Greiner Bio-One)中500μL的含有卡那霉素(50μg/mL)、氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)、KPi(50mM,pH 7)的2×YT中。将板在4℃下冷冻约12h,之后在37℃和230RPM下孵育,或者使板直接前进至孵育。在达到0.6-1OD600后,如下对培养物进行取样:将100μL与100μL甘油(50%)合并并在-80℃下冷冻;将350μL沉淀并冷冻用于随后分离基因组DNA;将50μL沉淀,用200μL diH2O洗涤一次,沉淀并重悬于200μL中。
通过菌落生物素移位PCR分析细胞悬浮液(参见支持信息)。用PureLinkGenomicDNA微型试剂盒(Thermo Fisher Scientific)根据制造商的推荐从样品的所保存冷冻细胞沉淀分离基因组DNA,所述样品展示高菌落生物素移位PCR移位值百分比(≥80%)。通过生物素移位PCR分析基因组DNA(参见支持信息)。该分析揭示对于所有遗传背景的高保留克隆(保留B≥90%)。虽然这些结果确认了UBP的成功染色体整合和UBP在染色体DNA中的极高保留,但是鉴于方案以高细胞密度孵育细胞的要求,怀疑细胞在整合方案期间耗尽了其培养基中的dTPT3TP和dNaMTP。已知大肠杆菌的活跃生长培养物将细胞外dTPT3TP和dNaMTP降解为其相应的二磷酸酯和单磷酸酯以及核苷种类5。为了解决这种可能性,在96孔板中使用最高保留样品的甘油原液接种100μL的含有卡那霉素(50μg/mL)、氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT。使培养物在37℃和230RPM下生长至大约0.6OD600。如上所述将来自该培养的细胞铺板、挑选、生长并取样。该“重铺板”程序快速揭示具有不可检测的染色体UBP损失(保留B = 100%)的ΔrecA-Opt和Pol II+ΔrecA-Opt SSO的克隆。然而,尽管筛选WT-Opt SSO的12个克隆,但没有发现保留B>91%的克隆。因此,我们选择使用未经历重铺板程序的WT-Opt整合体(保留B=91%)进行倍增时间和传代实验。对于ΔrecA-Opt和Pol II+ΔrecA-Opt,我们各选择保留B=100%的一个克隆进行倍增时间和传代实验。
应注意,这些实验中使用的Pol II+ΔrecA菌株(图3B和图3C)在前述rec A基因座处不具有neo盒(P_polB(-)lexA-polB+ΔrecA+FRT+lacZYA::P_lacUV5-ΔΔ(CoOp)col1.1,表S1)。
菌株倍增时间的确定
使用以下程序制备对数中期细胞WT-Opt、ΔrecA-Opt和Pol II+ΔrecA-Opt SSO及其对应的染色体UBP整合体(上文所述)。通过接种来自甘油原液穿刺(stab)的含有氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT并在37℃和230RPM下过夜生长(大约14h)来制备饱和的过夜培养物。将这些细胞在500μL含有氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT中稀释至0.03OD600,并且在37℃和230RPM下生长。通过OD600监测生长。一旦细胞到达对数中期(0.3-0.5OD600),将其在48孔板中在500μL含有氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT或含有氯霉素(5μg/mL)和KPi(50mM,pH 7)的2×YT中稀释至0.013OD600,并且在37℃和230RPM下生长。每30min测量OD600。对于每种菌株,从接种过夜培养物开始,以一式三份进行该程序。
分析每个实验的OD600数据以获得理论细胞倍增时间(图3B和图S5)。使用R 3.2.4版将对应于指数生长期(0.01-0.9)的OD600测量拟合至以下指数生长模型:25
Figure BDA0002646587660001041
在ODi是时间(t)的OD600的情况下,OD0是给定数据集的最小OD600值,并且C生长是生长常数。C生长是使用“nls()”命令来拟合。使用以下方程计算倍增时间(DT):
Figure BDA0002646587660001042
携带基因组UBP的菌株的传代
使用来自WT-Opt、ΔrecA-Opt和Pol II+ΔrecA-Opt SSO(上文所述)的染色体UBP整合体的甘油原液穿刺接种500μL的含有卡那霉素(50μg/mL)、氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT。使细胞在37℃和230RPM下生长至对数中期(0.5-0.8OD600),然后将其在48孔板中在500μL的含有卡那霉素(50μg/mL)、氯霉素(5μg/mL)、dTPT3TP(37.5μM)、dNaMTP(150μM)和KPi(50mM,pH 7)的2×YT中稀释至0.03OD600,并且在37℃和230RPM下生长。将以0.03OD600接种的培养物视为传代的起点(倍增=0)。使培养物生长至1-1.5OD600,对应于大约5次细胞倍增。从0.03至1-1.5OD600的该生长被视为一次“传代”,其中一次传代对应于大约5次细胞倍增。在这些样品达到1-1.5OD600后,通过在相同组成的新鲜培养基中将细胞稀释至0.03OD600开始另一次传代。在稀释后,如下对1-1.5OD600培养物进行取样:将100μL与100μL甘油(50%)合并并在-80℃下冷冻;将350μL沉淀并冷冻用于随后分离基因组DNA;并且将50μL沉淀,用200μL diH2O洗涤一次,沉淀并重悬于200μL中。对于所有三种菌株,重复传代过程,总共15次传代,对应于大约80次细胞倍增。
在整个传代期间,对细胞悬浮液样品进行菌落生物素移位PCR分析(参见支持信息)。该分析揭示,在15次传代后,在WT-Opt中,保留已经下降至<10%。因此,不再将该菌株传代。相比之下,在ΔrecA-Opt和Pol II+ΔrecA-Opt中,保留保持在60%-80%。因此,对于这些菌株,如上文进行另一次传代。保留保持不变,现在总共16次传代。因此,使这些菌株以较高稀释因子经历另外4次传代,所述稀释因子对应于每次传代大约13次细胞倍增(从大约0.0001生长至1-1.5OD600)。此时,ΔrecA-Opt和Pol II+ΔrecA-Opt整合体已经经历了大约130次细胞倍增,并且根据菌落生物素移位PCR分析,UBP保留保持>40%。认为进一步传代是不需要的,并且停止实验,对在传代期间收集的基因组DNA样品进行更严密的分析。从用基因组整合体甘油原液穿刺接种培养基开始,该实验以一式三份进行。
在完成传代实验后,分离基因组DNA并通过生物素移位PCR分析(图3C)(参见支持信息)。WT-Opt中的UBP的先慢后快的损失表明,多种过程促进UBP损失。怀疑PlacUV5-PtNTT2(66-575)可能在实验期间已经发生突变,因为PtNTT2的表达引起轻微生长缺陷。3因此,经由突变使转运蛋白失活的细胞获得健康优点,并且可以快速地在实验群体中占优势。经由在WT-Opt传代结束时分离单独克隆和对纯化的基因组DNA进行PCR分析来探索该假设(参见支持信息和图S7)。若干种克隆的引物步移揭示,在这些细胞中,在cat与insB-4之间包括PtNTT2(66-575)在内的所有基因都已经缺失。insB-4基因编码IS1转座子的转座所需的两种蛋白质之一。26一种克隆的测序确认,IS1在PtNTT2(66-575)(T1495)插入,对应于15890个碱基对缺失。
在确认PtNTT2(66-575)突变事件后,通过来自WT-Opt整合体传代的基因组DNA样品的PCR分析评估缺失突变体的出现(参见支持信息和图S7B)。该分析揭示,尺寸对应于IS1介导的PtNTT2(66-575)缺失事件的若干种扩增子在UBP损失的快速期期间出现在传代样品中。
还观察到,Pol II+ΔrecA-Opt整合体的一个复制物与WT-Opt整合体同时快速损失UBP,有力地表明该复制物可能在传代期间已经被WT-Opt细胞污染。使用菌落PCR分析确认这种可能性,该分析揭示,这种复制物在对应于UBP快速损失的传代时被WT-Opt细胞污染(参见支持信息和图S6)。因此,对于这种复制物的数据,仅使用不含WT-Opt细胞污染的样品的数据。
细菌菌株和质粒
除非另外指示,否则该研究中使用的所有菌株(表S1;作为单独的支持文件来提供)都是经由λred重组工程从大肠杆菌-BL21(DE3)构建。基因敲除盒是经由Keio收集菌株的基因组DNA或pKD13的PCR扩增(使用OneTaq或Q5,根据制造商的推荐(New EnglandBiolabs))使用相关引物(表S1)获得的。功能性基因敲入盒polA(D424A,K890R)和Pol II+(图S4)是经由重叠PCR构建的。经由用pACS2或pACS2-dnaQ(D12N)转化或在lacZYA基因座整合PlacUV5-PtNTT2(66-575)+cat盒使菌株胜任dXTP输入(图S1)。先前已经描述了pACS2和PlacUV5-PtNTT2(66-575)+cat的构建。3pACS2-dnaQ(D12N)是经由PCR扩增子的Gibson组装构建的。在每种相关菌株中使用放射性dATP摄取测定确认PtNTT2功能。
外切核酸酶缺陷性Pol I和III。
DNA Pol I和III分别是条件性必需基因和必需基因。因此,与SOS调节的聚合酶不同,它们无法通过基因敲除来检查。相反,我们构建这些酶的3'-5'外切核酸酶缺陷性突变体。通过使Pol I的外切核酸酶结构域(D424A)的活性位点突变,使Pol I(polA)成为3'-5'外切核酸酶缺陷性。这是经由λred重组工程的两个时期来完成的(图S4)。首先,将polA截短至其5'-3'外切核酸酶结构域(去除聚合酶和3'-5'外切核酸酶结构域二者)。第二,在聚合酶和3'-5'外切核酸酶结构域中再引入D424A突变。由于基因的长度,在用于整合的扩增子中产生PCR突变。这导致K890R突变。然而,由于K890是蛋白质无序环上的表面暴露的残基,因此预期其至精氨酸的突变对蛋白质功能具有最小影响。此外,赖氨酸至精氨酸维持接近的残基电荷和尺寸。
DNA Pol III全酶是具有单独聚合酶和3'-5'外切核酸酶的多酶复合物。除了其编辑活性以外,外切核酸酶(dnaQ)被认为在Pol III全酶中具有结构性作用。因此,dnaQ的缺失去除Pol III编辑活性,而且还阻止细胞生长,除非将补偿突变添加至全酶的其他部分。因此,我们选择经由来自质粒pACS2+dnaQ(D12N)的增变株dnaQ突变体(D12N)的表达来检查Pol III在UBP复制中的作用(图S1)。先前已经证明尽管有来自该基因的染色体拷贝的野生型DnaQ的表达,来自多拷贝质粒的dnaQ(D12N)的表达在大肠杆菌中产生显性增变株表型。pACS2+dnaQ(D12N)使用两种天然基因启动子表达dnaQ(D12N)。
来自SSO的遗传优化的健康代价。
recA的缺失明确导致显著改进的UBP在许多序列中的保留。尽管这是非常期望的,但recA缺失确实造成一些健康代价。已知缺乏recA的菌株对DNA损伤的容忍较低。然而,鉴于SSO的所有近期应用都是在高度受控的环境中进行,我们预期这不成问题。另外,recA缺失增加倍增时间,如图S5中所测量。然而,进行这些实验主要用于说明在dNaMTP和dTPT3TP的存在或不存在下生长的携带染色体UBP的菌株的生长速率的差异。若干种因素使将菌株健康与所测量的倍增时间相关联变复杂。主要的复杂性在于,溶液中的细胞可以通过改变其形态而不是实际增加细胞数量来增加OD600。无论如何,L recA-Opt的测量的倍增时间(比WT-Opt长约18min)表明,recA的缺失导致显著下降的生长速率。然而,鉴于该修改的益处,该降低的生长速率是可接受的权衡。还应注意,图8中的一些数据点难以用理论来说明。例如,染色体UBP的存在似乎缩短L recA-Opt和Pol II+L recA-Opt中的倍增时间。
生物素移位分析
如先前所述测量UBP在pINF和染色体DNA中的保留,具有以下修改。所有生物素移位PCR都是以15-iiL体积使用以下运行:引物(1iiM,表S1)、d5SICSTP(65iiM)、dMMO2bioTP(65μM)、dNTP(400iiM)、MgSO4(2.2mM)、OneTaq DNA聚合酶(0.018U/iiL)、DeepVent DNA聚合酶(0.007U/iiL,New England Biolabs)、SYBR Green I(1x,Thermo FisherScientific)和OneTaq标准反应缓冲液(1x)。添加至生物素移位PCR的样品DNA的量以及温度方案根据样品的性质而变化。
对于来自基因敲除实验的体内复制的pINF(图1),无法确定pINF DNA的确切浓度,因为pINF和pACS2 DNA都是通过ZR Plasmid Miniprep-Classic试剂盒来捕获的。因此,使用0.5tiL(大约3ng总DNA)纯化样品作为生物素移位PCR的模板DNA。在CFX Connect实时PCR检测系统(BioRad)中使反应经历以下温度方案(时间以mm:ss计):[96℃02:00|12-18x(96℃00:15|48℃00:15|68℃04:00)]。通过SYBR Green I荧光监测反应进展,并且在反应刚刚离开PCR的指数期(通常17个循环)之后在68℃步骤结束时,停止反应并储存在4℃下。对于克隆pINF实验(图3A),使用3ng纯化的质粒DNA作为生物素移位PCR分析的模板DNA。使反应经历与上文相同的温度方案和监测。
金门构建的pINF和含有UBP的寡核苷酸如上所述分别使用1ng和7.5pg样品作为生物素移位PCR的模板DNA来扩增。
对于染色体UBP实验,对纯化的基因组DNA进行菌落生物素移位PCR和生物素移位PCR扩增二者。对于菌落生物素移位PCR,将2tiL细胞悬浮液(参见上文)添加至生物素移位PCR作为模板。使反应经历以下温度方案并如上文进行监测(时间以mm:ss计):[96℃02:00|5x(96℃00:15|60℃00:15|68℃04:00)|20-22x(96℃00:15|48℃00:15|68℃04:00)]。对于纯化的基因组DNA的生物素移位PCR扩增,使用30-125ng纯化的基因组DNA作为生物素移位PCR的模板。使这些反应经历以下温度方案并如上文进行监测(时间以mm:ss计):[96℃02:00|5x(96℃00:15|60℃00:15|68℃04:00)|10-16x(96℃00:15|48℃00:15|68℃04:00)]。
来自上述任何生物素移位PCR的生物素标记的扩增子的百分比是通过以下方式确定的:将具有2.5tiL链霉亲和素(2tig/μL,Promega)的1tiL生物素移位PCR与1tiL紫色加载染料(6x,New England Biolabs)混合,并在天然的6%聚丙烯酰胺凝胶上解析链霉亲和素-DNA复合物。将凝胶在50mL TBE中用1x SYBR金(Thermo Fisher Scientific)染色。使凝胶在Molecular Imager Gel Doc XR系统(Bio-Rad,赫拉克勒斯,加利福尼亚州)上用520DF3062mm(Bio-Rad)滤波器成像。限制图像曝光时间以防止目的条带中像素的CCD的饱和。使用Quantity One软件v4.6.9(Bio-Rad)使用局部背景减除对DNA和链霉亲和素-DNA条带的荧光强度进行定量。然后基于DNA(VDNA)和链霉亲和素-DNA(VSA-DNA)条带的像素数量(pixel volume)计算每个样品的移位百分比(S)。
通过生物素移位PCR分析对UBP保留的定量需要将样品移位值针对体外构建的含有UBP的DNA的移位值进行归一化。对于基因敲除中的体内复制实验(图1),将样品移位值百分比(SS)针对用于启动体内复制实验的金门组装的pINF的移位百分比(SGG)进行归一化(保留A)。
尽管已经证明dTPT3-dNaM和相关类似物在PCR中以高保真度复制10并且具有有限的序列背景偏差,11但是UBP以一定频率在PCR中发生突变。因此,通过PCR产生的含有UBP的DNA的金门组装进行的pINF产生导致产生一些突变型的全天然pINF。鉴于图1中呈现的实验没有分离单独的pINF转化体,这些全天然pINF将与含有UBP的pINF一起转化至实验细胞中并进行复制。这为给定样品的理论最大移位值百分比设置了上限。如果在体内没有发生UBP损失,那么体内样品的移位百分比将等于用于启动实验的金门组装的pINF的移位百分比(保留A=100%)。一些复制物(特别是在ΔrecA背景中)展示超过100%保留A。这可能是由于金门组装的pINF的取样所致。如果发生转化而仅导致含有UBP的质粒的转化并且细胞在没有UBP损失的情况下复制这些质粒,那么将SS针对SGG进行归一化将得到大于100%的值。如果UBP复制以完美的保真度发生,那么相同的逻辑适用于金门组装的pINF的任何取样,其导致含有UBP的pINF的百分比在所述细胞中比金门产物更高。因此,这在ΔrecA菌株中最明显,因为它们具有高UBP保留。
克隆pINF和染色体UBP实验(图3)确实检查pINF转化体。因此,PCR突变的全天然pINF可以产生展示无UBP含量(SS=0%)的单独克隆,但是它们不影响接受含有UBP的pINF的其他克隆的保留。因此,可以预期接受并忠实复制含有UBP的pINF的SSO的移位值与化学合成的含有UBP的寡核苷酸(假定具有100%UBP含量)的生物素移位PCR分析的移位值相匹配。为了将样品移位值转化为图3中所示实验的保留值(保留B),针对化学合成的含有UBP的寡核苷酸的移位值(SO)对样品移位值(SS)进行归一化。如果在体内未发生UBP损失,那么体内样品的移位百分比将等于化学合成的含有UBP的寡核苷酸(保留B=100%)的移位百分比。
离群值和低金门组装的pINF去除
呈现所收集的所有数据,具有以下例外。从图1B去除一个离群值(通过Grubbs测试)。此数据点显示对于复制TCAXAGT序列的ΔuvrC突变体无保留。如上所述,用于启动图1实验的金门组装的pINF中的UBP保留对在体内复制后可实现的保留设置了上限。一些金门组装的pINF制剂显示极低保留。用这些构建体收集的体内复制数据没有呈现。具体而言,如果金门组装的pINF的移位值%低于针对每个序列的以下截止值,则弃去数据:GTAXAGA-60%、TCAXAGT-70%、TCGXGGT-55%、TCTXGGT-50%、TCCXCGT-55%和TCCXGGT-55%。
实施例3.IS1的敲除增加核苷三磷酸转运蛋白PtNTT2的稳定性
为了评估可转座元件IS1的缺失是否促进核苷三磷酸转运蛋白PtNTT2在长期生长期间增加的稳定性(通过活性来证实),使YZ3和ΔIS1以一式三份在2xYT+50mM KPi+5ug/mLChlor(培养基)上连续传代,并测定PtNTT2活性(Rad/OD600)。传代1是经由用甘油原液穿刺接种700uL培养基来开始。使培养物生长过夜(约15hr)至饱和。将细胞稀释350倍至700uL新鲜培养基中。将此重复总共6次传代。然后将细胞另外传代4次,其中稀释因子增加至350,000倍。对传代群体PtNTT2活性的评估证明,ΔIS1菌株在长期生长期间维持更高PtNTT2活性,大概是经由消除IS1介导的PtNTT2缺失途径来实现的。由于PtNTT2的缺失促进非天然碱基对(UBP)的损失,这些结果表明,缺少IS1介导的PtNTT2缺失途径的工程化的宿主细胞或半合成生物体将显示增加的非天然碱基对的保留,并且因此显示包含非天然氨基酸的多肽以及其编码核酸分子的产生的增加。
虽然本文中已经显示并描述了本公开文本的优选实施方案,但是对于本领域技术人员明显的是,此类实施方案仅以举例的方式来提供。在不背离本公开文本的情况下,本领域技术人员现在将想到许多变化、改变和取代。应理解,本文描述的公开文本的实施方案的各种替代方案可以用于实践本公开文本。以下权利要求意图限定本发明的范围,并且由此覆盖这些权利要求及其等同物范围内的方法和结构。
序列表
<110> 斯克利普斯研究所
<120> 非天然碱基对组合物及使用方法
<130> 46085-712.601
<140>
<141>
<150> 62/612,062
<151> 2017-12-29
<160> 32
<170> PatentIn 3.5版
<210> 1
<211> 2540
<212> DNA
<213> 大肠杆菌(Escherichia coli)
<400> 1
aaaccaggct cccccaagcc tggttgtagg ctggagctgc ttcgaagttc ctatactttc 60
tagagaatag gaacttcgaa ctgcaggtcg acggatcccc ggaatttttt tataaataca 120
cagccaatca aacgaaacca ggctataatc aagcctggtt ttttgatgga attacagcgt 180
ggcgcaggca ggttttatct taacccgaca ctggcgggac accccgcaag ggacagaagt 240
ctccttctgg ctggcgacgg acaacgggcc gttgcaggtt acgcttgcac cgcaagagtc 300
cgtggcgttt attcccgccg atcaggttcc ccgcgctcag catattttgc agggtgaaca 360
aggcgttcgc ctgacaccgc tggcgttaaa ggattttcac cgccagccgg tgtatggcct 420
ttactgtcgc gcccatcgcc aattgatgaa ttacgaaaag cgcctgcgtg aaggtggcgt 480
taccgtctac gaggccgatg tgcgcccgcc agaacgctat ctgatggagc ggtttatcac 540
ctcaccggtg tgggtcgagg gtgatatgca caatggcgct atcgttaatg cccgtctgaa 600
accgcatccc gactatcgtc cgccgctcaa gtgggtttct attgatattg aaaccacccg 660
ccacggtgag ctgtactgca tcggcctgga aggctgcggg cagcgcatcg tttatatgct 720
ggggccagag aatggcgacg cctccgcgct cgattttgaa ctggaatacg tcgccagccg 780
cccgcagcta ctggaaaaac tcaacgcctg gtttgccaac tacgatcctg atgtgatcat 840
cggttggaac gtggtgcagt tcgatctgcg aatgctgcaa aaacatgccg agcgttaccg 900
tattccgctg cggctggggc gcgataacag tgagctggag tggcgcgagc acggctttaa 960
aaacggcgtc ttttttgccc aggctaaagg tcggctaatt atcgacggta tcgaggcgct 1020
gaaatccgcg ttctggaatt tctcttcatt ctcgctggaa accgtcgctc aggagttatt 1080
aggcgaagga aaatctatcg ataacccgtg ggatcgaatg gacgaaattg accgccgttt 1140
cgccgaagat aaacctgcgc tggcgactta taacctgaaa gattgcgagc tggtgacgca 1200
gattttccat aaaactgaaa tcatgccatt tttactcgaa cgagcgacgg tgaacggcct 1260
gccggtagac cgccacgggg gatcggtggc ggcgtttggt catctctatt ttcctcgtat 1320
gcaccgcgct ggttatgtcg cgcctaatct cggcgaagtg ccgccacacg ccagccctgg 1380
cggctacgtg atggattcac ggccagggct ttatgattcg gtactggtgc tggactataa 1440
aagcctgtac ccgtcgatca tccgcacctt tctgattgat cccgtcgggc tggtggaagg 1500
catggcgcag cctgatccag agcacagtac cgaaggtttt ctcgatgcct ggttctcgcg 1560
agaaaaacat tgcctgccgg agattgtgac taacatctgg cacgggcgcg atgaagccaa 1620
acgccagggt aacaaaccgc tgtcgcaggc gctgaaaatc atcatgaatg ccttttatgg 1680
cgtgctcggc accaccgcct gccgcttctt cgatccgcgg ctggcatcgt cgatcaccat 1740
gcgtggtcat cagatcatgc ggcaaaccaa agcgttgatt gaagcacagg gctacgacgt 1800
tatctacggc gataccgact caacgtttgt ctggctgaaa ggcgcacatt cggaagaaga 1860
agcggcgaaa atcggtcgtg cactggtgca gcacgttaac gcctggtggg cggaaacgct 1920
gcaaaaacaa cggctgacca gcgcattaga actggagtat gaaacccatt tctgccgttt 1980
tctgatgcca accattcgcg gagccgatac cggcagtaaa aagcgttatg ccggactgat 2040
tcaggagggc gacaagcagc ggatggtgtt taaagggctg gaaaccgtgc gcaccgactg 2100
gacgccgctg gcccagcagt ttcagcagga gctatacctg cgcatcttcc gcaacgagcc 2160
atatcaggaa tatgtacgcg aaaccatcga caaactgatg gcgggtgaac tggatgcgcg 2220
actggtttac cgtaaacgcc ttcgccgtcc gctgagcgag tatcagcgta atgtgccgcc 2280
tcatgtacgc gccgctcgcc ttgccgatga agaaaaccaa aagcgtggtc gccccttgca 2340
atatcagaat cgcggcacca ttaagtacgt atggaccacc aacggcccgg agccgctgga 2400
ctaccaacgt tcaccactgg attacgaaca ctatctgacc cgccagctac aacccgtggc 2460
ggagggaata ctccctttta ttgaggataa ttttgctaca cttatgaccg ggcaacttgg 2520
gctattttga gcaaaaaaaa 2540
<210> 2
<211> 2436
<212> DNA
<213> 大肠杆菌(Escherichia coli)
<400> 2
tgactgtata aaaccacagc caatcaaacg aaaccaggct ataatcaagc ctggtttttt 60
gatggaatta cagcgtggcg caggcaggtt ttatcttaac ccgacactgg cgggacaccc 120
cgcaagggac agaagtctcc ttctggctgg cgacggacaa cgggccgttg caggttacgc 180
ttgcaccgca agagtccgtg gcgtttattc ccgccgatca ggttccccgc gctcagcata 240
ttttgcaggg tgaacaaggc gttcgcctga caccgctggc gttaaaggat tttcaccgcc 300
agccggtgta tggcctttac tgtcgcgccc atcgccaatt gatgaattac gaaaagcgcc 360
tgcgtgaagg tggcgttacc gtctacgagg ccgatgtgcg cccgccagaa cgctatctga 420
tggagcggtt tatcacctca ccggtgtggg tcgagggtga tatgcacaat ggcgctatcg 480
ttaatgcccg tctgaaaccg catcccgact atcgtccgcc gctcaagtgg gtttctattg 540
atattgaaac cacccgccac ggtgagctgt actgcatcgg cctggaaggc tgcgggcagc 600
gcatcgttta tatgctgggg ccagagaatg gcgacgcctc cgcgctcgat tttgaactgg 660
aatacgtcgc cagccgcccg cagctactgg aaaaactcaa cgcctggttt gccaactacg 720
atcctgatgt gatcatcggt tggaacgtgg tgcagttcga tctgcgaatg ctgcaaaaac 780
atgccgagcg ttaccgtatt ccgctgcggc tggggcgcga taacagtgag ctggagtggc 840
gcgagcacgg ctttaaaaac ggcgtctttt ttgcccaggc taaaggtcgg ctaattatcg 900
acggtatcga ggcgctgaaa tccgcgttct ggaatttctc ttcattctcg ctggaaaccg 960
tcgctcagga gttattaggc gaaggaaaat ctatcgataa cccgtgggat cgaatggacg 1020
aaattgaccg ccgtttcgcc gaagataaac ctgcgctggc gacttataac ctgaaagatt 1080
gcgagctggt gacgcagatt ttccataaaa ctgaaatcat gccattttta ctcgaacgag 1140
cgacggtgaa cggcctgccg gtagaccgcc acgggggatc ggtggcggcg tttggtcatc 1200
tctattttcc tcgtatgcac cgcgctggtt atgtcgcgcc taatctcggc gaagtgccgc 1260
cacacgccag ccctggcggc tacgtgatgg attcacggcc agggctttat gattcggtac 1320
tggtgctgga ctataaaagc ctgtacccgt cgatcatccg cacctttctg attgatcccg 1380
tcgggctggt ggaaggcatg gcgcagcctg atccagagca cagtaccgaa ggttttctcg 1440
atgcctggtt ctcgcgagaa aaacattgcc tgccggagat tgtgactaac atctggcacg 1500
ggcgcgatga agccaaacgc cagggtaaca aaccgctgtc gcaggcgctg aaaatcatca 1560
tgaatgcctt ttatggcgtg ctcggcacca ccgcctgccg cttcttcgat ccgcggctgg 1620
catcgtcgat caccatgcgt ggtcatcaga tcatgcggca aaccaaagcg ttgattgaag 1680
cacagggcta cgacgttatc tacggcgata ccgactcaac gtttgtctgg ctgaaaggcg 1740
cacattcgga agaagaagcg gcgaaaatcg gtcgtgcact ggtgcagcac gttaacgcct 1800
ggtgggcgga aacgctgcaa aaacaacggc tgaccagcgc attagaactg gagtatgaaa 1860
cccatttctg ccgttttctg atgccaacca ttcgcggagc cgataccggc agtaaaaagc 1920
gttatgccgg actgattcag gagggcgaca agcagcggat ggtgtttaaa gggctggaaa 1980
ccgtgcgcac cgactggacg ccgctggccc agcagtttca gcaggagcta tacctgcgca 2040
tcttccgcaa cgagccatat caggaatatg tacgcgaaac catcgacaaa ctgatggcgg 2100
gtgaactgga tgcgcgactg gtttaccgta aacgccttcg ccgtccgctg agcgagtatc 2160
agcgtaatgt gccgcctcat gtacgcgccg ctcgccttgc cgatgaagaa aaccaaaagc 2220
gtggtcgccc cttgcaatat cagaatcgcg gcaccattaa gtacgtatgg accaccaacg 2280
gcccggagcc gctggactac caacgttcac cactggatta cgaacactat ctgacccgcc 2340
agctacaacc cgtggcggag ggaatactcc cttttattga ggataatttt gctacactta 2400
tgaccgggca acttgggcta ttttgagcaa aaaaaa 2436
<210> 3
<211> 2008
<212> DNA
<213> 大肠杆菌(Escherichia coli)
<400> 3
ttattgcacg aagcgcgagg taacgtactg gctgtaatca ttcgctacag ccgggacctt 60
gccctgctct ttcaaaaact gcgcggtgtc gatgatcgct ttgttcaccg gtccggtcag 120
ttctgccgtt tgttgctgcg gcgtcagata ggtattcccc ttcaccagcc ccggaacgtc 180
accttcaggc acgccgctta accgcgccag tttgctgatg ttttccggct gtttcagcca 240
cgcgtctggg ttagcaatgt acggttgctg agcatcgatg gcgcttttgg cgaacgcttt 300
caccacctca ggatgtttct cggcaaaatc tttgcgcacc acccagacgt ccagcgttgg 360
cgcaccccac tgcccgacct gttcagaatc ggtcagcact ttgccgtctt tttccagggc 420
gttaaccgcc ggtgcccaga cataagcacc atcaatatct ccccgctgcc atgcagcgat 480
aatcgcgggc ggctgcaggt tcacaatctc cacttgccca ggtttaatgc cccagtgttt 540
cagcgctgcc agcaggctgt agtgggtggt agagataaac ggtacggcga tgcgtttgcc 600
aatcagatct tccggtttgc tgatagtttt ctttaccacc agcgcttctg agttacccag 660
ttttgacgcc agcaagaaga cttcaatcgg cacctgttgg ctggctgcaa ccgctaacgg 720
gctggaacca aggttgccga tttgcacgtc gccagaagcc agcgcccgca cgatgctggc 780
tccgctgtca aacttacgcc agtccacggt tgctccgctt tctttagcaa aggtgttgtc 840
ggcctgagcc actttcgccg gttcggctga ggtttgatac gccacggtga cgttcaccgc 900
ctgtgcctga aaagcgatga atgccagtgc ggcaagaagt gtgtttcgcg atgaaattgc 960
catgattgtc tgctcccctg tcttgttatg ggagcagtat tcaggaataa aaacattcat 1020
taaaagaatt agtcgttatc gcacagatga ttttattctt agcaaaaaaa cggtgatgct 1080
gccaacttac tgatttagtg tatgatggtg tttttgaggt gctccagtgg cttctgtttc 1140
tatcagctgt ccctcctgtt cagctactga cggggtggtg cgtaacggca aaagcaccgc 1200
cggacatcag cgctatctct gctctcactg ccgtaaaaca tggcaactgc agttcactta 1260
caccgcttct caacccggta cgcaccagaa aatcattgat atggccatga atggcgttgg 1320
atgccgggca actgcccgca ttatgggcgt tggcctcaac acgattttac gtcacttaaa 1380
aaactcaggc cgcagtcggt aacctcgcgc atacagccgg gcagtgacgt catcgtctgc 1440
gcggaaatgg acgaacagtg gggctatgtc ggggctaaat cgcgccagcg ctggctgttt 1500
tacgcgtatg acaggctccg gaagacggtt gttgcgcacg tattcggtga acgcactatg 1560
gcgacgctgg ggcgtcttat gagcctgatg tcaccctttg acgtggtgat atggatgacg 1620
gatggctggc cgctgtatga atcccgcctg aagggaaagc tgcacgtaat cagcaagcga 1680
tatacgcagc gaattgagcg gcataacctg aatctgaggc agcacctggc acggctggga 1740
cggaagtcgc tgtcgttctc aaaatcggtg gagctgcatg acaaagtcat cgggcattat 1800
ctgaacataa aacactatca ataagttgga gtcattacca ggccgacaaa atggaggcaa 1860
agaccaacaa agaaaagtag ttaacctagg ctgctgccac cgctgagcaa taagactcct 1920
gttgatagat ccagtaatga cctcagaact ccatctggat ttgttcagaa cgctcggttg 1980
ccgccgggcg ttttttattg gtgagaat 2008
<210> 4
<211> 17210
<212> DNA
<213> 大肠杆菌(Escherichia coli)
<400> 4
ttattgcacg aagcgcgagg taacgtactg gctgtaatca ttcgctacag ccgggacctt 60
gccctgctct ttcaaaaact gcgcggtgtc gatgatcgct ttgttcaccg gtccggtcag 120
ttctgccgtt tgttgctgcg gcgtcagata ggtattcccc ttcaccagcc ccggaacgtc 180
accttcaggc acgccgctta accgcgccag tttgctgatg ttttccggct gtttcagcca 240
cgcgtctggg ttagcaatgt acggttgctg agcatcgatg gcgcttttgg cgaacgcttt 300
caccacctca ggatgtttct cggcaaaatc tttgcgcacc acccagacgt ccagcgttgg 360
cgcaccccac tgcccgacct gttcagaatc ggtcagcact ttgccgtctt tttccagggc 420
gttaaccgcc ggtgcccaga cataagcacc atcaatatct ccccgctgcc atgcagcgat 480
aatcgcgggc ggctgcaggt tcacaatctc cacttgccca ggtttaatgc cccagtgttt 540
cagcgctgcc agcaggctgt agtgggtggt agagataaac ggtacggcga tgcgtttgcc 600
aatcagatct tccggtttgc tgatagtttt ctttaccacc agcgcttctg agttacccag 660
ttttgacgcc agcaagaaga cttcaatcgg cacctgttgg ctggctgcaa ccgctaacgg 720
gctggaacca aggttgccga tttgcacgtc gccagaagcc agcgcccgca cgatgctggc 780
tccgctgtca aacttacgcc agtccacggt tgctccgctt tctttagcaa aggtgttgtc 840
ggcctgagcc actttcgccg gttcggctga ggtttgatac gccacggtga cgttcaccgc 900
ctgtgcctga aaagcgatga atgccagtgc ggcaagaagt gtgtttcgcg atgaaattgc 960
catgattgtc tgctcccctg tcttgttatg ggagcagtat tcaggaataa aaacattcat 1020
taaaagaatt agtcgttatc gcacagatga ttttattctt agcaaaaaaa ctgtaggctg 1080
gagctgcttg aagttcctat actttctaga gaataggaac ttcgaactgc aggtcgacgg 1140
atccccggaa ttagaacgta atttacctgc cggaacttat tcactccgac aagaacttat 1200
ccgtacagga gattaaaatg ataaaacgga cgttattagc ggcggccatt tttagcgcat 1260
tgcccgctta tgccgggtta acttccatta ccgcgggcta cgattttacc gattattctg 1320
gcgatcatgg caaccgtaat ttagcgtatg ctgaactggt ggcgaaagtt gaaaacgcaa 1380
cgctgctttt taatctttcc caggggcgtc gtgattatga aactgaacat ttcaatgcca 1440
ctcgcggtca gggtgcggtc tggtataaat ggaataactg gctgacaacc cgaacgggta 1500
ttgcctttgc ggataatacg ccggtctttg cccgccagga ttttcgtcag gatattaacc 1560
tggccctgtt gccaaaaacg cttttcacga ccggttatcg ctacactaaa tattacgatg 1620
atgtcgaagt cgatgcctgg caaggcggcg tatcactcta tactggcccg gtgatcacca 1680
gctaccgcta tacccattat gactccagcg atgcaggtgg tagttatagc aatatgattt 1740
ccgtgcgtct gaatgacccg cgcggcactg gttatacgca actatggcta agccgcggaa 1800
caggcgctta cacctatgac tggacgccag aaacacgcta cggcagcatg aagagcgtca 1860
gtctgcaacg tattcaaccg ctgactgagc aacttaatct cgggctgacg gcaggtaaag 1920
tgtggtacga caccccaacc gatgattata acggtctgca acttgcagcc catctgacct 1980
ggaaattctg attccttctg ccgcccgcta tccggggcgg ccttccctgc cgattagccc 2040
ccccctttcc tctttgtttt ccgaccacat tcaccggata aattttattc tccagtgtta 2100
tatactatag gggggtatgc attgacatat agcatacccc cctatagtat attgcgtgca 2160
gataatgagg tgcgaaatgc ccagtactcc ggaagagaag aaaaaggtcc ttactcgagt 2220
tcgtcgtatt cgagggcaga ttgatgctct ggaacggtcg ctggagggtg atgccgaatg 2280
ccgtgccata ctccaacaga tcgctgccgt tcggggcgcg gctaatgggc tgatggcaga 2340
agtgcttgaa agccatatcc gggaaacgtt tgaccgaaat gactgctaca gccgcgaagt 2400
cagccaatcc gttgacgaca ctattgaact ggttcgagcc tatcttaaat agctgaatct 2460
attaccatat tgaggaagag cgagagatga aatcacgtgc tgccgttgca tttgctcccg 2520
gtaaaccgct ggaaatcgtt gaaattgacg ttgcaccacc gaaaaaaggt gaagtgctga 2580
ttaaagtcac ccataccggc gtttgccata ccgacgcatt taccctctcc ggggatgacc 2640
cggaaggtgt attcccggtg gttctcggtc acgaaggggc cggcgttgtg gttgaagtcg 2700
gtgaaggcgt aaccagcgtc aaacctggcg accatgtgat cccgctttac accgcggagt 2760
gcggcgagtg tgagttctgt cgttctggca aaactaacct ctgtgttgcg gttcgcgaaa 2820
cccagggtaa aggcttgatg ccagacggca ccacccgttt ttcttacaac gggcagccgc 2880
tttatcacta catgggatgc tcaacattca gtgaatacac cgtggtcgcg gaagtgtctc 2940
tggccaaaat taatccagaa gcaaaccatg aacacgtctg cctgctgggc tgtggcgtga 3000
ccaccggtat tggcgcggtg cacaacacag ctaaagtcca gccaggtgat tctgttgccg 3060
tgtttggtct tggcgcgatt ggtctggcag tggttcaggg cgcgcgtcag gcgaaagcgg 3120
gacggattat cgctatcgat accaacccga agaaattcga tctggctcgt cgcttcggtg 3180
ctaccgactg cattaacccg aatgactacg acaaaccgat taaagatgtc ctgctggata 3240
tcaacaaatg gggtatcgac catacctttg aatgcatcgg taacgtcaac gtgatgcgtg 3300
cggcgctgga aagtgcgcac cgcggctggg gtcagtcggt gatcatcggg gtagcaggtg 3360
ccggtcagga aatctccacc cgaccattcc agttggtcac cggtcgcgta tggaaaggtt 3420
ccgcgtttgg cggcgtgaaa ggtcgttccc agttaccggg tatggttgaa gatgcgatga 3480
aaggtgatat cgatctggaa ccgtttgtca cgcataccat gagccttgat gaaattaatg 3540
acgccttcga cctgatgcat gaaggcaaat ccattcgaac cgtaattcgt tactgatttc 3600
ccgcaggtat accccgtcca cttcagacgg ggttcttaat actctccctg ggcagccgtc 3660
cgggggatta accgtgagat aatgactgat ggaactcatt gaaaaacatg ccagctttgg 3720
cggctggcaa aatgtgtatc ggcattattc ccaatcactg aaatgtgaaa tgaatgtcgg 3780
cgtctatctc ccaccaaaag ccgcgaatga aaaattgccg gtgttgtact ggctttcagg 3840
cctgacttgc aacgagcaga atttcattac taaatcgggg atgcagcgtt acgcggctga 3900
gcacaacatt attgttgttg cgccggacac cagtccgcga ggcagtcatg tcgcagatgc 3960
tgaccgttac gatctcgggc aaggtgccgg gttttacctg aacgcgacgc aagcgccgtg 4020
gaatgaacat tacaaaatgt atgactatat ccgcaacgag ctgccggatt tagtgatgca 4080
tcattttccg gcaacggcca aaaagtctat ctctggtcat tctatgggcg ggctgggcgc 4140
gctggtgctg gcgttacgta acccagatga atatgtcagc gtctcggcgt tttcgcccat 4200
tgtctcccca tcgcaagtgc cgtggggaca gcaagccttt gctgcatatc ttgctgaaaa 4260
taaagatgcc tggttggatt acgacccggt gagtcttatt tcacaaggtc aacgcgttgc 4320
ggaaatcatg gttgatcagg ggttgagtga tgatttttac gcagaacagc tgcggactcc 4380
aaatcttgaa aagatctgcc aggagatgaa tatcaagacg ttaatccgtt atcacgaggg 4440
ttatgatcac agctattatt ttgtctccag ttttattggc gagcatattg cctaccacgc 4500
caataaactg aatatgcgtt gataatagtg cacgactgcc ggatgcggcg tgaacgcctt 4560
atccggccta cacttcgccc gtaaaccgta ggcctgataa gacgcgcaaa gcgtcgcatc 4620
aggcatggcg cacgactgcc ggatgcggcg tgaacgcctt atccggtcta cacttcgccc 4680
ataaaccgta ggcctgataa gacgcgcata gcgtcgcatc aggcatctgc gcacgactta 4740
tctatgttta ccacatcaaa tcatcaggca ctttgaagtc ggcatacggg tcgtcttcat 4800
cctgctcttc ggcgctgagc gcgctgtgca acactatact gctggcatcg cgctgagcaa 4860
ttttatcggc aacgctggcg ggaataatgg cgtattcacc ttcgctattg ttatcgacca 4920
acaagcgggc aatcgccaga cgaccattaa tcaactgcgc ctgtgtgagc ttatcgacaa 4980
aaatcttctt aatcagattg ccgtcagtga agttaaaacc aatatcgcca ttggcaatgg 5040
tgattcggtt catttcaata agctgcttca cctgagcttt atattctttc gccaacgccg 5100
cttgtttttg ctgttcgcta agctgtttat cacgctcaag ctgtgccttt ttattttctt 5160
ctaccgccgc ccgagcttca cgcgcctgaa cgcgcgattt tttcgccgtt ctctccacct 5220
tcgccgcttt tttgctggtg actaatcctg ctttgagcaa ctgctcttgt aaggtaagtt 5280
ttgccatctt tgtttccaaa cccgctgaat aatttttagc gagtatacct gtaaacgccg 5340
taggtgtatt ggggtgaagt ccctttcgcc cctgcctaat aaggcacgtc aggcatcggc 5400
gcacggctgt attcgtgatc tccggctcat caaaataaac accgccaacc cagcaacaag 5460
aatacccggt gcagaagcgg ccattacgcc gaccgtgcca gtgcctaatg ccagcatttt 5520
cccggccagt aacggaccgc tcatagcccc cagacgccct accgccacgg ctgttcccac 5580
acctgttgcg cggatctgcg aactgtaaaa caacggtgcc agggcataca aaacgctttg 5640
cccacctgtc gcaaacaacc ccgcgacaaa tcccgccagc aacataccgt taaatgacga 5700
caccgttcca agcgccagca gcgaagctaa catgccgcta taaatcagta gcgacatggt 5760
tactggacgc agcttatcca tcaatgcgcc caacattaac gtcccgcttg ccgcccccat 5820
ttgcagggca aacatcaccc ctgccgcctg cgatggctgg aatccttgct ccaccaaaag 5880
tagcggtagc cagttgatca acatgtagac caccagcaga gtgaagaaat aacacaacca 5940
cagcagcagc gtcgcggttg ccgtttctgg cgcaaataag gcacgcagtg gtggcgcaga 6000
ctgtttttcg ccagcgaaaa ccgccgactc cggcagccag cgcattaata gcggcaccag 6060
aatcaacggc accacaccac ctacccaaaa caccgtttgc catgctaagt ttgcccccgc 6120
gaaacccagt gtcgccgcca gcgccgcgcc aatgggaaca ccgcaataca tcaggctcac 6180
tgccgtccca cgaaaacgtg gacccgcggc ttcagacgtc agggcgataa gattcggcaa 6240
cgccgccccc agcccgacac cggtcatcag ccgcgcaaag accagtgagg ggaaatccca 6300
ggcaatcgcc gttgccagtg agaacaaacc aaacagcgca actgagccaa tcaaaatacg 6360
cttacgacca taacggtccg ccagcattcc gccaaccaac gcgccgggta gcaaaccgag 6420
tattccggcg ctaaatatcc agcccatttg cattttatcg agtgcgaaag cctgggcgat 6480
gccacccgcc gcaatgccag ccgcctgaag atccagccct tccatcagag cgaccaaaaa 6540
acaaagcccg atggtcagca tcaggcggga tgaagatgat gaaggggtac gagtcgacat 6600
aagatgaacc tcattgcgag tgcaggtgaa tcgcgactga tacattgcca gccgcgtaat 6660
cagaactatt gaatgactgc ctacgggcga aatgtaggcc ggataaggcg ttcacgccgc 6720
atccggcagt cgtgtgcaga tgcctgatgc gacgcttgcg cgtcttatca ggcctacaaa 6780
ttcccgcgcc atccgtaggc cggataaggc gtttacgccg catccggcag tcgtgcgcag 6840
atgcctgatg cgacgctaac gcgtcttatc aggcctacaa attctcgcgc catccgtagg 6900
ccggacaaga cgttcacgcc gcatccggca gtcgtgctgg gatgggcata caaaatgcac 6960
attctcggca gtcaatatta tttgttgttg cgcagatcca gcgccacgtc gacgatcata 7020
tcctcctggc cgccaaccat ccggcgtttg cccagctcaa cgagaatatc caccgcgctt 7080
aagccataac gcgccgccgc cgtttcacag tgacgcagga agctggagta aacaccagcg 7140
tatcccagcg ccagcgtttc gcgatcgact cgtaccggtc gatcctgcaa cggacgcacc 7200
aggtcgtcag cggcatccat taacgcatag agatcggtcc catgctgcca gcccagttta 7260
tccgcggcgg caataaatac ttccagcggc gcgttacctg cgcccgcgcc cattcccgcg 7320
aggctggcgt cgattcggtc gcagccctct tccaccgcct cgatagagtt cgccacgcca 7380
agactcaggt tatggtgagc gtgcatgccg gtttgcgttt ctggtttcaa cactgctttc 7440
agggcgcgga aacggtcacg gatatcgctc atgttcatcg caccgccaga atccaccaca 7500
taaatacagg tcgcaccgta gccttccatc agctttgcct gctttgcgag attctctggc 7560
gtggtcatat ggctcatcat cagaaaacca acggtgtcca ttccgagctc gcgggcatac 7620
tgaatatgct gggcggaaac atcagcttcg gtacagtgcg tagccacacg aaccacccgc 7680
gcgccagctt gccaggcatt tttcagatcg tgaatagtgc cgattcctgg cagcaacaac 7740
gtcgcgattt tggcgtgctt caccacatcc gccgctgctt caatccattc aaggtcgcta 7800
tgtgcgccga aaccatagtt aaagctggaa ccctgcaaac cgtcgccgtg ggccacttca 7860
atcgaatcca cgtgggcatc gtccagtgct ttggcaatct ggcgaacgtt ttccagcgaa 7920
tactgatgac gaatggcgtg cataccgtca cgcaacgtga cgtccgagat ataaagtttt 7980
ttaccgttca tgccgcttct cctgccttgc gcgccagtga ctgggccatt ttttccgctg 8040
tcgccagcgc actggaagtc ataatgtcga ggttgcccgc ataggcaggc agataatgcg 8100
ctgcgccttc gacttccagc cagaccgctg ttttcagtcc ggagaattgc cccacgcccg 8160
gtaaattgac cggtttatcc tgcgggataa cttcaaactg cacgcgctgt ttcaggcgat 8220
aacccggtac gtaagcctgc accgcctcag ccatttcatt gattgaggct tcgatatcat 8280
cttgtgaagc ttcgtcgctc aatacataca ccgtgtcacg catcatcaac ggtggctctg 8340
ctgggttaag cacaataatc gccttccctt ttgccgcgcc gcccaccact tcaatggctc 8400
gggaagtggt ttccgtaaat tcatcgatat tggcacgcgt gccaggtccg gcagatttac 8460
tggcgataga agcgataatt tcggcgtaat gaacacgcgc cacgcgtgaa actgccgcca 8520
ccattggaat ggtggcctgg ccgccgcagg tgaccatgtt gacgttcagt tgatcgacgt 8580
tcgcctcgag gttaaccacc ggcacgcagt aagggccgat ggcagcaggc gtcaggtcaa 8640
ttaagcgaat atccggtttc gcttcgcgta aagcggcatc gtttttcaca tgagcaccgg 8700
cgctggtcgc atcaaataca atgtcgatat cagcaaattc aggcatgttc atcagtccga 8760
tcaccccttc atgggtggtg gcgacgccca tacgtctggc gcgcgccaga ccgtcggact 8820
gaggatcaat gccaaccatc accgccatct ccagatgctg accgtgacgc aaaattttaa 8880
tcatcagatc ggtgccaatg ttgccagaac cgataatggc gactttacgc ttactcatga 8940
cagacttcct tttggggctg cgcttgaaaa tgtcgcagca actgaaccta tgccttcaat 9000
atgggcttca aaacgatcgc ccgcattcac cgccaccatc ggacctaatg ccccggtaag 9060
aatgatatct ccggtgcgca gcggttcacc cagactggcc attttgcgtg ccagccagac 9120
ggccgcatta agcggatgtc ccaggcattc gctgccgcgc ccgctagaaa cctcttcgtt 9180
attacgcgtc atcttcatgg cgcagttttt caggtctaac cccgccggac gttgcgccgg 9240
accgccgatg acatacaccc cacaggaggc gttatctgcc acggtatcga caaactgaat 9300
cgaccagtcg cgaatgcggc tccccaccac ttccagcgcc ggaagtaccc attcaatggc 9360
gttatacaat tcgtcgaagg tgatatcggt tgcgggcaaa tcgcggttca acaccagtgc 9420
gatctccgct tcaatgcggg gttgcagaac acgggaaaaa ggaatgattt cgttatcgcc 9480
ataacacatg tcggcaaata atgtcccgaa atccggttga tcaacgccca gttgttgctg 9540
cactttcgga tgcgtcaggc ccactttacg ccctaccacg cgacgcccct gcgcaacgtc 9600
atattgcaca tttatgtgct gaatggcgta ggccgcttca gcgttatcga taccaatcag 9660
atcgcgcagc ggcgcaatcg cttcgccctg ctctgcggcg cggcgtaaat ccgccgccag 9720
ttgctcaaga gtatgcttcg tcatgaccat tccttaaggg cgtgcgagga aattcagcac 9780
caattgattg aaagcgtcgg catgttccca ctgcgcccag tgaccacagt cgcggaagat 9840
atgcagttca gaaccggcaa tgccggacag cagacgcaga cccgcatcca tcggcacaaa 9900
gcggtcgttg cgcccccaga caatcagggt ttgcgctttg atttccgcca gacgtgggcc 9960
aaaatccggg aactgtttcg gattagcttc caggctctta acgaagtttt ccaggtgatc 10020
gcggcgcgac agcatattat tcaggcgcgc ttcaaacagg gcgtcggtca aatcgctggt 10080
atcgaaaacg aagatatcca tcatcagctt caggttttcg atagtcggct gacgataaag 10140
ctgattcagt cgcttaatac cttcggttgg catcggcgta aacaaactca tgccgcccgt 10200
accgccgccc atcagcacca gtttgccgac gcgctccggc cagttaaggg tgaacgccac 10260
agaactatgg ccgcccatcg agttgcccag caggtggatt ttggcgatat ccagttgatc 10320
caccacgctt ttcaggattc gtgcattaag atccgatcgt gaaccactat taacgatcga 10380
atcgcttttg ccccaacccg gacaatccag caggatcacc cgatagcccg cctctaccag 10440
cggatcgata ttgcggctga agttcgccca gccagtagca cccgggccgg aaccatgcag 10500
caggacaacg gtttcgtcgc cttgtccgca gtcattaaaa tggatgcgca gcgttttacc 10560
cgcttcttct acattcagaa aacggctggt ggcggcttcg gtttgtggct gataactcat 10620
catcttctcc tgcatattca gttctctgtt ctggcgctta acgagccaaa tccggcaatc 10680
cactccggga ttgggcggta ataacgccct tcgctacgcc agttgccaaa tgcagaaata 10740
gcggcaaaag cggcgaccca ggttttgatt tcatgtgtcg actttccggc aatggcggaa 10800
agctcttcgt tactgacggc atccagttcc tgtatgcgtc cctgctccag caaagtcatg 10860
aactggttat cccaaatcgg gttgagcgga tgcagagttc tctgatcctc aacaaacttc 10920
tcagcggcgc taatcacccg ttgctgacgc aattcgcgct cactggcggg taaatctttc 10980
ccgctcccca acagacggtc gcgcatatgg gcatcggctt tcgccagttc gggcaccggc 11040
ggctgatggg aaagcccacc ggaacccagg aacagcacgc gtttattgag agtgctggtg 11100
aaacgtccaa tggcttcacc caacatgcgg gtacgctgga aaccgggcag cggcgtggcg 11160
acaccgttga tgaacacagg cagaactggc accttatcca gcccgccgag caggaactcc 11220
agtggctggg cgaacccgtg gtccacctgc atacagtaag aaacggcaag atcgatcccg 11280
ctcttcatga cggcatgcgc acaggcctcc gccagctcca caggcacggg cagctctcct 11340
gccgcactgc cgaaatcacc aattgccgtc gccccaacgc ctaaacagaa cggtggcatc 11400
acgtcataga aaaagccgtt gtagtgatct ggcgcaaaca gcaccaccag ttcaggggag 11460
aaagccgcaa tacgctcgcg ggcgctggca atcacgccat tgacctcatc gagtacctct 11520
tgcgccgggt cgacatatcc caccagcggc gagtgggaaa gacagtgaag ataagcgtgc 11580
atatcaggct accttttcga cagaaacgtc ggcatcaggg cgggtcagcg tcatcaccga 11640
cgccagttta ttcagcgtat tacccagggt ttgcggaatg gcggtggcgg caacaaagcg 11700
atccgggcgc atcaccacca gcgaagcatt atgttgtgcg aaccagctac gcaggcgacc 11760
ttgcgtatcc cccacgcgta gtacgccgtc gtggttatcc tgtgcggtat gaatttgcac 11820
ttccggcacc acctgaatga agcgggtgcc caacgcgcgc cactgctgga tttgctcgtc 11880
gctcatcccc cacagtggat tgcatcccca gccaattacc gcgaagttcg cgccgatcgc 11940
gttatcgagc agcgtcacgt cgccgttttc cagcgtgact ttcggctgaa taaacatctt 12000
gccgaccgga gagtgcttcg cttcgccctc tcgcaccagc gcaccgccgt aatattgcgg 12060
catcggcttg aagcgcattt cgaggaagta gcgttttact ggcggcagat aattcaacag 12120
ccaggaaacg ccgtcacgta acgtaccctg ccagcgtttc ggcggagcca gcacgttgcc 12180
cgccgtcacg gacaggtcaa tcatcgcttt ggcgtgatcg cgtcgttctt gttgataggt 12240
atcgagcagc gcatcacggg ctttcccctg gataaccaac gccagtttcc aggcgaggtt 12300
aaaggcgtcg cgcataccgc tgttatagcc ctgcccctgc cataccggca tgatgtgcgc 12360
ggcatcgccc gccagcagta cgcgatcaat acggaaacgt tgcgccagtc gcgcgttgtg 12420
ggtgtagaca cgctggcgaa tcaattcaac attgtccgga ttaggcagca ctttgcttaa 12480
cagcttgcgc atattttgcg gctcacgcag ctgttcttcg gtttctcctg gcatcaccat 12540
aaattcaaag cgacgtaccg catgaggtag cgcggcagaa acatacgggc gcaccggatc 12600
gcaacacaaa tagatatgcg gcgtacttaa cggatcgttg gcgatatcta ccacaatcca 12660
ctgatttggc gcagttttac cttcaaacgg cacattcagg gtgcgacgga caaaacttgc 12720
cccaccatca caggccacca gccactgggc tttgactatt tcccgctgcc cttctgccgt 12780
tttcaggtgc aaggtcactt cgtcatcttg ctgactgaag gcctccagct cgcgggaaaa 12840
caagcagcgc acattcggaa aacgcgacac cccttccagc atcaccgcat cgacctgcgg 12900
ctgaataaag gcgttacggc gcggccagcc aaattcatcg gtcattggct gaatatcagc 12960
aaaacagcgg cctttcgggg tgagaaaacg catcgcgtgc cacggcgtag tgtgcggcag 13020
aacatcatcg accaggccga ccgactgcat ggtgcgcagc gcctcgtcat caataccaat 13080
cgcacgcggg tagtcgatca acttatcgag tttctccacc accagcacgt caatgcccat 13140
ctggccgaga tagttcgcca tcatcagccc aaccgggccg gcaccagcga tcgccacctg 13200
aacgctatgg ttaacagcag gctggatgtc agggtgttgt attgccattt cagtacctca 13260
cgactcggac aaaatgtcgt tgcgcgcaca gtacagcgca acttattttg ttaaaaacat 13320
gtaaatgatt ttttattgtg cgctcagtat aggaagggtg ttttcggcta caatcaaaac 13380
atgcccgaat gtgcaccagg tgcaccacgt tgttttaact atagaaatgt caattaatat 13440
gcagaacaat gagcagacgg aatacaaaac cgtgcgcggc ttaacccgcg gtctaatgtt 13500
attaaatatg ttaaataaac ttgatggcgg tgccagcgtc gggctgctgg cggaactcag 13560
cggcctgcat cgcaccactg tgcggcgact gctggagacg ctgcaggaag agggatatgt 13620
ccgccgtagc ccctccgatg atagttttcg actgaccatc aaagtgcggc aattaagcga 13680
aggatttcgt gacgaacagt ggatttctgc actggcggcc ccactgctgg gcgatctgtt 13740
gcgcgaagtg gtatggccga cagatgtgtc cacgctggat gttgatgcaa tggtggtacg 13800
cgaaaccact caccgtttca gccgcttatc ctttcaccgg gcaatggtcg ggcgacgttt 13860
gccgcttctg aaaaccgcct cgggcctgac ctggctggcc ttttgcccgg aacaagaccg 13920
caaggaatta atcgaaatgt tagcctcccg ccccggtgat gactatcaac tggcacggga 13980
accgttaaag ctggaagcca ttctggcgcg cgcgcgcaaa gagggttacg gacagaacta 14040
ccgcggctgg gatcaggagg agaagatcgc ctctatcgcc gtaccgctgc gcagtgaaca 14100
acgggtgatt ggctgtctga atctggtgta tatggcgagc gcaatgacca ttgaacaggc 14160
agcggaaaag catcttccgg cgctacaacg ggtagcaaaa cagatcgaag aaggggttga 14220
atcgcaggct attctggtgg ccggaaggcg aagcggcatg catttacgtt gacaccatcg 14280
aatggcgcaa aacctttcgc ggtatggcat gatagcgccc ggaagagagt caattcaggg 14340
tggtgaatgt gaaaccagta acgttatacg atgtcgcaga gtatgccggt gtctcttatc 14400
agaccgtttc ccgcgtggtg aaccaggcca gccacgtttc tgcgaaaacg cgggaaaaag 14460
tggaagcggc gatggcggag ctgaattaca ttcccaaccg cgtggcacaa caactggcgg 14520
gcaaacagtc gttgctgatt ggcgttgcca cctccagtct ggccctgcac gcgccgtcgc 14580
aaattgtcgc ggcgattaaa tctcgcgccg atcaactggg tgccagcgtg gtggtgtcga 14640
tggtagaacg aagcggcgtc gaagcctgta aagcggcggt gcacaatctt ctcgcgcaac 14700
gcgtcagtgg gctgatcatt aactatccgc tggatgacca ggatgccatt gctgtggaag 14760
ctgcctgcac taatgttccg gcgttatttc ttgatgtctc tgaccagaca cccatcaaca 14820
gtattatttt ctcccatgaa gacggtacgc gactgggcgt ggagcatctg gtcgcattgg 14880
gtcaccagca aatcgcgctg ttagcgggcc cattaagttc tgtctcggcg cgtctgcgtc 14940
tggctggctg gcataaatat ctcactcgca atcaaattca gccgatagcg gaacgggaag 15000
gcgactggag tgccatgtcc ggttttcaac aaaccatgca aatgctgaat gagggcatcg 15060
ttcccactgc gatgctggtt gccaacgatc agatggcgct gggcgcaatg cgcgccatta 15120
ccgagtccgg gctgcgcgtt ggtgcggata tctcggtagt gggatacgac gataccgaag 15180
acagctcatg ttatatcccg ccgttaacca ccatcaaaca ggattttcgc ctgctggggc 15240
aaaccagcgt ggaccgcttg ctgcaactct ctcagggcca ggcggtgaag ggcaatcagc 15300
tgttgcccgt ctcactggtg aaaagaaaaa ccaccctggc gcccaatacg caaaccgcct 15360
ctccccgcgc gttggccgat tcattaatgc agctggcacg acaggtttcc cgactggaaa 15420
gcgggcagtg agcgcaacgc aattaatgta actaggcacc ccaggcttta cactttatgc 15480
ttccggctgg tataatgtgt ggacctgtag aaataatttt gtttaacttt aataaggaga 15540
tataccatgg gaggcagtac tgttgcacca actacaccgt tggcaaccgg cggtgcgctc 15600
cgcaaagtgc gacaagccgt ctttcccatc tacggaaacc aagaagtcac caaatttctg 15660
ctcatcggat ccattaaatt ctttataatc ttggcactca cgctcacgcg tgataccaag 15720
gacacgttga ttgtcacgca atgtggtgcc gaagcgattg cctttctcaa aatatacggg 15780
gtgctacccg cagcgaccgc atttatcgcg ctctattcca aaatgtccaa cgccatgggc 15840
aaaaaaatgc tattttattc cacttgcatt cctttcttta cctttttcgg gctgtttgat 15900
gttttcattt acccgaacgc ggagcgactg caccctagtt tggaagccgt gcaggcaatt 15960
ctcccgggcg gtgccgcatc tggcggcatg gcggttctgg ccaagattgc gacacactgg 16020
acatcggcct tattttacgt catggcggaa atatattctt ccgtatcggt ggggctattg 16080
ttttggcagt ttgcgaacga cgtcgtcaac gtggatcagg ccaagcgctt ttatccatta 16140
tttgctcaaa tgagtggcct cgctccagtt ttagcgggcc agtatgtggt acggtttgcc 16200
agcaaagcgg tcaactttga ggcatccatg catcgactca cggcggccgt aacatttgct 16260
ggtattatga tttgcatctt ttaccaactc agttcgtcat atgtggagcg aacggaatca 16320
gcaaagccag cggcagataa cgagcagtct atcaaaccga aaaagaagaa acccaaaatg 16380
tccatggttg aatcggggaa atttctcgcg tcaagtcagt acctgcgtct aattgccatg 16440
ctggtgctgg gatacggcct cagtattaac tttaccgaaa tcatgtggaa aagcttggtg 16500
aagaaacaat atccagaccc gctagattat caacgattta tgggtaactt ctcgtcagcg 16560
gttggtttga gcacatgcat tgttattttc ttcggtgtgc acgtgatccg tttgttgggg 16620
tggaaagtcg gagcgttggc tacacctggg atcatggcca ttctagcgtt accctttttt 16680
gcttgcattt tgttgggttt ggatagtcca gcacgattgg agatcgccgt aatctttgga 16740
acaattcaga gtttgctgag caaaacctcc aagtatgccc ttttcgaccc taccacacaa 16800
atggcttata ttcctctgga cgacgaatca aaggtcaaag gaaaagcggc aattgatgtt 16860
ttgggatcgc ggattggcaa gagtggaggc tcactgatcc agcagggctt ggtctttgtt 16920
tttggaaata tcattaatgc cgcacctgta gtaggggttg tctactacag tgtccttgtt 16980
gcgtggatga gcgcagctgg ccgactaagt gggctttttc aagcacaaac agaaatggat 17040
aaggccgaca aaatggaggc aaagaccaac aaagaaaagt agttaaccta ggctgctgcc 17100
accgctgagc aataagactc ctgttgatag atccagtaat gacctcagaa ctccatctgg 17160
atttgttcag aacgctcggt tgccgccggg cgttttttat tggtgagaat 17210
<210> 5
<211> 17898
<212> DNA
<213> 大肠杆菌(Escherichia coli)
<400> 5
ttattgcacg aagcgcgagg taacgtactg gctgtaatca ttcgctacag ccgggacctt 60
gccctgctct ttcaaaaact gcgcggtgtc gatgatcgct ttgttcaccg gtccggtcag 120
ttctgccgtt tgttgctgcg gcgtcagata ggtattcccc ttcaccagcc ccggaacgtc 180
accttcaggc acgccgctta accgcgccag tttgctgatg ttttccggct gtttcagcca 240
cgcgtctggg ttagcaatgt acggttgctg agcatcgatg gcgcttttgg cgaacgcttt 300
caccacctca ggatgtttct cggcaaaatc tttgcgcacc acccagacgt ccagcgttgg 360
cgcaccccac tgcccgacct gttcagaatc ggtcagcact ttgccgtctt tttccagggc 420
gttaaccgcc ggtgcccaga cataagcacc atcaatatct ccccgctgcc atgcagcgat 480
aatcgcgggc ggctgcaggt tcacaatctc cacttgccca ggtttaatgc cccagtgttt 540
cagcgctgcc agcaggctgt agtgggtggt agagataaac ggtacggcga tgcgtttgcc 600
aatcagatct tccggtttgc tgatagtttt ctttaccacc agcgcttctg agttacccag 660
ttttgacgcc agcaagaaga cttcaatcgg cacctgttgg ctggctgcaa ccgctaacgg 720
gctggaacca aggttgccga tttgcacgtc gccagaagcc agcgcccgca cgatgctggc 780
tccgctgtca aacttacgcc agtccacggt tgctccgctt tctttagcaa aggtgttgtc 840
ggcctgagcc actttcgccg gttcggctga ggtttgatac gccacggtga cgttcaccgc 900
ctgtgcctga aaagcgatga atgccagtgc ggcaagaagt gtgtttcgcg atgaaattgc 960
catgattgtc tgctcccctg tcttgttatg ggagcagtat tcaggaataa aaacattcat 1020
taaaagaatt agtcgttatc gcacagatga ttttattctt agcaaaaaaa cggtgatgct 1080
gccaacttac tgatttagtg tatgatggtg tttttgaggt gctccagtgg cttctgtttc 1140
tatcagctgt ccctcctgtt cagctactga cggggtggtg cgtaacggca aaagcaccgc 1200
cggacatcag cgctatctct gctctcactg ccgtaaaaca tggcaactgc agttcactta 1260
caccgcttct caacccggta cgcaccagaa aatcattgat atggccatga atggcgttgg 1320
atgccgggca actgcccgca ttatgggcgt tggcctcaac acgattttac gtcacttaaa 1380
aaactcaggc cgcagtcggt aacctcgcgc atacagccgg gcagtgacgt catcgtctgc 1440
gcggaaatgg acgaacagtg gggctatgtc ggggctaaat cgcgccagcg ctggctgttt 1500
tacgcgtatg acaggctccg gaagacggtt gttgcgcacg tattcggtga acgcactatg 1560
gcgacgctgg ggcgtcttat gagcctgatg tcaccctttg acgtggtgat atggatgacg 1620
gatggctggc cgctgtatga atcccgcctg aagggaaagc tgcacgtaat cagcaagcga 1680
tatacgcagc gaattgagcg gcataacctg aatctgaggc agcacctggc acggctggga 1740
cggaagtcgc tgtcgttctc aaaatcggtg gagctgcatg acaaagtcat cgggcattat 1800
ctgaacataa aacactatca ataagttgga gtcattacct agaacgtaat ttacctgccg 1860
gaacttattc actccgacaa gaacttatcc gtacaggaga ttaaaatgat aaaacggacg 1920
ttattagcgg cggccatttt tagcgcattg cccgcttatg ccgggttaac ttccattacc 1980
gcgggctacg attttaccga ttattctggc gatcatggca accgtaattt agcgtatgct 2040
gaactggtgg cgaaagttga aaacgcaacg ctgcttttta atctttccca ggggcgtcgt 2100
gattatgaaa ctgaacattt caatgccact cgcggtcagg gtgcggtctg gtataaatgg 2160
aataactggc tgacaacccg aacgggtatt gcctttgcgg ataatacgcc ggtctttgcc 2220
cgccaggatt ttcgtcagga tattaacctg gccctgttgc caaaaacgct tttcacgacc 2280
ggttatcgct acactaaata ttacgatgat gtcgaagtcg atgcctggca aggcggcgta 2340
tcactctata ctggcccggt gatcaccagc taccgctata cccattatga ctccagcgat 2400
gcaggtggta gttatagcaa tatgatttcc gtgcgtctga atgacccgcg cggcactggt 2460
tatacgcaac tatggctaag ccgcggaaca ggcgcttaca cctatgactg gacgccagaa 2520
acacgctacg gcagcatgaa gagcgtcagt ctgcaacgta ttcaaccgct gactgagcaa 2580
cttaatctcg ggctgacggc aggtaaagtg tggtacgaca ccccaaccga tgattataac 2640
ggtctgcaac ttgcagccca tctgacctgg aaattctgat tccttctgcc gcccgctatc 2700
cggggcggcc ttccctgccg attagccccc ccctttcctc tttgttttcc gaccacattc 2760
accggataaa ttttattctc cagtgttata tactataggg gggtatgcat tgacatatag 2820
catacccccc tatagtatat tgcgtgcaga taatgaggtg cgaaatgccc agtactccgg 2880
aagagaagaa aaaggtcctt actcgagttc gtcgtattcg agggcagatt gatgctctgg 2940
aacggtcgct ggagggtgat gccgaatgcc gtgccatact ccaacagatc gctgccgttc 3000
ggggcgcggc taatgggctg atggcagaag tgcttgaaag ccatatccgg gaaacgtttg 3060
accgaaatga ctgctacagc cgcgaagtca gccaatccgt tgacgacact attgaactgg 3120
ttcgagccta tcttaaatag ctgaatctat taccatattg aggaagagcg agagatgaaa 3180
tcacgtgctg ccgttgcatt tgctcccggt aaaccgctgg aaatcgttga aattgacgtt 3240
gcaccaccga aaaaaggtga agtgctgatt aaagtcaccc ataccggcgt ttgccatacc 3300
gacgcattta ccctctccgg ggatgacccg gaaggtgtat tcccggtggt tctcggtcac 3360
gaaggggccg gcgttgtggt tgaagtcggt gaaggcgtaa ccagcgtcaa acctggcgac 3420
catgtgatcc cgctttacac cgcggagtgc ggcgagtgtg agttctgtcg ttctggcaaa 3480
actaacctct gtgttgcggt tcgcgaaacc cagggtaaag gcttgatgcc agacggcacc 3540
acccgttttt cttacaacgg gcagccgctt tatcactaca tgggatgctc aacattcagt 3600
gaatacaccg tggtcgcgga agtgtctctg gccaaaatta atccagaagc aaaccatgaa 3660
cacgtctgcc tgctgggctg tggcgtgacc accggtattg gcgcggtgca caacacagct 3720
aaagtccagc caggtgattc tgttgccgtg tttggtcttg gcgcgattgg tctggcagtg 3780
gttcagggcg cgcgtcaggc gaaagcggga cggattatcg ctatcgatac caacccgaag 3840
aaattcgatc tggctcgtcg cttcggtgct accgactgca ttaacccgaa tgactacgac 3900
aaaccgatta aagatgtcct gctggatatc aacaaatggg gtatcgacca tacctttgaa 3960
tgcatcggta acgtcaacgt gatgcgtgcg gcgctggaaa gtgcgcaccg cggctggggt 4020
cagtcggtga tcatcggggt agcaggtgcc ggtcaggaaa tctccacccg accattccag 4080
ttggtcaccg gtcgcgtatg gaaaggttcc gcgtttggcg gcgtgaaagg tcgttcccag 4140
ttaccgggta tggttgaaga tgcgatgaaa ggtgatatcg atctggaacc gtttgtcacg 4200
cataccatga gccttgatga aattaatgac gccttcgacc tgatgcatga aggcaaatcc 4260
attcgaaccg taattcgtta ctgatttccc gcaggtatac cccgtccact tcagacgggg 4320
ttcttaatac tctccctggg cagccgtccg ggggattaac cgtgagataa tgactgatgg 4380
aactcattga aaaacatgcc agctttggcg gctggcaaaa tgtgtatcgg cattattccc 4440
aatcactgaa atgtgaaatg aatgtcggcg tctatctccc accaaaagcc gcgaatgaaa 4500
aattgccggt gttgtactgg ctttcaggcc tgacttgcaa cgagcagaat ttcattacta 4560
aatcggggat gcagcgttac gcggctgagc acaacattat tgttgttgcg ccggacacca 4620
gtccgcgagg cagtcatgtc gcagatgctg accgttacga tctcgggcaa ggtgccgggt 4680
tttacctgaa cgcgacgcaa gcgccgtgga atgaacatta caaaatgtat gactatatcc 4740
gcaacgagct gccggattta gtgatgcatc attttccggc aacggccaaa aagtctatct 4800
ctggtcattc tatgggcggg ctgggcgcgc tggtgctggc gttacgtaac ccagatgaat 4860
atgtcagcgt ctcggcgttt tcgcccattg tctccccatc gcaagtgccg tggggacagc 4920
aagcctttgc tgcatatctt gctgaaaata aagatgcctg gttggattac gacccggtga 4980
gtcttatttc acaaggtcaa cgcgttgcgg aaatcatggt tgatcagggg ttgagtgatg 5040
atttttacgc agaacagctg cggactccaa atcttgaaaa gatctgccag gagatgaata 5100
tcaagacgtt aatccgttat cacgagggtt atgatcacag ctattatttt gtctccagtt 5160
ttattggcga gcatattgcc taccacgcca ataaactgaa tatgcgttga taatagtgca 5220
cgactgccgg atgcggcgtg aacgccttat ccggcctaca cttcgcccgt aaaccgtagg 5280
cctgataaga cgcgcaaagc gtcgcatcag gcatggcgca cgactgccgg atgcggcgtg 5340
aacgccttat ccggtctaca cttcgcccat aaaccgtagg cctgataaga cgcgcatagc 5400
gtcgcatcag gcatctgcgc acgacttatc tatgtttacc acatcaaatc atcaggcact 5460
ttgaagtcgg catacgggtc gtcttcatcc tgctcttcgg cgctgagcgc gctgtgcaac 5520
actatactgc tggcatcgcg ctgagcaatt ttatcggcaa cgctggcggg aataatggcg 5580
tattcacctt cgctattgtt atcgaccaac aagcgggcaa tcgccagacg accattaatc 5640
aactgcgcct gtgtgagctt atcgacaaaa atcttcttaa tcagattgcc gtcagtgaag 5700
ttaaaaccaa tatcgccatt ggcaatggtg attcggttca tttcaataag ctgcttcacc 5760
tgagctttat attctttcgc caacgccgct tgtttttgct gttcgctaag ctgtttatca 5820
cgctcaagct gtgccttttt attttcttct accgccgccc gagcttcacg cgcctgaacg 5880
cgcgattttt tcgccgttct ctccaccttc gccgcttttt tgctggtgac taatcctgct 5940
ttgagcaact gctcttgtaa ggtaagtttt gccatctttg tttccaaacc cgctgaataa 6000
tttttagcga gtatacctgt aaacgccgta ggtgtattgg ggtgaagtcc ctttcgcccc 6060
tgcctaataa ggcacgtcag gcatcggcgc acggctgtat tcgtgatctc cggctcatca 6120
aaataaacac cgccaaccca gcaacaagaa tacccggtgc agaagcggcc attacgccga 6180
ccgtgccagt gcctaatgcc agcattttcc cggccagtaa cggaccgctc atagccccca 6240
gacgccctac cgccacggct gttcccacac ctgttgcgcg gatctgcgaa ctgtaaaaca 6300
acggtgccag ggcatacaaa acgctttgcc cacctgtcgc aaacaacccc gcgacaaatc 6360
ccgccagcaa cataccgtta aatgacgaca ccgttccaag cgccagcagc gaagctaaca 6420
tgccgctata aatcagtagc gacatggtta ctggacgcag cttatccatc aatgcgccca 6480
acattaacgt cccgcttgcc gcccccattt gcagggcaaa catcacccct gccgcctgcg 6540
atggctggaa tccttgctcc accaaaagta gcggtagcca gttgatcaac atgtagacca 6600
ccagcagagt gaagaaataa cacaaccaca gcagcagcgt cgcggttgcc gtttctggcg 6660
caaataaggc acgcagtggt ggcgcagact gtttttcgcc agcgaaaacc gccgactccg 6720
gcagccagcg cattaatagc ggcaccagaa tcaacggcac cacaccacct acccaaaaca 6780
ccgtttgcca tgctaagttt gcccccgcga aacccagtgt cgccgccagc gccgcgccaa 6840
tgggaacacc gcaatacatc aggctcactg ccgtcccacg aaaacgtgga cccgcggctt 6900
cagacgtcag ggcgataaga ttcggcaacg ccgcccccag cccgacaccg gtcatcagcc 6960
gcgcaaagac cagtgagggg aaatcccagg caatcgccgt tgccagtgag aacaaaccaa 7020
acagcgcaac tgagccaatc aaaatacgct tacgaccata acggtccgcc agcattccgc 7080
caaccaacgc gccgggtagc aaaccgagta ttccggcgct aaatatccag cccatttgca 7140
ttttatcgag tgcgaaagcc tgggcgatgc cacccgccgc aatgccagcc gcctgaagat 7200
ccagcccttc catcagagcg accaaaaaac aaagcccgat ggtcagcatc aggcgggatg 7260
aagatgatga aggggtacga gtcgacataa gatgaacctc attgcgagtg caggtgaatc 7320
gcgactgata cattgccagc cgcgtaatca gaactattga atgactgcct acgggcgaaa 7380
tgtaggccgg ataaggcgtt cacgccgcat ccggcagtcg tgtgcagatg cctgatgcga 7440
cgcttgcgcg tcttatcagg cctacaaatt cccgcgccat ccgtaggccg gataaggcgt 7500
ttacgccgca tccggcagtc gtgcgcagat gcctgatgcg acgctaacgc gtcttatcag 7560
gcctacaaat tctcgcgcca tccgtaggcc ggacaagacg ttcacgccgc atccggcagt 7620
cgtgctggga tgggcataca aaatgcacat tctcggcagt caatattatt tgttgttgcg 7680
cagatccagc gccacgtcga cgatcatatc ctcctggccg ccaaccatcc ggcgtttgcc 7740
cagctcaacg agaatatcca ccgcgcttaa gccataacgc gccgccgccg tttcacagtg 7800
acgcaggaag ctggagtaaa caccagcgta tcccagcgcc agcgtttcgc gatcgactcg 7860
taccggtcga tcctgcaacg gacgcaccag gtcgtcagcg gcatccatta acgcatagag 7920
atcggtccca tgctgccagc ccagtttatc cgcggcggca ataaatactt ccagcggcgc 7980
gttacctgcg cccgcgccca ttcccgcgag gctggcgtcg attcggtcgc agccctcttc 8040
caccgcctcg atagagttcg ccacgccaag actcaggtta tggtgagcgt gcatgccggt 8100
ttgcgtttct ggtttcaaca ctgctttcag ggcgcggaaa cggtcacgga tatcgctcat 8160
gttcatcgca ccgccagaat ccaccacata aatacaggtc gcaccgtagc cttccatcag 8220
ctttgcctgc tttgcgagat tctctggcgt ggtcatatgg ctcatcatca gaaaaccaac 8280
ggtgtccatt ccgagctcgc gggcatactg aatatgctgg gcggaaacat cagcttcggt 8340
acagtgcgta gccacacgaa ccacccgcgc gccagcttgc caggcatttt tcagatcgtg 8400
aatagtgccg attcctggca gcaacaacgt cgcgattttg gcgtgcttca ccacatccgc 8460
cgctgcttca atccattcaa ggtcgctatg tgcgccgaaa ccatagttaa agctggaacc 8520
ctgcaaaccg tcgccgtggg ccacttcaat cgaatccacg tgggcatcgt ccagtgcttt 8580
ggcaatctgg cgaacgtttt ccagcgaata ctgatgacga atggcgtgca taccgtcacg 8640
caacgtgacg tccgagatat aaagtttttt accgttcatg ccgcttctcc tgccttgcgc 8700
gccagtgact gggccatttt ttccgctgtc gccagcgcac tggaagtcat aatgtcgagg 8760
ttgcccgcat aggcaggcag ataatgcgct gcgccttcga cttccagcca gaccgctgtt 8820
ttcagtccgg agaattgccc cacgcccggt aaattgaccg gtttatcctg cgggataact 8880
tcaaactgca cgcgctgttt caggcgataa cccggtacgt aagcctgcac cgcctcagcc 8940
atttcattga ttgaggcttc gatatcatct tgtgaagctt cgtcgctcaa tacatacacc 9000
gtgtcacgca tcatcaacgg tggctctgct gggttaagca caataatcgc cttccctttt 9060
gccgcgccgc ccaccacttc aatggctcgg gaagtggttt ccgtaaattc atcgatattg 9120
gcacgcgtgc caggtccggc agatttactg gcgatagaag cgataatttc ggcgtaatga 9180
acacgcgcca cgcgtgaaac tgccgccacc attggaatgg tggcctggcc gccgcaggtg 9240
accatgttga cgttcagttg atcgacgttc gcctcgaggt taaccaccgg cacgcagtaa 9300
gggccgatgg cagcaggcgt caggtcaatt aagcgaatat ccggtttcgc ttcgcgtaaa 9360
gcggcatcgt ttttcacatg agcaccggcg ctggtcgcat caaatacaat gtcgatatca 9420
gcaaattcag gcatgttcat cagtccgatc accccttcat gggtggtggc gacgcccata 9480
cgtctggcgc gcgccagacc gtcggactga ggatcaatgc caaccatcac cgccatctcc 9540
agatgctgac cgtgacgcaa aattttaatc atcagatcgg tgccaatgtt gccagaaccg 9600
ataatggcga ctttacgctt actcatgaca gacttccttt tggggctgcg cttgaaaatg 9660
tcgcagcaac tgaacctatg ccttcaatat gggcttcaaa acgatcgccc gcattcaccg 9720
ccaccatcgg acctaatgcc ccggtaagaa tgatatctcc ggtgcgcagc ggttcaccca 9780
gactggccat tttgcgtgcc agccagacgg ccgcattaag cggatgtccc aggcattcgc 9840
tgccgcgccc gctagaaacc tcttcgttat tacgcgtcat cttcatggcg cagtttttca 9900
ggtctaaccc cgccggacgt tgcgccggac cgccgatgac atacacccca caggaggcgt 9960
tatctgccac ggtatcgaca aactgaatcg accagtcgcg aatgcggctc cccaccactt 10020
ccagcgccgg aagtacccat tcaatggcgt tatacaattc gtcgaaggtg atatcggttg 10080
cgggcaaatc gcggttcaac accagtgcga tctccgcttc aatgcggggt tgcagaacac 10140
gggaaaaagg aatgatttcg ttatcgccat aacacatgtc ggcaaataat gtcccgaaat 10200
ccggttgatc aacgcccagt tgttgctgca ctttcggatg cgtcaggccc actttacgcc 10260
ctaccacgcg acgcccctgc gcaacgtcat attgcacatt tatgtgctga atggcgtagg 10320
ccgcttcagc gttatcgata ccaatcagat cgcgcagcgg cgcaatcgct tcgccctgct 10380
ctgcggcgcg gcgtaaatcc gccgccagtt gctcaagagt atgcttcgtc atgaccattc 10440
cttaagggcg tgcgaggaaa ttcagcacca attgattgaa agcgtcggca tgttcccact 10500
gcgcccagtg accacagtcg cggaagatat gcagttcaga accggcaatg ccggacagca 10560
gacgcagacc cgcatccatc ggcacaaagc ggtcgttgcg cccccagaca atcagggttt 10620
gcgctttgat ttccgccaga cgtgggccaa aatccgggaa ctgtttcgga ttagcttcca 10680
ggctcttaac gaagttttcc aggtgatcgc ggcgcgacag catattattc aggcgcgctt 10740
caaacagggc gtcggtcaaa tcgctggtat cgaaaacgaa gatatccatc atcagcttca 10800
ggttttcgat agtcggctga cgataaagct gattcagtcg cttaatacct tcggttggca 10860
tcggcgtaaa caaactcatg ccgcccgtac cgccgcccat cagcaccagt ttgccgacgc 10920
gctccggcca gttaagggtg aacgccacag aactatggcc gcccatcgag ttgcccagca 10980
ggtggatttt ggcgatatcc agttgatcca ccacgctttt caggattcgt gcattaagat 11040
ccgatcgtga accactatta acgatcgaat cgcttttgcc ccaacccgga caatccagca 11100
ggatcacccg atagcccgcc tctaccagcg gatcgatatt gcggctgaag ttcgcccagc 11160
cagtagcacc cgggccggaa ccatgcagca ggacaacggt ttcgtcgcct tgtccgcagt 11220
cattaaaatg gatgcgcagc gttttacccg cttcttctac attcagaaaa cggctggtgg 11280
cggcttcggt ttgtggctga taactcatca tcttctcctg catattcagt tctctgttct 11340
ggcgcttaac gagccaaatc cggcaatcca ctccgggatt gggcggtaat aacgcccttc 11400
gctacgccag ttgccaaatg cagaaatagc ggcaaaagcg gcgacccagg ttttgatttc 11460
atgtgtcgac tttccggcaa tggcggaaag ctcttcgtta ctgacggcat ccagttcctg 11520
tatgcgtccc tgctccagca aagtcatgaa ctggttatcc caaatcgggt tgagcggatg 11580
cagagttctc tgatcctcaa caaacttctc agcggcgcta atcacccgtt gctgacgcaa 11640
ttcgcgctca ctggcgggta aatctttccc gctccccaac agacggtcgc gcatatgggc 11700
atcggctttc gccagttcgg gcaccggcgg ctgatgggaa agcccaccgg aacccaggaa 11760
cagcacgcgt ttattgagag tgctggtgaa acgtccaatg gcttcaccca acatgcgggt 11820
acgctggaaa ccgggcagcg gcgtggcgac accgttgatg aacacaggca gaactggcac 11880
cttatccagc ccgccgagca ggaactccag tggctgggcg aacccgtggt ccacctgcat 11940
acagtaagaa acggcaagat cgatcccgct cttcatgacg gcatgcgcac aggcctccgc 12000
cagctccaca ggcacgggca gctctcctgc cgcactgccg aaatcaccaa ttgccgtcgc 12060
cccaacgcct aaacagaacg gtggcatcac gtcatagaaa aagccgttgt agtgatctgg 12120
cgcaaacagc accaccagtt caggggagaa agccgcaata cgctcgcggg cgctggcaat 12180
cacgccattg acctcatcga gtacctcttg cgccgggtcg acatatccca ccagcggcga 12240
gtgggaaaga cagtgaagat aagcgtgcat atcaggctac cttttcgaca gaaacgtcgg 12300
catcagggcg ggtcagcgtc atcaccgacg ccagtttatt cagcgtatta cccagggttt 12360
gcggaatggc ggtggcggca acaaagcgat ccgggcgcat caccaccagc gaagcattat 12420
gttgtgcgaa ccagctacgc aggcgacctt gcgtatcccc cacgcgtagt acgccgtcgt 12480
ggttatcctg tgcggtatga atttgcactt ccggcaccac ctgaatgaag cgggtgccca 12540
acgcgcgcca ctgctggatt tgctcgtcgc tcatccccca cagtggattg catccccagc 12600
caattaccgc gaagttcgcg ccgatcgcgt tatcgagcag cgtcacgtcg ccgttttcca 12660
gcgtgacttt cggctgaata aacatcttgc cgaccggaga gtgcttcgct tcgccctctc 12720
gcaccagcgc accgccgtaa tattgcggca tcggcttgaa gcgcatttcg aggaagtagc 12780
gttttactgg cggcagataa ttcaacagcc aggaaacgcc gtcacgtaac gtaccctgcc 12840
agcgtttcgg cggagccagc acgttgcccg ccgtcacgga caggtcaatc atcgctttgg 12900
cgtgatcgcg tcgttcttgt tgataggtat cgagcagcgc atcacgggct ttcccctgga 12960
taaccaacgc cagtttccag gcgaggttaa aggcgtcgcg cataccgctg ttatagccct 13020
gcccctgcca taccggcatg atgtgcgcgg catcgcccgc cagcagtacg cgatcaatac 13080
ggaaacgttg cgccagtcgc gcgttgtggg tgtagacacg ctggcgaatc aattcaacat 13140
tgtccggatt aggcagcact ttgcttaaca gcttgcgcat attttgcggc tcacgcagct 13200
gttcttcggt ttctcctggc atcaccataa attcaaagcg acgtaccgca tgaggtagcg 13260
cggcagaaac atacgggcgc accggatcgc aacacaaata gatatgcggc gtacttaacg 13320
gatcgttggc gatatctacc acaatccact gatttggcgc agttttacct tcaaacggca 13380
cattcagggt gcgacggaca aaacttgccc caccatcaca ggccaccagc cactgggctt 13440
tgactatttc ccgctgccct tctgccgttt tcaggtgcaa ggtcacttcg tcatcttgct 13500
gactgaaggc ctccagctcg cgggaaaaca agcagcgcac attcggaaaa cgcgacaccc 13560
cttccagcat caccgcatcg acctgcggct gaataaaggc gttacggcgc ggccagccaa 13620
attcatcggt cattggctga atatcagcaa aacagcggcc tttcggggtg agaaaacgca 13680
tcgcgtgcca cggcgtagtg tgcggcagaa catcatcgac caggccgacc gactgcatgg 13740
tgcgcagcgc ctcgtcatca ataccaatcg cacgcgggta gtcgatcaac ttatcgagtt 13800
tctccaccac cagcacgtca atgcccatct ggccgagata gttcgccatc atcagcccaa 13860
ccgggccggc accagcgatc gccacctgaa cgctatggtt aacagcaggc tggatgtcag 13920
ggtgttgtat tgccatttca gtacctcacg actcggacaa aatgtcgttg cgcgcacagt 13980
acagcgcaac ttattttgtt aaaaacatgt aaatgatttt ttattgtgcg ctcagtatag 14040
gaagggtgtt ttcggctaca atcaaaacat gcccgaatgt gcaccaggtg caccacgttg 14100
ttttaactat agaaatgtca attaatatgc agaacaatga gcagacggaa tacaaaaccg 14160
tgcgcggctt aacccgcggt ctaatgttat taaatatgtt aaataaactt gatggcggtg 14220
ccagcgtcgg gctgctggcg gaactcagcg gcctgcatcg caccactgtg cggcgactgc 14280
tggagacgct gcaggaagag ggatatgtcc gccgtagccc ctccgatgat agttttcgac 14340
tgaccatcaa agtgcggcaa ttaagcgaag gatttcgtga cgaacagtgg atttctgcac 14400
tggcggcccc actgctgggc gatctgttgc gcgaagtggt atggccgaca gatgtgtcca 14460
cgctggatgt tgatgcaatg gtggtacgcg aaaccactca ccgtttcagc cgcttatcct 14520
ttcaccgggc aatggtcggg cgacgtttgc cgcttctgaa aaccgcctcg ggcctgacct 14580
ggctggcctt ttgcccggaa caagaccgca aggaattaat cgaaatgtta gcctcccgcc 14640
ccggtgatga ctatcaactg gcacgggaac cgttaaagct ggaagccatt ctggcgcgcg 14700
cgcgcaaaga gggttacgga cagaactacc gcggctggga tcaggaggag aagatcgcct 14760
ctatcgccgt accgctgcgc agtgaacaac gggtgattgg ctgtctgaat ctggtgtata 14820
tggcgagcgc aatgaccatt gaacaggcag cggaaaagca tcttccggcg ctacaacggg 14880
tagcaaaaca gatcgaagaa ggggttgaat cgcaggctat tctggtggcc ggaaggcgaa 14940
gcggcatgca tttacgttga caccatcgaa tggcgcaaaa cctttcgcgg tatggcatga 15000
tagcgcccgg aagagagtca attcagggtg gtgaatgtga aaccagtaac gttatacgat 15060
gtcgcagagt atgccggtgt ctcttatcag accgtttccc gcgtggtgaa ccaggccagc 15120
cacgtttctg cgaaaacgcg ggaaaaagtg gaagcggcga tggcggagct gaattacatt 15180
cccaaccgcg tggcacaaca actggcgggc aaacagtcgt tgctgattgg cgttgccacc 15240
tccagtctgg ccctgcacgc gccgtcgcaa attgtcgcgg cgattaaatc tcgcgccgat 15300
caactgggtg ccagcgtggt ggtgtcgatg gtagaacgaa gcggcgtcga agcctgtaaa 15360
gcggcggtgc acaatcttct cgcgcaacgc gtcagtgggc tgatcattaa ctatccgctg 15420
gatgaccagg atgccattgc tgtggaagct gcctgcacta atgttccggc gttatttctt 15480
gatgtctctg accagacacc catcaacagt attattttct cccatgaaga cggtacgcga 15540
ctgggcgtgg agcatctggt cgcattgggt caccagcaaa tcgcgctgtt agcgggccca 15600
ttaagttctg tctcggcgcg tctgcgtctg gctggctggc ataaatatct cactcgcaat 15660
caaattcagc cgatagcgga acgggaaggc gactggagtg ccatgtccgg ttttcaacaa 15720
accatgcaaa tgctgaatga gggcatcgtt cccactgcga tgctggttgc caacgatcag 15780
atggcgctgg gcgcaatgcg cgccattacc gagtccgggc tgcgcgttgg tgcggatatc 15840
tcggtagtgg gatacgacga taccgaagac agctcatgtt atatcccgcc gttaaccacc 15900
atcaaacagg attttcgcct gctggggcaa accagcgtgg accgcttgct gcaactctct 15960
cagggccagg cggtgaaggg caatcagctg ttgcccgtct cactggtgaa aagaaaaacc 16020
accctggcgc ccaatacgca aaccgcctct ccccgcgcgt tggccgattc attaatgcag 16080
ctggcacgac aggtttcccg actggaaagc gggcagtgag cgcaacgcaa ttaatgtaac 16140
taggcacccc aggctttaca ctttatgctt ccggctggta taatgtgtgg acctgtagaa 16200
ataattttgt ttaactttaa taaggagata taccatggga ggcagtactg ttgcaccaac 16260
tacaccgttg gcaaccggcg gtgcgctccg caaagtgcga caagccgtct ttcccatcta 16320
cggaaaccaa gaagtcacca aatttctgct catcggatcc attaaattct ttataatctt 16380
ggcactcacg ctcacgcgtg ataccaagga cacgttgatt gtcacgcaat gtggtgccga 16440
agcgattgcc tttctcaaaa tatacggggt gctacccgca gcgaccgcat ttatcgcgct 16500
ctattccaaa atgtccaacg ccatgggcaa aaaaatgcta ttttattcca cttgcattcc 16560
tttctttacc tttttcgggc tgtttgatgt tttcatttac ccgaacgcgg agcgactgca 16620
ccctagtttg gaagccgtgc aggcaattct cccgggcggt gccgcatctg gcggcatggc 16680
ggttctggcc aagattgcga cacactggac atcggcctta ttttacgtca tggcggaaat 16740
atattcttcc gtatcggtgg ggctattgtt ttggcagttt gcgaacgacg tcgtcaacgt 16800
ggatcaggcc aagcgctttt atccattatt tgctcaaatg agtggcctcg ctccagtttt 16860
agcgggccag tatgtggtac ggtttgccag caaagcggtc aactttgagg catccatgca 16920
tcgactcacg gcggccgtaa catttgctgg tattatgatt tgcatctttt accaactcag 16980
ttcgtcatat gtggagcgaa cggaatcagc aaagccagcg gcagataacg agcagtctat 17040
caaaccgaaa aagaagaaac ccaaaatgtc catggttgaa tcggggaaat ttctcgcgtc 17100
aagtcagtac ctgcgtctaa ttgccatgct ggtgctggga tacggcctca gtattaactt 17160
taccgaaatc atgtggaaaa gcttggtgaa gaaacaatat ccagacccgc tagattatca 17220
acgatttatg ggtaacttct cgtcagcggt tggtttgagc acatgcattg ttattttctt 17280
cggtgtgcac gtgatccgtt tgttggggtg gaaagtcgga gcgttggcta cacctgggat 17340
catggccatt ctagcgttac ccttttttgc ttgcattttg ttgggtttgg atagtccagc 17400
acgattggag atcgccgtaa tctttggaac aattcagagt ttgctgagca aaacctccaa 17460
gtatgccctt ttcgacccta ccacacaaat ggcttatatt cctctggacg acgaatcaaa 17520
ggtcaaagga aaagcggcaa ttgatgtttt gggatcgcgg attggcaaga gtggaggctc 17580
actgatccag cagggcttgg tctttgtttt tggaaatatc attaatgccg cacctgtagt 17640
aggggttgtc tactacagtg tccttgttgc gtggatgagc gcagctggcc gactaagtgg 17700
gctttttcaa gcacaaacag aaatggataa ggccgacaaa atggaggcaa agaccaacaa 17760
agaaaagtag ttaacctagg ctgctgccac cgctgagcaa taagactcct gttgatagat 17820
ccagtaatga cctcagaact ccatctggat ttgttcagaa cgctcggttg ccgccgggcg 17880
ttttttattg gtgagaat 17898
<210> 6
<211> 125
<212> DNA
<213> 大肠杆菌(Escherichia coli)
<400> 6
aggagtaaaa atgattccgg ggatccgtcg acctgcagtt cgaagttcct attctctaga 60
aagtatagga acttcgaagc agctccagcc tacagaaact aacgaagatt tttaatcgtc 120
ttgtt 125
<210> 7
<211> 1082
<212> DNA
<213> 大肠杆菌(Escherichia coli)
<400> 7
aggagtaaaa atggctatcg acgaaaacaa acagaaagcg ttggcggcag cactgggcca 60
gattgagaaa caatttggta aaggctccat catgcgcctg ggtgaagacc gttccatgga 120
tgtggaaacc atctctaccg gttcgctttc actggatatc gcgcttgggg caggtggtct 180
gccgatgggc cgtatcgtcg aaatctacgg accggaatct tccggtaaaa ccacgctgac 240
gctgcaggtg atcgccgcag cgcagcgtga aggtaaaacc tgtgcgttta tcgatgctga 300
acacgcgctg gacccaatct acgcacgtaa actgggcgtc gatatcgata acctgctgtg 360
ctcccagccg gacaccggcg agcaggcact ggaaatctgt gacgccctgg cgcgttctgg 420
cgcagtagac gttatcgtcg ttgactccgt ggcggcactg acgccgaaag cggaaatcga 480
aggcgaaatc ggcgactctc acatgggcct tgcggcacgt atgatgagcc aggcgatgcg 540
taagctggcg ggtaacctga agcagtccaa cacgctgctg atcttcatca accagatccg 600
tatgaaaatt ggtgtgatgt tcggtaaccc ggaaaccact accggtggta acgcgctgaa 660
attctacgcc tctgttcgtc tcgacatccg tcgtatcggc gcggtgaaag agggcgaaaa 720
cgtggtgggt agcgaaaccc gcgtgaaagt ggtgaagaac aaaatcgctg cgccgtttaa 780
acaggctgaa ttccagatcc tctacggcga aggtatcaac ttctacggcg aactggttga 840
cctgggcgta aaagagaagc tgatcgagaa agcaggcgcg tggtacagct acaaaggtga 900
gaagatcggt cagggtaaag cgaatgcgac tgcctggctg aaagataacc cggaaaccgc 960
gaaagagatc gagaagaaag tacgtgagtt gctgctgagc aacccgaact caacgccgga 1020
tttctctgta gatgatagcg aaggcgtagc agaaactaac gaagattttt aatcgtcttg 1080
tt 1082
<210> 8
<211> 783
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 8
Met Ala Gln Ala Gly Phe Ile Leu Thr Arg His Trp Arg Asp Thr Pro
1 5 10 15
Gln Gly Thr Glu Val Ser Phe Trp Leu Ala Thr Asp Asn Gly Pro Leu
20 25 30
Gln Val Thr Leu Ala Pro Gln Glu Ser Val Ala Phe Ile Pro Ala Asp
35 40 45
Gln Val Pro Arg Ala Gln His Ile Leu Gln Gly Glu Gln Gly Val Arg
50 55 60
Leu Thr Pro Leu Ala Leu Lys Asp Phe His Arg Gln Pro Val Tyr Gly
65 70 75 80
Leu Tyr Cys Arg Ala His Arg Gln Leu Met Asn Tyr Glu Lys Arg Leu
85 90 95
Arg Glu Gly Gly Val Thr Val Tyr Glu Ala Asp Val Arg Pro Pro Glu
100 105 110
Arg Tyr Leu Met Glu Arg Phe Ile Thr Ser Pro Val Trp Val Glu Gly
115 120 125
Asp Met His Asn Gly Ala Ile Val Asn Ala Arg Leu Lys Pro His Pro
130 135 140
Asp Tyr Arg Pro Pro Leu Lys Trp Val Ser Ile Asp Ile Glu Thr Thr
145 150 155 160
Arg His Gly Glu Leu Tyr Cys Ile Gly Leu Glu Gly Cys Gly Gln Arg
165 170 175
Ile Val Tyr Met Leu Gly Pro Glu Asn Gly Asp Ala Ser Ala Leu Asp
180 185 190
Phe Glu Leu Glu Tyr Val Ala Ser Arg Pro Gln Leu Leu Glu Lys Leu
195 200 205
Asn Ala Trp Phe Ala Asn Tyr Asp Pro Asp Val Ile Ile Gly Trp Asn
210 215 220
Val Val Gln Phe Asp Leu Arg Met Leu Gln Lys His Ala Glu Arg Tyr
225 230 235 240
Arg Ile Pro Leu Arg Leu Gly Arg Asp Asn Ser Glu Leu Glu Trp Arg
245 250 255
Glu His Gly Phe Lys Asn Gly Val Phe Phe Ala Gln Ala Lys Gly Arg
260 265 270
Leu Ile Ile Asp Gly Ile Glu Ala Leu Lys Ser Ala Phe Trp Asn Phe
275 280 285
Ser Ser Phe Ser Leu Glu Thr Val Ala Gln Glu Leu Leu Gly Glu Gly
290 295 300
Lys Ser Ile Asp Asn Pro Trp Asp Arg Met Asp Glu Ile Asp Arg Arg
305 310 315 320
Phe Ala Glu Asp Lys Pro Ala Leu Ala Thr Tyr Asn Leu Lys Asp Cys
325 330 335
Glu Leu Val Thr Gln Ile Phe His Lys Thr Glu Ile Met Pro Phe Leu
340 345 350
Leu Glu Arg Ala Thr Val Asn Gly Leu Pro Val Asp Arg His Gly Gly
355 360 365
Ser Val Ala Ala Phe Gly His Leu Tyr Phe Pro Arg Met His Arg Ala
370 375 380
Gly Tyr Val Ala Pro Asn Leu Gly Glu Val Pro Pro His Ala Ser Pro
385 390 395 400
Gly Gly Tyr Val Met Asp Ser Arg Pro Gly Leu Tyr Asp Ser Val Leu
405 410 415
Val Leu Asp Tyr Lys Ser Leu Tyr Pro Ser Ile Ile Arg Thr Phe Leu
420 425 430
Ile Asp Pro Val Gly Leu Val Glu Gly Met Ala Gln Pro Asp Pro Glu
435 440 445
His Ser Thr Glu Gly Phe Leu Asp Ala Trp Phe Ser Arg Glu Lys His
450 455 460
Cys Leu Pro Glu Ile Val Thr Asn Ile Trp His Gly Arg Asp Glu Ala
465 470 475 480
Lys Arg Gln Gly Asn Lys Pro Leu Ser Gln Ala Leu Lys Ile Ile Met
485 490 495
Asn Ala Phe Tyr Gly Val Leu Gly Thr Thr Ala Cys Arg Phe Phe Asp
500 505 510
Pro Arg Leu Ala Ser Ser Ile Thr Met Arg Gly His Gln Ile Met Arg
515 520 525
Gln Thr Lys Ala Leu Ile Glu Ala Gln Gly Tyr Asp Val Ile Tyr Gly
530 535 540
Asp Thr Asp Ser Thr Phe Val Trp Leu Lys Gly Ala His Ser Glu Glu
545 550 555 560
Glu Ala Ala Lys Ile Gly Arg Ala Leu Val Gln His Val Asn Ala Trp
565 570 575
Trp Ala Glu Thr Leu Gln Lys Gln Arg Leu Thr Ser Ala Leu Glu Leu
580 585 590
Glu Tyr Glu Thr His Phe Cys Arg Phe Leu Met Pro Thr Ile Arg Gly
595 600 605
Ala Asp Thr Gly Ser Lys Lys Arg Tyr Ala Gly Leu Ile Gln Glu Gly
610 615 620
Asp Lys Gln Arg Met Val Phe Lys Gly Leu Glu Thr Val Arg Thr Asp
625 630 635 640
Trp Thr Pro Leu Ala Gln Gln Phe Gln Gln Glu Leu Tyr Leu Arg Ile
645 650 655
Phe Arg Asn Glu Pro Tyr Gln Glu Tyr Val Arg Glu Thr Ile Asp Lys
660 665 670
Leu Met Ala Gly Glu Leu Asp Ala Arg Leu Val Tyr Arg Lys Arg Leu
675 680 685
Arg Arg Pro Leu Ser Glu Tyr Gln Arg Asn Val Pro Pro His Val Arg
690 695 700
Ala Ala Arg Leu Ala Asp Glu Glu Asn Gln Lys Arg Gly Arg Pro Leu
705 710 715 720
Gln Tyr Gln Asn Arg Gly Thr Ile Lys Tyr Val Trp Thr Thr Asn Gly
725 730 735
Pro Glu Pro Leu Asp Tyr Gln Arg Ser Pro Leu Asp Tyr Glu His Tyr
740 745 750
Leu Thr Arg Gln Leu Gln Pro Val Ala Glu Gly Ile Leu Pro Phe Ile
755 760 765
Glu Asp Asn Phe Ala Thr Leu Met Thr Gly Gln Leu Gly Leu Phe
770 775 780
<210> 9
<211> 320
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 9
Met Ala Ile Ser Ser Arg Asn Thr Leu Leu Ala Ala Leu Ala Phe Ile
1 5 10 15
Ala Phe Gln Ala Gln Ala Val Asn Val Thr Val Ala Tyr Gln Thr Ser
20 25 30
Ala Glu Pro Ala Lys Val Ala Gln Ala Asp Asn Thr Phe Ala Lys Glu
35 40 45
Ser Gly Ala Thr Val Asp Trp Arg Lys Phe Asp Ser Gly Ala Ser Ile
50 55 60
Val Arg Ala Leu Ala Ser Gly Asp Val Gln Ile Gly Asn Leu Gly Ser
65 70 75 80
Ser Pro Leu Ala Val Ala Ala Ser Gln Gln Val Pro Ile Glu Val Phe
85 90 95
Leu Leu Ala Ser Lys Leu Gly Asn Ser Glu Ala Leu Val Val Lys Lys
100 105 110
Thr Ile Ser Lys Pro Glu Asp Leu Ile Gly Lys Arg Ile Ala Val Pro
115 120 125
Phe Ile Ser Thr Thr His Tyr Ser Leu Leu Ala Ala Leu Lys His Trp
130 135 140
Gly Ile Lys Pro Gly Gln Val Glu Ile Val Asn Leu Gln Pro Pro Ala
145 150 155 160
Ile Ile Ala Ala Trp Gln Arg Gly Asp Ile Asp Gly Ala Tyr Val Trp
165 170 175
Ala Pro Ala Val Asn Ala Leu Glu Lys Asp Gly Lys Val Leu Thr Asp
180 185 190
Ser Glu Gln Val Gly Gln Trp Gly Ala Pro Thr Leu Asp Val Trp Val
195 200 205
Val Arg Lys Asp Phe Ala Glu Lys His Pro Glu Val Val Lys Ala Phe
210 215 220
Ala Lys Ser Ala Ile Asp Ala Gln Gln Pro Tyr Ile Ala Asn Pro Asp
225 230 235 240
Ala Trp Leu Lys Gln Pro Glu Asn Ile Ser Lys Leu Ala Arg Leu Ser
245 250 255
Gly Val Pro Glu Gly Asp Val Pro Gly Leu Val Lys Gly Asn Thr Tyr
260 265 270
Leu Thr Pro Gln Gln Gln Thr Ala Glu Leu Thr Gly Pro Val Asn Lys
275 280 285
Ala Ile Ile Asp Thr Ala Gln Phe Leu Lys Glu Gln Gly Lys Val Pro
290 295 300
Ala Val Ala Asn Asp Tyr Ser Gln Tyr Val Thr Ser Arg Phe Val Gln
305 310 315 320
<210> 10
<211> 91
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 10
Met Ala Ser Val Ser Ile Ser Cys Pro Ser Cys Ser Ala Thr Asp Gly
1 5 10 15
Val Val Arg Asn Gly Lys Ser Thr Ala Gly His Gln Arg Tyr Leu Cys
20 25 30
Ser His Cys Arg Lys Thr Trp Gln Leu Gln Phe Thr Tyr Thr Ala Ser
35 40 45
Gln Pro Gly Thr His Gln Lys Ile Ile Asp Met Ala Met Asn Gly Val
50 55 60
Gly Cys Arg Ala Thr Ala Arg Ile Met Gly Val Gly Leu Asn Thr Ile
65 70 75 80
Leu Arg His Leu Lys Asn Ser Gly Arg Ser Arg
85 90
<210> 11
<211> 167
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 11
Met Pro Gly Asn Cys Pro His Tyr Gly Arg Trp Pro Gln His Asp Phe
1 5 10 15
Thr Ser Leu Lys Lys Leu Arg Pro Gln Ser Val Thr Ser Arg Ile Gln
20 25 30
Pro Gly Ser Asp Val Ile Val Cys Ala Glu Met Asp Glu Gln Trp Gly
35 40 45
Tyr Val Gly Ala Lys Ser Arg Gln Arg Trp Leu Phe Tyr Ala Tyr Asp
50 55 60
Arg Leu Arg Lys Thr Val Val Ala His Val Phe Gly Glu Arg Thr Met
65 70 75 80
Ala Thr Leu Gly Arg Leu Met Ser Leu Met Ser Pro Phe Asp Val Val
85 90 95
Ile Trp Met Thr Asp Gly Trp Pro Leu Tyr Glu Ser Arg Leu Lys Gly
100 105 110
Lys Leu His Val Ile Ser Lys Arg Tyr Thr Gln Arg Ile Glu Arg His
115 120 125
Asn Leu Asn Leu Arg Gln His Leu Ala Arg Leu Gly Arg Lys Ser Leu
130 135 140
Ser Phe Ser Lys Ser Val Glu Leu His Asp Lys Val Ile Gly His Tyr
145 150 155 160
Leu Asn Ile Lys His Tyr Gln
165
<210> 12
<211> 511
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 12
Met Gly Gly Ser Thr Val Ala Pro Thr Thr Pro Leu Ala Thr Gly Gly
1 5 10 15
Ala Leu Arg Lys Val Arg Gln Ala Val Phe Pro Ile Tyr Gly Asn Gln
20 25 30
Glu Val Thr Lys Phe Leu Leu Ile Gly Ser Ile Lys Phe Phe Ile Ile
35 40 45
Leu Ala Leu Thr Leu Thr Arg Asp Thr Lys Asp Thr Leu Ile Val Thr
50 55 60
Gln Cys Gly Ala Glu Ala Ile Ala Phe Leu Lys Ile Tyr Gly Val Leu
65 70 75 80
Pro Ala Ala Thr Ala Phe Ile Ala Leu Tyr Ser Lys Met Ser Asn Ala
85 90 95
Met Gly Lys Lys Met Leu Phe Tyr Ser Thr Cys Ile Pro Phe Phe Thr
100 105 110
Phe Phe Gly Leu Phe Asp Val Phe Ile Tyr Pro Asn Ala Glu Arg Leu
115 120 125
His Pro Ser Leu Glu Ala Val Gln Ala Ile Leu Pro Gly Gly Ala Ala
130 135 140
Ser Gly Gly Met Ala Val Leu Ala Lys Ile Ala Thr His Trp Thr Ser
145 150 155 160
Ala Leu Phe Tyr Val Met Ala Glu Ile Tyr Ser Ser Val Ser Val Gly
165 170 175
Leu Leu Phe Trp Gln Phe Ala Asn Asp Val Val Asn Val Asp Gln Ala
180 185 190
Lys Arg Phe Tyr Pro Leu Phe Ala Gln Met Ser Gly Leu Ala Pro Val
195 200 205
Leu Ala Gly Gln Tyr Val Val Arg Phe Ala Ser Lys Ala Val Asn Phe
210 215 220
Glu Ala Ser Met His Arg Leu Thr Ala Ala Val Thr Phe Ala Gly Ile
225 230 235 240
Met Ile Cys Ile Phe Tyr Gln Leu Ser Ser Ser Tyr Val Glu Arg Thr
245 250 255
Glu Ser Ala Lys Pro Ala Ala Asp Asn Glu Gln Ser Ile Lys Pro Lys
260 265 270
Lys Lys Lys Pro Lys Met Ser Met Val Glu Ser Gly Lys Phe Leu Ala
275 280 285
Ser Ser Gln Tyr Leu Arg Leu Ile Ala Met Leu Val Leu Gly Tyr Gly
290 295 300
Leu Ser Ile Asn Phe Thr Glu Ile Met Trp Lys Ser Leu Val Lys Lys
305 310 315 320
Gln Tyr Pro Asp Pro Leu Asp Tyr Gln Arg Phe Met Gly Asn Phe Ser
325 330 335
Ser Ala Val Gly Leu Ser Thr Cys Ile Val Ile Phe Phe Gly Val His
340 345 350
Val Ile Arg Leu Leu Gly Trp Lys Val Gly Ala Leu Ala Thr Pro Gly
355 360 365
Ile Met Ala Ile Leu Ala Leu Pro Phe Phe Ala Cys Ile Leu Leu Gly
370 375 380
Leu Asp Ser Pro Ala Arg Leu Glu Ile Ala Val Ile Phe Gly Thr Ile
385 390 395 400
Gln Ser Leu Leu Ser Lys Thr Ser Lys Tyr Ala Leu Phe Asp Pro Thr
405 410 415
Thr Gln Met Ala Tyr Ile Pro Leu Asp Asp Glu Ser Lys Val Lys Gly
420 425 430
Lys Ala Ala Ile Asp Val Leu Gly Ser Arg Ile Gly Lys Ser Gly Gly
435 440 445
Ser Leu Ile Gln Gln Gly Leu Val Phe Val Phe Gly Asn Ile Ile Asn
450 455 460
Ala Ala Pro Val Val Gly Val Val Tyr Tyr Ser Val Leu Val Ala Trp
465 470 475 480
Met Ser Ala Ala Gly Arg Leu Ser Gly Leu Phe Gln Ala Gln Thr Glu
485 490 495
Met Asp Lys Ala Asp Lys Met Glu Ala Lys Thr Asn Lys Glu Lys
500 505 510
<210> 13
<211> 257
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 13
Met Ile Lys Arg Thr Leu Leu Ala Ala Ala Ile Phe Ser Ala Leu Pro
1 5 10 15
Ala Tyr Ala Gly Leu Thr Ser Ile Thr Ala Gly Tyr Asp Phe Thr Asp
20 25 30
Tyr Ser Gly Asp His Gly Asn Arg Asn Leu Ala Tyr Ala Glu Leu Val
35 40 45
Ala Lys Val Glu Asn Ala Thr Leu Leu Phe Asn Leu Ser Gln Gly Arg
50 55 60
Arg Asp Tyr Glu Thr Glu His Phe Asn Ala Thr Arg Gly Gln Gly Ala
65 70 75 80
Val Trp Tyr Lys Trp Asn Asn Trp Leu Thr Thr Arg Thr Gly Ile Ala
85 90 95
Phe Ala Asp Asn Thr Pro Val Phe Ala Arg Gln Asp Phe Arg Gln Asp
100 105 110
Ile Asn Leu Ala Leu Leu Pro Lys Thr Leu Phe Thr Thr Gly Tyr Arg
115 120 125
Tyr Thr Lys Tyr Tyr Asp Asp Val Glu Val Asp Ala Trp Gln Gly Gly
130 135 140
Val Ser Leu Tyr Thr Gly Pro Val Ile Thr Ser Tyr Arg Tyr Thr His
145 150 155 160
Tyr Asp Ser Ser Asp Ala Gly Gly Ser Tyr Ser Asn Met Ile Ser Val
165 170 175
Arg Leu Asn Asp Pro Arg Gly Thr Gly Tyr Thr Gln Leu Trp Leu Ser
180 185 190
Arg Gly Thr Gly Ala Tyr Thr Tyr Asp Trp Thr Pro Glu Thr Arg Tyr
195 200 205
Gly Ser Met Lys Ser Val Ser Leu Gln Arg Ile Gln Pro Leu Thr Glu
210 215 220
Gln Leu Asn Leu Gly Leu Thr Ala Gly Lys Val Trp Tyr Asp Thr Pro
225 230 235 240
Thr Asp Asp Tyr Asn Gly Leu Gln Leu Ala Ala His Leu Thr Trp Lys
245 250 255
Phe
<210> 14
<211> 91
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 14
Met Pro Ser Thr Pro Glu Glu Lys Lys Lys Val Leu Thr Arg Val Arg
1 5 10 15
Arg Ile Arg Gly Gln Ile Asp Ala Leu Glu Arg Ser Leu Glu Gly Asp
20 25 30
Ala Glu Cys Arg Ala Ile Leu Gln Gln Ile Ala Ala Val Arg Gly Ala
35 40 45
Ala Asn Gly Leu Met Ala Glu Val Leu Glu Ser His Ile Arg Glu Thr
50 55 60
Phe Asp Arg Asn Asp Cys Tyr Ser Arg Glu Val Ser Gln Ser Val Asp
65 70 75 80
Asp Thr Ile Glu Leu Val Arg Ala Tyr Leu Lys
85 90
<210> 15
<211> 369
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 15
Met Lys Ser Arg Ala Ala Val Ala Phe Ala Pro Gly Lys Pro Leu Glu
1 5 10 15
Ile Val Glu Ile Asp Val Ala Pro Pro Lys Lys Gly Glu Val Leu Ile
20 25 30
Lys Val Thr His Thr Gly Val Cys His Thr Asp Ala Phe Thr Leu Ser
35 40 45
Gly Asp Asp Pro Glu Gly Val Phe Pro Val Val Leu Gly His Glu Gly
50 55 60
Ala Gly Val Val Val Glu Val Gly Glu Gly Val Thr Ser Val Lys Pro
65 70 75 80
Gly Asp His Val Ile Pro Leu Tyr Thr Ala Glu Cys Gly Glu Cys Glu
85 90 95
Phe Cys Arg Ser Gly Lys Thr Asn Leu Cys Val Ala Val Arg Glu Thr
100 105 110
Gln Gly Lys Gly Leu Met Pro Asp Gly Thr Thr Arg Phe Ser Tyr Asn
115 120 125
Gly Gln Pro Leu Tyr His Tyr Met Gly Cys Ser Thr Phe Ser Glu Tyr
130 135 140
Thr Val Val Ala Glu Val Ser Leu Ala Lys Ile Asn Pro Glu Ala Asn
145 150 155 160
His Glu His Val Cys Leu Leu Gly Cys Gly Val Thr Thr Gly Ile Gly
165 170 175
Ala Val His Asn Thr Ala Lys Val Gln Pro Gly Asp Ser Val Ala Val
180 185 190
Phe Gly Leu Gly Ala Ile Gly Leu Ala Val Val Gln Gly Ala Arg Gln
195 200 205
Ala Lys Ala Gly Arg Ile Ile Ala Ile Asp Thr Asn Pro Lys Lys Phe
210 215 220
Asp Leu Ala Arg Arg Phe Gly Ala Thr Asp Cys Ile Asn Pro Asn Asp
225 230 235 240
Tyr Asp Lys Pro Ile Lys Asp Val Leu Leu Asp Ile Asn Lys Trp Gly
245 250 255
Ile Asp His Thr Phe Glu Cys Ile Gly Asn Val Asn Val Met Arg Ala
260 265 270
Ala Leu Glu Ser Ala His Arg Gly Trp Gly Gln Ser Val Ile Ile Gly
275 280 285
Val Ala Gly Ala Gly Gln Glu Ile Ser Thr Arg Pro Phe Gln Leu Val
290 295 300
Thr Gly Arg Val Trp Lys Gly Ser Ala Phe Gly Gly Val Lys Gly Arg
305 310 315 320
Ser Gln Leu Pro Gly Met Val Glu Asp Ala Met Lys Gly Asp Ile Asp
325 330 335
Leu Glu Pro Phe Val Thr His Thr Met Ser Leu Asp Glu Ile Asn Asp
340 345 350
Ala Phe Asp Leu Met His Glu Gly Lys Ser Ile Arg Thr Val Ile Arg
355 360 365
Tyr
<210> 16
<211> 277
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 16
Met Glu Leu Ile Glu Lys His Ala Ser Phe Gly Gly Trp Gln Asn Val
1 5 10 15
Tyr Arg His Tyr Ser Gln Ser Leu Lys Cys Glu Met Asn Val Gly Val
20 25 30
Tyr Leu Pro Pro Lys Ala Ala Asn Glu Lys Leu Pro Val Leu Tyr Trp
35 40 45
Leu Ser Gly Leu Thr Cys Asn Glu Gln Asn Phe Ile Thr Lys Ser Gly
50 55 60
Met Gln Arg Tyr Ala Ala Glu His Asn Ile Ile Val Val Ala Pro Asp
65 70 75 80
Thr Ser Pro Arg Gly Ser His Val Ala Asp Ala Asp Arg Tyr Asp Leu
85 90 95
Gly Gln Gly Ala Gly Phe Tyr Leu Asn Ala Thr Gln Ala Pro Trp Asn
100 105 110
Glu His Tyr Lys Met Tyr Asp Tyr Ile Arg Asn Glu Leu Pro Asp Leu
115 120 125
Val Met His His Phe Pro Ala Thr Ala Lys Lys Ser Ile Ser Gly His
130 135 140
Ser Met Gly Gly Leu Gly Ala Leu Val Leu Ala Leu Arg Asn Pro Asp
145 150 155 160
Glu Tyr Val Ser Val Ser Ala Phe Ser Pro Ile Val Ser Pro Ser Gln
165 170 175
Val Pro Trp Gly Gln Gln Ala Phe Ala Ala Tyr Leu Ala Glu Asn Lys
180 185 190
Asp Ala Trp Leu Asp Tyr Asp Pro Val Ser Leu Ile Ser Gln Gly Gln
195 200 205
Arg Val Ala Glu Ile Met Val Asp Gln Gly Leu Ser Asp Asp Phe Tyr
210 215 220
Ala Glu Gln Leu Arg Thr Pro Asn Leu Glu Lys Ile Cys Gln Glu Met
225 230 235 240
Asn Ile Lys Thr Leu Ile Arg Tyr His Glu Gly Tyr Asp His Ser Tyr
245 250 255
Tyr Phe Val Ser Ser Phe Ile Gly Glu His Ile Ala Tyr His Ala Asn
260 265 270
Lys Leu Asn Met Arg
275
<210> 17
<211> 179
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 17
Met Ala Lys Leu Thr Leu Gln Glu Gln Leu Leu Lys Ala Gly Leu Val
1 5 10 15
Thr Ser Lys Lys Ala Ala Lys Val Glu Arg Thr Ala Lys Lys Ser Arg
20 25 30
Val Gln Ala Arg Glu Ala Arg Ala Ala Val Glu Glu Asn Lys Lys Ala
35 40 45
Gln Leu Glu Arg Asp Lys Gln Leu Ser Glu Gln Gln Lys Gln Ala Ala
50 55 60
Leu Ala Lys Glu Tyr Lys Ala Gln Val Lys Gln Leu Ile Glu Met Asn
65 70 75 80
Arg Ile Thr Ile Ala Asn Gly Asp Ile Gly Phe Asn Phe Thr Asp Gly
85 90 95
Asn Leu Ile Lys Lys Ile Phe Val Asp Lys Leu Thr Gln Ala Gln Leu
100 105 110
Ile Asn Gly Arg Leu Ala Ile Ala Arg Leu Leu Val Asp Asn Asn Ser
115 120 125
Glu Gly Glu Tyr Ala Ile Ile Pro Ala Ser Val Ala Asp Lys Ile Ala
130 135 140
Gln Arg Asp Ala Ser Ser Ile Val Leu His Ser Ala Leu Ser Ala Glu
145 150 155 160
Glu Gln Asp Glu Asp Asp Pro Tyr Ala Asp Phe Lys Val Pro Asp Asp
165 170 175
Leu Met Trp
<210> 18
<211> 403
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 18
Met Ser Thr Arg Thr Pro Ser Ser Ser Ser Ser Arg Leu Met Leu Thr
1 5 10 15
Ile Gly Leu Cys Phe Leu Val Ala Leu Met Glu Gly Leu Asp Leu Gln
20 25 30
Ala Ala Gly Ile Ala Ala Gly Gly Ile Ala Gln Ala Phe Ala Leu Asp
35 40 45
Lys Met Gln Met Gly Trp Ile Phe Ser Ala Gly Ile Leu Gly Leu Leu
50 55 60
Pro Gly Ala Leu Val Gly Gly Met Leu Ala Asp Arg Tyr Gly Arg Lys
65 70 75 80
Arg Ile Leu Ile Gly Ser Val Ala Leu Phe Gly Leu Phe Ser Leu Ala
85 90 95
Thr Ala Ile Ala Trp Asp Phe Pro Ser Leu Val Phe Ala Arg Leu Met
100 105 110
Thr Gly Val Gly Leu Gly Ala Ala Leu Pro Asn Leu Ile Ala Leu Thr
115 120 125
Ser Glu Ala Ala Gly Pro Arg Phe Arg Gly Thr Ala Val Ser Leu Met
130 135 140
Tyr Cys Gly Val Pro Ile Gly Ala Ala Leu Ala Ala Thr Leu Gly Phe
145 150 155 160
Ala Gly Ala Asn Leu Ala Trp Gln Thr Val Phe Trp Val Gly Gly Val
165 170 175
Val Pro Leu Ile Leu Val Pro Leu Leu Met Arg Trp Leu Pro Glu Ser
180 185 190
Ala Val Phe Ala Gly Glu Lys Gln Ser Ala Pro Pro Leu Arg Ala Leu
195 200 205
Phe Ala Pro Glu Thr Ala Thr Ala Thr Leu Leu Leu Trp Leu Cys Tyr
210 215 220
Phe Phe Thr Leu Leu Val Val Tyr Met Leu Ile Asn Trp Leu Pro Leu
225 230 235 240
Leu Leu Val Glu Gln Gly Phe Gln Pro Ser Gln Ala Ala Gly Val Met
245 250 255
Phe Ala Leu Gln Met Gly Ala Ala Ser Gly Thr Leu Met Leu Gly Ala
260 265 270
Leu Met Asp Lys Leu Arg Pro Val Thr Met Ser Leu Leu Ile Tyr Ser
275 280 285
Gly Met Leu Ala Ser Leu Leu Ala Leu Gly Thr Val Ser Ser Phe Asn
290 295 300
Gly Met Leu Leu Ala Gly Phe Val Ala Gly Leu Phe Ala Thr Gly Gly
305 310 315 320
Gln Ser Val Leu Tyr Ala Leu Ala Pro Leu Phe Tyr Ser Ser Gln Ile
325 330 335
Arg Ala Thr Gly Val Gly Thr Ala Val Ala Val Gly Arg Leu Gly Ala
340 345 350
Met Ser Gly Pro Leu Leu Ala Gly Lys Met Leu Ala Leu Gly Thr Gly
355 360 365
Thr Val Gly Val Met Ala Ala Ser Ala Pro Gly Ile Leu Val Ala Gly
370 375 380
Leu Ala Val Phe Ile Leu Met Ser Arg Arg Ser Arg Ile Gln Pro Cys
385 390 395 400
Ala Asp Ala
<210> 19
<211> 337
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 19
Met Asn Gly Lys Lys Leu Tyr Ile Ser Asp Val Thr Leu Arg Asp Gly
1 5 10 15
Met His Ala Ile Arg His Gln Tyr Ser Leu Glu Asn Val Arg Gln Ile
20 25 30
Ala Lys Ala Leu Asp Asp Ala His Val Asp Ser Ile Glu Val Ala His
35 40 45
Gly Asp Gly Leu Gln Gly Ser Ser Phe Asn Tyr Gly Phe Gly Ala His
50 55 60
Ser Asp Leu Glu Trp Ile Glu Ala Ala Ala Asp Val Val Lys His Ala
65 70 75 80
Lys Ile Ala Thr Leu Leu Leu Pro Gly Ile Gly Thr Ile His Asp Leu
85 90 95
Lys Asn Ala Trp Gln Ala Gly Ala Arg Val Val Arg Val Ala Thr His
100 105 110
Cys Thr Glu Ala Asp Val Ser Ala Gln His Ile Gln Tyr Ala Arg Glu
115 120 125
Leu Gly Met Asp Thr Val Gly Phe Leu Met Met Ser His Met Thr Thr
130 135 140
Pro Glu Asn Leu Ala Lys Gln Ala Lys Leu Met Glu Gly Tyr Gly Ala
145 150 155 160
Thr Cys Ile Tyr Val Val Asp Ser Gly Gly Ala Met Asn Met Ser Asp
165 170 175
Ile Arg Asp Arg Phe Arg Ala Leu Lys Ala Val Leu Lys Pro Glu Thr
180 185 190
Gln Thr Gly Met His Ala His His Asn Leu Ser Leu Gly Val Ala Asn
195 200 205
Ser Ile Glu Ala Val Glu Glu Gly Cys Asp Arg Ile Asp Ala Ser Leu
210 215 220
Ala Gly Met Gly Ala Gly Ala Gly Asn Ala Pro Leu Glu Val Phe Ile
225 230 235 240
Ala Ala Ala Asp Lys Leu Gly Trp Gln His Gly Thr Asp Leu Tyr Ala
245 250 255
Leu Met Asp Ala Ala Asp Asp Leu Val Arg Pro Leu Gln Asp Arg Pro
260 265 270
Val Arg Val Asp Arg Glu Thr Leu Ala Leu Gly Tyr Ala Gly Val Tyr
275 280 285
Ser Ser Phe Leu Arg His Cys Glu Thr Ala Ala Ala Arg Tyr Gly Leu
290 295 300
Ser Ala Val Asp Ile Leu Val Glu Leu Gly Lys Arg Arg Met Val Gly
305 310 315 320
Gly Gln Glu Asp Met Ile Val Asp Val Ala Leu Asp Leu Arg Asn Asn
325 330 335
Lys
<210> 20
<211> 316
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 20
Met Ser Lys Arg Lys Val Ala Ile Ile Gly Ser Gly Asn Ile Gly Thr
1 5 10 15
Asp Leu Met Ile Lys Ile Leu Arg His Gly Gln His Leu Glu Met Ala
20 25 30
Val Met Val Gly Ile Asp Pro Gln Ser Asp Gly Leu Ala Arg Ala Arg
35 40 45
Arg Met Gly Val Ala Thr Thr His Glu Gly Val Ile Gly Leu Met Asn
50 55 60
Met Pro Glu Phe Ala Asp Ile Asp Ile Val Phe Asp Ala Thr Ser Ala
65 70 75 80
Gly Ala His Val Lys Asn Asp Ala Ala Leu Arg Glu Ala Lys Pro Asp
85 90 95
Ile Arg Leu Ile Asp Leu Thr Pro Ala Ala Ile Gly Pro Tyr Cys Val
100 105 110
Pro Val Val Asn Leu Glu Ala Asn Val Asp Gln Leu Asn Val Asn Met
115 120 125
Val Thr Cys Gly Gly Gln Ala Thr Ile Pro Met Val Ala Ala Val Ser
130 135 140
Arg Val Ala Arg Val His Tyr Ala Glu Ile Ile Ala Ser Ile Ala Ser
145 150 155 160
Lys Ser Ala Gly Pro Gly Thr Arg Ala Asn Ile Asp Glu Phe Thr Glu
165 170 175
Thr Thr Ser Arg Ala Ile Glu Val Val Gly Gly Ala Ala Lys Gly Lys
180 185 190
Ala Ile Ile Val Leu Asn Pro Ala Glu Pro Pro Leu Met Met Arg Asp
195 200 205
Thr Val Tyr Val Leu Ser Asp Glu Ala Ser Gln Asp Asp Ile Glu Ala
210 215 220
Ser Ile Asn Glu Met Ala Glu Ala Val Gln Ala Tyr Val Pro Gly Tyr
225 230 235 240
Arg Leu Lys Gln Arg Val Gln Phe Glu Val Ile Pro Gln Asp Lys Pro
245 250 255
Val Asn Leu Pro Gly Val Gly Gln Phe Ser Gly Leu Lys Thr Ala Val
260 265 270
Trp Leu Glu Val Glu Gly Ala Ala His Tyr Leu Pro Ala Tyr Ala Gly
275 280 285
Asn Leu Asp Ile Met Thr Ser Ser Ala Leu Ala Thr Ala Glu Lys Met
290 295 300
Ala Gln Ser Leu Ala Arg Lys Ala Gly Glu Ala Ala
305 310 315
<210> 21
<211> 269
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 21
Met Thr Lys His Thr Leu Glu Gln Leu Ala Ala Asp Leu Arg Arg Ala
1 5 10 15
Ala Glu Gln Gly Glu Ala Ile Ala Pro Leu Arg Asp Leu Ile Gly Ile
20 25 30
Asp Asn Ala Glu Ala Ala Tyr Ala Ile Gln His Ile Asn Val Gln Tyr
35 40 45
Asp Val Ala Gln Gly Arg Arg Val Val Gly Arg Lys Val Gly Leu Thr
50 55 60
His Pro Lys Val Gln Gln Gln Leu Gly Val Asp Gln Pro Asp Phe Gly
65 70 75 80
Thr Leu Phe Ala Asp Met Cys Tyr Gly Asp Asn Glu Ile Ile Pro Phe
85 90 95
Ser Arg Val Leu Gln Pro Arg Ile Glu Ala Glu Ile Ala Leu Val Leu
100 105 110
Asn Arg Asp Leu Pro Ala Thr Asp Ile Thr Phe Asp Glu Leu Tyr Asn
115 120 125
Ala Ile Glu Trp Val Leu Pro Ala Leu Glu Val Val Gly Ser Arg Ile
130 135 140
Arg Asp Trp Ser Ile Gln Phe Val Asp Thr Val Ala Asp Asn Ala Ser
145 150 155 160
Cys Gly Val Tyr Val Ile Gly Gly Pro Ala Gln Arg Pro Ala Gly Leu
165 170 175
Asp Leu Lys Asn Cys Ala Met Lys Met Thr Arg Asn Asn Glu Glu Val
180 185 190
Ser Ser Gly Arg Gly Ser Glu Cys Leu Gly His Pro Leu Asn Ala Ala
195 200 205
Val Trp Leu Ala Arg Lys Met Ala Ser Leu Gly Glu Pro Leu Arg Thr
210 215 220
Gly Asp Ile Ile Leu Thr Gly Ala Leu Gly Pro Met Val Ala Val Asn
225 230 235 240
Ala Gly Asp Arg Phe Glu Ala His Ile Glu Gly Ile Gly Ser Val Ala
245 250 255
Ala Thr Phe Ser Ser Ala Ala Pro Lys Gly Ser Leu Ser
260 265
<210> 22
<211> 293
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 22
Met Gln Glu Lys Met Met Ser Tyr Gln Pro Gln Thr Glu Ala Ala Thr
1 5 10 15
Ser Arg Phe Leu Asn Val Glu Glu Ala Gly Lys Thr Leu Arg Ile His
20 25 30
Phe Asn Asp Cys Gly Gln Gly Asp Glu Thr Val Val Leu Leu His Gly
35 40 45
Ser Gly Pro Gly Ala Thr Gly Trp Ala Asn Phe Ser Arg Asn Ile Asp
50 55 60
Pro Leu Val Glu Ala Gly Tyr Arg Val Ile Leu Leu Asp Cys Pro Gly
65 70 75 80
Trp Gly Lys Ser Asp Ser Ile Val Asn Ser Gly Ser Arg Ser Asp Leu
85 90 95
Asn Ala Arg Ile Leu Lys Ser Val Val Asp Gln Leu Asp Ile Ala Lys
100 105 110
Ile His Leu Leu Gly Asn Ser Met Gly Gly His Ser Ser Val Ala Phe
115 120 125
Thr Leu Asn Trp Pro Glu Arg Val Gly Lys Leu Val Leu Met Gly Gly
130 135 140
Gly Thr Gly Gly Met Ser Leu Phe Thr Pro Met Pro Thr Glu Gly Ile
145 150 155 160
Lys Arg Leu Asn Gln Leu Tyr Arg Gln Pro Thr Ile Glu Asn Leu Lys
165 170 175
Leu Met Met Asp Ile Phe Val Phe Asp Thr Ser Asp Leu Thr Asp Ala
180 185 190
Leu Phe Glu Ala Arg Leu Asn Asn Met Leu Ser Arg Arg Asp His Leu
195 200 205
Glu Asn Phe Val Lys Ser Leu Glu Ala Asn Pro Lys Gln Phe Pro Asp
210 215 220
Phe Gly Pro Arg Leu Ala Glu Ile Lys Ala Gln Thr Leu Ile Val Trp
225 230 235 240
Gly Arg Asn Asp Arg Phe Val Pro Met Asp Ala Gly Leu Arg Leu Leu
245 250 255
Ser Gly Ile Ala Gly Ser Glu Leu His Ile Phe Arg Asp Cys Gly His
260 265 270
Trp Ala Gln Trp Glu His Ala Asp Ala Phe Asn Gln Leu Val Leu Asn
275 280 285
Phe Leu Ala Arg Pro
290
<210> 23
<211> 314
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 23
Met His Ala Tyr Leu His Cys Leu Ser His Ser Pro Leu Val Gly Tyr
1 5 10 15
Val Asp Pro Ala Gln Glu Val Leu Asp Glu Val Asn Gly Val Ile Ala
20 25 30
Ser Ala Arg Glu Arg Ile Ala Ala Phe Ser Pro Glu Leu Val Val Leu
35 40 45
Phe Ala Pro Asp His Tyr Asn Gly Phe Phe Tyr Asp Val Met Pro Pro
50 55 60
Phe Cys Leu Gly Val Gly Ala Thr Ala Ile Gly Asp Phe Gly Ser Ala
65 70 75 80
Ala Gly Glu Leu Pro Val Pro Val Glu Leu Ala Glu Ala Cys Ala His
85 90 95
Ala Val Met Lys Ser Gly Ile Asp Leu Ala Val Ser Tyr Cys Met Gln
100 105 110
Val Asp His Gly Phe Ala Gln Pro Leu Glu Phe Leu Leu Gly Gly Leu
115 120 125
Asp Lys Val Pro Val Leu Pro Val Phe Ile Asn Gly Val Ala Thr Pro
130 135 140
Leu Pro Gly Phe Gln Arg Thr Arg Met Leu Gly Glu Ala Ile Gly Arg
145 150 155 160
Phe Thr Ser Thr Leu Asn Lys Arg Val Leu Phe Leu Gly Ser Gly Gly
165 170 175
Leu Ser His Gln Pro Pro Val Pro Glu Leu Ala Lys Ala Asp Ala His
180 185 190
Met Arg Asp Arg Leu Leu Gly Ser Gly Lys Asp Leu Pro Ala Ser Glu
195 200 205
Arg Glu Leu Arg Gln Gln Arg Val Ile Ser Ala Ala Glu Lys Phe Val
210 215 220
Glu Asp Gln Arg Thr Leu His Pro Leu Asn Pro Ile Trp Asp Asn Gln
225 230 235 240
Phe Met Thr Leu Leu Glu Gln Gly Arg Ile Gln Glu Leu Asp Ala Val
245 250 255
Ser Asn Glu Glu Leu Ser Ala Ile Ala Gly Lys Ser Thr His Glu Ile
260 265 270
Lys Thr Trp Val Ala Ala Phe Ala Ala Ile Ser Ala Phe Gly Asn Trp
275 280 285
Arg Ser Glu Gly Arg Tyr Tyr Arg Pro Ile Pro Glu Trp Ile Ala Gly
290 295 300
Phe Gly Ser Leu Ser Ala Arg Thr Glu Asn
305 310
<210> 24
<211> 554
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 24
Met Ala Ile Gln His Pro Asp Ile Gln Pro Ala Val Asn His Ser Val
1 5 10 15
Gln Val Ala Ile Ala Gly Ala Gly Pro Val Gly Leu Met Met Ala Asn
20 25 30
Tyr Leu Gly Gln Met Gly Ile Asp Val Leu Val Val Glu Lys Leu Asp
35 40 45
Lys Leu Ile Asp Tyr Pro Arg Ala Ile Gly Ile Asp Asp Glu Ala Leu
50 55 60
Arg Thr Met Gln Ser Val Gly Leu Val Asp Asp Val Leu Pro His Thr
65 70 75 80
Thr Pro Trp His Ala Met Arg Phe Leu Thr Pro Lys Gly Arg Cys Phe
85 90 95
Ala Asp Ile Gln Pro Met Thr Asp Glu Phe Gly Trp Pro Arg Arg Asn
100 105 110
Ala Phe Ile Gln Pro Gln Val Asp Ala Val Met Leu Glu Gly Val Ser
115 120 125
Arg Phe Pro Asn Val Arg Cys Leu Phe Ser Arg Glu Leu Glu Ala Phe
130 135 140
Ser Gln Gln Asp Asp Glu Val Thr Leu His Leu Lys Thr Ala Glu Gly
145 150 155 160
Gln Arg Glu Ile Val Lys Ala Gln Trp Leu Val Ala Cys Asp Gly Gly
165 170 175
Ala Ser Phe Val Arg Arg Thr Leu Asn Val Pro Phe Glu Gly Lys Thr
180 185 190
Ala Pro Asn Gln Trp Ile Val Val Asp Ile Ala Asn Asp Pro Leu Ser
195 200 205
Thr Pro His Ile Tyr Leu Cys Cys Asp Pro Val Arg Pro Tyr Val Ser
210 215 220
Ala Ala Leu Pro His Ala Val Arg Arg Phe Glu Phe Met Val Met Pro
225 230 235 240
Gly Glu Thr Glu Glu Gln Leu Arg Glu Pro Gln Asn Met Arg Lys Leu
245 250 255
Leu Ser Lys Val Leu Pro Asn Pro Asp Asn Val Glu Leu Ile Arg Gln
260 265 270
Arg Val Tyr Thr His Asn Ala Arg Leu Ala Gln Arg Phe Arg Ile Asp
275 280 285
Arg Val Leu Leu Ala Gly Asp Ala Ala His Ile Met Pro Val Trp Gln
290 295 300
Gly Gln Gly Tyr Asn Ser Gly Met Arg Asp Ala Phe Asn Leu Ala Trp
305 310 315 320
Lys Leu Ala Leu Val Ile Gln Gly Lys Ala Arg Asp Ala Leu Leu Asp
325 330 335
Thr Tyr Gln Gln Glu Arg Arg Asp His Ala Lys Ala Met Ile Asp Leu
340 345 350
Ser Val Thr Ala Gly Asn Val Leu Ala Pro Pro Lys Arg Trp Gln Gly
355 360 365
Thr Leu Arg Asp Gly Val Ser Trp Leu Leu Asn Tyr Leu Pro Pro Val
370 375 380
Lys Arg Tyr Phe Leu Glu Met Arg Phe Lys Pro Met Pro Gln Tyr Tyr
385 390 395 400
Gly Gly Ala Leu Val Arg Glu Gly Glu Ala Lys His Ser Pro Val Gly
405 410 415
Lys Met Phe Ile Gln Pro Lys Val Thr Leu Glu Asn Gly Asp Val Thr
420 425 430
Leu Leu Asp Asn Ala Ile Gly Ala Asn Phe Ala Val Ile Gly Trp Gly
435 440 445
Cys Asn Pro Leu Trp Gly Met Ser Asp Glu Gln Ile Gln Gln Trp Arg
450 455 460
Ala Leu Gly Thr Arg Phe Ile Gln Val Val Pro Glu Val Gln Ile His
465 470 475 480
Thr Ala Gln Asp Asn His Asp Gly Val Leu Arg Val Gly Asp Thr Gln
485 490 495
Gly Arg Leu Arg Ser Trp Phe Ala Gln His Asn Ala Ser Leu Val Val
500 505 510
Met Arg Pro Asp Arg Phe Val Ala Ala Thr Ala Ile Pro Gln Thr Leu
515 520 525
Gly Asn Thr Leu Asn Lys Leu Ala Ser Val Met Thr Leu Thr Arg Pro
530 535 540
Asp Ala Asp Val Ser Val Glu Lys Val Ala
545 550
<210> 25
<211> 315
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 25
Met Ile Phe Tyr Cys Ala Leu Ser Ile Gly Arg Val Phe Ser Ala Thr
1 5 10 15
Ile Lys Thr Cys Pro Asn Val His Gln Val His His Val Val Leu Thr
20 25 30
Ile Glu Met Ser Ile Asn Met Gln Asn Asn Glu Gln Thr Glu Tyr Lys
35 40 45
Thr Val Arg Gly Leu Thr Arg Gly Leu Met Leu Leu Asn Met Leu Asn
50 55 60
Lys Leu Asp Gly Gly Ala Ser Val Gly Leu Leu Ala Glu Leu Ser Gly
65 70 75 80
Leu His Arg Thr Thr Val Arg Arg Leu Leu Glu Thr Leu Gln Glu Glu
85 90 95
Gly Tyr Val Arg Arg Ser Pro Ser Asp Asp Ser Phe Arg Leu Thr Ile
100 105 110
Lys Val Arg Gln Leu Ser Glu Gly Phe Arg Asp Glu Gln Trp Ile Ser
115 120 125
Ala Leu Ala Ala Pro Leu Leu Gly Asp Leu Leu Arg Glu Val Val Trp
130 135 140
Pro Thr Asp Val Ser Thr Leu Asp Val Asp Ala Met Val Val Arg Glu
145 150 155 160
Thr Thr His Arg Phe Ser Arg Leu Ser Phe His Arg Ala Met Val Gly
165 170 175
Arg Arg Leu Pro Leu Leu Lys Thr Ala Ser Gly Leu Thr Trp Leu Ala
180 185 190
Phe Cys Pro Glu Gln Asp Arg Lys Glu Leu Ile Glu Met Leu Ala Ser
195 200 205
Arg Pro Gly Asp Asp Tyr Gln Leu Ala Arg Glu Pro Leu Lys Leu Glu
210 215 220
Ala Ile Leu Ala Arg Ala Arg Lys Glu Gly Tyr Gly Gln Asn Tyr Arg
225 230 235 240
Gly Trp Asp Gln Glu Glu Lys Ile Ala Ser Ile Ala Val Pro Leu Arg
245 250 255
Ser Glu Gln Arg Val Ile Gly Cys Leu Asn Leu Val Tyr Met Ala Ser
260 265 270
Ala Met Thr Ile Glu Gln Ala Ala Glu Lys His Leu Pro Ala Leu Gln
275 280 285
Arg Val Ala Lys Gln Ile Glu Glu Gly Val Glu Ser Gln Ala Ile Leu
290 295 300
Val Ala Gly Arg Arg Ser Gly Met His Leu Arg
305 310 315
<210> 26
<211> 360
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 26
Met Lys Pro Val Thr Leu Tyr Asp Val Ala Glu Tyr Ala Gly Val Ser
1 5 10 15
Tyr Gln Thr Val Ser Arg Val Val Asn Gln Ala Ser His Val Ser Ala
20 25 30
Lys Thr Arg Glu Lys Val Glu Ala Ala Met Ala Glu Leu Asn Tyr Ile
35 40 45
Pro Asn Arg Val Ala Gln Gln Leu Ala Gly Lys Gln Ser Leu Leu Ile
50 55 60
Gly Val Ala Thr Ser Ser Leu Ala Leu His Ala Pro Ser Gln Ile Val
65 70 75 80
Ala Ala Ile Lys Ser Arg Ala Asp Gln Leu Gly Ala Ser Val Val Val
85 90 95
Ser Met Val Glu Arg Ser Gly Val Glu Ala Cys Lys Ala Ala Val His
100 105 110
Asn Leu Leu Ala Gln Arg Val Ser Gly Leu Ile Ile Asn Tyr Pro Leu
115 120 125
Asp Asp Gln Asp Ala Ile Ala Val Glu Ala Ala Cys Thr Asn Val Pro
130 135 140
Ala Leu Phe Leu Asp Val Ser Asp Gln Thr Pro Ile Asn Ser Ile Ile
145 150 155 160
Phe Ser His Glu Asp Gly Thr Arg Leu Gly Val Glu His Leu Val Ala
165 170 175
Leu Gly His Gln Gln Ile Ala Leu Leu Ala Gly Pro Leu Ser Ser Val
180 185 190
Ser Ala Arg Leu Arg Leu Ala Gly Trp His Lys Tyr Leu Thr Arg Asn
195 200 205
Gln Ile Gln Pro Ile Ala Glu Arg Glu Gly Asp Trp Ser Ala Met Ser
210 215 220
Gly Phe Gln Gln Thr Met Gln Met Leu Asn Glu Gly Ile Val Pro Thr
225 230 235 240
Ala Met Leu Val Ala Asn Asp Gln Met Ala Leu Gly Ala Met Arg Ala
245 250 255
Ile Thr Glu Ser Gly Leu Arg Val Gly Ala Asp Ile Ser Val Val Gly
260 265 270
Tyr Asp Asp Thr Glu Asp Ser Ser Cys Tyr Ile Pro Pro Leu Thr Thr
275 280 285
Ile Lys Gln Asp Phe Arg Leu Leu Gly Gln Thr Ser Val Asp Arg Leu
290 295 300
Leu Gln Leu Ser Gln Gly Gln Ala Val Lys Gly Asn Gln Leu Leu Pro
305 310 315 320
Val Ser Leu Val Lys Arg Lys Thr Thr Leu Ala Pro Asn Thr Gln Thr
325 330 335
Ala Ser Pro Arg Ala Leu Ala Asp Ser Leu Met Gln Leu Ala Arg Gln
340 345 350
Val Ser Arg Leu Glu Ser Gly Gln
355 360
<210> 27
<211> 353
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 27
Met Ala Ile Asp Glu Asn Lys Gln Lys Ala Leu Ala Ala Ala Leu Gly
1 5 10 15
Gln Ile Glu Lys Gln Phe Gly Lys Gly Ser Ile Met Arg Leu Gly Glu
20 25 30
Asp Arg Ser Met Asp Val Glu Thr Ile Ser Thr Gly Ser Leu Ser Leu
35 40 45
Asp Ile Ala Leu Gly Ala Gly Gly Leu Pro Met Gly Arg Ile Val Glu
50 55 60
Ile Tyr Gly Pro Glu Ser Ser Gly Lys Thr Thr Leu Thr Leu Gln Val
65 70 75 80
Ile Ala Ala Ala Gln Arg Glu Gly Lys Thr Cys Ala Phe Ile Asp Ala
85 90 95
Glu His Ala Leu Asp Pro Ile Tyr Ala Arg Lys Leu Gly Val Asp Ile
100 105 110
Asp Asn Leu Leu Cys Ser Gln Pro Asp Thr Gly Glu Gln Ala Leu Glu
115 120 125
Ile Cys Asp Ala Leu Ala Arg Ser Gly Ala Val Asp Val Ile Val Val
130 135 140
Asp Ser Val Ala Ala Leu Thr Pro Lys Ala Glu Ile Glu Gly Glu Ile
145 150 155 160
Gly Asp Ser His Met Gly Leu Ala Ala Arg Met Met Ser Gln Ala Met
165 170 175
Arg Lys Leu Ala Gly Asn Leu Lys Gln Ser Asn Thr Leu Leu Ile Phe
180 185 190
Ile Asn Gln Ile Arg Met Lys Ile Gly Val Met Phe Gly Asn Pro Glu
195 200 205
Thr Thr Thr Gly Gly Asn Ala Leu Lys Phe Tyr Ala Ser Val Arg Leu
210 215 220
Asp Ile Arg Arg Ile Gly Ala Val Lys Glu Gly Glu Asn Val Val Gly
225 230 235 240
Ser Glu Thr Arg Val Lys Val Val Lys Asn Lys Ile Ala Ala Pro Phe
245 250 255
Lys Gln Ala Glu Phe Gln Ile Leu Tyr Gly Glu Gly Ile Asn Phe Tyr
260 265 270
Gly Glu Leu Val Asp Leu Gly Val Lys Glu Lys Leu Ile Glu Lys Ala
275 280 285
Gly Ala Trp Tyr Ser Tyr Lys Gly Glu Lys Ile Gly Gln Gly Lys Ala
290 295 300
Asn Ala Thr Ala Trp Leu Lys Asp Asn Pro Glu Thr Ala Lys Glu Ile
305 310 315 320
Glu Lys Lys Val Arg Glu Leu Leu Leu Ser Asn Pro Asn Ser Thr Pro
325 330 335
Asp Phe Ser Val Asp Asp Ser Glu Gly Val Ala Glu Thr Asn Glu Asp
340 345 350
Phe
<210> 28
<211> 49
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成寡核苷酸
<400> 28
ctgtataaaa ccacagccaa tcaaacgaaa ccaggctata ctcaagcct 49
<210> 29
<211> 49
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成寡核苷酸
<400> 29
ttttataaat acacagccaa tcaaacgaaa ccaggctata ctcaagcct 49
<210> 30
<211> 133
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成多核苷酸
<400> 30
ctcagcggtg gcagcagcct aggttaacta cttttctttg ttggtctttg cctccatttt 60
gtcggcctgg taatgactcc aacttattga tagtgtttta tgttcagata atgcccgatg 120
actttgtcat gca 133
<210> 31
<211> 133
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成多核苷酸
<220>
<221> 修饰的碱基
<222> (22)..(22)
<223> a、c、t、g、未知的或其他
<400> 31
ctcagcggtg gcagcagcct angttaatca tttttctttg ttggttttgg cttccatttt 60
atctgcttgg taatgactcc aacttattga tagtgtttta tgttcagata atgcccgatg 120
actttgtcat gca 133
<210> 32
<211> 133
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成多核苷酸
<400> 32
ctcagcggtg gcagcagcct aggttaatca tttttctttg ttggttttgg cttccatttt 60
atctgcttgg taatgactcc aacttattga tagtgtttta tgttcagata atgcccgatg 120
actttgtcat gca 133

Claims (30)

1.一种工程化宿主细胞,所述工程化宿主细胞包含:
a.包含非天然核苷酸的第一核酸分子;以及
b.任选地,编码修饰的转座相关蛋白或可转座元件的第二核酸分子。
2.根据权利要求1所述的工程化宿主细胞,其还包含:
a.编码修饰的核苷三磷酸转运蛋白的第三核酸分子,其中所述第三核酸分子被掺入所述工程化宿主细胞的基因组序列中,或者包含编码所述修饰的核苷三磷酸转运蛋白的质粒。
3.根据权利要求1所述的工程化宿主细胞,其中如与在不包含编码所述修饰的转座相关蛋白的所述第二核酸分子的等同工程化宿主细胞中的表达相比,所述修饰的核苷三磷酸转运蛋白在所述工程化宿主细胞中展现增加的表达稳定性。
4.根据权利要求2所述的工程化宿主细胞,其中所述修饰的核苷三磷酸转运蛋白包含编码所述核苷三磷酸转运蛋白的整个核酸分子的缺失、N末端截短、C末端截短或两个末端的截短。
5.根据权利要求2所述的工程化宿主细胞,其中修饰的核苷三磷酸转运蛋白包含来自三角褐指藻(Phaeodactylum tricornutum)的核苷三磷酸转运蛋白(PtNTT2)。
6.根据权利要求5所述的工程化宿主细胞,其中所述PtNTT2在选自pSC质粒的启动子或来自lac操纵子的启动子的控制下。
7.根据权利要求2所述的工程化宿主细胞,其还包含:
a.Cas9多肽或其变体;以及
b.包含crRNA-tracrRNA支架的单一指导RNA(sgRNA),其中Cas9多肽或其变体与sgRNA的组合调节编码所述非天然核苷酸的所述第一核酸分子的复制。
8.根据权利要求1所述的工程化宿主细胞,其中所述第二核酸分子包含含有过氧化氢酶(cat)、IS1蛋白insB-4(insB-4)、IS1蛋白insA-4(insA-4)或其组合的基因。
9.根据权利要求1所述的工程化宿主细胞,其中所述修饰的转座相关蛋白包含插入元件IS1 4蛋白InsB、插入元件IS1 4蛋白InsA或其组合;并且其中所述修饰的可转座元件包含IS1。
10.根据权利要求8所述的工程化宿主细胞,其中所述基因包含一个或多个缺失,其中所述一个或多个缺失包含N末端缺失、C末端缺失、两个末端的截短、内部缺失和/或整个基因的缺失。
11.根据权利要求1所述的工程化宿主细胞,其还包含编码修饰的DNA修复反应相关蛋白的第五核酸分子,其中所述DNA修复反应包括重组修复、SOS反应、核苷酸切除修复或甲基定向的错配修复或其组合。
12.根据权利要求11所述的工程化宿主细胞,其中所述修饰的DNA修复反应相关蛋白包含RecA、Rad51、RadA或LexA或其组合。
13.根据权利要求1所述的工程化宿主细胞,其中所述工程化宿主细胞是原核细胞,包括大肠杆菌细胞、大肠杆菌BL21(DE3)细胞。
14.根据权利要求1所述的工程化宿主细胞,其中所述非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。
15.根据权利要求1所述的工程化宿主细胞,其中所述非天然碱基选自:
Figure FDA0002646587650000031
16.根据权利要求1所述的工程化宿主细胞,其中所述非天然核苷酸还包含非天然糖部分。
17.根据权利要求16所述的工程化宿主细胞,其中所述非天然糖部分选自:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)n O]mCH3、-O(CH2)nOCH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)nCH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。
18.一种增加包含非天然核苷酸的核酸分子的产生的方法,所述方法包括:
a)将工程化宿主细胞与多种非天然核苷酸一起孵育,其中所述工程化宿主细胞包含修饰的核苷三磷酸转运蛋白以及任选地修饰的转座相关蛋白或可转座元件;以及
b)将所述多种非天然核苷酸掺入一条或多条新合成的DNA链中,由此产生所述非天然核酸分子;
其中所述修饰的转座相关蛋白或可转座元件以及所述修饰的核苷三磷酸转运蛋白增加包含所述非天然核苷酸的非天然碱基对在所述一条或多条新合成的DNA链中的保留。
19.根据权利要求18所述的方法,其中所述修饰的转座相关蛋白包含插入元件IS1 4蛋白InsB、插入元件IS1 4蛋白InsA或其组合;并且其中所述修饰的可转座元件包含IS1。
20.根据权利要求18所述的方法,其中所述修饰的核苷三磷酸转运蛋白包含密码子优化的来自三角褐指藻的核苷三磷酸转运蛋白(PtNTT2)。
21.根据权利要求18所述的方法,其中所述非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。
22.根据权利要求19所述的方法,其中所述非天然碱基选自:
Figure FDA0002646587650000061
23.根据权利要求19所述的方法,其中所述非天然核苷酸还包含非天然糖部分。
24.根据权利要求23所述的方法,其中所述非天然糖部分选自:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2 CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)n O]mCH3、-O(CH2)nOCH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)n CH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。
25.一种制备包含非天然氨基酸的修饰的多肽的方法,所述方法包括:
c)将工程化宿主细胞与多种非天然核苷酸一起孵育,其中所述工程化宿主细胞包含修饰的核苷三磷酸转运蛋白、以及任选地修饰的转座相关蛋白或可转座元件;以及
d)将所述多种非天然核苷酸掺入一条或多条新合成的DNA链中,由此产生所述非天然核酸分子;
其中所述修饰的转座相关蛋白或可转座元件以及所述修饰的核苷三磷酸转运蛋白增加非天然碱基对的保留,从而促进将所述多种非天然核苷酸掺入新合成的多肽中以产生所述修饰的多肽。
26.根据权利要求25所述的方法,其中所述修饰的转座相关蛋白包含插入元件IS1 4蛋白InsB、插入元件IS1 4蛋白InsA或其组合;并且其中所述修饰的可转座元件包含IS1。
27.根据权利要求25所述的方法,其中所述修饰的核苷三磷酸转运蛋白包含密码子优化的来自三角褐指藻的核苷三磷酸转运蛋白(PtNTT2)。
28.根据权利要求25所述的方法,其中所述非天然核苷酸包含选自以下的非天然碱基:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。
29.根据权利要求25所述的方法,其中所述非天然碱基选自:
Figure FDA0002646587650000081
30.根据权利要求25所述的方法,其中所述非天然核苷酸还包含选自以下的非天然糖部分:2'位置的修饰:OH;取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2'-F、2'-OCH3、2'-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)nO]mCH3、-O(CH2)nOCH3、-O(CH2)n NH2、-O(CH2)n CH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)n CH3)]2,其中n和m是1至约10;和/或5'位置的修饰:5'-乙烯基、5'-甲基(R或S);4'位置的修饰、4'-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药代动力学特性的基团、或改进寡核苷酸的药效学特性的基团及其任何组合。
CN201880090147.0A 2017-12-29 2018-12-28 非天然碱基对组合物及使用方法 Active CN112105627B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762612062P 2017-12-29 2017-12-29
US62/612,062 2017-12-29
PCT/US2018/067969 WO2019133883A1 (en) 2017-12-29 2018-12-28 Unnatural base pair compositions and methods of use

Publications (2)

Publication Number Publication Date
CN112105627A true CN112105627A (zh) 2020-12-18
CN112105627B CN112105627B (zh) 2024-07-02

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117070514A (zh) * 2023-10-16 2023-11-17 吉林凯莱英医药化学有限公司 非天然rna的制备方法及产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104854241A (zh) * 2012-05-25 2015-08-19 埃玛纽埃尔·沙尔庞捷 用于rna定向的靶dna修饰和用于rna定向的转录调节的方法和组合物
WO2015157555A2 (en) * 2014-04-09 2015-10-15 The Scripps Research Institute Import of unnatural or modified nucleoside triphosphates into cells via nucleic acid triphosphate transporters
WO2017106767A1 (en) * 2015-12-18 2017-06-22 The Scripps Research Institute Production of unnatural nucleotides using a crispr/cas9 system
WO2017223528A1 (en) * 2016-06-24 2017-12-28 The Scripps Research Institute Novel nucleoside triphosphate transporter and uses thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104854241A (zh) * 2012-05-25 2015-08-19 埃玛纽埃尔·沙尔庞捷 用于rna定向的靶dna修饰和用于rna定向的转录调节的方法和组合物
WO2015157555A2 (en) * 2014-04-09 2015-10-15 The Scripps Research Institute Import of unnatural or modified nucleoside triphosphates into cells via nucleic acid triphosphate transporters
WO2017106767A1 (en) * 2015-12-18 2017-06-22 The Scripps Research Institute Production of unnatural nucleotides using a crispr/cas9 system
WO2017223528A1 (en) * 2016-06-24 2017-12-28 The Scripps Research Institute Novel nucleoside triphosphate transporter and uses thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AARON W. FELDMAN ET AL.: ""A Tool for the Import of Natural and Unnatural Nucleoside Triphosphates into Bacteria"" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117070514A (zh) * 2023-10-16 2023-11-17 吉林凯莱英医药化学有限公司 非天然rna的制备方法及产品
CN117070514B (zh) * 2023-10-16 2024-04-26 吉林凯莱英医药化学有限公司 非天然rna的制备方法及产品

Also Published As

Publication number Publication date
WO2019133883A1 (en) 2019-07-04
MX2020006901A (es) 2020-11-09
JP2021508466A (ja) 2021-03-11
IL275694A (en) 2020-08-31
EP3732187A1 (en) 2020-11-04
MA51430A (fr) 2020-11-04
EP3732187A4 (en) 2021-11-10
KR20200105861A (ko) 2020-09-09
US20200318122A1 (en) 2020-10-08
BR112020013090A2 (pt) 2020-12-01
CA3087234A1 (en) 2019-07-04
JP2024010087A (ja) 2024-01-23
SG11202006101WA (en) 2020-07-29
AU2018395054A1 (en) 2020-07-16
RU2020124399A (ru) 2022-01-31
JP7429642B2 (ja) 2024-02-08

Similar Documents

Publication Publication Date Title
US20240117363A1 (en) Production of unnatural nucleotides using a crispr/cas9 system
JP7429642B2 (ja) 非天然塩基対組成物および使用の方法
US20230235339A1 (en) Import of unnatural or modified nucleoside triphosphates into cells via nucleic acid triphosphate transporters
EP3475295B1 (en) Novel nucleoside triphosphate transporter and uses thereof
US11879145B2 (en) Reagents and methods for replication, transcription, and translation in semi-synthetic organisms
US20220243244A1 (en) Compositions and methods for in vivo synthesis of unnatural polypeptides
EP4133069A2 (en) Compositions and methods for improved site-specific modification
KR20220075231A (ko) 진핵 반합성 유기체
CN112105627B (zh) 非天然碱基对组合物及使用方法
RU2799441C2 (ru) Композиции на основе неприродных пар оснований и способы их применения

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant