CN114207129A - 用于在半合成生物体中复制、转录和翻译的试剂和方法 - Google Patents

用于在半合成生物体中复制、转录和翻译的试剂和方法 Download PDF

Info

Publication number
CN114207129A
CN114207129A CN202080056659.2A CN202080056659A CN114207129A CN 114207129 A CN114207129 A CN 114207129A CN 202080056659 A CN202080056659 A CN 202080056659A CN 114207129 A CN114207129 A CN 114207129A
Authority
CN
China
Prior art keywords
base
natural
natural base
unnatural
trna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080056659.2A
Other languages
English (en)
Inventor
F·E·罗梅斯伯格
V·T·迪恩
A·W·费尔德曼
R·J·卡拉狄玛
L·李
M·P·莱德贝特
A·X·周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Scripps Research Institute
Original Assignee
Scripps Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Scripps Research Institute filed Critical Scripps Research Institute
Publication of CN114207129A publication Critical patent/CN114207129A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07HSUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
    • C07H19/00Compounds containing a hetero ring sharing one ring hetero atom with a saccharide radical; Nucleosides; Mononucleotides; Anhydro-derivatives thereof
    • C07H19/02Compounds containing a hetero ring sharing one ring hetero atom with a saccharide radical; Nucleosides; Mononucleotides; Anhydro-derivatives thereof sharing nitrogen
    • C07H19/24Heterocyclic radicals containing oxygen or sulfur as ring hetero atom
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07HSUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
    • C07H19/00Compounds containing a hetero ring sharing one ring hetero atom with a saccharide radical; Nucleosides; Mononucleotides; Anhydro-derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07HSUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
    • C07H21/00Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07HSUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
    • C07H21/00Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids
    • C07H21/04Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids with deoxyribosyl as saccharide radical
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P19/00Preparation of compounds containing saccharide radicals
    • C12P19/26Preparation of nitrogen-containing carbohydrates
    • C12P19/28N-glycosides
    • C12P19/30Nucleotides
    • C12P19/34Polynucleotides, e.g. nucleic acids, oligoribonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P21/00Preparation of peptides or proteins
    • C12P21/02Preparation of peptides or proteins having a known sequence of two or more amino acids, e.g. glutathione
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y207/00Transferases transferring phosphorus-containing groups (2.7)
    • C12Y207/07Nucleotidyltransferases (2.7.7)
    • C12Y207/07006DNA-directed RNA polymerase (2.7.7.6)

Abstract

本文公开了用于增加包含一种或多种非天然氨基酸的蛋白质或多肽的产生的组合物、方法、细胞、工程化微生物和试剂盒。还提供了用于增加编码所述非天然氨基酸的非天然核酸在工程化细胞或半合成生物体中的保留的组合物、细胞、工程化微生物和试剂盒。

Description

用于在半合成生物体中复制、转录和翻译的试剂和方法
相关申请的交叉引用
本申请要求于2019年6月14日提交的美国临时申请号62/861,901的优先权,将其公开内容通过引用以其整体特此并入。
序列表
本申请含有已以ASCII格式电子提交并通过引用以其整体特此并入的序列表。2020年6月10日创建的所述ASCII副本命名为36271-808_601_SL.txt并且大小为18,162字节。
关于联邦赞助研究的声明
本文公开的发明至少部分是在美国政府支持下在美国国立卫生研究院(NIH)的授权号5R35 GM118178和GM128376和F31 GM128376以及美国国家科学基金会(NSF)的授权号NSF/DGE-1346837下完成的。因此,美国政府对本发明享有一定的权利。
背景技术
生物多样性使生命能够适应不同的环境,并随着时间的推移进化出新的形式和功能。这种多样性的来源是由二十种天然氨基酸提供的蛋白质序列内的变异,变异是由四种天然DNA核苷酸在生物体基因组中编码的。虽然天然氨基酸提供的功能多样性可能很高,但序列空间的巨大性极大地限制了可实际探索的内容,此外,某些功能根本不可用。自然界中对用于氢负离子转移、氧化还原活性和亲电键形成等的辅因子的使用证明了这些局限性。另外,随着人们越来越关注开发蛋白质作为治疗剂,这些局限性是有问题的,因为与化学家设计的小分子药物相比,天然氨基酸的理化多样性受到了极大的限制。原则上,应该可以通过扩展遗传密码以包括具有所需理化特性的另外的非规范氨基酸(ncAA,或“非天然”氨基酸)来规避这些局限性。
大约20年前,通过使用琥珀终止密码子(UAG)对大肠杆菌中的ncAA进行编码来扩展遗传密码,创立了一种增加生物体可用的多样性的方法。这是使用来自詹氏甲烷球菌(Methanococcus jannaschii)的tRNA-氨基酸tRNA合成酶(aaRS)对实现的,其中tRNA被重新编码以抑制终止密码子,并且aaRS进化为使tRNA装载ncAA。这种密码子抑制的方法已经扩展到其他终止密码子甚至四联体密码子、以及使用几个其他正交tRNA-aaRS对(最值得注意的是来自巴氏/马氏甲烷八叠球菌的Pyl tRNA-合成酶对),扩大了可掺入蛋白质中的ncAA的范围。这些方法已经开始彻底改变化学生物学和蛋白质疗法二者。
尽管这些方法实现在原核和真核细胞二者中掺入至多两种不同的ncAA,但异源重新编码的tRNA必然与内源性释放因子(RF)竞争,或者在四联体密码子的情况下与正常解码竞争,这限制了ncAA掺入的效率和保真度。为了消除与识别琥珀终止密码子并终止翻译的RF1的竞争,人们努力去除宿主基因组中的许多或所有琥珀终止密码子的情况或修饰RF2以允许缺失RF1。然而,真核生物只有一种释放因子,虽然它可以被修饰,但不能缺失,而对于原核生物,缺失RF1会导致其他tRNA对琥珀终止密码子更多的错误抑制,从而降低ncAA掺入的保真度。进一步利用密码子冗余性来释放天然密码子以重新分配给ncAA的努力可能因多向性效应而变得复杂,因为密码子例如由于它们对翻译速率和蛋白质折叠有影响而并不真的是冗余的。此外,密码子再挪用受到大规模基因组工程挑战的限制,尤其对于真核生物如此。
天然密码子重新分配的替代途径是创建全新密码子,其没有任何天然功能或约束并且在核糖体处的识别内在地更加具正交性。这可以通过创造具有第五和第六核苷酸的生物体来实现,所述核苷酸形成非天然碱基对(UBP)。此类半合成生物体(SSO)需要忠实地复制含有UBP的DNA,将其有效地转录成含有非天然核苷酸的mRNA和tRNA,然后用关联的非天然反密码子有效地解码非天然密码子。此类SSO将有几乎无限数量的新密码子来编码ncAA。
发明内容
在某些实施方案中,本文描述了用于增加包含非天然核苷酸的核酸分子的产生的方法、细胞、工程化微生物、质粒和试剂盒。
包括以下实施方案。
实施方案A1是具有以下结构的核碱基:
Figure BDA0003498995360000021
其中:
每个X独立地是碳或氮;
当X是碳时,R2是存在的且独立地是氢、烷基、烯基、炔基、甲氧基、甲硫醇、甲烷硒基、卤素、氰基或叠氮基;
Y是硫、氧、硒或仲胺;以及
E是氧、硫或硒;
其中波浪线指示与核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物的键合点,其中所述核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物是游离形式,连接至单磷酸酯、二磷酸酯、三磷酸酯、α-硫代三磷酸酯、β-硫代三磷酸酯或γ-硫代三磷酸酯基团,或包含在RNA或DNA中或者RNA类似物或DNA类似物中。
实施方案A2是实施方案A1的核碱基,其中X是碳。
实施方案A3是实施方案A1或A2的核碱基,其中E是硫。
实施方案A4为实施方案A1至A3中任一项的核碱基,其中Y是硫。
实施方案A5是实施方案A1的核碱基,其具有结构
Figure BDA0003498995360000022
实施方案A6是实施方案A1至A5中任一项的核碱基,其结合互补碱基配对核碱基以形成非天然碱基对(UBP)。
实施方案A7是实施方案A6的核碱基,其中所述互补碱基配对核碱基选自:
Figure BDA0003498995360000023
Figure BDA0003498995360000031
实施方案A8是双链寡核苷酸双链体,其中第一寡核苷酸链包含实施方案A1至A5中任一项的核碱基,并且第二互补寡核苷酸链在其互补碱基配对位点中包含互补碱基配对核碱基。
实施方案A9是实施方案A8的双链寡核苷酸双链体,其中所述第一寡核苷酸链包含
Figure BDA0003498995360000032
并且所述第二链在其互补碱基配对位点中包含选自以下的互补碱基配对核碱基:
Figure BDA0003498995360000033
实施方案A10是实施方案A9的双链寡核苷酸双链体,其中所述第二链包含互补碱基配对核碱基
Figure BDA0003498995360000034
实施方案A11是实施方案A9的双链寡核苷酸双链体,其中所述第二链包含互补碱基配对核碱基
Figure BDA0003498995360000035
实施方案A12是包含编码转移RNA(tRNA)的基因和/或编码目的蛋白质的基因的质粒,其中所述基因包含实施方案A1至A5中任一项的至少一种核碱基或TPT3
Figure BDA0003498995360000036
以及实施方案A7的至少一种互补碱基配对核碱基或
Figure BDA0003498995360000037
其中所述互补碱基配对核碱基在互补碱基配对位点中。
实施方案A13是由实施方案A10的质粒编码的mRNA,所述mRNA编码所述tRNA。
实施方案A14是由实施方案A10的质粒编码的mRNA,所述mRNA编码所述蛋白质。
实施方案A15是包含实施方案A1至A5中任一项的核碱基的转移RNA(tRNA),所述转移RNA包含:
反密码子,其中所述反密码子包含所述核碱基,任选地其中所述核碱基位于所述反密码子的第一位置、第二位置或第三位置;以及
识别元件,其中所述识别元件通过氨酰tRNA合成酶促进所述tRNA选择性装载非天然氨基酸。
实施方案A16是实施方案A15的tRNA,其中所述氨酰tRNA合成酶源自甲烷八叠球菌属(Methanosarcina)或其变体,或者甲烷球菌属(Methanococcus/Methanocaldococcus)或其变体。
实施方案A17是实施方案A15的tRNA,其中所述非天然氨基酸包含芳族部分。
实施方案A18是实施方案A15的tRNA,其中所述非天然氨基酸是赖氨酸或苯丙氨酸衍生物。
实施方案A19是包含下式的结构:
N1-Zx-N2
其中:
每个Z独立地是实施方案A1至A7中任一项的核碱基,其与核糖基或脱氧核糖基或其类似物键合;
N1是在Z的核糖基或脱氧核糖基或其类似物的5'端处附接的一个或多个核苷酸或其类似物或末端磷酸酯基团;
N2是在Z的核糖基或脱氧核糖基或其类似物的3'端附接的一个或多个核苷酸或其类似物或末端羟基基团;并且
x是从1至20的整数。
实施方案A20是实施方案A19的结构,其中所述结构编码基因,任选地其中Zx位于所述基因的翻译区中,或者其中Zx位于所述基因的非翻译区中。
实施方案A21是一种多核苷酸文库,其中所述文库包含至少5000种独特多核苷酸,并且其中每种多核苷酸包含实施方案A1至A5中任一项的至少一种核碱基。
实施方案A22是一种包含核碱基的核苷三磷酸,其中所述核碱基选自:
Figure BDA0003498995360000041
实施方案A23是实施方案A22的核苷三磷酸,其中所述核碱基是
Figure BDA0003498995360000042
实施方案A24是实施方案A22或A23的核苷三磷酸,其中所述核苷包含核糖或脱氧核糖。
实施方案A25是一种DNA,所述DNA包含具有结构
Figure BDA0003498995360000043
的核碱基和具有结构
Figure BDA0003498995360000051
的互补碱基配对核碱基。
实施方案A26是一种DNA,所述DNA包含具有结构
Figure BDA0003498995360000052
的核碱基和具有结构
Figure BDA0003498995360000053
的互补碱基配对核碱基。
实施方案A27是一种将DNA转录到tRNA或编码蛋白质的mRNA的方法,所述方法包括:
使包含编码所述tRNA或蛋白质的基因的DNA与核糖核苷三磷酸和RNA聚合酶接触,其中所述编码tRNA或蛋白质的基因包含与第二非天然碱基配对并与所述第二非天然碱基形成第一非天然碱基对的第一非天然碱基,并且其中所述核糖核苷三磷酸包含能够与所述第一非天然碱基形成第二非天然碱基对的第三非天然碱基,其中所述第一非天然碱基对和所述第二非天然碱基对不相同。
实施方案A28是实施方案A27的方法,其中所述核糖核苷三磷酸还包含第四非天然碱基,其中所述第四非天然碱基能够与所述第三非天然碱基形成第二非天然碱基对。
实施方案A29是实施方案A28的方法,其中所述第一非天然碱基对和所述第二非天然碱基对不相同。
实施方案A30是实施方案A27-A29中任一项的方法,所述方法还包括,在使所述DNA与所述核糖核苷三磷酸和RNA聚合酶接触之前,通过使所述DNA与脱氧核糖核苷三磷酸和DNA聚合酶接触来复制所述DNA,其中所述核糖核苷三磷酸包含能够与所述第一非天然碱基形成第五非天然碱基对的第五非天然碱基,其中所述第一非天然碱基对和所述第五非天然碱基对不相同。
实施方案A30是实施方案A27-A30中任一项的方法,其中所述第一非天然碱基包括TPT3,所述第二非天然碱基包括CNMO或NaM,所述第三非天然碱基包括TAT1,并且所述第四非天然碱基包括NaM或5FM。
实施方案A32是实施方案A27-A31中任一项的方法,其中所述方法包括使用半合成生物体,任选地其中所述生物体是细菌,任选地其中所述细菌是大肠杆菌。
实施方案A33是实施方案A32的方法,其中所述生物体包括微生物。
实施方案A34是实施方案A32的方法,其中所述生物体包括细菌。
实施方案A35是实施方案A34的方法,其中所述生物体包括革兰氏阳性细菌。
实施方案A36是实施方案A34的方法,其中所述生物体包括革兰氏阴性细菌。
实施方案A37是实施方案A27-A34中任一项的方法,其中所述生物体包括大肠杆菌。
实施方案A38是实施方案A27-A37中任一项的方法,其中至少一种非天然碱基选自
(i)2-硫尿嘧啶,2-硫代胸腺嘧啶,2’-脱氧尿苷,4-硫代-尿嘧啶,4-硫代-胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-卤代尿嘧啶;5-丙炔基-尿嘧啶,6-偶氮基-胸腺嘧啶,6-偶氮基-尿嘧啶,5-甲氨基甲基尿嘧啶,5-甲氧基氨基甲基-2-硫尿嘧啶,假尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,5-甲基-2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,5’-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,尿嘧啶-5-氧基乙酸,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨基甲基-2-硫代尿苷,5-羧甲基氨基甲基尿嘧啶或二氢尿嘧啶;
(ii)5-羟甲基胞嘧啶,5-三氟甲基胞嘧啶,5-卤代胞嘧啶,5-丙炔基胞嘧啶,5-羟基胞嘧啶,环胞嘧啶,阿糖胞苷,5,6-二氢胞嘧啶,5-硝基胞嘧啶,6-偶氮基胞嘧啶,氮杂胞嘧啶,N4-乙基胞嘧啶,3-甲基胞嘧啶,5-甲基胞嘧啶,4-乙酰胞嘧啶,2-硫代胞嘧啶,吩噁嗪胞苷([5,4-b][l,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][l,4]苯并噻嗪-2(3H)-酮),吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][l,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮)或吡啶并吲哚胞苷(H-吡啶并[3’,2’:4,5]吡咯并[2,3-d]嘧啶-2-酮);
(iii)2-氨基腺嘌呤,2-丙基腺嘌呤,2-氨基-腺嘌呤,2-F-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基-2’-脱氧腺苷,3-脱氮腺嘌呤,7-甲基腺嘌呤,7-脱氮-腺嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤,N6-异戊烯基腺嘌呤,2-甲基腺嘌呤,2,6-二氨基嘌呤,2-甲硫基-N6-异戊烯基腺嘌呤或6-氮杂-腺嘌呤;
(iv)2-甲基鸟嘌呤,鸟嘌呤的2-丙基和烷基衍生物,3-脱氮鸟嘌呤,6-硫代鸟嘌呤,7-甲基鸟嘌呤,7-脱氮鸟嘌呤,7-脱氮鸟苷,7-脱氮-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-卤代、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的鸟嘌呤,1-甲基鸟嘌呤,2,2-二甲基鸟嘌呤,7-甲基鸟嘌呤或6-氮杂-鸟嘌呤;和
(v)次黄嘌呤,黄嘌呤,1-甲基肌苷,辫苷(queosine),β-D-半乳糖基辫苷,肌苷,β-D-甘露糖基辫苷,怀丁氧苷(wybutoxosine),羟基脲,(acp3)w,2-氨基吡啶或2-吡啶酮。
实施方案A39是实施方案A27-A37中任一项的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括
Figure BDA0003498995360000061
实施方案A40是实施方案A27-A39中任一项的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000071
实施方案A41是实施方案A40的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000072
实施方案A42是实施方案A40的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000073
Figure BDA0003498995360000074
实施方案A43是实施方案A40的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000075
实施方案A44是实施方案A40的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure BDA0003498995360000076
实施方案A45是实施方案A40的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure BDA0003498995360000081
实施方案A46是实施方案A40的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure BDA0003498995360000082
实施方案A47是实施方案A40的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000083
实施方案A48是实施方案A40的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者是
Figure BDA0003498995360000084
实施方案A49是实施方案A40的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure BDA0003498995360000085
实施方案A50是实施方案A40的方法,其中所述第一非天然碱基或所述第二非天然碱基是
Figure BDA0003498995360000086
实施方案A51是实施方案A40的方法,其中所述第一非天然碱基或所述第二非天然碱基是
Figure BDA0003498995360000091
实施方案A52是实施方案A27-A40中任一项的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000092
并且所述第二非天然碱基是
Figure BDA0003498995360000093
或所述第一非天然碱基是
Figure BDA0003498995360000094
并且所述第二非天然碱基是
Figure BDA0003498995360000095
实施方案A53是实施方案A27-A40和A52中任一项的方法,其中所述第三非天然碱基或所述第四非天然碱基是
Figure BDA0003498995360000096
实施方案A54是实施方案A53的方法,其中所述第三非天然碱基是
Figure BDA0003498995360000097
实施方案A55是实施方案A54的方法,其中所述第四非天然碱基是
Figure BDA0003498995360000098
实施方案A56是实施方案A27-A52中任一项的方法,其中所述第三非天然碱基或所述第四非天然碱基是
Figure BDA0003498995360000099
实施方案A57是实施方案A56的方法,其中所述第三非天然碱基是
Figure BDA00034989953600000910
实施方案A58是实施方案A56的方法,其中所述第四非天然碱基是
Figure BDA0003498995360000101
实施方案A59是实施方案A27-A40中任一项的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000102
所述第二非天然碱基是
Figure BDA0003498995360000103
所述第三非天然碱基是
Figure BDA0003498995360000104
并且所述第四非天然碱基是
Figure BDA0003498995360000105
实施方案A60是实施方案A27-A40中任一项的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000106
所述第二非天然碱基是
Figure BDA0003498995360000107
所述第三非天然碱基是
Figure BDA0003498995360000108
并且所述第四非天然碱基是
Figure BDA0003498995360000109
实施方案A61是实施方案A27-A40中任一项的方法,其中所述第一非天然碱基是
Figure BDA00034989953600001010
所述第二非天然碱基是
Figure BDA00034989953600001011
所述第三非天然碱基是
Figure BDA00034989953600001012
Figure BDA00034989953600001013
并且所述第四非天然碱基是
Figure BDA00034989953600001014
实施方案A62是实施方案A27-A40中任一项的方法,其中所述第三非天然碱基是
Figure BDA00034989953600001015
实施方案A63是实施方案A27-A51中任一项的方法,其中所述第四非天然碱基是
Figure BDA0003498995360000111
实施方案A64是实施方案A27-A40中任一项的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000112
所述第二非天然碱基是
Figure BDA0003498995360000113
所述第三非天然碱基是
Figure BDA0003498995360000114
Figure BDA0003498995360000115
并且所述第四非天然碱基是
Figure BDA0003498995360000116
实施方案A65是实施方案A27-A64中任一项的方法,其中所述第三非天然碱基和所述第四非天然碱基包含核糖。
实施方案A66是实施方案A27-A64中任一项的方法,其中所述第三非天然碱基和所述第四非天然碱基包含脱氧核糖。
实施方案A65是实施方案A27-A66中任一项的方法,其中所述第一非天然碱基和所述第二非天然碱基包含脱氧核糖。
实施方案A68是实施方案A27-A64中任一项的方法,其中所述第一非天然碱基和所述第二非天然碱基包含脱氧核糖,并且所述第三非天然碱基和所述第四非天然碱基包含核糖。
实施方案A69是实施方案A27-A40中任一项的方法,其中所述DNA包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360000117
Figure BDA0003498995360000121
实施方案A70是实施方案A69的方法,其中所述DNA模板包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。
实施方案A71是实施方案A69的方法,其中所述DNA模板包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。
实施方案A72是实施方案A69的方法,其中所述DNA模板包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。
实施方案A73是实施方案A69的方法,其中所述DNA模板包含至少一种为dPTMO-dTPT3的非天然碱基对(UBP)。
实施方案A74是实施方案A69的方法,其中所述DNA模板包含至少一种为dNaM-dTAT1的非天然碱基对(UBP)。
实施方案A75是实施方案A69的方法,其中所述DNA模板包含至少一种为dCNMO-dTAT1的非天然碱基对(UBP)。
实施方案A76是实施方案A27-A40中任一项的方法,其中所述DNA包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360000122
Figure BDA0003498995360000123
并且
其中所述mRNA和/或所述tRNA包含至少一种选自以下的非天然碱基:
Figure BDA0003498995360000131
实施方案A77是根据实施方案A76的方法,其中所述DNA模板包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。
实施方案A78是实施方案A76的方法,其中所述DNA模板包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。
实施方案A79是实施方案A76的方法,其中所述DNA模板包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。
实施方案A80是实施方案A76的方法,其中所述DNA模板包含至少一种为dPTMO-dTPT3的非天然碱基对(UBP)。
实施方案A81是实施方案A76的方法,其中所述DNA模板包含至少一种为dNaM-dTAT1的非天然碱基对(UBP)。
实施方案A82是实施方案A76的方法,其中所述DNA模板包含至少一种为dCNMO-dTAT1的非天然碱基对(UBP)。
实施方案A83是实施方案A76-A82中任一项的方法,其中所述mRNA和所述tRNA包含选自
Figure BDA0003498995360000132
的非天然碱基。
实施方案A84是实施方案A83的方法,其中所述mRNA和所述tRNA包含选自
Figure BDA0003498995360000133
的非天然碱基。
实施方案A85是实施方案A83的方法,其中所述mRNA包含为
Figure BDA0003498995360000134
的非天然碱基。
实施方案A86是实施方案A83的方法,其中所述mRNA包含为
Figure BDA0003498995360000135
的非天然碱基。
实施方案A87是实施方案A83的方法,其中所述mRNA包含为
Figure BDA0003498995360000136
的非天然碱基。
实施方案A88是实施方案A76-A87中任一项的方法,其中所述tRNA包含选自
Figure BDA0003498995360000141
的非天然碱基。
实施方案A89是实施方案A88的方法,其中所述tRNA包含为
Figure BDA0003498995360000142
的非天然碱基。
实施方案A90是A88的方法,其中所述tRNA包含为
Figure BDA0003498995360000143
的非天然碱基。
实施方案A91是实施方案A76-A87中任一项的方法,其中所述tRNA包含为
Figure BDA0003498995360000144
的非天然碱基。
实施方案A92是实施方案A27-A40中任一项的方法,其中所述第一非天然碱基包括dCNMO,并且所述第二非天然碱基包括dTPT3。
实施方案A93是实施方案A27-40和A92中任一项的方法,其中所述第三非天然碱基包括NaM,并且所述第二非天然碱基包括TAT1。
实施方案A94是实施方案A27-A93中任一项的方法,其中所述第一非天然碱基或所述第二非天然碱基由DNA聚合酶识别。
实施方案A95是实施方案A27-A94中任一项的方法,其中所述第三非天然碱基或所述第四非天然碱基由RNA聚合酶识别。
实施方案A96是实施方案A27-A95中任一项的方法,其中转录出所述mRNA,并且所述方法还包括将所述mRNA翻译为蛋白质,其中所述蛋白质在对应于包含所述第三非天然碱基的mRNA密码子的位置处包含非天然氨基酸。
实施方案A97是实施方案A27-A96中任一项的方法,其中所述蛋白质包含至少两个非天然氨基酸。
实施方案A98是实施方案A27-A96中任一项的方法,其中所述蛋白质包含至少三个非天然氨基酸。
实施方案A99是实施方案A27-A98中任一项的方法,其中所述蛋白质包含至少两个不同的非天然氨基酸。
实施方案A100是实施方案A27-A98中任一项的方法,其中所述蛋白质包含至少三个不同的非天然氨基酸。
实施方案A101是实施方案A27-A100中任一项的方法,其中所述至少一个非天然氨基酸:
是赖氨酸类似物;
包含芳族侧链;
包含叠氮基;
包含炔基;或者
包含醛基或酮基。
实施方案A102是实施方案A27-A101中任一项的方法,其中所述至少一个非天然氨基酸不包含芳族侧链。
实施方案A103是实施方案A27-A102中任一项的方法,其中所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)、N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)、BCN-L-赖氨酸、降冰片烯赖氨酸、TCO-赖氨酸、甲基四嗪赖氨酸、烯丙氧基羰基赖氨酸、2-氨基-8-氧代壬酸、2-氨基-8-氧代辛酸、对-乙酰基-L-苯丙氨酸、对-叠氮基甲基-L-苯丙氨酸(pAMF)、对-碘-L-苯丙氨酸、间-乙酰基苯丙氨酸、2-氨基-8-氧代壬酸、对-炔丙基氧基苯丙氨酸、对-炔丙基-苯丙氨酸、3-甲基-苯丙氨酸、L-多巴、氟化苯丙氨酸、异丙基-L-苯丙氨酸、对-叠氮基-L-苯丙氨酸、对-酰基-L-苯丙氨酸、对-苯甲酰基-L-苯丙氨酸、对-溴苯丙氨酸、对-氨基-L-苯丙氨酸、异丙基-L-苯丙氨酸、O-烯丙基酪氨酸、O-甲基-L-酪氨酸、O-4-烯丙基-L-酪氨酸、4-丙基-L-酪氨酸、膦酰酪氨酸、三-O-乙酰基-GlcNAcp-丝氨酸、L-磷酸丝氨酸、膦酰丝氨酸、L-3-(2-萘基)丙氨酸、2-氨基-3-((2-((3-(苄氧基)-3-氧丙基)氨基)乙基)硒基)丙酸、2-氨基-3-(苯基硒基)丙酸或硒代半胱氨酸。
实施方案A104是实施方案A102或A103的方法,其中所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)或N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。
实施方案A105是实施方案A104的方法,其中所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)。
实施方案A106是实施方案A104的方法,其中所述至少一个非天然氨基酸包括N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。
实施方案A107是一种由实施方案A27-A106中任一项的方法产生的mRNA。
实施方案A108是一种由实施方案A27-A106中任一项的方法产生的tRNA。
实施方案A109是一种由实施方案A107所述的mRNA编码的蛋白质,所述蛋白质在对应于包含所述第三非天然碱基的mRNA密码子的位置处包含非天然氨基酸。
实施方案A110是一种半合成生物体,所述半合成生物体包含扩展的遗传字母,其中所述遗传字母包含至少三种不同的非天然碱基。
实施方案A111是实施方案A110的半合成生物体,其中所述生物体包括微生物,任选地其中所述微生物是大肠杆菌。
实施方案A112是实施方案A110或A111的半合成生物体,其中所述生物体包含含有至少一种选自以下的非天然核碱基的DNA:
Figure BDA0003498995360000151
Figure BDA0003498995360000161
实施方案A113是实施方案A110-A113中任一项的半合成生物体,其中所述DNA包含至少一种非天然碱基对(UBP),
其中所述非天然碱基对(UBP)是dCNMO-dTPT3、dNaM-dTPT3、dCNMO-dTAT1、d5FM-dTAT1或dNaM-dTAT1。
实施方案A114是实施方案A112的半合成生物体,其中所述DNA包含至少一种为
Figure BDA0003498995360000162
的非天然核碱基。
实施方案A115是实施方案A110-A115中任一项的半合成生物体,其中所述生物体表达异源核苷三磷酸转运蛋白。
实施方案A116是实施方案A115的半合成生物体,其中所述异源核苷三磷酸转运蛋白是PtNTT2。
实施方案A117是实施方案A110-A116中任一项的半合成生物体,其中所述生物体还表达异源tRNA合成酶。
实施方案A118是实施方案A117的半合成生物体,其中所述异源tRNA合成酶是巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS)。
实施方案A119是实施方案A110-A118中任一项的半合成生物体,其中所述生物体还表达异源RNA聚合酶。
实施方案A120是实施方案A119的半合成生物体,其中所述异源RNA聚合酶是T7RNAP。
实施方案A121是实施方案A110-A120中任一项的半合成生物体,其中所述生物体不表达具有DNA重组修复功能的蛋白质。
实施方案A122是实施方案A121的半合成生物体,其中所述生物体不表达RecA。
实施方案A123是实施方案A110-A122中任一项的半合成生物体,所述半合成生物体还包含异源mRNA。
实施方案A124是实施方案A123的半合成生物体,其中所述异源mRNA包含至少一种选自
Figure BDA0003498995360000163
的非天然碱基。
实施方案A125是实施方案A110-A125中任一项的半合成生物体,所述半合成生物体还包含异源tRNA。
实施方案A126是实施方案A125的半合成生物体,其中所述异源tRNA包含至少一种选自
Figure BDA0003498995360000171
的非天然碱基。
实施方案A127是一种转录DNA的方法,所述方法包括:
提供一种或多种DNA,所述一种或多种DNA包含(1)编码蛋白质的基因,其中所述编码蛋白质的基因的模板链包含第一非天然碱基以及(2)编码tRNA的基因,其中所述编码tRNA的基因的模板链包含能够与所述第一非天然碱基形成碱基对的第二非天然碱基;
转录所述编码蛋白质的基因以将第三非天然碱基掺入mRNA中,所述第三非天然碱基能够与所述第一非天然碱基形成第一非天然碱基对;
转录所述编码tRNA的基因以将第四非天然碱基掺入tRNA中,其中所述第四非天然碱基能够与所述第二非天然碱基形成第二非天然碱基对,其中所述第一非天然碱基对和所述第二非天然碱基对不相同。
实施方案A128是实施方案A127的方法,所述方法还包括利用所述tRNA从所述mRNA翻译蛋白质,其中所述蛋白质在对应于在所述mRNA中包含所述第三非天然碱基的密码子的位置处包含非天然氨基酸。
实施方案A129是一种复制DNA的方法,所述方法包括:
提供DNA,所述DNA包含(1)编码蛋白质的基因,其中所述编码蛋白质的基因的模板链包含第一非天然碱基以及(2)编码tRNA的基因,其中所述编码tRNA的基因的模板链包含能够与所述第一非天然碱基形成碱基对的第二非天然碱基;以及
复制所述DNA以掺入第一替代非天然碱基以代替所述第一非天然碱基,和/或掺入第二替代非天然碱基以代替所述第二非天然碱基;
其中所述方法任选地还包括:
转录所述编码蛋白质的基因以将第三非天然碱基掺入mRNA中,所述第三非天然碱基能够与所述第一非天然碱基和/或所述第一替代非天然碱基形成第一非天然碱基对;和/或
转录所述编码tRNA的基因以将第四非天然碱基掺入tRNA中,其中所述第四非天然碱基能够与所述第二非天然碱基和/或所述第二替代非天然碱基形成第二非天然碱基对,其中所述第一非天然碱基对和所述第二非天然碱基对不相同。
实施方案A130是实施方案A129的方法,所述方法还包括转录所述编码蛋白质的基因以将第三非天然碱基掺入mRNA中,所述第三非天然碱基能够与所述第一非天然碱基和/或所述第一替代非天然碱基形成第一非天然碱基对。
实施方案A131是实施方案A129或A130的方法,所述方法还包括转录所述编码tRNA的基因以将第四非天然碱基掺入tRNA中,其中所述第四非天然碱基能够与所述第二非天然碱基和/或所述第二替代非天然碱基形成第二非天然碱基对,其中所述第一非天然碱基对和所述第二非天然碱基对不相同。
实施方案A132是实施方案A127-A131中任一项的方法,其中所述方法包括使用半合成生物体。
实施方案A133是实施方案A132的方法,其中所述生物体包括微生物。
实施方案A134是实施方案A132或A133的方法,其中所述方法是体内方法,包括使用作为细菌的半合成生物体。
实施方案A135是实施方案A134的方法,其中所述生物体包括革兰氏阳性细菌。
实施方案A136是实施方案A134的方法,其中所述生物体包括革兰氏阴性细菌。
实施方案A137是实施方案A132-A134的方法,其中所述生物体包括大肠杆菌。
实施方案A138是实施方案A127-A137中任一项的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括
Figure BDA0003498995360000181
实施方案A139是实施方案A138的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure BDA0003498995360000182
实施方案A140是实施方案A138的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure BDA0003498995360000183
实施方案A141是实施方案A138的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括
Figure BDA0003498995360000184
实施方案A142是实施方案A138的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者是
Figure BDA0003498995360000185
实施方案A143是实施方案A138的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure BDA0003498995360000191
实施方案A144是实施方案A138的方法,其中所述第一非天然碱基或所述第二非天然碱基是
Figure BDA0003498995360000192
实施方案A145是实施方案A138的方法,其中所述第一非天然碱基或所述第二非天然碱基是
Figure BDA0003498995360000193
实施方案A146是实施方案A138的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000194
并且所述第二非天然碱基是
Figure BDA0003498995360000195
实施方案A147是实施方案A138的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000196
并且所述第二非天然碱基是
Figure BDA0003498995360000197
实施方案A148是实施方案A138、A146和A147中任一项的方法,其中所述第三非天然碱基或所述第四非天然碱基是
Figure BDA0003498995360000198
实施方案A149是实施方案A148的方法,其中所述第三非天然碱基是
Figure BDA0003498995360000199
实施方案A150是实施方案A148的方法,其中所述第四非天然碱基是
Figure BDA0003498995360000201
实施方案A151是实施方案A138、A146和A147中任一项的方法,其中所述第三非天然碱基或所述第四非天然碱基是
Figure BDA0003498995360000202
实施方案A152是实施方案A151的方法,其中所述第三非天然碱基是
Figure BDA0003498995360000203
实施方案A153是实施方案A151的方法,其中所述第四非天然碱基是
Figure BDA0003498995360000204
实施方案A154是实施方案A138中任一项的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000205
所述第二非天然碱基是
Figure BDA0003498995360000206
所述第三非天然碱基是
Figure BDA0003498995360000207
并且所述第四非天然碱基是
Figure BDA0003498995360000208
实施方案A155是实施方案A138的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000209
所述第二非天然碱基是
Figure BDA00034989953600002010
所述第三非天然碱基是
Figure BDA00034989953600002011
并且所述第四非天然碱基是
Figure BDA0003498995360000211
实施方案A是实施方案A138的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000212
所述第二非天然碱基是
Figure BDA0003498995360000213
所述第三非天然碱基是
Figure BDA0003498995360000214
并且所述第四非天然碱基是
Figure BDA0003498995360000215
实施方案A157是实施方案A138的方法,其中所述第三非天然碱基是
Figure BDA0003498995360000216
实施方案A158是实施方案A138的方法,其中所述第四非天然碱基是
Figure BDA0003498995360000217
实施方案A159是实施方案A138的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000218
所述第二非天然碱基是
Figure BDA0003498995360000219
所述第三非天然碱基是
Figure BDA00034989953600002110
Figure BDA00034989953600002111
并且所述第四非天然碱基是
Figure BDA00034989953600002112
实施方案A160是实施方案A127-A159中任一项的方法,其中所述第三非天然碱基和所述第四非天然碱基包含核糖。
实施方案A161是实施方案A127-A159中任一项的方法,其中所述第三非天然碱基和所述第四非天然碱基包含脱氧核糖。
实施方案A162是实施方案A127-A161中任一项的方法,其中所述第一非天然碱基和所述第二非天然碱基包含脱氧核糖。
实施方案A163是实施方案A127-A159中任一项的方法,其中所述第一非天然碱基和所述第二非天然碱基包含脱氧核糖,并且所述第三非天然碱基和所述第四非天然碱基包含核糖。
实施方案A164是实施方案A127-A137中任一项的方法,其中所述DNA模板包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360000221
实施方案A165是实施方案A164的方法,其中所述DNA模板包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。
实施方案A166是实施方案A164的方法,其中所述DNA模板包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。
实施方案A167是实施方案A164的方法,其中所述DNA模板包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。
实施方案A168是实施方案A164的方法,其中所述DNA模板包含至少一种为dNaM-dTAT1的非天然碱基对(UBP)。
实施方案A169是实施方案A164的方法,其中所述DNA模板包含至少一种为dCNMO-dTAT1的非天然碱基对(UBP)。
实施方案A170是实施方案A127-A137中任一项的方法,其中所述DNA模板包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360000231
Figure BDA0003498995360000232
并且
其中所述mRNA和所述tRNA包含至少一种选自以下的非天然碱基:
Figure BDA0003498995360000233
实施方案A171是根据实施方案A170的方法,其中所述DNA模板包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。
实施方案A172是实施方案A170的方法,其中所述DNA模板包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。
实施方案A173是实施方案A170的方法,其中所述DNA模板包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。
实施方案A174是实施方案A170的方法,其中所述DNA模板包含至少一种为dNaM-dTAT1的非天然碱基对(UBP)。
实施方案A175是实施方案A170的方法,其中所述DNA模板包含至少一种为dCNMO-dTAT1的非天然碱基对(UBP)。
实施方案A176是实施方案A127-A175中任一项的方法,其中所述mRNA和所述tRNA包含选自
Figure BDA0003498995360000234
的非天然碱基。
实施方案A177是实施方案A176的方法,其中所述mRNA和所述tRNA包含选自
Figure BDA0003498995360000241
的非天然碱基。
实施方案A178是实施方案A176的方法,其中所述mRNA包含为
Figure BDA0003498995360000242
的非天然碱基。
实施方案A179是实施方案A176的方法,其中所述mRNA包含为
Figure BDA0003498995360000243
的非天然碱基。
实施方案A180是实施方案A176的方法,其中所述mRNA包含为
Figure BDA0003498995360000244
的非天然碱基。
实施方案A181是实施方案A176的方法,其中所述tRNA包含选自
Figure BDA0003498995360000245
Figure BDA0003498995360000246
的非天然碱基。
实施方案A182是实施方案A176的方法,其中所述tRNA包含为
Figure BDA0003498995360000247
的非天然碱基。
实施方案A183是实施方案A176的方法,其中所述tRNA包含为
Figure BDA0003498995360000248
的非天然碱基。
实施方案A184是实施方案A176的方法,其中所述tRNA包含为
Figure BDA0003498995360000251
的非天然碱基。
实施方案A185是实施方案A127-A137中任一项的方法,其中所述第一非天然碱基包括dCNMO,并且所述第二非天然碱基包括dTPT3。
实施方案A186是实施方案A127-A137中任一项的方法,其中所述第三非天然碱基包括NaM,并且所述第二非天然碱基包括TAT1。
实施方案A187是实施方案A127-A186中任一项的方法,其中所述蛋白质包含至少两个非天然氨基酸。
实施方案A188是实施方案A127-A186中任一项的方法,其中所述蛋白质包含至少三个非天然氨基酸。
实施方案A189是实施方案A127-A186中任一项的方法,其中所述蛋白质包含至少两个不同的非天然氨基酸。
实施方案A190是实施方案A127-A186中任一项的方法,其中所述蛋白质包含至少三个不同的非天然氨基酸。
实施方案A191是实施方案A127-A190中任一项的方法,其中所述至少一个非天然氨基酸:
是赖氨酸类似物;
包含芳族侧链;
包含叠氮基;
包含炔基;或者
包含醛基或酮基。
实施方案A192是实施方案A127-A191中任一项的方法,其中所述至少一个非天然氨基酸不包含芳族侧链。
实施方案A193是实施方案A191或A192的方法,其中所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)或N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。
实施方案A194是实施方案A193的方法,其中所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)。
实施方案A195是实施方案A193的方法,其中所述至少一个非天然氨基酸包括N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。
附图说明
本发明的各个方面具体陈述于所附的权利要求中。将通过参考陈述利用本发明原理的说明性实施方案的以下具体描述和附图获得对本发明的特征和优点的更好的理解,在所述附图中:
图1A展示了使用非天然碱基对(UBP)以使用非天然X-Y碱基对将非规范氨基酸(ncAA)位点特异性掺入蛋白质中的工作流程。三种ncAA向蛋白质中的掺入仅作为示例显示;可以掺入任何数量的ncAA。
图1B描绘了非天然碱基对(UBP)。
图2描绘了dXTP类似物。为清楚起见,省略了核糖和磷酸酯。
图3A展示了在sfGFP基因中的UBP保留(%)图,以优化使用各种dXTP的情况下AzK向sfGFP中的掺入。每个条代表平均值,其中误差条指示标准误差(n=3)。空心圆圈代表每个独立试验的数据。星号指示细胞在所指示的条件下无法生长。
图3B展示了在tRNAPyl基因中的UBP保留(%)图,以优化使用各种dXTP的情况下AzK向sfGFP中的掺入。每个条代表平均值,其中误差条指示标准误差(n=3)。空心圆圈代表每个独立试验的数据。星号指示细胞在所指示的条件下无法生长。
图3C展示了在存在或不存在AzK的情况下观察到的相对sfGFP荧光(归一化为细胞生长(相对荧光单位(RFU)/OD600))图,以优化使用各种dXTP的情况下AzK向sfGFP中的掺入。每个条代表平均值,其中误差条指示标准误差(n=3)。空心圆圈代表每个独立试验的数据。星号指示细胞在所指示的条件下无法生长。
图3D展示了通过蛋白质印迹测量的相对蛋白质移位(%)图,以优化使用各种dXTP的情况下AzK向sfGFP中的掺入。每个条代表平均值,其中误差条指示标准误差(n=3)。空心圆圈代表每个独立试验的数据。星号指示细胞在所指示的条件下无法生长。
图4A描绘了核糖核苷酸XTP类似物。为清楚起见,省略了核糖和磷酸酯。
图4B描绘了核糖核苷酸YTP类似物。为清楚起见,省略了核糖和磷酸酯。
图5A展示了使用各种非天然核糖核苷酸(以将AzK掺入sfGFP中)的翻译的SAR分析图,其中y轴上为在存在AzK的情况下针对XTP类似物观察到的总sfGFP荧光(RFU)。每个条代表平均值,其中误差条指示标准误差(n=4)。空心圆圈代表每个独立试验的数据。
图5B展示了使用各种非天然核糖核苷酸(以将AzK掺入sfGFP中)的翻译的SAR分析图,其中y轴上为针对XTP类似物通过蛋白质印迹测量的蛋白质移位(%)。每个条代表平均值,其中误差条指示标准误差(n=4)。空心圆圈代表每个独立试验的数据。
图5C展示了使用各种非天然核糖核苷酸(以将AzK掺入sfGFP中)的翻译的SAR分析图,其中y轴上为在存在AzK的情况下针对YTP类似物观察到的总sfGFP荧光(RFU)。每个条代表平均值,其中误差条指示标准误差(n=4)。空心圆圈代表每个独立试验的数据。
图5D展示了使用各种非天然核糖核苷酸(以将AzK掺入sfGFP中)的翻译的SAR分析图,其中y轴上为针对YTP类似物通过蛋白质印迹测量的蛋白质移位(%)。每个条代表平均值,其中误差条指示标准误差(n=4)。空心圆圈代表每个独立试验的数据。
图6A展示了非天然核糖核苷酸三磷酸浓度关于随NaMTP和TAT1TP浓度(μM)变化的总sfGFP荧光(RFU)的优化图。误差条指示每个值的标准误差(n=3)。
图6B展示了非天然核糖核苷酸三磷酸浓度关于随5FMTP和TAT1TP(μM)浓度变化的总sfGFP荧光(RFU)的优化图。误差条指示每个值的标准误差(n=3)。
图6C展示了非天然核糖核苷酸三磷酸浓度关于随NaMTP和TAT1TP浓度(μM)变化的蛋白移位(%)的优化图。误差条指示每个值的标准误差(n=3)。
图6D展示了非天然核糖核苷酸三磷酸浓度关于随5FMTP和TAT1TP浓度(μM)变化的蛋白移位(%)的优化图。误差条指示每个值的标准误差(n=3)。
图7A是在存在AzK的情况下观察到的各种非天然碱基对、密码子位置和总sfGFP荧光(RFU)的较高密度非天然信息的存储和检索图。对于条形图,每个条代表平均值,其中误差条指示标准误差(n=4),并且开放圆圈代表每个独立试验的数据。
图7B是在存在AzK的情况下观察到的各种非天然碱基对、密码子位置和蛋白质移位(%)(通过蛋白质印迹测量)的较高密度非天然信息的存储和检索图。对于条形图,每个条代表平均值,其中误差条指示标准误差(n=4),并且开放圆圈代表每个独立试验的数据。
图7C描绘了使用dCNMOdTPT3/NaMTP,TAT1TP产生的三重标记蛋白质的定量HRMS分析的代表性谱图。峰标签示出完整蛋白质的解卷积分子量,其中示出在位置149、151和153处的氨基酸残基并在下方示出每个峰的量化(%,n=3)。
图8A示出示例性非天然氨基酸。此图改编自Young等人,“Beyond the canonical20amino acids:expanding the genetic lexicon,”J.of Biological Chemistry 285(15):11039-11044(2010)的图2。
图8B展示了示例性非天然氨基酸赖氨酸衍生物。
图8C展示了示例性非天然氨基酸苯丙氨酸衍生物。
图8D-图8G展示了示例性非天然氨基酸。这些非天然氨基酸(UAA)已基因编码在蛋白质中(图8D-UAA#1-42;图8E-UAA#43-89;图8F-UAA#90-128;图8G-UAA#129-167)。图8D-图8G取自Dumas等人,Chemical Science 2015,6,50-69的表1。
具体实施方式
特定术语
除非另外定义,否则本文中使用的所有技术术语和科学术语具有与要求保护的主题所属领域的技术人员通常所理解的相同的含义。应理解,前述一般说明和以下详细说明只是示例性和解释性的,并且不限制要求保护的任何主题。在通过引用并入本文的任何材料与本公开文本的明确内容不一致的情况下,以明确内容为准。在本申请中,除非另外明确陈述,否则单数的使用包括复数含义。必须指出,如在说明书和所附权利要求中所用,除非上下文另外清楚地规定,否则单数形式“一个/一种(a、an)”和“所述(the)”包括复数指示物。在本申请中,除非另外陈述,否则“或”的使用意指“和/或”。此外,术语“包括(including)”以及其他形式如“包括(include)”、“包括(includes)”和“包括(included)”的使用是非限制性的。
如本文所用,范围和数量可以表示为“约”特定值或范围。约也包括确切的量。因此,“约5μL”是指“约5μL”并且还构成“5μL”的描述。通常,术语“约”包括可预期在实验误差内的量。
如本文所用,在合成方法的上下文中,诸如“在适合提供……的条件下”或“在足以产生……的条件下”等短语是指在实验者的普通技术范围内可以改变的反应条件,如时间、温度、溶剂、反应物浓度等,以提供有用的量或产率的反应产物。所需的反应产物不一定是唯一的反应产物或起始材料不一定完全消耗,只要所需的反应产物可以被分离或以其他方式进一步使用即可。
“化学上可行的”是指不违反一般理解的有机结构规则的键合排列或化合物;例如,在某些情况下将含有自然界中不存在的五价碳原子的在权利要求定义内的结构应理解为不在权利要求范围内。本文公开的结构,在其所有实施方案中,旨在仅包括“化学上可行的”结构,并且任何在化学上不可行的所列举结构,例如显示为具有可变原子或基团的结构,不旨在于本文中公开或要求保护。
如本文所用的术语化学结构的“类似物”是指与母体结构保持基本相似性但它可能不容易从母体结构合成得到的化学结构。在一些实施方案中,核苷酸类似物是非天然核苷酸。在一些实施方案中,核苷类似物是非天然核苷。容易从母体化学结构合成得到的相关化学结构称为“衍生物”。
如本文所用,“碱基”或“核碱基”是指核苷或核苷酸(核苷和核苷酸涵盖核糖或脱氧核糖变体)的至少核碱基部分,所述核苷或核苷酸在一些情形中可以含有对核苷或核苷酸的糖部分的进一步修饰。在一些情形中,“碱基”也用于代表整个核苷或核苷酸(例如,“碱基”可以通过DNA聚合酶掺入DNA中,或通过RNA聚合酶掺入RNA中)。然而,除非上下文要求,否则术语“碱基”不应解释为必然代表整个核苷或核苷酸。在本文提供的碱基或核碱基化学结构中,仅示出核苷或核苷酸的碱基,为清楚起见省略了糖部分和任选的任何磷酸酯残基。如本文提供的碱基或核碱基化学结构中使用的,波浪线代表与核苷或核苷酸的连接,其中核苷或核苷酸的糖部分可以被进一步修饰。在一些实施方案中,波浪线代表碱基或核碱基与核苷或核苷酸的糖部分(如戊糖)的附接。在一些实施方案中,戊糖是核糖或脱氧核糖。
在一些实施方案中,核碱基通常是核苷的杂环碱基部分。核碱基可以是天然存在的,可以是修饰的,可以与天然碱基没有相似性,和/或可以是合成的,例如通过有机合成而合成。在某些实施方案中,核碱基包含核苷或核苷酸中的任何原子或原子组,其中所述原子或原子组能够在使用或不使用氢键的情况下与另一核酸的碱基相互作用。在某些实施方案中,非天然核碱基不是源自天然核碱基。应注意的是,非天然核碱基不一定具有碱基特性,但是为了简单起见,它们称为核碱基。在一些实施方案中,当提及核碱基时,“(d)”指示核碱基可以附接至脱氧核糖或核糖,而没有括号的“d”指示核碱基附接至脱氧核糖。
在一些实施方案中,核苷是包含核碱基部分和糖部分的化合物。核苷包括但不限于天然存在的核苷(如在DNA和RNA中发现的)、脱碱基核苷、修饰的核苷和具有模拟碱基和/或糖基团的核苷。核苷包括包含任何种类的取代基的核苷。核苷可以是通过核酸碱基与糖的还原基团之间的糖苷连接形成的糖苷化合物。
如本文所用,“核苷酸”是指包含核苷部分和磷酸酯部分的化合物。示例性天然核苷酸包括而不限于腺苷三磷酸(ATP)、尿苷三磷酸(UTP)、胞苷三磷酸(CTP)、鸟苷三磷酸(GTP)、腺苷二磷酸(ADP)、尿苷二磷酸(UDP)、胞苷二磷酸(CDP)、鸟苷二磷酸(GDP)、腺苷一磷酸(AMP)、尿苷一磷酸(UMP)、胞苷一磷酸(CMP)和鸟苷一磷酸(GMP)、脱氧腺苷三磷酸(dATP)、脱氧胸苷三磷酸(dTTP)、脱氧胞苷三磷酸(dCTP)、脱氧鸟苷三磷酸(dGTP)、脱氧腺苷二磷酸(dADP)、胸苷二磷酸(dTDP)、脱氧胞苷二磷酸(dCDP)、脱氧鸟苷二磷酸(dGDP)、脱氧腺苷一磷酸(dAMP)、脱氧胸苷一磷酸(dTMP)、脱氧胞苷一磷酸(dCMP)和脱氧鸟苷一磷酸(dGMP)。包含脱氧核糖作为糖部分的示例性天然脱氧核糖核苷酸包括dATP、dTTP、dCTP、dGTP、dADP、dTDP、dCDP、dGDP、dAMP、dTMP、dCMP和dGMP。包含核糖作为糖部分的示例性天然核糖核苷酸包括ATP、UTP、CTP、GTP、ADP、UDP、CDP、GDP、AMP、UMP、CMP和GMP。
如本文所用,多核苷酸是指DNA、RNA、DNA样或RNA样聚合物(如肽核酸(PNA)、锁核酸(LNA)、硫代磷酸酯等),其例子是本领域熟知的,并且可含有非天然碱基。多核苷酸可以在自动合成仪中合成,例如,使用亚磷酰胺化学或适于合成仪使用的其他化学途径。
DNA包括但不限于互补DNA(cDNA)和基因组DNA(gDNA)。DNA可以通过共价或非共价方式附接至另一个分子(包括但不限于RNA和肽)。RNA包括编码RNA,例如信使RNA(mRNA)。RNA还包括非编码RNA,例如核糖体RNA(rRNA)。RNA还包括转移RNA(tRNA)、RNA干扰(RNAi)、小核仁RNA(snoRNA)、微小RNA(miRNA)、小干扰RNA(siRNA)(也称为短干扰RNA)、小核RNA(snRNA)、细胞外RNA(exRNA)、PIWI相互作用RNA(piRNA)和长非编码RNA(长ncRNA)。在一些实施方案中,RNA是rRNA、tRNA、RNAi、snoRNA、微小RNA、siRNA、snRNA、exRNA、piRNA、长ncRNA或其任何组合或杂合体。在一些情况下,RNA是核酶的组分。DNA和RNA可以是任何形式,包括但不限于线性、环状、超螺旋、单链和双链。
肽核酸(PNA)是合成的DNA/RNA类似物,其中肽样骨架替代了DNA或RNA的糖-磷酸酯骨架。PNA寡聚体在结合互补DNA时显示出更高的结合强度和更高的特异性,其中PNA/DNA碱基错配与DNA/DNA双链体中的相似错配相比导致更不稳定化。这种结合强度和特异性也适用于PNA/RNA双链体。PNA不容易被核酸酶或蛋白酶识别,使得它们对酶降解具有抗性。PNA在宽pH范围内也是稳定的。还参见Nielsen PE,Egholm M,Berg RH,Buchardt O(1991年12月).“Sequence-selective recognition of DNA by strand displacement with athymine-substituted polyamide”,Science 254(5037):1497-500.doi:10.1126/science.1962210.PMID 1962210;以及Egholm M,Buchardt O,Christensen L,Behrens C,Freier SM,Driver DA,Berg RH,Kim SK,Nordén B,和Nielsen PE(1993),“PNAHybridizes to Complementary Oligonucleotides Obeying the Watson-CrickHydrogen Bonding Rules”.Nature 365(6446):566-8.doi:10.1038/365566a0.PMID7692304;将这些文献的每一个的披露内容通过引用以其整体特此并入。
锁核酸(LNA)是修饰的RNA核苷酸,其中LNA核苷酸的核糖部分用连接2'氧和4'碳的额外桥进行修饰。所述桥将核糖“锁定”在3'-内(北)构象中,这通常在A型双链体中发现。只要需要,LNA核苷酸可以与寡核苷酸中的DNA或RNA残基混合。此类寡聚物可以化学合成并且是可商购的。锁核糖构象增强了碱基堆积和骨架预组织。参见例如Kaur,H;Arora,A;Wengel,J;Maiti,S(2006),“Thermodynamic,Counterion,and Hydration Effects forthe Incorporation of Locked Nucleic Acid Nucleotides into DNA Duplexes”,Biochemistry 45(23):7347-55.doi:10.1021/bi060307w.PMID 16752924;Owczarzy R.;You Y.,Groth C.L.,Tataurov A.V.(2011),“Stability and mismatch discriminationof locked nucleic acid-DNA duplexes.”,Biochem.50(43):9352-9367.doi:10.1021/bi200904e.PMC 3201676.PMID 21928795;Alexei A.Koshkin;Sanjay K.Singh,PoulNielsen,Vivek K.Rajwanshi,Ravindra Kumar,Michael Meldgaard,Carl Erik Olsen,Jesper Wengel(1998),“LNA(Locked Nucleic Acids):Synthesis of the adenine,cytosine,guanine,5-methylcytosine,thymine and uracil bicyclonucleosidemonomers,oligomerisation,and unprecedented nucleic acid recognition”,Tetrahedron 54(14):3607-30.doi:10.1016/S0040-4020(98)00094-5;以及SatoshiObika;Daishu Nanbu,Yoshiyuki Hari,Ken-ichiro Morio,Yasuko In,ToshimasaIshida,Takeshi Imanishi(1997),“Synthesis of2′-O,4′-C-methyleneuridine and-cytidine.Novel bicyclic nucleosides having a fixed C3'-endo sugar puckering”,Tetrahedron Lett.38(50):8735-8.doi:10.1016/S0040-4039(97)10322-7;将这些文献的每一个的披露内容通过引用以其整体特此并入。
如本文所用,术语“基因”是指编码基因产物如RNA或蛋白质的合成的多核苷酸。
分子信标或分子信标探针是寡核苷酸杂交探针,可以检测同质溶液中特定核酸序列的存在。分子信标是具有内部淬灭的荧光团的发夹形分子,当它们与靶核酸序列结合时所述荧光团的荧光会恢复。参见例如Tyagi S,Kramer FR(1996),“Molecular beacons:probes that fluoresce upon hybridization”,Nat Biotechnol.14(3):303-8.PMID9630890;
Figure BDA0003498995360000291
I,Malmberg L,Rennel E,Wik M,
Figure BDA0003498995360000292
AC(2000年4月),“Homogeneousscoring of single-nucleotide polymorphisms:comparison of the 5'-nucleaseTaqMan assay and Molecular Beacon probes”,Biotechniques 28(4):732-8.PMID10769752;以及Akimitsu Okamoto(2011),“ECHO probes:a concept of fluorescencecontrol for practical nucleic acid sensing”,Chem.Soc.Rev.40:5815-5828;将这些文献的每一个的披露内容通过引用以其整体特此并入。
如本文所用,术语“非天然碱基”是指除A、C、G、T、U和其他天然存在的碱基(例如,5-甲基胞嘧啶、假尿苷和肌苷)之外的碱基。
如本文所用,术语“非天然碱基对”是指彼此键合并位于双链多核苷酸(其可以是例如至少部分自杂交的分子或部分或完全杂交的分子对)的相对链上的两个碱基,其中这两个碱基中的至少一个是非天然碱基。
如本文所用,“半合成生物体”是包含非天然组分的生物体,所述非天然组分例如包括一个或多个非天然碱基的扩展遗传字母。
本文使用的章节标题仅用于组织目的,而不应解释为限制所描述的主题。
包含非天然碱基对的方法和组合物
本文在某些实施方案中公开了用于产生具有扩展的遗传字母的核酸的体外和体内方法和组合物(图1)。在一些情况下,所述核酸编码非天然蛋白质,其中所述非天然蛋白质包含非天然氨基酸。在一些情形中,本文所述的体内方法或组合物使用或包含半合成生物体。在一些情况下,所述方法包括将至少一种非天然碱基对(UBP)掺入一种或多种核酸中。此类碱基对是通过两个核苷的核碱基之间的配对形成的。在示例性工作流程中,编码蛋白质102和tRNA 103的DNA 101被转录104以产生tRNA 106和mRNA107,所述蛋白质和tRNA的模板链编码区包含互补的、能够形成碱基对和/或被配置为形成碱基对的非天然核碱基(X、Y)。在tRNA装载非天然氨基酸105后,mRNA 107被翻译108以产生包含一个或多个非天然氨基酸109的蛋白质110。在一些情况下,本文所述的方法和组合物允许以高保真度和产率对非天然氨基酸进行位点特异性掺入。本文还描述了包含扩展的遗传字母的半合成生物体,以及使用半合成生物体产生蛋白质产物的方法,所述蛋白质产物包括包含至少一个非天然氨基酸残基的那些。
非天然核碱基的选择允许优化本文所述方法中的一个或多个步骤。例如,为高效复制、转录和/或翻译选择核碱基。在一些情况下,多于一种非天然核碱基对用于本文所述的方法中。例如,包含脱氧核糖部分的第一组核碱基用于DNA复制(如第一核碱基和第二核碱基,被配置为形成第一碱基对),而第二组核碱基(如第三核碱基和第四核碱基,其中所述第三核碱基和所述第四核碱基附接至核糖,被配置为形成第二碱基对)用于转录/翻译。在一些实施方案中,第一组核碱基用于构建质粒(如第一核碱基和第二核碱基,被配置为形成第一碱基对),第二组核碱基用于复制(如第三核碱基和第四核碱基,被配置为形成第二碱基对),而第三组碱基用于转录/翻译(如第五核碱基和第六核碱基,被配置为形成第三碱基对)。在一些情况下,第一组中的核碱基与第二组中的核碱基之间的互补配对允许基因转录以从包含来自第一组的核碱基的DNA模板产生tRNA或蛋白质。在一些情况下,第二组的核碱基之间的互补配对(第二碱基对)允许通过使包含非天然核酸的tRNA与mRNA匹配进行翻译。在一些情形中,第一组中的核碱基附接至脱氧核糖部分。在一些情形中,第一组中的核碱基附接至核糖部分。在一些情况下,两组的核碱基均是独特的。在一些情况下,至少一个核碱基在两组中是相同的。在一些情况下,第一核碱基和第三核碱基是相同的。在一些实施方案中,第一碱基对和第二碱基对不相同。在一些情形中,第一碱基对、第二碱基对和第三碱基对不相同。
在一方面,本文提供了一种体内产生包含非天然氨基酸的蛋白质的方法,所述方法包括:
转录包含第一非天然碱基和第二非天然碱基的DNA模板以将第三非天然碱基掺入mRNA中,所述第二非天然碱基与所述第一非天然碱基互补、能够与所述第一非天然碱基形成碱基对和/或被配置为与所述第一非天然碱基形成碱基对,所述第三非天然碱基与所述第一非天然碱基互补、能够与所述第一非天然碱基形成碱基对和/或被配置为与所述第一非天然碱基形成第一非天然碱基对;
转录所述DNA模板以将第四非天然碱基掺入tRNA中,其中所述第四非天然碱基与所述第二非天然碱基互补、能够与所述第二非天然碱基形成碱基对和/或被配置为与所述第二非天然碱基形成第二非天然碱基对,其中所述第一非天然碱基对和所述第二非天然碱基对不相同;以及
从所述mRNA和所述tRNA翻译蛋白质,其中所述蛋白质包含非天然氨基酸。
核酸分子
在一些实施方案中,核酸(例如,在本文中也称为目的核酸分子)来自任何来源或组合物,例如DNA、cDNA、gDNA(基因组DNA)、RNA、siRNA(短抑制RNA)、RNAi、tRNA、mRNA或rRNA(核糖体RNA),并且呈任何形式(例如,线性、环状、超螺旋、单链、双链等)。在一些实施方案中,核酸包含核苷酸、核苷或多核苷酸。在一些情形中,核酸包含天然核酸和非天然核酸。在一些情形中,核酸还包含非天然核酸,如DNA或RNA类似物(例如,含有碱基类似物、糖类似物和/或非天然骨架等)。应理解,术语“核酸”并非是指或意指特定长度的多核苷酸链,因此多核苷酸和寡核苷酸也包括在定义内。示例性天然核苷酸包括而不限于ATP、UTP、CTP、GTP、ADP、UDP、CDP、GDP、AMP、UMP、CMP、GMP、dATP、dTTP、dCTP、dGTP、dADP、dTDP、dCDP、dGDP、dAMP、dTMP、dCMP和dGMP。示例性天然脱氧核糖核苷酸包括dATP、dTTP、dCTP、dGTP、dADP、dTDP、dCDP、dGDP、dAMP、dTMP、dCMP和dGMP。示例性天然核糖核苷酸包括ATP、UTP、CTP、GTP、ADP、UDP、CDP、GDP、AMP、UMP、CMP和GMP。对于天然RNA,含有尿嘧啶的核苷是尿苷。核酸有时是载体、质粒、噬菌粒、自主复制序列(ARS)、着丝粒、人工染色体、酵母人工染色体(例如,YAC)或能够在宿主细胞中复制或被复制的其他核酸。在一些情形中,非天然核酸是核酸类似物。在另外的情形中,非天然核酸来自细胞外来源。在其他情形中,非天然核酸可用于本文所提供的生物体(例如遗传修饰的生物体)的细胞内空间。在一些实施方案中,非天然核苷酸不是天然核苷酸。在一些实施方案中,不包含天然碱基的核苷酸包含非天然核碱基。
非天然核酸
核苷酸类似物或非天然核苷酸包括含有对碱基、糖或磷酸酯部分的某一类型修饰的核苷酸。术语“修饰”(以及相关的语法形式,如“修饰的”)不一定暗示核苷酸类似物或非天然核苷酸是通过直接改变天然核苷酸来制备的,而是核苷酸类似物或非天然核苷酸不同于天然核苷酸。在一些实施方案中,修饰包括化学修饰。在一些情形中,修饰发生在3’OH或5’OH基团处、在骨架处、在糖组分处或在核苷酸碱基处。在一些情况下,修饰任选地包括非天然存在的接头分子和/或链间或链内交联。在一方面,修饰的核酸包括以下中的一种或多种的修饰:3’OH或5’OH基团、骨架、糖组分或核苷酸碱基,和/或非天然存在的接头分子的添加。在一方面,修饰的骨架包括除了磷酸二酯骨架以外的骨架。在一方面,修饰的糖包括除了脱氧核糖以外(在修饰的DNA中)或除了核糖以外(修饰的RNA)的糖。在一方面,修饰的碱基包括除了腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶以外的碱基(在修饰的DNA中)或除了腺嘌呤、鸟嘌呤、胞嘧啶或尿嘧啶以外的碱基(在修饰的RNA中)。在一些实施方案中,非天然核苷酸包含非天然碱基。在一些实施方案中,非天然碱基是具有除嘌呤或嘧啶(其中嘌呤和嘧啶涵盖具有环外取代基的嘌呤和嘧啶)以外的环或环系的碱基,或包含含有一种或多种非氮杂原子和/或不含氮的环或环系。
在一些实施方案中,核酸包含至少一种修饰的碱基。在一些情况下,核酸包含2、3、4、5、6、7、8、9、10、15、20或更多种修饰的碱基。在一些情形中,对碱基部分的修饰包括对腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)/尿嘧啶(U)以及不同的嘌呤或嘧啶碱基的天然和合成修饰。在一些实施方案中,修饰是针对腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶的修饰形式(在修饰的DNA中)或腺嘌呤、鸟嘌呤、胞嘧啶或尿嘧啶的修饰形式(修饰的RNA)。
非天然核酸的修饰的碱基包括但不限于尿嘧啶-5-基,次黄嘌呤-9-基(I),2-氨基腺嘌呤-9-基,5-甲基胞嘧啶(5-me-C),5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,2-氨基腺嘌呤,腺嘌呤和鸟嘌呤的6-甲基和其他烷基衍生物,腺嘌呤和鸟嘌呤的2-丙基和其他烷基衍生物,2-硫尿嘧啶,2-硫代胸腺嘧啶和2-硫代胞嘧啶,5-卤代尿嘧啶和胞嘧啶,5-丙炔基尿嘧啶和胞嘧啶,6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶,5-尿嘧啶(假尿嘧啶),4-硫尿嘧啶,8-卤代、8-氨基、8-硫醇、8-硫代烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤,5-卤代(特别是5-溴)、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶,7-甲基鸟嘌呤和7-甲基腺嘌呤,8-氮杂鸟嘌呤和8-氮杂腺嘌呤,7-脱氮鸟嘌呤和7-脱氮腺嘌呤以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。某些非天然核酸,如5-取代的嘧啶,6-氮杂嘧啶和N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,2-氨基丙基腺嘌呤,5-丙炔基尿嘧啶,5-丙炔基胞嘧啶,5-甲基胞嘧啶,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,5-取代的嘧啶,6-氮杂嘧啶以及N-2、N-6和O-6取代的嘌呤,包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶(5-me-C),5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,2-氨基腺嘌呤,腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物,腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物,2-硫尿嘧啶,2-硫胸腺嘧啶和2-硫胞嘧啶,5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基(-C≡C-CH3)尿嘧啶,5-丙炔基胞嘧啶,嘧啶核酸的其他炔基衍生物,6-偶氮基尿嘧啶,6-偶氮基胞嘧啶,6-偶氮基胸腺嘧啶,5-尿嘧啶(假尿嘧啶),4-硫尿嘧啶,8-卤代、8-氨基、8-巯基、8-硫烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤,5-卤代(特别是5-溴)、5-三氟甲基、其他5-取代的尿嘧啶和胞嘧啶,7-甲基鸟嘌呤,7-甲基腺嘌呤,2-F-腺嘌呤,2-氨基-腺嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,7-脱氮鸟嘌呤,7-脱氮嘌呤,3-脱氮鸟嘌呤,3-脱氮嘌呤,三环嘧啶,吩噁嗪胞苷([5,4-b][l,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][l,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][l,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3’,2’:4,5]吡咯并[2,3-d]嘧啶-2-酮),其中嘌呤或嘧啶碱基被其他杂环替代的那些,7-脱氮-腺嘌呤,7-脱氮鸟嘌呤,2-氨基吡啶,2-吡啶酮,氮杂胞嘧啶,5-溴胞嘧啶,溴尿嘧啶,5-氯胞嘧啶,氯代胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,2-氨基-腺嘌呤,6-硫代-鸟嘌呤,2-硫代-胸腺嘧啶,4-硫代-胸腺嘧啶,5-丙炔基-尿嘧啶,4-硫代-尿嘧啶,N4-乙基胞嘧啶,7-脱氮鸟嘌呤,7-脱氮-8-氮杂鸟嘌呤,5-羟基胞嘧啶,2’-脱氧尿苷,2-氨基-2’-脱氧腺苷,以及描述于美国专利号3,687,808;4,845,205;4,910,300;4,948,882;5,093,232;5,130,302;5,134,066;5,175,273;5,367,066;5,432,272;5,457,187;5,459,255;5,484,908;5,502,177;5,525,711;5,552,540;5,587,469;5,594,121;5,596,091;5,614,617;5,645,985;5,681,941;5,750,692;5,763,588;5,830,653和6,005,096;WO 99/62923;Kandimalla等人,(2001)Bioorg.Med.Chem.9:807-813;The Concise Encyclopedia of PolymerScience and Engineering,Kroschwitz,J.I.,编辑,John Wiley&Sons,1990,858-859;Englisch等人,Angewandte Chemie,International Edition,1991,30,613;和Sanghvi,第15章,Antisense Research and Applications,Crooke和Lebleu编,CRC Press,1993,273-288中的那些。另外的碱基修饰可发现于例如美国专利号3,687,808;Englisch等人,Angewandte Chemie,国际版本,1991,30,613中。在一些情况下,非天然核酸包含图2的核碱基。在一些情况下,非天然核酸包含图4A的核碱基。在一些情况下,非天然核酸包含图4B的核碱基。
包含各种杂环碱基和各种糖部分(和糖类似物)的非天然核酸是本领域中可获得的,并且在一些情形中,核酸包括除了天然存在的核酸的五种主要碱基组分以外的一种或若干种杂环碱基。例如,在一些情形中,杂环碱基包括尿嘧啶-5-基、胞嘧啶-5-基、腺嘌呤-7-基、腺嘌呤-8-基、鸟嘌呤-7-基、鸟嘌呤-8-基、4-氨基吡咯并[2.3-d]嘧啶-5-基、2-氨基-4-氧代吡咯并[2,3-d]嘧啶5-基、2-氨基-4-氧代吡咯并[2.3-d]嘧啶-3-基,其中嘌呤经由9-位置、嘧啶经由1-位置、吡咯并嘧啶经由7-位置且吡唑并嘧啶经由1-位置附接至核酸的糖部分。
在一些实施方案中,非天然核酸的修饰的碱基描绘于下文中,其中波浪线标识与核苷或核苷酸的糖(例如,脱氧核糖或核糖)的附接点。
Figure BDA0003498995360000331
Figure BDA0003498995360000341
Figure BDA0003498995360000351
在一些实施方案中,所述非天然碱基(如本文所述的产生包含非天然氨基酸的蛋白质的方法的第一非天然碱基、第二非天然碱基、第三非天然碱基或第四非天然碱基中的至少一者)选自:
Figure BDA0003498995360000361
Figure BDA0003498995360000362
在一些实施方案中,所述非天然碱基选自:
Figure BDA0003498995360000363
在一些实施方案中,所述非天然碱基选自:
Figure BDA0003498995360000364
在一些实施方案中,所述非天然碱基选自
Figure BDA0003498995360000365
在一些实施方案中,所述非天然碱基是
Figure BDA0003498995360000366
在一些实施方案中,所述非天然碱基选自:
Figure BDA0003498995360000367
在一些实施方案中,所述非天然碱基(如本文所述的产生包含非天然氨基酸的蛋白质的方法的第一非天然碱基或第二非天然碱基)是
Figure BDA0003498995360000371
在一些实施方案中,所述非天然碱基(如本文所述的产生包含非天然氨基酸的蛋白质的方法的第一非天然碱基或第二非天然碱基)是
Figure BDA0003498995360000372
在一些实施方案中,所述第一非天然碱基是
Figure BDA0003498995360000373
并且所述第二非天然碱基是
Figure BDA0003498995360000374
在一些实施方案中,所述非天然碱基(如本文所述的产生包含非天然氨基酸的蛋白质的方法的第三非天然碱基或第四非天然碱基)是
Figure BDA0003498995360000375
在一些实施方案中,所述第三非天然碱基是
Figure BDA0003498995360000376
在一些实施方案中,所述第四非天然碱基是
Figure BDA0003498995360000377
在一些实施方案中,所述非天然碱基(如本文所述的产生包含非天然氨基酸的蛋白质的方法的第三非天然碱基或第四非天然碱基)是
Figure BDA0003498995360000378
在一些实施方案中,所述第三非天然碱基是
Figure BDA0003498995360000379
在一些实施方案中,所述第四非天然碱基是
Figure BDA00034989953600003710
在一些实施方案中,所述第一非天然碱基是
Figure BDA0003498995360000381
所述第二非天然碱基是
Figure BDA0003498995360000382
所述第三非天然碱基是
Figure BDA0003498995360000383
并且所述第四非天然碱基是
Figure BDA0003498995360000384
Figure BDA0003498995360000385
在一些实施方案中,所述第一非天然碱基是
Figure BDA0003498995360000386
所述第二非天然碱基是
Figure BDA0003498995360000387
所述第三非天然碱基是
Figure BDA0003498995360000388
并且所述第四非天然碱基是
Figure BDA0003498995360000389
在一些实施方案中,所述第一非天然碱基是
Figure BDA00034989953600003810
所述第二非天然碱基是
Figure BDA00034989953600003811
所述第三非天然碱基是
Figure BDA00034989953600003812
并且所述第四非天然碱基是
Figure BDA00034989953600003813
在一些实施方案中,所述第三非天然碱基是
Figure BDA00034989953600003814
在一些实施方案中,所述第四非天然碱基是
Figure BDA00034989953600003815
在一些实施方案中,所述第一非天然碱基是
Figure BDA00034989953600003816
所述第二非天然碱基是
Figure BDA00034989953600003817
所述第三非天然碱基是
Figure BDA0003498995360000391
并且所述第四非天然碱基是
Figure BDA0003498995360000392
在一些实施方案中,所述第三非天然碱基和所述第四非天然碱基包含核糖。在一些实施方案中,所述第三非天然碱基和所述第四非天然碱基包含脱氧核糖。在一些实施方案中,所述第一非天然碱基和所述第二非天然碱基包含脱氧核糖。在一些实施方案中,所述第一非天然碱基和所述第二非天然碱基包含脱氧核糖,并且所述第三非天然碱基和所述第四非天然碱基包含核糖。
在本文所述的产生包含非天然氨基酸的蛋白质的方法的一些实施方案中,所述DNA包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360000393
其中每个糖部分独立地是本文所述的任何实施方案或变型。在一些实施方案中,碱基对中两个碱基的糖部分均包含核糖。在一些实施方案中,碱基对中两个碱基的糖部分均包含脱氧核糖。在一些实施方案中,碱基对中一个碱基的糖部分包含核糖,并且碱基对中另一个碱基的糖部分包含脱氧核糖。在一些实施方案中,所述DNA模板包含至少一种为NaM-5SICS的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为CNMO-TPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为NaM-TPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为NaM-TAT1的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为CNMO-TAT1的非天然碱基对(UBP)。
在本文所述的产生包含非天然氨基酸的蛋白质的方法的一些实施方案中,所述DNA包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360000401
Figure BDA0003498995360000402
在一些实施方案中,所述DNA包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dNaM-dTAT1的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dCNMO-dTAT1的非天然碱基对(UBP)。
在本文所述的产生包含非天然氨基酸的蛋白质的方法的一些实施方案中,所述DNA包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360000403
其中每个糖部分独立地是本文所述的任何实施方案或变型;并且其中所述mRNA和所述tRNA包含至少一种选自以下的非天然碱基:
Figure BDA0003498995360000411
在一些实施方案中,碱基对中两个碱基的糖部分均包含核糖。在一些实施方案中,碱基对中两个碱基的糖部分均包含脱氧核糖。在一些实施方案中,碱基对中一个碱基的糖部分包含核糖,并且碱基对中另一个碱基的糖部分包含脱氧核糖。在一些实施方案中,所述DNA包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dNaM-dTAT1的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dCNMO-dTAT1的非天然碱基对(UBP)。
在本文所述的产生包含非天然氨基酸的蛋白质的方法的一些实施方案中,所述DNA包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360000412
Figure BDA0003498995360000413
并且其中所述mRNA和所述tRNA包含至少一种选自以下的非天然碱基:
Figure BDA0003498995360000414
在一些实施方案中,所述DNA包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dNaM-dTAT1的非天然碱基对(UBP)。在一些实施方案中,所述DNA包含至少一种为dCNMO-dTAT1的非天然碱基对(UBP)。
在一些实施方案中,所述mRNA和所述tRNA包含选自
Figure BDA0003498995360000421
Figure BDA0003498995360000422
的非天然碱基。在一些实施方案中,所述mRNA和所述tRNA包含选自
Figure BDA0003498995360000423
的非天然碱基。在一些实施方案中,所述mRNA包含为
Figure BDA0003498995360000424
的非天然碱基。在一些实施方案中,所述mRNA包含为
Figure BDA0003498995360000425
的非天然碱基。在一些实施方案中,所述mRNA包含为
Figure BDA0003498995360000426
的非天然碱基。在一些实施方案中,所述tRNA包含选自
Figure BDA0003498995360000427
的非天然碱基。在一些实施方案中,所述tRNA包含为
Figure BDA0003498995360000428
的非天然碱基。在一些实施方案中,所述tRNA包含为
Figure BDA0003498995360000429
的非天然碱基。在一些实施方案中,所述tRNA包含为
Figure BDA00034989953600004210
的非天然碱基。
在本文所述的产生包含非天然氨基酸的蛋白质的方法的一些实施方案中,所述第一非天然碱基包括dCNMO,并且所述第二非天然碱基包括dTPT3。在一些实施方案中,所述第三非天然碱基包括NaM,并且所述第二非天然碱基包括TAT1。
本文还提供了包含至少一种非天然氨基酸的蛋白质,其中所述蛋白质是根据本文公开的任何方法产生的。在一些实施方案中,所述蛋白质包含至少一种非天然氨基酸。在一些实施方案中,所述蛋白质包含一种非天然氨基酸。在一些实施方案中,所述蛋白质包含两种或更多种非天然氨基酸。在一些实施方案中,所述蛋白质包含两种非天然氨基酸。在一些实施方案中,所述蛋白质包含三种或更多种非天然氨基酸。
在一些实施方案中,核苷酸类似物还在磷酸酯部分被修饰。经修饰的磷酸酯部分包括但不限于在两个核苷酸之间的连接处被修饰的那些,并且含有例如,硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基和其他烷基膦酸酯(包括3’-亚烷基膦酸酯)和手性膦酸酯、次膦酸酯、氨基磷酸酯(包括3’-氨基氨基磷酸酯和氨基烷基氨基磷酸酯、硫羰氨基磷酸酯)、硫羰烷基膦酸酯、硫羰烷基磷酸三酯和硼烷磷酸酯。应理解,两个核苷酸之间的这些磷酸酯或经修饰的磷酸酯连接是通过3’-5’连接或2’-5’连接,并且所述连接含有相反的极性,如3’-5’至5’-3’或2’-5’至5’-2’。还包括各种盐、混合盐和游离酸形式。许多美国专利传授了如何制备和使用含有修饰的磷酸酯的核苷酸,并且所述美国专利包括但不限于3,687,808;4,469,863;4,476,301;5,023,243;5,177,196;5,188,897;5,264,423;5,276,019;5,278,302;5,286,717;5,321,131;5,399,676;5,405,939;5,453,496;5,455,233;5,466,677;5,476,925;5,519,126;5,536,821;5,541,306;5,550,111;5,563,253;5,571,799;5,587,361;和5,625,050;将这些文献的每一个的披露内容通过引用以其整体特此并入。
在一些实施方案中,非天然核酸包括2’,3’-二脱氧-2’,3’-二脱氢-核苷(PCT/US2002/006460)、5’-取代的DNA和RNA衍生物(PCT/US2011/033961;Saha等人,J.OrgChem.,1995,60,788-789;Wang等人,Bioorganic&Medicinal Chemistry Letters,1999,9,885-890;和Mikhailov等人,Nucleosides&Nucleotides,1991,10(1-3),339-343;Leonid等人,1995,14(3-5),901-905;和Eppacher等人,Helvetica Chimica Acta,2004,87,3004-3020;PCT/JP2000/004720;PCT/JP2003/002342;PCT/JP2004/013216;PCT/JP2005/020435;PCT/JP2006/315479;PCT/JP2006/324484;PCT/JP2009/056718;PCT/JP2010/067560)、或制备为具有修饰的碱基的单磷酸酯的5’-取代的单体(Wang等人,Nucleosides Nucleotides&Nucleic Acids,2004,23(1&2),317-337);将这些文献的每一个的披露内容通过引用以其整体特此并入。
在一些实施方案中,非天然核酸包括在糖环的5’-位置和2’-位置处的修饰(PCT/US94/02993),如5’-CH2-取代的2’-O-保护的核苷(Wu等人,Helvetica Chimica Acta,2000,83,1127-1143和Wu等人,Bioconjugate Chem.1999,10,921-924)。在一些情形中,非天然核酸包括已被制备用于掺入寡核苷酸中的酰胺连接的核苷二聚体,其中所述二聚体中的3’连接的核苷(5’至3’)包含2’-OCH3和5’-(S)-CH3(Mesmaeker等人,Synlett,1997,1287-1290)。非天然核酸可以包括2’-取代的5’-CH2(或O)修饰的核苷(PCT/US92/01020)。非天然核酸可以包括5’-亚甲基膦酸酯DNA和RNA单体、和二聚体(Bohringer等人,Tet.Lett.,1993,34,2723-2726;Collingwood等人,Synlett,1995,7,703-705;和Hutter等人,Helvetica Chimica Acta,2002,85,2777-2806)。非天然核酸可以包括具有2’-取代基的5’-膦酸酯单体(US 2006/0074035)和其他经修饰的5’-膦酸酯单体(WO 1997/35869)。非天然核酸可以包括5’-修饰的亚甲基膦酸酯单体(EP614907和EP629633)。非天然核酸可以包括在5’和/或6’位置处包含羟基的5’或6’-膦酸酯核糖核苷的类似物(Chen等人,Phosphorus,Sulfur and Silicon,2002,777,1783-1786;Jung等人,Bioorg.Med.Chem.,2000,8,2501-2509;Gallier等人,Eur.J.Org.Chem.,2007,925-933;和Hampton等人,J.Med.Chem.,1976,19(8),1029-1033)。非天然核酸可以包括5’-膦酸酯脱氧核糖核苷单体和具有5’-磷酸酯基团的二聚体(Nawrot等人,Oligonucleotides,2006,16(1),68-82)。非天然核酸可以包括具有6’-膦酸酯基团的核苷(其中5’或/和6’位置是未经取代的或用硫代叔丁基(SC(CH3)3)(及其类似物);亚甲基氨基(CH2NH2)(及其类似物)或氰基(CN)(及其类似物)取代(Fairhurst等人,Synlett,2001,4,467-472;Kappler等人,J.Med.Chem.,1986,29,1030-1038;Kappler等人,J.Med.Chem.,1982,25,1179-1184;Vrudhula等人,J.Med.Chem.,1987,30,888-894;Hampton等人,J.Med.Chem.,1976,19,1371-1377;Geze等人,J.Am.Chem.Soc,1983,105(26),7638-7640;和Hampton等人,J.Am.Chem.Soc,1973,95(13),4404-4414)。将本段中列出的每个参考文献的披露内容通过引用以其整体特此并入。
在一些实施方案中,非天然核酸还包括糖部分的修饰。在一些情形中,核酸含有其中糖基团已被修饰的一种或多种核苷。此类糖修饰的核苷可以赋予增强的核酸酶稳定性、增加的结合亲和力或一些其他有益的生物学特性。在某些实施方案中,核酸包含经化学修饰的呋喃核糖环部分。经化学修饰的呋喃核糖环的例子包括而不限于添加取代基(包括5’和/或2’取代基;两个环原子桥接形成二环核酸(BNA);用S、N(R)或C(R1)(R2)替代核糖基环氧原子(R=H、C1-C12烷基或保护基团);及其组合。经化学修饰的糖的例子可发现于WO2008/101157、US 2005/0130923和WO 2007/134181中;将这些文献的每一个的披露内容通过引用以其整体特此并入。
在一些情况下,修饰的核酸包含修饰的糖或糖类似物。因此,除核糖和脱氧核糖之外,所述糖部分可以是戊糖、脱氧戊糖、己糖、脱氧己糖、葡萄糖、阿拉伯糖、木糖、来苏糖或糖“类似物”环戊基。所述糖可以呈吡喃糖基或呋喃糖基形式。所述糖部分可以是核糖、脱氧核糖、阿拉伯糖或2’-O-烷基核糖的呋喃糖苷,并且所述糖可以以[α]或[β]异头构型附接至相应的杂环碱基。糖修饰包括但不限于2’-烷氧基-RNA类似物、2’-氨基-RNA类似物、2’-氟-DNA和2’-烷氧基-或氨基-RNA/DNA嵌合体。例如,糖修饰可以包括2’-O-甲基-尿苷或2’-O-甲基-胞苷。糖修饰包括2’-O-烷基-取代的脱氧核糖核苷和2’-O-乙二醇样核糖核苷。这些糖或糖类似物以及其中此类糖或类似物附接至杂环碱基(核酸碱基)的相应“核苷”的制备是已知的。还可以进行糖修饰并且将其与其他修饰组合。
糖部分的修饰包括核糖和脱氧核糖的天然修饰以及非天然修饰。糖修饰包括但不限于在2’位置处的以下修饰:OH;F;O-、S-或N-烷基;O-、S-或N-烯基;O-、S-或N-炔基;或O-烷基-O-烷基,其中烷基、烯基和炔基可以是取代或未取代的C1至C10烷基或C2至C10烯基和炔基。2’糖修饰还包括但不限于-O[(CH2)nO]m CH3、-O(CH2)nOCH3、-O(CH2)nNH2、-O(CH2)nCH3、-O(CH2)nONH2和-O(CH2)nON[(CH2)n CH3)]2,其中n和m是从1至约10。
2’位置处的其他修饰包括但不限于:C1至C10低级烷基、取代的低级烷基、烷芳基、芳烷基、O-烷芳基、O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2 CH3、ONO2、NO2、N3、NH2、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、用于改善寡核苷酸药代动力学特性的基团或用于改善寡核苷酸药效学特性的基团,以及具有类似特性的其他取代基。还可以在所述糖的其他位置(特别是在3’末端核苷酸或2’-5’连接的寡核苷酸中糖的3’位置和5’末端核苷酸的5’位置)处进行类似的修饰。经修饰的糖还包括在桥环氧处含有修饰(如CH2和S)的那些糖。核苷酸糖类似物也可以具有糖模拟物,如环丁基部分代替戊呋喃糖基糖。许多美国专利传授了此类经修饰的糖结构的制备,并且详述并描述了一系列的碱基修饰,所述美国专利是例如美国专利号4,981,957;5,118,800;5,319,080;5,359,044;5,393,878;5,446,137;5,466,786;5,514,785;5,519,134;5,567,811;5,576,427;5,591,722;5,597,909;5,610,300;5,627,053;5,639,873;5,646,265;5,658,873;5,670,633;4,845,205;5,130,302;5,134,066;5,175,273;5,367,066;5,432,272;5,457,187;5,459,255;5,484,908;5,502,177;5,525,711;5,552,540;5,587,469;5,594,121、5,596,091;5,614,617;5,681,941;和5,700,920,将这些文献的每一个的披露内容通过引用以其整体并入本文。
具有经修饰的糖部分的核酸的例子包括而不限于包含5’-乙烯基、5’-甲基(R或S)、4’-S、2’-F、2’-OCH3和2’-O(CH2)2OCH3取代基的核酸。2’位置处的取代基还可以选自烯丙基、氨基、叠氮基、硫代、O-烯丙基、O-(C1-C1O烷基)、OCF3、O(CH2)2SCH3、O(CH2)2-O-N(Rm)(Rn)和O-CH2-C(=O)-N(Rm)(Rn),其中Rm和Rn各自独立地是H或者取代或未取代的C1-C10烷基。
在某些实施方案中,本文所述的核酸包括一种或多种二环核酸。在某些此类实施方案中,双环核酸包含4’与2’核糖基环原子之间的桥。在某些实施方案中,本文提供的核酸包括一种或多种双环核酸,其中所述桥包含4’至2’双环核酸。此类4’至2’双环核酸的例子包括但不限于下式之一:4’-(CH2)-O-2’(LNA);4’-(CH2)-S-2’;4’-(CH2)2-O-2’(ENA);4’-CH(CH3)-O-2’和4’-CH(CH2OCH3)-O-2’及其类似物(参见美国专利号7,399,845);4’-C(CH3)(CH3)-O-2’及其类似物(参见WO 2009/006478、WO 2008/150729、US2004/0171570、美国专利号7,427,672,Chattopadhyaya等人,J.Org.Chem.,209,74,118-134,以及WO 2008/154401)。还参见例如:Singh等人,Chem.Commun.,1998,4,455-456;Koshkin等人,Tetrahedron,1998,54,3607-3630;Wahlestedt等人,Proc.Natl.Acad.Sci.U.S.A.,2000,97,5633-5638;Kumar等人,Bioorg.Med.Chem.Lett.,1998,8,2219-2222;Singh等人,J.Org.Chem.,1998,63,10035-10039;Srivastava等人,J.Am.Chem.Soc.,2007,129(26)8362-8379;Elayadi等人,Curr.Opinion Invens.Drugs,2001,2,558-561;Braasch等人,Chem.Biol,2001,8,1-7;Oram等人,Curr.Opinion Mol.Ther.,2001,3,239-243;美国专利号4,849,513;5,015,733;5,118,800;5,118,802;7,053,207;6,268,490;6,770,748;6,794,499;7,034,133;6,525,191;6,670,461;和7,399,845;国际公开号WO 2004/106356、WO1994/14226、WO 2005/021570、WO 2007/090071和WO 2007/134181;美国专利公开号US2004/0171570、US 2007/0287831和US 2008/0039618;美国临时申请号60/989,574、61/026,995、61/026,998、61/056,564、61/086,231、61/097,787和61/099,844;以及国际申请号PCT/US2008/064591、PCT US2008/066154、PCT US2008/068922和PCT/DK98/00393;将这些文献的每一个的披露内容通过引用以其整体特此并入。
在某些实施方案中,核酸包含连接的核酸。核酸可以使用任何核酸间连接而连接在一起。核酸间连接基团的两个主要类别是通过磷原子的存在或不存在来定义的。代表性的含磷的核酸间连接包括但不限于磷酸二酯、磷酸三酯、甲基膦酸酯、氨基磷酸酯和硫代磷酸酯(P=S)。代表性的不含磷的核酸间连接基团包括但不限于亚甲基甲基亚氨基(-CH2-N(CH3)-O-CH2-)、硫代二酯(-O-C(O)-S-)、硫代氨基甲酸酯(-O-C(O)(NH)-S-);硅氧烷(-O-Si(H)2-O-);和N,N*-二甲基肼(-CH2-N(CH3)-N(CH3))。在某些实施方案中,可以将具有手性原子的核酸间连接制备为外消旋混合物,作为分开的对映体,例如烷基膦酸酯和硫代磷酸酯。非天然核酸可以含有单个修饰。非天然核酸可以在所述部分之一内或不同部分之间含有多个修饰。
对核酸的骨架磷酸修饰包括但不限于甲基膦酸酯、硫代磷酸酯、氨基磷酸酯(桥接或非桥接)、磷酸三酯、二硫代磷酸酯(phosphorodithioate)、二硫代磷酸酯(phosphodithioate)和硼烷磷酸酯,并且可以以任何组合来使用。还可以使用其他非磷酸酯连接。
在一些实施方案中,骨架修饰(例如,甲基膦酸酯、硫代磷酸酯、氨基磷酸酯和二硫代磷酸酯核苷酸间连接)可以赋予经修饰的核酸免疫调节活性和/或增强其体内稳定性。
在一些情况下,磷衍生物(或经修饰的磷酸酯基团)附接至糖或糖类似物部分,并且可以是单磷酸酯、二磷酸酯、三磷酸酯、烷基膦酸酯、硫代磷酸酯、二硫代磷酸酯、氨基磷酸酯等。含有经修饰的磷酸酯连接或非磷酸酯连接的示例性多核苷酸可发现于:Peyrottes等人,1996,Nucleic Acids Res.24:1841-1848;Chaturvedi等人,1996,Nucleic AcidsRes.24:2318-2323;和Schultz等人,(1996)Nucleic Acids Res.24:2966-2973;Matteucci,1997,“Oligonucleotide Analogs:an Overview”in Oligonucleotides asTherapeutic Agents,(Chadwick和Cardew,编辑)John Wiley and Sons,纽约,纽约州;Zon,1993,“Oligonucleoside Phosphorothioates”in Protocols for Oligonucleotidesand Analogs,Synthesis and Properties,Humana Press,第165-190页;Miller等人,1971,JACS93:6657-6665;Jager等人,1988,Biochem.27:7247-7246;Nelson等人,1997,JOC62:7278-7287;美国专利号5,453,496;和Micklefield,2001,Curr.Med.Chem.8:1157-1179;将这些文献的每一个的披露内容通过引用以其整体特此并入。
在一些情形中,骨架修饰包括用可替代部分如阴离子基团、中性基团或阳离子基团替代磷酸二酯连接。此类修饰的例子包括:阴离子核苷间连接;N3’至P5’氨基磷酸酯修饰;硼烷磷酸酯DNA;原寡核苷酸;中性核苷间连接,如甲基膦酸酯;酰胺连接的DNA;亚甲基(甲基亚氨基)连接;甲缩醛(formacetal)和硫代甲缩醛连接;含有磺酰基的骨架;吗啉代寡聚物;肽核酸(PNA);以及带正电荷的脱氧核糖核酸胍(DNG)寡聚物(Micklefield,2001,Current Medicinal Chemistry 8:1157-1179),将该文献的披露内容通过引用以其整体特此并入。经修饰的核酸可以包含嵌合或混合的骨架,所述嵌合的或混合的骨架包含一种或多种修饰(例如,磷酸酯连接的组合,如磷酸二酯和硫代磷酸酯连接的组合)。
磷酸酯的取代基包括,例如,短链烷基或环烷基核苷间连接、混合的杂原子和烷基或环烷基核苷间连接,或一个或多个短链杂原子或杂环核苷间连接。这些包括具有以下的那些:吗啉代连接(部分地由核苷的糖部分形成);硅氧烷骨架;硫化物、亚砜和砜骨架;甲酰乙酰基和硫代甲酰乙酰基骨架;亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架;含烯烃的骨架;氨基磺酸酯骨架;亚甲基亚胺基和亚甲基肼基骨架;磺酸酯和磺酰胺骨架;酰胺骨架;以及具有混合N、O、S和CH2组成部分的其他骨架。许多美国专利披露了如何制备和使用这些类型的磷酸酯替代物,并且所述美国专利包括但不限于美国专利号5,034,506;5,166,315;5,185,444;5,214,134;5,216,141;5,235,033;5,264,562;5,264,564;5,405,938;5,434,257;5,466,677;5,470,967;5,489,677;5,541,307;5,561,225;5,596,086;5,602,240;5,610,289;5,602,240;5,608,046;5,610,289;5,618,704;5,623,070;5,663,312;5,633,360;5,677,437;和5,677,439;将这些文献的每一个的披露内容通过引用以其整体特此并入。还应理解在核苷酸取代基中,核苷酸的糖和磷酸酯部分都可以例如被酰胺型连接(氨基乙基甘氨酸)(PNA)替代。美国专利号5,539,082;5,714,331;和5,719,262传授了如何制备和使用PNA分子,将这些文献的每一个通过引用并入本文。还参见Nielsen等人,Science,1991,254,1497-1500。还可以将其他类型的分子(缀合物)与核苷酸或核苷酸类似物连接,以增强例如细胞摄取。缀合物可以与所述核苷酸或核苷酸类似物化学连接。此类缀合物包括但不限于脂质部分,如胆固醇部分(Letsinger等人,Proc.Natl.Acad.Sci.USA,1989,86,6553-6556)、胆酸(Manoharan等人,Bioorg.Med.Chem.Let.,1994,4,1053-1060)、硫醚,例如,己基-S-三苯甲基硫醇(Manoharan等人,Ann.KY.Acad.Sci.,1992,660,306-309;Manoharan等人,Bioorg.Med.Chem.Let.,1993,3,2765-2770)、硫代胆固醇(Oberhauser等人,Nucl.Acids Res.,1992,20,533-538)、脂肪族链,例如,十二烷二醇或十一烷基残基(Saison-Behmoaras等人,EM5OJ,1991,10,1111-1118;Kabanov等人,FEBS Lett.,1990,259,327-330;Svinarchuk等人,Biochimie,1993,75,49-54)、磷脂,例如,二-十六烷基-rac-甘油或l-二-O-十六烷基-rac-甘油-S-H-膦酸三乙铵(Manoharan等人,TetrahedronLett.,1995,36,3651-3654;Shea等人,Nucl.Acids Res.,1990,18,3777-3783)、多胺或聚乙二醇链(Manoharan等人,Nucleosides&Nucleotides,1995,14,969-973)、或金刚烷乙酸(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654)、棕榈基部分(Mishra等人,Biochem.Biophys.Acta,1995,1264,229-237)、或十八烷胺或己基氨基-羰基-氧基胆固醇部分(Crooke等人,J.Pharmacol.Exp.Ther.,1996,277,923-937);将这些文献的每一个的披露内容通过引用以其整体特此并入。许多美国专利传授了此类缀合物的制备,并且所述美国专利包括但不限于美国专利号4,828,979;4,948,882;5,218,105;5,525,465;5,541,313;5,545,730;5,552,538;5,578,717、5,580,731;5,580,731;5,591,584;5,109,124;5,118,802;5,138,045;5,414,077;5,486,603;5,512,439;5,578,718;5,608,046;4,587,044;4,605,735;4,667,025;4,762,779;4,789,737;4,824,941;4,835,263;4,876,335;4,904,582;4,958,013;5,082,830;5,112,963;5,214,136;5,082,830;5,112,963;5,214,136;5,245,022;5,254,469;5,258,506;5,262,536;5,272,250;5,292,873;5,317,098;5,371,241、5,391,723;5,416,203、5,451,463;5,510,475;5,512,667;5,514,785;5,565,552;5,567,810;5,574,142;5,585,481;5,587,371;5,595,726;5,597,696;5,599,923;5,599,928和5,688,941;将这些文献的每一个的披露内容通过引用以其整体特此并入。
本文描述了在用于复制、转录、翻译和掺入非天然氨基酸至蛋白质中的组合物和方法中使用的核碱基。在一些实施方案中,本文所述的核碱基包含结构:
Figure BDA0003498995360000471
其中
每个X独立地是碳或氮;
当X是碳时,R2是存在的且独立地是氢、烷基、烯基、炔基、甲氧基、甲硫醇、甲烷硒基、卤素、氰基或叠氮基;
其中每个Y独立地是硫、氧、硒或仲胺;
其中每个E独立地是氧、硫或硒;并且
其中波浪线指示与核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物的键合点,其中所述核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物是游离形式,连接至单磷酸酯、二磷酸酯或三磷酸酯基团(任选地包括α-硫代三磷酸酯、β-硫代三磷酸酯或γ-硫代三磷酸酯基团),或包含在RNA或DNA中或者RNA类似物或DNA类似物中。
在一些实施方案中,R2是低级烷基(例如,C1-C6)、氢或卤素。在本文所述的核碱基的一些实施方案中,R2是氟。在本文所述的核碱基的一些实施方案中,X是碳。在本文所述的核碱基的一些实施方案中,E是硫。在本文所述的核碱基的一些实施方案中,Y是硫。
在本文所述的核碱基的一些实施方案中,核碱基具有结构:
Figure BDA0003498995360000472
在一些实施方案中,本文所述的核碱基具有结构:
Figure BDA0003498995360000473
在本文所述的核碱基的一些实施方案中,E是硫并且Y是硫。在一些实施方案中,波浪线指示与核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物的键合点,其中所述核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物是游离形式,或连接至单磷酸酯、二磷酸酯、三磷酸酯、α-硫代三磷酸酯、β-硫代三磷酸酯或γ-硫代三磷酸酯基团,或包含在RNA或DNA中或者RNA类似物或DNA类似物中。在本文所述的核碱基的一些实施方案中,波浪线指示与核糖基或脱氧核糖基部分键合的点。在本文所述的核碱基的一些实施方案中,波浪线指示与核糖基或脱氧核糖基部分键合的点,所述核糖基或脱氧核糖基部分与三磷酸酯基团连接。在本文所述的核碱基的一些实施方案中,是核酸聚合物的组分。在本文所述的核碱基的一些实施方案中,核碱基是tRNA的组分。在本文所述的核碱基的一些实施方案中,核碱基是tRNA中的反密码子的组分。在本文所述的核碱基的一些实施方案中,核碱基是mRNA的组分。在本文所述的核碱基的一些实施方案中,核碱基是mRNA的密码子的组分。在本文所述的核碱基的一些实施方案中,核碱基是RNA或DNA的组分。在本文所述的核碱基的一些实施方案中,核碱基是DNA中密码子的组分。在本文所述的核碱基的一些实施方案中,核碱基与另一个(例如,互补的)核碱基形成、能够形成或被配置为形成核碱基对。
在一些实施方案中,本文所述的核碱基具有结构:
Figure BDA0003498995360000481
其中:
每个X独立地是碳或氮;
当X是氮时R2不存在,而当X是碳时,R2是存在的且独立地是氢、烷基、烯基、炔基、甲氧基、甲硫醇、甲烷硒基、卤素、氰基或叠氮基;
Y是硫、氧、硒或仲胺;
E是氧、硫或硒;并且
波浪线指示与核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物的键合点,其中所述核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物是游离形式,连接至单磷酸酯、二磷酸酯、三磷酸酯、α-硫代三磷酸酯、β-硫代三磷酸酯或γ-硫代三磷酸酯基团,或包含在RNA或DNA中或者RNA类似物或DNA类似物中。
在一些实施方案中,每个X是碳。在一些实施方案中,至少一个X是碳。在一些实施方案中,一个X是碳。在一些实施方案中,至少两个X是碳。在一些实施方案中,两个X是碳。在一些实施方案中,至少一个X是氮。在一些实施方案中,一个X是氮。在一些实施方案中,至少两个X是氮。在一些实施方案中,两个X是氮。
在一些实施方案中,Y是硫。在一些实施方案中,Y是氧。在一些实施方案中,Y是硒。在一些实施方案中,Y是仲胺。
在一些实施方案中,E是硫。在一些实施方案中,E是氧。在一些实施方案中,E是硒。
在一些实施方案中,当X是碳时R2是存在的。在一些实施方案中,当X是氮时R2不存在。在一些实施方案中,每个R2在存在的情况下是氢。在一些实施方案中,R2是烷基,如甲基、乙基或丙基。在一些实施方案中,R2是烯基,如-CH2=CH2。在一些实施方案中,R2是炔基,如乙炔基。在一些实施方案中,R2是甲氧基。在一些实施方案中,R2是甲硫醇。在一些实施方案中,R2是甲烷硒基。在一些实施方案中,R2是卤素,如氯、溴或氟。在一些实施方案中,R2是氰基。在一些实施方案中,R2是叠氮基。
在一些实施方案中,E是硫,Y是硫,并且每个X独立地是碳或氮。在一些实施方案中,E是硫,Y是硫,并且每个X是碳。
在一些实施方案中,核碱基具有结构
Figure BDA0003498995360000482
在一些实施方案中,核碱基具有结构
Figure BDA0003498995360000491
在一些实施方案中,核碱基具有结构
Figure BDA0003498995360000492
在一些实施方案中,本文公开的核碱基结合(例如,非共价地)互补碱基配对核碱基以形成非天然碱基对(UBP),或能够进行碱基配对或被配置为与核碱基进行碱基配对。在一些实施方案中,互补碱基配对核碱基选自:
Figure BDA0003498995360000493
在一方面,本文提供了双链寡核苷酸双链体,其中第一寡核苷酸链包含本文公开的核碱基,并且第二互补寡核苷酸链在其互补碱基配对位点中包含互补碱基配对核碱基。在一些实施方案中,所述第一寡核苷酸链包含
Figure BDA0003498995360000494
并且所述第二链在其互补碱基配对位点中包含选自以下的互补碱基配对核碱基:
Figure BDA0003498995360000495
在另一方面,本文提供了包含本文所述的核碱基的转移RNA(tRNA),所述转移RNA包含:反密码子,其中所述反密码子包含所述核碱基;和识别元件,其中所述识别元件通过氨酰tRNA合成酶促进tRNA选择性装载非天然氨基酸。在一些实施方案中,核碱基位于tRNA的反密码子区。在一些实施方案中,核碱基位于反密码子的第一个位置处。在一些实施方案中,核碱基位于反密码子的第二个位置处。在一些实施方案中,核碱基位于反密码子的第三个位置处。在一些实施方案中,氨酰tRNA合成酶源自甲烷八叠球菌属或其变体。在一些实施方案中,氨酰tRNA合成酶源自甲烷球菌属(Methanococcus/Methanocaldococcus)或其变体。在一些实施方案中,非天然氨基酸包含芳族部分。在一些实施方案中,非天然氨基酸是赖氨酸衍生物。在一些实施方案中,非天然氨基酸是苯丙氨酸衍生物。
本文还提供了包含下式的结构:
N1-Zx-N2
其中:
Z是如本文所述的核碱基,其与核糖基或脱氧核糖基或其类似物键合;
N1是在Z的核糖基或脱氧核糖基或其类似物的5'端处附接的一个或多个核苷酸或其类似物或末端磷酸酯基团;
N2是在Z的核糖基或脱氧核糖基或其类似物的3'端附接的一个或多个核苷酸或其类似物或末端羟基基团;并且
x是从1至20的整数。
在一些实施方案中,N1是在Z的核糖基或脱氧核糖基部分或其类似物的5’端附接的一个或多个核苷酸或其类似物。可以通过磷酸二酯附接至核糖基或脱氧核糖基部分的5’端。在一些实施方案中,N1是在Z的核糖基或脱氧核糖基部分或其类似物的5’端附接的末端磷酸酯基团。在一些实施方案中,N2是在Z的核糖基或脱氧核糖基部分或其类似物的3’端附接的一个或多个核苷酸或其类似物。可以通过磷酸二酯附接至核糖基或脱氧核糖基部分的3’端。在一些实施方案中,N2是在Z的核糖基或脱氧核糖基部分或其类似物的3’端附接的末端羟基。
在一些实施方案中,x是从1至20的整数。在一些实施方案中,x是从1至15的整数。在一些实施方案中,x是从1至10的整数。在一些实施方案中,x是从1至5的整数。在一些实施方案中,x是1。在一些实施方案中,x是2。在一些实施方案中,x是3。在一些实施方案中,x是4。在一些实施方案中,x是5。在一些实施方案中,x是6。在一些实施方案中,x是7。在一些实施方案中,x是8。在一些实施方案中,x是9。在一些实施方案中,x是10。在一些实施方案中,x是11。在一些实施方案中,x是12。在一些实施方案中,x是13。在一些实施方案中,x是14。在一些实施方案中,x是15。在一些实施方案中,x是16。在一些实施方案中,x是17。在一些实施方案中,x是18。在一些实施方案中,x是19。在一些实施方案中,x是20。
在一些实施方案中,Z具有如本文详述的结构
Figure BDA0003498995360000501
在一些实施方案中,Z具有结构
Figure BDA0003498995360000502
在一些实施方案中,式N1-Zx-N2的结构编码基因。在一些实施方案中,Zx位于基因的翻译区。在一些实施方案中,Zx位于基因的非翻译区。在一些实施方案中,所述结构还包含5’或3’非翻译区(UTR)。在一些实施方案中,所述结构还包含终止子区。在一些实施方案中,所述结构还包含启动子区。
在另外的方面,本文提供了多核苷酸文库,其中所述文库包含至少5000种独特多核苷酸,并且其中每种多核苷酸包含至少一种本文公开的核碱基。在一些实施方案中,多核苷酸文库编码至少一种基因。
在又另一方面,本文提供了核苷三磷酸,其中核碱基选自
Figure BDA0003498995360000511
在一些实施方案中,核碱基是
Figure BDA0003498995360000512
在一些实施方案中,核碱基是
Figure BDA0003498995360000513
在一些实施方案中,核碱基是
Figure BDA0003498995360000514
在一些实施方案中,核碱基是
Figure BDA0003498995360000515
在一些实施方案中,核苷包含核糖。在一些实施方案中,核苷包含脱氧核糖。
核酸碱基配对特性;示例性碱基对
在一些实施方案中,非天然核苷酸在掺入DNA或RNA期间或之后与另一非天然核苷酸形成碱基对(非天然碱基对;UBP)。在一些实施方案中,稳定整合的非天然核酸是可以与另一核酸(例如,天然或非天然核酸)形成碱基对的非天然核酸。在一些实施方案中,稳定整合的非天然核酸是可以与另一非天然核酸形成碱基对(非天然核酸碱基对(UBP))的非天然核酸。例如,第一非天然核酸可以与第二非天然核酸形成碱基对。例如,可以在掺入核酸期间和之后进行碱基配对的一对非天然核苷三磷酸包括(d)5SICS的三磷酸酯((d)5SICSTP)和(d)NaM的三磷酸酯((d)NaMTP)。其他例子包括但不限于:(d)CNMO的三磷酸酯((d)CNMOTP)和(d)TPT3的三磷酸酯((d)TPT3TP)。此类非天然核苷酸可以具有核糖或脱氧核糖糖部分(由“(d)”指示)。例如,可以在掺入核酸时进行碱基配对的一对非天然核苷三磷酸包括TAT1的三磷酸酯((d)TAT1TP)和NaM的三磷酸酯((d)NaMTP)。例如,可以在掺入核酸时进行碱基配对的一对非天然核苷三磷酸包括dCNMO的三磷酸酯(dCNMOTP)和TAT1的三磷酸酯(TAT1TP)。例如,可以在掺入核酸时进行碱基配对的一对非天然核苷三磷酸包括dTPT3的三磷酸酯(dTPT3TP)和NaM的三磷酸酯(NaMTP)。在一些实施方案中,非天然核酸基本上不与天然核酸(A、T、G、C)形成碱基对。在一些实施方案中,稳定整合的非天然核酸可以与天然核酸形成碱基对。
在一些实施方案中,稳定整合的非天然(脱氧)核糖核苷酸是可以形成UBP,但是基本上不与天然(脱氧)核糖核苷酸中的每任一种形成碱基对的非天然(脱氧)核糖核苷酸。在一些实施方案中,稳定整合的非天然(脱氧)核糖核苷酸是可以形成UBP,但是基本上不与一种或多种天然核酸形成碱基对的非天然(脱氧)核糖核苷酸。例如,稳定整合的非天然核酸可能基本上不与A、T和C形成碱基对,但是可以与G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与A、T和G形成碱基对,但是可以与C形成碱基对。例如,稳定整合的非天然核酸可能基本上不与C、G和A形成碱基对,但是可以与T形成碱基对。例如,稳定整合的非天然核酸可能基本上不与C、G和T形成碱基对,但是可以与A形成碱基对。例如,稳定整合的非天然核酸可能基本上不与A和T形成碱基对,但是可以与C和G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与A和C形成碱基对,但是可以与T和G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与A和G形成碱基对,但是可以与C和T形成碱基对。例如,稳定整合的非天然核酸可能基本上不与C和T形成碱基对,但是可以与A和G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与C和G形成碱基对,但是可以与T和G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与T和G形成碱基对,但是可以与A和G形成碱基对。例如,稳定整合的非天然核酸可能基本上不与G形成碱基对,但是可以与A、T和C形成碱基对。例如,稳定整合的非天然核酸可能基本上不与A形成碱基对,但是可以与G、T和C形成碱基对。例如,稳定整合的非天然核酸可能基本上不与T形成碱基对,但是可以与G、A和C形成碱基对。例如,稳定整合的非天然核酸可能基本上不与C形成碱基对,但是可以与G、T和A形成碱基对。
能够在体内条件下形成非天然DNA或RNA碱基对(UBP)的示例性非天然核苷酸包括但不限于5SICS、d5SICS、NaM、dNaM、dTPT3、dMTMO、dCNMO、TAT1及其组合。在一些实施方案中,能够在体内条件下形成非天然DNA或RNA碱基对(UBP)的非天然核苷酸包括但不限于5SICS、NaM、TPT3、MTMO、CNMO、TAT1及其组合,其中所述核苷酸的糖部分是脱氧核糖糖。在一些实施方案中,能够在体内条件下形成非天然DNA或RNA碱基对(UBP)的非天然核苷酸包括但不限于5SICS、NaM、TPT3、MTMO、CNMO、TAT1及其组合,其中所述核苷酸的糖部分是核糖糖。在一些实施方案中,能够在体内条件下形成非天然DNA或RNA碱基对(UBP)的非天然核苷酸包括但不限于(d)5SICS、(d)NaM、(d)TPT3、(d)MTMO、(d)CNMO、(d)TAT1及其组合。在一些实施方案中,非天然核苷酸碱基对包括但不限于:
Figure BDA0003498995360000521
Figure BDA0003498995360000522
其中所述糖部分是本文所述的任何实施方案或变型。在一些实施方案中,非天然核苷酸碱基对包括但不限于:
Figure BDA0003498995360000531
在任何这样的实施方案中,附接至非天然碱基的脱氧核糖之一或两者可以被核糖取代。
工程化生物体
在一些实施方案中,本文公开的方法和质粒进一步用于产生工程化生物体,例如如下一种生物体,所述生物体掺入并复制非天然核苷酸或非天然核酸碱基对(UBP),并且也可以使用含有非天然核苷酸的核酸以转录mRNA和tRNA,所述mRNA和tRNA用于翻译含有非天然氨基酸残基的蛋白质。在一些情况下,所述生物体是非人半合成生物体(SSO)。在一些情况下,所述生物体是半合成生物体(SSO)。在一些情况下,所述SSO是细胞。在一些情况下,体内方法包括半合成生物体(SSO)。在一些情况下,所述半合成生物体包括微生物。在一些情况下,所述生物体包括细菌。在一些情况下,所述生物体包括革兰氏阴性细菌。在一些情况下,所述生物体包括革兰氏阳性细菌。在一些情况下,所述生物体包括大肠杆菌(E.coli)。此类修饰的生物体不同地包含另外的组分,如DNA修复机构、修饰的聚合酶、核苷酸转运蛋白或其他组分。在一些情况下,SSO包括大肠杆菌菌株YZ3。在一些情况下,SSO包括大肠杆菌菌株ML1或ML2,如描述于Ledbetter,等人J.Am Chem.Soc.2018,140(2),758的图1(B-D)中的那些菌株,将该文献的披露内容通过引用以其整体特此并入。
在一些情况下,将使用的细胞用编码异源蛋白质的表达盒以及任选的CRISPR/Cas9系统(以消除已经失去非天然核苷酸的DNA)进行遗传转化,所述异源蛋白质例如能够将非天然核苷三磷酸转运到细胞中的核苷三磷酸转运蛋白(例如大肠杆菌菌株YZ3、ML1或ML2)。在一些情况下,细胞还包含增强的用于非天然核酸摄取的活性。在一些情形中,细胞还包含增强的用于非天然核酸输入的活性。
在一些实施方案中,Cas9和适当的指导RNA(sgRNA)在分开的质粒上被编码。在一些情况下,Cas9和sgRNA是在同一质粒上被编码。在一些情形中,编码Cas9、sgRNA或包含非天然核苷酸的核酸分子的核酸分子位于一种或多种质粒上。在一些情况下,Cas9在第一质粒上被编码,并且sgRNA和包含非天然核苷酸的核酸分子在第二质粒上被编码。在一些情况下,Cas9、sgRNA和包含非天然核苷酸的核酸分子在同一质粒上被编码。在一些情况下,核酸分子包含两种或更多种非天然核苷酸。在一些情况下,Cas9被整合到宿主生物体的基因组中,并且sgRNA在质粒上或生物体的基因组中被编码。
在一些情况下,将编码Cas9和sgRNA的第一质粒和编码包含非天然核苷酸的核酸分子的第二质粒引入工程化微生物中。在一些情况下,将编码Cas9的第一质粒和编码sgRNA和包含非天然核苷酸的核酸分子的第二质粒引入工程化微生物中。在一些情况下,将编码Cas9、sgRNA和包含非天然核苷酸的核酸分子的质粒引入工程化微生物中。在一些情况下,核酸分子包含两种或更多种非天然核苷酸。
在一些实施方案中,产生在其DNA(质粒或基因组)内掺入至少一种非天然核苷酸和/或至少一种非天然碱基对(UBP)的活细胞。在一些情况下,非天然碱基对包括一对非天然互相碱基配对的核苷酸,在通过核苷酸三磷酸转运蛋白的作用将所述非天然互相碱基配对的核苷酸作为其相应三磷酸酯吸收至细胞中时,所述核苷酸能够在体内条件下形成非天然碱基对。在一些情况下,非天然碱基对包括一对非天然互相碱基配对的核苷酸,在通过核苷酸三磷酸转运蛋白的作用将所述非天然互相碱基配对的核苷酸作为其相应三磷酸酯吸收至细胞中时,所述核苷酸被配置为在体内条件下形成非天然碱基对。可以将细胞通过编码核苷酸三磷酸转运蛋白的表达盒进行遗传转化,使得核苷酸三磷酸转运蛋白被表达并且可用于将非天然核苷酸转运至细胞中。细胞可以是原核或真核细胞,并且作为相应三磷酸酯的非天然互相碱基配对的核苷酸对可以是dTPT3的三磷酸酯(dTP3TP)和dNaM(dNaMTP)或dCNMO(dCNMOTP)的三磷酸酯。
在一些实施方案中,细胞是用核酸遗传转化的细胞,所述核酸例如编码能够将此类非天然核苷酸转运至细胞中的核苷酸三磷酸转运蛋白的表达盒。细胞可以包含异源核苷三磷酸转运蛋白,其中异源核苷三磷酸转运蛋白可以将天然和非天然核苷三磷酸转运至细胞中。
在一些情形中,本文所述的方法还包括在磷酸钾和/或磷酸酶或核苷酸酶的抑制剂的存在下使遗传转化的细胞与相应三磷酸酯接触。在此接触期间或之后,可以将细胞置于适合于细胞的生长和复制的生命支持培养基内。可以将细胞维持在生命支持培养基中,使得将非天然核苷酸的相应三磷酸酯形式掺入细胞内的核酸中,并且经过细胞的至少一个复制周期。作为相应三磷酸酯的非天然互相碱基配对的核苷酸对可以包含dTPT3的三磷酸酯或(dTPT3TP)和dCNMO或dNaM的三磷酸酯(dCNOM或dNaMTP),所述细胞可以是大肠杆菌,并且可以通过转运蛋白PtNTT2将dTPT3TP和dNaMTP输入大肠杆菌中,其中大肠杆菌聚合酶如Pol III或Pol II可以使用非天然三磷酸酯来复制含有UBP的DNA,由此将非天然核苷酸和/或非天然碱基对掺入细胞环境内的细胞核酸中。此外,诸如NaMTP和TAT1TP、5FMTP和TPT3TP等核糖核苷酸在一些情况下通过转运蛋白PtNTT2输入大肠杆菌中。
本文描述了包括使用三种或更多种非天然碱基配对核苷酸的组合物和方法。在一些情形中,此类碱基配对核苷酸通过使用核苷酸转运蛋白或通过本领域已知的标准核酸转化方法(例如,电穿孔、化学转化或其他方法)进入细胞。在一些情形中,碱基配对非天然核苷酸作为多核苷酸(如质粒)的一部分进入细胞。作为多核苷酸(RNA或DNA)的一部分进入细胞的一种或多种碱基配对非天然核苷酸本身不需要在体内复制。例如,将包含第一非天然脱氧核糖核苷酸和第二非天然脱氧核糖核苷酸的双链DNA质粒或其他核酸电穿孔到细胞中,所述第一非天然脱氧核糖核苷酸和所述第二非天然脱氧核糖核苷酸的碱基被配置为形成第一非天然碱基对。将细胞培养基用第三非天然脱氧核糖核苷酸、第四非天然脱氧核糖核苷酸处理,所述第三非天然脱氧核糖核苷酸、第四非天然脱氧核糖核苷酸的碱基被配置为彼此形成第二非天然碱基对,其中所述第一非天然脱氧核糖核苷酸的碱基和所述第三非天然脱氧核糖核苷酸的碱基形成第二非天然碱基对,并且其中所述第二非天然脱氧核糖核苷酸的碱基和所述第四非天然脱氧核糖核苷酸的碱基形成第三非天然碱基对。在一些情况下,最初转化的双链DNA质粒的体内复制导致随后复制的质粒,所述随后复制的质粒包含第三非天然脱氧核糖核苷酸和第四非天然脱氧核糖核苷酸。可替代地或组合地,将第三非天然脱氧核糖核苷酸和第四非天然脱氧核糖核苷酸的核糖核苷酸变体添加至细胞培养基中。在一些情况下,这些核糖核苷酸被掺入RNA如mRNA或tRNA中。在一些情况下,第一脱氧核苷酸、第二脱氧核苷酸、第三脱氧核苷酸和第四脱氧核苷酸包含不同的碱基。在一些情况下,第一脱氧核苷酸、第三脱氧核苷酸和第四脱氧核苷酸包含不同的碱基。在一些情况下,第一脱氧核苷酸和第三脱氧核苷酸包含相同的碱基。
通过实践本发明的方法,普通技术人员可以获得在维持在至少一些单独细胞内的至少一个核酸内具有至少一种非天然核苷酸和/或至少一种非天然碱基对(UBP)的活增殖细胞群,其中所述至少一个核酸在所述细胞内稳定增殖,并且其中在适合于生物体的生长和复制的生命支持培养基中与一种或多种非天然核苷酸接触(例如,在其存在下生长)时,所述细胞表达适于提供一种或多种非天然核苷酸的三磷酸酯形式的细胞摄取的核苷酸三磷酸转运蛋白。
在通过核苷酸三磷酸转运蛋白转运至细胞中之后,通过细胞机构(例如,细胞自身的DNA和/或RNA聚合酶、异源聚合酶或已经使用定向进化进化出的聚合酶)将非天然碱基配对的核苷酸掺入细胞内的核酸中(Chen T,Romesberg FE,FEBS Lett.2014年1月21日;588(2):219-29;Betz K等人,J Am Chem Soc.2013年12月11日;135(49):18637-43;将这些文献的每一个的披露内容通过引用以其整体特此并入)。可以将非天然核苷酸掺入细胞核酸中,所述核酸如基因组DNA、基因组RNA、mRNA、tRNA、结构RNA、微小RNA和自主复制的核酸(例如,质粒、病毒或载体)。
在一些情形中,通过将核酸(例如,异源核酸)引入细胞中来产生基因工程化细胞。本文所述的任何细胞都可以是宿主细胞,并且可以包含表达载体。在一个实施方案中,宿主细胞是原核细胞。在另一个实施方案中,宿主细胞是大肠杆菌。在一些实施方案中,细胞包含一种或多种异源多核苷酸。可以使用各种技术将核酸试剂引入微生物中。用于将异源核酸引入各种生物体中的方法的非限制性例子包括:转化、转染、转导、电穿孔、超声介导的转化、缀合、粒子轰击等。在一些情况下,添加载体分子(例如,双苯并咪唑基化合物,例如参见美国专利号US 5,595,899)可以增加细胞中DNA的摄取,这些细胞通常被认为难以通过常规方法转化。常规转化方法是技术人员容易获得的,并且可以发现于以下文献中:Maniatis,T.,E.F.Fritsch和J.Sambrook(1982)Molecular Cloning:a Laboratory Manual;ColdSpring Harbor Laboratory,Cold Spring Harbor,纽约,将这些文献的披露内容通过引用以其整体特此并入。
在一些情况下,遗传转化是使用在但不限于质粒、病毒载体、病毒核酸、噬菌体核酸、噬菌体、粘粒和人工染色体中的表达盒的直接转移,或者经由细胞或载体如阳离子脂质体中遗传物质的转移来获得。此类方法是本领域中可获得的,并且易于针对在本文所述方法中的使用来调整。转移载体可以是用于将基因递送至细胞(例如,质粒)中的任何核苷酸构建体,或者作为递送基因的通用策略的一部分,例如,作为重组逆转录病毒或腺病毒的一部分(Ram等人Cancer Res.53:83-88,(1993))。适当的转染方式,包括病毒载体、化学转染体或物理-机械方法如电穿孔以及DNA的直接扩散,描述于例如以下中:Wolff,J.A.,等人,Science,247,1465-1468,(1990);和Wolff,J.A.Nature,352,815-818,(1991),将这些文献的每一个的披露内容通过引用以其整体特此并入。
例如,可以将编码核苷三磷酸转运蛋白或聚合酶表达盒和/或载体的DNA通过任何方法引入细胞中,所述方法包括但不限于钙介导的转化、电穿孔、显微注射、脂转染、粒子轰击等。
在一些情形中,细胞包含掺入细胞内的一种或多种核酸中的非天然核苷三磷酸。例如,细胞可以是能够将至少一种非天然核苷酸掺入维持在细胞内的DNA或RNA内的活细胞。所述细胞还可以在体内条件下将包含一对非天然互相碱基配对的核苷酸的至少一种非天然碱基对(UBP)掺入细胞内的核酸中,其中所述非天然互相碱基配对的核苷酸(例如,其相应三磷酸酯)通过核苷三磷酸转运蛋白的作用被吸收到所述细胞中,所述核苷三磷酸转运蛋白的基因通过遗传转化被呈递至(例如,被引入)所述细胞中。例如,在掺入维持在细胞内的核酸中之后,dTPT3和dCNMO可以形成稳定的非天然碱基对,所述碱基对可以通过生物体的DNA复制机构稳定增殖,例如,当在包含dTPT3TP和dCNMOTP的生命支持培养基中生长时。
在一些情形中,细胞能够复制含有非天然核苷酸的核酸。此类方法可以包括用编码核苷三磷酸转运蛋白的表达盒对细胞进行遗传转化,所述核苷三磷酸转运蛋白能够在体内条件下将作为相应三磷酸酯的一种或多种非天然核苷酸转运至细胞中。可替代地,可以采用先前已经用表达盒遗传转化的细胞,所述表达盒可以表达所编码的核苷三磷酸转运蛋白。所述方法还可以包括在适合于细胞的生长和复制的生命支持培养基中使遗传转化的细胞接触或暴露于磷酸钾以及至少一种非天然核苷酸(例如,能够形成非天然碱基对(UBP)的两个互相碱基配对的核苷酸)的相应三磷酸酯形式,并且在至少一种非天然核苷酸(例如,能够形成非天然碱基对(UBP)的两个互相碱基配对的核苷酸)的相应三磷酸酯形式存在下,在体内条件下,将转化的细胞维持在生命支持培养基中,经过细胞的至少一个复制周期。所述方法还可以包括在适合于细胞的生长和复制的生命支持培养基中使遗传转化的细胞接触或暴露于磷酸钾以及至少一种非天然核苷酸(例如,被配置为形成非天然碱基对(UBP)的两个互相碱基配对的核苷酸)的相应三磷酸酯形式,并且在至少一种非天然核苷酸(例如,被配置为形成非天然碱基对(UBP)的两个互相碱基配对的核苷酸)的相应三磷酸酯形式存在下,在体内条件下,将转化的细胞维持在生命支持培养基中,经过细胞的至少一个复制周期。
在一些实施方案中,细胞包含稳定掺入的非天然核酸。一些实施方案包括在维持在细胞内的核酸内稳定掺入除了A、G、T和C以外的核苷酸的细胞(例如,大肠杆菌)。例如,除了A、G、T和C以外的核苷酸可以是d5SICS、dCNMO、dNaM和/或dTPT3,它们在掺入细胞的核酸中之后可以在核酸内形成稳定的非天然碱基对。在一方面,当用三磷酸转运蛋白的基因转化的生物体在包括磷酸钾和d5SICS、dNaM、dCNMO和/或dTPT3的三磷酸酯形式的生命支持培养基中生长时,非天然核苷酸和非天然碱基对可以通过生物体的复制装置稳定增殖。
在一些情形中,细胞包含扩展的遗传字母。细胞可以包含稳定掺入的非天然核酸。在一些实施方案中,具有扩展的遗传字母的细胞包含非天然核酸,所述非天然核酸含有可以与另一非天然核苷酸配对的非天然核苷酸。在一些实施方案中,具有扩展的遗传字母的细胞包含与另一核酸以氢键键结的非天然核酸。在一些实施方案中,具有扩展的遗传字母的细胞包含未与碱基配对的另一核酸以氢键键结的非天然核酸。在一些实施方案中,具有扩展的遗传字母的细胞包含非天然核酸,所述非天然核酸含有具有核碱基的非天然核苷酸,所述核碱基通过疏水和/或堆积相互作用与所述核碱基或另一非天然核苷酸进行碱基配对。在一些实施方案中,具有扩展的遗传字母的细胞包含经由非氢键相互作用与另一核酸碱基配对的非天然核酸。具有扩展的遗传字母的细胞可以是可以拷贝同源核酸以形成包含非天然核酸的核酸的细胞。具有扩展的遗传字母的细胞可以是包含与另一非天然核酸碱基配对的非天然核酸(非天然核酸碱基对(UBP))的细胞。
在一些实施方案中,细胞在体内条件下从输入的非天然核苷酸形成非天然DNA碱基对(UBP)。在一些实施方案中,磷酸钾和/或磷酸酶和/或核苷酸酶活性的抑制剂可以促进非天然核苷酸的转运。所述方法包括使用表达异源核苷三磷酸转运蛋白的细胞。在使这种细胞与一种或多种核苷三磷酸接触时,所述核苷三磷酸被转运至所述细胞中。细胞可以处于磷酸钾和/或磷酸酶和核苷酸酶的抑制剂的存在下。非天然核苷三磷酸可以通过细胞的天然机构(即聚合酶)被掺入细胞内的核酸中,并且例如可以在细胞的核酸内互相进行碱基配对以形成非天然碱基对。在一些实施方案中,UBP在带有非天然碱基的DNA与RNA核苷酸之间形成。
在一些实施方案中,UBP可以在暴露于非天然三磷酸酯时被掺入细胞或细胞群中。在一些实施方案中,UBP可以在基本上一致地暴露于非天然三磷酸酯时被掺入细胞或细胞群中。
在一些实施方案中,与没有诱导异源基因的表达的细胞的生长和所述细胞中一种或多种非天然三磷酸酯的摄取相比,在细胞中诱导异源基因(例如,核苷三磷酸转运蛋白(NTT))的表达可以导致更慢的细胞生长和增加的非天然三磷酸酯摄取。摄取不同地包括将核苷酸转运到细胞中,如通过扩散、渗透或通过转运蛋白的作用。在一些实施方案中,与没有诱导异源基因的表达的细胞的生长和摄取相比,在细胞中诱导异源基因(例如,NTT)的表达可以导致增加的细胞生长和增加的非天然核酸摄取。
在一些实施方案中,UBP是在对数生长期期间掺入。在一些实施方案中,UBP是在非对数生长期期间掺入。在一些实施方案中,UBP是在基本上线性的生长期期间掺入。在一些实施方案中,UBP是在生长一段时间后稳定掺入细胞或细胞群中。例如,UBP可以在生长至少约1、2、3、4、5、6,、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45或50或更多次倍增后稳定掺入细胞或细胞群中。例如,UBP可以在生长至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24小时生长后稳定掺入细胞或细胞群中。例如,UBP可以在生长至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31天生长后稳定掺入细胞或细胞群中。例如,UBP可以在生长至少约1、2、3、4、5、6、7、8、9、10、11或12个月生长后稳定掺入细胞或细胞群中。例如,UBP可以在生长至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、或50年生长后稳定掺入细胞或细胞群中。
在一些实施方案中,本文公开的半合成生物体包含含有选自以下的至少一种非天然核碱基的DNA:
Figure BDA0003498995360000571
Figure BDA0003498995360000572
在一些实施方案中,包含所述非天然碱基中的至少一种的半合成生物体的DNA形成非天然碱基对(UBP)。在一些实施方案中,非天然碱基对(UBP)是dCNMO-dTPT3、dNaM-dTPT3、dCNMO-dTAT1或dNaM-dTAT1。在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360000573
Figure BDA0003498995360000581
Figure BDA0003498995360000582
在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360000583
在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360000584
在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360000585
Figure BDA0003498995360000586
在一些实施方案中,所述DNA包含至少一种选自
Figure BDA0003498995360000587
的非天然核碱基。在一些实施方案中,所述DNA包含至少两种选自
Figure BDA0003498995360000588
的非天然核碱基。在一些实施方案中,所述DNA包含两条链,第一链包含至少一种为
Figure BDA0003498995360000591
的核碱基,并且第二链包含至少一种为
Figure BDA0003498995360000592
的核碱基。在一些实施方案中,所述DNA包含至少一种为
Figure BDA0003498995360000593
的非天然核碱基。
在一些实施方案中,细胞进一步利用RNA聚合酶产生含有一个或多个非天然核苷酸的mRNA。在一些实施方案中,RNA聚合酶是异源RNA聚合酶。在一些情况下,细胞进一步利用聚合酶产生含有反密码子的tRNA,所述反密码子包含一种或多种非天然核苷酸。在一些实施方案中,所述tRNA是异源tRNA。在一些情况下,所述tRNA装载有非天然氨基酸。在一些情况下,所述tRNA的非天然反密码子在翻译过程中与mRNA的非天然密码子配对以合成含有非天然氨基酸的蛋白质。
在一些实施方案中,本文公开的半合成生物体表达异源核苷三磷酸转运蛋白。在一些实施方案中,所述异源核苷三磷酸转运蛋白是PtNTT2。在一些实施方案中,所述半合成生物体还表达异源tRNA合成酶。在一些实施方案中,所述异源tRNA合成酶是巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS)。在一些实施方案中,所述半合成生物体表达核苷三磷酸转运蛋白PtNTT2,并且还表达tRNA合成酶巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS)。在一些实施方案中,所述半合成生物体还表达异源RNA聚合酶。在一些实施方案中,所述异源RNA聚合酶是T7 RNAP。在一些实施方案中,所述半合成生物体不表达具有DNA重组修复功能的蛋白质。在一些实施方案中,所述半合成生物体是大肠杆菌,并且所述生物体不表达RecA。
在一些实施方案中,所述半合成生物体还包含异源mRNA。在一些实施方案中,所述异源mRNA包含至少一种选自
Figure BDA0003498995360000594
的非天然碱基。在一些实施方案中,所述异源mRNA包含至少一种为
Figure BDA0003498995360000595
的非天然碱基。在一些实施方案中,所述异源mRNA包含至少一种为
Figure BDA0003498995360000596
的非天然碱基。在一些实施方案中,所述异源mRNA包含至少一种为
Figure BDA0003498995360000597
的非天然碱基。
在一些实施方案中,所述半合成生物体还包含异源tRNA。在一些实施方案中,所述异源tRNA包含至少一种选自
Figure BDA0003498995360000601
的非天然碱基。在一些实施方案中,所述异源tRNA包含至少一种为
Figure BDA0003498995360000602
的非天然碱基。在一些实施方案中,所述异源tRNA包含至少一种为
Figure BDA0003498995360000603
的非天然碱基。在一些实施方案中,所述异源tRNA包含至少一种为
Figure BDA0003498995360000604
的非天然碱基。
在一些实施方案中,本文公开的半合成生物体还包含异源mRNA和异源tRNA。在一些实施方案中,所述半合成生物体还包含(a)异源核苷三磷酸转运蛋白,(b)异源mRNA,(c)异源tRNA,(d)异源tRNA合成酶,和(e)异源RNA聚合酶,并且其中所述生物体不表达具有DNA重组修复功能的蛋白质。在一些实施方案中,所述核苷三磷酸转运蛋白是PtNTT2,所述tRNA合成酶是巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS),并且所述RNA聚合酶是T7RNAP。在一些实施方案中,所述半合成生物体是大肠杆菌,并且所述生物体不表达RecA。在一些实施方案中,所述半合成生物体过表达一种或多种DNA聚合酶。在一些实施方案中,所述生物体过表达DNA Pol II。
天然和非天然氨基酸
如本文所用,氨基酸残基可以指同时含有氨基和羧基的分子。合适的氨基酸包括而不限于天然存在的氨基酸的D-异构体和L-异构体二者,以及通过有机合成或任何其他方法制备的非天然存在的氨基酸。如本文所用,术语氨基酸包括而不限于α-氨基酸、β-氨基酸、天然存在的氨基酸、非规范氨基酸、非天然氨基酸和氨基酸类似物。
术语“α-氨基酸”可以指同时含有与命名为α-碳的碳结合的氨基和羧基的分子。例如:
Figure BDA0003498995360000605
术语“β-氨基酸”可以指呈β构型的同时含有氨基和羧基的分子。
“天然存在的氨基酸”可以指一般在自然界中合成的肽中发现的二十种氨基酸中的任一种,并且以单字母缩写A、R、N、C、D、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V而为人所知。
下表显示天然存在的氨基酸的特性的汇总:
Figure BDA0003498995360000611
“疏水氨基酸”包括小疏水氨基酸和大疏水氨基酸。“小疏水氨基酸”可以是甘氨酸、丙氨酸、脯氨酸及其类似物。“大疏水氨基酸”可以是缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸、甲硫氨酸、色氨酸及其类似物。“极性氨基酸”可以是丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、酪氨酸及其类似物。“带电荷的氨基酸”可以是赖氨酸、精氨酸、组氨酸、天冬氨酸、谷氨酸及其类似物。
“氨基酸类似物”可以是结构上与氨基酸类似并且可以在拟肽大环的形成中取代氨基酸的分子。氨基酸类似物包括而不限于β-氨基酸和其中氨基或羧基被类似反应性基团取代(例如,伯胺被仲胺或叔胺取代,或者羧基被酯取代)的氨基酸。
“非规范氨基酸(ncAA)”或“非天然氨基酸”或“非天然的氨基酸”可以是并非天然合成的肽中常见的并且以单字母缩写A、R、N、C、D、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V而为人所知的二十种氨基酸之一的氨基酸。在一些情况下,非天然氨基酸是非规范氨基酸的子集。
氨基酸类似物可以包括β-氨基酸类似物。β-氨基酸类似物的例子包括但不限于以下:环状β-氨基酸类似物;β-丙氨酸;(R)-β-苯丙氨酸;(R)-1,2,3,4-四氢-异喹啉-3-乙酸;(R)-3-氨基-4-(1-萘基)-丁酸;(R)-3-氨基-4-(2,4-二氯苯基)丁酸;(R)-3-氨基-4-(2-氯苯基)-丁酸;(R)-3-氨基-4-(2-氰基苯基)-丁酸;(R)-3-氨基-4-(2-氟苯基)-丁酸;(R)-3-氨基-4-(2-呋喃基)-丁酸;(R)-3-氨基-4-(2-甲基苯基)-丁酸;(R)-3-氨基-4-(2-萘基)-丁酸;(R)-3-氨基-4-(2-噻吩基)-丁酸;(R)-3-氨基-4-(2-三氟甲基苯基)-丁酸;(R)-3-氨基-4-(3,4-二氯苯基)丁酸;(R)-3-氨基-4-(3,4-二氟苯基)丁酸;(R)-3-氨基-4-(3-苯并噻吩基)-丁酸;(R)-3-氨基-4-(3-氯苯基)-丁酸;(R)-3-氨基-4-(3-氰基苯基)-丁酸;(R)-3-氨基-4-(3-氟苯基)-丁酸;(R)-3-氨基-4-(3-甲基苯基)-丁酸;(R)-3-氨基-4-(3-吡啶基)-丁酸;(R)-3-氨基-4-(3-噻吩基)-丁酸;(R)-3-氨基-4-(3-三氟甲基苯基)-丁酸;(R)-3-氨基-4-(4-溴苯基)-丁酸;(R)-3-氨基-4-(4-氯苯基)-丁酸;(R)-3-氨基-4-(4-氰基苯基)-丁酸;(R)-3-氨基-4-(4-氟苯基)-丁酸;(R)-3-氨基-4-(4-碘苯基)-丁酸;(R)-3-氨基-4-(4-甲基苯基)-丁酸;(R)-3-氨基-4-(4-硝基苯基)-丁酸;(R)-3-氨基-4-(4-吡啶基)-丁酸;(R)-3-氨基-4-(4-三氟甲基苯基)-丁酸;(R)-3-氨基-4-五氟-苯基丁酸;(R)-3-氨基-5-己烯酸;(R)-3-氨基-5-己炔酸;(R)-3-氨基-5-苯基戊酸;(R)-3-氨基-6-苯基-5-己烯酸;(S)-1,2,3,4-四氢-异喹啉-3-乙酸;(S)-3-氨基-4-(1-萘基)-丁酸;(S)-3-氨基-4-(2,4-二氯苯基)丁酸;(S)-3-氨基-4-(2-氯苯基)-丁酸;(S)-3-氨基-4-(2-氰基苯基)-丁酸;(S)-3-氨基-4-(2-氟苯基)-丁酸;(S)-3-氨基-4-(2-呋喃基)-丁酸;(S)-3-氨基-4-(2-甲基苯基)-丁酸;(S)-3-氨基-4-(2-萘基)-丁酸;(S)-3-氨基-4-(2-噻吩基)-丁酸;(S)-3-氨基-4-(2-三氟甲基苯基)-丁酸;(S)-3-氨基-4-(3,4-二氯苯基)丁酸;(S)-3-氨基-4-(3,4-二氟苯基)丁酸;(S)-3-氨基-4-(3-苯并噻吩基)-丁酸;(S)-3-氨基-4-(3-氯苯基)-丁酸;(S)-3-氨基-4-(3-氰基苯基)-丁酸;(S)-3-氨基-4-(3-氟苯基)-丁酸;(S)-3-氨基-4-(3-甲基苯基)-丁酸;(S)-3-氨基-4-(3-吡啶基)-丁酸;(S)-3-氨基-4-(3-噻吩基)-丁酸;(S)-3-氨基-4-(3-三氟甲基苯基)-丁酸;(S)-3-氨基-4-(4-溴苯基)-丁酸;(S)-3-氨基-4-(4-氯苯基)丁酸;(S)-3-氨基-4-(4-氰基苯基)-丁酸;(S)-3-氨基-4-(4-氟苯基)丁酸;(S)-3-氨基-4-(4-碘苯基)-丁酸;(S)-3-氨基-4-(4-甲基苯基)-丁酸;(S)-3-氨基-4-(4-硝基苯基)-丁酸;(S)-3-氨基-4-(4-吡啶基)-丁酸;(S)-3-氨基-4-(4-三氟甲基苯基)-丁酸;(S)-3-氨基-4-五氟-苯基丁酸;(S)-3-氨基-5-己烯酸;(S)-3-氨基-5-己炔酸;(S)-3-氨基-5-苯基戊酸;(S)-3-氨基-6-苯基-5-己烯酸;1,2,5,6-四氢吡啶-3-甲酸;1,2,5,6-四氢吡啶-4-甲酸;3-氨基-3-(2-氯苯基)-丙酸;3-氨基-3-(2-噻吩基)-丙酸;3-氨基-3-(3-溴苯基)-丙酸;3-氨基-3-(4-氯苯基)-丙酸;3-氨基-3-(4-甲氧基苯基)-丙酸;3-氨基-4,4,4-三氟-丁酸;3-氨基己二酸;D-β-苯丙氨酸;β-亮氨酸;L-β-高丙氨酸;L-β-高天冬氨酸γ-苄基酯;L-β-高谷氨酸δ-苄基酯;L-β-高异亮氨酸;L-β-高亮氨酸;L-β-高甲硫氨酸;L-β-高苯丙氨酸;L-β-高脯氨酸;L-β-高色氨酸;L-β-高缬氨酸;L-Nω-苄氧基羰基-β-高赖氨酸;Nω-L-β-高精氨酸;O-苄基-L-β-高羟脯氨酸;O-苄基-L-β-高丝氨酸;O-苄基-L-β-高苏氨酸;O-苄基-L-β-高酪氨酸;γ-三苯甲基-L-β-高天冬酰胺;(R)-β-苯丙氨酸;L-β-高天冬氨酸γ-叔丁基酯;L-β-高谷氨酸δ-叔丁基酯;L-Nω-β-高赖氨酸;Nδ-三苯甲基-L-β-高谷氨酰胺;Nω-2,2,4,6,7-五甲基-二氢苯并呋喃-5-磺酰基-L-β-高精氨酸;O-叔丁基-L-β-高羟脯氨酸;O-叔丁基-L-β-高丝氨酸;O-叔丁基-L-β-高苏氨酸;O-叔丁基-L-β-高酪氨酸;2-氨基环戊烷羧酸;和2-氨基环己烷羧酸。
氨基酸类似物可以包括丙氨酸、缬氨酸、甘氨酸或亮氨酸的类似物。丙氨酸、缬氨酸、甘氨酸和亮氨酸的氨基酸类似物的例子包括但不限于以下:α-甲氧基甘氨酸;α-烯丙基-L-丙氨酸;α-氨基异丁酸;α-甲基-亮氨酸;β-(1-萘基)-D-丙氨酸;β-(1-萘基)-L-丙氨酸;β-(2-萘基)-D-丙氨酸;β-(2-萘基)-L-丙氨酸;β-(2-吡啶基)-D-丙氨酸;β-(2-吡啶基)-L-丙氨酸;β-(2-噻吩基)-D-丙氨酸;β-(2-噻吩基)-L-丙氨酸;β-(3-苯并噻吩基)-D-丙氨酸;β-(3-苯并噻吩基)-L-丙氨酸;β-(3-吡啶基)-D-丙氨酸;β-(3-吡啶基)-L-丙氨酸;β-(4-吡啶基)-D-丙氨酸;β-(4-吡啶基)-L-丙氨酸;β-氯-L-丙氨酸;β-氰基-L-丙氨酸;β-环己基-D-丙氨酸;β-环己基-L-丙氨酸;β-环戊烯-1-基-丙氨酸;β-环戊基-丙氨酸;β-环丙基-L-Ala-OH.二环己基铵盐;β-叔丁基-D-丙氨酸;β-叔丁基-L-丙氨酸;γ-氨基丁酸;L-α,β-二氨基丙酸;2,4-二硝基-苯基甘氨酸;2,5-二氢-D-苯基甘氨酸;2-氨基-4,4,4-三氟丁酸;2-氟-苯基甘氨酸;3-氨基-4,4,4-三氟-丁酸;3-氟-缬氨酸;4,4,4-三氟-缬氨酸;4,5-脱氢-L-leu-OH.二环己基铵盐;4-氟-D-苯基甘氨酸;4-氟-L-苯基甘氨酸;4-羟基-D-苯基甘氨酸;5,5,5-三氟-亮氨酸;6-氨基己酸;环戊基-D-Gly-OH.二环己基铵盐;环戊基-Gly-OH.二环己基铵盐;D-α,β-二氨基丙酸;D-α-氨基丁酸;D-α-叔丁基甘氨酸;D-(2-噻吩基)甘氨酸;D-(3-噻吩基)甘氨酸;D-2-氨基己酸;D-2-茚满基甘氨酸;D-烯丙基甘氨酸-二环己基铵盐;D-环己基甘氨酸;D-正缬氨酸;D-苯基甘氨酸;β-氨基丁酸;β-氨基异丁酸;(2-溴苯基)甘氨酸;(2-甲氧基苯基)甘氨酸;(2-甲基苯基)甘氨酸;(2-噻唑基)甘氨酸;(2-噻吩基)甘氨酸;2-氨基-3-(二甲基氨基)-丙酸;L-α,β-二氨基丙酸;L-α-氨基丁酸;L-α-叔丁基甘氨酸;L-(3-噻吩基)甘氨酸;L-2-氨基-3-(二甲基氨基)-丙酸;L-2-氨基己酸二环己基-铵盐;L-2-茚满基甘氨酸;L-烯丙基甘氨酸二环己基铵盐;L-环己基甘氨酸;L-苯基甘氨酸;L-炔丙基甘氨酸;L-正缬氨酸;N-α-氨基甲基-L-丙氨酸;D-α,γ-二氨基丁酸;L-α,γ-二氨基丁酸;β-环丙基-L-丙氨酸;(N-β-(2,4-二硝基苯基))-L-α,β-二氨基丙酸;(N-β-1-(4,4-二甲基-2,6-二氧代环己-1-亚基)乙基)-D-α,β-二氨基丙酸;(N-β-1-(4,4-二甲基-2,6-二氧代环己-1-亚基)乙基)-L-α,β-二氨基丙酸;(N-β-4-甲基三苯甲基)-L-α,β-二氨基丙酸;(N-β-烯丙氧基羰基)-L-α,β-二氨基丙酸;(N-γ-1-(4,4-二甲基-2,6-二氧代环己-1-亚基)乙基)-D-α,γ-二氨基丁酸;(N-γ-1-(4,4-二甲基-2,6-二氧代环己-1-亚基)乙基)-L-α,γ-二氨基丁酸;(N-γ-4-甲基三苯甲基)-D-α,γ-二氨基丁酸;(N-γ-4-甲基三苯甲基)-L-α,γ-二氨基丁酸;(N-γ-烯丙氧基羰基)-L-α,γ-二氨基丁酸;D-α,γ-二氨基丁酸;4,5-脱氢-L-亮氨酸;环戊基-D-Gly-OH;环戊基-Gly-OH;D-烯丙基甘氨酸;D-高环己基丙氨酸;L-1-芘基丙氨酸;L-2-氨基己酸;L-烯丙基甘氨酸;L-高环己基丙氨酸;和N-(2-羟基-4-甲氧基-Bzl)-Gly-OH。
氨基酸类似物可以包括精氨酸或赖氨酸的类似物。精氨酸和赖氨酸的氨基酸类似物的例子包括但不限于以下:瓜氨酸;L-2-氨基-3-胍基丙酸;L-2-氨基-3-脲基丙酸;L-瓜氨酸;Lys(Me)2-OH;Lys(N3)-OH;Nδ-苄氧基羰基-L-鸟氨酸;Nω-硝基-D-精氨酸;Nω-硝基-L-精氨酸;α-甲基-鸟氨酸;2,6-二氨基庚二酸;L-鸟氨酸;(Nδ-1-(4,4-二甲基-2,6-二氧代-环己-1-亚基)乙基)-D-鸟氨酸;(Nδ-1-(4,4-二甲基-2,6-二氧代-环己-1-亚基)乙基)-L-鸟氨酸;(Nδ-4-甲基三苯甲基)-D-鸟氨酸;(Nδ-4-甲基三苯甲基)-L-鸟氨酸;D-鸟氨酸;L-鸟氨酸;Arg(Me)(Pbf)-OH;Arg(Me)2-OH(不对称);Arg(Me)2-OH(对称);Lys(ivDde)-OH;Lys(Me)2-OH.HCl;Lys(Me3)-OH氯化物;Nω-硝基-D-精氨酸;和Nω-硝基-L-精氨酸。
氨基酸类似物可以包括天冬氨酸或谷氨酸的类似物。天冬氨酸和谷氨酸的氨基酸类似物的例子包括但不限于以下:α-甲基-D-天冬氨酸;α-甲基-谷氨酸;α-甲基-L-天冬氨酸;γ-亚甲基-谷氨酸;(N-γ-乙基)-L-谷氨酰胺;[N-α-(4-氨基苯甲酰基)]-L-谷氨酸;2,6-二氨基庚二酸;L-α-氨基辛二酸;D-2-氨基己二酸;D-α-氨基辛二酸;α-氨基庚二酸;亚氨基二乙酸;L-2-氨基己二酸;苏式-β-甲基-天冬氨酸;γ-羧基-D-谷氨酸γ,γ-二-叔丁基酯;γ-羧基-L-谷氨酸γ,γ-二-叔丁基酯;Glu(OAll)-OH;L-Asu(OtBu)-OH;和焦谷氨酸。
氨基酸类似物可以包括半胱氨酸和甲硫氨酸的类似物。半胱氨酸和甲硫氨酸的氨基酸类似物的例子包括但不限于以下:Cys(法呢基)-OH、Cys(法呢基)-OMe、α-甲基-甲硫氨酸、Cys(2-羟乙基)-OH、Cys(3-氨基丙基)-OH、2-氨基-4-(乙硫基)丁酸、丁硫氨酸、丁硫氨酸亚砜亚胺、乙硫氨酸、甲硫氨酸甲基锍氯化物、硒代甲硫氨酸、磺基丙氨酸、[2-(4-吡啶基)乙基]-DL-青霉胺、[2-(4-吡啶基)乙基]-L-半胱氨酸、4-甲氧基苄基-D-青霉胺、4-甲氧基苄基-L-青霉胺、4-甲基苄基-D-青霉胺、4-甲基苄基-L-青霉胺、苄基-D-半胱氨酸、苄基-L-半胱氨酸、苄基-DL-高半胱氨酸、氨基甲酰基-L-半胱氨酸、羧乙基-L-半胱氨酸、羧甲基-L-半胱氨酸、二苯基甲基-L-半胱氨酸、乙基-L-半胱氨酸、甲基-L-半胱氨酸、叔丁基-D-半胱氨酸、三苯甲基-L-高半胱氨酸、三苯甲基-D-青霉胺、胱硫醚、高胱氨酸、L-高胱氨酸、(2-氨基乙基)-L-半胱氨酸、硒代-L-胱氨酸、胱硫醚、Cys(StBu)-OH和乙酰胺基甲基-D-青霉胺。
氨基酸类似物可以包括苯丙氨酸和酪氨酸的类似物。苯丙氨酸和酪氨酸的氨基酸类似物的例子包括但不限于以下:β-甲基-苯丙氨酸、β-羟基苯丙氨酸、α-甲基-3-甲氧基-DL-苯丙氨酸、α-甲基-D-苯丙氨酸、α-甲基-L-苯丙氨酸、1,2,3,4-四氢异喹啉-3-甲酸、2,4-二氯-苯丙氨酸、2-(三氟甲基)-D-苯丙氨酸、2-(三氟甲基)-L-苯丙氨酸、2-溴-D-苯丙氨酸、2-溴-L-苯丙氨酸、2-氯-D-苯丙氨酸、2-氯-L-苯丙氨酸、2-氰基-D-苯丙氨酸、2-氰基-L-苯丙氨酸、2-氟-D-苯丙氨酸、2-氟-L-苯丙氨酸、2-甲基-D-苯丙氨酸、2-甲基-L-苯丙氨酸、2-硝基-D-苯丙氨酸、2-硝基-L-苯丙氨酸、2;4;5-三羟基-苯丙氨酸、3,4,5-三氟-D-苯丙氨酸、3,4,5-三氟-L-苯丙氨酸、3,4-二氯-D-苯丙氨酸、3,4-二氯-L-苯丙氨酸、3,4-二氟-D-苯丙氨酸、3,4-二氟-L-苯丙氨酸、3,4-二羟基-L-苯丙氨酸、3,4-二甲氧基-L-苯丙氨酸、3,5,3'-三碘-L-甲状腺原氨酸、3,5-二碘-D-酪氨酸、3,5-二碘-L-酪氨酸、3,5-二碘-L-甲状腺原氨酸、3-(三氟甲基)-D-苯丙氨酸、3-(三氟甲基)-L-苯丙氨酸、3-氨基-L-酪氨酸、3-溴-D-苯丙氨酸、3-溴-L-苯丙氨酸、3-氯-D-苯丙氨酸、3-氯-L-苯丙氨酸、3-氯-L-酪氨酸、3-氰基-D-苯丙氨酸、3-氰基-L-苯丙氨酸、3-氟-D-苯丙氨酸、3-氟-L-苯丙氨酸、3-氟-酪氨酸、3-碘-D-苯丙氨酸、3-碘-L-苯丙氨酸、3-碘-L-酪氨酸、3-甲氧基-L-酪氨酸、3-甲基-D-苯丙氨酸、3-甲基-L-苯丙氨酸、3-硝基-D-苯丙氨酸、3-硝基-L-苯丙氨酸、3-硝基-L-酪氨酸、4-(三氟甲基)-D-苯丙氨酸、4-(三氟甲基)-L-苯丙氨酸、4-氨基-D-苯丙氨酸、4-氨基-L-苯丙氨酸、4-苯甲酰基-D-苯丙氨酸、4-苯甲酰基-L-苯丙氨酸、4-双(2-氯乙基)氨基-L-苯丙氨酸、4-溴-D-苯丙氨酸、4-溴-L-苯丙氨酸、4-氯-D-苯丙氨酸、4-氯-L-苯丙氨酸、4-氰基-D-苯丙氨酸、4-氰基-L-苯丙氨酸、4-氟-D-苯丙氨酸、4-氟-L-苯丙氨酸、4-碘-D-苯丙氨酸、4-碘-L-苯丙氨酸、高苯丙氨酸、甲状腺素、3,3-二苯丙氨酸、甲状腺原氨酸、乙基-酪氨酸和甲基-酪氨酸。
氨基酸类似物可以包括脯氨酸的类似物。脯氨酸的氨基酸类似物的例子包括但不限于以下:3,4-脱氢-脯氨酸、4-氟-脯氨酸、顺式-4-羟基-脯氨酸、噻唑烷-2-甲酸和反式-4-氟-脯氨酸。
氨基酸类似物可以包括丝氨酸和苏氨酸的类似物。丝氨酸和苏氨酸的氨基酸类似物的例子包括但不限于以下:3-氨基-2-羟基-5-甲基己酸、2-氨基-3-羟基-4-甲基戊酸、2-氨基-3-乙氧基丁酸、2-氨基-3-甲氧基丁酸、4-氨基-3-羟基-6-甲基庚酸、2-氨基-3-苄氧基丙酸、2-氨基-3-苄氧基丙酸、2-氨基-3-乙氧基丙酸、4-氨基-3-羟基丁酸和α-甲基丝氨酸。
氨基酸类似物可以包括色氨酸的类似物。色氨酸的氨基酸类似物的例子包括但不限于以下:α-甲基-色氨酸;β-(3-苯并噻吩基)-D-丙氨酸;β-(3-苯并噻吩基)-L-丙氨酸;1-甲基-色氨酸;4-甲基-色氨酸;5-苄氧基-色氨酸;5-溴-色氨酸;5-氯-色氨酸;5-氟-色氨酸;5-羟基-色氨酸;5-羟基-L-色氨酸;5-甲氧基-色氨酸;5-甲氧基-L-色氨酸;5-甲基-色氨酸;6-溴-色氨酸;6-氯-D-色氨酸;6-氯-色氨酸;6-氟-色氨酸;6-甲基-色氨酸;7-苄氧基-色氨酸;7-溴-色氨酸;7-甲基-色氨酸;D-1,2,3,4-四氢-去甲哈尔满-3-甲酸;6-甲氧基-1,2,3,4-四氢去甲哈尔满-1-甲酸;7-氮杂色氨酸;L-1,2,3,4-四氢-去甲哈尔满-3-甲酸;5-甲氧基-2-甲基-色氨酸;和6-氯-L-色氨酸。
氨基酸类似物可以是外消旋的。在一些情况下,使用氨基酸类似物的D异构体。在一些情形中,使用氨基酸类似物的L异构体。在一些情况下,氨基酸类似物包含呈R或S构型的手性中心。有时,β-氨基酸类似物的一个或多个氨基被保护基团取代,所述保护基团例如叔丁氧基羰基(BOC基团)、9-芴基甲氧基羰基(FMOC)、甲苯磺酰基等。有时,β-氨基酸类似物的羧酸官能团受保护,例如,作为其酯衍生物受保护。在一些情形中,使用氨基酸类似物的盐。
在一些实施方案中,非天然氨基酸是描述于以下中的非天然氨基酸:Liu C.C.,Schultz,P.G.Annu.Rev.Biochem.2010,79,413,将这些文献的披露内容通过引用以其整体特此并入。在一些实施方案中,非天然氨基酸包括N6(2-叠氮基乙氧基)-羰基-L-赖氨酸。
在一些实施方案中,在与缀合部分结合之前,本文所述的氨基酸残基(例如,在蛋白质内)突变为非天然氨基酸。在一些情形中,突变为非天然氨基酸防止或最小化免疫系统的自身抗原反应。如本文所用,术语“非天然氨基酸”是指除蛋白质中天然存在的20种氨基酸之外的氨基酸。非天然氨基酸的非限制性例子包括:对-乙酰基-L-苯丙氨酸、对-碘-L-苯丙氨酸、对-甲氧基苯丙氨酸、O-甲基-L-酪氨酸、对-炔丙基氧基苯丙氨酸、对-炔丙基-苯丙氨酸、L-3-(2-萘基)丙氨酸、3-甲基-苯丙氨酸、O-4-烯丙基-L-酪氨酸、4-丙基-L-酪氨酸、三-O-乙酰基-GlcNAcp-丝氨酸、L-多巴、氟化苯丙氨酸、异丙基-L-苯丙氨酸、对-叠氮基-L-苯丙氨酸、对-酰基-L-苯丙氨酸、对-苯甲酰基-L-苯丙氨酸、对-硼酸基苯丙氨酸、O-炔丙基酪氨酸、L-磷酸丝氨酸、膦酰丝氨酸、膦酰酪氨酸、对-溴苯丙氨酸、硒代半胱氨酸、对-氨基-L-苯丙氨酸、异丙基-L-苯丙氨酸、叠氮基-赖氨酸(N6-叠氮基乙氧基-羰基-L-赖氨酸,AzK)、酪氨酸氨基酸的非天然类似物;谷氨酰胺氨基酸的非天然类似物;苯丙氨酸氨基酸的非天然类似物;丝氨酸氨基酸的非天然类似物;苏氨酸氨基酸的非天然类似物;烷基、芳基、酰基、叠氮基、氰基、卤素、肼、酰肼、羟基、烯基、炔基、醚、硫醇、磺酰基、硒代、酯、硫代酸、硼酸盐、硼酸酯、磷酸、膦酰、磷化氢、杂环、烯酮、亚胺、醛、羟胺、酮或氨基取代的氨基酸或其组合;具有可光活化的交联剂的氨基酸;自旋标记的氨基酸;荧光氨基酸;金属结合氨基酸;含金属的氨基酸;放射性氨基酸;光笼化和/或光异构化氨基酸;含有生物素或生物素类似物的氨基酸;含有酮的氨基酸;包含聚乙二醇或聚醚的氨基酸;重原子取代的氨基酸;化学可裂解或可光裂解的氨基酸;具有延长的侧链的氨基酸;含有毒性基团的氨基酸;糖取代的氨基酸;碳连接的含糖氨基酸;氧化还原活性氨基酸;含α-羟基的酸;氨基硫代酸;α,α二取代氨基酸;β-氨基酸;除脯氨酸或组氨酸之外的环状氨基酸,以及除苯丙氨酸、酪氨酸或色氨酸之外的芳族氨基酸。
在一些实施方案中,非天然氨基酸包含选择性反应基团,或用于位点选择性标记靶蛋白或多肽的反应基团。在一些情况下,化学是双正交反应(例如,生物相容性和选择性反应)。在一些情况下,化学是Cu(I)催化或“无铜”炔-叠氮三唑形成反应、施陶丁格连接(Staudinger ligation)、反电子需求的迪尔斯-阿尔德(inverse-electron-demandDiels-Alder,IEDDA)反应、“光-点击”化学或金属介导的过程(如烯烃复分解和铃木-宫浦(Suzuki-Miyaura)或薗头(Sonogashira)交叉偶联)。在一些实施方案中,非天然氨基酸包含光反应性基团,所述光反应性基团在用例如UV辐照时交联。在一些实施方案中,非天然氨基酸包括光笼化氨基酸。在一些情况下,非天然氨基酸是对位取代、间位取代或邻位取代的氨基酸衍生物。
在一些情况下,非天然氨基酸包括对-乙酰基-L-苯丙氨酸、对-叠氮基甲基-L-苯丙氨酸(pAMF)、对-碘-L-苯丙氨酸、O-甲基-L-酪氨酸、对-甲氧基苯丙氨酸、对-炔丙基氧基苯丙氨酸、对-炔丙基-苯丙氨酸、L-3-(2-萘基)丙氨酸、3-甲基-苯丙氨酸、O-4-烯丙基-L-酪氨酸、4-丙基-L-酪氨酸、三-O-乙酰基-GlcNAcp-丝氨酸、L-多巴、氟化苯丙氨酸、异丙基-L-苯丙氨酸、对-叠氮基-L-苯丙氨酸、对-酰基-L-苯丙氨酸、对-苯甲酰基-L-苯丙氨酸、L-磷酸丝氨酸、膦酰丝氨酸、膦酰酪氨酸、对-溴苯丙氨酸、对-氨基-L-苯丙氨酸或异丙基-L-苯丙氨酸。
在一些情形中,非天然氨基酸是3-氨基酪氨酸、3-硝基酪氨酸、3,4-二羟基-苯丙氨酸或3-碘酪氨酸。在一些情形中,非天然氨基酸是苯基硒代半胱氨酸。在一些情况下,非天然氨基酸是含二苯甲酮、酮、碘化物、甲氧基、乙酰基、苯甲酰基或叠氮化物的苯丙氨酸衍生物。在一些情况下,非天然氨基酸是含二苯甲酮、酮、碘化物、甲氧基、乙酰基、苯甲酰基或叠氮化物的赖氨酸衍生物。在一些情况下,非天然氨基酸包含芳族侧链。在一些情况下,非天然氨基酸不包含芳族侧链。在一些情况下,非天然氨基酸包含叠氮基。在一些情况下,非天然氨基酸包含迈克尔(Michael)受体基团。在一些情况下,受体基团包含能够通过1,2-加成反应形成共价键的不饱和部分。在一些情况下,受体基团包括缺电子的烯烃或炔烃。在一些情况下,受体基团包括但不限于α、β不饱和的:酮、醛、亚砜、砜、腈、亚胺或芳族化合物。在一些情况下,非天然氨基酸是脱氢丙氨酸。在一些情况下,非天然氨基酸包含醛或酮基团。在一些情况下,非天然氨基酸是包含醛或酮基团的赖氨酸衍生物。在一些情况下,非天然氨基酸是在β、γ或δ位置处包含一个或多个O、N、Se或S原子的赖氨酸衍生物。在一些情况下,非天然氨基酸是在γ位置处包含O、N、Se或S原子的赖氨酸衍生物。在一些情况下,非天然氨基酸是赖氨酸衍生物,其中εN原子被氧原子替代。在一些情况下,非天然氨基酸是赖氨酸衍生物,其不是天然存在的经翻译后修饰的赖氨酸。
在一些情况下,非天然氨基酸是包含侧链的氨基酸,其中从α位置起的第六个原子包含羰基。在一些情况下,非天然氨基酸是包含侧链的氨基酸,其中从α位置起的第六个原子包含羰基,并且从α位置起的第五个原子是氮。在一些情况下,非天然氨基酸是包含侧链的氨基酸,其中从α位置起的第七个原子是氧原子。
在一些情况下,非天然氨基酸是包含硒的丝氨酸衍生物。在一些情况下,非天然氨基酸是硒代丝氨酸(2-氨基-3-氢硒代丙酸)。在一些情况下,非天然氨基酸是2-氨基-3-((2-((3-(苄氧基)-3-氧丙基)氨基)乙基)硒基)丙酸。在一些情况下,非天然氨基酸是2-氨基-3-(苯基硒基)丙酸。在一些情况下,非天然氨基酸包含硒,其中硒的氧化导致形成包含烯烃的非天然氨基酸。
在一些情况下,非天然氨基酸包含环辛炔基。在一些情况下,非天然氨基酸包含反式环辛烯基。在一些情况下,非天然氨基酸包含降冰片烯基。在一些情况下,非天然氨基酸包含环丙烯基。在一些情况下,非天然氨基酸包含二氮杂环丙烯基团。在一些情况下,非天然氨基酸包含四嗪基团。
在一些情况下,非天然氨基酸是赖氨酸衍生物,其中侧链氮被氨甲酰化。在一些情况下,非天然氨基酸是赖氨酸衍生物,其中侧链氮被酰化。在一些情况下,非天然氨基酸是2-氨基-6-{[(叔丁氧基)羰基]氨基}己酸。在一些情况下,非天然氨基酸是2-氨基-6-{[(叔丁氧基)羰基]氨基}己酸。在一些情况下,非天然氨基酸是N6-Boc-N6-甲基赖氨酸。在一些情况下,非天然氨基酸是N6-乙酰基赖氨酸。在一些情况下,非天然氨基酸是吡咯赖氨酸。在一些情况下,非天然氨基酸是N6-三氟乙酰基赖氨酸。在一些情况下,非天然氨基酸是2-氨基-6-{[(苄氧基)羰基]氨基}己酸。在一些情况下,非天然氨基酸是2-氨基-6-{[(对-碘代苄氧基)羰基]氨基}己酸。在一些情况下,非天然氨基酸是2-氨基-6-{[(对-硝基苄氧基)羰基]氨基}己酸。在一些情况下,非天然氨基酸是N6-脯氨酰基赖氨酸。在一些情况下,非天然氨基酸是2-氨基-6-{[(环戊基氧基)羰基]氨基}己酸。在一些情况下,非天然氨基酸是N6-(环戊烷羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-(四氢呋喃-2-羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-(3-乙炔基四氢呋喃-2-羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-((丙-2-炔-1-基氧基)羰基)赖氨酸。在一些情况下,非天然氨基酸是2-氨基-6-{[(2-叠氮基环戊基氧基)羰基]氨基}己酸。在一些情况下,非天然氨基酸是N6-((2-叠氮基乙氧基)羰基)赖氨酸。在一些情况下,非天然氨基酸是2-氨基-6-{[(2-硝基苄氧基)羰基]氨基}己酸。在一些情况下,非天然氨基酸是2-氨基-6-{[(2-环辛炔基氧基)羰基]氨基}己酸。在一些情况下,非天然氨基酸是N6-(2-氨基丁-3-炔酰基)赖氨酸。在一些情况下,非天然氨基酸是2-氨基-6-((2-氨基丁-3-炔酰基)氧基)己酸。在一些情况下,非天然氨基酸是N6-(烯丙氧基羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-(丁烯基-4-氧羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-(戊烯基-5-氧羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-((丁-3-炔-1-基氧基)羰基)-赖氨酸。在一些情况下,非天然氨基酸是N6-((戊-4-炔-1-基氧基)羰基)-赖氨酸。在一些情况下,非天然氨基酸是N6-(噻唑烷-4-羰基)赖氨酸。在一些情况下,非天然氨基酸是2-氨基-8-氧代壬酸。在一些情况下,非天然氨基酸是2-氨基-8-氧代辛酸。在一些情况下,非天然氨基酸是N6-(2-氧代乙酰基)赖氨酸。
在一些情况下,非天然氨基酸是N6-丙酰基赖氨酸。在一些情况下,非天然氨基酸是N6-丁酰基赖氨酸。在一些情况下,非天然氨基酸是N6-(丁-2-烯酰基)赖氨酸。在一些情况下,非天然氨基酸是N6-((双环[2.2.1]庚-5-烯-2-基氧基)羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-((螺[2.3]己-1-烯-5-基甲氧基)羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-(((4-(1-(三氟甲基)环丙-2-烯-1-基)苄基)氧基)羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-((双环[2.2.1]庚-5-烯-2-基甲氧基)羰基)赖氨酸。在一些情况下,非天然氨基酸是半胱氨酸赖氨酸。在一些情况下,非天然氨基酸是N6-((1-(6-硝基苯并[d][1,3]二氧杂环戊烯-5-基)乙氧基)羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-((2-(3-甲基-3H-二氮杂环丙烯-3-基)乙氧基)羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-((3-(3-甲基-3H-二氮杂环丙烯-3-基)丙氧基)羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-((间硝基苄氧基)N6-甲基羰基)赖氨酸。在一些情况下,非天然氨基酸是N6-((双环[6.1.0]壬-4-炔-9-基甲氧基)羰基)-赖氨酸。在一些情况下,非天然氨基酸是N6-((环庚-3-烯-1-基氧基)羰基)-L-赖氨酸。
在一些情况下,非天然氨基酸是2-氨基-3-(((((苄氧基)羰基)氨基)甲基)硒基)丙酸。在一些实施方案中,非天然氨基酸通过重新目的化的琥珀、蛋白石或赭石终止密码子掺入蛋白质中。在一些实施方案中,非天然氨基酸通过4碱基密码子掺入蛋白质中。在一些实施方案中,非天然氨基酸通过重新目的化的稀有有义密码子掺入蛋白质中。
在一些实施方案中,非天然氨基酸通过包含非天然核苷酸的非天然密码子掺入蛋白质中。
在一些实施方案中,所述蛋白质包含至少两个非天然氨基酸。在一些实施方案中,所述蛋白质包含至少三个非天然氨基酸。在一些实施方案中,所述蛋白质包含至少两个不同的非天然氨基酸。在一些实施方案中,所述蛋白质包含至少三个不同的非天然氨基酸。所述至少一个非天然氨基酸:是赖氨酸类似物;包含芳香族侧链;包含叠氮基;包含炔基;或者包含醛或酮基。在一些实施方案中,所述至少一个非天然氨基酸不包含芳族侧链。在一些实施方案中,所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)或N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。在一些实施方案中,所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)。在一些实施方案中,所述至少一个非天然氨基酸包括N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。
在一些情况下,将非天然氨基酸掺入蛋白质是由正交的、修饰的合成酶/tRNA对介导的。此类正交对包含天然或突变的合成酶,所述天然或突变的合成酶能够使非天然tRNA装载有特定的非天然氨基酸,通常同时最小化:a)其他内源氨基酸或替代非天然氨基酸在非天然tRNA和b)任何其他(包括内源性)tRNA上的装载。此类正交对包含tRNA,所述tRNA能够通过合成酶进行装载,同时避免通过内源性合成酶装载其他内源性氨基酸。在一些实施方案中,从各种生物体(如细菌、酵母、古细菌或人来源)鉴定出此类对。在一些实施方案中,正交合成酶/tRNA对包含来自单一生物体的组分。在一些实施方案中,正交合成酶/tRNA对包含来自两种不同的生物体的组分。在一些实施方案中,正交合成酶/tRNA对包含在修饰之前促进不同氨基酸翻译的组分。在一些实施方案中,正交合成酶是经修饰的丙氨酸合成酶。在一些实施方案中,正交合成酶是修饰的精氨酸合成酶。在一些实施方案中,正交合成酶是修饰的天冬酰胺合成酶。在一些实施方案中,正交合成酶是修饰的天冬氨酸合成酶。在一些实施方案中,正交合成酶是修饰的半胱氨酸合成酶。在一些实施方案中,正交合成酶是修饰的谷氨酰胺合成酶。在一些实施方案中,正交合成酶是修饰的谷氨酸合成酶。在一些实施方案中,正交合成酶是修饰的丙氨酸甘氨酸。在一些实施方案中,正交合成酶是修饰的组氨酸合成酶。在一些实施方案中,正交合成酶是修饰的亮氨酸合成酶。在一些实施方案中,正交合成酶是修饰的异亮氨酸合成酶。在一些实施方案中,正交合成酶是修饰的赖氨酸合成酶。在一些实施方案中,正交合成酶是修饰的甲硫氨酸合成酶。在一些实施方案中,正交合成酶是修饰的苯丙氨酸合成酶。在一些实施方案中,正交合成酶是修饰的脯氨酸合成酶。在一些实施方案中,正交合成酶是修饰的丝氨酸合成酶。在一些实施方案中,正交合成酶是修饰的苏氨酸合成酶。在一些实施方案中,正交合成酶是修饰的色氨酸合成酶。在一些实施方案中,正交合成酶是修饰的酪氨酸合成酶。在一些实施方案中,正交合成酶是修饰的缬氨酸合成酶。在一些实施方案中,正交合成酶是修饰的磷酸丝氨酸合成酶。在一些实施方案中,正交tRNA是修饰的丙氨酸tRNA。在一些实施方案中,正交tRNA是修饰的精氨酸tRNA。在一些实施方案中,正交tRNA是修饰的天冬酰胺tRNA。在一些实施方案中,正交tRNA是修饰的天冬氨酸tRNA。在一些实施方案中,正交tRNA是修饰的半胱氨酸tRNA。在一些实施方案中,正交tRNA是修饰的谷氨酰胺tRNA。在一些实施方案中,正交tRNA是修饰的谷氨酸tRNA。在一些实施方案中,正交tRNA是修饰的丙氨酸甘氨酸。在一些实施方案中,正交tRNA是修饰的组氨酸tRNA。在一些实施方案中,正交tRNA是修饰的亮氨酸tRNA。在一些实施方案中,正交tRNA是修饰的异亮氨酸tRNA。在一些实施方案中,正交tRNA是修饰的赖氨酸tRNA。在一些实施方案中,正交tRNA是修饰的甲硫氨酸tRNA。在一些实施方案中,正交tRNA是修饰的苯丙氨酸tRNA。在一些实施方案中,正交tRNA是修饰的脯氨酸tRNA。在一些实施方案中,正交tRNA是修饰的丝氨酸tRNA。在一些实施方案中,正交tRNA是修饰的苏氨酸tRNA。在一些实施方案中,正交tRNA是修饰的色氨酸tRNA。在一些实施方案中,正交tRNA是修饰的酪氨酸tRNA。在一些实施方案中,正交tRNA是修饰的缬氨酸tRNA。在一些实施方案中,正交tRNA是修饰的磷酸丝氨酸tRNA。在这些实施方案中的任一个中,tRNA可以是异源tRNA。
在一些实施方案中,非天然氨基酸通过氨酰(aaRS或RS)-tRNA合成酶-tRNA对掺入蛋白质中。示例性aaRS-tRNA对包括但不限于詹氏甲烷球菌(Methanococcus jannaschii)(Mj-Tyr)aaRS/tRNA对、大肠杆菌TyrRS(Ec-Tyr)/嗜热脂肪芽孢杆菌(B.stearothermophilus)tRNACUA对、大肠杆菌LeuRS(Ec-Leu)/嗜热脂肪芽孢杆菌tRNACUA对和吡咯赖氨酰-tRNA对。在一些情况下,非天然氨基酸通过Mj-TyrRS/tRNA对掺入蛋白质中。可以通过Mj-TyrRS/tRNA对掺入的示例性非天然氨基酸(UAA)包括但不限于对位取代的苯丙氨酸衍生物,如对-氨基苯丙氨酸和对-甲氧基苯丙氨酸;间位取代的酪氨酸衍生物,如3-氨基酪氨酸、3-硝基酪氨酸、3,4-二羟基苯丙氨酸和3-碘酪氨酸;苯基硒代半胱氨酸;对-硼苯丙氨酸;以及邻-硝基苄基酪氨酸。
在一些情况下,非天然氨基酸通过Ec-Tyr/tRNACUA或Ec-Leu/tRNACUA对掺入蛋白质中。可以通过Ec-Tyr/tRNACUA或Ec-Leu/tRNACUA对掺入的示例性UAA包括但不限于含有苯甲酮、酮、碘化物或叠氮化物取代基的苯丙氨酸衍生物;O-炔丙基酪氨酸;α-氨基辛酸、O-甲基酪氨酸、O-硝基苄基半胱氨酸;和3-(萘-2-基氨基)-2-氨基-丙酸。
在一些情况下,非天然氨基酸通过吡咯赖氨酰-tRNA对掺入蛋白质中。在一些情形中,PylRS获自古细菌物种,例如获自产甲烷的古细菌。在一些情形中,PylRS获自巴氏甲烷八叠球菌(Methanosarcina barkeri)、马氏甲烷八叠球菌(Methanosarcina mazei)或乙酸甲烷八叠球菌(Methanosarcina acetivorans)。可以通过吡咯赖氨酰-tRNA对掺入的示例性UAA包括但不限于酰胺和氨基甲酸酯取代的赖氨酸,如2-氨基-6-((R)-四氢呋喃-2-甲酰胺基)己酸、N-ε-D-脯氨酰基-L-赖氨酸和N-ε-环戊基氧基羰基-L-赖氨酸;N-ε-丙烯酰基-L-赖氨酸;N-ε-[(1-(6-硝基苯并[d][1,3]二氧杂环戊烯-5-基)乙氧基)羰基]-L-赖氨酸;和N-ε-(1-甲基环丙-2-烯甲酰氨基)赖氨酸。
在一些情况下,将非天然氨基酸通过US 9,988,619和US 9,938,516中披露的合成酶掺入本文所述的蛋白质中,将所述文献的每一个的披露内容通过引用以其整体特此并入。可以通过此类合成酶掺入的示例性UAA包括对-甲基叠氮基-L-苯丙氨酸、芳烷基、杂环基、杂芳烷基非天然氨基酸等。在一些实施方案中,此类UAA包含吡啶基、吡嗪基、吡唑基、三唑基、噁唑基、噻唑基、噻吩基或其他杂环。在一些实施方案中,此类氨基酸包含叠氮化物、四嗪或能够与偶联配偶体(如水溶性部分)缀合的其他化学基团。在一些实施方案中,此类合成酶被表达并用于将UAA在体内掺入蛋白质中。在一些实施方案中,使用无细胞翻译系统使用此类合成酶将UAA掺入蛋白质中。
在一些情况下,将非天然氨基酸通过天然存在的合成酶掺入本文所述的蛋白质中。在一些实施方案中,将非天然氨基酸通过对一种或多种氨基酸营养缺陷的生物体掺入蛋白质中。在一些实施方案中,对应于营养缺陷型氨基酸的合成酶能够将非天然氨基酸装载在相应的tRNA上。在一些实施方案中,非天然氨基酸是硒代半胱氨酸或其衍生物。在一些实施方案中,非天然氨基酸是硒代甲硫氨酸或其衍生物。在一些实施方案中,非天然氨基酸是芳族氨基酸,其中芳族氨基酸包含芳基卤化物,如碘化物。在实施方案中,非天然氨基酸在结构上与营养缺陷型氨基酸相似。
在一些情况下,非天然氨基酸包括图8A所示的非天然氨基酸。
在一些情况下,非天然氨基酸包括赖氨酸或苯丙氨酸衍生物或类似物。在一些情况下,非天然氨基酸包括赖氨酸衍生物或赖氨酸类似物。在一些情况下,非天然氨基酸包括吡咯赖氨酸(Pyl)。在一些情况下,非天然氨基酸包括苯丙氨酸衍生物或苯丙氨酸类似物。在一些情况下,非天然氨基酸是Wan等人,“Pyrrolysyl-tRNA synthetase:an ordinaryenzyme but an outstanding genetic code expansion tool,”Biocheim BiophysAceta1844(6):1059-4070(2014)中描述的非天然氨基酸。在一些情况下,非天然氨基酸包括图8B和图8C所展示的非天然氨基酸。
在一些实施方案中,非天然氨基酸包括图8D-图8G所展示的非天然氨基酸(从Dumas等人,Chemical Science 2015,6,50-69的表1获得)。
在一些实施方案中,本文所述的掺入蛋白质中的非天然氨基酸披露于US9,840,493;US 9,682,934;US 2017/0260137;US 9,938,516;或US 2018/0086734;将所述文献的每一个的披露内容通过引用以其整体特此并入。可以通过此类合成酶掺入的示例性UAA包括对-甲基叠氮基-L-苯丙氨酸、芳烷基、杂环基和杂芳烷基,以及赖氨酸衍生物非天然氨基酸。在一些实施方案中,此类UAA包含吡啶基、吡嗪基、吡唑基、三唑基、噁唑基、噻唑基、噻吩基或其他杂环。在一些实施方案中,此类氨基酸包含叠氮化物、四嗪或能够与偶联配偶体(如水溶性部分)缀合的其他化学基团。在一些实施方案中,UAA包含经由烷基接头附接至芳族部分的叠氮化物。在一些实施方案中,烷基接头是C1-C10接头。在一些实施方案中,UAA包含经由烷基接头附接至芳族部分的四嗪。在一些实施方案中,UAA包含经由氨基附接至芳族部分的四嗪。在一些实施方案中,UAA包含经由烷基氨基附接至芳族部分的四嗪。在一些实施方案中,UAA包含经由烷基链附接至氨基酸侧链的末端氮(例如,赖氨酸衍生物的N6,或包含较短烷基侧链的衍生物的N5、N4或N3)的叠氮化物。在一些实施方案中,UAA包含经由烷基链附接至氨基酸侧链的末端氮的四嗪。在一些实施方案中,UAA包含经由烷基接头附接至酰胺的叠氮化物或四嗪。在一些实施方案中,UAA是3-氨基丙氨酸、丝氨酸、赖氨酸或其衍生物的含有叠氮化物或四嗪的氨基甲酸酯或酰胺。在一些实施方案中,将此类UAA在体内掺入蛋白质中。在一些实施方案中,将此类UAA在无细胞系统中掺入蛋白质中。
细胞类型
在一些实施方案中,使用许多类型的细胞/微生物,例如,用于转化或基因工程化。在一些实施方案中,细胞是原核细胞或真核细胞。在一些实施方案中,所述原核细胞是细菌细胞。在一些实施方案中,所述真核细胞是真菌细胞或单细胞原生动物。在一些实施方案中,所述真菌细胞是酵母细胞。在其他情形中,所述真核细胞是培养的动物、植物或人细胞。在另外的情形中,所述真核细胞存在于生物体如植物、多细胞真菌或动物中。
在一些实施方案中,工程化微生物是单细胞生物体,通常能够分裂和增殖。如本文所用,“工程化微生物”是其遗传物质已使用基因工程技术(即重组DNA技术)改变的微生物。微生物可以包括以下特征中的一种或多种:需氧菌、厌氧菌、丝状、非丝状、单倍体、二倍体、营养缺陷型和/或非营养缺陷型。在某些实施方案中,工程化微生物是原核微生物(例如,细菌),并且在某些实施方案中,工程化微生物是非原核微生物,如真核微生物。在一些实施方案中,工程化微生物是真核微生物(例如,酵母、其他真菌、变形虫)。在一些实施方案中,工程化微生物是真菌。在一些实施方案中,工程化生物体是酵母。
可以选择任何合适的酵母作为宿主微生物、工程化微生物、遗传修饰的生物体、或者异源多核苷酸或修饰的多核苷酸的来源。酵母包括但不限于耶氏酵母属(Yarrowia)酵母(例如,解脂耶氏酵母(Y.lipolytica)(曾归类为解脂假丝酵母(Candida lipolytica)))、假丝酵母属(Candida)酵母(例如,C.revkaufi、维斯假丝酵母(C.viswanathii)、铁红假丝酵母(C.pulcherrima)、热带假丝酵母(C.tropicalis)、产蛋白假丝酵母(C.utilis))、红酵母属(Rhodotorula)酵母(例如,粘红酵母(R.glutinus)、禾本红酵母(R.graminis))、红冬孢酵母属(Rhodosporidium)酵母(例如,圆红冬孢酵母(R.toruloides))、酵母属(Saccharomyces)酵母(例如,酿酒酵母(S.cerevisiae)、贝酵母(S.bayanus)、巴斯德酵母(S.pastorianus)、卡尔酵母(S.carlsbergensis))、隐球酵母属(Cryptococcus)酵母、丝孢酵母属(Trichosporon)酵母(例如,茁芽丝孢酵母(T.pullans)、皮状丝孢酵母(T.cutaneum))、毕赤酵母属(Pichia)酵母(例如,巴斯德毕赤酵母(P.pastoris)、法夫驹形氏酵母(K.phaffii))和油脂酵母属(Lipomyces)酵母(例如,斯达氏油脂酵母(L.starkeyii)、脂褐质油脂酵母(L.lipoferus))。在一些实施方案中,合适的酵母属于以下属:Arachniotus、曲霉菌属(Aspergillus)、短梗霉属(Aureobasidium)、Auxarthron、芽生菌属(Blastomyces)、假丝酵母属、金孢子菌属(Chrysosporium)、德巴利酵母属(Debaryomyces)、球孢子菌属(Coccidiodes)、隐球酵母属、裸子囊菌属(Gymnoascus)、汉逊酵母属(Hansenula)、组织胞浆菌属(Histoplasma)、伊萨酵母属(Issatchenkia)、克鲁维酵母属(Kluyveromyces)、油脂酵母属、Lssatchenkia、小孢子菌属(Microsporum)、Myxotrichum、Myxozyma、树粉孢属(Oidiodendron)、管囊酵母属(Pachysolen)、青霉属(Penicillium)、毕赤酵母属、红冬孢酵母属、红酵母属、红酵母属、酵母属、裂殖酵母属(Schizosaccharomyces)、帚霉属(Scopulariopsis)、瘤胞霉属(Sepedonium)、丝孢酵母属或耶氏酵母属。在一些实施方案中,合适的酵母属于一下物种:Arachniotus flavoluteus、黄曲霉菌(Aspergillus flavus)、烟曲霉菌(Aspergillus fumigatus)、黑曲霉菌(Aspergillus niger)、出芽短梗霉菌(Aureobasidium pullulans)、Auxarthronthaxteri、皮炎芽生菌(Blastomyces dermatitidis)、白色假丝酵母(Candida albicans)、都柏林假丝酵母(Candida dubliniensis)、无名假丝酵母(Candida famata)、光滑假丝酵母(Candida glabrata)、吉利蒙假丝酵母(Candida guilliermondii)、乳酒假丝酵母(Candida kefyr)、克鲁斯假丝酵母(Candida krusei)、郎比可假丝酵母(Candidalambica)、解脂假丝酵母、Candida lustitaniae、近平滑假丝酵母(Candidaparapsilosis)、铁红假丝酵母、Candida revkaufi、皱褶假丝酵母(Candida rugosa)、热带假丝酵母、产蛋白假丝酵母、维斯假丝酵母、Candida xestobii、嗜角质金孢子菌(Chrysosporuim keratinophilum)、粗球孢子菌(Coccidiodes immitis)、浅白色隐球酵母扩散型变种(Cryptococcus albidus var.diffluens)、罗伦隐球酵母(Cryptococcuslaurentii)、新型隐球酵母(Cryptococcus neofomans)、汉氏德巴利酵母(Debaryomyceshansenii)、Gymnoascus dugwayensis、异常汉逊酵母(Hansenula anomala)、荚膜组织胞浆菌(Histoplasma capsulatum)、西方伊萨酵母(Issatchenkia occidentalis)、东方伊萨酵母(Isstachenkia orientalis)、乳酸克鲁维酵母(Kluyveromyces lactis)、马克斯克鲁维酵母(Kluyveromyces marxianus)、耐热克鲁维酵母(Kluyveromyces thermotolerans)、沃尔提克鲁维酵母(Kluyveromyces waltii)、脂褐质油脂酵母、斯达氏油脂酵母、石膏样小孢子菌(Microsporum gypseum)、Myxotrichum deflexum、棘刺树粉孢(Oidiodendronechinulatum)、嗜鞣管囊酵母(Pachysolen tannophilis)、点青霉(Penicilliumnotatum)、异常毕赤酵母(Pichia anomala)、巴斯德毕赤酵母、树干毕赤酵母(Pichiastipitis)、圆红冬孢酵母、粘红酵母、禾本红酵母、酿酒酵母、克鲁弗酵母(Saccharomyceskluyveri)、粟酒裂殖酵母(Schizosaccharomyces pombe)、顶孢帚霉(Scopulariopsisacremonium)、黄瘤孢菌(Sepedonium chrysospermum)、皮状丝孢酵母、茁芽丝孢酵母、解脂耶氏酵母、或解脂耶氏酵母(曾归类为解脂假丝酵母)。在一些实施方案中,酵母是解脂耶氏酵母菌株,包括但不限于ATCC20362、ATCC8862、ATCC18944、ATCC20228、ATCC76982和LGAM S(7)1菌株(Papanikolaou S.和Aggelis G.,Bioresour.Technol.82(1):43-9(2002))。在某些实施方案中,酵母是假丝酵母属物种(即,假丝酵母属物种)酵母。可以使用任何合适的假丝酵母属物种来产生脂肪二羧酸(例如,辛二酸、癸二酸、十二烷二酸、十四烷二酸、十六烷二酸、十八烷二酸、二十烷二酸),和/或可以针对脂肪二羧酸(例如,辛二酸、癸二酸、十二烷二酸、十四烷二酸、十六烷二酸、十八烷二酸、二十烷二酸)的产生对任何合适的假丝酵母属物种进行遗传修饰。在一些实施方案中,合适的假丝酵母属物种包括但不限于白色假丝酵母、都柏林假丝酵母、无名假丝酵母、光滑假丝酵母、吉利蒙假丝酵母、乳酒假丝酵母、克鲁斯假丝酵母、郎比可假丝酵母、解脂假丝酵母、Candida lustitaniae、近平滑假丝酵母、铁红假丝酵母、Candida revkaufi、皱褶假丝酵母、热带假丝酵母、产蛋白假丝酵母、维斯假丝酵母、Candida xestobii以及本文所述的任何其他假丝酵母属物种酵母。假丝酵母属物种菌株的非限制性例子包括但不限于sAA001(ATCC20336)、sAA002(ATCC20913)、sAA003(ATCC20962)、sAA496(US 2012/0077252)、sAA106(US 2012/0077252)、SU-2(ura3-/ura3-)、H5343(β氧化阻断的;美国专利号5648247)菌株。可以利用来自假丝酵母属物种酵母的任何合适的菌株作为用于遗传修饰的亲本菌株。
酵母属、物种和菌株的遗传内容通常密切相关,使得可能难以将它们区分、分类和/或命名。在一些情形中,解脂假丝酵母和解脂耶氏酵母的菌株可能难以区分、分类和/或命名,并且在一些情形中,可能被视为相同的生物体。在一些情形中,热带假丝酵母和维斯假丝酵母的各种菌株可能难以区分、分类和/或命名(例如,参见Arie等人,J.Gen.Appl.Microbiol.,46,257-262(2000))。从ATCC以及从其他商业或学术来源获得的一些热带假丝酵母和维斯假丝酵母菌株可以被视为是等同的并且同样适合于本文所述的实施方案。在一些实施方案中,热带假丝酵母和维斯假丝酵母的一些亲本菌株被视为仅名称不同。
可以选择任何合适的真菌作为宿主微生物、工程化微生物或异源多核苷酸的来源。真菌的非限制性例子包括但不限于曲霉菌属真菌(例如,寄生曲霉(A.parasiticus)、构巢曲霉(A.nidulans))、破囊壶菌属(Thraustochytrium)真菌、裂殖壶菌属(Schizochytrium)真菌和根霉属(Rhizopus)真菌(例如,无根根霉(R.arrhizus)、米根霉(R.oryzae)、黑根霉(R.nigricans))。在一些实施方案中,真菌是寄生曲霉菌株,包括但不限于菌株ATCC24690,并且在某些实施方案中,真菌是构巢曲霉菌株,包括但不限于菌株ATCC38163。
可以选择任何合适的原核生物作为宿主微生物、工程化微生物或异源多核苷酸的来源。可以选择革兰氏阴性菌或革兰式阳性菌。细菌的例子包括但不限于芽孢杆菌属(Bacillus)细菌(例如,枯草芽孢杆菌(B.subtilis)、巨大芽胞杆菌(B.megaterium))、不动杆菌属(Acinetobacter)细菌、诺卡氏菌属(Norcardia)细菌、黄色杆菌属(Xanthobacter)细菌、埃希氏菌属(Escherichia)细菌(例如,大肠杆菌(例如,菌株DH10B、Stbl2、DH5-α、DB3、DB3.1)、DB4、DB5、JDP682和ccdA-over(例如,美国申请号09/518,188))、链霉菌属(Streptomyces)细菌、欧文氏菌属(Erwinia)细菌、克雷伯氏菌属(Klebsiella)细菌、沙雷氏菌属(Serratia)细菌(例如,粘质沙雷氏菌(S.marcessans))、假单胞菌属(Pseudomonas)细菌(例如,绿脓假单胞菌(P.aeruginosa))、沙门氏菌属(Salmonella)细菌(例如,鼠伤寒沙门氏菌(S.typhimurium)、伤寒沙门氏菌(S.typhi))、巨球形菌属(Megasphaera)细菌(例如,埃氏巨球形菌(Megasphaera elsdenii))。细菌还包括但不限于光合细菌(例如,绿色非硫细菌(例如,绿弯菌属(Choroflexus)细菌(例如,橙黄绿弯菌(C.aurantiacus))、绿线菌属(Chloronema)细菌(例如,巨大绿线菌(C.gigateum)))、绿色硫细菌(例如,绿菌属(Chlorobium)细菌(例如,泥生绿菌(C.limicola))、暗网菌属(Pelodictyon)细菌(例如,微黄暗网菌(P.luteolum)))、紫色硫细菌(例如,着色菌属(Chromatium)细菌(例如,奥氏着色菌(C.okenii)))和紫色非硫细菌(例如,红螺菌属(Rhodospirillum)细菌(例如,深红红螺菌(R.rubrum))、红杆菌属(Rhodobacter)细菌(例如,球形红杆菌(R.sphaeroides)、荚膜红杆菌(R.capsulatus))和红微菌属(Rhodomicrobium)细菌(例如,范氏红微菌(R.vanellii))))。
可以利用来自非微生物生物体的细胞作为宿主微生物、工程化微生物或异源多核苷酸的来源。此类细胞的例子包括但不限于昆虫细胞(例如,果蝇属(Drosophila)(例如,黑腹果蝇(D.melanogaster))、斜纹夜蛾属(Spodoptera)(例如,草地贪夜蛾(S.frugiperda)Sf9或Sf21细胞)和粉夜蛾属(Trichoplusa)(例如,High-Five细胞);线虫细胞(例如,秀丽隐杆线虫(C.elegans)细胞);禽类细胞;两栖动物细胞(例如,非洲爪蟾(Xenopus laevis)细胞);爬虫类动物细胞;哺乳动物细胞(例如,NIH3T3、293、CHO、COS、VERO、C127、BHK、Per-C6、Bowes黑色素瘤和HeLa细胞);以及植物细胞(例如,拟南芥(Arabidopsis thaliana)、烟草(Nicotania tabacum)、Cuphea acinifolia、Cuphea aequipetala、小叶萼距花(Cupheaangustifolia)、Cuphea appendiculata、Cuphea avigera、Cuphea avigeravar.pulcherrima、Cuphea axilliflora、巴菲萼距花(Cuphea bahiensis)、Cupheabaillonis、Cuphea brachypoda、Cuphea bustamanta、Cuphea calcarata、Cupheacalophylla、Cuphea calophylla subsp.mesostemon、Cuphea carthagenensis、圆叶萼距花(Cuphea circaeoides)、Cuphea confertiflora、心叶萼距花(Cuphea cordata)、Cupheacrassiflora、蓝斑萼距草(Cuphea cyanea)、Cuphea decandra、粗齿萼距花(Cupheadenticulata)、Cuphea disperma、Cuphea epilobiifolia、Cuphea ericoides、黄色萼距花(Cuphea flava)、Cuphea flavisetula、Cuphea fuchsiifolia、Cuphea gaumeri、Cupheaglutinosa、异叶萼距花(Cuphea heterophylla)、萼距花(Cuphea hookeriana)、细叶萼距花(Cuphea hyssopifolia)(墨西哥石楠花)、Cuphea hyssopoides、火红萼距花(Cupheaignea)、Cuphea ingrata、Cuphea jorullensis、披针叶萼距花(Cuphea lanceolata)、Cuphea linarioides、Cuphea llavea、Cuphea lophostoma、金黄萼距花(Cuphea lutea)、浅黄萼距花(Cuphea lutescens)、Cuphea melanium、Cuphea melvilla、小花萼距花(Cuphea micrantha)、小瓣萼距花(Cuphea micropetala)、Cuphea mimuloides、Cupheanitidula、沼泽萼距花(Cuphea palustris)、Cuphea parsonsia、Cuphea pascuorum、寡瓣萼距花(Cuphea paucipetala)、平卧萼距花(Cuphea procumbens)、Cuphea pseudosilene、Cuphea pseudovaccinium、美丽萼距花(Cuphea pulchra)、总状萼距花(Cuphearacemosa)、匍匐萼距花(Cuphea repens)、柳叶萼距花(Cuphea salicifolia)、Cupheasalvadorensis、Cuphea schumannii、无柄萼距花(Cuphea sessiliflora)、Cupheasessilifolia、刚毛萼距花(Cuphea setosa)、Cuphea spectabilis、Cuphea spermacoce、Cuphea splendida、Cuphea splendida var.viridiflava、Cuphea strigulosa、Cupheasubuligera、Cuphea teleandra、Cuphea thymoides、Cuphea tolucana、Cuphea urens、Cuphea utriculosa、蓝叶柄萼距花(Cuphea viscosissima)、Cuphea watsoniana、Cupheawrightii、披针叶萼距花)。
用作宿主生物体或异源多核苷酸的来源的微生物或细胞可在市场购得。本文所述的微生物和细胞以及其他合适的微生物和可以从例如以下获得:Invitrogen Corporation(卡尔斯巴德,加利福尼亚州)、美国典型培养物保藏中心(马纳萨斯,维吉尼亚州)和农业研究培养物保藏中心(NRRL;皮奥瑞亚,伊利诺伊州)。宿主微生物和工程化微生物可以以任何合适的形式来提供。例如,此类微生物可以以液体培养物或固体培养物(例如,基于琼脂的培养基)来提供,其可以是原代培养物或者可以已经传代(例如,稀释并培养)一次或多次。微生物还可以以冷冻形式或干燥形式(例如,冻干的)来提供。微生物可以以任何合适的浓度来提供。
聚合酶
聚合酶的特别有用的功能是使用现有核酸作为模板催化核酸链聚合。有用的其他功能描述于本文其他地方。有用的聚合酶的例子包括DNA聚合酶和RNA聚合酶。
非天然核酸改进聚合酶的特异性、持续合成能力或其他特征的能力在例如需要非天然核酸掺入的多种情况下是非常期望的,所述情况包括扩增、测序、标记、检测、克隆和许多其他情况
在一些情况下,本文公开的内容包括例如在DNA扩增期间将非天然核酸掺入生长中的模板拷贝中的聚合酶。在一些实施方案中,可以修饰聚合酶,使得聚合酶的活性位点被修饰以减小非天然核酸进入所述活性位点中的空间进入抑制。在一些实施方案中,可以修饰聚合酶以提供与非天然核酸的一种或多种非天然特征的互补性。此类聚合酶可以在细胞中表达或工程化以用于将UBP稳定掺入细胞中。因此,本发明包括包含异源或重组聚合酶的组合物及其使用方法。
聚合酶可以使用关于蛋白质工程化的方法来修饰。例如,可以基于晶体结构进行分子建模,以鉴定聚合酶中可以进行突变以修饰目标活性的位置。被鉴定为替代靶标的残基可以用使用能量最小化建模、同源建模和/或保守氨基酸取代选择的残基来替代,如以下文献中所述:Bordo,等人J Mol Biol 217:721-729(1991)和Hayes,等人Proc Natl AcadSci,USA 99:15926-15931(2002),将所述文献的每一个的披露内容通过引用以其整体特此并入。
多种聚合酶中的任一种可以用于本文所述的方法或组合物中,包括例如,从生物系统分离的基于蛋白质的酶及其功能变体。提及特定聚合酶(如下文所例示的那些)时将理解为包括其功能变体,除非另有指示。在一些实施方案中,聚合酶是野生型聚合酶。在一些实施方案中,聚合酶是修饰的或突变体聚合酶。在一些实施方案中,聚合酶可以是异源聚合酶。
还可以使用具有改进非天然核酸进入活性位点区域以及在活性位点区域中与非天然核苷酸配合的特征的聚合酶。在一些实施方案中,修饰的聚合酶具有修饰的核苷酸结合位点。
在一些实施方案中,修饰的聚合酶对非天然核酸的特异性是野生型聚合酶对非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含修饰的糖的非天然核酸的特异性是野生型聚合酶对天然核酸和/或不含修饰的糖的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含修饰的碱基的非天然核酸的特异性是野生型聚合酶对天然核酸和/或不含修饰的碱基的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含三磷酸酯的非天然核酸的特异性是野生型聚合酶对包含三磷酸酯的核酸和/或不含三磷酸酯的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。例如,修饰的或野生型聚合酶对包含三磷酸酯的非天然核酸的特异性可以是野生型聚合酶对具有二磷酸酯或单磷酸酯、或无磷酸酯或其组合的非天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。
在一些实施方案中,修饰的或野生型聚合酶具有对非天然核酸的松弛的特异性。在一些实施方案中,修饰的或野生型聚合酶对非天然核酸的特异性和对天然核酸的特异性是野生型聚合酶对天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含修饰的糖的非天然核酸的特异性和对天然核酸的特异性是野生型聚合酶对天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。在一些实施方案中,修饰的或野生型聚合酶对包含修饰的碱基的非天然核酸的特异性和对天然核酸的特异性是野生型聚合酶对天然核酸的特异性的至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。
外切核酸酶活性的不存在可以是野生型特征或由变体或工程化聚合酶赋予的特征。例如,exo-Klenow片段是Klenow片段的突变形式,其缺少3’至5’校对外切核酸酶活性。
本发明的方法可以用于扩展任何DNA聚合酶的底物范围,所述DNA聚合酶缺少固有的3至5’外切核酸酶校对活性或者其中3至5’外切核酸酶校对活性已经例如因突变而失能。DNA聚合酶的例子包括polA、polB(参见例如Parrel和Loeb,Nature Struc Biol 2001)polC、polD、polY、polX和逆转录酶(RT),但是优选地是进行性高保真度聚合酶(PCT/GB2004/004643)。在一些实施方案中,修饰的或野生型聚合酶基本上缺少3’至5’校对外切核酸酶活性。在一些实施方案中,修饰的或野生型聚合酶基本上缺少针对非天然核酸的3’至5’校对外切核酸酶活性。在一些实施方案中,修饰的或野生型聚合酶具有3’至5’校对外切核酸酶活性。在一些实施方案中,修饰的或野生型聚合酶具有针对天然核酸的3’至5’校对外切核酸酶活性并且基本上缺少针对非天然核酸的3’至5’校对外切核酸酶活性。
在一些实施方案中,修饰的聚合酶的3’至5’校对外切核酸酶活性是野生型聚合酶的校对外切核酸酶活性的至少约60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。在一些实施方案中,修饰的聚合酶对非天然核酸的3’至5’校对外切核酸酶活性是野生型聚合酶对天然核酸的校对外切核酸酶活性的至少约60%、70%、80%、90%、95%、97%、98%、99%、99.5%、99.99%。在一些实施方案中,修饰的聚合酶对非天然核酸的3’至5’校对外切核酸酶活性和对天然核酸的3’至5’校对外切核酸酶活性是野生型聚合酶对天然核酸的校对外切核酸酶活性的至少约60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。在一些实施方案中,修饰的聚合酶对天然核酸的3’至5’校对外切核酸酶活性是野生型聚合酶对天然核酸的校对外切核酸酶活性的至少约60%、70%、80%、90%、95%、97%、98%、99%、99.5%、或99.99%。
在一些实施方案中,聚合酶是根据其从核酸解离的速率来表征的。在一些实施方案中,聚合酶具有相对低的针对一种或多种天然和非天然核酸的解离速率。在一些实施方案中,聚合酶具有相对高的针对一种或多种天然和非天然核酸的解离速率。解离速率是在本文所述方法中可以调整以调谐反应速率的聚合酶活性。
在一些实施方案中,聚合酶是根据其与特定天然和/或非天然核酸或者天然和/或非天然核酸的集合一起使用时的保真度来表征的。保真度通常是指聚合酶在制备核酸模板的拷贝时将正确核酸掺入生长中的核酸链中的准确度。在天然和非天然核酸例如以相等浓度存在以竞争聚合酶-链-模板核酸二元复合物中相同位点的链合成时,DNA聚合酶保真度可以作为正确的与错误的天然和非天然核酸掺入的比率来测量。DNA聚合酶保真度可以作为天然和非天然核酸的(kcat/Km)与错误的天然和非天然核酸的(kcat/Km)的比率来计算;其中kcat和Km是稳态酶动力学中的Michaelis-Menten参数(Fersht,A.R.(1985)EnzymeStructure and Mechanism,第2版,第350页,W.H.Freeman&Co.,纽约,通过引用并入本文)。在一些实施方案中,聚合酶的保真度值为至少约100、1000、10,000、100,000或1x106,具有或不具有校对活性。
在一些实施方案中,使用检测具有特定结构的非天然核酸的掺入的测定筛选来自天然来源的聚合酶或其变体。在一个例子中,可以针对掺入非天然核酸或UBP(例如,d5SICSTP、dCNMOTP、dTPT3TP、dNaMTP、dCNMOTP-dTPT3TP或d5SICSTP-dNaMTP UBP)的能力来筛选聚合酶。可以使用展示如与野生型聚合酶相比对非天然核酸的修饰的特性的聚合酶(例如,异源聚合酶)。例如,修饰的特性可以是例如Km、kcat、Vmax、聚合酶在非天然核酸(或天然存在的核苷酸)存在下的持续合成能力、聚合酶在非天然核酸存在下的平均模板读长(read-length)、聚合酶对非天然核酸的特异性、非天然核酸的结合率、产物(焦磷酸酯、三磷酸酯等)释放的比率、分支率或其任何组合。在一个实施方案中,修饰的特性是降低的针对非天然核酸的Km和/或增加的针对非天然核酸的kcat/Km或Vmax/Km。类似地,如与野生型聚合酶相比,聚合酶任选地具有增加的非天然核酸的结合率、增加的产物释放率和/或降低的分支率。
同时,聚合酶可以将天然核酸(例如A、C、G和T)掺入生长中的核酸拷贝中。例如,聚合酶任选地展示对天然核酸的特异性活性高达相应野生型聚合酶的至少约5%(例如,5%、10%、25%、50%、75%、100%或更高),并且在模板存在下使用天然核酸的持续合成能力高达在天然核酸存在下野生型聚合酶的至少5%(例如,5%、10%、25%、50%、75%、100%或更高)。任选地,聚合酶展示针对天然存在的核苷酸的kcat/Km或Vmax/Km高达野生型聚合酶的至少约5%(例如,约5%、10%、25%、50%、75%或100%或更高)。
本文所用的可以具有掺入特定结构的非天然核酸的能力的聚合酶还可以使用定向进化方法来产生。可以使用核酸合成测定来筛选具有对多种非天然核酸中的任一种的特异性的聚合酶变体。例如,可以针对掺入与DNA模板中的非天然核苷酸相对的非天然核苷三磷酸(例如,与dCNMO相对的dTPT3TP,与dTPT3相对的dCNMOTP,与dTPT3相对的NaMTP,或与dCNMO或dNaM相对的TAT1TP)的能力筛选聚合酶变体。在一些实施方案中,这种测定是体外测定,例如,使用重组聚合酶变体。在一些实施方案中,这种测定是体内测定,例如,在细胞中表达聚合酶变体。此类定向进化技术可以用于针对对本文所述的任何非天然核酸的活性来筛选任何合适的聚合酶的变体。在一些情况下,本文使用的聚合酶具有将非天然核糖核苷酸掺入核酸如RNA中的能力。例如,使用本文所述的聚合酶将NaM或TAT1核糖核苷酸掺入核酸中。
所述组合物的修饰的聚合酶可以任选地是修饰的和/或重组的Φ29型DNA聚合酶。任选地,聚合酶可以是修饰的和/或重组的Φ29、B103、GA-1、PZA、Φ15、BS32、M2Y、Nf、G1、Cp-1、PRD1、PZE、SF5、Cp-5、Cp-7、PR4、PR5、PR722或L17聚合酶。
所述组合物的修饰的聚合酶可以任选地是修饰的和/或重组的原核DNA聚合酶,例如,DNA聚合酶II(Pol II)、DNA聚合酶III(Pol III)、DNA聚合酶IV(Pol IV)、DNA聚合酶V(Pol V)。在一些实施方案中,修饰的聚合酶包括介导横越非指导性损伤的核苷酸的DNA合成的聚合酶。在一些实施方案中,编码Pol I、Pol II(polB)、Poll IV(dinB)和/或Pol V(umuCD)的基因在工程化细胞或SSO中组成性表达或过表达。在一些实施方案中,Pol II的表达增加或过表达促进增加的非天然碱基对(UBP)在工程化细胞或SSO中的保留。
本发明中通常有用的核酸聚合酶包括DNA聚合酶、RNA聚合酶、逆转录酶及其突变体或改变的形式。DNA聚合酶及其特性尤其详细描述于以下中:DNA Replication第2版,Kornberg和Baker,W.H.Freeman,纽约,纽约州(1991)。可用于本发明的已知常规DNA聚合酶包括但不限于激烈火球菌(Pyrococcus furiosus)(Pfu)DNA聚合酶(Lundberg等人,1991,Gene,108:1,Stratagene)、乌兹炽热球菌(Pyrococcus woesei)(Pwo)DNA聚合酶(Hinnisdaels等人,1996,Biotechniques,20:186-8,Boehringer Mannheim)、嗜热栖热菌(Thermus thermophilus)(Tth)DNA聚合酶(Myers和Gelfand 1991,Biochemistry30:7661)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)DNA聚合酶(Stenesh和McGowan,1977,Biochim Biophys Acta 475:32)、嗜热高温球菌(Thermococcuslitoralis)(TIi)DNA聚合酶(也称为VentTMDNA聚合酶,Cariello等人,1991,Polynucleotides Res,19:4193,New England Biolabs)、9°NmTMDNA聚合酶(New EnglandBiolabs)、Stoffel片段、Thermo
Figure BDA0003498995360000751
(Amersham Pharmacia Biotech UK)、TherminatorTM(New England Biolabs)、海栖热袍菌(Thermotoga maritima)(Tma)DNA聚合酶(Diaz和Sabino,1998Braz J Med.Res,31:1239)、水生栖热菌(Thermus aquaticus)(Taq)DNA聚合酶(Chien等人,1976,J.Bacteoriol,127:1550)、DNA聚合酶、Pyrococcuskodakaraensis KOD DNA聚合酶(Takagi等人,1997,Appl.Environ.Microbiol.63:4504)、JDF-3DNA聚合酶(来自高温球菌属物种JDF-3,专利申请WO 0132887)、热球菌属GB-D(PGB-D)DNA聚合酶(也称为Deep VentTMDNA聚合酶,Juncosa-Ginesta等人,1994,Biotechniques,16:820,New England Biolabs)、UlTma DNA聚合酶(来自嗜热生物海栖热袍菌;Diaz和Sabino,1998Braz J.Med.Res,31:1239;PE Applied Biosystems)、Tgo DNA聚合酶(来自thermococcus gorgonarius,Roche Molecular Biochemicals)、大肠杆菌DNA聚合酶I(Lecomte和Doubleday,1983,Polynucleotides Res.11:7505)、T7 DNA聚合酶(Nordstrom等人,1981,J Biol.Chem.256:3112)、以及古细菌DP1I/DP2 DNA聚合酶II(Cann等人,1998,Proc.Natl.Acad.Sci.USA 95:14250)。考虑嗜温性聚合酶和嗜热性聚合酶二者。嗜热性DNA聚合酶包括但不限于
Figure BDA0003498995360000761
9°NmTM、TherminatorTM、Taq、Tne、Tma、Pfu、TfI、Tth、TIi、Stoffel片段、VentTM和Deep VentTMDNA聚合酶、KOD DNA聚合酶、Tgo、JDF-3及其突变体、变体和衍生物。还考虑作为3’外切核酸酶缺陷性突变体的聚合酶。本发明中有用的逆转录酶包括但不限于来自以下的逆转录酶:HIV、HTLV-I、HTLV-II、FeLV、FIV、SIV、AMV、MMTV、MoMuLV和其他逆转录病毒(参见Levin,Cell 88:5-8(1997);Verma,Biochim BiophysActa.473:1-38(1977);Wu等人,CRC Crit Rev Biochem.3:289-347(1975))。聚合酶的另外的例子包括但不限于9°N DNA聚合酶、Taq DNA聚合酶、
Figure BDA0003498995360000762
DNA聚合酶、Pfu DNA聚合酶、RB69 DNA聚合酶、KOD DNA聚合酶、和
Figure BDA0003498995360000763
DNA聚合酶(Gardner等人.(2004)“Comparative Kinetics of Nucleotide Analog Incorporation by Vent DNAPolymerase”J.Biol.Chem.,279(12),11834-11842;Gardner和Jack“Determinants ofnucleotide sugar recognition in an archaeon DNA polymerase”Nucleic AcidsResearch,27(12)2545-2553。)从非嗜热性生物体分离的聚合酶可以是热不可失活的。例子是来自噬菌体的DNA聚合酶。将理解,可以修饰来自多种来源中的任一种的聚合酶以增加或减少其对高温条件的耐受性。在一些实施方案中,聚合酶可以是嗜热性的。在一些实施方案中,嗜热性聚合酶可以是热不可失活的。嗜热性聚合酶通常可用于高温条件或热循环条件中,如用于聚合酶链式反应(PCR)技术的那些。
在一些实施方案中,聚合酶包括Φ29、B103、GA-1、PZA、Φ15、BS32、M2Y、Nf、G1、Cp-1、PRD1、PZE、SF5、Cp-5、Cp-7、PR4、PR5、PR722、L17、
Figure BDA0003498995360000764
9°NmTM、TherminatorTMDNA聚合酶、Tne、Tma、TfI、Tth、TIi、Stoffel片段、VentTM和Deep VentTMDNA聚合酶、KOD DNA聚合酶、Tgo、JDF-3、Pfu、Taq、T7 DNA聚合酶、T7 RNA聚合酶、PGB-D、UlTmaDNA聚合酶、大肠杆菌DNA聚合酶I、大肠杆菌DNA聚合酶III、古细菌DP1I/DP2 DNA聚合酶II、9°N DNA聚合酶、Taq DNA聚合酶、
Figure BDA0003498995360000765
DNA聚合酶、Pfu DNA聚合酶、SP6 RNA聚合酶、RB69 DNA聚合酶、禽成髓细胞瘤病毒(AMV)逆转录酶、莫洛尼鼠白血病病毒(MMLV)逆转录酶、
Figure BDA0003498995360000766
II逆转录酶或
Figure BDA0003498995360000767
III逆转录酶。
在一些实施方案中,聚合酶是DNA聚合酶I(或Klenow片段)、Vent聚合酶、
Figure BDA0003498995360000768
DNA聚合酶、KOD DNA聚合酶、Taq聚合酶、T7 DNA聚合酶、T7 RNA聚合酶、TherminatorTMDNA聚合酶、POLB聚合酶、SP6 RNA聚合酶、大肠杆菌DNA聚合酶I、大肠杆菌DNA聚合酶III、禽成髓细胞瘤病毒(AMV)逆转录酶、莫洛尼鼠白血病病毒(MMLV)逆转录酶、
Figure BDA0003498995360000769
II逆转录酶或
Figure BDA00034989953600007610
III逆转录酶。
核苷酸转运蛋白
核苷酸转运蛋白(NT)是一组膜转运蛋白,其促进核苷酸底物跨越细胞膜和囊泡的转移。在一些实施方案中,存在两种类型的NT,即集中性核苷转运蛋白和平衡性核苷转运蛋白。在一些情况下,NT还涵盖有机阴离子转运蛋白(′OΑΤ)和有机阳离子转运蛋白(OCT)。在一些情况下,核苷酸转运蛋白是核苷三磷酸转运蛋白(NTT)。
在一些实施方案中,核苷三磷酸转运蛋白(NTT)来自细菌、植物或藻类。在一些实施方案中,核苷酸核苷三磷酸转运蛋白是TpNTT1、TpNTT2、TpNTT3、TpNTT4、TpNTT5、TpNTT6、TpNTT7、TpNTT8(假微型海链藻(T.pseudonana))、PtNTT1、PtNTT2、PtNTT3、PtNTT4、PtNTT5、PtNTT6(三角褐指藻)、GsNTT(Galdieria sulphuraria)、AtNTT1、AtNTT2(拟南芥)、CtNTT1、CtNTT2(沙眼衣原体(Chlamydia trachomatis))、PamNTT1、PamNTT2(Protochlamydiaamoebophila)、CcNTT(Caedibacter caryophilus)、或RpNTT1(普氏立克次氏体(Rickettsia prowazekii))。
在一些实施方案中,NTT是CNT1、CNT2、CNT3、ENT1、ENT2、OAT1、OAT3或OCT1。
在一些实施方案中,NTT将非天然核酸输入生物体(例如,细胞)中。在一些实施方案中,可以修饰NTT,使得NTT的核苷酸结合位点被修饰以减小非天然核酸进入核苷酸结合位点中的空间进入抑制。在一些实施方案中,可以修饰NTT,以提供增加的与非天然核酸的一种或多种天然或非天然特征的相互作用。此类NTT可以在细胞中表达或工程化用于将UBP稳定输入细胞中。因此,本发明包括包含异源或重组NTT的组合物及其使用方法。
NTT可以使用关于蛋白质工程化的方法来修饰。例如,可以基于晶体结构进行分子建模,以鉴定NTT中可以进行突变以修饰目标活性或结合位点的位置。被鉴定为替代靶标的残基可以用使用能量最小化建模、同源建模和/或保守氨基酸取代选择的残基来替代,如以下文献中所述:Bordo,等人J Mol Biol 217:721-729(1991)和Hayes,等人Proc Natl AcadSci,USA 99:15926-15931(2002),将所述文献的每一个的披露内容通过引用以其整体特此并入。
多种NTT中的任一种可以用于本文所述的方法或组合物中,包括例如,从生物系统分离的基于蛋白质的酶及其功能变体。提及特定NTT(如下文所例示的那些)时将理解为包括其功能变体,除非另有指示。在一些实施方案中,NTT是野生型NTT。在一些实施方案中,NTT是修饰的或突变体NTT。
还可以使用具有改进非天然核酸进入细胞中以及在核苷酸结合区域中与非天然核苷酸配合的特征的NTT。在一些实施方案中,修饰的NTT具有修饰的核苷酸结合位点。在一些实施方案中,修饰的或野生型NTT具有对非天然核酸的松弛的特异性。例如,NTT任选地展示出对非天然核苷酸的特异性输入活性高达相应野生型NTT的至少约0.1%(例如,约0.1%、0.2%、0.5%、0.8%、1%、1.1%、1.2%、1.5%、1.8%、2%、3%、4%、5%、10%、25%、50%、75%、100%或更高)。任选地,NTT展示出针对非天然核苷酸的kcat/Km或Vmax/Km高达野生型NTT的至少约0.1%(例如,约0.1%、0.2%、0.5%、0.8%、1%、1.1%、1.2%、1.5%、1.8%、2%、3%、4%、5%、10%、25%、50%、75%或100%或更高)。
NTT可以根据它们对三磷酸酯的亲和力(即Km)和/或输入速率(即Vmax)来表征。在一些实施方案中,NTT具有针对一种或多种天然和非天然三磷酸酯的相对Km或Vmax。在一些实施方案中,NTT具有针对一种或多种天然和非天然三磷酸酯的相对高的Km或Vmax。
来自天然来源或其变体的NTT可以使用检测三磷酸酯的量的测定(如果三磷酸酯被适当标记,则使用质谱或放射性)进行筛选。在一个例子中,可以针对输入非天然三磷酸酯(例如dTPT3TP、dCNMOTP、d5SICSTP、dNaMTP、NaMTP和/或TPT1TP)的能力来筛选NTT。可以使用展示如与野生型NTT相比对非天然核酸的修饰的特性的NTT(例如,异源NTT)。例如,修饰的特性可以是例如针对三磷酸酯输入的Km、kcat、Vmax。在一个实施方案中,修饰的特性是降低的针对非天然三磷酸酯的Km和/或增加的针对非天然三磷酸酯的kcat/Km或Vmax/Km。类似地,如与野生型NTT相比,NTT任选地具有增加的非天然三磷酸酯的结合率、增加的细胞内释放率和/或增加的细胞输入率。
同时,NTT可以将天然三磷酸酯,例如dATP、dCTP、dGTP、dTTP、ATP、CTP、GTP和/或TTP输入细胞。在一些情况下,NTT任选地展示出对能够支持复制和转录的天然核酸的特异性输入活性。在一些实施方案中,NTT任选地展示出对能够支持复制和转录的天然核酸的kcat/Km或Vmax/Km
本文所用的可以具有输入特定结构的非天然三磷酸酯的能力的NTT还可以使用定向进化方法来产生。可以使用核酸合成测定来筛选具有对多种非天然三磷酸酯中的任一种的特异性的NTT变体。例如,可以针对输入非天然三磷酸酯(例如d5SICSTP、dNaMTP、dCNMOTP、dTPT3TP、NaMTP和/或TPT1TP)的能力来筛选NTT变体。在一些实施方案中,这种测定是体外测定,例如,使用重组NTT变体。在一些实施方案中,这种测定是体内测定,例如,在细胞中表达NTT变体。此类技术可以用于针对对本文所述的任何非天然三磷酸酯的活性来筛选任何合适的NTT的变体。
核酸试剂和工具
用于本文所述的方法、细胞或工程化微生物的核苷酸和/或核酸试剂(或多核苷酸)包含具有或不具有非天然核苷酸的一个或多个ORF。ORF可以来自任何合适的来源,有时来自基因组DNA、mRNA、逆转录RNA或互补DNA(cDNA)或包含前述一种或多种的核酸文库,并且来自含有目的核酸序列、目的蛋白质或目的活性的任何生物体物种。可以从其获得ORF的生物体的非限制性例子包括例如细菌、酵母、真菌、人、昆虫、线虫、牛类、马类、犬类、猫类、大鼠或小鼠。在一些实施方案中,本文所述的核苷酸和/或核酸试剂或其他试剂是分离的或纯化的。可以通过已公布的体外方法创建包含非天然核苷酸的ORF。在一些情形中,核苷酸或核酸试剂包含非天然核碱基。
核酸试剂有时包含与ORF相邻的核苷酸序列,其与ORF结合翻译并编码氨基酸标签。编码标签的核苷酸序列位于核酸试剂中ORF的3’和/或5’,由此编码由ORF编码的蛋白质或肽的C末端或N末端的标签。可以利用不消除体外转录和/或翻译的任何标签,并且可以由技术人员适当地选择。标签可以促进从培养物或发酵培养基分离和/或纯化所需ORF产物。在一些情况下,将核酸试剂文库与本文所述的方法和组合物一起使用。例如,文库中存在至少100、1000、2000、5000、10,000或多于50,000种独特多核苷酸的文库,其中每种多核苷酸包含至少一种非天然核碱基。
具有或不具有非天然核苷酸的核酸或核酸试剂可以包含通常根据核酸的计划用途选择的某些元件,例如,调节元件。核酸试剂中可以包括或排除以下元件中的任一种。例如,核酸试剂可以包括以下核苷酸元件中的一种或多种或全部:一种或多种启动子元件、一个或多个5’非翻译区(5’UTR)、一个或多个可以插入靶核苷酸序列的区域(“插入元件”)、一种或多种靶核苷酸序列、一个或多个3’非翻译区(3’UTR)、以及一种或多种选择元件。核酸试剂可以提供有一种或多种此类元件,并且可以在将核酸引入所需生物体中之前将其他元件插入核酸中。在一些实施方案中,所提供的核酸试剂包含启动子、5’UTR、可选的3’UTR和一种或多种插入元件,通过所述插入元件将靶核苷酸序列插入(即,克隆)至核酸试剂中。在某些实施方案中,所提供的核酸试剂包含启动子、一种或多种插入元件和可选的3’UTR,并且用可选的3’UTR插入5’UTR/靶核苷酸序列。所述元件可以按适合于在所选表达系统中表达(例如,在所选生物体中的表达,或者例如在无细胞系统中的表达)的任何顺序排列,并且在一些实施方案中,核酸试剂在5’至3’方向上包含以下元件:(1)启动子元件、5’UTR和一种或多种插入元件;(2)启动子元件、5’UTR和靶核苷酸序列;(3)启动子元件、5’UTR、一种或多种插入元件和3’UTR;以及(4)启动子元件、5’UTR、靶核苷酸序列和3’UTR。在一些实施方案中,可以优化UTR以改变或增加完全天然或含有非天然核苷酸的ORF的转录或翻译。
核酸试剂(例如,表达盒和/或表达载体)可以包括多种调节元件,包括启动子、增强子、翻译起始序列、转录终止序列和其他元件。“启动子”通常是一个或多个DNA序列,其在位于关于转录起始位点的相对固定位置时发挥作用。例如,启动子可以位于核苷酸三磷酸转运蛋白核酸区段的上游。“启动子”含有RNA聚合酶与转录因子的基础相互作用所需的核心元件,并且可以含有上游元件和反应元件。“增强子”通常是指DNA序列,其不在转录起始位点的固定距离处发挥作用,并且可以位于转录单元的5’或3”。此外,增强子可以在内含子内以及在编码序列本身内。增强子的长度通常在10与300之间,并且它们顺式作用。增强子发挥作用以增加来自附近启动子的转录。增强子像启动子一样,通常也含有介导转录调节的反应元件。增强子通常决定表达的调节,并可用于改变或优化ORF(包括完全天然或含有非天然核苷酸的ORF)表达。
如上所述,核酸试剂还可以包含一个或多个5’UTR以及一个或多个3’UTR。例如,真核宿主细胞(例如,酵母、真菌、昆虫、植物、动物、人或有核细胞)和原核宿主细胞(例如,病毒、细菌)中使用的表达载体可以含有针对转录终止进行信号传导的序列,所述序列可能影响mRNA表达。这些区域可以被转录为编码组织因子蛋白的mRNA的非翻译部分中的多腺苷酸化区段。3”非翻译区还包括转录终止位点。在一些优选实施方案中,转录单元包含多腺苷酸化区域。这个区域的一个益处在于,它增加像mRNA一样处理并转运所转录单元的可能性。表达构建体中的多腺苷酸化信号的鉴定和使用众所周知。在一些优选实施方案中,同源多腺苷酸化信号可以用于转基因构建体中。
5’UTR可以包含对于其所源自的核苷酸序列为内源的一种或多种元件,并且有时包括一种或多种外源元件。5’UTR可以源自任何合适的核酸,如基因组DNA、质粒DNA、RNA或mRNA,例如,源自任何合适的生物体(例如,病毒、细菌、酵母、真菌、植物、昆虫或哺乳动物)。技术人员可以基于所选表达系统(例如,在所选生物体中的表达,或者例如在无细胞系统中的表达)选择用于5’UTR的适当元件。5’UTR有时包含技术人员已知的以下元件中的一种或多种:增强子序列(例如,转录或翻译)、转录起始位点、转录因子结合位点、翻译调节位点、翻译起始位点、翻译因子结合位点、辅助蛋白结合位点、反馈调节剂结合位点、普里布诺盒(Pribnow box)、TATA盒、-35元件、E-盒(螺旋-环-螺旋结合元件)、核糖体结合位点、复制子、内部核糖体进入位点(IRES)、沉默子元件等。在一些实施方案中,可以分离启动子元件,使得适当的条件性调节所需的所有5’UTR元件都含于启动子元件片段中,或者启动子元件片段的功能性子序列内。
核酸试剂中的5’UTR可以包含翻译增强子核苷酸序列。翻译增强子核苷酸序列通常位于核酸试剂中的启动子与靶核苷酸序列之间。翻译增强子序列通常结合至核糖体,有时是18S rRNA结合核糖核苷酸序列(即,40S核糖体结合序列),并且有时是内部核糖体进入序列(IRES)。IRES通常形成具有精确放置的RNA三级结构的RNA支架,所述RNA三级结构经由多种特定分子间相互作用接触40S核糖体亚基。核糖体增强子序列的例子是已知的并且可以由技术人员鉴定(例如,Mignone等人,Nucleic Acids Research 33:D141-D146(2005);Paulous等人,Nucleic Acids Research 31:722-733(2003);Akbergenov等人,NucleicAcids Research 32:239-247(2004);Mignone等人,Genome Biology 3(3):reviews0004.1-0001.10(2002);Gallie,Nucleic Acids Research 30:3401-3411(2002);Shaloiko等人,DOI:10.1002/bit.20267;和Gallie等人,Nucleic Acids Research 15:3257-3273(1987);将所述文献的每一个的披露内容通过引用以其整体特此并入)。
翻译增强子序列有时是真核序列,如Kozak共有序列或其他序列(例如,水螅体序列,GenBank登录号U07128)。翻译增强子序列有时是原核序列,如Shine-Dalgarno共有序列。在某些实施方案中,翻译增强子序列是病毒核苷酸序列。翻译增强子序列有时来自植物病毒的5’UTR,所述植物病毒如例如烟草花叶病毒(TMV)、苜蓿花叶病毒(AMV);烟草蚀纹病毒(ETV);马铃薯Y病毒(PVY);芜菁花叶(poty)病毒和豌豆种传花叶病毒。在某些实施方案中,在核酸试剂中包括来自TMV的长度约67个碱基的ω序列作为翻译增强子序列(例如,缺乏鸟苷核苷酸并且包括长度为25个核苷酸的聚(CAA)中心区域)。
3’UTR可以包含对于其所源自的核苷酸序列为内源的一种或多种元件,并且有时包括一种或多种外源元件。3’UTR可以源自任何合适的核酸,如基因组DNA、质粒DNA、RNA或mRNA,例如,源自任何合适的生物体(例如,病毒、细菌、酵母、真菌、植物、昆虫或哺乳动物)。技术人员可以基于所选表达系统(例如,在所选生物体中的表达)选择用于3’UTR的适当元件。3’UTR有时包含技术人员已知的以下元件中的一种或多种:转录调节位点、转录起始位点、转录终止位点、转录因子结合位点、翻译调节位点、翻译终止位点、翻译起始位点、翻译因子结合位点、核糖体结合位点、复制子、增强子元件、沉默子元件和聚腺苷尾。3’UTR通常包括聚腺苷尾并且有时不包括,并且如果存在聚腺苷尾,可以在其中添加或缺失一个或多个腺苷部分(例如,可以添加或减去约5、约10、约15、约20、约25、约30、约35、约40、约45或约50个腺苷部分)。
在一些实施方案中,使用5’UTR和/或3’UTR的修饰改变(例如,增加、添加、降低或基本上消除)启动子的活性。通过来自可操作地连接的包含修饰的5’或3’UTR的启动子元件的一个或多个目的核苷酸序列的转录的改变,启动子活性的改变又可以改变肽、多肽或蛋白质的活性(例如,酶活性)。例如,在某些实施方案中,微生物可以通过遗传修饰来工程化以表达包含修饰的5’或3’UTR的核酸试剂,所述修饰的5’或3’UTR可以添加新型活性(例如,通常在宿主生物体中没有发现的活性),或者通过增加来自与目的核苷酸序列(例如,目的同源或异源核苷酸序列)可操作地连接的同源或异源启动子的转录来增加现有活性的表达。在一些实施方案中,在某些实施方案中,微生物可以通过遗传修饰来工程化以表达包含修饰的5’或3’UTR的核酸试剂,所述修饰的5’或3’UTR可以通过降低或基本上消除来自与目的核苷酸序列可操作地连接的同源或异源启动子的转录来降低活性的表达。
来自表达盒或表达载体的核苷酸三磷酸转运蛋白的表达可以通过能够在原核细胞或真核细胞中表达的任何启动子来控制。DNA合成和/或RNA合成通常需要启动子元件。启动子元件通常包含可以促进特定基因转录的DNA区域,通过提供对应于基因的RNA合成的起始位点来促进。在一些实施方案中,启动子通常位于其所调节的基因附近,位于基因上游(例如,基因的5’),并且与基因的有义链在相同的DNA链上。在一些实施方案中,启动子元件可以从基因或生物体分离,并且经插入而与多核苷酸序列呈功能性连接,以允许改变和/或调节表达。用于核酸表达的非天然启动子(例如,通常与给定的核酸序列无关的启动子)通常被称为异源启动子。在某些实施方案中,异源启动子和/或5’UTR可以经插入而与编码如本文所述的具有所需活性的多肽的多核苷酸呈功能性连接。如本文关于启动子所用的术语“可操作地连接”和“与……呈功能性连接”是指编码序列与启动子元件之间的关系。在启动子元件调节或控制编码序列经由转录的表达时,启动子与编码序列可操作地连接或呈功能性连接。术语“可操作地连接”和“与……呈功能性连接”在本文中关于启动子元件可互换使用。
启动子通常与RNA聚合酶相互作用。聚合酶是催化使用预先存在的核酸试剂合成核酸的酶。在模板是DNA模板时,转录RNA分子后合成蛋白质。具有适合于在本方法中使用的聚合酶活性的酶包括在使用所选模板合成蛋白质的所选系统中有活性的任何聚合酶。在一些实施方案中,启动子(例如,异源启动子)在本文中也称为启动子元件,可以与核苷酸序列或开放阅读框(ORF)可操作地连接。从启动子元件转录可以催化对应于与所述启动子可操作地连接的核苷酸序列或ORF序列的RNA的合成,这又导致所需肽、多肽或蛋白质的合成。
启动子元件有时展现对调节性控制的反应性。启动子元件有时还可以通过选择剂来调节。也就是说,来自启动子元件的转录有时可以响应于环境、营养或内部条件或信号的变化而被打开、关闭、上调或下调(例如,热诱导性启动子、光调节的启动子、反馈调节的启动子、激素影响的启动子、组织特异性启动子、氧和pH影响的启动子、对选择剂(例如,卡那霉素)有反应的启动子等)。受环境、营养或内部信号影响的启动子经常受在启动子处或附近结合并且增加或减少靶序列在某些条件下的表达的信号(直接的或间接的)影响。在采用本文公开的所有方法的情况下,包含天然或修饰的启动子可用于改变或优化完全天然的ORF(例如NTT或aaRS)或含有非天然核苷酸的ORF(例如mRNA或tRNA)的表达。
本文所述的实施方案中使用的影响从启动子元件转录的选择剂或调节剂的非限制性例子包括而不限于:(1)编码提供针对原本有毒的化合物(例如,抗生素)的抗性的产物的核酸区段;(2)编码原本在受体细胞中缺少的产物(例如,必需产物、tRNA基因、营养缺陷型标记)的核酸区段;(3)编码抑制基因产物的活性的产物的核酸区段;(4)编码可能易于鉴定的产物(例如,表型标记如抗生素(例如,β-内酰胺酶)、β-半乳糖苷酶、绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)和细胞表面蛋白)的核酸区段;(5)结合原本对细胞存活和/或功能有害的产物的核酸区段;(6)原本抑制上文1-5号中所述任何核酸区段的活性的核酸区段(例如,反义寡核苷酸);(7)结合修饰底物的产物(例如,限制内切核酸酶)的核酸区段;(8)可以用于分离或鉴定所需分子的核酸区段(例如,特异性蛋白质结合位点);(9)编码可能原本无功能的特定核苷酸序列(例如,用于分子的子群体的PCR扩增)的核酸区段;(10)在不存在时直接或间接赋予对特定化合物的抗性或敏感性的核酸区段;(11)编码在受体细胞中有毒或将相对无毒化合物转化为毒性化合物的产物(例如,单纯疱疹胸苷激酶、胞嘧啶脱氨酶)的核酸区段;(12)抑制核酸分子的复制、分配或遗传力的核酸区段,所述核酸分子含有所述核酸区段;(13)编码条件复制功能(例如,在某些宿主或宿主细胞株系中或在某些环境条件(例如,温度、营养条件等)下复制)的核酸区段;和/或(14)编码包含非天然核苷酸的一种或多种mRNA或tRNA的核酸。在一些实施方案中,可以添加调节或选择剂以改变生物体所经受的现有生长条件(例如,在液体培养中生长,在发酵罐中生长、在固体营养板上生长等)。
在一些实施方案中,启动子元件的调节可以用于改变(例如,增加、添加、降低或基本上消除)肽、多肽或蛋白质的活性(例如,酶活性)。例如,在某些实施方案中,微生物可以通过遗传修饰进行工程化以表达核酸试剂,所述核酸试剂可以添加新型活性(例如,通常在宿主生物体中未发现的活性),或者通过增加来自与目的核苷酸序列(例如,同源或异源目的核苷酸序列)可操作地连接的同源或异源启动子的转录来增加现有活性的表达。在一些实施方案中,在某些实施方案中,微生物可以通过遗传修饰进行工程化以表达核酸试剂,所述核酸试剂可以通过降低或基本上消除来自与目的核苷酸序列可操作地连接的同源或异源启动子的转录来降低活性的表达。
可以将编码异源蛋白(例如,核苷酸三磷酸转运蛋白)的核酸插入或用于任何合适的表达系统中。在一些实施方案中,在某些实施方案中,核酸试剂有时被稳定整合至宿主生物体的染色体中,或者核酸试剂可以是宿主染色体的一部分的缺失(例如,遗传修饰的生物体,其中宿主基因组的改变赋予选择性或优先维持携带所述遗传修饰的所需生物体的能力)。此类核酸试剂(例如,核酸或遗传修饰的生物体,其改变的基因组赋予所述生物体以可选性状)可以针对其指导所需蛋白质或核酸分子的产生的能力加以选择。在需要时,可以改变核酸试剂使得密码子编码:(i)相同的氨基酸,使用与在天然序列中所指定的不同的tRNA,或(ii)与正常的不同的氨基酸,包括非常规或非天然氨基酸(包括可检测地标记的氨基酸)。
重组表达是使用可以作为载体如质粒的一部分的表达盒有效地完成。载体可以包括与编码核苷酸三磷酸转运蛋白的核酸可操作地连接的启动子。载体还可以包括如本文所述的转录和翻译所需的其他元件。表达盒、表达载体以及盒或载体中的序列对于与非天然核苷酸接触的细胞可以是异源的。例如,核苷酸三磷酸转运蛋白序列对于所述细胞可以是异源的。
可以产生适于携带、编码和/或表达核苷酸三磷酸转运蛋白的多种原核和真核表达载体。此类表达载体包括例如pET、pET3d、pCR2.1、pBAD、pUC和酵母载体。所述载体可以用于例如多种体内和体外情形中。可以使用的原核启动子的非限制性例子包括SP6、T7、T5、tac、bla、trp、gal、lac或麦芽糖启动子。可以使用的真核启动子的非限制性例子包括组成性启动子,例如,病毒启动子,如CMV、SV40和RSV启动子;以及可调节启动子,例如,可诱导或可阻遏启动子,如tet启动子、hsp70启动子和通过CRE调节的合成启动子。用于细菌表达的载体包括pGEX-5X-3,并且用于真核表达的载体包括pCIneo-CMV。可以采用的病毒载体包括与以下相关的那些:慢病毒、腺病毒、腺相关病毒、疱疹病毒、牛痘病毒、小儿麻痹症病毒、AIDS病毒、神经元营养病毒、辛德毕斯病毒和其他病毒。另外有用的是共享这些病毒的特性而使它们适于用作载体的任何病毒家族。可以采用的逆转录病毒载体包括描述于以下中的那些:Verma,American Society for Microbiology,第229-232页,Washington,(1985)。例如,此类逆转录病毒载体可以包括莫洛尼鼠白血病病毒、MMLV和表达期望特性的其他逆转录病毒。通常,病毒载体含有非结构性早期基因、结构性晚期基因、RNA聚合酶III转录物、复制和衣壳化所需的反向末端重复序列,以及控制病毒基因组的转录和复制的启动子。在作为载体工程化时,病毒通常去除一个或多个早期基因,并且将基因或基因/启动子盒插入病毒基因组中代替所去除的病毒核酸。
克隆
可以利用本领域中已知的任何便利克隆策略将元件如ORF掺入核酸试剂中。可以利用已知方法将元件插入与插入元件无关的模板中,如:(1)在一个或多个现有限制酶位点处切割模板并连接目的元件,以及(2)通过使包括一个或多个合适的限制酶位点的寡核苷酸引物杂交将限制酶位点添加至模板,并通过聚合酶链式反应进行扩增(本文中更详细地描述)。其他克隆策略利用存在于或插入核酸试剂中的一个或多个插入位点,如例如用于PCR的寡核苷酸引物杂交位点,以及本文所述的其他位点。在一些实施方案中,克隆策略可以与遗传操纵如重组(例如,将具有目的核酸序列的核酸试剂重组至要修饰的生物体的基因组中,如本文进一步描述)组合。在一些实施方案中,克隆的一个或多个ORF可以通过用一个或多个目的ORF将微生物工程化来产生(直接地或间接地)修饰的或野生型核苷酸三磷酸转运蛋白和/或聚合酶,所述微生物包含改变的核苷酸三磷酸转运蛋白活性或聚合酶活性的活性。
可以通过使核酸与一种或多种特异性切割剂接触将所述核酸特异性切割。特异性切割剂通常将根据特定核苷酸序列在特定位点进行特异性切割。酶特异性切割剂的例子包括而不限于内切核酸酶(例如,DNA酶(例如,DNA酶I、II);RNA酶(例如,RNA酶E、F、H、P);CleavaseTM酶;Taq DNA聚合酶;大肠杆菌DNA聚合酶I和真核结构特异性内切核酸酶;鼠FEN-1内切核酸酶;I、II或III型限制内切核酸酶,如Acc I、Afl III、Alu I、Alw44 I、Apa I、AsnI、Ava I、Ava II、BamH I、Ban II、Bcl I、Bgl I、Bgl II、Bln I、BsaI、Bsm I、BsmBI、BssHII、BstE II、Cfo I、CIa I、Dde I、Dpn I、Dra I、EcIX I、EcoR I、EcoR I、EcoR II、EcoR V、Hae II、Hae II、Hind II、Hind III、Hpa I、Hpa II、Kpn I、Ksp I、Mlu I、MIuN I、Msp I、Nci I、Nco I、Nde I、Nde II、Nhe I、Not I、Nru I、Nsi I、Pst I、Pvu I、Pvu II、Rsa I、SacI、Sal I、Sau3A I、Sca I、ScrF I、Sfi I、Sma I、Spe I、Sph I、Ssp I、Stu I、Sty I、Swa I、Taq I、Xba I、Xho I);糖基化酶(例如,尿嘧啶-DNA糖基化酶(UDG)、3-甲基腺嘌呤DNA糖基化酶、3-甲基腺嘌呤DNA糖基化酶II、嘧啶水合物-DNA糖基化酶、FaPy-DNA糖基化酶、胸腺嘧啶错配-DNA糖基化酶、次黄嘌呤-DNA糖基化酶、5-羟甲基尿嘧啶DNA糖基化酶(HmUDG)、5-羟甲基胞嘧啶DNA糖基化酶或1,N6-亚乙烯基-腺嘌呤DNA糖基化酶);外切核酸酶(例如,外切核酸酶III);核酶;以及DNA酶。样品核酸可以用化学剂处理,或者使用修饰的核苷酸合成,并且可以切割修饰的核酸。在非限制性例子中,样品核酸可以用以下处理:(i)烷化剂,如甲基亚硝脲,其产生若干种烷化碱基,包括N3-甲基腺嘌呤和N3-甲基鸟嘌呤,所述烷化碱基被烷基嘌呤DNA-糖基化酶识别并切割;(ii)亚硫酸氢钠,其引起DNA中的胞嘧啶残基发生脱氨以形成尿嘧啶残基,所述尿嘧啶残基可以被尿嘧啶N-糖基化酶切割;以及(iii)将鸟嘌呤转化为其氧化形式8-羟基鸟嘌呤的化学剂,所述8-羟基鸟嘌呤可以被甲酰胺基嘧啶DNA N-糖基化酶切割。化学切割过程的例子包括而不限于烷化(例如,硫代磷酸酯修饰的核酸的烷化);含有P3’-N5’-氨基磷酸酯的核酸的酸不稳定性的切割;以及核酸的四氧化锇和哌啶处理。
在一些实施方案中,核酸试剂包括一个或多个重组酶插入位点。重组酶插入位点是核酸分子上的识别序列,其参与重组蛋白的整合/重组反应。例如,Cre重组酶的重组位点是loxP,它是34碱基对序列,由在8碱基对核心序列侧翼的两个13碱基对反向重复序列(用作重组酶结合位点)构成(例如,Sauer,Curr.Opin.Biotech.5:521-527(1994))。重组位点的其他例子包括attB、attP、attL和attR序列以及其突变体、片段、变体和衍生物,它们由重组蛋白λInt以及由辅助蛋白整合宿主因子(IHF)、FIS和切除酶(Xis)识别(例如,美国专利号5,888,732;6,143,557;6,171,861;6,270,969;6,277,608;和6,720,140;美国专利申请号09/517,466和09/732,914;美国专利公开号US2002/0007051;以及Landy,Curr.Opin.Biotech.3:699-707(1993);将所述文献的每一个的披露内容通过引用以其整体特此并入)。
克隆核酸的重组酶的例子在
Figure BDA0003498995360000831
系统(Invitrogen,加利福尼亚州)中,所述系统包括至少一个重组位点以用于在体内或在体外克隆所需核酸分子。在一些实施方案中,所述系统利用含有至少两个不同的位点特异性重组位点的载体,所述重组位点通常基于噬菌体λ系统(例如,att1和att2),并且是从野生型(att0)位点突变的。每个突变的位点对其相同类型的同源配偶体att位点(即,其结合配偶体重组位点)具有独特的特异性(例如,attB1对attP1,或者attL1对attR1),并且不会与其他突变类型的重组位点或与野生型att0位点交叉反应。不同的位点特异性允许所需分子的定向克隆或连接,从而提供所克隆分子的所需取向。使用
Figure BDA0003498995360000832
系统通过替代受体质粒分子上侧翼为att位点的可选标记(例如,ccdB)对侧翼为重组位点的核酸片段进行克隆和亚克隆,所述受体质粒分子有时称为目标载体(Destination Vector)。然后通过转化ccdB敏感性宿主菌株和对受体分子上的标记进行阳性选择来选择所需克隆。用于阴性选择(例如,使用毒性基因)的类似策略可以用于其他生物体中,如胸苷激酶(TK)用于哺乳动物和昆虫中。
核酸试剂有时含有一个或多个复制起点(ORI)元件。在一些实施方案中,模板包含两个或更多个ORI,其中一个ORI在一种生物体(例如,细菌)中高效发挥作用,并且另一个ORI在另一种生物体(例如,真核生物,如例如酵母)中高效发挥作用。在一些实施方案中,ORI可以在一个物种(例如,酿酒酵母)中高效发挥作用,并且另一个ORI可以在不同的物种(例如,粟酒裂殖酵母)中高效发挥作用。核酸试剂有时还包括一个或多个转录调节位点。
核酸试剂(例如,表达盒或载体)可以包括编码标记产物的核酸序列。标记产物用于确定是否已经将基因递送至细胞,以及一旦已被递送,则确定基因是否被表达。标记基因的例子包括编码β-半乳糖苷酶的大肠杆菌lacZ基因和绿色荧光蛋白。在一些实施方案中,标记可以是可选标记。在将此类可选标记成功转移至宿主细胞中时,转化的宿主细胞在被置于选择压力下时可以存活。有两个广泛使用的不同类别的选择方案。第一个类别基于细胞的代谢和突变体细胞系的使用,所述突变体细胞系缺少独立于补充的培养基生长的能力。第二个类别是显性选择,它是指用于任何细胞类型并且不需要使用突变体细胞系的选择方案。这些方案通常使用药物来阻止宿主细胞的生长。具有新型基因的那些细胞会表达传递抗药性的蛋白质并且会在选择中存活。这种显性选择的例子使用以下药物:新霉素(Southern等人,J.Molec.Appl.Genet.1:327(1982))、霉酚酸(Mulligan等人,Science209:1422(1980))或潮霉素(Sugden,等人,Mol.Cell.Biol.5:410-413(1985);将所述文献的每一个的披露内容通过引用以其整体特此并入)。
核酸试剂可以包括一个或多个选择元件(例如,用于选择核酸试剂的存在,并且不用于激活可以被选择性调节的启动子元件的元件)。选择元件通常使用已知过程用于确定细胞中是否包括核酸试剂。在一些实施方案中,核酸试剂包括两个或更多个选择元件,其中一个选择元件在一种生物体中高效发挥作用,并且另一个选择元件在另一种生物体中高效发挥作用。选择元件的例子包括但不限于:(1)编码提供针对原本有毒的化合物(例如,抗生素)的抗性的产物的核酸区段;(2)编码原本在受体细胞中缺少的产物(例如,必需产物、tRNA基因、营养缺陷型标记)的核酸区段;(3)编码抑制基因产物的活性的产物的核酸区段;(4)编码可能易于鉴定的产物(例如,表型标记如抗生素(例如,β-内酰胺酶)、β-半乳糖苷酶、绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)和细胞表面蛋白)的核酸区段;(5)结合原本对细胞存活和/或功能有害的产物的核酸区段;(6)原本抑制上文1-5号中所述任何核酸区段的活性的核酸区段(例如,反义寡核苷酸);(7)结合修饰底物的产物(例如,限制内切核酸酶)的核酸区段;(8)可以用于分离或鉴定所需分子的核酸区段(例如,特异性蛋白质结合位点);(9)编码可能原本无功能的特定核苷酸序列(例如,用于分子的子群体的PCR扩增)的核酸区段;(10)在不存在时直接或间接赋予对特定化合物的抗性或敏感性的核酸区段;(11)编码在受体细胞中有毒或将相对无毒化合物转化为毒性化合物的产物(例如,单纯疱疹胸苷激酶、胞嘧啶脱氨酶)的核酸区段;(12)抑制核酸分子的复制、分配或遗传力的核酸区段,所述核酸分子含有所述核酸区段;和/或(13)编码条件复制功能(例如,在某些宿主或宿主细胞株系中或在某些环境条件(例如,温度、营养条件等)下复制)的核酸区段。
核酸试剂可以呈用于体内转录和/或翻译的任何形式。核酸有时是质粒如超螺旋质粒,有时是酵母人工染色体(例如,YAC),有时是线性核酸(例如,通过PCR或通过限制消化产生的线性核酸),有时是单链并且有时是双链。核酸试剂有时是通过扩增过程制备的,如聚合酶链式反应(PCR)过程或转录介导的扩增过程(TMA)。在TMA中,在等温反应中使用两种酶产生通过光发射检测的扩增产物(例如,Biochemistry 1996年6月25日;35(25):8429-38)。标准PCR过程是已知的(例如,美国专利号4,683,202;4,683,195;4,965,188;和5,656,493),并且通常循环进行。每个循环包括热变性,其中杂合核酸解离;冷却,其中引物寡核苷酸杂交;以及通过聚合酶(即,Taq聚合酶)延伸寡核苷酸。PCR循环过程的例子是将样品在95℃下处理5分钟;重复95℃持续1分钟、59℃持续1分钟10秒和72℃持续1分钟30秒的四十五个循环;然后将样品在72℃下处理5分钟。多个循环通常是使用市场上购得的热循环仪来进行。有时将PCR扩增产物在较低温度下(例如,在4℃下)储存一段时间,并且有时在分析前将其冷冻(例如,在-20℃下)。
可以采用类似于上述那些的克隆策略来产生含有非天然核苷酸的DNA。例如,使用标准固相合成法合成在所需位置含有非天然核苷酸的寡核苷酸,并通过HPLC纯化。然后使用克隆方法(如金门组装(Golden Gate Assembly))将寡核苷酸插入含有所需序列背景(即UTR和编码序列)的具有克隆位点如BsaI位点(但可以使用上文讨论的其他位点)的质粒中。
试剂盒/制品
在某些实施方案中,本文公开了与本文所述的一种或多种方法一起使用的试剂盒和制品。此类试剂盒包括载体、包装或容器,其被分隔以容纳一个或多个容器如小瓶、管等,所述一个或多个容器中的每一个包含有待在本文所述的方法中使用的单独要素之一。合适的容器包括例如瓶子、小瓶、注射器和试管。在一个实施方案中,容器由各种材料(如玻璃或塑料)形成。
在一些实施方案中,试剂盒包括合适的包装材料来容纳试剂盒的内容物。在一些情形中,包装材料是通过熟知的方法来构建的,优选地以提供无菌无污染的环境。本文所用的包装材料可以包括例如通常用于出售用于与核酸测序系统一起使用的商业试剂盒中的那些。示例性包装材料包括而不限于能够将本文所述的组分保持在固定界限内的玻璃、塑料、纸、箔等。
包装材料可以包括指示组分具体用途的标签。标签所指示的试剂盒的用途可以是对于试剂盒中存在的特定组分组合适当的本文所述的一种或多种方法。例如,标签可以指示,试剂盒用于合成多核苷酸的方法中,或者用于确定核酸序列的方法中。
试剂盒中还可以包括所包装试剂或组分的使用说明。所述说明通常将包括描述反应参数的有形表达,所述反应参数如要混合的试剂盒组分和样品的相对量、试剂/样品混合物的维持时间段、温度、缓冲条件等。
将理解,并非特定反应所需的所有组分都必须存在于特定试剂盒中。而是可以从其他来源提供一种或多种另外的组分。与试剂盒一起提供的说明可以标识要提供的一种或多种另外的组分以及可以从哪里获得所述组分。
在一些实施方案中,提供试剂盒,所述试剂盒用于将非天然核酸稳定掺入细胞核酸中,例如,使用本发明提供的用于制备基因工程化细胞的方法。在一个实施方案中,本文所述的试剂盒包括基因工程化细胞以及一种或多种非天然核酸。在另一个实施方案中,本文所述的试剂盒包括分离且纯化的质粒,所述质粒包含选自SEQ ID NO:1-2的序列。在另外的实施方案中,本文所述的试剂盒包括引物,所述引物包含选自SEQ ID NO:3-20的序列。
在另外的实施方案中,本文所述的试剂盒提供细胞和含有用于引入所述细胞中以由此提供基因工程化细胞的异源基因的核酸分子,如包含本段之前描述的任何实施方案的核酸的表达载体。
示例性实施方案
本公开文本通过以下实施方案作进一步描述。每个实施方案的特征可在适当和实用的情况下与任何其他实施方案组合。
实施方案1.一种体内产生包含非天然氨基酸的蛋白质的方法,所述方法包括:
转录包含第一非天然碱基和互补的第二非天然碱基的DNA模板以将第三非天然碱基掺入mRNA中,所述第三非天然碱基被配置为与所述第一非天然碱基形成第一非天然碱基对;
转录所述DNA模板以将第四非天然碱基掺入tRNA中,其中所述第四非天然碱基被配置为与所述第二非天然碱基形成第二非天然碱基对,其中所述第一非天然碱基对和所述第二非天然碱基对不相同;以及
从所述mRNA和所述tRNA翻译蛋白质,其中所述蛋白质包含非天然氨基酸。
实施方案2.根据实施方案1所述的方法,其中所述体内方法包括使用半合成生物体。
实施方案3.根据实施方案2所述的方法,其中所述生物体包括微生物。
实施方案4.根据实施方案3所述的方法,其中所述生物体包括细菌。
实施方案5.根据实施方案4所述的方法,其中所述生物体包括革兰氏阳性细菌。
实施方案6.根据实施方案4所述的方法,其中所述生物体包括革兰氏阴性细菌。
实施方案7.根据实施方案2-4中任一项所述的方法,其中所述生物体包括大肠杆菌。
实施方案8.根据实施方案1-7中任一项所述的方法,其中至少一种非天然碱基选自
(i)2-硫尿嘧啶,2-硫代胸腺嘧啶,2’-脱氧尿苷,4-硫代-尿嘧啶,4-硫代-胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-卤代尿嘧啶;5-丙炔基-尿嘧啶,6-偶氮基-胸腺嘧啶,6-偶氮基-尿嘧啶,5-甲氨基甲基尿嘧啶,5-甲氧基氨基甲基-2-硫尿嘧啶,假尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,5-甲基-2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,5’-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,尿嘧啶-5-氧基乙酸,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨基甲基-2-硫代尿苷,5-羧甲基氨基甲基尿嘧啶或二氢尿嘧啶;
(ii)5-羟甲基胞嘧啶,5-三氟甲基胞嘧啶,5-卤代胞嘧啶,5-丙炔基胞嘧啶,5-羟基胞嘧啶,环胞嘧啶,阿糖胞苷,5,6-二氢胞嘧啶,5-硝基胞嘧啶,6-偶氮基胞嘧啶,氮杂胞嘧啶,N4-乙基胞嘧啶,3-甲基胞嘧啶,5-甲基胞嘧啶,4-乙酰胞嘧啶,2-硫代胞嘧啶,吩噁嗪胞苷([5,4-b][l,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][l,4]苯并噻嗪-2(3H)-酮),吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][l,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮)或吡啶并吲哚胞苷(H-吡啶并[3’,2’:4,5]吡咯并[2,3-d]嘧啶-2-酮);
(iii)2-氨基腺嘌呤,2-丙基腺嘌呤,2-氨基-腺嘌呤,2-F-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基-2’-脱氧腺苷,3-脱氮腺嘌呤,7-甲基腺嘌呤,7-脱氮-腺嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤,N6-异戊烯基腺嘌呤,2-甲基腺嘌呤,2,6-二氨基嘌呤,2-甲硫基-N6-异戊烯基腺嘌呤或6-氮杂-腺嘌呤;
(iv)2-甲基鸟嘌呤,鸟嘌呤的2-丙基和烷基衍生物,3-脱氮鸟嘌呤,6-硫代鸟嘌呤,7-甲基鸟嘌呤,7-脱氮鸟嘌呤,7-脱氮鸟苷,7-脱氮-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-卤代、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的鸟嘌呤,1-甲基鸟嘌呤,2,2-二甲基鸟嘌呤,7-甲基鸟嘌呤或6-氮杂-鸟嘌呤;和
(v)次黄嘌呤,黄嘌呤,1-甲基肌苷,辫苷(queosine),β-D-半乳糖基辫苷,肌苷,β-D-甘露糖基辫苷,怀丁氧苷(wybutoxosine),羟基脲,(acp3)w,2-氨基吡啶或2-吡啶酮。
实施方案9.根据实施方案1-7中任一项所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000861
Figure BDA0003498995360000871
实施方案10.根据实施方案1-7中任一项所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000872
实施方案11.根据实施方案9所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000873
实施方案12.根据实施方案9所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000874
实施方案13.根据实施方案9所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000875
实施方案14.根据实施方案9所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000881
实施方案15.根据实施方案9所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000882
实施方案16.根据实施方案9所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自
Figure BDA0003498995360000883
实施方案17.根据实施方案9所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000884
实施方案18.根据实施方案9所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者是
Figure BDA0003498995360000885
实施方案19.根据实施方案9所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360000886
实施方案20.根据实施方案9所述的方法,其中所述第一非天然碱基或所述第二非天然碱基是
Figure BDA0003498995360000891
实施方案21.根据实施方案9所述的方法,其中所述第一非天然碱基或所述第二非天然碱基是
Figure BDA0003498995360000892
实施方案22.根据实施方案9所述的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000893
并且所述第二非天然碱基是
Figure BDA0003498995360000894
实施方案23.根据实施方案9所述的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000895
并且所述第二非天然碱基是
Figure BDA0003498995360000896
实施方案24.根据实施方案9所述的方法,其中所述第三非天然碱基或所述第四非天然碱基是
Figure BDA0003498995360000897
实施方案25.根据实施方案9所述的方法,其中所述第三非天然碱基是
Figure BDA0003498995360000898
实施方案26.根据实施方案9所述的方法,其中所述第四非天然碱基是
Figure BDA0003498995360000899
实施方案27.根据实施方案9所述的方法,其中所述第三非天然碱基或所述第四非天然碱基是
Figure BDA00034989953600008910
实施方案28.根据实施方案9所述的方法,其中所述第三非天然碱基是
Figure BDA0003498995360000901
实施方案29.根据实施方案9所述的方法,其中所述第四非天然碱基是
Figure BDA0003498995360000902
实施方案30.根据实施方案9所述的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000903
所述第二非天然碱基是
Figure BDA0003498995360000904
所述第三非天然碱基是
Figure BDA0003498995360000905
并且所述第四非天然碱基是
Figure BDA0003498995360000906
实施方案31.根据实施方案9所述的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000907
所述第二非天然碱基是
Figure BDA0003498995360000908
所述第三非天然碱基是
Figure BDA0003498995360000909
并且所述第四非天然碱基是
Figure BDA00034989953600009010
实施方案32.根据实施方案9所述的方法,其中所述第一非天然碱基是
Figure BDA00034989953600009011
所述第二非天然碱基是
Figure BDA00034989953600009012
所述第三非天然碱基是
Figure BDA00034989953600009013
Figure BDA00034989953600009014
并且所述第四非天然碱基是
Figure BDA00034989953600009015
实施方案33.根据实施方案9所述的方法,其中所述第三非天然碱基是
Figure BDA0003498995360000911
实施方案34.根据实施方案9所述的方法,其中所述第四非天然碱基是
Figure BDA0003498995360000912
实施方案35.根据实施方案9所述的方法,其中所述第一非天然碱基是
Figure BDA0003498995360000913
所述第二非天然碱基是
Figure BDA0003498995360000914
所述第三非天然碱基是
Figure BDA0003498995360000915
Figure BDA0003498995360000916
并且所述第四非天然碱基是
Figure BDA0003498995360000917
实施方案36.根据实施方案9至35中任一项所述的方法,其中所述第三非天然碱基和所述第四非天然碱基包含核糖。
实施方案37.根据实施方案9至35中任一项所述的方法,其中所述第三非天然碱基和所述第四非天然碱基包含脱氧核糖。
实施方案38.根据实施方案9至35中任一项所述的方法,其中所述第一非天然碱基和所述第二非天然碱基包含脱氧核糖。
实施方案39.根据实施方案9至35中任一项所述的方法,其中所述第一非天然碱基和所述第二非天然碱基包含脱氧核糖,并且所述第三非天然碱基和所述第四非天然碱基包含核糖。
实施方案40.根据实施方案9所述的方法,其中所述DNA模板包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360000918
Figure BDA0003498995360000921
实施方案41.根据实施方案40所述的方法,其中所述DNA模板包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。
实施方案42.根据实施方案40所述的方法,其中所述DNA模板包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。
实施方案43.根据实施方案40所述的方法,其中所述DNA模板包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。
实施方案44.根据实施方案40所述的方法,其中所述DNA模板包含至少一种为dPTMO-dTPT3的非天然碱基对(UBP)。
实施方案45.根据实施方案40所述的方法,其中所述DNA模板包含至少一种为dNaM-dTAT1的非天然碱基对(UBP)。
实施方案46.根据实施方案40所述的方法,其中所述DNA模板包含至少一种为dCNMO-dTAT1的非天然碱基对(UBP)。
实施方案47.根据实施方案1所述的方法,其中所述DNA模板包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360000922
Figure BDA0003498995360000923
并且
其中所述mRNA和所述tRNA包含至少一种选自以下的非天然碱基:
Figure BDA0003498995360000931
实施方案48.根据实施方案47所述的方法,其中所述DNA模板包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。
实施方案49.根据实施方案47所述的方法,其中所述DNA模板包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。
实施方案50.根据实施方案47所述的方法,其中所述DNA模板包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。
实施方案51.根据实施方案47所述的方法,其中所述DNA模板包含至少一种为dPTMO-dTPT3的非天然碱基对(UBP)。
实施方案52.根据实施方案47所述的方法,其中所述DNA模板包含至少一种为dNaM-dTAT1的非天然碱基对(UBP)。
实施方案53.根据实施方案47所述的方法,其中所述DNA模板包含至少一种为dCNMO-dTAT1的非天然碱基对(UBP)。
实施方案54.根据实施方案47至53中任一项所述的方法,其中所述mRNA和所述tRNA包含选自
Figure BDA0003498995360000932
的非天然碱基。
实施方案55.根据实施方案54所述的方法,其中所述mRNA和所述tRNA包含选自
Figure BDA0003498995360000933
的非天然碱基。
实施方案56.根据实施方案54所述的方法,其中所述mRNA包含为
Figure BDA0003498995360000934
的非天然碱基。
实施方案57.根据实施方案54所述的方法,其中所述mRNA包含为
Figure BDA0003498995360000935
的非天然碱基。
实施方案58.根据实施方案54所述的方法,其中所述mRNA包含为
Figure BDA0003498995360000941
的非天然碱基。
实施方案59.根据实施方案54所述的方法,其中所述tRNA包含选自
Figure BDA0003498995360000942
的非天然碱基。
实施方案60.根据实施方案54所述的方法,其中所述tRNA包含为
Figure BDA0003498995360000943
的非天然碱基。
实施方案61.根据实施方案54所述的方法,其中所述tRNA包含为
Figure BDA0003498995360000944
的非天然碱基。
实施方案62.根据实施方案54所述的方法,其中所述tRNA包含为
Figure BDA0003498995360000945
的非天然碱基。
实施方案63.根据实施方案1-7中任一项所述的方法,其中所述第一非天然碱基包括dCNMO,并且所述第二非天然碱基包括dTPT3。
实施方案64.根据实施方案1-7或41中任一项所述的方法,其中所述第三非天然碱基包括NaM,并且所述第二非天然碱基包括TAT1。
实施方案65.根据实施方案1-64中任一项所述的方法,其中所述第一非天然碱基或所述第二非天然碱基由DNA聚合酶识别。
实施方案66.根据实施方案1-65中任一项所述的方法,其中所述第三非天然碱基或所述第四非天然碱基由RNA聚合酶识别。
实施方案67.根据实施方案1-66中任一项所述的方法,其中所述蛋白质包含至少两个非天然氨基酸。
实施方案68.根据实施方案1-66中任一项所述的方法,其中所述蛋白质包含至少三个非天然氨基酸。
实施方案69.根据实施方案1-66中任一项所述的方法,其中所述蛋白质包含至少两个不同的非天然氨基酸。
实施方案70.根据实施方案1-66中任一项所述的方法,其中所述蛋白质包含至少三个不同的非天然氨基酸。
实施方案71.根据实施方案1-70中任一项所述的方法,其中所述至少一个非天然氨基酸:
是赖氨酸类似物;
包含芳族侧链;
包含叠氮基;
包含炔基;或者
包含醛基或酮基。
实施方案72.根据实施方案1-70中任一项所述的方法,其中所述至少一个非天然氨基酸不包含芳族侧链。
实施方案73.实施方案1-70中任一项的方法,其中所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)、N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)、BCN-L-赖氨酸、降冰片烯赖氨酸、TCO-赖氨酸、甲基四嗪赖氨酸、烯丙氧基羰基赖氨酸、2-氨基-8-氧代壬酸、2-氨基-8-氧代辛酸、对-乙酰基-L-苯丙氨酸、对-叠氮基甲基-L-苯丙氨酸(pAMF)、对-碘-L-苯丙氨酸、间-乙酰基苯丙氨酸、2-氨基-8-氧代壬酸、对-炔丙基氧基苯丙氨酸、对-炔丙基-苯丙氨酸、3-甲基-苯丙氨酸、L-多巴、氟化苯丙氨酸、异丙基-L-苯丙氨酸、对-叠氮基-L-苯丙氨酸、对-酰基-L-苯丙氨酸、对-苯甲酰基-L-苯丙氨酸、对-溴苯丙氨酸、对-氨基-L-苯丙氨酸、异丙基-L-苯丙氨酸、O-烯丙基酪氨酸、O-甲基-L-酪氨酸、O-4-烯丙基-L-酪氨酸、4-丙基-L-酪氨酸、膦酰酪氨酸、三-O-乙酰基-GlcNAcp-丝氨酸、L-磷酸丝氨酸、膦酰丝氨酸、L-3-(2-萘基)丙氨酸、2-氨基-3-((2-((3-(苄氧基)-3-氧丙基)氨基)乙基)硒基)丙酸、2-氨基-3-(苯基硒基)丙酸或硒代半胱氨酸。
实施方案74.根据实施方案73所述的方法,其中所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)和N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。
实施方案75.根据实施方案72所述的方法,其中所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)。
实施方案76.根据实施方案72所述的方法,其中所述至少一个非天然氨基酸包括N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。
实施方案77.一种半合成生物体,所述半合成生物体包含扩展的遗传字母,其中所述遗传字母包含至少两种独特的非天然碱基。
实施方案78.根据实施方案77所述的半合成生物体,其中所述生物体包括微生物。
实施方案79.根据实施方案77-78中任一项所述的半合成生物体,其中所述生物体包括细菌。
实施方案80.根据实施方案79所述的半合成生物体,其中所述生物体包括革兰氏阳性细菌。
实施方案81.根据实施方案79所述的半合成生物体,其中所述生物体包括革兰氏阳性细菌。
实施方案82.根据实施方案77-79中任一项所述的半合成生物体,其中所述生物体包括大肠杆菌。
实施方案83.根据实施方案77-82中任一项所述的半合成生物体,其中所述非天然碱基中的至少一种选自:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2’-脱氧尿苷,2-氨基-2’-脱氧腺苷3-脱氮鸟嘌呤,3-脱氮腺嘌呤,4-硫尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮鸟嘌呤,7-脱氮鸟苷,7-脱氮-腺嘌呤,7-脱氮-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3’,2’:4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5’-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶、(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。
实施方案84.根据实施方案77-82中任一项所述的半合成生物体,其中所述生物体包含含有选自以下的至少一种非天然核碱基的DNA:
Figure BDA0003498995360000961
实施方案85.根据实施方案77-84中任一项所述的半合成生物体,其中包含所述非天然碱基中的至少一种的DNA形成非天然碱基对(UBP)。
实施方案86.根据实施方案85所述的半合成生物体,其中所述非天然碱基对(UBP)是dCNMO-dTPT3、dNaM-dTPT3、dCNMO-dTAT1或dNaM-dTAT1。
实施方案87.根据实施方案84所述的半合成生物体,其中所述DNA包含选自以下的至少一种非天然核碱基:
Figure BDA0003498995360000971
实施方案88.根据实施方案87所述的半合成生物体,其中所述DNA包含选自以下的至少一种非天然核碱基:
Figure BDA0003498995360000972
实施方案89.根据实施方案88所述的半合成生物体,其中所述DNA包含选自以下的至少一种非天然核碱基:
Figure BDA0003498995360000973
实施方案90.根据实施方案88所述的半合成生物体,其中所述DNA包含选自以下的至少一种非天然核碱基:
Figure BDA0003498995360000974
实施方案91.根据实施方案88所述的半合成生物体,其中所述DNA包含选自以下的至少一种非天然核碱基:
Figure BDA0003498995360000975
实施方案92.根据实施方案88所述的半合成生物体,其中所述DNA包含选自以下的至少一种非天然核碱基:
Figure BDA0003498995360000981
实施方案93.根据实施方案88所述的半合成生物体,其中所述DNA包含选自以下的至少一种非天然核碱基:
Figure BDA0003498995360000982
实施方案94.根据实施方案88所述的半合成生物体,其中所述DNA包含选自以下的至少一种非天然核碱基:
Figure BDA0003498995360000983
实施方案95.根据实施方案88所述的半合成生物体,其中所述DNA包含至少一种选自
Figure BDA0003498995360000984
的非天然核碱基。
实施方案96.根据实施方案88所述的半合成生物体,其中所述DNA包含至少两种选自
Figure BDA0003498995360000985
的非天然核碱基。
实施方案97.根据实施方案88所述的半合成生物体,其中所述DNA包含两条链,第一链包含至少一种为
Figure BDA0003498995360000986
的核碱基,并且第二链包含至少一种为
Figure BDA0003498995360000987
的核碱基。
实施方案98.根据实施方案88所述的半合成生物体,其中所述DNA包含至少一种为
Figure BDA0003498995360000988
的非天然核碱基。
实施方案99.根据实施方案77至98中任一项所述的半合成生物体,其中所述生物体表达核苷三磷酸转运蛋白。
实施方案100.根据实施方案99所述的半合成生物体,其中所述生物体表达为PtNTT2的核苷三磷酸转运蛋白。
实施方案101.根据实施方案77至100中任一项所述的半合成生物体,其中所述生物体还表达tRNA合成酶。
实施方案102.根据实施方案101所述的半合成生物体,其中所述tRNA合成酶是巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS)。
实施方案103.根据实施方案99所述的半合成生物体,其中所述生物体表达核苷三磷酸转运蛋白PtNTT2,并且还表达tRNA合成酶巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS)。
实施方案104.根据实施方案77至103中任一项所述的半合成生物体,其中所述生物体还表达RNA聚合酶。
实施方案105.根据实施方案104所述的半合成生物体,其中所述RNA聚合酶是T7RNAP。
实施方案106.根据实施方案77至105中任一项所述的半合成生物体,其中所述生物体不表达具有DNA重组修复功能的蛋白质。
实施方案107.根据实施方案77至105中任一项所述的半合成生物体,其中所述生物体是大肠杆菌并且所述生物体不表达RecA。
实施方案108.根据实施方案77至107中任一项所述的半合成生物体,所述半合成生物体还包含mRNA。
实施方案109.根据实施方案108所述的半合成生物体,其中所述mRNA包含至少一种选自
Figure BDA0003498995360000991
的非天然碱基。
实施方案110.根据实施方案108所述的半合成生物体,其中所述mRNA包含至少一种为
Figure BDA0003498995360000992
的非天然碱基。
实施方案111.根据实施方案108所述的半合成生物体,其中所述mRNA包含至少一种为
Figure BDA0003498995360000993
的非天然碱基。
实施方案112.根据实施方案108所述的半合成生物体,其中所述mRNA包含至少一种为
Figure BDA0003498995360000994
的非天然碱基。
实施方案113.根据实施方案77至112中任一项所述的半合成生物体,所述半合成生物体还包含tRNA。
实施方案114.根据实施方案113所述的半合成生物体,其中所述tRNA包含至少一种选自
Figure BDA0003498995360001001
的非天然碱基。
实施方案115.根据实施方案113所述的半合成生物体,其中所述tRNA包含至少一种为
Figure BDA0003498995360001002
的非天然碱基。
实施方案116.根据实施方案113所述的半合成生物体,其中所述tRNA包含至少一种为
Figure BDA0003498995360001003
的非天然碱基。
实施方案117.根据实施方案113所述的半合成生物体,其中所述tRNA包含至少一种为
Figure BDA0003498995360001004
的非天然碱基。
实施方案118.根据实施方案77至107中任一项所述的半合成生物体,所述半合成生物体还包含mRNA和tRNA。
实施方案119.根据实施方案77至98中任一项所述的半合成生物体,其中所述生物体还包含(a)核苷三磷酸转运蛋白,(b)mRNA,(c)tRNA,(d)tRNA合成酶,和(e)RNA聚合酶,并且其中所述生物体不表达具有DNA重组修复功能的蛋白质。
实施方案120.根据实施方案119所述的半合成生物体,其中所述核苷三磷酸转运蛋白是PtNTT2,所述tRNA合成酶是巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS),并且所述RNA聚合酶是T7 RNAP。
实施方案121.根据实施方案119所述的半合成生物体,其中所述生物体是大肠杆菌,并且所述生物体不表达RecA。
实施方案122.根据实施方案118或119所述的半合成生物体,其中所述生物体过表达一种或多种DNA聚合酶。
实施方案123.根据实施方案122所述的半合成生物体,其中所述生物体过表达DNAPol II。
实施方案124.根据实施方案77至123中任一项所述的半合成生物体,其中至少一种非天然碱基还包含非天然糖部分。
实施方案125.根据实施方案124所述的半合成生物体,其中所述非天然糖部分选自:
2’位置处的修饰:
OH、取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2F;
O-烷基、S-烷基、N-烷基;
O-烯基、S-烯基、N-烯基;
O-炔基、S-炔基、N-炔基;
O-烷基-O-烷基、2’-F、2’-OCH3、2’-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)nO]mCH3、-O(CH2)nOCH3、-O(CH2)nNH2、-O(CH2)nCH3、-O(CH2)n-NH2和-O(CH2)nON[(CH2)nCH3)]2,其中n和m是1至约10;
和/或5’位置处的修饰:
5’-乙烯基、5’-甲基(R或S);
4’位置处的修饰:
4’-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、用于改善寡核苷酸药代动力学特性的基团、或用于改善寡核苷酸药效学特性的基团、及其任何组合。
实施方案126.根据实施方案77-125中任一项所述的半合成生物体,其中至少一种非天然碱基由DNA聚合酶识别。
实施方案127.根据实施方案73-126中任一项所述的半合成生物体,其中至少一种非天然碱基由RNA聚合酶识别。
实施方案128.一种包含具有以下结构的核碱基类似物的组合物:
Figure BDA0003498995360001011
其中
每个X独立地是碳或氮;
R2是任选的,并且当存在时独立地是氢、烷基、烯基、炔基、甲氧基、甲硫醇、甲烷硒基、卤素、氰基或叠氮基;
其中每个Y独立地是硫、氧、硒或仲胺;
其中每个E独立地是氧、硫或硒;并且
其中波浪线指示与核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物的键合点,其中所述核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物是游离形式,连接至单磷酸酯、二磷酸酯或三磷酸酯基团(任选地包括α-硫代三磷酸酯、β-硫代三磷酸酯或γ-硫代三磷酸酯基团),或包含在RNA或DNA中或者RNA类似物或DNA类似物中。
实施方案129.根据实施方案128所述的化合物,其中所述核糖基或脱氧核糖基部分带有与其5’-羟基键合的三磷酸酯基团或α-硫代三磷酸酯基团。
实施方案130.根据实施方案128或129中任一项所述的化合物,其中所述核糖基或脱氧核糖基部分分别掺入RNA或DNA寡核苷酸链中,或所述核糖基或脱氧核糖基部分或其类似物掺入多核苷酸中。
实施方案131.根据实施方案128至130中任一项所述的化合物,其中X是碳。
实施方案132.根据实施方案128至131中任一项所述的化合物,其中E是硫。
实施方案133.根据实施方案128至132中任一项所述的化合物,其中Y是硫。
实施方案134.根据实施方案128所述的化合物,其中所述核碱基包含结构
Figure BDA0003498995360001012
实施方案135.根据实施方案128至134中任一项所述的化合物,其中所述核碱基与互补碱基配对核碱基结合以形成非天然碱基对(UBP)。
实施方案136.根据实施方案135所述的化合物,其中所述互补碱基配对核碱基选自:
Figure BDA0003498995360001021
实施方案137.一种双链寡核苷酸双链体,其中第一寡核苷酸链包含根据实施方案128至134中任一项所述的化合物,并且第二互补寡核苷酸链在其互补碱基配对位点中包含互补碱基配对核碱基。
实施方案138.根据实施方案137所述的双链寡核苷酸双链体,其中所述第一寡核苷酸链包含
Figure BDA0003498995360001022
并且所述第二链在其互补碱基配对位点中包含选自以下的互补碱基配对核碱基:
Figure BDA0003498995360001023
实施方案139.一种包含根据实施方案128至136中任一项所述的核碱基类似物的转移RNA(tRNA),所述转移RNA包含:
反密码子,其中所述反密码子包含所述核碱基类似物;和
识别元件,其中所述识别元件通过氨酰tRNA合成酶促进所述tRNA选择性装载非天然氨基酸。
实施方案140.根据实施方案139所述的tRNA,其中所述核碱基类似物位于所述tRNA的反密码子区。
实施方案141.根据实施方案140所述的tRNA,其中所述核碱基类似物位于所述反密码子的第一位置处。
实施方案142.根据实施方案140所述的tRNA,其中所述核碱基类似物位于所述反密码子的第二位置处。
实施方案143.根据实施方案140所述的tRNA,其中所述核碱基类似物位于所述反密码子的第三位置处。
实施方案144.根据实施方案139所述的tRNA,其中所述氨酰tRNA合成酶源自嗜热生物。
实施方案145.根据实施方案139所述的tRNA,其中所述氨酰tRNA合成酶源自甲烷八叠球菌属或其变体。
实施方案146.根据实施方案139所述的tRNA,其中所述氨酰tRNA合成酶源自甲烷球菌属(Methanococcus/Methanocaldococcus)或其变体。
实施方案147.根据实施方案139所述的tRNA,其中所述非天然氨基酸包含芳族部分。
实施方案148.根据实施方案139所述的tRNA,其中所述非天然氨基酸是赖氨酸衍生物。
实施方案149.根据实施方案139所述的tRNA,其中所述非天然氨基酸是苯丙氨酸衍生物。
实施方案150.实施方案139的tRNA,其中所述非天然氨基酸选自:N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)、N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)、BCN-L-赖氨酸、降冰片烯赖氨酸、TCO-赖氨酸、甲基四嗪赖氨酸、烯丙氧基羰基赖氨酸、2-氨基-8-氧代壬酸、2-氨基-8-氧代辛酸、对-乙酰基-L-苯丙氨酸、对-叠氮基甲基-L-苯丙氨酸(pAMF)、对-碘-L-苯丙氨酸、间-乙酰基苯丙氨酸、2-氨基-8-氧代壬酸、对-炔丙基氧基苯丙氨酸、对-炔丙基-苯丙氨酸、3-甲基-苯丙氨酸、L-多巴、氟化苯丙氨酸、异丙基-L-苯丙氨酸、对-叠氮基-L-苯丙氨酸、对-酰基-L-苯丙氨酸、对-苯甲酰基-L-苯丙氨酸、对-溴苯丙氨酸、对-氨基-L-苯丙氨酸、异丙基-L-苯丙氨酸、O-烯丙基酪氨酸、O-甲基-L-酪氨酸、O-4-烯丙基-L-酪氨酸、4-丙基-L-酪氨酸、膦酰酪氨酸、三-O-乙酰基-GlcNAcp-丝氨酸、L-磷酸丝氨酸、膦酰丝氨酸、L-3-(2-萘基)丙氨酸、2-氨基-3-((2-((3-(苄氧基)-3-氧丙基)氨基)乙基)硒基)丙酸、2-氨基-3-(苯基硒基)丙酸和硒代半胱氨酸。
实施方案151.一种包含下式的结构:
N1-Zx-N2
其中N1是核苷酸或其类似物、或末端磷酸酯基团;其中N2是核苷酸或其类似物、或末端羟基;其中Z是根据实施方案128-136中任一项所述的化合物,并且其中x是1至20的整数。
实施方案152.根据实施方案151所述的结构,其中所述结构编码基因。
实施方案153.根据实施方案151所述的结构,其中Zx位于所述基因的翻译区。
实施方案154.根据实施方案151所述的结构,其中Zx位于所述基因的非翻译区。
实施方案155.根据实施方案151所述的结构,其中所述结构还包含5’或3’非翻译区(UTR)。
实施方案156.根据实施方案151所述的结构,其中所述结构还包含终止子区。
实施方案157.根据实施方案151所述的结构,其中所述结构还包含启动子区。
实施方案158.一种多核苷酸文库,其中所述文库包含至少5000种独特多核苷酸,并且其中每种多核苷酸包含根据实施方案128-136中任一项所述的至少一种化合物。
实施方案159.根据实施方案158所述的文库,其中所述多核苷酸文库编码至少一种基因。
实施方案160.一种核苷三磷酸,其中所述核碱基选自
Figure BDA0003498995360001031
Figure BDA0003498995360001041
实施方案161.根据实施方案160所述的核苷三磷酸,其中所述核苷包含核糖。
实施方案162.根据实施方案160所述的核苷三磷酸,其中所述核苷包含脱氧核糖。
实施方案163.根据实施方案160至162中任一项所述的核苷三磷酸,其中所述核碱基选自
Figure BDA0003498995360001042
实施方案164.根据实施方案163所述的核苷三磷酸,其中所述核碱基选自
Figure BDA0003498995360001043
实施方案165.根据实施方案163所述的核苷三磷酸,其中所述核碱基选自
Figure BDA0003498995360001044
实施方案166.根据实施方案163所述的核苷三磷酸,其中所述核碱基选自
Figure BDA0003498995360001045
实施方案167.根据实施方案165所述的核苷三磷酸,其中所述核碱基是
Figure BDA0003498995360001051
实施方案168.根据实施方案167所述的核苷三磷酸,其中所述核苷包含核糖。
实施方案169.根据实施方案167所述的核苷三磷酸,其中所述核苷包含脱氧核糖。
实施方案170.根据实施方案165所述的核苷三磷酸,其中所述核碱基是
Figure BDA0003498995360001052
实施方案171.根据实施方案170所述的核苷三磷酸,其中所述核苷包含核糖。
实施方案172.根据实施方案170所述的核苷三磷酸,其中所述核苷包含脱氧核糖。
实施方案173.根据实施方案165所述的核苷三磷酸,其中所述核碱基是
Figure BDA0003498995360001053
实施方案174.根据实施方案173所述的核苷三磷酸,其中所述核苷包含核糖。
实施方案175.根据实施方案173所述的核苷三磷酸,其中所述核苷包含脱氧核糖。
本文描述了体内产生包含非天然氨基酸的蛋白质的方法,所述方法包括:转录包含第一非天然碱基和互补的第二非天然碱基的DNA模板以将第三非天然碱基掺入mRNA中,所述第三非天然碱基被配置为与所述第一非天然碱基形成第一非天然碱基对;转录所述DNA模板以将第四非天然碱基掺入tRNA中,其中所述第四非天然碱基被配置为与所述第二非天然碱基形成第二非天然碱基对,其中所述第一非天然碱基对和所述第二非天然碱基对不相同;以及从所述mRNA和所述tRNA翻译蛋白质,其中所述蛋白质包含非天然氨基酸。在一些实施方案中,所述体内方法包括使用半合成生物体。在一些实施方案中,所述生物体包括微生物。在一些实施方案中,所述生物体包括细菌。在一些实施方案中,所述生物体包括革兰氏阳性细菌。在一些实施方案中,所述生物体包括革兰氏阴性细菌。在一些实施方案中,所述生物体包括大肠杆菌。在一些实施方案中,所述至少一种非天然碱基选自(i)2-硫尿嘧啶,2-硫代胸腺嘧啶,2’-脱氧尿苷,4-硫代-尿嘧啶,4-硫代-胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-卤代尿嘧啶;5-丙炔基-尿嘧啶,6-偶氮基-胸腺嘧啶,6-偶氮基-尿嘧啶,5-甲氨基甲基尿嘧啶,5-甲氧基氨基甲基-2-硫尿嘧啶,假尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,5-甲基-2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,5’-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,尿嘧啶-5-氧基乙酸,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨基甲基-2-硫代尿苷,5-羧甲基氨基甲基尿嘧啶或二氢尿嘧啶;(ii)5-羟甲基胞嘧啶,5-三氟甲基胞嘧啶,5-卤代胞嘧啶,5-丙炔基胞嘧啶,5-羟基胞嘧啶,环胞嘧啶,阿糖胞苷,5,6-二氢胞嘧啶,5-硝基胞嘧啶,6-偶氮基胞嘧啶,氮杂胞嘧啶,N4-乙基胞嘧啶,3-甲基胞嘧啶,5-甲基胞嘧啶,4-乙酰胞嘧啶,2-硫代胞嘧啶,吩噁嗪胞苷([5,4-b][l,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][l,4]苯并噻嗪-2(3H)-酮),吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][l,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮)或吡啶并吲哚胞苷(H-吡啶并[3’,2’:4,5]吡咯并[2,3-d]嘧啶-2-酮);(iii)2-氨基腺嘌呤,2-丙基腺嘌呤,2-氨基-腺嘌呤,2-F-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基-2’-脱氧腺苷,3-脱氮腺嘌呤,7-甲基腺嘌呤,7-脱氮-腺嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤,N6-异戊烯基腺嘌呤,2-甲基腺嘌呤,2,6-二氨基嘌呤,2-甲硫基-N6-异戊烯基腺嘌呤或6-氮杂-腺嘌呤;(iv)2-甲基鸟嘌呤,鸟嘌呤的2-丙基和烷基衍生物,3-脱氮鸟嘌呤,6-硫代鸟嘌呤,7-甲基鸟嘌呤,7-脱氮鸟嘌呤,7-脱氮鸟苷,7-脱氮-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-卤代、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的鸟嘌呤,1-甲基鸟嘌呤,2,2-二甲基鸟嘌呤,7-甲基鸟嘌呤或6-氮杂-鸟嘌呤;和(v)次黄嘌呤,黄嘌呤,1-甲基肌苷,辫苷(queosine),β-D-半乳糖基辫苷,肌苷,β-D-甘露糖基辫苷,怀丁氧苷(wybutoxosine),羟基脲,(acp3)w,2-氨基吡啶或2-吡啶酮。在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360001061
Figure BDA0003498995360001062
Figure BDA0003498995360001063
在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360001064
Figure BDA0003498995360001065
Figure BDA0003498995360001071
在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360001072
Figure BDA0003498995360001073
在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360001074
Figure BDA0003498995360001075
在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360001076
Figure BDA0003498995360001077
仅示出核苷或核苷酸的碱基,为清楚起见省略了糖部分和任选的任何一个或多个磷酸酯残基。在此处和遍及全文,波浪线代表与脱氧核糖核苷或脱氧核苷酸或者核糖核苷或核苷酸的连接,其中核苷酸的糖部分可以被进一步修饰。在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360001078
Figure BDA0003498995360001081
在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360001082
在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360001083
Figure BDA0003498995360001084
在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360001085
在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者是
Figure BDA0003498995360001086
在一些实施方案中,所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者选自:
Figure BDA0003498995360001087
Figure BDA0003498995360001088
在一些实施方案中,所述第一非天然碱基或所述第二非天然碱基是
Figure BDA0003498995360001091
在一些实施方案中,所述第一非天然碱基或所述第二非天然碱基是
Figure BDA0003498995360001092
在一些实施方案中,所述第一非天然碱基是
Figure BDA0003498995360001093
并且所述第二非天然碱基是
Figure BDA0003498995360001094
在一些实施方案中,所述第一非天然碱基是
Figure BDA0003498995360001095
并且所述第二非天然碱基是
Figure BDA0003498995360001096
在一些实施方案中,所述第三非天然碱基或所述第四非天然碱基是
Figure BDA0003498995360001097
在一些实施方案中,所述第三非天然碱基是
Figure BDA0003498995360001098
在一些实施方案中,所述第四非天然碱基是
Figure BDA0003498995360001099
在一些实施方案中,所述第三非天然碱基或所述第四非天然碱基是
Figure BDA00034989953600010910
在一些实施方案中,所述第三非天然碱基是
Figure BDA00034989953600010911
在一些实施方案中,所述第四非天然碱基是
Figure BDA00034989953600010912
在一些实施方案中,所述第一非天然碱基是
Figure BDA00034989953600010913
所述第二非天然碱基是
Figure BDA0003498995360001101
所述第三非天然碱基是
Figure BDA0003498995360001102
并且所述第四非天然碱基是
Figure BDA0003498995360001103
在一些实施方案中,所述第一非天然碱基是
Figure BDA0003498995360001104
所述第二非天然碱基是
Figure BDA0003498995360001105
所述第三非天然碱基是
Figure BDA0003498995360001106
并且所述第四非天然碱基是
Figure BDA0003498995360001107
在一些实施方案中,所述第一非天然碱基是
Figure BDA0003498995360001108
所述第二非天然碱基是
Figure BDA0003498995360001109
所述第三非天然碱基是
Figure BDA00034989953600011010
并且所述第四非天然碱基是
Figure BDA00034989953600011011
在一些实施方案中,所述第三非天然碱基是
Figure BDA00034989953600011012
在一些实施方案中,所述第四非天然碱基是
Figure BDA00034989953600011013
在一些实施方案中,所述第一非天然碱基是
Figure BDA00034989953600011014
所述第二非天然碱基是
Figure BDA00034989953600011015
所述第三非天然碱基是
Figure BDA00034989953600011016
并且所述第四非天然碱基是
Figure BDA0003498995360001111
在一些实施方案中,所述第三非天然碱基和所述第四非天然碱基包含核糖。在一些实施方案中,所述第三非天然碱基和所述第四非天然碱基包含脱氧核糖。在一些实施方案中,所述第一非天然碱基和所述第二非天然碱基包含脱氧核糖。在一些实施方案中,所述第一非天然碱基和所述第二非天然碱基包含脱氧核糖,并且所述第三非天然碱基和所述第四非天然碱基包含核糖。在一些实施方案中,所述DNA模板包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360001112
Figure BDA0003498995360001113
在一些实施方案中,所述DNA模板包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。在一些实施方案中,所述DNA模板包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA模板包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA模板包含至少一种为dPTMO-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA模板包含至少一种选自以下的非天然碱基对(UBP):
Figure BDA0003498995360001121
Figure BDA0003498995360001122
并且其中所述mRNA和所述tRNA包含具有选自以下的非天然碱基的至少一种非天然核糖核苷酸:
Figure BDA0003498995360001123
Figure BDA0003498995360001124
在一些实施方案中,所述DNA模板包含至少一种为dNaM-d5SICS的非天然碱基对(UBP)。在一些实施方案中,所述DNA模板包含至少一种为dCNMO-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA模板包含至少一种为dNaM-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述DNA模板包含至少一种为dPTMO-dTPT3的非天然碱基对(UBP)。在一些实施方案中,所述mRNA和所述tRNA包含选自
Figure BDA0003498995360001125
的非天然碱基。在一些实施方案中,所述mRNA和所述tRNA包含选自
Figure BDA0003498995360001126
的非天然碱基。在一些实施方案中,所述mRNA包含为
Figure BDA0003498995360001131
的非天然碱基。在一些实施方案中,所述mRNA包含为
Figure BDA0003498995360001132
的非天然碱基。在一些实施方案中,所述mRNA包含为
Figure BDA0003498995360001133
的非天然碱基。在一些实施方案中,所述tRNA包含选自
Figure BDA0003498995360001134
Figure BDA0003498995360001135
的非天然碱基。在一些实施方案中,所述tRNA包含为
Figure BDA0003498995360001136
的非天然碱基。在一些实施方案中,所述tRNA包含为
Figure BDA0003498995360001137
的非天然碱基。在一些实施方案中,所述tRNA包含为
Figure BDA0003498995360001138
的非天然碱基。在一些实施方案中,所述第一非天然碱基包括dCNMO,并且所述第二非天然碱基包括dTPT3。在一些实施方案中,所述第三非天然碱基包括NaM,并且所述第二非天然碱基包括TAT1。在一些实施方案中,所述第一非天然碱基或所述第二非天然碱基由DNA聚合酶识别。在一些实施方案中,所述第三非天然碱基或所述第四非天然碱基由RNA聚合酶识别。在一些实施方案中,所述蛋白质包含至少两个非天然氨基酸。在一些实施方案中,所述蛋白质包含至少三个非天然氨基酸。在一些实施方案中,至少一种非天然氨基酸:是赖氨酸类似物;包含芳香族侧链;包含叠氮基;包含炔基;或者包含醛或酮基。在一些实施方案中,所述至少一个非天然氨基酸不包含芳族侧链。在一些实施方案中,所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)、N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)、BCN-L-赖氨酸、降冰片烯赖氨酸、TCO-赖氨酸、甲基四嗪赖氨酸、烯丙氧基羰基赖氨酸、2-氨基-8-氧代壬酸、2-氨基-8-氧代辛酸、对-乙酰基-L-苯丙氨酸、对-叠氮基甲基-L-苯丙氨酸(pAMF)、对-碘-L-苯丙氨酸、间-乙酰基苯丙氨酸、2-氨基-8-氧代壬酸、对-炔丙基氧基苯丙氨酸、对-炔丙基-苯丙氨酸、3-甲基-苯丙氨酸、L-多巴、氟化苯丙氨酸、异丙基-L-苯丙氨酸、对-叠氮基-L-苯丙氨酸、对-酰基-L-苯丙氨酸、对-苯甲酰基-L-苯丙氨酸、对-溴苯丙氨酸、对-氨基-L-苯丙氨酸、异丙基-L-苯丙氨酸、O-烯丙基酪氨酸、O-甲基-L-酪氨酸、O-4-烯丙基-L-酪氨酸、4-丙基-L-酪氨酸、膦酰酪氨酸、三-O-乙酰基-GlcNAcp-丝氨酸、L-磷酸丝氨酸、膦酰丝氨酸、L-3-(2-萘基)丙氨酸、2-氨基-3-((2-((3-(苄氧基)-3-氧丙基)氨基)乙基)硒基)丙酸、2-氨基-3-(苯基硒基)丙酸或硒代半胱氨酸。在一些实施方案中,所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)和N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。在一些实施方案中,所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)。在一些实施方案中,所述至少一个非天然氨基酸包括N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。
本文描述了半合成生物体,所述半合成生物体包含扩展的遗传字母,其中所述遗传字母包含至少三种独特的非天然碱基。在一些实施方案中,所述生物体包括微生物。在一些实施方案中,所述生物体包括细菌。在一些实施方案中,所述生物体包括革兰氏阳性细菌。在一些实施方案中,所述生物体包括革兰氏阳性细菌。在一些实施方案中,所述生物体包括大肠杆菌。在一些实施方案中,所述非天然碱基中的至少一种选自:2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2’-脱氧尿苷,2-氨基-2’-脱氧腺苷3-脱氮鸟嘌呤,3-脱氮腺嘌呤,4-硫尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮鸟嘌呤,7-脱氮鸟苷,7-脱氮-腺嘌呤,7-脱氮-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3’,2’:4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5’-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶、(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代的那些。在一些实施方案中,所述生物体包含含有至少一种选自以下的非天然核碱基的DNA:
Figure BDA0003498995360001141
Figure BDA0003498995360001151
Figure BDA0003498995360001152
在一些实施方案中,包含所述非天然碱基中的至少一种的DNA形成非天然碱基对(UBP)。在一些实施方案中,非天然碱基对(UBP)是dCNMO-dTPT3、dNaM-dTPT3、dCNMO-dTAT1或dNaM-dTAT1。在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360001153
Figure BDA0003498995360001154
Figure BDA0003498995360001155
在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360001156
Figure BDA0003498995360001157
在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360001158
Figure BDA0003498995360001161
在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360001162
Figure BDA0003498995360001163
在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360001164
在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360001165
在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360001166
Figure BDA0003498995360001167
在一些实施方案中,所述DNA包含至少一种选自以下的非天然核碱基:
Figure BDA0003498995360001168
Figure BDA0003498995360001169
在一些实施方案中,所述DNA包含至少一种选自
Figure BDA00034989953600011610
Figure BDA0003498995360001171
的非天然核碱基。在一些实施方案中,所述DNA包含至少两种选自
Figure BDA0003498995360001172
Figure BDA0003498995360001173
的非天然核碱基。在一些实施方案中,所述DNA包含两条链,第一链包含至少一种为
Figure BDA0003498995360001174
的核碱基,并且第二链包含至少一种为
Figure BDA0003498995360001175
的核碱基在一些实施方案中,所述DNA包含至少一种为
Figure BDA0003498995360001176
的非天然核碱基。在一些实施方案中,所述生物体表达核苷三磷酸转运蛋白。在一些实施方案中,所述生物体表达为PtNTT2的核苷三磷酸转运蛋白。在一些实施方案中,所述生物体还表达tRNA合成酶。在一些实施方案中,所述tRNA合成酶是巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS)。在一些实施方案中,所述生物体表达核苷三磷酸转运蛋白PtNTT2,并且还表达tRNA合成酶巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS)。在一些实施方案中,所述生物体还表达RNA聚合酶。在一些实施方案中,所述RNA聚合酶是T7 RNAP。在一些实施方案中,所述生物体不表达具有DNA重组修复功能的蛋白质。在一些实施方案中,所述生物体是大肠杆菌,并且所述生物体不表达RecA。在一些实施方案中,所述生物体过表达DNA聚合酶。在一些实施方案中,所述生物体过表达DNA聚合酶II。在一些实施方案中,所述半合成生物体还包含mRNA。在一些实施方案中,所述mRNA包含至少一种选自
Figure BDA0003498995360001177
的非天然碱基。在一些实施方案中,所述mRNA包含至少一种为
Figure BDA0003498995360001178
的非天然碱基。在一些实施方案中,所述mRNA包含至少一种为
Figure BDA0003498995360001179
的非天然碱基。在一些实施方案中,所述mRNA包含至少一种为
Figure BDA0003498995360001181
的非天然碱基。在一些实施方案中,所述半合成生物体还包含tRNA。在一些实施方案中,所述tRNA包含至少一种选自
Figure BDA0003498995360001182
的非天然碱基。在一些实施方案中,所述tRNA包含至少一种为
Figure BDA0003498995360001183
的非天然碱基。在一些实施方案中,所述tRNA包含至少一种为
Figure BDA0003498995360001184
的非天然碱基。在一些实施方案中,所述tRNA包含至少一种为
Figure BDA0003498995360001185
的非天然碱基。在一些实施方案中,所述半合成生物体还包含mRNA和/或tRNA。在一些实施方案中,所述生物体还包含(a)核苷三磷酸转运蛋白,(b)mRNA,(c)tRNA,(d)tRNA合成酶,和(e)RNA聚合酶,并且其中所述生物体不表达具有DNA重组修复功能的蛋白质。在一些实施方案中,所述核苷三磷酸转运蛋白是PtNTT2,所述tRNA合成酶是巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS),并且所述RNA聚合酶是T7RNAP。在一些实施方案中,所述生物体是大肠杆菌,并且所述生物体不表达RecA。在一些实施方案中,所述生物体过表达一种或多种DNA聚合酶。在一些实施方案中,所述生物体过表达一种DNA Pol II。在一些实施方案中,至少一种非天然碱基还包含非天然糖部分。在一些实施方案中,非天然糖部分选自:2’位置的修饰:OH、取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2F;O-烷基、S-烷基、N-烷基;O-烯基、S-烯基、N-烯基;O-炔基、S-炔基、N-炔基;O-烷基-O-烷基、2’-F、2’-OCH3、2’-O(CH2)2OCH3,其中所述烷基、烯基和炔基可以是取代的或未取代的C1-C10烷基、C2-C10烯基、C2-C10炔基、-O[(CH2)nO]mCH3、-O(CH2)nOCH3、-O(CH2)nNH2、-O(CH2)nCH3、-O(CH2)n-NH2和-O(CH2)nON[(CH2)nCH3)]2,其中n和m是1至约10;和/或5’位置的修饰:5’-乙烯基、5’-甲基(R或S);4’位置的修饰:4’-S、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基团、嵌入剂、改善寡核苷酸药代动力学特性的基团、或改善寡核苷酸药效学特性的基团及其任何组合。在一些实施方案中,至少一种非天然碱基由DNA聚合酶识别。在一些实施方案中,至少一种非天然碱基由RNA聚合酶识别。
本文描述了包含具有以下结构的核碱基类似物的组合物:
Figure BDA0003498995360001191
其中每个X独立地是碳或氮;R2是任选的,并且当存在时独立地是氢、烷基、烯基、炔基、甲氧基、甲硫醇、甲硒基、卤素、氰基或叠氮基;其中每个Y独立地是硫、氧、硒或仲胺;其中每个E独立地是氧、硫或硒;并且其中波浪线指示与核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物的键合点,其中所述核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物是游离形式,连接至单磷酸酯、二磷酸酯或三磷酸酯基团(任选地包括α-硫代三磷酸酯、β-硫代三磷酸酯或γ-硫代三磷酸酯基团),或包含在RNA或DNA中或者RNA类似物或DNA类似物中。在一些实施方案中,所述核糖基或脱氧核糖基部分带有与其5’-羟基键合的三磷酸酯基团或α-硫代三磷酸酯基团。在一些实施方案中,所述核糖基或脱氧核糖基部分分别掺入RNA或DNA寡核苷酸链中,或所述核糖基或脱氧核糖基部分或其类似物掺入RNA或DNA类似物中。在一些实施方案中,X是碳。在一些实施方案中,E是硫。在一些实施方案中,Y是硫。在一些实施方案中,核碱基包含结构
Figure BDA0003498995360001192
在一些实施方案中,核碱基包含结构
Figure BDA0003498995360001193
在一些实施方案中,核碱基与互补核碱基配对以形成非天然碱基对(UBP)。在一些实施方案中,互补碱基配对核碱基选自:
Figure BDA0003498995360001194
Figure BDA0003498995360001195
本文描述了双链寡核苷酸双链体,其中第一寡核苷酸链包含本文所述的化合物,并且第二互补寡核苷酸链在其互补碱基配对位点中包含互补碱基配对核碱基。在一些实施方案中,所述第一寡核苷酸链包含
Figure BDA0003498995360001201
并且所述第二链在其互补碱基配对位点中包含选自以下的互补碱基配对核碱基:
Figure BDA0003498995360001202
Figure BDA0003498995360001203
本文描述了包含本文所述的核糖核碱基类似物的转移RNA(tRNA),所述转移RNA包含:反密码子,其中所述反密码子包含所述核糖核碱基类似物;和识别元件,其中所述识别元件通过氨酰tRNA合成酶促进tRNA选择性装载非天然氨基酸。在tRNA的一些实施方案中,核碱基类似物位于tRNA的反密码子区。在tRNA的一些实施方案中,核碱基类似物位于反密码子的第一个位置处。在tRNA的一些实施方案中,核碱基类似物位于反密码子的第二个位置处。在tRNA的一些实施方案中,核碱基类似物位于反密码子的第三个位置处。在tRNA的一些实施方案中,氨酰tRNA合成酶源自嗜热生物。在tRNA的一些实施方案中,氨酰tRNA合成酶源自甲烷八叠球菌属或其变体。在tRNA的一些实施方案中,氨酰tRNA合成酶源自甲烷球菌属(Methanococcus/Methanocaldococcus)或其变体。在tRNA的一些实施方案中,非天然氨基酸包含芳族部分。在tRNA的一些实施方案中,非天然氨基酸是赖氨酸衍生物。在tRNA的一些实施方案中,非天然氨基酸是苯丙氨酸衍生物。在tRNA的一些实施方案中,所述非天然氨基酸选自:N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)、N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)、BCN-L-赖氨酸、降冰片烯赖氨酸、TCO-赖氨酸、甲基四嗪赖氨酸、烯丙氧基羰基赖氨酸、2-氨基-8-氧代壬酸、2-氨基-8-氧代辛酸、对-乙酰基-L-苯丙氨酸、对-叠氮基甲基-L-苯丙氨酸(pAMF)、对-碘-L-苯丙氨酸、间-乙酰基苯丙氨酸、2-氨基-8-氧代壬酸、对-炔丙基氧基苯丙氨酸、对-炔丙基-苯丙氨酸、3-甲基-苯丙氨酸、L-多巴、氟化苯丙氨酸、异丙基-L-苯丙氨酸、对-叠氮基-L-苯丙氨酸、对-酰基-L-苯丙氨酸、对-苯甲酰基-L-苯丙氨酸、对-溴苯丙氨酸、对-氨基-L-苯丙氨酸、异丙基-L-苯丙氨酸、O-烯丙基酪氨酸、O-甲基-L-酪氨酸、O-4-烯丙基-L-酪氨酸、4-丙基-L-酪氨酸、膦酰酪氨酸、三-O-乙酰基-GlcNAcp-丝氨酸、L-磷酸丝氨酸、膦酰丝氨酸、L-3-(2-萘基)丙氨酸、2-氨基-3-((2-((3-(苄氧基)-3-氧丙基)氨基)乙基)硒基)丙酸、2-氨基-3-(苯基硒基)丙酸和硒代半胱氨酸。
本文描述了包含下式的结构:N1-Zx-N2,其中N1是核苷酸或其类似物、或末端磷酸酯基团;其中N2是核苷酸或其类似物、或末端羟基;其中Z是本文所述的化合物,并且其中x是1至20的整数。在一些实施方案中,所述结构编码基因。在一些实施方案中,Zx位于所述基因的编码区。在一些实施方案中,Zx位于密码子中。在一些实施方案中,所述结构还包含5’或3’非翻译区(UTR)。在一些实施方案中,所述结构还包含终止子区。在一些实施方案中,所述结构还包含启动子区。
本文描述了多核苷酸文库,其中所述文库包含至少5000种独特多核苷酸,并且其中每种多核苷酸包含至少一种本文所述的非天然核碱基。在一些实施方案中,多核苷酸文库编码至少一种基因。
本文描述了核苷三磷酸,其中核碱基选自
Figure BDA0003498995360001211
Figure BDA0003498995360001212
Figure BDA0003498995360001213
在一些实施方案中,核苷包含核糖。在一些实施方案中,核苷包含脱氧核糖。在一些实施方案中,核碱基选自
Figure BDA0003498995360001214
Figure BDA0003498995360001215
在一些实施方案中,核碱基选自
Figure BDA0003498995360001216
Figure BDA0003498995360001217
在一些实施方案中,核碱基选自
Figure BDA0003498995360001218
在一些实施方案中,核碱基选自
Figure BDA0003498995360001219
在一些实施方案中,核碱基是
Figure BDA0003498995360001221
在一些实施方案中,核苷包含核糖。在一些实施方案中,核苷包含脱氧核糖。在一些实施方案中,核碱基是
Figure BDA0003498995360001222
在一些实施方案中,核苷包含核糖。在一些实施方案中,核苷包含脱氧核糖。在一些实施方案中,核碱基是
Figure BDA0003498995360001223
在一些实施方案中,核苷包含核糖。在一些实施方案中,核苷包含脱氧核糖。
实施例
这些实施例仅仅出于说明性目的提供,并且不限制本文提供的权利要求的范围。
实施例1A:复制和转录的模板化概述。
构建具有两个dNaM-dTPT3 UBP的质粒,使得序列AXC(在此处和遍及全文,X是指(d)NaM或(d)NaM类似物)定位为作为sfGFP mRNA的密码子151(sfGFP151(AXC))的模板,并且序列GYT(在此处和遍及全文,Y是指(d)TPT3或(d)TPT3类似物)定位为作为马氏甲烷八叠球菌Pyl tRNA的反密码子(tRNAPyl(GYT))的模板,所述Pyl tRNA通过巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS)选择性装载ncAA N6-(2-叠氮基乙氧基)-羰基-L-赖氨酸(AzK)。这些质粒用于转化表达核苷三磷酸转运蛋白PtNTT2(菌株YZ38)并含有编码MbPylRS的质粒的大肠杆菌。转化后,选择菌落并使其在补充有dTPT3TP(10μM)和以不同浓度(150μM、10μM或5μM)添加有七种不同dXTP之一(图2)的液体培养基中生长至OD600约1.0。然后将细胞稀释到含有相同非天然脱氧核糖核苷酸以及NaMTP(250μM)、TPT3TP(30μM)、和AzK(10mM)的新鲜表达培养基中。短暂温育后,通过添加异丙基-β-d-硫代半乳糖苷(IPTG,1mM)诱导T7 RNAP和tRNAPyl(GYT)表达。再孵育1h后,通过添加无水四环素(aTc,100ng/mL)启动sfGFP151(AXC)的表达。
PCR产物的分析。2.5h后,分离质粒,然后使用d5SICSTP和dNaMTP7的生物素化类似物独立地用PCR扩增目的基因。使用链霉亲和素通过凝胶迁移率移位测定(gel mobilityshift assay)分析所得的PCR产物,以量化保留的UBP为占总扩增产物的移位百分比(下文称为链霉亲和素凝胶移位测定)(图3A和图3B)。在检查的最高dXTP浓度(150μM)下,每种dXTP类似物在sfGFP151(AXC)基因中的保留率相似,从dNaMTP的99%到dMTMOTP的92%不等。tRNAPyl(GYT)基因内的保留率略低,范围为从dMTMOTP的82%到dMMO2TP的74%。每种dXTP添加10μM的情况下,在sfGFP151(AXC)基因中的保留率范围为从d5FMTP的96%到dNaMTP的73%。对于tRNAPyl(GYT)基因,保留率再次总体上略低,范围为从d5FMTP和dPTMOTP的82%到dNaMTP的71%。在最低浓度(5μM)下,在sfGFP151(AXC)基因中保留率范围为从d5FMTP的94%到dMTMOTP的64%,并且在tRNAPyl(GYT)基因中保留率范围为从d5FMTP的83%到dMTMOTP的71%。总体上,在最高浓度下,所有dXTP在sfGFP基因内几乎定量地保留UBP。然而,在较低浓度下,dCNMO-dTPT3、d5FM-dTPT3和dPTMO-dTPT3以显著更高的保留率复制。在tRNA基因中的保留率对dXTP浓度的依赖性显著较低。
报告蛋白产生分析。为了表征产生的蛋白质的量,在诱导蛋白质表达后2.5h测量归一化为细胞生长的整体培养物荧光(图3C)。在不存在AzK的情况下,荧光总体上较低,但浓度较低的dPTMOTP和dMTMOTP除外,它们的荧光显现略高。当将AzK添加至培养基中时,使用150或10μM的每种dXTP生长的细胞总体上显示出显著且相似的荧光水平,但dNaMTP除外,它在10μM下的荧光显著低于150μM下的荧光。在最低浓度(5μM)下,添加AzK导致采用dMTMOTP的情况下观察到的荧光较少,而采用dCNMOTP、d5FMTP、dClMOTP、dMMO2TP或dPTMOTP的情况下荧光保持不变。当仅提供5μM dNaMTP时未观察到细胞生长。虽然在高浓度下相似,但在较低浓度下,与使用dNaMTP相比,使用每种dXTP类似物导致更大的AzK依赖性荧光增加。特别是,dCNMOTP、d5FMTP和dClMOTP显示出最大的AzK依赖性荧光增加。
报告蛋白保真度分析。为了直接评估非天然蛋白质生产的保真度,在诱导蛋白质表达后2.5h收获细胞,并将产生的sfGFP进行纯化,并与通过四个PEG单元连接至TAMRA染料的二苯并环辛炔(DBCO)进行菌株促进的叠氮化物-炔烃环加成反应。除了用可检测的荧光团标记含有ncAA的蛋白质外,缀合还会产生电泳迁移的移位,从而可以将含有AzK的蛋白质量化为占产生的总蛋白质的百分比(即ncAA掺入的保真度;图3D)。与采用dNaM的情况下一样,以最高浓度(150μM)使用每种dXTP导致纯化蛋白质几乎完全移位,反映了ncAA的高保真度掺入。当在10μM dXTP的存在下生长时,对于dCNMOTP、d5FMTP、dClMOTP、dMMO2TP、dPTMOTP和dMTMOTP,ncAA掺入保真度仍然很高,但对于dNaMTP则陡然下降。最后,对于dCNMOTP、d5FMTP、dClMOTP、dMMO2TP和dPTMOTP,在5μM dXTP的浓度下ncAA掺入保真度仍然与在10μM下观察到的相似,但对于dMTMOTP则观察到下降(再次由于活力,采用dNaMTP情况下的保真度不能在此浓度下测量)。
结果。尤其是在较低浓度下产生最大量的纯非天然蛋白质的非天然碱基是dCNMOTP和d5FMTP。然而,相对于d5FMTP,dCNMOTP的使用先前已显示在更难复制的序列中导致更高的UBP保留。dCNMO-dTPT3 UBP能够存储和检索增加的信息。先前报告的SSO用UBPdNaM-dTPT3、dPTMO-dTPT3或dMTMO-dTPT3存储信息,并使用NaMTP和TPT3TP检索该信息。为了探索SSO的优化,将UBP的保留、转录为sfGFP mRNA和tRNAPyl以及在核糖体处的解码使用一系列先前和新报道的脱氧核糖核苷酸三磷酸类似物和核糖核苷酸三磷酸类似物进行了检查。检查了用七种不同的dX-dTPT3 UBP存储信息的能力。在每种情况下,UBP的链背景是相同的,其中dTPT3和dX分别定位于sfGFP和tRNAPyl基因的相应反义(模板)链中。在提供高浓度的每种dXTP的情况下,每种dX-dTPT3 UBP都在mRNA基因中以高水平保留,其中变化在dMTMOTP的92%与dCNMOTP、dPTMOTP和dNaMTP的96%至99%之间。在tRNA基因中的保留有所减少,在74%至82%之间变化。随着dXTP浓度的降低,在tRNA基因中的保留率大致保持不变,但在mRNA基因中以dXTP特异性方式下降,对于dMTMOTP下降至64%,但对于dCNMOTP和d5FMTP保持相对较高,约为94%。不受理论的束缚,在tRNA和mRNA基因中的保留率的不同浓度依赖性可能是由于序列背景效应导致核苷酸插入在mRNA中是限速的,而继续延伸在tRNA基因中是限速的。用dNaMTP观察到例外情况,即在10μM下保留率下降至73%,而当dNaMTP以5μM提供时细胞无法存活。此外,采用dCNMOTP和d5FMTP的情况下,即使在所检查的最低浓度下,在mRNA中的保留率仍然很高(约93%)。不受理论束缚,在tRNA基因中保留的损失可导致非天然蛋白质产生较少,并且可能更成问题的是,由于“近同源”天然tRNA对非天然密码子解码的竞争增加,ncAA掺入的保真度降低。然而,ncAA掺入的保真度与在mRNA基因中的保留相关(数据未显示)。因此,数据证明每个dX为以足够的效率和保真度转录tRNA提供了模板,不会限制非天然蛋白质生产的保真度。基于这些结果,d5FM-dTPT3和dCNMO-dTPT3是能够增加信息存储的UBP,它们相对于dNaM-dTPT3的效用主要源于它们在较低的非天然三磷酸酯浓度下具有较高的保留率和蛋白质产量。
实施例1B:复制和转录的模板化的详细程序。
质粒的金门组装。含有UBP(并且如果需要,含有编码sfGFP或tRNAPyl的基因)的插入物是通过以下方式产生:对于含有非天然物的寡核苷酸O3和O6-12(寡聚物序列参见表S4)(人工合成的(参见寡核苷酸合成)或由Synthorx赠予),使用dTPT3TP和dNaMTP以及引物P1-2(当扩增O3或O7-12时)和P3-4(当扩增O6时)(引物序列参见表S1)进行PCR,以创建末端BsaI识别位点;该位点一旦消化,就会引入与用于sfGFP翻译的适当目的质粒p[sfGFP(gg)151tRNAPyl(gg)]GG目的质粒相容的突出端,质粒序列如下文所示(SEQ ID NO:2)。PCR扩增在PTC-200Peltier热循环仪(MJ Research)中进行。使用以下试剂浓度对模板寡核苷酸(0.025ng/50μL反应)进行PCR扩增:OneTaq标准反应缓冲液(1×,New England BioLabs)、dNTP(0.2mM)、dTPT3TP(0.1mM)、dNaMTP(0.1mM)、MgSO4(1.2mM)、引物(各自1μM)和OneTaq聚合酶(1.25U)。在不存在非天然三磷酸酯的情况下扩增天然寡核苷酸。将这些在以下热循环条件下扩增(时间表示为mm:ss):[94℃0:30|20×(94℃0:30|54℃0:30|68℃4:00)]。将剩余溶液通过离心柱(DNA Clean and Concentrator-5;Zymo Research)纯化,然后使用Infinite M200 Pro多功能酶标仪(Tecan)通过280nm处的吸收值进行定量。
表S1.本研究中使用的寡核苷酸和引物序列,其中X表示dNaM,Y表示dTPT3。
Figure BDA0003498995360001241
Figure BDA0003498995360001251
寡核苷酸合成。使用Expedite 8909基因合成仪、孔径为
Figure BDA0003498995360001252
的琥珀酰基连接的LCAA-CPG(长链烷基胺可控孔度玻璃)柱以及用于掺入dABz、dCBz、dGiBu和dT DNA亚磷酰胺的标准方案,以0.2μmol规模合成修饰的寡核苷酸。使用以下手动偶联条件用于掺入单体dNaM(15min;CH3CN中的四唑;>95%)。在无水CH3CN中以50倍摩尔过量和0.05M浓度使用修饰的亚磷酰胺。使用约30%氨水完成从固体支持物上的切割和保护基团的去除(55℃,16h)。使用配备有Hypersil Gold C18柱(5μm,4.6×150mm)的Vanquish UHPLC系统,使用经25min0-50%B(缓冲液A=0.05M TEAA,pH 7;缓冲液B=25%H2O于CH3CN中;流速=1.0mL/min)纯化DMT-on粗寡核苷酸。合并适当的级分,蒸发至干,随后进行去三苯甲基化(80%水性AcOH)和沉淀(NaOAc/NaClO4/丙酮,-80℃持续3h)。通过以分析模式运行的离子对反相HPLC验证纯度(>90%)。
在以下条件下,将质粒在80μL反应体积中组装:目的质粒(1μg)、一种或多种PCR插入物(4:1插入物:质粒摩尔比)、T4 DNA连接酶(532U)、BsaI-HF(53.4U)和ATP(1mM)合并于CutSmart缓冲液(1×,New England BioLabs)中,并在以下条件下进行热循环(时间表示为mm:ss):[37℃20:00|40×(37℃5:00|16℃10:00|22℃5:00)|37℃20:00|50℃15:00|70℃30:00]。
金门反应后,添加T5外切核酸酶(13.3U)和BsaI-HF(26.6U),并且反应在37℃下孵育1h,以消化剩余的DNA片段和未掺入的目的质粒。将组装的质粒在Zymo-Spin I柱上纯化,并使用Qubit dsDNA HS测定试剂盒(Thermo Fisher Scientific)进行定量。
用pGEX-MbPylRS TetR转化YZ3/ML2。使SSO菌株YZ3或ML2的过夜培养物在补充有50mM磷酸钾和5μg/mL氯霉素的2×YT(在本文本节中称为“培养基”)中生长,然后在相同培养基中稀释回OD600为0.03并使其生长至OD600为0.4至0.6。然后将培养物在冰水中摇动冷却5min,然后通过以3,200×g离心10min来沉淀。然后将细胞用冰冷ddH2O重新悬浮并洗涤两次,然后重新悬浮在冰冷ddH2O中至OD600为50-60。将电感受态细胞(50μL)和2ng pGEX-MbPylRS TetR质粒(SEQ ID NO:1)转移到预冷的电穿孔小杯(0.2-cm-间距)中,然后根据制造商的建议(电压25kV,电容2.5μF,电阻200Ω)进行电穿孔(Gene Pulser II;Bio-Rad),然后立即用950μL培养基稀释。然后将该电穿孔反应的等分试样(40μL)用培养基稀释五倍至最终体积为200μL,然后在37℃下恢复1h。将回收的两倍稀释物铺板在补充有50mM磷酸钾、5μg/mL氯霉素、100μg/mL羧苄青霉素和2%w/v琼脂的固体2×YT培养基上,然后使其在37℃下生长过夜。挑取单个菌落以将培养物接种在补充有100μg/mL羧苄青霉素的液体培养基中,然后在-80℃下储存在甘油(25%v/v)中。
dXTP的体内翻译筛选。将携带pGEX-MbPylRS TetR质粒的SSO菌株YZ3的过夜培养物在补充有50mM磷酸钾、5μg/mL氯霉素和100μg/mL羧苄青霉素的2×YT(在本文本节中称为“培养基”)中生长,然后在相同培养基中稀释回OD600为0.03并生长至OD600为0.4至0.6。然后将培养物在冰水中摇动冷却15分钟,然后通过以3,200×g离心10min来沉淀。然后将细胞用冰冷ddH2O重新悬浮并洗涤两次,然后重新悬浮在冰冷ddH2O中至OD600为55-65。将电感受态细胞(50μL)和具有sfGFP和tRNAPyl基因内的UBP的1ng金门组装质粒(参见质粒的金门组装)转移到预冷的电穿孔小杯(0.2-cm-间距)中,然后根据制造商的建议(电压25kV,电容2.5μF,电阻200Ω)进行电穿孔(Gene Pulser II;Bio-Rad),然后立即用950μL培养基稀释。然后将转化的等分试样(40μL)在补充有dNaMTP(150μM)和dTPT3TP(10μM)的培养基中稀释五倍,最终体积为200μL,然后允许在37℃摇动下恢复1h。将回收的两倍稀释物铺板到补充有博莱霉素(50μg/mL)、dNaMTP(150μM)、dTPT3TP(10μM)和琼脂(2%w/v)的固体培养基上,然后在37℃下生长过夜。挑取单个菌落并使其在补充有50μg/mL博莱霉素并提供dNaMTP(150μM)和dTPT3TP(10μM)的培养基(300μL)(之后在本文本节中称为“生长培养基”)中生长。监测培养物的细胞生长(具有590/20nm滤光器的Envision 2103多标记板读取器),然后在OD600为约1.0时收集。使用ZR质粒制备试剂盒(Zymo Research)对等分试样(50μL)进行质粒分离。然后对分离的质粒进行下述链霉亲和素凝胶移位测定(使用引物P3-4和P5-6,表S1),以确定UBP保留。然后将具有出色UBP保留的菌落在-80℃储存于甘油(25%v/v)中。
将甘油原液的十倍稀释物重新铺板到补充有dNaMTP(150μM)、dTPT3TP(10μM)和2%w/v琼脂的固体生长培养基上,然后在37℃下生长过夜。挑取单个菌落并使其在补充有相应dXTP(不同浓度)和dTPT3TP(10μM)的生长培养基(300μL)中生长,然后监测细胞生长并在OD600约1.0时收集。一旦收集完所有样品,就将样品放在冰上过夜。然后将样品重新稀释至OD600约0.1,至最终体积为300μL,并提供相应的dXTP(各种浓度)和dTPT3TP(10μM)。将未使用的剩余培养物沉淀并储存在-80℃,以用于随后使用ZR质粒制备试剂盒(ZymoResearch)分离质粒以确定UBP保留。当培养物达到OD600约0.4-0.6时,向这些培养物提供NaMTP(250μM)和TPT3TP(30μM)、和AzK(10mM)(或ddH2O,用于在不存在AzK的情况下生长的培养物)。在添加AzK后将样品避光以防止光降解。然后使这些样品在37℃下生长20min,之后添加1mM IPTG,并在37℃下再生长1h以诱导T7 RNAP以及tRNAPyl和PylRS的转录。从此时起,监测细胞的生长和荧光。然后用无水四环素(100ng/mL)诱导sfGFP的表达。在37℃下再生长2.5h后,收集细胞(50μL用于质粒分离以确定UBP保留,230μL用于sfGFP的亲和纯化),冷却,然后沉淀并在-80℃下储存,之后评估UBP保留和蛋白质纯化。
XTP/YTP的体内翻译筛选。将携带pGEX-MbPylRS TetR质粒的SSO菌株ML2的过夜培养物在补充有50mM磷酸钾、5μg/mL氯霉素和100μg/mL羧苄青霉素的2×YT(在本文本节中称为“培养基”)中生长,然后在相同培养基中稀释回OD600为0.03并生长至OD600为0.4至0.6。然后将培养物在冰水中摇动冷却15分钟,然后通过以3,200×g离心10min来沉淀。然后将细胞用冰冷ddH2O重新悬浮并洗涤两次,然后重新悬浮在冰冷ddH2O中至OD600为55-65。将电感受态细胞(50μL)和具有sfGFP和tRNAPyl基因内的UBP的1ng金门组装质粒(参见质粒的金门组装)转移到预冷的电穿孔小杯(0.2-cm-间距)中,然后根据制造商的建议(电压25kV,电容2.5μF,电阻200Ω)进行电穿孔(Gene Pulser II;Bio-Rad),然后立即用950μL培养基稀释。然后将转化的等分试样(40μL)在补充有dCNMOTP(25μM)和dTPT3TP(10μM)的培养基中稀释五倍,最终体积为200μL,然后允许在37℃摇动下恢复1h。将回收的两倍稀释物铺板到补充有博莱霉素(50μg/mL)、dCNMOTP(10μM)、dTPT3TP(10μM)和琼脂(2%w/v)的固体培养基上,然后在37℃下生长18h。挑取单个菌落并使其在补充有50μg/mL博莱霉素并提供dCNMOTP(25μM)和dTPT3TP(10μM)的培养基(300μL)(之后在本文本节中称为“生长培养基”)中生长。监测培养物的细胞生长(具有590/20nm滤光器的Envision 2103多标记板读取器),然后在OD600为约1.0时收集。使用ZR质粒制备试剂盒(Zymo Research)对等分试样(50μL)进行质粒分离。然后对分离的质粒进行下述链霉亲和素凝胶移位测定(使用引物P3-4和P5-6,表S1),以确定UBP保留。
然后将具有出色UBP保留的菌落在生长培养基中稀释至OD600为约0.01,并生长至OD600为约0.4-0.6。然后将该培养物分成多个300μL培养物,并且对于XTP类似物的筛选,为每个培养物提供相应XTP(25μM或250μM)或ddH2O(用于“-XTP”样品)、TPT3TP(30μM)和AzK(10mM)。对于YTP类似物的筛选,为每个300μL培养物提供相应YTP(25μM或250μM)或ddH2O(用于“-YTP”样品)、NaMTP(250μM)和AzK(10mM)。在添加AzK后将样品避光以防止光降解。然后使这些样品在37℃下生长20min,之后添加1mM IPTG,并在37℃下再生长1h以诱导T7RNAP以及tRNAPyl和PylRS的转录。从此时起,监测细胞的生长和荧光。然后用无水四环素(100ng/mL)诱导sfGFP的表达。在37℃下再生长3h后,收集细胞(230μL用于sfGFP的亲和纯化),冷却,然后沉淀并在-80℃下储存,之后进行蛋白质纯化。
表S2.在对于核糖核苷酸筛选描述的条件下,在蛋白质诱导3h后对于每种非天然核糖核苷酸观察到的OD600值,其中通过将提供的三磷酸酯的高浓度与低浓度进行比较,毒性明显。
Figure BDA0003498995360001281
链霉亲和素凝胶移位测定。PCR扩增在CFX Connect实时PCR检测系统(Bio-Rad)中进行。在以下条件下,以15μL的总反应体积对质粒小量制备物(miniprep)或金门组装质粒(0.5μL至2μL,0.5ng/μL至5ng/μL)或含dNaM的寡核苷酸(0.025ng)进行PCR扩增:OneTaq标准反应缓冲液(1×,New England BioLabs)、dNTP(400μM)、SYBR Green I(1×,LifeTechnologies)、MgSO4(2.2mM)、引物P3-4或P5-6(各1μM,引物序列参见表S4)、d5SICSTP(65μM)、dMMO2BIOTP(65μM;为清楚起见,示于下文的结构省略了糖和磷酯)、OneTaq DNA聚合酶(0.27U,New England BioLabs)、DeepVent DNA聚合酶(0.105U,New England BioLabs)。
Figure BDA0003498995360001282
使用以下热循环条件(时间表示为mm:ss)扩增从翻译实验中分离的质粒:[96℃5:00|20×(95℃00:15|54℃00:15|68℃4:00]。之后,将链霉亲和素(2.5μL,2μg/μL;Promega)与每个反应(1μL)混合,并在室温下孵育5min。将具有(3.5μL)和不具有(1μL)链霉亲和素的样品各自与上样缓冲液混合,并在6%(wt/vol)聚丙烯酰胺(29:1丙烯酰胺:双丙烯酰胺)Tris/硼酸盐/EDTA(TBE)凝胶上在120V下分离约30min。然后将凝胶用1×SYBR Gold染料(Thermo Fisher)进行染色,并使用配备有520DF30滤光器(Bio-Rad)的分子成像仪Gel DocXR+(Bio-Rad)进行成像。然后可以通过比较每个泳道中的移位与未移位条带的比率与输入质粒(起始转化中使用的质粒)获得的比率来确定UBP保留。该测定先前已被证明是定量的。
链霉亲和素凝胶移位测定对各种因素(如小量制备纯度)敏感,并可重复多次,有时用更高的质粒浓度以获得含UBP质粒的合理扩增,以便检测UBP保留。在质粒浓度太低的情形中,根据链霉亲和素凝胶移位测定,UBP保留显现较低,并且使用更多的小量制备质粒重复。
表S3.从携带与检索更高密度的非天然遗传信息相关的构建体的细胞中提取的质粒的链霉亲和素凝胶移位数据(UBP保留百分比)。
Figure BDA0003498995360001291
mn.d.值不可测定
sfGFP的亲和纯化。将从翻译实验中收集的细胞颗粒重新悬浮在BugBuster(100μL1×,EMD Millipore)中,并在室温下摇动15min。然后将细胞裂解物用缓冲液W(380μL;50mMHEPES pH 8,150mM NaCl,1mM EDTA)稀释,并且添加在缓冲液W中平衡的磁性Strep-Tactin珠(20μL,MagStrep“类型3”XT珠(IBA Lifesciences)的5%(v/v)悬浮液)。将混合物在4℃轻轻倒置30min。然后将珠用磁架拉下并用缓冲液W(2×500μL)洗涤,然后添加25μL BXT缓冲液(100mM Tris-HCl pH 8,50mM D-生物素),并且允许悬浮液在室温下孵育10min,伴偶尔混合。将珠再次拉下以收集洗脱液。使用Qubit蛋白质测定试剂盒(Thermo FisherScientific)对纯化的蛋白质进行定量。
TAMRA的无铜点击缀合。将纯化的蛋白质(300ng)与TAMRA-DBCO(0.1mM,ClickChemistry Tools;产品#A131)混合,并添加水至最终反应体积为6μL,并在室温下避光孵育过夜。缀合后,采取措施以使得样品、凝胶和印迹的曝光最小化,以使得TAMRA的光漂白最小化。
sfGFP的蛋白质印迹。将与TAMRA-DBCO缀合的纯化蛋白(300ng)与上样缓冲液/染料(250mM Tris-HCl,30%(v/v)甘油,2%(w/v)SDS,pH 6.8)混合(2:1v:v),然后在95℃加热5min。将蛋白质梯状标志(彩色预染色蛋白标准品,Broad Range,New England BioLabs)和每个点击反应的一部分(约60ng蛋白质)上样到SDS-PAGE凝胶(浓缩胶:5%(w/v)丙烯酰胺:双丙烯酰胺29:1(Fisher)、0.125M Tris-HCl和0.1%SDS(pH6.8)(ProtoGel浓缩缓冲液,National Diagnostics);分离胶:15%(w/v)丙烯酰胺:双丙烯酰胺29:1(Fisher)、0.375M Tris-HCl和0.1%SDS(pH 8.8)(ProtoGel分离缓冲液,National Diagnostics)),然后在50V下运行15min,然后在SDS-PAGE缓冲液(25mM Tris-碱,200mM甘氨酸,0.1%(w/v)SDS)中在120V下再运行约4.5h。然后将样品通过在适当的缓冲液(20%(v/v)MeOH、50mMTris-碱、400mM甘氨酸、0.0373%(w/v)SDS中半干转移来转移至低荧光PVDF(0.2μM,Bio-Rad),在15V下运行约30-45min。然后将膜在4℃下在如下封闭溶液中摇晃过夜(5%(w/v)脱脂牛奶(Carnation)于PBS-T(PBS pH 7.4,0.01%(v/v)Tween-20)中,在37℃下溶解1h)。然后将膜用PBS-T冲洗2次,然后在室温下在兔抗GFP抗体(1:3000于PBS-T中,产品#G1544,批次046M4871V,SigmaAldrich)中摇动1h。然后将膜用PBS-T洗涤5min,然后在室温下在山羊抗兔Alexa Fluor 647缀合抗体(1:20,000于PBS-T中,产品#A32733,批次#SD250298,Thermo Fisher Scientific)中摇动45min。
然后将膜用PBS-T洗涤(3×5min),并用平板激光扫描仪(Typhoon 9410,GEAmersham Biosciences)进行成像,所述扫描仪具有以下偏好设置:50μM分辨率,对于TAMRA为532nm激光激发和580/30nm发射滤光器、400V PMT,以及对于AlexaFluor 647为633nm激光激发和670/30nm发射滤光器、500V PMT。
为了评估AzK的掺入,将纯化的蛋白质与DBCO-TAMRA缀合以通过SDS-PAGE产生凝胶移位。不同的条带大小对应于原始sfGFP和sfGFP缀合的TAMRA。然后使用Image StudioLite 5.2.5软件(LI-COR Biosciences)通过以下方式对这些条带定量:通过对条带进行光密度测定量化,以产生移位(缀合)条带与由移位(缀合)和非移位(原始)sfGFP条带二者产生的总信号的比率。这可以解释为已掺入ncAA AzK的样品中蛋白质移位百分比或sfGFP百分比。
完整蛋白质的定量高分辨率质谱。样品制备和数据采集。将纯化的蛋白质(4μg)用450μL质谱级水稀释,并应用于离心过滤装置(Amicon Ultra-0.5-Millipore)以进行脱盐。将所述装置以14,000×g离心10min,并将所得浓缩溶液用质谱级水稀释回500μL的总体积。这一过程重复了总共四次离心,最后一次离心持续18分钟。在最后一次离心之后,通过将过滤装置倒置到新的微量离心管中并以1,000×g离心2min来回收样品。然后将脱盐的蛋白质(6μL,约250ng)注射到与Waters G2-XS TOF连接的Waters I-Class LC中。流量条件为0.4mL/min的50:50水:乙腈加0.1%甲酸。通过ESI+进行电离,收集的数据在m/z 500与m/z2000之间。对峰的主要部分进行光谱组合,并使用Waters MaxEnt1对组合光谱进行解卷积。
验证量化。使用与上述相同的质粒制备和蛋白质表达条件制备其中sfGFP的151位含有酪氨酸残基或AzK残基的真实蛋白质样品,但分别使用sfGFP151(TAC)和sfGFP151(TAG),并且没有补充非天然三磷酸酯。使用这些真实蛋白质,以AzK比Y的范围跨度为100:0至0:100的限定比率制备Y151和AzK151 sfGFP的混合物。然后如上所述制备和通过HRMS量化这些混合物。观察到的数据在整个样品范围内是非常线性的,并且与预期的比率准确匹配,从而验证了该方法的高度定量性。
检查核糖核苷三磷酸的毒性。使ML2的过夜培养物在补充有50mM磷酸钾和氯霉素(5μg/mL)的2×YT培养基(遍及本节称为“培养基”)中生长。将该培养物稀释回OD600为0.01,分成多个300μL培养物,每个培养物补充有不同浓度的TPT3TP、TAT1TP、NaMTP或5FMTP,以及无三磷酸酯的对照。然后将培养物在37℃下伴以230rpm摇动孵育。然后每小时监测一次细胞的细胞生长(具有590/20nm滤光器的Envision 2103多标记板读取器),进行总共八小时。然后将OD600绘制为针对每个浓度下每种核苷酸随时间的变化,以可视化生长速率的差异。
实施例2:核糖核苷酸候选物的合成和首次SAR分析。
UBP提供的信息的检索先前只使用NaMTP和TPT3TP进行过探索。为了开始阐明控制SSO中有效转录和翻译的SAR,设计并合成了九种新型NaMTP类似物(图4A)和四种新型TPT3TP类似物(图4B)。这些类似物旨在探索核碱基形状、芳族表面积和杂原子衍生化的作用。通常,XTP类似物的合成通过相应的芳基卤化物的锂化进行,随后将锂化的物质与苄基-或TBS-保护的核糖内酯偶联。在三氟化硼二乙醚和三乙基硅烷的存在下还原得到的半缩醛中间体在每种情形中都提供了所需的受保护核苷。脱保护后,使用标准路德维希(Ludwig)磷酸化条件将所得X核苷类似物转化为三磷酸酯。如先前报道地合成NaMTP和MMO2TP。YTP类似物的合成通常通过以下方式进行:相应酰叠氮的分子内库尔提斯(Curtius)重排,随后路易斯酸介导的与1-O乙酰基-2,3,5-三-O-苯甲酰基-b-D-呋喃核糖偶联,得到所需受保护核苷的纯β-异头物。在吡啶转化为相应的硫代吡啶酮和随后的苯甲酰基脱保护后,使用标准路德维希磷酸化条件将相应的游离核苷转化为三磷酸酯。如先前报道地合成5SICSTP。
用NaMTP和九种XTP类似物启动SAR分析。基于上述dXTP筛选中的性能,并且为了消除作为复杂因素的DNA水平的可变损失,用dCNMO-dTPT3 UBP对非天然信息进行编码。另外,使用大肠杆菌菌株ML2,该菌株表达核苷三磷酸转运蛋白PtNTT2,而且还通过缺失编码RecA的基因(在克隆菌株中是普遍的)以及过表达DNA Pol II来针对UBP的更高保真度复制进行基因工程化。使用实施例1A和1B中的上述相同质粒(含有sfGFP151(AXC)和tRNAPyl(GYT)),并且为将筛选聚焦到单一非天然核糖核苷酸,在30μM TPT3TP的存在下转录马氏甲烷八叠球菌Pyl tRNA。如上所述培养和诱导细胞以产生蛋白质,不同的是在表达培养基中以高(250μM)或低(25μM)浓度提供各种XTP(图5A-图5D)。在诱导后3h纯化表达的sfGFP,并使用上述DBCO介导的凝胶移位测定来分析ncAA含量(图5B)。在250μM下使用每种XTP导致sfGFP凝胶移位至少63%。除了在不存在XTP的情况下缺乏可观察到的移位外,XTP由PtNTT2输入,并以至少合理的效率参与核糖体处的转录和翻译。虽然CNMOTP和5F2OMeTP均表现良好,导致凝胶移位分别为92%和94%,但NaMTP、MMO2TP和5FMTP表现最好,蛋白质凝胶移位分别为98%、97%和98%。在蛋白质纯度水平类似高的情况下,在不存在由显著水平的天然sfGFP污染物引起的任何并发症的情况下比较了使用这三种XTP产生的相对荧光。与用相同浓度的NaMTP生长的细胞相比,用250μM的MMO2TP或5FMTP生长的细胞分别产生63%和90%的整体荧光(图5A)。
在测试的较低浓度(25μM)下,使用NaMTP导致ncAA掺入的保真度较低,蛋白质移位下降至86%。虽然9个NaMTP类似物中的7个也显示保真度显著下降,但使用MMO2TP和5FMTP各自产生94%的蛋白质移位。比较用这些核糖核苷酸生长的细胞的相对荧光(同样可能是由于产生的非天然蛋白质具有相似的和高的保真度),在这种较低浓度下,5FMTP产生的荧光比MMO2TP高34%。进行了类似的实验,其中提供恒定量的NaMTP(250μM)以及高(250μM)或低(25μM)浓度的YTP类似物。与先前的报道一致,相对于未接受YTP的对照样品,以较高浓度添加TPT3TP导致细胞生长显著降低并且荧光很少(图5C)。相比之下,其他YTP类似物中的每一种均产生高于背景的荧光,并且蛋白质移位为至少51%(图5D)。与任何其他YTP相比,使用TAT1TP导致至少2.6倍的荧光,同时保持96%的蛋白质移位。以该浓度添加TAT1TP导致适度水平的细胞生长减少(数据未显示)。TPT3TP在以较低浓度提供时毒性稍小,并且相应地,当以25μM提供时,细胞产生显著量的纯蛋白质。在这些条件下,分别与SICSTP、FSICSTP和5SICSTP相比,TPT3TP产生2倍、5倍和6倍的荧光。采用TAT1TP的情况下在较高浓度下观察到的毒性在较低浓度下几乎完全消除(数据未显示),并且其使用导致比较高浓度下更大的荧光。当以25μM提供时TAT1TP产生的荧光比以250μM提供时高41%,并且有趣的是,它比以25μM提供TPT3TP时产生高57%的荧光。在这些浓度下使用TAT1TP导致产生具有98%ncAA掺入的蛋白质。
合成方案。
一般材料和方法。对于合成程序,所有反应均在惰性气氛下在烘箱干燥的玻璃器皿中进行。将溶剂在
Figure BDA0003498995360001311
分子筛上蒸馏和/或干燥。除非另有说明,否则所有其他化学试剂均未经进一步纯化而使用。1H、13C和31P光谱是在Bruker NMR光谱仪(AV-600、DRX-500或DPX-400)上获得。质谱数据获自斯克里普斯研究所(The Scripps Research Institute)的核心设施。如先前报道地合成非天然脱氧核糖核苷三磷酸(参见Dien,V.T.等人J.Am.Chem.Soc.2018,140,16115–16123;Lavergne,T.等人J.Am.Chem.Soc.2013,135,5408–5419;Matsuda,S.等人J.Am.Chem.Soc.2007,129,5551–5557;Seo,Y.J.等人J.Am.Chem.Soc.2009,131,3246–3252,将所述文献的每一个的披露内容通过引用以其整体特此并入)。核苷三磷酸dNaMTP、dTPT3TP、dCNMOTP和TPT3TP由Synthorx Inc.友好赠予。
核碱基13a的合成。TAT1核碱基(化合物13a)是根据文献方法合成的(参见New,J.S.等人J.Med.Chem.1989,32,1147-1156;Asagarasu,A.等人Chem.Pharm.Bull.2009,57,34-42,将所述文献的每一个的披露内容通过引用以其整体特此并入)。简而言之,使用吡啶作为溶剂和哌啶作为催化剂(2:1吡啶:哌啶,2.75M最终反应浓度),将噻唑-4-羧甲醛(1eq)与丙二酸在100℃下缩合13h,随后回流1h,得到相应的丙烯酸中间体(化合物11)。在催化性DMF(0.2eq)的存在下,在氯仿(1.3M反应浓度)中,将该酸(1eq)用亚硫酰氯(1.1eq)氯化,得到酰氯。无需进一步纯化,在5℃下在1,4-二噁烷和水的1:1双相混合物中,将酰氯用叠氮化钠(2eq)转化为相应的叠氮化物(化合物12)。将粗酰叠氮溶于氯仿中,并将其逐滴添加至二苯基醚中至0.2M。然后将所得混合物加热至230℃保持2h。冷却至室温后,添加己烷,并过滤反应混合物(使用另外的己烷洗涤)。通过快速色谱使用硅胶作为固定相纯化得到的粗产物,得到所需的核碱基(化合物13a)。
方案S1.(g)哌啶、吡啶,100℃,12h,然后回流1h,(h)SOCl2、DMF、CHCl3,回流3h,(i)NaN3、1,4-二噁烷、H2O,5℃,0.5h,(j)二苯醚,230℃,1h
Figure BDA0003498995360001321
TBS保护的核糖内酯2的核碱基偶联和脱保护。将芳基卤化物(1.0eq)溶于无水THF中至0.1M,并冷却至-78℃。一旦冷却,就向反应烧瓶中逐滴添加n-BuLi(1.6eq,1.6M于己烷中)的溶液。在-78℃下搅拌该混合物30min后,逐滴添加TBS保护的核糖内酯(化合物2,1.6eq)于无水THF中(约0.8M)的溶液。然后将反应在-78℃下再搅拌1h,之后用饱和氯化铵水溶液淬灭。在升温到室温后,真空下除去挥发物,并将所得残余物用乙酸乙酯和水萃取。将有机物用硫酸钠干燥,过滤,并在真空中再次除去挥发物。
将残余溶剂在室温下在高真空中去除1h,之后再溶解于无水DCM中至0.1M。将溶液冷却至-78℃,之后逐滴添加三乙基硅烷(3eq),随后逐滴添加三氟化硼二乙醚(3eq)的48%溶液。然后将反应在-78℃下搅拌15-20min,之后用1:1的甲醇和三乙胺溶液(添加体积为反应体积的30%)淬灭。将该混合物在-78℃下搅拌3min,之后添加饱和碳酸氢钠(原始反应体积的50%)。然后将混合物用DCM稀释2倍,并且分离有机层。将水层用DCM再萃取两次,并将合并的有机物用硫酸钠干燥,过滤,并在真空中浓缩。
在室温下从剩余的残余物中在高真空中去除任何残余溶剂持续1h。此时,将残余物溶解在THF中至0.1M,并且添加四丁基氟化铵溶液(3.3eq,1.0M于THF中)。将反应搅拌1h,之后用乙酸乙酯稀释并用水萃取。将合并的有机物用硫酸钠干燥,过滤,并在真空中浓缩。然后通过硅胶快速色谱使用在DCM中的5%-10%乙醇作为流动相纯化得到的残余物。
苄基保护的核糖内酯10的核碱基偶联和脱保护。将芳基卤化物(1.0eq)溶于无水THF中至0.1M,并冷却至-78℃。一旦冷却,就向反应烧瓶中逐滴添加n-BuLi(1.6eq,1.6M于己烷中)的溶液。在-78℃下搅拌该混合物30min后,逐滴添加苄基保护的核糖内酯(化合物10,1.6eq)于无水THF中(约0.8M)的溶液。然后将反应在-78℃下再搅拌1h,之后用饱和氯化铵水溶液淬灭。在升温到室温后,真空下除去挥发物,并将所得残余物用乙酸乙酯和水萃取。将有机物用硫酸钠干燥,过滤,并在真空中再次除去挥发物。
将残余溶剂在室温下在高真空中去除1h,之后再溶解于无水DCM中至0.1M。将溶液冷却至-78℃,之后逐滴添加三乙基硅烷(3eq),随后逐滴添加三氟化硼二乙醚(3eq)的48%溶液。然后将反应在-78℃下搅拌15-20min,之后用1:1的甲醇和三乙胺溶液(添加体积为反应体积的30%)淬灭。将该混合物在-78℃下搅拌3min,之后添加饱和碳酸氢钠(原始反应体积的50%)。然后将混合物用DCM稀释2倍,并且分离有机层。将水层用DCM再萃取两次,并将合并的有机物用硫酸钠干燥,过滤,并在真空中浓缩。然后通过硅胶快速色谱使用梯度为己烷中的0至8%-10%乙酸乙酯作为流动相纯化苄基保护的核苷中间体。
将纯化的苄基保护的核苷在甲醇中稀释至0.1M,与10%钯碳(0.1eq)一起。将溶液用液氮冷冻,并且在冷冻时,将反应烧瓶用氢气吹扫三次,最后一次吹扫后将烧瓶留在氢气球下。然后使反应解冻,并在氢气下在室温下剧烈搅拌3h。然后将反应在一块硅胶上过滤,伴随用乙酸乙酯洗涤。然后在真空中除去挥发物,并将所得粗残余物通过硅胶快速色谱使用在DCM中的5%-10%乙醇作为流动相纯化。
芳基溴化物的氰化。在干燥的微波小瓶中装入CuCN(8eq)、Pd2(dba)3(0.1eq)和DPPF(0.1eq),并用氩气吹扫三次。将芳基溴化物(1eq)溶解在脱气的无水DMF中至0.05-0.1M,并转移到反应烧瓶中。然后将烧瓶在氩气下密封,并在155℃下剧烈搅拌过夜(约16h)。然后将反应冷却至室温,并在一小块硅胶上过滤,伴随用乙酸乙酯洗涤。在真空中除去挥发物,并将所得粗残余物通过硅胶快速色谱使用在己烷中的70%-95%乙酸乙酯作为流动相纯化。
核苷三磷酸化的一般方案。在惰性气体下,在干燥的微波小瓶中装入质子海绵(1.3eq)和游离核苷(1eq)。将无水磷酸三甲酯(40eq)添加至烧瓶中,并将所得混合物在盐冰浴中冷却至-15℃。将新鲜蒸馏的三氯氧磷(1.3eq)逐滴添加至冷却的烧瓶中,并将反应在-15℃搅拌3h。此时,将焦磷酸三丁基铵(5eq)在单独的干燥烧瓶中溶解在0.5M的无水DMF中,并逐滴添加至反应烧瓶中,随后逐滴添加无水三丁胺(6eq)。将所得混合物缓慢升温至0℃,并在该温度下再搅拌30min。然后通过添加水性三乙基碳酸氢铵(0.5M,pH 7.5,与总反应体积为1:1)淬灭反应,并在室温下搅拌15min。然后通过阴离子交换色谱,使用DEAESephadex A-25作为固定相并使用pH 7.5的缓慢梯度的0-1.2M TEAB作为流动相,纯化该淬灭的反应混合物。将含有核苷三磷酸的级分合并,并通过SpeedVac浓缩以提供干燥的所需产物。
苯甲酰基保护的核糖内酯14的核碱基偶联和脱保护。在氩气氛下,在室温下,将核碱基(1.0eq)和N,O-双(三甲基甲硅烷基)乙酰胺(1.2eq)在乙腈中(至0.1M)的混合物搅拌30min。此时,添加1-O-乙酰基-2,3,5-三-O-苯甲酰基-β-D-呋喃核糖(化合物14,1.2eq),并将所得反应混合物冷却至0℃。然后将SnCl4(1eq)添加至反应混合物中,并将溶液在室温下搅拌过夜。将反应用乙酸乙酯和饱和水性NaHCO3萃取,并将合并的有机层用无水Na2SO4干燥。过滤和蒸发后,将残余物通过硅胶快速色谱纯化。
吡啶酮向硫代吡啶酮的转化。将吡啶酮(1eq)通过用无水甲苯重复共蒸发来干燥。在氩气下添加劳森试剂(3eq),并将混合物在120℃下加热过夜。在棉上过滤后,将滤液浓缩,并将粗产物通过硅胶快速色谱纯化。
受保护核苷的氟化。将受保护的核苷(1eq)溶解在MeOH-CH3CN(1:1v/v)中至0.1M,并添加Selectfluor(1.1eq)。将混合物加热回流3h。然后在真空中除去挥发物,并将所得残余物用乙酸乙酯和水萃取。蒸发合并的有机层,并将所得粗残余物通过与无水甲苯共蒸发三次而干燥。将残余物溶解在TfOH-DCM(1:1v/v)中至0.1M,并将混合物在室温下搅拌1h。此时,将反应在真空中浓缩,并将所得粗产物通过硅胶快速色谱纯化。
化合物表征。
化合物1b.(0.387mmol,38%产率,3步)。1H NMR(600MHz,氯仿-d)7.46(dd,J=8.2,0.9Hz,1H),7.01(dd,J=8.2,1.9Hz,1H),6.87(d,J=1.9Hz,1H),5.32(d,J=3.3Hz,1H),4.43(dd,J=4.6,3.3Hz,1H),4.37(dd,J=8.1,4.6Hz,1H),4.05-4.01(m,1H),3.97(dd,J=12.0,3.2Hz,1H),3.83(s,3H),3.77(dd,J=11.9,4.1Hz,1H).13C NMR(151MHz,CDCl3)156.40,134.51,128.81,124.00,121.01,111.03,82.18,78.55,73.31,72.25,62.57,55.85。HRMS(ESI-TOF+)C12H15ClO5[M+Na]+计算值297.0500;实测值297.0501。
化合物3b.(0.333mmol,52%产率,3步)。1H NMR(600MHz,甲醇-d4)7.53(d,J=7.4,1.5Hz,1H),7.24(td,J=7.8,1.8Hz,1H),6.98-6.92(m,2H),5.33(d,J=2.9Hz,1H),4.35-4.28(m,2H),4.03(ddd,J=8.2,4.7,2.6Hz,1H),3.89(dd,J=13.1,3.8Hz,1H),3.84(s,3H),3.70(dd,J=12.0,4.7Hz,1H).13C NMR(151MHz,MeOD)157.46,129.07,129.03,127.68,121.09,110.69,83.00,79.66,74.04,73.61,63.32,55.72。HRMS(ESI-TOF+)C12H16O5[M+Na]+计算值263.0890;263.0888。
化合物4b.(0.765mmol,62%产率,3步)。1H NMR(600MHz,氯仿-d)7.23(dd,J=9.2,3.1Hz,1H),6.94(td,J=8.4,3.2Hz,1H),6.77(dd,J=8.9,4.2Hz,1H),5.28(d,J=3.3Hz,1H),4.43-4.38(m,1H),4.30(dd,J=8.2,4.6Hz,1H),3.99(dt,J=7.8,3.6Hz,1H),3.90(dd,J=12.0,3.2Hz,1H),3.79(s,3H),3.72(dd,J=12.0,4.0Hz,1H).13C NMR(151MHz,CDCl3)158.28,156.69,151.87,151.86,127.64,127.59,115.09,114.92,114.62,114.46,110.95,110.90,81.92,78.51,73.10,72.30,62.37,56.02。HRMS(ESI-TOF+)C12H15FO5[M+Na}+计算值281.0796;281.0799。
化合物5b.(0.366mmol,50%产率,3步)。1H NMR(600MHz,甲醇-d4)δ7.95(s,1H),7.43(s,1H),7.32(d,J=5.4Hz,1H),7.26(d,J=5.4Hz,1H),5.38(d,J=3.0Hz,1H),4.40-4.35(m,1H),4.32(dd,J=8.5,4.4Hz,1H),4.06(ddd,J=8.2,4.6,2.6Hz,1H),3.92(dd,J=12.0,2.5Hz,1H),3.90(s,3H),3.71(dd,J=12.0,4.7Hz,1H).13C NMR(151MHz,甲醇-d4)δ154.39,139.73,133.33,124.79,123.31,122.99,122.24,102.01,81.60,78.62,72.69,72.23,61.98,54.69。HRMS(ESI-TOF+)C14H16O5S[M+Na]+计算值319.0611;319.0612。
化合物6b.(0.160mmol,51%产率,3步)。1H NMR(600MHz,甲醇-d4)δ7.98(s,1H),7.48(d,J=5.4Hz,1H),7.34(s,1H),7.29(d,J=5.4Hz,1H),5.39(d,J=3.7Hz,1H),4.40-4.35(m,1H),4.32(dd,J=8.5,4.4Hz,1H),4.05(ddd,J=8.4,4.7,2.6Hz,1H),3.91(dd,J=11.9,2.6Hz,1H),3.89(s,3H),3.71(dd,J=12.0,4.7Hz,1H).13C NMR(151MHz,甲醇-d4)δ154.41,139.63,131.85,126.26,125.11,123.24,120.94,102.92,81.60,78.66,72.68,72.29,61.95。HRMS(ESI-TOF+)C14H16O5S[M+Na]+计算值319.0611;319.0609。
化合物7b.(1.248mmol,61%产率,3步)。1H NMR(600MHz,氯仿-d)δ7.41(dd,J=8.1,0.9Hz,1H),7.17(dd,J=8.1,1.8Hz,1H),7.02(d,J=1.8Hz,1H),5.32(d,J=3.3Hz,1H),4.44(dd,J=4.6,3.4Hz,1H),4.38(dd,J=8.1,4.6Hz,1H),4.04(dt,J=7.7,3.6Hz,1H),3.98(dd,J=11.9,3.2Hz,1H),3.83(s,3H),3.79(dd,J=11.9,4.1Hz,1H).13C NMR(151MHz,CDCl3)δ155.82,128.57,123.94,123.44,121.77,113.26,81.62,78.00,72.72,71.60,61.99,55.28。HRMS(ESI-TOF-)C12H15BrO5[M+Cl]-计算值352.9797;实测值352.9799。
化合物8a。(0.066mmol,来自化合物6b的42%产率)。1H NMR(600MHz,甲醇-d4)δ7.68(dd,J=7.8,0.9Hz,1H),7.34(dd,J=7.8,1.5Hz,1H),7.28(d,J=1.5Hz,1H),5.32(d,J=3.1Hz,1H),4.39(dd,J=4.5,3.2Hz,1H),4.30(dd,J=8.6,4.5Hz,1H),4.03(ddd,J=8.6,4.6,2.5Hz,1H),3.93-3.89(m,4H),3.70(dd,J=12.0,4.6Hz,1H).13C NMR(151MHz,MeOD)δ157.65,134.76,129.90,125.39,120.07,113.77,112.30,83.14,79.64,73.80,73.50,63.17,56.31,50.87。HRMS(ESI-TOF-)C13H15NO5[M-H]-计算值264.0877;实测值264.0869。
化合物9b.(0.288mmol,29%产率,3步)。1H NMR(600MHz,氯仿-d)δ7.12(d,J=9.9Hz,1H),6.73(d,J=6.1Hz,1H),5.02(d,J=6.1Hz,1H),4.17(dd,J=5.9,4.8Hz,1H),4.13-4.09(m,1H),4.08(t,J=6.0Hz,1H),3.98(dd,J=11.9,3.3Hz,1H),3.87(s,3H),3.85,3.81(m,1H),2.29(d,J=2.0Hz,3H).13C NMR(151MHz,CDCl3)δ156.19,154.61,151.45,126.24,124.08,123.95,113.10,83.98,80.69,71.56,62.65,55.76,14.22。HRMS(ESI-TOF+)C13H17FO5[M+Na]+计算值295.0952;295.0952。
化合物13a(3.184mmol,11%,经4步)。1H NMR(500MHz,DMSO-d6)δ11.87(br,1H,N-H),9.59(s,1H,Ar-H),7.50(d,J=5.0Hz,1H,Ar-H),6.98(d,J=5.0Hz,1H,Ar-H).13C NMR(125MHz,CDCl3)δ161.9,150.3,159.2,133.1,124.3,102.5。HRMS(ESI-TOF+)C6H5N2OS+[M+H]+计算值153.0117;实测值153.0115。
化合物13b.(0.530mmol,53%产率)。1H NMR(500MHz,CDCl3)δ9.13(s,1H,Ar-H),7.36-8.16(m,16H,Ar-H),6.87(d,J=5.0Hz,1H,H-1’),6.71(d,J=5.0Hz,1H,Ar-H),5.99-6.01(m,1H,H-3’),5.90-5.92(m,1H,H-2’),4.92(dd,J1=15Hz,J2=5Hz,1H,H-5’a),4.80-4.82(m,1H,H-4’),4.72(dd,J1=15Hz,J2=5Hz,1H,H-5’b).13C NMR(125MHz,CDCl3)δ166.5.165.7,165.6,160.7,156.7,134.1,133.9,130.9,130.3,130.2,130.1,130.1,130.1,129.8,129.1,129.0,128.9,128.8,104.5,89.2,80.8,75.3,71.4,64.0。HRMS(ESI-TOF+)C32H25N2O8S[M+H]+计算值597.1326;实测值597.1330。
化合物13c.(0.056mmol,56%产率)。1H NMR(500MHz,CDCl3)δ9.16(s,1H,Ar-H),7.31-8.24(m,17H,Ar-H),7.12(d,J=5Hz,1H,H-1’),5.95-5.96(m,1H,H-2’),5.87-5.90(m,1H,H-3’),4.99(dd,J1=15Hz,J2=5Hz,1H,H-5’a),4.89-4.91(m,1H,H-4’),4.73(dd,J1=15Hz,J2=5Hz,1H,H-5’b).13C NMR(125MHz,CDCl3)δ175.7,166.4,165.6,165.3,163.7,151.8,142.1,134.2,134.1,134.0,132.5,130.5,130.3,130.1,129.2,129.2,128.9,128.9,109.7,92.2,80.8,75.9,69.9,63.0。HRMS(ESI-TOF+)C32H25N2O7S2[M+H]+计算值613.1098;实测值613.1095。
化合物13d.(0.043mmol,89%产率)。1H NMR(500MHz,DMSO-d6)δ9.58(s,1H,Ar-H),8.68(d,J=10Hz,1H,Ar-H),7.45(d,J=10Hz,1H,Ar-H),6.81(d,J=2.5Hz,1H,H-1’),5.48(d,J=5Hz,1H,-OH),5.39-5.41(m,1H,-OH),5.18(d,J=5Hz,1H,-OH),4.03-4.05(m,2H,H-2’,H-3’),3.98-4.00(m,1H,H-4’),3.78(dd,J1=10Hz,J2=2.5Hz,1H,H-5’a),3.64(dd,J1=10Hz,J2=2.5Hz,1H,H-5’b).13C NMR(125MHz,DMSO-d6)δ174.2,166.6,152.2,135.5,109.4,99.9,95.1,85.5,76.6,69.0,60.2。HRMS(ESI-TOF+)C11H13N2O4S2[M+H]+计算值301.0311;实测值301.0309。
化合物15b.(0.931mmol,93%产率)。1H NMR(500MHz,CDCl3)δ9.05(d,J=10Hz,1H,H-Ar),7.30-8.16(m,20H,Ar-H),6.72(d,J=5Hz,1H,H-1’),5.97-5.99(m,1H,H-2’),5.85-5.88(m,1H,H-3’),4.98(dd,J1=10Hz,J2=5Hz,1H,H-5’a),4.89-4.90(m,1H,H-4’),4.72(dd,J1=10Hz,J2=5Hz,1H,H-5’b).13C NMR(125MHz,CDCl3)δ182.1,179.6,166.6,165.5,165.5,165.2,151.1,143.9,134.0,133.9,133.6,130.4,130.3,130.2,130.1,129.6,129.4,129.1,128.9,128.9,128.8,92.8,80.4,75.7,69.7,62.8。HRMS(ESI-TOF+)C35H28NO8[M+H]+计算值590.1809;实测值590.1811。
化合物15c.(0.088mmol,87%产率)。1H NMR(500MHz,CDCl3)δ9.07(d,J=10Hz,1H,Ar-H),7.30-8.17(m,20H,Ar-H,H-1’),5.98-5.99(m,1H,H-2’),5.82-5.84(m,1H,H-3’),4.89-4.94(m,2H,H-5’a,H-4’),4.80(dd,J1=15Hz,J2=5Hz,1H,H-5’b).13C NMR(125MHz,CDCl3)δ184.9,166.5,165.6,165.3,134.0,133.9,133.3,132.7,130.5,130.3,130.2,129.8,129.5,129.1,128.9,128.9,128.8,127.3,127.1,112.8,92.6,80.3,75.9,70.1,63.2。HRMS(ESI-TOF+)C35H28NO7S[M+H]+计算值606.1581;实测值606.1579。
化合物15d.(0.044mmol,92%产率)。1H NMR(500MHz,MeOH-d4)δ8.33(d,J=10Hz,1H,Ar-H),7.52-7.80(m,4H,Ar-H),6.71(d,J=5Hz,1H,Ar-H),6.36(d,J=2.5Hz,1H,H-1’),4.22-4.26(m,2H,H-2’,H-3’),4.10-4.11(m,1H,H-4’),3.94(dd,J1=15Hz,J2=5Hz,1H,H-5’a),3.82(dd,J1=15Hz,J2=5Hz,1H,H-5’b).13C NMR(125MHz,MeOH-d4)δ163.0,137.6,133.0,127.5,127.4,127.1,126.3,125.6,106.9,90.1,85.1,75.5,70.3,61.4。HRMS(ESI-TOF+)C14H16NO4S[M+H]+计算值294.0795;实测值294.0799。
化合物16a。(0.077mmol,71%产率)。1H NMR(500MHz,CDCl3)δ7.33-8.42(m,20H,Ar-H),6.82(d,J=5Hz,1H,H-1’),5.94-5.97(m,1H,H-2’),5.83-5.85(m,1H,H-3’),4.87(d,J=10Hz,1H,H-5’a),4.74-4.79(m,2H,H-4’,H-5’b).13C NMR(125MHz,CDCl3)δ166.6,165.7,165.6,162.9,160.8,134.0,134.0,133.9,133.5,130.3,130.2,130.1,129.7,129.1,129.1,129.1,128.9,128.8,128.8,120.3,111.1,88.9,87.8,85.3,80.6,80.4,74.8,71.4,64.1.19F NMR(376MHz,CDCl3)δ-145.6。HRMS(ESI-TOF+)C35H27FNO8[M+H]+计算值608.1715;实测值608.1717。
化合物16b.(0.066mmol,65%产率)。1H NMR(500MHz,CDCl3)δ9.07(d,J=10Hz,1H,Ar-H),7.32-8.18(m,20H,Ar-H,H-1’),5.96-5.98(m,1H,H-2’),5.87-5.89(m,1H,H-3’),4.97(dd,J1=15Hz,J2=5Hz,1H,H-5’a),4.89-4.91(m,1H,H-4’),4.76(dd,J1=15Hz,J2=5Hz,1H,H-5’b).13C NMR(125MHz,CDCl3)δ184.3,166.6,165.6,165.3,134.7,134.1,134.0,133.9,133.9,133.3,133.2,130.5,130.3,130.3,129.8,129.7,129.3,129.2,128.9,128.9,128.9,128.8,128.3,126.8,108.4,100.0,92.3,80.7,75.8,70.3,63.2,56.0。HRMS(ESI-TOF+)C35H27FNO7S[M+H]+计算值624.1487;实测值624.1490。
化合物16c.(0.042mmol,90%产率)。1H NMR(500MHz,MeOH-d4)δ9.04(d,J=10Hz,1H,H-Ar),8.73(d,J=10Hz,1H,H-Ar),7.83-7.87(m,2H,Ar-H),7.65-7.68(m,1H,H-Ar),6.96(s,1H,H-1’),4.23-4.29(m,2H,H-2’,H-3’),4.18-4.4.21(m,1H,H-4’),4.11(dd,J1=10Hz,J2=5Hz,H-5’a),3.91(dd,J1=10Hz,J2=5Hz,H-5’b).13C NMR(125MHz,MeOH-d4)δ180.5,150.5,148.6,134.2,134.1,133.2,132.0,132.0,129.2,126.1,125.9,119.6,119.6,115.5,115.1,96.2,84.4,76.1,68.1,59.4。HRMS(ESI-TOF)+C14H15FNO4S[M+H]+计算值312.0700;实测值312.0702。
化合物1c.(0.048,24%产率)。31P NMR(162MHz,H2O)δ-8.79–-10.99(m),-21.21–-21.58(m),-21.77–-23.23(m)。MS(MALDI-TOF-,基质:9-氨基吖啶)(m/z)[M-H]-C12H17ClO14P3-,计算值512.95;实测值512.7。
化合物3c.(0.031mmol,31%产率)。31P NMR(162MHz,H2O)δ-11.19–-11.91(m),-22.06–-22.73(m),-23.87–-24.46(m)。MS(MALDI-TOF-,基质:9-氨基吖啶)(m/z)[M-H]-C12H18O14P3-,计算值479.00;实测值497.4。
化合物4c.(0.014mmol,14%产率)。31P NMR(162MHz,H2O)δ-7.31(d),-11.47(d),-22.79–-23.21(m)。MS(MALDI-TOF-,基质:9-氨基吖啶)(m/z):[M-H]-C12H17FO14P3-,计算值496.97;实测值497.3。
化合物5c.(0.042mmol,23%产率)。31P NMR(162MHz,D2O)δ-8.48(d,J=17.8Hz),-11.21(d,J=20.7Hz),-22.96(t,J=21.6Hz)。MS(MALD-TOF-,基质:9-氨基吖啶)(m/z):[M-H]-C14H18O14P3S-,计算值534.97;实测值535.4。
化合物6c.(0.017mmol,21%产率)。31P NMR(162MHz,D2O)δ-9.25(d,J=21.0Hz),-10.93(d,J=19.5Hz),-22.94(t,J=20.5Hz)。MS(MALDI-TOF-,基质:9-氨基吖啶)(m/z):[M-H]-C14H18O14P3S-,计算值534.97;实测值535.4。
化合物7c.(0.009mmol,12%产率)。31P NMR(162MHz,H2O)δ-10.07–-11.45(m),-21.8–-22.21(m),-24.06–-24.60(m)。MS(MALDI-TOF-,基质:9-氨基吖啶)(m/z)[M-H]-C12H17BrO14P3-,计算值556.91;实测值556.6。
化合物8b.(0.023mmol,22%产率)。31P NMR(162MHz,H2O)δ-9.96–-12.34(m),-21.91–-22.45(m),-22.88–-24.4(m)。MS(MALDI-TOF-,基质:9-氨基吖啶)(m/z)[M-H]-C13H17NO14P3-,计算值503.99;实测值504.3。
化合物9c.(0.021mmol,21%产率)。31P NMR(162MHz,H2O)δ-9.77–-10.37(m),-10.8–-11.17(m),-22.0–-22.2(m)。MS(MALDI-TOF-,基质:9-氨基吖啶)(m/z)[M-H]-C13H19FO14P3-,计算值511.0;实测值511.0。
化合物13e.(0.007mmol,22%产率)。31P NMR(400MHz,D2O):δ-10.82-10.94(m),-11.68-11.74(m),-23.21-23.45(m)。MS(MALDI-TOF,基质:9-氨基吖啶)(m/z):[M-H]-C11H14N2O13P3S2-,计算值538.9,实测值538.3。
化合物15e.(0.012mmol,35%产率)。31P NMR(400MHz,D2O):δ-10.74-10.84(m),-11.55-11.67(m),-23.17-23.42(m)。MS(MALDI-TOF,基质:9-氨基吖啶)(m/z):[M-H]-C14H17NO13P3S-,计算值532.0,实测值532.5。
化合物16d.(0.009mmol,29%产率)。31P NMR(400MHz,D2O):δ-10.65-10.79(m),-11.45-11.54(m),-22.16-23.40(m)。MS(MALDI-TOF,基质:9-氨基吖啶)(m/z):[M-H]-C14H16FNO13P3S-,计算值550.0,实测值550.6。
方案S2.(a)1.6M n-BuLi、THF,-78℃,1h,(b)三乙基硅烷、DCM、BF3·OEt2,-78℃,15–20min,(c)1.0M TBAF、THF,1h,(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h。
Figure BDA0003498995360001371
方案S3.(a)1.6M n-BuLi、THF,-78℃,1h,(b)三乙基硅烷、DCM、BF3·OEt2,-78℃,15–20min,(c)1.0M TBAF、THF,1h,(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h。
Figure BDA0003498995360001372
方案S4.(a)1.6M n-BuLi、THF,-78℃,1h,(b)三乙基硅烷、DCM、BF3·OEt2,-78℃,15–20min,(c)1.0M TBAF、THF,1h,(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h。
Figure BDA0003498995360001381
方案S5.(a)1.6M n-BuLi、THF,-78℃,1h,(b)三乙基硅烷、DCM、BF3·OEt2,-78℃,15–20min,(c)1.0M TBAF、THF,1h,(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h。
Figure BDA0003498995360001382
方案S6.(a)1.6M n-BuLi、THF,-78℃,1h,(b)三乙基硅烷、DCM、BF3·OEt2,-78℃,15–20min,(c)1.0M TBAF、THF,1h,(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h。
Figure BDA0003498995360001383
方案S7.(a)1.6M n-BuLi、THF,-78℃,1h,(b)三乙基硅烷、DCM、BF3·OEt2,-78℃,15–20min,(c)1.0M TBAF、THF,1h,(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h。
Figure BDA0003498995360001391
方案S8.(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h,(e)CuCN、Pd2(dba)3、DPPF、DMF,155℃,16h
Figure BDA0003498995360001392
方案S9.(a)1.6M n-BuLi、THF,-78℃,1h,(b)三乙基硅烷、DCM、BF3·OEt2,-78℃,15-20min,(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h,(f)H2(g)、Pd/C(10%)、MeOH,rt,3h
Figure BDA0003498995360001393
方案S10.(k)N,O-双(三甲基甲硅烷基)乙酰胺、SnCl4、CH3CN,RT,过夜,(l)劳森试剂,120℃,过夜,(m)30%NaOMe、DCM,0℃,2h,(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h
Figure BDA0003498995360001401
方案S11.(k)N,O-双(三甲基甲硅烷基)乙酰胺、SnCl4、CH3CN,RT,过夜,(l)劳森试剂,120℃,过夜,(m)30%NaOMe、DCM,0℃,2h,(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h
Figure BDA0003498995360001402
方案S12.(n)i.Selectfluor,MeOH/CH3CN(1:1v/v),回流,3h;ii.TfOH/DCM(1:1v/v),1h,(l)劳森试剂,120℃,过夜,(m)30%NaOMe、DCM,0℃,2h,(d)质子海绵、POCl3、Bu3N、Bu3NPPi、(MeO)3P、DMF,-15℃,3h
Figure BDA0003498995360001411
实施例3:非天然蛋白质生产的优化。
实施例1A、1B和2鉴定dCNMO-dTPT3作为用于存储信息的能胜任的UBP,以及鉴定TAT1TP和NaMTP或5FMTP作为用于其检索的核糖核苷三磷酸。在用上文所用的相同质粒转化后,将10μM dTPT3TP和25μM dCNMOTP提供于生长培养基中,然后还向所述培养基补充浓度范围为100μM至12.5μM的TAT1TP以及浓度范围为200μM至12.5μM的NaMTP或5FMTP,所有均为2倍系列稀释物,并且在添加1mM AzK后,诱导细胞表达sfGFP。在提供以TAT1TP和NaMTP的细胞中观察到的总sfGFP荧光总体上高于在提供以TAT1TP和5FMTP的细胞中观察到的总sfGFP荧光(图6A和图6B)。在这两种情况下,在较低浓度的NaMTP或5FMTP下荧光均较高(由于污染天然sfGFP的产生增加,参见下文)。另外,细胞总体上在较高浓度的TAT1TP下产生较高的荧光。然而,由于生长略微降低,提供以100μM TAT1TP的细胞产生的荧光少于提供以50μMTAT1TP的细胞产生的荧光。通过凝胶移位测定再次定量蛋白质产生(图6C和图6D)。总体上,在NaMTP的浓度降低为低于200μM时,观察到AzK掺入sfGFP中的保真度逐渐降低,而使用5FMTP时,则仅在低于50μM的浓度下观察到这样的保真度降低。显然可以使用较低浓度的5FMTP,而不会影响保真度。提供以高浓度5FMTP(≥50μM)的细胞在所有探索的TAT1TP浓度(100μM、50μM、25μM或12.5μM)下产生了高蛋白质移位。然而,当5FMTP的浓度为25μM或更小时,降低TAT1TP的浓度导致蛋白质移位降低。当在200μM下提供NaMTP时,所有探索的TAT1TP浓度均导致产生具有高保真度ncAA掺入的蛋白质,但在NaMTP的较低浓度下,降低TAT1TP的浓度再次导致蛋白质移位降低。总而言之,这些研究揭示,用分别以200μM和50μM的浓度提供的NaMTP和TAT1TP,或者用均以50μM的浓度提供的5FMTP和TAT1TP,实现了蛋白质纯度和产率的组合优化。在单独的蛋白质生产方面,使用NaMTP和TAT1TP是最佳的,而使用5FMTP和TAT1TP导致纯ncAA标记蛋白的产量略低,但需要显著更低的XTP浓度。
体内翻译条件的优化。使携带pGEX-MbPylRS TetR质粒的SSO菌株ML2的过夜培养物在补充有50mM磷酸钾、5μg/mL氯霉素和100μg/mL羧苄青霉素的2×YT(在本文本节中称为“培养基”)中生长,然后在相同培养基中稀释回OD600为0.03,并生长至OD600为0.4-0.6。然后将培养物伴随在冰水上摇动冷却15min,然后通过以3,200×g离心10min来沉淀。然后将细胞用冰冷ddH2O重悬浮并洗涤两次,然后重悬浮于冰冷ddH2O中至OD600为55-65。将电感受态细胞(50μL)和具有sfGFP和tRNAPyl基因内的UBP的约1ng金门组装质粒(参见质粒的金门组装)转移到预冷的电穿孔小杯(0.2-cm-间距)中,然后根据制造商的建议(电压25kV,电容2.5μF,电阻200Ω)进行电穿孔(Gene Pulser II;Bio-Rad),然后立即用950μL培养基稀释。然后将转化的等分试样(40μL)在补充有dCNMOTP(25μM)和dTPT3TP(10μM)的培养基中稀释五倍,最终体积为200μL,然后允许在37℃摇动下恢复1h。将回收的两倍稀释物铺板到补充有博莱霉素(50μg/mL)、dCNMOTP(10μM)、dTPT3TP(10μM)和琼脂(2%w/v)的固体培养基上,然后在37℃下生长18h。挑取单个菌落并使其在补充有50μg/mL博莱霉素并提供dCNMOTP(25μM)和dTPT3TP(10μM)的培养基(300μL)(之后在本文本节中称为“生长培养基”)中生长。监测培养物的细胞生长(具有590/20nm滤光器的Envision 2103多标记板读取器),然后在OD600为约1.0时收集。使用ZR质粒制备试剂盒(Zymo Research)对等分试样(50μL)进行质粒分离。然后对分离的质粒进行下述链霉亲和素凝胶移位测定(使用引物P3-4和P5-6,表S1),以确定UBP保留。
然后将具有出色UBP保留的菌落在生长培养基中稀释至OD600为约0.01,并生长至OD600为约0.4-0.6。然后将该培养物分为多个300μL培养物,并且以可变浓度的每种XTP(12.5μM、25μM、50μM、100μM或200μM)和TAT1TP(12.5μM、25μM、50μM或100μM)为每个培养物提供5FMTP,TAT1TP或NaMTP,TAT1TP。此时还向细胞提供AzK(10mM)。在添加AzK后将样品避光以防止光降解。然后使这些样品在37℃下生长20min,之后添加1mM IPTG,并在37℃下再生长1h以诱导T7 RNAP以及tRNAPyl和PylRS的转录。从此时起,监测细胞的生长和荧光。然后用无水四环素(100ng/mL)诱导sfGFP的表达。在37℃下再生长3h后,收集细胞(230μL用于sfGFP的亲和纯化),冷却,然后沉淀并在-80℃下储存,之后进行蛋白质纯化。
高密度非天然密码子的体内翻译。使携带pGEX-MbPylRS TetR质粒的SSO菌株ML2的过夜培养物在补充有50mM磷酸钾、5μg/mL氯霉素和100μg/mL羧苄青霉素的2×YT(在本文本节中称为“培养基”)中生长,然后在相同培养基中稀释回OD600为0.03,并生长至OD600为0.4-0.6。然后将培养物在冰水中摇动冷却15分钟,然后通过以3,200×g离心10min来沉淀。然后将细胞用冰冷ddH2O重新悬浮并洗涤两次,然后重新悬浮在冰冷ddH2O中至OD600为55-65。将电感受态细胞(50μL)和具有sfGFP的密码子149或153位(三个经验证密码子位置中的两个)或所有三个位置处的UBP(sfGFP149(AXC)、s fGFP151(AXC)、sfGFP149,151(AXC,AXC)、sfGFP151,153(AXC,AXC)、sfGFP149,153(A XC,AXC)和(sfGFP149,151,153(AXC,AXC,AXC))的约1ng金门组装质粒(参见质粒的金门组装)转移到预冷的电穿孔小杯(0.2-cm-间距)中。然后根据制造商的建议(电压25kV,电容2.5μF,电阻200Ω)对细胞进行电穿孔(GenePulser II;Bio-Rad),然后立即用950μL培养基稀释。然后将转化的等分试样(40μL)五倍稀释于补充有dNaMTP(150μM)和dTPT3TP(10μM)(之后在本文本节中称为“旧条件”)或者dCNMOT P(150μM)和dTPT3TP(10μM)(之后在本文本节中称为“新条件”)的培养基中,最终体积为200μL,然后在37℃下在摇动下恢复1h。将回收的两倍稀释物铺板到补充有博莱霉素(50μg/mL)、相应非天然三磷酸酯和琼脂(2%w/v)的固体培养基上,然后在37℃下生长约18h。挑取单个菌落并使其在补充有50μg/mL博莱霉素的培养基(300μL)(之后在本文本节中称为“生长培养基”)中生长,并提供用于旧条件或新条件的相应非天然三磷酸酯。监测培养物的细胞生长(具有590/20nm滤光器的Envision 2103多标记板读取器),然后在OD600为约1.0时收集。将收集的细胞在冰上冷却过夜。
然后将细胞在生长培养基中重新稀释至OD600为约0.1,并提供用于旧条件或新条件的相应非天然三磷酸酯,然后生长至OD600为约0.4-0.6。然后为对应于旧条件的细胞提供NaMTP(250μM)和TPT3TP(30μM),而为对应于新条件的细胞则提供NaMTP(200μM)和TAT1TP(50μM)。此时,还向细胞提供AzK(10mM)(或对于在不存在AzK的情况下生长的培养物提供ddH2O)。在添加AzK后将样品避光以防止光降解。然后使这些样品在37℃下生长20min,之后添加1mM IPTG,并在37℃下再生长1h以诱导T7 RNAP以及tRNAPyl和PylRS的转录。从此时起,监测细胞的生长和荧光。然后用无水四环素(100ng/mL)诱导sfGFP的表达。在37℃下再生长3h后,将细胞冷却,收集(50μL用于质粒分离以测定UBP保留,230μL用于sfGFP的亲和纯化),然后沉淀并储存在-80℃下,之后进行蛋白质纯化并评估UBP保留。
结果。在高浓度下探索的所有十种XTP均能够以至少适中的ncAA掺入保真度(98%至63%)介导蛋白质的产生。总体上,在XTP浓度降低时,ncAA掺入的保真度降低,表明非天然mRNA转录的保真度降低。这与保留XTP时观察到的显著荧光一致。
该实施例为主要为疏水性核糖核苷酸的转录和翻译提供了SAR。在采用XTP的情况下,在考虑NaMTP、PTMOTP和MTMOTP时,缩环和/或杂原子衍生化在一些情况下有害。然而,在采用单环核碱基XTP的情况下(ClMOTP除外),观察到相对于MTMOTP和PTMOTP而言更高的蛋白质产生保真度。在一些情况下,非天然核碱基之间或与聚合酶的特异性相互作用有益于碱基配对。例如,在一些情况下,单环核碱基的4位和5位的取代实现碱基配对。与2OMeTP相比,4位的Cl或Br取代基(ClMOTP和BrMOTP)在一些情况下有害,而4位的甲基(MMO2TP)降低了整体荧光,但在蛋白质保真度方面增加。4位的腈取代基(CNMOTP)导致产生最大量的非天然蛋白质,并且还适度增加了掺入ncAA的保真度。在5位添加氟取代基(5F2OMeTP)也相对于2OMeTP而言增加了蛋白质产生和保真度。4位和5位取代的作用在一些情况下显现至少是近似累加性的,因为组合5-氟和4-甲基取代基(5FMTP)相对于其他非天然三磷酸酯而言允许在较低浓度下以高产量产生纯非天然蛋白质。然而,在需要更高的浓度时,NaMTP提供了所检查XTP类似物的产量和纯度的平衡组合。在一些情况下,对XTP类似物得出的SAR与从dXTP类似物的复制得出的SAR明显不同。例如,虽然dPTMOTP、dClMOTP和dCNMO在一些情形中与dNaMTP相比更优,但ClMOTP和PTMOTP在一些情形中与NaMTP相比适度和显著不太好。此外,虽然dCNMO是迄今发现的对于dTPT3的最佳配偶体,但相对于NaMTP而言使用CNMOTP导致ncAA掺入的保真度略微降低,尽管其使用确实导致最多的非天然蛋白质产生。在最高浓度下,所有五种探索的YTP都被有效地掺入tRNAPyl的反密码子中,并且能够以至少适中的ncAA掺入保真度(98%至51%)介导蛋白质的产生。不受理论的束缚,UBP保留数据表明,蛋白质产生的保真度对非天然tRNA的适度损失不敏感,这意味着对于导致较低蛋白质凝胶移位的YTP,tRNA的转录非常低效或保真度低。TPT3TP、SICSTP、FSICSTP和TAT1TP全部在最高浓度下略有毒性(数据未显示),并且整体细胞荧光随着浓度的降低而增加。与XTP和mRNA转录不同,非天然蛋白质的保真度没有降低,这表明蛋白质产生的增加仅仅是细胞生长增加的结果。相比之下,5SICSTP显示出最小毒性(数据未显示),并且非天然蛋白质的产生和保真度二者均随着浓度的降低而降低,这也可能是由于非天然tRNA的产生显著受损。在考虑此YTPSAR并使用SICSTP作为参考时,7-氟取代基(FSICSTP)在一些情况下有害,并且仅产生少量蛋白质且保真度低。在5位添加甲基(5SICSTP)降低了毒性,但在一些情况下也会降低非天然tRNA的产生。在一些情况下,缩环和杂原子衍生化(TPT3TP)增加了蛋白质产生和保真度,但与其他YTP类似物相比,它在高浓度时通常是有毒的。TPT3TP的噻吩环的进一步杂原子衍生化产生TAT1TP的噻唑,这导致与TPT3TP相比产生更多的非天然蛋白质,并且毒性降低。考虑到产生的蛋白质的量和ncAA掺入的保真度二者,在一些情形中使用TAT1TP作为YTP。
实施例4:存储和检索更高密度的非天然信息。
评价了来自含有更高密度UBP的基因的信息的存储和检索。为实现这一目标,验证了SSO复制含有sfGFP基因的DNA的能力,所述sfGFP基因中的UBP被定位为编码密码子149或153,各自通过单个天然密码子与上述密码子(密码子151)隔开。因此,如上所述构建表达质粒,但其中序列AXC被定位为编码密码子149或153(分别为sfGFP149(AXC)或sfGFP153(AXC))。在转化ML2后,使细胞在非天然核苷三磷酸的存在下生长,所述非天然核苷三磷酸对应于我们先前报道的系统(脱氧核糖核苷酸dNaMTP和dTPT3TP,以及核糖核苷酸NaMTP和TPT3TP,表示为dNaM-dTPT3/NaMTP,TPT3TP)或在本研究中发现的优化系统(dCNMOdTPT3/NaMTP,TAT1TP)。然后如上所述使用链霉亲和素凝胶移位测定表征UBP保留。在两种条件下,在sfGFP149(AXC)和sfGFP153(AXC)基因(≥95%)以及tRNA基因(≥91%)中均观察到相应UBP的高保留(数据未显示)。
诱导后3h观察到的总sfGFP荧光揭示,在两组条件下,在AzK的存在下,两种构建体都有显著的蛋白质产生(图7A)。
然而,与提供以dNaM-dTPT3/NaM,TPT3的细胞相比,提供以dCNMOdTPT3/NaM,TAT1的表达sfGFP149(AXC)构建体的细胞的荧光高58%。在sfGFP153(AXC)基因的情形中,采用dCNMOdTPT3/NaMTP,TAT1TP观察到比采用dNaMdTPT3/NaMTP,TPT3TP多43%的荧光。在两组条件下,采用sfGFP153(AXC)观察到的荧光是采用sfGFP149(AXC)情况下的2倍。如上所述纯化蛋白质并分析AzK掺入(图7B)。采用dNaM-dTPT3/NaMTP,TPT3TP时,对sfGFP149(AXC)和sfGFP153(AXC)分别观察到86%和94%的蛋白质移位。然而,采用dCNMOdTPT3/NaMTP,TAT1TP时,对于从任一构建体产生的蛋白质观察到96%的移位。这些结果清楚地证明,两个另外的密码子位置都被有效转录并翻译,但是再次证明它们在用新鉴定的dCNMO-dTPT3/NaMTP,TAT1TP系统情况下被转录和翻译地更好。构建了具有在检查的两个或所有三个位置处同时编码的非天然密码子(分别为sfGFP149,151(AXC,AXC)、sfGFP151,153(AXC,AXC)、sfGFP149,153(AXC,AXC)和sfGFP149,151,153(AXC,AXC,AXC))的表达质粒。转化ML2细胞,在dNaMdTPT3/NaMTP,TPT3TP或dCNMOdTPT3/NaMTP,TAT1TP的存在下生长,并且诱导蛋白质表达,如上所述。虽然在所有情形中在tRNAPyl(GYT)基因中的UBP保留保持较高(≥88%)(数据未显示),但是对mRNA基因的生物素移位测定产生了复杂和无法解释的条带图案,可能至少部分地是由于形成了单个PCR产物与多个链霉亲和素结合的复合物的混合物。检查了通过如上所述缀合到DBCO-TAMRA产生的蛋白质(图7B)。令人满意的是,相对于用单个ncAA观察到的移位,对于从sfGFP149,151(AXC,AXC)、sfGFP151,153(AXC,AXC)和sfGFP149,153(AXC,AXC)构建体表达的蛋白质观察到显著进一步移位的条带,表明两个DBCO-TAMRA分子与带有两个AzK残基的sfGFP发生缀合。在分析用dNaM-dTPT3/NaMTP,TPT3TP表达的纯化蛋白质时,对这些双重移位条带相对于总sfGFP的量化揭示,在分别使用sfGFP149,151(AXC,AXC)、sfGFP151,153(AXC,AXC)或sfGFP149,153(AXC,AXC)构建体时,对应地80%、87%和83%的蛋白质具有两个AzK残基,并且对应地20%、13%或9%具有单个AzK。采用dCNMOdTPT3/NaMTP,TAT1TP的情况下,81%、89%和93%的蛋白质具有两个ncAA,分别为sfGFP149,151(AXC,AXC)、sfGFP151,153(AXC,AXC)和sfGFP149,153(AXC,AXC),而19%、11%和6%具有单个ncAA。用sfGFP149,151,153(AXC,AXC,AXC)构建体转化的细胞表达蛋白质,所述蛋白质产生甚至进一步移位的条带,清楚地表明掺入三个AzK残基。对每个条带相对于总sfGFP的量化揭示,使用dNaM-dTPT3/NaMTP,TPT3TP导致39%、24%和33%的蛋白质分别具有三个、两个或一个ncAA,并且荧光和蛋白质移位高度可变(图7A和图7B)。相比之下,使用dCNMO-dTPT3/NaMTP,TAT1TP系统导致90%的所产生蛋白质具有所有三个ncAA,其余具有两个。
为了进一步验证采用dCNMO-dTPT3/NaMTP,TAT1TP系统时所有三个ncAA的成功掺入,将分离的sfGFP通过定量完整蛋白质质谱来分析。简而言之,将纯化的蛋白质使用离心过滤装置(AmiconR Ultra-0.5-Millipore)脱盐,并通过HRMS(ESI-TOF)分析。随后将采集的质谱使用Waters MaxEnt 1软件进行解卷积,这证明在峰积分(数据未显示)后是可定量的。与凝胶移位测定一致,该分析揭示,88%的所分离蛋白质含有预期的三个AzK残基,而剩余的12%含有两个AzK残基和单个Ile或Leu残基(图7C)。
结果。总体而言,SAR将dCNMOdTPT3/NaMTP,TAT1TP系统鉴定为以高保真度掺入ncAA而产生高量的蛋白质。使用dCNMOdTPT3/5FMTP,TAT1TP产生具有相同高保真度的蛋白质,并且虽然产生略少的蛋白质,但需要使用显著更少的非天然核糖核苷酸。dCNMO-dTPT3/NaMTP,TAT1TP系统的效用在一些情况下可用于编码和检索高密度非天然信息。两种系统均以高保真度产生了具有两个ncAA的蛋白质,但dCNMOdTPT3/NaMTP,TAT1TP系统总体上以更大的量产生所需的蛋白质。此外,在编码三个ncAA时,dNaM-dTPT3/NaMTP,TPT3TP系统产生的三重标记蛋白具有显著降低且更加可变的保真度和产量,而采用dCNMO-dTPT3/NaMTP,TAT1TP系统时的保真度和产量仍然是可再现地高的。不受理论的束缚,其中Ile或Leu替代单个ncAA的污染物不太可能由非天然tRNA生产产生,因为tRNA基因中的UBP保留较高并且对于两个系统是相似的,并且即使有小的差异,单个ncAA掺入数据表明,它们不会造成非天然蛋白质生产的保真度的显著降低。也不可能是由mRNA转录产生的,这对于这两个系统应该相同(在两种情况下,dTPT3引导NaM掺入mRNA中)。不受理论束缚,Leu/Ile污染物的来源可能是在复制期间在mRNA基因中损失UBP,这也与预期的最常见的突变(dX至dT)一致,该突变会产生Ile密码子。
通过标识引用而在本文提到的所有公开案、专利、专利申请和公开的专利申请的公开内容特此通过引用以其整体并入本文。
序列
SEQ ID NO:1。pGEX-MbPylRS TetR PylRS表达质粒的序列(5923bp)
GTAAATCACTGCATAATTCGTGTCGCTCAAGGCGCACTCCCGTTCTGGATAATGTTTTTTGCGCCGACATCATAACGGTTCTGGCAAATATTCTGAAATGAGCTGTTGACAATTAATCATCGGCTCGTATAATGTGTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGTATTCATGGATAAAAAACCGCTGGACGTTCTGATCTCCGCTACGGGTCTGTGGATGAGCCGCACGGGTACGCTGCATAAAATTAAACACCACGAAGTGTCACGTTCGAAAATCTATATCGAAATGGCGTGCGGTGATCATCTGGTGGTTAACAATAGCCGTTCTTGTCGCACCGCGCGTGCCTTTCGCCATCACAAATACCGCAAAACGTGCAAACGTTGTCGCGTGTCAGATGAAGACATTAACAATTTCCTGACCCGTAGTACGGAATCCAAAAACTCAGTGAAAGTTCGCGTCGTGAGTGCTCCGAAAGTTAAAAAAGCGATGCCGAAAAGTGTCTCCCGTGCCCCGAAACCGCTGGAAAACTCAGTGTCGGCAAAAGCTTCCACCAATACGAGCCGCTCTGTTCCGTCGCCGGCAAAAAGCACCCCGAACAGCTCTGTCCCGGCAAGCGCACCGGCACCGTCTCTGACGCGTAGTCAGCTGGATCGCGTGGAAGCCCTGCTGTCCCCGGAAGACAAAATCTCACTGAATATGGCAAAACCGTTTCGTGAACTGGAACCGGAACTGGTTACCCGTCGCAAAAACGATTTCCAACGTCTGTATACGAATGATCGCGAAGACTACCTGGGTAAACTGGAACGTGATATCACCAAATTTTTCGTGGACCGCGGCTTTCTGGAAATCAAATCTCCGATTCTGATCCCGGCTGAATATGTTGAACGCATGGGTATTAACAATGATACCGAACTGAGTAAACAGATTTTTCGTGTGGATAAAAACCTGTGCCTGCGGCCGATGCTGGCACCGACGCTGTATAATTACCTGCGTAAACTGGATCGCATTCTGCCGGGTCCGATTAAAATCTTTGAAGTGGGCCCGTGTTATCGTAAAGAATCGGATGGCAAAGAACACCTGGAAGAATTTACCATGGTTAACTTCTGCCAAATGGGCAGCGGTTGTACGCGCGAAAATCTGGAAGCGCTGATCAAAGAATTCCTGGATTACCTGGAAATCGACTTCGAAATCGTCGGTGATTCTTGCATGGTGTATGGCGATACCCTGGACATCATGCATGGTGACCTGGAACTGAGTTCCGCTGTTGTCGGTCCGGTCAGCCTGGATCGTGAATGGGGCATTGACAAACCGTGGATCGGCGCGGGTTTTGGCCTGGAACGCCTGCTGAAAGTTATGCACGGCTTCAAAAACATCAAACGTGCGTCTCGCTCGGAATCGTATTACAACGGCATCTCAACCAATCTGTAATAATGACTGACGATCTGCCTCGCGCGTTTCGGTGATGACGGTGAAAACCTCTGACACATGCAGCTCCCGGAGACGGTCACAGCTTGTCTGTAAGCGGATGCCGGGAGCAGACAAGCCCGTCAGGGCGCGTCAGCGGGTGTTGGCGGGTGTCGGGGCGCAGCCATGACCCAGTCACGTAGCGATAGCGGAGTGTATAATTCTTGAAGACGAAAGGGCCTCGTGATACGCCTATTTTTATAGGTTAATGTCATGATAATAATGGTTTCTTAGACGTCAGGTGGCACTTTTCGGGGAAATGTGCGCGGAACCCCTATTTGTTTATTTTTCTAAATACATTCAAATATGTATCCGCTCATGAGACAATAACCCTGATAAATGCTTCAATAATATTGAAAAAGGAAGAGTATGAGTATTCAACATTTCCGTGTCGCCCTTATTCCCTTTTTTGCGGCATTTTGCCTTCCTGTTTTTGCTCACCCAGAAACGCTGGTGAAAGTAAAAGATGCTGAAGATCAGTTGGGTGCACGAGTGGGTTACATCGAACTGGATCTCAACAGCGGTAAGATCCTTGAGAGTTTTCGCCCCGAAGAACGTTTTCCAATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTATTATCCCGTGTTGACGCCGGGCAAGAGCAACTCGGTCGCCGCATACACTATTCTCAGAATGACTTGGTTGAGTACTCACCAGTCACAGAAAAGCATCTTACGGATGGCATGACAGTAAGAGAATTATGCAGTGCTGCCATAACCATGAGTGATAACACTGCGGCCAACTTACTTCTGACAACGATCGGAGGACCGAAGGAGCTAACCGCTTTTTTGCACAACATGGGGGATCATGTAACTCGCCTTGATCGTTGGGAACCGGAGCTGAATGAAGCCATACCAAACGACGAGCGTGACACCACGATGCCTGCAGCAATGGCAACAACGTTGCGCAAACTATTAACTGGCGAACTACTTACTCTAGCTTCCCGGCAACAATTAATAGACTGGATGGAGGCGGATAAAGTTGCAGGACCACTTCTGCGCTCGGCCCTTCCGGCTGGCTGGTTTATTGCTGATAAATCTGGAGCCGGTGAGCGTGGGTCTCGCGGTATCATTGCAGCACTGGGGCCAGATGGTAAGCCCTCCCGTATCGTAGTTATCTACACGACGGGGAGTCAGGCAACTATGGATGAACGAAATAGACAGATCGCTGAGATAGGTGCCTCACTGATTAAGCATTGGTAACTGTCAGACCAAGTTTACTCATATATACTTTAGATTGATTTAAAACTTCATTTTTAATTTAAAAGGATCTAGGTGAAGATCCTTTTTGATAATCTCATGACCAAAATCCCTTAACGTGAGTTTTCGTTCCACTGAGCGTCAGACCCCGTAGAAAAGATCAAAGGATCTTCTTGAGATCCTTTTTTTCTGCGCGTAATCTGCTGCTTGCAAACAAAAAAACCACCGCTACCAGCGGTGGTTTGTTTGCCGGATCAAGAGCTACCAACTCTTTTTCCGAAGGTAACTGGCTTCAGCAGAGCGCAGATACCAAATACTGTCCTTCTAGTGTAGCCGTAGTTAGGCCACCACTTCAAGAACTCTGTAGCACCGCCTACATACCTCGCTCTGCTAATCCTGTTACCAGTGGCTGCTGCCAGTGGCGATAAGTCGTGTCTTACCGGGTTGGACTCAAGACGATAGTTACCGGATAAGGCGCAGCGGTCGGGCTGAACGGGGGGTTCGTGCACACAGCCCAGCTTGGAGCGAACGACCTACACCGAACTGAGATACCTACAGCGTGAGCTATGAGAAAGCGCCACGCTTCCCGAAGGGAGAAAGGCGGACAGGTATCCGGTAAGCGGCAGGGTCGGAACAGGAGAGCGCACGAGGGAGCTTCCAGGGGGAAACGCCTGGTATCTTTATAGTCCTGTCGGGTTTCGCCACCTCTGACTTGAGCGTCGATTTTTGTGATGCTCGTCAGGGGGGCGGAGCCTATGGAAAAACGCCAGCAACGCGGCCTTTTTACGGTTCCTGGCCTTTTGCTGGCCTTTTGCTCACATGTTCTTTCCTGCGTTATCCCCGAGCTCTTAGCGCGAATTGTCGAGGGAAATTTTTTCTAAATACATTCAAATATGTATCCGCTCATGAGACAATAACCCTGATAAATGCTTCAATAATATTAAATATGGCTGGTTCTCGCAGAAAGAAACATATCCATGAAATCCCGCCCCGAATTGATATGTCCAGATTAGATAAAAGTAAAGTGATTAACAGCGCATTAGAGCTGCTTAATGAGGTCGGAATCGAAGGTTTAACAACCCGTAAACTCGCCCAGAAGCTAGGTGTAGAGCAGCCTACATTGTATTGGCATGTAAAAAATAAGCGGGCTTTGCTCGACGCCTTAGCCATTGAGATGTTAGATAGGCACCATACTCACTTTTGCCCTTTAGAAGGGGAAAGCTGGCAAGATTTTTTACGTAATAACGCTAAAAGTTTTAGATGTGCTTTACTAAGTCATCGCGATGGAGCAAAAGTACATTTAGGTACACGGCCTACAGAAAAACAGTATGAAACTCTCGAAAATCAATTAGCCTTTTTATGCCAACAAGGTTTTTCACTAGAGAATGCATTATATGCACTCAGCGCTGTGGGGCATTTTACTTTAGGTTGCGTATTGGAAGATCAAGAGCATCAAGTCGCTAAAGAAGAAAGGGAAACACCTACTACTGATAGTATGCCGCCATTATTACGACAAGCTATCGAATTATTTGATCACCAAGGTGCAGAGCCAGCCTTCTTATTCGGCCTTGAATTGATCATTTGCGGATTAGAAAAACAACTTAAATGTGAAAGTGGGTCTTAAGCACTAGGTCTAGGGCGGCGGATTTGTCCTACTCAGGAGAGCGTTCACCGACAAACAACAGATAAAACGAAAGGCCCAGTCTTTCGACTGAGCCTTTCGTTTTATTTGATGCCTCTAGCACGCGTAGAGCTAGAGCCTTCAACCCAGTCAGCTCCTTCCGGTGGGCGCGGGGCATGACTAACATGAGAATTACAACTTATATCGTATGGGGCTGACTTCAGGTGCTACATTTGAAGAGATAAATTGCACTGAAATCTAGATGATTCTGTGGATAACCGTATTACCGCCTTTGAGTGAGCTGATACCGCTCGCCGCAGCCGAACGACCGAGCGCAGCGAGTCAGTGAGCGAGGAAGCGGAAGAGCGCCTGATGCGGTATTTTCTCCTTACGCATCTGTGCGGTATTTCACACCGCATAAATTCCGACACCATCGAATGGTGCAAAACCTTTCGCGGTATGGCATGATAGCGCCCGGAAGAGAGTCAATTCAGGGTGGTGAATGTGAAACCAGTAACGTTATACGATGTCGCAGAGTATGCCGGTGTCTCTTATCAGACCGTTTCCCGCGTGGTGAACCAGGCCAGCCACGTTTCTGCGAAAACGCGGGAAAAAGTGGAAGCGGCGATGGCGGAGCTGAATTACATTCCCAACCGCGTGGCACAACAACTGGCGGGCAAACAGTCGTTGCTGATTGGCGTTGCCACCTCCAGTCTGGCCCTGCACGCGCCGTCGCAAATTGTCGCGGCGATTAAATCTCGCGCCGATCAACTGGGTGCCAGCGTGGTGGTGTCGATGGTAGAACGAAGCGGCGTCGAAGCCTGTAAAGCGGCGGTGCACAATCTTCTCGCGCAACGCGTCAGTGGGCTGATCATTAACTATCCGCTGGATGACCAGGATGCCATTGCTGTGGAAGCTGCCTGCACTAATGTTCCGGCGTTATTTCTTGATGTCTCTGACCAGACACCCATCAACAGTATTATTTTCTCCCATGAAGACGGTACGCGACTGGGCGTGGAGCATCTGGTCGCATTGGGTCACCAGCAAATCGCGCTGTTAGCGGGCCCATTAAGTTCTGTCTCGGCGCGTCTGCGTCTGGCTGGCTGGCATAAATATCTCACTCGCAATCAAATTCAGCCGATAGCGGAACGGGAAGGCGACTGGAGTGCCATGTCCGGTTTTCAACAAACCATGCAAATGCTGAATGAGGGCATCGTTCCCACTGCGATGCTGGTTGCCAACGATCAGATGGCGCTGGGCGCAATGCGCGCCATTACCGAGTCCGGGCTGCGCGTTGGTGCGGATATCTCGGTAGTGGGATACGACGATACCGAAGACAGCTCATGTTATATCCCGCCGTTAACCACCATCAAACAGGATTTTCGCCTGCTGGGGCAAACCAGCGTGGACCGCTTGCTGCAACTCTCTCAGGGCCAGGCGGTGAAGGGCAATCAGCTGTTGCCCGTCTCACTGGTGAAAAGAAAAACCACCCTGGCGCCCAATACGCAAACCGCCTCTCCCCGCGCGTTGGCCGATTCATTAATGCAGCTGGCACGACAGGTTTCCCGACTGGAAAGCGGGCAGTGAGCGCAACGCAAT
SEQ ID NO:2。用于sfGFP和tRNAPyl表达的p[sfGFP(gg)151;tRNAPyl(gg)]GG目的质粒的序列(3101bp)
TAACTAGCATAACCCCTTGGGGCCTCTAAACGGGTCTTGAGGGGTTTTTTGCTGAAAGGAGGAACTATATCCGGATTGGTTAATACGACTCACTATAGGGGAATTGTGAGCGGATAACAATTCCCCTCTAGAAAAGCATTGGAAACCGAGACCGGTACCGGTCTCTTAGATTCCCGGGGTTTCCGCCAAATTCGAAAAGCCTGCTCAACGAGCAGGCTTTTTTGCATCTAGCATAACCCCTTGGGGCCTCTAAACGGGTCTTGAGGGGTTTTTTGCCTGAACGAGCAGGCTTTTTTGCATAAGCTTCCTAGTGGCAGCGGCTAACTAAGCGGCCTGCTGACTTTCTCGCCGATCAAAAGGCATTTTGCTATTAAGGGATTGACGAGGGCGTATCTGCGCAGTAAGATGCGCCCCGCATTGGAGACGCCATGGCGTCTCGGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTAATTCGAAAAGCCTGCTCAACGAGCAGGCTTTTTTGGTCGACAGTAGTGGCAGCGGCTAACTAAGCGGCCTGCTGACTTTCTCGCCGATCAAAAGGCATTTTGCTATTAAGGGATTGACGAGGGCGTATCTGCGCAGTAAGATGCGCCCCGCATGAGACGGCATGCCGTCTCTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTAATTCGAAAAGCCTGCTCAACGAGCAGGCTTTTTTGGTCGACAGTTCATAGGTGATTGCGGATCCCGTCGTTGACAATTAATCATCGGCATAGTATATCGGCATAGTATAATACGACAAGGTGAGGAACTAAACCATGGCCAAGTTGACCAGTGCCGTTCCGGTGCTCACCGCGCGCGACGTCGCCGGAGCGGTCGAGTTCTGGACCGACCGGCTCGGGTTCTCCCGCGACTTCGTGGAGGACGACTTCGCCGGTGTGGTCCGGGACGACGTGACCCTGTTCATCAGCGCGGTCCAGGACCAGGTGGTGCCGGACAACACCCTGGCCTGGGTGTGGGTGCGCGGCCTGGACGAGCTGTACGCCGAGTGGTCGGAGGTCGTGTCCACGAACTTCCGGGACGCCTCCGGGCCGGCCATGACCGAGATCGGCGAGCAGCCGTGGGGGCGGGAGTTCGCCCTGCGCGACCCGGCCGGCAACTGCGTGCACTTCGTGGCCGAGGAGCAGGACTGAGAGCTCGCTTGGACTCCTGTTGATAGATCCAGTAATGACCTCAGAACTCCATCTGGATTTGTTCAGAACGCTCGGTTGCCGCCGGGCGTTTTTTATTGGTGAGAATCCAAGCACTAGCTAGTAACAACTTATATCGTATGGGGCTGACTTCAGGTGCTACATTTGAAGAGATAAATTGCACTGAAATCTAGTAATATTTTATCTGATTAATAAGATGATCTTCTTGAGATCGTTTTGGTCTGCGCGTAATCTCTTGCTCTGAAAACGAAAAAACCGCCTTGCAGGGCGGTTTTTCGAAGGTTCTCTGAGCTACCAACTCTTTGAACCGAGGTAACTGGCTTGGAGGAGCGCAGTCACCAAAACTTGTCCTTTCAGTTTAGCCTTAACCGGCGCATGACTTCAAGACTAACTCCTCTAAATCAATTACCAGTGGCTGCTGCCAGTGGTGCTTTTGCATGTCTTTCCGGGTTGGACTCAAGACGATAGTTACCGGATAAGGCGCAGCGGTCGGACTGAACGGGGGGTTCGTGCATACAGTCCAGCTTGGAGCGAACTGCCTACCCGGAACTGAGTGTCAGGCGTGGAATGAGACAAACGCGGCCATAACAGCGGAATGACACCGGTAAACCGAAAGGCAGGAACAGGAGAGCGCACGAGGGAGCCGCCAGGGGGAAACGCCTGGTATCTTTATAGTCCTGTCGGGTTTCGCCACCACTGATTTGAGCGTCAGATTTCGTGATGCTTGTCAGGGGGGCGGAGCCTATGGAAAAACGGCTTTGCCGCGGCCCTCTCACTTCCCTGTTAAGTATCTTCCTGGCATCTTCCAGGAAATCTCCGCCCCGTTCGTAAGCCATTTCCGCTCGCCGCAGTCGAACGACCGAGCGTAGCGAGTCAGTGAGCGAGGAAGCGGAATATATCCCTTAATACGACTCACTATAGGGTCCCTATCAGTGATAGAGAGGTCTAGAAATAATTTTGTTTAACTTTAAGAAGGAGATATACATATGTCGAAAGGCGAAGAACTGTTTACGGGAGTGGTGCCTATCCTGGTAGAGCTCGACGGAGATGTAAACGGTCACAAATTTTCAGTCCGCGGGGAAGGCGAAGGCGATGCGACCAACGGTAAATTAACTTTGAAGTTTATTTGCACCACCGGCAAATTACCGGTGCCTTGGCCGACGCTTGTGACGACCCTGACTTACGGGGTGCAGTGTTTCAGTCGCTACCCAGATCACATGAAACGCCATGACTTCTTCAAATCTGCGATGCCGGAAGGCTATGTGCAGGAACGTACAATTAGCTTTAAAGACGACGGCACGTATAAAACGCGGGCAGAGGTTAAATTTGAGGGAGATACCCTGGTAAACCGTATTGAACTGAAAGGCATCGATTTTAAAGAAGATGGGAACATCTTGGGCCACAAGAGACCGGTACCGGTCTCGGAATCAAAGCAAATTTCAAGATCCGTCATAACGTGGAGGACGGTTCCGTGCAGCTTGCAGATCACTATCAGCAGAATACGCCGATTGGCGATGGCCCGGTGCTGCTGCCCGATAATCACTACCTCTCTACTCAGAGTGTTTTATCGAAAGACCCGAACGAGAAGCGTGATCACATGGTGCTGCTTGAATTTGTTACCGCGGCAGGTATTACACACGGCATGGATGAGTTGTATAAGGGATCCGCTTGGAGCCACCCGCAGTTCGAGAAAGGTGGAGGTTCCGGAGGTGGATCGGGAGGTTCGGCGTGGAGCCACCCGCAGTTCGAAAAATAAAAGCTTAATTAGCTGAGCTTGGACTCCCTGCCACCGCTGAGCAA
序列表
<110> 斯克利普斯研究所
<120> 用于在半合成生物体中复制、转录和翻译的试剂和方法
<130> 36271-808.601
<140>
<141>
<150> 62/861,901
<151> 2019-06-14
<160> 20
<170> PatentIn 3.5版
<210> 1
<211> 5923
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
多核苷酸
<400> 1
gtaaatcact gcataattcg tgtcgctcaa ggcgcactcc cgttctggat aatgtttttt 60
gcgccgacat cataacggtt ctggcaaata ttctgaaatg agctgttgac aattaatcat 120
cggctcgtat aatgtgtgga attgtgagcg gataacaatt tcacacagga aacagtattc 180
atggataaaa aaccgctgga cgttctgatc tccgctacgg gtctgtggat gagccgcacg 240
ggtacgctgc ataaaattaa acaccacgaa gtgtcacgtt cgaaaatcta tatcgaaatg 300
gcgtgcggtg atcatctggt ggttaacaat agccgttctt gtcgcaccgc gcgtgccttt 360
cgccatcaca aataccgcaa aacgtgcaaa cgttgtcgcg tgtcagatga agacattaac 420
aatttcctga cccgtagtac ggaatccaaa aactcagtga aagttcgcgt cgtgagtgct 480
ccgaaagtta aaaaagcgat gccgaaaagt gtctcccgtg ccccgaaacc gctggaaaac 540
tcagtgtcgg caaaagcttc caccaatacg agccgctctg ttccgtcgcc ggcaaaaagc 600
accccgaaca gctctgtccc ggcaagcgca ccggcaccgt ctctgacgcg tagtcagctg 660
gatcgcgtgg aagccctgct gtccccggaa gacaaaatct cactgaatat ggcaaaaccg 720
tttcgtgaac tggaaccgga actggttacc cgtcgcaaaa acgatttcca acgtctgtat 780
acgaatgatc gcgaagacta cctgggtaaa ctggaacgtg atatcaccaa atttttcgtg 840
gaccgcggct ttctggaaat caaatctccg attctgatcc cggctgaata tgttgaacgc 900
atgggtatta acaatgatac cgaactgagt aaacagattt ttcgtgtgga taaaaacctg 960
tgcctgcggc cgatgctggc accgacgctg tataattacc tgcgtaaact ggatcgcatt 1020
ctgccgggtc cgattaaaat ctttgaagtg ggcccgtgtt atcgtaaaga atcggatggc 1080
aaagaacacc tggaagaatt taccatggtt aacttctgcc aaatgggcag cggttgtacg 1140
cgcgaaaatc tggaagcgct gatcaaagaa ttcctggatt acctggaaat cgacttcgaa 1200
atcgtcggtg attcttgcat ggtgtatggc gataccctgg acatcatgca tggtgacctg 1260
gaactgagtt ccgctgttgt cggtccggtc agcctggatc gtgaatgggg cattgacaaa 1320
ccgtggatcg gcgcgggttt tggcctggaa cgcctgctga aagttatgca cggcttcaaa 1380
aacatcaaac gtgcgtctcg ctcggaatcg tattacaacg gcatctcaac caatctgtaa 1440
taatgactga cgatctgcct cgcgcgtttc ggtgatgacg gtgaaaacct ctgacacatg 1500
cagctcccgg agacggtcac agcttgtctg taagcggatg ccgggagcag acaagcccgt 1560
cagggcgcgt cagcgggtgt tggcgggtgt cggggcgcag ccatgaccca gtcacgtagc 1620
gatagcggag tgtataattc ttgaagacga aagggcctcg tgatacgcct atttttatag 1680
gttaatgtca tgataataat ggtttcttag acgtcaggtg gcacttttcg gggaaatgtg 1740
cgcggaaccc ctatttgttt atttttctaa atacattcaa atatgtatcc gctcatgaga 1800
caataaccct gataaatgct tcaataatat tgaaaaagga agagtatgag tattcaacat 1860
ttccgtgtcg cccttattcc cttttttgcg gcattttgcc ttcctgtttt tgctcaccca 1920
gaaacgctgg tgaaagtaaa agatgctgaa gatcagttgg gtgcacgagt gggttacatc 1980
gaactggatc tcaacagcgg taagatcctt gagagttttc gccccgaaga acgttttcca 2040
atgatgagca cttttaaagt tctgctatgt ggcgcggtat tatcccgtgt tgacgccggg 2100
caagagcaac tcggtcgccg catacactat tctcagaatg acttggttga gtactcacca 2160
gtcacagaaa agcatcttac ggatggcatg acagtaagag aattatgcag tgctgccata 2220
accatgagtg ataacactgc ggccaactta cttctgacaa cgatcggagg accgaaggag 2280
ctaaccgctt ttttgcacaa catgggggat catgtaactc gccttgatcg ttgggaaccg 2340
gagctgaatg aagccatacc aaacgacgag cgtgacacca cgatgcctgc agcaatggca 2400
acaacgttgc gcaaactatt aactggcgaa ctacttactc tagcttcccg gcaacaatta 2460
atagactgga tggaggcgga taaagttgca ggaccacttc tgcgctcggc ccttccggct 2520
ggctggttta ttgctgataa atctggagcc ggtgagcgtg ggtctcgcgg tatcattgca 2580
gcactggggc cagatggtaa gccctcccgt atcgtagtta tctacacgac ggggagtcag 2640
gcaactatgg atgaacgaaa tagacagatc gctgagatag gtgcctcact gattaagcat 2700
tggtaactgt cagaccaagt ttactcatat atactttaga ttgatttaaa acttcatttt 2760
taatttaaaa ggatctaggt gaagatcctt tttgataatc tcatgaccaa aatcccttaa 2820
cgtgagtttt cgttccactg agcgtcagac cccgtagaaa agatcaaagg atcttcttga 2880
gatccttttt ttctgcgcgt aatctgctgc ttgcaaacaa aaaaaccacc gctaccagcg 2940
gtggtttgtt tgccggatca agagctacca actctttttc cgaaggtaac tggcttcagc 3000
agagcgcaga taccaaatac tgtccttcta gtgtagccgt agttaggcca ccacttcaag 3060
aactctgtag caccgcctac atacctcgct ctgctaatcc tgttaccagt ggctgctgcc 3120
agtggcgata agtcgtgtct taccgggttg gactcaagac gatagttacc ggataaggcg 3180
cagcggtcgg gctgaacggg gggttcgtgc acacagccca gcttggagcg aacgacctac 3240
accgaactga gatacctaca gcgtgagcta tgagaaagcg ccacgcttcc cgaagggaga 3300
aaggcggaca ggtatccggt aagcggcagg gtcggaacag gagagcgcac gagggagctt 3360
ccagggggaa acgcctggta tctttatagt cctgtcgggt ttcgccacct ctgacttgag 3420
cgtcgatttt tgtgatgctc gtcagggggg cggagcctat ggaaaaacgc cagcaacgcg 3480
gcctttttac ggttcctggc cttttgctgg ccttttgctc acatgttctt tcctgcgtta 3540
tccccgagct cttagcgcga attgtcgagg gaaatttttt ctaaatacat tcaaatatgt 3600
atccgctcat gagacaataa ccctgataaa tgcttcaata atattaaata tggctggttc 3660
tcgcagaaag aaacatatcc atgaaatccc gccccgaatt gatatgtcca gattagataa 3720
aagtaaagtg attaacagcg cattagagct gcttaatgag gtcggaatcg aaggtttaac 3780
aacccgtaaa ctcgcccaga agctaggtgt agagcagcct acattgtatt ggcatgtaaa 3840
aaataagcgg gctttgctcg acgccttagc cattgagatg ttagataggc accatactca 3900
cttttgccct ttagaagggg aaagctggca agatttttta cgtaataacg ctaaaagttt 3960
tagatgtgct ttactaagtc atcgcgatgg agcaaaagta catttaggta cacggcctac 4020
agaaaaacag tatgaaactc tcgaaaatca attagccttt ttatgccaac aaggtttttc 4080
actagagaat gcattatatg cactcagcgc tgtggggcat tttactttag gttgcgtatt 4140
ggaagatcaa gagcatcaag tcgctaaaga agaaagggaa acacctacta ctgatagtat 4200
gccgccatta ttacgacaag ctatcgaatt atttgatcac caaggtgcag agccagcctt 4260
cttattcggc cttgaattga tcatttgcgg attagaaaaa caacttaaat gtgaaagtgg 4320
gtcttaagca ctaggtctag ggcggcggat ttgtcctact caggagagcg ttcaccgaca 4380
aacaacagat aaaacgaaag gcccagtctt tcgactgagc ctttcgtttt atttgatgcc 4440
tctagcacgc gtagagctag agccttcaac ccagtcagct ccttccggtg ggcgcggggc 4500
atgactaaca tgagaattac aacttatatc gtatggggct gacttcaggt gctacatttg 4560
aagagataaa ttgcactgaa atctagatga ttctgtggat aaccgtatta ccgcctttga 4620
gtgagctgat accgctcgcc gcagccgaac gaccgagcgc agcgagtcag tgagcgagga 4680
agcggaagag cgcctgatgc ggtattttct ccttacgcat ctgtgcggta tttcacaccg 4740
cataaattcc gacaccatcg aatggtgcaa aacctttcgc ggtatggcat gatagcgccc 4800
ggaagagagt caattcaggg tggtgaatgt gaaaccagta acgttatacg atgtcgcaga 4860
gtatgccggt gtctcttatc agaccgtttc ccgcgtggtg aaccaggcca gccacgtttc 4920
tgcgaaaacg cgggaaaaag tggaagcggc gatggcggag ctgaattaca ttcccaaccg 4980
cgtggcacaa caactggcgg gcaaacagtc gttgctgatt ggcgttgcca cctccagtct 5040
ggccctgcac gcgccgtcgc aaattgtcgc ggcgattaaa tctcgcgccg atcaactggg 5100
tgccagcgtg gtggtgtcga tggtagaacg aagcggcgtc gaagcctgta aagcggcggt 5160
gcacaatctt ctcgcgcaac gcgtcagtgg gctgatcatt aactatccgc tggatgacca 5220
ggatgccatt gctgtggaag ctgcctgcac taatgttccg gcgttatttc ttgatgtctc 5280
tgaccagaca cccatcaaca gtattatttt ctcccatgaa gacggtacgc gactgggcgt 5340
ggagcatctg gtcgcattgg gtcaccagca aatcgcgctg ttagcgggcc cattaagttc 5400
tgtctcggcg cgtctgcgtc tggctggctg gcataaatat ctcactcgca atcaaattca 5460
gccgatagcg gaacgggaag gcgactggag tgccatgtcc ggttttcaac aaaccatgca 5520
aatgctgaat gagggcatcg ttcccactgc gatgctggtt gccaacgatc agatggcgct 5580
gggcgcaatg cgcgccatta ccgagtccgg gctgcgcgtt ggtgcggata tctcggtagt 5640
gggatacgac gataccgaag acagctcatg ttatatcccg ccgttaacca ccatcaaaca 5700
ggattttcgc ctgctggggc aaaccagcgt ggaccgcttg ctgcaactct ctcagggcca 5760
ggcggtgaag ggcaatcagc tgttgcccgt ctcactggtg aaaagaaaaa ccaccctggc 5820
gcccaatacg caaaccgcct ctccccgcgc gttggccgat tcattaatgc agctggcacg 5880
acaggtttcc cgactggaaa gcgggcagtg agcgcaacgc aat 5923
<210> 2
<211> 3101
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
多核苷酸
<400> 2
taactagcat aaccccttgg ggcctctaaa cgggtcttga ggggtttttt gctgaaagga 60
ggaactatat ccggattggt taatacgact cactataggg gaattgtgag cggataacaa 120
ttcccctcta gaaaagcatt ggaaaccgag accggtaccg gtctcttaga ttcccggggt 180
ttccgccaaa ttcgaaaagc ctgctcaacg agcaggcttt tttgcatcta gcataacccc 240
ttggggcctc taaacgggtc ttgaggggtt ttttgcctga acgagcaggc ttttttgcat 300
aagcttccta gtggcagcgg ctaactaagc ggcctgctga ctttctcgcc gatcaaaagg 360
cattttgcta ttaagggatt gacgagggcg tatctgcgca gtaagatgcg ccccgcattg 420
gagacgccat ggcgtctcgg ttttagagct agaaatagca agttaaaata aggctagtcc 480
gttatcaact tgaaaaagtg gcaccgagtc ggtgcttttt ttaattcgaa aagcctgctc 540
aacgagcagg cttttttggt cgacagtagt ggcagcggct aactaagcgg cctgctgact 600
ttctcgccga tcaaaaggca ttttgctatt aagggattga cgagggcgta tctgcgcagt 660
aagatgcgcc ccgcatgaga cggcatgccg tctctagagc tagaaatagc aagttaaaat 720
aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt tttaattcga 780
aaagcctgct caacgagcag gcttttttgg tcgacagttc ataggtgatt gcggatcccg 840
tcgttgacaa ttaatcatcg gcatagtata tcggcatagt ataatacgac aaggtgagga 900
actaaaccat ggccaagttg accagtgccg ttccggtgct caccgcgcgc gacgtcgccg 960
gagcggtcga gttctggacc gaccggctcg ggttctcccg cgacttcgtg gaggacgact 1020
tcgccggtgt ggtccgggac gacgtgaccc tgttcatcag cgcggtccag gaccaggtgg 1080
tgccggacaa caccctggcc tgggtgtggg tgcgcggcct ggacgagctg tacgccgagt 1140
ggtcggaggt cgtgtccacg aacttccggg acgcctccgg gccggccatg accgagatcg 1200
gcgagcagcc gtgggggcgg gagttcgccc tgcgcgaccc ggccggcaac tgcgtgcact 1260
tcgtggccga ggagcaggac tgagagctcg cttggactcc tgttgataga tccagtaatg 1320
acctcagaac tccatctgga tttgttcaga acgctcggtt gccgccgggc gttttttatt 1380
ggtgagaatc caagcactag ctagtaacaa cttatatcgt atggggctga cttcaggtgc 1440
tacatttgaa gagataaatt gcactgaaat ctagtaatat tttatctgat taataagatg 1500
atcttcttga gatcgttttg gtctgcgcgt aatctcttgc tctgaaaacg aaaaaaccgc 1560
cttgcagggc ggtttttcga aggttctctg agctaccaac tctttgaacc gaggtaactg 1620
gcttggagga gcgcagtcac caaaacttgt cctttcagtt tagccttaac cggcgcatga 1680
cttcaagact aactcctcta aatcaattac cagtggctgc tgccagtggt gcttttgcat 1740
gtctttccgg gttggactca agacgatagt taccggataa ggcgcagcgg tcggactgaa 1800
cggggggttc gtgcatacag tccagcttgg agcgaactgc ctacccggaa ctgagtgtca 1860
ggcgtggaat gagacaaacg cggccataac agcggaatga caccggtaaa ccgaaaggca 1920
ggaacaggag agcgcacgag ggagccgcca gggggaaacg cctggtatct ttatagtcct 1980
gtcgggtttc gccaccactg atttgagcgt cagatttcgt gatgcttgtc aggggggcgg 2040
agcctatgga aaaacggctt tgccgcggcc ctctcacttc cctgttaagt atcttcctgg 2100
catcttccag gaaatctccg ccccgttcgt aagccatttc cgctcgccgc agtcgaacga 2160
ccgagcgtag cgagtcagtg agcgaggaag cggaatatat cccttaatac gactcactat 2220
agggtcccta tcagtgatag agaggtctag aaataatttt gtttaacttt aagaaggaga 2280
tatacatatg tcgaaaggcg aagaactgtt tacgggagtg gtgcctatcc tggtagagct 2340
cgacggagat gtaaacggtc acaaattttc agtccgcggg gaaggcgaag gcgatgcgac 2400
caacggtaaa ttaactttga agtttatttg caccaccggc aaattaccgg tgccttggcc 2460
gacgcttgtg acgaccctga cttacggggt gcagtgtttc agtcgctacc cagatcacat 2520
gaaacgccat gacttcttca aatctgcgat gccggaaggc tatgtgcagg aacgtacaat 2580
tagctttaaa gacgacggca cgtataaaac gcgggcagag gttaaatttg agggagatac 2640
cctggtaaac cgtattgaac tgaaaggcat cgattttaaa gaagatggga acatcttggg 2700
ccacaagaga ccggtaccgg tctcggaatc aaagcaaatt tcaagatccg tcataacgtg 2760
gaggacggtt ccgtgcagct tgcagatcac tatcagcaga atacgccgat tggcgatggc 2820
ccggtgctgc tgcccgataa tcactacctc tctactcaga gtgttttatc gaaagacccg 2880
aacgagaagc gtgatcacat ggtgctgctt gaatttgtta ccgcggcagg tattacacac 2940
ggcatggatg agttgtataa gggatccgct tggagccacc cgcagttcga gaaaggtgga 3000
ggttccggag gtggatcggg aggttcggcg tggagccacc cgcagttcga aaaataaaag 3060
cttaattagc tgagcttgga ctccctgcca ccgctgagca a 3101
<210> 3
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
寡核苷酸
<400> 3
ctcgagtaca actttaactc acacaatgta tagatcacgg cagacaaaca aaagaatgga 60
atc 63
<210> 4
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
寡核苷酸
<400> 4
ctcgagtaca actttaactc acacaatgta tacatcacgg cagacaaaca aaagaatgga 60
atc 63
<210> 5
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
寡核苷酸
<220>
<221> 修饰的碱基
<222> (32)..(32)
<223> 非天然核苷酸
<400> 5
ctcgagtaca actttaactc acacaatgta ancatcacgg cagacaaaca aaagaatgga 60
atc 63
<210> 6
<211> 52
<212> DNA
<213> 马氏甲烷八叠球菌(Methanosarcina mazei)
<400> 6
gaatctaacc cggctgaacg gatttagagt ccgttcgatc tacatgatca gg 52
<210> 7
<211> 52
<212> DNA
<213> 马氏甲烷八叠球菌(Methanosarcina mazei)
<400> 7
gaatctaacc cggctgaacg gatttacagt ccgttcgatc tacatgatca gg 52
<210> 8
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
寡核苷酸
<220>
<221> 修饰的碱基
<222> (26)..(26)
<223> 非天然核苷酸
<400> 8
gaatctaacc cggctgaacg gattancagt ccgttcgatc tacatgatca gg 52
<210> 9
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
寡核苷酸
<220>
<221> 修饰的碱基
<222> (26)..(26)
<223> 非天然核苷酸
<400> 9
ctcgagtaca actttaactc acacancgta tacatcacgg cagacaaaca aaagaatgga 60
atc 63
<210> 10
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
寡核苷酸
<220>
<221> 修饰的碱基
<222> (38)..(38)
<223> 非天然核苷酸
<400> 10
ctcgagtaca actttaactc acacaatgta tacatcancg cagacaaaca aaagaatgga 60
atc 63
<210> 11
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
寡核苷酸
<220>
<221> 修饰的碱基
<222> (26)..(26)
<223> 非天然核苷酸
<220>
<221> 修饰的碱基
<222> (32)..(32)
<223> 非天然核苷酸
<400> 11
ctcgagtaca actttaactc acacancgta ancatcacgg cagacaaaca aaagaatgga 60
atc 63
<210> 12
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
寡核苷酸
<220>
<221> 修饰的碱基
<222> (32)..(32)
<223> 非天然核苷酸
<220>
<221> 修饰的碱基
<222> (38)..(38)
<223> 非天然核苷酸
<400> 12
ctcgagtaca actttaactc acacaatgta ancatcancg cagacaaaca aaagaatgga 60
atc 63
<210> 13
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
寡核苷酸
<220>
<221> 修饰的碱基
<222> (26)..(26)
<223> 非天然核苷酸
<220>
<221> 修饰的碱基
<222> (38)..(38)
<223> 非天然核苷酸
<400> 13
ctcgagtaca actttaactc acacancgta tacatcancg cagacaaaca aaagaatgga 60
atc 63
<210> 14
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
寡核苷酸
<220>
<221> 修饰的碱基
<222> (26)..(26)
<223> 非天然核苷酸
<220>
<221> 修饰的碱基
<222> (32)..(32)
<223> 非天然核苷酸
<220>
<221> 修饰的碱基
<222> (38)..(38)
<223> 非天然核苷酸
<400> 14
ctcgagtaca actttaactc acacancgta ancatcancg cagacaaaca aaagaatgga 60
atc 63
<210> 15
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
引物
<400> 15
atgggtctca cacaaactcg agtacaactt taactcacac 40
<210> 16
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
引物
<400> 16
atgggtctcg attccattct tttgtttgtc tgc 33
<210> 17
<211> 35
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
引物
<400> 17
atgggtctcg aaacctgatc atgtagatcg aacgg 35
<210> 18
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
引物
<400> 18
atgggtctca tctaacccgg ctgaacgg 28
<210> 19
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
引物
<400> 19
ctcgagtaca actttaactc acac 24
<210> 20
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成
引物
<400> 20
gattccattc ttttgtttgt ctgc 24

Claims (102)

1.一种具有以下结构的核碱基:
Figure FDA0003498995350000011
其中:
每个X独立地是碳或氮;
当X是碳时,R2是存在的且独立地是氢、烷基、烯基、炔基、甲氧基、甲硫醇、甲烷硒基、卤素、氰基或叠氮基;
Y是硫、氧、硒或仲胺;以及
E是氧、硫或硒;
其中波浪线指示与核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物的键合点,其中所述核糖基、脱氧核糖基或二脱氧核糖基部分或其类似物是游离形式,连接至单磷酸酯、二磷酸酯、三磷酸酯、α-硫代三磷酸酯、β-硫代三磷酸酯或γ-硫代三磷酸酯基团,或包含在RNA或DNA中或者RNA类似物或DNA类似物中。
2.根据权利要求1所述的核碱基,其中X是碳。
3.根据权利要求1或2所述的核碱基,其中E是硫。
4.根据权利要求1至3中任一项所述的核碱基,其中Y是硫。
5.根据权利要求1所述的核碱基,所述核碱基具有结构
Figure FDA0003498995350000012
6.根据权利要求1至5中任一项所述的核碱基,所述核碱基与互补碱基配对核碱基结合以形成非天然碱基对(UBP)。
7.根据权利要求6所述的核碱基,其中所述互补碱基配对核碱基选自:
Figure FDA0003498995350000013
8.一种双链寡核苷酸双链体,其中第一寡核苷酸链包含根据权利要求1至5中任一项所述的核碱基,并且第二互补寡核苷酸链在其互补碱基配对位点中包含互补碱基配对核碱基。
9.根据权利要求8所述的双链寡核苷酸双链体,其中所述第一寡核苷酸链包含
Figure FDA0003498995350000021
并且所述第二链在其互补碱基配对位点中包含选自以下的互补碱基配对核碱基:
Figure FDA0003498995350000022
10.根据权利要求9所述的双链寡核苷酸双链体,其中所述第二链包含互补碱基配对核碱基
Figure FDA0003498995350000023
11.根据权利要求9所述的双链寡核苷酸双链体,其中所述第二链包含互补碱基配对核碱基
Figure FDA0003498995350000024
12.一种包含编码转移RNA(tRNA)的基因和/或编码目的蛋白质的基因的质粒,其中所述基因包含根据权利要求1至5中任一项所述的至少一种核碱基或TPT3
Figure FDA0003498995350000025
以及根据权利要求7所述的至少一种互补碱基配对核碱基或NaM
Figure FDA0003498995350000026
其中所述互补碱基配对核碱基在互补碱基配对位点中。
13.一种由根据权利要求10所述的质粒编码的mRNA,所述mRNA编码所述tRNA。
14.一种由根据权利要求10所述的质粒编码的mRNA,所述mRNA编码所述蛋白质。
15.一种包含根据权利要求1至5中任一项所述的核碱基的转移RNA(tRNA),所述转移RNA包含:
反密码子,其中所述反密码子包含所述核碱基,任选地其中所述核碱基位于所述反密码子的第一位置、第二位置或第三位置;以及
识别元件,其中所述识别元件通过氨酰tRNA合成酶促进所述tRNA选择性装载非天然氨基酸。
16.根据权利要求15所述的tRNA,其中所述氨酰tRNA合成酶源自甲烷八叠球菌属或其变体,或者甲烷球菌属(Methanocaldococcus)或其变体。
17.根据权利要求15所述的tRNA,其中所述非天然氨基酸包含芳族部分。
18.根据权利要求15所述的tRNA,其中所述非天然氨基酸是赖氨酸或苯丙氨酸衍生物。
19.一种包含下式的结构:
N1-Zx-N2
其中:
每个Z独立地是根据权利要求1至7中任一项所述的核碱基,其与核糖基或脱氧核糖基或其类似物键合;
N1是在Z的核糖基或脱氧核糖基或其类似物的5'端处附接的一个或多个核苷酸或其类似物或末端磷酸酯基团;
N2是在Z的核糖基或脱氧核糖基或其类似物的3'端附接的一个或多个核苷酸或其类似物或末端羟基基团;并且
x是从1至20的整数。
20.根据权利要求19所述的结构,其中所述结构编码基因,任选地其中Zx位于所述基因的翻译区中,或者其中Zx位于所述基因的非翻译区中。
21.一种多核苷酸文库,其中所述文库包含至少5000种独特多核苷酸,并且其中每种多核苷酸包含根据权利要求1至5中任一项所述的至少一种核碱基。
22.一种包含核碱基的核苷三磷酸,其中所述核碱基选自:
Figure FDA0003498995350000031
23.根据权利要求22所述的核苷三磷酸,其中所述核碱基是
Figure FDA0003498995350000032
24.根据权利要求22或23所述的核苷三磷酸,其中所述核苷包含核糖或脱氧核糖。
25.一种DNA,所述DNA包含具有结构
Figure FDA0003498995350000033
的核碱基和具有结构
Figure FDA0003498995350000034
的互补碱基配对核碱基。
26.一种DNA,所述DNA包含具有结构
Figure FDA0003498995350000035
的核碱基和具有结构
Figure FDA0003498995350000036
的互补碱基配对核碱基。
27.一种将DNA转录到tRNA或编码蛋白质的mRNA的方法,所述方法包括:
使包含编码所述tRNA或蛋白质的基因的DNA与核糖核苷三磷酸和RNA聚合酶接触,其中所述编码tRNA或蛋白质的基因包含与第二非天然碱基配对并与所述第二非天然碱基形成第一非天然碱基对的第一非天然碱基,并且其中所述核糖核苷三磷酸包含能够与所述第一非天然碱基形成第二非天然碱基对的第三非天然碱基,其中所述第一非天然碱基对和所述第二非天然碱基对不相同。
28.根据权利要求27所述的方法,其中所述核糖核苷三磷酸还包含第四非天然碱基,其中所述第四非天然碱基能够与所述第三非天然碱基形成第二非天然碱基对。
29.根据权利要求28所述的方法,其中所述第一非天然碱基对和所述第二非天然碱基对不相同。
30.根据权利要求27-29中任一项所述的方法,所述方法还包括在使所述DNA与所述核糖核苷三磷酸和RNA聚合酶接触之前,通过使所述DNA与脱氧核糖核苷三磷酸和DNA聚合酶接触来复制所述DNA,其中所述核糖核苷三磷酸包含能够与所述第一非天然碱基形成第五非天然碱基对的第五非天然碱基,其中所述第一非天然碱基对和所述第五非天然碱基对不相同。
31.根据权利要求27-30中任一项所述的方法,其中所述第一非天然碱基包括TPT3,所述第二非天然碱基包括CNMO或NaM,所述第三非天然碱基包括TAT1,并且所述第四非天然碱基包括NaM或5FM。
32.根据权利要求27-31中任一项所述的方法,其中所述方法包括使用半合成生物体,任选地其中所述生物体是细菌,任选地其中所述细菌是大肠杆菌。
33.根据权利要求27-32中任一项所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure FDA0003498995350000041
34.根据权利要求33所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure FDA0003498995350000042
35.根据权利要求34所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure FDA0003498995350000051
36.根据权利要求34所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure FDA0003498995350000052
37.根据权利要求34所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者是
Figure FDA0003498995350000053
38.根据权利要求34所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure FDA0003498995350000054
39.根据权利要求34-38中任一项所述的方法,其中所述第一非天然碱基或所述第二非天然碱基是
Figure FDA0003498995350000055
40.根据权利要求34-39中任一项所述的方法,其中所述第一非天然碱基或所述第二非天然碱基是
Figure FDA0003498995350000056
41.根据权利要求34-38中任一项所述的方法,其中所述第一非天然碱基是
Figure FDA0003498995350000057
并且所述第二非天然碱基是
Figure FDA0003498995350000058
或所述第一非天然碱基是
Figure FDA0003498995350000059
并且所述第二非天然碱基是
Figure FDA0003498995350000061
42.根据权利要求34-41中任一项所述的方法,其中所述第三非天然碱基或所述第四非天然碱基是
Figure FDA0003498995350000062
43.根据权利要求34-42中任一项所述的方法,其中所述第三非天然碱基或所述第四非天然碱基是
Figure FDA0003498995350000063
44.根据权利要求34-38中任一项所述的方法,其中所述第一非天然碱基是
Figure FDA0003498995350000064
所述第二非天然碱基是
Figure FDA0003498995350000065
所述第三非天然碱基是
Figure FDA0003498995350000066
并且所述第四非天然碱基是
Figure FDA0003498995350000067
45.根据权利要求34-38中任一项所述的方法,其中所述第一非天然碱基是
Figure FDA0003498995350000068
所述第二非天然碱基是
Figure FDA0003498995350000069
所述第三非天然碱基是
Figure FDA00034989953500000610
并且所述第四非天然碱基是
Figure FDA00034989953500000611
46.根据权利要求34-38中任一项所述的方法,其中所述第一非天然碱基是
Figure FDA0003498995350000071
所述第二非天然碱基是
Figure FDA0003498995350000072
所述第三非天然碱基是
Figure FDA0003498995350000073
Figure FDA0003498995350000074
并且所述第四非天然碱基是
Figure FDA0003498995350000075
47.根据权利要求34-43中任一项所述的方法,其中所述第三非天然碱基是
Figure FDA0003498995350000076
48.根据权利要求34-47中任一项所述的方法,其中所述第四非天然碱基是
Figure FDA0003498995350000077
49.根据权利要求34-38中任一项所述的方法,其中所述第一非天然碱基是
Figure FDA0003498995350000078
所述第二非天然碱基是
Figure FDA0003498995350000079
所述第三非天然碱基是
Figure FDA00034989953500000710
并且所述第四非天然碱基是
Figure FDA00034989953500000711
50.根据权利要求34-49中任一项所述的方法,其中所述DNA包含选自以下的至少一种非天然碱基对(UBP):
Figure FDA0003498995350000081
Figure FDA0003498995350000082
以及
51.根据权利要求34-50中任一项所述的方法,其中所述DNA包含选自以下的至少一种非天然碱基对(UBP):
Figure FDA0003498995350000083
Figure FDA0003498995350000084
并且
其中所述mRNA和/或所述tRNA包含至少一种选自以下的非天然碱基:
Figure FDA0003498995350000091
52.根据权利要求27-51中任一项所述的方法,其中所述第一非天然碱基包括dCNMO,并且所述第二非天然碱基包括dTPT3。
53.根据权利要求27-52中任一项所述的方法,其中所述第三非天然碱基包括NaM,并且所述第二非天然碱基包括TAT1。
54.根据权利要求27-53中任一项所述的方法,其中转录出所述mRNA,并且所述方法还包括将所述mRNA翻译为蛋白质,其中所述蛋白质在对应于包含所述第三非天然碱基的mRNA密码子的位置处包含非天然氨基酸。
55.根据权利要求27-54中任一项所述的方法,其中所述蛋白质包含至少两个非天然氨基酸。
56.根据权利要求27-54中任一项所述的方法,其中所述蛋白质包含至少三个非天然氨基酸。
57.根据权利要求27-54中任一项所述的方法,其中所述蛋白质包含至少两个不同的非天然氨基酸。
58.根据权利要求27-54中任一项所述的方法,其中所述蛋白质包含至少三个不同的非天然氨基酸。
59.根据权利要求27-58中任一项所述的方法,其中所述至少一个非天然氨基酸:
是赖氨酸类似物;
包含芳族侧链;
包含叠氮基;
包含炔基;或者
包含醛基或酮基。
60.根据权利要求27-59中任一项所述的方法,其中所述至少一个非天然氨基酸不包含芳族侧链。
61.根据权利要求59或60所述的方法,其中所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)或N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。
62.根据权利要求61所述的方法,其中所述至少一个非天然氨基酸包括N6-叠氮基乙氧基-羰基-L-赖氨酸(AzK)。
63.根据权利要求61所述的方法,其中所述至少一个非天然氨基酸包括N6-炔丙基乙氧基-羰基-L-赖氨酸(PraK)。
64.一种由根据权利要求27-63中任一项所述的方法产生的mRNA。
65.一种由根据权利要求27-63中任一项所述的方法产生的tRNA。
66.一种由根据权利要求64所述的mRNA编码的蛋白质,所述蛋白质在对应于包含所述第三非天然碱基的mRNA密码子的位置处包含非天然氨基酸。
67.一种半合成生物体,所述半合成生物体包含扩展的遗传字母,其中所述遗传字母包含至少三种不同的非天然碱基。
68.根据权利要求67所述的半合成生物体,其中所述生物体包括微生物,任选地其中所述微生物是大肠杆菌。
69.根据权利要求67或68所述的半合成生物体,其中所述生物体包含含有至少一种选自以下的非天然核碱基的DNA:
Figure FDA0003498995350000101
70.根据权利要求67-69中任一项所述的半合成生物体,其中所述DNA包含至少一种非天然碱基对(UBP),
其中所述非天然碱基对(UBP)是dCNMO-dTPT3、dNaM-dTPT3、dCNMO-dTAT1、d5FM-dTAT1或dNaM-dTAT1。
71.根据权利要求67所述的半合成生物体,其中所述DNA包含至少一种为
Figure FDA0003498995350000102
的非天然核碱基。
72.根据权利要求67-71中任一项所述的半合成生物体,其中所述生物体表达异源核苷三磷酸转运蛋白。
73.根据权利要求72所述的半合成生物体,其中所述异源核苷三磷酸转运蛋白是PtNTT2。
74.根据权利要求67-73中任一项所述的半合成生物体,其中所述生物体还表达异源tRNA合成酶。
75.根据权利要求74所述的半合成生物体,其中所述异源tRNA合成酶是巴氏甲烷八叠球菌吡咯赖氨酰-tRNA合成酶(Mb PylRS)。
76.根据权利要求67-75中任一项所述的半合成生物体,其中所述生物体还表达异源RNA聚合酶。
77.根据权利要求76所述的半合成生物体,其中所述异源RNA聚合酶是T7 RNAP。
78.根据权利要求67-77中任一项所述的半合成生物体,其中所述生物体不表达具有DNA重组修复功能的蛋白质。
79.根据权利要求78所述的半合成生物体,其中所述生物体不表达RecA。
80.根据权利要求67-79中任一项所述的半合成生物体,所述半合成生物体还包含异源mRNA。
81.根据权利要求80所述的半合成生物体,其中所述异源mRNA包含至少一种选自
Figure FDA0003498995350000111
的非天然碱基。
82.根据权利要求67-81中任一项所述的半合成生物体,所述半合成生物体还包含异源tRNA。
83.根据权利要求82所述的半合成生物体,其中所述异源tRNA包含至少一种选自
Figure FDA0003498995350000112
的非天然碱基。
84.一种转录DNA的方法,所述方法包括:
提供一种或多种DNA,所述一种或多种DNA包含(1)编码蛋白质的基因,其中所述编码蛋白质的基因的模板链包含第一非天然碱基以及(2)编码tRNA的基因,其中所述编码tRNA的基因的模板链包含能够与所述第一非天然碱基形成碱基对的第二非天然碱基;
转录所述编码蛋白质的基因以将第三非天然碱基掺入mRNA中,所述第三非天然碱基能够与所述第一非天然碱基形成第一非天然碱基对;
转录所述编码tRNA的基因以将第四非天然碱基掺入tRNA中,其中所述第四非天然碱基能够与所述第二非天然碱基形成第二非天然碱基对,其中所述第一非天然碱基对和所述第二非天然碱基对不相同。
85.根据权利要求84所述的方法,所述方法还包括利用所述tRNA从所述mRNA翻译蛋白质,其中所述蛋白质在对应于在所述mRNA中包含所述第三非天然碱基的密码子的位置处包含非天然氨基酸。
86.一种复制DNA的方法,所述方法包括:
提供DNA,所述DNA包含(1)编码蛋白质的基因,其中所述编码蛋白质的基因的模板链包含第一非天然碱基以及(2)编码tRNA的基因,其中所述编码tRNA的基因的模板链包含能够与所述第一非天然碱基形成碱基对的第二非天然碱基;以及
复制所述DNA以掺入第一替代非天然碱基以代替所述第一非天然碱基,和/或掺入第二替代非天然碱基以代替所述第二非天然碱基;
其中所述方法任选地还包括:
转录所述编码蛋白质的基因以将第三非天然碱基掺入mRNA中,所述第三非天然碱基能够与所述第一非天然碱基和/或所述第一替代非天然碱基形成第一非天然碱基对;和/或
转录所述编码tRNA的基因以将第四非天然碱基掺入tRNA中,其中所述第四非天然碱基能够与所述第二非天然碱基和/或所述第二替代非天然碱基形成第二非天然碱基对,其中所述第一非天然碱基对和所述第二非天然碱基对不相同。
87.根据权利要求86所述的方法,所述方法还包括转录所述编码蛋白质的基因以将第三非天然碱基掺入mRNA中,所述第三非天然碱基能够与所述第一非天然碱基和/或所述第一替代非天然碱基形成第一非天然碱基对。
88.根据权利要求86或87所述的方法,所述方法还包括转录所述编码tRNA的基因以将第四非天然碱基掺入tRNA中,其中所述第四非天然碱基能够与所述第二非天然碱基和/或所述第二替代非天然碱基形成第二非天然碱基对,其中所述第一非天然碱基对和所述第二非天然碱基对不相同。
89.根据权利要求84-88中任一项所述的方法,其中其中所述方法是体内方法,包括使用作为细菌的半合成生物体。
90.根据权利要求89所述的方法,其中所述生物体包括大肠杆菌。
91.根据权利要求84-90中任一项所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure FDA0003498995350000121
92.根据权利要求84-91中任一项所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure FDA0003498995350000122
93.根据权利要求84-92中任一项所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure FDA0003498995350000123
94.根据权利要求84-93中任一项所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括
Figure FDA0003498995350000124
95.根据权利要求84-94中任一项所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者是
Figure FDA0003498995350000131
96.根据权利要求84-95中任一项所述的方法,其中所述第一非天然碱基、所述第二非天然碱基、所述第三非天然碱基或所述第四非天然碱基中的至少一者包括:
Figure FDA0003498995350000132
97.根据权利要求84-96中任一项所述的方法,其中所述第一非天然碱基是
Figure FDA0003498995350000133
所述第二非天然碱基是
Figure FDA0003498995350000134
所述第三非天然碱基是
Figure FDA0003498995350000135
并且所述第四非天然碱基是
Figure FDA0003498995350000136
98.根据权利要求84-97中任一项所述的方法,其中所述第一非天然碱基是
Figure FDA0003498995350000137
所述第二非天然碱基是
Figure FDA0003498995350000138
所述第三非天然碱基是
Figure FDA0003498995350000139
并且所述第四非天然碱基是
Figure FDA00034989953500001310
99.根据权利要求84-98中任一项所述的方法,其中所述第一非天然碱基是
Figure FDA00034989953500001311
所述第二非天然碱基是
Figure FDA0003498995350000141
所述第三非天然碱基是
Figure FDA0003498995350000142
Figure FDA0003498995350000143
并且所述第四非天然碱基是
Figure FDA0003498995350000144
100.根据权利要求84-99中任一项所述的方法,其中所述第一非天然碱基包括dCNMO,并且所述第二非天然碱基包括dTPT3。
101.根据权利要求84-100中任一项所述的方法,其中所述第三非天然碱基包括NaM,并且所述第二非天然碱基包括TAT1。
102.根据权利要求84-101中任一项所述的方法,其中所述蛋白质包含至少两个非天然氨基酸。
CN202080056659.2A 2019-06-14 2020-06-12 用于在半合成生物体中复制、转录和翻译的试剂和方法 Pending CN114207129A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962861901P 2019-06-14 2019-06-14
US62/861,901 2019-06-14
PCT/US2020/037437 WO2020252262A1 (en) 2019-06-14 2020-06-12 Reagents and methods for replication, transcription, and translation in semi-synthetic organisms

Publications (1)

Publication Number Publication Date
CN114207129A true CN114207129A (zh) 2022-03-18

Family

ID=73744600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080056659.2A Pending CN114207129A (zh) 2019-06-14 2020-06-12 用于在半合成生物体中复制、转录和翻译的试剂和方法

Country Status (12)

Country Link
US (1) US11879145B2 (zh)
EP (1) EP3983543A4 (zh)
JP (1) JP2022538784A (zh)
KR (1) KR20220034109A (zh)
CN (1) CN114207129A (zh)
AU (1) AU2020291535A1 (zh)
BR (1) BR112021025130A2 (zh)
CA (1) CA3143330A1 (zh)
IL (1) IL288941A (zh)
MX (1) MX2021015450A (zh)
TW (1) TW202113078A (zh)
WO (1) WO2020252262A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014306271A1 (en) * 2013-08-08 2016-03-24 The Scripps Research Institute A method for the site-specific enzymatic labelling of nucleic acids in vitro by incorporation of unnatural nucleotides
DK3129493T3 (da) 2014-04-09 2021-09-27 Scripps Research Inst Import af unaturlige eller modificerede nukleosidtriphosphater ind i celler via nukleinsyre-triphosphat-transportører
US11761007B2 (en) 2015-12-18 2023-09-19 The Scripps Research Institute Production of unnatural nucleotides using a CRISPR/Cas9 system
ES2929047T3 (es) 2016-06-24 2022-11-24 Scripps Research Inst Transportador de nucleósido trifosfato novedoso y usos del mismo
JP7325341B2 (ja) 2017-07-11 2023-08-14 シンソークス,インク. 非天然ヌクレオチドの組み込み及びその方法
CN111690587B (zh) * 2019-03-13 2022-10-25 上海凯赛生物技术股份有限公司 一种离心筛选具有高含油率油脂酵母菌株的方法及其应用
TW202113078A (zh) 2019-06-14 2021-04-01 美商史基普研究協會 於半合成生物體中複製、轉錄及轉譯之試劑及方法
TW202128996A (zh) * 2019-10-10 2021-08-01 美商史基普研究協會 用於活體內合成非天然多肽的組合物及方法
CN114031648A (zh) * 2021-11-08 2022-02-11 河南师范大学 一类非天然碱基三磷酸及其合成方法和应用
WO2023164676A1 (en) * 2022-02-27 2023-08-31 The Regents Of The University Of California Methods to generate novel acyl-trna species

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015021432A1 (en) * 2013-08-08 2015-02-12 The Scripps Research Institute A method for the site-specific enzymatic labelling of nucleic acids in vitro by incorporation of unnatural nucleotides
WO2015157555A2 (en) * 2014-04-09 2015-10-15 The Scripps Research Institute Import of unnatural or modified nucleoside triphosphates into cells via nucleic acid triphosphate transporters
CN107743520A (zh) * 2015-05-06 2018-02-27 特雷里斯公司 用于甲硫氨酸的生物生产的组合物和方法
CN108368499A (zh) * 2015-11-30 2018-08-03 欧洲分子生物学实验室 通过在昆虫细胞中扩增遗传密码来制备工程化蛋白质的手段和方法

Family Cites Families (200)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3687808A (en) 1969-08-14 1972-08-29 Univ Leland Stanford Junior Synthetic polynucleotides
US4469863A (en) 1980-11-12 1984-09-04 Ts O Paul O P Nonionic nucleic acid alkyl and aryl phosphonates and processes for manufacture and use thereof
US5023243A (en) 1981-10-23 1991-06-11 Molecular Biosystems, Inc. Oligonucleotide therapeutic agent and method of making same
US4476301A (en) 1982-04-29 1984-10-09 Centre National De La Recherche Scientifique Oligonucleotides, a process for preparing the same and their application as mediators of the action of interferon
JPS5927900A (ja) 1982-08-09 1984-02-14 Wakunaga Seiyaku Kk 固定化オリゴヌクレオチド
FR2540122B1 (fr) 1983-01-27 1985-11-29 Centre Nat Rech Scient Nouveaux composes comportant une sequence d'oligonucleotide liee a un agent d'intercalation, leur procede de synthese et leur application
US4605735A (en) 1983-02-14 1986-08-12 Wakunaga Seiyaku Kabushiki Kaisha Oligonucleotide derivatives
US4948882A (en) 1983-02-22 1990-08-14 Syngene, Inc. Single-stranded labelled oligonucleotides, reactive monomers and methods of synthesis
US4824941A (en) 1983-03-10 1989-04-25 Julian Gordon Specific antibody to the native form of 2'5'-oligonucleotides, the method of preparation and the use as reagents in immunoassays or for binding 2'5'-oligonucleotides in biological systems
US4587044A (en) 1983-09-01 1986-05-06 The Johns Hopkins University Linkage of proteins to nucleic acids
US5118802A (en) 1983-12-20 1992-06-02 California Institute Of Technology DNA-reporter conjugates linked via the 2' or 5'-primary amino group of the 5'-terminal nucleoside
US5015733A (en) 1983-12-20 1991-05-14 California Institute Of Technology Nucleosides possessing blocked aliphatic amino groups
US5118800A (en) 1983-12-20 1992-06-02 California Institute Of Technology Oligonucleotides possessing a primary amino group in the terminal nucleotide
US4849513A (en) 1983-12-20 1989-07-18 California Institute Of Technology Deoxyribonucleoside phosphoramidites in which an aliphatic amino group is attached to the sugar ring and their use for the preparation of oligonucleotides containing aliphatic amino groups
US5550111A (en) 1984-07-11 1996-08-27 Temple University-Of The Commonwealth System Of Higher Education Dual action 2',5'-oligoadenylate antiviral derivatives and uses thereof
FR2567892B1 (fr) 1984-07-19 1989-02-17 Centre Nat Rech Scient Nouveaux oligonucleotides, leur procede de preparation et leurs applications comme mediateurs dans le developpement des effets des interferons
US5367066A (en) 1984-10-16 1994-11-22 Chiron Corporation Oligonucleotides with selectably cleavable and/or abasic sites
US5430136A (en) 1984-10-16 1995-07-04 Chiron Corporation Oligonucleotides having selectably cleavable and/or abasic sites
US5258506A (en) 1984-10-16 1993-11-02 Chiron Corporation Photolabile reagents for incorporation into oligonucleotide chains
US4828979A (en) 1984-11-08 1989-05-09 Life Technologies, Inc. Nucleotide analogs for nucleic acid labeling and detection
FR2575751B1 (fr) 1985-01-08 1987-04-03 Pasteur Institut Nouveaux nucleosides de derives de l'adenosine, leur preparation et leurs applications biologiques
US5166315A (en) 1989-12-20 1992-11-24 Anti-Gene Development Group Sequence-specific binding polymers for duplex nucleic acids
US5405938A (en) 1989-12-20 1995-04-11 Anti-Gene Development Group Sequence-specific binding polymers for duplex nucleic acids
US5235033A (en) 1985-03-15 1993-08-10 Anti-Gene Development Group Alpha-morpholino ribonucleoside derivatives and polymers thereof
US5185444A (en) 1985-03-15 1993-02-09 Anti-Gene Deveopment Group Uncharged morpolino-based polymers having phosphorous containing chiral intersubunit linkages
US5034506A (en) 1985-03-15 1991-07-23 Anti-Gene Development Group Uncharged morpholino-based polymers having achiral intersubunit linkages
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US5656493A (en) 1985-03-28 1997-08-12 The Perkin-Elmer Corporation System for automated performance of the polymerase chain reaction
US4965188A (en) 1986-08-22 1990-10-23 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences using a thermostable enzyme
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4762779A (en) 1985-06-13 1988-08-09 Amgen Inc. Compositions and methods for functionalizing nucleic acids
US4910300A (en) 1985-12-11 1990-03-20 Chiron Corporation Method for making nucleic acid probes
US5093232A (en) 1985-12-11 1992-03-03 Chiron Corporation Nucleic acid probes
US5317098A (en) 1986-03-17 1994-05-31 Hiroaki Shizuya Non-radioisotope tagging of fragments
JPS638396A (ja) 1986-06-30 1988-01-14 Wakunaga Pharmaceut Co Ltd ポリ標識化オリゴヌクレオチド誘導体
US5276019A (en) 1987-03-25 1994-01-04 The United States Of America As Represented By The Department Of Health And Human Services Inhibitors for replication of retroviruses and for the expression of oncogene products
US5264423A (en) 1987-03-25 1993-11-23 The United States Of America As Represented By The Department Of Health And Human Services Inhibitors for replication of retroviruses and for the expression of oncogene products
US4904582A (en) 1987-06-11 1990-02-27 Synthetic Genetics Novel amphiphilic nucleic acid conjugates
JP2828642B2 (ja) 1987-06-24 1998-11-25 ハワード フローレイ インスティテュト オブ イクスペリメンタル フィジオロジー アンド メディシン ヌクレオシド誘導体
US5585481A (en) 1987-09-21 1996-12-17 Gen-Probe Incorporated Linking reagents for nucleotide probes
US5188897A (en) 1987-10-22 1993-02-23 Temple University Of The Commonwealth System Of Higher Education Encapsulated 2',5'-phosphorothioate oligoadenylates
US4924624A (en) 1987-10-22 1990-05-15 Temple University-Of The Commonwealth System Of Higher Education 2,',5'-phosphorothioate oligoadenylates and plant antiviral uses thereof
US5525465A (en) 1987-10-28 1996-06-11 Howard Florey Institute Of Experimental Physiology And Medicine Oligonucleotide-polyamide conjugates and methods of production and applications of the same
DE3738460A1 (de) 1987-11-12 1989-05-24 Max Planck Gesellschaft Modifizierte oligonukleotide
US5082830A (en) 1988-02-26 1992-01-21 Enzo Biochem, Inc. End labeled nucleotide probe
JPH03503894A (ja) 1988-03-25 1991-08-29 ユニバーシィティ オブ バージニア アランミ パテンツ ファウンデイション オリゴヌクレオチド n‐アルキルホスホラミデート
US5278302A (en) 1988-05-26 1994-01-11 University Patents, Inc. Polynucleotide phosphorodithioates
US5109124A (en) 1988-06-01 1992-04-28 Biogen, Inc. Nucleic acid probe linked to a label having a terminal cysteine
US5216141A (en) 1988-06-06 1993-06-01 Benner Steven A Oligonucleotide analogs containing sulfur linkages
US5175273A (en) 1988-07-01 1992-12-29 Genentech, Inc. Nucleic acid intercalating agents
US5262536A (en) 1988-09-15 1993-11-16 E. I. Du Pont De Nemours And Company Reagents for the preparation of 5'-tagged oligonucleotides
US5512439A (en) 1988-11-21 1996-04-30 Dynal As Oligonucleotide-linked magnetic particles and uses thereof
US5457183A (en) 1989-03-06 1995-10-10 Board Of Regents, The University Of Texas System Hydroxylated texaphyrins
US5599923A (en) 1989-03-06 1997-02-04 Board Of Regents, University Of Tx Texaphyrin metal complexes having improved functionalization
US5391723A (en) 1989-05-31 1995-02-21 Neorx Corporation Oligonucleotide conjugates
US4958013A (en) 1989-06-06 1990-09-18 Northwestern University Cholesteryl modified oligonucleotides
US5451463A (en) 1989-08-28 1995-09-19 Clontech Laboratories, Inc. Non-nucleoside 1,3-diol reagents for labeling synthetic oligonucleotides
US5134066A (en) 1989-08-29 1992-07-28 Monsanto Company Improved probes using nucleosides containing 3-dezauracil analogs
US5254469A (en) 1989-09-12 1993-10-19 Eastman Kodak Company Oligonucleotide-enzyme conjugate that can be used as a probe in hybridization assays and polymerase chain reaction procedures
US5591722A (en) 1989-09-15 1997-01-07 Southern Research Institute 2'-deoxy-4'-thioribonucleosides and their antiviral activity
US5399676A (en) 1989-10-23 1995-03-21 Gilead Sciences Oligonucleotides with inverted polarity
EP0942000B1 (en) 1989-10-24 2004-06-23 Isis Pharmaceuticals, Inc. 2'-Modified oligonucleotides
US5264564A (en) 1989-10-24 1993-11-23 Gilead Sciences Oligonucleotide analogs with novel linkages
US5264562A (en) 1989-10-24 1993-11-23 Gilead Sciences, Inc. Oligonucleotide analogs with novel linkages
US5292873A (en) 1989-11-29 1994-03-08 The Research Foundation Of State University Of New York Nucleic acids labeled with naphthoquinone probe
US5177198A (en) 1989-11-30 1993-01-05 University Of N.C. At Chapel Hill Process for preparing oligoribonucleoside and oligodeoxyribonucleoside boranophosphates
US5130302A (en) 1989-12-20 1992-07-14 Boron Bilogicals, Inc. Boronated nucleoside, nucleotide and oligonucleotide compounds, compositions and methods for using same
US5486603A (en) 1990-01-08 1996-01-23 Gilead Sciences, Inc. Oligonucleotide having enhanced binding affinity
US5681941A (en) 1990-01-11 1997-10-28 Isis Pharmaceuticals, Inc. Substituted purines and oligonucleotide cross-linking
US5646265A (en) 1990-01-11 1997-07-08 Isis Pharmceuticals, Inc. Process for the preparation of 2'-O-alkyl purine phosphoramidites
US5587361A (en) 1991-10-15 1996-12-24 Isis Pharmaceuticals, Inc. Oligonucleotides having phosphorothioate linkages of high chiral purity
US5587470A (en) 1990-01-11 1996-12-24 Isis Pharmaceuticals, Inc. 3-deazapurines
US5578718A (en) 1990-01-11 1996-11-26 Isis Pharmaceuticals, Inc. Thiol-derivatized nucleosides
US5459255A (en) 1990-01-11 1995-10-17 Isis Pharmaceuticals, Inc. N-2 substituted purines
US5670633A (en) 1990-01-11 1997-09-23 Isis Pharmaceuticals, Inc. Sugar modified oligonucleotides that detect and modulate gene expression
AU7579991A (en) 1990-02-20 1991-09-18 Gilead Sciences, Inc. Pseudonucleosides and pseudonucleotides and their polymers
US5214136A (en) 1990-02-20 1993-05-25 Gilead Sciences, Inc. Anthraquinone-derivatives oligonucleotides
US5321131A (en) 1990-03-08 1994-06-14 Hybridon, Inc. Site-specific functionalization of oligodeoxynucleotides for non-radioactive labelling
US5470967A (en) 1990-04-10 1995-11-28 The Dupont Merck Pharmaceutical Company Oligonucleotide analogs with sulfamate linkages
GB9009980D0 (en) 1990-05-03 1990-06-27 Amersham Int Plc Phosphoramidite derivatives,their preparation and the use thereof in the incorporation of reporter groups on synthetic oligonucleotides
ES2116977T3 (es) 1990-05-11 1998-08-01 Microprobe Corp Soportes solidos para ensayos de hibridacion de acidos nucleicos y metodos para inmovilizar oligonucleotidos de modo covalente.
US5541307A (en) 1990-07-27 1996-07-30 Isis Pharmaceuticals, Inc. Backbone modified oligonucleotide analogs and solid phase synthesis thereof
US5489677A (en) 1990-07-27 1996-02-06 Isis Pharmaceuticals, Inc. Oligonucleoside linkages containing adjacent oxygen and nitrogen atoms
US5602240A (en) 1990-07-27 1997-02-11 Ciba Geigy Ag. Backbone modified oligonucleotide analogs
US5610289A (en) 1990-07-27 1997-03-11 Isis Pharmaceuticals, Inc. Backbone modified oligonucleotide analogues
US5138045A (en) 1990-07-27 1992-08-11 Isis Pharmaceuticals Polyamine conjugated oligonucleotides
US5677437A (en) 1990-07-27 1997-10-14 Isis Pharmaceuticals, Inc. Heteroatomic oligonucleoside linkages
US5618704A (en) 1990-07-27 1997-04-08 Isis Pharmacueticals, Inc. Backbone-modified oligonucleotide analogs and preparation thereof through radical coupling
BR9106702A (pt) 1990-07-27 1993-06-08 Isis Pharmaceuticals Inc Analogo de oligonucleotideos e processos para modular a producao de uma proteina por um organismo e para tratar um organismo
US5688941A (en) 1990-07-27 1997-11-18 Isis Pharmaceuticals, Inc. Methods of making conjugated 4' desmethyl nucleoside analog compounds
US5623070A (en) 1990-07-27 1997-04-22 Isis Pharmaceuticals, Inc. Heteroatomic oligonucleoside linkages
US5608046A (en) 1990-07-27 1997-03-04 Isis Pharmaceuticals, Inc. Conjugated 4'-desmethyl nucleoside analog compounds
US5218105A (en) 1990-07-27 1993-06-08 Isis Pharmaceuticals Polyamine conjugated oligonucleotides
IL113519A (en) 1990-08-03 1997-11-20 Sterling Winthrop Inc Oligonucleoside sequences of from about 6 to about 200 bases having a three atom internucleoside linkage, their preparation and pharmaceutical compositions for inhibiting gene expression containing said oligonucleosides
US5245022A (en) 1990-08-03 1993-09-14 Sterling Drug, Inc. Exonuclease resistant terminally substituted oligonucleotides
US5177196A (en) 1990-08-16 1993-01-05 Microprobe Corporation Oligo (α-arabinofuranosyl nucleotides) and α-arabinofuranosyl precursors thereof
US5512667A (en) 1990-08-28 1996-04-30 Reed; Michael W. Trifunctional intermediates for preparing 3'-tailed oligonucleotides
US5214134A (en) 1990-09-12 1993-05-25 Sterling Winthrop Inc. Process of linking nucleosides with a siloxane bridge
US5561225A (en) 1990-09-19 1996-10-01 Southern Research Institute Polynucleotide analogs containing sulfonate and sulfonamide internucleoside linkages
CA2092002A1 (en) 1990-09-20 1992-03-21 Mark Matteucci Modified internucleoside linkages
NZ239893A (en) 1990-09-25 1993-11-25 Hoechst Japan A method for introducing a foreign dna into a cell
US5432272A (en) 1990-10-09 1995-07-11 Benner; Steven A. Method for incorporating into a DNA or RNA oligonucleotide using nucleotides bearing heterocyclic bases
ATE198598T1 (de) 1990-11-08 2001-01-15 Hybridon Inc Verbindung von mehrfachreportergruppen auf synthetischen oligonukleotiden
US5672697A (en) 1991-02-08 1997-09-30 Gilead Sciences, Inc. Nucleoside 5'-methylene phosphonates
US5714331A (en) 1991-05-24 1998-02-03 Buchardt, Deceased; Ole Peptide nucleic acids having enhanced binding affinity, sequence specificity and solubility
US5719262A (en) 1993-11-22 1998-02-17 Buchardt, Deceased; Ole Peptide nucleic acids having amino acid side chains
US5539082A (en) 1993-04-26 1996-07-23 Nielsen; Peter E. Peptide nucleic acids
US5371241A (en) 1991-07-19 1994-12-06 Pharmacia P-L Biochemicals Inc. Fluorescein labelled phosphoramidites
US5571799A (en) 1991-08-12 1996-11-05 Basco, Ltd. (2'-5') oligoadenylate analogues useful as inhibitors of host-v5.-graft response
DE59208572D1 (de) 1991-10-17 1997-07-10 Ciba Geigy Ag Bicyclische Nukleoside, Oligonukleotide, Verfahren zu deren Herstellung und Zwischenprodukte
US5594121A (en) 1991-11-07 1997-01-14 Gilead Sciences, Inc. Enhanced triple-helix and double-helix formation with oligomers containing modified purines
TW393513B (en) 1991-11-26 2000-06-11 Isis Pharmaceuticals Inc Enhanced triple-helix and double-helix formation with oligomers containing modified pyrimidines
US5484908A (en) 1991-11-26 1996-01-16 Gilead Sciences, Inc. Oligonucleotides containing 5-propynyl pyrimidines
JP3739785B2 (ja) 1991-11-26 2006-01-25 アイシス ファーマシューティカルズ,インコーポレイティド 修飾されたピリミジンを含有するオリゴマーを使用する増強された三重らせんおよび二重らせんの成形
US5359044A (en) 1991-12-13 1994-10-25 Isis Pharmaceuticals Cyclobutyl oligonucleotide surrogates
US5595726A (en) 1992-01-21 1997-01-21 Pharmacyclics, Inc. Chromophore probe for detection of nucleic acid
US5565552A (en) 1992-01-21 1996-10-15 Pharmacyclics, Inc. Method of expanded porphyrin-oligonucleotide conjugate synthesis
FR2687679B1 (fr) 1992-02-05 1994-10-28 Centre Nat Rech Scient Oligothionucleotides.
US5633360A (en) 1992-04-14 1997-05-27 Gilead Sciences, Inc. Oligonucleotide analogs capable of passive cell membrane permeation
US5434257A (en) 1992-06-01 1995-07-18 Gilead Sciences, Inc. Binding compentent oligomers containing unsaturated 3',5' and 2',5' linkages
EP0577558A2 (de) 1992-07-01 1994-01-05 Ciba-Geigy Ag Carbocyclische Nukleoside mit bicyclischen Ringen, Oligonukleotide daraus, Verfahren zu deren Herstellung, deren Verwendung und Zwischenproduckte
US5272250A (en) 1992-07-10 1993-12-21 Spielvogel Bernard F Boronated phosphoramidate compounds
US5574142A (en) 1992-12-15 1996-11-12 Microprobe Corporation Peptide linkers for improved oligonucleotide delivery
US5476925A (en) 1993-02-01 1995-12-19 Northwestern University Oligodeoxyribonucleotides including 3'-aminonucleoside-phosphoramidate linkages and terminal 3'-amino groups
GB9304618D0 (en) 1993-03-06 1993-04-21 Ciba Geigy Ag Chemical compounds
CA2159631A1 (en) 1993-03-30 1994-10-13 Sanofi Acyclic nucleoside analogs and oligonucleotide sequences containing them
WO1994022891A1 (en) 1993-03-31 1994-10-13 Sterling Winthrop Inc. Oligonucleotides with amide linkages replacing phosphodiester linkages
EP0691979A1 (en) 1993-03-31 1996-01-17 Sanofi Novel 5'-substituted nucleosides and oligomers produced therefrom
DE4311944A1 (de) 1993-04-10 1994-10-13 Degussa Umhüllte Natriumpercarbonatpartikel, Verfahren zu deren Herstellung und sie enthaltende Wasch-, Reinigungs- und Bleichmittelzusammensetzungen
GB9311682D0 (en) 1993-06-05 1993-07-21 Ciba Geigy Ag Chemical compounds
US5502177A (en) 1993-09-17 1996-03-26 Gilead Sciences, Inc. Pyrimidine derivatives for labeled binding partners
US5457187A (en) 1993-12-08 1995-10-10 Board Of Regents University Of Nebraska Oligonucleotides containing 5-fluorouracil
US5446137B1 (en) 1993-12-09 1998-10-06 Behringwerke Ag Oligonucleotides containing 4'-substituted nucleotides
US5519134A (en) 1994-01-11 1996-05-21 Isis Pharmaceuticals, Inc. Pyrrolidine-containing monomers and oligomers
US5596091A (en) 1994-03-18 1997-01-21 The Regents Of The University Of California Antisense oligonucleotides comprising 5-aminoalkyl pyrimidine nucleotides
US5627053A (en) 1994-03-29 1997-05-06 Ribozyme Pharmaceuticals, Inc. 2'deoxy-2'-alkylnucleotide containing nucleic acid
US5625050A (en) 1994-03-31 1997-04-29 Amgen Inc. Modified oligonucleotides and intermediates useful in nucleic acid therapeutics
US5525711A (en) 1994-05-18 1996-06-11 The United States Of America As Represented By The Secretary Of The Department Of Health And Human Services Pteridine nucleotide analogs as fluorescent DNA probes
US5597696A (en) 1994-07-18 1997-01-28 Becton Dickinson And Company Covalent cyanine dye oligonucleotide conjugates
US5597909A (en) 1994-08-25 1997-01-28 Chiron Corporation Polynucleotide reagents containing modified deoxyribose moieties, and associated methods of synthesis and use
US5580731A (en) 1994-08-25 1996-12-03 Chiron Corporation N-4 modified pyrimidine deoxynucleotides and oligonucleotide probes synthesized therewith
US6143557A (en) 1995-06-07 2000-11-07 Life Technologies, Inc. Recombination cloning using engineered recombination sites
US6720140B1 (en) 1995-06-07 2004-04-13 Invitrogen Corporation Recombinational cloning using engineered recombination sites
JP4020429B2 (ja) 1995-06-07 2007-12-12 インヴィトロジェン コーポレーション 操作された組換え部位を使用する組換えクローニング
GB9606158D0 (en) 1996-03-23 1996-05-29 Ciba Geigy Ag Chemical compounds
US7875733B2 (en) 2003-09-18 2011-01-25 Isis Pharmaceuticals, Inc. Oligomeric compounds comprising 4′-thionucleosides for use in gene modulation
US6770748B2 (en) 1997-03-07 2004-08-03 Takeshi Imanishi Bicyclonucleoside and oligonucleotide analogue
JP3756313B2 (ja) 1997-03-07 2006-03-15 武 今西 新規ビシクロヌクレオシド及びオリゴヌクレオチド類縁体
US6794499B2 (en) 1997-09-12 2004-09-21 Exiqon A/S Oligonucleotide analogues
IL135000A0 (en) 1997-09-12 2001-05-20 Exiqon As Bi- and tri-cyclic nucleoside, nucleotide and oligonucleotide analogues
WO1999021977A1 (en) 1997-10-24 1999-05-06 Life Technologies, Inc. Recombinational cloning using nucleic acids having recombination sites
US6955807B1 (en) 1998-05-15 2005-10-18 Bayer Pharmaceuticals Corporation IL-2 selective agonists and antagonists
US6562798B1 (en) 1998-06-05 2003-05-13 Dynavax Technologies Corp. Immunostimulatory oligonucleotides with modified bases and methods of use thereof
KR100782896B1 (ko) 1999-05-04 2007-12-06 엑시콘 에이/에스 L-리보-lna 유사체
US6525191B1 (en) 1999-05-11 2003-02-25 Kanda S. Ramasamy Conformationally constrained L-nucleosides
DE60045238D1 (de) 1999-07-15 2010-12-30 Japan Science & Tech Agency Nukleinsäurebasenpaar
WO2001032887A1 (en) 1999-10-29 2001-05-10 Stratagene Compositions and methods utilizing dna polymerases
NZ530816A (en) 1999-12-10 2005-10-28 Invitrogen Corp Use of multiple recombination sites with unique specificity in recombinational cloning
EP1363927A2 (en) 2001-03-01 2003-11-26 Pharmasset Limited Method for the synthesis of 2',3'-dideoxy-2',3'-didehydronucleosides
US20060074035A1 (en) 2002-04-17 2006-04-06 Zhi Hong Dinucleotide inhibitors of de novo RNA polymerases for treatment or prevention of viral infections
US7745417B2 (en) 2002-07-17 2010-06-29 Riken Nucleosides or nucleotides having novel unnatural bases and use thereof
WO2004044139A2 (en) 2002-11-05 2004-05-27 Isis Parmaceuticals, Inc. Modified oligonucleotides for use in rna interference
AU2003291753B2 (en) 2002-11-05 2010-07-08 Isis Pharmaceuticals, Inc. Polycyclic sugar surrogate-containing oligomeric compounds and compositions for use in gene modulation
CN101223272B (zh) * 2003-04-17 2013-04-03 斯克利普斯研究院 扩展真核生物遗传密码
WO2004106356A1 (en) 2003-05-27 2004-12-09 Syddansk Universitet Functionalized nucleotide derivatives
ES2382807T3 (es) 2003-08-28 2012-06-13 Takeshi Imanishi Nuevos ácidos nucleicos artificiales del tipo de enlace N-O con reticulación
WO2005026187A1 (ja) 2003-09-10 2005-03-24 Riken 非天然型塩基を有するヌクレオシド又はヌクレオチド及びその利用
EP1685246A2 (en) 2003-11-03 2006-08-02 Medical Research Council Polymerase
AU2005211362B2 (en) 2004-02-02 2008-03-13 Ambrx, Inc. Modified human interferon polypeptides and their uses
WO2006049297A1 (ja) 2004-11-08 2006-05-11 Riken 新規なヌクレオシド若しくはヌクレオチド誘導体及びその利用
JP5649018B2 (ja) 2005-08-04 2015-01-07 タグシクス・バイオ株式会社 新規人工塩基対及びその利用
CA2642657A1 (en) 2005-12-09 2007-06-14 Riken Method for replicating nucleic acids and novel unnatural base pairs
KR20130042043A (ko) 2006-01-27 2013-04-25 아이시스 파마수티컬즈 인코포레이티드 6-변형된 바이시클릭 핵산 유사체
DK2066684T3 (da) 2006-05-11 2012-10-22 Isis Pharmaceuticals Inc 5´-Modificerede bicycliske nukleinsyreanaloge
WO2008101157A1 (en) 2007-02-15 2008-08-21 Isis Pharmaceuticals, Inc. 5'-substituted-2'-f modified nucleosides and oligomeric compounds prepared therefrom
WO2008150729A2 (en) 2007-05-30 2008-12-11 Isis Pharmaceuticals, Inc. N-substituted-aminomethylene bridged bicyclic nucleic acid analogs
WO2008154401A2 (en) 2007-06-08 2008-12-18 Isis Pharmaceuticals, Inc. Carbocyclic bicyclic nucleic acid analogs
WO2009006478A2 (en) 2007-07-05 2009-01-08 Isis Pharmaceuticals, Inc. 6-disubstituted bicyclic nucleic acid analogs
US8426569B2 (en) 2008-03-31 2013-04-23 Riken DNA capable of being amplified by PCR with high selectivity and high efficiency
WO2011043385A1 (ja) 2009-10-06 2011-04-14 独立行政法人理化学研究所 特異な塩基対を形成する人工塩基対
EP3091027B1 (en) 2010-04-28 2018-01-17 Ionis Pharmaceuticals, Inc. 5' modified nucleosides and oligomeric compounds prepared therefrom
LT2637694T (lt) 2010-11-12 2021-05-25 Nektar Therapeutics Il-2 fragmento konjugatai ir polimeras
PE20140303A1 (es) 2011-02-10 2014-03-22 Roche Glycart Ag Polipeptidos interleuquina-2 mutantes
ES2907763T3 (es) 2012-08-31 2022-04-26 Sutro Biopharma Inc Aminoácidos modificados que comprenden un grupo azido
CA2905049A1 (en) 2013-03-13 2014-10-02 Trustees Of Boston University Tunable control of protein degradation in synthetic and endogenous bacterial systems
WO2015054658A1 (en) 2013-10-11 2015-04-16 Sutro Biopharma, Inc. Modified amino acids comprising tetrazine functional groups, methods of preparation, and methods of their use
DK3055321T3 (en) 2013-10-11 2018-12-17 Sutro Biopharma Inc Non-natural amino acid tRNA synthetases for para-methylazido-1-phenylalanine
WO2015054590A2 (en) 2013-10-11 2015-04-16 Sutro Biopharma, Inc. NON-NATURAL AMINO ACID tRNA SYNTHETASES FOR PYRIDYL TETRAZINE
JP2016539653A (ja) 2013-12-13 2016-12-22 セレクティス 微小藻類のゲノム操作のためのCas9ヌクレアーゼプラットフォーム
DK3597740T3 (da) 2014-11-06 2022-06-20 Dupont Us Holding Llc Peptidmedieret indføring af rna-styret endonuklease i celler
EP3985115A1 (en) 2014-12-12 2022-04-20 The Broad Institute, Inc. Protected guide rnas (pgrnas)
WO2016115168A1 (en) 2015-01-12 2016-07-21 Synthorx, Inc. Incorporation of unnatural nucleotides and methods thereof
US11761007B2 (en) 2015-12-18 2023-09-19 The Scripps Research Institute Production of unnatural nucleotides using a CRISPR/Cas9 system
ES2929047T3 (es) 2016-06-24 2022-11-24 Scripps Research Inst Transportador de nucleósido trifosfato novedoso y usos del mismo
JP7325341B2 (ja) 2017-07-11 2023-08-14 シンソークス,インク. 非天然ヌクレオチドの組み込み及びその方法
MA49716A (fr) 2017-07-11 2021-04-07 Scripps Research Inst Incorporation de nucléotides non naturels et procédés d'utilisationin vivo
JP7429642B2 (ja) 2017-12-29 2024-02-08 ザ スクリプス リサーチ インスティテュート 非天然塩基対組成物および使用の方法
TW202113078A (zh) 2019-06-14 2021-04-01 美商史基普研究協會 於半合成生物體中複製、轉錄及轉譯之試劑及方法
TW202128994A (zh) 2019-09-30 2021-08-01 美商史基普研究協會 真核半合成生物
TW202128996A (zh) 2019-10-10 2021-08-01 美商史基普研究協會 用於活體內合成非天然多肽的組合物及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015021432A1 (en) * 2013-08-08 2015-02-12 The Scripps Research Institute A method for the site-specific enzymatic labelling of nucleic acids in vitro by incorporation of unnatural nucleotides
WO2015157555A2 (en) * 2014-04-09 2015-10-15 The Scripps Research Institute Import of unnatural or modified nucleoside triphosphates into cells via nucleic acid triphosphate transporters
CN107743520A (zh) * 2015-05-06 2018-02-27 特雷里斯公司 用于甲硫氨酸的生物生产的组合物和方法
CN108368499A (zh) * 2015-11-30 2018-08-03 欧洲分子生物学实验室 通过在昆虫细胞中扩增遗传密码来制备工程化蛋白质的手段和方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AARON W. FELDMAN: "In Vivo Structure–Activity Relationships and Optimization of an Unnatural Base Pair for Replication in a Semi-Synthetic Organism", 《J. AM. CHEM. SOC.》 *
CHRISTELLE MOREAU: "CD38 Structure-Based Inhibitor Design Using the N1-Cyclic Inosine 59-Diphosphate Ribose Template", 《PLOS ONE》 *
DENIS A. MALYSHEV: "a semi-synthetic organism with an expanded genetic alphabet", 《NATURE》 *
DIANJIE HOU: "DNA Interstrand Cross-Linking upon Irradiation of Aryl Halide C-Nucleotides", 《 J. ORG. CHEM.》 *
VIVIAN T. DIEN: "Progress Toward a Semi-Synthetic Organism with an Unrestricted Expanded Genetic Alphabet", 《J. AM. CHEM. SOC. 》 *

Also Published As

Publication number Publication date
IL288941A (en) 2022-02-01
AU2020291535A1 (en) 2022-01-20
BR112021025130A2 (pt) 2022-03-15
EP3983543A1 (en) 2022-04-20
US20200392550A1 (en) 2020-12-17
CA3143330A1 (en) 2020-12-17
TW202113078A (zh) 2021-04-01
US11879145B2 (en) 2024-01-23
MX2021015450A (es) 2022-03-11
KR20220034109A (ko) 2022-03-17
EP3983543A4 (en) 2023-05-03
JP2022538784A (ja) 2022-09-06
WO2020252262A1 (en) 2020-12-17

Similar Documents

Publication Publication Date Title
CN114207129A (zh) 用于在半合成生物体中复制、转录和翻译的试剂和方法
US20240117363A1 (en) Production of unnatural nucleotides using a crispr/cas9 system
CN107208096A (zh) 基于crispr的组合物和使用方法
JP7429642B2 (ja) 非天然塩基対組成物および使用の方法
US20220243244A1 (en) Compositions and methods for in vivo synthesis of unnatural polypeptides
US20220228148A1 (en) Eukaryotic semi-synthetic organisms
US20230392140A1 (en) Reverse transcription of polynucleotides comprising unnatural nucleotides
Grosjean et al. RNA‐modifying and RNA‐editing enzymes: Methods for their identification
RU2799441C2 (ru) Композиции на основе неприродных пар оснований и способы их применения
Dueck Detection of pseudouridine synthase activity with a fluorescence-based yeast reporter system
Lucas Methods of Partitioning, Biogenesis, and Selecting for Natural and Engineered CoA-RNA
Joardar Guide RNA-dependent and independent tRNA modifications in Archaea

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination