CN104937101A

CN104937101A - 设计趋异的密码子优化大重复dna序列的方法

Info

Publication number: CN104937101A
Application number: CN201380047742.3A
Authority: CN
Inventors: D·J·默洛; I·拉里努亚; S·贝文
Original assignee: Dow AgroSciences LLC
Current assignee: Corteva Agriscience LLC
Priority date: 2012-07-16
Filing date: 2013-07-16
Publication date: 2015-09-23
Anticipated expiration: 2033-07-16
Also published as: CA2879199A1; AU2013290374B2; ZA201500638B; AU2013290374A1; HK1211053A1; IN2015DN00849A; BR112015000982B8; IL236734A0; RU2015104984A; US20150175672A1; EP2872630A1; EP2872630A4; WO2014014950A1; BR112015000982A2; US10793612B2; EP2872630B1; PH12015500107A1; BR112015000982B1; CA2879199C; CN104937101B

Abstract

本公开涉及用于设计编码多肽氨基酸重复区的合成核酸序列的方法。本公开还涉及这些序列表达包含氨基酸重复区的感兴趣多肽的用途，以及包含这些序列的生物。

Description

设计趋异的密码子优化大重复DNA序列的方法

优先权声明

本申请要求获得于2012年6月16日提交的题为“设计趋异的密码子优化大重复DNA序列的方法”的美国临时专利申请系列号61/672,114的申请日的权益。

技术领域

本公开一般地涉及用于优化基因表达的方法。在特定的实施方案中，本公开涉及优化具有氨基酸重复结构域的基因产物的表达的方法。

背景

由于化学DNA合成技术的进步，全基因合成的费用已经变得往往比试图从其天然来源克隆基因更具有成本优势。因此，在植物转化和其他生物技术领域中，计算机辅助设计编码有价值蛋白质的合成DNA序列日益重要。

遗传密码由称作密码子的三核苷酸单位构成。有64种可能的密码子，每一种密码子指定20种氨基酸中的一种，或者指定翻译的结束(“终止密码子”)。因此，至少有一些密码子是冗余的。在绝大多数生物所使用的编码系统中，有两种氨基酸分别是由单种密码子编码的，而所有其它的氨基酸则分别由2、3、4或6种密码子编码，还有3种终止密码子。对于由2、3或4种密码子表示的氨基酸，密码子之间的差异在于第三位核苷酸。对于由2种密码子表示的氨基酸，两者的第三位均是嘌呤(A,G)或嘧啶(C,T)。对于三种由6种密码子表示的氨基酸(Arg,Leu,和Ser)，每一种具有一组由4个密码子构成的组，这些密码子遵循上述在第三位变异的模式，再加上一个由2个密码子构成的组。Arg和Leu各自由一个二密码子组表示，两个密码子的第一和第二位核苷酸不同。丝氨酸(Ser)的二密码子表示(two-codonrepresentation)与Arg的二密码子组的差异仅在于第三位核苷酸。

对于特定的某种氨基酸而言，给定的生物对各种可能的密码子的使用不是均等的。生物各有各的密码子使用偏好。密码子使用偏好的模式对于生物及其近亲而言在整个基因组上是独特的。例如，在链霉菌中，常见的密码子一般在第三位包括G或C。稀有的密码子一般在第三位包括A或T。在其他生物中，第三位优选的是A或T。在特定的物种中，根据其自身的密码子偏好，可以有截然不同的基因类别。例如，在大肠杆菌中大概有三类基因，每一类具有截然不同的密码子使用标志(signature)。一类富含被大量表达的重要蛋白质；第二类包括以相对低水平表达的蛋白质；而第三类包括很可能是新近从其他物种中获得的蛋白质。

在大多数人造基因设计策略中，过程试图使人造基因的密码子组成与待表达该人造基因的宿主的基因密码子组成相匹配。参见例如美国专利公开No.US2007/0292918A1。这样的策略在一些情况下可能导致人造基因在宿主中的表达增加。例如，酵母中的密码子优化可能显著提高异源基因转录本的翻译，其原因是使得例如氨基酰-tRNA限制和富含AT序列处的转录终止等效应的最小化。参见例如Daly and Hearn(2004)J.Mol.Recognition 18:119-38。

然而，尽管在本领域中普遍共识需要一定的密码子优化，但是从业人员对于用于优化的一般策略尚未达成统一意见。一些人的首选策略是在设计异源基因过程中尽可能多地使用表达宿主物种中的常用密码子。另一种为另一些人首选的策略对特定的密码子的上下文给予最大的重视，从而令表达宿主中频繁出现的密码子对的使用最大化。第三种策略是使新物种中的新编码序列的密码子用法与原始物种中的参考编码序列的密码子用法相似。该第三种策略非常强调要认识到可能需要稀有密码子来确保转录本RNA分子的适当二级结构。进一步的策略是使异源基因的密码子组成与新宿主表达基因的总体密码子组成相似。此外，仅使用在异源序列中以相同频率反复出现的密码子，最终获得的效果可能与选用稀有密码子相同；例如过度使用相应的tRNA会限制该tRNA的可得性。人们在尝试对基因序列的密码子进行优化以用于在宿主生物中表达时，必须平衡这些策略及其潜在的考虑，以便实现特定的方法学。

除了酵母和其它真核细胞(例如中国仓鼠卵巢细胞(CHO)细胞、人胚胎成视网膜(HER)细胞和人胚胎肾(HEK)细胞)之外，许多细菌也已被用作宿主细胞，用于制备异源重组蛋白质。许多细菌系统的一个显著缺点是它们使用稀有密码子，这些密码子在人类基因中不是优选的。这些稀有密码子的使用会导致反映不同密码子偏好的重组异源基因，例如人类基因的表达延迟和减少。Sorensen et al.(2003)J.Chromatography B 786:207-14。为了尝试克服这一缺点，可以修饰核酸序列使之编码重组异源多肽变异体，例如其中核酸序列的特定密码子被改变成特定宿主优选的密码子，这能够提高表达水平。参见例如Haas et al.(1996)Curr.Biol.6:315；和Yang et al.(1996)Nucleic Acids Res.24:4592。此外，设计过程的反复迭代性使得人们可以从完工的DNA序列中消除各种序列基序，例如内含子剪切识别位点、mRNA不稳定性决定簇、高稳定性茎环结构和限制酶识别位点。见例如GENESCRIPT^TM产品说明书。此外，可以在宿主生物中表达编码稀有tRNA的基因，从而克服在异源编码序列中使用稀有密码子的一些影响。Sorensen et al.(2003)，前文。

优化编码异源表达蛋白质的核苷酸序列的过程对于提高表达产量而言是一个重要的步骤。然而，一些潜在问题限制了密码子优化对于表达特定基因的有用性。例如，密码子优化转录本的二级结构可能会限制转录本的翻译。Griswold et al.(2003)Protein Expression and Purification 27:134-42。此外，存在大量在用于异源表达的人造序列中期望避免的序列基序，包括大肠杆菌中受T7启动子控制的基因的I和II类转录终止位点；Shine-Dalgarno样序列；潜在剪切信号；多聚腺苷酸信号；和促进核糖体移框(frameshift)和暂停的序列。Welch et al.(2010)J.R.Soc.Interface 6:S467-76。

许多蛋白质的序列包含氨基酸重复模式，包括单氨基酸重复和串联寡肽重复。Katti et al.(2000)Protein Science 9:1203-9。简单的核苷酸序列重复源于DNA形成二级结构(例如发夹或滑移链(slipped strand))所导致的不均等交换(unequal crossing-over)或复制错误。Pearson and Sinden(1998)Curr.Opin.Struct.Biol.8:321-30。编码区中的核苷酸序列重复可能被翻译成单氨基酸重复或串联寡肽重复，可能显著影响蛋白质的结构和功能。据估计，所有蛋白质中有大约14％含有显著的内部氨基酸重复，在真核生物蛋白质中出现的氨基酸重复比原核生物蛋白质多。Marcotte et al.(1999)J.Mol.Biol.293:151-60。谷氨酰胺、丙氨酸、甘氨酸、谷氨酸和丝氨酸重复是最常见的单氨基酸重复，而高疏水性氨基酸的长串联重复是罕见的。Katti et al.(2000),前文；Green andWang(1994)Proc.Natl.Acad.Sci.USA 91:4298-302。

含有单氨基酸重复的蛋白质包括转录调节蛋白。Katti et al.(2000),前文。含有串联寡肽重复的蛋白质包括来自某些原生动物寄生物的抗原蛋白，结构蛋白(例如，富含脯氨酸的植物细胞壁结构蛋白、角蛋白、毛透明蛋白(trichohyalin)、弹性蛋白原(tropoelastin)、蚕蛾丝心蛋白(silk moth fibroin)、果蝇唾液腺胶蛋白、酵母细胞壁蛋白、上皮粘蛋白、和软骨特异性蛋白聚糖核心蛋白)，皮肤表皮角化细胞蛋白质，外皮蛋白(involucrin)、兜甲蛋白(loricrin)、repetin蛋白、角质蛋白(cornifin)和哺乳动物神经轴突的神经微丝三联H蛋白(neurofilament triplet-H protein)。同上。除了天然存在的蛋白质之外，一些含有重复的合成多肽对于生产和在各种用途中的使用可能是期望的。见，例如，美国专利公开号No.US2009/0093621A1。

公开

本文描述了可用于设计人造核酸分子的方法，该人造核酸分子编码含有至少一个重复氨基酸序列区的多肽。重复氨基酸序列区可以是，例如，单氨基酸重复或串联寡肽重复。在实施方案中，在预定的基因设计参数的约束之内，可以设计多个实质上趋异的(diverged)人造核酸序列。人造核酸序列可以根据参考核酸序列设计而得，以便，例如，优化该核酸序列在宿主生物中的异源表达。或者，可以从头设计人造核酸序列，以编码期望的多肽。关于多肽设计的综述，参见例如Protein Design,Eds.Raphael Guerois and ManuelaLopez de la Paz,2006,Humana Press,Totowa,N.J.。

在实施方案中，本方法可以包括提供编码多肽的核酸序列，所述多肽包含至少一个氨基酸重复区。在一些实施方案中，编码包含至少一个氨基酸重复区的多肽的核酸序列可以通过确定生物中编码包含至少一个氨基酸重复区的多肽的核酸序列来提供(例如通过克隆该核酸序列，或者通过从序列数据库中提取该序列)。在特定的实施方案中，然后可以从所提供的核酸序列中提取至少一个编码该多肽的氨基酸重复区的核酸序列，每一个作为一个单独的序列。

在一些实施方案中，所提取的编码氨基酸重复区的核酸序列可以被导入(例如，单独地导入)到计算机实现的软件程序中，该程序能够根据预定的参数对编码序列进行优化。在特定的实施方案中，该计算机实现的软件程序可以是OPTGENE^TM(可购自Ocimum Biosolution)。然后，可以从所提取的每个核酸序列推导(例如通过参考标准遗传密码)样本氨基酸重复序列。在特定的实施方案中，可以通过计算机实现的软件程序从所提取的每个核酸序列推导样本氨基酸重复序列。在进一步的实施方案中，样本氨基酸重复序列可以直接导入到计算机实现的软件程序中，例如，将感兴趣多肽的氨基酸重复区的氨基酸序列导入到该计算机实现的软件程序中。

在其他的实施方案中，可以用样本氨基酸重复序列来推导多个编码氨基酸重复区域的样本密码子优化核酸序列(例如，根据遗传编码的冗余性和合适的密码子用法表，从样本氨基酸重复序列独立地推导出多个不同的编码氨基酸重复区的样本密码子优化核酸序列)。在利用计算机实现的软件程序的实施方案中，可以将每一个编码氨基酸重复区的样本密码子优化核酸序列中输出为文本文件，或以其他方式为从业者记录。在设计人造核酸分子以优化包含至少一个重复氨基酸序列区的参考核酸分子的实施方案中，可以对由该参考核酸分子编码的每一个多肽的氨基酸重复区执行上述的推导样本氨基酸重复序列的步骤和推导编码该氨基酸重复区的密码子优化样本核酸序列的步骤。

在进一步的实施方案中，可以通过序列同源性对各个编码氨基酸重复区域的样本密码子优化核酸序列进行比对。在特定的实施方案中，可以将对参考核酸分子中的所有重复氨基酸序列区获得的所有编码氨基酸重复区的样本密码子优化核酸序列通过序列同源性彼此进行比对。在某些实施方案中，样本密码子优化核酸序列可以使用CLUSTALW^TM程序，Mega 3.1进行比对。可以为经过比对的样本序列组装邻接树。可以为每个来自邻接树的深分支部分的重复氨基酸序列区选择一个编码氨基酸重复区的样本密码子优化核酸序列。

在这些和进一步的实施方案中，在编码感兴趣多肽的密码子优化的核酸序列中可以组入为重复氨基酸序列选定的编码序列，以产生表达被优化的核酸序列。在特定的实施方案中，所述选定的编码序列可以组入感兴趣多肽中的相应氨基酸重复单元的期望位置处，从而使整个多肽编码序列保持正确的阅读框。在一些实施方案中，可以对密码子优化的序列进行进一步的分析，以便，例如，确认不存在不希望的核酸基序(例如，在由其转录的RNA分子中形成不希望的二级结构的核酸基序)，确认不存在限制性内切酶识别位点，和/或确保密码子和序列多样性。

在一些实施方案中，本发明的方法可用于设计编码感兴趣的异源或内源多肽的人造核酸序列。在一些这样的实施方案中，人造核酸序列可以为了在宿主生物中表达而被优化，例如，通过密码子优化反映表达宿主的密码子用法。在特定的实施方案中，设计这样的人造核酸序列，其已被优化用于在植物细胞中，例如在欧洲油菜(Brassica napus)中异源表达。在进一步的实施方案中，设计这样的人造核酸序列，其已被优化用于在细菌宿主细胞中，例如在荧光假单胞菌中异源表达。在这些和其他的实施方案中，本发明的设计方法可用于设计编码感兴趣的包含氨基酸重复区的新型多肽的人造核酸序列。

通过参考附图进行的下列多个实施方案的详细描述，本发明的前述特征和其他特征将更加不言自明。

附图简述

图1包括由裂殖壶菌(Schizochytrium)PUFA ORFA编码的蛋白质的图形表示，其包括氨基酸重复结构域和侧翼Pro-Ala重复的相对位置。应当注意，重复1-9在本文中有时称为重复A-I，其中重复1有时称为重复A，重复2称为重复B，等。

图2包括裂殖壶菌(Schizochytrium)PUFA ORFA的10个Pro-Ala重复的氨基酸序列。

图3包括裂殖壶菌(Schizochytrium)(美国典型培养物保藏中心保藏号ATTC_20888)PUFA ORFA的9个寡肽重复结构域的氨基酸序列的CLUSTALW^TM比对结果(在Vector NTI^TM软件套装中)。

图4包括编码PUFA ORFA的9个氨基酸重复结构域中每一个的天然裂殖壶菌DNA序列的CLUSTALW^TM比对结果(在Vector NTI^TM软件套装中)。比对结果证明，各DNA序列100％同源，89.7％相同。

图5包括程序界面的再现。图表的最上一行显示了计算机生成序列的一部分，该计算机生成序列是通过使用无偏好标准遗传编码对裂殖壶菌PUFAORFA重复1(SEQ ID NO:11)的氨基酸序列进行逆向翻译产生的，该序列进一步公开为SEQ ID NO:29。图表的第二行显示了由最上一行的序列编码的氨基酸序列，因此其代表了裂殖壶菌PUFA ORFA重复1(SEQ ID NO:11)的一部分，并在SEQ ID NO:30中列出。其余行显示了使用标准遗传编码和欧洲油菜密码子使用偏好对第二行的多个逆向翻译结果。第3-12行分别显示了“rpt1nap1”至“rpt1nap10”。这些核苷酸序列(分别为SEQ ID NO:31-40)是使用标准遗传编码和欧洲油菜密码子使用偏好通过对SEQ ID NO:30进行逆向翻译而获得的。

图6包括CLUSTALW^TM程序Mega3.1的邻接树输出，其对90个裂殖壶菌PUFA ORFA重复1-9的欧洲油菜密码子优化序列进行序列比对。重复1-9的每个重复用字母表示(例如，rptA,rptB,rptC,rptD,rptE,rptF,rptG,rptH,rptI)，欧洲油菜偏好序列的每次迭代(iteration)用数字表示(例如，nap1,nap2,nap3,nap4,nap5,nap6,nap7,nap8,nap9,nap10)。在该实例中选出的趋异序列用箭头标记，并且为了清晰起见，在附图的右侧指示了选出的趋异序列的简称(例如rptBnap10称为B10)。

图7包括裂殖壶菌PUFA ORFA重复的所选欧洲油菜密码子优化序列的Smith-Wasserman同源性。

图8包括编码裂殖壶菌PUFA ORFA的9个重复结构域中每一个的再设计的(趋异的)DNA序列的CLUSTALW^TM比对结果(在Vector NTI^TM软件套装中)。比对结果证明，DNA序列93.1％同源，61.7％相同。

序列表

在所附序列表中列出的核酸序列使用在37C.F.R.§1.822中定义的核苷酸碱基标准字母缩写来表示。仅显示了每个核酸序列的一条链，但是应理解对所示明的链的任何提述包括了互补链在内。除非另外指出，否则核酸沿着5'至3'的方向从左至右书写。

氨基酸在本文中可以用其所公知的三字母符号表示，或者用IUPAC-IUB生物化学命名委员会推荐的单字母符号表示。氨基酸序列的书写沿着氨基至羧基的方向从左至右书写。在所附序列表中：

SEQ ID NO:1-10显示了裂殖壶菌PUFA ORFA的10个Pro-Ala重复的氨基酸序列。

SEQ ID NO:11-19显示了裂殖壶菌PUFA ORFA的9个寡肽重复区的氨基酸序列。

SEQ ID NO:20-28显示了编码PUFA ORFA的9个寡肽重复区的天然裂殖壶菌核苷酸序列。

SEQ ID NO:29显示了编码裂殖壶菌PUFA ORFA重复1的一部分的DNA序列，其是使用无偏好标准遗传编码对裂殖壶菌PUFA ORFA重复1的氨基酸序列进行逆向翻译产生的。

SEQ ID NO:30显示了由SEQ ID NO:29编码的氨基酸序列，并代表裂殖壶菌PUFA ORFA重复1的一部分。

SEQ ID NO:31-40显示了使用标准遗传编码和欧洲油菜的密码子使用偏好对SEQ ID NO:30进行逆向翻译获得的核苷酸序列。

SEQ ID NO:41-49显示了编码裂殖壶菌PUFA ORFA的9个重复结构域中每一个的示例人造DNA序列。

SEQ ID NO:50显示了包含3-氨基酸序列的3个重复的示例串联寡肽重复。

SEQ ID NO:51显示了一个示例性的不完美聚谷氨酰胺重复。

实施本发明的模式

I.数个实施方案概览

在优化编码序列用于在宿主生物中表达的过程中，当所编码的多肽含有重复氨基酸结构域时，可能会遇到问题。在细菌宿主的被克隆的DNA中，由密集分布的高度同源的核苷酸序列构成的大区域可能会促进不稳定；即使仅由50个碱基构成的小而完美的重复也能够成为大肠杆菌中用于重组的底物。而且，当被转录的mRNA中存在大重复时，这些序列可能导致表达问题。例如，包含聚谷氨酰胺重复的转录本可能是不稳定的，因为(CAG)_n:(CTG)_n重复可能采取会导致复制错误、修复错误或重组的DNA二级结构。Pearsonand Sinden(1998)，前文。聚丙氨酸重复也可能导致转录本不稳定。Muragakiet al.(1996)Science 272:548-51。

鉴于上述情况，密码子组成和基序回避(motif avoidance)的双重限制造成了基因设计的问题，因为每个单独的重复序列元件的设计必须符合相同的用于基因整体的密码子组合和基序回避表，同时要试图为这些重复设计充分趋异的DNA序列，以避免重复序列的不稳定性问题。基因设计方法缺乏为大氨基酸重复(large amino acid repeats)开发新的密码子偏好DNA序列的应对手段，因为每个重复中的所有密码子选择必须持续地与对应于其它重复的编码区中的相同位置处的密码子选择保持平衡，以避免产生高度相关的DNA序列。

人造核酸分子中高度重复序列区域的存在还会在基因合成以及已完成的人造分子的序列确认中造成技术困难。当重复的氨基酸结构域不仅仅是数个氨基酸残基时，这些问题可能是特别尖锐的。在本发明的一些实施方案中，这些问题可以通过设计编码氨基酸重复的趋异且密码子优化的核酸序列的方法得到解决。本文所述方法的特定实施方案可普遍适用于设计任何编码具有重复氨基酸结构域的多肽的密码子优化DNA序列。

II.缩写

dsDNA 双链DNA

ssDNA 单链DNA

NCBI 美国国家生物技术信息中心

PCA 聚合酶循环组装

PCR 聚合酶链式反应

III.术语

除非在上下文中清晰地指出，否则单数形式“一”、“一个”和“该”的使用包括复数指代。例如“一个多核苷酸”包括多个多核苷酸，“一种底物”包括多种这样的底物，“一个变异体”包括多个这样的变异体，等。

在引述一个数值范围时，应当理解，每个中间的整数值，其每一个部分，该范围的所述上限和下限之间的数值也被具体公开，并包括这些数值之间的每个子范围。任何范围的上限和下限可以被独立地包含在或排除在该范围之外，并且每一个包含上下限中任一个、两个或均不包含的范围也包含在本发明内。当所讨论的数值具有固有限制时(例如，组分的存在浓度为0-100％，或者水溶液的pH范围是1-14)，那些固有限制将被具体公开。

当明确引述数值时，应当理解，与所引数值大约相同数量或量的数值也包含在本发明范围内。在公开某个组合时，该组合的元素的每个亚组合也被具体公开，并且在本发明的范围之内。相反，当不同的元素或元素组被单独公开时，它们的组合也被公开。当本发明的任何元素被公开为具有多个可替代物时，单独排除了每个可替代物或者其他可替代物的任意组合的发明实施例也在此被公开(发明的超过一个元素被排除，和元素的任意组合被排除，也都在此被公开)。

除非另外提供，否则本文所用的全部技术和科学术语具有与遗传学、生物信息学和基因设计领域中普通技术人员所普遍理解的相同的含义。含有许多本公开中所用术语的通用词典包括：Singleton et al.(1994)Dictionary ofMicrobiology and Molecular Biology,第二版,John Wiley and Sons,New York；和Hale and Marham(1991)The Harper Collins Dictionary of Biology,HarperPerennial,New York。尽管在本文中公开举例了一些方法和材料，但是与本文所述相似或相当的任何方法和材料均可用于实践或测试本发明的实施方案。

氨基酸重复：如本文所使用的，术语“氨基酸重复”是指多肽中包含由相同的氨基酸构成的重复单元的氨基酸序列。因此，“氨基酸重复”既指单种氨基酸重复(例如，Ala-Ala-Ala)，也指串联寡肽重复(例如，Ala-Glu-Pro-Ala-Glu-Pro-Ala-Glu-Pro(SEQ ID NO:50))。在多肽中重复出现的氨基酸重复可以是任何长度；例如，单氨基酸重复的长度可以是单个残基(重复一定次数)，而串联寡肽重复的长度可以是，例如，从2个氨基酸到大约100个氨基酸，或者更长。在特定的实例中，寡肽重复的长度可以是大约10，大约20，大约30，大约40，大约50，大约60，大约65，大约70，大约80，大约90，大约100，或大约110个氨基酸；例如长度为85个氨基酸。

术语“氨基酸重复单元”是指构成氨基酸重复的连续氨基酸。并不需要氨基酸重复单元中的每一个氨基酸都是根据该重复的整体模式预测的该氨基酸的位置是的氨基酸。例如，聚谷氨酰胺氨基酸重复单元可以包括如下的序列“Gln-Gln-Gln-Ala-Gln”(SEQ ID NO:51)，虽然在连续序列中存在一个丙氨酸，但整个系列可以被看作是聚谷氨酰胺重复。

密码子使用偏好：如本文所使用的，术语“密码子使用偏好”或者简称为“密码子用法”，是指生物中高频率优先使用(相对于其它的同义密码子)编码某种氨基酸的某一特定密码子。密码子使用偏好可以表示为在特定生物的基因组中特定密码子使用率(例如与其它编码相同氨基酸的密码子相比)的定量量度。

各种用于确定密码子使用偏好的方法是本领域技术人员已知的。在一些实施方案中，密码子使用偏好可以通过密码子适应指数(Codon AdaptationIndex,CAI)方法加以确定，该方法实质上是测量基因的密码子用法与预定的一组高表达基因的密码子用法的差距。Sharp and Li(1987)Nucleic Acids Res.15:1281-95。用于确定密码子使用偏好的替代方法包括MILC(独立于长度和组成的量度)(Supek and Vlahovicek(2005)BMC Bioinformatics 6:182)和相对的同义密码子用法(RSCU)，其是用特定密码子的观察频率除以基于该氨基酸的所有同义密码子的均等使用而预期的频率。Sharp et al.(1986)Nucleic AcidsRes.14:5125-43。RSCU值接近1.0，表明对该特定密码子无偏好，而偏离1.0则反映了密码子使用偏好。

因此，密码子使用偏好包括编码相同氨基酸的密码子(“同义密码子”)的相对使用频率。偏好可以是天然存在的；例如，生物基因组中的密码子偏好反映了同义密码子在该生物所有基因中的相对总体使用。偏好也可用在计算机算法中，例如，在计算机算法中可以利用偏好来确定不同的同义密码子被选用于设计多核苷酸序列的相对频率。类似地，核苷酸序列中用于编码多肽的任何序列元件的“相对”频率，是使用该序列元件被用来编码多肽的某一特征(a feature of)的频率除以该序列元件能够编码的特征按照给定的阅读框在该多肽中出现的次数。

密码子使用偏好还可以从特定表达宿主生物的密码子用法表推断。许多表达宿主生物的密码子用法表可以容易地获得。见例如Nakamura et al.(2000)Nucleic Acids Res.28:292(密码子用法数据库——更新版本可以在kazusa.or.jp/codon获得)。当密码子用法表不可得时，可以从公开的生物基因数据库，例如由NCBI维护的那些数据库(可在ncbi.nlm.nih.gov/sites/genome访问)编集密码子用法表。在一些实施方案中，可以用一系列从特定表达宿主生物获得的编码区编集密码子用法表。在一些实例中，一系列编码区包括从特定表达宿主生物获得的至少100个、至少200个、至少300个、至少400个、至少500个、至少550个、至少600个或者更多个编码区。

术语“密码子用法表”或“密码子偏好表”或“密码子频率表”可互换使用，描述一种表格，该表格将每种可用于编码特定氨基酸的密码子与每种密码子在特定生物中、在该生物的特定基因类别中、或者在一个或多个人造多核苷酸中被用于编码该氨基酸的频率相关联。

绝对密码子频率：如本文所使用的，术语“绝对密码子频率”是指某个密码子出现的频率与某一多核苷酸或系列多核苷酸内符合给定阅读框(例如用于编码感兴趣多肽的阅读框)的密码子(例如，同义和非同义密码子)总数之比。类似地，多核苷酸中用于编码多肽的任何序列元件的“绝对”频率，是该序列元件被用于编码多肽的某一特征(例如氨基酸、氨基酸对等)的频率，除以与该序列元件能够编码的特征大小相同的特征在该多肽中出现的次数。

密码子空间：如本文所使用的，术语“密码子空间”是指所有可能通过改变用于编码给定多肽内的氨基酸的密码子而用于编码该多肽的多核苷酸序列。

密码子替换：如本文所使用的，术语“密码子替换”是指改变核苷酸序列中的一个或多个密码子(该一个或多个密码子编码被编码的多肽中的一个或多个氨基酸)而不改变被编码的多肽的氨基酸序列。

密码子优化：如本文所使用的，术语“密码子优化”是指这样的过程：修饰现有的编码序列，或者从头设计编码序列，以便例如提高由该编码序列转录的转录本RNA分子在表达宿主细胞或生物中的翻译，或者提高编码序列的转录。密码子优化包括，但不仅限于，包括为编码序列选择适合于表达宿主生物的密码子喜好的密码子的过程。密码子优化还包括，例如，有时被称作“密码子协调化(codon harmonization)”的过程，其中密码子序列中在源生物中被识别为低使用密码子的密码子被改变成在新表达宿主中被识别为低使用的密码子。这个过程可以通过在翻译/延伸期间导入天然且合适的暂停来帮助所表达的多肽正常折叠。Birkholtz et al.(2008)Malaria J.7:197-217。

修饰：如本文所使用的，术语“修饰”或“改变”或其任何形式，意思是修饰、改变、代替、删除、替换、去除、变化或转化。

邻接树：如本文所使用的，术语“邻接树”是指用于构建系统进化树的自下而上的聚类方法(bottom-up clustering method)。在实例中，算法(例如CLUSTAL^TM算法)从序列间的两两距离，例如通过Needleman-Wunsch算法计算而得的序列间的两两距离生成一个树。该树(“向导树”)可以用作向导来比对树中的多个序列。关于邻接树的构建和解释的讨论可以在Kumir andGadagker,(2000)J.Molec.Evol.51:544-53中找到。

系统进化树可以通过本领域技术人员已知的方法通过多重比对计算而得，例如Saitou和Nei的基于序列之间“距离”矩阵的近邻相接法(Neighbor-joining method)。这些距离可以针对“多命中”(multiple hits)进行修正。这种修正对距离加以延伸，以便至少部分地修正差异的平均数对每个位置处在进化中产生的实际差异数的低估。关于邻接树的详细信息及其构建方法，可以在例如Kao(编辑)Encyclopedia of Algorithms(2008),Springer,NewYork中找到。

核酸分子：如本文所使用的，术语“核酸分子”是指核苷酸的聚合形式，其可以包括RNA、cDNA、基因组DNA的有义链和反义链，及上述者的合成形式和混合聚合物。核苷酸可以指核糖核苷酸、脱氧核糖核苷酸或任一种类型核苷酸的修饰形式。如本文所使用的，“核酸分子”与“核酸”和“多核苷酸”同义。除非明确指出，否则核酸分子的长度通常为至少10个碱基。该术语包括DNA的单链和双链形式。核酸分子可以同时包括天然存在的和经过修饰的核苷酸，通过天然存在的和/或非天然存在的核苷酸连接键连接在一起。

核酸分子可以被化学或生物化学修饰，或者可以含有非天然的或衍生的核苷碱基，这是本领域技术人员容易认识到的。这些修饰包括，例如：标记、甲基化、用类似物替代一个或多个天然存在的核苷酸、核苷酸内部修饰(例如不带电的连接键；例如甲基膦酸酯、磷酸三酯、氨基磷酸酯、氨基甲酸酯等；带电荷的连接键：例如，硫代磷酸酯、二硫代磷酸酯等；悬垂部分(pendentmoieties)：例如，肽；嵌入剂：例如，吖啶、补骨脂素等；螯合剂；烷化剂；和经过修饰的连接键：例如，α-异头核酸等)。术语“核酸分子”还包括任何拓扑构象，例如包括：单链、双链、部分二重化、三重化、发夹化、环形和挂锁构象。

蛋白质/多肽：术语“蛋白质“和”多肽“在本文中可互换使用。该术语是指通过肽键连接的氨基酸的连续分子链。该术语不指产物的具体长度。因此，“肽”、“寡肽”和“蛋白质”包含在多肽的定义中。该术语包括含有在体内或体外制造的多肽共翻译和/或翻译后修饰的多肽；例如但不限于：糖基化、乙酰化、磷酸化、PEG化和硫酸化。此外，蛋白片段，类似物(包括不是由遗传密码编码的氨基酸；例如高半胱氨酸、鸟氨酸、对乙酰基苯丙氨酸、D-氨基酸和肌酸)，天然或人工突变体，变异体，融合蛋白，衍生化的残基(例如氨基的烷基化，羧基的乙酰化和酯化)，以及前述任意的组合，也包含在多肽的含义内。

典型地，蛋白质具有功能。然而，蛋白质也包括不具有功能活性的寡肽和较小的连续氨基酸序列。功能性蛋白的非限制性实例包括：受体，受体配体，细胞因子，抗体，免疫调节分子，信号分子，荧光蛋白，具有杀虫或杀生物活性的蛋白质，和酶。有用的一般种类的酶包括，但不仅限于：蛋白酶，纤维素酶，氧化还原酶，脂肪酶，裂解酶，连接酶，半纤维素酶，漆酶，淀粉酶，葡糖淀粉酶，酯酶，脱氢酶，乳糖酶，多聚半乳糖醛酸酶，半乳糖苷酶，木质素酶，氧化酶，过氧化物酶，转移酶，葡萄糖异构酶，腈水解酶，羟化酶，水解酶，聚合酶及解聚酶。除了酶之外，可以通过本文公开的人造核酸分子编码的蛋白质包括但不仅限于：转录因子，抗体，受体，生长因子(PDGF，EGF，FGF，SCF，HGF，TGF，TNF，胰岛素，IGF，LIF，制瘤素，CSF等中的任意者)，免疫调节剂，肽激素，细胞因子，整联蛋白，白细胞介素，粘附分子，凝血调节分子(thrombomodulatory molecule)，蛋白酶抑制剂，血管抑素，防御素，分化抗原簇，干扰素，趋化因子，抗原包括来自感染性病毒和生物的抗原，癌基因产物，血小板生成素，红细胞生成素，组织纤溶酶原激活剂，和期望在临床、诊断或兽医环境中使用的任何其他生物活性蛋白质。所有这些蛋白质在文献中有明确定义(例如，通过示例性的氨基酸序列)，并且在本文中如此限定。此外，还包括这些蛋白质的缺失突变体，这些蛋白质的各个结构域，用这些蛋白质制成的融合蛋白，以及这些蛋白质的混合物。

序列同一性：如本文中所使用的，术语“序列同一性”或“同一性”在两个核酸或多肽序列的语境下，是指当在特定比较窗口中对齐两个序列以实现最大的相应度时，两个序列中相同的残基。

如本文所使用的，术语“序列同一性的百分比”可以指通过比较两个在比较窗口中最佳对齐的序列(例如核酸序列和氨基酸序列)而确定的数值，其中比较窗口中的序列部分与用于最佳对齐的两个序列的参考序列(其不含有添加或缺失)相比，可以包含添加或缺失(即缺口)。百分比如下计算：确定在两个序列中出现相同核苷酸或氨基酸残基的位置的数目，从而产生匹配位置的数目，并用该匹配位置的数目除以该比较窗口中位置的总数，其结果乘以100，生成序列同一性的百分比。

在特定实施方案中，可以对核酸编码序列进行比较，以确定序列同一性。在这些和其他实施方案中，编码序列可以在不允许添加或缺失(即缺口)的条件下进行比对。

用于比对比较序列的方法是本领域众所周知的。各种程序和比对算法在例如下文中有描述：Smith and Waterman(1981)Adv.Appl.Math.2:482；Needleman and Wunsch(1970)J.Mol.Biol.48:443；Pearson and Lipman(1988)Proc.Natl.Acad.Sci.U.S.A.85:2444；Higgins and Sharp(1988)Gene 73:237-44；Higgins and Sharp(1989)CABIOS 5:151-3；Corpet et al.(1988)Nucleic AcidsRes.16:10881-90；Huang et al.(1992)Comp.Appl.Biosci.8:155-65；Pearson et al.(1994)Methods Mol.Biol.24:307-31；Tatiana et al.(1999)FEMS Microbiol.Lett.174:247-50。序列比对方法和同源性计算的详细说明可以在下列文献中找到：例如Altschul et al.(1990)J.Mol.Biol.215:403-10。或者，比较序列的最佳比对可以用生物信息软件(DNASTAR,Inc.)LASERGENE^TM套装中的MEGALIGN^TM程序，使用默认参数来实施。该程序实现了在下列参考文献中描述的多个比对方案(scheme)：Dayhoff(1978)A model of evolutionary changein proteins-Matrices for detecting distant relationships，该文位于Dayhoff(编辑)Atlas of Protein Sequence and Structure,National Biomedical Research Foundation,Washington D.C.Vol.5,Suppl.3,345-358页；Hein(1990)Methods Enzymol.183:626-45；Higginsand Sharp(1989),前文；Myersand Muller(1988)CABIOS4:11-7；Robinson(1971)Comb.Theor 11:105；Santou and Nes(1987)Mol.Biol.Evol.4:406-25；Sneathand Sokal(1973)Numerical Taxonomy--the Principles andPractice of Numerical Taxonomy,Freeman Press,San Francisco,Calif.；和Wilburand Lipman(1983)Proc.Natl.Acad.Sci.USA 80:726-30。

NCBI基本局部比对搜索工具(BLAST^TM；Altschul et al.(1990))可以从多个来源获得，包括NCBI(Bethesda,MD)和互联网上，与多种序列分析程序关联使用。关于如何使用该程序确定序列同一性的描述可以在互联网上通过BLAST^TM的“帮助”部分获得。对于核酸序列的比较，可以采用BLAST^TM(Blastn)程序的“Blast 2sequences”功能，使用设置为默认参数的默认BLOSUM62矩阵。当通过这一方法进行评估时，与参考序列具有越大相似性的核酸序列将显示越高的百分比同一性。

人造的：如本文对参考核苷酸序列(包含人造核苷酸序列的核酸分子)所使用的，术语“人造的”是指序列是被设计出来的(例如在计算机上)，例如为了表达所编码感兴趣多肽的目的而被设计出来的。术语“人造核苷酸”还包括通过基因合成领域技术人员已知的体外或体内方法或者通过体外或体内方法的组合，利用化学合成的寡核苷酸制造的核酸分子。

IV.编码氨基酸重复区的趋异且密码子优化的核酸序列

本公开提供了用于设计趋异且密码子优化的核酸序列的方法。在一些实施方案中，本发明的方法可以用于设计编码感兴趣多肽的核酸序列，其中该感兴趣多肽包含至少一个氨基酸重复区。在某些实施方案中，感兴趣多肽可以包含多个氨基酸重复区。每个氨基酸重复区域可以包含一个或多个氨基酸重复单元。由包含通过本发明方法设计的趋异的、密码子优化的核酸序列的序列编码的多肽在一些实施方案中可以包含长度为例如10-300个氨基酸的氨基酸重复区。在实施方案中，使用本方法可避免某些通常与编码具有氨基酸重复区的多肽的人造核苷酸序列相伴的问题。在一些实施方案中，使用本公开方法可以避免的问题包括：转录本不稳定性；异源基因不稳定性；相对低表达；低效基因合成；低效基因测序。

在一些实施方案中，只有核酸分子的编码区是用根据本公开的方法设计的。然而，在一些实施方案中，可能理想的是包含某些非编码序列，其在编码序列的上游、下游、或在其中(例如，内含子)。因此，在一些实施方案中，在包含所述人造编码序列的核酸分子中所包含的任何非编码序列的序列均可以考虑在本公开的方法之内。

在一些实施方案中，提供了编码包含至少一个氨基酸重复单元的多肽的人造核酸序列。用于设计编码感兴趣多肽的趋异的、密码子优化的核酸序列的方法一般是从期望的多肽或待表达的基因产物出发的。或者，该方法可以从有已知或未知功能的基因或核酸序列出发。例如，可以用该方法设计表达多肽的人造核酸序列，用于例如研究由该核酸序列编码的多肽的功能。在一些实施方案中，可以基于参考蛋白质或参考蛋白质结构域设计或衍生感兴趣多肽。在其他实施方案中，可从头设计感兴趣多肽，以便，例如，获得具有特定氨基酸序列的分子的某些预期的生物化学或生物物理学性质，或者获得待用于筛选期望活性的分子。在实施方案中，可以设计编码任何感兴趣多肽的全部或部分的趋异的、密码子优化的核酸分子。

本发明的方法可以出于本领域技术人员已知的多种原因用于设计人造核酸序列；例如用于增加表达，使被表达的核酸序列适应新的宿主细胞或生物，和向所编码的多肽中导入功能性和/或非功能性突变。通常，在参考氨基酸序列是天然存在的基因产物，或者是天然存在的基因产物的一部分(例如分离的蛋白结构域)的实施方案中，编码参考氨基酸序列的天然存在的核酸序列可以通过例如搜索基因组数据库或从源基因组克隆而获得。在许多情况下，这些核酸序列的同源物或直系同源物也可以在其他生物的基因组中被发现。在实施方案中，可以从编码任何参考多肽的序列设计或者衍生编码感兴趣多肽的全部或一部分的趋异的、密码子优化的核酸序列。在特定实施方案中，参考多肽和感兴趣多肽包括至少一个氨基酸重复区。

在一些实施方案中，所公开的方法涉及对人造核酸分子的核苷酸序列进行优化，从而使所编码多肽的一级结构不变。所编码多肽的结构最大程度地被多肽的氨基酸序列所确定。因此，所编码多肽的期望结构对其核苷酸编码序列构成限制，该限制取决于遗传编码的简并性和标准密码子用法。在本发明的某些实施方案中，可以在计算机上设计人造核酸分子，使核酸分子包含从编码感兴趣多肽的全部或部分(例如氨基酸重复区)的密码子空间中选出的、特定的趋异且密码子优化的序列。通过组入选出的特定序列，可以避免某些与编码包含氨基酸重复结构域的多肽的核苷酸序列相关的问题，并且与仅经过密码子优化(例如通过参考表达宿主生物的密码子使用偏好而优化)的序列相比，可以实现一种或多种期望的性质(例如提高表达)。

在一些实施方案中，接下来可以从编码整个感兴趣蛋白的核酸序列分别提取出各个编码感兴趣多肽的氨基酸重复区的核酸序列(作为单独的序列)。所提取的序列可以用于设计一组密码子优化的核苷酸序列；例如，一组核苷酸序列，其中各核苷酸序列各自编码感兴趣多肽的氨基酸重复区。该密码子优化的核苷酸序列随后可用于设计趋异的、密码子优化的核苷酸序列。在设计密码子优化的核苷酸序列时，可以考虑各种因素。这些因素可以包括表达宿主生物的密码子使用偏好。

有多种多样的方法可供本领域技术人员用来根据预定的参数优化核酸分子的编码序列(例如，编码感兴趣肽的氨基酸重复区的核苷酸序列)。例如，技术人员可以通过检查来优化编码序列，以便，例如，更贴合表达宿主生物的密码子使用偏好。更常见地，可以使用计算机实现的软件程序对编码序列进行优化。这些软件程序可以包括一个或多个算法用于优化选自下组的因素：可能影响所编码感兴趣多肽的表达的因素，可能影响转录本翻译起始速度的因素，和可能影响所编码多肽或其前体翻译延伸速度的因素。这些软件程序的特定实例包括，但不仅限于，OPTGENE^TM(Ocimum Biosolutions),Accelrys GCG^TM(Accelrys Software,Inc.),OPTIMIZER^TM(在万维网上genomes.urv.es/OPTIMIZER可供公众使用),和OPTIMUMGENE^TM(GenScript)。

在一些实施方案中，所提取的各自编码感兴趣多肽的氨基酸重复区的序列可以首先通过推导由该提取序列编码的氨基酸序列(例如，在计算机上翻译)进行密码子优化。在进一步的实施方案中，可直接利用氨基酸重复区的氨基酸序列来获得密码子优化的核酸序列。在特定的实施方案中，可以利用每个氨基酸重复区的氨基酸序列(从核酸序列推导的或者直接提供的)来推导编码氨基酸重复区的密码子优化的核酸序列(例如计算机逆向翻译)，例如通过使用能够根据预定参数优化编码序列的计算机实现的软件程序。在特定的实例中，密码子优化的核酸序列可以用标准遗传编码和表达宿主生物的合适密码子使用偏好表来推导。在一些实施方案中，可能理想的是推导多个密码子优化的核酸序列，它们编码每个氨基酸重复区。因此，在特定的实例中，可以利用一个单氨基酸重复区推导编码该氨基酸重复区的一组1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20，或更多个密码子优化的核酸序列。在一些实施方案中，推导出的编码氨基酸重复区的密码子优化核酸序列可以通过计算机实现的软件程序输出为文本文件，或以其他方式为从业者记录。例如，对于编码单个氨基酸重复区的全部一组推导的密码子优化核酸序列，计算机实现的软件程序可以将它们输出为相应数目的文本文件。

在一些实施方案中，对于推导出的各个编码氨基酸重复区的密码子优化核酸序列，可以通过序列同源性进行比对。在特定的实例中，每组与感兴趣多肽的全部相似氨基酸重复区对应的推导的密码子优化核酸序列中的每一个序列均被彼此比对。因此，若多肽具有10个被鉴定为相似重复的区域、并且其中每一个区域推导出10个密码子优化核酸序列，则该多肽在设计过程的这一阶段中可以用100个核酸序列的比对来代表。在特定的实例中，推导的密码子优化的核酸序列与蛋白质编码区的片段对应，因此可在不允许“缺口”的条件下进行比对。

在一些实施方案中，各个推导的密码子优化的核酸序列可以用计算机实现的软件程序(例如可以在www.megasoftware.net/获得的CLUSTALW^TM,Mega3.1)加以比对。在对推导序列进行比对的过程中或之后，可以由算法(例如CLUSTAL^TM算法)来遵循本领域技术人员已知的方法组装邻接树。

在特定的实施方案中，可以利用邻接树来为感兴趣多肽中的某个氨基酸重复区选择具体的趋异的、密码子优化的核酸序列。在一些实施方案中，具体的趋异的、密码子优化的核酸序列可以从对应于特定氨基酸重复区的一组推导的密码子优化核酸序列中选出。在其他实施方案中，可利用邻接树为感兴趣多肽中的每一个氨基酸重复区选择具体的趋异、密码子优化的核酸序列。在特定的实例中，对应于特定的氨基酸重复区的一组推导的密码子优化核酸序列中的一个从邻接树分支最深的部分中被选出，并且被选中的序列是趋异、密码子优化的核酸序列。

根据前文，本发明的方法可用于提供编码感兴趣多肽的氨基酸重复区的单个趋异、密码子优化的核酸序列。在特定的实例中，方法可用于提供一组单个趋异、密码子优化的核酸序列，其中每一个序列编码感兴趣多肽的不同氨基酸重复区。例如，可以提供一组单个趋异、密码子优化的核酸序列，从而使感兴趣多肽中每一个氨基酸重复区均被编码它的单个趋异、密码子优化的核酸序列所代表。

在一些实施方案中，对于选定的编码氨基酸重复区的趋异、密码子优化的核酸序列，可将其整合到编码整个感兴趣多肽的优化核酸序列中，从而使灌该选定的趋异、密码子优化的核酸序列在编码整个感兴趣多肽的优化核酸序列中被整合到该特定重复相应的合适位置处，同时保持感兴趣多肽的正确阅读框。例如，对于一组单趋异、密码子优化的核酸序列，其中每一个序列编码感兴趣多肽的不同氨基酸重复区，其所有成员可以被整合到编码整个感兴趣多肽的优化核酸序列中，从而使该组的所有成员均被整合在感兴趣多肽的整个序列中特定重复相应的合适位置处。在特定的实例中，代表感兴趣多肽的每一个氨基酸重复的组中的所有趋异、单个密码子优化的核酸序列可以被整合在编码整个感兴趣多肽的优化核酸序列中特定重复相应的合适位置处。因此，本发明的一些实施方案可用于产生编码感兴趣多肽的人造核酸序列，其中所述多肽的每个氨基酸重复区由一个趋异的、密码子优化的核酸序列编码。

在许多实施方案中，可能理想的是对编码多肽的整个核酸序列进行优化。此外，包含编码感兴趣多肽的序列的核酸分子的非编码区也可以被优化。因此，在一些实施方案中，本发明还包括这样的人造核酸分子，其包含编码感兴趣多肽的优化序列，其中该优化序列包含如前文所述的编码氨基酸重复区的趋异、密码子优化的核酸序列。核酸序列的优化可以包括提高宿主产生外来蛋白质的能力的步骤，以及帮助研究人员高效设计和组装表达构建体的步骤。优化策略可以包括，例如，修饰翻译起始区，改变mRNA结构元件，和使用不同的密码子偏好。

任何本领域技术人员可用的方法均可用于根据预定的参数优化核酸序列(例如，编码感兴趣肽的氨基酸重复区的核苷酸序列)。例如，可以使用软件程序，例如但不仅限于，OPTGENE^TM(Ocimum Biosolutions),ACCELRYSGCG^TM(Accelrys Software,Inc.),OPTIMIZER^TM(在万维网上的genomes.urv.es/OPTIMIZER供公众使用),和OPTIMUMGENE^TM(GenScript)。在优化核苷酸序列(例如，编码感兴趣多肽的核苷酸序列)过程中可以考虑的因素包括，但不仅限于：可能影响所编码感兴趣多肽的表达的因素，可能影响转录本翻译起始速度的因素，和可能影响所编码多肽或其前体翻译延伸速度的因素。在这些因素中选择哪些在设计一组密码子优化序列过程中加以考虑属于技术人员的自由裁量范围。

可能影响由核酸序列编码的感兴趣多肽的表达的因素可能受到所选用来编码该多肽的氨基酸的特定密码子的影响。影响从模板核酸序列产生mRNA的速度的因素可能包括：用于转录的RNA聚合酶类型；表达系统中存在的RNA聚合酶水平；和所用的转录启动子序列。mRNA水平还可能受到mRNA降解速度的影响，后者则可能受到mRNA去稳定性基序的影响；RNA酶识别序列；mRNA二级结构；和多聚腺苷酸添加信号。mRNA水平还可能受到下述因素的影响：翻译起始位点处、核糖体结合位点处、起始密码子处，和/或编码序列起始10-50个密码子附近(或者开放阅读框内部或之后的其他地方)的mRNA结构；在开放阅读框之前或内部存在的转录终止基序；和所转录序列内的信号，例如指导、改变或修饰mRNA剪切和/或细胞核输出的信号。影响从模板序列产生mRNA的速度的因素的一个具体实例是核苷酸重复诱导的聚合酶滑移(slippage)。核苷酸重复诱导的聚合酶滑移涉及核苷酸序列重复，其已经显示可造成DNA聚合酶的滑移或停顿(stuttering)，这会导致移码突变。这些核苷酸重复还会导致RNA聚合酶滑移。例如，在具有高G+C含量偏好的生物中，可能有更高程度的G或C核苷酸重复。因此，减少诱导RNA聚合酶滑移的可能性的一个方法包括改变G或C核苷酸的延伸重复。

可能影响特定转录本翻译起始速度的因素包括：核糖体结合位点的序列；核糖体结合位点上游的序列；起始密码子周围的序列(例如Kozak共有序列)；内部核糖体进入位点的存在、相对位置和序列；核糖体进入位点(或者mRNA的核糖体结合位点或5’端)与起始密码子之间的序列和距离；翻译起始位点处的mRNA结构；核糖体结合位点处的mRNA结构；起始密码子处的mRNA结构；编码序列最初10-50个密码子周围的mRNA结构；最先10-20个密码子对的序列；最先1-20个密码子的GC偏好；在临近起始密码子的密码子处所用的密码子；起码密码子的序列(AUG,UUG,或GUG)；核糖体浓度；诱导表达前的生长条件；表达期间的生长条件；诱导表达前的温度；和表达期间的温度。

可能影响特定转录本翻译起始速度的因素的具体实例包括替代翻译起始(alternate translational initiation)和干扰性的mRNA二级结构。若人造多核苷酸序列意外地含有一个或多个能够发挥核糖体结合位点(RBS)功能的基序，就可能发生替代翻译起始。这些位点能够导致从基因内部的位点起始翻译截短的蛋白质。减少产生截短蛋白质(其在纯化过程中可能难以除去)的可能性的一个方法包括修改优化的多核苷酸序列中假定的内部RBS序列。干扰性二级结构可能会隔离RBS序列或起始密码子，人们已经将干扰性二级结构与蛋白质表达降低关联起来。茎环结构也能够导致转录暂停和减弱。因此，优化的多核苷酸序列在RBS和核苷酸序列的基因编码区中可能含有最少的二级结构，以便为提高转录和翻译提供条件。

可能影响翻译延伸速度的因素包括带电tRNA的水平(Elf et al.(2003)Science 300:1718-22)，其取决于tRNA的浓度、tRNA带电率、和氨基酸可得性。例如，由根据宿主生物密码子使用偏好的稀有(非优选)密码子导致的翻译暂停可能会降低异源蛋白质的表达速度。稀有密码子诱导的翻译暂停包括在感兴趣的多核苷酸中存在宿主生物中罕用的密码子，并可能由于它们在可得tRNA池中的稀缺而对蛋白质翻译产生负面影响。这些因素还包括核糖体的RNA选择速度(解码速率)，其取决于：密码子-反密码子相互作用的强度；在前密码子(P-位密码子)；在前密码子的摆动碱基；以及正在被阅读的密码子的摆动碱基。可能影响核糖体保真度的因素包括那些影响核糖体移码的因素，例如均聚物区段(stretches)，G/C岛，A/T岛屿，和暂停位点附近的同聚物区段。此外，某些多肽在核糖体出口通道中可能受阻，这部分地取决于该多肽的最先10-20个氨基酸的序列。鉴于上述情况，改进宿主生物中最佳翻译的一个方法包括实施可能导致人造核酸序列中的稀有宿主密码子被修饰的密码子优化。

另一类可能影响(虽然是间接地影响)异源蛋白质表达的核酸序列元件包括限制位点。因此，核酸序列的优化可以包括对可能例如对后续的转录单元亚克隆到宿主表达载体内的克隆造成干扰的限制位点进行修饰。

可以优化核酸序列的全部或一部分。在一些实例中，期望的表达调制可以通过优化基本上整个基因来实现。在其它实例中，期望的调制可以通过优化基因的一部分，而非全部，而实现。而且，可以对任何编码序列的密码子用法加以调整来实现期望的性质，例如，在特定的表达宿主细胞中的高水平表达。这种优化的起点可以是这样的编码序列，其仅由遵从表达宿主密码子使用偏好的常用或优选密码子组成，或者这样的编码序列，其含有常用和非常用密码子的混合。优化核酸序列可能对基因表达和蛋白质产生具有负面或正面的影响。例如，用更常用的密码子代替稀有或非优选密码子可能影响从包含该替换密码子的序列转录出来的mRNA分子的半衰期，或者通过导入二级结构而改变其结构，而影响其翻译。因此，在某些情况下，必须进一步对优化的序列进行改变。

在一些实施方案中，包含编码氨基酸重复区的趋异的、密码子优化的核酸序列的人造核酸序列可以包括多于一个经优化的序列。例如，这样的序列可以编码这样的融合多肽，其包括多个如本文所述的多肽，或者包括至少一个如本文所述的多肽和无关序列。融合多肽可以用标准技术，包括化学缀合来加以制备，以便允许翻译成保留两个组分多肽的至少一种生物活性的单一的融合多肽。可利用肽接头(linker)序列将融合多肽的多肽组分分隔一定的距离，其足以确保每个多肽折叠成适当的二级和三级结构。这样的肽接头序列可以用本领域众所周知的标准技术整合到融合多肽中。

包含编码氨基酸重复区的趋异的、密码子优化的核酸序列的人造核酸序列可以表达供用于多种用途，例如产生重组多肽；开发新型表达系统；与其它核酸序列比较表达特性；和用于诊断用途。

V.趋异的、密码子优化的核酸序列的表达

本公开提供了在细胞的细胞质和/或周质中产生包含氨基酸重复的感兴趣多肽的方法。一些实施方案利用被优化用于在宿主生物(例如细菌宿主生物)中异源表达的人造核酸序列。编码包含氨基酸重复区的多肽的优化人造核酸序列可以包含编码氨基酸重复区的趋异的、密码子优化的核酸序列。在特定的实施方案中，可以将这样的优化人造核酸序列连接到表达载体中，可以将该包含优化核酸序列的表达载体导入表达宿主细胞中(例如通过转化)，在其中从该优化的人造核酸序列表达所述多肽。

包含编码感兴趣多肽的人造核酸序列的核酸分子可以通过本领域技术人员已知的方法产生。例如，在一些实施方案中，可以可靠地合成期望核酸序列的相对短的区段(segment)，随后将它们串联。DNA合成领域的进步已经允许人们可靠地合成更长的核酸序列，以及相对更短的核酸区段。合成技术允许以合理的准确度合成300个碱基或者更长的寡核苷酸。因此，在一些实施方案中，可以合成更长的序列，从而可能不需要串联。然而，合成化学产生的寡核苷酸的长度通常是20-100bp。在一些实施方案中，合成的基因或基因片段可以用PCR以分步的方式，通过交替(alternating)、重叠(overlapping)的合成有义和反义寡聚物(例如长度为90-110bp)的退火和延伸来制备，这些寡聚物被设计为编码最终的期望序列。

寡核苷酸的生产可以包括寡聚合成(oligo-synthesis)，其是依照亚磷酰胺方案以固相合成的形式实施的。简而言之，可以将具有用5’-O-二甲氧基三苯甲基(DMT)保护的5’-OH官能团的第一个核苷酸与作为固相的聚苯乙烯珠偶联。接着，可通过酸处理除去DMT基团，产生游离的5’-OH基。然后，可添加选定的亚磷酰胺，其在弱酸条件下转变成反应性中间产物，并与游离的5’-OH基偶联，产生新的亚磷酸酯键。这些反应可以在四氢呋喃或二甲亚砜中发生。因为所添加的核苷酸的5’-OH被保护，所以只有一个核苷酸被添加到生长中的链上。对不反应的5’-OH基可以予以封端(capped)，从而使它们无法继续参与合成过程，并产生具有缺失的寡核苷酸。这可以在用乙酸和1-甲基咪唑处理后通过乙酰化实现。最后，可添加水和碘将亚磷酸酯键氧化成磷酸二酯键。在步骤与步骤之间，生产系统可以通过用合适的溶剂洗涤来预处理(condition)。在根据需要重复该步骤序列之后，可以最终从柱上切离寡核苷酸，并在高温下用氢氧化铵处理之，以除去所有残余的保护基团。通过使用光刻方法(photolithography approach)，例如由NIMBLEGEN^TM(Febit,Germany)提供的，可以使这一过程变得更加高效。

在通过固相合成产生出短的寡核苷酸之后，可以将寡核苷酸组装成更大的DNA片段，例如大约500bp的尺寸。这通常通过多种酶辅助的方法之一来实现。例如，短的重复寡核苷酸对可用于通过Klenow延伸反应产生更长的dsDNA分子。可以将相应的寡核苷酸混合、杂交，并随后通过PCA转变成更大的组装物。在PCA反应中，合起来代表靶定的双链DNA片段的所有寡核苷酸均存在。通过反复熔解和再杂交，这些寡核苷酸被逐步延伸成更长的区段，直到某一群体达到期望的长度。注意，这一反应是在没有过量的末端寡核苷酸的条件下进行的，因此它不是扩增反应。相反，每个全长片段均由寡核苷酸和其延伸物构成，从而减少了通过聚合酶作用导入错误的机会。PCA的一个可替代方法是聚合酶组件复用(polymerase assembly multiplexing)(PAM)，其中向寡核苷酸池中添加末端引物，从而使只有特定亚组的寡核苷酸被扩增。在第二轮PAM反应中，使用新的一组引物将多个寡核苷酸重组成单个DNA分子。

大寡核苷酸(例如，通过PCA、PMA等产生的寡核苷酸)可以被组装成更大的DNA分子，例如通过限制性消化和连接。

有多种多样的表达系统可用于从本发明的优化核酸序列表达多肽。在一些实施方案中，表达系统可以是，例如但不仅限于：细菌表达系统，如大肠杆菌、沙门菌属、芽孢杆菌属、链霉菌属、假单胞菌属(例如，荧光假单胞菌)、富养罗尔氏菌(Ralstonia eutropha)、衣藻属(Chlamydomonas spp.)；酵母表达系统，包括酵母属、毕赤酵母属、克雷伯氏菌属和念珠菌属、酿酒酵母、巴斯德毕赤酵母、甲醇毕赤酵母，和乳酸克鲁维酵母；真菌表达系统，包括隐孢子虫属(Cryptosporidium spp.)和木霉属(Trichoderma spp.)；丝状真菌蛋白生产系统；原生动物表达系统，包括恶性疟原虫和利什曼原虫；模式生物，包括秀丽隐杆线虫、果蝇和非洲爪蟾；植物，包括大豆、矮菜豆(bushbean)、玉米、棉花、烟草、和拟南芥；哺乳动物组织培养表达系统，包括COS细胞、中国仓鼠卵巢细胞、和成纤维细胞如3T3细胞；感染了腺病毒的细胞系；昆虫细胞系，例如那些来自用于生长杆状病毒的夜蛾属的细胞系；从活细胞提取物，例如大肠杆菌提取物、小麦胚芽提取物、兔网织红细胞裂解物制备的体外表达系统；和通过组装纯化的个别组分而制备的体外表达系统。

按照在原核生物细胞或表达系统中表达包含氨基酸重复区的感兴趣多肽的实施方案，可以首先将编码感兴趣多肽的优化核酸序列克隆到原核生物载体中：将具有复制原点和用于插入核酸序列的方便的限制位点(其可能包含多接头(polylinker))的载体线性化。用于插入核酸序列的载体还可以具有用于选择的标记基因，其可以赋予抗生素抗性或提供另一种区别特征(例如发色团或荧光团形成)。可用于标记辅助选择的抗生素试剂种类繁多(例如，四环素、氯霉素、放线菌素、新霉素、氨苄青霉素、潮霉素、重金属等)。其他标记包括β-半乳糖苷酶，其若被表达可转化底物X-gal从而提供蓝色。用于在细菌中克隆的市售载体有很多，并且这些载体是本领域技术人员所熟知的。在一些实施方案中，对于包含一个或多个优化人造核酸序列、所述优化人造核酸序列包括编码氨基酸重复区的趋异的、密码子优化的核酸序列的原核生物载体，随后可以通过任何方便的手段导入到合适的克隆宿主中，该手段包括但不仅限于：磷酸钙沉淀DNA、融合、转染、和接合(conjugation)。然后，细胞可以生长在合适的选择性营养培养基中。存活的细胞可以收获、裂解并分离质粒。

原核生物表达载体可能有下述特征：具有能够在合适表达宿主中发挥功能(常用于附加体维持(episomal maintenance))的复制原点，和用于选择的标记。对于非整合(unintegrated)的载体或构建体，复制原点通常提供多个拷贝，例如平均至少大约5个拷贝。表达载体通常还具有能够在表达宿主中发挥功能的启动子。有多种启动子可供使用，并且特定的启动子可以，例如，提供高水平的可诱导型或组成型转录。可以在一些实施方案中使用的示例启动子包括，但不仅限于：β-内酰胺酶；α-半乳糖苷酶；λP_L或λP_R启动子；trpE启动子；trp-lac启动子；T7启动子(特别是基因9和10)；和cI^ts。

包含优化序列的核酸分子，其中该优化序列包括编码氨基酸重复区的趋异、密码子优化的核酸序列，可以通过杂交(例如连接作用)与线性化的载体合并。当优化序列不具有起始密码子时，可以添加这种密码子。在一些实施方案中，可以将核酸分子插入到(以合适的阅读框)载体中存在的处于启动子的转录控制之下的编码序列中。在编码序列的5’端可以包含信号序列，以便允许多肽产物被分泌到周质空间中。通常，产物会产生在细胞内。

除了载体之外，可以利用DNA构建体转化表达宿主，在那里该构建体可以整合到表达宿主的基因组中。构建体可能缺少可提供附加体维持的复制起点。构建体可以至少包括转录和翻译起始和终止区，且编码包含氨基酸重复区的多肽的优化序列可以位于起始区和终止区之间，并处于它们的调节性控制之下。构建体可以进一步包括选择标记和/或其它功能序列，例如但不仅限于，用于整合到宿主基因组中的同源序列；与PCR引物杂交的序列；和限制位点。

在一些实施方案中，表达宿主可以是植物细胞，例如，植物组织培养物中或整株植物中的植物细胞。本发明的实施方案可以包括来自任何组织或者可以在任何地方发现的植物细胞，包括但不仅限于，胚胎、分生组织细胞、愈伤组织、花粉、叶、花药、根、根尖、花、种子、豆荚、茎，和组织培养物。本发明的人造优化核酸序列可以整合到合适的载体中，并通过本领域技术人员已知的任何方法导入到植物细胞中。例如，核酸分子可以通过如下方法导入植物细胞中，包括但不仅限于，用病毒载体转染，用质粒载体转化，电穿孔(Fromm et al.(1986)Nature 319:791-3)，脂质转染(Felgner et al.(1987)Proc.Natl.Acad.Sci.USA 84:7413-7)，显微注射(Mueller et al.(1978)Cell15:579-85)，土壤杆菌介导的转移(Fraley et al.(1983)Proc.Natl.Acad.Sci.USA80:4803-7)，直接DNA摄取，和微粒轰击(Klein et al.(1987)Nature 327:70)。

在一些实施方案中，可以被导入到植物细胞的特定部分(例如，通过纳米颗粒轰击)。可以导入核酸分子的植物细胞特定部分的实例包括，但不仅限于：胞质溶胶、细胞核、液泡膜、质体、黄化体(etioplasts)、有色体、白色体(leucoplast)、造油体(elaioplast)、造蛋白体(proteinoplasts)、淀粉体、叶绿体，和具有双层膜的内腔。

细胞转化(包括植物细胞转化)可以涉及构建在特定细胞中发挥功能的表达载体。这样的载体可以包括如下的DNA，其包含处于调节元件(例如启动子)控制之下或者与之可操作连接的基因。表达载体可以含有一个或多个这样可操作连接的基因/调节元件组合。载体可以处于质粒的形式，并可单独使用或者与其它质粒组合使用，从而提供使用如本文所述的转化方法转化的细胞，将转基因整合到植物细胞的遗传材料中。

植物表达载体可以包括至少一个遗传标记，至少一个遗传标记与调节元件(例如启动子)可操作连接，调节元件允许通过负选择(即，抑制不含可选择标记基因的细胞的生长)或者正选择(即，筛选由该遗传标记编码的产物)回收含有该标记的转化细胞。许多适合于植物转化的可选择标记基因是转化领域中众所周知的，例如，有的基因编码的酶可以将选择性化学剂如抗生素或除草剂代谢解毒，有的基因编码对抑制剂不敏感的改变的靶物。有正选择方法也是本领域已知的。在一些实施方案中，适合用于植物转化的可选择标记基因可以包括：处于植物调节信号控制之下的新霉素磷酸转移酶II(nptII)基因，其赋予卡那霉素抗性(参见，例如，Fraley et al.(1983)Proc.Natl.Acad.Sci.U.S.A.80:4803)；潮霉素磷酸转移酶基因，其赋予对抗生素潮霉素的抗性(参见，例如，Van den Elzen et al.(1985)Plant Mol.Biol.,5:299)；细菌来源的赋予对抗生素的抗性的标记基因，包括庆大霉素乙酰转移酶、链霉素磷酸转移酶、氨基糖苷-3’-腺苷酸转移酶，和博来霉素抗性决定子(参见Hayford et al.(1988)Plant Physiol.86:1216；Jones et al.(1987)Mol.Gen.Genet.210:86；Svab etal.(1990)Plant Mol.Biol.14:197；and Hille et al.(1986)Plant Mol.Biol.7:171)；赋予对除草剂如草甘膦、草铵膦或溴苯腈抗性的标记基因(Comai et al.(1985)Nature 317:741-744；Gordon-Kamm et al.(1990)Plant Cell 2:603-618；and Stalkeret al.(1988)Science 242:419-423)；和非细菌来源的标记基因，包括例如小鼠二氢叶酸还原酶，植物5-烯醇丙酮莽草酸-3-磷酸合酶，和植物乙酰乳酸合酶(参见Eichholtz et al.(1987)Somatic Cell Mol.Genet.13:67；Shah etal.(1986)Science 233:478；and Charest et al.(1990)Plant Cell Rep.8:643)。

适合于植物转化的另一类标记基因需要对推测的转化植物细胞进行筛选，而非直接遗传选择对毒性物质(例如抗生素)具有抗性的转化细胞。这些基因可能特别有用于定量或可视化基因在特定组织中表达的空间模式，并且它们常被称作报告基因，因为它们能够与基因或基因调节序列融合，用于研究基因表达。普遍用于筛选转化细胞的基因包括β-葡糖醛酸糖苷酶(GUS)，β-半乳糖苷酶，萤光素酶，和氯霉素乙酰转移酶。见Jefferson(1987)Plant Mol.Biol.Rep.5:387；Teeri et al.(1989)EMBO J.8:343；Koncz et al.(1987)Proc.Natl.Acad.Sci.U.S.A.84:131；和DeBlock et al.(1984)EMBO J.3:1681。可以获得用于在体内观察GUS活性而无需破坏植物组织的方法。Molecular Probespublication 2908(1993)IMAGENEGREEN^TM，第1-4页；和Naleway et al.(1991)J.Cell Biol.115:151。编码荧光蛋白(例如GFP,EGFP,EBFP,ECFP,和YFP)的基因也被用作原核生物和真核生物中基因表达的标记。见Chalfie et al.(1994)Science 263:802。因此，荧光蛋白和荧光蛋白的突变体可以用作可筛选标记。

植物表达载体中包含的编码序列的表达可以被包含调节元件(例如启动子)的核苷酸序列驱动。可用于植物细胞的多种类型的启动子当前在转化领域中是众所周知的，其它可以单独使用或者与这些启动子组合使用的调节元件亦是如此。

术语“启动子”是指可以位于转录起始的上游并可以参与RNA聚合酶和其它引发转录的蛋白质的识别和结合的DNA区域。“植物启动子”可以是能够在植物细胞中引发转录的启动子。处于发育控制之下的启动子的实例包括优先在某些组织中，例如在叶、根、种子、纤维、木质部导管、管胞、或厚壁组织中引发转录的启动子。这样的启动子被称为“组织优选的”。仅在某些组织中引发转录的启动子被称为“组织特异的”。“细胞类型特异的”启动子主要在一个或多个器官的某些细胞类型中，例如根或叶中的脉管细胞中驱动表达。“可诱导的”启动子是可以处于环境控制之下的启动子。可能影响可诱导启动子的转录的环境条件的实例包括，但不仅限于，厌氧条件或光的存在。组织特异的、组织优选的、细胞类型特异的、和可诱导的启动子构成了“非组成型”启动子类别。“组成型”启动子是在大多数环境条件下和在大多数组织和细胞类型中均活跃的启动子。

可诱导启动子可以与本发明的用于细胞内表达的优化核苷酸序列可操作连接。任选地，可诱导启动子可以与编码信号序列的核苷酸序列可操作连接，后者可以与本发明的用于细胞内表达的核苷酸序列操作连接。与可诱导启动子可操作连接的核苷酸序列的转录速度可能响应于诱导剂而增加。任何可诱导启动子均可用在本发明中。见Ward et al.(1993)Plant Mol.Biol.22:361-366。示例性的可诱导启动子包括，但不仅限于：来自响应于铜的ACEI系统的启动子(Mett et al.(1993)Proc.Natl.Acad.Sci.U.S.A.90:4567-71)；来自响应于苯磺酰胺除草剂安全剂的玉米In2基因(Hershey et al.(1991)Mol.GenGenetics 227:229-37；和Gatz et al.(1994)Mol.Gen.Genetics 243:32-8)；和来自Tn10的Tet抑制子(Gatz et al.(1991)Mol.Gen.Genetics 227:229-37)。特别有用的可诱导启动子可以是对植物通常不响应的诱导剂产生响应的启动子。示例性的可诱导启动子可以是来自类固醇激素基因的可诱导启动子，其转录活性受到糖皮质类固醇激素的诱导。Schena et al.(1991)Proc.Natl.Acad.Sci.U.S.A.88:10421-5。

或者，组成型启动子可以与本发明的用于细胞内表达的优化核苷酸序列可操作连接，或者组成型启动子可以与编码信号序列的核苷酸序列可操作连接，后者可以与本发明的用于细胞内表达的核苷酸序列可操作连接。不同的组成型启动子可用于本发明。示例性的组成型启动子包括，但不仅限于：来自植物病毒的启动子，例如来自CaMV的35S启动子(Odell et al.(1985)Nature313:810-2)；来自水稻肌动蛋白基因的启动子(McElroy et al.(1990)Plant Cell2:163-71)；泛素(Christensen et al.(1989)Plant Mol.Biol.12:619-32；和Christensen et al.(1992)Plant Mol.Biol.18:675-89)；pEMU(Last et al.(1991)Theor.Appl.Genet.81:581-8)；MAS(Velten et al.(1984)EMBO J.3:2723-30)；和玉米H3组蛋白(Lepetit et al.(1992)Mol.Gen.Genetics 231:276-85；和Atanassova et al.(1992)Plant Journal 2(3):291-300)。ALS启动子，欧洲油菜ALS3结构基因5’的Xba1/NcoI片段(或与Xba1/NcoI片段相似的核苷酸序列)，是特别有用的组成型启动子的代表。见国际PCT公开No.WO 96/30530。

作为替代，组织特异性启动子可以与本发明用于在细胞内表达的优化核苷酸序列可操作连接。任选地，组织特异性启动子可以与编码信号序列的核苷酸序列可操作连接，后者可以与本发明的用于细胞内表达的核苷酸序列可操作连接。用与组织特异性启动子可操作连接的本发明优化核苷酸序列转化的植物可以仅在、或者优先在特定的组织中产生该核苷酸序列的蛋白产物。任何组织特异的或组织优选的启动子均可用于本发明。示例性组织特异的或组织优选的启动子包括，但不仅限于：种子优选的启动子，例如来自菜豆蛋白(phaseolin)基因的启动子(Murai et al.(1983)Science 23:476-82；和Sengupta-Gopalan et al.(1985)Proc.Natl.Acad.Sci.U.S.A.82:3320-4)；叶特异性和光诱导的启动子，例如来自cab或rubisco的启动子(Simpson et al.(1985)EMBO J.4(11):2723-9；和Timko et al.(1985)Nature 318:579-82)；花药(anther)特异性启动子，例如来自LAT52的启动子(Twell et al.(1989)Mol.Gen.Genetics217:240-5)；花粉特异性启动子，例如来自Zm13的启动子(Guerrero et al.(1993)Mol.Gen.Genetics 244:161-168)；和小孢子(microspore)特异性启动子，例如来自apg的启动子(Twell et al.(1993)Sex.Plant Reprod.6:217-224)。

从本发明的优化核苷酸序列表达的多肽向亚细胞区室，例如叶绿体、液泡、过氧化物酶体、乙醛酸循环体、细胞壁、或线粒体的转移，或者转移以供分泌到质外体(apoplast)中，可以通过将编码信号序列的核苷酸序列与编码该多肽的序列的5’和/或3’区可操作连接来实现。结构基因5’和/或3’端的靶定序列可以在蛋白合成和加工过程中决定所编码的蛋白质可能最终被区室化(compartmentalized)在何处。或者，亚细胞区室靶定蛋白可以直接与纳米微粒连接，从而指导用感兴趣分子包被的纳米颗粒进入期望的亚细胞区室。许多信号序列是本领域已知的。参见例如Becker et al.(1992)Plant Mol.Biol.20:49；Close,P.S.(1993)Master’s Thesis,Iowa State University；Knoxet al.(1987)Plant Mol.Biol.9:3-17；Lerner et al.(1989)Plant Physiol.91:124-129；Fontes et al.(1991)Plant Cell 3:483-496；Matsuoka et al.(1991)Proc.Natl.Acad.Sci.U.S.A.88:834；Gould et al.(1989)J.Cell.Biol.108:1657；Creissen et al.(1991)Plant J.2:129；Kalderonet al.(1984)Cell 39:499-509；和Steifelet al.(1990)Plant Cell2:785-793。

鉴于上述情况，应当理解，适用于本发明实施方案中的表达宿主可以是单细胞原核生物或真核生物，但也可以是多细胞生物。表达宿主可以，例如，选自下组：细菌；藻类；真菌(例如，酵母)；昆虫细胞；植物细胞(例如，玉米、大豆和欧洲油菜)；动物细胞；杆状病毒；哺乳动物组织培养物；植物组织培养物；和全植物(例如，欧洲油菜)。在表达宿主是多细胞生物(例如，植物)的实施方案中，可以将载体或DNA构建体导入到多细胞生物的一个或多个细胞内，并在其中表达。在一些实例中，可以从包含导入的载体或DNA构建体的多细胞生物的一个或多个细胞产生整个生物。例如，从用感兴趣的核酸分子转化的植物细胞再生整个植物并随后选择基因组中整合有该核苷酸分子的植物的方法，是本领域已知的。

包含导入的载体或DNA构建体的表达宿主细胞可以在合适的培养基中生长(例如发酵)。在细胞生长到合适密度之后，可以收获细胞、裂解，并可以根据物理和化学特性对表达产物进行分离。在一些实施方案中，表达产物可能在含水培养基中在中等温度下是不溶的，并可以在略微提高的温度下通过去污剂提取进行纯化。参见美国专利5,235,041。视情况，随后可使用粗表达产物或纯化的表达产物以实现预期的目的。

本发明的实施方案允许表达任何感兴趣多肽。在一些实例中，感兴趣多肽本身可能适合应用(例如聚合物)。在其它实例中，在宿主内表达感兴趣多肽可能是为了产生其他期望的多肽、小分子或其他物质(例如酶)，或者在宿主内导入期望的表型。在特定的实例中，感兴趣多肽可以是：通常不在表达宿主的细胞中出现的蛋白；农艺基因产物；赋予对害虫或疾病抗性的多肽；苏云金杆菌蛋白；凝集素；维生素结合蛋白(例如，抗生物素蛋白)；酶抑制剂；昆虫特异性激素或信息素；对特定生物特异的肽或神经肽；毒液；负责单萜、倍半萜烯、类固醇、羟肟酸、苯丙衍生物或其他非蛋白分子的超积累的酶；参与生物活性分子(例如参与ω-3脂肪酸合成的酶)的修饰，包括翻译后修饰的酶；信号转导分子或促进信号转导的分子(例如，钙调蛋白)；疏水运动肽；膜通透酶，转运子、或通道；通道构成剂(channel former)或通道阻断剂；病毒侵入蛋白或由其衍生的复杂毒素；抗体或免疫毒素(例如，病毒特异性抗体)；发育阻滞(arrestive)蛋白；赋予对除草剂、杀真菌剂或其它有害小分子的抗性的多肽；支架蛋白；以及被设计为具有特定功能(例如可归因于氨基酸重复区的功能，例如结合特性或物理特性)的人造多肽。在一些实施方案中，感兴趣多肽可以来自自然界。在其他实施方案中，感兴趣多肽可以是通常不会出现在自然界中的多肽。

在一些实施方案中，可以产生两个或多个通过使用不同参数进行序列优化产生的不同候选序列(例如，其密码子用法不同的序列)，并测试以确定它们是否具有所期望的性质。可以评估候选序列，以便例如搜索调节元件如沉默子或增强子的存在，或者搜索在编码序列中可以通过改变密码子用法而转变成这类调节元件的区域的存在。额外的标准可以包括：特定的核苷酸(例如A,C,G或U，对特定氨基酸的密码子偏好)的富集或减少，或者特定mRNA二级或三级结构的存在或不存在。可以根据这些标准调整候选序列用于进一步的表达。

可以实验性地构建并评估有希望的候选序列。可以彼此独立地评估多个候选物；或者该过程可以是迭代性的，通过使用最有希望的候选物作为新起点，或者将两个或多个候选物的区域合并，从而产生新的杂交体。后续轮次的修饰和评估可能是理想的。

VI.包含趋异、密码子优化的核酸序列的遗传修饰生物

本公开还提供了包含趋异、密码子优化的核酸序列的遗传修饰生物。在一些实施方案中，这样的生物可以包括编码包含氨基酸重复区的感兴趣多肽的人造优化核酸序列。编码包含氨基酸重复区的感兴趣多肽的人造优化核酸序列可以和对生物而言适当的调节序列(例如启动子)可操作连接，如前文提出的。在特定的实施方案中，生物可以表达所述感兴趣多肽。在某些实施方案中，所述感兴趣多肽可以从本发明的优化核酸序列表达，其表达水平可以是由编码相同多肽但没有被优化的核酸序列表达的至少105％,110％,150％,200％,500％,1,000％,5,000％或者甚至10,000％。

在一些实施方案中，包含趋异的、密码子优化的核酸序列的遗传修饰生物是经过遗传修饰的植物，其中该遗传修饰植物的至少一些细胞包含一个或多个本发明的人造优化核酸。在实施方案的一个实例中，含有本发明核酸序列和可选择标记的质粒被导入到植物细胞中，例如通过本文前面列举的任何方法被导入到植物细胞中。可以从这些植物细胞中选出稳定整合了核酸序列和/或可选择标记的稳定转化体。在一些实施方案中，包含该核酸序列的植物细胞(例如，已经被选出的稳定转化体)可以繁殖产生包含该核酸序列的新植物细胞。包含本发明核酸序列的植物细胞可以是可再生细胞，其可用于再生整个植物。这些植物细胞和从其产生整株植物可以表达由该核酸分子编码的、包含氨基酸重复区的感兴趣多肽。

在这些和进一步的实施方案中，可以提供用于生成包含本发明的人造优化核酸序列的可再生的植物细胞(例如，用于组织培养)的方法，其中该植物细胞。组织培养物能够再生具有与可再生细胞基本上相同基因型的植物。这些组织培养物中的可再生细胞可以是胚，原生质体，分生细胞，愈伤组织，花粉，叶，花药，根，根尖，花，种子，荚果或茎。本发明的一些实施方案提供了从本发明的组织培养物再生的植物。

本发明还提供了用于产生稳定植物品系的方法，该植物品系包含本发明的人造优化核酸序列，其中该稳定植物品系的细胞可以表达由该核酸序列编码的包含氨基酸重复区的感兴趣多肽。产生稳定植物系的方法是本领域普通技术人员已知的，并可以包括如下技术，例如但不仅限于，自交、回交、杂交生产，和群体杂交(crosses to population)。包含本发明人造优化核酸序列的所有植物和植物细胞均在本发明的范围内。这些植物和植物细胞在自然界中不存在，并且与包含编码相同的含有氨基酸重复的多肽、但未依照本文公开的方法优化的核酸序列的植物或植物细胞相比，它们可以展示感兴趣多肽的有利表达特性。包含本发明核酸序列的植物细胞可用于和其它不同的植物细胞杂交，从而产生具有更优或期望特征的第一代(F₁)杂交细胞、种子和/或植物。

在特定的实施方案中，本发明的人造优化核酸序列用于产生遗传修饰的欧洲油菜植物。在进一步的实施方案中，使用本发明的人造优化核酸序列产生的遗传修饰植物可以是，例如但不仅限于：烟草，胡萝卜，玉米，加拿大油菜，油菜籽，棉花，棕榈，花生，大豆，甘蔗，稻属，拟南芥属，蓖麻属。

本发明进一步的实施方案提供了在细菌宿主中从人造优化核酸序列异源表达包含氨基酸重复区的感兴趣多肽。还包括能够用基于细菌的异源表达系统表达的、编码包含氨基酸重复区的重组蛋白的人造优化核酸序列。一些实例包括在细菌宿主细胞的细胞质中从人造优化核酸序列异源表达包含氨基酸重复区的感兴趣多肽。额外的实施方案包括在细菌宿主细胞的细胞周质中从人造优化核酸序列异源表达包含氨基酸重复区的感兴趣多肽。

在一些实施方案中，细菌宿主细胞可以选自大肠杆菌细胞或假单胞菌细胞的合适群体。在特定的实施方案中，宿主细胞可以是假单胞菌目的任何变形菌。宿主细胞可以是假单胞菌科的任何变形菌。在特定的实施方案中，宿主细胞可以从下列的一个或多个中选出：革兰氏阴性变形菌亚群1,2,3,5,7,12,15,17,18或19。

特定的实例包括在假单胞菌(pseudomonads)或与之密切相关的细菌中异源表达这样的感兴趣多肽。如本文所使用的，假单胞菌和与之密切相关的细菌与本文定义为“革兰(-)变形菌亚群1”的族群同延。“革兰(-)变形菌亚群1”是属于所述科和/或属的变形菌族群的更具体的定义，其属于在R.E.Buchanan and N.E.Gibbons(eds.)(1974),Bergey’s Manual of DeterminativeBacteriology,217-289页,第8版,The Williams&Wilkins Co.,Baltimore,Md.,USA中命名为“革兰氏阴性需氧菌棒和球菌”的分类学“部分”。细菌宿主细胞可以选自革兰氏阴性变形菌亚群18，其定义为荧光假单胞菌物种的所有亚种、变异体、菌株和其它亚种单元的族群，包括那些例如属于下列的菌(括号中显示的是举例菌株的ATCC或其它保藏编号)：荧光假单胞菌生物型A，也被称为生物型1或生物型I(ATCC 13525)；荧光假单胞菌生物型B，也称为生物型2或生物型II(ATCC 17816)；荧光假单胞菌生物型C，也被称为生物型3或生物型III(ATCC 17400)；荧光假单胞菌生物型F，也被称为生物型4或生物型IV(ATCC 12983)；荧光假单胞菌生物型G，也称为生物型5或生物型V(ATCC 17518)；荧光假单胞菌生物型VI；荧光假单胞菌Pf0-1；荧光假单胞菌Pf-5(ATCC BAA-477)；荧光假单胞菌SBW25；和荧光假单胞菌纤维素亚种(subsp.cellulosa)(NCIMB 10462)。细菌宿主细胞还可以从革兰氏阴性变形菌亚群19中选出，后者定义为荧光假单胞菌生物型A的所有菌株的族群，包括荧光假单胞菌菌株MB101，及其衍生物。

本发明的人造优化核酸序列可以通过任何本领域技术人员已知的方法，例如通过转化被导入到细菌宿主细胞中。用本发明的核酸序列转化细菌宿主细胞可以使用本领域已知的转化方法实施，并且细菌宿主细胞可以作为完整细胞或者作为原生质体(即，包含细胞质)被转化。转化方法包括穿孔方法(例如，电穿孔，原生质体融合，细菌接合，和二价阳离子处理，例如氯化钙处理或CaCl₂/Mg²⁺处理)，以及其它本领域已知的方法。参见，例如Morrison(1977)J.Bacteriol.132:349-51；Clark-Curtiss and Curtiss,(1983)Methods inEnzymology 101:347-62；Sambrook et al.(1989)Molecular Cloning,A LaboratoryManual,2nd ed.；Kriegler(1990)Gene Transfer and Expression:A LaboratoryManual；和Ausubel et al.(eds.)(1994)Current Protocols in Molecular Biology。

提供了如下的实施例来例示某些特定的特征和/或实施方案。这些实施例不应被认为将本公开限制于所举例的特定特征或实施方案。

实施例

实施例1：含有大重复DNA序列的编码序列的密码子优化

为了例示编码包含氨基酸重复区的多肽的核酸序列的优化，为由裂殖壶菌多不饱和脂肪酸(PUFA)合酶的“ORFA”编码的蛋白质设计了欧洲油菜优化的密码子区。

由裂殖壶菌PUFA合酶的“ORFA”编码的蛋白质的结构如图1所示。该蛋白质包含10个重复的“Pro-Ala”结构域，大小范围是17-29个氨基酸(SEQ IDNOs:1-10和图2)。重复的Pro-Ala结构域之间(见图1)散在有9个更长的包含87个氨基酸的重复序列结构域(SEQ ID NOs:11-19和图3)。这些重复的氨基酸序列仅在4个位置有不同，并且在每个变异位置处仅有2种氨基酸选择。9个重复的氨基酸序列的CLUSTALW^TM分析(图3)产生的同源性值为100％，同一性值为95.4％。在DNA水平上，编码所述9个重复的天然裂殖壶菌序列100％同源，并且89.7％相同，在编码每个重复的261个碱基中只有27个位置不同(图4)。该27个改变中的23个是“沉默”差异，其中相同氨基酸的同义密码子互换。使用常规的基因设计方法难以为这种大小的多个重复开发新的密码子偏好的DNA序列，因为必须在单个重复中的所有密码子选择与其它8个重复中在相同位置做出的密码子选择之间保持平衡，以避免产生高度相关的DNA序列。

对于每一个87残基的重复，同一氨基酸序列有超过4.5x10⁴³种可能的DNA序列来编码。这个数字是作为序列中每个氨基酸的同义密码子数目的乘积计算出的(图3中比对的最下一行)。因此，可供用于产生相同编码的DNA序列的密码子空间非常大。为每个单独的重复生成了多个序列设计(在计算机上)，随后对所有序列版本进行批量比较，以鉴定一个代表编码这些重复的高度趋异的序列的组。

首先，编码每个重复氨基酸结构域的天然DNA序列被提取作为单独的序列，如图4所示。然后，各个重复DNA序列被作为单独序列导入到OPTGENE^TM基因设计程序中(Ocimum Biosolutions)。随后对每个单独的序列分别执行步骤3-5。

步骤3：各个DNA序列用标准遗传编码进行翻译。

步骤4：使用标准遗传密码和欧洲油菜偏好表对从各个DNA序列翻译而得的氨基酸序列进行逆向翻译。使用从530个欧洲油菜蛋白编码区汇编而得的偏好密码子表，并且每个所生成的序列被编码命名为“nap”(即“napus”)加版本编号。因此，在重复1的实例中，第一个逆向翻译的密码子偏好序列被命名为“rpt1nap1”。在这一特定的示例中，本过程实施10次，产生10个编码重复1蛋白序列的DNA序列版本，如图5所示。也可以实施多于(或少于)10次迭代。图5例示了对重复1的前17个氨基酸进行10次迭代产生的可观的序列多样性。

步骤5：将密码子优化编码区的10个序列版本输出为相应编号的文本文件。

对其它重复序列结构域的每一个执行步骤3-5。因此，在本例示中，总共产生了90个“nap”序列版本(每个重复元件10个)。然后将90个序列文件输入到CLUSTALW^TM程序Mega 3.1中(在www.megasoftware.net/访问)，并使用全部90个序列作为输入实施多重序列比对。因为这些序列是蛋白编码区的区段，所以实施比对时不允许有缺口。

在CLUSTALW^TM比对之后，组装邻接树并使之可视化。对于蛋白质9个重复结构域的每一个，从10个密码子优化序列中选出1个。每个所选序列版本从树的深分支部分选出。图6。从总共90个序列中，为每一个重复元件仅选出一个序列。

将每个重复结构域的选定序列整合到编码整个蛋白质的密码子优化DNA序列中，置于对每个特定重复而言合适的位置处。注意保持正确的阅读框。对整个密码子优化序列(包括另行设计的趋异重复元件)进行最终分析，以确保不存在非期望的基序、限制酶识别位点等。对整个密码子优化序列进行最终分析之后，在向编码重复元件的序列中导入变化时要注意确保维持密码子和序列的多样性。

在本实例中，选定的序列不大可能是可能达到的最高度趋异的，因为1)每个重复结构域仅进行了10次序列迭代；和2)序列是目测拾取的。然而，可以肯定的是，选定的序列接近于最佳(即可能达到的最高度趋异)的序列，因为它们是从邻接树的最深分支选出的(即，它们是本序列组中彼此之间距离最远的)。对所有成对组合进行Smith-Wasserman全局比对，同源性范围是74-81％，可能的中值是76-77％。图7。图8显示了对9个重复结构域的所选9个新设计的发散编码区的CLUSTALW^TM比对结果。总体而言，它们93.1％同源和61.7％相同(与之相对的是，天然序列为100％同源和89.7％相同)。

实施例2：含有大重复DNA序列的优化编码序列的表达

实施例1中设计的整个优化编码序列的相应DNA序列由供应商根据标准工业实践合成。

将由整个优化的编码序列构成的合成寡核苷酸分子导入到欧洲油菜细胞中，从而产生包含该优化编码序列的欧洲油菜细胞；其方法是例如将该寡核苷酸连接到合适的载体中，随后进行土壤杆菌介导的转化。

包含优化编码区的欧洲油菜细胞表达由裂殖壶菌PUFA合酶ORFA编码的蛋白质，其表达水平高于包含裂殖壶菌PUFA合酶ORFA天然编码序列的欧洲油菜细胞。

实施例3：包含含有大重复DNA序列的优化编码序列的欧洲油菜植物

对于包含含有在实施例2中产生的趋异的、密码子优化的氨基酸重复区的优化编码序列的欧洲油菜细胞，用于再生欧洲油菜植物。然后使欧洲油菜植物繁殖，产生包含该优化编码序列的后代。

虽然本文中对具体的实施方案进行了详细描述并在附图中加以例示，但本发明的各种修改和改变形式是可以容易地获得的。然而，应当理解，本发明并不意图限制于所公开的具体形式。相反，以附随的权利要求的为限，本发明涵盖属于本发明范围内的及其法律等同物的所有修改、等同物和替代物。

Claims

1.一种获得人造核酸分子的方法，该方法包括：

(i)提供来自多肽的氨基酸重复区的氨基酸序列；

(ii)推导分别编码所述氨基酸序列的多个样本密码子优化核酸序列；

(iii)根据序列同源性对所述多个样本密码子优化核酸序列进行比对，并组装包含该多个样本密码子优化核酸序列的邻接树；

(iv)从该多个样本密码子优化核酸序列中选出唯一一个；和

(v)获得包含该选定的样本密码子优化核酸序列的核酸分子。

2.根据权利要求1的方法，其中所述来自多肽的氨基酸重复区的氨基酸序列是通过提供编码所述来自多肽的氨基酸重复区的核酸序列、并从所提供的核酸序列推导氨基酸序列而提供的。

3.根据权利要求2的方法，其中所述编码氨基酸重复区的核酸序列是从生物克隆的。

4.根据权利要求1的方法，其中推导分别编码所述氨基酸序列的多个样本密码子优化核酸序列包括利用生物的密码子使用偏好。

5.根据权利要求1的方法，其中选定的样本密码子优化核酸序列是从所述邻接树的深分支部分选出的。

6.根据权利要求1的方法，其中该多肽在生物中表达。

7.根据权利要求1的方法，其中该多肽是未知在生物中表达的人造多肽。

8.根据权利要求1的方法，还包括将所述选定的样本密码子优化核酸序列整合入编码感兴趣多肽的核酸序列中，其中所得的核酸分子包含含有所述选定的样本密码子优化核酸序列的编码感兴趣多肽的核酸序列。

9.根据权利要求8的方法，其中所述感兴趣多肽与提供所述氨基酸重复区序列的多肽具有相同的氨基酸序列。

10.根据权利要求8的方法，其中含有所述选定的样本密码子优化核酸序列的编码感兴趣多肽的核酸序列自身已被优化。

11.根据权利要求8的方法，其中所述感兴趣多肽包括多个氨基酸重复区，并且其中对该感兴趣多肽中的多个氨基酸重复区中的至少一些独立地实施(i)-(iv)。

12.根据权利要求11的方法，其中对所述感兴趣多肽中的多个氨基酸重复区中的每一个独立地实施(i)-(iv)。

13.根据权利要求8的方法，其中所得的核酸分子包括与至少一个调节元件可操作连接的所述编码感兴趣多肽的核酸序列。

14.根据权利要求8的方法，其中该核酸分子适合于导入到宿主生物中。

15.根据权利要求13的方法，其中该核酸分子适合于导入到宿主生物中。

16.根据权利要求15的方法，其中该核酸分子是表达载体。

17.一种核酸分子，其是通过根据权利要求8的方法获得的。

18.一种产生遗传修饰生物的方法，该方法包括将权利要求17的核酸分子导入到宿主生物中。

19.根据权利要求18的方法，其中该宿主生物是植物。

20.根据权利要求19的方法，其中该宿主生物是欧洲油菜(Brassicanapus)。

21.根据权利要求18的方法，其中该宿主生物选自下组：酵母、藻类和原核生物。

22.一种遗传修饰生物，其是通过根据权利要求18的方法产生的。

23.一种遗传修饰植物，其是通过根据权利要求19的方法产生的。

24.一种产生重组蛋白质的方法，该方法包括将权利要求17的核酸分子导入到细胞中，其中该感兴趣多肽在该细胞中表达。

25.权利要求24的方法，还包括分离该感兴趣多肽。