CN107075525B

CN107075525B - 改变多肽表达的方法

Info

Publication number: CN107075525B
Application number: CN201580040394.6A
Authority: CN
Inventors: 约翰·法兰西斯·Iii·杭特; 丹尼尔·奥尔贝茨; 格雷戈里·P·鲍尔
Original assignee: Dan NierAoerbeici; Ge LeigeliPBaoer; Columbia University in the City of New York
Current assignee: Dan NierAoerbeici; Ge LeigeliPBaoer; Columbia University in the City of New York
Priority date: 2014-05-30
Filing date: 2015-06-01
Publication date: 2021-06-25
Anticipated expiration: 2035-06-01
Also published as: US20180010136A1; WO2015184466A1; EP3149176B1; EP3149176A4; EP3149176A1; CN107075525A

Abstract

本发明针对适合在调节由核酸序列编码的多肽的表达中使用的方法和度量值。在某些方面，本发明还涉及在多肽中引入修饰的方法，例如通过取代编码多肽的核酸序列的非翻译序列中或编码序列中的一个或多个核酸以增加所述多肽的所述表达。

Description

改变多肽表达的方法

本申请要求2014年5月30日提交的美国临时申请第62/005,571号和2014年9月3日提交的美国临时申请第62/045,507号的权益和优先权，所述美国临时申请中的每一者以引用的方式并入本文中。

本文中引用的全部专利、专利申请和公开都以全文引用的方式并入本文中。以其全文引用的这些公开的公开内容特此以引用的方式并入本申请中，以便较充分地描述截至本文所描述发明的如本领域技术人员所已知的现有技术水平。

背景技术

重组多肽的过度表达是当代生物化学、结构生物学和生物技术中的中心方法。许多重组多肽在表达系统中产生时以低水平表达或根本不表达。工业应用(如药物发现和疫苗制备)经常需要制备大量的多肽。

许多类型的表达系统可以用以合成蛋白质，包括哺乳动物、真菌和细菌表达系统。然而，目标重组多肽的过度表达可能成问题，其中低表达量由不良转录和翻译产生。重组多肽表达的这种固有限制给此类系统的使用带来了一个问题，其中表达策略的目标是获得给定重组多肽的有用表达量。尽管存在解决这种变异性的实验和计算方法，但影响多肽表达的生理化学参数和过程仍未得到充分理解，并且重组多肽的表达仍是一个相当大的实验挑战(Makrides(1996)Microbiology and Molecular Biology Reviews 60:512；Sorensen和Mortensen(2005)Journal of Biotechnology 115:113-128；Christen等人(2009)Polypeptide Expression and Purification)。人们需要有方法能鉴别出细胞表达系统中以较高概率高水平表达的多肽。人们也需要适用于增加多肽表达的方法。本发明针对的就是这些需要。

发明内容

在某些方面，本发明涉及一种通过引入一个或多个同义取代重组多肽在表达系统中表达的方法，所述方法包含提供包含编码所述多肽的编码序列和包含核糖体结合位点的5'UTR的核酸序列，并且其中所述5'UTR功能性地连接到所述编码序列，以及(a)在所述5'UTR中引入一个或多个取代或在基本上由所述编码序列的前48个核酸组成的头序列中引入一个或多个同义核酸取代，其中所述5'UTR中的所述一个或多个取代和所述一个或多个同义核酸取代增加对应于所述头序列和功能性地连接到所述编码序列的所述5'UTR的RNA序列的预测折叠自由能(即，降低其折叠的稳定性)；(b)在基本上由所述头序列下游的编码序列组成的尾序列中引入一个或多个同义核酸取代，其中所述一个或多个同义核酸取代改变对应于所述尾序列内的一个或多个尾序列窗中的每一者的RNA序列的预测折叠自由能，使其在约(-0.32*(W-18))kcal/mol减10kcal/mol或加5kcal/mol范围内，其中W是所述尾序列窗中的核苷酸数目；(c)在所述头序列的前18个核酸中引入一个或多个同义核酸取代，以便在可能时用具有更低鸟嘌呤含量或更高腺嘌呤含量的同义密码子置换密码子2、3、4、5和6中的每一者；(d)根据选自以下任一者的子方法优化所述编码序列中的密码子：6AA方法、31C-FO方法、模型M(Model M)方法、CHGlir方法或BLOGIT方法；(e)在所述编码序列中引入一个或多个取代，以便置换由0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个间插密码子间隔开的相同重复密码子对，以便将所述重复密码子中的至少一者改变成不同同义密码子；(f)取代所述编码序列内的ATA ATA双密码子重复序列中的至少一个核酸，以便引入不是ATA ATA序列的同义双密码子重复序列；和(g)用以A或T结束的同义密码子取代所述编码序列中的至少一个以G或C结束的密码子。

在某些方面，本发明涉及一种通过引入一个或多个同义取代增加重组多肽在表达系统中表达的方法，所述方法包含提供包含编码所述多肽的编码序列和包含核糖体结合位点的5'UTR的核酸序列，并且其中所述5'UTR功能性地连接到所述编码序列，并且进一步包含以下中的一者或多者：(a)在所述5'UTR中引入一个或多个取代或在基本上由所述编码序列的前48个核酸组成的头序列中引入一个或多个同义核酸取代，其中所述5'UTR中的所述一个或多个取代和所述一个或多个同义核酸取代增加对应于所述头序列和功能性地连接到所述编码序列的所述5'UTR的RNA序列的预测折叠自由能；(b)在基本上由所述头序列下游的编码序列组成的尾序列中引入一个或多个同义核酸取代，其中所述一个或多个同义核酸取代改变对应于所述尾序列内的一个或多个尾序列窗中的每一者的RNA序列的预测折叠自由能，使其在约(-0.32*(W-18))kcal/mol减10kcal/mol或加5kcal/mol范围内，其中W是所述尾序列窗中的核苷酸数目；(c)在所述头序列的前18个核酸中引入一个或多个同义核酸取代，以便在可能时用具有更低鸟嘌呤含量或更高腺嘌呤含量的同义密码子置换密码子2、3、4、5和6中的每一者；(d)根据选自以下任一者的子方法优化所述编码序列中的密码子：6AA方法、31C-FO方法、模型M方法、CHGlir方法或BLOGIT方法；(e)在所述编码序列中引入一个或多个取代，以便置换由0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个间插密码子间隔开的相同重复密码子对，以便将所述重复密码子中的至少一者改变成不同同义密码子；(f)取代所述编码序列内的ATA ATA双密码子重复序列中的至少一个核酸，以便引入不是ATAATA序列的同义双密码子重复序列；和(g)用以A或T结束的同义密码子取代所述编码序列中的至少一个以G或C结束的密码子。

在某些方面，本发明涉及一种通过引入一个或多个同义取代增加重组多肽在表达系统中表达的方法，所述方法包含提供包含编码所述多肽的编码序列的核酸序列，以及(a)在基本上由所述编码序列的前48个核酸组成的头序列中引入一个或多个取代，其中所述一个或多个同义核酸取代增加对应于所述头序列的RNA序列的预测折叠自由能；(b)在基本上由所述头序列下游的编码序列组成的尾序列中引入一个或多个同义核酸取代，其中所述一个或多个同义核酸取代改变对应于所述尾序列内的一个或多个尾序列窗中的每一者的RNA序列的预测折叠自由能，使其在约(-0.32*(W-18))kcal/mol减10kcal/mol或加5kcal/mol范围内，其中W是所述尾序列窗中的核苷酸数目；(c)在所述头序列的前18个核酸中引入一个或多个同义核酸取代，以便在可能时用具有更低鸟嘌呤含量或更高腺嘌呤含量的同义密码子置换密码子2、3、4、5和6中的每一者；(d)根据选自以下任一者的子方法优化所述编码序列中的密码子：6AA方法、31C-FO方法、模型M方法、CHGlir方法或BLOGIT方法；(e)在所述编码序列中引入一个或多个取代，以便置换由0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个间插密码子间隔开的相同重复密码子对，以便将所述重复密码子中的至少一者改变成不同同义密码子；(f)取代所述编码序列内的ATA ATA双密码子重复序列中的至少一个核酸，以便引入不是ATA ATA序列的同义双密码子重复序列；和(g)用以A或T结束的同义密码子取代所述编码序列中的至少一个以G或C结束的密码子。

在某些方面，本发明涉及一种通过引入一个或多个同义取代增加重组多肽在表达系统中表达的方法，所述方法包含提供包含编码所述多肽的编码序列的核酸序列，并且进一步包含以下中的一者或多者：(a)在基本上由所述编码序列的前48个核酸组成的头序列中引入一个或多个取代，其中所述一个或多个同义核酸取代增加对应于所述头序列的RNA序列的预测折叠自由能；(b)在基本上由所述头序列下游的编码序列组成的尾序列中引入一个或多个同义核酸取代，其中所述一个或多个同义核酸取代改变对应于所述尾序列内的一个或多个尾序列窗中的每一者的RNA序列的预测折叠自由能，使其在约(-0.32*(W-18))kcal/mol减10kcal/mol或加5kcal/mol范围内，其中W是所述尾序列窗中的核苷酸数目；(c)在所述头序列的前18个核酸中引入一个或多个同义核酸取代，以便在可能时用具有更低鸟嘌呤含量或更高腺嘌呤含量的同义密码子置换密码子2、3、4、5和6中的每一者；(d)根据选自以下任一者的子方法优化所述编码序列中的密码子：6AA方法、31C-FO方法、模型M方法、CHGlir方法或BLOGIT方法；(e)在所述编码序列中引入一个或多个取代，以便置换由0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个间插密码子间隔开的相同重复密码子对，以便将所述重复密码子中的至少一者改变成不同同义密码子；(f)取代所述编码序列内的ATA ATA双密码子重复序列中的至少一个核酸，以便引入不是ATA ATA序列的同义双密码子重复序列；和(g)用以A或T结束的同义密码子取代所述编码序列中的至少一个以G或C结束的密码子。

在某些实施例中，根据权利要求2或4所述的方法，其中所述方法由以下中任一者组成：步骤a；步骤b；步骤c；步骤；步骤d；步骤e；步骤f；步骤g；步骤ab；步骤ac；步骤ad；步骤ae；步骤af；步骤ag；步骤bc；步骤bd；步骤be；步骤bf；步骤bg；步骤cd；步骤ce；步骤cf；步骤cg；步骤de；步骤df；步骤dg；步骤ef；步骤eg；步骤fg；步骤abc；步骤abd；步骤abe；步骤abf；步骤abg；步骤acd；步骤ace；步骤acf；步骤acg；步骤ade；步骤adf；步骤adg；步骤aef；步骤aeg；步骤afg；步骤bcd；步骤bce；步骤bcf；步骤bcg；步骤bde；步骤bdf；步骤bdg；步骤bef；步骤beg；步骤bfg；步骤cde；步骤cdf；步骤cdg；步骤cef；步骤ceg；步骤cfg；步骤def；步骤deg；步骤dfg；步骤efg；步骤abcd；步骤abce；步骤abcf；步骤abcg；步骤abde；步骤abdf；步骤abdg；步骤abef；步骤abeg；步骤abfg；步骤acde；步骤acdf；步骤acdg；步骤acef；步骤aceg；步骤acfg；步骤adef；步骤adeg；步骤adfg；步骤aefg；步骤bcde；步骤bcdf；步骤bcdg；步骤bcef；步骤bceg；步骤bcfg；步骤bdef；步骤bdeg；步骤bdfg；步骤befg；步骤cdef；步骤cdeg；步骤cdfg；步骤cefg；步骤defg；步骤abcde；步骤abcdf；步骤abcdg；步骤abcef；步骤abceg；步骤abcfg；步骤abdef；步骤abdeg；步骤abdfg；步骤abefg；步骤acdef；步骤acdeg；步骤acdfg；步骤acefg；步骤adefg；步骤bcdef；步骤bcdeg；步骤bcdfg；步骤bcefg；步骤bdefg；步骤cdefg；步骤abcdef；步骤abcdeg；步骤abcdfg；步骤abcefg；步骤abdefg；步骤acdefg；步骤bcdefg；或步骤abcdefg。

在某些实施例中，所述优化所述编码序列中的密码子包含(i)用具有更高CHGlir斜率的同义密码子取代所述头序列中的至少一个密码子；(ii)用具有更高CHGlir斜率的同义密码子取代所述头序列中的所有密码子；(iii)用具有更低CHGlir斜率的同义密码子取代所述头序列中的至少一个密码子并且用具有更高CHGlir斜率的同义密码子取代所述头序列中的至少一个密码子；(iv)用具有更高BLOGIT系数的同义密码子取代所述头序列中的至少一个密码子；(v)用具有更高BLOGIT系数的同义密码子取代所述头序列中的所有密码子；(vi)用具有更低BLOGIT系数的同义密码子取代所述头序列中的至少一个密码子并且用具有更高BLOGIT系数的同义密码子取代所述头序列中的至少一个密码子；(vii)用具有更高CHGlir斜率的同义密码子取代所述尾序列中的至少一个密码子；(viii)用具有更高CHGlir斜率的同义密码子取代所述尾序列中的所有密码子；(ix)用具有更低CHGlir斜率的同义密码子取代所述尾序列中的至少一个密码子并且用具有更高CHGlir斜率的同义密码子取代所述尾序列中的至少一个密码子；(x)用具有更高BLOGIT系数的同义密码子取代所述尾序列中的至少一个密码子；(xi)用具有更高BLOGIT系数的同义密码子取代所述尾序列中的所有密码子；(xii)用具有更低BLOGIT系数的同义密码子取代所述尾序列中的至少一个密码子并且用具有更高BLOGIT系数的同义密码子取代所述尾序列中的至少一个密码子。

在某些实施例中，步骤(a)的所述取代不改变所述5'UTR的所述核糖体结合位点。

在某些实施例中，所述核糖体结合位点是Kozak序列或夏因达尔加诺(ShineDalgarno)序列。

在某些实施例中，所述5'UTR进一步包含5'cap序列。

在某些实施例中，步骤(a)的所述取代不改变所述5'cap序列。

在某些实施例中，步骤(a)的所述取代不干扰对应于所述编码序列或所述5'UTR的所述RNA的功能加工。

在某些实施例中，步骤(a)包含将所述预测折叠自由能增加到至少约-35kcal/mol。

在某些实施例中，步骤(a)包含将预测折叠自由能增加到至少约-39kcal/mol。

在某些实施例中，步骤(a)包含将预测折叠自由能增加到至少约-5kcal/mol。

在某些实施例中，步骤(a)包含最大化预测折叠自由能。

在某些实施例中，当所述尾序列窗在96个核酸中时，步骤(b)的所述预测折叠自由能在约-20kcal/mol到约-40kcal/mol范围内。

在某些实施例中，所述预测折叠自由能使用默认参数对RNA结构计算。

在某些实施例中，所述预测折叠自由能用UNAFOLD、ViennaRNA、mFold、Sfold、Bindigo或Bindigonet使用默认参数计算。

在某些实施例中，步骤(a)或步骤(b)的所述一个或多个同义核酸取代选自包含以下的清单：(i)用GCA密码子取代GCT密码子，或用GCT密码子取代GCA密码子；(ii)用CGA密码子取代CGT密码子，或用CGT密码子取代CGA密码子；(iii)用CAG密码子取代CAA密码子，或用CAA密码子取代CGA密码子；(iv)用CAC密码子取代CAT密码子，或用CAT密码子取代CAC密码子；(v)用ATC密码子取代ATT密码子，或用ATT密码子取代ATC密码子；(vii)将TTA密码子取代成TTG密码子或CTA密码子，或将TTG密码子取代成TTA密码子或CTA密码子，或将CTA密码子取代成TTA密码子或TTG密码子；(viii)用CCA密码子取代CCT密码子，或用CCT密码子取代CCA密码子；(ix)用TCA密码子取代AGT密码子，或用AGT密码子取代TCA密码子；(x)用ACT密码子取代ACA密码子，或用ACA密码子取代ACT密码子；(xi)用GTA密码子取代GTT密码子，或用GTT密码子取代GTA密码子。

在某些实施例中，步骤(b)的所述尾序列内的所述一个或多个尾序列窗是重叠序列窗。在某些实施例中，步骤(b)的所述一个或多个重叠序列窗重叠25个核酸。在某些实施例中，步骤(b)的所述尾序列内的所述一个或多个尾序列窗不重叠。

在某些实施例中，步骤(b)的所述尾序列内的所述一个或多个尾序列窗具有48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143或144个核酸的长度。

在某些实施例中，步骤(b)的所述尾序列内的所述一个或多个尾序列窗具有至少约145个核酸、至少约150个核酸、至少约160个核酸、至少约170个核酸、至少约180个核酸、至少约190个核酸、至少约200个核酸、至少约220个核酸、至少约240个核酸、至少约260个核酸、至少约280个核酸、至少约300个核酸、至少约340个核酸、至少约380个核酸、至少约420个核酸、至少约460个核酸、至少约500个核酸、至少约600个核酸、至少约700个核酸、至少约800个核酸、至少约900个核酸、至少约1000个或更多个核酸的长度。

在某些实施例中，步骤(b)的所述尾序列内的所述一个或多个尾序列窗具有47个或更少个核酸的长度。

在某些实施例中，步骤(b)的所述尾序列内的所述一个或多个尾序列窗具有145个或更多个核酸的长度。

在某些实施例中，所述6AA方法包含：(i)将所述编码序列中编码精氨酸残基的所有密码子改变成CGT；(ii)将所述编码序列中编码天冬氨酸的所有密码子改变成GAT；(iii)将所述编码序列中编码谷氨酰胺的所有密码子改变成CAA；(iv)将所述编码序列中编码谷氨酸的所有密码子改变成GAA；(v)将所述编码序列中编码组氨酸残基的所有密码子改变成CAT；和(vi)将所述编码序列中编码异亮氨酸的所有密码子改变成ATT。

在某些实施例中，所述6AA方法包含以下中任一者：(i)将所述编码序列中编码精氨酸残基的任何密码子中的至少一者改变成CGT；(ii)将所述编码序列中编码天冬氨酸的任何密码子中的至少一者改变成GAT；(iii)将所述编码序列中编码谷氨酰胺的任何密码子中的至少一者改变成CAA；(iv)将所述编码序列中编码谷氨酸的任何密码子中的至少一者改变成GAA；(v)将所述编码序列中编码组氨酸残基的任何密码子中的至少一者改变成CAT；或(vi)将所述编码序列中编码异亮氨酸的任何密码子中的至少一者改变成ATT。

在某些实施例中，所述31C-FO方法包含用具有更高二元逻辑回归斜率的同义密码子取代至少一个密码子。在某些实施例中，所述31C-FO方法包含用具有更高二元逻辑回归斜率的同义密码子取代所有密码子。在某些实施例中，所述31C-FO方法包含用具有更低二元逻辑回归斜率的同义密码子取代至少一个密码子并且用具有更高二元逻辑回归斜率的同义密码子取代至少一个密码子。在某些实施例中，所述31C-FO方法包含用具有更高序数逻辑回归斜率的同义密码子取代至少一个密码子。在某些实施例中，所述31C-FO方法包含用具有更高序数逻辑回归斜率的同义密码子取代所有密码子。在某些实施例中，所述31C-FO方法包含用具有更低序数逻辑回归斜率的同义密码子取代至少一个密码子并且用具有更高序数逻辑回归斜率的同义密码子取代至少一个密码子。

在某些实施例中，所述31C-FO方法包含以下中任一者：(i)将所述编码序列中编码丙氨酸的任何密码子中的至少一者改变成GCT或GCA；(ii)将所述编码序列中编码精氨酸的任何密码子中的至少一者改变成CGT或CGA；(iii)将所述编码序列中编码天冬酰胺的任何密码子中的至少一者改变成AAT；(iv)将所述编码序列中编码天冬氨酸的任何密码子中的至少一者改变成GAT；(v)将所述编码序列中编码半胱氨酸的任何密码子中的至少一者改变成TGT；(vi)将所述编码序列中编码谷氨酰胺的任何密码子中的至少一者改变成CAA或CAG；(vii)将所述编码序列中编码谷氨酸的任何密码子中的至少一者改变成GAA；(viii)将所述编码序列中编码甘氨酸的任何密码子中的至少一者改变成GGT；(ix)将所述编码序列中编码组氨酸的任何密码子中的至少一者改变成CAT或CAC；(x)将所述编码序列中编码异亮氨酸的任何密码子中的至少一者改变成ATT或ATC；(xi)将所述编码序列中编码亮氨酸的任何密码子中的至少一者改变成TTA、TTG或CTA中任一者；(xii)将所述编码序列中编码赖氨酸的任何密码子中的至少一者改变成AAA；(xiii)将所述编码序列中编码甲硫氨酸的任何密码子中的至少一者改变成ATG；(xiv)将所述编码序列中编码苯丙氨酸的任何密码子中的至少一者改变成TTT；(xv)将所述编码序列中编码脯氨酸的任何密码子中的至少一者改变成CCT或CCA；(xvi)将所述编码序列中编码丝氨酸的任何密码子中的至少一者改变成AGT或TCA；(xvii)将所述编码序列中编码苏氨酸的任何密码子中的至少一者改变成ACA或ACT；(xviii)将所述编码序列中编码色氨酸的任何密码子中的至少一者改变成TGG；(xix)将所述编码序列中编码酪氨酸的任何密码子中的至少一者改变成TAT；或(xx)将所述编码序列中编码缬氨酸的任何密码子中的至少一者改变成GTT或GTA。

在某些实施例中，所述31C-FO方法包含(i)将所述编码序列中编码丙氨酸的所有密码子改变成GCT或GCA；(ii)将所述编码序列中编码精氨酸的所有密码子改变成CGT或CGA；(iii)将所述编码序列中编码天冬酰胺的所有密码子改变成AAT；(iv)将所述编码序列中编码天冬氨酸的所有密码子改变成GAT；(v)将所述编码序列中编码半胱氨酸的所有密码子改变成TGT；(vi)将所述编码序列中编码谷氨酰胺的所有密码子改变成CAA或CAG；(vii)将所述编码序列中编码谷氨酸的所有密码子改变成GAA；(viii)将所述编码序列中编码甘氨酸的所有密码子改变成GGT；(ix)将所述编码序列中编码组氨酸的所有密码子改变成CAT或CAC；(x)将所述编码序列中编码异亮氨酸的所有密码子改变成ATT或ATC；(xi)将所述编码序列中编码亮氨酸的所有密码子改变成TTA、TTG或CTA中任一者；(xii)将所述编码序列中编码赖氨酸的所有密码子改变成AAA；(xiii)将所述编码序列中编码甲硫氨酸的所有密码子改变成ATG；(xiv)将所述编码序列中编码苯丙氨酸的所有密码子改变成TTT；(xv)将所述编码序列中编码脯氨酸的所有密码子改变成CCT或CCA；(xvi)将所述编码序列中编码丝氨酸的所有密码子改变成AGT或TCA；(xvii)将所述编码序列中编码苏氨酸的所有密码子改变成ACA或ACT；(xviii)将所述编码序列中编码色氨酸的所有密码子改变成TGG；(xix)将所述编码序列中编码酪氨酸的所有密码子改变成TAT；和(xx)将所述编码序列中编码缬氨酸的所有密码子改变成GTT或GTA。

在某些实施例中，所述模型M方法包含以下中任一者：(i)进行同义密码子改变，所述改变增加模型M的等式的值

θ＝4.38+0.0451G_UH+23.6/<G_T>₉₆-0.00117L-489/L

+6.55A_H-6.30A_H ²+0.753U_3H-1.85G_H ²-1.50

(G_UH*<--9)(GC_H>10/15)-11.7r-1.82i

+0.077s_7-16+0.059s_17-32+0.878∑_cβ_cf_c，

(ii)增加关于所述编码序列中密码子6下游的某一组密码子计算的CHGlir斜率的平均值；(iii)增加关于所述编码序列中密码子6下游的所有密码子计算的CHGlir斜率的平均值；(iv)增加关于所述编码序列中密码子6下游的某一组密码子计算的CHGlir斜率的平均值；(v)增加关于所述编码序列中密码子6下游的所有密码子计算的CHGlir斜率的平均值。

在某些实施例中，本文所描述方法可以用于针对蛋白质于任何生物体中的表达而优化基因序列。在某些实施例中，用以产生模型“M”或其衍生物的计算方法的输出可以应用于所述生物体的蛋白质表达谱数据或mRNA分布数据。

在某些实施例中，所述BLOGIT方法包含以下中任一者：(i)增加关于所述编码序列中密码子6下游的所有密码子计算的BLOGIT斜率的平均值；(ii)增加关于所述编码序列中密码子6下游的某一组密码子计算的BLOGIT斜率的平均值；或(iii)增加关于所述编码序列中密码子6下游的所有密码子计算的BLOGIT斜率的平均值。

在某些实施例中，所述BLOGIT方法包含(i)将所述编码序列中密码子6下游的编码丙氨酸的所有密码子改变成GCT或GCA；(ii)将所述编码序列中密码子6下游的编码精氨酸的所有密码子改变成CGT或CGA；(iii)将所述编码序列中密码子6下游的编码天冬酰胺的所有密码子改变成AAT；(iv)将所述编码序列中密码子6下游的编码天冬氨酸的所有密码子改变成GAT；(v)将所述编码序列中密码子6下游的编码半胱氨酸的所有密码子改变成TGT；(vi)将所述编码序列中密码子6下游的编码谷氨酰胺的所有密码子改变成CAA或CAG；(vii)将所述编码序列中密码子6下游的编码谷氨酸的所有密码子改变成GAA；(viii)将所述编码序列中密码子6下游的编码甘氨酸的所有密码子改变成GGT；(ix)将所述编码序列中密码子6下游的编码组氨酸的所有密码子改变成CAT或CAC；(x)将所述编码序列中密码子6下游的编码异亮氨酸的所有密码子改变成ATT或ATC；(xi)将所述编码序列中密码子6下游的编码亮氨酸的所有密码子改变成TTA、TTG或CTA中任一者；(xii)将所述编码序列中密码子6下游的编码赖氨酸的所有密码子改变成AAA；(xiii)将所述编码序列中密码子6下游的编码甲硫氨酸的所有密码子改变成ATG；(xiv)将所述编码序列中密码子6下游的编码苯丙氨酸的所有密码子改变成TTT；(xv)将所述编码序列中密码子6下游的编码脯氨酸的所有密码子改变成CCT或CCA；(xvi)将所述编码序列中密码子6下游的编码丝氨酸的所有密码子改变成AGT或TCA；(xvii)将所述编码序列中密码子6下游的编码苏氨酸的所有密码子改变成ACA或ACT；(xviii)将所述编码序列中密码子6下游的编码色氨酸的所有密码子改变成TGG；(xix)将所述编码序列中密码子6下游的编码酪氨酸的所有密码子改变成TAT；和(xx)将所述编码序列中密码子6下游的编码缬氨酸的所有密码子改变成GTT或GTA；(xxi)用CTC密码子、CTG密码子或可能TTA密码子取代至少一个编码亮氨酸残基的密码子；(xxii)用ATT密码子或可能ATC密码子取代至少一个编码异亮氨酸残基的密码子；(xxiii)用GAA密码子取代至少一个编码谷氨酸残基的密码子；或(xxiv)用GAT密码子取代至少一个编码天冬氨酸残基的密码子。

在某些实施例中，所述CHGlir方法包含用具有更高CHGlir斜率的同义密码子取代至少一个密码子。在某些实施例中，所述CHGlir方法包含用具有更高CHGlir斜率的同义密码子取代所有密码子。在某些实施例中，所述CHGlir方法包含用具有更低CHGlir斜率的同义密码子取代至少一个密码子并且用具有更高CHGlir斜率的同义密码子取代至少一个密码子。

在某些实施例中，所述CHGlir方法包含：(i)用GCG密码子取代至少一个编码丙氨酸残基的密码子；(ii)用CGC密码子、AGA密码子或AGG密码子取代至少一个编码精氨酸残基的密码子；(iii)用CAA密码子取代至少一个编码谷氨酰胺残基的密码子；(iv)用TTT密码子取代至少一个编码苯丙氨酸残基的密码子；(v)用CCG密码子或CCC密码子取代至少一个编码脯氨酸残基的密码子；(vi)用AGC密码子或TCA密码子取代至少一个编码丝氨酸残基的密码子；(vii)用ACA密码子或ACC密码子取代至少一个编码苏氨酸残基的密码子；(viii)用TAT密码子取代至少一个编码酪氨酸残基的密码子；(ix)用GTT密码子、GTG密码子或GTA密码子取代至少一个编码缬氨酸残基的密码子；(x)用CTC密码子、CTG密码子或可能TTA密码子取代至少一个编码亮氨酸残基的密码子；(xi)用ATT密码子或可能ATC密码子取代至少一个编码异亮氨酸残基的密码子；(xii)用GAA密码子取代至少一个编码谷氨酸残基的密码子；(xiii)用CAT密码子取代至少一个编码组氨酸残基的密码子；(xiv)用GAT密码子取代至少一个编码天冬氨酸残基的密码子；(xv)用AAC密码子取代至少一个编码天冬酰胺残基的密码子；或(xvi)用GGA或GGT密码子取代至少一个编码甘氨酸残基的密码子。

在某些实施例中，所述CHGlir方法包含：(i)用GCG密码子取代编码丙氨酸残基的所有密码子；(ii)用CGC密码子、AGA密码子或AGG密码子取代编码精氨酸残基的所有密码子；(iii)用CAA密码子取代编码谷氨酰胺残基的所有密码子；(iv)用TTT密码子取代编码苯丙氨酸残基的所有密码子；(v)用CCG密码子或CCC密码子取代编码脯氨酸残基的所有密码子；(vi)用AGC密码子或TCA密码子取代编码丝氨酸残基的所有密码子；(vii)用ACA密码子或ACC密码子取代编码苏氨酸残基的所有密码子；(viii)用TAT密码子取代编码酪氨酸残基的所有密码子；(ix)用GTT密码子、GTG密码子或GTA密码子取代编码缬氨酸残基的所有密码子；(x)用CTC密码子、CTG密码子或可能TTA密码子取代至少一个编码亮氨酸残基的密码子；(xi)用ATT密码子或可能ATC密码子取代至少一个编码异亮氨酸残基的密码子；(xii)用GAA密码子取代至少一个编码谷氨酸残基的密码子；(xiii)用CAT密码子取代至少一个编码组氨酸残基的密码子；(xiv)用GAT密码子取代至少一个编码天冬氨酸残基的密码子；(xv)用AAC密码子取代至少一个编码天冬酰胺残基的密码子；或(xvi)用GGA或GGT密码子取代至少一个编码甘氨酸残基的密码子。

在某些实施例中，所述BLOGIT方法包含用具有更高BLOGIT系数的同义密码子取代至少一个密码子。在某些实施例中，所述BLOGIT方法包含用具有更高BLOGIT系数的同义密码子取代所有密码子。在某些实施例中，所述BLOGIT方法包含用具有更低BLOGIT系数的同义密码子取代至少一个密码子并且用具有更高BLOGIT系数的同义密码子取代至少一个密码子。

在某些实施例中，所述BLOGIT方法包含：

(i)用GCT密码子取代编码丙氨酸残基的所有密码子，或用选自以下的取代来取代编码丙氨酸残基的所有密码子：

GCC到GCG、GCA或GCT中任一者；

GCG到GCA或GCT；或

GCA到GCT；

(ii)用AAT密码子取代编码天冬酰胺残基的所有密码子；

(iii)用CGT密码子取代编码精氨酸残基的所有密码子，或用选自以下的取代来取代编码精氨酸残基的所有密码子：

CGG到AGG、CGC、AGA、CGA或CGT中任一者；

AGG到CGC、AGA、CGA或CGT中任一者；

CGC到AGA、CGA或CGT中任一者；

AGA到CGA或CGT；或

CGA到CGT；

(iv)用GAT密码子取代编码天冬氨酸残基的所有密码子；

(v)用TGT密码子取代编码半胱氨酸残基的所有密码子；

(vi)用CAA密码子取代编码谷氨酰胺残基的所有密码子；

(vii)用GAA密码子取代编码谷氨酸残基的所有密码子；

(viii)用GGT密码子取代编码甘氨酸残基的所有密码子，或用选自以下的取代来取代编码甘氨酸残基的所有密码子：

GGG到GGC、GGA或GGT中任一者；

GGC到GGA或GGT；或

GGA到GGT；

(ix)用CAT密码子取代编码组氨酸残基的所有密码子；

(x)用ATT密码子取代编码异亮氨酸残基的所有密码子，或用选自以下的取代来取代编码异亮氨酸残基的所有密码子：

ATA到ATC或ATT；或

ATC到ATT；

(xi)用TTA密码子取代编码亮氨酸残基的所有密码子，或用选自以下的取代来取代编码亮氨酸残基的所有密码子：

CTC到CTG、CTA、CTT、TTG或TTA中任一者；

CTG到CTA、CTT、TTG或TTA中任一者；

CTA到CTT、TTG或TTA中任一者；

CTT到TTG或TTA；或

TTG到TTA；

(xii)用AAA密码子取代编码赖氨酸残基的所有密码子；

(xiii)用TTT密码子取代编码苯丙氨酸残基的所有密码子；

(xiv)用CCA密码子取代编码脯氨酸残基的所有密码子，或用选自以下的取代来取代编码脯氨酸残基的所有密码子：

CCC到CCG、CCT或CCA中任一者；

CCG到CCT或CCA；或

CCT到CCA；

(xv)用TCA密码子取代编码丝氨酸残基的所有密码子，或用选自以下的取代来取代编码丝氨酸残基的所有密码子：

TCC到TCG、AGC、TCT、AGT或TCA中任一者；

TCG到AGC、TCT、AGT或TCA中任一者；

AGC到TCT、AGT或TCA中任一者；

TCT到AGT或TCA；或

AGT到TCA；

(xvi)用ACA密码子取代编码苏氨酸残基的所有密码子，或用选自以下的取代来取代编码苏氨酸残基的所有密码子：

ACC到ACG、ACT或ACA中任一者；

ACG到ACT或ACA；或

ACT到ACA；

(xvii)用TAT密码子取代编码酪氨酸残基的所有密码子；

(xviii)用GTA密码子取代编码缬氨酸残基的所有密码子，或用选自以下的取代来取代编码缬氨酸残基的所有密码子：

GTG到GTC、GTT或GTA中任一者；

GTC到GTT或GTA；或

GTT到GTA；和

(xviii)用TGA密码子取代编码终止密码子的所有密码子，或用选自以下的取代来取代编码终止密码子的所有密码子：

TAG到TAA或TGA；或

TAA到TGA。

在某些实施例中，步骤(e)包含：(i)将所述编码序列中的GCTGCT重复密码子改变成GCTGCA或GCAGCT序列；(ii)将所述编码序列中的GCAGCA重复密码子改变成GCTGCA或GCAGCT序列；(iii)将所述编码中的CGTCGT重复密码子改变成CGTCGA或CGACGT序列；(iv)将所述编码中的CGACGA重复密码子改变成CGTCGA或CGACGT序列；(v)将所述编码中的CAACAA重复密码子改变成CAACAG或CAGCAA序列；(vi)将所述编码中的CAGCAG重复密码子改变成CAACAG或CAGCAA序列；(vii)将所述编码中的CATCAT重复密码子改变成CATCAC或CACCAT序列；(viii)将所述编码中的CACCAC重复密码子改变成CATCAC或CACCAT序列；(ix)将所述编码中的ATTATT重复密码子改变成ATTATC或ATCATT序列；(x)将所述编码中的ATCATC重复密码子改变成ATTATC或ATCATT序列；(xi)将所述编码中的TTATTA重复密码子改变成TTATTG、TTACTA、TTGTTA、TTGCTA、CTATTA或CTATTG序列中任一者；(xii)将所述编码中的TTGTTG重复密码子改变成TTATTG、TTACTA、TTGTTA、TTGCTA、CTATTA或CTATTG序列中任一者；(xiii)将所述编码中的CTACTA重复密码子改变成TTATTG、TTACTA、TTGTTA、TTGCTA、CTATTA或CTATTG序列中任一者；(xiv)将所述编码中的CCTCCT重复密码子改变成CCTCCA或CCACCT序列；(xv)将所述编码中的CCACCA重复密码子改变成CCTCCA或CCACCT序列；(xvi)将所述编码中的AGTAGT重复密码子改变成AGTTCA或TCAAGT序列；(xvii)将所述编码中的TCATCA重复密码子改变成AGTTCA或TCAAGT序列；(xviii)将所述编码中的ACAACA重复密码子改变成ACAACT或ACTACA序列；(xix)将所述编码中的ACTACT重复密码子改变成ACAACT或ACTACA序列；(xx)将所述编码中的GTTGTT重复密码子改变成GTTGTA或GTAGTT序列；或(xxi)将所述编码中的GTAGTA重复密码子改变成GTTGTA或GTAGTT序列。

在某些实施例中，步骤(e)包含：(i)在第一与第二GCT密码子由一到五个间插密码子间隔开时，用GCA密码子置换所述第一或第二GCT密码子；(ii)在第一与第二GCA密码子由一到五个间插密码子间隔开时，用GCT密码子置换所述第一或第二GCA密码子；(iii)在第一与第二CGT密码子由一到五个间插密码子间隔开时，用CGA密码子置换所述第一或第二CGT密码子；(iv)在第一与第二CGA密码子由一到五个间插密码子间隔开时，用GCT密码子置换所述第一或第二CGA密码子；(v)在第一与第二CAA密码子由一到五个间插密码子间隔开时，用CAG密码子置换所述第一或第二CAA密码子；(vi)在第一与第二CAG密码子由一到五个间插密码子间隔开时，用CAA密码子置换所述第一或第二CAG密码子；(vii)在第一与第二CAT密码子由一到五个间插密码子间隔开时，用CAC密码子置换所述第一或第二CAT密码子；(viii)在第一与第二CAC密码子由一到五个间插密码子间隔开时，用CAT密码子置换所述第一或第二CAC密码子；(ix)在第一与第二ATT密码子由一到五个间插密码子间隔开时，用ATC密码子置换所述第一或第二ATT密码子；(x)在第一与第二ATC密码子由一到五个间插密码子间隔开时，用ATT密码子置换所述第一或第二ATC密码子；(xi)在第一与第二TTA密码子由一到五个间插密码子间隔开时，用TTG密码子或CTA密码子置换所述第一或第二TTA密码子；(xii)在第一与第二TTG密码子由一到五个间插密码子间隔开时，用TTA密码子或CTA密码子置换所述第一或第二TTG密码子；(xiii)在第一与第二CTA密码子由一到五个间插密码子间隔开时，用TTA密码子或TTG密码子置换所述第一或第二CTA密码子；(xiv)在第一与第二CCT密码子由一到五个间插密码子间隔开时，用CCA密码子置换所述第一或第二CCT密码子；(xv)在第一与第二CCA密码子由一到五个间插密码子间隔开时，用CCT密码子置换所述第一或第二CCA密码子；(xvi)在第一与第二AGT密码子由一到五个间插密码子间隔开时，用TCA密码子置换所述第一或第二AGT密码子；(xvii)在第一与第二TCA密码子由一到五个间插密码子间隔开时，用AGT密码子置换所述第一或第二TCA密码子；(xviii)在第一与第二ACA密码子由一到五个间插密码子间隔开时，用ACT密码子置换所述第一或第二ACA密码子；(xix)在第一与第二ACT密码子由一到五个间插密码子间隔开时，用ACA密码子置换所述第一或第二ACT密码子；(xx)在第一与第二GTT密码子由一到五个间插密码子间隔开时，用GTA密码子置换所述第一或第二GTT密码子；或(xxi)在第一与第二GTA密码子由一到五个间插密码子间隔开时，用GTT密码子置换所述第一或第二GTA密码子。

在某些实施例中，所述编码序列功能性地连接到5'UTR。

在某些实施例中，所述编码序列功能性地连接到3'UTR。

在某些实施例中，所述核酸是RNA序列。

在某些实施例中，所述包含编码所述多肽的编码序列的核酸序列是细菌序列。

在某些实施例中，所述包含编码所述多肽的编码序列的核酸序列是古细菌序列。

在某些实施例中，所述包含编码所述多肽的编码序列的核酸序列是真核序列。

在某些实施例中，所述包含编码所述多肽的编码序列的核酸序列是合成来源的序列。

在某些实施例中，所述表达系统是体外表达系统。

在某些实施例中，所述表达系统是细菌表达系统。

在某些实施例中，所述表达系统是真核表达系统。

在某些实施例中，所述体外表达系统是无细胞转录/翻译系统。

在某些实施例中，所述表达系统是体内表达系统。

在某些实施例中，所述体内表达系统是细菌表达系统或真核表达系统。

在某些实施例中，体内表达系统是大肠杆菌(E.coli)细胞。

在某些实施例中，所述体内表达系统是哺乳动物细胞。

在某些实施例中，所述重组多肽是人类多肽或其片段。

在某些实施例中，所述重组多肽是病毒多肽或其片段。

在某些实施例中，所述重组多肽是抗体、抗体片段、抗体衍生物、双功能抗体、三功能抗体、四功能抗体、抗体二聚体、抗体三聚体或微抗体。

在某些实施例中，所述抗体片段是Fab片段、Fab'片段、F(ab)2片段、Fd片段、Fv片段或ScFv片段。

在某些实施例中，所述重组多肽是细胞因子、炎症分子、生长因子、细胞因子受体、炎症分子受体、生长因子受体、致癌基因产物或其任何片段。

在某些方面，本发明涉及一种根据本文所描述方法产生的重组多肽。

在某些方面，本发明涉及一种药物组合物，其包含根据本文所描述方法产生的重组多肽。

在某些方面，本发明涉及一种免疫原性组合物，其包含根据本文所描述方法产生的重组多肽。

附图说明

图1展示了含有5'-UTR加编码序列的前50个碱基的计算窗。

图2展示了与多肽表达水平相关的折叠能阈值。

图3展示了由“100％一致”标靶的表达值分区的自由能(载体50相较于50)。

图4展示了pET21+前50个核苷酸的RNA折叠能。

图5展示了前50个核苷酸的RNA折叠能。

图6展示了pET21+50碱基的E5/E0比。

图7展示了前50个核苷酸的E5/E0比。

图8展示了滑动窗的E5/E0比。

图9A-9J展示了大规模数据集中的不同蛋白质表达类别中的代表性RNA序列参数的分布。图9A和图9B是展示两种Glu密码子(图9A中的GAA和图9B中的GAG)的频率的直方图。图9C和图9D是展示两种Ile密码子(图9C中的AUU和图9D中的AUA)的频率的直方图。图9F是展示表达载体的5'-UTR加每个基因的初始16个密码子或“头端”中的配分函数折叠自由能(ΔG_UH)的直方图。图9G是展示每个基因的剩余部分或“尾端”中在具有长度w的宽度的50％重叠窗中的平均配分函数折叠自由能(<ΔG_T>₉₆)的直方图。图9I是展示核苷酸中的蛋白质编码序列长度的直方图。E＝0和E＝5类别中的参数分布分别以浅色和深色展示，而E＝1-4区段中的参数以灰色阴影展示。图9E、9H和9J展示了参数值的区段中E5相较于E0类别中的蛋白质数目比的对数的“对数优势”曲线图。实线展示了单一变量二元逻辑回归(即，数据以此形式的线性最小二乘拟合)的结果，其得出图11B中展示的密码子斜率值。

图10展示了对于在位置3-96处在其编码序列中由指定核苷酸碱基编码的蛋白质，E5相较于E0类别中的蛋白质数目比的对数。G、C、A和U分别代表鸟嘌呤、胞苷、腺嘌呤和尿嘧啶碱基。位置从AUG起始密码子的A开始编号。灰色虚线指示受70S起始复合物中的核糖体保护的近似区域。

图11A-11E展示了大规模数据集中的密码子对蛋白质表达的影响。图11A展示了E＝0加E＝5类别(深灰色)和E＝0-5类别(浅灰色)中的基因中的每种非终止密码子的频率的曲线图。误差条代表频率分布的样本方差。图11B展示了E＝0相较于E＝5类别中的蛋白质的单一参数二元逻辑回归分析(深灰色)、E＝0-5类别中的蛋白质的单一参数序数逻辑回归分析(浅灰色)和图34A-34B中的模型M的E＝0相较于E＝5类别中的蛋白质的同时多参数二元逻辑回归分析(彩色标志)的每种非终止密码子的斜率。蓝色标志代表碱性残基，红色标志代表酸性残基，洋红色标志代表极性不带电残基，深绿色标志代表疏水性残基，浅绿色标志代表甘氨酸和脯氨酸残基，橙色标志代表甲硫氨酸，并且黄色标志代表半胱氨酸。星形(★)代表β-支链的残基，六角形代表芳香族残基，圆形代表脯氨酸(●)，并且三角形(Δ)代表所有其它残基。图11C、11D和11E展示了相对于大肠杆菌BL21的基因组中的密码子使用频率(图11C)、相应氨基酸的Kyte-Doolittle疏水性(图11D)和密码子中的三个位置中每一者处的核苷酸碱基(图11E)绘制的多参数二元逻辑回归分析的密码子斜率。

图12展示了将针对其对同义密码子使用效应的影响进行评估的代表性候选基因。这些非必需基因的基因敲除株可在由耶鲁大学(Yale University)的大肠杆菌遗传储备中心(E.coli Genetic Stock Center)分支的KEIO Collection获得。基因名称之后圆括号中的数值给出了相应基因敲除株于LB液体培养基中的对数期生长速率，表示为匹配的野生型株在相同条件下的速率的分数。

图13A-13D展示了经设计以增强蛋白质表达的合成基因表达的实验评估。图13A-13D展示了低效翻译的天然(WT)基因与在头端或尾端或这两者中使用6AA、31C折叠优化(31C-FO)或31C折叠去优化(31C-FD)方法重新设计的同义基因的体内和体外表达特性的比较。头端中的序列类型(下标H)与尾端中的序列类型(下标T)分开指示，并且目的蛋白的名称在每一行上在左侧指示。体内实验的未经诱导的对照标记为“N.Ind.”。图13A展示了在时间零点诱导标靶基因之后在室温下的大肠杆菌BL21(DE3)宿主细胞生长曲线。图13B展示了全细胞在18℃下过夜诱导之后的考马斯蓝(Coomasie Blue)染色的SDS-PAGE凝胶。在收集时将每个泳道中负载的量针对培养物的OD₆₀₀标准化。具有分子量标记的最左侧泳道中的黑色箭头指示目的蛋白的迁移位置。图13C展示了在[³⁵S]-甲硫氨酸存在下使用完全纯化的翻译组件的体外翻译反应的SDS-PAGE凝胶的放射自显影图。每个反应含有等量的使用T7RNA聚合酶体外转录的经纯化mRNA。与目的蛋白相比在更高分子量下的条带代表抗SDS寡聚物。图13D展示了在诱导体内表达之后对目的蛋白的mRNA的RNA印迹(northern blot)分析。等量的总RNA负载于每个泳道中，并且印迹用匹配5'UTR的探针进行杂交。

图14展示了逻辑回归分析的密码子影响与大肠杆菌中的内源mRNA和蛋白质水平两者之间的相关性。关于大肠杆菌中的所有基因计算密码子影响(图11A中展示的逻辑回归斜率)的平均值，所述基因根据此值进行分区。对于每个所得区段，曲线图展示了对化学成分确定的液体培养基中生长的对数期大肠杆菌细胞进行的先前基因组规模体内分布研究中观察到的顶部相较于底部三分之一水平中基因/蛋白质的数目比的自然对数。青色、洋红色和红色迹线分别展示了mRNA浓度的微阵列分析、mRNA序列核糖体占用的深度测序分析和蛋白质浓度的质谱分析的数据。左侧上的曲线图展示了大肠杆菌基因组中编码的所有蛋白质的数据，而右侧上的曲线图限于由程序LipoP预测局限于细胞溶质中的蛋白质。

图15展示了大规模蛋白质表达数据集中存在的蛋白质的系统发生分布。进化分支图中的色彩编码来自每种生物体的蛋白质的数目，如由图例指示。数据集包括来自真核生物的47种(来自人类的45种和来自小鼠的2种)、来自古细菌的809种和来自大肠杆菌的96种，剩余部分来自其它真细菌。向数据集贡献最大数目蛋白质的生物体是真细菌多形拟杆菌(Bacteroides thetaiotaomicron)(150种蛋白质)。

图16A-16J展示了大规模蛋白质表达数据集中的额外mRNA序列参数在不同表达水平下的分布。参数分布由数据集中所包括的6,348个基因计算。图16A是展示总G+C频率的直方图，图16G是展示所有阅读框中AGGA序列频率的直方图，并且图16I是展示密码子重复率r频率的直方图。E＝0和E＝5类别中的参数分布分别以深蓝色和浅蓝色展示于图16A中，并且分别以红色和黑色展示于图16G和图16I中。对于每个图，用于中间表达得分的直方图的标志指示于图例中。图16B-16F、16H和图16J展示了参数值的区段中E5相较于E0类别中的蛋白质数目比的对数。图16B展示了四种个别核苷酸碱基的总频率以及组合G+C频率(标记为GC)的数据，而图16C-16E分别单独地展示了基因中的密码子的第1、第2和第3位置的等效数据。图16F展示了不含有或含有至少出现一次的ATA·ATA双密码子的基因的数据。此图中的误差条代表从靴带式(bootstrapping)计算的95％置信界限(不出现任何此双密码子的基因的误差条小于标志的大小)。图16J展示了密码子重复率r的数据。

图17A-17C展示了大规模蛋白质表达数据集中所包括的基因的序列参数之间的相关性。Corrgram代表了数据集中所包括的基因的不同mRNA序列参数之间的带正负号的皮尔逊相关系数(Pearson correlation coefficient)。色彩编码示意性地定义于图17A的左侧，蓝色用于正相关变量，红色用于负相关变量，并且白色用于不相关变量。在图17A中，E代表二元类别(0,5)中的表达得分，s_全部代表整个基因(不具有LEHHHHH标签)内新密码子影响度量值(图11B中的彩色标志)的平均值，s_7-16和s_17-32分别代表密码子7-16和17-32的此度量值的平均值，ΔG_UH代表pET21表达载体的5'-UTR加基因中的前48个核苷酸的预测mRNA折叠自由能，<ΔG_T>₉₆代表基因的剩余部分中96个核苷酸的50％重叠窗中的预测折叠自由能的平均值，I代表在(ΔG_UH<-39kcal/mol)和(％GC_2-6>0.65)时假定0或1的值的指示变量，d_AUA在至少出现一次ATA.ATA双密码子时假定0或1的值，r代表密码子重复率(参看在线方法(Online Methods))，并且％GC代表基因中G加C碱基的含量百分比。变量a_H、a_H ²、g_H ²和u_3H代表密码子2-6中的A、G和U碱基含量的单项式函数。图17B展示了与E正相关的密码子的频率的数据，而图17C展示了与E正相关的密码子的频率的数据。

图18A-18D展示了说明大规模蛋白质表达数据集中的结果与序列参数对的相依性的二维直方图。每个方形的色彩编码所述区段中的E＝5相较于E＝0类别中的蛋白质的过量分数(即，(#E5-#E0)/(#E5+#E0))，如通过右侧上的比例尺校准。每个方形的面积与每个区段中所包括的蛋白质数目的平方根成比例，其大致追踪数据点的统计显著性。变量s_全部、s_7-16和s尾代表整个基因、密码子7到16和基因下游的所有剩余密码子的新密码子影响度量值(图11B中的彩色标志)的平均值。ΔG_UH代表pET21表达载体的5'-UTR加基因中的前48个核苷酸的预测mRNA折叠自由能，<ΔG_T>₉₆代表基因的剩余部分中96个核苷酸的50％重叠窗中的预测折叠自由能的平均值，并且r代表密码子重复率。

高通量蛋白质表达数据集中存在的蛋白质的2D分布。

图19展示了参数影响相较于mRNA中的位置。

图20A-20C展示了具有使用31C-FO方法优化的序列的合成基因的体内表达。(图20A)比较大肠杆菌yacQ基因的WT(WT_H/WT_T)相较于优化(31C-FO_H/31C-FO _T)变异体的表达特性。左图展示了全大肠杆菌BL21(DE3)pMGK细胞在18℃下过夜诱导之后的考马斯蓝染色的SDS-PAGE凝胶；在收集时将凝胶上负载的细胞提取物的量针对培养物的OD₆₀₀标准化。中图展示了在[³⁵S]-甲硫氨酸存在下使用完全纯化的翻译组件的体外翻译反应的SDS-PAGE凝胶的放射自显影图；每个反应含有等量的使用T7RNA聚合酶体外转录的经纯化mRNA。右图展示了在诱导体内表达之后对目的蛋白的mRNA的RNA印迹法；等量的总RNA负载于每个泳道中，并且印迹用匹配5'UTR的探针进行杂交。(图20B)对于17种不同蛋白质，使用31C-FO_H方法设计的合成基因在18℃下过夜诱导之后的全细胞提取物的考马斯蓝染色的SDS-PAGE凝胶。所有基因与C末端六聚组氨酸标签同框克隆于用以产生大规模蛋白质表达数据集的相同pET21质体衍生物中(Acton,T.B.等人(2005)Methods Enzymol 394,210-243)。等量的诱导培养物负载于所有泳道中。图20C对于大肠杆菌麦芽糖结合蛋白(MBP)，在基因的C末端处同框融合的14种相同合成基因在18℃下过夜诱导之后的全细胞提取物(顶部)和相应可溶部分(底部)的考马斯蓝染色的SDS-PAGE凝胶。图20B-20C中表达的蛋白质序列来自以下源生物体：LCABL_04230来自干酪乳杆菌(Lactobacillus casei)BL23；VIPARP466_2889来自副溶血性弧菌(Vibrio parahaemolyticus)；AM1_4824来自Acaryochloris marinaMBIC11017；CLO_0718来自肉毒梭菌(Clostridium botulinum)E1；ESAG_04692来自埃希氏菌属(Escherichia sp.)3_2_53FAA；FTCG_00666和FTCG_01175来自土拉弗朗西斯菌新凶手亚种(Francisella tularensis subsp.novicida)GA99-3549；FTE_1275、FTE_1608、FTE_0420和FTE_1020来自土拉弗朗西斯菌新凶手亚种FTE；FRANO wbtG和A1DS62_FRANO来自新凶手弗朗西斯菌(Francisella novicida)l；FTBG_00988和A7JEH2_FRATL来自土拉弗朗西斯菌土拉亚种FSC033；FTN_1238来自土拉弗朗西斯菌新凶手亚种U112；O1O_09285来自绿脓假单胞菌(Pseudomonas aeruginosa)MPAO1/P1；Sthe_2331来自嗜热球形杆菌(Sphaerobacter thermophilus)DSM20745/S6022；SEVCU126_0606来自表皮葡萄球菌(Staphylococcus epidermidis)VCU126；并且Y007_20720来自肠道沙门氏菌肠道血清变型蒙特维多亚种(Salmonella enterica subsp.enterica serovar Montevideo)507440-20-C。

图21展示了在T7体外翻译之后获得的纯mRNA的产率。图21是代表每种天然或优化基因在体外T7翻译合成后针对2个独立者获得的纯mRNA的平均产率的柱形图。

图22A-22C展示了东北结构基因组学(NESG)协会数据集，其中表达从E0(无)到E5(最高)评分。在图22A中，计算前50个编码碱基的自由能。高自由能区段(具有相对小的二级结构)具有比较低自由能区段更大的高表达分数。在图22B中，对于前50个编码碱基和编码碱基201-250，高表达概率(E3+E4+E5)绘制为自由能的函数。更后的窗的表达水平的变化更小，但在图22B中在-10kcal/mol≤G≤-5kcal/mol下观察到峰，并且在图22C中在一系列96聚体窗中观察到抛物线趋势，表明太小的结构也可能是有害的。

图23A-23B展示了原始序列(呈红色)与使用本文所描述方法产生的工程化同义序列(呈蓝色)之间的比较。图23A展示了原型网络应用的样本输出，其中增加前50个编码碱基的自由能增加了基因将是高度表达的E5/(E0+E1+...+E5)的概率。在图23B中，二级结构的差异用RNA弓图描绘。独特碱基和碱基对着色为红色或蓝色；共同碱基和对呈黑色。

图24A-24B展示了(24A)密码子效应与基因组密码子使用频率不相关和(24B)密码子效应与tRNA水平或“密码子适应指数”无关。

图25A-25D展示了对(a)APE_0230.1、(b)RSP_2139、(c)SRU_1983和(d)SCO1897基因进行的实验，从尾端去除最差密码子(6AA，绿色)相对于WT(黑色)增加了表达。WT非诱导和诱导是对照。在头端中，密码子优化在所有情况下都增加表达。在SCO1897中，具有低自由能的31C-FD头端可以切断表达。在其它基因中，31C-FD自由能不是很低。WT：野生型序列；6AA：优化六个最重要密码子(D→GAT、E→GAA、H→CAT、I→ATT、Q→CAA、R→CGT)；31C-FO：其中自由能仅使用良好密码子优化；31C-FD：其中自由能仅使用良好密码子而变得尽可能稳定。

图26A-26B显示，6AA(绿色)尾端降低(26A)APE_0230.1和(26B)RSP_2139的毒性。细胞质量的增加意味着蛋白质产生的增加。

图27显示，组合31C-FO优化头端与尾端导致先前研究的所有四个基因的表达都有大的增加。具有31C-FO优化的内源大肠杆菌蛋白质ER449(泳道21.1与21.2)展示出相对于野生型(WT)增加的表达。

图28展示了1000个伪随机序列的最小自由能，用RNAstructure计算的长度100、200、300、400或500的mRNA二核苷酸相关性与以下相比较：(28A)二参数模型G2和(28B)五参数模型G5，取决于碱基组成。平方残差以(kcal/mol)²单位给出。

图29A-29C展示了蛋白质编码序列的物理化学因素和区域对蛋白质表达水平的多参数二元逻辑回归模型的贡献。不同因素的贡献的量值使用漏失(drop-out)计算来定量，其中个别项或项集在于最终模型M中重优化剩余项之前省略(图34A-34B)。条形图展示了ΔAIC(赤池信息准则(Akaike Information Criterion)的变化)的量值的所得减小分数，与基于其自由度数值的随机期望值相比，其定量模型预测能力(参看在线方法)。图29A展示了漏失每个个别项的计算的汇总。图29B展示了漏失项组合的计算的汇总。与mRNA折叠稳定性相关的以蓝色和青色展示于图29A中，而与密码子使用相关的以红色、橙色、黄色和洋红色展示。头端相较于非头端项分别展示于图29A中的左侧和右侧。图29C展示了一示意图，其中当计算相应序列参数时，图29A中的色彩用以代表所包括的蛋白质编码序列的区域。AUG起始密码子开始于核苷酸(nt)位置1。

图30A-30C显示，多参数二元逻辑回归模型的平均密码子影响与大肠杆菌中的内源mRNA和蛋白质水平相关。图30A展示了，先前微阵列分析中检测的大肠杆菌中的每种预测细胞质蛋白质的mRNA水平绘制为s_全部，新密码子影响度量值(图11B中的彩色标志)平均值的函数。青色点代表个别基因，而蓝色标志和垂直条指示具有相等群体的s_全部的20个区段中的中值和第25到第75百分点。图30B-30C展示了对数优势曲线图，其展示先前基因组规模体内分布研究中的顶部相较于底部30％群体中的大肠杆菌基因/蛋白质的数目比的自然对数作为s_全部的函数。图30B中的红色、洋红色和青色曲线分别代表蛋白质浓度的质谱分析(Ishihama,Y.等人(2008)BMC Genomics 9,102)(n＝825)、mRNA上的核糖体分布的深度测序分析(Li,G.W.,Burkhardt,D.,Gross,C.与Weissman,J.S.(2014)Cell 157,624-635)(n＝2,597)和图30A中展示的mRNA浓度的相同微阵列分析(n＝2,817)的数据。图30B展示了大肠杆菌中的所有预测细胞质蛋白质(如实例中所描述而鉴别)的结果，而图30C展示了限于质谱分析中检测到的蛋白质的这些结果(n＝825)。图30C中的绿色曲线展示了这些蛋白质的蛋白质比mRNA比，经计算为质谱分析与微阵列分析的值的商。所有分布研究都对化学成分确定的培养基中生长的对数期细胞进行。

图31A-31E展示了密码子影响度量值与先前文献中假定为影响翻译效率的参数的关系。同时多参数二元逻辑回归分析的密码子斜率(图11B中的彩色标志)绘制于所有这些图中的纵坐标上。标志的色彩编码和形状与图11B-11E中相同。图31A展示了相较于大肠杆菌BL21中的相对同义密码子使用(RSCU)的曲线图。图31B展示了相较于大肠杆菌K12中的密码子适应指数的曲线图(Sharp,P.M.与Li,W.H.(1987)Nucleic Acids Res 15,1281-1295)。图31C展示了相较于大肠杆菌K12中的密码子敏感性的曲线图(Elf,J.,Nilsson,D.,Tenson,T.与Ehrenberg,M.(2003)Science 300,1718-1722)。图31D展示了相较于大肠杆菌K12中的tRNA适应指数的曲线图(Tuller,T.等人(2010)Cell141,344-354)。图31E展示了相较于大肠杆菌K12中的精确同源tRNA的浓度的曲线图(Dong,H.,Nilsson,L.与Kurland,C.G.(1996)Journal of Molecular Biology 260,649-663)。

图32展示了密码子影响的变化作为在编码序列中的位置的函数。曲线图展示了通过以下方式产生的计算模型的偏差的减小：在横坐标上指定的位置处开始添加代表在5(蓝色)、10(红色)或16(洋红色)密码子宽的窗中的密码子斜率(图11B中的彩色标志)的平均值的项。偏差的减小相对于碱基模型计算，其含有密码子频率、头端核苷酸组成项(a_H、a_H ²、u_3H、g_H ²)、头端加5'-UTR中的预测RNA折叠自由能(ΔG_UH)、头端折叠效应的二元指示变量I、指示AUAAUA双密码子的出现率的二元变量d_AUA和密码子重复率r。密码子2-6的平均斜率推测起来不改进模型，因为头端组成项而非密码子含量主导着此区对蛋白质表达水平的影响。此效应还有可能考虑开始于密码子7处的窗的s_c-(c+9)和s_c-(c+15)曲线图中的峰。为了参考，向模型M添加s_7-16和s_16-32项分别贡献了模型偏差的30个点(p＝5×10^-8)和10个点(p＝0.001)(图34A-34B和图29A)。基于将可归于此区中的密码子的总偏差减小除以其数目[(30+(2.4*10))/10＝5.4/密码子]与整个基因中每密码子的平均偏差减小[(637.5/270)＝2.4/密码子]比较，头端中位置7-16处的个别密码子的影响力大于尾端中的下游的密码子约2.3倍。

图33A-33E展示了来自使用经纯化T7RNA聚合酶体外转录的mRNA的产率。图33A展示了，mRNA如下文所描述而纯化并且其最终产率基于260nm下的光密度定量。(图33B-33D)T7体外转录反应在于变性甲醛-琼脂糖凝胶上运行的0、5、10和30分钟时的时间点样品。反应通过添加针对以下的WT或31C-FO_H/31C-FO_T(31C-FO_H/_T)线性化质体开始：SRU_1983(图33B)、APE_0230.1(c)、SCO1897(图33D)和Eco-YcaQ(图33E)。对于每个反应，1μg相应的经纯化mRNA负载于凝胶上作为标准物以评估(asset)每种mRNA的溴化乙锭染色。

图34A-34B展示了模型开发和向最终计算模型M添加项的效应的表。图34A展示了模型开发的表。似然比(LR)χ²测量相对于零模型(5153.8)的偏差差异。偏差在下文定义。对于添加到模型的既定自由度数值(d.f.)，由(LRχ2-2*d.f.)给出的ΔAIC代表了赤池信息准则的变化。最佳模型M是此表中如上文所定义的指定参数的总和。考虑了许多组成、自由能和其它项后，100的因子用以校正多假设测试，并且仅当在p<0.05/100(5×10^-4)的邦弗朗尼(Bonferroni)校正水平下显著时在最终模型中包括参数。图34B展示了向最终计算模型M添加项的效应。

图35展示了用于基因设计的密码子的表。在同义序列的设计中，减少遗传密码的自然简并以消除不良密码子和消除最差密码子。在6AA方法中，一特定密码子用于六种氨基酸，而其它14种氨基酸与其野生型序列相比无变化。在31C-FO(和FD)方法中，自由能仅使用指定子组的密码子优化(或去优化)。

图36展示了同义密码子改变mRNA降解的机制的模型。翻译低效密码子的tRNA在此说明为占据核糖体上的A位点，因为在一些情形下带电同源tRNA的浓度可以影响翻译效率。然而，P位点和E位点处的效应也是可能的。

图37展示了大肠杆菌基因组中编码的所有预测细胞质相较于膜蛋白的新密码子影响度量值的平均值。程序LipoP和TMHMM用以分析所有蛋白质编码序列。经预测不具有信号序列或跨膜α-螺旋的蛋白质指定为细胞质的，而经预测具有至少两个跨膜α-螺旋的蛋白质指定为跨膜的。

图38展示了从6,348个独立蛋白质表达实验推断的密码子影响与使用等效多参数逻辑回归建模方法从单一mRNA微阵列法推断的密码子影响的比较。白色背景突显了从正面到强负面影响的密码子或反之亦然。

图39A-39B展示了葡萄糖基本培养基中的对数期大肠杆菌MG1655中ΔettA对体内蛋白质表达的影响。(图39A)展示比较WT与ΔettA的差异蛋白质组分析中最强烈变化的蛋白质的表。(图39B)具有YFP与编码AceB的染色体基因的C末端的同框融合物的株；含有EttA表达质体或空对照质体的细胞的OD₆₀₀(黑色)和YFP荧光(绿色)的实时分析。

图40展示了所提出的报告基因结构的示意图。AUG是起始密码子，并且rbs表示核糖体结合位点。

图41A-41D展示了在生理表达水平下基因优化的效应。SRU_1983、APE_0230.1和Eco-YcaQ的WT和31C-FO_H/31C-FO_T(31C-FO_H/_T)基因在pBAD质体(Life Technologies)中用ORF的5'的₆His标签再克隆。此质体中克隆的基因由天然大肠杆菌的RNA聚合酶在阿拉伯糖诱导型启动子下表达。携有pBAD质体的BL21pMGK细胞生长于具有100μg/ml氨苄青霉素(Ampicillin)和30μg/ml卡那霉素(Kanamycin)的LB培养基中。非诱导对照生长于具有0.4％葡萄糖的培养基中(泳道+Glc)。在0.6的OD₆₀₀下，细胞用对于APE_0230.1为0.001％并且对于SRU_1983和Eco-YcaQ为0.01％的最终浓度的阿拉伯糖诱导1小时(泳道+Ara)。(图41A,41C)诱导和非诱导细胞如在线方法中所描述而加工，并且在SDS-PAGE凝胶上运行。平行凝胶运行用于蛋白质印迹(western blot)分析。(图41B,41D)蛋白质印迹与1:2,000稀释度的四-His抗体(34670，Qiagen)一起孵育，在驴抗兔二级抗体与IRDye 680(926-32223，Li-cor)的结合物存在下发育，并且扫描于Odyssey CLx扫描仪(Li-cor)上。黑色箭头展示了诱导蛋白质在凝胶上的位置。对于YcaQ_31C-FO_H/_T(图41D)，样品，较小分子量的其它蛋白质与四-His抗体反应，更可能其归因于YcaQ_31C-FO_H/_T序列中的独立于阿拉伯糖诱导型启动子的内部转录/翻译起始。

具体实施方式

本文中引用的授权专利、申请和其它公开特此以引用的方式并入，其程度如同每一者具体并且独立地指定为以引用的方式并入一般。

除非内容另外明确规定，否则单数形式“一”和“所述”包括复数个指示物。因此，举例来说，提及一“病毒”包括多个此类病毒。

重组多肽的过度表达是多种生物技术应用中的重要步骤，然而对于多肽相关应用来说，不良重组多肽表达可能成问题。举例来说，如食品生产、药物发现和药物生产等工业和商业应用通常需要多肽以高水平表达。

本文所描述方法部分基于来自数千种表达于超过6,348个表达实验中的独特多肽的大规模统计数据挖掘。在某些实施例中，本文所描述的发明涉及一种密码子效率度量值，其可以定性和定量地描述个别密码子对蛋白质表达水平的影响。

在某些方面，本文所描述方法涉及使用逻辑回归分析利用细菌噬菌体T7聚合酶驱动大肠杆菌中的mRNA合成的6,348个蛋白质表达实验。在某些实施例中，本文所描述方法显示，基因的(a)头端(初始约16个密码子)和(b)尾端(剩余部分)对蛋白质表达施加大致相同影响。本文所描述方法显示，虽然mRNA折叠效应主导着头端的影响，但密码子使用有助于其影响并且主导着尾端的影响。不希望受理论所束缚，本文所描述的密码子效率度量值分析可以展示出与大肠杆菌中的基因组密码子使用频率的弱相关性和与基因组规模分布研究中测量的蛋白质和mRNA浓度两者的强相关性。基于本文所描述方法重新设计的基因可以在不变的效率下体外转录，并且仍产生在实质上更高效率下体外翻译的mRNA。在某些方面，本文所描述方法可以用以产生更大的体内蛋白质表达增加。在某些实施例中，根据本文所描述方法获得的蛋白质表达增加部分是由于mRNA水平的增加。在此所描述的方法可以用以鉴别影响蛋白质翻译的生物物理因素。不希望受理论所束缚，本文所描述方法涉及如下发现：翻译效率是大肠杆菌中的生理mRNA水平的主要但在此以前未被认识的决定因素。

在某些实施例中，本文所描述的发明涉及一种定量方法，其经开发适用于预测mRNA折叠能对蛋白质表达水平的效应。

在某些方面，本文所描述方法涉及使用大规模实验蛋白质表达数据集的统计分析。在某些实施例中，本文所描述方法集中于同时评估多种多样的局部和整体mRNA序列特性的影响。

在某些方面，本文所描述方法涉及通过生物化学分析来测试机制性推断(例如由多种多样的局部和整体mRNA序列特性的影响产生的推断)。如本文所描述，这些组合计算和实验研究可以用以测定和鉴别mRNA序列特征对蛋白质表达水平的影响。在一些方面，本文所描述方法可以用以测定密码子翻译效率相较于mRNA折叠能的相对影响以及在蛋白质编码序列的不同区域中这些因素的影响的变化。本文所描述方法还提供了一种密码子效率度量值。在某些方面，本文所描述方法涉及如下发现：翻译起始和延长的序列相依性瓶颈可以降低稳态mRNA水平。在某些方面，归因于翻译起始和延长的序列相依性瓶颈的稳态mRNA水平降低扩大了其对蛋白质表达的影响。

本文所描述的发明还部分基于如下发现：低表达可能与编码多肽的核酸序列的编码区的开始处的低折叠自由能强相关。因此，在某些实施例中，本文所描述方法可以用于评估是否对于既定基因，其可以评估由核酸序列编码的多肽是否有可能由于核酸的强折叠效应而不良地表达。因此，在某些方面，本文所描述方法可以利用遗传密码的简并来产生能够编码相同多肽的同义核酸序列，并且其中同义核酸序列包含同义变化以产生相对于不变的序列具有相应RNA序列的高预测折叠自由能的核酸序列，并且因此产生更高的蛋白质表达。

虽然DNA由沃森-克里克(Watson-Crick)互补碱基对构建，但RNA的碱基组成不受通用互补性限定，因此应对RNA计算比(G+C)含量更复杂的近似值。四种碱基具有不同平均折叠自由能，这一事实可以用于设计具有最优特性的序列。

因此，本文所描述方法和组合物可以适用于鉴别具有更高或更低的以高水平表达于基因表达系统中的概率的多肽，改进既定基因的表达。这些方法可以具有降低用于多种应用(包括研究、生物技术和商业应用)的蛋白质表达的成本的益处。因此，本文所描述的发现可以用以通过向核酸序列引入改进由其编码的多肽的翻译效率的同义变化而提供改进的蛋白质表达，所述蛋白质否则的话并不从其天然序列充分表达。

在某些方面，本文所描述方法涉及如下发现：密码子2-6中的碱基组成与对应于编码多肽的核酸的头区的RNA序列的预测折叠自由能组合的影响影响了由其编码的多肽的表达。在某些实施例中，本文所描述方法涉及评估编码多肽的核酸序列的第一个密码子的碱基对组成以及对应于编码多肽的核酸的头区的RNA序列的预测折叠自由能以确定多肽是否有可能充分表达。在某些实施例中，本文所描述方法涉及评估编码多肽的核酸序列的前两个密码子的碱基对组成以及对应于编码多肽的核酸的头区的RNA序列的预测折叠自由能以确定多肽是否有可能充分表达。在某些实施例中，本文所描述方法涉及评估编码多肽的核酸序列的前三个密码子的碱基对组成以及对应于编码多肽的核酸的头区的RNA序列的预测折叠自由能以确定多肽是否有可能充分表达。在某些实施例中，本文所描述方法涉及评估编码多肽的核酸序列的前四个密码子的碱基对组成以及对应于编码多肽的核酸的头区的RNA序列的预测折叠自由能以确定多肽是否有可能充分表达。在某些实施例中，本文所描述方法涉及评估编码多肽的核酸序列的前五个密码子的碱基对组成以及对应于编码多肽的核酸的头区的RNA序列的预测折叠自由能以确定多肽是否有可能充分表达。在某些实施例中，本文所描述方法涉及评估编码多肽的核酸序列的前六个密码子的碱基对组成以及对应于编码多肽的核酸的头区的RNA序列的预测折叠自由能以确定多肽是否有可能充分表达。

在某些方面，本文所描述方法涉及如下发现：核酸序列的尾区可以对由其编码的多肽序列起作用。在一个实施例中，用以评估头区对多肽表达的效应的自由能项通过测定“密码子斜率”和“密码子重复率”项(r)的效应而包含在内。在某些实施例中，编码多肽的核酸的尾区中的最小密码子重复(如通过密码子重复率项测定)指示，由核酸编码的多肽有可能以比由在其尾区中具有更高密码子重复量的核酸序列编码的多肽更高的水平表达。在某些实施例中，多肽的表达可以通过在优化序列之前消除会减弱表达的密码子(例如ATA、CGG、CGA、CUA、UUG)而改进。

因此，在某些方面，本发明涉及一种改进由核酸编码的多肽表达的方法，所述方法包含(a)产生评估可以通过改变每个密码子获得的改进表达的潜在益处的清单，作为(i)密码子斜率和(ii)对密码子重复率的影响的函数；(b)分选所述清单并且在经预测可导致由核酸编码的多肽表达的最大增加的密码子中进行取代；和(c)重复步骤(a)和(b)直到多肽表达不可能有或不再期望有进一步改进。在某些实施例中，经预测可导致蛋白质产生的第二大增加的密码子可以代替经预测可导致由核酸编码的多肽表达的最大增加的密码子而使用。在某些实施例中，进行步骤(c)重复，同时保持密码子重复率在期望的范围内。

本文所描述方法可以应用于大肠杆菌的整体mRNA分布数据以产生等效基因优化算法，如图30中所指示。在某些实施例中，本文所描述方法可以包括(但不限于)用以产生本文所描述模型M的计算方法。因此，在某些实施例中，本文所描述方法可以应用于任何生物体的整体mRNA分布数据以产生特定针对于所述生物体的基因优化算法，并且可以应用于可以产生整体mRNA分布的任何生物体。在某些实施例中，本文所描述方法(例如用以产生模型“M”的计算方法)可以用以从大肠杆菌的任何mRNA分布数据产生大肠杆菌的等效基因优化算法。在某些实施例中，本文所描述方法(例如用以产生模型“M”的计算方法)可以用以从任何生物体的任何mRNA分布数据或蛋白质表达谱数据产生所述生物体的等效基因优化算法，所述生物体包括(但不限于)细菌生物体、古细菌生物体或真核生物体，包括(但不限于)图15中展示的生物体。

在某些实施例中，适用于本文所描述方法(例如模型“M”或应用于蛋白质表达谱数据或mRNA分布数据的用以产生模型“M”的计算方法的输出)的生物体可以是包含一个或多个来自不同生物体或来自合成来源的基因的转基因或遗传工程化生物体。在某些实施例中，适用于本文所描述方法(例如模型“M”或应用于蛋白质表达谱数据或mRNA分布数据的用以产生模型“m”的计算方法的输出)的表达系统可以是包含一个或多个来自细菌、古细菌或真核生物的转录或翻译组件的体外表达系统或重建表达系统。在某些实施例中，适用于本文所描述方法(例如模型“M”或应用于蛋白质表达谱数据或mRNA分布数据的用以产生模型“m”的计算方法的输出)的表达系统可以是包含一个或多个来自图15中展示生物体的转录或翻译组件的体外表达系统或重建表达。在某些实施例中，适用于本文所描述方法(例如模型“M”或应用于蛋白质表达谱数据或mRNA分布数据的用以产生模型“m”的计算方法的输出)的表达系统可以是包含一个或多个来自图15中展示生物体的转录或翻译组件的体外表达系统或重建表达。

在某些实施例中，模型M可以是多参数广义线性逻辑回归模型。在某些实施例中，本文所描述方法向mRNA分布数据的应用可以是逻辑或非逻辑的。因此，在某些实施例中，本文所描述方法向mRNA分布数据的应用可以是多参数广义线性线性回归模型。

遗传密码的简并(仅20种不同氨基酸的61个不同核苷酸三联体密码子直接聚合的事实)使得相同蛋白质序列能够由大量的不同但同义的mRNA序列编码。蛋白质编码序列中的同义变化(单核苷酸多态性)可以改变人类对大范围的疾病的易感性(Kimchi-Sarfaty,C.等人(2007)Science 315,525-528；Hunt RC等人,(2014)Trends in genetics:TIG,doi:10.1016/j.tig.2014.04.006)。分子生物研究已经提供了mRNA序列中的导致蛋白质表达水平细微和剧烈变化两种情况的同义变化的许多实例(Steinthorsdottir V等人,(2007)Nature genetics 39,770-775；Hunt RC等人,(2014)Trends in genetics:TIG,doi:10.1016/j.tig.2014.04.006；Zhang F.等人(2010)Science 329,1534-1537)。mRNA序列中的变异可以在调节蛋白质于从大肠杆菌到人类的生物体中的表达方面起重要作用，并且在不同实验系统中介导这些效应已经牵涉到多种不同机制性因素(Spencer PS等人,(2012)JMol Biol 422,328-335；Plotkin JB等人,(2011)Nature reviews.Genetics12,32-42；Gingold,H.(2011)Mol Syst Biol 7,481)。然而，对于不同因素在控制任何既定系统中的蛋白质表达水平方面的相对贡献的理解有限，并且关于这些因素中的一些的影响的冲突报道仍然未解决。

在控制mRNA的翻译效率中已经牵涉到mRNA特征。蛋白质编码序列中5'区而非下游中的稳定mRNA折叠可以减弱大肠杆菌中的翻译(Goodman DB等人,(2013)Science,doi:10.1126/science.1241934；Kudla G等人,(2009)Science 324,255-258；Bentele K等人,(2013)Molecular systems biology 9,675；Tuller,T.等人(2010)Proc Natl Acad Sci US A107,3645-3650)。此效应可以反映70S核糖体起始复合物向mRNA中的AUG起始密码子上的组装的抑制。尽管存在与起始密码子重叠的稳定mRNA折叠的调节介导蛋白质翻译的生理学上重要的调节的情况(Shakin-Eshleman SH等人,(1988)Biochemistry 27,3975-3982(1988)；Kozak M(2005)Gene 361,13-37；Castillo-Mendez,M.A.等人(2012)Biochimie94,662-672)，但mRNA折叠能与蛋白质翻译效率之间的关系仍不确定。在某些方面，本文所描述方法和组合物涉及mRNA折叠能与蛋白质翻译效率之间的关系。

同义密码子的翻译效率的差异可以影响蛋白质表达水平，但还缺乏对这些效应的系统性定量。许多关于密码子使用的文献集中于大肠杆菌基因组中的一组不常使用的密码子的低效翻译，所述密码子尤其是异亮氨酸的AUA密码子(Caskey CT等人,(1968)J MolBiol 37,99-118；Muramatsu T等人,(1988)Nature 336,179-181)以及精氨酸的AGA、AGG和CGG密码子(Chen GT等人,(1994)Genes&development8,2641-2652；Vivanco-Dominguez S等人,(2012)J Mol Biol 417,425-439)。

关于以下存在不确定性：同义密码子对翻译效率的影响(Goodman DB等人,(2013)Science,doi:10.1126/science.1241934；Kudla G.等人(2009)Science 324,255-258；Bentele K.等人(2013)Mol Syst Biol 9,675；Cannarozzi,G.等人(2010)Cell 141,355-367；Li,G.W.等人(2014)Cell 157,624-635；Chen,G.T.等人(1994)Genes Dev 8,2641-2652；Caskey,C.T.等人(1968)J Mol Biol 37,99-118；Price,W.N.等人(2011)MicrobialInformatics and Experimentation 1,6；Wallace,E.W.等人(2013)Mol Biol Evol 30,1438-1453；Li,G.-W.等人(2012)Nature484,538-541；Elf,J.等人(2003)Science 300,1718-1722；Ran,W.等人(2014)MBio 5,e00956-00914；Quax,T.E.等人(2013)Cell Rep 4,938-944)；此类效应的机制性基础；和其与mRNA折叠效应的关系(Shakin-Eshleman SH等人,(1988)Biochemistry 27,3975-3982(1988)；Kozak M(2005)Gene 361,13-37；Castillo-Mendez,M.A.等人(2012)Biochimie 94,662-672；Goodman DB等人,(2013)Science,doi:10.1126/science.1241934；Kudla G等人,(2009)Science 324,255-258；Bentele K等人,(2013)Molecular systems biology 9,675；Tuller,T.等人(2010)ProcNatl Acad Sci U S A 107,3645-3650)。核糖体分布研究(Ingolia,N.T.等人(2009)Science 324,218-223)推断，净翻译延长速率对于大肠杆菌mRNA实际上恒定，无关于密码子使用(Li,G.W.等人(2014)Cell 157,624-635；Li,G.-W.等人(2012)Nature 484,538-541)。此发现挑战了同义密码子的翻译率的差异影响蛋白质表达的假定，所述假定是许多密码子使用文献的基础(Zhang,F.等人(2010)Science 329,1534-1537；Spencer,P.S.等人(2012)J Mol Biol 422,328-335；Gingold,H.等人(2011)Mol Syst Biol 7,481；Tuller,T.等人(2010)Proc Natl Acad Sci U S A 107,3645-3650；Quax,T.E.等人(2013)CellRep 4,938-944；Dana,A.等人(2014)Nucleic Acids Res 42,9171-9181；Sharp,P.M.等人(1987)Nucleic Acids Res 15,1281-1295)，但尚未提出解释密码子使用的变化导致蛋白质表达剧烈变化的许多实验的替代性机制(Gingold,H.等人(2011)Mol Syst Biol 7,481)。

此外，关于哪些密码子相关特性对于蛋白质表达有益相较于有害，存在不确定性(Gingold,H.等人(2011)Mol Syst Biol 7,481)。举例来说，已经替代性地提出了更均质的密码子使用以增强(Cannarozzi,G.等人(2010)Cell 141,355-367；Quax,T.E.等人(2013)Cell Rep 4,938-944)或降低(Zhang,G.等人(2010)Nucleic Acids Res 38,4778-4787)翻译效率。许多密码子使用文献集中于大肠杆菌基因组中的一组稀有密码子(Zhang,S.P.等人(1991)Gene 105,61-72)的低效翻译(Sharp,P.M.等人(1987)Nucleic Acids Res 15,1281-1295；Zhang,S.P.等人(1991)Gene 105,61-72；Ikemura,T.等人(1981)J Mol Biol151,389-409)，所述密码子尤其ile的AUA密码子(Caskey,C.T.等人(1968)J Mol Biol 37,99-118；Muramatsu,T.等人(1988)Nature 336,179-181)以及arg的AGA、AGG和CGG密码子(Chen,G.T.等人(1994)Genes Dev 8,2641-2652；Vivanco-Dominguez,S.等人(2012)J MolBiol 417,425-439)。在此基础上，普遍认为，平行于tRNA库水平的基因组密码子使用频率(Ikemura,T.等人(1981)J Mol Biol 151,389-409；Dong,H.等人(1996)Journal ofMolecular Biology 260,649-663)影响翻译效率，并且不常见密码子低效地翻译(Chen,G.T.等人(1994)Genes Dev 8,2641-2652；Caskey,C.T.等人(1968)J Mol Biol 37,99-118)。然而，当基因的头端含有最多地列举为翻译的屏障的稀有密码子时，荧光报告蛋白的表达增加(Goodman DB等人,(2013)Science,doi:10.1126/science.1241934)。此效应解释为反映头端中的低效密码子使用的耐受性以防止将减弱翻译的稳定mRNA折叠(Goodman DB等人,(2013)Science,doi:10.1126/science.1241934)。然而，未进行操控任一参数来验证此推断或剖析其相互作用的实验，并且替代性理论提出稀有密码子可以增强翻译效率(Elf,J.等人(2003)Science 300,1718-1722；Dittmar,K.A.等人(2005)EMBO Rep 6,151-157；Tuller,T.等人(2010)Cell 141,344-354)。进化生物学文献集中于基因组密码子使用频率的不同相关，其是蛋白质合成中的准确性(Wallace,E.W.等人(2013)Mol Biol Evol30,1438-1453；Bulmer,M.(1991)Genetics 129,897-907；Akashi,H.(1994)Genetics 136,927-935)。生物化学研究提出，更常见的密码子应更准确地翻译，因为其同源tRNA的水平系统地更高，并且来自近同源tRNA的竞争是翻译错误的主要原因(Ikemura,T.等人(1981)JMol Biol 151,389-409；Dong,H.等人(1996)Journal of Molecular Biology 260,649-663；Kramer,E.B.等人(2007)RNA 13,87-96；Zaher,H.S.等人(2011)Cell 147,396-408)。更常见密码子的使用在蛋白质中的更为保守的位点处会增加(Ran,W.等人(2014)MBio5,e00956-00914；Akashi,H.(1994)Genetics 136,927-935)，大概是因为此类位点处的更准确翻译(Ninio,J.(1986)FEBS Lett 196,1-4)促成了更大的进化适合性(Wallace,E.W.等人(2013)Mol Biol Evol 30,1438-1453；Drummond,D.A.等人(2008)Cell 134,341-352)。虽然不太常见的密码子也可以不太高效地翻译(Dana,A.等人(2014)Nucleic Acids Res42,9171-9181；Rocha,E.P.(2004)Genome Res 14,2279-2286)，但这些参数之间的系统性相关性仍有待展现。

使针对mRNA序列对蛋白质表达的影响的研究变复杂的一个因素是，序列中的同义变化可以同时影响多种与蛋白质翻译相关的机制性因素，即密码子一致性、密码子均质性和mRNA折叠以及从密码子对效应到总体A/U/C/G含量的其它可能有影响的局部和整体序列特征。先前的实验和理论研究已经集中于局部mRNA区中的个别参数或参数对(Goodman DB等人,(2013)Science,doi:10.1126/science.1241934；Kudla G等人,(2009)Science 324,255-258；Bentele K等人,(2013)Molecular systems biology 9,675；Cannarozzi G等人,(2010)Cell 141,355-367；Li,GW等人,(2012)Nature 484,538-541)，并且少数来自这些研究的机制性推断已经使用生物化学方法测试。举例来说，若干公开已经检验了翻译效率与(a)密码子使用频率、(b)蛋白质翻译准确性、(c)带电同源tRNA的浓度、(d)基因内密码子使用的均质性和非均质性(多样性)、(e)基因组规模研究、(f)接近核糖体处同源tRNA和氨酰基tRNA合成酶的局部浓度之间的关系(Goodman DB等人,(2013)Science,doi:10.1126/science.1241934；Elf,J等人,(2003)Science 300,1718-1722；Bulmer M等人,(1991)Genetics 129,897-907；Cannarozzi G等人,(2010)Cell 141,355-367)。

在某些方面，本文所描述方法涉及如下发现：精氨酸、天冬氨酸、谷氨酸、谷氨酰胺、组氨酸和异亮氨酸的密码子可以经如通过密码子频率和蛋白质表达水平的线性回归分析所测定为具有高“密码子斜率”的同义密码子取代。

在某些方面，本文所描述方法涉及如下发现：使用单一参数逻辑回归测定的密码子斜率显示，结束于A或U的密码子在基因中系统地增浓，在当前数据集中提供最高蛋白质表达水平，而结束于G或C的同义密码子在这些基因中系统地耗尽。因此，在某些方面，所述发现向工程化合成基因提供了指南，所述合成基因通过模拟当前数据集中的最佳表达基因的特性来增强蛋白质表达。

在某些方面，本文所描述方法涉及如下发现：对于每个密码子位置处的总体碱基组成，同框密码子模型优于非阅读框模型或抛物线模型。在某些实施例中，自由度数值(d.f.)是小于非终止密码子数目者，因为频率的总和等于一。

在某些方面，本文所描述方法涉及如下发现：对于密码子2-6(核糖体起始位点)，碱基组成变量比密码子频率描述性更大。与组成和对应于头端RNA序列预测折叠自由能的相互作用项突显了此区中不稳定折叠的重要性。在某些实施例中，在本文所描述方法中，如果对密码子7-16的平均斜率给出额外权重并且对密码子16-32较轻微程度地给出额外权重，那么即使在对于密码子2-6添加平均密码子斜率变量统计上不显著时，表达也会增加。在某些方面，在任何框中包括夏因-达尔加诺共有AGGA频率的变量在5％显著性水平下不改进模型。

在某些方面，头区和尾区在本文所描述的模型中具有类似的总体重要性。在某些实施例中，密码子1-6(起始)到对蛋白质表达有影响并且由其组成和二级结构倾向决定。在某些实施例中，密码子7-32斜率的影响力是尾端中更后的密码子的斜率的约三倍。本文所描述方法的迭代应用可以用以增加或减弱多肽在表达系统中的表达，所述表达系统包括(但不限于)体内表达系统和体外表达系统。

在某些方面，本文所描述方法涉及如下发现：降低包含紧靠着3'到5'UTR的编码序列的约前48个核苷酸的计算窗内RNA序列的RNA去折叠能可以用于当多肽在表达系统表达时改进由RNA编码的多肽的表达。在某些方面，本文所描述方法涉及如下发现：降低包含5'UTR和包含紧靠着3'到5'UTR的编码序列的约前48个核苷酸的计算窗内RNA序列的RNA去折叠能可以用于当多肽在表达系统表达时改进由RNA编码的多肽的表达。

因此，在某些方面，本文所描述方法提供了一种预测定量度量值，其适用于确定RNA二级结构何时影响表达系统中(例如大肠杆菌细胞中)的蛋白质翻译。

本文所描述方法的迭代应用可以用以增加或减弱多肽在表达系统中的表达，所述表达系统包括(但不限于)体内表达系统和体外表达系统。

在某些实施例中，蛋白质基于结构独特性而选自多种多样的源生物体。在某些实施例中，在选择时，具有大于30％氨基酸一致性的序列不将实验确定的结构保藏到蛋白质数据库(Protein Data Bank)中。在某些实施例中，过滤数据集以将任两种蛋白质之间的氨基酸一致性降低到小于60％。所分析的数据集包括来自171种生物体的6,348个基因，如图15中的进化分支图中详述。其含有95个内源大肠杆菌基因，包括在生物化学实验中检验的ycaQ；和来自异源来源的6,253个基因，包括来自哺乳动物的47个、来自古细菌的809个和来自151种不同真细菌生物体的剩余者。

数据集中异源基因的主导地位相对于使用大规模实验探测生物化学机制具有若干优点。在某些实施例中，中心前提是，一种理解生理过程潜在的基本机制的方式是用既定生物体中的尚未在选择性压力下进化的序列攻击所述生物体中的生物化学机构。进化过程将趋于对生理途径中的连续步骤施加平行选择性效应，其可以产生替代效应，即不反映直接机制性效应的显著序列相关性。蛋白质表达的调节最低限度地涉及转录、翻译、RNA降解和蛋白质降解的相互作用。内源大肠杆菌基因有可能具有影响这些互连过程中的一些而非其它的序列特征，其可以产生替代效应，并且其表达也可能受基因/蛋白质特异性调节系统影响。这些问题通过评估由使用定义明确的计算算法设计的合成基因序列编码的不具有大肠杆菌直系同源物的异源蛋白质的表达，用内源大肠杆菌基因进行规避。然而，基因设计算法的开发需要某一起点，并且据推断，对于大肠杆菌中的生理系统的基本生物化学特性的讯问，来自异源生物体的基因提供比内源大肠杆菌基因更有效的试剂。

就源生物体的生物化学和生理特性与大肠杆菌相比存在差异来说，评估异源来源的基因的表达降低了上文论述的进化交叉相关性和替代效应的程度。仅在多样源生物体之中普遍保守的生物化学效应可以产生强替代效应，这归因于影响表达途径中的连续步骤的序列特征的平行选择。普遍保守的生物化学机制将影响检验净蛋白质表达水平的对任何数据集进行的统计分析，无关于基因序列的来源。然而，利用来自多样系统发生来源的异源蛋白质的实验设计可以抑制本文所描述的此种统计分析的替代效应。

来自异源生物体的基因具有减小或消除基因/蛋白质特异性调节系统的效应的额外优点。

来自异源来源的基因具有如下额外优点：在于密码子空间中抽样时提供比仅仅使用来自大肠杆菌或任何其它单一生物体的基因可能的多样性更大的多样性。此外，其提供比使用合成基因检验密码子使用效应的先前研究中所实现的多样性更大的多样性。

重要的是验证一些内源大肠杆菌基因展现与来源于对异源基因进行的实验的推断一致的特性。在某些实施例中，大肠杆菌基因ycaQ包括于机制性分辨研究中。此内源基因/蛋白质在所有分析中都与来自异源来源的基因/蛋白质类似地表现。解决此问题的另一方式是比较预测高相较于无表达的计算模型当在大规模蛋白质表达数据集中应用于大肠杆菌基因或异源基因时的性能(图41)。此分析显示，计算模型对两组基因类似地执行，证实了使用异源基因序列讯问大肠杆菌中的生理系统的基本生物化学特性的方法的有效性。

途径中连续步骤中的间接进化偶合和平行选择操作可以产生不反映直接机制性效应的显著序列相关性。大规模数据集中异源基因的主导地位应减少但可能不消除替代效应的影响。这些考虑因素突显了使用本文呈现的经纯化组件的体外转录和翻译分析的重要性。在某些实施例中，分析代表了可能用以验证本文论述的统计分析中鉴别的强密码子效应对蛋白质翻译效率具有机制性效应的最严格的方法。

相比之下，关于此主题的广泛先前文献中使用的密码子效率度量值未曾在此种生物化学实验中验证，意味着其有可能部分或甚至完全来源于间接相关性和平行选择性效应。此现象的一个实例由Presnyak等人发表的论文(Cell 160:1111)提供。这些作者声称，酵母酿酒酵母(Saccharomyces cerevisiae)中的蛋白质翻译效率强烈影响mRNA稳定性。虽然此断言由于其与本文呈现的大肠杆菌研究的重要结论的强烈共鸣而有可能是准确的，但他们的断言是基于称为tRNA适应指数(tAI)的翻译效率理论度量值，其在关于任何生物体的先前文献中从未经验证可影响蛋白质翻译效率。在某些实施例中，大肠杆菌的tAI仅与密码子度量值微弱相关(图31D)。此经展现可体内和体外强烈影响蛋白质翻译效率。因此，tAI自身以及由Presnyak等人报道的效应有可能完全或部分来源于平行选择现象。Presnyak等人此外呈现了对mRNA寿命与密码子频率之间的关系的单一变量回归分析，但图17展现了，对数据集的此种单一变量分析关于个别密码子的效应产生误导性结论，因为其受基因的密码子内容物中的交叉相关性控制，即间接进化相关性。在此情形下，由Presnyak等人报道的密码子度量值(其尚未经实验上展现可影响体外蛋白质翻译效率)可以主要测量mRNA降解效应(这是他们已经测量的全部)，并且其与阅读框的明显相依性可以来源于平行进化选择。

在某些实施例中，天然和重新设计的基因明确经历体外转录分析和体外翻译分析。相比之下，这显示，据推断可影响mRNA向蛋白质中的翻译的序列特征直接调节此生物化学过程。必需有此种机制性分辨的体外实验来严格地表明，从对天然进化基因的分析推断的序列特征影响特定生物化学过程并且不来源于可归于平行选择性压力的替代效应。在某些实施例中，本文所描述的体外分析(其显示，基于计算模型重新设计的基因对翻译具有预测影响)代表了本文所描述发明的极重要组件。关于生物化学机制的可靠结论在没有其的情况下是不可能的。

尽管实验设计中有这些优点，但复杂的进化和生理因素可能影响对天然存在的基因进行的此类统计分析的结果。因此，进行实验以直接评估具有基于统计推断设计的序列的合成基因的实验特性。使用机制性分辨的生物化学分析获自这些序列的结果已经通过在大肠杆菌RNA聚合酶的控制下在生理表达水平下进行的新体内分析显著强化。

如本文所用，折叠RNA分子可以是在不存在变性条件下天然构象的RNA分子。折叠RNA还可以是呈其最低吉布斯自由能态(Gibbs free energy state)的RNA分子。折叠RNA还可以是如通过基于配分函数的方法所测定以相对概率处于热平衡的结构集合中的RNA分子。不希望受理论所束缚，RNA分子可以展现一个或多个具有相同或类似吉布斯自由能态的替代性折叠状态。此类状态可以取决于分析的环境和实验条件，包括(但不限于)缓冲液、温度、配体的存在等。当计算或比较RNA折叠模式时，本领域技术人员将能够容易考虑环境和实验条件的差异。

本领域技术人员将了解，存在指数数目的使RNA分子折叠的方式。这些指数数目可以表示为1.8^N，其中N是分子中核酸的数目。RNA分子的折叠状态由分子内碱基配对模式以及通过共价或非共价键结稳定化的高阶结构确定。RNA分子的折叠在层级过程中进行，其中二级结构元件的折叠指示RNA分子内的三级接触的形成(Brion等人,“Hierarchy andDynamics of RNA Folding”,Annu.Rev.Biophys.Biomol.Struct.26:113-137(1997))。RNA分子包含四个不同杂环芳香族碱基残基。尽管RNA沃森-克里克G-C和A-U对很强，但众所周知G U摆动碱基对可以形成。RNA分子中的二级结构形成部分由邻接碱基对之间的堆叠驱动。此堆叠过程涉及比三级相互作用形成所涉及能量更大的能量(Tinoco等人,“How RNAFolds”,J.Mol.Biol.293:271-281(1999))。RNA折叠能部分取决于RNA分子中二级结构的存在(Flamm等人,“RNA Folding at Elementary Step Resolution”,RNA 6:325-338(2000))。

经设计以确定整体最小和接近最优的结构以及定量折叠能的算法可以结合本文所描述方法使用(Zuker,M.(1989)Science 244,48-52)。已经开发了若干软件平台用于预测核酸分子的三级结构。因此，适用于本文所描述方法的计算RNA折叠能的方法可以是本领域中已知的任何方法，包括(但不限于)适用于确定既定结构的最小自由吉布斯能的算法和/或适用于确定既定RNA分子结构的配分函数的算法。已经开发了许多工具用于通过使用热力学方法(吉布斯自由能)预测RNA的二级结构。不希望受理论所束缚，基于热力学的结构预测依赖于如下推测：最小吉布斯自由能(MFE)结构(即其中RNA分子具有最低自由能的结构)是所述RNA分子的最可能的构象，尽管RNA分子的次优折叠本质上可能另外存在。举例来说，热力学计算方法可以并非始终准确地考虑潜在三级相互作用，因此RNA分子的真实结构可以是次优折叠模式。存在两种基于热力学的算法方法：(1)鉴别根据特纳模型(Turnermodel)具有最小自由能(MFE)的一种结构(Mathews等人,J.Mol.Biol.,288,911-940(1999)；Turner和Mathews,Nucleic Acids Research,38,D280-D283(2009))；或(2)计算涉及全部结构的配分函数。根据本文所描述方法，在某些实施例中，RNA分子的最小自由能结构(即最稳定结构)用以代表既定RNA序列的总体构象能量学。根据本文所描述方法，在某些实施例中，配分函数方法用以代表既定RNA序列的总体构象能量学。

在最小自由能方法中，最小自由能可以递归地计算。因为特纳模型是加性的，所以总自由能是子结构的自由能的总和。因此，子结构的最小自由能可以经计算和组装以递归地得到更大的子结构的最小自由能。RNA分子的最小自由能结构可以使用本领域中已知的任何方法计算，所述方法包括(但不限于)Mfold算法。Mfold程序通过探查核酸序列中的所有可能碱基对确定最小自由能构象(最稳定)(Zuker和Stiegler,Nucleic Acids Res.9(1)(1981),133-148；Zuker,Science,244,48-52,(1989)；Jaeger等人,Proc Natl Acad Sci US A,Biochemistry,86:7706-7710(1989)；Jaeger等人,Predicting Optimal andSuboptimal Secondary Structure for RNA.“Molecular Evolution:Computer Analysisof Protein and Nucleic Acid Sequences”,R.F.Doolittle编,Methods in Enzymology,183,281-306(1989)；全部以引用的方式并入本文中)。

适用于本文所描述方法的评估RNA折叠的其它方法包括基于配分函数的方法。配分函数给出了二级结构的玻尔兹曼集(Boltzmann ensemble)的碱基配对概率。在基于配分函数的方法中，所有可能的二级结构构象和其对应的能量中的每一者经计算以通过基于配分函数计算产生既定碱基配对的概率确定最普遍的构象。因此，RNA分子的最普遍的构象可能与存在多个次优构象的最小吉布斯自由能(MFE)结构不相同。如果既定RNA分子不具有次优折叠，那么配分结构将等效于最小吉布斯自由能结构。在配分函数方法中，所有状态(并非仅一个MFE状态)的自由能都有贡献。

G＝-kT Log[Sum_s Exp{-G_s/kT}]。

指数是涉及每个状态的热概率的玻尔兹曼权重。所有玻尔兹曼权重的总和称为配分函数。平均热能kT＝(玻尔兹曼因子)(绝对温度)。配分函数G考虑了所有状态的混合熵。配分函数计算可以依赖于与用以计算MFE相同的动态程序化算法方法(McCaskill(1990))。

在某些实施例中，根据本文所描述方法的RNA序列的总预测折叠自由能通过基于配分函数的方法计算。示例性基于配分函数的方法包括McCaskill Biopolymers,29,1105-1119(1990)中描述的方法。适用于本文所描述方法的另一基于配分函数的方法包括RNA二级结构预测程序RNAStructure(参看Proc.Natl.Acad.Sci.,101,7287-7292(2004))。RNAStructure是使用体外测量的经验能量值预测RNA构象和其相对自由能的折叠算法。MFE和配分函数方法两者都以RNAstructure代码实施。算法可以用以预测RNA序列的最低自由能结构和碱基配对概率，并且可以使用实验数据(包括形状、酶裂解和化学改性可行性)限定。适用于本文所描述方法的另一基于配分函数的方法包括SFold算法(Ding和Lawrence(2003)Nucleic Acids Res.31(24):7280-301；Ding等人,(2004)Nucleic Acids Res.32(网络服务器期号):W135-41；Ding等人,(2005)RNA.11(8):1157-66；Chan等人,Bioinformatics 21(20):3926-8)。Sfold算法使用通过配分函数概率加权的所有可能结构的统计抽样，其不取决于自由能最小化。

能够计算最小吉布斯自由能(MFE)结构和基于配分函数的结构两者的算法也是本领域中已知的。举例来说，Vienna RNA封装通过使用两种动态程序化算法预测二级结构：Zuker和Stiegler的最小自由能算法(Nucl.Acid.Res.9:133-148(1981))和McCaskill的配分函数算法(Biopolymers 29,1105-1119(1990))。参看Hofacker等人,J Mol Biol319,1059(2002年6月21日).

适用于本文所描述方法的其它RNA折叠算法包括(但不限于)Kinefold(Xayaphoummine等人,(2003)Proc.Natl.Acad.Sci.U.S.A.100(26):15310-5；Xayaphoummine等人,(2005)Nucleic Acids Res.33(网络服务器期号):W605-10)、CentroiFold(Hamada等人(2009))、CONTRAfold(Do等人,(2006)Bioinformatics 22(14):90-8)、CyloFold(Bindewald等人,(2010)Nucleic Acids Res.增刊(W):368-72)、PknotsRG(Reeder等人,(2007)Nucleic Acids Res.35(网络服务器期号):W320-4；Bompfünewerer等人,(2008)J.Math Biol.,56(1-2):129-144)、RNAshapes(Giegerich等人,(2004)NucleicAcids Res.32(16):4843-4851；VoβB等人,(2006).BMC Biol.4:5)和UNAFold(Markham NR和Zuker M(2008)Methods Mol.Biol 453:3-31)。适用于本文所描述方法的其它RNA折叠算法包括以下文献中描述的方法：Dirks和Pierce(2003)J.Comput.Chem.24,1664-1677；Dirks和Pierce(2004)J.Comput.Chem.25,1295-1304；Han和Byun(2003)Nucleic AcidsRes.31,3432-3440。

在某些方面，RNA折叠算法可以用以计算RNA分子的部分或全部的折叠能。举例来说，在某些实施例中，本文所描述方法涉及如下发现：编码多肽的mRNA的5'端处或附近的计算窗中的二级结构的更大稳定性与多肽在表达系统中的降低表达相关。因此，在某些实施例中，本文所描述的RNA折叠算法可以应用于RNA序列的计算窗以确定由RNA编码的多肽的表达是否可以通过降低计算窗内RNA结构的稳定性而增加。计算窗可以具有任何大小，并且对于既定RNA序列，可以计算多个计算窗的折叠能。在使用多个计算窗时，窗可以是沿着RNA序列连续、非连续或重叠的。

本领域技术人员将了解，本文所描述方法可以适于任何表达系统、多肽或表达载体，并且其它表达系统、多肽或表达载体的定量阈值可以不同于本文所描述的定量阈值。

在某些方面，本发明涉及如下发现：当RNA序列的预测折叠能低于阈值水平时，折叠能决定了由RNA序列编码的多肽的降低表达。因此，在某些实施例中，本文所描述方法适用于预测RNA去折叠能何时抑制由RNA编码的多肽的表达。本文所描述方法还适用于确定降低编码多肽的RNA的RNA去折叠能何时可以适用于增加由RNA编码的多肽的表达。

RNA分子的二级结构的稳定性可以定量为在碱基对形成后释放或使用的自由能的量。因为自由能是加性的，所以RNA二级结构的总自由能可以通过累加结构中的组件自由能确定。RNA分子的自由能的测量单位可以以kcal/mol的单位定义。

在一个实施例中，以基本上由编码多肽的核酸序列的编码序列的前48个碱基加功能性地连接到编码序列的5'UTR序列约90个核酸组成的计算窗内测量，约-39kcal/mol或更高的RNA序列的预测折叠自由能阈值将预示由核酸编码的多肽将以合适的水平在表达系统中表达。在某些实施例中，以基本上由编码多肽的核酸序列的编码序列的前48个碱基加功能性地连接到编码序列的5'UTR序列约90个核酸组成的计算窗内测量，约-35kcal/mol或更高的RNA序列的预测折叠自由能阈值将预示由核酸编码的多肽将以合适的水平在表达系统中表达。在某些实施例中，以基本上由编码多肽的核酸序列的编码序列的前48个碱基加功能性地连接到编码序列的5'UTR序列约90个核酸组成的计算窗内测量，约-30kcal/mol或更高的RNA序列的预测折叠自由能阈值将预示由核酸编码的多肽将以合适的水平在表达系统中表达。在某些实施例中，以基本上由编码多肽的核酸序列的编码序列的前48个碱基加功能性地连接到编码序列的5'UTR序列约90个核酸组成的计算窗内测量，约-25kcal/mol或更高的RNA序列的预测折叠自由能阈值将预示由核酸编码的多肽将以合适的水平在表达系统中表达。在某些实施例中，以基本上由编码多肽的核酸序列的编码序列的前48个碱基加功能性地连接到编码序列的5'UTR序列约90个核酸组成的计算窗内测量，约-20kcal/mol或更高的RNA序列的预测折叠自由能阈值将预示由核酸编码的多肽将以合适的水平在表达系统中表达。

在某些实施例中，以基本上由编码多肽的核酸序列的编码序列的前48个碱基组成的计算窗内测量，约-10kcal/mol或更高的RNA序列的预测折叠自由能阈值将预示由核酸编码的多肽将以合适的水平在表达系统中表达。

在某些实施例中，以基本上由编码多肽的核酸序列的编码序列的前48个碱基组成的计算窗内测量，至少约-5kcal/mol的RNA序列的预测折叠自由能阈值将预示由核酸编码的多肽将以合适的水平在表达系统中表达。

在一个实施例中，如在编码序列的前48个碱基下游的核酸序列内所测量，RNA序列的预测折叠自由能范围可以预示由核酸编码的多肽将在表达系统中表达。更具体地说，在某些实施例中，编码序列的前48个碱基下游的核酸序列的RNA序列的预测折叠自由能范围可以在一个或多个计算窗中测量以便覆盖编码序列的前48个碱基下游的序列的长度。

在某些实施例中，在尾序列中的一个或多个窗内计算的RNA序列的预测折叠自由能阈值可以预示由核酸编码的多肽将以适合水平在表达系统中表达。在某些实施例中，窗在尾序列的长度内不重叠。在某些实施例中，窗重叠。尾序列中的窗的重叠可以选自长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、2930、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或多于50个核酸的重叠。在某些实施例中，窗的长度是144个核酸。在某些实施例中，窗的长度是96个核酸。在某些实施例中，窗的长度是48个核酸。

在某些实施例中，对应于尾序列内的一个或多个尾序列窗中的每一者的RNA序列的预测折叠自由能范围在约

(-0.32*(W-18))kcal/mol减10kcal/mol或加5kcal/mol范围内，

其中W是尾序列窗中的核苷酸数目，将预示由核酸编码的多肽将以适合水平在表达系统中表达。在某些实施例中，当尾区的窗是大致约96个核酸长时，本文所描述方法涉及增加编码序列中的前48个核酸下游的序列窗中的RNA序列预测折叠自由能将在约-40kcal/mol到约-20kcal/mol范围内。在某些实施例中，本文所描述方法

因此，应了解，降低基本上包含少于前48个碱基的RNA计算窗的去折叠能的诱变技术可以用以改进由RNA编码的多肽的表达。

在某些方面，本发明是针对产生经修饰RNA序列的方法，所述RNA序列能够通过降低包含RNA的编码序列中的约前48个核酸的序列窗内的一种或多种RNA结构的稳定性来引导与相应野生型RNA序列相比更高的多肽表达。举例来说，本文所描述方法可以经实施以基于编码特定多肽的RNA分子的RNA折叠能预测性地对表达分级。或者，本文所描述方法可以用以优化或设计适用于在表达系统中产生多肽的改进的表达载体。

在某些方面，本文所描述方法可以用以根据RNA折叠能对由RNA编码的多肽表达的效应的相关性降低RNA折叠能。在一个方面，本发明是针对一种编码重组多肽的核酸，其已经经过突变以降低编码多肽的核酸序列的5'非翻译和/或编码区序列的折叠能。在另一实施例中，本文所描述方法是针对产生此类突变的方法。

本领域技术人员将了解，如本文所述的增加多肽表达的方法可能受编码多肽的RNA分子固有的某些结构特征限制。举例来说，应理解，夏因-达尔加诺和起始密码子序列的功能完整性可以维持以用于蛋白质表达。因此，在某些实施例中，根据本文所描述方法增加多肽表达的修饰仅仅在RNA分子中的编码序列区上进行。在某些实施例中，根据本文所描述方法增加多肽表达的修饰在不包括夏因-达尔加诺序列的区上进行。在某些实施例中，根据本文所描述方法增加多肽表达的修饰在不包括翻译起始序列的区上进行。在某些实施例中，根据本文所描述方法增加多肽表达的修饰在不包括转录启动子序列的区上进行。

RNA结构的预测折叠自由能取决于多种与结构中的配对配置相关的参数。此类参数包括(但不限于)碱基对堆叠和内部碱基对、内部、凸出和发夹环以及限定的基序。这些参数中的每一者对RNA结构稳定性的效应也是本领域中已知的。举例来说，已知影响RNA结构稳定性的参数包括GC相较于AU和GU碱基对的数目、茎区中碱基对的数目、发夹环区中碱基对的数目、内部环中非配对碱基的数目和凸出中非配对碱基的数目。因此，本领域技术人员将容易了解，本文所描述方法可以与降低RNA计算窗内的RNA结构的稳定性以便增加由RNA编码的多肽在表达系统中表达的已知方法结合使用。

因此，在某些实施例中，本文所描述方法可以用以通过相对于AU和GU碱基对数目减少窗内GC碱基对数目或将GC数目减少到(并且包括)零GC对来降低RNA计算窗中的RNA结构的稳定性。在某些实施例中，本文所描述方法可以用以通过增加窗内内部环中的非配对碱基的数目来降低RNA计算窗中的RNA结构的稳定性。在某些实施例中，本文所描述方法可以用以通过增加窗内凸出中的非配对碱基的数目来降低RNA计算窗中的RNA结构的稳定性。在某些实施例中，本文所描述方法可以用以通过减少窗内茎区中的碱基对的数目以便产生较大环或凸出来降低RNA计算窗中的RNA结构的稳定性。在某些实施例中，本文所描述方法可以用以通过增加窗内环区中的碱基对的数目来降低RNA计算窗中的RNA结构的稳定性。在一个实施例中，RNA结构的稳定性可以通过引入具有8个或更多个碱基的环或凸出而降低。

本文所描述的改进多肽表达的方法还可以与本领域已知适用于改进多肽产生的任何其它方法组合。举例来说，本文所描述方法可以用以通过用编码多肽的RNA的编码序列引入一个或多个修饰来改进多肽表达。在此类情况下，可能适用的是在不改变多肽的氨基酸序列的情况下这样做。在改变表达的修饰处于RNA序列的编码区中的实施例中，改变表达的修饰可以置换密码子序列，以便修饰不改变由核酸编码的氨基酸。举例来说，在增加表达的修饰是CTG密码子的情况下，通过突变置换的编码序列可以是AGA、AGG、CGA、CGC或CGG密码子中任一者，其中的每一者还编码精氨酸。在增加表达的修饰是GCG密码子的情况下，通过突变置换的编码序列可以是GCT、GCA或GCC密码子中任一者，其中的每一者还编码丙氨酸。在增加表达的修饰是GGG密码子的情况下，通过突变置换的编码序列可以是GGT、GGA或GGC密码子中任一者，其中的每一者还编码甘氨酸。本领域技术人员可以容易通过参考遗传密码或RNA或DNA密码子表，确定如何改变密码子内的一个或多个核苷酸位置而不改变所编码的氨基酸。典型氨基酸以及其三字母和一字母缩写是丙氨酸(Ala)A、谷氨酰胺(Gln)Q、亮氨酸(Leu)L、丝氨酸(Ser)S、精氨酸(Arg)R、谷氨酸(Glu)E、赖氨酸(Lys)K、苏氨酸(Thr)T、天冬酰胺(Asn)N、甘氨酸(Gly)G、甲硫氨酸(Met)M、色氨酸(Trp)W、天冬氨酸(Asp)D、组氨酸(His)H、苯丙氨酸(Phe)F、酪氨酸(Tyr)Y、半胱氨酸(Cys)C、异亮氨酸(Ile)I、脯氨酸(Pro)P、缬氨酸(Val)V。

在其它实施例中，本文所描述方法适用于通过在多肽的氨基酸序列中进行一个或多个保守取代来改变重组多肽的表达。此类突变可以导致一个或多个不同氨基酸经编码，或可以导致一个或多个氨基酸对于氨基酸序列缺失或添加到氨基酸序列。如果改变表达的修饰的确影响所编码的氨基酸，那么有可能作出一个或多个不会不利地影响所编码的多肽的结构、功能或免疫原性的氨基酸改变。举例来说，由突变核酸编码的突变多肽可以具有与野生型多肽实质上相同的结构和/或功能和/或免疫原性。一些氨基酸改变有可能导致改变的免疫原性，并且本领域技术人员将认识到此类修饰何时适当或不适当。

本领域技术人员已知，具有一个或多个保守氨基酸取代的多肽未必会导致多肽相对于野生型多肽具有显著不同活性、功能或免疫原性。当一个氨基酸残基经具有类似侧链的另一氨基酸残基置换时，保守氨基酸取代发生。具有类似侧链的氨基酸残基的家族已经在本领域中定义，包括碱性侧链(例如，赖氨酸、精氨酸、组氨酸)、酸性侧链(例如，天冬氨酸、谷氨酸)、不带电极性侧链(例如，甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、非极性侧链(例如，丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸)、β-支链的侧链(例如，苏氨酸、缬氨酸、异亮氨酸)、芳香族侧链(例如，酪氨酸、苯丙氨酸、色氨酸、组氨酸)、脂肪族侧链(例如，甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸)和含硫侧链(甲硫氨酸、半胱氨酸)。取代还可以在酸性氨基酸与其对应的酰胺(例如，天冬酰胺与天冬氨酸，或谷氨酰胺与谷氨酸)之间进行。举例来说，用异亮氨酸置换亮氨酸对经修饰重组多肽相对于未经修饰重组多肽的特性可能不具有重大效应。

本文所描述方法还可以与题目为改变多肽表达和溶解性的方法(Methods forAltering Polypeptide Expression and Solubility)的国际专利申请PCT/US11/24251中公开的方法结合使用，所述申请以全文引用的方式并入。基于同义密码子可以对蛋白质产生具有差异性效应的发现，PCT/US11/24251描述了通过使用密码子置换策略来改变多肽的表达或溶解性的方法。因此，在某些实施例中，本文所描述方法可以用以通过根据本文所描述方法降低RNA分子的二级结构和改变RNA的编码序列中的一个或多个密码子以便进一步增加蛋白质的溶解性或表达，来增加由RNA编码的多肽的表达。

在另一实施例中，出于根据本文所描述方法降低编码序列中的RNA结构的稳定性的目的产生突变可以通过使诱变策略偏倚以选择增加溶解性或表达的密码子来进行，如PCT/US11/24251中所阐述。举例来说，在经设计以根据本文所描述方法降低RNA结构稳定性的诱变策略中，其中所述方法涉及在包含RNA的编码序列的RNA计算窗中进行以下中任一者：(a)相对于AU和GU碱基对数目减少GC碱基对数目、(b)减少茎区中的碱基对的数目、(c)改变发夹环区中的碱基对的数目、(d)引入具有多于8个核苷酸的发夹环、(e)增加内部环中的非配对碱基的数目或(f)增加凸出中的非配对碱基的数目，如果密码子的诱变还降低序列窗内的RNA结构的稳定性，那么诱变策略可以涉及用CTG密码子置换选自AGA、AGG、CGA或CGC中任一者的精氨酸密码子。PCT/US11/24251中提供的其它增加表达和溶解性的密码子取代可以与本文所描述方法结合使用。

本领域中已知用于改变重组多肽在表达系统中的表达(例如人类多肽于细菌细胞中的表达)的任何技术也适用于本文所描述方法，包括如国际专利申请PCT/US11/24251中所描述的增加或降低多肽的表达或溶解性的方法。已经开发用以促进表达的技术通常集中于优化目的多肽自身以外的因素(Makrides(1996)Microbiology and Molecular BiologyReviews 60:512；Sorensen和Mortensen(2005)Journal of Biotechnology 115:113-128)。改变表达的技术是本领域中已知的，包括(但不限于)融合伴侣(包括MBP(Kapust和Waugh(1999)PRS8:1668-1674)、smt(Lee等人(2008)Polypeptide Sci.17:1241-1248)和Mistic(Kefala等人(2007)Journal of Structural and Functional Genomics8:167-172))的共表达、密码子增强(Carstens(2003)Methods in Molecular Biology 205:225-234；Christen等人(2009)Polypeptide Expression and Purification)或优化(Gustafsson等人(2004)Trends in biotechnology 22:346-353；Kim等人(1997)Gene199:293-301；Hatfield GW,Roth DA(2007)Biotechnol Annu Rev 13:27-42)(包括去除5'RNA二级结构(Etchegaray和Inouye(1999)Journal of Biological Chemistry274:10079-10085))和使用蛋白酶缺陷株(Gottesman(1990)Methods in Enzymology 185:119)。已经开发具体地用以改进重组多肽的溶解性的技术包括伴侣蛋白共表达(Tresaugues等人(2004)Journal of Structural and Functional Genomics 5:195-204；Mogk等人2002Chembiochem 3,807；Buchner,Faseb J.1996 10,10；Beissinger和Buchner,1998.J.Biol.Chem.379,245))、与增强溶解性的标签或多肽域的融合(Kapust和Waugh(1999)PRS 8:1668-1674；Davis等人(1999)Biotechnology and bioengineering 65)、在较低温度下表达(Makrides(1996)Microbiology and Molecular Biology Reviews 60:512)、热休克(Chen等人(2002)Journal of molecular microbiology and biotechnology4:519-524)、于不同生长培养基中表达(Makrides(1996)Microbiology and MolecularBiology Reviews 60:512；Georgiou和Valax(1996)Current Opinion in Biotechnology7:190-197)、降低多肽表达水平(例如，通过使用较少诱导子或较弱启动子(Wagner等人(2008)Proc.Natl.Acad.Sci.U.S.A105:14371-14376))、定向进化(Pédelacq等人(2002)Nature biotechnology 20:927-932；Waldo(2003)Current opinion in chemicalbiology 7:33-38)和合理诱变(Dale等人(1994)Polypeptide Engineering Design andSelection 7:933-939)。

大肠杆菌已经充当表征基础细胞生物化学的模型系统超过50年，并且对包括人类的其它生物体的生物化学的深刻理解来源于在大肠杆菌中进行的研究。因此，获自本文所描述的大肠杆菌数据挖掘研究的结果也可以适用于任何活细胞中或基于核糖体的体外翻译系统中的蛋白质表达。另外，所述方法还涉及从头设计合成基因和增强其编码多肽或多肽产物于宿主细胞中的积聚的方法。

本文所描述方法可以用以增加或降低表达于本领域中已知的任何类型的表达系统中的多肽的表达。适用于本文所描述方法的表达系统包括(但不限于)体外表达系统和体内表达系统。例示性体外表达系统包括(但不限于)无细胞转录/翻译系统(例如，基于核糖体的蛋白质表达系统)。若干此类系统是本领域中已知的(参看例如，Tymms(1995)In vitroTranscription and Translation Protocols:Methods in Molecular Biology第37卷,Garland Publishing,NY)。

例示性体内表达系统包括(但不限于)原核表达系统，如细菌(例如，大肠杆菌和枯草芽孢杆菌(B.subtilis))；和真核表达系统，包括酵母表达系统(例如，酿酒酵母)、蠕虫表达系统(例如秀丽隐杆线虫(Caenorhabditis elegans))、昆虫表达系统(例如Sf9细胞)、植物表达系统、两栖动物表达系统(例如黑色素细胞)、脊椎动物(包括人体)组织培养物细胞和遗传工程化或病毒感染的完整动物。

在另一实施例中，本发明是针对一种具有基因组的突变细胞，其已经经过突变以包含一个或多个如本文所述的改变表达的修饰。在另一实施例中，本发明是针对一种重组细胞(例如原核细胞或真核细胞)，其含有包含一个或多个如本文所述的改变表达的修饰的核酸序列。

本文所描述方法可以适用于生产用于商业应用的多肽，包括(但不限于)生产疫苗、药学上有价值的重组多肽(例如生长因子或其它医学上有用的多肽)、能够在药物发现研究和基础蛋白质组研究中实现推进的试剂。

根据本文所描述方法产生的多肽可以含有一个或多个经修饰氨基酸。在某些非限制性实施例中，经修饰氨基酸可以包括于根据本文所描述方法产生的多肽中，以便(a)增加多肽的血清半衰期、(b)降低多肽的抗原性、(c)增加多肽的储存稳定性或(d)改变多肽的活性或功能。氨基酸可以在重组产生期间例如共翻译或翻译后地修饰(例如，在于哺乳动物细胞中表达期间N-X-S/T基序处的N-连接糖基化)或通过合成手段修饰。适用于本文所描述方法的经修饰氨基酸的实例包括(但不限于)糖基化氨基酸、硫酸化氨基酸、异戊二烯化(例如，法呢基化、香叶基香叶基化)氨基酸、乙酰化氨基酸、PEG化氨基酸、生物素化氨基酸、羧化氨基酸、磷酸化氨基酸等。例示性方案和其它氨基酸可以见于Walker(1998)ProteinProtocols on CD-ROM Human Press,Towata,N.J.中。

本发明涵盖编码重组多肽的任何和所有核酸，其已经经过突变以包含如本文所述改变表达的修饰；以及产生此类突变的任何和所有方法，无关于所述核酸存在于病毒、质体、表达载体中、以自由核酸分子形式存在还是存在于别处。本发明涵盖任何和所有类型的由包含一个或多个如本文所述改变表达的修饰的核酸编码的重组多肽。

本发明不限于本文所描述的任何特定类型的重组多肽。实际上，其涵盖由包含一个或多个如本文所述表达修饰的核酸编码的任何和所有重组多肽。可以使用本文所描述方法产生的多肽可以来自任何来源或起源，并且可以包括见于原核生物、病毒和真核生物(包括真菌、植物、酵母、昆虫和动物(包括哺乳动物(例如，人类)))中的多肽。可以使用本文所描述方法产生的多肽包括(但不限于)可以使用共同序列储存库鉴别的已知或假想或未知的任何多肽序列。此类序列储存库的实例包括(但不限于)GenBank EMBL、DDBJ和NCBI。其它储存库可以容易通过在因特网上搜寻而鉴别。可以使用本文所描述方法产生的多肽还包括与任何已知或可用多肽(例如，治疗性多肽、诊断性多肽、工业酶或其部分等)具有至少约30％或更大一致性的多肽。

可以使用本文所描述方法产生的多肽还包括包含一个或多个非天然氨基酸的多肽。如本文所用，非天然氨基酸可以是(但不限于)包含一个部分的氨基酸，其中连接化学部分，如醛或酮衍生的氨基酸；或包括化学部分的非天然氨基酸。非天然氨基酸还可以是包含一个部分的氨基酸，其中可以连接糖部分；或包括糖部分的氨基酸。

可以使用本文所描述方法产生的例示性多肽包括(但不限于)细胞因子、炎症分子、生长因子、其受体和致癌基因产物或其部分。细胞因子、炎症分子、生长因子、其受体和致癌基因产物的实例包括(但不限于)例如α-1抗胰蛋白酶、血管抑制素、抗溶血因子、抗体(包括选自以下的抗体或其功能片段或衍生物：Fab、Fab'、F(ab)2、Fd、Fv、ScFv、双功能抗体、三功能抗体、四功能抗体、二聚体、三聚体或微抗体)、血管生成分子、血管抑制性分子、阿朴脂多肽(Apolipopolypeptide)、阿朴多肽(Apopolypeptide)、天冬酰胺酶、腺苷脱氨酶、心房利钠因子、心房利钠多肽、心房肽、血管收缩素家族成员、骨形态发生多肽(BMP-1、BMP-2、BMP-3、BMP-4、BMP-5、BMP-6、BMP-7、BMP-8a、BMP-8b、BMP-10、BMP-15等)；C--X--C趋化因子(例如，T39765、NAP-2、ENA-78、Gro-a、Gro-b、Gro-c、IP-10、GCP-2、NAP-4、SDF-1、PF4、MIG)、降血钙素(Calcitonin)、CC趋化因子(例如，单核细胞趋化多肽-1、单核细胞趋化多肽-2、单核细胞趋化多肽-3、单核细胞炎症多肽-1α、单核细胞炎症多肽-1β、RANTES、1309、R83915、R91733、HCC1、T58847、D31065、T64262)、CD40配体、C-kit配体、睫状神经营养因子、胶原蛋白、菌落刺激因子(CSF)、补体因子5a、补体抑制剂、补体受体1、细胞因子(例如，上皮嗜中性活化肽-78、GROα/MGSA、GROβ、GROγ、MIP-1α、MIP-1δ、MCP-1)、脱氧核糖核酸、表皮生长因子(EGF)、促红细胞生成素(“EPO”，代表通过并入一个或多个非天然氨基酸的修饰的优选标靶)、剥脱性毒素A和B、因子IX、因子VII、因子VIII、因子X、成纤维细胞生长因子(FGF)、纤维蛋白原、纤维结合蛋白、G-CSF、GM-CSF、葡糖脑苷脂酶、促性腺激素、生长因子、刺猬多肽(例如，声音、印度、沙漠)、血红蛋白、肝细胞生长因子(HGF)、肝炎病毒、水蛭素、人血清白蛋白、Hyalurin-CD44、胰岛素、胰岛素样生长因子(IGF-I、IGF-II)、干扰素(例如，干扰素-α、干扰素-β、干扰素-γ、干扰素-ε、干扰素-ζ、干扰素-η、干扰素-κ、干扰素-λ、干扰素-T、干扰素-ζ、干扰素-ω)、胰高血糖素样肽(GLP-1)、GLP-2、GLP受体、胰高血糖素、GLP-1R的其它激动剂、利钠肽(ANP、BNP和CNP)、Fuzeon和HIV融合物的其它抑制剂、Hurudin和相关抗凝血肽、前动力蛋白和相关激动剂，包括黑曼巴蛇(black mamba snake)毒液、TRAIL、RANK配体和其拮抗剂的类似物、降血钙素、淀粉素和其它葡糖调节性肽激素和Fc片段、艾生丁(exendin)(包括艾生丁-4)、艾生丁受体、白介素(例如，IL-1、IL-2、IL-3、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IL-10、IL-11、IL-12等)、I-CAM-1/LFA-1、角质细胞生长因子(KGF)、乳铁传递蛋白、白血病抑制因子、荧光素酶、神经营养因子、嗜中性粒细胞抑制因子(NIF)、抑瘤素M、成骨性多肽、副甲状腺激素、PD-ECSF、PDGF、肽激素(例如，人类生长激素)、致癌基因产物(Mos、Rel、Ras、Raf、Met等)、多效生长因子、多肽A、多肽G、致热外毒素A、B和C、松弛素、肾素、核糖核酸、SCF/c-kit、信号转录活化剂和抑制剂(p53、Tat、Fos、Myc、Jun、Myb等)、可溶补体受体1、可溶I-CAM1、可溶白介素受体(IL-1、2、3、4、5、6、7、9、10、11、12、13、14、15)、可溶粘附分子、可溶TNF受体、生长调节素、生长抑素、促生长素、链激酶、超抗原，即葡萄球菌肠毒素(SEA、SEB、SEC1、SEC2、SEC3、SED、SEE)、类固醇激素受体(如用于雌激素、孕酮、睾酮、醛固酮、LDL受体配体和皮质酮的类固醇激素受体)、超氧化歧化酶(SOD)、Toll样受体(如鞭毛蛋白)、中毒性休克综合症毒素(TSST-1)、胸腺素a 1、组织纤溶酶原活化剂、转型生长因子(TGF-α、TGF-β)、肿瘤坏死因子β(TNFβ)、肿瘤坏死因子受体(TNFR)、肿瘤坏死因子-α(TNFα)、转录调节剂(例如，调节细胞生长、分化和/或细胞调节的基因和转录模块化多肽)、血管内皮生长因子(VEGF)、病毒样粒子、VLA-4/VCAM-1、尿激酶、信号转导分子、雌激素、孕酮、睾酮、醛固酮、LDL、皮质酮。

可以使用本文所描述方法产生的其它多肽包括(但不限于)酶(例如，工业酶)或其部分。酶的实例包括(但不限于)酰胺酶、氨基酸消旋酶、酰基酶、脱卤素酶、双加氧酶、二芳基丙烷过氧化物酶、表异构酶、环氧化物水解酶、酯酶、异构酶、激酶、葡萄糖异构酶、糖苷酶、糖基转移酶、卤过氧化物酶、单加氧酶(例如，p450s)、脂肪酶、木质素过氧化物酶、腈水合酶、腈水解酶、蛋白酶、磷酸酶、枯草杆菌蛋白酶、转氨酶和核酸酶。

可以使用本文所描述方法产生的其它多肽包括(但不限于)农业上相关的多肽，如昆虫抗性多肽(例如，Cry多肽)、淀粉和脂质生产酶、植物和昆虫毒素、毒素抗性多肽、霉菌毒素解毒多肽、植物生长酶(例如，核酮糖1,5-二磷酸羧化酶/加氧酶)、脂肪加氧酶和磷酸烯醇丙酮酸羧化酶。

可以使用本文所描述方法产生的多肽包括(但不限于)抗体、抗体的免疫球蛋白域和其片段。抗体的实例包括(但不限于)抗体、抗体片段、抗体衍生物、Fab片段、Fab'片段、F(ab)2片段、Fd片段、Fv片段、单链Fv片段(scFv)、双功能抗体、三功能抗体、四功能抗体、二聚体、三聚体和微抗体。

可以使用本文所描述方法产生的多肽可以是预防性疫苗或治疗性疫苗多肽。预防性疫苗是向未感染疫苗经设计以防御的病况的受试者投与的疫苗。在某些实施例中，预防性疫苗将在已接种疫苗的受试者中预防病毒确立感染，即其将提供全面保护性免疫。然而，即使其不提供全面保护性免疫，预防性疫苗仍可以赋予受试者一定的保护。举例来说，预防性疫苗可以减少疾病的症状、降低严重程度和/或缩短持续时间。治疗性疫苗经投与以减小病毒感染在已感染所述病毒受试者中的影响。治疗性疫苗可以减少疾病的症状、降低严重程度和/或缩短持续时间。

如本文所述，疫苗多肽包括来自以下的多肽或多肽片段：传染性真菌(例如，曲霉属(Aspergillus)、假丝酵母属(Candida))细菌(例如大肠杆菌、金黄色葡萄球菌(Staphylococci aureus))或链球菌属(Streptococci)(例如，肺炎(pneumoniae))；原生动物，如孢子虫(例如，疟原虫(Plasmodia))、根足虫(例如，内阿米巴属(Entamoeba))和鞭毛虫(锥虫属(Trypanosoma)、利什曼原虫属(Leishmania)、毛滴虫属(Trichomonas)、梨形鞭毛虫属(Giardia)等)；病毒，如(+)RNA病毒(实例包括痘病毒，例如牛痘；小核糖核酸病毒，例如脊髓灰质炎；披衣病毒，例如风疹；黄病毒，例如HCV；和冠状病毒)、(-)RNA病毒(例如，棒状病毒，例如VSV；副粘病毒，例如RSV；正粘病毒，例如流感；布尼亚病毒；和沙粒病毒)、dsDNA病毒(例如呼肠孤病毒)、RNA到DNA病毒(即逆转录病毒，例如HIV和HTLV)和某些DNA到RNA病毒(如B型肝炎)。

在另一方面，本文所描述方法涉及一种使受试者针对病毒免疫的方法，其包含向受试者投与有效量的由包含一个或多个本文所述改变表达的修饰核酸序列编码的重组多肽。在一个实施例中，本发明是针对一种使受试者针对病毒免疫的方法，其包含向受试者投与有效量的由包含一个或多个本文所述改变表达的修饰核酸序列编码的重组多肽。

在另一实施例中，本发明是针对一种组合物，其包含由包含一个或多个本文所述改变表达的修饰的核酸序列编码的重组多肽，和选自由医药学上可接受的稀释剂、载剂、赋形剂和佐剂组成的群组的另一组分。

可以使用本文所描述方法产生的多肽还可以进一步包含选自由以下组成群组的化学部分：细胞毒素、药物、染料或荧光标记、亲核或亲电基团、酮或醛、叠氮化物或炔烃化合物、光笼锁基团、标签、肽、多肽、多肽、寡糖、具有任何分子量并且呈任何几何形状的聚乙二醇、聚乙烯醇、金属、金属络合物、多元胺、咪唑、碳水化合物、脂质、生物聚合物、粒子、固体载体、聚合物、靶向剂、亲和基团、互补反应性化学基团可以连接的任何试剂、生物物理或生物化学探针、同种型标记的探针、自旋标记氨基酸、荧光团、芳基碘化物和溴化物。

包含一个或多个如本文所述改变表达的修饰的核酸序列还可以并入到适用于使重组多肽在表达系统中表达的载体中。包含一个或多个如本文所述表达改变修饰的核酸序列可以可操作地连接到任何类型的重组多肽，包括(但不限于)免疫原性多肽、抗体、激素、受体、配体等以及其片段、变异体、同源物和衍生物。

改变表达的修饰可以通过本领域中已知的任何适合基因合成或诱变方法作出，包括(但不限于)定点诱变、寡核苷酸定向诱变、阳性抗生素选择方法、独特限制位点消除(USE)、脱氧尿苷并入、硫代磷酸并入和基于PCR的诱变方法。此类方法的细节可以见于例如Lewis等人(1990)Nucl.Acids Res.18,第3439页；Bohnsack等人(1996)Meth.Mol.Biol.57,第1页；Vavra等人(1996)Promega Notes 58,30；Altered SitesII in vitro MutagenesisSystems Technical Manual#TM001,Promega Corporation；Deng等人.(1992)Anal.Biochem.200,第81页；Kunkel等人(1985)Proc.Natl.Acad.Sci.USA 82,第488页；Kunke等人(1987)Meth.Enzymol.154,第367页；Taylor等人(1985)Nucl.Acids Res.13,第8764页；Nakamaye等人(1986)Nucl.Acids Res.14,第9679页；Higuchi等人(1988)Nucl.Acids Res.16,第7351页；Shimada等人(1996)Meth.Mol.Biol.57,第157页；Ho等人(1989)Gene 77,第51页；Horton等人(1989)Gene 77,第61页；和Sarkar等人(1990)BioTechniques 8,第404页。用于进行定点诱变的众多试剂盒是可商购的，如来自Stratgene Inc.的QuikChange II定点诱变试剂盒和来自Promega Inc.的Altered SitesII体外诱变系统。此类可商购的试剂盒还可以用以使AGG基序突变为非AGG序列。可以用以产生包含一个或多个如本文所述表达改变修饰的核酸序列的其它技术为本领域技术人员所熟知。参看例如Sambrook等人(2001)Molecular Cloning:A Laboratory Manual,第3版,Cold Spring Harbor Laboratory,Cold Spring Harbor,N.Y(“Sambrook”)。

任何质体或表达载体可以用以表达本文所述重组多肽。本领域技术人员将能够容易产生或鉴别含有启动子以引导重组多肽于所期望的表达系统中表达的适合表达载体。举例来说，如果多肽在细菌或人类细胞中产生，那么可以分别使用能够引导于细菌或人类细胞中表达的启动子。还可以使用已经含有适合启动子和用于添加外源核酸的克隆位点的可商购表达载体。本领域技术人员可以容易选择适合载体并且将本发明的突变核酸插入到此类载体中。突变核酸可以在适合启动子的控制下以引导重组多肽在表达系统中的表达。可以使用已经存在于载体中的启动子。或者，可以使用外源启动子。适合启动子的实例包括本领域中已知能够引导重组多肽在表达系统中表达的任何启动子。举例来说，在细菌系统中，可以使用任何适合启动子，包括T7启动子、细菌噬菌体λ的pL、plac、ptrp、ptac(ptrp-lac混合启动子)等。对于来自表达载体的重组多肽的表达重要的其它元件包括(但不限于)在表达载体上存在最小复制起点、转录终止元件(例如在原核细胞中，富G-C片段继而聚T序列)、可选标记(例如对于原核宿主细胞，氨苄青霉素、四环素、氯霉素或卡那霉素)、核糖体结合元件(例如在原核生物中，夏因-达尔加诺序列)。本领域技术人员将能够容易构筑包含足以引导重组多肽在表达系统中表达的元件的表达载体。

用表达载体转型细胞的方法经充分表征，并且包括(但不限于)磷酸钙沉淀方法和或电穿孔方法。适用于表达本文所描述的重组多肽的例示性宿主细胞包括(但不限于)多种大肠杆菌菌株(例如，BL21、HB101、JM109、DH5α、DH10和MC1061)和脊椎动物组织培养细胞。

本文所描述方法可以在硬件或软件或两者的组合中实施。在某些实施例中，本文所描述的折叠能计算方法可以在于可编程计算机上执行的计算机程序中实施，所述可编程计算机各自包含处理器、数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置和至少一个输出装置。程序代码可以应用于输入数据以执行本文所描述的功能和产生输出信息。输出信息可以以已知方式应用于一个或多个输出装置。计算机可以是例如个人计算机、微型计算机、工作站、常规设计或布置的计算机簇群或大型主机。

在某些实施例中，本文所描述方法可以以程序语言或面向对象的编程语言实施以与计算机系统通信。本文所描述方法还可以以汇编语言或机器语言实施。本文所描述方法可以存储于通用或专用可编程计算机可读的存储媒体或装置(例如，ROM、ZIP或磁盘)上，以便当存储媒体或装置由计算机读取时配置和操作计算机以执行本文所描述方法。由本文所描述方法产生的数据也可以包括于计算机可读存储器中并且可以在数据库中管理。本文所描述方法还可以在并行计算机或处理器中处理以使得处理时间减少并且有助于所述方法的高通量应用。

以下实例说明本发明，并且阐述以帮助理解本发明，并且不应理解为以任何方式限制如随后的权利要求书中所定义的本发明范围。

实例1：控制大肠杆菌中的蛋白质表达水平的mRNA特征

评估来自多种多样的系统发生来源的6,348个蛋白质编码基因的表达(图15)。使蛋白质编码基因在pET21中从细菌噬菌体T7启动子转录，所述pET21是具有氨苄青霉素抗性标记的5.4kb pBR322衍生质体(Acton,T.B.等人(2005)Methods Enzymol 394,210-243)。此数据集归因于不同生物体中密码子使用频率的变化而提供了密码子空间的广泛抽样。细菌噬菌体聚合酶用以驱动转录以最小化因天然大肠杆菌RNA聚合酶而使翻译与转录偶合的可能混杂效应(Iost,I.等人(1995)Embo j 14,3252-3261；Iost,I.等人(1992)JBacteriol 174,619-622)。在18℃下在大肠杆菌菌株BL21λ(DE3)中诱导蛋白质表达过夜(Acton,T.B.等人(2005)Methods Enzymol 394,210-243)。大肠杆菌菌株BL21λ(DE3)在IPTG诱导型启动子的控制下在其染色体中编码T7聚合酶的基因的单一拷贝。此菌株还含有pMGK，具有卡那霉素抗性标记的5.4kb pACYC177衍生质体；lacI基因的单一拷贝和编码与精氨酸的AGA密码子同源的tRNA的argU基因的单一拷贝。所有蛋白质都用相同八残基C末端延伸(具有序列LEHHHHH的亲和标签)表达。编码此延伸的此DNA序列在计算分析中省略。

包括于本文所描述的大规模表达数据集中的蛋白质共用小于60％序列一致性。在从0(无表达)到5(最高表达)的整数标度下对相同质体的两个分离株的蛋白质表达水平评分。评分基于对全细胞溶解物的考马斯蓝染色的SDS-PAGE凝胶的目视检查。评分还可以通过本领域中已知的任何适合方法进行，包括(但不限于)测量密度测定法、比色法、荧光法或放射性法。两个分离株之间的得分变化很少超过±1。约30％蛋白质给出得分0(1,754个蛋白质)或5(1,973个蛋白质)，而约40％给出中间得分(2,621个蛋白质)(Price,W.N.等人(2011)Microbial Informatics and Experimentation 1,6)。

评估在大规模数据集中给出每个表达得分的基因中的多种mRNA序列参数的分布(图9与16)。此评估展现了提供高相较于低蛋白质表达的基因之间的许多系统性差异。检验给出每个得分的基因的参数分布的直方图(图9A-D,F,G-I与16A,G,I)。参数分布的直方图展示了随得分增加的相对单调变化。还检验给出得分5相较于0的基因的数目比的自然对数作为每个参数值的函数的“对数优势比”曲线图(图9E,H,J与16B-F,H,J)。此检验可以用以提供直方图中观察到的趋势的图形化汇总。这些曲线图还可以用于对大规模数据集中的mRNA序列参数与蛋白质表达水平之间的关系进行逻辑回归建模，如下文所进行。

虽然最高度表达的蛋白质由具有大致相等含量的A、U、G和C碱基的mRNA编码(图16B)，但最优碱基含量在基因中的密码子中的三个不同位置处各异(图16C-E)。此阅读框相依性证实，密码子翻译特性显著影响蛋白质表达水平。增加一些密码子的频率与更高或更低蛋白质表达水平相关。展示最强表达增强效应的密码子是谷氨酸的GAA密码子。同义GAG密码子对于所有表达得分展示等效频率分布(图9A,B,E)。展示最强表达减弱效应之一的密码子是异亮氨酸的AUA密码子。同义AUC和AUU密码子分别展示了中立和微弱表达增强效应(图9C-E)。同义AUC密码子对于所有表达得分展示等效频率分布。虽然这些趋势可以以其它方式指示这些密码子的翻译效率之间的差异，但本文呈现的多变量统计分析和生物化学分析指示其来源更为复杂。

异亮氨酸的相邻AUA密码子对具有极强的表达减弱效应(图16F)，其基于下文呈现的分析很可能反映此序列的低效翻译。相比之下，AGGA基序的频率(Ingolia,N.T.等人(2009)Science 324,218-223)(图16G-H)(其匹配夏因-达尔加诺序列)对蛋白质表达水平似乎不具有显著影响。mRNA转录物的预测配分函数折叠自由能的分布(Reuter,J.S.等人(2010)BMC Bioinformatics 11,129)也展示了具有不同表达得分的蛋白质之间的系统性差异。表达因蛋白质编码序列中的前48个核苷酸中的越来越稳定的折叠(即，降低折叠自由能)而减弱(图9H)(Shakin-Eshleman SH等人,(1988)Biochemistry 27,3975-3982(1988)；Kozak M(2005)Gene 361,13-37；Castillo-Mendez,M.A.等人(2012)Biochimie 94,662-672)。

本文所描述的结果提供了对减弱表达作为头端中的预测折叠自由能(ΔG_H)的函数的概率的稳定校准。在某些方面，当ΔG_H<-15kcal/mol时，本文所描述的结果展示了高表达优势的<1/e减小。在某些实施例中，当计算头端的折叠自由能ΔG_UH时，与表达水平的相关性的强度通过包括mRNA的5'非翻译区(UTR)适度地增加(图9F,H)。在某些实施例中，此参数可以用于对本文所描述的表达结果进行整体建模。

出乎意料地，基因的尾端(核苷酸49到终止密码子)中的预测折叠自由能的平均值对表达水平展示出非线性影响，<ΔG_T>的极高和极低值系统地减弱表达(图9G,H)。当在具有48、96或144个核苷酸宽度的50％重叠窗中计算平均值时，观察到等效趋势。同时这些观察结果指示，尾端中的过度稳定或不稳定mRNA折叠都减弱蛋白质表达。本文所描述的结果还指示这些效应还具有更复杂的来源。

在某些方面，本文所描述方法涉及如下发现：观察到若干额外整体序列参数与蛋白质表达水平具有系统性关系。在某些实施例中，密码子重复率(例如相同密码子再次出现于mRNA序列中的平均频率)的增加值与更低表达水平相关(图16I-J)。在某些实施例中，序列中的更高统计熵与更低表达水平相关。在这两个相互相关的参数中，重复率的影响力比熵更大，表明相同密码子的冗余使用可以减弱蛋白质表达。

在某些方面，本文所描述方法涉及如下发现：标靶mRNA/蛋白质的长度对表达水平展示出非线性影响，极长和极短序列展示系统地更低的表达水平(图9I-J)。

检验蛋白质编码序列开始处的个别位置处的核苷酸一致性对给出得分5相较于0的基因的对数优势比的影响(图10)。观察到此区中的核苷酸组成对蛋白质表达具有强烈影响。在某些实施例中，此影响的量值在第六密码子之后实质上降低，其对应于mRNA的物理上受70S起始复合物(IC)中的核糖体保护的区，其中起始密码子对接到其肽基-tRNA结合(P)位点中。在保护区内，G碱基一致地降低高表达概率，而A碱基一致地增加其，并且C和U碱基具有中间效应(图10)。这些效应的评级次序匹配大折叠RNA结构集中的每种核苷酸的碱基配对的概率，表明所观察到的趋势可以反映此区中的mRNA碱基为非配对以用于高效核糖体对接的需求。图10中三者的周期性与富AT基因中的参数交叉相关性相关。

使用逻辑回归检验不同mRNA序列参数对蛋白质表达水平的相对影响。在某些方面，逻辑回归可以利用广义线性模型来定量连续变量对二元或序数结果的影响。可以假定两个互斥结果(例如在数据集中，5相较于0得分)的对数优势比随连续变量的某一函数的值(例如，密码子频率)线性增加，来对二元结果建模。在某些方面，假定所有连续整数结果(例如在数据集中，5-0得分)之间的对数优势比以完全相同方式增加，来对序数结果建模。图9E说明了二元逻辑回归的最简单形式，其中对数优势比假定为连续变量的线性函数。如果具有5相较于0表达得分的蛋白质的密码子频率与对数优势比之间存在线性关系，那么此图中的实线展示了最可能斜率。此简单线性模型准确地描述了GAA密码子对蛋白质表达的有益影响(图9E中的绿色)，而其在描述AUA密码子的更复杂有害影响方面不太准确。

逻辑回归可以使用连续变量的不同数学函数对此种更复杂特性建模来进行，如下文所进行。尽管如此，线性逻辑回归分析(如这些)的“密码子斜率”提供了定性并且定量适用的度量值以描述个别密码子对蛋白质表达水平的影响。

使用二元(5相较于0得分)或序数(5-0得分)线性逻辑回归对所有61个非终止密码子进行单一变量分析，分别是图11B中的深灰色和浅灰色。数据集中基因中的密码子频率的相对均匀方差(图11A)使得所有密码子的回归参数能够以类似精确度确定。二元和序数回归产生等效密码子斜率，表明在数据集中密码子含量对蛋白质表达水平具有通常单调影响。此外，当将仅具有0相较于5表达得分的蛋白质与还包括具有中间得分蛋白质时观察到的蛋白质比较时，所观察到结果的等效表明部分减弱表达的相同mRNA特征可以完全使其终止。此效应可能归因于阻碍翻译的还会导致mRNA降解的因素，所述效应当检验给出不同表达得分的蛋白质的参数直方图时也很明显(图9A-D,F-G,I与16A,I)。

使用单一参数逻辑回归测定的密码子斜率(图11B,E)显示，结束于A或U的密码子在于数据集中提供最高蛋白质表达水平的基因中系统地增浓，而结束于G或C的同义密码子在这些基因中系统地耗尽。这些结果向工程化合成基因提供了指南，所述合成基因通过模拟数据集中的最佳表达基因的特性来增强蛋白质表达。然而，此计算方法不提供关于每个密码子的机制性影响的可靠信息，因为在数据集中结束于A或U的大多数密码子的频率在基因中与彼此强烈相关(图17A-C)，至少部分由于源生物体的基因组的DNA中的AT相较于GC频率的实质性变化。在提供不同蛋白质表达水平的基因之间系统地变化的许多参数(包括<ΔG_T>₉₆和密码子重复率r)也相互相关(图17A和18)。尽管如此，不直接影响结果的参数在其值与有直接影响的参数的值相关时在单一参数回归中呈现为有影响。因此，为了理解不同参数的相对机制性贡献，对表达数据集进行多参数逻辑回归建模。此方法同时分析所有相关参数以描绘其对结果的相对影响。在某些实施例中，可以定量差异的可靠性取决于数据集中基因中的两个参数独立地变化的程度，不管其总体相互相关性。

在一个方面，本发明涉及一种二元逻辑回归模型，其在消除了影响由其它相关变量捕获的解释变量后合并了图9、10与16中独立探索的解释变量。(参看实例。)观察最高表达水平相较于无表达的优势的对数通过以下方程式给出：

在此方程式中，ΔG_UH是基因的头端加5'-UTR的预测折叠自由能(以kcal/mol为单位)，I是二元指示变量(其在ΔG_UH<-39kcal并且核苷酸2-6的GC含量大于62％时是1(并且否则的话是零))，a_H和g_H分别是密码子2-6中的腺嘌呤和鸟嘌呤的频率，u_3H是密码子2-6中的第3位置处尿苷的频率，s_7-16和s_17-32分别是密码子7-16和17-32的平均斜率(图11B)，β_c和f_c分别是基因中的每个非终止密码子的斜率和频率，d_AUA是在存在任何AUA-AUA双密码子时假定值1的二元变量，r是密码子重复率，并且L是序列长度。

计算当省略一个或多个项时预测能力的损失提供了对模型中的不同项和基因中的不同区的相对影响的最佳估算(图29A-B)。头端的影响由折叠能和碱基组成项与s_7-16项一起的组合捕获，所述折叠能和碱基组成项很可能反映用于核糖体对接的翻译起始位点的可行性(Duval,M.等人(2013)PLoS Biol 11,e1001731)。尾端的影响由s_17-32项与整体项一起捕获，因为尾端主导着这些参数(总体密码子影响、d_AUA、r和L)。计算建模指示，有影响的mRNA折叠能效应限于头端，并且这些效应显著，但其总体影响比密码子相关效应更弱(图29B)。密码子相关效应在编码序列的5'端附近是约2.3倍更强，并且在密码子约32之后下降到恒定水平(图32)，其大致匹配填充核糖体出口通道所需的残基的数目(Lu,J.等人(2008)J Mol Biol 384,73-86)。然而，因为数据集中的基因具有远远长于头端的尾端，所以平均尾端中的密码子含量的影响力大于头端中的密码子含量约7倍。实例中描述的计算显示，同框密码子模型优于非同框密码子模型或在每个密码子位置处具有抛物线碱基组成的模型。其还显示，当包括密码子斜率和密码子重复率r时，尾端中的平均预测mRNA折叠自由能(即，<G_T>₉₆)对模型有不显著贡献，表明<G_T>₉₆对表达的明显影响很可能可归于其与这些影响力更大的参数的相关性。

最佳多元逻辑回归模型的密码子斜率(图11B中下图中的红色)提供了对于大肠杆菌中个别密码子对蛋白质翻译效率的影响的理解。由不寻常非同源tRNA解码的异亮氨酸的AUA密码子(Wallace,E.W.等人(2013)Mol Biol Evol 30,1438-1453；Vivanco-Dominguez,S.等人(2012)J Mol Biol 417,425-439)迄今为止具有最强的表达减弱效应，并且相邻AUA密码子对具有比两个非相邻AUA密码子显著更强的表达减弱效应(图16F)。异亮氨酸的其它两个密码子对表达具有大致中立的影响，表明AUA的表达抑制效应可归于密码子结构而非氨基酸结构。类似地，精氨酸的CGG和CGA密码子具有强表达抑制效应，而四个同义密码子对表达具有弱正面或负面影响。在先前文献中强调为对蛋白质表达有害的八个密码子之中(Price,W.N.等人(2011)Microbial Informatics and Experimentation 1,6；Wallace,E.W.等人(2013)Mol Biol Evol 30,1438-1453；Quax,T.E.等人(2013)Cell Rep 4,938-944；Muramatsu,T.等人(1988)Nature 336,179-181；Duval,M.等人(2013)PLoS Biol 11,e1001731；Lu,J.(2008)J Mol Biol 384,73-86)，在数据集中仅四个密码子减弱表达(以上列举的AUA/CGG/CGA密码子和leu的CUA密码子)，而其它四个密码子是中立的(arg的AGA密码子和甘氨酸的GGA密码子)或微弱地增强表达(arg的AGG密码子和pro的CCC密码子)。AGA的明显影响和可能AGG的明显影响可以通过与AGA同源的ArgU tRNA的过度表达而偏倚。忽略在大肠杆菌中具有最低频率的这两个密码子，下三个最不常见的密码子减弱表达(图11C与31A)。然而，其影响的量值存在广泛变化，并且具有稍高频率的密码子是中立的或微弱地增强表达。此外，剩余56个非终止密码子的频率与其对表达的影响之间不存在显著相关性(图11C与31A)。类似地，所有61个非终止密码子的影响与密码子适应指数(Sharp,P.M.等人(1987)Nucleic Acids Res 15,1281-1295)(图31B)、密码子敏感性(Elf,J.等人(2003)Science 300,1718-1722)(图31C)、tRNA适应指数(Tuller,T.等人(2010)Cell 141,344-354)(图31D)或同源tRNA浓度估算值(Dong,H.等人(1996)Journal of Molecular Biology260,649-663)(图31E)任一者之间不存在显著相关性。

图11B中的最强表达增强密码子对应于三种具有可以充当通用碱基催化剂的侧链的氨基酸(谷氨酸、天冬氨酸和组氨酸)。对于这三种氨基酸，结束于A或U的密码子具有比结束于G或C的同义密码子更强的表达增强效应，表明密码子结构很可能调节其翻译效率。然而，绘制多元逻辑回归模型中的密码子斜率相对于氨基酸疏水性展现了强相关性(图11D)，带电氨基酸具有比极性或疏水性氨基酸系统地更高的斜率。分析表明，翻译效率随氨基酸结构系统地变化。分析密码子斜率作为每个密码子位置处核苷酸碱基的一致性的函数展现了一些系统性趋势(图11E)。然而，这些趋势很可能反映由在其前两个位置处具有相同碱基的密码子编码的氨基酸的物理化学特性的保守。同义密码子的翻译效率的差异(图11B)不大可能与碱基含量具有系统性关系。

通过评估一组合成基因的表达特性来测试以上呈现的分析的有效性和预测值(图13与20)。使用两种不同方法设计序列，所述方法模拟在大规模数据集中提供最高蛋白质表达水平的基因的密码子使用和mRNA折叠特性。在“六氨基酸”(6AA)方法中，精氨酸、天冬氨酸、谷氨酸、谷氨酰胺、组氨酸和异亮氨酸的所有密码子经在图11B中的单一变量逻辑回归中具有最高斜率的同义密码子取代。所得mRNA的结束于A或U碱基(所述碱基具有比G或C碱基更低的平均折叠能)的密码子增浓，并且其趋于具有匹配在数据集中提供最高蛋白质表达水平的基因的特性的mRNA折叠特性和其它特性，提供图17A-C中展示的参数交叉相关性的来源的一具体实例。在“31密码子折叠优化”(31C-FO)方法中，仅使用在图11B中的单一变量逻辑回归中对于每种氨基酸具有最高斜率的31个密码子优化计算的mRNA折叠自由能；最大化头端中的折叠能(ΔG_UH)(即，最小化折叠结构的稳定性)，而将尾端中的折叠能(<ΔG_T>₄₈)调节为接近-10kcal/mol。在一些实验中，工程化的是基因的头序列而非尾序列，反之亦然，以评估来自关于其对表达的相对贡献的多参数计算建模的这些推断的可靠性。

对于五种在大规模数据集中不良表达的细菌蛋白质(图13和图20)和17种与先前表征的蛋白质无关的额外蛋白质(图20B)，合成在头端和尾端均使用31C-FO方法优化的基因。这些基因提供了均匀地高的蛋白质表达(对于长度<500个氨基酸的所有蛋白质，得分是4或5)。虽然其中一些使用标准诱导方案产生了不溶蛋白质产物，但当在大肠杆菌麦芽糖结合蛋白的C末端处同框融合时，其均匀地产生高水平的可溶蛋白质(图20C)。

为了研究尾端中的密码子使用是否可以影响蛋白质表达，保留天然头序列，并且使用6AA方法仅仅针对四个基因优化尾端中的密码子(图13B中的WT_H/6AA_T)。尾端优化增加了这些目的蛋白全部四者的表达，但改进程度实质上变化。

还测试头端中的密码子使用相较于mRNA折叠的相对影响。通过构筑具有相同尾端但不同头端的基因进行此测试，使用31C方法密码子优化所述基因，同时优化(31C-FO_H，具有最大化ΔG_UH)或去优化(31C-FD_H，具有最小化ΔG_UH)其计算折叠自由能(图13B)。基因优化实验证实，头端中的折叠效应、头端中的密码子使用和尾端中的密码子使用都对蛋白质表达具有显著影响，证实了我们的计算推断的有效性(图29)。

对于来自大规模数据集的天然细菌基因和其优化对应物，在于大肠杆菌中体内诱导之后，比较细胞生长速率(图13A)、蛋白质表达水平(图13B)和mRNA水平(图13D)。还比较体外转录(图33)和翻译(图13C)反应的产物。对于一种标靶(APE_0230.1)，在诱导蛋白质表达后细胞生长的抑制通过优化基因序列而消除，尽管其极大地增加了蛋白质表达(图13A-B)。此结果表明，阻碍翻译的一些mRNA序列特征在大肠杆菌中导致生理毒性。尽管天然或使用经纯化T7RNA优化的基因的体外转录产生等效量的mRNA(图33)，但使用经纯化核糖体和翻译因子所得的mRNA的体外翻译对于所有经优化序列都产生实质上更高水平的蛋白质合成(图13C)。值得注意的是，内部翻译暂停的位点在一些经优化mRNA中与相应天然mRNA相比不同(例如，对于APE_0230.1)。这些观察结果显示，大肠杆菌中的蛋白质翻译效率通过来源于对大规模蛋白质表达数据集进行的计算分析的密码子优化方法改进(图11与29)。

考虑到这些体外生物化学结果，与经优化基因相比在诱导低效翻译的天然序列之后在体内观察到的显著更低的mRNA水平(图13D)表明，至少一些mRNA序列相依性翻译障碍可以强烈影响稳态mRNA水平。注意到，在诱导之后5min，对于所有经优化基因都检测到全长mRNA，但天然基因无一者检测到全长mRNA。此表明低效翻译的天然mRNA快速降解，因为T7聚合酶在体外以等效效率转录其(图33)。为了进一步评估这些实验中观察到的翻译效率与mRNA稳定性之间的偶合的生理相关性，将多变量二元逻辑回归结果(图11B中的红色)用以计算s_全部，编码细胞质蛋白质的所有内源大肠杆菌基因的平均密码子斜率。来源于大规模表达数据集的此参数与使用质谱分析定量的大肠杆菌中的体内蛋白质水平强烈相关(图30B)，证实了新密码子影响度量值的有效性。引人注目地，s_全部与所有预测细胞质蛋白质的体内mRNA水平几乎同样强烈地相关(图30A-B)，表明密码子含量显著影响稳态mRNA浓度。对于质谱分布中检测的通常丰度更高的蛋白质集，s_全部与其mRNA水平和蛋白质/mRNA比两者相关(图30C)，其可以反映翻译效率。这些整体相关性证实，密码子含量不仅对mRNA翻译效率而且对mRNA稳定性施加重要影响。如本文所述，将对6,348个独立蛋白质表达实验的结果进行的同时多参数计算建模用以剖析控制大肠杆菌中的蛋白质表达水平的mRNA序列特征(图10、11、29)。本文还描述了在追踪实验中使用生物化学方法验证此计算研究(图13)，包括使用完全纯化的组件的体外翻译实验(图13C)。基于计算结果重新设计的mRNA更高效地翻译(图13B-C)，验证了整个基因中的密码子使用和头端(前约16个密码子)中的mRNA折叠稳定性两者都有助于控制翻译的推断(图29)。重新设计的基因产生比低效翻译的天然基因高得多的体内mRNA水平(图13D)，其导致检验新密码子影响度量值与大肠杆菌中的全基因组蛋白质和mRNA浓度之间的关系。内源大肠杆菌基因中的密码子影响度量值的平均值(s_全部)与体内相应蛋白质浓度强烈相关(图30B-C)。其还与mRNA浓度(图30A-C)和蛋白质/mRNA比(图30C)强烈相关。这些基因组规模相关性指示，密码子含量是翻译效率和大肠杆菌中的mRNA稳定性两者的重要决定因素，并且这些参数紧密偶合(Duval,M.等人(2013)PLoS Biol 11,e1001731；Li,X.等人(2007)Mol Microbiol 63,116-126；Shoemaker,C.J.等人(2012)NatStruct Mol Biol 19,594-601；Shoemaker,C.J.等人(2010)Science 330,369-372；Becker,T.等人(2012)Nature 482,501-506)。虽然对mRNA稳定性的效应可以解释密码子使用可以如何改变蛋白质表达水平而不显著调节净蛋白质延长率，但所观察到的密码子影响度量值与蛋白质/mRNA比的相关性的最简单解释是，密码子含量对此延长率具有重要效应，与最近在大肠杆菌中进行的核糖体分布实验的解释相反(Li,G.W.等人(2014)Cell 157,624-635；Li,G.-W.等人(2012)Nature 484,538-541)。

如本文所述，密码子含量与稳态mRNA浓度的偶合可以通过若干分子机制解释。其有可能由蛋白质延长与mRNA降解之间的通过核糖体延长动力学调节的动力学竞争介导(即，氨基-酰基-tRNA选择、肽键合成和tRNA/mRNA易位中所涉及的连续结合和构象过程)。本文所描述的实验中所用的细菌噬菌体T7RNA聚合酶太快地合成mRNA使得翻译核糖体跟不上，使所得转录物对转录-翻译偶合不敏感但对核酸内切酶裂解更敏感(Iost,I.等人(1995)Embo j 14,3252-3261；Cardinale,C.J.等人(2008)Science 320,935-938)。因此，有可能的是，经片段化并且具有更低体内浓度的通过T7聚合酶产生的低效翻译的mRNA(图13D)反映了增强的降解。此推理以及在大规模数据集中表达减弱密码子完全消除蛋白质表达的趋势(图9A-D)指示，mRNA降解部分受核糖体延长动力学控制(Zaher,H.S.等人(2011)Cell 147,396-408；Li,X.等人(2007)Mol Microbiol 63,116-126；Deana,A.等人(1996)JBacteriol 178,2718-2720；Nogueira,T.等人(2001)J Mol Biol 310,709-722；Li,X.等人(2006)RNA 12,248-255；Leroy,A.等人(2002)Molecular Microbiology 45,1231-1243；dos Reis,M.(2003)Nucleic Acids Research 31,6976-6985)。若干生物化学系统介导由于蛋白质合成/折叠问题而停止的核糖体的再循环(Li,X.等人(2006)RNA 12,248-255；Richards,J.等人(2008)Biochim Biophys Acta 1779,574-582)或mRNA截短(Shoemaker,C.J.等人(2012)Nat Struct Mol Biol 19,594-601；Christensen,S.K.等人(2003)Molecular Microbiology 48,1389-1400)。在真核生物中，此“不通过(No-Go)”衰减途径涉及Dom34、Hbs1(Shoemaker,C.J.等人(2012)Nat Struct Mol Biol 19,594-601；Shoemaker,C.J.等人(2010)Science 330,369-372)和ABCE1(Becker,T.等人(2012)Nature482,501-506)蛋白质，而在大肠杆菌中，类似活性由包括tmRNA途径(Vivanco-Dominguez,S.等人(2012)J Mol Biol417,425-439；Richards,J.等人(2008)Biochim Biophys Acta1779,574-582；Ivanova,N.等人(2005)J Mol Biol 350,897-905；Christensen,S.K.等人(2003)Molecular Microbiology 48,1389-1400)、ArfA、YaeJ(Chadani,Y.等人(2011)MolMicrobiol 80,772-785)和RF3(Vivanco-Dominguez,S.等人(2012)J Mol Biol 417,425-439；Zaher,H.S.等人(2011)Cell 147,396-408)的无关系统介导。这些原核mRNA品质对照系统(Shoemaker,C.J.等人(2012)Nat Struct Mol Biol 19,594-601)是参与mRNA衰减过程的候选物，所述过程可能在核糖体延长动力学中与密码子相依性变化偶合。

与先前关于同义密码子对大肠杆菌中的蛋白质表达的影响的推断相比，通过本文所描述的多参数计算模型确立的密码子影响度量值(图11B)具有实质性差异。本文所描述的结果显示，氨基酸一致性影响翻译效率，但尽管有长期存在的假定(Li,G.W.等人(2014)Cell 157,624-635；Li,G.-W.等人(2012)Nature 484,538-541)，但基因组密码子使用频率不直接相关。大肠杆菌中的频率第3、第4和第5低的密码子在大规模数据集中对表达具有最有害的影响(图11C与31A)。然而，这些密码子在广泛变化的程度上减弱表达，并且稍更常见的密码子具有中立或表达增强影响(图11B)。此外，其它58个非终止密码子的频率不与表达水平显著相关(图11C与31A)。密码子使用频率已经假定为影响体内翻译，因为其与同源tRNA的浓度相关(Caskey,C.T.等人(1968)J Mol Biol 37,99-118；Ikemura,T.(1981)JMol Biol 151,389-409；Muramatsu,T.等人(1988)Nature 336,179-181；Dong,H.等人(1996)Journal of Molecular Biology 260,649-663)，其可以明显影响体外蛋白质延长率(Wallace,E.W.等人(2013)Mol Biol Evol 30,1438-1453；Spencer,P.S.等人(2012)JMol Biol 422,328-335)和体内蛋白质产率(Chen,G.T.等人(1994)Genes Dev 8,2641-2652；Vivanco-Dominguez,S.等人(2012)J Mol Biol 417,425-439；Deana,A.等人(1996)JBacteriol 178,2718-2720；Li,X.等人(2006)RNA 12,248-255)。实际上，如本文所述，ArgUtRNA过度表达以促进AGA/AGG密码子增浓的蛋白质的更高表达(Chen,G.T.等人(1994)Genes Dev 8,2641-2652)，其可以使数据集中的这些密码子的影响偏倚(图11B)。将需要进一步研究来理解确定tRNA浓度何时影响核糖体延长动力学的因素。尽管如此，本文所描述的分析表明，核糖体延长动力学对蛋白质表达施加比同源tRNA浓度更强的影响。此推断与翻译因子EFP有助于富脯氨酸序列的延长的证实一致(Ude,S.等人(2013)Science339,82-85)。此外，这表明翻译调节效应可以经由修饰核糖体延长动力学来操作，所述动力学例如由tRNA或核糖体的共价修饰介导(Muramatsu,T.等人(1998)Nature 336,179-181)。使相关机制性研究变复杂(Iost,I.等人(1995)Embo j 14,3252-3261；Deana,A.等人(1996)JBacteriol 178,2718-2720；Nogueira,T.等人(2001)J Mol Biol 310,709-722；dos Reis,M.(2003)Nucleic Acids Research 31,6976-6985)，本文所描述的结果还表明，此类调节效应可以经由mRNA水平的变化而显现。

实例2：预测RNA序列的高蛋白质表达水平的概率的模型M

密码子重复率定义为r＝<d_i^-1>：，其中d_i是到密码子c_i下一次出现的距离。举例来说，“AAA.CGT.CCG.CGT.AAA”r＝平均值(1/4,1/2,0,0,0)＝3/20。二元多元逻辑回归是高表达的对数优势的解释变量x_i的线性模型，θ＝log[E_5/E_0]＝A+∑_iβ_ix_i。预测高表达概率是：

密码子变量的自由度数值是由于限定1＝Σf_c而小于密码子数目者。在图11中的多元逻辑分析中，去除ATG，使得斜率β_ATG＝0，其贡献被吸收到常数A中。R统计程序[R Core Team(2013).R是用于统计计算的语言和环境。R Foundation forStatistical Computing,Vienna,Austria.http://www.R-project.org/]用以计算模型参数(A,β)。逻辑回归斜率β>0指示高表达的优势随着相关变量增加。为了优化蛋白质表达，进行了同义突变，其增加了良好密码子的使用(朝具有更大斜率β的密码子使用)，同时还将自由能向最优值调节，最终试图最大化θ，继而使π最大化。最终模型M是：

θ＝4.38+0.0451G_UH+23.6/<G_T>₉₆-0.00117L-489/L

+6.55A_H-6.30A_H ²+0.753U_3H-1.85G_H ²-1.50

(G_UH*<-39)(GC_H>10/15)-11.7r-1.82i

+0.077s_7-16+0.059s_17-32+0.878∑_cβ_cf_c。

实例3：构建同义序列的方法

用两种方法设计同义序列，并且然后实验地测试。在6AA方法中，使六种氨基酸的密码子变为表1中的规定密码子。尽管用6AA方法未进行明确自由能优化，但在测试的基因中平均自由能密度也更有利。在31C-FO方法中，仅使用下表1中列出的子组的密码子，将头端+pET21表达载体的自由能优化为尽可能高(即，具有最弱的mRNA二级结构)，并且对于48聚体核苷酸窗将尾端的自由能优化为接近-10kcal/mol。在31C-FD中，用一子组密码子将自由能去优化为尽可能低(具有最强mRNA二级结构)。

表1：

实例4：评估基因的前约50个编码碱基和其余部分的蛋白质表达与mRNA折叠自由能之间的相关性

研究具有定量基因表达的多样多肽序列(来自东北结构基因组学协会)的数据集。以类别E0(无表达)到E5(最高表达)独立地定量多肽。多肽序列数据集含有超过7000种具有小于60％氨基酸一致性的mRNA序列。这些多肽序列从NESG(东北结构基因组学协会)管线中的以一致方式表达和纯化的约20,000者获取。评估多肽的表达和溶解性以便确定与高表达相关的特征(Acton TB等人(2005)Robotic cloning and polypeptide productionplatform of the Northeast Structural Genomics Consortium.Methods inEnzymology 394:210-243；Price WN等人(2009)Nat.Biotechnol 27:51-57)。

计算编码区中的前50个碱基(头端)和5'-UTR表达载体+前50个碱基的折叠自由能。同样评估范围介于40到150的其它窗大小。最小自由能和配分函数自由能两者都与每个基因的表达水平相关。图22A中展示的代表性数据清楚显示，当折叠自由能最稳定时，高表达概率(E3+E4+E5)降低。

前50个编码碱基的折叠自由能与表达水平极高度相关(表2)。在某些方面，基于序数逻辑回归的p值，包括5'-UTR表达载体加前50个产生更强相关性。可以使用序数逻辑回归研究E0与E5之间的有序表达类别，并且可以使用标准逻辑回归研究二元结果(Brant R(1990)Biometrics 46:1171-1178；Hosmer DW和Lemeshow S(2004)Applied logisticregression(Wiley-Interscience))。

表2：

表2中的相关性的显著性是自由能在翻译效率中的重要性的强有力的证据。将独立和组合地探索密码子和自由能效应。

在某些方面，对于前50个编码碱基高于或低于约-20kcal/mol的自由能将隔开较高和较低表达方案(图22B)。随着前50个碱基的自由能降低，观察到朝低表达的单调降低。此趋势表明，使用同义突变增加前50者的折叠自由能可以增加多肽的表达。

计算基因的后半部分(尾端)的自由能。对于整个mRNA尾端(即，约50碱基头端之后的编码区)中的其它窗位置和大小，也观察到表达相较于自由能曲线(图22C)的抛物线形状(在中间折叠能处有最大值)，并且表明太小的结构可能是有害的。尾端效应与前50个编码碱基中相比不太显著。在某些方面，尾端中不需要每个窗含有限制高表达的瓶颈。将研究最差窗对于整体表达是否是速率限制性的或其是否取决于平均自由能。

在尾端中，低自由能与更低表达相关。当自由能很低时的更低表达与前50者的结果一致，并且与稳定二级结构将抑制核糖体起始或可加工性的直觉一致。

在某些方面，当编码碱基201-250的自由能不过高(例如，对于50聚体G不高于-5kcal/mol或对于96聚体G不高于-15kcal/mol)时，基因表达最高。极高自由能(即，最小二级结构)对于基因表达可以是次优的特征可以提供对其它生物过程的新颖理解。

将通过在将折叠自由能密度限定于不同范围中之后测试同义序列的表达，来探索图22C中观察到的抛物线相依性。将编写用以工程化具有所期望特性的同义序列的程序。这些合成基因将委托并且提供给NESG管线以评估表达水平。

实例5：基于折叠自由能和密码子度量值评估基因表达的可能性

将基因序列上传到原型网络应用中，并且计算基因序列的折叠自由能。所得自由能用以估算高表达概率(图23A中的样本输出)。为了使天然与工程化序列之间的差异清楚，使用RNAbows视觉化工具绘制配对概率(样本输出展示于图23B中)(Aalberts DP和JannenWK(2013)RNA 19,475-478)。差异RNAbow图呈现了原始和同义序列，任何取代用色彩突显。配对碱基用圆弧连接，所述圆弧的粗细与所述配对的概率成比例。独特碱基对具有与所述序列相同的色彩突显，以使得可看一眼即可比较。

实例6：创建算法以工程化具有改进表达的序列。

如果序列的自由能足够稳定以使得高表达不大可能，那么可以工程化具有更高自由能和更大高表达可能性的同义序列。

对1000个序列的简单抽样可以典型地鉴别具有比平均值高出约3个标准差的自由能的序列。基于原型网络的工具当前使用同义序列的简单抽样并且从样本当中选择最佳者。可以从所有密码子或具有正表达的“良好”密码子当中进行抽样(参看例如，图24)。“密码子斜率”经由序数逻辑回归使NESG数据集中的表达与密码子使用相关。简单抽样1000是可行的，但计算上相对昂贵。

偏倚抽样方法可以提高抽样速度。图23B突显了配对碱基并且展示一些对可以如何在同义序列中消除。稳定双螺旋的中心中的一个错配可以使结构的自由能增加多达7kcal/mol。为了增加自由能，将破坏高配对区。

用于头端的偏倚抽样算法如下。(1)将天然翻译为密码子优化序列和预计算碱基位置，其中同义突变可以用良好密码子进行。(2)计算自由能和鉴别序列的碱基对。保存具有改进的自由能的任何序列。(3)在作出配对并且可以进行突变的位置处，使用偏倚到密码子斜率的随机抽样来置换密码子。重复(2)直到满意。(4)报告具有最高自由能的同义序列。在某些方面，此偏倚抽样策略可以减少使自由能剧烈变化所需的迭代的数目。在非配对区中，密码子使用保持最优。

改进的用于序列尾端的抽样方法将靶向既不过高也不过低的最优自由能。既定窗内的优化是直接的，但邻近窗可能会具有可能远非最优的非故意的互补。当前尾端优化程序如下。(1)使用良好密码子的简单抽样以产生同义子序列：在峰表达值附近针对自由能进行选择。将这些片段组装成完整尾序列。(2)评估重叠窗中的尾端(跨越相邻设计窗)。(3)手动微调或从头开始再抽样。如果步骤(2)的重叠区中存在不可接受的自由能，那么可以改进尾端算法。如果这样，那么通过对所述窗再抽样和重复步骤(2)来修复。

实例7：优化密码子使用和自由能

最优自由能密度在头端(前约50个编码碱基)中应尽可能高并且在尾端中应既不过低也不过高。可以通过评估具有不同密码子使用与折叠自由能组合的若干基因的表达，来理清密码子和折叠自由能的作用。可以使用所有密码子或子组用所期望的自由能工程化序列。可以评估NESG管线中的合成序列的表达。

关于若干基因，研究密码子和自由能效应。比较以下各者：(1)WT野生型序列；(2)6AA序列，其中优化六个最重要的密码子(用GAT优化天冬氨酸的密码子、用GAA优化谷氨酸的密码子、用CAT优化组氨酸的密码子、用ATT优化异亮氨酸的密码子、用CAA优化谷氨酰胺的密码子和用CGT优化精氨酸的密码子)；(3)31C-FO，其中仅使用良好密码子优化自由能；(4)31C-FD，其中仅使用良好密码子使自由能尽可能稳定。

使WT或6AA尾端与WT、31C-FO或31C-FD头端配对。在所有4种情况下，6AA尾端(图25)都比WT更高度表达。

优化的尾端(6AA)相对于WT增加了表达。WT非诱导和诱导是对照。在头端中，密码子优化在所有情况下都增加表达。在SCO1897中，具有低自由能的31C-FD头端可以切断表达。在其它基因中，31C-FD自由能不是很低(表3)。APE_0230.1是膜蛋白，因此具有低溶解性。

表3：

对于APE_0230.1、RSP_2139、SRU_1983和SCO1897基因的头端构筑体，以kcal/mol为单位的载体加前51个编码碱基的自由能Gvec+51和密码子斜率列于表3中。明显有可能在序列限定的界限内同时设计自由能和密码子特性。

6AA尾序列不仅具有更好的密码子度量值得分，而且具有更接近31C-FO标靶的自由能值：APE_0230.1：GWT＝-311.1kcal/mol，G6AA＝-297.5kcal/mol，G标靶＝-295.2kcal/mol；SRU_1983：GWT＝-362.6kcal/mol，G6AA＝-331.0kcal/mol，G标靶＝-223.0kcal/mol；RSP_2139：GWT＝-406.3kcal/mol，G6AA＝-353.5kcal/mol，G标靶＝-241.9kcal/mol；SCO1897：GWT＝-195.2kcal/mol，G6AA＝-158.4kcal/mol，G标靶＝-138.5kcal/mol。

在这些研究中比较头端的效应，观察到当WT头端良好(APE_0230.1)时，全部是高度表达的。当WT头端具有不良密码子使用(RSP_2139)时，31C-FO和31C-FD增加了表达。即使在良好密码子使用下，极稳定的头端自由能也可能会消除蛋白质表达(SCO1897-31C-FD)。

在6AA优化的尾端观察到毒性降低(图26)。

还产生31C-FO头端和尾端。在所有五个测试基因(SRU_1983、APE_0230.1、SCO1897、RSP_2139和ER449)中，表达都显著改进(图27)。从48聚体片段构建31C-FO尾端。31C-FO优化头端与31C-FO优化尾端的组合导致蛋白质表达有大的增加。具有31C-FO优化的内源大肠杆菌蛋白质ER449(图27，泳道21.1与21.2)展示了相对于野生型(WT)增加的表达。

实例8：开发更有预测性的度量值

RNA折叠减小和良好密码子使用的组合增加了所测试标靶中的表达。

可以改进建模和算法以增加对翻译的生物学的理解和产生用于预测构筑体是否将高度表达的更好度量值。度量值然后可以用于优化序列设计。

对一个较大组的不良表达基因测试当前31C-FO方法。

确定瓶颈是否是具有最低自由能或更整体的特性(如平均尾端自由能)的窗。针对NESG数据集测试模型。

优化窗大小以用于自由能优化。比较不同窗大小的p值。

在控制密码子斜率的同时，设计自由能密度从高跨越到低的序列以探测所述相依性。可以用31C-FO到31C-FD构筑进行此种设计。

在控制自由能密度的同时，设计密码子斜率从高到低变动的序列以探测所述相依性。

查看SRU_1983(图25C)，31C-FO和31C-FD两者都很好地表达，但31C-FD具有更大溶解性。这可以是稍微降低翻译速率可增加蛋白质产物的可用性的一实例。

确定是否存在核糖体暂停促进应工程化到序列中的蛋白质折叠的情况(Watts等人,(2009)Nature,460,711-719)。

测试特定密码子的相对性能(例如，测试与tRNA丰度的相关性)。

挖掘NESG数据集以研究密码子-密码子相关性。

评估长距离对是否产生自由能瓶颈，参看以下实例9。

探索夏因-达尔加诺序列如何影响翻译，参看以下实例10。

使蛋白质由宿主生物体过度表达，参看图27，以尝试更好地理解大肠杆菌生理学和调节。

可以通过设计合成同义序列和使其在NESG管线中评估而系统地探索这些问题。

实例9：鉴别长距离对

因为初步指示是高折叠稳定性与低基因表达相关，所以将开发鉴别比窗大小相隔更远的互补区的高效方法。如果前50者与表达载体5'-UTR或尾端很好地配对，那么可以抑制起始。基因中别处的特别稳定的茎可以减慢核糖体和降低翻译效率。鉴别长距离对不必使用O(N³)RNA折叠算法。实际上，可以使用O(N²)Bindigo的变化形式(Hodas NO和AalbertsDP(2004)Nucleic Acids Res.,32,6636-6642)和BindigoNet算法来鉴别mRNA内的最稳定互补区。可以通过鉴别多个局部最小值和基于预期自由能密度和泊松统计(Poissonstatistics)设定显著性阈值，来变更Bindigo。Bindigo型运行时间将比折叠算法快数百倍。适用于结合本文所描述方法计算自由能值的例示性程序包括(但不限于)RNAstructure、UNAFOLD、ViennaRNA、mFold和Sfold。可以结合本文所描述方法使用这些程序中的每一者的默认参数执行计算。

将研究整体表达与基因尾端的窗中的折叠预测的相关性。有可能最稳定窗是最限制表达者。将使用序数逻辑回归和p值鉴别最佳模型，并且然后实验地测试。将通过使用神经网和其它数据挖掘技术评估不同窗的折叠自由能的组合以搜寻高表达的关键因素，来研究其它整体效应。

实例10：定位夏因-达尔加诺互补序列

夏因-达尔加诺序列参与起始(Etchegaray JP和Inouye M(1999)Journal ofBiological Chemistry 274:10079-10085；Freischmidt A等人,(2012)ProteinExpression Purif.,82,26-31)和翻译暂停(Li GW等人,(2012)Nature 484,538-541)。可以使用BindigoNet算法使用净结合自由能评估基因的与夏因-达尔加诺序列的亲和力。Bindigo还可以允许监测在其它方面最优的序列是否含有潜在翻译暂停位点，然后可以设计得不含所述位点。同样，为了促进NESG表达系统中的实施，将监测同义序列以确保常用的限制位点等不会呈现。

实例11：对碱基组成如何影响RNA自由能建模

基于平均折叠自由能取决于序列长度的观察结果(Hodas NO和Aalberts DP(2004)Nucleic Acids Res.,32,6636-6642)，研究折叠自由能与RNA组成的相依性。

经常建议(G+C)含量作为RNA折叠稳定性的代理(Biro,J.C.(2008)Theor BiolMed Model,5:14；Gustafsson C等人,(2012)Protein Expression Purif.,83,37-46)。对RNA可以进行更好近似化，RNA不限定为如DNA所需相等地配对G和C。考虑二、三和五参数模型：

G₂＝g₀-g_NN

G_G+C＝G₀+g_(G+C)N_(G+C)+g_(A-U)N_(A-U) (方程1)

G₅＝g₀+g_AN_A+g_CN_C+g_GN_G+g_UN_U。

所有模型都包括罚分g₀以起始折叠或非配对区，加取决于类型_X的碱基的计数N_X的项。方程式(1)模型因此探索(G+C)组成或全部5种碱基的组成的长度单独的效应。从人类外显子内含子数据库以及tRNA、核糖体RNA和其它类型的其它专用数据库提取二核苷酸和三核苷酸相关性。使用这些相关性创建具有固定长度100、200、300、400、500nt的合成序列。计算折叠和非配对自由能，并且然后使其与序列的组成关联。对于非配对研究，禁止k聚体(k＝3到21)在更长序列中配对。N_X对受禁止k聚体中的X碱基的数目计数，并且其中G现在等于施加限定的自由能成本(即，受限定与不受限定折叠自由能之间的差异)。

将模型预测与显式折叠计算相比较(Zuker,M.(2003)Nucleic Acids Res.,31,3406-3415；Mathews DH等人,(2004)Proc.Natl.Acad.Sci.USA,101,7287-7292；HofackerIL(2003)Nucleic Acids Res.,31,3429-3431)。使计算折叠能与模型之间的平方偏差最小化以获得最优模型参数。表4列出了经优化G₅参数。基于计算数千个三核苷酸，模型G₅＝g₀+g_A N_A+g_C N_C+g_G N_G+g_U N_U的参数关联随机序列。折叠是指最小折叠自由能，而非配对是指禁止k聚体中的配对的自由能成本。腺嘌呤和鸟嘌呤的大每碱基自由能差异值得注意，腺嘌呤的去稳定化效应也值得注意。

表4：

在图28中，绘制显式计算与模型之间的散布，并且列出平均平方残差。

组成相依性模型G₅显著减小残差，反射了G与C碱基的平均自由能不同，A与U也不同。在模型G₅的情况下，有可能捕获折叠自由能的大部分变化并且对O(N)时间作出相当准确的预测，而不借助O(N3)折叠计算。

包括每种碱基的不同每碱基能量的模型G₅的结果显示，鸟嘌呤和腺嘌呤的平均稳定性相差大于1kcal/mol(表4)。NESG数据集的密码子斜率清单中值得注意的是，典型地，最高表达通常在腺嘌呤处于摆动位置时出现并且在鸟嘌呤处于摆动位置时最小。

用于去除区中的二级结构的平均自由能成本G₅可能适用作非配对成本的更禁止的显式计算的代理。为了显式地计算非配对成本，花费O(N3)时间，但平均去折叠成本仅花费O(k)时间，其中受禁止区的长度k远小于基因的长度N。

使用具有mRNA相关性的随机化序列开发这些方法。接着的步骤是在NESG数据集的天然序列上测试模型以再次研究显式自由能计算与方程式(1)模型相关的程度。以此方式，可以探索G₅是否是适用于对核糖体结合位点的可行性或局部自由能成本作为沿着基因的核糖体过程建模的近似值。

G₅还可以用以对净tRNA-mRNA结合自由能和翻译动力学建模。这可以确定净tRNA-密码子结合自由能是否与密码子斜率充分相关。

模型G₅测量了碱基的平均特性并且不包括任何相关性。具有大于平均值的互补性的区将最可能结合。使用BindigoNet，可以在O(N2)时间中鉴别特定序列内的强互补子串。对去配对子序列的成本的BindigoNet估算可能比单独使用G5更准确，因为包括了所讨论序列的特定特征。BindigoNet计算将比单独使用G5更昂贵，但相对于完整O(N3)折叠计算仅花费一部分时间。

实例12：克隆、产生和检测

将大肠杆菌菌株DH5α用于克隆，其它实验使用发育的菌株BL21(λDE3)pMGK，其是用于高通量蛋白质表达的相同菌株(Acton,2005)。将细菌在LB培养基(Affymetrix/USB)中培养。对于具有基于pET21的质体的培养物，以100μg/ml添加氨苄青霉素。以25μg/ml添加卡那霉素以维持pMGK质体。在用以产生高通量蛋白质表达数据集(Acton,2005)的相同的培养基中以及条件下进行细菌生长以用于蛋白质表达和RNA印迹实验：基础培养基，在250rpm搅拌下，在诱导之前在37℃下和在诱导之后在17℃下。

从NESG获得基因APE_0230.1(来自敏捷气热菌(Aeropyrum pernix)K1)、RSP_2139(来自类球红细菌(Rhodobacter sphaeroides))、SRU_1983(来自红色嗜盐菌(Salinibacter ruber))、SCO1897(来自天蓝色链霉菌(Streptomyces coelicolor))和ycaQ(来自大肠杆菌)的pET-21克隆株(克隆株分别称为NESG标靶：Xr92、RhR13、SrR141、RR162和ER449)。通过GenScript DNA合成基因的6AA_T和31C-FO_H/31C-FO_T变异体。通过PCR扩增使用包含NcoI位点的长正向引物产生头端变异体31C-FO_H和31C-FO_H，新的头序列和在构筑体的头端扩增之后杂交的序列。使用头端必须经置换的构筑体的质体作为用相应长正向引物和反向引物(其在包括XhoI位点的构筑体的3'端处杂交)的PCR的DNA模板。在经NcoI和XhoI线性化的pET-21质体中用In-Fusion试剂盒克隆PCR产物。通过DNA测序验证所有质体并且在需要时使用QuikChange II定点诱变试剂盒校正。

将来自单一菌落的起始培养物接种到含有100μg/mL氨苄青霉素和30μg/mL卡那霉素的6mL LB培养基中。使培养物在37℃下生长直到高度混浊(4-6小时)。将40μL混浊培养基用以接种2mL NESG MJ9基本培养基。使此MJ9预培养物在37C下生长过夜。第二天，获取混浊MJ9预培养物的1:10稀释物的OD₆₀₀读数。将此读数用以计算针对6mL培养基中0.1的起始培养物读数标准化所有细胞样品所需的预培养物量。将此计算量接种到6mL新鲜MJ9培养基中，并且使细胞在37℃下生长直到OD₆₀₀达到0.5-0.7。然后用1mM IPTG诱导细胞，每种标靶WT保留一个一式两份管非诱导以充当阴性对照。在诱导之后，移出200μL×2的每种培养物，并且将其放置到无菌96孔板中用于生长曲线监测。然后将剩余5.6mL经诱导样品转移到17℃并且震荡过夜。第二天，将样品管从震荡器移出并且放置在冰上。使用(在此插入仪器名称)获取最终OD600测量值。使细胞在14mL圆底Falcon管中在4K rpm下离心10分钟，并且舍弃上清液。将细胞再悬浮于1.2mL溶解缓冲液(50mM NaH₂PO₄pH 8.0，30mM NaCl，10mM 2-巯基乙醇)中，并且然后转移到冰上的1.5mL Eppendorf管。通过使用40V设定(约12瓦脉冲)和脉冲1sec继而2sec静止持续总共40个脉冲在冰上进行声处理，来实现溶解。将120μL每种溶解样品与40μL 4X Laemmli缓冲液混合。然后使样品在具有Bio-Rad Precision Plus AllBlue Standard标记的SDS-PAGE(Bio-Rad，Ready Gel，15％Tris-HCl)上运行。将最终OD₆₀₀测量值用以计算每种个别样品的负载量，针对每种独特标靶的最少混浊的密度标准化所有样品。

通过将200μL每种诱导培养物转移到96孔无菌板(在此插入板类型)并且用50μL无菌石蜡油覆盖，测量过夜细胞生长。对于每种标靶WT，负载阴性对照非诱导样品。负载一式两份的每种样品以用于任何自然或人类变异。将板在室温下放置到(在此插入仪器名称)中，并且震荡30秒。获取起始OD₆₀₀读数，并且然后是30分钟震荡直到下一OD读数。再重复读数27次，以用于总共14.5小时的生长分析。

将含有优化或未优化插入序列的pET21质体用BlpI消化，苯酚-氯仿纯化，并且通过乙醇沉淀浓缩。在经消化样品中，添加2μg到RiboMax试剂盒制备物，并且根据方案体外转录。在反应完成后，将体外转录样品用DNA酶处理，然后异丙醇沉淀，并且再悬浮于The RNAStorage Solution中。通过琼脂糖凝胶电泳用溴化乙锭染色验证转录物大小和纯度。用PURExpress系统使用优质L-[9]35S]甲硫氨酸对经纯化mRNA进行体外翻译分析。每一25μl反应物含有10μl溶液A、7.5μl溶液B和2μl[11]35S]甲硫氨酸(10μCi)。通过添加2μl经纯化mRNA(4μg/μl)和在37℃下孵育而起始反应。在15、30、60和90min从反应物抽取5μl的等分试样，通过添加10μl 2X Laemmli并且在60℃下加热2min而终止。然后使14μl的每个等分试样在具有Bio-Rad Precision Plus All Blue Standard标记的4-20％SDS-PAGE上运行。使凝胶在Whathman上干燥以及经历放射自显影，其呈现于此图上。

将RNA印迹探针设计为pET21载体的5'UTR的71nt的反向互补序列，并且通过Eurofins合成。将探针使用BrightStar补骨脂素-生物素非同位素标记试剂盒用生物素标记。使含有所关注质体的BL21pMGK大肠杆菌在LB中在37℃下在震荡下生长过夜。将培养物1:50稀释到MJ9培养基中，并且使其在37℃下在震荡下生长过夜。第二天，将培养物稀释到0.15的OD₆₀₀到MJ9培养基中，并且使其生长到0.6-0.7的OD₆₀₀，随后用1mM IPTG诱导。在指定时间点获取样品，并且在2体积的RNAProtect Bacteria Reagent中稳定化RNA。在粒化之后，使样品溶菌酶消化(15mg/ml)15分钟，并且使用Direct-zol RNA Miniprep Kit和TRI-Reagent纯化RNA。在1.2％甲醛-琼脂糖凝胶上在MOPS-甲醛缓冲液中每样品分离约1-2μg总RNA。通过溴化乙锭染色验证RNA完整性。然后将RNA在室温下持续2h使用毛细管下行转移法用碱性转移缓冲液(1M NaCl，10mM NaOH，pH 9)转移到带正电尼龙膜。将RNA使用1200μJ UV交联到膜。使膜在杂交炉中在42℃下在Ultrahyb杂交缓冲液中预杂交1h。然后添加热变性的经生物素标记的探针到10-20pM最终浓度，并且在42℃下杂交过夜。在洗涤缓冲液(0.2XSSC，0.5％SDS)中洗涤膜两次，并且在暴露于薄膜的情况下根据方案使用BrightStarBioDetect试剂盒检测探针信号。

实例13：CHGlir密码子取代

在某些方面，本文所描述方法涉及通过根据CHGlir斜率取代编码多肽的序列中的一个或多个密码子来优化多肽的表达。在一个实施例中，蛋白质的表达可以通过用具有更高CHGlir斜率得分的同义密码子取代编码序列中的至少一个密码子而增加。在一个实施例中，蛋白质的表达可以通过用具有更高CHGlir斜率得分的同义密码子取代编码序列中的所有密码子而增加。在一个实施例中，蛋白质的表达可以通过用具有更高平均CHGlir斜率得分(即，在编码序列中的某一窗内平均化的CHGlir斜率得分)的同义密码子取代编码序列中的一些或所有密码子而增加。CHGlir斜率得分展示于表5中。

表5：CHGlir斜率得分

实例14：BLOGIT密码子取代

在某些方面，本文所描述方法涉及通过根据BLOGIT系数或强烈相关的OLOGIT系数取代编码多肽的序列中的一个或多个密码子来优化多肽的表达。在一个实施例中，蛋白质的表达可以通过用具有更高BLOGIT系数的同义密码子取代编码序列中的至少一个具有更低BLOGIT系数的密码子而增加。在一个实施例中，蛋白质的表达可以通过用具有更高BLOGIT系数的同义密码子取代编码序列中的所有具有更低BLOGIT系数的密码子而增加。在一个实施例中，蛋白质的表达可以通过用具有更高平均BLOGIT或OLOGIT斜率得分(即，在编码序列中的某一窗内平均化的BLOGIT或OLOGIT斜率得分)的同义密码子取代编码序列中的一些或所有密码子而增加。BLOGIT和OLOGIT系数展示于表6中。

表6：BLOGIT系数

实例15：密码子对大规模蛋白质表达的影响与大肠杆菌mRNA水平相关

为了研究尾端中的密码子使用是否可以影响蛋白质表达，保留天然头序列，并且使用6AA方法仅仅优化四个基因的尾端中的密码子(图13B中的WT_H/6AA_T)。尾端优化增加了这些目的蛋白全部四者的表达，但改进程度实质上变化。对于两者(RSP_2139和SCO1897)，在诱导后蛋白质表达归因于降低的毒性而适度地改进，其增加既定量的培养物中的细胞质量而不增加针对总细胞蛋白质标准化的目的蛋白的产率。然而，其它两种目的蛋白展示了针对总细胞蛋白质标准化表达的显著(SRU_1983)或极大(APE_0230.1)增加，验证了来自计算分析的如下推断：尾端中的密码子含量可以对蛋白质表达水平具有有力的影响。

还通过构筑具有相同尾端但不同头端的基因，测试头端中的密码子使用相较于mRNA折叠的相对影响，使用31C方法密码子优化所述基因，同时优化(31C-FO_H，具有最大化ΔG_UH)或去优化(31C-FD_H，具有最小化ΔG_UH)其计算折叠自由能。31C-FO头端改进所评估的所有四种蛋白质的表达(图13B)。RSP_2139和SCO1897(当其尾端经优化时仅适度地改进表达的蛋白质)的改进最大，表明其天然基因的高效翻译的主要障碍存在于其头端中。与此推断一致，这些蛋白质的31C-FO头端与天然或6AA优化尾端组合产生类似地高的表达水平(图13B)。对于四种目的蛋白，去优化头端折叠得到平行于其计算自由能的不同结果(图13B)。这些蛋白质之间在使用富A/U的31C密码子设定构筑的同义头端中可以实现的最低ΔG_UH方面存在很大差异，提供密码子使用与mRNA序列的更整体的物理化学特性之间的偶合的另一实例。最稳定折叠的31C-FD头端(RSP_2139，具有ΔG_UH＝-47kcal/mol)消除了由同义31C-FO头端(ΔG_UH＝-37kcal/mol)产生的极高表达，验证了建模研究(图29)和先前文献的如下结论：稳定头端折叠可以阻断蛋白质表达。SRU_1983的31C-FD头端(ΔG_UH＝-41kcal/mol)与同义31C-FO头端(ΔG_UH＝-34kcal/mol)相比也降低了表达，而APE_0230.1的31C-FD头端(ΔG_UH＝-32kcal/mol)产生与同义31C-FO头端(ΔG_UH＝-30kcal/mol)等效的表达。然而，这些密码子优化的头端与具有类似折叠能(对于SRU_1983WT头端ΔG_UH＝-34kcal/mol，并且对于SRU_1983 31C-FO头端是-34kcal/mol)的天然头端相比增加了表达，证实了如下计算推断(图29)，头端中的密码子含量可以强烈影响蛋白质表达。

如本文所述，验证来自计算建模的推断。多参数计算建模是有力的工具，因为其原则上可以解决交叉相关参数(例如，密码子含量和预测RNA折叠能(Reuter,J.S.等人(2010)BMC Bioinformatics 11,129)以及图17-18中评估的其它参数)的相对影响。然而，这些估算值中可能存在噪声，并且一些参数的明显影响可以反映未包括在分析中的交叉相关参数的“隐藏”影响。举例来说，如果进化将更高度表达的蛋白质限定得更可溶，那么蛋白质表达水平与针对溶解性增强氨基酸的密码子的频率之间可以存在正相关性，即使这些氨基酸不增加蛋白质翻译效率。因此，必需使用机制性信息性实验验证计算推断。本文所描述的体外翻译实验(图13C)重要地验证了，多参数计算模型(图29)中鉴别的最有影响的mRNA序列特征直接调节翻译，排除来自统计噪声的实质性干扰、隐藏变量、替代效应或其它潜在系统性误差。

此论文中呈现的实验数据强烈支持计算建模研究的主要结论；然而，这些研究的细节需要进一步验证，以便既确保其定量准确性也阐明基础分子机制。此领域中的高优先级将是评估新密码子影响度量值(图11B中的彩色标志)是否准确地描述不同氨基酸和相同氨基酸的同义密码子的相对翻译效率。通过此度量值与大肠杆菌中体内整体生理蛋白质和mRNA水平的强相关性验证其广泛特征(图30)，但一些同义密码子对的值的差异自身并不是统计显著的。将需要体内蛋白质表达实验和体外蛋白质合成的高分辨率酶学研究(Caliskan,N.等人(2014)Cell 157,1619-1631；Ieong,K.W.等人(2012)J Am ChemSoc134,17955-17962；Johansson,M.等人(2012)Proc Natl Acad Sci U S A109,131-136；Zaher,H.S.等人(2009)Nature 457,161-166)来批评性地评估新密码子度量值的定量细节和阐明其机制性来源。

本文所描述的结果对于密码子含量对大肠杆菌中的蛋白质表达的影响产生了相干模型，以及若干相关机制性假设。体外等效地转录(图33)但体外低效翻译(图13C)的具有次优密码子使用的mRNA具有剧烈降低的体内浓度(图13D)。此外，来源于大肠杆菌中的大规模体内蛋白质表达实验(图11、29、34A)的新密码子影响度量值与整体蛋白质水平、蛋白质/mRNA比和此生物体中的在生理条件下的体内mRNA水平相关(图30)。因此，有可能的是，低效翻译的密码子以两种不同但相关的方式减弱蛋白质表达，第一者通过降低翻译效率和继而的mRNA分子蛋白质产率，并且第二者通过增强所述mRNA分子的降解速率(Chevrier-Miller,M.等人(1990),Nucleic Acids Res 18,5787-5792；dos Reis,M.(2003)NucleicAcids Research 31,6976-6985；Leroy,A.等人(2002)Molecular Microbiology 45,1231-1243；Marchand,I.等人(2001)Mol Microbiol 42,767-776；Nogueira,T.等人(2001)J MolBiol 310,709-722；Iost,I.等人(1995)Embo j 14,3252-3261；Deana,A.等人(1996)JBacteriol 178,2718-2720)。低效翻译的密码子还可能促进通过大肠杆菌RNA聚合酶合成的mRNA的提前终止(Cardinale,C.J.等人(2008)Science 320,935-938；Proshkin,S.等人(2010)Science 328,504-508)，这也将导致稳态浓度降低。总的来说，每种mRNA的转录起始速率(其不应直接取决于密码子使用)与其提前终止和衰减速率(其显著取决于密码子使用)之间的平衡控制其稳态水平。此动力在大肠杆菌中的生理mRNA水平与密码子含量之间产生了本文所描述的强相关性(图30)。翻译效率与mRNA水平之间的反馈将扩大密码子使用的影响和可能还有对蛋白质表达水平的其它翻译调节现象，在翻译效率与mRNA转录/降解之间产生了生理学上重要但此前未曾了解的联系。

将模型与在最近在大肠杆菌中进行的体内核糖体分布实验中获得的结果比较已经引发了关于密码子使用对蛋白质表达的影响的重大问题。这很可能是因为其展示了每个开放阅读框(ORF)内均质的mRNA占用以及核糖体占用的ORF的水平与所编码蛋白质的浓度之间的强相关性(Li,G.-W.等人(2012)Nature 484,538-541；Li,G.W.等人(2014)Cell157,624-635)，意味着在大多数mRNA模板上核糖体以类似速率延长蛋白质，无关于密码子使用。然而，同义密码子使用的变化可以明显地调节体内蛋白质表达水平(Nogueira,T.等人(2001)J Mol Biol310,709-722；Deana,A.等人(1996)J Bacteriol 178,2718-2720；Chen,G.T.等人(1994)Genes Dev 8,2641-2652；Dana,A.等人(2014)Nucleic Acids Res42,9171-9181；Gingold,H.等人(2011)Mol Syst Biol 7,481；Goodman,D.B.等人(2013)Science；Kimchi-Sarfaty,C.等人(2007)Science 315,525-528；Li,X.等人(2006)RNA 12,248-255；Plotkin,J.B.等人(2011)Nat Rev Genet 12,32-42；Quax,T.E.等人(2013)CellRep 4,938-944；Spencer,P.S.等人(2012)J Mol Biol 422,328-335；Tuller,T.等人(2010)Cell 141,344-354；Tuller,T.等人(2010)Proc Natl Acad Sci U S A 107,3645-3650；Vivanco-Dominguez,S.等人(2012)J Mol Biol417,425-439；Zhang,F.等人(2010)Science 329,1534-1537；Chen,G.F.等人(1990)Nucleic Acids Res 18,1465-1473；Chiba,S.等人(2012)Mol Cell 47,863-872；Letzring,D.P.等人(2013)RNA 19,1208-1217；Ramu,H.等人(2011)Mol Cell 41,321-330；Sorensen,M.A.等人(2005)J Mol Biol354,16-24,(2005))，并且此现象在先前文献中已经归于mRNA翻译速率因核糖体所致的密码子相依性变化(Chen,G.T.等人(1994)Genes Dev 8,2641-2652；Li,X.等人(2006)RNA12,248-255；Vivanco-Dominguez,S.等人(2012)J Mol Biol 417,425-439；Chiba,S.等人(2012)Mol Cell 47,863-872；Gao,W.等人(1997)Mol Microbiol25,707-716；Ito,K.等人(2013)Annu Rev Biochem 82,171-202；Ivanova,N.等人(2005)J Mol Biol 350,897-905,(2005))。当代基因组规模实验与分子生物学的许多先前文献之间的此明显不一致仍然未解决。以上呈现的机制性模型有助于解决此难题，因为密码子使用对稳态mRNA水平的影响可以导致mRNA分子的蛋白质表达降低，无关于其翻译延长速率。只要大多数ORF在经历导致极快速进行性mRNA降解的内部密码子相依性事件之前多次翻译，就可能在每个ORF内存在相对均质的核糖体占用，如核糖体分布实验中所观察(Li,G.-W.等人(2012)Nature 484,538-541；Li,G.W.等人(2014)Cell 157,624-635)。因为每个核糖体占用的ORF的水平捕获翻译起始速率与相应mRNA稳态浓度的组合影响，所以每种蛋白质的浓度与核糖体占用的ORF的水平之间存在紧密对应性(Li,G.-W.等人(2012)Nature 484,538-541；Li,G.W.等人(2014)Cell 157,624-635)，但此水平因mRNA浓度的密码子相依性降低而降低。

另一方面，大肠杆菌中的新密码子影响度量值与整体蛋白质/mRNA比之间的相关性(图30C)引发了关于核糖体分布结果的准确性的问题。密码子含量对蛋白质/mRNA比(其应反映每mRNA分子合成的蛋白质分子的平均数目)的所观察影响的最直接解释是翻译延长速率存在显著的密码子相依性变化。此解释与用于密码子使用对蛋白质合成的影响的长期存在的模型一致但与核糖体分布结果的一些解读不一致(Li,G.-W.等人(2012)Nature484,538-541；Li,G.W.等人(2014)Cell 157,624-635)。可能性更小但讲得通的替代性解释是大肠杆菌中的密码子使用与ORF的翻译起始速率之间存在强进化性联系，在所述情况下密码子含量与蛋白质/mRNA比之间的相关性可以代表间接效应而非直接机制性偶合。虽然此类进化联系是可能的，但因为密码子使用和翻译起始共同地调节蛋白质表达水平，所以在数据集中在基因的头端中密码子含量与mRNA折叠特性之间仅存在弱相关性(图17A)，并且这些特性很可能是翻译起始速率的关键决定因素。一大组来自多样生物体的天然进化基因(图15)中此相关性的微弱减小了其间接引起大肠杆菌中的新密码子影响度量值与整体蛋白质/mRNA比之间的相关性的概率(图30C)。此外，降低的翻译起始速率应归因于增强的降解速率而导致降低的稳态mRNA浓度(Chevrier-Miller,M.等人(1990),Nucleic AcidsRes 18,5787-5792；Nogueira,T.等人(2001)J Mol Biol 310,709-722；Iost,I.等人(1995)Embo j 14,3252-3261；Deana,A.等人(1996)J Bacteriol 178,2718-2720)，进一步使对所观察相关性的分析变复杂。

尽管这些考虑因素表明翻译延长速率存在显著的密码子相依性变化，但考虑到影响mRNA翻译的生物化学和进化过程的复杂性，将需要小心控制的和体内体外实验来实现对同义密码子使用的变化如何改变翻译效率和mRNA稳定性的可靠理解。先前文献中普遍认为，这些变化可归于细胞中以更低浓度存在的tRNA在核糖体上的更慢适应(Chen,G.T.等人(1994)Genes Dev 8,2641-2652；Dana,A.等人(2014)Nucleic Acids Res 42,9171-9181；Caskey,C.T.等人(1968)J Mol Biol 37,99-118；Dong,H.等人(1996)Journal ofMolecular Biology 260,649-663；Ikemura,T.(1981)J Mol Biol 151,389-409)，其导致相应密码子的翻译延长循环的更慢执行。新密码子影响度量值与tRNA库水平之间缺乏显著相关性(图31C-E)引发了关于此机制性模型的问题并且表明，密码子-tRNA相互作用的立体化学特征和变构后果很可能对翻译效率的密码子相依性变化作出重要贡献。将需要未来的研究来阐明这些效应并且还确定mRNA水平的密码子相依性变化是否通过mRNA的通过翻译核糖体或实际上通过使RNA酶直接募集到与低效翻译的密码子相互作用的核糖体(Tsai,Y.C.等人(2012)Nucleic Acids Res40,10417-10431)或可能甚至通过活化核糖体自身中的固有RNA酶活性(Dreyfus,M.(2009)第11章Killer and Protective Ribosomes,85,423-466)所致的变化的保护介导。因此，除了向处于分子生物学的中心法则的核心附近的此类研究提供新颖理解和新颖工具之外，本文所描述的结果还突显了待研究的新问题。

实例16：剖析同义密码子使用的生物学

遗传密码的中心特征是其简并。使用61个不同三联体核苷酸密码子引导20种氨基酸的合成使得大量的同义DNA/RNA序列能够编码相同蛋白质序列，并且此简并假定为用以控制生物系统中的蛋白质表达水平。然而，关于此控制的基本原理和机制存在不确定性。普遍认为，平行于同源tRNA的生理浓度的基因组密码子使用频率(Ikemura T.Journal ofmolecular biology(1981)151(3):389-409；Dong H.等人Journal of molecular biology(1996)260(5):649-63)追踪所编码氨基酸的相对翻译速率，并且同义密码子的翻译速率的所得差异控制蛋白质合成效率(Caskey CT等人Journal of molecular biology(1968)37(1):99-118；Chen GT等人Genes&development(1994)8(21):2641-52)。然而，最近使用目前先进技术基因组学技术的“核糖体分布”显示，大肠杆菌中的所有蛋白质编码mRNA序列都以大致相同的速率翻译(Li G-W等人,Oh E,Weissman JS Nature2012；484(7395):538-41；LiGW等人Cell 2014；157(3):624-35)。其它最近基因组学研究已经显示，大肠杆菌中的使用频率最低(最稀有)的密码子(其在一些情形下减弱蛋白质表达)(Caskey CT等人Journalof molecular biology(1968)37(1):99-118；Chen GT等人Genes&development(1994)8(21):2641-52；Muramatsu T等人Nature1988；336(6195):179-81；Vivanco-Dominguez S等人Journal of molecular biology 2012；417(5):425-39；Zhang SP等人Gene 1991；105(1):61-72)当在蛋白质编码序列的起始处附近使用时实际上增加蛋白质表达(Goodman DB等人Science.2013.doi:10.1126/science.1241934)。呈现这些结果的文献(Li G-W等人,Oh E,Weissman JS Nature2012；484(7395):538-41；Li GW等人Cell 2014；157(3):624-35；Goodman DB等人Science 2013.doi:10.1126/science.1241934)已经避免论述其与先前文献的矛盾，并且在别处仍尚未提出调和这些矛盾的假设。因此，尽管向蛋白质中的RNA翻译处于分子生物学的中心法则核心是事实，但关于此过程的基本生物化学和生理学特征存在不确定性。

相关问题涉及共价修饰翻译机构的组件的许多非必需但进化上保守的酶的生物功能，所述组件包括tRNA(El Yacoubi B等人Annual review of genetics 2012；46:69-95；Novoa EM等人Cell2012；149(1):202-13)、核糖体RNA(Spenkuch F等人RNAbiology2015:0.Epub 2015/01/27.doi:10.4161/15476286.2014.992278；Dunkle JA等人Proc Natl Acad Sci U S A.2014；111(17):6275-80；Popova AM等人Journal of theAmerican Chemical Society 2014；136(5):2058-69；Sergiev PV等人Nucleic AcidsResearch 2012.doi:10.1093/nar/gks219)和核糖体蛋白(Strader MB等人Molecular&cellular proteomics:MCP2011；10(3):M110.005199.Epub 2010/12/21.doi:10.1074/mcp.M110.005199；Forouhar F等人Nature chemical biology2013；9(5):333-8)。许多此种酶表达于大肠杆菌中，其中的一些具有人类基因组中编码的直系同源物，但生理功能对于其中的大多数是未知的，尽管已经阐明了其生物化学活性(Arragain S等人J BiolChem.2010；285(37):28425-33)。已经假设，这些酶中的一些通过改变同义密码子的相对翻译效率(Muramatsu T等人Nature1988；336(6195):179-81；Kruger MK等人J MolBiol.1998；284(3):621-31)调节蛋白质翻译(El Yacoubi B等人Annual review ofgenetics 2012；46:69-95；Novoa EM等人Cell 2012；149(1):202-13；Sergiev PV等人Nucleic Acids Research 2012.doi:10.1093/nar/gks219；Fernandez-Vazquez J等人PLoS genetics 2013；9(7):e1003647；Kirchner S等人Nature reviews Genetics 2015；16(2):98-112)。然而，支持此种调节活性的数据仅对酵母中的一种tRNA“高修饰”酶呈现(Phizicky EM等人Genes&development 2010；24(17):1832-60；Laxman S等人Cell2013；154(2):416-29)。因此，对于催化翻译机构的共价修饰的绝大多数酶，生理功能仍然不确定。

重要的是阐明mRNA翻译/蛋白质合成的一些“暗物质”。最近得出了大肠杆菌的基于对大规模实验蛋白质过度表达数据集的数学分析的新密码子影响度量值(

G等人Nature提交(审查中))。与先前文献相比具有实质性差异的此度量值与基因组密码子使用频率仅极弱地相关，但与大肠杆菌基因组中编码的所有基因的生理mRNA水平极强烈地相关(

G等人Nature提交(审查中))。进行多个生物化学和分子生物学研究以验证所述新度量值和开始剖析基础分子机制。这些研究显示，低效翻译的密码子增浓的mRNA与从相同启动子转录但高效翻译的密码子增浓的同义mRNA相比具有系统地降低的浓度，表明大肠杆菌中的mRNA翻译效率与衰减速率之间有紧密偶合(

G等人Nature提交(审查中))。此偶合的强度(其解释了新密码子影响度量值与整体mRNA水平之间展现的相关性)很可能已经遮蔽了对大肠杆菌中的一些翻译调节现象的分析，因为对mRNA水平的强烈影响的观察结果通常已经假定为反映基因表达的转录调节而非与mRNA翻译的调节相关的任何内容。

还研究了mRNA水平的整体测量值推断密码子效率的影响。这将开放经由分析可容易获得的微阵列或RNASeq数据表征影响和调节翻译的因素的另一方法。将经开发以分析大规模蛋白质过度表达数据集的相同数学模型应用于单一微阵列数据集概括了密码子影响度量值的关键特征，证实此方法的效用。

将获得对分子机制的进一步理解，同义密码子使用的变化通过所述分子机制通过以下方式控制和调节mRNA翻译过程：(1)评估替代性荧光蛋白方法对于表征大肠杆菌中的体内同义基因序列的相对表达效率的功效；(2)使用现有生物化学方法和在(1)下开发的方法测试新大肠杆菌密码子影响度量值的细节；(3)分析来自敲除假设可调节同义密码子使用的基因(包括共价修饰翻译机构的基因)的大肠杆菌菌株的RNASeq数据，以评估其在所选生长条件下对相对密码子效率的影响；和(4)通过定量大肠杆菌中的所有非必需基因对由在同义密码子使用方面具有所定义差异的基因编码的蛋白质的相对表达水平的影响来阐明控制同义密码子效应的生物化学系统。

翻译(分子生物学的中心法则中的最后阶段)涉及核糖体解码mRNA以合成蛋白质。因为蛋白质介导大多数基因的生物化学效应，所以翻译是细胞的功能状态的关键决定因素。翻译的关键特征是遗传密码的简并，其使用61个不同三联体核苷酸密码子编码仅20种不同氨基酸。此简并使得相同蛋白质序列能够从大量的同义mRNA序列翻译。临床基因组学研究已经展现了改变人类疾病易感性的同义密码子变化的许多实例(Kimchi-Sarfaty C等人Science 2007；315(5811):525-8；Hunt RC等人Trends in genetics:TIG 2014.Epub2014/06/24.doi:10.1016/j.tig.2014.04.006)，并且分子生物学研究已经显示，mRNA序列的同义变化可以导致蛋白质表达水平的细微和剧烈变化两者(Hunt RC等人Trends ingenetics:TIG 2014.Epub 2014/06/24.doi:10.1016/j.tig.2014.04.006；Steinthorsdottir V等人Nature genetics2007；39(6):770-5；Zhang F等人Science2010；329(5998):1534-7)。虽然mRNA序列的变异明显在调节从大肠杆菌到人类的生物体中的蛋白质表达方面起重要作用，但已经提出了许多不同机制性假设来解释这些效应(Spencer PS等人Journal of molecular biology2012；422(3):328-35)，并且其对翻译效率的影响仍然不清楚并且在一些情况下是有争论的。

虽然普遍认同，基因的5'区(头端)中的稳定mRNA折叠(Goodman DB等人Science2013.doi:10.1126/science.1241934；Kozak M.Gene2005；361:13-37；Shakin-EshlemanSH等人Biochemistry1988；27(11):3975-82；Castillo-Mendez MA等人Biochimie2012；94(3):662-72；Kudla G等人Science 2009；324(5924):255-8；Bentele K等人Molecularsystems biology 2013；9:675；Tuller T等人Proceedings of the National Academy ofSciences of the United States of America 2010；107(8):3645-50)可以减弱大肠杆菌中的翻译，但关于同义密码子对翻译效率的影响(Caskey CT等人Journal of molecularbiology(1968)37(1):99-118；Chen GT等人Genes&development(1994)8(21):2641-52；Goodman DB等人Science 2013.doi:10.1126/science.1241934；Kudla G等人Science2009；324(5924):255-8；Bentele K等人Molecular systems biology 2013；9:675；Cannarozzi G等人Cell 2010；141(2):355-67；Price WN等人Microbial Informatics andExperimentation 2011；1(1):6；Wallace EW等人Molecular biology and evolution2013；30(6):1438-53；Elf J等人Science 2003；300(5626):1718-22；Ran W等人mBio2014；5(2):e00956-14；Quax TE等人Cell reports 2013；4(5):938-44)、此类效应的机制性基础和其与mRNA折叠效应的关系(Goodman DB等人Science 2013.doi:10.1126/science.1241934；Kozak M.Gene 2005；361:13-37；Shakin-Eshleman SH等人Biochemistry 1988；27(11):3975-82；Castillo-Mendez MA等人Biochimie 2012；94(3):662-72；Kudla G等人Science 2009；324(5924):255-8；Bentele K等人Molecular systemsbiology 2013；9:675；Tuller T等人Proceedings of the National Academy ofSciences of the United States of America 2010；107(8):3645-50)存在相当大的不确定性。核糖体分布研究(Ingolia NT等人Science 2009；324(5924):218-23)推断，净翻译延长速率对于大肠杆菌mRNA实际上恒定，无关于密码子使用(Li G-W等人,Oh E,Weissman JSNature2012；484(7395):538-41；Li GW等人Cell 2014；157(3):624-35)。此发现挑战了同义密码子翻译速率的差异影响蛋白质表达的假定，所述假定是许多密码子使用文献的基础(Zhang F等人Science2010；329(5998):1534-7；Spencer PS等人Journal of molecularbiology2012；422(3):328-35；Gingold H等人Molecular systems biology2011；7:481.doi:10.1038/msb.2011.14；Tuller T等人Proceedings of the National Academyof Sciences of the United States of America2010；107(8):3645-50；Quax TE等人Cell reports 2013；4(5):938-44；Dana A等人Nucleic Acids Res.2014；42(14):9171-81；Sharp PM等人Nucleic Acids Res.1987；15(3):1281-95)，但尚未提出解释密码子使用的变化导致蛋白质表达剧烈变化的许多实验的替代性机制(Gingold H等人Molecularsystems biology 2011；7:481.doi:10.1038/msb.2011.14)。此外关于哪些密码子相关特性对于蛋白质表达有益相较于有害，存在不确定性(Gingold H等人Molecular systemsbiology 2011；7:481.doi:10.1038/msb.2011.14)。举例来说，已经替代性地提出了更均质的密码子使用以增强(Cannarozzi G等人Cell 2010；141(2):355-67；Quax TE等人Cellreports 2013；4(5):938-44)或降低(Zhang G等人Nucleic Acids Res.2010；38(14):4778-87)翻译效率。

许多密码子使用文献集中于大肠杆菌基因组中的一组稀有密码子(Zhang SP等人Gene 1991；105(1):61-72)的低效翻译(Ikemura T.Journal of molecular biology1981；151(3):389-409；Zhang SP等人Gene1991；105(1):61-72；Sharp PM等人NucleicAcids Res.1987；15(3):1281-95)，所述密码子尤其是ile的AUA密码子(Caskey CT等人Journal of molecular biology 1968；37(1):99-118；Muramatsu T等人Nature 1988；336(6195):179-81)以及arg的AGA、AGG和CGG密码子(Chen GT等人Genes&development 1994；8(21):2641-52；Vivanco-Dominguez S等人Journal of molecular biology2012；417(5):425-39)。在此基础上，普遍认为，平行于tRNA库水平的基因组密码子使用频率影响翻译效率，并且不常见密码子低效地翻译(Ikemura T.Journal of molecular biology 1981；151(3):389-409；Dong H等人Journal of molecular biology 1996；260(5):649-63；CaskeyCT等人Journal of molecular biology 1968；37(1):99-118；Chen GT等人Genes&development 1994；8(21):2641-52；Dana A等人Nucleic Acids Res.2014；42(14):9171-81)。体外翻译研究已经展现，带电tRNA的浓度可以影响蛋白质延长速率，更低浓度导致核糖体上的适应更慢。蛋白质延长速率的所得降低被认为可导致不常使用的密码子体内低效地翻译，因为其同源tRNA的浓度通常与其密码子使用频率成比例(Ikemura T.Journal ofmolecular biology 1981；151(3):389-409；Dong H等人Journal of molecular biology1996；260(5):649-63)。然而，当基因的头端含有以上列举为翻译的屏障的稀有密码子时，荧光报告蛋白的表达增加¹¹。此效应解释为反映头端中的低效密码子使用的耐受性以防止将减弱翻译的稳定mRNA折叠¹¹。然而，未进行操控任一参数来验证此推断或剖析其相互作用的实验，并且替代性理论提出稀有密码子在一些情形下可以直接增强翻译效率(Elf J等人Science2003；300(5626):1718-22；Dittmar KA等人EMBO reports2005；6(2):151-7；Tuller T等人Cell 2010；141(2):344-54)。进化生物学文献集中于基因组密码子使用频率的不同相关，其是蛋白质合成中的准确性(Wallace EW等人Molecular biology andevolution2013；30(6):1438-53；Bulmer M.Genetics 1991；129(3):897-907；AkashiH.Genetics 1994；136(3):927-35)。生物化学研究提出，更常见的密码子应更准确地翻译，因为其同源tRNA的水平系统地更高，并且来自近同源tRNA的竞争是翻译错误的主要原因(Ikemura T.Journal of molecular biology 1981；151(3):389-409；Dong H等人Journalof molecular biology1996；260(5):649-63；Kramer EB等人Rna 2007；13(1):87-96.doi:10.1261/rna.294907；Zaher HS等人Cell 2011；147(2):396-408)。更常见密码子的使用在蛋白质中的更为保守的位点处会增加(Ran W等人mBio.2014；5(2):e00956-14；AkashiH.Genetics 1994；136(3):927-35)，大概是因为此类位点处的更准确翻译(Ninio J.FEBSletters.1986；196(1):1-4)促成了更大的适合性(Wallace EW等人Molecular biologyand evolution 2013；30(6):1438-53；Drummond DA等人Cell2008；134(2):341-52)。虽然不太常见的密码子也可以不太高效地翻译(Dana A等人Nucleic Acids Res.2014；42(14):9171-81；Rocha EP.Genome research.2004；14(11):2279-86)，但这些参数之间的系统性相关性仍有待展现。

使针对mRNA序列对蛋白质表达的影响的研究变复杂的一个因素是，同义序列变化同时影响多种与翻译相关的机制性因素，即密码子一致性、密码子均质性和mRNA折叠以及从密码子对效应到总体A/U/C/G含量的其它可能有影响的局部和整体序列特征。大多数先前研究已经集中于局部mRNA区中的个别参数或参数对(Li G-W等人Nature2012；484(7395):538-41；Goodman DB等人Science 2013.doi:10.1126/science.1241934；Kudla G等人Science 2009；324(5924):255-8；Bentele K等人Molecular systems biology 2013；9:675；Cannarozzi G等人Cell 2010；141(2):355-67)，并且少数来自这些研究的机制性推断已经使用生物化学方法测试。为了解决这些限制，在当前审查中的手稿中²⁶，如本文所述对大规模实验蛋白质表达数据集进行统计分析，集中于同时评估多种多样的局部和整体mRNA序列特性的影响，并且所得机制性推断使用生物化学实验测试。本文所描述的组合计算与实验研究已经提供了对大肠杆菌中的mRNA序列特征对蛋白质表达的影响的新的理解，包括密码子含量相较于mRNA折叠能的相对影响和这些因素在蛋白质编码序列中的不同区中的影响的变化(

G,Letso R,Neely H,Price WN,Su M,Luff J,Valecha M,EverettJK,Acton T,Xiao R,Montelione GT,Aalberts DP,Hunt JF.Nature提交(审查中))。其还提供了一种密码子影响度量值，所述度量值对于工程化高水平蛋白质表达有效但与过去的估算值相比具有重大差异(Li G-W等人Nature2012；484(7395):538-41；Li GW等人Cell2014；157(3):624-35；Goodman DB等人Science 2013.doi:10.1126/science.1241934；Kudla G等人Science 2009；324(5924):255-8；Cannarozzi G等人Cell2010；141(2):355-67；Sharp PM等人Nucleic Acids Res.1987；15(3):1281-95)。此外，生物化学实验和计算分析显示，密码子使用对大肠杆菌中的体内mRNA水平具有极强影响，平行于在最近的会议中已经对酵母报道的结果⁵⁸。结果显示，核糖体延长循环的动力学对mRNA稳定性施加关键影响，其有助于同义密码子使用的变化的生物效应。将探索此关系的程度并且阐明其生物化学机制(

G,Letso R,Neely H,Price WN,Su M,Luff J,Valecha M,Everett JK,ActonT,Xiao R,Montelione GT,Aalberts DP,Hunt JF.Nature提交(审查中))。

密码子使用与mRNA稳定性之间的此关系向上文提及的在最近的基因组规模翻译研究(Li G-W等人Nature 2012；484(7395):538-41；Li GW等人Cell 2014；157(3):624-35；Goodman DB等人Science 2013.doi:10.1126/science.1241934；Kudla G等人Science2009；324(5924):255-8)与长期存在的基于核糖体解码速率的差异解释同义密码子使用的变化的效应的假设(Zhang F等人Science2010；329(5998):1534-7；Spencer PS等人Journal of molecular biology2012；422(3):328-35；Gingold H,Pilpel Y.Molecularsystems biology2011；7:481；Tuller T等人Proceedings of the National Academy ofSciences of the United States of America.2010；107(8):3645-50；Quax TE等人Cellreports 2013；4(5):938-44；Dana A等人Nucleic Acids Res.2014；42(14):9171-81；Sharp PM等人Nucleic Acids Res.1987；15(3):1281-95)之间的不符提供了可能解释。虽然已经证实难以使此类差异与翻译调节过程或体内蛋白质表达水平的功能变化严格地相关，但核糖体分布研究(Li G-W等人Nature 2012；484(7395):538-41；Li GW等人Cell2014；157(3):624-35)已经对这些假设产生了更严重的攻击。核糖体分布⁴⁵使用深度测序技术来使核糖体位置全面地映射于活细胞中的mRNA的完全互补序列上。核糖体分布数据显示，蛋白质延长速率对于所有mRNA实际上恒定(Li G-W等人Nature2012；484(7395):538-41；Li GW等人Cell 2014；157(3):624-35)，无关于密码子使用。此外，其在编码既定蛋白质的mRNA内的不同位置处的延长速率方面展示出最多微小的差异(Li G-W等人Nature2012；484(7395):538-41；Li GW等人Cell 2014；157(3):624-35)，并且其无法展示特定密码子处延长速率的任何一致差异(Li G-W等人Nature2012；484(7395):538-41；Li GW等人Cell2014；157(3):624-35)，与基于先前文献(Zhang F等人Science 2010；329(5998):1534-7；Spencer PS等人Journal of molecular biology 2012；422(3):328-35；Gingold H,Pilpel Y.Molecular systems biology 2011；7:481；Tuller T等人Proceedings of theNational Academy of Sciences of the United States of America.2010；107(8):3645-50；Quax TE等人Cell reports 2013；4(5):938-44；Dana A等人Nucleic AcidsRes.2014；42(14):9171-81；Sharp PM等人Nucleic Acids Res.1987；15(3):1281-95)的期望相反。此外，其无法向密码子使用的变化可以如何影响蛋白质表达提供任何替代性解释，尽管此现象存在许多充分记载的实例(Dong H等人Journal of molecular biology1996；260(5):649-63；Chen GT等人Genes&development1994；8(21):2641-52；Vivanco-Dominguez S等人Journal of molecular biology 2012；417(5):425-39；Chevrier-Miller M等人Nucleic Acids Res.1990；18(19):5787-92；Deana A等人Journal ofbacteriology1996；178(9):2718-20；Iost I等人The EMBO journal1995；14(13):3252-61；Rosano GL等人Microbial cell factories.2009；8:41；Chen GF等人Nucleic AcidsRes.1990；18(6):1465-73；Goldman E等人J Mol Biol.1995；245(5):467-73；Ito K等人PLoS One.2011；6(12):e28413；Ito K等人Annual review of biochemistry2013；82:171-202；Sorensen MA等人J Mol Biol.2005；354(1):16-24)。

如果限制蛋白质表达的密码子相依性翻译障碍充分地触发mRNA的快速降解(图36)以防止其在核糖体分布中被观察到(Li G-W等人Nature 2012；484(7395):538-41；LiGW等人Cell 2014；157(3):624-35)，那么由本文所描述的结果和酵母中的平行研究展现的在密码子使用与mRNA稳定性之间的联系(Vladimir Presnyak Y-HC等人CSHLTranslational Control；CSHL2014)可以解决此难题。实际上在先前文献(Deana A等人Journal of bacteriology 1996；178(9):2718-20；Iost I等人The EMBO journal 1995；14(13):3252-61；Dreyfus M.第11章Killer and Protective Ribosomes 2009；85:423-66；Richards J等人Biochimica et biophysica acta.2008；1779(9):574-82；dos ReisM.Nucleic Acids Research 2003；31(23):6976-85)中存在个别基因中的此类效应的实例。然而，最常用以解释这些效应的模型假定，其在核糖体密度归因于上游翻译路障而下降时由mRNA的增强的对降解的敏感性介导(图36的顶部)。预期此机制将导致核糖体密度降低，并且mRNA的起始与末端之间的核糖体占用经历此类密码子相依性降解效应。然而，核糖体分布不展示如大肠杆菌或酵母中的趋势。此外，此机制可以在基因的整个长度中渐进地降低低效密码子的表达抑制影响，并且本文所描述的结果不展示任何此类效应。这些观察结果显示，密码子品质与mRNA降解之间可能存在更直接的关系，并且一些密码子可以使mRNA降解系统直接募集到翻译核糖体以介导与其结合mRNA的降解偶合的其快速再循环(图36的底部)。如果介导核糖体上的此过程的变构偶合受tRNA适应过程影响，那么此机制可以解释与tRNA浓度无关的翻译效率的密码子相依性变化以及受tRNA浓度影响的变化。本文所描述的研究经设计以扩大和深化对处于分子生物学的中心法则核心附近的相关分子机制的理解。

已经产生了针对大肠杆菌中的密码子对蛋白质表达的影响的全面并且客观的度量值。如本文所述，已经验证了与先前文献(Li G-W等人Nature 2012；484(7395):538-41；Goodman DB等人Science 2013.doi:10.1126/science.1241934；Kudla G等人Science2009；324(5924):255-8；Bentele K等人Molecular systems biology 2013；9:675；Cannarozzi G等人Cell 2010；141(2):355-67)相比具有实质性差异的此度量值的广泛特征。度量值挑战了关于密码子使用的同义变化影响蛋白质表达的机制的普遍假定。本文所描述的实例经设计以提供对基础生物化学机制的理解。

已经开发了从具有同时影响多个参数的相关序列特征的大规模数据集提取有影响的RNA序列参数的数学方法。本文所描述的结果显示，广义多元逻辑回归建模在去卷积大RNA序列数据集中的特征之间的复杂关系方面是有效的。

已经展现了大肠杆菌中的密码子含量与稳态mRNA浓度之间的强烈偶合，表明mRNA衰减速率与翻译效率密切地偶合。虽然在先前文献中已经对于个别基因展现了此种偶合，但由分析展现的强烈全基因组偶合表明，mRNA稳定性的变化对介导密码子使用的同义变化的效应作出重要机制性贡献(

G,Letso R,Neely H,Price WN,Su M,Luff J,ValechaM,Everett JK,Acton T,Xiao R,Montelione GT,Aalberts DP,Hunt JF.Nature提交(审查中))。此紧密偶合可以解释在表征翻译调节现象时遇到的许多困难。

本文所描述的数学模型可以从mRNA分布数据推断密码子效率，开放阐明密码子相关翻译调节的新方法。已经展现了来自对单一mRNA微阵列数据集的数学分析的全面密码子影响度量值的关键特征，并且提供了新的并且极其简单的表征体内基于密码子的翻译调节效应的方法(

G,Letso R,Neely H,Price WN,Su M,Luff J,Valecha M,Everett JK,Acton T,Xiao R,Montelione GT,Aalberts DP,Hunt JF.Nature提交(审查中))。

还已经阐明了经由定量全基因组研究影响大肠杆菌中的同义密码子使用的生物化学系统的完全互补序列。

实例17：高通量蛋白质表达数据集

评估来自多种多样的系统发生来源的6,348个蛋白质编码基因的表达，所述基因在pET21中从细菌噬菌体T7启动子转录，所述pET21是具有氨苄青霉素抗性标记的5.4kbpBR322衍生质体(Acton TB,Gunsalus KC,Xiao R,Ma LC,Aramini J,Baran MC,ChiangYW,Climent T,Cooper B,Denissova NG等人Methods Enzymol.2005；394:210-43)。归功于不同生物体中密码子使用频率的变化，此数据集提供了密码子空间的广泛抽样。细菌噬菌体聚合酶用以驱动转录以最小化因天然大肠杆菌RNA聚合酶而使翻译与转录偶合的可能混杂效应(Iost I,Dreyfus M.The EMBO journal.1995；14(13):3252-61；Iost I,GuillerezJ,Dreyfus M.Journal of bacteriology 1992；174(2):619-22)。在大肠杆菌菌株BL21(DE3)中在18℃下在成分确定的培养基中诱导蛋白质表达过夜(Acton TB,Gunsalus KC,Xiao R,Ma LC,Aramini J,Baran MC,Chiang YW,Climent T,Cooper B,Denissova NG等人Methods Enzymol.2005；394:210-43)，所述菌株含有用于T7聚合酶的单一IPTG诱导型基因。此菌株还含有pMGK，具有卡那霉素抗性基因的5.4kb pACYC177衍生质体；lacI基因的单一拷贝和编码与arg的稀有AGA密码子同源的tRNA的argU基因的单一拷贝。蛋白质都用八残基C末端亲和标签(具有序列LEHHHHH)表达，所述标签在计算分析中省略。数据集中的蛋白质共用小于60％序列一致性。如先前所描述，基于在考马斯蓝染色的SDS-PAGE凝胶上对全细胞溶解物的目视检查，在从0(无表达)到5(最高表达)的整数标度下对相同质体的两个分离株的蛋白质表达水平评分。分离株之间的得分变化很少超过±1(Price WN,HandelmanS,Everett J,Tong S,Bracic A,Luff J,Naumov V,Acton T,Manor P,Xiao R,Rost B,Montelione G,Hunt J.Microbial Informatics and Experimentation2011；1(1):6中的图S1)。约30％蛋白质给出得分0(1,754个蛋白质)或5(1,973个蛋白质)，而约40％给出中间得分(2,621个蛋白质)(Price WN,Handelman S,Everett J,Tong S,Bracic A,Luff J,Naumov V,Acton T,Manor P,Xiao R,Rost B,Montelione G,Hunt J.MicrobialInformatics and Experimentation 2011；1(1):6)。

实例18：高度表达基因的特征

评估基因(在大规模数据集中给出每个表达得分)中的多种多样的mRNA序列参数的分布，展现了提供高相较于低表达的基因之间的许多差异。检验给出每个得分的基因的参数分布的直方图(例如，如图9A,F中所示)，其展示了随得分增加的相对单调变化。还检验给出得分5相较于0的基因的数目比的自然对数作为每个参数值的函数的“对数优势比”曲线图(例如，如图9E,H中所示)，其提供了直方图中观察到的趋势的图形化汇总。这些曲线图还向mRNA序列参数与蛋白质表达之间的关系的数学建模提供了指南。

增加一些密码子的频率与更高或更低表达水平相关。谷氨酸的GAA密码子展示了最强表达增强效应(图9A,E)，而同义GAG密码子对于所有表达得分展示等效频率分布(图9E)。ile的AUA密码子展示了最强表达减弱效应之一，而同义AUC和AUU密码子分别展示了中立和微弱表达增强效应(图9E)。虽然这些趋势单纯地提出了这些密码子的翻译效率之间的差异，但下文呈现的多变量统计分析和生物化学分析指示其来源更为复杂。然而，ile的相邻AUA密码子对具有极强的表达减弱效应，其很可能反映低效翻译。相比之下，AGGA基序的频率(Ingolia NT,Ghaemmaghami S,Newman JR,Weissman JS.Science 2009；324(5924):218-23)(其匹配夏因-达尔加诺核糖体结合序列)对蛋白质表达水平似乎不具有显著影响。

mRNA转录物的预测配分函数折叠自由能的分布(Reuter JS,Mathews DH.BMCbioinformatics.2010；11:129)也展示了具有不同表达得分的蛋白质之间的系统性差异。表达因编码序列中的前48个核苷酸(其称为基因的头端)中的越来越稳定的折叠(即，降低折叠自由能)而减弱(Kozak M.Gene.2005；361:13-37；Shakin-Eshleman SH,Liebhaber SABiochemistry 1988；27(11):3975-82；Castillo-Mendez MA,Jacinto-Loeza E,Olivares-Trejo JJ,Guarneros-Pena G,Hernandez-Sanchez J.Biochimie.2012；94(3):662-72)。尽管此效应与先前研究中进行的观察结果一致，但数据提供了对减弱表达作为头端中的预测折叠自由能(ΔG_H)的函数的概率的稳定校准，并且在ΔG_H＝-15kcal/mol下其展示了高表达优势的约1/e减小。当计算头端的折叠自由能ΔG_UH时，相关性的强度通过包括mRNA的5'非翻译区(UTR)适度地增加(图9F)。出乎意料地，<ΔG_T>，基因的尾端(即，核苷酸49到终止密码子)中的预测折叠自由能的平均值对表达水平展示出非线性影响，高和低值两者都系统地减弱表达(图9H)。当在具有48、96或144个核苷酸宽度的50％重叠窗中计算平均值时，观察到大致等效趋势(图9H)。尽管这些观察结果显示尾端中的过度稳定或不稳定mRNA折叠减弱表达，但下文分析指示这些效应还具有更复杂的来源。在大规模数据集中若干额外整体序列参数与蛋白质表达水平具有系统性关系(

G,Letso R,Neely H,Price WN,Su M,Luff J,Valecha M,Everett JK,Acton T,Xiao R,Montelione GT,Aalberts DP,HuntJF.Nature提交(审查中))。

检验蛋白质编码序列开始处的个别位置处的核苷酸一致性对观察得分5相较于0的对数优势比的影响。此区中的核苷酸组成对蛋白质表达具有极强影响，但其影响在第六密码子之后实质上降低，其大致对应于mRNA的物理上受70S起始复合物中的核糖体保护的区。在保护区内，G碱基降低高表达概率，而A碱基增加其，并且C和U碱基具有中间效应。这些效应的评级次序匹配大折叠RNA结构集中的每种核苷酸的碱基配对的概率(D.P.Aalberts，准备中的手稿)，表明所观察到的趋势反映了此区中的mRNA碱基为非配对以用于高效核糖体对接的需求。

实例19：对影响蛋白质表达水平的mRNA特征的多参数二元逻辑回归分析

使用逻辑回归检验大规模数据集中不同mRNA序列参数对蛋白质表达水平的相对影响，其利用广义线性模型来定量连续变量对二元或序数结果的影响。假定两个互斥结果(例如在数据集中，5相较于0得分)的对数优势比随连续变量的某一函数的值(例如，密码子频率)线性增加，来对结果建模。图9E,H说明了二元逻辑回归的最简单形式，其中对数优势比假定为连续变量的线性函数。实线展示了具有5相较于0表达得分的蛋白质的频率与对数优势比之间的线性关系的最可能斜率。此线性模型准确地描述了GAA密码子的有益影响(图9E中的绿色)，而其在描述AUA密码子的有害影响方面不太准确(图9E中的红色)。逻辑回归可以使用连续变量的不同数学函数对此种更复杂特性建模来进行。尽管如此，线性逻辑回归分析(如这些)的“密码子斜率”提供了适用的度量值以定量个别密码子对蛋白质表达的影响。

使用二元(5相较于0得分)或序数(5-0得分)线性逻辑回归对所有61个非终止密码子进行此类单一变量分析。数据集中基因中的密码子频率的相对均匀方差使得所有密码子的回归参数能够以类似精确度确定。以此方式测定的密码子斜率显示，结束于A或U的密码子在提供最高蛋白质表达水平的基因中系统地增浓，而结束于G或C的同义密码子系统地耗尽。这些结果向工程化合成基因提供了指南(下文展现为成功的策略)，所述合成基因通过模拟最佳表达基因的特性来增强蛋白质表达。然而，此计算方法不提供关于每个密码子的影响的可靠信息，因为在数据集中结束于A或U的大多数密码子的频率在基因中与彼此相关，至少部分由于源生物体的基因组中的AT相较于GC频率的变化。在提供不同蛋白质表达水平的基因之间系统地变化的许多参数，包括<ΔG_T>₉₆。不直接影响结果的参数在其值与有直接影响的参数的值相关时在单一参数回归中呈现为有影响。因此，为了剖析参数的机制性贡献，进行多参数逻辑回归建模。此方法同时分析所有参数的影响，但可以定量相关参数之间的差异的可靠性取决于数据集中基因中的参数独立地变化的程度。

最终多参数二元逻辑回归模型在消除影响由其它相关变量捕获的解释变量之后组合独立探索的解释变量。观察最高表达水平相较于无表达的优势的对数通过以下方程式给出：

在此方程式中，ΔG_UH是基因的头端加5'-UTR的预测折叠自由能(以kcal/mol为单位)，I是二元指示变量(其在ΔG_UH<-39kcal并且核苷酸2-6的GC含量大于62％时是1(并且否则的话是零))，a_H和g_H分别是密码子2-6中的腺嘌呤和鸟嘌呤的频率，u_3H是密码子2-6中的第3位置处尿苷的频率，s_7-16和s_17-32分别是密码子7-16和17-32的平均斜率，‘_c和f_c分别是基因中的每个非终止密码子的斜率和频率，d_AUA是在存在任何AUA-AUA双密码子时假定值1的二元变量，r是密码子重复率，并且L是序列长度。

计算当省略项时预测能力的损失提供了对模型中的和基因中的不同区的其相对影响的最佳估算(图29A,B)。头端的影响由折叠能与碱基组成项与s_7-16一起的组合捕获，所述折叠能和碱基组成项很可能反映用于核糖体对接的翻译起始位点的可行性(Duval M,Korepanov A,Fuchsbauer O,Fechter P,Haller A,Fabbretti A,Choulier L,Micura R,Klaholz BP,Romby P,Springer M,Marzi S.PLoS biology2013；11(12):e1001731)。尾端的影响由s_17-32项与整体项一起捕获，因为尾端主导着这些参数(总体密码子影响、d_AUA、r和L)。计算建模指示，有影响的mRNA折叠能效应限于头端，并且这些效应显著，但总体影响比密码子相关效应更弱(图29B)。密码子相关效应在编码序列的5'端附近是约2.3倍更强，并且在密码子约32之后下降到恒定水平(未展示)，其大致匹配填充核糖体出口通道的残基的数目(Lu J,Deutsch C.Journal of molecular biolog.2008；384(1):73-86)⁸¹。然而，因为数据集中的基因具有远远长于头端的尾端，所以平均尾端中的密码子含量的影响力大于头端中约7倍。对照计算显示，同框密码子模型优于非同框密码子模型。其还显示，当包括密码子斜率和密码子重复率r时，尾端中的平均预测mRNA折叠自由能(即，<G_T>₉₆)对模型有不显著贡献，表明<G_T>₉₆对表达的明显影响(图9H)很可能可归于其与这些影响力更大的参数的相关性。

实例20：新密码子影响度量值

多参数逻辑回归模型(图11B)的密码子斜率提供了一种新密码子影响度量值，其定量大肠杆菌中每个密码子对翻译效率的平均效应。虽然此度量值的一些特征匹配先前文献中的结论，但总体趋势不匹配。由不寻常非同源tRNA解码的ile的AUA密码子(ForouharF,Arragain S,Atta M,Gambarelli S,Mouesca JM,Hussain M,Xiao R,Kieffer-JaquinodS,Seetharaman J,Acton TB,Montelione GT,Mulliez E,Hunt JF,Fontecave M.Naturechemical biology 2013；9(5):333-8；Spencer PS,Siller E,Anderson JF,BarralJM.Silent substitutions predictably alter translation elongation rates andprotein folding efficiencies.Journal of molecular biology.2012；422(3):328-35)迄今为止具有最强的表达减弱效应，并且相邻AUA密码子对具有比两个非相邻AUA密码子显著更强的减弱效应。ile的其它两个密码子具有大致中立的影响，表明AUA的表达减弱效应可归于密码子一致性而非氨基酸结构。类似地，arg的CGG和CGA密码子具有强表达减弱效应，而四个同义密码子具有方向上不同的较弱效应。在先前文献中强调为对表达有害的八个稀有密码子之中(Strader MB,Costantino N,Elkins CA,Chen CY,Patel I,MakuskyAJ,Choy JS,Court DL,Markey SP,Kowalak JA.Molecular&cellular proteomics:MCP.2011；10(3):M110.005199；Forouhar F,Arragain S,Atta M,Gambarelli S,MouescaJM,Hussain M,Xiao R,Kieffer-Jaquinod S,Seetharaman J,Acton TB,Montelione GT,Mulliez E,Hunt JF,Fontecave M.Nature chemical biology 2013；9(5):333-8；KrugerMK,Pedersen S,Hagervall TG,Sorensen MA.J Mol Biol.1998；284(3):621-31；Zhang F,Saha S,Shabalina SA,Kashina A.Science2010；329(5998):1534-7；Dana A,TullerT.Nucleic Acids Res.2014；42(14):9171-81；Sharp PM,Li WH.Nucleic AcidsRes.1987；15(3):1281-95)，在数据集中仅四个密码子减弱表达(以上列举的AUA/CGG/CGA密码子和leu的CUA密码子)，而其它四个密码子是中立的(arg的AGA密码子和甘氨酸的GGA密码子)或微弱地增强表达(arg的AGG密码子和pro的CCC密码子)。AGA的明显影响和可能AGG的明显影响可以通过与AGA同源的argU tRNA的实验中的过度表达而偏倚。忽略在大肠杆菌中具有最低频率的这两个密码子，下三个最不常见的密码子减弱表达(图11C)。然而，其影响的量值存在广泛变化，并且具有稍高频率的密码子是中立的或微弱地增强表达。此外，剩余56个非终止密码子的频率与其对表达的影响之间不存在显著相关性(图11C)。类似地，所有61个非终止密码子的影响与密码子适应指数(Sharp PM,Li WH.Nucleic AcidsRes.1987；15(3):1281-95)、密码子敏感性(Elf J,Nilsson D,Tenson T,EhrenbergM.Science2003；300(5626):1718-22)、tRNA适应指数(Tuller T,Carmi A,Vestsigian K,Navon S,Dorfan Y,Zaborske J,Pan T,Dahan O,Furman I,Pilpel Y.Cell 2010；141(2):344-54)或同源tRNA浓度估算值(Dong H,Nilsson L,Kurland CG.Journal of molecularbiology 1996；260(5):649-63)任一者之间不存在显著相关性。

图11B中的最强表达增强密码子对应于三种具有可以充当通用碱基催化剂的侧链的氨基酸(glu、asp和his)。对于这三种氨基酸，结束于A或U的密码子具有比结束于G或C的同义密码子更强的表达增强效应，表明密码子结构很可能调节其翻译效率。然而，绘制多参数逻辑回归模型中的密码子斜率相对于氨基酸疏水性展现了强相关性(图11D)，带电氨基酸具有比极性或疏水性氨基酸系统地更高的斜率。因此，分析表明，翻译效率随氨基酸结构系统地变化。新密码子影响度量值与疏水性的相关性如此强，使得大肠杆菌中的整体膜蛋白可以基于其基因序列中的其平均值在约80％准确性下鉴别(图37)。此观察结果显示，核糖体的解码特性的进化可能受膜蛋白的生物合成所涉及的与可溶蛋白质相比更大的挑战影响。相比之下，分析密码子斜率作为每个密码子位置处核苷酸碱基的一致性的函数表明，同义密码子的翻译效率的差异(图11B)不大可能与碱基含量具有系统性关系。

实例21：设计和测试高效翻译的基因

通过评估编码22种无关蛋白质的合成基因的表达特性来测试以上呈现的分析的有效性和预测值(图13)。使用两种不同方法设计序列，所述方法模拟在大规模数据集中提供最高蛋白质表达水平的基因的密码子使用和mRNA折叠特性。在“六氨基酸”(6AA)方法中，arg、asp、glu、gln、his和ile的所有密码子经在图11B中具有最高斜率的同义密码子取代。所得mRNA的结束于A或U碱基(所述碱基具有比G或C碱基更低的平均折叠能)的密码子增浓，并且其趋于具有匹配在数据集中提供最高蛋白质表达的基因的特性的mRNA折叠特性和其它特性，提供参数交叉相关性的影响的一具体实例。在“31密码子折叠优化”(31C-FO)方法中，仅使用在图11B中的单一变量逻辑回归中对于每种氨基酸具有最高斜率的31个密码子显式地优化计算的mRNA折叠自由能。最大化头端中的折叠能(ΔG_UH)(即，最小化折叠稳定性)，而将尾端中的折叠能(<ΔG_T>₄₈)调节为接近-10kcal/mol。在一些实验中，工程化的是头端而非尾端，反之亦然，以评估来自关于其相对贡献的多参数计算建模的推断的可靠性。简单来说，这些实验证实，头端中的折叠效应、头端中的密码子使用和尾端中的密码子使用都对蛋白质表达具有显著影响，证实了计算推断的有效性(图29、11B-D)。

实例22：对经优化合成基因的生物化学分析展示了密码子效率与mRNA水平之间的强联系

对于来自大规模数据集的五个天然相较于优化细菌基因，在于大肠杆菌中体内诱导之后，比较细胞生长速率(图13A)、蛋白质表达水平(图13B)和mRNA水平(图13D)。还比较体外转录和翻译(图13C)反应的产物。对于一种标靶，在诱导蛋白质表达后细胞生长的抑制通过优化基因序列而消除，尽管其极大地增加了蛋白质表达(图13A-B)，表明阻碍翻译的mRNA特征可以在大肠杆菌中导致生理毒性。尽管天然或使用经纯化T7RNA优化的基因的体外转录产生等效量的mRNA，但使用经纯化核糖体和翻译因子所得的mRNA的体外翻译对于所有经优化序列都产生实质上更高水平的蛋白质合成(图13C)。值得注意的是，翻译暂停的位点在一些经优化mRNA中相较于天然mRNA不同。当所有这些实验对其它四种蛋白质的天然相较于优化变异体进行时，观察到基本上等效的结果(

G,Letso R,Neely H,Price WN,Su M,Luff J,Valecha M,Everett JK,Acton T,Xiao R,Montelione GT,Aalberts DP,Hunt JF.Nature提交(审查中))。这些观察结果显示，大肠杆菌中的翻译效率通过来源于对大规模表达数据集进行的计算分析的密码子优化方法改进(图29、11B-D)。

与经优化基因相比在诱导低效翻译的天然基因之后观察到一致地更低的体内mRNA水平(图13D)，表明mRNA序列相依性翻译障碍可以强烈影响稳态mRNA水平。值得注意的是，在诱导之后5min，对于所有经优化基因都检测到全长mRNA，但天然基因无一者检测到全长mRNA。此观察结果表明低效翻译的天然mRNA快速降解，因为T7聚合酶在体外以等效效率转录其。为了评估此推断的生理相关性，将多参数逻辑回归模型的结果用以计算s_全部，大肠杆菌中的每个内源基因的平均密码子斜率(图11B)。来源于大规模表达数据集的此参数与使用质谱分析定量的大肠杆菌中的体内蛋白质水平强烈相关(图30B)，证实了新密码子影响度量值的有效性。引人注目地，s_全部与所有预测细胞质蛋白质的体内mRNA水平几乎同样强烈地相关(图30A-B)，表明密码子含量显著影响稳态mRNA浓度。对于质谱分布中检测的通常丰度更高的蛋白质，s_全部与其mRNA水平和蛋白质/mRNA比两者相关，其可以反映翻译效率。这些整体相关性证实，密码子含量不仅对mRNA翻译效率而且对mRNA稳定性施加重要影响。

实例23：对单一mRNA微阵列数据集的多参数逻辑回归分析产生了与大规模蛋白质表达数据集类似的密码子影响度量值

基于大肠杆菌中的新密码子影响度量值与整体mRNA浓度之间观察到的强相关性(图30)，研究类似多参数回归方法以确定其是否可以应用于从对mRNA微阵列数据的计算分析直接推断密码子影响(即，不包括与蛋白质表达水平相关的任何数据)。将优化所述方法，但从关于mRNA微阵列值的多参数逻辑回归分析测定的密码子斜率与从大规模表达数据集推断的密码子斜率强烈相关(图38)。此分析使用与上文所述类似的计算模型，其应用于预测可编码细胞质蛋白质的2,817个基因中的最强和弱地表达的30％。所分析的微阵列数据集来自大肠杆菌MG1655而非用以产生大规模数据集的过度表达argU tRNA的BL21(DE3)菌株，并且生长条件也存在实质性差异。因此，从这两个分析推断的密码子影响之间的差异可以是实际的。虽然将评估此分析的细节，但显而易见的是，其对于密码子效应产生某种可靠信息。大规模数据集中对于蛋白质表达最有益(GAA)和有害(AUA)的密码子在微阵列分析中给出极类似斜率(图38)。值得注意的是，在从蛋白质表达相较于微阵列数据集推断的其斜率之间展示最强差异的四个密码子中的三者编码精氨酸(如通过图38中的白色区域突显)。值得注意的是，AGA和AGG密码子(其与argU tRNA同源)的影响在微阵列数据集中是强负面的但在蛋白质表达数据集中是适度正面的，如显示“密码子补充”改进其翻译效率的先前文献所预期。有趣的是，在相对方向上展示出最强变化的密码子是精氨酸的CGU密码子，表明其同源tRNA的带电动力学或影响其翻译效率的一些其它因素受来自argU tRNA的竞争扰动。虽然将对分析方法和结果分析，但图38中的数据显示，对mRNA浓度水平的多参数回归分析提供了关于密码子效应的重大信息。此新的并且便捷的表征密码子对蛋白质表达的影响的方法值得进一步探索。

实例24：基因组规模相关性

上文所述的基因组规模相关性指示，密码子含量是翻译效率和大肠杆菌中的mRNA稳定性两者的重要决定因素，并且这些参数紧密偶合，如一些先前文献中所提出(Dana A,Tuller T.Nucleic Acids Res.2014；42(14):9171-81；Dittmar KA,Sorensen MA,Elf J,Ehrenberg M,Pan T EMBO reports.2005；6(2):151-7；Drummond DA,Wilke CO.Cell2008；134(2):341-52；Rocha EP.Genome research 2004；14(11):2279-86；Vladimir PresnyakY-HC,Sophie Martin,Najwa Al Husaini,David Weinberg,Sara Olson,KristianE.Baker,Brenton Graveley,Jeff Coller.CSHL Translational Control；CSHL2014)。若干分子机制可以解释密码子含量与稳态mRNA浓度的所观察偶合。其有可能由蛋白质延长与mRNA降解之间的通过核糖体延长动力学调节的动力学竞争介导(即，氨基-酰基-tRNA选择、肽键合成和tRNA/mRNA易位中所涉及的连续结合和构象过程)。实验中所用的细菌噬菌体T7RNA聚合酶太快地合成mRNA使得翻译核糖体跟不上，使所得转录物对转录-翻译偶合不敏感但对核酸内切酶裂解更敏感(Iost I,Dreyfus M.The EMBO journal1995；14(13):3252-61；Cardinale CJ,Washburn RS,Tadigotla VR,Brown LM,Gottesman ME,NudlerE.Science 2008；320(5878):935-8)。因此，通过T7聚合酶产生的低效翻译的mRNA经片段化并且具有更低体内浓度(图13D)的观察结果很可能反映增强的降解。此推理以及在大规模数据集中表达减弱密码子完全消除蛋白质表达的趋势(图9A,F)表明，mRNA降解部分受核糖体延长动力学控制(Zaher HS,Green R.Cell2011；147(2):396-408；Deana A,Ehrlich R,Reiss C.Journal of bacteriology 1996；178(9):2718-20；dos Reis M.Nucleic AcidsResearch2003；31(23):6976-85；Li X,Yokota T,Ito K,Nakamura Y,Aiba H Molecularmicrobiology 2007；63(1):116-26；Nogueira T,de Smit M,Graffe M,SpringerM.Journal of molecular biology 2001；310(4):709-22；Li X,Hirano R,Tagami H,AibaH Rna 2006；12(2):248-55；Leroy A,Vanzo NF,Sousa S,Dreyfus M,CarpousisAJ.Molecular Microbiology.2002；45(5):1231-43)。若干生物化学系统介导由于蛋白质合成/折叠问题而停止的核糖体的再循环(Richards J,Sundermeier T,Svetlanov A,Karzai AW.Biochimica et biophysica acta.2008；1779(9):574-82；Li X,Hirano R,Tagami H,Aiba H.Rna.2006；12(2):248-55)或mRNA截短(Drummond DA,Wilke CO.Cell2008；134(2):341-52；Deana A,Ehrlich R,Reiss C.Journal of bacteriology 1996；178(9):2718-20)。在真核生物中，此“不通过”衰减途径涉及Dom34、Hbs1(Shoemaker CJ,GreenR.Nat Struct Mol Biol.2012；19(6):594-601；Shoemaker CJ,Eyler DE,GreenR.Science 2010；330(6002):369-72)和ABCE1(Becker T,Franckenberg S,Wickles S,Shoemaker CJ,Anger AM,Armache JP,Sieber H,Ungewickell C,Berninghausen O,Daberkow I等人Nature 2012；482(7386):501-6)蛋白质，而在大肠杆菌中，类似活性由包括tmRNA途径(Vivanco-Dominguez S,Bueno-Martinez J,Leon-Avila G,Iwakura N,KajiA,Kaji H,Guarneros G.Journal of molecular biology2012；417(5):425-39；RichardsJ,Sundermeier T,Svetlanov A,Karzai AW.Biochimica et biophysica acta.2008；1779(9):574-82；Ivanova N,Pavlov MY,Ehrenberg M.Journal of molecular biology 2005；350(5):897-905；Christensen SK,Gerdes K.Molecular Microbiology2003；48(5):1389-400)、ArfA、YaeJ(Chadani Y,Ono K,Kutsukake K,Abo T.Molecular microbiology 2011；80(3):772-85)和RF3(Vivanco-Dominguez S,Bueno-Martinez J,Leon-Avila G,IwakuraN,Kaji A,Kaji H,Guarneros G.Journal of molecular biology2012；417(5):425-39；Zaher HS,Green R.Cell 2011；147(2):396-408)的无关系统介导。这些原核mRNA品质对照系统(Shoemaker CJ,Green R.Nat Struct Mol Biol.2012；19(6):594-601)是参与mRNA衰减过程的候选物，所述过程经假设可在核糖体延长动力学中与密码子相依性变化偶合。

与先前推断相比，密码子影响度量值(图11B)具有显著差异。据显示，氨基酸一致性影响翻译效率(图11D与37)，但尽管有长期存在的假定(Li G-W,Oh E,WeissmanJS.Nature2012；484(7395):538-41；Li GW,Burkhardt D,Gross C,WeissmanJS.Cell2014；157(3):624-35)，但基因组密码子使用频率不直接相关。大肠杆菌中的频率第3、第4和第5低的密码子在大规模数据集中对表达具有最有害的影响(图11B)。然而，这些密码子在广泛变化的程度上减弱表达，并且稍更常见的密码子具有中立或表达增强影响(图11B)。此外，其它58个非终止密码子的频率不与表达水平显著相关(图11B)。密码子使用频率已经假定为影响体内翻译，因为其与同源tRNA的浓度相关(Ikemura T.Journal ofmolecular biology 1981；151(3):389-409；Dong H,Nilsson L,Kurland CG.Journal ofmolecular biology1996；260(5):649-63；Caskey CT,Beaudet A,Nirenberg M.Journalof molecular biology 1968；37(1):99-118；Muramatsu T,Nishikawa K,Nemoto F,Kuchino Y,Nishimura S,Miyazawa T,Yokoyama S.Nature1988；336(6195):179-81)，其可以明显影响体外蛋白质延长率(Forouhar F,Arragain S,Atta M,Gambarelli S,MouescaJM,Hussain M,Xiao R,Kieffer-Jaquinod S,Seetharaman J,Acton TB,Montelione GT,Mulliez E,Hunt JF,Fontecave M.Nature chemical biology.2013；9(5):333-8；SpencerPS,Siller E,Anderson JF,Barral JM.Journal of molecular biology2012；422(3):328-35)和体内蛋白质产率(Chen GT,Inouye M.Genes&development 1994；8(21):2641-52；Vivanco-Dominguez S,Bueno-Martinez J,Leon-Avila G,Iwakura N,Kaji A,Kaji H,Guarneros G.Journal of molecular biology 2012；417(5):425-39；Deana A,EhrlichR,Reiss C.Journal of bacteriology 1996；178(9):2718-20；Li X,Hirano R,Tagami H,Aiba H.Rna 2006；12(2):248-55)。实际上，实验中的ArgU tRNA过度表达以促进AGA/AGG密码子增浓的蛋白质的更高表达(Chen GT,Inouye M.Genes&development 1994；8(21):2641-52)，其可以使数据集中的这些密码子的影响偏倚(图11B)。将需要进一步研究来理解确定tRNA浓度何时影响核糖体延长动力学的因素。尽管如此，分析表明，核糖体延长动力学对蛋白质表达施加比同源tRNA浓度更强的影响。此推断与翻译因子EFP有助于富脯氨酸序列的延长的证实一致(Ude S,Lassak J,Starosta AL,Kraxenberger T,Wilson DN,JungK.Science2013；339(6115):82-5)。此外，这表明翻译调节效应可以经由修饰核糖体延长动力学来操作，所述动力学例如由tRNA或核糖体的共价修饰介导(Muramatsu T,NishikawaK,Nemoto F,Kuchino Y,Nishimura S,Miyazawa T,Yokoyama S.Nature 1988；336(6195):179-81)。使相关机制性研究变复杂(Deana A,Ehrlich R,Reiss C.Journal ofbacteriology1996；178(9):2718-20；Iost I,Dreyfus M.The EMBO journal1995；14(13):3252-61；dos Reis M.Nucleic Acids Research2003；31(23):6976-85；Nogueira T,deSmit M,Graffe M,Springer M.Journal of molecular biology 2001；310(4):709-22)，结果还表明此类调节效应可以经由mRNA水平的变化而显现。以下实例经设计以(i)更广泛地验证图11B中的新密码子影响度量值的细节，(ii)阐明这些效应和所观察到的其它效应的基础分子机制，和(iii)对同义密码子使用变化的生物影响产生更深刻理解。

实例25：评估替代性荧光蛋白方法对于表征大肠杆菌中的体内同义基因序列的相对表达效率的功效

将开发快速定量同义密码子变化对体内蛋白质表达的影响的荧光蛋白方法。将使用荧光方法，其包括使用遗传编码的荧光蛋白。将使用的基因组学工具包括含有黄色荧光蛋白(YFP)(Kitagawa M,Ara T,Arifuzzaman M,Ioka-Nakamichi T,Inamoto E,ToyonagaH,Mori H.DNA research:an international journal for rapid publication ofreports on genes and genomes.2005；12(5):291-9；Rajagopala SV,Yamamoto N,Zweifel AE,Nakamichi T,Huang HK,Mendez-Rios JD,Franca-Koh J,Boorgula MP,Fujita K,Suzuki K,Hu JC,Wanner BL,Mori H,Uetz P.BMC Genomics.2010；11:470；Nakahigashi K,Toya Y,Ishii N,Soga T,Hasegawa M,Watanabe H,Takai Y,Honma M,Mori H,Tomita M.Molecular systems biology 2009；5:306)与大肠杆菌中的几乎每个蛋白质编码基因的同框翻译融合物的质体集合。此集合的衍生物已经用以定量在大肠杆菌细胞中对数期生长期间特定蛋白质表达的约1.5倍变化，其中EttA翻译因子被遗传阻断(Datsenko KA,Wanner BL.Proceedings of the National Academy of Sciences of theUnited States of America.2000；97(12):6640-5；Baba T,Ara T,Hasegawa M,Takai Y,Okumura Y,Baba M,Datsenko KA,Tomita M,Wanner BL,Mori H.Molecular systemsbiology.2006；2:2006 0008.doi:10.1038/msb4100050；Otsuka Y,Muto A,Takeuchi R,Okada C,Ishikawa M,Nakamura K,Yamamoto N,Dose H,Nakahigashi K,Tanishima S等人Nucleic Acids Res.2015；43(数据库期号):D606-17.Epub 2014/11/17.doi:10.1093/nar/gku1164)(图39)。此实验利用在针对所述蛋白质的内源大肠杆菌启动子的控制下表达的与AceB(Nakahigashi K,Toya Y,Ishii N,Soga T,Hasegawa M,Watanabe H,Takai Y,Honma M,Mori H,Tomita M Molecular systems biology.2009；5:306)蛋白的染色体地编码的同框翻译融合物。图39中的数据显示，体内荧光融合蛋白表达使用微量板读取器所得的实时测量值提供了对生理水平下蛋白质表达的极敏感的准确定量。此技术将用于对同义密码子使用变化对大肠杆菌中的蛋白质表达的效应进行稳定定量。

将系统地评估使用荧光蛋白定量体内同义密码子效应的替代性技术方法的功效。这些研究将对使用候选荧光蛋白方法中的每一者获得的结果与在本文关于同义基因的蛋白质表达所描述的结果中获得的结果进行比较。将使经由考马斯蓝染色或SDS-PAGE凝胶或定量免疫印迹法定量的蛋白质水平与体内荧光发射强度信号相比较，并且将使用RNA印迹或实时PCR(RT-PCR)检验相应mRNA水平。将使这些荧光蛋白系统的结果与在本文所描述的结果中由相同同义基因对获得的哪些相比较。待检验的关键变量包括以下：

(1)针对其在定量体内蛋白质表达差异中的稳定性和准确性，比较单相较于双荧光报告基因方法：图39中展示的数据显示，小心控制的实验中单荧光报告蛋白的发射的观察结果可以可靠地定量约1.5倍的表达差异。这些数据表明，单荧光报告基因可以足以表征许多重要密码子效应。然而，在一些实验中可以使用双荧光蛋白报告基因系统实现增加的稳定性，使得能够同时测量两种具有不同光谱特征的蛋白质的发射。将基于对信噪特征建模，来评估此种系统的比率荧光测量值以确定其是否提供优于一种报告基因的单通道测量值的性能。还将比较使用GFP(Heim R,Cubitt AB,Tsien RY.Nature.1995；373(6516):663-4)、Superfolder GFP(Pedelacq JD,Cabantous S,Tran T,Terwilliger TC,Waldo GS.NatBiotechnol.2006；24(1):79-88)和Superfast GFP(Fisher AC,DeLisa MP.PLoSOne.2008；3(6):e2351)的不同彩色变异体构筑的比率系统的性能(Chudakov DM,LukyanovS,Lukyanov KA.Trends in biotechnology.2005；23(12):605-13)(即，具有蓝色相较于青色相较于绿色相较于黄色发射)。

(2)比较两种构筑荧光报告基因的方法(图40)：一种方法将涉及在测试蛋白与荧光报告蛋白之间产生共价融合的同框翻译融合物，而另一种方法将涉及其中两种蛋白质从相同多顺反子消息独立地翻译的转录或“操纵子”融合物。在后一种方法中，测试蛋白将具有终止密码子，终止密码子后面将是短连接子(约5-25个核苷酸)，短连接子后面将是荧光蛋白的编码序列开始处的AUG起始密码子。将比较在连接子区中具有(如图40中底部所展示)或不具有核糖体结合位点(夏因达尔加诺序列)情况下此类操纵子融合物的结果。将在于荧光蛋白中无N末端甲硫氨酸的情况下工程化共价融合蛋白构筑体以避免内部翻译再起始。

(3)比较用从T7RNA聚合酶(如关于本文所描述的结果所使用)或从大肠杆菌RNA聚合酶转录的相同同义基因和报告基因获得的结果(其用于

G,Letso R,Neely H,PriceWN,Su M,Luff J,Valecha M,Everett JK,Acton T,Xiao R,Montelione GT,Aalberts DP,Hunt JF.Nature提交(审查中)中关于大肠杆菌中的整体膜蛋白过度表达的生理学的研究)。在后一种情况下，将在IPTG控制下由lac衍生启动子获得的结果控制到在阿拉伯糖控制下用变异诱导型ara衍生启动子获得的结果。

(4)比较当报告基因表达于高拷贝数pBR322衍生质体、低拷贝数pACYC184衍生质体上或使用CRIM质体方法或λ红色重组方法插入于染色体上的单一拷贝中时获得的结果(Datsenko KA,Wanner BL.Proceedings of the National Academy of Sciences of theUnited States of America.2000；97(12):6640-5)。

(5)比较当等效同义密码子变化直接引入到GFP变异体而非上游融合伴侣中时获得的结果。这些研究将与上文所述的翻译和转录融合系统评估平行进行，因为此方法可以实现所述方法的技术捷径简化实施。密码子效应具有一定程度的情境相依性，因此此较简单的方法可能无法起作用。为了评估其是否起作用，将使用相同的一组生物化学和分子生物学分析方法，进行与上文所述等效的基因优化研究。

系统性研究将确定定量同义密码子变化对大肠杆菌中的蛋白质表达水平的影响的最稳定并且高效的光学方法。

实例26：使用现有生物化学方法和经开发用以测试新大肠杆菌密码子影响度量值的细节的方法

已经实验地验证了新密码子影响度量值的广泛特征，但将在后续研究中探索细节。对于许多同义密码子对，来源于多元逻辑回归分析的其影响得分之间的差异并不大到足以在独立地考虑时是统计显著的。然而，基于度量值对平均密码子影响得分的许多分析的高预测值表明，这些差异中许多很可能是实际并且机制性显著的。工具和分析将用以分析新密码子度量值和相关机制性现象的细节。待进行的实验的实例包括以下：

(1)合成同义基因组，其中一种特定氨基酸在每次出现时都由相同密码子、由两个摆动相关密码子的随机混合物、由两个非摆动相关密码子的随机混合物或由所有密码子的随机混合物编码。将使定量每个同义密码子的相对翻译效率的所得数据与密码子影响度量值的值相比较，并且此实验设计还将批评性地评估先前文献中的如下断言：密码子使用的均质性或非均质性可以对蛋白质表达水平具有显著影响。在亮氨酸的情况下，作为一个特定实例，度量值指示，CUG和CUC密码子是最高效的并且大致等效于彼此，CUU和UUG和UUA是中间的并且大致等效于彼此，并且CUA是最低效的。在此情况下，将合成至少两种不同蛋白质的八种变异体。六种变异体将各自使用恰好一种密码子，一种变异体将使用CUG和CUC密码子的随机混合物，并且一种变异体将使用CUU和UUG和UUA密码子的随机混合物。这些研究中所用的蛋白质最初将从包括于本文所描述的结果中的组获取，但如果校准研究显示其展现等效特性，那么相同实验设计可以直接应用于GFP变异体。

(2)在观察到两个同义密码子对表达的影响的显著差异的情况下，可以测试同源tRNA的过度表达以确定其是否显著调节所观察到的差异。这些研究将利用pMGK质体的变异体，其中argU基因(Saxena P,Walker JR.Journal of bacteriology.1992；174(6):1956-64)经编码相关tRNA的基因的一个或多个拷贝置换。类似实验将探索所选tRNA合成酶的过度表达是否(Krishnakumar R,Ling J.FEBS letters.2014；588(3):383-8)影响观察到的效应。这些研究将更深入地探索tRNA库水平对蛋白质表达效率的影响。还将探索补充具有相应氨基酸的培养基的可能效应。

将比较体内和体外通过同义基因产生的蛋白质表达水平以及经由RNA印迹或RT-PCR分析的相应体内mRNA的稳态水平。以此方式，将评估密码子对体外翻译的影响以确定其是否始终平行于其对mRNA水平的影响或一些密码子是否区别地影响这两种特性。

实例27：生成/分析来自敲除假设可调节同义密码子使用的基因(包括共价修饰翻译机构的基因)的大肠杆菌菌株RNAseq数据，以评估其在所选生长条件下对相对密码子效率的影响。

将评估以上结果中以及实例26进行的研究中鉴别的一组候选基因/蛋白质(图12)对所选同义密码子效应的影响。这些研究最初将集中于已知参与mRNA降解、翻译品质控制和翻译机构共价修饰的蛋白质。结果指示，至少一些mRNA序列相依性翻译障碍与大肠杆菌中的mRNA降解紧密偶合。已知大肠杆菌中的若干生物化学系统有助于归因于蛋白质合成/折叠问题而停止的核糖体的再循环(Richards J,Sundermeier T,Svetlanov A,KarzaiAW.Biochimica et biophysica acta.2008；1779(9):574-82；dos Reis M.Nucleic AcidsResearch.2003；31(23):6976-85；Li X,Hirano R,Tagami H,Aiba H.Rna.2006；12(2):248-55；Leroy A,Vanzo NF,Sousa S,Dreyfus M,Carpousis AJ.MolecularMicrobiology.2002；45(5):1231-43)，包括tmRNA途径(Vivanco-Dominguez S,Bueno-Martinez J,Leon-Avila G,Iwakura N,Kaji A,Kaji H,Guarneros G.Journal ofmolecular biology.2012；417(5):425-39；Richards J,Sundermeier T,Svetlanov A,Karzai AW.Biochimica et biophysica acta.2008；1779(9):574-82；Ivanova N,PavlovMY,Ehrenberg M.Journal of molecular biology.2005；350(5):897-905；ChristensenSK,Gerdes K.Molecular Microbiology.2003；48(5):1389-400)和ArfA、YaeJ(Chadani Y,Ono K,Ozawa S,Takahashi Y,Takai K,Nanamiya H,Tozawa Y,Kutsukake K,AboT.Molecular microbiology.2010；78(4):796-808)和RF3(Vivanco-Dominguez S,Bueno-Martinez J,Leon-Avila G,Iwakura N,Kaji A,Kaji H,Guarneros G.Journal ofmolecular biology.2012；417(5):425-39；Zaher HS,Green R.Nature.2009；457(7226):161-6)蛋白。这些系统可以潜在地帮助使密码子相依性翻译障碍和核糖体上的变构信号与mRNA降解相关。最终，翻译机构的共价修饰、尤其tRNA的非必需修饰(Arragain S,Handelman SK,Forouhar F,Wei FY,Tomizawa K,Hunt JF,Douki T,Fontecave M,MulliezE,Atta M.J Biol Chem.2010；285(37):28425-33；Phizicky EM,Hopper AK.Genes&development.2010；24(17):1832-60.；Sergeeva OV,Bogdanov AA,SergievPV.Biochimie.2014.Epub 2014/12/17.doi:10.1016/j.biochi.2014.11.019)可以有助于同义密码子的差异影响。将对构筑有个别候选基因的基因敲除的一组菌株进行多个分析(Baba T,Ara T,Hasegawa M,Takai Y,Okumura Y,Baba M,Datsenko KA,Tomita M,WannerBL,Mori H.Molecular systems biology.2006；2:2006 0008；Mori H,Baba T,YokoyamaK,Takeuchi R,Nomura W,Makishi K,Otsuka Y,Dose H,Wanner BL Methods inmolecular biology.2015；1279:45-65；Otsuka Y,Muto A,Takeuchi R,Okada C,IshikawaM,Nakamura K,Yamamoto N,Dose H,Nakahigashi K,Tanishima S等人Nucleic AcidsRes.2015；43(数据库期号):D606-17.Epub 2014/11/17.doi:10.1093/nar/gku1164)。这些分析将集中于表征和定量基因敲除对在上文所述研究中展示强烈表达水平差异的同义基因对的效应。分析将利用上文所述生物化学方法以及实例25下开发的荧光方法。

平行地，将使用RNAseq转录组学分布来探测这些大肠杆菌基因敲除菌株中同义密码子对mRNA水平的影响的整体变化(Sharma CM,Hoffmann S,Darfeuille F,Reignier J,Findeiss S,Sittka A,Chabas S,Reiche K,Hackermuller J,Reinhardt R,Stadler PF,Vogel J.Nature.2010；464(7286):250-5)。上文所述广义线性多参数逻辑回归建模方法的改善形式(图38)将应用于评估大肠杆菌中特定密码子与整体mRNA水平之间的相关性是否存在变化。将在后续实验中评估个别密码子的影响的统计显著变化，其中将标准生物化学和荧光分析应用于一个那样的密码子含量不同的同义基因对。将收集和分析转录组学数据(Conway T,Creecy JP,Maddox SM,Grissom JE,Conkle TL,Shadid TM,Teramoto J,SanMiguel P,Shimada T,Ishihama A,Mori H,Wanner BL.mBio.2014；5(4):e01442-14)。

实例28：通过定量大肠杆菌中的所有非必需基因对由在同义密码子使用方面具有所定义差异的基因编码的蛋白质的相对表达水平的影响来阐明控制同义密码子效应的生物化学系统

将与实例25下开发的荧光报告蛋白系统结合使用基因组学工具(Baba T,Ara T,Hasegawa M,Takai Y,Okumura Y,Baba M,Datsenko KA,Tomita M,Wanner BL,MoriH.Molecular systems biology.2006；2:20060008.doi:10.1038/msb4100050；Mori H,Baba T,Yokoyama K,Takeuchi R,Nomura W,Makishi K,Otsuka Y,Dose H,Wanner BLMethods in molecular biology.2015；1279:45-65；Otsuka Y,Muto A,Takeuchi R,OkadaC,Ishikawa M,Nakamura K,Yamamoto N,Dose H,Nakahigashi K,Tanishima S等人Nucleic Acids Res.2015；43(数据库期号):D606-17.Epub 2014/11/17.doi:10.1093/nar/gku1164；Takeuchi R,Tamura T,Nakayashiki T,Tanaka Y,Muto A,Wanner BL,MoriH BMC microbiology.2014；14:171)来整体地定量所有非必需大肠杆菌基因对所选同义密码子效应的影响。这些研究将利用分子“条形码化的”单基因的基因敲除集合(Otsuka Y,Muto A,Takeuchi R,Okada C,Ishikawa M,Nakamura K,Yamamoto N,Dose H,NakahigashiK,Tanishima S等人Nucleic Acids Res.2015；43(数据库期号):D606-17.Epub 2014/11/17.doi:10.1093/nar/gku1164；Yong HT,Yamamoto N,Takeuchi R,Hsieh YJ,Conrad TM,Datsenko KA,Nakayashiki T,Wanner BL,Mori H.Genes&genetic systems.2013；88(4):233-40)，其中每种突变菌株具有独特可PCR扩增的核苷酸序列标签。将就特定同义密码子变化作出报告的荧光蛋白构筑体引入到含有此全面基因敲除集合中的每种菌株的混合细胞群体中(Baba T,Ara T,Hasegawa M,Takai Y,Okumura Y,Baba M,Datsenko KA,TomitaM,Wanner BL,Mori H.Molecular systems biology.2006；2:2006 0008.doi:10.1038/msb4100050)。将评估将报告基因构筑体引入到这些混合群体中的若干方法，包括将实例25中描述的高或低拷贝数质体以及携有报告基因的CRIM质体的单拷贝整合(Haldimann A,Wanner BL.Journal of bacteriology.2001；183(21):6384-93)转型到大肠杆菌染色体中。在诱导在同义密码子使用方面具有特定变化的蛋白质的表达之后，将荧光激活细胞分拣器(FACS)用以测量混合群体中的单一大肠杆菌细胞的单通道或双通道荧光发射强度(Francisco JA,Campbell R,Iverson BL,Georgiou G.Proceedings of the NationalAcademy of Sciences.1993；90(22):10444-8；Mazor Y,Van Blarcom T,Mabry R,IversonBL,Georgiou G.Nature biotechnology.2007；25(5):563-5；Yoo TH,Pogson M,IversonBL,Georgiou G.ChemBioChem.2012；13(5):649-53)。将分离在同义密码子变化的影响方面展示最大变化的细胞并且使其生长以用于对其遗传条形码测序，这将鉴别每种菌株中基因敲除的单一基因。条形码化技术如此高效，使得可直接使用此方法来表征在同义密码子对蛋白质表达的影响(如经由FACS分析所定量)方面产生所定义变化的数百种菌株。将使用确定的生物化学和分子生物学分析以及实例25-27中所描述的方法深入地验证和表征以此方式鉴别的菌株。

实例29：大规模蛋白质表达方法和数据集

先前已经描述了用于大规模蛋白质表达实验的方法(Acton,T.B.等人(2005)Methods Enzymol 394,210-243；Xiao,R.等人(2010)J Struct Biol 172,21-33；Acton,T.B.等人(2011)Methods Enzymol 493,21-60)，并且其类似于下文用于体内蛋白质表达描述的方法，但其中在96孔板中在0.5ml培养物中进行诱导。从分析氨基酸序列与蛋白质表达/溶解性水平之间的相关性的先前报道中描述的数据集挑选出本文所分析的数据集(Price,W.N.等人(2011)Microbial Informatics and Experimentation 1,6)。新数据集限于与C末端LEHHHHHH标签一起表达的非冗余蛋白质，所述蛋白质由不含有受源生物体中的替代性翻译表影响的任何密码子的基因编码。通过迭代程序挑选出同源序列，所述迭代程序将任何对之间的氨基酸序列一致性的水平降低到小于60％，导致核酸序列一致性的水平实质上更低。在每个步骤，将共用至少60％一致氨基酸序列一致性的所有蛋白质对过渡地归并为一个组，并且从每个组消除最短序列，随后对所有剩余蛋白质重新起始相同组分配程序。

实例30：计算建模

二元多参数逻辑回归模型给出θ，获得大规模数据集中mRNA序列的最高蛋白质表达水平(p_E5)相较于无(p_E0)的概率比的对数，作为广义变量x_i的线性函数：

θ＝Ln[p_E5/p_E0]＝A+Σ_iβ_ix_i

获得既定序列的最高水平(E＝5)相较于无(E＝0)蛋白质表达的概率因此通过以下方程式给出：

为了捕获mRNA序列参数与结果之间的非线性关系，广义变量x_i可以代表mRNA序列参数的数学函数以及这些参数自身。将R统计程序(Team,R.C.R:A language andenvironment for statistical computing.(2012))用以计算模型参数的最可能值(A,β_i)。逻辑回归斜率β_i>0指示，高表达概率随相关变量数值的增加而增加。因为ΔG数值随着折叠稳定性降低而增加，所以自由能项的正斜率指示高表达概率随预测折叠稳定性降低而增加，而这些项的负斜率指示高表达概率随预测折叠稳定性增加而增加。称为M的最终模型(图34A和图29)在正文中给出，并且此模型的密码子斜率β_c描绘于图11B中。原则上，可以通过使用来自模型M的参数(A,β_i)最大化以上方程式中的θ，继而使π的值最大化来操控mRNA序列特性，以增加高蛋白质表达概率。

通过概率比检验和赤池信息准则(Akaike,H.(1974)Automatic Control,IEEETransactions on 19,716-723)(AIC)指导此模型中参数的入选，赤池信息准则是模型品质的改进是否超过增加自由度数值(d.f.)随机预期改进的标准量度。似然比χ²(LRχ²)渐近于χ²分布，并且定义为从模型的预测观察到数据与仅含有常数项A的零模型(如上文所定义)相比偏差D的减小。偏差定义为：

对大规模蛋白质表达数据集中的6,348个蛋白质之中给出表达得分0或5的n＝3,727个蛋白质求此总和，并且变量E_j在蛋白质j分别以E＝0或E＝5水平表达时假定0或1的值。变量π_j＝π(θ_j)根据以上给出描述多参数二元逻辑模型的方程式给出了获得E＝5而非E＝0水平的蛋白质j表达的预测概率。对于本文所分析的数据集，偏差对零模型和最终模型M分别具有5,154和3,952的值(图34A)。还使用‘rms’套装在R中进行靴带式验证以确保最终模型不是过度拟合。

模型开发(图34)过程中探索的序列参数包括基因长度、在整个基因中同框或非同框的个别密码子频率、在头端和尾端中单独地同框的个别密码子频率、双密码子频率、密码子序列的统计熵、密码子重复率(下文定义)、在整个基因中和在其序列内的所定义窗中每个密码子位置处的核苷酸碱基的频率以及多个预测mRNA折叠能参数(包括图9与16中展示的参数)，其独立地和以统计聚集体形式评估。密码子重复率定义为r＝<d_i ^-1>，其中d_i是朝基因的3'端移动，从任何密码子到下一次出现相同密码子的距离。d_i ^-1的值在密码子不再次出现时设定为零，因此序列AAA.CGT.CCG.CGT.AAA的r的值是(1/4,1/2,0,0,0)的平均值＝3/20。密码子变量的自由度数值比非终止密码子的数值少一，因为其在序列中的频率f_c必须总计是1(即∑f_c＝1)。因此，对于图11和29中展示的分析，去除ATG，实际上迫使其斜率β_ATG＝0和其对模型的贡献被吸收到常数A中

在模型M中包括平均密码子斜率变量s_7-16和s_17-32将个别密码子斜率β_c均匀地减小到其在无平均斜率项包括于模型中时的值的约86％，反映了5'末端附近的密码子与基因其余部分中的密码子相比的不成比例影响(图32)。测试了包括个别密码子加下一碱基或前一碱基频率等变量的更复杂模型，但其基于靴带式验证准则而被排除。还检验了将额外变量引入到模型M中(图34B)。添加密码子2-6的平均斜率不产生统计显著改进，并且在此区中使用此项代替碱基组成项产生较差结果，与图32中展示的分析一致。添加任何框中的夏因-达尔加诺共有AGGA的频率(图16G-H中的f_AGGA)也未能产生统计显著改进。类似地，添加尾端中的预测mRNA折叠自由能的平均值的项不显著改进模型，尽管尾端中的不稳定折叠与降低的蛋白质表达相关(图9G-H)。此相关性以及基因中的总体A、T、G和C含量的相关性(图16A-E)必须通过包括于模型中的交叉相关序列参数(图17-18)来更有效地捕获，表明这些其它参数机制性影响力更大

实例31：设计同义mRNA序列

在6AA方法中，使六种氨基酸的密码子变为图35中规定的单一密码子，其斜率比单一参数二元逻辑回归分析(图11B中的深灰色标志)中的任何同义密码子的斜率更大。尽管6AA方法不进行显式自由能优化，但其产生预测mRNA折叠自由能比天然存在的起始序列更有利的基因。在31C-FO方法中，优化预测mRNA折叠能，同时从图35中列出的31者选择斜率大于单一参数二元逻辑回归分析(图11B中的深灰色标志)中的零的密码子。数值上最大化头端加5'UTR的预测折叠自由能(ΔG_UH)(即，以得到最不稳定的折叠)，同时使尾端中的预测折叠自由能优化为在48个核苷酸的窗中接近-10kcal/mol。31C-FD使用相同密码子组以产生其中数值上最小化预测折叠自由能(即，以得到最稳定的折叠)的基因。

实例32：细菌菌株和生长培养基

将大肠杆菌菌株DH5α用于克隆。表达实验使用大肠杆菌菌株BL21(DE3)pMGK(Acton,T.B.等人(2005)Methods Enzymol 394,210-243)。将细菌在LB培养基(Affymetrix/USB)中培养。对于具有基于pET21的质体的培养物，以100μg/ml添加氨苄青霉素。以25μg/ml添加卡那霉素以维持pMGK质体。在用以产生高通量蛋白质表达数据集(Acton,T.B.等人(2005)Methods Enzymol 394,210-243)的相同的培养基中以及条件下进行细菌生长以用于蛋白质表达和RNA印迹实验(即，MJ9基础培养基(Jansson,M.等人(1996)J Biomol NMR 7,131-141)，在250rpm搅拌下在37℃下，随后在17℃下诱导)。

实例33：质体

从罗格斯大学(Rutgers University)东北结构基因组学协会的蛋白质生产实验室(www.nesg.org)获得基因APE_0230.1(敏捷气热菌K1)、RSP_2139(类球红细菌)、SRU_1983(红色嗜盐菌)、SCO1897(天蓝色链霉菌)和ycaQ(大肠杆菌)的pET-21克隆株(分别是NESG标靶Xr92、RhR13、SrR141、RR162和ER449)。通过GenScript DNA合成基因的6AA_T和31C-FO_H/31C-FO_T变异体。通过PCR扩增使用包含NcoI限制位点的长正向引物产生头端变异体31C-FO_H和31C-FO_H，新的头序列和与标靶基因中的下游区互补的序列。使用含有起始构筑体的质体作为用相应长正向引物和反向引物(其在包括XhoI限制位点的构筑体的3'端处杂交)的PCR的DNA模板。将所得PCR产物使用In-Fusion试剂盒(Clontech)克隆到经NcoI和XhoI线性化的pET-21衍生物中。通过DNA测序(Genewiz和Eton Bioscience)验证每种质体中的全蛋白编码序列，并且在需要时使用QuikChange II定点诱变试剂盒(AgilentTechnologies)校正。最终构筑体的DNA序列提供于补充信息文件BoelEtAl2014SequenceData.csv中。

实例34：大肠杆菌生长曲线

通过将200μl每种诱导培养物转移到96孔无菌板(Greiner bio-one)并且用50μl无菌石蜡油覆盖，测量过夜细胞生长。对于每种标靶WT，负载阴性对照非诱导样品。负载一式两份的每种样品以用于任何自然或人类变异。将板在室温下放置到板读取器(BiotekSynergy)中，并且震荡30秒。获取起始OD₆₀₀读数，并且然后是30分钟震荡直到下一OD读数。重复读数以用于总共9小时的生长分析。

实例35：分析体内蛋白质表达

将来自单一菌落的起始培养物接种到含有100μg/ml氨苄青霉素和30μg/ml卡那霉素的6ml LB培养基中。使培养物在37℃下生长直到高度混浊(4-6小时)。将40μl混浊培养基用以接种2ml MJ9基本培养基(Jansson,M.等人(1996)J Biomol NMR 7,131-141)。使此MJ9预培养物在37℃下生长过夜。第二天，获取混浊MJ9预培养物的1:10稀释物的OD₆₀₀读数。将此读数用以计算针对6ml培养基中0.1的起始培养物读数标准化所有细胞样品所需的预培养物量。将此计算量接种到6ml新鲜MJ9培养基中，并且使细胞在37℃下生长直到OD₆₀₀达到0.5-0.7。然后用1mM IPTG诱导细胞，每种标靶WT保留一个一式两份管非诱导以充当阴性对照。在诱导之后，移出200μL×2的每种培养物，并且将其放置到无菌96孔板中用于生长曲线监测(参看上文)。然后将剩余5.6ml经诱导样品转移到17℃并且震荡过夜。第二天，将样品管从震荡器移出并且放置在冰上。获取最终OD₆₀₀测量值。使细胞在14mL圆底Falcon管中在4K rpm下离心10分钟，并且舍弃上清液。将细胞再悬浮于1.2mL溶解缓冲液(50mM NaH₂PO₄pH8.0，30mM NaCl，10mM 2-巯基乙醇)中，并且然后转移到冰上的1.5mL Eppendorf管。通过使用40V设定(约12瓦脉冲)和脉冲1sec继而2sec静止持续总共40个脉冲在冰上进行声处理，来实现溶解。将120μL每种溶解样品与40μL 4X Laemmli缓冲液混合。然后使样品在具有Bio-Rad Precision Plus All Blue Standard标记的SDS-PAGE(Bio-Rad，Ready Gel，15％Tris-HCl)上运行。将最终OD₆₀₀测量值用以计算每种个别样品的负载量，针对每种独特标靶的最少混浊的密度标准化所有样品。在生长和通过DNA测序(Genewiz和Eton Bioscience)诱导之后验证质体的完整性。

实例36：体外转录和翻译

将含有优化或未优化插入序列的pET21质体用BlpI消化，苯酚-氯仿纯化，并且通过乙醇沉淀浓缩。在经消化样品中，添加2μg到RiboMax试剂盒(Promega)制备物，并且根据方案体外转录。在反应完成后，将体外转录样品用DNA酶(Promega)处理，然后异丙醇沉淀，并且再悬浮于The RNA Storage Solution(Ambion)中。通过琼脂糖凝胶电泳用溴化乙锭染色验证转录物大小和纯度。为获得时间点动力学，组装20μl T7反应物，并且以1μg DNA模板起始。在时间0、5、10和30分钟，使4.5μl每个反应物在变性甲醛-琼脂糖凝胶上运行。

用PURExpress系统(New England Biolabs)使用优质L-[3]35S]甲硫氨酸(PerkinElmer)对经纯化mRNA进行体外翻译分析。每一25μl反应物含有10μl溶液A、7.5μl溶液B和2μl[5]35S]甲硫氨酸(10μCi)。通过添加2μl经纯化mRNA(4μg/μl)和在37℃下孵育而起始反应。在15、30、60和90min从反应物抽取5μl的等分试样，通过添加10μl 2X Laemmli并且在60℃下加热2min而终止。然后使14μl的每个等分试样在具有Bio-Rad Precision PlusAll Blue Standard标记的4-20％SDS-PAGE(Bio-Rad)上运行。使凝胶在Whathman上干燥以及经历放射自显影。

实例37：RNA印迹分析

将RNA印迹探针设计为pET21载体的5'UTR的71nt的反向互补序列，并且通过Eurofins合成。将探针使用BrightStar补骨脂素-生物素非同位素标记试剂盒用生物素标记。使含有所关注质体的BL21(DE3)pMGK大肠杆菌在LB中在37℃下在震荡下生长过夜。将培养物1:50稀释到MJ9培养基中，并且使其在37℃下在震荡下生长过夜。第二天，将培养物稀释到0.15的OD₆₀₀到MJ9培养基中，并且使其生长到0.6-0.7的OD₆₀₀，随后用1mM IPTG诱导。在指定时间点获取样品，并且在2体积的RNAProtect Bacteria Reagent中稳定化RNA。在粒化之后，使样品溶菌酶消化(15mg/ml)15分钟，并且使用Direct-zol RNA Miniprep Kit和TRI-Reagent纯化RNA。在1.2％甲醛-琼脂糖凝胶上在MOPS-甲醛缓冲液中每样品分离约1-2μg总RNA。通过溴化乙锭染色验证RNA完整性。然后将RNA在室温下持续2h使用毛细管下行转移法用碱性转移缓冲液(1M NaCl，10mM NaOH，pH 9)转移到带正电尼龙膜。将RNA使用1200μJ UV(Stratalinker)交联到膜。使膜在杂交炉中在42℃下在Ultrahyb杂交缓冲液中预杂交1h。然后添加热变性的经生物素标记的探针到10-20pM最终浓度，并且在42℃下杂交过夜。在洗涤缓冲液(0.2X SSC，0.5％SDS)中洗涤膜两次，并且在暴露于薄膜的情况下根据方案使用BrightStar BioDetect试剂盒检测探针信号。

实例38：RNA提取和微阵列分析

将大肠杆菌MG1655细胞在M9 0.4％葡萄糖基本培养基中培养到1.0的最终OD₆₀₀。将细胞用RNA Protect Bacteria Reagent(Qiagen)处理，并且将使用RNeasy Mini Kit(Qiagen)提取的RNA使用SuperScript II逆转录酶(Invitrogen)逆转录，继而用RNaseH(Invitrogen)和RNaseA(EpiCentre)处理。将所得cDNA制备物使用MinElute PurificationKit(Qiagen)纯化，并且然后使用DNaseI(EpiCentre)片段化成50-200bp片段。Biotinylation was performed用末端脱氧核苷酸转移酶(New England Biolabs)和生物素-N⁶-ddATP(Enzo Life Sciences)进行生物素化。通过威斯康星大学生物技术中心(University of Wisconsin Biotechnology Center)的基因表达中心(Gene ExpressionCenter)使生物素化cDNA在Affymetrix大肠杆菌2.0阵列上杂交。在AffymetrixExpression Console使用稳定多芯片平均(Robust Multi-chip Average，RMA)算法分析原始数据(.cel)文件。

实例39：对大肠杆菌MG1655中的细胞质蛋白质分类

使用程序LipoP(Juncker,A.S.等人(2003)Protein Sci 12,1652-1662)和TMHMM(Krogh,A.,Larsson,B.,von Heijne,G.与Sonnhammer,E.L.(2001)J Mol Biol 305,567-580)分析Ecocyc数据库(Keseler,I.M.等人(2013)Nucleic Acids Research 41,D605-D612)中基因组形式中所有的预测蛋白质，将不具有预测跨膜螺旋或预测信号肽的预测蛋白质归类为细胞质蛋白质并包括在图30中的分析中。

实例40：分析相关数据集

重新分析从一组重新编码的eGFP基因的表达定量大肠杆菌中观察到的体内荧光水平的Plotkin数据集。此数据集中的序列相关性通常与基于本文所描述的结果的期望值一致。为了正确地看待所观察到的趋势，关于用以产生Plotkin数据集的实验设计，重要的是注意两个因素。

首先，为了避免被认为使mRNA易于因RNAseE而裂解的序列特征，Plotkin和同事使用了有限的一组同义密码子取代而非对密码子空间系统地抽样。他们尝试避免的序列特征经证实在最近由Xie和同事所报道和本文所重新分析的大肠杆菌mRNA衰减数据集中不具有显著影响。他们施加于密码子取代的不必要的限制阻止了他们对从本文所描述的数据集推断的许多最强同义密码子取代效应抽样，所述抽样提供了比他们的抽样实质上更宽并且更深的密码子空间抽样。因此，预期密码子含量对他们的数据集的影响实质上弱于对本文所描述的数据集的影响。

为Plotkin数据集的基础的关于实验设计的第二因素是其经由天然折叠eGFP的荧光发射强度定量蛋白质表达，尽管已知此GFP变异体具有凝集倾向并且在一些条件下在大肠杆菌中体内低效地折叠。两个不同群组的后续论文已经报道了，分离改进此变异体的折叠并且在升高的[4]大肠杆菌[5]中[2]体内[3]eGFP表达水平下防止归因于蛋白质凝集的荧光产率损失的突变。Plotkin和同事使用其它方法对蛋白质表达进行了少量验证，并且未提供确立eGFP表达水平的范围的任何校准，荧光产率在所述范围内随合成的蛋白质的量线性地按比例调整。因此，报道了分离大肠杆菌中的稳定化eGFP变异体的较晚的论文提升了如下可能性：可以通过一些增加eGFP表达的方案中的增加的错折叠与凝集的偶合来遮蔽Plotkin数据集中的一些表达增强效应。

使用与用以对大规模蛋白质表达数据集建模的方法类似的方法对Plotkin数据集进行同时多参数线性回归建模。这些分析显示，基因的头端中的预测mRNA折叠自由能和碱基组成在Plotkin数据集中对eGFP荧光水平具有显著影响，所述影响平行于其在蛋白质表达数据集中的影响。Plotkin和同事检测到了前一效应但未检测到后一效应，后一效应是本文呈现的研究的新颖发现。虽然从Plotkin数据集推断的碱基组成效应在一些细节方面不同于从本文所描述的数据集推断的效应(其似乎可能源于其eGFP表达构筑体中的特定序列情境)，但总体趋势匹配。观察到s_全部(新密码子影响度量值的平均值)在Plotkin数据集中对eGFP荧光水平具有弱但显著的影响，但从蛋白质表达数据集中观察到的影响可知此效应呈相对方向。考虑到eGFP的低效体内折叠特性，所观察到效应的最可能解释是，增加的翻译效率由于包括于Plotkin数据集中的一些基因中的增加的错折叠与凝集的偶合而导致eGFP荧光产率降低。将需要进一步研究来严格地剖析此效应。

还重新分析了Goodman等人从与变化的序列的10残基N末端延伸(即，包含所表达基因的密码子2-11)融合的单一superfolder GFP(sfGFP)基因序列的表达定量大肠杆菌中观察到的体内荧光水平的数据集。值得注意的是，此GFP变异体是上文所提及的与Plotkin和同事所用的eGFP蛋白质相比经分离以在大肠杆菌中更高效地体内折叠的两者之一(REF？)。基于所述分析，Goodman数据集中变化的基因的区仅含有其中同义取代影响表达水平的五个密码子(即，密码子7-11)，因为对于密码子2-6来说碱基组成效应主导着密码子使用效应，因此并不预期强密码子使用效应。使用与用以对大规模蛋白质表达数据集建模的方法类似的方法对Goodman数据集进行同时多参数线性回归建模。这些分析的结果与计算模型和本文呈现的定性结论两者一致。基因的头端中的预测mRNA折叠自由能和碱基组成在Goodman数据集中对sfGFP荧光水平具有显著影响，所述影响平行于其在本文所描述的蛋白质表达数据集中的影响。如Plotkin和同事一样，Goodman等人检测到了前一效应但未检测到后一效应。从Goodman数据集推断的碱基组成效应在一些细节方面不同于从本文所描述的数据集推断的效应(其似乎可能源于其sfGFP表达构筑体中的特定序列情境)，但总体趋势再次匹配。观察到，s_全部对sfGFP荧光水平具有弱但显著的影响，其方向与蛋白质表达数据集中观察到的相同但与Plotkin数据集中观察到的相对。此差异很可能反映了Goodman等人所用的sfGFP构筑体与Plotkin和同事所用的eGFP构筑体相比的更高效体内折叠。

还重新分析了最近发表的定量大肠杆菌mRNA衰减速率的实验数据集。Xie和同事发表的此论文将RNAseq用于在LB培养基中的对数期或早期生长停滞期的生长期间在通过抗生素利福平(rifampicin)抑制转录起始之后，整体定量mRNA衰减速率。虽然这些数据集对大肠杆菌中的mRNA衰减提供了迄今为止最全面的表征，但其覆盖了大肠杆菌中的相对小部分的基因(<25％)，并且所覆盖的一组基因朝具有高稳态浓度的丰富mRNA强烈偏倚，这是使得对这些数据集的分析非平凡的若干因素之一。初始分析支持本文所描述的结果中提出的若干解读：

在Xie和同事报道的指数期和停滞期数据集两者中，mRNA寿命与稳态水平之间存在显著正相关性。换句话说，较高丰度mRNA具有比较低丰度mRNA系统地更慢的衰减速率。据推断存在此类关系以解释大肠杆菌中具有更高s_全部值或平均密码子影响得分的mRNA的系统地更高的稳态水平，其据假设可反映具有更好密码子使用的mRNA的更慢衰减。Xie和同事的mRNA衰减数据集展现的丰度-寿命关系支持了解释此效应的基础逻辑。

此外，两个不同计算分析显示，测量衰减速率的mRNA系统地耗尽了与降低的蛋白质表达相关的密码子。s_全部的分布对于大肠杆菌中的测量了mRNA衰减速率的基因显著高于对于未测量其的基因。第二，具有从大规模蛋白质表达数据集推断的更低密码子影响得分(s)的密码子在测量了衰减速率的mRNA组中具有与大肠杆菌基因组整体中相比系统地更低的频率。这些观察结果与mRNA寿命与稳态水平之间的显著正相关性的观察结果组合向如下假设提供了实验支持：大肠杆菌中s_全部与全基因组生理稳态mRNA浓度之间的相关性至少部分反映了具有次优密码子使用的mRNA的优先降解。因此，基于本文所描述的对通过T7聚合酶转录的mRNA的实验，由另一群组在大肠杆菌中在生理条件下应用正交方法产生的大规模数据集支持所述推断。

额外分析显示，密码子影响得分与Xie和同事测量的mRNA寿命具有所预测种类的显著关系。首先，每个密码子的从大规模蛋白质表达数据集推断的密码子影响得分(s)展示出与所述密码子的频率与实验地测量的mRNA寿命之间的斯皮尔曼(Spearman)评级次序相关系数(即，根据度量值更优的密码子使用与更长的测量mRNA寿命相关)的显著正相关性。第二，同时多参数线性回归建模显示，s_全部即使当与其它序列参数(包括核苷酸碱基组成)同时考虑时也是所测量mRNA寿命的显著预测子。此分析的其它值得注意的特征是，先前经推断可控制对RNAseE的易感性的碱基偏好实际上与寿命不相关，所述碱基偏好被认为是大肠杆菌中的mRNA寿命的主要决定因素。类似地，Plotkin和同事在其密码子取代流程中避免的特征实际上与寿命不相关，如上文所提及。最终，tRNA适应指数(tAI)与所测量mRNA寿命不具有显著关系，而密码子适应指数(CAI)具有捕获s_全部的一些但非全部影响的影响。值得注意的是，当与s_全部同时考虑时，反映了编码在生理条件下表达的丰度最大的蛋白质的mRNA的序列特征的CAI对大规模蛋白质表达数据集不具有显著影响。因此，历史上假定为反映翻译效率的此度量值实际上可以主要反映mRNA衰减效应。将需要未来的研究来严格地去卷积和定量大肠杆菌中的mRNA序列特征对转录相较于翻译相较于mRNA衰减的相对影响。然而，最近Xie和同事发表的对mRNA衰减数据集的众多分析一致支持如下假设：如通过新密码子影响度量值所测量的次优密码子使用与大肠杆菌中的更快速mRNA衰减相关。

参考文献

Aalberts DP和Jannen WK(2013)RNAbows：使RNA二级结构可视化的直观工具(RNAbows:an intuitive tool for visualizing RNA secondary structures).RNA 19,475-478。

Acton TB等人东北结构基因组学协会的自动式克隆和多肽生产平台(Roboticcloning and polypeptide production platform of the Northeast StructuralGenomics Consortium).酶学方法(Methods in Enzymology)394:210-243。

Akaike H(1974)统计模型鉴别的新面目(A new look at the statisticalmodel identification).自动控制的IEEE会刊(IEEE transactions on automaticcontrol)19:716-723。

Appel RD,Bairoch A,Hochstrasser DF(1994)生物学家的新一代信息检索工具：ExPASy WWW服务器的实例(A new generation of information retrieval tools forbiologists:the example of the ExPASy WWW server).生物化学趋势(Trends inBiochemical Sciences)19:258。

Bentele K,Saffert P,Rauscher R,Ignatova Z,Bluthgen N(2013)高效翻译起始指示了基因起点处的密码子使用(Efficient translation initiation dictatescodon usage at gene start).分子系统生物学(Molecular systems biology)9,675。

Bertone P等人(2001)SPINE：用于鉴别高通量结构蛋白质组研究中的可行标靶的整合的追踪数据库和数据挖掘方法(SPINE:an integrated tracking database and datamining approach for identifying feasible targets in high-throughputstructural proteomics).核酸研究(Nucleic acids research)29:2884。

Biro,J.C.(2008)编码序列的核苷酸组成与折叠能之间的相关性，特别注意摆动碱基(Correlation between nucleotide composition and folding energy of codingsequences with special attention to wobble bases).理论生物学与医学建模(TheorBiol Med Model),5:14。

Brant R(1990)评估用于序数逻辑回归的相称优势模型中的比例性(Assessingproportionality in the proportional odds model for ordinal logisticregression).生物统计学(Biometrics)46:1171-1178。

Bulmer M(1991)同义密码子使用的选择-突变-偏移理论(The selection-mutation-drift theory of synonymous codon usage).遗传学(Genetics)129,897-907。

Campbell JW等人(1972)对糖酵解途径中的酶的X射线衍射研究(X-raydiffraction studies on enzymes in the glycolytic pathway).定量生物学冷泉港座谈会(Cold Spring Harb.Symp.Quant.Biol)36:165-170。

Cannarozzi G等人(2010)密码子次序在翻译动力学中的作用(A role for codonorder in translation dynamics).细胞(Cell)141,355-367。

Caskey CT,Beaudet A,Nirenberg M(1968)RNA密码子和蛋白质合成(RNA codonsand protein synthesis).15.哺乳动物和细菌转移RNA部分对信使RNA密码子的相异反应(Dissimilar responses of mammalian and bacterial transfer RNA fractions tomessenger RNA codons).分子生物学杂志(J Mol Biol)37,99-118。

Carstens CP(2003)使用补充tRNA的宿主菌株使异源基因表达于大肠杆菌中(Useof tRNA-supplemented host strains for expression of heterologous genes inE.coli).分子生物学方法(Methods in Molecular Biology)205:225-234。

Chen GT,Inouye M(1994)AGA/AGG密码子，大肠杆菌中的整体基因表达中的最稀有密码子的作用(Role of the AGA/AGG codons,the rarest codons in global geneexpression in Escherichia coli).基因与发育(Genes&development)8,2641-2652。

Chen J,Acton TB,Basu SK,Montelione GT,Inouye M(2002)通过热休克增强过度表达于大肠杆菌中的多肽的溶解性(Enhancement of the solubility ofpolypeptides overexpressed in Escherichia coli by heat shock).分子微生物学与生物技术杂志(Journal of molecular microbiology and biotechnology)4:519-524。

Chen L,Oughtred R,Berman HM,Westbrook J(2004)TargetDB：用于结构基因组学项目的标靶注册数据库(TargetDB:a target registration database for structuralgenomics projects)(牛津大学出版社(Oxford Univ Press))。

Christen EH等人(2009)用于在大肠杆菌中生产难以表达的诱导子相依性细菌抑制子多肽的通用策略(A general strategy for the production of difficult-to-express inducer-dependent bacterial repressor polypeptides in Escherichiacoli).多肽表达与纯化(Polypeptide Expression and Purification)。

Creamer TP(2000)多肽去折叠状态中的侧链构象熵(Side-chainconformational entropy in polypeptide unfolded states).多肽：结构、功能与遗传学(Polypeptides:Structure,Function,and Genetics)40。

Crombie T,Swaffield JC,Brown AJ(1992)细胞内的多肽折叠受受控多肽延长速率影响(Polypeptide folding within the cell is influenced by controlled ratesof polypeptide elongation).分子生物学杂志(J.Mol.Biol)228:7-12。

Dale GE,Broger C,Langen H,Arcy AD,Stüber D(1994)通过合理地设计的氨基酸置换改进多肽溶解性：甲氧苄氨嘧啶抗性型S1二氢叶酸还原酶的溶解(Improvingpolypeptide solubility through rationally designed amino acid replacements:solubilization of the trimethoprim-resistant type S1dihydrofolate reductase).多肽工程设计与选择(Polypeptide Engineering Design and Selection)7:933-939。

Davis GD,Elisee C,Newham DM,Harrison RG(1999)经设计以提供于大肠杆菌中的可溶表达的新融合多肽系统(New fusion polypeptide systems designed to givesoluble expression in Escherichia coli).生物技术与生物工程(Biotechnology andbioengineering)65。

De Bernardez Clark E(1998)重组多肽的再折叠(Refolding of recombinantpolypeptides).生物技术新见(Current Opinion in Biotechnology)9:157-163。

Derewenda ZS(2004)通过突变表面工程化的合理多肽结晶(Rationalpolypeptide crystallization by mutational surface engineering).结构(Structure)12:529-535。

Elf J,Nilsson D,Tenson T,Ehrenberg M(2003)tRNA同功受体的选择性带电解释了密码子使用的模式(Selective charging of tRNA isoacceptors explainspatterns of codon usage).科学(Science)300,1718-1722。

Etchegaray JP,Inouye M大肠杆菌中通过起始密码子下游的元件的翻译增强(Translational enhancement by an element downstream of the initiation codonin Escherichia coli).生物化学杂志(Journal of Biological Chemistry)274:10079-10085。

Freischmidt A,Liss M,Wagner R,Kalbitzer HR,Horn G(2012)RNA二级结构和体外翻译效率(RNA secondary structure and in vitro translation efficiency).蛋白质表达与纯化(Protein Expression Purif.),82,26-31。

Georgiou G,Valax P(1996)正确折叠的多肽于大肠杆菌中的表达(Expressionof correctly folded polypeptides in Escherichia coli).生物技术新见(CurrentOpinion in Biotechnology)7:190-197。

Goh CS等人(2003)SPINE 2：联合数据库构架内用于协同结构蛋白质组研究的系统(SPINE 2:a system for collaborative structural proteomics within afederated database framework).核酸研究31:2833。

Goh CS等人(2004)挖掘结构基因组学管线：鉴别影响高通量实验分析的多肽特性(Mining the structural genomics pipeline:identification of polypeptideproperties that affect high-throughput experimental analysis).分子生物学杂志(Journal of molecular biology)336:115-130。

Goodman DB,Church GM,Kosuri S(2013)细菌基因中的N末端密码子偏倚的原因和效应(Causes and Effects of N-Terminal Codon Bias in Bacterial Genes).科学,doi:10.1126/science.1241934。

Gottesman S(1990)最小化大肠杆菌中的蛋白水解：遗传解决方案(Minimizingproteolysis in Escherichia coli:genetic solutions).酶学方法185:119。

Gustafsson C,Govindarajan S,Minshull J(2004)密码子偏倚和异源多肽表达(Codon bias and heterologous polypeptide expression).生物技术趋势(Trends inbiotechnology)22:346-353。

Gustafsson C,Minshull J,Govindarajan S,Ness J,Villalobos A和Welch M(2012)用于可预测蛋白质表达的工程化基因(Engineering genes for predictableprotein expression).蛋白质表达与纯化,83,37-46。

Hatfield GW,Roth DA(2007)优化多肽生产的按比例扩大产率计算优化的DNA汇编(CODA)和翻译工程化(Optimizing scaleup yield for polypeptide production:Computationally Optimized DNA Assembly(CODA)and Translation Engineering).生物技术年度评论(Biotechnol Annu Rev)13:27-42。

Hodas NO和Aalberts DP.(2004)最优寡-RNA结合的高效计算(Efficientcomputation of optimal oligo-RNA binding).核酸研究(Nucleic Acids Res.),32,6636-6642。

Hofacker IL(2003)维也纳RNA二级结构服务器(Vienna RNA secondarystructure server).核酸研究,31,3429-3431。

Hosmer DW,Lemeshow S(2004)应用逻辑回归(Applied logistic regression)(威利国际科学(Wiley-Interscience))。

Hunt RC,Simhadri VL,Iandoli M,Sauna ZE,Kimchi-Sarfaty C(2014)暴露同义突变(Exposing synonymous mutations).遗传学趋势(Trends in genetics):TIG,doi:10.1016/j.tig.2014.04.006。

Idicula-Thomas S,Balaji PV(2005)理解多肽的一级结构与其可溶于过度表达于大肠杆菌中的倾向之间的关系(Understanding the relationship between theprimary structure of polypeptides and its propensity to be soluble onoverexpression in Escherichia coli).多肽科学：多肽协会出版物(PolypeptideScience:A Publication of the Polypeptide Society)14:582。

Idicula-Thomas S,Kulkarni AJ,Kulkarni BD,Jayaraman VK,Balaji PV(2006)用于预测多肽可溶于或形成大肠杆菌中的过度表达上的包涵体的倾向的基于支持向量机的方法(A support vector machine-based method for predicting the propensity ofa polypeptide to be soluble or to form inclusion body on overexpression inEscherichia coli).生物信息学(Bioinformatics)22:278-284。

Kapust RB,Waugh DS(1999)大肠杆菌麦芽糖结合多肽通常不有效促进其融合的多肽的溶解性(Escherichia coli maltose-binding polypeptide is uncommonlyeffective at promoting the solubility of polypeptides to which it is fused).PRS 8:1668-1674。

Kefala G,Kwiatkowski W,Esquivies L,Maslennikov I,Choe S(2007)应用Mistic改进大肠杆菌的组氨酸激酶受体的表达和膜整合(Application of Mistic toimproving the expression and membrane integration of histidine kinasereceptors from Escherichia coli).结构与功能基因组学杂志(Journal of Structuraland Functional Genomics)8:167-172。

Kim CH,Oh Y,Lee TH(1997)用于人类促红细胞生成素(EPO)于哺乳动物细胞中的高水平表达的密码子优化(Codon optimization for high-level expression of humanerythropoietin(EPO)in mammalian cells).基因(Gene)199:293-301。

Komar AA(2009)沿着共翻译折叠途径的暂停思考(A pause for thought alongthe co-translational folding pathway).生物化学趋势(Trends Biochem.Sci)34:16-24。

Kozak M(2005)经由mRNA结构调节原核生物和真核生物中的翻译(Regulation oftranslation via mRNA structure in prokaryotes and eukaryotes).基因(gene)361,13-37。

Krogh A,Larsson B,Von Heijne G,Sonnhammer ELL(2001)用隐马尔可夫模型预测跨膜多肽拓扑：应用于全基因组(Predicting transmembrane polypeptide topologywith a hidden Markov model:application to complete genomes).分子生物学杂志305:567-580。

Krüger MK,Pedersen S,Hagervall TG,Sorensen MA(1998)修饰tRNAGlu的摆动碱基可调节体内谷氨酸密码子的翻译速率(The modification of the wobble base oftRNAGlu modulates the translation rate of glutamic acid codons in vivo).分子生物学杂志284:621-631。

Kudla G,Murray AW,Tollervey D,Plotkin JB(2009)大肠杆菌中的基因表达的编码序列决定因素(Coding-sequence determinants of gene expression inEscherichia coli).科学324:255。

Kyte J,Doolittle RF(1982)呈递多肽的亲水特征的简单方法(A simple methodfor displaying the hydropathic character of a polypeptide).分子生物学杂志157:105。

Lee C等人(2008)用于有效生产天然多肽的改进的SUMO融合多肽系统(Animproved SUMO fusion polypeptide system for effective production of nativepolypeptides).多肽科学(Polypeptide Sci.)17:1241-1248。

Lewis HA等人(2005)人类囊性纤维化跨膜传导调节蛋白的第一核苷酸结合结构域中的ΔF 508突变对结构域折叠和结构的影响(Impact of the{Delta}F 508mutationin first nucleotide-binding domain of human cystic fibrosis transmembraneconductance regulator on domain folding and structure).生物化学杂志280:1346-1353。

Li GW,Oh E,Weissman JS(2012)抗夏因-达尔加诺序列驱动细菌中的翻译暂停和密码子选择(The anti-Shine-Dalgarno sequence drives translational pausing andcodon choice in bacteria).自然(Nature)484,538-541。

Liu G等人(2005)用于高通量多肽结构测定的NMR数据采集和分析方案(NMR datacollection and analysis protocol for high-throughput polypeptide structuredetermination).美国国家科学院院刊纪要(Proceedings of the National Academy ofSciences of the United States of America)102:10487。

Luft JR等人(2003)筛选生物大分子的初始结晶条件的有意方法(A deliberateapproach to screening for initial crystallization conditions of biologicalmacromolecules).结构生物学杂志(Journal of Structural Biology)142:170-179。

Magnan CN,Randall A,Baldi P(2009)SOLpro：多肽溶解性的准确的基于序列的预测(SOLpro:accurate sequence-based prediction of polypeptide solubility).生物信息学。

Makrides SC(1996)实现基因于大肠杆菌中的高水平表达的策略(Strategiesfor achieving high-level expression of genes in Escherichia coli).微生物学与分子生物学评论(Microbiology and Molecular Biology Reviews)60:512。

Mathews DH,Disney MD,Childs JL,Schroeder SJ,Zuker M和Turner DH(2004)将化学修饰限定并入用于预测RNA二级结构的动态程序化算(Incorporating chemicalmodification constraints into a dynamic programming algorithm for predictionof RNA secondary structure).美国国家科学院院刊(Proc.Natl.Acad.Sci).USA,101,7287-7292。

Muramatsu T等人(1988)转移RNA的密码子和氨基酸特异性都通过单一转录后修饰而转换(Codon and amino-acid specificities of a transfer RNA are bothconverted by a single post-transcriptional modification).自然336,179-181。

Nakamura Y,Gojobori T,Ikemura T(2000)国际DNA序列数据库列表的密码子使用：2000年的状态(Codon usage tabulated from international DNA sequencedatabases:status for the year 2000).核酸研究28:292。

Pédelacq JD等人(2002)用于结构基因组学的工程化可溶多肽(Engineeringsoluble polypeptides for structural genomics).自然·生物技术(Naturebiotechnology)20:927-932。

Pedersen S(1984)体内以可变速率的大肠杆菌核糖体翻译(Escherichia coliribosomes translate in vivo with variable rate).EMBO杂志(The EMBO Journal)3:2895。

Plotkin JB,Kudla G(2011)同义但不相同：密码子偏倚的原因和后果(Synonymous but not the same:the causes and consequences of codon bias).自然综述(Nature reviews).遗传学12,32-42。

Price WN等人(2009)通过分析大规模实验数据理解控制多肽结晶的物理特性(Understanding the physical properties that control polypeptidecrystallization by analysis of large-scale experimental data).自然·生物技术(Nat.Biotechnol)27:51-57。

Rice P,Longden I,Bleasby A(2000)EMBOSS：欧洲分子生物学开放软件包(EMBOSS:the European molecular biology open software suite).遗传学趋势16:276-277。

Rost B(2005)如何使用通过PROFphd预测的多肽1D结构(How to usepolypeptide 1D structure predicted by PROFphd).蛋白质组研究方案手册(Theproteomics protocols handbook).特图瓦(Totowa)(新泽西州(New Jersey)):胡马纳(Humana):875-901。

Rost B,Yachdav G,Liu J(2004)预测多肽服务器(The predictpolypeptideserver).核酸研究32:W321。

Sanbonmatsu KY,Joseph S,Tung C(2005)模拟在解码期间tRNA向核糖体中的移动(Simulating movement of tRNA into the ribosome during decoding).美国国家科学院院刊纪要(Proceedings of the National Academy of Sciences of the UnitedStates of America)102:15854-15859。

Schauder B和McCarthy JEG(1989)夏因-达尔加诺区上游和编码序列中的碱基在控制大肠杆菌中的基因表达中的作用：体内信使RNA的翻译和稳定性(The role of basesupstream of the Shine-Dalgarno region and in the coding sequence in thecontrol of gene-expression in Escherichia coli:translation and stability ofmessenger-RNAs in vivo).基因,78,59-72。

Shakin-Eshleman SH,Liebhaber SA(1988)mRNA起始密码子的3'的双螺旋体对单体形成的效率的影响(Influence of duplexes 3'to the mRNA initiation codon onthe efficiency of monosome formation).生物化学(Biochemistry)27,3975-3982。

Slabinski,L.,L.Jaroszewski等人(2007).“多肽结构测定的挑战--结构基因组学的教训(The challenge of polypeptide structure determination--lessons fromstructural genomics)”.多肽科学(Polypeptide Sci)16(11):2472-82。

Smialowski P等人(2007)多肽溶解性：基于序列的预测和实验验证(Polypeptidesolubility:sequence based prediction and experimental verification).生物信息学23:2536。

Sorensen HP,Mortensen KK(2005)用于重组多肽于大肠杆菌中的表达的先进遗传策略(Advanced genetic strategies for recombinant polypeptide expression inEscherichia coli).生物技术杂志(Journal of biotechnology)115:113-128。

Spencer PS,Siller E,Anderson JF,Barral JM(2012)沉默取代可预测地改变翻译延长速率和蛋白质折叠效率(Silent substitutions predictably alter translationelongation rates and protein folding efficiencies).分子生物学杂志422,328-335。

Steinthorsdottir V等人(2007)CDKAL1的变异体影响2型糖尿病的胰岛素响应和风险(A variant in CDKAL1influences insulin response and risk of type2diabetes).自然·遗传学(Nature genetics)39,770-775。

Tanha J等人(2006)通过新颖突变方法改进人类V(H)的溶解性和再折叠效率(Improving solubility and refolding efficiency of human V(H)s by a novelmutational approach).多肽工程化、设计与选择(Polypeptide Eng.Des.Sel)19:503-509。

Tartaglia GG,Pechmann S,Dobson CM,Vendruscolo M(2009)大肠杆菌中的mRNA表达水平与多肽溶解性之间的关系(A Relationship between mRNA Expression Levelsand Polypeptide Solubility in E.coli).分子生物学杂志(Journal of MolecularBiology)。

Tresaugues L等人(2004)结构基因组学项目中的包涵体的再折叠策略(Refolding strategies from inclusion bodies in a structural genomicsproject).结构与功能基因组学杂志(Journal of Structural and FunctionalGenomics)5:195-204。

Trevino SR,Scholtz JM,Pace CN(2007)氨基酸对多肽溶解性的贡献：Asp、Glu和Ser比RNase Sa中的其它亲水氨基酸更有利地贡献(Amino acid contribution topolypeptide solubility:Asp,Glu,and Ser contribute more favorably than theother hydrophilic amino acids in RNase Sa).分子生物学杂志366:449-460。

Vivanco-Dominguez S等人(2012)蛋白质合成因子(RF1、RF2、RF3、RRF和tmRNA)和肽基-tRNA水解酶拯救有意义密码子处的停止核糖体(Protein synthesis factors(RF1,RF2,RF3,RRF,and tmRNA)and peptidyl-tRNA hydrolase rescue stalled ribosomes atsense codons).分子生物学杂志417,425-439。

Wagner S等人(2008)调节大肠杆菌用于膜多肽过度表达(Tuning Escherichiacoli for membrane polypeptide overexpression).美国国家科学院院刊105:14371-14376。

Waldo GS(2003)多肽溶解性的遗传筛选和定向进化(Genetic screens anddirected evolution for polypeptide solubility).化学生物学新见(Current opinionin chemical biology)7:33-38。

Wang和Dunbrack,Jr.(2003).“PISCES：多肽序列挑选服务器(PISCES:apolypeptide sequence culling server)”.生物信息学19:1589-1591。

Ward JJ,McGuffin LJ,Bryson K,Buxton BF,Jones DT(2004)用于预测多肽无序的DISOPRED服务器(The DISOPRED server for the prediction of polypeptidedisorder)(牛津大学出版社(Oxford Univ Press))。

Watts JM,Dang KK,Gorelick RJ,Leonard CW,Bess JW,Jr.,Swanstrom R,BurchCL,Weeks,KM(2009)完整HIV-1RNA基因组的架构和二级结构(Architecture andsecondary structure of an entire HIV-1RNA genome).自然,460,711-719。

Wigley WC,Stidham RD,Smith NM,Hunt JF,Thomas PJ(2001)通过遗传标记多肽的结构互补体内监测的多肽溶解性和折叠(Polypeptide solubility and foldingmonitored in vivo by structural complementation of a genetic markerpolypeptide).自然·生物技术19:131-136。

Wilkinson DL,Harrison RG(1991)预测重组多肽于大肠杆菌中的溶解性(Predicting the solubility of recombinant polypeptides in Escherichia coli).自然·生物技术9:443-448。

Wu X,

H,Berndt KD,Oppermann U(2004)密码子优化显示了两种稀有密码子基因于大肠杆菌中的高水平表达的关键因素：RNA稳定性和二级结构但非tRNA丰度(Codon optimization reveals critical factors for high level expression of tworare codon genes in Escherichia coli:RNA stability and secondary structurebut not tRNA abundance).生物化学与生物物理学研究通讯(Biochemical andBiophysical Research Communications)313:89-96。

Yadava A,Ockenhouse CF(2003)密码子优化对功能折叠的疟疾疫苗候选物于原核和真核表达系统中的表达水平的效应(Effect of Codon Optimization on ExpressionLevels of a Functionally Folded Malaria Vaccine Candidate in Prokaryotic andEukaryotic Expression Systems)编辑：WA Petri,Jr.感染与免疫(Infection andimmunity)71:4961-4969。

Zuker,M.(2003)用于核酸折叠和杂交预测的Mfold网络服务器(Mfold webserver for nucleic acid folding and hybridization prediction).核酸研究,31,3406-3415。

Claims

1.一种在体外或体内表达系统中增加重组多肽表达的方法，其特征在于，所述表达系统是大肠杆菌表达系统，所述方法包括提供蛋白质编码序列和含有核糖体结合位点的 5’-非翻译区 (5’-UTR) 的核酸序列，5’-UTR功能性地连接到蛋白质编码序列，对蛋白质编码序列第2、3、4、5 和 6 密码子进行一个或多个同义取代，以降低鸟嘌呤含量或提升腺嘌呤含量，对最终编码序列进行同义取代，产生通过程序 RNAstructure 以及默认参数对蛋白质编码序列中前 48 个核苷酸计算的 RNA 折叠配分函数自由能在-10 kcal/mol 以上。

2.权利要求1的方法还包括通过进行一个或多个同义取代，将每个框内的异亮氨酸ATA 密码子替换为 ATT 或 ATC，从而优化蛋白质编码序列。

3.权利要求1的方法还包括优化蛋白质编码序列，其中 CGT 用于编码所有精氨酸残基、GAT 用于编码所有天冬氨酸残基、GAA 用于编码所有谷氨酸残基、CAA 用于编码所有谷氨酰胺残基、CAT 用于编码所有组氨酸残基、ATT 用于编码所有异亮氨酸残基。

4.权利要求1的方法还包括优化蛋白质编码序列，其中 AAT 用于编码所有天冬酰胺残基、GAT 用于编码所有天冬氨酸残基、TGT 用于编码所有半胱氨酸残基、GAA 用于编码所有谷氨酸残基、GGT 用于编码所有甘氨酸残基、AAA 用于编码所有赖氨酸残基、ATG 用于编码所有甲硫氨酸残基、TTT 用于编码所有苯丙氨酸残基、TGG 用于编码所有色氨酸残基、TAT用于编码所有酪氨酸残基、随机选择 GCT 或 GCA 用于编码所有丙氨酸残基、随机选择CGT 或 CGA 用于编码所有精氨酸残基、随机选择 CAA 或 CAG 用于编码所有谷氨酰胺残基、随机选择 CAT 或 CAC 用于编码所有组氨酸残基、随机选择 ATT 或 ATC 用于编码所有异亮氨酸残基、随机选择 TTA 或 TTG 或 CTA 用于编码所有亮氨酸残基、随机选择 CCT或 CCA 用于编码所有脯氨酸残基、随机选择 AGT 或 TCA 用于编码所有丝氨酸残基、随机选择 ACA 或 ACT 用于编码所有苏氨酸残基、随机选择 GTT 或 GTA 用于编码所有缬氨酸残基。

5.如权利要求1所述的一种在体外或体内表达系统中增加重组多肽表达的方法，其特征在于，编码重组多肽的核酸序列被功能性连接至含有核糖体结合位点的pET21 5'非翻译区（5'-UTR），在降低鸟嘌呤含量或提高腺嘌呤含量的蛋白质编码序列的密码子2、3、4、5和6中进行一个或多个同义取代，并在所得编码序列中进行同义取代，产生蛋白质编码序列中的前48个核苷酸的RNA 折叠配分函数自由能的计算结果大于或等于-10 kcal/mol。