CN107109496A

CN107109496A - 用于优化异源蛋白质生产的核糖体动力学建模

Info

Publication number: CN107109496A
Application number: CN201680005182.9A
Authority: CN
Inventors: 斯科特·科尔·乌; 唐纳德·L·比策
Original assignee: North Carolina State University
Current assignee: North Carolina State University; Illumina Inc
Priority date: 2015-01-06
Filing date: 2016-01-06
Publication date: 2017-08-29
Anticipated expiration: 2036-01-06
Also published as: US20200286578A1; HK1245849A1; DK3242955T3; CN107109496B; CA2972473A1; EP3242955B1; EP3242955A1; JP2018509930A; US20170372001A1; AU2016205254A1; EP3242955A4; AU2016205254B2; KR20170094798A; KR102473180B1; SG11201705275VA; CA2972473C; WO2016112142A1

Abstract

目前公开的主题提供了基于自由能的翻译延伸模型以预测和优化异源基因表达。该模型和软件允许基因的预测和优化，以增加或降低蛋白质产量和增加或减少蛋白质聚集。

Description

用于优化异源蛋白质生产的核糖体动力学建模

相关申请的交叉引用

本申请要求于2015年1月6日提交的美国临时申请No.62/100,417的权益，其全部内容通过引用整体并入本文。

背景技术

翻译是一种生物过程，通过该过程生物体产生折叠为功能性蛋白质的特定多肽[1、13]。异源蛋白质合成使用翻译来产生通常不会在宿主生物中产生的蛋白质[2、3]。这些蛋白质用于广泛的工业应用，从生物燃料生产到农业和生物制药。不幸的是，在生物生物体如大肠杆菌中翻译未经修饰的外源基因的尝试通常导致所需蛋白质合成量低或不合成[1、2]。鉴定出的一些问题是翻译不良、非最佳核糖体结合位点(RBS)、RBS和起始密码子间隔、移位、提前终止以及由蛋白质错误折叠引起的蛋白质聚集[1、2]。尽管蛋白质产量最大化已经被详细研究了一段时间，但是翻译延伸对蛋白质产量的潜在过程和作用尚未解决。多年来，低蛋白质产量的主要原因被认为是简单的密码子偏倚和编码罕见氨酰-tRNA(aa-tRNA)的罕见密码子[1、2、3]。最近的实验证据表明，低蛋白质产量可能来自许多同样重要的附加因素[4、5、6、7]。

目前用于确定蛋白质产量的“标准”是Sharpe密码子适应指数(CAI)[8]。Sharpe的算法将高表达基因的密码子使用率作为计算CAI的标准。具有与高表达基因相似密码子使用率的基因得分较高，CAI范围从0到1。CAI可用于测量基因相对于生物体密码子偏倚的密码子偏倚。通常，通过修改异源基因的密码子偏倚接近生产生物体的高表达基因的密码子偏倚来优化产量。不幸的是，仅使用CAI的优化有时起作用，有时不会[1、3]。

从[4、5、6、7]的实验可以看出，低蛋白质产量或蛋白质产量的决定因素一般不仅可能来自密码子偏倚和罕见的tRNA可利用性，还可能来自可能同样重要的附加因素。例如，[6]的核糖体分析数据表明，16S rRNA的3'末端核苷酸的抗Shine-Dalgarno(aSD)在翻译延伸期间与mRNA相互作用以“暂停”核糖体。Li等[6]观察到密码子使用/tRNA丰度与核糖体翻译速度之间几乎没有相关性。他们提出，翻译延伸的产量与mRNA中的Shine-Dalgarno(SD)序列的核糖体暂停高度相关，3'末端16S rRNA尾巴的aSD影响核糖体翻译mRNA的“速度”。

不受理论的限制，目前公开的主题涉及假设核糖体相对于观察到核糖体暂停的零阅读框物理上略微移位。通过移位，核糖体需要更长的时间来获得下一个aa-tRNA。可以使用自由能周期信号[9、10、11]和tRNA丰度信息[12]的二阶效应来构建包含该分数移位概念的大肠杆菌的新型翻译模型。基于体内实验，该模型似乎具有相当大的预测和优化能力。

发明内容

目前公开的主题提供了基于自由能的翻译延伸模型以预测和优化蛋白质产量和聚集。一方面，提供了用于预测基因翻译的蛋白质产量的方法，所述方法包括：(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期(cycle)数，其中所述周期数是tRNA丰度、核糖体移位(displacement)量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；和(b)确定经过遍及编码区的密码子的总周期计数；其中所述经过遍及编码区的密码子的总周期计数与蛋白质产量相关。

另一方面，提供了用于预测基因翻译的蛋白质产量的方法，所述方法包括：(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；(b)绘制翻译瓶颈图，其中所述图包含这样的值，所述值包含在大小为N个密码子的滑动窗口内的周期总和；和(c)确定翻译瓶颈图中的最大总和；其中所述翻译瓶颈图中的最大总和与蛋白质产量相关。

另一方面，提供了用于预测基因翻译的蛋白质产量的方法，所述方法包括：(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；和(b)进行蛋白质翻译模拟以确定在多个周期内完成翻译的核糖体的量；其中所述在多个周期内完成翻译的核糖体的量与蛋白质产量相关。

在另一方面，提供了用于增加基因翻译蛋白质产量的方法，所述方法包括：(a)进行上述任一种用于预测基因翻译的蛋白质产量的方法，和(b)在改变所述力和/或所述等待时间的同时使用保留蛋白质氨基酸序列的同义密码子修改密码子；其中所述基因翻译的蛋白质产量增加。在进一步的方面，步骤(b)包括修改密码子，使得核糖体等待时间减少。在进一步的方面，通过选择基本相等于所述基因种类角度(species angle of the gene)的所述基因相位角(phase angle of the gene)，使所述核糖体移位量级最小化。

在另一方面，提供了用于降低基因翻译蛋白质产量的方法，所述方法包括：(a)进行上述任一种用于预测基因翻译的蛋白质产量的方法，和(b)在改变所述力和/或所述等待时间的同时使用保留蛋白质氨基酸序列的同义密码子修改密码子；其中所述基因翻译的蛋白质产量降低。在进一步的方面，步骤(b)包括修改密码子，使得核糖体等待时间减少。

在另一方面，提供了用于预测蛋白质聚集的方法，所述方法包括：(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；和(b)确定经过遍及编码区的密码子的总周期计数；其中所述经过遍及编码区的密码子的总周期计数与蛋白质聚集相关。

在另一方面，提供了用于预测蛋白质聚集的方法，所述方法包括：(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；(b)绘制翻译瓶颈图，其中所述图包含这样的值，所述值包含在大小为N个密码子的滑动窗口内的周期总和；和(c)确定翻译瓶颈图中的最大总和；其中所述翻译瓶颈图中的最大总和与蛋白质聚集相关。

在另一方面，提供了用于预测蛋白质聚集的方法，所述方法包括：(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；和(b)进行蛋白质翻译模拟以确定在多个周期内完成翻译的核糖体的量；其中所述在多个周期内完成翻译的核糖体的量与蛋白质聚集相关。

在另一方面，提供了用于增加蛋白质聚集的方法，所述方法包括：(a)进行上述任一种用于预测基因翻译的蛋白质产量的方法，和(b)在改变所述力和/或所述等待时间的同时使用保留蛋白质氨基酸序列的同义密码子修改密码子；其中所述蛋白质聚集增加。在进一步的方面，步骤(b)包括修改密码子，使得核糖体等待时间减少。

在另一方面，提供了用于减少蛋白质聚集的方法，所述方法包括：(a)进行上述任一种用于预测基因翻译的蛋白质产量的方法，和(b)在改变力和/或等待时间的同时使用保留蛋白质氨基酸序列的同义密码子修改密码子；其中所述蛋白质聚集减少。在进一步的方面，步骤(b)包括修改密码子，使得核糖体等待时间减少。

在另一方面，提供本文公开的任何方法，其中所述基因来自原核生物，并且所述核糖体的3'末端rRNA尾巴是16S rRNA尾巴。在另一方面，提供本文公开的任何方法，其中所述基因来自真核生物，并且所述核糖体的3'末端rRNA尾巴是18S rRNA尾巴。

在进一步方面，提供了一种计算机可读介质，其被编程为执行本文公开的任何方法步骤中的一个或多个。

上文已经阐述的目前公开的主题的某些方面，其全部或部分由本发明的主题涉及，随着结合如下文最佳描述的所附实施例和附图而进行描述，其它方面将变得明显。

附图简要说明

已经以一般的方式描述了目前公开的的主题，现在将参考附图，这些附图并非一定按比例绘制。

图1.平均自由能信号图。该信号通过计算长度大于1000个核苷酸的200个非框架移位的大肠杆菌基因的每个核苷酸的杂交能量来获得。

图2.平均信号后终止密码子图。该信号也可以通过计算在开放阅读框的终止密码子之后200个非框架移位的大肠杆菌内源基因的杂交能来获得。

图3.核糖体尾巴与mRNA之间的相互作用。16S rRNA“暴露尾巴”在翻译延伸期间与mRNA连续相互作用，可以计算出来自沃森和克里克结合的自由能。、

图4.在框移位点(密码子26)翻译prfB时的物理图示。16S“暴露尾巴”的aSD在密码子26(停止)处与P位点结合太近(3个核苷酸)，并压缩将核糖体向+1阅读框移位的“弹簧”。模拟图如图5所示。

图5.在移框位点(密码子26)翻译prfB时的模拟图。显示了来自压缩弹簧的能量。该能量由mRNA上的SD样序列与16S“暴露尾巴”的aSD结合产生的自由能计算。所述结合压缩了将核糖体向+1阅读框中最小能量移位的“弹簧”。

图6.在密码子70翻译lacZ时的物理图示。aSD从P位点结合8个核苷酸，导致“松弛弹簧”，很少甚至没有核糖体移位。aSD与P位点之间的距离为5个碱基。模拟图如图7所示。

图7.在密码子70处翻译lacZ时的模拟图。显示了来自松弛弹簧的能量。该能量由mRNA与16S“暴露尾巴”的aSD结合产生的自由能计算。aSD从P位点结合8个核苷酸，导致“松弛弹簧”，很少甚至没有核糖体移位。

图8.移位与未移位核糖体。左图)未移位核糖体的图示；A位点与0阅读框完美对齐。右图)在0阅读框和+1阅读框之间的移位核糖体导致未对齐的图示。A位点在0阅读框和+1阅读框中都能看到密码子，并且能够读取任一阅读框中的氨酰-tRNA。在该实施例中，核糖体可以拾取由ACG密码子编码的aa-tRNA或由CGG密码子编码的aa-tRNA。

图9.翻译延伸期间prfB的核糖体移位图。在框移位点(密码子26)移位向+2移位单元(1个核苷酸)移动，表示+1框移事件。

图10.翻译延伸期间prfB的核糖体等待时间图。在密码子26处的147个周期的高核糖体等待时间表明核糖体在框移位点停顿。这说明核糖体移位(图4.9)有助于核糖体等待时间。

图11.翻译延伸期间prfB的翻译瓶颈图。由于核糖体框移导致在框移位点的高核糖体等待时间在密码子26处产生了329个瓶颈。

图12.主要算法流程图。主要算法从A位点的密码子2开始。由自由能信号计算力。执行概率周期以确定每个密码子处的核糖体移位。在拾取aa-tRNA后，核糖体或者框移(frameshift)然后易位(translocate)，或者执行常规框内易位。如果终止密码子被识别，主要算法终止核糖体翻译模拟。

图13.lacZ的核糖体移位图。随着算法的进行，每个周期都会生成该图，并在每个密码子位置输出核糖体移位值。

图14.lacZ的核糖体等待时间图。该图生成为核糖体在每个密码子位置“拾取”aa-tRNA所需的周期数。

图15.翻译延伸期间lacZ的翻译瓶颈图。使用20个密码子大小的滑动窗口来说明部分之和。瓶颈(BNI)在密码子839处为174。

图16.基于尾巴tail:mRNA间距的自由能变化，(a)由16S rRNA暴露尾巴与距离A位点中心5个碱基的mRNA之间的结合来计算自由能值(ΔG_n)。(b)由16S rRNA暴露尾巴:mRNA结合距离A位点中心6个碱基，或向ΔG_n结合位置上游移动一个碱基来计算自由能值(ΔG_n-1)，(c)由16S rRNA暴露尾巴与距离A位点中心4个碱基或相对于ΔG_n结合位置下游移动一个碱基的mRNA之间的结合来计算自由能值(ΔG_n+1)。自由能计算见附录A.

图17.在密码子70处翻译lacZ的核糖体的模拟。在密码子70处，aSD与P位点的mRNA8个核苷酸结合(图5)，导致“松弛弹簧”。这由靠近A站点中心的最小能量来建模。因此，力的量级很小，导致很少甚至没有核糖体移位。用于计算连续能量函数的自由能ΔG_n-2、ΔG_n-1、ΔG_n、ΔG_n+1和ΔG_n+2显示在右下方。

图18.核糖体移位为0时的A-位点。A位点与0阅读框中的密码子完美对齐。因此，A位点“看到”所有密码子ccg，没有在+1或-1阅读框中的密码子。这由视图曲线VC₀处于其峰值和VC_-1和VC₊₁为零来建模。

图19.核糖体移位为1(相当于1/2核苷酸)时的A位点。A位点与0阅读框未对齐相差1/2核苷酸，因此“看到”一半的密码子ccg和+1阅读框中一半的密码子egg。这由视图曲线VC₀等于VC₊₁来建模。

图20.算法的图解说明。mRNA和16S rRNA“暴露尾巴”之间的结合使用可以计算力的连续自由能信号来进行建模。概率周期使用概率P_-1P₀、P_-1、P_n、视图曲线，aa-tRNA丰度，以及在等待下一个aa-tRNA的递送时移位核糖体的力。在aa-tRNA已经递送后，主要算法将核糖体向下游移动三个碱基，概率周期再次开始。

图21.从200个大肠杆菌基因的平均自由能观察到的周期信号[9]。

图22.prfB的翻译模拟。16S“暴露尾巴”的aSD与密码子26(停止)的P位点结合太近，3个核苷酸，并压缩将核糖体向最小能量移位的“弹簧”。

图23.在密码子70处lacZ的翻译模拟。aSD结合在距离P位点8个核苷酸，导致接近最小能量的“松弛弹簧”，很少甚至没有核糖体移位。

图24.野生型(顶部曲线)、密码子偏倚优化(中间曲线)和模型优化(底部曲线)的核糖体移位图。两项优化都会减少移位。

图25.野生型和优化基因的GST活性。模型优化的变体产生比野生型高大约11.6％的GST活性。CAI优化产生比野生型高4％。GST活性单位为(ΔABS_340nm/min)/ABS_562nm。误差棒表示一个标准偏差。CAI是密码子适应指数。TD是总移位。

图26.adh(醇脱氢酶，CLJU_C 11880，来自Clostridium ljungdahlii DSM 13528)的野生型(顶部曲线)和模型优化(底部曲线)的核糖体移位图。

图27.野生型和模型优化基因的ADH活性。优化的变体产生比野生型高45％的活性。ADH活性单位为(ΔABS_340nm/min)/ABS_562nm。误差棒表示一个标准偏差。CAI是密码子适应指数。TD是总移位。

图28.将基因插入pBAD/Myc-His C质粒。A)可从Thermo Fisher Scientific，Inc.获得的原始pBAD/Myc-His C质粒。B)克隆到pBAD/Myc-His C质粒中的基因。

具体实施方式

现在将参照附图更全面地描述目前公开的的主题，其中示出了目前公开的的主题的一些但不是全部实施例。相似的数字通篇均指相似的元素。目前公开的的主题可以以许多不同的形式实施，并且不应被解释为限于本文所阐述的实施例；而是提供这些实施例使得目前公开的将满足适用的法律要求。实际上，本文所阐述的目前公开的主题的许多修改和其他实施例将会被本领域技术人员考虑到，目前公开的涉及本领域技术人员具有前述描述和相关附图中呈现的教导的益处。因此，应当理解，目前公开的的主题不限于所公开的具体实施例，并且修改和其他实施例旨在被包括在所附权利要求的范围内。

蛋白质合成基础

翻译是使用mRNA作为编码序列从氨基酸合成功能性蛋白质的过程。翻译的基本组成部分是核糖体、mRNA、tRNA和氨基酸。核糖体解码mRNA以将氨基酸组装成多肽链，然后将其折叠为功能性蛋白质。tRNA用于将下一个氨基酸递送到核糖体，于此氨基酸连接到多肽链上。翻译分为三个阶段：起始、延伸和终止。在起始期间，核糖体亚基形成复合物以开始延伸。在延伸期间，核糖体在5'到3'方向上易位mRNA；在这个阶段，核糖体利用氨酰-tRNA(aa-tRNA)合成生长中的多肽链。终止时核糖体在终止密码子处识别释放因子并解离。

在起始前，核糖体已经解离成其30S和50S亚基。在起始中，核糖体的30S亚基附着于起始密码子上游Shine-Dai garno序列处的mRNA[23]。Shine-Dalgarno(SD)序列是16SrRNA的3'末端抗Shine-Dalgarno(aSD)的Watson-Crick补体[23]。一旦结合，30S亚基mRNA复合物通过起始因子1(IF1)、起始因子3(IF3)和起始子tRNA(fMet-tRNA)进一步稳定。IF1和IF3通过将mRNA和起始子tRNA(fMet-tRNA)置于30S的P位点从而引导30S组装，并防止50S和aa-tRNA过早缔合。fMet-tRNA是独特地带有阻止其与先前翻译的多肽的C末端结合的N-甲酰基-甲硫氨酸的起始子tRNA。这确保N-甲酰基-甲硫氨酸总是在多肽的开始处。起始因子2(IF2)与30S起始前复合物结合并识别起始子tRNA上的甲酰基；这进一步稳定30S:起始子tRNA相互作用。Marshall等人[24]显示IF2与30S起始复合物的结合加速了50S亚基与30S亚基的连接，以在旋转构型下形成70S起始复合物。他们的实验还表明，IF2的GTP水解使70S核糖体回到经典(非旋转)构型；在不存在IF2和GTP水解的情况下，核糖体不进入延伸期[24]。起始因子和GDP然后与核糖体:mRNA:起始-tRNA复合物分离，翻译进入准备接受第一氨酰-tRNA(aa-tRNA)的延长期。

延伸是起始后的步骤，其中核糖体读取mRNA上的每个独立密码子。这些密码子指定形成多肽链的不同氨基酸。核糖体包含三个位点：E、P和A。E位点是不带电荷的tRNA离开核糖体的位置。E位点旁边是P位点，于此处附着于aa-tRNA的氨基酸加入到多肽链中。A位点中的密码子决定了招募到翻译复合体的下一个aRNA。总之，延伸由三个主要步骤组成：aa-tRNA结合、转肽和易位。

第一步，aa-tRNA结合由aa-tRNA和位于A位点的密码子之间的密码子-反密码子相互作用驱动。为了发生这种情况，核糖体停顿，直到含有称为反密码子的正确的同源核苷酸三联体的aa-tRNA进入A位点。然而，这种相互作用只是松散地遵循规范的沃森-克里克碱基配对，这意味着单个aa-tRNA可以识别多于一个的密码子。延伸因子Tu(EF-Tu)也有助于这种相互作用，其结合aa-tRNA和GTP形成三元复合物。当这种复合物与核糖体相互作用时，GTP被水解成GDP。这降低了EF-Tu和核糖体之间的亲和力，其释放EF-Tu并将aa-tRNA留在A位点。具有aa-tRNA的EF-Tu/GTP复合物也用于核对正确的氨基酸被添加。

延伸的第二个主要步骤是转肽或肽键的形成。在该步骤中，A位点的aa-tRNA与位于P位点的肽基-tRNA相互作用。aa-tRNA上的氨基作为亲核试剂，并“攻击”在P位点的肽残基和tRNA部分之间的酯键中的羰基。这导致肽键从肽基-tRNA转移到aa-tRNA。从转肽获得的自由能有助于驱动延伸的下一步，易位。

延伸的第三步和最后一步是易位。这里，P位点中的脱酰基-tRNA通过E位点释放，并且A位点中新形成的肽基-tRNA转移到P位点。这使得A位点空置并准备好结合下一个aa-tRNA。该易位过程由延伸因子G(EF-G)催化。与EF-Tu类似，EF-G与GTP形成复合物并与核糖体结合。易位后，GTP水解为GDP，EF-G与核糖体之间的亲和力降低，从而从核糖体中释放EF-G。简而言之，易位如下构成，核糖体以受控运动即三个碱基一个密码子)的距离在框架中向起始密码子下游移动。

终止翻译涉及三种终止密码之一的识别：UAA、UAG或UGA[25、26、27、9、17、36]。重要的是要注意，终止密码子通常在其他阅读框中发现，这意味着在易位期间意外的框移通常会导致错误蛋白质的终止。终止密码子不编码任何氨基酸，而是诱导释放因子(RF1、RF2、RF3)的结合。RF1针对终止密码子UAA和UAG；而RF2针对UAA和UGA。RF3以类似于EF-Tu和EF-G的GTP依赖方式起作用。这些释放因子模拟A位点的aa-tRNA相互作用，并破坏肽基-tRNA酯键而不是通常的转肽，从P位点分离多肽链[26、27]。然后将GTP水解为GDP，释放因子从核糖体中释放出来。然后脱酰基-tRNA被释放，核糖体分成50S和30S亚基，终止翻译过程。

阅读框是基于mRNA的蛋白质编码区中的密码子的三个碱基组成来分析核苷酸序列的透视图。向编码序列添加或消除单个核苷酸会使阅读框移动。阅读框的变化可以大大改变多肽的一级序列并引起早期终止。由于遗传密码要求将三个核苷酸翻译为一个氨基酸，从固定的起始位置(由起始密码子设置)，存在可读取密码子的三个阅读框。由起始密码子定义的阅读框称为0阅读框。将从0框下游的一个碱基的框称为+1阅读框，而向上游移动一个碱基的框成为-1阅读框。基因组中的大多数编码区域在一个阅读框架中编码一个蛋白质，但已经观察到异常，例如重叠(内部)基因[28、29、30]和程序化的框移[31、32、33、34]。

框移是一种机制，其中核糖体相对于起始密码子移出0框并移入另外两个框中的一个。这与原始阅读框相比产生不同的氨基酸序列。有两种常见的框移类型：+1和-1框移。这些事件很少发生在自然界中；然而，一些基因已经演变成包含嵌入式框移。这些被称为“程序化”框移。一个+1程序化框移的例子是大肠杆菌中的prfB[31,33]。程序化框移现象已被深入研究，因为它有潜力揭示维持翻译过程中核糖体适当阅读框架的机制。已经详细研究了大肠杆菌中的模型基因prfB以确定与阅读框中的特定移动相关的序列特征。

起始和延伸期间蛋白质产量的决定因素

Salis等人[35]在2009年出版物中对翻译起始提供了广泛的分析。他们认为确定起始速率的四种分子相互作用是(1)16S rRNA与核糖体结合位点(RBS)杂交，(2)16S rRNA结合位点与起始密码子间隔，(3)封闭16S rRNA结合位点或备用位点的RNA二级结构，以及(4)fMet-tRNA与起始密码子的结合。这前三个决定因素是翻译起始建模的组成部分，并在此讨论。涉及第一个tRNA与起始密码子结合的第四个决定因素，稳定起始复合物并有助于向延伸的过渡。

翻译延伸模型的发展可往回追溯几十年。最近，出现了翻译的各种预测指标和优化方法[36、37、38、39、40、41]。预测指标和优化方法主要集中在延伸步骤，在此期间，核糖体沿mRNA易位，而tRNA将氨基酸转移至生长中的多肽链。

2014年，Vu等[42]还揭示了基于来自3'末端rRNA尾的抗Shine-Dalgarno序列与mRNA转录物之间的结合的二级自由能效应的另一个蛋白质产量决定因素。Vu等[42]描述了由这些二级自由能效应引起的新因子称为核糖体移位。核糖体移位(ribosomedisplacment)是A位点与正常“零”阅读框之间的错位(misalignment)，并在伸长期间是“累积”的，即在易位后未重置错位。这个范例表明核糖体在伸长期间具有“记忆”。

Vu等[42]使用完善的程序化框移基因prfB和dnaX作为建立其模型的基础。他们计算出一种“弹簧样”的反应力，在易位后使核糖体相对于mRNA移位。他们将这种移位称为次级核糖体运动(secondary ribosome movement)；易位是一级运动(primary movement)。通过使用物理学的基本定律(Δ能量＝-力·Δ距离)来计算16S rRNA暴露尾巴和mRNA之间的能量相互作用的变化来建模弹簧状反应。Vu等[42]称这种核糖体弹簧样反应为核糖体弹簧模型。核糖体弹簧模型卷积tRNA丰度、核糖体移位和弹簧样反应力来模拟延伸期间的次级核糖体运动。Shultzaberger等[43]和Salis等[35]在研究起始时起始密码子间隔的最佳SD时也提及核糖体像“刚性弹簧”起作用。Tinoco等[44]还提出，“弹性”16S rRNA aSD：SD螺旋产生-1框移。Vu等[42]然后使用核糖体弹簧模型来优化异源蛋白质生产。弹簧状力可以实现为自由能正弦信号的“相位”变化。通过使用同义密码子改变基因的密码子，可以将该力减至最小以减少核糖体移位并提高蛋白质产量。Vu等[42]描述了使弹簧状力和核糖体移位最小化的自由能正弦信号的“相”。这个相被称为“物种角”，正如其名称所暗示的那样，对于每个生物体都是独一无二的。通过最小化移位，Vu等[42]优化了两种基因的蛋白质生产：来自日本血吸虫Schistosoma japonicum的谷胱甘肽S-转移酶(GST)和来自扬氏梭菌Clostridium ljungdahlii的醇脱氢酶(ADH)。用他们的模型优化的GST显示比野生型增加了11.6％，相比之下CAI优化的GST比野生型增加了4％。优化基因的ADH与野生型相比高45％。核糖体弹性模型考虑到核糖体移位、tRNA丰度和类似弹簧的反应力，以在每个密码子处产生“等待时间”参数。最小化这些等待时间参数对于有效生产蛋白质至关重要[42]。

预测和优化蛋白质产量和聚集的方法

无效的异源蛋白质合成通常归因于密码子偏倚和稀有密码子。新的实验证据表明，单独的密码子偏倚可能不是翻译不良的唯一原因。目前公开的的主题提供了基于自由能的翻译延伸模型以预测和优化蛋白质产量和聚集。该模型考虑了3'末端rRNA尾的抗Shine-Dalgarno序列与mRNA之间的结合、tRNA丰度和核糖体移位的二阶自由能效应。该模型和软件允许优化基因以增加或减少蛋白质产量以及增加或减少的蛋白质聚集。如下面的实施例所述，通过优化和表达编码GST(来自日本血吸虫(Schistosoma japonicum)的26kDa谷胱甘肽S-转移酶)的三种模型基因和多种mRNA变体来评估模型的预测和优化准确性。优化基因的蛋白质产量显示出比野生型水平的增加。以下实施例讨论了来自日本血吸虫(Schistosoma japonicum)的谷胱甘肽S-转移酶和来自扬氏梭菌(Clostridiumljungdahlii)DSM 13528的酒精脱氢酶的优化。

因此，一方面，提供了用于预测基因翻译的蛋白质产量的方法，所述方法包括：(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；和(b)确定遍及编码区的密码子的总周期计数；其中所述遍及编码区的密码子的总周期计数与蛋白质产量相关。

另一方面，提供了用于预测基因翻译的蛋白质产量的方法，所述方法包括：(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；(b)绘制翻译瓶颈图，其中所述图包括包含大小为N个密码子的滑动窗口内的周期总和的值；和(c)确定翻译瓶颈图中的最大总和；其中所述翻译瓶颈图中的最大总和与蛋白质产量相关。

在另一方面，提供了用于增加基因翻译蛋白质产量的方法，所述方法包括：(a)进行上述任一种用于预测基因翻译的蛋白质产量的方法，和(b)在改变力和/或等待时间的同时使用保留蛋白质氨基酸序列的同义密码子修改密码子；其中所述基因翻译的蛋白质产量增加。在进一步的方面，步骤(b)包括修改密码子，使得核糖体等待时间减少。在进一步的方面，通过选择基本相等于所述基因种类角度的所述基因相位角，使所述核糖体移位量级最小化。

在另一方面，提供了用于降低基因翻译蛋白质产量的方法，所述方法包括：(a)进行上述任一种用于预测基因翻译的蛋白质产量的方法，和(b)在改变力和/或等待时间的同时使用保留蛋白质氨基酸序列的同义密码子修改密码子；其中所述基因翻译的蛋白质产量降低。在进一步的方面，步骤(b)包括修改密码子，使得核糖体等待时间减少。

已知蛋白质聚集是由于非最佳核糖体翻译速度[117]导致的错误折叠引起的[117、119、120]。还知道某些蛋白质编码区域需要不同的时间来正确折叠[118]。因此，可以推断，关键编码区域的翻译速度变慢会降低蛋白质聚集。因此，在另一方面，提供了用于预测蛋白质聚集的方法，所述方法包括：(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；和(b)确定遍及编码区的密码子的总周期计数；其中所述遍及编码区的密码子的总周期计数与蛋白质聚集相关。

在另一方面，提供了用于预测蛋白质聚集的方法，所述方法包括：(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；(b)绘制翻译瓶颈图，其中所述图包括包含大小为N个密码子的滑动窗口内的周期总和的值；和(c)确定翻译瓶颈图中的最大总和；其中所述翻译瓶颈图中的最大总和与蛋白质聚集相关。

在另一方面，提供了用于增加蛋白质聚集的方法，所述方法包括：(a)进行上述任一种用于预测基因翻译的蛋白质产量的方法，和(b)在改变力和/或等待时间的同时使用保留蛋白质氨基酸序列的同义密码子修改密码子；其中所述蛋白质聚集增加。在进一步的方面，步骤(b)包括修改密码子，使得核糖体等待时间减少。

在另一方面，提供本文公开的任何方法，其中所述基因来自原核生物，并且所述核糖体的3'末端rRNA尾巴是16S rRNA尾巴。在另一方面，提供本文公开的任何方法，其中所述基因来自原核生物。在不限制目前公开的主题的范围的情况下，本文公开的任何方法可适用于来自原核生物的基因，包括但不限于，不动杆菌、放线杆菌、放线菌素、放线菌素化脓性链球菌、嗜水气单胞菌、粪产碱杆菌、尿囊虫、变形杆菌、变形杆菌、拟杆菌、脆弱拟杆菌、拟杆菌黑素生成菌、卵形拟杆菌、Bacteriodes thetaiomicion、单形拟杆菌、空肠弯曲菌、白色念珠菌、二氧化碳嗜纤维菌、CDC组Ivc、沙眼衣原体、弗氏柠檬酸杆菌、难辨梭状芽孢杆菌、溶组织梭菌、Clostridium ljungdahlii、产气荚膜梭菌、败血性梭菌、污泥梭状芽胞杆菌、生孢梭菌、白喉棒状杆菌、Corynebacterium pseudodoi.、大肠杆菌、大肠杆菌0157-H7、大肠杆菌β内酰胺酶阳性、产气肠杆菌、阴沟肠杆菌、粪肠球菌、慢杆菌、毛细血管杆菌、梭杆菌、嗜铬杆菌、副流感嗜血杆菌、流感嗜血杆菌、无嗜性嗜血杆菌、克雷伯氏菌、肺炎克雷伯杆菌、克雷伯氏菌、军团菌、嗜肺军团菌、乳酸明串珠菌、明串珠菌、李斯特菌、Mima、Mycobacterium avium intracellulars、Mycobacterium flavescen、Mycobacteriumgordoniae、Mycobacterium terra组、结核分枝杆菌、奈瑟氏球菌、淋病奈瑟氏球菌、内酰胺奈瑟菌、脑膜炎奈瑟菌、奈瑟氏梭菌、巴西诺卡氏菌、多杀巴斯德氏菌、奇异变形杆菌、普通变形杆菌、假单胞菌(菌株I)、假单胞菌(菌株II)、霍乱沙门氏菌、都柏林沙门氏菌、慕尼黑沙门(氏)菌、副伤寒沙门氏菌、鼠伤寒沙门氏菌、日本血吸虫、沙雷氏菌、鲍氏志贺菌、痢疾志贺菌、弗氏志贺菌、Shigella sonner、金黄色葡萄球菌、Staphylococcus epi.、Staphylococcus saphrophy、链球菌α、链球菌β(C组)、链球菌β(F组)、牛链球菌、粪链球菌、链球菌B组、Streptococcus mitis、变形链球菌、肺炎链球菌、光滑球拟酵母、齿垢密螺旋体、梅毒螺旋体、雅司螺旋体、Treponema phagedenas、Treponema refrigens、Vibroparuhen和小肠结肠炎耶尔森氏菌

已知在翻译起始[124]和延伸[121、122、123]期间，18S尾巴与真核生物中的mRNA相互作用。因此，18S尾巴可用于真核生物模型。因此，在另一方面，提供了本文公开的任何方法，其中所述基因来自真核生物，并且核糖体的3'末端rRNA尾巴是18S rRNA尾巴。术语“真核生物”是指有核细胞或有机体。在不限制目前公开的主题的范围的情况下，本文公开的任何方法可适用于来自真核生物的基因，所述真核生物包括但不限于，昆虫细胞、植物细胞、哺乳动物细胞、动物细胞和低等真核细胞。术语“低等真核细胞”包括酵母和丝状真菌。酵母和丝状真菌包括但不限于，巴斯德毕赤酵母、芬兰毕赤酵母、嗜碱性毕赤酵母、Pichiakoclamae、膜醭毕赤氏酵母、Pichia minuta(Ogataea minuta,Pichia lindneri)、Pichiaopuntiae、Pichia thermotolerans、Pichia salictaria、Pichia guercuum、Pichiapijperi、Pichia stiptis、甲醇毕赤酵母、毕赤酵母属、酿酒酵母、酵母属、多形汉逊酵母、克鲁维酵母属、乳酸克鲁维链酵母、白色念珠菌、构巢曲霉、黑曲霉、米曲霉、里氏木霉、Chrysosporium lucknowense、镰孢属、禾谷镰刀菌、镰孢霉、小立碗藓和粗糙脉孢菌、毕赤酵母属、任何酵母属、多形汉逊酵母、任何克鲁维酵母属、白色念珠菌、任何曲霉属、里氏木霉、Chrysosporium lucknowense、任何镰孢属和粗糙脉孢菌。

在另一方面，提供计算机可读介质，其被编程为执行本文公开的任何方法步骤中的一个或多个。任何合适的计算机可用介质可用于本发明的软件方面。计算机可用或计算机可读介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质可以包括暂时和/或非暂时的实施方式。计算机可读介质的更具体的示例(非详尽列表)将包括以下部分或全部：具有一条或多条电线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储器件、传输介质例如支持因特网或内联网的那些传输介质或磁存储设备。请注意，计算机可用或计算机可读介质甚至可以是打印程序的纸张或其他合适介质，因为程序可以通过例如纸张或其他介质的光学扫描被电子捕获，然后编译、解释或以其他方式处理，必要时，然后存储在计算机存储器中。在本文档的上下文中，计算机可用或计算机可读介质可以是可以包含、存储、通信、传播或传送程序以供由指令执行系统、装置或设备使用或与之连接的任何介质。

一般定义

尽管这里采用了具体的术语，但它们仅在通用和描述性意义上使用，而不是为了限制的目的。除非另有定义，本文使用的所有技术和科学术语具有的含义与目前公开的主题所属领域的普通技术人员通常理解的相同。

根据长期以来的专利法惯例，“a”、“an”和“the”一词在本申请中使用时包括“权利要求”中的“一个或多个”。因此，例如，除非上下文清楚地相反(例如，多个主题)等等，否则提及“主题”时包括多个主题。

在本说明书和权利要求书中，术语“包括”以非排他性的方式使用，除非上下文另有要求。同样地，术语“含有”及其语法变体旨在非限制性的，使得列表中的项目的叙述不排除可替换或添加到列出的项目中的其他类似项目。

为了本说明书和所附权利要求的目的，除非另有说明，表示本说明书和权利要求书中使用的数目、大小、尺寸、比例、形状、配方、参数、百分比、参数、数量、特性所有数字，以及其他数值，被理解为在所有情况下都被术语“约”修饰，即使术语“约”可能不与数值、数量或范围明确地出现。因此，除非有相反的指示，否则下列说明书和所附权利要求中阐述的数值参数不是并且不需要是精确的，而是可以根据需要近似和/或更大或更小，反映公差、转换因子、舍入、测量误差等，以及本领域技术人员已知的其它因素，这取决于目前公开的主题寻求获得的期望性质。例如，当涉及一个值时，术语“约”可以意在包括在一些实施例中±100％，在一些实施例中±50％的变化，在一些实施例中±20％，在一些实施例中±10％，在一些实施方案中±5％，在一些实施方案中±1％，在一些实施方案中±0.5％，在一些实施方案中±0.1％的与具体数量的变化，这些变化适于进行所公开的方法或使用所公开的组合物。

此外，当与一个或多个数字或数值范围相关地使用时，术语“约”应当被理解为指所有这样的数字，包括一个范围内的所有数字，并通过将所阐明的数值上方和下方的边界延伸来修改该范围。通过端点对数值范围的表述包括包含在该范围内的所有数字，例如全部整数，包括其分数(例如，表述1至5包括1、2、3、4和5以及分数例如1.5、2.25、3.75、4.1等)和该范围内的任何范围。

实施例

已经包括以下实施例以向本领域普通技术人员提供用于实践目前公开的主题的代表性实施例的指导。鉴于本公开和本领域的一般技术水平，本领域技术人员可以理解，以下实施例仅旨在是示例性的，并且在不脱离本公开主题的范围的情况下，可以采用许多改变、修改和变更。以下的综合(synthetic)描述和具体实施例仅用于说明的目的，而不应被解释为以任何方式限制本发明的方法。

实施例1

翻译延伸的新生物物理模型

发现周期性自由能信号

从翻译期间的16S rRNA 3'末端“暴露尾巴”(3'-AUUACCUCCACUAG-5')和mRNA之间的平均Watson-Crick结合观察到周期性自由能信号，如图1所示[45,46]。最突出的结合能是在启动时，这对应于“暴露尾巴”的抗Shine-Dalgarno(aSD)结合Shine-Dalgarno(SD)序列。之后，在延伸期间存在对应于“框内”核糖体易位的周期性(正弦曲线样)结合信号(其中负自由能指示结合)[45、46、47]。该周期性信号的傅里叶变换显示出频率为每个核苷酸1/3周期的突出峰值[46、48]。这说明在延伸期间，暴露的尾巴在每个密码子处与mRNA结合。然而，在达到终止密码子后，信号迅速衰减，这表明核糖体已停止翻译，如图2所示。Li等[49]的核糖体分析实验提供了在延伸期间16S rRNA“暴露尾巴”和mRNA之间连续相互作用的物理证据。Weiss等[50]和Larsen等[51]还显示，16S rRNA“暴露尾巴”的aSD与mRNA结合以产生程序性的翻译框移；他们的观察意味着暴露的尾巴在伸长期间与mRNA相互作用。Li等[49]、Weiss等[50]和Larsen等[51]为周期性自由能信号提供了确证的物理证据，这表明16S rRNA“暴露尾巴”在延伸期间与mRNA相互作用。不受理论的约束，提出16S rRNA尾巴:mRNA结合的功能目的是使将核糖体保持在正确的阅读框中，或者换言之，结合用作阅读框的维护。异源蛋白质翻译破坏了这种结合，因此“移位”核糖体。这种周期性的自由能信号启发了如下进一步描述的翻译延伸的新机械“弹簧”模型。

核糖体弹簧模型

使用累积幅度和相位方法分析大肠杆菌基因prfB的自由能信号显示在框移位点的幅度和相位的自由能的变化[45、52]。使用物理学的基本定律，可以计算在框移位点施加在核糖体上的力：

Δ能量＝-力·Δ距离

这激发了使用16S rRNA 3'末端:mRNA结合的二级自由能效应进行翻译延伸的核糖体“弹簧”模型的发展，这解释了框移并阐明了关键概念：核糖体移位。还开发了核糖体弹簧模型，以预测和优化异源蛋白质生产应用中的蛋白质产量[53]。

随着核糖体沿着mRNA易位，16S rRNA 3'末端与核糖体上游的碱基相互作用[49、50、51]，如图3所示。如果结合能足够大并且处于有利于正常框内结合的“错误”侧，16SrRNA:mRNA之间的结合就像一个弹簧，并且可能在核糖体上施加额外的力并使其移位。在极端情况下，可能会发生框移。使用正弦曲线或多项式曲线对“弹簧状”反作用力建模。

例如，在+1程序框移基因prfb(图4)中，16S暴露尾巴的aSD与P位点上游3个碱基(图4中的UAU)的SD样序列结合[50]，导致结合能为-9.5kcal/mol。这种结合太靠近P位点，从而压缩尾巴和核糖体之间的距离。它的行为就像一个压缩的弹簧，松弛时将核糖体向下移移位四分之三进入+1阅读框中，此时弹簧处于最小的能量。移位的核糖体然后在+1框中拾取氨酰-tRNA。这导致了一个碱基的框移，之后保持新的阅读框[45、47、52]。

相比之下，dnaX的-1框移基因中的SD与P位点相距10个碱基[51]。这种结合拉伸了“弹簧”，并将核糖体向后移位以产生“部分”框移(其上核糖体现在位于阅读框之间，产生τ和γ亚基)[51]。Tinoco等最近的光学镊子和结构实验[54]表明aSD与SD样序列形成弹性螺旋，以产生-1程序框移。

图6显示了lacZ框内翻译期间的大肠杆菌16S aSD。该位点周围的结合能范围为0至-1kcal/mol。因为aSD与P位点相距8个核苷酸，所以“弹簧”处于“松弛”状态。尽管零阅读框和A位点之间略有不对准，但是没有足够的“弹簧力”导致框移。有趣的是，延伸期间松弛弹簧中aSD和5个核苷酸的P位点之间的间距也对应于起始时的最佳SD和起始密码子的间隔，这由Chen等观察到[55]。不受理论的束缚，提出当翻译起始位点的SD和起始密码子之间的“最佳”间距为5至8个碱基时，也会发生“松弛的弹簧”状态[55、56、57]。这种弹簧的压缩或拉伸导致了提出的概念：核糖体移位。

核糖体移位(Displacement)

核糖体移位是由上述“弹簧”的力引起的在核糖体A位点和正常0阅读框之间的错位(参见图8)。这种错位(misalignment)是核苷酸的一部分级别的距离。核糖体被移位的程度取决于力量的强度和0阅读框中密码子的aa-tRNA丰度。例如，如果力大，并且0阅读框中的密码子的aa-tRNA丰度也很高，那么移位将被减轻。然而，如果力大，0阅读框中的aa-tRNA丰度低，则移位将被放大。由于tRNA结合被破坏，更多移位的核糖体将需要更长的时间在两个可用阅读框的两个aa-tRNA中进行选择；因此，这增加了核糖体“等待时间”。三个阅读框中密码子的aa-tRNA丰度对核糖体等待时间有重要影响；这是通过下文进一步描述的tRNA结合竞争来建模的。移位的核糖体也可以在+1或-1阅读框中拾取错误的aa-tRNA，如图8所示。

核糖体移位(displacement)是累积的，并且在易位(translocation)后不复位。这表明核糖体在翻译延伸期间具有“记忆”。由于核糖体具有记忆功能，所以通过使用“慢”密码子和有利的力，核糖体移位可以在mRNA的任何位置“固定”。“慢”密码子是使用低丰度aa-tRNA的密码子。例如，如果核糖体朝向+1阅读框移位，则与慢密码子相连的朝向5'端的力(建模为延伸的弹簧)可重新对准核糖体。

在模型中，一个移位单元对应于半个核苷酸的错位。两个移位单位是一个完整核苷酸的错位或阅读框中的偏移。在翻译延伸期间的每个密码子处计算核糖体位移。图9显示用于翻译+1程序框移基因prfB的核糖体移位图。

翻译延伸动力学

起始后，核糖体进入延伸期。在延伸期间，核糖体等待下一个氨酰-tRNA(aa-tRNA)的递送。在递送aa-tRNA之后，转肽酶在多肽链从肽基-tRNA(p-tRNA)转移到aa-tRNA的位置开始。这触发核糖体的旋转进入杂交构象，其中p-tRNA和aa-tRNA的受体末端波动。30S头的旋转和EF-Tu:GTP复合物的结合稳定了这种波动，并从核糖体“解锁”mRNA以准备易位。GTP的EF-Tu水解将核糖体向下游易位3位核苷酸。不受理论的束缚，提出在mRNA被“解锁”易位之后，16S rRNA“暴露的尾巴”与mRNA结合，并且像弹簧一样以+1或-1阅读框移位核糖体，同时等待下一个氨酰-tRNA的递送。在这个阶段，核糖体也转回了经典的构象。核糖体被移位的程度是力大小和核糖体必须等待递送下一个氨酰-tRNA的时间的函数，这与aa-tRNA丰度有关。由于tRNA结合破坏，移位更多的核糖体必须等待更长的时间才能获得下一个氨酰-tRNA。移位的核糖体也更有可能从+1或-1阅读框中拾取错误的氨酰-tRNA。在核糖体获取下一个aa-tRNA后，核糖体进入转肽，周期重复。

不受理论的束缚，提出这种弹簧机制用于在翻译天然基因时将核糖体保持在合适的阅读框架中，但程序化框移除外。其结果是，这种机制的目的是减少易位产生的“噪音”；即易位并不总是将核糖体完全移动三个核苷酸，而是大约3个核苷酸加或减核苷酸的一部分。这种“噪音”是由于将水解能转化为动能以易位核糖体的熵。翻译异源基因破坏了“正常演化的”16S rRNA尾巴:mRNA结合，这反过来可能导致一个增加核糖体等待时间、造成瓶颈或引起框移的移位核糖体。像prfb和dnaX中发现的程序化的翻译框移位点[50、51、54、58、59]，其效率依赖于上述核糖体相互作用。程序化翻译框移背后的机制[53、54]支持该模型，并且与正常翻译延伸期间的核糖体动力学直接相关。

核糖体等待时间

每个密码子处的核糖体“等待时间”作为来自弹簧的力、核糖体移位和tRNA丰度的函数来计算。该模型计算在翻译延伸期间每个密码子处的核糖体“等待时间”。“等待时间”的输出以“周期”为单位，作为核糖体负载下一个aa-tRNA所需的时间的量度，并在下面进一步描述。图10显示了框移基因prfB的核糖体“等待时间”图。正在“移位”时，核糖体在框移位点(密码子26)“暂停”。Li等[49]还提出由于SD:aSD结合，核糖体在prfB中类似SD的序列处“暂停”然而，他们并没有为该暂停提出生物物理机制。

总等待时间是在每个密码子处的所有核糖体等待时间的总和。总等待时间可以用作基因翻译效率的指标。

翻译瓶颈

虽然总等待时间是蛋白质产量的一个很好的“全局”预测因子，但是“局部”预测指数可能是更好的估计量。由于mRNA被多个核糖体同时翻译成蛋白质，所以在局部邻近聚集的多个“慢”翻译区可能比分布在基因上的阻碍区域更有害。两个基因可以具有相同的总周期但不同的“慢”翻译聚类位点。这被称为“翻译瓶颈”或“核糖体交通堵塞”。为了计算局部翻译瓶颈指数，使用大小为20个密码子(的求和滑动窗口即，mRNA上的近似核糖体足迹[67])。核糖体“等待时间”在该窗口内相加并绘制在翻译瓶颈图上，如图11所示。然后将窗口提前一个密码子，并重新计算和，然后绘制为下一个值。交通堵塞原则指出，基因的翻译效率受到翻译最慢的区域的瓶颈限制。因此，使用翻译瓶颈图(图11)的最大峰值(BNI)作为产量预测指标来确定基因的翻译效率；最大峰值代表翻译过程中最慢的区域。BNI代表瓶颈指标，显示核糖体交通堵塞最慢的位置。计算翻译瓶颈图和BNI的数学如下所述。BNI相当于翻译瓶颈图中的最大总和。在起始和终止期间也存在瓶颈；但是，这些不是在模型中自动计算的。起始和终止的瓶颈可以手动加入，以改善蛋白质产量预测。

基因优化

不受理论的约束，假设通过使用最丰富的aa-tRNA保持基因移位接近零并最大化tRNA到达时间，降低了核糖体等待时间和翻译瓶颈，因此增加了蛋白质产量。接近于零的移位可确保A位点靠近零阅读框。这可以通过选择编码最丰富的aa-tRNA的密码子，同时保持基因的相位角接近于“物种角”来实现[53]。这在移位期间导致最小的“弹簧”压缩或延伸，并因此使力和移位最小化。以这种方式进行优化通过使用最丰富的tRNA，并通过最小化移位使tRNA结合精度最大化从而提高核糖体速度。结果是核糖体等待时间和翻译延伸的翻译瓶颈将会减少。因此，总核糖体等待时间和BNI也将降低。通过使用同义密码子改变遗传序列，同时保留氨基酸序列形成融合这些概念的基因设计。相反，可以改变基因使蛋白质生产“不太优化”。蛋白质产量的降低，潜在的途径优化和生产“有毒”蛋白质的应用可以通过保持移位远离0但在-1和+1之间以避免可能的框移来实现。这增加了每个密码子处的核糖体等待时间。

当aa-tRNA丰度池负担过重和耗尽时，该方法在低mRNA转录水平下是可行的。然而，在高mRNA转录水平，最好在许多不同的tRNA(编码相同的氨基酸)之间分散工作量，而不是使用单个tRNA或单组tRNA。这涉及tRNA由不带电到带电的“再充电”率[60、61、62、63]。还需要保持接近物种角，同时跨多个tRNA分散工作量，以避免移位核糖体。

使用45种不同的tRNA物种编码20个氨基酸的61个密码子[64]。这意味着氨基酸具有编码多个aa-tRNA的多个密码子。例如，丝氨酸具有编码4种不同丝氨酸-tRNA的6个密码子。这在Crick等人的摇摆现象中有所解释[65]。然而，并不是所有的密码子都代表最丰富的tRNA。例如，缬氨酸有四个密码子(GUA、GUC、GUG、GUU)编码三个缬氨酸-tRNA(val 1、val2a、val2b)[64]。所有三种tRNA只有GUU密码被认为是“编码最丰富的tRNA的密码子”。GUA和GUG编码val1，GUC编码val2a和val2b。tRNA val1是三种缬氨酸-tRNA中最丰富的。第二大密码子是GUA和GUG；tRNA abudance信息可以在Dong等[64]中找到。表1列出了密码子的氨基酸、密码子、tRNA和tRNA丰度。当密码子编码多于一个tRNA时，使用相应tRNA的丰度之和；即缬氨酸密码子GUU的tRNA丰度是val1、val2a和val2b tRNA的丰度之和。表1还显示了基因优化中的密码子偏好。只列出了编码多个tRNA的氨基酸。

表1.每个密码子的氨基酸、密码子、同源tRNA和tRNA丰度

从Dong等[64]获得的tRNA丰度和同源tRNA信息。从Dong等的表3获得的tRNA丰度，使用0.7加倍/小时。*表示用于优化的优选密码子。**表示次要优选密码子。

结论

已经开发了用于翻译延伸的新的基于计算的生物物理模型来阐明框移基因prfB、dnaX并且模拟在正常翻译延伸期间通过mRNA的核糖体动力学。该模型融合了16S rRNA尾巴和mRNA相互作用的能量充沛的“弹簧”、核糖体移位和aa-tRNA丰度，导致了感兴趣的基因的核糖体“等待时间”参数。从那些等待时间参数，可以确定翻译瓶颈的位置。

这代表了评估核糖体动力学和翻译效率的综合策略。该模型作为完全实施的软件包(RiboScan^TM)存在，为蛋白质生产工程提供了新的方法；该软件包将作为[66]的网络服务器发布。该模型可用于预测和优化大肠杆菌中异源蛋白质生产的基因，可扩展到不同的生物有机体，并具有从完整基因组序列预测蛋白质合成水平的潜在应用。

实施例2

算法和数学

已经包括以下实施例以向本领域普通技术人员提供用于实践当前公开的主题的代表性实施例的指导。以下的具体示例和方程仅用于说明的目的，并且不应被解释为以任何方式限制本发明的方法。

如上所述的核糖体弹簧模型和核糖体移位使用步长积分器和“概率周期”算法进行建模。这种概率周期算法使用与拾取氨酰-tRNA(aa-tRNA)的概率卷积的力计算在每个密码子处的核糖体移位和核糖体“等待时间”。核糖体以每个“周期”移位，步长函数计算为力乘以步长常数δT(dT)；一个周期被定义为核糖体没有拾取aa-tRNA的状态。概率周期在下面进一步描述。

可以使用物理学基本规律计算施加在核糖体上的力：力等于相对于距离变化的负能量变化。自由能信号捕获16S rRNA尾巴:mRNA相对于距离(移位)的能量结合，并使用正弦曲线或多项式进行建模。因此，弹簧的力被计算为自由能信号的负导数；自由能信号的导数表示相对于距离变化的能量变化。力和自由能信号的计算在下面进一步描述。

使用三个概率来确定核糖体是否从三个阅读框架中“拾取”aa-tRNA。使用另一个概率来确定核糖体是否没有拾取aa-tRNA，并且“不做任何事情”重新执行周期。拾取aa-tRNA的概率计算为三个阅读框中密码子的“视图曲线”和aa-tRNA丰度的函数。视图曲线建模A位点“看到”三个阅读框中的每个密码子作为核糖体移位的函数的程度。视图曲线和aa-tRNA丰度的描述在下面进一步描述。

核糖体拾取下一个aa-tRNA后，周期结束，核糖体易位到下一个密码子。核糖体移位是累积的，并且在易位后不复位。在每个密码子处执行“概率周期”算法，直到达到终止密码子。“主算法”监督所有子算法的执行。算法的输入是：1)16S rRNA“暴露尾巴”的13个核苷酸，2)起始密码子前15个核苷酸的mRNA序列，3)每个密码子的aa-tRNA丰度。

主算法

主算法用核糖体A位点中密码子2和P位点中密码子1开始模拟翻译。核糖体移位被初始化为0。离散的自由能信号被转换成由正弦曲线或多项式建模的连续自由能信号。然后将正弦曲线或多项式叠加到以核苷酸为单位的移位上；这种连续的自由能信号代表了16SrRNA尾巴:mRNA结合的刚性“弹簧”。可以通过取在当前核糖体移位评估的连续自由能信号的导数来计算弹簧的力。

概率周期使用与拾取aa-tRNA的概率卷积的步长函数计算每个密码子处的核糖体移位；即每个周期的核糖体被步骤大小函数移位，直到它拾取aa-tRNA。步长函数被计算为在当前移位处评估的力乘以步长δT(dT)。核糖体位移每周期变化；因此，施加在核糖体上的力也发生变化。在核糖体拾取aa-tRNA后，核糖体将1)如果在+1或-1阅读框中拾取错误的aa-RNA，则移位，或者2)如果在0阅读框中拾取aa-tRNA，则进行正常的阅读框内易位到下一个密码子。

来自前一个密码子的核糖体移位是累积的，不会重置。在移位后，从新的核糖体移位位置处新的连续自由能信号计算出来新的力，并为该密码子执行“概率周期”算法。每个密码子处的核糖体“等待时间”由概率周期执行次数确定；等待时间是核糖体拾取aa-tRNA所需的周期数的量度。执行主算法直到终止密码子被识别，终止核糖体翻译模拟。主算法的流程图参见图12。

概率周期

概率周期算法使用与拾取或不拾取aa-tRNA的概率卷积的步长函数计算每个密码子处的核糖体位移。核糖体在每个周期中通过步长函数移位，该函数计算为当前核糖体移位处的力乘以步长常数delta T(dT)，如下所示。力计算如下进一步描述。dT是可以调整的参数。由于核糖体移位也发生改变，每次周期重新执行时，力都会发生变化。因此，力和核糖体移位是相互依赖的。

RD_新＝RD_当前+力(RD_当前)·dT

RD_新是在每个周期计算的新的核糖体移位，RD_当前是当前的核糖体移位，dT是步长常数。在翻译开始时，RD_当前被初始化为0。RD_新在每个周期开始时变为RD_当前。RD_当前不复位，并在易位后保持相同的值。

概率周期重复，直到核糖体已经拾取了由四个概率建模的aa-tRNA。四个概率被定义为P_-1、P₀、P₊₁和P_n，其中P_-1、P₀和P₊₁分别是在-1、0、+1阅读框中拾取aa-tRNA的概率，P_n是未拾取aa-tRNA并重复循环的概率。

根据“视图曲线”(A位点“看到”各个阅读框中的密码子的程度)和各个阅读框的aa-tRNA丰度来计算拾取aa-tRNA的概率。移位更多的核糖体“看到”较少的0阅读框中的密码子和更多的相邻阅读框中的密码子。在给定的阅读框中拾取aa-tRNA的概率是A位点看到的密码子多少(如视图曲线所示)，以及该密码子的aa-tRNA丰度的产物。因此，与未移位的核糖体相比，移位的核糖体具有更小的在0阅读框中拾取aa-tRNA的机会，以及更大的在相邻阅读框中拾取aa-tRNA的机会。视图曲线和aa-tRNA丰度在下面进一步描述。

通过相对于其他概率具有最大值来定义“获胜”的概率。如果P₀“获胜”(即核糖体已经在0阅读框中拾取了aa-tRNA)，则概率周期终止，并且核糖体在框内易位到下一个密码子。如果P_-1获胜，则核糖体在-1阅读框中拾取aa-tRNA，“框移”到-1阅读框，然后在新的阅读框中易位。如果P₊₁获胜，则核糖体在+1阅读框中拾取aa-tRNA，“框移”到+1阅读框，然后在新的阅读框中易位。在上下文中，“框移”意味着下一个密码子的概率和力是从新阅读框的角度来计算的，而不是0阅读框；核糖体移位仍然保持不变。如果P_n获胜，核糖体仍然等待aa-tRNA的递送，并且该算法重新执行概率周期；因此，核糖体再次通过步长函数移位，并且概率被重新计算。概率周期持续到P_-1、P₀或P₊₁获胜。P_-1、P₀和P₊₁分通过计算在每个周期i不拾取aa-tRNA 的概率，然后如下从1中减去这些概率从而在每个周期i“累积”地计算P_-1、P₀和P₊₁。

i是当前周期的指标；因此将是从前一个周期计算的概率。NF是补偿dT变化的归一化常数。VC_-1、VC₀、VC₊₁分别是-1、0、+1阅读框的视图曲线。RD_当前是目前的核糖体移位。TA_-1、TA₀、TA₊₁分别是-1、0、+1读码框中密码子的aa-tRNA丰度。观察曲线和aa-tRNA丰度在下面进一步描述。因此，P_-1 ⁱ、P₀ ⁱ、P₊₁ ⁱ可以计算为：

且P_n计算为：

P_n＝1-(P_-1 ⁱ+P₀ ⁱ+P₊₁ ⁱ)

以这种方式建模P_n意味着相应阅读框的aa-tRNA竞争结合核糖体的A位点。

“概率周期”伪代码：

//初始条件：

核糖体移位(RD)＝0，dT＝0.004，周期计数＝0

归一化常数(NF)＝dT/0.004

//在密码子2开始概率周期

//在周期开始的时候，不拾取tRNA的概率设定为1

//周期开始

1.RD_新＝RD_当前+力(RD_当前)*dT//移位核糖体

2.RD_当前＝RD_新//RD是核糖体移位

3.计算累积概率：//未拾取aa-tRNA的概率

i.

ii.

iii.

4.计算P_-1、P₀、P₊₁、P_n//拾取aa-tRNA的概率

i.

ii.P_n＝1-(P_-1、P₀、P₊₁)之和

5.周期计数＝周期计数+1//计算核糖体等待时间

6.重复#1，直到Pn小于P_-1、P₀或P₊₁。

//周期结束

7.在此密码子处的核糖体“等待时间”＝周期计数

8.在此密码子处的核糖体移位＝RD_当前

9.如果核糖体移位大于+1个单位，则“框移”到+1阅读框并易位

10.如果核糖体移位小于-1个单位，则“框移”到-1阅读框并易位

11.如果核糖体移位在-1和+1单位之间，则在框内易位到下一个密码子

12.保持易位后当前核糖体移位(RD_当前)相同。不要重置

13.周期计数＝0//复位概率和每个周期周期计数

14.为下一个密码子重复#1，直到达到终止密码子。如果达到终止密码，终止翻译

概率周期的输出

概率周期的输出是每个密码子处的核糖体置换和核糖体等待时间。因此，可以绘制基因的核糖体移位图，如图13所示。这被称为核糖体移位图。核糖体等待时间被计算为如伪代码所描述的核糖体拾取aa-tRNA所需的周期数；因此，核糖体等待时间是核糖体移位、aa-tRNA丰度和力的函数。也可以绘制基因的核糖体等待时间图，如图14所示。

瓶颈图和瓶颈指数(BNI)的数学

核糖体等待时间(如图14所示)用于计算翻译瓶颈图和瓶颈指数(BNI)，如图15所示。翻译瓶颈图和BNI显示如上所述的核糖体交通拥堵的位置。

用于计算翻译瓶颈图和BNI的计算如下：

令WS为滑动窗口的窗口大小，以密码子为单位。WS对应于mRNA上的核糖体足迹的长度[70]，其约为20个密码子。令PSi为滑动窗口中核糖体等待时间的部分和，其中i是翻译瓶颈图上的“密码子位置”。令WT_j为在核糖体等待时间图上的第j个密码子位置处的核糖体等待时间，其中j是核糖体等待时间图上的密码子位置。因此，翻译瓶颈图上第i个位置(PSi)的部分和可以计算为：

其中i的最大值是从核糖体等待时间图的最大密码子位置(或密码子中的基因的长度)减去的窗口大小(WS)。例如，如果基因长度是200个密码子，则核糖体等位时间图中的最大密码子位置是200个密码子。因此，i的最大值为180。因此，从密码子位置i＝1到密码子位置i＝180计算部分和，其中i＝180处的部分和是从j＝180到j＝200的核糖体等待时间总和。密码子位置i＝180处的部分和代表核糖体翻译最后20个密码子的瓶颈。

瓶颈指数(BNI)是通过在翻译瓶颈图上取最大部分和来计算的：

BNI＝MAX(PS_i)

从“弹簧性”16S rRNA尾巴计算力

概率周期使用力将核糖体每个“循环”移位一个增量。物理学基本规律指出，力等于相对于距离变化的能量变化。连续的自由能信号捕获每个密码子处相对于距离(移位)的16S rRNA尾巴:mRNA的能量结合。因此，力被计算为连续自由能信号的导数；该导数代表能量相对于距离变化的变化。然而，在可以计算力之前，必须首先计算每个密码子处的连续自由能信号。

计算连续自由能信号

连续的自由能信号是从16S rRNA暴露尾巴(3'auuccuccacuag-5')与mRNA之间的Watson-Crick结合的离散自由能计算的。离散自由能信号可以通过将离散自由能值拟合为正弦曲线或多项式来转换成连续的自由能信号。正弦曲线使用三个离散自由能值(ΔG_n-1、ΔG_n、ΔG_n+1)，而多项式使用五个离散自由能值(ΔG_n-2、ΔG_n-1、ΔG_n、ΔG_n+1、ΔG_n+2)。使用Mishra等[68]描述的方法计算自由能值。这里使用的自由能值来自Freier等[71]自由能模型。所有建模和计算都使用本文的正弦曲线。多项式拟合是可以用来代替正弦拟合的选项。正弦曲线拟合与多项式拟合几乎相同。

中心点和“尾距”

连续自由能信号的中心点ΔG_n是当暴露的尾巴结合与A位点密码子的中间碱基相距五个碱基时计算的自由能(参见图16a)。该距离称为“尾距”，是模型中的一个参数。尾距是通过对prfB的框移位点建模得出的。任何大于或小于五个碱基的距离都不会框移核糖体和/或在框移后保持核糖体在+1阅读框中移动。令人惊讶的是，这个距离使得16S rRNA尾巴的抗-Shine-Dalgarno序列(3'-UCCUCC-5')与P位点相距5个碱基，这对应于起始时Shine-Dalgarno到起始密码子之间的最佳间隔[72]。据信尾距可能在不同生物体间不同。

离散自由能指数

可以使用正弦曲线或多项式拟合方法将离散自由能值转换成连续的自由能信号。正弦曲线拟合使用三个离散自由能值，为ΔG_n-1、ΔG_n和ΔG_n+1，而多项式拟合使用五个离散自由能值，为ΔG_n-2、ΔG_n-1、ΔG_n、ΔG_n+1和ΔG_n+2。ΔG_n-1是当暴露的尾巴相对于ΔG_n结合位置向上游移动一个碱基时计算的自由能值，如图16b所示。在这个位置上，尾巴距离A位点的中心6个碱基。ΔG_n+1是当暴露的尾巴相对于ΔG_n结合位置向下游移动一个碱基时计算的自由能值，如图16c所示。在这个位置上，尾巴距离A位点的中心4个碱基。ΔG_n-2是通过将暴露的尾巴相对于ΔG_n结合位置向上游移动2个碱基或从A位点的中心移动7个碱基而计算的自由能值。ΔG_n+2表示通过将暴露的尾巴相对于ΔG_n结合位置向下游移动2个碱基或从A位点的中心移动3个碱基来计算的自由能值。

离散自由能信号和力计算的正弦拟合

正弦拟合使用离散自由能值(ΔG_n-1、ΔG_n和ΔG_n+1)转换为连续的自由能信号。为了简化注释，ΔG_n-1、ΔG_n和ΔG_n+1分别重新注释为A、B和C。因此，可以使用以下方法计算连续自由能信号。从自由能值计算DC常数。

从自由能值减去DC常数。DC不需要计算力

a＝A-DC

b＝B-DC

c＝C-DC

修正的自由能值a、b和c可以拟合在频率为每个核苷酸1/3周期的正弦波上；这可以做到是因为平均自由能信号具有每个核苷酸1/3周期的频率[73、74]。a在如下定义的正弦曲线上以零度拟合，b在如下定义的正弦曲线上以120度相移拟合，c在如下定义的正弦曲线上以240度相移拟合。

a＝M·sin(咱)

这留下3个方程和2个未知数(M和Φ)。使用以下用于正弦展开的三角标识来展开最后两个方程：

sin(x+y)＝sin(x)·cos(y)+cos(x)·sin(y)

减去所得到的展开方程将导致：

使用展开正切的三角恒等式：

和上面的等式，可以计算Φ：

使用三角恒等式：

sin(x)²+cos(x)²＝1

(5.22)

和上面的等式，可以计算M：

然后使用正弦拟合的连续自由能信号叠加在-3至3的移位单位上：

然后信号在物种角移动最小能量并补偿“尾距”。以下等式将核糖体“弹簧”的能量建模为核糖体移位(RD)的函数。

θ_sp(弧度)是“物种角”：大肠杆菌的物种角为-23度或0.401弧度，δ为补偿尾距的移动。如本文其他地方所述，对于大肠杆菌该尾距是5个碱基。

尾距的移动是必需的，因为物种角是每3、6、9个核苷酸而不是每2、5、8个核苷酸计算。

力计算为Δ能量/Δ距离。因此，力被计算为能量(RD)的导数。因此，力作为核糖体移位的函数是：

另外一种方式，该等式可以被写为正弦函数，其中应用相移：

如果使用正弦拟合，则可以在概率周期的方程式中使用力(RD)的任一方程式来计算作为核糖体移位的函数的力。

离散自由能信号和力计算的多项式拟合

也可以使用4阶多项式拟合来将离散自由能信号转换成连续的自由能信号。拟合使用5个离散自由能值：ΔG_n-2、ΔG_n-1、ΔG_n、ΔG_n+1和ΔG_n+2。为简单起见，ΔG_n-2、ΔG_n-1、ΔG_n、ΔG_n+1和ΔG_n+2分别称为A、B、C、D、E。使用以下等式概括4阶多项式：

y＝a₀+a₁·x+a₂·x²+a₃·x³+a₄·x⁴

因此，自由能值A、B、C、D和E拟合在多项式函数上，该多项式函数表示为5个多项式方程：

A＝a₀+a₁·x+a₂·x²+a₃·x³+a₄·x⁴

B＝a₀+a₁·x+a₂·x²+a₃·x³+a₄·x⁴

C＝a₀+a₁·x+a₂·x²+a₃·x³+a₄·x⁴

D＝a₀+a₁·x+a₂·x²+a₃·x³+a₄·x⁴

E＝a₀+a₁·x+a₂·x²+a₃·x³+a₄·x⁴

其中x是移位单位。自由能值A在x等于-4的多项式上拟合，B在x等于-2处拟合，C在x等于0处拟合，D在x等于2处拟合，以及E在x等于4处拟合。通过对每个自由能值A、B、C、D、E代入x值得到以下等式：

A＝a₀+a₁·(-4)+a₂·(-4)²+a₃·(-4)³+a₄·(-4)⁴

B＝a₀+a₁·(-2)+a₂·(-2)²+a₃·(-2)³+a₄·(-2)⁴

C＝a₀+a₁·(0)+a₂·(0)²+a₃·(0)³+a₄·(0)⁴

D＝a₀+a₁·2+a₂·(2)²+a₃·(2)³+a₄·(2)⁴

E＝a₀+a₁·(4)+a₂·(4)²+a₃·(4)³+a₄·(4)⁴

因此，有5个方程和5个未知数(a₀、a₁、a₂、a₃、a₄)。可以使用以下矩阵求解五个系数(a₀、a₁、a₂、a₃、a₄)：

代入对应于自由能值的x值：

并使用这个矩阵方程：

a＝(X^TX)-¹X^T

由此解出A、B、C、D、E中的a₀、a₁、a₂、a₃、a₄：

a₀＝C

其中A、B、C、D、E分别是自由能值ΔG_n-2、ΔG_n-1、ΔG_n、ΔG_n+1和ΔG_n+2。在解出a₀、a₁、a₂、a₃和a₄之后，作为移位函数的核糖体弹簧的能量是：

能量(RD)＝a₀+a1·(x-τ)+a₂·(x-τ)²+a₃·(x-τ)³+a₄·(x-τ)⁴

其中τ是物种角和尾距处最小能量的移动，τ计算为：

其中θ_sp是以弧度表示的物种角。

然后将力计算为-Δ能量/Δ距离。这意味着力是能量(RD)方程的导数。因此，作为核糖体移位的函数的力是：

力(RD)＝-(a₁+a2·2·(x-τ)+a₃·3·(x-τ)²+a₄·4·(x-τ)³)

如果使用多项式拟合，该方程可以用在概率周期的方程中来计算作为核糖体移位的函数的力。

能量与力计算的“大局”

在翻译过程中的每个密码子处，16S rRNA暴露尾巴的aSD与mRNA结合。相对于P位点的结合距离决定弹簧是否被压缩、拉伸或松弛。将aSD(3'-UCCUCC-5')定位在距离P位点5个碱基的结合会导致松弛的弹簧(见图6)。在模拟中，松弛的弹簧被描述为具有靠近A位点的中心的自由能信号的最小能量(图17)。最小能量附近的力接近于零，因此核糖体移位较小。将aSD定位在距离P位点小于5个碱基的结合压缩弹簧。将aSD定位在距离P位点大于5个碱基的结合拉伸弹簧。在建模prfB的框移位点时，通过“尾距”来确定了“5个碱基”的距离。Φ的变化测量了aSD与P位点的相对结合位置。相位角的改变导致自由能信号相对于A位点中心的移动。因此，最小的能量可能不再位于A位点的中心附近，导致核糖体被力移位。

视图曲线和氨基酰-tRNA丰度表

概率周期使用视图曲线和氨酰-tRNA丰度来计算从三个阅读框中选择氨酰-tRNA的概率。因为有三个阅读框，所以有三个视图曲线和三个aa-tRNA丰度。三个视图曲线是VC_-1、VC₀和VC₁。三个aa-tRNA丰度分别是对应于-1、0和+1阅读框的TA_-1、TA₀、TA₊₁。具有较大移位的核糖体将在0阅读框中看到较少的密码子以及相邻阅读框中更多的密码子。这降低了核糖体在0个阅读框中拾取aa-tRNA的机会，并增加了在相邻阅读框中拾取aa-tRNA的机会。

视图曲线

视图曲线建模A位点“看到”的各个阅读框中的密码子程度。例如，当A位点与0阅读框完全一致(核糖体移位为0)时，A位点可以看到0阅读框中的所有密码子，而没有在-1或+1个阅读框中的部分密码子(图18)。移位的核糖体看到0阅读框和相邻阅读框中的密码子。例如，当核糖体移位为1时，核糖体看到0阅读框中的密码子的50％和+1阅读框中的密码子的50％。这是经过当核糖体位移为1时VC₀＝VC₊₁的事实来建模(见图19)。视图曲线使用函数cos xⁿ进行建模。当前的模型使用cos x⁴。余弦函数n的幂是可以调整的参数。n的较大值使得视图曲线变窄，而较小的n使得视图曲线变宽。

0阅读框中的密码子的视图曲线(VC₀)使用从-1/2pi到1/2pi评估的并叠加从-2到2移位单位的函数cos x⁴(等式5.51)来建模。移位以核苷酸为单位，其中2个移位单位是一个核苷酸且一个移位单位是1/2核苷酸。+1阅读框中密码子的视图曲线VC₊₁中是从0到pi评估的并叠加从0到4移位单位的cos x⁴(等式5.53)。-1阅读框中密码子的视图曲线(VC_-1)是从-pi到0评估的并叠加从-4到0移位单位的cos x⁴(方程式5.51)。

VC_-1、VC₀和VC₊₁分别是-1、0、+1阅读框的视图曲线，n是可以更改的模型的参数。目前设置为4。x是RD_当前(见概率周期的伪代码)，当前核糖体移位值。

氨酰-tRNA丰度表

概率周期算法使用-1、0和+1阅读框(TA_-1、TA₀、TA₊₁)中的密码子的氨酰-tRNA丰度来计算拾取该密码子的aa-tRNA的概率。具有高丰度的氨基酰-tRNA具有较高的被核糖体拾取的可能性，这减少了核糖体在该密码子下等待的时间。另一方面，具有较低丰度的氨酰-tRNA被核糖体拾取的机会较少，这增加了核糖体等待aa-tRNA递送的时间量。当确定编码多个tRNA的密码子的aa-tRNA丰度时，使用相应的aa-tRNA丰度的总和。在不同生长速率下大肠杆菌的tRNA丰度测定可以在Dong等[75]中找到。表2显示了从Dong等[75]的tRNA丰度测定得到的每个密码子的aa-tRNA丰度。当tRNA丰度信息未知时，可以使用基因组密码子分布(表3)替代。基因组密码子分布松散匹配细胞内tRNA丰度[75、76、77、78]。tRNA基因拷贝数也可以用作aa-tRNA丰度的估计值[79、80、81、82]。tRNA丰度是实际aa-tRNA丰度的估计值。aa-tRNA丰度根据生长条件和mRNA表达水平而变化；这涉及第3.3.2节所述的从不带电状态到充电状态的tRNA的“再充电”率。各个密码子的aa-tRNA丰度值(TA)代替概率周期方程的TA_-1、TA₀、TA₊₁。

表2.来自Dong等的每个密码子的aa-tRNA丰度

来自Dong等[75]的氨酰-tRNA丰度是每个核糖体得到的tRNA丰度，每小时1.7倍。终止密码子被分配非常小的值以表示低丰度和翻译的终止。TA代表在概率周期方程中使用的tRNA丰度值。

表3.使用大肠杆菌基因组密码子频率表的每个密码子的aa-tRNA丰度

基因组密码子频率表可以在Nakamura等[83]中找到。终止密码子被分配非常小的值以表示低丰度和翻译的终止。TA代表在概率周期方程中使用的tRNA丰度值。

基因优化算法

使用上述概念和方法优化基因。优化选择编码最丰富的aa-tRNA的密码子，同时保持接近物种角的相位角。该算法通过重新设计从第二个密码子(在AUG之后)至终止密码子的整个编码区来优化基因。六个密码子同时优化。优化算法以从密码子2开始的前6个密码子开始，优化那些6个密码子，然后移动到随后的6个密码子，直到达到基因的末尾。使用经同义密码子改变的密码子，同时保留氨基酸序列。

对于每组6个密码子，确定了这些密码子的所有不同组合的列表。计算6个密码子的每个排列的“总值”。通过取每个密码子的“值”的乘积来计算总值。密码子的值可以定义为aa-tRNA丰度或用户“预定义”值。如果密码子的值是aa-tRNA丰度，则该算法几乎总是在同义密码子组中使用相同的密码子。使用预定义的值有助于分发密码子使用，从而扩展aa-tRNA的使用。例如，脯氨酸密码子CCU和CCG可以分配相同的值，而脯氨酸密码子CCC和CCA可被分配较低的值。这将分配CCU和CCG密码子的使用，同时限制CCC和CCA密码子的使用。密码子偏好如表1所示。

然后通过“总值”将置换(permutation)从最高到最低排列。该算法接着取排列最高的置换，并计算6个密码子的相位角。如果置换的相位角在物种角的预定义的“阈值”内，则将该置换选择为“优化”置换，并且算法移动到基因中的随后的6个密码子。然而，如果相位角不在物种角的预定义阈值范围内，则算法选择列表中的下一个置换，直到发现位于物种角范围内的置换。如果在物种角的阈值内没有置换，则使用排列最高的置换作为“优化”置换。[68、84]中描述了部分优化基因的物种角(θ_sp)和“相位角”的计算及其6个密码子置换。通过计算部分优化序列(包括新的6密码子置换)的Φ_k来计算相位角；Φ_k的计算公布于[68]。在找到优化的置换后，该算法移动到随后的6个密码子，并重复该过程，直到该基因结束。所得产物是优化的基因，其使用编码最丰富的aa-tRNA的密码子或编码多种丰富的aa-tRNA的密码子集，同时保持相位角接近物种角。

然后通过模型处理优化的基因序列以确定核糖体移位，翻译瓶颈(BNI)和总等待周期。将这些参数与野生型基因或密码子偏好优化基因的参数进行比较，以确定基因是否可以进一步优化；如果核糖体移位不够接近零，则BNI或总等待仍然可以降低。“最优化”序列可以通过以下方式来经验确定：(1)改变与物种角相比的基因相位角的“可接受的阈值”，并且还可以通过(2)改变密码子的“值”改变优选的密码子，。

上述基因优化算法最好被描述为启发式算法，而不是具有规定的最优条件的经典优化算法。然而，该算法是确定性的而不是随机的，因为它输出给定相同输入的相同序列，而不是每次输出不同的序列。该算法基于使用最丰富的aa-tRNA(通过密码子使用)改善了基因的翻译效率，同时也降低了核糖体移位和力。通过使用这些原理，核糖体等待时间和瓶颈在整个翻译延伸期间降低。这导致“更优化”基因而不是“最佳”基因，因为最佳条件是未知的。在理论上，可以有多个具有相同移位、等待时间和BNI的“最佳”基因变体。

结论

开发了算法和数学方程来建模导致核糖体移位的核糖体“弹簧”作用。在每个密码子处，“概率周期”在每个“周期”期间将核糖体移位小步长，直到核糖体“拾取”氨酰-tRNA。核糖体移位的程度是力，以及与aa-tRNA丰度相关的核糖体必须等待递送下一个氨酰-tRNA的时间的函数。通过将离散的自由能信号转换成连续的自由能信号(使用正弦拟合或多项式拟合)并取该连续自由能信号的导数来计算力。核糖体花费等待递送下一个氨酰-tRNA的时间量由“视图曲线”和氨酰-tRNA丰度卷积的多个概率建模。概率周期将“弹簧性”16SrRNA暴露尾巴(从该弹簧施加在核糖体上的力)与氨基酰-tRNA丰度的能量结合相卷积，以输出每个密码子处的核糖体移位和核糖体等待时间。有关算法的图形说明，请参见图20。算法中考虑的参数包括步长常数delta T(dT)、“视图曲线”的余弦函数的幂(n)、“尾距”、概率的归一化常数(NF)以及氨酰-tRNA丰度信息。模型的准确性取决于所有这些参数。还开发了基因优化算法以有效优化基因，这比基于手工优化的基因更有效和准确。该算法从第二个密码子开始一次优化6个密码子，从头设计基因。这些6个密码子的优化是“选择与物种角紧密匹配的密码子和选择赋予最佳aa-tRNA使用的密码子之间的权衡”。上述算法和数学被并入称为RiboScan^TM的完全实现的软件包中；该软件包将作为webserver[85]提供。RiboScan^TM的输出包括极性图、核糖体移位图、核糖体等待时间图、翻译瓶颈图，以及翻译延伸期间单个核糖体动力学的模拟。

实施例3

示例研究：预测和优化

通过在大肠杆菌中表达五种模型基因评估模型的预测和优化能力：gst(谷胱甘肽-S-转移酶)、pf0132(α-葡萄糖苷酶)、clju_c11880(醇脱氢酶)和rt8_0542(内切葡聚糖酶和外切葡聚糖酶)。还将模型的优化力与如本文别处所述的密码子偏好优化算法进行比较。还设计并表达了GST的多个mRNA变体，以与密码子偏倚的预测相比进一步验证模型的预测。Sharpe等[86]的密码子适应指数(CAI)用于测量基因的密码子偏倚。测定的蛋白质产量(GST活性)与密码子适应指数(CAI)和模型指数(BNI)的预测蛋白质产量相关。比较相关性的原理是证明蛋白质产量的决定因素不仅限于密码子偏倚，而且包含核糖体移位、力和tRNA使用之间的卷积。这种卷积导致新的核糖体等待时间参数和翻译瓶颈(BNI)，其允许蛋白质产量的优异预测物。上文描述了核糖体等待时间参数和翻译瓶颈。

使用上述概念进行基因优化。上面描述了用于优化的算法。使用极性图、核糖体位移图、核糖体等待时间图和翻译瓶颈图作为分析工具。用于克隆、表达和定量这些基因的蛋白质产量的材料和方法的详细描述如下所述。基因由基因合成公司Genewiz，Inc.或Genscript，Inc.合成。基因的DNA序列如下。

基因描述

基因gst来自日本血吸虫(Schistosom japonicum)，一种通常称为肝脏吸虫的寄生虫。GST是分子量为26千道尔顿(218个氨基酸，654个核苷酸)的相对较小的蛋白质，gst在大肠杆菌中高度表达，并且可溶于细胞质。GST被选为模型优化的候选者，因为它是一种经过充分研究的真核蛋白，其具有用于定量蛋白质产量的市售测定。即使野生型gst在大肠杆菌中高度表达，该模型显示核糖体移位可以进一步最小化以改善表达水平[93]。用于预测和优化的野生型gst的来源来自pET-41a+质粒(Novagen，Inc.)。来自pET-41a+的gst与从日本血吸虫克隆得到的相同[92]。

pf0132(GenBank：NP_577861.2)是来自古生物激烈热球菌(Pyrococcusfuriosus)DSM 3638的α-葡糖苷酶，其由Costantino等[87]进行了表征。激烈热球菌是生活在100℃的一种超嗜热菌。选择pf0132是因为它属于与原核大肠杆菌不同的生命领域(古菌)。此外，pf0132显示出高度的核糖体移位，其可以最小化以增加蛋白质产量。PF0132的分子量为55千道尔顿，含有489个氨基酸(1,467个核苷酸)。

clju_11880(GenBank：CLJU_c11880)是来自扬氏梭菌(Clostrium ljungdahlii)DSM 13528的醇脱氢酶。扬氏梭菌是一种厌氧肠道细菌，选择clju_11880是因为它与来自大肠杆菌基因组相比具有高AT含量的基因组。野生型clju_11880还显示高移位，其可以最小化以增加蛋白质产量。CLJU_c11880的分子量为42千道尔顿，含有380个氨基酸(1,140个核苷酸)。

rt8_0542是来自未发表的热解纤维素果汁杆菌(Caldicellulosiruptor)物种的内切葡聚糖酶(含有GH9结构域)和外切葡聚糖酶(含有GH48结构域)。热解纤维素果汁杆菌(Caldicellulosiruptor)是一种嗜热厌氧革兰氏阳性菌。尽管野生型rt8_0542尚未在大肠杆菌中成功表达，但是密码子偏置优化的变体已经产生了工作蛋白。使用该模型分析野生型和密码子偏置优化的rt8_0542以确定关键差异。选择rt8_0542以深入了解密码子偏倚优化的动力学，并更好地比较密码子偏倚优化与电脑中的模型优化。rt8_0542的分子量为210千道尔顿，含有1875个氨基酸(5,625个核苷酸)。

将基因克隆到pBAD-Myc-His质粒中

上述基因，包括起始和终止密码子，使用Genewiz，Inc.或GenScript，Inc.的GATEWAY克隆技术合成并克隆入pBAD-Myc-His C质粒(可购自Thermo Fisher Scientific,Inc.，目录号：V440-01)。如图28所示，将基因序列插入质粒直接替代NcoI位点处的ATG。

蛋白质产量预测指标比较

设计和表达GST的多个mRNA变体以评估模型在预测蛋白质产量方面的能力。该实验的原理是从蛋白质产量预测模型中确定可行的指标。瓶颈指数(BNI)是蛋白质产量最可行的预测因子(见上文)。瓶颈指数计算为移位、氨酰-tRNA使用、力和核糖体等待时间的函数。该指数识别高核糖体等待时间的簇，并指示mRNA上翻译瓶颈的位置。

BNI的准确性通过将BNI预测与来自9个mRNA变体的GST活性相关联来确认。密码子适应指数(CAI)也以相同的方式进行评估。使用大肠杆菌基因组编码序列作为参考的CAI[100、101]和使用高表达基因作为参考的CAI(HEG)[91]均进行了测试。来自模型的总等待时间(见上文)也与GST活性相关。将四个指标的相关性进行比较，以评估其预测精度。9个gst变体称为W、M、VM、16、23、80、82、90D、0D。所有gst变体的前90个碱基与野生型基因不变(除了变体M)，以标准化起始引起的蛋白质产量偏差。

gst变体的设计理论和图形分析

通过最小化整个基因的移位来“手动”优化gst变体M。完成该优化是因为移位最初被认为是蛋白质产量的主要预测因子；然而，经过各种预测，发现核糖体等待时间和翻译瓶颈是蛋白质产量的更好指标。核糖体等待时间和翻译瓶颈是核糖体移位、氨酰-tRNA使用和来自核糖体弹簧的力的函数。变体VM类似于变体M，除了变体VM中的前90个基因是野生型的基因。变体80使用“一个氨基酸，一个密码子”算法进行密码子偏置优化。Vu等[92]发表了模型优化(变体VM)、密码子偏好优化(变体80)和野生型之间的比较。如同变体80，变体82因其高CAI被选择，但有趣的是，变体82的相位角更接近物种角，并且整个基因的移位更接近零。会期望该变体产生比变体80更多的蛋白质。使用随机mRNA序列发生器设计变体16。因其具有低CAI选择了变体16，但其位移保持接近于零。进行变体16的表达以评估核糖体位移是否比密码子偏倚更好地预测蛋白质产量，或者如果总等待时间和翻译瓶颈(BNI)可能是更好的预测因子。还使用随机mRNA发生器设计变体23。因其低CAI和在零度时奇怪的极性图行为，选择了变体23。使用该模型设计变体90D具有约90度的平均相位角；该相位角不在大肠杆菌的“正常”范围内。因此，核糖体从密码子40移位到终止密码子，最大移位约为+1单位；这对应于+1阅读框中半个核苷酸的错位。使用该模型设计变体0D以具有大约0度的平均相位角；该相位角位于大肠杆菌的边界但在“正常”范围内。即使相位角处于“边界”，核糖体移位仍然接近于零。90D和0D变体都具有由CAI确定的相同的密码子偏倚，但不同的移位、等待周期总数和BNI(见表4)。根据模型的预测，变体90D应产生比变体0D更低的蛋白质产量。如下所述，都产生了gst变体的极性图、核糖体移位图、核糖体等待时间图和翻译瓶颈图。

野生型图形图

野生型gst显示-64度的平均相位角。大肠杆菌物种角为-23度。具有偏离大肠杆菌物种角的平均相位角的基因在翻译期间向核糖体上施加额外的力，该力由于核糖体弹簧的压缩或拉伸引起。当使用具有低丰度的氨酰-tRNA时，这种额外的力可以移位核糖体。在野生型gst的情况下，核糖体被移位。

核糖体从密码子50移位到密码子224。最大位移为密码子160附近的+0.75(朝向+1阅读框，0.375个核苷酸的核糖体移位)。核糖体等待时间图显示密码子65和200周围高等待时间的聚类，总等待时间为1694个周期。聚类导致在密码子65和密码子200处的瓶颈，在密码子199处具有最大瓶颈(BNI为228)。

变体M图形图

手动优化gst变体M以最小化位移。变型M显示出-57度的平均相位角。尽管该基因的平均相位角与大肠杆菌种类角不同，并且在核糖体上施加额外的力，但由于在关键密码子位置使用具有高丰度的氨酰-tRNA，所以缓解了移位。

然而，即使在最小化移位之后，核糖体等待时间图显示密码子65、密码子110和密码子200周围的高等待时间的聚类；总等待时间从野生型中的1696个周期降低到1492个周期。然而，由于高等待时间聚类(cluster)，在密码子65、100和200处存在瓶颈。最大瓶颈(BNI为218)计算为在密码子67处。

变体VM图形图

gst变体VM类似于变体M，除了前90个碱基从gst野生型直接复制。变体VM显示出-59度的平均相位角。

核糖体移位最小化与变体M几乎相同。然而，即使核糖体移位最小化，核糖体等待时间图显示密码子65、密码子110和密码子200周围的高等待时间的聚类；与野生型相比，总等待时间降低到1494个周期。由于高等待时间聚类，在密码子65、100和200处存在瓶颈。最大瓶颈(BNI为218)计算为在密码子67处。

变体16图形图

使用随机mRNA序列发生器设计gst变体16。选择变体16，因为它具有较低的CAI，但其移位仍然接近于零。测试变体16以确定核糖体移位是否比密码子偏倚更好地指示蛋白质产量，或者如果总等待时间和翻译瓶颈可能是更好的预测因子。变型16显示出-43度的平均相位角。

在整个延伸过程中核糖体移位最小化。核糖体等待时间图显示密码子65和密码子180周围高等待时间的聚类；与野生型中1696个周期相比，总等待时间增加到2012周期。由于高等待时间聚类，在密码子59和密码子180附近存在瓶颈。最大瓶颈(BNI为296)在密码子59处。

变体23图形图

gst变体23也使用随机mRNA序列发生器设计。选择变体23是因为它具有低CAI和在零度有意思的极性图行为。变体23显示出-18度的平均相位角。

除了其中核糖体移位降低到约-0.70的密码子80-110之外，核糖体移位在整个延伸期间保持最小化。核糖体等待时间图显示密码子60、密码子90至110和密码子180处的高等待时间聚类；与野生型中1696个周期相比，总等待时间增加到1788个周期。由于高等待时间聚类，密码子60、密码子90和密码子185附近存在瓶颈。最大瓶颈(BNI为261)在密码子185处。

变体80图形图

gst变体80使用“一氨基酸一密码子”算法进行密码子偏置优化。变体80显示出-59度的平均相位角。

核糖体开始从密码子40移位到密码子175。密码子85到125之间的最大位移是+0.50，这对应于朝向+1阅读框的0.25个核苷酸的A-位点错位。核糖体等待时间图显示密码子3周围高等待时间的聚类；与野生型中1696个周期相比，总天数等待时间减少到1148个周期。由于高等待时间聚类，密码子2周围存在瓶颈。最大瓶颈(BNI为160)在密码子2处。

变体82图形图

与变体80类似，因其高CAI选择gst变体82，然而，变体82的相位角更接近大肠杆菌的物种角，并且其整个入侵基因(enter gene)的移位更接近零。期望该变体产生比变体80更高的蛋白质产量。变体82显示出-51度的平均相位角。

核糖体在整个延伸过程中显示出最小的位移。核糖体等待时间图显示密码子3周围高等待时间的聚类；与野生型中1696个周期相比，总天数等待时间减少到1148个周期。由于高等待时间聚类，密码子2周围存在瓶颈。最大瓶颈(BNI为160)在密码子2处。

变体90D图形图

使用该模型，gst变体90D设计为具有约90度的相位角。变型90D显示出-87度的平均相位角。

因为变体90D的平均相位角度不在大肠杆菌的“正常”相位范围内，所以核糖体从密码子40的位置移位到密码子224。核糖体等待时间图显示密码子110周围非常高的等待时间的聚类；与野生型中1696个周期相比，总等待时间增加到1925个周期。由于高等待时间聚类，在密码子100周围存在瓶颈。最大瓶颈(BNI为288)在密码子100处。

变体0D图形图

使用该模型，gst变体0D设计为具有大约0度的相位角。变体0D显示了-3度的精确平均相位角。该相位角位于大肠杆菌“正常”相位角范围的边界。

即使相位角处于“边界”，核糖体移位保持接近零，并偏离约0.5移位单位。核糖体等待时间图显示了密码子180和200附近高等待时间的聚类；与野生型中1696个周期相比，总等待时间减少到1527个周期。瓶颈存在于密码子185附近。最大瓶颈(BNI为205)在密码子185处。

实验程序和实验室结果

将所有gst变体合成并克隆入可购自Thermo Fisher Scientific，Inc.的pBAD/Myc-His诱导型质粒。由Genewiz公司或GeneScript公司合成和克隆gst基因。将含有基因插入片段的质粒转化到化学感受态的TOP10大肠杆菌细胞(可购自Thermo FisherScientific，Inc.)中，并在0.02％w/v(0.2mg/ml)阿拉伯糖中表达3小时。P_bad诱导型启动子[96]用于使转录水平归一化。收获1毫升诱导的细胞，沉淀，用BugBuster和Lysonase裂解(均可购自EMD Millipore，Inc.)。使用可购自Sigma Aldrich，Inc.的GST测定试剂盒(E.C.2.5.1.18)定量GST活性。一单位的GST定义为每分钟产生1微摩尔GS-DNB缀合物的GST酶的量。使用Thermo Fisher Scientific，Inc.提供的Pierce^TMBCA蛋白测试试剂盒将GST比活性归一化为总蛋白活性。进行总蛋白归一化以标准化收集的细胞数量的偏差。归一化GST活性的单位定义为每A_562nm的总蛋白的GST单位，其中一个A_562nm等于18mg的总蛋白质。下面更详细地描述对归一化GST活性单位的计算。进行两个独立的导入以测试可复制性。从每个诱导物收集三个样品，共测定六个样品。详细的实验程序如下。每种gst变体的归一化GST活性及其蛋白质产量预测指标见表4。

GST蛋白定量

活性测定：将来自诱导的细胞团块重新悬浮在1ml的EMD Millipore'sBugBuster^TM蛋白质提取试剂(目录号：70584)中。将每1ml BugBuster^TM中3μl EMDMillipore's Lysonase^TM生物处理试剂(目录号：71230)加入每个细胞再悬浮液中；将样品在室温下以中等速度放置在摇床(Reliable Scientific公司的55S单平台摇床)上20分钟，随后在4℃以16,000G离心20分钟。

使用Sigma Aldrich，Inc.的GST测定试剂盒(目录号：CS0410)在96孔微量培养板中定量谷胱甘肽S-转移酶活性(E.C.2.5.1.18)。将10μL的每个细胞裂解物在三个孔中等分为三份。将含有[9.8:1:1]的[Dulbecco's磷酸盐缓冲盐水：100mM 1-氯-2,4-二硝基苯(CDNB)：200mM L-谷胱甘肽还原](全部来自Sigma-Aldrich，Inc.)的190μL的测定混合物加入每个孔中。GST使用L-谷胱甘肽和CDNB作为底物产生GS-DNB。GST测定试剂盒测量了吸收340nm光的GS-DNB缀合物的产生。使用BMG LABTECH，Inc.的POLARstar Galaxy酶标仪，以30秒的间隔进行340nm处的十次吸光度测量。在混合测定混合物和细胞裂解物之后恰好一分钟进行首次测量。GST活性与340nm的吸光度增加率/分钟(ΔA_340nm/分钟)直接成正比。因此，测量GST活性作为相对于时间的十次吸光度测量的斜率(以ΔA_340nm/分钟为单位)。使用以下公式计算GST比活性：

一个单位的GST定义为在25℃每分钟产生1微摩尔GS-DNB缀合物的GST酶的量。dil是原始样品的稀释因子；ε_mM是340nm处GS-DNB结合物的毫摩尔消光系数；V是反应体积；而V_enz是测试样品的体积。在340nm的GS-DNB缀合物的毫摩尔消光系数(emM)对于1cm的路径长度是9.6mM^-1。在上述测定条件下，dil＝1，ε_mM＝6.04，V(ml)＝0.2，V_enz(ml)＝0.01。乘以0.2ml(细胞团块重悬浮体积)以计算每个细胞团块的GST单位。

使用Pierce^TM BCA蛋白测定试剂盒(可购自Thermo Fisher Scientific，Inc.，目录号：23225)将GST比活性归一化为总蛋白。进行总蛋白归一化以标准化收集的细胞数量的偏差。按照制造商的微孔板程序说明书，通过562nm(A_562nm)的光吸收测量总蛋白含量。使用相同的酶标仪(POLARstar Galaxy酶标仪)，并在室温下孵育1小时后进行A_562nm测量。通过用GST比活性除以针对相同细胞团块的总蛋白质测量(A_562nm)来计算归一化的GST活性。归一化GST活性的单位定义为使用BSA标准曲线，每A_562nm的总蛋白的GST单位，其中一个单位的A_562nm等于18mg的总蛋白。所有测定一式三份进行，并在测定的线性范围内测量。

PF0132蛋白定量

SDS-PAGE：基因pf0132和变体表达为不溶性包涵体。以0.2％w/v(2mg/ml)阿拉伯糖浓度诱导4小时后，根据制造商的说明书，使用EMD Millipore的BugBuster^TM蛋白质提取试剂(目录号：70584)和EMD Millipore的Lysonase^TM生物处理试剂(目录号：71230)进行可溶性部分和包涵体的纯化。使用200uL至1ml的洗涤和重悬浮体积来改变纯化的蛋白质浓度。

在SDS-PAGE凝胶上显现了野生型和模型优化pf0132的包涵体和水溶性部分。将样品与等体积的用5％2-巯基乙醇制备的2ml Laemmli样品缓冲液(可购自Bio-Rad，Inc.，目录号：1610737)混合。将样品在沸水中孵育5分钟。在Bio-Rad，Inc.的Mini-PROTEAN四电泳系统中，将30μl样品装载并在NuSep的Tris-Glycine NB 4-20％预制SDS-PAGE凝胶(目录号：NB 10-008)上跑胶。使用PageRuler Prestained Protein Ladder(可购自ThermoFisher Scientific，Inc.，目录号：26616)作为蛋白质大小标准品。凝胶在125V下运行约2小时。根据制造商的说明，将完成的凝胶放置在摇动器上以低速在NuBlu Express Stain中染色以显现蛋白质条带。

CLJU_C11880蛋白质定量

活性测定：将来自诱导的细胞团块重新悬浮在200ul的EMD Millipore'sBugBuster^TM蛋白质提取试剂(目录号：70584)中。将每1ml BugBuster^TM中3μl EMDMillipore's Lysonase^TM生物处理试剂(目录号：71230)加入每个细胞再悬浮液中。将样品在室温下以中等速度放置在摇床上20分钟，随后在4℃以16,000G离心20分钟。

使用可从Sigma Aldrich，Inc.获得的醇脱氢酶(EC 1.1.1.1)酶测定方案定量CLJU_c11880(醇脱氢酶，ADH)活性水平[86]。所有测定条件均按照制造商的说明书进行，内容物减少十倍以用于96孔微量培养板。ADH将醇转化为醛，伴随NAD⁺还原为NADH。ADH测定法测定NAD⁺还原为NADH；NADH在340nm吸收光。使用酶标仪以30秒的间隔进行在340nm处的十次吸光度测量。在混合测定混合物和细胞裂解物之后恰好一分钟进行首次测量。ADH活性与340nm的吸光度增加率/分钟(ΔA_340nm/分钟)直接成正比。因此，测量ADH活性作为相对于时间的十次吸光度测量的斜率(以ΔA_340nm/分钟为单位)。使用以下公式计算ADH比活性：

一个单位的ADH定义为在25℃每分钟产生1微摩尔NADH的ADH酶的量。dil是原始样品的稀释因子；ε_mM是340nm处NADH的毫摩尔消光系数；V是反应体积；而V_enz是测试样品的体积。在340nm的NADH的毫摩尔消光系数(emM)对于1cm的路径长度是6.22mM^-1。在上述测定条件下，dil＝1，ε_mM＝5.47，V(ml)＝0.3，V_enz(ml)＝0.01。乘以0.2ml(细胞团块重悬浮体积)以计算每个细胞团块的ADH单位。

使用Pierce^TMBCA蛋白测定试剂盒(可购自Thermo Fisher Scientific，Inc.，目录号：23225)将ADH比活性归一化为总蛋白。进行总蛋白归一化以标准化收集的细胞数量的偏差。按照制造商的微孔板程序说明书，通过562nm(A_562nm)的光吸收测量总蛋白含量。使用相同的酶标仪(POLARstar Galaxy酶标仪)，并在室温下孵育1小时后进行A_562nm测量。通过用ADH比活性除以针对相同细胞团块的总蛋白质测量(A_562nm)来计算归一化的ADH活性。归一化ADH活性的单位定义为使用BSA标准曲线，每A_562nm的总蛋白的ADH单位，其中一个单位的A_562nm等于18mg的总蛋白。所有测定一式三份进行，并在测定的线性范围内测量。

SDS-PAGE：

野生型和优化型clju_c11880也表达为不溶性包涵体。以0.2％w/v(2mg/ml)阿拉伯糖浓度诱导4小时后，根据制造商的说明书，使用EMD Millipore的BugBuster^TM蛋白质提取试剂(目录号：70584)和EMD Millipore的Lysonase^TM生物处理试剂(目录号：71230)进行可溶性部分和包涵体的纯化。使用200μL至400μL的洗涤和重悬浮体积来改变纯化的蛋白质浓度。

在SDS-PAGE凝胶上显现了野生型和模型优化clju_c11880的包涵体、全细胞裂解物和水溶性部分。将样品与等体积的用5％2-巯基乙醇制备的2ml Laemmli样品缓冲液(可购自Bio-Rad，Inc.，目录号：1610737)混合。将样品在沸水中孵育5分钟。在Bio-Rad，Inc.的Mini-PROTEAN四电泳系统中，将30μl样品装载并在NuSep的Tris-Glycine NB 4-20％预制SDS-PAGE凝胶(目录号：NB 10-008)上跑胶。使用PageRuler Prestained Protein Ladder(可购自Thermo Fisher Scientific，Inc.，目录号：26616)作为蛋白质大小标准品。凝胶在175V下运行约1小时。将完成的凝胶放置在摇动器上以低速在NuBlu Express Stain中染色以显现蛋白质条带。

将GST活性与预测指标相关联

归一化的GST活性水平与蛋白质产量的以下预测指标相关：使用大肠杆菌基因组编码序列的CAI、使用高表达基因(HEG)的CAI、总等待时间和BNI。为了比较的目的，对于相应的gst变体的各种预测指标的归一化GST活性和值可以在表4中找到。通过使用最小二乘回归拟合最佳拟合线并计算所得到的r(Pearson相关系数)和r平方(确定系数)值来计算相关性。BNI具有最佳相关性，其次是总等待时间、CAI，然后是CAI(HEG)。BNI以r＝-0.96和r平方＝0.92相关；总等待时间以r＝-0.89和r平方＝0.80相关；CAI以r＝0.75和r平方＝0.57相关；以及CAI(HEG)以r＝0.68和r平方＝0.47相关。

表4.gst变体的归一化GST活性和蛋白质产量预测指标。

列出了每个gst变体的归一化GST活性、CAI、CAI(HEG)、总等待时间和BNI值。CAI是使用大肠杆菌基因组编码序列[94]作为参考基因的密码子适应指数。CAI(HEG)是使用来自[91]的高表达基因作为参照基因的密码子适应指数。总等待时间和瓶颈指数(BNI)是来自模型的蛋白质产量预测指数，gst变体从最低到最高归一化GST活性排列。

±表示一个标准差。¹归一化的GST活性测量为每A_562nm的总蛋白的GST单位，其中一个A_562nm等于18mg的总蛋白质；一个单位的GST定义为每分钟产生1umol GS-DNB缀合物的GST酶的量。²将等待时间值添加到起始之前的BNI值。³将等待时间值添加到起始之后的BNI值。

为了使BNI以r平方＝0.92相关，通过在每个基因的开头加入50个等位周期，将核糖体等待时间值调整到所有基因变体的起始位置。该增加的核糖体等待时间模拟了翻译起始的瓶颈。在将等待时间值添加到每个基因的开始之后，变体80和82的BNI在基因开始时从160变为202。其他变体的BNI不受影响。这是因为其他基因的BNI已经大于202，并且位于基因的中间或末端而不是起始位点。另一方面，变体80和82在基因的中间或末端没有瓶颈。实质上，因为没有考虑起始时的瓶颈，该模型过高预测变体80和82的蛋白质产量。在每个基因开始时添加核糖体等待时间值考虑到起始时的瓶颈，从而改进蛋白质产量预测。

相比较CAI和CAI(HEG)指数，归一化GST活性从最低到最高的顺序更好地与BNI和总等待时间相对应，gst变体90D和变体0D被设计为具有相似的CAI(分别为0.54和0.56)和CAI(HEG)(分别为0.31和0.33)，但不同的核糖体移位。变体90D被设计为具有更高的核糖体移位，而变体0D具有较低的移位。与0D相比，变形90D的BNI和总等待时间更高(参见表4)。BNI和总等待时间预测，变体0D与90D相比将具有更高的产量。根据CAI和CAI(HEG)，两种变体应具有相似的产量；然而，gst变体0D显示比变体90D高23％的产量。这表明，与CAI和CAI(HEG)相比，BNI和总等待时间更准确地预测了90D和0D的活性水平。变式23与变体90D相比，活性水平增加了17％。CAI和CAI(HEG)预测变体23的产量低于变体90D的产量。相反，BNI和总等待时间预测变体23产生比变体90D更高的产量。BNI和总等待时间更精确地预测GST活性。根据CAI和CAI(HEG)，与变体M和VM相比，变体80和82应该产生更多的产量。然而，测量的活性水平显示变体80和82产生与变体M和VM相似的水平。鉴于在起始时包含核糖体等待时间值，BNI更准确地预测与变体M和VM相比的变体80和82的蛋白质产量。因为它不考虑瓶颈，总等待时间指数没有准确预测变体80和82与变体M和VM的蛋白质产量。

基因优化比较

在大肠杆菌中选择并表达五种蛋白质候选物以评估模型的优化能力，并与密码子偏倚优化进行比较。五位候选物是GST，谷胱甘肽S-转移酶；PF0132，α-葡萄糖苷酶；CLJU_c11880，醇脱氢酶；和Rt8_0542，内切葡聚糖酶和外切葡聚糖酶。执行了gst的模型优化。将gst的模型优化与两个密码子偏好优化算法的优化进行比较：1)“一氨基酸，一个密码子”方法，和2)“密码子匹配，随机指导”方法。通过最小化移位来进行clju_c11880和pf0132的优化；这确保密码子偏倚在野生型和模型优化变体中保持大致相同。密码子适应指数(CAI)[86]被用作密码子偏倚的测量。所有变体的前端未变化，以标准化起始引起的蛋白质产量偏差。使用Salis的RBS计算器优化了gst的前51个基数[90]。使用Salis的RBS计算器[90]改变基因的前端优化了翻译启动，以便在启动时不应有瓶颈。由Salis的RBS计算器生成的最终优化前端用于所有gst变体；而优化的clju_c11880和pf0132的前90个碱基使用它们各自的野生型。

GST，谷胱甘肽-S-转移酶

基因优化与图形分析

gst通过选择编码最丰富的tRNA的密码子进行优化，同时最小化力和移位。这使得基因的平均相位角接近-23度的物种角，gst也使用两个密码子偏差优化算法进行优化。通过Optimizer[91]使用“一氨基酸，一个密码子法”来优化“密码子偏置优化1”。通过IDTDNA，Inc.的CodonOpt软件使用“指导随机，密码子表匹配”方法优化了“密码子偏好优化2”。密码子偏好优化算法使用高度表达的基因作为参考基因。使用Salis的RBS计算器优化了gst的前51个基数[90]。使用Salis的RBS计算器[90]优化前端优化翻译启动，以便在启动时不应有瓶颈。由Salis的RBS计算器生成的最终优化前端用于所有gst变体。

极性图分析显示，“密码子偏置优化2”gst的平均相位角从-61度的野生型相角偏移到-25度。“密码子偏置优化1”gst的平均相位角从-61度的野生型相位角偏移到-36度。模型优化的变体经优化接近物种角，因此相位角保持接近-21度。

对于野生型gst，核糖体从密码子50移位到终止密码子。核糖体移位图显示，密码子偏置优化和模型优化的变体都减少了移位。模型优化的变体最大程度地减少了移位。

野生型gst显示在密码子65和密码子200附近的高核糖体等待时间聚集，以及密码子65和密码子198处的瓶颈。核糖体等待时间图显示，与野生型相比，密码子偏倚和模型优化的变体均降低整个编码区的等待时间。翻译瓶颈图显示，与野生型相比，所有优化方法降低了整个编码区域的瓶颈。归一化的GST活性和蛋白质产量预测指标见表5。

实验程序和结果

将野生型和优化的gst变体合成并克隆入可购自Thermo Fisher Scientific，Inc.的pBAD/Myc-His诱导型质粒。由Genewiz公司或GeneScript公司合成和克隆gst基因。将含有目的基因插入片段的质粒转化到化学感受态的TOP10大肠杆菌细胞(可购自ThermoFisher Scientific，Inc.)中，并在0.02％w/v(0.2mg/ml)阿拉伯糖中表达3小时。P_bad诱导型启动子[96]用于使转录水平归一化。收获1毫升诱导的细胞，沉淀，用BugBuster和Lysonase裂解(均可购自EMD Millipore，Inc.)。使用可购自Sigma Aldrich，Inc.的GST测定试剂盒(E.C.2.5.1.18)定量GST活性。由于GST活性增加，细胞裂解物在测定前被稀释两倍。一单位的GST定义为每分钟产生1微摩尔GS-DNB缀合物的GST酶的量。使用ThermoFisher Scientific，Inc.提供的Pierce^TMBCA蛋白测试试剂盒将GST比活性归一化为总蛋白活性。进行总蛋白归一化以标准化收集的细胞数量的偏差。归一化GST活性的单位定义为每A_562nm的总蛋白的GST单位，其中一个A_562nm等于18mg的总蛋白质。上文描述了归一化GST活性单位的计算。进行三个独立的诱导以测试可复制性。从每个诱导中收集三个样品，共测定9个样品。详细的实验步骤如上所述。

每种gst变体的归一化GST活性和蛋白质产量预测指数可以在表5中找到。模型优化的变体显示比野生型增加了53％，“密码子偏好优化1”显示比野生型增加13％，“密码子偏好优化2”显示比野生型增加34％。所有优化都减少了总等待时间和BNI，并使总GC含量更接近于50％。CAI和CAI(HEG)指数低估了模型优化gst变体的蛋白质产量，并过度预测了“密码子偏好优化1”变体的蛋白质产量。BNI和总等待时间过度预测了“密码子偏好优化1”变体的蛋白质产量。

表6.5.gst变异体的标准化GST活性及其预测指标

列出了野生型和优化的gst变体的归一化GST活性、CAI、CAI(HEG)、总等待时间和BNI值。CAI是使用大肠杆菌基因组编码序列[94]作为参考基因的密码子适应指数。CAI(HEG)是使用来自[91]的高表达基因作为参照基因的密码子适应指数。总等待时间和BNI(瓶颈指数)是来自该模型的蛋白质产量预测指数。模型优化的变体显示比野生型增加了53％。“密码子偏好优化1”显示比野生型增加了13％。“密码子偏好优化2”显示比野生型增加了34％。

±表示一个标准差。¹归一化的GST活性测量为每A_562nm的总蛋白的GST单

位，其中一个A_562nm等于18mg的总蛋白质；一个单位的GST定义为每分

钟产生1umol GS-DNB缀合物的GST酶的量。

CLJU_c11880，酒精脱氢酶

基因优化与图形分析

clju_c11880是一种醇脱氢酶(ADH)，并仅通过最小化移位进行优化。这样做是为了确保两个变体之间的密码子偏倚保持相似，以更好地比较单独核糖体移位的影响。最小化移位也会使基因的平均相位(-60度)更接近-25度的物种角。瓶颈指数(BNI)在密码子317处从615降至322，野生型clju_c11880显示从密码子300到密码子350的非常高的等待时间。优化后的总等待时间也从3905个周期降低到3047个周期(见表6)。

实验程序和结果

将野生型和模型优化的clju_c11880基因合成并克隆入Genewiz Inc.的pBAD/Myc-His载体。将含有目的基因插入片段的质粒转化到化学感受态的TOP10大肠杆菌细胞(可购自Thermo Fisher Scientific，Inc.)中，并在0.02％w/v(0.2mg/ml)阿拉伯糖中诱导4小时。P_bad诱导型启动子[96]用于使转录水平归一化。收获2毫升诱导的细胞，沉淀，用BugBuster和Lysonase裂解(均可购自EMD Millipore，Inc.)。在细胞裂解物上进行醇脱氢酶(ADH，E.C.1.1.1.1.1)酶测定(由Sigma Aldrich，Inc.获得的方案)和SDS-PAGE以量化CLJU_C11880蛋白质产量。一个单位的ADH定义为每分钟产生1umol NADH的ADH酶的量。使用Thermo Fisher Scientific，Inc.提供的Pierce^TMBCA蛋白测定试剂盒将ADH比活性归一化为总蛋白。进行总蛋白质归一化以标准化收集的细胞数量的偏差。将归一化ADH活性的单位定义为每A_562nm的总蛋白的ADH单位，其中一个A_562nm等于18mg的总蛋白质。归一化ADH活性单位的计算可在本文其他地方找到。进行两个独立的诱导以测试可复制性。从每个诱导中收集两个样品，共测定四个样品。以上描述了这些程序的详细方案。

野生型和优化的变体产生可溶性(活性)形式和不溶性(非活性)包涵体中的蛋白质。量化蛋白质的两个部分以比较野生型和优化的clju_c11880之间的产量。酶测定结果显示在表6中。测量了优化变体的活性增加44％。

表6.clju_c11880变体及其蛋白质产量预测指数。

列出了野生型和模型优化clju_c11880的归一化的ADH活性、CAI、CAI(HEG)、总等待时间和BNI值。CAI是使用大肠杆菌基因组编码序列[94]作为参考基因的密码子适应指数。CAI(HEG)是使用来自[91]的高表达基因作为参照基因的密码子适应指数。总等待时间和BNI(瓶颈指数)是来自该模型的蛋白质产量预测指数。

模型优化的变体产生的活性比野生型多44％。

±表示一个标准差。¹归一化的ADH活性测量为每A_562nm的总蛋白的ADH

单位，其中一个A_562nm等于18mg的总蛋白质；一个单位的ADH定义为每

分钟产生1umol NADH的ADH酶的量。

CLJU_c11880也是以不溶性包涵体形式产生的。使用SDS-PAGE纯化和定量包涵体。不含clju_c11880基因插入片段的转化质粒的阴性变体也与clju_c11880变体一起表达，并在SDS-PAGE凝胶上显色。制备了比较跨变体的CLJU_c11880生产的凝胶。样品来自全细胞裂解物、活性酶的可溶性部分和包涵体的不溶性部分。从这个比较中，黑色箭头所示的优化的clju_c11880变体中包涵体的产生显著降低。在阴性变体(无基因插入质粒)中缺乏包涵体产生以及估计大小为-40kDa的蛋白条带(由红色和黑色箭头标记)表明这些条带是推定的

PF0132，α-葡萄糖苷酶

基因优化与图形分析

也仅基于最小化移位对pf0132进行了优化。这是为了验证最小化移位是否增加蛋白质产量。最小化移位将优化变体的相位角改变为-44度。优化pf0132也减少总等待时间并降低瓶颈效应(见表7)。

表7.pf0132变体及其蛋白质产量预测指标。

列出了pf0132变体的CAI、CAI(HEG)、总等待时间和BNI值。CAI是使用大肠杆菌基因组编码序列[94]作为参考基因的密码子适应指数。CAI(HEG)是使用来自[91]的高表达基因作为参照基因的密码子适应指数。总等待时间和BNI(瓶颈指数)是来自该模型的蛋白质产量预测指数。GC％是GC含量的百分比。

实验程序和结果

野生型pf0132从激烈热球菌基因组克隆[87]。优化的pf0132基因由Genscript，Inc.合成。将野生型和优化的pf0132克隆到pBAD/Myc-His质粒(可购自Thermo FisherScientific，Inc.)，用于在TOP 10大肠杆菌菌株(可购自Thermo Fisher Scientific，Inc.)中4小时以产生蛋白质，其最终阿拉伯糖浓度为0.2％w/v(2mg/ml)。P_bad诱导型启动子[96]用于使转录水平归一化。收获1毫升诱导的细胞，沉淀，用BugBuster和Lysonase裂解(均可购自EMD Millipore，Inc.)。将所得裂解物用于测定和SDS-PAGE。这些程序的详细方案在本文其他地方描述。

pf0132及其优化的变体产生不含酶活性的不溶性包涵体。因此，用SDS-PAGE凝胶测定产生的(非活性)蛋白质的量。在优化的PF0132中的条带(55kD和40kD)与野生型PF0132中的条带(55kD，32kD)相比，SDS-PAGE的密度计分析显示条带密度增加了210％。这意味着与野生型相比，PF0132蛋白的产生有显著的改善，尽管优化的基因是作为包涵体形式产生的。使用MALDI-TOF/TOF和LC-ESI-MS/MS质谱鉴定蛋白质条带为PF0132。

Rt8_0542

基因优化与图形分析

使用该模型分析野生型和密码子偏好优化的rt8_0542，以确定与野生型基因相比时密码子偏倚优化的动力学。通过IDTDNA公司的CodonOpt软件使用“指导随机，密码子表匹配”方法进行密码子偏倚优化。野生型rt8_0542还未在大肠杆菌中成功生产，而密码子偏置优化的rt8_0542成功生产为水溶性蛋白质和包涵体。模型优化的rt8_0542也作为比较野生型和密码子偏倚优化的参考；然而，尚未进行该变体的体内表达。计算所有变体的全局和局部GC含量。使用窗口大小为50的[99]计算局部GC含量图。表9列出了三种变体的所有蛋白质产量预测指标的总结。

在基因开始时，野生型的相位角为-90度，并且在序列的后半部分密码子600周围逐渐向-10度移动。野生型基因的局部GC含量从40％到50％的变化也发生在核苷酸2000的相似位置。因为相位角以“错误”角度(-90度)开始，所以当翻译野生型基因时，核糖体在位于400个密码子400处的下游位置处移位1.5个移位单元(对应于朝向+1阅读框的3/4个核苷酸错位)。野生型rt8_0542的核糖体等待时间图显示密码子400至500周围的高核糖体等待时间(70至129个周期)的聚类。内源性大肠杆菌基因的正常核糖体等待时间为每个密码子约5至20个循环。这导致400到500密码区间的瓶颈。最大核糖体等待时间在密码子476处为129个周期。密码子476编码异亮氨酸稀有密码子ATA。根据该模型，由于高核糖体移位和非常高的核糖体等待时间，核糖体不太可能翻译过密码子476。野生型变体显示了BNI为362，总等待时间为15,053个周期，高于模型优化和密码子偏置优化变体(见表9)。

密码子偏置优化变体显示-24度的平均相位角，其非常接近物种角。这种密码子偏好优化是偶然的，因为“引导随机，密码子表匹配”优化方法产生可以远离物种角的随机平均相位角。由于该基因的相位角在整个编码区域处于物种角附近，所以局部GC含量也保持在约50％左右；而全局GC含量为51％。当与野生型变体相比时，密码子偏好优化变体的移位图显示减少的移位。与野生型相比，核苷酸等待时间降低到每个密码子少于20个循环，整个编码区的瓶颈都降低。密码子偏置优化的变体显示BNI为218，总等待时间为11,511个周期，其显著低于野生型变体(见表9)。

模型优化的变体显示-25度的平均相位角，其非常接近物种角。全局GC含量(见表9)和本地GC含量保持在50％左右。模型优化变体的移位图显示出低于野生型和密码子偏好优化变体的最小移位。与野生型相比，核糖体等待时间降低到每个密码子少于20个循环，整个编码区的瓶颈都降低。模型优化变体显示BNI为152，总等待时间为9161个周期，低于密码子偏好优化和野生型变体(见表9)。

表9.rt8_0542变体及其蛋白质产量预测指标

列出了rt8_0542变体的CAI、CAI(HEG)、总等待时间和BNI值。CAI是使用大肠杆菌基因组编码序列[94]作为参考基因的密码子适应指数。CAI(HEG)是使用来自[91]的高表达基因作为参照基因的密码子适应指数。总等待时间和BNI(瓶颈指数)是来自该模型的蛋白质产量预测指数。GC％是GC含量的百分比。

实验程序和结果

实验室实验由Jonathan Conway博士在Robert Kelly博士的实验室进行，并获得许可包括在本文中。然而，野生型rt8_0542在大肠杆菌中尚未成功表达，密码子偏好优化变体成功表达为可溶性和不溶性部分。使用T7启动子(pET45质粒)在13℃在Arctic ExpressDE3RIL大肠杆菌菌株中过表达密码子偏置优化的rt8_0542。Arctic Express DE3RIL细胞含有辅助蛋白质折叠的分子伴侣并防止或减少包涵体的形成。使用his标记纯化(Ni-NTA柱)纯化密码子偏好优化的rt8_0542的可溶性部分，并在SDS-PAGE凝胶上显色

蛋白质产量预测指标-BNI与CAI的比较

为了比较标准密码子适应指数(CAI)与该模型创建的新瓶颈指数(BNI)的有效性，比较了指数与归一化GST活性之间的相关性。BNI达到与正常GST活性水平相关性最佳，r为-0.96，r平方为0.92。总等待时间达到第二好的相关性，r为-0.89，r平方为0.80。BNI和总等待时间相比密码子偏倚指数CAI和CAI(HEG)更好地与归一化GST活性水平相关。CAI以r为0.75，以及r平方为0.57相关，而CAI(HEG)达到r为0.68，r平方为0.47。作为参考，高于0.5的r表示存在相关性，并且高于0.8的r表示非常高的相关性。

BNI与CAI的相关性导致r为0.59。这表明BNI与CAI相关，因为它们本质上都是测量tRNA丰度使用。BNI使用Dong等的实际tRNA丰度测量[89]而CAI使用基因组密码子频率作为参考。两个指标使用两种不同的参考来源来预测蛋白质产量，但两者都表现出相互关联以及与蛋白质产量的关联。这表明基因组密码子频率本质上是测量tRNA丰度使用。然而，与仅测量tRNA丰度使用的CAI和CAI(HEG)不同，BNI还考虑了核糖体移位、力和高核糖体等待时间的聚类(瓶颈)。BNI在起始或终止时不考虑瓶颈；然而，可以添加核糖体等待时间值来增加任一位置的瓶颈。

总等待时间与BNI几乎不一样，因为两个基因可以具有相同的总等待时间，但是不同的“慢”翻译聚类位点导致瓶颈。mRNA同时由多个核糖体翻译成蛋白质；因此，在局部邻近聚集的多个“慢”翻译区比分布在基因上的阻碍区域更对产量不利。总等待时间未考虑密码子区域、启动或终止的瓶颈。

根据r和r平方值，CAI和CAI(HEG)相似地相关。然而，相关性小于BNI和总等待时间。这是因为CAI和CAI(HEG)仅代表密码子偏倚，不考虑基因内密码子的“排序”。由于密码子的排序，两个基因可能具有相似的密码子偏倚，但具有不同的核糖体移位和翻译瓶颈。不同于CAI和CAI(HEG)，BNI和总等待时间考虑密码子在体内翻译的实际序列，以考虑密码子的顺序如何影响核糖体移位、力、翻译瓶颈(仅对BNI而不是总等待时间)，以及氨酰-tRNA使用。

gst优化

所有优化的变体将相位角从-61度(野生型基因的位置)移动到更接近-25度的大肠杆菌物种角，这使移位最小化。所有优化的变体使基因的GC含量更接近于50％，这与大肠杆菌基因组的GC含量相匹配。密码子偏好优化和模型优化变体都最大限度地降低了核糖体等待和瓶颈效应；然而，优化模型的模型比密码子偏好优化的变体更好地将瓶颈最小化(见表6.5)。

所有三种优化的变体产生的蛋白质产量相比野生型基因增加。模型优化变体产生的野生型增加最多(提高53％)。使用“指导随机，密码子表匹配”方法的“密码子偏好优化2”变体产生了次高的产量增加(提高34％)。使用“一氨基酸，一个密码子”方法的“密码子偏置优化1”变体产生最小的产量增加(提高13％)。与野生型gst相比，密码子偏好优化和模型优化没有显示出“显著”的增益(如[105、106、107]中观察到的)蛋白质产量，因为野生型gst已经在大肠杆菌中高度表达。gst翻译延伸的优化可能已经达到提高蛋白质产量的上限。

“一个氨基酸，一个密码子”方法没有显示出更大的产量增加的可能原因是由于氨酰-tRNA的耗尽。“一个氨基酸，一个密码子”方法仅使用每个氨基酸一个tRNA种类，而不是在“指导随机，密码子表匹配”方法中分散tRNA的使用。使用“一个氨基酸，一个密码子”方法的优化导致异源蛋白质生产和内源性蛋白质生产之间针对可用的氨酰-tRNA进行竞争。竞争消耗可用的氨酰-tRNA；因此，蛋白质产量受损。这些观察结果在Welch等[102]、Dittmar等[103]、Elf等[104]和Menzella等[109]中得以解释。CAI、CAI(HEG)、BNI和总等待时间过高预测了使用“一个氨基酸，一个密码子”优化方法的“密码子偏好优化1”变体的蛋白质产量。这是因为CAI、CAI(HEG)、BNI和总等待时间假定氨酰-tRNA无限可用；然而，氨酰-tRNA的可用性是有限的，并且如果内源性蛋白质产生和异源蛋白质生产竞争相同的tRNA种类，则可以使其消耗。此外，CAI和CAI(HEG)低估了模型优化变体的蛋白质产量，因为CAI和CAI(HEG)不考虑翻译瓶颈。

clju_c11880优化

通过最小化移位来优化醇酸脱氢酶(ADH)的clju_c11880。这是为了评估单独的最小化移位是否会增加蛋白质产量。通过最小化移位进行优化也确保了两种变体中的密码子偏倚相似。与野生型相比，优化的clju_c11880显示酶活性增加44％，包涵体产量降低。

包涵体产生的减少可能是因为核糖体由于从密码子270到380的移位减少而选择正确的氨酰-tRNA而引起的。采用错误的氨酰-tRNA并引入错误的氨基酸可能导致错误折叠和包涵体的产生[110、111]。野生型clju_c11880也显示从密码子300到350的非常高的核糖体等待时间，导致在相同位置的瓶颈。优化clju_c11880减少了核糖体等待时间和相同位置的瓶颈。核糖体可能由于密码子300至350周围的高核糖体等待时间而停滞。停滞的核糖体将解离并产生部分完成的CLJU_C11880，其可能不能正确折叠以形成活性酶。这些部分产生的多肽可以形成包涵体[111]，其可能是SDS-PAGE上包涵体部分中约35kDA的两个较小条带的来源。在优化的变体中，这两个较小条带的强度大大降低，这表明包涵体产量的减少。在优化的变体中减少核糖体等待时间可能具有减少的核糖体停滞和解离。减少核糖体停滞和解离可能导致包涵体产量的减少，如在优化变体的两个较小的条带中观察到的。这些上述假设和观察结果表明，使用模型的等待时间参数优化基因可以允许改进的蛋白质折叠，并因此减少或消除包涵体生产；这个假设也是由Pechmann等[97]和Li等[98]提出的，并被Siller等通过降低核糖体翻译率在体内证实[96]。

pf0132优化

仅通过最小化移位优化pf0132。这是为了看最小化移位是否会增加蛋白质产量。pf0132仅以包涵体形式产生。与野生型相比，优化的pf0132显示出增加的包涵体产量。pf0132从生活在100℃的嗜极激烈热球菌克隆。PF0132进化设计为在比37℃高得多的温度下折叠，这是在这些实验中大肠杆菌表达pf0132的温度。在嗜常温(mesophilic)温度下折叠的嗜热蛋白蛋白质由于不正确的折叠倾向于形成包涵体[112、113]。

rt8_0542优化

模型分析显示野生型rt8_0542在大肠杆菌中未成功表达的潜在原因。“不正确的”相位角导致移位的核糖体，这增加了核糖体等待时间和密码子400到500周围的瓶颈。最大核糖体等待时间在密码子476处为129个周期。密码子476编码异亮氨酸稀有密码子ATA。根据该模型，由于高核糖体移位和非常高的核糖体等待时间，核糖体不太可能翻译过密码子476。核糖体等待时间的这种增加可能足够大(与内源基因和prfB相比)，从而核糖体解离并停止翻译。另外一种方式，核糖体可能由于+1.5单位的高核糖体位移(朝向+1阅读框移位3/4核苷酸)而可能具有潜在的框移，并在新阅读框中遇到终止密码子。为了比较目的，内源基因显示5-20个周期的核糖体等待时间，而prfB在框移位点显示核糖体等待时间为147个周期。相反，模型分析显示导致密码子偏好优化变体在大肠杆菌中成功表达的潜在因素。密码子偏好优化变体的相位角在整个编码区紧跟物种角；这是“随机运气”，因为密码子偏好优化(使用“引导随机，密码子表匹配”方法)是一个并不总是紧跟物种角的随机过程。靠近物种角将导致“弹簧”的最小压缩或拉伸，这也使移位最小化。密码子偏倚优化减少核糖体移位、核糖体等待时间和瓶颈。还包括rt8_0542的模型优化作为与密码子偏好优化和野生型变体的电脑模拟比较的参考。使用该模型优化rt8_0542导致核糖体移位、核糖体等待时间和翻译瓶颈的减少。这些减少超过密码子偏倚优化。

结论

基于gst的多个mRNA变体的表达水平开发了用于测定产量的指数。该指数被命名为瓶颈指数(BNI)，其测量基因翻译过程中高核糖体等待时间的聚类。该指数的发展是基于“核糖体交通拥堵”和“核糖体足迹”的原理。总核糖体等待时间也可以用作翻译效率的度量。在将这些新指标与测量的蛋白质产量进行比较时，BNI以0.92的r平方相关，而总等待时间以0.80的r平方根相关。另一方面，CAI和CAI(HEG)得到分别为0.57和0.47的R平方。这表明BNI和总等待时间可能是预测产量的更好指标；然而，BNI和总等待时间需要用更大的数据集来进一步测试，以更广泛地将其与CAI的预测进行比较。BNI不会在初始或终止时考虑到瓶颈，但可以在这些位置手动添加值，以提高预测精度。BNI也可能过度预测蛋白质产量，特别是在“一个氨基酸，一个密码子”密码子偏倚优化的情况下。这是因为BNI假定无限可供使用的氨酰-tRNA。

与密码子偏好优化的变体和野生型变体相比，使用该模型优化的基因显示出增加的蛋白质水平。模型优化gst显示比野生型增加53％，“密码子偏好优化2”显示比野生型增加34％，“密码子偏向优化1”显示比野生型增加13％。与野生型相比，模型优化的clju_c11880显示活性增加44％，包涵体形成减少；这表明该模型有可能通过改变核糖体等待时间参数来减少或消除包涵体。使用密度计分析，模型优化的pf0132显示蛋白质产量增加了200％。不幸的是，野生型和优化的变体都仅作为包涵体产生。野生型、模型优化和密码子偏置优化变体产生包涵体和少量水溶性部分。变异体之间蛋白质水平的差异很难从初步数据中辨别出来，结果是不确定的。需要进一步的实验室实验。野生型rt8_0542的分析显示，由于高核糖体等待时间和瓶颈，前500个密码子对蛋白质产量不利。该模型表明核糖体可能已经在密码子400和500之间与mRNA分离；另外一种方式，核糖体可能由于+1.5单位的高核糖体位移(朝向+1阅读框移位3/4核苷酸)而可能具有潜在的框移，并在新阅读框中遇到终止密码子。相反，密码子偏倚优化降低了核糖体等待时间和瓶颈，这使得核糖体能够更有效地翻译基因。与密码子偏好优化的变体相比，模型优化的变体显示核糖体移位、总等待时间和翻译瓶颈的减少更大。

如通过极性图所示，密码子偏好优化将野生型基因的平均相位角改变为大肠杆菌相位角的“工作”范围。“一个氨基酸，一个密码子”密码子偏好优化方法(使用高度表达的基因作为参照)总是将基因的平均相位角度改变到在-45度附近。这是因为高表达基因的平均相位角接近-45度。“指导随机，密码子表匹配”密码子偏好优化方法每次优化时随机地改变基因的平均相位角，因为它是一个随机算法(见密码子偏好优化的rt8_0542和gst变体的相位角)；然而，平均相位角仍然保持在大肠杆菌相位角的“工作”范围内。密码子偏好优化的两种方法都忽略了物种角(尽管“密码子匹配，引导随机”方法可以偶然地“击中”物种角)导致核糖体的轻微移位。这种轻微的移位随很长的基因累积，并增加了核糖体等待时间和瓶颈。该模型使用物种角优化基因的相位角，其导致接近物种角的平均相位角。因此，与整个编码区域的密码子偏倚优化相比，核糖体移位最小化得更多。应该注意的是，改变基因的相位角(相位角与16S rRNA暴露尾巴和mRNA的结合模式有关)也改变了基因的全局和局部GC含量。该观察结果显示在优化实施例rt8_0542中。因此，认为GC含量与16S rRNA 3'暴露尾巴的核苷酸组成有关。

实验结果表明，减少核糖体移位、核糖体等待时间和翻译瓶颈通常增加总蛋白产量。在CLJU_c11880优化的情况下，降低移位、核糖体等待时间和瓶颈也降低了包涵体产量。实验结果还表明，使用模型的翻译瓶颈原理进行的优化显示出比密码子偏好优化更大的蛋白质产量提高。这是因为密码子偏好优化不考虑影响相对于P位点的16S rRNA尾巴:mRNA结合位置的密码子的“排序”。使用“相位角”计算16S rRNA尾巴:mRNA相对于P位点的距离。不利的结合(与物种角不同的相位角)压缩或拉伸在核糖体上施加力的弹簧。因此，这种额外的力可能导致移位的核糖体。移位的核糖体增加核糖体等待时间，这可能导致翻译瓶颈，因此降低蛋白质产量。

实验结果还表明，BNI比CAI和CAI(HEG)更好地预测蛋白质产量。这是因为CAI和CAI(HEG)仅考虑密码子偏倚，而不是基因中密码子的“排序”。由于前文所述的基因密码子的“排序”，两个基因可能具有相似的密码子偏倚，但核糖体移位和翻译瓶颈不同。与CAI和CAI(HEG)不同，BNI考虑到氨酰-tRNA的使用以及密码子的“排序”，影响了作用在核糖体上的力、核糖体移位和翻译瓶颈。

根据本章观察到的结果和Vu等[93]，Li等[98]、Welch等[102]、Allert等[114]、Kudla等[115]和Tinoco等[116]发表的文献，认为翻译延伸的蛋白质产量的决定因素不仅仅是密码子偏倚，而是氨酰-tRNA使用与涉及16S rRNA 3'末端与mRNA之间的相互作用的附加效应之间的卷积，这可能导致被移位的核糖体，因此增加了核糖体等待时间、瓶颈或者框移。

对现行实验工作的改进应考虑案例研究，包括：1)对于非常长的基因，密码子偏好优化与模型优化的比较，2)使用模型原理设计合成的+1或-1移动，并在体内验证框移，3)优化和表达即使密码子偏好优化[20、22、23]时也显示出翻译较差的基因，4)进行核糖体分析实验以确定模型预测的核糖体等待时间和瓶颈的准确性。

实施例4

翻译模型和自由能信号

自由能量信号。已经有一段时间认识到在细菌翻译中，16S rRNA的3'末端核苷酸(约13个核苷酸的“暴露尾巴”)与mRNA序列连续相互作用[6、9、10、11、14、15]。这些相互作用涉及Watson-Crick碱基配对，其中可以计算16S rRNA尾巴与mRNA之间杂交的自由能[16]。图21示出了通过计算200个非框移大肠杆菌内源基因的每个核苷酸的杂交能量获得的平均信号[9]。最突出的结合能位于起始位点，但之后存在对应于“框内”核糖体易位的周期性(正弦曲线样)结合信号(负自由能指示结合)[9、10、11]。当异源基因翻译而不适应宿主时，该信号被破坏，我们预测这是由于结合错位，并且更可能使产量受损。之前在[9、10、11、17、18]中描述了模型的数学。

这个信号启发了一个新型过程机制模型，有助于阐明框移，并使用16S rRNA 3'末端“暴露尾巴”和mRNA之间的二阶能量相互作用来预测和优化蛋白质产量。将模型的预测和优化能力与简单使用密码子偏倚操作进行比较，并在体内进行了测试。

“弹簧”模型。随着核糖体沿mRNA易位，16S rRNA 3'末端与核糖体上游的碱基相互作用[6、15](图22)。如果结合能足够大并且处于有利于正常框内结合的“错误”一侧，则其可能对核糖体施加额外的力并使其移位。在极端情况下，可能会发生框移。我们使用正弦曲线对该“弹簧状”反作用力建模。例如，在+1程序化框移基因prfB(图22)中，16S尾巴的aSD与P位点上游3个碱基(图中的UAU)的SD样序列结合[15]，导致-9.5kcal/mol的结合能。该结合太靠近P位点并压缩了尾巴和核糖体之间的距离。其行为就像一个压缩的弹簧，在松弛后将核糖体移位至下游3/4个碱基的最小能量而进入+1阅读框。移位的核糖体然后在+1帧中拾取aa-tRNA。这导致了一个碱基的移动，之后保持了新的“框内”[9、10、18]。相比之下，dnaX的-1框移基因中的SD距离P位点10个碱基[14]。这种结合拉伸了“弹簧”，并将核糖体向上游移位以产生“部分”框移(在阅读框之间；产生τ和γ亚基)。我们假设当SD和起始密码子之间的“最佳”间隔是8个碱基时，发生“松弛的弹簧”状态[20]。图23显示了lacZ框内翻译期间的大肠杆菌16S aSD。该位点周围的结合能范围从零到-1千卡/摩尔。由于aSD与P位点相距8个核苷酸，所以“弹簧”处于“松弛”状态。尽管零阅读框和A位点之间略有错位(这可能会影响产量)，但是没有足够的“弹簧力”导致框移。

我们将“弹簧”的压缩或拉伸建模为自由能正弦信号的“相位”的变化[10、18](图22和图23)。在压缩弹簧(prfB)的情况下，相位角在密码子26停止时改变230度[9、18]。在我们的模型中，我们将完美松弛的“弹簧”定义为具有-25度的相位角。这是所有非假设、非推定和非伪“长”内源基因(1000+bp)大肠杆菌的平均相位角。我们选择使用长基因的相位角，因为我们认为长基因需要几乎完美的对齐来翻译全长mRNA而没有错误，即对于很长的基因错误可以累积。因此，“弹簧”在整个翻译延伸期间需要接近于“松弛”。我们将这个相位角定义为“物种角(species angle)”。

核糖体移位是累积的，并且在易位后不复位。核糖体被移位得越多，在两个阅读框的两个aa-tRNA之间选择的时间就越长。两个阅读框中密码子的aa-tRNA丰度对核糖体等待时间有重要影响。aa-tRNA丰度在我们的模型中转化为tRNA到达时间。当明确的tRNA丰度未知时，我们使用宿主生物的密码子分布[12]。在核糖体“选择”下一个aa-tRNA之后，其移位至下游的三个碱基。在我们的模型中，一个移位单位是半个核苷酸的错位。两个移位单位是完整核苷酸或读取框移的错位。确定产量的有效分析工具是极性、核糖体移位和核糖体等待时间图。

结果

预测产量。预期产量与核糖体启动翻译率和核糖体完成翻译mRNA的比例成正比[1]。我们的模型通过计算加载下一个aa-tRNA所需的周期数，预测每个密码子的核糖体等待时间。每个密码子处的“周期”数作为来自“弹簧”的力、核糖体位移量和tRNA丰度的函数计算。我们使用总周期计数作为测量蛋白质产量的内部指标。然而，由于总体目标是使整个编码区域的移位最小化，所以我们将使用野生型和优化基因之间的总排列变化来说明优化范围。总位移(TD)是整个编码区域的每个密码子处的移位绝对值之和。

虽然“总周期”是一个良好的“全局”预测因子(predictor)，但“局部”指数预测值可能是产量的更好估计因子(estimator)。由于mRNA通过多个核糖体而不仅仅是一个核糖体而被翻译成蛋白质，所以在局部邻近区域聚类在一起的多个“缓慢”翻译区域比同时分布在该基因上的多个慢区域对产量更加不利。两个基因可以具有相同的总等待周期，但是具有不同的“慢”翻译聚类。这被称为“翻译瓶颈”或“核糖体交通堵塞原则”。为了计算局部翻译瓶颈指数，使用大小为N个密码子的“求和”滑动窗口(例如，其中N是20个密码子)，原本称为积分器。等待“周期”在该窗口内相加，并绘制在称为“翻译瓶颈图”的图上。然后将窗口向下游滑动一个密码子，重新计算总和，然后绘制为图上的下一个值。翻译瓶颈图中的“峰值”或最大和作为产量预测因子。

产量的另一估计因子称为“蛋白质翻译模拟”，并测量在给定时间内完成翻译的核糖体的量。我们的模型中的时间是以周期为单位。基于每个密码子处的等待周期创建“核糖体特性”模拟。该模拟模拟核糖体启动、翻译以及与mRNA离解。完成翻译的核糖体数量是另一个“产量指数”预测因子。

优化蛋白质产量。如本文所用，术语“tRNA丰度”和“氨酰-tRNA(aa-tRNA或带电荷tRNA)丰度”可互换使用。tRNA可以具有连接的氨基酸(aa-tRNA)或不具有连接的氨基酸(不带电荷的tRNA)。核糖体仅使用aa-tRNA来产生蛋白质，而不是不带电荷的tRNA。然而，aa-tRNA的定量数据有时难以收集，因此可以通过基因组的出版(publication)或密码子使用频率，通过总tRNA浓度(带电加不带电tRNA)推断aa-tRNA的相对量。

我们假设如果我们通过使用最丰富的aa-tRNA保持基因移位接近零，并最大化tRNA到达时间，我们可以减少核糖体等待时间并增加蛋白质产量。接近于零的移位确保A位点靠近零阅读框。这可以通过选择编码最丰富的aa-tRNA的密码子，同时保持基因的相位角接近于“物种角”来实现。这在移位期间导致最小的“弹簧”压缩或拉伸。结合这些概念，通过使用同义密码子改变遗传序列，同时保留氨基酸来进行序列基因设计。我们相信该模型在优化非常长的基因方面表现优异，因为它可以通过优化“物种角”而不是密码子偏倚来最小化积累的误差。相反，可以改变基因使蛋白质生产“不太优化”。具有在“有毒”蛋白质的途径优化和生产中的潜在应用的蛋白质产量的降低可以通过保持移位远离0但在-1和+1之间来实现，以避免可能的框移。这增加了每个密码子处的核糖体等待时间。

当带电荷tRNA丰度池负担不重和未耗尽时，该方法在低mRNA转录水平下是可行的。然而，在高mRNA转录水平时，最好在许多不同的tRNA(编码相同的氨基酸)之间分散工作量，而不是使用单个tRNA或单组tRNA。这涉及从未带电荷到带电荷的tRNA的“再充电”率[4、21、22]。人们还需要保持接近物种角，同时跨多个tRNA分散工作量，以避免移位核糖体。

体内实验。

为了验证模型的预测和优化，我们优化并表达了大肠杆菌三种模型基因和编码GST的多种mRNA变体(来自日本血吸虫的26kDa谷胱甘肽S-转移酶，在pET-41a(+)质粒中发现)；Novagen，Inc.)。优化的基因的蛋白质产量显示相比野生型水平增加。由于篇幅限制，我们只说明了gst和adh(乙醇脱氢酶，CLJU_C11880，来自Clostridium ljungdahlii DSM13528)的优化结果。所有变体的前90个碱基与野生型的前90个碱基相同。这是为了消除由于翻译起始导致的产量变化[1、5、7]。将基因克隆到pBAD诱导型质粒(Invitrogen，Inc.)中并在大肠杆菌中表达。总蛋白通过BCA测定法定量，并用于活性归一化；以在562nm的吸光度测量总蛋白单位。使用已发表的方法进行CAI计算和优化[19]。

gst基于移位(模型优化)和密码子偏倚(CAI优化)进行了优化；参见图24。将所有gst变体克隆到pBAD诱导型质粒中，在大肠杆菌中以0.02％w/v阿拉伯糖表达2小时，并测定活性水平。使用E.C.2.5.1.18测定法测量GST活性。归一化的GST产量以每个蛋白质ΔABS_340nm/min为单位进行定量。进行三次独立的诱导以测试可重复性。从每个诱导中收集三个样品，共测定九个样品。

模型优化的变体显示最多的GST活性产率，随后是CAI优化，然后是野生型(图25)。具有更好的密码子偏倚的CAI优化没有产生与模型优化变体相同的GST。相反，gst的模型优化几乎没有增加密码子偏倚，但超过了CAI优化的蛋白质产量水平。因此，较高的密码子偏倚可能并不总是意味着更高的产量，CAI并不总是蛋白质产量的准确预测因子，如我们的结果所证明[4、5]。

adh也基于核糖体移位进行优化(模型优化；参见图26)。将野生型和优化的变体克隆到pBAD诱导型质粒中，在大肠杆菌中以0.2％w/v阿拉伯糖表达4小时，并比较活性水平。使用E.C.1.1.1.1测定法测定ADH活性。归一化的ADH产量以每个蛋白质ΔABS_340nm/min为单位进行定量。进行两次次独立的诱导以测试可重复性。从每个诱导中收集两个样品，共测定四个样品。模型优化变体相比野生型获得45％的增加，而几乎不增加密码子偏倚(图27)。

结论

我们已经开发了一种预测和优化异源蛋白质生产基因的新模型。该模型融合了16S rRNA尾巴和mRNA相互作用的有力的“弹簧”、核糖体移位和tRNA丰度，导致了感兴趣的基因的核糖体“等待时间”参数。这代表了评估核糖体动力学和翻译效率的综合策略。该模型作为完全实施的软件包(RiboScan^TM)存在，为蛋白质生产工程提供了新的方法。使用该模型的应用包括：1)内源性大肠杆菌基因和基因组注释的分析，2)即使使用密码子偏倚优化还显示较差翻译的高价值工业和治疗基因的优化和表达，3)修正核糖体“等待时间”参数以优化蛋白质折叠从而减少或消除包涵体形成[6]，以及4)将翻译模型扩展到不同的生物体。

参考文献

[1]Plotkin,J.B.&Kudla,G."Synonymous but not the same:the causes andconsequences of codon bias."Nature Reviews Genetics,12(1),32-42(2010).

[2]Gustafsson,C,Minshull,J.,Govindarajan,S.,Ness,J.,Villalobos,A.,&

Welch,M."Engineering genes for predictable protein expression."Protein expression and purification,83(1),37-46,(2012).

[3]Gustafsson,C,Govindarajan,S.,&Minshull,J."Codon bias andheterologous protein expression."Trends in biotechnology,22(7),346-353,(2004).

[4]Welch,M.,Govindarajan S.,Ness J.,Villalobos,A.,Gurney,A.,&Minshul,J."Design Parameters to Control Synthetic Gene Expression in Escherichiacoli."PLoS one,4(9),e7002,(2009).

[5]Kudla,G.,Murray,A.W.,Tollervey,D.,&Plotkin,J.B."Coding-sequencedeterminants of gene expression in Escherichia coli."Science,324(5924),(2009).

[6]Li,G.W.,Oh,E.,&Weissman,J.S."The anti-Shine-Dalgarno sequencedrives translational pausing and codon choice in bacteria."Nature,484(7395),538-541,(2012).

[7]Allert,M.,Cox,J.C,&Hellinga,H.W."Multifactorial determinants ofprotein expression in prokaryotic open reading frames."Journal of molecularbiology,402(5),905-918,(2010).

[8]Sharp,P.M.&Li,W-H."The codon adaptation index-a measure ofdirectional synonymous codon usage bias,and its potential applications."Nucleic Acids Res.,15(3),1281-1295,(1987).

[9]Mishra,M.,Vu,S.K.,Bitzer,D.L.,&Vouk,M.A."Free energy periodicityin prokaryotic coding and its role in identification of+1 ribosomalframeshifting in the Escherichia Coli K-12 gene prfb."26^th Conf Proc.IEEEEMBS,Vol 2,pp.2848-2851,(2004).

[10]Mishra,M."The Role of Free Energy Synchronous Signal inTranslation of Prokaryotes."Thesis,(www.lib.ncsu.edu/resolver/1840.16/1221)(2004).

[11]Rosnick,D.,Bitzer,D.,Vouk,M.,&May,E."Free energy periodicity inE.coli coding."22^nd Conf Proc IEEE EMBS,Vol.4,pp.2470-2473,(2000).

[12]Dong,H.,Nilsson,L.,&Kurland,C.G."Co-variation of tRNA abundanceand codon usage in Escherichia coli at different growth rates."Journal ofmolecular biology,260(5),649-663,(1996).

[13]Aitken,C.E.,Petrov,A.,&Puglisi,J.D."Single ribosome dynamics andthe mechanism of translation."Annu Rev Biophys.,39:491-513,(2010).

[14]Larsen,B.,Wills,N.M.,Gesteland,R.F.,&Atkins,J.F."rRNA-mRNA basepairing stimulates a programmed-1 ribosomal frameshift."J.Bacteriol,176(22),6842-6851,(1994).

[15]Weiss,R.B.,Dunn,D.M.,Dahlberg,A.E.,Atkins,J.F.,&Gesteland,R.F."Reading frame switch caused by base-pair formation between the 3'end of 16SrRNA and the mRNA during elongation of protein synthesis in Escherichiacoli."￡SO J,7(5),1503(1988).

[16]Freier,S.M.,Kierzek,R.,Jaeger,J.A.,Sugimoto,N.,Caruthers,M.H.,Nielson,T.,&Tuner,D.H."Improved free-energy parameters for predictions of RNAduplex stability."Proc.Nat.Acad.Sci.USA,83(24):9373-9377,(1986).

[17]Ponnala,L.,Stomp,A.-M.,Bitzer D.L.,&Vouk M.A."Analysis of freeenergy signals arising from nucleotide hybridization between rRNA and mRNAsequences during translation in Eubacteria."EURASIP J.on Bioinformatics andSystems Biol,pp.1-9(23613),(2006).

[18]Ponnala,L.,Bitzer,D.L.,Stomp,A.,&Vouk,M.A."A computational modelfor reading frame maintenance."28^th Conf.Proc.IEEE EMBS,pp.4540-4543,(2006).

[19]Puigbo,P.,Guzman,E.,Romeu,A.,&Garcia-Vail ve,S."OPTIMIZER:a webserver for optimizing the codon usage of DNA sequences."Nucleic acidsresearch,35(suppl 2),W126-W131,(2007).

[20]Shultzaberger,R.K.,Bucheimer,R.E.,Rudd,K.E.,&Schneider,T.D."Anatomy of Escherichia coli ribosome binding sites."Journal of molecularbiology,313(1),215-228,(2001).

[21]Elf,J.,Nilsson,D.,Tenson,T.,&Ehrenberg,M."Selective charging oftRNA isoacceptors explains patterns of codon usage."Science,300(5626):1718-1722(2003).

[22]Kimberly,A.D.,S0rensen,M.A.,Elf,J.,Ehrenberg,M,&Pan,T."Selectivecharging of tRNA isoacceptors induced by amino-acid starvation."EMBO reports6(2):151-157(2005).

[23]Shine,J.&Dalgarno,L."The 3'-terminal sequence of Escherichia coli16S ribosomal RNA:complementarity to nonsense triplets and ribosome bindingsites,"Proceedings of the National Academy of Sciences,vol.71,no.4,pp.1342-1346,1974.

[24]Marshall,R.A.,Aitken,C.E.and Puglisi,J.D."GTP Hydrolysis by IF2Guides Progression of the Ribosome into Elongation,"Mol.Cell,vol.35,no.1,pp.37-47,2009.

[25]Korkmaz,G.,Holm,M.,Wiens,T.and Sanyal,S."Comprehensive Analysisof Stop Codon Usage in Bacteria and Its Correlation with Release FactorAbundance,"J.Biol.Chem.,vol.289,no.44,pp.30334-30342,2014.

[26]Spirin,A.S.Ribosomes,1st ed.New York,NY:Kluwer Academic/PlenumPublishers,1999.

[27]Dunkle,J.A.,and Cate,J.H.D."Ribosome structure and dynamicsduring translocation and termination,"Annu.Rev.Biophys.,vol.39,pp.227-244,2010.

[28]Sanna,C.R.Li,W.-H,and Zhang,L."Overlapping genes in the human andmouse genomes,"BMC Genomics,vol.9,p.169,2008.

[29]Fukuda,Y.,Nakayama,Y.,and Tomita,M."On dynamics of overlappinggenes in bacterial genomes,"Gene,vol.323,no.1-2,pp.181-187,2003.

[30]Li,G.W.,Oh,E.and Weissman,J.S."The anti-Shine-Dalgarno sequencedrives translational pausing and codon choice in bacteria,"Nature,vol.484,no.7395,pp.538-541,2012.

[31]Farabaugh,P.J."Programmed translational frameshifting,"Annu.Rev.Genet.,vol.30,pp.507-528,1996.

[32]Tinoco,I.Kim,H.K.and Yan,S."Frameshifting dynamics,"Biopolymers,vol.99,no.12,pp.1147-1166,2013.

[33]Weiss,R.B.,Dunn,D.M,Dahlberg,A.E.,Atkins,J.F.,and Gesteland,R.F."Reading frame switch caused by base-pair formation between the 3'end of 16SrRNA and the mRNA during elongation of protein synthesis in Escherichiacoli,"￡SO J,vol.7,no.5,pp.1503-1507,1988.

[34]Larsen,B.,Wills,N.M.,Gesteland,R.F.,and Atkins,J.F."rRNA-mRNAbase pairing stimulates a programmed-1 ribosomal frameshift,"J.Bacteriol,vol.176,no.22,pp.6842-6851,1994.

[35]Salis,H.M.,Mirsky,E.A.,and Voigt,C.A."Automated design ofsynthetic ribosome binding sites to control protein expression,"Nat.Biotechnol,vol.27,no.10,pp.946-950,2009.

[36]Sharp,P.M.,and Li,W.-H."The codon adaptation index-a measure ofdirectional synonymous codon usage bias,and its potential applications,"Nucleic Acids Res.,vol.15,no.3,pp.1281-1295,1987.

[37]dos Reis,M.,Savva,R.,and Wernisch,L.,"Solving the riddle of codonusage preferences:a test for translational selection,"Nucleic Acids Res.,vol.32,no.17,pp.5036-5044,2004.

[38]Welch,M.,Govindarajan,S.,Ness,J.E.,Villalobos,A.,Gurney,A.,Minshull,J.,and Gustafsson,C."Design Parameters to Control Synthetic GeneExpression in Escherichia coli,"PLoS ONE,vol.4,no.9,p.e7002,2009.

[39]Gustafsson,C,Govindarajan,S.,and Minshull,J."Codon bias andheterologous protein expression,"Trends in Biotechnology,vol.22,no.7.pp.346-353,2004.

[40]Puigbo,P.,Guzman,E.,Romeu,A.,and Garcia-Vail ve,S."OPTIMIZER:Aweb server for optimizing the codon usage of DNA sequences,"Nucleic AcidsRes.,vol.35,no.SUPPL.2,2007.

[41]Grote,A.,Hiller,K.,Scheer,M.,Munch,R.,Nortemann,B.,Hempel,D.C,andJahn,D."JCat:A novel tool to adapt codon usage of a target gene to itspotential expression host,"Nucleic Acids Res.,vol.33,no.SUPPL.2,2005.

[42]Vu,S.K.,Bellotti,A.A.,Gabriel,C.J.,Brochu,H.N.,Miller,E.S.,Bitzer,D.L.,and Vouk,M.A."Modeling ribosome dynamics to optimize heterologousprotein production in Escherichia coli,"IEEE Global Conference on Signal andInformation Processing(GlobalSIP),pp.1422-1425,2014.

[43]Shultzaberger,R.K.,Bucheimer,R.E.,Rudd,K.E.,and Schneider,T.D."Anatomy of Escherichia coli ribosome binding sites,"J.Mol.Bio.,vol.313,no.1,pp.215-228,2001.

[44]Tinoco,I,Kim,H.-K.,and Yan,S."Frameshifting dynamics,"Biopolymers,vol.99,no.12,pp.1147-1166,2013.

[45]M.Mishra,S.K.Vu,D.L.Bitzer,and M.a Vouk,"Free energy periodicityin prokaryotic coding and its role in identification of+1 ribosomalframeshifting in the Escherichia Coli K-12 gene prfb,"Conf.Proc.IEEEEng.Med.Biol.Soc,vol.4,pp.2848-2851,2004.

[46]D.I.Rosnick,D.L.Bitzer,M.A.Vouk,and E.E.May,"Free energyperiodicity in E.coli coding,"Conf.Proc.IEEE Eng.Med.Biol.Soc,vol.4,pp.2470-2473,2000.

[47]M.Mishra,"The Role of Free Energy Synchronization Signal inTranslation of Prokaryotes,"M.S.thesis,Dept.Comp.Sci.,N.C.State Univ.,Raleigh,NC,2004.

[48]L.Ponnala,A.M.Stomp,D.L.Bitzer,and M.A.Vouk,"Analysis of freeenergy signals arising from nucleotide hybridization between rRNA and mRNAsequences during translation in eubacteria,"Eurasip J.Bioinforma.Syst.Biol.,vol.2006,2006.

[49]G.W.Li,E.Oh,and J.S.Weissman,"The anti-Shine-Dalgarno sequencedrives translational pausing and codon choice in bacteria,"Nature,vol.484,no.7395,pp.538-541,2012.

[50]R.B.Weiss,D.M.Dunn,A.E.Dahlberg,J.F.Atkins,and R.F.Gesteland,"Reading frame switch caused by base-pair formation between the 3'end of 16SrRNA and the mRNA during elongation of protein synthesis in Escherichiacoli,"EMBO J.,vol.7,no.5,p.1503,1988.

[51]B.Larsen,N.M.Wills,R.F.Gesteland,and J.F.Atkins,"rRNA-mRNA basepairing stimulates a programmed-1 ribosomal frameshift,"J.Bacteriol,vol.176,no.22,pp.6842-6851,1994.

[52]L.Ponnala,D.L.Bitzer,A.Stomp,and M.A.Vouk,"A computational modelfor reading frame maintenance,"Conf.Proc.IEEE Eng.Med.Biol.Soc,2006,pp.4540-4543.

[53]S.K.Vu,A.A.Bellotti,C.J.Gabriel,H.N.Brochu,E.S.Miller,D.L.Bitzer,and M.A.Vouk,"Modeling ribosome dynamics to optimize heterologous proteinproduction in Escherichia coli,"IEEE Global Conference on Signal andInformation Processing(GlobalSIP),pp.1422-1425,2014.

[54]I.Tinoco,H.K.Kim,and S.Yan,"Frameshifting dynamics,"Biopolymers,vol.99,no.12,pp.1147-1166,2013.

[55]H.Chen,M.Bjerknes,R.Kumar,and E.Jay,"Determination of the optimalaligned spacing between the Shine-Dalgarno sequence and the translationinitiation codon of Escherichia coli m RNAs,"Nucleic Acids Res.,vol.22,no.23,pp.4953-4957,1994.

[56]R.K.Shultzaberger,R.E.Bucheimer,K.E.Rudd,and T.D.Schneider,"Anatomy of Escherichia coli ribosome binding sites,"J.Mol.Bio.,vol.313,no.1,pp.215-228,2001.

[57]N.Malys,"Shine-Dalgarno sequence of bacteriophage T4:GAGGprevails in early genes,"Mol.Biol.Rep.,vol.39,no.1,pp.33-39,2011.

[58]P.J.Farabaugh,"Programmed translational frameshifting,"Annu.Rev.Genet.,vol.30,pp.507-528,1996.

[59]P.V.Baranov,R.F.Gesteland,and J.F.Atkins,"Release factor2frameshifting sites in different bacteria,"EMBO Rep.,vol.3,no.4,pp.373-377,2002.

[60]J.Elf and M.Ehrenberg,"Near-Critical Behavior of Aminoacyl-tRNAPools in E.coli at Rate-Limiting Supply of Amino Acids,"Biophys.J,vol.88,no.1,pp.132-146,2005.

[61]M.Welch,S.Govindarajan,J.E.Ness,A.Villalobos,A.Gurney,J.Minshull,and C.Gustafsson,"Design Parameters to Control Synthetic Gene Expression inEscherichia coli,"PLoS ONE,vol.4,no.9,p.e7002,2009.

[62]K.A.Dittmar,M.A.S0rensen,J.Elf,M.ans Ehrenberg,and T.Pan,"Selective charging of tRNA isoacceptors induced by amino-acid starvation,"EMBO Rep.,vol.6,no.2,pp.151-157,2005.

[63]M.A.S0rensen,"Charging levels of four tRNA species in Escherichiacoli Rel(+)and Rel(-)strains during amino acid starvation:a simple model forthe effect of ppGpp on translational accuracy,"J.Mol.Biol,vol.307,no.3,pp.785-798,2001.

[64]H.Dong,L.Nilsson,and C.G.Kurland,"Co-variation of tRNA abundanceand codon usage in Escherichia coli at different growth rates,"J.Mol.Biol,vol.260,no.5,pp.649-663,1996.

[65]F.H.Crick,"Codon-anticodon pairing:the wobble hypothesis,"J.Mol.Biol,vol.19,no.2,pp.548-555,1966.

[66]S.K.Vu,'RiboLab Research Group',Ribolab.com,2015.[Online].Available:http://www.ribolab.com.[Accessed:05-Aug-2015].

[67]A.S.Spirin,Ribosomes,1st ed.New York,NY:Kluwer Academic/PlenumPublishers,1999.

[68]M.Mishra,S.K.Vu,D.L.Bitzer,and M.a Vouk,"Free energy periodicityin prokaryotic coding and its role in identification of+1 ribosomalframeshifting in the Escherichia Coli K-12 gene prfb,"Conf.Proc.IEEEEng.Med.Biol.Soc,vol.4,pp.2848-2851,2004.

[69]D.I.Rosnick,D.L.Bitzer,M.A.Vouk,and E.E.May,"Free energyperiodicity in E.coli coding,"Proc.22nd Annu.Int.Conf.IEEE Eng.Med.Biol.Soc,vol.4,pp.2470-2473,2000.

[70]A.S.Spirin,Ribosomes,1st ed.New York,NY:Kluwer Academic/PlenumPublishers,1999.

[71]S.M.Freier,R.Kierzek,J.A.Jaeger,N.Sugimoto,M.H.Caruthers,T.Neilson,and D.H.Turner,"Improved free-energy parameters for predictions ofRNA duplex stability,"Proc.Natl.Acad.Sci.U.S.A.,vol.83,no.24,pp.9373-9377,1986.

[72]H.Chen,M.Bjerknes,R.Kumar,and E.Jay,"Determination of the optimalaligned spacing between the Shine-Dalgarno sequence and the translationinitiation codon of Escherichia coli m RNAs,"Nucleic Acids Res.,vol.22,no.23,pp.4953-4957,1994.

[73]D.I.Rosnick,D.L.Bitzer,M.A.Vouk,and E.E.May,"Free energyperiodicity in E.coli coding,"Conf.Proc.IEEE Eng.Med.Biol.Soc,vol.4,pp.2470-2473,2000.

[74]L.Ponnala,A.M.Stomp,D.L.Bitzer,and M.A.Vouk,"Analysis of freeenergy signals arising from nucleotide hybridization between rRNA and mRNAsequences during translation in eubacteria,"Eurasip J.Bioinforma.Syst.Biol,vol.2006,2006.

[75]H.Dong,L.Nilsson,and C.G.Kurland,"Co-variation of tRNA abundanceand codon usage in Escherichia coli at different growth rates,"J.Mol.Biol,vol.260,no.5,pp.649-663,1996.

[76]T.Ikemura,"Correlation between the abundance of yeast transferRNAs and the occurrence of the respective codons in protein genes:differencesin synonymous codon choice patterns of yeast and Escherichia coli withreference to the abundance of isoaccepting transfer RNAs,"J.Mol.Biol,vol.158,no.4,pp.573-597,1982.

[77]T.Ikemura,"Codon usage and tRNA content in unicellular andmulticellular organisms,"Mol.Biol.Evol,vol.2,no.1,pp.13-34,1985.

[78]T.Ikemura,"Correlation between the abundance of Escherichia colitransfer RNAs and the occurrence of the respective codons in its proteingenes:a proposal for a synonymous codon choice that is optimal for the E.colitranslational system,"J.Mol.Biol,vol.151,no.3,pp.389-409,1981.

[79]S.Kanaya,Y.Yamada,Y.Kudo,and T.Ikemura,"Studies of codon usageand tRNA genes of 18 unicellular organisms and quantification of Bacillussubtilis tRNAs:gene expression level and species-specific diversity of codonusage based on multivariate analysis,"Gene,vol.238,no.1,pp.143-155,1999.

[80]L.Duret,"tRNA gene number and codon usage in the C.elegans genomeare co-adapted for optimal translation of highly expressed genes,"Trends inGenetics,vol.16,no.7.pp.287-289,2000.

[81]R.Percudani,A.Pavesi,and S.Ottonello,"Transfer RNA generedundancy and translational selection in Saccharomyces cerevisiae,"JMol.Biol,vol.268,no.2,pp.322-330,1997.

[82]M.dos Reis,R.Savva,and L.Wernisch,"Solving the riddle of codonusage preferences:a test for translational selection,"Nucleic Acids Res.,vol.32,no.17,pp.5036-5044,2004.

[83]Y.Nakamura,T.Gojobori,and T.Ikemura,"Codon usage tabulated frominternational DNA sequence databases:status for the year 2000,"Nucleic AcidsRes,vol.28,p.292,2000.

[84]M.Mishra,"The Role of Free Energy Synchronization Signal inTranslation of Prokaryotes,"M.S.thesis,Dept.Comp.Sci.,N.C.State Univ.,Raleigh,NC,2004.

[85]S.K.Vu,'RiboLab Research Group',Ribolab.com,2015.[Online].Available:http://www.ribolab.com.[Accessed:05-Aug-2015].

[86]P.M.Sharp and W.H.Li,"The codon adaptation index-a measure ofdirectional synonymous codon usage bias,and its potential applications,"Nucleic AcidsRes.,vol.15,no.3,pp.1281-1295,1987.

[87]H.R.Costantino,S.H.Brown,and R.M.Kelly,"Purification andcharacterization of an a-glucosidase from a hyperthermophilicarchaebacterium,Pyrococcus furiosus,exhibiting a temperature optimum of 105to 115℃,"J.Bacteriol,vol.172,no.7,pp.3654-3660,1990.

[88]P.L.M0ller,F.J0rgensen,O.C.Hansen,M.Madsen,P.Stougaard,O.L.E.C.Hansen,and S.M.Madsen,"Intra-and Extracellular b-galactosidases fromBifidobacterium bifidum and B.infantis:Molecular Cloning,HeterologousExpression,and Comparative Characterization,"Appl.Environ.Microbiol,vol.67,no.5,pp.2276-2283,2001.

[89]H.Dong,L.Nilsson,and C.G.Kurland,"Co-variation of tRNA Abundanceand Codon Usage in Escherichia coli at Different Growth Rates,"J.Mol.Biol,vol.260,no.5,pp.649-663,1996.

[90]H.M.Salis,"The ribosome binding site calculator,"MethodsEnzymol.,vol.498,pp.19-42,2011.

[91]P.Puigbo,E.Guzman,A.Romeu,and S.Garcia-Vallve,"OPTFMIZER:A webserver for optimizing the codon usage of DNA sequences,"Nucleic Acids Res.,vol.35,no.SUPPL.2,2007.

[92]D.B.Smith,K.M.Davern,P.G.Board,W.U.Tiu,E.G.Garcia,andG.F.Mitchell,"Mr 26,000 antigen of Schistosoma japoni cum recognized byresistant WEHI 129/J mice is a parasite glutathione S-transferase,"Proc.Natl.Acad.Sci.U.S.A.,vol.83,no.22,pp.8703-8707,1986.

[93]S.K.Vu,A.A.Bellotti,C.J.Gabriel,H.N.Brochu,E.S.Miller,D.L.Bitzer,and M.A.Vouk,"Modeling ribosome dynamics to optimize heterologous proteinproduction in Escherichia coli,"IEEE Global Conference on Signal andInformation Processing(GlobalSIP),pp.1422-1425,2014.

[94]Y.Nakamura,T.Gojobori,and T.Ikemura,"Codon usage tabulated frominternational DNA sequence databases:status for the year 2000,"Nucleic AcidsRes,vol.28,p.292,2000.

[95]L.M.Guzman,D.Belin,M.J.Carson,and J.Beckwith,"Tight regulation,modulation,and high-level expression by vectors containing the arabinose P(BAD)promoter,"J.Bacteriol,vol.177,no.14,pp.4121-4130,1995.

[96]E.Siller,D.C.DeZwaan,J.F.Anderson,B.C.Freeman,and J.M.Barral,"Slowing Bacterial Translation Speed Enhances Eukaryotic Protein FoldingEfficiency,"J.Mol.Biol,vol.396,no.5,pp.1310-1318,2010.

[97]S.Pechmann and J.Frydman,"Evolutionary conservation of codonoptimality reveals hidden signatures of cotranslational folding,"Nat.Struct.Mol.Biol,vol.20,no.2,pp.237-243,2013.

[98]G.W.Li,E.Oh,and J.S.Weissman,"The anti-Shine-Dalgarno sequencedrives translational pausing and codon choice in bacteria,"Nature,vol.484,no.7395,pp.538-541,2012.

[99]BiologicsCorp,'GC Content Calculator',Biologicscorp.com,2015.[Online].Available:http://www.biologicsco.com/tools/GCContent.[Accessed:22-Aug-2015].

[100]Y.Nakamura,T.Gojobori,and T.Ikemura,"Codon usage tabulated frominternational DNA sequence databases:status for the year 2000,"Nucleic AcidsRes,vol.28,p.292,2000.

[101]D.A.Benson,I.Karsch-Mizrachi,D.J.Lipman,J.Ostell,andE.W.Sayers,"G&aawak,"Nucleic Acids Res.,vol.39,no.SUPPL.1,2011.

[102]M.Welch,S.Govindarajan,J.E.Ness,A.Villalobos,A.Gurney,J.Minshull,and C.Gustafsson,"Design Parameters to Control Synthetic GeneExpression in Escherichia coli,"PLoS ONE,vol.4,no.9,p.e7002,2009.

[103]K.A.Dittmar,M.A.S0rensen,J.Elf,M.ans Ehrenberg,and T.Pan,"Selective charging of tRNA isoacceptors induced by amino-acid starvation,"EMBO Rep.,vol.6,no.2,pp.151-157,2005.

[104]J.Elf and M.Ehrenberg,"Near-Critical Behavior of Aminoacyl-tRNAPools in E.coli at Rate-Limiting Supply of Amino Acids,"Biophys.J.,vol.88,no.1,pp.132-146,2005.

[105]C.Gustafsson,S.Govindarajan,and J.Minshull,"Codon bias andheterologous protein expression,"Trends in Biotechnology,vol.22,no.7.pp.346-353,2004.

[106]M.Welch,A.Villalobos,C.Gustafsson,and J.Minshull,"Designinggenes for successful protein expression,"Methods Enzymol.,vol.498,pp.43-66,2011.

[107]B.Maertens,A.Spriestersbach,U.Von Groll,U.Roth,J.Kubicek,M.Gerrits,M.Graf,M.Liss,D.Daubert,R.Wagner,and F.Schafer,"Gene optimizationmechanisms:A multi-gene study reveals a high success rate of full-lengthhuman proteins expressed in Escherichia coli,"Protein Sci.,vol.19,no.7,pp.1312-1326,2010.

[108]N.A.Burgess-Brown,S.Sharma,F.Sobott,C.Loenarz,U.Oppermann,andO.Gileadi,"Codon optimization can improve expression of human genes inEscherichia coli:A multi-gene study,"Protein Expr.Purif,vol.59,no.1,pp.94-102,2008.

[109]H.G.Menzella,"Comparison of two codon optimization strategies toenhance recombinant protein production in Escherichia coli,"Microb.Cell Fact,vol.10,no.1,p.15,2011.

[110]F.Baneyx and M.Mujacic,"Recombinant protein folding andmisfolding in Escherichia coli,"Nat.Biotechnol,vol.22,no.11,pp.1399-1408,2004.

[111]A.Mitraki and J.King,"Protein Folding Intermediates andInclusion Body Formation,"Nat.Biotechnol,vol.7,pp.690-697,1989.

[112]S.Kim and S.B.Lee,"Soluble expression of archaeal proteins inEscherichia coli by using fusion-partners,"Protein Expr.Purif,vol.62,no.1,pp.116-119,2008.

[113]S.V.Albers,M.Jonuscheit,S.Dinkelaker,T.Urich,A.Kletzin,R.Tampe,A.J.M.Driessen,and C.Schleper,"Production of recombinant and tagged proteinsin the hyperthermophilic archaeon Sulfolobus solfataricus,"Appl.Environ.Microbiol,vol.72,no.1,pp.102-111,2006.

[114]M.Allert,J.C.Cox,and H.W.Hellinga,"Multifactorial Determinantsof Protein Expression in Prokaryotic Open Reading Frames,"J.Mol Biol,vol.402,no.5,pp.905-918,2010.

[115]G.Kudla,A.W.Murray,D.Tollervey,and J.B.Plotkin,"Coding-sequencedeterminants of gene expression in Escherichia coli,"Science,vol.324,no.5924,pp.255-258,2009.

[116]I.Tinoco,H.K.Kim,and S.Yan,"Frameshifting dynamics,"Biopolymers,vol.99,no.12,pp.1147-1166,2013.

[117]E.Siller,D.C.DeZwaan,J.F.Anderson,B.C.Freeman,and J.M.Barral,"Slowing Bacterial Translation Speed Enhances Eukaryotic Protein FoldingEfficiency,"J.Mol Biol,vol.396,no.5,pp.1310-1318,2010.

[118]S.Pechmann and J.Frydman,"Evolutionary conservation of codonoptimality reveals hidden signatures of cotranslational folding,"Nat.Struct.Mol.Biol.,vol.20,no.2,pp.237-243,2013.

[119]A.Mitraki and J.King,"Protein Folding Intermediates andInclusion Body Formation,"Nat.Biotechnol,vol.7,pp.690-697,1989.

[120]F.Baneyx and M.Mujacic,"Recombinant protein folding andmisfolding in Escherichia coli,"Nat.Biotechnol,vol.22,no.11,pp.1399-1408,2004.

[121]C.Xing,D.L.Bitzer,W.E.Alexander,A.M.Stomp,and M.A.Vouk,"Freeenergy analysis on the coding region of the individual genes of Saccharomycescerevisiae,"ConfProc IEEE Eng Med Biol Soc,vol.1,pp.4225-4228,2006.

[122]C.Xing,D.L.Bitzer,W.E.Alexander,M.a Vouk,and A.-M.Stomp,"Identification of protein-coding sequences using the hybridization of 18SrRNA and mRNA during translation.,"Nucleic Acids Res.,vol.37,no.2,pp.591-601,2009.

[123]C.Xing,"Methods of identification of pseudogenes based onfunctionality:hybridization of 18S rRNA and mRNA during translation,"MethodsMol Biol,vol.1167,pp.63-73,2014.

[124]A.V Pisarev,V.G.Kolupaeva,M.M.Yusupov,C.U.T.Hellen,and T.VPestova,"Ribosomal position and contacts of mRNA in eukaryotic translationinitiation complexes.,"EMBO J.,vol.27,pp.1609-1621,2008.

本说明书中提到的所有出版物、专利申请、专利和其他参考文献都指示本发明所属领域技术人员的水平。所有出版物、专利申请、专利和其他参考文献通过引用并入本文，其程度如同每个单独的出版物、专利申请、专利和其它参考文献被具体和单独地指明通过引用并入。应当理解，尽管在本文中提及了许多专利申请、专利和其他参考文献，但是这样的引用并不构成对这些文献中的任何一种成为本领域公知常识的一部分的承认。

虽然为了清楚理解的目的，通过说明和示例的方式已经对前述主题进行了详细描述，但是本领域技术人员将会理解，在所附权利要求的范围内可以实施某些改变和修改。

Claims

1.一种用于预测基因翻译的蛋白质产量的方法，所述方法包括：

(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；和

(b)确定经过遍及编码区的密码子的总周期计数；

其中所述经过遍及编码区的密码子的总周期计数与蛋白质产量相关。

2.一种用于预测基因翻译的蛋白质产量的方法，所述方法包括：

(a)确定在编码蛋白质的mRNA的编码区中每个密码子处的核糖体等待时间，包括确定在每个密码子处的周期数，其中所述周期数是tRNA丰度、核糖体移位量级和来自mRNA与核糖体的3'端rRNA尾巴之间结合的力的函数；

(b)绘制翻译瓶颈图，其中所述图包含这样的值，所述值包含在大小为N个密码子的滑动窗口内的周期总和；和

(c)确定翻译瓶颈图中的最大总和；

其中所述翻译瓶颈图中的最大总和与蛋白质产量相关。

3.一种用于预测基因翻译的蛋白质产量的方法，所述方法包括：

(b)进行蛋白质翻译模拟以确定在多个周期内完成翻译的核糖体的量；

其中所述在多个周期内完成翻译的核糖体的量与蛋白质产量相关。

4.一种用于增加基因翻译蛋白质产量的方法，所述方法包括：

(a)进行根据权利要求1～3中任一项所述的用于预测基因翻译的蛋白质产量的方法，和

(b)在改变所述力和/或所述等待时间的同时使用保留蛋白质氨基酸序列的同义密码子修改密码子；

其中所述基因翻译的蛋白质产量增加。

5.根据权利要求4所述的方法，其中步骤4(b)包括修改密码子，使得核糖体等待时间减少。

6.根据权利要求4或5中任一项所述的方法，其中通过选择基本相等于所述基因种类角的所述基因相位角，使所述核糖体移位量级最小化。

7.一种用于降低基因翻译蛋白质产量的方法，所述方法包括：

其中所述基因翻译的蛋白质产量降低。

8.根据权利要求7的方法，其中步骤7(b)包括修改密码子，使得核糖体等待时间增加。

9.一种用于预测蛋白质聚集的方法，所述方法包括：

(b)确定经过遍及编码区的密码子的总周期计数；

其中所述经过遍及编码区的密码子的总周期计数与蛋白质聚集相关。

10.一种用于预测蛋白质聚集的方法，所述方法包括：

(c)确定翻译瓶颈图中的最大总和；

其中所述翻译瓶颈图中的最大总和与蛋白质聚集相关。

11.一种用于预测蛋白质聚集的方法，所述方法包括：

其中所述在多个周期内完成翻译的核糖体的量与蛋白质聚集相关。

12.一种用于增加蛋白质聚集的方法，所述方法包括：

(a)进行根据权利要求9～11中任一项所述的用于预测基因翻译的蛋白质产量的方法，和

其中所述蛋白质聚集增加。

13.根据权利要求12所述的方法，其中步骤12(b)包括修改密码子，使得核糖体等待时间减少。

14.一种用于减少蛋白质聚集的方法，所述方法包括：

其中所述蛋白质聚集减少。

15.根据权利要求14所述的方法，其中步骤14(b)包括修改密码子，使得核糖体等待时间增加。

16.根据权利要求1至15中任一项所述的方法，其中所述基因来自原核生物，并且所述核糖体的3'末端rRNA尾巴是16S rRNA尾巴。

17.根据权利要求1至15中任一项所述的方法，其中所述基因来自真核生物，并且所述核糖体的3'末端rRNA尾巴是18S rRNA尾巴。

18.一种被编程为执行根据权利要求1至17中任一项所述的方法步骤中的一个或多个的计算机可读介质。