CN113891941A

CN113891941A - 修饰翻译的方法

Info

Publication number: CN113891941A
Application number: CN202080039474.0A
Authority: CN
Inventors: T·图勒; S·巴伊里; B·艾普特
Original assignee: Ramot at Tel Aviv University Ltd
Current assignee: Ramot at Tel Aviv University Ltd
Priority date: 2019-03-28
Filing date: 2020-03-26
Publication date: 2022-01-04
Also published as: EP3947692A4; US20220162595A1; WO2020194311A1; CA3131847A1; EP3947692A1

Abstract

提供了包含突变的核酸分子，该突变调谐核酸分子与16S核糖体RNA的相互作用强度。还提供了提高核酸分子的翻译过程以及生产优化用于翻译的核酸分子的方法，以及包含核酸分子的细胞。

Description

修饰翻译的方法

相关申请的交叉引用

本申请要求于2019年3月28日提交的美国临时专利申请号62/825,143的优先权权益，其内容通过引用整体并入本文。

技术领域

本发明涉及翻译优化领域。

背景技术

原核mRNA中翻译起始位点上游大约8-10个核苷酸的区域倾向于包括富嘌呤序列。该序列被命名为Shine-Dalgarno(SD)序列或核糖体结合位点(RBS)，并且据信通过与小核糖体亚基的16S rRNA组分中的互补序列碱基(即反Shine-Dalgarno序列(aSD))配对参与原核翻译启动。

最近的研究还表明，编码区内与aSD相互作用的序列(基序)，类似于SD，可以减慢或暂停大肠杆菌中的翻译伸长。因此，编码区中的此类序列降低了整体翻译伸长率并且通常可被认为是有害的。其他研究已经表明，针对促进rRNA-mRNA相互作用的内部SD样序列的选择可以针对倾向于组成此类基序的密码子起作用。然而，缺乏对rRNA-mRNA相互作用的全面理解，并且非常需要优化mRNA序列以增强或减少翻译的方法。

发明内容

在一些实施方式中，本发明提供了包括突变的核酸分子，所述突变调谐核酸分子与16S核糖体RNA的相互作用强度。还提供了提高核酸分子的翻译过程和产生优化用于翻译的核酸分子的方法，以及包含该核酸分子的细胞和计算机程序产品。

根据第一方面，提供了包括编码序列的核酸分子，其中该核酸分子包含在该分子的区域内的至少一个突变，其中该突变调谐核酸分子与16S核糖体RNA(rRNA)的相互作用强度；和其中该区域选自：

a.编码序列的翻译起始位点(TSS)上游的位置-8至-17，并且该突变增加相互作用强度；

b.编码序列的TSS上游的位置-1至TSS下游的位置5，并且该突变增加相互作用强度；

c.编码序列的TSS下游的位置6至25，并且该突变降低相互作用强度；

d.编码序列的TSS下游的位置26至编码序列的翻译终止位点(TTS)上游的位置-13，并且该突变调谐相互作用强度至中等相互作用强度；

e.编码序列的TTS上游的位置-8至-17，并且该突变增加相互作用强度；和

f.编码序列的TTS下游的位置，并且该突变增加相互作用强度。

根据另一方面，提供了包含本发明的核酸分子的细胞。

根据另一方面，提供了用于提高编码序列的翻译潜力的方法，该方法包括将至少一个突变引入包含该编码序列的核酸分子中，其中该突变调谐该核酸分子与16S rRNA的相互作用强度，从而提高编码序列的翻译潜力。

根据另一方面，提供了修饰细胞的方法，该方法包括在细胞内表达本发明的核酸分子或通过本发明的方法产生的提高的核酸分子，从而修饰细胞。

根据另一方面，提供了用于调谐核酸分子中编码序列的翻译潜力的计算机程序产品，其包括具有在其上体现的程序代码的非暂时性计算机可读存储介质，该程序代码可由至少一个硬件处理器执行以：

a.接收核酸分子的序列；

b.计算核酸分子的6-核苷酸长亚区与目标细菌的16S rRNA的aSD的相互作用强度；

c.计算亚区和由亚区内的突变引起的aSD之间相互作用强度的累积变更；和

d.提供包含至少一个增加或减少翻译潜力的突变的核酸分子的输出修饰序列。

根据一些实施方式，该突变调谐含有突变的六核苷酸序列与16S rRNA的相互作用强度。

根据一些实施方式，与16S rRNA的相互作用强度是与16S rRNA的反ShineDalgarno(aSD)序列的相互作用强度。

根据一些实施方式，核酸分子的序列与aSD序列的相互作用强度由表3确定。

根据一些实施方式，所述增加将相互作用强度增加到强相互作用强度，所述降低将相互作用强度降低到弱相互作用强度，和其中强相互作用强度、弱相互作用强度和中等相互作用强度由表1确定。

根据一些实施方式，从TSS下游的位置26到TTS上游的位置-13的区域包括该区域的前400个碱基对。

根据一些实施方式，本发明的核酸分子包含至少第二突变，其中该第二突变位于与至少一个突变不同的区域中。

根据一些实施方式，至少一个突变在编码序列内并将编码序列的密码子突变为同义密码子。

根据一些实施方式，突变提高了编码序列的翻译潜力。

根据一些实施方式，所述提高包括以下中的至少一项：增加翻译起始效率、增加翻译起始率、增加小亚基向起始位点的扩散、增加伸长率、优化核糖体分配、增加分子伴侣(chaperon)招募、增加终止准确度、降低翻译连读并增加蛋白质产率。

根据一些实施方式，核酸分子是信使RNA(mRNA)。

根据一些实施方式，细胞是细菌细胞。

根据一些实施方式，细菌选自表1所列的细菌。

根据一些实施方式，细菌选自大肠杆菌、α-变形菌(Alphrotebacteria)、螺旋体菌(Spriochaete)、紫色细菌(Purple bacteris)、γ变形菌(Gammaproteoaceteria)、δ-变形菌(deltaproteobacteria)和β-变形菌(Betaproteobacteria)。

根据一些实施方式，细菌不是蓝细菌或革兰氏阳性细菌。

根据一些实施方式，核酸分子对细胞是内源性的。

根据一些实施方式，核酸分子对细胞是外源性的。

根据一些实施方式，突变位于选自以下的区域：

根据一些实施方式，核酸分子是本发明的核酸分子。

根据一些实施方式，

a.区域位于TSS上游的位置-8至-17，并且其中增加的相互作用强度导致提高的翻译起始；

b.区域位于TSS上游的位置-1至TSS下游的位置5，并且其中增加的相互作用导致提高的核糖体分配优化或增加的分子伴侣招募；

c.区域位于TRSS下游的位置5至25，并且其中降低的相互作用强度导致提高的翻译起始效率；

d.区域位于TSS下游的位置26至TTS上游的位置-13，并且其中调谐的至中等相互作用强度的相互作用强度导致增加的小亚基向起始位点的扩散、提高的翻译起始效率、优化的预起始(pre-initiation)扩散或增加蛋白质水平；

e.区域位于TTS上游的位置-8至-17，并且其中增加的相互作用强度导致增加的终止效率、终止准确度或降低的翻译连读；或

f.区域位于TTS下游，并且其中增加的相互作用强度导致提高翻译过程中核糖体的循环。

根据一些实施方式，本发明的方法进一步包括在与至少一个突变不同的区域中引入至少第二突变。

根据一些实施方式，引入突变包括：

a.对核酸分子的每个6-核苷酸长亚区与16S rRNA的相互作用强度分型(profiling)；

b.对包含核酸分子的潜在突变的每个6-核苷酸长亚区的相互作用强度分型；和

c.将突变引入核酸分子，其中所有的包含突变的6-核苷酸长亚区的相互作用强度变化调谐与16S核糖体RNA的相互作用强度。

根据一些实施方式，计算包括计算多个6-核苷酸长亚区与核酸分子的区域的相互作用强度，其中区域选自：

a.翻译起始位点(TSS)上游的位置-8至-17；

b.TSS上游的位置-1至TSS下游的位置5；

c.TSS下游的位置6至25；

d.TSS下游的位置25至翻译终止位点(TTS)上游的位置-13；

e.TTS上游的位置-8至-17；和

f.TTS下游的位置。

根据一些实施方式，计算包括计算区域内每个6-核苷酸长亚区的相互作用强度。

根据一些实施方式，核酸分子的输出修饰序列至少包含核酸分子内增加或降低翻译潜力的前5个突变。

根据一些实施方式，核酸分子的输出修饰序列至少包含该区域内增加或降低翻译潜力的前5个突变。

从下文给出的详细描述中，本发明的其他实施方式和全部适用范围将变得显而易见。然而，应当理解，详细说明和具体实施虽然表明了本发明的优选实施方式，但仅作为说明给出，因为在本发明的精神和范围内的各种变化和修改根据该详细说明对于本领域技术人员来说将变得显而易见。

附图说明

图1A-1E.预测rRNA-mRNA相互作用强度以及支持或反对5’UTR和编码区开始处的强rRNA-mRNA相互作用的选择。(图1A)用于检测支持不同rRNA-mRNA相互作用强度的进化选择的三个统计检验。1.富集具有弱rRNA-mRNA相互作用的子序列。2.富集具有中等rRNA-mRNA相互作用的子序列。3.富集具有强rRNA-mRNA相互作用的子序列。在这三种情况中的每一种情况下，我们都会查看具有某些rRNA-mRNA相互作用强度的子序列(右列：弱、中等或强)，并测试它们的数量是否显著高于空模型(左列)所预期的。(图1B)在5’UTR和编码区的前20个核苷酸中的强rRNA-mRNA相互作用强度显著位置分布。每一行代表原核细菌，并且行是基于它们的门(phyla)的聚类，和每一列是被分析生物的所有转录物中的位置。红色/绿色位置分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置(方法)。黑色像素代表在5’UTR中具有支持强相互作用的选择的显著位置数显著高于空模型的细菌；蓝色像素表示在5’UTR的最后一个核苷酸和编码区的前5个核苷酸中具有支持强相互作用的选择的显著位置数显著高于空模型的细菌。(图1C)强rRNA-mRNA相互作用影响翻译起始的方式的说明：翻译起始位点上游的rRNA-mRNA相互作用通过将核糖体的小亚基与规范翻译起始位点对齐来起始翻译。(图1D)说明：在伸长的第一步骤(step)处的强相互作用减慢核糖体移动。(图1E)在大肠杆菌中的高表达和低表达基因中的5’UTR的最后20个核苷酸和编码区的前20个核苷酸处的rRNA-mRNA相互作用强度的Z分数。根据蛋白质丰度选择高表达和低表达基因。与空模型所预期的相比，较低/较高的Z分数分别意味着支持/反对强rRNA-mRNA相互作用的选择。在右侧，可以看到两个柱形图。柱形图代表报告信号的两个区域中高表达和低表达基因中的最强(最低Z分数)位置。

图2A-2F.在编码区支持/反对强rRNA-mRNA相互作用的选择。(图2A)在编码区(前400nt)中的强rRNA-mRNA相互作用强度显著位置分布。每一行代表原核细菌，并且行是基于它们的门的聚类，和每一列是被分析生物的所有转录物中的位置。红色/绿色分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置(方法)。在图右侧的黑色像素代表具有反对强相互作用的选择的显著位置数显著高于空模型的细菌。(图2B)根据大肠杆菌中蛋白质丰度高表达和缓表达基因中的编码区的前400个核苷酸处相互作用强度的Z-分数。与空模型所预期的相比，较低/较高的Z分数分别意味着支持/反对强rRNA-mRNA相互作用的选择。黑色/红色线分别代表高/低表达基因中40个核苷酸窗口中的平均Z-分数。(图2C)3’UTR中显著的强rRNA-mRNA相互作用强度位置分布。每一行表示细菌；行以细菌门聚类，并且每一列是细菌转录物中的位置。红色/绿色分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置(方法)。黑色像素代表具有发对强相互作用的选择的显著位置数显著高于空模型的细菌。(图2D)说明：强rRNA-mRNA相互作用对编码区中翻译伸长的影响：强rRNA-mRNA相互作用可以减慢核糖体的移动并延迟翻译过程。(图2E)编码区(前100nt)中的强和中等rRNA-mRNA相互作用强度显著位置分布。每一行代表原核细菌，并且行根据细菌门进行聚类，以及每一列是转录物中的位置。红色/绿色分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置(方法)。黑色像素表示具有反对强相互作用的选择的显著位置数显著高于空模型的细菌。对于每个细菌，我们在40个核苷酸的滑动窗口中计算具有反对强和中等相互作用选择的窗口中的位置数。柱代表在每个具有适当标准偏差的细菌科中，与转录物的其余部分相比，具有更高显著位置的窗口的平均数。信号的周期性与遗传密码有关。(图2F)说明：在前25个核苷酸处的强和中等相互作用可以是有害的，并且可以促进从错误的位置开始。

图3A-3H.编码区的末端处支持/或反对强rRNA-mRNA相互作用的选择。(图3A)在编码区(后400nt)中的强rRNA-mRNA相互作用强度显著位置分布。每一行代表原核细菌；行基于细菌门进行聚类，和每一列是细菌转录物中的位置。红色/绿色分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置(方法)。黑色像素代表具有支持强相互作用的选择的显著位置数显著高于空模型的细菌。(图3B)在编码区的后20nt中最显著的位置。对于该区域中的每一个位置，我们计算了在该具体位置中表现支持强rRNA-mRNA相互作用的选择的显著信号的细菌数。(图3C)编码区的后20nt中的最强位置。我们计算了在编码区的后20nt处在每个细菌中的rRNA-mRNA相互作用强度的Z-分数值分布图(profile)。每个柱代表在该位置中表现最小Z-分数值的细菌数。(图3D)根据其表达水平(蛋白质丰度)划分大肠杆菌基因。每个柱代表根据基因表达水平在编码区的后400个核苷酸处的rRNA-mRNA相互作用强度的最小Z-分数值。(图3E)Ribo-seq分析，在编码区的末端处具有强(灰色柱)/弱(橙色柱)rRNA-mRNA相互作用的基因的3’UTR开始处的平均读数计数分布。(图3F)说明：编码区的末端处的强相互作用影响翻译终止位点的正确识别并辅助翻译终止。(图3G)实验构建体，连接至GFP基因的RFP基因。我们通过在后40nt中以不同折叠产生变体测试了RFP基因的后35nt中的不同的rRNA-mRNA相互作用强度的作用。(图3H)根据其局部折叠能量分组的9个变体(参见方法)中与GFP/RFP荧光水平成比例的值的柱状图。

图4A-4H.编码区中支持/或反对中等rRNA-mRNA相互作用的选择。(图4A)大肠杆菌中的中等rRNA-mRNA强度定义和阈值验证。示出两种分布：1.强相互作用强度区的最小rRNA-mRNA相互作用强度分布(涉及区域(1)，蓝色柱)。2.弱/无相互作用区中的最小rRNA-mRNA相互作用强度分布(涉及区域(2)，橙色柱)。还描绘了限定中等相互作用的选定阈值(方法)。(图4B)在编码区(前400nt)中的中等rRNA-mRNA相互作用强度显著位置分布。每一行代表原核细菌；行基于细菌门进行聚类，和每一列是转录物中的位置。红色/绿色分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置(方法)。黑色像素代表具有支持中等相互作用的选择的显著位置数显著高于空模型的细菌。(图4C)在3’UTR中的中等rRNA-mRNA相互作用强度显著位置分布。每一行是根据细菌科的原核细菌，和每一列是转录物中的位置。红色/绿色分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置(方法)。黑色像素代表具有支持中等相互作用的选择的显著位置数显著高于空模型的细菌。(图4D)面积比的分布。大于1的比表明推断的限定更有可能与(中等)rRNA-mRNA相互作用相关，而不是与缺乏相互作用相关。(图4E)GFP变体中的中等序列数和PA相关性，其中GFP根据其FE化分为六个组。在右侧，PA与最强FE组的中等相互作用序列的数量之间存在相关性。(图4F)中等相互作用对翻译起始的作用的说明。1)在编码序列中的中等相互作用。2)当在翻译起始位点附近的区域中存在强mRNA折叠时，编码序列中的中等相互作用有助于起始。(图4G)生物物理模型的说明。每个位点的参数由其rRNA-mRNA相互作用强度决定。存在对位点的附着速率、从位点的脱离速率、朝向位点和由位点的移动以及从位点向后和到位点的移动。该模型允许推导插入伸长模型的起始率。H.rRNA-mRNA相互作用强度扩展模型的说明。每个位点的密度由它之前的k个位点和它之后的k个位点决定。(补充部分S9)。

图5.根据细菌的生长速率(倍增时间)划分细菌。根据倍增时间分组，每个柱表示编码区末端处位置-8至-17中rRNA-mRNA相互作用强度的最小Z分数值。

图6.在5’UTR中非规范aSD强rRNA-mRNA相互作用强度显著位置分布。每一行是根据细菌门聚类的细菌，和每一列是转录物中的位置。红色/绿色位置分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置。

图7.在编码区(前400nt)中非规范aSD强rRNA-mRNA相互作用强度显著位置分布。每一行是根据细菌门聚类的细菌，和每一列是转录物中的位置。红色/绿色位置分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置。

图8.在3’UTR中非规范aSD强rRNA-mRNA相互作用强度显著位置分布。每一行是根据细菌门聚类的细菌，和每一列是转录物中的位置。红色/绿色位置分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置。

图9.在编码区(后400nt)中非规范aSD强rRNA-mRNA相互作用强度显著位置分布。每一行是根据细菌门聚类的细菌，和每一列是转录物中的位置。红色/绿色位置分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置。

图10.在编码区的前400个核苷酸中非规范aSD中等rRNA-mRNA相互作用强度显著位置分布。每一行是根据细菌门聚类的细菌，和每一列是转录物中的位置。红色/绿色位置分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置。

图11.在3’UTR中非规范aSD中等rRNA-mRNA相互作用强度显著位置分布。每一行是根据细菌门聚类的细菌，和每一列是转录物中的位置。红色/绿色位置分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置。

图12(A)根据倍增时间分组的细菌中的编码区中显著位置的平均数。(图12B)根据翻译效率分组的大肠杆菌的编码区中显著位置的平均数(PA/mRNA水平)。

图13.优化过程发现新的“aSD”序列。

图14.通过我们的优化模型在64种细菌中推断出的最佳非规范“aSD”的分布。

图15.特定杂交能量组中的序列数和GFP变体中的PA相关性。

图16.在翻译过程的所有阶段和子阶段中与rRNA-mRNA相互作用相关的所有已知和新规则的说明。

图17.支持/反对大肠杆菌的编码区的强相互作用的显著位置。当我们从分析位置消除AUG上游(AUG上游最多14nt)时，顶行是指基因组(真实和随机)。底行是指原始基因组(真实和随机)。每一列都是转录物中的位置。红色/绿色位置分别指示与空模型相比具有支持/反对强rRNA-mRNA相互作用的显著选择的位置。

图18A-B.(18A)在大肠杆菌中的操纵子的前中后基因中编码区的最后200个核苷酸的rRNA-mRNA相互作用强度的Z分数。与空模型所预期的相比，较低/较高的Z分数分别意味着更强/更弱的rRNA-mRNA相互作用。(18B)在大肠杆菌的单个基因操纵子中的编码区的最后200个核苷酸处的rRNA-mRNA相互作用强度的Z分数。与空模型所预期的相比，较低/较高的Z分数分别意味着更强/更弱的rRNA-mRNA相互作用。

图19A-C.(19A).折叠的所有变体值和相互作用强度。(19B)从原始序列到var9的所有变体的比对。所做的突变被标记。(19C)所有变体中GFP和RFP在对数后期/稳定生长阶段的荧光比率。

图20A-C.(20A)对于具有各种rRNA-mRNA相互作用强度的不同变体，翻译某个位置中的密码子的时间。(20B)向编码序列添加更多中等相互作用时起始率的增加。(20C)向编码序列添加更多中等相互作用时翻译率的增加。

具体实施方式

本发明基于以下令人惊讶的发现：对于mRNA的特定区域选择mRNA和16S rRNA之间的强、弱和中等相互作用。此外，用于相互作用选择的这些增强了翻译，并且变更这些区域中的相互作用强度的突变的引入进而变更了突变的mRNA的翻译效率。已经发现，除了触发起始的规范rRNA-mRNA相互作用外，以下规则也出现在翻译过程的不同阶段和子阶段中跨越生命之树的许多细菌中(图16)。

早期伸长-在编码区的开始处，有证据表明支持强rRNA-mRNA相互作用的选择减慢早期翻译伸长。

伸长1-在编码区内，有证据表明反对强rRNA-mRNA相互作用的选择。该信号也与提高翻译伸长有关(并且不仅阻止错误起始)。

伸长2-有证据表明在转录物内部支持中等rRNA-mRNA相互作用的选择提高预起始。

终止-有证据表明支持终止密码子上游的强rRNA-mRNA相互作用的选择防止核糖体连读。

本文公开的发现是基于对551个原核基因组的综合分析。我们表明，目前关于翻译过程中功能性rRNA-mRNA相互作用的知识只是“冰山一角”：在大多数分析的原核生物中，rRNA-mRNA相互作用似乎涉及翻译的所有子阶段——通过在整个转录物中编码的对应序列签名。因此，rRNA-mRNA相互作用影响进化沿整个转录物塑造核苷酸组成以优化翻译的方式。

核酸分子

通过第一方面，提供了包含编码序列的核酸分子，该核酸分子包含调谐核酸分子与核糖体RNA的相互作用强度的至少一个突变。

术语“核酸”是本领域公知的。如本文所用，“核酸”通常指包含核碱基的DNA、RNA或其衍生物或类似物的分子(即，链)。例如，核碱基包括在DNA(如，腺嘌呤“A”、鸟嘌呤“G”、胸腺嘧啶“T”或胞嘧啶“C”)或RNA(如，A、G、尿嘧啶“U”或C)中发现的天然存在的嘌呤或嘧啶碱基。

术语“核酸分子”包括但不限于修饰和未修饰的单链RNA(ssRNA)或单链DNA(ssDNA)，其具有编码区和非编码区两者。在一些实施方式中，核酸分子是DNA。在一些实施方式中，核酸分子是RNA。在一些实施方式中，DNA是单链DNA。在一些实施方式中，DNA是双链DNA。在一些实施方式中，DNA是质粒DNA。在一些实施方式中，RNA是单链RNA。在一些实施方式中，RNA是质粒RNA。在一些实施方式中，RNA是信使RNA(mRNA)。在一些实施方式中，RNA是前-mRNA。mRNA是本领域内公知的。在一些实施方式中，mRNA包含5’帽。在一些实施方式中，mRNA不含5’帽。在一些实施方式中，帽是7-甲基鸟苷帽。在一些实施方式中，mRNA包含3’聚腺苷酸尾。在一些实施方式中，mRNA被聚腺苷酸化。在一些实施方式中，mRNA包含3’寡尿苷尾。在一些实施方式中，mRNA被寡尿苷酸化。在一些实施方式中，mRNA是单顺反子的。在一些实施方式中，mRNA是多顺反子的。在一些实施方式中，核酸分子包含多个编码序列。

如本文所使用的，短语“编码序列”和“编码区”本文中可交换地使用，以指翻译时产生表达产物(诸如多肽、蛋白质或酶)的核酸序列。在一些实施方式中，编码序列将用作进行密码子变更的基础。在一些实施方式中，编码序列是细菌基因。在一些实施方式中，编码序列是病毒基因。在一些实施方式中，编码序列是哺乳动物基因。在一些实施方式中，编码序列是人基因。在一些实施方式中，编码序列是以上列举的基因之一的一部分。在一些实施方式中，编码序列是异源转基因。在一些实施方式中，以上列举的基因是野生型、内源表达的基因。在一些实施方式中，以上列举的基因已经进行基因修饰或以一些方式从其内源形式进行变更。

本文所使用的术语“异源转基因”指起源于一个物种并正在另一个物种中表达的基因。在一些实施方式中，转基因是源自另一个生物的基因的一部分。在一些实施方式中，异源转基因是待过表达的基因。在一些实施方式中，在野生型细胞中的异源转基因的表达减少野生型细胞中的全局翻译。

在一些实施方式中，核酸分子进一步包含非编码区。在一些实施方式中，非编码区是非翻译区(UTR)。在一些实施方式中，UTR是5’至编码序列。在一些实施方式中，UTR是3’至编码序列。在一些实施方式中，核酸分子包括5’UTR和3’UTR。在一些实施方式中，UTR是与编码序列相关联的内源性UTR。在一些实施方式中，UTR包含调节编码序列翻译的至少一个调节元件。在一些实施方式中，UTR利用编码序列转录。在一些实施方式中，由核酸分子转录的mRNA是功能性mRNA。在一些实施方式中，功能性mRNA是能够被翻译的mRNA。在一些实施方式中，核酸分子是mRNA。在一些实施方式中，核酸分子是功能性mRNA。

如本文所使用，短语“非编码序列”和“非编码区”在本文中可交换地使用，以指翻译起始位点(TSS)上游或翻译终止位点(TTS)下游的序列。非编码区可以是TSS上游或TTS下游的至少1、5、10、25、50、100、200、500、1000、2000、5000或10000个碱基对。

在本发明的一些实施方式中，TSS上游的非编码序列是指5’非翻译区，也称为5’UTR。根据一些实施方式，5’UTR包括核糖体结合位点(RBS)。在一些实施方式中，RBS包括Shine-Dalgarno(SD)序列。在一些实施方式中，SD序列是规范SD序列。在一些实施方式中，SD序列是非规范SD序列。在一些实施方式中，RBS不包括SD序列。在一些实施方式中，规范SD序列包括序列AGGAGG。在一些实施方式中，SD序列包括序列AGGAGGU。SD序列通过与小核糖体亚基的16S rRNA组分的3’尾上名称为反SD(aSD)序列的互补序列碱基配对参与原核翻译起始。在一些实施方式中，aSD序列包括序列ACCUCCUUA和/或由其构成。在一些实施方式中，大肠杆菌aSD序列包括序列ACCUCCUUA和/或由其构成。在一些实施方式中，aSD包括6-核苷酸长亚区。在一些实施方式中，相互作用强度是与该亚区的结合强度。在一些实施方式中，规范亚区包括CCUCCU和/或由其构成。在一些实施方式中，规范亚区包括CCTCCT和/或由其构成。在一些实施方式中，aSD亚区包括选自以下的序列和/或由其构成：GCCGCG、CGGCTG、CTCCTT、GCCGTA、GCGGCT、GTGGCT和GGCTGG。U和T本文中可交换地使用。

在本发明的一些实施方式中，TTS下游的非编码序列是指3’非翻译区，也称为3’UTR。

在一些实施方式中，核糖体RNA是小核糖体亚基。根据一些实施方式，核糖体RNA可以是核糖体的30S小亚基。根据其他实施方式，核糖体RNA是16S核糖体RNA。根据本发明的一些实施方式，16S核糖体RNA具有aSD序列。在一些实施方式中，相互作用强度针对aSD计算。在一些实施方式中，相互作用强度针对aSD的亚区计算。

如本文所用，术语“相互作用强度”是指核酸分子和核糖体RNA之间的杂交自由能。更低和更负的自由能与更强的杂交和更强的相互作用强度相关。杂交自由能可以基于Vienna包RNAcoFold(Vienna package RNAcoFold)计算，它计算两个RNA分子的共同二级结构。根据一些实施方式，相互作用强度可以通过强、中等和弱的等级来限定。

如本文所用，术语“杂交(hybridization或hybridizes)”是指在核苷酸序列之间形成双链体，该核苷酸序列充分互补以通过Watson-Crick碱基配对形成双链体。当那些分子共享碱基对组织同源性时，两个核苷酸序列是彼此“互补的”。“互补的”核苷酸序列将以特异性结合，在适当的杂交条件下形成稳定的双链体。例如，当第一个序列的一部分可以以反平行的方式结合第二个序列的一部分时，两个序列是互补的，其中每个序列的3’-末端与另一个序列的5’-末端结合，然后，一个序列的每个A、T(U)、G和C分别与另一个序列的T(U)、A、C和G对齐。RNA序列还可以包括互补的G＝U或U＝G碱基对。因此，在本发明下，两个序列不需要具有完美同源性以为“互补的”。

如本文所用，术语“自由能”是指吉布斯自由能(ΔG)，其指测量给定寡核苷酸与其DNA或RNA补体之间的杂交反应的热力学势。

在一些实施方式中，核酸分子包含突变。在一些实施方式中，突变被引入核酸分子。在一些实施方式中，突变在编码序列中。在一些实施方式中，突变在核酸分子的非编码序列中。在一些实施方式中，突变导致与非修饰的核酸分子与核糖体RNA之间的相互作用强度相比，核酸分子区和核糖体RNA之间调谐的相互作用强度。在一些实施方式中，突变调谐局部相互作用强度。在一些实施方式中，突变调谐突变的核苷酸处的相互作用强度。在一些实施方式中，突变是对具有更强相互作用的核苷酸的突变。在一些实施方式中，突变是对具有更弱相互作用的核苷酸的突变。在一些实施方式中，突变调谐特定区域中的相互作用强度。在一些实施方式中，突变调谐特定亚区中的相互作用强度。在一些实施方式中，突变调谐被小核糖体亚基的aSD序列结合的mRNA的亚区的相互作用强度。

在一些实施方式中，将至少一个突变引入核酸分子的至少一个区域。在一些实施方式中，突变在区域中。在一些实施方式中，区域选自：

a.翻译起始位点(TSS)上游的位置-8至-17；

b.TSS上游的位置-1至TSS下游的位置5；

c.TSS下游的位置6至25；

d.TSS下游的位置26至翻译终止位点(TTS)上游的位置-13；

e.TTS上游的位置-8至-17；和

f.TTS下游的位置。

在一些实施方式中，突变在包含TSS上游的位置-8至-17的区域中。在一些实施方式中，突变在包含翻译起始位点上游的位置-1至翻译起始位点下游的位置5的区域中。在一些实施方式中，突变在包含TSS下游的位置6至25的区域中。在一些实施方式中，突变在包含TSS下游的位置26至翻译终止位点上游的位置-13的区域中。

在一些实施方式中，突变在包含TTS上游的位置-8至-17的区域中。在一些实施方式中，突变在包含TTS上游的位置-9至-12的区域中。在一些实施方式中，包含TTS上游的位置-8至-17的区域是包含TTS上游的位置-9至-12的区域。在一些实施方式中，突变在包含TTS下游的位置的区域中。在一些实施方式中，TTS下游的位置26至TSS上游的位置-13的区域包括至多400个核苷酸。在一些实施方式中，TTS下游的位置26至TSS上游的位置-13的区域包括TSS下游的位置26至位置400或由其构成。

在一些实施方式中，突变在包含TSS上游的位置-8至-17的区域中，增加相互作用强度并增强翻译潜力。在一些实施方式中，突变在包含TSS上游的位置-8至-17的区域中，降低相互作用强度并降低翻译潜力。在一些实施方式中，突变在包含TSS上游的位置-1至TSS下游的位置5的区域中，增加相互作用强度并增加翻译潜力。在一些实施方式中，突变在包含TSS上游的位置-1至TSS下游的位置5的区域中，降低相互作用强度并降低翻译潜力。在一些实施方式中，突变在包含TSS下游的位置6至25的区域中，增加相互作用强度并降低翻译潜力。在一些实施方式中，突变在包含TSS下游的位置6至25的区域中，降低相互作用强度并增加翻译潜力。在一些实施方式中，突变在包含TSS下游的位置26至翻译终止位点上游的位置-13的区域中，增加相互作用强度并降低翻译潜力。在一些实施方式中，突变在包含TSS下游的位置26至翻译终止位点上游的位置-13的区域中，降低相互作用强度并增加翻译潜力。在一些实施方式中，突变在包含TTS上游的位置-8至-17的区域中，增加相互作用强度并增加翻译潜力。在一些实施方式中，突变在包含TTS上游的位置-8至-17的区域中，降低相互作用强度并降低翻译潜力。在一些实施方式中，突变在包含TTS下游的位置的区域中，增加相互作用强度并降低翻译潜力。在一些实施方式中，突变在包含TTS下游的位置的区域中，降低相互作用强度并增加翻译潜力。因此，可以理解，相互作用强度和翻译潜力在5’UTR中的-8和-17之间、5’UTR的-1和编码区的+5之间和相对于TTS的-8至-17之间的区域中相关；但是，相互作用强度和翻译潜力在编码区(从相对于TSS的+6至相对于TTS的-12)的中间区域中和在3’UTR中反向相关(inversely related)。相对于TSS从+6到+25尤其如此。“相互作用强度调谐”是指增加或降低核酸分子和核糖体RNA序列之间的相互作用强度。在一些实施方式中，在突变的位点处调谐相互作用强度。在一些实施方式中，在包括突变的区域中调谐相互作用强度。在一些实施方式中，在包括突变的亚区中调谐相互作用强度。

根据一些实施方式，相互作用强度调谐可能导致改变翻译过程的至少一个步骤，其包括但不限于增加翻译起始效率、降低翻译起始效率、增加翻译起始率、降低翻译起始率、增加小核糖体亚基向起始位点的扩散、降低小亚基向起始位点的扩散、增加伸长率、降低伸长率、优化核糖体分配、去优化核糖体分配、增加分子伴侣招募、减少分子伴侣招募、增加终止准确度、减少终止准确度、增加翻译连读、减少翻译连读、增加蛋白质水平和降低蛋白质水平。每种可能性代表本发明的单独实施方式。在一些实施方式中，调谐相互作用强度变更翻译潜力。

如本文所使用，术语“翻译能力”是指如果将核酸引入有能力翻译核酸的系统中将发生的潜在翻译。在一些实施方式中，翻译潜力包括翻译率。在一些实施方式中，翻译潜力包括翻译效率。在一些实施方式中，翻译潜力包括翻译起始率或效率。在一些实施方式中，翻译潜力包括核糖体扩散。在一些实施方式中，翻译潜力包括核糖体分配。在一些实施方式中，翻译潜力包括终止准确度。在一些实施方式中，翻译潜力包括终止效率。在一些实施方式中，翻译潜力包括终止率。在一些实施方式中，翻译潜力包括中总蛋白质产率。

在一些实施方式中，翻译是体内翻译。在一些实施方式中，翻译是体外翻译。体外翻译系统是本领域公知的，并且包括例如，兔网织红细胞裂解物。在一些实施方式中，翻译包括翻译预起始(pre-initiation)。在一些实施方式中，翻译包括翻译起始。在一些实施方式中，翻译包括早期伸长。在一些实施方式中，翻译包括伸长。在一些实施方式中，翻译包括翻译终止。

在一些实施方式中，相对于核酸分子和核糖体RNA的未修饰区域，相互作用强度增加至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、100％、150％、200％、250％、300％、350％、400％、450％、500％、1000％或10000％。每种可能性代表本发明的单独实施方式。

在一些实施方式中，强相互作用是至少1.3、1.5、1.7、1.8、1.9、2.0.2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、4.0、4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、4.9、5.0、5.1、5.2、5.3、5.4、5.5、5.6、5.7、5.8、5.9、6.0、6.1、6.2、6.3、6.4、6.5、6.6、6.7、6.8、6.9、7.0、7.1、7.2或7.3kcal/mol的相互作用。每种可能性代表本发明的单独实施方式。根据一些实施方式，相互作用强度增加至强相互作用强度。在表1中提供了生物特定的相互作用强度。在一些实施方式中，在表3中提供了mRNA的特定6-核苷酸长亚区与规范和非-规范aSD序列的相互作用强度(杂交能值或“H.E.V”)。生物特定的aSD序列在本领域内是已知的，并且可以对选择的每一种生物进行确定。

表1。每种生物的相互作用强度。

根据一些实施方式，表3中给出了具有不同的6nt序列的各种aSD序列的相互作用强度。对于特定的aSD序列，表3中未提供的任何6nt序列的相互作用强度均为零。

表3

根据一些实施方式，表3包括规范aSD序列和非-规范aSD序列GCCGCG、CGGCTG、CTCCTT、GCCGTA、GCGGCT、GTGGCT和GGCTGG的相互作用强度。出现在表3中的相互作用强度通过增加相互作用强度排序。相互作用从弱到中等，再到强相互作用强度逐渐增加。根据一些实施方式，相互作用强度分类为弱、中等或强是生物特定的(特异性的)。在一些实施方式中，在表1中提供了为弱、中等和强的生物特定分类。根据一些实施方式，表1中未列出的细菌的相互作用强度分类可以根据表1中公开的细菌的相互作用强度分类推导出并且具有与其最接近的进化距离。在一些实施方式中，表1中未列出的细菌的相互作用强度分类可以通过使用具有相同aSD或aSD亚区序列的细菌的强度进行推断。

在一些实施方式中，相对于核酸分子的未修饰区与核糖体RNA之间的相互作用强度，相互作用强度降低至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、97％、99％或100％。每种可能性代表本发明的单独实施方式。

在一些实施方式中，弱相互作用是至多0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7或2.8kcal/mol的相互作用。每种可能性代表本发明的单独实施方式。根据一些实施方式，相互作用强度降低至弱相互作用强度。在表1中提供了生物特定的相互作用强度。在一些实施方式中，在表3中提供了规范aSD序列和非规范aSD序列的相互作用强度。生物特定的aSD序列在本领域内是已知的，并且可以在例如以下文献中发现：Ruhul Amin,et al.,“Re-annotation of12,495prokaryotic 16S rRNA 3’ends and analysis of Shine-Dalgarno and anti-Shine-Dalgarno sequences”,PLoS One,2018；13(8)。

在一些实施方式中，中等相互作用强度是弱相互作用和强相互作用之间的相互作用。根据一些实施方式，相互作用强度被调谐至中等相互作用强度。在一些实施方式中，相互作用强度被降低至中等反应强度。在一些实施方式中，相互作用强度被增加至中等反应强度。本领域技术人员将认识到，弱相互作用、强相互作用和中等相互作用对于每个原核生物来说都是不同的，对于一个生物在数值上可能是强相互作用对于另一个生物可能是弱相互作用。表1中提供了生物特定的相互作用强度。在一些实施方式中，在表3中提供了规范aSD序列和非规范aSD序列的相互作用强度。

在一些实施方式中，相互作用强度是核酸分子的亚区的相互作用强度。在一些实施方式中，亚区为至少1、2、3、4、5、6、7或8个核苷酸长。每种可能性代表本发明的单独实施方式。在一些实施方式中，亚区为至多5、6、7、8、9、10、11或12个核苷酸长。每种可能性代表本发明的单独实施方式。在一些实施方式中，亚区为4-12、5-12、6-12、7-12、8-12、4-11、5-11、6-11、7-11、8-11、4-10、5-10、6-10、7-10、8-10、4-9、5-9、6-9、7-9、4-8、5-8、6-8或7-8个核苷酸长。每种可能性代表本发明的单独实施方式。在一些实施方式中，亚区为SD序列的大小。在一些实施方式中，亚区为aSD序列的大小。在一些实施方式中，亚区长度为6-核苷酸。根据一些实施方式，在表3中提供了生物特定的6-核苷酸亚区。

在一些实施方式中，突变在多于一个亚区内。在一些实施方式中，突变不同地调谐每个亚区的相互作用强度。在一些实施方式中，增加相互作用是增加包含突变的所有亚区的累积相互作用。在一些实施方式中，降低相互作用是降低包含突变的所有亚区的累积相互作用。

在一些实施方式中，突变是沉默突变。在一些实施方式中，突变导致由本发明的核酸编码的序列的氨基酸变更为具有类似功能特性的氨基酸。在一些实施方式中，特性选自大小、电荷、等电点、形状、疏水性和结构。在本发明的方法的一些实施方式中，突变导致同义密码子(在表4中提供了同义密码子)。在一些实施方式中，突变不包括变更蛋白质功能。在一些实施方式中，突变变更蛋白质功能。如本文所使用，术语“沉默突变”是指不影响或几乎不影响蛋白质功能性的突变。沉默突变可以是同义突变，因此根本不改变氨基酸，或者沉默突变可以将氨基酸改变为具有相同功能或结构的另一个氨基酸，从而对蛋白质功能性没有影响或具有有限的影响。

在一些实施方式中，核酸分子包含至少1、2、3、4、5、7、10、20、30、40、50、60、70、80、100、200、300、400、500、1000或10000个突变。每种可能性代表本发明的单独实施方式。根据一些实施方式，核酸分子包含核酸分子中至少1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％50％、75％或100％的位置的突变。每种可能性代表本发明的单独实施方式。在一些实施方式中，在相同区域中超过一个突变。在一些实施方式中，在相同亚区中超过一个相互作用。在一些实施方式中，核酸分子包含至少两个突变并且其中两个突变在不同的区域中。在一些实施方式中，核酸分子包含至少两个突变并且其中两个突变在不同的亚区中。

在一些实施方式中，核酸分子包含在与至少一个突变不同的区域中的第二突变。在一些实施方式中，第二突变调谐核酸分子与16S核糖体RNA(rRNA)的相互作用强度。在一些实施方式中，第二突变和至少一个突变协同调谐。本领域技术人员将理解，协同调谐两者将以相同方式实现翻译。因此，如果至少一个突变提高翻译潜力，那么第二突变也提高翻译潜力。类似地，如果至少一个突变降低翻译潜力，那么第二突变也降低翻译能力。两个突变需要以相同方式产生该作用。对于非限制性实例，至少一个突变可增加翻译起始效率，同时第二突变优化核糖体分配。类似地，例如，至少一个突变可以影响早期伸长和第二突变可以影响翻译终止。在一些实施方式中，至少一个突变和第二突变都提高翻译效率。在一些实施方式中，至少一个个突变和第二突变都降低翻译效率。在一些实施方式中，提高翻译效率是增加翻译效率。

将突变引入细胞基因组是本领域公知的。可以采用任何已知的基因组编辑方法，只要突变对期望的位置和变化是特异性的。突变方法的非限制性实例包括定点诱变、CRISPR/Cas9和TALEN。

表4：同义密码子

在一些实施方式中，本发明的核酸分子是载体的一部分。在一些实施方式中，载体是表达载体。在一些实施方式中，表达载体是原核表达载体。在一些实施方式中，原核表达载体包括在原核细胞中表达本发明核酸分子编码的蛋白质所必需的任何序列。在一些实施方式中，表达载体是真核表达载体。

细胞

根据另一方面，提供了生物隔室，其包含本发明的核酸分子。

根据另一方面，提供了包含本发明的核酸分子的细胞。

在一些实施方式中，生物隔室是细胞。在一些实施方式中，生物隔室是病毒体。在一些实施方式中，生物隔室是病毒。在一些实施方式中，生物隔室是噬菌体。在一些实施方式中，生物隔室是细胞器。细胞器是本领域内公知的并且包括但不限于线粒体、叶绿体、粗面内质网和细胞核。

在一些实施方式中，细胞是基因修饰的细胞。在一些实施方式中，细胞是原核细胞。在一些实施方式中，细胞是真核细胞。在一些实施方式中，细胞是哺乳动物细胞。在一些实施方式中，细胞是细菌细胞。在一些实施方式中，细胞在培养物中。在一些实施方式中，细胞是体内的。在一些实施方式中，细胞是病原体。在一些实施方式中，本发明的核酸分子是已经突变的细胞的内源性分子。在一些实施方式中，本发明的核酸分子是已经添加至细胞的异源转基因或异源基因。在一些实施方式中，细胞是病毒感染的细胞。

细菌可以选自门或纲，包括但不限于α-变形菌(Alphaprobacteria)、β-变形菌(Betaprotobacteria)、蓝细菌、δ-变形菌(Delataprotobacteria)、γ-变形菌(gammaprtobacteria)、革兰氏阳性细菌、紫色细菌和螺旋体(Spirochaetes)细菌。根据一些实施方式，细菌选自门或纲，其选自α-变形菌、β-变形菌、蓝细菌、δ-变形菌、γ-变形菌、革兰氏阳性细菌、紫色细菌和螺旋体细菌。根据一些实施方式，细菌选自表1中提供的列表。根据一些实施方式，细菌细胞不是蓝细菌或革兰氏阳性细菌。

在一些实施方式中，细胞包括增加的适度。在一些实施方式中，细胞包括降低的适度。在一些实施方式中，与通过未突变的核酸产生的蛋白质的量相比，细胞产生增加量的由本发明核酸编码的蛋白质。

在一些实施方式中，细胞包含核酸分子，该核酸分子包含核酸分子的至少一个区内的至少一个突变，该区选自：

a.翻译起始位点上游的位置-8至-17；

b.翻译起始位点上游的位置-1至翻译起始位点下游的位置5；

c.翻译起始位点下游的位置6至25；

d.翻译起始位点下游的位置25至翻译终止位点上游的位置-13；

e.翻译终止位点上游的位置-8至-17；和

f.翻译终止位点下游的位置。

根据一些实施方式，包含翻译起始位点上游的位置-8至-17处突变的核酸分子被引入细胞。根据一些实施方式，该突变增加核酸分子区与16S核糖体RNA之间的相互作用强度，由此改善翻译起始阶段。

根据一些实施方式，包含翻译起始位点上游的位置-1至翻译起始位点下游的位置5处突变的核酸分子被引入细胞。根据一些实施方式，该突变增加核酸分子区与16S核糖体RNA之间的相互作用强度，由此优化细胞中的核糖体分配和分子伴侣招募。

根据一些实施方式，包含翻译起始位点下游的位置6至25处突变的核酸分子被引入细胞。根据一些实施方式，该突变降低核酸分子区与16S核糖体RNA之间的相互作用强度，由此增加翻译伸长效率并避免错误翻译起始。

根据一些实施方式，包含翻译起始位点下游的位置25至翻译终止位点上游的位置-13处突变的核酸分子被引入细胞。根据一些实施方式，该突变调谐核酸分子区与16S核糖体RNA之间的相互作用强度，由此增加朝向起始密码子附近区域的核糖体扩散效率和/或提高翻译起始效率。在一些实施方式中，调谐是至中等相互作用强度。

根据一些实施方式，包含翻译终止位点上游的位置-8至-17处突变的核酸分子被引入细胞。根据一些实施方式，该突变增加核酸分子区与16S核糖体RNA之间的相互作用强度，提高翻译终止保真度和/或效率。

根据一些实施方式，包含翻译终止位点下游的位置处突变的核酸分子被引入细胞。根据一些实施方式，该突变降低核酸分子区与16S核糖体RNA之间的相互作用强度，由此在完成翻译周期后保持核糖体小亚基附接至转录物，提高核糖体的循环和由此提高翻译过程。根据一些实施方式，该突变增加核酸分子区与16S核糖体RNA之间的相互作用强度，由此在完成翻译周期后保持核糖体小亚基附接至转录物，提高核糖体的循环和由此提高翻译过程。

方法

通过另一方面，提供了提高或削弱核酸分子翻译过程的方法，该方法包括将突变引入核酸分子，其中该突变调谐核酸分子与16S核糖体RNA的相互作用强度，由此提高核酸分子的翻译过程。

在一些实施方式中，突变是本文之前描述的突变。在一些实施方式中，方法提高翻译过程。在一些实施方式中，方法削弱翻译过程。在一些实施方式中，翻译过程包括翻译潜力。在一些实施方式中，细胞中的翻译过程被提高或削弱。在一些实施方式中，翻译过程包括翻译预起始。在一些实施方式中，翻译过程包括翻译起始。在一些实施方式中，翻译过程包括早期伸长。在一些实施方式中，翻译过程包括伸长。在一些实施方式中，翻译过程包括翻译终止。

如本文所用，术语“表达”是指基因产物的生物合成，包括基因产物的转录和/或翻译。因此，核酸分子的表达可以指核酸片段的转录(如，转录产生mRNA或其他功能性RNA)和/或RNA翻译成前体或成熟蛋白质(多肽)。

在细胞内表达基因是本领域技术人员公知的。可以通过转染、转化、病毒感染或直接变更细胞基因组等多种方法进行。在一些实施方式中，基因在表达载体中，诸如质粒或病体载体中。

重组表达载体通常包含至少一个用于在细胞中繁殖的复制起源和任选的附加元件，例如异源多核苷酸序列、表达控制元件(例，启动子、增强子)、可选择标记(如，抗生素抗性)、允许核苷酸序列表达的聚腺嘌呤序列(如，在体外转录/翻译系统中或当载体被引入宿主细胞时在宿主细胞中)。

如本文所用，术语“体外”是指在活生物外部发生的任何过程。如本文所用，术语“体内”是指在活生物内部发生的任何过程。在一个实施方式中，如本文所用的“体内”是完整组织或完整器官内的细胞。

在一些实施方式中，基因与启动子可操作地连接。术语“可操作地连接”旨在表示目标核苷酸序列以允许核苷酸序列表达的方式连接到一个或多个调节元件。

可以使用各种方法将本发明的表达载体引入细胞。这样的方法一般在以下文献中进行描述：Sambrook et al.,Molecular Cloning:A Laboratory Manual,Cold SpringsHarbor Laboratory,New York(1989,1992)、Ausubel et al.,Current Protocols inMolecular Biology,John Wiley and Sons,Baltimore,Md.(1989)、Chang et al.,Somatic Gene Therapy,CRC Press,Ann Arbor,Mich.(1995)、Vega et al.,GeneTargeting,CRC Press,Ann Arbor Mich.(1995),Vectors:A Survey of MolecularCloning Vectors and Their Uses,Butterworths,Boston Mass.(1988)以及Gilboa etat.[Biotechniques 4(6):504-512,1986]，并且包括例如稳定或瞬时转染、脂质转染、电穿孔和重组病毒载体感染。另外，对于阳性-阴性选择方法，参见美国专利号5,464,764和5,487,992。

分子和细胞生物化学中的一般方法，诸如可用于进行DNA和蛋白质重组以及本文所述的其他技术的方法，可见于此类标准教科书中，如Molecular Cloning:A LaboratoryManual,3rd Ed.(Sambrook et al.,HaRBor Laboratory Press 2001)；Short Protocolsin Molecular Biology,4th Ed.(Ausubel et al.eds.,John Wiley&Sons 1999)；ProteinMethods(Bollag et al.,John Wiley&Sons 1996)；Nonviral Vectors for Gene Therapy(Wagner et al.eds.,Academic Press 1999)；Viral Vectors(Kaplift&Loewy eds.,Academic Press 1995)；Immunology Methods Manual(I.Lefkovits ed.,Academic Press1997)；和Cell and Tissue Culture:Laboratory Procedures in Biotechnology(Doyle&Griffiths,John Wiley&Sons 1998)。

如本文所用，术语“重组蛋白质”是指由重组DNA编码并因此不是天然存在的蛋白质。术语“重组DNA”是指通过实验室基因重组方法形成的DNA分子。通常地，这种重组DNA是用于在细胞中表达重组蛋白质的载体、质粒或病毒的形式。

重组蛋白质的纯化涉及用于提取重组蛋白质的标准实验室技术，重组蛋白质基本上没有污染细胞成分，诸如碳水化合物、脂质或与肽天然相关的其他蛋白质杂质。可以使用为重组蛋白质的一部分的标签，或者通过利用针对重组蛋白质的抗体的免疫纯化，进行纯化。用于这种纯化的试剂盒是可商购的并且是本领域技术人员熟悉的。通常地，纯化肽的制剂包含高度纯化形式的肽，即至少约80％纯度、至少约90％纯度、至少约95％纯度、大于95％纯度或大于99％纯度。每种可能性代表本发明的单独实施方式。.

根据一些实施方式，本发明涉及分离的基因修饰生物，其中包含编码序列的核酸分子的至少一个位置包含序列突变，其中与未修饰形式的相同生物相比，基因修饰生物具有改进的翻译过程。

在一些实施方式中，提高包括以下中的至少一项：增加翻译起始效率、增加翻译起始率、增加小亚基向起始位点的扩散、增加伸长率、优化核糖体分配、增加分子伴侣(chaperon)招募、增加终止准确度、降低翻译连读和增加蛋白质产率。在一些实施方式中，削弱包括以下中的至少一项：降低翻译起始效率、降低翻译起始率、降低小亚基向起始位点的扩散、降低伸长率、去优化核糖体分配、降低分子伴侣(chaperon)招募、降低终止准确度、增加翻译连读和降低蛋白质水平。

通过另一方面，提供了提高翻译过程的方法，该方法包括将序列突变引入包含编码序列的核酸分子，由此调谐核酸分子与16S核糖体RNA的相互作用强度并提高核酸分子的翻译过程。

通过另一方面，提供了修饰生物隔室的方法，该方法包括对核酸分子进行本发明的方法，由此改进核酸分子的翻译潜力，细胞内调谐的核酸分子的表达，由此修饰细胞。

通过另一方面，提供了修饰生物隔室的方法，该方法包括对细胞内的核酸分子进行本发明的方法，由此修饰细胞。

根据另一方面，提供了生产具有优化或去优化的翻译过程的核酸分子的方法，所述方法包括：

a.选择包含编码序列的核酸分子，其中核酸分子与16S核糖体RNA相互作用；

b.对核酸分子的每个位置与16S核糖体RNA的相互作用分型；

c.对核酸分子的每个位置处的每个序列突变的相互作用强度分型；和

d.将调谐与16S核糖体RNA的相互作用强度的突变引入核酸分子，

由此生产针对翻译优化或去优化的核酸分子。

通过另一方面，提供了生产具有降低的或增加的翻译潜力的核酸分子的方法，其包括：

a.提供核酸分子的序列；

b.计算核酸分子的每个6-核苷酸长亚区与目标细菌的16S rRNA的aSD的6-核苷酸长亚区的相互作用强度；

c.计算核酸分子的每个可能的突变引起的相互作用强度的累积变更；和

d.将至少1个突变引入核酸分子，其中突变包括增加或降低翻译潜力的至少前1个突变(top 1mutation)，

由此生产具有降低或增加的翻译潜力的核酸分子。

在一些实施方式中，生物隔室是细胞。在一些实施方式中，生物隔室是细胞器。在一些实施方式中，生物隔室是病毒体。在一些实施方式中，生物隔室是噬菌体。

在一些实施方式中，引入至少前1、2、3、5、10、15、20、25、30、35、40、45或50个突变。每种可能性代表本发明的单独实施方式。在一些实施方式中，所有引入的突变都增加翻译潜力。在一些实施方式中，所有引入的突变都降低翻译潜力。在一些实施方式中，突变选自本文之前描述的突变。应当理解，突变是区域特异性的并且增加特定区域中的相互作用强度将增加或降低翻译潜力，增加不同区域中的相互作用强度可能对翻译潜力具有不同的作用。在一些实施方式中，该方法产生在目标细菌中针对翻译优化或去优化的核酸分子。在一些实施方式中，目标细菌是本文之前描述的细菌。

根据一些实施方式，基于核酸分子和核糖体RNA之间的相互作用强度，对序列突变的相互作用强度分型包括比较突变序列与核糖体RNA的相互作用强度与未修饰序列与核糖体RNA的相互作用强度。

计算机程序产品

另一方面，提供了用于提高核酸分子的翻译过程的计算机程序产品，包括具有在其上体现的程序代码的非暂时性计算机可读存储介质，程序代码可由至少一个硬件处理器执行以：

a.对结合16S核糖体RNA的核酸分子进行测序或访问(access)其测序；

b.提供核酸分子与16S核糖体RNA的相互作用强度；

c.为核酸序列分配突变；和

d.提供关于核酸序列分配突变的输出。

通过另一方面，提供了提高核酸分子的翻译过程的系统，其包括：

a.用于提高核酸分子与16S核糖体RNA的相互作用强度的一个或多个装置；

b.处理器；和

c.包括计算机应用程序的储存介质，其当由处理器执行时配置为：

i.对结合16S核糖体RNA的核酸分子进行测序或访问其测序；

ii.提供核酸分子与16S核糖体RNA的相互作用强度；

iii.为核酸序列分配突变；和

iv.提供关于核酸序列分配突变的输出。

通过另一方面，提供了用于对核酸分子和16S核糖体RNA之间的相互作用强度分型的计算机程序产品，其包括具有在其上体现的程序代码的非暂时性计算机可读存储介质，程序代码可由至少一个硬件处理器执行以：

a.对结合16S核糖体RNA的核酸分子进行测序或访问其测序；

b.为核酸分子产生空模型；

c.计算与16S核糖体RNA相互作用的核酸分子中位置的相互作用强度；

d.根据强、中等、弱的三元相互作用强度对位置进行分类；

e.提供关于核酸分子中相互作用位置的相互作用强度的输出。

通过另一方面，提供用于调谐包含编码序列的核酸分子的翻译潜力的计算机程序产品，其包括具有在其上体现的程序代码的非暂时性计算机可读存储介质，程序代码可由至少一个硬件处理器执行以：

a.测量或访问核酸分子的序列；

d.提供核酸分子的输出修饰序列，该核酸分子包含增加或降低翻译潜力的至少前5个突变。

计算机可读存储介质可以是有形设备，其可以保留和存储指令以供指令执行设备使用。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光学存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体实例的非穷尽列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、机械编码设备(如穿孔卡或凹槽中指令记录于其上的凸起结构)以及前述的任何合适组合。如本文使用的计算机可读存储介质不应被解释为瞬态信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质(如，通过光纤电缆传送的光脉冲)传播的电磁波或通过电线传输的电信号。

本文所述的计算机可读程序指令可以从计算机可读存储介质下载到各自的计算/处理设备，或者通过网络(如，因特网、局域网、广域网、局域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令并转发计算机可读程序指令以存储在各自计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编器指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或以一种或多种编程语言(包括面向对象的编程语言，例如Java、Smalltalk、C++等，以及传统的过程编程语言，例如“C”编程语言或类似的编程语言)的任意组合编写的任一来源代码或目标代码。计算机可读程序指令可以完全在用户计算机上、部分在用户计算机上、作为独立软件包、部分在用户计算机上部分在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施方式中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路执行计算机可读程序指令，以便执行本发明的方面。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以生产机器，使得经由计算机或其他可编程数据处理设备的处理器执行的指令创建用于实现在流程图和/或框图的一个或多个块中指定的功能/动作的装置。这些计算机可读程序指令也可以存储在计算机可读存储介质中，该计算机可读存储介质可以指导计算机、可编程数据处理装置和/或其他设备以特定方式运行，使得其中存储有指令的计算机可读存储介质包括制造物品，该制造物品包括实现流程图和/或框图的一个或多个块中指定的功能/动作方面的指令。

实施方式可以包括体现本文描述和图解的功能的计算机程序，其中该计算机程序在计算机系统中实现，该计算机系统包括存储在机器可读介质中的指令和执行该指令的处理器。然而，应当清楚，在计算机编程中可以有许多不同的方式来实现实施方式，并且实施方式不应被解释为限于任何一组计算机程序指令。此外，本领域技术人员将能够编写这样的计算机程序来实现本文描述的一个或多个公开的实施方式。因此，对于充分理解如何制作和使用实施方式来说，公开一组特定的程序代码指令不认为是必需的。此外，本领域技术人员将认识到，本文描述的实施方式的一个或多个方面可以由硬件、软件或其组合来执行，如可以体现在一个或多个计算系统中。此外，对由计算机执行的动作的任何提及不应被解释为由单个计算机执行，因为可能有不止一台计算机执行该动作。

测序装置是指允许确定一段DNA序列的部件的组合。在一些实施方式中，测试装置允许DNA的高通量测序。在一些实施方式中，测试装置允许对DNA进行大规模并行测序。部件可以包括上文关于测序方法描述的那些中的任一种。

在某些实施方式中，系统还包括用于来自处理器输出的显示器。

在进一步描述本发明之前，应当理解，本发明不限于所描述的特定实施方式，因为其当然可以变化。还应理解，本文所用术语仅用于描述特定实施方式的目的，并非旨在是限制性的，因为本发明的范围将仅受所附权利要求书的限制。

在提供值的范围的情况下，应理解在该范围的上限和下限之间的每个居间值(到下限单位的十分之一，除非上下文另有明确规定)和所述范围内的任何其他陈述值或居间值包括在本发明内。这些较小范围的上限和下限可以独立地包括在较小范围内，并且也包括在本发明内，受限于所述范围内的任何具体排除的限制。当所述范围包括一个或两个限制时，不包括那些所包括限制的一个或两个的范围也包括在本发明中。

某些范围在本文中呈现，数值前有术语“约”。术语“约”在本文中用于为它前面的确切数字以及与该术语前面数字接近或近似的数字提供字面支持。在确定数字是否接近或近似于具体列举的数字时，接近的或近似的未列举数字可以是在其呈现的上下文中提供具体列举数字的实质等价物的数字。

除非另有定义，本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。

注意，如本文和所附权利要求中所使用的，单数形式“一种”、“一个”和“该”包括复数指代物，除非上下文另有明确规定。因此，例如，提及“一个多核苷酸”包括多个这样的多核苷酸，提及“多肽”包括提及本领域技术人员已知的一种或多种多肽及其等价物，等等。进一步注意，权利要求可以被撰写以排除任何任选要素。因此，该陈述旨在作为与权利要求要素的叙述或“否定”限制的使用相关联的诸如“独自”、“仅”等排他性术语使用的在先基础。

应当理解，为了清楚起见，在分开的实施方式的上下文中描述的本发明的某些特征也可以在单个实施方式中组合提供。相反，为了简洁起见，在单个实施方式的上下文中描述的本发明的各种特征也可以分开地提供或以任何合适的子组合提供。与本发明有关的实施方式的所有组合都被本发明具体地包括并且在此公开，就像每个和每一个组合被单独地和明确地公开一样。此外，各种实施方式及其要素的所有子组合也被本发明具体地包括并且在本文中被公开，就像每个这样的子组合在本文中被单独且明确地公开一样。

通过检查以下实施例，本发明的其他目的、优点和新颖特征对于本领域普通技术人员将变得显而易见，这些实施例并非旨在是限制性的。此外，以上描述的和以下权利要求部分要求保护的本发明的各个实施方式和方面中的每一个在以下实施例中找到实验依据。

实施例

分子和细胞生物化学的一般方法可以在以下这类标准教科书中找到：MolecularCloning:A Laboratory Manual,3rd Ed.(Sambrook et al.,HaRBor Laboratory Press2001)；Short Protocols in Molecular Biology,4th Ed.(Ausubel et al.eds.,JohnWiley&Sons 1999)；Protein Methods(Bollag et al.,John Wiley&Sons 1996)；NonviralVectors for Gene Therapy(Wagner et al.eds.,Academic Press 1999)；Viral Vectors(Kaplift&Loewy eds.,Academic Press 1995)；Immunology Methods Manual(I.Lefkovits ed.,Academic Press 1997)；和Cell and Tissue Culture:LaboratoryProcedures in Biotechnology(Doyle&Griffiths,John Wiley&Sons 1998)。

材料和方法

分析的生物。我们分析了来自以下门或纲的551种细菌：α-变形菌、β-变形菌、蓝细菌、δ-变形菌、γ-变形菌、革兰氏阳性细菌、紫色细菌和螺旋体细菌。我们分析了跨越生命之树的另外76种细菌，它们的16S rRNA中没有规范aSD序列。此外，我们还分析了207种生长速率已知的细菌。完整列表可在表1中找到。所有细菌基因组均于2017年10月从NCBI数据库(ncbi.nlm.nih.gov/)下载。对于每个基因，除了标注的编码区外，我们还分析了翻译起始位点上游的50nt和翻译终止位点下游的50nt(分别接近5’UTR的末端和3’UTR的开始)。

rRNA-mRNA相互作用强度预测和分布图。rRNA-mRNA相互作用强度的预测基于两个子序列之间的杂交自由能：第一序列是来自mRNA的6nt序列，和第二序列是来自rRNA的aSD。该能量基于Vienna包RNAcoFold35计算，其计算两个RNA分子的共同二级结构。更低、更负的自由能与更强的杂交有关(见下文)。

rRNA-mRNA相互作用强度分布图包括每个转录物(UTR和编码区)和每种细菌中每个位置的预测rRNA-mRNA杂交强度。我们计算了沿着每个转录物(UTR和编码序列)的所有6核苷酸序列与16S rRNA aSD之间的相互作用强度。对于沿转录物中每个可能的基因组位置，我们进行了统计测试，以确定该位置的潜在rRNA-mRNA相互作用是显著地强的、中等的或弱的。对于更多的细节，参见下文。我们还创建了相互作用强度的Z分数地图，参见下文。

空模型。我们根据以下空模型为每种细菌基因组设计了100种随机化：基于保留核苷酸分布以及特别是GC含量的核苷酸排列生成UTR随机版本。编码区随机版本通过置换同义密码子产生，从而保留了原始蛋白质的密码子频率、氨基酸顺序和含量以及GC含量。

针对随机版本的转录物计算了与上述相似的rRNA-mRNA9相互作用强度分布图，以计算与支持强/中等/弱rRNA-mRNA相互作用的可能选择相关的p值。

我们计算了某一生物的转录组中每个位置的经验p值。为此目的，将该位置中的平均rRNA-mRNA相互作用强度与在所有随机基因组中获得的平均值进行比较。基于真实基因组平均值高于或低于空模型平均值(取决于我们检查的假设)的次数计算p值。显著位置是p值小于0.05的位置。

蛋白质水平。大肠杆菌内源性蛋白质丰度数据从PaxDB(pax-db.org/download)下载，我们使用2012年公布的“E.coli–whole organism,EmPAI”。

rRNA-mRNA强度预测。rRNA-mRNA相互作用强度的定义基于两个子序列之间的杂交自由能。第一序列是来自mRNA的6nt序列，第二序列是来自rRNA的aSD。能量值基于Vienna包RNAcoFold计算，其计算两个RNA分子的共同二级结构。RNAcofold参数是对应于所有分析细菌的默认参数。

更低和更负的自由能与更强的杂交有关。我们假设16S rRNA 3’末端处的相互作用子序列是TCCTCC(3’至5’)。然而，当我们移除这个假设并以无监督的方式推断它时，结果仍然相似。

rRNA-mRNA相互作用强度分布图和选择强度。rRNA-mRNA强度分布图基于每个转录物(UTR和编码区)和每种细菌中的每个位置的预测的rRNA-mRNA杂交强度。我们报告了每种细菌的平均分布图。

使用Vienna程序RNAcoFold(见上节中的定义)计算与rRNA-mRNA杂交强度相关的自由能(即，当两个序列“结合”时释放的能量)。我们计算了在转录物(UTR和编码序列)的特定位置开始的所有6核苷酸子序列与16S核糖体RNA aSD之间的相互作用强度。通过计算aSD和沿mRNA的所有可能的6nt子序列之间的相互作用，我们在单核苷酸分辨率下获得了杂交强度(相互作用强度)分布图。为了决定位置(在整个转录组中)是否倾向于包含具有某一rRNA-mRNA相互作用强度(强、中等、弱)的子序列，我们将其与在空模型中相同位置观察到的子序列的性质进行了比较(参见下面关于空模型的进一步细节)。

中等rRNA-mRNA相互作用定义。为了定义中等相互作用强度，我们设计了定义中等相互作用强度阈值的无监督适应性优化模型。我们在算法中的目标函数是对于中等相互作用的显著位置数。该算法选择阈值(相互作用强度值)并计算与空模型相比中等相互作用的显著位置。在每次迭代中，贪婪地(greedily)选择阈值以提高显著中等位置数(与空模型相比)。还对空模型序列计算了此过程以证明选择。

第一次迭代阈值如下选择；我们在每种细菌的5’UTR中具有强规范SD相互作用的区域中创建相互作用强度的分布直方图(位置-8至-17，图1B)。我们计算了强相互作用分布下的面积。我们初始选择了“高”(最强相互作用强度——更多的负自由能)和“低”(最弱相互作用强度——较少的负自由能)阈值为相互作用强度，使得达到所选阈值相互作用值的面积为曲线每侧总分布面积的5％。

为了研究所选阈值的性质，我们为5’UTR中的两个区域创建了相互作用强度直方图(图4A)：1)如上所述的强相互作用强度分布。2)起始密码子上游的5’UTR处的位置-40至-50中的相互作用强度的分布(其中我们不预期看到强rRNA-mRNA相互作用，因为该区域在翻译起始中不具有已知作用)。

接下来，我们查看了与这两个直方图相比的两个推断阈值的位置；从图4A中可以看出，它们倾向于出现在两个直方图之间的区域中，这支持了这些确实是中等相互作用强度的假设。

为了进一步定量地验证推断阈值，我们计算了由两个推断阈值引起的上述两个直方图下的面积。计算这两个面积之间的比(第一个面积除以第二个面积)：大于1的比表明与缺乏相互作用相比，推断阈值更可能与rRNA和mRNA之间的(中等)相互作用有关；实际上，在大多数细菌(503/551)中，该比大于1(图4D)。

编码区中的中等rRNA-mRNA相互作用的数量与异源蛋白水平之间的关系。我们旨在显示基因编码区中的中等序列直接提高其翻译起始效率，从而提高其蛋白质水平。因此，我们基于从相同启动子和相同UTR表达的146个同义GFP变体，计算了GFP变体中的中等相互作用序列数与异源蛋白水平(PA)之间的部分Spearman相关性。

控制变量是起始密码子附近的CAI和折叠能(FE)。我们根据通过我们的模型在大肠杆菌中接收到的阈值限定了一个中等相互作用面积，并且我们将其扩大了20％以允许该合成系统中的最大中等相互作用(其预期与内源基因不同)。这种相关性确实是正的并且显著的(r＝0.35；P＝2·10^-5)，这表明编码区中具有更多子序列的变体——其以中等相互作用强度与rRNA结合，倾向具有更高的PA。

核糖体分型。大肠杆菌核糖体足迹读数获得自(SRR2340141,3-4)。大肠杆菌转录物序列获得自NCBI(NC_000913.3)。测序的读数按照Diament,A.&Tuller,T.Estimation ofribosome profiling performance and reproducibility at various levels ofresolution.Biol.Direct 11,24(2016)中描述进行映射(map)，通过引用以其全部并入本文。我们使用Cutadapt(版本1.17，在Martin,M.Cutadapt removes adapter sequencesfrom high-throughput sequencing reads.EMBnet.journal 17,10–12(2011)中描述，通过引用以其全部并入本文)从读数中修剪了(trim)3’衔接子，并利用Bowtie(版本1.2.1，在Langmead,B.,Trapnell,C.,Pop,M.&Salzberg,S.L.Ultrafast and memory-efficientalignment of short DNA sequences to the human genome.Genome Biol.10,R25(2009)中描述，通过引用以其全部并入本文)以将其映射至大肠杆菌转录组。在第一阶段，我们丢弃映射至rRNA和tRNA序列——Bowtie参数‘–n 2–seedlen 21–k 1--norc’——的读数。在第二阶段，我们将剩余读数映射至转录组——Bowtie参数‘–v 2–a--strata--best--norc–m 200’。我们过滤掉长于30nt和短于23nt的读数。唯一比对首先分配给核糖体占据分布图。对于多重比对，保留了错配数方面的最佳比对。然后，根据各自周围区域中唯一核糖体读数的分布，将多个比对的读数分布在位置之间。为此目的，使用100nt窗口计算转录组中M多重比对位置附近的读数计数密度RCD_i(基于唯一读数，窗口中总读数除以长度)，并且分配至每个位置的读数的分数为

通过该长度的翻译终止位点上游的读数分布的峰值，为每个读数长度设置A位点的位置。

在创建核糖体分型分布后，对于每个基因，我们计算了在编码区的最后20个核苷酸中具有强rRNA-mRNA相互作用的位置数(报告信号的位置，图3A)。我们根据它们的“强位置数”对基因进行排名(rank)，并限定了10％的最高/最低排名基因。对于最高和最低的排名基因，我们计算了3’UTR(翻译终止位点的最接近区域)的前20个核苷酸的平均Ribo-seq读数计数，图3E。

高表达和低表达基因的Z-分数计算。为了验证报告的信号，我们对大肠杆菌的高表达和低表达基因进行了所有分析。我们根据他们的PA(20％最高和最低PA值)选择了高表达和低表达的基因，并计算了Z分数，如下一小节所解释的。

高vs.低：支持5’UTR末端和编码区开始处的强rRNA-mRNA相互作用的选择

我们基于在高表达和低表达基因的5’UTR和编码区中所有可能位置中rRNA-mRNA相互作用强度计算了Z分数。

-Z_i–位置i中的Z-分数。

-真实值()–位置i中的rRNA-mRNA相互作用强度。

-平均随机值()–在所有随机化中位置i中的平均rRNA-mRNA相互作用强度。

-标准随机值()–在所有随机化中位置j中的rRNA-mRNA相互作用强度的标准偏差。

Z-分数分析的结果可见于图1E。

从统计学的角度，我们根据报告的信号通过两个值限定每个基因：1)5’UTR中位置-8至-17的最小Z-分数值；2)编码区起始处的位置1至5的最小Z-分数值。根据图1B中的报告信号选择区域。

我们进行了两次Wilcoxon秩和检验以估计高表达基因与低表达基因中两个报告信号的p值。

高vs.低：反对编码序列的开始处的强rRNA-mRNA相互作用的选择

我们基于在高表达和低表达基因中编码区前400nt中每个位置的rRNA-mRNA相互作用强度计算了Z-分数(如上所述)。

Z-分数分析的结果可见于图2B。我们进行了Wilcoxon秩和检验来估计报告信号的p值。

高vs.低：支持编码序列的末端处强mRNA-rRNA相互作用的选择的Z-分数计算

在这种情况下，我们基于每种细菌中编码区最后20nt中每个位置的rRNA-mRNA相互作用强度计算了Z分数(如上所述)。

对于每种细菌，我们找到了具有最小Z分数值的位置(与空模型相比最强的相互作用)。我们创建了编码区分布的最后20nt中最强z-分数的位置的直方图(图3C)，以及基于基因表达水平的直方图(图3D)。

不在接近的AUG密码子上游的位置中反对编码区中的强相互作用的选择。为了检测在排除接近的起始密码子上游的位置后支持/反对编码区中强相互作用的选择的信号，我们进行了以下分析。我们考虑了大肠杆菌基因组(真实和随机版本)，并且在每个基因中，我们“标记”了位置，其最多位于AUG上游的14个位置(在所有框中)。然后我们计算了与支持强rRNA-mRNA相互作用的选择相关的p值(如前所述)，但此时我们只考虑未标记的位置(在真实和随机基因组二者中)。结果见于图12A-B中。

评价编码区末端处rRNA-mRNA相互作用的影响的连读实验。为了研究在编码区末端(与终止密码子对齐)处支持强rRNA-mRNA相互作用的选择，我们使用了与GFP连接的RFP构建体(图3G)。我们设计了在RFP末端进行修饰的9个变体，其在最后40nt处具有不同水平的预测rRNA-mRNA杂交强度和局部mRNA折叠强度(图19A；方法)。

为了研究在编码区末端(与终止密码子对齐)处支持强rRNA-mRNA相互作用的选择，我们使用了与GFP连接的RFP构建体(图3G)。我们创建了在RFP末端进行修饰的9个变体，其在最后40nt处具有不同水平的预测rRNA-mRNA杂交强度和局部mRNA折叠强度(图19A)。我们专门检查了3个水平的预测rRNA-mRNA杂交强度(0、-0.9、-5.3)和3个水平的预测mRNA折叠强度(2.3/3.3、-6、-12)。编码区最后40nt中的局部mRNA折叠能通过Vienna程序RNAfold计算。

报告信号的统一生物物理翻译模型。我们开发了翻译的计算模拟模型，包括预起始、起始和伸长阶段。我们的模型基于TASEP模型的平均场近似。所有模型参数均基于rRNA-mRNA相互作用强度。

该模型由两种类型的“颗粒”组成：1.核糖体的小亚基(预起始)：在这种情况下，颗粒沿着整个转录物的脱离/附着和双向移动是可能的；2.核糖体(伸长)：移动是单向的(从mRNA的5’到3’)，并且仅在编码区中是可能的；起始率受核糖体结合位点(RBS)处的核糖体小亚基密度影响。

报告信号的统一生物物理翻译模型

为了验证编码区中的中等序列可以通过提高小亚基到起始位点的预起始扩散来提高翻译过程，并从而增强翻译的起始阶段，我们限制了翻译的计算模型，其包括预起始/起始和伸长阶段。我们的模型基于TASEP模型的平均场近似。

所有模型参数均基于rRNA-mRNA相互作用强度。该模型由两种类型的“颗粒”组成：1.核糖体的小亚基(预起始)：它们的移动通过所有的转录物是可能的；2.核糖体(伸长)：仅在编码区中移动是可能的。

模型方程：小亚基基础模型。在该模型中，有数个参数描述了在转录物的每个位点中小亚基的移动。小亚基可以以一定的速率附着到mRNA中的相关位点(取决于该位点的rRNA-mRNA相互作用值)。小亚基可以以一定的速率从位点脱离(取决于与rRNA-mRNA相互作用的互补相互作用)。

1.

2.

3.附着(i)＝c1*附着n(i)

4.脱离(i)＝c1*脱离n(i)

小亚基向前移动到下个位点取决于从当前位点的脱离速率和下个位点的附着速率。

从细胞i至细胞i+1的流

5.向前(i)＝c2+(脱离(i)*附着(i+1))

小亚基向后移动到先前位点取决于从当前位点的脱离速率和先前位点的附着速率。

从细胞i+1至细胞i的流

6.向后(i)＝c2+(脱离(i+1)*附着(i))

方程的起始项和终止项取决于第一个/最后一个位点的附着或脱离。

小亚基进入第一个位点的“起始”：

·向前(0)＝c2+附着(1)

·向后(0)＝c2+脱离(1)

小亚基从最后一个位点的“脱离”

·向前(末端)＝c2+脱离(末端)

·向后(末端)＝c2+附着(末端)

这是基于RFM的简单模型方程的实例。位点i的核糖体密度取决于至该位点(从前一个位点和下一个位点)的流，取决于从位点i(至前一个位点和下一个位点)的流以及位点i的脱离和附着速率。

例如，i＝2:

小亚基k-位点模型。为了充分掌握中等相互作用影响，我们以如此方式扩展了小亚基模型：使第i个位点受到它之前的k个位点和它之后的k个位点的影响。

1.位点i的密度取决于从i-k:i-1到第i个位点的流和从第i个位点到i+1:i+k个位点的流。

2.如果k大于第I个位点之前/之后的位点数量，则k＝最大可能k。

附着、脱离方程与基础模型中相同。

小亚基的位点之间的移动取决于从第i个位点的脱离速率和第k个位点的附着速率。

从细胞至i细胞k的流：

流(i,k)＝c2+(脱离(i)*附着(k))

流_F-向前至第一位点的流(起始)

流_B-向后从第一位点的流(起始)

来自长度为n个位点的mRNA的模型方程：

a.起始：

b.伸长(k<i<n-k)：

在这种情况下，我们在第i个位点之前有k个位点，在第i个位点之后有k个位点。

因此，我们将所有k个位点(在位点i的两侧中)的所有贡献相加以计算位点i的密度。

c.伸长(i<＝k)：

在这种情况下，我们在第i个位点之前有少于k个位点，在第i个位点之后有k个位点。

因此，我们将第i个位点之后的所有k个位点和第i个位点之前的所有k’个位点的所有贡献相加(k’<k，第i个位点之前的最大可能位点数)来计算位点i的密度。

d.伸长(i>＝n-k)：

在这种情况下，我们在第i个位点之前有k个位点，在第i个位点之后有少于k个位点。

因此，我们将第i个位点之前的所有k个位点和第i个位点之后的所有k’个位点的所有贡献相加(k’<k，第i个位点之后的最大可能位点数)来计算位点i的密度。

e.终止：

f.

伸长期间核糖体移动的模型。为了起始核糖体的移动，我们考虑5’UTR中SD位置的小亚基模型的密度计算起始率。

核糖体的移动取决于相关位点的rRNA-mRNA相互作用以及其他特征诸如对tRNA库的适应(表示为典型解码率，TDR)对位点密码子处伸长的影响。

1.起始率＝平均(密度(34:43))

2.

流模型结果

参数和模型验证。为了证明我们的模型，我们创建了具有100个密码子的人工基因，其所有位点都是弱位点(rRNA-mRNA相互作用＝0)。从这个基本变体，我们通过在核苷酸33中引入不同rRNA-mRNA相互作用强度梯度产生了5个额外的变体。

我们模拟了所有变体的完整模型(预起始阶段——k＝20和伸长模型)。可以看出信号是凸型的：初始更强的相互作用提高了翻译率，但是当相互作用强度强于某个阈值(-2.7<＝中等<＝-1.8)时，翻译率下降。

由此可见(图20A)，这是由于增加相互作用强度，伸长率降低，但起始率增加的事实。

表2.

沿转录物添加中等相互作用提高翻译过程。为了表明沿转录物添加许多中等相互作用(如我们在内源基因中看到的)提高了翻译率，我们进行了以下模拟：我们从具有接近编码序列开始(在起始密码子后3nt)的一个中等相互作用的变体开始；我们逐渐在起始密码子下游添加中等的，以提高翻译率。具体来说，为了确保即使对于长基因也存在中等效应，我们模拟了具有500个核苷酸的更长的序列，并且每个添加的中等序列在提高翻译的位置中前一个序列的下游。

模拟结果出现在图20B和20C中，并描述了一组起始率和翻译率的增加：每个变体(以x轴索引(index))都与向前一个变体添加额外的中等相互作用有关——变体的更大索引与编码区中更多的中等相互作用有关。如我们在图20B和20C中看到的，当甚至在编码区的末端添加中等相互作用时，我们也提高了起始率，从而提高了翻译率。我们可以推断，沿转录物添加中等相互作用确实可以增强小亚基扩散并增加翻译率。

反对编码区末端处强相互作用的选择–连读实验

质粒构建。我们使用质粒pRX80，并通过缺失lac I阻遏基因和CAT可选择标记对其进行了修饰。所得的质粒包含串联的RFP和GFP基因，两者均由具有两个连续lac操纵基因结构域的启动子表达。质粒还包含pBR32复制起点和作为可选择标记的卡那霉素抗性基因。由于2个操纵基因序列导致启动子区域不稳定，我们将启动子区域替换为lacUV启动子，其中只有一个操纵基因序列。所得的质粒，pRCK28现在用于产生RFP ORF的最后40个核苷酸不同的变体。变体包括由3个能量范围的两个核糖体结合位点构成的同义变化，并且其还改变了RFP ORF末端的后40个核苷酸的局部折叠能(LFE)。合成为G-区组(block)和Gibson组装的可变序列用于替换pRCK28质粒的相关区域，产生9个变体，如图19B中所述。将所得的可变质粒转化为感受态大肠杆菌DH5α细胞。在LB卡那霉素平板上选择菌落。对一些候选物进行PCR和测序，以验证每个变体的同义变化。

荧光测试。每个变体以及原始pRCK28克隆和阴性对照(带有卡那霉素抗性的大肠杆菌克隆，与pRC28大小相同，但没有任何荧光基因)的单菌落在LB-卡那霉素中生长过夜。然后稀释细胞并将10,000个细胞接种到96孔板中的110ul确定成分培养基(1X M9盐、1mM硫胺盐酸盐、2％葡萄糖、0.2％酪蛋白氨基酸、2mM MgSO₄、0.1mM CaCl₂)中。对于每个变体，使用了每个变体的2个生物学重复和4个技术重复。荧光计(Spark-Tecan)用于运行生长和荧光动力学。对于生长，收集600nm处的OD数据。对于红色荧光，使用555nm下的激发和584nm下的发射。对于绿色荧光，使用485nm下的激发和535nm下的发射。通过减去阴性对照的自发荧光值并通过计算荧光与生长强度的比来分析和归一化数据。

蛋白质印迹分析。细胞过夜生长，通过离心浓缩1ml培养物并使用补充有溶菌酶的BioGold裂解缓冲液裂解。总蛋白质裂解物在三甘氨酸4-15％丙烯酰胺微型蛋白质TGX无染色凝胶(BioRad)上解析。使用trans-blot Turbo装置和转移组件将蛋白质转移到硝酸纤维素膜上。膜在封闭缓冲液(TBS+1％酪蛋白)中室温下孵育1小时。抗GFP和/或抗RFP抗体(Biolegend)在室温下以1:5K在封闭缓冲液中使用1小时，以探测GFP和RFP表达。然后以1:10K稀释施加山羊抗小鼠第二抗体。ECL用于产生结合信号。

结果:

为了理解细菌界的16S rRNA和mRNA之间的相互作用，开发了预测rRNA-mRNA相互作用的强度的高分辨率计算模型，其中低杂交自由能指示更强的相互作用(参见方法)。该模型用于分析823个细菌物种的整个转录组，研究所有转录物(即2,896,245个转录物)的所有可能位置。为了检测进化选择的模式，将沿每个基因组的转录组中的每个位置的rRNA-mRNA相互作用强度的分布与空模型预期的分布进行比较。空模型保留了每个转录物中的密码子频率、氨基酸含量和GC含量(参见方法)。

对于沿转录组中的每个位置，进行三个统计测试以回答以下问题：

1)该位置的核苷酸(nt)序列是否倾向于产生比空模型预期的更强的rRNA-mRNA相互作用？

2)该位置的nt序列是否倾向于产生比空模型预期的更弱的rRNA-mRNA相互作用？

3)与空模型预期的相比，该位置的nt序列是否倾向于产生中等强度(中度强度：既不是非常强也不是非常弱)rRNA-mRNA相互作用？(参见图1A和方法)。

本文报道了观察到的不同转录物区域内的子序列与16S rRNA产生强、中等和弱相互作用的趋势。

实施例1：支持5’UTR末端处和编码区开始处的强rRNA-mRNA相互作用的选择，以调节翻译起始和早期翻译伸长

首先，我们分析了在rRNA中具有aSD(反Shine Delgarno)序列的551种细菌的5’UTR。表明了原核生物中的翻译起始是通过16S rRNA与mRNA的杂交而起始的。16S rRNA与起始密码子4附近和上游的5’UTR结合，如图1C所示。实际上，如图1B(黑框)可见，在几乎所有分析的细菌中，相对于起始密码子，在位置-8至-17处存在支持强rRNA-mRNA相互作用的选择的显著信号，与Shine-Dalgarno模型一致。

支持强rRNA-mRNA相互作用的选择的第二信号出现在5’UTR的最后一个核苷酸和编码序列的前五个核苷酸中(图1B，蓝框)。由于伸长核糖体位于其RNA与mRNA相互作用位置的下游11个核苷酸附近，因此这些rRNA-mRNA相互作用很可能与减慢核糖体的早期伸长阶段有关。

已经表明，在编码区的开始处，存在减慢翻译伸长的早期阶段以提高生物适度的各种特征——如通过优化核糖体分配和分子伴侣招募(图1D)。这第二新信号很可能是这种调节的机制。上述两种报告的信号发生在89％的分析的细菌中。

大肠杆菌中高表达基因和低表达基因的比较(图1E)揭示了，在高表达基因中两种信号都更强，这些基因在更强的选择下以优化翻译。两个报告的信号区域中高表达和低表达基因的Z-分数之间的差异是高度显著的(5’UTR中的核苷酸-8至-17：Wilcoxon秩和检验p＝7.9·10^-5；5’UTR的最后一个核苷酸和编码序列的前5个核苷酸：Wioxon秩和检验p＝9.3·10^-4)。

实施例2：反对编码区中的强rRNA-mRNA相互作用的选择，其防止翻译伸长减慢

大肠杆菌中的Ribo-seq分析表明，16S rRNA和mRNA之间的强相互作用可导致翻译伸长期间暂停，阻碍翻译(图2D)。因此，避免编码区中这种强rRNA-mRNA相互作用应该允许核糖体在翻译伸长期间中有效流动。这种强rRNA-mRNA相互作用序列的有害影响也可能是由于它们在促进内部翻译起始方面的作用，这将产生截断和移码的蛋白质产物。观察到AUG起始密码子的出现在大肠杆菌中现有的强rRNA-mRNA相互作用序列下游被显著耗尽，其支持这一说法。

我们的分析揭示了反对编码区中强rRNA-mRNA相互作用的显著选择的证据(图2A)。在55％的分析的细菌中，编码区的前400个核苷酸中至少50％的位置表现出反对强rRNA-mRNA相互作用的显著选择的信号。重要的是，这种选择也在远离附近AUG上游的位置处观察到，表明这种选择也与伸长有关，而不仅仅是避免内部翻译起始。已经表明了，强rRNA-mRNA相互作用序列的有害影响可能是由于它们在促进内部翻译起始方面的作用，这将产生截断和移码的蛋白质产物。类似地，已经观察到ATG起始密码子的出现在大肠杆菌中现有的强rRNA-mRNA相互作用序列下游被显著耗尽。这一结果与我们反对编码区强相互作用的选择的信号重叠。但在我们的情况中，我们还强调了不同的机制：防止在伸长期间核糖体的极度减慢，以实现可能的翻译伸长过程的平滑(和有效)。在图17中，我们显示了，即使在其下游没有ATG，也存在反对强rRNA-mRNA相互作用的显著选择，表明该信号也可能与翻译伸长有关。

我们发现了在整个分析的细菌门的编码区中反对强rRNA-mRNA相互作用的选择的证据，除了在蓝细菌和革兰氏阳性细菌中，其似乎表现出支持强rRNA-mRNA相互作用的选择(图2A)。已经假设rRNA和mRNA之间的相互作用在蓝细菌中较弱，因为16S核糖体RNA以这样方式折叠，即通常与mRNA相互作用的子序列位于RNA结构内。因此，在这些生物中，预期rRNA-mRNA相互作用的可能性较小，导致消除编码区中可与rRNA相互作用的子序列的较低选择压力。在基因的3’UTR中可以看到类似的趋势(图2C)。我们假设与蓝细菌相似，革兰氏阳性细菌也具有导致rRNA-mRNA相互作用效率较低的rRNA结构。

同样，大肠杆菌中高表达和低表达基因之间的比较揭示，对于高表达基因，反对导致编码区中强相互作用的核苷酸序列的选择更强，这些基因为了更准确和有效的翻译而处于更强的选择压力下(Wilcoxon秩和检验p＝1.5·10^-30；图2B)。

此外，由图2E可见：在编码区的开始(5-25个核苷酸)处，存在反对强和中等RNA-mRNA相互作用的显著增加的选择(典型的p值0.097)。在编码区的开始附近以强/中等方式相互作用的子序列的存在可能更有害，因为它可能促进从错误位置以更高的概率起始(参见图2F中的说明)；实际上，报告了与真核和原核起始有关的类似信号。

实施例3：支持编码序列末端处的强rRNA-mRNA相互作用的选择，以提高翻译终止的保真度

在82％的所分析的细菌物种中，在编码区后20个核苷酸的50％位置中，存在支持强rRNA-mRNA相互作用的选择(图3A)。这构成了在接近终止密码子时减慢核糖体移动的机制，并用于确保有效和准确的终止并防止翻译连读(图3F)。可能这种选择可具有辅助操纵子中重叠或靠近下游基因的起始的功能；然而，我们在所有基因和细菌中普遍观察到这种现象，包括其他基因并没有紧随其后的操纵子中的最后基因(图3F)。

细菌中的许多基因被转录为操纵子。具体来说，在大肠杆菌中，55％的基因被分组为操纵子。在操纵子中，下游基因在上游基因的终止密码子附近有起始密码子，这会影响支持编码区末端处的强相互作用的选择。因此，我们通过查看操纵子，特别是查看操纵子的开始/中间/结尾处的基因，进一步验证了这个信号。由图18A可见，在操纵子中前中和后基因的编码区末端存在支持强相互作用的选择。该结果支持该信号与终止相关(至少部分相关)的假设。在图18B中，我们还可以看到在具有单个基因的操纵子中支持编码区末端处的强相互作用的选择。

先前已经发现，当rRNA与mRNA结合时，核糖体通常解码位于结合位点下游约11nt处的密码子。为了验证这一点，在大多数分析的细菌中，我们利用支持最强相互作用的选择来推断位置，并确定了编码区的后20nt内具有最小rRNA-mRNA相互作用Z分数的那些(参见方法)。我们发现所有细菌中最强和最显著的位置实际是相对于终止密码子的-9至-12(图3B和3C)。这支持了我们的假设，即相互作用实际起到停止终止密码子上的核糖体的作用，而不是起始操纵子中的下一个开放阅读框。

我们检查了在具有不同基因表达水平的编码区的后20nt中支持强相互作用的选择强度之间的关系，发现它是凸型的：这种选择对于中等表达的基因较强，对于低表达和高表达基因较弱(图3D)。我们认为，低表达基因中较弱的选择可能是由于总体上对基因的较低选择压力。相反地，高表达基因中较弱的信号可能是由于对翻译伸长和终止率的更强选择：这些基因中的核糖体密度较高，并且如果核糖体为了促进准确终止而停滞，则其可能会导致核糖体在3’-末端排队(queue)，导致核糖体分配效率低下。高表达基因可能具有其他机制确保终止保真度。还研究了支持编码区末端处的强rRNA-mRNA相互作用的选择的信号与已知生长速率的细菌的倍增时间之间的关系。从图5中可以看出，信号在具有中等倍增时间的细菌中更强。这个结果类似于信号强度和基因表达之间的关系。

为了测试刚好在终止密码子之前的强rRNA-mRNA相互作用是否提高终止保真度，我们分析了大肠杆菌的Ribo-seq数据(图3E和方法)。我们预期，如果这种相互作用提高了终止的保真度，则具有强相互作用的mRNA将表现出更少的连读事件，并因此我们将观察到更少的终止密码子下游的Ribo-seq读数计数(RC)。事实上，我们发现，与该区域中具有较弱相互作用的基因相比，在编码区后20个核苷酸中具有强rRNA-mRNA相互作用的基因之后，在终止密码子后20个核苷酸的平均读数计数较低(平均RC分别为0.334和0.514；Wilcoxon秩和检验p＝0.001)。

为了进一步通过实验测试我们关于刚好在终止密码子之前的强rRNA-mRNA相互作用阻止终止密码子连读的假设，我们使用了具有编码红色荧光蛋白(RFP)的基因的构建体mRNA，该编码红色荧光蛋白(RFP)的基因连接至编码绿色荧光蛋白的基因(GFP；图3G)。我们将GFP基因定位到下游，使其表达作为连读表达的指示，并且具有较高GFP荧光的变体指示了终止密码子连读率较高(参见方法)。我们在RFP的后40nt27处设计了具有不同rRNA-mRNA相互作用强度和局部mRNA折叠的九个变体，并测量了它们的荧光。如假设的，我们发现在RFP编码区的末端具有更强rRNA-mRNA相互作用的变体倾向于产生较低水平的GFP(图3H)。我们发现，即使在控制终止密码子附近的局部mRNA折叠时，相对连读信号(GFP荧光和RFP荧光之间的比率)与终止密码子之前预测的rRNA-mRNA相互作用强度之间也存在高度相关性(部分Spearman相关：r＝0.7996P＝0.0097)。

实施例4：支持编码区和UTR中的中等rRNA-mRNA相互作用的选择，以提高小亚基至起始位点的预起始扩散。

前面的章节提供了反对贯穿大部分编码区的rRNA和mRNA之间强相互作用的选择的证据，但这并不意味着贯穿整个区域的所有相互作用都是有害的：其他力可能会在不同的方向上起作用。在与mRNA结合之前，游离核糖体单位通过扩散行进。与mRNA的一些相互作用可能有助于“导向”核糖体的扩散小亚基留在转录物附近并“帮助”它们找到起始密码子，增加它们的扩散效率，从而提高整体翻译起始效率(图4F，第1部分)。

起始通常是翻译的限速阶段，并且最受限制的方面可能似乎是小亚基向SD区的3维扩散。一维扩散(即沿着mRNA)可能更快：如果mRNA可以“捉住”小的核糖体亚基，然后将它们引导到它们的起始密码子，它们可能会受到进化的青睐。遗传密码中的大量冗余允许突变，即使在编码区，该突变也可以提高rRNA和mRNA之间的相互作用，而不会对蛋白质产物产生负面影响；然而，如我们所见，编码区中的强相互作用是有问题的。基于这些考虑；我们假设进化将编码区塑造成包括中等rRNA-mRNA相互作用，这些相互作用没有强到足以停止伸长，但可以优化预起始扩散。

为了测试这个假设，我们创建了无监督的优化模型，以通过适应性地计算每种细菌的rRNA-mRNA相互作用强度阈值来鉴定具有中等rRNA-mRNA相互作用强度的序列。该算法选择rRNA-mRNA相互作用强度阈值，以便它们描绘具有这些阈值之间的rRNA-mRNA相互作用的最大显著位置数(参见方法)。

为了验证阈值是合理的，我们查看了两个区域中的5’UTR中最高(每个基因)的rRNA-mRNA相互作用强度分布：1)起始期间的规范rRNA-mRNA相互作用区域(即，起始密码子上游的核苷酸-8至-17)；2)位于1)上游的5’UTR中的区域。然后我们用两个值限定每个基因：a.区域1)分布的最小相互作用强度(即，最强相互作用)；b.区域2)分布的最小相互作用强度。对于每种细菌，我们基于其基因上的值a和b创建了分布图。图4A包括大肠杆菌的这两个分布；可以看出，该细菌的rRNA-mRNA中等相互作用强度阈值位于两个分布的重叠区域中。此外，我们计算了在上述区域(1)和(2)中rRNA-mRNA相互作用强度的所有值的分布下优化的中等阈值之间的面积(图4D)。如所预期的，在大多数细菌中，分布1)下的面积大于分布2)下的面积(该比率在91％的细菌中大于1)。这提供了如此确认：鉴定的相互作用强度的范围对应于中等相互作用而不是缺乏相互作用。

我们的分析揭示，在52％的分析的细菌中，至少50％的位置处于支持中rRNA-mRNA相互作用的显著选择之下：根据空模型，预期该情况只有0.18％(图4B)。在3’UTR中可以看到类似的趋势(图4C)。支持编码区中中等相互作用的选择的水平因细菌门而异，并因此可能受到各种门特定特征如生长速率、竞争和翻译调节的许多方面的影响。

当查看中等选择信号时，我们可以看到可以在52％的分析的细菌中观察到该信号。显示该信号的细菌组是：47％的β变形菌、49％的蓝细菌、94％的δ细菌、43％的γ细菌、83％的革兰氏阳性细菌、28％的紫色细菌、100％的螺旋体细菌以及26％的α细菌和大肠杆菌。

对于具有非规范aSD的细菌，可以在图10和11中看到支持编码区和3’UTR中的中等相互作用的选择。事实上，在编码区和3’UTR中存在支持这种相互作用的选择的趋势，但是，信号弱得多，并且不与具有规范aSD的细菌中一致。

我们的空模型保留了蛋白质本身、密码子偏向性和GC含量。因此，观察到的选择不能有利于特定的密码子或氨基酸。此外，我们的rRNA-mRNA相互作用分布图考虑了所有三个阅读框；因此，氨基酸不是影响该信号的关键因素。此外，我们在UTR中看到类似的选择模式这一事实(图4C)表明这种模式不能仅归因于支持某些密码子对的选择。

我们假设支持基因的编码区中的中等rRNA-mRNA相互作用的选择应该提高其翻译起始效率并因此提高其蛋白质水平。为了证明这一点，我们基于从相同启动子表达的146个同义GFP变体，计算了GFP变体(参见前面的实施例)中的中等相互作用序列数与异源蛋白质丰度(PA)之间的部分Spearman相关性。控制变量是已知影响翻译起始效率(起始密码子附近的折叠越弱，翻译起始的保真度和效率越高)的密码子适应指数(CAI)；密码子使用偏好的度量，以及起始密码子附近的mRNA折叠能(FE)。

我们根据通过我们的模型在大肠杆菌中确定的阈值限定了中等相互作用的面积，并计算了以上解释的相关性。如所预期的，相关性为正的且显著的(r＝0.35；P＝0.2·10^-4)，这指示了编码区中具有更多的以中等相互作用强度与rRNA结合的子序列的变体倾向具有更高的PA。

我们发现当起始密码子附近的FE最强时，这种相关性特别非常高(r＝0.61；p＝0.003)(图4E)。当这个过程较不有效时(即，当它是更限速的时)，中等序列预期会对起始产生更强的影响。因此，根据我们的模型，我们预期当起始密码子周围区域中的mRNA折叠较强时，在蛋白质水平与中等序列数之间可见更强的相关性(图4F，第2部分)。

当计算以弱方式与rRNA相互作用的子序列数量与GFP变体的PA之间的部分Spearman相关性时，相关性为负的且显著的(r＝-0.32；p＝8.5·10^-5)。这进一步验证了我们的推测，即在这种情况下，翻译效率确实与既不是太强也不是太弱或不存在的相互作用相关。这还表明，这种对翻译效率的影响与预起始步骤相关，而不是与伸长步骤相关，否则我们将预期与弱相互作用的正相关。

为了以‘无监督’方式验证中等相互作用的GFP相关性，我们计算了GFP变体中所有6nt序列的杂交能并将序列杂交能量分为五个组。之后，我们计算了特定杂交能值组中的序列数与GFP变体的PA之间的Spearman相关性。从图15中可以看出，中等杂交值(不是最低或最高)与蛋白质水平具有最高的正的且显著的相关性。

我们还通过大肠杆菌基因的mRNA半衰期分析了大肠杆菌基因，以评估支持中等相互作用的选择在它们之间如何变化。我们发现半衰期较短的基因倾向于具有更多的中等相互作用。这些基因可能会经历更强的选择以包括中等相互作用，因为它们相应的mRNA‘具有更少的时间’来起始翻译。因此，本文讨论的报告结果表明，小核糖体亚基的扩散相对较快。

为了增强我们对中等相互作用的影响的认识，我们根据大肠杆菌基因的mRNA半衰期来划分它们。对于前和后20％，我们计算了在编码区的每个位置中具有中等相互作用的基因的百分比。从该分析中，我们发现具有较短mRNA半衰期的基因倾向于具有更多的中等相互作用(Wilcoxon检验P＝2.060·10^-6)。这一结果可能与那些mRNA作为基因在降解之前‘捉住’核糖体的‘时间更少’的事实有关。此外，各种基因的mRNA分子倾向于定位在细胞的某些区域；这可能表明，一旦该特定mRNA发生降解，一个mRNA‘捉住’核糖体可能改善它们向其他邻近mRNA的扩散时间。

已知mRNA倾向于定位在细胞的某些区域中，这意味着如果我们可以使核糖体靠近某个mRNA，则我们也可以使其靠近其他mRNA。如果某个mRNA‘捉住’了核糖体，然后发生降解，则该核糖体可能会保持靠近其他附近的mRNA。也有可能由于许多mRNA分子的隔室化和聚集，与一个mRNA的小亚基的相互作用对附近的mRNA可能是‘有帮助的’。

我们进一步研究了支持中等rRNA-mRNA相互作用的选择的信号与倍增时间之间的关系。我们根据细菌的倍增时间对细菌进行了划分，并计算了编码区中等显著位置的平均数(图12A)。信号似乎也是凸型的(并类似于信号强度和基因表达的关系，图12B)：具有非常高生长速率的生物具有更低的信号，因为它可能会降低伸长率；具有低生长速率的生物具有较低的信号，是由于较低的选择压力。该结果再次证明了对编码区内中等rRNA-mRNA相互作用的选择压力与生长速率和基因表达之间的复杂凸型关系。事实上，当根据基因的翻译效率(PA/mRNA水平，图12B)对基因进行划分时，在大肠杆菌中可以看到类似的趋势。

最后，我们创建了计算生物物理模型，该模型描述了小核糖体亚基沿转录物的移动。在这个模型中，移动受到中等相互作用的影响(图4G和4H)。该模型指示，即使中等序列靠近基因的3’端，沿转录物添加中等相互作用也可以提高起始率和终止率。它还证明了在大多数转录物中，中等相互作用优于弱相互作用或强相互作用的优势，因为转录物中的中等相互作用优化了翻译率。我们得出结论，沿转录物的中等rRNA-mRNA相互作用增强了小核糖体亚基向起始密码子的扩散，从而提高了翻译率(参见方法)。

实施例5：在没有规范aSD的细菌转录物的不同部分中支持强/弱/中等相互作用的选择

为了验证和进一步研究报告的信号，我们分析了在其16S rRNA中没有规范aSD的细菌。如所预期的，在分析这类细菌时，大部分我们报告的信号都找不到。本小节的结果加强了我们的模型，并推测了rRNA-mRNA相互作用在翻译的所有阶段和子阶段中的重要性。

我们查看了支持5’UTR处强相互作用的选择。由于细菌在其16S rRNA中没有规范aSD序列的事实，因此没有明确的证据表明在5’UTR的位置-8至-17处支持强rRNA-mRNA相互作用的选择(图6)。另一方面，在图6中可以看出，在5’UTR的最后一个核苷酸处支持强rRNA-mRNA相互作用的选择，其可以在翻译伸长的早期阶段减缓核糖体的移动——在许多生物中已知的信号。当比较非规范细菌和551种细菌(规范)中5’UTR的最后一个核苷酸的选择强度时，非规范细菌中的选择较弱(规则细菌：平均Z-分数＝-10.05，非规范细菌平均Z-分数＝-7.69)。

如图7和8中可见，存在支持强rRNA-mRNA相互作用的大部分选择。此外，当信号在正确方向时，它比具有规范aSD的('规则')生物弱得多。在‘规则’细菌中存在反对强相互作用的选择的显著位置的平均数为96.47，与之相比在非规范细菌中为37.67。

在具有规范aSD的细菌中，在编码区的末端处，我们检测到支持强rRNA-mRNA相互作用的选择的信号，其能够实现终止密码子识别并防止连读。当我们查看没有规范aSD的细菌时(图9)，我们在所有位置检测到相反的信号(即，支持弱相互作用的选择)，而与强相互作用相关的信号(即，以正确方向)只出现在编码区的最后两个核苷酸中(图19A-C)。最后两个核苷酸处的短信号可能与优化终止无关，因为我们预期这样的信号出现在终止密码子上游近似11个核苷酸处(如在正文中报告的)，这里不是这种情况。

实施例6：SD序列优化模型

常见的假设是SD和aSD序列通常是规范序列。然而，我们认为可能存在具有不同rRNA-mRNA相互作用基序的生物。因此，我们开发了优化模型，以无监督的方式找到给定细菌的优化SD和aSD序列。

为了找到最佳SD，我们设计了以下算法(图13)：对于某个生物，我们考虑了16SrRNA的3’末端的后20nt处的所有6nt长子序列作为潜在的替代“aSD”。

对于每个这样的潜在替代“aSD”，以及对于生物中的每个基因，我们考虑了5’UTR中位置-8至-17的所有子序列，以找到具有最强rRNA-mRNA相互作用的子序列，其中有可能成为替代“aSD”。这些值是跨越基因的平均值，并且产生最低的平均值(与最强的预测平均rRNA-mRNA相互作用强度相关)的潜在的替代“aSD”被预测为替代“aSD”序列。

我们对551种细菌执行了优化模型。从图14可以看出，在551种细菌的仅仅64种，最佳的aSD不是规范aSD。此外，有3个‘替代aSD序列’被推断在这64种细菌中的大多数中是最佳的(参见图14中的前三个条)。当我们对这些细菌使用新的aSD-SD模型而不是规范aSD-SD相互作用假设时，报告的结果保持不变。

实施例7：GFP变体中的中等序列验证

为了以“无监督”方式验证中等相互作用的GFP相关性，我们计算了GFP变体中所有6nt序列的杂交能并将序列杂交能分为五个组。之后，我们计算了特定杂交能值组中的序列数与GFP变体的PA之间的Spearman相关性。从图15中可以看出，中等杂交值(不是最低或最高)与蛋白质水平具有最高的正的且显著的相关性。

Claims

1.包含编码序列的核酸分子，其中所述核酸分子包含在所述分子的区域内的至少一个突变，其中所述突变调谐所述核酸分子与16S核糖体RNA(rRNA)的相互作用强度；和其中所述区域选自：

a.所述编码序列的翻译起始位点(TSS)上游的位置-8至-17，并且所述突变增加相互作用强度；

b.所述编码序列的TSS上游的位置-1至所述TSS下游的位置5，并且所述突变增加相互作用强度；

c.所述编码序列的TSS下游的位置6至25，并且所述突变降低相互作用强度；

d.所述编码序列的TSS下游的位置26至所述编码序列的翻译终止位点(TTS)上游的位置-13，并且所述突变调谐相互作用强度至中等相互作用强度；

e.所述编码序列的TTS上游的位置-8至-17，并且所述突变增加相互作用强度；和

f.所述编码序列的TTS下游的位置，并且所述突变增加相互作用强度。

2.根据权利要求1所述的核酸分子，其中所述突变调谐含有所述突变的六-核苷酸序列与所述16S rRNA的相互作用强度。

3.根据权利要求1或2所述的核酸分子，其中与16S rRNA的所述相互作用强度是与所述16S rRNA的反-Shine Dalgarno(aSD)序列的相互作用强度。

4.根据权利要求3所述的核酸分子，其中所述核酸分子的序列与所述aSD序列的所述相互作用强度由表3确定。

5.根据权利要求1至4中任一项所述的核酸分子，其中所述增加将相互作用强度增加到强相互作用强度，降低将相互作用强度降低到弱相互作用强度，和其中强相互作用强度、弱相互作用强度和中等相互作用强度由表1确定。

6.根据权利要求1至5中任一项所述的核酸分子，其中从所述TSS下游的位置26到所述TTS上游的位置-13的所述区域包括所述区域的前400个碱基对。

7.根据权利要求1至6中任一项所述的核酸分子，其包括至少第二突变，其中所述第二突变位于与所述至少一个突变不同的区域中。

8.根据权利要求1至7中任一项所述的核酸分子，其中所述至少一个突变在所述编码序列内并将所述编码序列的密码子突变为同义密码子。

9.根据权利要求1至8中任一项所述的核酸分子，其中所述突变提高了所述编码序列的翻译潜力。

10.根据权利要求9所述的核酸分子，其中所述提高包括以下中的至少一项：增加翻译起始效率、增加翻译起始率、增加小亚基向起始位点的扩散、增加伸长率、优化核糖体分配、增加分子伴侣招募、增加终止准确度、降低翻译连读并增加蛋白质产率。

11.根据权利要求1至10中任一项所述的核酸分子，其中所述核酸分子是信使RNA(mRNA)。

12.一种细胞，其包含权利要求1至11中任一项的核酸分子。

13.根据权利要求12所述的细胞，其中所述细胞是细菌细胞。

14.根据权利要求13所述的细胞，其中所述细菌选自表1所列的细菌。

15.根据权利要求13或14所述的细胞，其中所述细菌选自大肠杆菌、α-变形菌、螺旋体菌、紫色细菌、γ变形菌、δ-变形菌和β-变形菌。

16.根据权利要求13至15中任一项所述的细胞，其中所述细菌不是蓝细菌或革兰氏阳性细菌。

17.根据权利要求12至16中任一项所述的细胞，其中所述核酸分子对细胞是内源性的。

18.根据权利要求12至16中任一项所述的细胞，其中所述核酸分子对细胞是外源性的。

19.提高编码序列的翻译潜力的方法，所述方法包括将至少一个突变引入包含所述编码序列的核酸分子中，其中所述突变调谐所述核酸分子与16S rRNA的相互作用强度，从而提高编码序列的翻译潜力。

20.根据权利要求19所述的方法，其中所述提高包括以下中的至少一项：增加翻译起始效率、增加翻译起始率、增加小亚基向起始位点的扩散、增加伸长率、优化核糖体分配、增加分子伴侣招募、增加终止准确度、降低翻译连读并增加蛋白质产率。

21.根据权利要求19或20所述的方法，其中所述突变位于选自以下的区域：

22.根据权利要求19至21中任一项所述的方法，其中所述核酸分子是权利要求1至10中任一项的核酸分子。

23.根据权利要求21或22所述的方法，其中

a.所述区域位于TSS上游的位置-8至-17，并且其中所述增加的相互作用强度导致提高的翻译起始；

b.所述区域位于TSS上游的位置-1至TSS下游的位置5，并且其中所述增加的相互作用导致提高的核糖体分配优化或增加的分子伴侣招募。

c.所述区域位于TRSS下游的位置5至25，并且其中所述降低的相互作用强度导致提高的翻译起始效率；

d.所述区域位于TSS下游的位置26至TTS上游的位置-13，并且其中至中等相互作用强度的所述调谐的相互作用强度导致增加的小亚基向起始位点的扩散、提高的翻译起始效率、优化的预起始扩散或增加蛋白质水平；

e.所述区域位于TTS上游的位置-8至-17，并且其中所述增加的相互作用强度导致增加的终止效率、终止准确度或降低的翻译连读；或

f.所述区域位于TTS下游，并且其中所述增加的相互作用强度导致提高翻译过程中核糖体的循环。

24.根据权利要求19至23中任一项所述的方法，进一步包括在与所述至少一个突变不同的区域中引入至少第二突变。

25.根据权利要求19至24中任一项所述的方法，其中引入突变包括：

a.对所述核酸分子的每个6-核苷酸长亚区与16S rRNA的相互作用强度分型；

b.对包含所述核酸分子的潜在突变的每个6-核苷酸长亚区的相互作用强度分型；和

c.将所述突变引入所述核酸分子，其中所有的包含所述突变的所述6-核苷酸长亚区的相互作用强度变化调谐与所述16S核糖体RNA的相互作用强度。

26.根据权利要求19至25中任一项所述的方法，其中所述突变调谐包含所述突变的六-核苷酸序列与所述16S rRNA的相互作用强度。

27.根据权利要求26所述的方法，其中与16S rRNA的所述相互作用强度是与所述16SrRNA的反Shine Dalgarno(aSD)序列的相互作用强度。

28.根据权利要求27所述的方法，其中所述核酸分子的序列与所述aSD序列的所述相互作用强度由表3确定。

29.根据权利要求19至28中任一项所述的方法，其中所述增加将相互作用强度增加到强相互作用强度，降低将相互作用强度降低到弱相互作用强度，和其中强相互作用强度、弱相互作用强度和中等相互作用强度由表1确定。

30.修饰细胞的方法，所述方法包括在所述细胞内表达权利要求1至11中任一项的核酸分子或通过权利要求19至29中任一项的方法生产的提高的核酸分子，从而修饰细胞。

31.根据权利要求30所述的细胞，其中所述细胞是细菌细胞。

32.根据权利要求31所述的细胞，其中所述细菌选自表1所列的细菌。

33.根据权利要求31或32所述的细胞，其中所述细菌选自大肠杆菌、α-变形菌、螺旋体菌、紫色细菌、γ变形菌、δ-变形菌和β-变形菌。

34.根据权利要求31至33中任一项所述的细胞，其中所述细菌不是蓝细菌或革兰氏阳性细菌。

35.根据权利要求31至34中任一项所述的细胞，其中所述核酸分子对细胞是内源性的。

36.根据权利要求31至34中任一项所述的细胞，其中所述核酸分子对细胞是外源性的。

37.用于调谐核酸分子中编码序列的翻译潜力的计算机程序产品，其包括具有在其上体现的程序代码的非暂时性计算机可读存储介质，所述程序代码可由至少一个硬件处理器执行以：

a.接收所述核酸分子的序列；

b.计算所述核酸分子的6-核苷酸长亚区与目标细菌的16S rRNA的aSD的相互作用强度；

c.计算所述亚区和由所述亚区内的突变引起的所述aSD之间相互作用强度的累积变更；和

d.提供包含至少一个增加或减少翻译潜力的突变的所述核酸分子的输出修饰序列。

38.根据权利要求37所述的计算机程序产品，其中所述计算包括计算多个6-核苷酸长亚区与所述核酸分子的区域的相互作用强度，其中所述区域选自：

a.翻译起始位点(TSS)上游的位置-8至-17；

b.TSS上游的位置-1至所述TSS下游的位置5；

c.TSS下游的位置6至25；

d.TSS下游的位置25至翻译终止位点(TTS)上游的位置-13；

e.TTS上游的位置-8至-17；和

f.TTS下游的位置。

39.根据权利要求38所述的计算机程序产品，包括计算所述区域内每个6-核苷酸长亚区的相互作用强度。

40.根据权利要求37至39中任一项所述的计算机程序产品，其中所述核酸分子的所述输出修饰序列至少包含所述核酸分子内增加或降低翻译潜力的前5个突变。

41.根据权利要求38至40中任一项所述的计算机程序产品，其中所述核酸分子的所述输出修饰序列至少包含所述区域内增加或降低翻译潜力的前5个突变。