CN109997192A

CN109997192A - 用于基于规则的基因组设计的方法

Info

Publication number: CN109997192A
Application number: CN201780049973.6A
Authority: CN
Inventors: G·库兹耐特索夫; M·J·拉乔伊; M·M·兰登; M·G·纳波利塔诺; D·B·古德曼; C·J·格雷格; G·M·丘奇; N·奥斯特罗夫
Original assignee: Harvard College
Current assignee: Harvard College
Priority date: 2016-06-15
Filing date: 2017-06-15
Publication date: 2019-07-09
Also published as: US20220246240A1; US11361845B2; JP2019519233A; EP3472319A1; EP3472319A4; EP3472319B1; JP7062861B2; WO2017218727A1; US20200055903A1; CA3027882A1; JP2022046554A

Abstract

本文描述了用于设计、测试和验证基因组设计的方法和系统。计算机实施的方法包括，接收已知基因组和等位基因列表的数据，鉴定和去除已知基因组中各等位基因的出现，确定用于替换已知基因组中出现的多个等位基因选择，基于已知基因组产生基因组设计的多个替代性基因序列，通过为各替代性基因序列中各规则或约束或条件或参数或特征分配评分，将多个规则或约束或条件或参数或特征应用于各替代性基因序列，产生评分，基于评分的加权组合，对各替代性基因序列进行评分，并基于评分选择至少一个替代性基因序列作为基因组设计。

Description

用于基于规则的基因组设计的方法

相关申请数据

本申请要求于2016年6月15日提交的美国临时申请号62/350,468号的优先权，其通过引用纳入本文用于所有目的。

政府权益的声明

本发明在能源部(Department of Energy)资助的DE-FG02-02ER63445以及国防部(Department of Defense)资助的HR0011-13-1-0002下由政府支持完成。政府对本发明拥有一定的权利。

技术领域

本文描述方面一般涉及基因工程改造的和遗传修饰的细胞和/或生物体。具体地，本公开的一个或多个方面涉及用于基于预定义的一组规则或条件或参数或特征的基因组设计的方法和计算机软件。

背景

转基因生物体(GMO)越来越多地用于生产人类消费品，如燃料、商品化学品和治疗剂。GMO也用于农业(例如，黄金大米、作物、Frostban)，生物治理(例如，石油泄漏)和医疗保健(例如，克罗恩病和口腔炎症)。商业实施的GMO中的修饰可能通常受限于异源基因表达和在优化选择下的进化。然而，与任何已知生物体完全不同的合成基因组可能会扩展潜在的应用。

人们对创建最小的(Gibson等，2010)和重编码的(Lajoie等，2013a；Lajoie等，2013b)基因组有相当大的兴趣，但尚未很好地理解基因组以从头开始设计它们。虽然体内基因组工程改造策略可以降低产生非功能性基因组的风险(Lajoie等，2013a；Lajoie等，2013b)，但合理设计对于限制搜索空间以创建具有所需功能的活力基因组仍然是必不可少的。因此，基因组工程改造领域可能急需一般设计规则或条件或参数或特征，引出这些规则或条件或参数或特征的方法，以及可用于产生有活力且可构建的基因组的软件。

发明内容

以下呈现了本文所述各个方面的简要概述。该概述并非详尽综览，并且不旨在确定关键或重要元素或描述权利要求的范围。以下概述仅以简化的形式呈现一些概念，作为如下提供的更详细描述的介绍性前序。

本公开的方面提供了用于基于满足一组规则或条件或参数或特征来设计基因组，同时使对生物相关基序的干扰最小化，合成基因组设计，以及测试和验证合成的基因组的方法、算法、计算平台和计算机软件。计算平台可以生成基因组设计并将基因组设计划分为可以合成和/或编辑的单元，其中基因组设计满足用户指定的约束，并使生物活力的概率和可构建能力最大化。可以测试重新设计的基因组的单元或单个组件，并且可以基于识别未通过测试的组件来检测设计故障。可以相应地更新用于基因组设计的规则或条件或参数或特征，并且可以提供对后续迭代的推荐。

本公开的方面涉及由计算平台实施的用于设计基因组的方法。该方法包括基于等位基因列表接收作为计算平台的输入的已知基因组和已知基因组中待替换的等位基因列表的数据，通过计算平台，鉴定已知基因组中各等位基因的出现，通过计算平台，从已知基因组中去除各等位基因的出现，通过计算平台，确定多个等位基因选择，用于替换已知基因组中各等位基因的出现，通过计算平台，基于已知基因组生成基因组设计的多个替代性基因序列，其中各替代性基因序列包含来自多个等位基因选择的不同等位基因选择，通过计算平台，通过为各替代性基因序列中各规则或条件或参数或特征分配评分，应用多个规则或条件或参数或特征于各替代性基因序列，产生对各替代性基因序列的多个规则或条件或参数或特征的评分，通过计算平台，基于多个规则或条件或参数或特征的评分的加权组合，对各替代性基因序列进行评分，并通过计算平台，基于加权的评分选择至少一个替代性基因序列作为基因组设计。

在一些实施方式中，所公开的基因组设计方法可以针对任何类型的基因组实施，包括细菌基因组，支原体基因组，酵母基因组，人类基因组，任何天然存在的生物体的基因组，或任何先前进化或工程改造的生物体的基因组。在其他实施方式中，可以实施公开的基因组设计方法用于设计任何基因组变化，包括去除任何等位基因，去除限制酶的位点，用终止子替换重复基因外回文(REP)序列，删除非必需基因，插入异源基因以扩展功能等。

根据一些方面，提供了一种用于更新基因组设计中规则的方法。该方法包括将基因组设计的一个或多个特征导入至少一个细胞，通过试验测试至少一个细胞的一个或多个特征，从而基于该测试鉴定基因组活力并评估导入至少一个细胞的一个或多个特征的表型，根据用于基因组设计的一个或多个预定义的规则或条件或参数或特征，确定导入至少一个细胞的一个或多个特征预期是有活力的或预期是失败的，基于该确定，更新用于基因组设计的预定义的规则或条件或参数或特征。在一些实施方式中，可以通过利用统计学技术或机器学习算法来更新预定义的规则。

本公开的方面提供了用于测试和修饰基因组设计的计算机实施的方法。该方法包括获得由计算平台生成的已知基因组序列和基因组设计的全部或一部分，确定基因组设计中的一个或多个特征未通过一组预定义规则或条件或参数或特征，预测对基因组设计的修饰以满足预定义的设计目标并增加活力的概率，并测试预测的修饰以生成改善的基因组设计。

本公开的其他方面提供了当未发现计算设计的方案是可行的或赋予所需表型时用于鉴定序列设计的方法。可以组合测试简并DNA序列。可通过筛选或选择鉴定有活力的或表型正确的个体序列。有活力的DNA序列可用于更新或学习新的计算设计规则或条件或参数或特征。

本公开提供了一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中的非编码基序或基因内所有特定有义密码子被改变成替代性密码子。根据一个方面，所述基因是编码蛋白质序列的必需基因或非必需基因。根据一个方面，特定有义密码子的示例与非编码基序重叠。根据一个方面，所述非编码基序是核糖体结合位点基序、mRNA二级结构、内部核糖体停滞位点(pausing site)基序或启动子。根据一个方面，保留了蛋白质序列。根据一个方面，保留了非编码基序。根据一个方面，所述特定有义密码子选自下组：AGG、AGA、AGC、AGU、UUG和UUA。根据一个方面，工程改造的生物体是大肠杆菌。根据一个方面，工程改造的生物体是病毒抗性的或生物容留的(biocontained)。根据一个方面，从所述模板基因组中消除所述特定有义密码子的关联tRNA。根据一个方面，所述重编码的基因组中不存在所述特定有义密码子的关联tRNA。根据一个方面，所述特定有义密码子置于所述工程改造的生物体内，并且被重分配至非标准氨基酸。根据一个方面，替代性密码子是同义密码子。根据一个方面，替代性密码子是非同义密码子。本公开提供了一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中的非编码基序或基因内所有特定有义密码子被改变成替代性密码子。本公开提供了一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中特定密码子被全基因组改变成替代性密码子。本公开提供了一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中的必需基因内所有特定有义密码子被改变成替代性密码子。本公开提供了一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中的必需基因内所有特定有义密码子被改变成替代性密码子。本公开提供了一种包括重编码的基因组的工程改造的生物体，其中，模板基因组中特定密码子被全基因组改变成替代性密码子。本公开提供了一种包括重编码的基因组的工程改造的生物体，所述重编码的基因组通过本文所述的方法设计。本公开提供了一种包括重编码的基因组的工程改造的生物体，其中，特定有义密码子的实例被改变为替代性密码子，从而可以从工程改造的生物体消除特定有义密码子的关联tRNA。本公开提供了一种包括重编码的基因组的工程改造的生物体，其中，特定有义密码子的实例被改变为替代性密码子，从而可以改变特定有义密码子的翻译功能。本公开提供了一种包括重编码的基因组的工程改造的生物体，其中，特定有义密码子的实例被改变为替代性密码子，从而可以消除特定有义密码子的翻译功能。

本公开的某些实施方式的其他特征和优势将在权利要求中以及以下附图和实施方式的说明下更为显而易见。

附图说明

结合附图，通过以下示例性实施方式的详述能够更清楚地理解本发明的上述和其他特征和其他优点，其中：

图1显示了根据一个或多个示例性实施方式的可用于执行软件的示例性计算设备的框图。

图2显示了基因组设计模块的示例性框图，其中可以根据一个或多个示例性实施方式实施本公开的各个方面。

图3显示了根据一个或多个示例性实施方式的用于设计基因组的示例性方法步骤的示例性流程图。

图4显示了预测的重编码的基因组病毒抗性的示例性图表。

图5A-5C显示了57个密码子的大肠杆菌基因组的示例。图5A显示了被划分成87个约50-kb区段的整个重编码的基因组。密码子AGA、AGG、AGC、AGU、UUA、UUG和UAG在计算上被同义替代(中心)取代。其他密码子(例如，UGC)保持不变。颜色编码的直方图表示各区段中7个禁用密码子(forbidden codon)的丰度。图5B显示了非重编码的(wt；大肠杆菌MDS42)基因组相比重编码的(rc)基因组密码子频率。将禁用密码子涂色。图5C显示了通过从头合成构建的基因组中DNA编辑的规模。绘图区域以与亲本基因组相比的修饰的bp数目表示DNA编辑。深灰色代表体内验证的基因组百分比(63％)。Wt，野生型。

图6显示了重编码的大肠杆菌菌株系的谱图，包括基因组重编码的大肠杆菌菌株及其计算和生物学亲本的谱系。常用的实验室菌株以绿色显示。输入正交tRNA非大肠杆菌菌株以棕色显示。之前公开的重编码菌株以蓝色显示。当前研究中构建的菌株以黑色显示。最终的rE.coli-57(重编码的大肠杆菌-57)及其生物容留的(bio-contained)对应物rE.coli-57C以灰色显示。(aaRS＝氨酰基-tRNA合成酶)。

图7显示了大肠杆菌MDS42(深色)和计算设计的rE.coli-57基因组(浅色，标记了频率)的丝氨酸、精氨酸、亮氨酸和终止密码子频率。

图8显示了重编码基因组设计的计算管道的概述。该软件接收基因组模板(GenBank文件)和待替换的密码子列表作为输入。然后应用用户定义的生物和技术规则(A-G)来生成新的重编码的基因组(Genbank文件)。产生合成相容的2-4kb序列。规则A-G在图9A-9G中示出并在表1-2中进一步解释。

图9A-9G显示了计算设计的规则或条件或参数或特征或指南。

图10A-10C显示了用于重编码的基因组验证的实验策略。图10A显示了管道示意图，其包括1)57-密码子基因组的计算设计；2)从头合成2-4kb重叠的重编码片段；3)在低拷贝质粒上再酿酒酵母(S.cerevisiae)(橙色)中组装50-kb区段；4)在大肠杆菌中质粒电穿孔(wt.seg-非重编码的染色体区段)；5)通过卡那霉素盒(Kan)代替对应重编码的区段的染色体序列(例如，wt.seg)，从而使细胞活力仅依赖于重编码基因的表达；6)λ-整合酶介导的attP和attB序列(P-附加型，B-染色体)的重组；6a，b)消除残留载体(参见(图10C))；7)单拷贝整合的重编码区段。attL-attR位点以灰色示出。图10B显示了步骤4-7的PCR分析(泳道：“L”-GeneRuler 1-kb加上梯标；“C”-对照TOP10；数字4-7对应图10A中的示意图)。红色箭头表示PCR引物。图10C显示了Cas9介导的载体消除，其中携带重编码区段的残留载体使用attP特异性的引导RNA(gRNA)靶向用于通过Cas9的消化。在6a)中，重编码的区段的其他拷贝携带完整的attP序列；6b)显示了attP序列的Cas9靶向以消除其他载体拷贝。由于整合的区段不包含attP序列，因此不会切割整合的区段。所有步骤通过PCR分析确认。“gRNA”-引导RNA。

图11显示了rE.coli-57基因组构建的示例。将基因组解析成87个区段，各自大小为约50kb。重头合成所有重编码的区段(绿色)。迄今体内测试总计55个区段(蓝色)，其中44个在低拷贝质粒(红色)上被成功验证所有基因功能，而10个区段被进一步成功降低至所有重编码基因的单拷贝(黄色)。

图12A-12D显示了重编码的菌株的表型分析。在图12A中，重编码的区段在不存在相应的野生型基因的情况下以附加型方式表达。相对非重编码的亲本菌株，显示了倍增时间，图12B显示了区段21中适应性损伤(fitness impairment)的定位，删除染色体基因(灰色)以测试通过重编码的基因(橙色)互补。在删除rpmF-accC操纵子后观察到倍增时间减少。在图12B中框出必需基因。在图12C中，rpmF-accC操纵子的微调导致基因表达增加和倍增时间减少。(橙色：初始启动子。绿色：改善的启动子)。图12D显示了RNA-Seq分析208个重编码的基因(蓝色，区段21、38、44、46、70)。(Wt基因表达以灰色示出。差异表达的重编码基因以红色示出(绝对log2倍数变化＞2，调整的p值＜0.01)。插图：重编码的基因的P值分布)。

图13A-13B显示了表示部分重编码的菌株的适应性的图表。图13A显示了在低拷贝质粒上携带重编码区段的菌株中去除野生型染色体序列之前和之后倍增时间的测量值(参见图10A中的步骤4和5)。图13B显示了去除野生型序列之前和之后以及染色体整合后倍增时间的测量值(参见图10A中的步骤4、5、6和7)。相对倍增时间-修饰的和亲本菌株之间的倍数变化(即，完整的基因组和没有重编码的区段)。

图14A-14B显示了重编码的区段43的转录特征(landscape)，其中显示了区段43内所有基因的表达水平。在非重编码的菌株(TOP10)和染色体缺失后分析基因。针对不同菌株独立制备RNA，并使用PE150 V2试剂盒(亿明达公司(Illumina))在Illumina MiSeq上测序。为了分析差异表达，使用基因组特征(Genomic Features)(Bioconductor)对应基因聚集计数。使用DESeq2软件包(Bioconductor)(Anders等，2010)以全基因组水平对各基因获得的计数进行标准化。图14A显示了重编码的(绿色)和非重编码(紫色)的基因的表达水平。图14B显示了所有重编码的基因的p值和倍数变化。没有发现区段43中的基因显著地差异表达(即，绝对log2倍数变化＞2和调整的p-值＜0.01)。

图15A-15B显示了对致命设计异常进行故障排除(troubleshoot)的示例。在图15A中，在染色体序列完全缺失(Chr-Δseg44.0)后，重编码的区段44(橙色)没有支持细胞活力。通过连续染色体缺失(Chr-Δseg44.1-4.‘X’-不能存活)鉴定起因的重编码的基因(accD)。将必需基因框出。在图15B中，使用λ重组来交换致死的accD序列(accD.起始，重编码的密码子为橙色)与替代性重编码的accD序列(accD.改善，替代性密码子为蓝色)。计算两个序列的mRNA结构和RBS基序强度。Wt以灰色示出。‘accD nuc’：各重编码的密码子中的第一位置。产生的有活力的序列(accD.有活力的)携带来自两个设计的密码子。mRNA和RBS评分-重编码和非重编码密码子的预测的mRNA折叠能量(kcal/mol)(Markham等，2005)或预测的RBS强度(Salis，2011)之间的比率。

图16显示了探索accD重编码的可行替代的示例。为了在重编码的基因accD中定位顽固(recalcitrant)密码子，在天然非重编码的菌株中使用MAGE(多重自动化基因组工程改造，如本领域已知)(Wang等，2009)。特异性地靶向基因的N-末端，其是基因表达破坏最可能的基因座(Plotkin等，2011，Goodman等，2013，等，2016)。基因accD的前五个禁用密码子(核苷酸位置4、25、52、85、100)被在重编码的位置携带简并碱基的两个寡核苷酸靶向。(N表示碱基对A、T、C或G)。WT表示非重编码的accD序列(黑色)，序列1-5是由MAGE实验产生的有活力的基因型(禁用密码子以黑色显示)，accD.起始表示致死的重编码的accD(黄色)，accD.改善表示替代性计算生成的accD序列。右侧示出各序列的预测的mRNA折叠能量评分。各密码子的预测RBS强度评分如下所示(各位置的柱状图柱按以下顺序排列：WT(黑色)；序列1-5(灰色)；accD.起始(黄色)；accD.改善(蓝色))。mRNA评分表示重编码序列与野生型序列的预测的mRNA折叠能量(kcal/mol)之间的比率。RBS评分表示各密码子野生型序列和重编码的序列的预测的RBS评分之间的比率。RBS强度是用作核糖体停滞(pausing)代替物的计算评分。

图17显示了区段44中不同形式的基因accD的序列比对的示例。WT对应非编码的序列。accD.起始对应致死重编码的设计。accD.改善对应通过改善的算法重编码的accD序列。accD.有活力的对应对accD.改善进行重组工程改造以替代accD.起始后获得的有活力的克隆的基因型。

图18A-18B显示了显示具有生物容留(biocontainment)的57-密码子adk基因相容性的示例。为了验证rE.coli-57与生物容留的相容性，在2个不同的生物容留菌株(C321.ΔA.adk_d6和C321.ΔA.adk_d6.tyrS_d8)中应用针对必需基因adk的7-密码子置换。图18A显示了用57-密码子adk修饰的生物容留的菌株保持与其未修饰的亲本相似的适应性。浅灰色-未修饰的生物容留菌株(Mandell等，2015)；深灰色-具有57-密码子adk的生物容留的菌株。图18B显示了具有或没有57-密码子adk的生物容留的菌株的逃逸率。SC培养基：SDS+氯霉素。SCA培养基：SDS+氯霉素+阿拉伯糖。

图19A-19B显示了构建菌株C123的示例。图19A显示了用于产生和分析菌株C123的示例。设计阶段涉及鉴定大肠杆菌(Escherichia coli)必需基因中的123个AGR密码子。设计MAGE寡核苷酸以用同义CGU密码子替换所有这些AGR密码子。构建阶段使用CoS-MAGE将110个AGR密码子转换为CGU。使用多重等位基因特异性菌落PCR(MASC-PCR)筛选所需的重组体。将通过MASC-PSC筛选在96个克隆中未观察到的AGR转化鉴别分类为故障排除。体内排除故障阶段解析不能被容易地转化成CGU的13个密码子。在研究阶段，对菌株C123进行测序、进化和表型分型。图19B显示了C123基因组相对于MG1655的示例性示意图(Chr.0面朝上)。外部标签指示AGR密码子的集合分组。成功的AGR至CGU转换通过径向绿线指示，而13个顽固密码子通过径向红线指示。

图20A-2B显示了尝试的AGR-＞CGU置换的示例性分析。图20A显示了AGR重组频率相对标准化的OFR位置。使用MASC-PCR测定各细胞群96个克隆的AGR重组频率。标准化的ORF位置是AGR密码子的残基编号除以ORF的总长度。使用x轴下方的垂直红线指示失败的AGR到CGU转换。图20B显示了在96孔板读数器上一式三份测定34℃下LBL培养基中C123谱系中菌株的倍增时间。彩色柱指示当确定倍增时间时正在构建何组密码子。将不成功的顽固AGR-＞CGU转换(即，MASC-PCR频率＜1/96)鉴别分类到故障排除管道中。将这13个顽固AGR密码子的优化置换序列纳入最终菌株(右侧灰色部分，用“*”标记)，并测量所得的倍增时间。

图21A-21D显示了4个顽固AGR置换的失败机制的示例。野生型AGR密码子用粗体黑色字母指示，设计缺陷用红色字母指示，优化的置换基因型用绿色字母指示。图21A显示了基因ftsI和murE彼此相互重叠。ftsI中的AGA-＞CGU突变将在murE中导入非保守的Asp3Val突变。murE的氨基酸序列通过使用AGA-＞CGA突变保留。图21B显示了secE基因与RBS重叠，用于下游必需基因nusG。预计AGG-＞CGU突变会使RBS强度降低97％(47)。RBS强度通过使用AGG-＞GAG突变保留。图21C显示了基因ssb在其起始密码子后非常短处具有内部RBS样基序。AGG-＞CGU突变将降低94％的RBS强度。通过使用AGA-＞CGA突变结合以绿色字母指示的其他摆动突变来保留RBS强度。图21D显示了基因rnpA具有限定的mRNA结构，其将通过AGG-＞CGU突变改变。通过使用AGG-＞CGG突变保留原始RNA结构。RBS(绿色)、起始密码子(蓝色)和AGR密码子(红色)在预测的RNA二级结构上用相似颜色的框注释。

图22显示了RBS强度和mRNA结构预测同义突变成功的示例。具体地，图22显示示出预测的RBS强度(y轴，以Salis核糖体结合位点计算器(47)计算)相对mRNA折叠中的偏差(x轴，通过UNAFold计算器(41)于37℃计算)的散点图。小灰点表示大肠杆菌MG1655中的非必需基因，其在前10个或后10个密码子中具有AGR密码子。大灰点表示在必需基因的前10个或后10个密码子中成功的AGR-＞CGU转换。橙色星号表示必需基因中不成功的AGR-＞CGU突变(顽固密码子)。绿色点表示这些顽固密码子的优化方案。基于在该研究中观察到的成功的AGR-＞CGU置换突变，“安全置换区”(蓝色阴影区域)是凭经验定义的mRNA折叠和RBS强度偏差的范围。导致RBS强度或mRNA结构大偏差的大多数不成功的AGR-＞CGU突变(橙色星号)在“安全置换区”外。基因holB和ftsI是2个值得注意的例外，因为它们的最初CGU突变导致重叠必需基因中的氨基酸变化。箭头显示了顽固密码子的优化置换的4个示例(ftsA、folC、rnpA、rpsJ)的RBS强度和/或mRNA结构中偏差减少。

图23显示了14个N-末端AGR密码子的密码子偏好的示例。CRAM(Crispr辅助的MAGE)用于探索位于其CDS前10个密码子内的数个AGR密码子的密码子偏好。简言之，MAGE用于通过使感兴趣的AGR随机化来使群体多样化，然后使用本领域通常所知的使用引导RNA和Cas酶的CRISPR/Cas9系统来消耗亲本(未修饰的)群体，允许穷尽探索在感兴趣位置的所有64个密码子。然后，通过连续传代细胞群并使用Illumina MiSeq测序来监测密码子丰度随时间的变化。左侧y轴(密码子频率)指示特定密码子的相对丰度(堆积面积图)。右侧y轴指示在初始时间点标准化至0.5的任意单位(AU)中mRNA折叠结构(红线)和内部RBS强度(蓝线)的组合偏差。0表示没有与野生型的偏差。横轴指示以小时为单位的实验时间点，在此处获得群体多样性的特定读数。基因bcsB和chpS在本文所述菌株的示例中是非必需的，因此用作不受必要基因压力影响的AGR密码子的对照。

图24显示了这样的示例，其中RBS强度和mRNA结构预测14个N-末端密码子取代的密码子偏好。具体地，图24显示了示出CRAM实验(图23)结果的散点图，各组图表示不同的基因。Y轴表示RBS强度偏差(以Salis核糖体结合位点计算器计算(Salis，2011))，而X轴显示了mRNA折叠能量的偏差(x轴，通过UNAFold计算器(Zadeh等，2011)于37℃计算。中间时间点(t＝72小时，选择显示选择后最大多样性)的密码子丰度由点大小表示。绿色点表示WT密码子。蓝色点表示同义AGR密码子。橙色点表示剩余的58个非同义密码子，其可以导入无活力的氨基酸取代。黑色方块表示在全基因组重编码尝试中观测到的不成功的AGR-＞CGU转化(表3，图19A-19B)。基于在该研究中观察到的成功的AGR-＞CGU置换突变，“安全置换区”(蓝色阴影区域)是凭经验定义的mRNA折叠和RBS强度偏差的范围(图21A-D)。基因bcsB和chpS在所述菌株的示例中是非必需的，因此用作不受必要基因压力影响的AGR密码子的对照。

图25A-25B显示了这样的示例，其中预测AGR密码子的最佳置换将减少需要故障排除的预测的密码子数量。图25A显示了来自构建C123的经验数据。110个AGR密码子被成功地重编码成CGU(绿色)，13个顽固AGR密码子需要排除故障(红色，条纹)。图25B显示了预测的顽固密码子，用于全基因组替换所有AGR密码子。用于该分析的参照基因组具有插入元件和去除的前噬菌体(Umenhoffer等，2010)以限制合成的总核苷酸，留下3181个AGR密码子待替换。该分析预测，以CGU替换所有AGR将导致246个失败的转换(“天然置换(Replacement)”，红色条纹)。然而，将来自这项工作的规则(“通知置换(InformedReplacement)”)应用于鉴定最佳CGN额外地将预测的失败率从10.5％(13/123)降至2.32％(74/3181)，其中只有一小部分会有由于其在非必需基因中的位置而对适应性有直接影响。每个特定的同义CGN以独特的绿色阴影标识，并在其各自的部分内标记。

图26显示了用于替换大肠杆菌(EcM2.1)所有必需基因中各“组”AGR密码子的示例性策略。此处，AGR密码子用空心三角形(各种颜色)标记。首先，使用λ红(lambda Red)在多重重组中将双重可选择tolC盒(双绿线)以及靶向附近(＜500kb)、下游AGR基因座(各种彩色线)的几个寡核苷酸重组到基因组中。在选择tolC插入克隆后，由于tolC和其他附近(＜500kb)、下游AGR基因座处重组事件之间的强连锁，也观察到更高频率正确选择的AGR密码子(实心三角形)。接下来，使用相同的AGR转化寡核苷酸库进行第二次重组，但现在与另一寡核苷酸配对以提早终止(premature stop)破坏tolC ORF，之后应用tolC反选择，再次使群体针对AGR转化富集。第三，多重重组然后固定tolC ORF，再次靶向AGR基因座。应用tolC选择后，通过MASC-PCR测定克隆。假设已经进行了给定组中的大多数转换，那么可以使用单重或多重重组中的修复寡核苷酸去除可选择的标志物(取决于需要)。然后利用tolC反选择来留下无疤痕的染色体并释放tolC盒用于基因组中的其他地方。

图27A-27C显示了顽固AGR-＞CGU突变的3种不同失败案例的示例性示意图。对于各种情况，顶行是初始序列，中间行是AGR-＞CGU突变，第三行一级DNA序列是在故障排除中聚合的优化方案。DNA序列下方的绿色框表示相同顺序的氨基酸序列(顶部是初始，中间结果来自AGR-＞CGU，底部结果来自故障排除方案)。图27A显示了具有下游ORF的必需基因末端的AGR的C末端重叠情况。(i)基因ftsI和murE相互重叠。ftsI中的AGA-＞CGU突变将在murE中导入非保守的Asp3Val突变。murE的氨基酸序列通过使用AGA-＞CGA突变保留。(ii)基因holB和tmk相互重叠。holB中的AGA-＞CGU突变将在tmk中导入非保守的Stop214Cys突变。tmk的氨基酸序列通过使用AGA-＞CGA突变和添加3核苷酸保留。图27B显示了下游基因RBS与必需基因末端的AGR的C末端重叠情况。(i)基因secE与下游必需基因nusG的RBS重叠。AGG-＞CGU突变将降低97％的RBS强度(Salis等，2011)。RBS强度通过使用AGG-＞GAG突变保留。(ii)基因dnaT与下游必需基因dnaC的RBS重叠。AGG-＞CGU突变将降低77％的RBS强度(Salis等，2011)。RBS强度通过使用AGG-＞CGA突变保留。(ii)基因folC与显示在菌株中必不可少的下游基因dedD的RBS重叠，。AGGAGA-＞CGUCGU突变将降低99％％的RBS强度(Salis等，2011)。RBS强度通过使用AGG-＞CGGCGA突变保留。图27C显示了在必需基因起始处导致顽固AGR转化的N-末端RBS基序。(i)基因dnaT具有内部RBS样基序。AGG-＞CGU突变将使RBS强度增加26倍(Salis，2011)。通过使用AGA-＞CGU突变结合其他摆动突变将更好地保留RBS强度。(ii)基因prfB具有内部RBS样基序。该RBS基序涉及prfB中的下游计划移码(Curan，1993)。只有通过去除移码才能实现AGG-＞CGU突变(留下一个不良的RBS样位点)。为了保持移码，需要AGG-＞CGG突变和其他摆动。在这种情况下，维持局部RBS强度(第四行)。(iii)基因ssb具有内部RBS样基序。AGG-＞CGU突变将降低94％RBS强度。通过使用AGA-＞CGA突变结合其他摆动突变将保留RBS强度。

图28显示了之前文献(Li等，2012)对基因ssb、dnaT和prfB的核糖体停滞(pausing)数据的示例。绿线表示各基因的核糖体概况数据。橙色线是在注释的起始密码子的前30个核苷酸内具有AGR密码子的所有基因的平均值。两条垂直的红线之间的区域指示感兴趣的区域(AGR密码子后居中的12bp)。有趣的是，prfB和ssb在AGR密码子后显示出峰，其中没有观察到dnaT的峰。基于Salis计算器的预测，在这3个情况中用CGU替换AGR被认为会破坏核糖体停滞(prfB和ssb)或导入核糖体停滞(dnaT)。

图29显示了通过mRNA折叠变异解释的4个顽固AGR-＞CGU突变的mRNA折叠预测的示例。使用UNAfold对起始密码子上游的100个核苷酸和下游的30nt进行mRNA折叠预测(Markham等，2008)。必须考虑mRNA折叠的形状和折叠能量值以理解AGR-＞CGU转化的失败。“AGR”描述了预测的野生型mRNA，“CGU”是具有AGR-＞CGU突变的mRNA折叠预测(通常未观察到)，而“优化的”对应于体内故障排除之后发现的AGR替代方案的mRNA折叠预测。在各结构下，可视化结构的预测折叠自由能以kcal/mol列出。

图30A-30D显示了基因rnpA的mRNA折叠预测的示例。对于折叠预测，使用UNAfold在rnpA起始位点上游的30个核苷酸和下游的100个核苷酸(Markham等，2008)。图30A显示了具有AGG的野生型rnpA序列(蓝色框中)。图30B显示了具有蓝色框中AGG-＞CGU的野生型rnpA序列(未观察到)。图30C显示了具有蓝色框中AGG-＞CGG的野生型rnpA序列(观察到没有生长速率缺陷)。图30D显示了具有蓝色框中AGG-＞CTG和一个互补突变CCC-＞CCA的野生型rnpA序列，以维持mRNA环(蓝色框中)(观察到，也没有生长速率缺陷)。

图31显示了这样的示例，其中G15A ArgU不影响WT和重编码的大肠杆菌菌株中的表达和氨酰化水平。在野生型大肠杆菌(WT-WT和WT-G15A)中以及在几种生长条件下的最终菌株C123a和b(501和503)中对WT和G15A argU tRNA进行Northern印迹酸-尿素PAGE。对于所有条件和组合，氨酰化水平与野生型相当，这表明尽管突变进入群体，但对填装(charging)水平没有影响。

图32显示了在CRAM实验的24小时时间点处，对各密码子和各基因的许多读数的示例。使用CRAM(Crispr辅助的MAGE)探索数个N-末端AGR密码子的密码子偏好。左侧y轴(读数的数量)指示特定密码子的丰度。x轴指示按字母顺序从AAA到TTT排列的64个可能的密码子。显示了实验时间点24小时。通过亿明达(Illumina)测序分析多样性。基因bcsB和chpS是非必需的，因此用作不受必要基因压力影响的AGR密码子的对照。

图33显示了在CRAM实验的144小时时间点处，对各密码子和各基因的许多读数的示例。使用CRAM(Crispr辅助的MAGE)探索数个N-末端AGR密码子的密码子偏好。左侧y轴(读数的数量)指示特定密码子的丰度。x轴指示按字母顺序从AAA到TTT排列的64种可能的密码子。显示了实验时间点144小时。通过亿明达(Illumina)测序分析多样性。基因bcsB和chpS是非必需的，因此用作不受必要基因压力影响的AGR密码子的对照。

图34显示了各AGR置换策略的许多预测的顽固AGR密码子的示例。已经使用4种置换策略设计了替换所有3222个AGR的4种可能的基因组。首先，将AGR在全基因组上改为CGU(绿色条)。其次，选择AGR同义密码子以使基因起点附近的局部mRNA折叠偏差最小化(橙色条)。第三，选择AGR同义密码子以降低RBS强度偏差(蓝色条)。最终，选择AGR同义密码子以将两者最小化(紫色条)。然后，使用定制软件对这些基因组进行评分并进行比较。将安全置换区外的各偏差预测为一个顽固密码子。

图35显示了相对于MG1655的完全重编码的基因组的代表性图表的示例。外层环包含各AGR密码子(垂直线)所在的集合分组。各条线包含关于故障排除的信息(如果是故障为红色，否则为绿色)和相对重组频率(点)。各内环表示在该组创建期间累积的突变，将各环的活动集突出显示。内环表示菌种构建期间的故障排除步骤。

图36A是描述本公开实施方式的各种方法步骤的示意图。

图36B是描述实验过程的图表，其中通过MAGE在基因组中的不同位置导入替代性密码子。然后将群体保持在对数中期生长中，同时定期取样。将密码子评分相对时间作图，并拟合对数衰减函数，而衰减常数指示适应性。

图36C将实验测量的适应性与预测的GETK评分进行比较。x轴上的各位置对应于测试不同基因组位置的95个子实验中的一个。y轴上的位置指示相对于野生型的适应性，更小的负值指示更差的适应性，而0表示野生型适应性。插图显示了通过良好、平均或差GETK评分分组的测量密码子的适应性。具有良好预测评分的示例具有显著更好的适应性。

图37显示了测试各种基因5’末端附近的近端密码子变化组合的62个子实验结果的总结。设计寡核苷酸文库，其在90聚体寡核苷酸窗口内的密码子位置具有简并性。同时显示了子实验结果，但被具有良好适应性(＜7％适应性缺陷)或不良适应性(＞13％适应性缺陷)的密码子组合分开。针对3个GETK评分度量中的每一个绘制一对良好-不良适应性总结：5′mRNA折叠强度中的变化、上游RBS基序强度中的变化、内部RBS基序强度中的变化。对于每个度量，较低的评分指示预测各基序较少的破坏。

图38显示了用于对照的替代性密码子轨迹。顶行显示了无效对照，其中将同义密码子和早期终止密码子在多个位置处导入非必需基因LacZ和GalK，并在同义密码子和内部终止之间显示相似的效果。底行显示强效对照，其中将同义密码子和内部终止密码子导入必需基因。这些显示了内部终止和同义密码子自荐显著的差异，在某些位置具有更大的密码子偏好动态范围。

图39总结了来自测试在基因内部特定位置(不限于5’末端)的γ变形菌中大肠杆菌系统发育的近邻(phylogenetically-close neighbor)中观察到的非同义和同义突变结果。根据GETK预测某些替代物的内部RBS是否具有破坏性，对这些位置进行了优先排序。内部RBS评分证明是替代性等位基因选择适应性的强预测因子。

图40显示了来自测试通过保守预测的非同义突变的混合的结果。根据(Li等，2012)报道的核糖体停滞峰对这些位置进行优先排序。内部RBS评分证明是替代性等位基因选择适应性的强预测因子。

发明详述

本公开实施方式基于用于基于一组规则或约束或条件或参数或特征来设计基因组的方法、算法和计算机软件，其通常可被称为“约束”，“限制”，“规则”或“规律”或“基于规则的”。本文所述基于规则的基因组设计包括用于实现基因组修饰同时保留DNA中已知生物基序和特征并满足用于合成和组装设计的基因组的各种约束和/或规则或条件或参数或特征的方法和计算机算法。如本文所述，规则或条件或参数或特征可以指生物约束和合成约束，其可以通过对可能的基因组设计的各约束进行评分来应用于合成基因组设计。生物基序可包括必需基因，核糖体结合位点(RBS)基序，mRNA二级结构，内部核糖体停滞位点基序等。在一些实施方式中，所公开的基因组设计方法可以涉及设计遗传元件，包括基因、操纵子、基因组等。

本公开的方面包括基于多重自动化基因组工程改造(MAGE)和靶向测序的组合以及其他技术(如CRISPR辅助的MAGE(CRAM)，与分子倒置探针(MIPS)组合的MAGE等)凭经验推导新规则或约束或条件或参数或特征的方法。本文所述方面还可以包括基于一组约束和/或规则提供关于设计的基因组的信息，并且推荐可以在未来基因组设计中产生表型改善的修饰。最终，本文所公开的基于规则的基因组设计方法和整合的软件有益于在基因组工程改造和生物生产领域中改善效率并降低DNA构建体生产的成本。

在一些情况下，当修饰基因组时可能出现若干挑战，如当选择针对某些等位基因全基因组等位基因替换的同义等位基因时(其可被称为本文所述的“禁用等位基因”或“禁用密码子”)。首先，为了保证生物学活力，保持亲本基因组的基本特征可能是重要的，如GC含量和由主要核苷酸序列编码的调控元件。此外，当禁用等位基因落入重叠基因区域时，可能需要以避免导入非同义突变或破坏调节特征的方式仔细地使这些重叠分裂。最后，可能需要计算设计方案与用于基因组构建的实验工具兼容。

因此，本文所述的是用于基因组重编码软件的基于规则的架构，其中用户指定的规则用作寻找合适的同义等位基因替换的约束。例如，表1和表2提供了可用于基因组设计的规则和约束的进一步示例(例如，用于设计和合成完全重编码的大肠杆菌基因组)。具体而言，表1提供了用于基因组设计规则的生物约束或条件或参数或特征的示例，而表2提供了用于基因组设计规则的合成约束或条件或参数或特征的示例。本文所述基于规则的架构可以实现为计算机模块或软件模块，并且可以扩展到一般应用程序，以及根据特定的需要定制。

在下述各种实施方式中，参考形成本发明一部分的附图，并且其中通过图示的方式显示了可以实践的本公开的各种实施方式。应该理解的是可以使用其他实施方式。本领域技术人员在阅读以下公开后将理解，本文所述各个方面可以体现为利用一个或多个计算机程序产品的计算机化方法、系统、设备或装置。因此，计算机化的方法、系统，设备和装置的各个方面可以采用这样的形式：完全由硬件组成的实施方式，完全由软件组成的实施方式，或组合软件和硬件方面的实施方式。此外，计算机化方法、系统、设备和装置的各个方面可以采取由一个或多个非-瞬时计算机可读存储介质存储的计算机程序产品的形式，该非-瞬时计算机可读存储介质具有包含在存储介质中或上的计算机可读程序密码或指令。可以利用任何合适的计算机可读存储介质，包括硬盘、CD-ROM、光学存储设备、磁存储设备和/或其任何组合。另外，如本文所述的数据或事件的各种信号可以电磁波的形式在源和目的地之间通过诸如金属线、光纤和/或无线传输介质的信号传导介质(例如，空气和/或空间)传输。注意的是，在下述说明书中讨论了元件之间的各种连接。注意的是，这些连接是通用的，除非另有说明，否则可以是直接的或间接的，有线的或无线的，并且说明书并不旨在限制这一方面。

在一个或多个设置中，可以利用计算设备来实施本公开的教导。图1显示了可以根据本公开方面使用的计算设备100的框图，如用于实施基因组设计的方法。该计算设备100是这样的专用计算设备，其经编程和/或配置以进行和执行与本文所述基于规则的基因组设计相关的方面。该计算设备100可以具有基因组设计模块101，其设置成进行方法和执行本文所述的指令。基因组设计模块101可以这样实现，用一个或多个专门设置的处理器和一个或多个存储单元(例如，数据库、RAM、ROM和其他计算机可读介质)，一个或多个专用集成电路(ASIC)和/或其他硬件组件。本公开内容中，基因组设计模块101可以指代这样的软件(例如，计算机程序、应用程序和/或算法)和/或硬件，其被用于接收一个或多个基因组文件或模板(例如，一个或多个注释的GenBank文件)，接收待替换的等位基因列表，通过对基因组序列应用一组生物约束和合成约束来修饰基因组，基于修饰生成新的基因组设计，对基因组设计进行评分，修饰和/或产生用于基因组设计的新规则或约束或条件或参数或特征等。具体地，基因组设计模块101可以是用于基因组重编码软件的基于规则的架构的一部分，其可以进一步扩展到其他应用。基因组设计模块101的一个或多个专门设置的处理器可以与计算设备100的另一个通用处理器103一起或者与其结合运作。在一些实施方式中，基因组设计模块101可以是由一个或多个通用处理前103执行的软件模块。基因组设计模块101和通用处理器103两者都能够控制计算设备100及其相关组件的运作，包括RAM 105、ROM107、输入/输出(I/O)模块109、网络接口111和存储器113。

I/O模块109可以设置成连接输入设备115，如麦克风、小键盘、键盘、触摸屏、手势或其他传感器和/或触笔，计算设备100的用户可以通过该输入设备115提供输入数据。I/O模块109还可以设置成连接显示设备117，如监视器、电视、触摸屏等，并且可以包括图形卡。显示设备117和输入设备115以与计算设备100分离的元件示出，然而它们可以在相同的结构内。使用输入设备115，系统管理员或用户可以添加和/或更新基因组设计模块的各个方面，如与设计基因组有关的生物学和合成限制以及规则或约束或条件或参数或特征，评分，预定义的阈值，范围。输入装置115也可以由用户操作，以便通过基因组设计模块101输入基因组文件和在基因组文件中待修饰的等位基因或序列的列表来设计基因组。

存储器113可以是用于存储计算机可执行指令(例如，软件)的任何计算机可读介质。存储在存储器113中的指令可以使计算设备100执行各种功能。例如，存储器113可以存储由计算设备100使用的软件，如操作系统119和应用程序121，并且可以包括相关的数据库123。

网络接口111允许计算设备100连接网络130并与其通信。网络130可以是任何类型的网络，包括局域网(LAN)和/或广域网(WAN)，如因特网。通过网络130，计算设备100可以与一个或多个计算设备140通信，如膝上型计算机，笔记本电脑，智能电话，个人计算机，服务器等。计算设备140可以包括至少一些与计算设备100相同的组件。在一些实施方式中，计算设备100可以连接到计算设备140以形成“云”计算环境。

网络接口111可以经由通信线路诸如同轴电缆、光纤电缆等连接到网络130，或者使用蜂窝回程或无线标准诸如IEEE 802.11、IEEE 802.15、IEEE 802.16无线地连接到网络130。在一些实施方式中，网络接口可以包括调制解调器。此外，网络接口111可以使用各种协议，包括TCP/IP、以太网、文件传输协议(FTP)、超文本传输协议(HTTP)等，以与其他计算设备140通信。

根据某些方面，计算设备100可以与一个或多个数据库155有接口以访问基因组数据(例如，基因序列)。例如，数据库155可以是外部数据库，其存储核苷酸序列(例如，DNA，mRNA，cDNA等)的集合和相应的蛋白质翻译(例如，GenBank)。在一些情况下，基因组设计模块101可以从数据库155访问和/或接收特定基因组文件或模板，并且基因组设计模块101可以基于一组规则和评分将该文件用于进一步的基因组设计。

图1是计算设备100的示例性实施方式。在一些其他实施方式中，计算设备100可以包括更少或更多的元件。例如，计算设备100可以使用通用处理器103来进行基因组设计模块101的功能，并且因此，可能不包括用于基因组设计模块101的单独的处理器或硬件。

虽然不是必需的，但是本文所述各个方面可以体现为方法、数据处理系统或存储计算机可执行指令的计算机可读介质。例如，设想了存储指令以使处理器进行根据所公开实施方式方面的方法的步骤的计算机可读介质。例如，本文所公开的方法步骤和算法的方面可以在计算设备100上的处理器上执行。这样的处理器可以执行存储在计算机可读介质上的计算机可执行指令。

图2显示了基因组设计模块的示例性框图，其中可以根据一个或多个示例性实施方式实施本公开的各个方面。具体地，图2显示了基因组设计模块201，其可以包括可以用于任何基因组修饰的软件工具，如原核基因组中的全基因组等位基因替换。在一些实施方式中，基因组设计模块201可以与基因组设计模块101相同。

基因组设计模块201可用于多种目的，包括重构基因组，如通过去除整个基因组中特定等位基因的所有出现(允许删除翻译因子和功能性等位基因重新分配)，将操纵子重排到功能相关单元中，去除非必需元件(例如，隐蔽的前噬菌体、移动元件，非必需基因等)，修饰/优化/导入代谢途径等。

如图2中的示例所示，基因组设计模块201可以接收两个输入：基因组模板文件202和等位基因列表204。基因组模板202可以包括已知的基因组序列或特定的基因组(例如，以注释的GenBank文件的形式)。在一些实施方式中，基因组模板202可以包括针对任何类型的基因组的序列，包括细菌基因组，支原体基因组，酵母基因组，人类基因组，任何天然存在的生物体的基因组，或任何先前进化或工程改造的生物的基因组。例如，将大肠杆菌MDS42基因组模板(GenBank：AP012306.1)用作如本文实施例中所述的基因组模板202。等位基因列表204可包括在整个基因组中待同义替换的等位基因列表。等位基因列表204还可以包括编码序列(例如，密码子)和非编码序列(例如，包括tRNA和sRNA的非编码RNA，可以与编码序列重叠或不与其重叠的基因外序列基序，重复的基因外回文(REP)序列等)。在一些实施方式中，等位基因列表204可以代表密码子列表，其可以被称为“禁用密码子”。例如，以下7个密码子位于在下述大肠杆菌实施例中待替换的密码子列表中：AGA、AGG、AGC、AGU、UUG、UUA和UAG。

基因组设计模块201可以接收基因组模板202和等位基因列表204，并自动替换来自基因组中列表的所有等位基因。例如，基因组设计模块201可以在基因组内自动替换来自密码子列表的所有禁用密码子。基因组设计模块201还可以利用评分子模块208，并且基因组设计模块201可以设置成选择这样的同义密码子，所述同义密码子允许所得序列最佳地遵守生物约束205和/或合成约束206。在一些实施方式中，评分子模块208可以被称为评分工具。

表1和2分别提供了生物约束205和合成约束206的示例，其可以应用于基因组设计，以及描述规则，约束或条件或参数或特征，动机，实施和相应的基因组注释。合成约束206可包括可应用于合成基因组设计的一个或多个实验规则或约束或条件或参数或特征。在一些情况下，合成约束206可以是在基因组设计期间待满足的技术特异性的规则或约束或条件或参数或特征和/或供应商。合成约束206的示例可包括(并不限于)用于去除禁用限制酶基序的规则，利用同义互换以使基因组设计中基因内高/低GC含量标准化，如果基因间区域存在高/低GC含量那么保留调节基序，最小化强二级结构，删除可能难以合成的重复元件并用终止子替换它们，如果均聚物运行存在于基因内那么利用同义互换以使一级序列多样化，如果在基因间区域存在均聚物运行那么保留调节基序，划分操纵子以增加合成包含完整离散转录单元的模块化基因组单元的可能性等。

生物约束205可以包括应用于基因组设计以保留生物相关基序的一个或多个规则或约束或条件或参数或特征，其中生物约束205可以作为基因组设计模块201中的密码实现。例如，生物约束205可以包括用于维持RNA(例如，包括但不限于mRNA)的预测二级结构的规则。基因组设计模块201可以计算针对原始序列和修饰的设计序列的预测RNA二级结构，而评分子模块208可以提供两者之间差异的定量表现。在一些实施方式中，通过比较原始序列和设计序列的预测自由能(ΔG)(例如，基于热动力学的二级结构预测)和/或通过计算相对于原始序列，设计序列中不再与相同姐妹核苷酸配对的核苷酸数，基因组设计模块201可以计算预测的mRNA二级结构中的差异。在某些情况下，可以根据所需变化的内容修改规则。例如，对于基因5′末端附近的变化，基因组设计模块201可以计算相对于基因的起始密码子并跨越序列的核苷酸-30至+100的mRNA二级结构。

此外，生物约束205还可以包括用于保留核糖体结合位点(RBS)基序的规则或约束或条件或参数或特征。核糖体结合位点可包含在基因上游(例如，起始密码子上游)约10个碱基处发现的DNA序列基序(例如，核苷酸序列)。基因组设计模块201可以根据对核糖体结合位点的破坏对序列设计进行评分和排序(例如，通过使用评分子模块208)。例如，如果RBS基序存在于重叠基因中(例如，为了支持下游重叠基因的表达)，那么仅允许不会强烈影响RBS强度的突变可能是有益的。在又一示例中，如果输出设计参数与在重叠架构中保留所述RBS基序相冲突，那么可以将编码区分开并插入相似强度的RBS基序以支持下游基因的翻译。

在一些实施方式中，通过利用生物物理模型，如Salis核糖体结合位点计算器(Salis，2001)或通过其他经验RBS强度查找表，基因组设计模块201可以实施RBS基序强度预测。例如，基因组设计模块201的评分子模块208可以使用生物物理模型(例如，来自Salis，2001)计算参照序列和设计序列的预测表达评分。这些评分的比率(或对数比)可以成为该规则或约束或条件或参数或特征破坏的定量表达。

在另一示例中，生物约束205可以包括用于保留内部核糖体停滞位点基序的规则或约束或条件或参数或特征。例如，核糖体结合位点样基序(例如，抗-Shine-Dalgarno序列)的出现可能对应大肠杆菌中的翻译停滞，而这可能表明这些基序具有生物学重要作用(Li等，2012)。因此，基因组设计模块201可以实施利用生物物理模型的设计规则(例如，来自Salis，2001)。如本文实施例中所述，为了对提出的设计变化进行评分，可以假设密码子可以是通过在变化的下游插入正确数量的碱基(例如，大约10)的假想ATG起始密码子而成为RBS的一部分。基于该规则，基因组设计模块201可以在提出的设计改变之前和之后计算预测的RBS强度，惩罚现有内部核糖体停滞位点的破坏，或导入之前不存在的强内部核糖体停滞位点。

生物约束205的其他示例可包括(并不限于)这样的规则或约束或条件或参数或特征，用于确保替代性等位基因或密码子的选择与等位基因或密码子选择全局分布一致(对于重编码和异源表达)，保留基因组设计中已知的序列基序(例如，移码，硒代半胱氨酸插入序列(SECIS)位点，重组位点等)，保留调节基序，如通过保留/调节启动子，增强子和/或转录因子基序，当考虑基因组设计修饰的替代方案时，通过选择与系统发育相关的邻居最接近的序列应用系统发育保护进行基因组设计，通过非破坏性混合(muddle)减少重新设计的区域之间的同源性等。在减少同源性示例中，用于在保留重叠调节基序的同时进行同义密码子交换的最佳解决方案可以是通过制备拷贝来分裂重叠，这可能产生高同源性的相邻区域。可以通过进行同义密码子交换或不破坏任何注释的调节基序的其他变化来打破同源性。这对于产生稳定的基因组可能是重要的，如通过防止可能使重新设计的序列恢复原状的不期望的重组。

此外，基因组设计模块201可以通过使用评分子模块208相对于参照序列(例如，基因组模板)对遗传序列(例如，基因组设计)进行评分来实施生物约束205的规则或约束或条件或参数或特征。在一些实施方式中，评分子模块208可以为基因或基因组各个可能的变化分配定量评分。该评分可以允许对实现所需基因型或表型结果的设计进行排序和优先排序。评分、排名和优先级排序特征可以包括用于基因组设计模块201的软件的核心特征。

例如，对于具有相互排斥选项的设计选择(例如，用于选择等位基因替换)，基因组设计模块201可以允许对设计选择进行排序。在一些实施方式中，可以选择最佳单一设计选择或任何数量的最佳单一设计选择用于合成和测试。在其他实施方式中，可以合成和测试通过预定义的评分阈值的所有设计选择。

另外，基因组设计模块201的评分子模块208可以实现不同类型的评分。例如，较高的评分可以指示与生物约束205(例如，一组规则)较少的偏差并且因此可以是优选的。例如，与约束较少的偏差可以指示在生物验证中更高的预测成功。在另一个示例中，较低的评分可以指示与生物约束205(例如，一组规则)较少的偏差，并且因此可以是优选的。

基因组设计模块201可以进一步实施对遗传设计进行评分，作为来自特定规则或约束或条件或参数或特征的评分的加权组合。例如，在可以将评分解释为与生物基序值的偏差和交换替代性等位基因的遗传设计的情况下，可以根据因子的组合对等位基因各选择进行评分。

也就是说，可能存在多个替代性基因序列，其中各替代性基因序列包含不同的等位基因选择，其可用于替换参照基因组中的一个或多个禁用等位基因。因此，通过为各替代性基因序列中的各规则分配评分，基因组设计模块201可以应用生物约束205的规则或约束或条件或参数或特征。在一些实施方式中，可以根据生物学约束205的组合对各等位基因选择进行评分，包括预测的mRNA二级结构折叠能量的折叠破坏，预测的核糖体结合位点(RBS)亲和力强度的折叠破坏等。

例如，可以使用下述等式计算包含等位基因选择的替代性基因序列的总评分(例如，通过基因组设计模块201)：

评分＝w₁*f(mRNA评分)×w₂*g(RBS评分)

在上述等式中，w₁和w₂表示权重，而f和g表示规则的相应定量的函数。此外，权重w₁和w₂可以根据凭经验确定，并且可以根据合成和测试基因组设计的结果更新或修饰。在其他实施方式中，可以通过手动指定来调整权重，其中用户可以手动指定(例如，输入)每个权重(例如，作为对基因组设计模块201和/或计算设备100的输入)。权重和评分也可以全局应用或者可以是环境特定的(context-specific)。例如，第一组权重可以保持为真，并且可以于基因的5′端附近应用，而不同的权重集或规则或约束或条件或参数或特征的不同组合可以为真，并在基因的不同区域(例如，在基因的中间)中应用。如本文实施例中所述，根据经验发现，下述针对大肠杆菌中密码子选择的权重可以预测成功交换：

评分＝(0.65/1.5411)*mRNA_比率×(0.35/8.4257)*(1+LOG(RBS_比率))

在其他实施方式中，基因组设计模块201可以遵循如图8所示的自动化计算设计管线8。例如，基因组设计模块201可以首先基于基因重叠的所有等位基因列表204和基因组模板202实施禁用等位基因替换，同时考虑生物约束205。然后，基因组设计模块201可以在各基因中独立地应用剩余的禁用等位基因替换，同时考虑生物约束205。例如，对于待替换的各等位基因，可以存在多个同义等位基因取代的选择。相对于定量与野生型序列的偏差(例如二级结构、GC含量、RBS基序强度)的设计规则或约束或条件或参数或特征，设计可能具有最小的破坏性。

然而，在一些实施方式中，详尽比较所有可能的等位基因或密码子修饰可能在计算上是昂贵的，使得迭代变慢。例如，在重编码大肠杆菌的情况下，每个基因大约有17个禁用密码子并且每个密码子有4个可能的同义互换，这导致每个基因有4¹⁷个可能的序列待评估。因此，基因组设计模块201可以识别满足阈值内的各规则或约束或条件或参数或特征的解决方案，而不是鉴定全局最小值。为了鉴定令人满意的解决方案，基因组设计模块201可以鉴定基因组重编码的问题识别并将其表示为使用基于深度优先搜索的算法详细研究的图表。在一些实施方式中，该算法可以称为基于图表搜索的密码子替换算法。

例如，图中的节点可以代表独特的替代性基因序列。图表中的同级截点(Siblingnode)可能在特定密码子的值上不同。节点的子节点可以表示对下一个下游密码子的所有可能的变化。可以为各节点分配对应各规则的评分，包括GC含量，二级结构和密码子稀有度偏差。各评分可以是在特定密码子中心的碱基对窗口(例如，40个碱基对窗口或任何其他数量碱基对的窗口)的各自评分概况中远离野生型序列的偏差的定量测量。只要所有分数低于其各自概况的阈值，就可以扩展和追踪节点。如果某个级别的所有节点都违反了阈值，那么算法(例如，由基因组设计模块201实施)可以回溯到较早的节点并选择不同的分支。如果算法不能找到特定基因的解决方案，那么可以修改阈值约束，并且可以重新开始搜索。在一些实施方式中，基于图表搜索的算法还可以应用于基因组设计的等位基因替换。

在基于图表搜索的密码子(或等位基因)选择后，基因组设计模块201可以应用考虑基因组设计的合成和组装约束的技术规则或约束或条件或参数或特征。例如，基因组设计模块201可以使用合成约束206进一步修饰基因组模板202，以满足DNA供应商的限制，如通过去除特定的限制酶位点和均聚物序列，以及平衡GC含量。最后，基因组设计模块201可以将修饰的基因组分成预定大小的区段(例如，任何数量碱基的区段)。例如，基因组设计模块201可以首先将修饰的基因组分成约50kb的区段，然后将各区段分成2-4kb合成单元或片段。

在其他实施方式中，基因组设计模块201还可以允许用户提供基因组的手动指定的修饰的列表。在一些实施方式中，这些手动指定的修饰(可以称之为杂项设计说明)可以包括来自经验验证或尚未实施通用规则或约束或条件或参数或特征的特殊情况的解决方案。例如，在重编码大肠杆菌的情况下，选择编码使用tRNA^Leu的亮氨酸的UUG密码子作为用于替换整个蛋白质编码基因的7个密码子之一。然而，当相同的密码子(UUG)作为翻译起始密码子出现时，其由tRNAf^Met解码，并且不需要替换。因此，添加了一个杂项设计说明，不是为了替换这些起始密码子，而是为了最小化基因表达水平的扰动。该杂项设计说明可以在软件中实施，以便促进自动更换等位基因。在另一个杂项设计说明中，基于先前的经验测试，为必需基因中的AGR密码子指定了手动取代。在另一个杂项设计说明中，在下述基因中手动重编码与硒代半胱氨酸插入序列(SECIS)位点重叠的密码子：fdhF、fdnG和fdoG。

基因组设计模块201可以最终产生多个替代性基因序列(各自包含不同的密码子或等位基因选择)，并基于加权的评分选择至少一个替代性基因序列作为基因组设计。基因组设计模块201可以输出最终基因组设计210，其可以包括最终基因组设计的文件(例如，GenBank文件)。在一些情况下，基因组设计模块201可以通过将基因组设计210分成连续的区段来鉴定可合成DNA，其中各区段由预定数目的碱基组成。例如，基因组设计模块201还可以产生合成兼容的2-4千碱基(kb)片段的列表，其可以被合成和测试。此外，可以基于来自最终基因组设计210的经验测试来更新生物约束205和合成206的一个或多个规则或约束或条件或参数或特征。

在其他实施方式中，最终基因组涉及可以基于下述之一：具有与典型基因组密码微小修饰的遗传密码，完全重新定义的遗传密码，新型遗传密码或其中密码子映射至非标准氨基酸(nsAA)的遗传密码。

图3显示了根据本公开方面的示例性方法的流程图。具体地，图3显示了这样的示例性方法步骤，用于基于应用生物约束和合成约束和评分设计的规则或约束或条件或参数或特征来设计基因组。图3的步骤可以由计算平台进行，如通过基因组设计模块101、基因组设计模块201、评分子模块208等中的至少一个。作为图3方法的结果，可以选择基因组设计并作为最终设计输出。

图3的方法可以从计算平台的步骤302开始，其接收已知基因组和已知基因组中待替换的等位基因列表的数据。例如，基因组设计模块201可以接收基因组模板202(例如，包括已知的基因组参照序列)和等位基因的列表204作为输入。在步骤304，计算平台可以基于等位基因列表鉴定已知基因组中各等位基因的出现。例如，基因组设计模块201可以找到在基因组序列202中待替换的所有等位基因(例如，禁用密码子)。在步骤306，计算平台可以从已知基因组中去除各等位基因的出现。例如，基因组设计模块201可以在已知基因组202中所有的出现事件中应用等位基因替换或去除。在一些实施方式中，基因组设计模块201可以在已知基因组202中应用禁用密码子替换或去除。

在步骤308，计算平台可以确定多个等位基因选择，用于替换已知基因组中各等位基因的出现。例如，基因组设计模块201可以鉴定存在这样的几个同义等位基因，其可以用于替换已知基因组202中各等位基因的各出现事件。在其他设置中，该方法的步骤306和步骤308可以组合为由基因组设计模块201进行的一个步骤，其中基因组设计模块201可以鉴定从已知基因组中移除的等位基因并确定用于替换各等位基因的出现事件的多个等位基因选择。

在步骤310，计算平台可以基于已知的基因组产生用于基因组设计的多个替代性基因序列。例如，基因组设计模块201可以产生多个替代性基因序列，其中各替代性基因序列包括来自多个同义等位基因选择的不同的等位基因选择。

在步骤312，通过为各替代性序列中各规则或约束或条件或参数或特征赋予评分，计算平台可以将多个规则或约束或条件或参数或特征应用于各替代性基因序列，产生应用于各替代性基因序列的多个规则或约束或条件或参数或特征的评分。例如，基因组设计模块201或评分子模块208可以利用生物约束205和合成约束206的一个或多个规则或约束或条件或参数或特征来计算各规则或约束或条件或参数或特征相对于各等位基因选择的评分。也就是，评分子模块208计算各规则或约束或条件或参数或特征的评分，包括用于保留编码mRNA二级结构，保留核糖体结合位点基序，保留内部核糖体停滞位点基序等。各替代性基因序列(包括不同的等位基因选择)可具有针对各规则或约束或条件或参数或特征计算的评分。

在步骤314，计算平台可以基于多个规则或约束或条件或参数或特征的评分加权组合对各替代性基因序列进行评分。例如，基因组设计模块201可以实施对各替代性基因序列进行评分，作为来自特定规则或约束或条件或参数或特征的评分的加权组合。在步骤316，基于加权的评分，计算平台可以选择至少一个替代性基因序列作为基因组设计。例如，基因组设计模块201可以基于鉴定哪些替代性基因序列包括高于预定阈值的加权评分来选择一个或多个替代性基因序列作为最终基因组设计210。在某些情况下，选择后，基因组设计模块201可以输出最终基因组设计210作为Genbank文件，其可以用于合成和测试。在一些实施方式中，在鉴定哪些替代性基因序列包含高于预定阈值的加权分数后，可以单独地或以文库(例如，序列的混合物)对所鉴定的替代性基因序列进行经验测试。在其他实施方式中，基因组设计模块201可以基于比较规则预测与经验观察到的活力来更新多个规则或约束或条件或参数或特征中的一个或多个规则或约束或条件或参数或特征。例如，可以合成最终基因组设计210并测试其活力，而测试合成的最终基因组设计210(以及来自其他设计的结果)的结果可用于更新和推导用于未来基因组设计的新规则或约束或条件或参数或特征。

在其他实施方式中，可以更新基因组设计中的一个或多个规则或约束或条件或参数或特征，如通过利用计算平台(例如，包括基因组设计模块101或基因组设计模块201的计算设备100)。首先，基因组设计的一个或多个特征可以导入至少一个细胞中。在一些实施方式中，通过使用DNA切割来选择针对野生型基因型和/或促进同源重组，可以将基因组设计的一个或多个特征导入至少一个细胞中。用于将特征导入细胞的其他示例可以包括使用CRISPR/Cas，转录激活因子样效应核酸酶(TALEN)，锌指核酸酶(ZFN)，大范围核酸酶，限制性内切核酸酶等。

在其他实施方式中，可以通过使用重组酶/整合酶将基因组设计的一个或多个特征导入至少一个细胞中。将特征导入细胞的其他示例可以包括使用多重自动化基因组工程改造(MAGE)，λ红重组工程改造，位点特异性重组酶/整合酶(例如Cre，PhiC31，λ整合酶，Flp等)，重组酶介导的盒交换(RMCE)等。在其他实施方式中，将基因组设计的一个或多个特征导入至少一个细胞可以进一步包括基于基因组设计合成部分或全部基因组。此外，在一些实施方式中，可以使用动力学读板器通过生长试验来测试一个或多个特征。在其他实施方式中，可以通过试验测试蛋白质产生来测试一个或多个特征。在其他实施方式中，通过在预定时间点对细胞群的代表性部分进行测序来测试所述一个或多个特征。例如，可以使用下一代测序(NGS)来监测群体中哪些基因型变得富集或消耗，这可以被解释为相对适应性信息。

可以通过试验测试已经导入所述至少一个细胞的一个或多个特征，从而鉴定基因组活力并评估导入所述至少一个细胞的一个或多个特征的表型。在一些实施方式中，可以在载体(例如，质粒、粘粒、噬菌粒、噬菌体或人工染色体)上测试一个或多个特征或将其整合到染色体中。基于测试，根据所述基因组设计的一个或多个预定义的规则或约束或条件或参数或特征，可以确定导入所述至少一个细胞的一个或多个特征预期是有活力的或预期是失败的。基于所述确定，最终可以更新基因组设计的所述预定义的规则或约束或条件或参数或特征。在一些实施方式中，基因组设计的所述一个或多个预定义的规则或约束或条件或参数或特征包括一个或多个表型和基因型参数。

在其他实施方式中，计算平台可以基于统计学技术和机器学习算法更新基因组设计预定义的规则或约束或条件或参数或特征。例如，计算平台可以使用表示学习算法，包括但不限于深度学习来更新和/或自动推断新规则或约束或条件或参数或特征。其他机器学习技术可用于更新和学习新规则或约束或条件或参数或特征，包括监督或无监督学习，半监督学习，强化学习和深度学习。这些可能包括特定技术，如卷积神经网络，随机森林法，隐马尔可夫模型，自编码，玻尔兹曼机器(Boltzmann machine)等。在另一示例中，用户可以利用计算平台基于分析手动定义新规则或约束或条件或参数或特征。

在其他实施方式中，基因组设计可以通过计算平台(例如，包括基因组设计模块101或基因组设计模块201的计算设备100)生成，并且可以通过确定基因组设计中的一个或多个这样的特征由计算平台测试，所述特征未通过一组预定义的规则或约束或条件或参数或功能。在一些实施方式中，所述一组预定义的规则或约束或条件或参数或特征可包括一个或多个表型和基因型参数。计算平台可以获得或访问已知基因组序列的样品(例如，基因组设计所基于的已知基因组序列)，计算平台可以进一步分析已知基因组序列的样品。在一些实施方式中，通过平行测试基因组设计中的个体突变，计算可以确定基因组设计中未通过一组预定义规则或约束或条件或参数或特征的一个或多个特征。在其他实施方式中，通过多重测试基因组设计中的个体突变，计算可以确定基因组设计中未通过一组预定义规则或约束或条件或参数或特征的一个或多个特征。

计算平台可以预测对基因组设计的修饰，可以实施所述对基因组设计的修饰以便满足预定的设计目标并增加活力的可能性。例如，预定的设计目标可以包括可能需要改变的天然基因组的一个或多个特征。天然基因组序列可能是有活力的，然而可能需要测试重编码的基因组序列或基因组设计以确定设计是否仍然是有活力的。在预测修饰后，计算平台可以测试预测的修饰以生成改善的基因组设计。在一些实施方式中，所述基因组设计预测的修饰可以作为混合物测试。在其他实施方式中，所述基因组设计预测的修饰可以使用遗传多样性和选择测试。

上述公开内容总体上描述了本发明。本文所公开的所有参考文献通过引用明确纳入本文。通过参考下述具体实施例可以获得更完整的理解，所述实施例仅出于说明的目的而提供，而非旨在限制本发明的范围。

实施例

出于说明本发明各种实施方式的目的给出下述实施例，而非旨在以任何方式限制本发明。本发明的实施例以及本文所述的方法目前是优选实施方式的代表，是示例性的，而非旨在作为对本发明范围的限制。本领域技术人员将想到包含在由权利要求范围所限定的本公开精神内的本文所述的该改变和其他用途。藉由本公开、附图和所附权利要求，其他等同实施方式将是显而易见的。

实施例I

设计、合成和测试57-密码子基因组

根据一些方面，本文描述了用于设计和构建完全重编码的大肠杆菌的方法。重编码——遗传密码子的重新利用是一种增强具有自然界中不常见的功能的基因组的强大方法。典型遗传密码的简并性允许相同的氨基酸由多个同义密码子编码。自然生物体中64个密码子密码的近似普遍性(Crick，1963)使密码子替换成为合成生物体遗传分离的有力工具。例如，虽然大多数生物体遵循一个共同的64个密码子模板来翻译细胞蛋白，但在几个原核和真核基因组中发现的与这种通用密码的偏差(Ambrogelly等2007，Kano等，1991，Oba等，1991，Macino等，，1979，Ling等2015)已经刺激了对具有扩展遗传密码的合成生物体的探索。

全基因组同义密码子替换提供了构建表现出遗传分离和扩展的生物学功能的独特生物的机制。一旦密码子被全基因组同义替换并且其关联tRNA被消除，基因组重编码的生物体(GRO)可能不再翻译缺失的密码子(Lajoie等，2013b)。因此，实现了遗传分离，因为从天然病毒、质粒和其他生物体获得的DNA将被不正确地翻译，使得重编码的菌株对病毒感染和水平基因转移不敏感(图4)。

例如，图4显示了对于一组大肠杆菌噬菌体，预测将在具有增量未指定的缺失密码子(例如，没有关联翻译)的重编码大肠杆菌菌株中正确翻译的噬菌体基因的百分比。在该实施例中，1密码子＝UAG；3密码子＝UAG、AGG和AGA；和7密码子＝UAG、AGG、AGA、AGC、AGU、UUG和UUA。

基因翻译百分比可通过下述等式计算：

此外，通过重新分配经替换的密码子来纳入作为生物正交反应性、光响应元件或生物物理探针的化学手柄的非标准氨基酸(nsAA)，可以研究具有新化学性质的蛋白质(Liu等，2010)。密码子重新分配还使得建立对环境中不存在的nsAA的代谢依赖性成为可能，增强GRO的生物容留，这可能是环境、工业和医学应用中的主要考虑因素(Marliere，2009，Mandell等，2015，Rovner等，2015)。在一些实施方式中，非标准氨基酸(nsAA)可包含除20种经典蛋白质编码氨基酸之外的任何氨基酸。换言之，nsAA可以包括使用一种或多种密码子纳入的任何氨基酸，所述密码子的分配不同于给定天然生物体的分配。

本文描述了用于全基因组多重密码子替换的方法，其目的是产生与工业应用相关的抗病毒、生物容留的生物体。提出了计算设计，以及2.5Mb(63％)的大肠杆菌基因组实验测试，其中7个不同密码子的所有62,214个情况(对映5.4％的大肠杆菌密码子)已被同义替换(图5A-5C)。新的重编码基因组可以称为如本文所述的rE.coli-57，并且在组装时由经典的64个密码子中的57个组成(图6)。虽然之前已经报告了几种合成基因组(Blight等，2000，Cello等2002，Smith等2003，Chan等2005，Gibson等2008，Gibson等2010，Annaluru等2014))，但是尚未研究这种规模的功能改变的合成基因组(图5C)。

在一些情况下，密码子使用的改变可能影响从翻译起始到蛋白质折叠多个水平的基因表达和细胞适应性(Kudla等，2009，Tuller等，2010，Plotkin等，2011，Goodman等，2013，Zhou等，2013，Quax等，2015，等，2016)。然而，解析密码子选择的个体影响可能仍然困难，而这构成了设计新基因组的障碍。本公开提供了快速原型合成基因组的预测工具和有效技术。

为了解决基因组工程改造目标的前所未有的规模和复杂性，如本文所述计划计算工具，经济的从头合成策略和综合实验验证。例如，替换所有7个密码子所需的修饰数量可能远远超过先前用于全基因组替换UAG密码子的单密码子编辑策略当前的能力(Lajoie等，2013b，Isaacs等，2011)。虽然使用MAGE(Wang等2009)或Cas9(Esvelt等，2013)有可能同时编辑多个等位基因，但这些策略可能涉及使用大量寡核苷酸和RNA引导进行大量的筛选，并可能引入脱靶突变(Wang等，2009)。从头合成允许独立于生物模板的几乎无限数量的修饰。此外，DNA合成急剧下降的成本减少了合成整个基因组的经济障碍。

对于该实施例，选择下述3个密码子进行置换：UAG终止密码子和AGA和AGG精氨酸密码子(图6)。这些密码子也是基因组中最稀有的密码子之一，这最大限度地减少了所需变化的数量。选择其他密码子，从而使它们的反密码子不被内源性氨酰-tRNA合成酶识别为tRNA相同性元件，因此在纳入nsAA时，异源性tRNA不会被经典氨基酸错误加载。最后，为了允许明确的重新分配，选择这样的密码子，对于相同氨基酸，其tRNA不与其他同义密码子重叠。因此，针对下述7个密码子(称为“禁用密码子”)进行替换：AGA(Arg)，AGG(Arg)，AGC(Ser)，AGU(Ser)，UUG(Leu)，UUA(Leu)和UAG(终止)(图5A-5C、图6、图3)。

为了使合成成本最小化并改善基因组稳定性，本文所述的57-密码子基因组基于减少基因组的大肠杆菌菌株MDS42(Pósfai等，2006)。所公开的计算工具使针对所有蛋白质编码基因中所有出现的靶密码子的同义替换自动化，同时满足生物学和技术约束，其中这些约束的示例示于图8-9和表1-2中。具体地，保留了所有编码基因的氨基酸序列，并通过分离携带禁用密码子的重叠基因和通过导入同义密码子以使潜在的重组事件最小化来维持蛋白质合成水平(Chan等，2005，Temme等，2010)。保留剩余密码子的相对密码子使用以满足翻译需求(Yona等，2013)并保留一级核苷酸序列的特征，包括预测的核糖体结合位点(RBS)强度，mRNA二级结构折叠能量和GC含量(Lajoie等，2013b，Lajoie等，2013a)。最后，进行调整以避免来自最终基因组设计的难以合成的序列(例如，去除均聚物，使极端GC含量的区域标准化并减少重复序列)(图9A-9G)。

总之，禁用密码子在整个基因组中均匀分布，平均每个基因约17个密码子变化。提供了成功密码子替换的严格测试的必需基因(Yamazaki等，2008)含有约6.3％的所有禁用密码子(62,214个密码子中的3,903个)。综上，重编码的基因组需要总共148,955个变化来去除所有禁用密码子并调整一级DNA序列以适应设计约束。

设计完成后，将重编码的基因组解析为1,256个合成相容的2-4千碱基(kb)的重叠片段。分别组装和测试87个约50kb的区段(图8)。大约50-kb的区段包含可管理数量的基因，平均每个区段总计约40个基因和约3个必需基因。此外，发现了50-kb可能是在酵母中组装和穿梭进入大肠杆菌的合适尺寸。重要的是，基于先前的研究(Mandell，D.J.等，通过合成蛋白质设计的遗传修饰的基因组的生物留容(Biocontainment of genetically modifiedorganisms by synthetic protein design).Nature.518，55-60(2015).；K.M.Esvelt等，用于RNA引导的基因调节和编辑的正交Cas9蛋白质(Orthogonal Cas9 proteins for RNA-guided gene regulation and editing).Nat.Methods.10，1116-1121(2013))，据估计，各区段将平均包含只有约1个潜在的致命性重编码异常。

图10A-10C概述了该实施例中使用的实验策略。简言之，将各区段组装在酿酒酵母(S.cerevisia)中，并在低拷贝质粒上直接电穿孔到大肠杆菌中。随后删除相应的染色体区段提供了对重编码基因功能的严格测试，因为必需基因中的错误将是致命的。至此，已经对55个区段中2,229个重编码的基因进行了染色体缺失，占整个基因组的63％和必需基因的53％(图11)。此外，发现在这55个区段中的44个区段中的所有重编码的基因在无需任何优化的情况下补充野生型染色体基因。评估这些菌株的生长，并经由RNA-Seq分析基因表达(图12A-12B)。此外，大多数这些菌株在染色体缺失时仅表现出边缘适应性损伤(图12A、图13A-13B)。

此外，RNA-Seq分析208个重编码的基因表明，由于密码子替换，大多数在转录中仅显示微小变化(图14A-14B)。仅发现28个基因显著地差异表达(即，＞2倍变化，p＜0.01)(27个过表达，1个表达不足)。

通过对该区域进行小型染色体缺失直至因果基因定位来测试未能补充整个野生型区段(例如，55个区段中的11个)的重编码的区段。总而言之，发现了13个重编码的必需基因由于同义密码子替换而不能支持细胞活力。在一些实施方式中，这些可以被称为“设计例外”。

选择了区段44作为测试用例，以研究用于解决设计例外的故障排除管道(图15A-15B)。如基因accD所示，首先分析RBS强度和mRNA折叠以明确在基因表达破坏的最可能原因(Plotkin等2017，Goodman等，2013，等，2016)。然后，使用简并MAGE寡核苷酸快速原型化有活力的替代密码子(图16)。为了计算mRNA二级结构评分，使用了感兴趣的密码子周围40bp的滑动窗口。进一步更新该算法以将mRNA二级结构评分为相对于感兴趣的密码子-30-+100个核苷酸的偏斜间隔。值得注意的是，对于前100个核苷酸中的密码子，窗口集中在基因的起始处。

最后，使用更严格的mRNA和RBS评分参数计算产生新的重编码序列(图15A-15B，图17)，并经由λ红重组工程改造的多个循环导入重编码区段。通过后续染色体缺失选择有活力的克隆。

在一些情况下，所有有活力的克隆携带特定的accD序列，其具有改善设计的N末端和初始(致死)设计的C末端，突出了N末端优化对成功同义密码子替换的重要性(Kudla等，2009，Goodman等2013)。此外，由于两个基因形式之间的高度同源性而预期的这种重组事件有效地改组序列并增加有活力的重编码密码子的搜索空间。

为了进一步证实足够的染色体表达，使用λ-整合酶将重编码的片段整合到染色体中。然后使用attP特异性Cas9介导的DNA切割来消融所有未整合的质粒，使每个基因组留下单个整合事件。在片段整合时没有观察到适应性变化(图13A-13B)。最后，所有验证菌株的DNA序列分析可能表明突变体内积累的某种程度，这可能在菌株工程改造中预期。然而，为了实现完整的基因组重编码，可以在最终菌株中使用MAGE校正非致死性逆转和沉默突变。

根据某些方面，对密码子使用和tRNA反密码子的实质性修饰可能导致减少的遗传密码的不稳定性，而没有适当选择以防止密码子逆转(Osawa等1989)；然而，建立对重编码状态的功能依赖性可以使经修饰的基因组稳定并提供严格的生物留容机制(Marliere，2009)。例如，研发了一种生物留容的菌株，其中去除了所有UAG密码子并改变了两个必需基因(adk和tyrS)，从而使得该菌株需要nsAA以保持活力(Mandell等2015)。为了确定最终的rEcoli-57菌株是否将支持类似的生物留容机制，确认adk和tyrS的57-密码子形式将在体内具有功能活性。此外，发现重编码的和nsAA依赖性adk基因具有相同的适应性，并且报道了原始菌株极低的逃逸率(图18A-18B)。

即使在从基因组中除去所有禁用密码子之后，遗传密码可以保持不变，直到去除5个tRNA(argU、argW、serV、leuX、leuZ)和一个释放因子(prfA)的基因。一旦完全重编码rEcoli-57并且去除这些tRNA，可以测试该菌株的新特性，如对病毒的抗性和水平基因转移。此外，可导入正交氨酰-tRNA合成酶/tRNA对，以将遗传密码扩展多达4个nsAA。

最终，如本文所述，由稳健设计软件支持的分级体内验证方法可用于大规模合成基因组构建并完全改变遗传密码。遗传分离并重编码的基因组可以扩展活细胞的合成功能，为生物技术中的广泛应用提供独特的支持。

DNA合成

DNA由工业合作伙伴Gen9公司、SGI-DNA公司，Twist生物科学公司(TwistBiosciences)、Genewiz公司和IDT DNA技术公司(IDT DNA technologies)合成。考虑到合成误差率和QC的限制，合成管道的开发主要是为了降低合成成本和周转时间。Gen9公司合成了大部分DNA，提供了3,960kb的片段，大小从1.2到4.2kb不等。其他的合成由Twist生物科学公司(30kb，片段范围1.4-2.0kb)IDT公司(27kb，片段范围1.0-1.7kb)和Genewiz公司(26kb片段范围12.4-3.0kb)提供。合成了其他的328kb(SGI-DNA公司)、36kb(Twist公司)和6kb(Gen9公司)，但未用于最终的基因组区段合成。

PCR扩增合成的DNA

在组装之前，对所有合成DNA进行PCR扩增和纯化。如下制备30μL的PCR反应；1μL稀释的模板DNA(1μL合成模板DNA(synDNA)，范围为1-5ng/μL，在9μLTE缓冲液中稀释)，2μL引物混合物(各引物10μM，在50μL的TE缓冲液中混合)，15μL的2xSeqAmpDNA聚合酶(克隆泰克实验室有限公司(Clontech Laboratories，Inc.)和15μL的PCR级水。PCR循环：95℃-1分钟、98℃-10秒、60℃-15秒、68℃-2分钟，35个循环。使用1％琼脂糖凝胶分析1μL的PCR产物。使用2x KAPA-HiFi DNA聚合酶(Kapa生物系统公司(Kapa Biosystems))进行不成功PCR的优化。30μL的PCR反应如下；1μL稀释的模板DNA(如上)，2μL的引物混合物(如上)，15μL的2xKAPA-HiFi和12μL的PCR级水。PCR循环：95℃-1分钟、98℃-20秒、60℃-15秒、72℃-2分钟，进行30或35个循环。使用2％E-gel Ex(赛默飞世尔科学有限公司(Thermo FisherScientific Inc.))凝胶纯化PCR产物。

酿酒酵母中的区段组装

对于区段组装，使用修饰的GeneArt高阶遗传组装系统(生命科技公司(LifeTechnologies))。修饰载体pYES1L以包括用于线性化的限制性位点EcoRI和BamHI，并且向载体主链(称为“pYES1L-URA”)添加酿酒酵母尿嘧啶选择性标志物。用两种酶如下进行载体消化：37℃下5小时，然后以65℃进行20分钟酶失活，并以20℃进行30分钟末端修复模块(NEB)处理。纯化线性载体(Zymo DNA清洁与浓缩仪)，并且在使用前在DNA凝胶上验证尺寸。对各组装反应(各组装使用10-15个片段)，将扩增的合成片段(各400ng)混合并纯化，然后加入100ng纯化的线性载体pYES1L-URA。使用SAVANT DNA 120SpeedVac浓缩仪(赛默飞世尔科学有限公司)将载体/片段DNA混合物浓缩至约10μL体积。

根据生产商说明书进行MaV203感受态细胞的转化。将细胞接种在不含色氨酸的CM葡萄糖培养基上，并在30℃下孵育3天。使用菌落PCR筛选区段组装；将酵母菌落在15μL的0.02M NaOH中裂解，在95℃下煮沸5分钟，并在冰上保持5分钟，然后用40μL的ddH2O稀释。使用KAPA2G多重聚合酶(KAPA生物系统公司)和下述PCR条件，将1.5μL的混合物用作多重PCR的模板：98℃-5分钟、98℃-30秒、62℃-30秒、72℃-30秒、72℃-5分钟(32个循环)。仅使用显示阳性PCR的菌落。对于大肠杆菌转化，将细胞在15μL的0.02M NaOH中裂解，用玻璃珠涡旋5分钟并置于冰上。将1.5μL的裂解混合物添加到电感受态TOP10细胞(赛默飞世尔科学公司)中，立即电穿孔(1.8kV、25u法拉第、200Ω)，并在37℃下回收1小时，然后在壮观霉素选择性平板上铺板。

大肠杆菌方法-菌株和培养

除了在BW38028中进行的区段19，22，23，43，44，47之外，将TOP10电感受态大肠杆菌(赛默飞世尔科学公司)用于所有区段的整个过程(Conway等，2014)。将EcM2.1原初菌株用于故障排除(EcM2.1是针对MAGE-大肠杆菌MG1655mutS_mut dnaG_Q576A exoX_mutxonA_mut xseA_mut1255700：：tolQRAΔ(ybhB-bioAB)：：[λcI857N(cro-ea59)：：tetR-bla]优化的菌株)(Gregg等，2014)。

液体培养基由Lennox配方的Lysogeny肉汤(LBL；1％w/v细菌胰蛋白胨、0.5％w/v酵母提取物、0.5％w/v氯化钠)和适当的选择剂：壮观霉素(95μg/mL)、氯霉素(50μg/mL)、卡那霉素(30μg/mL)、羧苄青霉素(50μg/mL)、博莱霉素(10μg/mL)组成。固体培养基由含1.5％w/v Bacto琼脂的高压灭菌的LBL(赛默飞世尔科技公司)组成，根据需要含有相同浓度的抗生素。

质粒转化、λ红重组、MAGE

用pYES1L-URA质粒转化的TOP10和BW38028(Conway等2014)细胞是所有管道菌株工程改造的对象。发现载体pYES1L-URA上重编码区段的平均拷贝数为1.8质粒/基因组。

通过特异性靶向基因组基因座的λ红重组工程改造实现同源染色体非重编码区段序列的敲除。卡那霉素盒缺失的50bp同源臂靶向基因组区段的两侧，其序列不同于携带重编码区段的质粒的两侧。因此，盒特异性地取代了基因组区段。

用pKD78质粒(Datsenko等2000)转化所有细胞以导入λ红重组工程改造机制。使用双链PCR产物或MAGE寡核苷酸，在阿拉伯糖(2ug/ml)中诱导重组酶表达2小时，然后进行DNA转化。值得注意的是，所有卡那霉素盒缺失都是用100ng双链PCR产物进行的。各重组与阴性对照(去离子水)配对以监测卡那霉素选择性能。如前述进行其他重组工程改造实验(Wang等，2009)，并将总寡核苷酸库调整至最大5μM。34℃恢复3小时后，将细胞在许可培养基(permissive media)(对于MAGE)或选择性培养基(例如，卡那霉素)中接种，并在34℃下孵育过夜。对于MAGE实验，接种的细胞量为约103，对质粒转化为约107，且卡那霉素盒缺失为约108。然后通过PCR验证所得菌株。

寡核苷酸，聚合酶链式反应

PCR寡核苷酸和引物的完整表格可以在表3和4中找到。用于重组或用于Sanger测序的PCR产物根据生产商的标准方案用Kapa 2G快速聚合酶扩增。根据之前的方法(Isaacs等，2011)，使用KAPA2G快速多重PCR试剂盒将多重等位基因特异性PCR(mascPCR)用于多重基因分型。mascPCR的引物使用专门为此目的而构建的自动化软件设计。Sanger测序反应通过第三方(Genewiz公司)进行。在pKD78转化、卡那霉素缺失、attP-博莱霉素插入和λ-整合步骤后进行mascPCR筛选。

重编码区段的基因组整合

λ-整合酶用于将重编码的区段质粒整合到大肠杆菌基因组中(Haldimann等，2001)。通过λ-红重组工程改造以及博莱霉素抗性标志物，将attP位点添加到区段载体中。然后，将λ-整合酶在42℃下热诱导6小时，并将细胞接种在壮观霉素和卡那霉素平板上进行筛选。使用attP和attB特异性引物(attB-seq-f：CAG GGA TGC AAA ATA GTG TTG AG；attB-seqr：GA GAA GTC CGC GTG AGG；attP-f：GCGCTAATGCTCTGTTACAG；attP-r：GAAATCAAATAATGATTTTATTTT GACTGA)以及等位基因特异性引物(表4)进行PCR筛选，以鉴定具有正确质粒整合的克隆。

Cas9诱导的载体消除

一旦整合，采取进一步的验证步骤以确保没有其他重编码的区段保留在细胞中。在染色体整合前，所有重编码的区段质粒都含有用于λ整合的attP位点。由于λ-整合在基因组整合到attB位点时修饰了attP序列，因此只有非整合的质粒携带完整的attP序列。使用attP特异性Cas9靶向消除质粒的残留拷贝(图10C)(Esvelt等，2013)，从而使SpCas9蛋白在所有游离(非整合)区段质粒中诱导双链断裂。然后消化线性化的剩余质粒，并且得到的菌株不含质粒。

具体地，构建了含有SpCas9蛋白基因的质粒以及针对未修饰的attP序列的tracrRNA和引导RNA(质粒详情(DS-SPcas，艾德基因公司(Addgene)质粒48645)：cloDF13源，carb，proC启动子，SPcas9，tracrRNA(具有天然启动子和终止子)，J23100启动子，1个重复(添加以促进在间隔区中克隆到同一质粒上)。克隆在间隔区中的引导RNA序列是：TCAGCTTTTTTATACTAAGT。转化质粒并在转化后3小时接种细胞在SpCas9质粒(羧苄青霉素)(约107个细胞)选择下于37℃生长。PCR验证所得细胞是否失去所有attP序列。通过mAsPCR确认携带重编码的区段的整合载体的存在。

适应性测量

如前所述计算菌株倍增时间(Lajoie等，2013b)。简言之，培养物在平底96孔板(150μL LBL，34℃，，300r.p.m.)中生长。在Biotek Eon酶标仪上监测动力学生长(OD600)，以365cpm的定轨摇床在34℃下过夜并以5分钟的间隔。通过t＝Δt X ln(2)/m计算倍增事件，其中Δt＝每个时间点5分钟，而m是ln(OD600)的最大斜率其通过5个连续时间点(20分钟间隔)的滑动窗口的线性回归计算。使用脚本进行分析。

对于所有44个区段观察到的适应性平均变化减少为相对于亲本非重编码的菌株适应性15％。观察到75％的区段(33个区段)相对于野生型的适应性降低＜20％，并且仅观察到4％的区段(2个区段)的适应性降低超过50％(区段21、84)，可以将其称为“实质性减少”。

研究严重适应性损伤

当基因的缺失导致倍增时间相对于亲本减少时，定义了适应性损伤的重编码基因。这表明重编码的基因表达不佳。通过使用λ红重组工程改造逐渐使各染色体基因缺失并通过测量各缺失后的倍增时间来定位受损的基因(图12A-12B)。一旦定位，使用故障排除管道解决适应性受损重编码基因。

首先，以等位基因特异性引物对该基因进行Sanger测序，所述等位基因特异性引物仅在重编码而非野生型序列上引发。分析测序结果以决定两种故障排除路线之一：

1)测序揭示了导致适应性损伤的突变。具体地，这些是指未包括在计算基因组设计中的突变。使用MAGE修复这些突变。

2)相较于计算设计，未在序列中发现突变。假定重编码基因的适应性损伤源于重编码的密码子。

图12A-12B(区段21)显示了故障排除策略。在适应性损伤基因(fabH)和整个操纵子的启动子(位于上游基因yceD中的3个重编码的密码子)中鉴定潜在的有害密码子。在原初菌株(EcM2.1(Gregg等，2014))中以对应原始重编码方案的寡核苷酸进行MAGE(Wang等人，2009)，以寻找适应性受损的密码子。3个MAGE循环后，将细胞接种在许可培养基(约103个细胞)上。用靶向野生型序列的mascPCR引物筛选96个克隆。测量具有纳入的重编码密码子的克隆的倍增时间(约20)。在基因fabH的密码子变化中未观测到显著的适应性损伤。因此，将启动子中的原始设计变化鉴定为麻烦的变化。使用简并MAGE寡核苷酸在原初菌株中进行MAGE。3个MAGE循环后，将细胞接种在许可培养基(10³个细胞)上。鉴定了没有任何禁用密码子的其他重编码设计。

生物容留试验

涉及重编码生物体最有效的生物容留策略(Mandell等，2015)使用经重新设计以适应非标准氨基酸的3种基因：酪氨酰-tRNA合成酶(tyrS)，腺苷酸激酶(adk)和联苯丙氨酰-tRNA合成酶(bipARS)。确认那些重新设计的基因与重编码策略兼容对于测定重编码菌株的生物容留潜力至关重要。

bipARS基因不包含7个禁用密码子中的任一个，因而被认为是兼容的，并且可以被整合到重编码的菌株中。仅含有1个禁用密码子和2个其他调整突变的基因adk经重编码，并在生物留容的菌株中进一步验证。含有多个禁用密码子的基因tyrS在本研究中经成功重编码，但是重编码的tyrS尚未在生物留容策略中进行测试。

本研究中使用的菌株具有下述背景：所有的菌株基于EcNR2(大肠杆菌MG1655ΔmutS：：catΔ(ybhBbioAB)：：[λcI857 N(cro-ea59)：：tetR-bla])。菌株C321[菌株48999(www.addgene.org/48999)]和C321.ΔA[菌株48998(www.addgene.org/48998)]购自艾德基因公司(Addgene)。C321.ΔA.adk_d6和C321.ΔA.adk.d6_tyrS.d8_bipARS.d7基于(Mandell等，2015)。

使用MAGE，将adk中的3个密码子变化包括在生物留容的菌株C321.ΔA.adk.d6(逃逸率约10-6)和adk.d6_tyrS.d8_bipARS.d7(最生物留容的菌株，逃逸率＜10-12)。如上所述评估所得菌株(C321.ΔA.adk.d6.rc和C321.ΔA.adk.d6.rc_tyrS.d8_bipARS.d7)的适应性。如之前所述测量逃逸频率(Mandell等，2015)。简言之，所有菌株都在许可条件下生长，并在后指数期收获。将细胞在LBL中洗涤两次并重悬于LBL中。由许可培养基上10倍连续稀释的3个技术重复的平均值和平均值的标准误差(s.e.m.)计算活力cfu。将3个技术重复接种到非许可培养基上，并监测7天(约107个细胞)。使用两个不同的非许可培养基条件：SC，具有SDS和氯霉素的LBL；和SCA，具有SDS、氯霉素和0.2％阿拉伯糖的LBL。

DNA和RNA测序方法-基因组测序

使用Illustra Bacteria GenomicPrep Spin试剂盒(通用电器公司(GeneralElectrics))从1mL过夜培养物中纯化细菌基因组DNA，并使用Nextera DNA文库制备物(亿明达公司(Illumina))或NebNext文库制备物(新英格兰生物实验室公司(New EnglandBiolabs))构建文库。使用具有PE250 V2试剂盒(亿明达公司)的MiSeq仪器(亿明达公司)对文库进行测序。

SNP判定

使用2个不同的管道分析基因组。将支持单倍体基因组分析的Breseq(Deatherage，2014)用于SNP和短插入缺失判定仅具有一种形式片段的菌株(即重编码或非重编码的野生型)。以默认参数使用Breseq。

RNAseq方法

从携带重编码区段的附加型拷贝和染色体区段缺失的菌株制备RNA。RNA使用RNAprotect(凯杰公司(QIAGEN))稳定，并用miRNeasy试剂盒(凯杰公司)提取。使用riboZero rRNA去除试剂盒(亿明达公司)减少rRNA含量。使用Truseq Stranded mRNA文库试剂盒(亿明达公司)构建RNAseq文库。使用具有PE150 V2试剂盒(亿明达公司)的MiSeq仪器(亿明达公司)对文库进行测序。

RNAseq分析：

使用利用默认参数的BWA(Li等，2009a)映射获自RNAseq实验的FASTQ文件，并使用SAMTOOL(Li等，2009b)处理(索引、分类)以生成各样品的bam文件。使用定制R脚本分析数据。使用文库GenomicFeatures(Bioconductor)将读数与基因关联，并且使用Bioconductor文库DESeq(Anders等，2010)进行差异表达分析。将具有绝对log2倍数变化高于2并调整的p-值小于0.01的基因分类为差异表达的基因。具体地，通过RNA-Seq单独分析部分重编码的菌株和TOP10对照。然后使用DESeq2(Anders等，2010)在各样品中(重编码或未重编码)将各基因的表达与每个其他样品中相同基因的表达(5个独立区段)进行比较，以获得所有样品的代表性基因表达范围。例如，在重编码的区段44(仅为重编码的拷贝)中、在TOP10(仅为野生型拷贝)中和所有其他部分重编码的菌株(其中区段44未重编码，例如仅为基因folC的野生型拷贝)中测量区段44中基因folC的表达水平。

实施例II

密码子选择规则-编辑大肠杆菌中的稀有精氨酸密码子

根据一些方面，本文描述了用于经验验证和更新用于基因组设计的规则或约束或条件或参数或特征的方法。具体地，稀有精氨酸密码子AGA和AGG(AGR)提供了密码子选择的案例研究，其中编码重要转录和翻译特性的AGR与其他同义替代(CGN)不同。已经产生了一种大肠杆菌菌株，其中从所有必需基因中去除了AGR密码子的所有123个实例。110个AGR密码子被同义CGU取代，而其余13个AGR需要多样化以确定可行替代。成功替代密码子倾向于保留局部核糖体结合位点样基序和局部mRNA二级结构，有时以牺牲氨基酸相同性为代价。基于这些观测，根据经验确定了多维“安全替代区(SRZ)”的度量，在其中的替代性密码子可能是有活力的。为了进一步评估必需AGR的同义和非同义替代，实施基于CRISPR/Cas9的方法以消耗野生型等位基因的多样化群体，其中该方法允许全面评估所有64个密码子的适应性影响。使用该方法，通过跟踪14个不同基因中的密码子适应性来确认SRZ的相关性。发现落在SRZ之外的密码子可能会从不断增长的群体中迅速消耗殆尽。

最终，遗传密码具有固有的冗余(Crick，1963)，最多六个不同的密码子指定单个氨基酸。这意味着同义密码子是等价的(Kimura，1977)，然而，大多数原核生物和许多真核生物(dos Reis等，2004；Newton和Wernisch，2014)显示出对某些密码子超过同义替代物的强烈偏好(Hershberg和Petrov，2008；Plotkin和Kudla，2011)。虽然不同的物种已经进化为优选不同的密码子，但密码子偏倚在各物种中基本上是一致的(Hershberg和Petrov，2008)。然而，在给定的基因组内，密码子偏倚根据密码子位置在各个基因之间不同，这表明密码子选择具有功能性后果。例如，稀有密码子在必需基因的起点富集(Chen和Inouye，1990；Chen和Inouye，1994)，而密码子使用强烈地影响蛋白质水平(Kane，1995；Sharp和Li，1987；Sharp等，1993)，特别是在N末端(Goodman等，2013)。这表明密码子使用在调节蛋白质表达中起着知之甚少的作用。

一些假设试图解释密码子使用如何介导这种作用，包括但不限于：促进核糖体在翻译早期停滞以优化蛋白质折叠(Zhou等，2013)，调整mRNA二级结构以优化翻译起始或调整mRNA降解，通过与tRNA水平共同进化来预防核糖体停止(Plotkin和Kudla，2011)，为适当核糖体间隔和有效翻译提供“翻译斜坡”(Tuller等，2010)，或为操纵子中各基因的独立对照提供一层翻译调控(Li，2015)。另外，密码子使用可能影响翻译保真度(Hooper和Berg，2000)，并且可以通过对解码tRNA库的精细对照来调整蛋白质组(Gingold等，2014)。虽然Quax等提供了生物学如何选择密码子的优秀综述，但是缺乏对全基因组中密码子选择的系统和详尽研究(Quax等，2015)。研究仅开始探讨密码子选择在相对少量基因中的作用(Goodman等，2013；Isaacs等，2011；Kudla等，2009；Lajoie等，2013a；Li等，2012)。此外，尽管已经从大肠杆菌完全去除UAG终止密码子(Lajoie 2013a)，并且已模糊地重新分配AGG密码子(Lee等，2015；Mukai等，2015；Zeng等，2014)，但是没有报道试图全基因组完全取代有义密码子。先前的工作已经确定了存在对这种替换的未知约束(Isaacs等，2011；Lajoie等，2013a；Lajoie等，2013b)。试图在单一菌株中替换所有必需的密码子将为这些约束提供有价值的见解。另外，虽然已知某些基因中存在某些限制因素，但尚未尝试在基因组范围内探索同义密码子的分解。

如本文实施例中所述，本研究选择稀有的精氨酸密码子AGA和AGG(根据IUPAC惯例包含AGR)，因为文献表明它们是最难替代的密码子并且它们与核糖体结合序列的相似性强调了重要的非编码功能(Chen和Inouye，1990，Rosenberg等，1993，Spanjaard等，1988，Spanjaard等，1990，Bonekamp等，1985。此外，它们的稀疏用法(大肠杆菌MG1655的必需基因中的123个实例，和整个基因组中的4228个实例(表3)使替换必需基因中的所有AGR实例成为易处理的目标，必需基因作为严格的测试集用于鉴定密码子替换的任何适应性影响(Baba等，2006)。此外，最近的工作已经证明难以将一些AGR密码子直接变异为其他同义密码子(Zeng等，2014)，尽管作者没有解释失败的机制或报告成功实施替代设计。通过用同义CGU密码子将其替换，试图从必需基因中去除所有123个AGR密码子情况。选择CGU以最大程度地破坏一级核酸序列(AGR-＞CGU)。据推测，该策略将最大化设计缺陷，从而揭示用于以重新分配的遗传密码设计基因组的规则。重要的是，没有先验地检查个体密码子靶标，以确保对设计缺陷进行无偏见的经验搜索。

为了构建这种修饰的基因组，使用了共选多重自动化基因组工程改造(CoS-MAGE)(Carr等，2012，Gregg等，2014)来产生大肠杆菌菌株(C123)，其中所有123个AGR密码子从其必需基因中去除(图19A)。CoS-MAGE利用λ红介导的重组(Yu等，2000，Ellis等，2001)并利用可选择等位基因(例如，tolC)中突变与附近感兴趣的编辑(例如，AGR转换)之间的连锁，从而富集了具有这些编辑的细胞(图S1)。为了简化C123构建，选择用大肠杆菌菌株EcM2.1开始，其中该菌株先前针对有效的λ红介导的基因组工程改造进行了优化(Gregg等，2014，Laioie等，2012)。在EcM2.1上使用CoS-MAGE相比非优化菌株中的MAGE将等位基因置换频率提高了10倍，但当所有编辑在相同的复制弧(replichore)上并且在可选择的等位基因的500千碱基内时表现最佳(Gregg等，2014)。为了满足这一要求，将基因组分成12个区段，其中包含必需基因中的所有123个AGR密码子。将tolC盒在基因组周围移动以使各区段中的CoS-MAGE成为可能，从而允许我们在体内大细胞群中快速原型化各组AGR-＞CGU突变。必需基因中的123个AGR密码子中，110个可以通过这个过程被改变为CGU(图1)，这揭示了大多数必需基因密码子使用相当大的灵活性。等位基因替换(在这种情况下，AGR-＞CGU密码子替换)频率在这110个允许密码子中变化很大，在基因中AGR密码子标准化位置和等位基因替换频率之间没有明确的相关性(图2A)。

未观察到剩余的13个AGR-＞CGU突变，这表明密码子替换频率低于细菌群体的1％的检测极限。假定这些“顽固密码子”是有害的或非重组发生的，并将其鉴别分类到故障排除管道中以进行进一步分析(图19A-B)。有趣的是，除了13个顽固密码子中的1个之外的所有顽固密码子共同定位于它们各自基因的末端附近，这表明这些位置处密码子选择的重要性——7个处于起始密码子下游最多30nt，而5个处于终止密码子上游最多30个核苷酸(nt)(图20A，下图)。检查这些失败的AGR-＞CGU突变是否存在明显的设计错误。例如，ftsI_AGA1759与murE的第二和第三密码子重叠，所述murE是一种必需基因，导入可能损害适应性的错义突变(murE D3V)。用CGA替换ftsI_AGA成功地替代了禁用AGA密码子，同时保留了MurE的一级氨基酸序列，对适应性的影响最小(图21A)。类似地，holB_AGA4与上游必需基因tmk重叠，而用CGU替换AGA将tmk终止密码子转化成Cys，向tmk的C末端添加了14个氨基酸。虽然一些C末端延伸在大肠杆菌中具有良好的耐受性(Ohtake等，2012)，但是延伸tmk似乎是有害的。通过将包含终止密码子的3个核苷酸插入holB起始密码子之前，holB_AGA成功用CGC替换。这减少了tmk/holB重叠，并保留了两个基因的编码序列(图27A)。

鉴定剩余四个C末端失败的精细重叠错误，其中确定的是，AGR-＞CGU突变破坏了属于下游基因的RBS基序(nusG的secE_AGG376，dnaC的dnaT_AGA532和dedD的folC_AGAAGG1249，1252，后者构成两个密码子)。nusG和dnaC两者都是必需的，这表明在secE和dnaT中用CGU替换AGR致命地破坏了翻译起始和因此的重叠nusG和dnaC的表达(图21B和图27B)。虽然dedD注释为非必需(Baba，等，2006)，但是假设的是，在folC中用CGU替换AGR会破坏对EcM2.1(大肠杆菌K-12)存活至关重要的dedD的一部分。支持这一假设的是，未被Baba等(Baba，等，2006)删除的dedD的29个核苷酸没有被删除并且也没有与folC重叠，这表明该序列在所述菌株中是必需的。这种转换的意外失败凸显了即使在良好注释的生物体中预测设计缺陷的挑战。与这样的观测结果一致，破坏这些RBS基序是失败的AGR-＞CGU转化的原因，通过选择保存RBS强度的密码子，包括secE的非同义(Arg-＞Gly)转换克服了所有三种设计缺陷。

这些知识以及先前观测到的核糖体在翻译期间当其在编码DNA序列中遇到核糖体结合位点基序时的核糖体停滞(Li等，2012)为N端AGR-＞CGU失败提供了关键见解。如本文所述，RBS样基序可以指RBS基序(其通常可以在起始密码子之前出现)和类似的基序(其可以在开放阅读框中出现，但不一定引起翻译起始)。3个N-末端失败(ssb_AGA10、dnaT_AGA10和prfB_AGG64)具有通过CGU替换创建或破坏的RBS样基序。虽然prfB_AGG64是核糖体结合位点基序的一部分，其触发prfB中必需的移码突变(Lajoie等，2013a，Craigen等，1985，Curran等，1993)，未曾报道过停滞基序介导的ssb和dnaT表达调节。然而，核糖体停滞数据(Li等，2012)显示核糖体占据峰直接存在于ssb的AGR密码子下游并且不存在于dnaT的AGR密码子下游(图28)；同时，预测不成功的CGU突变将削弱prfB和ssb的RBS样基序并增强dnaT的RBS样基序(图21C和图27C)，表明RBS占有率和细胞适应性之间的函数关系。

与该假设一致，相较于由不成功的AGR-＞CGU突变(图22，y轴和橙色星号与绿点之间的比较)引起的大的预测偏差，来自故障排除管道的成功的密码子替换保留了预测的RBS强度。有趣的是，以CGN或NNN替换dnaT_AGA10的尝试失败了——仅有通过操纵周围密码子的摆动位置并保留精氨酸氨基酸可以替换dnaT_AGA10(图27C)。这些摆动变体似乎补偿了由AGA-＞CGU突变所导致的RBS强度增加，具有摆动变体的RBS基序强度偏离了未修饰序列8倍，而AGA-＞CGU的RBS基序强度单独偏离27倍。

为了更好地理解几个未显示出相当大的RBS强度偏差的剩余N末端失败案例(rnpA_AGG22、ftsA_AGA19、frr_AGA16和rpsJ_AGA298)，检查了蛋白质表达的其他潜在核酸决定簇。基于观测结果，开放阅读框架(ORF)5′端附近的mRNA二级结构强烈地影响蛋白质表达(Goodman等，2013)，发现了AGR-＞CGU突变经常改变靶基因起始密码子附近的mRNA的结构和预测的折叠能量(图21D和图29)。相较于CGU，获自简并MAGE寡核苷酸的成功的密码子替换减少了mRNA二级结构的破坏(图22，绿色点)。例如，rnpA在其RBS和起始密码子附近具有预测的mRNA环，其依赖于AGG密码子的两个鸟嘌呤与附近胞嘧啶之间的碱基配对(图21D，图30A)。重要的是，在所有尝试的rnpA AGG22CGN突变中仅观察到AGG22CGG，并且仅有CGG保留该mRNA结构的事实表明它在生理学上是重要的(图21D，图30B-30C)。为了对此支持，只有当茎中的互补核苷酸从CC(具有AGG的碱基对)变为CA(具有CUG的碱基对)时，rnpAAGG22CUG突变(Arg-＞Leu)被成功导入，从而保留天然RNA结构(图30D)同时改变RBS基序强度和氨基酸相同性。

相较于不成功的CGU突变相比，所有4个优化的基因序列的分析显示出计算的mRNA折叠能量中的偏差降低(用UNAFold(Markham等，2008)计算)(图22，x轴橙色星号和绿色点)。类似地，通过CGU突变强烈改变这些基因的预测的mRNA结构(以不同mRNA折叠软件计算：NUPACK(Zadeh等，2011))并在经验优化的方案中校正(图29)。

对这13个顽固密码子进行故障排除后发现，导致与自然mRNA折叠能量或RBS强度大偏差的突变与失败的密码子取代相关。通过计算所有尝试的AG-＞CGU突变的这两个度量，根据经验定义安全置换区(SRZ)，其中的大多数CGU突变是可耐受的(图22，阴影区域)。SRZ被定义为最大的多维空间，其不包含mRNA折叠能量或RBS强度相关的顽固性AGR-＞CGU突变(图22，红色星号)。它包含相对于天然密码子小于10％的mRNA折叠能量的偏差和相对于天然密码子小于半对数的RBS样基序评分的偏差，提供了密码子取代的定量指导。值得注意的是，用于替换13个顽固密码子的优化解决方案总是表现出对这两个参数中的至少一个比突变到CGU时观察的偏差减少的偏差。此外，13种顽固密码子的解决方案几乎完全与经验定义的SRZ重叠。这些结果表明计算预测mRNA折叠能量和RBS强度可以用作预测设计的突变是否可能是致命的第一近似值。通过开发计算机启发式(heuristics)方法来预测有问题的等位基因反过来减少了体内基因组工程改造所需的搜索空间，从而使创建保持活力的完全改变的基因组成为可能。

一旦鉴定出所有13个顽固密码子的活力替换序列，将成功的110CGU转换与13个优化的密码子取代组合以产生菌株C123，其具有从所有其注释的必需基因中去除的所有123个AGR密码子。然后，对C123进行测序以确认AGR去除并使用Millstone进行分析，所述Millstone是公开可用的基因组重测序分析管道(Goodman等，2015)。在必需基因pssA和cca中观察到2个自发的AAG(Lys)到AGG(Arg)突变。虽然尝试将这些突变恢复到AAG是不成功的——可能暗示功能性补偿——使用简并MAGE寡核苷酸将它们替换成pssA中的CCG(Pro)和cca中的CAG(Gln)。得到的菌株C123a是在其注释的必需基因中完全缺乏AGR密码子的第一个菌株。该菌株提供了强有力的证据，即AGR密码子可以从大肠杆菌基因组中完全去除，从而允许明确重新分配AGR翻译功能。

动力学生长分析表明，在96孔读板器中34℃下Lysogeny肉汤(LB)中，倍增时间从EcM2.1中的52.4(+/-2.6)分钟(0个AGR密码子改变)增加到C123a中的67(+/-1.5)分钟(必需基因中的123个AGR密码子改变)。值得注意的是，在C123菌株构建期间，适应性显着变化(图20B)。这可能归因于密码子去优化(AGR-＞CGU)和补偿性自发突变以减轻错配修复缺陷(mutS-)背景中的适应性缺陷。总体而言，C123a的适应性降低可能是由于在菌株构建过程中发生的中靶(AGR-＞CGU)或脱靶(自发突变)所导致的。就这样，mutS失活同时是一种有用的进化工具和责任。最终的基因组序列分析显示，与123个所需AGR转化一起，C123a具有在EcM2.1亲本菌株中未发现的419个自发的非同义突变(图35)。特别感兴趣的是位于tRNAArg(argU)D臂的突变argU_G15A，其在AGR组4的CoS-MAGE期间出现。假设的是argU_G15A补偿了增加的CGU需求和减少的AGR需求，但没有观察到与恢复C123中的这种突变相关的直接适应性成本，并且argU_G15A不影响体外氨酰化效率或体内氨酰基-tRNA库(图31)。与Mukai等和Baba等(Mukai等，2015，Baba，等，2006)相一致，argW(tRNAArgCCU；仅解码AGG)在C123a中是可有可无的，因为其可以被argU(tRNAArgUCU；解码AGG和AGA两者)补充。然而，argU是可以解码AGA的唯一大肠杆菌tRNA，并且在C123a中仍然是必需的，可能是因为在蛋白质组的其余部分需要AGR密码子来翻译(Lajoie等，2013b)。

为了评估从所有已知的必需基因中去除所有AGR密码子后C123a的遗传稳定性，C123a用于传代78天(640代)以测试AGR密码子是否会复发和/或自发性突变是否会改善适应性。78天后，在测序的群体中没有检测到其他AGR密码子，并且分离的克隆的倍增时间比C123a快22％至慢22％(n＝60)。为了更深入地了解局部RBS强度和mRNA折叠如何影响密码子选择，进行了进化实验以检查各AGR密码子处所有64个可能的密码子取代的竞争适应性。虽然MAGE是研究体内有活力的基因组修饰的一种有效方法，有趣的是映射与不太优选的密码子选择相关的适应性成本，要求密码子随机化耗尽亲本基因型，其被假设处于或接近全局适应性最大值。为此，研发了一种称为CRAM的方法(Crispr协助的MAGE(Crispr-Assisted-MAGE)。首先，设计这样的寡核苷酸，不仅将其靶AGR密码子改变为NNN，而且还在将破坏20bp CRISPR靶基因座的至少50nt下游产生几个同义变化。MAGE用于用NNN平行地替换各AGR，并且将CRISPR/cas9用于消耗具有亲本基因型的细胞群。该方法允许详尽探索密码子空间，包括原始密码子，但没有父母基因型的优势。CRAM后，将群体每24小时以1：100传代6天，并在各传代之前使用亿明达(Illumina)测序进行取样(图23)。

CRAM后24小时的测序显示存在所有密码子(包括终止密码子)(图32)，验证该方法作为在群体中产生大量多样性的技术。以含有下游序列改变的等位基因特异性引物通过PCR扩增用于进一步分析的所有序列。这些群体随后的传代揭示了许多基因特异性趋势(图23、图33、图33)。值得注意的是，需要排除故障的所有密码子(dnaT_AGA10、ftsA_AGA19、frr_AGA16、rnpA_AGG22)趋同至它们的野生型AGR密码子，表明原始密码子是全局优化的。对于其中替代密码子替换了原始AGR的所有情况，计算这些替代密码子的mRNA折叠能量和局部RBS强度中的预测偏差(作为核糖体停滞的代表)，并将这些度量与该位置处密码子分布的进化进行比较。落入推测的SRZ内的序列部分也由图22计算。CRAM最初导入了大量多样性的mRNA折叠能量和RBS强度，但是在许多情况下这些基因型迅速趋同至与亲本AGR值相似的参数(图23，覆盖图)。几天生长后，强烈破坏基因起点附近预测的mRNA折叠和内部RBS强度的密码子是不利的，这表明这些度量可用于计算机预测最佳密码子取代。相反，非必需的对照基因bcsB和chpS不会趋同至保存RNA结构或RBS强度的密码子，这支持了RNA二级结构中观察到的保守性和RBS强度与必需基因生物学相关的结论。有趣的是，tilS_AGA19对这种作用不太敏感，这表明在特定位置的密码子选择不在选择之下。此外，ipsG群体的平均内部RBS强度趋同至亲本AGR值，而mRNA折叠能量平均值没有，这表明基因中的这个位置可能对RBS破坏而不是mRNA折叠更敏感。基因lptF遵循相反的趋势。

有趣的是，几个基因(lptF、ipsG、tilS、gyrA和rimN)优选将氨基酸相同性从Arg改变为Pro、Lys或Glu的密码子，这表明非编码的功能胜过这些位置的氨基酸相同性。重要的是，必需基因中所有成功的密码子取代都落在SRZ内(图24)，基于所有64个密码子无偏的测试验证了启发式。同时非必需的控制基因chpS表现出对SRZ的依赖性较小。基于这些观察结果，虽然全局密码子偏倚可能受到tRNA有效性的影响(Plotkin等，2011，Novoa等，2012，Ikemura，1985)，但给定位置处的密码子选择可以由至少3个参数定义：(1)氨基酸序列，(2)RBS和起始密码子附近的mRNA结构(3)RBS介导的停滞。在一些情况下，这些参数的子集可能未被选择，导致进化序列仅趋向于度量的子集。在其他情况下，所有度量可能都很重要，但一级核酸序列可能不具有均衡地适应所有度量的灵活性，这导致损害细胞适应性的密码子取代。

这些规则用于计算机生成基因组草图，所有AGR密码子在全基因组中被替换，相较于最初的替换策略，预测的设计缺陷(例如，具有SRZ外度量的同义密码子)的数量减少了近四倍(图25A-25B，图34)。此外，预测顽固密码子提供了可以使用MAGE在体内快速测试的假设。然后可以在重新设计的基因组中一起实施成功的替换序列。预计这些规则会增加产生完全没有AGR密码子的基因组的易处理性，这可以用于明确地重新分配AGR翻译功能。

从大肠杆菌必需基因中全面去除所有AGR密码子揭示了13个设计缺陷，其可以通过编码DNA序列、RBS介导的翻译起始/停滞或mRNA结构中的破坏来解释。虽然已经报道了各因子的重要性，但本文所述方法系统地探索它们影响基因组功能的程度和频率。此外，本文所述方法建立了定量指南以减少设计无活力基因组的机会。尽管其他因素无疑会影响基因组功能，但这些指南捕获了所有失败的同义密码子替换的这一事实(图22)表明所公开的基因组设计指南提供了对有活力的基因组一级序列可接受修饰的强烈的第一近似值。这些设计规则与廉价的DNA合成相结合将有助于构建具有有用特性的完全重新设计的基因组，如生物防护，病毒抗性和扩展的氨基酸库(Lajoie等，2015)。

材料和方法：

使用的菌株和培养方法：

用于该工作的菌株源自EcM2.1(大肠杆菌MG1655mutS_mut dnaG_Q576AexoX_mutxonA_mut xseA_mut 1255700：：tolQRAΔ(ybhB-bioAB)：：[λcI857 N(cro-ea59)：：tetR-bla])(Carr等，2012)。液体培养基由Lennox配方的Lysogeny肉汤(LBL；1％w/v细菌胰蛋白胨、0.5％w/v酵母提取物、0.5％w/v氯化钠)(Lennox，1955)和适当的选择剂组成：羧苄青霉素(50μg/mL)和SDS(0.005％w/v)。对于tolC反选择，大肠杆菌素E1(colE1)以1∶100稀释由内部纯化的(Schwartz等，1971)使用，测量14.4μg蛋白质/μL(Isaacs等，2011，Lajoie等，2013b)，并且以64μg/mL使用万古霉素。固体培养基由以1.5％w/v Bacto琼脂高压灭菌的LBL(赛默飞世尔科技公司)组成，含有相同浓度的抗生素。如前所述产生ColE1琼脂平板(Gregg等，2014)。在Biotek Eon酶标仪上确定倍增时间，以365cpm的定轨摇床在34℃下过夜，并使用matlab脚本进行分析。

寡核苷酸，聚合酶链式反应和等温组装

用于重组或用于Sanger测序的PCR产物根据生产商的标准方案用Kapa 2G Fast聚合酶扩增。根据之前的方法(Isaacs等，2011，Mosberg等，2012)，使用KAPA2G快速多重PCR试剂盒将多重等位基因特异性PCR(mascPCR)用于AGR替换事件的多重基因分型。Sanger测序反应通过第三方(Genewiz公司)进行。由使用PCR(Yaung等，2014)线性化的质粒主链和由IDT公司的Gblocks中获得的CRISPR/PAM序列使用50℃下的等温组装60分钟进行CRAM质粒组装(Gisbon等，2009)。

λ红重组、MAGE和Cos-MAGE

λ红重组工程改造、MAGE和CoS-MAGE如前述进行(Gregg等，2014，Wang等，2009)。在单重(singleplex)重组中，MAGE寡核苷酸以1μM使用，而共选择寡核苷酸为0.2μM，并且多重重组(7-14寡核苷酸)中的总寡核苷酸库(oligopool)为5μM。当重组双链PCR产物(例如，tolC插入)时，使用100ng的双链PCR产物。由于CoS-MAGE与tolC选择一起用于替换靶AGR密码子，因此各重组与仅与水重组的对照配对，以监测tolC选择性能。各寡核苷酸组的标准CoS-MAGE方案是插入tolC，灭活tolC，重新激活tolC，并删除tolC。在tolC插入、灭活和缺失步骤处进行MascPCR筛选。所有λ红重组后进行在3mL LBL中的回收，然后进行SDS选择(tolC插入、tolC活化)或ColE1反选择(tolC灭活、tolC缺失)，对其如先前所述进行(Gregg等，2014)。

一般AGR替换策略

通过根据两个互补资源(Baba等，2006，Hashimoto等，2005)的交叉引用必需基因注释找到必需基因中的AGR密码子，以找到共享集(107个编码区)，其中包含了123个独特的AGR密码子(82个AGA、41个AGG)。将optMAGE(Ellis等，2001，Wang等，2009)用于设计90聚体寡核苷酸(靶向复制叉的滞后链)，其将各AGR转化为CGU。通过设计寡核苷酸以编码尽可能多个编辑，将AGR置换寡核苷酸的总数减少至119，在寡核苷酸的5′和3′末端保持至少20bp的同源性。然后基于染色体位置将寡核苷酸汇集到12个不同复杂程度的MAGE寡核苷酸组中(最小值：7，最大值：14)，使单个标志物(tolC)相对于给定集合内所有靶标的复制方向可以插入至多564,622bp上游。对于12个库中的每一个，将tolC插入位点鉴定为满足给定库距离标准的非必需基因或基因间区域。参见表5对于12个寡核苷酸库中每一个的描述。

故障排除策略

将顽固AGR定义为在转化过程的第三步之后挑选的至少96个克隆之一中未转化为CGU的AGR。然后，对顽固的AGR密码子鉴别分类用于在亲本菌株(EcM2.1)中的故障排除(图12A)。首先，检查密码子序列内容的设计错误或潜在问题，如错误注释或重叠基因破坏的RBS。在大多数情况下，校正的寡核苷酸可以很容易地设计和测试。如果没有可能进行这种明显的重新设计，试图将AGR用CGN突变替换。如果尝试用CGN替换AGR未能给出重组体，则在顽固AGR周围的3个氨基酸窗口中测试代偿性同义突变。如果需要，通过与编码AGR至NNN突变的寡核苷酸重组来放宽同义严格性。在故障排除工作流程中的各步骤后，使用等位基因特异性PCR以与野生型基因型杂交的引物筛选来自2个连续CoS-MAGE重组的96个克隆。未能产生野生型扩增子的序列经Sanger测序以确认转化。测量LBL中所有克隆的倍增时间，以使测序数据与适应性数据配对，并选择具有最短倍增时间的重组克隆。通过在Biotek读板器(Eon或H1)上获得生长曲线来确定倍增时间，并使用基于网络的开源基因组重测序软件进行分析。然后，使用MAGE于菌株构建结束时在完整菌株中实施该基因型，并通过MASC-PCR筛选确认。

mRNA折叠和RBS强度计算

使用定制Python管道来计算各序列的mRNA折叠和RBS强度值。mRNA折叠基于UNAFold计算器(Markham等，2008)和Salis计算器上的RBS强度(Salis，2011)。mRNA折叠的参数是温度(37℃)和使用的窗口，其是基因起始位点周围n-30：+100nt和-15：+100nt之间的平均值，并且基于Goodman等，2013。RBS强度唯一参数是RBS和启动子之间的距离，并且基于Li等，2012在感兴趣的密码子之后平均9到10nt之间。通过定制的Matlab代码进行数据可视化。

在其必需基因中缺乏AGR密码子的菌株的全基因组测序

通过在Covaris E210中剪切130uL纯化的基因组DNA获得剪切的基因组DNA。如前述进行全基因组文库制备(Rohland等，2012)。简言之，将130uL纯化的基因组DNA在CovarisE210中以下述方案剪切过夜：占空比10％，强度5，循环/爆发200，时间780秒/样品。测定样品在琼脂糖凝胶上的剪切，如果分布是可接受的(峰分布约400nt)，那么通过SPRI/Reverse-SPRI纯化对样品进行大小选择，如(Rohland等，2012)中所述。然后，将片段钝端化并连接p5/p7衔接子，然后填充和缺口修复(NEB)。然后，使用SYBR green和Kapa Hifi对每个样品进行qPCR定量。这用于确定使用P5-sol和P7-sol引物扩增所得用于条码化文库的循环数。通过Nanodrop定量所得单个库并将其合并。通过qPCR和安捷伦磁带机(AgilentTapestation)对得到的文库进行定量，并在MiSeq 2x150上运行。使用Millstone(一种基于网络的开源基因组重测序工具)分析数据以确认AGR转换并鉴定脱靶突变。

NNN测序和CRISPR

通过在所需AGR密码子变化旁未修饰靶位点选择性切割染色体，使用CRISPR/Cas9来消耗野生型亲本基因型。使用Geneious的内置靶位点探测器确定靠近靶向的AGR密码子的候选位点。如果位点位于AGR密码子上游50bp以下并且可以用同义变化破坏，那么选择位点。如果多个位点满足这些标准，那么选择与基因组的其他部分具有最低水平的序列相似性的位点。针对在翻译起始位点后前30nt内具有AGR密码子的所有24个基因设计了长度为约130bp的寡核苷酸。这些寡核苷酸在纳入AGR位置的NNN随机密码子以及在AGR密码子下游至少50nt的CRISPR靶位点中多个(最多6个)同义变化。这在破坏CRISPR靶位点的同时修饰了AGR基因座，确保了在删除亲本基因型后基因座的随机化。在携带表达质粒DsCas9的Cas9的亲本菌株EcM2.1中进行重组。对于24个基因中的每一个，用浓度为1μM的特异性诱变寡核苷酸进行5个循环的MAGE。CRISPR重复-间隔质粒携带设计用于靶向所选位点的引导，并在最后一次重组工程改造循环后电穿孔到各多样化的库中。恢复1小时后，选择DsCas9和重复-间隔质粒，并对24个AGR密码子中的每一个以三个平行谱系传代144小时。选择后2小时，以每24小时的间隔，获取样品并在选择性培养基中将细胞稀释1/100。

使用PCR引物扩增各随机化的群体，允许特异性扩增掺入CRISPR位点修饰的菌株。然后，汇集各AGR密码子所得的一式三份的文库，并用P5-sol和P7-溶胶引物条码化，并在MiSeq 1x50上运行。使用定制Matlab代码分析数据。

对各基因和各数据点，将读数与参照基因组比对，并计算各密码子的频率。在图23中，基于各密码子的频率和对应偏差的乘积计算任意单位的mRNA结构偏差(红线)和RBS强度偏差(蓝线)。

实施例III

基因组工程改造工具包和多基因座验证实验

本文所述方法利用基因组工程工具包(GETK)，一种用于全基因组重新分配密码子的软件文库。GETK软件支持设计和合成重编码基因和全基因组(图36A)。该软件考虑了生物物理约束以选择最佳的密码子重新分配，最大限度地降低重新设计的生物体受损或无活力的风险。使用本文所述软件编码方法，我们在整个基因组中进行了重编码位置的实验，并证明由本文所述方法指定的密码子选择降低了设计异常的风险。

为了验证本文所述的设计规则，进行了实验以测试整个基因组中同义密码子取代。设计了235个密码子竞争实验，并根据预测的密码子替换难度确定优先级。选择位置，其中通过设计规则预测mRNA、RBS或内部RBS中至少一个对于至少一个替代密码子显著地破坏。如实施例I中的6个禁用有义密码子被认为是：AGA(Arg)、AGG(Arg)、AGC(Ser)、AGU(Ser)、UUG(Leu)和UUA(Leu)。在设计规则预测的评分max_{mRNA|RBS|internal_RBS}超过了阈值，或者至少存在一个差重编码存在的情况中，使位置优先化。对于各子实验，设计MAGE寡核苷酸，其在靶标处导入同义密码子。对于一些子实验，设计MAGE寡核苷酸导入非同义突变。各子实验在单独的孔中进行，并且将MAGE用于电穿孔用于该子实验的寡核苷酸组。定期对群体进行取样并稀释以维持对数期生长。对样品进行测序并用于定量密码子丰度，然后将其用于计算相对适应性(图36B)。

将预测的评分与实验适应性测量进行比较(图36C)。我们的实验表明，替代性密码子预测可以使设计问题最小化。在测试必需基因5′末端处单个密码子变化的情况下，分类为具有良好评分的密码子(最小预测的mRNA折叠破坏，核糖体结合位点强度和内部核糖体停留位点)导致对健康显著较小的影响(K-S测试)。在相同的90聚体寡核苷酸窗口内测试密码子交换组合显示了预测评分与观察到的适应性之间甚至更强的对应性(图37)。

作为无效对照，将同义密码子和早期终止密码子在多个位置处导入非必需基因LacZ和GalK，在同义密码子和内部终止之间显示相似的效果(图38，顶行)。作为强效对照，将同义密码子和内部终止密码子导入必需基因。这些显示了内部终止和同义密码子之间显著的差异，在某些位置具有更到的密码子偏好动态范围(图38，底行)。

除了测试同义取代之外，还测试了根据本文所述规则评分良好的大肠杆菌(γ-变形菌，例如肠沙门氏菌(Salmonella enterica))进化邻居中观测到的非同义取代替换密码子的能力。对于具有潜在高RBS破坏的基因座(图39)(柯莫果夫-斯米尔诺夫(Kolmogorov-Smirnov)p＝3.E-14)和对于观测到具有强核糖体的基因座停滞峰的基因座(Li等，2012)(图40)(柯莫果夫-斯米尔诺夫p＝7.9E-05)，防止内部RBS基序的破坏是选择基因内部密码子的有效规则。

选择基因座基因座靶标：

将235-密码子竞争实验的靶标组织到3个96孔板中：

板1：必需基因5′中的单个密码子变化

选择出现在必需基因的5′末端附近的95个密码子，相对于起始密码子为(-30，+100)碱基。如过滤器所述，考虑这样的位置，所述位置处最差的可能评分超过至少一个过滤器的阈值(较差的RBS或mRNA折叠预测)：

single_codon_any_bad_max＝single_codon_agg_data_df[

(single_codon_agg_data_df[′max_RBS_log_ratio′]＞3.3)|

(single_codon_agg_data_df[′max_mRNA_positive_ratio′]＞1.1)|

(single_codon_agg_data_df[′max_internal_RBS_score′]＞4.1)]

如下所述选择阈值值：

RBS_log_ratio：3.3＝1+math.log_e(10)

mRNA_positive_ratio：1.1＝10％deviation

max_internal_RBS_score：4.1＝3.3+a bit more to get down to＜96-wellplate

候选集包含在设计中存在至少一个问题的靶标(即，最差的设计是差的)。这些靶标中的至少两个将非同义突变导入重叠基因，允许测试平衡针对保留调节基因表达信号的氨基酸意义方面的软件。

板2：密码子变化和相邻简并测试的组合

从单个变化中，将那些在90个碱基对的寡核苷酸大小内与其他相邻的变化组合成一组新的子实验，测试相邻寡核苷酸的所有组合。存在62个这样的靶标。

设计了12个子实验，在与禁用密码子相邻的非禁用密码子中具有同义密码子交换。将寡核苷酸设计为引入在一些选择的禁用密码子任一侧的所有同义密码子交换，例如，精氨酸V-R-G周围的区域可能看起来像寡核苷酸中的GTN-CGN-GGN。对于这些，靶向重编码，其具有超过具有最佳同义密码子交换的阈值值的评分，其中即使最好的同义解决方案也是差的。

板3：测试系统发育保护

设计最终的66个子实验以测试系统发育保护作为允许的非同义替换的来源。对7个γ-变形菌菌株进行比对，鉴定出相对于大肠杆菌具有非同义变体的密码子。在必需基因的5′末端以及必需基因中间的靶标周围测试靶标。对于保护5′靶标，选择在系统发育保护数据中观察到的非同义变化的子集，其中可能存在差评分，如下所述：

这些选择与来自板1的相应单一密码子简并寡核苷酸竞争。

为了基因中间的保护，使用两个标准减少了必需基因中约3500个候选目标：1)具有同义变化潜在最差值的内部RBS评分和2)来自核糖体停滞数据峰的位置(Li等，2012)。

对于内部RBS，选择了9个独特位置的12个靶标，总计21个寡核苷酸。使用的过滤器是：

对于Weissman，选择了9个独特位置的14个靶标或23个寡核苷酸。

如(Wang人，2009)中所述设计寡核苷酸。DNA由工业合作伙伴IDT DNA技术公司(荷华州科拉尔维尔市)合成。

菌株和培养

将EcM2.1原始菌株用于竞争实验(EcM2.1是针对MAGE-大肠杆菌MG1655 mutS_mutdnaG_Q576A exoX_mut xonA_mut xseA_mut 1255700：：tolQRAΔ(ybhB-bioAB)：：[λcI857N(cro-ea59)：：tetR-bla]优化的菌株)。

液体培养基由Lennox配方的Lysogeny肉汤(LBL；1％w/v细菌胰蛋白胨、0.5％w/v酵母提取物、0.5％w/v氯化钠)和适当的选择剂组成：羧苄青霉素(50μg/mL)。固体培养基由含有1.5％w/v Bacto琼脂高压灭菌的LB^L(赛默飞世尔科技有限公司)组成，含有相同浓度的抗生素。

实验步骤

使用EcM2.1菌株的重组工程该组实验如之前所述进行，并且在相同条件下进行所有不同的竞争实验。根据实验，将总寡核苷酸库调整至最大5μM。

转化寡核苷酸后，在1、3、5、7和24小时取出细胞进行测序。进行稀释以使细胞保持恒定的对数期。在各时间点，将细胞接种在许可培养基上，以计算库中存在的细胞数。基于这些数量，我们能够计算各时间点之间的倍增数量。

时间点	倍增的数量
		1小时	1
3小时	3
		5小时	7
7小时	10

测序

扩增各群体并用亿明达(Illumina)P5和P7引物进行条形码化，汇集，并使用MiSeq或使用PE-150试剂盒的NextSeq进行测序。将读数解复用至参照基因组，并计算各子实验的各密码子频率。

估计相对等位基因适应性和评分

对于各子实验，计算各密码子的相对频率。然后，将组分相对于第一时间点的组分标准化。然后，对于各密码子，通过将对数函数拟合到所有时间点的密码子组分并将将衰减常数作为度量适应性来推断适应性。使用GETK计算mRNA结构偏差和RBS强度偏差，并将评分与经验测量的适应性进行比较。

表格

表1.基因组设计规则-生物约束

表2.基因组设计规则-合成约束

表3.用于染色体缺失的卡那毒素盒PCR的引物

表4.用于分析重编码的区段的MASC引物

表5.基因组中位置改变的AGR密码子概述和通过库的失败率

AGR库	AGR密码子数量	成功的数量	失败的数量	成功％
					AGR.1	11	10	1	91
AGR.2	12	10	2	83
					AGR.3	10	10	0	100
AGR.4	7	7	0	100
					AGR.5	14	13	1	93
AGR.6	8	8	0	100
					AGR.7	13	11	2	85
AGR.8	9	8	1	89
					AGR.9	10	9	1	90
AGR.10	13	12	1	92
					AGR.11	7	6	1	86
AGR.12	9	6	3	67
					总计	123	110	13	89

参考文献

该说明书藉由以下提供的完整引用通过作者来确定参考文献。所引用的各参考文献的公开内容均通过引用其全部内容纳入本文。

1.Gibson，D.G.，Glass，J.I.，Lartigue，C.，Noskov，V.N.，Chuang，R.Y.，Algire，M.A.，Benders，G.A.，Montague，M.G.，Ma，L.，Moodie，M.M.，等(2010).产生由化学合成的基因组控制的细菌细胞(Creation of a bacterial cell controlled by a chemicallysynthesized genome).Science 329，52-56.

2.Lajoie，M.J.，Kosuri，S.，Mosberg，J.A.，Gregg，C.J.，Zhang，D.，和Church，G.M.(2013a).探讨必需基因遗传重编码的局限性(Probing the limits of geneticrecoding in essential genes).Science 342，361-363.

3.Lajoie，M.J.，Rovner，A.J.，Goodman，D.B.，Aerni，H.R.，Haimovich，A.D.，Kuznetsov，G.，Mercer，J.A.，Wang，H.H.，Carr，P.A.，Mosberg，J.A.，等(2013b).基因组重编码的生物体扩展了生物学功能(Genomically recoded organisms expand biologicalfunctions).Science 342，357-360.

4.Crick，F.H.(1963).论遗传密码(On the genetic code).Science 139，461-464.

5.Liu，C.C.，Schultz，P.G.在遗传密码中添加新的化学成分(Adding newchemistries to the genetic code).Annu.Rev.Biochem.79，413-444(2010).

6.P.Marliere，更远、更安全：遇到合成的物种远离旧生活世界的申明。(Thefarther，the safer：a manifesto for securely navigating synthetic species awayfrom the old living world).Syst.Synth.Biol.3，77-84(2009).

7.Mandell，D.J.等，通过合成蛋白质设计对转基因生物进行生物防护(Biocontainment of genetically modified organisms by synthetic proteindesign).Nature.518，55-60(2015).

8.Rovner，A.J.等，经重编码的生物体以依赖于合成的氨基酸(Recodedorganisms engineered to depend on synthetic amino acids).Nature.518，89-93(2015).

9.A.Ambrogelly，S.Palioura，D.遗传密码的自然扩展(Natural expansionof the genetic code).Nat.Chem.Biol.3，29-35(2007).

10.A.Kano，Y.Andachi，T.Ohama，S.Osawa，一种具有高基因组G+C含量的细菌，藤黄微球菌(Micrococcus luteus)中转移RNA的新型反密码子组合物与密码子使用的相关性(Novel anticodon composition of transfer RNAs in Micrococcus luteus，abacterium with a high genomic G+C content.Correlation with codon usage).J.Mol.Biol.221，387-401(1991).

11.T.Oba，Y.Andachi，A.Muto，S.Osawa，CGG：山羊支原体(Mycoplasmacapricolum)中未分配或无意义的密码子(CGG：an unassigned or nonsense codon inMycoplasma capricolum).Proc.Natl.Acad.Sci.U.S.A.88，921-925(1991).

12.G.Macino，G.Coruzzi，F.G.Nobrega，M.Li，A.Tzagoloff，使用UGA终止子作为酵母线粒体中的色氨酸密码子(Use of the UGA terminator as a tryptophan codon inyeast mitochondria).Proc.Natl.Acad.Sci.U.S.A.76，3784-3785(1979).

13.J.Ling，P.O’Donoghue，D.微生物中遗传密码的灵活性：新型机制和对生理学的影响(Genetic code flexibility in microorganisms：novel mechanisms andimpact on physiology).Nat.Rev.Microbiol.13，707-721(2015).

14.K.J.Blight，A.A.Kolykhalov，C.M.Rice，在细胞培养中有效启动HCV RNA复制(Efficient initiation of HCV RNA replication in cell culture).Science.290，1972-1974(2000).

15.J.Cello，A.V.Paul，E.Wimmer，脊髓灰质炎病毒cDNA的化学合成：在没有天然模板的情况下产生感染性病毒(Chemical synthesis of poliovirus cDNA：generationof infectious virus in the absence of natural template).Science.297，1016-1018(2002).

16.H.O.Smith，C.A.Hutchison，C.Pfannkoch，J.C.Venter，通过全基因组组装产生合成基因组：来自合成寡核苷酸的噬菌(Generating a synthetic genome bywhole genome assembly：bacteriophage from synthetic oligonucleotides).Proceedings of the National Academy of Sciences.100，15440-15445(2003).

17.L.Y.Chan，S.Kosuri，D.Endy，重构噬菌体T7(Refactoring bacteriophageT7).Mol.Syst.Biol.1，2005.0018(2005).

18.D.G.Gibson等，生殖支原体基因组的完整化学合成、组装和克隆(Completechemical synthesis，assembly，and cloning of a Mycoplasma genitalium genome).Science.319，1215-1220(2008).

19.N.Annaluru等，功能性设计体真核染色体的完全合成(Total synthesis of afunctional designer eukaryotic chromosome).Science.344，55-58(2014).

20.G.Kudla，A.W.Murray，D.Tollervey，J.B.Plotkin，大肠杆菌中基因表达的编码序列决定簇(Coding-sequence determinants of gene expression in Escherichiacoli).Science.324，255-258(2009).

21.T.Tuller，Y.Y.Waldman，M.Kupiec，E.Ruppin，翻译效率由密码子偏倚和折叠能量决定(Translation efficiency is determined by both codon bias and foldingenergy).Proc.Natl.Acad.Sci.U.S.A.107，3645-3650(2010).

22.J.B.Plotkin，G.Kudla，同义词但不一样：密码子偏倚的原因和后果(Synonymous but not the same：the causes and consequences of codon bias).Nat.Rev.Genet.12，32-42(2011).

23.D.B.Goodman，G.M.Church，S.Kosuri，细菌基因中N-末端密码子偏倚的原因和影响(Causes and effects of N-terminal codon bias in bacterial genes).Science.342，475-479(2013).

24.M.Zhou等，非最佳密码子使用影响时钟蛋白FRQ的表达、结构和功能(Non-optimal codon usage affects expression，structure and function of clockprotein FRQ).Nature.495，111-115(2013).

25.T.E.F.Quax，N.J.Claassens，D.J.van der Oost，密码子偏倚作为微调基因表达的手段(Codon Bias as a Means to Fine-Tune Gene Expression).Mol.Cell.59，149-161(2015).

26.G.等，密码子对大肠杆菌中蛋白质表达的影响与mRNA水平相关(Codoninfluence on protein expression in E.coli correlates with mRNA levels).Nature.529，358-363(2016).

27.F.J.Isaacs等，体内染色体的精确操作使得全基因组密码子替换成为可能(Precise manipulation of chromosomes in vivo enables genome-wide codonreplacement).Science.333，348-353(2011).

28.H.H.Wang等，通过多重基因组工程和加速进化编程细胞(Programming cellsby multiplex genome engineering and accelerated evolution).Nature.460，894-898(2009).

29.K.M.Esvelt等，正交Cas9蛋白用于RNA引导的基因调控和编辑(OrthogonalCas9 proteins for RNA-guided gene regulation and editing).Nat.Methods.10，1116-1121(2013).

30.G.Pósfai等，减少基因组的大肠杆菌的意外性质(Emergent properties ofreduced-genome Escherichia coli).Science.312，1044-1046(2006).

31.K.Temme，D.Zhao，C.A.Voigt，由产酸克雷伯菌重建的固氮基因簇(Refactoring the nitrogen fixation gene cluster from Klebsiella oxytoca).Proc.Natl.Acad.Sci.U.S.A.109，7085-7090(2012).

32.A.H.Yona等，tRNA基因在进化中迅速变化以满足新的翻译需求(tRNA genesrapidly change in evolution to meet novel translational demands).Elife.2，e01339(2013).

33.Y.Yamazaki，H.Niki，J.-I.Kato，载于微生物基因必要性：方法和生物信息学(Microbial Gene Essentiality：Protocols and Bioinformatics)，A.L.Osterman，S.Y.Gerdes，编著(新泽西州瓦市Humana出版社(Humana Press，Totowa，NJ)，2008)，Methods in Molecular BiologyTM第416卷，第385-389页.

34.S.Anders，W.Huber，序列计数数据的差异表达分析(Differentialexpression analysis for sequence count data).Genome Biol.11，R106(2010).

35.S.Osawa，T.H.Jukes，进化中的密码子重分配(密码子捕获)(Codonreassignment(codon capture)in evolution).J.Mol.Evol.28，271-278(1989).

36.H.M.Salis，核糖体结合位点计算器(The ribosome binding sitecalculator).Methods Enzymol.498，19-42(2011).

37.T.Conway等，通过RNA测序揭示的细菌操纵子结构前所未有的高分辨率视图(Unprecedented high-resolution view of bacterial operon architecture revealedby RNA sequencing).MBio.5，e01442-14(2014).

38.C.J.Gregg等，tolC的合理优化是基因工程的强大双重选择标记物(Rationaloptimization of tolC as a powerful dual selectable marker for genomeengineering).Nucleic Acids Res.42，4779-4790(2014).

39.K.A.Datsenko，B.L.Wanner，使用PCR产物在大肠杆菌K-12中一步灭活染色体基因(One-step inactivation of chromosomal genes in Escherichia coli K-12using PCR products).Proc.Natl.Acad.Sci.U.S.A.97，6640-6645(2000).

40.A.Haldimann，B.L.Wanner，条件复制、整合、切除和检索质粒-宿主系统用于细菌的基因结构-功能研究(Conditional-replication，integration，excision，andretrieval plasmid-host systems for gene structure-function studies ofbacteria).J.Bacteriol.183，6384-6393(2001).

41.D.E.Deatherage，J.E.Barrick，使用breseq由下一代测序数据中鉴定实验室进化的微生物中的突变(Identification of mutations in laboratory-evolvedmicrobes from next-generation sequencing data using breseq).MethodsMol.Biol.1151，165-188(2014).

42.H.Li，R.Durbin，藉由Burrows-Wheeler转换进行快速准确的短读数对齐(Fastand accurate short read alignment with Burrows-Wheeler transform).Bioinformatics.25，1754-1760(2009a).

43.H.Li等，序列对齐/映射格式和SAMtool(The Sequence Alignment/Mapformat and SAMtools).Bioinformatics.25，2078-2079(2009b).

44.S.Anders，W.Huber，序列计数数据的差异表达分析(Differentialexpression analysis for sequence count data).Genome Biol.11，R106(2010).

45.Carr PA，等(2012)通过合作寡核苷酸共选择增强的多重基因组工程(Enhanced multiplex genome engineering through co-operative oligonucleotideco-selection).Nucleic Acids Res 40(17)：e132

46.Lennox ES(1955)通过噬菌体P1转导宿主的连锁遗传特征(Transduction oflinked genetic characters of the host by bacteriophage P1).Virology 1(2)：190-206.

47.Schwartz SA和Helinski DR(1971)大肠杆菌素E1的纯化和表征(Purification and characterization of colicin E1).The Journal of biologicalchemistry 246(20)：6318-6327.

48.Mosberg JA，Gregg CJ，Lajoie MJ，Wang HH和Church GM(2012)经由合理去除内源性核酸酶改善大肠杆菌中的λ红基因组遗传工程(Improving Lambda Red GenomeEngineering in Escherichia coli via Rational Removal of EndogenousNucleases).PLoS One 7(9)：e44638.

49.Yaung SJ，Esvelt KM和Church GM(2014)CRISPR/Cas9介导的噬菌体抗性不受噬菌体T4的DNA修饰的阻碍(CRISPR/Cas9-mediated phage resistance is not impededby the DNA modifications of phage T4).PLoS One 9(6)：e98811.

50.Gibson DG，等(2009)DNA分子的酶组装高达数百千碱基(Enzymatic assemblyof DNA molecules up to several hundred kilobases).Nat Methods 6(5)：343-345.

51.Baba T，等(2006)构建大肠杆菌K-12框内、单基因敲除突变体：Keio集合(Construction of Escherichia coli K-12 in-frame，single-gene knockout mutants：the Keio collection).Mol Syst Biol 2：2006 0008.

52.Hashimoto M，等(2005)具有减少的基因组的工程改造大肠杆菌细胞的细胞大小和类核组织(Cell size and nucleoid organization of engineered Escherichiacoli cells with a reduced genome).Mol Microbiol 55(1)：137-149.

53.Ellis HM，Yu D，DiTizio T和Court DL(2001)使用单链寡核苷酸对染色体DNA进行高效诱变、修复和工程改造(High efficiency mutagenesis，repair，andengineering of chromosomal DNA using single-stranded oligonucleotides).ProcNatl Acad Sci U S A 98(12)：6742-6746.

54.Markham NR和Zuker M(2008)UNAFold：用于核酸折叠和杂交的软件(UNAFold：software for nucleic acid folding and hybridization).Methods in molecularbiology 453：3-31.

55.Rohland N和Reich D(2012)用于多重靶标捕获的经济高效的高通量DNA测序库(Cost-effective，high-throughput DNA sequencing libraries for multiplexedtarget capture).Genome research 22(5)：939-946.

56.Zadeh JN，等(2011)NUPACK：核酸系统的分析和设计(NUPACK：Analysis anddesign of nucleic acid systems).J Comput Chem 32(1)：170-173.

57.Li GW，Oh E和Weissman JS(2012)抗SD序列驱动细菌中的翻译停滞和密码子选择(The anti-Shine-Dalgarno sequence drives translational pausing and codonchoice in bacteria).Nature 484(7395)：538-541.

58.Chen GF和Inouye M(1990)抑制小精氨酸密码子对基因表达的负面影响；在大肠杆菌基因的前25个密码子中优先使用次要密码子(Suppression of the negativeeffect of minor arginine codons on gene expression；preferential usage ofminor codons within the first 25 codons of the Escherichia coli genes).Nucleic Acids Res 18(6)：1465-1473.

59.Rosenberg AH，Goldman E，Dunn JJ，Studier FW和Zubay G(1993)连续AGG密码子对大肠杆菌中翻译的影响，用通用密码子测试系统证明(Effects of consecutiveAGG codons on translation in Escherichia coli.demonstrated with a versatilecodon test system).J Bacteriol 175(3)：716-722.

60.Spanjaard RA和van Duin J(1988)序列AGG-AGG的翻译产生50％的核糖体移码(Translation of the sequence AGG-AGG yields 50％ribosomal frameshift).ProcNatl Acad Sci U S A 85(21)：7967-7971.

61.Spanjaard RA，Chen K，Walker JR和van Duin J(1990)通过克隆的tRNA基因对串联AGA和AGG密码子进行移码抑制：将密码子指定为argU tRNA和T4 tRNA(Arg)(Frameshift suppression at tandem AGA and AGG codons by cloned tRNA genes：assigning a codon to argU tRNA and T4 tRNA(Arg)).Nucleic Acids Res 18(17)：5031-5036.

62.Bonekamp F，Andersen HD，Christensen T和Jensen KF(1985)通过使用pyrE衰减器探测转录和翻译之间的偶联来检测密码子在大肠杆菌中的核糖体停滞(Codon-defined ribosomal pausing in Escherichia coli detected by using the pyrEattenuator to probe the coupling between transcription and translation).Nucleic Acids Res 13(11)：4113-4123.

63.Zeng Y，Wang W和Liu WR(2014)在大肠杆菌中重新分配稀有的AGG密码子(Towards reassigning the rare AGG codon in Escherichia coli).Chembiochem：aEuropean journal of chemical biology 15(12)：1750-1754.

64.Yu D，等(2000)用于大肠杆菌中染色体工程的有效重组系统(An efficientrecombination system for chromosome engineering in Escherichia coli).ProcNatl Acad Sci U S A 97(11)：5978-5983.

65.Lajoie MJ，Gregg CJ，Mosberg JA，Washington GC和Church GM(2012)操纵复制体动力学以增强λ红介导的多重基因组工程(Manipulating replisome dynamics toenhance lambda Red-mediated multiplex genome engineering).Nucleic Acids Res40(22)：e170.

66.Curran JF(1993)分析tRNA的影响：大肠杆菌RF2程序化移码位点处移码频率的消息稳定性(Analysis of effects of tRNA：message stability on frameshiftfrequency at the Escherichia coli RF2 programmed frameshift site).NucleicAcids Res 21(8)：1837-1843.

67.Ohtake K，等(2012)UAG三联体作为完整的有义密码子的有效解码增强了prfA缺陷型大肠杆菌菌株的生长(Efficient decoding of the UAG triplet as a full-fledged sense codon enhances the growth of a prfA-deficient strain ofEscherichia coli).I 194(10)：2606-2613.

68.Craigen WJ，Cook RG，Tate WP和Caskey CT(1985)细菌肽链释放因子：保守的一级结构和释放因子2的可能的移码调节(Bacterial peptide chain release factors：conserved primary structure and possible frameshift regulation of releasefactor 2).Proc Natl Acad Sci U S A 82(11)：3616-3620.

69.Goodman D，Kuznetsov，G.，Lajoie，M.，Ahern，B.，(2015)Millstone，一种基于网络的基因组工程和分析软件(Millstone，a web based genome engineering andanalysis software).

70.Novoa EM和Ribas de Pouplana L(2012)以控制加速：密码子使用、tRNA和核糖体(Speeding with control：codon usage，tRNAs，and ribosomes).Trends ingenetics：TIG 28(11)：574-581.

71.Novoa EM，Pavon-Eternod M，Pan T和Ribas de Pouplana L(2012)tRNA修饰在基因组结构和密码子使用中的作用(A role for tRNA modifications in genomestructure and codon usage).Cell 149(1)：202-213.

72.Ikemura T(1985)单细胞和多细胞生物体中的密码子使用和tRNA含量(Codonusage and tRNA content in unicellular and multicellular organisms).Mol BiolEvol 2(1)：13-34.

73.Lajoie MJ，Soll D和Church GM(2015)克服遗传密码工程中的挑战(Overcoming challenges in engineering the genetic code).J Mol Biol.

74.N.R.Markham，M.Zuker，用于核酸熔解预测的DINAMelt Web服务器(DINAMeltweb server for nucleic acid melting prediction).Nucleic Acids Res.33，W577-81(2005).

Claims

1.一种由计算平台实施的用于设计基因组的方法，所述方法包括：

接收已知基因组和所述已知基因组中待替换的等位基因列表的数据作为计算平台的输入；

基于等位基因列表，通过所述计算平台鉴定所述已知基因组中各等位基因的出现；

通过所述计算平台，由所述已知基因组去除所述各等位基因的出现；

通过所述计算平台，确定多个等位基因选择，用于替换所述已知基因组中各等位基因的出现；

通过所述计算平台，基于已知基因组产生基因组设计的多个替代性基因序列，其中，各替代性基因序列包含来自多个等位基因选择的不同等位基因选择；

通过所述计算平台，通过为各替代性基因序列中各规则或约束或条件或参数或特征分配评分，将多个规则或约束或条件或参数或特征应用于各替代性基因序列，产生应用于各替代性基因序列的多个规则或约束或条件或参数或特征的评分；

通过所述计算平台，基于多个规则或约束或条件或参数或特征的评分的加权组合，对各替代性基因序列进行评分；

通过所述计算平台，基于加权的评分，选择至少一个替代性基因序列作为基因组设计。

2.如权利要求1所述的方法，其中，所述已知基因组序列包含野生型大肠杆菌基因组。

3.如权利要求1所述的方法，其中，所述已知基因组序列获自先前进化的或遗传工程改造的菌株或生物体。

4.如权利要求1所述的方法，其还包括：

从所述已知基因组去除非必需基因和非编码序列中至少一种的所有出现。

5.如权利要求1所述方法，其中，所述多个等位基因选择包括互斥的等位基因选择。

6.如权利要求1所述的方法，其中，多个规则或约束或条件或参数或特征包括以下中的至少一个：

保留所述基因组设计中一个或多个核糖体结合位点(RBS)样基序；

去除所述基因组设计的禁用限制酶位点。

保留所述已知基因组中基因的5′mRNA二级结构；

保留所述已知基因组中RNA二级结构；

保留所述基因组设计中的调节基序；

保留所述基因组设计中的已知序列基序；

将系统发育保护应用于所述基因组设计；和

满足基因组设计的GC要求。

7.如权利要求1所述的方法，其中，为各规则或约束或条件或参数或特征分配评分是基于将各规则或约束或条件或参数或特征应用于所述替代性基因序列和具有所述原始等位基因的参照基因序列。

8.如权利要求1所述的方法，其还包括：

调整所述加权组合中各评分的权重，用于基于经验数据或基于手动指定的各评分权重对基因组设计进行评分。

9.如权利要求1所述的方法，其中，所述评分进一步基于分配评分，其中较高评分指示与所述多个规则或约束或条件或参数或特征较小的偏差。

10.如权利要求1所述的方法，其中，所述评分进一步基于分配评分，其中较低评分指示与所述多个规则或约束或条件或参数或特征较小的偏差。

11.如权利要求1所述的方法，其中，选择至少一个替代性基因序列作为基因组设计还包括基于鉴定哪些替代性基因序列包含高于预定义阈值的加权评分来选择多个替代性基因序列。

12.如权利要求11所述的方法，其还包括：

鉴定哪些替代性基因序列包含高于预定义阈值的加权评分后，凭经验单独测试所鉴定的替代性基因序列或以混合物测试所鉴定的替代性基因序列。

13.如权利要求1所述的方法，其还包括：

通过所述计算平台，通过将所述基因组设计划分成连续的区段来鉴定可合成的DNA，其中，各区段包含预定数量的碱基。

14.如权利要求1所述的方法，其中，所述基因组设计包括下述之一：具有与经典基因组编码微小修饰的遗传密码，完全重新定义的遗传密码，新型遗传密码或其中密码子映射至非标准氨基酸的遗传密码。

15.一种更新基因组设计规则的方法，包括：

将基因组设计的一个或多个特征导入至少一个细胞中；

通过试验测试所述至少一个细胞的一个或多个特征，从而鉴定基因组活力并评估导入所述至少一个细胞的一个或多个特征的表型；

基于测试，根据所述基因组设计的一个或多个预定义的规则或约束或条件或参数或特征，确定导入所述至少一个细胞的一个或多个特征预期是有活力的或预期是失败的；和

基于所述确定，更新基因组设计的所述预定义的规则或约束或条件或参数或特征。

16.如权利要求15所述的方法，其中，更新预定义的规则或约束或条件或参数或特征进一步基于统计学技术和机器学习算法。

17.如权利要求15所述的方法，其中，使用DNA切割以将所述基因组设计的一个或多个特征导入所述至少一个细胞中以进行下述中的至少一个：针对野生型基因型进行选择，和促进同源重组。

18.如权利要求15所述的方法，其中，使用重组酶或整合酶以将所述基因组设计的一个或多个特征导入所述至少一个细胞中。

19.如权利要求15所述的方法，其中，将所述基因组设计的一个或多个特征导入所述至少一个细胞中还包括：基于所述基因组设计合成部分或全部基因组。

20.如权利要求15所述的方法，其还包括：

通过使用动力学读板器的生长试验测试一个或多个特征。

21.如权利要求15所述的方法，其还包括：

通过试验测试蛋白质产生来测试所述一个或多个特征。

22.如权利要求15所述的方法，其中，基因组设计的所述一个或多个预定义的规则或约束或条件或参数或特征包括一个或多个表型和基因型参数。

23.如权利要求15所述的方法，其还包括：

通过在预定时间点对细胞群的代表性部分进行测序来测试所述一个或多个特征。

24.一种用于测试基因组设计的计算机实施的方法，其包括：

获得由计算平台生成的基因组设计和已知基因组序列的全部或一部分；

确定基因组设计中的一个或多个特征未通过一组预定义的规则或约束或条件或参数或特征；

预测对基因组设计的修饰以满足预定的设计目标并增加活力的可能性；和

测试所述预测的修饰以产生改善的基因组设计。

25.如权利要求24所述的方法，其中，所述确定步骤还包括：

平行测试所述基因组设计中个体突变。

26.如权利要求24所述的方法，其中，所述确定步骤还包括：

用所述计算平台分析所述已知基因组序列的样品。

27.如权利要求24所述的方法，其中，所述基因组设计预测的修饰作为混合物测试。

28.如权利要求24所述的方法，其中，所述基因组设计预测的修饰使用遗传多样性和选择性测试。

29.如权利要求24所述的方法，其中，所述一组预定义的规则或约束或条件或参数或特征包括一个或多个表型和基因型参数。

30.一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中的非编码基序或基因内所有特定有义密码子被改变成替代性密码子。

31.如权利要求30所述的工程改造的生物体，其中，所述基因是编码蛋白质序列的必需基因或非必需基因。

32.如权利要求30所述的工程改造的生物体，其中，特定有义密码子的实例与非编码基序重叠。

33.如权利要求30所述的工程改造的生物体，其中，所述非编码基序是核糖体结合位点基序、mRNA二级结构、内部核糖体停滞位点基序或启动子。

34.如权利要求31所述的工程改造的生物体，其中，所述蛋白质序列被保留。

35.如权利要求30所述的工程改造的生物体，其中，所述非编码基序被保留。

36.如权利要求30所述的工程改造的生物体，其中，所述特定有义密码子选自下组：AGG、AGA、AGC、AGU、UUG和UUA。

37.如权利要求30所述的工程改造的生物体，其中，所述工程改造的生物体是大肠杆菌。

38.如权利要求30所述的工程改造的生物体，其中，所述工程改造的生物体是病毒抗性的或生物容留的。

39.如权利要求30所述的工程改造的生物体，其中，从所述模板基因组中消除所述特定有义密码子的关联tRNA。

40.如权利要求30所述的工程改造的生物体，其中，所述特定有义密码子的关联tRNA不存在于所述重编码的基因组中。

41.如权利要求30所述的工程改造的生物体，其中，所述特定有义密码子置于所述工程改造的生物体内，并且被重分配至非标准氨基酸。

42.如权利要求30所述的工程改造的生物体，其中，所述替代性密码子是同义密码子。

43.如权利要求30所述的工程改造的生物体，其中，所述替代性密码子是非同义密码子。

44.一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中的非编码基序或基因内所有特定有义密码子被改变成替代性密码子。

45.一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中特定有义密码子被全基因组改变成替代性密码子。

46.一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中的必需基因内所有特定有义密码子被改变成替代性密码子。

47.一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中的多个必需基因内所有特定有义密码子被改变成替代性密码子。

48.一种包含重编码的基因组的工程改造的生物体，其中，模板基因组中特定有义密码子被全基因组改变成替代性密码子。

49.一种包含重编码的基因组的工程改造的生物体，所述重编码的基因组通过权利要求1所述的方法设计。

50.一种包含重编码的基因组的工程改造的生物体，其中，特定有义密码子的实例被改变为替代性密码子，从而可以从工程改造的生物体消除特定有义密码子的关联tRNA。

51.一种包含重编码的基因组的工程改造的生物体，其中，特定有义密码子的实例被改变为替代性密码子，从而可以改变特定有义密码子的翻译功能。

52.一种包含重编码的基因组的工程改造的生物体，其中，特定有义密码子的实例被改变为替代性密码子，从而可以消除特定有义密码子的翻译功能。