CN108884456A

CN108884456A - 生物状态机

Info

Publication number: CN108884456A
Application number: CN201680070222.8A
Authority: CN
Inventors: 卢冠达; 纳撒尼尔·B·罗凯
Original assignee: Massachusetts Institute of Technology
Current assignee: Massachusetts Institute of Technology
Priority date: 2015-10-01
Filing date: 2016-09-30
Publication date: 2018-11-23
Also published as: US20170096680A1; AU2016329050A1; CA3000395A1; EP3356523A4; JP2018534921A; WO2017059187A1; EP3356523A1; US10480009B2

Abstract

提供了通过使用化学控制的DNA切除和倒位操作以编码DNA序列中的状态而在体外和体内构建状态机的基于重组酶的框架。具体地，本公开内容提供了系统，其包含(a)n个丝氨酸重组酶，其中n大于2，以及(b)经改造的核酸，所述经改造的核酸包含用于n个丝氨酸重组酶中的每一个的n‑1对对应重组识别位点(RRS)，其中(b)的n(n‑1)对RRS以重叠配置布置，使得n(n‑1)对RRS中的每一对的两个RRS通过n(n‑1)对RRS中的另一对的至少一个RRS彼此分开，并且其中n(n‑1)对RRS中的每一对的两个RRS之间的重组反转或切除n(n‑1)对RRS中的另一对的至少一个RRS。

Description

生物状态机

相关申请

本申请根据35U.S.C.§119(e)要求2016年6月10日提交的美国临时申请号62/348,601，2015年11月18日提交的美国临时申请号62/256,829和2015年10月1日提交的美国临时申请号62/235,776的权益，其各自在此通过引用整体并入。

背景技术

状态机(state machine)是以许多状态中的任一种存在的系统，其中状态之间的转变由输入(input)控制(1)。状态机的下一个状态不仅由特定的输入决定，还由其当前状态决定。与其中输出仅依赖于当前的输入组合的组合逻辑回路(combinational logiccircuit)不同，这种依赖于状态的逻辑可以用于产生依赖于输入顺序的输出。

发明内容

状态机成为执行依赖于顺序的信息处理的人工和自然计算系统背后的复杂功能性的基础。重组酶可以用于在活细胞中实现状态机，所述状态机记录基因调控事件的身份和顺序，并执行复杂的输入-输出功能。图1描绘了一个状态机，其对于两个输入“A”和“B”的每个“置换子串(permuted substring)”进入不同的状态，通过所述状态机我们是指这两个输入的每个不同组合和排序：{无输入，仅A，仅B，A随后是B(A→B)，B随后是A(B→A)}。

本文中提供了通过使用化学控制的DNA切除和倒位操作以编码DNA序列中的状态而在活细胞中构建状态机的基于重组酶的框架。这种策略使得能够通过测序和/或PCR以及复杂的基因表达调节来方便地读出状态。该框架通过工程状态机在大肠杆菌(Escherichiacoli)中验证，所述工程状态机使用3个化学输入来控制16个DNA状态。这些状态机能够记录所有输入的时间顺序并执行基因表达的多输入、多输出控制。本文中还提供了使用基于重组酶的状态机的用于基因调控程序的自动化设计的计算工具。本公开内容的可扩展框架应当使得能够实现用于记录和研究组合(combinational)和时间(temporal)事件如何调节复杂的细胞功能和编程复杂的细胞行为的新策略。

一些实施方案提供了系统，其包含(a)n个丝氨酸重组酶，其中n大于2；以及(b)经改造的核酸，其包含用于n个丝氨酸重组酶中的每一个的n-1对对应重组识别位点(RRS)，其中(b)的n(n-1)对RRS以重叠配置布置，使得n(n-1)对RRS中的每一对的两个RRS被n(n-1)对RRS中的另一对的至少一个RRS彼此分开，并且其中n(n-1)对RRS中的每一对的两个RRS之间的重组反转或切除n(n-1)对RRS中的另一对的至少一个RRS。

在一些实施方案中，n大于或等于3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20。

在一些实施方案中，n个丝氨酸重组酶选自Bxb1、Tp901、A118、PhlF和AraC。

在一些实施方案中，RRS选自attB位点、attP位点、经修饰以包含CA二核苷酸的attB位点、经修饰以包含CA二核苷酸的attP位点、经修饰以包含GT二核苷酸的attB位点、经修饰以包含GT二核苷酸的attP位点、经修饰以包含AG二核苷酸的attB位点、经修饰以包含AG二核苷酸的attP位点、经修饰以包含TC二核苷酸的attB位点、经修饰以包含TC二核苷酸的attP位点、经修饰以包含AA二核苷酸的attB位点、经修饰以包含AA二核苷酸的attP位点、经修饰以包含GG二核苷酸的attB位点和经修饰以包含GG二核苷酸的attP位点。

在一些实施方案中，系统还包含至少一种经改造的核酸，所述经改造的核酸包含与编码n个丝氨酸重组酶中的至少一个的核苷酸序列有效地连接的至少一个启动子。

在一些实施方案中，至少一个启动子是诱导型的。

在一些实施方案中，至少一个启动子选自P_PhlF、P_BAD和P_LtetO。

在一些实施方案中，(b)的经改造的核酸还包含编码可检测分子的核苷酸序列。在一些实施方案中，所述可检测分子是荧光分子(例如，GFP、RFP、BFP、YFP等)。

一些实施方案提供了系统，其包含：(a)3个丝氨酸重组酶；以及(b)经改造的核酸，其包含用于3个丝氨酸重组酶中的每一个的两对对应重组酶识别位点(RRS)，其中(b)的6对RRS以重叠配置布置，使得6对RRS中的每一对的两个RRS被6对RRS中的另一对的至少一个RRS彼此分开，并且其中6对RRS中的每一对的两个RRS之间的重组反转或切除6对RRS中的另一对的至少一个RRS。

一些实施方案提供了系统，其包含：(a)4个丝氨酸重组酶；以及(b)经改造的核酸，其包含用于4个丝氨酸重组酶中的每一个的3对对应重组酶识别位点(RRS)，其中(b)的12对RRS以重叠配置布置，使得12对RRS中的每一对的两个RRS被12对RRS中的另一对的至少一个RRS彼此分开，并且其中12对RRS中的每一对的两个RRS之间的重组反转或切除12对RRS中的另一对的至少一个RRS。

本文中还提供了包含本公开内容的系统的细胞。

在一些实施方案中，细胞是细菌细胞或哺乳动物细胞。在一些实施方案中，细胞是干细胞。

本文中还提供了使用本公开内容的系统或本公开内容的细胞作为治疗装置或作为诊断装置的方法。

一些实施方案提供了使用本公开内容的系统来控制细胞分化的方法。

一些实施方案提供了使用本公开内容的系统来检测细胞中的化学信号的方法。

附图说明

图1.状态机的实例。节点表示状态，箭头表示由输入介导的状态之间的转变。两个输入“A”和“B”的每个可能的置换子串产生唯一的状态。

图2A-2D.寄存器(register)上的重组规则。该寄存器被描述为一系列加下划线的字母符号(任意DNA)和形状符号(识别位点)。(A)如果attB-attP对中的位点是反对齐的(anti-aligned)，则它们之间的DNA在重组期间被倒位。(B)如果attB-attP对中的位点是对齐的，则它们之间的DNA在重组期间被切除。(C)多个输入可以驱动在它们自己的attB-attP对上操作的不同的重组酶。在该实例中，输入“A”驱动橙色重组酶，输入“B”驱动蓝色重组酶。(D)给定重组酶的多个正交attB-attP对可以放置在寄存器上。在此不同的形状表示两对attB-attP。每个重组酶可以产生多至6个正交且定向的attB-attP对(31)。图9A-9C给出了关于在此示出的重组反应的更多详细信息。

图3A-3B.设计和验证2-输入、5-状态RSM。(A)描绘的是用于实现RSM的两种质粒(顶部)和显示了对于两个输入(aTc和Ara；底部)的每个置换子串的所得寄存器的详细状态图。(B)RSM在大肠杆菌(E.coli.)中的表现。节点表示用输入ATc(橙色箭头)和Ara(蓝色箭头)的置换子串诱导的细胞群。在3次生物学重复中，将培养物在30℃下用饱和浓度的每种输入(250ng/mL ATc或1％w/v Ara)处理18小时。节点标记表明预期状态(对应于图A)和每个群体中由单个细胞的菌落的Sanger测序确定的处于该状态的细胞的百分比(在所有3次生物学重复中总计至少66个细胞)。

图4A-4B.扩大至3-输入、16-状态RSM。(A)用于实现RSM的两种质粒。aTc、Ara和DAPG分别诱导Bxb1、TP901和A118重组酶的表达。输出质粒上的寄存器的详细状态图示于图12中。(B)RSM在大肠杆菌中的表现。节点表示用输入ATc(橙色箭头)、Ara(蓝色箭头)和DAPG(紫色箭头)的所有置换子串诱导的细胞群。在3次生物学重复中，将培养物在30℃下用饱和浓度的每种输入(250ng/mL ATc、1％w/v Ara或25μM DAPG)处理24小时。节点标记表明预期状态(对应于图12)和每个群体中由单个细胞的菌落的Sanger测序确定的处于该状态的细胞的百分比(在所有3次生物学重复中总计至少17个细胞)。

图5.GRSM数据库。描绘了如何创建数据库的流程图(顶部)。该数据库具有用于不同基因调控程序的GRSM寄存器的预编译列表(中间)。状态图表示基因调控程序，其中每个节点包含对应于哪种基因在该状态下表达的不同颜色的条带(没有条带意味着无任何基因表达)。检索函数(search function)接受用户指定的基因调控程序并从能够实现其的数据库中返回寄存器(底部)。

图6A-6E.实现2-输入、5-状态GRSM。我们在大肠杆菌中构建GRSM(对于每个图A-E一个)以实现左侧描绘的基因调控程序，其中每个节点包含对应于哪种基因产物(绿色＝GFP，红色＝RFP，蓝色＝BFP)在该状态下表达的不同颜色的条带(没有条带意味着无任何基因表达)。相应的GRSM状态图描绘于中间列中，其中表达(ON)的荧光报道子由加阴影的(shaded)基因表示，未表达(OFF)的荧光报道子由空心(outlined)基因表示。在右列中，节点表示用输入ATc(橙色箭头)和Ara(蓝色箭头)的所有置换子串诱导的细胞群。在3次生物学重复中，将培养物在30℃下用饱和浓度的每种输入(250ng/mL ATc或1％w/v Ara)处理24小时。如通过流式细胞术测量，根据具有不同基因表达谱(荧光报道子的ON/OFF组合)的细胞的百分比，将节点加阴影。节点标记示出了具有预期基因表达谱的细胞的百分比(在所有3次生物学重复中取平均)。

图7A-7B。实现3-输入、16-状态GRSM。我们在大肠杆菌中构建GRSM以实现图A和图B的左下方所示的基因调控程序，其中每个节点包含对应于哪种基因产物(蓝色＝BFP，绿色＝GFP)在该状态下表达的不同颜色的条带(没有条带意味着无任何基因表达)。相应的GRSM状态图描绘于每个图的顶部，其中表达(ON)的荧光报道子由加阴影的基因表示，未表达(OFF)的荧光报道子由空心基因表示。在每个图的右下方，节点表示用输入ATc(橙色箭头)、Ara(蓝色箭头)和DAPG(紫色箭头)的所有置换子串诱导的细胞群。在3次生物学重复中，将培养物在30℃下用饱和浓度的每种输入(250ng/mL Atc、1％w/v Ara或25μM DAPG)处理24小时。如通过流式细胞术测量，根据具有或不具有基因表达的细胞的百分比，将节点加阴影。节点标记示出了具有预期基因表达谱的细胞的百分比(在所有3次生物学重复中取平均)。

图8A-8B.BxbI、TP901和A118的正向和反向重组活性。(A)大肠杆菌中的实验设置。对于本研究中使用的3种重组酶(BxbI、TP901和A118)中的每一种，用含有attB-attP(无GFP表达)或attL-attR(具有GFP表达)的质粒转化输入质粒上含有可诱导重组酶系统的细胞。(B)在有和没有重组酶诱导的情况下在30℃下孵育16小时后细胞的荧光分布。将诱导培养物用饱和量的诱导物(对于BxbI为250ng/mL ATc，对于TP901为1％w/v Ara，或对于A118为25μM DAPG)处理。示出了3次生物学重复。分布被置于双指数标度上。如通过由不具有GFP的对照群体设置的阈值(竖直虚线)所确定的，用表达GFP的细胞的百分比标记每个诱导的和非诱导的重复。

图9A-9C.详细的重组机制。(A)如果attB-attP对中的位点是反对齐的，则它们之间的DNA在重期间被倒位。(B)如果attB-attP对中的位点是对齐的，则它们之间的DNA在重组期间被切除。切除的片段环化并且被假定丢失。(C)重组酶可以靶向多个attB-attP对。如果这些对具有错配的中心二核苷酸，则它们将仅在它们自己内重组。在此示出了两个正交的倒位操作。

图10.基于PCR的状态询问工具(PCR-based State Interrogation Tool，PSIT)。流程图给出了PSIT算法和用户界面的概述。PSIT接受DNA寄存器设计作为输入，并输出可以用于用qPCR进行状态询问的所有可能的引物对组的列表。引物由DNA区域和它们所结合的方向来指定。

图11.来自图3A的2-输入、5-状态RSM的基于定量PCR的询问。作为相似性度量测量的欧几里得(Euclidean)距离。如果所有细胞均采用5种可能状态之一(S1-S5)，则将含有RSM的不同实验性大肠杆菌群体的qPCR测量结果(采用由我们的PSIT程序设计的3个引物对)与预期结果进行比较。每个实验群体均暴露于沿热图的纵轴显示的输入。将培养物在30℃下用饱和浓度的每种输入(250ng/mL ATc或1％w/v Ara)处理18小时。示出了3次生物学重复的数据。每个实验群体与其预测状态最紧密匹配(根据右侧的预期状态图)。

图12.来自图4A的3-输入、16-状态RSM中寄存器的详细状态图。我们示出了响应于分别激活BxbI、TP901和A118的输入ATc(橙色)、Ara(蓝色)和DAPG(紫色)的不同置换子串的寄存器的不同重组状态。

图13.来自图4A的3-输入、16-状态RSM的基于定量PCR的询问。欧几里得距离作为相似性度量。如果所有细胞均采用16种可能状态之一(S1-S16)，则将含有RSM的不同实验性大肠杆菌群体的qPCR测量结果(采用由我们的PSIT程序设计的6个引物对)与预期结果进行比较。每个群体均暴露于沿热图的纵轴显示的输入。在3次生物学重复中，将培养物在30℃下用饱和浓度的每种输入(250ng/mL ATc、1％w/v Ara或25μMDAPG)处理24小时。每个实验群体与其预期状态最紧密匹配(根据右侧的预期状态图)。

图14A-14B.GRSM数据库覆盖范围。(A)数据库中所示的基因调控程序的数量作为它们调节的基因的数量的函数。(B)数据库中所示的可能的基因调控程序的分数作为它们调节的基因的数量的函数。为了计算该分数，我们使用实施例12中推导的作为调节基因数量的函数的基因调控程序的总数量的公式。

图15.可以如何替换来自GRSM数据库的寄存器的基因以获得实现其他基因调控程序的寄存器的实例。在左侧，一个基因被双向终止子替换。在中间，两个不同的基因被相同基因的拷贝替换。在右侧，一个基因被由两个不同基因组成的双顺反子操纵子替换(在这种情况下，双顺反子中的第一个基因在3’端不具有隐式终止子)。每个基因调控程序的状态图上的条带表明哪些基因应当在哪个状态下表达，其中不同颜色的条带表示不同的基因。

图16A-16E.以不同的输入持续时间测试2-输入、5状态-RSM。(A)在大肠杆菌中实现的GRSM(来自图6E)。GRSM中的FP基因(绿色＝GFP，红色＝RFP，蓝色＝BFP)根据它们是否在每种状态下表达而分别被加阴影或表示为空心。(B)有8种可能的FP表达谱。GRSM的每个状态均采用独特的FP表达谱。来自图6E的数据证实了这一点。(C-E)用提高的持续时间(以1小时步长)的输入处理的细胞的FP表达谱分布。示出了3次生物学重复的数据。所有输入暴露均是在30℃下用饱和浓度的输入(250ng/mL ATc或1％w/v Ara)进行的。如通过流式细胞术测量，根据具有不同FP表达谱的细胞的百分比(对应于图B)，将柱加阴影。对于顺序诱导，在第一输入暴露期之后，我们使用两种不同的策略应用第二输入：通过直接将第二输入添加到培养物中(图D)，以及通过将培养物1∶25稀释到包含第二输入的新培养基中(图E)。对于前一策略值得注意的是，第一输入在第二输入暴露期之前未被稀释。

图17A-17C.对于相同的基因调控程序实现不同的GRSM。我们在大肠杆菌中构建GRSM(对于每个图A-C一个)以实现左侧描绘的基因调控程序，其中每个节点包含绿色条带以指示GFP表达或者无条带以指示无GFP表达。相应的GRSM状态图描绘于中间列中，其中表达(ON)的GFP由加阴影的gfp基因表示，未表达(OFF)的GFP由空心gfp基因表示。在右列中，节点表示用输入ATc(橙色箭头)和Ara(蓝色箭头)的所有置换子串诱导的细胞群。在3次生物学重复中，将培养物在30℃下用饱和浓度的每种输入(250ng/mLATc或1％w/v Ara)处理24小时。如通过流式细胞术(在所有3次生物学重复中取平均)测量，根据具有GFPON与GFPOFF的细胞的百分比，将节点加阴影。节点标记示出了具有预期基因表达谱的细胞的百分比。

图18.GRSM数据库中基因调控程序的设计空间高度简并。该图示出了GRSM数据库中每个基因调控程序的寄存器的中位数作为它们调节多少基因的函数。

图19.用于询问来自图3A的2-输入、5-状态RSM的定量PCR引物对。每个引物在指示的方向上与指示的寄存器区域结合。表6中给出了实际的引物序列。该图指示哪些引物对应当在哪些状态下扩增，其中状态如状态图中所示彼此相关。

图20.用于询问来自图4A的3-输入、16-状态RSM的定量PCR引物对。每个引物在指示的方向上与指示的寄存器区域结合。表7中给出了实际的引物序列。该图指示哪些引物对应当在哪些状态下扩增，其中状态如状态图中所示彼此相关。

图21.本文中使用的所有质粒及其相关部分。pNR64和pNR220是在具有kanR和ColE1的载体骨架上构建的输入质粒。所有其他质粒均是在具有camR的BAC载体上构建的。启动子为浅绿色，基因为深绿色，终止子为红色，attB位点为蓝色，attP位点为灰色，attL位点为黑色，attR位点为洋红色。每个重组酶识别位点标记随后的两个字母是二核苷酸序列。对于输入质粒(pNR64和pNR220)和重组酶反应测试质粒(pNR230、pNR239、pNR276、pNR279、pNR280和pNR287)，仅示出了基因和启动子，对于输出质粒(pNR160、pNR188、pNR163、pNR164、pNR165、pNR166、pNR186、pNR187、pNR291、pNR292和pNR284)，仅示出了寄存器上的部分。应当注意，每个输出质粒在寄存器区域侧翼具有相同的三个终止子。这些终止子被构造成保持寄存器良好隔绝，并且实际上不是任何寄存器设计的一部分。质粒图像使用商业软件Geneious R8产生。

发明详述

记录和响应于细胞内的信号传导序列和基因调控事件的合成状态机可以是复杂生命系统的研究和设计中的转化工具。例如，在人发育中，祖细胞分化为具有由转录因子(transcription factor，TF)活化的时序和顺序决定的不同功能的特定细胞类型(2、3)。该信息允许研究人员将人干细胞编程为分化的细胞(4、5)，相反地，使用外源、顺序的TF活化将分化的细胞重新编程为干细胞(6、7)。然而，驱动不同细胞谱系的TF级联的时间组织在很大程度上仍是未知的。响应于单个细胞中TF活化的顺序记录并驱动基因表达的状态机对于理解和调节这些分化过程是有用的。

这样的状态机器也可增进我们对疾病进展的理解，这也可以取决于细胞外和细胞内因素的出现和顺序。例如，在癌症中，肿瘤中基因突变的时问顺序可以决定其表型(8)。类似地，在躯体疾病和致病性感染中，疾病细胞对不同环境条件的预适应可能影响细胞的行为方式和对药物治疗的响应(9-12)。将状态机整合到疾病模型中，随后分析经处理后存活的细胞的历史对于理解疾病进展如何影响治疗响应是有用的。

尽管复杂的功能状态机具有改变生物系统的理解和改造的潜力，但由于缺乏可扩展和可普遍适用的框架，尚未在活细胞中实现复杂的功能状态机(13)。本文中提供了用于在活细胞中实现状态机的基于可扩展重组酶的策略，其中状态是在DNA序列中编码的。状态信息在DNA序列中的直接储存确保了其被稳定地保持并且对细胞具有最小的负担。已使用重组酶来实现转换(15-19)、化学脉冲计数器(20)、与存储器集成的布尔逻辑门(21、22)和时间逻辑(23)。如本文中提供的，使用重组酶来实现可扩展状态机，例如可以区分具有独特基因表达输出的一组输入的所有可能的置换子串的状态机。本公开内容的状态机实现被称为“基于重组酶的状态机”(recombinase-based state machine，RSM)。

重组酶和重组识别序列

如本文中使用的，“重组酶”是位点特异性酶，其识别短的DNA序列(所述序列通常为约30个碱基对(bp)至40bp)，并介导这些重组酶识别序列之间的重组，这导致重组酶识别序列之间的DNA片段的切除、整合、倒位或交换。如本文中使用的，“遗传元件”是指在基因表达中起作用的DNA序列。例如，启动子、转录终止子和编码产物(例如，蛋白质产物)的核酸各自被认为是遗传元件。

基于不同的生物化学特性，重组酶可以分为两个不同的家族：丝氨酸重组酶(例如，解离酶和转化酶)和酪氨酸重组酶(例如，整合酶)。丝氨酸重组酶和酪氨酸重组酶进一步分为双向重组酶和单向重组酶。双向丝氨酸重组酶的实例包括但不限于β-six、CinH、ParA和γδ；单向丝氨酸重组酶的实例包括但不限于Bxb1、φC31、TP901、TG1、 MR11、A118、U153和gp29。双向酪氨酸重组酶的实例包括但不限于Cre、FLP和R；单向酪氨酸重组酶包括但不限于λ、HK101、HK022和pSAM2。丝氨酸和酪氨酸重组酶名称来源于重组酶用来攻击DNA且在链交换期间变得与DNA共价连接的保守亲核氨基酸残基。重组酶已被用于许多标准生物应用，包括产生基因敲除和解决分选问题。在一些实施方案中，仅使用丝氨酸重组酶。

重组结果部分取决于待重组的两个短重复DNA序列(通常小于30个bp长)的位置和方向。重组酶与这些重复序列结合，这些重复序列对每种重组酶是特异性的，并且在本文中称为“重组酶识别序列”或“重组酶识别位点”。因此，如本文中使用的，当重组酶可以介导重复DNA序列之间的倒位或切除时，重组酶对于重组酶识别位点是“特异性的”。如本文中使用的，重组酶也可被认为识别其“对应重组酶识别位点”，所述对应重组酶识别位点侧接间插遗传元件(例如，启动子、终止子或输出核酸序列)。当遗传元件位于两个重复的DNA序列之间并紧邻两个重复的DNA序列时，遗传元件被认为“侧接”重组酶识别位点。在一些实施方案中，重组酶识别位点彼此不重叠。然而，在另一些实施方案中，重组酶识别位点彼此重叠，如以下所述，这使得组合复杂性显著提高。

两个短的反向重复DNA序列之间发生倒位重组。由DNA弯曲蛋白(DNA bendingprotein)辅助的DNA环形成将两个重复序列保持在一起，此时发生DNA切割和连接。该反应不依赖于ATP并且需要超螺旋DNA。这样的倒位重组事件的最终结果是重复位点之间的DNA的延伸段反向(即，DNA的延伸段反转方向)，使得编码链现在是非编码链，反之亦然。在这样的反应中，DNA是保守的，无DNA净增加也无损失。

相反地，整合(切除)重组发生在以相同方向定向的两个短的重复DNA序列之间。在这种情况下，间插DNA被切除/去除。

重组酶也可以分为不可逆或可逆的。如本文中使用的，“不可逆重组酶”是指这样的重组酶，其可以催化两个互补重组位点之间的重组但在没有另外的因子的辅助的情况下不能催化通过该重组形成的杂交位点之间的重组。因此，“不可逆识别位点”是指可以充当不可逆重组酶的两个DNA识别序列中的第一个且在该位点处重组之后被修饰为杂交识别位点的重组酶识别位点。“互补不可逆识别位点”是指可以充当不可逆重组酶的两个DNA识别序列中的第二个且在该位点处对应重组之后被修饰为杂交重组位点的重组酶识别位点。例如，attB和attP是Bxb1和phiC31重组酶的不可逆重组位点，attB是attP的互补不可逆重组位点，反之亦然。近来，显示attB/attP位点可以产生突变以产生仅彼此相互作用而不与其他突变体相互作用的正交B/P对。这允许单个重组酶控制多个正交B/P对的切除或整合或倒位。

例如，phiC31整合酶在不存在未在真核细胞中发现的另外的因子的情况下仅催化attB×attP反应。重组酶不能介导在attB与attP之间重组时形成的attL和attR杂交重组位点之间的重组。由于重组酶(例如phiC31整合酶)不能单独催化逆反应，因此phiC31 attB×attP重组是稳定的。

不可逆重组酶和编码不可逆重组酶的核酸在本领域中有所描述并且可以使用常规方法获得。不可逆重组酶的实例包括但不限于phiC31重组酶、大肠杆菌噬菌体P4重组酶、大肠杆菌噬菌体λ整合酶、李斯特菌属A118噬菌体重组酶以及放线菌噬菌体R4Sre重组酶、HK101、HK022、pSAM2、Bxb1、TP901、TG1、MR11、U153和gp29。

相反地，“可逆重组酶”是指这样的重组酶，所述重组酶可以催化两个互补重组酶识别位点之间的重组并且在没有另外的因子的辅助的情况下可以催化由初始重组事件形成的位点之间的重组，从而使其逆转。通过重组产生的产物位点本身就是后续重组的底物。可逆重组酶系统的实例包括但不限于Cre-lox和Flp-frt系统、R、β-six、CinH、ParA和γδ。

本文中提供的重组酶并不意味着是可以用于本公开内容的实施方案中的重组酶的排他性实例。本公开内容的逻辑和存储系统的复杂性可以通过挖掘新的正交重组酶的数据库或设计具有确定的DNA特异性的合成重组酶来扩展。有用的重组酶的其他实例是本领域技术人员已知的，并且预期发现或产生的任何新重组酶可以用于本公开内容的一些不同实施方案中。

在一些实施方案中，重组酶是丝氨酸重组酶。因此，在一些实施方案中，重组酶被认为是不可逆的。在一些实施方案中，重组酶是酪氨酸重组酶。因此，在一些实施方案中，重组酶被认为是可逆的。

启动子

如本文中使用的，“启动子”是指核酸序列的控制区，在该控制区核酸序列的其余部分的转录起始和速率受到控制。启动子还可含有亚区，其中调节蛋白和分子可结合，例如RNA聚合酶和其他转录因子。启动子可为组成型、诱导型、激活型、阻抑型、组织特异性的或其任意组合。

启动子驱动表达或驱动其调节的核酸序列的转录。如本文中使用的，“有效地连接”和“处于控制下”表明启动子相对于其调节的核酸序列处于正确的功能位置和/或方向以控制该序列的转录起始和/或表达。如上所述，“反向启动子”是其中核酸序列处于相反方向，使得编码链现在是非编码链的启动子，反之亦然。反向启动子序列可以用于本公开内容的各种实施方案中以调节特定的状态。因此，在一些实施方案中，启动子是侧接互补重组酶识别位点的反向启动子，其在位点重组时反转至正确的方向(例如，并驱动有效地连接的核酸序列的表达)。在本公开内容的一些实施方案中，启动子可以与或可以不与“增强子”结合使用，所述“增强子”是指参与启动子下游的核酸序列的转录激活的顺式作用调控序列。增强子可位于启动子和/或编码核酸之前或之后的任何功能位置。

启动子根据其对RNA聚合酶(和/或σ因子)的亲和性被分为强或弱，这与启动子序列有多类似于聚合酶的理想共有序列有关。启动子的强度可取决于是否在该启动子上以高频率或低频率发生转录起始。具有不同强度的不同启动子可用于构建具有不同的数字可设置基因输出表达水平的逻辑门(例如，由弱启动子启动的基因表达水平低于由强启动子启动的基因表达水平)。例如，图26A-26C中所示的数据证明，基于所使用的启动子的不同强度和它们各自输出的总和，输入诱导物的多种数字组合导致多个水平的模拟基因表达输出。

启动子可以是天然地与基因或序列相关的启动子，如可通过分离位于给定基因或序列的编码区段和/或外显子上游的5′非编码序列获得的启动子。这样的启动子可以被称为“内源的”。类似地，增强子可以是天然地与核酸序列相关的增强子，其位于该序列的下游或上游。

在一些实施方案中，编码核酸区段可在重组或异源启动子的控制下定位，所述启动子是指在其天然环境中通常不与编码的核酸序列相关的启动子。重组或异源增强子是指在其天然环境中通常不与核酸序列相关的增强子。这样的启动子或增强子可包括其他基因的启动子或增强子；从任何其他原核细胞、病毒或真核细胞分离的启动子或增强子；以及不是“天然存在”的合成启动子或增强子，例如含有不同转录调控区的不同元件和/或通过本领域已知的基因工程方法改变表达的突变的启动子或增强子。除了合成地产生启动子和增强子的核酸序列以外，结合本公开内容，可使用重组克隆和/或核酸扩增技术(包括PCR)来产生序列(参见美国专利第4,683,202号和美国专利第5,928,906号)。此外，根据本公开内容，可使用指导非核细胞器(non-nuclear organelle)例如线粒体、叶绿体等中的序列转录和/或表达的控制序列。

诱导型启动子

如本文中使用的，“诱导型启动子”是这样的启动子：其特征在于当在诱导物或诱导剂的存在下，受到诱导物或诱导剂的影响或者与诱导物或诱导剂接触时启动或增强转录活性。“诱导物”或“诱导剂”可为内源的或正常外源的化合物或蛋白质，其以在由诱导型启动子诱导转录活性方面具有活性的方式施用。

根据本公开内容使用的诱导型启动子可在原核和真核宿主生物体两者中起作用。在一些实施方案中，使用哺乳动物诱导型启动子。用于本文的哺乳动物诱导型启动子的实例包括但不限于启动子类型P_Act：P_AIR、P_ART、P_BIT、P_CR5、P_CTA、P_ETR、P_NIC、P_PIP、P_ROP、P_SPA/P_SCA、P_TET、P_TtgR；启动子类型P_Rep：P_Cuo、P_ETR ON8、P_NIC、P_PIR ON、P_SCA ON8、P_TetO、P_UREX8；启动子类型P_Hyb：tetO₇-ETR₈-P_hCMVmin、tetO₇-PIR₃-ETR₈-P_hCMVmin和scbR₈-PIR₃-P_hCMvmin。在一些实施方案中，可使用来自其他生物体的诱导型启动子，以及设计成在原核宿主(例如，P_PhlF、P_BAD和P_LtetO)或真核宿主中发挥作用的合成启动子。用于本文的非哺乳动物诱导型启动子的实例包括但不限于慢病毒启动子(例如，EFα、CMV、人突触蛋白I(hSynI)、CaMKIIα、hGFAP和TPH-2)和腺相关病毒启动子(例如，CaMKIIα(AAV5)、hSynI(AAV2)、hThy1(AAV5)、fSST(AAV1)、hGFAP(AAV5、AAV8)、MBP(AAV8)、SST(AAV2))。本公开内容的诱导型启动子的一个重要功能特性是它们通过暴露于外部施加的诱导物的诱导性。

施用或移除诱导物导致在有效地连接的核酸序列(例如，编码重组酶的核酸)转录的“ON”或“OFF”状态之间切换。因此，如本文中使用的，与核酸序列有效地连接的启动子的“ON”状态是指启动子主动驱动核酸序列转录(即，表达连接的核酸序列)时的状态。相反地，与核酸序列有效地连接或有条件有效地连接的启动子的“OFF”状态是指启动子不主动驱动核酸序列转录(即，不表达连接的核酸序列)时的状态。

根据本公开内容使用的诱导型启动子可通过一种或更多种生理条件(例如，pH、温度、辐射、渗透压、盐水梯度、细胞表面结合的变化)和一种或更多种外在(extrinsic)或内在(intrinsic)诱导剂的浓度来诱导(或抑制)。外在诱导物或诱导剂可包括但不限于氨基酸和氨基酸类似物、糖类和多糖、核酸、蛋白质转录激活剂和抑制剂、细胞因子、毒素、石油基化合物、含金属化合物、盐、离子、酶底物类似物、激素或其组合。诱导或抑制诱导型启动子的条件和/或试剂可以是本文中所述的逻辑门的输入。

根据本公开内容使用的诱导型启动子包括本文中所述的或本领域普通技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于化学/生物化学调节和物理调节的启动子，例如醇调节的启动子；四环素调节的启动子(例如，脱水四环素(aTc)-响应启动子和其他四环素-响应启动子系统，其包括四环素阻遏蛋白(tetR)、四环素操纵基因序列(tetO)和四环素反式激活因子融合蛋白(tTA))；类固醇调节的启动子(例如，基于大鼠糖皮质激素受体、人雌激素受体、蛾蜕皮素受体的启动子和来自类固醇/类视黄醇/甲状腺受体超家族的启动子)；金属调节的启动子(例如，衍生自来自酵母、小鼠和人的金属硫蛋白(结合和隔绝金属离子的蛋白质)基因的启动子)；发病机制调节的启动子(例如，由水杨酸、乙烯或苯并噻二唑(BTH)诱导)；温度/热诱导型启动子(例如，热激启动子)；以及光调节的启动子(例如，来自植物细胞的光响应启动子)。

在一些实施方案中、根据本公开内容使用的诱导物是N-酰基高丝氨酸内酯(AHL)，其是参与细菌群体感应(quorum sensing)的一类信号传导分子。群体感应是细菌之间通信的方法，其使得能够根据群体密度协调基于群体的行为。AHL可以跨细胞膜扩散并且在一定的pH值范围内在生长培养基中稳定。AHL可以与转录激活剂例如LuxR结合并刺激来自对应启动子的转录。

在一些实施方案中，根据本公开内容使用的诱导物是脱水四环素(aTc)，其是不表现出抗生素活性的四环素衍生物并且被设计成与四环素控制的基因表达系统用于例如细菌中。

根据本公开内容，可使用其他诱导型启动子系统。

终止子

本文中提供了用于本公开内容的一些实施方案中的终止子序列。如本文中使用的，“终止子”或“终止子序列”是引起转录停止的核酸序列。终止子可为单向的或双向的。其包含参与由RNA聚合酶进行之RNA转录的特异性终止的DNA序列。终止子序列防止通过上游启动子转录激活下游核酸序列。因此，在某些实施方案中，考虑终止RNA转录产生的终止子。终止子在体内可能是实现期望的输出表达水平(例如，低输出水平)所必需的。

最常用的终止子类型是正向终止子。当设置在通常转录的核酸序列的下游时，正向转录终止子将引起转录中止。在一些实施方案中，提供了双向转录终止子，其通常引起转录在正向链和反向链两者上终止。在一些实施方案中，提供了逆转录终止子，其通常仅在反向链上终止转录。

在原核系统中，终止子通常分为两类：(1)不依赖rho的终止子和(2)依赖rho的终止子。不依赖rho的终止子通常由以下构成：形成富含G-C碱基对的茎环的回文序列，随后是几个T碱基。不希望受理论束缚，常规的转录终止模型是茎环引起RNA聚合酶暂停，并且聚A尾部的转录导致RNA：DNA双链体解旋和从RNA聚合酶上解离。

在真核系统中，终止子区域可包含特定DNA序列，其允许新转录物的位点特异性切割以暴露聚腺苷酸化位点。该序列向特定的内源性聚合酶发信号以将一段约200个A残基(聚A)添加至转录物的3’端。用这种聚A尾部修饰的RNA分子似乎更稳定并且更有效地翻译。因此，在涉及真核生物的一些实施方案中，终止子可包含用于切割RNA的信号。在一些实施方案中，终止子信号促进信使(message)的聚腺苷酸化。终止子和/或聚腺苷酸化位点元件可用于提高输出核酸水平和/或使核酸之间的通读最小化。

根据本公开内容使用的终止子包括本文中所述的或本领域普通技术人员已知的任何转录终止子。终止子的实例包括但不限于基因的终止序列，例如牛生长激素终止子以及病毒终止序列例如SV40终止子、spy、yejM、secG-leuU、thrLABC、rrnB T1、hisLGDCBHAFI、metZWV、rrnC、xapR、aspA和arcA终止子。在一些实施方案中，终止信号可以是不能被转录或翻译的序列，例如由序列截短产生的序列。

根据本公开内容，可使用其他诱导型启动子系统。

细胞

如本文中提供的待改造供使用的细胞可以是任何细胞或宿主细胞。如本文中所定义的，“细胞”或“细胞系统”是所有已知的独立活生物体的基本结构和功能单元。它是被归类为活物(living thing)的最小的生命单位。一些生物体(例如大多数细菌)是单细胞的(由单个细胞组成)。其他生物体(例如人)是多细胞的。

在一些实施方案中，根据本发明使用的细胞是原核细胞，其可包含细胞囊膜(envelope)以及含有细胞基因组(DNA)和核糖体和多种内含物的胞质区。在一些实施方案中，细胞是细菌细胞。如本文中使用的，术语“细菌”涵盖细菌的所有变体，例如原核生物和蓝细菌。细菌是小的(典型的线性尺寸为约1微米)、非区室化的，具有环状DNA和70S的核糖体。术语细菌还包括真细菌(Eubacteria)和古细菌(Archaebacteria)的细菌细分。真细菌可以进一步分为革兰氏阳性和革兰氏阴性真细菌，这取决于细胞壁结构的差异。本文中还包括仅基于总体形态分类的那些(例如，球菌、杆菌)。在一些实施方案中，细菌细胞是革兰氏阴性细胞，在一些实施方案中，细菌细胞是革兰氏阳性细胞。根据本发明可使用的细菌细胞的实例包括但不限于来自如下的细胞：耶尔森菌属(Yersinia spp.)、埃希氏菌属(Escherichia spp.)、克雷伯氏菌属(Klebsiella spp.)、博德特氏菌属(Bordetellaspp.)、奈瑟菌属(Neisseria spp.)、气单胞菌属(Aeromonas spp.)、弗朗西斯氏菌属(Franciesella spp.)、棒状杆菌属(Corynebacterium spp.)、柠檬酸杆菌属(Citrobacterspp.)、衣原体属(Chlamydia spp.)、嗜血杆菌属(Hemophilus spp.)、布鲁氏菌属(Brucella spp.)、分枝杆菌属(Mycobacterium spp.)、军团菌属(Legionella spp.)、红球菌属(Rhodococcus spp.)、假单胞菌属(Pseudomonas spp.)、螺杆菌属(Helicobacterspp.)、沙门氏菌属(Salmonella spp.)、弧菌属(Vibrio spp.)、芽孢杆菌属(Bacillusspp.)、丹毒丝菌属(Erysipelothrix spp.)、沙门氏菌属、链丝菌属(Stremtomyces spp.)。在一些实施方案中，细菌细胞来自金黄色葡萄球菌(Staphylococcus aureus)、枯草芽孢杆菌(Bacillus subtilis)、丁酸梭菌(Clostridium butyricum)、乳发酵短杆菌(Brevibacterium lactofermentum)、无乳链球菌(Streptococcus agalactiae)、乳酸乳球菌(Lactococcus lactis)、乳明串珠菌(Leuconostoc lactis)、链霉菌属(Streptomyces)、伴放线放线杆菌(Actinobacillus actinobycetemcomitans)、拟杆菌属(Bacteroides)、蓝细菌、大肠杆菌、幽门螺杆菌(Helobacter pylori)、反刍月形单胞菌(Selnomonasruminatium)、宋内志贺菌(Shigella sonnei)、运动发酵单胞菌(Zymomonas mobilis)、蕈状支原体(Mycoplasma mycoides)、齿垢密螺旋体(Treponema denticola)、苏云金芽孢杆菌(Bacillus thuringiensis)、里昂葡萄球菌(Staphlococcus lugdunensis)、酒明串珠菌(Leuconostoc oenos)、干燥棒状杆菌(Corynebacterium xerosis)、植物乳杆菌(Lactobacillus plantarum)、粪链球菌(Streptococcus faecalis)、凝结芽孢杆菌(Bacillus coagulans)、蜡状芽孢杆菌(Bacillus ceretus)、金龟子芽孢杆菌(Bacilluspopillae)、集胞藻属(Synechocystis)菌株PCC6803、液化芽孢杆菌(Bacillusliquefaciens)、Pyrococcus abyssi、Selenomonas nominantium、希氏乳杆菌(Lactobacillus hilgardii)、野鼠链球菌(Streptococcus ferus)、戊糖乳杆菌(Lactobacillus pentosus)、脆弱拟杆菌(Bacteroides fragilis)、表皮葡萄球菌(Staphylococcus epidermidis)、运动发酵单胞菌、暗色产色链霉菌(Streptomycesphaechromogenes)、加纳链霉菌(Streptomyces ghanaenis)、盐杆菌(Halobacterium)菌株GRB或富盐菌属(Halobaferax sp.)菌株Aa2.2。

在一些实施方案中，根据本公开内容使用的细胞是真核细胞，其包含其中发生特定代谢活动的膜结合区室，例如细胞核。根据本发明使用的真核细胞的实例包括但不限于哺乳动物细胞、昆虫细胞、酵母细胞(例如，酿酒酵母(Saccharomyces cerevisiae))和植物细胞。在一些实施方案中，真核细胞来自脊椎动物。根据本发明使用的脊椎动物细胞的实例包括但不限于生殖细胞(包括精子、卵细胞和胚胎细胞)以及非生殖细胞(包括肾细胞、肺细胞、脾细胞、淋巴细胞、心脏细胞、胃细胞、肠细胞、胰腺细胞、肌细胞、骨细胞、神经细胞、脑细胞和上皮细胞)。也可以使用干细胞(包括胚胎干细胞)。

如以下实施例中详述的，通过使用重组酶来操纵由重叠和正交重组酶识别位点组装的DNA寄存器来创建状态机。使用数学框架来分析状态机的信息容量和可扩展性并理解其限制。对于固定数量的输入，由RSM实现的信息容量远大于传统的组合回路的信息容量。此外，创建了科学共同体(scientific community)可以访问的丰富的数据库(在实施例14和实施例15中)以使得能够实现实施2-输入、5-状态基因调控程序的GRSM寄存器的自动设计。

RSM框架通过构建2-输入、5-状态和3-输入、16-状态RSM进行验证，用Sanger测序和qPCR对其进行测试，并将其应用于构建依赖于状态的基因调控程序。本公开内容的状态机不同于用于遗传编程的其他策略，例如无状态的组合布尔逻辑门(33-44)、未集成多个输入的单元计数器(20)、不能对单回路中的所有可能的输入标识和置换进行报告的时间逻辑回路(23)，以及不使用重叠的重组酶识别位点并因此不能执行依赖于顺序的输入处理的其他多输入基于重组酶的回路(21、22)。

尽管在细菌中实现了RSM，但是本文中提供的框架将可扩展至其中重组酶起作用的其他生物体。例如，可使用在此使用的大丝氨酸重组酶(BxbI、TP901和A118)以及在哺乳动物细胞中催化重组的φC31、φFC1、φRV1、U153和R4(45-48)。

鉴定在不同生物体中发挥作用的另外的重组酶可扩大我们的框架的适用性。通过蛋白质例如重组方向性因子并入可逆重组事件也应当能够使得能够实现基因调控状态之间的可逆转换(15)。取决于期望的应用，在此用于驱动RSM的原型诱导型启动子可被对应于待记录的期望信号的传感器(sensor)代替。这样的传感器不一定必须基于转录调控，只要它们可以控制重组酶活性即可。

将RSM集成到复杂系统中将使研究人员能够调查时间分布式事件，而无需连续监测和/或采样。例如，通过将RSM并入肿瘤模型中，科学家可记录单个癌细胞中癌基因活化和肿瘤抑制基因失活事件的身份和顺序，并进一步将该信息与来自转录组学分析或药物分析的表型数据相关联。在TET2(肿瘤抑制基因)和JAK2(原癌基因)两者中包含突变的骨髓增生性肿瘤的最近研究中，发现突变发生的顺序在确定疾病表型(包括对治疗的敏感性)中发挥作用(8)。该研究强调了顺序依赖性在其他恶性肿瘤中的潜在影响以及研究它们的重要性。基于来自GRSM的报道基因表达的细胞分选可以用于分离暴露于不同的基因调控扰动身份和顺序的细胞，其随后可以被进一步研究以确定功能细胞差异。

除了记录和响应自然存在的信号以外，RSM还应用于用户对控制它们的信号进行应用的情况下。例如，RSM可以产生不仅基于同时输入组合，还可以由输入顺序产生的基因表达。因此，它们可用于生物工程师在存在有限数量的控制信号的细胞株中编程多个功能的情况下。例如，它们可用于基于仅几个输入的顺序和身份来将细胞分化向下编程至许多不同的细胞命运路径。

除了应用于生物研究和工程之外，本文中所述的工作还揭示了重组酶系统的令人感兴趣的数学结构。乍看之下，重组酶操作的非交换行为表明RSM中可能的状态的数量与其并入的重组酶的数量之问可存在超指数关系。实际上，我们的结果表明状态数量是指数关联的(框1、实施例7和实施例8)。

实施例

实施例1.基于重组酶的状态机部分和操作

在RSM中，化学信号充当输入并且状态由DNA规定区域(称为“寄存器”)内的DNA序列限定。化学信号通过诱导大的丝氨酸重组酶的表达来介导状态转变，所述大的丝氨酸重组酶催化寄存器上的重组事件，从而改变状态。具体地，每个重组酶识别寄存器上的对应DNA识别位点对(attaP(来源于噬菌体)和attB(来源于其细菌宿主))，并在它们之间进行重组反应，产生attL和attR位点(由attB和attP的联合半部分构成)(24、25)。在不存在额外的辅因子的情况下，该反应是不可逆的(实施例6和图8A-8B)(26-28)。对应attB-attP(attB与attP)对中的每个位点均具有决定其极性的匹配的中心二核苷酸(29、30)。如果这两个位点在寄存器上反对齐(以相反极性定向)，则它们的重组结果是它们之间的DNA倒位(图2A；图S2A)。或者，如果两个位点在寄存器上对齐(以相同极性定向)，则它们的重组结果是它们之间的DNA切除(图2A；图S2B)。假定从寄存器上切除的DNA片段由于缺乏复制起点而丢失。

当RSM有多个输入时，它们可以各自驱动不同的重组酶，这些重组酶仅在它们自己的attB-attP对上操作。在文献中已经描述和测试了至少25个(假定正交的)大的丝氨酸重组酶(18、25)，并且生物信息学挖掘可以用于发现更多(18)。多个重组酶的识别位点可以以多种不同的方式布置在寄存器上。如果来自不同重组酶的attB-attP对嵌套(nested)或重叠(overlapping)，则一个重组酶的操作可以通过重新布置其attB和attP位点的相对方向，或者从寄存器中切除一对中的一个或两个位点，从而排除这些位点上的任何类型的下游操作来影响后续重组酶的操作。例如，如果我们考虑图2C中的初始寄存器设计，则应用输入“B→A”导致产生唯一的DNA序列，但应用“A→B”则导致产生与如果我们仅应用“A”的情况下所预期的相同DNA序列，这是因为“A”驱动的重组酶切除了“B”驱动的重组酶的位点。

我们通过RSM可以访问的不同状态的数量和因此RSM可以区分的输入的置换子串的数量来测量RSM的“信息容量”。考虑到寄存器上的重组酶操作的非交换性质，人们可能单纯地认为，对于N个输入，RSM的信息容量会表现得像N！。但是，如果RSM被设计成使得每个输入驱动的重组酶在寄存器上仅具有一个attB-attP对，则RSM的信息容量绝不会超过2^N-这是如重组酶操作可交换的情况下我们所预期的结果(框1、实施例7)。为了避免这种信息瓶颈，寄存器必须设计为每个重组酶具有多对正交attB-attP。可以通过使天然attB-attP对中的每个位点的中心二核苷酸突变来设计用于重组酶的正交attB-attP对(29-31)。具有相同中心二核苷酸序列的位点对应当重组，但是如果中心二核苷酸序列不匹配，则不应当重组(图2D、图S2C)。

实施例2.构建2-输入、5-状态基于重组酶的状态机

为了实现对于2个输入的每个置换子串进入不同状态(总计5个)的RSM，对于一个重组酶使用两个正交的attB-attP对和对于另一个重组酶使用一个attB-attP对是足够的。图3A示出了RSM设计及其状态图的详细表示。该RSM由两种质粒组成：输入质粒和输出质粒。处于高拷贝数的输入质粒分别表达来自脱水四环素(ATc)诱导型P_Ltet0启动子和阿拉伯糖(Ara)诱导型P_BAD启动子的两种大的丝氨酸重组酶BxbI和TP901。处于单拷贝数的输出质粒包含由输入质粒表达的重组酶修饰的寄存器。

寄存器最初由对齐的BxbI attB-attP对和两个反对齐且正交的TP901attB-attP对构成。如果首先将ATc引入系统，则BxbI被表达并切除其对应识别位点对(其包括TP901的识别位点)内的DNA。随后将Ara引入系统诱导TP901的表达，TP901在寄存器的外边缘重组其对应识别位点，从而使其间的所有部分反向。相反地，如果首先将Ara引入系统，则外部TP901位点使寄存器边缘之间的所有部分反向，并且内部TP901位点使寄存器的内部部分反向，从而将BxbI识别位点设置为反对齐配置。随后将ATc应用于系统使BxbI位点之间的DNA序列反向。结果，输入的每个置换子串在寄存器上产生独特的DNA序列。

为了评估RSM在大肠杆菌(大肠杆菌)中的表现，我们培养了5个细胞群，所述细胞群用输入ATc和Ara的所有5个置换子串(无输入、仅ATc、仅Ara、ATc→Ara和Ara→ATc)处理。我们在3个生物学重复中的每一个中对来自每个群体的至少22个细胞菌落中的寄存器进行Sanger测序，以确定具有预期DNA序列的细胞的百分比(图3B)(32)。用输入的每个置换子串处理的所有细胞的至少97％采用了预期状态，从而证实了我们的RSM的保真度(fidelity)。表1提供了未处于预期状态的测序寄存器的信息。

由于我们的Sanger测序读出的状态是低通量的，因此我们还开发了基于定量PCR(qPCR)的方法来方便地在全群体水平上询问状态。我们的寄存器中的DNA片段的切除和倒位允许设计在一些状态下扩增而在另一些状态下不扩增的引物对。我们创建了计算机程序基于PCR的状态询问工具(PSIT)，以确定唯一地识别给定寄存器的每个状态的所有可能的引物对组(图10、实施例16)。对于我们的2-输入、5-状态RSM，我们选择了一组3个引物对并对从用ATc和Ara输入的所有可能的置换子串处理的每个细胞群中分离的DNA进行qPCR。对于我们组中的每个引物对计算扩增的寄存器DNA的分数量，并与如果每个群体中的所有细胞仅采用5种可能状态中的一种我们所预期的相比较(32)。与我们的测序结果一致，所有实验群体的qPCR测量结果与如果每个群体中的所有细胞均采用其预期状态我们所预期的最相似(图11)。

实施例3.扩大基于重组酶的状态机

我们开发了用于构建对于输入的每个置换子串进入独特状态(对于N个输入约eN！个状态，参见实施例9、实施例10、表2)的RSM的模块化寄存器设计策略。对于N个输入，设计策略对于每个重组酶使用N-1个识别位点，因此限于至多7个输入(13700个状态)的寄存器设计，因为每个大的丝氨酸重组酶仅可以产生6个正交且定向的attB-attP对(31)。

由于图3A所示的2-输入、5-状态RSM仅表示信息容量较可通过组合计算实现的2-输入、4-状态系统微小提高，我们试图进一步展示由我们的RSM框架通过扩大至3-输入、16-状态RSM实现的信息容量(图4A和图12)。该状态机的输入质粒在2，4-二乙酰基间苯三酚(DAPG)诱导型PPhlF启动子系统下表达额外的重组酶A118，并且其寄存器对于3个重组酶中的每一个使用两个正交的attB-attP对(按照实施例10中的设计策略)。

为了评估这种RSM在大肠杆菌中的表现，我们培养了16个细胞群，所述细胞群用输入ATc、Ara和DAPG的所有16个置换子串处理。我们在3个生物学重复中的每一个中对来自每个群体的5至6个细胞菌落中的寄存器进行测序，以确定具有预期DNA序列的细胞的百分比(图4B)(32)。在大多数群体中，100％的细胞采用了它们的预期状态，即使在表现最差的群体(ATc→Ara→DAPG)中，也有88％的细胞采用了它们的预期状态。表1提供了未处于预期状态的测序寄存器的信息。我们还通过qPCR与由PSIT阐明的一组6个引物对来测量每个群体的主要状态(32)。与我们的测序结果一致，所有实验群体的qPCR测量结果与我们在每个群体中的所有细胞均采用其预期状态的情况下所预期的结果最相似(图13)。

实施例4.基因调控的基于重组酶的状态机

我们的状态机框架使得能够创建指定在每个状态下应当表达或不表达哪些基因的依赖于状态的基因调控程序。这对于广泛的生物应用可能是有用的，例如编程合成分化级联，将生物事件的身份和顺序编码成可选择的或可分类的报道基因，或者将基因扰动靶向经历特定生物事件顺序的细胞。基因调控程序可以通过将基因调控元件(例如启动子、终止子和基因)并入到我们的RSM的寄存器中来实现。然后这些元件在每个状态下的重新排列应当以可预测的方式改变基因表达。这样的RSM是来自自动机理论的Moore机的生物实现，其中每个状态均与一组输出有关(1)。在此，我们将它们称为基因调控的基于重组酶的状态机(gene-regulatory recombinase-based state machine，GRSM)。

为了帮助研究人员设计用于期望的基因调控程序的回路，我们创建了2-输入、5-状态GRSM寄存器的大型可检索数据库。为了编译该“GRSM数据库”(图5)，我们首先列举了可由来自图3A的经我们验证的5-状态寄存器中的每个重组酶识别位点之前和之后的交叠的功能不同部分(由终止子、组成型启动子和基因制成；更多详细信息参见实施例11)得到的所有可能的寄存器。我们对于基因转录评估了每个寄存器的每个状态，并且集合实现相同基因调控程序的寄存器。在该评估步骤期间，我们假设所有基因在其3’端均具有双向终止子，因此不允许RNA聚合酶穿越基因(在任一方向上)转录另一个基因的可能性。我们还假设寄存器中的每个基因都是不同的。做出这些假设以简化寄存器设计并将数据库保持在可管理的大小以进行快速计算检索。

为了避免数据库中的冗余，如果任何具有多余部分的寄存器(包含终止子、启动子或在任何状态下不影响基因调控的基因)的“母(parent)”寄存器[除了不具有多余部分以外的相同寄存器]也表示在数据库中，则将所述任何具有多余部分的寄存器从数据库中移除。此外，将在每个状态下不转录基因或转录相同基因的所有寄存器从数据库中移除，因为这种基因调控的实现不是必要的。

所得的数据库(实施例14)包含实施174,264个基因调控程序的总计5,192,819个GRSM寄存器。就没有两个寄存器在所有相同的位置上都具有相同的部分的意义而言，每个寄存器都是不同的。数据库中的寄存器调节从1至14个基因的任何位置的转录(图14A)。调节多达3个基因的任何期望程序的寄存器很可能在数据库中，所述数据库包括100％的可能的1-基因调控程序、95％的可能的2-基因调控程序和61％的可能的3-基因调控程序(图14B)。此外，27％的可能的4-基因调控程序表示在数据库中，但是百分比急剧下降超过该值，因为可能的基因调控程序的数量随着每个另外的基因指数增长(实施例12)。人们可以应用直接的基因置换原则以超出数据库中所表示的调控程序的范围，例如，通过用相同基因的拷贝替换寄存器上的多个不同基因，或用多顺反子操纵子替换基因(图15)。为了方便地利用GRSM数据库进行设计或探索，我们创建了接受用户指定的基因调控程序并从数据库中返回可用于实现其的所有寄存器的检索函数(图5、实施例15)。

为了在大肠杆菌中产生功能性GRSM，除了用来自我们的数据库的寄存器代替输出质粒以外，我们实施了与我们的2-输入、5-状态RSM相同的输入-输出质粒方案(图3A)。在寄存器上建立荧光蛋白(FP)基因以评估基因调控表现。我们培养了用输入ATc和Ara的所有5个置换子串处理的细胞群，然后对每个群体使用流式细胞术以测量具有不同FP表达谱的细胞的百分比(32)。我们成功地实施了四个单基因调控程序(图6A-D)和一个多基因调控程序(其中在每个状态下表达3种不同FP的独特亚单位，图6E)，其中至少94％的来自每个实验群体的细胞采用预期的FP表达谱。这些GRSM使得能够实现对细胞事件的身份和顺序进行方便的基于荧光的报道。例如，来自图6E的GRSM允许我们使用流式细胞术评估基础RSM随着输入持续时间的提高(以1小时步长)的表现(图16A-16E)。我们的研究结果证明，2小时的输入持续时间足以使大多数细胞采用其预期状态。

因为当基因调控部分被组装成特定的布置时可以产生不可预测的行为，因此某些GRSM可能无法按预期实现基因调控程序。事实上，当我们最初测试预期在仅暴露于输入Ara或ATc→Ara之后表达绿色荧光蛋白(GFP)的GRSM时就是这种情况(图17A)(32)。我们使用来自我们的数据库的不同寄存器构建了比初始GRSM表现好的两种替代GRSM而不是调试，其中之一对于每个实验群体具有至少95％的具有预期基因表达谱的细胞(图17C)。一般来说，我们的数据库中表示的许多基因调控程序具有多个可以将其实现的可能的寄存器(图18)。例如，大多数1-基因调控程具有至少373个可能的寄存器，大多数2-基因调控程序具有至少55个可能的寄存器，大多数3-基因调控程序具有至少14个可能的寄存器。即使对于数据库中调节多达14个基因的程序，大多数具有至少有4个可以将其实现的可能的寄存器。这种高度简并(degenerate)的设计空间提供了在特定寄存器不能执行某一标准的情况下可以充当彼此的替代物的一系列GRSM寄存器。另外的计算和实验得到的规则可以使得能够对候选寄存器针对其成功的基因调控功能的可能性进行分级。

为了证明GRSM的可扩展性，我们通过将基因部分交叠到来自图4A的寄存器中来构建2个3-输入、16-状态GRSM。一个GRSM用作仅在其接收输入Ara→DAPG→ATc时才开启基因(蓝色荧光蛋白)表达的3输入密码开关(图7A)。另一个GRSM在默认情况下表达基因(GFP)，并且如果它接收到任何不沿着Ara→DAPG→ATc轨迹的输入，则将其关闭。两种GRSM均在大肠杆菌中实现，并用输入ATc、Ara和DAPG的所有16个置换子串进行测试(32)。流式细胞术揭示至少93％的来自每个实验群体的细胞采用预期的基因表达谱。因此，使用我们的设计框架可以实现有效地发挥作用的可扩展GRSM。

材料和方法(对于实施例1-4)

菌株、培养基、抗生素和诱导物

所有质粒均在大肠杆菌菌株DH5αPRO(F-Ф801acZΔM15Δ(lacZYA-argF)U169deoR recA1 endA1 hsdR17(rk^-，mk⁺)phoA supE44thi-1 gyrA96 relA1 λ^-，P_N25/tet^R，P_laciq/lacI，Sp^r)中实施和测试。所有实验均在补充有0.4％甘油的Azure Hi-Def培养基(Teknova，Hollister，美国)中进行。为了克隆，如在“质粒构建和克隆”部分中指出的，我们使用大肠杆菌菌株DH5αPRO或EPI300(F-mcrA Δ(mrr-hsdRMS-mcrBC)Ф801acZM15ΔlacX74 recA1 endA1 araD139Δ(ara，leu)7697 gaIU galK λ^-rpsL(Str^R)nupG trfAdhfr)。如在“质粒构建和克隆”部分中指出的，所有克隆均在Luria-Bertani(LB)-Miller培养基(BD Difco)或Azure Hi-Def培养基中完成。通过将LB与1.5％w/v琼脂(Apex)混合来制备LB平板。对于克隆和实验两者，以以下浓度使用抗生素：氯霉素(25μg/ml)和卡那霉素(30μg/ml)。对于实验，以以下浓度使用诱导物：ATc(250ng/ml)、Ara(1％w/v)和DAPG(25μM)。

质粒构建和克隆

所有质粒均使用基础分子克隆技术和Gibson组装(49、50)构建。表3和4给出了相关部分、其序列及它们源自的来源的列表。

所有输入质粒(pNR64和pNR220)均具有卡那霉素抗性盒(kanR)和ColE1(高拷贝)复制起点。输入质粒pNR64改编自来自Bonnet等(2013)(Addgene#44456)的双重组酶控制器。我们用kanR代替该双重组酶控制器中的氯霉素抗性盒以制备pNR64。为了制备pNR220，我们将来自Nielsen等(36)的PhlF启动子系统插入到pNR64上以驱动A118重组酶的表达，所述A118重组酶由Dr.James Thomson(USDA-ARS WRRC，Albany，CA)赠送给我们。为了在没有任何输入的情况下严格控制A118，我们表达了来自强组成型proD启动子的phlF基因(负责抑制P_PhlF的转录)(51)。将所有输入质粒转化到化学感受态大肠杆菌菌株DH5αPRO中，随后使用QIAprep Spin Miniprep试剂盒分离并用Sanger测序(QuintaraBiosciences)进行验证。

所有输出质粒(pNR160、pNR163、pNR164、pNR165、pNR166、pNR186、pNR187、pNR188、pNR291、pNR292和pNR284)具有氯霉素抗性盒(camR)，并且在细菌人工染色体(bacterialartificial chromosome，BAC)载体骨架上构建以确保低拷贝数，因为我们理想地想要每个单元约1个寄存器。我们使用的BAC来源于Wild等(52)，并且能够在EPI300细胞中用拷贝控制(Epicentre)诱导至更高的拷贝数。由Integrated DNA Technologies合成pNR160和pNR188的attB和attP识别位点串并将其克隆到它们各自的骨架中。为了构建所有GRSM输出质粒(pNR163、pNR164、pNR165、pNR166、pNR186、pNR187、pNR291、pNR292和pNR284)，我们使用Gibson组装将pNR160(对于2-输入、5-状态)和pNR188(对于3-输入、16-状态)上的识别位点阵列与启动子、终止子和基因交叠。为了防止我们的质粒发生不想要的重组，我们避免在相同的质粒上重复使用相同的部分序列。对于启动子，我们使用proD、BBa_R0051和BBa_J54200，它们先前全部被表征为具有强表达(53)。proD启动子是绝缘启动子，它有助于在不同环境下的一致性能(51)。我们将Hsu等(54)中表征的20nt初始转录序列(分别为ATATAGTGAACAAGGATTAA(SEQ ID NO：1)和ATAGGTTAAAAGCCAGACAT(SEQ ID NO：2))上游的两个启动子BBa_R0051和BBa_J54200融合，并且分别命名为连接部分proNR3和proNR4。我们从Chen等(55)中表征的经验证的强且序列多样的终止子组中选择终止子用于我们的GRSM。我们常常构建串联终止子以提高终止效率。最后，我们使用荧光报道基因gfpmut3b(56)、mrfp(57)和mtagbfp(58)以产生输出。使用Salis Lab RBS计算器(59)优化每个基因的核糖体结合位点(ribosome binding site，RBS)。在每个RBS的上游，我们融合了自切割锤头状核酶以防止上游5’非翻译转录区干扰下游基因的翻译(60)。将所有输出质粒转化到化学感受态大肠杆菌菌株EPI300或DH5αPRO中，随后使用QIAprep Spin Miniprep试剂盒分离并用Sanger测序(Quintara Biosciences)进行验证。

如同输出质粒，用于测试本研究中使用的各种重组酶的正向(attB-attP→attL-attR)和反向(attL-attR→attB-attP)重组效率的所有质粒(参见图8A-8B)均具有氯霉素抗性盒(camR)，并在细菌人工染色体(BAC)上构建。正向反应测试质粒(对于BxbI为pNR230、对于A118为pNR239以及对于TP901为pNR276)各自用正向定向proD启动子下游的反向定向gfpmut3b(与和上述输出质粒上相同的RBS和核酶连接)以及侧接基因的对应重组酶的反对齐attB和attP位点构建。将每个正向反应测试质粒转化到化学感受态大肠杆菌菌株DH5αPRO中，随后使用QIAprep Spin Miniprep试剂盒分离并用Sanger测序(Quintara Biosciences)进行验证。为了产生逆反应测试质粒(对于BxbI为pNR279、对于A118为pNR280以及对于TP901为pNR287)，我们将每个正向反应测试质粒转化到含有pNR220输入质粒的化学感受态大肠杆菌菌株DH5αPRO中，对于每个测试诱导对应重组酶质粒，并使用QIAprep Spin Miniprep试剂盒从细胞中分离重组质粒。然后将每个逆反应测试质粒转化到化学感受态大肠杆菌菌株DH5αPRO中，随后使用QIAprepSpin Miniprep试剂盒再次分离并用Sanger测序(Quintara Biosciences)进行验证。进行这些测试质粒的第二次转化和分离步骤以将它们与pNR220质粒分离，所述pNR220质粒在第一次分离步骤之后不可避免地存在于纯化的DNA溶液中。

RSM实现

所有RSM均是用双质粒系统(输入质粒和输出质粒)实现的。表5示出了每个RSM以及用于实现它们的输入和输出质粒的名称。根据期望的基因调控程序，所有2-输入RSM使用pNR64输入质粒与多种输出质粒。根据期望的基因调控程序，所有3-输入RSM使用pNR220输入质粒与多种输出质粒。

对于2-输入、5-状态RSM，输入质粒(pNR64)和输出质粒被同时转化到化学感受态大肠杆菌DH5αPRO细胞中。转化后，将细胞铺在具有氯霉素和卡那霉素的LB平板上。使用来自这些平板的菌落来启动RSM测试实验(参见下文“测试”部分)。

对于3-输入、16-状态RSM，我们首先将输入质粒(pNR220)转化到化学感受态大肠杆菌DH5αPRO细胞中，并将转化体铺在具有卡那霉素的LB平板上。随后，我们在AzureHi-Def培养基(具有卡那霉素)中接种菌落并在37℃下生长过夜，然后1∶2000稀释到新鲜培养基(与过夜培养基相同的培养基)中并使其在37℃下重新生长至OD600为0.2-0.5。然后使来自该培养物的细胞成为化学感受态并用输出质粒转化。在这种情况下连续转化的目的是允许phlF基因(在输入质粒上)以足够高的水平表达以抑制由P_PhlF启动子(也在输入质粒上)的A118重组酶的表达的时间。这是为了确保在输出质粒被引入系统时重组酶水平最低；否则输出质粒上的寄存器可能在化学诱导事件的实际发生之前错误地记录其。输出质粒转化后，将细胞铺在具有氯霉素和卡那霉素的LB平板上。使用来自这些平板的菌落来启动RSM测试实验(参见下文“测试”部分)。

用于测试来自图3A的2-输入、5-状态RSM的实验

为了测试一个生物学重复的2-输入、5-状态RSM，将含有输入质粒pNR64和输出质粒pNR160的大肠杆菌细胞菌落接种到具有卡那霉素和氯霉素的培养基中，在37℃下生长过夜(约18小时)，并经受两轮诱导，随后是一轮生长。对于第一轮诱导，将过夜培养物1∶250稀释到不含诱导物的各培养基、具有ATc的培养基和具有Ara的培养基中，并在30℃下生长18小时。对于第二轮诱导，然后将这3种培养物1∶250再次稀释到新鲜培养基中：将未诱导的培养物再次稀释到不含诱导物的培养基中，将ATc诱导的培养物稀释到不含诱导物的各培养基和具有Ara的培养基中，以及将Ara诱导的培养物稀释到不含诱导物的各培养基和具有ATc的培养基中。使这些培养物再次在30℃下生长18小时。所得的培养物表示5个用输入ATc和Ara的所有5个置换子串处理的细胞群。最后，为了生长，将这些培养物1∶250稀释到不含诱导物的培养基中，并在37℃下生长约18小时。这个最后生长的目的是使所有细胞群相对于无诱导物的条件归一化，使得检测到的群体之间的差异可以归因于它们的输入历史而不是它们当前的环境。对于每个生物学重复，用不同的起始菌落重复该实验。所有培养物均在以900rpm摇动的250μL培养基(在96孔板中)中培养。所有培养基均含有氯霉素和卡那霉素。用测序测定和qPCR测定(参见下文)分析来自实验的最终群体。

用于测试来自图3A的2-输入、5-状态RSM的测序测定

对于测序测定，将来自先前部分(来自3个生物学重复中的每一个)的5个实验群体中的每一个以1∶10⁶稀释，铺(100μl)到具有氯霉素和卡那霉素的LB平板上，并在37℃下生长过夜，使得每个所得菌落表示来自每个实验群体的单个细胞的克隆群体。用菌落PCR扩增来自每个平板的约24(至少22个)菌落(实验群体)的输出质粒上的寄存器区域，并送至Sanger测序(Quintara Biosciences)。来自测序反应的色谱图与预期的寄存器序列对齐以确定它们是否匹配。合计来自所有3次重复的结果，并且图3B显示了匹配其预期序列的细胞的百分比。

用于测试来自图3A的2-输入、5-状态RSM的定量PCR测定

对于qPCR测定，用QIAprep Spin Miniprep试剂盒分离来自先前部分(来自3个生物学重复中的每一个)的5个实验群体中的每一个的质粒，并将其用作qPCR反应中的模板。使用KAPAFAST Master Mix并根据Kapa Biosystems推荐的方案(每种引物200nM，10μl 2x master mix，以及在20μl反应中不超过20ng的模板)，在Roche LightCycler 96实时系统上进行所有qPCR反应。每个模板用由PSIT(对于描述参见“PCR-based StateInterrogation Tool”部分，以及对于程序参见实施例16)阐明的3个引物对(“pp1”、“pp2”和“pp3”)中的每一个以及扩增输出质粒的骨架的归一化引物对(“ppN”)进行qPCR扩增。图19示出了与3个PSIT引物对结合的寄存器上的区域以及它们应该扩增的寄存器状态。表6给出了引物序列。与实验模板一起，我们还进行了每个引物对与完全由输出质粒组成的对照模板的qPCR反应，所述输出质粒包含将通过每个引物对进行扩增的寄存器状态“S3”(参见图19)。我们从我们的经Ara处理的大肠杆菌群体中分离这种输出质粒，并对其进行序列验证以确保寄存器状态与S3匹配。我们将对于每个实验模板(“t1”、“t2”、“t3”、“t4”或“t5”)由每个引物对(pp1、pp2或pp3)扩增的输出质粒的“分数量”计算为：

其中tx是目的实验模板(t1、t2、t3、t4或t5)，ppy是目的引物对(pp1、pp2或pp3)，tc是对照模板(S3中的输出质粒)，ppn是归一化引物对(ppN)，以及Cq是来自模板和以其下标表示的引物对的qPCR反应的Cq值。

由这些f_tx，ppy值，我们对于每个实验模板创建了qPCR结果向量f_tx：

f_tx＝[f_tx，pp1，f_tx，pp2，f_tx，pp3]

将该结果向量与如果模板完全由来自我们的RSM中的一个特定状态的寄存器组成我们将得到的理论结果向量相比较f_ts：

f_ts＝[f_ts，pp1，f_ts，pp2，f_ts，pp3]

其中ts是完全由来自一个状态(S1、S2、S3、S4或S5)的寄存器组成的模板。根据特定引物对ppy是否放大该状态，f_tx，ppy值为0或1(图19)。f_tx与f_ts的相似性通过欧几里德距离D_tx，ts来量化：

对于3个生物学重复中的每一个，图11中的热图中显示了每个实验得到的模板的qPCR结果向量与每个状态的理论qPCR结果向量之间的欧几里德距离。

用于测试来自图4A的3-输入、16-状态RSM的实验

为了测试一个生物学重复的3-输入、16-状态RSM，将含有输入质粒pNR220和输出质粒pNR188的大肠杆菌细胞菌落接种到具有卡那霉素和氯霉素的培养基中，在37℃下生长过夜(约18小时)，并经受三轮诱导，随后是一轮生长。对于第一轮诱导，将过夜培养物1∶250稀释到不含诱导物的各培养基、具有ATc的培养基、具有Ara的培养基和具有DAPG的培养基中，并在30℃下生长24小时。对于第二轮诱导，将这4种培养物1∶250再次稀释到新鲜培养基中：将未诱导的培养物稀释到不含诱导物的培养基中，将ATc诱导的培养物稀释到不含诱导物的各培养基、具有Ara的培养基和具有DAPG的培养基中；将Ara诱导的培养物稀释到不含诱导物的各培养基、具有ATc的培养基和具有DAPG的培养基中。以及将DAPG诱导的培养物稀释到不含诱导物的各培养基、具有ATc的培养基和具有Ara的培养基中。使这些培养物再次在30℃下生长24小时。对于第三轮诱导，将这10个培养物中的每一个再次以1∶250稀释到新鲜培养基中：将未诱导→未诱导的培养物稀释到不含诱导物的培养基中；将ATc→未诱导的培养物稀释到不含诱导物的培养基中；将ATc→Ara培养物稀释到不含诱导物的各培养基和具有DAPG的培养基中；将ATc→DAPG培养物稀释到不含诱导物的各培养基和具有Ara的培养基中；将Ara→未诱导的培养物稀释到不含诱导物的培养基中；将Ara→ATc培养物稀释到不含诱导物的各培养基和具有DAPG的培养基中；将Ara→DAPG培养物稀释到不含诱导物的各培养基和具有ATc的培养基中；将DAPG→未诱导的培养物稀释到不含诱导物的培养基中；将DAPG→ATc培养物稀释到不含诱导物的各培养基和具有Ara的培养基中；以及将DAPG→Ara培养物稀释到不含诱导物的各培养基和具有ATc的培养基中。使这些培养物再次在30℃下生长24小时。所得的培养物表示16个用输入ATc、Ara和DAPG的所有16个置换子串处理的细胞群。最后，为了生长，将这些培养物1∶250稀释到不含诱导物的培养基中，并在37℃下生长约18小时。对于每个生物学重复，用不同的起始菌落重复该实验。所有培养物均在以900rpm摇动的250μL培养基(在96孔板中)中培养。所有培养基均含有氯霉素和卡那霉素。用测序测定和qPCR测定(参见下文)分析来自实验的最终群体。

用于测试来自图4A的3-输入、16-状态RSM的测序测定

对于测序测定，将来自先前部分(来自3个生物学重复中的每一个)的16个实验群体中的每一个以1∶10⁶稀释，铺(100μl)到具有氯霉素和卡那霉素的LB平板上，并在37℃下生长过夜，使得每个所得菌落表示来自每个实验群体的单个细胞的克隆群体。用菌落PCR扩增来自每个平板的5至6个菌落(实验群体)的输出质粒上的寄存器区域，并送至Sanger测序(Quintara Biosciences)。来自测序反应的色谱图与预期的寄存器序列对齐以确定它们是否匹配。合计来自所有3次生物学重复的结果，并且图4B显示了匹配其预期序列的细胞的百分比。

用于测试来自图4A的3-输入、16-状态RSM的定量PCR测定

对于qPCR测定，用QIAprep Spin Miniprep试剂盒分离来自先前部分(来自3个生物学重复中的每一个)的16个实验群体中的每一个的质粒，并将其用作qPCR反应中的模板。与2-输入、5-状态RSM测试一样，使用KAPAFAST Master Mix并根据KapaBiosystems推荐的方案(每种引物200nM，10μl 2x master mix，以及在20μl反应中不超过20ng的模板)，在Roche LightCycler 96实时系统上进行所有qPCR反应。每个模板用由PSIT阐明的6个引物对(“pp1”、“pp2”、“pp3”、“pp4”、“pp5”和“pp6”)中的每一个以及扩增输出质粒的骨架的归一化引物对(“ppN”)进行qPCR扩增。图20示出了与6个PSIT引物对结合的寄存器上的区域以及它们应该扩增的寄存器状态。表7给出了实际的引物序。类似于2-输入、5-状态系统，我们还进行了每个引物对与完全由输出质粒组成的对照模板的qPCR反应，所述输出质粒包含将通过每个引物对进行扩增的寄存器。然而，与2-输入、5-状态RSM不同，不存在将通过每个引物对进行扩增的单个寄存器状态。因此，我们结束使用处于状态“S2”的输出质粒作为pp1、pp4和pp5的对照模板以及处于状态“S8”的输出质粒作为pp2、pp3和pp6的对照模板(图20)。从我们的经ATc处理的大肠杆菌群体中分离具有寄存器状态S2的质粒(并验证序列)，并从我们的经Ara→DAPG处理的大肠杆菌群体中分离具有寄存器状态S8的质粒(并验证序列)。除了推广至6个引物对和16个状态以外，以与我们对于2-输入、5-状态RSM所做的相同的方式，我们继续计算对于每个实验模板通过每个引物扩增的质粒的分数量，然后将每个模板的数据与每个理论状态相比较(用欧几里得距离)。换言之：

f_tx＝[f_tx，pp1，f_tx，pp2，…，f_tx，pp6]

f_ts＝[f_ts，pp1，f_ts，pp2，…，f_ts，pp6]

对于3个生物学重复中的每一个，图13中的热图中显示了每个实验得到的模板的qPCR结果向量与每个状态的理论qPCR结果向量之间的欧几里德距离。

设计来自图6和图17A-17C的GRSM寄存器

我们将所期望的基因调控程序输入到数据库检索函数[在MATLAB R2013b(Mathworks，Natick，美国)中编码；实施例15]中，并接收我们从中选择我们的用于实施的候选者的寄存器的输出列表。表8示出了按照关于如何使用检索函数的说明书(实施例15)我们用于指定我们期望的基因调控程序的MATLAB检索函数输入矩阵，以及我们选择作为我们的寄存器以实施基因调控程序的检索函数输出向量。

用于测试来自图6和图17A-17C的GRSM的实验

测试2-输入、5-状态GRSM的实验按照与测试来自图3A的2-输入、5-状态RSM的实验相同的方式，除了我们对于诱导轮次使用24小时诱导代替18小时诱导，以及我们使用荧光测定(参见“荧光测定”部分)代替用测序和qPCR测定分析实验群体以外。

用于测试来自图7的GRSM的实验

测试3-输入、16-状态GRSM的实验按照与测试来自图4A的3-输入、16-状态RSM的实验相同的方式，除了我们使用荧光测定(参见“荧光测定”部分)代替用测序和qPCR测定分析实验群体以外。

测试图8A-8B中的BxbI、TP901和A118的可逆性

对于我们研究中的每种重组酶(BxbI、TP901和A118)，我们分离了为彼此的重组版本的两种质粒：一种具有attB-attP但不具有GFP表达(对于BxbI为pNR230、对于A118为pNR239、以及对于TP901为pNR276)，另一种具有attL-attR和GFP表达(对于BxbI为pNR279、对于A118为pNR280、以及对于TP901为pNR287)。我们将这些质粒中的每一种转化到含有输入质粒pNR220(如“RSM实施”部分中所述的制备)的化学感受态大肠杆菌DH5αPRO中。为了测量每种转化体的重组，将菌落接种到具有卡那霉素和氯霉素的培养基中，在37℃下生长过夜(约18小时)，并经受一轮诱导，随后是一轮生长。为了诱导，将过夜培养物1∶250稀释到不含诱导物的各培养基和具有诱导物(对于BxbI为ATc、对于TP901为Ara、或者对于A118为DAPG)的培养基中，并且在30℃下生长16小时。为了生长，将这些培养物1∶250稀释到不含诱导物的培养基中并在37℃下生长18小时。对于3个生物学重复中的每一个，用不同的起始菌落重复该实验。所有培养物均在以900rpm摇动的250μL培养基(在96孔板中)中培养。如“荧光分析”部分中所述，我们测量了来自每个表达GFP的群体的细胞的百分比。

图16A-16E中的RSM时程实验

对于一个生物学重复，将含有输入质粒pNR64和输出质粒pNR291的大肠杆菌DH5αPRO细胞的菌落接种到具有卡那霉素和氯霉素的培养基中，在37℃下生长过夜(约18小时)，1∶75重新稀释到新鲜培养基中，分成11个培养物，并在30℃下生长。当细胞达到0.1的OD600时，我们将来自一个培养物的细胞1∶125重新稀释到新鲜培养基中并使它们在37℃下生长。该(未诱导的)群体将成为图16C-E中的0小时时间点。所有其他培养物均在生长之前经受诱导。将Ara直接添加到5个培养物中，并将ATc直接添加到其他5个中，并使它们在30℃下继续生长。对于每个输入5个培养物中的每一个都将成为由1小时步长(对于每个输入)分隔的诱导时间点；我们将它们称为输入种子培养物。1小时后，我们将来自一个ATc种子培养物的细胞1∶125稀释到新鲜培养基中并使它们在37℃下生长。这将成为图16C中ATc的1小时时间点。由相同的种子培养物，我们还将细胞1∶25稀释到具有Ara的培养基中，并且在1∶125稀释到新鲜培养基中并使它们在37℃下生长之前，使它们在30℃下生长等量的输入暴露时间(1小时)。这将成为图16E中ATc→Ara的1小时时间点。然后，对于相同的种子培养物，我们直接添加Ara，并且在1∶125稀释到新鲜培养基中并使细胞在37℃下生长之前，使它们在30℃下生长等量的输入暴露时间(1小时)。这将成为图16D中ATc→Ara的1小时时间点。1小时后，对Ara种子培养物进行相同的操作，除了用ATc作为顺序添加的输入以外。随后用不同的ATc和Ara种子培养物以2小时重复该过程，对于3、4和5小时依此类推。在稀释最终的细胞用于生长(最初诱导开始后10小时)之后，所有细胞群的生长持续16小时。对于3次生物学重复重复该实验。所有培养物均在以900rpm摇动的250μL培养基(在96孔板中)中培养。所有培养基均含有氯霉素和卡那霉素。用流式细胞术(参见“荧光测定”部分)分析来自实验的最终群体。

荧光测定

对于用荧光测定的所有实验，我们将细胞1∶125稀释到磷酸盐缓冲溶液(PBS，Research Products International)中并使它们在BD-FACSLSRFortessa-HTS细胞分析仪(BD Biosciences，CA)上运行。我们对于每个样品测量了30,000个细胞，并通过实验中所有细胞的前向散射和侧向散射一致地设门。在FITC通道(488nm激发激光，530/30检测滤波器)上测量GFP(gfpmut3b产物)强度，在PE-Texas Red通道(561nm激发激光，610/20检测滤波器)上测量RFP(mrfp的产物)强度，以及在PacBlue通道(405nm激发激光器，450/50检测滤波器)上测量BFP(mtagbfp的产物)强度。在每个通道中应用荧光阈值以确定具有表达(ON)与未表达(OFF)的荧光蛋白的细胞的百分比。该阈值是基于阴性对照(含有pNR64和不具有荧光报道基因的BAC的大肠杆菌DH5aPRO)群体，使得0.1％的这些阴性对照细胞被认为在每个通道中具有ON荧光蛋白表达(对应于0.1％假阳性率)。

所有基于荧光的实验均具有3次生物学重复。对于重组酶可逆性实验(图S1)和RSM时程实验(图16A-16E)，示出了所有3次重复的数据。对于GRSM实验(图6、图7和图17A-17C)，对来自所有3次重复的数据取平均。对于这些实验，任何荧光亚群的百分比的最大标准误差为1.22％。

GRSM数据库和检索函数

GRSM数据库使用MATLAB R2013b(Mathworks，Natick，美国)构建(如正文中讨论的)，部分在由哈佛大学FAS Division of Science，Research Computing Group支持的Odyssey集群上运行。

该数据库包含3个数组：registerArray--GRSM寄存器数组、grpArray-基因调控程序数组和register2grp-将registerArray中的每个寄存器映射到grpArray中其相应基因调控程序(通过索引)的数组。

grpArray中的每个基因调控程序均由“0”和“1”的70元素向量表示。14个元素的每个连续延伸属于对应于图3A中的状态的状态-分别为S1、S2、S3、S4和S5。此外在每个状态中，每个元素(1至14)表示基因(分别为“G1”至“G14”)。例如，对于grpArray中的向量，元素1表示S1中的G1，元素15表示S2中的G1，元素29表示S3中的G1，元素43表示S4中的G1，元素57表示S5中的G1，元素2表示S1中的G2，元素16表示S2中的G2等。每个元素的二进制值指示在该特定状态下的基因是OFF(“0”)还是ON(“1”)。如果基因调控程序中在每个状态下的任何给定基因的值是0，则该基因不存在于调控程序中。

registerArray中的每个寄存器均由数字“1”至“25”的7元素向量表示。矢量的每个元素对应于与图3A所示的寄存器的识别位点交叠的DNA区域(“a”至“g”)。每个元素(1至25)的值表示部分，如表9中所限定。每个部分由基因、终止子和组成型启动子组成，布置成使得每个部分在功能上不同(参见实施例11)。非回文部分(如表9所示)可以在寄存器中反向显示，在这种情况下，它们呈现负值。例如，部分“1”是基因，其是非回文部分。如果其在寄存器向量的元素上显示为“1”，则它面向从左到右(5’至3’)，而如果其在寄存器向量的元素上显示为“-1”，则它面向从右到左(5’至3’)。

重要的是要注意，这些部分中的所有明确描述的终止子(表9)均为单向的，因此转录可以在相反的方向上穿过其。然而，部分“3”中的单向终止子可以由双向终止子代替而不改变该部分的功能。这是因为在部分“3”中的启动子的上游设置另外的终止子将仅终止随后将在相同方向上重新启动的转录。此外，部分“7”的单向性质对于基础寄存器的基因调控程序并非总是必要的。换言之，有时部分“7”(单向终止子本身)可以被部分“4”(双向终止子本身)代替，而不影响由基础寄存器实现的基因调控。为了使数据库用户清楚这种区别，我们解析了registerArray中所有出现的部分“7”，并用特殊的标识符(部分“15”)代替其，如果其单向性质对于基础寄存器的基因调控程序并不重要。因此，registerArray中所有出现的部分“7”现在表示需要用于基础寄存器的基因调控程序的“终止子通读”(通过它们的单向终止子在相反方向上转录)的部分。同样地，因为收敛(面对面)启动子可以破坏性地彼此干扰(61)，因此我们对具有启动子的需要“启动子通读”(通过它们的启动子在相反方向上转录，表9)的部分进行了特别区分。由于部分“10”(启动子本身)根据其寄存器环境有时可能需要通读，有时不需要，我们解析了registerArray中所有出现的部分“10”并用特殊的标识符“14”代替其，如果其不需要用于基础寄存器的基因调控程序的通读。因此，registerArray中所有出现的部分“10”现在表示需要用于基础寄存器的合适的基因调控程序的启动子通读。

registerArray中所有具有基因的部分在这些基因的3’端也具有双向终止子。这些终止子在表9中未明确描述。尽管已经以其他方式减小数据库以避免多余的终止子、启动子和基因，但是基因3’端上的隐含终止子有时可能是多余的。换言之，它们可能不是基础寄存器的合适的基因调控程序所必需的。

最后，数组register2grp具有与registerArray相同数量的元素。它将registerArray中的每个寄存器映射到为grpArray中其相应基因调控程序的索引的值。

我们将数据库呈现为MATLAB MAT文件(附加数据库S1)，其中每个数组均存储在MATLAB变量中。该MAT文件数据库的检索函数也是在MATLAB R2013b中创建的并且需要运行MATLAB软件。实施例15中包括MATLAB检索函数的代码和更多关于其如何工作的信息。

基于PCR的状态询问工具(PSIT)

PSIT算法使用抽象数据类型(DNARegister类别)来表示寄存器。为了确定哪组引物对可用于唯一地检测输入的DNARegister及其所有重组状态，算法：(1)“重组”输入寄存器，对于由输入的任何置换子串得到的所有状态产生DNARegister实例，(2)产生由与识别位点之间和识别位点阵列的末端上的每个区域结合的所有可能的引物组成的引物对列表，(3)将列表缩小至这样的引物对，其仅在任何给定状态下当它们在相邻区域上时进行扩增，以及(4)确定该最终引物对列表的可用于唯一地识别DNA寄存器的每种可能状态的所有子集。然后将该最终引物对子集列表作为输出与关于哪些引物对在哪些状态下扩增的详细信息一起返回。为了qPCR兼容性目的，步骤3确保了每个扩增子都很短，并且每个引物对在扩增时(不管状态如何)总是产生相同的扩增子。PSIT程序在Python 2.7中实现。实施例16中包括PSIT程序的代码和更多关于其如何工作的信息。

实施例5.RSM的数学讨论

如果RSM被设计成使得每个输入驱动的重组酶在寄存器上仅具有一个attB-attP对，则状态的数量不能超过2^N。为了证明这一点，我们首先引入“不可约性(irreducibility)”的概念。不可约的重组酶串是这样的重组酶串：其中当将重组酶以给定顺序应用于寄存器时，每个重组酶在寄存器上执行操作(切除或倒位)。我们可以对不可约序列做如下两个陈述：

陈述1：寄存器的每个可能的状态都必须通过应用一些不可约的重组酶串来访问。这是从考虑到如下得出的：(1)每个状态是一串重组操作的结果，以及(1)对应于该串重组操作的重组酶串按照定义是不可约的。

陈述2：假设每个重组酶具有一对attB-attP的寄存器，来自重组酶的相同子集的所有不可约串在寄存器上产生相同的状态。这是从考虑到如下得出的：(1)寄存器上的所有‘可重排’的DNA片段在两侧侧接属于应用的重组酶的子集的attB和/或attP位点，(2)通过不可约性的定义，不可约串中的每个重组酶将催化其attB-attP对之间的重组，以及(3)当发生attB和attP位点之间的重组时，它们总是形成相同的接点--attB的后端将接合attP的前端，attB的前端将接合attP的后端。因此，所有“可重排”的DNA片段在应用不可约的重组酶串之后将形成相同的接点，不管这些重组酶应用的顺序如何。

对于在其寄存器上具有N个输入驱动的重组酶和每个重组酶一对attB-attP的RSM的情况，所有状态必须可以由一些不可约的重组酶串(陈述1)访问，并且来自N个重组酶的相同子集的所有不可约串必须产生相同的状态(陈述2)。因此，不存在比重组酶的子集(其为2^N)更多的状态(关于该论证的更详细版本参见实施例7)。

更一般地，该论证可以扩展至表明，寄存器上每个重组酶给定k对正交attB-attP对，它可以访问的状态数决不会超过2^kN(参见实施例8)。对于大的丝氨酸重组酶，对于给定的重组酶，存在k＝6个正交且定向的attB-attP对的限制(31)。因此，使用大的丝氨酸重组酶的RSM的信息容量固有地受到指数约束。

实施例6.测试本研究中使用的重组酶-BxbI、TP901和A118的重组反应的可逆性

我们通过测量重组酶诱导16小时后从attL-attR到attB-attP的转换量来测试我们的研究中使用的重组酶(BxbI、A118和TP901)的可逆性，反之亦然。具体地，为了测试每种重组酶，我们使用了互为彼此的重组版本的两种质粒：一种具有attB-attP但不具有GFP表达，另一种具有attL-attR和GFP表达。将这些质粒各自转化到含有诱导型重组酶的大肠杆菌中(图S1A)。从attB-attP到attL-attR的转换通过诱导后从不表达GFP转换为表达GFP的细胞的数量来评估，相反地，从attL-attR到attB-attP的转换通过诱导后从表达GFP转换为不表达GFP的细胞的数量来评估。结果示于图S1B中。然而，我们对于所有的重组酶观察到＞95％的attB-attP向attL-attR转化，我们对于TP901和A118未观察到attL-attR向attB-attP的任何转化，以及对于BxbI观察到＜1％的attL-attR向attB-attP转化。该数据证实了我们的研究中使用的重组酶系统的不可逆性。

实施例7.证明用N个重组酶，如果限于每个重组酶一个识别位点对，则用基于重组酶的状态机仅可以产生至多2^N个不同的DNA状态

定理：如果我们有N个重组酶和每个重组酶仅一对识别位点，则对于在寄存器上的任何初始DNA串(序列)，可以通过应用不同的重组酶串在该寄存器上产生至多2^N个不同的DNA串。

在证明该定理之前，让我们清楚重组酶系统的假设：

假设1：我们假设发生的重组反应是单向的。这意味着一旦应用重组酶，则其不能与重定向性因子再次使用，N组中的另一个重组酶也不能用于逆转其重组反应。

假设2：假设所有识别位点都是极性的(具有后端和前端)，并且两个识别位点之间的重组通过黏合(5’至3’)一个识别位点的后端与另一个识别位点的前端来发生(反之亦然)。该假设与大的丝氨酸重组酶系统中的attB-attP重组一致。

假设3：我们假设如果DNA被从寄存器上切除，则其丢失并且不再与寄存器相互作用。

假设4：我们假设重组酶是特异性的。换言之，它们仅可以引起它们的对应识别位点之间的重组。

假设1和2允许将该定理应用于大的基于丝氨酸重组酶的系统。

假设3受到这一事实的推动：切除的DNA不会复制并因此将在多轮细胞分裂后丢失。该假设排除了切除的DNA片段含有复制起点的情况或者其中重组酶足够快地连续应用使得切除的片段在其由于细胞分裂而丢失之前有机会重新整合到寄存器中的情况。

定理的证明：我们假设在重组酶的一对识别位点中，一个识别位点能够与另一个识别位点重组。例如，如果使用大的丝氨酸重组酶，这将意味着每个识别位点对将由attB位点和attP位点组成。我们还假设寄存器上的我们的最初DNA串具有每个重组酶的识别位点对(总计2N个识别位点)。这些假设不影响我们的定理的一般性，因为任何较少数量的活性(能够重组的)识别位点仅可以进一步限制我们可以在寄存器上产生的不同DNA串的数量。

我们将寄存器上我们的初始DNA串表示为2N+1个不同符号(表示DNA序列)的串，其中每个符号接点表示重组酶识别位点，像这样：

ABCDEFGHI

我们将寄存器的开始和结束定义为初始串的第一个和最后一个符号(用粗体突出显示)，在此为A和I。

在此符号是字母。我们将假设它们表示的DNA序列均是唯一且不对称的(关于它们反向互补)。该假设仅可以提高寄存器上不同DNA串的数量，所述DNA串可以由初始DNA串产生并因此不影响我们的定理的一般性。

为了在视觉上帮助我们追踪识别位点类型(指示其属于哪个重组酶)和极性，我们用不对称的括号将我们的DNA串中的符号交叠，以表示符号接点中包含的识别位点的类型(括号的形状)和极性(括号的方向)，像这样：

A(B[C{D＜E)F]G}H＞I

应注意，括号实际上并不是DNA串的一部分-它们仅是可视标记。例如，B与C之间的[和F与G之间的[仅让我们知晓这两个接点(BC和FG)是属于相同重组酶的识别位点并且它们具有相反的极性。

我们通过书写“r”、随后是其识别位点的括号类型，来指代给定识别位点的重组酶。因此，例如，r[将是重组由[括号表示的识别位点的重组酶。

如果DNA串不包含重组酶的任何识别位点，则当应用该重组酶时，DNA串是不变的。

如果DNA串仅包含重组酶的一个识别位点，则当应用该重组酶时，DNA串也是不变的。

如果DNA串包含重组酶的两个识别位点，则当应用该重组酶时，其在它们的两个符号之间的接点处切割每个识别位点并将一个识别位点后端上的符号与另一个识别位点前端上的符号黏合在一起(5’至3’)，反之亦然。这意味着如果两个识别位点面向相反的方向，则它们之间的DNA串在它们重组时会发生反向。此外，如果两个识别位点面向相同的方向，则它们之间的DNA串在它们重组时被切除。

例如，如果我们将r[应用于具有DNA串的寄存器：

A[B]C

则识别位点之间的DNA反向以产生串

AB*C

其中B*表示倒位(反向互补)。

作为另一个实例，如果我们将r[应用于具有DNA串的寄存器：

A[B[C

则识别位点之间的DNA环化(B的右端黏合至B的左端)并从寄存器上切除，留下串

A C

由于重组反应是单向的，形成的新符号接点不再表示活性(能够重组的)识别位点(因此我们不用括号视觉上标记它们)。

重组酶串是重组酶的有序列表，其中每个重组酶至多出现一次。我们被允许应用任何重组酶串，像这样(从左到右读起)：

r(r[r＜

当应用于具有如下初始DNA串的寄存器时：

A(B[C{D＜E)F]G}H＞I

该重组酶串将在寄存器上产生连续的DNA串：

A E*＞D*}C*]B*F]G}H＞I

A E*＞D*}C*G}H＞I

A E*I

我们现在引入重要的定义：对于重组酶串，如果该串中的每个重组酶在应用时在寄存器上执行重组事件(DNA子串的切除或倒位)，则我们称重组酶串为“不可约的”。因此，在上面的实例中，r（r[r＜为不可约的。另一方面，例如，重组酶串r(r＜r{不是不可约的，因为r{在应用时对寄存器不进行任何操作。

然后在此是证明定理的关键观察结果：

唯一性引理(UNIQUENESS LEMMA)：包含所有N个重组酶的每个不可约串在寄存器上导致相同的结果。

唯一性引理的证明(PROOF OF UNIQUENESS LEMMA)：假设S是长度为N的重组酶串，并且假设S是不可约的。然后，当我们将S中的重组酶应用于我们的初始DNA串Y时，绝不会发生属于串S中除了当前正被应用的重组酶以外的任何重组酶的活性识别位点缺失。假设当我们应用r{时r[识别位点缺失，其中r[和r{是S中的任意两个重组酶。则我们可以得出结论，首先，r[尚未被应用(如果其已被应用其将重组r[识别位点)，其次，在应用r[时不再有任何点-其将不起作用，因为最多一个r[识别位点保留在DNA串中。但是这意味着当前不可约串的任何延续必须省略r[，并且因此其具有小于N的长度，这是不能的。

因此，S中的每个重组酶在应用时必须执行以下两件事情之一：它必须使两个合适的识别位点之间的子串反向(反向互补)，或者它必须执行“良性缺失”-即切除两个合适的识别位点之间的子串，而不对属于来自S的重组酶的任何其他活性识别位点对产生任何影响。

现在，对于两个符号A和B，如果A和B满足以下性质，则我们称A为B的“左灵魂伴侣(soulmate)”：在我们将长度为N的一些不可约串应用于Y之后，在寄存器或切除的DNA串上A必须紧跟在B之后出现(或B*必须紧跟在A*之后出现)。一般来说，如果A是B的左灵魂伴侣或者B是A的左灵魂伴侣，则我们称A和B为“灵魂伴侣”。此外，对于符号C，如果在我们将长度为N的一些不可约串应用于Y之后，C单独出现在切除的DNA串上，则我们称C为“单一灵魂伴侣”。

灵魂伴侣主张(SOULMATE CLAIM)：如果[A和]B均出现在Y中，则A*是B的左灵魂伴侣；如果A[和B]均出现在Y中，则A是B*的左灵魂伴侣；如果A]和]B均出现在Y中，则A是B的左灵魂伴侣；如果]A和B]均出现在Y中，则B是A的左灵魂伴侣；如果]A]出现在Y中，则A是单一灵魂伴侣。

主张的证明(PROOF OF CLAIM)：如果我们将长度为N的不可约的重组酶串应用于Y，最终必须应用r[。此外，由于重组酶串是不可约的，因此r[识别位点在其发生时必须仍然存在。重组邻接(5’至3’)一个识别位点后端上的符号至另一个识别位点前端上的符号(反之亦然)的事实确保了当重组发生时：如果[A和]B均出现在Y中，则将形成A*B(或B*A)接点；如果A[和B]均出现在Y中，则将形成AB*(或BA*)接点；如果A]和]B均出现在Y中，则将形成AB(或B*A*)接点；如果]A和B]均出现在Y中，则将形成BA(或A*B*)接点；如果]A]出现在Y中，则将在A的右侧与A的左侧之间形成接点。一旦这些符号如所述的保持在一起，则它们之间没有(或始终没有)其他活性识别位点，因此不会进一步发生将其分开的任何事件。这完成了该主张。

通过灵魂伴侣主张的规则，我们可以理清初始DNA串中的符号在应用长度为N的不可约的重组酶串(假定重组酶串存在)之后将如何互连。

例如，对于初始DNA串Y，对于Y其中存在至少一个长度为N的不可约的重组酶串，如

A(B[C{D]E(F)G

具有N对识别位点和2N+1个符号，我们可以如下构建“灵魂伴侣图”。该图具有4N+2个顶点，对应于每个符号(在这种情况下为A、B、C、D、E、F和G)的左侧和右侧。我们通过边连接每个符号的左侧和右侧。我们还从每个符号的左侧到其左灵魂伴铝的右侧绘制边(按照灵魂伴侣主张的规则)，谨记倒位转换左侧和右侧(例如，A的左侧和A*的右侧是相同的)。

为了说明，用上面的Y，灵魂伴侣图将由以下简单路径组成：

A的左侧---A的右侧---F的左侧---F的右侧---C的右侧---C的左侧---E的左侧---E的右侧---B的左侧---B的右侧---D的右侧---D的左侧---G的左侧---G的右侧

读出图表，我们可以预测，在将3个重组酶的任何不可约串应用于Y之后，结果必须是：

A F C*E B D*E

而事实上，该预测是由唯一的不可约串r{r(r[(在这种情况下)证实的。

再举一例，如果

y＝A(B[C)D]E

则灵魂伴侣图由以下组成：路径

A的左侧---A的右侧---C的右侧---C的左侧---E的左侧---E的右侧

与循环

B的左侧---D的左侧---D的右侧---B的右侧---B的左侧。

循环表示环化并从寄存器上切除，仅在寄存器上留下AC*E的DNA。事实上，这正是当我们应用r[r(串或r(r[串时发生的情形。

为了完成唯一性引理的证明：应注意，灵魂伴侣主张的规则将始终为初始DNA串边缘上的每个符号找到一个灵魂伴侣。每个边缘符号仅可以凭借其位置形成一个接点；因此，在将长度为N的不可约串应用于初始DNA串之后，每个边缘符号仅与其灵魂伴侣形成接点。此外，灵魂伴侣主张的规则将总是为不在DNA串的边缘且不与其自身环化的每个符号(例如]A])找到两个灵魂伴侣。符号不能具有多于两个接点(在每侧上一个)，因此这些符号在将长度为N的不可约串应用于初始DNA串之后仅与其灵魂伴侣形成接点。由此可见，在应用N个重组酶的不可约串之后，寄存器上的最终DNA串(由初始DNA串的边缘符号和其间留下的任何符号组成)完全由不依赖于N个重组酶的排序的灵魂伴侣主张的规则决定。这完成了唯一性引理的证明。

该唯一性引理容易地暗示以下推论。

推论：对于k个重组酶的每个子集，涉及所有k个这些重组酶的每个不可约串导致寄存器上相同的DNA串。

推论的证明：我们可以仅考虑2k+1个符号的较短的DNA串，所述DNA串通过将任何k个相关重组酶的其接点不是识别位点的所有符号对连接在一起而由原始字符串获得。例如，如果我们仅关心r(和r[，则

A(B[C{D＜E)F]G}H＞I

将变为

A(B[CDE)F]GHI

其中CDE和GHI各自现在是单个符号。然后，我们将唯一性引理应用于较短的DNA串。这完成了推论的证明。

但推论意味着，如果X是寄存器上通过将一些重组酶串应用于我们的初始DNA串Y而获得的任何DNA串，则我们可以仅使用N位通过简单地列出应当应用于不可约串中的Y的重组酶的组Z来指定X。显然X可以通过一些不可约串由Y获得。而且关键的是，我们不需要列出应用组Z中的重组酶的顺序-因为根据推论，顺序与最终结果无关。这完成了定理的证明。

因此，在寄存器上至多可以产生2^N个不同的DNA串。QED。

关于每个重组酶限制没有一个识别位点对的RSM的上限的更一般分析，参见实施例8。

实施例8.对于RSM上限的分析

如果我们考虑每个重组酶使用不超过k个正交识别位点对的RSM，则根据以下观察结果和证明，可实现不超过2^kN个状态：

观察结果：假设我们允许N个重组酶，但是每个重组酶仅k对正交识别位点(在大的丝氨酸重组酶的情况下，k＝6)。则对于在寄存器上的任何初始DNA串Y，我们可以通过应用不同的重组酶串在该寄存器上产生至多2^kN个不同的串。该观察结果使用与实施例7中的定理相同的关于重组酶系统的假设。

观察结果的证明：当然，如果我们允许我们自己有更大的自由度(即，如同它们各自属于不同的重组酶地处理出现在我们的DNA串中的所有kN个不同的识别位点对)，则我们可以在寄存器上产生的不同DNA串的数量(在这种情况下)不大于我们可以产生的数量。但是我们已经在实施例7中证明了，在这种情况下，可以在寄存器上产生的不同的串的数量以2^kN为上界。QED。

实施例9.推导N个输入的置换子串的数量

如果在我们的处置中有总计N个输入，则我们可以取h个输入的任何子集。对于给定的h，存在从N中选择h个这样的子集，并且对于每个子集都有h！种排列，因此存在

个长度为h的置换子串。

接着，因为我们可以取任意长度(h多至N)的子串，这给了我们以下的置换子串总数：

该公式中的求和项可以近似为自然指数函数e。因此用于N个输入的置换子串总数的公式可以近似wei eN！。

实施例10.实现对于至多N＝7个输入的输入的每个置换子串编码不同状态的RSM

对于具有N个输入(每个驱动单个重组酶的表达)的RSM，我们已经设计了对于至多N＝7个输入(表S2)的输入的每个置换子串编码不同状态的寄存器。前两个寄存器(对于N＝1和N＝2)是很一般地设计的。对于N＞2，我们使用模块化构建策略。

模块化构建策略：

首先，我们定义了“单元模块”，其是布置成如下的由不同重组酶的2个attB-attP对组成的识别位点阵列：

([)[

其中不同形状的括号表示不同重组酶的识别位点。每个括号的方向表示识别位点的极性。

我们称“(”识别站点占据单元模块的位置1，“[”识别位点占据位置2。

单元模块将编码(进入不同状态)是否应用了在位置2中具有识别位点的重组酶，并且考虑到是否应用了在位置1中具有识别位点的重组酶，其将编码首先应用哪种重组酶。

由此可见，我们可以通过将每个成对组合的重组酶的单元模块连接在一起并遵循以下2条规则来创建编码N个输入(每个驱动一种重组酶的表达)的每个可能的置换子串的寄存器：

1.每个单元模块必须是正交的。

2.每个重组酶的至少一个识别位点对必须出现在单元模块的位置2中。

由于该构建策略要求每个重组酶与单元模块中的N-1个其他重组酶配对，并且每个单位模块是正交的，因此该策略要求每个重组酶N-1个正交识别位点对。然而，对于每个大的丝氨酸重组酶，我们仅可以创建至多6对正交attB-attP对，因此该构建策略仅能够实现对于至多N＝7个输入的输入的每个置换子串编码不同状态的寄存器。超过N＝7，我们采用可以访问约3.9^N个状态的不同寄存器设计策略(实施例13)。

实施例11.用于构建GRSM数据库的部分的讨论

数据库中的部分由组成型启动子、终止子和基因构成。假设所有基因在其3’端上具有双向终止子。表9示出了我们用来指代它们的所有部分及其部分ID(整数)。非回文部分(如表9所示)可以反向出现，在这种情况下，它们对于其部分ID呈现相应的负值。例如，当仅由基因构成的部分如表9所示在寄存器上面向从左到右(5’至3’)时，我们将该部分称为部分“1”，或者当该部分在寄存器上面向从右到左(5’至3’)时，我们将该部分称为部分“-1”。以下我们显示了我们用于构建数据库的部分是所有可能的功能上不同的部分的组。

每个部分在放置在寄存器区域上时执行以下四种活性的组合：

1.提供组成型转录的基因(使用独立的启动子-基因模块，例如部分“19”)

2.提供用于从左侧上的区域(例如，部分“1”)、右侧上的区域(例如，部分“-1”)或者左侧上的区域和右侧上的区域两者(例如，部分“8”)转录的基因。

3.防止转录向左(例如，部分“-7”)移动，向右(例如，部分“7”)移动，或者向左和右两者(例如，部分“4”)移动。

4.启动向左(例如，部分“-10”)、向右(例如，部分“10”)或向左和右两者(例如，部分“6”)转录。

我们通过其执行的这四种活性的组合来限定部分的功能。例如，部分“2”的功能是提供用于从左侧转录的基因，防止转录向左移动(记住基因具有3’双向终止子)，以及启动向右转录。对于更复杂的实例，部分“24”的功能是组成型地转录基因，提供用于从左侧和右侧转录的基因，防止转录向左移动，以及启动向右转录。表10给出了我们用于构建数据库(这不包括“14”、“-14”、“15”和“-15”-参见材料和方法的“GRSM数据库和检索函数”小节)的所有37个部分(包括非回文部分的倒位)的功能。从表10可以看出，所有部分在功能上是不同的。

为了表明这些部分还包括所有可能的功能，我们首先注意到限定功能的4种活性不是相互排斥的。例如，一个部分不能启动向左转录并且防止转录向左移动。作为另一个实例，不启动向左转录并提供用于从右侧转录的基因的部分必须防止转录向左移动(再次，因为基因与其3’端上的双向终止子配对)。我们可以用两个规则来概括四种活性的相互依赖性(规则#1)：部分不能启动向某一方向转录并防止转录向相同方向移动，以及(规则#2)提供基因(组成型的或不是组成型的)并且不启动在特定方向上的转录的部分还必须防止转录向该特定方向移动。

因此，为了找到可能的不同功能的数量，我们可以从找到活性组合的总数开始。为此，我们认为，包括不存在活性，活性#1存在2种可能性，活性#2存在4种可能性，活性#3存在4种可能性，活性#4存在4种可能性，因此活性组合的总数为2*4*4*4＝128。

我们应用上述规则#1以移除56种禁用的活性组合。然后从剩余的库中，我们应用上述规则#2以移除35种禁用的活性组合。这给我们留下了37种可能的不同功能(活性组合)，这与我们用来构建数据库的功能上不同的部分的数量相同。因此，我们用来构建数据库的部分表示我们可以由组成型启动子、终止子和基因(具有双向3’终止子)构建的所有可能的功能上不同的部分。

实施例12.作为调节基因数量r的函数的可能的5-状态基因调控程序的数量

首先，我们认为存在5个状态，并且在每个这些状态下可以表达或不表达任何特定基因。因此对于单个基因总共存在Z＝2⁵＝32个不同的调控程序。接下来，我们认为在我们的基因调控计划中存在r个基因。每个基因可以具有Z＝32个单基因调控程序中的任一个。因此，对于r个基因可能的基因调控程序的数量G(r)的计算简化为选择Z个可能的调控程序的r个组合(具有重复，因为多个基因可以具有相同的调控程序)：

该功能呈指数增长。

虽然对于单个基因存在Z＝32个不同的调控程序，但它们中的一个是在任何状态下均不表达基因的程序，并且它们中的另一个是在每个状态下均表达基因的程序。这些调控程序是不重要的，因此我们在我们的GRSM数据库中不考虑它们。因此我们在计算图14B的数据时使用了Z＝30。

实施例13.实现对于N个输入可以实现约3.9^N个状态的RSM

我们将当放置在寄存器上时使RSM能够访问N个输入的每个置换子串的不同状态的识别位点序列定义为“N-可置换子序列”。在表S2中，我们示出了至多N＝7的N可置换子序列。在实施例10中，我们解释了我们的设计策略不允许超过N＝7的N-可置换子序列。

然而，对于N＞7个输入，我们可以将我们的输入分成尽可能多的7个相互排斥的集合(floor(N/7))。然后，我们可以对于这些相互排斥的集合中的每一个创建7-可置换子序列并且在寄存器上将它们连接在一起。最后，我们可以取不适合7个相互排斥的集合中的任一个的剩余输入(N mod 7)，为该集合创建(N mod 7)-可置换子序列，并将其连接至寄存器上的其余子序列。例如，我们可以对于N＝17个输入创建具有两个7-可置换子序列和一个3-可置换子序列的寄存器。

如实施例9中推导的，N个输入的置换子串的数量m(N)的精确方程式为：

在以上具有N＝17个输入的实例中，寄存器理论上将能够访问m(7)·m(7)·m(3)～3·10⁹个不同的状态。一般而言，上述对于N＞7的构建策略将使得能够实现以下数量的状态f(N)：

我们将该函数近似为

实施例14.数据库

包含GRSM数据库的MAT文件。在MAT文件中，三个数据库数组各自作为单独的MATLAB变量存储：registerArray、grpArray和register2grp。registerArray是其中每行均为寄存器的矩阵，grpArray是其中每列均为基因调控程序的矩阵。关于这些数组的详细说明以及寄存器和基因调控程序如何在它们中表示，参见“材料和方法”的“GRSM数据库和检索函数”小节。数组register2grp将registerArray中的每个寄存器映射到grpArray中其相应基因调控程序的索引，使得registerArray的第i行中的寄存器对应于grpArray的第register2grp(i)列中的基因调控程序，即grpArray(：，register2grp(i))。我们在实施例15中提供了用于访问GRSM数据库的检索函数。

实施例15.关于使用GRSM数据库检索函数的说明书

检索函数是以MATLAB R2013b编写的并且需要运行MATLAB软件。

说明.该功能采用期望的基因调控程序，在附加数据库S1中包含的GRSM数据库中检索实现该基因调控程序的寄存器，然后输出这些寄存器。

关于使用该功能的说明书

1.将以下的“searchGRSM”脚本复制到文本文件中并将其保存为“searchGRSM.m”

2.将以下的“registerRank”脚本复制到文本文件中并将其作为“registerRank.m”保存在与“searchGRSM.m”相同的目录中

3.下载MAT文件(附加数据库S1)。确保文件的名称是“grsmDB.mat”。如果不是，则将其重命名为“grsmDB.mat”。然后将其移动至与上述文件相同的目录。

4.打开MATLAB并将工作目录导航到上述文件的目录。

5.将“registers＝searchGRSM(grp)”键入到MATLAB命令中以使用该功能，其中grp是你期望的基因调控程序且registers是将存储输出的变量。

关于创建输入的说明书

将你的grp(基因调控程序)指定为5xM矩阵。每行(第1行至第5行)表示对应于图3A的状态S1至S5(分别)。每列表示基因。你可以指定多至M＝14个基因的任何位置。矩阵的每个元素都应当为“0”或“1”，对应于你是否希望该基因在该状态下为OFF(0)或ON(1)。

解释输出

输出registers是Nx7矩阵。矩阵的每行表示可以用于实现grp的寄存器。寄存器的每列(第1列至第7列)表示(分别)对应于图3A的DNA区域“a”至“g”。

矩阵的每个元素指定该DNA区域中该寄存器的部分。

如表S9中所限定的，部分是“1”至“25”的数字(一些还显示为负值)。部分的更深层次说明可以见于“材料和方法”的“GRSM数据库和检索函数”小节以及补充文本S6中。

输出寄存器以以下4个步骤排序(排列)：

1.由需要启动子通读的部分的(最小到最大)数量排列

2.由需要终止子通读的部分的(最小到最大)数量亚排列

3.由空部分(部分“5”)的(最大到最小)数量亚排列

4.由启动子的(最小到最大)数量亚排列

实例：

对于更多的实例，表S8示出了本研究中用于实现2-输入、5-状态GRSM的检索函数的输入和输出。以下是“searchGRSM”和“registerRank”脚本。

searchGRSM脚本：

registerRank脚本：

实施例16.关于使用PSIT的说明书

PSIT是以Python 2.7编写的程序。

说明.SIT返回唯一地识别输入的DNA寄存器的每个状态的所有可能的引物对组，并且还返回关于这些状态的信息。为了做到这一点，必须调用DNARegister类别的outputFiles函数。outputFiles呈现参数名称，与返回的文件关联的名称的字符串，以及参数阐明PP，表示用户是否想要输出引物对组的布尔值，或者仅仅是关于状态的信息。

说明书

首先，用户必须通过传入4元素数组的numpy数组来构建DNARegister类别的实例，其中每个4元素数组提供关于重组酶识别位点的信息。假设r_i是一个这样的4元素数组，则r_i＝[a_i，b_i，c_i，d_i]，其中：

●a_i对应于针对该位点对应的重组酶。

○1＜＝a_i＜＝N，其中N是重组酶/输入的数量。

●b_i提供了关于该特定识别位点对应于哪个正交识别位点对的信息。

○0＜＝b_i＜＝m-1，其中m是由a_i提供的重组酶的正交位点的数量。

如果b_i≠b_k，则第i个和第k个位点属于不同的识别位点对，并且因此是正交的。

●c_i描述了识别位点是attP、attB、attL还是attR。

○c_i＝0→attP

○c_i＝1→attB

○c_i＝2→attL

○ci＝3→attR

●d_i提供了识别位点的极性。

○d_i＝1→“正向(forward)”

○d_i＝-1→“反向(reverse)”

因此，为了构建具有六个识别位点的DNARegister，用户将使用以下形式，其中如上所讨论的r_i＝[a_i，b_i，c_i，d_i]。

●x＝numpy.array(r1，r2，r3，r4，r5，r6)

●registerX＝DNARegister(x)

以下我们提供了用于构建DNARegister以及随后使用outputFiles函数来阐明唯一地识别输入的DNA寄存器的每个状态的引物对组的测试用例(test case)。对于该测试用例，我们使用图3A的2-输入、5-状态寄存器。

●x＝numpy.array([[1，0，0，1]，[1，1，0，1]，[2，0，0，1]，[1，1，1，-1]，[2，0，1，1]，[1，0，1，-1]])

●fiveStateRegister＝DNARegister(x)

●fiveStateRegister.outputFiles(′5state′，True)

为了使用PSIT，必须简单地复制所包括的脚本(以下)，并保存为可执行的Python程序(.py扩展名)。必须安装numpy。Python和numpy软件包两者均可以在开源许可下免费获得。

一旦你将PSIT保存为.py文件，你可以将你的用例添加到文件的底部，如同所包括的实例所做的(参见以下脚本的底部)。然后，你可以执行脚本，将其直接通过你的程序编辑器或通过终端运行。输出文件将被保存到与你的脚本相同的目录。

解释输出

如果以以下方式调用outputFiles，将输出一个文件name_info.csv：DNARegister.outputFiles(‘name’，False)。

如果以以下方式调用outputFiles，将输出三个文件name_info.csv、name_matrix.csv、name_primers.csv：DNARegister.outputFiles(‘name’，True)。

“_info.csv”文件提供关于所有唯一DNA状态的信息，这些状态是由初始DNARegister的合适的输入的所有置换子串产生的。具体地，重组酶识别位点之间的区域被分配整数值。寄存器开始处(第一识别位点之前)的区域被分配整数“0”，并且相对于该区域指定所有其他区域的极性，其中正整数表示“正向”极性，而负整数表示“反向”极性。DNA状态被分配标记s0，s1，...，并且还指示导致给定状态的输入的置换子串。

“_primers.csv”文件提供了可用于唯一地识别给定DNAregister的每个状态的引物对。qPCR的有效引物对子集可以通过从给定行的每列中选择任一个引物对来找到。引物由对应于它们结合的DNA区域的整数值(来自“_info.csv”)表示。正整数对应于在正向方向上结合，而负整数对应于在反向方向上结合。

“_matrix.csv”给出了引物对的每个子集的矩阵(以与引物对子集出现在“_primers.csv”中相同的顺序)，该矩阵指示哪些引物对扩增了哪些状态。矩阵的每列表示状态(s0，s1，...，来自“_info.csv”文件)。每行表示引物对，其中第一行对应于选自“_primers.csv”文件的第一列的引物对，第二行对应于选自“_primers.csv”文件的第二列的引物对等。矩阵的每个项是其中引物对不扩增状态的“0”或其中引物对扩增状态的“1”。

PSIT脚本

表1.关于来自图3B和图4B的未处于预期状态的测序寄存器的信息

实验	实例	条件	预期状态	观察到的状态
					图3B	1	ATc	S2	S4
图3B	2	ATc→Ara	S4	S5
					图3B	2	Ara→ATc	S5	S4
图4B	1	Ara	S3	不明确*
					图4B	1	ATc→DAPG	S6	不明确**
图4B	1	ATc→Ara→DAPG	S11	不明确*
					图4B	1	ATc→Ara→DAPG	S11	S13
图4B	1	DAPG→ATc→Ara	S15	S16
					图4B	1	ATc→Ara	S5	不明确*

*在具有错配二核苷酸的TP901 attB和attP位点之间存在重组。重组似乎沿着紧邻中心核苷酸的对应3-核苷酸区域发生。

**一对TP901 attB-attP在其不应该重组的时候重组。

表2.对于至多N＝7个输入的输入的每个置换子串可以访问不同状态的寄存器设计。每种颜色表示不同重组酶的识别位点，因此不同颜色的识别位点是正交的。相同颜色但不同形状的识别位点表示二核苷酸变体，并且它们也是正交的。相同颜色和相同形状的识别位点是attB-attP对。

表3.相关输入质粒部分及其序列

表4.相关输出质粒部分及其序列

表5.RSM和用于实现它们的质粒

RSM	输入质粒	输出质粒
			图3A	pNR64	pNR160

RSM	输入质粒	输出质粒
			图4A	pNR220	pNR188
图6A	pNR64	pNR163
			图6B	pNR64	pNR186
图6C	pNR64	pNR165
			图6D	pNR64	pNR164
图6E	pNR64	pNR291
			图7A	pNR220	pNR292
图7B	pNR220	pNR284
			图17A	pNR64	pNR166
图17B	pNR64	pNR187

表6.用于询问来自图3A的2-输入、5-状态RSM的定量PCR引物。第一列通过其结合的寄存器的DNA区域(r1-r7，对应于图19)和其结合方向(正向为“F”并且反向为“R”)识别引物。第二列给出其所属的引物对(对应于图19)。成对引物“ppN”用于归一化——它们结合输出质粒的骨架。

表7：用于询问来自图4A的3-输入、16-状态RSM的定量PCR引物。第一列通过其结合的寄存器的DNA区域(r1-r13，对应于图20)和其结合方向(正向为“F”并且反向为“R”)识别引物。第二列给出其所属的引物对(对应于图20)。成对引物“ppN”用于归一化-它们结合输出质粒的骨架。

表8.用于设计2-输入、5-状态GRSM的GRSM数据库检索函数输入和输出对象。按照实施例15中的GRSM检索函数说明书，输入为矩阵(逗号分隔的列和分号分隔的行)，输出为矢量。输入可以直接粘贴到检索函数中，寄存器是直接输出。

GRSM	基因调控程序(输入)	寄存器(输出)
			图6A	[1；0；1；1；0]	[14，-1，5，5，-3，5，5]
图6B	[0；0；1；1；0]	[5，5，6，5，15，15，1]
			图6C	[1；1；0；0；1]	[-1，-14，5，5，-14，5，5]
图6D	[0；1；0；0；1]	[14，5，5，5，-3，1，5]
			图6E	[1，0，1；1，0，0；0，0，1；1，1，0；0，1，1]	[-1，14，2，-1，5，5，-14]
图17A	[0；0；1；1；0]	[5，5，1，-15，5，-14，-14]
			图17B	[0；0；1；1；0]	[-1，14，5，-15，14，5，5]

表9.GRSM数据库部分。所有部分由终止子、启动子和基因构成(具有3’端双向终止子)。红色终止子是任选的-它们的内含物不会影响包含该部分的寄存器的基因调控程序。第2列给出了每个部分在其在数据库中出现时的身份(ID)。非“回文”部分(第3列)也可以以其反向互补形式出现在数据库中(在数据库中通过部分ID前面的负号“-”识别)。第4列和第5列表明每个部分对于包含该部分的寄存器的基因调控程序是否(“Y”或“N”)需要终止子通读(通过其终止子在相反方向上转录)或启动子通读(通过其启动子在相反方向转录)。

部分标注：终止子任选的终止子启动子具有双向终止子的基因

表10.GRSM数据库部分功能。用于构建数据库的所有部分。部分由对应于表9的左列中的其ID给出(负ID是指反转定向的部分)。每个部分在寄存器上的功能由第2-5列指定。(第2列)部分是否提供组成型转录基因：否(N)或是(Y)。(第3列)部分是否提供可以从寄存器的另一个区域转录的基因：否(N)；是，从左侧(L)；是，从右侧(R)；是，从两侧(B)。(第4列)部分是否阻止移动到其之外的转录：否(N)；是，左侧(L)；是，右侧(R)；是，两侧(B)。(第5列)部分是否启动其之外的转录：否(N)；是，左侧(L)；是，右侧(R)；是，两侧(B)。

参考文献

1.J.E.Hopcroft.J.D.Ullman，Introduction to Automata Theory，Languages，and Computation(Addison Wesley，ed.1，1979).

2.S.M.Kaech，W.Cui.Transcriptional control of effector and memory CD8+T cell differentiation.Nat.Rev.Immunol.12，749-761(2012).

3.N.Yosef et al.，Dynamic regulatory network controlling TH17 celldifferentiation.Nature.496，461-468(2013).

4.S.Agarwal，K.L.Holton，R.Lanza，Efficient Differentiation ofFunctional Hepatocytes from Human Embryonic Stem Cells.Stem Cells.26，1117-1127(2008).

5.C.E.Murry，G.Keller，Diffcrentiation of embryonic stem cells toclinically relevant populations：lessons from embryonic development.Cell.132，661-680(2008).

6.T.Brambrink et al.，Sequential Expression of Pluripotency Markersduring Direct Reprogramming of Mouse Somatic Cells.Cell Stem Cell.2.151-159(2008).

7.R.Jaenisch，R.Young，Stem Cells，the Molecular Circuitry ofPluripotency and Nuclear Reprogramming.Cell.132，567-582(2008).

8.C.A.Ortmann et al.，Effect of Mutation Order on MyeloproliferativeNeoplasms.N.Engl.J.Med.372，601-612(2015).

9.E.Fokas，W.G.McKenna，R.J.Muschel，The impact of tumormicroenvironment on cancer treatment and its modulation by direct andindirect antivascular strategies.Cancer Metastasis Rev.31，823-842(2012).

10.A.N.Hata el al.，Tumor cells can follow distinct evolutionary pathsto become resistant to epidermal growth factor receptorinhibition.Nat.Med.22，262-269(2016).

11.J.Shah，P.T.Desai，D.Chen，J.R.Stevens，B.C.Weimer，Preadaptation tocold stress in Salmonella enterica serovar typhimurium increases survivalduring subsequent acid stress exposure.Appl.Environ.Microbiol.79，7281-7289(2013).

12.R.Roemhild，C.Barbosa，R.E.Beardmore，G.Jansen，H.Schulenburg，Temporalvariation in antibiotic environments slows down resistance evolution inpathogenic Pseudomonas aemginosa.Evol.Appl.8，945-955(2015).

13.Y.Benenson，Biomolecular computing systems：principles，progress andpotential.Nat.Rev.Genet.13，455-468(2012).

14.K.Oishi，E.Klavins，Framework for engineering finite state machinesin gene regulatory networks.ACS Synth.Biol.3，652-665(2014).

15.J.Bonnet，P.S ubsoontom，D.Endy，Rewritable digital data storage inlive cells via engineered control of recombinationdirectionality.Proc.Natl.Acad.Sci.U.S.A.109，8884-8889(2012).

16.T.S.Ham，S.K.Lee，J.D.Keasling，A.P.Arkin，Design and construction ofa double inversion recombination switch for heritable sequential geneticmemory.PLoS One.3，e2815(2008).

17.T.S.Ham.S.K.Lee，J.D.Keasling，A.P.Arkin.A Tightly RegulatedInducible Expression System Utilizing the fim Inversion RecombinationSwitch.Biotechnol.Bioeng.94，1-4(2006).

18.L.Yang et al.，Permanent genetic memory with＞l-bytecapacity.Nat.Methods.11，1261-1266(2014).

19.L.Prochazka，B.Angelici.B.Haefliger，Y.Benenson，Highly modular bow-tie gene circuits with programmable dynamic behaviour.Nal.Commun.5，4729(2014).

20.A.E.Friedland et al.，Synthetic gene networks thatcount.Science.324.1199-1202(2009).

21.P.Siuti，J.Yazbek，T.K.Lu，Synthetic circuits integrating logic andmemory in living cells.Nat.Biotechnol.31，448-452(2013).

22.J.Bonnet，P.Yin.M.E.Ortiz，P.Subsoontorn，D.Endy，Amplifying GeneticLogic Gates.Science.340，599-603(2013).

23.V.Hsiao，Y.Hori，P.W.K.Rothemund.R.M.Murray，“A population-basedtemporal logic gate for timing and recording chemical events”(2015)，bioRxivdoi：10.1101/029967.

24.N.D.F.Grindley，K.L.Whiteson，P.A.Rice，Mechanisms of site-specificrecombination.Annu.Rev.Biochem.75.567-605(2006).

25.W.R.A.Brown，N.C.O.Lee.Z.Xu，M.C.M.Smith，Serine recombinases astools for genome engineering.Methods.53，372-379(2011).

26.H.M.Thorpe，M.C.Smith，In vitro site-specific integration ofbacteriophage DNA catalyzed by a recombinase of the resolvase/invertasefamily.Proc.Natl.Acad.Sci.U.S.A.95，5505-5510(1998).

27.P.Ghosh.N.R.Pannunzio，G.F.Hatfull，M.Gonesman，Synapsis in phageBxb1 integration：Selection mechanism for the correct pair of recombinationsites.J.Mol.Biol.349，331-348(2005).

28.P.A.Rowley，M.C.A.Smith.E.Younger，M.C.M.Smith，A motif in the C-terminal domain of PhiC31 integrase controls the directionality ofrecombination.Nucleic Acids Res.36，3879-3891(2008).

29.M.C.A.Smith，R.Till，M.C.M.Smith，Switching the polarity of abacteriophage integration system.Mol.Microbiol.51，1719-1728(2004).

30.P.Ghosh，L.A.Bibb，G.F.Hatfull，Two-step site selection for serine-integrase-mediated excision：DNA-directed integrase conformation and centraldinucleotide proofreading.Proc.Natl.Acad.Sci.U.S.A.105，3238-3243(2008).

31.S.D.Colloms et al.，Rapid metabolic pathway assembly andmodification using serine integrase site-specific recombination.Nucleic AcidsRes.42，e23(2013).

32.See Materials and Methods section below.

33.B.Wang，R.I.Kitney.N.Joly，M.Buck，Engineering modular and orthogonalgenetic logic gates for robust digital-like synthetic biology.Nat.Commun.2，508(2011).

34.R.Gaber et al.，Designable DNA-binding domains enable constructionof logic circuits in mammalian cells.Nat.Chem.Biol.10，203-208(2014).

35.J.J.Lohmueller.T.Z.Armel.P.A.Silver.A tunable zinc finger-basedframework for Boolean logic computation in mammalian cells.Nucleic AcidsRes.40，5180-5187(2012).

36.A.A.Nielsen，C.A.Voigt，Multi-input CRISPR/Cas genetic circuits thatinterface host regulatory networks.Mol.Syst.Biol.10，763(2014).

37.S.Regot et al.，Distributed biological computation withmulticellular engineered networks.Nature.469，207-211(2011).

38.T.S.Moon.C.Lou，A.Tamsir.B.C.Stanton，C.A.Voigt，Genetic programsconstructed from layered logic gates in single cells.Nature.491.249-253(2012).

39.A.Tamsir，J.J.Tabor.C.A.Voigt.Robust multicellular computing usinggenetically encoded NOR gates and chemical“wires”.Nature.469，212-5(2011).

40.M.N.Win，C.D.Smolke，Higher-order cellular information processingwith synthetic RNA devices.Science.322，456-460(2008).

41.W.S.Teo.M.W.Chang，Development and characterization of AND-gatedynamic controllers with a modular synthetic GAL1 core promoter inSaccharomyces cerevisiae.Biotechnol.Bioeng.111，144-151(2014).

42.S.D.M.Müllcr，M.Wicland，M.Fussencgger，Programmablesingle-cell mammalian biocomputcrs.Nature.487，123-127(2012).

43.J.M.Callura.D.J.Dwyer.F.J.Isaacs，C.R.Cantor，J.J.Collins.Tracking.tuning，and terminating microbial physiology usingsynthetic riboregulators.Proc.Natl.Acad.Sci.U.S.A.107，15898-15903(2010).

44.J.Hasty，D.McMillen.J.J.Collins，Engineered genecircuits.Nature.420，224-230(2002).

45.A.C.Groth.E.C.Olivares.B.Thyagarajan，M.P.Calos，A phage integrasedirects efficient site-specific integration in humancells.Proc.Natl.Acad.Sci.U.S.A.97，5995-6000(2000).

46.E.C.Olivares，R.P.Hollis，M.P.Calos，Phage R4 integrase mediatessite-specific integration in human cells.Gene.278，167-176(2001).

47.S.M.Stoll，D.S.Ginsburg，M.P.Calos，Phage TP901-1 Site-SpecificIntegrase Functions in Human Cells.J.Bacteriol.184，3657-3663(2002).

48.A.Keravala et al.，A diversity of serine phage integrases mediatesite-specific recombination in mammalian cells.Mol.Genet.Genomics.276，135-146(2006).

49.J.Sambrook，E..Fritsch，T.Maniatis，Molecular Cloning：A LabratoryManual(Cold Spring Laboratory Press，ed.2，1989).

50.D.G.Gibson et al.，Enzymatic assembly of DNA molecules up toseveral hundred kilobases.Nat.Methods.6，343-344(2009).

51.J.H.Davis，A.J.Rubin，R.T.Sauer，Design，construction andcharacterization of a set of insulated bacterial promoters.Nucleic AcidsRes.39，1131-1141(2011).

52.J.Wild，Z.Hradecna，W.Szybalski，Conditionally Amplifiable BACs：Switching From Single-Copy to High-Copy Vectors and Genomic Clones.GenomeRes.12，1434-1444(2002).

53.iGem Registry of Standard Biological Parts(parts.igem.org).

54.L.M.Hsu et al.，Initial transcribed sequence mutations specificallyaffect promoter escape properties.Biochemistry.45，8841-8854(2006).

55.Y.J.Chen et al.，Characterization of 582 natural and syntheticterminators and quantification of their design constraints.Nat.Methods.10，659-664(2013).

56.B.P.Cormack，R.H.Valdivia，S.Falkow，FACS-optimized mutants of thegreen fluorescent protein(GFP).Gene.173，33-38(1996).

57.R.E.Campbell et al.，A monomeric red fluorescentprotein.Proc.Natl.Acad.Sci.U.S.A.99，7877-7882(2002).

58.O.M.Subach et al.，Conversion of Red Fluorescent Protein into aBright Blue Probe.Chem.Biol.15，1116-1124(2008).

59.H.M.Salis，E.A.Mirsky，C.A.Voigt，Automated design of syntheticribosomc binding sites to control protein expression.Nat.Biotechnol.27.946-950(2009).

60.C.Lou，B.Stanton，Y.J.Chen，B.Munsky.C.A.Voigt，Ribozymc-basedinsulator parts buffer synthetic circuits from geneticcontext.Nat.Biotechnol.30，1137-1142(2012).

61.B.P.Callen，K.E.Shearwin，J.B.Egan，Transcriptional Interferencebetween Convergent Promoters Caused by Elongation over thePromoter.Mol.Cell.14，647-656(2004).

62.M.J.Loessner，R.B.Inman，P.Lauer，R.Calendar，Complete nucleotidesequence，molecular analysis and genome structure of bacteriophage A118 ofListeria monocytogenes：implications for phage evolution.Mol.Microbiol.35，324-340(2000).

本文中公开的所有参考文献、专利和专利申请均关于其被引用的各自主题通过引用并入，在一些情况下，其可涵盖文件的整个内容。

除非明确提到相反情况，否则本文在说明书和权利要求中使用的未用数量词限定的名词应理解为意指“至少一个”。

应当理解，除非明确提到相反情况，否则在本文要求保护的包括多于一个步骤或动作的任何方法中，所述方法的步骤或动作的顺序不一定限于所记载之所述方法的步骤或动作的顺序。

在权利要求中以及上述说明书中，所有过渡性短语(例如“包括”、“包含”、“带有”、“具有”、“含有”、“涉及”、“持有”、“构成”等)应理解为开放性的，即，意指包括但不限于。仅过渡性短语“由......组成”和“本质上由......组成”分别应该是封闭式或半封闭式过渡性短语，如美国专利局专利审查程序手册(United States Patent Office Manual ofPatent Examining Procedures)2111.03部分中所述。

Claims

1.系统，其包含：

(a)n个丝氨酸重组酶，其中n大于2；以及

(b)经改造的核酸，其包含用于所述n个丝氨酸重组酶中的每一个的n-1对对应重组识别位点(RRS)，

其中(b)的n(n-1)对RRS以重叠配置布置，使得所述n(n-1)对RRS中的每一对的两个RRS被所述n(n-1)对RRS中的另一对的至少一个RRS彼此分开，并且其中所述n(n-1)对RRS中的每一对的两个RRS之间的重组反转或切除所述n(n-1)对RRS中的另一对的至少一个RRS。

2.权利要求1所述的系统，其中n大于或等于3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20。

3.权利要求1或2所述的系统，其中所述n个丝氨酸重组酶选自Bxb1、Tp901、A118、PhlF和AraC。

4.权利要求1至3中任一项所述的系统，其中所述RRS选自attB位点、attP位点、经修饰以包含CA二核苷酸的attB位点、经修饰以包含CA二核苷酸的attP位点、经修饰以包含GT二核苷酸的attB位点、经修饰以包含GT二核苷酸的attP位点、经修饰以包含AG二核苷酸的attB位点、经修饰以包含AG二核苷酸的attP位点、经修饰以包含TC二核苷酸的attB位点、经修饰以包含TC二核苷酸的attP位点、经修饰以包含AA二核苷酸的attB位点、经修饰以包含AA二核苷酸的attP位点、经修饰以包含GG二核苷酸的attB位点和经修饰以包含GG二核苷酸的attP位点。

5.权利要求1至4中任一项所述的系统，其中所述系统还包含至少一种经改造的核酸，所述经改造的核酸包含与编码所述n个丝氨酸重组酶中的至少一个的核苷酸序列有效地连接的至少一个启动子。

6.权利要求5所述的系统，其中所述至少一个启动子是诱导型的。

7.权利要求6所述的系统，其中所述至少一个启动子选自P_Ph1F、P_BAD和P_LtetO。

8.权利要求1至7中任一项所述的系统，其中(b)的所述经改造的核酸还包含编码可检测分子的核苷酸序列。

9.权利要求8所述的系统，其中所述可检测分子是荧光分子。

10.系统，其包含：

(a)3个丝氨酸重组酶；以及

(b)经改造的核酸，其包含用于所述3个丝氨酸重组酶中的每一个的两对对应重组酶识别位点(RRS)，

其中(b)的6对RRS以重叠配置布置，使得所述6对RRS中的每一对的两个RRS被所述6对RRS中的另一对的至少一个RRS彼此分开，并且其中所述6对RRS中的每一对的两个RRS之间的重组反转或切除所述6对RRS中的另一对的至少一个RRS。

11.系统，其包含：

(a)4个丝氨酸重组酶；以及

(b)经改造的核酸，其包含用于所述4个丝氨酸重组酶中的每一个的3对对应重组酶识别位点(RRS)，

其中(b)的12对RRS以重叠配置布置，使得所述12对RRS中的每一对的两个RRS被所述12对RRS中的另一对的至少一个RRS彼此分开，并且其中所述12对RRS中的每一对的两个RRS之间的重组反转或切除所述12对RRS中的另一对的至少一个RRS。

12.细胞，其包含权利要求1至11中任一项所述的系统。

13.权利要求12所述的细胞，其中所述细胞是细菌细胞或哺乳动物细胞。

14.权利要求12所述的细胞，其中所述细胞是干细胞。

15.使用权利要求1至11中任一项所述的系统或权利要求12至14中任一项所述的细胞作为治疗装置或诊断装置的方法。

16.使用权利要求1至11中任一项所述的系统来控制细胞分化的方法。

17.使用权利要求1至11中任一项所述的系统来检测细胞中的化学信号的方法。