CN109415725A

CN109415725A - 分子状态机

Info

Publication number: CN109415725A
Application number: CN201780041484.6A
Authority: CN
Inventors: K·K·甘贾姆
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-07-01
Filing date: 2017-06-29
Publication date: 2019-03-01
Also published as: US20230024120A1; US20180004537A1; EP3478835B1; US11422832B2; US20190332396A1; WO2018005782A1; EP3478835A1

Abstract

通过设计细胞以使用特异性同源定向修复(“HDR”)模板，基于细胞的当前“状态”修复多核苷酸中的双链断裂，在细胞中实施分子状态机。可以通过细胞中分子的存在或通过细胞的多核苷酸中特定切割位点的可用性来建立状态。可以使用不同的HDR模板或不同的核酸酶来基于状态执行HDR。当状态改变时，相同的信号或事件将导致将不同的HDR模板引入细胞的现有多核苷酸中。可以使用细胞内部或外部的信号改变细胞的状态。细胞可以基于状态产生分子事件的日志，存储二进制数据，或执行其他合成生物学/分子计算功能。

Description

分子状态机

相关申请的交叉引用

本申请要求2016年7月1日提交的标题为“Storage Through Iterative DNAEditing”的美国临时专利申请序列号62/357,828，2016年9月23日提交的标题为“StorageThrough Iterative DNA Editing”的美国临时专利申请序列号62/399,190，2017年4月20日提交的标题为“Mechanisims for Molecular Event Logging”的美国临时申请序列号62/487,671，和2017年6月16日提交的标题为“Molecular State Machines”的美国专利申请序列号15/626,020的权益，其均通过引用整体明确并入本文。

背景技术

状态机提供可以在从自动售货机到计算机的机器中找到的行为的数学表示。状态机基于机器的当前状态响应于输入。因此，状态机的行为取决于接收到的输入和接收到该输入时机器的当前状态两者。合成生物学，分子计算，设计用于日志记录事件的生物系统，设计用于存储任意信息的生物系统(例如，存储在DNA中的数字数据)等都可以使用状态机。分子状态机可以在这些领域开辟新可能性。

发明内容

本发明内容是为了以简化形式介绍一些选择的概念而提供，这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在确定要求保护的主题内容的关键特征或必要特征，也不旨在用于限制要求保护的主题内容的范围。

本公开描述了可以表现为状态机的细胞和细胞系统。细胞可以通过HDR的过程将同源定向修复(HDR)模板插入DNA或RNA中的双链断裂(DSB)中来记录信息，包括当前状态。精确的基因编辑技术，例如CRISPR/Cas(规律间隔成簇短回文重复序列/CRISPR相关蛋白)系统和TALEN(转录激活因子样效应核酸酶)能够将HDR模板插入现有DNA或RNA中的特定位置。

细胞也可以由改变细胞对给定信号的响应的分子的存在设置成“状态”。分子可以外部施加到细胞上或响应于刺激(例如，温度，pH，光，化学物质等)在内部产生。一旦处于状态，细胞可以接收指示分子事件、要记录的二进制数字或由细胞以特定于当前状态的方式实施的其他任务的信号。另外，可以将细胞从一种状态改变为另一种状态。细胞的当前状态可以控制将哪种HDR模板整合到DNA或RNA中。因此，在细胞中产生的遗传记录可以受到使状态机的功能成为可能的状态的影响

附图说明

具体实施方式参照附图进行阐述。在附图中，附图标记的最左边的数字标识其中首次出现该附图标记的图。在不同图中使用相同的附图标记表示相似或相同的项目。

图1显示用酶切割DNA并通过HDR在切割位点处插入多核苷酸序列的示意图。

图2显示切割图1的DNA并通过另外的HDR插入另外的多核苷酸序列的示意图。

图3显示用于将多核苷酸序列插入现有DNA中的细胞的示意性组件。

图4显示示意性状态机。

图5显示分子状态机中的示意性组件的示意图。

图6显示根据通过分子状态实施的情境依赖性编码在多核苷酸中记录二进制数字的示意性过程。

图7显示根据细胞状态改变将哪种HDR模板插入双链多核苷酸中的示意性过程。

图8是图7的示意性过程的继续。

图9显示用于实施本公开中描述的技术的示意性系统。

具体实施方式

本公开提出了用于在细胞中产生分子状态机的技术。分子状态机根据当前状态改变细胞的行为。因此，细胞对信号的响应于取决于信号和由具有状态的细胞表示的情境两者。细胞可以产生由细胞感测的分子事件的日志或者记录任意信息例如二进制数字到细胞的遗传物质中，产生稳定的可遗传记录。将特异性同源定向修复模板插入细胞的遗传物质中以产生日志或记录任意信息。对遗传物质进行测序可以检索用于分析或在计算机上显示的信息。状态机功能允许更复杂的行为，例如根据细胞状态不同地日志记录事件或根据情境依赖性编码记录二进制数字，其中用于表示给定数字(即1或0)的核苷酸不仅依赖于数字，还依赖于在前的数字。

遗传物质是“多核苷酸”，其通常是DNA，但也可以是RNA或DNA和RNA的杂合组合。多核苷酸可包含或不包含一个或多个人工核苷酸(例如异鸟嘌呤，异胞嘧啶，二氨基嘌呤等)。除非上下文另有明确说明，否则本文对“DNA”的提及应理解为包括所有类型的多核苷酸。由细胞感测的分子事件可以是细胞内或细胞外事件，其导致产生可由细胞系统检测的信号。分子事件的实例包括暴露于化学物质，温度变化，暴露于光(或暗)，暴露于辐射，抗原的存在，离子浓度如pH的变化，等等。分子事件可以表示细胞经历的外部环境条件或内部条件。

检测分子事件的细胞系统可包括响应细胞外部条件的细胞外受体或响应细胞内条件的细胞内受体。细胞系统可以通过信号传导途径传达受体检测到的信号，最终导致多核苷酸的修饰。信号传导途径可以是“工程化信号传导途径”，其是在部分修饰的天然信号传导途径或被添加至细胞的完全合成途径。信号传导途径可以通过控制基因产物的表达而导致多核苷酸的变化。表达可以通过信号传导途径和诱导型启动子之间的相互作用来控制。启动子是启动特定基因的转录的DNA区域。响应于信号，信号传导途径可以起动诱导型启动子(其增加相关基因的转录)，或抑制启动子(其降低相关基因的转录)。来自由启动子控制的基因的基因产物是用于修饰多核苷酸的组件。例如，基因产物可以是切割多核苷酸的酶，或者基因产物可以是用于修饰已经存在于细胞中的多核苷酸的另一种多核苷酸。

可以通过同源定向修复(“HDR”)进行细胞中多核苷酸的修饰。HDR使用模板多核苷酸(通常是DNA，但也可以使用RNA)来修复多核苷酸中的双链断裂(“DSB”)。修复除去DSB，并且基于模板多核苷酸(其在本公开中称为“HDR模板”)的设计，还可以在修复点添加另外的多核苷酸序列。因此，信号可以导致产生DSB，然后通过HDR以将特定的、另外的多核苷酸序列添加到细胞的遗传物质中的方式修复。此后，细胞中该多核苷酸序列的存在可以使细胞处于特定状态，可以是细胞已经经历特定分子事件的指示，可以表示任意信息，例如二进制数字。工程化信号传导途径和HDR模板的设计在特定信号和特定多核苷酸序列之间产生任意关联。类似地，通过添加用于添加另一HDR模板的插入位点，HDR可用于添加改变细胞状态的多核苷酸序列。因此，用于将新序列整合到多核苷酸中的分子机制是相同的，但是重要性取决于HDR模板是将细胞置于给定状态还是HDR模板表示存储在多核苷酸中的信息而不同。

仅仅是举例而言，可以用检测特定化学物质的受体修饰细菌细胞。由该受体产生的信号可以通过信号传导途径传递到启动子，所述启动子增加HDR模板的转录，所述模板在特定位置处修复DSB时随之将特定的DNA序列(例如ACTAGA)添加到细菌细胞的基因组DNA中。酶在基因组DNA中的预定位置产生DSB。该DSB的特定位置基于酶的特性是特异性的，并且被设计为通过相应的HDR模板修复。化学物质被受体检测到，这随之导致HDR模板的转录增加。当存在许多拷贝的HDR模板时，这些拷贝中的一个可用于修复DSB并将序列ACTAGA添加到细菌细胞的基因组DNA中。响应于化学物质的检测而添加HDR模板增加了新DNA序列，其自身可包含用于不同酶的切割位点(例如，在ACTAGA序列的中间可以存在切割位点)。这种切割位点的存在可以是如何对该细胞实施状态。这种其他的酶可以在由HDR模板添加的DNA中产生DSB，第二HDR模板被引入其中。第二HDR模板可以表示二进制数字或分子事件的日志。第二HDR模板可以在切割位点的位置处添加例如序列GCT。该细菌细胞可以设计为使得直到在检测到化学物质和后续引入第一HDR模板之后才存在用于该其他的酶的切割位点。因此，直到细胞处于正确状态，才可以将第二HDR模板插入DNA中。之后，通过DNA测序分析细菌细胞的DNA可以检测序列ACT-GCT-AGA，其然后用作细胞暴露于该特定化学物质且同时细胞处于状态的记录。

同源定向修复

HDR是细胞中修复DSB的机制。HDR的最常见形式是同源重组。当存在用于修复DSB的同源DNA片段时，细胞可以使用HDR修复机制。由于需要受损的DNA链和完整供体DNA链之间的序列同源性，HDR被认为是DSB修复的高度准确的机制。如果用于修复的DNA模板与DSB处的原始DNA序列相同，则该过程几乎是没有错误的，或者如果用于修复的DNA模板与原始DNA序列之间存在差异，则它可以在受损DNA中引入非常特异性的突变。HDR模板可包含在质粒中，并且可包括围绕靶序列的2-3kb的同源性。可以改变靶序列处HDR模板的非同源部分以具有期望的突变或“敲入”。敲入内容可包括可选择标志物，荧光标记，新切割位点等。含有HDR模板的质粒可通过聚合酶链式反应(PCR)扩增从基因组DNA中分离同源区，然后克隆到质粒骨架中而构建。本公开讨论了作为修复过程的部分使用同源修复模板在DSB点处添加新的DNA序列。

HDR包括同源重组(HR)和单链退火(SSA)(Lieber.2010Annu.Rev.Biochem.79：181-211)。最常见的HDR形式是HR，其在供体和受体DNA之间具有最长的序列同源性要求。其他形式的HDR包括单链退火(SSA)和断裂诱导复制，并且这些相对于HR需要较短的序列同源性。在缺口(单链断裂)处的HDR可以通过与在DSB处的HDR不同的机制发生(Davis和Maizels，PNAS(0027-8424)，111(10)，p.E924-E932)。

如本文所用，关于核苷酸序列的术语“同源性”和“同源的”是指与其他核苷酸序列的互补程度。可以存在部分同源性或完全同源性(即同一性)。与核酸序列部分互补，即“基本上同源”的核苷酸序列是至少部分抑制完全互补序列与靶核酸序列杂交的核苷酸序列。可以在低严格性条件下使用杂交测定(Southern或Northern印迹，溶液杂交等)检查完全互补序列与靶序列的杂交的抑制。基本上同源的序列或探针将在低严格性条件下竞争并抑制完全同源序列与靶序列的结合(即杂交)。这并不是说低严格性的条件是使得允许非特异性结合；低严格性条件要求两个序列彼此的结合是特异性(即选择性)的相互作用。可以通过使用缺乏甚至部分互补性水平(例如，小于约30％同一性)的第二靶序列来测试非特异性结合的不存在；在不存在非特异性结合的情况下，探针将不与第二非互补靶杂交。

本文所用的关于氨基酸序列的术语“同源性”和“同源的”是指两个氨基酸序列之间的一级结构的同一性程度。这样的同一性程度可以指向每个氨基酸序列的一部分，或指向氨基酸序列的整个长度。两个或更多个“基本上同源的”氨基酸序列可具有至少50％的同一性，优选至少75％的同一性，更优选至少85％的同一性，最优选至少95％或100％的同一性。

“可杂交的”或“互补的”或“基本上互补的”是指多核苷酸(例如DNA或RNA)包含能够使其在温度和溶液离子强度的适当体外和/或体内条件下以序列特异性的、反平行的方式与另一多核苷酸非共价结合(即，多核苷酸特异性结合互补多核苷酸)的核苷酸序列。如本领域所知，

杂交和洗涤条件是众所周知的并且在Sambrook，J.，Fritsch，E.F.和Maniatis，T.Molecular Cloning：A Laboratory Manual，Second Edition，Cold Spring HarborLaboratory Press，Cold Spring Harbor(1989)，特别是其中第11章和表11.1；和Sambrook，J.和Russell，W.，Molecular Cloning：A Laboratory Manual，Third Edition，Cold Spring Harbor Laboratory Press，Cold Spring Harbor(2001)中举例说明。温度和离子强度的条件决定了杂交的“严格性”。

在本领域中应理解，多核苷酸的序列不需要与其靶多核苷酸的序列100％互补而是可特异性杂交的。此外，多核苷酸可以在一个或多个区段上杂交，使得插入或邻近区段不参与杂交事件(例如，环结构或发夹结构)。多核苷酸可包含与它们靶向的靶多核苷酸序列内的靶区域至少70％，至少80％，至少90％，至少95％，至少99％或100％的序列互补性。例如，其中反义化合物的20nt中的18与靶区域互补并因此特异性杂交的反义多核苷酸将表示90％的互补性。在该实例中，剩余的非互补核苷酸可以簇集或散布于互补核苷酸中，并且不需要彼此或与互补核苷酸连续。多核苷酸内的特定多核苷酸序列延伸段之间的互补百分比可以使用本领域已知的BLAST程序(基础局部比对搜索工具)和PowerBLAST程序(Altschul等，J.Mol.Biol.，1990，215：403-410；Zhang和Madden，Genome Res.，1997，7，649-656)或通过使用Gap程序(Wisconsin Sequence Analysis Package，Version 8 for Unix，GeneticsComputer Group，University Research Park，Madison Wis.)采用默认设置常规地测定，其使用Smith和Waterman 的算法(Adv.Appl.Math.，1981，2，482-489)。

图1显示通过HDR将新DNA序列添加到双链DNA(dsDNA)100中的操作的说明性示意图。新DNA序列可以成为含有dsDNA 100的细胞所经历的分子事件的记录。dsDNA 100包含靶位点102，其指导酶104在特定切割位点106处在靶位点102内产生在dsDNA 100中的DSB。根据形成DSB的具体酶和技术，可以产生具有钝端或具有粘端的DSB。靶位点102是由在dsDNA中产生DSB的酶识别的DNA序列。“酶反应性条件”是指在允许酶起作用的环境中可得的任何必要条件[即，例如温度，pH和缺乏抑制性物质的因素]。酶反应性条件可以是体外的，例如在试管中，或体内的，例如在细胞内。

可以有意地将靶位点102引入dsDNA 100中以使得能够进行下述操纵。或者，可以选择预先存在的dsDNA 100的部分作为靶位点102。如果选择预先存在的dsDNA 100的部分作为靶位点102，则系统的其他组件的序列参照靶位点102的序列设计。在一些实施方式中，靶位点102是独特的，使得在整个dsDNA链中仅存在一个靶位点102和/或在细胞中的所有DNA中仅存在一个靶位点102。dsDNA 100可以是活的原核或真核细胞内的基因组DNA，引入活细胞中的DNA(例如质粒或载体)，或无细胞系统中的DNA。在引入DSB之前，dsDNA 100可以以线性或环状DNA的形式存在。

产生DSB的酶104可以是任何蛋白质，蛋白质-RNA复合物或蛋白质-DNA复合物(包括多聚体复合物)，其具有在切割位点106处在dsDNA中产生DSB的性质。合适的酶的非限制性实例包括限制酶，归巢内切核酸酶，锌指核酸酶(ZFN)，转录激活因子样效应核酸酶(TALEN)，CRISPR/Cas和NgAgo。这些类型的酶全部是能够在靶位点102内的切割位点106处造成DSB的位点特异性核酸酶的实例。关于位点特异性核酸酶的进一步细节提供如下。

在切割位点106处产生DSB之后，靶位点102被分成DSB两侧的两个子序列102(A)和102(B)。在一个实施方式中，两个子序列102(A)和102(B)中的每一个的长度可以在5至20个核苷酸(nt)之间。因此，在一个实施方式中，靶位点102的长度可以在10到40nt之间。在一些实施方式中，两个子序列102(A)和102(B)可含有相同的DNA序列。切割位点106可以位于靶位点102的中间，或者它可以位于靶位点102内的其他位置。图1所示的示意图显示具有钝端的DSB，但如上所述，具有粘端的DSB也包括在本公开的范围内。

使HDR模板108接近具有DSB的dsDNA 100。HDR模板108是单链(ss)DNA或ssRNA。HDR模板修复DSB并通过同源定向修复过程插入多核苷酸序列。用于产生特定突变或将新元件插入基因中的HDR模板需要在被修饰的靶位点周围的一定量的同源性。因此，HDR模板108包含与靶位点的第一子序列102(A)互补的3’端序列110和与靶位点的第二子序列102(B)互补的5’端序列112。因为它们是互补序列，所以3’端序列110和5’端序列112的长度与靶位点的相应子序列102(A)和102(B)相同或大致相同。因此，3端序列110和5’端序列112两者的长度可以在5和20nt之间。HDR模板108的中间部分包含编码第二靶位点116的区域114。该中间区域114可以在该点的两侧包含两个子序列114(A)和114(B)，其中第二靶位点116将被第二酶切割。HDR模板108的中间部分114中的两个子序列114(A)和114(B)的长度可以不同于两个子序列102(A)和102(B)的长度，但是可以遵循相同的尺寸范围，且长度在5到20nt之间。因此，HDR模板108的总长度可以在约20和80nt之间。因为中间区域114编码第二靶位点116，所以HDR模板108自身提供了该过程迭代地重复的基础。只要细胞检测到信号并且用于产生DSB和执行HDR的组件可用，该过程可以继续直到信号停止。因此，插入的DNA的长度可以与信号的持续时间相关联。

然后，HDR模板108通过HDR修复DSB。HDR的效率可能是低的，并且在某些情况下，其他修复机制可能占主导地位。HDR的效率部分地由修复时存在的供体DNA的浓度，供体DNA的同源臂的长度，细胞周期，和内源修复系统的活性决定。可以提供过量的HDR模板108以提高HDR的效率。通过人工或使用微流体装置添加额外拷贝的ssRNA或ssDNA，可以将过量的HDR模板108提供给无细胞系统。如果需要，还可以通过将编码HDR模板108的基因置于强启动子的控制下和/或通过使多个拷贝的编码HDR模板108的基因全部进行转录来提供过量的HDR模板108。在一个实施方式中，这种启动子可以通过响应于信号的信号传导途径来调节。当检测到信号时，启动子起动并生成更多拷贝的HDR模板108。

在DSB处切除5’端DNA链以产生3’突出端。这既可作为链侵入所需的蛋白质的底物，也可作为用于DNA修复合成的引物。然后，HDR模板108可以置换同源DNA双链体的一条链并与另一条链配对；这导致形成称为置换环(“D环”)118的杂合DNA。然后可以分解重组中间体以完成DNA修复过程。如上所述，可以提供过量的HDR模板108。本领域普通技术人员将理解如何用具有DSB的dsDNA 100和HDR模板108进行HDR。用于进行HDR的可能方案在以下中提供：Jie Liu等,In Vitro Assays for DNA Pairing in Recombination-Associated DNASynthesis,745Methods Mol.Bio.363(2011)；Gratz,S.等,Highly specific andefficient CRISPR/Cas9-catalyzed homology-directed repair in Drosophila,196Genetics 967(2014)；Richardson,C.C.等,Enhancing homology-directed genomeediting by catalytically active and inactive CRISPR-Cas9using asymmetricdonor DNA,34Nature Biotechnology 399(2016)；和Lin,S.等,Enhanced homology-directed human genome engineering by controlled timing of CRISPR/Cas9delivery,eLIFE(2014)。

在HDR模板108侵入dsDNA之后，通过3’端序列110与靶位点102的第一子序列102(A)的杂交和5’端序列112与靶位点102的第二子序列102(B)的杂交形成D环118。DNA聚合酶合成与dsDNA100的一条链的中间部分114互补的新ssDNA 120。DNA连接酶将新合成的ssDNA120的糖-磷酸酯主链与dsDNA 100的该链的剩余部分连接。这形成第二靶位点116的一条链。

杂交需要两个多核苷酸含有互补序列，尽管碱基之间的错配是可能的。适合于两个多核苷酸之间的杂交的条件取决于多核苷酸的长度和互补程度，其是本领域熟知的变量。两个核苷酸序列之间的互补程度越大，具有那些序列的多核苷酸的杂交体的解链温度(T_m)的值越大。对于具有短互补段(例如在35nt或更少，30nt或更少，25nt或更少，22nt或更少，20nt或更少，或18nt或更少上的互补)的多核苷酸之间的杂交，错配的位置变得重要。这是本领域普通技术人员所理解的，并在Sambrook，J.和Russell，W.，Molecular Cloning：ALaboratory Manual，Third Edition，Cold Spring Harbor Laboratory Press，ColdSpring Harbor(2001)第11.7-11.8节中描述。通常，可杂交多核苷酸的长度为至少约10nt。可杂交多核苷酸的示意性最小长度是：至少约15nt；至少约20nt；至少约22nt；至少约25nt；和至少约30nt。此外，技术人员将认识到，在必要时可以根据例如互补区长度和互补程度等因素调节温度，pH和洗涤溶液盐浓度。

修复dsDNA 100的第一链后，使用修复的第一链中的新ssDNA 120的序列作为模板，通过DNA聚合酶和DNA连接酶修复dsDNA 100的第二链。这完成了dsDNA 100的修复，产生包含插入在第一靶位点102内的第二靶位点116的dsDNA。

DNA聚合酶是从个体脱氧核糖核苷酸合成DNA分子的酶。在此过程中，DNA聚合酶“读取”现有DNA链以产生新的互补链。DNA连接酶是特定类型的酶，即连接酶，其通过催化磷酸二酯键的形成而促进DNA链连接在一起。它在修复单链断裂方面起作用。DNA连接酶的机制是在一个核苷酸(“受体”)的3’羟基末端与另一个核苷酸(“供体”)的5’磷酸末端之间形成两个共价磷酸二酯键。来自噬菌体T4的DNA连接酶是最常用于实验室研究的连接酶。它可以连接DNA、寡核苷酸以及RNA和RNA-DNA杂合体的粘着或“粘性”末端，但不能连接单链多核苷酸。它也可以连接钝端DNA。

注意，HDR模板108包含两种类型的区域：末端区域和中间区域。末端区域与DSB两侧的dsDNA 100的一条链同源。这里，同源区域由3’端序列110和5’端序列112显示。同源性不需要是100％，而是仅达到3’端序列110和5’端序列112与dsDNA 100的一条链杂交的程度。中间区域是HDR模板108的中间部分114，其编码第二靶位点116的序列。独立地改变末端区域和中间区域两者允许从相对有限的末端区域和中间区域集产生多个不同的HDR模板108。因此，插入的HDR模板108的中间区域不需要具有与其被插入其中的dsDNA 100相同的靶位点102或切割位点106。

在HDR之后，dsDNA 100包含第一靶位点102的第一子序列102(A)，接着是第二靶位点116的第一子序列116(A)。由两个靶位点的两个子序列102(A)和116(A)的该顺序表示的DNA序列122可以表示特定的信号组合(例如，温度高于30℃，接着pH低于5)。如上所述，子序列102(A)的长度为5至20nt，子序列114(A)的长度也为5至20nt。因此，在一个实施方式中，DNA序列122的总长度为10至40nt。

然而，HDR不是修复DSB的唯一方式。非同源末端连接(NHEJ)是一种修复DNA中的双链断裂的途径，并且可以在许多条件下比HDR更有利。NHEJ被称为“非同源的”，因为断裂末端被直接连接而不需要同源模板。NHEJ在整个细胞周期中活跃，并且具有更高的修复能力，因为不需要修复模板(姐妹染色单体或同源物)或大量的DNA合成。NHEJ还在几十分钟内完成大多数类型的断裂的修复，比HDR快一个数量级。因此，在许多细胞中，HDR和NHEJ之间存在竞争。如果HDR与NHEJ的比率足够高，则HDR将继续。然而，在NHEJ存在下，由酶104形成的DSB中的一些将在没有插入序列的情况下重新连接。

因此，NHEJ是在天然细胞中修复DSB的主要手段。NHEJ介导的修复容易产生插入缺失(indel)错误。在NHEJ修复过程中产生的插入缺失错误通常很小(1-10nt)，但极其多样。因此，大约有三分之二的机会导致移码突变。因此，可能期望最小化NHEJ并增加由HDR修复DSB的概率。可以通过抑制NHEJ过程的组分而增加HDR被使用的可能性。添加例如NU7441和KU-0060648的小分子是通过抑制DNA依赖性蛋白激酶催化亚基(“DNA-PKcs”)而抑制NHEJ的一种技术。以这种方式增强HDR效率的技术描述于Maruyama等，Increasing theefficiency of precise genome editing with CRISPR-Cas9by inhibition ofnonhomologous end joining.33(5)Nature Biotechnology,538(2015)和Robert等,Pharmacological inhibition of DNA-PK stimulates Cas9-mediated genomeediting.7Genome Medicine 93(2015)中。在一个实施方式中，可以通过抑制参与NHEJ途径的分子KU70，KU80和/或DNA连接酶IV来提高HDR效率。除了抑制之外，可以表达Cas9系统，E1B55K和/或E4orf6以进一步提高HDR效率并降低NHEJ活性。以这种方式增强HDR效率的技术描述于Chu等,Increasing the efficiency of homology-directed repair forCRISPR-Cas9-induced precise gene editing in mammalian cells.33(5)NatureBiotechnology,543(2015)中。此外，已在Richardson等,Enhancing homology-directedgenome editing by catalytically active and inactive CRISPR-Cas9usingasymmetric donor DNA,34(3)Nature Biotechnology 339(2016)中显示使用单链DNA寡聚体供体(ssODN)使HDR速率和敲入效率提高至多60％。

图2显示对图1的dsDNA 100分子进行的进一步操纵的示意图。第二酶200在第二靶位点116中的第二切割位点202处产生第二DSB。第二靶位点116具有与第一靶位点102不同的序列，因此，第二酶200识别与第一酶104不同的DNA序列。在第二靶位点116中在切割位点202处形成DSB产生在切割位点202的一侧上的第二靶位点116的第一子序列116(A)和在切割位点202的另一侧上的第二靶位点116的第二子序列116(B)。在一些实施方式中，第一子序列116(A)和第二子序列116(B)可以具有相同的序列。因此，第一子序列116(A)和第二子序列116(B)可以具有相同的核苷酸长度。而且，如果第一子序列116(A)和第二子序列116(B)是相同的序列，则可以认为第二靶位点116具有在中间以切割位点202重复一次的单一子序列。

第二HDR模板204接触dsDNA 100以提供用于DSB的HDR的模板。第二HDR模板204包含3’端区域206，其与第二靶位点116的第一子序列116(A)内的dsDNA 100的一条链同源。第二HDR模板204还包含5’端区域208，其与第二靶位点116的第二子序列116(B)内的dsDNA100的一条链同源。第二HDR模板204还包含中间的部分210，其编码用于第三酶的第三靶位点。中间区域210包含在第三切割位点212的一侧上的第一子序列210(A)和在第三切割位点212的另一侧上的第二子序列210(B)。

将第二HDR模板204与dsDNA 100的一条链退火通过3’端序列206与子序列116(A)的杂交和5’端序列208与子序列116(B)的杂交产生D环214。DNA聚合酶和DNA连接酶通过产生新DNA 216修复第二HDR模板204与之杂交的dsDNA 100的链。然后使用第一链作为模板修复dsDNA 100的第二链。

dsDNA 100现在包含插入第二靶位点116(其自身插入第一靶位点102的中间)的中间的第三靶位点218。子序列116(A)、然后是子序列218(A)的顺序可以产生检测到的信号或特定二进制数字的第二组合的记录。因此，插入的DNA序列的逐渐增长的串可以提供细胞经历的分子事件的有序日志或储存任意信息如二进制数字。该过程可以重复以记录任何数量的分子事件或任何长度的数字数据。

使用上述机制将HDR模板添加到现有DNA中可以通过信号传导途径调节，如下文详细描述的。本文描述的编码方案允许插入表示无界长度的DNA序列。可以添加不包含切割位点的HDR模板，结束HDR的过程，因为没有进一步的切割位点。细胞中的dsDNA可以在不同位置具有多个不同的靶位点，其包括不同的切割位点并且与不同的HDR模板同源。这提供了信号的正交记录(orthogonal recording)，而信号之间没有任何连接。这种类型的正交关系允许细胞实施彼此独立运行的多个状态机。可以修饰细胞以具有任何数量的正交靶位点。

三个靶位点可以表示为X₁X₂，Y₁Y₂和Z₁Z₂。靶位点的第一部分(例如，X₁，Y₁或Z₁)对应于图1所示的子序列102(A)或子序列116(A)。靶位点的剩余部分(例如，X₂，Y₂或Z₂)对应于图1所示的子序列102(B)或子序列116(B)。因此，每个X，Y和Z表示约5至20nt的DNA序列，仅仅举例而言，例如ACTGAA，GCCTCAT，TGACG等。在一些实施方式中，X₁＝X₂等，但在其他实施方式中，靶位点的第一部分的序列和/或长度可以与靶位点的剩余部分不同。

HDR模板都具有与靶位点之一同源的末端区域。因此，HDR模板将具有以下结构的序列：X₁aX₂，Y₁bY₂和Z₁cZ₂，其中“a”，“b”和“c”表示中间区域的DNA序列。回想一下，HDR模板的中间区域自身可编码靶位点。因此，例如，a可以表示X₁X₂，b可以表示Z₁Z₂，并且c可以表示不同的靶位点W₁W₂。如果中间区域确实编码靶位点，则HDR模板整合到dsDNA中之后可以是进一步整合相同或不同的HDR模板。将HDR模板插入本身由HDR模板的整合产生的dsDNA中在本公开中称为“迭代整合”。

在一种配置中，可以通过适当设计的HDR模板和插入位点来记录多个信号的持续检测。当检测到第一信号“a”时，表达具有序列XaYYaX的HDR模板。类似地，当检测到第二信号“b”时，表达HDR模板YbXXbY。最初，细胞可包括靶位点XX或YY，取决于细胞当前状态。如果细胞仅包括靶位点XX，则信号“b”的存在不被记录，直到细胞状态改变，使得靶位点YY在细胞DNA中可用。

在一种配置中，多个信号可以与具有相同靶位点的HDR模板相关。例如，第一信号“a”和第二信号“b”可以分别与HDR模板XaXXaX和XbXXbX相关。可以将任一HDR模板整合到靶位点XX中。一旦整合，两种HDR模板均还包含靶位点XX，允许迭代添加任一或两者。细胞的状态可以控制哪个HDR模板可用。例如，在第一状态中，HDR模板XaXXaX可以是可用的。在第二状态中，HDR模板XbXXbX可以是可用的。

每个种类的HDR模板包含对应于不同信号的两个(但可包括任何数量的)HDR模板，其具有部分不同的序列。因此，信号“a₁”可以导致HDR模板Xa₁YYa₁X表达增加，并且信号“a₂”可以导致HDR模板Xa₂YYa₂X表达增加。类似地，信号“b₁”可以导致HDR模板Yb₁XXb₁Y表达增加，并且信号“b₂”可以导致HDR模板Yb₂XXb₂Y表达增加。如果细胞以包含插入位点XX的DNA开始，则将基于Xa₁YYa₁X模板的相对浓度和Xa₂YYa₂X HDR模板的相对浓度整合“a”HDR模板中的第一个。

在一个实例实施方式中，使用Cas9作为核酸酶和具有该酶的PAM序列NNNNGATTT，三个靶位点可以是：

X₁＝TAGCCGTATCGAGCATCGATG|CGCNNNNGATT＝X₂

Y₁＝GATCGATGGACTCTGCATCTA|TCGNNNNGATT＝Y₂

Z₁＝CGGGACGATCGATCGGGCTAG|ACTNNNNGATT＝Z₂

其中PAM序列用粗体表示，X₁是(SEQ ID NO：1)，X₂是(SEQ ID NO：2)，Y₁是(SEQ IDNO：3)，Y₂是(SEQ ID NO：4)，Z₁是(SEQ ID NO：5)，Z₂是(SEQ ID NO：6)。请注意，X₁，Y₁和Z₁中的每一个是21nt长。

每个靶位点由相应的指导ssDNA识别，所述指导ssDNA在下文由“^”指示的位置处切割dsDNA。它们应具有反式激活crRNA(tracrRNA)，其是小的反式编码RNA，用于连接到末端附加的Cas9。将crRNA引入效应复合物中，其中crRNA将复合物指引至靶位点，Cas蛋白在多核苷酸中产生DSB。相应的ssDNA序列是：

gX₁＝TAGCCGTATCGAGCATCGATG^CGC(SEQ ID NO：1)

gY₁＝GATCGATGGACTCTGCATCTA^TCG(SEQ ID NO：3)

gZ₁＝CGGGACGATCGATCGGGCTAG^ACT(SEQ ID NO：5)

然后X₁Y₁Y₂X₂的同源定向修复序列是：

TAGCCGTATCGAGCATCGATG|GATCGATGGACTCTGCATCTA|TCGNNNNGATT|CGCNNNNGATT(SEQ ID NO：7)，并且Y₁X₁X₂Y₂的同源定向修复序列是：

GATCGATGGACTCTGCATCTA|TAGCCGTATCGAGCATCGATG|CGCNNNNGATT|TCGNNNNGATT(SEQ ID NO：8)。可以根据相同的模式设计其他同源定向修复序列。

靶位点X₁X₂的初始切割将产生显示为(仅显示dsDNA的一条链)以下的DSB：

...TAGCCGTATCGAGCATCGATG CGCNNNNGATT...

在采用X₁Y₁Y₂X₂的HDR后，dsDNA的一条链将具有以下序列，其现在包含由斜体表示的靶位点Y₁Y₂：

TAGCCGTATCGAGCATCGATG|GATCGATGGACTCTGCATCTA||TCGNNNNGATT|CGCNNNNGATT(SEQ ID NO：7)。

现在能够通过Cas9切割dsDNA(其具有Y₁)，在由“||”表示的位置处产生DSB。例如，可以用Y₁X₁X₂Y₂执行HDR，进一步添加到dsDNA并完成另一次编码的迭代。这可以通过各种不同序列的切割和HDR模板继续，以记录任何分子事件系列。

图3显示示意性细胞300的组件，其能够将新的DNA整合到现有dsDNA中，如图1和2中所述。细胞300可以是大肠杆菌细胞，酿酒酵母细胞或来自另一种单细胞生物体的细胞。它也可以是来自在培养基中生长的多细胞生物体的细胞。

细胞300可含有dsDNA分子302，其具有第一靶位点304。细胞300还可含有第一酶306，其配置成在第一靶位点304内的切割位点处产生DSB。例如，第一酶306可以是包括指导RNA(gRNA)308的CRISPR/Cas系统，所述指导RNA包含约20nt的间隔子区域(也称为原型间隔子元件或靶向序列)，其与第一靶位点304处的dsDNA302的一条链互补。来自CRISPR-Cas家族的化脓性链球菌Cas9系统是催化DSB并在gRNA靶向的DNA基因座处产生突变的有效基因组工程化酶的一个实例。天然gRNA由20nt的特异性决定序列(SDS)(其指定待靶向的DNA序列)组成，并且紧接着是80nt的支架序列，其将gRNA与Cas9结合。除了与SDS的序列同源性外，被靶向的DNA序列还具有与其3’端紧邻的原型间隔子邻近基序(PAM)(5’-NGG-3’)，以由Cas9-sgRNA复合物结合并切割。当在基因组中的靶DNA基因座中引入DSB时，通过同源重组(当提供修复模板时)或易错的非同源末端连接(NHEJ)修复断裂，导致所靶向的基因座的诱变。尽管编码gRNA序列的正常DNA基因座与gRNA完全同源，它也不被标准Cas9-gRNA复合物靶向，因为它不含PAM。

在野生型CRISPR/Cas系统中，gRNA被基因组地或附加地(例如，在质粒上)编码。转录后，gRNA与Cas9内切核酸酶形成复合物。然后通过gRNA的特异性决定序列(SDS)将该复合物“指导”至DNA靶序列(通常位于细胞基因组中)。为了使Cas9成功结合DNA靶序列，靶序列的区域必须与gRNA序列的SDS互补，并且必须紧接着是正确的原型间隔子邻近基序(PAM)序列(例如“NGG”)。因此，在野生型CRISPR/Cas9系统中，PAM序列存在于DNA靶序列中但不存在于gRNA序列中(或编码gRNA的序列中)。

PAM序列通常是位置与SDS序列邻近(例如，在10，9，8，7，6，5，4，3，3或1nt内)的核苷酸序列。如果PAM序列与SDS序列连续(即，如果在PAM序列和SDS序列之间没有核苷酸)，则PAM序列与SDS序列“紧邻”。在一些实施方式中，PAM序列是野生型PAM序列。PAM序列的实例包括但不限于NGG，NGR，NNGRR(T/N)，NNNNGATT，NNAGAAW，NGGAG和NAAAAC，AWG，CC。在一些实施方式中，PAM序列获自化脓性链球菌(例如，NGG或NGR)。在一些实施方式中，PAM序列获自金黄色葡萄球菌(例如，NNGRR(T/N))。在一些实施方式中，PAM序列获自脑膜炎奈瑟氏球菌(例如，NNNNGATT)。在一些实施方式中，PAM序列获自嗜热链球菌(例如，NNAGAAW或NGGAG)。在一些实施方式中，PAM序列获自密螺旋体NGGAG(例如，NAAAAC)。在一些实施方式中，PAM序列获自大肠杆菌(例如，AWG)。在一些实施方式中，PAM序列获自铜绿假单胞菌(例如，CC)。考虑了其他PAM序列。PAM序列通常位于SDS的下游(即3’)，虽然在一些实施方式中，PAM序列可位于SDS的上游(即5’)。

dsDNA分子302还可包含启动子310和编码同源修复模板312如该图所示的同源修复模板314、酶如第一酶306、gRNA如gRNA 308的基因。dsDNA分子302可以是载体或质粒。

“载体”是多核苷酸分子，例如衍生自例如质粒，噬菌体，酵母或病毒的DNA分子，其中可以插入或克隆多核苷酸。一种类型的载体是“质粒”，其是指其中可以插入另外的DNA片段的环状dsDNA环，例如通过标准分子克隆技术。另一种类型的载体是病毒载体，其中病毒来源的DNA或RNA序列存在于用于包装到病毒(例如逆转录病毒，复制缺陷型逆转录病毒，慢病毒，复制缺陷型慢病毒，腺病毒，复制缺陷型腺病毒和腺相关病毒)中的载体中。病毒载体还包括由用于转染到宿主细胞中的病毒携带的多核苷酸。此外，某些载体能够指导它们可操作地与其连接的基因的表达。这样的载体在本文中称为“表达载体”。在重组DNA技术中有用的常见表达载体通常是质粒的形式。质粒，用于将核酸序列插入质粒中的方法，以及用于将重组质粒递送至感兴趣的细胞的方法是本领域已知的。

载体可含有一个或多个独特的限制性位点，并且能够在限定的宿主细胞中自主复制，所述宿主细胞包括靶细胞或组织或者祖细胞或其组织(例如具有细菌复制起点的细菌载体和附加体哺乳动物载体)，或可与限定的宿主的基因组整合，使得克隆的序列是可复制的(例如，非附加型哺乳动物载体)。因此，载体可以是自主复制载体，即作为染色体外实体存在的载体，其复制独立于染色体复制，例如线性或闭合环状质粒，染色体外元件，迷你染色体或人工染色体。载体可以含有用于确保自我复制的任何手段。或者，载体可以是当其被引入宿主细胞时，整合到基因组中并与其已整合到其中的染色体一起复制的载体。这样的载体可包含允许重组到宿主染色体的特定的、期望的位点中的特定序列。载体系统可包含单个载体或质粒，两个或更多个载体或质粒(其一起包含待引入宿主细胞的基因组中的总DNA)，或转座子。载体的选择通常将取决于载体与载体待引入其中的宿主细胞的相容性。载体可包含报告基因，例如绿色荧光蛋白(GFP)，其可以与编码的多肽中的一个或多个同框融合，或单独表达。载体还可包含选择标志物，例如可以用于选择合适转化体的抗生素抗性基因。

载体可以设计用于在原核或真核细胞中表达转录物(例如核酸转录物，蛋白质或酶)。例如，转录物可以在细菌细胞例如大肠杆菌，昆虫细胞(使用杆状病毒表达载体)，酵母细胞或哺乳动物细胞中表达。合适的宿主细胞在Goeddel，Gene Expression Technology：Methods In Enzymology，185，Academic Press.San Diego，CA(1990)中进一步讨论。或者，重组表达载体可以在体外转录和翻译，例如使用T7启动子调控序列和T7聚合酶。

可以在原核生物中引入和扩增载体。在一些实施方式中，原核生物用于扩增待引入真核细胞中的载体或作为待引入真核细胞中的载体的生产中的中间载体的拷贝(例如，扩增作为病毒载体包装系统的部分的质粒)。蛋白质在原核生物中的表达最通常在大肠杆菌中用含有指导蛋白质表达的组成型或诱导型启动子的载体进行。合适的诱导型大肠杆菌表达载体的实例包括pTrc(Amrann等，(1988)Gene 69：301-315)和pET 11d(Studier等，Gene Expression Technology：Methods In Enzymology 185，Academic Press，SanDiego，CA 60(1990))。

在一些实施方式中，载体是酵母表达载体。用于在酵母酿酒酵母中表达的载体的实例包括pYepSec1(Baldari等，1987.EMBO J.6：229-234)，pMFa(Kuijan和Herskowitz，1982.Cell 30：933-943)，pJRY88(Schultz等，1987.Gene 54：113-123)，pYES2(InvitrogenCorporation，San Diego，CA)和picZ(InVitrogen Corp，San Diego，CA)。

在一些实施方式中，载体能够在使用哺乳动物表达载体的哺乳动物细胞中驱动一种或多种序列的表达。哺乳动物表达载体的实例包括pCDM8(Seed，1987.Nature 329：840)和pMT2PC(Kaufman等，1987.EMBO J.6：187-195)。对于原核细胞和真核细胞两者的其他合适的表达系统，参见，例如，Sambrook等,Molecular Cloning:A Laboratory Manual.2nded.,Cold Spring Harbor Laboratory,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.,1989的第16章和第17章。

可以用dsDNA分子302转染或转化细胞，例如培养中的细胞。转染是故意将裸或纯化的多核苷酸引入真核动物细胞的过程。转化是指DNA转移到细菌和非动物真核细胞(包括植物细胞)中。可以使用病毒或机械方法进行转染。病毒转染通过病毒或病毒载体将外源DNA引入细胞中。用病毒进行转染可以将DNA引入宿主细胞的基因组中。机械转染通常涉及在细胞膜中打开瞬时孔或“洞”以允许摄取材料。可以使用磷酸钙(即磷酸三钙)，通过电穿孔，显微注射，基因枪，穿刺转染(impalefection)，流体静压，连续输注，超声处理，脂质转染，含有dsDNA分子302的纳米颗粒(例如，中孔二氧化硅纳米颗粒或金纳米颗粒)，或者通过将阳离子脂质与材料混合以产生与细胞膜融合并将其载物沉积在其内的脂质体，进行转染。用于引入外源DNA的纳米颗粒可以是离子带电的或具有靶向配体以递送至特定细胞或位点。

用于将遗传物质转移至难以转染的细胞的一种病毒转染技术是重组腺相关病毒(AAV)递送。这是不整合到宿主基因组中的病毒转导类型。使用可获自Takara Bio USA，Inc.的AAVpro CRISPR/Cas9Helper Free System(AAV2)，已经成功使用基于AAV的系统引入化脓性链球菌Cas9(SpCas9)的基因及其最佳启动子和多腺苷酸化信号。

缀合也可用于将dsDNA分子302引入细胞中。虽然在自然界中缀合更频繁地在细菌中发生，但遗传物质从细菌转移到哺乳动物细胞也是可能的。参见Waters VL，Conjugationbetween bacterial and mammalian cells.29(4)Nature Genetics 375(2001)。

细胞300还可包含包括启动子316和操纵基因318的操纵子314。操纵子314可编码转录成包含3’端序列322和3’端序列324的ssRNA序列320的基因。可以从ssRNA序列320生成HDR模板326。在一个实施方式中，HDR模板326是ssRNA序列320自身。3’端序列322和5’端序列324可以在靶位点304的至少部分上与dsDNA分子302的一条链互补。3’端序列322和5’端序列324之间的同源性允许ssRNA序列320与在靶位点304中的切割位点处产生的DSB的每一侧上dsDNA的部分杂交。

在其中操纵子314直接编码HDR模板326的实施方式中，操纵子314将编码切割位点328，切割位点328可被酶(例如第一酶306)切割。除非被保护而免受酶作用，否则当酶与操纵子314的DNA接触时，操纵子314中的切割位点328可以被无意地切割。

用于保护切割位点328免受酶影响的一种技术是物理分隔。在无细胞系统中，例如使用微流体装置的系统，操纵子314可以被保持在一个室中，并且ssRNA序列320可以被从含有操纵子314的室移动到其中存在酶的不同室中。

物理分隔也可以用于细胞实施方式中。操纵子314和酶可包含在不同的细胞室中。在一个实施方式中，操纵子314可以在细胞核中，并且酶可以在细胞质中的细胞核外或在另一个细胞室中。如果操纵子314是细胞基因组的部分，它可以保留在细胞核中。核输出信号(NES)可用于将酶或系统的其他组件保持在核外。NES是蛋白质中四个疏水残基的短氨基酸序列，其使蛋白质靶向于使用核转运通过核孔复合物从细胞核输出到细胞质。类似地，核定位信号(NLS)可用于将酶或其他蛋白质保持在核中。NLS是标记蛋白质以通过核转运输入到细胞核中的氨基酸序列。通常，NLS由暴露在蛋白质表面上的带正电荷的赖氨酸或精氨酸的一个或多个短序列组成。不同的核定位蛋白可以共有相同的NLS。NLS具有与NES相反的功能。本领域普通技术人员能够修饰或工程化蛋白质例如核酸酶或其他酶以包括NES或NLS。

还可以控制细胞中RNA的物理位置。ssRNA序列522可以从其在核中的转录位点输出到细胞质或在核外酶306存在的其他目的地。RNA输出描述于Sean Carmody和SusanWente，mRNA Nuclear Export at a Glance，122J.of Cell Science 1933(2009)和Alwin和Ed Hurt，Exporting RNA from the Nucleus to the Cytoplasm，8NatureReviews Molecular Cell Biology 761(2007)中。

可以使用剪接来代替物理分隔或在物理分隔之外使用，以保护操纵子314不被酶306切割。在一个实施方式中，操纵子314可包含具有随后通过剪接除去的部分的序列。该另外的部分改变操纵子314中的核苷酸序列，使得不存在切割位点328。ssRNA序列320将通过剪接变为HDR模板326，其还引入切割位点328。

可变剪接或差异剪接是基因表达期间调节的过程，其导致编码多种蛋白质的单个基因。在该过程中，基因的特定外显子可以被包括在由该基因产生的最终的加工信使RNA(mRNA)内或从其排除。因此，从可变剪接的mRNA翻译的蛋白质含有其氨基酸序列的差异，并且通常包含其生物学功能的差异。可变剪接的mRNA的产生被与初级转录物自身上的顺式作用位点结合的反式作用蛋白质的系统调节。这样的蛋白质包括促进特定剪接位点的使用的剪接激活物，以及减少特定位点的使用的剪切阻遏物。存在多种类型的可变剪接，包括外显子跳跃，互斥外显子，可选供体位点，可选受体位点，和内含子保留。外显子跳跃是导致ssRNA序列320中的剪接的一种方式；在这种情况下，外显子可以从初级转录物中剪接掉。本领域普通技术人员将理解如何设计操纵子314以使得其包含在规定位置处的剪接位点。可变剪接可以作为防止在操纵子314中产生DSB的技术实施，即使操纵子314和酶306没有物理分隔。

自切除元件可以与剪接类似地起作用。操纵子314可以设计为包含当转录成RNA时包括一个或多个自切除元件的区域。包含自切除元件，例如以破坏切割位点328的方式，防止操纵子314被酶识别，并且切除将ssRNA序列320转化为HDR模板326。一种类型的自切除元件是核酶，其是作为反应催化剂起作用的RNA酶。核酶是催化(酯交换)反应以从RNA序列的其余部分去除核酶序列本身的RNA序列。基本上这些被认为是内含子，其是从mRNA剪接掉以产生具有连续外显子(编码区)序列的成熟RNA的基因内区域。自切除内含子/核酶由组I和组II内含子组成。已知细菌中的许多组I内含子自我剪接并维持由配对元件组成的保守二级结构，其使用鸟苷(GMP，GDP或GTP)辅因子。组I内含子的实例是葡萄球菌噬菌体twort.ORF143。组I和组II内含子被认为是自剪接的，因为它们不需要蛋白质来初始化反应。自切除序列是已知的，并且本领域普通技术人员将理解如何在操纵子314中包含自切除序列。自切除核酶的方面在可获自http://2011.igem.org/Team:Waterloo(最后访问：2017年3月3日)的In Vivo Protein Fusion Assembly Using Self Excising Ribozyme中显示。

还可以使用一系列同源桥产生重组序列，该重组序列是用于ssRNA序列320的基因模板。同源桥可以在各种、单独的位置处存在于DNA中，使得操纵子314不包含切割位点328。该技术也称为多片段克隆或延伸克隆。最终的HDR模板326由多个重叠片段的转录物组成。用于将多重叠片段组合成HDR模板326的一种合适技术是序列和连接非依赖性克隆(SLIC)。该技术在Mamie Li和Stephen Elledge,Harnessing Homologous Recombination invitro to Generate Recombinant DNA Via SLIC,4Nature Methods 250(2007)中描述。用于连接多重叠片段的另一种合适技术由Jiayuan Quan和Jingdong Tian,CircularPolymerase Extension of Cloning of Complex Gene Libraries and Pathways,4(7)PLoS ONE e6441(2009)提供。

甲基化可用于保护HDR模板326免受限制酶的过早切割，因为一些限制酶不切割甲基化的DNA。还可以通过切割区域或PAM识别位点的甲基化来防止其他核酸酶如Cas9的切割。DNA甲基化是将甲基基团添加到DNA分子的过程。甲基化可以在不改变序列的情况下改变DNA片段的活性。DNA的四种碱基中的两种，胞嘧啶和腺嘌呤，可被甲基化。甲基化酶是识别特定序列并使该序列中或附近的碱基中的一个甲基化的酶。可以使用靶向装置通过表观遗传编辑来控制甲基化，所述靶向装置是序列特异性DNA结合结构域，其可以被重新设计以识别期望的序列。靶向装置可以与效应结构域融合，其可以修饰所靶向的基因座的表观遗传状态。本领域普通技术人员将理解使用表观遗传编辑的技术。表观基因组操纵描述于Park等,The epigenome:the next substrate for engineering.17Genome Biology 183(2016)中。由RNA制成的HDR模板326也可以通过甲基化修饰。RNA的甲基化描述于S.Lin和R.Gregory,Methyltransferases modulate RNA stability in embryonic stem cells,16(2)Nature Cell Biology 129(2014)。

在一个实施方式中，HDR模板326是与ssRNA序列320互补的ssDNA序列。该ssDNA序列可以通过逆转录酶(RT)读取ssRNA序列322并合成互补的ssDNA序列来产生。RT是用于从RNA模板产生cDNA的酶，该过程称为逆转录。RT广泛用于实验室中以将RNA转换为DNA用于如分子克隆，RNA测序，聚合酶链反应(PCR)和基因组分析的程序。RT酶可从多种商业来源广泛获得。RT的使用程序是本领域普通技术人员所熟知的。

HDR模板326的3’端序列330和5’端序列332在第一靶位点304的至少部分上与dsDNA 302的一条链同源。HDR模板326在ssDNA和ssRNA实施方式两者中包含中间部分334，其在引入dsDNA 302中时充当细胞300检测到的条件的日志，表示任意信息如二进制数字的单位，或储存不同种类的信息。在一个实施方式中，中间部分334还引入另一个靶位点。如下所述，通过插入HDR模板326引入新的靶位点可以使细胞300置于作为状态机起作用的特定状态。

此处将酶306作为与gRNA 308的CRISPR/Cas复合物举例说明。可以使用其他类型的酶代替CRISPR/Cas复合物。gRNA 308的单链尾部可以用与HDR模板326的全部或部分互补的序列延伸。HDR模板326可以部分地与gRNA 308的尾部杂交，形成双链区域336。这使得HDR模板326的拷贝与由CRISPR/Cas复合体306产生的DSB的位置紧密物理接近，这可以提高HDR效率。

还可以设计gRNA 308的延伸尾部，使得其与转录激活因子样效应物(TALE)蛋白的结合结构域匹配。TALE蛋白还可以具有与HDR模板326互补的结合结构域。这也将使HDR模板与DSB的位置密切接近。gRNA 308的尾部可以延伸以产生用于附接多个拷贝的HDR模板326或多种TALE蛋白的区域。

TALE蛋白质是当黄单胞菌属细菌感染各种植物物种时由该细菌通过其III型分泌系统分泌的蛋白质。这些蛋白质可以结合宿主植物中的启动子序列并激活有助于细菌感染的植物基因的表达。它们通过由可变数量的约34个氨基酸的重复序列组成的中心重复结构域识别植物DNA序列。在每个重复序列中的两个氨基酸与靶位点中的每个DNA碱基的身份之间似乎存在一对一的对应。TAL效应子最显著的特征是中心重复结构域，其含有1.5至33.5个通常长度为34个氨基酸的重复序列(C端重复序列通常较短，且称为“半重复序列”)。典型的重复序列可在许多TALE蛋白中共有，但在第12位和第13位的残基是高变的(这两个氨基酸也被称为重复可变二残基或RVD)。TAL效应子中的氨基酸与其靶位点中的DNA碱基之间的这种简单对应使得它们可用于蛋白质工程应用。

在靶位点304中产生DSB之后，可以释放已与gRNA 308的尾部杂交的分子336。在一些实施方式中，引入与gRNA 308的尾部或TALE蛋白的结合结构域互补的核苷酸序列可与附接的分子336竞争并导致HDR模板326、TALE蛋白或其他分子的解离。该竞争可以使HDR模板326变得可用于结合DSB的任一侧上的dsDNA 302。

细胞300还可包括一个或多个工程化信号传导途径336。如本文所用，“工程化信号传导途径”包括其中途径的至少一部分用分子生物学技术有意修饰以与野生型途径不同并且信号(细胞内或细胞外)导致基因转录速率的变化的任何途径。工程化信号传导途径336可以诱导启动子，例如上述启动子312。工程化信号传导途径336还可以使转录因子结合操纵基因，例如上述操纵基因314，并阻止转录。在一个实施方式中，受工程化信号传导途径336影响的基因可以是编码ssRNA序列322的基因316。因此，工程化信号传导路径336可用于控制细胞300中可用的HDR模板314的量。在一个实施方式中，受工程化信号传导途径336影响的基因可编码在dsDNA中产生DSB的酶，例如酶306。因此，可以通过工程化信号传导途径336调节在靶位点304中产生DSB的酶的数量。工程化信号传导途径336可以控制编码与HDR相关的其他蛋白质的基因的转录。

在一个实施方式中，外部受体340可以是G蛋白偶联受体(GPCR)。GPCR构成大的受体蛋白质家族，其感测膜342外的分子并激活信号传导级联并最终激活细胞反应。GPCR由配体或其他信号介质形式的外部信号激活。这产生GPCR的构象变化，导致G蛋白的激活。进一步的效应取决于G蛋白的类型。随后G蛋白被称为RGS蛋白的GTP酶激活蛋白灭活。结合并激活这些GPCR的配体包括光敏化合物，气味，信息素，激素，神经递质等，其大小从小分子到肽到大蛋白不等。当配体与GPCR结合时，它导致GPCR的构象变化，这使得其充当鸟嘌呤核苷酸交换因子(GEF)。然后，GPCR可以通过将其结合的GDP交换为GTP来激活相关的G蛋白。G蛋白的α亚基与结合的GTP一起然后可以从β和γ亚基解离，以进一步影响细胞内信号传导蛋白或直接靶向功能性蛋白(其取决于α亚基类型)。

在一个实施方式中，外部受体340可以是光敏膜蛋白。光感受器蛋白是各种生物中参与光的感测和应答的光敏蛋白。光感受器蛋白通常由蛋白质部分和非蛋白质光色素组成，所述非蛋白质光色素通过光异构化或光还原对光作出反应，因此引发受体蛋白的变化，该变化触发信号传导级联406。在光感受器中发现的色素包括视黄醛(亚视黄基蛋白，例如动物中的视紫红质)，黄素(黄素蛋白，例如植物和动物中的隐色素)和胆素(bilin)(胆素蛋白(biliproteins)，例如植物中的光敏色素)。光敏蛋白的工程化使用的一个实例见于Tamsir，A.等，Robust Multicellular Computing Using Genetically Encoded NORGates and Chemical'Wires'，469Nature 214(2011)。

在一些实施方式中，外部受体340也可以是膜结合免疫球蛋白(mlg)。膜结合免疫球蛋白是膜结合形式的抗体。膜结合免疫球蛋白由表面结合IgD或IgM抗体和相关的Ig-α和Ig-β异二聚体组成，其能够响应于通过抗原的激活而通过信号传导级联进行信号转导。

在一个实施方式中，外部受体340可以是Notch蛋白。Notch蛋白跨越细胞膜，其部分在内而部分在外。与细胞外结构域结合的配体蛋白诱导蛋白水解切割和释放细胞内结构域，其进入细胞以改变基因表达。受体可以通过直接的细胞-细胞接触来触发，其中直接接触的细胞的跨膜蛋白340形成结合Notch受体的配体。由Notch蛋白产生的信号可以通过Notch级联传送至操纵子，Notch级联由Notch和Notch配体以及传递Notch信号的细胞内蛋白质组成。

在一个实施方式中，温度可以激活信号传导途径338。因此，通过改变温度，可以上调或下调基因302的表达。在单细胞生物中天然存在的温度感测分子包括热休克蛋白和某些RNA调控分子，例如核糖开关。热休克蛋白是参与细胞对应激的应答的蛋白质。响应于温度的热休克蛋白的一个实例是细菌蛋白DnaK。升高到高于正常生理范围的温度可导致DnaK表达变得上调。DnaK和其他热休克蛋白可用于响应于温度的工程化途径。核糖开关是一种RNA分子，其可以响应于温度以调节蛋白质翻译。利用核糖开关的温度调节的工程化途径的实例可见于Neupert，J.等，Design of simple synthetic RNA temperatureometers fortemperature-controlled gene expression in Escherichia coli.，36(19)NucleicAcids Res，e124，(2008)。可用于调节工程细胞途径的温度敏感性分子的另一个实例是温度敏感性突变蛋白。可以对蛋白质进行单突变，其导致蛋白质在高温下变得不稳定，但在较低温度下仍保持功能性。用于合成温度敏感性突变蛋白的方法可见于Ben-Aroya，S.等，Making Temperature-Sensitive Mutants，470Methods Enzymology 181(2010)。利用温度敏感突变体的温度控制的工程化途径的实例可见于Hussain，F.等，Engineeredtemperature compensation in a synthetic genetic clock，111(3)PNAS 972(2014)。

在一个实施方式中，离子浓度或pH可以激活信号传导途径338。利用这种类型的信号传导途径，将细胞置于不同的离子环境中或改变细胞周围的pH可用于控制给定HDR模板或酶的可用性。检测离子强度或pH的细胞感测分子机制的实例包括许多病毒蛋白，例如单纯疱疹病毒gB，风疹病毒包膜蛋白，流感病毒血凝素和水疱性口炎病毒糖蛋白。通过pH调节的天然细胞途径的实例是构巢曲霉的青霉素产生，如Espeso，E.等，pH Regulation is aMajor Determinant in Expression of a Fungal Penicillin Biosynthetic Gene，12(10)EMBO J.3947(1993)所述。可用于调节工程化细胞途径的pH敏感性分子的另一个实例是pH敏感性突变蛋白。可以对蛋白质进行单突变，这可以使蛋白质在酸性或碱性条件下变得不太稳定。例如，pH敏感性抗体可以在最佳pH下与抗原结合，但不能在非最佳pH下与抗原结合。用于产生可用于工程化信号传导途径的pH敏感性抗体的技术可见于Schroter，C.等，A generic approach to engineer antibody pH-switches using combinatorialhistidine scanning libraries and yeast display，7(1)MAbs 138(2015)。

细胞300可包括多个不同的工程化信号传导途径338，各自响应于独特信号，并各自促进或抑制负责HDR模板326的产生，酶306，或新切割位点增加到dsDNA中(其建立细胞300的状态)的基因的表达。因此，细胞内或细胞外信号可用于改变细胞300中HDR模板326或酶306的水平，从而改变哪些靶位点304被切割以及哪些序列用于通过HDR修复DSB。通过向上或向下调节多个启动子或操纵基因中的任一个来响应，允许细胞300在其DNA中记录事件的日志和由工程化信号传导途径感测的事件的复杂相互作用或记录任意信息(例如二进制数字)。在一个实施方式中，工程化信号传导途径338可包括外部受体340，其可检测穿过膜342的细胞外信号。膜342可以是细胞壁，脂质双层，人工细胞壁或合成膜。

在一个实施方式中，dsDNA分子302可包含编码用于通过插入HDR模板修饰现有dsDNA的组件的基因。在一个实施方式中，dsDNA302可包含编码HDR模板326的基因、编码配置成产生DSB 306的酶的基因和编码跟踪分子(例如，RNA，DNA或蛋白质)的基因中的任一个或全部，用于如下所述监视“状态”。可以将包含所有这些基因的操纵子添加到环状dsDNA分子302上的无细胞系统中，其还包含靶位点304以提供用于实施状态机的完整指令和分子机制。

状态机

图4显示部分地通过调节HDR模板的插入来实施的状态机400的示意图。状态机是计算的数学模型。在任何给定时间，状态机可以处于有限数量的状态之一。状态机可以响应于一些外部输入从一种状态改变到另一种状态；从一种状态到另一种状态的变化称为转换。状态机可以通过其状态列表，其初始状态和每个转换的条件来描述。

在图4的状态机400中，根据上述技术将HDR模板插入细胞的现有双链多核苷酸中。在该简单示意图中，细胞始终处于两种状态之一：第一状态402或第二状态404，但具有更多数量的状态的状态机将根据相同的原理操作并且包含在本公开的范围内。状态可以以多种方式实施，例如激活(或沉默)启动子或其他调节元件，增加或减少在特定位点产生DSB的核酸酶的浓度(或活性)，或通过插入包含剪切位点的HDR模板使特定切割位点可用。当状态信息直接存储在多核苷酸中时，这确保了状态稳定地保持。状态和状态之间的转换也可以通过现有细胞转换来调节。实例包含细胞周期和发育中细胞分化的检查点。因此，来自数学模型的“状态”的概念通过特定分子，多核苷酸序列或其他物理改变的存在在细胞中表示。

细胞周期或细胞分裂周期例如是在细胞中发生的一系列事件，其导致其细胞分裂和其DNA的复制(DNA复制)以产生两个子细胞。在缺乏细胞核的细菌中，细胞周期分为B，C和D期。B期从细胞分裂结束延伸到DNA复制开始。DNA复制发生在C期过程中。D期是指DNA复制结束和细菌细胞分裂成两个子细胞之间的阶段。在具有细胞核的细胞中，如在真核生物中，细胞周期也分为三个时期：间期，有丝分裂(M)期和胞质分裂。在间期过程中，细胞生长，积累有丝分裂所需的营养物质，使其为细胞分裂做准备并复制其DNA。在有丝分裂阶段，染色体分离。在最终阶段，胞质分裂，染色体和细胞质分开到两个新的子细胞中。为了确保细胞的正确分裂，存在称为细胞周期检查点的控制机制。

两个关键种类的调节分子，细胞周期蛋白和细胞周期蛋白依赖性激酶(CDK)，决定细胞通过细胞周期的进展。细胞周期蛋白形成调节亚基，而CDK形成激活的异二聚体的催化亚基；细胞周期蛋白没有催化活性，而CDK在没有伴体细胞周期蛋白的情况下是无活性的。当被结合的细胞周期蛋白激活时，CDK执行称为磷酸化的常见生化反应，其激活靶蛋白或使靶蛋白失活以安排协同进入细胞周期的下一阶段。不同的细胞周期蛋白-CDK组合决定了被靶向的下游蛋白质。CDK在细胞中组成地表达，而细胞周期蛋白响应于各种分子信号在细胞周期的特定阶段合成。

两个基因家族，cip/kip(CDK相互作用蛋白/激酶抑制蛋白)家族和INK4a/ARF(激酶4抑制剂/可变阅读框)家族，阻止细胞周期的进展。因为这些基因有助于预防肿瘤形成，所以它们被称为肿瘤抑制因子。

cip/kip家族包括基因p21，p27和p57。它们通过结合和灭活细胞周期蛋白-CDK复合物使细胞周期停止在G1期。p21被p53激活(p53反过来由DNA损伤触发，例如由于辐射)。p27被转化生长因子β(TGFβ)(生长抑制剂)激活。INK4a/ARF家族包括p16INK4a(其结合CDK4并使细胞周期停止在G1期)和p14ARF(其阻止p53降解)。可以使用参与细胞周期的任何调节分子，例如通过工程化信号传导途径，来控制HDR模板和相关的同源定向修复行为，以产生跟踪相应的天然细胞周期的时机的遗传记录。

第一信号406将第二状态404中的细胞改变为第一状态402。第一信号406可以是可以通过操纵细胞或其环境产生的一种信号，例如温度的变化，光水平的变化，化学物质的引入等。第一信号406也可以是调节分子。例如细胞周期蛋白或CDK。用于调节发育中的细胞分化的检查点也可用于在状态之间转换。类似地，第二信号408将细胞从第一状态402改变为第二状态404。一旦细胞处于给定状态，细胞中的跟踪分子可起到维持该状态的作用。跟踪分子可以是例如调节基因调控元件行为的转录因子。受调节的基因可编码HDR中使用的组件，例如HDR模板或用于产生DSB的酶。例如，当细胞处于第一状态402时可以存在第一转录因子，而当细胞处于第二状态404时可以存在第二不同转录因子。跟踪分子的浓度可以由于降解(例如，通过核酸酶)而随时间降低。一旦跟踪分子的水平下降到功能水平以下，细胞可以转变到不同的状态或进入未定义的状态，其中细胞不根据任何建立的状态表现。跟踪分子的功能水平是维持状态或将细胞转变为状态所需的跟踪分子的量。

跟踪分子可以是蛋白质，例如，在特定位置产生DSB的酶。由于蛋白酶的存在，Cas9等蛋白质将在细胞中降解。因此，只要维持蛋白质的浓度，依赖于该蛋白质的存在以维持该状态的状态将继续。对于给定的细胞系统，可以通过实验确定蛋白质的降解速率。通过在氨基酸序列中引入使该蛋白质或多或少地抵抗变性或蛋白水解降解的突变可以改变该蛋白质的稳定性。本领域普通技术人员将认识到改变蛋白质在给定细胞环境中保持活性的持续时间的各种技术。例如定向进化、DNA改组和双杂交筛选的技术是本领域已知的，并且可用于针对期望的稳定性特征快速筛选大量突变蛋白。另外，通过将短的、生物体特异性的寡核苷酸序列连接到编码蛋白质的基因的3’端，可以改变蛋白质降解速率，如Andersen等，(1998)Appl.Environ.Microbiol.64:2240-2246所述。该序列靶向于由细胞快速降解的编码蛋白质，这可以缩短细胞停留在给定状态的时间。

跟踪分子也可以是RNA，其使HDR模板可用于修饰现有双链多核苷酸或使gRNA可用于指导Cas核酸酶至特定靶位点。像蛋白质一样，RNA也降解。该降解的速率可以稍微改变，导致当状态取决于RNA产物的可用性时，细胞处于给定状态的更长或更短的时期。在输出到细胞质后，通过5’帽结构和3’聚(A)尾保护mRNA(包括gRNA)免于降解。在原核生物中mRNA降解的速率通常是数分钟，在真核生物中通常是数小时。RNA的降解速率可部分地通过对3’聚(A)尾的修饰来确定。较长的聚(A)尾通常与RNA的较高稳定性相关，较短的聚(A)尾通常导致RNA的较快降解。具体地，RNA的降解可以受3’-非翻译区(3’-UTR)影响。3’-UTR可以影响mRNA的多腺苷酸化，翻译效率，定位和稳定性。3’-UTR含有用于调节性蛋白以及微RNA(miRNA)两者的结合位点。通过与3’-UTR内的特定位点结合，miRNA可以通过抑制翻译或直接导致转录物降解来降低各种mRNA的基因表达。3’-UTR含有用于调节性蛋白以及miRNA两者的结合位点。通过与3’-UTR内的特定位点结合，miRNA可以通过抑制翻译或直接导致转录物降解来降低各种mRNA的基因表达。

成熟的微RNA(miRNA)是一类天然存在的小的非编码RNA分子，长度为约21-25nt。它们发现于植物，动物和一些病毒中，并且具有RNA沉默和基因表达的转录后调节的功能。微RNA与一种或多种信使RNA(mRNA)分子部分互补，其主要功能是以包括翻译抑制，mRNA切割和去腺苷酸化的多种方式下调基因表达。

在植物和动物中由真核细胞核DNA编码，且在其基因组是基于DNA的某些病毒中由病毒DNA编码，miRNA通过与mRNA分子内的互补序列碱基配对而起作用。结果，RNA可以被以下过程中一个或多个沉默：将RNA链裂解成两条，通过缩短其聚(A)尾部使RNA去稳定化，和通过核糖体将RNA以较低效率翻译为蛋白质。例如，miR16含有与许多不稳定mRNA(例如TNFα或GM-CSF)的3’-UTR中发现的富含AU的元件互补的序列。已经证明，鉴于miRNA和靶mRNA序列之间的完全互补性，Ago2可以切割mRNA并导致直接mRNA降解。Jing,Q.等，Involvementof microRNA in AU-rich element-mediated mRNA instability.120(5)Cell 623(2005)。

编码miRNA的基因比经加工的成熟miRNA分子长得多。已知许多miRNA存在于其前mRNA宿主基因的内含子中并共享其调节元件、初级转录物，并且具有相似的表达谱。微RNA通过RNA聚合酶II转录为称为pri-miRNA且包含5’帽和聚A尾的大RNA前体。pri-miRNA在核中被由RNase III酶Drosha和双链RNA结合蛋白Pasha/DGCR85组成的微处理器(microprocessor)复合物加工。得到的pre-miRNA长度约为70-nt，并且折叠成不完美的茎环结构。pre-miRNA然后通过核转运蛋白输出蛋白5(Exp5)和Ran-GTP复合物输出到细胞质中。Ran(ras相关核蛋白)是属于RAS超家族的小GTP结合蛋白，其对于RNA和蛋白质通过核孔复合物的转位是必需的。Ran GTP酶结合Exp5并与pre-miRNA形成核异源三聚体。一旦在细胞质中，pre-miRNA经历通过RNAse III酶Dicer进行的另外的加工步骤，产生miRNA，其是长约22nt的双链RNA。

将细胞从一个状态改变到另一个的输入(例如，第一信号406，第二信号408)可以是多个输入的组合。例如，通过两种化学物质的存在，通过盐度和pH等两种因素的组合，可以触发从第一状态402到第二状态404的转变。因此，处于状态的细胞的存在可以是存在两个或更多个输入的组合的指示。

当细胞处于第一状态402时，第一信号406将不改变细胞的状态。细胞将保持在第一状态。例如，如果诱导型启动子被第一信号406激活，则对第一信号406的另外暴露将不改变细胞的行为，因为诱导型启动子已经是活性的。如果通过浓度随时间降低的跟踪分子维持第一状态，则对第一信号406的另外暴露可导致跟踪分子的浓度增加，从而导致延长第一状态402。当细胞处于第二状态404时，细胞将类似地响应于对第二信号408的暴露。在实施方式中，如果不维持其他状态(例如，第二状态404)，则状态之一(例如，第一状态402)可以是细胞返回到的默认状态。构建具有这种行为的细胞的一种方法是通过将负责第一状态402的基因置于组成型启动子的控制下，和通过将负责第二状态404的基因置于诱导型启动子的控制下。细胞可以进一步配置成使得诱导型启动子的激活抑制组成型启动子的活性，或者当细胞进入第二状态404时将细胞移出第一状态402。因此，在这种类型的配置中，诱导型启动子的激活将细胞转变为第二状态404，并且缺乏诱导型启动子的激活使细胞保持在第一状态402。用于设计在特定启动子控制下的遗传系统的技术是本领域普通技术人员所熟知的，并且可以使用或调整任何合适的技术来控制细胞当处于特定状态时的活性。

可以使用分子开关，例如双稳态和三稳态开关，以建立状态和状态之间的变化。用于产生和使用双稳态分子开关的技术描述于Gardner，T.S.等，Construction of agenetic toggle switch in Escherichia coli.403 Nature 339(2000)和Lebar，T.等，Abistable genetic switch based on designable DNA-binding domains.5 NatureCommunications 5007(2014)。

取决于其当前状态，状态机400不同地响应于相同条件410。条件410可以是指示分子信号，二进制数字或其他的信号的接收。条件410还可以是细胞中分子的存在，例如酶，HDR模板，双链多核苷酸或另一种分子。最终，状态的差异导致将不同的HDR模板插入双链多核苷酸中。当条件410存在于第一状态402的细胞中时，细胞将第一HDR模板412插入双链多核苷酸中。当条件410存在于第二状态404的细胞中时，细胞将第二HDR模板414插入双链多核苷酸中。细胞可以配置成将第一HDR模板412和第二HDR模板414插入相同的双链多核苷酸或插入不同的双链多核苷酸中。如果细胞能够处于既不是第一状态402也不是第二状态404的未定义状态，则条件410的存在将不导致插入第一HDR模板412或第二HDR模板414。未定义状态的特征可以是缺乏插入任何HDR模板。

细胞可包括多个状态机，其不同状态和转换彼此完全正交的起作用。跟踪分子、信号和状态的其他分子触发物可以在两个正交状态机之间不同。更复杂和互连的状态机也是可能的，例如两个状态机都通过在状态之间转换来响应于相同的信号。

图5显示包含分子状态机的组件的细胞500。细胞500的一些组件可以与图3中的细胞300的描述中引入的组件相同或相似。分子状态机可包含信号传导途径502。信号传导途径502可以是工程化信号传导途径，其以某种方式产生或修饰以与野生型信号传导途径不同。该信号传导途径502可以与图3中的信号传导途径338相同或相似。信号传导途径502控制跟踪分子504的可用性。跟踪分子504通过建立或维持状态来“跟踪”细胞系统500的状态。在一个实施方式中，跟踪分子可以是转录因子。

信号传导途径502可包含承载来自第一信使(即，初始信号)的信号，并最终导致增大或减小跟踪分子504的浓度的信号传导级联506。信号传导途径502可以响应于离子浓度；因此，将细胞置于不同的离子环境中或改变细胞周围的pH可用于控制跟踪分子504的可用性。类似地，温度可以控制信号传导途径502的行为。因此，通过改变温度，可以增加或减少跟踪分子504的浓度。将信号传导级联506设置为动作的初始信号508可以是内部或外部信号。在一个实施方式中，初始信号508可以是图4的第一信号406或第二信号408。信号传导途径502可以是跨膜信号传导途径，其包含外部受体510，其检测细胞外信号并通过膜512传递信号。外部受体510和膜512可以与图3所示的外部受体340和膜342相同或相似。可以设计这些和其他类似的感测机制以影响跟踪分子504的可用性。

跟踪分子504可以与启动子514或其它调控元件例如操纵基因516相互作用以控制基因518的转录。启动子区域的序列控制RNA聚合酶和转录因子的结合。操纵基因516是DNA的片段，阻遏物结合至其以减少或停止基因表达。启动子514，操纵基因516和基因518可包含在操纵子中。操纵子是DNA的连续区域，其包含顺式调节区(例如，阻遏物，启动子)和一个或多个基因或功能性mRNA(例如，siRNA，tracrRNA，gRNA，shRNA等)的编码区。

“转录因子”是靠近基因或功能性mRNA的编码序列的开始(转录起始位点)结合的的蛋白质。转录因子对于募集DNA聚合酶以转录DNA是必需的。转录因子可以起阻遏物的作用，其可以与操纵基因516结合以阻止转录。基因518，启动子514和操纵基因516位于dsDNA分子上，其可以是细胞的基因组DNA或其他DNA，例如质粒或载体。在一些实施方式中，启动子514可响应于例如温度或pH的信号，因此，启动子514自身可为信号传导途径502。

基因518编码RNA产物520。因此，RNA产物的转录速率可以基于跟踪分子504的可用性而改变。RNA产物520可以翻译成蛋白质，直接用作RNA，或逆转录成DNA。在一个实施方式中，RNA产物520可以是编码核酸酶522的mRNA，所述核酸酶522产生DSB，例如图1所示的酶104，图2所示的酶200，或图3所示的酶306。核酸酶522可以是，例如，本公开中描述的任何Cas酶。

在一个实施方式中，RNA产物520编码gRNA 524，其由CAS酶522使用以靶向特定DNA序列。系统可以被设计为具有除gRNA 524以外执行HDR所需的所有组件。因此，响应于跟踪分子504的gRNA 524的转录可提供执行HDR所需的最后组件并导致HDR模板的引入。

在一个实施方式中，RNA产物520可以自身是或可编码HDR模板526。HDR模板526可以是例如图1所示的HDR模板108，图2所示的HDR模板204，或者图3所示的HDR模板326。RNA产物520虽然是ssRNA，但由于RNA与DNA杂交的能力，因此能够起到HDR模板526的作用。已显示RNA转录物介导的HDR在真核细胞中成功发挥作用。参见Keskin，H.等，Transcript-RNA-templated DNA recombination and repair，515Nature 436(2014)和Storici，F.等，RNA-templated DNA repair，447Nature 338(2007)。如果RNA用作HDR模板，则可以进一步修饰细胞以减少或去除降解RNA-DNA杂交体的酶。在一个实施方式中，使用RNA作为HDR模板的细胞可以是酿酒酵母。另外，由mRNA的逆转录产生的互补DNA(cDNA)和/或转录物RNA自身可以帮助通过HDR修复DSB。此外，表达的RNA的剪接和mRNA的可能地剪接两者可以改变用作逆转录酶的模板以合成cDNA的RNA的序列。因此，由于剪接，用作HDR模板的cDNA可以具有与编码初始RNA转录物的基因组DNA或其他DNA不同的序列。RNA产物520也可以通过逆转录酶转化为ssDNA，并用作DNA形式的HDR模板526。

细胞500还可包含具有靶位点530的双链多核苷酸528。双链多核苷酸528可以与图3所示的dsDNA分子302相同或相似。靶位点530可以与图1、2和3所示的靶位点102、114、116、210、218或304相同或相似。双链多核苷酸528可以是通过任何合适的方法引入细胞500的基因组DNA，载体或质粒。

当前“状态”可以表示在给定的DSB产生时存在于双链多核苷酸528中的序列。状态可以表示哪个靶位点530可用于酶522进行切割。例如，双链多核苷酸528上的靶位点530可以仅能被特定类型的酶522切割(例如，X₁X₂，Y₁Y₂，Z₁Z₂表示被不同酶切割的靶位点)。通过将HDR模板526添加到现有靶位点530的切割位点中来整合不同的靶位点可以改变可用的靶位点(例如，X₁Y₁Y₂X₂整合到X₁X₂中将可用的靶位点从X₁X₂改变为Y₁Y₂)。例如，如果细胞500仅包含靶位点Z₁Z₂，则配置成切割靶位点Y₁Y₂的酶522的合成将不立即可用于HDR。因此，状态可用于抑制某些基因的转录。

当前状态可以通过使用遗传设计的双稳态开关生物化学地记录。利用一个或多个双稳态开关，可以通过基于通过正反馈回路最后使用哪种酶和/或HDR模板来产生分子记录来生物化地记录当前状态。在一些实施方式中，编码多种酶和多种HDR模板的基因也可存在于细胞500中，并且每种基因可由特定的和已知的启动子514调节。编码给定酶和伴随的调节元件的基因可包含在一个或多个操纵子中。通过上调或停止抑制来激活基因可以增加期望的酶和/或HDR模板的量。这还可以生成可以用于监视状态的跟踪分子504。跟踪分子504也可以由相同或不同的操纵子编码。

跟踪分子504的当前水平可以用作编码给定操纵子的基因的开/关调节信号。在具有双稳态阻遏物的系统中，阻遏物具有两种状态0/1，其在每次操作后翻转。例如，在使用HDR模板X₁Y₁Y₂X₂之后(例如，如通过浓度变得大于阈值水平所识别的)，相关的跟踪分子504可以设置双稳态阻遏物的状态。继续该实例，每个HDR模板可以与不同的双稳态阻遏物相关，并且在任何给定时间，除了双稳态阻遏物之一以外的所有可以处于与“关闭”相关的状态，并且一个可以处于与“打开”相关的状态。因此，通过检查多个双稳态阻遏物的状态，可以识别最后使用的HDR模板。类似的机制可以跟踪最后使用哪种酶。本领域普通技术人员将知道如何使用充当转录因子的蛋白质或具有DNA结合结构域的阻遏物来产生双稳定开关。

为了避免从较早迭代剩余的分子的潜在干扰，双稳态阻遏物的翻转可以作为多阶段过程进行处理，其首先暂停直到双链多核苷酸528的编辑已经停止，然后使用指示阻遏物应改变到的状态的时间衰减信号切换阻遏物的状态。时间衰减信号在最后一次迭代的活动阶段期间启动。一旦信号衰减到阈值水平以下并且阻遏物已完全切换到新状态，则调节用于下一次迭代的分子的操纵子被解除阻断。缺乏适当地对应于当前状态的阻遏物并且具有用于当前输入信号的启动子的操纵子然后能够进行转录。

适合的DNA片段532可以通过各种程序插入载体中。通常，可以通过本领域已知的方法将DNA序列532插入合适的限制性内切核酸酶位点，这可以由技术人员在没有过多实验的情况下进行。表达载体中的DNA片段532可以与适当的表达控制序列(即，启动子534)可操作地连接以指导合成。DNA片段532可编码HDR模板，核酸酶的mRNA，与Cas酶起作用的gRNA，或其他。双链多核苷酸528可以提供用于记录分子事件或任意信息的靶位点530和提供细胞500使用的分子组件的基因两者。

抑制系统536可以存在于细胞500中。抑制系统536可以通过减少细胞中可用的HDR模板的量，通过减少在靶位点530中的切割位点处产生DSB的核酸酶的活性，或者通过以其他方式抑制HDR过程，来减少或停止发生的HDR的量。当细胞500转变为不同状态时，抑制系统536可以通过抑制基因518的功能来导致状态转变。与第二状态相关的第二信号538可以激活信号传导级联540，其导致基因表达的抑制，例如通过产生与操纵基因516或另一种调节元件如沉默子结合的阻遏蛋白。第二信号538还可以促进在细胞处于第二状态时起作用的HDR模板或核酸酶的合成。因此，可以通过在抑制活动或增加在另一状态中使用的HDR组件的可用性的同时通过促进活动或增加在第一状态中使用的HDR组件的可用性来响应于信号来实施状态转换。

抑制系统536可包含阻遏物(和/或“敲低”)，其可以是蛋白质或mRNA(小发夹环(shRNA)，干扰mRNA(RNAi或siRNA))，其结合DNA/RNA和阻断启动子的连接，阻断转录过程中聚合酶的延伸，或阻断mRNA翻译。除阻遏物外，CRISPR/Cas9系统自身可用于原核和真核细胞中基因表达的序列特异性阻遏。具体地，CRISPR干扰(CRISPRi)542的技术使用缺乏内切核酸酶活性的催化死亡Cas9以按照RNA指导的方式调节基因。通过将点突变引入Cas9蛋白中，例如在编码Cas9的基因的两个催化残基(D10A和H840A)处，可以产生催化失活的Cas9。这样做，dCas9不能切割dsDNA但保留靶向DNA的能力。CRISPRi 542的靶向特异性通过gRNA与基因组基因座的互补碱基配对决定。可以设计gRNA以靶向启动子514。复合的催化死亡Cas9和gRNA将阻断启动子514的激活并关闭基因518的表达。

说明性过程

为了便于理解，将本公开中讨论的过程作为表示为独立模块的单独操作来描绘。然而，这些单独描绘的操作不应被解释为在其执行中必然地是顺序依赖的。过程被描述的顺序不旨在被解释为限制，而是可以以任何顺序组合任何数量的所描述的过程模块以实施该过程，或替代性过程。此外，还可以修改或省略所提供的操作中的一个或多个。

图6显示在现有多核苷酸中编码二进制数据的过程600。二进制数据或其他任意信息(例如以二进制以外的方案编码的数据)可以通过控制个体核苷酸的序列存储在多核苷酸中。本公开的技术通过反复切割并将新序列插入现有DNA中来将数据存储在DNA中。每个插入物在插入物内提供用于下一轮DNA切割和后续插入的靶位点。重复这个过程产生带有一系列嵌套插入物的DNA分子。嵌套插入物的顺序可以解释为编码一系列1和0。情境依赖性编码的使用阻止相同多核苷酸序列邻近插入双链多核苷酸中，即使在写入相同二进制数字的串(例如，000或111)时。

本文所描述的编码方案允许插入仅使用三个不同的靶序列和六个不同的HDR模板表示无限长度的数位的DNA序列，如下文解释的。三个靶序列表示为X₁X₂，Y₁Y₂和Z₁Z₂。靶序列的第一部分(例如，X₁，Y₁或Z₁)对应于图1所示的子序列102(A)或子序列116(A)。靶序列的其余部分(例如，X₂，Y₂或Z₂)对应于图1所示的子序列102(B)或子序列116(B)。因此，每个X，Y和Z代表约5至20nt的DNA序列，例如，仅举例而言，ACTGAA，GCCTCAT，TGACG等。在一些实施方式中，X₁＝X₂，等等，但在其他实施方式中，靶序列的第一部分可以在序列和/或长度方面与靶序列的其余部分不同。

HDR模板都具有与靶序列之一同源的末端区域。因此，HDR模板将具有以下结构的序列：X₁__X₂，Y₁__Y₂和Z₁__Z₂。回想一下，HDR模板的中间区域自身编码靶位点。因此，任何给定HDR模板的中间区域将是X₁X₂，Y₁Y₂或Z₁Z₂之一。为了精确控制插入位置，HDR模板不编码待向其中插入该HDR模板的靶位点。例如，根据该编码，X₁X₁X₂X₂不是有效的HDR模板。因此，如果靶序列是“X”，则HDR模板的中间区域可编码“Y”或“Z”的靶序列；如果靶序列是“Y”，则中间区域可编码“X”或“Z”；如果靶序列是“Z”，则中间区域可编码“X”或“Y”。这导致六种HDR模板：X₁Y₁Y₂X₂，X₁Z₁Z₂X₂，Y₁X₁X₂Y₂，Y₁Z₁Z₂Y₂，Z₁X₁X₂Z₂和Z₁Y₁Y₂Z₂。

使用三个靶位点和六个HDR模板的情境依赖性编码示于下表1中。这只是一种可能的编码，使用更多数量的靶位点和HDR模板的其他编码也是可能的。此外，在同一细胞或系统中使用多个编码也是可能的。对于所有情境依赖性编码系统，用于编码信息的特定HDR模板取决于记录在多核苷酸中的先前信息。

当前状态	修复模板	编码的比特
			X<sub>1</sub>X<sub>2</sub>	X<sub>1</sub>Y<sub>1</sub>Y<sub>2</sub>X<sub>2</sub>	0
X<sub>1</sub>X<sub>2</sub>	X<sub>1</sub>Z<sub>1</sub>Z<sub>2</sub>X<sub>2</sub>	1
			Y<sub>1</sub>Y<sub>2</sub>	Y<sub>1</sub>X<sub>1</sub>X<sub>2</sub>Y<sub>2</sub>	0
Y<sub>1</sub>Y<sub>2</sub>	Y<sub>1</sub>Z<sub>1</sub>Z<sub>2</sub>Y<sub>2</sub>	1
			Z<sub>1</sub>Z<sub>2</sub>	Z<sub>1</sub>X<sub>1</sub>X<sub>2</sub>Z<sub>2</sub>	0
Z<sub>1</sub>Z<sub>2</sub>	Z<sub>1</sub>Y<sub>1</sub>Y<sub>2</sub>Z<sub>2</sub>	1

表1.情境依赖性二进制编码

当前状态代表在产生给定DSB时存在于dsDNA中的序列。当前状态可以由跟踪分子或计算机跟踪，所述计算机被提供dsDNA的初始靶位点的记录以及作为相应模板与dsDNA接触的每个HDR模板的序列。因此，通过参考存储在计算机中的当前状态，可以从表1(或用于不同编码的类似表)中选择适当的HDR模板，以编码期望的下一个比特。

在602处，接收指示第一二进制数字的第一外部信号。第一外部信号可以是化学，光，温度，pH变化，辐射，抗原等。可以有意地修改细胞的条件以使细胞在其遗传物质中记录对应于第一二进制数字的核苷酸序列。例如，可以加热细胞以记录“1”并冷却以记录“0”。因此，可以使用一系列温度改变将一串二进制数字传达到细胞。在一个实施方式中，这可以通过将细胞放置在热周期仪中并精确控制细胞周围环境的温度来完成。

在604处，HDR模板代表可以通过HDR插入多核苷酸中的第一二进制数字。第一HDR模板可以根据情境依赖性编码表示第一二进制数字，例如，如上所述的情境依赖性编码。第一HDR模板可包含3’端序列和5’端序列，各自编码与第一靶位点中的第一子序列同源的第二子序列。因此，在该实施方式中，3’端序列和5’端序列具有相同的序列，但是在其他实施方式中，它们可以具有不同的序列。第一HDR模板还可包含中间部分，其包含两个邻近情况的第三子序列，其在插入双链多核苷酸中后形成下一个靶位点，如图1和2所示。

对第一外部信号的响应可包括使足够拷贝的第一HDR模板可用以使得可以发生HDR，使核酸酶可用，如果核酸酶是Cas9，则第一分子信号可包括使被靶向的gRNA可用。第一外部信号，无论如何产生，可以通过细胞中的工程化信号传导途径检测，并且该检测可以使细胞增加第一HDR模板或酶的转录。增加第一HDR模板的转录最终导致更多拷贝的第一HDR模板可用于引入到细胞中的双链多核苷酸中。第一HDR模板包含与双链多核苷酸不同源的第一中间部分，因此代表将通过HDR插入的新核苷酸序列。类似地，增加作用于切割位点处的功能性酶的数量增加了可用于由HDR模板修复的DSB的数量。这两者中的任一个或两者可最终导致更多拷贝的第一HDR模板的第一中间部分被引入到双链多核苷酸中。

HDR模板可以由在响应于第一外部信号的经调节启动子的控制下的基因产生。可以通过使用RT将mRNA基因产物转化为DNA以产生作为最终HDR模板的DNA分子。在一些实施方式中，mRNA自身可用作HDR模板而不转化为DNA。

为了限制核酸酶切割双链多核苷酸的位置，在形成第一DSB时，第一靶位点可以在双链多核苷酸中是独特的。第一靶位点也可以在可供第一酶发挥作用的双链多核苷酸群体中是独特的。例如，如果细胞内存在多个环状dsDNA分子，则第一靶位点可以在环状dsDNA分子的整个群体中仅存在一次。或者，第一靶位点可以是每个dsDNA分子独特的，但是第一酶可以达到多种不同的dsDNA分子，其各自包含一个第一靶位点。本领域普通技术人员应理解，酶(即使在本文中以单数形式提及)可包括多个个体和等价的酶分子。在一些实施方式中，第一靶位点可包含重复一次的第一子序列，从而得到与第一子序列相同的第二子序列。例如，如果第一子序列是GTACTA，则第二子序列是相同的，并且靶位点的序列是GTACTAGTACTA(SEQ ID NO：9)。

酶可以是本公开中确定的任何示意性类型的酶，例如限制酶，归巢内切核酸酶(HE)，CRISPR/Cas系统，TALEN或锌指。

在606处，基于第一二进制数字生成第一分子信号。第一分子信号可以是跟踪分子，例如图5所示的跟踪分子504。如上所述，转录因子可以激活与建立或维持细胞的第一状态相关的启动子。第一分子信号也可以直接或间接地导致抑制与不同状态相关的细胞活动。

在608处，细胞进入第一状态。例如，第一状态可以是图4所示的第一状态402。进入第一状态可以与结束另一状态(例如第二状态)同时发生。

在610处，细胞接收指示第二二进制数字的第二外部信号。第二二进制数字可以与第一二进制数字(例如，01或00)相同或不同。

在612处，通过HDR将第二HDR模板插入双链多核苷酸中。第二HDR模板基于处于第一状态的细胞根据情境依赖性编码代表第二二进制数字。第二HDR模板包含3’端序列和5’端序列，其与双链多核苷酸上的靶位点的相应部分同源。

使用本公开中先前介绍的命名法，第一HDR模板可以表示为XaXXaX，其可以被插入到靶位点XX中并且在插入后在中间包含相同靶位点XX。同时，第二HDR模板可以表示为XbXXbX，其中“b”表示与第一HDR模板的第一中间部分不同的第二中间部分的部分(即，“a”≠“b”)。因此，对应于“a”的多核苷酸序列的存在与第一二进制数字相对应，而“b”的存在与第二二进制数字相对应。序列XaXbXXbXaX然后可以提供二进制数字的记录。序列“a”和“b”两者在它们存在于HDR模板中时并且在整合到双链多核苷酸中之后是“标识符区域”，其提供与用于形成同源性的多核苷酸序列不同的识别。

插入第二HDR模板的靶位点可以在二进制数字的记录开始之前已经存在，或者靶位点可以由第一HDR模板引入。第二HDR模板还包含中间区域，其包含表示第二二进制数字的标识符区域和另外的靶位点。另外的靶位点具有基于第一状态的序列。例如，XaXXaX和XaYYaX两者可以是表示相同二进制数字的HDR模板，但是特定中间区域(XX或YY)可以取决于细胞的状态。

在614处，生成基于第二二进制数字的第二分子信号。如果第二二进制数字与第一二进制数字不同(例如，01或10)，则第二分子信号可以将细胞置于与第一状态不同的第二状态，例如图4的第二状态404。

在616处，细胞进入与第一状态不同的第二状态。如上所述，第二状态的效果可以是用于插入的不同HDR模板或可以产生DSB的不同酶的可用性。增加任一者的可用性可以通过增加直接或间接编码HDR模板或酶的基因的转录或通过减少RNA，DNA或蛋白质基因产物的降解来完成。在一个实施方式中，第一状态可以是双稳态分子开关的第一稳定状态，第二状态可以是双稳态分子开关的第二状态。

在618处，接收指示第三二进制数字的第三外部信号。第三二进制数字可以与第二二进制数字相同或不同。如果第三外部数字与第二二进制数字相同，则第三外部信号可以与第二外部信号相同。类似地，如果第三二进制数字与第一二进制数字相同，则第三外部信号可以与第一外部信号相同。因此，“0”的外部信号和同样“1”的外部信号是恒定的，并且不基于细胞的状态而变化。

在620处，代表根据情境依赖性编码的第三二进制数字的第三HDR模板通过HDR插入双链多核苷酸中。用作第三HDR模板的特定HDR模板是基于处于第二状态的细胞，该第二状态是由记录第二二进制数字产生的。即使所有三个二进制数字可以相同(例如000或111)，但由于情境依赖性编码，相同HDR模板将不被插入三次。

图7显示基于含有双链多核苷酸的细胞的当前状态控制插入双链多核苷酸中的HDR模板的过程700。因此，细胞用作状态机，其中当前状态使细胞改变其行为——特别是插入哪个HDR模板。如上所述，设定状态可以通过化学物质或化学信号的存在或不存在来完成。可以使用个体的、不同的化学物质来激活细胞的每个离散状态。或者，可以使用一种或多种化学物质的组合来激活状态。可以实施状态的一种方式是通过影响启动子的行为。启动子可以被上调，下调或沉默。启动子行为的改变将影响由该启动子调节的一种或多种基因的转录。基因产物的可用性可以改变哪些HDR模板可用于插入，哪些位置具有产生DSB，以及哪些酶可用。

在702处，在第一工程化信号传导途径处检测第一信号。第一个信号表示第一状态。第一工程化信号传导途径可以与图5所示的工程化信号传导途径502相同或相似。第一信号和第一状态可以与图4所示的第一信号406和第一状态402相同或相似。第一信号可以是由细胞的膜蛋白检测的外部信号，包含基于例如细胞周期的天然过程的信号的内部信号，或在没有膜蛋白存在于信号转导途径中的情况下内部检测到的基于检测的条件的内部信号。

在704处，响应于第一信号产生第一跟踪分子。第一跟踪分子可以与图5所示的跟踪分子504相同或相似。在一个实施方式中，第一追踪分子可以是激活诱导型启动子的转录因子。诱导型启动子可以与HDR模板的合成或核酸酶的合成中的至少一种可操作地连接。响应于第一信号的第一跟踪分子的激活使细胞进入第一状态。第一跟踪分子可衰减到在阈值时间内维持第一状态所必须的功能水平以下。基于对关于细胞系统和第一跟踪分子的已知原理的理解，可以知道阈值时间。对于给定的细胞系统和跟踪分子，阈值时间也可以通过实验确定。

在706处，确定是否检测到第二信号。第二信号可以代表感测到的细胞条件。例如，第二信号可以指示细胞周围环境中的条件或细胞内部环境中的条件。细胞可以配置成在多核苷酸中产生第二信号的日志。如果未检测到第二信号，则过程700沿着“否”途径前进，其在下述图8中显示。如果检测到第二信号，则过程700沿着“是”途径前进。

在708处，确定第一跟踪分子是否处于功能水平。如果第一跟踪分子处于功能水平，则细胞处于第一状态。如果第一跟踪分子低于功能水平，则细胞不处于第一状态。它可以处于第二状态，第三状态，未定义状态等。细胞的状态控制将哪种HDR模板插入双链多核苷酸中，如图4所示。如果第一跟踪分子处于或高于功能水平，则过程700沿着“是”途径前进。

在710处，在“是”途径之后，将第一HDR模板插入细胞中的双链多核苷酸中。该第一HDR模板的插入指示该细胞在处于第一状态的同时检测到第二信号。然而，如果在708处第一跟踪分子低于功能水平，则过程700沿着“否”途径前进。

在712处，在“否”途径之后，将第二HDR模板插入双链多核苷酸中。该HDR模板的插入指示当细胞未处于第一状态时，细胞检测到第二信号。

在714中，确定是否第二信号仍然存在和第一跟踪分子仍然处于或高于功能水平。如果两者都为真，则710处存在的条件仍然存在。在一些实施方式中，细胞可迭代地插入第一HDR模板，同时存在第二信号且第一跟踪分子的浓度处于或高于功能水平。在这种情况下，过程700遵循“是”途径并返回710。回到710，将第一HDR模板的第二拷贝再次插入双链多核苷酸中。如上所述，可以发生第一HDR模板的这种迭代插入，因为第一HDR模板的中间部分包含可以插入HDR模板的另一拷贝的靶位点。

如果第二信号不再存在或者第一跟踪分子已降至低于功能水平，则过程700从714沿着“否”途径进行并返回到706。因此，细胞等待直到再次检测到第二信号，指示待日志记录的分子。如下所述，细胞还可以响应于与第二信号不同的另一信号的检测(例如，第二信号可以对应于光水平而另一信号可以对应于温度)。如果在706未检测到第二信号，则过程700沿着图8所示的“否”途径前进。图8是过程700的继续。

在716中，确定是否在第二工程化信号传导途径中检测到第三信号。第三信号指示与第一状态不同的第二状态。这里描述的第三信号可以与图4所示的第二信号408相同或相似。第二状态可以与图4所示的第二状态404相同或相似。第三信号可以是与第一信号类型相同的分子、环境条件或信号中的任一种。然而，第三信号与第一信号不同。如果未检测到第三信号，则过程700沿“否”途径前进并返回到图7所示的706。因此，当细胞处于第一状态(或任何状态)时，细胞可等待指示细胞在其遗传物质中日志记录的分子信号的第二信号或等待将细胞转换为另一状态的不同种类的信号。如果检测到第三信号，则过程700按“是”途径到718。

在718处，响应于第三信号产生第二跟踪分子。第二跟踪分子可以是与第一跟踪分子类型相同的分子中的任一种；然而，它将是不同的分子，使得第二状态可以与第一状态区分开。细胞中第二跟踪分子的存在水平大于第二阈值水平使细胞处于第二状态。

在720处，作为将细胞置于第二状态的部分，第一跟踪分子的浓度降低。可以通过抑制或沉默导致第一追踪分子合成的基因来降低第一追踪分子的浓度。或者，可以通过增加降解第一跟踪分子的蛋白质的表达来降低第一跟踪分子的浓度。如果第一跟踪分子自身是蛋白质，则蛋白质可以是蛋白酶，如果第一跟踪分子是多核苷酸，则蛋白质可以是核酸酶。降低第一跟踪分子的浓度可以通过图5所示的抑制系统536来实施。

在722处，确定是否检测到第二信号。在722处检测到的第二信号与在706处检测到的第二信号相同。这是表示如果存在条件，细胞将在双链多核苷酸中记录日志的条件的信号。如果未检测到第二信号，则过程700遵循“否”途径，并且细胞可等待直到在修饰任何多核苷酸之前检测到第二信号。响应于检测到第二信号，过程700遵循“是”途径到724。

在724处，确定第二跟踪分子的浓度是否处于或高于第二功能水平。因为第一跟踪分子和第二跟踪分子是不同的分子并且甚至可以是不同类型的分子以及可以具有不同的作用机制，所以第一功能水平和第二功能水平可以表示不同的浓度。如果第二跟踪分子处于或高于第二功能水平，则细胞处于第二状态，并且过程700沿着“是”途径前进。

在726处，在“是”途径之后，将第三HDR模板插入双链多核苷酸中。该第三HDR模板与第一HDR模板或第二HDR模板不同。因此，即使第二信号是由细胞检测到的相同信号，处于第二状态使细胞将不同的核苷酸序列(即，第三HDR模板)插入双链多核苷酸中。

如果第二跟踪分子低于第二功能水平，例如，因为第二跟踪分子的浓度随时间而降低，则过程700沿“否”途径进行，并返回到图7上的706，等待将细胞置于不同状态的第二信号或另一信号。

示意性系统和计算设备

图9显示用于通过使用如上所述的HDR实施记录日志和任意信息的DNA分子并与之交互的示意性架构900。架构可包括数字计算机902，寡核苷酸合成仪904，自动化系统906和/或多核苷酸测序仪908中的任一种。架构900还可包括除了在本文中讨论的那些之外的其他组件。

如本文所用，“数字计算机”表示包括至少一个硬件微处理器910和能够以二进制格式存储信息的存储器912的计算设备。数字计算机902可以是超级计算机，服务器，台式计算机，笔记本计算机，平板计算机，游戏机，移动计算机，智能手机等。硬件微处理器910可以以任何合适类型的处理器实施，例如单核处理器，多核处理器，中央处理单元(CPU)，图形处理单元(GPU)等。存储器912可包括可移动存储，不可移动存储，本地存储和/或远程存储，以提供计算机可读指令，数据结构，程序模块和其他数据的存储。存储器912可以作为计算机可读介质实施。计算机可读介质包括至少两种类型的介质，即计算机可读存储介质和通信介质。计算机可读存储介质包括以用于存储例如计算机可读指令，数据结构，程序模块或其他数据的信息的以任何方法或技术实施的易失性和非易失性、可移动和不可移动的介质。计算机可读存储介质包括但不限于RAM，ROM，EEPROM，闪存或其他存储器技术，CD-ROM，数字通用盘(DVD)或其他光学存储器，磁带盒，磁带，磁盘存储器或其他磁存储设备，或可用于存储信息以供计算设备访问的任何其他非传输介质。

相比之下，通信介质可以体现调制数据信号例如载波或其他传输机制的计算机可读指令，数据结构，程序模块，或其他数据。如本文所定义的，计算机可读存储介质和通信介质是互斥的。

数字计算机902还可包括一个或多个输入/输出设备99，例如键盘，指示设备，触摸屏，麦克风，相机，显示器，扬声器，打印机，等等。

HDR模板设计器916可以被包括作为数字计算机902的一部分，例如，作为存储在存储器912中的指令。HDR模板设计器916可基于靶位点的序列，dsDNA分子的序列，酶识别位点等设计HDR模板。在一个实施方式中，HDR模板设计器916可设计HDR模板以避免不同信号记录途径之间的串扰。HDR模板设计器916还可以比较潜在HDR模板以及HDR模板的部分的百分相似性和杂交条件。例如，HDR模板设计器916可以设计HDR模板以避免发夹的形成以及防止或最小化HDR模板之间的退火。HDR模板设计器916还可以设计HDR模板以最大化3’端序列，5’端序列和/或中间序列之间的差异。例如，差异可以是G:C含量，并且HDR模板设计器916可以设计具有增加末端序列和中间序列之间的G:C含量差异的偏好的序列。

数字计算机902还可包括查找表918。然而，查找表918可以是与数字计算机902物理上分离的硬件设备的一部分。查找表918包括HDR模板的序列与手段如信号(例如，GGTACA意味着暴露于亮光)或任意信息如二进制数字(例如，AAC之后是GAT意味着“1”)之间的对应关系。例如，在存在给定信号的情况下给定HDR模板的表达上调的信息是可以存储在查找表918中的对应关系的一个实例。查找表918可以存储任何数量的信号/时机指示物和HDR模板之间的不同关联性。查找表918可以被预先计算并存储在静态程序存储器中，作为程序的初始化阶段(例如，记忆化)的一部分计算(或“预取”)，或者甚至存储在专用平台中的硬件中。

序列数据分析器920可以分析由多核苷酸测序仪908生成的序列数据922。序列数据分析器920可以作为存储在存储器912中的指令实施。因此，序列数据922可以被提供到序列数据分析器920，其至少部分地通过与查找表918中含有的核苷酸序列进行比较来分析序列数据922。

解码模块924可以为了识别存储在序列数据922中的二进制数字或者其他任意信息的序列解码序列数据922。可能的HDR模板的序列的列表和编码特定二进制数字的那些模板的顺序可以存储在解码模块924中，使得解码模块924可以实施情境依赖性编码。因此，序列数据922可以从序列数据分析器920传递到解码模块924，其中A，G，C和T的系列被转换成二进制数字串。或者，序列数据922可以直接从多核苷酸测序仪908到达解码模块924而无需通过序列数据分析器920预先处理。

为了操纵构成HDR模板和dsDNA的DNA和潜在地RNA，数字计算机902可以通过一个或多个I/O数据接口926与其他设备通信。I/O数据接口926可以与例如寡核苷酸合成仪904，自动化系统906和多核苷酸测序仪908的其他设备交换指令和数据。

寡核苷酸合成仪904基于作为电子数据接收的指令化学合成寡核苷酸。合成的寡核苷酸可以用作HDR模板，用作提供靶位点的dsDNA分子，用作质粒、载体或其他组件。因此，在一些实施方式中，提供给寡核苷酸合成仪904的核苷酸的序列可来自HDR模板设计器916。

许多用于DNA合成的方法和商业寡核苷酸合成仪是可用的。用于DNA合成的方法包括固相亚磷酰胺合成，基于微芯片的寡核苷酸合成，连接介导的装配，PCR介导的装配等。例如，这样的合成可以使用ABI 394 DNA合成仪(Applied Biosystems，Foster City，CA)进行。本领域普通技术人员可以使用寡核苷酸合成仪产生期望的核苷酸。

如本文所用，术语“寡核苷酸”定义为包含两个或更多个核苷酸的分子。寡核苷酸包括探针和引物。用作探针或引物的寡核苷酸还可包括核苷酸类似物，例如硫代磷酸酯，烷基硫代磷酸酯，肽核酸或嵌入剂。引入这些修饰可能是有利的，以积极地影响如杂交动力学，杂交形成的可逆性，寡核苷酸分子的稳定性等的特征。

自动化系统906可包括任何类型的机器人，自动化或用于使可以用酶和/或HDR模板对dsDNA执行的一个或多个操纵自动化的其他系统。自动化系统906可以与手动操纵结合使用，使得为了实施本公开的技术而需要执行的全部操作以混合方式完成，其中一些操纵由自动化系统906执行，而其他手动执行。

在一个实施方式中，自动化系统906可包括微流体系统。示意性微流体系统可以配置成根据本领域普通技术人员充分理解的技术移动小体积的液体。如本文所用，自动化系统906可包括在图9中明确显示的设备之外的、用于操纵DNA的其他设备，例如，热循环仪。

自动化系统906可包括可以部分地通过微流体装置实施的无细胞系统。无细胞系统也可以作为人工细胞或最小细胞实施。如本文所用，术语“细胞”包括天然细胞，人工细胞和最小细胞，除非上下文另有明确说明。天然细胞926可以是原核细胞或真核细胞。原核细胞可包含细胞包膜和细胞质区域，其含有细胞基因组(DNA)和核糖体以及各种类型的内含物。在一些实施方式中，细胞是细菌细胞。如本文所用，术语“细菌”包含细菌的所有变体，例如原核生物体和蓝细菌。真核细胞包含膜结合区室，其中发生特定的代谢活动，例如细胞核。真核细胞的实例包含但不限于哺乳动物细胞，昆虫细胞，酵母细胞(例如酿酒酵母)和植物细胞。在一些实施方式中，真核细胞来自脊椎动物。根据本发明使用的脊椎动物细胞的实例包含但不限于包括精子、卵子和胚胎细胞的生殖细胞，以及包括肾，肺，脾，淋巴，心脏，胃，肠，胰腺，肌肉，骨，神经，脑和上皮细胞的非生殖细胞。也可以使用干细胞，包括胚胎干细胞。

一个或多个天然细胞926可以是作为培养基中的细胞存在。可用于细胞培养的一些人细胞系包括DU145，H295R，HeLa，KBM-7，LNCaP，MCF-7，MDA-MB-468，PC3，SaOS-2，SH-SY5Y，T47D，THP-1，U87和国家癌症研究所的60癌细胞系组(NCI60)。自动化系统906中的细胞培养物可以通过自动化细胞培养系统操纵。天然细胞926也可以存在于自动化系统906之外。人工细胞或最小细胞是模拟生物细胞的一种或多种功能的工程化颗粒。人工细胞是包围生物活性物质的生物或聚合物膜。因此，纳米颗粒，脂质体，聚合物囊泡，微囊，洗涤剂胶束和许多其他颗粒可以被认为是人工细胞。微包封允许膜内的代谢，小分子的交换和防止大物质跨越通过。用于人工细胞的膜可以由简单聚合物，交联蛋白质，脂质膜或聚合物-脂质复合物制成。此外，可以工程化膜以提呈表面蛋白质，例如白蛋白，抗原，Na/K-ATPase载体，或例如离子通道的孔。常用于产生膜的材料包括水凝胶聚合物，例如藻酸盐，纤维素和热塑性聚合物，例如甲基丙烯酸羟乙酯-甲基丙烯酸甲酯(HEMA-MMA)，聚丙烯腈-聚氯乙烯(PAN-PVC)，以及上述材料的变体。

最小细胞，也称为原细胞，是扶持生命的所有最低要求的细胞。最小细胞可以通过自上而下的方法产生，其敲除单细胞生物中的基因直到识别出对生命必要的最小基因集。丝状支原体，大肠杆菌和酿酒酵母是可以被修饰以产生最小细胞的生物体的实例。本领域普通技术人员将认识到用于产生最小细胞的多种技术。

无细胞系统包括用于DNA复制和修复的组件，例如核苷酸，DNA聚合酶和DNA连接酶。无细胞系统还将包括dsDNA，其包含至少一个用于产生DSB的初始靶位点。dsDNA可以存在于包含一个或多个操纵子的载体中。无细胞系统还将包括缓冲液以维持pH和离子可用性。此外，无细胞系统还可包括用于在dsDNA中产生DSB的酶和用于修复dsDNA的HDR模板。一些无细胞系统可包括编码酶和HDR模板的基因。为了防止酶在不再需要它们各自的切割功能时保留，无细胞系统可包括特异性分解核酸酶的蛋白水解酶。

在无细胞系统中，可以在需要时通过用微流体装置将若干体积的液体一起移动或通过增加导致酶、HDR模板等的合成的基因产物的表达来添加特定组件。

自动化系统906可包括结构，例如至少一个室，其容纳一个或多个DNA分子。室可以作为任何类型的机械、生物或化学布置实施，其将一定体积的液体(包含DNA)保持在物理位置。例如，其上存在液滴的单个平坦表面，液滴通过液体的表面张力保持，即使没有完全封闭在容器内，这是室的一个实施方式。

自动化系统906可以对DNA分子执行许多类型的操纵。例如，自动化系统906可以配置成响应于来自I/O数据接口926的一系列指令将一定体积的液体从一个室移动到另一个室。

多核苷酸测序仪908可以使用本领域技术人员已知的任何多核苷酸测序技术对DNA分子进行测序，包括经典双脱氧测序反应(Sanger法)，使用可逆终止的标记的核苷酸进行合成的测序，焦磷酸测序，纳米孔测序，SOLiD测序，化学敏感场效应晶体管(chemFET)测序和离子半导体测序。多核苷酸测序仪908可以配置成测序根据上述任何技术修饰的dsDNA分子的全部或部分，并将序列数据922提供给数字计算机902。

可以通过根据本领域的标准方法提取核酸而使存在的任何天然细胞928准备测序。例如，可以使用各种裂解酶，化学溶液从细胞分离DNA，或者按照制造商提供的说明通过核酸结合树脂从细胞提取DNA。可以根据本领域广泛已知的方法通过例如PCR的扩增程序或杂交测定检测提取的样品中含有的DNA。

通过测序产生的序列数据922可以从多核苷酸测序仪908发送到数字计算机902用于由序列数据分析器920，解码模块924进行分析，并且还用于在输出设备914上呈现。

示意性位点特异性核酸酶

限制酶(限制性内切核酸酶)存在于许多物种中，并且能够与DNA(在靶或识别位点处)序列特异性结合，并在结合位点处或附近裂解DNA。已经详细研究了超过3000种限制酶，其中超过600种可商购。天然存在的限制性内切核酸酶根据其组成和酶辅因子要求，其靶位点的性质，及其DNA切割位点相对于靶位点的位置而分为四类(I型，II型，III型和IV型)。所有类型的酶识别特定的短DNA序列并进行DNA的核酸内切裂解以产生具有末端5’-磷酸的特定片段。一种类型的限制酶，II型酶，在内或在距识别位点的短的特定距离处裂解；大多数需要镁；独立于甲基化酶的单一功能(限制)酶。II型酶形成同源二聚体，识别位点通常是未分开的和回文的，长度为4-8nt。它们在相同位点识别并裂解DNA，并且它们不使用ATP或AdoMet实现其活性——它们通常只需要Mg²⁺作为辅助因子。常见的II型限制酶包括HhaI，HindIII，NotI，EcoRI和BgII。限制酶可以以留下钝端或粘端的方式切割dsDNA。用限制酶在dsDNA中产生DSB的方案是本领域技术人员熟知的。限制性消化是常见的分子生物学技术，并且通常使用可商购限制性消化试剂盒中提供的试剂和方案进行。提供限制性消化试剂盒的公司的实例包括New England BioLabs，Promega，Sigma-Aldrich和Thermo FisherScientific。这些公司各自在其网站上提供限制性消化方案。

归巢内切核酸酶(HE)，其也称为大范围核酸酶(meganuclease)，是具有大的不对称识别位点(12-40nt)和通常嵌在内含子或内含肽中的编码序列的双链DNA酶的集合。内含子被从前体RNA中剪接出来，而内含肽被从前体蛋白中剪接出来。它们在合成它们的细胞内催化基因组DNA的水解，但在每个基因组的很少甚至单个位置这样做。HE识别位点是极为罕见的。例如，18nt的识别序列将在具有随机序列的每7×10¹⁰nt中仅出现一次。这相当于20个哺乳动物大小的基因组中的仅一个位点。然而，与限制性内切核酸酶不同，HE在其识别序列内耐受一些序列简并性。因此，单碱基变化不消除裂解，但将其效率降低到不同程度。结果，它们的观察到的序列特异性通常在10-12nt范围内。使用HE的合适方案的实例可见于Flick，K.等，DNA Binding in Cleavage by the Nuclear Introns-Encoded HomingEndonuclease1-Ppol，394Nature 96(1998)和Chevalier，B.等，Design,Activity,andStructure of a Highly Specific Artificial Endonuclease，10Molecular Cell 895(2002)。

锌指核酸酶(ZFN)是由与FokI限制性内切核酸酶的裂解结构域融合的工程化锌指DNA结合结构域组成的合成蛋白质。ZFN可用于在特定DNA序列中诱导DSB，从而促进多种不同细胞类型中的位点特异性同源重组和基因座的靶向操纵。将DSB引入dsDNA可以增强与外源引入的HDR模板重组的效率。ZFN由与细菌FokI限制性内切核酸酶的非特异性DNA裂解结构域共价连接的DNA结合锌指结构域(由三至六个指状物组成)组成。ZFN可以作为二聚体结合其靶DNA位点，每个单体使用其锌指结构域识别半位点。ZFN的二聚化由FokI裂解结构域介导，其在分隔两个倒置的“半位点”的五或六个核苷酸的“间隔子”序列内裂解。因为锌指结构域的DNA结合特异性原则上可以使用各种方法之一进行再工程化，所以可以构建定制的ZFN以靶向几乎任何DNA序列。本领域普通技术人员将知道如何设计和使用ZFN以在期望的靶位点处在dsDNA中产生DSB。一些合适的方案可获自Philipsborn,A.等,Microcontactprinting of axon guidance molecules for generation of graded patterns,1NatureProtocols 1322(2006)；John Young和Richard Harland,Targeted Gene Disruptionwith Engineered Zinc Finger Nucleases(ZFNs),917Xenopus Protocols 129(2012)，和Hansen,K.等，Genome Editing with CompoZr Custom Zinc Finger Nucleases(ZFNs),64J.Vis.Exp.3304(2012)。

TALEN是可以被工程化以切割特定DNA序列的限制酶。它们通过将TAL效应子DNA结合结构域与DNA裂解结构域(即切割DNA链的核酸酶)融合而制成。可以工程化转录激活因子样效应子(TALE)以实际上结合任何期望的DNA序列，因此当与核酸酶组合时，可以在特定位置切割DNA。可以将限制酶引入细胞中，用于基因编辑或原位基因组编辑。DNA结合结构域含有重复的高度保守的33-34氨基酸序列，具有相异的第12位和第13位氨基酸。这两个位置，称为重复可变二残基(RVD)，是高度可变的，并且显示与特异性核苷酸识别强烈的相关性。氨基酸序列和DNA识别之间的这种直接关系允许通过选择含有适当RVD的重复区段的组合来工程化特异性DNA结合结构域。值得注意的是，RVD的轻微变化和“非常规”RVD序列的引入可以改善靶向特异性。本领域普通技术人员将知道如何设计和使用TALEN以在期望的靶位点处在dsDNA中产生DSB。一些合适的方案可获自Hermann,M.等,Mouse GenomeEngineering Using Designer Nucleases,86J.Vis.Exp.50930(209)和Sakuma,T.等,Efficient TALEN Construction and Evaluation Methods for Human Cell and AnimalApplications,18(4)Genes Cells 315(2013)。

在CRISPR/Cas核酸酶系统中，CRISPR基因座编码系统的RNA组件，并且Cas(CRISPR相关的)基因座编码蛋白质。微生物宿主中的CRISPR基因座含有CRISPR相关(Cas)基因以及能够编程CRISPR介导的多核苷酸裂解的特异性的非编码RNA元件的组合。

II型CRISPR是最充分表征的系统之一，并且在四个连续步骤中进行DSB。首先，从CRISPR基因座转录两个非编码RNA：pre-crRNA阵列和tracrRNA。“crRNA”是赋予靶特异性并且要求tracrRNA结合Cas9的细菌RNA。“tracrRNA”是将crRNA与Cas9核酸酶连接，并且通常可以结合任何crRNA的细菌RNA。其次，tracrRNA与pre-crRNA的重复区域杂交并介导将pre-crRNA加工成含有个体`间隔子序列的成熟crRNA。第三，成熟crRNA:tracrRNA复合物通过crRNA上的间隔子与靶DNA上原型间隔子邻近基序(PAM)(靶识别的另一个要求)旁边的原型间隔子之间的Watson-Crick碱基配对，将Cas9指导至靶DNA。在工程化CRISPR/Cas9系统中，也称为单指导RNA(“sgRNA”)的gRNA可以用包含原型间隔子元件和接头环序列的单一RNA构建体替代crRNA和tracrRNA。gRNA是指CRISPR靶向RNA(crRNA)和反式激活crRNA(tracrRNA)的融合体，其为Cas9核酸酶提供靶向特异性和支架/结合能力两者。“crRNA”是赋予靶特异性并且要求tracrRNA结合Cas9的细菌RNA。“tracrRNA”是将crRNA与Cas9核酸酶连接，并且通常可以结合任何crRNA的细菌RNA。Cas DNA结合蛋白的序列特异性由gRNA确定，其具有与靶DNA序列的核苷酸碱基配对互补性。因此，Cas蛋白被gRNA“指导”至靶DNA序列。在一些实施方式中，gRNA的核苷酸碱基配对互补性使得能够简单且灵活地编程Cas结合。核苷酸碱基对互补性是指腺嘌呤与胸腺嘧啶(DNA)或尿嘧啶(RNA)之间以及鸟嘌呤和胞嘧啶之间的不同相互作用。在一些实施方式中，gRNA称为stgRNA。“stgRNA”是与Cas9复合并将stgRNA/Cas9复合物指导至stgRNA从其转录的模板DNA的gRNA。

gRNA的长度可以变化。在一些实施方式中，gRNA具有20至200nt或更长的长度。例如，gRNA的长度可以是20至175，20至150，20至100，20至95，20至90，20至85，20至80，20至75，20至70，20至65，20至60，20至55，20至50，20至45，20至40，20至35或20至30nt。

标准Watson-Crick碱基配对包括：腺嘌呤(A)与胸苷(T)配对，腺嘌呤(A)与尿嘧啶(U)配对，鸟嘌呤(G)与胞嘧啶配对(C)。此外，本领域还已知，对于两个RNA分子(例如，dsRNA)之间的杂交，鸟嘌呤(G)与尿嘧啶(U)碱基配对。在本公开的上下文中，鸟嘌呤(G)被认为与尿嘧啶(U)互补，反之亦然。因此，当可以在所述DNA-靶向RNA分子的蛋白质结合区段(dsRNA双链体)的给定核苷酸位置处形成G/U碱基对时，该位置不被认为是非互补的，反而被认为是互补的。使用gRNA可以简化使用CRISPR/Cas9进行基因组编辑所需的组件。不同生物体的Cas9种类具有不同的PAM序列。例如，化脓性链球菌(Sp)具有5’-NGG-3’的PAM序列，金黄色葡萄球菌(Sa)具有5’-NGRRT-3’或5’-NGRRN-3’的PAM序列，脑膜炎奈瑟氏球菌(NM)具有5’-NNNNGATT-3’的PAM序列，嗜热链球菌(St)具有5’-NNAGAAW-3’的PAM序列，齿垢密螺旋体(Td)具有5’-NAAAAC-3’的PAM序列。

最后，Cas9介导靶DNA的切割以在原型间隔子内产生DSB。CRISPR/Cas系统在自然界中的活动包括三个步骤：(i)在称为“适应”的过程中，将外来DNA序列插入到CRISPR阵列中以防止未来的攻击，(ii)相关蛋白质的表达，以及阵列的表达和加工，然后是(iii)RNA介导的对外来多核苷酸的干扰。外来多核苷酸来自附着于细菌细胞的病毒。因此，在细菌细胞中，多种所谓的“Cas”蛋白涉及CRISPR/Cas系统的天然功能，并在例如外来DNA插入的功能中起作用。

CRISPR还可以与除Cas9之外的核酸酶一起起作用。来自Cpf1家族的两个基因含有RuvC样内切核酸酶结构域，但它们缺少Cas9的第二个HNH内切核酸酶结构域。Cpfl以交错模式裂解DNA并且仅需要一种RNA而不是Cas9进行切割所需的两种(tracrRNA和crRNA)。Cpfl的优选PAM是5’-TTN，在基因组位置和GC含量两方面不同于Cas9(3’-NGG)。用于Cpf1介导的裂解的成熟crRNA的长度为42-44nt，与Cas9的成熟crRNA的大小大致相同，但是具有在间隔子之前，而不是在间隔子之后的直接重复序列。Cpfl crRNA的结构也比Cas9的crRNA简单得多；只有直接重复序列区域中的短茎环结构是靶的裂解所必需的。Cpfl也不需要另外的tracrRNA。Cas9在PAM位点上游3nt处产生钝端，而Cpfl以交错方式裂解，产生离PAM 18-23nt的5个核苷酸的5’突出端。

可以使用除Cas9之外的其他已知或之后发现的CRISPR相关蛋白代替Cas9。例如，CRISPR相关蛋白1(Cas1)是CRISPR原核免疫防御系统中发现的两种普遍保守蛋白质之一。Cas1是金属依赖性DNA特异性内切核酸酶，其产生双链DNA片段。Cas1与另一种普遍保守的CRISPR相关蛋白Cas2形成稳定的复合物，Cas2是CRISPR系统的间隔子获取的一部分。其他Cas酶包括Cas3、CasX和CasY，如Burstein等,New CRISPR-Cas systems fromuncultivated microbes.542Nature 237(2017)所述。

还存在不使用PAM序列的CRISPR/Cas9变体，例如NgAgo。NgAgo与24个核苷酸的ssDNA指导序列一起起作用，并且据信切割距该序列的开始的8-11nt。ssDNA在蛋白质折叠时被加载，并且除非将温度增加至非生理学的55℃，否则不能将其交换成不同的指导序列。靶DNA中的一些核苷酸在切割位点附近被除去。使用NgAgo的技术描述于Gao,F.等，DNA-guided Genome Editing Using the Natronobacterium Gregoryi Argonaute，34NatureBiotechnology 768(2016)。

可以通过在不同位置产生两个单链断裂来形成DSB，产生具有粘端的切割的DNA分子。单链断裂或“缺口”可以通过仅含有一个活性催化结构域的修饰形式的Cas9酶(称为“Cas9切口酶”)形成。Cas9切口酶仍然基于gRNA特异性结合DNA，但是切口酶仅能够切割DNA链中的一条。需要靶向相反链的两个切口酶以在靶DNA内产生DSB(通常称为“双切口”或“双切口酶”CRISPR系统)。该要求极大地提高靶特异性，因为不太可能在足够近的接近程度内产生两个脱靶缺口以产生DSB。使用双切口酶CRISPR系统产生DSB的技术描述于Ran等，Double Nicking by RNA-Guided CRISPR Cas9for Enhanced Genome EditingSpecificity，154Cell 6：1380(2013)。

在某些实施方式中，本公开中描述的任何酶可以是天然存在的蛋白质的“功能衍生物”。天然序列多肽的“功能衍生物”是具有与天然序列多肽共同的定性生物学特性的化合物。“功能衍生物”包括但不限于天然序列的片段和天然序列多肽及其片段的衍生物，条件是它们具有与相应的天然序列多肽共同的生物学活性。本文考虑的生物活性是功能衍生物将DNA底物水解成片段的能力。术语“衍生物”包括多肽的氨基酸序列变体，共价修饰，及其融合物。合适的酶或其片段的衍生物包括但不限于蛋白质或其片段的突变体，融合物，共价修饰物。酶或其片段以及其衍生物或片段可以从细胞中获得或化学地合成或通过这两种程序的组合获得。细胞可以是天然产生酶的细胞。天然产生酶的细胞也可以被遗传工程化以产生更高表达水平的内源酶或从外源引入的多核苷酸产生酶，该多核苷酸编码与内源酶相同或不同的酶。在一些情况下，细胞不天然地产生酶，并且被基因工程化以产生酶。工程化可包括添加在启动子的控制下的编码酶的多核苷酸。启动子可以是响应于信号而被激活的诱导型启动子。启动子也可以被不同的信号或分子阻断。

示意性启动子

如本文所用，“启动子”是能够结合RNA聚合酶并启动下游(3’方向)编码或非编码序列的转录的DNA调控区域。启动子位于基因的转录起始位点附近，在DNA的同一链上和上游(朝向有义链的5’区域)。启动子序列在其3’端通过转录起始位点界定并向上游(5’方向)延伸以包括以高于背景的可检测水平启动转录所必需的最少数量的碱基或元件。在启动子序列内将发现转录起始位点，以及负责RNA聚合酶的结合的蛋白质结合结构域。真核启动子通常但不总是含有“TATA”盒和“CAT”盒。各种启动子，包括诱导型启动子，可用于驱动本发明的各种载体。启动子还可以含有调控蛋白和分子(例如RNA聚合酶和其他转录因子)可以在该处结合的亚区域。启动子可以是组成型的，诱导型的，可激活的，可阻遏的，组织特异性的或其任何组合。示意性启动子如下所述。

在本公开中描述的启动子可包括本领域已知的用于体内或体外表达的任何启动子。启动子可包括在许多类型的宿主细胞中指导核苷酸序列的组成型表达的启动子和仅在某些宿主细胞中指导核苷酸序列(例如，组织特异性调节序列)的表达的启动子。组织特异性启动子可以主要在期望的感兴趣的组织中指导表达，例如肌肉，神经元，骨，皮肤，血液，特定器官(例如肝脏，胰腺)或特定细胞类型(例如淋巴细胞)。启动子也可以是诱导型的，使得表达可以降低或增强或者“开启”或“关闭”。例如，也可以使用响应于特定信号(例如，小分子，代谢物，蛋白质，分子修饰，离子浓度变化，电荷变化，动作电位，辐射，UV和光)的启动子。另外，可以使用采用任何启动子(例如但不限于U6启动子或H1启动子)的四环素可调节系统。作为实例而非限制，响应于特定刺激的启动子可包括例如热休克蛋白启动子和Tet-off和Tet-on启动子。

启动子可以是组成型活性的启动子(即，组成地处于激活/“ON”状态的启动子)，它可以是诱导型启动子(即，其状态(激活/“ON”或非激活/“OFF”)由外部刺激(例如，特定温度，化合物或蛋白质的存在)控制的启动子，它可以是空间限制的启动子(即转录控制元件，增强子等)(例如，组织特异性启动子，细胞类型特异性启动子等)，且它可以是时间限制的启动子(即，在胚胎发育的特定阶段期间或在生物过程(例如小鼠中的毛囊周期)的特定阶段期间处于“ON”状态或“OFF”状态的启动子)。

启动子驱动表达或驱动其调节的核酸序列的转录。本文所用的术语“可操作地连接”是指将基因置于启动子的调节控制之下，然后启动子控制该序列的转录起始或表达以及任选地基因的翻译。在异源启动子/结构基因组合的构建中，通常优选将遗传序列或启动子定位在距基因转录起始位点一定距离处，该距离与该遗传序列或启动子与其在自然环境中控制的基因(即该遗传序列或启动子从其衍生的基因)之间的距离大致相同。如本领域所知的，可以在不丧失功能的情况下适应该距离的一些变化。类似地，调控序列元件相对于待置于其控制下的异源基因的优选定位通过该元件在其自然环境(即，该基因从其衍生)中的定位来限定。

启动子可以是与基因或序列天然相关的启动子，如可以通过分离位于给定基因或序列的编码区段的上游的5’非编码序列而获得。这样的启动子被称为“内源启动子”。

在一些实施方式中，编码核酸序列可以位于重组或异源启动子的控制下，所述重组或异源启动子是指在其天然环境中通常不与编码序列相关的启动子。这样的启动子可包括其他基因的启动子；从任何其他细胞分离的启动子；非“天然存在”的合成启动子或增强子，例如含有不同转录调控区的不同元件和/或通过本领域已知的基因工程化方法改变表达的突变的那些。除了合成地产生启动子和增强子的核酸序列之外，序列可以使用重组克隆和/或核酸扩增技术产生，包括聚合酶链式反应(PCR)。在一些实施方式中，本文考虑RNApol II和RNA pol III启动子。指导通过RNA聚合酶II进行准确的转录启动的启动子被称为RNA pol II启动子。根据本公开使用的RNA pol II启动子的实例包括但不限于人巨细胞病毒启动子，人泛素启动子，人组蛋白H2A1启动子和人炎性趋化因子CXCL 1启动子。本文还考虑了其他RNA pol II启动子。指导通过RNA聚合酶III的准确转录启动的启动子被称为RNApol III启动子。根据本公开使用的RNA pol III启动子的实例包括但不限于U6启动子，HI启动子，和转移RNA、5S核糖体RNA(rRNA)和信号识别颗粒7SL RNA的启动子。

说明性启动子包括但不限于SV40早期启动子，小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子；腺病毒主要晚期启动子(Ad MLP)；单纯疱疹病毒(HSV)启动子，巨细胞病毒(CMV)启动子如CMV立即早期启动子区(CMVIE)，劳斯肉瘤病毒(RSV)启动子，人U6小核启动子(U6)(Miyagishi等，Nature Biotechnology 20，497-500(2002))，增强型U6启动子(例如，Xia等，Nucleic Acids Res.2003年9月1日；31(17))，人H1启动子(H1)，等等。

诱导型启动子的实例包括但不限于T7RNA聚合酶启动子，T3RNA聚合酶启动子，异丙基-β-D-硫代半乳糖苷(IPTG)调节的启动子，乳糖诱导的启动子，热休克启动子，四环素调节的启动子，类固醇调节的启动子，金属调节的启动子，雌激素受体调节的启动子等。诱导型启动子因此可以通过包括但不限于强力霉素；RNA聚合酶，例如T7RNA聚合酶；雌激素受体；雌激素受体融合体；等等的分子调节。

在大多数条件下，“组成型启动子”通常是活性的，即促进转录。“诱导型启动子”通常仅在某些条件下是活性的，例如在给定分子因子(例如，IPTG)或给定环境条件(例如，特定CO₂浓度，营养物水平，光，热)的存在下。在没有该条件的情况下，诱导型启动子通常不允许显著或可测量水平的转录活性。例如，诱导型启动子可以根据温度，pH，激素，代谢物(例如，乳糖，甘露醇，氨基酸)，光(例如，波长特异性的)，渗透势(例如，盐诱导的)，重金属或抗生素诱导。许多标准诱导型启动子是本领域技术人员已知的。

以下列出了本领域技术人员已知的示意性真核启动子。

以下列出了本领域技术人员已知的示意性原核启动子。

示意性实施方式

以下条款描述了用于实施本公开中描述的特征的多个可能的实施方式。本文描述的各种实施方式不是限制性的，也不是来自任何给定实施方式的每个特征都需要存在于另一个实施方式中。除非上下文另有明确说明，否则可以将任何两个或更多个实施方式组合在一起。如本文所用，“或”表示和/或。例如，“A或B”是指没有B的A，没有A的B，或A和B。如本文所用，“包含”表示包括所有列出的特征并且可能包括添加未列出的其他特征。“基本上由……组成”是指包括列出的特征的和不实质地影响列出的特征的基本和新颖特性那些另外的特征。“由……组成”仅是指列出的特征，排除任何未列出的特征。

条款1.一种在细胞中实施的分子状态机，其包括：工程化信号传导途径，其响应于与第一状态相关的第一信号产生跟踪分子；基于所述跟踪分子改变RNA产物的转录速率的操纵子；具有靶位点的双链多核苷酸；具有与所述靶位点的同源性的同源定向修复(HDR)模板，其中所述细胞中可用的所述HDR模板的量或配置成在所述靶位点的切割位点处产生双链断裂(DSB)的核酸酶的活性被所述RNA产物增加；和抑制系统，其减少所述细胞中可用的所述HDR模板的量或所述核酸酶的活性。

条款2.条款1所述的分子状态机，其中所述跟踪分子是转录因子。

条款3.条款1或2所述的分子状态机，其中所述RNA产物是编码所述核酸酶的mRNA。

条款4.条款1-3中任一项所述的分子状态机，其中所述RNA产物是gRNA，并且所述核酸酶是CRISPR相关蛋白。

条款5.条款1-4中任一项所述的分子状态机，其中所述RNA产物是所述HDR模板或是用于通过逆转录生成所述HDR模板的模板。

条款6.条款1-5中任一项所述的分子状态机，其中所述抑制系统响应于与第二状态相关的第二信号。

条款7.条款6所述的分子状态机，其中所述抑制系统包括使所述操纵子失活的CRISPRi。

条款8.一种在细胞内的多核苷酸中编码二进制数据的方法，所述方法包括：接收指示第一二进制数字的第一外部信号；通过HDR将第一HDR模板插入双链多核苷酸中，所述第一HDR模板根据情境依赖性编码代表所述第一二进制数字；基于所述第一二进制数字产生第一分子信号，所述第一分子信号的存在将所述细胞置于第一状态；接收指示第二二进制数字的第二外部信号；和通过HDR将第二HDR模板插入所述双链多核苷酸中，所述第二HDR模板根据并基于处于所述第一状态的所述细胞代表所述第二二进制数字。

条款9.条款8所述的方法，其中所述第一分子信号包括转录因子，所述转录因子激活与所述细胞的所述第一状态相关的启动子。

条款10.条款8或9所述的方法，其中所述第二HDR模板包含与所述双链多核苷酸上的靶位点的相应部分同源的3’端序列和5’端序列，以及中间区域，所述中间区域包含表示所述第二二进制数字的标识符区域和具有基于所述第一状态的序列的另外的靶位点。

条款11.条款8-10中任一项所述的方法，其中所述情境依赖性编码阻止相同多核苷酸序列邻近插入所述双链多核苷酸中。

条款12.条款8-11中任一项所述的方法，其还包括：基于所述第二二进制数字产生第二分子信号，所述第二分子信号的存在将所述细胞置于不同于所述第一状态的第二状态；接收指示第三二进制数字的第三外部信号；和通过HDR将第三HDR模板插入所述双链多核苷酸中，所述第三HDR模板根据所述情境依赖性编码并基于处于所述第二状态的所述细胞代表所述第三二进制数字。

条款13.条款12所述的方法，其中所述第一状态是双稳态分子开关的第一稳定状态，并且所述第二状态是所述双稳态分子开关的第二状态。

条款14.一种基于状态在细胞中记录信号的方法，所述方法包括：检测第一工程化信号传导途径上的第一信号，其指示第一状态；响应于所述第一信号产生第一跟踪分子；检测第二信号；和响应于所述第二信号并且当所述第一跟踪分子的浓度处于或高于第一功能水平时，将第一HDR模板插入所述细胞中的双链多核苷酸中。

条款15.条款14所述的方法，其中所述第一追踪分子是激活诱导型启动子的转录因子，所述诱导型启动子与所述HDR模板的合成或核酸酶的合成中的至少一种可操作地连接，所述核酸酶在所述双链多核苷酸中产生双链断裂(DSB)。

条款16.条款14或15所述的方法，其中所述第一跟踪分子的浓度在阈值时间内衰减到所述第一功能水平以下。

条款17.条款16所述的方法，其还包括响应于所述第二信号并且当所述第一跟踪分子的浓度低于所述第一功能水平时，将第二HDR模板插入所述双链多核苷酸中。

条款18.条款14-17中任一项所述的方法，其还包括在所述第二信号存在并且所述第一跟踪分子的浓度处于或高于所述第一功能水平的同时，迭代插入所述第一HDR模板。

条款19.条款14-18中任一项所述的方法，其还包括：检测第二工程化信号传导途径上的第三信号，其指示不同于所述第一状态的第二状态；响应于所述第三信号产生第二跟踪分子；响应于所述第三信号降低所述第一跟踪分子的浓度；检测所述第二信号；和响应于所述第二信号并且当所述第二跟踪分子的浓度处于或高于第二功能水平时，将第三HDR模板插入所述双链多核苷酸中。

条款20.条款19所述的方法，其中降低所述第一跟踪分子的浓度导致降解所述第一跟踪分子的蛋白质的表达增加。

结论

在描述本发明的上下文中使用的术语“一个/一种(a/an)”和“该/所述(the)”和类似的指代(特别是在以下权利要求的上下文中)应被解释为涵盖单数和复数两者，除非本文另有说明或明显与上下文相矛盾。术语“基于”应解释为涵盖排他性和非排他性关系两者。例如，“A基于B”意味着A至少部分地基于B并且可以完全基于B。“约”是指数量，水平，值，数字，频率，百分比，大小，尺寸，量，重量或长度与参考数量，水平，值，数字，频率，百分比，大小，尺寸，量，重量或长度相比变化最多10％，9％，8％，7％，6％，5％，4％，3％，2％或1％。

本文所述的所有方法可以以任何合适的顺序进行，除非本文另有说明或明显与上下文相矛盾。本文提供的所有实施例和示例性语言(例如，“例如”)的使用仅旨在更好地示意说明本发明，而不是对另外地要求保护的本发明的范围加以限制。说明书中的语言不应被解释为表示任何未要求保护的要素对于本发明的实践是必不可少的。

本文公开的发明的替代性要素或实施方式的分组不应被解释为限制。每个组成员可以单独地或与该组中的其他成员或见于本文中的其他要素任意组合地提及和要求保护。出于方便和/或可专利性的原因，预期组中的一个或多个成员可以被包括在组中或从组中删除。当任何这样的包括或删除发生时，说明书被认为含有经修改的组，因此满足随附权利要求中使用的所有马库什组的书面描述。

本文描述了某些实施方式，包括发明人已知用于实施本发明的最佳模式。当然，在阅读前面的描述后，对这些描述的实施方式的变化对于本领域普通技术人员将变得显而易见。技术人员将知道如何适当地采用这样的变化，并且本文公开的实施方式可以以不同于具体描述的方式另外地实践。因此，本文所附权利要求中记载的主题内容的所有修改和等同方式被包括在本公开的范围内。而且，本发明涵盖上述元件以其所有可能变化方式的任何组合，除非本文另有说明或明显与上下文相矛盾。

尽管已经用特定于结构特征和/或方法学动作的语言描述主题内容，但应理解，随附权利要求书中限定的主题内容不必限于上述具体特征或动作。而是具体特征和动作是作为实施权利要求的实例形式而公开。

此外，在整个说明书中已经提到出版物、专利和/或专利申请(统称为“参考文献”)。引用的参考文献的特定的引用的教导及其公开的所有单独通过引用并入本文。

Claims

1.一种在细胞中实施的分子状态机，其包括：

工程化信号传导途径，其响应于与第一状态相关的第一信号产生跟踪分子；

基于所述跟踪分子改变RNA产物的转录速率的操纵子；

具有靶位点的双链多核苷酸；

具有与所述靶位点的同源性的同源定向修复(HDR)模板，其中所述细胞中可用的所述HDR模板的量或配置成在所述靶位点的切割位点处产生双链断裂(DSB)的核酸酶的活性被所述RNA产物增加；和

抑制系统，其减少所述细胞中可用的所述HDR模板的量或所述核酸酶的活性。

2.权利要求1所述的分子状态机，其中所述跟踪分子是转录因子。

3.权利要求1所述的分子状态机，其中所述抑制系统响应于与第二状态相关的第二信号。

4.权利要求1所述的分子状态机，其中所述抑制系统包括使所述操纵子失活的CRISPRi。

5.权利要求1-4中任一项所述的分子状态机，其中所述RNA产物是以下之一：

编码所述核酸酶的mRNA；

gRNA，并且所述核酸酶是CRISPR相关蛋白；或

所述HDR模板或是用于通过逆转录生成所述HDR模板的模板。

6.一种基于状态在细胞中记录信号的方法，所述方法包括：

检测第一工程化信号传导途径上的第一信号，其指示第一状态；

响应于所述第一信号产生第一跟踪分子；

检测第二信号；和

响应于所述第二信号并且当所述第一跟踪分子的浓度处于或高于第一功能水平时，将第一HDR模板插入所述细胞中的双链多核苷酸中。

7.权利要求6所述的方法，其中所述第一追踪分子是激活诱导型启动子的转录因子，所述诱导型启动子与所述HDR模板的合成或核酸酶的合成中的至少一种可操作地连接，所述核酸酶在所述双链多核苷酸中产生双链断裂(DSB)。

8.权利要求6所述的方法，其中所述第一跟踪分子的浓度在阈值时间内衰减到所述第一功能水平以下。

9.权利要求8所述的方法，其还包括响应于所述第二信号并且当所述第一跟踪分子的浓度低于所述第一功能水平时，将第二HDR模板插入所述双链多核苷酸中。

10.权利要求6-9中任一项所述的方法，其还包括：

检测第二工程化信号传导途径上的第三信号，其指示不同于所述第一状态的第二状态；

响应于所述第三信号产生第二跟踪分子；

响应于所述第三信号降低所述第一跟踪分子的浓度；

检测所述第二信号；和

响应于所述第二信号并且当所述第二跟踪分子的浓度处于或高于第二功能水平时，将第三HDR模板插入所述双链多核苷酸中。

11.一种在细胞内的多核苷酸中编码二进制数据的方法，所述方法包括：

接收指示第一二进制数字的第一外部信号；

通过HDR将第一HDR模板插入双链多核苷酸中，所述第一HDR模板根据情境依赖性编码代表所述第一二进制数字；

基于所述第一二进制数字产生第一分子信号，所述第一分子信号的存在将所述细胞置于第一状态；

接收指示第二二进制数字的第二外部信号；和

通过HDR将第二HDR模板插入所述双链多核苷酸中，所述第二HDR模板根据所述情境依赖性编码并基于处于所述第一状态的所述细胞代表所述第二二进制数字。

12.权利要求11所述的方法，其中所述第一分子信号包括转录因子，所述转录因子激活与所述细胞的所述第一状态相关的启动子。

13.权利要求11所述的方法，其中所述第二HDR模板包含与所述双链多核苷酸上的靶位点的相应部分同源的3’端序列和5’端序列，以及中间区域，所述中间区域包含表示所述第二二进制数字的标识符区域和具有基于所述第一状态的序列的另外的靶位点。

14.权利要求11-13中任一项所述的方法，其还包括：

基于所述第二二进制数字产生第二分子信号，所述第二分子信号的存在将所述细胞置于不同于所述第一状态的第二状态；

接收指示第三二进制数字的第三外部信号；和

通过HDR将第三HDR模板插入所述双链多核苷酸中，所述第三HDR模板根据所述情境依赖性编码并基于处于所述第二状态的所述细胞代表所述第三二进制数字。

15.权利要求14所述的方法，其中所述第一状态是双稳态分子开关的第一稳定状态，并且所述第二状态是所述双稳态分子开关的第二状态。