CN109415726A

CN109415726A - 用于识别基因表达的条形码

Info

Publication number: CN109415726A
Application number: CN201780041514.3A
Authority: CN
Inventors: K·K·甘贾姆
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-07-01
Filing date: 2017-06-29
Publication date: 2019-03-01
Also published as: EP3478836A1; WO2018005824A1; US20220290225A1; US11359234B2; US20180002748A1

Abstract

可以通过分析DNA序列来识别基因表达。DNA序列可包含对应于特定基因的条形码序列。条形码序列可以在基因表达期间通过首先将包含条形码序列的同源定向修复(HDR)模板添加到基因的DNA序列中，然后在基因表达期间将条形码序列剪接出RNA前体来产生。由于条形码序列可从RNA前体获得，因此可使用HDR将其添加至DNA链。可以对得到的DNA链进行测序，并且可以分析序列数据以识别DNA序列内的条形码序列，其提供DNA而非RNA中基因的表达的指示。

Description

用于识别基因表达的条形码

相关申请的交叉引用

本申请要求2016年7月1日提交的题为“Storage Through Iterative DNAEditing”的美国临时专利申请序列号62/357,828，2016年9月23日提交的题为“StorageThrough Iterative DNA Editing”的美国临时专利申请序列号No.62/399,190，2017年4月20日提交的题为“Mechanisms for Molecular Event Logging”的美国临时专利申请序列号62/487,671和2017年6月16日提交的题为“Barcodes For Identification of GeneExpression”的美国专利申请序列号15/626,021的权益，所有这些均通过引用整体并入本文。

背景技术

具有相同基因的细胞可以根据细胞的环境产生不同的基因产物。例如，生物体(例如人)的细胞可以具有相同的基因，但是基因可以在不同条件下以不同方式表达。以这种方式，具有生物体的基因的一种细胞可以表达为具有第一功能的细胞，例如肝细胞，具有生物体的基因的另一种细胞可以表达为具有第二功能的细胞，例如肌肉细胞。另外，生物体的基因可以在健康细胞中与在患病状态下的细胞中表达不同。

典型地，基因表达经由核糖核酸(RNA)的测序监测。RNA由脱氧核糖核酸(DNA)作为模板产生，通过其制造基因产物，例如蛋白质。在产生基因产物后，用于制造基因产物的RNA降解并且在一段时间后不再可检测到。RNA测序技术可用于在给定时间检测细胞中的RNA，因此可以从RNA测序过程确定基因表达。

RNA跟踪基因表达的测序具有局限性，因为，由于RNA的短暂性，基因的表达仅能在特定的时间点进行监测。因此，跟踪基因随时间的表达需要在一段时间内进行多个RNA测序操纵，这可以增加通过RNA测序监测基因表达的资源和费用。另外，RNA测序操纵破坏了正在被研究的细胞，并且不提供进一步研究细胞基因表达的机会。

发明内容

本发明内容是为了以简化形式介绍一些选择的概念而提供，这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在确定要求保护的主题内容的关键特征或必要特征，也不旨在用于限制要求保护的主题内容的范围。

基因表达可以通过分析DNA序列而监测并识别。DNA序列可包含对应于特定基因的条形码序列。在某些情况下，条形码序列可以独特地识别基因。当表达基因时，可以产生条形码序列并将其添加到DNA链中。特别地，酶可以在DNA链的切割位点处产生双链断裂(DSB)。同源定向修复(HDR)可用于将条形码序列添加到DNA链中。可以对得到的新的DNA链进行测序，并且可以分析序列数据以识别DNA序列内的条形码序列。

可以在基因的表达期间，通过首先将HDR模板添加到基因的DNA序列，产生条形码序列。除了至少一个剪接序列之外，HDR模板还可包含条形码序列。可以将HDR模板插入基因的编码区或基因的非编码区，例如基因的3’非翻译区(UTR)。当表达基因时，可以产生包含HDR模板的RNA前体。剪接酶可以去除包含在RNA前体中的非编码部分，其包含HDR模板。然后使HDR模板可以通过同源定向修复添加到DNA链的切割位点。然后可以使用DNA链的DNA测序来识别DNA链中条形码序列的存在，作为表达基因的指示。

附图说明

具体实施方式参照附图进行阐述。在附图中，附图标记的最左边的数字标识其中首次出现该附图标记的图。在不同图中使用相同的附图标记表示相似或相同的项目。

图1显示用酶切割dsDNA并通过HDR插入新DNA的示意图。

图2显示切割图1的dsDNA，并通过HDR插入另外的DNA的示意图。

图3显示用于基于信号传导途径控制基因产物表达的示意性组件。

图4显示用于以记录相对信号强度的方式产生多个信号的日志的示意性组件。

图5显示用于将新DNA插入现有dsDNA中的示意性细胞组件。

图6显示示意将第一HDR模板插入基因中的图。

图7显示示意第二HDR模板的剪接的图，所述第二HDR模板包含来自由基因产生的RNA前体的条形码序列。

图8显示示意将第二HDR模板插入另外的多核苷酸中的图。

图9显示示意使用RNA底物连接第一HDR模板和第二HDR模板以产生第三HDR模板的图。

图10显示示意将第三HDR模板的部分插入另外的多核苷酸中的图。

图11显示通过测序DNA识别基因表达的示意性方法，所述DNA包括对应于基因的条形码序列。

图12显示通过测序DNA识别基因表达的另外的示意性方法，所述DNA包括对应于基因的条形码序列

图13显示用于设计条形码序列并利用条形码序列来识别基因表达的系统。

具体实施方式

本公开描述了通过分析DNA序列，而不是RNA序列，识别基因的表达的技术。DNA序列可包含对应于表达的基因的条形码序列。在一些情况下，条形码序列可用于独特地识别特定基因。以这种方式，DNA序列中条形码序列的存在可以指示基因的表达。

典型地，DNA条形码化是指在有机体的识别中利用已经见于有机体的基因中的相对短的序列(例如，小于800个核苷酸)。通常，DNA条形码化依赖于基因的特定位置中包含的DNA的序列以对分类学中的生物体进行分类。本文描述的条形码序列不同于与常规DNA条形码化相关的条形码序列，因为本申请中描述的条形码序列是通过有意的操纵而引入基因中并且不是基因的固有部分。本文描述的条形码序列对应于添加到特定基因或特定基因集的任意核苷酸序列，并且可用于跟踪基因的表达，因为待插入到另一多核苷酸中的条形码序列的可用性是基于基因的表达。

在各种实施方式中，第一HDR过程可用于将第一HDR模板插入基因中，所述基因的表达被跟踪。第一HDR模板可包含对应于基因的条形码序列，以及至少一个剪接序列。剪接序列可以对应于被剪接酶(例如剪接体)识别的核苷酸序列。剪接体是一种大而复杂的分子机器，主要存在于真核细胞细胞核的剪接斑点内。剪接体由snRNA和蛋白质复合物组装而成。剪接体从转录的前mRNA(一种初级转录物)中去除内含子。该过程通常称为剪接。只有真核生物具有剪接体，而一些生物体具有第二剪接体，即次要剪接体。在一些实施方式中，可将第一HDR模板插入基因的编码区中。基因的编码区包括可以与基因产物直接相关的序列和对基因产物的编码没有贡献的序列。编码基因产物的序列可以称为外显子，而不编码基因产物的序列可以称为内含子。在将第一HDR模板插入基因的编码区中的情况下，第一HDR模板可包含两个剪接序列。在其他实施方式中，第一HDR模板可以在3’非翻译区(UTR)的末端处插入。在这些情况下，第一HDR模板可包含单个剪接序列。

当表达基因时，产生的RNA前体包括至少5’UTR，外显子，内含子和3’UTR。第一HDR模板可包含在RNA前体的内含子中或3’UTR中。当从RNA前体中除去非编码序列以产生包括外显子，5’UTR和3’UTR的信使RNA(mRNA)时，第一HDR模板也被除去。

在一些情况下，非编码序列可以使用酶(例如剪接体)从RNA前体除去。剪接体可以识别在本文中称为“剪接序列”的特定序列，并在特定序列内的某些位置产生切口。剪接序列可以具有特定的排列，其包括在内含子的5’端处的供体位点，在内含子的3’端附近的分支位点，以及在内含子的3’端处的受体位点。在较大的、较低保守的区域内，剪接供体位点包括在内含子的5’端处的保守的、几乎不变的序列GU。在内含子的3’端处的剪接受体位点以保守的、几乎不变的AG序列使内含子终止。在AG的上游(5’-ward)，存在嘧啶(C和U)或多聚嘧啶序列高的区域。多聚嘧啶序列的更上游是分支点，其包括参与套索形成的腺嘌呤核苷酸。国际纯粹与应用化学联合会(IUPAC)核酸符号中内含子的剪接序列实例可包括：G-G-[cut]-G-U-R-A-G-U(供体位点)......内含子序列......Y-U-R-A-C(受体位点上游20-50个核苷酸的分支序列)......Y-富-N-C-A-G-[cut]-G(受体位点)，其中Y表示嘧啶，N对应于任何核苷酸，R对应于嘌呤。

在包含条形码序列的HDR模板被从RNA前体剪接后，它可通过第二HDR操作插入双链DNA分子中。特别地，酶可以在双链DNA分子的靶位点处产生DSB，其与第二HDR模板的末端部分同源。然后可以将HDR模板插入双链DNA分子的序列中。然后可以对双链DNA分子进行测序和分析。来自双链DNA(dsDNA)分子的序列数据的分析可以指示条形码序列的存在，其对应于基因的表达。

通过利用本文所述的实施方式，可以通过DNA测序而不是通过由RNA测序操作的常规技术来识别基因的表达。以这种方式，由于是对比RNA更稳定且更不短暂的DNA进行分析，因此可以更准确地确定基因的表达。因此，不是仅获得仅存在于特定时间点的RNA的快照，而是实施本文所述的技术可以显示在一段时间内发生的基因的每种表达。

同源定向修复

HDR是细胞中修复DSB的机制。HDR的最常见形式是同源重组。当存在用于修复DSB的同源DNA片段时，细胞可以使用HDR修复机制。由于需要受损的DNA链和完整供体DNA链之间的序列同源性，HDR被认为是DSB修复的高度准确的机制。如果用于修复的DNA模板与DSB处的原始DNA序列相同，则该过程几乎是没有错误的，或者如果用于修复的DNA模板与原始DNA序列之间存在差异，则它可以在受损DNA中引入非常特异性的突变。本公开讨论了作为修复过程的部分使用HDR模板在DSB点处添加新的DNA序列。

HDR包括同源重组(HR)和单链退火(SSA)(Lieber.2010Annu.Rev.Biochem.79：181-211)。最常见的HDR形式是HR，其在供体和受体DNA之间具有最长的序列同源性要求。其他形式的HDR包括单链退火(SSA)和断裂诱导复制，并且这些相对于HR需要较短的序列同源性。在缺口(单链断裂)处的HDR可以通过与在DSB处的HDR不同的机制发生(Davis和Maizels，PNAS(0027-8424)，111(10)，p.E924-E932)。

如本文所用，关于核苷酸序列的术语“同源性”和“同源的”是指与其他核苷酸序列的互补程度。可以存在部分同源性或完全同源性(即同一性)。与核酸序列部分互补，即“基本上同源”的核苷酸序列是至少部分抑制完全互补序列与靶核酸序列杂交的核苷酸序列。可以在低严格性条件下使用杂交测定(Southern或Northern印迹，溶液杂交等)检查完全互补序列与靶序列的杂交的抑制。基本上同源的序列或探针将在低严格性条件下竞争并抑制完全同源序列与靶序列的结合(即杂交)。这并不是说低严格性的条件是使得允许非特异性结合；低严格性条件要求两个序列彼此的结合是特异性(即选择性)的相互作用。可以通过使用缺乏甚至部分互补性水平(例如，小于约30％同一性)的第二靶序列来测试非特异性结合的不存在；在不存在非特异性结合的情况下，探针将不与第二非互补靶杂交。

本文所用的关于氨基酸序列的术语“同源性”和“同源的”是指两个氨基酸序列之间的一级结构的同一性程度。这样的同一性程度可以指向每个氨基酸序列的部分，或指向氨基酸序列的整个长度。两个或更多个“基本上同源的”氨基酸序列可具有至少50％的同一性，优选至少75％的同一性，更优选至少85％的同一性，最优选至少95％或100％的同一性。

“可杂交的”或“互补的”或“基本上互补的”是指多核苷酸(例如DNA或RNA)包含能够使其在温度和溶液离子强度的适当体外和/或体内条件下以序列特异性的、反平行的方式与另一多核苷酸非共价结合(即，多核苷酸特异性结合互补多核苷酸)的核苷酸序列。如本领域所知，

杂交和洗涤条件是众所周知的并且在Sambrook，J.，Fritsch，E.F.和Maniatis，T.Molecular Cloning：A Laboratory Manual，Second Edition，Cold Spring HarborLaboratory Press，Cold Spring Harbor(1989)，特别是其中第11章和表11.1；和Sambrook，J.和Russell，W.，Molecular Cloning：A Laboratory Manual，Third Edition，Cold Spring Harbor Laboratory Press，Cold Spring Harbor(2001)中举例说明。温度和离子强度的条件决定了杂交的“严格性”。

在本领域中应理解，多核苷酸的序列不需要与其靶多核苷酸的序列100％互补而是可特异性杂交的。此外，多核苷酸可以在一个或多个区段上杂交，使得插入或邻近区段不参与杂交事件(例如，环结构或发夹结构)。多核苷酸可包含与它们靶向的靶多核苷酸序列内的靶位点至少70％，至少80％，至少90％，至少95％，至少99％或100％的序列互补性。例如，其中反义化合物的20个核苷酸中的18个与靶位点互补并因此特异性杂交的反义多核苷酸将代表90％的互补性。在该实例中，剩余的非互补核苷酸可以簇集或散布于互补核苷酸中，并且不需要彼此或与互补核苷酸连续。多核苷酸内的特定多核苷酸序列延伸段之间的互补百分比可以使用本领域已知的BLAST程序(基础局部比对搜索工具)和PowerBLAST程序(Altschul等，J.Mol.Biol.，1990，215：403-410；Zhang和Madden，Genome Res.，1997，7，649-656)或通过使用Gap程序(Wisconsin Sequence Analysis Package，Version 8 forUnix，Genetics Computer Group，University Research Park，Madison Wis.)采用默认设置常规地测定，其使用Smith和Waterman的算法(Adv.Appl.Math.，1981，2，482-489)。

图1显示通过HDR将新DNA序列添加到双链DNA(dsDNA)100中的操作的说明性示意图。dsDNA可以在一些情况下包含在其表达被监控的基因中。dsDNA 100包含靶位点102，其指导酶104在特定切割位点106处在靶位点102内产生在dsDNA 100中的DSB。根据形成DSB的具体酶和技术，可以产生具有钝端或具有粘端的DSB。靶位点102是由在dsDNA中产生DSB的酶识别的DNA序列。“酶反应性条件”是指在允许酶起作用的环境中可得的任何必要条件[即，例如温度，pH和缺乏抑制性物质的因素]。酶反应性条件可以是体外的，例如在试管中，或体内的，例如在细胞内。

可以有意地将靶位点102引入dsDNA 100中以使得能够进行下述操纵。或者，可以选择预先存在的dsDNA 100的部分作为靶位点102。如果选择预先存在的dsDNA 100的部分作为靶位点102，则系统的其他组件的序列参照靶位点102的序列设计。在一些实施方式中，靶位点102是独特的，使得在整个dsDNA链中仅存在一个靶位点102和/或在细胞中的所有DNA中仅存在一个靶位点102。dsDNA 100可以是活的原核或真核细胞内的基因组DNA，引入活细胞中的DNA(例如质粒或载体)，或无细胞系统中的DNA。在引入DSB之前，dsDNA 100可以以线性或环状DNA的形式存在。

产生DSB的酶104可以是任何蛋白质，蛋白质-RNA复合物或蛋白质-DNA复合物(包括多聚体复合物)，其具有在切割位点106处在dsDNA中产生DSB的性质。合适的酶的非限制性实例包括限制酶，归巢内切核酸酶，锌指核酸酶(ZFN)，转录激活因子样效应核酸酶(TALEN)，CRISPR/Cas和NgAgo。这些类型的酶全部是能够在靶位点102内的切割位点106处造成DSB的位点特异性核酸酶的实例。关于位点特异性核酸酶的进一步细节提供如下。

在切割位点106处产生DSB之后，靶位点102被分成DSB两侧的两个子序列102(A)和102(B)。在一个实施方式中，两个子序列102(A)和102(B)中的每一个的长度可以在5至20个核苷酸(nt)之间。因此，在一个实施方式中，靶位点102的长度可以在10到40nt之间。在一些实施方式中，两个子序列102(A)和102(B)可含有相同的DNA序列。切割位点106可以位于靶位点102的中间，或者它可以位于靶位点102内的其他位置。图1所示的示意图显示具有钝端的DSB，但如上所述，具有粘端的DSB也包括在本公开的范围内。

使HDR模板108接近具有DSB的dsDNA 100。HDR模板108是单链(ss)DNA或ssRNA。HDR模板修复DSB并通过同源定向修复过程插入多核苷酸序列。用于产生特定突变或将新元件插入基因中的HDR模板需要在被修饰的靶位点周围的一定量的同源性。因此，HDR模板108包含与靶位点的第一子序列102(A)互补的3’端序列110和与靶位点的第二子序列102(B)互补的5’端序列112。因为它们是互补序列，所以3’端序列110和5’端序列112的长度与靶位点的相应子序列102(A)和102(B)相同或大致相同。因此，3端序列110和5’端序列112两者的长度可以在5和20nt之间。HDR模板108的中间部分包含编码第二靶位点116的区域114。该中间区域114可以在该点的两侧包含两个子序列114(A)和114(B)，其中第二靶位点116将被第二酶切割。HDR模板108的中间部分114中的两个子序列114(A)和114(B)的长度可以不同于两个子序列102(A)和102(B)的长度，但是可以遵循相同的尺寸范围，且长度在5到20nt之间。因此，HDR模板108的总长度可以在约20和80nt之间。因为中间区域114编码第二靶位点116，所以HDR模板108自身提供了该过程迭代地重复的基础。只要细胞检测到信号并且用于产生DSB和执行HDR的组件可用，该过程可以继续直到信号停止。因此，插入的DNA的长度可以与信号的持续时间相关联。

然后，HDR模板108通过HDR修复DSB。HDR的效率可能是低的，并且在某些情况下，其他修复机制可能占主导地位。HDR的效率部分地由修复时存在的供体DNA的浓度，供体DNA的同源臂的长度，细胞周期，和内源修复系统的活性决定。可以提供过量的HDR模板108以提高HDR的效率。通过人工或使用微流体装置添加额外拷贝的ssRNA或ssDNA，可以将过量的HDR模板108提供给无细胞系统。如果需要，还可以通过将编码HDR模板108的基因置于强启动子的控制下和/或通过使多个拷贝的编码HDR模板108的基因全部进行转录来提供过量的HDR模板108。在一个实施方式中，这种启动子可以通过响应于信号的信号传导途径来调节。当检测到信号时，启动子起动并生成更多拷贝的HDR模板108。

在DSB处切除5’端DNA链以产生3’突出端。这既可作为链侵入所需的蛋白质的底物，也可作为用于DNA修复合成的引物。然后，HDR模板108可以置换同源DNA双链体的一条链并与另一条链配对；这导致形成称为置换环(“D环”)118的杂合DNA。然后可以分解重组中间体以完成DNA修复过程。如上所述，可以提供过量的HDR模板108。本领域普通技术人员将理解如何用具有DSB的dsDNA 100和HDR模板108进行HDR。用于进行HDR的可能方案在以下中提供：Jie Liu等,In Vitro Assays for DNA Pairing in Recombination-Associated DNASynthesis,745Methods Mol.Bio.363(2011)；Gratz,S.等,Highly specific andefficient CRISPR/Cas9-catalyzed homology-directed repair in Drosophila,196Genetics 967(2014)；Richardson,C.C.等,Enhancing homology-directed genomeediting by catalytically active and inactive CRISPR-Cas9using asymmetricdonor DNA,34Nature Biotechnology 399(2016)；和Lin,S.等,Enhanced homology-directed human genome engineering by controlled timing of CRISPR/Cas9delivery,eLIFE(2014)。

在HDR模板108侵入dsDNA之后，通过3’端序列110与靶位点102的第一子序列102(A)的杂交和5’端序列112与靶位点102的第二子序列102(B)的杂交形成D环118。DNA聚合酶合成与dsDNA 100的一条链的中间部分114互补的新ssDNA 120。DNA连接酶将新合成的ssDNA 120的糖-磷酸酯主链与dsDNA 100的该链的剩余部分连接。这形成第二靶位点116的一条链。

杂交需要两个多核苷酸含有互补序列，尽管碱基之间的错配是可能的。适合于两个多核苷酸之间的杂交的条件取决于多核苷酸的长度和互补程度，其是本领域熟知的变量。两个核苷酸序列之间的互补程度越大，具有那些序列的多核苷酸的杂交体的解链温度(T_m)的值越大。对于具有短互补段(例如在35nt或更少，30nt或更少，25nt或更少，22nt或更少，20nt或更少，或18nt或更少上的互补)的多核苷酸之间的杂交，错配的位置变得重要。这是本领域普通技术人员所理解的，并在Sambrook，J.和Russell，W.，Molecular Cloning：ALaboratory Manual，Third Edition，Cold Spring Harbor Laboratory Press，ColdSpring Harbor(2001)第11.7-11.8节中描述。通常，可杂交多核苷酸的长度为至少约10nt。可杂交多核苷酸的示意性最小长度是：至少约15nt；至少约20nt；至少约22nt；至少约25nt；和至少约30nt。此外，技术人员将认识到，在必要时可以根据例如互补区长度和互补程度等因素调节温度，pH和洗涤溶液盐浓度。

修复dsDNA 100的第一链后，使用修复的第一链中的新ssDNA 120的序列作为模板，通过DNA聚合酶和DNA连接酶修复dsDNA 100的第二链。这完成了dsDNA 100的修复，产生包含插入在第一靶位点102内的第二靶位点116的dsDNA。

DNA聚合酶是从个体脱氧核糖核苷酸合成DNA分子的酶。在此过程中，DNA聚合酶“读取”现有DNA链以产生新的互补链。DNA连接酶是特定类型的酶，即连接酶，其通过催化磷酸二酯键的形成而促进DNA链连接在一起。它在修复单链断裂方面起作用。DNA连接酶的机制是在一个核苷酸(“受体”)的3’羟基末端与另一个核苷酸(“供体”)的5’磷酸末端之间形成两个共价磷酸二酯键。来自噬菌体T4的DNA连接酶是最常用于实验室研究的连接酶。它可以连接DNA、寡核苷酸以及RNA和RNA-DNA杂合体的粘着或“粘性”末端，但不能连接单链多核苷酸。它也可以连接钝端DNA。

注意，HDR模板108包含两种类型的区域：末端区域和中间区域。末端区域与DSB两侧的dsDNA 100的一条链同源。这里，同源区域由3’端序列110和5’端序列112显示。同源性不需要是100％，而是仅达到3’端序列110和5’端序列112与dsDNA 100的一条链杂交的程度。中间区域是HDR模板108的中间部分114，其编码第二靶位点116的序列。独立地改变末端区域和中间区域两者允许从相对有限的末端区域和中间区域集产生多个不同的HDR模板108。因此，插入的HDR模板108的中间区域不需要具有与其被插入其中的dsDNA 100相同的靶位点102或切割位点106。

在HDR之后，dsDNA 100包含第一靶位点102的第一子序列102(A)，接着是第二靶位点116的第一子序列116(A)。由两个靶位点的两个子序列102(A)和116(A)的该顺序表示的DNA序列122可以代表特定的信号组合(例如，温度高于30℃，接着pH低于5)。如上所述，子序列102(A)的长度为5至20nt，子序列114(A)的长度也为5至20nt。因此，在一个实施方式中，DNA序列122的总长度为10至40nt。

然而，HDR不是修复DSB的唯一方式。非同源末端连接(NHEJ)是一种修复DNA中的双链断裂的途径，并且可以在许多条件下比HDR更有利。NHEJ被称为“非同源的”，因为断裂末端被直接连接而不需要同源模板。NHEJ在整个细胞周期中活跃，并且具有更高的修复能力，因为不需要修复模板(姐妹染色单体或同源物)或大量的DNA合成。NHEJ还在几十分钟内完成大多数类型的断裂的修复，比HDR快一个数量级。因此，在许多细胞中，HDR和NHEJ之间存在竞争。如果HDR与NHEJ的比率足够高，则HDR将继续。然而，在NHEJ存在下，由酶104形成的DSB中的一些将在没有插入序列的情况下重新连接。

因此，NHEJ是在天然细胞中修复DSB的主要手段。NHEJ介导的修复容易产生插入缺失(indel)错误。在NHEJ修复过程中产生的插入缺失错误通常很小(1-10nt)，但极其多样。因此，大约有三分之二的机会导致移码突变。因此，可能期望最小化NHEJ并增加由HDR修复DSB的概率。可以通过抑制NHEJ过程的组分而增加HDR被使用的可能性。添加例如NU7441和KU-0060648的小分子是通过抑制DNA依赖性蛋白激酶催化亚基(“DNA-PKcs”)而抑制NHEJ的一种技术。以这种方式增强HDR效率的技术描述于Maruyama等，Increasing theefficiency of precise genome editing with CRISPR-Cas9by inhibition ofnonhomologous end joining.33(5)Nature Biotechnology,538(2015)和Robert等,Pharmacological inhibition of DNA-PK stimulates Cas9-mediated genomeediting.7Genome Medicine 93(2015)中。在一个实施方式中，可以通过抑制参与NHEJ途径的分子KU70，KU80和/或DNA连接酶IV来提高HDR效率。除了抑制之外，可以表达Cas9系统，E1B55K和/或E4orf6以进一步提高HDR效率并降低NHEJ活性。以这种方式增强HDR效率的技术描述于Chu等,Increasing the efficiency of homology-directed repair forCRISPR-Cas9-induced precise gene editing in mammalian cells.33(5)NatureBiotechnology,543(2015)中。此外，已在Richardson等,Enhancing homology-directedgenome editing by catalytically active and inactive CRISPR-Cas9usingasymmetric donor DNA,34(3)Nature Biotechnology 339(2016)中显示使用单链DNA寡聚体供体(ssODN)使HDR速率和敲入效率提高至多60％。

图2显示对图1的dsDNA 100分子进行的进一步操纵的示意图。第二酶200在第二靶位点116中的第二切割位点202处产生第二DSB。第二靶位点116具有与第一靶位点102不同的序列，因此，第二酶200识别与第一酶104不同的DNA序列。在第二靶位点116中在切割位点202处形成DSB产生在切割位点202的一侧上的第二靶位点116的第一子序列116(A)和在切割位点202的另一侧上的第二靶位点116的第二子序列116(B)。在一些实施方式中，第一子序列116(A)和第二子序列116(B)可以具有相同的序列。因此，第一子序列116(A)和第二子序列116(B)可以具有相同的核苷酸长度。而且，如果第一子序列116(A)和第二子序列116(B)是相同的序列，则可以认为第二靶位点116具有在中间以切割位点202重复一次的单一子序列。

第二HDR模板204接触dsDNA 100以提供用于DSB的HDR的模板。第二HDR模板204包含3’端区域206，其与第二靶位点116的第一子序列116(A)内的dsDNA 100的一条链同源。第二HDR模板204还包含5’端区域208，其与第二靶位点116的第二子序列116(B)内的dsDNA100的一条链同源。第二HDR模板204还包含中间区域的部分210，其编码用于第三酶的第三靶位点。中间区域210包含在第三切割位点212的一侧上的第一子序列210(A)和在第三切割位点212的另一侧上的第二子序列210(B)。

将第二HDR模板204与dsDNA 100的一条链退火通过3’端序列206与子序列116(A)的杂交和5’端序列208与子序列116(B)的杂交产生D环214。DNA聚合酶和DNA连接酶通过产生新DNA 216修复第二HDR模板204与之杂交的dsDNA 100的链。然后使用第一链作为模板修复dsDNA 100的第二链。

dsDNA 100现在包含插入第二靶位点116(其自身插入第一靶位点102的中间)的中间的第三靶位点218。子序列116(A)、然后是子序列218(A)的顺序可以产生检测到的信号的第二组合的记录。因此，插入的DNA序列的逐渐增长的串可以提供细胞经历的分子事件的有序日志。该过程可以重复以记录任何数量的分子事件。

使用上述机制将HDR模板添加到现有DNA中可以通过信号传导途径调节，如下文详细描述的。本文描述的编码方案允许插入代表无界长度的DNA序列。可以添加一次不包含切割位点的HDR模板，结束HDR的过程，并产生检测到指定信号的记录。细胞中的dsDNA可以在不同位置具有多个不同的靶位点，其包括不同的切割位点并且与不同的HDR模板同源。这提供了信号的正交记录(orthogonal recording)，而信号之间没有任何连接。例如，第一靶位点可以配置成如果细胞暴露于辐射则整合第一HDR模板，第二靶位点可以配置成如果细胞暴露于碳氢化合物则整合第二HDR模板，以及第三靶位点可以配置成如果细胞暴露于光则整合第三HDR模板。以这种方式配置的每个细胞将产生它所暴露于的信号(例如，辐射，碳氢化合物和光)的独立日志。可以修饰细胞以具有任何数量的正交靶位点。

三个靶位点可以表示为X₁X₂，Y₁Y₂和Z₁Z₂。靶位点的第一部分(例如，X₁，Y₁或Z₁)对应于图1所示的子序列102(A)或子序列116(A)。靶位点的剩余部分(例如，X₂，Y₂或Z₂)对应于图1所示的子序列102(B)或子序列116(B)。因此，每个X，Y和Z代表约5至20nt的DNA序列，仅仅举例而言，例如ACTGAA，GCCTCAT，TGACG等。在一些实施方式中，X₁＝X₂等，但在其他实施方式中，靶位点的第一部分的序列和/或长度可以与靶位点的剩余部分不同。

HDR模板都具有与靶位点之一同源的末端区域。因此，HDR模板将具有以下结构的序列：X₁aX₂，Y₁bY₂和Z₁cZ₂，其中“a”，“b”和“c”代表中间区域的DNA序列。回想一下，HDR模板的中间区域自身可编码靶位点。因此，例如，a可以代表X₁X₂，b可以代表Z₁Z₂，并且c可以代表不同的靶位点W₁W₂。如果中间区域确实编码靶位点，则HDR模板整合到dsDNA中之后可以是进一步整合相同或不同的HDR模板。将HDR模板插入本身由HDR模板的整合产生的dsDNA中在本公开中称为“迭代整合”。

因此，使用单个HDR模板的迭代整合的设计可以记录信号的存在和信号的长度。例如，HDR模板可以是XaXXaX，并且初始插入位点可以是XX。迭代整合将产生由以下表示的序列：

XXaXaXaXaX...XaXaXaXaXX

在检测到信号时，该序列可以保持继续增长。一个潜在的问题是HDR模板可以被在插入位点处产生DSB的相同酶切割，因为两者都包括序列XX(其被用于该日志记录的酶识别)。物理分离，剪接，自切除元件，同源桥或甲基化可用于防止或减少在整合到dsDNA中之前被切割的HDR模板的量。

在一种配置中，可以通过适当设计的HDR模板和插入位点来记录多个信号的持续检测。当检测到第一信号“a”时，表达具有序列XaYYaX的HDR模板。类似地，当检测到第二信号“b”时，表达HDR模板YbXXbY。最初，细胞可包括靶位点XX或YY。如果细胞仅包括靶位点XX，则信号“b”的存在不被记录，直到与信号“a”相关的HDR模板首次整合到细胞的DNA中。由于每个HDR模板为另一个提供靶位点，交替暴露于信号“a”和“b”或持续暴露于两种信号导致HDR模板的持续整合。这种交替的、迭代的添加将产生由以下表示的序列：

XaYbXaYbX...XbYaXbYaX

这提供了信号“a”和“b”的顺序记录，与HDR模板XaYYaX和YbXXbY的相对浓度无关。用于在DNA中的相同位置将多个信号记入日志的这种技术可以扩展到覆盖三种，四种或甚至更多种不同的信号。

在一种配置中，多个信号可以与具有相同靶位点的HDR模板相关。例如，第一信号“a”和第二信号“b”可以分别与HDR模板XaXXaX和XbXXbX相关。可以将任一HDR模板整合到靶位点XX中。一旦整合，两种HDR模板均还包含靶位点XX，允许迭代添加任一或两者。在大多数情况下，两个HDR模板的相对引入的水平将与HDR模板的相对浓度成比例。存在于细胞中的每个HDR模板的量可以被设计为与相应信号的强度，频率和/或持续时间成比例。例如，如果信号“a”强且恒定，则细胞可产生相对大量的XaXXaX模板。当存在信号“b”时，XbXXbX模板的量可以增加，然后该HDR模板也整合到细胞的DNA中。只要存在所有组件，这两个模板的迭代插入取决于信号“a”和“b”的相对强度，并将产生由以下表示的序列：

X[a|b]X[a|b]X...X[a|b]X[a|b]X

其中[a|b]是a或b。DNA中“a”相对于“b”的相对量提供了哪个信号最强的记录，并且从“a”优势时段到“b”优势时段的变化表明相对信号强度的时间变化。可以扩展该配置以包括三种，四种或更多种不同的信号和HDR模板。通过多个HDR模板的这种迭代和竞争性整合产生的DNA序列的分析可以在代表时间段的限定长度的核苷酸上进行。可以通过考虑一系列滑动窗口(例如，DNA的10,000nt段)并确定给定窗口中Xa相对于Xb的相对水平来分析核苷酸的长度。这提供了关于在给定时间段期间信号“a”和“b”的相对强度的信息。

使用该配置的一种方式是在具有第一HDR模板XaXXaX的组成型表达(而不是响应于信号)的细胞中。该模板将以恒定水平表达并存在于细胞中。它可以被认为是背景信号。第二HDR模板XbXXbX的水平将根据信号“b”的强度而变化。因此，整合到DNA中的XbXXbX模板的量表示与通过XaXXaX的表达建立的基线相比的信号“b”的相对强度。

使用上述配置的另一种方式是使用细胞的DNA中HDR模板之一的存在作为时间指示，如时间戳。例如，第一HDR模板的浓度可以响应于信号的检测。如果信号持续存在，则HDR模板XaXXaX将被迭代地引入细胞的DNA中。如上所述，插入的长度将取决于信号“a”存在的持续时间。故意在已知时间点将细胞暴露于信号“b”在DNA中提供了可与暴露于信号“b”的已知时间相关的参考点。当暴露于信号“b”时，第二HDR模板XbXXbX的表达增加至大于XaXXaX的表达的水平(例如，第二HDR模板可以由更强的启动子调节或以高于第一HDR模板的更多拷贝存在)。因此，DNA中具有XbXbXb...的插入的每个点指示细胞暴露于“b”的时间。例如，如果细胞每24小时暴露于信号“b”，则XbXbXb...序列之间的每个DNA串表示在24小时期间信号“a”的活动。

可以组合上述配置以顺序地记录多个信号而不管相对强度，以及基于竞争的HDR模板记录最强信号。可以存在多个种类HDR模板，每个种类具有响应于不同信号而转录的多个不同HDR模板。例如，可以存在两个种类的HDR模板XaYYaX和YbXXbY。因为这两个HDR模板整合到通过添加另一个而产生的靶位点中(即，整合到XX中的模板添加靶位点YY，而整合到YY中的模板添加靶位点XX)，它们将交替。因此，DNA将首先引入来自“a”种类的HDR模板，然后是来自“b”种类的HDR模板。每个种类的HDR模板包含对应于不同信号的两个(但可包括任何数量的)HDR模板，其具有部分不同的序列。因此，信号“a₁”可以导致HDR模板Xa₁YYa₁X表达增加，并且信号“a₂”可以导致HDR模板Xa₂YYa₂X表达增加。类似地，信号“b₁”可以导致HDR模板Yb₁XXb₁Y表达增加，并且信号“b₂”可以导致HDR模板Yb₂XXb₂Y表达增加。如果细胞以包含插入位点XX的DNA开始，则将基于Xa₁YYa₁X模板的相对浓度和Xa₂YYa₂X HDR模板的相对浓度整合“a”HDR模板中的第一个。这样做产生YY插入位点，然后基于相对浓度再次整合“b”HDR模板中的一个。

在一个实施方式中，每个种类的HDR模板可记录与特定类型的分子事件相关的值。例如，“a”种类的HDR模板可以用在温度低于32℃的情况下表达的Xa₁YYa₁X和在温度高于42℃的情况下表达的Xa₂YYa₂X指示细胞所经历的温度。因此，“a”种类的HDR模板的整合产生了相对温度的记录。“b”种类的HDR模板可以与不同类型的信号例如盐度相关。当细胞处于盐度低于0.600M的环境中时，可以表达HDR模板Yb₁XXb₁Y，和当细胞处于盐度高于0.700M的环境中时，可以表达Yb₂XXb₂Y。因此，在该细胞的DNA中产生的记录显示温度高/低和盐度高/低。每一个依次记录，因此随时间产生日志，显示两种不同信号的变化。当然，可以通过具有在适当启动子的控制下的不同HDR模板而跟踪任何数量的不同等级或水平的变量。

在一个实例实施方式中，使用Cas9作为核酸酶和具有该酶的PAM序列NNNNGATTT，三个靶位点可以是：

X₁＝TAGCCGTATCGAGCATCGATG|CGCNNNNGATT＝X₂

Y₁＝GATCGATGGACTCTGCATCTA|TCGNNNNGATT＝Y₂

Z₁＝CGGGACGATCGATCGGGCTAG|ACTNNNNGATT＝Z₂

其中PAM序列用粗体表示，X₁是(SEQ ID NO：1)，X₂是(SEQ ID NO：2)，Y₁是(SEQ IDNO：3)，Y₂是(SEQ ID NO：4)，Z₁是(SEQ ID NO：5)，Z₂是(SEQ ID NO：6)。请注意，X₁，Y₁和Z₁中的每一个是21nt长。

每个靶位点由相应的指导ssDNA识别，所述指导ssDNA在下文由“^”指示的位置处切割dsDNA。它们应具有反式激活crRNA(tracrRNA)，其是小的反式编码RNA，用于连接到末端另外的Cas9。将crRNA引入效应复合物中，其中crRNA将复合物指引至靶位点，Cas蛋白在多核苷酸中产生DSB。相应的ssDNA序列是：

gX₁＝TAGCCGTATCGAGCATCGATG^CGC(SEQ ID NO：1)

gY₁＝GATCGATGGACTCTGCATCTA^TCG(SEQ ID NO：3)

gZ₁＝CGGGACGATCGATCGGGCTAG^ACT(SEQ ID NO：5)

然后X₁Y₁Y₂X₂的同源定向修复序列是：

TAGCCGTATCGAGCATCGATG|GATCGATGGACTCTGCATCTA|TCGNNNNGATT|CGCNNNNGATT(SEQ ID NO：7)，并且Y₁X₁X₂Y₂的同源定向修复序列是：

GATCGATGGACTCTGCATCTA|TAGCCGTATCGAGCATCGATG|CGCNNNNGATT|TCGNNNNGATT(SEQ ID NO：8)。可以根据相同的模式设计其他同源定向修复序列。

靶位点X₁X₂的初始切割将产生显示为(仅显示dsDNA的一条链)以下的DSB：

...TAGCCGTATCGAGCATCGATG CGCNNNNGATT...

在采用X₁Y₁Y₂X₂的HDR后，dsDNA的一条链将具有以下序列，其现在包含由斜体表示的靶位点Y₁Y₂：

TAGCCGTATCGAGCATCGATG|GATCGATGGACTCTGCATCTA||TCGNNNNGATT|CGCNNNNGATT(SEQ ID NO：7)。

现在能够通过Cas9切割dsDNA(其具有Y₁)，在由“||”表示的位置处产生DSB。例如，可以用Y₁X₁X₂Y₂执行HDR，进一步添加到dsDNA并完成另一次编码的迭代。这可以通过各种不同序列的切割和HDR模板继续，以记录任何分子事件系列。

信号传导途径

图3显示调节基因表达的说明性信号传导途径的图300。信号传导途径可以是工程化信号传导途径，其以某种方式产生或修饰以与野生型信号传导途径不同。信号传导途径控制在启动子304控制下并且也可以在操纵基因306的控制下的基因302的表达。启动子是启动特定基因的转录的DNA区域。启动子位于基因的转录起始位点附近，在DNA的同一链上和上游(朝向有义链的5’区域)。说明性启动子如下所述。启动子区域的序列控制RNA聚合酶和转录因子的结合。操纵基因是阻遏物与其结合以减少或停止基因表达的DNA区段。“转录因子”是在基因或功能性mRNA的编码序列开始处(转录起始位点)附近结合的蛋白质。转录因子对于募集DNA聚合酶以转录DNA是必需的。转录因子可以作为阻遏物起作用，其可以与操纵基因结合以防止转录。基因302，启动子304和操纵基因306位于dsDNA分子上，其可以是细胞的基因组DNA或其他DNA，例如质粒或载体。在一些实施方式中，启动子304可响应于例如温度或pH的信号，因此启动子304自身可以是信号传导途径。

阻遏物(和/或“敲低”)可以是蛋白质或mRNA(小发夹环(shRNA)，干扰mRNA(RNAi或siRNA))，其结合DNA/RNA并阻断启动子的附着，阻断转录过程中聚合酶的延伸，或阻断mRNA的翻译。除阻遏物外，CRISPR/Cas9系统自身可用于原核和真核细胞中基因表达的序列特异性阻遏。具体地，CRISPR干扰(CRISPRi)的技术使用缺乏内切核酸酶活性的催化死亡Cas9以按照RNA指导的方式调节基因。通过将点突变引入Cas9蛋白中，例如在编码Cas9的基因的两个催化残基(D10A和H840A)处，可以产生催化失活的Cas9。这样做，dCas9不能切割dsDNA但保留靶向DNA的能力。CRISPRi的靶向特异性通过指导RNA(gRNA)与基因组基因座的互补碱基配对决定。可以设计gRNA以靶向特定启动子。复合的催化死亡Cas9和gRNA将阻断启动子的激活并关闭由该启动子调节的任何基因的表达。

信号传导途径可包括信号传导级联308，其携带来自第一信使的信号(即，初始信号)并最终导致启动子304或操纵基因306的激活而或者抑制。将信号传导级联308激活的初始信号可以是内部或外部信号。信号传导途径可以是跨膜信号传导途径，其包括检测细胞外信号并跨膜312传达信号的外部受体310。膜312可以是细胞壁，脂质双层，人工细胞壁或合成膜。

在一个实施方式中，外部受体310可以是G蛋白偶联受体(GPCR)。GPCR构成大的受体蛋白质家族，其感测膜312外的分子并激活信号传导级联308并最终激活细胞反应。GPCR由配体或其他信号介质形式的外部信号激活。这产生GPCR的构象变化，导致G蛋白的激活。进一步的效应取决于G蛋白的类型。随后G蛋白被称为RGS蛋白的GTP酶激活蛋白灭活。结合并激活这些GPCR的配体包括光敏化合物，气味，信息素，激素，神经递质等，其大小从小分子到肽到大蛋白不等。当配体与GPCR结合时，它导致GPCR的构象变化，这使得其充当鸟嘌呤核苷酸交换因子(GEF)。然后，GPCR可以通过将其结合的GDP交换为GTP来激活相关的G蛋白。G蛋白的α亚基与结合的GTP一起然后可以从β和γ亚基解离，以进一步影响细胞内信号传导蛋白或直接靶向功能性蛋白(其取决于α亚基类型)。

在一个实施方式中，外部受体310可以是光敏膜蛋白。光感受器蛋白是各种生物中参与光的感测和应答的光敏蛋白。光感受器蛋白通常由蛋白质部分和非蛋白质光色素组成，所述非蛋白质光色素通过光异构化或光还原对光作出反应，因此引发受体蛋白的变化，该变化触发信号传导级联308。在光感受器中发现的色素包括视黄醛(亚视黄基蛋白，例如动物中的视紫红质)，黄素(黄素蛋白，例如植物和动物中的隐色素)和胆素(bilin)(胆素蛋白(biliproteins)，例如植物中的光敏色素)。光敏蛋白的工程化使用的一个实例见于Tamsir，A.等，Robust Multicellular Computing Using Genetically Encoded NORGates and Chemical'Wires'，469Nature 214(2011)。

在一些实施方式中，外部受体310也可以是膜结合免疫球蛋白(mlg)。膜结合免疫球蛋白是膜结合形式的抗体。膜结合免疫球蛋白由表面结合IgD或IgM抗体和相关的Ig-α和Ig-β异二聚体组成，其能够响应于通过抗原的激活而通过信号传导级联308进行信号转导。

在一个实施方式中，外部受体310可以是Notch蛋白。Notch蛋白跨越细胞膜，其部分在内而部分在外。与细胞外结构域结合的配体蛋白诱导蛋白水解切割和释放细胞内结构域，其进入细胞以改变基因表达。受体可以通过直接的细胞-细胞接触来触发，其中直接接触的细胞的跨膜蛋白形成结合Notch受体的配体。由Notch蛋白产生的信号可以通过Notch级联传送至操纵子，Notch级联由Notch和Notch配体以及传递Notch信号的细胞内蛋白质组成。

在一个实施方式中，温度可以激活信号传导途径。因此，通过改变温度，可以上调或下调基因302的表达。在单细胞生物中天然存在的温度感测分子包括热休克蛋白和某些RNA调控分子，例如核糖开关。热休克蛋白是参与细胞对应激的应答的蛋白质。响应于温度的热休克蛋白的一个实例是细菌蛋白DnaK。升高到高于正常生理范围的温度可导致DnaK表达变得上调。DnaK和其他热休克蛋白可用于响应于温度的工程化途径。核糖开关是一种RNA分子，其可以响应于温度以调节蛋白质翻译。利用核糖开关的温度调节的工程化途径的实例可见于Neupert，J.等，Design of simple synthetic RNA temperatureometers fortemperature-controlled gene expression in Escherichia coli.，36(19)NucleicAcids Res，e124，(2008)。可用于调节工程细胞途径的温度敏感性分子的另一个实例是温度敏感性突变蛋白。可以对蛋白质进行单突变，其导致蛋白质在高温下变得不稳定，但在较低温度下仍保持功能性。用于合成温度敏感性突变蛋白的方法可见于Ben-Aroya，S.等，Making Temperature-Sensitive Mutants，470Methods Enzymology 181(2010)。利用温度敏感突变体的温度控制的工程化途径的实例可见于Hussain，F.等，Engineeredtemperature compensation in a synthetic genetic clock，111(3)PNAS 972(2014)。

在一个实施方式中，离子浓度或pH可以激活信号传导途径。利用这种类型的信号传导途径，将细胞置于不同的离子环境中或改变细胞周围的pH可用于控制给定HDR模板或酶的可用性。检测离子强度或pH的细胞感测分子机制的实例包括许多病毒蛋白，例如单纯疱疹病毒gB，风疹病毒包膜蛋白，流感病毒血凝素和水疱性口炎病毒糖蛋白。通过pH调节的天然细胞途径的实例是构巢曲霉的青霉素产生，如Espeso，E.等，pH Regulation is aMajor Determinant in Expression of a Fungal Penicillin Biosynthetic Gene，12(10)EMBO J.3947(1993)所述。可用于调节工程化细胞途径的pH敏感性分子的另一个实例是pH敏感性突变蛋白。可以对蛋白质进行单突变，这可以使蛋白质在酸性或碱性条件下变得不太稳定。例如，pH敏感性抗体可以在最佳pH下与抗原结合，但不能在非最佳pH下与抗原结合。用于产生可用于工程化信号传导途径的pH敏感性抗体的技术可见于Schroter，C.等，A generic approach to engineer antibody pH-switches using combinatorialhistidine scanning libraries and yeast display，7(1)MAbs138(2015)。可以对这些和其他类似的感测机制工程化以影响启动子304或操纵基因306的行为。

基因302编码基因产物314，其最终可以是HDR系统中多种组分的基础。例如，基因产物314可以翻译成蛋白质，直接用作RNA，或逆转录成DNA。在一个实施方式中，基因产物314可以翻译成产生DSB的核酸酶316，例如图1所示的酶104，或图2所示的酶200。核酸酶316可以是Cas酶，例如Cas9，Cas1或Cas2。

例如，来自规律间隔成簇短回文重复序列相关(CRISPR-Cas)家族的化脓性链球菌Cas9系统是一种有效的基因组工程化酶，其在gRNA靶向的DNAA基因座处催化双链断裂并产生突变。天然gRNA由20nt的特异性决定序列(SDS)(其指定待靶向的DNA序列)组成，并且紧接着是80nt的支架序列，其将gRNA与Cas9结合。除了与SDS的序列同源性外，被靶向的DNA序列还具有与其3’端紧邻的原型间隔子邻近基序(PAM)(5’-NGG-3’)，以由Cas9-sgRNA复合物结合并切割。当在基因组中的靶DNA基因座中引入双链断裂时，通过同源重组(当提供修复模板时)或易错的非同源末端连接(NHEJ)DNA修复机制修复断裂，导致所靶向的基因座的诱变。尽管编码gRNA序列的正常DNA基因座与gRNA完全同源，它也不被标准Cas9-gRNA复合物靶向，因为它不含PAM。

在野生型CRISPR/Cas系统中，gRNA被基因组地或另外的地(例如，在质粒上)编码。转录后，gRNA与Cas9内切核酸酶形成复合物。然后通过gRNA的特异性决定序列(SDS)将该复合物“指导”至DNA靶序列(通常位于细胞基因组中)。为了使Cas9成功结合DNA靶序列，靶序列的区域必须与gRNA序列的SDS互补，并且必须紧接着是正确的原型间隔子邻近基序(PAM)序列(例如“NGG”)。因此，在野生型CRISPR/Cas9系统中，PAM序列存在于DNA靶序列中但不存在于gRNA序列中(或编码gRNA的序列中)。

PAM序列通常是位置与SDS序列邻近(例如，在10，9，8，7，6，5，4，3，3或1nt内)的核苷酸序列。如果PAM序列与SDS序列连续(即，如果在PAM序列和SDS序列之间没有核苷酸)，则PAM序列与SDS序列“紧邻”。在一些实施方式中，PAM序列是野生型PAM序列。PAM序列的实例包括但不限于NGG，NGR，NNGRR(T/N)，NNNNGATT，NNAGAAW，NGGAG和NAAAAC，AWG，CC。在一些实施方式中，PAM序列获自化脓性链球菌(例如，NGG或NGR)。在一些实施方式中，PAM序列获自金黄色葡萄球菌(例如，NNGRR(T/N))。在一些实施方式中，PAM序列获自脑膜炎奈瑟氏球菌(例如，NNNNGATT)。在一些实施方式中，PAM序列获自嗜热链球菌(例如，NNAGAAW或NGGAG)。在一些实施方式中，PAM序列获自密螺旋体NGGAG(例如，NAAAAC)。在一些实施方式中，PAM序列获自大肠杆菌(例如，AWG)。在一些实施方式中，PAM序列获自铜绿假单胞菌(例如，CC)。考虑了其他PAM序列。PAM序列通常位于SDS的下游(即3’)，虽然在一些实施方式中，PAM序列可位于SDS的上游(即5’)。

在一个实施方式中，基因产物314编码gRNA 318，其由Cas酶316使用以靶向特定DNA序列。该系统可以被设计为具有除gRNA318之外的用于执行HDR所需的所有组件。因此，响应于信号的gRNA转录提供了执行HDR所需的最后组件并导致HDR模板的引入，从而产生分子事件的日志。或者，gRNA 318可能不是用于切割dsDNA，而是通过使用CRISPRi指导RNA关闭启动子。CRISPRi指导RNA指导Cas酶316结合启动子304并阻止基因302的转录。在该设计中，信号的存在将停止特定HDR模板的插入。

gRNA是CRISPR/Cas系统的组件。本文中的“gRNA”(指导核糖核酸)是指CRISPR靶向RNA(crRNA)和反式激活crRNA(tracrRNA)的融合体，其为Cas9核酸酶提供靶向特异性和支架/结合能力两者。“crRNA”是赋予靶特异性并且要求tracrRNA结合Cas9的细菌RNA。“tracrRNA”是将crRNA与Cas9核酸酶连接，并且通常可以结合任何crRNA的细菌RNA。CasDNA结合蛋白的序列特异性由gRNA确定，其具有与靶DNA序列的核苷酸碱基配对互补性。因此，Cas蛋白被gRNA“指导”至靶DNA序列。在一些实施方式中，gRNA的核苷酸碱基配对互补性使得能够简单且灵活地编程Cas结合。核苷酸碱基对互补性是指腺嘌呤与胸腺嘧啶(DNA)或尿嘧啶(RNA)之间以及鸟嘌呤和胞嘧啶之间的不同相互作用。在一些实施方式中，gRNA称为stgRNA。“stgRNA”是与Cas9复合并将stgRNA/Cas9复合物指导至stgRNA从其转录的模板DNA的gRNA。

gRNA的长度可以变化。在一些实施方式中，gRNA具有20个核苷酸至200个核苷酸或更长的长度。例如，gRNA的长度可以是20至175，20至150，20至100，20至95，20至90，20至85，20至80，20至75，20至70，20至65，20至60，20至55，20至50，20至45，20至40，20至35或20至30nt。

在一个实施方式中，基因产物314自身可以是或可编码HDR模板320。HDR模板320可以是例如图1所示的HDR模板108，或图2所示的HDR模板204。尽管基因产物314是ssRNA，但由于RNA与DNA杂交的能力，基因产物314可能能够作为HDR模板320起作用。已显示RNA转录物介导的HDR在真核细胞中成功地发挥作用。参见Keskin，H.，Shen.,Y等，Transcript-RNA-templated DNA recombination and repair，515Nature 436(2014)和Storici，F.等，RNA-templated DNA repair，447Nature 338(2007)。如果RNA用作HDR模板，则可以进一步修饰细胞以减少或去除降解RNA-DNA杂合体的酶。在一个实施方式中，使用RNA作为HDR模板的细胞可以是酿酒酵母。另外，由mRNA的逆转录产生的互补DNA(cDNA)和/或转录物RNA自身可以通过HDR辅助DSB修复。此外，表达的RNA和可能的mRNA两者的剪接可以改变用作逆转录酶合成cDNA的模板的RNA序列。因此，由于剪接，用作HDR模板的cDNA可以具有与基因组或编码初始RNA转录物的其他DNA不同的序列。基因产物314也可以通过逆转录酶转化为ssDNA，并以DNA形式用作HDR模板320。

基因产物314也可以翻译成一些其他酶产物322。其他酶产物322代表可用于通过HDR将分子事件记入日志的另一种酶。DNA Taq聚合酶和DNA连接酶两者是用于进行HDR的其他酶产物的实例。在缺乏这些酶中的一种或两种的系统中，通过控制基因表达而调节的添加是调节执行HDR的能力的方式。其他酶如转录因子是其他酶产物322的另一种类型。从第一基因表达的转录因子可用于激活第二基因的启动子或操纵基因。在无细胞系统中或在最小细胞中可能比在包括野生型细胞机制的生物细胞中更需要添加其他酶产物322。

图4显示两个示意性信号传导途径的图400，其以响应于相应信号的强度的水平产生不同基因产物。第一信号传导途径402通过提高控制第一基因408的转录的第一启动子406的活性而对第一信号404作出反应。第一信号传导路径402和第一信号404可以是本公开中讨论的任何信号传导途径或信号类型。第一基因408产生第一基因产物410，其可以是图3所示的基因产物的类型中的任一种。出于示例说明的目的，第一基因产物410显示为编码第一HDR模板412。因此，第一信号404的增加导致第一HDR模板412的合成的增加。

类似地，第二信号传导途径414通过提高控制第二基因420的转录的第二启动子418的活性而响应于第二信号416。第二基因420编码第二基因产物422。第二基因产物422可以是图3中讨论的基因产物的类型中的任一种。第二基因产物422可以是与第一基因产物410相同或不同类型的基因产物。在该图400中，第二基因产物422显示为第二HDR模板424。因此，第二HDR模板424的量由第二信号416的强度调节。

如果，例如，第二信号416比第一信号404更强和/或更频繁，则细胞将产生比第一HDR模板412的拷贝数更大的拷贝数的第二HDR模板424。可以选择相应的信号传导途径402和414和启动子406和418以维持相应的信号强度与同源性修复模板412和424的合成之间的相似对应比率。例如，除了直接参与感测主要信号的信号传导途径的部分之外，相应信号传导途径402和414可以是相同的。启动子406和418也可以是相似的且仅在一个方面不同，例如用于激活启动子的特定转录因子。

在该实例中，第二HDR模板424以第一HDR模板412的两倍高的浓度存在。这表明第二信号416的强度约为第一信号404的两倍强。因为第二HDR模板424的浓度是第一HDR模板412的浓度的两倍，所以对于每个HDR事件，第二HDR模板424将被整合到dsDNA 426的区段中的可能性是两倍。因此，在HDR模板的迭代整合的延长时间段中，可能来自第二HDR模板424的序列428是来自第一HDR模板412的序列430的两倍常见。dsDNA 426可包含，例如，第一HDR模板412或第二HDR模板424可以插入其中的靶位点432。来自第二HDR模板424的序列428和第一HDR模板412的序列430整合到dsDNA 426中的相对量反映了第一HDR模板412和第二HDR模板424的相对浓度。具体地，在该实例中，第二HDR模板424的序列428的以来自第一HDR模板412的序列430的两倍频率存在。因此，第一HDR模板412和第二HDR模板424与它们相应的浓度成比例地整合到dsDNA 426中。

如果该实例系统中的信号404，416中的一个或多个的强度随时间改变，则相应的HDR模板412，424的相对浓度也将改变。通过分析dsDNA 426的序列并在该序列的整个不同部分上观察第二HDR模板424的序列428与第一HDR模板412的序列430的比率如何变化，可以观察这种随时间的变化。该时间分析可以例如通过分析dsDNA 426的核苷酸的滑动窗口并计数发现来自第二HDR模板424的序列428的次数和发现第一HDR模板412的序列430的次数来实施。滑动窗口可以是任何长度，例如500nt，1000nt，5000nt等。

图5显示能够遗传地存储由细胞500经历的事件的日志的示意性细胞500。细胞500可以是大肠杆菌细胞，酿酒酵母细胞或来自另一种单细胞生物的细胞。它也可以是在培养基中生长的来自多细胞生物的细胞。可用于细胞培养的一些人细胞系包括DU145，H295R，HeLa，KBM-7，LNCaP，MCF-7，MDA-MB-468，PC3，SaOS-2，SH-SY5Y，T47D，THP-1，U87和国家癌症研究所的60癌细胞系组(NCI60)。

细胞500可含有dsDNA分子502，其具有第一靶位点504。细胞500还可以含有第一酶506，其配置成在第一靶位点504内的切割位点处产生DSB。例如，第一酶506可以是包含在第一靶位点504处与dsDNA 502的一条链互补的包括约20nt的间隔子区(也称为原型间隔子元件或靶向序列)的gRNA 508的CRISPR/Cas系统。

dsDNA分子502还可包含启动子510和编码HDR模板512的基因，例如该图所示的HDR模板514。

dsDNA分子502可以是通过任何合适的方法引入细胞500的载体或质粒。“载体”是多核苷酸分子，例如衍生自例如质粒，噬菌体，酵母或病毒的DNA分子，其中可以插入或克隆多核苷酸。一种类型的载体是“质粒”，其是指其中可以插入另外的DNA片段的环状双链DNA环，例如通过标准分子克隆技术。另一种类型的载体是病毒载体，其中病毒来源的DNA或RNA序列存在于用于包装到病毒(例如逆转录病毒，复制缺陷型逆转录病毒，慢病毒，复制缺陷型慢病毒，腺病毒，复制缺陷型腺病毒和腺相关病毒)中的载体中。病毒载体还包括由用于转染到宿主细胞中的病毒携带的多核苷酸。此外，某些载体能够指导它们可操作地与其连接的基因的表达。这样的载体在本文中称为“表达载体”。在重组DNA技术中有用的常见表达载体通常是质粒的形式。适用于表达本发明的实施方式的质粒，用于将核酸序列插入质粒中的方法，以及用于将重组质粒递送至感兴趣的细胞的方法是本领域已知的。

载体可含有一个或多个独特的限制性位点，并且能够在限定的宿主细胞中自主复制，所述宿主细胞包括靶细胞或组织或者祖细胞或其组织(例如具有细菌复制起点的细菌载体和另外的体哺乳动物载体)，或可与限定的宿主的基因组整合，使得克隆的序列是可复制的(例如，非另外的型哺乳动物载体)。因此，载体可以是自主复制载体，即作为染色体外实体存在的载体，其复制独立于染色体复制，例如线性或闭合环状质粒，染色体外元件，迷你染色体或人工染色体。载体可以含有用于确保自我复制的任何手段。或者，载体可以是当其被引入宿主细胞时，整合到基因组中并与其已整合到其中的染色体一起复制的载体。这样的载体可包含允许重组到宿主染色体的特定的、期望的位点中的特定序列。载体系统可包含单个载体或质粒，两个或更多个载体或质粒(其一起包含待引入宿主细胞的基因组中的总DNA)，或转座子。载体的选择通常将取决于载体与载体待引入其中的宿主细胞的相容性。载体可包含报告基因，例如绿色荧光蛋白(GFP)，其可以与编码的多肽中的一个或多个同框融合，或单独表达。载体还可包含选择标志物，例如可以用于选择合适转化体的抗生素抗性基因。

本发明的若干方面涉及包含一种或多种载体的载体系统，或载体本身。载体可以设计用于在原核或真核细胞中表达转录物(例如核酸转录物，蛋白质或酶)。例如，转录物可以在细菌细胞例如大肠杆菌，昆虫细胞(使用杆状病毒表达载体)，酵母细胞或哺乳动物细胞中表达。合适的宿主细胞在Goeddel，Gene Expression Technology：Methods InEnzymology，185，Academic Press.San Diego，Calif.(1990)中进一步讨论。或者，重组表达载体可以在体外转录和翻译，例如使用T7启动子调控序列和T7聚合酶。

可以在原核生物中引入和扩增载体。在一些实施方式中，原核生物用于扩增待引入真核细胞中的载体或作为待引入真核细胞中的载体的生产中的中间载体的拷贝(例如，扩增作为病毒载体包装系统的部分的质粒)。蛋白质在原核生物中的表达最通常在大肠杆菌中用含有指导蛋白质表达的组成型或诱导型启动子的载体进行。合适的诱导型大肠杆菌表达载体的实例包括pTrc(Amrann等，(1988)Gene 69：301-315)和pET 11d(Studier等，Gene Expression Technology：Methods In Enzymology 185，Academic Press，SanDiego，Calif.(1990)60-89)。

在一些实施方式中，载体是酵母表达载体。用于在酵母酿酒酵母中表达的载体的实例包括pYepSec1(Baldari等，1987.EMBO J.6：229-234)，pMFa(Kuijan和Herskowitz，1982.Cell 30：933-943)，pJRY88(Schultz等，1987.Gene 54：113-123)，pYES2(InvitrogenCorporation，San Diego，Calif.)和picZ(InVitrogen Corp，San Diego，Calif.)。

在一些实施方式中，载体能够在使用哺乳动物表达载体的哺乳动物细胞中驱动一种或多种序列的表达。哺乳动物表达载体的实例包括pCDM8(Seed，1987.Nature 329：840)和pMT2PC(Kaufman等，1987.EMBO J.6：187-195)。对于原核细胞和真核细胞两者的其他合适的表达系统，参见，例如，Sambrook等,Molecular Cloning:A Laboratory Manual.2nded.,Cold Spring Harbor Laboratory,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.,1989的第16章和第17章。

可以通过各种方法将合适的DNA片段插入载体中。通常，可以通过本领域已知的方法将DNA序列插入到合适的限制性内切核酸酶位点中，这可以由技术人员在无需过多实验的情况下进行。表达载体中的DNA片段可以与适当的表达控制序列(即，启动子如510)可操作地连接以指导合成。如本文所用，“启动子”是能够结合RNA聚合酶并启动下游(3’方向)编码或非编码序列的转录的DNA调控区域。出于定义本发明的目的，启动子序列在其3’端通过转录起始位点界定并向上游(5’方向)延伸以包括以高于背景的可检测水平启动转录所必需的最少数量的碱基或元件。在启动子序列内将发现转录起始位点，以及负责RNA聚合酶的结合的蛋白质结合结构域。真核启动子通常但不总是含有“TATA”盒和“CAT”盒。各种启动子，包括诱导型启动子，可用于驱动本发明的各种载体。启动子还可以含有调控蛋白和分子(例如RNA聚合酶和其他转录因子)可以在该处结合的亚区域。启动子可以是组成型的，诱导型的，可激活的，可阻遏的，组织特异性的或其任何组合。

启动子可包括本领域已知的用于体内或体外表达的任何启动子。可用于本发明实施方式的启动子可包括在许多类型的宿主细胞中指导核苷酸序列的组成型表达的启动子和仅在某些宿主细胞中指导核苷酸序列(例如，组织特异性调节序列)的表达的启动子。组织特异性启动子可以主要在期望的感兴趣的组织中指导表达，例如肌肉，神经元，骨，皮肤，血液，特定器官(例如肝脏，胰腺)或特定细胞类型(例如淋巴细胞)。可以在本发明的实施方式中使用的启动子也可以是诱导型的，使得表达可以降低或增强或者“开启”或“关闭”。例如，也可以使用响应于特定信号(例如，小分子，代谢物，蛋白质，分子修饰，离子浓度变化，电荷变化，动作电位，辐射，UV和光)的启动子。另外，可以使用采用任何启动子(例如但不限于U6启动子或H1启动子)的四环素可调节系统。作为实例而非限制，响应于特定刺激的启动子可包括例如热休克蛋白启动子和Tet-off和Tet-on启动子。

启动子可以是组成型活性的启动子(即，组成地处于激活/“ON”状态的启动子)，它可以是诱导型启动子(即，其状态(激活/“ON”或非激活/“OFF”)由外部刺激(例如，特定温度，化合物或蛋白质的存在)控制的启动子，它可以是空间限制的启动子(即转录控制元件，增强子等)(例如，组织特异性启动子，细胞类型特异性启动子等)，且它可以是时间限制的启动子(即，在胚胎发育的特定阶段期间或在生物过程(例如小鼠中的毛囊周期)的特定阶段期间处于“ON”状态或“OFF”状态的启动子)。

启动子驱动其所调节的核酸序列的表达或驱动其转录。本文中，当启动子处于与其调节的核酸序列相关的正确功能位置和方向以控制(“驱动”)该序列的转录起始和/或表达时，认为启动子是“可操作地连接的”。

启动子可以是与基因或序列天然相关的启动子，如可以通过分离位于给定基因或序列的编码区段的上游的5’非编码序列而获得。这样的启动子被称为“内源启动子”。

在一些实施方式中，编码核酸序列可以位于重组或异源启动子的控制下，所述重组或异源启动子是指在其天然环境中通常不与编码序列相关的启动子。这样的启动子可包括其他基因的启动子；从任何其他细胞分离的启动子；非天然存在的合成启动子或增强子，例如含有不同转录调控区的不同元件和/或通过本领域已知的基因工程化方法改变表达的突变的那些。除了合成地产生启动子和增强子的核酸序列之外，序列可以使用重组克隆和/或核酸扩增技术产生，包括聚合酶链式反应(PCR)。在一些实施方式中，本文考虑RNA polII和RNA pol III启动子。指导通过RNA聚合酶II进行准确的转录启动的启动子被称为RNApol II启动子。根据本公开使用的RNA pol II启动子的实例包括但不限于人巨细胞病毒启动子，人泛素启动子，人组蛋白H2A1启动子和人炎性趋化因子CXCL 1启动子。本文还考虑了其他RNA pol II启动子。指导通过RNA聚合酶III的准确转录启动的启动子被称为RNA polIII启动子。根据本公开使用的RNA pol III启动子的实例包括但不限于U6启动子，HI启动子，和转移RNA、5S核糖体RNA(rRNA)和信号识别颗粒7SL RNA的启动子。

说明性启动子包括但不限于SV40早期启动子，小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子；腺病毒主要晚期启动子(Ad MLP)；单纯疱疹病毒(HSV)启动子，巨细胞病毒(CMV)启动子如CMV立即早期启动子区(CMVIE)，劳斯肉瘤病毒(RSV)启动子，人U6小核启动子(U6)(Miyagishi等，Nature Biotechnology 20，497-500(2002))，增强型U6启动子(例如，Xia等，Nucleic Acids Res.2003年9月1日；31(17))，人H1启动子(H1)，等等。

诱导型启动子的实例包括但不限于T7RNA聚合酶启动子，T3RNA聚合酶启动子，异丙基-β-D-硫代半乳糖苷(IPTG)调节的启动子，乳糖诱导的启动子，热休克启动子，四环素调节的启动子，类固醇调节的启动子，金属调节的启动子，雌激素受体调节的启动子等。诱导型启动子因此可以通过包括但不限于强力霉素；RNA聚合酶，例如T7RNA聚合酶；雌激素受体；雌激素受体融合体；等等的分子调节。可以用dsDNA分子502转染或转化细胞，例如培养中的细胞。转染是故意将裸或纯化的多核苷酸引入真核动物细胞的过程。转化是指DNA转移到细菌和非动物真核细胞(包括植物细胞)中。可以使用病毒或机械方法进行转染。病毒转染通过病毒或病毒载体将外源DNA引入细胞中。用病毒进行转染可以将DNA引入宿主细胞的基因组中。机械转染通常涉及在细胞膜中打开瞬时孔或“洞”以允许摄取材料。可以使用磷酸钙(即磷酸三钙)，通过电穿孔，显微注射，基因枪，穿刺转染(impalefection)，流体静压，连续输注，超声处理，脂质转染，含有dsDNA分子502的纳米颗粒(例如，中孔二氧化硅纳米颗粒或金纳米颗粒)，或者通过将阳离子脂质与材料混合以产生与细胞膜融合并将其载物沉积在其内的脂质体，进行转染。用于引入外源DNA的纳米颗粒可以是离子带电的或具有靶向配体以递送至特定细胞或位点。

用于将遗传物质转移至难以转染的细胞的一种病毒转染技术是重组腺相关病毒(AAV)递送。这是不整合到宿主基因组中的病毒转导类型。使用可获自Takara Bio USA，Inc.的AAVpro CRISPR/Cas9 Helper Free System(AAV2)，已经成功使用基于AAV的系统引入化脓性链球菌Cas9(SpCas9)的基因及其最佳启动子和多腺苷酸化信号。

缀合也可用于将dsDNA分子502引入细胞中。虽然在自然界中缀合更频繁地在细菌中发生，但遗传物质从细菌转移到哺乳动物细胞也是可能的。参见Waters VL，Conjugationbetween bacterial and mammalian cells.29(4)Nature Genetics 375(2001)。

细胞500还可包含在启动子518和操纵基因520控制下的基因516。基因516可编码包含3’端序列524和5’端序列526的ssRNA序列522。可以从基因516生成HDR模板514。在一个实施方式中，HDR模板514是ssRNA序列522自身。3’端序列524和5’端序列526在靶位点504的至少部分上与dsDNA分子502的一条链互补。3’端序列524和5’端序列526之间的同源性允许ssRNA序列522与在靶位点504中的切割位点处产生的DSB的每一侧上dsDNA的部分杂交。

在其中基因516直接编码HDR模板514的实施方式中，基因516将编码切割位点528，切割位点528可被酶(例如第一酶506)切割。除非被保护而免受酶作用，否则当酶与基因516接触时，基因516中的切割位点528可以被无意地切割。

用于保护切割位点528免受第一酶506影响的一种技术是物理分隔。在无细胞系统中，例如使用微流体装置的系统，基因516可以被保持在一个室中，并且ssRNA序列522可以被从含有基因516的室移动到其中存在酶506的不同室中。

物理分隔也可以用于细胞实施方式中。基因516和酶506可包含在不同的细胞室中。在一个实施方式中，基因516可以在细胞核中，并且酶可以在细胞质中的细胞核外或在另一个细胞室中。如果基因516是细胞基因组的部分，它可以保留在细胞核中。核输出信号(NES)可用于将酶或系统的其他组件保持在核外。NES是蛋白质中四个疏水残基的短氨基酸序列，其使蛋白质靶向于使用核转运通过核孔复合物从细胞核输出到细胞质。类似地，核定位信号(NLS)可用于将酶保持在核中。NLS是标记蛋白质以通过核转运输入到细胞核中的氨基酸序列。通常，NLS由暴露在蛋白质表面上的带正电荷的赖氨酸或精氨酸的一个或多个短序列组成。不同的核定位蛋白可以共有相同的NLS。NLS具有与NES相反的功能。本领域普通技术人员能够修饰或工程化蛋白质例如核酸酶或其他酶以包括NES或NLS。

还可以控制细胞中RNA的物理位置。ssRNA序列522可以从其在核中的转录位点输出到细胞质或在核外酶存在的其他目的地。RNA输出描述于Sean Carmody和Susan Wente，mRNA Nuclear Export at a Glance，122J.of Cell Science 1933(2009)和Alwin和Ed Hurt，Exporting RNA from the Nucleus to the Cytoplasm，8NatureReviews Molecular Cell Biology 761(2007)中。

可以使用剪接来代替物理分隔或在物理分隔之外使用，以保护基因516不被酶506切割。在一个实施方式中，基因516可包含具有随后通过剪接除去的部分的序列。该另外的部分改变基因516中的核苷酸序列，使得不存在切割位点528。ssRNA序列522将通过剪接变为HDR模板514，其还引入切割位点528。

可变剪接或差异剪接是基因表达期间调节的过程，其导致编码多种蛋白质的单个基因。在该过程中，基因的特定外显子可以被包括在由该基因产生的最终的加工mRNA内或从其排除。因此，从可变剪接的mRNA翻译的蛋白质含有其氨基酸序列的差异，并且通常包含其生物学功能的差异。可变剪接的mRNA的产生被与初级转录物自身上的顺式作用位点结合的反式作用蛋白质的系统调节。这样的蛋白质包括促进特定剪接位点的使用的剪接激活物，以及减少特定位点的使用的剪切阻遏物。存在多种类型的可变剪接，包括外显子跳跃，互斥外显子，可选供体位点，可选受体位点，和内含子保留。外显子跳跃是导致ssRNA序列522中的剪接的一种方式；在这种情况下，外显子可以从初级转录物中剪接掉。本领域普通技术人员将理解如何设计基因516以使得其包含在规定位置处的剪接位点。可变剪接可以作为防止在基因516中产生DSB的技术实施，即使基因516和酶506没有物理分隔。

自切除元件可以与剪接类似地起作用。基因516可以设计为包含当转录成RNA时包括一个或多个自切除元件的区域。包含自切除元件，例如以破坏切割位点528的方式，防止基因516被酶识别，并且切除将ssRNA序列522转化为HDR模板514。一种类型的自切除元件是核酶，其是作为反应催化剂起作用的RNA酶。核酶是催化(酯交换)反应以从RNA序列的其余部分去除核酶序列本身的RNA序列。基本上这些被认为是内含子，其是从mRNA剪接掉以产生具有连续外显子(编码区)序列的成熟RNA的基因内区域。自切除内含子/核酶由组I和组II内含子组成。已知细菌中的许多组I内含子自我剪接并维持由配对元件组成的保守二级结构，其使用鸟苷(GMP，GDP或GTP)辅因子。组I内含子的实例是葡萄球菌噬菌体twort.ORF143。组I和组II内含子被认为是自剪接的，因为它们不需要蛋白质来初始化反应。自切除序列是已知的，并且本领域普通技术人员将理解如何在基因516中包含自切除序列。自切除核酶的方面在可获自http://2011.igem.org/Team:Waterloo(最后访问：2017年3月3日)的In Vivo Protein Fusion Assembly Using Self Excising Ribozyme中显示。

还可以使用一系列同源桥产生重组序列，该重组序列是用于ssRNA序列522的基因模板。同源桥可以在各种、单独的位置处存在于DNA中，使得基因516不包含切割位点528。该技术也称为多片段克隆或延伸克隆。最终的HDR模板514由多个重叠片段的转录物组成。用于将多重叠片段组合成HDR模板514的一种合适技术是序列和连接非依赖性克隆(SLIC)。该技术在Mamie Li和Stephen Elledge,Harnessing Homologous Recombination in vitroto Generate Recombinant DNA Via SLIC,4Nature Methods 250(2007)中描述。用于连接多重叠片段的另一种合适技术由Jiayuan Quan和Jingdong Tian,Circular PolymeraseExtension of Cloning of Complex Gene Libraries and Pathways,4(7)PLoS ONEe6441(2009)提供。

甲基化可用于保护HDR模板免受限制酶的过早切割，因为一些限制酶不切割甲基化的DNA。还可以通过切割区域或PAM识别位点的甲基化来防止其他核酸酶如Cas9的切割。DNA甲基化是将甲基基团添加到DNA分子的过程。甲基化可以在不改变序列的情况下改变DNA片段的活性。DNA的四种碱基中的两种，胞嘧啶和腺嘌呤，可被甲基化。甲基化酶是识别特定序列并使该序列中或附近的碱基中的一个甲基化的酶。可以使用靶向装置通过表观遗传编辑来控制甲基化，所述靶向装置是序列特异性DNA结合结构域，其可以被重新设计以识别期望的序列。靶向装置可以与效应结构域融合，其可以修饰所靶向的基因座的表观遗传状态。本领域普通技术人员将理解使用表观遗传编辑的技术。表观基因组操纵描述于Park等,The epigenome:the next substrate for engineering.17Genome Biology 183(2016)中。由RNA制成的HDR模板也可以通过甲基化修饰。S.Lin和R.Gregory,Methyltransferases modulate RNA stability in embryonic stem cells,16(2)NatureCell Biology 129(2014)。

在一个实施方式中，HDR模板514是与ssRNA序列522互补的ssDNA序列。该ssDNA序列可以通过逆转录酶读取(RT)ssRNA序列522并合成互补的ssDNA序列来产生。RT是用于从RNA模板产生cDNA的酶，该过程称为逆转录。RT广泛用于实验室中以将RNA转换为DNA用于如分子克隆，RNA测序，PCR和基因组分析的程序。RT酶可从多种商业来源广泛获得。RT的使用程序是本领域普通技术人员所熟知的。

HDR模板514的3’端序列530和5’端序列532在第一靶位点504的至少部分上与dsDNA 502的一条链同源。HDR模板514在ssDNA和ssRNA实施方式两者中包含中间部分534，其在引入dsDNA 502中时充当对由工程化信号传导途径536检测的信号的记录。在一个实施方式中，中间部分534还引入另一个靶位点，如本公开的其他地方所述。

此处将酶506作为与gRNA 508的CRISPR/Cas复合物举例说明。可以使用上面讨论的其他类型的酶代替CRISPR/Cas复合物。gRNA 508的单链尾部可以用与HDR模板514的全部或部分互补的序列延伸。HDR模板514可以部分地与gRNA 508的尾部杂交，形成双链区域538。这使得HDR模板514的拷贝与由CRISPR/Cas复合体506产生的DSB的位置紧密物理接近，这可以提高HDR效率。

还可以设计gRNA 508的延伸尾部，使得其与转录激活因子样效应物(TALE)蛋白的结合结构域匹配。TALE蛋白还可以具有与HDR模板514互补的结合结构域。这也将使HDR模板与DSB的位置密切接近。gRNA 508的尾部可以延伸以产生用于附接多个拷贝的HDR模板514或TALE蛋白的区域。

TALE蛋白质是当黄单胞菌属细菌感染各种植物物种时由该细菌通过其III型分泌系统分泌的蛋白质。这些蛋白质可以结合宿主植物中的启动子序列并激活有助于细菌感染的植物基因的表达。它们通过由可变数量的约34个氨基酸的重复序列组成的中心重复结构域识别植物DNA序列。在每个重复序列中的两个关键氨基酸与靶位点中的每个DNA碱基的身份之间似乎存在一对一的对应。TAL效应子最显著的特征是中心重复结构域，其含有1.5至33.5个通常长度为34nt的重复序列(C端重复序列通常较短，且称为“半重复序列”)。典型的重复序列可在许多TALE蛋白中共有，但在第12位和第13位的残基是高变的(这两个氨基酸也被称为重复可变二残基或RVD)。TAL效应子中的氨基酸与其靶位点中的DNA碱基之间的这种简单对应使得它们可用于蛋白质工程应用。

在靶位点504中产生DSB之后，可以释放已与gRNA 508的尾部杂交的分子538。在一些实施方式中，引入与gRNA 508的尾部或TALE蛋白的结合结构域互补的核苷酸序列可与附接的分子538竞争并导致HDR模板514、TALE蛋白或其他分子的解离。该竞争可以使HDR模板514变得可用于结合DSB的每一侧上的dsDNA 502。

细胞500还可包括一个或多个工程化信号传导途径536。如本文所用，“工程化信号传导途径”包括其中途径的至少部分用分子生物学技术有意修饰以与野生型途径不同并且信号(细胞内或细胞外)导致基因转录速率的变化的任何途径。工程化信号传导途径536可以诱导启动子，例如上述启动子512。工程化信号传导途径536还可以使转录因子结合操纵基因，例如上述操纵基因514，并阻止转录。在一个实施方式中，受工程化信号传导途径536影响的基因可以是编码ssRNA序列522的基因516。因此，工程化信号传导路径536可用于控制细胞500中可用的HDR模板514的量。在一个实施方式中，受工程化信号传导途径536影响的基因可编码在dsDNA中产生DSB的酶，例如酶506。因此，可以通过工程化信号传导途径536调节在靶位点504中产生DSB的酶的数量。工程化信号传导途径536可以控制编码与HDR相关的其他蛋白质的基因的转录。

细胞500可包括多个不同的工程化信号传导途径536，其各自响应于独特的信号并且各自促进或抑制负责产生HDR模板522和/或酶506的基因的表达。因此，细胞内或细胞外信号可用于改变细胞500中的HDR模板514和/或酶506的水平，从而改变哪些靶位点504被切割和哪些序列用于通过HDR修复DSB。通过上调或下调多个启动子和/或操纵基因中的任一个进行响应允许细胞500在其DNA中记录由工程化信号传导途径感测的事件和事件的复杂相互作用的日志。在一个实施方式中，工程化信号传导途径536可包括外部受体540，其可检测跨膜542的细胞外信号。膜542可以是细胞壁，脂质双层，人工细胞壁或合成膜。

细胞500还可包括一个或多个另外的dsDNA分子544，其可包含第二靶位点546。类似于第一dsDNA分子502，另外的dsDNA分子544可以仅包含单一的第二靶位点546。或者，另外的dsDNA分子544可包含多个拷贝的相同靶位点或多个不同的靶位点。可通过上述任何技术将另外的dsDNA分子544引入细胞500。在一些实施方式中，可通过相同程序引入第一dsDNA分子502和另外的dsDNA分子544。可以通过调节添加到细胞500中的dsDNA分子的相应拷贝来控制细胞500中第一dsDNA分子502和另外的dsDNA分子544的比率。

另外的dsDNA分子544和第二靶位点546可以具有与第一dsDNA分子502和第一靶位点504相同或相似的序列。因此，在一些实施方式中，另外的dsDNA分子544可被认为是第一dsDNA分子502的“拷贝”。相同或相似分子的这种另外的拷贝可通过产生第二日志来提供冗余，所述第二日志在没有错误的情况下将在dsDNA分子502和544两者中记录相同系列的事件。在一个实施方式中，另外的dsDNA分子544可包含靶位点546，其具有与第一dsDNA分子502中的第一靶位点504不同的序列。在不同dsDNA分子502和544中具有不同的靶位点504和546允许以两种不同的编码方案同时或交替编码二进制数据。两种不同的编码方案可以是非重叠的或“正交的”，使得与一种编码方案相关的酶和HDR模板不与用于另一编码方案的dsDNA分子相互作用。例如，DNA插入第一靶位点504可以记录与温度相关的信号的存在，并且DNA插入第二靶位点546可以记录与光水平相关的信号的存在。应理解，在实际实施中，可以存在数百或数千个具有相应的靶位点的dsDNA分子。还可以存在相应数量的不同编码方案和用于相应的靶位点的不同序列用于产生多个不同信号的详细日志。

在一个实施方式中，另外的dsDNA分子544可包含操纵子548，其编码用于将分子事件记入日志的组件。操纵子是DNA的连续区域，其包括顺式调控区(例如，阻遏物，启动子)和用于一个或多个基因或功能性mRNA(例如，siRNA，tracrRNA，gRNA，shRNA等)的编码区。操纵子548可以在环状载体中递送，例如另外的dsDNA分子544，或者可以通过本领域技术人员已知的基因编辑技术插入细胞500的基因组DNA中。在一个实施方式中，操纵子548可包含编码由细胞500用于执行HDR的所有组件的基因。因此，添加例如dsDNA分子544的载体可以使包括必要的工程化信号传导途径536的细胞500能够通过将同源修复模板522添加到所添加的dsDNA分子544上的靶位点546中而响应于检测到的信号。在该实施方式中，同源修复模板514，酶506和任何辅助蛋白可以由操纵子548中包含的基因提供。操纵子548中的基因可以在单一启动子550和操纵基因552的控制下。

在一个实施方式中，操纵子548可包含编码HDR模板554的基因、编码配置成形成DSB 556的酶的基因和编码用于监测如下所述的“状态”的跟踪分子558(例如，RNA，DNA或蛋白质)的基因中的任一个或全部。包含编码用于执行HDR的所有产物的基因的操纵子548可以在还包含靶位点546的环状dsDNA分子544上添加到无细胞系统中，以在一个分子上提供用于分子事件日志记录系统的完整指令。

本文所用的术语“可操作地连接的”是指将基因置于启动子的调节控制之下，启动子然后控制基因的转录和任选地翻译。在异源启动子/结构基因组合的构建中，通常优选将遗传序列或启动子定位在距基因转录起始位点一定距离处，该距离与该遗传序列或启动子与其在自然环境中控制的基因(即该遗传序列或启动子从其衍生的基因)之间的距离大致相同。如本领域所知的，可以在不丧失功能的情况下适应该距离的一些变化。类似地，调控序列元件相对于待置于其控制下的异源基因的优选定位通过该元件在其自然环境(即，该基因从其衍生)中的定位来限定。在大多数条件下，“组成型启动子”通常是活性的，即促进转录。“诱导型启动子”通常仅在某些条件下是活性的，例如在给定分子因子(例如，IPTG)或给定环境条件(例如，特定CO₂浓度，营养物水平，光，热)的存在下。在没有该条件的情况下，诱导型启动子通常不允许显著或可测量水平的转录活性。例如，诱导型启动子可以根据温度，pH，激素，代谢物(例如，乳糖，甘露醇，氨基酸)，光(例如，波长特异性的)，渗透势(例如，盐诱导的)，重金属或抗生素诱导。许多标准诱导型启动子是本领域技术人员已知的。

以下列出了本领域技术人员已知的示意性真核启动子。

以下列出了本领域技术人员已知的示意性原核启动子。

图6显示示意将第一HDR模板插入基因602中的图600。基因602可包含靶位点604。靶位点604可包含核苷酸序列，其可指导酶(未显示)在切割位点606处的靶位点604内的基因602中产生DSB。在一些情况下，靶位点604可以是预先存在的核苷酸序列的部分，其被一种或多种酶识别以产生DSB。在其他情况下，可以通过常规基因工程技术将靶位点604添加到基因602中，使得DSB可以通过一种或多种酶产生。另外，在一些实施方式中，基因602可包含单个靶位点604，而在其他情况下(未显示)，基因602可包含多个靶位点604。用于产生DSB的酶可包括本申请中先前描述的酶，例如限制酶，归巢内切核酸酶，锌指核酸酶，转录激活因子样效应核酸酶，CRISPR/Cas和NgAgo。

酶在靶位点604中产生的DSB产生间隙608和在间隙608每一侧的两个子序列602(A)和602(B)。在各种实施方式中，靶位点604可包含约10个核苷酸至约40个核苷酸，其中每个子序列602(A)和602(B)具有约5个核苷酸至约20个核苷酸，取决于切割位点606在靶位点604内的位置。在一些实例中，切割位点604可以位于靶位点604的中间部分。或者，切割部位604可以被包含在更靠近靶位点604的3’端或更靠近靶位点604的5’端。子序列602(A)和602(B)在特定实施方式中可包含相同的核苷酸序列，但在另外的实施方式中可包含不同的核苷酸序列。

在间隙608由DSB产生后，第一HDR模板610移动到子序列602(A)和602(B)和间隙608附近。如本申请先前所述，第一HDR模板610可以是单链DNA或单链RNA，其用于通过同源定向修复来修复DSB。第一HDR模板610的3’端序列610(A)可以与第一子序列602(A)互补，并且第一HDR模板610的5’端序列610(B)可以与第二子序列602(B)互补。3’端610(A)和5’端610(B)也可以具有与第一子序列602(A)和第二子序列602(B)的长度相似或相同的长度。因此，3’端序列610(A)和5’端序列610(B)可包含约5个核苷酸至约20个核苷酸。

在3’端序列610(A)和5’端序列610(B)之间，第一HDR模板610可包含中间部分612，其包含第一剪接区域614，条形码序列616，和第二剪接区域618。第一剪接区域614可包含被酶识别的核苷酸序列，其可在第一剪接区域614内产生切口。另外，第二剪接区域618可包含被酶识别的核苷酸序列，其可在第二剪接区域618内产生切口。在一些实施方式中，第一剪接区域614和第二剪接区域618可包含被剪接体识别的核苷酸序列。剪接体可以在第一剪接区域614和第二剪接区域618内的特定位置处产生切口。在示意性实例中，第一剪接区域614可以是内含子的受体位点，并且包含指示剪接体的第一切割位点的AG序列。第一剪接区域614可包含嘧啶含量高的区域，例如多聚嘧啶区域。另外，第一剪接区域614可包含分支序列。分支序列可以距离HDR模板的3’端20至50个核苷酸(即，朝向5’端)，并且包含至少一个腺嘌呤以及嘧啶，和至少一个另外的嘌呤。第二剪接区域618可以是内含子的供体位点，并且包含GU序列，其指示除了另外的嘌呤和嘧啶之外的剪接体的第二切割位点。

条形码序列616可包含多个包含对应于基因602的序列的核苷酸。在一些实施方式中，条形码序列616可独特地对应于基因602。也就是说，对于在给定基因的组内分析其表达的每个基因，可以识别独特的条形码序列。条形码序列616可包含允许识别基因的任何数量的核苷酸，例如，至少20个核苷酸，至少50个核苷酸，至少75个核苷酸或至少100个核苷酸。在一些示意性实例中，条形码序列616可包含约20个核苷酸至约250个核苷酸，约20个核苷酸至约100个核苷酸，约50个核苷酸至约150个核苷酸，或约100个核苷酸至约200个核苷酸。

当第一HDR模板610移动到第一子序列602(A)和第二子序列602(B)附近时，HDR可以修复DSB并从基因602产生修饰的基因620。如先前关于图1和图2所解释的那样，通过形成D环并使用DNA连接酶，第一HDR模板610可以取代第一子序列602(A)和第二子序列602(B)的一条链，并与第一子序列602(A)和第二子序列602(B)的另一条链配对。一旦第一HDR模板610用于修复基因602的第一链的DSB，DNA聚合酶可用于产生与中间部分的那些互补的许多核苷酸，从而在DSB处修复基因602的第二链以产生作为修饰的基因620的dsDNA。第一HDR模板610的中间部分612可用于产生修饰的基因620的基因表达区域622，其至少包含第一剪接区域614，条形码序列616和第二剪接区域618。

图7显示示意第二HDR模板的剪接的图700，所述第二HDR模板包含来自由修饰的基因620产生的RNA前体的条形码序列。修饰的基因620可以在启动子702和操纵基因704的控制下。如先前关于图3所解释的那样，启动子702可用于实施修饰的基因620的表达，并且操纵基因704可以关闭修饰的基因620的表达。使用响应于刺激而被激活的信号传导途径，可以使操纵基因704失活，并且可以激活启动子702。刺激可包括分子(例如蛋白质或酶)的存在，分子的不存在，或修饰的基因620所暴露于的条件中的一种或多种。在一些情况下，修饰的基因620可以暴露于影响启动子702和/或操纵基因704的激活的条件，例如温度范围，pH范围，对一系列电磁辐射的暴露，等等。

响应于被激活时，修饰的基因620可产生基因产物706。在图7的示意性实例中，基因产物706是RNA前体。在一些实施方式中，RNA前体可为mRNA前体。基因产物706可具有包含5’UTR 708，编码区710和3’UTR 712的结构。编码区710的实例部分714可包含第一内含子716，第一外显子718，基因表达区域622，第二外显子720和第二内含子722。

基因产物706可以与除去基因产物706的序列的部分的酶724接触。例如，酶724可包括从mRNA前体移除内含子的剪接体。在图7的示意性实例中，酶724用于从基因产物706中去除基因表达区域622。在各种实施方式中，基因表达区域622可包含被酶724识别的核苷酸序列。在特定实施方式中，第一剪接区域614和第二剪接区域618可包含酶724识别的核苷酸序列，使得酶724可在第一剪接区域614和第二剪接区域618两者处切割基因表达区域622。在一个示意性实例中，可以设计基因表达区域622，使得第一剪接区域614和第二剪接区域618与被用于从mRNA前体剪接内含子的许多剪接体中的一种识别的剪接区域相同或相似。另外，基因表达区域622的条形码区域616还可包含不干扰酶724执行的剪接动作的核苷酸序列。在某些情况下，基因表达区域622可包含部分对应于可以被酶724剪接的已知内含子的一个或多个序列的核苷酸序列。

酶724对基因表达区域622的剪接可以产生第二HDR模板726。第二HDR模板726可包含第一末端区域728，条形码序列616和第二末端区域730。在一些情况下，第一末端区域728可包含至少部分包含第一剪接区域614的核苷酸序列，第二末端区域730可包含至少部分包含第二剪接区域618的核苷酸序列。在特定实施方式中，第一末端区域728可包含第一剪接区域614的核苷酸序列减去酶724除去的一个或多个核苷酸。另外，第二末端区域730可包含第二剪接区域618的核苷酸序列减去酶724除去的一个或多个核苷酸。

图8显示示意将第二HDR模板726插入另外的多核苷酸802中的图800。另外的多核苷酸802可以是dsDNA。在一些情况下，另外的多核苷酸802可包含活的原核或真核细胞内的基因组DNA。在其他情况下，另外的多核苷酸802可包含引入活细胞中的dsDNA，例如质粒或载体。在其他实例中，另外的多核苷酸802可以在无细胞系统中包含dsDNA。另外的多核苷酸802可以在进行HDR操作之前包含线性或环状dsDNA。另外的多核苷酸802可以具有与基因602的序列不同的序列。

另外的多核苷酸802可包含靶位点804。靶位点804可包含核苷酸序列，其可以指导酶(未显示)在切割位点806处在靶位点804内的另外的多核苷酸802中产生DSB。在一些情况下，靶位点804可以是预先存在的核苷酸序列的部分，其被一种或多种酶识别以产生DSB。在其他情况下，可以通过常规基因工程技术将靶位点804添加至另外的多核苷酸802，使得DSB可以通过一种或多种酶产生。另外，在一些实施方式中，另外的多核苷酸802可包含单个靶位点804，而在其他情况下(未显示)，另外的多核苷酸802可包含多个靶位点804。用于产生DSB的酶可包括本申请中先前描述的酶，例如限制酶，归巢内切核酸酶，锌指核酸酶，转录激活因子样效应核酸酶，CRISPR/Cas和NgAgo。

酶在靶位点804中产生的DSB产生间隙808和在间隙808的每一侧的两个子序列802(A)和802(B)。在各种实施方式中，靶位点804可包含约10个核苷酸至约40个核苷酸，其中每个子序列802(A)和802(B)具有约5个核苷酸至约20个核苷酸，取决于切割位点806在靶位点804内的位置。在一些实例中，切割部位806可以位于靶位点804的中间部分。或者，切割部位806可以被包含在更靠近靶位点804的3’端或更靠近靶位点804的5’端。子序列802(A)和802(B)在特定实施方式中可包含相同的核苷酸序列，但在另外的实施方式中可包含不同的核苷酸序列。

在间隙808由DSB产生后，第二HDR模板726移动到子序列802(A)和802(B)和间隙808附近。如本申请先前所述，第二HDR模板726可以是单链多核苷酸序列，其用于通过同源定向修复来修复DSB。第一末端区域728可以与第一子序列802(A)互补，并且第二末端区域730可以与第二子序列802(B)互补。第一末端区域728和第二末端区域730也可以具有与第一子序列802(A)和第二子序列802(B)的长度类似或相同的长度。因此，第一末端区域728和第二末端区域730可包含约5个核苷酸至约20个核苷酸。在第一末端区域728和第二末端区域730之间，第二HDR模板726包含条形码区域616，其包含对应于基因602的核苷酸序列。

当第二HDR模板726移动到第一子序列802(A)和第二子序列802(B)附近时，HDR可用于修复DSB。在一些情况下，另外的多核苷酸802对第二HDR模板726的摄取可取决于第二HDR模板726在细胞中保持可用的时间长度和细胞中另外的多核苷酸802的浓度。第二HDR模板726在细胞中保持可用的时间长度可以是基于细胞的某些条件，例如pH，温度，和可以促进第二HDR模板726降解的酶或蛋白质的存在或不存在。如本领域普通技术人员将理解的，可以优化细胞的条件和成分，使得另外的多核苷酸802的浓度和第二HDR模板726在细胞中保持可用的时间长度使得第二HDR模板726能够移动到第一子序列802(A)和第二子序列802(B)附近。另外，可以设计第二同源模板726的序列和第二同源模板726和另外的多核苷酸所在的环境，使得第二同源模板726可以在细胞中保持一段时间可用，以移动到已经进行DSB的另外的多核苷酸802附近，如本领域普通技术人员所理解并在以下中描述的：Clement，Jade Q.，Sourindra Maiti和Wilkinson，Miles F.，Localization and Stability ofIntrons Spliced from the Pern Homeobox Gene，276The Journal of BiologicalChemistry，16919-16930(2001年5月18日)和Hesselberth Jay R.Lives that intronslead after splicing，WIREs RNA 2013，4：677-691。doi：10.1002/wrna.1187。

利用第二HDR模板726执行HDR，第一子序列802(A)和第二子序列802(B)可以产生新的双链多核苷酸810。如前关于图1和图2所述，通过形成D环并使用DNA连接酶，第二HDR模板726可以取代第一子序列802(A)和第二子序列802(B)的一条链，并且与第一子序列802(A)和第二子序列802(B)的另一条链配对。一旦第二HDR模板726用于修复另外的多核苷酸802的第一链的DSB，DNA聚合酶可用于产生与条形码序列616的那些互补的许多核苷酸，从而在DSB处修复另外的多核苷酸802的第二链以产生新的双链多核苷酸810。新的双链多核苷酸810可包含至少包含条形码序列616的中间部分812。在一些情况下，中间部分812还可包含对应于第一末端区域728和/或第二末端区域730的多个核苷酸。在产生新的双链多核苷酸810后，可以对新的双链多核苷酸810进行测序。新的双链多核苷酸810的测序可揭示新的双链多核苷酸810的中间部分812中的条形码序列616，其指示基因602的表达。

图9显示示意使用RNA底物连接第一HDR模板和第二HDR模板以产生第三HDR模板的图900。特别地，基因902可以在启动子902和操纵基因904的控制下。如先前关于图3所解释的那样，启动子904可用于实施基因902的表达，并且操纵基因906可以关闭基因902的表达。使用响应于刺激而被激活的信号传导途径，可以使操纵基因906失活，并且可以激活启动子904。刺激可包括分子(例如蛋白质或酶)的存在，分子的不存在，或基因902所暴露于的条件中的一种或多种。在一些情况下，基因902可以暴露于影响启动子904和/或操纵基因906的激活的条件，例如温度范围，pH范围，对一系列电磁辐射的暴露，等等。

响应于被激活，基因902可以产生基因产物。在图9的示意性实例中，基因产物是mRNA链908。mRNA链908可包含在图9中标记为“A1”的第一部分910，和在图9中标记为“A2”的第二部分912。另外，可以提供第一HDR模板914，其包含与mRNA链908的第一部分910同源的第一区域916。第一HDR模板914的第一区域916在图9中标记为“A1”。第一HDR模板914的第一区域916可具有5个核苷酸至75个核苷酸，10个核苷酸至40个核苷酸，或20个核苷酸至50个核苷酸。第一HDR模板914还可包含其余区域918。第一HDR模板914的其余区域918可具有10个核苷酸至40个核苷酸。另外，其余区域918可包含可以在HDR过程中使用的部分。也就是说，在一些情况下，其余区域918的至少部分可以与HDR中使用的多核苷酸的靶位点同源。

此外，可以提供第二HDR模板920，其包含与mRNA链908的第二部分912同源的第一区域922。第二HDR模板920的第一区域922在图9中标记为“A2”。第二HDR模板920的第一区域922可具有5个核苷酸至75个核苷酸，10个核苷酸至40个核苷酸，或20个核苷酸至50个核苷酸。第二HDR模板920还可包含其余区域924。第二HDR模板920的其余区域924可具有10个核苷酸至40个核苷酸。另外，其余区域924可包含可以在HDR过程中使用的部分。也就是说，在一些情况下，其余区域924的至少部分可以与HDR中使用的多核苷酸的靶位点同源。在一些特定实施方式中，第一其余区域918或第二其余区域924中的至少一者可包含可用作HDR操作的插入位点的靶区域。

在图9的示意性实例中，第一HDR模板914可以移动到接近mRNA链908的第一部分910，并且第二HDR模板920可以移动到接近mRNA链908的第二部分912。另外，第一HDR模板914的5’端可移动以接近第二HDR模板920的3’端。随着第一HDR模板914的第一区域916变得足够接近mRNA链908的第一部分910，第一区域916可以与第一部分910退火。而且，随着第二HDR模板920的第一区域922变得足够接近mRNA链908的第一部分912，第一区域922可以与第一部分912退火。此外，第一HDR模板914的5’端可以连接到第二HDR模板920的3’端。在特定实施方式中，连接酶可用于将第一HDR模板914的5’端与第二HDR模板920的3’端连接。因此，可以产生包含双链区928的修饰mRNA链918。此外，将第一HDR模板914的5’端连接到第二HDR模板920的3’端可以产生第三HDR模板930。第三HDR模板930可包含第一HDR模板914的第一区域916和其余区域918以及第二HDR模板920的第一区域922和其余区域924。

图10显示示意将第三HDR模板930的部分插入另外的多核苷酸1002中的图1000。另外的多核苷酸1002可以是dsDNA。在一些情况下，另外的多核苷酸1002可包含活的原核或真核细胞内的基因组DNA。在其他情况下，另外的多核苷酸1002可包含引入活细胞中的dsDNA，例如质粒或载体。在其他实例中，另外的多核苷酸1002可以在无细胞系统中包含dsDNA。另外的多核苷酸1002可以在进行HDR操作之前包含线性或环状dsDNA。

另外的多核苷酸1002可包含靶位点1004。靶位点1004可包含核苷酸序列，其可以指导酶(未显示)在切割位点1006处在靶位点1004内的另外的多核苷酸1002中产生DSB。在一些情况下，靶位点1004可以是预先存在的核苷酸序列的部分，其被一种或多种酶识别以产生DSB。在其他情况下，可以通过常规基因工程技术将靶位点1004添加至另外的多核苷酸1002，使得DSB可以通过一种或多种酶产生。另外，在一些实施方式中，另外的多核苷酸1002可包含单个靶位点1004，而在其他情况下(未显示)，另外的多核苷酸1002可包含多个靶位点1004。用于产生DSB的酶可包括本申请中先前描述的酶，例如限制酶，归巢内切核酸酶，锌指核酸酶，转录激活因子样效应核酸酶，CRISPR/Cas和NgAgo。

酶在靶位点1004中产生的DSB产生间隙1008和在间隙1008每一侧的两个子序列1002(A)和1002(B)。在各种实施方式中，靶位点1004可包含约10个核苷酸至约40个核苷酸，每个子序列1002(A)和1002(B)具有约5个核苷酸至约20个核苷酸，取决于切割位点1006在靶位点1004内的位置。在一些实例中，切割位点1006可以位于靶位点1004的中间部分。或者，切割位点1006可以被包含在更靠近靶位点1004的3’端或更靠近靶位点1004的5’端。子序列1002(A)和1002(B)在特定实施方式中可包含相同的核苷酸序列，但在另外的实施方式中可包含不同的核苷酸序列。

在由DSB产生间隙1008之后，第三HDR模板930移动到子序列1002(A)和1002(B)和间隙1008附近。如本申请先前所述，第三HDR模板930可以是用于通过同源定向修复修复DSB的多核苷酸序列。其余区域918可以与第一子序列1002(A)互补，而其余区域922可以与第二子序列1002(B)互补。其余区域918和其余区域922也可以具有与第一子序列1002(A)和第二子序列1002(B)的长度类似或相同的长度。在其余区域918和其余区域922之间，第三HDR模板922包含条形码区域1010，条形码区域1010包含对应于基因902的核苷酸序列。在一些情况下，条形码区域1010可以独特地识别基因902。条形码区域1010可包含第一HDR模板914的第一区域916和第二HDR模板920的第一区域922。

当第三HDR模板930移动到第一子序列1002(A)和第二子序列1002(B)附近，HDR可用于修复DSB。在一些情况下，另外的多核苷酸1002对第三HDR模板930的摄取可取决于第三HDR模板930在细胞中保持可用的时间长度和细胞中另外的多核苷酸1002的浓度。第三HDR模板930在细胞中保持可用的时间长度可以是基于细胞的某些条件，例如pH，温度，和可以促进第三HDR模板930降解的酶或蛋白质的存在或不存在。如本领域普通技术人员将理解的，可以优化细胞的条件和成分，使得另外的多核苷酸1002的浓度和第三HDR模板930在细胞中保持可用的时间长度使得第三HDR模板930能够移动到第一子序列1002(A)和第二子序列1002(B)附近。另外，可以设计第三HDR模板930的序列和第三HDR模板930和另外的多核苷酸1002所在的环境，使得第三HDR模板930可以在细胞中保持一段时间可用，以移动到已经进行DSB的另外的多核苷酸1002附近，如本领域普通技术人员所理解并在以下中描述的：Clement，Jade Q.，Sourindra Maiti和Wilkinson，Miles F.，Localization andStability of Introns Spliced from the Pern Homeobox Gene，276The Journal ofBiological Chemistry，16919-16930(2001年5月18日)和Hesselberth Jay R.Lives thatintrons lead after splicing，WIREs RNA2013，4：677-691。doi：10.1002/wrna.1187。

利用第三HDR模板930执行HDR，第一子序列1002(A)和第二子序列1002(B)可以产生新的双链多核苷酸1012。如先前关于图1和图2所解释的那样，通过形成D环并使用DNA连接酶，第三HDR模板930可以取代第一子序列1002(A)和第二子序列1002(B)中的一条链，并且与第一子序列1002(A)和第二子序列1002(B)中的另一条链配对。一旦第三HDR模板930用于修复另外的多核苷酸1002的第一链的DSB，DNA聚合酶可用于产生与条形码序列928的那些互补的多个核苷酸，从而在DSB处修复另外的多核苷酸1002的第二链以产生新的双链多核苷酸1012。新的双链多核苷酸1012可包含至少包含条形码序列928的中间部分1014。在一些情况下，中间部分1014还可包含对应于其余区域918和/或其余区域924的多个核苷酸。在产生新的双链多核苷酸1012后，可以对新的双链多核苷酸1012进行测序。新的双链多核苷酸1012的测序可揭示新的双链多核苷酸1012的中间部分1014中的条形码序列928，其指示基因902的表达。

尽管未在图10的示意性实例中显示，当第三HDR模板930开始与第一子序列1002(A)和第二子序列1002(B)的部分连接时，第三HDR模板930仍然可以连接到RNA链908的第一部分910和第二部分912。在一些情况下，当其余区域918和其余区域924分别开始与第一子序列1002(A)和第二子序列1002(B)连接时，第三HDR模板930可以与RNA链908分离。在其他情况下，第三HDR模板930可在RNA链的翻译期间与RNA链908分离。在特定情况下，可以在HDR过程开始之前从RNA链908移除第三HDR模板930。在其他实施方式中，在聚合酶产生双链多核苷酸1012的第二链，其与第三HDR模板930的条形码区1010互补时，第三HDR模板930可与RNA链908分离。

说明性过程

为了便于理解，将本公开中讨论的过程作为表示为独立模块的单独操作来描绘。然而，这些单独描绘的操作不应被解释为在其执行中必然地是顺序依赖的。过程被描述的顺序不旨在被解释为限制，而是可以以任何顺序组合任何数量的所描述的过程模块以实施该过程，或替代性过程。此外，还可以修改或省略所提供的操作中的一个或多个。

图11显示通过测序DNA识别基因表达的示意性过程1100，所述DNA包含对应于基因的条形码序列。

在1102处，过程1100包括产生包含第一剪接区域和条形码区域的第一HDR模板。条形码区域可包含对应于基因的核苷酸序列。例如，条形码的序列可用于特异性地识别基因。也就是说，识别多核苷酸中条形码序列的存在可以提供基因表达的指示。在一些情况下，基因可以是多个基因中的一个，并且可以产生对应于个体基因的个体条形码序列。

在具体实施方式中，数据可以通过由计算设备实施的指示大量条形码序列和可以与每个基因任意相关联的个体条形码序列的一个或多个算法产生。一个或多个算法可以考虑一个或多个标准以生成条形码序列。为了说明，条形码序列可以基于条形码序列的特定长度范围产生，例如50个核苷酸至500个核苷酸，50个核苷酸至250个核苷酸，或100个核苷酸至200个核苷酸。在另一个示意性实例中，可以基于环境内条形码序列的稳定性来生成条形码序列。在某些情况下，环境可包括经受一系列条件的细胞，例如温度范围，pH等。在各种实施方式中，条形码序列可以基于环境中多核苷酸中条形码序列的稳定性来生成，所述多核苷酸还包含其他序列，例如一个或多个剪接区域。条形码序列还可以考虑它们作为单链多核苷酸的行为产生，例如形成二级结构如发夹环的能力。

另外，剪接区域可包含由酶识别以产生剪接区域中的切口的核苷酸序列。酶可包括剪接体，其可以识别核苷酸的构型并在剪接区域内的特定位置处产生切口。可以通过一种或多种计算机实施的算法产生剪接区域的核苷酸序列。一种或多种计算机实施的算法可以考虑本领域普通技术人员已知的关于由许多剪接体识别的序列的信息，并利用该信息产生剪接区域的序列。例如，本领域普通技术人员已知的信息可以指示剪接区域的特定位置可包含任何嘌呤，并且一种或多种算法可以实施为在特定位置包含腺嘌呤或鸟嘌呤。在另一个情况中，一种或多种算法在确定剪接序列位置处的核苷酸方面可以不灵活，其中本领域技术人员已知的信息表明腺嘌呤将存在于该位置。

在一些情况下，第一HDR模板可包含多个剪接区域。在第一HDR模板位于基因的末端例如3’UTR的情况下，单个剪接区域可包含在第一HDR模板中，因为剪接区域处的剪切可以足以使第一HDR模板摆脱由基因产生的产物，例如mRNA前体。在其他情况下，第一HDR模板可位于基因的编码部分内。在这些情况下，第一HDR模板可包含多个剪接区域。每个剪接区域可包含本领域技术人员已知的核苷酸序列，其被剪接体识别以在每个剪接区域处产生切口。在特定实施方式中，第一HDR模板可作为内含子插入基因中。在示意性实例中，第一HDR模板可包含两个剪接区域，条形码区域位于剪接区域之间。

在1104处，过程1100包含使用同源定向修复将第一HDR模板插入基因的靶位点。特别地，可以利用酶(例如核酸酶)在基因的靶位点产生DSB。至少部分的剪接区域可以与切割位点处的基因的相应部分同源。在一些实施方式中，条形码序列的部分可与切割位点处的基因的相应部分同源。在第一HDR模板包含位于两个剪接区域之间的条形码区域的实施方式中，第一剪接区域的至少部分可以与位于DSB的第一侧上的基因的靶位点的第一部分同源，并且第二剪接区域的至少部分可以与位置与DSB的第一侧相反的DSB的第二侧上的靶位点的第二部分同源。同源定向修复可用于将第一HDR模板插入基因的靶位点。

在各种实施方式中，基因的靶位点可以是天然存在于基因中的区域。在其他实施方式中，可以通过HDR将靶位点插入基因中。也就是说，在包含条形码区域的第一HDR模板插入基因之前，可以将包含靶位点序列的HDR模板插入基因中。

在1106处，过程1100包含使用酶从RNA前体移除第一HDR模板以产生第二HDR模板。在特定实施方式中，基因的表达可响应于一种或多种信号而发生。一种或多种信号可以与基因环境相关。例如，一种或多种信号可以与温度，pH，蛋白质的存在，酶的存在或其组合相关。当表达基因时，可以在产生RNA(例如mRNA)之前形成RNA前体，其可用于形成由基因编码的蛋白质或其他产物。RNA前体可包含5’UTR，3’UTR和包含内含子和外显子的编码区。内含子和第一HDR模板可以通过剪接体从RNA前体中除去，所述剪接体识别RNA前体内的剪接序列并在各种剪接序列内产生切口。

酶在第一剪接区域处切割第一HDR模板的动作可以产生第二HDR模板，其包含条形码区域以及第一剪接区域的至少部分，因为一些量的第一剪接区域可以在酶产生切口后留下。另外，当第一HDR模板包含第二剪接区域时，第二HDR模板可包含第二剪接区域的至少部分。

第二HDR模板的序列可以被设计成使得第二HDR模板在环境中保持规定时间段可用。在一些实施方式中，可使用由计算装置实施且依赖于本领域普通技术人员可获得的知识的一种或多种算法来设计第二同源模板的序列。例如，一种或多种算法可以利用本领域普通技术人员关于内含子在某些环境中的可用性的知识，并产生可能在环境中保持规定时间段可用的第二同源模板的序列。

在1108处，过程1100包括使用同源性定向修复将第二HDR模板插入另外的多核苷酸的部分中以产生修饰的双链多核苷酸。通过使第二HDR模板与另外的多核苷酸接触，可以将第二HDR模板插入另外的多核苷酸的部分中。插入第二HDR模板的另外的多核苷酸的部分可以是包含切割位点的靶位点。可以使用酶(例如核酸酶)在切割位点处产生DSB。另外的双链多核苷酸可包含基因组DNA或人工DNA。而且，在一些情况下，在将第二HDR模板插入靶位点之前，另外的双链多核苷酸可包含线性DNA或环状DNA。

在特定实施方式中，第二HDR模板可包含与位于DSB一侧的另外的双链多核苷酸的靶位点的第一部分同源的第一部分和与位于DSB另一侧的靶位点的第二部分同源的第二部分。在一些情况下，第二HDR模板的第一部分可包含第一剪接区域的至少部分。在各种实施方式中，第二HDR模板的第一部分还可包含条形码区域的序列的部分。在仅使用单个剪接区域形成第二HDR模板的情况下，第二HDR模板的第二部分可包含条形码区域的序列的部分。在使用两个剪接区域形成第二HDR模板的实例中，第二HDR模板的第二部分可包含第二剪接区域的部分。另外，在使用两个剪接区域形成第二HDR模板的一些情况下，第二HDR模板的第二部分可包含第二剪接区域的部分和条形码区域的部分。

在一些情况下，另外的双链多核苷酸可包含多个靶位点。可以利用第一靶位点将第二HDR模板插入另外的双链多核苷酸中。另外，第二靶位点可用于将对应于其他指示物的序列插入另外的双链多核苷酸中。例如，可利用第二靶位点将时机指示物插入另外的双链多核苷酸中。为了说明，可以产生与特定时间相关的信号并使酶在第二靶位点产生DSB。此外，可以使对应于时机事件的HDR模板与第二靶位点接触并使用HDR插入另外的双链多核苷酸中。以这种方式，可以在另外的双链多核苷酸中记录与将第二同源模板插入另外的双链多核苷酸中相关的时机。将时机指示物插入另外的双链多核苷酸中可以根据申请人的题为“Timing of Logged Molecular Events”且案卷号为402243-US-NP/MS1-6635US的专利申请中描述的技术进行，其通过引入全文并入本文。

在1110处，过程1100包括测序修饰的双链多核苷酸，以产生测序数据。修饰的双链多核苷酸的测序可以通过本领域技术人员已知的任何多核苷酸测序技术进行。测序数据可包含指示存在于修饰的双链多核苷酸的不同位置的核苷酸的信息。

在1112处，过程1100包括至少部分地基于识别测序数据中的条形码序列，确定基因已被表达。特别地，可以将测序数据与条形码序列的记录进行比较。响应于基于比较确定修饰的双链多核苷酸包含条形码序列或包含基本上所有的条形码序列，可以识别基因的表达。这是因为条形码序列插入另外的双链多核苷酸中是作为基因通过基因表达而表达，使包含条形码序列的第二HDR模板可以添加到另外的双链多核苷酸中的结果而发生。

图12显示通过测序DNA识别基因表达的另外的示意性过程1200，所述DNA包含对应于基因的条形码序列。

在1202处，过程1200包括产生第一HDR模板，其包含与基因表达产生的RNA链的第一部分互补的区域。在一些情况下，RNA可包括在基因表达期间产生的mRNA。第一HDR模板可包含作为可以用于识别基因的条形码序列的第一部分的部分。条形码序列的第一部分可以对应于第一HDR模板的部分，其与RNA链的第一部分互补。以这种方式，对应于条形码序列的第一部分的第一HDR模板的部分可以连接到RNA链的第一部分。另外，第一HDR模板可包含其他有用的序列。例如，第一HDR模板可包含可以用作HDR操作中的插入区域的靶区域。此外，第一HDR模板可包含与在HDR过程中使用的多核苷酸的插入位点的部分同源的区域。

在1204处，过程1200可以产生第二HDR模板，其包含与RNA链的第二部分互补的区域。第二HDR模板可包含作为可以用于识别基因的条形码序列的第二部分的部分。条形码序列的第二部分可以是第二HDR模板的部分，其与RNA链的第二部分互补。以这种方式，对应于条形码序列的第二部分的第二HDR模板的部分可以连接到RNA链的第二部分。另外，第二HDR模板可包含其他有用的序列。例如，第二HDR模板可包含可以用作HDR操作中的插入区域的靶区域。此外，第二HDR模板可包含与在HDR过程中使用的多核苷酸的插入位点的部分同源的区域。

在1206处，过程1200包括将第一HDR模板与RNA链的第一部分退火，并将第二HDR模板与RNA链的第二部分退火，以产生修饰的RNA链。特别地，可以使与RNA链的第一部分互补的第一HDR模板的部分退火，同时可以使与RNA链的第二部分互补的第二HDR模板的部分退火。

在1208处，过程1200包括将第一HDR模板的5’端连接到第二HDR模板的3’端以产生第三HDR模板。在各种实施方式中，RNA链的第一部分和RNA链的第二部分可彼此邻近。因此，当第一HDR模板的部分和第二HDR模板的部分与RNA链的各自部分退火时，第一HDR模板的5’端和第二HDR模板的3’端可以接近彼此。然后可以利用连接酶连接第一HDR模板的5’端和第二HDR模板的3’端。在某些情况下，可以使用RNA连接酶，而在其他情况下，可以使用DNA连接酶。在一些示意性实例中，用于将第一HDR模板的5’端连接至第二HDR模板的3’端的连接酶可包括T4RNA连接酶，例如T4RNA连接酶1或T4RNA连接酶2，耐辐射球菌RNA连接酶，噬菌体T4DNA连接酶。

在1210处，过程1200包括使用同源定向修复将第三HDR模板的部分插入多核苷酸的靶位点中以产生修饰的双链多核苷酸。通过使第三HDR模板与多核苷酸接触，可以将第三HDR模板的部分插入多核苷酸的部分中。特别地，可以接触第三HDR模板的与多核苷酸的靶位点互补的部分。插入第三HDR模板的多核苷酸的部分可以是包含切割位点的靶位点。可以使用酶(例如核酸酶)在切割位点处产生DSB。多核苷酸可包括基因组DNA或人工DNA。而且，在一些情况下，在将第三HDR模板插入靶位点之前，多核苷酸可包含线性DNA或环状DNA。

在具体实施方式中，为了设计第三HDR模板的序列，可以分析特定基因的翻译期间产生的RNA序列，并且可以确定独特地识别基因的mRNA的某些区域。独特地识别基因的mRNA序列的部分可以是10个核苷酸到120个核苷酸，20个核苷酸到100个核苷酸，或25个核苷酸到80个核苷酸。可以设计第一HDR模板和第二HDR模板，使得第一HDR模板的部分与独特RNA序列的第一部分互补，并且第二HDR模板的部分与独特RNA序列的第二部分互补。以这种方式，当在第三HDR模板中连接时，第一HDR模板的部分和第二HDR模板的部分可包含完整的条形码序列，其识别在基因表达期间产生的RNA。

此外，第一HDR模板的另外部分可以被设计为与多核苷酸的插入位点的第一部分互补，并且第二HDR模板的另外部分可以被设计为与多核苷酸的插入位点的第二部分互补。以这种方式，第一HDR模板和第二HDR模板的与插入位点互补的部分可以与多核苷酸连接，这使得条形码序列能够使用HDR在插入位点处插入多核苷酸中。

第一HDR模板、第二HDR模板和第三HDR模板也可以根据它们在环境中的可用性来设计。在某些情况下，环境可包含经受条件组的细胞，例如温度范围，pH等。另外，第一HDR模板、第二HDR模板和第三HDR模板可以根据附着于HDR操作中使用的RNA链和多核苷酸的强度来设计。以这种方式，在第一HDR模板和第二HDR模板的与多核苷酸的靶位点互补的部分与多核苷酸连接之后，第三HDR模板可以与RNA链分离。

在示意性实例中，RNA链可以是具有序列-A1-A2-A3-A4-的mRNA，其中A1和A4可以是数百或数千个核苷酸的序列，A2和A3是包含10nt到40nt的序列。A2和A3可以一起包含用于在表达过程中产生mRNA的基因的条形码序列。另外，第一HDR模板可以具有序列X-A2'，第二HDR模板可以具有序列A3’-YY-X，第三HDR模板具有序列X-A2'-A3’-YY-X。在该实例中，X是与多核苷酸上的插入位点的部分互补的序列，其中可以插入条形码序列。而且，YY是一旦第三HDR模板插入多核苷酸中则可以提供另外的插入位点的序列。

在1212处，过程1200包括至少部分地基于修饰的多核苷酸的测序数据，确定基因已被表达。特别地，可以对修饰的多核苷酸进行测序以产生测序数据，并且可以分析测序数据。也就是说，可以将测序数据与条形码序列进行比较，并且在确定序列数据的部分对应于条形码序列时，可以确定基因已经被表达。这是因为条形码序列插入多核苷酸中是作为在基因表达过程中产生结合第三HDR模板的RNA链的结果而发生。

此外，尽管已经就连接第一HDR模板的5’端和第二HDR模板的3’端以产生用于后续向多核苷酸的靶位点中插入的第三HDR模板描述了过程1200，但是可以使用其他方法来产生第三HDR模板。例如，RNA链可以使第一HDR模板和第二HDR模板能够在条形码序列插入多核苷酸中的过程中用作序列和连接非依赖性克隆(SLIC)模板。

示意性系统和计算设备

图13显示用于设计条形码序列并利用条形码序列来识别基因表达的系统1300。架构可包括数字计算机1302，寡核苷酸合成仪1304，自动化系统1306和/或多核苷酸测序仪1308中的任一种。架构1300还可包括除了在本文中讨论的那些之外的其他组件。

如本文所用，“数字计算机”表示包括至少一个硬件微处理器1310和能够以二进制格式存储信息的存储器1312的计算设备。数字计算机1302可以是超级计算机，服务器，台式计算机，笔记本计算机，平板计算机，游戏机，移动计算机，智能手机等。硬件微处理器1310可以以任何合适类型的处理器实施，例如单核处理器，多核处理器，中央处理单元(CPU)，图形处理单元(GPU)等。存储器1312可包括可移动存储，不可移动存储，本地存储和/或远程存储，以提供计算机可读指令，数据结构，程序模块和其他数据的存储。存储器1312可以作为计算机可读介质实施。计算机可读介质包括至少两种类型的介质，即计算机可读存储介质和通信介质。计算机可读存储介质包括以用于存储例如计算机可读指令，数据结构，程序模块或其他数据的信息的以任何方法或技术实施的易失性和非易失性、可移动和不可移动的介质。计算机可读存储介质包括但不限于RAM，ROM，EEPROM，闪存或其他存储器技术，CD-ROM，数字通用盘(DVD)或其他光学存储器，磁带盒，磁带，磁盘存储器或其他磁存储设备，或可用于存储信息以供计算设备访问的任何其他非传输介质。

相比之下，通信介质可以体现调制数据信号例如载波或其他传输机制的计算机可读指令，数据结构，程序模块，或其他数据。如本文所定义的，计算机可读存储介质和通信介质是互斥的。

数字计算机1302还可包括一个或多个输入/输出设备1313，例如键盘，指示设备，触摸屏，麦克风，相机，显示器，扬声器，打印机，等等。

HDR模板设计器1316可以被包括作为数字计算机1302的部分，例如，作为存储在存储器1312中的指令。HDR模板设计器1316可基于靶位点的序列，dsDNA分子的序列，酶识别位点等设计HDR模板。在一个实施方式中，HDR模板设计器1316可设计HDR模板以避免不同信号记录途径之间的串扰。HDR模板设计器1316还可以比较潜在HDR模板以及HDR模板的部分的百分相似性和杂交条件。例如，HDR模板设计器1316可以设计HDR模板以避免发夹的形成以及防止或最小化HDR模板之间的退火。HDR模板设计器1316还可以设计HDR模板以最大化3’端序列，5’端序列和/或中间序列之间的差异。例如，差异可以是G:C含量，并且HDR模板设计器1316可以设计具有增加末端序列和中间序列之间的G:C含量差异的偏好的序列。HDR模板设计器1316还可以生成条形码序列和剪接序列以包含在HDR模板中。在一些情况下，指示对应于每个基因的个体条形码序列的表可以存储在存储器1312中并用于在分析序列数据1320之后确定基因已经被表达。

序列数据分析器1318可以分析由多核苷酸测序仪1308生成的序列数据1320。序列数据分析器1318可以作为存储在存储器1312中的指令实施。因此，序列数据1320可以被提供到序列数据分析器1318，其分析序列数据1320以识别包含在测序数据中的任何条形码数据。序列数据分析器1318可以识别细胞1322检测到哪些信号，并且可以识别包括在细胞1322的DNA中的时机指示物或条形码序列。取决于细胞1322的设计，序列数据分析器1318还可以识别信号强度，相对信号强度，不同信号的顺序，信号持续时间，信号的时机，或序列数据中1320表示的一个或多个信号的其他特征。如本文所用，“细胞”包括生物细胞，最小细胞，人工细胞和合成细胞。

为了操纵构成HDR模板和dsDNA的DNA和潜在地RNA，数字计算机1302可以通过一个或多个I/O数据接口1324与其他设备通信。I/O数据接口1324可以与例如寡核苷酸合成仪1304，自动化系统1306和多核苷酸测序仪1308的其他设备交换指令和数据。

寡核苷酸合成仪1304基于作为电子数据接收的指令化学合成寡核苷酸。合成的寡核苷酸可以用作HDR模板，用作提供靶位点的dsDNA分子，用作质粒、载体或其他组件。因此，在一些实施方式中，提供给寡核苷酸合成仪1304的核苷酸的序列可来自HDR模板设计器1316。

许多用于DNA合成的方法和商业寡核苷酸合成仪是可用的。用于DNA合成的方法包括固相亚磷酰胺合成，基于微芯片的寡核苷酸合成，连接介导的装配，PCR介导的装配等。例如，这样的合成可以使用ABI 394DNA合成仪(Applied Biosystems，Foster City，Calif.)以0.2μmol规模进行，然后进行标准切割和去保护方案，例如使用28％氨水或在甲醇中的氨的3:1溶液。如果期望，本领域普通技术人员可以选择其它裂解剂，例如甲胺，以用于代替氨，或者在氨之外使用。

如本文所用，术语“寡核苷酸”定义为包含两个或更多个核苷酸的分子。寡核苷酸包括探针和引物。用作探针或引物的寡核苷酸还可包括核苷酸类似物，例如硫代磷酸酯，烷基硫代磷酸酯，肽核酸或嵌入剂。引入这些修饰可能是有利的，以积极地影响如杂交动力学，杂交形成的可逆性，寡核苷酸分子的稳定性等的特征。

自动化系统1306可包括任何类型的机器人，自动化或用于使可以用酶和/或HDR模板对dsDNA执行的一个或多个操纵自动化的其他系统。自动化系统1306可以与手动操纵结合使用，使得为了实施本公开的技术而需要执行的全部操作以混合方式完成，其中一些操纵由自动化系统1306执行，而其他手动执行。

在一个实施方式中，自动化系统1306可包括微流体系统。示意性微流体系统可以配置成根据本领域普通技术人员充分理解的技术移动小体积的液体。如本文所用，自动化系统1306可包括在图13中明确显示的设备之外的、用于操纵DNA的其他设备，例如，热循环仪。

自动化系统1306可包括可以部分地通过微流体装置实施的无细胞系统。无细胞系统也可以作为人工细胞或最小细胞实施。如本文所用，术语“细胞”包括天然细胞，人工细胞和最小细胞，除非上下文另有明确说明。自动化系统1306可包括一个或多个天然细胞，例如培养中的细胞。自动化系统1306中的细胞培养物可以通过自动化细胞培养系统操纵。人工细胞或最小细胞是模拟生物细胞的一种或多种功能的工程化颗粒。人工细胞是包围生物活性物质的生物或聚合物膜。因此，纳米颗粒，脂质体，聚合物囊泡，微囊，洗涤剂胶束和许多其他颗粒可以被认为是人工细胞。微包封允许膜内的代谢，小分子的交换和防止大物质跨越通过。用于人工细胞的膜可以由简单聚合物，交联蛋白质，脂质膜或聚合物-脂质复合物制成。此外，可以工程化膜以提呈表面蛋白质，例如白蛋白，抗原，Na/K-ATPase载体，或例如离子通道的孔。常用于产生膜的材料包括水凝胶聚合物，例如藻酸盐，纤维素和热塑性聚合物，例如甲基丙烯酸羟乙酯-甲基丙烯酸甲酯(HEMA-MMA)，聚丙烯腈-聚氯乙烯(PAN-PVC)，以及上述材料的变体。

最小细胞，也称为原细胞，是扶持生命的所有最低要求的细胞。最小细胞可以通过自上而下的方法产生，其敲除单细胞生物中的基因直到识别出对生命必要的最小基因集。丝状支原体，大肠杆菌和酿酒酵母是可以被修饰以产生最小细胞的生物体的实例。本领域普通技术人员将认识到用于产生最小细胞的多种技术。

无细胞系统包括用于DNA复制和修复的组件，例如核苷酸，DNA聚合酶和DNA连接酶。无细胞系统还将包括dsDNA，其包含至少一个用于产生DSB的初始靶位点。dsDNA可以存在于包含一个或多个操纵子的载体中。无细胞系统还将包括缓冲液以维持pH和离子可用性。此外，无细胞系统还可包括用于在dsDNA中产生DSB的酶和用于修复dsDNA的HDR模板。一些无细胞系统可包括编码酶和HDR模板的基因。为了防止酶在不再需要它们各自的切割功能时保留，无细胞系统可包括特异性分解核酸酶的蛋白水解酶。

在无细胞系统中，可以在需要时通过用微流体装置将若干体积的液体一起移动或通过增加导致酶、HDR模板等的合成的基因产物的表达来添加特定组件。

自动化系统1306可包括结构，例如至少一个室，其容纳一个或多个DNA分子。室可以作为任何类型的机械、生物或化学布置实施，其将一定体积的液体(包含DNA)保持在物理位置。例如，其上存在液滴的单个平坦表面，液滴通过液体的表面张力保持，即使没有完全封闭在容器内，这是室的一个实施方式。

自动化系统1306可以对DNA分子执行许多类型的操纵。例如，自动化系统1306可以配置成响应于来自I/O数据接口1328的一系列指令将一定体积的液体从一个室移动到另一个室。

多核苷酸测序仪1308可以使用本领域技术人员已知的任何多核苷酸测序技术对DNA分子进行测序，包括经典双脱氧测序反应(Sanger法)，使用可逆终止的标记的核苷酸进行合成的测序，焦磷酸测序，纳米孔测序，SOLiD测序，化学敏感场效应晶体管(chemFET)测序和离子半导体测序。多核苷酸测序仪1308可以配置成测序根据上述任何技术修饰的dsDNA分子的全部或部分，并将序列数据1320提供给数字计算机1302。

可以通过根据本领域的标准方法提取核酸而使细胞1322准备测序。例如，可以使用各种裂解酶，化学溶液从细胞分离DNA，或者按照制造商提供的说明通过核酸结合树脂从细胞提取DNA。可以根据本领域广泛已知的方法通过例如PCR的扩增程序或杂交测定检测提取的样品中含有的DNA。此外，RNA可以使用技术如单分子荧光原位杂交(smFISH)技术检测和分析。

通过测序产生的序列数据1320可以从多核苷酸测序仪1308发送到数字计算机1302用于由序列数据分析器1318分析，并且还用于在输出设备1314上呈现。

示意性位点特异性核酸酶

限制酶(限制性内切核酸酶)存在于许多物种中，并且能够与DNA(在靶或识别位点处)序列特异性结合，并在结合位点处或附近裂解DNA。已经详细研究了超过3000种限制酶，其中超过600种可商购。天然存在的限制性内切核酸酶根据其组成和酶辅因子要求，其靶位点的性质，及其DNA切割位点相对于靶位点的位置而分为四类(I型，II型，III型和IV型)。所有类型的酶识别特定的短DNA序列并进行DNA的核酸内切裂解以产生具有末端5’-磷酸的特定片段。一种类型的限制酶，II型酶，在内或在距识别位点的短的特定距离处裂解；大多数需要镁；独立于甲基化酶的单一功能(限制)酶。II型酶形成同源二聚体，识别位点通常是未分开的和回文的，长度为4-8个核苷酸。它们在相同位点识别并裂解DNA，并且它们不使用ATP或AdoMet实现其活性——它们通常只需要Mg²⁺作为辅助因子。常见的II型限制酶包括HhaI，HindIII，NotI，EcoRI和BgII。限制酶可以以留下钝端或粘端的方式切割dsDNA。用限制酶在dsDNA中产生DSB的方案是本领域技术人员熟知的。限制性消化是常见的分子生物学技术，并且通常使用可商购限制性消化试剂盒中提供的试剂和方案进行。提供限制性消化试剂盒的公司的实例包括New England BioLabs，Promega，Sigma-Aldrich和ThermoFisher Scientific。这些公司各自在其网站上提供限制性消化方案。

归巢内切核酸酶(HE)，其也称为大范围核酸酶(meganuclease)，是具有大的不对称识别位点(12-40nt)和通常嵌在内含子或内含肽中的编码序列的双链DNA酶的集合。内含子被从前体RNA中剪接出来，而内含肽被从前体蛋白中剪接出来。它们在合成它们的细胞内催化基因组DNA的水解，但在每个基因组的很少甚至单个位置这样做。HE识别位点是极为罕见的。例如，18nt的识别序列将在具有随机序列的每7×10¹⁰个核苷酸中仅出现一次。这相当于20个哺乳动物大小的基因组中的仅一个位点。然而，与限制性内切核酸酶不同，HE在其识别序列内耐受一些序列简并性。因此，单碱基变化不消除裂解，但将其效率降低到不同程度。结果，它们的观察到的序列特异性通常在10-12nt范围内。使用HE的合适方案的实例可见于Flick，K.等，DNA Binding in Cleavage by the Nuclear Introns-Encoded HomingEndonuclease 1-Ppol，394Nature 96(1998)和Chevalier，B.等，Design,Activity,andStructure of a Highly Specific Artificial Endonuclease，10Molecular Cell 895(2002)。

锌指核酸酶(ZFN)是由与FokI限制性内切核酸酶的裂解结构域融合的工程化锌指DNA结合结构域组成的合成蛋白质。ZFN可用于在特定DNA序列中诱导DSB，从而促进多种不同细胞类型中的位点特异性同源重组和基因座的靶向操纵。将DSB引入dsDNA可以增强与外源引入的HDR模板重组的效率。ZFN由与细菌FokI限制性内切核酸酶的非特异性DNA裂解结构域共价连接的DNA结合锌指结构域(由三至六个指状物组成)组成。ZFN可以作为二聚体结合其靶DNA位点，每个单体使用其锌指结构域识别半位点。ZFN的二聚化由FokI裂解结构域介导，其在分隔两个倒置的“半位点”的五或六个核苷酸的“间隔子”序列内裂解。因为锌指结构域的DNA结合特异性原则上可以使用各种方法之一进行再工程化，所以可以构建定制的ZFN以靶向几乎任何DNA序列。本领域普通技术人员将知道如何设计和使用ZFN以在期望的靶位点处在dsDNA中产生DSB。一些合适的方案可获自Philipsborn,A.等,Microcontactprinting of axon guidance molecules for generation of graded patterns,1NatureProtocols 1322(2006)；John Young和Richard Harland,Targeted Gene Disruptionwith Engineered Zinc Finger Nucleases(ZFNs),917Xenopus Protocols 129(2012)，和Hansen,K.等，Genome Editing with CompoZr Custom Zinc Finger Nucleases(ZFNs),64J.Vis.Exp.3304(2012)。

TALEN是可以被工程化以切割特定DNA序列的限制酶。它们通过将TAL效应子DNA结合结构域与DNA裂解结构域(即切割DNA链的核酸酶)融合而制成。可以工程化转录激活因子样效应子(TALE)以实际上结合任何期望的DNA序列，因此当与核酸酶组合时，可以在特定位置切割DNA。可以将限制酶引入细胞中，用于基因编辑或原位基因组编辑。DNA结合结构域含有重复的高度保守的33-34氨基酸序列，具有相异的第12位和第13位氨基酸。这两个位置，称为重复可变二残基(RVD)，是高度可变的，并且显示与特异性核苷酸识别强烈的相关性。氨基酸序列和DNA识别之间的这种直接关系允许通过选择含有适当RVD的重复部分的组合来工程化特异性DNA结合结构域。值得注意的是，RVD的轻微变化和“非常规”RVD序列的引入可以改善靶向特异性。本领域普通技术人员将知道如何设计和使用TALEN以在期望的靶位点处在dsDNA中产生DSB。一些合适的方案可获自Hermann,M.等,Mouse GenomeEngineering Using Designer Nucleases,86J.Vis.Exp.50930(2014)和Sakuma,T.等,Efficient TALEN Construction and Evaluation Methods for Human Cell and AnimalApplications,18(4)Genes Cells 315(2013)。

在CRISPR/Cas核酸酶系统中，CRISPR基因座编码系统的RNA组件，并且Cas(CRISPR相关的)基因座编码蛋白质。微生物宿主中的CRISPR基因座含有CRISPR相关(Cas)基因以及能够编程CRISPR介导的多核苷酸裂解的特异性的非编码RNA元件的组合。

II型CRISPR是最充分表征的系统之一，并且在四个连续步骤中进行靶向双链断裂。首先，从CRISPR基因座转录两个非编码RNA：pre-crRNA阵列和tracrRNA。其次，tracrRNA与pre-crRNA的重复区域杂交并介导将pre-crRNA加工成含有个体`间隔子序列的成熟crRNA。第三，成熟crRNA:tracrRNA复合物通过crRNA上的间隔子与靶DNA上原型间隔子邻近基序(PAM)(靶识别的另一个要求)旁边的原型间隔子之间的Watson-Crick碱基配对，将Cas9指导至靶DNA。在工程化CRISPR/Cas9系统中，也称为单指导RNA(“sgRNA”)的gRNA可以用包含原型间隔子元件和接头环序列的单一RNA构建体替代crRNA和tracrRNA。标准Watson-Crick碱基配对包括：腺嘌呤(A)与胸苷(T)配对，腺嘌呤(A)与尿嘧啶(U)配对，鸟嘌呤(G)与胞嘧啶配对(C)。此外，本领域还已知，对于两个RNA分子(例如，dsRNA)之间的杂交，鸟嘌呤(G)与尿嘧啶(U)碱基配对。在本公开的上下文中，鸟嘌呤(G)被认为与尿嘧啶(U)互补，反之亦然。因此，当可以在所述DNA-靶向RNA分子的蛋白质结合部分(dsRNA双链体)的给定核苷酸位置处形成G/U碱基对时，该位置不被认为是非互补的，反而被认为是互补的。使用gRNA可以简化使用CRISPR/Cas9进行基因组编辑所需的组件。不同生物体的Cas9种类具有不同的PAM序列。例如，化脓性链球菌(Sp)具有5’-NGG-3’的PAM序列，金黄色葡萄球菌(Sa)具有5’-NGRRT-3’或5’-NGRRN-3’的PAM序列，脑膜炎奈瑟氏球菌(NM)具有5’-NNNNGATT-3’的PAM序列，嗜热链球菌(St)具有5’-NNAGAAW-3’的PAM序列，齿垢密螺旋体(Td)具有5’-NAAAAC-3’的PAM序列。

最后，Cas9介导靶DNA的切割以在原型间隔子内产生DSB。CRISPR/Cas系统在自然界中的活动包括三个步骤：(i)在称为“适应”的过程中，将外来DNA序列插入到CRISPR阵列中以防止未来的攻击，(ii)相关蛋白质的表达，以及阵列的表达和加工，然后是(iii)RNA介导的对外来多核苷酸的干扰。外来多核苷酸来自附着于细菌细胞的病毒。因此，在细菌细胞中，多种所谓的“Cas”蛋白涉及CRISPR/Cas系统的天然功能，并在例如外来DNA插入的功能中起作用。

CRISPR还可以与除Cas9之外的核酸酶一起起作用。来自Cpf1家族的两个基因含有RuvC样内切核酸酶结构域，但它们缺少Cas9的第二个HNH内切核酸酶结构域。Cpfl以交错模式裂解DNA并且仅需要一种RNA而不是Cas9进行切割所需的两种(tracrRNA和crRNA)。Cpfl的优选PAM是5’-TTN，在基因组位置和GC含量两方面不同于Cas9(3’-NGG)。用于Cpf1介导的裂解的成熟crRNA的长度为42-44个核苷酸，与Cas9的成熟crRNA的大小大致相同，但是具有在间隔子之前，而不是在间隔子之后的直接重复序列。Cpfl crRNA的结构也比Cas9的crRNA简单得多；只有直接重复序列区域中的短茎环结构是靶的裂解所必需的。Cpfl也不需要另外的tracrRNA。Cas9在PAM位点上游3nt处产生钝端，而Cpfl以交错方式裂解，产生离PAM18-23nt的5个核苷酸的5’突出端。

可以使用除Cas9之外的其他CRISPR相关蛋白代替Cas9。例如，CRISPR相关蛋白1(Cas1)是CRISPR原核免疫防御系统中发现的两种普遍保守蛋白质之一。Cas1是金属依赖性DNA特异性内切核酸酶，其产生双链DNA片段。Cas1与另一种普遍保守的CRISPR相关蛋白Cas2形成稳定的复合物，Cas2是CRISPR系统的间隔子获取的部分。

还存在不使用PAM序列的CRISPR/Cas9变体，例如NgAgo。NgAgo与24个核苷酸的ssDNA指导序列一起起作用，并且据信切割距该序列的开始的8-11个核苷酸。ssDNA在蛋白质折叠时被加载，并且除非将温度增加至非生理学的55℃，否则不能将其交换成不同的指导序列。靶DNA中的一些核苷酸在切割位点附近被除去。使用NgAgo的技术描述于Gao,F.等，DNA-guided Genome Editing Using the Natronobacterium Gregoryi Argonaute，34Nature Biotechnology 768(2016)。

可以通过在不同位置产生两个单链断裂来形成DSB，产生具有粘端的切割的DNA分子。单链断裂或“缺口”可以通过仅含有一个活性催化结构域的修饰形式的Cas9酶(称为“Cas9切口酶”)形成。Cas9切口酶仍然基于gRNA特异性结合DNA，但是切口酶仅能够切割DNA链中的一条。需要靶向相反链的两个切口酶以在靶DNA内产生DSB(通常称为“双切口”或“双切口酶”CRISPR系统)。该要求极大地提高靶特异性，因为不太可能在足够近的接近程度内产生两个脱靶缺口以产生DSB。使用双切口酶CRISPR系统产生DSB的技术描述于Ran等，Double Nicking by RNA-Guided CRISPR Cas9for Enhanced Genome EditingSpecificity，154Cell 6：1380(2013)。

在某些实施方式中，本公开中描述的任何酶可以是天然存在的蛋白质的“功能衍生物”。天然序列多肽的“功能衍生物”是具有与天然序列多肽共同的定性生物学特性的化合物。“功能衍生物”包括但不限于天然序列的片段和天然序列多肽及其片段的衍生物，条件是它们具有与相应的天然序列多肽共同的生物学活性。本文考虑的生物活性是功能衍生物将DNA底物水解成片段的能力。术语“衍生物”包括多肽的氨基酸序列变体，共价修饰，及其融合物。合适的酶或其片段的衍生物包括但不限于蛋白质或其片段的突变体，融合物，共价修饰物。酶或其片段以及其衍生物或片段可以从细胞中获得或化学地合成或通过这两种程序的组合获得。细胞可以是天然产生酶的细胞。天然产生酶的细胞也可以被遗传工程化以产生更高表达水平的内源酶或从外源引入的多核苷酸产生酶，该多核苷酸编码与内源酶相同或不同的酶。在一些情况下，细胞不天然地产生酶，并且被基因工程化以产生酶。工程化可包括添加在启动子的控制下的编码酶的多核苷酸。启动子可以是响应于信号而被激活的诱导型启动子。启动子也可以被不同的信号或分子阻断。

示意性实施方式

以下条款描述了用于实施本公开中描述的特征的多个可能的实施方式。本文描述的各种实施方式不是限制性的，也不是来自任何给定实施方式的每个特征都需要存在于另一个实施方式中。除非上下文另有明确说明，否则可以将任何两个或更多个实施方式组合在一起。如本文所用，“或”表示和/或。例如，“A或B”是指没有B的A，没有A的B，或A和B。如本文所用，“包含”表示包括所有列出的特征并且可能包括添加未列出的其他特征。“基本上由……组成”是指包括列出的特征的和不实质地影响列出的特征的基本和新颖特性那些另外的特征。“由……组成”仅是指列出的特征，排除任何未列出的特征。

条款A.一种方法，其包括：产生第一同源定向修复(HDR)模板，其至少包含第一剪接区域和条形码区域，所述第一剪接区域包含被酶识别以在所述第一剪接区域中产生切口的第一核苷酸序列，并且所述条形码区域包含对应于基因的核苷酸序列；使用HDR将所述第一HDR模板插入所述基因的靶位点中；使用所述酶剪接至少所述第一剪接区域中的所述第一HDR模板以产生第二HDR模板，所述第二HDR模板包含包括所述第一剪接区域的一部分以及所述条形码区域的核苷酸序列；使用HDR将所述第二HDR模板插入双链多核苷酸中；对该另外的双链多核苷酸进行测序以产生测序数据；和至少部分地基于识别所述测序数据中的所述条形码区域的核苷酸序列，确定所述基因已被表达。

条款B.条款A所述的方法，其中：所述第一HDR模板包含第二剪接区域；所述第一剪接区域与所述基因的靶位点的第一部分同源；和所述第二剪接区域与所述基因的所述靶位点的第二部分同源。

条款C.条款A或B所述的方法，其中将所述第一HDR模板插入所述基因的3’非翻译区中。

条款D.条款A-C中任一项所述的方法，其中所述双链多核苷酸是基因组DNA，人工DNA，环状DNA或线性DNA中的至少一种。

条款E.条款A-D中任一项所述的方法，其中所述酶是剪接体，并且所述方法还包括设计所述第一HDR模板，使得所述第一剪接区域包含由所述剪接体识别的核苷酸序列，并且所述第二HDR模板保持可用以用所述双链多核苷酸执行规定时间段的HDR。

条款F.条款A-E中任一项所述的方法，其还包括：在将所述第一HDR模板插入所述靶位点中之前，使用HDR将第三HDR模板插入所述基因中，其中所述第三HDR模板包含所述靶位点。

条款G.条款A-F中任一项所述的方法，其还包括：产生指示多个条形码序列的数据，其中所述基因是多个基因之一；和将所述多个基因的个体基因与所述多个条形码序列的各自条形码序列相关联，使得所述多个条形码序列的每个条形码序列对应于特定基因。

条款H.条款A-G中任一项所述的方法，其还包括由于所述基因的表达而产生基因产物，其中：所述基因产物包含单链多核苷酸序列，其包括对应于所述第一剪接区域的第一部分和对应于所述条形码区域的第二部分。

条款I.一种系统，其包括：包含具有靶位点的双链多核苷酸的基因；酶，其配置成在所述靶位点的切割位点处在所述基因的所述双链多核苷酸中产生双链断裂；和HDR模板，其至少包含第一剪接区域和对应于所述基因的条形码序列；其中在所述酶在所述切割位点处产生断裂之后，在所述切割位点处用同源定向修复(HDR)将所述HDR模板插入所述靶位点中。

条款J.条款I所述的系统，其中所述系统包括单个真核细胞或单个原核细胞。

条款K.条款I或J所述的系统，其还包括另外的双链多核苷酸，其包含另外的靶位点。

条款L.条款K所述的系统，其中：使用至少一种剪接体从所述基因的所述双链多核苷酸中除去所述第一HDR模板的至少部分以产生第二HDR模板，其至少包含所述条形码序列以及所述第一剪接区域的一部分。

条款M.条款I-L中任一项所述的系统，其中所述基因的表达产生包含单链多核苷酸的RNA前体，所述单链多核苷酸包含：对应于所述第一剪接区域的第一序列；对应于所述条形码序列的第二序列；3’非翻译区(UTR)和5’UTR；和包含内含子和外显子的编码区。

条款N.条款M所述的系统，其中所述RNA前体中包含的所述内含子包括所述HDR模板。

条款O.条款M所述的系统，其中所述3’UTR包含所述第一序列和所述第二序列。

条款P.一种系统，其包括：基因；包含靶位点的双链多核苷酸；同源定向修复(HDR)模板，其包含具有对应于所述基因的核苷酸序列的条形码区域；和酶，其配置成在所述靶位点处在所述双链多核苷酸中产生双链断裂；其中所述HDR模板通过HDR插入所述双链多核苷酸中以产生修饰的双链多核苷酸。

条款Q.条款P所述的系统，其中：所述修饰的双链多核苷酸包含另外的靶位点；所述系统还包括另外的HDR模板；和所述另外的HDR模板通过HDR插入所述另外的靶位点中。

条款R.条款Q所述的系统，其中：所述系统还包括编码所述HDR模板的第一基因和编码所述另外的HDR模板的第二基因；所述第一基因的表达导致所述HDR模板可用于插入所述靶位点中；和所述第二基因的表达导致所述另外的HDR模板可用于插入所述另外的靶位点中。

条款S.条款R所述的系统，其中：所述第二基因响应于在特定时间发生的信号而表达；并且对所述修饰的双链多核苷酸的序列的分析至少部分地基于所述另外的HDR模板在所述修饰的双链多核苷酸的序列中的存在而指示所述第一基因表达一段时间。

条款T.条款P-S中任一项所述的系统，其还包括：另外的基因，其包含另外的HDR模板，其具有包含所述条形码区域和至少一个剪接区域的核苷酸序列的序列；和另外的酶，其去除所述另外的HDR模板的至少部分以产生所述HDR模板并使所述HDR模板可用于插入所述双链多核苷酸中。

条款U.一种方法，其包括：产生第一同源定向修复(HDR)模板，其包含与RNA链的第一部分互补的区域，其中所述RNA链由基因的表达产生；产生第二HDR模板，其包含与所述RNA链的第二部分互补的区域；将所述第一HDR模板退火至所述RNA链的所述第一部分，并且将所述第二HDR模板退火至所述RND链的所述第二部分，以产生修饰的RNA链；连接所述第一HDR模板的5’端和所述第二HDR模板的3’端以产生第三HDR模板；使用HDR将所述第三HDR模板插入多核苷酸的靶位点中以产生修饰的多核苷酸；并且至少部分地基于所述修饰的多核苷酸的测序数据，确定所述基因已被表达。

条款V.条款U所述的方法，其中所述RNA链是在所述基因的表达期间产生的信使RNA(mRNA)。

条款W.条款U或V所述的方法，其中当所述第三HDR模板的部分插入所述靶位点中时，所述第三HDR模板退火至所述RNA链。

条款X.条款U或V所述的方法，其中当所述第三HDR模板的部分插入所述靶位点中时，所述第三HDR模板与所述RNA链分离。

条款Y.一种系统，其包括：基因；第一同源定向修复(HDR)模板，其包含条形码序列的第一部分；和第二HDR模板，其包含条形码序列的第二部分；其中所述基因在所述基因的表达期间产生RNA链，并且所述第一HDR模板的第一区域退火至所述RNA链的互补第一区域，并且所述第二HDR模板的第二区域退火至所述RNA链的互补第二区域。

条款Z.条款Y所述的系统，其中所述第一HDR模板、所述第二HDR模板和所述RNA链的杂交产物形成第三HDR模板的模板。

条款AA.条款Y或Z所述的系统，其中所述RNA链的所述第一区域邻近所述RNA链的所述第二区域。

条款BB.条款Y-AA中任一项所述的系统，其中所述第一HDR模板的5’端连接到所述第二HDR模板的3’端。

条款CC.条款Y-BB中任一项所述的系统，其还包括多核苷酸，其包含靶区域。

条款DD.条款CC所述的系统，其中所述第一HDR模板包含与所述第一区域分离的第一序列，其与所述靶区域的第一部分互补，并且所述第二HDR模板包含与所述第二区域分离的第二序列，其与所述靶区域的第二区域互补。

条款EE.条款DD所述的系统，其还包括在所述多核苷酸的所述靶区域的切割位点处产生双链断裂(DSB)的酶；并且其中所述条形码序列在所述切割位点处使用HDR插入所述多核苷酸中以产生修饰的多核苷酸。

结论

在描述本发明的上下文中使用的术语“一个/一种(a/an)”和“该/所述(the)”和类似的指代(特别是在以下权利要求的上下文中)应被解释为涵盖单数和复数两者，除非本文另有说明或明显与上下文相矛盾。术语“基于”应解释为涵盖排他性和非排他性关系两者。例如，“A基于B”意味着A至少部分地基于B并且可以完全基于B。“约”是指数量，水平，值，数字，频率，百分比，大小，尺寸，量，重量或长度与参考数量，水平，值，数字，频率，百分比，大小，尺寸，量，重量或长度相比变化最多10％，9％，8％，7％，6％，5％，4％，3％，2％或1％。

本文所述的所有方法可以以任何合适的顺序进行，除非本文另有说明或明显与上下文相矛盾。本文提供的所有实施例和示例性语言(例如，“例如”)的使用仅旨在更好地示意说明本发明，而不是对另外地要求保护的本发明的范围加以限制。说明书中的语言不应被解释为表示任何未要求保护的要素对于本发明的实践是必不可少的。

本文公开的发明的替代性要素或实施方式的分组不应被解释为限制。每个组成员可以单独地或与该组中的其他成员或见于本文中的其他要素任意组合地提及和要求保护。出于方便和/或可专利性的原因，预期组中的一个或多个成员可以被包括在组中或从组中删除。当任何这样的包括或删除发生时，说明书被认为含有经修改的组，因此满足随附权利要求中使用的所有马库什组的书面描述。

本文描述了某些实施方式，包括发明人已知用于实施本发明的最佳模式。当然，在阅读前面的描述后，对这些描述的实施方式的变化对于本领域普通技术人员将变得显而易见。技术人员将知道如何适当地采用这样的变化，并且本文公开的实施方式可以以不同于具体描述的方式另外地实践。因此，本文所附权利要求中记载的主题内容的所有修改和等同方式被包括在本公开的范围内。而且，本发明涵盖上述元件以其所有可能变化方式的任何组合，除非本文另有说明或明显与上下文相矛盾。

尽管已经用特定于结构特征和/或方法学动作的语言描述主题内容，但应理解，随附权利要求书中限定的主题内容不必限于上述具体特征或动作。而是具体特征和动作是作为实施权利要求的实例形式而公开。

此外，在整个说明书中已经提到出版物、专利和/或专利申请(统称为“参考文献”)。引用的参考文献的特定的引用的教导及其公开的所有单独通过引用并入本文。

Claims

1.一种方法，其包括：

产生第一同源定向修复(HDR)模板，其至少包含第一剪接区域和条形码区域，所述第一剪接区域包含被酶识别以在所述第一剪接区域中产生切口的第一核苷酸序列，并且所述条形码区域包含对应于基因的核苷酸序列；

使用HDR将所述第一HDR模板插入所述基因的靶位点中；

使用所述酶剪接至少所述第一剪接区域中的所述第一HDR模板以产生第二HDR模板，所述第二HDR模板包含包括所述第一剪接区域的一部分以及所述条形码区域的核苷酸序列；

使用HDR将所述第二HDR模板插入双链多核苷酸中；

对该另外的双链多核苷酸进行测序以产生测序数据；和

至少部分地基于识别所述测序数据中的所述条形码区域的核苷酸序列，确定所述基因已被表达。

2.权利要求1所述的方法，其中：

所述第一HDR模板包含第二剪接区域；

所述第一剪接区域与所述基因的靶位点的第一部分同源；和

所述第二剪接区域与所述基因的所述靶位点的第二部分同源。

3.权利要求1所述的方法，其中将所述第一HDR模板插入所述基因的3’非翻译区。

4.权利要求1所述的方法，其中所述酶是剪接体，并且所述方法还包括设计所述第一HDR模板，使得所述第一剪接区域包含由所述剪接体识别的核苷酸序列，并且所述第二HDR模板保持可用以用所述双链多核苷酸执行规定时间段的HDR。

5.权利要求1所述的方法，其还包括由于所述基因的表达而产生基因产物，其中：

所述基因产物包含单链多核苷酸序列，其包括对应于所述第一剪接区域的第一部分和对应于所述条形码区域的第二部分。

6.权利要求1-5中任一项所述的方法，其还包括：

产生指示多个条形码序列的数据，其中所述基因是多个基因之一；和

将所述多个基因的个体基因与所述多个条形码序列的各自条形码序列相关联，使得所述多个条形码序列的每个条形码序列对应于特定基因。

7.一种系统，其包括：

包含具有靶位点的双链多核苷酸的基因；

酶，其配置成在所述靶位点的切割位点处在所述基因的所述双链多核苷酸中产生双链断裂；和

同源定向修复(HDR)模板，其至少包含第一剪接区域和对应于所述基因的条形码序列；

其中在所述酶在所述切割位点处产生断裂之后，在所述切割位点处用HDR将所述HDR模板插入所述靶位点中。

8.权利要求7所述的系统，其还包括另外的双链多核苷酸，其包含另外的靶位点，其中使用至少一种剪接体从所述基因的所述双链多核苷酸中除去所述第一HDR模板的至少部分以产生第二HDR模板，其至少包含所述条形码序列以及所述第一剪接区域的一部分。

9.权利要求7或8所述的系统，其中所述基因的表达产生包含单链多核苷酸的RNA前体，所述单链多核苷酸包含：

对应于所述第一剪接区域的第一序列；

对应于所述条形码序列的第二序列；

3’非翻译区(UTR)和5’UTR；和

包含内含子和外显子的编码区。

10.权利要求9所述的系统，其中所述RNA前体中包含的所述内含子包括所述HDR模板。

11.权利要求9所述的系统，其中所述3’UTR包含所述第一序列和所述第二序列。

12.一种系统，其包括：

基因；

包含靶位点的双链多核苷酸；

同源定向修复(HDR)模板，其包含具有对应于所述基因的核苷酸序列的条形码区域；和

酶，其配置成在所述靶位点处在所述双链多核苷酸中产生双链断裂；

其中所述HDR模板通过HDR插入所述双链多核苷酸中以产生修饰的双链多核苷酸。

13.权利要求12所述的系统，其中：

所述修饰的双链多核苷酸包含另外的靶位点；

所述系统还包括另外的HDR模板；和

所述另外的HDR模板通过HDR插入所述另外的靶位点中。

14.权利要求13所述的系统，其中：

所述系统还包括编码所述HDR模板的第一基因和编码所述另外的HDR模板的第二基因；

所述第一基因的表达导致所述HDR模板可用于插入所述靶位点中；和

所述第二基因的表达导致所述另外的HDR模板可用于插入所述另外的靶位点中。

15.权利要求13或14所述的系统，其还包括：

另外的基因，其包含另外的HDR模板，其具有包含所述条形码区域和至少一个剪接区域的核苷酸序列的序列；和

另外的酶，其去除所述另外的HDR模板的至少部分以产生所述HDR模板并使所述HDR模板可用于插入所述双链多核苷酸中。