CN109477130B

CN109477130B - 通过迭代dna编辑的存储

Info

Publication number: CN109477130B
Application number: CN201780041255.4A
Authority: CN
Inventors: K·K·甘贾姆
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-07-01
Filing date: 2017-06-15
Publication date: 2022-08-30
Anticipated expiration: 2037-06-15
Also published as: WO2018005117A1; US20200332317A1; ES2817973T3; US20180002725A1; EP3478852A1; CN109477130A; US10669558B2; EP3478852B1

Abstract

通过在dsDNA中产生断裂并用同源修复模板修复断裂来增加新的DNA的迭代过程将信息存储在现有DNA中。添加到dsDNA中的断裂中的DNA序列的顺序和序列可编码二进制数据。通过使用情境依赖性编码方案，三个独特的同源修复模板可编码无限的数位。当现有DNA在细胞中时，变化可遗传地传递给后续细胞世代。同源修复模板的合成可以是在启动子和操纵基因的控制下。细胞内或细胞外信号可以调节同源修复模板的合成。

Description

通过迭代DNA编辑的存储

相关申请

本申请要求2016年7月1日提交的标题为“Storage Through Iterative DNAEditing”的美国专利申请序列号62/357,828和2016年9月23日提交的标题为“StorageThrough Iterative DNA Editing”的美国专利申请序列号62/399,190的优先权，其两者通过引用并入本文。

背景技术

在现有脱氧核糖核酸(DNA)(例如细胞中的DNA)内存储和检索任意信息的能力是合成生物学的重要目标，其具有为二进制数据产生低成本、高密度的存储介质的潜力。迄今为止，细胞内的现有存储方法仅能够记录至多数个字节的信息，但是每个比特需要专门的、正交的基因构造，因而极大地限制了最大存储容量。

发明内容

本发明内容是为了以简化形式介绍一些选择的概念而提供，这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在确定要求保护的主题内容的关键特征或必要特征，也不旨在用于限制要求保护的主题内容的范围。

精确的基因编辑技术，例如CRISPR/Cas(规律间隔成簇短回文重复序列/CRISPR相关蛋白)系统和TALEN(转录激活因子样效应核酸酶)使得能够以可用于存储任意信息或细胞的状态信息的方式操纵DNA。本文描述的方法能够通过使用基因编辑技术递增编辑细胞DNA而在活细胞内动态记录无限量的二进制数据。信息可以从任何细胞内或细胞外信号转导，并以允许信息传递给后续细胞世代的方式永久记录在DNA中。该方法也可用于无细胞或合成细胞系统。

可以切割细胞中或其他环境(例如无细胞系统)中的DNA以产生双链断裂(“DSB”)。可以使用同源定向修复(HDR)将新的DNA插入断裂中。原始DNA中的靶位点的周到设计以及同源修复模板的设计使得可以重复切割DNA并在切割内增加新的DNA，从而以编码二进制数据或其他信息的方式在现有DNA链中添加DNA。

添加的顺序可编码0和1，允许以在细胞分裂期间可遗传地传递给新细胞的方式存储任意二进制数据。信号传导途径可用于控制特定同源修复模板的插入和/或特定酶的可用性，以指导细胞记录0或1。

附图说明

具体实施方式参照附图进行阐述。在附图中，附图标记的最左边的数字标识其中首次出现该附图标记的图。在不同图中使用相同的附图标记表示相似或相同的项目。

图1显示用酶切割dsDNA并通过同源定向修复插入新的DNA的示意图。

图2显示切割图1的dsDNA，并通过同源定向修复插入另外的DNA的示意图。

图3显示用于切割dsDNA，通过同源定向修复插入DNA，和测序DNA以识别编码的二进制数据的示意性过程。

图4显示根据两种不同编码方案将DNA插入dsDNA中的两个位置的示意性过程。

图5显示用于将新的DNA插入现有DNA中的示意性细胞组件。

图6显示用于实施本公开的特征的示意性系统。

具体实施方式

存在许多用于在核酸序列中编码二进制数据的技术。这些技术中的大多数基于合成新核酸并努力进行紧凑编码，其中仅需要少量核酸碱基来编码1或0。然而，本公开中描述的技术在现有DNA的中间中增加新的DNA序列以编码二进制数据。由于涉及在现有DNA上用酶进行操纵的工作，结合位点的存在等等的限制，该编码不像其可以在使用新合成的DNA的系统中那样紧凑。

本公开的技术通过重复切割并将新序列插入现有DNA中来将数据存储在DNA中。每个插入物在该插入物内提供用于下一轮DNA切割和后续插入的靶位点。重复这个过程产生带有一系列嵌套插入物的DNA分子。嵌套插入物的顺序可以解释为编码一系列1和0。

“可杂交的”或“互补的”或“基本上互补的”是指核酸(例如DNA)包含能够使其在适当的温度和溶液离子强度的体外和/或体内条件下以序列特异性的、反平行的方式(即，核酸特异性结合互补核酸)非共价结合另一个核酸的核苷酸序列。如本领域所知，标准Watson-Crick碱基配对包括：腺嘌呤(A)与胸苷(T)配对，腺嘌呤(A)与尿嘧啶(U)配对，鸟嘌呤(G)与胞嘧啶配对(C)。此外，本领域还已知，对于两个RNA分子(例如，dsRNA)之间的杂交，鸟嘌呤(G)与尿嘧啶(U)碱基配对。在本公开的上下文中，鸟嘌呤(G)被认为与尿嘧啶(U)互补，反之亦然。因此，当可以在本发明DNA靶向RNA分子的蛋白质结合区段(dsRNA双链体)的给定核苷酸位置处制造G/U碱基对时，该位置不被认为是非互补的，反而被认为是互补的。

杂交和洗涤条件是众所周知的并且在Sambrook，J.，Fritsch，E.F.和Maniatis，T.Molecular Cloning：A Laboratory Manual，Second Edition，Cold Spring HarborLaboratory Press，Cold Spring Harbor(1989)，特别是其中第11章和表11.1；和Sambrook，J.和Russell，W.，Molecular Cloning：A Laboratory Manual，Third Edition，Cold Spring Harbor Laboratory Press，Cold Spring Harbor(2001)中举例说明。温度和离子强度的条件决定了杂交的“严格性”。

杂交需要两个核酸含有互补序列，尽管碱基之间的错配是可能的。适合于两个核酸之间的杂交的条件取决于核酸的长度和互补程度，其是本领域熟知的变量。两个核苷酸序列之间的互补程度越大，具有那些序列的核酸的杂交体的解链温度(T_m)的值越大。对于具有短互补段(例如在35或更少，30或更少，25或更少，22或更少，20或更少，或18或更少个核苷酸上的互补)的核酸之间的杂交，错配的位置变得重要(参见Sambrook等，同上，11.7-11.8)。通常，可杂交核酸的长度为至少约10个核苷酸。可杂交核酸的示意性最小长度是：至少约15个核苷酸；至少约20个核苷酸；至少约22个核苷酸；至少约25个核苷酸；至少约30个核苷酸。此外，技术人员将认识到，可以根据例如互补区长度和互补程度等因素必要时调节温度，pH和洗涤溶液盐浓度。

在本领域中应理解，多核苷酸的序列不需要是与其靶核酸的序列100％互补以是可特异性杂交或可杂交。此外，多核苷酸可以在一个或多个区段上杂交，使得插入或邻近区段不参与杂交事件(例如，环结构或发夹结构)。多核苷酸可包含与它们靶向的靶核酸序列内的靶区域至少70％，至少80％，至少90％，至少95％，至少99％或100％的序列互补性。例如，其中反义化合物的20个核苷酸中的18个与靶区域互补并因此特异性杂交的反义核酸将代表90％的互补性。在该实例中，其余的非互补核苷酸可以成簇或与互补核苷酸散布，并且不需要彼此或与互补核苷酸连续。核酸内的特定段的核酸序列之间的互补百分比可以使用本领域已知的BLAST程序(基础局部比对搜索工具)和PowerBLAST程序(Altschul等，J.Mol.Biol.，1990，215：403-410；Zhang和Madden，Genome Res.，1997，7，649-656)或通过使用默认设置，使用Gap程序(Wisconsin Sequence Analysis Package，Version 8forUnix，Genetics Computer Group，University Research Park，Madison Wis.)常规测定，其使用Smith和Waterman的算法(Adv.Appl.Math.，1981，2，482-489)。

图1显示将新的DNA序列添加到双链DNA(dsDNA)100中的操作的示意性示意图。dsDNA 100包含靶位点102，其指导酶104在靶位点102内在dsDNA 100中产生DSB。根据制造DSB的具体酶和技术，可以产生具有钝端或具有粘端的DSB。靶位点102是由在dsDNA中产生DSB的酶识别的DNA序列。可以有意地将靶位点102引入dsDNA 100中以使得能够进行下述操纵。或者，可以选择dsDNA 100的预先存在的部分作为靶位点102。如果选择dsDNA 100的预先存在的部分作为靶位点102，则将参考靶位点102的序列设计系统的其他组件的序列。在一些实施方式中，靶位点102是独特的，使得在整个dsDNA链中仅存在一个靶位点102。dsDNA100可以是活的原核或真核细胞内的基因组DNA，引入活细胞的DNA(例如质粒或载体)，或无细胞系统中的DNA。在引入DSB之前，dsDNA 100可以以线性或环状DNA的形式存在。

产生DSB的酶104可以是任何蛋白质，蛋白质-RNA复合物或蛋白质-DNA复合物(包括多聚体复合物)，其具有在特定位点处在dsDNA中产生DSB的性质。合适的酶的非限制性实例包括限制酶，归巢内切核酸酶，锌指核酸酶(ZFN)，转录激活因子样效应核酸酶(TALEN)和CRISPR/Cas。上文列出的这些类型的酶都是能够在靶位点内造成DSB的位点特异性核酸酶的实例。

限制酶(限制性内切核酸酶)存在于许多物种中，并且能够与DNA(在靶或识别位点处)序列特异性结合，并在结合位点处或附近裂解DNA。已经详细研究了超过3000种限制酶，其中超过600种可商购。天然存在的限制性内切核酸酶根据其组成和酶辅因子要求，其靶序列的性质，及其DNA切割位点相对于靶序列的位置而分为四类(I型，II型，III型和IV型)。所有类型的酶识别特定的短DNA序列并进行DNA的核酸内切裂解以产生具有末端5’-磷酸的特定片段。一种类型的限制酶，II型酶，在识别位点内或在短的特定距离处裂解；大多数需要镁；单一功能(限制)酶独立于甲基化酶。II型酶形成同源二聚体，识别位点通常是未分开的和回文的，长度为4-8个核苷酸。它们在相同位点识别并裂解DNA，并且它们不为其活性而使用ATP或AdoMet——它们通常只需要Mg²⁺作为辅助因子。常见的II型限制酶包括HhaI，HindIII，NotI，EcoRI和BgII。限制酶可以以留下钝端或粘端的方式切割dsDNA。用限制酶在dsDNA中产生DSB的方案是本领域技术人员熟知的。限制性消化是常见的分子生物学技术，并且通常使用可商购限制性消化试剂盒中提供的试剂和方案进行。提供限制性消化试剂盒的公司的实例包括New England BioLabs，Promega，Sigma-Aldrich和Thermo FisherScientific。这些公司各自在其网站上提供限制性消化方案。

归巢内切核酸酶(HE)，其也称为大范围核酸酶(meganuclease)，是具有大的不对称识别位点(12-40个碱基对)和通常嵌在内含子或内含肽中的编码序列的双链DNA酶的集合。内含子被从前体RNA中剪接出来，而内含肽被从前体蛋白中剪接出来。它们催化合成它们的细胞内的基因组DNA的水解，但在非常少的，甚至单个的位置处这样做。HE识别位点是极为罕见的。例如，18个碱基对的识别序列将在具有随机序列的每7×10¹⁰个碱基对中仅出现一次。这相当于20个哺乳动物大小的基因组中的仅一个位点。然而，与限制性内切核酸酶不同，HE在其识别序列内耐受一些序列简并性。因此，单碱基变化不消除裂解，但将其效率降低到不同程度。结果，它们的观察到的序列特异性通常在10-12个碱基对的范围内。使用HE的合适方案的实例可见于Karen Flick等，DNA Binding in Cleavage by the NuclearIntrons-Encoded Homing Endonuclease 1-Ppol，394Nature 96-101(1998)和BrettChevalier等，Design,Activity,and Structure of a Highly Specific ArtificialEndonuclease，10Molecular Cell 895-905(2002)。

锌指核酸酶(ZFN)是由与FokI限制性内切核酸酶的裂解结构域融合的工程化锌指DNA结合结构域组成的合成蛋白质。ZFN可用于在特定DNA序列中诱导DSB，从而促进多种不同细胞类型中的基因组位点特异性同源重组和基因座的靶向操纵。将DSB引入dsDNA可以增强与外源引入的同源修复模板重组的效率。ZFN由与细菌FokI限制性内切核酸酶的非特异性DNA裂解结构域共价连接的DNA结合锌指结构域(由三至六个指状物组成)组成。ZFN可以作为二聚体结合其靶DNA位点，每个单体使用其锌指结构域识别半位点。ZFN的二聚化由FokI裂解结构域介导，其在分隔两个倒置的“半位点”的五或六个碱基对的“间隔子”序列内裂解。因为锌指结构域的DNA结合特异性原则上可以使用各种方法之一进行再工程化，所以可以构建定制的ZFN以靶向几乎任何DNA序列。本领域普通技术人员将知道如何设计和使用ZFN以在期望的靶位点处在dsDNA中产生DSB。一些合适的方案可获自Philipsborn,A.等，Nature Protocols，2006，1，1322-1328；John Young和Richard Harland,Targeted GeneDisruption with Engineered Zinc Finger Nucleases(ZFNs),917Xenopus Protocols129-141(2012)，和Hansen,K.等，Genome Editing with CompoZr Custom Zinc FingerNucleases(ZFNs),J.Vis.Exp.2012，64，e3304，doi:10.3791/3304。

TALEN是可以被工程化以切割特定DNA序列的限制酶。它们通过将TAL效应子DNA结合结构域与DNA裂解结构域(即切割DNA链的核酸酶)融合而制成。可以工程化转录激活因子样效应子(TALE)以在实践中结合任何期望的DNA序列，因此当与核酸酶组合时，可以在特定位置切割DNA。可以将限制酶引入细胞中，用于基因编辑或原位基因组编辑。DNA结合结构域含有重复的高度保守的33-34氨基酸序列，具有不同的第12位和第13位氨基酸。这两个位置，称为重复可变二基(RVD)，是高度可变的，并且显示与特异性核苷酸识别强烈的相关性。氨基酸序列和DNA识别之间的这种直接关系允许通过选择含有适当RVD的重复区段的组合来工程化特异性DNA结合结构域。值得注意的是，RVD的轻微变化和“非常规”RVD序列的引入可以改善靶向特异性。本领域普通技术人员将知道如何设计和使用TALEN以在期望的靶位点处在dsDNA中产生DSB。一些合适的方案可获自Mario Hermann等,Mouse GenomeEngineering Using Designer Nucleases,86J.Vis.Exp.e50930，doi:10.3791/50930(2014)和Tetsuhi Sakuma等,Efficient TALEN Construction and Evaluation Methodsfor Human Cell and Animal Applications,18(4)Genes Cells 315-326(2013)。

在CRISPR/Cas核酸酶系统中，CRISPR基因座编码系统的RNA组件，并且Cas(CRISPR相关的)基因座编码蛋白质。微生物宿主中的CRISPR基因座含有CRISPR相关(Cas)基因以及能够编程CRISPR介导的核酸裂解的特异性的非编码RNA元件的组合。

II型CRISPR是最充分表征的系统之一，并且在四个连续步骤中进行靶向DNA DSB。首先，从CRISPR基因座转录两个非编码RNA：pre-crRNA阵列和tracrRNA。其次，tracrRNA与pre-crRNA的重复区域杂交并介导将pre-crRNA加工成含有个体间隔子序列的成熟crRNA。第三，成熟crRNA:tracrRNA复合物通过crRNA上的间隔子与靶DNA上原型间隔子邻近基序(PAM)(靶识别的另一个要求)旁边的的原型间隔子之间的Watson-Crick碱基配对，将Cas9指导至靶DNA。不同生物体的Cas9种类具有不同的PAM序列。例如，化脓性链球菌(Sp)具有5’-NGG-3’的PAM序列，金黄色葡萄球菌(Sa)具有5’-NGRRT-3’或5’-NGRRN-3’的PAM序列，脑膜炎奈瑟氏球菌(NM)具有5’-NNNNGATT-3’的PAM序列，嗜热链球菌(St)具有5’-NNAGAAW-3’的PAM序列，齿垢密螺旋体(Td)具有5’-NAAAAC-3’的PAM序列。

最后，Cas9介导靶DNA的切割以在原型间隔子内产生双链断裂。CRISPR/Cas系统的活动包括三个步骤：(i)在称为“适应”的过程中，将外来DNA序列插入到CRISPR阵列中以防止未来的攻击，(ii)相关蛋白质的表达，以及阵列的表达和加工，然后是(iii)RNA介导的对外来多核苷酸的干扰。因此，在细菌细胞中，多种所谓的“Cas”蛋白涉及CRISPR/Cas系统的天然功能，并在例如插入外来DNA的功能中起作用。

CRISPR还可以与除Cas9之外的核酸酶一起起作用。来自Cpf1家族的两个基因含有RuvC样内切核酸酶结构域，但它们缺少Cas9的第二个HNH内切核酸酶结构域。Cpfl以交错模式裂解DNA并且仅需要一种RNA而不是Cas9进行切割所需的两种(tracrRNA和crRNA)。Cpfl的优选PAM是5’-TTN，在基因组位置和GC含量两者方面不同于Cas9(3’-NGG)。用于Cpf1介导的裂解的成熟crRNA的长度为42-44个核苷酸，与Cas9的成熟crRNA的大小大致相同，但是具有在间隔子之前的直接重复序列，而不是在间隔子之后。Cpfl crRNA的结构也比Cas9的crRNA简单得多；只有直接重复序列区域中的短茎环结构是靶的裂解所必需的。Cpfl也不需要另外的tracrRNA。Cas9在PAM位点上游3nt处产生钝端，而Cpfl以交错方式裂解，产生离PAM 18-23个碱基的5个核苷酸的5’突出端。

还存在不使用PAM序列的CRISPR/Cas9变体，例如NgAgo。NgAgo与24个核苷酸的ssDNA指导一起起作用，并且据信从该序列的开始切割8-11个核苷酸。ssDNA在蛋白质折叠时被加载，并且除非将温度增加至非生理学的55℃，否则不能将其换成不同的指导。靶DNA中的一些核苷酸在切割位点附近被除去。使用NgAgo的技术描述于Feng Gao等，DNA-guidedGenome Editing Using the Natronobacterium Gregoryi Argonaute，34NatureBiotechnology 768-770(2016)。

可以通过在不同位置产生两个单链断裂来形成DSB，产生具有粘端的切割的DNA分子。单链断裂或“缺口”可以通过仅含有一个活性催化结构域的修饰形式的Cas9酶(称为“Cas9切口酶”)形成。Cas9切口酶仍然基于gRNA特异性结合DNA，但是切口酶仅能够切割DNA链中的一条。需要靶向相反链的两个切口酶以在靶DNA内产生DSB(通常称为“双切口”或“双切口酶”CRISPR系统)。该要求极大地提高靶特异性，因为不太可以在足够近以产生DSB的接近程度内产生两个脱靶缺口。

在某些实施方式中，上文提到的任何酶可以是天然存在的蛋白质的“功能衍生物”。天然序列多肽的“功能衍生物”是具有与天然序列多肽共同的定性生物学特性的化合物。“功能衍生物”包括但不限于天然序列的片段和天然序列多肽及其片段的衍生物，条件是它们具有与相应的天然序列多肽共同的生物活性。本文考虑的生物活性是功能衍生物将DNA底物水解成片段的能力。术语“衍生物”包括多肽的氨基酸序列变体，共价修饰，及其融合物。合适的酶或其片段的衍生物包括但不限于蛋白质或其片段的突变体，融合物，共价修饰物。酶或其片段以及其衍生物或片段可以从细胞中获得或化学地合成或通过这两种程序的组合获得。细胞可以是天然产生酶的细胞。天然产生酶的细胞也可以被遗传工程化以产生更高表达水平的内源酶或从外源引入的核酸产生酶，该核酸编码与内源酶相同或不同的酶。在一些情况下，细胞不天然地产生酶，并且被基因工程化以产生酶。

在靶部位102中产生DSB之后，靶位点102被分成在DSB的每一侧上的两个子序列102(A)和102(B)。两个子序列102(A)和102(B)各自的长度可以在5到20个核苷酸之间。因此，靶位点102的长度可以在10到40个核苷酸之间。在一些实施方式中，两个子序列102(A)和102(B)可含有相同的DNA序列。DSB可以位于靶位点102的中间，或者它可以位于靶位点102内的其他位置。图1所示的示意图示意具有钝端的DSB，但如上所述，具有粘端的DSB也包括在本公开的范围内。

使同源修复模板106接近具有DSB的dsDNA 100。同源修复模板106是单链(ss)DNA或ssRNA。同源修复模板106包含与靶位点102(A)的第一子序列互补的3’端序列108和与靶位点102(B)的第二子序列互补的5’端序列110。因为它们是互补序列，所以3’端序列108和5’端序列110的长度与靶位点102(A)和102(B)各自的子序列相同或大致相同。因此，3’端序列108和5’端序列110两者的长度可以在5至20个核苷酸之间。同源修复模板106的中间部分含有编码第二靶位点116的区域112。该中间区域112可以在第二靶位点116将被第二酶切割的点的每一侧含有两个子序列112(A)和112(B)。同源修复模板106的中间部分112中的两个子序列112(A)和112(B)的长度可以不同于两个子序列102(A)和102(B)的长度，但是可以遵循相同的尺寸范围，并且长度在5至20nt之间。因此，同源修复模板106的总长度可以在约20至80nt之间。因为中间区域112编码第二靶位点116，所以同源修复模板106自身提供了迭代重复该过程的基础。

同源修复模板106通过同源定向修复(HDR)修复DSB。HDR是细胞中修复双链DNA损伤的机制。HDR包括同源重组(HR)和单链退火(SSA)(Lieber.2010 Annu.Rev.Biochem.79：181-211)。最常见的HDR形式是HR，其具有在供体和受体DNA之间最长的序列同源性要求。其他形式的HDR包括单链退火(SSA)和断裂诱导复制，这些需要相对于HR更短的序列同源性。在缺口(单链断裂)处的同源定向修复可以通过与在双链断裂处的HDR不同的机制发生(Davis和Maizels，PNAS(0027-8424)，111(10)，p.E924-E932)。

可以提供过量的同源修复模板106以提高HDR的效率。通过人工或使用微流体装置添加额外拷贝的ssRNA或ssDNA，可以将过量的同源修复模板106提供给无细胞系统。如果需要，还可以通过将编码同源修复模板106的基因置于强启动子的控制下和/或通过使多个拷贝的编码同源修复模板106的基因在同一启动子的控制下来提供过量的同源修复模板108。

在断裂处切除5’端DNA链以产生3’突出端。这既可作为链侵入所需的蛋白质的底物，也可作为用于DNA修复合成的引物。然后，同源修复模板106可以置换同源DNA双链体的一条链并与另一条链配对；这导致形成称为置换环(“D环”)的杂合DNA。然后可以分解重组中间体以完成DNA修复过程。如上所述，可以提供过量的同源修复模板106。本领域普通技术人员将理解如何用具有DSB的dsDNA 100和同源修复模板106进行HDR。用于进行HDR的可能方案在以下中提供：Jie Liu等,In Vitro Assays for DNA Pairing in Recombination-Associated DNA Synthesis,745Methods Mol.Bio.363-383(2011)；Gratz,S.等,196Genetics967-971(2014)；Richardson,C.等,34Nature Biotechnology 399-344(2016)；和Lin,S.等,eLIFE 2014,3:e04766。

在同源修复模板106侵入dsDNA之后，通过3’端序列108与靶位点102的第一子序列102(A)的杂交和5’端序列110与靶位点102的第二子序列102(B)的杂交形成D环。DNA聚合酶合成与dsDNA 100的一条链的中间部分112互补的新ssDNA 114。DNA连接酶将新合成的ssDNA 114的糖-磷酸酯主链与dsDNA 100的该链的其余部分连接。这形成第二靶位点116的一条链。

修复dsDNA 100的第一链后，使用修复的第一链中的新ssDNA 114的序列作为模板，通过DNA聚合酶和DNA连接酶修复dsDNA 100的第二链。这完成了dsDNA 100的修复，产生包含插入在第一靶位点102内的第二靶位点116的dsDNA。

DNA聚合酶是从个体脱氧核糖核苷酸合成DNA分子的酶。在此过程中，DNA聚合酶“读取”现有DNA链以产生新的互补链。DNA连接酶是特定类型的酶，即连接酶，其通过催化磷酸二酯键的形成而促进DNA链连接在一起。它在修复单链断裂方面起作用。DNA连接酶的机制是在一个核苷酸(“受体”)的3’羟基末端与另一个核苷酸(“供体”)的5’磷酸末端之间形成两个共价磷酸二酯键。来自噬菌体T4的DNA连接酶是最常用于实验室研究的连接酶。它可以连接DNA、寡核苷酸以及RNA和RNA-DNA杂合体的粘着或“粘性”末端，但不能连接单链核酸。它也可以连接钝端DNA。

注意，同源修复模板106包含两种类型的区域：末端区域和中间区域。末端区域与DSB两侧的dsDNA 100的一条链同源。这里，同源区域由3’端序列108和5’端序列110显示。同源性不需要是100％，而是仅达到3’端序列108和5’端序列110与dsDNA 100的一条链杂交的程度。中间区域是同源修复模板106的中间部分112，其编码第二靶位点116的序列。独立地改变末端区域和中间区域两者允许从相对有限的末端区域和中间区域集产生多个不同的同源修复模板106。

在HDR之后，dsDNA 100包含第一靶位点102的第一子序列102(A)，接着是第二靶位点116的第一子序列116(A)。由两个靶位点的两个子序列102(A)和116(A)的该顺序表示的DNA序列118代表二进制数字(例如，0或1)。如上所述，子序列102(A)的长度为5至20个核苷酸，子序列112(A)的长度也为5至20个核苷酸。因此，DNA序列118代表的比特由10至40个核苷酸的序列编码。更确切地，该比特由5至20个核苷酸的第一序列邻近5至20个核苷酸的第二序列编码，而不是由5至20个核苷酸各自的具体身份编码。

图2显示对图1的dsDNA 100分子进行的进一步操纵的示意图。第二酶200在第二靶位点116中产生第二DSB。第二靶位点116具有与第一靶位点102不同的序列，因此，第二酶200识别与第一酶104不同的DNA序列。在第二靶位点116中产生DSB产生在DSB的一侧上的第二靶位点116的第一子序列116(A)和在DSB的另一侧上的第二靶位点116的第二子序列116(B)。在一些实施方式中，第一子序列116(A)和第二子序列116(B)可以具有相同的序列。因此，第一子序列116(A)和第二子序列116(B)可以具有相同的核苷酸长度。而且，如果第一子序列116(A)和第二子序列116(B)是相同的序列，则可以认为第二靶位点116具有重复一次的单一子序列。

第二同源修复模板202接触dsDNA 100以提供用于DSB的HDR的模板。第二同源修复模板202包含3’端区域204，其与第二靶位点116的第一子序列116(A)内的dsDNA 100的一条链同源。第二同源修复模板202还包含5’端区域206，其与第二靶位点116的第二子序列116(B)内的dsDNA 100的一条链同源。第二同源修复模板202还包含中间的部分208，其编码用于第三酶的第三靶位点212。中间区域208包含在DSB的一侧上的第一子序列208(A)和在DSB的另一侧上的第二子序列208(B)。

将第二同源修复模板202与dsDNA 100的一条链退火通过3’端序列204与子序列116(A)的杂交和5’端序列206与子序列116(B)的杂交产生D环。DNA聚合酶和DNA连接酶通过产生新的DNA 210修复第二同源修复模板202与之杂交的dsDNA 100的链。然后使用第一链作为模板修复dsDNA 100的第二链。

dsDNA 100现在包含插入第二靶位点116(其自身插入第一靶位点102的中间)的中间的第三靶位点212。子序列116(A)、然后是子序列212(A)的顺序编码第二二进制数字214。该过程可以重复以在dsDNA100内编码任何数量的二进制数字118、214。

本文所描述的编码方案允许插入仅使用三个不同的靶序列和六个不同的同源修复模板表示无限长度的数位的DNA序列，如下文解释的。三个靶序列表示为X₁X₂，Y₁Y₂和Z₁Z₂。靶序列的第一部分(例如，X₁，Y₁或Z₁)对应于图1所示的子序列102(A)或子序列116(A)。靶序列的其余部分(例如，X₂，Y₂或Z₂)对应于图1所示的子序列102(B)或子序列116(B)。因此，每个X，Y和Z代表约5至20个核苷酸的DNA序列，例如，仅举例而言，ACTGAA，GCCTCAT，TGACG等。在一些实施方式中，X₁＝X₂，等等，但在其他实施方式中，靶序列的第一部分可以在序列和/或长度方面与靶序列的其余部分不同。

同源修复模板都具有与靶序列之一同源的末端区域。因此，同源修复模板将具有以下结构的序列：X₁__X₂，Y₁__Y₂和Z₁__Z₂。回想一下，同源修复模板的中间区域自身编码靶位点。因此，任何给定同源修复模板的中间区域将是X₁X₂，Y₁Y₂或Z₁Z₂之一。为了精确控制插入位置，同源修复模板不编码待向其中插入该同源修复模板的靶位点。例如，根据该编码，X₁X₁X₂X₂不是有效的同源修复模板。因此，如果靶序列是“X”，则同源修复模板的中间区域可编码“Y”或“Z”的靶序列；如果靶序列是“Y”，则中间区域可编码“X”或“Z”；如果靶序列是“Z”，则中间区域可编码“X”或“Y”。这导致六种同源修复模板：X₁Y₁Y₂X₂，X₁Z₁Z₂X₂，Y₁X₁X₂Y₂，Y₁Z₁Z₂Y₂，Z₁X₁X₂Z₂和Z₁Y₁Y₂Z₂。

使用三个靶位点和六个同源修复模板的情境依赖性编码示于下表1中。这只是一种可能的编码，使用更多数量的靶位点和同源修复模板的其他编码也是可能的。此外，在同一细胞或系统中使用多个编码也是可能的。

当前状态	修复模板	编码的比特
			X<sub>1</sub>X<sub>2</sub>	X<sub>1</sub>Y<sub>1</sub>Y<sub>2</sub>X<sub>2</sub>	0
X<sub>1</sub>X<sub>2</sub>	X<sub>1</sub>Z<sub>1</sub>Z<sub>2</sub>X<sub>2</sub>	1
			Y<sub>1</sub>Y<sub>2</sub>	Y<sub>1</sub>X<sub>1</sub>X<sub>2</sub>Y<sub>2</sub>	0
Y<sub>1</sub>Y<sub>2</sub>	Y<sub>1</sub>Z<sub>1</sub>Z<sub>2</sub>Y<sub>2</sub>	1
			Z<sub>1</sub>Z<sub>2</sub>	Z<sub>1</sub>X<sub>1</sub>X<sub>2</sub>Z<sub>2</sub>	0
Z<sub>1</sub>Z<sub>2</sub>	Z<sub>1</sub>Y<sub>1</sub>Y<sub>2</sub>Z<sub>2</sub>	1

表1.情境依赖性二进制编码

当前状态代表在产生给定DSB时存在于dsDNA 100中的序列。当前状态可以由计算机跟踪，所述计算机被提供dsDNA 100的初始靶位点102的记录以及作为相应模板与dsDNA102接触的每个同源修复模板106、202的序列。因此，通过参考存储在计算机中的当前状态，可以从表1(或用于不同编码的类似表)中选择适当的同源修复模板，以编码期望的下一个比特。

当前状态还可以通过使用遗传设计的双稳态开关而生物化学地记录。利用一个或多个双稳态开关，当前状态可以通过产生分子记录而生物化学地记录，最后通过正反馈回路基于所述分子记录使用酶和/或同源修复模板。回想一下上文的实例编码，通过使用三种酶(即每个靶位点一个)和六个同源修复模板的组合编码任何二进制序列是可能的。在一些实施方式中，编码每种酶和每个同源修复模板的基因也可以存在于细胞中，并且每个基因可以由特定的和已知的启动子调节。构成给定酶和伴随调节元件的基因可包含在一个或多个操纵子中。操纵子是DNA的连续区域，其包括顺式调节区(阻遏物，启动子)和一个或多个基因或功能性mRNA(siRNA，tracrRNA，gRNA，shRNA等)的编码区。操纵子可以以环状载体递送或可以插入线性染色体中。通过上调或停止阻遏而激活基因可以增加期望酶和/或同源修复模板的量。这也可以产生可用于监测状态的跟踪分子。跟踪分子可以是操纵子的一部分。

“阻遏物”(和/或“敲低”)是蛋白质或mRNA(小发夹环(shRNA)，干扰mRNA(RNAi或siRNA))，其结合DNA/RNA并阻断启动子的附着，在转录过程中阻断聚合酶的延伸，或阻断mRNA的翻译。

跟踪分子的当前水平可以作为用于编码给定操纵子的基因的开/关调节信号。在具有双稳态阻遏物的系统中，阻遏物具有两种状态0/1，其在每次操作后翻转。例如，在使用同源修复模板X₁Y₁Y₂X₂后(例如，如通过浓度变得大于阈值水平而识别的)，相关的跟踪分子可以设定双稳定阻遏物的状态。继续该实例，每个同源修复模板可以与不同的双稳态阻遏物相关，并且在任何给时间，双稳态阻遏物中的五个可以处于与“关闭”相关的状态，并且第六个可以处于与“打开”相关的状态。因此，通过检查多个双稳态阻遏物的状态，识别最后使用哪个同源修复模板是可能的。类似的机制可以保持跟踪最后使用的酶。

为了避免从较早迭代剩余的分子的潜在干扰，双稳态阻遏物的翻转可以作为多阶段过程进行处理，其首先暂停直到dsDNA的编辑已经停止，然后使用指示阻遏物应改变到的状态的时间衰减信号切换阻遏物的状态。时间衰减信号在最后一次迭代的活动阶段期间启动。一旦信号衰减到阈值水平以下并且阻遏物已完全切换到新状态，则调节用于下一次迭代的分子的操纵子被解除阻断。缺乏适当地对应于当前状态的阻遏物并且具有用于当前输入信号的启动子的操纵子然后能够进行转录。

本领域的普通技术人员将知道如何使用充当具有DNA结合结构域的转录因子或阻遏物的蛋白质产生双稳态开关。“转录因子”是结合在基因或功能性mRNA的编码序列的开头(转录起始位点)附近的蛋白质。转录因子是募集聚合酶以转录DNA所必需的。用于产生和使用双稳态分子开关的技术描述于Lebar等，A bistable genetic switch based ondesignable DNA-binding domains，5Nature Communications 5007(2014)。

双稳态开关的一个实施方式在下表2中。

表2.双稳态开关构建体

阻遏物结合位点由R_表示。阻遏物在R1中结合但在R0中不结合。阻遏物阻断启动子。启动子结合位点由P_表示。启动子可以用完全打开/关闭写入的额外信号诱导。将P从打开切换为关闭的试剂表示为P10。根据具体实施方式，P10可以是DNA，mRNA或蛋白质。将R从关闭切换为打开的试剂表示为R01。将R从打开切换到关闭的试剂表示为R10。根据具体实施方式，R01和R10两者可以是DNA，mRNA或蛋白质。在X₁X₂(或其它靶位点)之间切割的酶由X^ΛX(Υ^ΛΥ或Z^ΛZ)表示。如果酶是CRISPR/Cas9系统，则X^ΛX代表包含X^ΛX间隔子的gRNA的DNA/mRNA。T代表与Cas9结合的tracrRNA。

先前的图表的主要区别是，存在四个(X，Y，Z，W)的字母表，而只需要一个先前状态变量。该实施方式可以为编码和工程化提供一些效率。

当前状态被用来确定哪个酶104、200是适合于在dsDNA 102中产生DSB。使酶104、200与dsDNA 100相互作用。例如，当当前状态是X₁X₂时，所选择的酶能够在X₁X₂序列中产生DSB。表3中的以下实例显示如何用X₁X₂的初始靶序列102在dsDNA 102中编码二进制值010101。

DNA序列	编码的二进制值
		...X<sub>1</sub>X<sub>2</sub>...	单独无价值
...X<sub>1</sub>Y<sub>1</sub>Y<sub>2</sub>X<sub>2</sub>...	XY＝0；0
		...X<sub>1</sub>Y<sub>1</sub>Z<sub>1</sub>Z<sub>2</sub>Y<sub>2</sub>X<sub>2</sub>...	XY＝0；YZ＝1；01
...X<sub>1</sub>Y<sub>1</sub>Z<sub>1</sub>X<sub>1</sub>X<sub>2</sub>Z<sub>2</sub>Y<sub>2</sub>X<sub>2</sub>...	XY＝0；YZ＝1；ZX＝0；010
		...X<sub>1</sub>Y<sub>1</sub>Z<sub>1</sub>X<sub>1</sub>Z<sub>1</sub>Z<sub>2</sub>X<sub>2</sub>Z<sub>2</sub>Y<sub>2</sub>X<sub>2</sub>...	XY＝0；YZ＝1；ZX＝0；XZ＝1；0101
...X<sub>1</sub>Y1Z<sub>1</sub>X<sub>1</sub>Z<sub>1</sub>X<sub>1</sub>X<sub>2</sub>Z<sub>2</sub>X<sub>2</sub>Z<sub>2</sub>Y<sub>2</sub>X<sub>2</sub>...	...ZX＝0；XZ＝1；ZXX＝0；01010
		...X<sub>1</sub>Y<sub>1</sub>Z<sub>1</sub>X<sub>1</sub>Z<sub>1</sub>X<sub>1</sub>Z<sub>1</sub>Z<sub>2</sub>X<sub>2</sub>Z<sub>2</sub>X<sub>2</sub>Z<sub>2</sub>Y<sub>2</sub>X<sub>2</sub>...	...XZ＝1；ZX＝0；XZ＝1；010101

表3.在DNA中编码二进制值的实例

在一个示意性实施方式中，使用具有PAM序列NNNNGATTT的Cas9作为酶，三个靶位点可以是

X₁＝TAGCCGTATCGAGCATCGATG|CGCNNNNGATT＝X₂

Y₁＝GATCGATGGACTCTGCATCTA|TCGNNNNGATT＝Y₂

Z₁＝CGGGACGATCGATCGGGCTAG|ACTNNNNGATT＝Z₂

其中PAM序列用粗体表示，X₁是(SEQ ID NO：1)，X₂是(SEQ ID NO：2)，Y₁是(SEQ ID_NO：3)，Y₂是(SEQ ID NO：4)，Z₁是(SEQ ID NO：5)，和Z₂是(SEQ ID NO：6)。注意，X₁，Y₁和Z₁各自是21bp长。

每个靶位点由在下文“Λ”指示的位置处切割dsDNA的相应指导ssDNA识别。它们应该具有反式激活crRNA(tracrRNA)，其是小的反式编码RNA，用于连接到末端附加的Cas9。各自的ssDNA序列是：

gX₁＝TAGCCGTATCGAGCATCGATG^ΛCGC(SEQ ID NO：1)

gY₁＝GATCGATGGACTCTGCATCTA^ΛTCG(SEQ ID NO：3)

gZ₁＝CGGGACGATCGATCGGGCTAG^ΛACT(SEQ ID NO：5)

然后X₁Y₁Y₂X₂的同源性定向修复序列是：

并且Y₁X₁X₂Y₂的同源定向修复序列是：

可以根据相同的模式设计其他同源定向修复序列。

靶位点X₁X₂的初始切割将产生显示为以下的DSB(仅显示dsDNA的一条链)：

在用X₁Y₁Y₂X₂进行HDR后，dsDNA的一条链将具有以下序列，其现在包含由斜体表示的靶位点Y₁Y₂：

dsDNA现在能够通过Cas9切割，其具有在由“||”表示的位置处产生DSB的gY₁。例如，可以用Y₁X₁X₂Y₂执行HDR，进一步添加到dsDNA并完成另一次编码迭代。这可以通过各种切割序列和同源修复模板继续进行，以编码任何系列的比特。

示意性过程

为了便于理解，将本公开中讨论的过程描绘为表示为独立模块的单独操作。然而，这些单独描绘的操作不应被解释为在其性能方面必然地是顺序依赖的。描述过程的顺序不旨在被解释为限制，而是可以以任何顺序组合任何数量的所描述的过程块以实施该过程，或替代性过程。此外，还可以修改或省略所提供的操作中的一个或多个。

图3显示用于将DNA迭代地添加到dsDNA分子中的DSB位点的过程300。过程300部分地对应于图1和2所示的示意图。

在302，第一DSB以第一酶104在dsDNA 100中的第一靶位点102处产生。为了限制第一酶104切割dsDNA 100的位置，第一靶位点102可以在形成第一DSB时在dsDNA中是独特的。第一靶位点102也可以在第一酶可作用于的dsDNA群体中是独特的。例如，如果细胞内存在多个环状dsDNA分子，则第一靶位点102可以在整个环状dsDNA分子群体内仅存在一次。或者，第一靶位点102可以对于每个dsDNA分子是独特的，但是第一酶104可以到达各自包含一次出现的第一靶位点102的多个不同dsDNA分子。本领域普通技术人员应理解，酶(即使在本文中以单数形式提及)可包括多个个体和等同的酶分子。在一些实施方式中，第一靶位点102可包括第一子序列102(A)，其重复一次而产生与第一子序列102(A)相同的第二子序列102(B)。例如，如果第一子序列102(A)是GTACTA，则第二子序列102(B)是相同的，并且靶位点102的序列是GTACTAGTACTA(SEQ ID NO：9)。

第一酶104可以是上文识别的任何示意类型的酶，例如限制酶，HE，CRISPER/Cas系统，TALEN或锌指。

在304处，编码第一二进制数字118第一同源修复模板106被选择。鉴于根据编码方案编码的二进制数字118，第一靶位点102的身份用于选择第一同源修复模板106。同源修复模板106可包含3’端序列和5’端序列，各自编码与第一靶位点102中的第一子序列102(A)和102(B)互补的第二子序列。因此，在该实施方式中，3’端序列108和5’端序列110具有相同的序列，但是在其他实施方式中，它们可以具有不同的序列。第一同源修复模板106还可包含中间部分，其包含两个邻近存在的第三子序列112(A)和112(B)，其在插入dsDNA后形成下一个靶位点。

如上所述，选择同源修复模板106可以基于例如上表1所示的编码方案。

在306处，确定是否下一个数字是0。作为二进制系统，这在功能上等同于确定下一个数字是否不是1。如果要编码的下一个数字是0，则过程300前进到308并选择在插入靶位点102时编码0的同源修复模板106。如果下一个二进制数字不是0，因此是1，则过程300前进到310并选择当插入靶位点102时编码1的同源修复模板106。适当的二进制数字118由靶位点102的部分序列112(A)、接着同源修复模板106的部分序列116(A)表示。

在312处，产生同源修复模板106。同源修复模板106可以在312(A)处通过寡核苷酸合成仪人工产生。寡核苷酸合成仪在下文更详细地讨论。

在312(B)处，同源修复模板106可以通过在经调节的启动子的控制下的基因产生。mRNA基因产物可以通过使用逆转录酶转化为DNA以产生作为最终同源修复模板106的DNA分子。在一些实施方式中，mRNA自身可用作同源修复模板而无需首先转化为DNA。Rafael

See RNA to repair DNA-what next？,British Society for Gene andCell Therapy(2015年1月14日)，可在线获自www.bsgct.org/rna-to-repair-dna-what-next/；Keskin,H.，Shen.,Y.等.Transcript-RNA-templated DNA recombination andrepair.515 Nature436-439(2014)；和Storici,F.,Bebenek,K.等，RNA-templated DNArepair.447Nature 338-341(2007)。

在314处，dsDNA 100与第一同源修复模板106接触。使dsDNA 100与第一同源修复模板106接触可包括将多个拷贝的第一同源修复模板106添加或移动到含有dsDNA 100的室中，例如通过微流体系统。在一个实施方式中，接触dsDNA 100涉及上调编码自身是同源修复模板106或用作产生同源修复模板106的模板的RNA序列的基因的表达。上调基因表达可包括激活控制基因转录的启动子和/或抑制阻遏物的作用中的任一种。

通常，该接触发生在具有多个拷贝的dsDNA 100和多个拷贝的同源修复模板106的环境中。可以存在dsDNA 100和同源修复模板106各自的数百、数千或更多拷贝。在使dsDNA100与同源修复模板106接触后，将存在成功地进行同源定向修复以将同源修复模板106的中间部分添加至dsDNA 100的原始dsDNA 100和同源修复模板106的子集。还将存在未修复的或者除了通过引入同源修复模板106的中间部分之外而修复的dsDNA 100的不同子集。本文的讨论可以描述dsDNA 100，如同每个分子被同源修复模板106成功修复，但是本领域普通技术人员将理解，以这种方式仅修复dsDNA分子群体的子集。

在316处，确定是否要在dsDNA 100中产生另外的DSB和用第二同源修复模板202执行HDR。如果是，因为例如要在dsDNA 100中编码另一个二进制数字，则过程300沿着“是”途径前进到318。

在318处，dsDNA 100可以被处理以除去或失活剩余的第一酶104和/或第一同源修复模板106的任一种。这降低了从较早的迭代剩余的酶或同源修复模板在稍后的迭代中产生非预期的切割或HDR的可能性。在一个实施方式中，例如无细胞微流体系统，可以洗涤dsDNA 100以去除第一酶和/或第一同源修复模板。在一个实施方式中，可以存在足够长以使第一酶或第一同源修复模板的浓度降低至低于阈值水平的等待时间。阈值水平可以是非常少或基本上没有酶/同源修复模板活性存在的水平。可以通过实验确定阈值水平。细胞中的天然降解过程可以导致酶和游离ssDNA或ssRNA随时间降解。通过添加蛋白酶体或核酸酶可以提高降解速度。同源修复模板也可以通过添加与同源修复模板退火的互补ssDNA序列，从而产生dsDNA并防止同源修复模板侵入具有DSB的dsDNA而使失活。

图4显示根据两种不同编码在dsDNA中的两个不同靶位点处添加DNA的过程400。使用完全正交的组分的两种不同编码允许在相同dsDNA中写入两个不同的二进制串而无串扰。如果两种不同的编码完全正交，则用于形成第一编码的DSB的酶将识别与用于第二编码的酶识别的靶位点不同的靶位点。类似地，第一编码的靶位点序列与第二编码的靶位点序列充分地不同，使得在用于一种编码的同源修复模板和与另一编码相关的DSB侧翼DNA之间不存在杂交。使用两种不同编码还允许利用冗余编码相同二进制序列。尽管本文仅描述了两种不同编码，但应理解，该技术可以同样适用于任何数量的不同编码。

过程400是由显示dsDNA操纵的示意图示意。所附示意图使用与图1和图2所示的表示相似的表示。除非另有说明，否则图4的特征具有与图1和图2中视觉相似的特征相同或相似的功能。

在402处，第一DSB以第一酶408在dsDNA 406中的第一靶位点404处产生。第一酶408可以是能够在上述dsDNA中产生DSB的任何类型的酶。dsDNA 406可以是线性DNA或环状DNA。在一个实施方式中，dsDNA 406可以是存在于无细胞系统中的环状DNA分子。

在410处，使dsDNA 406接触第一同源修复模板412。第一同源修复模板412包含与第一靶位点404的第一部分互补的3’端序列和与第一靶位点404的第二部分互补的5’端序列。与第一同源修复模板412的群体接触的dsDNA 406的群体的一部分将进行HDR并将第一同源修复模板的中间部分引入dsDNA 406中。同源修复模板412的中间部分包含在3’端序列和5’端序列之间的序列。在无细胞实施方式中，接触可以部分地通过微流体机制进行，所述微流体机制将第一同源修复模板412移动到与dsDNA 406相同的室中，使得第一同源修复模板412可以与dsDNA406的一条链杂交。

一旦通过DNA聚合酶和DNA连接酶的操作整合到dsDNA 406中，靶位点404的一部分位于邻近通过用第一同源修复模板412修复第一DSB产生的dsDNA 414。根据第一编码方案，这两个DNA序列的顺序编码第一二进制数字416。通过用第一同源修复模板412修复产生的DNA序列自身是根据第一编码方案的第二靶位点414。到目前为止，过程400类似于图1所示的DNA操纵。

在418，第二DSB以第二酶422在第三靶位点420中产生。第三靶位点420属于与第一靶位点404或第二靶位点414不同的编码。因此，为了防止两种不同编码之间的串扰，第三靶位点420具有与第一靶位点404不同并且与第二靶位点416不同的序列。第三靶位点420不与第一靶位点404重叠。因为它不与第一靶位点404重叠，所以第三靶位点420是从第一靶位点404移除至少一个碱基对。第二酶422识别第二靶位点414，但不识别或切断第一靶位点404。第一酶408和第二酶422可以是相同类型的酶(例如，CRISPER/Cas)，或者它们可以是不同类型的酶(例如，一种是限制酶且一种是TALEN)。

在424处，dsDNA 406接触第二同源修复模板426。第二同源修复模板426还包含与第三靶位点420的第一部分互补的3’端序列和与第三靶位点420的第二部分互补的5’端序列。在用第二同源修复模板426修复第二DSB之后，根据第二编码方案，邻近通过修复第二DSB产生的dsDNA的一部分的第三靶位点420的一部分的序列编码第二二进制数字428。与第二同源修复模板426的中间部分互补的DNA序列包含根据第二编码方案的第四靶位点430。第四靶位点430不同于第三靶位点420，并且也不同于用于第一编码的任一靶位点(即，第一靶位点404和第二靶位点414)。

在此时，DSB已被产生并用根据第一编码的同源修复模板修复，并且不同的DSB已被产生并用根据第二编码的不同的同源修复模板修复。因此，dsDNA 406包括根据第一编码的第一二进制数字416和根据第二编码的第二二进制数字428。可以根据第一或第二编码中的任一个迭代地重复这种产生DSB并用同源修复模板修复断裂的过程。在一些实施方式中，该编码可以交替或交织，使得根据第一编码添加二进制数字，然后根据第二编码添加二进制数字，等等。

示意性细胞实施环境

图5显示能够遗传性地存储二进制数据的示意性细胞500。细胞500可以是大肠杆菌细胞，酿酒酵母细胞或来自另一种单细胞生物的细胞。它也可以是来自在培养中生长的多细胞生物的细胞。细胞500可含有dsDNA分子502，其具有第一靶位点504。细胞500还可含有第一酶506，其配置成在第一靶位点504内产生DSB。例如，第一酶506可以是包括gRNA 508的CRISPR/Cas系统，所述gRNA 508包含在第一靶位点504处与dsDNA 502的一条链互补的间隔子区域。

细胞500还可包含在启动子512和操纵基因514的控制下的基因510。启动子是启动特定基因转录的DNA区域。启动子位于基因的转录起始位点附近，在DNA的同一条链上和上游(朝向有义链的5’区域)。操纵基因是转录因子结合以调节基因表达的DNA片段。转录因子是阻遏物，其可以与操纵基因结合以阻止转录。

基因510可编码ssRNA序列516，其包含3’端序列518和5’端序列520。可以从基因510产生同源修复模板522。在一个实施方式中，同源修复模板522是ssRNA序列516自身。3’端序列518和5’端序列520在第一靶位点504的至少一部分上与dsDNA分子502的一条链互补。3’端序列518和5’端序列520之间的同源性允许ssRNA序列516与在第一靶位点504中产生的DSB的每一侧上的dsDNA 502的部分杂交。

在其中基因510直接编码同源修复模板522的实施方式中，基因510将编码靶位点524，其可以由酶例如第一酶506切割。除非被保护免受酶作用，否则当引入酶时，基因510中的靶位点524可以被无意地切断。

用于保护靶位点524免于第一酶506的一种技术是物理分隔。在无细胞系统中，例如使用微流体的系统，基因510可以保持在一个室中，并且ssRNA序列516可以从含有基因510的室移动到引入酶的不同室中。

物理分隔也可以在细胞实施方式中使用。基因510和酶可容纳在不同的细胞室中。在一个实施方式中，基因510可以在核中，并且酶可以在细胞质中的核外或在另一个细胞室中。如果基因510是细胞基因组的一部分，则基因510可以留在核中。核输出信号可用于将酶保持在核外。核输出信号(NES)是蛋白质中的4个疏水残基的短氨基酸序列，其使蛋白质靶向于使用核转运通过核孔复合物从细胞核输出到细胞质。本领域普通技术人员将能够修饰或工程化酶以包括NES。

ssRNA序列516可以从其在核中的转录位点输出到细胞质或在核外酶存在的其他目的地。RNA输出描述于Sean Carmody和Susan Wente，mRNA Nuclear Export at aGlance，122J.of Cell Science 1933-1937(2009)和Alwin

和Ed Hurt，ExportingRNA from the Nucleus to the Cytoplasm，8Nature Reviews Molecular Cell Biology761-773(2007)中。

在一个实施方式中，基因510可包含具有后来通过剪接去除的部分的序列。该另外的部分将阻止酶识别靶位点524，但ssRNA序列516将不变成同源修复模板522，直到移除该剪接位点。存在多种类型的可变剪接，其中有外显子跳跃。外显子跳跃是导致ssRNA序列516中的剪接的一种方法；在这种情况下，外显子可以从初级转录物中剪接出来。本领域普通技术人员将理解如何设计基因510，使得其包含在规定位置处的剪接位点。即使基因510和酶没有物理分隔，也可以实施可变剪接。

自切除元件可以与剪接类似地起作用。基因510可以设计为包含当转录成RNA时包括一个或多个自切除元件的区域。自切除元件防止基因510被酶识别，并且切除将ssRNA序列516转化为同源修复模板522。一种类型的自切除元件是核酶，其是作为反应催化剂起作用的RNA酶。因此，核酶仅仅是催化(酯交换)反应以从RNA序列的其余部分去除自身的RNA序列。基本上这些被认为是内含子，其是从mRNA剪接掉以产生具有连续外显子(编码区)序列的成熟RNA的基因内区域。自切除内含子/核酶由组I和组II内含子组成。它们被认为是自剪接的，因为它们不需要蛋白质来初始化反应。自切除序列是已知的，并且本领域普通技术人员将理解如何在基因510中包含自切除序列。自切除核酶的方面示于http://2011.igem.org/Team:Waterloo。

还可以使用一系列同源桥产生重组序列，该重组序列是用于ssRNA序列516的基因模板。同源桥可以在各种、单独的位置处存在于DNA中，使得基因510不包含切割位点524。该技术也称为多片段克隆或延伸克隆。最终的同源修复模板524由多个重叠片段的转录物组成。用于将多重叠片段组合成同源修复模板522的一种合适技术是序列和连接非依赖性克隆(SLIC)。Mamie Li和Stephen Elledge,Harnessing Homologous Recombination invitro to Generate Recombinant DNA Via SLIC,4Nature Methods 250-256(2007)。用于连接多重叠片段的另一种合适技术由Jiayuan Quan和Jingdong Tian,CircularPolymerase Extension of Cloning of Complex Gene Libraries and Pathways,4(7)PLoS ONE(2009)提供。

在一个实施方式中，同源修复模板522是与ssRNA序列516互补的ssDNA序列。该ssDNA序列可以通过逆转录酶读取ssRNA序列516并合成互补的ssDNA序列来产生。逆转录酶(RT)是用于从RNA模板产生互补DNA(cDNA)的酶，该过程称为逆转录。RT广泛用于实验室中以将RNA转换为DNA用于如分子克隆，RNA测序，聚合酶链式反应(PCR)和基因组分析的程序。RT酶可从多种商业来源广泛获得。

同源修复模板522的3’端序列526和5’端序列528在第一靶位点504的至少一部分上与dsDNA 502的一个链互补。在ssDNA和ssRNA两者的实施方式中，同源修复模板522包含中间部分530，其当引入dsDNA 502中时，形成如本公开中所述的靶位点。

此处将酶506说明为具有gRNA 508的CRISPR/Cas复合物。可以使用上文讨论的其他类型的酶代替CRISPR/Cas复合物。gRNA 508的单链尾部可以用与全部或部分同源修复模板522互补的序列延伸。同源修复模板522可结合gRNA 508的尾部，形成双链区域532。这使得同源修复模板522的拷贝与由CRISPR/Cas复合物506产生的DSB的位置密切接近。

还可以设计gRNA 508的延伸尾部，使得其与转录激活因子样效应物(TALE)蛋白的结合结构域匹配。TALE蛋白还可以具有与同源修复模板522互补的结合结构域。这也将使同源修复模板与DSB的位置密切接近。gRNA 508的尾部可以延伸以产生用于附接多个拷贝的同源修复模板522或TALE蛋白的区域。

TALE蛋白质是当黄单胞菌属细菌感染各种植物物种时由其III型分泌系统分泌的蛋白质。这些蛋白质可以结合宿主植物中的启动子序列并激活有助于细菌感染的植物基因的表达。它们通过由可变数量的约34个氨基酸的重复序列组成的中心重复结构域识别植物DNA序列。在每个重复序列中的两个关键氨基酸与靶位点中的每个DNA碱基的身份之间似乎存在一对一的对应。TAL效应子最显著的特征是中心重复结构域，其含有1.5至33.5个通常长度为34个残基的重复序列(C端重复序列通常较短，且称为“半重复序列”)。典型的重复序列可在许多TALE蛋白中共有，但在第12位和第13位的残基是高变的(这两个氨基酸也被称为重复可变二残基或RVD)。TAL效应子中的氨基酸与其靶位点中的DNA碱基之间的这种简单对应使得它们可用于蛋白质工程应用。

在靶位点504中产生DSB之后，可以释放已与gRNA 508的尾部杂交的分子532。在一些实施方式中，引入与gRNA 508的尾部或TALE蛋白的结合结构域互补的核苷酸序列可与同源修复模板522竞争并导致同源修复模板522解离。该竞争可以使同源修复模板522变得可用于结合DSB的任一侧上的dsDNA 502。

细胞500还可包括一个或多个工程化信号传导途径534。如本文所用，“工程化信号传导途径”包括其中途径的至少一部分用分子生物学技术有意修饰以与野生型途径不同并且信号(细胞内或细胞外)导致基因转录速率的变化的任何途径。工程化信号传导途径534可以诱导启动子，例如上述启动子512。工程化信号传导途径534还可以使转录因子结合操纵基因，例如上述操纵基因514，并阻止转录。在一个实施方式中，受工程化信号传导途径534影响的基因可以是编码ssRNA序列516的基因510。因此，工程化信号传导路径534可用于控制细胞500中可用的同源修复模板522的量。在一个实施方式中，受工程化信号传导途径534影响的基因可编码在dsDNA中产生DSB的酶，例如酶506。因此，可以通过工程化信号传导途径534调节在靶位点504中产生DSB的酶的数量。

细胞500可包括多个不同的工程化信号传导途径534，其各自响应于独特的信号并且各自促进或抑制负责产生同源修复模板522和/或酶506的基因的表达。因此，细胞内或细胞外信号可用于改变细胞500中的同源修复模板522和/或酶506的水平，从而改变哪些靶位点504被切割和哪些序列用于通过HDR修复DSB。通过工程化影响同源修复模板522和/或酶506的可用性的信号传导途径，细胞可能被改变以包括用于根据上述编码技术在细胞500的dsDNA 502中编码任意序列的二进制数据的控制系统。

在一个实施方式中，工程化信号传导途径534可包括外部受体536，其可检测穿过膜538的细胞外信号。膜538可以是细胞壁，脂质双层或人工细胞壁。在一个实施方式中，外部受体536可以是G蛋白偶联受体(GPCR)。GPCR构成大的受体蛋白质家族，其感测细胞500外的分子并激活内部信号转导途径534并最终激活细胞反应。GPCR由配体或其他信号介质形式的外部信号激活。这产生GPCR的构象变化，导致G蛋白的激活。进一步的效应取决于G蛋白的类型。随后G蛋白被称为RGS蛋白的GTP酶激活蛋白灭活。结合并激活这些GPCR的配体包括光敏化合物，气味，信息素，激素和神经递质，其大小从小分子到肽到大蛋白不等。当配体与GPCR结合时，它导致GPCR的构象变化，这使得其充当鸟嘌呤核苷酸交换因子(GEF)。然后，GPCR可以通过将其结合的GDP交换为GTP来激活相关的G蛋白。G蛋白的α亚基与结合的GTP一起然后可以从β和γ亚基解离，以进一步影响细胞内信号传导蛋白或直接靶向功能性蛋白(其取决于α亚基类型)。

在一个实施方式中，外部受体536可以是光敏膜蛋白。光感受器蛋白是各种生物中参与光的感测和应答的光敏蛋白。光感受器蛋白通常由蛋白质部分和非蛋白质光色素组成，所述非蛋白质光色素通过光异构化或光还原对光作出反应，因此引发受体蛋白的变化，该变化触发信号转导级联。在光感受器中发现的色素包括视黄醛(亚视黄基蛋白，例如动物中的视紫红质)，黄素(黄素蛋白，例如植物和动物中的隐色素)和胆素(bilin)(胆素蛋白(biliproteins)，例如植物中的光敏色素)。光敏蛋白的工程化使用的一个实例见于AlvinTamsir等，Robust Multicellular Computing Using Genetically Encoded NOR Gatesand Chemical'Wires'，469Nature 212-215(2011)。

在一些实施方式中，外部受体536也可以是膜结合免疫球蛋白(mlg)。膜结合免疫球蛋白是膜结合形式的抗体。膜结合免疫球蛋白由表面结合IgD或IgM抗体和相关的Ig-α和Ig-β异二聚体组成，其能够响应于通过抗原的激活而通过信号传导途径534进行信号转导。

在一个实施方式中，温度可以激活工程化信号传导途径534。因此，通过改变细胞500的温度，可以上调或下调基因控制事务如同源修复模板或酶合成。在单细胞生物中天然存在的温度感测分子包括热休克蛋白和某些RNA调控分子，例如核糖开关。热休克蛋白是参与细胞对应激的应答的蛋白质。响应于温度的热休克蛋白的一个实例是细菌蛋白DnaK。升高到高于正常生理范围的温度可导致DnaK表达变得上调。DnaK和其他热休克蛋白可用于响应于温度的工程化途径。核糖开关是一种RNA分子，其可以响应于温度以调节蛋白质翻译。利用核糖开关的温度调节的工程化途径的实例可见于Neupert，J.等，Nucleic Acids Res，2008，36(19)：e124。可用于调节工程细胞途径的温度敏感性分子的另一个实例是温度敏感性突变蛋白。可以对蛋白质进行单突变，其导致蛋白质在高温下变得不稳定，但在较低温度下仍保持功能性。用于合成温度敏感性突变蛋白的方法可见于Ben-Aroya，S.等，MethodsEnzymol.2010，470，181-204。利用温度敏感突变体的温度控制的工程化途径的实例可见于Hussain，F.等，2014，PNAS，11(3)，972-977。

在一个实施方式中，离子浓度或pH可以激活工程化信号传导途径534。利用这种类型的工程化信号传导途径534，将细胞500置于不同的离子环境中或改变细胞500周围的pH可用于控制给定同源修复模板或酶的可用性。检测离子强度或pH的细胞感测分子机制的实例包括许多病毒蛋白，例如单纯疱疹病毒gB，风疹病毒包膜蛋白，流感病毒血凝素和水疱性口炎病毒糖蛋白。通过pH调节的天然细胞途径的实例是构巢曲霉的青霉素产生(Espeso，E.等，1993，EMBO J，12(10)，3947-3956)。可用于调节工程化细胞途径的pH敏感性分子的另一个实例是pH敏感性突变蛋白。可以对蛋白质进行单突变，这可以使蛋白质在酸性或碱性条件下变得不太稳定。例如，pH敏感性抗体可以在最佳pH下与抗原结合，但不能在非最佳pH下与抗原结合。用于产生可用于工程化信号传导途径的pH敏感性抗体的技术可见于Schroter，C.等，2015，MAbs，7(1)，138-51。可以对这些和其他类似的感测机制工程化以影响启动子512或操纵基因514的行为。

细胞500还可包括另外的dsDNA分子540，其还包含靶位点542。与第一dsDNA分子502类似，另外的dsDNA分子540可以仅包含单一一次出现的靶位点542。或者，另外的dsDNA分子540可包含多个拷贝的相同靶位点或多个不同靶位点。

另外的dsDNA分子540和靶位点542可以具有与第一dsDNA分子502和第一靶位点504相同或相似的序列。因此，另外的dsDNA分子540可被认为是第一dsDNA分子502的“拷贝”。相同或相似分子的这种另外的拷贝可通过产生第二二进制数据串来提供冗余，所述第二二进制数据串在没有错误的情况下将在dsDNA分子502和540两者中记录相同系列的0和1。在一个实施方式中，另外的dsDNA分子540可包含靶位点542，其具有与第一dsDNA分子502中的靶位点504不同的序列。在不同dsDNA分子502和540中具有不同的靶位点504和542允许以两种不同的编码方案同时或交替编码二进制数据。两种不同的编码方案可以是非重叠的或“正交的”，使得与一种编码方案相关的酶和同源修复模板不与用于另一编码方案的dsDNA分子相互作用。应理解，在实际实施中，可以存在成千上万个具有相应的靶位点的dsDNA分子。还可以存在相应数量的不同编码方案和用于相应的靶位点的不同序列。

示意性系统和计算设备

图6显示用于实施如上所述储存通过HDR引入的数据的DNA分子及与之交互的示意性架构600。架构可包括数字计算机602，寡核苷酸合成仪604，自动化系统606和/或多核苷酸测序仪608中的任一种。架构600还可包括除了在本文中讨论的那些之外的其他组件。

如本文所用，“数字计算机”表示包括至少一个硬件微处理器610和能够以二进制格式存储信息的存储器612的计算设备。数字计算机602可以是超级计算机，服务器，台式计算机，笔记本计算机，平板计算机，游戏机，移动计算机，智能手机等。硬件微处理器610可以以任何合适类型的处理器实施，例如单核处理器，多核处理器，中央处理单元(CPU)，图形处理单元(GPU)等。存储器612可包括可移动存储，不可移动存储，本地存储和/或远程存储，以提供计算机可读指令，数据结构，程序模块和其他数据的存储。存储器612可以作为计算机可读介质实施。计算机可读介质包括至少两种类型的介质，即计算机可读存储介质和通信介质。计算机可读存储介质包括以用于存储例如计算机可读指令，数据结构，程序模块或其他数据的信息的以任何方法或技术实施的易失性和非易失性、可移动和不可移动的介质。计算机可读存储介质包括但不限于RAM，ROM，EEPROM，闪存或其他存储器技术，CD-ROM，数字通用盘(DVD)或其他光学存储器，磁带盒，磁带，磁盘存储器或其他磁存储设备，或可用于存储信息以供计算设备访问的任何其他非传输介质。

相比之下，通信介质可以体现调制数据信号例如载波或其他传输机制的计算机可读指令，数据结构，程序模块，或其他数据。如本文所定义的，计算机可读存储介质和通信介质是互斥的。

数字计算机602还可包括一个或多个输入/输出设备66，例如键盘，指示设备，触摸屏，麦克风，相机，显示器，扬声器，打印机，等等。

同源定向修复(HDR)模板设计器616可以被包括作为数字计算机602的一部分，例如，作为存储在存储器612中的指令。同源修复模板设计器616可基于靶位点的序列，dsDNA分子的序列，编码方案，酶识别位点等设计同源修复模板。在一个实施方式中，同源修复模板设计器616可设计同源修复模板以避免不同编码方案之间的串扰。同源修复模板设计器616还可以比较潜在同源修复模板以及同源修复模板的部分的百分相似性和杂交条件。例如，同源修复模板设计器616可以设计同源修复模板以避免发夹的形成以及防止或最小化同源修复模板之间的退火。同源修复模板设计器616还可以设计同源修复模板以最大化3’端序列，5’端序列和/或中间序列之间的差异。例如，差异可以是G:C含量，并且同源修复模板设计器616可以设计具有增加末端序列和中间序列之间的G:C含量差异的偏好的序列。

数字计算机602还可包括编码数据库618。然而，编码数据库618可以是与数字计算机602在物理上分开的硬件设备的一部分。编码数据库618包括DNA序列和二进制值之间的对应关系。例如，表1中包括的信息是可以存储在编码数据库618中的编码的一个实例。编码数据库618可以存储任何数量的不同编码。编码数据库618可以被HDR模板设计器616参考以确定接下来要使用哪个HDR模板以编码给定比特。类似地，解码器620还可以参考编码数据库618以确定要分配给给定序列的比特值。解码器620可以实施为存储在存储器612中的指令。因此，序列数据622可以被提供给解码器620，其将序列数据622转换为二进制数据624。

解码器620还可以提供纠错。在其中通过在多个靶位点中以相同编码方案写入或通过以多个编码方案写入相同二进制数据624而冗余地编码二进制数据624的实施方式中，解码器620可以从均表示相同二进制数据624的多个不同序列中识别最可能的序列。因此，如果大多数序列包括给定比特的正确值，则将校正可能存在于一些序列中的区域。

解码器620可以通过其它技术如使用奇偶校验位和分组码提供纠错。奇偶校验位是被添加到二进制代码串中，指示字符串中的1位的数量是偶数还是奇数的位。奇偶校验位是错误检测码的简单形式。在偶数校验的情况下，对于给定数位集，其值为1的位的出现被计数。如果该计数是奇数，则将奇偶校验位值设置为1，使得整个集(包括奇偶校验位)中出现的1的总计数为偶数。如果给定集的位中的1的计数已经是偶数，则奇偶校验位的值为0。在奇数校验的情况下，编码被反转。对于给定数位集，如果具有值1的位的计数是偶数，则将奇偶校验位值设置为1，使得整个集(包括奇偶校验位)中的1的总计数为奇数。如果值为1的位的计数是奇数，则计数已经为奇数，因此奇偶校验位的值为0。因此，通过使用同源修复模板以基于旨在被编码的二进制序列添加奇偶校验位，从DNA序列读取二进制数据624将再现那些奇偶校验位，并且这可以由解码器620用作识别错误的一个方式。

存在有许多类型的分组码，例如Reed-Solomon码，Hamming码，Hadamard码，Expander码，Golay码和Reed-Muller码。术语分组码还可以指任何纠错码，其作用于k比特的输入数据块以产生n比特的输出数据(n，k)。可以以常规方式应用分组码，其中消息是预期的二进制数据串624，并且来自通信信道的噪声是在将同源修复模板引入dsDNA中或在DNA测序中引入的。

可能以多种方式引入错误，包括来自DNA聚合酶的错误，非特异性和非预期的退火，同源修复模板的合成中的错误，和通过DNA测序产生的阅读片段中的错误。这些类型的错误是本领域技术人员已知的，并且可以通过常规技术减轻。

本公开的技术特有的一些错误包括插入不正确的同源修复模板和未能插入正确的同源修复模板。例如，如果在靶位点X₁X₂处产生DSB，则X₁__X₂形式的任何同源修复模板可以与DSB每一侧上的dsDNA杂交。如果，为了编码下一个比特，同源修复模板X₁Y₁Y₂X₂应通过HDR引入dsDNA中，但却引入同源修复模板X₁Z₁Z₂X₂，这将导致dsDNA编码不正确的比特。错误的同源修复模板可用于引入，因为它从先前的迭代剩余。因此，可以通过在每次迭代之间移除未引入的同源修复模板来降低错误率。当应引入同源修复模板但并非如此时，可以出现另一种类型的错误。例如，在dsDNA中产生DSB后，在切口的两端处，DNA可以彼此重新结合。这导致最近切割靶位点重新形成。下一次迭代可能使用不识别该靶位点的酶。因此，在识别靶位点的酶接下来与dsDNA接触之前，可能已经过去多次迭代。那时，dsDNA将被切割，并且引入同源修复模板的过程将继续。但是将丢失多个同源修复模板，并且最终二进制数据624将遗漏多个比特。

为了操纵构成同源修复模板和dsDNA的DNA和潜在地RNA，数字计算机602可通过一个或多个I/O数据接口626与其它装置通信。I/O数据接口626可以与其他设备交换指令和数据，例如寡核苷酸合成仪604，自动化系统606，多核苷酸测序仪608。

寡核苷酸合成仪604基于作为电子数据接收的指令化学合成寡核苷酸。合成的寡核苷酸可以用作同源修复模板。因此，在一些实施方式中，提供给寡核苷酸合成仪604的核苷酸的序列可来自HDR模板设计器616。

许多用于DNA合成的方法和商业寡核苷酸合成仪是可用的。用于DNA合成的方法包括固相亚磷酰胺合成，基于微芯片的寡核苷酸合成，连接介导的装配，聚合酶链反应PCR介导的装配等。例如，这样的合成可以使用ABI 394DNA合成仪(Applied Biosystems，FosterCity，Calif.)以0.2μmol规模进行，然后进行标准切割和去保护方案，例如使用28％氨水或在甲醇中的氨的3:1溶液。如果期望，本领域普通技术人员可以选择其它裂解剂，例如甲胺，以用于代替氨，或者在氨之外使用。

如本文所用，术语“寡核苷酸”定义为包含两个或更多个核苷酸的分子。寡核苷酸包括探针和引物。用作探针或引物的寡核苷酸还可包括核苷酸类似物，例如硫代磷酸酯，烷基硫代磷酸酯，肽核酸或嵌入剂。引入这些修饰可能是有利的，以积极地影响如杂交动力学，杂交形成的可逆性，寡核苷酸分子的稳定性等的特征。

自动化系统606可包括任何类型的机器人，自动化或用于使可以用酶和/或同源修复模板对dsDNA执行的一个或多个操纵自动化的其他系统。自动化系统606可以与手动操纵结合使用，使得为了实施本公开的技术而需要执行的全部操作以混合方式完成，其中一些操纵由自动化技术执行，而其他手动执行。

在一个实施方式中，自动化系统606可包括微流体系统。微流体学是涉及工程，物理，化学，生物化学，纳米技术和生物技术的多学科领域，实际应用于设计其中将处理小体积流体的系统。通常，流体被移动，混合，分离或以其他方式处理。许多应用采用被动流体控制技术，如毛细作用力。在一些应用中，外部致动另外用于介质的定向传输。外部致动的实例包括旋转驱动器，其施加离心力用于被动芯片上的流体传输。主动微流体是指通过例如微泵或微阀的主动(微)组件对工作流体的限定操纵。微泵以连续方式供应流体或用于定量给料。微阀确定泵送的液体的流动方向或运动模式。通常，正常在实验室中进行的过程在单个芯片上小型化，以提高效率和移动性以及减少样品和试剂量。如本文所用，自动化系统606可包括用于操纵DNA的其他设备。

自动化系统606可包括可以部分地通过微流体装置实施的无细胞系统。无细胞系统也可以作为人工细胞或最小细胞实施。人工细胞或最小细胞是模拟生物细胞的一种或多种功能的工程化颗粒。人工细胞是包围生物活性物质的生物或聚合物膜。因此，纳米颗粒，脂质体，聚合物囊泡，微囊，洗涤剂胶束和许多其他颗粒可以被认为是人工细胞。微包封允许膜内的代谢，小分子的交换和防止大物质跨越通过。用于人工细胞的膜可以由简单聚合物，交联蛋白质，脂质膜或聚合物-脂质复合物制成。此外，可以工程化膜以提呈表面蛋白质，例如白蛋白，抗原，Na/K-ATPase载体，或例如离子通道的孔。常用于产生膜的材料包括水凝胶聚合物，例如藻酸盐，纤维素和热塑性聚合物，例如甲基丙烯酸羟乙酯-甲基丙烯酸甲酯(HEMA-MMA)，聚丙烯腈-聚氯乙烯(PAN-PVC)，以及上述材料的变体。

最小细胞，也称为原细胞，是扶持生命的所有最低要求的细胞。最小细胞可以通过自上而下的方法产生，其敲除单细胞生物中的基因直到识别出对生命必要的最小基因集。丝状支原体，大肠杆菌和酿酒酵母是可以被修饰以产生最小细胞的生物体的实例。

无细胞系统包括用于DNA复制和修复的组件，例如核苷酸，DNA聚合酶和DNA连接酶。无细胞系统还将包括dsDNA，其包含至少一个用于产生DSB的初始靶位点。dsDNA可以存在于包含一个或多个操纵子的载体中。无细胞系统还将包括缓冲液以维持pH和离子可用性。此外，无细胞系统还可包括用于在dsDNA中产生DSB的酶和用于修复dsDNA的同源修复模板。一些无细胞系统可包括编码酶和同源修复模板的基因。为了防止酶在不再需要它们各自的切割功能时保留，无细胞系统可包括特异性分解DNA切割酶的蛋白水解酶。

在无细胞系统中，可以在需要时通过用微流体装置将若干体积的液体一起移动或通过增加导致酶、同源修复模板等的合成的基因产物的表达来添加特定组件。

自动化系统606可包括结构，例如至少一个室，其容纳一个或多个DNA分子。室可以作为任何类型的机械、生物或化学布置实施，其将一定体积的液体(包含DNA)保持在物理位置。例如，其上存在液滴的单个平坦表面，液滴部分地通过液体的表面张力保持，即使没有完全封闭在容器内，这是室的一个实施方式。

自动化系统606可以对DNA分子执行许多类型的操纵。例如，自动化系统606可以配置成响应于来自I/O数据接口628的一系列指令将一定体积的液体从室移动到另一室。

将总体积分成分割部分的微流体系统和方法包括乳化，“油包水”液滴的产生，和单分散液滴的产生，以及使用通道、阀和泵。分割方法可以使用液滴操纵技术增强，包括电(例如，静电致动，介电电泳)，磁性，热(例如，热马朗戈尼效应，热毛细管)，机械(例如，表面声波，微泵，蠕动)，光学(例如，光电润湿，光学镊子)和化学方法(如化学梯度)。在一些实施方式中，液滴微致动器补充有微流体平台(例如连续流动组件)。微流体系统的一些实施方式使用液滴微致动器。液滴微致动器可以能够实施液滴操纵和/或操作，例如分配，分裂，运输，合并，混合，搅动等。

多核苷酸测序仪608可以使用本领域技术人员已知用于测序核酸的任何技术测序DNA分子。多核苷酸测序仪608可以配置成对根据任何上述技术修饰的dsDNA分子的全部或部分进行测序，并将序列数据622提供给数字计算机602。

DNA测序技术包括使用标记的终止子或引物和在板或毛细管电泳中的凝胶分离的经典双脱氧测序反应(Sanger法)。在一个实施方式中，下一代(NextGen)测序平台有利地用于本发明的实践中。NextGen测序是指许多经典Sanger型后测序方法中的任一种，其能够同时进行大量样品的高通量、多重测序。目前的NextGen测序平台能够在同一测序运行中从多种不同核酸产生读数。通量是变化的，每次运行从1亿个碱基到6000亿个碱基，并且通量由于技术的改进而迅速增加。不同NextGen测序平台的运行原理也是多种多样的，可包括：使用可逆终止的标记的核苷酸进行合成测序，焦磷酸测序，454测序，与标记的寡核苷酸探针的文库的等位基因特异性杂交；使用与标记的克隆的文库的等位基因特异性杂交然后连接的边合成边测序；在聚合步骤过程中实时监测标记的核苷酸的引入，polony测序，单分子实时测序，纳米孔测序和SOLiD测序。

454测序涉及两个步骤。在第一步中，将DNA剪切成约300-800个碱基对的片段，并将片段钝端化。然后将寡核苷酸衔接子连接到片段的末端。衔接子用作片段扩增和测序的引物。可以使用例如Adaptor B(其含有5’-生物素标签)将片段连接到DNA捕获珠子，例如链霉抗生物素蛋白包被的珠子。连接到珠子的片段在油-水乳液的液滴内PCR扩增。结果是每个珠子上克隆扩增的DNA片段的多个拷贝。在第二步中，将珠子捕获在孔中(皮升大小)。对每个DNA片段平行进行焦磷酸测序。添加一个或多个核苷酸产生光信号，其由测序仪器中的CCD照相机记录。信号强度与引入的核苷酸的数量成比例。焦磷酸测序利用焦磷酸(PPi)，其在核苷酸添加时释放。在腺苷5’磷酸硫酸酯存在下，PPi被ATP硫酸化酶转化为ATP。荧光素酶使用ATP以将荧光素转化为氧化荧光素，并且该反应产生被检测和分析的光。

可以使用的测序技术是Helicos True Single Molecule Sequencing(tSMS)。在tSMS技术中，将DNA样品切割成约100至200个核苷酸的链，并将polyA序列添加至每条DNA链的3’端。通过添加荧光标记的腺苷核苷酸标记每条链。然后将DNA链杂交到流动池，其含有数百万个固定在流动池表面的寡-T捕获位点。模板的密度可以为约1亿个模板/cm²。然后将流动池加载到仪器中，例如HeliScope^TM测序仪，并且激光照射流动池的表面，揭示每个模板的位置。CCD相机可以映射流动池表面上的模板的位置。然后将模板荧光标记切割并洗掉。通过引入DNA聚合酶和荧光标记的核苷酸开始测序反应。寡-T核酸用作引物。聚合酶以模板指导的方式将标记的核苷酸引入引物中。去除聚合酶和未引入的核苷酸。通过对流动池表面成像检测已经定向引入荧光标记的核苷酸的模板。成像后，切割步骤除去荧光标记，并用其他荧光标记的核苷酸重复该过程，直到达到期望的读取长度。序列信息用每个核苷酸添加步骤收集。

可以使用的DNA测序技术的另一个例子是SOLiD技术(Applied Biosystems)。在SOLiD测序中，将基因组DNA剪切成片段，并将衔接子连接到片段的5’和3’端以产生片段文库。或者，可以通过将衔接子连接到片段的5’和3’端，使片段环化，消化环化片段以产生内部衔接子，并将衔接子连接到所得片段的5’和3’端以产生配偶配对文库而引入内部衔接子。接下来，在含有珠子，引物，模板和PCR组件的微反应器中制造克隆珠子群体。PCR后，使模板变性并富集珠子以分离具有扩展的模板的珠子。所选珠子上的模板进行3’修饰，其允许粘合到载玻片上。

可以使用的测序技术的另一个实例是SOLEXA测序(Illumina)。SOLEXA测序是基于使用折回PCR和锚定引物在固体表面上扩增DNA。将基因组DNA片段化，并将衔接子添加到片段的5’和3’端。连接至流动池通道的表面的DNA片段被延伸和桥接扩增。片段变成双链，并且双链分子被变性。多个周期的固相扩增然后变性可以在流动池的每个通道中产生大约1,000个拷贝的相同模板的单链DNA分子的数百万个簇。引物、DNA聚合酶和四种荧光团标记的可逆终止核苷酸用于进行顺序测序。在核苷酸引入后，使用激光激发荧光团，捕获图像并记录第一碱基的身份。去除每个引入的碱基的3’终止子和荧光团，并重复引入、检测和识别步骤。

可以使用的测序技术的另一个实例包括Pacific Biosciences的单分子实时(SMRT^TM)技术。在SMRT中，四种DNA碱基中的每一种与四种不同荧光染料中的一种连接。这些染料是磷酸连接的。单一DNA聚合酶在零模波导(ZMW)的底部用单分子的模板单链DNA固定化。ZMW是使得能够相对于快速扩散进出ZMW(以微秒为单位)的荧光核苷酸的背景，观察DNA聚合酶的单核苷酸引入的限制结构。将核苷酸引入生长链中需要数毫秒。在此期间，荧光标记被激发并产生荧光信号，并且荧光标签被切除。染料的相应荧光的检测指示引入了哪种碱基。重复该过程。

可以使用的测序技术的另一个实例是纳米孔测序。纳米孔是直径约为1纳米的小孔。将纳米孔浸入导电流体中并在其上施加电势导致由于离子传导经过纳米孔而产生的轻微电流。流动的电流量对纳米孔的大小敏感。当DNA分子通过纳米孔时，DNA分子上的每个核苷酸阻塞纳米孔到不同程度。因此，当DNA分子通过纳米孔时，通过纳米孔的电流的变化代表DNA序列的读数。

可以使用的测序技术的另一个实例涉及使用化学敏感的场效应晶体管(chemFET)阵列测序DNA。在该技术的一个实例中，DNA分子可以置于反应室中，并且模板分子可以与结合到聚合酶的测序引物杂交。可以利用chemFET通过电流的变化检测一个或多个三磷酸在测序引物的3’端处引入新核酸链中。阵列可以具有多个chemFET传感器。在另一个实例中，可以将单核酸连接到珠子，并且可以在珠子上扩增核酸，并且可以将个体珠子转移到chemFET阵列上的个体反应室，每个室具有chemFET传感器，并且核酸可以被测序。

可以使用的测序技术的另一个实例涉及使用电子显微镜。在该技术的一个实例中，使用可使用电子显微镜区分的金属标记来标记个体DNA分子。然后将这些分子在平坦表面上延伸并使用电子显微镜成像以测量序列。

通过测序产生的序列数据622可以从多核苷酸测序仪608发送到数字计算机602，用于由解码器620解码，并且还用于在输出设备614上呈现。

示意性实施方式

以下条款描述了用于实施本公开中描述的特征的多个可能的实施方式。本文描述的各种实施方式不是限制性的，也不是来自任何给定实施方式的每个特征都需要存在于另一个实施方式中。除非上下文另有明确说明，否则可以将任何两个或更多个实施方式组合在一起。如本文所用，“或”表示和/或。例如，“A或B”是指没有B的A，没有A的B，或A和B。如本文所用，“包含”表示包括所有列出的特征并且可能包括添加未列出的其他特征。“基本上由……组成”是指包括列出的特征的和不实质地影响列出的特征的基本和新颖特性那些另外的特征。“由……组成”仅是指列出的特征，排除任何未列出的特征。

条款1.一种在双链脱氧核糖核酸(dsDNA)中编码二进制数据的方法，所述方法包括：用第一酶在所述dsDNA的第一靶位点处产生第一双链断裂(DSB)；根据第一二进制数字，所述第一靶位点，和编码方案选择第一同源修复模板；和将所述dsDNA与所述第一同源修复模板接触，其中所述第一同源修复模板含有与用于第二酶的第二靶位点互补的区域以在所述dsDNA中产生第二DSB，并且所述第一二进制数字由邻近所述第二靶位点的部分序列的所述第一靶位点的部分序列的顺序编码。

条款2.条款1所述的方法，其中所述第一靶位点在所述第一DSB之前在所述dsDNA中是独特的。

条款3.条款1或2中任一项所述的方法，其中所述第一酶包括限制酶，CRISPR/Cas系统，TALEN，锌指，或能够切割特定DNA序列处的dsDNA的任何其他蛋白质-蛋白质复合物，蛋白质-RNA复合物，或蛋白质-蛋白质-RNA复合物。

条款4.条款1-3中任一项所述的方法，其中：

所述第一靶位点的DNA序列包含重复一次的第一子序列；并且所述第一同源修复模板包含：

3’端序列和5’端序列，各自编码与所述第一子序列互补的第二子序列；和

在所述第一同源修复模板的中间中的两个邻近存在的第三子序列。

条款5.条款1-4中任一项所述的方法，其中所述第一同源修复模板选自两个潜在的同源修复模板，其中，根据所述编码方案，当邻近所述第一靶位点的部分序列时，与所述两个潜在同源修复模板的第一部分互补的DNA代表二进制数字0，并且当邻近所述第一靶位点的部分序列时，与所述两个潜在同源修复模板的第二部分互补的DNA代表二进制数字1。

条款6.条款1-5中任一项所述的方法，其还包括通过寡核苷酸合成产生所述第一同源修复模板。

条款7.条款1-6中任一项所述的方法，其还包括使用逆转录酶从核糖核酸(RNA)序列产生所述第一同源修复模板。

条款8.权利要求7所述的方法，其中使所述dsDNA与所述第一同源修复模板接触包括上调编码所述RNA序列的基因的表达。

条款9.条款1-8中任一项的方法，其还包括：

在用所述同源修复模板同源修复所述第一DSB后通过测序所述dsDNA而产生序列文件；和

解释所述序列文件以基于所述编码方案确定所述第一二进制数字。

条款10.条款1-9中任一项所述的方法，其还包括：

用所述第二酶在所述dsDNA中的所述第二靶位点处产生所述第二DSB；

根据第二二进制数字，所述第二靶位点，和所述编码方案选择第二同源修复模板；和

使所述dsDNA与所述第二同源修复模板接触，

其中所述第二同源修复模板含有用于第三酶的第三靶位点以在所述dsDNA中产生第三DSB，并且所述第二二进制数字由其后是所述第三靶位点的部分序列的所述第二靶位点的部分序列的顺序编码。

条款11.条款10所述的方法，其在使所述dsDNA与所述第一同源修复模板接触之后和在使所述dsDNA与所述第二同源修复模板接触之前，还包括以下中的至少一者：

洗涤所述dsDNA以去除所述第一同源修复模板；或

等待足以使所述第一同源修复模板的浓度降低至阈值水平以下的时间段。

条款12.条款1-11中任一项所述的方法，其中使所述dsDNA与所述第一同源修复模板接触包括用所述第一同源修复模板转化含有所述dsDNA的细胞，从而将所述dsDNA引入所述细胞中，其中所述第一同源修复模板对于所述细胞是外源的。

条款13.一种能够可遗传地存储二进制数据的细胞，所述细胞包括：

包含第一靶位点的dsDNA分子；

第一酶，其配置成在所述第一靶位点内产生DSB；

在启动子和操纵基因控制下的基因，其编码包含3’端序列和5’端序列的RNA序列；

从所述基因产生的同源修复模板，所述同源修复模板是：

(i)所述RNA序列，其中所述3’端序列和5’端序列在所述第一靶位点的至少一部分上与所述dsDNA分子的一条链互补，或

(ii)与所述RNA序列互补的ssDNA序列，其中所述3’端序列和所述5’端序列在所述第一靶位点的至少一部分上与所述dsDNA分子的一条链互补；和

工程化信号传导途径，其响应于细胞内或细胞外信号而改变所述RNA序列的转录速率。

条款14.条款13所述的细胞，其中所述第一酶是CRISPR/Cas系统，其包括指导RNA(gRNA)，所述指导RNA包含在所述第一靶位点处与所述dsDNA的一条链互补的间隔子区域。

条款15.条款13或14中任一项所述的细胞，其中所述同源修复模板包含与第二靶位点互补的区域，使得所述同源修复模板在所述第一靶位点内修复所述DSB将所述第二靶位点引入所述dsDNA分子中，所述第二靶位点由第二酶使用以在所述第二靶位点内产生DSB。

条款16.条款13-15中任一项所述的细胞，其中所述工程化信号传导途径包括G蛋白偶联受体，光感受器，热传感器或膜结合免疫球蛋白(mlg)中的至少一种。

条款17.条款13-16中任一项所述的细胞，其还包含另外的dsDNA分子，其包含另外一次出现的所述靶位点，其中所述dsDNA分子仅含有单一一次出现的所述靶位点，并且所述另外的dsDNA分子仅含有单一一次出现的所述靶位点。

条款18.一种方法，其包括：

用第一酶在dsDNA中的第一靶位点中产生第一DSB；

将所述dsDNA与第一同源修复模板接触，所述第一同源修复模板包含与所述第一靶位点的第一部分互补的3’端序列和与所述第一靶位点的第二部分互补的5’端序列，其中邻近通过所述第一DSB的修复产生的dsRNA的部分的所述第一靶位点的部分根据第一编码方案编码第一二进制数字，并且与所述第一同源修复模板的中间部分互补的DNA序列包含根据所述第一编码方案的第二靶位点；

使用第二酶在所述dsDNA中的第三靶位点中产生第二DSB，所述第三靶位点具有与所述第一靶位点不同的序列并且是从所述第一靶位点移除至少一个碱基对(bp)；和

将所述dsDNA与第二同源修复模板接触，所述第二同源修复模板包含与所述第三靶位点的第一部分互补的3’端序列和与所述第三靶位点的第二部分互补的5’端序列，其中邻近通过修复所述第二DSB产生的所述dsRNA的部分的所述第三靶位点的一部分的序列根据第二编码方案编码第二二进制数字，并且与所述第二同源修复模板的中间部分互补的DNA序列包含根据所述第二编码方案的第四靶位点。

条款19.条款18所述的方法，其中所述第一编码方案与所述第二编码方案正交，使得属于所述第一靶位点和第二靶位点的靶位点都不同于所述第三靶位点或所述第四靶位点。

条款20.条款18或19中任一项所述的方法，其中所述方法至少部分地在无细胞系统中实施，所述dsDNA是环状dsDNA分子，并且将所述dsDNA与所述第一同源修复模板接触包括激活微流体机制以将所述第一同源修复模板移动到与所述dsDNA相同的室中。

结论

在描述本发明的上下文中使用的术语“一个/一种(a/an)”和“该/所述(the)”和类似的指代(特别是在以下权利要求的上下文中)应被解释为涵盖单数和复数两者，除非本文另有说明或明显与上下文相矛盾。

本文所述的所有方法可以以任何合适的顺序进行，除非本文另有说明或明显与上下文相矛盾。本文提供的任何和所有实施例或示例性语言(例如，“例如”)的使用仅旨在更好地示意说明本发明，而不是对另外地要求保护的本发明的范围加以限制。说明书中的语言不应被解释为表示任何未要求保护的要素对于本发明的实践是必不可少的。

本文公开的发明的替代性要素或实施方式的分组不应被解释为限制。每个组成员可以单独地或与该组中的其他成员或见于本文中的其他要素任意组合地提及和要求保护。出于方便和/或可专利性的原因，预期组中的一个或多个成员可以被包括在组中或从组中删除。当任何这样的包括或删除发生时，说明书被认为含有经修改的组，因此满足随附权利要求中使用的所有马库什组的书面描述。

本文描述了某些实施方式，包括发明人已知用于实施本发明的最佳模式。当然，在阅读前面的描述后，对这些描述的实施方式的变化对于本领域普通技术人员将变得显而易见。技术人员将知道如何适当地采用这样的变化，并且本文公开的实施方式可以以不同于具体描述的方式另外地实践。因此，本文所附权利要求中记载的主题内容的所有修改和等同方式被包括在本公开的范围内。而且，本发明涵盖上述元件以其所有可能变化方式的任何组合，除非本文另有说明或明显与上下文相矛盾。

此外，在整个说明书中已经提到出版物、专利和/或专利申请(统称为“参考文献”)。引用的参考文献的特定的引用的教导及其公开的所有单独通过引用并入本文。

尽管已经用特定于结构特征和/或方法学动作的语言描述主题内容，但应理解，随附权利要求书中限定的主题内容不必限于上述具体特征或动作。而是具体特征和动作是作为实施权利要求的实例形式而公开。

Claims

1.一种在双链脱氧核糖核酸(dsDNA)中编码二进制数字的方法，所述方法包括：

用第一酶在所述dsDNA的第一靶位点处产生第一双链断裂(DSB)；

根据第一二进制数字、所述第一靶位点和编码方案选择第一同源修复模板；和

将所述dsDNA与所述第一同源修复模板接触，

其中所述第一同源修复模板含有与用于第二酶的第二靶位点互补的区域以在所述dsDNA中产生第二DSB，并且所述第一二进制数字按照所述第一靶位点的部分序列与所述第二靶位点的部分序列连续的顺序编码，其中所述第一靶位点的部分序列和所述第二靶位点的部分序列两者独立地是5至20个核苷酸。

2.权利要求1所述的方法，其中所述第一靶位点在制造所述第一DSB时在所述dsDNA中是独特的。

3.权利要求1所述的方法，其中所述第一酶包含限制酶、规律间隔成簇短回文重复序列/CRISPR相关蛋白(CRISPR/Cas)核酸酶、转录激活因子样效应核酸酶(TALEN)、归巢内切核酸酶(HE)或锌指核酸酶(ZFN)。

4.权利要求1所述的方法，其中：

在所述3’端序列和所述5’端序列之间的所述第一同源修复模板中的两个邻近存在的第三子序列。

5.权利要求1所述的方法，其中所述第一同源修复模板选自两个潜在的同源修复模板，其中，根据所述编码方案，当邻近所述第一靶位点的所述部分序列时，与所述两个潜在同源修复模板的第一部分互补的DNA代表二进制数字0，并且当邻近所述第一靶位点的所述部分序列时，与所述两个潜在同源修复模板的第二部分互补的DNA代表二进制数字1。

6.权利要求1所述的方法，其还包括通过寡核苷酸合成产生所述第一同源修复模板。

7.权利要求1所述的方法，其还包括通过使用逆转录酶从核糖核酸(RNA)序列产生所述第一同源修复模板。

8.权利要求7所述的方法，其中将所述dsDNA与所述第一同源修复模板接触包括上调编码所述RNA序列的基因的表达。

9.权利要求1所述的方法，其还包括：

10.权利要求1所述的方法，其还包括：

根据第二二进制数字、所述第二靶位点和所述编码方案选择第二同源修复模板；和

使所述dsDNA与所述第二同源修复模板接触，

其中所述第二同源修复模板含有用于第三酶的第三靶位点以在所述dsDNA中产生第三DSB，并且所述第二二进制数字按照所述第二靶位点的部分序列、其后是所述第三靶位点的部分序列的顺序编码。

11.权利要求10所述的方法，其在使所述dsDNA与所述第一同源修复模板接触之后和在使所述dsDNA与所述第二同源修复模板接触之前，还包括以下中的至少一者：

洗涤所述dsDNA以去除所述第一同源修复模板；或

12.权利要求1所述的方法，其中使所述dsDNA与所述第一同源修复模板接触包括用所述第一同源修复模板转化含有所述dsDNA的细胞，从而将所述dsDNA引入所述细胞，其中所述第一同源修复模板对于所述细胞是外源的。

13.一种能够可遗传地存储二进制数据的细胞，所述细胞包括：

包含第一靶位点的双链DNA(dsDNA)分子；

第一酶，其配置成在所述第一靶位点内产生DSB；

从所述基因产生的同源修复模板，所述同源修复模板是：

(ii)与所述RNA序列互补的ssDNA序列，其中所述3’端序列和所述5’端序列在所述第一靶位点的至少一部分上与所述dsDNA分子的一条链互补；

其中所述同源修复模板包含与第二靶位点互补的区域，使得所述同源修复模板在所述第一靶位点内修复所述DSB将所述第二靶位点引入所述dsDNA分子中，所述第二靶位点由第二酶使用以在所述第二靶位点内产生DSB；和

14.权利要求13所述的细胞，其中所述第一酶是CRISPR/Cas系统，其包括指导RNA(gRNA)，所述指导RNA包含在所述第一靶位点处与所述dsDNA的一条链互补的间隔子区域。

15.权利要求13所述的细胞，其中所述工程化信号传导途径包括G蛋白偶联受体，光感受器，热传感器或膜结合免疫球蛋白(mlg)中的至少一种。

16.权利要求13所述的细胞，其还包含另外的dsDNA分子，其包含另外一次出现的所述靶位点，其中所述dsDNA分子仅含有单一一次出现的所述靶位点，并且所述另外的dsDNA分子仅含有单一一次出现的所述靶位点。

17.一种方法，其包括：

用第一酶在dsDNA中的第一靶位点中产生第一DSB；

使包含所述第一DSB的所述dsDNA与第一同源修复模板接触，所述第一同源修复模板包含与所述第一靶位点的第一部分互补的3'-端序列和与所述第一靶位点的第二部分互补的5'-端序列，

其中所述第一靶位点的第一部分和所述第一靶位点的第二部分两者独立地是5至20个核苷酸，

其中与通过修复所述第一DSB产生的dsDNA连续的所述第一靶位点的一部分根据第一编码方案编码第一二进制数字，并且与所述第一同源修复模板在所述3'-端序列和所述5'-端序列之间的序列互补的DNA序列根据所述第一编码方案包含第二靶点；

使用第二酶在所述dsDNA中的第三靶位点中产生第二DSB，所述第三靶位点具有与所述第一靶位点不同的序列，并且是从所述第一靶位点移除至少一个碱基对(bp)；和

使所述dsDNA与第二同源修复模板接触，所述第二同源修复模板包含与所述第三靶位点的第一部分互补的3'-端序列和与所述第三靶位点的第二部分互补的5'-端序列，

其中所述第三靶位点的第一部分和所述第三靶位点的第二部分两者独立地是5至20个核苷酸，

其中邻近通过修复所述第二DSB产生的所述dsDNA的所述第三靶位点的5和20个核苷酸之间的序列根据第二编码方案编码第二二进制数字，并且与所述第二同源修复模板在所述3'端序列和所述5'端序列之间的序列互补的DNA序列根据所述第二编码方案包含第四靶位点。

18.权利要求17所述的方法，其中所述第一编码方案与所述第二编码方案正交，使得属于所述第一靶位点和第二靶位点的靶位点都不同于所述第三靶位点或所述第四靶位点。

19.权利要求17所述的方法，其中所述方法至少部分地在无细胞系统中实施，所述dsDNA是环状dsDNA分子，并且将所述dsDNA与所述第一同源修复模板接触包括激活微流体机制以将所述第一同源修复模板移动到与所述dsDNA相同的室中。

20.一种在细胞内的多核苷酸中编码二元数据的方法，所述方法包括：

接收指示第一二进制数字的第一外部信号；

通过HDR将第一同源定向修复(HDR)模板插入双链多核苷酸中，所述第一HDR模板根据情境依赖性代码表示第一二进制数字；

基于所述第一二进制数字产生第一分子信号，其中所述第一分子信号的存在使所述细胞处于第一状态；

接收指示第二二进制数字的第二外部信号；和

通过HDR将第二HDR模板插入通过插入所述第一HDR模板产生的切割位点，所述第二HDR模板根据所述情境依赖性代码并基于处于所述第一状态的所述细胞而表示第二二进制数字。

21.权利要求20所述的方法，其中所述第一分子信号包含激活与所述细胞的所述第一状态相关的启动子的转录因子。

22.权利要求20所述的方法，其中所述第二HDR模板包含与所述双链多核苷酸上的靶位点的相应部分同源的3'端序列和5'-端序列，和中间区域，所述中间区域包含表示所述第二二进制数字的标识符区域和具有基于所述第一状态的序列的另外的靶位点。

23.权利要求20所述的方法，其中所述情境依赖性代码防止相同多核苷酸序列邻近地插入所述双链多核苷酸。

24.权利要求20所述的方法，其还包括：

基于所述第二二进制数字产生第二分子信号，所述第二分子信号的存在使所述细胞处于不同于所述第一状态的第二状态；

接收指示第三二进制数字的第三外部信号；和

通过HDR将第三HDR模板插入通过插入所述第二HDR模板产生的切割位点，所述第三HDR模板根据所述情境依赖性代码和基于处于所述第二状态的所述细胞而表示所述第三二进制数字。

25.权利要求24所述的方法，其中所述第一状态是双稳态分子开关的第一稳定状态，并且所述第二状态是所述双稳态分子开关的第二状态。