CN109072243A

CN109072243A - 通过crispr-cas系统进行的分子记录的方法和系统

Info

Publication number: CN109072243A
Application number: CN201780024247.9A
Authority: CN
Inventors: G·M·丘奇; S·L·希普曼; J·D·麦克里斯; J·M·尼瓦拉
Original assignee: Harvard College
Current assignee: Harvard College
Priority date: 2016-02-18
Filing date: 2017-02-16
Publication date: 2018-12-21
Also published as: US20230212563A1; WO2017142999A3; WO2017142999A2; EP3417065A2; US20210230588A1; US11326161B2; EP3417065A4

Abstract

本发明提供了改变细胞的方法，包括向细胞提供编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列，向细胞提供包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述细胞表达Cas1蛋白和/或Cas2蛋白，并且其中所述CRISPR阵列核酸序列在细胞的基因组DNA内或在质粒上。还提供了用于将事件核酸储存和体内分子记录到细胞中的方法和系统。

Description

通过CRISPR-CAS系统进行的分子记录的方法和系统

相关申请数据

本申请要求2016年2月18日提交的美国临时申请号62/296,812和2016年9月16日提交的美国临时申请号62/395,738的优先权，其全部内容通过引用纳入本文用于所有目的。

政府权益的声明

本发明是在国立卫生研究院(National Institutes of Health)授予的基金号AG000222、MH103910和NS045523下由政府资助完成。政府对本发明拥有一定的权利。

背景技术

DNA在编码、保存和传播信息方面具有无与伦比的优势(GM Church，Y.Gao,S.Kosuri,DNA中的下一代数字信息存储(Next-generation digital informationstorage in DNA)，Science 337,1628(2012)；Epub在线发布，9月28日(10.1126/science.1226355))。DNA测序成本的急剧下降现在使得大规模读出这些信息变得切实可行(J.Shendure,H.Ji,下一代DNA测序(Next-generation DNA sequencing).Nat Biotechnol26,1135-1145(2008)；EpubOct在线公开(10.1038/nbt1486))。然而，由于缺乏可以利用任何接近核酸空间的完全编码能力的生物学相容的记录系统，将任意信息写入DNA(特别是在活细胞的基因组内)的能力受到限制。

已经探索了许多旨在将信息记录到细胞内的方法(D.R.Burrill,P.A.Silver,“制造细胞记忆(Making cellular memories)”.Cell 140,13-18(2010)；Epub在线公开1月8日(10.1016/j.cell.2009.12.034))。一些系统使用反馈回路和切换在转录水平编码事件。参见N.T.Ingolia,A.W.Murray,正反馈回路作为灵活的生物模块(Positive-feedback loopsas a flexible biological module).Current biology:CB 17,668-677(2007)；Epub在线公开，4月17日(10.1016/j.cub.2007.03.016),C.M.Ajo-Franklin,D.A.Drubin,J.A.Eskin,E.P.Gee,D.Landgraf,I.Phillips,P.A.Silver,真核细胞中记忆的合理设计(Rational design of memory in eukaryotic cells).Genes&development 21,2271-2276(2007)；Epub在线公开，9月15日(10.1101/gad.1586107),D.R.Burrill,M.C.Inniss,P.M.Boyle,P.A.Silver,用于追踪人类细胞命运的合成记忆电路(Synthetic memorycircuits for tracking human cell fate).Genes&development 26,1486-1497(2012)；Epub在线公开，7月1日(10.1101/gad.189035.112),T.S.Gardner,C.R.Cantor,J.J.Collins,构建大肠杆菌中的遗传切换开关(Construction of a genetic toggleswitch in Escherichia coli).Nature403,339-342(2000)；Epub在线公开，1月20日(10.1038/35002131),D.Greber,M.D.El-Baba,M.Fussenegger,内含编码的siRNA改善了哺乳动物基因调控系统和拨动开关的动态范围(Intronically encoded siRNAs improvedynamic range of mammalian gene regulation systems and toggle switch).Nucleicacids research 36,e101(2008)；Epub在线公开，9月(10.1093/nar/gkn443),M.R.Atkinson,M.A.Savageau,J.T.Myers,A.J.Ninfa,遗传电路的开发，展示了大肠杆菌中的拨动开关或振荡行为(Development of genetic circuitry exhibiting toggleswitch or oscillatory behavior in Escherichia coli).Cell 113,597-607(2003)；Epub在线公开，5月30日,H.Kobayashi,M.Kaern,M.Araki,K.Chung,T.S.Gardner,C.R.Cantor,J.J.Collins,可编程细胞：连接天然和工程基因网络(Programmable cells:interfacing natural and engineered gene networks).Proc Natl Acad Sci U S A101,8414-8419(2004)；Epub在线公开，6月1日(10.1073/pnas.0402940101),N.Vilaboa,M.Fenna,J.Munson,S.M.Roberts,R.Voellmy,Novel基因开关，用于靶向和定时表达目的蛋白质(Novel gene switches for targeted and timed expression of proteins ofinterest).Molecular therapy:the journal of the American Society of GeneTherapy 12,290-298(2005)；Epub在线公开，8月(10.1016/j.ymthe.2005.03.029),B.P.Kramer,M.Fussenegger,合成哺乳动物基因网络中的滞后现象(Hysteresis in asynthetic mammalian gene network).Proc Natl Acad Sci U S A 102,9517-9522(2005)；Epub在线公开，7月5日(10.1073/pnas.0500345102),D.R.Burrill,P.A.Silver,合成电路识别具有DNA损伤的持续记忆的亚群(Synthetic circuit identifiessubpopulations with sustained memory of DNA damage).Genes&development 25,434-439(2011)；Epub在线公开，3月1日(10.1101/gad.1994911),M.Wu,R.Q.Su,X.Li,T.Ellis,Y.C.Lai,X.Wang,规范随机细胞命运决定的工程(Engineering of regulated stochasticcell fate determination).Proc Natl Acad Sci U S A 110,10610-10615(2013)；Epub在线公开，6月25日(10.1073/pnas.1305423110)。一些系统将信息永久地编码到基因组中，最常使用重组酶通过DNA区段的取向存储信息。参见T.S.Ham,S.K.Lee,J.D.Keasling,A.P.Arkin,设计和构建用于可遗传序列遗传记忆的双反转重组开关(Design andconstruction of a double inversion recombination switch for heritablesequential genetic memory).PLoS One 3,e2815(2008)10.1371/journal.pone.0002815),T.S.Moon,E.J.Clarke,E.S.Groban,A.Tamsir,R.M.Clark,M.Eames,T.Kortemme,C.A.Voigt,构建遗传多路复用器以在大肠杆菌中化学感应途径之间切换(Construction of a genetic multiplexer to toggle between chemosensorypathways in Escherichia coli).Journal of molecular biology 406,215-227(2011)；Epub在线公开Feb 18(10.1016/j.jmb.2010.12.019),J.Bonnet,P.Subsoontorn,D.Endy,通过重组方向性的工程控制在活细胞中重写数字数据存储(Rewritable digital datastorage in live cells via engineered control of recombinationdirectionality).Proc Natl Acad Sci U S A 109,8884-8889(2012)；Epub在线公开，Jun5(10.1073/pnas.1202344109),L.Yang,A.A.Nielsen,J.Fernandez-Rodriguez,C.J.McClune,M.T.Laub,T.K.Lu,C.A.Voigt,具有>1字节容量的永久遗传记忆(Permanentgenetic memory with>1-byte capacity).Nat Methods 11,1261-1266(2014)；Epub在线公开，12月(10.1038/nmeth.3147),P.Siuti,J.Yazbek,T.K.Lu,合成电路在活细胞中整合逻辑和记忆(Synthetic circuits integrating logic and memory in living cells).Nat Biotechnol 31,448-452(2013)；Epub在线公开，May(10.1038/nbt.2510).虽然这些系统中的大多数是有效的二元系统，但是最近也对模拟记录系统(参见F.Farzadfard,T.K.Lu,Synthetic biology.基因组编码的模拟记忆，在活细胞群中精确的体内DNA书写(Genomically encoded analog memory with precise in vivo DNA writing in livingcell populations).Science 346,1256272(2014)；Epub在线公开，11月14日(10.1126/science.1256272))和数字计数装置(参见A.E.Friedland,T.K.Lu,X.Wang,D.Shi,G.Church,J.J.Collins,进行计算的合成基因网络(Synthetic gene networks thatcount).Science 324,1199-1202(2009)；Epub在线公开，5月29日(10.1126/science.1172005))做出了努力。尽管做了这些努力，但仅仅是一个字节的信息的记录和遗传存储仍然遥不可及(参见L.L.Yang,A.A.Nielsen,J.Fernandez-Rodriguez,C.J.McClune,M.T.Laub,T.K.Lu,C.A.Voigt,具有>l字节容量的永久遗传记忆(Permanentgenetic memory with>1-byte capacity).Nat Methods 11,1261-1266(2014)；Epub在线公开，12月(10.1038/nmeth.3147))。

免疫记忆对于生物体的适应性免疫应答是必不可少的，因此必然是将分子事件记录到活细胞中的有效且稳健的形式。CRISPR-Cas系统是原核生物和古细菌使用的近期知晓的适应性免疫形式(参见R.Barrangou,C.Fremaux,H.Deveau,M.Richards,P.Boyaval,S.Moineau,D.A.Romero,P.Horvath,CRISPR在原核生物中提供对病毒的获得性抗性(CRISPR provides acquired resistance against viruses in prokaryotes).Science315,1709-1712(2007)；Epub在线公开，3月23日(10.1126/science.1138140))。该系统通过在基因组阵列中存储病毒DNA的短序列来记住过去的感染。这些获得的序列在它们的天然病毒环境中被称为原型间隔区，并且一旦它们被插入CRISPR阵列中就被称为间隔区。重要的是，新的间隔区在旧间隔区之前整合到CRISPR阵列中(I.Yosef,M.G.Goren,U.Qimron，蛋白质和DNA元件对于大肠杆菌中的CRISPR适应过程是必需的.Nucleic acids research40,5569-5576(2012)；Epub在线公开，7月(10.1093/nar/gks216))。随着时间的推移，间隔区序列的长记录可以存储在基因组阵列中，按照获得它们的顺序排列。因此，CRISPR阵列用作入侵核酸的高容量时间记忆库。然而，需要可以引导将特定和任意DNA序列记录到原核和真核细胞的基因组中的CRISPR-Cas系统。

发明内容

本公开内容解决了这种需要，并且基于以下发现：可以将特定和任意DNA序列引入并记录到细胞基因组中。根据一个方面，提供了改变细胞的方法。该方法包括向细胞提供编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列，向细胞提供包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述细胞表达Cas1蛋白和/或Cas2蛋白，并且其中所述CRISPR阵列核酸序列在细胞的基因组DNA内或在质粒上。在一个实施方式中，该方法还包括向细胞提供包含原型间隔区的寡核苷酸序列。在另一个实施方式中，原型间隔区是定义的合成DNA。在一个实施方式中，寡核苷酸序列包括修饰的“AAG”原型间隔区相邻基序(PAM)。在另一个实施方式中，将编码Cas1蛋白和/或Cas2蛋白的核酸序列在载体内提供给细胞。在某些实施方式中，细胞是原核细胞或真核细胞。在一个实施方式中，原核细胞是大肠杆菌。在另一个实施方式中，大肠杆菌是BL21-AI。在一个实施方式中，真核细胞是酵母细胞，植物细胞或哺乳动物细胞。在某些实施方式中，细胞缺乏内源性Cas1和Cas2蛋白。在一个实施方式中，编码Cas1蛋白和/或Cas2蛋白的核酸序列包含诱导型启动子，用于诱导Cas1和/或Cas2蛋白的表达。在另一个实施方式中，编码Cas1蛋白和/或Cas2蛋白的核酸序列包括可在真核细胞中操作的第一调控元件。在一个实施方式中，编码Cas1蛋白和/或Cas2蛋白的核酸序列经密码子优化以在真核细胞中表达Cas1和/或Cas2。在另一个实施方式中，通过将寡核苷酸序列插入CRISPR阵列核酸序列来改变细胞。

根据另一方面，提供了一种工程化的非天然存在的细胞。在一个实施方式中，细胞包括编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列，其中所述细胞表达Cas1蛋白和/或Cas2蛋白。在另一个实施方式中，细胞包括CRISPR阵列核酸序列，其包括前导序列和至少一个重复序列，其中CRISPR阵列核酸序列插入细胞的基因组DNA中或在质粒上。在另一个实施方式中，细胞还包含至少一种寡核苷酸序列，其包括插入CRISPR阵列核酸序列的原型间隔区。

根据一方面，提供了一种工程化的非天然存在的细胞。在一个实施方式中，细胞包含编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列，和包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述细胞表达Cas1蛋白和/或Cas2蛋白，并且其中所述CRISPR阵列核酸序列插入细胞的基因组DNA内或在质粒上。

根据另一方面，提供了将靶DNA序列插入细胞的基因组DNA内的方法。在一个实施方式中，该方法包括向细胞给予靶DNA序列，包括编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述细胞表达Cas1蛋白和/或Cas2蛋白，并且其中所述CRISPR阵列核酸序列在细胞的基因组DNA内或在质粒上，并且其中靶DNA序列在细胞内的下述条件下给予，所述细胞内Cas1蛋白和/或Cas2蛋白加工所述靶DNA，并将靶DNA相邻于相应重复序列插入CRISPR阵列核酸序列。在一个实施方式中，靶DNA序列是原型间隔区。在另一个实施方式中，靶DNA原型间隔区是定义的合成DNA。在另一个实施方式中，靶DNA序列包括修饰的“AAG”原型间隔区相邻基序(PAM)。在某些实施方式中，重复给予步骤，使得多个靶DNA序列在相应的重复序列处插入CRISPR阵列核酸序列中。在一个实施方式中，将编码Cas1蛋白和/或Cas2蛋白的核酸序列在载体内提供给细胞。

根据一个方面，提供了核酸储存系统。在一个实施方式中，核酸储存系统包括工程化的非天然存在的细胞，其包括编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述细胞表达Cas1蛋白和/或Cas2蛋白，并且其中CRISPR阵列核酸序列在细胞的基因组DNA内或在质粒上。在一个实施方式中，至少一个寡核苷酸序列包含插入到CRISPR阵列核酸序列中的原型间隔区。

根据另一方面，提供了将分子事件记录到细胞中的方法。在一个实施方式中，该方法包括给予含有关于细胞中分子事件信息的一个或多个DNA序列，包括编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述细胞表达Cas1蛋白和/或Cas2蛋白，并且其中所述CRISPR阵列核酸序列在细胞的基因组DNA内或在质粒上，并且其中所述DNA序列在细胞内的下述条件下给予，所述细胞内Cas1蛋白和/或Cas2蛋白加工所述DNA，并将DNA相邻于相应重复序列插入CRISPR阵列核酸序列。在某些实施方式中，重复给予步骤，使得多个DNA序列在相应的重复序列处插入CRISPR阵列核酸序列中。在一个实施方式中，给予多个DNA序列。在另一个实施方式中，DNA序列包括原型间隔区。在另一个实施方式中，原型间隔区是定义的合成DNA。在一个实施方式中，DNA序列包括修饰的“AAG”原型间隔区相邻基序(PAM)。在某些实施方式中，分子事件包括转录动力学，分子相互作用，信号传导途径，受体调节，钙浓度和电活动。在一个实施方式中，记录的分子事件被解码。在另一个实施方式中，解码通过测序进行。在又一个实施方式中，通过测序进行的解码包括使用来自单个细胞中的采集的间隔区对的顺序信息来推算和推断整个细胞群内的所有记录序列的顺序信息。在一个实施方式中，以时间方式将多个DNA序列记录到细胞的特定基因组基因座中。在另一个实施方式中，以序列特异和/或方向特异方式将DNA序列记录到细胞的基因组中。在一个实施方式中，DNA序列包括修饰的“AAG”原型间隔区相邻基序(PAM)。在另一个实施方式中，修饰的PAM被特定的cas1和/或cas2突变体识别。在一个实施方式中，原型间隔区经条形码化。

根据另一方面，提供了一种用于体内分子记录的系统。在一个实施方式中，系统包括工程化的非天然存在的细胞，其包括编码CRISPR适应系统的cas1蛋白和/或cas2蛋白的核酸序列和包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述细胞表达cas1蛋白和/或cas2蛋白，并且其中CRISPR阵列核酸序列在细胞的基因组DNA内或在质粒上。在某些实施方式中，系统以单个或多个模态记录。在一个实施方式中，多模态记录包括通过特定cas1或cas2突变体的定向进化来改变Cas1PAM识别。

根据一个方面，本公开提供将分子事件定向记录到细胞中的试剂盒，其包括工程化的非天然存在的细胞，所述细胞包括编码CRISPR适应系统的cas1蛋白和/或cas2蛋白的核酸序列和包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述细胞表达cas1蛋白和/或cas2蛋白，并且其中CRISPR阵列核酸序列在细胞的基因组DNA内或在质粒上。

应注意，在该公开文件以及特别在权利要求和/或段落中，诸如“包含”等的术语具有美国专利法中对其赋予的含义，例如，其可表示“包括”等；且诸如“基本由……组成”的术语具有美国专利法中对其赋予的含义，例如，其允许未明确列出的要素，但排除发现于现有技术中或影响本发明基本或新颖性的要素。

本发明的某些实施方式的其他特征和优势将在权利要求中以及以下附图和实施方式的说明下更为显而易见。

附图说明

本专利或申请文件包含至少一幅有色附图。本专利或专利申请公开与彩色附图的副本将根据要求，在支付所需的费用之后由政府机关提供。结合附图，通过以下示例性实施方式的详述能够更清楚地理解本发明的上述和其他特征和其他优点，其中：

图1A-1I描绘了合成间隔区的采集。图1A显示I-E型CRISPR采集系统的最小元件的示意图，使用包括Cas1，Cas2，以及具有前导(L)、重复(R)和间隔区(S)的阵列以及过夜诱导Casl-Cas2后的扩增的阵列的PCR检测。图1B显示新间隔区(质粒或基因组)的起点的平均值±SEM。图1C显示过夜诱导后的基因组和质粒衍生的间隔区被映射回其原型间隔区的大致位置(以红色标记)。图1D显示了电穿孔后的阵列扩增(顶部)和合成寡核苷酸原型间隔区的特异性采集(底部)。顶部示意图显示了实验概况。每个凝胶下的示意图显示特定的PCR策略。图1E显示了用各种单链和双链寡核苷酸电穿孔后的正向(顶部)或反向(底部)取向的序列特异性采集。5'PT表示在5'末端对寡核苷酸进行硫代磷酸酯修饰。图1F显示电穿孔后的扩增时间过程，平均值±SEM。图1G显示了通过间隔区源扩增的阵列百分比作为电穿孔寡核苷酸浓度的函数，平均值±SEM。图1H显示新间隔区相对于前导区的位置，平均值±SEM。图1I显示了碱基对中新间隔区的大小，平均值±SEM。所有凝胶代表≥3次生物学重复，*表示p<0.05，其他统计细节见图21。

图2A-2E与图1A-1I相关。图2A描绘了初始实验(图1A-1C，利用过夜诱导和Sanger测序分析)，其显示了从基因组和质粒采集的新间隔区相对于前导区的位置，平均值+SEM。图2B描绘了初始实验，其显示了从基因组和质粒以碱基对采集的新间隔区的大小，平均值±SEM。图2C描绘了有或没有电穿孔的阵列扩增。顶部示意图显示了实验概况。凝胶下的示意图显示了PCR策略。图2D描绘了PCR测定，其检查DNA、RNA或DNA-RNA杂合寡核苷酸原型间隔区的序列特异性采集。图2E描绘了来自图1G的一个序列特异性间隔区重复的凝胶电泳分析。凝胶上方的数字表示寡核苷酸浓度(μM)。所有凝胶代表≥3次生物学重复，其他统计细节见图21。

图3A-3J描绘了改变间隔区采集的效率和取向的PAM。图3A显示了基因组-(计数/10kb)和质粒-(覆盖/碱基)衍生的间隔区，其映射至它们在正向(紫色)或反向(绿色)链上的原型间隔区位置。图3B显示了正向(紫色)或反向(绿色)取向的寡核苷酸衍生的间隔区的方向，平均值±SEM。图3C显示基于896种独特的基因组和质粒衍生的原型间隔区生成的代表性序列pLOGO(J.P.O'Shea,M.F.Chou,S.A.Quader,J.K.Ryan,G.M.Church,D.Schwartz,pLogo：可视化序列基序的概率方法.Nat Methods 10,1211-1212(2013)；Epub在线公开，12月(10.1038/nmeth.2646))。原型间隔区的五个碱基包括在间隔区的每个末端。图3D显示了在553个核苷酸的段的每个核苷酸处，三次重复之间的映射到质粒的总和间隔区覆盖图。胡萝卜(Carrots)在正向(紫色)或反向(绿色)链上划分规范的PAM。比例尺为33个碱基。个体重复如下所示。图3E显示了对于不同的寡核苷酸原型间隔区，通过间隔区源扩增的阵列的百分比，平均值±SEM。图3F显示了对于不同的寡核苷酸原型间隔区，在正向与反向取向中采集的寡核苷酸衍生的间隔区的比率，平均值±SEM。图3G-3J显示了通过在各寡核苷酸的正向和反向方向采集的碱基的寡核苷酸衍生的间隔区的标准化表示。图3I和图3J中的柱长33个碱基，以显示从寡核苷酸原型间隔区中提取的优势和少数间隔区。对于所有图，*表示p<0.05，其他统计细节在图21中。

图4A-4F与图3A-3J相关。图4A显示原型间隔区采集的频率作为所有潜在质粒原型间隔区的标准化计数，所述质粒原型间隔区含有按从最高到最低的计数排列的5'AAG PAM，平均值±SEM。还突出显示了选择的原型间隔区psH，psM和psL。图4B显示了质粒原型间隔区的GC百分比，以与A相同的排序顺序显示。图4C显示质粒原型间隔区的自由能(ΔG)，以与A相同的排序顺序显示。图4D显示寡核苷酸衍生的间隔区的序列特异性采集，测试三种选择的原型间隔区(psH，psM和psL)。Casl-Cas2由不含任何测试的原型间隔区序列的替代质粒表达。此外，还显示了具有来自psH(psL/H)的15个碱基侧翼区域的psL和具有来自psL(psH/L)的15个碱基侧翼区域的psH的测试。图4E显示了图4D和4F中使用的寡核苷酸的核苷酸序列。图4F显示了具有各指示的寡核苷酸衍生的间隔区的扩增阵列的百分比，平均值±SEM。所有凝胶代表≥3次生物学重复，对于F，*表示p<0.05，其他统计细节见图21。

图5A-5C与图3A-3J相关。图5A显示了图3E-3J中呈现的实验的凝胶电泳分析，显示在两个方向上的序列特异性间隔区采集。每个凝胶下面的示意图显示PCR策略。图5B显示了独立于Cas2核酸酶活性(突变体E9Q)的来自58聚体寡核苷酸原型间隔区的间隔区的序列特异性采集。图5C显示当用33聚体或58聚体寡核苷酸原型间隔区电穿孔时所有间隔区采集和序列特异性采集的凝胶电泳分析。整体扩增和序列特异性采集都取决于Cas1和Cas2的组合表达。所有凝胶代表≥3次生物学重复，其他统计细节见图21。

图6A-6I与图7A-7F相关。图6A示出了1×3记录的实验概况。在三天中将三个合成的原型间隔区电穿孔到表达Cas1-Cas2的培养物中(每天一个原型间隔区)。将细胞取样用于测序的时间点标记为1-3。图6B示出说明分析的示意图，其考虑新间隔区的所有成对排序。G/P表示衍生自基因组或质粒的间隔区。顺序规则如下所示。在i＝j的情况下，*表示公差在两个值的平均值的±20％内。图6C示出了针对每个排列的测试规则的结果。绿色表示通过，红色表示失败。只有一个排列通过了所有规则，并且该排列与寡核苷酸被电穿孔的实际顺序相匹配。图6D示出了在每个采样点处的单次，双次和三次扩增。图6E示出了具有来自各采样点期间的各指示轮的间隔区的扩增阵列。图6F-6I显示了成对比较(a-l)的排序的观察计数，其用于破译C中正确的原型间隔区电穿孔序列。其他统计细节在图21中。

图7A-7F描绘了随时间的分子记录。图7A示出了3×5记录的实验概况。在五天中，将三组五个寡核苷酸原型间隔区(十五种元件)经电穿孔(每天使用三组中的每组的一个原型间隔区)进入表达Cas1-Cas2的细胞中。将细胞取样用于测序的时间点标记为1-6。图7B示出了说明新间隔区的所有可能的成对排序的示意图。G/P表示衍生自基因组或质粒的间隔区。顺序规则如下所示。在y＝z的情况下，*表示公差在两个值的平均值的±20％内。图7C显示在六个样品点中的每一个(在A中标记)中，用来自每个指定轮的合成间隔区扩增的所有阵列的百分比，平均值±SEM。图7D显示了每轮的单次、双次和三次扩增，平均值±SEM。图7E显示了在样品点6处的所有扩增的百分比，由电穿孔轮和组拆分。空心圆是单独的重复，实心柱是平均值+SEM。图7F示出了对每组中的一个重复进行排序规则分析的结果。对于所有120个排列，显示测试规则的结果(绿色表示通过，红色表示失败)。对于所有组，只有一个排列通过所有规则，并且在每种情况下，排列与寡核苷酸被电穿孔的实际顺序相匹配(如检查标记所示)。其他统计细节在图21中。

图8A-8E描绘了PAM识别的定向进化。图8A示出了定向进化方法的示意图。图8B显示了对所选突变体的测试，绘制了5'AAG与非AAG PAM原型间隔区的关系，其标准化为每100000个序列的计数。散点图显示65个诱导突变体(空心黑色圆圈)，3个诱导的野生型重复(空心绿色圆圈)，未诱导的野生型(空心红色圆圈)，诱导的突变体的平均值(实心黑色圆圈)和诱导的野生型的平均值(实心绿色圆圈)±SEM。右侧的散点图是较大图的插图。图8C显示野生型Cas1-Cas2(wt)，增加或维持AAG PAM特异性的突变体(m-27和m-24)，以及失去AAGPAM特异性的突变体(m-74，m-80，m-89)的整个序列空间上的原型间隔区PAM频率的热图。右上角的数字与B中的数字相关。图8D显示了一式三份再测定的所选突变体的子集以及选自原始选择的单点突变体的子集。所有点均为三次重复的平均值+SEM。图8E显示了与原型间隔区结合的Casl-Cas2复合物的晶体结构(参见J.Wang,J.Li,H.Zhao,G.Sheng,M.Wang,M.Yin,Y.Wang,CRISPR-Cas系统中的PAM-依赖型间隔区采集的结构和机理基础(Structural and Mechanistic Basis ofPAM-Dependent Spacer Acquisition inCRISPR-Cas Systems).Cell 163,840-853(2015)；Epub在线公开，11月5日(10.1016/j.cell.2015.10.008))。插入以红色中突出显示，(当突变时)降低PAM特异性的Cas1活性位点中的残基。还注意到原型间隔区PAM互补序列(T30T29C28，如PDB ID 5DQZ中编号)。其他统计细节在图21中。

图9A-9E与图8A-8E相关。图9A显示了定向进化方法的扩增示意图，显示了克隆步骤和平行化的原型间隔区电穿孔。图9B显示基于片段化扩增子的序列多样性的非参数物种估计而估算的文库大小(参见R.K.Colwell,J.A.Coddington,通过外推估计陆地生物多样性(Estimating terrestrial biodiversity through extrapolation)，伦敦皇家学会哲学汇刊第二辑(Philosophical transactions of the Royal Society of London.SeriesB),Biological sciences 345,101-118(1994)；Epub在线公开，7月29日(10.1098/rstb.1994.0091))。沿x轴的数字与图9A中标记的点相关。对于点4和6，空心圆是单独的平行库，实心柱是平均值±SEM。图9C显示了用于图3B中呈现的突变体的具有非AAG PAM的所有原型间隔区的分数。空心圆是单独的重复/突变体，实心柱是平均值±SEM。在第一次选择后立即测试的那些突变体与经历另外一轮精制的那些突变体之间未发现显著差异(参见图7A)。图9D显示了与从N-末端(蓝色)到C-末端(红色)在链弓(chainbow)中着色的原型间隔区结合的Cas1二聚体的晶体结构。插图显示原型间隔区(PDB ID 5DQZ)的5'TTC PAM互补核苷酸周围的局部结构。图9E显示了选择的Cas1突变体的多序列比对，所述Casl突变体以>85％的频率采集具有非AAG PAM的原型间隔区。野生型序列在E中着色。红色星形表示催化残基。以品红色和灰色突出显示的突变也独立地作为单点突变体进行测定，并且分别在采集非AAG PAM原型间隔区(相对于野生型)方面产生大于或小于10％的增加。未突出显示的残基未经独立测定。其他统计细节在图21中。

图10A-10G描绘了具有附加模态的记录。图10A示出了记录过程的概况。三种不同的合成原型间隔区(各自在正向链上含有5'AAG PAM，在反向上含有5'TCGPAM)在三天中(每天一个原型间隔区)电穿孔到不同诱导条件下的两种细菌培养物中(如时间线下所示)。采样时间点编号为1-3。图10B显示了所用质粒构建体的示意图，显示了由独立诱导型启动子(分别为T7lac和pLtetO)驱动的野生型和PAMNC突变体(m-89)Cas1-Cas2。热图显示野生型(黄色框)和突变体m-89(红色框)的5'PAM特异性。图10C显示在三个样品点(在B中标记)中的每一个处，具有来自两个条件的每个指示轮次的间隔区的扩增阵列的百分比，平均值±SEM。图10D-10F显示了在每种条件下每轮在正向和反向方向上采集的合成间隔区的比率，平均值±SEM。图10G示出了正向与反向积分的比率，其标准化为两个条件中的每一个的两个可能取向的总和，均值±SEM。对于所有图，*表示p<0.05，其他统计细节在图21中。

图11描绘了细胞记录策略的比较。对于以前的出版物的选择，编码的信息量(以字节为单位)与出版日期相对应。每个出版物都有两个点，在给定特定合成工具和分析(圆圈)的情况下可以在单个细胞中编码的理论最大字节数，以及在单个报告的实验中在细胞群中编码的最大字节数(正方形)。颜色区分利用转录编码的方法(品红色)和编码信息到DNA中的方法(绿色)。

图12A-12H涉及将图像记录到基因组中。图12A示出了在许多原型间隔区上编码像素值，所述原型间隔区被电穿孔到过量表达Cas1和Cas2的细菌群体中以存储图像数据。这些细菌可以经存档、繁殖、并最终测序以召回图像。图12B示出了待编码的初始图像。图12C显示核苷酸-颜色编码方案。图12D示出了编码方案的两个示例。顶部的序列显示了原型间隔区线性视图，其中带有像素代码，后跟像素值，这些像素值分布在图像上。右下方显示了用于电穿孔的最小发夹形式的相同原型间隔区。图12E显示了实验结果。显示深度为655,360读数的三次重复。图12F示出了作为读取深度的函数的精确召回的像素的百分比。图12G显示了对测序读数进行下采样(down-sampling)得到的图像的实例。图12H示出了提供较少寡核苷酸对召回准确性的影响。

图13A-13C与图12A-12H相关。图13A显示了在下示序列的电穿孔后扩增的阵列的百分比，其旨在测试顶部和底部链上的PAM包含，由原型间隔区起点拆分。*表示p<0.05。图13B显示了在左侧，右侧和下方所示的序列的电穿孔后扩增的阵列的百分比，目的在于找到最小功能性发夹原型间隔区，由原型间隔区起点拆分。图13C显示了在不同浓度的最小发夹寡核苷酸原型间隔区的电穿孔后扩增的阵列的百分比，其由原型间隔区起点拆分。

图14A-14O涉及用灵活代码记录第二图像。图14A示出了要编码的第二图像。图14B示出了21种颜色的三元组编码方案。图14C示出了编码方案的两个示例。与图12D类似。图14D显示第二个实验的结果。显示深度为655,360读数的三次重复。图14E示出了作为读取深度的函数的精确召回的像素的百分比。图14F显示了对测序读数进行下采样(down-sampling)得到的图像的实例。图14G示出了提供较少寡核苷酸对召回准确性的影响。图14H示出了在编码第一(4色)和第二(21色)图像之后扩增的阵列的百分比的比较。图14I显示了4种颜色和21种颜色图像的各个原型间隔区的原型间隔区采集频率的分布(表示为寡核苷酸衍生的采集的百分比)。为了清晰起见，按照采集频率对原型间隔区进行排序。图14J显示了最常采集的10％原型间隔区的pLOGO，其中所有原型间隔区均作为背景。±3.45处的红线表示p<0.05。正方向上的核苷酸过表现，而负方向上的核苷酸低表现。图14K显示了设计用于直接测试图14J中鉴定的基序的各个序列。图14L显示了在对图14K中所示序列电穿孔后扩增的阵列的百分比，按原型间隔区起点拆分。*表示p<0.05。图14M显示含NNN的寡核苷酸的设计。图14N显示了包含每种NNN笛卡尔积的原型间隔区的采集频率的分布，作为寡核苷酸衍生的采集的百分比，按频率排序。图14O显示了衍生自含NNN的寡核苷酸的采集的间隔区中位置31,32和33处的每个核苷酸的相对表现。

图15A-15B与图14A-14O相关。图15A显示了设计用于直接测试图14J中鉴定的基序的各个序列。图15B显示了在以两个互补寡核苷酸(而不是最小寡核苷酸发夹)表示的序列的电穿孔后扩增的阵列的百分比，由原型间隔区起点拆分。*表示p<0.05。

图16A-16H涉及在细菌中编码GIF。图16A示出了要编码的GIF，以及来自第一帧的一个像素原型间隔区的示例。图16B示出了记录设计的示意图。在五天的过程中，将合并的寡核苷酸框架连续电穿孔到相同的细菌群体中。图16C显示在前三个间隔区位置具有扩增的阵列的百分比，在每个样品点处通过原型间隔区起点拆分。图16D示出了作为读取深度和帧的函数的精确召回的像素的百分比。图16E示出了在一序列深度范围处产生的图像的示例。图16F显示了由框架的各个原型间隔区的原型间隔区采集频率的分布(以寡核苷酸衍生的采集的百分比表示)。为了清晰起见，按照采集频率对原型间隔区进行排序。图16G显示了最常采集的10％原型间隔区的pLOGO，其中所有原型间隔区均作为背景。±3.45处的红线表示p<0.05。正方向上的核苷酸过表现，而负方向上的核苷酸低表现。图16H显示了以相反顺序电穿孔相同寡核苷酸的结果。

图17A-17C与图16A-16H相关。图17A显示了用不同数量的间隔区扩增的阵列的百分比，作为电穿孔轮数的函数。黑色柱是来自GIF实验的真实数据。紫色线是一种推断(参见材料和方法中的其他详细信息)。图17B示出了用于测试像素内的间隔区的顺序的初始规则集。对于给定的像素，根据这些规则测试间隔区顺序的所有排列-当在相同阵列中发现间隔区时成对比较间隔区，或者这些间隔区与源自质粒和基因组的间隔区进行比较。如果排列通过所有规则，则基于该排列将间隔区分配给帧。图17C示出了在像素之间进行比较的第二组测试。如果没有排列满足图17B中的所有测试，将间隔区与来自其他像素的先前分配的间隔区进行成对比较(当位于同一阵列中时)。测试所有可能的顺序排列，并且基于所有测试中的分数来分配顺序。

图18A-18L涉及用于纠错的图像编码方法。图18A-18D涉及图14A-14O中使用的方法。图18A示出了用于灵活地指定21种颜色的三重代码。图18B示出了要编码到核苷酸间隔中的像素的示例，其具有标记的像素值。图18C示出了规定如何构建原型间隔区的规则。图18D示出了原型间隔区的构建的示例。通过添加像素4引入的AAG是不可接受的，其将灵活的开关调用到另一个三重组。图18E-18I涉及用于纠错的交替簇的方法。图18E示出了对簇A，B和X的三重分配。图18F示出了要编码到核苷酸间隔中的像素的示例，其具有标记的像素值。图18G示出了在该方案中添加新三重组的规则。图18H示出了原型间隔区的构建的示例。通过添加像素4引入的AAG是不可接受的，其将灵活的开关调用到簇X。图18I示出了错误信号的示例。图18J-18L涉及校验和(checksum)错误校正的方法。图18J显示了添加校验和的原型间隔区的注释。图18K示出了校验和本身的注释。图18L显示了实现校验和的完整原型间隔区。

图19A和19B涉及使用本文描述的方法的信息捕获的动力学。图19A显示在一次重复的电穿孔后一系列时间点的图像召回结果。图19B显示了在每个时间点精确召回的像素的百分比(黑色)和具有寡核苷酸衍生的间隔区的阵列的百分比(红色)的定量。未填充的圆圈表示单独的生物学重复，线条表示平均值。左侧的插图仅扩增前六个小时，这是如右侧较大的完整图表所示的整个时间的子集。

图20A-20E涉及含信息的原型间隔区的序列的设计。图20A描绘了在GC百分比范围中每个寡核苷酸(单个库)或每个亚库(亚库的)扩增的阵列的百分比的数据。左侧未填充的黑色圆圈表示单独的寡核苷酸原型间隔区序列(各三个生物学重复)，而黑色线条表示平均值±SEM。右侧未填充的红色圆圈表示单个生物学重复。柱为平均值±SEM。*表示p<0.05。图20B描绘了在GC百分比范围中每个单独电穿孔的寡核苷酸扩增的阵列百分比的数据。未填充的红色圆圈是单独的生物学重复。柱表示平均值±SEM。图20C描绘了用于每个图像的最小发夹原型间隔区结构的吉布斯自由能的数据，其中原型间隔区按总采集频率排序。图20D描绘了具有不同数量的单核苷酸重复的每个寡核苷酸(单个库)或每个亚库(亚库的)扩增的阵列百分比的数据。图属性如图20A中所示。图20E描绘了具有不同数量的内PAM的每个寡核苷酸(单个库)或每个亚库(亚库的)扩增的阵列百分比的数据。图属性如图20A中所示。

图21是本文描述的实验和数据的统计细节表。

图22是本文描述的实施方式中使用的质粒表。

图23是本文描述的实施方式中使用的Cas突变体的表。

图24是本文描述的实施方式中使用的原型间隔区寡核苷酸的表。

具体实施方式

本公开的实施方式涉及通过CRISPR-Cas系统改变细胞的方法。根据某些方面，Casl-Cas2复合物将合成的寡核苷酸间隔区整合到体内细胞的基因组中。根据一个方面，可以利用经由Cas1-Cas2复合物进行的合成寡核苷酸间隔区的整合作为多模式分子记录系统。

将已鉴定的分子事件的稳定记录写入特定基因组基因座的能力将使得能够检查长细胞历史并且具有从发育生物学到合成装置的许多应用。根据一个方面，本公开内容提供了，大肠杆菌的I-E型CRISPR-Cas系统可以采集合成DNA的定义片段。根据另一方面，利用采集合成DNA的定义片段的CRISPR-Cas系统的特征，将具有>100字节信息的特定DNA序列的记录产生到细菌基因组群中。根据某些方面，本公开提供应用定向进化以改变Casl-Cas2复合物的PAM识别。在某些实施方式中，本公开将扩增记录提供为多种模式。在相关实施方式中，本公开内容提供使用该系统揭示间隔区采集的先前未知方面，其是CRISPR-Cas适应过程的基础。在某些其他实施方式中，本公开提供的结果奠定了多模式细胞内记录装置的基础，其信息容量远远超过任何先前公开的合成生物记忆系统。

在一个实施方式中，利用CRISPR-Cas系统将特定和任意DNA序列记录到细菌基因组中。在某些实施方式中，可以产生在数天内记录并以多种形式记录的定义序列的记录。在某些其他实施方式中，探索该系统以阐明天然CRISPR-Cas间隔区采集的基本方面并利用该知识来增强记录系统。

术语“多核苷酸”，“核苷酸”，“核苷酸序列”，“核酸”和“寡核苷酸”可互换使用。它们是指任何长度的核苷酸聚合形式，不论是脱氧核糖核苷酸或核糖核苷酸或它们的类似物。多核苷酸可以具有任何三维结构，并且可以进行已知或未知的任何功能。以下是多核苷酸的非限制性例子：基因或基因片段的编码或非编码区域、由连锁分析定义的基因座、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、短干扰RNA(siRNA)，短发夹RNA(shRNA)，微RNA(miRNA)，核酶、cDNA、重组多核苷酸、支链多核苷酸、质粒、载体、任意序列的分离DNA、任意序列的分离RNA、核酸探针和引物。多核苷酸可包括一个或多个修饰的核苷酸，如甲基化的核苷酸和核苷酸类似物。如果存在，对核苷酸结构的修饰可在聚合物的组装之前或之后赋予。核苷酸的序列可能由非核苷酸组分间断。多核苷酸聚合后可以被进一步修饰，如通过与标记组分结合。

术语“非天然存在的”或“工程化的”可互换使用，表示人工参与。当提及核酸分子或多肽时，该术语是指核酸分子或多肽至少基本上不含至少一种其他组分，该至少一种其他组分与所述核酸分子或多肽在天然情况下天然相关并天然存在。该术语还包括遗传修饰或改变以产生自然界中未发现的细胞或核酸。

如本文所用，“表达”是指多核苷酸从DNA模板转录(例如转录成mRNA或其他RNA转录物)的过程和/或转录的mRNA随后被翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可统称为“基因产物”。如果多核苷酸源自基因组DNA，则表达可包括真核细胞中mRNA的剪接。

术语“多肽”、“肽”和“蛋白质”在本文中可互换使用，指任何长度的氨基酸的聚合物。所述聚合物可以是线形或分支聚合物，可以包含经修饰的氨基酸，可以被非氨基酸打断。该术语也包括修饰的氨基酸聚合物；例如，二硫键形成、糖基化、脂化、乙酰化、磷酸化或任何其它操作，如与标记组分偶联。如本文所用，术语“氨基酸”包括天然和/或非天然或合成的氨基酸，包括甘氨酸和D或L光学异构体，以及氨基酸类似物和肽模拟物。

除非另有说明，本发明的实施将采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术，它们均在本领域技术范围内。参见Sambrook，Fritsch和Maniatis，MOLECULAR CLONING:ALABORATORY MANUAL(《分子克隆：实验室手册》)第二版(1989)；CURRENT PROTOCOLS IN MOLECULAR BIOLOGY(《新编分子生物学实验指南》)(F.M.Ausubel等编(1987))；METHODS IN ENZYMOLOGY(《酶学方法》丛书)(学术出版社公司(Academic Press,Inc.))：PCR 2：A PRACTICAL APPROACH(《PCR2：实践方法》)(M.J.MacPherson，B.D.Hames和G.R.Taylor编(1995))，Harlow和Lane编(1988)ANTIBODIES，A LABORATORY MANUAL(《抗体，实验室手册》)，和ANIMAL CELL CULTURE(《动物细胞培养》)(R.I.Freshney编(1987))。

通常，“CRISPR适应系统”统称为涉及表达或指导CRISPR相关(“Cas”)基因的活性的转录物和其他元件，包括编码Cas基因的序列，和CRISPR阵列核酸序列，包括前导序列和至少一个重复序列。在一些实施方式中，CRISPR适应系统的一个或多个元件衍生自I型、II型、或III型CRISPR系统。Casl和Cas2存在于所有三种类型的CRISPR-Cas系统中，并且它们参与间隔区采集。在大肠杆菌的I-E系统中，Cas1和Cas2形成复合物，其中Cas2二聚体桥接两个Cas1二聚体。在该复合物中，Cas2执行非酶促支架作用，结合入侵DNA的双链片段，而Cas1结合DNA的单链侧翼并催化它们整合到CRISPR阵列中。

在一些实施方式中，CRISPR系统的一个或多个元件衍生自包含内源性CRISPR系统的特定生物体，如酿脓链球菌(Streptococcus pyogenes)。通常，CRISPR系统的特征在于促进靶序列位点处的CRISPR复合物形成的元件(在内源CRISPR系统的背景下也称为原型间隔区)。

在一些实施方式中，载体包括可操作地连接编码CRISPR酶(如Cas蛋白)的酶编码序列的调控元件。Cas蛋白的非限制性示例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同源物、或其修饰形式。

在某些实施方式中，本公开内容提供与称为原型间隔区相邻基序(PAM)的短(3-5bp)DNA序列相邻的原型间隔区。PAM在采集期间对于I型和II型系统很重要。在I型和II型系统中，在相邻于PAM序列的位置切除原型间隔区，使用标尺机制切割间隔区的另一端，从而保持CRISPR阵列中间隔区大小的规则性。PAM序列的保守性在CRISPR-Cas系统之间不同，并且似乎与Cas1和前导序列在进化上相关。

在一些实施方式中，本公开提供了以定向方式将定义的合成DNA整合到CRISPR阵列中，优先但不排他地，与前导序列相邻。术语合成包括使用合成技术合成DNA的含义，并且在大多数情况下是非天然存在的。在来自大肠杆菌的I-E型系统中，证明了与前导序列相邻的第一直接重复被复制，其中新采集的间隔区插入第一和第二直接重复之间。

在一个实施方式中，原型间隔区是定义的合成DNA。在一些实施方式中，定义的合成DNA为至少10、20、30、40或50个核苷酸，或10-100，或20-90，或30-80，或40-70，或50-60个核苷酸长度。

在一个实施方式中，寡核苷酸序列或定义的合成DNA包括修饰的“AAG”原型间隔区相邻基序(PAM)。

在一些实施方式中，调控元件可操作地连接至CRISPR系统的一种或多种元件，以驱动CRISPR系统的一种或多种元件的表达。通常，CRISPR(规律成簇的间隔短回文重复)，也称为SPIDR(间隔区散布直接重复)，构成通常对特定细菌物种特异的DNA基因座家族。CRISPR基因座包含在大肠杆菌中识别的不同类型的散布短序列重复(SSR)(参见Ishino等,J.Bacteriol.,169:5429-5433[1987]；和Nakata等,J.Bacteriol.,171:3553-3556[1989])和相关基因。已经在地中海富盐菌(Haloferax mediterranei)，化脓性链球菌(Streptococcus pyogenes)，念珠藻属(Anabaena)和结核分枝杆菌(Mycobacteriumtuberculosis)中鉴定了类似的散布SSR(参见Groenen等,Mol.Microbiol.,10:1057-1065[1993]；Hoe等,Emerg.Infect.Dis.,5:254-263[1999]；Masepohl等,Biochim.Biophys.Acta 1307:26-30[1996]；和Mojica等,Mol.Microbiol.,17:85-93[1995])。CRISPR基因座与其他SSR的不同之处通常在于重复序列的结构，其被称为短规则间隔重复序列(SRSR)(参见Janssen等,OMICS J.Integ.Biol.,6:23-33[2002]；和Mojica等,Mol.Microbiol.,36:244-246[2000])。通常，重复是以簇形式出现的短元件，所述簇由具有基本恒定长度的独特插入序列规则地间隔开(参见Mojica等,[2000]，同上)。尽管重复序列在菌株之间是高度保守的，但是散布重复序列的数量和间隔区的序列通常因菌株而异(参见van Embden等,J.Bacteriol.,182:2393-2401[2000])。已在超过40种原核生物中鉴定出CRISPR基因座(参见例如,Jansen等,Mol.Microbiol.,43:1565-1575[2002]；和Mojica等,[2005])，包括但不限于气热菌属(Aeropyrum)，热棒菌属(Pyrobaculum)，硫化叶菌属(Sulfolobus)，古生球菌属(Archaeoglobus)，盐盒菌属(Halocarcula)，甲烷菌属(Methanobacteriumn)，甲烷球菌属(Methanococcus)，甲烷八叠球菌属(Methanosarcina)，甲烷嗜热菌属(Methanopyrus)，火球菌属(Pyrococcus)，嗜酸菌属(Picrophilus)，热离子属(Thernioplasnia)，棒状杆菌属(Corynebacterium)，分枝杆菌属(Mycobacterium)，链霉菌属(Streptomyces)，产液菌属(Aquifrx)，卟啉菌属(Porphvromonas)，绿菌属(Chlorobium)，栖热菌属(Thermus)，杆菌属(Bacillus)，利斯特菌属(Listeria)，葡萄球菌属(Staphylococcus)，梭菌属(Clostridium)，热厌氧杆菌属(Thermoanaerobacter)，支原体属(Mycoplasma)，梭菌属(Fusobacterium)，固氮弧菌属(Azarcus)，色杆菌属(Chromobacterium)，奈瑟菌属(Neisseria)，亚硝化单胞菌属(Nitrosomonas)，脱硫弧菌属(Desulfovibrio)，地杆菌属(Geobacter)，小球菌属(Myrococcus)，弯曲杆菌属(Campylobacter)，沃林菌属(Wolinella)，不动杆菌属(Acinetobacter)，欧文氏菌属(Erwinia)，埃希氏菌属(Escherichia)，军团杆菌属(Legionella)，甲基球菌属(Methylococcus)，巴氏杆菌属(Pasteurella)，发光杆菌属(Photobacterium)，沙门氏菌属(Salmonella)，黄单胞菌属(Xanthomonas)，耶尔森氏菌(Yersinia)，密螺旋体属(Treponema)和热袍菌属(Thermotoga)。

在一些实施方式中，编码CRISPR酶的酶编码序列经密码子优化用于在特定细胞，如真核细胞中表达。真核细胞可以是特定生物体的那些或从中衍生的那些，所述生物体诸如哺乳动物，包括但不限于人、小鼠、大鼠、兔、狗、或非人灵长类。一般而言，密码子优化是指通过将天然序列的至少一个密码子(例如，约或超过约1、2、3、4、5、10、15、20、25、50或更多个密码子)用在宿主细胞的基因中更频繁或最频繁使用的密码子替换修饰核酸序列用于增强宿主细胞中的表达同时保持天然氨基酸序列的过程。各种物种显示出对特定氨基酸的某些密码子的特定偏好。密码子偏好(生物体间密码子使用差异)常和信使RNA(mRNA)的翻译效率相关，继而认为其依赖于被翻译的密码子性质和具体转移RNA(tRNA)分子的可及性。所选tRNA在细胞中的优势通常反映了肽合成中使用最频繁的密码子。因此，可基于密码子优化就给定生物体中最佳的基因表达来调整基因。密码子使用表可获自例如“密码子使用数据库”，这些表可适用于许多方面。参见Nakamura,Y.等,“Codon usage tabulated fromthe international DNA sequence databases:status for the year 2000(国际DNA序列数据库制得的密码子使用：2000年状态)”Nucl.Acids Res.28:292(2000)。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法，例如Gene Forge(Aptagen；Jacobus,Pa.)也是可用的。在一些实施方式中，编码CRISPR酶的序列中的一个或多个密码子(例如，1、2、3、4、5、10、15、20、25、50或更多、或全部密码子)对应于特定氨基酸的最频繁使用的密码子。

靶DNA序列

术语“靶DNA序列”包括核酸序列，其将根据本文所述的方法插入细胞基因组DNA内或质粒上的CRISPR阵列核酸序列中。靶DNA序列可以由细胞表达。

根据一个方面，靶DNA序列对细胞是外源的。根据一个方面，靶DNA序列对细胞是外来的。根据一个方面，靶DNA序列在细胞内是非天然存在的。根据另一方面，靶DNA序列是合成的。根据一个方面，靶DNA具有定义的序列。

外来核酸

外来核酸(即，不是细胞的天然核酸组成的部分的那些)可使用本领域技术人员已知的用于这种导入的任何方法导入细胞。这类方法包括转染、转导、病毒转导、微注射、脂质转染、核转染、纳米颗粒轰击、转化、偶联等。使用易于鉴定的文献来源，本领域技术人员将易于理解和接受这类方法。根据一个方面，外来核酸对细胞是外源的。根据一个方面，外来核酸在细胞内是外来的，即非天然存在的。

细胞

本发明的细胞包括其中可如本文所述导入并表达外来核酸的任何细胞。应理解，本文所述的本发明的基本概念并不受到细胞类型的限制。根据本公开的细胞包括真核细胞，原核细胞，动物细胞，植物细胞，真菌细胞，古细菌细胞，真细菌细胞等。细胞包括真核细胞，例如，酵母细胞、植物细胞，和动物细胞。具体细胞包括哺乳动物细胞。此外，细胞包括其中添加靶核酸序列将是有益的或期望的任何细胞。

根据一个方面，细胞是真核细胞或原核细胞。根据一个方面，细胞是酵母细胞，细菌细胞，真菌细胞，植物细胞或动物细胞。根据一个方面，细胞是哺乳动物细胞。根据一个方面，细胞是人细胞。根据一个方面，细胞是成体或胚胎的干细胞。根据一个方面，细胞是多潜能干细胞。根据一个方面，细胞是诱导的多潜能干细胞。根据一个方面，细胞是人诱导的多潜能干细胞。根据一个方面，细胞是体外，体内或离体的。

载体

根据本公开的载体包括本领域已知的用于将遗传物质递送到细胞中的载体，并且包括调节子，启动子，核定位信号(NLS)，起始密码子，终止密码子，转基因等，以及可用于整合和表达的任何其他遗传元件，如本领域技术人员已知。术语“载体”包括能够转运与其连接的其他核酸的核酸分子。用于将核酸递送至如本文所述的细胞的载体包括本领域技术人员已知的用于此目的的载体。某些示例性载体可以是本领域技术人员已知的质粒、慢病毒或腺相关病毒。载体包括但不限于单链、双链或部分双链的核酸分子；其包含一个或多个游离末端、没有游离末端(例如环状)的核酸分子；包含DNA，RNA或两者的核酸分子；和本领域已知的其他多核苷酸种类。一种类型的载体是“质粒”，其是指环状双链DNA环，其中可以插入额外的DNA区段，例如通过标准分子克隆技术。另一种类型的载体是病毒载体，其中病毒衍生的DNA或RNA序列存在于载体中以包装成病毒(例如逆转录病毒，慢病毒，复制缺陷型逆转录病毒，腺病毒，复制缺陷型腺病毒和腺相关病毒)。病毒载体还包括由病毒携带的多核苷酸，用于转染到宿主细胞中。某些载体能够在其转导的宿主细胞中自主复制(例如，具有细菌复制起点的细菌载体和附加体哺乳动物载体)。在导入宿主细胞后将其他载体(例如，非附加体哺乳动物载体)整合到宿主细胞的基因组中，从而与宿主基因组一起复制。此外，某些载体能够引导与其操作性连接的基因的表达。此类载体在本文中称为“表达载体”。用于重组DNA技术中的常见表达载体通常是质粒形式。重组表达载体可包含本发明的核酸序列，该核酸序列具有适于所述核酸在宿主细胞中表达的形式，这意味着该重组表达载体包括一种或多种调控元件，基于待用于表达的宿主细胞对其进行选择，其被操作性地连接至待表达的核酸序列。在重组表达载体内，“可操作地连接”旨在表示感兴趣的核苷酸序列以允许该核苷酸序列表达(例如在体外转录/翻译系统中，或者，当载体被导入宿主细胞时在宿主细胞中)的方式与调控元件连接。

非病毒递送核酸或天然DNA结合蛋白质、天然引导RNA或其他天然物质的方法包括脂质转染、微注射、基因枪、病毒颗粒、脂质体、免疫脂质体、聚阳离子或脂质:核酸偶联物、裸DNA、人工病毒粒，和试剂增强型DNA摄取。脂质转染描述于例如，美国专利号5,049,386、4,946,787和4,897,355，并且脂质转染试剂市售可得(例如，Transfectam^TM和Lipofectin^TM)。适于多核苷酸的高效受体-识别脂质转染的阳离子和中性脂质包括Felgner、WO 91/17424、WO 91/16024的那些。可以递送至细胞(例如，体外或离体给予)或靶组织(例如，体内给予)。术语天然包括蛋白质、酶或引导RNA物质本身，而不包括编码该物质的核酸。

调控元件和终止子以及标签

预期调控元件与本文描述的方法和构建体一起使用。术语“调控元件”旨在包括启动子，增强子，内部核糖体进入位点(IRES)和其他表达控制元件(例如转录终止信号，例如多腺苷酸化信号和聚-U序列)。所述调控元件描述于，例如，Goeddel；《基因表达技术：酶学方法》(Gene Expression Technology:Methods in Enzymology)185，学术出版社(Academic Press)，加利福尼亚州圣迭戈(1990)。调控元件包括在许多类型的宿主细胞中引导核苷酸序列组成型表达的那些和仅在某些宿主细胞中引导核苷酸序列表达的那些(例如，组织特异性调控序列)。组织特异性启动子可以主要在期望的目标组织中引导表达，目标组织例如肌肉，神经元，骨，皮肤，血液，特定器官(例如肝脏，胰腺)或特定细胞类型(例如淋巴细胞)。调控元件还可以以时间依赖性方式引导表达，例如以细胞周期依赖性或发育阶段依赖性方式，其可以或可以不是组织或细胞类型特异性的。在一些实施方式中，载体可包含一种或多种pol III启动子(例如1、2、3、4、5或更多种pol III启动子)、一种或多种polII启动子(例如1、2、3、4、5或更多的pol II启动子)，一种或多种pol I启动子(例如1、2、3、4、5或更多个pol I启动子)，或其组合。pol III启动子的实例包括但不限于U6和H1启动子。pol II启动子的例子包括但不限于：逆转录病毒Rous肉瘤病毒(RSV)LTR启动子(任选连有RSV增强子)、巨细胞病毒(CMV)启动子(任选连有CMV增强子)[参见，例如：Boshart等，Cell，41：521-530(1985)]、SV40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、磷酸甘油激酶(PGK)启动子和EFlα启动子和本文所述的Pol II启动子。术语“调控元件”还包括增强子元件，例如WPRE；CMV增强子；HTLV-I的LTR中的R-U5'区段(Mol.Cell.Biol.,Vol.8(1),p.466-472,1988)；SV40增强子；和兔β-球蛋白的外显子2和3之间的内含子序列(Proc.Natl.Acad.Sci.USA.,Vol.78(3),p.1527-31,1981)。本领域技术人员应理解，表达载体的设计可取决于如下因素，如待转化的宿主细胞的选择、所需的表达水平等。可以将载体引入宿主细胞中，从而产生转录物，蛋白质或肽，包括由本文所述的核酸编码的融合蛋白或肽(例如，成簇且规律间隔的短回文重复序列(CRISPR)转录物，蛋白质，酶，其突变体形式，其融合蛋白等)。

本文描述的方法的方面可以使用终止子序列。终止子序列包括一段核酸序列，其在转录过程中标记基因组DNA中操纵子或基因的末端。该序列通过在新合成的mRNA中提供信号来介导转录终止，所述信号触发从转录复合物释放mRNA的过程。这些过程包括mRNA二级结构与募集的终止因子的复合物和/或间接活性的直接相互作用。转录复合物的释放释放RNA聚合酶和相关的转录机制以开始新mRNA的转录。终止子序列包括本领域已知的并在本文中鉴定和描述的序列。

本文描述的方法的方面可以利用表位标签和报告基因序列。表位标签的非限制性示例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签、和硫氧还蛋白(Trx)标签。报告基因的示例包括但不限于，谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰基转移酶(CAT)β-半乳糖苷酶、β-葡萄糖醛酸糖苷酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)、和自荧光蛋白包括蓝色荧光蛋白(BFP)。

以下实施例是本发明的代表。这些实施例并不构成对本发明范围的限制，因为这些和其他等价实施方式将对于本发明、附图和所附权利要求而言是显而易见的。

实施例1

材料和方法

细菌菌株和培养条件

在BL21-AI细胞中进行表达和新间隔区采集。除非另有说明，否则细胞在37℃下在Luria肉汤(LB)中振荡(240rpm)生长。使用0.2％终浓度(w/w)的L-阿拉伯糖(西格玛-奥德里奇公司(Sigma-Aldrich))(来自水中20％储液)和1mM终浓度的异丙基-β-D-硫代吡喃半乳糖苷(IPTG；西格玛-奥德里奇公司)(来自水中100mM储液)诱导从T71ac启动子表达的基因。从pLtetO启动子表达的Cas突变体通过终浓度214nM的无水四环素(aTc；Clontech公司)(来自50％乙醇中的214μM储液)诱导。在从pLtetO启动子表达的同时，添加0.2％葡萄糖以减少来自T71ac启动子的非预期的背景表达。对于不涉及寡核苷酸衍生的间隔区的新间隔区采集实验，诱导细胞并生长过夜(16h)。使用NEB5α细胞进行所有克隆。

克隆和文库构建

含有在T71ac启动子(pWUR 1+2)表达下的Casl和Cas2的质粒获赠自UdiQimron(参见I.Yosef,M.G.Goren,U.Qimron,大肠杆菌中CRISPR适应过程的关键蛋白质和DNA元件Nucleic acids research 40,5569-5576(2012)；Epub在线公开，7月(10.1093/nar/gks216))。产生该质粒的变体，其具有基于在K12菌株中发现的阵列的额外CRISPR阵列。合成该额外阵列并克隆到pWUR 1+2中以产生pWUKI1+2。将Cas1+2克隆到pRSF-DUET中，用于不同的质粒背景(pRSF-DUET 1/2)。通过PCR从pWUR 1+2中提取Cas1和Cas2，并分别重新克隆到相同的质粒中。在Cas1的情况下，在该步骤中的选择也从壮观霉素变为氨苄青霉素以产生pWURACas1和pWUR Cas2。通过PCR将点突变E9Q引入Cas2以产生pWUR Cas1+Cas2E9Q。类似地，基于来自定向进化实验的突变体，通过PCR产生Cas1+2点突变。将来自定向进化实验的突变体89与终止子、pLtetO和来自pJKR-H-tetR的tetR阻遏物一起克隆到pWUR 1+2中(参见J.K.Rogers,C.D.Guzman,N.D.Taylor,S.Raman,K.Anderson,G.M.Church,用于代谢物的精确基因控制和实时监测的合成生物传感器，Nucleic acids research 43,7648-7660(2015)；Epub在线公开，9月3日(10.1093/nar/gkv616))以产生pWUR 1+2tetO mut89。使用GeneMorph II随机诱变试剂盒(安捷伦(Agilent)公司)通过易错PCR产生突变文库，并将其克隆到ElectroTen-Blue超级感受态细胞(安捷伦公司)中，然后转移至表达菌株(BL21-AI)。有关质粒的其他详细信息，请参见图22。

寡核苷酸原型间隔区电穿孔

对于涉及寡核苷酸衍生的间隔区的间隔区采集实验，首先从单个接种的克隆培养细胞过夜。在早晨，将100μl过夜培养物稀释到3ml LB中，其中诱导组分如实验所示。用诱导物培养细胞2小时。对于个体实验条件，将1ml该培养物沉淀并重悬于水中。通过另外两次沉淀和重悬步骤进一步洗涤细胞，然后沉淀最后一次并重悬于50μl的3.125μM双链寡核苷酸溶液中(除非另有说明)。所有沉淀步骤均通过以13,000xg离心1分钟进行，并且从第一次沉淀到最终重悬的整个过程在4℃下进行。最后，将细胞-寡核苷酸混合物转移至1mm间隙比色皿中并进行电穿孔，使用Bio-Rad基因脉冲发生器，设置为1.8kV和25μF，脉冲控制器为200Ω。仅对电穿孔时间常数>4.0ms的那些条件进行分析。电穿孔后，立即将细胞转移到含有3ml LB的培养管中并生长2小时(除非另有说明)。此时，通过加热至95℃持续5分钟裂解50μl培养物，冷却，然后直接用于分析或-20℃保存用于后续分析。对于多天记录，50ul培养物用于接种过夜培养物(在没有诱导剂的情况下)，第二天重新开始该过程。

间隔区采集分析

通过跨阵列的PCR(用于所有扩增)或从阵列任一侧的PCR(其中相反的引物与电穿孔的寡核苷酸匹配，用于序列特异性采集)实现新间隔区采集的定性评估。通过TOPO克隆(赛默飞世尔公司(ThermoFisher))经扩增的扩增子，在初始实验中将新的间隔区序列分配至它们的起点，然后对得到的集落进行Sanger测序。然而，对于大多数实验，通过使用Illumina MiSeq测序仪对给定条件的所有扩增和未扩增阵列的文库进行测序来评估采集事件。从基因组阵列的初始PCR产生文库，然后使用NEBNext Multiplex Oligos(NEB)对文库进行单索引或双索引。每个流动池运行多达96个条件。使用的寡核苷酸原型间隔区列表可见于图24。

处理和分析MiSeq数据

使用定制编写的软件(Python)分析序列。简而言之，基于间隔区序列在可识别的重复序列之间的排列(在重复中允许四个错配以允许测序中的错误)从读段中提取该间隔区序列，然后与在实验之前填充阵列的间隔区序列进行比较(允许与老间隔区的五个错配)以识别新的间隔区。此时收集量度，例如扩增与未扩增阵列的数量，每个阵列中的扩增数量，新扩增的位置以及新间隔区的长度。然后对含有基因组、质粒和任何电穿孔的寡核苷酸序列的数据库进行新的间隔区序列的BLAST(NCBI，blastn)。由此确定起点和方向，以及用于PAM分析的原型间隔区侧翼序列。为了分析记录随时间的变化，分析了包含双重和三重扩增的所有读数。在所有新的间隔区中基于寡核苷酸衍生的序列的频率鉴定该寡核苷酸衍生的序列，然后，如果适用的话，基于它们在序列中的已知位置提取组标识符，并组装寡核苷酸衍生的序列组。在所有双重和三重扩增阵列中，在成对比较中评估所有寡核苷酸衍生的间隔区相对于彼此和基因组或质粒衍生的间隔区的顺序。然后，这些值用于测试在每个排序规则中的寡核苷酸衍生的间隔区所有有序排列。组被独立分析。通过在所有时间点的相对qPCR Ct值推断间隔区采集的时间过程的估算，参考由MiSeq在2小时时间点对扩增的定量分析。通过在MiSeq测序仪上对片段化突变体扩增子进行测序来估计各种突变体文库的文库大小。序列多样性估计为S₁＝S_obs+(F₁ ²)/(2F₂₎，其中Sobs是样品中观察到的独特序列，F1是具有单次出现的序列的数量，F2是恰好两次出现的序列的数量(参见R.K.Colwell,J.A.Coddington,通过外推估计陆地生物多样性(Estimating terrestrial biodiversitythrough extrapolation)，伦敦皇家学会哲学汇刊第二辑(Philosophical transactionsof the Royal Society of London.Series B),Biological sciences 345,101-118(1994)；Epub在线公开，7月29日(10.1098/rstb.1994.0091))。统计数据例如参见图21。

实施例2

I-E型CRISPR-Cas系统体内接受合成间隔区。

最近显示大肠杆菌I-E型CRISPR-Cas蛋白Cas1和Cas2的过表达足以驱动在含有两种基因组CRISPR阵列但缺乏内源性Cas蛋白的菌株(BL21-AI)中采集新的间隔区(参见I.Yosef,M.G.Goren,U.Qimron,大肠杆菌中CRISPR适应过程的关键蛋白质和DNA元件(Proteins and DNA elements essential for the CRISPR adaptation process inEscherichia coli).Nucleic acids research 40,5569-5576(2012)；Epub在线公开，7月(10.1093/nar/gks216))。该结果被复制(参见图1A)，并且类似地发现新的间隔区一致地整合到阵列I的第一位置，该第一位置与前导区直接相邻，具有33个碱基的一致大小(参见图2A-B)。从细胞自身的基因组和用于过表达Cas1和Cas2的质粒中抽取大致相等数量的这些间隔区(参见图1B)。考虑到细胞的总体DNA含量，这种基因组与质粒衍生的间隔区的比例代表了对作为原型间隔区源的质粒的实质偏差(参见A.Levy,M.G.Goren,I.Yosef,O.Auster,M.Manor,G.Amitai,R.Edgar,U.Qimron,R.Sorek，CRISPR适应偏倚解释了对外源DNA采集的偏好(CRISPR adaptation biases explain preference for acquisition of foreignDNA).Nature 520,505-510(2015)；Epub在线公开，4月23日(10.1038/naturel4302))。尽管有这种偏差，但是从基因组和质粒周围的各种位点抽取了新的间隔区(参见图1C)，并且除了5'AAG原型间隔区相邻基序(PAM)的过量表达外，没有办法预测没有对扩增阵列进行测序的新间隔区的先验完整序列。

为了将CRISPR采集系统的功能扩展到用于记录分子事件的合成装置中，有必要引导系统捕获特定的、定义的序列的间隔区，而不是从细胞中的DNA中随机地抽取间隔区。在Casl-Cas2介导的间隔区采集的体外重建中，等(参见J.K.Nunez,A.S.Lee,A.Engelman,J.A.Doudna,CRISPR-Cas适应性免疫中整合酶介导的间隔区采集(Integrase-mediated spacer acquisition during CRISPR-Cas adaptive immunity).Nature 519,193-198(2015)；Epub在线公开，3月12日(10.1038/nature14237))证明了合成的33bp DNA寡核苷酸整合到基于质粒的阵列中。根据本公开，如本文所述向细胞提供一个或多个或多种原型间隔区的外部来源，以引导体内序列特异性间隔区采集。为此，将经由或不经阿拉伯糖和IPTG诱导的含有诱导型Cas1和Cas2基因的大肠杆菌BL21-AI过夜培养传代2小时。然后用互补的33碱基寡核苷酸对(原型间隔区ps33)对细胞进行电穿孔，其匹配在天然I-E型系统的噬菌体攻击后发现的最丰富的M13衍生的间隔区的序列(参见K.A.Datsenko,K.Pougach,A.Tikhonov,B.L.Wanner,K.Severinov,E.Semenova,先前感染的分子记忆激活CRISPR/Cas自适应细菌免疫系统(Molecular memory of prior infections activatesthe CRISPR/Cas adaptive bacterial immunity system).Nature communications 3,945(2012)10.1038/ncomms1937))。在转化后将细胞再孵育2小时后，通过PCR检查基因组阵列的扩增以及合成的原型间隔区向阵列的特异性整合(参见图1D)。当Cas1和Cas2被诱导或(更弱)未诱导时观察到序列特异性条带，但未提供寡核苷酸的情况从未观察到序列特异性条带。另外证实，通过Sanger测序，特定的ps33核苷酸序列存在于扩增阵列的一部分内。这些结果证明CRISPR-Cas系统可以成功地被引导以采集序列特异性间隔区。

为了更好地理解该合成系统的性质以及Cas1-Cas2介导的间隔区采集的基本特性，进行了另外的实验，其中通过电穿孔提供的寡核苷酸被改变。发现该系统需要两条互补链用于采集，并且双链原型间隔区能够以任一方向插入(参见图1E)。寡核苷酸的5'末端也用硫代磷酸酯键修饰以帮助抵抗细胞核酸酶的降解，但发现在采集效率方面没有显著差异(参见图1E)。最后，通过以RNA提供寡核苷酸链的任一或二者来测试RNA是否可以作为原型间隔区，但没有检测到RNA寡核苷酸的序列特异性整合(参见图2D)。

为了更加定量地研究这些结果，在整个阵列上进行PCR(如图1D)，并将得到的扩增子在Illumina MiSeq平台上进行高通量测序。使用这种方法，可以定量在实验完成时扩增的所有阵列的百分比，以及原型间隔区源。与qPCR结合，产生间隔区采集的时间过程(参见图1F)。早在电穿孔后20分钟就首次检测到序列特异性采集，在2小时内达到所有阵列的约4％。发现该系统对提供的寡核苷酸浓度敏感，在低和高寡核苷酸浓度下均下降(参见图1G，图2E)。有趣的是，无论寡核苷酸是作为间隔区递送还是采集，对基因组或质粒衍生的间隔区没有可检测的影响。这表明细胞中的原型间隔区可用性可能是间隔区采集的限制因素。另一方面，在表达质粒上添加阵列对新间隔区进入内源基因组阵列的采集频率几乎没有影响(参见图1G)。最后，与基因组和质粒衍生的间隔区一样，合成的间隔区被插入阵列的第一(或偶尔第一和第二)位置，并且几乎总是33个碱基(参见图1H，I)。

实施例3

PAM改变了间隔区采集的效率和方向性。

使用我们在扩增后对数百万个阵列进行测序所收集的数据，发现基因组和质粒衍生的原型间隔区总体上以等同数量从正向和反向链抽取，唯一明显的总偏向指向基因组复制起点(参见图3A)。类似地，还发现寡核苷酸衍生的原型间隔区在阵列中的正向和反向方向上具有相等的比例(参见图3B)。当进一步检查基因组和质粒衍生的原型间隔区的背景时，发现了原型间隔区5'末端的PAM的强有力证据，其由从间隔区的位置-2和-1的两个腺嘌呤组成，并且对鸟嘌呤作为第一间隔区碱基具有强偏好(参见图3C)。这与大肠杆菌型I-E系统的先前特征基本一致(参见I.Yosef,D.Shitrit,M.G.Goren,D.Burstein,T.Pupko,U.Qimron，DNA基序确定向大肠杆菌CRISPR阵列适应的效率(DNA motifs determining theefficiency of adaptation into the Escherichia coli CRISPR array)，Proc NatlAcad Sci U S A 110,14396-14401(2013)；Epub在线公开，8月27日(10.1073/pnas.1300108110),E.Savitskaya,E.Semenova,V.Dedkov,A.Metlitskaya,K.Severinov,大肠杆菌中I-ECRISPR/Cas间隔区采集的高通量分析.RNA biology 10,716-725(2013)；Epub在线公开，5月(10.4161/rna.24325))。

尽管从基因组或质粒整体上在正向或反向链衍生的原型间隔区中没有偏好，但在单个核苷酸水平上出现更清晰的图像。例如，检查一小段质粒(约550个碱基)，出现不对称峰(参见图3D)。沿同一段质粒绘制正向和反向PAM显示，除了偏向用于采集的特定序列外，PAM还指定了整合到阵列中的方向。有趣的是，尽管几乎包含PAM的每个原型间隔区都是作为间隔区采集的，但并非所有都是以相同的频率采集(参见图3D)。

最近，发现基因组或质粒中Chi位点的存在使原型间隔区采集的频率偏置(参见A.Levy,M.G.Goren,I.Yosef,O.Auster,M.Manor,G.Amitai,R.Edgar,U.Qimron,R.Sorek,CRISPR适应偏倚解释了对外源DNA采集的偏好(CRISPR adaptation biases explainpreference for acquisition of foreign DNA).Nature 520,505-510(2015)；Epub在线公开，4月23日(10.1038/naturel4302))。根据本公开，提供了使用原型间隔区的序列来偏置采集频率的方法。质粒中的每个含PAM(AAG)的潜在原型间隔区根据其采集到基因组阵列中的频率进行排序(参见图4A)。搜索可能解释采集频率差异的原型间隔区之间的特征，包括GC百分比和自由能，但未能确定相关性(参见图4B，C)。对于直接测试，选择并合成三个原型间隔区序列(包括它们的15bp侧翼区)：各自来自频谱的高(psH)，中(psM)和低(psL)末端。然后将这些寡核苷酸原型间隔区中的每一个电穿孔到表达Cas1-Cas2的细胞中，所述Cas1-Cas2来自不包括这些特定序列的替代质粒。令人惊讶的是，psL的采集频率远低于psH和psM(参见图4F)。为了确定这是由于间隔区本身的序列还是侧翼区域的序列，psH的15bp侧翼区域与psL的那些交换，反之亦然(分别为psH/L和psL/H)。同样，psL/H间隔区以低于psH/L的频率采集，与侧翼区域无关。这些结果表明原型间隔区本身的序列能够影响采集效率。

鉴于间隔区是根据相邻序列从基因组和质粒中选择的，提供了在合成原型间隔区ps33中使用PAM以改变采集频率的方法。设计了另外三种寡核苷酸原型间隔区：psAA33，其中在ps33的5'末端包含两个腺嘌呤以产生完整标准AAG PAM；ps10AA33，其包含额外的10个5'核苷酸；和ps10TC33，其中PAM的AA已经突变为TC以创建非标准PAM(PAMNC)。使用这些寡核苷酸，发现包含PAM大大提高了序列特异性采集的效率(参见图3E)。无论是否具有前面10个额外的核苷酸，具有AAG PAM的寡核苷酸(psAA33和ps10AA33)的采集频率是不包括PAM(ps33)的寡核苷酸的频率的5倍以上。相反，包括TCG的PAMNC相对于ps33没有改变采集频率(参见图3E)。

包含PAM还显著改变了间隔区采集的方向。尽管ps33和psl0TC33在两个方向上均等地采集，但psAA33和ps10AA33几乎仅在正向方向上采集(参见图3F-J，图5A)。与AAG PAM的I-E型偏好一致，psAA33和ps10AA33始终以核苷酸G1作为间隔区的第一个碱基而插入(参见图3H，I)。相反，ps10TC33缺少单个显性间隔区产物，并且插入几种不同的PAMsNC(参见图3J)。最后，证实Cas1和Cas2都是合成的间隔区整合所必需的，而Cas2核酸酶活性不是必需的(参见J.K.Nunez,A.S.Lee,A.Engelman,J.A.Doudna,在CRISPR-Cas适应性免疫期间整合酶介导的间隔区采集(Integrase-mediated spacer acquisition during CRISPR-Casadaptive immunity).Nature 519,193-198(2015)；Epub在线公开，3月12日(10.1038/nature14237))。因此，在合成的原型间隔区中包含PAM决定了Casl-Cas2复合物采集的间隔区的效率和取向。

实施例4

随时间的分子记录。

接下来测试是否可以利用特定间隔区序列的采集来随时间将一系列合成间隔区记录到细胞群中。作为初步测试，通过在三天内(每天一个原型间隔区)将一系列三种不同的寡核苷酸原型间隔区序列连续电穿孔到培养物中，将三种独特元件记录(1×3)到单一大肠杆菌培养物中(参见图6A)。在第三天对阵列群体进行测序之后，可以忠实地重建间隔区的递送顺序(参见图6B，C，并在下面详细讨论)。为了进一步探究该系统的极限，接下来记录了15个独特元件(3×5)：三组五个原型间隔区，在五天中一次进行三个电穿孔(参见图7A)。对1×3和3×5记录的分析在概念上均是相似的，因此后者将被详细讨论(分别参见图6B和图7B)。

对于3×5记录，所有寡核苷酸原型间隔区均为35个核苷酸，从5'AAG PAM开始，随后是5碱基条形码(3组中每一组都是独特的)和27个碱基(15个原型间隔区中的每一个都是独特的)。在3×5记录结束时，细胞群中所有阵列的四分之一含有至少一个寡核苷酸衍生的间隔区，其中每轮电穿孔的间隔区以大致相等的比例表示(参见图7C，D)。间隔区采集频率之间的个体差异更多地由间隔区核苷酸序列驱动而不是由轮次驱动(参见图7E)。

由于从任何单阵列中的每一轮采集间隔区的可能性低(参见图7D)，因此成功读出记录需要分析阵列群。因此，每个阵列的前三个间隔区被排序(从前导序列移入)，并且仅考虑新采集的间隔区对的顺序(参见图7B)。对于同一组中的任何给定的合成间隔区对，顺序应遵循可预测的规则：在包含任何两个新间隔区的所有阵列中，在较前轮次中电穿孔的间隔区总是比较后轮次中引入的间隔区距离前导序列更远。通过考虑与新采集的基因组和质粒衍生的间隔区相关的寡核苷酸衍生的间隔区的排列，也可以采集信息。因为内源性间隔区会随着时间的推移而积累，来自较前轮次的合成间隔区将更频繁地以一个方向(朝向前导区)与新基因组/质粒间隔区配对而不是另一个方向(相对于合成间隔区)，对于来自较后轮次的寡核苷酸衍生的间隔区则反之亦然。利用五个可能的间隔区(在每组中)，可以考虑所有可能的成对比较，并且生成15个排序规则，从中可以重建整个组的顺序(参见图7B)。提取完成3×5记录后的阵列的序列并且它们通过一种算法，其中唯一的基于序列的输入是CRISPR重复的序列，所有寡核苷酸衍生的间隔区序列将被预测，它们根据条形码分配至组，然后测试了序列与15个排序规则的所有可能排列。对于每组，只有一个排列满足所有15个排序规则，并且在每种情况下，排列与电穿孔的寡核苷酸的实际顺序相匹配(参见图7F)。虽然每个重复分析了约200万个读数，但发现在大多数情况下使用20,000个或更少的读数即可正确地重建顺序。因此，可以可靠地记录和读出十五个元件记录。

实施例5

可以修改Casl-Cas2PAM识别。

不仅能够控制新间隔区的顺序，而且能够控制新间隔区整合的方向，这使得人们能够同时记录多种模式的信息。因为在我们的合成间隔区上添加5'AAG PAM控制了新采集的方向(参见图2F)，所以寻求通过改变Casl-Cas2的PAM识别来修改整合方向。为此，进行图8A中所示的定向进化方法。首先，通过易错PCR产生大的随机Cas1-Cas2突变体文库(参见图9A，B)，并将该文库插入最小CRISPR阵列上游的质粒中。在将质粒文库克隆到BL21-AI中后，诱导突变体并用在正向链上带有标准5'AAG PAM和在反向链上带有非标准5'TCG PAMNC的原型间隔区进行转化。在生长后，使用Casl-Cas2突变基因之前的正向引物和匹配PAMNC间隔区序列的反向引物选择突变体以仅产生在(反向)PAMNC方向上采集的间隔区的那些突变体的特异性扩增。然后测试这些选择的突变体的子集的PAM特异性，而在测试之前对单独的子集进行另一轮选择以进行精制。为了测试，将单独选择的突变体克隆诱导过夜，并通过测序分析它们的扩增阵列。具体而言，分析所有基因组和质粒衍生的间隔区的PAM以确定剩余的PAM特异性(如果有的话)。野生型Cas1-Cas2以与所有其他(非AAG)PAM原型间隔区合并的频率几乎相同的频率从AAG PAM原型间隔区采集间隔区(参见图8B)。相反，选择的大多数突变体以比AAG原型间隔区更高的频率采集非AAG原型间隔区(参见图8B)。精制的额外步骤(参见图9C)未获得非AAG采集频率的增益，因此来自两个子集的突变体一起显示(参见图8B和图9D)。

为了使PAM特异性的变化可视化，绘制了热图，其显示了野生型Cas1-Cas2和几种选择的突变体的所有潜在PAM中观察到的PAM的标准化频率(参见图8C)。野生型Casl-Cas2对标准AAG PAM具有很强的选择性。少数突变体也保留(m-24)或甚至增加(m-27)这种偏好。然而，更多的突变体显示对标准PAM的减少的特异性，或者在所示的三种突变体(m-74，m-80，m-89)的情况下对标准PAM几乎没有特异性。从这些选择的突变体的序列中，基于Casl-Cas2复合物的晶体结构中的数据集或位置的重复观察，选择单点突变的子集用于后续分析(参见J.K.Nunez,P.J.Kranzusch,J.Noeske,A.V.Wright,C.W.Davies,J.A.Doudna,Casl-Cas2复合物形成介导CRISPR-Cas适应性免疫期间的间隔区采集(Cas1-Cas2complexformation mediates spacer acquisition during CRISPR-Cas adaptive immunity).Nature structural&molecular biology 21,528-534(2014)；Epub在线公开，6月(10.1038/nsmb.2820),J.Wang,J.Li,H.Zhao,G.Sheng,M.Wang,M.Yin,Y.Wang,CRISPR-Cas系统中PAM-依赖性间隔区采集的结构和机制基础(Structural and Mechanistic Basisof PAM-Dependent Spacer Acquisition in CRISPR-Cas Systems)，Cell 163,840-853(2015)；Epub在线公开，11月5日(10.1016/j.cell.2015.10.008),J.K.Nunez,L.B.Harrington,P.J.Kranzusch,A.N.Engelman,J.A.Doudna,CRISPR-Cas适应性免疫期间的外来DNA捕获(Foreign DNA capture during CRISPR-Cas adaptive immunity)，Nature527,535-538(2015)；Epub在线公开，11月26日(10.1038/nature15760))(参见图23；图8E)。与野生型相比，分离测试的大多数单点突变体也降低了PAM特异性(参见图8D和图9D)。这些结果证明Casl-Cas2复合物的PAM识别可以通过许多不同的突变进行修改，而不会显著降低间隔区采集效率。

实施例6

以第二种模式记录

作为概念验证，选择PAMNC Cas1-Cas2突变体(m-89，图8C和图9D)以向1×3记录添加额外的模式(参见图6)。将细菌进行连续三轮电穿孔，每个寡核苷酸原型间隔区在正向链上含有5'AAG PAM，在反向上含有5'TCG PAMNC(参见图10A)，同时在相同质粒上使用不同的诱导型启动子(分别为pLTetO和pT71ac)控制野生型Cas1-Cas2和m-89的表达(参见图10B)。细菌在两种条件之间划分，每种条件每轮在T71ac和tet诱导之间交替进行。发现两种条件的细胞以相似的频率从每一轮采集间隔区，表明野生型和m-89Cas1-Cas2的诱导水平和整合活性都是足够的(参见图10C)。在记录完成时，比较两个条件之间的每个间隔区的取向。如预期，在条件之间发现正向和反向取向间隔区的比率的差异-即在tet诱导期间向PAMNC(反向)移动(参见图10D，F)。在对每个间隔区的总间隔区取向比进行标准化之后，仅基于整合方向可以清楚地区分在每个时间点哪个条件接收哪个诱导物(参见图10G)。因此，该系统可以同时记录两种模式。

本公开内容提供了基于CRISPR-Cas的系统的基本原理，以基本上任意的合成DNA序列的形式将分子事件记录到基因组中。虽然信息仅在任何给定细胞内经部分编码，但完整记录仍然分布在细胞群中。为了读出记录，使用高通量测序，并且仅考虑单个CRISPR阵列内任何两个新间隔区序列的成对顺序。使用许多这些二进制比较中，然后可以组装完整的事件记录，忠实地解码在细胞群内完全保留的分布式记忆。

本公开还提供了天然CRISPR-Cas适应系统的未覆盖细节。Casl-Cas2蛋白复合物在体内整合合成的寡核苷酸序列的能力使得能够直接评估原型间隔区采集的详细方面。例如，因为在寡核苷酸衍生的采集的存在下从基因组和质粒采集的间隔区的频率基本上没有改变(参见图1G，3E)，因此结论是足够的原型间隔区的可用性可能是适应系统的限制方面。此外，这些实验表明，5'AAG PAM的存在调控了间隔区采集的频率和方向，并且原型间隔区的内部序列可以影响采集效率。作为一种方法，将合成的原型间隔区递送至体内CRISPR-Cas系统应该是进一步探索该系统的有价值技术。

本公开还提供了定向进化方法，其允许实验性地修改Casl-Cas2复合物的PAM识别，这使得能够同时产生多种模式的记录。这种定向进化方法不需要结构信息，并且还应该通常适用于通过将CRISPR-Cas蛋白与间隔区采集过程偶联来进化CRISPR-Cas蛋白的其他活性(例如，修饰靶位点特异性)。

迄今为止，合成体内记录装置的最高存储容量是使用11个正交重组酶实现的，能够采集211(2,048)个独特状态，捕获1.375个字节的信息(L.Yang,A.A.Nielsen,J.Fernandez-Rodriguez,C.J.McClune,M.T.Laub,T.K.Lu,C.A.Voigt,具有>l字节容量的永久遗传记忆(Permanent genetic memory with>1-byte capacity).NatMethods 11,1261-1266(2014)；Epub在线公开，12月(10.1038/nmeth.3147))。相比之下，如图11所示，在本文公开的3×5记录中，编码了15个单独的元件。但是，因为该系统可以记录任意定义的序列，所以可能状态的数量急剧增加。使用所施加的约束-5碱基组标识符以及在间隔区的开头处的不变G-留下27个碱基来编码信息，每个间隔区产生427个可能的独特序列。此外，显示可以将每组中的顺序编码为至少五个元件，从而基于排列P(427,5)＝1.9x 1081或5.7x1081(合并三组并假设组独立性)得到每组的独特状态容量。如果包括每组之间的相互依赖性，则总的独特状态将上升到(427)15或约7×10243。作为比较点，可观察的总体中的原子数估计为1x 1080。在更实际的术语中，其完全在该系统的范围内，以在例如人类细胞内的每个可能的转录物之间独特地编码信息。

这些计算定义了本文已经测试的系统的独特状态的理论容量。关于在单独记录中捕获的信息量，具有15个记录的间隔区，每个间隔区具有记录可能性的27个碱基(每个字节4个碱基)，在3×5记录中记录的信息量可达到101.25字节。通过考虑控制间隔区方向(额外模式)的能力，它可能编码额外的1.875字节，总共103.125字节。当然，这仅反映当前记录的信息，其被任意限制为15个间隔区。已经发现在单个细胞(S.tokodaii)中具有多达458个间隔区的天然物质(C.Rousseau,M.Gonnet,M.Le Romancer,J.Nicolas,CRISPI：CRISPR交互式数据库，Bioinformatics(牛津，英格兰)25,3317-3318(2009)；Epub在线公开，12月15日(10.1093/bioinformatics/btp586))，说明了编码复杂生物现象的潜在空间。

实施例7

编码信息的原型间隔区序列的时间依赖记录

本公开内容的方面涉及使用Cas 1和Cas 2酶将多个原型间隔区序列包括在CRISPR阵列中，以在CRISPR阵列中产生相应的多个间隔区序列。每个原型间隔区序列编码信息的一部分，例如文本、一个或多个图像，视频格式，音频格式或本领域技术人员已知的其他信息格式，并且可以是电子形式，例如html、pdf、jpeg等。每个原型间隔区序列可以包括条形码序列或像素，其识别原型间隔区序列将被放置的顺序或位置，以便被解码成信息格式。以这种方式，代表整个信息格式的原型间隔区的集合，例如文本、一个或多个图像、或视频格式或音频格式或其他信息格式，可以整体地或部分地提供给细胞并插入CRISPR阵列，而不考虑插入原型间隔区的时机。然后识别间隔区序列，并使用条形码序列对由原型间隔区编码的信息进行排序，以得到最初编码的信息的格式。原型间隔区序列总体代表已编码成核酸序列的信息。使用核酸储存信息的方法描述于US 9,384,320中，其全部内容通过引用并入本文。

本公开内容的方面涉及使用Cas 1和Cas 2酶将多个原型间隔区序列以时间依赖性方式包括在CRISPR阵列中，以在CRISPR阵列中产生相应的多个间隔区序列。原型间隔区序列可以一个接一个地或者一组原型间隔区接一组原型间隔区地插入CRISPR阵列。当信息的格式是有序的图像序列时，例如利用制作运动图像的有序图像序列，这种方法是有利的，其中图像序列是要传送的信息的一部分。每个原型间隔区序列编码信息的一部分，例如文本、一个或多个图像，视频格式，音频格式或本领域技术人员已知的其他信息格式，并且可以是电子形式，例如html、pdf、jpeg等。因为几乎总是相邻于CRISPR阵列中的前导序列采集新的间隔区(参见Yosef,I.,Goren,M.G.和Qimron,U.大肠杆菌中的CRISPR适应过程必需的蛋白质和DNA元件，Nucleic acids research 40,5569-5576,doi:10.1093/nar/gks216(2012)，其全部内容通过引用并入本文)，推动先前采集的间隔区远离前导区，电穿孔的原型间隔区的顺序(以及因此GIF的帧)可以根据阵列中间隔区的顺序重建。因此，例如，虽然可以记录N个图像序列中的第一图像而不考虑构成第一图像的原型间隔区组的插入时机，但代表第二图像的原型间隔区组可以在代表第一图像的原型间隔区组已插入CRISPR阵列后的时间点插入。同样地，可以在代表第二图像的原型间隔区组已插入CRISPR阵列中的时间点后插入代表第三图像的原型间隔区组。同样地，可以在代表第N-1图像的原型间隔区组已插入CRISPR阵列中的时间点后插入代表第N图像的原型间隔区组。然而，条形码序列或像素可以用于识别构成特定图像的原型间隔区组，使得原型间隔区可以插入CRISPR阵列而不考虑时机，因为条形码可以用于识别对应于特定图像的原型间隔区组，并且其他条形码可用于识别如何对间隔区序列进行排序用于进行解码以得到信息格式。

根据一个方面，诸如文本或声音、或图像或一系列图像或视频的信息由一系列核苷酸编码。应理解，信息可使用本领域技术人员已知的和本文所述的方法由核苷酸编码。例如，信息格式可以由二进制代码或一系列比特表示，然后其可以由一系列核苷酸表示。使用计算机实现的算法将信息格式数字化为一系列零和一。每个比特可以代表核苷酸，或者两个比特可以代表特定的核苷酸，或者少于一个比特可以代表特定的核苷酸，这取决于算法。一个或多个核苷酸可以表示图像的像素内的信息，例如颜色或阴影。图像内的颜色可以由一个或多个或两个或更多个或三个或更多个核苷酸表示，这取决于颜色的数量和编码系统灵活性的需要。

根据一个示例性方面，由二进制代码、文本和/或图像和/或声音和/或视频表示的信息的格式被转换为比特流或一起构成比特流的部分比特流。比特流可以编码为核酸，然后分离成寡聚物，例如寡核苷酸。比特流的部分可以编码为寡聚物，例如寡核苷酸。应理解，可基于本领域技术人员已知的方法使用核苷酸编码信息格式。本公开不旨在限于信息的二进制代码格式，因为信息的二进制代码格式仅仅是示例性和说明性的。所需要的只是使用的编码方法，使得信息的格式由一系列核苷酸表示，这些核苷酸是待插入细胞内CRISPR阵列的原型间隔区。

设计核酸序列或寡聚物序列如寡核苷酸序列，然后使用酶促核酸合成反应来合成。例如，设计寡核苷酸序列，然后使用酶促寡核苷酸合成反应将其合成，其中将酶和核苷酸在适当的反应条件下置于基材上的所需位点，并且核苷酸共价结合连接支持物的存在的核苷酸。寡核苷酸序列可以使用聚合酶(例如模板依赖性聚合酶，如易错聚合酶)在这样的条件下合成，所述条件中试剂在一段时间内位于基材的某个位置并且在这样的条件下使得添加单个核苷酸的可能性最大化。根据一个方面，寡聚物(如寡聚核苷酸)包括数据块(datablock)序列。根据一个方面，寡聚物(如寡聚核苷酸)包括地址序列(如条形码序列)，其在比特流中指定数据块位置或在信息格式整体内区分不同的单独信息格式。根据一个方面，寡核苷酸包括位于寡核苷酸各末端用于扩增和测序的侧接共同序列(flanking commonsequence)。根据一个方面，寡核苷酸包括一个或多个或所有数据块序列，在比特流中指定数据块位置或在信息格式整体内区分不同单独信息格式的地址序列(如条形码序列)，以及位于寡核苷酸各末端用于扩增和测序的侧接共同序列。

根据本公开的一个方面，使用每碱基一比特编码系统或使用每碱基两比特编码系统或使用每碱基一或多比特编码系统或使用每碱基两或更多比特编码系统。如本文所用术语“比特”应当根据其对本领域技术人员的通用含义予以理解。术语“比特”可以是“二进制数字”的缩写，并且其可以表示计算机和电信中的基础信息容量。“比特”仅表示第一状态或第二状态，如1或0(一或零)。该表示可以通过双态装置的方式在多种系统中实现。

根据该方面，可以使用本领域技术人员已知的核苷酸以多种方式编码单一消息。在示例性二进制代码系统中，即，A或C可以表示零，G或T可以表示数字1。设想了其它组合，如A或G对应0、C或T对应1，或A或T对应0、G或C对应数字1。设想了其他组合，例如00对应第一核苷酸，01对应第二核苷酸，10对应第三核苷酸，11对应第四核苷酸。如本文所讨论考虑了其它组合。根据一个示例性方面，比特流被分成数据块，这些数据块可以在单独的信息格式内寻址，或者在不同的信息格式(例如构成多个图像的不同图像)之间寻址。根据该方面，建立数据块库，其表示记录的信息。以这种方式，不需要以其全长表示记录的信息的单个长核酸序列或相对长的核酸序列。可以通过使用一个或多个核苷酸编码图像的颜色，例如，每个核苷酸由一比特或两比特表示。

根据一个方面，提供了一种使用核苷酸代表比特来存储信息的方法，包括使用诸如数字化的计算机实现方法将信息格式转换为比特流的多个比特序列(如果还没有作为比特流的多个比特序列)，其中一系列比特序列包括该比特流，将多个比特序列转换为多个相应的寡核苷酸序列，例如通过使用每个碱基一比特编码方法或每个碱基两比特编码方法或每个碱基少于一比特编码方法(如果尚未转化为多个相应的寡核苷酸序列)或其他编码方法，合成多个相应的寡核苷酸序列，并将合成的多个相应的寡核苷酸序列作为在使用Casl酶和Cas2酶的细胞内随时间推移同时或多重或顺序或串联进入CRISPR阵列的原型间隔区序列储存。然后细胞可以增殖，产生具有存储信息的许多细胞。应当理解，可以使用将信息格式编码为一系列核苷酸的许多方法或系统，只要产生编码信息格式的原型间隔区并且可以将其解码成信息格式即可。

根据一个方面，提供了一种获取信息格式的方法，所述信息格式以编码该信息格式的多个间隔序列存储在细胞内，其可以由比特序列表示，所述方法包括识别间隔区序列，放大间隔区序列，对扩增的间隔区序列进行测序，将间隔区序列转换为比特序列(如果信息的格式是比特序列的形式)，例如通过使用每个碱基一比特的系统或每个碱基两比特的系统或其他基于比特的编码系统，并将比特序列转换为信息格式。间隔区序列可以包括条形码地址信息以便于组装成信息格式，或者间隔区序列的排序可以提供地址信息以便于组装成信息格式。该方法还可以包括可视化信息格式或将信息格式呈现为音频的步骤。

在示例性方面，本公开的实施方式涉及使用分子(例如核苷酸)表示信息的用途。信息可以是0和1的数字化状态，其中0和1可以根据期望的编码系统由核苷酸编码或表示。例如，每个核苷酸可以由0或1表示，或者核苷酸可以由0和1的组合表示，因此0和1的序列可以代表一系列核苷酸并且可以被转换或编码成一系列核苷酸，因此该系列核苷酸可以代表文本、图像、视频或音频格式或其他信息格式。以这种方式，如果信息的格式由比特表示，则使用核酸表示比特可以将书写材料、图片、具有音频部分的视频或音频记录或任何其他表达介质储存。根据某些示例方面，例如使用计算机和适当的软件将待储存的信息转换成二进制比特，如根据ASCII代码或由算法确定的其他所需代码，其是表示信息的连续的0和1。应当理解的是，可以将待储存的信息转换成本领域已知的信息的其它编码比特。然后确定一系列核苷酸，如通过使用计算机和适当的软件，其表示该系列信息的编码比特，如0和1。然后使用如本文所述的Casl酶和Cas2酶合成该系列核苷酸并将其储存在CRISPR阵列内的细胞内。原型间隔区序列可以使用本领域技术人员已知的方法合成，包括使用模板非依赖性聚合酶，例如末端脱氧核苷酸转移酶(TdT)，也称为DNA核苷酸转移酶(DNTT)或末端转移酶，从而在没有模板的情况下催化核苷酸添加到DNA分子的3'末端，产生核酸链。

当要从细胞内访问该信息时，确定该连续的核苷酸，然后如通过计算机或适当的软件，将其转换成所代表的格式(例如一系列0和1)，然后例如使用计算机和适当的软件将其转换成信息。以此方式，本公开内容的方面涉及核酸(无论是完全或部分单链，双链还是多链)作为本文所述细胞内CRISPR阵列内信息的存储介质的用途，只要使用本领域技术人员已知的方法将信息格式编码到核酸中即可。编码信息格式的核酸聚合物可以使用本领域普通技术人员已知的方法测序。一旦从CRISPR阵列内的间隔区序列确定核酸序列，就可以将核酸序列翻译或解码成信息格式，例如被解码成一系列二进制比特，即0和1，然后可以被翻译成由一系列二进制比特表示的信息。可以转换成比特的其它格式的信息是本领域技术人员所熟知的。用于信息格式的其他编码系统是本领域技术人员已知的。

根据一个方面，待转换成比特的html信息格式或其他信息格式的部分可以被称之为字节部分。然后将比特序列(例如通过计算机和适当的软件)转换(编码)成设计的核苷酸序列，即寡核苷酸或DNA或RNA，例如，使用每碱基编码1比特(A或C＝0；T/U或G＝1)或每碱基编码两比特(00＝第一核苷酸，01＝第二核苷酸，10＝第三核苷酸，11＝第四核苷酸，即00＝C，01＝T，10＝A且11＝G)以形成相应的编码寡核苷酸序列，即寡核苷酸序列对应于或编码比特序列。生产核酸序列的有用方法在Sriram Kosuri和George M.Church,NatureMethods,2014年5月,11卷5期,499–507页中的“大规模从头合成DNA：技术与应用(Large-scale de novo DNA synthesis:technologies and applications)”公开，其通过引用全文纳入本文。在某些方面，来自CustomArray有限公司(CustomArray,Inc.)的市售可得的CustomArray系统是可以被用于生产编码待储存在细胞内的CRISPR阵列内的信息(即原型间隔区)的核酸序列的示例性系统，使用本文所述Cas1酶和Cas2酶。

当从CRISPR阵列获取时，使用本领域技术人员已知的方法扩增间隔区序列以形成寡核苷酸文库。通常，“扩增”包括经由重复轮启动的酶促合成生成核酸分子的拷贝。用于本公开的扩增方法可包括，将核酸分子和与核酸分子特异性杂交的一种或多种引物在促进杂交和链延伸的条件下接触。用于扩增核酸的示例性方法包括聚合酶链式反应(PCR)(参见例如，Mullis等(1986)Cold Spring Harb.Symp.Quant.Biol.51Pt 1:263和Cleary等(2004)Nature Methods 1:241；和美国专利号4,683,195和4,683,202)，锚PCR、RACE PCR、连接链式反应(LCR)(参见例如，Landegran等(1988)Science 241:1077-1080；和Nakazawa等(1994)Proc.Natl.Acad.Sci.U.S.A.91:360-364)、自维持序列复制(Guatelli等(1990)Proc.Natl.Acad.Sci.U.S.A.87:1874)、转录扩增系统(Kwoh等(1989)Proc.Natl.Acad.Sci.U.S.A.86:1173)、复制酶(Lizardi等(1988)BioTechnology 6:1197)、循环PCR(Jaffe等(2000)J.Biol.Chem.275:2619；和Williams等(2002)J.Biol.Chem.277:7790)，美国专利号6,391,544、6,365,375、6,294,323、6,261,797、6,124,090和5,612,199所述的扩增方法、等温扩增(例如，滚环扩增(RCA)、超支化的滚环扩增(HRCA)、链置换扩增(SDA)、解旋酶依赖性扩增(HDA)、PWGA)或采用本领域技术人员熟知的技术的任何其它核酸扩增方法。

然后，使用本领域技术人员已知的方法，如下一代测序方法，对寡核苷酸的库进行测序。可用于本公开的测序方法包括：Shendure等.,进化细菌基因组的准确多重普罗尼测序(Accurate multiplex polony sequencing of an evolved bacterial genome),Science,309卷,1728-32页.2005；Drmanac等.,使用对自组装DNA纳米阵列的解链的碱基读数的人基因组测序(Human genome sequencing using unchained base reads on self-assembling DNA nanoarrays),Science,327卷,78-81页.2009；McKernan等.,通过使用双碱基编码的短读大规模平行连接测序揭示的人类基因组中的序列和结构变异(Sequenceand structural variation in a human genome uncovered by short-read,massivelyparallel ligation sequencing using two-base encoding),Genome Res.,19卷,1527-41页.2009；Rodrigue等.,对宏基因组学进行短读测序(Unlocking short readsequencing for metagenomics),PLoS One,28等,e11840.2010；Rothberg等.,能够进行非光学基因组测序的集成半导体装置(An integrated semiconductor device enablingnon-optical genome sequencing),Nature,475卷,348-352页.2011；Margulies等.,在显微制造的高密度皮升反应器中进行基因组测序(Genome sequencing in microfabricatedhigh-density picolitre reactors),Nature,437卷,376-380页.2005；Rasko等.在德国导致溶血性尿毒症综合征爆发的大肠杆菌菌株的来源(Origins of the E.coli straincausing an outbreak of hemolytic-uremic syndrome in Germany),N.Engl.J.Med.,Epub.2011；Hutter等.,具有可逆终止氨基烷氧基团的标记的核苷三磷酸(Labelednucleoside triphosphates with reversibly terminating aminoalkoxyl groups),Nucleos.Nucleot.Nucl.,92卷,879-895页.2010；Seo等.,使用可光切割的荧光核苷酸在芯片上通过合成的四色DNA测序(Four-color DNA sequencing by synthesis on a chipusing photocleavable fluorescent nucleotides),Proc.Natl.Acad.Sci.USA.,102卷,5926-5931页(2005)；Olejnik等.；可光切割的生物素衍生物：分离生物分子的通用方法(Photocleavable biotin derivatives:a versatile approach for the isolation ofbiomolecules),Proc.Natl.Acad.Sci.U.S.A.,vol.92,p.7590-7594.1995；US 5,750,34；US 2009/0062129和US2009/0191553。

然后可以使用所采用的编码系统将测序的寡核苷酸转换或解码成信息的格式。例如，然后可以将测序的寡核苷酸转换或解码成比特序列。使用本领域技术人员已知的方法，可以将比特序列转换成该格式的信息。使用本领域技术人员已知的方法和装置，可以将该格式的信息可视化或显示或播放(如果是音频格式)。

本文所用的核酸化学、生物化学、遗传学和分子生物学的术语和符号遵循本领域的标准论述和文本中的术语和符合，例如，Kornberg和Baker，DNA Replication(《DNA复制》)，第二版(W.H.弗里曼出版社(W.H.Freeman)，纽约，1992)；Lehninger，Biochemistry(《生物化学》)，第二版(沃斯出版社(Worth Publishers)，纽约，1975)；Strachan和Read，Human Molecular Genetics(《人类分子遗传学》)，第二版(WL出版社(Wiley-Liss)，纽约，1999)；Eckstein编，Oligonucleotides andanalogs:A Practical Approach(《寡核苷酸和类似物：实践方法》)(牛津大学出版社(Oxford University Press)，纽约，1991)；Gait编，Oligonucleotide Synthesis:A Practical Approach(《寡核苷酸合成：实践方法》)(IRL出版社，牛津，1984)；等。

本文所用术语“核酸分子”、“核酸序列”、“核酸片段”和“寡聚物”可互换使用，并且意在包括但不限于，可能具有各种长度的核苷酸的聚合物形式，包括脱氧核糖核苷酸或核糖核苷酸，或其类似物。

通常，术语“核酸分子”、“核酸序列”、“核酸片段”、“寡核苷酸”和“多核苷酸”可互换使用，并且意在包括但不限于，可能具有各种长度的核苷酸的聚合物形式，包括脱氧核糖核苷酸(DNA)或核糖核苷酸(RNA)，或其类似物。寡核苷酸通常由4个核苷酸碱基的特定序列组成，所述4个核苷酸碱基为：腺嘌呤(A)；胞嘧啶(C)；鸟嘌呤(G)；和胸腺嘧啶(T)(当多核苷酸是RNA时，尿嘧啶(U)替代胸腺嘧啶(T))。根据某些方面，可以使用脱氧核苷酸(dNTP，如dATP、dCTP、dGTP、dTTP)。根据某些方面，可以使用核糖核苷酸三磷酸(rNTP)。根据某些方面，可以使用核糖核苷酸二磷酸(rNDP)。

术语“寡核苷酸序列”是多核苷酸分子的字母表示；或者，该术语可以应用于多核苷酸分子本身。可以将该字母表示输入具有中央处理单元的计算机中的数据库中，并用于生物信息学应用，如功能基因组学和同源性搜索。寡核苷酸任选地可以包括一个或多个非标准的核苷酸、核苷酸类似物和/或修饰的核苷酸。本公开考虑了任何脱氧核糖核苷酸或核糖核苷酸和其化学变体，如碱基的甲基化、羟甲基化或糖基化形式等。根据某个方面，在制备核酸的方法中使用天然核苷酸。天然核苷酸缺少链终止部分。根据另一方面，本文所述制备核酸的方法并不使用终止核酸或其它缺少终止核酸的物质，如本领域技术人员已知的可逆终止子。该方法在不存在链终止核酸的情况下进行，或者其中所述核酸不同于链终止核酸。

修饰的核苷酸的示例包括但不限于，二氨基嘌呤、S2T、5-氟尿嘧啶、5-溴尿嘧啶、5-氯尿嘧啶、5-碘尿嘧啶、次黄嘌呤、黄嘌呤、4-乙酰基胞嘧啶、5-(羧基羟甲基)尿嘧啶、5-羧甲基氨基甲基-2-硫尿核苷、5-羧甲基氨基甲基尿嘧啶、二氢尿嘧啶、β-D-半乳糖基辫苷(queosine)、肌苷、N6-异戊烯基腺嘌呤、1-甲基鸟嘌呤、1-甲基肌苷、2、2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞嘧啶、5-甲基胞嘧啶、N6-腺嘌呤、7-甲基鸟嘌呤、5-甲基氨基甲基尿嘧啶、5-甲氧基氨基甲基-2-硫尿嘧啶、β-D-甘露糖基辫苷、5’-甲氧基羧甲基尿嘧啶、5-甲氧基尿嘧啶、2-甲硫基-N6-异戊烯基腺嘌呤、尿嘧啶-5-氧乙酸(v)、五步苷(wybutoxosine)、假尿嘧啶、辫苷、2-硫胞嘧啶、5-甲基-2-硫尿嘧啶、2-硫尿嘧啶、4-硫尿嘧啶、5-甲基尿嘧啶、尿嘧啶-5-氧乙酸甲酯、尿嘧啶-5-氧乙酸(v)、5-甲基-2-硫尿嘧啶、3-(3-氨基-3-N-2-羧基丙基)尿嘧啶、(acp3)w、2,6-二氨基嘌呤等。还可以在碱基部分(例如，在通常能够与互补核苷酸形成氢键的一个或多个原子和/或在通常不能与互补核苷酸形成氢键的一个或多个原子)、糖部分或磷酸骨架修饰核酸分子。核酸分子可以还包含胺改性的基团，如氨基烯丙基-dUTP(aa-dUTP)和氨基己基丙烯酰胺-dCTP(aha-dCTP)，以允许如N-羟基琥珀酰亚胺酯(NHS)的胺反应性部分共价连接。

本公开的寡核苷酸中标准DNA碱基对或RNA碱基对的替代物可以提供每立方毫米更高的密度，更高的安全性(天然毒素的意外或目的性合成的抵抗)，光编程的(photo-programmed)聚合酶中更容易的区分，或更低的二级结构。与天然或变异的聚合酶相容、用于从头和/或扩增合成的这样的替代碱基对在Betz K,Malyshev DA,Lavergne T,Welte W,Diederichs K,Dwyer TJ,Ordoukhanian P,Romesberg FE,Marx A(2012)KlenTaq聚合酶通过诱导沃森-克里克几何学复制非天然碱基对(KlenTaq polymerase replicatesunnatural base pairs by inducing a Watson-Crick geometry),Nature Chem.Biol.8:612-614中描述；参见YJ,Malyshev DA,Lavergne T,Ordoukhanian P,Romesberg FE.J AmChem Soc.2011年12月14日；133(49):19878-88,使用高效复制和转录的非天然碱基对类型位点特异性标记DNA和RNA(Site-specific labeling of DNA and RNA using anefficiently replicatedand transcribed class of unnatural base pairs)；SwitzerCY,Moroney SE,Benner SA.(1993)Biochemistry.32(39):10489-96.异胞苷和异鸟苷之间碱基对的酶促识别(Enzymatic recognition of the base pair between isocytidineand isoguanosine)；Yamashige R,Kimoto M,Takezawa Y,Sato A,Mitsui T,Yokoyama S,Hirao I.Nucleic Acids Res.2012Mar；40(6):2793-806.高特异性非天然碱基对系统作为PCR扩增的第三个碱基对(Highly specific unnatural base pair systems as a thirdbase pair for PCR amplification)；以及Yang Z,Chen F,Alvarado JB,Benner SA.J AmChem Soc.2011年9月28日；133(38):15105-12,六字母合成遗传系统的扩增、突变和测序(Amplification,mutation,and sequencing of a six-letter synthetic geneticsystem)。可以使用其它非标准的核苷酸，如Malyshev,D.A.,等.,Nature,509卷,385-388页(2014年5月15日)中所述，通过引用全文纳入本文。

本文公开方法的应用可采用常规生物学方法、软件、计算机和计算机系统。相应地，本文所述方法可以全部或部分是计算机实现的方法。在本公开的方法中利用的计算机软件包括具有用于执行本发明方法逻辑步骤的计算机可执行指令的计算机可读介质。合适的计算机可读介质包括但不限于软盘、CD-ROM/DVD/DVD-ROM、硬盘驱动器、闪存、ROM/RAM、磁带和其它可以使用的计算机可读介质。计算机可执行指令可以用合适的计算机语言或几种计算机语言的组合来编写。本文所述的方法还可以利用各种市售可得的计算机和计算机程序产品和软件用于各种目的，包括将文本或图像转换成二进制码，设计表示二进制码的核酸序列，分析来自核酸序列的测序数据，将核酸序列数据转换成二进制码，以及将二进制码转换成文本或图像。

实施例8

使用CRISPR-Cas系统将编码图像和短影片的原型间隔区序列以时间依赖性的方式记录到细菌基因组中

本公开内容的方面涉及在细胞(例如细菌细胞)内使用CRISPR阵列来编码图像和短影片，这例如通过使用原型间隔区采集的时间依赖性，即保存每个原型间隔区，在细胞内的CRISPR阵列内一次一个地连续保存信息格式，然后通过以下方式获取存储的信息：鉴定间隔区序列的串联关系，其指示如何将间隔区序列组装成信息格式，和测序间隔区序列。本公开内容的方面包括通过将寡核苷酸(即原型间隔区序列)系列添加至细胞内的CRISPR阵列，将不同的原型间隔区序列实时包含到活细胞中的方法。本文描述的方面涉及原型间隔区序列的传送，其编码诸如文本、一个或多个图像、视频或音频信息格式的真实信息。本文描述的方面涉及原型间隔区序列的核苷酸含量。本文描述的方面涉及重建原型间隔区序列的方法。

材料和方法

细菌菌株和培养条件

所有实验均在BL21-AI大肠杆菌(赛默飞世尔公司)中进行，其含有整合的阿拉伯糖诱导的T7聚合酶，内源CRISPR阵列，但没有内源Cas1+2(即Casl酶和Cas2酶)。在每次实验之前，将编码诱导型(T7/lac)Cas1+2(K-菌株起点，pWUR1+2a.k.a.pCas1+2)的质粒转化到细胞中。将含有质粒的细胞在4℃的平板上的菌落中维持最多3周。

寡核苷酸原型间隔区电穿孔

电穿孔如前述Shipman,S.L.,Nivala,J.,Macklis,J.D.和Church,G.M.通过引导的CRISPR间隔区采集的分子记录(Molecular recordings by directed CRISPR spaceracquisition).Science,doi:10.1126/science.aaf1175(2016)中所述进行，其全部内容通过引用并入本文。简而言之，在从单个菌落过夜生长后，在3ml稀释的培养物中诱导Cas1+2(含有80ul过夜)，并在37℃下生长2小时(L-阿拉伯糖0.2％w/w，西格玛-奥德里奇公司；异丙基-β-D-硫代吡喃半乳糖苷1mM，西格玛-奥德里奇公司)。对于给定的条件，将1ml诱导的培养物旋转并在4℃下用水洗涤三次，然后重悬于50μl的6.25μM的单一原型间隔区溶液或多种原型间隔区的组的溶液中，并在1mm间隙池中电穿孔，使用设置为1.8kV和25uF的Bio-Rad基因脉冲发生器。仅对电穿孔时间常数>4.0ms的那些条件进行分析。电穿孔后，将细胞在3ml LB中于37℃恢复2-3小时，然后稀释(50μl)到新鲜的3ml培养物中并生长过夜。第二天早晨收集细胞用于分析。

间隔区采集分析

为了分析间隔区采集，通过加热至95℃裂解细菌5分钟，然后使用位于前导区-重复连接的侧翼并另外含有Illumina兼容性衔接子的引物进行基因组阵列的PCR。在MiSeq测序仪(Illumina公司)上对多达96个双索引样品的文库进行测序，以从每个阵列上的前导区读取多至三个间隔区位置。基于侧翼重复序列的存在，以生物信息学方式提取间隔区序列，并与预先存在的间隔区序列进行比较，以确定扩增阵列的百分比以及新采集的间隔区的位置和序列。针对基因组和质粒序列对新的间隔区进行BLAST(NCBI)以确定原型间隔区的起点，其中不是从基因组或质粒衍生的那些序列假定是寡核苷酸衍生的。使用Python中的自定义编写脚本执行上述以及所有后续图像分析。

图像编码和解码

使用自定义Python脚本创建图像原型间隔区组，以首先打开并读取先前创建的图像的像素值。四种颜色中的每一种都被分配了一种核苷酸，每个核苷酸被分配了两位二进制数，即00＝C，01＝T，10＝A且11＝G。如图1D所示，每个原型间隔区通过二元-至-核苷酸转换给出像素代码，并由编码像素值的核苷酸填充。对于单一图像，像素代码在升序和降序数字之间交错，以在相邻的像素原型间隔区中引入更多的序列多样性。在图14B和图16A中采用的灵活代码的情况下，原型间隔区顺序构建。对于每个新的像素值，根据哪个三联体最佳地将所得序列的GC％推至50％而对三个可能的核苷酸序列进行排序，然后测试三联体的添加是否会产生内部PAM或单核苷酸重复>3。如果产生了这种情况，则对列表中的下一个三联体进行测试，直到找到可接受的三联体(图18A)。对于图14A中的图像，最终的碱基被分配给间隔区的其余部分中的最少数量的碱基。最后，重新格式化序列以匹配最小发夹结构并写入电子表格以供整合DNA技术公司(Integrated DNA Technologies)合成。对于GIF，每帧重复此过程。

为了重建单个图像，根据采集频率对新采集的寡核苷酸衍生的间隔区进行排序，然后将每个像素的最频繁的间隔区序列(通过向二进制转换的反向核苷酸)分配给该像素。从剩余的间隔区序列中提取像素值并用于填充图像。

计算初始图像的Shannon信息，其中每个原型间隔区包含四个像素核苷酸中的约6.807比特(112个可能的像素：log₂(112))和剩余28个像素值编码核苷酸的每个碱基两比特，产生每个原型间隔区约62.807比特。该图像组包括112个原型间隔区，用于约7,034.424比特(约879.303字节)。同样，来自第二图像的原型间隔区在4个像素核苷酸中含有约6.644比特(log₂(100))，在含有27个像素值的核苷酸中含有约39.53比特(9*log₂(21))，总共约46.175比特/原型间隔区或图像组中的约4,617.5比特(约577.2字节)。最后，每个GIF原型间隔区在5像素碱基中包含约6.7比特((log₂(104))和含27个像素值的核苷酸中约39.53比特(9*log₂(21))，总共约46.23比特/原型间隔区，或约4,808.1比特/帧，总计约24,040.3比特(约3,005字节)。

估计具有进一步轮次的电穿孔和超出那些经测序位置(图16A)的阵列扩增，从每阵列的新的单(约15.8％)、双(约2.4％)和三(约0.1％)重扩增的平均速率开始，具有给定的电穿孔并且假设单次电穿孔没有产生初始四倍或五倍的扩增。随着几轮电穿孔的进行，假设随后的电穿孔将导致相同百分比的单、双和三重扩增，其中单重扩增将未扩增的转换为单重扩增，之前的单重扩增转换为双重扩增，之前的三重扩增转换为四重扩增，等等。

实施例9

使用CRISPR-Cas系统将编码图像的原型间隔区序列记录到细菌基因组中

本公开内容提供了通过使用Cas1酶和Cas2酶将信息格式(例如图像)记录到细胞中以将编码图像的多个原型间隔区插入细胞内的CRISPR阵列的方法。多个原型间隔区(PS)在整体串联时(即PS1、PS2、PS3等)编码整个图像。根据本公开，将每个原型间隔区以它们整体编码图像(或其他信息格式)的顺序引入到细胞中，以创建一系列间隔区序列，其中编码的图像(或其他信息格式)具有正确排序。以这种方式，可以通过理解间隔区序列的串联排序来确定编码图像的原型间隔区序列的正确顺序。然后将每个原型间隔区连续并入CRISPR阵列中，如它们被引入细胞的顺序所决定。以这种方式，原型间隔区以它们对图像整体编码的方式在CRISPR阵列中连续排序。连续引入每个原型间隔区的时机有助于将原型间隔区串联引入CRISPR阵列，使得一系列间隔区序列代表表示图像的完整二进制信息格式。例如，将第一个原型间隔区引入细胞并插入CRISPR阵列，然后向CRISPR阵列插入第二个原型间隔区，然后向CRISPR阵列插入第三个原型间隔区，等等，直到向CRISPR阵列插入第N个原型间隔区，使整个编码图像插入CRISPR阵列。然后，可以简单地通过将间隔区以它们在CRISPR阵列中存在的顺序首尾相连地放置而将间隔区组装成信息格式。然后可以将间隔区序列解码成信息格式。例如，如果信息格式是包括一系列句子的文本页面，则先将编码第一句子(或页面文本的第一部分)的核酸序列，即原型间隔区序列(PS1)递送至细胞并插入到CRISPR阵列中，然后将编码第二句子(或页面文本的第二部分)的原型间隔区序列(PS2)递送至细胞并插入到CRISPR阵列中，依此类推直到将第N(PSN)递送至细胞并插入到CRISPR阵列中。以这种方式，原型间隔区序列将以有序的方式插入CRISPR阵列中，其中它们整体代表信息格式。当解码CRISPR阵列内的间隔区序列时，插入的第一个间隔区序列将代表第一句子或页面文本的第一部分，插入的第二个间隔区序列将代表第二句子或页面文本的第二部分，等等。因此，识别间隔区序列的串联关系用于头尾排序间隔区序列以正确地重建信息格式。或者，条形码序列可用于指示间隔区序列的正确顺序，即头尾排序，以重建信息格式。然而，如果为每个原型间隔区提供地址条形码，则可能不需要上述时间依赖性方面，其中每个原型间隔区识别信息格式中的原型间隔区的顺序或位置，使得间隔区序列可以正确地组装成信息格式。以这种方式，插入原型间隔区序列的时机可能不是将间隔区序列解码成信息格式所必需的。

为了将图像编码到细胞中，即编码到包括CRISPR阵列的细胞内的基因组DNA或其他DNA中，图形图像是真实数据的来源，其中编码和解码的保真度在视觉上立即显现。如图12A所示，选择图像。如前所述，在大肠杆菌的天然CRISPR-Cas适应系统中，来自入侵病毒的核苷酸被插入到称为间隔区的33个碱基单元中的基因组CRISPR阵列中，所述间隔区散布在相同的重复序列之间(参见van der Oost,J.,Jore,M.M.,Westra,E.R.,Lundgren,M.和Brouns,S.J.原核生物中基于CRISPR的适应性和遗传性免疫(CRISPR-based adaptive andheritable immunity in prokaryotes)Trends in biochemical sciences 34,401-407,doi:10.1016/j.tibs.2009.05.002(2009))。间隔区在病毒所衍生自的匹配序列称为原型间隔区(参见Deveau,H.等，对嗜热链球菌的CRISPR编码抗性的噬菌体应答(Phageresponse to CRISPR-encoded resistance in Streptococcus thermophilus)Journalof bacteriology 190,1390-1400,doi:10.1128/jb.01412-07(2008)。根据本发明，图像的像素值存储在核酸序列中或由核酸序列表示，其中序列被分成许多单独的合成的原型间隔区寡核苷酸(“寡核苷酸”)。原型间隔区寡核苷酸的组代表信息的格式。然后将这些寡核苷酸电穿孔到具有CRISPR阵列的细菌群中并过表达Cas1-Cas2整合酶复合物，从而允许这些细胞将寡核苷酸采集到其基因组中。然后可以对细菌进行存档和扩增(复制编码的信息)。为了恢复信息，执行多路复用的高通量测序以恢复所有新的间隔区序列，其被解码以重建原始图像。

如图12B所示，选择了人手的图像。具体地，生成由四种颜色组成的56X56像素图像。通过为每种颜色分配独特的碱基，使用核苷酸编码颜色(图12C)。每个碱基由两个二进制位表示，如图12D所示。可以提供双链原型间隔区作为用于编码信息格式的两个互补寡核苷酸。关于图像，发夹寡核苷酸原型间隔区被设计用于代表图像的100多个原型间隔区，因为发夹设计防止互补寡核苷酸在电穿孔期间分离到不同的细胞中。

在原型间隔区的一端上的原型间隔区相邻基序(PAM)都提高了采集效率并确定了间隔区插入的方向。关于发夹原型间隔区设计，对PAM的该要求不适用于原型间隔区的两条链：顶部链上的“AAG”对于PAM效应是不必要的，而底部链上的“TTC”是必需的(图13A)。因为与原型间隔区复合的Cas1-Cas2的晶体结构解析成在原型间隔区的核心处有约23个碱基的双链DNA，并且两侧具有分叉的非互补末端(参见Nunez,J.K.,Harrington,L.B.,Kranzusch,P.J.,Engelman,A.N.和Doudna,J.A.在CRISPR-Cas适应性免疫中的外来DNA捕获(Foreign DNA capture during CRISPR-Cas adaptive immunity)，Nature 527,535-538,doi:10.1038/nature15760(2015)和Wang,J.等CRISPR-Cas系统中PAM依赖间隔区采集的结构和机理基础(Structural and Mechanistic Basis of PAM-Dependent SpacerAcquisition in CRISPR-Cas Systems).Cell 163,840-853,doi:10.1016/j.cell.2015.10.008(2015)，其中各自都通过引用整体并入本文)，设计了模仿该设计的寡核苷酸发夹结构(图13B)，将一侧的非互补末端与环状接头连接。这种初始发夹寡核苷酸原型间隔区被高效采集。通过从接头环中去除核苷酸来修饰发夹寡核苷酸原型间隔区设计，该修饰不会损害采集。然后，消除5'分叉末端(图13B)。这产生了58碱基的发夹原型间隔区，其一旦针对浓度进行了优化，就在电穿孔时高效地采集到阵列中(图13C)。

为了将图像信息(即，颜色至核苷酸代码)分布在多个原型间隔区上，每个原型间隔区包括条形码，该条形码定义哪个像素组-或“像素”-将由该间隔区中的核苷酸编码。像素组是构成图像的全部像素数目中的像素的一部分。每个原型间隔区开始于PAM基序，以实现高效和定向采集。接下来的四个核苷酸定义了像素-通过二进制至核苷酸的转换产生(图12D)-在每个间隔区上留下28个碱基以编码像素值。通过在图像上分布给定像素的像素来减少单核苷酸运行，推断在自然图像中附近的像素更可能具有相同的值(图12D)。将寡核苷酸序列转化为用于寡核苷酸递送的最小发夹的结构。该初始图像分布在112个寡核苷酸中，总信息量为约879.3字节。

合并寡核苷酸并电穿孔到阿拉伯糖诱导的T7聚合酶大肠杆菌菌株(BL21-AI)中，该菌株含有基因组阵列并且在具有lac操纵基因的T7启动子的控制下过表达Cas1-Cas2。电穿孔后，使细胞恢复，并将培养物传代过夜生长。第二天，裂解细胞样品，用适配器通过PCR扩增它们的基因组阵列，以允许文库构建用于多重Illumina测序。测序后，从阵列中以生物信息学方式提取新的间隔区，选择那些不是从质粒或基因组衍生的间隔区进行分析。基于具有给定像素的最多的新间隔区来分配像素值。从该过程的每个重复中重建的图像显示在图12E中。在测序深度为655,360读数的情况下，平均准确地召回了约88％的像素序列(图12F)。读数深度包括扩增和未扩增的阵列。由于每个细胞包含单阵列，因此大致相当于对655,360个单独细胞进行排序。随着采样读数的的减少，召回的准确性急剧下降(图12F-12G)。通过电穿孔寡核苷酸的子集，确定实现类似的召回准确度所需的读数的数目与电穿孔的寡核苷酸的数目线性相关(图12H)。使用本文描述的方法重建图像。

使用具有更复杂颜色方案的第二图像，其中将灵活性引入编码方案以允许序列优化。第二图像还是一只手，稍小于第一图像，21种颜色的30X30像素(图14A)。在这种情况下，不是使每种颜色与单个核苷酸配对，而是产生核苷酸三联体表，由此任何给定的颜色可以由三种不同的核苷酸三联体编码(图14B)，每个核苷酸由两个二进制位表示，如图14C所示。应理解，本领域技术人员已知的误差校正和压缩方法可应用于本文公开的方法。

与第一图像类似，每个原型间隔区开始于PAM，然后是四碱基像素代码，但是原型间隔区的其余部分可以灵活构建-添加核苷酸三联体，使整体GC含量保持在50％左右，消除单核苷酸重复>3bp，并且在任一方向上不允许内部PAM(图14C，18A-18D)。在该图像和编码方案的情况下，每个原型间隔区编码九个像素，总信息量约577.2字节总计需要总共100个原型间隔区。

与第一图像一样进行电穿孔。在这种情况下，利用原型间隔区代码中的额外灵活性，在相同的测序深度，完美重建重复之一(图14D)，总体精度为约96％(图14E)。由于被采样的读数更少，精确度再次降低，但与初始图像相比，该编码策略对低采样的误差具有更强的抵抗力(图14E-14F)。在递送的寡核苷酸和精确测序寡核苷酸所需的读数之间存在线性关系(图14G)。补偿图像之间的信息内容的差异，要达到80％准确度，初始图像需要的每个寡核苷酸原型间隔区的读数(约1,582个读数/原型间隔区)远远超过第二个图像(153个读数/原型间隔区)。

具有灵活代码的召回的改善可能主要通过增加的采集频率来驱动(图14H)。当在两组原型间隔区中观察时，在各个原型间隔区序列的采集频率范围明显相似(图14I)。给定此范围，分析了与电穿孔的所有序列相比过表现的原型间隔区的序列。在原型间隔区的最后两个核苷酸中的过表现序列中鉴定出显著基序(图14J)。先前已经报道了原型间隔区的最后两个碱基中的基序，并将其称为采集影响性基序(AAM)(参见Yosef,I.等，DNA基序确定适应于大肠杆菌CRISPR阵列的适应效率(DNA motifs determining the efficiency ofadaptation into the Escherichia coli CRISPR array).Proc Natl Acad Sci U S A110,14396-14401,doi:10.1073/pnas.1300108110(2013))，然而该基序的报道序列与鉴定的基序不同。

为了测试这个基序是否是效率差异的主要原因，单独的原型间隔区是单独测试的。基于在重复之一中在采集的间隔区中过表现的核苷酸创建一个序列，其以'TGA'(seq^过)结束，并且基于在相同重复中在采集的间隔区中低表现的核苷酸创建另一个序列，其以‘CCT’(seq^低)结束。创建另外两个原型间隔区，其交换来自这两个序列的最后三个核苷酸(seq^过-CCT和seq^低-TGA)(图14K)。当每个序列作为最小发夹寡核苷酸单独递送时，最后三个核苷酸确定采集频率，“TGA”产生高效率并且“CCT”产生低效率，而不管寡核苷酸的其余部分中的序列含量如何(图14L)。因为这三个核苷酸位于最小发夹的环区域，所以研究它们对采集效率的影响是否特异于发夹原型间隔区结构。因此，测试这些序列作为互补单链寡核苷酸(图15A)，表明对最后三个核苷酸的相同依赖性，排除基于发夹稳定性的模型(图15B)。

虽然原型间隔区末端的核苷酸影响采集效率，但研究了优化的核苷酸的性质。在最后三个位置设计具有随机核苷酸(NNN)的最小发夹原型间隔区(图14M)，并将原型间隔区混合物电穿孔到过表达Cas1-Cas2的细胞中以完全取样序列间隔。虽然在三个可变核苷酸中用每种可能的NNN笛卡尔积观察到采集事件，但是显然有效率更高和效率更低的序列(图14N)。结果通过图14O中的原型间隔区中的位置进行总结。

为了理解信息捕获的动力学以及随时间的信息维持的保真度(即，信息随时间保持的良好程度)，进行另一组第二(21色)图像的电穿孔。在电穿孔后的最初几分钟、几小时和几天对时间点进行取样，细菌在生长条件下培养一周，每日传代。早在电穿孔后10分钟就可检测到初始寡核苷酸衍生的间隔区采集，并且在2小时40分钟达到峰值-与从该细菌群体首次完美召回图像的时间相同(参见图19A和图19B)。在电穿孔后2小时40分钟和24小时之间，用寡核苷酸衍生的间隔区扩增的阵列的百分比下降，然后在接下来的六天中稳定。据推测，一些细胞在电穿孔后采集间隔区，但也丧失活力，因此在生长后不会形成细菌群体。所有其他采样点在电穿孔后至少16小时进行，因此反映了可存活的细菌群体。

本公开的各方面涉及呈递用于优化包含信息的原型间隔区的序列的规则。根据一个方面，GC百分比大于或等于20％，30％，40％或50％。根据一个方面，在原型间隔区库中缺乏单核苷酸重复。根据一个方面，在原型间隔区库中缺乏内部PAM。

关于灵活编码方案，控制在初始图像中不受控制的三个参数：GC含量，单核苷酸重复的存在和内部PAM的存在。分别研究每个参数以确定哪些参数(如果有的话)有助于提高采集效率。另外75个原型间隔区寡核苷酸被设计为跨越像素颜色编码碱基中的一系列GC含量-十五个原型间隔区每个为0、25、50、75和100％GC。将这些寡核苷酸作为单个库进行电穿孔，然后定量每个单独寡核苷酸的采集频率(参见图20A)。具有较高GC含量的原型间隔区的采集频率显著高于GC含量较低的那些。当在给定GC百分比的组内的亚库中电穿孔相同的寡核苷酸时(参见图20A)，出现相同的总体趋势-更高的GC含量，特别是超过50％-导致整个组的总体采集频率更高。

单个库在光谱的高端和低端之间显示出非常大的差异，0％、25％基本上没有采集，50％采集的频率低于75％或100％。然而，当在电穿孔之前将相同的序列在组内进行亚汇集(sub-pooled)时，差异不太明显。仍然几乎从未采集具有0％GC的序列，但是当经亚汇集时，50％，75％和100％GC之间没有显著差异。这些寡核苷酸中的15个的子集经单独电穿孔-每个GC组三个。在25、50、75或100％组中的任何寡核苷酸之间没有发现差异-但很少采集0％GC寡核苷酸(参见图20B)。GC百分比对采集频率有明显影响，当单独或合并供应寡核苷酸时，采集频率降低到极低端，当作为类似GC含量的库提供时，达到50％GC。由于GC百分比在混合百分比库中的陡峭影响，限制库内GC百分比的范围是有益的。由于50％库与75％或100％库没有显著差异，并且推高GC含量将降低每个原型间隔区的信息密度，50％似乎是库的合理设定点。编码第一图像的原型间隔区的GC百分比总体低于编码第二图像的那些(41.8+0.6％对比50.6+0.6％)，这可能在很大程度上解释了采集频率(以及因此的召回)的差异。此外，在每个图像中，以更高的频率采集具有更高GC百分比的寡核苷酸。因为GC百分比和发夹结构的稳定性是相关的，所以还有采集具有更高发夹稳定性的序列的轻微趋势(参见图20C)。

对于每个单核苷酸重复序列和内部PAM序列，设计了108个原型间隔区寡核苷酸，分布在四种条件下(3、4、6和8个单核苷酸重复；0、1、3和5个内部PAM)。当将这些组中的每一组电穿孔为单个库时，在作为所述条件的函数的寡核苷酸采集频率之间未发现差异(参见图20D和图20E)。然而，当按条件进行亚汇集时，在每个的高末端(6或8个单核苷酸重复；5个内部PAM)发现采集频率降低。因此，当考虑序列设计时，限制单核苷酸重复和内部PAM的数目是有利的。

实施例10

使用CRISPR-Cas系统进行时间依赖性记录，将编码随时间的多个图像的原型间隔区序列记录进入细菌基因组以产生短影片或GIF

本公开内容提供了使用CRISPR-Cas系统将编码随时间的多个图像的原型间隔区序列以时间依赖性方式记录到细菌基因组中以产生短影片或GIF的方法。在相同细菌群体中随时间编码和记录多个图像以产生短影片或GIF。重新设计编码策略以将像素代码移至原型间隔区的最后核苷酸，其中使用减少的序列间隔，将最后三个核苷酸限制为从图14N中发现的最高效三联体中抽取的八个可能的三联体(图16A)。像素代码，即地址条形码，用于处理图像内的原型间隔区。像素代码，即地址条形码，也可用于将多个图像彼此区分开。五帧Eadweard Muybridge的《奔跑的马》(Horse in Motion)以36X26像素编码。每帧由104个原型间隔区的独特寡核苷酸组组成，总信息量约为3千字节。在帧之间重复使用像素代码，并且没有使用核苷酸来识别帧顺序。以这种方式，引入代表每个图像的每组原型间隔区的时机用于区分图像彼此。将每个原型间隔区组(或帧)在5天内连续电穿孔到单细菌群体中(图16B)。因为新的间隔区几乎总是相邻于CRISPR阵列中的前导区序列采集，这会推动先前采集的间隔区远离前导区，所以可以基于阵列中间隔区的顺序重建电穿孔的原型间隔区(以及因此GIF的帧)的顺序。

从每帧高效地采集重新设计的原型间隔区，填充CRISPR阵列的前三个测序位置(图16C)。基于该信息，可以估计进一步进入未测序的阵列中的位置将被填充的频率以及阵列将如何用额外的电穿孔轮次而扩增(图17A)。为了重建帧的顺序，从而重建GIF，提取来自测序阵列的所有新的间隔区，并且从质粒或基因组中提取的那些间隔区被放在一边。假设每个像素在所有五个帧中表示，基于每个像素的最频繁采集的间隔区填充每个像素的五个间隔区序列的列表。在像素间隔区组中对帧进行排序是两步过程。从最多的像素开始，比较在像素内的阵列中的间隔区的定位(图17B)。如果在单阵列中发现来自相同像素的两个寡核苷酸，它们的位置应该产生关于它们被电穿孔的顺序的信息。实际上，可以基于在阵列中以相对于彼此的顺序发现间隔区对的频率来绘制排序规则列表。另外，可以相对于从质粒和基因组中抽取的间隔区检查来自成对单个像素的间隔区的顺序，其在实验过程中累积，再次产生可靠的有序排序规则。对于来自给定像素的每组五个间隔区，针对这些排序规则测试所有120个顺序排列(图17B)。如果任何排列满足所有排序规则，那么排列的顺序用于明确地将给定像素内的间隔区分配给它们的帧。这开始逐帧填充间隔区的字典，从最高度表现的像素开始并向最小表现的方向移动。

如果组中的间隔顺序的排列都没有满足所有初始排序规则，则应用第二组测试。在这些中，给定像素的间隔区通过与已经分配至给定帧的间隔区进行比较来排序。同样，基于任何给定阵列中的间隔区对，如果正确地解决了电穿孔顺序，则可以绘制可靠的规则以描述间隔区的排序(图17C)。同样，每组五个像素间隔区的所有可能的排列都针对这些规则进行了测试。在这种情况下，采用具有最高总得分的排列，并且将间隔区分配给帧。通过从包含最多新间隔区的像素开始，先用最佳数据逐帧填充像素字典，然后利用该数据来更好地分配不频繁采样的间隔区。

使用允许确定CRISPR阵列内的间隔区的顺序的这些规则，以高精度构建每帧和帧的顺序(图16D)。读数深度的增加有助于重建的准确性，尽管随着重建接近完美，读数的返回减少(图16E)。令人惊讶的是，尽管优化了原型间隔区的序列，但发现了任何给定帧的原型间隔区之间的采集功效范围(图16F)。当检查过表现的原型间隔区的序列时，鉴定了序列末端的显著序列基序，这可能表明在最终位置允许了过大范围的核苷酸三联体(图16G)。最后，由于原型间隔区本身不包含指定帧位置的代码，因此通过以相反顺序电穿孔寡核苷酸帧来测试重建策略的稳健性。在这种情况下，反向GIF被精确地重建，明确地显示系统能够基于引入原型间隔区的时机记录和重建在其他情况下模糊的信号。基于本文描述的方法并使用本文所述的一个或多个优化参数，以相当高的准确度重建约3千字节GIF。本文描述的方法允许在五个时间点跟踪104个经单独条形码化的序列元件的存在(520个独特序列元件)。

根据本公开，提供了用于使用Casl酶和Cas2酶将信息(例如文本，一个或多个图像、视频格式或音频格式)记录到包括CRISPR阵列的活细胞中的方法。根据某些方面，可以优化原型间隔区序列以促进数据有效转移到基因组中。根据某些方面，可确定间隔区序列的顺序以确定编码信息格式的寡核苷酸序列的顺序。提供灵活的编码方案以允许优化序列内容。示例性的原型间隔区序列包括受控的GC含量，缺乏单核苷酸重复，和/或没有内部PAM。这种优化的原型间隔区序列优于缺乏这种优化的原型间隔区序列。根据某些方面，在原型间隔区的前导端(AAG...)和尾端(...GA)中均包含非变异的核苷酸会影响采集频率。

根据某些方面，提供了用于使用Casl酶和Casl酶在具有CRISPR阵列的活细胞中随时间追踪数百个元件，从而以时间依赖性方式将原型间隔区引入CRISPR阵列的方法。使用本文所述的重建算法，仅使用在完成实验之后的阵列序列的信息可以确定原型间隔元件在细胞群中存在的顺序。

实施例10

模拟记录装置

使用本文所述CRISPR-Cas的分子记录系统也可用作模拟记录装置，以便随时间存储或记录天然或合成启动子的基因表达程度。这被捕获在细菌群体中的CRISPR阵列中存在的寡核苷酸衍生的间隔区的数量中，其中具有寡核苷酸递送的Cas1和Cas2的更长表达将导致阵列中寡核苷酸衍生的间隔区随时间数量增加(图6E，7C)。或者，在没有寡核苷酸递送的情况下，基因组和/或质粒衍生的间隔区的数量可以用作Cas1和Cas2表达的程度和持续时间的量度(图16C)。如果Cas1和Cas2表达由感兴趣的启动子驱动，则新采集的间隔区的数量可用于估计启动子活性。

实施例11

错误校正

本公开提供了错误校正方法和考虑因素。错误可能导致完全缺失的数据形式(在测序的阵列中找不到给定的像素间隔区)；和错误的数据(通常，找到正确的间隔区，但是低采样(under-sampled)，因此不同的间隔区或含有错误的间隔区错误地分配给像素)。虽然缺少数据是不可恢复的缺少更深测序，但第二个错误来源(错误分配的像素)应该可以通过纠错码来避免。可以选择核苷酸的数量以实现错误校正。更多的核苷酸将产生更好的校正码，但添加这些核苷酸意味着整个图像必须分布在更多的总体原型间隔区上。因为需要更多的读数来精确地重建跨越更多间隔区编码的图像，所以具有更多的原型间隔区会增加第一类型(丢失数据)的错误概率。

可以在不添加任何核苷酸的情况下引入错误校正。例如，对于在第二图像和GIF中使用的21种颜色采用灵活的三联体代码，编码颜色的三个三联体中的每一个可以被分配给不同的簇(A，B和X)(图18E)(参见lawat,M.等，DNA数据存储的正向纠错(Forward ErrorCorrection for DNA Data Storage).Procedia Computer Science 80,1011-1022(2016))。不是选择三联体来优化GC％，而是可以选择三联体来实现交替的簇代码(A，B，A，B等)，其具有可交换的簇X，用于避免内部PAM和单核苷酸重复(图18F-18I)。尽管该方案没有净核苷酸成本，但它确实降低了序列设计的总体灵活性。此外，它不是最强大的纠错，因为只有单碱基突变的子集会导致模式中断。

需要额外核苷酸的更稳健的错误校正方案的示例是校验和。给定间隔区的核苷酸子集可用于检查间隔区其余部分的一个方面-如果未通过检查，则应忽略间隔区。例如，可以用两个碱基来代表间隔区图像编码部分中所有胞嘧啶的总和，两个碱基用于所有胸腺嘧啶的总和，两个碱基用于所有腺嘌呤的总和(假设GC％仍然被优化)鸟嘌呤可以从其他三个和两个碱基推断出来，计数到16，足以覆盖21个碱基的图像空间)(图18J-18L)。因此，有六个专用于校验和的碱基，将确定绝大多数错误。在第二图像的情况下，这将使原型间隔区的总数从100增加到123。这种校验和方案的变体，例如计算AC％，可以使用较少的核苷酸来实现，尽管可以捕获更少的错误。

由于强大的纠错增加了编码相同图像所需的总核苷酸空间，因此人们可能会采用某种形式的压缩来对抗这种扩张。在无损压缩方面，游程编码是一种选择。代码将指定像素值，然后指定具有相同值的相邻像素的数量，而不是唯一地指定每个像素值。由于我们图像中的相邻像素通常是相同的值，因此这将实现压缩。然而，每个单独的原型间隔区仅编码少量像素的事实降低了原型间隔区中的游程编码的有效性。最大的好处是在原型间隔区上传播的游程编码。不幸的是，这种策略对丢失的数据非常敏感，这可能会在回忆时破坏大部分图像。

无损压缩的更合适的选择是使用字典算法(例如，LZW/Huffman/Deflation)(参见Welch,T.A.一种用于高性能数据压缩的技术(A technique for high-performance datacompression)Computer 17,8-19(1984)和Huffman,D.A.一种构造最小冗余码的方法(Amethod for the construction of minimum-redundancy codes).Proceedings of theIRE 40,1098-1101(1952))，其中使用最少的比特(核苷酸)编码最常见的像素值，这迫使稀有值使用更多比特来编码。附带的字典(也通过原型间隔区提供)将提供查找表以重建像素值。字典的丢失可能是一个问题，但是通过以多个正交字典原型间隔区的形式提供冗余可以容易地避免这种情况。如果可以接受一些保真度损失，则可以应用有损压缩方法，例如变换编码。

实施方式

本发明提供一种将信息记录到细胞中的方法，包括

将信息格式转换为多个比特序列，其中多个比特序列串联地包括表示信息格式的比特流，

将多个比特序列转换为相应的寡核苷酸原型间隔区序列的组，

合成所述相应的寡核苷酸原型间隔区序列的组，

将该相应的寡核苷酸原型间隔区序列的组引入工程化的、非天然存在的细胞中，所述细胞包含编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包括前导序列和至少一个重复序列的CRISPR阵列核酸序列，

其中，CRISPR阵列核酸序列插入细胞的基因组DNA或质粒上，其中细胞表达Cas1蛋白和/或Cas 2蛋白，其中Cas1蛋白和/或Cas2蛋白加工所述相应的寡核苷酸原型间隔区序列的组的每个成员并将其相邻于相应重复序列插入CRISPR阵列核酸序列。根据一个方面，将所述相应的寡核苷酸原型间隔区序列的组中的每个成员串联引入工程化的非天然存在的细胞中，并且其中Cas 1蛋白和/或Cas 2蛋白加工所述相应的寡核苷酸原型间隔区序列的组中的每个成员并将其单独且串联地相邻于相应重复序列插入CRISPR阵列核酸序列，产生代表原型间隔区序列被引入细胞的顺序的CRISPR阵列核酸序列。根据一个方面，将多个比特序列转换成所述相应的寡核苷酸原型间隔区序列的组，其中一个或多个比特代表核苷酸。根据一个方面，使用每碱基编码一比特或每碱基编码两比特将多个比特序列转换为相应的寡核苷酸原型间隔区序列的组。根据一个方面，原型间隔区序列包括以下的一个或多个或全部：数据块序列，条形码序列或在原型间隔区序列的每个末端处的侧翼共同序列，用于扩增和测序。根据一个方面，信息格式是文本、图像、多个图像、视频格式或音频格式。根据一个方面，通过将间隔区序列转换为信息格式，并且可选地，可视化信息格式，来回收在CRISPR阵列内表示的信息格式。根据一个方面，通过确定CRISPR阵列内的间隔区序列的序列，确定CRISPR阵列内的间隔区序列的排序，将间隔区序列转换为信息格式，并且可选地，可视化信息格式，来回收CRISPR阵列内表示的信息格式。根据一个方面，通过确定CRISPR阵列内的间隔区序列的序列，确定CRISPR阵列内的间隔区序列的排序，将间隔区序列转换为比特序列，基于间隔区序列的顺序排序比特序列，以及将经排序的比特序列转换为信息格式，并且可选地，可视化信息格式，来回收CRISPR阵列内表示的信息格式。根据一个方面，所述原型间隔区序列包括与其互补和杂交的第一链和第二链，并且还包括将第一链和第二链连接成发夹结构的接头。根据一个方面，原型间隔区序列缺乏单核苷酸重复。根据一个方面，原型间隔区序列缺少内部PAM序列。据一个方面，原型间隔区序列包括受控GC含量。

本发明提供一种将图像记录到细胞中的方法，包括

将图像转换为像素的行和列的二维阵列，其中每个像素对应于图像的颜色，其中每种颜色由一个或多个核苷酸表示，并且其中每个核苷酸由一个或多个二进制位表示，

将像素阵列的部分识别为独特像素组并为每个像素组提供唯一像素组标识符，

将每个独特像素组转换为原型间隔区序列以产生代表图像的原型间隔区序列的组，

合成所述原型间隔区序列的组，

将该原型间隔区序列的组引入工程化的、非天然存在的细胞中，所述细胞包含编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包括前导序列和至少一个重复序列的CRISPR阵列核酸序列，

其中，CRISPR阵列核酸序列插入细胞的基因组DNA或质粒上，其中细胞表达Cas1蛋白和/或Cas 2蛋白，其中Cas1蛋白和/或Cas2蛋白加工所述相应的寡核苷酸原型间隔区序列的组的每个成员并将其相邻于相应重复序列插入CRISPR阵列核酸序列。根据一个方面，原型间隔区序列包括以下的一个或多个或全部：数据块序列，条形码序列或在原型间隔区序列的每个末端处的侧翼共同序列，用于扩增和测序。根据一个方面，通过将间隔区序列转换为信息格式来回收CRISPR阵列内表示的信息格式。根据一个方面，所述原型间隔区序列包括与其互补和杂交的第一链和第二链，并且还包括将第一链和第二链连接成发夹结构的接头。根据一个方面，原型间隔区序列缺乏单核苷酸重复。根据一个方面，原型间隔区序列缺少内部PAM序列。据一个方面，原型间隔区序列包括受控GC含量。

本公开内容提供了以串联关系将多个图像记录到细胞中的方法，包括为每个图像创建原型间隔区序列的组，其中每组原型间隔区序列被单独地和串联地引入工程化的非天然存在的细胞中，所述细胞包括编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，

其中CRISPR阵列核酸序列插入细胞的基因组DNA中或者在质粒上，其中所述细胞表达Cas1蛋白和/或Cas2蛋白，并且其中Cas1蛋白和/或Cas2蛋白处理所述原型间隔区序列的组的每个成员并相邻于相应重复序列插入CRISPR阵列核酸序列，产生代表每组原型间隔区序列被引入细胞的顺序的CRISPR阵列核酸序列。根据一个方面，原型间隔区序列包括以下的一个或多个或全部：数据块序列，条形码序列或在原型间隔区序列的每个末端处的侧翼共同序列，用于扩增和测序。根据一个方面，通过确定CRISPR阵列内的间隔区序列的序列，确定CRISPR阵列内的间隔区序列的排序，将间隔区序列转换为各多个图像，来回收CRISPR阵列内表示的信息格式。根据一个方面，所述原型间隔区序列包括与其互补和杂交的第一链和第二链，并且还包括将第一链和第二链连接成发夹结构的接头。根据一个方面，原型间隔区序列缺乏单核苷酸重复。根据一个方面，原型间隔区序列缺少内部PAM序列。据一个方面，原型间隔区序列包括受控GC含量。

其他实施方式

其他实施方式对于本领域技术人员而言将是显而易见的。应当理解的是，前述仅为了清楚描述而提供，并且仅仅是示范性的。本发明的精神和范围并不限于上述示例，而是被所述权利要求所包括。本文中应用的所有公开、专利和专利申请通过引用全文纳入本文用于所有目的，就如同各公开、专利被具体地且单独地说明通过引用纳入本文一样。

Claims

1.一种改变细胞的方法，包括

向细胞提供编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列，

向细胞提供包含前导序列和至少一个重复序列的CRISPR阵列核酸序列序列，

其中所述细胞表达Cas1蛋白和/或Cas2蛋白，并且其中所述CRISPR阵列核酸序列在细胞的基因组DNA内或在质粒上。

2.如权利要求1所述的方法，还包括向细胞提供包含原型间隔区的寡核苷酸序列。

3.如权利要求2所述的方法，其中所述原型间隔区是定义的合成DNA。

4.如权利要求2所述的方法，其中所述寡核苷酸序列包括修饰的AAG原型间隔区相邻基序(PAM)。

5.如权利要求1所述的方法，其中在载体内将编码Cas1蛋白和/或Cas2蛋白的核酸序列提供给细胞。

6.如权利要求1所述的方法，其中所述细胞是原核细胞或真核细胞。

7.如权利要求6所述的方法，其中所述原核细胞是大肠杆菌。

8.如权利要求7所述的方法，其中所述大肠杆菌是BL21-AI。

9.如权利要求1所述的方法，其中细胞缺乏内源性Cas1和Cas2蛋白。

10.如权利要求1所述的方法，其中编码Cas1蛋白和/或Cas2蛋白的核酸序列包含诱导型启动子，用于诱导Cas1和/或Cas2蛋白的表达。

11.如权利要求6所述的方法，其中所述真核细胞是酵母细胞，植物细胞或哺乳动物细胞。

12.如权利要求1所述的方法，其中编码Cas1蛋白和/或Cas2蛋白的核酸序列包括可在真核细胞中操作的第一调节元件。

13.如权利要求1所述的方法，其中编码Cas1蛋白和/或Cas2蛋白的核酸序列经密码子优化以在真核细胞中表达Cas1和/或Cas2。

14.如权利要求1所述的方法，其中通过将寡核苷酸序列插入CRISPR阵列核酸序列来改变细胞。

15.一种工程化的非天然存在的细胞，包括编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列，其中所述细胞表达Cas1蛋白和/或Cas2蛋白。

16.如权利要求15所述的工程化的非天然存在的细胞，其进一步包括CRISPR阵列核酸序列，包括前导序列和至少一个重复序列，其中CRISPR阵列核酸序列插入细胞的基因组DNA中或在质粒上。

17.如权利要求15所述的工程化的非天然存在的细胞，其进一步包括至少一个寡核苷酸序列，其包括插入CRISPR阵列核酸序列的原型间隔区。

18.一种工程化的非天然存在的细胞，所述细胞包含编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包括前导序列和至少一个重复序列的CRISPR阵列核酸序列，

其中所述细胞表达Cas 1蛋白和/或Cas 2蛋白，和

其中所述CRISPR阵列核酸序列插入细胞的基因组DNA中或在质粒上。

19.一种在细胞的基因组DNA中插入靶DNA序列的方法，包括

将靶DNA序列给予细胞，所述细胞包含编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包括前导序列和至少一个重复序列的CRISPR阵列核酸序列，

其中所述细胞表达Cas1蛋白和/或Cas2蛋白，并且其中所述CRISPR阵列核酸序列在细胞的基因组DNA内或在质粒上，和

其中靶DNA序列在细胞内的条件下给予，所述细胞中Cas1蛋白和/或Cas2蛋白处理所述靶DNA，并且靶DNA相邻于相应重复序列插入CRISPR阵列核酸序列。

20.如权利要求19所述的方法，其中靶DNA序列是原型间隔区。

21.如权利要求20所述的方法，其中所述原型间隔区是定义的合成DNA。

22.如权利要求19所述的方法，其中所述靶DNA序列包括修饰的AAG原型间隔区相邻基序(PAM)。

23.如权利要求19所述的方法，其中重复给予步骤，使得多个靶DNA序列在相应的重复序列处插入CRISPR阵列核酸序列。

24.如权利要求19所述的方法，其中在载体内将编码Cas1蛋白和/或Cas2蛋白的核酸序列提供给细胞。

25.如权利要求19所述的方法，其中细胞是原核细胞或真核细胞。

26.如权利要求25所述的方法，其中所述原核细胞是大肠杆菌。

27.如权利要求26所述的方法，其中所述大肠杆菌是BL21-AI。

28.如权利要求19所述的方法，其中细胞缺乏内源性Cas1和Cas2蛋白。

29.如权利要求19所述的方法，其中编码Cas1蛋白和/或Cas2蛋白的核酸序列包含诱导型启动子，用于诱导Cas1和/或Cas2蛋白的表达。

30.如权利要求25所述的方法，其中所述真核细胞是酵母细胞，植物细胞或哺乳动物细胞。

31.如权利要求19所述的方法，其中编码Cas1蛋白和/或Cas2蛋白的核酸序列包括可在真核细胞中操作的第一调节元件。

32.如权利要求19所述的方法，其中编码Cas1蛋白和/或Cas2蛋白的核酸序列经密码子优化以在真核细胞中表达Cas1和/或Cas2。

33.一种核酸储存系统，其包含工程化的非天然存在的细胞，所述细胞包括编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，

34.如权利要求33所述的核酸储存系统，其中包含原型间隔区的至少一个寡核苷酸序列插入CRISPR阵列核酸序列中。

35.一种将分子事件记录到细胞中的方法，包括

将含有分子事件信息的DNA序列给予细胞，所述细胞包含编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包括前导序列和至少一个重复序列的CRISPR阵列核酸序列，

其中所述DNA序列在细胞内的条件下给予，所述细胞中Cas1蛋白和/或Cas2蛋白处理所述DNA，并且DNA相邻于相应重复序列插入CRISPR阵列核酸序列。

36.如权利要求35所述的方法，其中重复给予步骤，使得多个DNA序列在相应的重复序列处插入CRISPR阵列核酸序列。

37.如权利要求35所述的方法，其中给予多个DNA序列。

38.如权利要求35所述的方法，其中DNA序列包括原型间隔区。

39.如权利要求38所述的方法，其中所述原型间隔区是定义的合成DNA。

40.如权利要求35所述的方法，其中所述DNA序列包括修饰的“AAG”原型间隔区相邻基序(PAM)。

41.如权利要求35所述的方法，其中在载体内将编码Cas1蛋白和/或Cas2蛋白的核酸序列提供给细胞。

42.如权利要求35所述的方法，其中细胞是原核细胞或真核细胞。

43.如权利要求35所述的方法，其中所述原核细胞是大肠杆菌。

44.如权利要求43所述的方法，其中所述大肠杆菌是BL21-AI。

45.如权利要求35所述的方法，其中细胞缺乏内源性Cas1和Cas2蛋白。

46.如权利要求35所述的方法，其中编码Cas1蛋白和/或Cas2蛋白的核酸序列包含诱导型启动子，用于诱导Cas1和/或Cas2蛋白的表达。

47.如权利要求42所述的方法，其中所述真核细胞是酵母细胞，植物细胞或哺乳动物细胞。

48.如权利要求35所述的方法，其中编码Cas1蛋白和/或Cas2蛋白的核酸序列包括可在真核细胞中操作的第一调节元件。

49.如权利要求35所述的方法，其中编码Cas1蛋白和/或Cas2蛋白的核酸序列经密码子优化以在真核细胞中表达Cas1和/或Cas2。

50.如权利要求35所述的方法，其中所述核酸序列经密码子优化以在真核细胞中表达Cas1和/或Cas2。

51.如权利要求35所述的方法，其中所述分子事件包括转录动力学，分子相互作用，信号传导途径，受体调节，钙浓度和电活动。

52.如权利要求35所述的方法，其中记录的分子事件被解码。

53.如权利要求52所述的方法，其中所述解码是通过测序进行的。

54.如权利要求53所述的方法，其中，通过测序进行的解码包括使用来自单个细胞中的采集的间隔物区对的排序信息来推算和推断整个细胞群内的所有记录序列的排序信息。

55.如权利要求37所述的方法，其中所述多个DNA序列以时间方式记录到所述细胞的特定基因组基因座中。

56.如权利要求35所述的方法，其中DNA序列以序列和/或方向特异性方式记录在细胞的基因组中。

57.如权利要求35所述的方法，其中所述DNA序列包括修饰的AAG原型间隔区相邻基序(PAM)。

58.如权利要求57所述的方法，其中修饰的PAM被特定的cas1和/或cas2突变体识别。

59.如权利要求38所述的方法，其中所述原型间隔区经条形码化。

60.一种用于体内分子记录的系统，包括工程化的、非天然存在的细胞，所述细胞包含编码CRISPR适应系统的cas1蛋白和/或cas2蛋白的核酸序列和包括前导序列和至少一个重复序列的CRISPR阵列核酸序列，

61.如权利要求60所述的系统，其中系统以单个或多个模态记录。

62.如权利要求61所述的系统，其中所述多模态记录包括通过特定cas1或cas2突变体的定向进化来改变Cas1PAM识别。

63.一种将分子事件定向记录到细胞中的试剂盒，其包含工程化的、非天然存在的细胞，所述细胞包含编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包括前导序列和至少一个重复序列的CRISPR阵列核酸序列，

64.如权利要求63所述的试剂盒，其中所述记录为单个或多个模态形式。

65.如权利要求64所述的试剂盒，其中多模态记录包括通过特定cas1或cas2突变体的定向进化来改变Cas1PAM识别。

66.一种将信息记录到细胞中的方法，包括

合成所述相应的寡核苷酸原型间隔区序列的组，

将所述相应的寡核苷酸原型间隔区序列的组引入工程化的、非天然存在的细胞中，所述细胞包含编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包括前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述CRISPR阵列核酸序列插入细胞的基因组DNA中或在质粒上，

其中所述细胞表达Cas 1蛋白和/或Cas 2蛋白，和

其中Cas1蛋白和/或Cas2蛋白加工所述相应的寡核苷酸原型间隔区序列的组的每个成员并将其相邻于相应重复序列插入CRISPR阵列核酸序列。

67.如权利要求66所述的方法，其中将所述相应的寡核苷酸原型间隔区序列的组中的每个成员串联引入工程化的非天然存在的细胞中，并且其中Cas 1蛋白和/或Cas 2蛋白加工所述相应的寡核苷酸原型间隔区序列的组中的每个成员并将其单独且串联地相邻于相应重复序列插入CRISPR阵列核酸序列，产生代表原型间隔区序列被引入细胞的顺序的CRISPR阵列核酸序列。

68.如权利要求66所述的方法，其中将多个比特序列转换成相应的寡核苷酸原型间隔区序列的组，其中一个或多个比特代表核苷酸。

69.如权利要求66所述的方法，其中使用每碱基编码一比特或每碱基编码两比特将多个比特序列转换为相应的寡核苷酸原型间隔区序列的组。

70.如权利要求66所述的方法，其中所述原型间隔区序列包括以下的一个或多个或全部：数据块序列，条形码序列或在原型间隔区序列的每个末端处的侧翼共同序列，用于扩增和测序。

71.如权利要求66所述的方法，其中所述信息格式是文本、图像、多个图像、视频格式或音频格式。

72.如权利要求66所述的方法，其中通过将间隔区序列转换为信息格式，并且可选地可视化所述信息格式，来回收在CRISPR阵列内表示的信息格式。

73.如权利要求67所述的方法，其中通过下述步骤回收CRISPR阵列内表示的信息格式，

确定CRISPR阵列内的间隔区序列的序列，

确定CRISPR阵列内的所述间隔区序列的排序，

将间隔区序列转换为信息格式，和

可选地，可视化所述信息格式。

74.如权利要求67所述的方法，其中通过下述步骤回收CRISPR阵列内表示的信息格式，

确定CRISPR阵列内的间隔区序列的序列，

确定CRISPR阵列内的所述间隔区序列的排序，

将所述间隔区序列转换成比特序列，

基于所述间隔区序列的顺序排序所述比特序列，和

将经排序的比特序列转换为信息格式，和

可选地，可视化所述信息格式。

75.如权利要求66所述的方法，其中所述原型间隔区序列包括与其互补和杂交的第一链和第二链，并且还包括将第一链和第二链连接成发夹结构的接头。

76.如权利要求66所述的方法，其中所述原型间隔区序列缺少单核苷酸重复。

77.如权利要求66所述的方法，其中所述原型间隔区序列缺少内部PAM序列。

78.权利要求66所述的方法，其中所述原型间隔区序列包括受控GC含量。

79.一种将图像记录到细胞中的方法，包括

合成所述原型间隔区序列的组，

将该原型间隔区序列的组引入工程化的、非天然存在的细胞中，所述细胞包含编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包括前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述CRISPR阵列核酸序列插入细胞的基因组DNA中或在质粒上，

其中所述细胞表达Cas 1蛋白和/或Cas 2蛋白，和

80.如权利要求79所述的方法，其中所述原型间隔区序列包括以下的一个或多个或全部：数据块序列，条形码序列或在原型间隔区序列的每个末端处的侧翼共同序列，用于扩增和测序。

81.如权利要求79所述的方法，其中通过下述步骤回收CRISPR阵列内表示的信息格式，

将间隔区序列转换为信息格式。

82.如权利要求79所述的方法，其中所述原型间隔区序列包括与其互补和杂交的第一链和第二链，并且还包括将第一链和第二链连接成发夹结构的接头。

83.如权利要求79所述的方法，其中所述原型间隔区序列缺少单核苷酸重复。

84.如权利要求79所述的方法，其中所述原型间隔区序列缺少内部PAM序列。

85.如权利要求79所述的方法，其中所述原型间隔区序列包括受控GC含量。

86.一种以串联关系将多个图像记录到细胞中的方法，包括

为每个图像创建原型间隔区序列的组，其中每组原型间隔区序列被单独地和串联地引入工程化的非天然存在的细胞中，所述细胞包含编码CRISPR适应系统的Cas1蛋白和/或Cas2蛋白的核酸序列和包含前导序列和至少一个重复序列的CRISPR阵列核酸序列，其中所述CRISPR阵列核酸序列插入细胞的基因组DNA中或在质粒上，

其中所述细胞表达Cas 1蛋白和/或Cas 2蛋白，和

其中Cas 1蛋白和/或Cas 2蛋白加工所述原型间隔区序列的组中的每个成员并将其相邻于相应重复序列插入CRISPR阵列核酸序列，产生代表每组原型间隔区序列被引入细胞的顺序的CRISPR阵列核酸序列。

87.如权利要求86所述的方法，其中所述原型间隔区序列包括以下的一个或多个或全部：数据块序列，条形码序列或在原型间隔区序列的每个末端处的侧翼共同序列，用于扩增和测序。

88.如权利要求86所述的方法，其中通过下述步骤回收CRISPR阵列内表示的信息格式，

确定CRISPR阵列内的间隔区序列的序列，

确定CRISPR阵列内的所述间隔区序列的排序，

将所述间隔区序列转换为多个图像中的每个。

89.如权利要求86所述的方法，其中所述原型间隔区序列包括与其互补和杂交的第一链和第二链，并且还包括将第一链和第二链连接成发夹结构的接头。

90.如权利要求86所述的方法，其中所述原型间隔区序列缺少单核苷酸重复。

91.如权利要求86所述的方法，其中所述原型间隔区序列缺少内部PAM序列。

92.如权利要求86所述的方法，其中所述原型间隔区序列包括受控GC含量。