CN112840405A

CN112840405A - 允许快速和永久擦除的基于杂交的dna信息存储

Info

Publication number: CN112840405A
Application number: CN201980049360.1A
Authority: CN
Inventors: D·Y·张; A·平特; 金状元
Original assignee: William Marsh Rice University
Current assignee: William Marsh Rice University
Priority date: 2018-05-23
Filing date: 2019-05-23
Publication date: 2021-05-25
Also published as: US20210142866A1; GB2589490A; WO2019226896A1; GB202020222D0

Abstract

本文提供了用于以允许快速和永久擦除信息的方式在DNA分子中编码信息的方法。同样地，还提供了擦除此类信息的方法。本文还提供了如此编码信息的组合物。

Description

允许快速和永久擦除的基于杂交的DNA信息存储

相关申请的交叉引用

本申请要求2018年5月23日提交的美国临时申请号62/675,362的优先权权益，该美国临时申请的全文以引用方式并入本文。

关于联邦政府赞助的研究的声明

本发明是在美国国立卫生研究院授予的政府拨款号R01 HG008752的支持下完成的。政府对本发明享有某些权利。

序列表的参考

本申请包含序列表，该序列表已通过EFS-W_EB以ASCII格式提交，并且以全文引用的方式并入本文中。所述ASCII副本创建于2019年5月15 日，命名为RICEP0045WO_ST25._TXT，大小为6.1KB。

技术领域

本文提供了编码、复制、擦除和解码DNA分子中的信息的方法。还提供了包含其序列编码这种信息的DNA分子的组合物。

背景技术

随着现代数据存储需求呈指数级增长，由于传统的硅基材料达到制造的量子力学极限，因此需要新的高密度信息存储介质。此外，必须可靠地存档以进行长期存储和检索的非常重要的信息，需要可靠的存储方法，这些方法不需要常规复制即可保持信息的完整性；例如，磁带信息存储必须每10年“重写”一次。

DNA分子中的信息存储是满足以上两个需求的新兴解决方案：DNA 信息高度密集，并且化学半衰期非常长，据某些估计超过500年。此外，高通量DNA合成和DNA测序的最新进展表明，在5-10年的时间范围内，DNA可能与其他信息存储介质相比在经济上具有竞争力。由于这些原因，许多最新的出版物已经描述并证明了用于证明利用DNA进行信息存储的概念验证实验。

在当今世界，数据隐私和安全性日益引起人们的关注，敏感数据涵盖了患者的病史、保密的公司文档以及政府和军事机密。为了促进对机密信息的适当保护，存储在介质中的信息必须能够快速和永久地擦除。但是，当今所有常见的数据存储方法都难以永久擦除。例如，对硬盘驱动器进行消磁或物理破坏通常是不完整的，并且仍可以通过专门的努力来恢复信息。原则上，信息编码的DNA序列同样可以通过漂白或酸处理擦除，但可能需要较长的反应时间和严格的混合以确保完全破坏信息。因此，需要用于在DNA中编码信息以允许快速和永久擦除的方法。

发明内容

本文提供了编码、复制、擦除和解码DNA分子中的信息的方法。与计算机文件的标准信息存储方法(例如，固态硬盘、磁带)和其他基于 DNA的信息存储方法不同，所描述的方法允许快速和永久擦除信息。对于高度敏感或保密信息(包括军事文件、机密的法院记录和HIPAA保护的患者病历)，这预计具有重要价值。

在一个实施例中，提供了包含DNA分子群体的组合物，其中所述群体包含真信息DNA分子、假混淆DNA分子和真标记DNA寡核苷酸，其中所述真信息DNA分子和所述假混淆DNA分子各自包含与所述真标记 DNA寡核苷酸的序列的一部分互补的第一序列，其中所述真信息DNA分子的第一序列与所述真标记DNA寡核苷酸杂交，其中所述假混淆DNA分子的第一序列不与所述真标记DNA寡核苷酸杂交，其中所述真信息DNA 分子和所述假混淆DNA分子各自包含地址区域，其中每个真信息DNA分子的所述地址区域在所述群体中的真信息DNA分子中是唯一的，其中每个假信息DNA分子的所述地址区域在所述群体中的假信息DNA分子中是唯一的，其中所述群体中的一个真信息DNA分子和至少一个假信息DNA分子共享相同的地址区域。

在一些方面，所述假混淆DNA分子的所述第一序列是单链的。在一些方面，所述群体进一步包含假标记DNA寡核苷酸。在某些方面，所述假标记DNA寡核苷酸的一部分与所述真信息DNA分子和所述假混淆DNA 分子两者的第一序列至少部分地互补。在某些方面，所述假标记DNA寡核苷酸和所述真标记DNA寡核苷酸包含不同的序列。在某些方面，所述假标记DNA寡核苷酸包含化学功能化。在某些方面，所述假混淆DNA分子的第一序列与所述假标记DNA寡核苷酸杂交。在某些方面，所述假标记 DNA寡核苷酸包含防止DNA聚合酶延伸的3'功能化。在某些方面，所述第一序列的长度介于10个至50个核苷酸之间。在某些方面，所述真信息 DNA分子和所述假混淆DNA分子的长度各自独立地介于50个至2000个核苷酸之间。在某些方面，所述真信息DNA分子的第一区域朝着所述真信息DNA分子的5'末端定位。在某些方面，所述真标记DNA寡核苷酸包含不与所述真信息DNA分子互补的引物结合区域。

在一个实施例中，提供了一种在DNA分子中编码信息承载文件或混淆文件的方法，所述方法包括：(a)获得ASCII/十六进制格式的输入文件； (b)独立地将每个ASCII字符/字节从十六进制的00至FF转换为5个核苷酸的DNA序列；(c)将代表整个输入文件的级联DNA序列划分为一组消息序列；(d)在DNA中提供并编码唯一的地址序列，所述地址序列鉴别每个消息序列在所述DNA序列内的位置；(e)设计真标记结合区域序列；(f)通过将所述真标记结合区域序列、所述唯一的地址序列和相应的消息序列从 5'级联到3'来构建信息DNA分子序列；以及(g)化学合成包含所述信息 DNA分子序列的信息DNA分子。

在一些方面，所述信息DNA分子进一步包含位于所述信息DNA分子序列的5'末端和/或3'末端上的一个或多个引物结合区域。在一些方面，所述混淆DNA分子进一步包含位于所述信息DNA分子序列的5'末端和/或3' 末端上的一个或多个引物结合区域。在一些方面，每个ASCII字符/字节转换为一个2位区域和两个3位区域，其中所述2位区域映射到G、C、A或 T，并且其中3位区域各自映射到CA、CT、GA、GT、TC、TG、AC或 AG。

在一个实施例中，本文提供了通过本公开的实施例中任一项所述的方法制备的信息DNA分子群体。

在一个实施例中，提供了一种用于制备编码适于快速擦除的信息的 DNA溶液的方法，所述方法包括：(a)根据本公开的实施例中任一项所述的方法制备编码信息承载文件的信息DNA分子溶液；(b)使所述信息DNA 分子溶液与真标记DNA寡核苷酸分子溶液杂交；(c)根据本公开的实施例中任一项所述的方法制备编码混淆文件的至少一种混淆DNA分子溶液；以及(d)将(b)部分的杂交溶液与(c)部分的至少一种混淆DNA分子溶液组合。

在一些方面，所述方法进一步包括在(d)部分中结合之前，将所述至少一种混淆DNA分子溶液与假标记DNA寡核苷酸分子溶液杂交。在一些方面，所述真标记DNA寡核苷酸以摩尔量存在，所述摩尔量小于或等于信息DNA分子的摩尔量。在一些方面，所述假标记DNA寡核苷酸以摩尔量存在，所述摩尔量大于或等于混淆DNA分子的摩尔量。在一些方面，(b) 部分的杂交包括将组合溶液加热至至少70℃，然后将组合溶液冷却至50℃或更低。在一些方面，在(d)部分中组合之前，使所述至少一种混淆DNA 分子溶液与假标记DNA寡核苷酸分子溶液杂交包括将所述组合溶液加热至至少70℃，然后将所述组合溶液冷却至50℃或更低。

在一个实施例中，提供了编码适于快速擦除的信息的DNA溶液，其通过本公开的实施例中任一项所述的方法制备。

在一个实施例中，提供了擦除编码在本公开的实施例中任一项所述的 DNA溶液中的信息的方法，所述方法包括将所述DNA溶液加热至高温，持续时间不少于15秒。在一些方面，所述高温为大约50℃、55℃、 60℃、65℃、70℃、75℃、80℃、85℃、90℃、95℃或100℃。在一些方面，所述加热的持续时间为大约15秒、30秒、45秒、1分钟、2分钟、3 分钟、5分钟、10分钟、15分钟、20分钟、30分钟或60分钟。

在一个实施例中，提供了读取编码在本公开的实施例中任一项所述的 DNA溶液中的信息的方法，所述方法包括：(a)将DNA聚合酶、dNTP和缓冲液添加至所述溶液；(b)基于杂交的信息DNA分子，在适于真标记的酶促延伸的温度下孵育(a)部分的混合物；(c)基于(b)部分的聚合酶延伸的真标记，制备下一代测序(NGS)文库；(d)执行NGS；(e)分析NGS读取以确定每个地址序列的显性消息序列；以及(f)从每个地址序列的显性消息序列中重组信息承载文件。

在一些方面，基于聚合酶延伸的真标记的NGS文库制备包括将测序衔接子与双链DNA分子连接。在一些方面，所述NGS文库制备进一步包括使用测序衔接子的聚合酶链式反应(PCR)扩增。在一些方面，所述基于聚合酶延伸的真标记的NGS文库的制备包括包含引物的聚合酶链式反应 (PCR)扩增，所述引物包括在5'区域处或附近的测序衔接子和对所述真标记DNA寡核苷酸具有特异性而对所述假标记DNA寡核苷酸没有特异性的序列。在一些方面，所述NGS文库制备进一步包括使用PCR附加样本索引。

在一个实施例中，提供了擦除编码在本公开的实施例中任一项所述的 DNA溶液中的信息的方法，所述方法包括将所述DNA溶液暴露于高于室温的温度，持续时间不短于包含所述真标记和所述第一序列的双链体的估计半衰期。在一些方面，所述半衰期计算为

其中t_1/2为半衰期，R为气体常数，T为暴露温度，ΔG°为所述双链体的吉布斯自由能杂交，并且k_f(＝10⁶M·^-1s^-1)为杂交速率常数。

如本文所用，就特定组分而言，“基本上不含”在本文中用于指没有将特定组分故意配制到组合物中和/或特定组分仅作为污染物或以痕量存在。因此，由组合物的任何意外污染而产生的特定组分的总量远低于 0.05％，优选地低于0.01％。最优选的是使用标准分析方法无法在其中检测出特定组分的量的组合物。

如本说明书中所使用的，“一”或“一个(种)”可以表示一个 (种)或多个(种)。如本文在权利要求中所使用的，当与字词“包括”结合使用时，字词“一”或“一个(种)”可以表示一个(种)或多于一个(种)。

除非明确指出仅指代替代方案或替代方案是互斥的，否则权利要求中的术语“或”的使用是指“和/或”，尽管本公开内容支持仅涉及替代方案及“和/或”的定义。如本文所用，“另一”可以表示至少第二或更多者。

在整个本申请中，术语“约”用于表示值包括用于确定该值的设备、方法的固有误差变化或研究对象之间存在的变化。

根据以下详细描述，本发明的其他目的、特征和优点将变得显而易见。然而，应当理解，虽然指示了本发明的优选实施例，但是详细描述和具体实施例仅以说明的方式给出，因为通过此详细描述，在本发明的精神和范围内的各种变化和修改对于本领域技术人员将变得显而易见。

附图说明

以下附图形成了本说明书的一部分，并且被包括以进一步说明本发明的某些方面。通过参考这些附图中的一个或多个附图，结合在此呈现的具体实施例的详细描述，可以更好地理解本发明。

图1A-B。使用基于杂交的DNA编码通过温度调节信息持续时间。 (图1A)承载真消息的信息DNA分子和承载假消息的混淆DNA分子的图示。信息DNA分子具有与真标记结合位点杂交的“真标记”寡核苷酸。混淆DNA分子不具有与真标记结合位点杂交的任何寡核苷酸，或具有与真标记结合位杂交的“假标记”寡核苷酸。假标记在化学特性上与真标记不同，例如，在假标记的3'末端显示的X可以是3-碳间隔基或阻止聚合酶延伸的反向核苷酸。(图1B)基于杂交的DNA编码的实现。预期作为传达信息的一部分的消息与真标记，即具有可扩展的3'末端和5'突出序列的 DNA寡核苷酸预杂交。对应于无意义的信息的混杂噪音分子与假标记，即具有封闭的3'末端并且缺少5'突出序列的DNA寡核苷酸预杂交。假标记和真标记与其DNA靶标结合的序列是相同的，因此任何消息或噪音分子都可以以与真标记或假标记大致相同的亲和力结合。消息和噪音在DNA溶液中混合。加热后，真标记与预期消息的杂交被破坏。随后冷却至室温将导致真标记与消息和噪音的随机关联，并且永久丢失了有关分子对应于消息与噪音的信息(参见图4A)。

图2.真标记杂交的半衰期强烈依赖温度。这里绘制的是根据DNA结合的两态模型和公开的DNA热力学参数，并假设kf＝10^6/M/s的杂交速率常数计算的在不同温度下具有给定序列(SEQ ID NO.21)的20nt真标记的半衰期。根据kr＝kf/Keq计算半衰期值，其中Keq＝e^(-ΔG°/RT)，ΔG°为在0.15M Na+中序列与其互补序列杂交的计算的标准自由能(使用Nupack DNA折叠软件评估)，R为通用气体常数，T为开氏温度。

图3.通过聚丙烯酰胺凝胶电泳的真标记结合动力学的实验表征。通过聚丙烯酰胺凝胶电泳演示消息擦除。三个凝胶图像是在三个不同的荧光滤光片组中扫描的同一凝胶。泳道1和泳道2是分别显示未杂交的预期消息 (即，真消息)和噪音DNA(即，假消息)的参考。泳道3和泳道4分别显示了与真标记预杂交的预期消息和与假标记预杂交的噪音DNA。泳道5和泳道6是与FAM连接的真标记预杂交的噪音DNA，以及与ROX连接的假标记预杂交的预期消息。泳道7-11显示泳道3和泳道4中的物质混合物在不同温度下孵育不同时间。在25℃下孵育1小时和1周后(分别是泳道 7和泳道8)，真标记和假标记仍与它们最初结合的DNA分子杂交，显示真标记连接在预期消息上，并且假标记连接在噪音上。但是，将混合物加热到60℃或95℃显示真标记和假标记重新分配给预期消息或噪音，从而使预期消息失去了真实性。

图4A-B。快速和永久擦除编码在信息DNA分子和混淆DNA分子溶液中的信息。在加热到高于存储温度的温度并持续足以使溶液中的双链 DNA物质融化的延长时间后(图2；图4B)，真标记从信息DNA分子解离，并且永久删除有关哪些消息为真和哪些消息为假。冷却后，真标记会随机结合到信息DNA分子或混淆DNA分子上(图4A)。

图5.信息和混淆DNA分子结构的实例。在该实例中，真标记在其5' 末端包含区域6，其随后用作下游PCR的正向引物结合位点。真标记的区域1与区域2，即真标记结合位点互补。假标记包含区域1和在3'末端的 3-碳功能化以防止延伸。每个信息和混淆DNA分子都有地址序列、消息序列和反向引物结合区域。为了能够快速擦除信息，每个唯一的地址应具有一个相应的信息DNA分子和至少一个相应的混淆DNA分子。

图6.信息编码方案。计算机系统使用的信息文件通常以ASCII格式存储，每个字节取介于0至255之间的值(十六进制为00至FF)。例如，小写字母“o”在ASCII格式下的十六进制形式为6F，二进制形式表示为“01101111”。然后将8位分组为2位的1组和3位的2组，左下方列出的映射表用于将字母“o”转换为DNA序列“TCTGT”。

图7.用于从信息DNA分子和混淆DNA分子的非擦除混合物中读出编码在信息DNA分子中的消息的方法。DNA聚合酶延伸真标记，并且复制编码在DNA信息分子中的消息。在随后的步骤中，仅延伸的真分子能够被 PCR扩增。

图8A-B。通过读取信息DNA分子和混淆DNA分子的非擦除溶液而获得的数据的图形显示。(图8A)这里，将三组混淆DNA分子(对应于三个不同的图像)与一组信息DNA分子结合使用。最左边的图像是预期消息，中间的图像是读取消息，右边的图像是擦除后(在95℃下15分钟) 的读取消息。中间和右边图像中的灰色像素表示由于寡核苷酸合成不均或 NGS不均而无法恢复消息的地址。图像和信息DNA分子包括以RGB格式编码的24位颜色。(图8B)所需的信息(在这种情况下为位图图像)被编码为DNA溶液。信息可以在室温或更低的温度下稳定地长时间存储，但是在暴露于高温(例如95℃)时会被快速和永久地擦除。

图9.从混合DNA合成池中制备DNA寡核苷酸作为信息DNA分子或混淆DNA分子的示意图。池是几个“文件”的混合物，其中每个文件都有其唯一的文件引物结合区域。用磷酸修饰的文件正向引物和唯一的硫代磷酸修饰的文件反向引物扩增其中一个文件。Lambda核酸外切酶用于处理文件，以去除磷酸修饰的寡核苷酸。随后，为了将文件扩增子转换为信息DNA分子，添加真标记寡核苷酸。可选地，为了将文件扩增子转化为混淆 DNA分子，添加假标记寡核苷酸。

图10A-H。将ASCII文件编码为DNA。(图10A)每个字节编码为5 个DNA核苷酸的单词。与编码256个可能的字符所需的最少4nt相比，该映射的效率是80％。(图10B)映射表。重要的是，该映射将DNA序列的 G/C含量限制在介于40％至60％之间，并且确保不存在超过3nt的均聚物拉伸段。(图10C)用于信息存储的每个DNA寡核苷酸可以抽象为4个结构域。B区域是所有寡核苷酸共有的序列，真标记和假标记可以结合在其中。A区域对应于相对于文件位置的消息的地址。M区域对应于消息内容。L区域对应于用于从芯片合成的寡核苷酸池中预扩增的文库特异性引物序列；在用于存储的最终寡核苷酸中，L区域被去除。(图10D)8件艺术品的位图图像在这里编码为DNA。这里显示的是基于由Twist Biosciences合成的设计寡核苷酸池的重构图像，通过Illumina MiSeq上的 NGS读取。(图10E)映射到文库的NGS读取的分配，所述文库映射到“The Bull”。由于寡核苷酸合成错误或测序错误，因为未表现出预期的 DNA寡核苷酸格式，因此16.11％的读取从进一步分析中丢弃。(图 10F)测序深度的空间分布。每个DNA寡核苷酸对应于2x2像素的非重叠块。(图10G)基于位置(左)并按等级(右)排序的映射到每个具有确切预期序列的像素块的NGS读取的分数。(图10H)对应于多个每个像素块的NGS读取的分数。请注意，一小部分像素块会收敛到一组错误的像素信息。

图11A-F。信息存储和读取。(图11A)使用1个消息文件和1个噪音文件的混合物编码在DNA中的读取图像。顶部图像对应于消息文件(与真标记预杂交)，底部图像对应于噪音文件(与假标记预杂交)。中间图像对应于在95℃加热15分钟以擦除消息后的恢复图像。(图11B)丢失像素(黑色)和对应于噪音的不正确像素(灰色)的空间分布。预期顶部图像中的垂直灰色条纹是因为第一张图像在此处没有编码信息。(图 11C)NGS读取在所有像素上的分布。(图11D)在每个像素块中完美匹配的NGS读取数量的分布。在第二图像中，“匹配的读取”对应于第一图像。(图11E)映射到与预期的DNA消息完全匹配的每个像素块的NGS 读取的分数。(图11F)映射到每个块(多个)中最高频率NGS读取的每个像素块的分数。

图12A-B。信息存储和从8张图像的混合物中读取。(图12A)在 25℃下孵育图像混合物1周后的读取图像。(图12B)在95℃下孵育图像混合物15分钟后的读取图像。

图13A-J。芯片合成的寡核苷酸池的质量。(图13A)这里显示的8 张图像是设计的寡核苷酸池的检索图像。在每个图像中，缺失的像素都用灰色块标记。正确读取小于5的寡核苷酸被认为是合成不良的寡核苷酸，并且被重新排序为第二寡核苷酸池，以填补缺失的像素。(图13B)描述了完美合成的寡核苷酸池的分数的饼图。我们仅使用完美合成的寡核苷酸进行进一步分析。(图13C)测序深度的空间分布和直方图。在直方图中，描述了具有少于5个精确命中的寡核苷酸。该寡核苷酸被重新排序为第二池。(图13D)映射到每个像素块的精确的NGS读取的比率。(图 13E)多元化比率，显性读取数量除以映射到每个像素块的总读取数量。 (图13F)从第二池掺入的寡核苷酸池中检索到的8张图像。每个图像中的缺失像素都用灰色块标记，但是添加第二池后，几乎所有图像中都很难找到缺失像素。(图13G)描述了完美合成的寡核苷酸池的分数的饼图。 (图13H)测序深度的空间分布和直方图。(图13I)映射到每个像素块的精确NGS读取的比率，所述比率在第二池掺入后，整体会增加。(图 13J)多元化比率，显性读取数量除以映射到每个像素块的总读取数量。

图14A-F。信息存储和读取。(图14A)使用1个消息文件和7个噪音文件的混合物编码在DNA中的解码图像。消息文件与真标记预杂交，噪音文件与假标记预杂交。解码时将图像大小设置为240X320。(图14B) 丢失像素(黑色)和对应于噪音的不正确像素(灰色)的空间分布。 240X320结构域中的消息文件的原始图像的外部显示为灰色。(图14C) 显示NGS读取的分布的饼图。显示了NGS读取的分数与原始消息文件完全匹配，NGS读取与原始噪音文件完全匹配，在地址部分或消息部分中包含错误的NGS读取的比率，以及长度与原始合成的寡核苷酸不同的NGS 读取的比率。(图14D)精确NGS读取的数量在所有像素上的分布。(图14E)精确NGS读取的映射到每个像素的映射比率。(图14F)在每个块中的多元化比率，其对应于映射到显性NGS读取的数量的每个像素块的分数。

图15A-F。信息存储和读取，显示1周后的信息衰减。(图15A)使用1个消息文件和7个噪音文件的混合物编码在DNA中的读取图像。与图 14A-F不同，将混合物在室温下孵育1周以测试信息衰减，然后继续进行下一步骤以进行解码/读取。解码时将图像大小设置为240X320。(图 15B)丢失像素(黑色)和对应于噪音的不正确像素(灰色)的空间分布。240X320结构域中的消息文件的原始图像的外部显示为灰色。(图15C) 显示NGS读取的分布的饼图。显示了NGS读取的分数与原始消息文件完全匹配，NGS读取与原始噪音文件完全匹配，在地址部分或消息部分中包含错误的NGS读取的比率，以及长度与原始合成的寡核苷酸不同的NGS 读取的比率。即使1周孵育后，结果也几乎不能表明信息衰减。(图15D)精确NGS读取的数量在所有像素上的分布。(图15E)精确NGS读取的映射到每个像素的映射比率。(图15F)在每个块中的多元化比率，其对应于映射到显性NGS读取的数量的每个像素块的分数。

图16A-F。通过在95℃加热混合物的信息擦除。(图16A)在擦除1 个消息文件和7个噪音文件的混合物中的信息后，编码在DNA中的读取图像。所有8张图像看起来相似并且难以识别原始图像。解码时将图像大小设置为240X320。(图16B)丢失像素(黑色)和对应于噪音的不正确像素(灰色)的空间分布。240X320结构域中的消息文件的原始图像的外部显示为灰色。擦除后，大多数像素对应于噪音。(图16C)显示NGS读取的分布的饼图。显示了NGS读取的分数与原始消息文件完全匹配，NGS 读取与原始噪音文件完全匹配，在地址部分或消息部分中包含错误的NGS 读取的比率，以及长度与原始合成的寡核苷酸不同的NGS读取的比率。擦除后，完美的真消息变为显性，而完美的噪音/假消息则减少。(图16D) 精确NGS读取的数量在所有像素上的分布。尽管在擦除后所有8个读取图像看起来都相同，但是某些图表具有原始图像的图案。这是因为该图表是将读取图像与原始图像进行匹配的结果。(图16E)精确NGS读取的映射到每个像素的映射比率。(图16F)在每个块中的多元化比率，其对应于映射到显性NGS读取的数量的每个像素块的分数。

图17A-F。通过在60℃加热混合物的不完全信息擦除。(图17A)在擦除1个消息文件和7个噪音文件的混合物中的信息后，编码在DNA中的读取图像。即使在60℃下进行擦除，也几乎无法识别原始信息(图像)。解码时将图像大小设置为240X320。(图17B)丢失像素(黑色)和对应于噪音的不正确像素(灰色)的空间分布。240X320结构域中的消息文件的原始图像的外部显示为灰色。擦除后，大多数像素对应于噪音。(图 17C)显示NGS读取的分布的饼图。显示了NGS读取的分数与原始消息文件完全匹配，NGS读取与原始噪音文件完全匹配，在地址部分或消息部分中包含错误的NGS读取的比率，以及长度与原始合成的寡核苷酸不同的 NGS读取的比率。与在95℃擦除的文件相比，该文件的完美真消息区域略大，并且完美噪音/假消息区域略小。(图17D)精确NGS读取的数量在所有像素上的分布。尽管在擦除后所有8个读取图像看起来都相同，但是某些图表具有原始图像的图案。这是因为该图表是将读取图像与原始图像进行匹配的结果。(图17E)精确NGS读取的映射到每个像素的映射比率。(图17F)在每个块中的多元化比率，其对应于映射到显性NGS读取的数量的每个像素块的分数。在直方图中，多元化比率分布在比在95℃擦除的文件更高的区域。

图18.显示读取图像的正确像素、丢失像素和错误像素的比率的条形图。比率是8张图像的平均值。对于原始的Twist池、消息文件和噪音文件的混合物，以及在室温下孵育1周的混合物(泳道1-3)显示正确像素的显性比率。另一方面，在擦除文件中(泳道4-6)，不正确或丢失的像素占主导地位。泳道5和泳道6是使用多元化比率超过0.5的读取分析的图表。真标记和假标记在95℃比在60℃分布更多，显示在95℃擦除的文件中丢失的像素更多。泳道1：原始Twist池。泳道2：消息文件和噪音文件的混合物。泳道3：在室温存储1周的消息文件和噪音文件的混合物。泳道3：在95℃擦除的消息文件和噪音文件的混合物。泳道4：在95℃擦除的消息文件和噪音文件的混合物。泳道5：在95℃擦除的消息文件和噪音文件的混合物(截止：多元化比率>0.5)。泳道6：在60℃擦除的消息文件和噪音文件的混合物(截止：多元化比率>0.5)。

具体实施方式

在DNA中编码信息是一个新兴领域，具有大量投资。与传统的信息存储介质相比，DNA具有显著更高的信息密度和更长的存储寿命的潜力。但是，目前在DNA中编码信息的方法永久擦除极其困难，这使得该方法不太适合高度敏感的信息。

本文提供的方法使用DNA杂交半衰期的强烈温度依赖性，以可以通过简单和快速的加热程序轻松擦除或混淆信息的方式来编码信息。简而言之，将对应于真消息的DNA分子(即“真信息DNA分子”)与“真标记 DNA寡核苷酸”预杂交，然后与对应于假消息的DNA分子(即“假混淆 DNA分子”)混合。加热后，真标记从真消息中解离，并在冷却后与对应于真或假消息的DNA分子随机杂交。

本发明的快速擦除方面的基础是，当每个组件有多个可能的选项时，从多个组件重构消息就成指数地困难。例如，如果有N＝10,000个组件，并且每个组件有M＝2个选项，而其中只有一个选项是正确的，则存在 2^10000≈10^3000个可能的消息，实际上不可能从所有可能的消息中找到一个真消息。因此，可以通过一组真消息(信息)和至少一组假消息(混淆)来实现DNA信息存储。

真消息中的信息可以通过多种方式编码为DNA序列。图6示出了将 ASCII文件翻译成DNA序列的编码策略的一个实例。计算机系统使用的信息文件通常以ASCII格式存储，每个字节取介于0至255之间的值(十六进制为00至FF)。例如，小写字母“o”在ASCII格式下的十六进制形式为6F，二进制形式表示为以下8位:“01101111”。然后可以将8位分组为 2位的1组和3位(即，01101111)的2组，图6左下方示出的映射表用于将字母“o”转换为DNA序列“TCTGT”。因此，每个字节都以1对1 的映射方式翻译成5个核苷酸的DNA序列。因此，这种映射的效率为 80％(每8位转换为5个包含2位信息的核苷酸)。该编码方法的一个优势是，由此产生的所有序列的G/C含量介于40％至60％之间，从而使此类序列适于可靠的合成和测序。该编码方法的另一个优势是，由此产生的序列不会具有超过3个核苷酸的连续均聚物拉伸段，避免了不期望的DNA 二级和三级结构，例如G-四链体。该编码方法的另一个优势是，DNA序列格式能够轻松检测包括内部删除的DNA合成副产物。

一旦信息被编码为DNA序列，就可以将DNA序列片段化为DNA编码的真消息。每个消息的长度可以介于约50个至约2000个核苷酸之间，或其中可衍生的任何长度。例如，消息的长度可以是约50个、约60个、约70个、约80个、约90个、约100个、约150个、约200个、约250个、约300个、约350个、约400个、约450个、约500个、约550个、约600个、约650个、约700个、约750个、约800个、约850个、约 900个、约950个、约1000个、约1050个、约1100个、约1150个、约1200个、约1250个、约1300个、约1350个、约1400个、约1450个、约1500个、约1550个、约1600个、约1650个、约1700个、约1750 个、约1800个、约1850个、约1900个、约1950个或约2000个核苷酸。每个消息都可以与一个地址相关联，该地址识别在DNA序列内编码的消息的位置，以便可以基于该消息重构DNA序列。地址的长度可以是约10 个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20 个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40 个、41个、42个、43个、44个、45个、46个、47个、48个、49个或约 50个核苷酸。为了使DNA序列编码可擦除的信息，将DNA编码的消息群体与假DNA消息一起保留在溶液中。与真消息相关的每个地址也存在于第二DNA分子上，在该第二DNA分子上每个地址与假消息相关联。因此，一旦真标记从真DNA消息丢失(即，去杂化)，就没有办法识别哪个具有特定地址的消息是真DNA消息。

在DNA编码的消息的可读形式中，存在结合到承载真消息的所有信息DNA分子(即“真信息DNA分子”)的“真标记寡核苷酸”(图 1A)。真标记具有可延伸的3'末端和5'突出序列。承载假消息的“假混淆 DNA分子”还具有一个真标记结合位点，该位点允许结合真标记，但最初并未与真标记结合。可替代地，假混淆DNA分子可以具有与真标记结合位点杂交的“假标记”寡核苷酸。假标记在化学特性上与真标记不同，例如，在假标记的3'末端显示的X可以是3-碳间隔基或阻止聚合酶延伸的反向核苷酸。假标记也可以缺少5'突出序列。假标记和真标记与其DNA靶标结合的序列是相同的，因此任何消息或噪音分子都可以以与真标记或假标记大致相同的亲和力结合。消息和噪音在DNA溶液中混合。加热后，真标记与预期消息的杂交被破坏。随后冷却至室温将导致真标记与消息和噪音的随机关联，并且永久丢失了有关分子对应于消息与噪音的信息。

所提供的方法利用了DNA杂交相互作用的半衰期对温度的强烈依赖性(图2)。在将温度加热到至少是真标记的融化温度时，真标记从真消息解离(图3，图4A，图4B)，并且无法将原始信息DNA分子与原始混淆DNA分子区分。即使将加热后的溶液冷却至室温也无法恢复信息，因为真标记将随机与真消息和假消息相关联。相反，当原始DNA编码的消息保持在室温或适当的低温下时，真标记解离的半衰期非常长，从而可以在不故意破坏信息的情况下长期保存消息。编码的信息的温度依赖性半衰期也可以看作是用于生成旨在于生产后的有限时间内查看的“自毁”消息的方法。

承载假消息的混淆DNA分子可以在真标记结合区域与“假标记寡核苷酸”杂交(参见图1B)。在DNA序列或化学修饰方面，该假标记与真标记的特性不同。如图5所示，真标记可以具有另外的用作下游PCR扩增的正向引物结合位点的5'序列(区域6)，并且在3'末端没有被修饰。相反，假标记可以没有5'正向引物结合区域，并且在3'末端被功能化以防止 DNA聚合酶延伸。这种功能化可以是3-碳间隔基。因此，假混淆

DNA 分子和真信息DNA分子在结构上相似：他们各自包含地址序列、消息序列和反向引物结合区域。为了能够快速擦除信息，每个唯一的地址应具有一个相应的真信息DNA分子和至少一个相应的假混淆DNA分子。

图7示出了如实例1中详细描述的一个用于非擦除消息的信息读取过程的实例。DNA聚合酶将延伸真标记，从信息DNA分子复制真消息。只有延伸的真标记具有正向引物结合位点和反向引物结合位点两者，并且随后可以通过PCR扩增。所用的PCR引物在5'末端还包括测序衔接子，以允许后续的NGS分析读出编码在信息DNA分子中的消息。图8A-B示出了读取非擦除DNA溶液和擦除DNA溶液的结果以进行比较。所需的信息 (在这种情况下为位图图像)被编码为DNA溶液。信息可以在室温或更低的温度下稳定地长时间存储，但是在暴露于高温(例如95℃)时会被快速和永久地擦除。图9示出了如何从成千上万个至数百万个寡核苷酸物种的较大合成池中制备信息DNA分子和混淆DNA分子。池是几个“文件”的混合物，其中每个文件都有其唯一的文件引物结合区域。用磷酸修饰的文件正向引物和唯一的硫代磷酸修饰的文件反向引物扩增其中一个文件。 Lambda核酸外切酶用于处理文件，以去除磷酸修饰的寡核苷酸。随后，为了将文件扩增子转换为信息DNA分子，添加真标记寡核苷酸。可选地，为了将文件扩增子转化为混淆DNA分子，添加假标记寡核苷酸。

图10A-H示出了将ASCII文件翻译成DNA序列的编码策略的另一个实例。这里同样，每个字节被编码为5个DNA核苷酸的单词(图10A)。与编码256个可能的字符所需的最少4nt相比，该映射的效率是80％。重要的是，该映射将DNA序列的G/C含量限制在介于40％至60％之间，并且确保不存在超过3nt的均聚物拉伸段(图10B)。用于信息存储的每个 DNA寡核苷酸可以抽象为4个结构域(图10C)。B区域是所有寡核苷酸共有的序列，真标记和假标记可以结合在其中。A区域对应于相对于文件位置的消息的地址。M区域对应于消息内容。L区域对应于用于从芯片合成的寡核苷酸池中预扩增的文库特异性引物序列；在用于存储的最终寡核苷酸中，L区域被去除。

8件艺术品的位图图像在这里编码为DNA(图10D)。显示的是基于由TwistBiosciences合成的设计寡核苷酸池的重构图像，通过Illumina MiSeq上的NGS读取。作为一个特定实例(图10E)，这里显示了映射到文库的NGS读取的分布，所述文库映射到“TheBull”。由于寡核苷酸合成错误或测序错误，因为未表现出预期的DNA寡核苷酸格式，因此16.11％的读取从进一步分析中丢弃。图10F示出了测序深度的空间分布。每个DNA寡核苷酸对应于2x2像素的非重叠块。图10G示出了基于位置 (左)并按等级(右)排序的映射到每个具有确切预期序列的像素块的 NGS读取的分数。图10H示出了对应于多个每个像素块的NGS读取的分数。请注意，一小部分像素块会收敛到一组错误的像素信息。

在图13A-J中评估了芯片合成的寡核苷酸池的质量。首先，图13A示出的8张图像是设计的寡核苷酸池的检索图像。在每个图像中，缺失的像素都用块标记。正确读取小于5的寡核苷酸被认为是合成不良的寡核苷酸，并且被重新排序为第二寡核苷酸池，以填补缺失的像素。图13B提供描述了完美合成的寡核苷酸池的分数的饼图。仅将完美合成的寡核苷酸用于进一步分析。图13C示出了测序深度的空间分布和直方图。在直方图中，标记了具有少于5个精确命中的寡核苷酸。这些寡核苷酸被重新排序为第二池。图13D示出了映射到每个像素块的精确的NGS读取的比率。图 13E示出了多元化比率，即显性读取数量除以映射到每个像素块的总读取数量。接下来，图13F示出了从第二池掺入的寡核苷酸池检索的8张图像。每个图像中的缺失像素都用块标记，但是添加第二池后，几乎所有图像中都很难找到缺失像素。图13G提供描述了完美合成的寡核苷酸池的分数的饼图。图13H示出了测序深度的空间分布和直方图。图13I示出了映射到每个像素块的精确NGS读取的比率，所述比率在第二池掺入后，整体会增加。图13J示出了多元化比率，即显性读取数量除以映射到每个像素块的总读取数量。

图11A-F示出了信息存储和读取的其他实例。图11A示出了使用1个消息文件和1个噪音文件的混合物编码在DNA中的图像。顶部图像对应于消息文件(与真标记预杂交)，底部图像对应噪音文件(与假标记预杂交)。中间图像对应于在95℃加热15分钟以擦除消息后的恢复图像。图 11B示出了丢失像素和对应于噪音的不正确像素的空间分布。预期顶部图像中的垂直灰色条纹是因为第一张图像在此处没有编码信息。图11C示出了NGS读取在所有像素上的分布。图11D示出了在每个像素块中完美匹配的NGS读取数量的分布。在第二图像中，“匹配的读取”对应于第一图像。图11E示出了映射到与预期的DNA消息完全匹配的每个像素块的 NGS读取的分数。图11F示出了映射到每个块(多个)中最高频率NGS 读取的每个像素块的分数。

图14A-F示出了信息存储和读取的又一实例。图14A示出了使用1个消息文件和7个噪音文件的混合物编码在DNA中的解码图像。消息文件与真标记预杂交，噪音文件与假标记预杂交。解码时将图像大小设置为 240X320。图14B示出了丢失像素(黑色)和对应于噪音的不正确像素 (灰色)的空间分布。240X320结构域中的消息文件的原始图像的外部显示为灰色。图14C提供了NGS读取的分布的饼图。显示了NGS读取的分数与原始消息文件完全匹配，NGS读取与原始噪音文件完全匹配，在地址部分或消息部分中包含错误的NGS读取的比率，以及长度与原始合成的寡核苷酸不同的NGS读取的比率。图14D示出了精确NGS读取的数量在所有像素上的分布。图14E示出了精确NGS读取映射到每个像素的映射比率。图14F示出了在每个块中的多元化比率，其对应于块映射到显性NGS 读取的数量的每个像素块的分数。

图12A-B示出了信息存储和从8张图像的混合物中读取的实例。图 12A示出了在25℃下孵育图像混合物1周后的图像。图12B示出了在 95℃下孵育图像混合物15分钟后的图像。

图15A-F提供了信息存储和读取的实例，显示1周后的信息衰减。图 15A示出了使用1个消息文件和7个噪音文件的混合物编码在DNA中的读取图像。与图14A-F不同，将混合物在室温下孵育1周以测试信息衰减，然后继续进行下一步骤以进行解码/读取。解码时将图像大小设置为 240X320。图15B示出了丢失像素(黑色)和对应于噪音的不正确像素 (灰色)的空间分布。240X320结构域中的消息文件的原始图像的外部显示为灰色。图15C提供了NGS读取的分布的饼图。显示了NGS读取的分数与原始消息文件完全匹配，NGS读取与原始噪音文件完全匹配，在地址部分或消息部分中包含错误的NGS读取的比率，以及长度与原始合成的寡核苷酸不同的NGS读取的比率。即使1周孵育后，结果也几乎不能表明信息衰减。图15D示出了精确NGS读取的数量在所有像素上的分布。。图 15E示出了精确NGS读取映射到每个像素的映射比率。图15F示出了在每个块中的多元化比率，其对应于块映射到显性NGS读取的数量的每个像素块的分数。

图16A-F示出了通过将混合物在95℃加热15分钟来擦除信息的实例。图16A示出了在擦除1个消息文件和7个噪音文件的混合物中的信息后，编码在DNA中的读取图像。所有8张图像看起来相似并且难以识别原始图像。解码时将图像大小设置为240X320。图16B示出了丢失像素(黑色)和对应于噪音的不正确像素(灰色)的空间分布。240X320结构域中的消息文件的原始图像的外部显示为灰色。擦除后，大多数像素对应于噪音。图16C提供了显示NGS读取的分布的饼图。显示了NGS读取的分数与原始消息文件完全匹配，NGS读取与原始噪音文件完全匹配，在地址部分或消息部分中包含错误的NGS读取的比率，以及长度与原始合成的寡核苷酸不同的NGS读取的比率。擦除后，完美的真消息区域占主导地位，而完美的噪音/假消息区域则减少。长度与原始合成的寡核苷酸的长度不同的 NGS读取比率也增加。图16D示出了精确NGS读取的数量在所有像素上的分布。尽管在擦除后所有8个读取图像看起来都相同，但是某些图表具有原始图像的图案。这是因为该图表是将读取图像与原始图像进行匹配的结果。图16E示出了精确NGS读取映射到每个像素的映射比率。图16F示出了在每个块中的多元化比率，其对应于块映射到显性NGS读取的数量的每个像素块的分数。

图17A-F示出了通过将混合物在60℃加热15分钟来不完全擦除信息的实例。图17A示出了在擦除1个消息文件和7个噪音文件的混合物中的信息后，编码在DNA中的读取图像。即使在60℃下进行擦除，也几乎无法识别原始信息(图像)。解码时将图像大小设置为240X320。图17B示出了丢失像素(黑色)和对应于噪音的不正确像素(灰色)的空间分布。240X320结构域中的消息文件的原始图像的外部显示为灰色。擦除后，大多数像素对应于噪音。图17C提供了显示NGS读取的分布的饼图。显示了 NGS读取的分数与原始消息文件完全匹配，NGS读取与原始噪音文件完全匹配，在地址部分或消息部分中包含错误的NGS读取的比率，以及长度与原始合成的寡核苷酸不同的NGS读取的比率。与在95℃擦除的文件相比，该文件的完美真消息区域略大，并且完美噪音/假消息区域略小。图 17D提供了精确NGS读取的数量在所有像素上的分布。尽管在擦除后所有 8个读取图像看起来都相同，但是某些图表具有原始图像的图案。这是因为该图表是将读取图像与原始图像进行匹配的结果。图17E示出了精确 NGS读取映射到每个像素的映射比率。图17F示出了在每个块中的多元化比率，其对应于块映射到显性NGS读取的数量的每个像素块的分数。在直方图中，多元化比率分布在比在95℃擦除的文件更高的区域(参见图 16F)。

图18提供了显示读取图像的正确像素、丢失像素和错误像素的比率的条形图。比率是8张图像的平均值。对于原始的Twist池、消息文件和噪音文件的混合物，以及在室温下孵育1周的混合物(泳道1-3)显示正确像素的显性比率。另一方面，在擦除文件中(泳道4-6)，不正确或丢失的像素占主导地位。泳道5和泳道6是使用多元化比率超过0.5的读取分析的图表。真标记和假标记在95℃比在60℃分布更多，显示在95℃擦除的文件中丢失的像素更多。

I.核酸的合成

术语“核酸分子”、“核酸聚合物”、“核酸序列”、“核酸片段”、“寡核苷酸”和“多核苷酸”可互换使用，并且旨在包括但不限于可以具有各种长度的核苷酸的聚合形式，可以是脱氧核糖核苷酸(DNA)或核糖核苷酸(RNA)或其类似物。核酸分子通常由四个核苷酸碱基的特定序列组成：腺嘌呤(A)；胞嘧啶(C)；鸟嘌呤(G)；胸腺嘧啶(T)(当多核苷酸为RNA时，胸腺嘧啶(T)替换为尿嘧啶(U))。因此，术语“核酸序列”是核酸分子的字母表示。核酸分子可以任选地包括一个或多个非标准核苷酸、核苷酸类似物和/或修饰的核苷酸。

可以使用任何可商购的合成核酸分子的方法。可以使用一种或多种亚磷酰胺连接体和/或通过本领域技术人员已知的连接方法测序来制备核酸分子。寡核苷酸序列还可以通过任何合适的方法来制备，例如标准的亚磷酰胺方法，诸如下文所描述的方法以及Beaucage和Carruthers((1981) Tetrahedron Lett.22：1859)所描述的方法或根据Matteucci等人(1981)J.Am. Chem.Soc.103:3185所描述的三酯法，或通过使用商业上自动化的寡核苷酸合成仪或本领域已知的高通量、高密度阵列方法的其他化学方法(参见美国专利号5,602,244、5,574,146、5,554,744、5,428,148、5,264,566、 5,141,813、5,959,463、4,861,571和4,659,774，出于所有目的该专利全文以引用方式并入本文)。预合成的寡核苷酸也可以从许多供应商处商购获得。

这些定义通常是指至少一个单链分子，但是在特定的实施例中，还将涵盖与该至少一个单链分子部分地、基本上或完全互补的至少一条附加链。因此，核酸可涵盖至少一个双链分子或至少一个三链分子，该至少一个双链分子或至少一个三链分子包含构成该分子的链的特定序列的一条或多条互补链或“补体”。如本文所用，单链核酸可以用前缀“ss”表示，双链核酸用前缀“ds”表示，三链核酸用前缀“ts”表示。

核酸“区域”或“结构域”是任意长度的核苷酸的连续拉伸段。

如本文所用，“掺入”是指成为核酸聚合物的一部分。

“核苷”是碱基糖的组合，即缺少磷酸的核苷酸。在本领域中所公认的是，在使用术语核苷和核苷酸方面存在一定的互换性。例如，核苷酸脱氧尿苷三磷酸，即dUTP，是脱氧核糖核苷三磷酸。掺入DNA后，它作为 DNA单体，形式上是脱氧尿苷酸，即dUMP或单磷酸脱氧尿苷。可以说，即使所得的DNA中没有dUTP部分，也可以将dUTP掺入DNA中。类似地，可以说，即使只是底物分子的一部分，也可以将脱氧尿苷掺入DNA 中。

如本文所用，“核苷酸”是本领域的术语，是指碱糖磷酸的组合。核苷酸是核酸聚合物，即DNA和RNA的单体单元。该术语包括核糖核苷酸三磷酸，例如rATP、rCTP、rGTP或rUTP，和脱氧核糖核苷酸三磷酸，例如dATP、dCTP、dUTP、dGTP或dTTP。

修饰的核苷酸的实例包括但不限于二氨基嘌呤、S2T、5-氟尿嘧啶、5- 溴尿嘧啶、5-氯尿嘧啶、5-碘尿嘧啶、次黄嘌呤、黄嘌呤、4-乙酰胞嘧啶、 5-(羧基羟甲基)尿嘧啶、5-羧甲基氨基甲基-2-硫代尿苷、5-羧甲基氨基甲基尿嘧啶、二氢尿嘧啶、β-D-半乳糖基辫苷、肌苷、N6-异戊烯腺嘌呤、 1-甲基鸟嘌呤、1-甲基肌苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞嘧啶、5-甲基胞嘧啶、N6-腺嘌呤、7-甲基鸟嘌呤、5-甲基氨基甲基尿嘧啶、5-甲氧基氨基甲基-2-硫尿嘧啶、β-D-甘露糖基辫苷、5'- 甲氧基羧甲基尿嘧啶、5-甲氧基尿嘧啶、2-甲硫基-D46-异戊烯腺嘌呤、尿嘧啶-5-氧乙酸(v)、wybutoxosine、假尿嘧啶、辫苷、2-硫胞嘧啶、5-甲基- 2-硫尿嘧啶、2-硫尿嘧啶、4-硫尿嘧啶、5-甲基尿嘧啶、尿嘧啶-5-氧乙酸甲酯、尿嘧啶-5-氧乙酸(v)、5-甲基-2-硫尿嘧啶、3-(3-氨基-3-N-2-羧丙基)尿嘧啶、(acp3)w、2,6-二氨基嘌呤等。核酸分子还可以在碱基部分(例如，在一个或多个通常可与互补核苷酸形成氢键的原子上和/或在一个或多个通常无法与互补核苷酸形成氢键的原子上)、糖部分或磷酸骨架上被修饰。核酸分子还可以包含胺修饰的基团，例如氨基烯丙基-dUTP(aa-dUTP) 和氨基己基丙烯酰胺-dCTP(aha-dCTP)，以允许胺反应性部分(诸如N-羟基琥珀酰亚胺酯(NHS))的共价连接。

“互补的”核酸或“补体”是能够根据标准的Watson-Crick、 Hoogsteen或反向Hoogsteen结合互补规则进行碱基配对的核酸。如本文所用，术语“互补的”或“补体”可以指基本上互补的核酸，如可以通过上述相同的核苷酸比较所评估的。术语“基本上互补的”可以指包含至少一个序列的连续核碱基或半连续核碱基(如果分子中不存在一个或多个核碱基部分)的核酸能够与至少一条核酸链或双链体杂交，即使少于所有不与对应的核碱基进行碱基配对的核碱基。在某些实施例中，“基本上互补的”核酸含有至少一个序列，其中约70％、约71％、约72％、约73％、约 74％、约75％、约76％、约77％、约77％、约78％、约79％、约80％、约81％、约82％、约83％、约84％、约85％、约86％、约87％、约88％、约 89％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约 97％、约98％、约99％、约100％以及其中的任何范围的核碱基序列能够在杂交期间与至少一个单链或双链核酸分子进行碱基配对。在某些实施例中，术语“基本上互补的”是指可以在严格条件下与至少一个核酸链或双链体杂交的至少一个核酸。在某些实施例中，“部分地互补的”核酸包含可以在低严格条件下与至少一个单链或双链核酸杂交的至少一个序列，或包含至少一个序列，其中少于约70％的核碱基序列能够在杂交期间与至少一个单链或双链核酸分子进行碱基配对。

术语“非互补的”是指缺乏通过特异性氢键形成至少一个Watson- Crick碱基对的能力的核酸序列。

如本文关于核苷酸序列所使用的，“基本上已知”是指具有足够的序列信息以允许制备核酸分子，包括其扩增。尽管在一些实施例中衔接子序列的某些部分是随机的或简并的，但这通常约为100％。因此，在特定实施例中，基本上已知是指约50％至约100％、约60％至约100％、约70％至约100％、约80％至约100％、约90％至约100％、约95％至约100％、约97％至约100％、约98％至约100％或约99％至约100％。

可以在合成期间将引物结合位点添加至核酸分子。例如，引物结合位点可以是存在于真标记DNA寡核苷酸群体中的每个真标记DNA寡核苷酸中的序列。因此，当合成每个真标记DNA寡核苷酸时，将引物结合位点添加至寡核苷酸的5'末端。

II.核酸的扩增

如本文所用，“扩增”是指用于增加一个或多个核苷酸序列的拷贝数的任何体外方法。核酸扩增导致核苷酸掺入DNA或RNA。如本文所用，一个扩增反应可以由多轮DNA复制组成。例如，一个PCR反应可以包含 30个至100个变性和复制“循环”。

“聚合酶链式反应”或“PCR”是指通过DNA的互补链的同时引物延伸在体外扩增特定DNA序列的反应。换句话说，PCR是制备侧接引物结合位点的靶核酸多拷贝或复制的反应，这种反应包括以下步骤的一个或多个重复：(i)使靶核酸变性，(ii)将引物退火至引物结合位点，和(iii)在三磷酸核苷存在下通过核酸聚合酶延伸引物。通常，反应在热循环仪器中通过每个步骤优化的不同温度循环。特定的温度、每个步骤的持续时间，以及步骤之间的变化率取决于本领域普通技术人员众所周知的许多因素，例如以参考文献为例：McPherson等人，编辑，PCR:A Practical Approach and PCR2:A Practical Approach(IRL Press,Oxford,1991and 1995,respectively)。

“引物”指天然或合成的寡核苷酸，当与某一多核苷酸模板形成一个双链体后，即能作为核酸合成的一个起始点并且从其3'末端沿着模板延伸，从而形成一个延伸的双链体。延伸过程中所添加的核苷酸序列取决于模板多核苷酸的序列。通常，引物通过DNA聚合酶延伸。引物的长度通常与其在引物延伸产物的合成中的使用相容，并且长度通常在介于8个至 100个核苷酸之间的范围，例如长度在介于10个至75个、15个至60个、 15个至40个、18个至30个、20个至40个、21个至50个、22个至45 个、25个至40个等，更通常在18个至40个、20个至35个、21个至30 个核苷酸之间的范围，以及在所述范围之间的任何长度。通常的引物的长度可以在介于10个至50个核苷酸之间的范围，例如15个至45个、18个至40个、20个至30个、21个至25个等，以及介于所述范围之间的任何长度。引物的长度可以不大于约10个、12个、15个、20个、21个、22 个、23个、24个、25个、26个、27个、28个、29个、30个、35个、40 个、45个、50个、55个、60个、65个或70个核苷酸。

术语“PCR”涵盖反应的衍生物形式，包括但不限于RT-PCR、实时 PCR、巢式PCR、定量PCR、多重PCR、组装PCR等。反应体积范围从几百纳升(例如200nL)到几百微升(例如200μL)。“逆转录PCR”或“RT- PCR”是指先进行逆转录反应的PCR，该逆转录反应将靶RNA转化为互补的单链DNA，然后将该单链DNA扩增，例如Tecott等人，美国专利号 5,168,038。“实时PCR”是指随着反应的进行监测其反应产物即扩增子的数量的PCR。实时PCR有多种形式，主要区别在于用于监测反应产物的检测化学方法，例如Gelfand等人，美国专利号5,210,015(“Taqman”)； Wittwer等人，美国专利号6,174,670和6,569,627(intercalating dyes)；Tyagi 等人，美国专利号5,925,517(molecular beacons)。Mackay等人，Nucleic AcidsResearch,30:1292-1305(2002)综述了用于实时PCR的检测化学方法。“巢式PCR”是指两阶段PCR，其中第一PCR的扩增子变为使用新的一组引物的第二PCR的样本，所述引物中的至少一个结合到所述第一扩增子的内部位置。如本文所用，涉及巢式扩增反应的“初始引物”是指用于产生第一扩增子的引物，“第二引物”是指用于产生第二或巢式扩增子的一个或多个引物。“多重PCR”是指PCR，其中多个靶序列(或单个靶序列和一个或多个参考序列)在相同反应混合物中同时进行，例如Bernard等人 (1999)Anal.Biochem.,273:221-228(two-color real-time PCR)。通常，将不同的引物组用于每个被扩增的序列。“定量PCR”是指设计用于测量样本或样品中一个或多个特定靶序列的丰度的PCR。定量PCR的技术是本领域普通技术人员众所周知的，如以下参考文献所示：Freeman等人，Biotechniques, 26:112-126(1999)；Becker-Andre等人，Nucleic Acids Research,17:9437- 9447(1989)；Zimmerman等人，Biotechniques,21:268-279(1996)；Diviacco 等人，Gene,122:3013-3020(1992)；Becker-Andre等人，Nucleic Acids Research,17:9437-9446(1989)等。

存在多种多样的聚合酶选择，它们具有不同的属性，例如温度、链置换和校正。扩增可以是等温的，例如多重置换扩增(MDA)，描述于Dean 等人，Comprehensive humangenome amplification using multiple displacement amplification,Proc.Natl.Acad.Sci.U.S.A.,vol.99,p.5261-5266.2002；还描述于 Dean等人，Rapidamplification of plasmid and phage DNA using phi29 DNA polymerase andmultiply-primed rolling circle amplification,Genome Res.,vol. 11,p.1095-1099.2001；还描述于Aviel-Ronen等人，Large fragment Bst DNA polymerase for wholegenome amplification of DNA formalin-fixed paraffin-embedded tissues,BMCGenomics,vol.7,p.312.2006.扩增还可以在不同的温度范围内循环，例如传统聚合酶链式反应(PCR)，推广于Mullis等人,Specific enzymatic amplification of DNA in vitro:The polymerase chain reaction.Cold Spring Harbor Symp.Quant.Biol.,vole 51,p.263-273.1986.其他方法包括Polony PCR，描述于Mitra和Church，In situ localizedamplification and contact replication of many individual DNA molecules,Nuc.Acid.Res.,vole 27,pages e34.1999；emulsion PCR(ePCR)描述于Shendure等人，Accurate multiplex polony sequencing of an evolved bacterial genome,Science,vol.309,p. 1728-32.2005；以及Williams等人，Amplification of complex genelibraries by emulsion PCR,Nat.Methods,vol.3,p.545-550.2006.任何扩增方法都可以与先验的逆转录步骤结合使用以扩增RNA。根据某些方面，扩增不是绝对必需的，因为具有足够灵敏度的探针、报告子和检测系统可以用于允许使用所描述的模板非杂交核酸结构检测单个分子。在一个系统中适应灵敏度的方法包括选择激发源(例如照明)和检测(例如光电探测器，光电倍增管)。适应信号电平的方法包括允许报告子堆叠的探针，也可以使用高强度报告子(例如量子点)。

扩增核酸的示例性方法包括聚合酶链式反应(PCR)(参见例如Mullis 等人(1986)C old Spring Harb.Symp.Quant.Biol.51Pt 1:263和Cleary等人 (2004)Nature Methods1:241；以及美国专利号4,683,195和4,683,202)、锚定PCR、RACE PCR、连接链式反应(LCR)(参见例如，Landegran等人 (1988)Science 241:1077-1080；以及Nakazawa等人 (1994)Proc.Natl.Acad.Sci.U.S.A.91:360-364)、自动持续序列复制(Guatelli 等人(1990)Proc.Natl.Acad.Sci.U.S.A.87:1874)、转录扩增系统(Kwoh等人 (1989)Proc.Natl.Acad.Sci.U.S.A.86:1173)、Q-β复制酶(Lizardi等人 (1988)BioTechnology6:1197)、递归PCR(Jaffe等人(2000)J. Biol.Chem.275:2619；和Williams等人(2002)J.Biol.Chem.277:7790)，扩增方法描述于美国专利号6,391,544、6,365,375、6,294,323、6,261,797、 6,124,090和5,612,199、等温扩增(例如滚环扩增(RCA)、超支链滚环扩增(HRCA)、链置换扩增(SDA)、解旋酶依赖性扩增(HDA)、PWGA)或使用本领域技术人员众所周知的技术的任何其他核酸扩增方法。

条形码，例如样本条形码，可以在扩增过程中添加到靶核酸分子。一种方法涉及将引物(例如，真标记DNA寡核苷酸)退火至核酸分子，该引物包括与核酸分子互补的第一部分和包括条形码的第二部分；以及延伸退火的引物以形成条形码编码的核酸分子。因此，引物可以包括3'部分和5' 部分，其中3'部分可以退火至核酸分子的一部分，并且5'部分包含条形码。

III.核酸的测序

还提供了用于核酸分子文库测序的方法。本领域技术人员已知的用于测序核酸的任何技术都可以用于本公开的方法中。DNA测序技术包括经典的双脱氧测序反应(Sanger方法)，该反应使用标记的终止子或引物和在平板或毛细管中进行的凝胶分离；使用可逆终止的标记核苷酸进行边合成边测序；焦磷酸测序；454测序；与标记寡核苷酸文库探针的等位基因特异性杂交；使用与标记克隆文库进行等位基因特异性杂交的边合成边测序，然后进行连接；在聚合步骤中实时监测标记核苷酸的掺入；以及 SOLiD测序。

可以使用与Illumina测序兼容的方法(例如Nextera^TM DNA样本制备试剂盒)来生成核酸文库，以及例如在Oyola等人(2012)中描述的用于生成Illumina下一代测序文库制备的其他方法。在其他实施例中，用与 SOLiD^TM或Ion Torrent测序方法兼容的方法(例如，

Fragment文库构建试剂盒、

Mate-Paired文库构建试剂盒、

ChIP-Seq 试剂盒、

Total RNA-Seq试剂盒、

SAGE^TM试剂盒、

RNA-Seq文库构建试剂盒等)生成核酸文库。例如在Pareek (2011)和Thudi(2012)中描述的用于下一代测序方法的其他方法，包括可以与本公开的实施例一起使用的用于文库构建的各种方法。

在特定方面，在本公开的方法中使用的测序技术包括来自Illumina,Inc. 的HiSeq^TM系统(例如，HiSeq^TM2000和HiSeq^TM1000)和MiSeq^TM系统。HiSeq^TM系统基于对数百万个片段的大规模并行测序，其使用随机片段化的基因组DNA到平面的连接，光学透明的表面和固相扩增，以创建具有数百万个簇的高密度测序流通池，每个簇每平方厘米含有约1,000份模板。这些模板使用四色DNA边合成边测序技术进行测序。MiSeq^TM系统使用TruSeq^TM，Illumina基于可逆终止子的边合成边测序。

DNA测序平台的另一个实例是QIAGEN GeneReader平台：利用专有的修饰的核苷酸的下一代测序(NGS)平台，所述修饰的核苷酸的3'OH基团通过一个小部分反向终止以大规模并行方式执行边合成边测序(SBS)。简而言之，首先将测序模板在固体表面(例如珠子)上克隆扩增，以为每个单独的测序模板生成成千上万的相同拷贝；变性以生成单链测序模板；与测序引物杂交；然后固定在流通池。然后使固定的测序模板在反应混合物中进行核苷酸掺入反应，所述反应混合物包括具有可裂解的3'封闭基团的修饰的核苷酸，所述封闭基团能够在每个循环中仅将一个特定核苷酸掺入到每个测序模板和检测该一个特定核苷酸。参见美国专利号6,664,079、 8,612,161、和8,623,598，其各自以引用方式并入本文。

DNA测序平台的另一个实例是Ion Torrent PGM^TM测序仪(Thermo Fisher)和IonTorrent Proton^TM测序仪(Thermo Fisher)，它们是基于离子的测序系统，所述测序系统通过检测作为核苷酸掺入的副产物产生的离子来对核酸模板进行测序。通常，氢离子作为核苷酸掺入的副产物释放，所述核苷酸掺入是在模板依赖性核酸合成过程中通过聚合酶发生的。Ion Torrent PGM^TM测序仪和Ion Proton^TM测序仪通过检测核苷酸掺入的氢离子副产物来检测核苷酸掺入。Ion Torrent PGM^TM测序仪和Ion Torrent Proton^TM测序仪包括多个待测序的核酸模板，每个模板以阵列的形式置于各自的测序反应孔内。阵列的每个孔都耦合到至少一个离子传感器，所述传感器可以检测H+离子的释放或作为核苷酸掺入的副产物产生的溶液pH的变化。离子传感器包括耦合到离子敏感检测层的场效应晶体管(FET)，该检测层可以感应H+离子的存在或溶液pH的变化。离子传感器提供指示核苷酸掺入的可以表示为电压变化的输出信号，所述电压变化的量值与相应孔或反应室中的H+离子浓度相关。不同的核苷酸类型依次流入反应室，并通过聚合酶按照模板序列确定的顺序掺入延伸引物(或聚合位点)中。每次核苷酸掺入都伴随着反应孔中H+离子的释放以及局部pH值的随之变化。H+离子的释放由传感器的FET记录，所述传感器产生指示核苷酸掺入发生的信号。在特定核苷酸流通过程中未掺入的核苷酸不会产生信号。来自FET的信号的振幅还可以与掺入到延伸的核酸分子中的特定类型的核苷酸的数量相关，从而允许解析均聚物区域。因此，在运行测序仪期间，多个核苷酸流入反应室，同时跨多个孔或反应室的掺入监测允许仪器同时解析许多核酸模板的序列。关于Ion Torrent PGM^TM测序仪的组成、设计和操作的更多细节可以在例如美国专利公开号2009/0026082、2010/0137143和 2010/0282617中找到，这些专利全文以引用方式并入本文。

可以在本公开的方法中使用的DNA测序技术的另一个实例是454测序(Roche)(Margulies等人，2005)。454测序涉及两个步骤。第一步，将DNA剪切成大约300-800个碱基对的片段，然后将片段平端化。然后将寡核苷酸衔接子连接至片段的末端。衔接子用作片段的扩增和测序的引物。可以使用例如含有5'-生物素标签的衔接子B将片段连接到DNA捕获珠，例如链霉亲和素包被的珠。在油水乳液的液滴内，PCR扩增了与珠连接的片段。结果是每个珠上克隆扩增的DNA片段有多个拷贝。在第二步中，将珠捕获在孔(皮升大小)中。对每个DNA片段并行进行焦磷酸测序。一个或多个核苷酸的添加产生光信号，所述光信号由CCD相机在测序仪器中记录。信号强度与掺入的核苷酸数量成比例。

可以在本公开的方法中使用的DNA测序技术的另一个实例是SOLiD 技术(LifeTechnologies,Inc.)。在SOLiD测序中，将基因组DNA剪切成片段，并将衔接子连接到片段的5'末端和3'末端以生成片段文库。可替代地，可以通过将衔接子连接至片段的5'末端和3'末端、环化片段、消化环化的片段以产生内部衔接子，并将衔接子连接至所得片段的5'末端和3'末端以生成mate-paired文库来引入内部衔接子。接下来，在含有珠、引物、模板和PCR组分的微反应器中制备克隆珠群体。PCR之后，使模板变性并富集珠以分离具有延伸的模板的珠。对所选珠上的模板进行3'修饰，使其可以结合到载玻片上。

可以在本公开的方法中使用的DNA测序技术的另一个实例是 IonTorrent系统(Life Technologies,Inc.)。Ion Torrent使用高密度的微型加工孔阵列以大规模并行方式执行该生化过程。每个孔容纳不同的DNA模板。孔下面是离子敏感层，所述离子敏感层下方是专有的离子传感器。如果将核苷酸(例如C)添加到DNA模板中，然后掺入DNA链中，则会释放出氢离子。来自该离子的电荷会改变溶液的pH值，这可以通过专有的离子传感器进行检测。测序仪将调用碱基，直接从化学信息转变为数字信息。然后，Ion Personal GenomeMachine(PGM^TM)测序仪依次用一个接一个的核苷酸淹没芯片。如果淹没芯片的下一个核苷酸不匹配，则不会记录电压变化，也不会调用碱基。如果DNA链上有两个相同的碱基，则电压将加倍，并且芯片将记录两个被调用的相同的碱基。因为这是直接检测，没有扫描、没有照相机、也没有光线，所以每个核苷酸的掺入都以秒为单位记录。

可以在本公开的方法中使用的测序技术的另一个实例包括Pacific Biosciences的单分子实时(SMRT^TM)技术。在SMRT^TM中，四个DNA碱基中的每一个都与四种不同荧光染料之一连接。这些染料是磷酸连接的。单个DNA聚合酶使用在零模式波导(ZMW)底部的单分子模板单链DNA固定。ZMW是一种限制结构，该限制结构使得能够观察到在快速扩散进 ZMW和从ZMW扩散出来的荧光核苷酸的背景下，DNA聚合酶掺入单个核苷酸的情况(以微秒为单位)。将核苷酸掺入生长链中需要花费几毫秒的时间。在这段时间内，荧光标记被激发并产生荧光信号，并且荧光标签被切割掉。染料的相应荧光的检测表明掺入了哪个碱基。重复该过程。

另一个测序平台包括CGA平台(完整基因组学)。CGA技术基于环状DNA文库的制备和滚环扩增(RCA)以产生排列在固体支持物上的DNA 纳米球(Drmanac等人2010)。完整基因组学的CGA平台使用一种称为组合探针锚定连接(cPAL)的新型策略进行测序。该过程开始于锚分子和唯一的衔接子之一之间的杂交。四个简并的9-mer寡核苷酸使用特定的荧光团标记，这些荧光团对应于探针第一位置的特定核苷酸(A、C、G或 T)。序列测定发生在反应中，其中正确的匹配探针与模板杂交，并使用 T4 DNA连接酶与锚连接。在对连接产物进行成像之后，将连接的锚定探针分子变性。使用新的荧光标记的9-mer探针组将杂交、连接、成像和变性过程重复五次，所述探针在n+1、n+2、n+3和n+4位置含有已知碱基。

另一个测序平台包括纳米孔测序(Oxford Nanopore)。纳米孔检测阵列描述于US2011/0177498、US2011/0229877、US2012/0133354、 WO2012/042226、WO2012/107778，并且如US2012/0058468、 US2012/0064599、US2012/0322679和WO2012/164270中所述已经用于核酸测序，这些专利以引用方式并入本文。可以使用纳米孔直接对单个DNA 分子进行测序，而无需介入PCR扩增步骤或化学标记步骤，也不需要光学仪器来识别化学标记。市售的纳米孔核酸测序单位是由Oxford Nanopore (英国牛津)开发的。GridION^TM系统和小型化的MinION^TM设备旨在提供分子传感方面的新型品质，例如实时数据流，改进的工作流程的简单性、效率和可扩展性以及对关注分子的直接分析。使用Oxford Nanopore纳米孔测序平台，通过设置跨膜的电压，使离子电流通过纳米孔。如果分析物通过孔或在孔的开孔附近，则此事件会产生特征性的电流中断。对该电流的测量使得有可能识别所讨论的分子。例如，该系统可用于区分四个标准DNA碱基G、A、T和C，以及修饰的碱基。它可用于鉴定目标蛋白、小分子或获得丰富的分子信息，例如区分布洛芬的对映异构体或研究分子结合动力学。这些纳米孔阵列可用于特定于每种分析物类型的科学应用；例如，在对DNA进行测序时，该技术可用于重测序、从头测序和表观遗传学。

IV.试剂盒

本文的技术包括用于创建存储信息的核酸分子的文库的试剂盒。“试剂盒”是指物理元件的组合。例如，试剂盒可以包括例如一种或多种组分，诸如特异性引物、酶、反应缓冲液、说明书，以及可用于实施本文所述技术的其他元件。可以以适合于执行本公开的任何方式来布置这些物理元件。

试剂盒的组分可以包装在以水性介质中或以冻干形式包装。试剂盒的容器器件通常将包括至少一个小瓶、试管、烧瓶、瓶子、注射器或其他容器器件，可以将组分放置在其中，并且优选适当地等分放置(例如，等分到微量滴定板的孔中)。如果试剂盒中有多个组分，则试剂盒通常还将含有第二、第三或其他附加容器，可以将附加组分单独放入其中。但是，组分的各种组合可以包含在单个小瓶中。本公开的试剂盒通常还将包括用于容纳核酸的器件，以及密闭地用于商业销售的任何其他试剂容器。这样的容器可以包括将期望的小瓶保留在其中的注射或吹塑的塑料容器。

试剂盒还将包括使用试剂盒组分及试剂盒中未包含的任何其他试剂的使用的说明。说明可以包括可以实现的变体。预期这样的试剂是本公开的试剂盒的实施例。但是，这样的试剂盒不限于以上识别的特定物品。

V.实例

包括以下实例以说明本发明的优选实施例。本领域技术人员应该理解，以下实例中所公开的技术代表发明人发现的在本发明的实践中发挥良好作用的技术，因此可以认为构成其实践的优选方式。然而，鉴于本公开，本领域的技术人员应当理解，在不脱离本发明的精神和范围的情况下，可以对所公开的特定实施例进行许多改变并且仍获得相同或相似的结果。

实例1：在核酸分子中存储信息并擦除和读取其中存储的信息

从寡核苷酸池中选择性扩增DNA。从TWIST Bioscience订购了芯片合成的DNA寡核苷酸池，所述寡核苷酸池含有总共93,894个编码8个单独的位图图像文件的DNA寡核苷酸。所有寡核苷酸的长度为120个核苷酸。收到干燥(冻干)形式的池后，添加1x Tris-EDTA缓冲液，使总浓度为10ng/μL。然后，使用含0.1％Tween-20的MilliQ水将池稀释10,000 倍，以形成次级原料。

从Integrated DNA Technologies订购了用于扩增寡核苷酸不同子池的引物(对应于8个单独的位图图像文件)。正向引物在其5'末端被磷酸化。反向引物在其5'末端具有3个硫代磷酸化DNA碱基。

将5μL的寡核苷酸池次级原料与5μL的正向引物(4μM)、5μL的反向引物(4μM)、25μL的KAPA Hifi酶混合物和10μL的MilliQ水在0.6 mL Eppendorf管中混合。然后使用以下热循环方案通过PCR扩增该50μL 的混合物：(1)95℃持续3分钟，(2)98℃持续20秒，(3)60℃持续15 秒，(4)72℃持续15秒，(5)重复(2)至(4)32次，(6)72℃持续1分钟 (总共33个循环的扩增)。然后按照制造商的说明使用Agencourt AMPure XP珠(90μL，1.8x)纯化50μL扩增子溶液。

随后，将20μL纯化的扩增子溶液与1μL Lambda核酸外切酶(New EnglandBiolabs)、3μL Lambda核酸外切酶反应缓冲液(10x)和6μL MilliQ 水混合。为了消化磷酸化的DNA分子(延伸的正向引物)，而不是硫代磷酸化的DNA分子(延伸的反向引物)，将混合物在37℃下孵育30分钟，然后在75℃下孵育10分钟。然后按照制造商的说明，使用OligoClean& Concentrator试剂盒(Zymo Research)纯化该反应的产物。然后使用Qubit ssDNA测定试剂盒对纯化的产物进行定量。

为了纯化旨在用作信息DNA分子(表1中提供了其实例)的DNA子池的扩增子，添加0.5x相对量的真标记寡核苷酸。为了纯化旨在用作混淆 DNA分子(表2中提供了其实例)的DNA子池的扩增子，添加1.5x相对量的假标记寡核苷酸。将溶液单独进行热退火，然后在室温下混合以形成具有可擦除信息的DNA溶液。

信息擦除方案。将信息DNA分子和混淆DNA分子的混合物加热到 95℃，持续15分钟，然后冷却至室温。

信息读取方案。向4μL信息DNA分子和混淆DNA分子的混合物中，添加2μL Klenow片段DNA聚合酶、1mM dNTP混合物、2μL NEB Buffer 2和10.75μL MilliQ水。然后将混合物在37℃下孵育1小时以延伸真标记。

随后，使用含0.1％Tween-20的MilliQ水将样本稀释10倍。向2.5μL 的稀释混合物中添加12.5μL KAPA Hifi酶混合物、2.5μL正向引物(4 μM)、5μL反向引物混合物(4μM)和2.5μL MilliQ水。使用以下热循环图谱通过PCR扩增该25μL混合物：(1)95℃持续3分钟，(2)98℃持续20 秒，(3)60℃持续15秒，(4)72℃持续15秒，(5)重复(2)至(4)1次，(6) 72℃持续1分钟(总共2个循环的扩增)。

制备NGS。按照制造商的说明使用Nextera XT试剂盒和KAPA Hifi 酶混合物附加索引引物。使用Agencourt AMPure XP珠纯化扩增子，然后使用Qubit dsDNA HS测定试剂盒进行定量，并稀释至Illumina为MiSeq仪器建议的推荐浓度。还使用Bioanalyzer毛细管电泳测测定(Agilent)对纯化的扩增子进行质量控制测定。掺入PhiX DNA溶液以占据所有分子的 20％，与Illumina建议一致。然后使用v3-150循环试剂盒在Illumina Miseq 仪器上运行该最终文库。

表1.用于信息DNA分子的DNA序列实例

表2.用于混淆DNA分子的DNA序列实例

鉴于本公开，可以在不进行过度实验的情况下进行和执行本文所公开和要求保护的所有方法。尽管已经根据优选的实施例描述了本发明的组合物和方法，但是对于本领域技术人员而言将显而易见的是，在不背离本发明的概念、精神和范围的情况下，可以对本文所述的方法以及方法的步骤或所述步骤的顺序施加变化。更具体地，将显而易见的是，化学上和生理上均相关的某些药剂可以代替本文所述的药剂，同时将实现相同或相似的结果。对于本领域的技术人员显而易见的所有此类类似的替代和修改都被认为在由所附权利要求书所限定的本发明的精神、范围和概念内。

参考文献

以下参考文献以提供对本文所述的那些的示例性程序或其他细节补充的程度明确以引用方式并入本文。

美国专利号9,384,320

美国专利号9,774,351

美国专利申请公开号2017/0017436

美国专利申请公开号2015/0261664

欧洲专利申请公开号2947589A1

欧洲专利申请公开号3173961A1

PCT申请公开号WO2016/023784

PCT申请公开号WO2017/153351。

序列表

<110> 威廉马歇莱思大学

<120> 允许快速和永久擦除的基于杂交的 DNA 信息存储

<130> RICE.P0045WO

<140> 尚未分配

<141> 2019-05-23

<150> US 62/675,362

<151> 2018-05-23

<160> 21

<170> PatentIn 3.5 版本

<210> 1

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 1

cgaaagcctg cagaacgttt atttaagtgc agtgcacctc gagtcagtgg agacgtctcg 60

ctacgaggtc gacacacctc cttggtctgg agtcgcaatc gtaaccatag caatccaaac 120

<210> 2

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 2

cgaaagcctg cagaacgttt atttatctgc agtgcagctc gagtccactc tctcgcaagg 60

gttcgcactc ctgtctctgg cttcgagtcg gaacgcaatc gtaaccatag caatccaaac 120

<210> 3

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 3

cgaaagcctg cagaacgttt atttaactgc agtgcagctc tcgtccagtc tgcagaggag 60

gagagctgtc aggtcgtgtc tggagtcacg ctacgcaatc gtaaccatag caatccaaac 120

<210> 4

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 4

cgaaagcctg cagaacgttt atttagatgc agtgcagtgg acctcgactc gtcagtgcag 60

agcagcactc ctgtctgctc ctgagaggag tcgagcaatc gtaaccatag caatccaaac 120

<210> 5

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 5

cgaaagcctg cagaacgttt atttacatgc agtgccttcc actcctgacc gtaggtcagg 60

ctaggcagac tggactcgac acacggttcg tgacgcaatc gtaaccatag caatccaaac 120

<210> 6

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 6

cgaaagcctg cagaacgttt atttaagtgc agtgccaact gtacttcgat gaactcaact 60

aggatacact acgatacgat agactaggat aggatcaaag catagcaaag gaatggaatg 120

<210> 7

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 7

cgaaagcctg cagaacgttt atttatctgc agtgcctact cttcttcgat gtactgttct 60

aggattggat tgacttcgat tggattgact tcgatcaaag catagcaaag gaatggaatg 120

<210> 8

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 8

cgaaagcctg cagaacgttt atttaactgc agtgctgact gttcttcgat agactcttct 60

acgatgaact catcttcgat gaactcatct tcgatcaaag catagcaaag gaatggaatg 120

<210> 9

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 9

cgaaagcctg cagaacgttt atttagatgc agtgcagact acactacgat caactctact 60

ctgatcttct tgacttcgat tcactacact cagatcaaag catagcaaag gaatggaatg 120

<210> 10

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 10

cgaaagcctg cagaacgttt atttacatgc agtgcgaact tgactacgat ctactacact 60

gtgatgaact tcactgtgat ctactcaact agcatcaaag catagcaaag gaatggaatg 120

<210> 11

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 11

cgaaagcctg cagaacgttt atttaagtgc agtgcctctt ctcttctctt ctcttctctt 60

ctcttctctt ctcttctctt ctcttctctt ctcttcaaag gaaacgattc caaacgaaac 120

<210> 12

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 12

cgaaagcctg cagaacgttt atttatctgc agtgcctctt ctcttctctt ctcttctctt 60

ctcttctctt ctcttctctt ctcttctctt ctcttcaaag gaaacgattc caaacgaaac 120

<210> 13

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 13

cgaaagcctg cagaacgttt atttaactgc agtgcctctt ctcttctctt ctcttctctt 60

ctcttctctt ctcttctctt ctcttctctt ctcttcaaag gaaacgattc caaacgaaac 120

<210> 14

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 14

cgaaagcctg cagaacgttt atttagatgc agtgcctctt ctcttctctt ctcttctctt 60

ctcttctctt ctcttctctt ctcttctctt ctcttcaaag gaaacgattc caaacgaaac 120

<210> 15

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 15

cgaaagcctg cagaacgttt atttacatgc agtgcctctt ctcttctctt ctcttctctt 60

ctcttctctt ctcttctctt ctcttctctt ctcttcaaag gaaacgattc caaacgaaac 120

<210> 16

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 16

cgaaagcctg cagaacgttt atttaagtgc agtgctgcta agctacttgt gactatgcta 60

gatgttccta tcctatgagt tgagtgatgt tgtctcatag caaaggtatg caaaggaaag 120

<210> 17

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 17

cgaaagcctg cagaacgttt atttatctgc agtgctggta gactatgagt aggtagtcaa 60

gtctatgcta gtctaacagt tcgtacacaa gactacatag caaaggtatg caaaggaaag 120

<210> 18

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 18

cgaaagcctg cagaacgttt atttaactgc agtgcacgaa gtgtaactgt tcgtagtgta 60

tgagtacgaa acgtatgtgt acgtaacgta catgtcatag caaaggtatg caaaggaaag 120

<210> 19

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 19

cgaaagcctg cagaacgttt atttagatgc agtgcagcaa agtgtcaagt agtgtctagt 60

aggattccaa tgtgtgaagt ctgtaagtgt actctcatag caaaggtatg caaaggaaag 120

<210> 20

<211> 120

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 20

cgaaagcctg cagaacgttt atttacatgc agtgccaagt gaagttgtct agagtagagt 60

ctagtgtagt tcagtctagt caagtcaagt actctcatag caaaggtatg caaaggaaag 120

<210> 21

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工多核苷酸

<400> 21

cgaactagaa ttcccagatc 20

Claims

1.一种组合物，所述组合物包含DNA分子群体，所述群体包含真信息DNA分子、假混淆DNA分子和真标记DNA寡核苷酸，

其中所述真信息DNA分子和所述假混淆DNA分子各自包含与所述真标记DNA寡核苷酸的序列的一部分互补的第一序列，

其中所述真信息DNA分子的所述第一序列与所述真标记DNA寡核苷酸杂交，

其中所述假混淆DNA分子的所述第一序列不与所述真标记DNA寡核苷酸杂交，

其中所述真信息DNA分子和所述假混淆DNA分子各自包含地址区域，

其中每个真信息DNA分子的所述地址区域在所述群体中的所述真信息DNA分子中是唯一的，

其中所述群体中的一个真信息DNA分子和至少一个假信息DNA分子共享相同的地址区域。

2.根据权利要求1所述的组合物，其中所述假混淆DNA分子的所述第一序列是单链的。

3.根据权利要求1所述的组合物，其中所述群体进一步包含假标记DNA寡核苷酸。

4.根据权利要求3所述的组合物，其中所述假标记DNA寡核苷酸的一部分与所述真信息DNA分子和所述假混淆DNA分子两者的所述第一序列至少部分地互补。

5.根据权利要求3所述的组合物，其中所述假标记DNA寡核苷酸和所述真标记DNA寡核苷酸包含不同的序列。

6.根据权利要求3-5中任一项所述的组合物，其中所述假标记DNA寡核苷酸包含化学功能化。

7.根据权利要求3-6中任一项所述的组合物，其中所述假混淆DNA分子的所述第一序列与所述假标记DNA寡核苷酸杂交。

8.根据权利要求3-7中任一项所述的组合物，其中所述假标记DNA寡核苷酸包含防止DNA聚合酶延伸的3'功能化。

9.根据权利要求1-8中任一项所述的组合物，其中所述第一序列的长度介于10个至50个核苷酸之间。

10.根据权利要求1-9中任一项所述的组合物，其中所述真信息DNA分子和所述假混淆DNA分子的长度各自独立地介于50个至2000个核苷酸之间。

11.根据权利要求1-10中任一项所述的组合物，其中所述真信息DNA分子的第一区域朝着所述真信息DNA分子的5'末端定位。

12.根据权利要求1-11中任一项所述的组合物，其中所述真标记DNA寡核苷酸包含不与所述真信息DNA分子互补的引物结合区域。

13.一种在信息DNA分子中编码信息承载文件或混淆文件的方法，所述方法包括：

(a)获得ASCII/十六进制格式的输入文件；

(b)独立地将每个ASCII字符/字节从十六进制的00至FF转换为5个核苷酸的DNA序列；

(c)将代表所述整个输入文件的所述级联DNA序列划分为一组消息序列；

(d)在DNA中提供并编码唯一的地址序列，所述地址序列鉴别每个消息序列在所述DNA序列内的位置；

(e)设计真标记结合区域序列；

(f)通过将所述真标记结合区域序列、所述唯一的地址序列和相应的消息序列从5'级联到3'来构建信息DNA分子序列；以及

(g)化学合成包含所述信息DNA分子序列的信息DNA分子。

14.根据权利要求13所述的方法，其中所述信息承载DNA分子进一步包含位于所述信息DNA分子序列的5'末端和/或3'末端上的一个或多个引物结合区域。

15.根据权利要求13所述的方法，其中所述混淆DNA分子进一步包含位于所述信息DNA分子序列的5'末端和/或3'末端上的一个或多个引物结合区域。

16.根据权利要求13所述的方法，其中步骤(b)包括将每个十六进制字符转换为其二进制的8位表示，然后将每个二进制的8位表示转换为一个2位区域和两个3位区域，其中所述2位区域映射到G、C、A或T，并且其中所述3位区域各自映射到CA、CT、GA、GT、TC、TG、AC或AG。

17.一种信息DNA分子群体，其通过权利要求13-16中任一项所述的方法制备。

18.一种制备编码适于快速擦除的信息的DNA溶液的方法，所述方法包括：

(a)获得根据权利要求13-17中任一项所述的方法制备的编码信息承载文件的信息DNA分子溶液；

(b)使所述信息DNA分子溶液与真标记DNA寡核苷酸分子溶液杂交；

(c)获得至少一种根据权利要求13-17中任一项所述的方法制备的编码混淆文件的混淆DNA分子溶液；以及

(d)将(b)部分的所述杂交溶液与(c)部分的所述至少一种混淆DNA分子溶液组合。

19.根据权利要求18所述的方法，其进一步包括在(d)部分中组合之前，使所述至少一种混淆DNA分子溶液与假标记DNA寡核苷酸分子溶液杂交。

20.根据权利要求18或19所述的方法，其中所述真标记DNA寡核苷酸以摩尔量存在，所述摩尔量小于或等于信息DNA分子的摩尔量。

21.根据权利要求19所述的方法，其中所述假标记DNA寡核苷酸以摩尔量存在，所述摩尔量大于或等于混淆DNA分子的摩尔量。

22.根据权利要求18-21中任一项所述的方法，其中(b)部分的所述杂交包括将所述组合溶液加热至至少70℃，然后将所述组合溶液冷却至50℃或更低。

23.根据权利要求19-22中任一项所述的方法，其中在(d)部分中组合之前，使所述至少一种混淆DNA分子溶液与假标记DNA寡核苷酸分子溶液杂交包括将所述组合溶液加热至至少70℃，然后将所述组合溶液冷却至50℃或更低。

24.一种编码适于快速擦除的信息的DNA溶液，其通过权利要求18-23中任一项所述的方法制备。

25.一种擦除编码在权利要求1-12中任一项所述的DNA溶液中的信息的方法，所述方法包括将所述DNA溶液加热至高温，持续时间不少于15秒。

26.根据权利要求25所述的方法，其中所述高温为大约50℃、55℃、60℃、65℃、70℃、75℃、80℃、85℃、90℃、95℃或100℃。

27.根据权利要求25或26所述的方法，其中所述加热的持续时间为大约15秒、30秒、45秒、1分钟、2分钟、3分钟、5分钟、10分钟、15分钟、20分钟、30分钟或60分钟。

28.一种读取编码在权利要求1-12中任一项所述的DNA溶液中的信息的方法，所述方法包括：

(a)将DNA聚合酶、dNTP和缓冲液添加至所述溶液；

(b)基于杂交的信息DNA分子，在适于真标记的酶促延伸的温度下孵育(a)部分的混合物；

(c)基于(b)部分的聚合酶延伸的真标记，制备下一代测序(NGS)文库；

(d)执行NGS；

(e)分析NGS读取以确定每个地址序列的显性消息序列；以及

(f)从每个地址序列的所述显性消息序列中重组信息承载文件。

29.根据权利要求28所述的方法，其中基于聚合酶延伸的真标记的所述NGS文库的制备包括将测序衔接子与双链DNA分子连接。

30.根据权利要求29所述的方法，其中所述NGS文库制备进一步包括使用测序衔接子的聚合酶链式反应(PCR)扩增。

31.根据权利要求28所述的方法，其中所述基于聚合酶延伸的真标记的所述NGS文库的制备包括包含引物的聚合酶链式反应(PCR)扩增，所述引物包括在5'区域处或附近的测序衔接子和对所述真标记DNA寡核苷酸具有特异性而对所述假标记DNA寡核苷酸没有特异性的序列。

32.根据权利要求29-31中任一项所述的方法，其中所述NGS文库制备进一步包括使用PCR附加样本索引。

33.一种擦除编码在权利要求1-12中任一项所述的DNA溶液中的信息的方法，所述方法包括将所述DNA溶液暴露于高于室温的温度，持续时间不短于包含所述真标记寡核苷酸和所述第一序列的双链体的估计半衰期。

34.根据权利要求33所述的方法，其中所述半衰期计算为