CN117542391A

CN117542391A - 一种数据存储介质及其应用

Info

Publication number: CN117542391A
Application number: CN202210913703.8A
Authority: CN
Inventors: 樊春海; 王飞; 郝亚亚; 李子慕
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2024-02-09
Also published as: WO2024027620A1

Abstract

提供了一种数据存储介质及其应用，也提供了一种核酸分子，所述核酸分子能够结合于具有可寻址信息的载体上，以及所述核酸分子包含的数据信息能够在载体原位进行随机读取与擦写。

Description

一种数据存储介质及其应用

技术领域

本申请涉及数据存储领域，具体的涉及一种数据存储介质及其应用。

背景技术

随着大数据与人工智能技术的兴起，对于海量数据的存储需求也呈现爆炸式的增长，主流的存储介质逐渐难以满足急剧增长的存储需求。脱氧核糖核酸(DNA)作为亿万年自然进化选择出来的碳基生命遗传密码的存储介质，具有极高的存储密度和稳健性。DNA本身所具有的可编码性和高效复制能力，有可能为数据高密度存储和高性能运算提供一种全新策略。DNA存储具有物理稳定性高的优点，不像电子介质会随读取次数而衰退，为数据的长期存储提供了一种根本性解决方案。另外，DNA兼具了信息处理和计算能力，为发展新型的存-算一体架构和系统提供了新的思路。与现有成熟数据存储系统相比，DNA存储系统主要具有单次写入存档功能，而对写入后存储系统内数据的修改能力仍然有很大不足，特别是对存放于DNA存储系统中的任意数据的可寻址修改仍未实现。

例如，已知的非随机读取的存储架构，该方案将待存储数据进行整体性编码和整体性写入，因此数据的读出也需要对体系中的所有序列进行测序，因此也无法对写入后的信息进行可寻址的修改。又例如，已知的具有随机读取模式的DNA存储架构，这一类体系中首先将待写入分割成数据片段，对数据片段进行编码并加入索引序列，然而这一类体系中地址与数据是固定组合，同时信息的读出采用PCR扩增技术，难以实现特定地址下的信息可寻址修改。

因此，本领域急需一种可寻址写入、可寻址修改和/或可寻址读取的DNA存储方法。

发明内容

本申请提供了一种具有完整数据操作能力的DNA存储体系，可以实现数据写入、数据删除、数据修改、数据读出等具有可寻址特性功能，弥补现有DNA存储系统在功能上的不足。例如，本申请实现DNA分子上存储地址和数据的可编程结合和分离。

一方面，本申请提供了一种核酸分子，所述核酸分子能够结合于具有可寻址信息的载体上，以及所述核酸分子包含的数据信息能够在载体原位进行读取。

一方面，本申请提供了一种系统，所述系统包含本申请的核酸分子，以及载体。

一方面，本申请提供了一种数据存储、数据编辑和/或数据读取的方法，所述数据存储方法包含提供本申请的核酸分子和/或本申请的系统，所述数据编辑方法包含替换本申请的核酸分子中存储数据信息，和/或所述数据读取方法包含确定本申请的核酸分子中存储数据信息。

一方面，本申请提供了一种存储介质，所述介质包含本申请的方法。

一方面，本申请提供了一种设备，所述设备包含本申请的储存介质，以及耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现本申请的方法。

与现有技术相比，本申请至少具有如下特点：基于DNA组装技术，具有纳米尺度的可寻址性，是目前的DNA存储体系所不具备的；利用这种纳米可寻址性，可将DNA存储的面密度提升到1比特/平方纳米，超越现有无机存储架构以及DNA存储架构；基于DNA折纸表面的可控动态组装，实现了全功能的存储体系，包括数据的读写、修改等操作；读出过程采用原位转录成RNA分子，利用转录产物进行测序的方案，不改变原有存储系统，实现了非破坏性的DNA数据读出。例如，本申请的方法以及数据载体可以具有多次读写、多次读取的效果。例如，本申请的数据系统在多次读取之后，所述数据系统的结构基本不发生变化。例如，本申请的数据载体的地址信息的精确度、特异度较高，可以实现更高的区分水平。例如，本申请的方法以及数据系统可以在室温、或者约42摄氏度条件下实现数据信息的读取。

本领域技术人员能够从下文的详细描述中容易地洞察到本申请的其它方面和优势。下文的详细描述中仅显示和描述了本申请的示例性实施方式。如本领域技术人员将认识到的，本申请的内容使得本领域技术人员能够对所公开的具体实施方式进行改动而不脱离本申请所涉及发明的精神和范围。相应地，本申请的附图和说明书中的描述仅仅是示例性的，而非为限制性的。

附图说明

本申请所涉及的发明的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及发明的特点和优势。对附图简要说明如下：

图1显示的是本申请的数据存储介质的示例性操作流程。例如，存储数据可用于一切数据形式，包括但不限于汉字；存储容量基于数据序列的长度可以无限拓展，包括但不限于16bits/位点或120bits/位点；对于数据的读取可以使用本领域已知的测序技术，包括但不限于高通量原位测序、转录-RNA测序以及转录-反转录-扩增-DNA测序。

图2显示的是本申请数据链的示例性结构组成，其中引物1和引物2的设计只是为了更简便地验证选择性擦写与读取的可行性，该部分可换做实际存储信息，进一步增加存储容量。

图3显示的是本申请的数据存储介质的选择性读取和可逆擦写的示例性流程。

具体实施方式

以下由特定的具体实施例说明本申请发明的实施方式，熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请发明的其他优点及效果。

术语定义

在本申请中，术语“可寻址性”通常是指将特定信息与存储介质上的位置相关联。例如，为了选择性访问、读取、和/或修改特定位置的信息，需要数据载体具有可寻址性。例如，信息载体在记录数据信息时，可以同时记载不同数据信息对应的基本上唯一对应的索引信息(地址)。例如，通过数据载体的物理位置、空间位置等等形式，记载了特定数据信息的地址信息。例如，当数据载体具有可寻址性时，对于期望访问、读取、和/或修改的信息可以选择性访问，而可以不需要逐一访问。

在本申请中，术语“核酸分子”、“核酸序列”、和“核酸片段”可互换使用，通常是指具有各种长度的脱氧核糖核苷酸或核糖核苷酸、或者其类似物。示例性的核苷酸包括脱氧核糖核苷酸(DNA)或核糖核苷酸(RNA)、或者非标准的核苷酸、核苷酸类似物和/或经修饰的核苷酸。

在本申请中，术语“载体”通常是指能够装载核酸分子的物质。例如，所述载体可以包含核酸纳米结构，核酸纳米结构(也称为纳米结构)可以是由核酸(例如DNA、RNA、锁核酸(LNA)、肽核酸(PNA)或其任何组合)制成的二维或三维纳米结构。例如，单链核酸或双链核酸(例如仅具有螺旋结构)可以不被认为是“纳米结构”。在一些实施方案中，核酸纳米结构充当用于形成更复杂的结构例如分子复合物的支架。在一些实施方案中，核酸纳米结构是使用DNA折纸方法组装的DNA折纸结构。例如，核酸折纸纳米结构可以指通过将两个或更多个“订书钉链”与一个或多个“支架”链组装成规定形状而形成的核酸纳米结构。订书钉链通常是短的(例如50个核苷酸或更短的)核酸链(单链核酸)；支架链通常是更长的(例如，长于200个核苷酸)核酸链(单链核酸)。核酸折纸纳米结构可以是DNA折纸纳米结构。

DNA折纸纳米结构可以折叠(例如通过自组装)成离散且唯一的几何图案，例如二维(2D)和三维(3D)形状，其可以进一步自组装以创建包含两个或更多个离散折纸纳米结构的更大的纳米结构或微结构。在一些实施方案中，支架链具有衍生自M13噬菌体的序列。可以使用其他支架链。在一些实施方案中，订书钉链是荧光团标记的订书钉链。在一些实施方案中，订书钉链的长度是4至30个核苷酸(例如4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸)。在一些实施方案中，例如在室温，订书钉链与支架链稳定地结合(长于10秒)。在一些实施方案中，例如在室温，订书钉链与支架链稳定地结合(长于一星期)。在一些实施方案中，订书钉链的长度大于30个核苷酸。

在本申请中，术语“原位”通常是指在原来的位置进行的操作。例如，原位读取是指记录数据的核酸分子在载体原有的位置进行数据的读取，而不需要将所述核酸分子先释放到溶液中再进行数据的读取。术语“扩增”通常是指包括经由引发的酶促合成的重复循环生产核酸分子的拷贝。本申请的读取步骤可以包含聚合步骤，该聚合包含但不限于聚合酶链反应(PCR)、转录为RNA等等，例如还包含本领域技术人员已知的任何其他核酸扩增和/或转录的技术。

本申请中，术语“互补的”或“互补性”通常是指核酸通过传统的Watson-Crick或其它非传统类型与另一核酸序列形成氢键的能力。例如，序列A-G-T与序列T-C-A互补。互补性百分比指示可以与第二核酸序列形成氢键(例如，Watson-Crick碱基配对)的核酸分子中的残基百分比(例如，十分之5、6、7、8、9、10分别为50％、60％、70％、80％、90％以及100％互补)。例如，“完全互补”是指核酸序列的所有连续残基将与第二核酸序列中相同数目的连续残基氢键键合。例如，“基本上互补”是指在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50或更多个核苷酸的区域内，或指在严格条件(即严格杂交条件)下杂交的两个核酸至少有60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％的互补性程度。例如，“结合”通常是指例如以序列特异性方式唯一地与特定物类结合的物类。

在本申请中，术语“包含”通常是指包括明确指定的特征，但不排除其他要素。

在本申请中，术语“约”通常是指在指定数值以上或以下0.5％-10％的范围内变动，例如在指定数值以上或以下0.5％、1％、1.5％、2％、2.5％、3％、3.5％、4％、4.5％、5％、5.5％、6％、6.5％、7％、7.5％、8％、8.5％、9％、9.5％、或10％的范围内变动。

发明详述

一方面，本申请提供了一种核酸分子，所述核酸分子能够结合于具有可寻址信息的载体上，以及所述核酸分子可以包含的数据信息能够在载体原位进行随机读取与擦写。例如，本申请提供的核酸分子可以作为数据链，该数据链可以基于碱基互补原理结合于载体的特定位置，结合动态DNA组装技术，可以实现存储地址和数据的可编程结合和分离。例如，在所述数据信息进行读取时，可以不改变原有存储系统，实现了非破坏性的数据读出。例如，在读取所述核酸分子中记载的数据信息时，所述核酸分子可以不需要先从所述载体上释放，实现对所需读取信息的原位随机读取。

例如，所述载体上物理位置不同的地址序列具有不同的序列，所述核酸分子可以包含地址互补序列，且所述地址互补序列与所述载体上的所述地址序列互补。例如，所述地址互补序列可以为地址识别序列，所述地址互补序列可以识别以及特异性结合载体上的地址序列。例如，可以通过载体上的不同物理位置的地址序列记载地址信息。例如，载体上可以具有2个或更多个坐标点。例如，不同坐标点表示不同的物理位置。例如，特定坐标点可以由DNA折纸中的特定位置的订书钉链定位。例如，不同坐标点延伸出具有独特序列组成的地址序列。例如，本申请的地址序列可以为线性单链或者分支链的结构。例如，特定物理位置的地址序列由于具有独特序列，因此能够用于记载索引信息，当具有基本上唯一互补的地址互补序列(由特定数据链包含该地址互补序列)与所述地址序列结合时，所述数据信息可以与所述地址信息结合。在一些实施方案中，例如在室温，数据链与地址链稳定地结合(例如长于10秒)。在一些实施方案中，例如在低温(约4摄氏度)，数据链与地址链稳定地结合(例如长于10秒)。

在一些实施方案中，例如以干粉状态保存于抑菌、抗氧、抗高温的板子上，数据链与地址链稳定地结合(例如长于10秒)。

例如，所述地址互补序列的长度为约15个或更多个核苷酸。例如，本申请的地址互补序列可以为线性单链或者分支链的结构。例如，地址互补序列的长度可以为约10个或更多个、约11个或更多个、约12个或更多个、约13个或更多个、约14个或更多个、约15个或更多个、约16个或更多个、约17个或更多个、约18个或更多个、约19个或更多个、约20个或更多个、约25个或更多个、约30个或更多个、约40个或更多个、约50个或更多个、或约100个或更多个核苷酸。例如，所述核苷酸可以包含天然核苷酸和/或具有人工修饰的核苷酸，例如包含但不限于甲基修饰、氨基修饰、氟代修饰等等。

例如，所述核酸分子还可以包含擦写功能序列，所述擦写功能序列位于所述地址互补序列的上游和/或下游，且所述擦写功能序列与所述载体上的所述地址序列基本不互补。例如，所述擦写功能序列也可以称为擦写功能区。例如，所述擦写功能序列位于所述地址互补序列的上游和/或下游。例如，所述擦写功能序列与所述地址互补序列共同组成的序列可以不完全与载体上的地址序列互补。例如，示例性的地址互补序列可以为20个核苷酸，擦写功能序列可以为10个核苷酸，载体上的地址序列可以仅与地址互补序列的20个核苷酸互补，而可以不与所述擦写功能序列与所述地址互补序列共同组成30个核苷酸完全互补。例如，因此可以引入一种结合能力更高的链(例如本申请的擦写链)，以使得数据链的核酸序列可以从所述载体的特定位置移除(擦除)。

例如，当擦写链存在时，所述核酸分子能够不与所述载体结合，且所述擦写链同时与所述地址链以及所述擦写功能序列互补。例如，在室温中，本申请核酸分子(数据链)能够与所述擦写链具有更强的结合能力。例如，相比于与载体上的地址序列结合，所述数据链可以与所述擦写链具有更多和/或更强的结合碱基。

例如，为了实现可寻址的擦除和写入，所述核酸分子(数据链)的地址互补序列、所述载体的特定位置对应的地址序列、特定对应的擦写链的序列可以通过设计特定碱基顺序的序列，具有独特的互补匹配方式。例如，载体的特定位置的地址序列与特定核酸分子(数据链)的地址互补序列唯一互补，以实现可寻址的写入。例如，载体的特定位置的上结合的特定核酸分子(数据链)的地址互补序列与特定对应的擦写链的序列唯一互补，以实现可寻址的擦除。

例如，所述核酸分子可以包含数据序列，且在所述核酸分子与所述载体基本上不分离的状态下，所述数据序列中的数据信息可以被读取。例如，所述核酸分子(数据链)在所存储的原位，可以实现数据信息的读取。例如，读取的方式包含但不限于原位测序、原位转录为其它核酸分子用于读取信息、原位读取为其它核酸分子用于读取信息等等。例如，本申请中将核酸分子(数据链)存储的信息导出可以认为是读取。例如，将导出的(例如转录出的/扩增出的)其它核酸分子进行测序，可以认为是后续任选地额外的读取步骤。

例如，所述数据序列的长度为约1个或更多个核苷酸。例如，本申请的数据序列可以为线性单链或者分支链的结构。例如，数据序列的长度可以为约1个或更多个、约2个或更多个、约3个或更多个、约4个或更多个、约5个或更多个、约6个或更多个、约7个或更多个、约8个或更多个、约9个或更多个、约10个或更多个、约15个或更多个、约20个或更多个、约30个或更多个、约40个或更多个、约50个或更多个、约100个或更多个、约120个或更多个、约150个或更多个、约200个或更多个、约500个或更多个、约700个或更多个、或者约1000个或更多个。例如，本申请的存储方式对于任意长度的数据序列可以具有兼容性。

例如，所述核酸分子可以包含读取引发序列，所述读取引发序列能够引发所述数据序列读取为待测序链，且所述待测序链与所述数据序列互补。例如，所述核酸分子可以包含读取引发序列，所述读取引发序列可以引发所述数据序列被读取。例如，本申请的读取引发序列可以为启动子，如包含但不限于T7启动子。例如，本申请的存储方式对于任意长度和种类的读取引发序列可以具有兼容性，所述读取引发序列具有的特定的序列可以用于本领域已知的聚合酶的结合和聚合起始。

例如，本申请的核酸分子(数据链)可以具有选择性读取的功能。例如，所述选择性读取可以通过引入阻碍链实现，所述阻碍链的阻碍序列与所述读取引发序列互补。例如，当阻碍链存在时，所述数据序列能够不被读取，所述阻碍链可以包含阻碍序列，且所述阻碍链的阻碍序列与所述读取引发序列部分或完全互补。例如，所述阻碍链的阻碍序列，与所述读取引发序列以及所述读取引发序列上游/下游约5个核苷酸长度的区间互补。例如，阻碍序列长度为22个核苷酸，其中17个核苷酸与所述读取引发序列互补，另外5个核苷酸与所述读取引发序列上游/下游约5个核苷酸长度的区间互补。例如，相比于T7启动子与数据链结合，所述阻碍链与数据链的结合能力更高。例如，本申请的阻碍链可以与所述核酸分子(数据链)的读取引发序列、数据链或者任意能够阻碍将核酸分子(数据链)存储的信息导出的位置结合。

例如，所述阻碍链还可以包含阻碍延伸序列，所述阻碍延伸序列位于所述阻碍序列的上游和/或下游，所述阻碍延伸序列与所述核酸分子基本不互补。例如，所述阻碍链具有阻碍序列与阻碍延伸序列，当阻碍链与所述核酸分子(数据链)结合时，所述阻碍延伸序列基本不与所述核酸分子(数据链)结合，例如形成悬垂结构。例如，所述阻碍延伸序列长度可以为约8个核苷酸。例如，所述阻碍延伸序列可以作为杠杆，通过提高钥匙链与阻碍链的结合能力，以使得钥匙链将阻碍链从数据链上移除。

例如，当钥匙链存在时，所述阻碍链能够不与所述核酸分子结合，所述钥匙链同时与所述阻碍序列以及所述阻碍延伸序列互补。例如，在退火过程中，本申请钥匙链能够与所述阻碍链具有更强的结合能力。例如，相比于与核酸分子(数据链)上与阻碍链结合的序列，所述钥匙链可以与所述阻碍链具有更多和/或更强的结合碱基。

例如，为了实现可寻址的读取，所述核酸分子(数据链)的被用于封闭读取的序列、特定对应的阻碍链的阻碍序列、特定对应的钥匙链的序列可以通过设计特定碱基顺序的序列，具有独特的互补匹配方式。例如，核酸分子(数据链)的被用于封闭读取的序列与特定对应的阻碍链的阻碍序列唯一互补，以实现可寻址的锁定读取。例如，特定对应的钥匙链的序列与特定对应的阻碍链的阻碍序列的序列唯一互补，以实现可寻址的解锁(激活)读取。例如，特定核酸分子(数据链)处于锁定读取状态时，所述特定核酸分子(数据链)的数据序列可以基本上不被读取、转录和/或扩增。例如，特定核酸分子(数据链)处于解锁(激活)读取状态时，所述特定核酸分子(数据链)的数据序列可以被读取、转录和/或扩增。

例如，所述载体可以包含DNA折纸基板，所述DNA折纸的订书钉链可以包含具有可寻址信息的地址序列。例如，载体上可以具有2个或更多个坐标点。例如，不同坐标点表示不同的物理位置。例如，特定坐标点可以由DNA折纸中的特定位置的订书钉链定位。例如，不同坐标点延伸出具有独特序列组成的地址序列。例如，特定物理位置的地址序列由于具有独特序列，因此能够用于记载索引信息，当具有基本上唯一互补的地址互补序列(由特定数据链包含该地址互补序列)与所述地址序列结合时，所述数据信息可以与所述地址信息结合。例如，2个或更多个所述订书钉链的间隔为约6纳米或更大。例如，相邻的所述订书钉链的间隔为约6纳米或更大、约7纳米或更大、约8纳米或更大、约9纳米或更大、约10纳米或更大、约15纳米或更大、约20纳米或更大、约25纳米或更大、或约30纳米或更大。

一种系统，所述系统可以包含本申请的核酸分子，以及载体。例如，所述系统还可以包含本申请的擦写链、本申请的阻碍链和/或本申请的钥匙链。

一种数据存储的方法，所述数据存储方法可以包含提供本申请的核酸分子和/或本申请的系统。一种数据编辑和/或数据读取方法，所述数据编辑方法可以包含替换本申请的核酸分子中存储数据信息。一种数据读取的方法，所述数据读取方法可以包含确定本申请的核酸分子中存储数据信息。

例如，所述方法还可以包含提供载体，所述载体可以包含DNA折纸基板，所述DNA折纸的订书钉链可以包含具有可寻址信息的地址序列，且所述方法可以包含提供摩尔比为约2:1或更高的所述核酸分子与所述地址序列。例如，所述方法可以包含提供摩尔比为约2:1或更高、约2.1:1或更高、约2.2:1或更高、约2.3:1或更高、约2.4:1或更高、约2.5:1或更高、约3:1或更高、约4:1或更高、约5:1或更高、约10:1或更高、约20:1或更高、约50:1或更高、或约100:1或更高的所述核酸分子与所述地址序列。例如选择合适的摩尔比可以提高数据链的存储成功率。例如选择合适的摩尔比可以提高数据链的存储性价比。

例如，所述方法还可以包含提供本申请的擦写链，在室温中，特定物理位置的所述核酸分子与所述擦写链结合，且所述核酸分子基本不与所述载体结合。术语“室温”以及“环境温度”通常是指一个在约16摄氏度和约40摄氏度之间的温度。例如，约16摄氏度至约25摄氏度之间的温度。例如，约25摄氏度。

例如，所述方法还可以包含提供本申请的阻碍链，所述阻碍链与所述核酸分子结合，且所述核酸分子的数据信息基本不能够被读取。例如，所述方法还可以包含提供本申请的钥匙链，在加热以及降温过程中，特定物理位置的核酸分子所结合的所述阻碍链与所述钥匙链结合，且所述阻碍链基本不与所述核酸分子结合。例如，本申请的加热以及降温过程包含使核酸退火的过程。例如，使本申请的核酸分子部分双链分开(例如加热)，再恢复为部分双链结构(例如降温)的过程，可以为核酸退火过程。例如，约95度加热约3分钟，然后以每分钟约1.2度的速度降温到室温的过程，可以为核酸退火过程。

另一方面，本申请提供一种储存介质，其记载可以运行本申请的方法的程序。

另一方面，本申请提供一种设备，其可以包含本申请的储存介质。另一方面，本申请提供了一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行以实现本申请所述的任一种或多种的方法。例如，所述非易失性计算机可读存储介质可以包括软盘、柔性盘、硬盘、固态存储(SSS)(例如固态驱动(SSD))、固态卡(SSC)、固态模块(SSM))、企业级闪存驱动、磁带或任何其他非临时性磁介质等。非易失性计算机可读存储介质还可以包括打孔卡、纸带、光标片(或任何其他具有孔型图案或其他光学可识别标记的物理介质)、压缩盘只读存储器(CD-ROM)、可重写式光盘(CD-RW)、数字通用光盘(DVD)、蓝光光盘(BD)和/或任何其他非临时性光学介质。

例如，本申请的设备还可以包含耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现本申请的方法。例如，所述设备可以实现各种机制以便确保在数据库系统上执行的本申请所述的方法产生正确的结果。在本申请中，所述设备可以使用磁盘作为永久性数据存储器。在本申请中，所述设备可以为多个数据库客户端提供数据库存储和处理服务。所述设备可以跨多个共享存储设备存储数据库数据，和/或可以利用具有多个执行节点的一个或更多个执行平台。所述设备可以被组织成使得存储和计算资源可以被有效地无限扩展。

不欲被任何理论所限，下文中的实施例仅仅是为了阐释本申请的产品、制备方法和用途等，而不用于限制本申请发明的范围。

实施例

实施例1

纳米可寻址DNA平台的设计和组装

例如，示例性的存储整体流程可以如图1所示，示例性的数据链结构可以如图2所示，数据的选择性读取与可逆擦写可以如图3所示。折纸表面的地址以DNA序列的形式表示，通过设计长度为，例如15或更长碱基的正交序列库，以保证数据链可以以稳定杂交的方式存储于特定的地址。以单层矩形DNA折纸为模板，通过对其订书钉链的设计，将地址序列从折纸表面的对应位点延伸。经过地址设计的订书钉链组合与骨架链混合，通过退火组装形成可寻址的空白DNA存储平台。DNA折纸组装过程参考本领域已知的DNA折纸组装技术。

对应地址的数据编码

将待写入数据分割成与单个地址容量相匹配的片段，加上例如T7启动子序列和地址互补序列等等，形成待写入的数据链序列，通过化学合成得到数据链。

纳米可寻址的全功能DNA存储系统的数据操作，主要步骤如下：

数据写入。利用DNA互补配对原则，加入数据链使其结合在特定地址处。

数据擦除。加入特定地址的擦除操作DNA链(Erase链，或者擦写链)，通过DNA链取代反应，结合该处的数据链，使该地址恢复到未被写入的状态。

数据修改。通过先擦除原有数据，再写入新数据实现。

数据读出。加入对应于特定地址的激活链(或者钥匙链)，激活该地址的转录功能，在T7RNA聚合酶的作用下，转录该地址的数据成RNA链，未被激活的地址不具有转录能力。通过收集获得的RNA链进行后续测序，从而实现可寻址的数据读取。

实施例2

示例性存储系统制备方法

一种纳米可寻址的全功能DNA存储系统的制备：

纳米可寻址DNA平台的设计过程如下：

(1)DNA折纸骨架链采用M13mp18单链，根据目标模板形状(二维矩形结构)得到订书钉链组合。示例性的方式可以是，可选地根据七段式寻址结构的形状信息标记订书钉链与地址编号的对应关系。随机生成并筛选出七段长度为20个碱基的正交地址序列，将对应于地址1-7的订书钉链序列分别延伸，延伸序列为设计的地址序列，从而获得用于组装可寻址DNA平台的订书钉链组合。

(2)可开关的数据链采用部分互补配对的双链结构。单个汉字转换为二进制编码，然后使用循环编码算法编码为10个碱基的序列。完整的数据链由地址互补序列、擦写功能区、T7启动子序列、数据序列(含一对引物)连接而成(图2)。封闭链包含T7启动子的17个碱基及下游5个碱基的互补序列以及一段8个碱基的对应于地址的悬挂序列(称为toehold)。

纳米可寻址平台的结构组装过程如下：

(1)M13单链与可寻址的订书钉链混合于1×TAE-Mg²⁺溶液中，终浓度骨架链10nM，订书钉链50nM。

(2)于PCR仪中进行退火组装，退火程序为：95度保温3分钟，然后以每分钟1度的速度降温，到25度。最后保持在4度。

(3)获得的组装产物使用PEG沉淀方式纯化，获得约20nM的纯净组装结构作为信息存储的基板。仅为了可视化展示效果，获得的DNA结构可以使用原子力显微镜(AFM)表征。

(4)数据链和对应的封闭链在1×TAE-Mg²⁺溶液中混合，终浓度10μM。PCR仪中退火杂交。杂交产物使用10％聚丙烯酰胺凝胶电泳(PAGE)表征。

示例性的纳米可寻址的全功能DNA存储系统的数据操作方法

数据的写入和读出：

(1)向10nM DNA折纸中加入，例如约100nM 1-7数据链，室温杂交1小时，进行完全的可寻址信息写入。此时折纸表面呈现“8”形状。使用AFM对数据写入成功率进行表征。加入1-7数据链的部分组合，在折纸表面形成“0-9”形状，任选地通过AFM形貌表征来可视化验证该平台数据写入的稳健性。结果显示，目标写入位置的数据链在AFM表征结果中可以可视化验证。

(2)向数据1-7的溶液中分别加入数据1-7的激活链，室温反应1小时后加入完整的T7启动子链，室温反应1小时。加入T7转录混合液，42℃水浴锅中反应1小时。PAGE表征激活后转录的可行性和可寻址读出的正交性。通过例如读出激活的正交性的PAGE数据统计得到的结果显示，只有激活链与数据链的序列匹配时，数据才可被读出。

(3)转录获得的RNA分子使用逆转录试剂盒进行逆转录得到对应的DNA链，对获得的DNA链利用荧光定量PCR进行定量，确认数据的读出。

(4)读出的数据使用二代测序仪进行测序，对测序结果进行解码。对七个地址数据读出后序列进行二代测序的结果显示每个地址测序得到的序列信息均与写入的信息完全一致。

数据的可寻址擦除和修改：

(1)数据完全写入后加入与特定位置的数据链能够互补的擦除链，室温孵育1小时，擦除对应数据，通过超分辨荧光显微镜表征到目标数据链可以被擦除，进一步加入更多与特定位置的数据链能够互补的擦除链，进行反应和表征，得到目标数据链被进一步擦除的结果。

(2)加入数据链1，室温孵育1小时，重新在地址1处写入数据，得到实现数据链加入的结果。通过超分辨荧光显微镜成像结果，结果显示可寻址数据擦写的过程中，该过程每一步的荧光成像结构表征结果均与目标擦除和写入位置对应。

(3)可以示例性地检测重复写入能力，将DNA折纸固定于磁珠表面，对待写入地址的两种数据分别进行Alexa488和Cy5荧光标记。加入Alexa488标记的数据链，使用荧光分光光度计测试写入后上清液中残存的数据链浓度，进行擦除操作，测试擦除效率。擦除并写入Cy5标记的数据链，测试写入效率，进行擦除，测试擦除效率。重复5次以上，测定体系的可寻址反复擦写能力。结果显示经过反复擦除和写入，得到的荧光测试结果可以与预期的擦除写入结果对应。

前述详细说明是以解释和举例的方式提供的，并非要限制所附权利要求的范围。目前本申请所列举的实施方式的多种变化对本领域普通技术人员来说是显而易见的，且保留在所附的权利要求和其等同方案的范围内。

Claims

1.一种核酸分子，所述核酸分子能够结合于具有可寻址信息的载体上，以及所述核酸分子包含的数据信息能够在载体原位进行读取。

2.如权利要求1所述的核酸分子，所述载体上物理位置不同的地址序列具有不同的序列，所述核酸分子包含地址互补序列，且所述地址互补序列与所述载体上的所述地址序列互补。

3.如权利要求2所述的核酸分子，所述地址互补序列的长度为约15个或更多个核苷酸。

4.如权利要求2-3中任一项所述的核酸分子，所述核酸分子还包含擦写功能序列，所述擦写功能序列位于所述地址互补序列的上游和/或下游，且所述擦写功能序列与所述载体上的所述地址序列基本不互补。

5.如权利要求4所述的核酸分子，当擦写链存在时，所述核酸分子能够不与所述载体结合，且所述擦写链同时与所述地址互补序列以及所述擦写功能序列互补。

6.如权利要求1-5中任一项所述的核酸分子，所述核酸分子包含数据序列，且在所述核酸分子与所述载体基本上不分离的状态下，所述数据序列中的数据信息可以被读取。

7.如权利要求6所述的核酸分子，所述数据序列的长度为约1个或更多个核苷酸。

8.如权利要求6-7中任一项所述的核酸分子，所述核酸分子包含读取引发序列，所述读取引发序列能够引发所述数据序列读取为待测序链，且所述待测序链与所述数据序列互补。

9.如权利要求6-8中任一项所述的核酸分子，当阻碍链存在时，所述数据序列能够不被读取，所述阻碍链包含阻碍序列，且所述阻碍链的阻碍序列与所述读取引发序列互补。

10.如权利要求9所述的核酸分子，所述阻碍链还包含阻碍延伸序列，所述阻碍延伸序列位于所述阻碍序列的上游和/或下游，所述阻碍延伸序列与所述核酸分子基本不互补。

11.如权利要求10所述的核酸分子，当钥匙链存在时，所述阻碍链能够不与所述核酸分子结合，所述钥匙链同时与所述阻碍序列以及所述阻碍延伸序列互补。

12.如权利要求1-11中任一项所述的核酸分子，所述载体包含DNA折纸基板，所述DNA折纸的订书钉链包含具有可寻址信息的地址序列。

13.如权利要求12所述的核酸分子，2个或更多个所述订书钉链的间隔为约6纳米或更大。

14.一种系统，所述系统包含权利要求1-13中任一项所述的核酸分子，以及载体。

15.如权利要求14所述的系统，所述系统还包含擦写链、阻碍链和/或钥匙链，其中所述擦写链同时与所述地址互补序列以及所述擦写功能序列互补；所述阻碍链包含阻碍序列，且所述阻碍链的阻碍序列与所述读取引发序列互补；所述钥匙链同时与所述阻碍序列以及所述阻碍延伸序列互补。

16.一种数据存储、数据编辑和/或数据读取的方法，所述数据存储方法包含提供权利要求1-13中任一项所述的核酸分子和/或权利要求14-15中任一项所述的系统，所述数据编辑方法包含替换权利要求1-13中任一项所述的核酸分子中存储数据信息，和/或所述数据读取方法包含确定权利要求1-13中任一项所述的核酸分子中存储数据信息。

17.如权利要求16所述的方法，所述方法还包含提供载体，所述载体包含DNA折纸基板，所述DNA折纸的订书钉链包含具有可寻址信息的地址序列，且所述方法包含提供摩尔比为约2:1或更高的所述核酸分子与所述地址序列。

18.如权利要求16-17中任一项所述的方法，所述方法还包含提供擦写链，在室温中，特定物理位置的所述核酸分子与所述擦写链结合，且所述核酸分子基本不与所述载体结合。

19.如权利要求16-18中任一项所述的方法，所述方法还包含提供阻碍链，所述阻碍链与所述核酸分子结合，且所述核酸分子的数据信息基本不能够被读取。

20.如权利要求19所述的方法，所述方法还包含提供钥匙链，在室温中，特定物理位置的核酸分子所结合的所述阻碍链与所述钥匙链结合，且所述阻碍链基本不与所述核酸分子结合。

21.一种存储介质，所述介质包含权利要求16-20中任一项所述的方法。

22.一种设备，所述设备包含权利要求21所述的储存介质，以及耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现权利要求16-20中任一项所述的方法。