CN114898806A

CN114898806A - 一种dna活字写入系统及方法

Info

Publication number: CN114898806A
Application number: CN202210576140.8A
Authority: CN
Inventors: 元英进; 宋理富; 巩子祎; 李炳志
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-12

Abstract

本申请公开一种DNA活字数据写入系统及方法，该系统包括DNA活字库，用于存储多个预合成片段，每个预合成片段包括存储区域模块、辅助臂和用于组装前后两个预合成片段的组装接头，存储区域模块存储的不同数据信息对应不同的DNA序列类别，辅助臂用于延长预合成片段的长度；编码模块，用于将待存储数据转换为DNA序列，将DNA序列拆分成多个预合成片段中所含的信息序列；定位筛选装置，用于根据多个预合成片段中所含的信息序列，在DNA活字库中筛选相应内容的预合成片段；高通量拼接模块，用于根据酶切连接的组装方式将筛选出的预合成片段拼接成存储单元。该系统依托预合成片段的组装，可实现任意类型数据的存储写入，具有良好普适性。

Description

一种DNA活字写入系统及方法

技术领域

本申请涉及DNA存储领域，尤其涉及一种DNA活字写入系统及方法。

背景技术

随着信息时代的到来，全球数字信息呈指数级增长，然而硅基存储介质的存储密度及稳定性已接近其理论极限。随着合成生物学的发展，DNA存储技术应运而生，其具有着存储密度高、维护成本低、保存时间长等显著优点。因此，DNA存储技术成为可解决全球存储危机的最有前景的技术。

而现阶段DNA存储技术的写入依赖于DNA合成技术，即将存储的原始文件中提取的二进制信息经编码转换为碱基序列，随着碱基的合成，将数据写入DNA分子。现阶段DNA合成采用的合成方法有柱式合成和基于微芯片合成两种。柱式合成的成本为0.05-0.15美元/碱基，成本高昂，且合成通量低，无法满足信息时代大规模合成DNA的要求。基于微芯片的合成成本为0.001-0.00001美元，虽比柱式合成成本降低了2-4个数量级，但面对大型数据文件存储时，其成本依旧高昂，且基于微芯片的不均匀性与边缘效应，会导致更多的合成错误的出现。

依赖于DNA合成技术的DNA存储技术存在写入过程成本高昂，周期长，无法实现高通量及高保真性的兼容等问题，使得DNA合成技术的发展成为制约DNA存储技术应用前景的关键影响因素。

发明内容

本发明基于上述问题，提出一种不依赖于DNA合成的存储系统及方法，以预合成的DNA片段作为基本写入单元，无需编码DNA的从头合成，可以实现数据的快速写入，消除DNA合成问题对DNA数据写入的限制。

本发明一方面提供了一种DNA合成的存储系统，该系统包括：DNA活字库、编码模块、定位筛选装置、高通量拼接模块。

DNA活字库，用于存储多个预合成片段，其中，每个预合成片段包括存储区域模块、辅助臂和用于组装前后两个预合成片段的组装接头，其中，存储区域模块存储的不同数据信息对应不同的DNA序列，辅助臂用于延长预合成片段的长度。

编码模块，用于将待存储数据转换为DNA序列，将该DNA序列拆分成多个预合成片段中所含的信息序列。

定位筛选装置，用于根据所述多个预合成片段中所含的信息序列，在所述DNA活字库中筛选出相应内容的预合成片段。

高通量拼接模块，用于根据酶切连接的组装方式将筛选出的预合成片段拼接成存储单元。

优选地，预合成片段初次合成后，作为活字模板重复使用。该活字模板用于批量制备所述预合成片段。

优选地，该高通量拼接模块进一步用于对存储单元进行测序，以读取该存储单元中的数据。

优选地，辅助臂是内容随机生成的固定序列或分布在预合成片段中的多个短序列。辅助臂用于延长片段长度避免DNA链的解离。

优选地，存储区域模块位于辅助臂之前、辅助臂之后或辅助臂的中间。

优选地，预合成片段的存储区域模块包括纠错编码字段，该纠错编码字段用于在读取过程中恢复发生错误的数据。

优选地，高通量拼接模块，具体用于利用T₄连接酶将筛选出的预合成片段拼接成存储单元。利用T₄连接酶来实现片段间的组装，本系统可于多个不同温度的条件下均可完成片段间的快速拼接工作。

本发明另一方面提供一种DNA存储的方法，该方法包括：

构建DNA活字库，DNA活字库用于存放多个预合成片段，其中，每个预合成片段包括存储区域模块、辅助臂和用于组装前后两个预合成片段的组装接头，其中，辅助臂用于延长预合成片段的长度，存储区域模块存储的不同数据信息对应不同的DNA序列类别；

将待存储数据转换为DNA序列，将该DNA序列拆分成多个预合成片段所含的信息序列；

根据多个预合成片段所含的信息序列，在DNA活字库中筛选出相应内容的预合成片段；

将筛选出的预合成片段通过酶切连接的组装方式进行拼接组装，构成用于存储待存储数据的存储单元。

优选地，辅助臂是内容随机生成的固定序列或分布在预合成片段中的多个短序列。

优选地，本方法进一步包括，对存储单元通过高通量设备进行测序，读取该存储单元中的数据。

优选地，本方法利用T₄连接酶将筛选出的预合成片段拼接成存储单元。

优选地，预合成片段通过预设轮次的组装，构成用于存储待存储数据的存储单元。

优选地，存储单元包含索引信息，该索引信息为添加的索引序列、所诉存储单元与相邻两个存储单元中的同源序列，该索引信息用于定位。

本发明受活字打印技术的启发，构建了DNA活字库，依托于预合成片段间的组装，可实现任意类型数据的存储写入，具有良好的普适性。通过制备活字模板，对活字模板的重复利用，使得该发明的成本低于传统DNA存储方法。本发明采用酶切连接的方式进行组装，预合成片段提前经过酶切处理，拼接时直接使用连接酶进行相连，仅需少量的DNA和酶，在短时间内实现数据的写入，与基于DNA合成的DNA数据方法写入相比，效率更高。

附图说明

图1为本申请实施例提供的一种DNA活字存储方法的流程示意图；

图2为本申请实施例提供的一种示例性场景流程示意图；

图3为本申请实施例提供的一种预合成片段的结构示意图；

图4为本申请实施例提供的一种拼接过程的流程示意图；

图5为本申请实施例提供的一种预合成片段利用T₄连接酶在不同温度及时间条件下进行酶切连接的示意图；

图6为本申请实施例提供的一种DNA活字存储系统的结构示意图；

图7为本申请实施例提供的另一种DNA活字存储系统的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请实施例提供一种DNA活字数据写入系统，用于实现任意类型数据的存储写入，具有低于传统DNA存储方法的成本及良好的普适性。

参见图1，为本申请实施例提供的一种DNA活字数据存储方法的流程示意图。本申请实施例提供的一种DNA活字数据存储方法，例如可以通过如下步骤S101-S104实现。

S101：构建DNA活字库。

DNA活字库用于存放预合成片段。预合成片段是具有特定长度存储区域的DNA片段，预合成片段中存储区域序列的不同对应不同的数据信息。所有预合成片段在实际使用之前预先合成。预合成片段中设置了辅助臂，用以延长片段长度避免DNA链的解离。在预合成片段两端设置组装接头，用以按照确定顺序组装任意两个预合成片段，实现预合成片段的按序拼接。

具体的，辅助臂可以为内容随机生成的固定序列。预先设定内容随机生成的固定序列，在预合成片段合成的时候加入预合成片段中，能够实现延长预合成片段长度的效果，防止DNA链的解离，并且，在无法确定预合成片段中设置辅助臂的情况下进行数据的读取，得出的数据与存储数据不同，提高了数据存储的安全性。

具体的，组装接头可以为IIS型限制性内切酶所形成的酶切位点，该酶切位点位于预合成片段的两端，且被设计为可互补连接的序列，后续通过对应的酶进行处理，可以实现预合成片段间通过酶切连接的方式拼接。

预合成片段的设计包括但不限于存储区域、辅助臂、组装接头、组装信息等。

预合成片段初次合成的方法包括但不限于寡核苷酸化学合成法、酶促合成法等。

预合成片段除初次合成外，大量获取的方式包括但不限于生物制备中的细胞工厂、体外PCR(聚合酶链反应)等。

S102：将待存储数据转换为DNA序列，将DNA序列拆分成多个预合成片段所含的信息序列。

将待存储数据的二进制信息按照预设的映射关系转码为DNA序列，然后将得到的DNA序列拆分成预合成片段所含的信息序列。为了避免解码失败的问题，在该DNA序列中加入了纠错编码，纠错编码有助于在读取过程中顺利恢复发生错误的数据。

具体的，预设的映射关系可以如下表1所示，例如存储数据的二进制信息为00000101011101110101，转码为DNA序列为ATTCTTTTTC。通过预设的映射关系，可以提高在DNA中写入存储数据的准确度、安全性。

表1为二进制信息与DNA字符串间的映射关系

S103：根据多个预合成片段所含的信息序列，在DNA活字库中筛选出相应内容的预合成片段。

编码后获得一长串可拆分成多个预合成片段的信息序列，根据该信息序列，通过定位筛选装置在DNA活字库中筛选出所需要的预合成片段，便于后续的拼接。

S104：将筛选出的预合成片段通过酶切连接的组装方式进行拼接，构成用于存储待存储数据的存储单元。

预合成片段通过酶切连接的方式进行多轮组装生成一条DNA序列，称为存储单元。含有不同信息的多个存储单元进行混合，混合的存储单元是无序的，为使得能够正确的进行数据的读取，在存储单元中加入了索引信息。

具体的，预合成片段组装轮数越多，需要的片段浓度就越高，会使得需要的拼接时间加长。通过预设轮次，使得产生的片段长度提供的存储容量满足存储数据的存储需求。预合成片段通过预设轮数的组装，构成用于存储待存储数据的存储单元。且该过程可由高通量设备自动化并行实现，相较于增加轮数，也应注重高通量自动化仪器的效率，因此该预设轮次包括但不限于2-3轮。

具体的，存储单元中包含的索引信息可以为存储单元与相邻的两个存储单元中的同源序列。

片段间的拼接方式包括但不限于酶切连接、定点突变技术(Gibson)、连接酶链反应技术(ligase cycling reaction，LCR)等。

请参见图2，是本申请实施例提供的一种DNA活字存储方法的另一流程示意图。如图2所示，本申请另一实施例可以通过S201-S205实现。

S201：构建DNA活字库。

DNA活字库用于存放预合成片段。预合成片段是具有特定长度存储区域的DNA片段，预合成片段中存储区域的不同序列对应不同的存储信息。随着编码区域长度的增加，所需合成的种类数也呈指数级增加，因此中心存储区域长度可以设置为6-12bp(Base Pair，碱基对)。

可选的，如图3所示，存储区域模块位于辅助臂中间，辅助臂为分布在所述预合成片段中的多个随机生成的短序列。相较于S101中的辅助臂，该辅助臂将预先随机生成的固定序列拆分为多个短序列，分布在预合成片段中。该方法不仅能够延长DNA链，防止DNA链的解离，还能够防止信息被他人读取，提高了数据存储的安全性。

S202：将“Watson，Crick，Franklin”作为待存储数据，转换为含有纠错编码的DNA序列，将DNA序列拆分成多个预合成片段所含的信息序列。

将该数据转换成对应的二进制编码。为确保该数据的读取，在该数据转换为二进制的过程中引入纠错编码，并根据映射关系转换为DNA序列，最终得到一串长为144bp的DNA序列。将该DNA序列拆分为24段6bp的DNA序列。

S203：根据得到的24段6bp的DNA序列，在DNA活字库中筛选出相应内容的预合成片段。

定位筛选装置根据得到的24段6bp的DNA序列，通过定位筛选的方式在DNA活字库中找到对应着相同DNA序列的预合成片段。

S204：将筛选出的预合成片段通过酶切连接的组装方式进行拼接，构成用于存储待存储数据的存储单元。

如图4所示，将筛选出的预合成片段在高通量拼接模块中通过两轮组装后，以4个小片段为一组，形成一条存储单元。为防止存储过程中出现预合成片段的丢失，在组装过程中，以存储单元与相邻的两个存储单元中的同源序列部分作为索引信息。通过该组装方式，将筛选出的预合成片段组装成11条存储单元。

S205：通过高通量设备读取存储单元中的数据。

将存储着“Watson，Crick，Franklin”的数据混合放置于一个管中，通过高通量设备进行读取，实现存储单元中的数据读取，得到“Watson，Crick，Franklin”的数据。

可选的，该高通量设备可以为Illumina测序平台。

在本申请的另一些实施例中，本申请实施例还可以通过S301-S304实现：

S301：构建DNA活字库。

构建DNA活字库用于存放预合成片段。预合成片段包含存储区域模块、辅助臂、组装接头，为降低构建成本，可以45bp的单链为模板，共需4096种包含不同存储区域的序列，两段通用引物，长均为57bp。预合成片段使用Phanta Max Super-Fidelity DNAPolymerase(新一代超保真聚合酶Vazyme，CAT#:P505-d2)通过PCR扩增技术大量获取。扩增流程如下：在95℃下经过45秒，然后在48℃下经过15秒，接着在72℃下经过4秒，经历上述过程10个循环后，在95℃下经过15秒，然后在68℃下经过15秒，最后在72℃下经过4秒，经历上述过程20个循环后，在72℃下经过5分钟，最后在4℃的环境下进行孵育。PCR产物选择120bp的条带进行胶回收纯化处理。

将经过胶回收纯化处理的DNA短片段使用Thermo Fisher(赛默飞)的FastDigest(限制性)系列的内切酶(CAT#:FD0294,FD1014)进行处理，每个PCR管中加入27.5μL经过纯化处理的DNA短片段，5μL10×buffer(生物学缓冲液)，以及1μL快切酶，于37℃孵育5-15分钟得到能够用于数据写入的预合成片段。

S302：将待存储数据转换为含有纠错编码的DNA序列，将DNA序列拆分成多个预合成片段所含的信息序列。

S303：根据多个预合成片段所含的信息序列，在DNA活字库中筛选出相应内容的预合成片段。

S304：将筛选出的预合成片段通过酶切连接的组装方式进行拼接，构成用于存储待存储数据的存储单元。

在多个PCR管中分别加入两种筛选出的预合成片段各11μL，以及10×buffer(生物学缓冲液)3μL，T4 DNA连接酶(NEB，CAT#:M0202L)1.5μL，加水至30μL。进行下述实验，在16℃、26℃、37℃、45℃的温度条件下分别进行连接，除37℃条件组是在室温环境下进行，其余几组的温度均在PCR仪设置，经历不同的反应时间后，按照T₄连接酶所述的失活条件——在65℃温度中存放10分钟，进行T₄连接酶的失活处理。不同温度及时间下的拼接效率如图5所示，该方法预合成片段间的连接可在多种温度下快速进行，且连接酶浓度的降低不会对拼接结果造成严重影响。即使处于部分温度下的连接产物浓度较低，但可以通过PCR扩增的手段进行预合成片段的获取，以供后续使用。

以上描述了本申请实施例提供的DNA活字存储方法，下面结合附图介绍本申请实施例提供的DNA活字存储系统。

如图6所示，本申请实施例提供的DNA活字存储系统的一实施例包括：

DNA活字库601，用于存储多个预合成片段，其中，每个预合成片段包括存储区域模块、辅助臂和用于组装前后两个预合成片段的组装接头，其中，存储区域模块存储的不同序列内容对应不同的DNA序列类别，辅助臂用于延长预合成片段的长度。

预合成片段的合成成本，为系统的构建成本，而非后续数据写入时产生的成本。片段廉价的生物制备使得本系统写入数据时成本低于传统方法DNA数据写入的成本。

编码模块602，用于将待存储数据转换为含有纠错编码的DNA序列，将DNA序列拆分成多个预合成片段中所含的信息序列。

定位筛选装置603，用于根据信息序列，在DNA活字库中筛选出相应内容的预合成片段。

高通量拼接模块604，用于根据酶切连接的组装方式将筛选出的预合成片段拼接成存储单元。

本系统受活字打印技术的启发，构建了DNA活字库，依托于预合成片段间的组装，可实现任意类型数据的存储写入，具有良好的普适性。通过制备预合成片段作为活字模板，对活字模板的重复利用，使得该发明的成本低于传统DNA存储方法。本发明采用酶切方式进行组装，预合成片段提前经过酶切处理，拼接时直接使用连接酶进行相连，仅需少量的DNA和酶，在短时间内实现数据的写入，与基于DNA合成的DNA数据方法写入相比，效率更高。

如图7所示，本申请实施例提供的DNA活字存储系统的另一实施例包括：

DNA活字库701，用于存储多个预合成片段，其中，每个预合成片段包括存储区域模块、辅助臂和用于组装前后两个预合成片段的组装接头，其中，存储区域模块存储的不同数据信息对应不同的DNA序列类别，辅助臂用于延长预合成片段的长度。

编码模块702，用于将待存储数据转换为DNA序列，将DNA序列拆分成多个预合成片段中所含的信息序列。

定位筛选装置703，用于根据信息序列，在DNA活字库中筛选出相应内容的预合成片段。

高通量拼接模块704，用于根据酶切连接的组装方式将筛选出的预合成片段拼接成存储单元。

测序模块705，用于对存储单元进行测序，读取存储单元中的数据。

本实施例相较于上述实施例，增加了测序模块，在存储数据写入DNA后，进行测序，读取存储单元中的数据，有利于保证数据存储的准确性。

本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种DNA活字数据写入系统，其特征在于，所述系统包括：DNA活字库、编码模块、定位筛选装置和高通量拼接模块；

所述DNA活字库，用于存储多个预合成片段，其中，每个所述预合成片段包括存储区域模块、辅助臂和用于组装前后两个预合成片段的组装接头，其中，所述存储区域模块存储的不同数据信息对应不同的DNA序列类别，所述辅助臂用于延长所述预合成片段的长度；

所述编码模块，用于将待存储数据转换为DNA序列，将所述DNA序列拆分成多个预合成片段中所含的信息序列；

所述定位筛选装置，用于根据所述多个预合成片段中所含的信息序列，在所述DNA活字库中筛选出相应内容的预合成片段；

所述高通量拼接模块，用于根据酶切连接的组装方式将所述筛选出的预合成片段拼接成存储单元。

2.根据权利要求1所述的DNA活字数据写入系统，其特征在于，所述预合成片段初次合成后，作为活字模板重复使用；

所述活字模板，用于批量制备所述预合成片段。

3.根据权利要求1所述的DNA活字数据写入系统，其特征在于，所述系统还包括：测序模块，

所述测序模块，用于对所述存储单元进行测序，以读取所述存储单元中的数据。

4.根据权利要求1所述的DNA活字数据写入系统，其特征在于，所述辅助臂是内容随机生成的固定序列。

5.根据权利要求1所述的DNA活字数据写入系统，其特征在于，所述辅助臂包括：被拆成的多个短序列，所述多个短序列分布在所述预合成片段中。

6.根据权利要求1所述的DNA活字数据写入系统，其特征在于，所述存储区域模块位于所述辅助臂之前、所述辅助臂之后或所述辅助臂的中间。

7.根据权利要求1至5中任一项所述的DNA活字数据写入系统，其特征在于，所述高通量拼接模块，具体用于利用T₄连接酶将所述筛选出的预合成片段拼接成存储单元。

8.一种DNA活字数据写入方法，其特征在于，所述方法包括：

构建DNA活字库，所述DNA活字库用于存放多个预合成片段，其中，每个所述预合成片段包括存储区域模块、辅助臂和用于组装前后两个预合成片段的组装接头，其中，所述辅助臂用于延长所述预合成片段的长度，所述存储区域模块存储的不同数据信息对应不同的DNA序列类别；

将待存储数据转换为DNA序列，将所述DNA序列拆分成多个预合成片段所含的信息序列；

根据所述多个预合成片段所含的信息序列，在所述DNA活字库中筛选出相应内容的预合成片段；

根据酶切连接的组装方式将所述筛选出的预合成片段拼接成存储单元。

9.根据权利要求8所述的DNA活字数据写入方法，其特征在于，所述预合成片段通过预设轮次的组装，构成用于存储所述待存储数据的存储单元。

10.根据权利要求8所述的DNA活字数据写入方法，其特征在于，所述存储单元包含索引信息；

所述索引信息包括添加的索引序列、所述存储单元与相邻两个存储单元中的同源序列；

所述索引信息用于确定所述多个预合成片段中所含的信息序列在所述DNA活字库中的位置。