CN114743602A

CN114743602A - 一种dna信息存储读取方法及系统

Info

Publication number: CN114743602A
Application number: CN202011535931.3A
Authority: CN
Inventors: 马伊萌
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-07-12

Abstract

本发明涉及一种DNA信息存储读取方法及系统，包括如下步骤：将存储的目标文件经过转换成为DNA碱基序列；将DNA碱基序列合成为携带信息的DNA分子；对携带信息的DNA分子进行保存；对携带信息的DNA分子进行读取。本发明以DNA作为信息存储介质，对图片、文本、音频、视频等形式的数据信息进行保存、复制和读取，信息存储密度高，信息存储寿命长，由于DNA其具备作为信息存储介质的众多优异特性，存在取代当前存储介质成为新型存储介质的巨大潜力。

Description

一种DNA信息存储读取方法及系统

技术领域

本发明涉及信息储存技术领域，尤其涉及一种DNA信息存储读取方法及系统。

背景技术

如今对信息储存的方式包括如下步骤：生产单晶硅；制造光学或半导体存储介质(如磁带、软盘、CD、磁盘、闪存)；将编码后的数据信息存储到介质中；在介质中读取已有信息。

传统存储方式如优盘、硬盘等不能满足存储要求。目前随着人类获取知识与产生数据的能力不断提升，社交网络与云计算技术的进步推动了全球范围内的数据爆炸，人类一切社会活动产生的海量数据给数据存储带来了极大的挑战。目前全球的数字信息总量达4.4ZB(3.52×10²²bits)，并且仍在飞速增长。按照当下增长势头，全球的存储需求将在2040年达到惊人的3×10²⁴比特。现代数据存储系统主要依靠光学和半导体介质实现大量数据的存储、检索、访问和复制。如果以目前的存储手段对该数据量进行存储，制造商需要大约10⁹千克硅片，然而根据预估届时全球硅片供应量预计仅有10⁷-10⁸千克，远无法满足存储需求。

此外，基于半导体与电磁的存储技术有着诸多难以应对这一趋势的缺陷—储密度有限，寿命短暂且大规模长期维护费用高昂。而单晶硅的生产过程带来的环境污染与能源消耗也是不可忽视的。硅片的制备工业流程中应用了大量有害的化学物品，包括四氯化硅、氰化物、二氯乙烷、三氯乙烷等。更重要的是，硅和其他生产原料的储量均不是无限的。因此，我们迫切需要寻找一种可以高密度、低功耗、长期稳定地存储数字信息的解决方案。

发明内容

本发明所要解决的技术问题是克服现有技术中存在的不足，提供一种DNA信息存储读取方法及系统，信息存储密度高，信息存储寿命长。

本发明是通过以下技术方案予以实现：

一种DNA信息存储读取方法，其特征在于，包括如下步骤：a.将存储的目标文件经过转换成为DNA碱基序列；b.将所述DNA碱基序列合成为携带信息的DNA分子；c.对所述携带信息的DNA分子进行保存；d.对所述携带信息的DNA分子进行读取。

根据上述技术方案，优选地，步骤b使用人工合成完成。

根据上述技术方案，优选地，所述人工合成包括如下步骤：合成目的基因；构建基因表达载体；PCR扩增；通过酶切法对目的基因进行鉴定。

根据上述技术方案，优选地，步骤c在无机环境下进行体外保存，或借助生物手段将其引入活体细胞内进行保存。

根据上述技术方案，优选地，步骤c还包括对所述携带信息的DNA分子进行复制扩增备份。

根据上述技术方案，优选地，步骤d包括：对所述携带信息的DNA分子进行物理检索和取样；对所述携带信息的DNA分子进行测序获取DNA碱基序列；对DNA碱基序列解码转换成存储的目标文件。

根据上述技术方案，优选地，通过光学测序技术或基因测序仪对所述携带信息的DNA分子进行测序获取DNA碱基序列。

根据上述技术方案，优选地，在所述“将存储的目标文件经过转换成为DNA碱基序列”或所述“对DNA碱基序列解码转换成存储的目标文件”中，通过纠错算法进行校正。

本专利还公开了一种DNA信息存储读取系统，使用上述一种DNA信息存储读取方法，其特征在于，包括：DNA编码模块，用于将存储的目标文件经过转换成为DNA碱基序列；DNA合成模块，用于将所述DNA碱基序列合成为携带信息的DNA分子；储存模块，用于对所述携带信息的DNA分子进行保存；备份模块，用于对所述携带信息的DNA分子进行复制扩增备份；DNA读取模块，用于对所述携带信息的DNA分子进行读取。

根据上述技术方案，优选地，所述DNA读取模块包括：DNA检索模块，用于对所述携带信息的DNA分子进行物理检索和取样；DNA测序模块，用于对所述携带信息的DNA分子进行测序获取DNA碱基序列；DNA解码模块，用于对DNA碱基序列解码转换成存储的目标文件。

本发明的有益效果是：

本发明以DNA作为信息存储介质，对图片、文本、音频、视频等形式的数据信息进行保存、复制和读取。就单位质量下的存储潜力而言，一克DNA大约含2.1×10²¹个DNA碱基，因此每一克DNA的二进制存储潜力约为4.2×10²¹比特，传统的基于半导体与电磁的存储手段存储潜力为每克10⁹比特，DNA分子单位质量的数字信息储存潜力是其4200亿倍，在单位体积的存储潜力方面，DNA分子形态并没有限制在一个平面，因此其在单位体积内的二进制信息存储潜力是硬盘的100万倍，是闪存的1000倍。除此之外，DNA作为自然界中最稳定的生物分子之一，对高温或低温环境、尘土、震荡等情况的抗性要优于硬盘，在保证数据质量的前提下，DNA分子的数据存储寿命为数百年。综上所述，由于DNA其具备作为信息存储介质的众多优异特性，存在取代当前存储介质成为新型存储介质的巨大潜力。

附图说明

图1是本发明的系统流程示意图。

具体实施方式

为了使本技术领域的技术人员更好地理解本发明的技术方案，下面结合附图和最佳实施例对本发明作进一步的详细说明。

如图所示，本发明包括如下步骤：a.将存储的目标文件经过转换成为DNA碱基序列，本例中使用编码方式完成，DNA编码指的是通过一定的对应和转换规则，将存储的目标文件转换为相应的DNA碱基序列，该编码过程是DNA信息存储过程的核心之一。不同的DNA信息存储模型中，由文件内容到DNA碱基序列的编码方式也各有异同，针对的存储文件格式也有一定差异，有的经典编码模型只适用于文本文档的存储，有的编码模型针对图片进行存储，也有的编码模型对于任何形式的文件格式均可进行存储。本例中将目标文件转换成ATCG碱基序列，主要使用的是编码方法，目前可用的编码方法有很多，比方说Huffman编码方法，或者Raptor码编码方法；b.将所述DNA碱基序列合成为携带信息的DNA分子；c.对所述携带信息的DNA分子进行保存；d.对所述携带信息的DNA分子进行读取。DNA即脱氧核糖核酸，又被称为去氧核糖核酸，是存在于生物细胞中的生物大分子，它是染色体的主要组成部分，也是几乎所有的地球生物的主要遗传物质，是存储生物遗传信息的“硬盘”。DNA分子的构成单位是脱氧核苷酸，脱氧核苷酸根据其含氮碱基的不同，可以分为腺嘌呤脱氧核苷酸(腺苷酸，AMP)、鸟嘌呤脱氧核苷酸(鸟苷酸，GMP)、胞嘧啶脱氧核苷酸(胞苷酸，CMP)、胸腺嘧啶脱氧核苷酸(胸苷酸，TMP)，这四种含氮碱基我们简称为A、G、C、T四种碱基。在DNA双链结构中，该四种碱基是相互互补配对的，具体互补配对关系为：A与T配对，C与G配对。含有不同碱基的脱氧核糖核苷酸聚合成为链状螺旋的DNA分子，A、T、C、G四种碱基以不同的顺序排列组合，便可以存储生物的遗传信息。因此，与通过二进制存储信息的硬盘类似，我们可以将DNA看做四进制的存储模型。

根据上述实施例，优选地，步骤b使用人工合成完成，本例中人工合成包括如下步骤：合成目的基因；构建基因表达载体；PCR扩增；通过酶切法对目的基因进行鉴定。存储信息的DNA分子需要按照相应的碱基序列进行人工合成而非利用DNA分子。因为活体DNA分子的修改过程工艺复杂度高于给定序列之后进行体外合成，此外，活体细胞诸如分增殖、衰老凋亡等生命过程会对信息的存储带来影响，引入额外的数据错误并增加生物层面的操作处理难度。因此，本例中合成为DNA链主要使用的是生物手段，一般使用的是PCR扩增技术。这个技术的详细过程是：合成目的基因；构建基因表达载体；PCR扩增；使用酶切法对目的基因进行鉴定。其中，由于DNA序列是任意的，但长度有限，就像字节串被分成小片段，在后续过程中重新组合成原始数据，因此需要通过酶切法将DNA链进行切断。目前合成的用以存储信息的DNA分子一般为长度不超过1000个核苷酸的短链DNA分子，因为在当下的技术水平下，指定序列的DNA分子合成是有长度极限的，而且合成长链DNA分子的技术难度和耗时远超合成短链DNA分子，此外，合成长链DNA分子过程中可能产生的错误也高于短链DNA分子。

根据上述实施例，优选地，步骤c在无机环境下进行体外保存，或借助生物手段将其引入活体细胞内进行保存。一般而言体外保存的数据稳定性、可读性和易操作性超过细胞体内保存。

根据上述实施例，优选地，步骤c还包括对所述携带信息的DNA分子进行复制扩增备份。对合成得到的带有存储信息的DNA分子进行复制扩增过程，对应我们日常数据存储过程中的复制备份，在生物层面是对已有的DNA分子进行复制，该过程可以人工进行，也可借助活体细胞自然的细胞分裂完成。

根据上述实施例，优选地，步骤d包括：对所述携带信息的DNA分子进行物理检索和取样，如果需要提取数据项，就要对相应的DNA池进行物理检索和取样，为了避免读取池中的全部数据，需要类似计算机那样的随机访问或者从更大集合中选择性读取特定数据项的能力，这个功能在主流数字存储介质中已经得到实现，但由于相同的分子池中缺乏数据项的物理组织，因此分子存储在这方面具有更大的挑战。可以通过选择性过程，例如，对应数据的磁珠探针分离方法或是在编码过程中使用数据存储相关引物，采用PCR的方式来实现DNA数据存储中的随机存取；对所述携带信息的DNA分子进行测序获取DNA碱基序列，其中DNA分子测序指的是通过生化手段获取目标DNA的A、T、C、G四种碱基的排列顺序；对DNA碱基序列解码转换成存储的目标文件，其中DNA解码与DNA编码过程相对应，负责将测序得到的DNA分子碱基序列还原成为存储内容。

根据上述实施例，优选地，通过光学测序技术或基因测序仪对所述携带信息的DNA分子进行测序获取DNA碱基序列。其中测序的方法不止一种。传统的测序方式是利用光学测序技术，用不同颜色的荧光标记四种不同的碱基，然后用激光光源去捕捉荧光信号从而获得待测基因的序列信息，缺点为价格不菲并且需要很久才能获取基因信息；现在使用的是新的基因测序技术，新技术使用基因测序仪，用芯片代替了传统激光镜头、荧光染色剂等，通过半导体感应器，仪器对DNA复制时产生的离子流实现直接检测，当试剂通过集成的流体通路进入芯片中，密布于芯片上的反应孔立即成为上百万个微反应体系。这种技术组合，使研究人员能够在短短2小时内获取基因信息，同时检测一次的费用也降到了最低1千美元。

根据上述实施例，优选地，在所述“将存储的目标文件经过转换成为DNA碱基序列”或所述“对DNA碱基序列解码转换成存储的目标文件”中，通过纠错算法进行校正，进而确保我们存储的目标文件与恢复得到的文件具有误差允许范围内的甚至完全的一致性。本例中可以使用的纠错算法也有很多，比较基础的如汉明码，比较常见的如低密度奇偶校验LDPC码等。

根据上述实施例，优选地，所述DNA读取模块包括：DNA检索模块，用于对所述携带信息的DNA分子进行物理检索和取样；DNA测序模块，用于对所述携带信息的DNA分子进行测序获取DNA碱基序列；DNA解码模块，用于对DNA碱基序列解码转换成存储的目标文件。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种DNA信息存储读取方法，其特征在于，包括如下步骤：a.将存储的目标文件经过转换成为DNA碱基序列；b.将所述DNA碱基序列合成为携带信息的DNA分子；c.对所述携带信息的DNA分子进行保存；d.对所述携带信息的DNA分子进行读取。

2.根据权利要求1所述一种DNA信息存储读取方法，其特征在于，步骤b使用人工合成完成。

3.根据权利要求2所述一种DNA信息存储读取方法，其特征在于，所述人工合成包括如下步骤：合成目的基因；构建基因表达载体；PCR扩增；通过酶切法对目的基因进行鉴定。

4.根据权利要求1所述一种DNA信息存储读取方法，其特征在于，步骤c在无机环境下进行体外保存，或借助生物手段将其引入活体细胞内进行保存。

5.根据权利要求1至4中任意一项的所述一种DNA信息存储读取方法，其特征在于，步骤c还包括对所述携带信息的DNA分子进行复制扩增备份。

6.根据权利要求5所述一种DNA信息存储读取方法，其特征在于，步骤d包括：对所述携带信息的DNA分子进行物理检索和取样；对所述携带信息的DNA分子进行测序获取DNA碱基序列；对DNA碱基序列解码转换成存储的目标文件。

7.根据权利要求6所述一种DNA信息存储读取方法，其特征在于，通过光学测序技术或基因测序仪对所述携带信息的DNA分子进行测序获取DNA碱基序列。

8.根据权利要求7所述一种DNA信息存储读取方法，其特征在于，在所述“将存储的目标文件经过转换成为DNA碱基序列”或所述“对DNA碱基序列解码转换成存储的目标文件”中，通过纠错算法进行校正。

9.一种DNA信息存储读取系统，使用权利要求8所述一种DNA信息存储读取方法，其特征在于，包括：

DNA编码模块，用于将存储的目标文件经过转换成为DNA碱基序列；

DNA合成模块，用于将所述DNA碱基序列合成为携带信息的DNA分子；

储存模块，用于对所述携带信息的DNA分子进行保存；

备份模块，用于对所述携带信息的DNA分子进行复制扩增备份；

DNA读取模块，用于对所述携带信息的DNA分子进行读取。

10.根据权利要求7所述一种DNA信息存储读取系统，其特征在于，所述DNA读取模块包括：

DNA检索模块，用于对所述携带信息的DNA分子进行物理检索和取样；

DNA测序模块，用于对所述携带信息的DNA分子进行测序获取DNA碱基序列；

DNA解码模块，用于对DNA碱基序列解码转换成存储的目标文件。