CN111680797B - 一种dna活字印刷机、基于dna的数据存储设备和方法 - Google Patents

一种dna活字印刷机、基于dna的数据存储设备和方法 Download PDF

Info

Publication number
CN111680797B
CN111680797B CN202010381206.9A CN202010381206A CN111680797B CN 111680797 B CN111680797 B CN 111680797B CN 202010381206 A CN202010381206 A CN 202010381206A CN 111680797 B CN111680797 B CN 111680797B
Authority
CN
China
Prior art keywords
dna
sequence
pcr reaction
sequences
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010381206.9A
Other languages
English (en)
Other versions
CN111680797A (zh
Inventor
邢晶
陈非
卜东波
马灌楠
段勃
王晨阳
高艳珍
魏征
谭光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010381206.9A priority Critical patent/CN111680797B/zh
Publication of CN111680797A publication Critical patent/CN111680797A/zh
Application granted granted Critical
Publication of CN111680797B publication Critical patent/CN111680797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明实施例提供了一种DNA活字印刷机、基于DNA的数据存储设备和方法,所述DNA活字印刷机包括:PCR反应区,用于通过PCR反应将获取的多种DNA活字序列按序连接为表示二进制信息的DNA序列,其中,每种DNA活字序列是根据预定的映射规则预先合成的单链DNA片段,所述预定的映射规则用于定义特定的多位二进制码与特定的碱基序列之间的映射关系,每个单链DNA片段中包含与某个特定的多位二进制码对应的碱基序列;PCR产物纯化区,用于对经过PCR反应的产物进行纯化;机械臂;以及机械臂控制模块,用于控制所述机械臂以获取所述DNA活字序列,以及控制所述机械臂作为PCR反应区的产物和PCR产物纯化区的产物的转移工具,本发明能够提供高效和高性价比的DNA存储。

Description

一种DNA活字印刷机、基于DNA的数据存储设备和方法
技术领域
本发明涉及数据存储领域,具体来说涉及用DNA存储数据的领域,更具体地说,涉及一种DNA活字印刷机、基于DNA的数据存储设备和方法。
背景技术
互联网时代的到来前所未有的改变了人们的工作与生活方式,数字化和信息化浪潮使知识与数据都经历着爆炸式的增长。在互联网时代,计算机运用到越来越多的领域里,伴随这一切的是数据量的爆炸式增长。
随着大数据时代的到来,海量数据给现有的数据存储技术带来前所未有的挑战。由国际数据公司(IDC)发布、希捷科技赞助的白皮书《数字化世界—从边缘到核心》预测,全球数据到2025年将增至175ZB。为了适应及迎接这一挑战,目前国内外正在建设大量的数据存储中心,而当今世界上的大部分数据都存储在磁性和光学介质上。现有的硬盘、磁带数据存储模式存在保存时间有限(最长30年)、占用空间大、转运不方便、电能损耗大及硬件损耗等缺点,其在未来可能远远无法满足数据指数形式增长的需求。磁带是目前市场上最密集的存储形式,大约为10GB/mm3。最近的研究报告也显示了在光盘上实现100GB/mm3存储的可行性。尽管有了这些改进,但是现在存储ZB级数据仍需要大量的物理空间。另外,存储寿命也很重要,机械硬盘磁盘寿命约5年,磁带约30年,这就导致了使用期间需要不断维护数据。
基于存储密度和使用寿命两个方面的考虑,DNA存储技术被认为是一种潜在媒介。存储密度极高,理论上为1EB/mm3,而且寿命可以保存500年。此外DNA存储所用到的生物技术也是DNA的合成和测序技术,这在生物领域,已经发展的很成熟了,DNA存储技术也得到了一定的发展。在1999年,西奈山医学院实现了用DNA存储23个字符,到2018年,实现了200M的数据存储,发展迅速。
现有的DNA存储中,DNA存储方式主要通过基因合成的技术,将二进制数字信息转化成通过DNA序列表达的信息。但是,现有技术中,合成特定的DNA序列的时间成本和生产成本较高。因此,需要对现有技术进行改进,以提高DNA存储技术的存储效率和降低存储成本,从而推动该技术的发展。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种DNA活字印刷机、基于DNA的数据存储设备和方法。
本发明的目的是通过以下技术方案实现的:
根据本发明的第一方面,提供一种DNA活字印刷机,所述DNA活字印刷机包括:PCR反应区,用于通过PCR反应将获取的多种DNA活字序列按序连接为表示二进制信息的DNA序列,其中,每种DNA活字序列是根据预定的映射规则预先合成的单链DNA片段,所述预定的映射规则用于定义特定的多位二进制码与特定的碱基序列之间的映射关系,每个单链DNA片段中包含与某个特定的多位二进制码对应的碱基序列;PCR产物纯化区,用于对经过PCR反应的产物进行纯化;机械臂;以及机械臂控制模块,用于控制所述机械臂以获取所述DNA活字序列,以及控制所述机械臂作为PCR反应区的产物和PCR产物纯化区的产物的转移工具。
在本发明的一些实施例中,机械臂控制模块用于控制机械臂执行以下操作:获取DNA活字序列转移到PCR反应区,获取PCR反应区的产物并将其转移到PCR产物纯化区,和获取PCR产物纯化区的产物,在还未生成完整的DNA序列时将其转移至PCR反应区以进行后续的PCR反应,以及,在已经生成完整的DNA序列时将其输出。
根据本发明的第二方面,提供一种基于DNA的数据存储设备,包括:原料库,存储多种预先合成的DNA活字序列;处理模块,用于获取根据预定的映射规则将待存储的二进制信息转换为以多个DNA活字序列顺序排列表示的序列信息,和根据所述序列信息控制原料库释放对应的DNA活字序列;如第一方面所述的DNA活字印刷机,用于获取原料库提供的DNA活字序列并通过PCR反应将获取的DNA活字序列按序连接为表示所述待存储的二进制信息的DNA序列。
在本发明的一些实施例中,所述原料库包括:多个离心管,每个离心管用于存储一个DNA活字序列;多个带阀门的存储管道,每个存储管道用于存储多个离心管并通过阀门的开闭以释放其内存储有DNA活字序列的离心管,同一存储管道内的多个离心管存储指定的同一种DNA活字序列;转运装置,用于获取存储管道释放的离心管并转运至DNA活字印刷机能够获取的待取位置。
在本发明的一些实施例中,所述处理模块包括:主控单元,用于获取待存储的二进制信息,根据所述映射规则将所述二进制信息转换为以多个DNA活字序列顺序排列表示的序列信息;选择单元,用于将所述序列信息中的每个DNA活字序列按序转换为存储该DNA活字序列的存储管道的地址标记,以根据所述地址标记控制原料库提供对应的DNA活字序列。
在本发明的一些实施例中,所述基于DNA的数据存储设备还包括:DNA测序区,用于对DNA活字印刷机输出的DNA序列进行测序并将测序结果发送给处理模块。
在本发明的一些实施例中,所述处理模块还被配置为:发出测序指令指示测序区对DNA活字印刷机输出的DNA序列进行测序,分析测序结果和序列信息是否一致。
在本发明的一些实施例中,所述基于DNA的数据存储设备还包括:DNA序列存储区,用于提供存储DNA序列的低温存储空间。
在本发明的一些实施例中,所述处理模块还被配置为:在测序结果和序列信息一致的情况下发出对所述DNA序列进行存储的指令;所述机械臂控制模块还被配置为控制机械臂执行以下操作:响应于对所述DNA序列进行存储的指令,将该DNA序列置入带有识别标签的离心管中,并将其转移至DNA序列存储区进行存储。
根据本发明的第三方面,提供一种基于第二方面所述的基于DNA的数据存储设备的数据存储方法,包括:A1、获取待存储的二进制信息,根据预定的映射规则将所述二进制信息转换为以多个DNA活字序列顺序排列表示的序列信息;A2、根据所述序列信息从保存有预先合成的多种DNA活字序列的原料库中获取对应的DNA活字序列;和/或A3、通过PCR反应将获取的DNA活字序列按序连接为表示所述二进制信息的DNA序列。
与现有技术相比,本发明的优点在于:
本发明设立可自定义的映射规则,映射规则用于定义特定的多位二进制码与特定的碱基序列之间的映射关系,先根据映射规则预先批量合成多种DNA活字序列并将其存储备用,DNA活字序列包含与某个特定的多位二进制码对应的碱基序列的单链DNA片段,由此,无需在存储时现场合成所需的基础DNA片段,提高DNA存储效率;而且,本发明通过DNA活字印刷机来自动化地连接DNA活字序列,从而将二进制信息转换为DNA序列,不需要人工干预,能够提供高性价比的DNA存储。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的基于DNA的数据存储设备的模块示意图;
图2为根据本发明实施例的根据映射规则将二进制信息转换为序列信息的过程示意图;
图3为根据本发明实施例的原料库的示意性结构的简化原理图;
图4为根据本发明实施例的通过PCR反应连接两个DNA活字序列的原理示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如在背景技术部分提到的,现有的DNA存储技术合成存储信息的DNA序列的速度慢。例如,在一些技术中,是通过人工手动根据存储需要现场合成一些所需DNA片段,然后对DNA片段进行连接以得到通过DNA序列表达的信息,其效率很低。本发明设立可自定义的映射规则,映射规则用于定义特定的多位二进制码与特定的碱基序列之间的映射关系,先根据映射规则预先合成包含与某个特定的多位二进制码对应的碱基序列的单链DNA片段,由此,无需在存储时现场合成所需的基础DNA片段,提高DNA存储效率。而且,本发明通过DNA活字印刷机来自动化地连接DNA活字序列,从而将二进制信息转换为DNA序列,不需要人工干预,能够提供高性价比的DNA存储。
根据本发明的一个实施例,参见图1,提供一种基于DNA的数据存储设备,包括:原料库、处理模块、DNA活字印刷机、DNA测序区、DNA序列存储区。本发明的数据存储设备存储数据的一个示意性过程为:计算机的应用程序产生一些待存储的文件存储在文件系统中,先将待存储的文件转换二进制信息,根据映射规则将二进制信息转换为序列信息;处理模块获取序列信息,并通过DNA活字印刷机从原料库获取对应的DNA活字序列按序连接为表示二进制信息的DNA序列,并经DNA测序区测序显示无误后存储在DNA存储区。参见图2,另一个示意性的过程中,计算机仅将待存储的文件转换二进制信息,由处理模块根据映射规则将二进制信息转换为序列信息。
下面对每个部分进行详细的说明。
原料库,存储多种预先合成的DNA活字序列。根据本发明的一个实施例,参见图3,原料库包括:多个离心管,每个离心管用于存储一个DNA活字序列;多个带阀门的存储管道,每个存储管道用于存储多个离心管并通过阀门的开闭以释放其内存储有DNA活字序列的离心管,同一存储管道内的多个离心管存储指定的同一种DNA活字序列;转运装置,用于获取存储管道释放的离心管并转运至DNA活字印刷机能够获取的待取位置。优选的,预先合成的DNA活字序列,例如可以是交由工厂批量化生产,然后冷冻存储运输交付给所需的用户,这样就不需要现场来合成这些表示相应含义的DNA活字序列,由此,以便提高后续存储的效率和降低成本。优选的,原料库为DNA活字序列提供低温存储空间。低温存储空间的低温是-80℃及以下,尤其优选-80℃。优选的,离心管是PE管;阀门是由电信号驱动的阀门,以便通过电控的方式控制阀门的开闭时长,从而控制存储管道一次释放一个对应的DNA活字序列;转运装置可以是转运机器人或者转运管道。例如在转运机器人上设置一个承接部,其承接存储管道释放的离心管后,移动到DNA活字印刷机能够获取的待取位置。图3中示出的是一种示意性的转运管道,设于存储管道下方,承接存储管道释放的离心管并转运至DNA活字印刷机能够获取的待取位置。
应当注意的是,上述原料库的实施方式仅是可选的一种方式,还有其他可选的方式也可作为原料库,例如,现有的自动化生物样本存储系统,其具有-80℃的生物样本存储装置(低温存储空间)和AGV转运机器人(转运装置),其能对每个存储单元(离心管)进行标签化自动管理和自动运输,由此,也可以用于存储、提供DNA活字序列或者合成的DNA序列,本发明对此不作任何限制。
处理模块,用于根据预定的映射规则将待存储的二进制信息转换为以多个DNA活字序列顺序排列表示的序列信息,和,根据序列信息控制原料库释放对应的DNA活字序列。根据本发明的一个实施例,处理模块例如是可编程芯片。进一步的,处理模块包括:主控单元,用于获取根据映射规则将所述二进制信息转换为以多个DNA活字序列顺序排列表示的序列信息;选择单元,用于将所述序列信息中的每个DNA活字序列按序转换为存储该DNA活字序列的存储管道的地址标记,以根据所述地址标记控制原料库提供对应的DNA活字序列。主控单元可以是直接获取外部计算机转换好的序列信息或者其自身根据映射规则对二进制信息进行转换。
优选的,主控模块是负责协调基于DNA的数据存储设备各部件的工作,负责控制整个流程的工作顺序。其用于执行如下操作:
协调操作:协调各部件工作,在接收到外部的指令之后,控制原料库释放对应的DNA活字序列,并控制DNA活字印刷机获取原料库提供的DNA活字序列并通过PCR反应将获取的DNA活字序列按序连接为表示待存储的二进制信息的DNA序列。
检测操作:包括错误检测与通报功能,控制设备各部件进行自检,接收和汇总基于DNA的数据存储设备中的主要元器件的自检结果,根据已汇总的自检结果,及时向计算机报错,阐明错误发生的位置以及可能的原因。
通信操作:用于与计算机进行通信,及时和计算机同步基于DNA的数据存储设备的实时状态,并且接受计算机发来的请求。
优选的,处理模块还被配置为监控各种DNA活字序列的含量,并发送警报信息以提示用户及时补充相应的DNA活字序列。
优选的,处理模块还被配置为:发出测序指令指示测序区对DNA活字印刷机输出的DNA序列进行测序,分析测序结果和序列信息是否一致。在测序结果和序列信息一致的情况下处理模块发出对所述DNA序列进行存储的指令。即,比较测序结果中显示的碱基序列的顺序和序列信息中顺序排列的多个DNA活字序列对应的碱基序列的顺序是否一致,如果一致,则发出对所述DNA序列进行存储的指令,如果不一致,则报错,并反馈对比的错误信息。由此,以避免存储错误和便于用户根据错误信息,检查错误的位置,从而进行制定应对措施。
优选的,用户可以自定义一套多位二进制码与特定碱基序列之间的映射规则。二进制码的位数以及对应的特定碱基序列均可自定义。例如,以一个字节作为基础单位,一个字节对应8bit位,每位有0和1两种状态,共有28=256种字节状态,将256种字节状态(256种8位二进制码)映射为256种特定的碱基序列,预先合成包含这些特定碱基序列的DNA活字序列。例如,将00000000表示为碱基序列TCTGAGTCTATGTAGC,将00000001表示为GATCGTACAGCTGACA。又或者,用户以一个字作为基础单位,一个字对应16bit位,共有216=65536种字状态,将65536种字状态(65536种16位二进制码)映射为65536种特定的碱基序列。由此,本发明可以利用这些特定的碱基序列表示汉字、英文等。参见图2,以一个字节作为基础单位为例,将映射规则存储在数据库中,在将文件转换为序列信息时,若文件不是二进制形式,先将文件转为为二进制信息,然后按字节进行读取并查询数据库,数据库返回各字节对应的DNA活字序列,得到序列信息。
DNA活字印刷机,用于获取原料库提供的DNA活字序列并通过PCR反应将获取的DNA活字序列按序连接为表示待存储的二进制信息的DNA序列,DNA序列是双链DNA。根据本发明的一个实施例,DNA活字印刷机包括:PCR反应区,用于通过PCR反应将获取的DNA活字序列按序连接;PCR产物纯化区,用于对经过PCR反应的产物进行纯化;机械臂以及机械臂控制模块。机械臂控制模块,用于控制所述机械臂以获取所述DNA活字序列,以及控制所述机械臂作为PCR反应区的产物和PCR产物纯化区的产物的转移工具。其中,机械臂控制模块用于控制机械臂执行以下操作:获取待取位置的离心管并将该离心管内的DNA活字序列转移到PCR反应区,获取PCR反应区的产物并将其转移到PCR产物纯化区,和获取PCR产物纯化区的产物,在还未生成完整的DNA序列时将其转移至PCR反应区以进行后续的PCR反应,以及,在已经生成完整的DNA序列时将其输出。基于前述示例,假设要存储一句话,一个DNA活字序列表达一个汉字,DNA活字印刷机相当于依次获取表达这句话的相应汉字的DNA活字序列,通过对多个DNA活字序列进行连接,从而得到表达这句话的DNA序列。在这个过程中,机械臂相当于是在各区域转移含有DNA活字序列、中间产物或者最终的DNA序列的DNA溶液的工具,在PCR反应区、PCR产物纯化区、DNA测序区、DNA序列存储区之间转移DNA溶液。例如,根据序列信息控制原料库释放序列信息中的第一个DNA活字序列并通过机械臂转移至PCR反应区,再控制原料库释放序列信息中的第二个DNA活字序列并通过机械臂转移至PCR反应区,进行PCR反应后通过机械臂转移到PCR产物纯化区进行纯化反应。将纯化后的DNA片段通过机械臂转移至PCR反应,再控制原料库释放序列信息中的下一个DNA活字序列并通过机械臂转移至PCR反应区,依次进行PCR反应和纯化反应,重复前面的步骤直至将序列信息中所有的DNA活字序列按序连接为表示待存储的二进制信息的DNA序列。优选的,机械臂控制模块还被配置为控制机械臂执行以下操作:响应于对所述DNA序列进行存储的指令,将该DNA序列置入带有识别标签的离心管中,并将其转移至DNA序列存储区进行存储。本发明对生成的DNA序列进行标签化存储,便于后续的机器索引和读取。
需要说明的是,上述PCR反应是指聚合酶链式反应(Polymerase ChainReaction)。优选的,PCR反应区中,每次通过引物对两段DNA进行连接,以保证连接顺序和减小错误几率。为了连接,需要在DNA活字序列的两端设置重叠区(Overlap区)。参见图4,以活字1和活字2这两个DNA活字序列为例,活字1的中部是表达一个特定的多位二进制码的碱基序列,两端分别设有重叠区1(Overlap1)和重叠区2(Overlap2),活字2的中部是表达另一个特定的多位二进制码的碱基序列,两端分别设有重叠区3(Overlap3)和重叠区4(Overlap4)。重叠区也是碱基序列,例如,重叠区1、2、3、4分别为ATAAGCCTCGAGTAG、TGATAGTACCAGAGC、TAGTCAACTAGCCTC、TGATAGTACCAGAGC。机械臂将活字1和活字2放入PCR反应区后,添加引物,引物的两端分别有与重叠区2互补配对的重叠区2’,以及,与重叠区3互补配对的重叠区3’。由此,在添加引物后,引物的两端分别与活字1的重叠区2和活字2的重叠区3互补配对,经历PCR反应后延伸形成双链DNA。对于引物的设计,可以遵循和使用现有的设计原则,例如:1.引物应用核酸系列保守区内设计并具有特异性;2.产物不能形成二级结构;3.引物长度一般在15~30碱基之间;4.G+C含量在40%~60%之间;5.碱基要随机分布;6.引物自身不能有连续4个碱基的互补;7.引物之间不能有连续4个碱基的互补;8.引物5′端可以修饰;9.引物3′端不可修饰;10.引物3′端要避开密码子的第3位。对于表示某个特定的多位二进制码对应的碱基序列,可以在其两端添加多组不同的重叠区,从而形成多个表达同一特定的多位二进制码的不同DNA活字序列。由此,在释放后续的DNA活字序列时,释放与前期释放的DNA活字序列具有差异化重叠区的DNA活字序列,并通过适配的引物连接前一个DNA活字序列与当前释放的DNA活字序列。由此,以让连接的DNA片段中,重叠区的碱基具有差异化,减少错误连接。应当理解的是,此处的引物和设计原则仅是示意性的,本发明对此不作任何限制。在经历PCR反应后,溶液中除所需的DNA片段外还存在引物、试剂等不必要的物质,因此,为了得到所需的DNA片段,还需要通过PCR产物纯化区对PCR产物进行纯化。PCR产物纯化区是利用纯化技术去除DNA溶液中为进行PCR反应添加的引物和试剂,从而将DNA提取出来的设备。
DNA测序区,用于对DNA活字印刷机输出的DNA序列进行测序并将测序结果发送给处理模块。DNA测序(DNA sequencing,也称DNA定序)是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。DNA测序区的作用是在存储DNA序列之前,先通过DNA测序区对DNA序列测序,无误后再对DNA序列进行标签化的存储,从而避免错误的DNA序列被存储。优选的,测序时,选择对DNA活字序列所在的单链DNA进行测序,得到测序结果。在要解析DNA序列所表达的信息时,也是通过测序来实现,在测序时删除其中识别出的各重叠区对应的碱基序列,得到解析结果,并根据映射规则将解析结果转换为二进制信息,从而实现对DNA序列的解析。
根据本发明的一个实施例,提供一种基于前述实施例所述的基于DNA的数据存储设备的数据存储方法,包括:
步骤A1:获取待存储的二进制信息,根据预定的映射规则将所述二进制信息转换为以多个DNA活字序列顺序排列表示的序列信息。例如,用户先定义一套映射规则,定义特定的多位二进制码与特定的碱基序列之间的映射关系。在存储二进制信息前,根据该映射规则,可以先将二进制信息转换为按序排列的多个碱基序列,然后查询数据库,将多个碱基序列转换为对应的DNA活字序列,从而将二进制信息转换为以多个DNA活字序列顺序排列表示的序列信息。
步骤A2:根据所述序列信息从保存有预先合成的多种DNA活字序列的原料库中获取对应的DNA活字序列。即:先将各DNA活字序列批量化地预先合成,保存在原料库中备用。在需要生成DNA序列时,直接从原料库中获取对应的DNA活字序列,由此,以提高存储效率。
步骤A3:通过PCR反应将获取的DNA活字序列按序连接为表示所述二进制信息的DNA序列。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种DNA活字印刷机,其特征在于,所述DNA活字印刷机包括:
PCR反应区,用于通过PCR反应将获取的多种DNA活字序列按序连接为表示二进制信息的DNA序列,其中,每种DNA活字序列是根据预定的映射规则预先合成的单链DNA片段,所述预定的映射规则用于定义特定的多位二进制码与特定的碱基序列之间的映射关系,每个单链DNA片段中包含与某个特定的多位二进制码对应的碱基序列;
PCR产物纯化区,用于对经过PCR反应的产物进行纯化;
机械臂;以及
机械臂控制模块,用于控制所述机械臂以获取所述DNA活字序列,以及控制所述机械臂作为PCR反应区的产物和PCR产物纯化区的产物的转移工具。
2.根据权利要求1所述的DNA活字印刷机,其特征在于,
机械臂控制模块用于控制机械臂执行以下操作:
获取DNA活字序列转移到PCR反应区,
获取PCR反应区的产物并将其转移到PCR产物纯化区,和
获取PCR产物纯化区的产物,在还未生成完整的DNA序列时将其转移至PCR反应区以进行后续的PCR反应,以及,在已经生成完整的DNA序列时将其输出。
3.一种基于DNA的数据存储设备,其特征在于,包括:
原料库,存储多种预先合成的DNA活字序列;
处理模块,用于获取根据预定的映射规则将待存储的二进制信息转换为以多个DNA活字序列顺序排列表示的序列信息,和根据所述序列信息控制原料库释放对应的DNA活字序列;
根据权利要求1或2所述的DNA活字印刷机,用于获取原料库提供的DNA活字序列并通过PCR反应将获取的DNA活字序列按序连接为表示所述待存储的二进制信息的DNA序列。
4.根据权利要求3所述的基于DNA的数据存储设备,其特征在于,所述原料库包括:
多个离心管,每个离心管用于存储一个DNA活字序列;
多个带阀门的存储管道,每个存储管道用于存储多个离心管并通过阀门的开闭以释放其内存储有DNA活字序列的离心管,同一存储管道内的多个离心管存储指定的同一种DNA活字序列;
转运装置,用于获取存储管道释放的离心管并转运至DNA活字印刷机能够获取的待取位置。
5.根据权利要求4所述的基于DNA的数据存储设备,其特征在于,所述处理模块包括:
主控单元,用于获取待存储的二进制信息,根据所述映射规则将所述二进制信息转换为以多个DNA活字序列顺序排列表示的序列信息;
选择单元,用于将所述序列信息中的每个DNA活字序列按序转换为存储该DNA活字序列的存储管道的地址标记,以根据所述地址标记控制原料库提供对应的DNA活字序列。
6.根据权利要求3至5任一项所述的基于DNA的数据存储设备,其特征在于,所述基于DNA的数据存储设备还包括:DNA测序区,用于对DNA活字印刷机输出的DNA序列进行测序并将测序结果发送给处理模块。
7.根据权利要求6所述的基于DNA的数据存储设备,其特征在于,
所述处理模块还被配置为:发出测序指令指示测序区对DNA活字印刷机输出的DNA序列进行测序,分析测序结果和序列信息是否一致。
8.根据权利要求7所述的基于DNA的数据存储设备,其特征在于,所述基于DNA的数据存储设备还包括:
DNA序列存储区,用于提供存储DNA序列的低温存储空间。
9.根据权利要求8所述的基于DNA的数据存储设备,其特征在于,
所述处理模块还被配置为:
在测序结果和序列信息一致的情况下发出对所述DNA序列进行存储的指令;
所述机械臂控制模块还被配置为控制机械臂执行以下操作:
响应于对所述DNA序列进行存储的指令,将该DNA序列置入带有识别标签的离心管中,并将其转移至DNA序列存储区进行存储。
10.一种基于权利要求3至9任一项所述的基于DNA的数据存储设备的数据存储方法,其特征在于,包括:
A1、获取待存储的二进制信息,根据预定的映射规则将所述二进制信息转换为以多个DNA活字序列顺序排列表示的序列信息;
A2、根据所述序列信息从保存有预先合成的多种DNA活字序列的原料库中获取对应的DNA活字序列;
A3、通过PCR反应将获取的DNA活字序列按序连接为表示所述二进制信息的DNA序列。
CN202010381206.9A 2020-05-08 2020-05-08 一种dna活字印刷机、基于dna的数据存储设备和方法 Active CN111680797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010381206.9A CN111680797B (zh) 2020-05-08 2020-05-08 一种dna活字印刷机、基于dna的数据存储设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010381206.9A CN111680797B (zh) 2020-05-08 2020-05-08 一种dna活字印刷机、基于dna的数据存储设备和方法

Publications (2)

Publication Number Publication Date
CN111680797A CN111680797A (zh) 2020-09-18
CN111680797B true CN111680797B (zh) 2023-06-06

Family

ID=72451814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010381206.9A Active CN111680797B (zh) 2020-05-08 2020-05-08 一种dna活字印刷机、基于dna的数据存储设备和方法

Country Status (1)

Country Link
CN (1) CN111680797B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898806A (zh) * 2022-05-25 2022-08-12 天津大学 一种dna活字写入系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850760A (zh) * 2015-03-27 2015-08-19 苏州泓迅生物科技有限公司 带有编码信息的人工合成dna存储介质及信息的存储读取方法和应用
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法
WO2018148257A1 (en) * 2017-02-13 2018-08-16 Thomson Licensing Apparatus, method and system for digital information storage in deoxyribonucleic acid (dna)
CN109074424A (zh) * 2016-05-04 2018-12-21 深圳华大生命科学研究院 利用dna存储文本信息的方法、其解码方法及应用
CN109830263A (zh) * 2019-01-30 2019-05-31 东南大学 一种基于寡核苷酸序列编码存储的dna存储方法
WO2019224816A1 (en) * 2018-05-21 2019-11-28 Technion Research And Development Foundation Ltd. Molecular data storage systems and methods

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050053968A1 (en) * 2003-03-31 2005-03-10 Council Of Scientific And Industrial Research Method for storing information in DNA
CN107055468A (zh) * 2012-06-01 2017-08-18 欧洲分子生物学实验室 Dna中数字信息的高容量存储
US20170141793A1 (en) * 2015-11-13 2017-05-18 Microsoft Technology Licensing, Llc Error correction for nucleotide data stores
US10650312B2 (en) * 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
WO2018102064A1 (en) * 2016-11-30 2018-06-07 Microsoft Technology Licensing, Llc. Dna random access storage system via ligation
US10726110B2 (en) * 2017-03-01 2020-07-28 Seven Bridges Genomics, Inc. Watermarking for data security in bioinformatic sequence analysis

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
CN104850760A (zh) * 2015-03-27 2015-08-19 苏州泓迅生物科技有限公司 带有编码信息的人工合成dna存储介质及信息的存储读取方法和应用
CN109074424A (zh) * 2016-05-04 2018-12-21 深圳华大生命科学研究院 利用dna存储文本信息的方法、其解码方法及应用
WO2018148257A1 (en) * 2017-02-13 2018-08-16 Thomson Licensing Apparatus, method and system for digital information storage in deoxyribonucleic acid (dna)
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法
WO2019224816A1 (en) * 2018-05-21 2019-11-28 Technion Research And Development Foundation Ltd. Molecular data storage systems and methods
CN109830263A (zh) * 2019-01-30 2019-05-31 东南大学 一种基于寡核苷酸序列编码存储的dna存储方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A DNA-Based Archival Storage System;James Bornholt 等;《ASPLOS"16:Proceedings of the Twenty-First International Conference on Architectural Support for Programming Languages and Operating Systems》;20160325;637-649 *
DNA存储中的编码技术;毕昆等;《生物信息学》;20200420;第18卷(第02期);76-85 *
High capacity DNA data storage with variable-length Oligonucleotides using repeat accumulate code and hybrid mapping;Yixin Wang 等;《Journal of Biological Engineering》;20191121;第89卷(第2019期);1-11 *
基于合成DNA的数字信息储存和读取系统;李彦敏等;《中国科学:生命科学》;20180120;第48卷(第01期);102-104 *

Also Published As

Publication number Publication date
CN111680797A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
US20230376788A1 (en) Nucleic acid-based data storage
AU2012272161B2 (en) Methods and systems for data analysis
Su et al. Next-generation sequencing and its applications in molecular diagnostics
US20180137418A1 (en) Nucleic acid-based data storage
AU2004280531B2 (en) Counting exact word matches in genomes
US20160364523A1 (en) Systems and methods for identifying microorganisms
US20170237445A1 (en) Methods and systems for data analysis and compression
KR20190117529A (ko) 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템
US20230395198A1 (en) Dna random access storage system via ligation
WO2017083177A1 (en) Error correction for nucleotide data stores
WO2012031029A2 (en) Method and systems for processing polymeric sequence data and related information
US20140329690A1 (en) Providing nucleotide sequence data
US8412462B1 (en) Methods and systems for processing genomic data
CA3139819A1 (en) Data structures and operations for searching, computing, and indexing in dna-based data storage
CN111680797B (zh) 一种dna活字印刷机、基于dna的数据存储设备和方法
US20230245720A1 (en) Whole pool amplification and in-sequencer randon-access of data encoded by polynucleotides
CN109658981B (zh) 一种单细胞测序的数据分类方法
US20020119458A1 (en) Novel computation with nucleic acid molecules, computer and software for computing
US20220028497A1 (en) Methods and systems for non-destructively storing, accessing, and editing information using nucleic acids
US10752958B2 (en) Identification of microorganisms from genome sequencing data
WO2023177864A1 (en) Combinatorial enumeration and search for nucleic acid-based data storage
JP2001258568A (ja) プライマー設計システム
Ruiz Padilla Characterization of the agent causing a new disease in leek (Allium ampeloprasum var-borrum) fields by RNA-Seq
de Jesus Soares Machado et al. Biotext: Exploiting Biological-Text Format for Text Mining
Shtratnikova et al. Genome Sequencing of Steroid-Producing Bacteria with Illumina Technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant