CN112449716A

CN112449716A - 一种使用dna分子存储信息的方法

Info

Publication number: CN112449716A
Application number: CN201980038188.XA
Authority: CN
Inventors: R·斯蒂尔帕罗; J·库尔斯; F·丹纳; M·穆瓦瑟; J·费尔南德斯加西亚; A·安米拉蒂
Original assignee: Katholieke Universiteit Leuven; Vlaams Instituut voor Biotechnologie VIB
Current assignee: Katholieke Universiteit Leuven; Vlaams Instituut voor Biotechnologie VIB
Priority date: 2018-06-07
Filing date: 2019-06-07
Publication date: 2021-03-05
Also published as: US20210210171A1; EP3803882A1; WO2019234213A1; CA3102468A1

Abstract

公开了一种使用DNA分子存储信息的方法。该方法包括将信息文件转换为多个片段(100)，其中多个片段包含多个字节。该多个字节使用多个字典中的选定者将其转换为多个核苷酸(110)，并且构建包含多个核苷酸和多个字典中所使用者的标识的文件单元(120，130，140)。最终，从构建的文件合成多个DNA分子(150)。

Description

一种使用DNA分子存储信息的方法

技术领域

本发明涉及一种使用DNA分子存储信息的方法。更准确地说，本文公开了一种新型的反向翻译方法。

发明背景

数据存储需求正在呈指数增长，目前每3年就会翻一番。按照这个速度，在未来30年内，将至少增加1000倍需要存储的信息。不幸的是，目前的信息存储技术已经消耗了太多的资源，因此数据存储很快就会变得不可持续。因此，产生了开发新的消耗的资源更少、占用的物理空间更小、且能长期稳定运行的存储介质的需求。

DNA是一种很有前途的数据存储介质。DNA存储系统所需的维护费用非常低，而且DNA分子可以数百年保持稳定。DNA分子是目前最紧凑的信息存储方式，从而降低了对物理空间的要求。然而目前的DNA存储系统也存在一些局限性。例如，同聚物、重复和G/C含量的不平衡，是目前与DNA合成和测序技术所不兼容的。DNA序列应当是倾向于随机的和高度多样性的，而将被编码在DNA分子的序列中数字数据，，往往是非常有序和可重复的。此外，DNA分子的合成、扩增和测序可能会产生一些突变，为了保持信息的准确性，需要采用冗余和校正算法。

在过去的几年里，已经有一些研究和专利申请证明，可以使用小的DNA分子(长度小于200个核苷酸的寡核苷酸)或较大的DNA分子(＞200个核苷酸)进行数据存储。数字信息已经以线性方式并/或通过首先随机化二进制信息源翻译成DNA。线性翻译方法的例子有Church等人(2012 Science 337:1628)使用基本算法将每个是0的位(bit)翻译成A/C，每个是1的位翻译成T/G，以及Goldman等人(2013Nature 494:77-80)将二进制码翻译成三进制码以避免同聚物。他们的国际专利申请分别是WO 2014/014991和WO 2013/178801，两者都教导了一种在DNA核苷酸中存储信息的方法。在这些专利申请中，寡核苷酸是合成的。然而，已经发现这些方法对长重复和突变相当敏感。结果是，这可能导致数字文件不能完整恢复，并从而丢失信息。

一种替代方法是先调整数字代码，以获得容易合成的DNA分子和预计后续测序存在的问题。例如，Organick等人(2018Nat Biotech 36:242-249)在随机化二进制源码后，将200兆字节的数据翻译成寡核苷酸。在另一方面，Yadzi等人(2017Scientific Reports 7:5011)则先对二进制文件进行压缩，以在一定程度上减少空间和避免重复。虽然使用了优化的方案以避免高G/C含量和/或同聚物，但一些片段仍然难以合成和/或测序。

其他讨论核酸中信息存储的论文例子包括Zhirnov等人(2016Nature Materials15:366-370)、Ehrlich和Zielinski(2017Science 355:950-954)和Tavella等人(2018，arXiv:1801.04774)。Tavella等人教导了一种解决方案，它可以将数字编码的信息存储到非运动细菌中，这些细菌组成了一个集群的档案架构，以后无论何时需要读取操作，都可以通过工程化运动细菌进行找回。Tavella等人采用了Goldman所描述的具有上述相关问题的编码方法。

发明概述

所有目前可行的将数字信息存储到核酸中的方式都是采用正向翻译的方法，即从数字代码到DNA代码。然而，虽然DNA合成和测序技术已经显著地进化了，但并不是所有的DNA分子都能以同样的效率和精度进行合成和/或测序。为了防止可能合成包含同聚物、重复或G/C含量不平衡的DNA分子，最近大多数的数据存储方法在翻译之前对二进制代码进行调整。因此，任何计算机翻译仍应检查其与当前的合成和测序要求的兼容性，并在需要时进行调整。

在此，申请人公开了一种反向翻译方法。本文描述的新型数据存储方法利用一组选定的和多样化的DNA元素，这些元素为合成和测序目的进行了优化。然后，来自所述DNA元素集(可视为"字典")的每个DNA元素(可视为"单词")被翻译成数字信息的一个不同的字节。这里提到一个由8位组成的字节作为非限制性的例子。DNA元素也可以被翻译成另一种数目的位的集合(strech)，例如4位、5位、6位或7位。有趣的是，如何将DNA元素(或"单词")翻译成(例如)一个字节的方式，即翻译密钥，可以被改变。因此，这种方法可以通过简单地改变翻译密钥来使用多个字典。本文所述的反向翻译方法与现有技术的数字数据存储方法相比具有几个优点。首先，由于优化的"单词"，由所述"单词"的组合构建的任何DNA片段都将被有效地合成和测序。第二，通过改变要翻译的每个数字元素(例如一个字节)的翻译密钥(从而改变使用的字典)，即使是高度重复的数字(例如二进制)代码也将被转换为高度多样化和随机化的DNA片段。第三，由于任何数字数据文件都可以被翻译成高度随机的DNA片段，因此可以合成编码大型数字数据片段的长DNA文件。可以将长DNA片段引入质粒中，与寡核苷酸相比，质粒更加稳定。此外，长DNA片段能显著提高信息密度。

因此，本文件教导了一种新颖的方法，以使数字数据存储到DNA分子中。该方法包括将代表数字数据的信息文件转换为多个片段，其中多个片段包含数字数据的多个二进制元素。在下一步中，使用多个字典中的选定者将多个二进制元素转换为多个核苷酸，然后构建文件单元。该文件单元包含多个核苷酸和多个字典中所使用者的标识(所谓的翻译密钥或"掩码"，见后文)。该文件单元还应包含表示该片段在信息文件中的位置的片段代码以及对应于文件编号的文件标识符。

该文件单元被传递给合成器，用于从构建的文件单元合成多个DNA分子，随后将多个合成的DNA分子存储起来。

另句话说，本申请在第一方面提供了一种使用DNA分子存储数字信息的方法，所述方法包括以下步骤。

-将数字信息文件转换为多个片段(100)，其中多个片段包含或可被转换为多个二进制元素；

-使用多个字典中的选定者将多个二进制元素转换为多个核苷酸(110)；

-构建包含多个核苷酸和多个字典中所使用者的识别的文件单元(120，130，140)；

-从构建的文件单元合成多个DNA分子(150)；以及

-存储多个合成的DNA分子。

本公开的方法能够将数字文件翻译成短的和长的DNA序列，而不考虑合成的限制。所用的字典包括多个成员(所谓"单词")。在一个实施方案中，多个成员由四个、五个或六个核苷酸组成。在特定的实施方案中，由五个或六个核苷酸组成的词典的所述成员彼此之间相差至少两个核苷酸。这通过减少由于其中一个核苷酸的突变而导致的错误，改善了后续读取DNA序列的准确性。

在进一步的实施方案中，多个字典中的不同的使用者用于转换(110)多个二进制元素中的一些元素。

在本公开的一个实例中，DNA分子是质粒。质粒是能够在细菌内自主复制的小环形DNA分子。在一个方面中，合成了两个或三个不同的质粒(但这不是对发明的限制)，并且其存储了数字数据的每个片段。在其中一个质粒中的信息不能被解码的情况下，那么还有一个或两个另外的质粒，它们编码相同的信息项目，并且能够可以从中解码包含该信息项目的片段。

在另一个实施方案中，提供了上述方法，其中文件单元还包括指示该片段在数字信息文件中的位置的片段代码。

在另一个方面，提供了DNA序列的集合，以构建本发明的方法所需的字典。这样的集合的一个实例是由6个核苷酸组成的DNA序列的集合，其中所述DNA序列彼此相差至少2个核苷酸，包含至少3个不同的核苷酸，不包括2个以上连续相同的核苷酸，并且不包括AGAG、ACAC、ATAT、GAGA、GCGC、GTGT、CACA、CGCG、CTCT、TATA、TCTC或TGTG中的任何一个。更特别地提供了一个由256个DNA序列组成的集合，其中至少50个DNA序列列于表3中。

在另一个方面，提供了一种用于将数字信息转换为DNA分子的计算机系统，所述计算机系统包括一个或多个处理器，并被配置为执行本发明的方法。在另一个方面，提供了一种用于将数字信息转换为DNA分子的计算机程序，该计算机程序包括指令，当计算机程序产品被计算机执行时，该指令使计算机实施发明的方法。

在另一个方面，提供了一种用于存储数字信息的装置，该装置包括存储系统，用于存储如本发明方法中所合成的核苷酸序列。

仍然在另一个方面，提供了一种从多个合成的DNA分子中的一个或多个找回数字信息的方法，其中所述合成的DNA分子编码多个编码数字信息的二进制元素，包括：

-扩增多个合成DNA分子中的一个或多个(160)；

-对扩增的合成DNA分子进行测序(170)；

-识别存储数字信息的核苷酸和用于将二进制元素转换为核苷酸的多个字典的信息(180)；

-使用识别的字典将核苷酸转换为多个二进制元素(180)；以及

-从多个二进制元素构建数字信息(180)。

所述方法任选地包括用于纠正错误的进一步步骤。在一个实施方案中，所述DNA分子是质粒。已经发现，该方法能够通过任何现有的测序技术，包括使用极小的测序装置的纳米孔技术，诸如但不限于GridION、MinION、SmidgION来读取DNA序列。众所周知，这些测序装置具有较高的错误率。本文档的方法可以容忍大量的突变。这是本文公开的方法与现有技术方法相比的优点之一。由于高容错性，DNA存储技术的生产成本可以得到降低，因为可以使用更便宜但不完善的DNA合成方法。

附图说明

图1显示了一般编码方法的工作流程。

图2显示了解码的工作流程。

图3显示了用于编码的照片的一个实例。

图4显示了如何使用多个字典中的选定者能够将字节翻译成DNA单词的一个例子。

图5显示了翻译密钥或掩码的一个例子。

图6显示了编码345个字节信息的1779个核苷酸长的DNA片段的一个例子。该DNA片段包含5个文件单元，每个文件单元由编码69个字节的345个核苷酸组成，掩码一式四份，两个拷贝的片段ID由每个拷贝16个核苷酸组成，两个拷贝的文件ID由每个拷贝3个核苷酸组成。

图7显示了一个编码148字节的信息的982个核苷酸长的DNA片段的例子。所述片段包含4个文件数据片段，每个片段由222个核苷酸(即37个6核苷酸的单词)、一个文件ID、片段ID和掩码ID组成。文件ID包含20个核苷酸并且一式两份，一份在DNA片段的起始处，一份在DNA片段的结束处。因此文件ID可用于PCR引物退火，从而用于在多个DNA片段中扩增出唯一特定的DNA片段。包含18个核苷酸的片段ID也是一式两份，以及6个核苷酸的掩码ID一式三份。

图8显示了编码34字节数字信息的200个核苷酸长的DNA片段的一个实例。所述片段包含1个由136个核苷酸(即34个4核苷酸的单词)、文件ID、片段ID(18个核苷酸)和掩码ID(4个核苷酸)组成的文件数据片段。文件ID包含20个核苷酸，一式两份，一份在DNA片段的开始处，一份在DNA片段的结束处。

图9显示了质粒编码方法的工作流程，其x可以是被任何整数，例如x是5。

图10显示了，使用纳米孔测序技术以获得编码的信息时，每个片段所需要的读段数(覆盖率)。显示了本文公开的方法(浅灰色)和Organick等人公开的方法(深灰色)之间的对比。

图11显示了先前已经被翻译成DNA的找回后的文本文件。

发明详述

现在将基于图示并相对于特定的实施方案来描述本发明。将被理解的是，本文描述的发明的实施方案和方面只是例子，并不以任何方式限制权利要求的保护范围。本发明由权利要求及其等同形式定义。将被理解的是，本发明的一个方面或实施方案的特征可以与本发明的不同的一个方面或多个方面和/或实施方案的特征相组合。

在本说明书和权利要求中使用术语"包括/包含(comprising)"时，并不排除其他元素或步骤。当指代单数名词时使用不定冠词或定冠词，如"a"或"an"，"the"，这包括该名词的复数，除非有其他特别说明。此外，说明书和权利要求中的术语第一、第二、第三等等，用于区分相似的元素，而不一定用于描述顺序或时间顺序。应当理解的是，如此使用的术语在适当的情况下是可以互换的，并且本文描述的发明的实施方案能够以不同于本文描述或图示的其它顺序操作。

本文使用的术语或定义仅是为了帮助理解本发明而提供的。除非本文特别定义，否则本文使用的所有术语具有与它们对于本发明的领域的技术人员而言相同的含义。从业人员特别要参考Sambrook等人(2012Molecular Cloning:A Laboratory Manual，第4版，Cold Spring Harbor Press，Plainsview，New York)和Ausubel等人(2016CurrentProtocols in Molecular Biology(Supplement 114),John Wiley&Sons,New York)以获得本领域的定义和术语。除非另有定义，本文使用的所有技术和科学术语具有与本领域(例如在分子生物学、生物化学、结构生物学和/或计算生物学中)普通技术人员通常理解的相同含义。

本申请涉及一种用于在DNA分子中存储数字信息的方法。该方法包括一种算法，该算法用于将包含数字数据的信息文件转换为核苷酸的人工序列，其随后能被合成。该方法是由发明人开发以将来自数字数据的二进制信息编码成核苷酸序列，其能够以高效准确的方式被合成和测序，而不需要对数字或DNA代码进行任何进一步优化。本发明的核心是生成一组优化的DNA元素(将被称为"单词")，在翻译过程中只使用所述DNA元素或单词，并且翻译密钥(即哪个DNA元素或单词对应于哪个数字信息元素)随着翻译过程变化。该方法已被用于转换多个不同的文件扩展名，其具有由于存在一长串相似数字而产生的复杂结构。本申请还教导将包含数字数据的合成的DNA片段克隆到质粒即环形DNA分子中。环状质粒极其稳定，因为不存在容易发生降解的末端。从而，在本文公开的方法中设想了质粒，以改进DNA编码数字信息的长期存储。

本公开的方法涉及三种工具：单词、字典和掩码。所述术语将在下文中详细解释。

单词(WORD)，一种优化的DNA元素

本文所用的"单词(word)"是指若干核苷酸(A C G T)的精确序列。由于核苷酸及其位置是相关的参数，因此可以生成最大256个(即4⁴个)不同的长度为4个核苷酸的单词，1024个(即4⁵个)不同的长度为5个核苷酸的单词，4096个(即4⁶个)不同的长度为6个核苷酸的单词等等。但是，词的长度和它所翻译的数据量是可以调整的。鉴于一个字节中有256种不同的8位的组合，单词的长度优选为至少4个核苷酸。在本文公开的实例中，申请人使用4、5或6个核苷酸的字来覆盖1个字节(8位)的数字信息。使用4个核苷酸的单词用于在寡核苷酸(<200个核苷酸)中存储数字数据，。使用5或6个核苷酸的单词用于在更长的DNA片段中存储数字数据，。然而，本领域技术人员将理解，这些例子并不限制本发明，并且单词的长度和数字信息量都可以在不偏离本文所述的发明的情况下进行调整。术语"单词"将在本文中与"DNA元素"可互换地使用。类比而言，术语"数字元素"将用于一个字节或具有可选长度(例如4、5、6、7、……位)的任一块数字信息，其与"单词"相对应。

在数字信息按字节划分的例子中，使用了每单词1个字节的编码，与4个核苷酸相比，5、6或更多核苷酸的字具有额外的优势。事实上，具有多于需要(一个字节的8位的256种可能组合)的可用的单词，允许进一步选择所述单词。例如，在1024或4096个可用的单词中分别只使用256个5或6个核苷酸的单词，可以提高DNA合成和/或测序过程的质量，从而可以改善数字数据到DNA的编码和解码，或者反之亦然。在一个非限制性方面，该方法规定，用于编码数字数据的每个词应具有至少两个核苷酸不同于任何其它要使用的词。尽管不是本发明必不可少的，但这种方法有利于纠错。例如，在任何一个词中的核苷酸发生单一突变的情况下，改变的(突变的)序列不能与其它255个词中的任何一个词相混淆，因此可以很容易地检测和纠正错误。在一个非限制性方面，该方法进一步指定，通过避免会限制长DNA片段的合成和测序效率的DNA元素来选择单词。优选从优化词的选择中去除的词的非限制性实例，是具有2个以上连续相似核苷酸的词(AAA、CCC、GGG、TTT)和包含以下模式之一的词。AGAG，ACAC，ATAT，GAGA，GCGC，GTGT，CACA，CGCG，CTCT，TATA，TCTC，TGTG。

DICTIONARY，将单词翻译成数字元素

一组或一套"单词"(如256个单词涵盖所有256个可能的字节)用于形成"字典"(一种哈希表)。"字典"定义了哪个字连接到哪个数字元素，例如字节。在字典中，例如256个单词中的每一个都对应于数字数据中的一个特定字节。不同的字典可以通过改变字典中单词的顺序来生成。一个这样的非限制性的实例显示在图4中。可以看到，在第一行中，6个核苷酸词"AGCATC"可以在不同的8位序列(或1个字节)中翻译。例如，在字典1中，"AGCATC"翻译成字节"00 00 00 00"，在字典2中翻译成"00 00 00 01"，在字典256中翻译成"11 11 1111"，等等。需要指出的是，这种转换只是示例性的，并不是对发明的限制。

总共可以使用256个字典(而不仅仅是图4中示出的五个)。在不同的字典中，同一单词(例如六种核苷酸的组)与数字数据的不同字节有关，如将在图4中看到的。因此，所有的字典相互之间都是不同的，在两个不同的字典之间没有一个单词具有从数字数据得到相同的翻译。因此，可能的字典数量从256！减少到256个。在数字代码多样化的情况下，有限数量的字典可能足以获得有效地合成和测序的随机化的DNA片段。在数字序列重复的情况下，对每个需要编码的字节使用不同的字典可能是必要的。

MASK，字典的随机化过程

字典允许将一块数字数据(例如一个字节)翻译成如上所描述和图4中所见的核苷酸序列(即单词)。当本文公开的方法用于将数字数据文件翻译成高度多样化的DNA片段时，该方法不断改变所使用的字典。然后使用不同的字典来翻译由单词编码的每一个数字信息元素(例如1个字节)。用于翻译数字文件的特定元素的字典的具体顺序由翻译密钥决定，本文称为"掩码"，并在图5中显示。

在图5中的例子中，使用第一"掩码"，数字文件的第一个字节将由字典4翻译。第二字节由字典2翻译，第三字节由字典256翻译，等等。同样的第一字节将在第二掩码中不是由字典4翻译，而是由不同的字典24翻译，在第三掩码中由字典56翻译，等等。

在一个实施方案中，该方法使用256个不同的掩码来翻译每个数字文件片段。因此，每个文件片段就可以被翻译成至少256个不同的DNA片段。然而，本领域技术人员将理解，这仅仅是本发明的说明，掩码的数量可以调整，并且不是对本申请的限制。作为一个非限制性的例子，并且仅仅是为了说明本文公开的反向翻译方法及其技术效果，如图5所示，使用掩码1转换由24次字节0组成的数字片段。然后，第一个字节将用GATCCT转换，第二个用CAGGTA转换，第三个用GGACAT转换，最后一个用AGCATC转换。这样，一个非常重复的数字片段就会使用掩码1转化在多样化的DNA片段GATCCTCAGGTAGGACATAGCATC中，掩码1的信息(即AGCCAT)随后添加到DNA片段中。

从数字数据到可存储的DNA片段

最后，被翻译成核苷酸的数字文件必须组织成DNA片段。本文所公开的发明与所有长度的DNA片段相容。为了说明和非限制性目的，在实例部分对于2种不同的片段类型进行了说明。第一种类型是"短寡核苷酸"(200个核苷酸或更少)，其是最便宜和最容易生产的。第二种类型是长的DNA片段(超过300个核苷酸)，其含有更多的信息和冗余用于纠正错误，但在合成和测序上更具挑战性。除了藏有数字信息的核苷酸序列外，还需要额外的信息。首先，需要关于使用了哪个翻译密钥或掩码的信息。该信息包含在掩码ID中，并确定在该特定片段中选择了哪个随机化过程。作为一个非限制性的例子，掩码ID可以是6个核苷酸长(如图5所示)。掩码ID可以更短(例如4个核苷酸)或更长。掩码ID越长，可以使用的掩码越多，并且当掩码ID会发生突变时被修正的可能性就越大。其次，需要一个片段ID来识别文件的哪一部分已经被翻译在该特定片段中。作为一个非限制性的例子，片段ID可以是18个核苷酸长。此外，为了获得对所选DNA片段的随机访问，每个DNA片段在起始和结束时都包含一个文件特定序列(例如20个核苷酸)，该序列可用于用DNA引物退火。

图1显示了以上解释的方法的工作流程。在第一步100中，数字数据被分割成数字片段。在一个实施方案中，所述片段的长度在20到100字节之间，在50到200字节之间，在100到350字节之间或在200到1000字节之间。然后，在步骤110中，使用本文公开的反向翻译原则，并如以上用图4和5所说明的那样，将这些数字片段中的每一个片段翻译成DNA片段。

图6、7或8中示出了如何构建可存储的DNA片段的非限制性例子，这取决于所使用的单词长度和/或DNA结构的种类(例如寡核苷酸或长DNA片段)。图6中的例子显示了通过使用长度为5个核苷酸的单词建立的片段，共1779个核苷酸。然后将该片段克隆到质粒中。图7显示了通过使用长度为6个核苷酸的词构建的982个核苷酸的DNA片段。图8显示了用4个核苷酸长度的单词构建的200个核苷酸片段。

在保存多个文件的情况下，每个文件都有一个特定的文件ID(120)。文件ID是一个DNA序列，对每个文件来说是特定的。在一些实施方案中，文件ID可用于用特异性引物进行退火，该引物可用于从池中仅扩增所选文件。接下来，通过插入片段ID(130)对每个DNA片段进行索引。片段ID是必要的，以便将每个片段从第一个到最后一个排序，从而以正确的顺序找回所有数据。此时，在(100)中生成的每个文件片段的二进制信息通过使用掩码进行翻译。合乎逻辑地，掩码ID因此也被插入到DNA片段(140)中。由此产生的DNA片段可以被合成和存储(150)。

质粒中的数据存储

如例1所示，使用本文公开的数据存储方法产生的DNA片段可以插入质粒中。质粒是极其稳定的，并且对变性有抵抗力，因此是理想的存储分子。例如可以通过使用市售文库TwistKan质粒作为载体生成文件质粒文库。

图9显示了使用质粒的方法的示例性工作流程。在第一步100中，数字数据被分割成片段。在一个实施方案中，所述片段的长度为20至100字节之间、50至200字节之间、100至350字节之间或200至1000字节之间。在一个最特别的实施方案中，所述片段具有345字节的长度。然后，在步骤110中，这些片段中的每一个都被翻译成DNA序列，随后在步骤150中克隆到载体中。

图6示出了将数字数据翻译成质粒的过程。作为一个非限制性的例子，图6中示出了五个插入物，每个插入物对应69字节的数字信息。对于技术人员来说，应该清楚的是，插入物的数量可以调整。

图6中显示了一个示例性质粒。在步骤120和130中插入的两个ID序列是文件ID和片段ID。文件ID在本例中由三个核苷酸组成，并且使得在一个库(即43)内能够存储多达64个不同的文件(即4³)。可以理解的是，三个核苷酸的文件ID是一个非限制性的例子，在方法的其它实施方案中，任何长度的核苷酸序列都可以用作文件ID。在本例中，片段ID由16个核苷酸组成，并定义了文件的哪一部分是在该特定质粒中编码的。类似于文件ID，片段ID的长度并不限制本发明，在替代性实施方案中，任何长度的核苷酸序列都可以用作片段ID。

在5个插入物的每个部分之间，在步骤140中还插入了4个其他ID码，每个ID码的长度为4个核苷酸(在本例中)，为掩码编码。这个插入的ID基本上定义了已经用于编码该特定文件分割部分的字典顺序。可以理解的是，任何长度的核苷酸序列都可以用作掩码。这总共建立了(在这个非限制性的例子中)一个具有1779个核苷酸的编码片段(图6)，在这个例子中，然后可以在步骤150中合成该片段。

除了质粒的存储和稳定性优点(如上所描述)外，得到的质粒可以插入微生物，例如细菌中。所述微生物可以例如在-80℃下存储，代替存储合成的DNA分子。然而，更有趣的是所述微生物可用于扩增包含数字信息的质粒。事实上，当复制所需的分子元素存在于所述质粒的骨架中时，所述细菌可以很容易地将质粒扩增到很高的水平。

此外，使用质粒来存储数字信息，还可以使得更高级的编目系统结合访问特定文件的附加工具成为可能。通过以包含章节的读本为例，更详细地解释这一原理。整体的数字文件，即读本，可以被划分为数字片段，其例如代表所述书的章节。所述数字片段将被进一步划分为更小的数字片段，例如首先是所述章节的页，并进一步是所述页上的句子。然后，所有最小的数字片段，例如读本第y章第x页的所有句子都可以存储在包含相同标记(例如抗生素卡那霉素的抗性基因)的具有相同骨架的质粒中。当只需要找回第y章第x页的信息时，将使细菌集合在具有相应抗生素的培养基上生长。在下一步中，经选择的细菌的质粒被分离出来。随后，在要进行测序步骤之前，可以利用合成的DNA片段中的文件特异性序列(见上文)来扩增非常具体的数字信息(例如，第y章第x页的第15句)。

如这里公开，在应用的第一个方面，提供了一种利用DNA分子存储信息的方法。所述方法包括以下步骤：

(a)将信息文件转换为多个片段(100)，其中多个片段包含或可被转换为多个二进制元素；

(b)使用多个字典中的选定者将多个二进制元素转换为多个核苷酸(110)。

(c)构建包含多个核苷酸和多个字典中所使用者的标识的文件单元(120，130，140)。

(d)从构建的文件单元合成多个DNA分子(150)；以及

(e)存储多个合成的DNA分子。

在一个实施方案中，所述信息是数字信息。在一个更具体的实施方案中，所述数字信息是二进制信息。在一个实施方案中，步骤(a)中的多个片段是多个数字片段或数字信息的片段、更具体地是二进制信息的片段。在另一个实施方案中，所述多个数字片段或数字/二进制信息的片段包含多个数字元素，其中所述数字元素是或可被转换为由3、4、5、6、7或8位组成或由9至12之间位组成或由10至15之间位组成或由16至25之间位组成的二进制元素。在一个特定的实施方案中，所述多个二进制元素是多个字节。

在一个实施方案中，所述多个核苷酸是多个DNA元素或如当前说明书中的定义所定义的"单词"。

在一个实施方案中，所述文件单元还另外包含来自信息文件的哪个(数字)片段被转换为所述多个核苷酸的标识，或者所述文件单元进一步包含指示(数字)片段在(数字)信息文件中的位置的片段代码。

在一个具体的实施方案中，所述多个字典包括多个DNA元素或如当前说明书中的定义所定义的"单词"。在一个更具体的实施方案中，所述DNA元素由四个、五个或六个核苷酸组成。在一个甚至更加具体的实施方案中，来自所述多个字典的所述DNA元素彼此相差至少两个核苷酸。在一个实施方案中，所述多个字典中的一个用于转换(110)多个二进制元素(更具体地字节)中的多个。在一个更具体的实施方案中，所述步骤(b)中的多个二进制元素通过多个字典中的不同字典转换为多个核苷酸。在甚至更具体的实施方案中，所述多个二进制元素中的每个二进制元素由不同的字典转换。

在特定的实施方案中，在步骤(d)和(e)之间增加了一个步骤，所述步骤为将两个或多个合成的DNA分子合并成一个质粒。所述合并可以通过技术人员熟悉的分子技术来完成，例如传统的分子克隆。在其他实施方案中，在步骤(c)和(d)之间增加了一个步骤，所述步骤为将两个或多个构建的文件单元合并成一个质粒。所述合并可以在计算机中完成，之后在步骤(d)中合成质粒。在这两种情况下，在所述扩展方法的最后步骤中，将得到的质粒或多个质粒储存起来。在另一个实施方案中，每个数字片段生成并存储至少两个或至少三个质粒。在一个具体的实施方案中，3至6个，或4至8个或5至10个合成的DNA分子合并成一个质粒。在更具体的实施方案中，所述质粒包含一个分子标记。在甚至更加具体的实施方案中，所述质粒包含一个或多个抗生素抗性基因，诸如"amp"对于氨苄西林，"strA"对于链霉素等。

以上公开的一些方法步骤可以是计算机执行的。使用多个字典中的选定者将多个二进制元素转换为多个核苷酸(110)的步骤最好是由计算机执行的。构建包含多个核苷酸和多个字典中所使用者的标识的文件单元(120，130，140)的步骤最好是计算机执行的。因此，根据第一个方面的方法可以是计算机执行的方法。

在第二个方面，本发明提供了一种用于将数字信息转换为DNA、DNA分子或核苷酸的计算机系统。该计算机系统包括一个或多个处理器。该计算机系统被配置用于实施根据本发明第一方面的方法。

在第三个方面，本发明提供了一种计算机程序产品，用于将数字信息转换为DNA、DNA分子或核苷酸，或用于使用多个字典中的选定者将多个二进制元素转换为多个核苷酸。该计算机程序产品包括指令，当该计算机程序产品被计算机(诸如根据本发明第二个方面的计算机系统)运行时，该指令使计算机实施根据本发明第一个方面的方法。在第四个方面，本发明还可以提供一种有形永久的计算机可读数据载体，包含计算机程序产品。还提供了一种用于存储数字信息的装置，所述装置包括用于存储根据本发明第一个方面的方法合成的DNA分子或核苷酸序列的存储系统。

在第五个方面，提供了一种DNA元素的集合，其中所述DNA元素由5个核苷酸组成，并且所述DNA元素彼此之间至少相差2个核苷酸。在一个实施方案中，所述集合包含至少50个DNA元素、至少100个DNA元素、至少150个DNA元素或至少200个DNA元素。在一个具体的实施方案中，所述核苷酸选自由A、T、G和C组成的列表。在一个最具体的实施方案中，所述集合由表1中描述的256个DNA元素组成。

在第六个方面，提供了一种由6个核苷酸组成的DNA元素或DNA序列的集合(其中所述DNA元素或序列彼此相差至少2个核苷酸)，包含至少3个不同的核苷酸，不包含2个以上连续相同的核苷酸，并且不包含AGAG、ACAC、ATAT、GAGA、GCGC、GTGT、CACA、CGCG、CTCT、TATA、TCTC或TGTG中的任何。在一个实施方案中，所述集合包含至少50个DNA元素、至少100个DNA元素、至少150个DNA元素或至少200个DNA元素。更具体地，所述至少50个DNA元素、至少100个DNA元素、至少150个DNA元素或至少200个DNA元素列于表2中。在一个具体的实施方案中，所述核苷酸选自由A、T、G和C组成的列表。在一个最具体的实施方案中，所述集合由表3中描述的256个DNA元素组成。

在第七个方面，提供了一种从多个合成的DNA分子中的一个或多个找回数字信息的方法，其中所述合成的DNA分子编码了多个编码数字信息的二进制元素，并且其中所述多个二进制元素使用多个字典中选定的或不同的字典转换为所述DNA分子，所述方法包括以下步骤。

(a)扩增(160)多个合成的DNA分子中的一个或多个。

(b)对扩增后的合成DNA分子进行测序(170)。

(c)识别存储数字信息和存储所述多个字典中选定的或不同的字典的信息的核苷酸(180)。

(d)使用识别的字典将核苷酸(180)转换为多个二进制元素；以及

(e)从多个二进制元素构建(180)数字信息。

在一个实施方案中，所述二进制元素由3、4、5、6、7或8位或9至12之间位或由10至15之间位或由16至25之间位组成。在一个特定的实施方案中，所述多个二进制元素为多个字节。

在一个实施方案中，所述"存储数字信息的核苷酸"为多个DNA元素或如当前说明书中的定义所定义的"单词"，并且所述"存储字典的核苷酸"包含如当前说明书中的定义所定义的多个字典中所使用者的标识，或由其组成。

在一个实施方案中，所述方法还包括识别核苷酸的步骤，所述核苷酸存储了(数字)信息文件中的哪个(数字)片段被转换为DNA分子的信息；或者，所述方法还包括识别片段代码的步骤，所述片段代码指示(数字)片段在(数字)信息文件中的位置的片段代码。

在另一个实施方案中，所述方法还包括纠正错误的步骤。

本领域技术人员知道可用于对如步骤(a)和(b)中所述的DNA分子进行扩增和测序的分子技术。

根据本发明第七方面的方法中的一些方法步骤可以用计算机执行。识别存储数字信息和存储所述多个字典中选定的或不同的字典的信息的核苷酸的步骤(180)优选是计算机执行的。使用识别的字典将核苷酸转换为多个二进制元素的步骤(180)优选地是计算机执行的。从多个二进制元素构建数字信息的步骤(180)优选是计算机执行的。因此，根据第七方面的方法可以是计算机实现的方法。

实施例

在本申请中，申请人公开了一种新的方法，即一种将数字信息转化为DNA的反向翻译方法，反之亦然。下面的实施例演示了如何将该方法及其修改还原到实践(reduced topractice)中。

实施例1.由5个核苷酸单词制成的DNA片段。

为了测试该方法，我们使用了两个彼此完全不同的挑战性文件：但丁的DivinaCommedia诗文的第一页，和如图3所示的为此目的改编的黑白PNG图片。Divina CommediaTXT文件(1380字节)具有挑战性，因为该文件包含很多不同的字节或字符。选择的图像(3450字节)具有挑战性，原因正好相反。它包含一连串的5832次比特0。这样的重复性文件既不能用Goldman编码比特-核苷酸标准方式翻译，也不能通过基本编码方式翻译。术语"基本编码"是指采用将两位翻译成一个核苷酸的编码，例如00翻译成A，01翻译成G，01成C，11翻译成T。与1比特对1核苷酸编码类似，由于0或1的重复会产生长串的重复，如寡聚物，因此基本编码与目前的合成和测序方法不相容。

决定将这两个文件分成69个字节的片段，并使用5个核苷酸的"单词"(见说明书详细内容)。创建了一个DNA元素的集合，由256个不同的包含5个核苷酸的单词组成，其中每个词彼此之间至少有2个核苷酸的差异(表1)。

如前所描述，使用表1中的5核苷酸单词的集合，生成了256个不同的字典。接下来并在图5中示出的是，定义了掩码(或另一种措辞：翻译密钥)，描述了哪些字典将用于需要被翻译成DNA元素或单词的连续字节。通过这样做，所有345字节长的数字片段被翻译成5个每个345个核苷酸的DNA片段，并添加了由4个核苷酸组成的掩码ID，其确定使用字典的哪种组合。

共合成了8个用于Divina Commedia的质粒和20个用于图3的图片的质粒。此外，为了以后有更多的克隆灵活性，我们选择了不包含EcoRI和BamHI限制性位点的质粒(即分别为GTTAAC和GGATCC)。我们使用的所有片段和掩码的列表可以在表2中找到。

表1.一组256个不同的5个核苷酸长的DNA序列(本文称为"单词")

根据三个不同类型的DNA合成商业公司(Twist Bioscience、IDT和SGI-DNA)，所有获得的DNA片段都被发现是可合成的。合成是做成逻辑重复，所以有冗余，以最小化任何错误的影响。这种编码方法学的一个优点是，我们可以合成任意文件的多个不同逻辑副本。

表2.所有使用的掩码和用于编码Divina Commedia的第一页和图3的图像而合成的质粒。

除了这些湿生物学实验外，该方法还用另外3个不同的文件进行了计算机测试：一个PDF文件、一个彩色图像和一个MP3音频文件。所有附加测试的文件都产生了对于所有三个不同商业公司都可合成的序列。

我们推断，出于存储目的，将获得的DNA片段克隆在质粒中可能是有利的(图9)。众所周知，与线性DNA分子相比，质粒是更稳定和抗降解的。因此，生成了包含5个各为345个核苷酸长的DNA片段的插入物(图9中的步骤220)连同它们相应的文件ID、片段ID和掩码ID(步骤230和240)的质粒。然而，应该明确的是，克隆到质粒中是可选的，并且不限制本文公开的方法。

在合成了文件(步骤250)，并可选地克隆到质粒中之后，在步骤160中对它们进行测序，以找回信息，如图2所示。从合成的DNA分子中找回数字信息的方法包括在步骤160中扩增DNA序列，在步骤170中对分子进行测序，在步骤180中读出结果。步骤180可以包括错误检测和校正。简言之，对来自步骤170的DNA序列进行检查，以确认每个序列都包含有效的ID和"单词"。在发现无效DNA序列的情况下，可以对其进行校正，或者不可能校正时，只是排除。

对于Divina Commedia文件和PNG图像，使用极低的稀释度(<0.1pg的DNA)作为用于在步骤160中扩增DNA序列的模板，成功地进行了Sanger测序。我们没有发现突变或质粒丢失。此外，使用NanoSim模拟器(一种可扩展的读取模拟器，可捕获ONT数据的技术特定特征)和pIRS(基于配置文件的Illumina双端读取模拟器)模拟测序，以检查文件是否与Illumina NGS和Gridion Oxford Nanopore测序技术兼容。结果发现，模拟测序后没有错误存在，而且该方法能够在步骤180中用两种测序方法找回到文件中的所有信息。

数据变成DNA存储的一个限制是，合成、扩增、测序和老化等过程中可能引入的突变、丢失和错误的风险。特别是所述DNA改变的数量将是至关重要的。

为了挑战逆向翻译方法，在计算机中引入了不同数量和类型的突变，然后测试该方法是否能够找回文件中的信息。这些模拟结果显示，在我们100％的质粒中引入一个随机突变(插入、删除或替换)后，是可以从文件中检索信息的，10次中有10次。突变的数量也增加到在我们的质粒内每100个碱基对就有一个突变。该方法能够在10次随机试验中10次找回文件。

实施例2.由6个核苷酸单词组成的长DNA片段

接下来，演示了使用不同的字长(即6个核苷酸)。6个核苷酸单词的优点是，该方法可以为了合成长DNA片段以及为了测序技术诸如牛津纳米孔技术(其每读数的错误率相当高)进一步优化。

从4096种6个核苷酸的可能组合(4⁶个)中，选出一个256个单词的组(表3)。我们生成的每一个6个核苷酸的单词都经过了几个优化步骤。我们发现，所述词必须满足以下标准。

(i)每个词不能包含超过2个连续的相似核苷酸(AAA,CCC,GGG,TTT)。

(ii)每个词必须由至少3个不同的核苷酸组成。

(iii)以下模式在一个单词内部是禁止的：AGAG、ACAC、ATAT、GAGA、GCGC、GTGT、CACA、CGCG、CTCT、TATA、TCTC或TGTG。

(iv)每个单词必须包含至少2个与其他单词相差异的核苷酸，或所有单词彼此之间相差至少2个核苷酸。

在用这些参数创建的688个有效单词中，选择了256个词来创建词典。选择情况如表3所示。

表3. 256个不同的6核苷酸长度DNA序列(以下简称"单词")的组

通过使用本公开的反向翻译方法和由256个优化的6个核苷酸的单词组成的多个词典，研究了是否可以将数字文件翻译成长的DNA片段(如图7所示)。每个片段的长度为982个核苷酸，编码148个字节。每个字节已被转换为每个6个核苷酸的DNA序列(表3)。两个20bps的文件ID序列已被包括在片段的每一个末端，发挥作为正向和反向引物的退火序列的功能。此外，片段中还包括了2个各18个碱基对的片段ID(步骤130)和3个各6个碱基对的掩码ID(步骤140)。由此得到的982个核苷酸的片段可以从IDT以gBlocks的形式订购，其是高质量(低突变率和高纯化率)的DNA片段。

三家最重要的商业合成公司(IDT、SGI-DNA和Twist Bioscience)的质量检查算法得到结果是对于200Mb的txt文件在计算机上达到了100％的合成效率。

接下来，通过模拟牛津纳米孔技术(ONT)对一个翻译成DNA的200Mb txt文件测序，测试了我们方法的纠错效率。我们逐步增加了每个读段的错误数量，从6％到12％，分为30％的删除，30％的插入和40％的替换(这是ONT测序中出现的频率)，并模拟为了找回文件所需的覆盖率。我们将我们的结果与Organick等人进行的类似模拟(2018Nat Biotech 36:242-249)进行了比较。令人惊讶的是，与Organick等人相比，当前的方法需要更低的覆盖率。(图10)。

之后，用体外的真实实验来测试合成效率。我们翻译了一个7000字节的txt文件，揭示了从维基百科上检索到的20世纪最重要的女科学家名单(listoffemalescientists20cen.zip)，以及一张罗莎琳德-富兰克林的黑白照片(11900字节)。由于版权原因，本文未转载罗莎琳德-富兰克林的图片。我们总共对27972字节进行了编码，其中包括18900字节的数据和9072字节的Reed-Solomon冗余内容，Reed-Solomon冗余是一种纠错码，用于在特定序列中找回损坏数据或错误。该文件已如前所描述进行了翻译(如图7所示)，总共189个DNA片段("txt"文件70个，"图片"文件119个)，每个片段982个核苷酸，从IDT中以gBlocks订购。最终达到每核苷酸0.81位的密度。

随后，使用来自ONT的MiniON对所有片段进行测序，并计算错误率。有趣的是，由于只使用了易于被读取的优化结构，因此得到了约为10％的每次读取的错误率。其他工作(如Yadzi等人或Organick等人)通常有大约20％以上的错误。此外，通过只使用70个编码"txt文件"的片段的700个读段(即通过读取片段ID每个片段随机选择10个读段)，我们能够在没有任何错误的情况下找回文件(图11)。与本文所公开的方法相比，其他工作(例如Yadzi等人或Organick等人)通常需要大约4倍更多的覆盖率(每个片段的读段数)。

对于技术人员来说，很明显，实施方案2所解释的方法与将DNA片段存储到质粒中也是相容的。

实施例3.用4个核苷酸单词组成的寡核苷酸

因为合成成本随着片段长度的增加而增加，所以大多数数据到DNA(data-into-DNA)的存储方法都是利用寡核苷酸，即小于100个核苷酸的DNA片段。在这里，证明了本发明与寡核苷酸也是完全相容的。对于这种方法，我们决定使用4个核苷酸的单词。

在数字信息片段将按字节编码的情况下，将生成用于256个不同字节的转换的字典。当将使用4个核苷酸的单词时(见表4的256个不同的4个核苷酸的单词的集合)，将从而不可能从256个可能的词中进行选择。然而，仍然可以通过从不同的掩码池中选择掩码来创建不包含任何难以合成的序列结构的寡核苷酸(例如AAAA)。

表4. 256个不同的4核苷酸长度DNA序列(以下简称"单词")的组

图8中总结了用于寡核苷酸的结构。两个20bps的文件ID序列已被包括在片段的每一个末端，发挥作为正向和反向引物的退火序列的功能。在正向引物序列之后添加了一个18个碱基对的片段ID(步骤130)。在反向引物序列之前，已经添加了各6个碱基对的掩码ID(步骤140)。在中间，34个4个核苷酸的"单词"每个翻译34个字节的信息。寡核苷酸的长度总共为200bps。值得注意的是，在这种情况下，之前生成的所有688个6个核苷酸的单词都被用来生成掩码ID。这样一来，可以生成更多的寡核苷酸组合，选择也可以更严格。

作为数据到DNA(data-to-DNA)翻译工作如何运作和核酸如何构建的一个实例，以下68位/字符的句子的翻译："This txt file is our first test to store digitalinformation in DNA."如下所示。所述句子被翻译成以下2个示例性的寡核苷酸，每个寡核苷酸由一个文件ID(正向和反向)、一个片段ID、34个字节的数据和一个掩码ID组成。

第一个寡核苷酸:

正向引物文件ID(文件1):AAGGCAAGTTGTTACCAGCA

片段ID(片段1):TTATTGTCGCCGACGGCG

数据(34字节):

ATGGCACCGATTTCCCGTAGCATCGATGGCAGTCCGTCTTTGGTTACCTCCGCATCCGCAACATCTGGCAGTACAATTTACAATGCGTGTTAAGGGTCTATCATGGCAAAGTAGTCTACTCACAGTCGACCTCGGA

掩码ID(23):

反向引物文件ID(文件1):TTGGTTTGATTACGGTCGCA

第二个寡核苷酸:

正向引物文件ID(文件1):AAGGCAAGTTGTTACCAGCA

片段ID(片段2):TGGAGTTGCATCATAACA

数据(34字节):

TGAGCCTCCGGCTATCTTGCAGGTATGGATAGATGGTCCGGTATACCGTCCAAGACTATGGCTCGGCGTCATTGGTCTGGGAAGCACCTAGTGTTGTAGCAGGGACTATGCGGCATCGCTACTCCCTACGTAAGTAC

掩码ID(294):

反向引物文件ID(文件1):TGGTTTGATTACGGTCGCA