CN104520864B

CN104520864B - Dna中数字信息的高容量存储

Info

Publication number: CN104520864B
Application number: CN201380028511.8A
Authority: CN
Inventors: 尼克·高曼; 约翰·伯尼
Original assignee: Europaisches Laboratorium fuer Molekularbiologie EMBL
Current assignee: Europaisches Laboratorium fuer Molekularbiologie EMBL
Priority date: 2012-06-01
Filing date: 2013-05-31
Publication date: 2017-09-05
Anticipated expiration: 2033-05-31
Also published as: IL235954A0; AU2018247323A1; IN2014DN09960A; IL277102B; IL277102A; EP2856375B1; JP6674518B2; KR20150016572A; CN104520864A; US20230214319A9; JP2015529864A; AU2024201484A1; EP3346404A1; CN107055468A; CA2874540A1; US20230281112A9; WO2013178801A2; RU2014152796A; JP2020119576A; DK2856375T3

Abstract

公开了一种存储信息项(210)的方法。该方法包括编码在信息项(210)中的字节(720)，并利用一方案以DNA核苷酸对所编码的字节进行表示，以产生DNA序列(230)。DNA序列(230)被拆分成若干个重叠的DNA片段(240)，且标引信息(250)被添加到若干个DNA片段上。最后，若干个DNA片段(240)被合成(790)并存储(795)。

Description

DNA中数字信息的高容量存储

技术领域

本公开涉及存储DNA中数字信息的方法和设备。

背景技术

DNA具备保持巨额数量信息的能力，易于以紧凑结构长期保存^1,2。利用DNA作为数字信息的存储器的想法自1995年³已经存在。DNA存储的物理实现迄今为止仅存储了微量的信息——典型的是少数英文文本的单词^4-8。发明人没有意识到编码在物理DNA中的大规模存储和对任意规格数字信息的还原，而非磁性基底或光学基底上的数据存储。

目前，DNA合成是集中应用于生物医药的专业技术。DNA合成的成本在过去的几十年已经稳步缩减。相比于磁带上的数据存储每过3至5年会少见但定期地转移到新介质，推断在什么时间段如本文所公开的DNA分子上的数据存储将会比其当前长期存档过程更具成本效益是有趣的。当前DNA合成的“现成”技术相当于一美元约100字节的价格。市场上可从Agilent科技(圣克拉拉，加利福尼亚州)购买的更时新的技术可能会大幅缩减该成本。然而，仍然需要建立账户，用于磁带介质之间的定期数据转移。问题是，该数据传递的成本，以及该成本是固定不变的还是随时间削减的。如果假定大量成本是固定不变的，则存在一个时间范围，其间利用DNA分子进行数据存储比常规磁带介质上的数据存储更具成本效益。在400年以后(至少80次介质转移)，利用DNA分子的数据存储可能已经具有成本效益。

本公开中描述了一种比先前使用的程序存储更多信息的实用编码解码程序。发明人已经对五个计算机文件进行编码——总共757051字节的(739kB)硬盘存储并具有约为5.2×10⁶比特的香农信息⁹——变为DNA码。发明人随后合成了该DNA，将该合成DNA从美国经英国运输到德国，对DNA进行测序并以100％的精确度重构了五个计算机文件。

该五个计算机文件包括一个英文语言文本(莎士比亚十四行诗的全部154句)，一个经典科技论文的PDF文件¹⁰，一个JPEG色彩的照片和一个MP3格式的音频文件，包含26秒的演讲(选自马丁路德金的演讲“我有一个梦想”)。该数据存储代表了近800倍于已知的先前基于DNA的存储的信息量，并涵盖了更丰富的数字格式。结果证明，DNA存储正逐渐成为现实，并可以在未来提供有成本效益的数字信息存档方法，且用于慢速存取、多年代存档任务可能已经具有成本效益。

现有技术

在易于获取的情况下^1,2，自1995年以来³，稳定存储信息的DNA高容量已经使得DNA成为极具吸引力的信息存储目标。除信息密度之外，DNA分子作为信息载体具有已证实的业绩记录，DNA分子的寿命已知，且事实上作为地球生命的基础，只要有基于DNA的智能生命体存在^1,2，操作、存储和读取DNA分子的方法将依然是持续技术创新的主题。基于活性载体DNA^5-8(在活体(in vivo)DNA分子中)和合成DNA^4,1(在离体(in vitro)DNA中)的数据存储系统已经被提出。在活体内的数据存储系统具有若干缺陷。这些缺陷包括对数量、染色体成分和在活性载体有机体中可操作而不影响DNA分子生存力的位置的限制。此种活性载体有机体的示例包括但不限于细菌。生存力的下降包括容量的缩减和信息编码方案的复杂度的增加。此外，胚系突变和体细胞突变将引发所保存信息的保真度和解码信息随时间下降，并可能引发对活DNA存储条件细致监管的需求。

相比之下，“分离的DNA”(即，离体DNA)更易于“写入”，且对几万年前^11-14的样本的非活DNA实例进行的例行还原显示，在易于获取且少量维护的环境下(即，寒冷，干燥和黑暗的环境)^15-17，良好制备的非活DNA样本应具有格外长的生命期限。

在DNA中进行信息(也称数据)存储的先前工作典型地集中于在DNA中以编码形式“写入”人类可读的消息，而后通过确定DNA的序列和解码该序列来“读取”该编码的人类可读的消息。在DNA计算领域的工作产生了原则上容许大型联合associative(相联)存储器的方案^3,18-20，但尚无将这项工作推进到实用DNA存储方案的尝试。图1示出了14个在先前研究中(在y轴标注对数刻度)被成功编码和还原的信息数量。为14个先前实验(空心圆)和本公开(实心圆)示出了点。以这种方式存储的最大数量的人类可读消息为1280个英文语言文本字符⁸，约相当于6500比特的香农信息⁹。

印度科学与工业研究委员会提交了一份序列号为US 2005/0053968(巴拉得瓦杰等)的美国专利申请，教导了一种在DNA中存储信息的方法。美国968号申请的方法包括使用编码方法，其利用4个DNA碱基表示拓展ASCII字符集中的每一个字符。于是产生了合成的DNA分子，其包括数字信息、加密密钥，并在每个侧面与引物序列相接。最后，合成的DNA被并入存储DNA。在DNA数量过大的情况下，信息可以被分裂成为若干片段。美国968号专利公开的方法可以通过匹配某片段的头端引物和下一片段的尾端引物来重构分裂的DNA片段。

已知其它描述了在DNA中存储信息的技术的专利文献。例如，美国专利6,312,911教导了一种密写方法，用于隐藏DNA中编码的消息。该方法包括运用基因组DNA样本隐藏DNA编码消息，随后进一步将DNA样本隐藏为微点。该美国911号专利的申请特别地用于机密信息的隐藏。这样的信息通常具有有限长度，因此文件不会讨论如何存储更长长度的信息项。相同的发明人提交了国际专利申请，并作为第WO 03/025123号国际公布公开。

发明内容

公开了一种用于存储信息项的方法。该方法包括编码在信息项中的字节。使用一方案(schema)由DNA核苷酸来表示该编码字节，产生计算机模拟(in-silico)的DNA序列。下一步，DNA序列被拆分成若干个重叠的DNA片段，且标引信息被添加到若干个DNA片段上。最后，若干个DNA片段被合成并存储。

对DNA片段添加标引信息意味着片段在表示信息项的DNA序列中的位置能够被单一识别。没有必要依赖头端引物与尾端引物的匹配。这使得，即使片段之一不能正确重现，也可以还原几乎整个信息项。如果不存在标引信息，则存在风险，也即，如果因“孤儿”(orphan)片段而导致片段不能够相互匹配，可能不能够正确重现整个信息项，所述孤儿片段是其在DNA序列中的位置不能清楚识别的片段。

利用重叠的DNA片段意味着在信息项的存储中写入了一定程度的冗余。如果某一DNA片段不能够被解码，则该编码字节仍然能够从相邻的DNA片段还原。因此冗余成为了系统的组成部分。

可以利用已知DNA合成技术制作DNA片段的若干个副本。这提供了额外程度的冗余，以使得信息项能够被解码，即使DNA片段中的某些副本损坏并不能被解码。

在发明的一个方面，用于解码的表示方案(representation schema)被设计为相邻的DNA核苷酸各不相同。这样增加了合成、重现和测序(读取)DNA片段的可靠性。

在本发明的进一步方面，向标引信息添加了奇偶校验(parity-check)。该奇偶校验使得错误合成、重现或测序被识别出来。奇偶校验能够被拓展(expanded)并包括纠错信息。

合成DNA片段的交替片段是反向互补的。它们在DNA中提供了额外的冗余度，并意味着如果任一DNA片段损坏，会有更多可得信息。

附图说明

图1为存储在DNA中并成功还原的信息数量的时间函数图；

图2示出了本公开方法的示例；

图3示出了存储随时间的成本效益的图示；

图4示出了自反向互补模式的基序；

图5示出了编码效率；

图6示出了误码率；

图7示出了方法的编码的流程图；

图8示出了方法的解码的流程图；

具体实施方式

迄今，实现实用DNA存储的主要挑战之一是根据指定(specified)设计创造长序列DNA的困难。DNA长序列要求存储大量数据文件，诸如长文本项和视频文件。更优选的是，利用每个设计的DNA的若干个副本的编码。该冗余防止了编码和解码错误，下文将做解释。使用基于独立的长DNA链的系统来编码每条(尤其是大量的)消息⁸不具有成本效益。发明人已开发了一种方法，运用与每个DNA片段相关的“标引”信息来指示DNA片段在假设编码整个消息的更长的DNA分子中的位置。

发明人运用编码理论的方法来加强DNA片段上的编码消息的可还原性，包括禁止DNA均聚物(即，存在不只一个相同碱基)，已知其在现存的高通量技术中具有更高的误码率。发明人进一步并入了简单的错误检测组件，类似于码中标引信息的奇偶校验位⁹。更复杂的方案，包括但不限于错误校正码⁹，以及当前切实用于信息学的、实质上任何形式的数字数据安全(例如，基于RAID的方案²¹)，可以在DNA存储方案3的未来发展中实现。

发明人选择了五个计算机文件进行编码，作为本公开DNA存储的概念验证。选择了使用一系列常见格式的文件，而非限制文件为人类可读信息。这演示了本公开的存储任意类型数字信息的教导。该文件包含莎士比亚十四行诗的全部154句(TXT格式)、参考文献10的全部文本和图像(PDF格式)、中等分辨率色彩的、欧洲分子生物学实验室-欧洲生物信息研究所的照片(JPEG 2000格式)、从马丁路德金的“我有一个梦想”的演讲中提取了26秒时长(MP3格式)，和一个定义霍夫曼代码的文件，本研究使用霍夫曼代码将字节转换为三进制数字(作为人类可读的文本文件)。

该选择用于DNA存储的五个文件如下：

wssnt10.txt—107738字节—ASCII文本格式。莎士比亚十四行诗的全部154句(来自古登堡计划，http://www.gutenberg.org/ebooks/1041)。

watsoncrick.pdf—280864字节—PDF格式文件。沃森和克里克(1953)描述DNA结构的文献¹⁰(经修正以实现更高的压缩率从而得到较小的文件，来自“自然”网站，http://www.nature.com/nature/dna50/archive.html)。

EBI.jp2—184264字节—JPEG 2000格式图像文件。欧洲分子生物学实验室-欧洲生物信息研究所(自行拍摄)的彩色照片(16.7M色彩，640 x 480像素分辨率)。

MLK_excerpt_VBR_45-85.mp3—168539字节—MP3格式声音文件。从马丁路德金的“我有一个梦想”的演讲中提取了26秒时长(来自http://www.americanrhetoric.com/speeches/mlkihaveadream.htm，经修正以实现更高的压缩率：可变比特率，典型为48-56kps；采样频率为44.1kHz)。

View_huff3.cd.new—15646字节—ASCII文件。定义本研究用来将字节转换为三进制数字(三进制数位)的霍夫曼代码的人类可读文件。

五个计算机文件一共包含757051字节，约等于5.2×10⁶位的香农信息，或800倍于作为先前最大已知存储量的、编码和还原的人类设计信息(见图1)。

对每个计算机文件进行DNA编码是用软件计算的，且该方法在图7中示出。在本文描述的本发明700的一个方面，包含每个计算机文件210的字节在步骤720处通过编码方案表示为不含均聚物的DNA序列230，用以产生编码文件220，以形成DNA序列230的五或六个碱基(见下)替换每个字节。构造用在编码方案中的码，以便容许接近有限运行长度通道(即无重复核苷酸)的最佳信息容量的直接编码。而将理解，也可以使用其他编码方案。

所得的计算机模拟的DNA序列230过长，而不易于标准低聚核苷酸合成的产生。每个DNA序列230因此在步骤730被拆分为重叠的片段240，其长度为100个碱基，具有重叠的75个碱基。为降低被引入碱基的任一特定排列中的系统合成错误风险，于是这些片段的交替片段在步骤740处被转变为它们的反向互补序列，意为每个碱基被“写入”四次，每个方向两次。每个片段在750处采用标引信息250进行扩充，加之简单的错误检测信息，标引信息250可确定片段240来源于哪个计算机文件以及在该文件210上的位置。标引信息250也在步骤760处作为无重复的DNA核苷酸进行编码，并在步骤770处被添加到DNA片段240的100个信息存储碱基。将理解，将DNA片段240分为具有重叠的75个碱基的100个碱基的长度纯粹是任意的。也可以使用其它长度和重叠部分，这并非是对本发明的限制。

总之，所有的五个计算机文件被153335串DNA所表示。每一串DNA包含117个核苷酸(编码原始数字信息和标引信息)。所使用的编码方案具有合成DNA的多个特征(例如统一的片段长度，无均聚物)，使该合成DNA明显不具有自然(生物)来源。因此，很明显合成DNA具有思虑周密的设计以及编码信息²。

如上所述，也可以使用其他对DNA片段240的编码方案，例如提供增强的错误校正性能。增加标引信息的数量将使其更明确，以便使得更多或更大的文件能够被编码。已经提出，嵌套引物分子存储器(NPMM)方案¹⁹达到了16.8M单一地址的实用最大容量²⁰，且似乎没有原因显示，本公开的方法不能超越它以使得几乎任意大量的信息能够被编码。

为了避开在DNA片段240中的系统模式，对编码方案的拓展可以是增加变动信息。尝试了两种途径。第一种途径包含对DNA片段240中的信息进行“洗牌”，如果知道“洗牌”的模式，可以恢复该信息。在本公开的一个方面，不同模式的洗牌被用于不同的DNA片段240。

另一个途径是在每个DNA片段240的信息中增加随机度。对此可运用一系列随机数字，利用该系列随机数字的模加，且这些数字包含编码到DNA片段240中的信息。如果知道所用的随机数字序列，则可以在解码中轻易地通过模减恢复该信息。在本发明的一个方面，不同系列的随机数字被用于不同的DNA片段240。

在步骤720处的数字信息编码执行如下：用软件编码存储在硬盘驱动器中的数字信息的五个计算机文件210(表示在图2A中)。五个计算机文件210中每个文件的每个字节在步骤720处被编码，并经由三进制数字(“三进制数位”0,1,2)表示为一系列DNA碱基，运用表1(下文)列出的为特定目的设计的霍夫曼代码来产生编码文件220。该示例性编码方案概括地在图2B中展示。256个可能字节中的每一个被5至6个三进制数位表示。随后，每个三进制数位被编码为从不同于上一个核苷酸(图2C)的三个核苷酸中选出的一个DNA核苷酸230。换言之，在为本公开的此方面所选的编码方案中，三个核苷酸中的每一个均与上一个不同，以保证没有均聚物。所得的DNA序列230在步骤730处被拆分为DNA片段240，具有100个碱基的长度，如图2D所示。每个DNA片段与上一个DNA片段重叠75个碱基，以便给予DNA片段一个易于合成并提供冗余的长度。交替的DNA片段是反向互补的。

标引信息250包括两个三进制数位用于文件识别(在该实现中，可区别3²＝9个文件)，12个三进制数位用于文件内部位置信息(每个文件3¹²＝531441个位置)，以及一个“奇偶校验”三进制数位。标引信息250在步骤760处编码为无重复的DNA核苷酸，并在步骤770处被添加到100个信息存储碱基上。每个标引的DNA片段240具有另一个碱基，在步骤780处添加到每一端，符合“无均聚物”的原则，其能够在实验的“读取”阶段表明整个DNA片段240是否为反向互补的。

总之，五个计算机文件210由153335串DNA表示，每串包含117个(1+100+2+12+1+1个)核苷酸(编码原始数字信息和标引信息)。

本文描述的本发明的方面中，每串数据编码组件可以包含香农信息，每DNA碱基5.07比特，其接近理论最佳的每DNA碱基5.05比特，用于运行长度限制为1的4进制通道。标引实现250容许3¹⁴＝4782969个单一数据位置。将用于指定文件和文件内部位置的标引三进制数位的数目从2到16增加，给出3¹⁶＝43046721个单一位置，超过了NPMM方案^19,20的16.8M的实用最大值。

步骤790处的DNA合成过程也用于向每个低聚核苷酸(低聚糖)的每一端并入33bp的衔接头，来促进在Illumina测序平台上的测序：

5’衔接头:ACACTCTTTCCCTACACGACGCTCTTCCGATCT

3’衔接头:AGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG

该153335个DNA片段设计240在步骤790处合成为三个不同的运行段(DNA片段240被随机地分入运行段)，利用上述^22,23新版的Agilent科技的OLS(低聚糖库合成)过程，为每个DNA片段设计生成约1.2x10⁷个副本。可以见到错误仅出现在每500个碱基中的一处，且对于DNA片段240的不同副本是独立出现的。Agilent科技调整了先前²⁴开发的酰胺三酯合成法，并在微阵列合成平台上就地使用了Agilent SurePrint的喷墨打印和流动池反应器技术。具有无水室的喷墨打印容许向二维平面表面的有限耦合区域传递非常小量的亚磷酰胺，得到成百上千增加的并行碱基。随后的氧化和脱三苯甲基在流动池反应器中实现。一旦DNA合成完成，低聚核苷酸将被从表面分离并去保护²⁵。

添加到DNA片段的衔接头使得DNA片段的若干个副本能够易于制作。没有衔接头的DNA片段将需要额外的化学过程来“启动”通过向DNA片段的端添加额外的组来合成若干个副本的化学过程。

利用超过千倍的亚磷酰胺和催化剂方案，可获得高达～99.8％的耦合效率。类似的，超过数百万倍的脱三苯甲基药剂驱使5’-羟基保护基团被移除，使之接近完成。在流动池反应器中的控制过程显著地降低了脱嘌呤作用，其为最普遍的副反应²²。可以并行合成高达244000个单一序列，并作为～1–10皮摩尔池的低聚糖传递。

冻干低聚糖的三个样本整晚在氨丁三醇缓冲剂中以4℃进行培养，通过移液管和涡流周期性混合，并最终在50℃下进行培养1小时，达到5ng/ml的浓度。因为有不溶性的物质残留，样本以4℃被另外静置5天，每天有2-4次混合。随后样本以50℃培养1小时、以68℃培养10分钟，并且从Ampure XP顺磁珠(贝克曼库尔特)上的剩余合成副产品中净化，并可以在步骤795处存储。测序和解码如图8所示。

该结合的低聚糖样本在步骤810处(利用设计为给予A/T与G/C相等处理²⁶的热循环仪环境的22个PCR周期)利用双末端Illumina PCR引物和高保真度AccuPrime试剂(试剂盒)被放大，Taq聚合酶和火球菌聚合酶具有耐热辅助蛋白。该放大的产品经磁珠净化且经Agilent 2100生物分析仪定量，并在Illumina HiSeq 2000上以双末端模式利用AYB软件测序，以产生104个碱基的读数。

数字信息解码执行如下：每个低聚糖的中央的91个碱基在步骤820处从两端进行测序，由此很明显要对全长(117个碱基)的低聚糖进行快速计算，并移除与设计不相符的序列读数。该序列读数在步骤830处利用精确的反向进行编码过程的计算机软件进行解码。出于进一步考虑，经奇偶校验的三进制数位表明有错、在任何阶段不能够准确解码、或被分配到重构的计算机文件的序列读数在步骤840处被舍弃。

在多个不同的经测序的DNA低聚糖上检测到每个解码文件的绝大多数位置，在步骤850处利用了简单多数表决来解决因DNA合成或测序错误引起的差异。程序860完成时，四或五个原始计算机文件210被精确重构。第五个文件需要人工干预来更正各有25个碱基的两个区域，它们没有从任何序列读数中还原。

在步骤850的解码过程中，注意到经计算机模拟重建的DNA层次(在解码之前，经由三进制至字节)的一个文件(最后确定是watsoncrick.pdf)包括两个各有25个碱基的区域，它们没有从任何一个序列读数中还原。给定解码的重叠片段结构，每个区域表明四个用于合成或测序的连贯片段均是无效的，因为四个连贯重叠片段中的任意一个均应含有与位置对应的碱基。对两个区域的检查表明，未检测到的碱基属于下一20碱基的基序的长距离重复。

5’GAGCATCTGCAGATGCTCAT 3’

注意到该基序的重复具有一个自反向互补的模式。其在图4中示出。

长距离的、自反向互补的DNA片段可能不易于利用Illumina双末端过程进行测序，因为DNA片段可能形成内部非线性的茎环结构，将抑制本文件中约定使用的合成测序反应。结果，经计算机模拟的DNA序列被修正以纠正该重复基序模式，而后经过随后的解码步骤。没有碰到进一步的问题，且最终的解码文件与文件watsoncrick.pdf精确匹配。将来可能用到确保在任一设计的DNA片段中没有长距离自互补区域存在的代码。

霍夫曼代码方案实例

表1示出了典型的霍夫曼代码方案实例，用于将字节值(0-255)转换为三进制。对于高度压缩的信息，每字节值应以相等频率出现，且每字节的三进制数位平均数将为(239*5+17*6)/256＝5.07。每字节的三进制数位理论最大数值为log(256)/log(3)＝5.05。

表1

文件的编码

该任意计算机文件210表示为字节的串(通常解释为和2⁸–1之间的一个数，即集合{0...255}之间的一个值)。串利用霍夫曼代码并转换为三进制数位进行编码。这产生了三进制数位的字符的串S₁。

现写下len()作为计算串S₁长度(以字符)的函数，并定义n＝len(S₁)。将n以三进制表示，并预设0s来产生三进制数位串S₂，由此len(S₂)＝20。形成串的级联S₄＝S₁.S₃.S₂,，其中S₃为最多选择24个零的串，由此len(S₄)为25的整数倍。

利用下表示出的方案，S₄转换为没有重复核苷酸(nt)的DNA字符{A,C,G,T}的串S₅。S₄的第一个三进制数位利用表的“A”行进行编码。对每下一个三进制数位，从前一个字符转换所定义的行中取字符。

表：确保无重复核苷酸的三进制至DNA的编码。

对每个要编码的三进制数位t，选择标记前一个核苷酸使用的行，和标记t的列，并利用对应的表格单元格中的nt进行编码。

定义N＝len(S₅)，并使2进制串的ID识别原始文件，且它在给定的实验中是单一的(在一次实验中容许来自不同文件的DNA混合)。将S5拆分成重叠的长度为100nt的DNA片段240，每个DNA片段240从前一个DNA片段240处偏移25nt。这意味着将有((N/25)-3)个DNA片段240，便利地标引为DNA片段i表示为F_i并包含(DNA)S₅的字符25i…25_i+99。

每个DNA片段F_i进一步处理如下：

如果i为奇数，反向互补该DNA片段F_i。

使i3作为i的三进制表示，添加足够的前导零，由此len(i3)＝12。计算ID中的奇数位的三进制数位和i3的和P，即ID₁+i3₁+i3₃+i3₅+i3₇+i3₉+i3₁₁。(P作为“奇偶性三进制数位”–类似于奇偶校验位–来校验有关ID和i的编码信息中的错误)。

形成标引信息250的串IX＝ID.i2.P(包含2+12+1＝15个三进制数位)。利用上表示出的相同策略，将IX的DNA-编码的(步骤760)版本添加到F_i，从由上一个字符F_i定义的代码表的行开始，给出标引片段F′_i。

通过预设A或T并将C或G添加到F′_i形成F″_i–可以随机选择A或T以及C或G，但总没有重复的核苷酸。这确保将已经在DNA测序过程中反向逆转(步骤240)的DNA片段240从没有逆转的片段中区别出来。前者以G|C开始，以T|A结束；后者以T|A开始，以G|C结束。

片段F″_I在步骤790处以实际DNA低聚核苷酸合成，并在步骤790处存储，且可提供给步骤820处的测序。

解码

在步骤720处的解码是简单的反向编码，从已测序的117个核苷酸长的DNA片段240F″_I开始。在DNA测序程序中的(例如，在PCR反应中)反向互补可以通过观察碎片是否以T|A开始、以G|C结束而被识别出来并用于随后的反转。随着这两个“方向”的核苷酸被移除，每个DNA片段240剩下的115个核苷酸可以被拆分成在先的100个“消息”核苷酸和剩下的15个“标引信息250”核苷酸。标引信息核苷酸250可以解码以确定文件标识符ID、位置标引i3和i，且通过测试奇偶性三进制数位P可以检测到错误。位置标引信息250容许构件DNA编码文件230，其可以利用以上编码表的反向转换为三进制，随后利用给定的霍夫曼代码转换为原始字节。

就数据存储的讨论

DNA存储相比传统的基于磁带的或基于磁盘的存储具有不同性能。在本实例中，～750kB的信息被合成了10pmol的DNA，给出了大约1太字节/克的信息存储密度。DNA存储不要求电源，且保守估计，可能保持(潜在地)活性几千年。

DNA存档也可以通过将PCR应用到成对引物，随后是等分(拆分)所得的DNA的方案，从而以大规模并行的方式复制DNA。在测序过程的该技术的实际证明中多次履行了该程序，但其也可以明确用于复制大规模信息，并在物理上将该信息发送到两个或多个位置。在多个位置存储该信息将为任何存档方案提供提供进一步的稳定性，其本身可被用于设施之间的巨大规模的数据复制操作。

该实例中的解码带宽为3.4比特/秒，相比于磁盘(约太比特/秒)或磁带(140兆比特/秒)，且时延也较高(本实例中为～20天)。人们希望将来的测序技术能够提高这几项因数。

对使用本公开的DNA存储或磁带存储进行存档的全部成本建模，表明主要的参数是在磁带存储技术和介质之间的转移频率和固定成本。图3示出了DNA存储为有成本效益的时间量程。上方的粗体曲线表示了平衡时间(x轴)，超过该点本公开中教导的DNA存储比磁带更便宜。假设磁带存档每3年(f＝1/3)需要读取并重写，并取决于DNA存储合成的相关成本和磁带转移的固定成本(y轴)。下方的粗体曲线对应每5年进行磁带转移。下方粗体曲线下面的区域表示当转移比5年发生得更加频繁时DNA存储是有成本效益的；在两条粗体曲线之间，当转移发生在3至5年时DNA存储是有成本效益的；且在上方粗体曲线以上，当转移比3年发生得更不频繁时磁带更廉价。水平点划线表明DNA合成转移到磁带的相关成本的范围是125-500(当前值)和12.5-50(若DNA合成成本以数量级降低而得到)。垂直点划线表明相应的平衡时间。注意所有轴线采用对数刻度。

长期数字存档的一个主题是基于DNA的存储如何扩展到更大型的应用。需要编码信息的合成DNA的碱基数量正随着需要存储的信息量呈线性增长。必须考虑由短DNA片段240重构全长文件时所需的标引信息。标引信息250仅以需要标引的DNA片段240的数量的对数而增长。合成DNA的总量需要以次线性增长。每个DNA片段240需要标引的部分越来越多，然而，虽然期望未来可能出现长串合成是合理的，但该方案的行为建立在可用于数据和标引信息250的恒定的114个核苷酸的保守约束条件下。

随着信息总量增加，编码效率仅缓慢地下降(图5)。在实验中(兆字节规模)，编码方案具有88％的效率。图5示出了当数据存储达到拍字节(PB,10¹⁵字节)时效率仍然大于70％，且达到艾字节(EB,10¹⁸字节)规模时仍然大于65％，并且基于DNA的存储在比当前全球数据量大若干数量级时仍然可行。图5也示出了当数据量以数量级增加时，成本(每单位存储信息)仅缓慢增长。如果考虑到利用最新技术合成DNA片段240的可用长度，该效率和成本规模更为有利。随着存储信息量的增加，解码要求测序更多低聚糖。每字节的编码信息具有固定的解码支出，可能意味着每个碱基将被以较少次数读取，因此更可能出现解码错误。延展尺度分析来模拟降低测序覆盖范围对每碱基解码错误率的影响，其显示当编码信息量增长达到并超过全球数据规模时，错误率增长非常缓慢。这也表明1308次的平均测序覆盖范围远远超过了对可靠解码的需求。这被从79.6x310⁶个成对读数中二次抽样来模拟低覆盖范围的实验所证实。

图5表明，以因数10(或更多)减少覆盖范围会导致不变的解码特征，其进一步说明了DNA存储方法的稳定性。基于DNA存储的应用已经在经济上可行，用于长期存档，具有低预期的广泛接入性，诸如政府或历史记录。在科学界的一个实例是CERN的CASTOR系统，其存储了总共80 PB的大型强子对撞机数据并以15 PB yr^-1的速度增长。只有10％是在磁盘上维护的，且CASTOR定期地在磁带格式之间移动。为在潜在的未来中查实事件，需要对较旧数据进行存档，但在收集的2-3年后访问速率显著降低。进一步的实例可以在天文、医药和行星际空间探测中找到。

图5示出了当存储信息量增加时的编码效率和成本变化。x-轴(对数刻度)表示需要编码的总信息量。示出了通常的数据规模，包括估计的三泽字节(3ZB,3x10²¹字节)的全球数据。左侧的y-轴刻度表示编码效率，以可用与数据编码的合成碱基的比例测定。右侧的y-轴可读表示对编码成本的相应影响，在当前合成成本水平(实线)且在减少了两个数量级的情况下(虚线)。

图6示出了每还原碱基的错误率(y轴)，作为测序覆盖范围的函数，表示为原始的79.6x10⁶个成对读数的采样百分比(x轴；对数刻度)。一条曲线表示了无需人工干预还原的四个文件：当使用了≥2％的原始读数时错误为零。通过蒙特卡洛模拟理论错误率模型，得到另外一条曲线。最终曲线表示了需要人工修正的文件(watsoncrick.pdf)：可能的最小错误率为0.0036％。围合的区域在插页中放大示出。

除数据存储之外，本公开的教导也可用于隐写术。

参考文献

1.Bancroft,C.,Bowler,T.,Bloom,B.&Clelland,C.T.Long-term storage ofinformation in DNA.Science 293,1763–1765(2001)

2.Cox,J.P.L.Long-term data storage in DNA.TRENDS Biotech.19,247–250(2001)

3.Baum,E.B.Building an associative memory vastly larger than thebrain.Science 268,583–585(1995)

4.Clelland,C.T.,Risca,V.&Bancroft,C.Hiding messages in DNAmicrodots.Nature 399,533–534(1999)

5.Kac,E.Genesis(1999)http://www.ekac.org/geninfo.html accessedonline,2 April 2012

6.Wong,P.C.,Wong,K.-K.&Foote,H.Organic data memory.Using the DNAapproach.Comm.ACM 46,95–98(2003)

7.Ailenberg,M.&Rotstein,O.D.An improved Huffman coding method forarchiving text,images,and music characters in DNA.Biotechniques 47,747–754(2009)

8.Gibson,D.G.et al.Creation of a bacterial cell controlled by achemically synthesized genome.Science 329,52–56(2010)

9.MacKay,D.J.C.Information Theory,Inference,and Learning Algorithms.(Cambridge University Press,2003)

10.Watson,J.D.&Crick,F.H.C.Molecular structure of nucleicacids.Nature 171,737–738(1953)

11.Shapiro,B.et al.Rise and fall of the Beringian steppebison.Science 306,1561–1565(2004)

12.Poinar,H.K.et al.Metagenomics to paleogenomics:large-scalesequencing of mammoth DNA.Science 311,392–394(2005)

13.Willerslev,E.et al.Ancient biomolecules from deep ice cores reveala forested southern Greenland.Science 317,111–114(2007)

14.Green,R.E.et al.A draft sequence of the Neanderthal genome.Science328,710–722(2010)

15.Anchordoquy,T.J.&Molina,M.C.Preservation of DNA.Cell PreservationTech.5,180–188(2007)

16.Bonnet,J.et al.Chain and conformation stability of solid-stateDNA:implications for room temperature storage.Nucl.Acids Res.38,1531–1546(2010)

17.Lee,S.B.,Crouse,C.A.&Kline,M.C.Optimizing storage and handling ofDNA extracts.Forensic Sci.Rev.22,131–144(2010)

18.Tsaftaris,S.A.&Katsaggelos,A.K.On designing DNA databases for thestorage and retrieval of digital signals.Lecture Notes Comp.Sci.3611,1192–1201(2005)

19.Yamamoto,M.,Kashiwamura,S.,Ohuchi,A.&Furukawa,M.Large-scale DNAmemory based on the nested PCR.Natural Computing 7,335–346(2008)

20.Kari,L.&Mahalingam,K.DNA computing:a research snapshot.In Atallah,M.J.&Blanton,M.(eds.)Algorithms and Theory of Computation Handbook,vol.2.2nded.pp.31-1–31-24(Chapman&Hall,2009)

21.Chen,P.M.,Lee,E.K.,Gibson,G.A.,Katz,R.H.&Patterson,D.A.RAID:high-performance,reliable secondary storage.ACM Computing Surveys 26,145–185(1994)

22.Le Proust,E.M.et al.Synthesis of high-quality libraries of long(150mer)oligonucleotides by a novel depurination controlledprocess.Nucl.Acids Res.38,2522–2540(2010)

23.Kosuri,S.et al.A scalable gene synthesis platform using high-fidelity DNA microchips.Nature Biotech.28,1295–1299(2010)

24.Beaucage,S.L.&Caruthers,M.H.Deoxynucleoside phosphoramidites—anew class of key intermediates for deoxypolynucleotide synthesis.TetrahedronLett.22,1859–1862(1981)

25.Cleary,M.A.et al.Production of complex nucleic acid librariesusing highly parallel in situ oligonucleotide synthesis.Nature Methods 1,241–248(2004)

26.Aird,D.et al.Analysing and minimizing PCR amplification bias inIllumina sequencing libraries.Genome Biol.12,R18(2011)

Claims

1.一种用于存储信息项(210)的方法，包括：

-编码在信息项(210)中的字节；

-使用一表示方案由至少一个DNA核苷酸来表示所编码(720)的字节，以产生DNA序列；

-将DNA序列拆分(730)成若干个重叠的DNA片段(240)；

-添加(770)标引信息到所述若干个重叠的DNA片段(240)上；

-合成(790)具有添加的标引信息的所述若干个重叠的DNA片段(240)，以产生合成的DNA片段；以及

-存储(795)所述合成的DNA片段(240)。

2.根据权利要求1所述的方法，进一步包括向合成的DNA片段添加衔接头。

3.根据权利要求1或2所述的方法，使用三进制方案编码所述字节。

4.根据权利要求1所述的方法，其中所使用的表示方案被设计为相邻的DNA核苷酸各不相同。

5.根据权利要求1所述的方法，进一步包括向标引信息添加奇偶校验。

6.根据权利要求1所述的方法，其中合成DNA片段(240)的交替片段是反向互补的。

7.根据权利要求1所述的方法，其中所使用的表示方案被设计为避免自反向互补的合成DNA片段。

8.根据权利要求1所述的方法，进一步包括通过测序所合成的DNA片段而解码所合成的DNA片段来重构所述信息项。