CN104520864B - Dna中数字信息的高容量存储 - Google Patents

Dna中数字信息的高容量存储 Download PDF

Info

Publication number
CN104520864B
CN104520864B CN201380028511.8A CN201380028511A CN104520864B CN 104520864 B CN104520864 B CN 104520864B CN 201380028511 A CN201380028511 A CN 201380028511A CN 104520864 B CN104520864 B CN 104520864B
Authority
CN
China
Prior art keywords
dna
information
synthesis
dna fragmentation
fragmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380028511.8A
Other languages
English (en)
Other versions
CN104520864A (zh
Inventor
尼克·高曼
约翰·伯尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Europaisches Laboratorium fuer Molekularbiologie EMBL
Original Assignee
Europaisches Laboratorium fuer Molekularbiologie EMBL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Europaisches Laboratorium fuer Molekularbiologie EMBL filed Critical Europaisches Laboratorium fuer Molekularbiologie EMBL
Priority to CN201611110091.XA priority Critical patent/CN107055468A/zh
Publication of CN104520864A publication Critical patent/CN104520864A/zh
Application granted granted Critical
Publication of CN104520864B publication Critical patent/CN104520864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B82NANOTECHNOLOGY
    • B82YSPECIFIC USES OR APPLICATIONS OF NANOSTRUCTURES; MEASUREMENT OR ANALYSIS OF NANOSTRUCTURES; MANUFACTURE OR TREATMENT OF NANOSTRUCTURES
    • B82Y10/00Nanotechnology for information processing, storage or transmission, e.g. quantum computing or single electron logic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C13/00Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
    • G11C13/02Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using elements whose operation depends upon chemical change
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1032Reliability improvement, data loss prevention, degraded operation etc

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Nanotechnology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Correction Of Errors (AREA)
  • Error Detection And Correction (AREA)
  • Peptides Or Proteins (AREA)
  • Saccharide Compounds (AREA)

Abstract

公开了一种存储信息项(210)的方法。该方法包括编码在信息项(210)中的字节(720),并利用一方案以DNA核苷酸对所编码的字节进行表示,以产生DNA序列(230)。DNA序列(230)被拆分成若干个重叠的DNA片段(240),且标引信息(250)被添加到若干个DNA片段上。最后,若干个DNA片段(240)被合成(790)并存储(795)。

Description

DNA中数字信息的高容量存储
技术领域
本公开涉及存储DNA中数字信息的方法和设备。
背景技术
DNA具备保持巨额数量信息的能力,易于以紧凑结构长期保存1,2。利用DNA作为数字信息的存储器的想法自1995年3已经存在。DNA存储的物理实现迄今为止仅存储了微量的信息——典型的是少数英文文本的单词4-8。发明人没有意识到编码在物理DNA中的大规模存储和对任意规格数字信息的还原,而非磁性基底或光学基底上的数据存储。
目前,DNA合成是集中应用于生物医药的专业技术。DNA合成的成本在过去的几十年已经稳步缩减。相比于磁带上的数据存储每过3至5年会少见但定期地转移到新介质,推断在什么时间段如本文所公开的DNA分子上的数据存储将会比其当前长期存档过程更具成本效益是有趣的。当前DNA合成的“现成”技术相当于一美元约100字节的价格。市场上可从Agilent科技(圣克拉拉,加利福尼亚州)购买的更时新的技术可能会大幅缩减该成本。然而,仍然需要建立账户,用于磁带介质之间的定期数据转移。问题是,该数据传递的成本,以及该成本是固定不变的还是随时间削减的。如果假定大量成本是固定不变的,则存在一个时间范围,其间利用DNA分子进行数据存储比常规磁带介质上的数据存储更具成本效益。在400年以后(至少80次介质转移),利用DNA分子的数据存储可能已经具有成本效益。
本公开中描述了一种比先前使用的程序存储更多信息的实用编码解码程序。发明人已经对五个计算机文件进行编码——总共757051字节的(739kB)硬盘存储并具有约为5.2×106比特的香农信息9——变为DNA码。发明人随后合成了该DNA,将该合成DNA从美国经英国运输到德国,对DNA进行测序并以100%的精确度重构了五个计算机文件。
该五个计算机文件包括一个英文语言文本(莎士比亚十四行诗的全部154句),一个经典科技论文的PDF文件10,一个JPEG色彩的照片和一个MP3格式的音频文件,包含26秒的演讲(选自马丁路德金的演讲“我有一个梦想”)。该数据存储代表了近800倍于已知的先前基于DNA的存储的信息量,并涵盖了更丰富的数字格式。结果证明,DNA存储正逐渐成为现实,并可以在未来提供有成本效益的数字信息存档方法,且用于慢速存取、多年代存档任务可能已经具有成本效益。
现有技术
在易于获取的情况下1,2,自1995年以来3,稳定存储信息的DNA高容量已经使得DNA成为极具吸引力的信息存储目标。除信息密度之外,DNA分子作为信息载体具有已证实的业绩记录,DNA分子的寿命已知,且事实上作为地球生命的基础,只要有基于DNA的智能生命体存在1,2,操作、存储和读取DNA分子的方法将依然是持续技术创新的主题。基于活性载体DNA5-8(在活体(in vivo)DNA分子中)和合成DNA4,1(在离体(in vitro)DNA中)的数据存储系统已经被提出。在活体内的数据存储系统具有若干缺陷。这些缺陷包括对数量、染色体成分和在活性载体有机体中可操作而不影响DNA分子生存力的位置的限制。此种活性载体有机体的示例包括但不限于细菌。生存力的下降包括容量的缩减和信息编码方案的复杂度的增加。此外,胚系突变和体细胞突变将引发所保存信息的保真度和解码信息随时间下降,并可能引发对活DNA存储条件细致监管的需求。
相比之下,“分离的DNA”(即,离体DNA)更易于“写入”,且对几万年前11-14的样本的非活DNA实例进行的例行还原显示,在易于获取且少量维护的环境下(即,寒冷,干燥和黑暗的环境)15-17,良好制备的非活DNA样本应具有格外长的生命期限。
在DNA中进行信息(也称数据)存储的先前工作典型地集中于在DNA中以编码形式“写入”人类可读的消息,而后通过确定DNA的序列和解码该序列来“读取”该编码的人类可读的消息。在DNA计算领域的工作产生了原则上容许大型联合associative(相联)存储器的方案3,18-20,但尚无将这项工作推进到实用DNA存储方案的尝试。图1示出了14个在先前研究中(在y轴标注对数刻度)被成功编码和还原的信息数量。为14个先前实验(空心圆)和本公开(实心圆)示出了点。以这种方式存储的最大数量的人类可读消息为1280个英文语言文本字符8,约相当于6500比特的香农信息9
印度科学与工业研究委员会提交了一份序列号为US 2005/0053968(巴拉得瓦杰等)的美国专利申请,教导了一种在DNA中存储信息的方法。美国968号申请的方法包括使用编码方法,其利用4个DNA碱基表示拓展ASCII字符集中的每一个字符。于是产生了合成的DNA分子,其包括数字信息、加密密钥,并在每个侧面与引物序列相接。最后,合成的DNA被并入存储DNA。在DNA数量过大的情况下,信息可以被分裂成为若干片段。美国968号专利公开的方法可以通过匹配某片段的头端引物和下一片段的尾端引物来重构分裂的DNA片段。
已知其它描述了在DNA中存储信息的技术的专利文献。例如,美国专利6,312,911教导了一种密写方法,用于隐藏DNA中编码的消息。该方法包括运用基因组DNA样本隐藏DNA编码消息,随后进一步将DNA样本隐藏为微点。该美国911号专利的申请特别地用于机密信息的隐藏。这样的信息通常具有有限长度,因此文件不会讨论如何存储更长长度的信息项。相同的发明人提交了国际专利申请,并作为第WO 03/025123号国际公布公开。
发明内容
公开了一种用于存储信息项的方法。该方法包括编码在信息项中的字节。使用一方案(schema)由DNA核苷酸来表示该编码字节,产生计算机模拟(in-silico)的DNA序列。下一步,DNA序列被拆分成若干个重叠的DNA片段,且标引信息被添加到若干个DNA片段上。最后,若干个DNA片段被合成并存储。
对DNA片段添加标引信息意味着片段在表示信息项的DNA序列中的位置能够被单一识别。没有必要依赖头端引物与尾端引物的匹配。这使得,即使片段之一不能正确重现,也可以还原几乎整个信息项。如果不存在标引信息,则存在风险,也即,如果因“孤儿”(orphan)片段而导致片段不能够相互匹配,可能不能够正确重现整个信息项,所述孤儿片段是其在DNA序列中的位置不能清楚识别的片段。
利用重叠的DNA片段意味着在信息项的存储中写入了一定程度的冗余。如果某一DNA片段不能够被解码,则该编码字节仍然能够从相邻的DNA片段还原。因此冗余成为了系统的组成部分。
可以利用已知DNA合成技术制作DNA片段的若干个副本。这提供了额外程度的冗余,以使得信息项能够被解码,即使DNA片段中的某些副本损坏并不能被解码。
在发明的一个方面,用于解码的表示方案(representation schema)被设计为相邻的DNA核苷酸各不相同。这样增加了合成、重现和测序(读取)DNA片段的可靠性。
在本发明的进一步方面,向标引信息添加了奇偶校验(parity-check)。该奇偶校验使得错误合成、重现或测序被识别出来。奇偶校验能够被拓展(expanded)并包括纠错信息。
合成DNA片段的交替片段是反向互补的。它们在DNA中提供了额外的冗余度,并意味着如果任一DNA片段损坏,会有更多可得信息。
附图说明
图1为存储在DNA中并成功还原的信息数量的时间函数图;
图2示出了本公开方法的示例;
图3示出了存储随时间的成本效益的图示;
图4示出了自反向互补模式的基序;
图5示出了编码效率;
图6示出了误码率;
图7示出了方法的编码的流程图;
图8示出了方法的解码的流程图;
具体实施方式
迄今,实现实用DNA存储的主要挑战之一是根据指定(specified)设计创造长序列DNA的困难。DNA长序列要求存储大量数据文件,诸如长文本项和视频文件。更优选的是,利用每个设计的DNA的若干个副本的编码。该冗余防止了编码和解码错误,下文将做解释。使用基于独立的长DNA链的系统来编码每条(尤其是大量的)消息8不具有成本效益。发明人已开发了一种方法,运用与每个DNA片段相关的“标引”信息来指示DNA片段在假设编码整个消息的更长的DNA分子中的位置。
发明人运用编码理论的方法来加强DNA片段上的编码消息的可还原性,包括禁止DNA均聚物(即,存在不只一个相同碱基),已知其在现存的高通量技术中具有更高的误码率。发明人进一步并入了简单的错误检测组件,类似于码中标引信息的奇偶校验位9。更复杂的方案,包括但不限于错误校正码9,以及当前切实用于信息学的、实质上任何形式的数字数据安全(例如,基于RAID的方案21),可以在DNA存储方案3的未来发展中实现。
发明人选择了五个计算机文件进行编码,作为本公开DNA存储的概念验证。选择了使用一系列常见格式的文件,而非限制文件为人类可读信息。这演示了本公开的存储任意类型数字信息的教导。该文件包含莎士比亚十四行诗的全部154句(TXT格式)、参考文献10的全部文本和图像(PDF格式)、中等分辨率色彩的、欧洲分子生物学实验室-欧洲生物信息研究所的照片(JPEG 2000格式)、从马丁路德金的“我有一个梦想”的演讲中提取了26秒时长(MP3格式),和一个定义霍夫曼代码的文件,本研究使用霍夫曼代码将字节转换为三进制数字(作为人类可读的文本文件)。
该选择用于DNA存储的五个文件如下:
wssnt10.txt—107738字节—ASCII文本格式。莎士比亚十四行诗的全部154句(来自古登堡计划,http://www.gutenberg.org/ebooks/1041)。
watsoncrick.pdf—280864字节—PDF格式文件。沃森和克里克(1953)描述DNA结构的文献10(经修正以实现更高的压缩率从而得到较小的文件,来自“自然”网站,http://www.nature.com/nature/dna50/archive.html)。
EBI.jp2—184264字节—JPEG 2000格式图像文件。欧洲分子生物学实验室-欧洲生物信息研究所(自行拍摄)的彩色照片(16.7M色彩,640 x 480像素分辨率)。
MLK_excerpt_VBR_45-85.mp3—168539字节—MP3格式声音文件。从马丁路德金的“我有一个梦想”的演讲中提取了26秒时长(来自http://www.americanrhetoric.com/speeches/mlkihaveadream.htm,经修正以实现更高的压缩率:可变比特率,典型为48-56kps;采样频率为44.1kHz)。
View_huff3.cd.new—15646字节—ASCII文件。定义本研究用来将字节转换为三进制数字(三进制数位)的霍夫曼代码的人类可读文件。
五个计算机文件一共包含757051字节,约等于5.2×106位的香农信息,或800倍于作为先前最大已知存储量的、编码和还原的人类设计信息(见图1)。
对每个计算机文件进行DNA编码是用软件计算的,且该方法在图7中示出。在本文描述的本发明700的一个方面,包含每个计算机文件210的字节在步骤720处通过编码方案表示为不含均聚物的DNA序列230,用以产生编码文件220,以形成DNA序列230的五或六个碱基(见下)替换每个字节。构造用在编码方案中的码,以便容许接近有限运行长度通道(即无重复核苷酸)的最佳信息容量的直接编码。而将理解,也可以使用其他编码方案。
所得的计算机模拟的DNA序列230过长,而不易于标准低聚核苷酸合成的产生。每个DNA序列230因此在步骤730被拆分为重叠的片段240,其长度为100个碱基,具有重叠的75个碱基。为降低被引入碱基的任一特定排列中的系统合成错误风险,于是这些片段的交替片段在步骤740处被转变为它们的反向互补序列,意为每个碱基被“写入”四次,每个方向两次。每个片段在750处采用标引信息250进行扩充,加之简单的错误检测信息,标引信息250可确定片段240来源于哪个计算机文件以及在该文件210上的位置。标引信息250也在步骤760处作为无重复的DNA核苷酸进行编码,并在步骤770处被添加到DNA片段240的100个信息存储碱基。将理解,将DNA片段240分为具有重叠的75个碱基的100个碱基的长度纯粹是任意的。也可以使用其它长度和重叠部分,这并非是对本发明的限制。
总之,所有的五个计算机文件被153335串DNA所表示。每一串DNA包含117个核苷酸(编码原始数字信息和标引信息)。所使用的编码方案具有合成DNA的多个特征(例如统一的片段长度,无均聚物),使该合成DNA明显不具有自然(生物)来源。因此,很明显合成DNA具有思虑周密的设计以及编码信息2
如上所述,也可以使用其他对DNA片段240的编码方案,例如提供增强的错误校正性能。增加标引信息的数量将使其更明确,以便使得更多或更大的文件能够被编码。已经提出,嵌套引物分子存储器(NPMM)方案19达到了16.8M单一地址的实用最大容量20,且似乎没有原因显示,本公开的方法不能超越它以使得几乎任意大量的信息能够被编码。
为了避开在DNA片段240中的系统模式,对编码方案的拓展可以是增加变动信息。尝试了两种途径。第一种途径包含对DNA片段240中的信息进行“洗牌”,如果知道“洗牌”的模式,可以恢复该信息。在本公开的一个方面,不同模式的洗牌被用于不同的DNA片段240。
另一个途径是在每个DNA片段240的信息中增加随机度。对此可运用一系列随机数字,利用该系列随机数字的模加,且这些数字包含编码到DNA片段240中的信息。如果知道所用的随机数字序列,则可以在解码中轻易地通过模减恢复该信息。在本发明的一个方面,不同系列的随机数字被用于不同的DNA片段240。
在步骤720处的数字信息编码执行如下:用软件编码存储在硬盘驱动器中的数字信息的五个计算机文件210(表示在图2A中)。五个计算机文件210中每个文件的每个字节在步骤720处被编码,并经由三进制数字(“三进制数位”0,1,2)表示为一系列DNA碱基,运用表1(下文)列出的为特定目的设计的霍夫曼代码来产生编码文件220。该示例性编码方案概括地在图2B中展示。256个可能字节中的每一个被5至6个三进制数位表示。随后,每个三进制数位被编码为从不同于上一个核苷酸(图2C)的三个核苷酸中选出的一个DNA核苷酸230。换言之,在为本公开的此方面所选的编码方案中,三个核苷酸中的每一个均与上一个不同,以保证没有均聚物。所得的DNA序列230在步骤730处被拆分为DNA片段240,具有100个碱基的长度,如图2D所示。每个DNA片段与上一个DNA片段重叠75个碱基,以便给予DNA片段一个易于合成并提供冗余的长度。交替的DNA片段是反向互补的。
标引信息250包括两个三进制数位用于文件识别(在该实现中,可区别32=9个文件),12个三进制数位用于文件内部位置信息(每个文件312=531441个位置),以及一个“奇偶校验”三进制数位。标引信息250在步骤760处编码为无重复的DNA核苷酸,并在步骤770处被添加到100个信息存储碱基上。每个标引的DNA片段240具有另一个碱基,在步骤780处添加到每一端,符合“无均聚物”的原则,其能够在实验的“读取”阶段表明整个DNA片段240是否为反向互补的。
总之,五个计算机文件210由153335串DNA表示,每串包含117个(1+100+2+12+1+1个)核苷酸(编码原始数字信息和标引信息)。
本文描述的本发明的方面中,每串数据编码组件可以包含香农信息,每DNA碱基5.07比特,其接近理论最佳的每DNA碱基5.05比特,用于运行长度限制为1的4进制通道。标引实现250容许314=4782969个单一数据位置。将用于指定文件和文件内部位置的标引三进制数位的数目从2到16增加,给出316=43046721个单一位置,超过了NPMM方案19,20的16.8M的实用最大值。
步骤790处的DNA合成过程也用于向每个低聚核苷酸(低聚糖)的每一端并入33bp的衔接头,来促进在Illumina测序平台上的测序:
5’衔接头:ACACTCTTTCCCTACACGACGCTCTTCCGATCT
3’衔接头:AGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG
该153335个DNA片段设计240在步骤790处合成为三个不同的运行段(DNA片段240被随机地分入运行段),利用上述22,23新版的Agilent科技的OLS(低聚糖库合成)过程,为每个DNA片段设计生成约1.2x107个副本。可以见到错误仅出现在每500个碱基中的一处,且对于DNA片段240的不同副本是独立出现的。Agilent科技调整了先前24开发的酰胺三酯合成法,并在微阵列合成平台上就地使用了Agilent SurePrint的喷墨打印和流动池反应器技术。具有无水室的喷墨打印容许向二维平面表面的有限耦合区域传递非常小量的亚磷酰胺,得到成百上千增加的并行碱基。随后的氧化和脱三苯甲基在流动池反应器中实现。一旦DNA合成完成,低聚核苷酸将被从表面分离并去保护25
添加到DNA片段的衔接头使得DNA片段的若干个副本能够易于制作。没有衔接头的DNA片段将需要额外的化学过程来“启动”通过向DNA片段的端添加额外的组来合成若干个副本的化学过程。
利用超过千倍的亚磷酰胺和催化剂方案,可获得高达~99.8%的耦合效率。类似的,超过数百万倍的脱三苯甲基药剂驱使5’-羟基保护基团被移除,使之接近完成。在流动池反应器中的控制过程显著地降低了脱嘌呤作用,其为最普遍的副反应22。可以并行合成高达244000个单一序列,并作为~1–10皮摩尔池的低聚糖传递。
冻干低聚糖的三个样本整晚在氨丁三醇缓冲剂中以4℃进行培养,通过移液管和涡流周期性混合,并最终在50℃下进行培养1小时,达到5ng/ml的浓度。因为有不溶性的物质残留,样本以4℃被另外静置5天,每天有2-4次混合。随后样本以50℃培养1小时、以68℃培养10分钟,并且从Ampure XP顺磁珠(贝克曼库尔特)上的剩余合成副产品中净化,并可以在步骤795处存储。测序和解码如图8所示。
该结合的低聚糖样本在步骤810处(利用设计为给予A/T与G/C相等处理26的热循环仪环境的22个PCR周期)利用双末端Illumina PCR引物和高保真度AccuPrime试剂(试剂盒)被放大,Taq聚合酶和火球菌聚合酶具有耐热辅助蛋白。该放大的产品经磁珠净化且经Agilent 2100生物分析仪定量,并在Illumina HiSeq 2000上以双末端模式利用AYB软件测序,以产生104个碱基的读数。
数字信息解码执行如下:每个低聚糖的中央的91个碱基在步骤820处从两端进行测序,由此很明显要对全长(117个碱基)的低聚糖进行快速计算,并移除与设计不相符的序列读数。该序列读数在步骤830处利用精确的反向进行编码过程的计算机软件进行解码。出于进一步考虑,经奇偶校验的三进制数位表明有错、在任何阶段不能够准确解码、或被分配到重构的计算机文件的序列读数在步骤840处被舍弃。
在多个不同的经测序的DNA低聚糖上检测到每个解码文件的绝大多数位置,在步骤850处利用了简单多数表决来解决因DNA合成或测序错误引起的差异。程序860完成时,四或五个原始计算机文件210被精确重构。第五个文件需要人工干预来更正各有25个碱基的两个区域,它们没有从任何序列读数中还原。
在步骤850的解码过程中,注意到经计算机模拟重建的DNA层次(在解码之前,经由三进制至字节)的一个文件(最后确定是watsoncrick.pdf)包括两个各有25个碱基的区域,它们没有从任何一个序列读数中还原。给定解码的重叠片段结构,每个区域表明四个用于合成或测序的连贯片段均是无效的,因为四个连贯重叠片段中的任意一个均应含有与位置对应的碱基。对两个区域的检查表明,未检测到的碱基属于下一20碱基的基序的长距离重复。
5’GAGCATCTGCAGATGCTCAT 3’
注意到该基序的重复具有一个自反向互补的模式。其在图4中示出。
长距离的、自反向互补的DNA片段可能不易于利用Illumina双末端过程进行测序,因为DNA片段可能形成内部非线性的茎环结构,将抑制本文件中约定使用的合成测序反应。结果,经计算机模拟的DNA序列被修正以纠正该重复基序模式,而后经过随后的解码步骤。没有碰到进一步的问题,且最终的解码文件与文件watsoncrick.pdf精确匹配。将来可能用到确保在任一设计的DNA片段中没有长距离自互补区域存在的代码。
霍夫曼代码方案实例
表1示出了典型的霍夫曼代码方案实例,用于将字节值(0-255)转换为三进制。对于高度压缩的信息,每字节值应以相等频率出现,且每字节的三进制数位平均数将为(239*5+17*6)/256=5.07。每字节的三进制数位理论最大数值为log(256)/log(3)=5.05。
表1
文件的编码
该任意计算机文件210表示为字节的串(通常解释为和28–1之间的一个数,即集合{0...255}之间的一个值)。串利用霍夫曼代码并转换为三进制数位进行编码。这产生了三进制数位的字符的串S1
现写下len()作为计算串S1长度(以字符)的函数,并定义n=len(S1)。将n以三进制表示,并预设0s来产生三进制数位串S2,由此len(S2)=20。形成串的级联S4=S1.S3.S2,,其中S3为最多选择24个零的串,由此len(S4)为25的整数倍。
利用下表示出的方案,S4转换为没有重复核苷酸(nt)的DNA字符{A,C,G,T}的串S5。S4的第一个三进制数位利用表的“A”行进行编码。对每下一个三进制数位,从前一个字符转换所定义的行中取字符。
表:确保无重复核苷酸的三进制至DNA的编码。
对每个要编码的三进制数位t,选择标记前一个核苷酸使用的行,和标记t的列,并利用对应的表格单元格中的nt进行编码。
定义N=len(S5),并使2进制串的ID识别原始文件,且它在给定的实验中是单一的(在一次实验中容许来自不同文件的DNA混合)。将S5拆分成重叠的长度为100nt的DNA片段240,每个DNA片段240从前一个DNA片段240处偏移25nt。这意味着将有((N/25)-3)个DNA片段240,便利地标引为DNA片段i表示为Fi并包含(DNA)S5的字符25i…25i+99
每个DNA片段Fi进一步处理如下:
如果i为奇数,反向互补该DNA片段Fi
使i3作为i的三进制表示,添加足够的前导零,由此len(i3)=12。计算ID中的奇数位的三进制数位和i3的和P,即ID1+i31+i33+i35+i37+i39+i311。(P作为“奇偶性三进制数位”–类似于奇偶校验位–来校验有关ID和i的编码信息中的错误)。
形成标引信息250的串IX=ID.i2.P(包含2+12+1=15个三进制数位)。利用上表示出的相同策略,将IX的DNA-编码的(步骤760)版本添加到Fi,从由上一个字符Fi定义的代码表的行开始,给出标引片段F′i
通过预设A或T并将C或G添加到F′i形成F″i–可以随机选择A或T以及C或G,但总没有重复的核苷酸。这确保将已经在DNA测序过程中反向逆转(步骤240)的DNA片段240从没有逆转的片段中区别出来。前者以G|C开始,以T|A结束;后者以T|A开始,以G|C结束。
片段F″I在步骤790处以实际DNA低聚核苷酸合成,并在步骤790处存储,且可提供给步骤820处的测序。
解码
在步骤720处的解码是简单的反向编码,从已测序的117个核苷酸长的DNA片段240F″I开始。在DNA测序程序中的(例如,在PCR反应中)反向互补可以通过观察碎片是否以T|A开始、以G|C结束而被识别出来并用于随后的反转。随着这两个“方向”的核苷酸被移除,每个DNA片段240剩下的115个核苷酸可以被拆分成在先的100个“消息”核苷酸和剩下的15个“标引信息250”核苷酸。标引信息核苷酸250可以解码以确定文件标识符ID、位置标引i3和i,且通过测试奇偶性三进制数位P可以检测到错误。位置标引信息250容许构件DNA编码文件230,其可以利用以上编码表的反向转换为三进制,随后利用给定的霍夫曼代码转换为原始字节。
就数据存储的讨论
DNA存储相比传统的基于磁带的或基于磁盘的存储具有不同性能。在本实例中,~750kB的信息被合成了10pmol的DNA,给出了大约1太字节/克的信息存储密度。DNA存储不要求电源,且保守估计,可能保持(潜在地)活性几千年。
DNA存档也可以通过将PCR应用到成对引物,随后是等分(拆分)所得的DNA的方案,从而以大规模并行的方式复制DNA。在测序过程的该技术的实际证明中多次履行了该程序,但其也可以明确用于复制大规模信息,并在物理上将该信息发送到两个或多个位置。在多个位置存储该信息将为任何存档方案提供提供进一步的稳定性,其本身可被用于设施之间的巨大规模的数据复制操作。
该实例中的解码带宽为3.4比特/秒,相比于磁盘(约太比特/秒)或磁带(140兆比特/秒),且时延也较高(本实例中为~20天)。人们希望将来的测序技术能够提高这几项因数。
对使用本公开的DNA存储或磁带存储进行存档的全部成本建模,表明主要的参数是在磁带存储技术和介质之间的转移频率和固定成本。图3示出了DNA存储为有成本效益的时间量程。上方的粗体曲线表示了平衡时间(x轴),超过该点本公开中教导的DNA存储比磁带更便宜。假设磁带存档每3年(f=1/3)需要读取并重写,并取决于DNA存储合成的相关成本和磁带转移的固定成本(y轴)。下方的粗体曲线对应每5年进行磁带转移。下方粗体曲线下面的区域表示当转移比5年发生得更加频繁时DNA存储是有成本效益的;在两条粗体曲线之间,当转移发生在3至5年时DNA存储是有成本效益的;且在上方粗体曲线以上,当转移比3年发生得更不频繁时磁带更廉价。水平点划线表明DNA合成转移到磁带的相关成本的范围是125-500(当前值)和12.5-50(若DNA合成成本以数量级降低而得到)。垂直点划线表明相应的平衡时间。注意所有轴线采用对数刻度。
长期数字存档的一个主题是基于DNA的存储如何扩展到更大型的应用。需要编码信息的合成DNA的碱基数量正随着需要存储的信息量呈线性增长。必须考虑由短DNA片段240重构全长文件时所需的标引信息。标引信息250仅以需要标引的DNA片段240的数量的对数而增长。合成DNA的总量需要以次线性增长。每个DNA片段240需要标引的部分越来越多,然而,虽然期望未来可能出现长串合成是合理的,但该方案的行为建立在可用于数据和标引信息250的恒定的114个核苷酸的保守约束条件下。
随着信息总量增加,编码效率仅缓慢地下降(图5)。在实验中(兆字节规模),编码方案具有88%的效率。图5示出了当数据存储达到拍字节(PB,1015字节)时效率仍然大于70%,且达到艾字节(EB,1018字节)规模时仍然大于65%,并且基于DNA的存储在比当前全球数据量大若干数量级时仍然可行。图5也示出了当数据量以数量级增加时,成本(每单位存储信息)仅缓慢增长。如果考虑到利用最新技术合成DNA片段240的可用长度,该效率和成本规模更为有利。随着存储信息量的增加,解码要求测序更多低聚糖。每字节的编码信息具有固定的解码支出,可能意味着每个碱基将被以较少次数读取,因此更可能出现解码错误。延展尺度分析来模拟降低测序覆盖范围对每碱基解码错误率的影响,其显示当编码信息量增长达到并超过全球数据规模时,错误率增长非常缓慢。这也表明1308次的平均测序覆盖范围远远超过了对可靠解码的需求。这被从79.6x3106个成对读数中二次抽样来模拟低覆盖范围的实验所证实。
图5表明,以因数10(或更多)减少覆盖范围会导致不变的解码特征,其进一步说明了DNA存储方法的稳定性。基于DNA存储的应用已经在经济上可行,用于长期存档,具有低预期的广泛接入性,诸如政府或历史记录。在科学界的一个实例是CERN的CASTOR系统,其存储了总共80 PB的大型强子对撞机数据并以15 PB yr-1的速度增长。只有10%是在磁盘上维护的,且CASTOR定期地在磁带格式之间移动。为在潜在的未来中查实事件,需要对较旧数据进行存档,但在收集的2-3年后访问速率显著降低。进一步的实例可以在天文、医药和行星际空间探测中找到。
图5示出了当存储信息量增加时的编码效率和成本变化。x-轴(对数刻度)表示需要编码的总信息量。示出了通常的数据规模,包括估计的三泽字节(3ZB,3x1021字节)的全球数据。左侧的y-轴刻度表示编码效率,以可用与数据编码的合成碱基的比例测定。右侧的y-轴可读表示对编码成本的相应影响,在当前合成成本水平(实线)且在减少了两个数量级的情况下(虚线)。
图6示出了每还原碱基的错误率(y轴),作为测序覆盖范围的函数,表示为原始的79.6x106个成对读数的采样百分比(x轴;对数刻度)。一条曲线表示了无需人工干预还原的四个文件:当使用了≥2%的原始读数时错误为零。通过蒙特卡洛模拟理论错误率模型,得到另外一条曲线。最终曲线表示了需要人工修正的文件(watsoncrick.pdf):可能的最小错误率为0.0036%。围合的区域在插页中放大示出。
除数据存储之外,本公开的教导也可用于隐写术。
参考文献
1.Bancroft,C.,Bowler,T.,Bloom,B.&Clelland,C.T.Long-term storage ofinformation in DNA.Science 293,1763–1765(2001)
2.Cox,J.P.L.Long-term data storage in DNA.TRENDS Biotech.19,247–250(2001)
3.Baum,E.B.Building an associative memory vastly larger than thebrain.Science 268,583–585(1995)
4.Clelland,C.T.,Risca,V.&Bancroft,C.Hiding messages in DNAmicrodots.Nature 399,533–534(1999)
5.Kac,E.Genesis(1999)http://www.ekac.org/geninfo.html accessedonline,2 April 2012
6.Wong,P.C.,Wong,K.-K.&Foote,H.Organic data memory.Using the DNAapproach.Comm.ACM 46,95–98(2003)
7.Ailenberg,M.&Rotstein,O.D.An improved Huffman coding method forarchiving text,images,and music characters in DNA.Biotechniques 47,747–754(2009)
8.Gibson,D.G.et al.Creation of a bacterial cell controlled by achemically synthesized genome.Science 329,52–56(2010)
9.MacKay,D.J.C.Information Theory,Inference,and Learning Algorithms.(Cambridge University Press,2003)
10.Watson,J.D.&Crick,F.H.C.Molecular structure of nucleicacids.Nature 171,737–738(1953)
11.Shapiro,B.et al.Rise and fall of the Beringian steppebison.Science 306,1561–1565(2004)
12.Poinar,H.K.et al.Metagenomics to paleogenomics:large-scalesequencing of mammoth DNA.Science 311,392–394(2005)
13.Willerslev,E.et al.Ancient biomolecules from deep ice cores reveala forested southern Greenland.Science 317,111–114(2007)
14.Green,R.E.et al.A draft sequence of the Neanderthal genome.Science328,710–722(2010)
15.Anchordoquy,T.J.&Molina,M.C.Preservation of DNA.Cell PreservationTech.5,180–188(2007)
16.Bonnet,J.et al.Chain and conformation stability of solid-stateDNA:implications for room temperature storage.Nucl.Acids Res.38,1531–1546(2010)
17.Lee,S.B.,Crouse,C.A.&Kline,M.C.Optimizing storage and handling ofDNA extracts.Forensic Sci.Rev.22,131–144(2010)
18.Tsaftaris,S.A.&Katsaggelos,A.K.On designing DNA databases for thestorage and retrieval of digital signals.Lecture Notes Comp.Sci.3611,1192–1201(2005)
19.Yamamoto,M.,Kashiwamura,S.,Ohuchi,A.&Furukawa,M.Large-scale DNAmemory based on the nested PCR.Natural Computing 7,335–346(2008)
20.Kari,L.&Mahalingam,K.DNA computing:a research snapshot.In Atallah,M.J.&Blanton,M.(eds.)Algorithms and Theory of Computation Handbook,vol.2.2nded.pp.31-1–31-24(Chapman&Hall,2009)
21.Chen,P.M.,Lee,E.K.,Gibson,G.A.,Katz,R.H.&Patterson,D.A.RAID:high-performance,reliable secondary storage.ACM Computing Surveys 26,145–185(1994)
22.Le Proust,E.M.et al.Synthesis of high-quality libraries of long(150mer)oligonucleotides by a novel depurination controlledprocess.Nucl.Acids Res.38,2522–2540(2010)
23.Kosuri,S.et al.A scalable gene synthesis platform using high-fidelity DNA microchips.Nature Biotech.28,1295–1299(2010)
24.Beaucage,S.L.&Caruthers,M.H.Deoxynucleoside phosphoramidites—anew class of key intermediates for deoxypolynucleotide synthesis.TetrahedronLett.22,1859–1862(1981)
25.Cleary,M.A.et al.Production of complex nucleic acid librariesusing highly parallel in situ oligonucleotide synthesis.Nature Methods 1,241–248(2004)
26.Aird,D.et al.Analysing and minimizing PCR amplification bias inIllumina sequencing libraries.Genome Biol.12,R18(2011)

Claims (8)

1.一种用于存储信息项(210)的方法,包括:
-编码在信息项(210)中的字节;
-使用一表示方案由至少一个DNA核苷酸来表示所编码(720)的字节,以产生DNA序列;
-将DNA序列拆分(730)成若干个重叠的DNA片段(240);
-添加(770)标引信息到所述若干个重叠的DNA片段(240)上;
-合成(790)具有添加的标引信息的所述若干个重叠的DNA片段(240),以产生合成的DNA片段;以及
-存储(795)所述合成的DNA片段(240)。
2.根据权利要求1所述的方法,进一步包括向合成的DNA片段添加衔接头。
3.根据权利要求1或2所述的方法,使用三进制方案编码所述字节。
4.根据权利要求1所述的方法,其中所使用的表示方案被设计为相邻的DNA核苷酸各不相同。
5.根据权利要求1所述的方法,进一步包括向标引信息添加奇偶校验。
6.根据权利要求1所述的方法,其中合成DNA片段(240)的交替片段是反向互补的。
7.根据权利要求1所述的方法,其中所使用的表示方案被设计为避免自反向互补的合成DNA片段。
8.根据权利要求1所述的方法,进一步包括通过测序所合成的DNA片段而解码所合成的DNA片段来重构所述信息项。
CN201380028511.8A 2012-06-01 2013-05-31 Dna中数字信息的高容量存储 Active CN104520864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611110091.XA CN107055468A (zh) 2012-06-01 2013-05-31 Dna中数字信息的高容量存储

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261654295P 2012-06-01 2012-06-01
US61/654,295 2012-06-01
PCT/EP2013/061300 WO2013178801A2 (en) 2012-06-01 2013-05-31 High-capacity storage of digital information in dna

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201611110091.XA Division CN107055468A (zh) 2012-06-01 2013-05-31 Dna中数字信息的高容量存储

Publications (2)

Publication Number Publication Date
CN104520864A CN104520864A (zh) 2015-04-15
CN104520864B true CN104520864B (zh) 2017-09-05

Family

ID=48626420

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201380028511.8A Active CN104520864B (zh) 2012-06-01 2013-05-31 Dna中数字信息的高容量存储
CN201611110091.XA Pending CN107055468A (zh) 2012-06-01 2013-05-31 Dna中数字信息的高容量存储

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201611110091.XA Pending CN107055468A (zh) 2012-06-01 2013-05-31 Dna中数字信息的高容量存储

Country Status (15)

Country Link
US (4) US10387301B2 (zh)
EP (2) EP3346404A1 (zh)
JP (4) JP2015529864A (zh)
KR (1) KR20150016572A (zh)
CN (2) CN104520864B (zh)
AU (5) AU2013269536B2 (zh)
CA (1) CA2874540A1 (zh)
DK (1) DK2856375T3 (zh)
ES (1) ES2698609T3 (zh)
HK (2) HK1208937A1 (zh)
IL (4) IL235954B (zh)
IN (1) IN2014DN09960A (zh)
RU (1) RU2014152796A (zh)
SG (1) SG11201407818PA (zh)
WO (1) WO2013178801A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107055468A (zh) * 2012-06-01 2017-08-18 欧洲分子生物学实验室 Dna中数字信息的高容量存储

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875312A (zh) 2012-07-19 2018-11-23 哈佛大学校长及研究员协会 利用核酸存储信息的方法
PL3030682T3 (pl) 2013-08-05 2020-11-16 Twist Bioscience Corporation Biblioteki genowe syntezowane de novo
GB2521387B (en) * 2013-12-18 2020-05-27 Ge Healthcare Uk Ltd Oligonucleotide data storage on solid supports
KR20150092585A (ko) * 2014-02-05 2015-08-13 한국전자통신연구원 이진 영상에 기반한 유전체 데이터 압축 방법 및 장치
US10027347B2 (en) 2014-03-28 2018-07-17 Thomson Licensing Methods for storing and reading digital data on a set of DNA strands
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
EP2958238A1 (en) 2014-06-17 2015-12-23 Thomson Licensing Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity
WO2015199440A1 (ko) * 2014-06-24 2015-12-30 서울대학교산학협력단 핵산염기서열 보안 방법, 장치 및 이를 저장한 기록매체
KR101788673B1 (ko) 2014-06-24 2017-11-15 싸이퍼롬, 인코퍼레이티드 핵산염기서열 보안 방법, 장치 및 이를 저장한 기록매체
WO2016069913A1 (en) * 2014-10-29 2016-05-06 Massachusetts Institute Of Technology Dna cloaking technologies
WO2016126882A1 (en) 2015-02-04 2016-08-11 Twist Bioscience Corporation Methods and devices for de novo oligonucleic acid assembly
WO2016126987A1 (en) 2015-02-04 2016-08-11 Twist Bioscience Corporation Compositions and methods for synthetic gene assembly
CN104850760B (zh) * 2015-03-27 2016-12-21 苏州泓迅生物科技有限公司 人工合成dna存储介质的信息存储读取方法
US11164661B2 (en) 2015-04-10 2021-11-02 University Of Washington Integrated system for nucleic acid-based storage and retrieval of digital data using keys
US9981239B2 (en) 2015-04-21 2018-05-29 Twist Bioscience Corporation Devices and methods for oligonucleic acid library synthesis
US10423341B1 (en) * 2015-06-12 2019-09-24 Bahram Ghaffarzadeh Kermani Accurate and efficient DNA-based storage of electronic data
US9898579B2 (en) 2015-06-16 2018-02-20 Microsoft Technology Licensing, Llc Relational DNA operations
WO2017011492A1 (en) * 2015-07-13 2017-01-19 President And Fellows Of Harvard College Methods for retrievable information storage using nucleic acids
KR20180050411A (ko) 2015-09-18 2018-05-14 트위스트 바이오사이언스 코포레이션 올리고핵산 변이체 라이브러리 및 그의 합성
CN108698012A (zh) * 2015-09-22 2018-10-23 特韦斯特生物科学公司 用于核酸合成的柔性基底
US10566077B1 (en) 2015-11-19 2020-02-18 The Board Of Trustees Of The University Of Illinois Re-writable DNA-based digital storage with random access
EP3173961A1 (en) * 2015-11-27 2017-05-31 Thomson Licensing Method for storing user data and decoding information in synthesized oligos, apparatus and substance
US9895673B2 (en) 2015-12-01 2018-02-20 Twist Bioscience Corporation Functionalized surfaces and preparation thereof
WO2017139592A1 (en) 2016-02-12 2017-08-17 Genosecurity, LLC Security enhanced portable data store and processor for allowing secure and selective access to genomic data
US10640822B2 (en) 2016-02-29 2020-05-05 Iridia, Inc. Systems and methods for writing, reading, and controlling data stored in a polymer
US10438662B2 (en) 2016-02-29 2019-10-08 Iridia, Inc. Methods, compositions, and devices for information storage
US10859562B2 (en) 2016-02-29 2020-12-08 Iridia, Inc. Methods, compositions, and devices for information storage
US20190102515A1 (en) * 2016-03-08 2019-04-04 Thomson Licensing Method and device for decoding data segments derived from oligonucleotides and related sequencer
WO2017190297A1 (zh) * 2016-05-04 2017-11-09 深圳华大基因研究院 利用dna存储文本信息的方法、其解码方法及应用
US10892034B2 (en) 2016-07-01 2021-01-12 Microsoft Technology Licensing, Llc Use of homology direct repair to record timing of a molecular event
US10669558B2 (en) 2016-07-01 2020-06-02 Microsoft Technology Licensing, Llc Storage through iterative DNA editing
US11359234B2 (en) 2016-07-01 2022-06-14 Microsoft Technology Licensing, Llc Barcoding sequences for identification of gene expression
GB2568444A (en) 2016-08-22 2019-05-15 Twist Bioscience Corp De novo synthesized nucleic acid libraries
WO2018039938A1 (zh) * 2016-08-30 2018-03-08 清华大学 将数据进行生物存储并还原的方法
US10417457B2 (en) 2016-09-21 2019-09-17 Twist Bioscience Corporation Nucleic acid based data storage
US10370246B1 (en) * 2016-10-20 2019-08-06 The Board Of Trustees Of The University Of Illinois Portable and low-error DNA-based data storage
US10838939B2 (en) 2016-10-28 2020-11-17 Integrated Dna Technologies, Inc. DNA data storage using reusable nucleic acids
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
JP7107956B2 (ja) * 2016-11-16 2022-07-27 カタログ テクノロジーズ, インコーポレイテッド 核酸ベースのデータ記憶のためのシステム
US11783918B2 (en) 2016-11-30 2023-10-10 Microsoft Technology Licensing, Llc DNA random access storage system via ligation
US10853244B2 (en) * 2016-12-07 2020-12-01 Sandisk Technologies Llc Randomly writable memory device and method of operating thereof
CN110366613A (zh) 2016-12-16 2019-10-22 特韦斯特生物科学公司 免疫突触的变体文库及其合成
US10839948B2 (en) * 2016-12-29 2020-11-17 Intel Corporation Microfluidic information-encoding polymer data storage
US10793897B2 (en) 2017-02-08 2020-10-06 Microsoft Technology Licensing, Llc Primer and payload design for retrieval of stored polynucleotides
US10787699B2 (en) * 2017-02-08 2020-09-29 Microsoft Technology Licensing, Llc Generating pluralities of primer and payload designs for retrieval of stored nucleotides
US10689684B2 (en) 2017-02-14 2020-06-23 Microsoft Technology Licensing, Llc Modifications to polynucleotides for sequencing
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法
SG11201907713WA (en) 2017-02-22 2019-09-27 Twist Bioscience Corp Nucleic acid based data storage
US10930370B2 (en) 2017-03-03 2021-02-23 Microsoft Technology Licensing, Llc Polynucleotide sequencer tuned to artificial polynucleotides
US10774379B2 (en) 2017-03-15 2020-09-15 Microsoft Technology Licensing, Llc Random access of data encoded by polynucleotides
CN110913865A (zh) 2017-03-15 2020-03-24 特韦斯特生物科学公司 免疫突触的变体文库及其合成
WO2018231864A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
WO2018231872A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
RU2659025C1 (ru) * 2017-06-14 2018-06-26 Общество с ограниченной ответственностью "ЛЭНДИГРАД" Способы кодирования и декодирования информации
US10742233B2 (en) * 2017-07-11 2020-08-11 Erlich Lab Llc Efficient encoding of data for storage in polymers such as DNA
CN109300508B (zh) * 2017-07-25 2020-08-11 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
WO2019040871A1 (en) * 2017-08-24 2019-02-28 Miller Julian DEVICE FOR ENCODING AND STORING INFORMATION USING ARTIFICIALLY EXPANDED ALPHABETS OF NUCLEIC ACIDS AND OTHER ANALOGOUS POLYMERS
US11810651B2 (en) 2017-09-01 2023-11-07 Seagate Technology Llc Multi-dimensional mapping of binary data to DNA sequences
JP2020536504A (ja) 2017-09-11 2020-12-17 ツイスト バイオサイエンス コーポレーション Gpcr結合タンパク質およびその合成
US11538554B1 (en) 2017-09-19 2022-12-27 The Board Of Trustees Of The Univ Of Illinois Nick-based data storage in native nucleic acids
US10810495B2 (en) * 2017-09-20 2020-10-20 University Of Wyoming Methods for data encoding in DNA and genetically modified organism authentication
JP7066840B2 (ja) 2017-10-20 2022-05-13 ツイスト バイオサイエンス コーポレーション ポリヌクレオチド合成のための加熱されたナノウェル
EP3682449A1 (en) 2017-10-27 2020-07-22 ETH Zurich Encoding and decoding information in synthetic dna with cryptographic keys generated based on polymorphic features of nucleic acids
JP7191448B2 (ja) 2018-01-04 2022-12-19 ツイスト バイオサイエンス コーポレーション Dnaベースのデジタル情報ストレージ
JP7364604B2 (ja) 2018-03-16 2023-10-18 カタログ テクノロジーズ, インコーポレイテッド 核酸ベースのデータ記憶のための化学的方法
WO2019191083A1 (en) * 2018-03-26 2019-10-03 Colorado State University Research Foundation Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules
KR102138864B1 (ko) * 2018-04-11 2020-07-28 경희대학교 산학협력단 Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법
EP3776557A4 (en) 2018-04-13 2021-12-15 The Hong Kong Polytechnic University DATA STORAGE USING PEPTIDES
CN108631791B (zh) * 2018-05-14 2021-08-10 东南大学 一种基于化学反应网络的低密度奇偶校验码解码方法
EP3794598A1 (en) 2018-05-16 2021-03-24 Catalog Technologies, Inc. Compositions and methods for nucleic acid-based data storage
CA3100739A1 (en) 2018-05-18 2019-11-21 Twist Bioscience Corporation Polynucleotides, reagents, and methods for nucleic acid hybridization
CN110569974B (zh) * 2018-06-06 2021-08-24 天津大学 可包含人造碱基的dna存储分层表示与交织编码方法
EP3803882A1 (en) * 2018-06-07 2021-04-14 Vib Vzw A method of storing information using dna molecules
US11854669B1 (en) 2018-07-30 2023-12-26 National Technology & Engineering Solutions Of Sandia, Llc Synthetic nucleic acids for information storage and transmission
KR102236439B1 (ko) * 2018-08-30 2021-04-06 (주) 케일헬스케어 디지털 정보를 dna 분자에 저장하는 방법 및 그 장치
US11515012B1 (en) 2018-09-22 2022-11-29 Mark Gordon Arnold Method and apparatus for a pipelined DNA memory hierarchy
US11017170B2 (en) * 2018-09-27 2021-05-25 At&T Intellectual Property I, L.P. Encoding and storing text using DNA sequences
EP3651156A1 (en) * 2018-11-07 2020-05-13 BioSistemika d.o.o. Nucleic acid-based data storage
CN113228193B (zh) * 2018-12-26 2023-06-09 深圳华大生命科学研究院 一种定点编辑存储有数据的核酸序列的方法及装置
CN109887549B (zh) * 2019-02-22 2023-01-20 天津大学 一种数据存储、还原方法及装置
JP2022522668A (ja) 2019-02-26 2022-04-20 ツイスト バイオサイエンス コーポレーション 抗体を最適化するための変異体核酸ライブラリ
CN113766930A (zh) 2019-02-26 2021-12-07 特韦斯特生物科学公司 Glp1受体的变异核酸文库
WO2020227718A1 (en) 2019-05-09 2020-11-12 Catalog Technologies, Inc. Data structures and operations for searching, computing, and indexing in dna-based data storage
GB201907460D0 (en) 2019-05-27 2019-07-10 Vib Vzw A method of storing information in pools of nucleic acid molecules
WO2020243076A1 (en) 2019-05-31 2020-12-03 Illumina, Inc. System and method for storage
SG11202012812PA (en) 2019-05-31 2021-01-28 Illumina Inc Flow cell with selective deposition or activation of nucleotides
CN112689682A (zh) 2019-05-31 2021-04-20 伊鲁米纳公司 从流动池中的生物样品获取信息
US11282588B2 (en) 2019-05-31 2022-03-22 Illumina, Inc. Storage device, system, and method
CN112689751A (zh) 2019-05-31 2021-04-20 伊鲁米那股份有限公司 具有一个或更多个屏障特征的流通池
CA3144644A1 (en) 2019-06-21 2020-12-24 Twist Bioscience Corporation Barcode-based nucleic acid sequence assembly
US11939570B2 (en) 2019-08-20 2024-03-26 Seagate Technology Llc Microfluidic lab-on-a-chip for gene synthesis
KR20220080172A (ko) 2019-10-11 2022-06-14 카탈로그 테크놀로지스, 인크. 핵산 보안 및 인증
US11755640B2 (en) * 2019-12-20 2023-09-12 The Board Of Trustees Of The University Of Illinois DNA-based image storage and retrieval
US11702689B2 (en) * 2020-04-24 2023-07-18 Microsoft Technology Licensing, Llc Homopolymer primers for amplification of polynucleotides created by enzymatic synthesis
CN111680797B (zh) * 2020-05-08 2023-06-06 中国科学院计算技术研究所 一种dna活字印刷机、基于dna的数据存储设备和方法
AU2021271639A1 (en) 2020-05-11 2022-12-08 Catalog Technologies, Inc. Programs and functions in DNA-based data storage
PT116392B (pt) 2020-05-15 2022-06-30 Univ Aveiro Método e composição para estabilizar e armazenar adn à temperatura ambiente e utilizações dos mesmos
CN111737955A (zh) * 2020-06-24 2020-10-02 任兆瑞 一种使用dna字符码存储文字点阵的方法
CN111858510B (zh) * 2020-07-16 2021-08-20 中国科学院北京基因组研究所(国家生物信息中心) Dna活字存储系统和方法
US11837302B1 (en) 2020-08-07 2023-12-05 Iridia, Inc. Systems and methods for writing and reading data stored in a polymer using nano-channels
KR102418617B1 (ko) * 2020-10-13 2022-07-07 서울대학교산학협력단 염기 비율과 연속적 발생을 제한하는 dna 저장 부호화 방법, 프로그램 및 장치
WO2022221077A1 (en) 2021-04-14 2022-10-20 Microsoft Technology Licensing, Llc Compostable silica encapsulation of oligonucleotides for long-term storage
CN113314187B (zh) * 2021-05-27 2022-05-10 广州大学 一种数据存储方法、解码方法、系统、装置及存储介质
US11823065B2 (en) 2021-05-28 2023-11-21 Bank Of America Corporation Enterprise market volatility predictions through synthetic DNA and mutant nucleotides
US11823064B2 (en) 2021-05-28 2023-11-21 Bank Of America Corporation Enterprise market volatility prediction through synthetic DNA and mutant nucleotides
US11823066B2 (en) 2021-05-28 2023-11-21 Bank Of America Corporation Enterprise market volatility predictions through synthetic DNA and mutant nucleotides
CN116451780A (zh) * 2022-01-05 2023-07-18 密码子(杭州)科技有限公司 用于在分子中存储信息的方法和设备
KR20240049911A (ko) 2022-10-11 2024-04-18 (주)디나스텍 염기서열의 반복 배치를 방지하기 위한 이진 데이터 섞는 방법
KR20240048218A (ko) 2022-10-06 2024-04-15 (주)디나스텍 불량 가능성이 낮은 dna 인코딩 방법 및 장치
KR20240056939A (ko) 2022-10-24 2024-05-02 (주)디나스텍 섞인 이진 데이터를 원래 이진 데이터로 복원하는 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2376686A (en) * 2001-02-10 2002-12-24 Nat Inst Of Agricultural Botan Storage of encoded information within biological macromolecules

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60041642D1 (de) * 1999-03-18 2009-04-09 Complete Genomics As Methoden zur klonierung und herstelung von kettenfragmenten mit lesbarem inhalt an information
CA2395874C (en) 1999-05-06 2011-09-20 Frank Carter Bancroft Dna-based steganography
US7110885B2 (en) * 2001-03-08 2006-09-19 Dnaprint Genomics, Inc. Efficient methods and apparatus for high-throughput processing of gene sequence data
WO2003025123A2 (en) * 2001-08-28 2003-03-27 Mount Sinai School Of Medecine Dna: a medium for long-term information storage specification
US7158892B2 (en) 2002-06-28 2007-01-02 International Business Machines Corporation Genomic messaging system
US20050053968A1 (en) * 2003-03-31 2005-03-10 Council Of Scientific And Industrial Research Method for storing information in DNA
US6943417B2 (en) * 2003-05-01 2005-09-13 Clemson University DNA-based memory device and method of reading and writing same
TWI326308B (en) * 2003-08-06 2010-06-21 Applied Dna Sciences Inc British Virgin Island Apdn B V I Inc Method for concealing a secret information carried within a dna molecule and method for decoding thereof
JP2005072772A (ja) * 2003-08-21 2005-03-17 Sony Ericsson Mobilecommunications Japan Inc データバックアップシステム、端末装置およびデータバックアッププログラム
ATE406621T1 (de) * 2005-02-11 2008-09-15 Smartgene Gmbh Computerimplementiertes verfahren und computergestütztes system zur validierung von dna-sequenzierungsdaten
US20070067332A1 (en) * 2005-03-14 2007-03-22 Gridiron Software, Inc. Distributed, secure digital file storage and retrieval
EP1991675B1 (en) * 2006-02-08 2011-06-29 Illumina Cambridge Limited End modification to prevent over-representation of fragments
US8691509B2 (en) * 2009-04-02 2014-04-08 Fluidigm Corporation Multi-primer amplification method for barcoding of target nucleic acids
RU106771U1 (ru) 2011-04-14 2011-07-20 Межрегиональное общественное учреждение "Институт инженерной физики" Устройство хранения и передачи данных с исправлением ошибок в байте информации и обнаружением ошибок в байтах информации
WO2012149171A1 (en) * 2011-04-27 2012-11-01 The Regents Of The University Of California Designing padlock probes for targeted genomic sequencing
CN102329884B (zh) * 2011-10-20 2013-05-08 东南大学 两核苷酸同时合成dna测序方法及其应用
IN2014DN09960A (zh) * 2012-06-01 2015-08-14 European Molecular Biology Lab Embl
CN108875312A (zh) 2012-07-19 2018-11-23 哈佛大学校长及研究员协会 利用核酸存储信息的方法
US9255265B2 (en) * 2013-03-15 2016-02-09 Illumina, Inc. Methods for producing stranded cDNA libraries

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2376686A (en) * 2001-02-10 2002-12-24 Nat Inst Of Agricultural Botan Storage of encoded information within biological macromolecules

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DNA随机存储器设计;沈俊杰 等;《浙江大学学报》;20050930;第32卷(第5期);第540-545页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107055468A (zh) * 2012-06-01 2017-08-18 欧洲分子生物学实验室 Dna中数字信息的高容量存储

Also Published As

Publication number Publication date
IL235954A0 (en) 2015-04-30
AU2018247323A1 (en) 2018-11-08
IN2014DN09960A (zh) 2015-08-14
IL277102B (en) 2022-03-01
IL277102A (en) 2020-10-29
EP2856375B1 (en) 2018-07-18
JP6674518B2 (ja) 2020-04-01
KR20150016572A (ko) 2015-02-12
CN104520864A (zh) 2015-04-15
US20230214319A9 (en) 2023-07-06
JP2015529864A (ja) 2015-10-08
AU2024201484A1 (en) 2024-03-28
EP3346404A1 (en) 2018-07-11
CN107055468A (zh) 2017-08-18
CA2874540A1 (en) 2013-12-05
US20230281112A9 (en) 2023-09-07
WO2013178801A2 (en) 2013-12-05
RU2014152796A (ru) 2016-07-27
JP2020119576A (ja) 2020-08-06
DK2856375T3 (en) 2018-11-05
JP7431775B2 (ja) 2024-02-15
US20190370164A1 (en) 2019-12-05
EP2856375A2 (en) 2015-04-08
HK1208937A1 (zh) 2016-03-18
ES2698609T3 (es) 2019-02-05
IL290490B1 (en) 2023-04-01
IL235954B (en) 2019-02-28
US20220043744A1 (en) 2022-02-10
JP2021144745A (ja) 2021-09-24
US10387301B2 (en) 2019-08-20
JP6896905B2 (ja) 2021-06-30
IL264325B (en) 2020-09-30
US20220043743A1 (en) 2022-02-10
AU2018247323B2 (en) 2020-01-30
US11892945B2 (en) 2024-02-06
IL290490A (en) 2022-04-01
AU2013269536B2 (en) 2018-11-08
US20230325308A9 (en) 2023-10-12
JP2019023890A (ja) 2019-02-14
SG11201407818PA (en) 2014-12-30
AU2013269536A1 (en) 2014-12-18
HK1257702A1 (zh) 2019-10-25
IL290490B2 (en) 2023-08-01
AU2022203933A1 (en) 2022-06-23
AU2020202857B2 (en) 2022-03-17
AU2020202857A1 (en) 2020-05-21
WO2013178801A3 (en) 2014-01-23
US20150261664A1 (en) 2015-09-17

Similar Documents

Publication Publication Date Title
CN104520864B (zh) Dna中数字信息的高容量存储
Bornholt et al. A DNA-based archival storage system
Heinis et al. Survey of information encoding techniques for dna
Ezekannagha et al. Design considerations for advancing data storage with synthetic DNA for long-term archiving
Maes et al. La révolution de l’ADN: biocompatible and biosafe DNA data storage
Limbachiya et al. 10 years of natural data storage
Buko et al. DNA Data Storage
Patel et al. Deoxyribonucleic acid as a tool for digital information storage: an overview
Bennet et al. Current and emerging opportunities in biological medium‐based computing and digital data storage
Hamadani et al. Big data management: from hard drives to DNA drives
Wei Enlarge Practical DNA Storage Capacity: The Challenge and The Methodology
Tomek Addressing Practical Barriers to Extreme-Scale DNA-Based Data Storage Systems
Wang et al. DNA Digital Data Storage based on Distributed Method
Wang Coding for DNA data storage
Topham et al. Solving the data storage problem using genomics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant