CN104520864A - Dna中数字信息的高容量存储 - Google Patents
Dna中数字信息的高容量存储 Download PDFInfo
- Publication number
- CN104520864A CN104520864A CN201380028511.8A CN201380028511A CN104520864A CN 104520864 A CN104520864 A CN 104520864A CN 201380028511 A CN201380028511 A CN 201380028511A CN 104520864 A CN104520864 A CN 104520864A
- Authority
- CN
- China
- Prior art keywords
- dna
- information
- byte
- synthesis
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 30
- 108020004414 DNA Proteins 0.000 claims abstract description 178
- 238000000034 method Methods 0.000 claims abstract description 45
- 239000002773 nucleotide Substances 0.000 claims abstract description 24
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 24
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 13
- 238000006062 fragmentation reaction Methods 0.000 claims description 60
- 238000013467 fragmentation Methods 0.000 claims description 54
- 239000012634 fragment Substances 0.000 claims description 29
- 238000003786 synthesis reaction Methods 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 230000002441 reversible effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 13
- 150000001875 compounds Chemical class 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012546 transfer Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 229920001519 homopolymer Polymers 0.000 description 5
- 230000006820 DNA synthesis Effects 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 108091034117 Oligonucleotide Proteins 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 238000000338 in vitro Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 235000004443 Ricinus communis Nutrition 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001311 chemical methods and process Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000006642 detritylation reaction Methods 0.000 description 2
- 238000011067 equilibration Methods 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000007641 inkjet printing Methods 0.000 description 2
- 150000008300 phosphoramidites Chemical class 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000035899 viability Effects 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 235000010894 Artemisia argyi Nutrition 0.000 description 1
- 108010013534 Auxilins Proteins 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 108090001060 Lipase Proteins 0.000 description 1
- 102000004882 Lipase Human genes 0.000 description 1
- 239000004367 Lipase Substances 0.000 description 1
- 244000027321 Lychnis chalcedonica Species 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 102100023922 Putative tyrosine-protein phosphatase auxilin Human genes 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 235000017899 Spathodea campanulata Nutrition 0.000 description 1
- 108010006785 Taq Polymerase Proteins 0.000 description 1
- 150000001408 amides Chemical class 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 244000030166 artemisia Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000006172 buffering agent Substances 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000027832 depurination Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000004108 freeze drying Methods 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000002198 insoluble material Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000543 intermediate Substances 0.000 description 1
- 235000019421 lipase Nutrition 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000002515 oligonucleotide synthesis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- 230000005298 paramagnetic effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 1
- 229960000281 trometamol Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/0223—User address space allocation, e.g. contiguous or non contiguous base addressing
- G06F12/023—Free address space management
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B82—NANOTECHNOLOGY
- B82Y—SPECIFIC USES OR APPLICATIONS OF NANOSTRUCTURES; MEASUREMENT OR ANALYSIS OF NANOSTRUCTURES; MANUFACTURE OR TREATMENT OF NANOSTRUCTURES
- B82Y10/00—Nanotechnology for information processing, storage or transmission, e.g. quantum computing or single electron logic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/123—DNA computing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C13/00—Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
- G11C13/02—Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using elements whose operation depends upon chemical change
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/40—Encryption of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1032—Reliability improvement, data loss prevention, degraded operation etc
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Mathematical Physics (AREA)
- Nanotechnology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Peptides Or Proteins (AREA)
- Detection And Correction Of Errors (AREA)
- Error Detection And Correction (AREA)
- Saccharide Compounds (AREA)
Abstract
公开了一种存储信息项(210)的方法。该方法包括编码在信息项(210)中的字节(720),并利用一方案以DNA核苷酸对所编码的字节进行表示,以产生DNA序列(230)。DNA序列(230)被拆分成若干个重叠的DNA片段(240),且标引信息(250)被添加到若干个DNA片段上。最后,若干个DNA片段(240)被合成(790)并存储(795)。
Description
技术领域
本公开涉及存储DNA中数字信息的方法和设备。
背景技术
DNA具备保持巨额数量信息的能力,易于以紧凑结构长期保存1,2。利用DNA作为数字信息的存储器的想法自1995年3已经存在。DNA存储的物理实现迄今为止仅存储了微量的信息——典型的是少数英文文本的单词4-8。发明人没有意识到编码在物理DNA中的大规模存储和对任意规格数字信息的还原,而非磁性基底或光学基底上的数据存储。
目前,DNA合成是集中应用于生物医药的专业技术。DNA合成的成本在过去的几十年已经稳步缩减。相比于磁带上的数据存储每过3至5年会少见但定期地转移到新介质,推断在什么时间段如本文所公开的DNA分子上的数据存储将会比其当前长期存档过程更具成本效益是有趣的。当前DNA合成的“现成”技术相当于一美元约100字节的价格。市场上可从Agilent科技(圣克拉拉,加利福尼亚州)购买的更时新的技术可能会大幅缩减该成本。然而,仍然需要建立账户,用于磁带介质之间的定期数据转移。问题是,该数据传递的成本,以及该成本是固定不变的还是随时间削减的。如果假定大量成本是固定不变的,则存在一个时间范围,其间利用DNA分子进行数据存储比常规磁带介质上的数据存储更具成本效益。在400年以后(至少80次介质转移),利用DNA分子的数据存储可能已经具有成本效益。
本公开中描述了一种比先前使用的程序存储更多信息的实用编码解码程序。发明人已经对五个计算机文件进行编码——总共757051字节的(739kB)硬盘存储并具有约为5.2×106比特的香农信息9——变为DNA码。发明人随后合成了该DNA,将该合成DNA从美国经英国运输到德国,对DNA进行测序并以100%的精确度重构了五个计算机文件。
该五个计算机文件包括一个英文语言文本(莎士比亚十四行诗的全部154句),一个经典科技论文的PDF文件10,一个JPEG色彩的照片和一个MP3格式的音频文件,包含26秒的演讲(选自马丁路德金的演讲“我有一个梦想”)。该数据存储代表了近800倍于已知的先前基于DNA的存储的信息量,并涵盖了更丰富的数字格式。结果证明,DNA存储正逐渐成为现实,并可以在未来提供有成本效益的数字信息存档方法,且用于慢速存取、多年代存档任务可能已经具有成本效益。
现有技术
在易于获取的情况下1,2,自1995年以来3,稳定存储信息的DNA高容量已经使得DNA成为极具吸引力的信息存储目标。除信息密度之外,DNA分子作为信息载体具有已证实的业绩记录,DNA分子的寿命已知,且事实上作为地球生命的基础,只要有基于DNA的智能生命体存在1,2,操作、存储和读取DNA分子的方法将依然是持续技术创新的主题。基于活性载体DNA5-8(在活体(in vivo)DNA分子中)和合成DNA4,1(在离体(in vitro)DNA中)的数据存储系统已经被提出。在活体内的数据存储系统具有若干缺陷。这些缺陷包括对数量、染色体成分和在活性载体有机体中可操作而不影响DNA分子生存力的位置的限制。此种活性载体有机体的示例包括但不限于细菌。生存力的下降包括容量的缩减和信息编码方案的复杂度的增加。此外,胚系突变和体细胞突变将引发所保存信息的保真度和解码信息随时间下降,并可能引发对活DNA存储条件细致监管的需求。
相比之下,“分离的DNA”(即,离体DNA)更易于“写入”,且对几万年前11-14的样本的非活DNA实例进行的例行还原显示,在易于获取且少量维护的环境下(即,寒冷,干燥和黑暗的环境)15-17,良好制备的非活DNA样本应具有格外长的生命期限。
在DNA中进行信息(也称数据)存储的先前工作典型地集中于在DNA中以编码形式“写入”人类可读的消息,而后通过确定DNA的序列和解码该序列来“读取”该编码的人类可读的消息。在DNA计算领域的工作产生了原则上容许大型联合associative(相联)存储器的方案3,18-20,但尚无将这项工作推进到实用DNA存储方案的尝试。图1示出了14个在先前研究中(在y轴标注对数刻度)被成功编码和还原的信息数量。为14个先前实验(空心圆)和本公开(实心圆)示出了点。以这种方式存储的最大数量的人类可读消息为1280个英文语言文本字符8,约相当于6500比特的香农信息9。
印度科学与工业研究委员会提交了一份序列号为US 2005/0053968(巴拉得瓦杰等)的美国专利申请,教导了一种在DNA中存储信息的方法。美国968号申请的方法包括使用编码方法,其利用4个DNA碱基表示拓展ASCII字符集中的每一个字符。于是产生了合成的DNA分子,其包括数字信息、加密密钥,并在每个侧面与引物序列相接。最后,合成的DNA被并入存储DNA。在DNA数量过大的情况下,信息可以被分裂成为若干片段。美国968号专利公开的方法可以通过匹配某片段的头端引物和下一片段的尾端引物来重构分裂的DNA片段。
已知其它描述了在DNA中存储信息的技术的专利文献。例如,美国专利6,312,911教导了一种密写方法,用于隐藏DNA中编码的消息。该方法包括运用基因组DNA样本隐藏DNA编码消息,随后进一步将DNA样本隐藏为微点。该美国911号专利的申请特别地用于机密信息的隐藏。这样的信息通常具有有限长度,因此文件不会讨论如何存储更长长度的信息项。相同的发明人提交了国际专利申请,并作为第WO 03/025123号国际公布公开。
发明内容
公开了一种用于存储信息项的方法。该方法包括编码在信息项中的字节。使用一方案(schema)由DNA核苷酸来表示该编码字节,产生计算机模拟(in-silico)的DNA序列。下一步,DNA序列被拆分成若干个重叠的DNA片段,且标引信息被添加到若干个DNA片段上。最后,若干个DNA片段被合成并存储。
对DNA片段添加标引信息意味着片段在表示信息项的DNA序列中的位置能够被单一识别。没有必要依赖头端引物与尾端引物的匹配。这使得,即使片段之一不能正确重现,也可以还原几乎整个信息项。如果不存在标引信息,则存在风险,也即,如果因“孤儿”(orphan)片段而导致片段不能够相互匹配,可能不能够正确重现整个信息项,所述孤儿片段是其在DNA序列中的位置不能清楚识别的片段。
利用重叠的DNA片段意味着在信息项的存储中写入了一定程度的冗余。如果某一DNA片段不能够被解码,则该编码字节仍然能够从相邻的DNA片段还原。因此冗余成为了系统的组成部分。
可以利用已知DNA合成技术制作DNA片段的若干个副本。这提供了额外程度的冗余,以使得信息项能够被解码,即使DNA片段中的某些副本损坏并不能被解码。
在发明的一个方面,用于解码的表示方案(representation schema)被设计为相邻的DNA核苷酸各不相同。这样增加了合成、重现和测序(读取)DNA片段的可靠性。
在本发明的进一步方面,向标引信息添加了奇偶校验(parity-check)。该奇偶校验使得错误合成、重现或测序被识别出来。奇偶校验能够被拓展(expanded)并包括纠错信息。
合成DNA片段的交替片段是反向互补的。它们在DNA中提供了额外的冗余度,并意味着如果任一DNA片段损坏,会有更多可得信息。
附图说明
图1为存储在DNA中并成功还原的信息数量的时间函数图;
图2示出了本公开方法的示例;
图3示出了存储随时间的成本效益的图示;
图4示出了自反向互补模式的基序;
图5示出了编码效率;
图6示出了误码率;
图7示出了方法的编码的流程图;
图8示出了方法的解码的流程图;
具体实施方式
迄今,实现实用DNA存储的主要挑战之一是根据指定(specified)设计创造长序列DNA的困难。DNA长序列要求存储大量数据文件,诸如长文本项和视频文件。更优选的是,利用每个设计的DNA的若干个副本的编码。该冗余防止了编码和解码错误,下文将做解释。使用基于独立的长DNA链的系统来编码每条(尤其是大量的)消息8不具有成本效益。发明人已开发了一种方法,运用与每个DNA片段相关的“标引”信息来指示DNA片段在假设编码整个消息的更长的DNA分子中的位置。
发明人运用编码理论的方法来加强DNA片段上的编码消息的可还原性,包括禁止DNA均聚物(即,存在不只一个相同碱基),已知其在现存的高通量技术中具有更高的误码率。发明人进一步并入了简单的错误检测组件,类似于码中标引信息的奇偶校验位9。更复杂的方案,包括但不限于错误校正码9,以及当前切实用于信息学的、实质上任何形式的数字数据安全(例如,基于RAID的方案21),可以在DNA存储方案3的未来发展中实现。
发明人选择了五个计算机文件进行编码,作为本公开DNA存储的概念验证。选择了使用一系列常见格式的文件,而非限制文件为人类可读信息。这演示了本公开的存储任意类型数字信息的教导。该文件包含莎士比亚十四行诗的全部154句(TXT格式)、参考文献10的全部文本和图像(PDF格式)、中等分辨率色彩的、欧洲分子生物学实验室-欧洲生物信息研究所的照片(JPEG 2000格式)、从马丁路德金的“我有一个梦想”的演讲中提取了26秒时长(MP3格式),和一个定义霍夫曼代码的文件,本研究使用霍夫曼代码将字节转换为三进制数字(作为人类可读的文本文件)。
该选择用于DNA存储的五个文件如下:
wssnt10.txt—107738字节—ASCII文本格式。莎士比亚十四行诗的全部154句(来自古登堡计划,http://www.gutenberg.org/ebooks/1041)。
watsoncrick.pdf—280864字节—PDF格式文件。沃森和克里克(1953)描述DNA结构的文献10(经修正以实现更高的压缩率从而得到较小的文件,来自“自然”网站,http://www.nature.com/nature/dna50/archive.html)。
EBI.jp2—184264字节—JPEG 2000格式图像文件。欧洲分子生物学实验室-欧洲生物信息研究所(自行拍摄)的彩色照片(16.7M色彩,640 x 480像素分辨率)。
MLK_excerpt_VBR_45-85.mp3—168539字节—MP3格式声音文件。从马丁路德金的“我有一个梦想”的演讲中提取了26秒时长(来自http://www.americanrhetoric.com/speeches/mlkihaveadream.htm,经修正以实现更高的压缩率:可变比特率,典型为48-56kps;采样频率为44.1kHz)。
View_huff3.cd.new—15646字节—ASCII文件。定义本研究用来将字节转换为三进制数字(三进制数位)的霍夫曼代码的人类可读文件。
五个计算机文件一共包含757051字节,约等于5.2×106位的香农信息,或800倍于作为先前最大已知存储量的、编码和还原的人类设计信息(见图1)。
对每个计算机文件进行DNA编码是用软件计算的,且该方法在图7中示出。在本文描述的本发明700的一个方面,包含每个计算机文件210的字节在步骤720处通过编码方案表示为不含均聚物的DNA序列230,用以产生编码文件220,以形成DNA序列230的五或六个碱基(见下)替换每个字节。构造用在编码方案中的码,以便容许接近有限运行长度通道(即无重复核苷酸)的最佳信息容量的直接编码。而将理解,也可以使用其他编码方案。
所得的计算机模拟的DNA序列230过长,而不易于标准低聚核苷酸合成的产生。每个DNA序列230因此在步骤730被拆分为重叠的片段240,其长度为100个碱基,具有重叠的75个碱基。为降低被引入碱基的任一特定排列中的系统合成错误风险,于是这些片段的交替片段在步骤740处被转变为它们的反向互补序列,意为每个碱基被“写入”四次,每个方向两次。每个片段在750处采用标引信息250进行扩充,加之简单的错误检测信息,标引信息250可确定片段240来源于哪个计算机文件以及在该文件210上的位置。标引信息250也在步骤760处作为无重复的DNA核苷酸进行编码,并在步骤770处被添加到DNA片段240的100个信息存储碱基。将理解,将DNA片段240分为具有重叠的75个碱基的100个碱基的长度纯粹是任意的。也可以使用其它长度和重叠部分,这并非是对本发明的限制。
总之,所有的五个计算机文件被153335串DNA所表示。每一串DNA包含117个核苷酸(编码原始数字信息和标引信息)。所使用的编码方案具有合成DNA的多个特征(例如统一的片段长度,无均聚物),使该合成DNA明显不具有自然(生物)来源。因此,很明显合成DNA具有思虑周密的设计以及编码信息2。
如上所述,也可以使用其他对DNA片段240的编码方案,例如提供增强的错误校正性能。增加标引信息的数量将使其更明确,以便使得更多或更大的文件能够被编码。已经提出,嵌套引物分子存储器(NPMM)方案19达到了16.8M单一地址的实用最大容量20,且似乎没有原因显示,本公开的方法不能超越它以使得几乎任意大量的信息能够被编码。
为了避开在DNA片段240中的系统模式,对编码方案的拓展可以是增加变动信息。尝试了两种途径。第一种途径包含对DNA片段240中的信息进行“洗牌”,如果知道“洗牌”的模式,可以恢复该信息。在本公开的一个方面,不同模式的洗牌被用于不同的DNA片段240。
另一个途径是在每个DNA片段240的信息中增加随机度。对此可运用一系列随机数字,利用该系列随机数字的模加,且这些数字包含编码到DNA片段240中的信息。如果知道所用的随机数字序列,则可以在解码中轻易地通过模减恢复该信息。在本发明的一个方面,不同系列的随机数字被用于不同的DNA片段240。
在步骤720处的数字信息编码执行如下:用软件编码存储在硬盘驱动器中的数字信息的五个计算机文件210(表示在图2A中)。五个计算机文件210中每个文件的每个字节在步骤720处被编码,并经由三进制数字(“三进制数位”0,1,2)表示为一系列DNA碱基,运用表1(下文)列出的为特定目的设计的霍夫曼代码来产生编码文件220。该示例性编码方案概括地在图2B中展示。256个可能字节中的每一个被5至6个三进制数位表示。随后,每个三进制数位被编码为从不同于上一个核苷酸(图2C)的三个核苷酸中选出的一个DNA核苷酸230。换言之,在为本公开的此方面所选的编码方案中,三个核苷酸中的每一个均与上一个不同,以保证没有均聚物。所得的DNA序列230在步骤730处被拆分为DNA片段240,具有100个碱基的长度,如图2D所示。每个DNA片段与上一个DNA片段重叠75个碱基,以便给予DNA片段一个易于合成并提供冗余的长度。交替的DNA片段是反向互补的。
标引信息250包括两个三进制数位用于文件识别(在该实现中,可区别32=9个文件),12个三进制数位用于文件内部位置信息(每个文件312=531441个位置),以及一个“奇偶校验”三进制数位。标引信息250在步骤760处编码为无重复的DNA核苷酸,并在步骤770处被添加到100个信息存储碱基上。每个标引的DNA片段240具有另一个碱基,在步骤780处添加到每一端,符合“无均聚物”的原则,其能够在实验的“读取”阶段表明整个DNA片段240是否为反向互补的。
总之,五个计算机文件210由153335串DNA表示,每串包含117个(1+100+2+12+1+1个)核苷酸(编码原始数字信息和标引信息)。
本文描述的本发明的方面中,每串数据编码组件可以包含香农信息,每DNA碱基5.07比特,其接近理论最佳的每DNA碱基5.05比特,用于运行长度限制为1的4进制通道。标引实现250容许314=4782969个单一数据位置。将用于指定文件和文件内部位置的标引三进制数位的数目从2到16增加,给出316=43046721个单一位置,超过了NPMM方案19,20的16.8M的实用最大值。
步骤790处的DNA合成过程也用于向每个低聚核苷酸(低聚糖)的每一端并入33bp的衔接头,来促进在Illumina测序平台上的测序:
5’衔接头:ACACTCTTTCCCTACACGACGCTCTTCCGATCT
3’衔接头:AGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG
该153335个DNA片段设计240在步骤790处合成为三个不同的运行段(DNA片段240被随机地分入运行段),利用上述22,23新版的Agilent科技的OLS(低聚糖库合成)过程,为每个DNA片段设计生成约1.2x107个副本。可以见到错误仅出现在每500个碱基中的一处,且对于DNA片段240的不同副本是独立出现的。Agilent科技调整了先前24开发的酰胺三酯合成法,并在微阵列合成平台上就地使用了Agilent SurePrint的喷墨打印和流动池反应器技术。具有无水室的喷墨打印容许向二维平面表面的有限耦合区域传递非常小量的亚磷酰胺,得到成百上千增加的并行碱基。随后的氧化和脱三苯甲基在流动池反应器中实现。一旦DNA合成完成,低聚核苷酸将被从表面分离并去保护25。
添加到DNA片段的衔接头使得DNA片段的若干个副本能够易于制作。没有衔接头的DNA片段将需要额外的化学过程来“启动”通过向DNA片段的端添加额外的组来合成若干个副本的化学过程。
利用超过千倍的亚磷酰胺和催化剂方案,可获得高达~99.8%的耦合效率。类似的,超过数百万倍的脱三苯甲基药剂驱使5’-羟基保护基团被移除,使之接近完成。在流动池反应器中的控制过程显著地降低了脱嘌呤作用,其为最普遍的副反应22。可以并行合成高达244000个单一序列,并作为~1–10皮摩尔池的低聚糖传递。
冻干低聚糖的三个样本整晚在氨丁三醇缓冲剂中以4℃进行培养,通过移液管和涡流周期性混合,并最终在50℃下进行培养1小时,达到5ng/ml的浓度。因为有不溶性的物质残留,样本以4℃被另外静置5天,每天有2-4次混合。随后样本以50℃培养1小时、以68℃培养10分钟,并且从AmpureXP顺磁珠(贝克曼库尔特)上的剩余合成副产品中净化,并可以在步骤795处存储。测序和解码如图8所示。
该结合的低聚糖样本在步骤810处(利用设计为给予A/T与G/C相等处理26的热循环仪环境的22个PCR周期)利用双末端Illumina PCR引物和高保真度AccuPrime试剂(试剂盒)被放大,Taq聚合酶和火球菌聚合酶具有耐热辅助蛋白。该放大的产品经磁珠净化且经Agilent 2100生物分析仪定量,并在Illumina HiSeq 2000上以双末端模式利用AYB软件测序,以产生104个碱基的读数。
数字信息解码执行如下:每个低聚糖的中央的91个碱基在步骤820处从两端进行测序,由此很明显要对全长(117个碱基)的低聚糖进行快速计算,并移除与设计不相符的序列读数。该序列读数在步骤830处利用精确的反向进行编码过程的计算机软件进行解码。出于进一步考虑,经奇偶校验的三进制数位表明有错、在任何阶段不能够准确解码、或被分配到重构的计算机文件的序列读数在步骤840处被舍弃。
在多个不同的经测序的DNA低聚糖上检测到每个解码文件的绝大多数位置,在步骤850处利用了简单多数表决来解决因DNA合成或测序错误引起的差异。程序860完成时,四或五个原始计算机文件210被精确重构。第五个文件需要人工干预来更正各有25个碱基的两个区域,它们没有从任何序列读数中还原。
在步骤850的解码过程中,注意到经计算机模拟重建的DNA层次(在解码之前,经由三进制至字节)的一个文件(最后确定是watsoncrick.pdf)包括两个各有25个碱基的区域,它们没有从任何一个序列读数中还原。给定解码的重叠片段结构,每个区域表明四个用于合成或测序的连贯片段均是无效的,因为四个连贯重叠片段中的任意一个均应含有与位置对应的碱基。对两个区域的检查表明,未检测到的碱基属于下一20碱基的基序的长距离重复。
5’GAGCATCTGCAGATGCTCAT 3’
注意到该基序的重复具有一个自反向互补的模式。其在图4中示出。
长距离的、自反向互补的DNA片段可能不易于利用Illumina双末端过程进行测序,因为DNA片段可能形成内部非线性的茎环结构,将抑制本文件中约定使用的合成测序反应。结果,经计算机模拟的DNA序列被修正以纠正该重复基序模式,而后经过随后的解码步骤。没有碰到进一步的问题,且最终的解码文件与文件watsoncrick.pdf精确匹配。将来可能用到确保在任一设计的DNA片段中没有长距离自互补区域存在的代码。
霍夫曼代码方案实例
表1示出了典型的霍夫曼代码方案实例,用于将字节值(0-255)转换为三进制。对于高度压缩的信息,每字节值应以相等频率出现,且每字节的三进制数位平均数将为(239*5+17*6)/256=5.07。每字节的三进制数位理论最大数值为log(256)/log(3)=5.05。
表1
文件的编码
该任意计算机文件210表示为字节的串(通常解释为和28–1之间的一个数,即集合{0...255}之间的一个值)。串利用霍夫曼代码并转换为三进制数位进行编码。这产生了三进制数位的字符的串S1。
现写下len()作为计算串S1长度(以字符)的函数,并定义n=len(S1)。将n以三进制表示,并预设0s来产生三进制数位串S2,由此len(S2)=20。形成串的级联S4=S1.S3.S2,,其中S3为最多选择24个零的串,由此len(S4)为25的整数倍。
利用下表示出的方案,S4转换为没有重复核苷酸(nt)的DNA字符{A,C,G,T}的串S5。S4的第一个三进制数位利用表的“A”行进行编码。对每下一个三进制数位,从前一个字符转换所定义的行中取字符。
表:确保无重复核苷酸的三进制至DNA的编码。
对每个要编码的三进制数位t,选择标记前一个核苷酸使用的行,和标记t的列,并利用对应的表格单元格中的nt进行编码。
定义N=len(S5),并使2进制串的ID识别原始文件,且它在给定的实验中是单一的(在一次实验中容许来自不同文件的DNA混合)。将S5拆分成重叠的长度为100nt的DNA片段240,每个DNA片段240从前一个DNA片段240处偏移25nt。这意味着将有((N/25)-3)个DNA片段240,便利地标引为DNA片段i表示为Fi并包含(DNA)S5的字符25i…25i+99。
每个DNA片段Fi进一步处理如下:
如果i为奇数,反向互补该DNA片段Fi。
使i3作为i的三进制表示,添加足够的前导零,由此len(i3)=12。计算ID中的奇数位的三进制数位和i3的和P,即ID1+i31+i33+i35+i37+i39+i311。(P作为“奇偶性三进制数位”–类似于奇偶校验位–来校验有关ID和i的编码信息中的错误)。
形成标引信息250的串IX=ID.i2.P(包含2+12+1=15个三进制数位)。利用上表示出的相同策略,将IX的DNA-编码的(步骤760)版本添加到Fi,从由上一个字符Fi定义的代码表的行开始,给出标引片段F′i。
通过预设A或T并将C或G添加到F′i形成F″i–可以随机选择A或T以及C或G,但总没有重复的核苷酸。这确保将已经在DNA测序过程中反向逆转(步骤240)的DNA片段240从没有逆转的片段中区别出来。前者以G|C开始,以T|A结束;后者以T|A开始,以G|C结束。
片段F″I在步骤790处以实际DNA低聚核苷酸合成,并在步骤790处存储,且可提供给步骤820处的测序。
解码
在步骤720处的解码是简单的反向编码,从已测序的117个核苷酸长的DNA片段240 F″I开始。在DNA测序程序中的(例如,在PCR反应中)反向互补可以通过观察碎片是否以T|A开始、以G|C结束而被识别出来并用于随后的反转。随着这两个“方向”的核苷酸被移除,每个DNA片段240剩下的115个核苷酸可以被拆分成在先的100个“消息”核苷酸和剩下的15个“标引信息250”核苷酸。标引信息核苷酸250可以解码以确定文件标识符ID、位置标引i3和i,且通过测试奇偶性三进制数位P可以检测到错误。位置标引信息250容许构件DNA编码文件230,其可以利用以上编码表的反向转换为三进制,随后利用给定的霍夫曼代码转换为原始字节。
就数据存储的讨论
DNA存储相比传统的基于磁带的或基于磁盘的存储具有不同性能。在本实例中,~750kB的信息被合成了10pmol的DNA,给出了大约1太字节/克的信息存储密度。DNA存储不要求电源,且保守估计,可能保持(潜在地)活性几千年。
DNA存档也可以通过将PCR应用到成对引物,随后是等分(拆分)所得的DNA的方案,从而以大规模并行的方式复制DNA。在测序过程的该技术的实际证明中多次履行了该程序,但其也可以明确用于复制大规模信息,并在物理上将该信息发送到两个或多个位置。在多个位置存储该信息将为任何存档方案提供提供进一步的稳定性,其本身可被用于设施之间的巨大规模的数据复制操作。
该实例中的解码带宽为3.4比特/秒,相比于磁盘(约太比特/秒)或磁带(140兆比特/秒),且时延也较高(本实例中为~20天)。人们希望将来的测序技术能够提高这几项因数。
对使用本公开的DNA存储或磁带存储进行存档的全部成本建模,表明主要的参数是在磁带存储技术和介质之间的转移频率和固定成本。图3示出了DNA存储为有成本效益的时间量程。上方的粗体曲线表示了平衡时间(x轴),超过该点本公开中教导的DNA存储比磁带更便宜。假设磁带存档每3年(f=1/3)需要读取并重写,并取决于DNA存储合成的相关成本和磁带转移的固定成本(y轴)。下方的粗体曲线对应每5年进行磁带转移。下方粗体曲线下面的区域表示当转移比5年发生得更加频繁时DNA存储是有成本效益的;在两条粗体曲线之间,当转移发生在3至5年时DNA存储是有成本效益的;且在上方粗体曲线以上,当转移比3年发生得更不频繁时磁带更廉价。水平点划线表明DNA合成转移到磁带的相关成本的范围是125-500(当前值)和12.5-50(若DNA合成成本以数量级降低而得到)。垂直点划线表明相应的平衡时间。注意所有轴线采用对数刻度。
长期数字存档的一个主题是基于DNA的存储如何扩展到更大型的应用。需要编码信息的合成DNA的碱基数量正随着需要存储的信息量呈线性增长。必须考虑由短DNA片段240重构全长文件时所需的标引信息。标引信息250仅以需要标引的DNA片段240的数量的对数而增长。合成DNA的总量需要以次线性增长。每个DNA片段240需要标引的部分越来越多,然而,虽然期望未来可能出现长串合成是合理的,但该方案的行为建立在可用于数据和标引信息250的恒定的114个核苷酸的保守约束条件下。
随着信息总量增加,编码效率仅缓慢地下降(图5)。在实验中(兆字节规模),编码方案具有88%的效率。图5示出了当数据存储达到拍字节(PB,1015字节)时效率仍然大于70%,且达到艾字节(EB,1018字节)规模时仍然大于65%,并且基于DNA的存储在比当前全球数据量大若干数量级时仍然可行。图5也示出了当数据量以数量级增加时,成本(每单位存储信息)仅缓慢增长。如果考虑到利用最新技术合成DNA片段240的可用长度,该效率和成本规模更为有利。随着存储信息量的增加,解码要求测序更多低聚糖。每字节的编码信息具有固定的解码支出,可能意味着每个碱基将被以较少次数读取,因此更可能出现解码错误。延展尺度分析来模拟降低测序覆盖范围对每碱基解码错误率的影响,其显示当编码信息量增长达到并超过全球数据规模时,错误率增长非常缓慢。这也表明1308次的平均测序覆盖范围远远超过了对可靠解码的需求。这被从79.6x3106个成对读数中二次抽样来模拟低覆盖范围的实验所证实。
图5表明,以因数10(或更多)减少覆盖范围会导致不变的解码特征,其进一步说明了DNA存储方法的稳定性。基于DNA存储的应用已经在经济上可行,用于长期存档,具有低预期的广泛接入性,诸如政府或历史记录。在科学界的一个实例是CERN的CASTOR系统,其存储了总共80 PB的大型强子对撞机数据并以15 PB yr-1的速度增长。只有10%是在磁盘上维护的,且CASTOR定期地在磁带格式之间移动。为在潜在的未来中查实事件,需要对较旧数据进行存档,但在收集的2-3年后访问速率显著降低。进一步的实例可以在天文、医药和行星际空间探测中找到。
图5示出了当存储信息量增加时的编码效率和成本变化。x-轴(对数刻度)表示需要编码的总信息量。示出了通常的数据规模,包括估计的三泽字节(3ZB,3x1021字节)的全球数据。左侧的y-轴刻度表示编码效率,以可用与数据编码的合成碱基的比例测定。右侧的y-轴可读表示对编码成本的相应影响,在当前合成成本水平(实线)且在减少了两个数量级的情况下(虚线)。
图6示出了每还原碱基的错误率(y轴),作为测序覆盖范围的函数,表示为原始的79.6x106个成对读数的采样百分比(x轴;对数刻度)。一条曲线表示了无需人工干预还原的四个文件:当使用了≥2%的原始读数时错误为零。通过蒙特卡洛模拟理论错误率模型,得到另外一条曲线。最终曲线表示了需要人工修正的文件(watsoncrick.pdf):可能的最小错误率为0.0036%。围合的区域在插页中放大示出。
除数据存储之外,本公开的教导也可用于隐写术。
参考文献
1.Bancroft,C.,Bowler,T.,Bloom,B.&Clelland,C.T.Long-term storage of informationin DNA.Science 293,1763–1765(2001)
2.Cox,J.P.L.Long-term data storage in DNA.TRENDS Biotech.19,247–250(2001)
3.Baum,E.B.Building an associative memory vastly larger than the brain.Science 268,583–585(1995)
4.Clelland,C.T.,Risca,V.&Bancroft,C.Hiding messages in DNA microdots.Nature399,533–534(1999)
5.Kac,E.Genesis(1999)http://www.ekac.org/geninfo.html accessed online,2 April 2012
6.Wong,P.C.,Wong,K.-K.&Foote,H.Organic data memory.Using the DNA approach.Comm.ACM 46,95–98(2003)
7.Ailenberg,M.&Rotstein,O.D.An improved Huffman coding method for archiving text,images,and music characters in DNA.Biotechniques 47,747–754(2009)
8.Gibson,D.G.et al.Creation of a bacterial cell controlled by a chemically synthesizedgenome.Science 329,52–56(2010)
9.MacKay,D.J.C.Information Theory,Inference,and Learning Algorithms.(CambridgeUniversity Press,2003)
10.Watson,J.D.&Crick,F.H.C.Molecular structure of nucleic acids.Nature 171,737–738(1953)
11.Shapiro,B.et al.Rise and fall of the Beringian steppe bison.Science 306,1561–1565(2004)
12.Poinar,H.K.et al.Metagenomics to paleogenomics:large-scale sequencing ofmammoth DNA.Science 311,392–394(2005)
13.Willerslev,E.et al.Ancient biomolecules from deep ice cores reveal a forested southernGreenland.Science 317,111–114(2007)
14.Green,R.E.et al.A draft sequence of the Neanderthal genome.Science 328,710–722(2010)
15.Anchordoquy,T.J.&Molina,M.C.Preservation of DNA.Cell Preservation Tech.5,180–188(2007)
16.Bonnet,J.et al.Chain and conformation stability of solid-state DNA:implications forroom temperature storage.Nucl.Acids Res.38,1531–1546(2010)
17.Lee,S.B.,Crouse,C.A.&Kline,M.C.Optimizing storage and handling of DNAextracts.Forensic Sci.Rev.22,131–144(2010)
18.Tsaftaris,S.A.&Katsaggelos,A.K.On designing DNA databases for the storage andretrieval of digital signals.Lecture Notes Comp.Sci.3611,1192–1201(2005)
19.Yamamoto,M.,Kashiwamura,S.,Ohuchi,A.&Furukawa,M.Large-scale DNA memorybased on the nested PCR.Natural Computing 7,335–346(2008)
20.Kari,L.&Mahalingam,K.DNA computing:a research snapshot.In Atallah,M.J.&Blanton,M.(eds.)Algorithms and Theory of Computation Handbook,vol.2.2nd ed.pp.31-1–31-24(Chapman&Hall,2009)
21.Chen,P.M.,Lee,E.K.,Gibson,G.A.,Katz,R.H.&Patterson,D.A.RAID:high-performance,reliable secondary storage.ACM Computing Surveys 26,145–185(1994)
22.Le Proust,E.M.et al.Synthesis of high-quality libraries of long(150mer)oligonucleotides by a novel depurination controlled process.Nucl.Acids Res.38,2522–2540(2010)
23.Kosuri,S.et al.A scalable gene synthesis platform using high-fidelity DNA microchips.Nature Biotech.28,1295–1299(2010)
24.Beaucage,S.L.&Caruthers,M.H.Deoxynucleoside phosphoramidites—a new class ofkey intermediates for deoxypolynucleotide synthesis.Tetrahedron Lett.22,1859–1862(1981)
25.Cleary,M.A.et al.Production of complex nucleic acid libraries using highly parallel insitu oligonucleotide synthesis.Nature Methods 1,241–248(2004)
26.Aird,D.et al.Analysing and minimizing PCR amplification bias in Illumina sequencinglibraries.Genome Biol.12,R18(2011)
Claims (10)
1.一种用于存储信息项(210)的方法,包括:
-编码在信息项(210)中的字节;
-使用一方案由至少一个DNA核苷酸来表示(720)所编码的字节,以产生DNA序列;
-将DNA序列拆分(730)成若干个重叠的DNA片段(240);
-添加(740)标引信息到所述若干个DNA片段(240)上;
-合成(790)所述若干个DNA片段(240);以及
-存储(795)所述合成的DNA片段(240)。
2.根据权利要求1所述的方法,进一步包括向合成的DNA片段添加衔接头。
3.根据权利要求1或2,使用三进制方案编码所述字节。
4.以上权利要求中任一项所述的方法,其中所使用的表示方案被设计为相邻的DNA核苷酸各不相同。
5.以上权利要求中任一项所述的方法,进一步包括向标引信息添加奇偶校验。
6.以上权利要求中任一项所述的方法,其中合成DNA片段(240)的交替片段是反向互补的。
7.以上权利要求中任一项所述的方法,其中所使用的表示方案被设计为避免长距离的、自反向互补的合成DNA片段。
8.以上权利要求中任一项所述的方法,进一步包括解码所合成的DNA片段来重构所述信息项。
9.一种非易失性的、非暂时性的存储介质,包含有根据权利要求1至8任一项所述的方法存储的信息项。
10.一种计算机程序产品,包含执行权利要求1至8中任一项所述的方法的逻辑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611110091.XA CN107055468A (zh) | 2012-06-01 | 2013-05-31 | Dna中数字信息的高容量存储 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261654295P | 2012-06-01 | 2012-06-01 | |
US61/654,295 | 2012-06-01 | ||
PCT/EP2013/061300 WO2013178801A2 (en) | 2012-06-01 | 2013-05-31 | High-capacity storage of digital information in dna |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611110091.XA Division CN107055468A (zh) | 2012-06-01 | 2013-05-31 | Dna中数字信息的高容量存储 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104520864A true CN104520864A (zh) | 2015-04-15 |
CN104520864B CN104520864B (zh) | 2017-09-05 |
Family
ID=48626420
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611110091.XA Pending CN107055468A (zh) | 2012-06-01 | 2013-05-31 | Dna中数字信息的高容量存储 |
CN201380028511.8A Active CN104520864B (zh) | 2012-06-01 | 2013-05-31 | Dna中数字信息的高容量存储 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611110091.XA Pending CN107055468A (zh) | 2012-06-01 | 2013-05-31 | Dna中数字信息的高容量存储 |
Country Status (15)
Country | Link |
---|---|
US (4) | US10387301B2 (zh) |
EP (2) | EP2856375B1 (zh) |
JP (4) | JP2015529864A (zh) |
KR (1) | KR20150016572A (zh) |
CN (2) | CN107055468A (zh) |
AU (5) | AU2013269536B2 (zh) |
CA (1) | CA2874540A1 (zh) |
DK (1) | DK2856375T3 (zh) |
ES (1) | ES2698609T3 (zh) |
HK (2) | HK1208937A1 (zh) |
IL (4) | IL235954B (zh) |
IN (1) | IN2014DN09960A (zh) |
RU (1) | RU2014152796A (zh) |
SG (1) | SG11201407818PA (zh) |
WO (1) | WO2013178801A2 (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018039938A1 (zh) * | 2016-08-30 | 2018-03-08 | 清华大学 | 将数据进行生物存储并还原的方法 |
CN108026557A (zh) * | 2015-07-13 | 2018-05-11 | 哈佛学院董事及会员团体 | 使用核酸用于可检索信息储存的方法 |
WO2018149405A1 (zh) * | 2017-02-17 | 2018-08-23 | 苏州泓迅生物科技股份有限公司 | 信息存储和读取的方法 |
CN108698012A (zh) * | 2015-09-22 | 2018-10-23 | 特韦斯特生物科学公司 | 用于核酸合成的柔性基底 |
CN109074424A (zh) * | 2016-05-04 | 2018-12-21 | 深圳华大生命科学研究院 | 利用dna存储文本信息的方法、其解码方法及应用 |
CN110569974A (zh) * | 2018-06-06 | 2019-12-13 | 天津大学 | 可包含人造碱基的dna存储分层表示与交织编码方法 |
CN111737955A (zh) * | 2020-06-24 | 2020-10-02 | 任兆瑞 | 一种使用dna字符码存储文字点阵的方法 |
US10894242B2 (en) | 2017-10-20 | 2021-01-19 | Twist Bioscience Corporation | Heated nanowells for polynucleotide synthesis |
US10894959B2 (en) | 2017-03-15 | 2021-01-19 | Twist Bioscience Corporation | Variant libraries of the immunological synapse and synthesis thereof |
US10936953B2 (en) | 2018-01-04 | 2021-03-02 | Twist Bioscience Corporation | DNA-based digital information storage with sidewall electrodes |
US10975372B2 (en) | 2016-08-22 | 2021-04-13 | Twist Bioscience Corporation | De novo synthesized nucleic acid libraries |
CN113314187A (zh) * | 2021-05-27 | 2021-08-27 | 广州大学 | 一种数据存储方法、解码方法、系统、装置及存储介质 |
US11185837B2 (en) | 2013-08-05 | 2021-11-30 | Twist Bioscience Corporation | De novo synthesized gene libraries |
US11263354B2 (en) | 2016-09-21 | 2022-03-01 | Twist Bioscience Corporation | Nucleic acid based data storage |
US11332738B2 (en) | 2019-06-21 | 2022-05-17 | Twist Bioscience Corporation | Barcode-based nucleic acid sequence assembly |
US11332740B2 (en) | 2017-06-12 | 2022-05-17 | Twist Bioscience Corporation | Methods for seamless nucleic acid assembly |
US11377676B2 (en) | 2017-06-12 | 2022-07-05 | Twist Bioscience Corporation | Methods for seamless nucleic acid assembly |
US11407837B2 (en) | 2017-09-11 | 2022-08-09 | Twist Bioscience Corporation | GPCR binding proteins and synthesis thereof |
US11492728B2 (en) | 2019-02-26 | 2022-11-08 | Twist Bioscience Corporation | Variant nucleic acid libraries for antibody optimization |
US11492665B2 (en) | 2018-05-18 | 2022-11-08 | Twist Bioscience Corporation | Polynucleotides, reagents, and methods for nucleic acid hybridization |
US11550939B2 (en) | 2017-02-22 | 2023-01-10 | Twist Bioscience Corporation | Nucleic acid based data storage using enzymatic bioencryption |
US11691118B2 (en) | 2015-04-21 | 2023-07-04 | Twist Bioscience Corporation | Devices and methods for oligonucleic acid library synthesis |
US11697668B2 (en) | 2015-02-04 | 2023-07-11 | Twist Bioscience Corporation | Methods and devices for de novo oligonucleic acid assembly |
WO2023130562A1 (zh) * | 2022-01-05 | 2023-07-13 | 密码子(杭州)科技有限公司 | 用于在分子中存储信息的方法和设备 |
US11807956B2 (en) | 2015-09-18 | 2023-11-07 | Twist Bioscience Corporation | Oligonucleic acid variant libraries and synthesis thereof |
US11900191B2 (en) | 2012-07-19 | 2024-02-13 | President And Fellows Of Harvard College | Methods of storing information using nucleic acids |
US12091777B2 (en) | 2019-09-23 | 2024-09-17 | Twist Bioscience Corporation | Variant nucleic acid libraries for CRTH2 |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2013269536B2 (en) * | 2012-06-01 | 2018-11-08 | European Molecular Biology Laboratory | High-capacity storage of digital information in DNA |
GB2521387B (en) | 2013-12-18 | 2020-05-27 | Ge Healthcare Uk Ltd | Oligonucleotide data storage on solid supports |
KR20150092585A (ko) * | 2014-02-05 | 2015-08-13 | 한국전자통신연구원 | 이진 영상에 기반한 유전체 데이터 압축 방법 및 장치 |
EP3123376A1 (en) | 2014-03-28 | 2017-02-01 | Thomson Licensing | Methods for storing and reading digital data on a set of dna strands |
CN105022935A (zh) * | 2014-04-22 | 2015-11-04 | 中国科学院青岛生物能源与过程研究所 | 一种利用dna进行信息存储的编码方法和解码方法 |
EP2958238A1 (en) | 2014-06-17 | 2015-12-23 | Thomson Licensing | Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity |
WO2015199440A1 (ko) * | 2014-06-24 | 2015-12-30 | 서울대학교산학협력단 | 핵산염기서열 보안 방법, 장치 및 이를 저장한 기록매체 |
KR101788673B1 (ko) | 2014-06-24 | 2017-11-15 | 싸이퍼롬, 인코퍼레이티드 | 핵산염기서열 보안 방법, 장치 및 이를 저장한 기록매체 |
US20170335334A1 (en) * | 2014-10-29 | 2017-11-23 | Massachusetts Institute Of Technology | Dna cloaking technologies |
WO2016126987A1 (en) | 2015-02-04 | 2016-08-11 | Twist Bioscience Corporation | Compositions and methods for synthetic gene assembly |
CN104850760B (zh) * | 2015-03-27 | 2016-12-21 | 苏州泓迅生物科技有限公司 | 人工合成dna存储介质的信息存储读取方法 |
WO2016164779A1 (en) * | 2015-04-10 | 2016-10-13 | University Of Washington | Integrated system for nucleic acid-based storage of digital data |
US10423341B1 (en) * | 2015-06-12 | 2019-09-24 | Bahram Ghaffarzadeh Kermani | Accurate and efficient DNA-based storage of electronic data |
US9898579B2 (en) | 2015-06-16 | 2018-02-20 | Microsoft Technology Licensing, Llc | Relational DNA operations |
US10566077B1 (en) | 2015-11-19 | 2020-02-18 | The Board Of Trustees Of The University Of Illinois | Re-writable DNA-based digital storage with random access |
EP3173961A1 (en) * | 2015-11-27 | 2017-05-31 | Thomson Licensing | Method for storing user data and decoding information in synthesized oligos, apparatus and substance |
CN115920796A (zh) | 2015-12-01 | 2023-04-07 | 特韦斯特生物科学公司 | 功能化表面及其制备 |
WO2017139592A1 (en) | 2016-02-12 | 2017-08-17 | Genosecurity, LLC | Security enhanced portable data store and processor for allowing secure and selective access to genomic data |
US10859562B2 (en) | 2016-02-29 | 2020-12-08 | Iridia, Inc. | Methods, compositions, and devices for information storage |
US10640822B2 (en) | 2016-02-29 | 2020-05-05 | Iridia, Inc. | Systems and methods for writing, reading, and controlling data stored in a polymer |
US10438662B2 (en) | 2016-02-29 | 2019-10-08 | Iridia, Inc. | Methods, compositions, and devices for information storage |
EP3427385A1 (en) * | 2016-03-08 | 2019-01-16 | Thomson Licensing | Method and device for decoding data segments derived from oligonucleotides and related sequencer |
WO2018005117A1 (en) | 2016-07-01 | 2018-01-04 | Microsoft Technology Licensing, Llc | Storage through iterative dna editing |
US11359234B2 (en) | 2016-07-01 | 2022-06-14 | Microsoft Technology Licensing, Llc | Barcoding sequences for identification of gene expression |
US10892034B2 (en) | 2016-07-01 | 2021-01-12 | Microsoft Technology Licensing, Llc | Use of homology direct repair to record timing of a molecular event |
US10370246B1 (en) * | 2016-10-20 | 2019-08-06 | The Board Of Trustees Of The University Of Illinois | Portable and low-error DNA-based data storage |
US10838939B2 (en) | 2016-10-28 | 2020-11-17 | Integrated Dna Technologies, Inc. | DNA data storage using reusable nucleic acids |
CA3043887A1 (en) * | 2016-11-16 | 2018-05-24 | Catalog Technologies, Inc. | Nucleic acid-based data storage |
US10650312B2 (en) | 2016-11-16 | 2020-05-12 | Catalog Technologies, Inc. | Nucleic acid-based data storage |
US11783918B2 (en) | 2016-11-30 | 2023-10-10 | Microsoft Technology Licensing, Llc | DNA random access storage system via ligation |
US10853244B2 (en) * | 2016-12-07 | 2020-12-01 | Sandisk Technologies Llc | Randomly writable memory device and method of operating thereof |
GB2573069A (en) | 2016-12-16 | 2019-10-23 | Twist Bioscience Corp | Variant libraries of the immunological synapse and synthesis thereof |
US10839948B2 (en) | 2016-12-29 | 2020-11-17 | Intel Corporation | Microfluidic information-encoding polymer data storage |
US10793897B2 (en) | 2017-02-08 | 2020-10-06 | Microsoft Technology Licensing, Llc | Primer and payload design for retrieval of stored polynucleotides |
US10787699B2 (en) * | 2017-02-08 | 2020-09-29 | Microsoft Technology Licensing, Llc | Generating pluralities of primer and payload designs for retrieval of stored nucleotides |
US10689684B2 (en) | 2017-02-14 | 2020-06-23 | Microsoft Technology Licensing, Llc | Modifications to polynucleotides for sequencing |
US10930370B2 (en) | 2017-03-03 | 2021-02-23 | Microsoft Technology Licensing, Llc | Polynucleotide sequencer tuned to artificial polynucleotides |
US10774379B2 (en) | 2017-03-15 | 2020-09-15 | Microsoft Technology Licensing, Llc | Random access of data encoded by polynucleotides |
RU2659025C1 (ru) * | 2017-06-14 | 2018-06-26 | Общество с ограниченной ответственностью "ЛЭНДИГРАД" | Способы кодирования и декодирования информации |
US10742233B2 (en) * | 2017-07-11 | 2020-08-11 | Erlich Lab Llc | Efficient encoding of data for storage in polymers such as DNA |
CN109300508B (zh) * | 2017-07-25 | 2020-08-11 | 南京金斯瑞生物科技有限公司 | 一种dna数据存储编码解码方法 |
WO2019040871A1 (en) * | 2017-08-24 | 2019-02-28 | Miller Julian | DEVICE FOR ENCODING AND STORING INFORMATION USING ARTIFICIALLY EXPANDED ALPHABETS OF NUCLEIC ACIDS AND OTHER ANALOGOUS POLYMERS |
US11810651B2 (en) | 2017-09-01 | 2023-11-07 | Seagate Technology Llc | Multi-dimensional mapping of binary data to DNA sequences |
US11538554B1 (en) | 2017-09-19 | 2022-12-27 | The Board Of Trustees Of The Univ Of Illinois | Nick-based data storage in native nucleic acids |
US10810495B2 (en) * | 2017-09-20 | 2020-10-20 | University Of Wyoming | Methods for data encoding in DNA and genetically modified organism authentication |
WO2019081145A1 (en) | 2017-10-27 | 2019-05-02 | Eth Zurich | ENCODING AND DECODING INFORMATION IN SYNTHETIC DNA WITH CRYPTOGRAPHIC KEYS GENERATED BASED ON POLYMORPHIC CHARACTERISTICS OF NUCLEIC ACIDS |
JP7364604B2 (ja) | 2018-03-16 | 2023-10-18 | カタログ テクノロジーズ, インコーポレイテッド | 核酸ベースのデータ記憶のための化学的方法 |
WO2019191083A1 (en) * | 2018-03-26 | 2019-10-03 | Colorado State University Research Foundation | Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules |
KR102138864B1 (ko) * | 2018-04-11 | 2020-07-28 | 경희대학교 산학협력단 | Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법 |
CN112313749A (zh) | 2018-04-13 | 2021-02-02 | 香港理工大学 | 使用肽的数据存储 |
CN108631791B (zh) * | 2018-05-14 | 2021-08-10 | 东南大学 | 一种基于化学反应网络的低密度奇偶校验码解码方法 |
AU2019270159A1 (en) | 2018-05-16 | 2020-12-03 | Catalog Technologies, Inc. | Compositions and methods for nucleic acid-based data storage |
US20210210171A1 (en) | 2018-06-07 | 2021-07-08 | Vib Vzw | A method of storing information using dna molecules |
US11854669B1 (en) | 2018-07-30 | 2023-12-26 | National Technology & Engineering Solutions Of Sandia, Llc | Synthetic nucleic acids for information storage and transmission |
KR20210053292A (ko) * | 2018-08-03 | 2021-05-11 | 카탈로그 테크놀로지스, 인크. | 오류 방지 기능을 갖춘 핵산 기반 데이터 저장 및 판독 시스템 및 방법 |
KR102236439B1 (ko) * | 2018-08-30 | 2021-04-06 | (주) 케일헬스케어 | 디지털 정보를 dna 분자에 저장하는 방법 및 그 장치 |
US11515012B1 (en) | 2018-09-22 | 2022-11-29 | Mark Gordon Arnold | Method and apparatus for a pipelined DNA memory hierarchy |
US11017170B2 (en) * | 2018-09-27 | 2021-05-25 | At&T Intellectual Property I, L.P. | Encoding and storing text using DNA sequences |
EP3651156A1 (en) * | 2018-11-07 | 2020-05-13 | BioSistemika d.o.o. | Nucleic acid-based data storage |
US20220064705A1 (en) * | 2018-12-26 | 2022-03-03 | Bgi Shenzhen | Method and device for fixed-point editing of nucleotide sequence with stored data |
CN109887549B (zh) * | 2019-02-22 | 2023-01-20 | 天津大学 | 一种数据存储、还原方法及装置 |
WO2020176678A1 (en) | 2019-02-26 | 2020-09-03 | Twist Bioscience Corporation | Variant nucleic acid libraries for glp1 receptor |
EP3966823A1 (en) | 2019-05-09 | 2022-03-16 | Catalog Technologies, Inc. | Data structures and operations for searching, computing, and indexing in dna-based data storage |
GB201907460D0 (en) | 2019-05-27 | 2019-07-10 | Vib Vzw | A method of storing information in pools of nucleic acid molecules |
SG11202012799UA (en) | 2019-05-31 | 2021-01-28 | Illumina Inc | Storage device, system, and method |
US11137385B2 (en) | 2019-05-31 | 2021-10-05 | Illumina, Inc. | Obtaining information from a biological sample in a flow cell |
US11143638B2 (en) | 2019-05-31 | 2021-10-12 | Illumina, Inc. | Flow cell with one or more barrier features |
WO2020243072A1 (en) | 2019-05-31 | 2020-12-03 | Illumina, Inc. | Flow cell with selective deposition or activation of nucleotides |
WO2020243076A1 (en) | 2019-05-31 | 2020-12-03 | Illumina, Inc. | System and method for storage |
US11066661B2 (en) | 2019-08-20 | 2021-07-20 | Seagate Technology Llc | Methods of gene assembly and their use in DNA data storage |
US11535842B2 (en) | 2019-10-11 | 2022-12-27 | Catalog Technologies, Inc. | Nucleic acid security and authentication |
US11755640B2 (en) * | 2019-12-20 | 2023-09-12 | The Board Of Trustees Of The University Of Illinois | DNA-based image storage and retrieval |
US11702689B2 (en) * | 2020-04-24 | 2023-07-18 | Microsoft Technology Licensing, Llc | Homopolymer primers for amplification of polynucleotides created by enzymatic synthesis |
CN111680797B (zh) * | 2020-05-08 | 2023-06-06 | 中国科学院计算技术研究所 | 一种dna活字印刷机、基于dna的数据存储设备和方法 |
US11306353B2 (en) | 2020-05-11 | 2022-04-19 | Catalog Technologies, Inc. | Programs and functions in DNA-based data storage |
PT116392B (pt) | 2020-05-15 | 2022-06-30 | Univ Aveiro | Método e composição para estabilizar e armazenar adn à temperatura ambiente e utilizações dos mesmos |
CN111858510B (zh) * | 2020-07-16 | 2021-08-20 | 中国科学院北京基因组研究所(国家生物信息中心) | Dna活字存储系统和方法 |
US11837302B1 (en) | 2020-08-07 | 2023-12-05 | Iridia, Inc. | Systems and methods for writing and reading data stored in a polymer using nano-channels |
KR102418617B1 (ko) * | 2020-10-13 | 2022-07-07 | 서울대학교산학협력단 | 염기 비율과 연속적 발생을 제한하는 dna 저장 부호화 방법, 프로그램 및 장치 |
US11993769B2 (en) | 2021-04-14 | 2024-05-28 | Microsoft Technology Licensing, Llc | Compostable silica encapsulation of oligonucleotides for long-term storage |
US11823064B2 (en) | 2021-05-28 | 2023-11-21 | Bank Of America Corporation | Enterprise market volatility prediction through synthetic DNA and mutant nucleotides |
US11823065B2 (en) | 2021-05-28 | 2023-11-21 | Bank Of America Corporation | Enterprise market volatility predictions through synthetic DNA and mutant nucleotides |
US11823066B2 (en) | 2021-05-28 | 2023-11-21 | Bank Of America Corporation | Enterprise market volatility predictions through synthetic DNA and mutant nucleotides |
KR20240056939A (ko) | 2022-10-24 | 2024-05-02 | (주)디나스텍 | 섞인 이진 데이터를 원래 이진 데이터로 복원하는 방법 |
KR20240048218A (ko) | 2022-10-06 | 2024-04-15 | (주)디나스텍 | 불량 가능성이 낮은 dna 인코딩 방법 및 장치 |
KR20240058289A (ko) | 2022-10-26 | 2024-05-03 | (주)디나스텍 | 구조적 안정성을 향상시키기 위한 dna 인코딩 방법 및 장치 |
KR20240049911A (ko) | 2022-10-11 | 2024-04-18 | (주)디나스텍 | 염기서열의 반복 배치를 방지하기 위한 이진 데이터 섞는 방법 |
KR20240123633A (ko) | 2023-02-07 | 2024-08-14 | 이근우 | 축퇴 염기를 이용한 dna 인코딩 및 디코딩 방법 |
KR20240126946A (ko) | 2023-02-15 | 2024-08-22 | 이근우 | 축퇴 염기를 이용한 dna 인코딩 및 디코딩 방법 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE423845T1 (de) * | 1999-03-18 | 2009-03-15 | Complete Genomics As | Methoden zur klonierung und herstelung von kettenfragmenten mit lesbarem inhalt an information |
DE60032259D1 (de) | 1999-05-06 | 2007-01-18 | Sinai School Medicine | Steganographie auf DNA basis |
GB0103364D0 (en) * | 2001-02-10 | 2001-03-28 | Nat Inst Of Agricultural Botan | Storage of encoded information within biological macromolecules |
US7110885B2 (en) * | 2001-03-08 | 2006-09-19 | Dnaprint Genomics, Inc. | Efficient methods and apparatus for high-throughput processing of gene sequence data |
WO2003025123A2 (en) * | 2001-08-28 | 2003-03-27 | Mount Sinai School Of Medecine | Dna: a medium for long-term information storage specification |
US7158892B2 (en) | 2002-06-28 | 2007-01-02 | International Business Machines Corporation | Genomic messaging system |
US20050053968A1 (en) * | 2003-03-31 | 2005-03-10 | Council Of Scientific And Industrial Research | Method for storing information in DNA |
US6943417B2 (en) * | 2003-05-01 | 2005-09-13 | Clemson University | DNA-based memory device and method of reading and writing same |
TWI326308B (en) | 2003-08-06 | 2010-06-21 | Applied Dna Sciences Inc British Virgin Island Apdn B V I Inc | Method for concealing a secret information carried within a dna molecule and method for decoding thereof |
JP2005072772A (ja) * | 2003-08-21 | 2005-03-17 | Sony Ericsson Mobilecommunications Japan Inc | データバックアップシステム、端末装置およびデータバックアッププログラム |
AU2005327056B2 (en) * | 2005-02-11 | 2010-09-16 | Smartgene Gmbh | Computer-implemented method and computer-based system for validating DNA sequencing data |
US20070067332A1 (en) * | 2005-03-14 | 2007-03-22 | Gridiron Software, Inc. | Distributed, secure digital file storage and retrieval |
US20070113137A1 (en) * | 2005-10-22 | 2007-05-17 | Ho Seung Ryu | Error Correction in Binary-encoded DNA Using Linear Feedback Shift Registers |
WO2007091064A1 (en) * | 2006-02-08 | 2007-08-16 | Solexa Limited | End modification to prevent over-representation of fragments |
US8691509B2 (en) * | 2009-04-02 | 2014-04-08 | Fluidigm Corporation | Multi-primer amplification method for barcoding of target nucleic acids |
CN102648295B (zh) * | 2009-12-07 | 2017-08-08 | 伊鲁米那股份有限公司 | 用于多重基因分型的多样品索引 |
RU106771U1 (ru) | 2011-04-14 | 2011-07-20 | Межрегиональное общественное учреждение "Институт инженерной физики" | Устройство хранения и передачи данных с исправлением ошибок в байте информации и обнаружением ошибок в байтах информации |
US20140357497A1 (en) * | 2011-04-27 | 2014-12-04 | Kun Zhang | Designing padlock probes for targeted genomic sequencing |
CN102329884B (zh) * | 2011-10-20 | 2013-05-08 | 东南大学 | 两核苷酸同时合成dna测序方法及其应用 |
AU2013269536B2 (en) * | 2012-06-01 | 2018-11-08 | European Molecular Biology Laboratory | High-capacity storage of digital information in DNA |
CN108875312A (zh) | 2012-07-19 | 2018-11-23 | 哈佛大学校长及研究员协会 | 利用核酸存储信息的方法 |
US9255265B2 (en) * | 2013-03-15 | 2016-02-09 | Illumina, Inc. | Methods for producing stranded cDNA libraries |
-
2013
- 2013-05-31 AU AU2013269536A patent/AU2013269536B2/en active Active
- 2013-05-31 SG SG11201407818PA patent/SG11201407818PA/en unknown
- 2013-05-31 ES ES13728990T patent/ES2698609T3/es active Active
- 2013-05-31 CN CN201611110091.XA patent/CN107055468A/zh active Pending
- 2013-05-31 IN IN9960DEN2014 patent/IN2014DN09960A/en unknown
- 2013-05-31 RU RU2014152796A patent/RU2014152796A/ru not_active Application Discontinuation
- 2013-05-31 JP JP2015514530A patent/JP2015529864A/ja active Pending
- 2013-05-31 CA CA2874540A patent/CA2874540A1/en active Pending
- 2013-05-31 KR KR1020147035408A patent/KR20150016572A/ko not_active Application Discontinuation
- 2013-05-31 WO PCT/EP2013/061300 patent/WO2013178801A2/en active Application Filing
- 2013-05-31 EP EP13728990.6A patent/EP2856375B1/en active Active
- 2013-05-31 DK DK13728990.6T patent/DK2856375T3/en active
- 2013-05-31 EP EP18151563.6A patent/EP3346404A1/en active Pending
- 2013-05-31 CN CN201380028511.8A patent/CN104520864B/zh active Active
-
2014
- 2014-11-27 IL IL235954A patent/IL235954B/en active IP Right Grant
- 2014-11-30 US US14/556,213 patent/US10387301B2/en active Active
-
2015
- 2015-09-29 HK HK15109548.1A patent/HK1208937A1/zh unknown
-
2018
- 2018-09-21 JP JP2018177183A patent/JP6674518B2/ja active Active
- 2018-10-12 AU AU2018247323A patent/AU2018247323B2/en active Active
-
2019
- 2019-01-03 HK HK19100070.2A patent/HK1257702A1/zh unknown
- 2019-01-20 IL IL264325A patent/IL264325B/en active IP Right Grant
- 2019-07-02 US US16/460,051 patent/US20230214319A9/en active Pending
-
2020
- 2020-03-06 JP JP2020038396A patent/JP6896905B2/ja active Active
- 2020-04-30 AU AU2020202857A patent/AU2020202857B2/en active Active
- 2020-09-02 IL IL277102A patent/IL277102B/en unknown
-
2021
- 2021-06-09 JP JP2021096533A patent/JP7431775B2/ja active Active
- 2021-10-29 US US17/514,269 patent/US20230325308A9/en active Pending
- 2021-10-29 US US17/514,158 patent/US11892945B2/en active Active
-
2022
- 2022-02-09 IL IL290490A patent/IL290490B2/en unknown
- 2022-06-07 AU AU2022203933A patent/AU2022203933A1/en not_active Abandoned
-
2024
- 2024-03-06 AU AU2024201484A patent/AU2024201484A1/en active Pending
Non-Patent Citations (1)
Title |
---|
沈俊杰 等: "DNA随机存储器设计", 《浙江大学学报》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12067434B2 (en) | 2012-07-19 | 2024-08-20 | President And Fellows Of Harvard College | Methods of storing information using nucleic acids |
US11900191B2 (en) | 2012-07-19 | 2024-02-13 | President And Fellows Of Harvard College | Methods of storing information using nucleic acids |
US11559778B2 (en) | 2013-08-05 | 2023-01-24 | Twist Bioscience Corporation | De novo synthesized gene libraries |
US11185837B2 (en) | 2013-08-05 | 2021-11-30 | Twist Bioscience Corporation | De novo synthesized gene libraries |
US11452980B2 (en) | 2013-08-05 | 2022-09-27 | Twist Bioscience Corporation | De novo synthesized gene libraries |
US11697668B2 (en) | 2015-02-04 | 2023-07-11 | Twist Bioscience Corporation | Methods and devices for de novo oligonucleic acid assembly |
US11691118B2 (en) | 2015-04-21 | 2023-07-04 | Twist Bioscience Corporation | Devices and methods for oligonucleic acid library synthesis |
CN108026557A (zh) * | 2015-07-13 | 2018-05-11 | 哈佛学院董事及会员团体 | 使用核酸用于可检索信息储存的方法 |
US11532380B2 (en) | 2015-07-13 | 2022-12-20 | President And Fellows Of Harvard College | Methods for using nucleic acids to store, retrieve and access information comprising a text, image, video or audio format |
US11807956B2 (en) | 2015-09-18 | 2023-11-07 | Twist Bioscience Corporation | Oligonucleic acid variant libraries and synthesis thereof |
US11512347B2 (en) | 2015-09-22 | 2022-11-29 | Twist Bioscience Corporation | Flexible substrates for nucleic acid synthesis |
CN113604546A (zh) * | 2015-09-22 | 2021-11-05 | 特韦斯特生物科学公司 | 用于核酸合成的柔性基底 |
CN108698012A (zh) * | 2015-09-22 | 2018-10-23 | 特韦斯特生物科学公司 | 用于核酸合成的柔性基底 |
CN109074424B (zh) * | 2016-05-04 | 2022-03-11 | 深圳华大生命科学研究院 | 利用dna存储文本信息的方法、其解码方法及应用 |
CN109074424A (zh) * | 2016-05-04 | 2018-12-21 | 深圳华大生命科学研究院 | 利用dna存储文本信息的方法、其解码方法及应用 |
US10975372B2 (en) | 2016-08-22 | 2021-04-13 | Twist Bioscience Corporation | De novo synthesized nucleic acid libraries |
WO2018039938A1 (zh) * | 2016-08-30 | 2018-03-08 | 清华大学 | 将数据进行生物存储并还原的方法 |
US11263354B2 (en) | 2016-09-21 | 2022-03-01 | Twist Bioscience Corporation | Nucleic acid based data storage |
US12056264B2 (en) | 2016-09-21 | 2024-08-06 | Twist Bioscience Corporation | Nucleic acid based data storage |
US11562103B2 (en) | 2016-09-21 | 2023-01-24 | Twist Bioscience Corporation | Nucleic acid based data storage |
WO2018149405A1 (zh) * | 2017-02-17 | 2018-08-23 | 苏州泓迅生物科技股份有限公司 | 信息存储和读取的方法 |
US11550939B2 (en) | 2017-02-22 | 2023-01-10 | Twist Bioscience Corporation | Nucleic acid based data storage using enzymatic bioencryption |
US10894959B2 (en) | 2017-03-15 | 2021-01-19 | Twist Bioscience Corporation | Variant libraries of the immunological synapse and synthesis thereof |
US11332740B2 (en) | 2017-06-12 | 2022-05-17 | Twist Bioscience Corporation | Methods for seamless nucleic acid assembly |
US11377676B2 (en) | 2017-06-12 | 2022-07-05 | Twist Bioscience Corporation | Methods for seamless nucleic acid assembly |
US11407837B2 (en) | 2017-09-11 | 2022-08-09 | Twist Bioscience Corporation | GPCR binding proteins and synthesis thereof |
US11745159B2 (en) | 2017-10-20 | 2023-09-05 | Twist Bioscience Corporation | Heated nanowells for polynucleotide synthesis |
US10894242B2 (en) | 2017-10-20 | 2021-01-19 | Twist Bioscience Corporation | Heated nanowells for polynucleotide synthesis |
US10936953B2 (en) | 2018-01-04 | 2021-03-02 | Twist Bioscience Corporation | DNA-based digital information storage with sidewall electrodes |
US12086722B2 (en) | 2018-01-04 | 2024-09-10 | Twist Bioscience Corporation | DNA-based digital information storage with sidewall electrodes |
US11492665B2 (en) | 2018-05-18 | 2022-11-08 | Twist Bioscience Corporation | Polynucleotides, reagents, and methods for nucleic acid hybridization |
US11732294B2 (en) | 2018-05-18 | 2023-08-22 | Twist Bioscience Corporation | Polynucleotides, reagents, and methods for nucleic acid hybridization |
CN110569974A (zh) * | 2018-06-06 | 2019-12-13 | 天津大学 | 可包含人造碱基的dna存储分层表示与交织编码方法 |
CN110569974B (zh) * | 2018-06-06 | 2021-08-24 | 天津大学 | 可包含人造碱基的dna存储分层表示与交织编码方法 |
US11492728B2 (en) | 2019-02-26 | 2022-11-08 | Twist Bioscience Corporation | Variant nucleic acid libraries for antibody optimization |
US11332738B2 (en) | 2019-06-21 | 2022-05-17 | Twist Bioscience Corporation | Barcode-based nucleic acid sequence assembly |
US12091777B2 (en) | 2019-09-23 | 2024-09-17 | Twist Bioscience Corporation | Variant nucleic acid libraries for CRTH2 |
CN111737955A (zh) * | 2020-06-24 | 2020-10-02 | 任兆瑞 | 一种使用dna字符码存储文字点阵的方法 |
CN113314187A (zh) * | 2021-05-27 | 2021-08-27 | 广州大学 | 一种数据存储方法、解码方法、系统、装置及存储介质 |
WO2023130562A1 (zh) * | 2022-01-05 | 2023-07-13 | 密码子(杭州)科技有限公司 | 用于在分子中存储信息的方法和设备 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104520864B (zh) | Dna中数字信息的高容量存储 | |
Bornholt et al. | A DNA-based archival storage system | |
Chen et al. | An artificial chromosome for data storage | |
Ping et al. | Carbon-based archiving: current progress and future prospects of DNA-based data storage | |
Ezekannagha et al. | Design considerations for advancing data storage with synthetic DNA for long-term archiving | |
Heinis et al. | Survey of information encoding techniques for dna | |
Wang et al. | Mainstream encoding–decoding methods of DNA data storage | |
Limbachiya et al. | 10 years of natural data storage | |
Zhao et al. | Composite Hedges Nanopores: A High INDEL-Correcting Codec System for Rapid and Portable DNA Data Readout | |
Hamadani et al. | Big data management: from hard drives to DNA drives | |
Cao et al. | Achieve Handle Level Random Access in Encrypted DNA Archival Storage System via Frequency Dictionary Mapping Coding | |
Wei | Enlarge Practical DNA Storage Capacity: The Challenge and The Methodology | |
Wang et al. | DNA Digital Data Storage based on Distributed Method | |
Wang | Coding for DNA data storage | |
Sharma et al. | DNA Based Storage: Introduction, Characteristics, Applications and Challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |