CN106845158A - 一种利用dna进行信息存储的方法 - Google Patents

一种利用dna进行信息存储的方法 Download PDF

Info

Publication number
CN106845158A
CN106845158A CN201710086096.1A CN201710086096A CN106845158A CN 106845158 A CN106845158 A CN 106845158A CN 201710086096 A CN201710086096 A CN 201710086096A CN 106845158 A CN106845158 A CN 106845158A
Authority
CN
China
Prior art keywords
dna
sequence
length
information
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710086096.1A
Other languages
English (en)
Inventor
杨平
蔡晓辉
钟云鹏
盛付旭
李彦敏
祁姗姗
齐金才
田净净
朱沛煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wang Xun Biological Polytron Technologies Inc
Original Assignee
Suzhou Wang Xun Biological Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wang Xun Biological Polytron Technologies Inc filed Critical Suzhou Wang Xun Biological Polytron Technologies Inc
Priority to CN201710086096.1A priority Critical patent/CN106845158A/zh
Publication of CN106845158A publication Critical patent/CN106845158A/zh
Priority to PCT/CN2018/076721 priority patent/WO2018149405A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioethics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种利用DNA进行信息存储的方法,其包括(1)将计算机原始文件二进制信息转化为四进制并进而编码转换成DNA全序列,其中二进制代码00、01、10、11分别对应转换为A、T、C、G四种脱氧核糖核苷酸;(2)将DNA全序列分成多个DNA片段,并组织构建长度为90‑110nt且包括由DNA片段构成的插入核苷酸编码序列、位于两端的侧翼引物序列以及位于各侧翼引物序列内侧的索引编码序列的输出DNA序列;(3)根据输出DNA序列合成人工DNA序列并保存。本发明方法具有通用性好,能够简化运算、提高DNA信息存储的连续性、存储效率和密度,以及可降低错误率和降低序列合成和检测成本等显著优势。

Description

一种利用DNA进行信息存储的方法
技术领域
本发明属于信息存储技术领域,具体涉及一种利用人工合成DNA进行信息存储的方法。
背景技术
近年来,全球数字化信息正在经历爆炸性增长,预计到2017年,全球数字化保存的资料需求将超过16泽它字节(ZB,zettabytes),因此迫切需要开发出可靠的、用于大规模数字化信息管理的信息存储介质。然而,现有存储介质的容量并不能跟上数字化信息增长的速度。目前主要的存储介质是磁性和光学介质:磁性介质是目前市售的最密集的存储形式,磁带能存储高达185TB的数据,存储密度约10GB/mm3;最近还有研究报告了光盘存储1PB数据、约100GB/mm3的存储密度的可行性。尽管有种种改进,这些介质存储泽它字节的数据仍然需要数百万单位和大量物理空间。另外,存储密度只是信息存储的一个方面,耐久性也十分关键。目前,常规存储技术的耐久性十分有限,旋转盘的额定使用年限为3-5年,而磁带为10-30年,因此信息长期存储的解决方案仍需要擦除和更新损坏数据,以替换故障单元。综上,如果要保存全世界的数据,需要开发出具有更高存储密度和耐久性的存储介质。
脱氧核糖核酸(deoxyribonucleic acid,DNA),又称去氧核糖核酸,是一种由脱氧核糖、磷酸以及四种碱基(腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鸟嘌呤(G))组成的生物大分子,其主要生物功能是生物信息存储。DNA可组成遗传指令从而引导生物发育与生命机能运作,这一过程是建构细胞内其他的化合物所必须的。自1988年第一次提出使用DNA存储信息以来,由于其高密度和长期稳定性(半衰期>500年),DNA被认为是一种极有前景的信息存储介质。
DNA的数字化存储是指把数字化信息转化为DNA的碱基序列信息、存储于人工合成DNA的碱基序列之中,再用测序的方法读取其存储的信息,在计算机上最终完成DNA碱基序列到数字化信息的转换。DNA作为一种新型高延迟信息储存介质具有许多潜在的优点。比如,DNA存储密度十分大,在理论水平,DNA可以编码两个字节每个核苷酸(nt),或者455艾字节每克单链DNA;DNA稳定性强,可以在低温干燥和黑暗的条件下保存数万年;除了在非理想条件下的降解,DNA存储通常是可读的【1,2】。另外,不同于其他数字化存储介质,DNA存储不局限于在平面层间。
1988年,Joe Davis在与来自哈佛的研究者们的一项合作研究中,首先提出将二进制码0和1的数字化信息以DNA碱基对的形式保存,并完成了35字节的DNA序列在E.coli基因中的存储。将这些数据组织成一个5×7矩阵,其中1对应于暗像素,0对应于亮像素,可将DNA信息恢复为古代日耳曼语字符的图片。2012年,George Church的团队将DNA的不同碱基分别赋予二进制值(胞嘧啶(C)、腺嘌呤(A)为0,胸腺嘧啶(T)、鸟嘌呤(G)为1),通过微流体芯片合成了存储了96B数据的DNA。当需要对信息进行读取时,通过聚合酶链反应(PCR)扩增和测序获得碱基序列,并在电脑上对其进行信息恢复,将基因序列转换为二进制。并在DNA输出结构中加入了地址序列,很大程度的方便了信息读取的恢复【3】。2013年,在欧洲生物信息研究所(European Bioinformatics Institutes,EBI),Nick Goldman、Ewan Birney和同事们使用Huffman三进制编码,将文件二进制码(0,1)翻译成三进制(0,1,2),然后按照DNA旋转编码方法,将三进制信息翻译成DNA的碱基信息(A、T、C、G),将碱基序列组织成四倍重叠步移的编码结构,使用153553条编码DNA来存储739KB的信息(其中包括154首莎士比亚十四行诗、一个科技论文的pdf文件、一张欧洲生物信息研究所的JPG格式图片、一段26秒的马丁路德金1963年“I have a dream”的演讲MP3音频和一段霍夫曼编码信息)【4】。
CN105022935A公开了一种利用DNA进行信息存储的编码方法,其流程主要步骤是:首先,采用霍夫曼编码策略将文件的二进制序列转码为三进制序列,进而利用抗同聚物DNA编码策略编码为DNA序列,将上述得到的DNA序列采用四倍重叠步移打断得到DNA片段,将上述片段添加首部信息区和前后引物标签得到最后的DNA序列片段。然后,将上述得到的DNA片段通过DNA寡核苷酸链合成技术合成实物DNA片段,并将合成后的片段以干粉或溶液的形式储存;如果需要进行信息的拷贝,可以利用与引物接头反向互补的引物进行PCR扩增。最后,利用高通量测序解析DNA存储的信息,其中包含测序原始序列的校验,序列片段的拼接,拼接后DNA序列转码为三进制文件,三进制文件恢复为原始的二进制计算机信息等步骤。四倍重叠步移打断表示前后两个相邻的100bp的片段包含75bp的重叠,一个完整序列被打断后,除了前后100bp,其他位置都是在4个相邻片段中重复出现。该专利方法构建的用于DNA存储技术的编码方法与欧洲生物信息研究所的方法基本类似。
上述方法采用二进制和三进制的数字化信息存储具有通用性,但基于二进制、三进制等编码方式的存储方法,信息压缩程度低、存储算法运算复杂,存储连续性差(旋转编码方式,信息写入后,写入位置后面的信息随之发生改变,造成存储不连续),且输出DNA的长度偏长、只有单个索引,DNA合成和信息恢复过程易出错,同时四倍重叠步移结构造成数据冗余,增加存储成本。编码序列较长,造成序列合成、测序和读取的难度较高,因此阻碍了它们的实际应用【5】。
为克服以上问题,本申请人基于之前的研究提出一种新的人工合成DNA存储介质的信息存储读取方法(专利号:ZL201510138778.3),该法采用直接编码的DNA存储读取方式,使用一些数字化信息与碱基序列的索引表格和Unicode结合的方法,实现英文、中文、数字、标点符号到DNA碱基序列的转换,相比传统DNA存储技术有很大的改进,但该方法同样有较大的局限性,该方法在涉及中文等多语言信息的编码时,需要先进行Unicode序列转码,编码方式复杂、且产生的序列冗长,导致存储密度较低,同时增加了存储过程中DNA合成测序的成本。而且,该方法通用性较差,仅限于文本的存储,不能实现对图片、音频等的DNA存储、读取。
发明内容
本发明的目的是针对现有技术的不足,提供一种改进的利用DNA进行信息存储的方法,该方法具有通用性好,能够简化运算,DNA信息存储的连续性好、存储效率和密度高,错误率低,以及序列合成和检测成本较低等显著优势。
为实现上述目的,本发明采用的技术方案是:
一种利用DNA进行信息存储的方法,其包括(1)将计算机中的原始文件信息转换为A、T、C、G四种脱氧核糖核苷酸表示的DNA全序列;(2)将步骤(1)所得DNA全序列打断分成多个DNA片段,然后分别将多个DNA片段进行组织构建获得多个输出DNA序列;(3)根据输出DNA序列合成相应的人工DNA序列并进行保存,特别是,步骤(1)中,读取原始文件信息的二进制信息,将其转换为四进制,并进而编码转换成DNA全序列,其中所述转换关系为:二进制代码00、01、10、11分别对应转换为A、T、C、G四种脱氧核糖核苷酸;步骤(2)中,各输出DNA序列包括由各DNA片段构成的插入核苷酸编码序列、分别位于插入核苷酸编码序列两端用于扩增和测序的侧翼引物序列以及位于各侧翼引物序列内侧用于指示信息恢复过程中数据块的位置的索引编码序列,所述输出DNA序列的长度为90-110nt。
根据本发明,所述输出DNA序列的长度优选为90-105nt,更优选为90-100nt,进一步优选为95-100nt,最优选为100nt。
根据本发明,各所述侧翼引物序列的长度优选为18-22nt,最优选为20nt,各所述索引编码序列长度优选为6-10nt,最优选为8nt。
进一步地,当插入核苷酸编码序列、两侧翼引物序列、两索引编码序列的长度之和小于设定的输出DNA序列的长度时,在末端用随机序列补足。
作为本发明的优选方案,步骤(2)中,按照同一设定序列长度对所述DNA全序列进行打断,且所述同一设定序列长度为36-52nt,进一步优选地,同一设定序列长度为40-48nt,最优选地,同一设定序列长度为44nt。
优选地,步骤(2)中,所述打断为无重叠打断。
优选地,步骤(2)中,所述DNA片段的长度为52nt以内,更优选在44nt以内。
根据本发明的一个具体且最优选方面,步骤(2)中,按照序列长度为44nt对DNA全序列进行无重叠打断,得到的DNA片段的长度为44nt以内,输出DNA序列的长度为100nt,各侧翼引物序列的长度为20nt,各索引编码序列长度为8nt,当插入核苷酸编码序列、两侧翼引物序列、两索引编码序列的长度之和小于100nt时,在末端用随机序列补足。实践证明该情况下错误率最小,合成和测序成本最低。
进一步地,步骤(3)中,利用寡核苷酸合成仪制备DNA文库,并储存在基因芯片上。
根据本发明,DNA存储信息的读取可借助现有技术中常规主流的测序技术,其中优选NGS技术,测序后的过程是存储时编码的逆过程。
根据本发明的进一步方案,所述进行信息存储的方法还包括对DNA芯片上的数据进行读取,读取步骤如下:首先,将基因芯片上的DNA洗脱,通过PCR法扩增整个文库,以获取需要读取的序列;然后,使用NGS技术测序,只读取预期的输出DNA序列长度的条形码序列;进一步地,提取获得的测序结果,去除首尾引物序列和索引序列,按照索引序列所指,恢复数据块位置;最后,将碱基序列转换为四进制信息,进一步再转换为二进制的计算机信息,即完成DNA碱基序列在计算机上的读取。
由于以上技术方案的实施,本发明与现有技术相比具有如下优点:
本发明采用基于四进制的BitDNA编码方式,同时优化了输出DNA的结构,提高了DNA信息存储的连续性、存储效率和密度,降低了DNA合成和数据恢复错误率,降低成本。
1.本发明提出的是一种基于四进制的编码方式,将DNA的不同碱基分别赋予二进制值(腺嘌呤(A)=00,胸腺嘧啶(T)=01,胞嘧啶(C)=10,鸟嘌呤(G)=11),避开了Huffman三进制编码和旋转编码的运算复杂性,改善了数据连续性,进而提高存储和读取效率;2.相比三进制的编码方式,四进制BitDNA编码是更加高度压缩的,从而增加了DNA上数字化信息的存储密度;3.结合四进制编码方式和通过对输出DNA片段的序列结构进行设计,使得无需四倍重叠步移结构的情况下,可以显著减少序列出错带来的数据恢复错误,在实际实验中,按照本发明方法将全文21505字的论语全文保存为4017个核苷酸输出序列,通过PCR扩增和NGS测序,最终恢复了21504个数字,只有一条序列发生丢失,数据恢复错误率只有0.12%;4.所采用的输出序列较短,从而有效降低合成和测序成本,提高存储效率。
附图说明
图1为根据本发明的人工合成DNA存储信息和读取的流程图;
图2为以实施例1为例的BitDNA编码和输出DNA构建的流程图;
图3为emoji表情图像。
具体实施方式
根据本发明,如无特别说明,本发明所有技术和科学术语均按本发明所属行业普通技术人员普遍理解的正常含义。本发明中核酸序列可以是单链或者双链。
本发明创新设计了一个基于四进制的“BitDNA编码”的数字化信息DNA存储方案,可结合人工合成DNA和下一代测序(NGS)技术来存储和读取任意格式的数字化信息。目前DNA合成和测序技术正以指数速率发展,本发明所提出的基于人工合成DNA的信息存储系统将是未来高密度和长时间信息存档的一种极具前景的方法。
数据在计算机中以二进制形式存在,而二进制到四进制之间能够实现无损转换,并且相比之前的Huffman三进制编码和旋转编码,四进制的BitDNA编码的运算更简便、数据更加压缩。参见图1,本发明从读取原始数据的二进制流开始,将其转换为四进制并进一步转换为对应的碱基序列信息。将碱基信息分成片段并构建成输出优化的输出DNA序列(100nt),按照设计好的输出DNA序列合成DNA芯片(DNA存储介质),通过聚合酶链反应(PCR)扩增、第二代测序(NGS)和电脑上对测序结果的恢复来实现读取。
具体地,根据本发明,数字化信息在DNA存储介质上的写入按照如下步骤进行:
首先,将二进制信息转换为四进制BitDNA编码数据:读取原始文件信息的二进制信息,按照表1碱基对索引表进行编码,将二进制信息转化为四进制,并进而转换为BitDNA编码序列数据(DNA全序列);
表1
其次,构建输出DNA序列:按照DNA输出格式将DNA全序列打断或划分成多个DNA片段,优选按照同一序列长度(44nt)进行无重叠打断(除了最后剩余的DNA片段可能会低于44nt外,其余DNA片段长度均为44nt,即含44个核苷酸),然后将各DNA片段组织成长度为90-110nt(最优选100nt)的编码结构即输出DNA序列。以存储、提取中英文混编的“Hello,World!你好,世界!”的数字化信息的方法为例,如图2所示,编码结构包括由DNA片段构成的长度为44nt的插入核苷酸编码序列(Input sequence),2个长度为8nt的索引编码序列(Index code)和2个长度为20nt的侧翼引物序列(Flank sequence)组成,其中具有固定长度的侧翼引物序列位于每条插入核苷酸编码序列的两端,用于进一步扩增和测序,他们确保了通过PCR反应只提取到所关注的基因信息,而不需要进行整个DNA库检索,从而实现随机存取。在每个侧翼引物内侧分配有配对的索引编码序列,用于指示信息恢复过程中数据块的位置。
最后,根据前述设计的输出DNA序列,通过基于高通量芯片合成制备DNA文库,完成数字化信息的写入,得到带有数字化信息的DNA存储介质(基因芯片),对该基因芯片进行保存。
当需要从基因芯片上提取信息时,可按照如下步骤进行:
首先,将基因芯片上的DNA洗脱,通过PCR法扩增整个文库,以获取我们感兴趣的序列;
然后,在Illumina HiSeq上使用NGS技术测序,只读取预期的输出DNA序列长度的条形码序列;
进一步地,提取获得的测序结果,去除首尾引物序列和索引序列,按照索引序列所指,恢复数据块位置;
最后,按照BitDNA编码,将碱基序列转换为四进制信息,进一步再转换为二进制的计算机信息,即完成DNA碱基序列在计算机上的恢复/读取。
以上,在进行数字化信息的存储时,采用基于四进制的BitDNA编码方式,避开了Huffman三进制编码和旋转编码,减小了运算的复杂性,改善了旋转编码带来的信息改写后存储不连续,进而提高存储和读取效率。相比二进制或三进制的编码方式,四进制BitDNA编码信息是高度压缩的,从而增加了DNA介质上数字化信息的存储密度。此外,现有的存储方法其编码序列通常较长、合成和测序成本很高、可靠性差,本发明所设计的插入核苷酸编码序列仅有44个或更短的核苷酸长度,比Church(96nt)和Goldman's(100nt)短得多,除了可以进一步减小运算的复杂性和降低合成、检测和读取时所花的时间和费用外,还被证明可使编码DNA池制备和信息恢复更准确(在实际实验中,按照本发明方法将全文21505字的论语全文保存为4017个核苷酸输出序列,通过PCR扩增和NGS测序,只有一条序列发生丢失,最终恢复了21504个中文字符,数据恢复错误率只有0.12%);本发明还使用了配对的索引序列,被证明可以减少单索引在信息恢复时因为基因合成或者测序导致的索引信息提取错误。
Goldman报道的编码方案中引入了四步重叠位移结构,以通过检查重建序列的邻近区域来避免核苷酸丢失或错误,这就增加了需要合成和测序的DNA量。本发明中,抛弃了输出DNA序列设计中的四步重叠位移结构格式,从而降低了合成和测序的成本。
下将通过具体实施例进一步阐述本发明,但并不用于限制本发明的保护范围。
实施例1存储、提取中英文混编的“Hello,World!你好,世界!”的数字化信息
结合图2所示,首先将中英文字和标点混编组成的“Hello,World!你好,世界!”的文本文件(26B)按照本发明方法转换为四进制BitDNA编码序列数据(DNA全序列),如下:
TACATCTTTCGATCGATCGGACGAACAATGTGTCGGTGACTCGATCTAACATGCTACGGTCCAAGCTTCCTTCGGTGCGGCGGACAGAGCTACGCACTTCGCTGCTTTCAGAGCGGCGGACAAT。
将上述DNA全序列打断为3个DNA片段,分别如下:
DNA片段1:TACATCTTTCGATCGATCGGACGAACAATGTGTCGGTGACTCGA;
DNA片段2:TCTAACATGCTACGGTCCAAGCTTCCTTCGGTGCGGCGGACAGA;
DNA片段3:GCTACGCACTTCGCTGCTTTCAGAGCGGCGGACAAT。
按照输出DNA格式将上述3个DNA片段构建为3个长度为100nt的序列,得到如下三个输出DNA序列,其中DNA片段3不足44nt,加上侧翼引物序列(长度20nt)和索引编码序列(长度8nt)后总长度不足100nt,需在末尾部分用随机序列补足。
输出DNA序列1:
GCGATCCACAATGTCATGTCAAAAAAAATACATCTTTCGATCGATCGGACGAACAATGTGTCGGTGACTCGAAAAAAAAGATATGCCGATAACGGGTCG;
输出DNA序列2:
GCGATCCACAATGTCATGTCAAAAAAATTCTAACATGCTACGGTCCAAGCTTCCTTCGGTGCGGCGGACAGAAAAAAATGATATGCCGATAACGGGTCG;
输出DNA序列3:
GCGATCCACAATGTCATGTCAAAAAAACGCTACGCACTTCGCTGCTTTCAGAGCGGCGGACAATAAAAAAACGATATGCCGATAACGGGTCGTGGAGCGC。
进一步地,按照上述获得的三个输出DNA序列,利用寡核苷酸合成仪制备DNA文库,储存在基因芯片上,至此完成了数字化信息的写入,得到带有“Hello,World!你好!”这一数字化信息的DNA存储介质。
当需要提取DNA存储介质上的信息时,将基因芯片上的DNA洗脱下来,然后使用PCR扩增法获得需要的DNA序列;之后,将带有编码信息的DNA用Illumina测序仪检测,在Illumina HiSeq上使用NGS技术测序,只读取预期的100nt长度的条形码序列;接着,提取解码所需序列:去除首尾引物序列和索引序列,按照索引序列所指,恢复序列位置;最后,按照BitDNA编码,在计算机上将碱基序列转换为四进制信息、进一步再转换为二进制的计算机信息,即完成“Hello,World!你好!”在计算机上的读取。
实施例2存储、提取图片“emoji.jpg”的数字化信息(3.83KB)
将图3所示的jpg格式的emoji表情图像文件“emoji.jpg”(3.83KB)按照本发明编码方法转换为四进制BitDNA编码数据,获得15708个碱基的DNA全序列,如序列1所示;
将DNA全序列按照无重叠打断方式分为357个长度为44nt的DNA片段,按照输出DNA格式将其构建为357个长度为100nt的输出DNA序列(侧翼引物序列长度20nt和索引编码序列长度8nt),即完成中英文混编的数字化信息对DNA序列的转换;然后按照上述获得的357个输出DNA序列,利用寡核苷酸合成仪制备DNA文库,储存在基因芯片上,至此完成了数字化信息的写入,得到带有“emoji.jpg”这一图片的数字化信息的DNA存储介质。
当需要提取DNA存储介质上的信息时,将基因芯片上的DNA洗脱下来,使用PCR扩增法获得我们需要的DNA序列;之后,将带有编码信息的DNA用Illumina测序仪检测,在Illumina HiSeq上使用NGS技术测序,只读取预期的100nt长度的条形码序列;接着,提取解码所需序列:去除首尾引物序列和索引序列,按照索引序列所指,恢复序列位置;最后,按照BitDNA编码,在计算机上将碱基序列转换为四进制信息、进一步再转换为二进制的计算机信息,即完成对“emoji.jpg”图片的数字化信息的计算机读取。
实施例3存储、提取音频“示例音频-笑声.mp3”的数字化信息(4.18KB)
将MP3格式的示例音频文件“示例音频-笑声.mp3”(4.18KB)按照本发明码方法转换为四进制BitDNA编码数据,获得17148个碱基的DNA全序列,如序列2所示;
将DNA全序列按照无重叠打断方式分为389个长度为44nt的DNA片段和1个长度为32的DNA片段,按照输出DNA格式将其构建为390个长度为100nt的输出DNA序列(侧翼引物序列长度20nt和索引编码序列长度8nt),即完成中英文混编的数字化信息对DNA序列的转换;然后按照上述获得的390个输出DNA序列,利用寡核苷酸合成仪制备DNA文库,储存在基因芯片上,至此完成了音频的数字化信息的写入,得到带有“示例音频-笑声.mp3”这一音频的数字化信息的DNA序列。
当需要提取DNA存储介质上的信息时,将基因芯片上的DNA洗脱下来,使用PCR扩增法获得需要的DNA序列;之后,将带有编码信息的DNA用Illumina测序仪检测,在IlluminaHiSeq上使用NGS技术测序,只读取预期的100nt长度的条形码序列;接着,提取解码所需序列:去除首尾引物序列和索引序列,按照索引序列所指,恢复序列位置;最后,按照BitDNA编码,在计算机上将碱基序列转换为四进制信息、进一步再转换为二进制的计算机信息,即完成对“示例音频-笑声.mp3”音频信息的计算机读取。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
参考文献
【1】Robert N.Grass,Reinhard Heckel,Michela Puddu,Daniela Paunescu,andWendelin J.Stark.(2015).Robust Chemical Preservation of Digital Informationon DNA in Silica with Error-Correction Codes.Angewandte Chemie InternationalEdition 54,1–5.
【2】Allentoft,M.E.,Collins,M.,Harker,D.,Haile,J.,Oskam,C.L.,Hale,M.L.,Campos,P.F.,Samaniego,J.A.,Gilbert,M.T.P.,Willerslev,E.,Zhang,G.,Scofield,R.P.,Holdaway,R.N.,and Bunce,M.(2012).The half-life of DNA in bone:measuringdecay kinetics in 158dated fossils.Proceedings of the Royal Society of LondonB:Biological Sciences 279,4724–4733.
【3】Church,G.M.,Gao,Y.,and Kosuri,S.(2012).Next-generation digitalinformation storage in DNA.Science 337,1628.
【4】Goldman,N.,Bertone,P.,Chen,S.,Dessimoz,C.,LeProust,E.M.,Sipos,B.,andBirney,E.(2013).Towards practical,high-capacity,lowmaintenance informationstorage in synthesized DNA.Nature 494,77–80.
【5】Bornholt,J.,Lopez,R.,Strauss,K.,Carmean,D.M.,Ceze,L.,Seelig G,Strauss K.(2016).A DNA-Based Archival Storage System.International Conference onArchitectural Support for Programming Languages and Operating Systems(ASPLOS)04.
序列表
<110> 苏州泓迅生物科技股份有限公司
<120> 一种利用DNA进行信息存储的方法
<160> 2
<210> 1
<211> 15708
<212> DNA
<213> 人工序列
<400> 1
gggggtcagg gggcaaaaaa ataataccta tctacttatc aaaaaaataa ataaataaaa 60
tacaaaaata caaaaaaaaa gggggtcgaa aataagaaaa accaatgaat gcacagatgc 120
atctaccaac agacatacag acgtaccgac caagaaagga tctataatag gaagtgagtg 180
aggatgcgtt cattgttact tctactatca aactctcttc caggcaaaca gacaccccaa 240
cgtagctcga agccaacccc gtccccgtca cccagagaca gggggacggt ccgcgcggtt 300
gggggggggg ggctcggaat gggggggggg ggggccgggg gctcgggtgg ggggcagggg 360
gtcgaaaata agaaataccg acgtacgtag gaagttagga tgtctaatta attgtcggca 420
ccttcagacc ttggcaggca ggcaggcagg caggcaggca ggcaggcagg caggcaggca 480
ggcaggcagg caggcaggca ggcaggcagg caggcaggca ggcaggcagg caggcaggca 540
ggcaggcagg caggcaggca ggcaggcagg caggcaggca ggcaggcagg caggcaggca 600
ggcaggcagg caggcaggca ggcaggcagg cagggggaaa aaaaatataa caaaatacga 660
aaatacgaaa agaaatacac aaaaaaacat ataaataaag atataaatgg gggataaaaa 720
atggaaaaaa aaaaataatt aaataaataa ataaataaat aaataaaaaa aaaaaaaaaa 780
aaaaaaaaaa aaaaaaaaat aaacaaagaa taaattaatc aatgaacaaa ctaaccaacg 840
gggggataaa aacgttataa aaaaaaacaa ataaagaaag aaacaataaa agaattaatt 900
aataaataaa aaaaaaaaat tggtaaataa acaaagaaaa aataatataa ttatacacat 960
agattaataa tcatagttat tcataatgac actgatatta agaccaatct atccataaca 1020
acagtaaccg atgaatattt ttacgtatgg aaactaagag tcactgacca acaactaacc 1080
attcattgat caatctatcc acttactcac tgaccaacct acccagtaag ttagtcagtg 1140
agcaagctag cctaagtata tatttatcta tgtacatact taccttagtt tatttttttc 1200
tttgttcatt ctttcctcag tctatctttc tctctgtcca tccttccctg agtgtatgtt 1260
tgtctgtgtg catgcttgcc caagcataca ttcatccatg cacacactca ccctacctag 1320
cttactttct tccttgctca ctctctcccc acccagccta ccttcctccc tgcccaccct 1380
cccccgaccg agcgtacgtt cgtccgtgcg cacgctcgcc gaacgaagga tagattgatc 1440
gatggacaga ctgaccgtac gtaggttagt ttgttcgttg gtcagtctgt ccgcatgcac 1500
gcaggctagc ttgctcgctg gccagcctgc ccggatggac ggagggtagg ttggtcggtg 1560
ggcaggctgg ccgggggata aaaaatggaa ataaaaaaag aaataaataa ataaataaat 1620
aaataaataa ataaataaaa aaaaaaaaaa aaaaaaaaaa aaataaacaa agaataaatt 1680
aatcaatgaa caaactaacc aacgggggga taaaaacgtt atataaaaaa acaaataaac 1740
aataaataaa agaataaatg aattaataaa taaaaaaaat aaactgtgaa aaaaataaac 1800
aaagatataa taaattacat agataatcat actaatttat aatgtcattg atatagacac 1860
agaccaataa caattataac ctatccatcg atgaataact acagagagtt acggaaattt 1920
tcactgacgt ataaccattc actaagtagc atacttggat attgatcaat ctatccactc 1980
actgaccaac ctacccagtt agtcagtgag caagctagcc taagtatata tttatctatg 2040
tacatactta ccttagttta tttttttctt tgttcattct ttcctcagtc tatctttctc 2100
tctgtccatc cttccctgag tgtatgtttg tctgtgtgca tgcttgccca accaagcata 2160
cattcatcca tgcacacact caccctacct agcttacttt cttccttgct cactctctcc 2220
ccacccagcc taccttcctc cctgcccacc ctcccccgac cgagcgtacg ttcgtccgtg 2280
cgcacgctcg ccgaacgaag gatagattga tcgatggaca gactgaccgt acgtaggtta 2340
gtttgttcgt tggtcagtct gtccgcacgc aggctagctt gctcgctggc cagcctgccc 2400
ggacggaggg taggttggtc ggtgggcagg ctggccgggg gtccaaaaaa gaaaagaaat 2460
aaaaaaacat ataaagatat aaaaagggaa aagtcaccac caccaccaaa aaccaccacc 2520
accaaaaacc accaccacca aaaaccacca ccaccaaaaa ccaccaccac caaaaaccac 2580
caccaccaaa aaccaccacc accaaaaacc accaccacca aaaaccacca ccaccaaaaa 2640
ccaccaccac caaaaaccac caccaccaaa aaccaccacc accaaaaacc accaccacca 2700
aaaaccacca ccaccaaaaa ccaccaccac caaaaaccac caccaccaaa aaccaccacc 2760
accaaaaacc accaccacca aaaaccacca ccaccaaaaa ccaccaccac caaaaaccac 2820
caccaccaaa aaccaccacc accaaaaacc accaccacca aaaaccacca ccaccaaaaa 2880
ccaccaccac caaaaaccac caccaccaaa aaccaccacc accaaaaacc accaccacca 2940
aaaaccacca ccaccaaaaa ccaccaccac caaaaaccac caccaccaaa aaccaccacc 3000
accaaaaacc accaccacca aaaaccacca ccaccaaaaa ccaccaccac caaaaaccac 3060
caccaccaaa aaccaccacc accaaaaacc accaccacca aaaaccacca ccaccaaaaa 3120
ccaccaccac caaaaaccac caccaccaaa aaccaccacc accaaaaacc accaccacca 3180
aaaaccacca ccaccaaaaa ccaccacctc aggacccact gttagtactc gcgaattccg 3240
caggccaccc cgagttgtgg ggtgtttccc actcctgcta tcgcggcacc catgtttcac 3300
cacgtttagc tattgtacta aagccctcct aggagatagg gcggaaggga gccccaatac 3360
gagtgttact cctagtcgtt ctcgccgtgt cacgtttacg gagacggggc tcgatggggt 3420
ggatggctgt acggctcact gggtgcatgg ctgttctggc gaccagtctt acggtcgggc 3480
taatgcgact tgtgagtata agccctgcca tattacgttc tgaagtgaag ccatagtagc 3540
atacgacacg gtaagtttac ccgacgccca ctgtaggcga ttggccaccc ccacgtgtcg 3600
aaggcggaac cctctacgca tatcgcggca agttccacct gattctaagc aagtatacgt 3660
attatgttgc cttattttct acattattat tattaaaaat tattattatt aaaaattatt 3720
attattaaaa attattatta ttaaaaatta ttattattaa aaattattat tattaaaaat 3780
tattattatt aaaaattatt attattaaaa attattatta ttaaaaatta ttattattaa 3840
aaattattat tacagagaat tatctactga aaccaaaatt cccacctact gttcagggtg 3900
aggcctttaa tacgtgaaga gggaactgaa aggttcccac aacggccgtt catagccccc 3960
ttccacagtt cagtaggcgc aggtgctgtg tggcctgaaa cctcaattga ggttcctgca 4020
attaggttca gactggtcat ttcaagtgac ctagagtacg cctatataat tcctgaattg 4080
gtccccgaac gaacccagcc ggagtaggaa aaaagccaac ccctttactc ggtgacatga 4140
gaccgaatat caggtccctt atatagtgcc ttttctgatt attttcccct tatactgctg 4200
tctttgggac ttcccaggac ttccccgatt attagggtct tataagctgt cttttagatc 4260
gaagcgttag taccctatgt ccccgcttaa taaaaggtcc ccttgtattt gtatcaggct 4320
gtcttacgtc gtagtaccgt ttgatccagt taggtcgatt tatcgtaact atgtagctcc 4380
catgtagcta caccttagta taaacgacag gatggtaagg attttctcag cgcttttcgc 4440
atcgcaagtt aaatttcctc atttccacag ttatgatatc gcaccctatc cacaagctgc 4500
cttattttaa cagctttcca caggcccagg tacccgctat gacccgacaa gcaaggaggc 4560
ctttgtagat cccacctatc agaccaagta aggccaccac caccgtaact aaccaccacc 4620
accaaaaacc accaccacca aaaaccacca ccaccaaaaa ccaccaccac caaaaaccac 4680
caccaccaaa aaccaccacc accaaaaacc accaccacca aaaaccacca cctctacgac 4740
aacagttgac tcctagtgtc aataccgcat actacacgat ccgctagttt actgtgtcct 4800
ttcgactgcc tgccttaaga gatctatcga ctccttaaac cgcttccctt ttcggccaca 4860
gccacagatt tataaaaacc tgccccattc cctgcctatg ctgctaggta ccctcaaaaa 4920
aatgatttag atcattggtt tcaccttaga tcccgatcat tggccgtagg cctaccaccg 4980
tgtttcttcg atctaacgta ttacttatta gcgcaaacgt attattatta ttgaaaacca 5040
ccaccaccaa aaaccaccta ccaccacgca aacgtattac ttattattga aatatcttaa 5100
gaagctattt aacggatata tgtagctatt taggtattta gaccacccta agtagtccac 5160
ctctattagt gctttagctt tagcaagttt cctgcaggag gacacccaaa caccgctgtc 5220
ctgaatctcg acctttgacg ataagagcac tagcaaggaa gtttagtttc tgataataat 5280
gacagccgtt tcccgtgctc gtgcagtccg tggtgcccgc ctcctgttac ggccagagac 5340
ctgaacgtcc ccactgccac caccaccgtc agagaaccac caccaccaaa aaccaccacc 5400
accaaaaacc accaccacca aaaaccacca ccaccaaaaa ccaccaccac caaaaaccac 5460
caccaccaaa atatgtcaac ccctactgcg ttttaatgtc agacagtcgc aggtagcgtt 5520
tacttgatac attgtcgtcc agccaacctc aaatttgacg tttctgtggt atatcggaac 5580
agtctttgaa aaaccctcca gtagaggact gccttagtta ttgactccct catgaaaccg 5640
agcatatcgg cccgaactag attccttcct accaccgtgc gctctcacgt attacttatt 5700
attgaaattc cacctaccac cacgcaaacg tattacttat tattgaaatt ccacctacca 5760
ccacgcaaac gtattactta ttattgaaat tccacctacc accacgcaaa cgtattactt 5820
attattgaaa acctctacac tctgctatgt tcctggtatt actcccgccc gaagttccat 5880
tttacacctc atgaccctga cagccgtttc actattgcgc acccacacac cgctgtcctg 5940
attctcccct gtgacgagaa taccactatt ggtgatgttc ccttccgagg tttcagatcg 6000
catcatggca gtttggtatc aagaccaaca ccgccgcctg aggctctatc agagcagtct 6060
cacgtattat tatttcccta aattattatt attaaaaatt attattatta aaaattatta 6120
ttattaaaaa ttattattat taaaaattta agtgatactc gatagcagcc ctccctcagt 6180
ttaactctgg gagactaggt catttctgtt acttgaccca cgcatatcgc gatattatta 6240
ggaaacctaa aaccctatta tctagttgat tcgcgagtct cgatgccaag aaacctgtta 6300
cttatttcgc cgtaagacat tccaccacca cctgtgaaaa ccaccaccac cacgcaaatt 6360
attattatta ttgaaaacca ccaccaccac gcaaattatt attattattg aaaaccacca 6420
ccaccacgca aattattatt attattgaaa accaccacca ccacgcaaat tattattatt 6480
attgaaataa ggacagattt atagaagaat cccttcctca gcagcggtta tagtttgtat 6540
ttatacattc atttacttcg tactcaagcg aagggcatta gtacacccag agggaccgaa 6600
acagcgttta ttagcttgac cgacgtcccg cccgatccag tattagacag tggtgacaaa 6660
ggccgtaggc cgcgctagcg ctgagaatta ttattattag aaaaccacca ccaccaaaaa 6720
ccaccaccac caaaaaccac caccaccaaa acacctgtgg tcgatctagt tttataattt 6780
acgtgtagtc tacattcctc accaccgcta ccgtaccgcg cgatcggaat ttccacagca 6840
aacctgcctt agtattaggt tgcctttctt atgtgaatca gcccacctac caccgtacgc 6900
tacacgtatt acttattatt gaaaaccaga ggccgtactc taaaatctag gtaatttctc 6960
ttgagtgacg tagcgatttt tactatatca gggttcccct accgcaatcc aatcgcccaa 7020
aatgaatcta atctccctat ttcaagaaga ccctaatatt tcactgcttc aggtacctgg 7080
attaccggtc gcggcgctta ctaccggtga ttagcgacgc caaatcgagt attagacagc 7140
tattcttcag aagccggtaa gtagccccaa aattccacct accaccacgc aaattacgta 7200
ctttctcttg tgtgacgtac cgattacaga gcataatgtt aggccgtagt accgcaattg 7260
gtccgctcat ttagcatcct aaaaagtagg tttctttgat ctttacaaca ggtcccgatt 7320
atatcagatt agccagtgtg caatcgtgac ataggcgcag gttcccccga caaagtcccc 7380
acccaccatc ttttctccag aagcagggat cctggttaaa aagcccacct accaccacgc 7440
aaacgtacag tgacaccacc taagtaagaa acagagtaga tcatttacat cctccgtttc 7500
actccacatg gtcccgggtt taagtttccc cccatatctg tcgaccaagt ttgcaatgca 7560
ccgcgtccta gcggatagac cccaccgaga ttccaccacc accgttagag aaccaccacc 7620
accaaaaacc accaccacca aaaaccaagg taccacctcg acatgaacct agtaaaatta 7680
ccttagcgcc ttagtagctt cccagatgac gatagttaca accggaggct cgcgcgagcc 7740
tgtctttcat gttagcatta gtccttgagt actatacagc gagtatctcc tcgctccaga 7800
gtttgtgaac gaagcgagta ttagtgagta tctcctttga acgatttgcg gcctagtcta 7860
taataaatgc ttccccctcc ccggatttac gtgcagtcgc cgcagatgtc ttattagaat 7920
ttccccgtca taatcacctc cgacgtagcg tgaaccagcc gtacatctac ttcagacatt 7980
atgagatctg ccatgccttt tgggagttct tacatgtcta gacagtgcca tccgttaccc 8040
tccctcgcac attgagtatc tcctaccacc gagcgcgatc taagtgctac cttacatgaa 8100
agcccgtgat tttaatattg aaaccctgcg gcagctctct tttgggcgcg gagttatcac 8160
cgtcttggaa cacaagatta cagaaccttg tgaaccagag ctccaatcag gcgactggga 8220
cgctcgtctg tctcgggctg ttccagttct agctgtccgc ccgaagcgat ccgttagagt 8280
acctggtgat aagcccagag tagtgagtat ctcccacgca gcgaagcgag tattagtgag 8340
tatctccacg cattcaacct cctcctgtta gtagttaaag tatatagtga atgagtttgc 8400
cagagcttta atcccctagg tttctcgtct cgagatcaat gcctttgtat taatgccgtc 8460
actcccacgt acgctaggta ttattatttg ttatcacatt attattatta aaaattatta 8520
ttattaaaaa tttatgagct gatatcgtgg taccctaccc accgcagggg tttagtggta 8580
cctaggtcat ccgtgacctc ctttacaacc cagtacccta atttgctgag gtgagccttc 8640
agcccagagt acttacttag actattgagt atctcctcgc tccagagtaa agcgaagcga 8700
gtaccacctc tctccttgag taaattcacc attgaatggg gtacatcccc tccgtccaag 8760
gagtggctgt ggcataatgg ccgtactagg tcgagcggtg agggaccagg ctttcgcggt 8820
ttgaaaaaac accatattgc caaccgtttg acgtagtaag agatgaaata tcccagaaat 8880
aatcaccccg ttgagtcgac gcgtacggat aagatcagcc cacccgatta ccaagcaggc 8940
ctttctccct ttcatgtcag acatcaggta ggccgttccg aagccaaggc cttttacctc 9000
cgtatgggcg taaagtcaag accagatgag ctggtacccg gtgtagcacc cgctcgtttc 9060
taaacaacca ccacctaccg agatctctgg tgtatggggt acctcggcct taggcgtcca 9120
aggagcagct tcgcataatg gccgtacgtg tttcgcgcgg tgaaatctaa tgaagtgaat 9180
aggccttttc gttttatatg atcataatgt cgccgttccc gctttctaca ctatgaaata 9240
tccaagtccc ccaagattta attgattcga ccgaccttgc acatcaacag cccaggttcc 9300
ctcccaaatg aatcccatta ctcagcgatc tacgatgagt tcctccatgg ctattggcct 9360
tttttcgctc gtttcagaga atccagatct tttcagggct ttttcgagga aaaaaggtaa 9420
tttttagtcc tcctaaacaa gagtatctcc tcgctccaga gttctcttgt catgtctcct 9480
tcctctctcc ttgagtaaat tcatgttaca tccaccaagt aaaaagatcc ccttcgtaag 9540
gaagtttata gtttacttcc tgggattttc cgtatggcac attagggcat acgtgtatta 9600
ttatttgtca tgagcattat tattattaaa aattattatt attaaaaatt tatttgatgg 9660
gcccgtcggc ctttacgtta tgagaagacc atattactgc gaagttcgct tactacctgc 9720
acctcacgta ggccggaggt gcgctgtacg attcctagag tattacttac aaatagagta 9780
tctcctacca cctcagattg agtagccctc gtaccaccaa aatgcatcac aatcaccacc 9840
tccacctgaa cctttgactc gaacgtacgt acttacgtac cgcacattaa gataaagatt 9900
acttattatt accgcacaac caccaccacc acgcaaacca actaaaccta ccaccaccac 9960
gcaaattact tattacttag cgcagattaa gataaagatt agaactcctt agtagtagta 10020
gcgcagtaca agagtactct ccaagtactt agaccattga gtacgctcct cgtacgtaaa 10080
aaggccacct cgtacgtaca taagttcccc ttcgtagggc accccactcc cctgcgttat 10140
gatggttccg tcccaccggt gcactctggg aacttctcca ccaccaccgc gaagctgaac 10200
caccaccacc aaaaaccacc accaccaaaa acctccgcag gcttcctgtt aatgctatta 10260
aaatctgaga agatacatat tagcattacg agcagatact ctggttccta atgtaccgca 10320
acccaccgta cagccttagc gccattcctc gtagccctac ccaatcagtc caccttccag 10380
attagaccaa ccttattact ttatgtgact ctattcatac gtatggttat tagtaccgcg 10440
cgatacgtct agcaccttat tttagcgtcc ggcttctaga acgactggac cgtgccgttt 10500
gtattacctt attgattgcc ctagtgattc cttcctacct tccgagataa ttattattat 10560
taaaaattat tattattaaa aattacttac gtattaaaaa cttacatcct tcctacctcc 10620
atcagtagta catcccatcg cacgcgtaca tatcattggc tctgcctcgt ccaggactag 10680
acagagcggg tagaggattt cctgacagcg ttgaacgcta gttacttagc cctacctatt 10740
cacttacgta tcaccttcct aaaattacgt attacttaaa catccgtttt cgcaattgaa 10800
caaccccctc agacgcaatt ttggcagatc attccgcccc caccgccctc tgttatggta 10860
atgttattat tatttgtaat cacattatta ttattaaaaa ttattattat taaaaattat 10920
tattattaaa attttcgctt tgcagagtta accgtttgac ttttgaccgt ttacggcgcc 10980
gatatttgag tttccaggtt agtccctcgg tacgaaggcc accaattacg ttgacctcca 11040
actcaccaga ttagcgatta ctcaccaaac gcactcacct gacgcagcca tgccatgccg 11100
tatcaccaga ttattgatag agagacgcgc gttggacact agcagcttaa ggtaagtata 11160
agtgagacta aggatggtgc ttggtaagtt cccatttttc tataaccagc agacaagttc 11220
tggaggtcga gtaacgtgcc cctgtcagtt gtatatctcc ctaccgtaca caacgtgatt 11280
tgttattacg gtggtcctgg taagttaggt tcaggcgaaa tgccttaggt actactccag 11340
ggcgcagcta aaggtaccct ctttactagg tcaaagttcc caccgaggtt cgggctaatg 11400
gtgctaaatc cctaatccca actgtgtatc gggaaccgag tgtacctaaa ttgaccaccc 11460
cctgggtcca tattgggtgt tcgggaccct aagcccaact gtctatcggg atccttgcga 11520
gcttgtcaaa cgtgtatttt attcgttaat gagggtgtca gatttaacgg agtagtactg 11580
aattgagcag gtaattttac cctaggccca attggcttcg cacaccacgg cggagtctag 11640
gccaacccca gaggtgctac tacggaactg gacccgttat aataggttcc tggattaaag 11700
tagagtcgtt aatgatgtga gttcccccag atcagcccaa tatgaagaaa gtaggacaat 11760
tatggcactc cgtttgtcca tataaacacg ggtgtttcct tcaccacttc aacaggtccc 11820
tggcactggt tccttagttc tgagctggag agggacaata agagattact cacctggcac 11880
ctagatttct gtgagtacgc actcaccacc ttgattatta aattgatacc taagtagcag 11940
ttatcgatcc tccaataagg catttgacgg ctcccgccag caatttaatt cgcctcaaaa 12000
cccgatttgt ggtagtttcc actcatagtg tgtcattatt attattttct aaattattat 12060
tattaaaaat tattattatt aaaaattatt attattaaaa aatatctatc accccttagc 12120
cgcaagctcc cgcgttatga ccctctatct ccctcttatg ctctttcacc cacgcgagcg 12180
ctttattagt aggatttatg cagtccgtca cctgcaagtt gaatactttc tctcgcagcc 12240
caccaccttc ccaataactc accttgatta cgcaccacct aacaaccttg caacagaata 12300
tctattatta ttattgatat tttcttcgac gaggagatat gggaaagttt tctctatcta 12360
agcatcttac accgttacct aacaaagaag gctcaaaagt tccaccccag ttcgcacaga 12420
cggtccacca gtcaacccgg cgttccgata gtgtagcaag ttatctcgac ggtatgccgt 12480
aggtccacaa cgctttagtc aacctagtca acccgtgggt cagtcgggcg gaaccttggc 12540
gatatgcgcg gtatgagccg cgcagcgcca ccctcgtatt aaattacgat gaaccaacta 12600
ggcgttttgc ttcgtacaga tgttactagt tagacccccc ctggtgttta aacccttgtt 12660
attgtaattt gacctgattt ctcttcgctc tagcaatgcc ttttcgtttt tttattgtcc 12720
caagaaacct tagtatttct gacctcgtca aacttactca cctgttactt tacttaagtg 12780
attatcacct gttacttaga aatacctaag tacgtacatc caatcagtag tagttaatcg 12840
ctgggtcatt aagatccctg caacaggatt tgtattatca ttgtgtgaac tagcgacact 12900
gcagttgaac gtagcccacc accgcgaagc tgaaccacca ccaccaaaaa ccaccaccac 12960
caaaaaccac caccaccaaa aaccaccacc accaaaaacc aaggagtatt attaaaattt 13020
tctgcagggt acccatttag tttggtcttg tgaagatttt agcttcagac aagttcattt 13080
tcattggttt atcctaactt gtatcaccaa gtagcattta taccgtttac aaagttgatc 13140
gtatccagta agcccttcct ccacctgttt acacaaccac caccacctaa cattccacct 13200
accaccaaaa ttccaccacc taccaaaatt ccacctacca ccaaaattcc taccaccacc 13260
aaaaaccacc accaccaaaa accaccacca ccaaaatacc taccttcctc ctagtagatc 13320
acatagtaga tcagtaccga tcctcccccc ttcaggcgtt tccgaacacg ctagaccgtc 13380
tttgatgtat acattctcga gtttgttttt gtccagatta gacagtagtc cagaggtgcc 13440
ctaccgcgcc agatgctttt tcagaactag cgcgaaccac caccacccca ctaaccacca 13500
ccaccaaaaa ccaccaccac caaaaaccac caccaccaaa aaccaccacc accaaaaacc 13560
accaccacca aaaacctcta cacaatcatt aggccaccaa aaccagacac atttagtaca 13620
ccgttttgtt gtaaagcagg tgcccccgac tatctaatcc gaacccttac cggccccagt 13680
tcagaggcca gaaaatcctg aaagttaaca actaatgctc ctgcatcccg ctacttatcg 13740
attgtcacta gagtacgtag aaatccttga gttaaaccga agcccaccta gagtattaaa 13800
cattccacca ccacctaaaa ttattattat taaaaattat tattattaaa aattattact 13860
tactctcctc agattcctaa ctcctaactc ctaactcctg tcatgtcatt actcctcaga 13920
gttacattcc ctttttaacg atgctccgta cattagtgac aatcgtacgt gatccccaac 13980
gatcccgtga ttatgcagct agtatatgat aaatgactgc cgttacgttg tcgaacaacc 14040
accagatctt accgcattat tattattttc tacattatta ttattaaaaa ttattattat 14100
taaaaattat tattattaaa aattattatt attaaaaatt attattatta aaaattatta 14160
ttattaaaaa ttattattat taaaaattac agaccatcat caagtacgta ttaaaatttc 14220
ctacatggta gctatttaaa tttacagcct ttccattaga tgcactttcc ccacttaatt 14280
acgtgaccca gactccacct catccctgaa tccctgcgga actatgtcga gttatattta 14340
caccgctcct ttattccgtc agtattagta gactaaatcc ttgagttaag ctacagcgtt 14400
accatgccga ttgattccac ccgatacgct ccttgagtta ttcgcccttg tgtttagtca 14460
acgatactct ccagagttat gcgcccagtg ttattcaacg atactctcct agagttatgc 14520
gccctaacgg taggcttaac gatactctcc taactcccag gtgataggtc ccagtcctag 14580
tttgatcctc gtgcgaaagc gacgtgatta cgttactgac gtttacacta tataggtaat 14640
ttagcctaac aatgttccgc cacagtatgc gctaagccct gtcacatcag cacactcccg 14700
aactatcatt cctgcaatca gccttatttc gcctacttcg atctcgtgtg gtgaaccacc 14760
accacctcac aaccaccacc accaaaaacc accaccacca aaaaccacca ccaccaaaaa 14820
ccaccaccac caaaaaccac caccaccaaa aaccaccacc accaaaaacc accaccacca 14880
aaaaccacca ccaccaaaaa ccaccaccac caaaaaccac caccaccaaa aacctccgta 14940
tcccgtgtcc ctgttattaa aataacgtaa tgcctttatc gtaacgtgcc ttttccccac 15000
ctttctagat gtgaccactc acacagcgtt agtgtcatcc gtaagaaacc tagtccaggt 15060
acccttgtag cacggccaag gctgctatta agtcatggtt ccagtcatcc cggtcgattg 15120
gtaccttgtc acggccttac ggtcttatgc gaaggctgct attacatatc taggtccctg 15180
cacataggcc ttttccgaaa atgtcccttc cccttaacac cgccaactga ctcgaccgcc 15240
gaatgccgtt acccgatacc acctggtatt ttatacaaaa tcaccaccac caccaaaaac 15300
caccaccacc aaaaaccacc accaccaaaa accaccacca ccaaaaacca ccaccaccaa 15360
aaaccaccac caccaaaaac caccaccacc aaaaaccacc accaccaaaa accaccacca 15420
ccaaaaacca ccaccaccaa aaaccaccac caccaaaaac caccaccacc aaaaaccacc 15480
accaccaaaa accaccacca ccaaaaacca ccaccaccaa aaaccaccac caccaaaaac 15540
caccaccacc aaaaaccacc accaccaaaa accaccacca ccaaaaacca ccaccaccaa 15600
aaaccaccac caccaaaaac caccaccacc aaaaaccacc accaccaaaa accaccacca 15660
ccaaaaacca ccaccaccaa aaaccaccac caccaaaagg gggggtct 15708
<210> 2
<211> 17148
<212> DNA
<213> 人工序列
<400> 2
tacttataag agaaagaaaa aaaaaaaaaa aaaatgtgtc tttattctta ttttacaaaa 60
aaaaaaaaaa cgaaaaaaaa aaatgggggg gcagacaaaa agaaaaaaag ataaaaagtt 120
aaaatttatt aatattagat aaaaaaaaaa aaacctaaaa aaaaaaatgg gggggcgtct 180
tgcctgggct ttacaatggt ttaatctgac caaaaatgag aaaatcagaa aaacgcaaaa 240
tcagaaaatc caaaaatcct aaaatcgcaa aatcataaaa tgccaaaaac gcaaaatcag 300
aaaatcggaa aatcgtaaaa acctaaaatt tataagtagg tagcaaaaaa aaaaaaacct 360
aaaaaaaaaa atgggggggc gtcttgcctg ggctttacaa tggtttaatc tgaccaaaaa 420
tgagaaaatc agaaaaacgc aaaatcagaa aatccaaaaa tcctaaaatc gcaaaatcat 480
aaaatgccaa aaacgcaaaa tcagaaaatc ggaaaatcgt aaaaacctaa aatttatact 540
tttaagacaa aaaaaaaaaa acctaaaaaa aaaaatgggg gggcgtcttg cctgggcttt 600
acaatggttt aatctgacca aaaatgagaa aatcagaaaa acgcaaaatc agaaaatcca 660
aaaatcctaa aatcgcaaaa tcataaaatg ccaaaaacgc aaaatcagaa aatcggaaaa 720
tcgtaaaaac ctaaaattta ttaatattag acaaaaaaaa aaaaacctaa aaaaaaaaat 780
gggggggcgt cttgcctggg ctttacaatg gtttaatctg accaaaaatg agaaaatcag 840
aaaaacgcaa aatcagaaaa tccaaaaatc ctaaaatcgc aaaatcataa aatgccaaaa 900
acgcaaaatc agaaaatcgg aaaatcgtaa aaacctaaaa tttataatta gataacaaaa 960
aaaaaaaaac ctaaaaaaaa aaatgggggg gcgtcttgcc tgggctttac aatggtttaa 1020
tctgaccaaa aatgagaaaa tcagaaaaac gcaaaatcag aaaatccaaa aatcctaaaa 1080
tcgcaaaatc ataaaatgcc aaaaacgcaa aatcagaaaa tcggaaaatc gtaaaaacct 1140
aaaatttata cttttaagag aaaaaaaaaa aaacctaaaa aaaaaaatgg gggggcgtct 1200
tgcctgggct ttacaatggt ttaatctgac caaaaatgag aaaatcagaa aaacgcaaaa 1260
tcagaaaatc caaaaatcct aaaatcgcaa aatcataaaa tgccaaaaac gcaaaatcag 1320
aaaatcggaa aatcgtaaaa acctaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1380
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1440
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1500
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1560
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1620
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1680
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1740
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1800
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1860
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1920
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1980
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2040
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2100
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2160
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2220
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2280
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2340
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2400
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2460
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2520
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2580
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2640
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2700
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2760
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2820
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2880
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2940
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3000
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3060
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3120
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3180
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3240
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3300
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3360
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3420
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3480
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3540
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3600
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3660
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3720
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3780
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3840
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3900
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 3960
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 4020
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 4080
aaaaaaaaaa aaaaaagggg ggccatatga gatggaactg aaaaaaaaaa aaaaaaaaat 4140
cctaatcaaa aaaaaaaaat acggatcagt ggtaagacag agaaaaaagt cagagacaat 4200
aatctaatga gtgacaagca attgtcaaat ggggagtgca tgcggaacag cagatgtgct 4260
agaaaaagtt ccatctcagc tccagccaat atccatgatg cagttcggta atagttacaa 4320
aggaatcaca ccggaaccac tggtcagagt gactggcaaa tgctaatctg gatcttcata 4380
ctgacactgg ggtagtagag tgacggctcg ctagaaaccc tctatttatg ttaatgccgc 4440
tatgtgggcc tcggtaggtg actttactac acaccaatcc ccaactcgta ctggaaaaag 4500
aaagcctagg agggggggcc ataggagatc ttttgtaaac caaaaattag cagatttcgc 4560
atctaaagca aaaaaaccac attaggaaaa agatccttaa aaaaagattg actgcagcaa 4620
tatggaagca tatggggact caaaggatac gggggacgca aggaaattca atactggggc 4680
acttccagat aaatatgggg gggatacgag atctcatcgc ttaggggggg attcacctgc 4740
tagatccata aaatgacctc caaacagacg aagtccgcag gctccggact gattattcta 4800
cgatgagggc caactaaatt tgctcgcatg gttatgccac gttttggatc cactaagcta 4860
ttctttaggg ctcattctct atctaggggg gttacccaca agaatagttt acttttggcg 4920
ttcggccctg acggggggcc atatgagatc ccgtggaaac aaaaaatagc taagcttgaa 4980
atgagataca aaaaaacagt catcgcgctg taagaccagt taaaaacaac aagcgggtcc 5040
gatttcatac tgactcgtag cggctttaga gaagtagaca ctctcgaacc ctggttcaca 5100
caaagaaaag agacagaaat gtaatcgttc agaaccatag taaaccagtg ggggctatgt 5160
ggttagccga acacataaaa aaattaaaac gaaaaaccac catgaagata ttatctggac 5220
cgaactagct tagcgcccgt aaataatcat taactaaggt tgagacagtt tggtgagtac 5280
ccgaccaggg gggcttgtgt gtcccgtttg cataaaaaaa aaaaaatttt cacgccagca 5340
cctatctggg ggggccatag gagatattag ggaattaaat gatacaaaag tgtcctaaat 5400
cattactgaa aacactaagt ccgtattaag aaccatcaca tcagccttta acatccatgc 5460
ttctgcaccg tttaattgaa tcctccgtaa gtaattttgc ggtcccatga ttcacgcaag 5520
tgttaggggg ggtgttaagc ctaggcaaat aaacatacag accgctatgc taggttgtcc 5580
tagtttgtag gtcagctgaa tgtagtagaa tgtatattcg ttcgaagtac atcagctgtg 5640
ttttgcctgc cctggcttga gtaccttaca gcggggggcc gttttgttat tattggtttt 5700
gtccctcatt aacgacgcga tcttagaact ctaagtcaat ccataaccga ttattttttt 5760
cccttcgcgg ggggccatat gagagccagg cgaacccaat gatattgatt agtctcaaat 5820
cattaagata aacaaaaatg ccgtattaag taatccaaaa tactctcatt gagctatgat 5880
ccaggcatcg gtgcgcgggg gcttgtttaa gtttaggaaa agcaacaggc atgtatcgat 5940
ttgtaggcga tgtggttcag caagcctaga catccaaggt cacccaaagt tcctaagtcg 6000
atcgtgttca acatccaaca tacgggggct tacagatgac ctacttattg tagaggataa 6060
gtacatccag atttgcggta gcattgtatc gattatccaa ctaatgctat tccctccaca 6120
gattttagat tgtgttaccc cttttctatt tctggcttta tagtctgtgg gtggggggag 6180
cgcagggggg ccataggaga tcacctcgat atcaatgata gtgacctgtc taaaatctca 6240
ttaacaaaca taaaccacga cttaagagaa gcaacagcgg taccttggac accaaaacca 6300
gaaccgagaa ggccgaactt ttacctgtgg gcaagcatgc ccaattccca atctaatctc 6360
gaccgggacc attttagaaa gccctctttc cacaacccac gccctggggc cagtccgctg 6420
tttgaagtat agaaggccct tctttgcagt tacagctgcc agaatttact actatttgta 6480
cacgtatgac tcggaaatag cacaaaattt catatttcat tacgttgtta tgggttattg 6540
ttaatatgtc cggtgagtgt tcggtagaac taattttaaa aagaaactct taaatatgcg 6600
atatgggggg ccatatgaga aggacttcat tccaaggata atgaagcgtc acaaataaga 6660
gaatgaaacc aaaacgacga caaagataca gttcaacgtg tcctagatgc aactcgtcgt 6720
cggcacacaa atacacgaaa caaactacat catagcacga gcatgcgcgc tccaagataa 6780
cccggaaaat gtagtggggg gggggtaccg gtaacgcaaa cctagctaca aaaacccggg 6840
aagttcagaa gaacggacac gtcagtaggt aacagaaaga cccctaaatg atatttaacg 6900
cattagcctg agatcctcac atcagagaca ctaccaaacg gcctcttcta cggtaagcta 6960
ttcctccctt tttgccggga gcggttgtta agttcgtgac cagtacacga acgactatac 7020
ggggggccat aggagaatat gtttatccca aaaacgacga gacttcgtta gaaggagagt 7080
aaaacttgaa cttcgcgaaa catgcagtac aaaatgagcg ctgataacga ctgatagagc 7140
ccatcatcct ggcttacccc taggagtcga gacatctggg ggttccaaga taatggggtc 7200
acgacaggtt aatgacgttc ttaatcacga caaaagctta ccacagggcc catgcttgga 7260
gttttcttaa ttccaagtac ttgattatac aagatatatc tccggcacga ggccactccg 7320
tgtcactgga gtcgaagtgc cccgagctta ctaatggcac tttacgcaag ccaagcagtt 7380
cccttaagta gtttatgggg cacgtgtatt ttctctggaa gatcccggtc tgatttgaat 7440
ggggggccat atgagatgtg acttaaagca aggatattta taggtgacaa atcggttcca 7500
taaatgccca tgccgttaaa tctgcgaagt aaaacgagca tgaggctggg tctaaggtag 7560
gatgtaaaaa tgatgccagc tgctgggcat tatttttctg tacaaccaat tcaattcaag 7620
cggctgctat ggggggccga gagtgttttt gggaaggatc ctgggatagc taatgacctc 7680
cccatcctta tagtgctgcg cggcgctgtc tgcatgtctt caacgtcgcc ggttctgcta 7740
ttacccgcac ataacaacgc ggccgtttag tgagagtggt acggttatat acacgcccta 7800
tcgaacagcc gggggtgttg ccttacagtg cctagtgaag ccgctcgtac cgaaaggggg 7860
ggccatagga gaactgcacc aacgaaaaaa taaccaaggt tctcaaagag gtaccataaa 7920
gacgaagggc gcaggagata cagaaaaacc gactgtgatt cttgaaacca gcatgtgccg 7980
tagggggggg ccctgcatca gaaaaaaaca aaaaatcctt ccgacaaaaa agggattgca 8040
tcgtcgaagt tcccgtcaac gaagagaaac gttttagtta gctctgttca taaatgtttt 8100
ggtttacggt accctatgag cgggtggagc tttcacgaga aacagaagca tcttaacgca 8160
ctaatccatt gtttgggcct acgttgcaat atcccgacag gtccttcgta ttaaacgaaa 8220
cccgagttgg ttgactgcta gcctctacta atccacccaa attttacggt tcggctgggg 8280
ggccatatga gaatccacct aaccaaagga tattgattgg tctcaaaacc tatatgtaaa 8340
catgaagagc gacaaaagta cactgacaga ctccccgaat gaaagccgag tatgaaactc 8400
cttgccaggg gggcgtatgc atctacccat ccacctagga cagagataat caatcaattg 8460
gacactatct ccatttccta tagctagaaa agcaaacgat ggcgtccgag cgatgtacga 8520
ttactctact gaatcttcta tggggggttg gccatacgta caccatccta gtgttggtgc 8580
gtaaacgacc atcacctgca gatcttggaa ttacgctcga ttaaactcag aagtccggcg 8640
ctcccacata ctgctatata accggcattg gtaggggggg gtattaataa agggggggcc 8700
ataggagaca tctgctataa aaatgaaggt tatccttcac aataactatt aaaaaacatt 8760
aatccccgtt tcctacctaa aaaatcttaa ccttaggcgg gttaagttgc accaaaactt 8820
cggtcgcggg aactcgagtc taccatttag aaaccgtgct atgtggattc aagcctggat 8880
accactcagt gccacccggg gggtagggac gtaaaataaa aataggatca aaaaaaaaag 8940
agccaaccac cttttggcta gtagattacg gtatgggaat tgggaatcaa aaatatcaca 9000
ggtattatga tctcatgcgg gagactgctg cttatcatct tgagataaca tttgtatgtg 9060
ggtgaggtct gaccacgtat ggtagtcggt tctcgcgctt cctctttggt caggggggcc 9120
atatgagacg tcaatcatct aaaaaacccc gagatttccc gtctcatgca aaaaaacatg 9180
cacggcgcca agccaatgaa aaaacatacc cgcatgccgg ggttgtggcg cataagcttc 9240
aattctgtcg cccacgggat caggggggtg atgttccggg gtttagtggg ttcacggggg 9300
ctggggaggg tgaagcagag gacactacga tagggccgtg gtgaccgtcg ccctacagca 9360
tctatcgatc taactaacaa agtcaaggag gtttccaaca gaaaaataaa tttattgctc 9420
tggctgatgc taaagatagg cgagaaggat ttacaagtgt gaaccctggg ggggggtaac 9480
gttttactct cgtccccaga aacggcatgg ctcaatttcc agtgctaggg ggggccatag 9540
gagagcaggc agaattcaaa aatactaatc attgaaattt atcaaaaaaa aagaggaacg 9600
tcgtaaagag aagaaaaaaa cctactccat tacagatagc atagtaaagg cacacaggtt 9660
ggcccacatg acgtttgggc tggagtctcg ccttactgcc cgtatggtgg gcgatgggct 9720
aacaccgggt cggtttgtga tcaaaaattc gcagctactc ggccacgtcc taaacacctc 9780
gagtgcctta taggcgcccg tcttcgagca acatcaacag agaaatgggg cgttaaatgg 9840
cctccaacat ccgaaggtct aatatgcgag tggactcgag acacttttcc ttcccatgct 9900
gctgcgtccg tggggtacgg ttagtctact ttcttcgtcg ctcgttgggg ggggccatat 9960
gagagcagtt agaaacaaat catacagaag tgtcacatga ggtgcaaaaa aatggccatc 10020
gcgacttaag tgccgtaaaa agaatcaccc tcaatatcta ttcgcctggt tctccgcgga 10080
tatttgggat acgcacctca tgcccgtata gttcatcatc taagccactg gaggcccaca 10140
aaaccccagg tatggggggc ggccacacgg tataaaatag cagatacatg ttaattatca 10200
cgataagcgg agagcgtcgg tggaccccga ctatttaatc gctaggcctt aaggctggca 10260
gtgaagacta tacaaggacg ccgggggggg gggccaaatc agacgctggg gccacccaat 10320
taatttacac cagacctcgg ggagtattcg aaccagatgc catagggggg ccataggaga 10380
cgggacccaa cacaaggatt attatcagtt gcaaagagaa ccctaaaaca cccatgacga 10440
aaaaagtgcc gtaaaatcaa tccatgcctt gcaaatgact tattttccgt gacccgcggt 10500
caactcaatt attatccacc atttatgtgc caacgcgggg ggggcagctt aaccaaccaa 10560
caggactaac tttctctcac tatacggaga cgagtaaacc ttagtccgga tttactctta 10620
acactgacca tgattacctc ataactggta catctatttt attgggatat cgagggcact 10680
gtagggccct ttacaaaaaa caaacgtaat tactgccggg acagagtaaa ctgcgtggcc 10740
cgcataggcg gtagaacgag gtcgctatcc agcgtctcac gagagggggg ccatatgaga 10800
aattgagcaa cgcaattata agtaagtgtt gcccagaaat actaaaaact tcaacgtccg 10860
aatactagaa cacgcattct cttacttcac ctgccaagag ggggtaaggt aggtagttaa 10920
gacccaggcc agtcggtctt cccggaagta aaaccaacgt gggacggaca ctgcctttct 10980
ataatcaccc acacattttt tacttcggta tgacgtgtaa ttctggagaa ctagcggatg 11040
atgctatgtc tggtaaccgt tatttagaac ccaaagctag ctccaacgcg ctcggtggaa 11100
tcctgttgtg ctttgcgaat aatccacgca acaagtggat ttggacgacg cttgactgtg 11160
agacaacgaa tagatcgacg cacagggcta cgccaggtgt ggggggccat aggagacccg 11220
acttataaaa aaaataagga ttcgtttaat tactatcaaa aaataccgat catcgataag 11280
agagagaaaa atggtcgttg taggcattac gataacgctt tgctgatgat gatcaactaa 11340
gggcgatatc acatgctata gcattaggta acctgtgcca cgttaatcct acgaagacgc 11400
agaagatttc caagttgaaa aagtaatata gaggacaaag cggagcatcg aagcgattct 11460
ataacctgtt ccacctattc aagatttcga tccatttata ataagcttac acctgtacta 11520
aacctcgatt ttacttcttt ggcgagcggc ggttagccgc gttgggtcgt tacgtatagt 11580
cttgtcttac tctcccgagt tagtcccggt attgtacacc ggggggccat atgagattga 11640
accaaaacca aggatatgga agtttgaaat gtaatgcaaa aaaacccgca cgtcgttaaa 11700
aggaagaagt cataactata aaaaggaatg cgcatatcat ccacgtctgg ttgcgaggct 11760
agactataat cctcgggagt aatctcaagt aaagcagaaa tggtgcttca tgaggtggcc 11820
tggggggggt cggtttttcg atattcttcg ttacgtagga gtaagaaaac tatatgatat 11880
atgtaataga ctacgagcct tgagtggcgc ttgaaacgag gctacttata actacttcgg 11940
tctgcgccgg gagttttctg ttgattgatt agtgcttctc tagctggggc gctaggggtt 12000
tgtgccctcg agagaaaaaa aaaaaaaact taacaagggg ggccatagga gacaactggg 12060
aaagcaataa tatctaaggg tgtgccatcg gacccctaaa catccatgcc gtgtaatcga 12120
atcttaaaaa aaactcgcat caacccctac gccaattacc atagccaagt ggtaaagcag 12180
gctctattgg cttaataggg ttctcaataa gcggtctaaa acgggcctcg acggtctgtt 12240
cgagataaaa aattatccct taatgtcagg ggatccggca ccaatcaacc tacaaatcag 12300
ttgtccgcga ctgcctgcta gactactata tctgacatat aaaaacgcag ttgaggggaa 12360
atatgcgggg ggccattccc cagacgtgct tatgagcccg aatagccact gaaaacgaca 12420
ttattttgag catgtccagc tagaccagct gatcctgggg ggccatatga gagaacgagt 12480
aaccaaagga taaggattag tctaaaatcg gagacacaaa catgaatgcc cgcaaactga 12540
atcttacaac acaccttggc ggggggcgga cttcaccaaa ccacgttgta ttaggggggg 12600
gttaacagtc attggaggtt ttctataccg taatcaccat tacagtagag ttctgctcga 12660
ggaccgccgc actacaacgg tcttggctcg cgatttgatt gagattgcat agttgcctat 12720
atcgctatcg ggggggttac atctagtagg agataagggc atgttgtgac cgatactccg 12780
aatctttcct ctcctgaaca attcgtcctt acgagtatta aacgcctaga atcttaccgg 12840
ataccaacga tgcacgagat ctgtacgcgg ggggggggcc ataggagaac gaagtcataa 12900
caaggatatc gaagcgttcc aatagcaaga ccaaaacccc caccgcccta aagagaactt 12960
tacaggccag gttcactgat acgatgtata aacctggtcg gtatttagta tccgcagacc 13020
tatacagcac attgggggag aaatttccta cattaacagt cgtccaactc tgttatcccc 13080
taagacgtgg gtaggaccct tgcgcctagc gttaaagact tcttactgtg agggtgtggg 13140
gcctatccca cgctgccgtc ctcgcacttc cttatctaga tatactacta atgcactagc 13200
gccaggttgc caccgcttga actgtgtcgt cggacgccca tcattaagag gcatcgacta 13260
atactatctc gagagggggg ctggaggcaa ccggggggcc atatgagatg gcgtggatac 13320
caaggatatc aattagttta aatcatcata gagaaacaga aatgccccta aactaacagt 13380
gaaacaacta cagctgaggc cgcgtagttt cgaccaaaga cactgtggct agtgactaag 13440
gtcctacaga atattaaaaa tatcacccag caacaacatc aacccgaacg ccatgaccta 13500
cggggggggg gcatcgattt ctcaattcaa ctggatgggc gcgtcttcta gctgctaaaa 13560
aacctagtca ttctgtcgta ccttccgtgt gctgatgcgg gtccagacaa taacataaag 13620
catagcggtc tgtggacttg ggcgctatgc gcataacaag tccagaggct gatctgaggt 13680
ggaaccacaa acaaccggag tgtgccaagg ggggccatag gagagtcaat caatcaaaag 13740
gatataaata gtttacaatc atcatattga aatgcaaacc gccccaaact atcacatgca 13800
cacaacagtg tacctccagg tttttgcgaa gaccagaccg tgcggtatcg ggggtttggg 13860
gccgatccca aatggttcga cattcatgca gacgtcccac tctgctcaat aaccaaagaa 13920
cgatcatata ttgtccaatc aactctctat ggaatggtaa tcgagtatac tgaagtttag 13980
gcgcgttggt tttgcccgta cccaccactt gtatgtacca taaggagaac gccaaaccaa 14040
tttgacgcca cgggctgttt aagtgatatg gtcggctggg agtaggaact gcgaggaaaa 14100
atcttacatg acaagaacta agaccatcgg ggggccatat gagagcccga gtacataaag 14160
gatattcaac atttacaata cacagaaaaa aagtggcagg acctgaaagg tgcagaagca 14220
ataaagatca agacagcctt taaaaaatcc gtattattta tgtcgttacg agtcatctcg 14280
aggccacgcg gacagcaacg cgaaaaaagt taaggatctt aaaaaaaaaa ccatcccaaa 14340
aactcagtta catctaaggc caatcctaat tgtgcagcta tctgtataca tcaaagaagt 14400
ctgcttctta tgacccgctg tcagatagcc taacagatac tatgacggta ggggccgtgt 14460
ttcagctcgg atgcaccaga cgtaacaacc cagcgaccac gaagtactcg acgagatttc 14520
gtttcgcggg atttcgtaga gtgagggggg ccataggaga tcgaaattat gaaaacaata 14580
tgtaacattt ggacagatct acaataaact atcacttccc gaaagataca gagccaattt 14640
ccttaactga agagaaaagt ccaacacaag gaacctaagc agatacctcc tccggggcct 14700
tacaaaagga ataccacaac gaagatattc ctcatgtata taaaaattct cctgtctcaa 14760
tggatcacct tctttcaatt tacaactcaa attgatgtag ccgccgatag cgatggtgtg 14820
ggccaacttg tgccgacatg gaaaacgcac aaatagcaca gaatattact gtatttatgt 14880
aagagtcgat gacataaaca atctaagtca tgcctactgc tgtactcgca aaaccaagcc 14940
agcgtatgta gttgctatgc gggcgggggg ccatatgaga tggcggtgac ataaataata 15000
agcataagtt aaaatactca taatcaaaca tgaatttccc attagaagaa gattaagggc 15060
gcttaataca cgcccaaaac agagcggtga tgcagtctct cgatatgcga ataggagcga 15120
caaagcactt gcgaatggaa ctcgcaaatc tagtcaaaat actcttgtta ccgtggaagt 15180
ctaacgcgcc tggtcgtacg aagtacaata tcccgatgcg agtactcacg agtactttta 15240
gcttgaaaca gcgcaataaa ctaaatatct tccactaagt ttatgtcaat acaatacata 15300
atttgcaacc cagtattata tatataaagt caccaggccc tggcatcaaa ttggaacaag 15360
cgtttaacct ggtgatcccg ggggggccat aggagatgag agcaactgca aaaatataca 15420
agagtagaat tagaatcaaa aaattgttct tgtcctgaag agtaggaaaa aatgacttaa 15480
taggcaggtt ttagtccgat cgcaagatgg gctggtgacg ctatgtacct tgtatgactt 15540
accgcacaag ttgatcccct ggttccgaat gttcccggta agataaggtt gaccgcagag 15600
ttgttggagc cccgcccgtc ccctggcgtc ccatccccgc tgattttacg tacccaagat 15660
attattacat gagacattgt tcgtcggctc gcagacgaac ggggctaatt atggataact 15720
ggtggcatac acacgattaa cgtgggcatc tgagaaccct tgttgcctgg gcaacgtcct 15780
ggccttgatt ttcgaacccg ggggggccat atgagaggaa tgatataaca aaaacacaca 15840
ccgtaatcat caggtgcaaa aacacaggca aaatgagaag caaaaaaaaa atttgagggg 15900
cagggttaga cattatgctg aaagattcca ggtcgtggga tggggacggg tcatgcgata 15960
catacagcga aggtccttcg agcagggggg gttgaggtgc tacgccgccc gagaaggcaa 16020
cggaacctac gccgggataa ttaattattg cacaaccaac caacggtaat tagtggggca 16080
ccaccggggc acctcgggaa caacttgtgg aacaaccagt gggacaacca tctggaacaa 16140
ccaaccggaa ccagcgctgg aacagcgggg gacatcgttt tagataatta gttatttttt 16200
tttttttttt ttttttgggg ggccatagga gaagtaagcc aatacaagga aaaaaaaaat 16260
cctaaaaaaa aaaaaaaaaa aaaaaaaaag tacaaaaaaa aaaaaaaatt tttttttttt 16320
tttttttttt tttttttttt tttttttttt tttttttttt tttttttttt tttttttttt 16380
tttttttttt tttttttttt tttttttttt tttttttttt tttttttttt tttttttttt 16440
tttttttttt tttttttttt tttttttttt tttttttttt tttttttttt tttttttttt 16500
tttttttttt tttttttttt tttttttttt tttttttttt tttttttttt tttttttttt 16560
tttttttttt tttttttttt tttttttttt tttttttttt tttttttttt tttttttttt 16620
tttttttttt ttttttttta taattatggt ttcggccgag cctagacggt cacgacgata 16680
accatgagtc agacgctcag tccatccttc gctcattgcc acgctcagtc ggtcgtacct 16740
aaaaaaaaaa aaaaaaaaaa aaaaaaaagt ttcggccgag cctagacggt cacgacgata 16800
accatgagtc agacgctcag tccatccttc gctcattgcc acgctcagtc ggtcgtacct 16860
aaaaaaaaaa aaaaaaaaaa aaaaaaaagt ttcggccgag cctagacggt cacgacgata 16920
accatgagtc agacgctcag tccatccttc gctcattgcc acgctcagtc ggtcgtacct 16980
aaaaaaaaaa aaaaaaaaaa aaaaaaaaag acagaaagat agttaaaaaa aaaaaaaaaa 17040
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 17100
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaagggg 17148

Claims (11)

1.一种利用DNA进行信息存储的方法,其包括(1)将计算机中的原始文件信息转换为A、T、C、G四种脱氧核糖核苷酸表示的DNA全序列;(2)将步骤(1)所得DNA全序列打断分成多个DNA片段,然后分别将多个DNA片段进行组织构建获得多个输出DNA序列;(3)根据输出DNA序列合成相应的人工DNA序列并进行保存,其特征在于:步骤(1)中,读取原始文件信息的二进制信息,将其转换为四进制,并进而编码转换成DNA全序列,其中所述转换关系为:二进制代码00、01、10、11分别对应转换为A、T、C、G四种脱氧核糖核苷酸;步骤(2)中,各所述输出DNA序列包括由各所述DNA片段构成的插入核苷酸编码序列、分别位于所述插入核苷酸编码序列两端用于扩增和测序的侧翼引物序列以及位于各所述侧翼引物序列内侧用于指示信息恢复过程中数据块的位置的索引编码序列,所述输出DNA序列的长度为90-110nt。
2.根据权利要求1所述的利用DNA进行信息存储的方法,其特征在于:步骤(2)中,所述输出DNA序列的长度为100nt。
3.根据权利要求1或2所述的利用DNA进行信息存储的方法,其特征在于:步骤(2)中,各所述侧翼引物序列的长度为18-22nt,各所述索引编码序列长度为6-10nt。
4.根据权利要求1所述的利用DNA进行信息存储的方法,其特征在于:当所述插入核苷酸编码序列、两侧翼引物序列、两索引编码序列的长度之和小于设定的输出DNA序列的长度时,在末端用随机序列补足。
5.根据权利要求1所述的利用DNA进行信息存储的方法,其特征在于:步骤(2)中, 按照同一设定序列长度对所述DNA全序列进行打断,且所述同一设定序列长度为36-52nt。
6.根据权利要求1或5所述的利用DNA进行信息存储的方法,其特征在于:步骤(2)中,所述打断为无重叠打断。
7.根据权利要求1所述的利用DNA进行信息存储的方法,其特征在于:步骤(2)中,所述DNA片段的长度为52nt以内。
8.根据权利要求7所述的利用DNA进行信息存储的方法,其特征在于:步骤(2)中,所述DNA片段的长度为44nt以内。
9.根据权利要求1所述的利用DNA进行信息存储的方法,其特征在于:步骤(2)中,按照序列长度为44nt对所述DNA全序列进行无重叠打断,得到的所述DNA片段的长度为44nt以内,所述输出DNA序列的长度为100nt,各所述侧翼引物序列的长度为20nt,各所述索引编码序列长度为8nt,当所述插入核苷酸编码序列、两侧翼引物序列、两索引编码序列的长度之和小于100nt时,在末端用随机序列补足。
10.根据权利要求1所述的利用DNA进行信息存储的方法,其特征在于:步骤(3)中,利用寡核苷酸合成仪制备DNA文库,并储存在基因芯片上。
11.根据权利要求1所述的利用DNA进行信息存储的方法,其特征在于:所述进行信息存储的方法还包括对DNA芯片上的数据进行读取,读取步骤如下:首先,将基因芯片上的DNA洗脱,通过PCR法扩增整个文库,以获取需要读取的序列;然后,使用NGS技术测序,只读取预期的输出DNA序列长度的条形码序列;进一步地,提取获得的测序结果,去除首尾引物序列和索引序列,按照索引序列所指,恢复数据块位置;最后,将碱基序列转换为四进制信息,进一步再转换为二进制的计算机信息,即完成DNA碱基序列在计算机上的读取。
CN201710086096.1A 2017-02-17 2017-02-17 一种利用dna进行信息存储的方法 Pending CN106845158A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710086096.1A CN106845158A (zh) 2017-02-17 2017-02-17 一种利用dna进行信息存储的方法
PCT/CN2018/076721 WO2018149405A1 (zh) 2017-02-17 2018-02-13 信息存储和读取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710086096.1A CN106845158A (zh) 2017-02-17 2017-02-17 一种利用dna进行信息存储的方法

Publications (1)

Publication Number Publication Date
CN106845158A true CN106845158A (zh) 2017-06-13

Family

ID=59128444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710086096.1A Pending CN106845158A (zh) 2017-02-17 2017-02-17 一种利用dna进行信息存储的方法

Country Status (2)

Country Link
CN (1) CN106845158A (zh)
WO (1) WO2018149405A1 (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149405A1 (zh) * 2017-02-17 2018-08-23 苏州泓迅生物科技股份有限公司 信息存储和读取的方法
CN109300508A (zh) * 2017-07-25 2019-02-01 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
WO2019037117A1 (zh) * 2017-08-25 2019-02-28 深圳华大基因研究院 编码/解码方法、装置和数据处理装置
CN109460822A (zh) * 2018-11-19 2019-03-12 天津大学 基于dna的信息存储方法
WO2019080653A1 (zh) * 2017-10-25 2019-05-02 深圳华大生命科学研究院 编码/解码方法、编码/解码器和存储方法、装置
CN109830263A (zh) * 2019-01-30 2019-05-31 东南大学 一种基于寡核苷酸序列编码存储的dna存储方法
CN110289083A (zh) * 2019-06-26 2019-09-27 苏州泓迅生物科技股份有限公司 一种图像重构方法及装置
WO2019196439A1 (en) * 2018-04-13 2019-10-17 The Hong Kong Polytechnic University Data storage using peptides
CN110684791A (zh) * 2019-11-15 2020-01-14 天津大学 一种利用dna在体内存储信息的方法
CN111091876A (zh) * 2019-12-16 2020-05-01 中国科学院深圳先进技术研究院 一种dna存储方法、系统及电子设备
CN111243670A (zh) * 2020-01-23 2020-06-05 天津大学 一种满足生物约束的dna信息存储编码方法
WO2020132935A1 (zh) * 2018-12-26 2020-07-02 深圳华大生命科学研究院 一种定点编辑存储有数据的核酸序列的方法及装置
CN111680797A (zh) * 2020-05-08 2020-09-18 中国科学院计算技术研究所 一种dna活字印刷机、基于dna的数据存储设备和方法
CN112079893A (zh) * 2020-09-23 2020-12-15 南京原码科技合伙企业(有限合伙) 一种基于固相化学合成法合成dna存储所需文本的方法
CN112527736A (zh) * 2020-12-09 2021-03-19 中国科学院深圳先进技术研究院 基于dna的数据存储方法、数据恢复方法及终端设备
US10956806B2 (en) 2019-06-10 2021-03-23 International Business Machines Corporation Efficient assembly of oligonucleotides for nucleic acid based data storage
CN112582030A (zh) * 2020-12-18 2021-03-30 广州大学 一种基于dna存储介质的文本存储方法
WO2021056167A1 (zh) * 2019-09-24 2021-04-01 深圳华大生命科学研究院 信息编码和解码方法、装置、存储介质以及信息存储和解读方法
CN112711935A (zh) * 2020-12-11 2021-04-27 中国科学院深圳先进技术研究院 编码方法、解码方法、装置及计算机可读存储介质
CN112749247A (zh) * 2019-10-31 2021-05-04 中国科学院深圳先进技术研究院 文本信息存储和读取方法及其装置
CN113782102A (zh) * 2021-08-13 2021-12-10 深圳先进技术研究院 Dna数据的存储方法、装置、设备及可读存储介质
CN114058471A (zh) * 2020-07-29 2022-02-18 东南大学 负载了dna存储数据的数据存储装置、制备方法和读数方法
TWI770247B (zh) * 2018-08-03 2022-07-11 大陸商南京金斯瑞生物科技有限公司 核酸用於資料儲存之方法、及其非暫時性電腦可讀儲存介質、系統及電子裝置
WO2023272499A1 (zh) * 2021-06-29 2023-01-05 中国科学院深圳先进技术研究院 编码方法、解码方法、装置、终端设备及可读存储介质
WO2023015550A1 (zh) * 2021-08-13 2023-02-16 深圳先进技术研究院 Dna数据的存储方法、装置、设备及可读存储介质
WO2023173842A1 (zh) * 2022-03-14 2023-09-21 深圳先进技术研究院 Dna编码方法、解码方法、装置、终端设备及介质
US11854668B2 (en) 2018-07-26 2023-12-26 Evonetix Ltd Accessing data storage provided using double-stranded nucleic acid molecules
WO2024027620A1 (zh) * 2022-08-01 2024-02-08 上海交通大学 一种数据存储介质及其应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149510A1 (en) * 2013-06-03 2015-05-28 Good Start Genetics, Inc. Methods and systems for storing sequence read data
CN104850760A (zh) * 2015-03-27 2015-08-19 苏州泓迅生物科技有限公司 带有编码信息的人工合成dna存储介质及信息的存储读取方法和应用
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
CN106055927A (zh) * 2016-05-31 2016-10-26 广州麦仑信息科技有限公司 mRNA信息的二进制存储方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013269536B2 (en) * 2012-06-01 2018-11-08 European Molecular Biology Laboratory High-capacity storage of digital information in DNA
CN108875312A (zh) * 2012-07-19 2018-11-23 哈佛大学校长及研究员协会 利用核酸存储信息的方法
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149510A1 (en) * 2013-06-03 2015-05-28 Good Start Genetics, Inc. Methods and systems for storing sequence read data
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
CN104850760A (zh) * 2015-03-27 2015-08-19 苏州泓迅生物科技有限公司 带有编码信息的人工合成dna存储介质及信息的存储读取方法和应用
CN106055927A (zh) * 2016-05-31 2016-10-26 广州麦仑信息科技有限公司 mRNA信息的二进制存储方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨柳 等: ""深入浅出DNA分子计算"", 《电脑知识与技术》 *

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149405A1 (zh) * 2017-02-17 2018-08-23 苏州泓迅生物科技股份有限公司 信息存储和读取的方法
CN110945595B (zh) * 2017-07-25 2023-08-18 南京金斯瑞生物科技有限公司 基于dna的数据存储和检索
CN109300508A (zh) * 2017-07-25 2019-02-01 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
CN109300508B (zh) * 2017-07-25 2020-08-11 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
CN110945595A (zh) * 2017-07-25 2020-03-31 南京金斯瑞生物科技有限公司 基于dna的数据存储和检索
CN111095423A (zh) * 2017-08-25 2020-05-01 深圳华大生命科学研究院 编码/解码方法、装置和数据处理装置
WO2019037117A1 (zh) * 2017-08-25 2019-02-28 深圳华大基因研究院 编码/解码方法、装置和数据处理装置
CN111279422A (zh) * 2017-10-25 2020-06-12 深圳华大生命科学研究院 编码/解码方法、编码/解码器和存储方法、装置
CN111279422B (zh) * 2017-10-25 2023-12-22 深圳华大生命科学研究院 编码/解码方法、编码/解码器和存储方法、装置
WO2019080653A1 (zh) * 2017-10-25 2019-05-02 深圳华大生命科学研究院 编码/解码方法、编码/解码器和存储方法、装置
WO2019196439A1 (en) * 2018-04-13 2019-10-17 The Hong Kong Polytechnic University Data storage using peptides
CN112313749A (zh) * 2018-04-13 2021-02-02 香港理工大学 使用肽的数据存储
US11315023B2 (en) 2018-04-13 2022-04-26 The Hong Kong Polytechnic University Data storage using peptides
TWI828700B (zh) * 2018-07-26 2024-01-11 英商伊門勒汀斯有限公司 用於存取使用雙鏈核酸分子設置的資料存儲的方法、電腦可讀取程式和資料結構
US11854668B2 (en) 2018-07-26 2023-12-26 Evonetix Ltd Accessing data storage provided using double-stranded nucleic acid molecules
TWI770247B (zh) * 2018-08-03 2022-07-11 大陸商南京金斯瑞生物科技有限公司 核酸用於資料儲存之方法、及其非暫時性電腦可讀儲存介質、系統及電子裝置
CN109460822A (zh) * 2018-11-19 2019-03-12 天津大学 基于dna的信息存储方法
WO2020132935A1 (zh) * 2018-12-26 2020-07-02 深圳华大生命科学研究院 一种定点编辑存储有数据的核酸序列的方法及装置
CN113228193A (zh) * 2018-12-26 2021-08-06 深圳华大生命科学研究院 一种定点编辑存储有数据的核酸序列的方法及装置
CN109830263A (zh) * 2019-01-30 2019-05-31 东南大学 一种基于寡核苷酸序列编码存储的dna存储方法
US10956806B2 (en) 2019-06-10 2021-03-23 International Business Machines Corporation Efficient assembly of oligonucleotides for nucleic acid based data storage
WO2020258647A1 (zh) * 2019-06-26 2020-12-30 苏州泓迅生物科技股份有限公司 一种图像重构方法及装置
CN110289083A (zh) * 2019-06-26 2019-09-27 苏州泓迅生物科技股份有限公司 一种图像重构方法及装置
CN114730616A (zh) * 2019-09-24 2022-07-08 深圳华大生命科学研究院 信息编码和解码方法、装置、存储介质以及信息存储和解读方法
WO2021056167A1 (zh) * 2019-09-24 2021-04-01 深圳华大生命科学研究院 信息编码和解码方法、装置、存储介质以及信息存储和解读方法
CN112749247A (zh) * 2019-10-31 2021-05-04 中国科学院深圳先进技术研究院 文本信息存储和读取方法及其装置
CN112749247B (zh) * 2019-10-31 2023-08-18 中国科学院深圳先进技术研究院 文本信息存储和读取方法及其装置
CN110684791A (zh) * 2019-11-15 2020-01-14 天津大学 一种利用dna在体内存储信息的方法
CN111091876A (zh) * 2019-12-16 2020-05-01 中国科学院深圳先进技术研究院 一种dna存储方法、系统及电子设备
CN111091876B (zh) * 2019-12-16 2024-05-17 中国科学院深圳先进技术研究院 一种dna存储方法、系统及电子设备
CN111243670A (zh) * 2020-01-23 2020-06-05 天津大学 一种满足生物约束的dna信息存储编码方法
CN111680797A (zh) * 2020-05-08 2020-09-18 中国科学院计算技术研究所 一种dna活字印刷机、基于dna的数据存储设备和方法
CN111680797B (zh) * 2020-05-08 2023-06-06 中国科学院计算技术研究所 一种dna活字印刷机、基于dna的数据存储设备和方法
CN114058471A (zh) * 2020-07-29 2022-02-18 东南大学 负载了dna存储数据的数据存储装置、制备方法和读数方法
CN112079893A (zh) * 2020-09-23 2020-12-15 南京原码科技合伙企业(有限合伙) 一种基于固相化学合成法合成dna存储所需文本的方法
CN112079893B (zh) * 2020-09-23 2022-05-03 南京原码科技合伙企业(有限合伙) 一种基于固相化学合成法合成dna存储所需文本的方法
CN112527736B (zh) * 2020-12-09 2024-03-29 中国科学院深圳先进技术研究院 基于dna的数据存储方法、数据恢复方法及终端设备
CN112527736A (zh) * 2020-12-09 2021-03-19 中国科学院深圳先进技术研究院 基于dna的数据存储方法、数据恢复方法及终端设备
CN112711935A (zh) * 2020-12-11 2021-04-27 中国科学院深圳先进技术研究院 编码方法、解码方法、装置及计算机可读存储介质
CN112711935B (zh) * 2020-12-11 2023-04-18 中国科学院深圳先进技术研究院 编码方法、解码方法、装置及计算机可读存储介质
CN112582030B (zh) * 2020-12-18 2023-08-15 广州大学 一种基于dna存储介质的文本存储方法
CN112582030A (zh) * 2020-12-18 2021-03-30 广州大学 一种基于dna存储介质的文本存储方法
WO2023272499A1 (zh) * 2021-06-29 2023-01-05 中国科学院深圳先进技术研究院 编码方法、解码方法、装置、终端设备及可读存储介质
WO2023015550A1 (zh) * 2021-08-13 2023-02-16 深圳先进技术研究院 Dna数据的存储方法、装置、设备及可读存储介质
CN113782102B (zh) * 2021-08-13 2022-12-13 中科碳元(深圳)生物科技有限公司 Dna数据的存储方法、装置、设备及可读存储介质
CN113782102A (zh) * 2021-08-13 2021-12-10 深圳先进技术研究院 Dna数据的存储方法、装置、设备及可读存储介质
WO2023173842A1 (zh) * 2022-03-14 2023-09-21 深圳先进技术研究院 Dna编码方法、解码方法、装置、终端设备及介质
WO2023173837A1 (zh) * 2022-03-14 2023-09-21 深圳先进技术研究院 Dna编码方法、解码方法、装置、终端设备及介质
WO2024027620A1 (zh) * 2022-08-01 2024-02-08 上海交通大学 一种数据存储介质及其应用

Also Published As

Publication number Publication date
WO2018149405A1 (zh) 2018-08-23

Similar Documents

Publication Publication Date Title
CN106845158A (zh) 一种利用dna进行信息存储的方法
AU2018247323B2 (en) High-Capacity Storage of Digital Information in DNA
US11931713B2 (en) Oligonucleotide data storage on solid supports
EP4424824A2 (en) Nucleic acid-based data storage
KR20200071720A (ko) Dna-기반 데이터 저장
CN109072243A (zh) 通过crispr-cas系统进行的分子记录的方法和系统
Simpson The genomic organization of guide RNA genes in kinetoplastid protozoa: several conundrums and their solutions
US11845982B2 (en) Key-value store that harnesses live micro-organisms to store and retrieve digital information
Jespersen et al. Impact of genome reduction in microsporidia
Ezekannagha et al. Design considerations for advancing data storage with synthetic DNA for long-term archiving
CN104313172A (zh) 一种大量样本同时分型的方法
EP3491147B1 (en) Methods for removal of adaptor dimers from nucleic acid sequencing preparations
WO2019084245A1 (en) METHODS AND COMPOSITIONS FOR PREPARING NUCLEIC ACID LIBRARIES
Garafutdinov et al. Encoding of non-biological information for its long-term storage in DNA
Weide-Zaage Dna Digital-storage: Advantages, Approach and Technical Implementation
Maes et al. La révolution de l’ADN: biocompatible and biosafe DNA data storage
Jiménez-Sánchez DNA computer code based on expanded genetic alphabet
Wang et al. DNA Digital Data Storage based on Distributed Method
최영재 High Information Capacity and Low Cost DNA-based Data Storage through Additional Encoding Characters
EP4038616A1 (en) Biocompatible nucleic acids for digital data storage
Clément et al. An updated version of the Madagascar periwinkle genome
Kari et al. A computer scientist's guide to molecular biology
EP4451278A1 (en) Method and system for storing information using dna
Wang et al. Cost-effective DNA storage with DNA movable type
CN110616252A (zh) 基于突变-编码文库的高通量筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613