CN109943560A - 基于dna载体的汉字信息存储方法 - Google Patents

基于dna载体的汉字信息存储方法 Download PDF

Info

Publication number
CN109943560A
CN109943560A CN201811400456.1A CN201811400456A CN109943560A CN 109943560 A CN109943560 A CN 109943560A CN 201811400456 A CN201811400456 A CN 201811400456A CN 109943560 A CN109943560 A CN 109943560A
Authority
CN
China
Prior art keywords
sequence
dna
information
primer
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811400456.1A
Other languages
English (en)
Inventor
郝豆豆
张勇群
施静
付苏宏
张鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's Government Of Tibet Autonomous Region In Chengdu Office Hospital
Original Assignee
People's Government Of Tibet Autonomous Region In Chengdu Office Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People's Government Of Tibet Autonomous Region In Chengdu Office Hospital filed Critical People's Government Of Tibet Autonomous Region In Chengdu Office Hospital
Priority to CN201811400456.1A priority Critical patent/CN109943560A/zh
Publication of CN109943560A publication Critical patent/CN109943560A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供基于DNA载体的汉字信息存储方法,包括以下过程:S1:将文字和标点符号分别用四个碱基为一组的密码来编码,从而将文字生成编码信息表;S2:依据编码信息,将文字转换为核酸序列,核酸序列中单核苷酸重复不大于6bp,GC含量在45%~60%之间;S3:在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息信号丢的失核苷酸序列,此序列随机合成,只保证序列中单核苷酸重复不大于3bp;S4:引物结合区间位于存储信息区间的上下游两端,选用的PRC引物为引物结合区间位于存储信息区间的上下游两端,选用的PRC引物为正向引物5’‑TACGCTATGAACCACACTTA‑3’和反向引物5’‑TAACATCAGACCTCTTCGCA‑3’;S5:按照设计好的核苷酸序列顺序合成核苷酸片段,人工合成的编码信息的DNA序列被链接到质粒上,然后转化到细菌中。

Description

基于DNA载体的汉字信息存储方法
技术领域
本发明涉及DNA存储技术领域,具体涉及一种基于DNA载体的汉字信息存储方法。
背景技术
随着社会的不断进步,人类产生的数据信息以指数式增长,目前比较流行的数据存储介质主要包括光盘、磁带、硬盘、U盘、SM卡、记忆棒等。这些存储介质虽然在不断升级,但是其存储容量仍然难以满足指数式增长的大数据,同时这些存储介质使用寿命较短,最长能使用几十年,几十年以后需要将永久保存的数据转入到新的存储设备中进行储存,在转入过程中由于数据容量大易造成数据的丢失。同时,需要对存储设备进行持续的维护和保养,花费大量的财力。废弃的存储设备很难降解,对环境造成污染。因此需要一种存储信息容量更大、体积更小、保存和维护方便的存储介质。
DNA是生物体中将遗传信息进行长期储存的介质。DNA的这个特征类似于将数字信息进行存储的介质。因此,将数字信息存储在DNA中是一个具有吸引力的想法。科学家能从古化石中成功提取到生物DNA,进而使对生物演化的研究成为可能。这也充分说明DNA能够存储信息的时间非常长,DNA也容易保存。所以在干燥,寒冷和黑暗的条件下,存储信息的DNA产品可以使用超过1万年,DNA可能是保存不需要经常访问的信息的理想方法,因此非常适合存储图书馆和政府记录。
同时由于DNA为双螺旋结构,所以密度大,体积小,能够存储的信息容量非常大,满足目前人类对大数据长期存储的需求。将信息存储到DNA中可以实现对信息的加密,没有引物序列信息,DNA中碱基序列信息不容易被扩增和测序,即使测序成功,也不知道DNA序列与信息之间对应的编码方式,因此也难以实现信息的还原,所以将信息存储到DNA中具有很高的保密性。虽然DNA合成和测序的成本较高,限制了DNA存储技术的广泛应用,但是DNA合成和测序的价格以指数式下降,远远比传统的存储设备价格下降快很多。DNA是一种新型的有机存储介质,在未来有很大的应用潜能。
发明内容
本发明目的在于提供一种基于DNA载体的汉字信息存储方法,构建了一种分子数据存储系统,同时利用DNA存储信息的优势还在于信息保密程度高,不容易被破解。
为了实现上述目的,本发明采取的技术方案如下:
基于DNA载体的汉字信息存储方法,包括以下过程:
S1:将文字和标点符号分别用四个碱基为一组的密码来编码,从而将文字生成编码信息表;
S2:依据编码信息,将文字转换为核酸序列,核酸序列中单核苷酸重复不大于6bp,GC含量在45%~60%之间;
S3:在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息丢的失核苷酸序列,此序列随机合成,只保证序列中单核苷酸重复不大于3bp;
S4:引物结合区间位于存储信息区间的上下游两端,选用的PRC引物为正向引物 5’-TACGCTATGAACCACACTTA-3’和反向引物 5’-TAACATCAGACCTCTTCGCA-3’;
S5: 按照设计好的核苷酸序列顺序合成核苷酸片段,人工合成的编码信息的DNA序列被链接到质粒上,然后转化到细菌中。
作为一种优选技术方案,信息解码的过程包括以下步骤:
A1:将上述细菌进行培养,提取质粒,进行聚合酶链式反应;反应体系为30μl: mix: 20μl;正向引物: 1.5μl;反向引物: 1.5μl;DNA: 2μl;ddH2O: 5μl;反应条件:95℃, 5min;进行30个循环,循环为95℃, 30s;57℃, 30s; 72℃, 30s,然后再72℃, 5min。
A2:将扩增产物进行琼脂糖凝胶电泳、成像鉴定及测序。
作为一种优选技术方案,增加核苷酸序列的副本,从而进行多次测序,排除干扰。本发明与现有技术相比,具有以下有益效果:
本发明提供了基于DNA载体的汉字信息存储方法,利用DNA长期存储数据的潜力、可以作为档案存储的介质、存储时间可长达数万年的特性。通过将合成的编码数据DNA分子转入到活生物体中,编码数据可以通过活生物体进行复制和再生。可以通过增加序列副本适当的增加冗余数据,通过测序后的序列比对来纠正可能会因为生物体的自然进化、繁衍而发生的DNA突变、缺失、插入;可以利用CRISPR技术实现对存储数据DNA的重新编写,通过添加序列标签实现对信息的随机提取。
本发明对聚合酶链式反应的参数进行设计,使得测序时条带清晰,且保证能够完全解码。
附图说明
图1 为实施例中扩增产物凝胶电泳图。
图2为实施例中部分序列测序图。
图3为实施例中所述存储方法的流程示意图。
具体实施方式
本发明公开了基于DNA载体的文字信息存储方法,本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的方法和应用进行改动或适当变更与组合,来实现和应用本发明技术。
实施例
本实施例以将进酒诗歌为例来说明基于DNA载体的汉字信息存储方法。
一种基于DNA载体的汉字信息存储方法,包括以下步骤:
S1:将文字和标点符号分别用四个碱基为一组的密码来编码,从而将文字生成编码信息表;
编码信息表
序号 信息 密码 序号 信息 密码 序号 信息 密码 序号 信息 密码
1 CTAT 36 CGGA 71 AGCC 106 ATCG
2 CGAG 37 GATA 72 AGCG 107 ATGA
3 GACA 38 GATC 73 AGGA 108 ATGT
4 GTCG 39 使 GATG 74 AGGT 109 ATGG
5 GCGT 40 GACT 75 AGGC 110 ACAT
6 AGTT 41 GACG 76 TAAT 111 ACAC
7 TACT 42 GAGA 77 TAAG 112 ACAG
8 TCCT 43 GAGT 78 TATA 113 ACTA
9 GAAC 44 GAGC 79 TATG 114 ACTT
10 ATGC 45 GTAT 80 TAGA 115 ACTC
11 AGAT 46 GTAC 81 TAGT 116 ACTG
12 TCAT 47 GTAG 82 TTAC 117 ACGA
13 CATA 48 GTCA 83 TTAG 118 ACGT
14 CACA 49 GTCT 84 TTGC 119 AGAC
15 CACT 50 GTGA 85 TCAA 120 AGCA
16 CACG 51 GTGT 86 TCAC 121 TAAC
17 CAGA 52 GTGC 87 TCTC 122 TATC
18 CAGT 53 GCAT 88 TCTG 123 TACA
19 CAGC 54 GCAC 89 TCCA 124 TACC
20 CTAC 55 GCAG 90 TCCG 125 TACG
21 CTAG 56 GCTA 91 TCGC 126 TAGC
22 CTCA 57 GCTC 92 TGAA 127 TAGG
23 CTCT 58 GCTG 93 TGAT 128 TTGA
24 CTCG 59 GCGA 94 TGTC 129 TCAG
25 CTGA 60 GCGC 95 CAAG 130 TCTA
26 CTGT 61 ATAC 96 CTTA 131 TCGA
27 CTGC 62 ATAG 97 CTTG 132 TCGT
28 CGAT 63 ATCA 98 GAAT 133 TGAC
29 CGAC 64 ACCA 99 AATG 134 TGAG
30 CGTA 65 ACCT 100 AATC 135 TGTA
31 CGTC 66 ACGC 101 AACT 136 TGCA
32 CGTG 67 ACGG 102 AACG 137 TGCT
33 CGCA 68 AGAG 103 AAGT 138 TGCG
34 CGCT 69 AGTA 104 ATTC 139 CATC
35 CGCG 70 AGCT 105 ATCT 140 CATG
S2:依据编码信息,将文字转换为核酸序列,长度为845bp,GC含量为51.78%,核酸序列中单核苷酸重复不大于6bp;核酸序列为:
AGCCAGCGAGGATGCTCTCACTATCGAGGACATGCGGTCGGCGTAGTTTACTTCCTGAACATGCTGCGAGATTCATCATACACACGAGCACTCACGCATCCTATCGAGGACATGCGCAGACAGTCAGCCTACCTAGCTCACTCTTGCGCTCGCTGACTGTCTGCCGATCGACCGTACATCCGTCCGTGCGCACGCTCGCGCGGAGATATGCGGATCGATGGACTGACGGAGAGAGTGAGCCATCTCCTCGTGGTATGTACGTAGGTCAGTCTTGCGGTGAGACTGTGTCGGAGTGCCACTATGCCATCGCATGCACGCAGGCTAGCTCGCTGGCGATGCGGCGCCGCGATACATAGATCAACCAACCTCATCACGCACGGAGAGTGCGAGTAAGCTCGTGTGCGAGCCAGCGAGGATGCGACCTGATCAGGTCATCAGGCCTATTAATATACTAAGTGCGTATACTATGCTGGTATTATGTAGATAGTCATCTTACTTAGTTGCTCAACGAGTCACTCTCTGCGTCTGTCCATCCGTCGCCGAGCACTTGAACATCTGATATGCTGTCCAAGCTTACTTGGAATTGCGAATGGTCAATAGAATCAACTAACGAAGTCATCATTCATCTATCGATGAATGTATGGGCGATGCGACATAGGAACACGTGAACAGGATAACTACATCACTTCGTCACTCGCTGACTGACGAACGTTGCGAGACCGCGAGCATAACGAGTCTATTATCCATCTACATACCTACGCATGGTGAGACTTAGCTGCGTAGGTTGAAGCCTCAGTCTATCGAAGGATGCGAGGCTCGTTGACTGAGTGTATGATTGCACATC
S3: 在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息信号丢的失核苷酸序列,此序列随机合成,只保证序列中单核苷酸重复不大于3bp;本实施例中,两个序列分别为序列分别为:
ATGCGATACTTGGTGTGAAT和ACGCTTCTCCAGACTACAAT;
S4:引物结合区间位于存储信息区间的上下游两端,选用的PRC引物为正向引物5’-TACGCTATGAACCACACTTA-3’和反向引物5’-TAACATCAGACCTCTTCGCA-3’;
S5:按照设计好的核苷酸序列顺序合成核苷酸片段,人工合成的编码信息的DNA序列被链接到质粒上,然后转化到细菌中。
本实施例中质粒为pUC57,细菌为Glycerol-Top10;pUC57来自科雷生物科技有限公司,Glycerol-Top10来自于北京百奥莱博科技有限公司。
上述步骤S4中设计的引物不需要考虑保守性,因为通过增加核苷酸序列副本来增加序列的冗余度,从而在测序时纠正突变等问题。
经过上述步骤便实现了将进酒诗歌在DNA中的信息存储。
进一步的,将存储的将进酒诗歌进行解码的过程包括以下步骤:
A1:将上述细菌进行培养,提取质粒,进行聚合酶链式反应;反应体系为30μl: mix: 20μl;引物F: 1.5μl,引物R:1.5μl, DNA:2μl,ddH2O: 5μl;反应条件:95℃, 5min;然后再进行30个循环,循环为95℃, 30s;57℃,30s; 72℃,30s,然后再72℃, 5min。
A2: 将扩增产物进行琼脂糖凝胶电泳、成像鉴定及测序。
如图1所示,为步骤A2中凝胶电泳的电泳图,可以清楚看见条带,如图2所示,可以看到扩增的成功,这是因为上述聚合酶链式反应中各参数起到的作用,确保能够成功解析信息。
由于在细菌内存储的信息可能会发生突变、插入或缺失,从而导致信息还原失败。所以需要进行多拷贝测序,通过序列比对方法获取准确、完整的序列,进一步增强数据的可靠性。通过测序获得核酸序列后,对照编码信息表对核苷酸进行解码,将核酸序列还原为诗歌“将进酒”文字信息,成功完成解码过程,恢复“将进酒”诗歌内容。
需要强调的是由于,本实施例中进行信息存储的核酸序列、引物及防信息丢失的核苷酸序列皆是用传统的化学合成方法合成,由于是现有技术,本发明中不作详细说明。
凝胶电泳、成像鉴定及测序都是现有技术,因此不作详细说明。
序列表
<110> 西藏自治区人民政府驻成都办事处医院
<120> 基于DNA载体的汉字信息存储方法
<160> 5
<170> PatentIn version 3.3
<210> 1
<211> 844
<212> DNA
<213> 人工序列
<400> 1
agccagcgag gatgctctca ctatcgagga catgcggtcg gcgtagttta cttcctgaac 60
atgctgcgag attcatcata cacacgagca ctcacgcatc ctatcgagga catgcgcaga 120
cagtcagcct acctagctca ctcttgcgct cgctgactgt ctgccgatcg accgtacatc 180
cgtccgtgcg cacgctcgcg cggagatatg cggatcgatg gactgacgga gagagtgagc 240
catctcctcg tggtatgtac gtaggtcagt cttgcggtga gactgtgtcg gagtgccact 300
atgccatcgc atgcacgcag gctagctcgc tggcgatgcg gcgccgcgat acatagatca 360
accaacctca tcacgcacgg agagtgcgag taagctcgtg tgcgagccag cgaggatgcg 420
acctgatcag gtcatcaggc ctattaatat actaagtgcg tatactatgc tggtattatg 480
tagatagtca tcttacttag ttgctcaacg agtcactctc tgcgtctgtc catccgtcgc 540
cgagcacttg aacatctgat atgctgtcca agcttacttg gaattgcgaa tggtcaatag 600
aatcaactaa cgaagtcatc attcatctat cgatgaatgt atgggcgatg cgacatagga 660
acacgtgaac aggataacta catcacttcg tcactcgctg actgacgaac gttgcgagac 720
cgcgagcata acgagtctat tatccatcta catacctacg catggtgaga cttagctgcg 780
taggttgaag cctcagtcta tcgaaggatg cgaggctcgt tgactgagtg tatgattgca 840
catc 844
<210> 2
<211> 20
<212> DNA
<213> 人工序列
<400> 2
tacgctatga accacactta 20
<210> 3
<211> 20
<212> DNA
<213> 人工序列
<400> 3
taacatcaga cctcttcgca 20
<210> 4
<211> 20
<212> DNA
<213> 人工序列
<400> 4
atgcgatact tggtgtgaat 20
<210> 5
<211> 20
<212> DNA
<213> 人工序列
<400> 5
acgcttctcc agactacaat 20

Claims (3)

1.基于DNA载体的汉字信息存储方法,其特征在于,包括以下过程:
S1:将文字和标点符号分别用四个碱基为一组的密码来编码,从而将文字生成编码信息表;
S2:依据编码信息,将文字转换为核酸序列,核酸序列中单核苷酸重复不大于6bp,GC含量在45%~60%之间;
S3:在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息丢的失核苷酸序列,此序列随机合成,只保证序列中单核苷酸重复不大于3bp;
S4:引物结合区间位于存储信息区间的上下游两端,选用的PRC引物为正向引物 5’-TACGCTATGAACCACACTTA-3’和反向引物 5’-TAACATCAGACCTCTTCGCA-3’;
S5: 按照设计好的核苷酸序列顺序合成核苷酸片段,人工合成的编码信息的DNA序列被链接到质粒上,然后转化到细菌中。
2.根据权利要求1所述的基于DNA载体的汉字信息存储方法,其特征在于,信息解码的过程包括以下步骤:
A1:将上述细菌进行培养,提取质粒,进行聚合酶链式反应;反应体系为30μl: mix: 20μl;正向引物: 1.5μl;反向引物: 1.5μl;DNA: 2μl;ddH2O: 5μl;反应条件:95℃, 5min;进行30个循环,循环为95℃, 30s;57℃, 30s; 72℃, 30s,然后再72℃, 5min;
A2:将扩增产物进行琼脂糖凝胶电泳、成像鉴定及测序。
3.根据权利要求2所述的基于DNA载体的汉字信息存储方法,其特征在于,增加核苷酸序列的副本,从而进行多次测序,排除干扰。
CN201811400456.1A 2018-11-22 2018-11-22 基于dna载体的汉字信息存储方法 Pending CN109943560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811400456.1A CN109943560A (zh) 2018-11-22 2018-11-22 基于dna载体的汉字信息存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811400456.1A CN109943560A (zh) 2018-11-22 2018-11-22 基于dna载体的汉字信息存储方法

Publications (1)

Publication Number Publication Date
CN109943560A true CN109943560A (zh) 2019-06-28

Family

ID=67005885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811400456.1A Pending CN109943560A (zh) 2018-11-22 2018-11-22 基于dna载体的汉字信息存储方法

Country Status (1)

Country Link
CN (1) CN109943560A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442472A (zh) * 2019-07-03 2019-11-12 天津大学 一种dna数据存储混合错误纠正与数据恢复方法
CN110684791A (zh) * 2019-11-15 2020-01-14 天津大学 一种利用dna在体内存储信息的方法
CN112749247A (zh) * 2019-10-31 2021-05-04 中国科学院深圳先进技术研究院 文本信息存储和读取方法及其装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003025123A2 (en) * 2001-08-28 2003-03-27 Mount Sinai School Of Medecine Dna: a medium for long-term information storage specification
WO2017190297A1 (zh) * 2016-05-04 2017-11-09 深圳华大基因研究院 利用dna存储文本信息的方法、其解码方法及应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003025123A2 (en) * 2001-08-28 2003-03-27 Mount Sinai School Of Medecine Dna: a medium for long-term information storage specification
WO2017190297A1 (zh) * 2016-05-04 2017-11-09 深圳华大基因研究院 利用dna存储文本信息的方法、其解码方法及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HOANG HIEP NGUYEN 等: "Long-Term Stability and Integrity of Plasmid-Based DNA Data Storage", 《POLYMERS》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442472A (zh) * 2019-07-03 2019-11-12 天津大学 一种dna数据存储混合错误纠正与数据恢复方法
CN110442472B (zh) * 2019-07-03 2021-08-13 天津大学 一种dna数据存储混合错误纠正与数据恢复方法
CN112749247A (zh) * 2019-10-31 2021-05-04 中国科学院深圳先进技术研究院 文本信息存储和读取方法及其装置
CN112749247B (zh) * 2019-10-31 2023-08-18 中国科学院深圳先进技术研究院 文本信息存储和读取方法及其装置
CN110684791A (zh) * 2019-11-15 2020-01-14 天津大学 一种利用dna在体内存储信息的方法

Similar Documents

Publication Publication Date Title
CN109943560A (zh) 基于dna载体的汉字信息存储方法
US10839295B2 (en) Method for using DNA to store text information, decoding method therefor and application thereof
Ailenberg et al. An improved Huffman coding method for archiving text, images, and music characters in DNA
CN110427786A (zh) 一种用dna作为文字信息高效存储介质的方法
Sweet The English town, 1680-1840: government, society and culture
Trucksis et al. The Vibrio cholerae genome contains two unique circular chromosomes
ES2625941T3 (es) Secuencias de reconocimiento para meganucleasas derivadas de i-crei y sus usos
US20060024811A1 (en) Storing data encoded DNA in living organisms
CN107130299A (zh) 一种dna编码分子库及化合物筛选方法
CN102796728A (zh) 用于通过转座酶的dna片段化和标记的方法和组合物
KR970704038A (ko) 색소체 2-옥소글루타레이트/말레이트 트랜스로케이터를 코딩하는 dna 분자(dna molecules which code for a plastid 2-oxoglutarate/malate translocator)
CN104673784A (zh) 修剪式多位点组合装配
WO2003025123A2 (en) Dna: a medium for long-term information storage specification
KR20160001455A (ko) 데이터 저장용 dna 메모리 기술
CN109517817A (zh) 单元dna组合物的制备方法及dna连结体的制作方法
ATE312929T1 (de) Nukleotidsequenzen kodierend für das mdha gen aus corynebakterium glutamicum
Stein et al. A model for the origin of biological catalysis.
Aunger What's the matter with memes?
Garafutdinov et al. Encoding of non-biological information for its long-term storage in DNA
CN110684791A (zh) 一种利用dna在体内存储信息的方法
Vlček et al. Sequence of a 189-kb segment of the chromosome of Rhodobacter capsulatus SB1003
CN106636047A (zh) 一种催化丙氨酸脱羧的蛋白质及其基因和应用
Hakami et al. Review of big data storage based on DNA computing
CN113832147B (zh) 一种高效的大片段dna合成与扩增的pcr引物、方法及应用
Ahmad et al. Development of novel microsatellite markers for Alkanna tinctoria by comparative transcriptomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628