CN109943560A - 基于dna载体的汉字信息存储方法 - Google Patents
基于dna载体的汉字信息存储方法 Download PDFInfo
- Publication number
- CN109943560A CN109943560A CN201811400456.1A CN201811400456A CN109943560A CN 109943560 A CN109943560 A CN 109943560A CN 201811400456 A CN201811400456 A CN 201811400456A CN 109943560 A CN109943560 A CN 109943560A
- Authority
- CN
- China
- Prior art keywords
- sequence
- dna
- information
- primer
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 108020004414 DNA Proteins 0.000 claims abstract description 40
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 17
- 238000012163 sequencing technique Methods 0.000 claims abstract description 15
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 12
- 239000002773 nucleotide Substances 0.000 claims abstract description 11
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 241000894006 Bacteria Species 0.000 claims abstract description 9
- 239000013612 plasmid Substances 0.000 claims abstract description 8
- 239000002253 acid Substances 0.000 claims abstract description 6
- 239000002777 nucleoside Substances 0.000 claims abstract description 6
- 125000003835 nucleoside group Chemical group 0.000 claims abstract description 6
- 230000002441 reversible effect Effects 0.000 claims abstract description 6
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 6
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 5
- 238000011144 upstream manufacturing Methods 0.000 claims abstract description 5
- 239000012634 fragment Substances 0.000 claims abstract description 4
- 238000003752 polymerase chain reaction Methods 0.000 claims description 5
- 238000003384 imaging method Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000000246 agarose gel electrophoresis Methods 0.000 claims description 3
- 230000004087 circulation Effects 0.000 claims description 3
- 239000012154 double-distilled water Substances 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000004064 recycling Methods 0.000 claims description 3
- 238000001502 gel electrophoresis Methods 0.000 description 3
- 230000006820 DNA synthesis Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- JEOQACOXAOEPLX-WCCKRBBISA-N (2s)-2-amino-5-(diaminomethylideneamino)pentanoic acid;1,3-thiazolidine-4-carboxylic acid Chemical compound OC(=O)C1CSCN1.OC(=O)[C@@H](N)CCCN=C(N)N JEOQACOXAOEPLX-WCCKRBBISA-N 0.000 description 1
- 108010052418 (N-(2-((4-((2-((4-(9-acridinylamino)phenyl)amino)-2-oxoethyl)amino)-4-oxobutyl)amino)-1-(1H-imidazol-4-ylmethyl)-1-oxoethyl)-6-(((-2-aminoethyl)amino)methyl)-2-pyridinecarboxamidato) iron(1+) Proteins 0.000 description 1
- FMKJUUQOYOHLTF-OWOJBTEDSA-N (e)-4-azaniumylbut-2-enoate Chemical compound NC\C=C\C(O)=O FMKJUUQOYOHLTF-OWOJBTEDSA-N 0.000 description 1
- YRIZYWQGELRKNT-UHFFFAOYSA-N 1,3,5-trichloro-1,3,5-triazinane-2,4,6-trione Chemical compound ClN1C(=O)N(Cl)C(=O)N(Cl)C1=O YRIZYWQGELRKNT-UHFFFAOYSA-N 0.000 description 1
- BCOSEZGCLGPUSL-UHFFFAOYSA-N 2,3,3-trichloroprop-2-enoyl chloride Chemical compound ClC(Cl)=C(Cl)C(Cl)=O BCOSEZGCLGPUSL-UHFFFAOYSA-N 0.000 description 1
- JEPVUMTVFPQKQE-AAKCMJRZSA-N 2-[(1s,2s,3r,4s)-1,2,3,4,5-pentahydroxypentyl]-1,3-thiazolidine-4-carboxylic acid Chemical compound OC[C@H](O)[C@@H](O)[C@H](O)[C@H](O)C1NC(C(O)=O)CS1 JEPVUMTVFPQKQE-AAKCMJRZSA-N 0.000 description 1
- 102100025230 2-amino-3-ketobutyrate coenzyme A ligase, mitochondrial Human genes 0.000 description 1
- AWXGSYPUMWKTBR-UHFFFAOYSA-N 4-carbazol-9-yl-n,n-bis(4-carbazol-9-ylphenyl)aniline Chemical compound C12=CC=CC=C2C2=CC=CC=C2N1C1=CC=C(N(C=2C=CC(=CC=2)N2C3=CC=CC=C3C3=CC=CC=C32)C=2C=CC(=CC=2)N2C3=CC=CC=C3C3=CC=CC=C32)C=C1 AWXGSYPUMWKTBR-UHFFFAOYSA-N 0.000 description 1
- 241000023308 Acca Species 0.000 description 1
- 102100039819 Actin, alpha cardiac muscle 1 Human genes 0.000 description 1
- 108010087522 Aeromonas hydrophilia lipase-acyltransferase Proteins 0.000 description 1
- VWEWCZSUWOEEFM-WDSKDSINSA-N Ala-Gly-Ala-Gly Chemical compound C[C@H](N)C(=O)NCC(=O)N[C@@H](C)C(=O)NCC(O)=O VWEWCZSUWOEEFM-WDSKDSINSA-N 0.000 description 1
- 102100022524 Alpha-1-antichymotrypsin Human genes 0.000 description 1
- 101100480489 Arabidopsis thaliana TAAC gene Proteins 0.000 description 1
- 241001504766 Bovichtus Species 0.000 description 1
- 108091033409 CRISPR Proteins 0.000 description 1
- 238000010354 CRISPR gene editing Methods 0.000 description 1
- 102100025570 Cancer/testis antigen 1 Human genes 0.000 description 1
- 102100034330 Chromaffin granule amine transporter Human genes 0.000 description 1
- FCKYPQBAHLOOJQ-UHFFFAOYSA-N Cyclohexane-1,2-diaminetetraacetic acid Chemical compound OC(=O)CN(CC(O)=O)C1CCCCC1N(CC(O)=O)CC(O)=O FCKYPQBAHLOOJQ-UHFFFAOYSA-N 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 241000721047 Danaus plexippus Species 0.000 description 1
- 241001123946 Gaga Species 0.000 description 1
- 102100040004 Gamma-glutamylcyclotransferase Human genes 0.000 description 1
- 102100036263 Glutamyl-tRNA(Gln) amidotransferase subunit C, mitochondrial Human genes 0.000 description 1
- 102100040870 Glycine amidinotransferase, mitochondrial Human genes 0.000 description 1
- 101000959247 Homo sapiens Actin, alpha cardiac muscle 1 Proteins 0.000 description 1
- 101000678026 Homo sapiens Alpha-1-antichymotrypsin Proteins 0.000 description 1
- 101000856237 Homo sapiens Cancer/testis antigen 1 Proteins 0.000 description 1
- 101000641221 Homo sapiens Chromaffin granule amine transporter Proteins 0.000 description 1
- 101000886680 Homo sapiens Gamma-glutamylcyclotransferase Proteins 0.000 description 1
- 101001001786 Homo sapiens Glutamyl-tRNA(Gln) amidotransferase subunit C, mitochondrial Proteins 0.000 description 1
- 101000893303 Homo sapiens Glycine amidinotransferase, mitochondrial Proteins 0.000 description 1
- 101000804764 Homo sapiens Lymphotactin Proteins 0.000 description 1
- 101000957437 Homo sapiens Mitochondrial carnitine/acylcarnitine carrier protein Proteins 0.000 description 1
- 101000869690 Homo sapiens Protein S100-A8 Proteins 0.000 description 1
- 101000837344 Homo sapiens T-cell leukemia translocation-altered gene protein Proteins 0.000 description 1
- FSNCEEGOMTYXKY-JTQLQIEISA-N Lycoperodine 1 Natural products N1C2=CC=CC=C2C2=C1CN[C@H](C(=O)O)C2 FSNCEEGOMTYXKY-JTQLQIEISA-N 0.000 description 1
- 102100035304 Lymphotactin Human genes 0.000 description 1
- 102100038738 Mitochondrial carnitine/acylcarnitine carrier protein Human genes 0.000 description 1
- PKFBJSDMCRJYDC-GEZSXCAASA-N N-acetyl-s-geranylgeranyl-l-cysteine Chemical compound CC(C)=CCC\C(C)=C\CC\C(C)=C\CC\C(C)=C\CSC[C@@H](C(O)=O)NC(C)=O PKFBJSDMCRJYDC-GEZSXCAASA-N 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 102100029812 Protein S100-A12 Human genes 0.000 description 1
- 101710110949 Protein S100-A12 Proteins 0.000 description 1
- 102100032442 Protein S100-A8 Human genes 0.000 description 1
- 102100028692 T-cell leukemia translocation-altered gene protein Human genes 0.000 description 1
- 201000008754 Tenosynovial giant cell tumor Diseases 0.000 description 1
- WCDYMMVGBZNUGB-ORPFKJIMSA-N [(2r,3r,4s,5r,6r)-6-[[(1r,3r,4r,5r,6r)-4,5-dihydroxy-2,7-dioxabicyclo[4.2.0]octan-3-yl]oxy]-3,4,5-trihydroxyoxan-2-yl]methyl 3-hydroxy-2-tetradecyloctadecanoate Chemical compound O[C@@H]1[C@@H](O)[C@@H](O)[C@@H](COC(=O)C(CCCCCCCCCCCCCC)C(O)CCCCCCCCCCCCCCC)O[C@@H]1O[C@@H]1[C@H](O)[C@@H](O)[C@H]2OC[C@H]2O1 WCDYMMVGBZNUGB-ORPFKJIMSA-N 0.000 description 1
- YRKCREAYFQTBPV-UHFFFAOYSA-N acetylacetone Chemical compound CC(=O)CC(C)=O YRKCREAYFQTBPV-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- WOWHHFRSBJGXCM-UHFFFAOYSA-M cetyltrimethylammonium chloride Chemical compound [Cl-].CCCCCCCCCCCCCCCC[N+](C)(C)C WOWHHFRSBJGXCM-UHFFFAOYSA-M 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000035647 diffuse type tenosynovial giant cell tumor Diseases 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 101150075675 tatC gene Proteins 0.000 description 1
- 235000013616 tea Nutrition 0.000 description 1
- 208000002918 testicular germ cell tumor Diseases 0.000 description 1
- YNJBWRMUSHSURL-UHFFFAOYSA-N trichloroacetic acid Chemical compound OC(=O)C(Cl)(Cl)Cl YNJBWRMUSHSURL-UHFFFAOYSA-N 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供基于DNA载体的汉字信息存储方法,包括以下过程:S1:将文字和标点符号分别用四个碱基为一组的密码来编码,从而将文字生成编码信息表;S2:依据编码信息,将文字转换为核酸序列,核酸序列中单核苷酸重复不大于6bp,GC含量在45%~60%之间;S3:在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息信号丢的失核苷酸序列,此序列随机合成,只保证序列中单核苷酸重复不大于3bp;S4:引物结合区间位于存储信息区间的上下游两端,选用的PRC引物为引物结合区间位于存储信息区间的上下游两端,选用的PRC引物为正向引物5’‑TACGCTATGAACCACACTTA‑3’和反向引物5’‑TAACATCAGACCTCTTCGCA‑3’;S5:按照设计好的核苷酸序列顺序合成核苷酸片段,人工合成的编码信息的DNA序列被链接到质粒上,然后转化到细菌中。
Description
技术领域
本发明涉及DNA存储技术领域,具体涉及一种基于DNA载体的汉字信息存储方法。
背景技术
随着社会的不断进步,人类产生的数据信息以指数式增长,目前比较流行的数据存储介质主要包括光盘、磁带、硬盘、U盘、SM卡、记忆棒等。这些存储介质虽然在不断升级,但是其存储容量仍然难以满足指数式增长的大数据,同时这些存储介质使用寿命较短,最长能使用几十年,几十年以后需要将永久保存的数据转入到新的存储设备中进行储存,在转入过程中由于数据容量大易造成数据的丢失。同时,需要对存储设备进行持续的维护和保养,花费大量的财力。废弃的存储设备很难降解,对环境造成污染。因此需要一种存储信息容量更大、体积更小、保存和维护方便的存储介质。
DNA是生物体中将遗传信息进行长期储存的介质。DNA的这个特征类似于将数字信息进行存储的介质。因此,将数字信息存储在DNA中是一个具有吸引力的想法。科学家能从古化石中成功提取到生物DNA,进而使对生物演化的研究成为可能。这也充分说明DNA能够存储信息的时间非常长,DNA也容易保存。所以在干燥,寒冷和黑暗的条件下,存储信息的DNA产品可以使用超过1万年,DNA可能是保存不需要经常访问的信息的理想方法,因此非常适合存储图书馆和政府记录。
同时由于DNA为双螺旋结构,所以密度大,体积小,能够存储的信息容量非常大,满足目前人类对大数据长期存储的需求。将信息存储到DNA中可以实现对信息的加密,没有引物序列信息,DNA中碱基序列信息不容易被扩增和测序,即使测序成功,也不知道DNA序列与信息之间对应的编码方式,因此也难以实现信息的还原,所以将信息存储到DNA中具有很高的保密性。虽然DNA合成和测序的成本较高,限制了DNA存储技术的广泛应用,但是DNA合成和测序的价格以指数式下降,远远比传统的存储设备价格下降快很多。DNA是一种新型的有机存储介质,在未来有很大的应用潜能。
发明内容
本发明目的在于提供一种基于DNA载体的汉字信息存储方法,构建了一种分子数据存储系统,同时利用DNA存储信息的优势还在于信息保密程度高,不容易被破解。
为了实现上述目的,本发明采取的技术方案如下:
基于DNA载体的汉字信息存储方法,包括以下过程:
S1:将文字和标点符号分别用四个碱基为一组的密码来编码,从而将文字生成编码信息表;
S2:依据编码信息,将文字转换为核酸序列,核酸序列中单核苷酸重复不大于6bp,GC含量在45%~60%之间;
S3:在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息丢的失核苷酸序列,此序列随机合成,只保证序列中单核苷酸重复不大于3bp;
S4:引物结合区间位于存储信息区间的上下游两端,选用的PRC引物为正向引物 5’-TACGCTATGAACCACACTTA-3’和反向引物 5’-TAACATCAGACCTCTTCGCA-3’;
S5: 按照设计好的核苷酸序列顺序合成核苷酸片段,人工合成的编码信息的DNA序列被链接到质粒上,然后转化到细菌中。
作为一种优选技术方案,信息解码的过程包括以下步骤:
A1:将上述细菌进行培养,提取质粒,进行聚合酶链式反应;反应体系为30μl: mix: 20μl;正向引物: 1.5μl;反向引物: 1.5μl;DNA: 2μl;ddH2O: 5μl;反应条件:95℃, 5min;进行30个循环,循环为95℃, 30s;57℃, 30s; 72℃, 30s,然后再72℃, 5min。
A2:将扩增产物进行琼脂糖凝胶电泳、成像鉴定及测序。
作为一种优选技术方案,增加核苷酸序列的副本,从而进行多次测序,排除干扰。本发明与现有技术相比,具有以下有益效果:
本发明提供了基于DNA载体的汉字信息存储方法,利用DNA长期存储数据的潜力、可以作为档案存储的介质、存储时间可长达数万年的特性。通过将合成的编码数据DNA分子转入到活生物体中,编码数据可以通过活生物体进行复制和再生。可以通过增加序列副本适当的增加冗余数据,通过测序后的序列比对来纠正可能会因为生物体的自然进化、繁衍而发生的DNA突变、缺失、插入;可以利用CRISPR技术实现对存储数据DNA的重新编写,通过添加序列标签实现对信息的随机提取。
本发明对聚合酶链式反应的参数进行设计,使得测序时条带清晰,且保证能够完全解码。
附图说明
图1 为实施例中扩增产物凝胶电泳图。
图2为实施例中部分序列测序图。
图3为实施例中所述存储方法的流程示意图。
具体实施方式
本发明公开了基于DNA载体的文字信息存储方法,本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的方法和应用进行改动或适当变更与组合,来实现和应用本发明技术。
实施例
本实施例以将进酒诗歌为例来说明基于DNA载体的汉字信息存储方法。
一种基于DNA载体的汉字信息存储方法,包括以下步骤:
S1:将文字和标点符号分别用四个碱基为一组的密码来编码,从而将文字生成编码信息表;
编码信息表
序号 | 信息 | 密码 | 序号 | 信息 | 密码 | 序号 | 信息 | 密码 | 序号 | 信息 | 密码 |
1 | 君 | CTAT | 36 | 尽 | CGGA | 71 | 将 | AGCC | 106 | 昔 | ATCG |
2 | 不 | CGAG | 37 | 欢 | GATA | 72 | 进 | AGCG | 107 | 时 | ATGA |
3 | 见 | GACA | 38 | 莫 | GATC | 73 | 酒 | AGGA | 108 | 宴 | ATGT |
4 | 黄 | GTCG | 39 | 使 | GATG | 74 | 停 | AGGT | 109 | 平 | ATGG |
5 | 河 | GCGT | 40 | 金 | GACT | 75 | 与 | AGGC | 110 | 斗 | ACAT |
6 | 之 | AGTT | 41 | 樽 | GACG | 76 | 歌 | TAAT | 111 | 十 | ACAC |
7 | 水 | TACT | 42 | 空 | GAGA | 77 | 曲 | TAAG | 112 | 恣 | ACAG |
8 | 天 | TCCT | 43 | 对 | GAGT | 78 | 请 | TATA | 113 | 谑 | ACTA |
9 | 上 | GAAC | 44 | 月 | GAGC | 79 | 倾 | TATG | 114 | 主 | ACTT |
10 | 来 | ATGC | 45 | 我 | GTAT | 80 | 耳 | TAGA | 115 | 何 | ACTC |
11 | 奔 | AGAT | 46 | 材 | GTAC | 81 | 听 | TAGT | 116 | 言 | ACTG |
12 | 流 | TCAT | 47 | 必 | GTAG | 82 | 钟 | TTAC | 117 | 少 | ACGA |
13 | 到 | CATA | 48 | 有 | GTCA | 83 | 鼓 | TTAG | 118 | 钱 | ACGT |
14 | 海 | CACA | 49 | 用 | GTCT | 84 | 馔 | TTGC | 119 | 径 | AGAC |
15 | 复 | CACT | 50 | 千 | GTGA | 85 | 玉 | TCAA | 120 | 沽 | AGCA |
16 | 回 | CACG | 51 | 散 | GTGT | 86 | 足 | TCAC | 121 | 取 | TAAC |
17 | 高 | CAGA | 52 | 还 | GTGC | 87 | 贵 | TCTC | 122 | 酌 | TATC |
18 | 堂 | CAGT | 53 | 烹 | GCAT | 88 | 但 | TCTG | 123 | 五 | TACA |
19 | 明 | CAGC | 54 | 羊 | GCAC | 89 | 愿 | TCCA | 124 | 花 | TACC |
20 | 镜 | CTAC | 55 | 宰 | GCAG | 90 | 长 | TCCG | 125 | 马 | TACG |
21 | 悲 | CTAG | 56 | 牛 | GCTA | 91 | 醉 | TCGC | 126 | 裘 | TAGC |
22 | 白 | CTCA | 57 | 且 | GCTC | 92 | 醒 | TGAA | 127 | 呼 | TAGG |
23 | 发 | CTCT | 58 | 为 | GCTG | 93 | 古 | TGAT | 128 | 儿 | TTGA |
24 | 朝 | CTCG | 59 | 乐 | GCGA | 94 | 圣 | TGTC | 129 | 出 | TCAG |
25 | 如 | CTGA | 60 | 会 | GCGC | 95 | 贤 | CAAG | 130 | 换 | TCTA |
26 | 青 | CTGT | 61 | 一 | ATAC | 96 | 皆 | CTTA | 131 | 美 | TCGA |
27 | 丝 | CTGC | 62 | 饮 | ATAG | 97 | 寂 | CTTG | 132 | 尔 | TCGT |
28 | 暮 | CGAT | 63 | 三 | ATCA | 98 | 寞 | GAAT | 133 | 同 | TGAC |
29 | 成 | CGAC | 64 | 百 | ACCA | 99 | 惟 | AATG | 134 | 销 | TGAG |
30 | 雪 | CGTA | 65 | 杯 | ACCT | 100 | 者 | AATC | 135 | 万 | TGTA |
31 | 人 | CGTC | 66 | 岑 | ACGC | 101 | 留 | AACT | 136 | 愁 | TGCA |
32 | 生 | CGTG | 67 | 夫 | ACGG | 102 | 其 | AACG | 137 | 李 | TGCT |
33 | 得 | CGCA | 68 | 子 | AGAG | 103 | 名 | AAGT | 138 | , | TGCG |
34 | 意 | CGCT | 69 | 丹 | AGTA | 104 | 陈 | ATTC | 139 | 。 | CATC |
35 | 须 | CGCG | 70 | 丘 | AGCT | 105 | 王 | ATCT | 140 | 、 | CATG |
S2:依据编码信息,将文字转换为核酸序列,长度为845bp,GC含量为51.78%,核酸序列中单核苷酸重复不大于6bp;核酸序列为:
AGCCAGCGAGGATGCTCTCACTATCGAGGACATGCGGTCGGCGTAGTTTACTTCCTGAACATGCTGCGAGATTCATCATACACACGAGCACTCACGCATCCTATCGAGGACATGCGCAGACAGTCAGCCTACCTAGCTCACTCTTGCGCTCGCTGACTGTCTGCCGATCGACCGTACATCCGTCCGTGCGCACGCTCGCGCGGAGATATGCGGATCGATGGACTGACGGAGAGAGTGAGCCATCTCCTCGTGGTATGTACGTAGGTCAGTCTTGCGGTGAGACTGTGTCGGAGTGCCACTATGCCATCGCATGCACGCAGGCTAGCTCGCTGGCGATGCGGCGCCGCGATACATAGATCAACCAACCTCATCACGCACGGAGAGTGCGAGTAAGCTCGTGTGCGAGCCAGCGAGGATGCGACCTGATCAGGTCATCAGGCCTATTAATATACTAAGTGCGTATACTATGCTGGTATTATGTAGATAGTCATCTTACTTAGTTGCTCAACGAGTCACTCTCTGCGTCTGTCCATCCGTCGCCGAGCACTTGAACATCTGATATGCTGTCCAAGCTTACTTGGAATTGCGAATGGTCAATAGAATCAACTAACGAAGTCATCATTCATCTATCGATGAATGTATGGGCGATGCGACATAGGAACACGTGAACAGGATAACTACATCACTTCGTCACTCGCTGACTGACGAACGTTGCGAGACCGCGAGCATAACGAGTCTATTATCCATCTACATACCTACGCATGGTGAGACTTAGCTGCGTAGGTTGAAGCCTCAGTCTATCGAAGGATGCGAGGCTCGTTGACTGAGTGTATGATTGCACATC
S3: 在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息信号丢的失核苷酸序列,此序列随机合成,只保证序列中单核苷酸重复不大于3bp;本实施例中,两个序列分别为序列分别为:
ATGCGATACTTGGTGTGAAT和ACGCTTCTCCAGACTACAAT;
S4:引物结合区间位于存储信息区间的上下游两端,选用的PRC引物为正向引物5’-TACGCTATGAACCACACTTA-3’和反向引物5’-TAACATCAGACCTCTTCGCA-3’;
S5:按照设计好的核苷酸序列顺序合成核苷酸片段,人工合成的编码信息的DNA序列被链接到质粒上,然后转化到细菌中。
本实施例中质粒为pUC57,细菌为Glycerol-Top10;pUC57来自科雷生物科技有限公司,Glycerol-Top10来自于北京百奥莱博科技有限公司。
上述步骤S4中设计的引物不需要考虑保守性,因为通过增加核苷酸序列副本来增加序列的冗余度,从而在测序时纠正突变等问题。
经过上述步骤便实现了将进酒诗歌在DNA中的信息存储。
进一步的,将存储的将进酒诗歌进行解码的过程包括以下步骤:
A1:将上述细菌进行培养,提取质粒,进行聚合酶链式反应;反应体系为30μl: mix: 20μl;引物F: 1.5μl,引物R:1.5μl, DNA:2μl,ddH2O: 5μl;反应条件:95℃, 5min;然后再进行30个循环,循环为95℃, 30s;57℃,30s; 72℃,30s,然后再72℃, 5min。
A2: 将扩增产物进行琼脂糖凝胶电泳、成像鉴定及测序。
如图1所示,为步骤A2中凝胶电泳的电泳图,可以清楚看见条带,如图2所示,可以看到扩增的成功,这是因为上述聚合酶链式反应中各参数起到的作用,确保能够成功解析信息。
由于在细菌内存储的信息可能会发生突变、插入或缺失,从而导致信息还原失败。所以需要进行多拷贝测序,通过序列比对方法获取准确、完整的序列,进一步增强数据的可靠性。通过测序获得核酸序列后,对照编码信息表对核苷酸进行解码,将核酸序列还原为诗歌“将进酒”文字信息,成功完成解码过程,恢复“将进酒”诗歌内容。
需要强调的是由于,本实施例中进行信息存储的核酸序列、引物及防信息丢失的核苷酸序列皆是用传统的化学合成方法合成,由于是现有技术,本发明中不作详细说明。
凝胶电泳、成像鉴定及测序都是现有技术,因此不作详细说明。
序列表
<110> 西藏自治区人民政府驻成都办事处医院
<120> 基于DNA载体的汉字信息存储方法
<160> 5
<170> PatentIn version 3.3
<210> 1
<211> 844
<212> DNA
<213> 人工序列
<400> 1
agccagcgag gatgctctca ctatcgagga catgcggtcg gcgtagttta cttcctgaac 60
atgctgcgag attcatcata cacacgagca ctcacgcatc ctatcgagga catgcgcaga 120
cagtcagcct acctagctca ctcttgcgct cgctgactgt ctgccgatcg accgtacatc 180
cgtccgtgcg cacgctcgcg cggagatatg cggatcgatg gactgacgga gagagtgagc 240
catctcctcg tggtatgtac gtaggtcagt cttgcggtga gactgtgtcg gagtgccact 300
atgccatcgc atgcacgcag gctagctcgc tggcgatgcg gcgccgcgat acatagatca 360
accaacctca tcacgcacgg agagtgcgag taagctcgtg tgcgagccag cgaggatgcg 420
acctgatcag gtcatcaggc ctattaatat actaagtgcg tatactatgc tggtattatg 480
tagatagtca tcttacttag ttgctcaacg agtcactctc tgcgtctgtc catccgtcgc 540
cgagcacttg aacatctgat atgctgtcca agcttacttg gaattgcgaa tggtcaatag 600
aatcaactaa cgaagtcatc attcatctat cgatgaatgt atgggcgatg cgacatagga 660
acacgtgaac aggataacta catcacttcg tcactcgctg actgacgaac gttgcgagac 720
cgcgagcata acgagtctat tatccatcta catacctacg catggtgaga cttagctgcg 780
taggttgaag cctcagtcta tcgaaggatg cgaggctcgt tgactgagtg tatgattgca 840
catc 844
<210> 2
<211> 20
<212> DNA
<213> 人工序列
<400> 2
tacgctatga accacactta 20
<210> 3
<211> 20
<212> DNA
<213> 人工序列
<400> 3
taacatcaga cctcttcgca 20
<210> 4
<211> 20
<212> DNA
<213> 人工序列
<400> 4
atgcgatact tggtgtgaat 20
<210> 5
<211> 20
<212> DNA
<213> 人工序列
<400> 5
acgcttctcc agactacaat 20
Claims (3)
1.基于DNA载体的汉字信息存储方法,其特征在于,包括以下过程:
S1:将文字和标点符号分别用四个碱基为一组的密码来编码,从而将文字生成编码信息表;
S2:依据编码信息,将文字转换为核酸序列,核酸序列中单核苷酸重复不大于6bp,GC含量在45%~60%之间;
S3:在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息丢的失核苷酸序列,此序列随机合成,只保证序列中单核苷酸重复不大于3bp;
S4:引物结合区间位于存储信息区间的上下游两端,选用的PRC引物为正向引物 5’-TACGCTATGAACCACACTTA-3’和反向引物 5’-TAACATCAGACCTCTTCGCA-3’;
S5: 按照设计好的核苷酸序列顺序合成核苷酸片段,人工合成的编码信息的DNA序列被链接到质粒上,然后转化到细菌中。
2.根据权利要求1所述的基于DNA载体的汉字信息存储方法,其特征在于,信息解码的过程包括以下步骤:
A1:将上述细菌进行培养,提取质粒,进行聚合酶链式反应;反应体系为30μl: mix: 20μl;正向引物: 1.5μl;反向引物: 1.5μl;DNA: 2μl;ddH2O: 5μl;反应条件:95℃, 5min;进行30个循环,循环为95℃, 30s;57℃, 30s; 72℃, 30s,然后再72℃, 5min;
A2:将扩增产物进行琼脂糖凝胶电泳、成像鉴定及测序。
3.根据权利要求2所述的基于DNA载体的汉字信息存储方法,其特征在于,增加核苷酸序列的副本,从而进行多次测序,排除干扰。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811400456.1A CN109943560A (zh) | 2018-11-22 | 2018-11-22 | 基于dna载体的汉字信息存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811400456.1A CN109943560A (zh) | 2018-11-22 | 2018-11-22 | 基于dna载体的汉字信息存储方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109943560A true CN109943560A (zh) | 2019-06-28 |
Family
ID=67005885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811400456.1A Pending CN109943560A (zh) | 2018-11-22 | 2018-11-22 | 基于dna载体的汉字信息存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109943560A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442472A (zh) * | 2019-07-03 | 2019-11-12 | 天津大学 | 一种dna数据存储混合错误纠正与数据恢复方法 |
CN110684791A (zh) * | 2019-11-15 | 2020-01-14 | 天津大学 | 一种利用dna在体内存储信息的方法 |
CN112749247A (zh) * | 2019-10-31 | 2021-05-04 | 中国科学院深圳先进技术研究院 | 文本信息存储和读取方法及其装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003025123A2 (en) * | 2001-08-28 | 2003-03-27 | Mount Sinai School Of Medecine | Dna: a medium for long-term information storage specification |
WO2017190297A1 (zh) * | 2016-05-04 | 2017-11-09 | 深圳华大基因研究院 | 利用dna存储文本信息的方法、其解码方法及应用 |
-
2018
- 2018-11-22 CN CN201811400456.1A patent/CN109943560A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003025123A2 (en) * | 2001-08-28 | 2003-03-27 | Mount Sinai School Of Medecine | Dna: a medium for long-term information storage specification |
WO2017190297A1 (zh) * | 2016-05-04 | 2017-11-09 | 深圳华大基因研究院 | 利用dna存储文本信息的方法、其解码方法及应用 |
Non-Patent Citations (1)
Title |
---|
HOANG HIEP NGUYEN 等: "Long-Term Stability and Integrity of Plasmid-Based DNA Data Storage", 《POLYMERS》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442472A (zh) * | 2019-07-03 | 2019-11-12 | 天津大学 | 一种dna数据存储混合错误纠正与数据恢复方法 |
CN110442472B (zh) * | 2019-07-03 | 2021-08-13 | 天津大学 | 一种dna数据存储混合错误纠正与数据恢复方法 |
CN112749247A (zh) * | 2019-10-31 | 2021-05-04 | 中国科学院深圳先进技术研究院 | 文本信息存储和读取方法及其装置 |
CN112749247B (zh) * | 2019-10-31 | 2023-08-18 | 中国科学院深圳先进技术研究院 | 文本信息存储和读取方法及其装置 |
CN110684791A (zh) * | 2019-11-15 | 2020-01-14 | 天津大学 | 一种利用dna在体内存储信息的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109943560A (zh) | 基于dna载体的汉字信息存储方法 | |
Larue et al. | Novel microbial diversity adherent to plant biomass in the herbivore gastrointestinal tract, as revealed by ribosomal intergenic spacer analysis and rrs gene sequencing | |
US10839295B2 (en) | Method for using DNA to store text information, decoding method therefor and application thereof | |
Sweet | The English town, 1680-1840: government, society and culture | |
CN110427786A (zh) | 一种用dna作为文字信息高效存储介质的方法 | |
CN101821402B (zh) | 修剪式多位点组合装配 | |
US7056724B2 (en) | Storing data encoded DNA in living organisms | |
KR970704038A (ko) | 색소체 2-옥소글루타레이트/말레이트 트랜스로케이터를 코딩하는 dna 분자(dna molecules which code for a plastid 2-oxoglutarate/malate translocator) | |
WO2003025123A2 (en) | Dna: a medium for long-term information storage specification | |
Abril et al. | Prokaryotic sigma factors and their transcriptional counterparts in Archaea and Eukarya | |
DE60115900D1 (de) | Nukleotidsequenzen kodierend für das mdha gen aus corynebakterium glutamicum | |
Vlček et al. | Sequence of a 189-kb segment of the chromosome of Rhodobacter capsulatus SB1003 | |
CN110684791A (zh) | 一种利用dna在体内存储信息的方法 | |
Jiao et al. | Code for encryption hiding data into genomic DNA of living organisms | |
ID28604A (id) | RANGKAIAN-RANGKAIAN NUKLEOTIDA YANG MENGKODE GEN sdhA, sdhB dan sdhC | |
Lee et al. | A DNA assembly model of sentence generation | |
Jiao et al. | Hiding data in DNA of living organisms | |
CN113832147B (zh) | 一种高效的大片段dna合成与扩增的pcr引物、方法及应用 | |
Kong et al. | Seasonal dynamics in microbial trace metals transporters during phytoplankton blooms in the Southern Ocean | |
HUANG | Natural, efficient and high-capacity DNA storage system: base-4 encoding and double indexing | |
Xi et al. | Complete Genome Sequence Data for the Grapevine Crown Gall–Inhibiting Bacteria Allorhizobium vitis F2/5 | |
Ausubel | Biological nitrogen fixation: recent advances and future prospects | |
US20170335334A1 (en) | Dna cloaking technologies | |
Taneja | Representations of Genetic Tables, Bimagic Squares, Hamming Distances and Shannon Entropy | |
Weigel et al. | Cell–cell interactions: Taking cues from the neighbors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190628 |