CN109943560A

CN109943560A - 基于dna载体的汉字信息存储方法

Info

Publication number: CN109943560A
Application number: CN201811400456.1A
Authority: CN
Inventors: 郝豆豆; 张勇群; 施静; 付苏宏; 张鹏飞
Original assignee: People's Government Of Tibet Autonomous Region In Chengdu Office Hospital
Current assignee: People's Government Of Tibet Autonomous Region In Chengdu Office Hospital
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-06-28

Abstract

本发明提供基于DNA载体的汉字信息存储方法，包括以下过程：S1:将文字和标点符号分别用四个碱基为一组的密码来编码，从而将文字生成编码信息表；S2：依据编码信息，将文字转换为核酸序列，核酸序列中单核苷酸重复不大于6bp，GC含量在45%~60%之间；S3：在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息信号丢的失核苷酸序列，此序列随机合成，只保证序列中单核苷酸重复不大于3bp；S4:引物结合区间位于存储信息区间的上下游两端，选用的PRC引物为引物结合区间位于存储信息区间的上下游两端，选用的PRC引物为正向引物5’‑TACGCTATGAACCACACTTA‑3’和反向引物5’‑TAACATCAGACCTCTTCGCA‑3’；S5:按照设计好的核苷酸序列顺序合成核苷酸片段，人工合成的编码信息的DNA序列被链接到质粒上，然后转化到细菌中。

Description

基于DNA载体的汉字信息存储方法

技术领域

本发明涉及DNA存储技术领域，具体涉及一种基于DNA载体的汉字信息存储方法。

背景技术

随着社会的不断进步，人类产生的数据信息以指数式增长，目前比较流行的数据存储介质主要包括光盘、磁带、硬盘、U盘、SM卡、记忆棒等。这些存储介质虽然在不断升级，但是其存储容量仍然难以满足指数式增长的大数据，同时这些存储介质使用寿命较短，最长能使用几十年，几十年以后需要将永久保存的数据转入到新的存储设备中进行储存，在转入过程中由于数据容量大易造成数据的丢失。同时，需要对存储设备进行持续的维护和保养，花费大量的财力。废弃的存储设备很难降解，对环境造成污染。因此需要一种存储信息容量更大、体积更小、保存和维护方便的存储介质。

DNA是生物体中将遗传信息进行长期储存的介质。DNA的这个特征类似于将数字信息进行存储的介质。因此，将数字信息存储在DNA中是一个具有吸引力的想法。科学家能从古化石中成功提取到生物DNA，进而使对生物演化的研究成为可能。这也充分说明DNA能够存储信息的时间非常长，DNA也容易保存。所以在干燥，寒冷和黑暗的条件下，存储信息的DNA产品可以使用超过1万年，DNA可能是保存不需要经常访问的信息的理想方法，因此非常适合存储图书馆和政府记录。

同时由于DNA为双螺旋结构，所以密度大，体积小，能够存储的信息容量非常大，满足目前人类对大数据长期存储的需求。将信息存储到DNA中可以实现对信息的加密，没有引物序列信息，DNA中碱基序列信息不容易被扩增和测序，即使测序成功，也不知道DNA序列与信息之间对应的编码方式，因此也难以实现信息的还原，所以将信息存储到DNA中具有很高的保密性。虽然DNA合成和测序的成本较高，限制了DNA存储技术的广泛应用，但是DNA合成和测序的价格以指数式下降，远远比传统的存储设备价格下降快很多。DNA是一种新型的有机存储介质，在未来有很大的应用潜能。

发明内容

本发明目的在于提供一种基于DNA载体的汉字信息存储方法，构建了一种分子数据存储系统，同时利用DNA存储信息的优势还在于信息保密程度高，不容易被破解。

为了实现上述目的，本发明采取的技术方案如下：

基于DNA载体的汉字信息存储方法，包括以下过程：

S1:将文字和标点符号分别用四个碱基为一组的密码来编码，从而将文字生成编码信息表；

S2：依据编码信息，将文字转换为核酸序列，核酸序列中单核苷酸重复不大于6bp，GC含量在45%~60%之间；

S3：在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息丢的失核苷酸序列，此序列随机合成，只保证序列中单核苷酸重复不大于3bp；

S4:引物结合区间位于存储信息区间的上下游两端，选用的PRC引物为正向引物 5’-TACGCTATGAACCACACTTA-3’和反向引物 5’-TAACATCAGACCTCTTCGCA-3’；

S5: 按照设计好的核苷酸序列顺序合成核苷酸片段，人工合成的编码信息的DNA序列被链接到质粒上，然后转化到细菌中。

作为一种优选技术方案，信息解码的过程包括以下步骤：

A1：将上述细菌进行培养，提取质粒，进行聚合酶链式反应；反应体系为30μl: mix: 20μl；正向引物: 1.5μl；反向引物: 1.5μl；DNA: 2μl；ddH2O: 5μl；反应条件：95℃, 5min；进行30个循环，循环为95℃, 30s；57℃, 30s; 72℃, 30s，然后再72℃, 5min。

A2：将扩增产物进行琼脂糖凝胶电泳、成像鉴定及测序。

作为一种优选技术方案，增加核苷酸序列的副本，从而进行多次测序，排除干扰。本发明与现有技术相比，具有以下有益效果：

本发明提供了基于DNA载体的汉字信息存储方法，利用DNA长期存储数据的潜力、可以作为档案存储的介质、存储时间可长达数万年的特性。通过将合成的编码数据DNA分子转入到活生物体中，编码数据可以通过活生物体进行复制和再生。可以通过增加序列副本适当的增加冗余数据，通过测序后的序列比对来纠正可能会因为生物体的自然进化、繁衍而发生的DNA突变、缺失、插入；可以利用CRISPR技术实现对存储数据DNA的重新编写，通过添加序列标签实现对信息的随机提取。

本发明对聚合酶链式反应的参数进行设计，使得测序时条带清晰，且保证能够完全解码。

附图说明

图1 为实施例中扩增产物凝胶电泳图。

图2为实施例中部分序列测序图。

图3为实施例中所述存储方法的流程示意图。

具体实施方式

本发明公开了基于DNA载体的文字信息存储方法，本领域技术人员可以借鉴本文内容，适当改进工艺参数实现。特别需要指出的是，所有类似的替换和改动对本领域技术人员来说是显而易见的，它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述，相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的方法和应用进行改动或适当变更与组合，来实现和应用本发明技术。

实施例

本实施例以将进酒诗歌为例来说明基于DNA载体的汉字信息存储方法。

一种基于DNA载体的汉字信息存储方法，包括以下步骤：

编码信息表

序号

信息

密码

序号

信息

密码

序号

信息

密码

序号

信息

密码

1

君

CTAT

36

尽

CGGA

71

将

AGCC

106

昔

ATCG

2

不

CGAG

37

欢

GATA

72

进

AGCG

107

时

ATGA

3

见

GACA

38

莫

GATC

73

酒

AGGA

108

宴

ATGT

4

黄

GTCG

39

使

GATG

74

停

AGGT

109

平

ATGG

5

河

GCGT

40

金

GACT

75

与

AGGC

110

斗

ACAT

6

之

AGTT

41

樽

GACG

76

歌

TAAT

111

十

ACAC

7

水

TACT

42

空

GAGA

77

曲

TAAG

112

恣

ACAG

8

天

TCCT

43

对

GAGT

78

请

TATA

113

谑

ACTA

9

上

GAAC

44

月

GAGC

79

倾

TATG

114

主

ACTT

10

来

ATGC

45

我

GTAT

80

耳

TAGA

115

何

ACTC

11

奔

AGAT

46

材

GTAC

81

听

TAGT

116

言

ACTG

12

流

TCAT

47

必

GTAG

82

钟

TTAC

117

少

ACGA

13

到

CATA

48

有

GTCA

83

鼓

TTAG

118

钱

ACGT

14

海

CACA

49

用

GTCT

84

馔

TTGC

119

径

AGAC

15

复

CACT

50

千

GTGA

85

玉

TCAA

120

沽

AGCA

16

回

CACG

51

散

GTGT

86

足

TCAC

121

取

TAAC

17

高

CAGA

52

还

GTGC

87

贵

TCTC

122

酌

TATC

18

堂

CAGT

53

烹

GCAT

88

但

TCTG

123

五

TACA

19

明

CAGC

54

羊

GCAC

89

愿

TCCA

124

花

TACC

20

镜

CTAC

55

宰

GCAG

90

长

TCCG

125

马

TACG

21

悲

CTAG

56

牛

GCTA

91

醉

TCGC

126

裘

TAGC

22

白

CTCA

57

且

GCTC

92

醒

TGAA

127

呼

TAGG

23

发

CTCT

58

为

GCTG

93

古

TGAT

128

儿

TTGA

24

朝

CTCG

59

乐

GCGA

94

圣

TGTC

129

出

TCAG

25

如

CTGA

60

会

GCGC

95

贤

CAAG

130

换

TCTA

26

青

CTGT

61

一

ATAC

96

皆

CTTA

131

美

TCGA

27

丝

CTGC

62

饮

ATAG

97

寂

CTTG

132

尔

TCGT

28

暮

CGAT

63

三

ATCA

98

寞

GAAT

133

同

TGAC

29

成

CGAC

64

百

ACCA

99

惟

AATG

134

销

TGAG

30

雪

CGTA

65

杯

ACCT

100

者

AATC

135

万

TGTA

31

人

CGTC

66

岑

ACGC

101

留

AACT

136

愁

TGCA

32

生

CGTG

67

夫

ACGG

102

其

AACG

137

李

TGCT

33

得

CGCA

68

子

AGAG

103

名

AAGT

138

，

TGCG

34

意

CGCT

69

丹

AGTA

104

陈

ATTC

139

。

CATC

35

须

CGCG

70

丘

AGCT

105

王

ATCT

140

、

CATG

S2：依据编码信息，将文字转换为核酸序列，长度为845bp，GC含量为51.78%，核酸序列中单核苷酸重复不大于6bp；核酸序列为：

AGCCAGCGAGGATGCTCTCACTATCGAGGACATGCGGTCGGCGTAGTTTACTTCCTGAACATGCTGCGAGATTCATCATACACACGAGCACTCACGCATCCTATCGAGGACATGCGCAGACAGTCAGCCTACCTAGCTCACTCTTGCGCTCGCTGACTGTCTGCCGATCGACCGTACATCCGTCCGTGCGCACGCTCGCGCGGAGATATGCGGATCGATGGACTGACGGAGAGAGTGAGCCATCTCCTCGTGGTATGTACGTAGGTCAGTCTTGCGGTGAGACTGTGTCGGAGTGCCACTATGCCATCGCATGCACGCAGGCTAGCTCGCTGGCGATGCGGCGCCGCGATACATAGATCAACCAACCTCATCACGCACGGAGAGTGCGAGTAAGCTCGTGTGCGAGCCAGCGAGGATGCGACCTGATCAGGTCATCAGGCCTATTAATATACTAAGTGCGTATACTATGCTGGTATTATGTAGATAGTCATCTTACTTAGTTGCTCAACGAGTCACTCTCTGCGTCTGTCCATCCGTCGCCGAGCACTTGAACATCTGATATGCTGTCCAAGCTTACTTGGAATTGCGAATGGTCAATAGAATCAACTAACGAAGTCATCATTCATCTATCGATGAATGTATGGGCGATGCGACATAGGAACACGTGAACAGGATAACTACATCACTTCGTCACTCGCTGACTGACGAACGTTGCGAGACCGCGAGCATAACGAGTCTATTATCCATCTACATACCTACGCATGGTGAGACTTAGCTGCGTAGGTTGAAGCCTCAGTCTATCGAAGGATGCGAGGCTCGTTGACTGAGTGTATGATTGCACATC

S3: 在存储信息区间的两端分别加上20bp的用于防止测序过程中存储信息信号丢的失核苷酸序列，此序列随机合成，只保证序列中单核苷酸重复不大于3bp；本实施例中，两个序列分别为序列分别为：

ATGCGATACTTGGTGTGAAT和ACGCTTCTCCAGACTACAAT；

S4：引物结合区间位于存储信息区间的上下游两端，选用的PRC引物为正向引物5’-TACGCTATGAACCACACTTA-3’和反向引物5’-TAACATCAGACCTCTTCGCA-3’；

S5：按照设计好的核苷酸序列顺序合成核苷酸片段，人工合成的编码信息的DNA序列被链接到质粒上，然后转化到细菌中。

本实施例中质粒为pUC57，细菌为Glycerol-Top10；pUC57来自科雷生物科技有限公司，Glycerol-Top10来自于北京百奥莱博科技有限公司。

上述步骤S4中设计的引物不需要考虑保守性，因为通过增加核苷酸序列副本来增加序列的冗余度，从而在测序时纠正突变等问题。

经过上述步骤便实现了将进酒诗歌在DNA中的信息存储。

进一步的，将存储的将进酒诗歌进行解码的过程包括以下步骤：

A1：将上述细菌进行培养，提取质粒，进行聚合酶链式反应；反应体系为30μl: mix: 20μl;引物F: 1.5μl，引物R：1.5μl, DNA：2μl，ddH₂O： 5μl；反应条件：95℃, 5min；然后再进行30个循环，循环为95℃， 30s；57℃，30s; 72℃，30s，然后再72℃, 5min。

A2: 将扩增产物进行琼脂糖凝胶电泳、成像鉴定及测序。

如图1所示，为步骤A2中凝胶电泳的电泳图，可以清楚看见条带，如图2所示，可以看到扩增的成功，这是因为上述聚合酶链式反应中各参数起到的作用，确保能够成功解析信息。

由于在细菌内存储的信息可能会发生突变、插入或缺失，从而导致信息还原失败。所以需要进行多拷贝测序，通过序列比对方法获取准确、完整的序列，进一步增强数据的可靠性。通过测序获得核酸序列后，对照编码信息表对核苷酸进行解码，将核酸序列还原为诗歌“将进酒”文字信息，成功完成解码过程，恢复“将进酒”诗歌内容。

需要强调的是由于，本实施例中进行信息存储的核酸序列、引物及防信息丢失的核苷酸序列皆是用传统的化学合成方法合成，由于是现有技术，本发明中不作详细说明。

凝胶电泳、成像鉴定及测序都是现有技术，因此不作详细说明。

序列表

<110> 西藏自治区人民政府驻成都办事处医院

<120> 基于DNA载体的汉字信息存储方法

<160> 5

<170> PatentIn version 3.3

<210> 1

<211> 844

<212> DNA

<213> 人工序列

<400> 1

agccagcgag gatgctctca ctatcgagga catgcggtcg gcgtagttta cttcctgaac 60

atgctgcgag attcatcata cacacgagca ctcacgcatc ctatcgagga catgcgcaga 120

cagtcagcct acctagctca ctcttgcgct cgctgactgt ctgccgatcg accgtacatc 180

cgtccgtgcg cacgctcgcg cggagatatg cggatcgatg gactgacgga gagagtgagc 240

catctcctcg tggtatgtac gtaggtcagt cttgcggtga gactgtgtcg gagtgccact 300

atgccatcgc atgcacgcag gctagctcgc tggcgatgcg gcgccgcgat acatagatca 360

accaacctca tcacgcacgg agagtgcgag taagctcgtg tgcgagccag cgaggatgcg 420

acctgatcag gtcatcaggc ctattaatat actaagtgcg tatactatgc tggtattatg 480

tagatagtca tcttacttag ttgctcaacg agtcactctc tgcgtctgtc catccgtcgc 540

cgagcacttg aacatctgat atgctgtcca agcttacttg gaattgcgaa tggtcaatag 600

aatcaactaa cgaagtcatc attcatctat cgatgaatgt atgggcgatg cgacatagga 660

acacgtgaac aggataacta catcacttcg tcactcgctg actgacgaac gttgcgagac 720

cgcgagcata acgagtctat tatccatcta catacctacg catggtgaga cttagctgcg 780

taggttgaag cctcagtcta tcgaaggatg cgaggctcgt tgactgagtg tatgattgca 840

catc 844

<210> 2

<211> 20

<212> DNA

<213> 人工序列

<400> 2

tacgctatga accacactta 20

<210> 3

<211> 20

<212> DNA

<213> 人工序列

<400> 3

taacatcaga cctcttcgca 20

<210> 4

<211> 20

<212> DNA

<213> 人工序列

<400> 4

atgcgatact tggtgtgaat 20

<210> 5

<211> 20

<212> DNA

<213> 人工序列

<400> 5

acgcttctcc agactacaat 20

Claims

1.基于DNA载体的汉字信息存储方法，其特征在于，包括以下过程：

2.根据权利要求1所述的基于DNA载体的汉字信息存储方法，其特征在于，信息解码的过程包括以下步骤：

A1：将上述细菌进行培养，提取质粒，进行聚合酶链式反应；反应体系为30μl: mix: 20μl；正向引物: 1.5μl；反向引物: 1.5μl；DNA: 2μl；ddH2O: 5μl；反应条件：95℃, 5min；进行30个循环，循环为95℃, 30s；57℃, 30s; 72℃, 30s，然后再72℃, 5min；

A2：将扩增产物进行琼脂糖凝胶电泳、成像鉴定及测序。

3.根据权利要求2所述的基于DNA载体的汉字信息存储方法，其特征在于，增加核苷酸序列的副本，从而进行多次测序，排除干扰。