CN111737955A

CN111737955A - 一种使用dna字符码存储文字点阵的方法

Info

Publication number: CN111737955A
Application number: CN202010588960.XA
Authority: CN
Inventors: 任兆瑞
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-02

Abstract

本发明公开了一种使用DNA字符码存储文字点阵的方法，方法首先将文字或字符点阵使用一段长度为N个碱基的DNA字符码表示，字符码为N+1的形式，其最后一位为根据其前面的N个碱基统计计算得到的校验码，所得字符码添加到其对应的文字或字符点阵的开头和末尾，并添加到字典中，文字点阵存储则直接使用方法所生成的带有校验码的字符码进行；采用本发明的文字点阵存储方法，不仅能够避免文字点阵DNA存储方法容易产生大段的重复DNA序列的不足，同时，采用了较短长度的DNA字符码取代文字点阵记录文字信息，极大地提高了存储密度。

Description

一种使用DNA字符码存储文字点阵的方法

技术领域

本发明公开了一种使用DNA字符码存储文字点阵的方法，属于生物技术与信息技术领域。

背景技术

DNA是重要的遗传物质载体，是自然界生物通过数十亿年进化而产生的一种线形或环形的双螺旋生物大分子。上世纪五十年代，DNA作为生物的遗传信息载体被科学家证实，与普通信息存储载体相比，DNA在数据存储方面有其独有的天然优势：存储密度高，1克DNA 可以保存世界上的所有书籍内容；存储稳定且时间久，能够达到几万年到几百万年；携带方便，能够由细菌或者生物体内生物携带或置于容器长期保存等。

传统存储介质中，纸张等主要用图形文字等来表示，光盘等信息载体使用二进制电信号 0/1来表示，而DNA则是用A/T/G/C四个碱基依次排列实现，不同的序列代表不同的信息，相当于是四进制。一般在生物体的DNA中，A/T/G/C碱基的分布和比例需要均匀并且尽量减少大段的重复，而基于文字点阵进行DNA存储时，每个文字的DNA序列均会包括上百个碱基，不同的汉字其点阵可能会包含有许多相同的片段，从而产生较多的重复DNA片段；同时，基于文字点阵进行DNA存储时，相同的汉字会产生相同的DNA序列，对于一些出现频率较高的文字或字符，也会产生较多的重复DNA序列，这些普遍存在的重复DNA序列都会极大的影响DNA的复制与合成。

发明内容

发明要解决的技术问题

为解决现有文字点阵DNA存储时会产生较多重复序列，影响其复制合成的问题，本发明提出一种使用DNA字符码存储文字点阵的方法。

技术方案

为解决上述技术问题，本发明采用以下技术方案：

一种使用DNA字符码存储文字点阵的方法，包括以下步骤：

步骤1，面向字库中的每个文字或字符的点阵随机生成一段长度为N的DNA碱基作为字符码；

步骤2，为生成字符码的二进制码生成校验码并添加到字符码的末尾，生成长度为8-10 个DNA碱基的字符码；

步骤3，将上一步中所得的字符码添加到其对应的文字或字符点阵的开头和末尾，并添加到字典中；

步骤4，使用步骤2所得的DNA字符码对文字点阵进行存储。

进一步地，步骤2中的校验码为一个DNA碱基，校验码二进制码首位的生成方法为：统计字符码二进制码中奇数位“1”的个数，个数为奇数则为1，偶数则为0；校验码二进制码次位的生成方法为：统计字符码二进制码中偶数位“1”的个数，个数为奇数则为1，偶数则为0。

进一步地，为避免重复，对于经常使用的文字或字符的点阵生成多个字符码。

有益效果

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

本发明存储方法能够避免产生大段的重复DNA序列，克服了文字点阵DNA存储方法的不足；

本发明采用较短长度的DNA字符码记录文字信息，极大地提高了存储密度；

本发明存储方法原理步骤简单，便于在本技术领域推广应用。

附图说明

图1为本发明方法的流程框图；

图2为本发明校验码产生的示例图。

具体实施方式

为进一步了解本发明的内容，结合附图和具体实施方式对本发明作详细描述。

图1为本发明DNA字符码存储文字点阵的方法步骤图，方法将字库中的每个文字或字符使用一段8-10个碱基的DNA序列来表示，所生成的字符码为N+1的方式，如10位字符码的前9位DNA碱基序列为随机生成，最后1位则是依据前9位所生成的校验码，来校验这9位字符码是否发生错误。

通过校验码可以判断在DNA存储的过程中是否发生了基因突变而导致字符码发生变化，一般来说DNA复制的过程中，出现错误一个碱基的概率小于10^-6，如果在这10位的字符码种出现了一个错误碱基，那么校验码和前面的9位便会出现不匹配的现象。校验码的规则是按照ACGT的二进制编码共18位排在一起，奇数位如有奇数个1则为1，偶数个1则为0，同样偶数位如有奇数个1则为1，偶数个1则为0，最终奇数位和偶数位形成的00，01，10或者 11再转变成ACGT形成校验码。图2所示为初始字符码生成校验码的例子，这里9位字符码TCTATGTTC生成校验码C，则该汉字的最终校验码为TCTATGTTCC。

在字典中，每个文字或字符点阵的DNA序列的前后均使用相同的字符码表示其开始和终止，文字信息直接使用其字符码进行存储。N+1位字符码中，N的长度决定了字库的容量，例如4位碱基(ACGT)的字符码，字符库最多可以包含有4⁴，就是256个不同的字符；而9位的则有4⁹，即超过26万个不同的字符。

采用点阵库进行存储时，每个汉字的点阵都包括上百个DNA碱基序列，在每一段信息中，相同的汉字其序列相同，将会极大影响DNA的复制合成。使用字符码后，其长度降低为不超过10个碱基，基本上可以避免大段重复序列的出现。对经常频繁出现的文字或者字符，例如最常使用的部分文字，标点符号的逗号和句号，可分配多个不同的字符码，从而进一步减少存储时重复的DNA序列。同时，采用字符码的方式来记录文字信息的方法比单独使用点阵字符能够提高数十倍的存储密度。

据统计，大多数书籍使用的不同的字数并不多，中文版《圣经》使用了3100多个不同的汉字，《新华字典》中所收录的汉字在10000个左右，英文版《圣经》则使用了约11000个不同的英语单词。使用本发明的方法时，以10位字符码（9+1）为例，其字符码总容量为4⁹个，大约27万个，采用这种大容量字符码能够有足够的冗余度，可以对使用频率较高的文字或者符号，采用多个点阵和字符码，以减少重复DNA的重复序列。另外对于绝大多数要存储的信息而言，使用2万个字符码已经足够,相当于使用了其27万总容量的不到10%，若记录信息的字符码DNA序列在保存过程中发生了随机突变，除了字符码本身和校验码会不一致以外，在点阵字库字典中也有超过90%的可能性找不到该错误字符码所对应的字符点阵，进一步可判断出字符码出错，这种方法便于在后续的信息读取过程中进行及时纠正。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种使用DNA字符码存储文字点阵的方法，其特征在于，包括以下步骤：

步骤S1，面向字库中的每个文字或字符的点阵，随机生成一段长度为N的DNA碱基作为字符码；

步骤S2，基于步骤S1中字符码的二进制码生成校验码，并添加到字符码的末尾，形成带有校验码的字符码；

步骤S3，将步骤S2中所得字符码添加到其对应的文字或字符点阵的开头和末尾，并添加到字典中；

步骤S4，使用步骤S2所得DNA字符码对文字点阵进行存储。

2.如权利要求1所述的一种使用DNA字符码存储文字点阵的方法，其特征在于，所述步骤S2中的校验码为一个DNA碱基，校验码二进制码首位的生成方法为：统计字符码二进制码中奇数位“1”的个数，个数为奇数则为1，偶数则为0；

校验码二进制码次位的生成方法为：统计字符码二进制码中偶数位“1”的个数，个数为奇数则为1，偶数则为0。

3.如权利要求1所述的一种使用DNA字符码存储文字点阵的方法，其特征在于，所述步骤S2中所生成的字符码长度为8-10个DNA碱基。

4.如权利要求1所述的一种使用DNA字符码存储文字点阵的方法，其特征在于，对于经常使用的文字或字符的点阵，步骤S1中生成多个字符码。