CN111243670A

CN111243670A - 一种满足生物约束的dna信息存储编码方法

Info

Publication number: CN111243670A
Application number: CN202010076358.8A
Authority: CN
Inventors: 张淑芳; 黄贝贝
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-01-23
Filing date: 2020-01-23
Publication date: 2020-06-05

Abstract

本发明公开了一种满足生物约束的DNA信息存储编码方法，步骤1、编码过程：生成某一码字长度下所有的序列，利用剪枝优化算法至少过滤掉不满足均聚物和G、C含量生物约束的序列，得到满足要求的所有码字及对应的二进制位数与理论存储密度，将各码字与二进制位的值一一对应生成码本；将存储文件的二进制流进行九位扫描，按照生成的码本将二进制位的值映射为相应码字，进行奇偶校验位，并将码字连接为150nt左右待合成的载体寡核苷酸链；步骤2、解码过程：扫描得到载体寡核苷酸链，去除奇偶校验位，连接为全长碱基序列，按照编码规则将碱基序列反映射为对应的二进制流。本发明较传统DNA信息随机存取方法具有较快的处理速度和较高的DNA信息存储密度。

Description

一种满足生物约束的DNA信息存储编码方法

技术领域

本发明涉及DNA信息存储领域技术领域，特别是涉及一种DNA信息存储编码方法。

背景技术

互联网时代的兴起及相关技术的发展使得数字化数据量飞速增加，到2020年有望达到44万亿GB，相较于2013年增加了10倍。现有数据存储介质主要依赖于硅制的微电子存储介质，然而其供应量很难满足存储需求。分析结果预测，2040年全球数据存储需要超过1000千克的晶圆级硅，但是2040年硅单晶片供应量仅有108千克。因此，迫切需要新型、可持续的数据存储设备的新发明。

大自然为人们提供了上述技术问题潜在的解决办法。DNA信息存储技术是将二进制数据转换为人工合成的DNA链的编码过程。当进行DNA编码进行数据恢复时，首先对DNA链进行测序，然后根据编码规则反映射到初始的数字序列。在DNA测序过程中可能发生如替换、插入和删除等一些操作错误。为减小错误产生概率，进行测序的DNA序列应满足以下生物约束：1)均聚物应避免连续出现相同的碱基；2)碱基G、C含量在序列中应占40％-60％。

近年来，DNA信息存储编码方法研究取得了重大进展。研究者针对DNA信息存储系统中的生物约束问题进行了研究，提出了一系列有关均聚物、G、C含量等约束的码字设计方法。然而其中有些方法的信息存储密度不高，无法充分利用DNA这一优质存储介质。

发明内容

针对目前DNA信息存储技术中涉及的生物约束问题，本发明提出一种满足生物约束的DNA信息存储编码方法，该方法利用剪枝优化算法生成满足这两个约束的某一固定长度的码字，这些码字连接起来即得到碱基序列，极大地提高了DNA信息存储密度与效率。

本发明的一种满足生物约束的DNA信息存储编码方法，该方法包括以下步骤：

步骤1、编码过程：首先生成某一码字长度下所有可能的序列，利用剪枝优化算法至少过滤掉不满足均聚物和G、C含量生物约束的序列，使得进行测序的DNA序列应满足均聚物和G、C含量等生物约束，得到该长度下满足要求的所有码字及其对应的二进制位数与理论存储密度，将得到的长度为5nt的各码字与二进制位的值一一对应生成码本，将待存储文件的二进制流进行九位扫描，按照生成的码本将二进制位的值映射为相应码字，进行奇偶校验位，并将码字连接为150nt左右待合成的载体寡核苷酸链；

步骤2、解码过程，对进行DNA测序得到的读数进行扫描得到载体寡核苷酸链，去除奇偶校验位，并将其连接为全长碱基序列，之后按照编码规则将碱基序列反映射为对应的二进制流，即完成了信息的恢复。

本发明较传统DNA信息随机存取方法具有较快的处理速度，同时获得了较高的DNA信息存储密度。

附图说明

图1为本发明的一种满足生物约束的DNA信息存储编码方法整体流程图示意图。

具体实施方式

下面将结合附图，对本发明技术发明进行清楚、完整地描述。

如图1所示，为本发明的一种满足生物约束的DNA信息存储编码方法整体流程示意图。利用剪枝优化算法生成满足这两个约束的某一固定长度的码字，这些码字连接起来即得到碱基序列。该方法具体包括以下步骤：

步骤1、编码过程：首先生成某一码字长度下所有可能的序列，为降低DNA测序错误发生概率，利用剪枝优化算法过滤掉不满足均聚物和G、C含量等生物约束的序列，使得进行测序的DNA序列应满足均聚物和G、C含量等生物约束；得到该长度下满足要求的所有码字及其对应的二进制位数与理论存储密度。理论上，码字越长，符合要求的序列越多，序列数对应的二进制位数也越多。但序列数和其对应的二进制位数间的关系是指数型的，因此随着码字长度的单调增加，二进制位数与码字长度的比值即理论信息存储密度并不总是单调增加的。经比较，本发明所以选用的存储密度较高的码字长度为5nt。该情况下的理论存储密度较高，为1.8bits/nt，非常接近2bits/nt的极限值。选定方案后，将得到的长度为5nt的各码字与二进制位的值一一对应生成码本，将待存储文件的二进制流进行九位扫描，按照生成的码本将二进制位的值映射为相应码字，进行奇偶校验位，并将码字连接为150nt左右待合成的载体寡核苷酸链；

为了验证本发明提出的一种满足生物约束的DNA信息存储编码方法的可行性与性能，进行以下实验：对多个文件进行编码实验以评价提出的编码方法的性能，进行生物实验以验证该DNA信息存储发明的实际可行性。编码实验中，对待存储文件进行测试，实验结果表明，可高效地完美恢复原始文件，说明该编码方法是无损编码；信息存储密度优于现有方法；可以做到对生物约束的控制及对合成测序过程中可能出现的错误的控制。生物实验结果表明，通过DNA合成、DNA测序和解码，原始图像可以完美恢复出来。

本发明的满足生物约束的DNA信息存储编码方法。此发明将最优化算法应用于DNA信息存储中的实例，取得了较高的DNA信息存储密度与存储效率。编码方法使用码本生成算法来达到DNA序列对生物约束的要求，且取得了1.8bits/nt的编码潜能，非常接近2bits/nt的理论极限。考虑到碱基序列的长度小于150nt时DNA合成错误可以被很好地控制，本发明还设计了长度较短的载体寡核苷酸链。为降低DNA测序错误发生概率，进行测序的DNA序列应满足均聚物和G、C含量等生物约束。本发明提出的二进制流到DNA碱基的编码算法考虑了上述生物约束，使得错误发生的概率大大降低。设计了码本生成算法来生成一系列满足生物约束的固定长度的DNA片段，对数据信息编码时，每个信息片段都有一个特定的码本。信息恢复时，也将使用同样的码本进行解码。

Claims

1.一种满足生物约束的DNA信息存储编码方法，其特征在于，该方法包括以下步骤：

步骤2、解码过程：对DNA测序得到的读数进行扫描得到载体寡核苷酸链，去除奇偶校验位，并连接为全长碱基序列，之后按照编码规则将碱基序列反映射为对应的二进制流，即完成了信息的恢复。