CN114678074A

CN114678074A - 一种隐藏寻址的dna存储编码设计方法

Info

Publication number: CN114678074A
Application number: CN202210373179.XA
Authority: CN
Inventors: 王宾; 王鹏浩; 陈蓉蓉; 张强
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-06-28

Abstract

本发明公开了一种隐藏寻址的DNA存储编码设计方法，包括：首先要将信息转换为二进制数据，并将数据分组、组内分段。其次，在每组数据中通过喷泉编码方式将数据异或并转化为DNA序列。然后，将每组数据中满足约束条件的DNA片段保留。最后，从每组数据中选出能够代表此序列的索引片段及7个配合索引解码的DNA片段，依次连接并输出。本发明因为在组内的数据片段异或，转化为满足约束条件的DNA片段使得DNA序列的局部GC含量更稳定，提高了序列的测序正确性。同时选取的用于隐藏索引的DNA片段为数据异或产生，所以相似性较低，可以避免序列拼接过程中因为索引相似度过高导致的拼接错误。

Description

一种隐藏寻址的DNA存储编码设计方法

技术领域

本发明涉及编码设计技术领域，具体涉及一种隐藏寻址的DNA存储编码设计方法。

背景技术

目前，面对全球数据量呈指数级的增长趋势，传统的存储介质已不能满足对海量数据的存储需求，DNA作为一种天然的存储介质具有体积小、存储密度高等优势，可以提供一种稳定、高效、可持续的海量数据存储解决方案。直到21世纪初，Church等人首次以体外合成DNA的方式存储了659KB数据，并最终能够无损恢复原始数据。这项试验的成功打破了人们早期只能利用DNA存储少量字节的束缚，而在这项工作之前，最大的存储数据量小于1KB。Goldman等人设计的DNA序列存储数据更多，达到了739KB。这两项试验的成功掀起了包括哈佛大学、哥伦比亚大学等众多科研人员的研究高潮，将DNA存储推向一个新的研究热点方向。

DNA作为一种新型的存储技术，一般来讲，首先将数据通过某种映射方式将其转化成DNA序列，然后采用体外合成方式对数据进行存储，最后通过测序解码还原始数据。目前受DNA合成技术的限制，需要将DNA序列分段存储数据，这样就需要索引对数据进行重建，但是添加索引序列会造成DNA序列合成及测序成本增加。

发明内容

针对现有技术存在上述缺陷，本申请提出了一种隐藏寻址的DNA存储编码设计方法，其得到的序列局部均满足GC含量在40％–60％之间且均聚物运行长度不超过4的约束条件。

为实现上述目的，本申请的技术方案为：一种隐藏寻址的DNA存储编码设计方法，包括：

步骤1：获取输入数据并转换为二进制数据，将所述二进制数据进行分组，并在每组的数据内分段，保证数据之间的独立性，便于后续文件的随机访问；根据分段情况生成鲁棒孤波度分布函数；

步骤2：根据所述鲁棒孤波度分布函数确定一个度，再选取一个随机种子(小于1024)，所述种子与所述度一一对应，以便于喷泉编码的解码；

步骤3：在数据组内选取度个数据段进行异或，并将所述种子置于异或数据前形成异或数据段；

步骤4：按照{00，01，10，11}→{A,C,G,T}的映射方式将所述异或数据段转化成DNA片段；

步骤5：根据GC含量及均聚物筛选器的约束条件对所述DNA片段进行过滤，将满足约束条件的DNA片段暂且保留，不满足约束条件的DNA片段直接丢弃；通过约束条件提高了序列测序过程中的正确率；

步骤6：每组数据中都进行步骤2-5的操作，直至将所有种子用尽，该组数据编码完成；

步骤7：将编码完成的每组数据都进行一个喷泉编码过程，实现由数据到DNA序列的转换。

进一步的，上述方法还包括：

步骤8：从每组数据保留的DNA片段中选出索引片段作为该DNA片段序列的索引；用于替代索引的DNA片段之间相似性较低，以降低DNA序列在拼接过程中出现错误的概率；

步骤9：再从每组数据保留的DNA片段中选出数个配合索引进行解码的DNA片段，将其与索引片段依次连接；

步骤10：最后将每组数据对应的DNA序列输出，编码完成。

进一步的，所述鲁棒孤波度分布函数获取方式为：

设理想孤波分布ρ(d)为整数上的概率分布函数，d∈[1,Z],其中Z是分布中的唯一参数，其为：

设τ(d)为概率分布函数，其为：

在这里c>0为一个常数，δ∈(0,1]为设定译码概率的上界，d为输入变量，因此，鲁棒孤波度分布函数被定义为：

其中K是归一化参数，K＝∑_dρ(d)+τ(d)＝1。

本发明由于采用以上技术方案，能够取得如下的技术效果：

1、本发明首先利用喷泉编码构建能实现隐藏寻址信息的DNA序列，并且利用分组使数据相互独立，隐藏的索引方式能够对文件进行随机访问；

2、采用边合成边测序的方式进行读取序列，所以在编码DNA序列过程中控制序列的局部GC含量及均聚物，会使得序列热力学性质更好，从而不仅促进了序列的局部稳定性还提高了解码的正确率。本发明在短数据编码过程中就实现了提高编码序列的局部性能，促进了序列局部稳定性。

3、本发明用于隐藏寻址的数据相互独立，从而相似性差，也提高了序列在解码过程中的正确率。

附图说明

图1为一种隐藏寻址的DNA存储编码设计方法实现流程图。

具体实施方式

下面将结合本发明中的附图，对本发明实施中的技术方案进行清楚、完整的描述，可以理解的是，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域的技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明中所涉及的约束条件有GC含量在40％到60％之间和均聚物运行长度不能超过4。其中，GC含量指的是在一条DNA序列中，碱基G和碱基C所占整个DNA序列中碱基的百分比；均聚物运行长度不能超过4表示在一个DNA序列中相同的碱基不能连续出现4次及以上。

实施例1

本发明的实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。实施例中用上述方法对一个大小为529B的文本文件进行编码，且满足的约束条件如上所述。

步骤1：获取输入数据并转换为二进制数据，将所述二进制数据分为22组，并在每组的数据内分为8段，每段34位二进制；根据分段情况生成鲁棒孤波度分布函数；

步骤2：根据所述鲁棒孤波度分布函数确定一个度，再选取一个随机种子(小于1024，共10位二进制)，所述种子与所述度一一对应，以便于喷泉编码的解码；

步骤5：根据GC含量及均聚物筛选器的约束条件对所述DNA片段进行过滤，将满足约束条件的DNA片段暂且保留，不满足约束条件的DNA片段直接丢弃；

步骤6：22组数据中都进行步骤2-5的操作，直至将所有种子用尽，该组数据编码完成；

步骤7：将编码完成的每组数据都进行一个喷泉编码过程，实现由数据到DNA序列的转换；

步骤8：从每组数据保留的DNA片段中选出索引片段作为该DNA片段序列的索引；

步骤9：再从每组数据保留的DNA片段中选出7个配合索引进行解码的DNA片段，将其与索引片段依次连接；

步骤10：最后将每组数据对应的DNA序列输出，编码完成；

具体的编码DNA序列如表1所示

表1 DNA序列

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种隐藏寻址的DNA存储编码设计方法，其特征在于，包括：

步骤1：获取输入数据并转换为二进制数据，将所述二进制数据进行分组，并在每组的数据内分段，根据分段情况生成鲁棒孤波度分布函数；

步骤2：根据所述鲁棒孤波度分布函数确定一个度，再选取一个随机种子，所述种子与所述度一一对应；

2.根据权利要求1所述一种隐藏寻址的DNA存储编码设计方法，其特征在于，还包括：

步骤10：最后将每组数据对应的DNA序列输出，编码完成。

3.根据权利要求1所述一种隐藏寻址的DNA存储编码设计方法，其特征在于，所述鲁棒孤波度分布函数获取方式为：

设τ(d)为概率分布函数，其为：

其中K是归一化参数，K＝∑_dρ(d)+τ(d)＝1。