CN114678074A - 一种隐藏寻址的dna存储编码设计方法 - Google Patents

一种隐藏寻址的dna存储编码设计方法 Download PDF

Info

Publication number
CN114678074A
CN114678074A CN202210373179.XA CN202210373179A CN114678074A CN 114678074 A CN114678074 A CN 114678074A CN 202210373179 A CN202210373179 A CN 202210373179A CN 114678074 A CN114678074 A CN 114678074A
Authority
CN
China
Prior art keywords
data
dna
group
dna fragments
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210373179.XA
Other languages
English (en)
Inventor
王宾
王鹏浩
陈蓉蓉
张强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN202210373179.XA priority Critical patent/CN114678074A/zh
Publication of CN114678074A publication Critical patent/CN114678074A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种隐藏寻址的DNA存储编码设计方法,包括:首先要将信息转换为二进制数据,并将数据分组、组内分段。其次,在每组数据中通过喷泉编码方式将数据异或并转化为DNA序列。然后,将每组数据中满足约束条件的DNA片段保留。最后,从每组数据中选出能够代表此序列的索引片段及7个配合索引解码的DNA片段,依次连接并输出。本发明因为在组内的数据片段异或,转化为满足约束条件的DNA片段使得DNA序列的局部GC含量更稳定,提高了序列的测序正确性。同时选取的用于隐藏索引的DNA片段为数据异或产生,所以相似性较低,可以避免序列拼接过程中因为索引相似度过高导致的拼接错误。

Description

一种隐藏寻址的DNA存储编码设计方法
技术领域
本发明涉及编码设计技术领域,具体涉及一种隐藏寻址的DNA存储编码设计方法。
背景技术
目前,面对全球数据量呈指数级的增长趋势,传统的存储介质已不能满足对海量数据的存储需求,DNA作为一种天然的存储介质具有体积小、存储密度高等优势,可以提供一种稳定、高效、可持续的海量数据存储解决方案。直到21世纪初,Church等人首次以体外合成DNA的方式存储了659KB数据,并最终能够无损恢复原始数据。这项试验的成功打破了人们早期只能利用DNA存储少量字节的束缚,而在这项工作之前,最大的存储数据量小于1KB。Goldman等人设计的DNA序列存储数据更多,达到了739KB。这两项试验的成功掀起了包括哈佛大学、哥伦比亚大学等众多科研人员的研究高潮,将DNA存储推向一个新的研究热点方向。
DNA作为一种新型的存储技术,一般来讲,首先将数据通过某种映射方式将其转化成DNA序列,然后采用体外合成方式对数据进行存储,最后通过测序解码还原始数据。目前受DNA合成技术的限制,需要将DNA序列分段存储数据,这样就需要索引对数据进行重建,但是添加索引序列会造成DNA序列合成及测序成本增加。
发明内容
针对现有技术存在上述缺陷,本申请提出了一种隐藏寻址的DNA存储编码设计方法,其得到的序列局部均满足GC含量在40%–60%之间且均聚物运行长度不超过4的约束条件。
为实现上述目的,本申请的技术方案为:一种隐藏寻址的DNA存储编码设计方法,包括:
步骤1:获取输入数据并转换为二进制数据,将所述二进制数据进行分组,并在每组的数据内分段,保证数据之间的独立性,便于后续文件的随机访问;根据分段情况生成鲁棒孤波度分布函数;
步骤2:根据所述鲁棒孤波度分布函数确定一个度,再选取一个随机种子(小于1024),所述种子与所述度一一对应,以便于喷泉编码的解码;
步骤3:在数据组内选取度个数据段进行异或,并将所述种子置于异或数据前形成异或数据段;
步骤4:按照{00,01,10,11}→{A,C,G,T}的映射方式将所述异或数据段转化成DNA片段;
步骤5:根据GC含量及均聚物筛选器的约束条件对所述DNA片段进行过滤,将满足约束条件的DNA片段暂且保留,不满足约束条件的DNA片段直接丢弃;通过约束条件提高了序列测序过程中的正确率;
步骤6:每组数据中都进行步骤2-5的操作,直至将所有种子用尽,该组数据编码完成;
步骤7:将编码完成的每组数据都进行一个喷泉编码过程,实现由数据到DNA序列的转换。
进一步的,上述方法还包括:
步骤8:从每组数据保留的DNA片段中选出索引片段作为该DNA片段序列的索引;用于替代索引的DNA片段之间相似性较低,以降低DNA序列在拼接过程中出现错误的概率;
步骤9:再从每组数据保留的DNA片段中选出数个配合索引进行解码的DNA片段,将其与索引片段依次连接;
步骤10:最后将每组数据对应的DNA序列输出,编码完成。
进一步的,所述鲁棒孤波度分布函数获取方式为:
设理想孤波分布ρ(d)为整数上的概率分布函数,d∈[1,Z],其中Z是分布中的唯一参数,其为:
Figure BDA0003589600250000031
设τ(d)为概率分布函数,其为:
Figure BDA0003589600250000032
在这里c>0为一个常数,δ∈(0,1]为设定译码概率的上界,d为输入变量,因此,鲁棒孤波度分布函数被定义为:
Figure BDA0003589600250000033
其中K是归一化参数,K=∑dρ(d)+τ(d)=1。
本发明由于采用以上技术方案,能够取得如下的技术效果:
1、本发明首先利用喷泉编码构建能实现隐藏寻址信息的DNA序列,并且利用分组使数据相互独立,隐藏的索引方式能够对文件进行随机访问;
2、采用边合成边测序的方式进行读取序列,所以在编码DNA序列过程中控制序列的局部GC含量及均聚物,会使得序列热力学性质更好,从而不仅促进了序列的局部稳定性还提高了解码的正确率。本发明在短数据编码过程中就实现了提高编码序列的局部性能,促进了序列局部稳定性。
3、本发明用于隐藏寻址的数据相互独立,从而相似性差,也提高了序列在解码过程中的正确率。
附图说明
图1为一种隐藏寻址的DNA存储编码设计方法实现流程图。
具体实施方式
下面将结合本发明中的附图,对本发明实施中的技术方案进行清楚、完整的描述,可以理解的是,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域的技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明中所涉及的约束条件有GC含量在40%到60%之间和均聚物运行长度不能超过4。其中,GC含量指的是在一条DNA序列中,碱基G和碱基C所占整个DNA序列中碱基的百分比;均聚物运行长度不能超过4表示在一个DNA序列中相同的碱基不能连续出现4次及以上。
实施例1
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。实施例中用上述方法对一个大小为529B的文本文件进行编码,且满足的约束条件如上所述。
步骤1:获取输入数据并转换为二进制数据,将所述二进制数据分为22组,并在每组的数据内分为8段,每段34位二进制;根据分段情况生成鲁棒孤波度分布函数;
步骤2:根据所述鲁棒孤波度分布函数确定一个度,再选取一个随机种子(小于1024,共10位二进制),所述种子与所述度一一对应,以便于喷泉编码的解码;
步骤3:在数据组内选取度个数据段进行异或,并将所述种子置于异或数据前形成异或数据段;
步骤4:按照{00,01,10,11}→{A,C,G,T}的映射方式将所述异或数据段转化成DNA片段;
步骤5:根据GC含量及均聚物筛选器的约束条件对所述DNA片段进行过滤,将满足约束条件的DNA片段暂且保留,不满足约束条件的DNA片段直接丢弃;
步骤6:22组数据中都进行步骤2-5的操作,直至将所有种子用尽,该组数据编码完成;
步骤7:将编码完成的每组数据都进行一个喷泉编码过程,实现由数据到DNA序列的转换;
步骤8:从每组数据保留的DNA片段中选出索引片段作为该DNA片段序列的索引;
步骤9:再从每组数据保留的DNA片段中选出7个配合索引进行解码的DNA片段,将其与索引片段依次连接;
步骤10:最后将每组数据对应的DNA序列输出,编码完成;
具体的编码DNA序列如表1所示
表1 DNA序列
Figure BDA0003589600250000061
Figure BDA0003589600250000071
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (3)

1.一种隐藏寻址的DNA存储编码设计方法,其特征在于,包括:
步骤1:获取输入数据并转换为二进制数据,将所述二进制数据进行分组,并在每组的数据内分段,根据分段情况生成鲁棒孤波度分布函数;
步骤2:根据所述鲁棒孤波度分布函数确定一个度,再选取一个随机种子,所述种子与所述度一一对应;
步骤3:在数据组内选取度个数据段进行异或,并将所述种子置于异或数据前形成异或数据段;
步骤4:按照{00,01,10,11}→{A,C,G,T}的映射方式将所述异或数据段转化成DNA片段;
步骤5:根据GC含量及均聚物筛选器的约束条件对所述DNA片段进行过滤,将满足约束条件的DNA片段暂且保留,不满足约束条件的DNA片段直接丢弃;
步骤6:每组数据中都进行步骤2-5的操作,直至将所有种子用尽,该组数据编码完成;
步骤7:将编码完成的每组数据都进行一个喷泉编码过程,实现由数据到DNA序列的转换。
2.根据权利要求1所述一种隐藏寻址的DNA存储编码设计方法,其特征在于,还包括:
步骤8:从每组数据保留的DNA片段中选出索引片段作为该DNA片段序列的索引;
步骤9:再从每组数据保留的DNA片段中选出数个配合索引进行解码的DNA片段,将其与索引片段依次连接;
步骤10:最后将每组数据对应的DNA序列输出,编码完成。
3.根据权利要求1所述一种隐藏寻址的DNA存储编码设计方法,其特征在于,所述鲁棒孤波度分布函数获取方式为:
设理想孤波分布ρ(d)为整数上的概率分布函数,d∈[1,Z],其中Z是分布中的唯一参数,其为:
Figure FDA0003589600240000021
设τ(d)为概率分布函数,其为:
Figure FDA0003589600240000022
在这里c>0为一个常数,δ∈(0,1]为设定译码概率的上界,d为输入变量,因此,鲁棒孤波度分布函数被定义为:
Figure FDA0003589600240000023
其中K是归一化参数,K=∑dρ(d)+τ(d)=1。
CN202210373179.XA 2022-04-11 2022-04-11 一种隐藏寻址的dna存储编码设计方法 Pending CN114678074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210373179.XA CN114678074A (zh) 2022-04-11 2022-04-11 一种隐藏寻址的dna存储编码设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210373179.XA CN114678074A (zh) 2022-04-11 2022-04-11 一种隐藏寻址的dna存储编码设计方法

Publications (1)

Publication Number Publication Date
CN114678074A true CN114678074A (zh) 2022-06-28

Family

ID=82078289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210373179.XA Pending CN114678074A (zh) 2022-04-11 2022-04-11 一种隐藏寻址的dna存储编码设计方法

Country Status (1)

Country Link
CN (1) CN114678074A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187435B (zh) * 2022-12-19 2024-01-05 武汉大学 基于大小喷泉码及mrc算法利用dna进行信息存储方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187435B (zh) * 2022-12-19 2024-01-05 武汉大学 基于大小喷泉码及mrc算法利用dna进行信息存储方法及系统

Similar Documents

Publication Publication Date Title
CN109830263B (zh) 一种基于寡核苷酸序列编码存储的dna存储方法
CN112711935B (zh) 编码方法、解码方法、装置及计算机可读存储介质
CN103546160B (zh) 基于多参考序列的基因序列分级压缩方法
CN100367189C (zh) 编码脱氧核糖核酸序列的方法和装置
CN100517979C (zh) 一种数据压缩及解压缩方法
WO2018148260A1 (en) Apparatus, method and system for digital information storage in deoxyribonucleic acid (dna)
JP2020534633A (ja) Dnaベースのデータストレージ及びデータ取り出し
CN111600609B (zh) 一种优化中文存储的dna存储编码方法
EP2947779A1 (en) Method and apparatus for storing information units in nucleic acid molecules and nucleic acid storage system
CN110442472B (zh) 一种dna数据存储混合错误纠正与数据恢复方法
CN110021369B (zh) 基因测序数据压缩解压方法、系统及计算机可读介质
CN110867213B (zh) 一种dna数据的存储方法和装置
CN102970043A (zh) 一种基于gzip的压缩硬件系统及其加速方法
CN112527736A (zh) 基于dna的数据存储方法、数据恢复方法及终端设备
CN114678074A (zh) 一种隐藏寻址的dna存储编码设计方法
CN108900196A (zh) 一种基于lzw算法的数据解码方法、装置、设备及介质
CN114268323B (zh) 支持行存的数据压缩编码方法、装置及时序数据库
CN117216023B (zh) 一种大规模网络数据存储方法及系统
CN110310709B (zh) 一种基于参考序列的基因压缩方法
Wu et al. HD-code: End-to-end high density code for DNA storage
CN111243670A (zh) 一种满足生物约束的dna信息存储编码方法
CN114024952B (zh) 一种基于dl/t 698.45-2007协议的文件压缩传输方法
CN102651795B (zh) 游长缩减的二元序列压缩编码方法
WO2022120626A1 (zh) 基于dna的数据存储方法、数据恢复方法、装置及终端设备
CN116564424A (zh) 基于纠删码与组装技术的dna数据存储方法、读取方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination