CN111243670A - 一种满足生物约束的dna信息存储编码方法 - Google Patents

一种满足生物约束的dna信息存储编码方法 Download PDF

Info

Publication number
CN111243670A
CN111243670A CN202010076358.8A CN202010076358A CN111243670A CN 111243670 A CN111243670 A CN 111243670A CN 202010076358 A CN202010076358 A CN 202010076358A CN 111243670 A CN111243670 A CN 111243670A
Authority
CN
China
Prior art keywords
code words
binary
information storage
length
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010076358.8A
Other languages
English (en)
Inventor
张淑芳
黄贝贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010076358.8A priority Critical patent/CN111243670A/zh
Publication of CN111243670A publication Critical patent/CN111243670A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种满足生物约束的DNA信息存储编码方法,步骤1、编码过程:生成某一码字长度下所有的序列,利用剪枝优化算法至少过滤掉不满足均聚物和G、C含量生物约束的序列,得到满足要求的所有码字及对应的二进制位数与理论存储密度,将各码字与二进制位的值一一对应生成码本;将存储文件的二进制流进行九位扫描,按照生成的码本将二进制位的值映射为相应码字,进行奇偶校验位,并将码字连接为150nt左右待合成的载体寡核苷酸链;步骤2、解码过程:扫描得到载体寡核苷酸链,去除奇偶校验位,连接为全长碱基序列,按照编码规则将碱基序列反映射为对应的二进制流。本发明较传统DNA信息随机存取方法具有较快的处理速度和较高的DNA信息存储密度。

Description

一种满足生物约束的DNA信息存储编码方法
技术领域
本发明涉及DNA信息存储领域技术领域,特别是涉及一种DNA信息存储编码方法。
背景技术
互联网时代的兴起及相关技术的发展使得数字化数据量飞速增加,到2020年有望达到44万亿GB,相较于2013年增加了10倍。现有数据存储介质主要依赖于硅制的微电子存储介质,然而其供应量很难满足存储需求。分析结果预测,2040年全球数据存储需要超过1000千克的晶圆级硅,但是2040年硅单晶片供应量仅有108千克。因此,迫切需要新型、可持续的数据存储设备的新发明。
大自然为人们提供了上述技术问题潜在的解决办法。DNA信息存储技术是将二进制数据转换为人工合成的DNA链的编码过程。当进行DNA编码进行数据恢复时,首先对DNA链进行测序,然后根据编码规则反映射到初始的数字序列。在DNA测序过程中可能发生如替换、插入和删除等一些操作错误。为减小错误产生概率,进行测序的DNA序列应满足以下生物约束:1)均聚物应避免连续出现相同的碱基;2)碱基G、C含量在序列中应占40%-60%。
近年来,DNA信息存储编码方法研究取得了重大进展。研究者针对DNA信息存储系统中的生物约束问题进行了研究,提出了一系列有关均聚物、G、C含量等约束的码字设计方法。然而其中有些方法的信息存储密度不高,无法充分利用DNA这一优质存储介质。
发明内容
针对目前DNA信息存储技术中涉及的生物约束问题,本发明提出一种满足生物约束的DNA信息存储编码方法,该方法利用剪枝优化算法生成满足这两个约束的某一固定长度的码字,这些码字连接起来即得到碱基序列,极大地提高了DNA信息存储密度与效率。
本发明的一种满足生物约束的DNA信息存储编码方法,该方法包括以下步骤:
步骤1、编码过程:首先生成某一码字长度下所有可能的序列,利用剪枝优化算法至少过滤掉不满足均聚物和G、C含量生物约束的序列,使得进行测序的DNA序列应满足均聚物和G、C含量等生物约束,得到该长度下满足要求的所有码字及其对应的二进制位数与理论存储密度,将得到的长度为5nt的各码字与二进制位的值一一对应生成码本,将待存储文件的二进制流进行九位扫描,按照生成的码本将二进制位的值映射为相应码字,进行奇偶校验位,并将码字连接为150nt左右待合成的载体寡核苷酸链;
步骤2、解码过程,对进行DNA测序得到的读数进行扫描得到载体寡核苷酸链,去除奇偶校验位,并将其连接为全长碱基序列,之后按照编码规则将碱基序列反映射为对应的二进制流,即完成了信息的恢复。
本发明较传统DNA信息随机存取方法具有较快的处理速度,同时获得了较高的DNA信息存储密度。
附图说明
图1为本发明的一种满足生物约束的DNA信息存储编码方法整体流程图示意图。
具体实施方式
下面将结合附图,对本发明技术发明进行清楚、完整地描述。
如图1所示,为本发明的一种满足生物约束的DNA信息存储编码方法整体流程示意图。利用剪枝优化算法生成满足这两个约束的某一固定长度的码字,这些码字连接起来即得到碱基序列。该方法具体包括以下步骤:
步骤1、编码过程:首先生成某一码字长度下所有可能的序列,为降低DNA测序错误发生概率,利用剪枝优化算法过滤掉不满足均聚物和G、C含量等生物约束的序列,使得进行测序的DNA序列应满足均聚物和G、C含量等生物约束;得到该长度下满足要求的所有码字及其对应的二进制位数与理论存储密度。理论上,码字越长,符合要求的序列越多,序列数对应的二进制位数也越多。但序列数和其对应的二进制位数间的关系是指数型的,因此随着码字长度的单调增加,二进制位数与码字长度的比值即理论信息存储密度并不总是单调增加的。经比较,本发明所以选用的存储密度较高的码字长度为5nt。该情况下的理论存储密度较高,为1.8bits/nt,非常接近2bits/nt的极限值。选定方案后,将得到的长度为5nt的各码字与二进制位的值一一对应生成码本,将待存储文件的二进制流进行九位扫描,按照生成的码本将二进制位的值映射为相应码字,进行奇偶校验位,并将码字连接为150nt左右待合成的载体寡核苷酸链;
步骤2、解码过程,对进行DNA测序得到的读数进行扫描得到载体寡核苷酸链,去除奇偶校验位,并将其连接为全长碱基序列,之后按照编码规则将碱基序列反映射为对应的二进制流,即完成了信息的恢复。
为了验证本发明提出的一种满足生物约束的DNA信息存储编码方法的可行性与性能,进行以下实验:对多个文件进行编码实验以评价提出的编码方法的性能,进行生物实验以验证该DNA信息存储发明的实际可行性。编码实验中,对待存储文件进行测试,实验结果表明,可高效地完美恢复原始文件,说明该编码方法是无损编码;信息存储密度优于现有方法;可以做到对生物约束的控制及对合成测序过程中可能出现的错误的控制。生物实验结果表明,通过DNA合成、DNA测序和解码,原始图像可以完美恢复出来。
本发明的满足生物约束的DNA信息存储编码方法。此发明将最优化算法应用于DNA信息存储中的实例,取得了较高的DNA信息存储密度与存储效率。编码方法使用码本生成算法来达到DNA序列对生物约束的要求,且取得了1.8bits/nt的编码潜能,非常接近2bits/nt的理论极限。考虑到碱基序列的长度小于150nt时DNA合成错误可以被很好地控制,本发明还设计了长度较短的载体寡核苷酸链。为降低DNA测序错误发生概率,进行测序的DNA序列应满足均聚物和G、C含量等生物约束。本发明提出的二进制流到DNA碱基的编码算法考虑了上述生物约束,使得错误发生的概率大大降低。设计了码本生成算法来生成一系列满足生物约束的固定长度的DNA片段,对数据信息编码时,每个信息片段都有一个特定的码本。信息恢复时,也将使用同样的码本进行解码。

Claims (1)

1.一种满足生物约束的DNA信息存储编码方法,其特征在于,该方法包括以下步骤:
步骤1、编码过程:首先生成某一码字长度下所有可能的序列,利用剪枝优化算法至少过滤掉不满足均聚物和G、C含量生物约束的序列,使得进行测序的DNA序列应满足均聚物和G、C含量等生物约束,得到该长度下满足要求的所有码字及其对应的二进制位数与理论存储密度,将得到的长度为5nt的各码字与二进制位的值一一对应生成码本,将待存储文件的二进制流进行九位扫描,按照生成的码本将二进制位的值映射为相应码字,进行奇偶校验位,并将码字连接为150nt左右待合成的载体寡核苷酸链;
步骤2、解码过程:对DNA测序得到的读数进行扫描得到载体寡核苷酸链,去除奇偶校验位,并连接为全长碱基序列,之后按照编码规则将碱基序列反映射为对应的二进制流,即完成了信息的恢复。
CN202010076358.8A 2020-01-23 2020-01-23 一种满足生物约束的dna信息存储编码方法 Pending CN111243670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010076358.8A CN111243670A (zh) 2020-01-23 2020-01-23 一种满足生物约束的dna信息存储编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010076358.8A CN111243670A (zh) 2020-01-23 2020-01-23 一种满足生物约束的dna信息存储编码方法

Publications (1)

Publication Number Publication Date
CN111243670A true CN111243670A (zh) 2020-06-05

Family

ID=70876328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010076358.8A Pending CN111243670A (zh) 2020-01-23 2020-01-23 一种满足生物约束的dna信息存储编码方法

Country Status (1)

Country Link
CN (1) CN111243670A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737955A (zh) * 2020-06-24 2020-10-02 任兆瑞 一种使用dna字符码存储文字点阵的方法
CN113314187A (zh) * 2021-05-27 2021-08-27 广州大学 一种数据存储方法、解码方法、系统、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140232574A1 (en) * 2013-01-10 2014-08-21 Dan ALONI System, method and non-transitory computer readable medium for compressing genetic information
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法
CN109074424A (zh) * 2016-05-04 2018-12-21 深圳华大生命科学研究院 利用dna存储文本信息的方法、其解码方法及应用
US20190050495A1 (en) * 2018-06-19 2019-02-14 Intel Corporation Data storage based on encoded dna sequences
CN109460822A (zh) * 2018-11-19 2019-03-12 天津大学 基于dna的信息存储方法
CN109979540A (zh) * 2018-11-29 2019-07-05 天津大学 一种dna信息存储编码方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140232574A1 (en) * 2013-01-10 2014-08-21 Dan ALONI System, method and non-transitory computer readable medium for compressing genetic information
CN109074424A (zh) * 2016-05-04 2018-12-21 深圳华大生命科学研究院 利用dna存储文本信息的方法、其解码方法及应用
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法
US20190050495A1 (en) * 2018-06-19 2019-02-14 Intel Corporation Data storage based on encoded dna sequences
CN109460822A (zh) * 2018-11-19 2019-03-12 天津大学 基于dna的信息存储方法
CN109979540A (zh) * 2018-11-29 2019-07-05 天津大学 一种dna信息存储编码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AKHMETOV AZAT等: ""A highly parallel strategy for storage of", 《BMC BIOTECHNOLOGY》 *
张淑芳等: ""DNA 数据存储技术研究进展"", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737955A (zh) * 2020-06-24 2020-10-02 任兆瑞 一种使用dna字符码存储文字点阵的方法
CN113314187A (zh) * 2021-05-27 2021-08-27 广州大学 一种数据存储方法、解码方法、系统、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109830263B (zh) 一种基于寡核苷酸序列编码存储的dna存储方法
Wang et al. Construction of bio-constrained code for DNA data storage
JP4801776B2 (ja) データ圧縮
Dimopoulou et al. A biologically constrained encoding solution for long-term storage of images onto synthetic DNA
CN109979540B (zh) 一种dna信息存储编码方法
KR101049699B1 (ko) 데이터의 압축방법
CN107798219B (zh) 将数据进行生物存储并还原的方法
CN110932736B (zh) 一种基于Raptor码及四进制RS码的DNA信息存储方法
WO2010051733A1 (zh) 一种编码、解码、编解码方法、编解码系统以及相关装置
Gabrys et al. Unique reconstruction of coded sequences from multiset substring spectra
CN111243670A (zh) 一种满足生物约束的dna信息存储编码方法
Jain et al. Coding for optimized writing rate in DNA storage
KR20150092585A (ko) 이진 영상에 기반한 유전체 데이터 압축 방법 및 장치
Mishra et al. Compressed DNA coding using minimum variance Huffman tree
CN115459781A (zh) 一种基于静态交织编码的长序列dna存储编码方法
Shomorony et al. Torn-paper coding
Park et al. Iterative coding scheme satisfying gc balance and run-length constraints for dna storage with robustness to error propagation
Yang et al. Universal lossless data compression with side information by using a conditional MPM grammar transform
Chrisnata et al. Deletion Correcting Codes for Efficient DNA Synthesis
CN116187435B (zh) 基于大小喷泉码及mrc算法利用dna进行信息存储方法及系统
JP4758494B2 (ja) ビット長を符号に変換する回路及び方法
CN115297218A (zh) 基于哈夫曼编码规则和位置图压缩的可逆数据隐藏方法
CN114023392A (zh) 一种dna存储的码字设计方法
Wu et al. HD-code: End-to-end high density code for DNA storage
Zhang et al. High-density information storage and random access scheme using synthetic DNA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200605