CN111243670A - 一种满足生物约束的dna信息存储编码方法 - Google Patents
一种满足生物约束的dna信息存储编码方法 Download PDFInfo
- Publication number
- CN111243670A CN111243670A CN202010076358.8A CN202010076358A CN111243670A CN 111243670 A CN111243670 A CN 111243670A CN 202010076358 A CN202010076358 A CN 202010076358A CN 111243670 A CN111243670 A CN 111243670A
- Authority
- CN
- China
- Prior art keywords
- code words
- binary
- information storage
- length
- dna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 108091034117 Oligonucleotide Proteins 0.000 claims abstract description 11
- 229920001519 homopolymer Polymers 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 238000013138 pruning Methods 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 108020004414 DNA Proteins 0.000 claims description 25
- 238000001712 DNA sequencing Methods 0.000 claims description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 5
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 229910052710 silicon Inorganic materials 0.000 description 3
- 239000010703 silicon Substances 0.000 description 3
- 230000006820 DNA synthesis Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种满足生物约束的DNA信息存储编码方法,步骤1、编码过程:生成某一码字长度下所有的序列,利用剪枝优化算法至少过滤掉不满足均聚物和G、C含量生物约束的序列,得到满足要求的所有码字及对应的二进制位数与理论存储密度,将各码字与二进制位的值一一对应生成码本;将存储文件的二进制流进行九位扫描,按照生成的码本将二进制位的值映射为相应码字,进行奇偶校验位,并将码字连接为150nt左右待合成的载体寡核苷酸链;步骤2、解码过程:扫描得到载体寡核苷酸链,去除奇偶校验位,连接为全长碱基序列,按照编码规则将碱基序列反映射为对应的二进制流。本发明较传统DNA信息随机存取方法具有较快的处理速度和较高的DNA信息存储密度。
Description
技术领域
本发明涉及DNA信息存储领域技术领域,特别是涉及一种DNA信息存储编码方法。
背景技术
互联网时代的兴起及相关技术的发展使得数字化数据量飞速增加,到2020年有望达到44万亿GB,相较于2013年增加了10倍。现有数据存储介质主要依赖于硅制的微电子存储介质,然而其供应量很难满足存储需求。分析结果预测,2040年全球数据存储需要超过1000千克的晶圆级硅,但是2040年硅单晶片供应量仅有108千克。因此,迫切需要新型、可持续的数据存储设备的新发明。
大自然为人们提供了上述技术问题潜在的解决办法。DNA信息存储技术是将二进制数据转换为人工合成的DNA链的编码过程。当进行DNA编码进行数据恢复时,首先对DNA链进行测序,然后根据编码规则反映射到初始的数字序列。在DNA测序过程中可能发生如替换、插入和删除等一些操作错误。为减小错误产生概率,进行测序的DNA序列应满足以下生物约束:1)均聚物应避免连续出现相同的碱基;2)碱基G、C含量在序列中应占40%-60%。
近年来,DNA信息存储编码方法研究取得了重大进展。研究者针对DNA信息存储系统中的生物约束问题进行了研究,提出了一系列有关均聚物、G、C含量等约束的码字设计方法。然而其中有些方法的信息存储密度不高,无法充分利用DNA这一优质存储介质。
发明内容
针对目前DNA信息存储技术中涉及的生物约束问题,本发明提出一种满足生物约束的DNA信息存储编码方法,该方法利用剪枝优化算法生成满足这两个约束的某一固定长度的码字,这些码字连接起来即得到碱基序列,极大地提高了DNA信息存储密度与效率。
本发明的一种满足生物约束的DNA信息存储编码方法,该方法包括以下步骤:
步骤1、编码过程:首先生成某一码字长度下所有可能的序列,利用剪枝优化算法至少过滤掉不满足均聚物和G、C含量生物约束的序列,使得进行测序的DNA序列应满足均聚物和G、C含量等生物约束,得到该长度下满足要求的所有码字及其对应的二进制位数与理论存储密度,将得到的长度为5nt的各码字与二进制位的值一一对应生成码本,将待存储文件的二进制流进行九位扫描,按照生成的码本将二进制位的值映射为相应码字,进行奇偶校验位,并将码字连接为150nt左右待合成的载体寡核苷酸链;
步骤2、解码过程,对进行DNA测序得到的读数进行扫描得到载体寡核苷酸链,去除奇偶校验位,并将其连接为全长碱基序列,之后按照编码规则将碱基序列反映射为对应的二进制流,即完成了信息的恢复。
本发明较传统DNA信息随机存取方法具有较快的处理速度,同时获得了较高的DNA信息存储密度。
附图说明
图1为本发明的一种满足生物约束的DNA信息存储编码方法整体流程图示意图。
具体实施方式
下面将结合附图,对本发明技术发明进行清楚、完整地描述。
如图1所示,为本发明的一种满足生物约束的DNA信息存储编码方法整体流程示意图。利用剪枝优化算法生成满足这两个约束的某一固定长度的码字,这些码字连接起来即得到碱基序列。该方法具体包括以下步骤:
步骤1、编码过程:首先生成某一码字长度下所有可能的序列,为降低DNA测序错误发生概率,利用剪枝优化算法过滤掉不满足均聚物和G、C含量等生物约束的序列,使得进行测序的DNA序列应满足均聚物和G、C含量等生物约束;得到该长度下满足要求的所有码字及其对应的二进制位数与理论存储密度。理论上,码字越长,符合要求的序列越多,序列数对应的二进制位数也越多。但序列数和其对应的二进制位数间的关系是指数型的,因此随着码字长度的单调增加,二进制位数与码字长度的比值即理论信息存储密度并不总是单调增加的。经比较,本发明所以选用的存储密度较高的码字长度为5nt。该情况下的理论存储密度较高,为1.8bits/nt,非常接近2bits/nt的极限值。选定方案后,将得到的长度为5nt的各码字与二进制位的值一一对应生成码本,将待存储文件的二进制流进行九位扫描,按照生成的码本将二进制位的值映射为相应码字,进行奇偶校验位,并将码字连接为150nt左右待合成的载体寡核苷酸链;
步骤2、解码过程,对进行DNA测序得到的读数进行扫描得到载体寡核苷酸链,去除奇偶校验位,并将其连接为全长碱基序列,之后按照编码规则将碱基序列反映射为对应的二进制流,即完成了信息的恢复。
为了验证本发明提出的一种满足生物约束的DNA信息存储编码方法的可行性与性能,进行以下实验:对多个文件进行编码实验以评价提出的编码方法的性能,进行生物实验以验证该DNA信息存储发明的实际可行性。编码实验中,对待存储文件进行测试,实验结果表明,可高效地完美恢复原始文件,说明该编码方法是无损编码;信息存储密度优于现有方法;可以做到对生物约束的控制及对合成测序过程中可能出现的错误的控制。生物实验结果表明,通过DNA合成、DNA测序和解码,原始图像可以完美恢复出来。
本发明的满足生物约束的DNA信息存储编码方法。此发明将最优化算法应用于DNA信息存储中的实例,取得了较高的DNA信息存储密度与存储效率。编码方法使用码本生成算法来达到DNA序列对生物约束的要求,且取得了1.8bits/nt的编码潜能,非常接近2bits/nt的理论极限。考虑到碱基序列的长度小于150nt时DNA合成错误可以被很好地控制,本发明还设计了长度较短的载体寡核苷酸链。为降低DNA测序错误发生概率,进行测序的DNA序列应满足均聚物和G、C含量等生物约束。本发明提出的二进制流到DNA碱基的编码算法考虑了上述生物约束,使得错误发生的概率大大降低。设计了码本生成算法来生成一系列满足生物约束的固定长度的DNA片段,对数据信息编码时,每个信息片段都有一个特定的码本。信息恢复时,也将使用同样的码本进行解码。
Claims (1)
1.一种满足生物约束的DNA信息存储编码方法,其特征在于,该方法包括以下步骤:
步骤1、编码过程:首先生成某一码字长度下所有可能的序列,利用剪枝优化算法至少过滤掉不满足均聚物和G、C含量生物约束的序列,使得进行测序的DNA序列应满足均聚物和G、C含量等生物约束,得到该长度下满足要求的所有码字及其对应的二进制位数与理论存储密度,将得到的长度为5nt的各码字与二进制位的值一一对应生成码本,将待存储文件的二进制流进行九位扫描,按照生成的码本将二进制位的值映射为相应码字,进行奇偶校验位,并将码字连接为150nt左右待合成的载体寡核苷酸链;
步骤2、解码过程:对DNA测序得到的读数进行扫描得到载体寡核苷酸链,去除奇偶校验位,并连接为全长碱基序列,之后按照编码规则将碱基序列反映射为对应的二进制流,即完成了信息的恢复。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010076358.8A CN111243670A (zh) | 2020-01-23 | 2020-01-23 | 一种满足生物约束的dna信息存储编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010076358.8A CN111243670A (zh) | 2020-01-23 | 2020-01-23 | 一种满足生物约束的dna信息存储编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111243670A true CN111243670A (zh) | 2020-06-05 |
Family
ID=70876328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010076358.8A Pending CN111243670A (zh) | 2020-01-23 | 2020-01-23 | 一种满足生物约束的dna信息存储编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243670A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737955A (zh) * | 2020-06-24 | 2020-10-02 | 任兆瑞 | 一种使用dna字符码存储文字点阵的方法 |
CN113314187A (zh) * | 2021-05-27 | 2021-08-27 | 广州大学 | 一种数据存储方法、解码方法、系统、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140232574A1 (en) * | 2013-01-10 | 2014-08-21 | Dan ALONI | System, method and non-transitory computer readable medium for compressing genetic information |
CN106845158A (zh) * | 2017-02-17 | 2017-06-13 | 苏州泓迅生物科技股份有限公司 | 一种利用dna进行信息存储的方法 |
CN109074424A (zh) * | 2016-05-04 | 2018-12-21 | 深圳华大生命科学研究院 | 利用dna存储文本信息的方法、其解码方法及应用 |
US20190050495A1 (en) * | 2018-06-19 | 2019-02-14 | Intel Corporation | Data storage based on encoded dna sequences |
CN109460822A (zh) * | 2018-11-19 | 2019-03-12 | 天津大学 | 基于dna的信息存储方法 |
CN109979540A (zh) * | 2018-11-29 | 2019-07-05 | 天津大学 | 一种dna信息存储编码方法 |
-
2020
- 2020-01-23 CN CN202010076358.8A patent/CN111243670A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140232574A1 (en) * | 2013-01-10 | 2014-08-21 | Dan ALONI | System, method and non-transitory computer readable medium for compressing genetic information |
CN109074424A (zh) * | 2016-05-04 | 2018-12-21 | 深圳华大生命科学研究院 | 利用dna存储文本信息的方法、其解码方法及应用 |
CN106845158A (zh) * | 2017-02-17 | 2017-06-13 | 苏州泓迅生物科技股份有限公司 | 一种利用dna进行信息存储的方法 |
US20190050495A1 (en) * | 2018-06-19 | 2019-02-14 | Intel Corporation | Data storage based on encoded dna sequences |
CN109460822A (zh) * | 2018-11-19 | 2019-03-12 | 天津大学 | 基于dna的信息存储方法 |
CN109979540A (zh) * | 2018-11-29 | 2019-07-05 | 天津大学 | 一种dna信息存储编码方法 |
Non-Patent Citations (2)
Title |
---|
AKHMETOV AZAT等: ""A highly parallel strategy for storage of", 《BMC BIOTECHNOLOGY》 * |
张淑芳等: ""DNA 数据存储技术研究进展"", 《计算机科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737955A (zh) * | 2020-06-24 | 2020-10-02 | 任兆瑞 | 一种使用dna字符码存储文字点阵的方法 |
CN113314187A (zh) * | 2021-05-27 | 2021-08-27 | 广州大学 | 一种数据存储方法、解码方法、系统、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109830263B (zh) | 一种基于寡核苷酸序列编码存储的dna存储方法 | |
Wang et al. | Construction of bio-constrained code for DNA data storage | |
Dimopoulou et al. | A biologically constrained encoding solution for long-term storage of images onto synthetic DNA | |
JP4801776B2 (ja) | データ圧縮 | |
CN109979540B (zh) | 一种dna信息存储编码方法 | |
CN107798219B (zh) | 将数据进行生物存储并还原的方法 | |
KR101049699B1 (ko) | 데이터의 압축방법 | |
CN110932736B (zh) | 一种基于Raptor码及四进制RS码的DNA信息存储方法 | |
WO2010051733A1 (zh) | 一种编码、解码、编解码方法、编解码系统以及相关装置 | |
Gabrys et al. | Unique reconstruction of coded sequences from multiset substring spectra | |
CN111243670A (zh) | 一种满足生物约束的dna信息存储编码方法 | |
Jain et al. | Coding for optimized writing rate in DNA storage | |
CN115459781A (zh) | 一种基于静态交织编码的长序列dna存储编码方法 | |
Park et al. | Iterative coding scheme satisfying gc balance and run-length constraints for dna storage with robustness to error propagation | |
Shomorony et al. | Torn-paper coding | |
KR20150092585A (ko) | 이진 영상에 기반한 유전체 데이터 압축 방법 및 장치 | |
Zhang et al. | A high storage density strategy for digital information based on synthetic DNA | |
CN115297218A (zh) | 基于哈夫曼编码规则和位置图压缩的可逆数据隐藏方法 | |
Yang et al. | Universal lossless data compression with side information by using a conditional MPM grammar transform | |
CN114023392A (zh) | 一种dna存储的码字设计方法 | |
Chrisnata et al. | Deletion correcting codes for efficient DNA synthesis | |
Wu et al. | HD-code: End-to-end high density code for DNA storage | |
CN116187435B (zh) | 基于大小喷泉码及mrc算法利用dna进行信息存储方法及系统 | |
JP4758494B2 (ja) | ビット長を符号に変換する回路及び方法 | |
CN114678074B (zh) | 一种隐藏寻址的dna存储编码设计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200605 |