CN111737955A - 一种使用dna字符码存储文字点阵的方法 - Google Patents
一种使用dna字符码存储文字点阵的方法 Download PDFInfo
- Publication number
- CN111737955A CN111737955A CN202010588960.XA CN202010588960A CN111737955A CN 111737955 A CN111737955 A CN 111737955A CN 202010588960 A CN202010588960 A CN 202010588960A CN 111737955 A CN111737955 A CN 111737955A
- Authority
- CN
- China
- Prior art keywords
- character
- dna
- code
- lattice
- codes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 title description 9
- 108020004414 DNA Proteins 0.000 abstract description 30
- 108091081062 Repeated sequence (DNA) Proteins 0.000 abstract description 9
- 230000007547 defect Effects 0.000 abstract description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 229910002059 quaternary alloy Inorganic materials 0.000 description 1
- 108091035233 repetitive DNA sequence Proteins 0.000 description 1
- 102000053632 repetitive DNA sequence Human genes 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种使用DNA字符码存储文字点阵的方法,方法首先将文字或字符点阵使用一段长度为N个碱基的DNA字符码表示,字符码为N+1的形式,其最后一位为根据其前面的N个碱基统计计算得到的校验码,所得字符码添加到其对应的文字或字符点阵的开头和末尾,并添加到字典中,文字点阵存储则直接使用方法所生成的带有校验码的字符码进行;采用本发明的文字点阵存储方法,不仅能够避免文字点阵DNA存储方法容易产生大段的重复DNA序列的不足,同时,采用了较短长度的DNA字符码取代文字点阵记录文字信息,极大地提高了存储密度。
Description
技术领域
本发明公开了一种使用DNA字符码存储文字点阵的方法,属于生物技术与信息技术领 域。
背景技术
DNA是重要的遗传物质载体,是自然界生物通过数十亿年进化而产生的一种线形或环形 的双螺旋生物大分子。上世纪五十年代,DNA作为生物的遗传信息载体被科学家证实,与普 通信息存储载体相比,DNA在数据存储方面有其独有的天然优势:存储密度高,1克DNA 可以保存世界上的所有书籍内容;存储稳定且时间久,能够达到几万年到几百万年;携带方 便,能够由细菌或者生物体内生物携带或置于容器长期保存等。
传统存储介质中,纸张等主要用图形文字等来表示,光盘等信息载体使用二进制电信号 0/1来表示,而DNA则是用A/T/G/C四个碱基依次排列实现,不同的序列代表不同的信息, 相当于是四进制。一般在生物体的DNA中,A/T/G/C碱基的分布和比例需要均匀并且尽量减 少大段的重复,而基于文字点阵进行DNA存储时,每个文字的DNA序列均会包括上百个碱 基,不同的汉字其点阵可能会包含有许多相同的片段,从而产生较多的重复DNA片段;同 时,基于文字点阵进行DNA存储时,相同的汉字会产生相同的DNA序列,对于一些出现频率较高的文字或字符,也会产生较多的重复DNA序列,这些普遍存在的重复DNA序列都会 极大的影响DNA的复制与合成。
发明内容
发明要解决的技术问题
为解决现有文字点阵DNA存储时会产生较多重复序列,影响其复制合成的问题,本发 明提出一种使用DNA字符码存储文字点阵的方法。
技术方案
为解决上述技术问题,本发明采用以下技术方案:
一种使用DNA字符码存储文字点阵的方法,包括以下步骤:
步骤1,面向字库中的每个文字或字符的点阵随机生成一段长度为N的DNA碱基作为字 符码;
步骤2,为生成字符码的二进制码生成校验码并添加到字符码的末尾,生成长度为8-10 个DNA碱基的字符码;
步骤3,将上一步中所得的字符码添加到其对应的文字或字符点阵的开头和末尾,并添加 到字典中;
步骤4,使用步骤2所得的DNA字符码对文字点阵进行存储。
进一步地,步骤2中的校验码为一个DNA碱基,校验码二进制码首位的生成方法为:统 计字符码二进制码中奇数位“1”的个数,个数为奇数则为1,偶数则为0;校验码二进制码次位的生成方法为:统计字符码二进制码中偶数位“1”的个数,个数为奇数则为1,偶数则为0。
进一步地,为避免重复,对于经常使用的文字或字符的点阵生成多个字符码。
有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
本发明存储方法能够避免产生大段的重复DNA序列,克服了文字点阵DNA存储方法的 不足;
本发明采用较短长度的DNA字符码记录文字信息,极大地提高了存储密度;
本发明存储方法原理步骤简单,便于在本技术领域推广应用。
附图说明
图1为本发明方法的流程框图;
图2为本发明校验码产生的示例图。
具体实施方式
为进一步了解本发明的内容,结合附图和具体实施方式对本发明作详细描述。
图1为本发明DNA字符码存储文字点阵的方法步骤图,方法将字库中的每个文字或字符 使用一段8-10个碱基的DNA序列来表示,所生成的字符码为N+1的方式,如10位字符码的 前9位DNA碱基序列为随机生成,最后1位则是依据前9位所生成的校验码,来校验这9位字符码是否发生错误。
通过校验码可以判断在DNA存储的过程中是否发生了基因突变而导致字符码发生变化, 一般来说DNA复制的过程中,出现错误一个碱基的概率小于10-6,如果在这10位的字符码种 出现了一个错误碱基,那么校验码和前面的9位便会出现不匹配的现象。校验码的规则是按 照ACGT的二进制编码共18位排在一起,奇数位如有奇数个1则为1,偶数个1则为0,同样 偶数位如有奇数个1则为1,偶数个1则为0,最终奇数位和偶数位形成的00,01,10或者 11再转变成ACGT形成校验码。图2所示为初始字符码生成校验码的例子,这里9位字符码TCTATGTTC生成校验码C,则该汉字的最终校验码为TCTATGTTCC。
在字典中,每个文字或字符点阵的DNA序列的前后均使用相同的字符码表示其开始和终 止,文字信息直接使用其字符码进行存储。N+1位字符码中,N的长度决定了字库的容量,例 如4位碱基(ACGT)的字符码,字符库最多可以包含有44,就是256个不同的字符;而9位 的则有49,即超过26万个不同的字符。
采用点阵库进行存储时,每个汉字的点阵都包括上百个DNA碱基序列,在每一段信息中, 相同的汉字其序列相同,将会极大影响DNA的复制合成。使用字符码后,其长度降低为不超 过10个碱基,基本上可以避免大段重复序列的出现。对经常频繁出现的文字或者字符,例如 最常使用的部分文字,标点符号的逗号和句号,可分配多个不同的字符码,从而进一步减少 存储时重复的DNA序列。同时,采用字符码的方式来记录文字信息的方法比单独使用点阵字 符能够提高数十倍的存储密度。
据统计,大多数书籍使用的不同的字数并不多,中文版《圣经》使用了3100多个不同的汉字,《新华字典》中所收录的汉字在10000个左右,英文版《圣经》则使用了约11000个不同的英语单词。使用本发明的方法时,以10位字符码(9+1)为例,其字符码总容量为49个,大约27万个,采用这种大容量字符码能够有足够的冗余度,可以对使用频率较高的文字或者符号,采用多个点阵和字符码,以减少重复DNA的重复序列。另外对于绝大多数要存储的信息而言,使用2万个字符码已经足够,相当于使用了其27万总容量的不到10%,若记录信息的字符码DNA序列在保存过程中发生了随机突变,除了字符码本身和校验码会不一致以外,在点阵字库字典中也有超过90%的可能性找不到该错误字符码所对应的字符点阵,进一步可判断出字符码出错,这种方法便于在后续的信息读取过程中进行及时纠正。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也 只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员 受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结 构方式及实施例,均应属于本发明的保护范围。
Claims (4)
1.一种使用DNA字符码存储文字点阵的方法,其特征在于,包括以下步骤:
步骤S1,面向字库中的每个文字或字符的点阵,随机生成一段长度为N的DNA碱基作为字符码;
步骤S2,基于步骤S1中字符码的二进制码生成校验码,并添加到字符码的末尾,形成带有校验码的字符码;
步骤S3,将步骤S2中所得字符码添加到其对应的文字或字符点阵的开头和末尾,并添加到字典中;
步骤S4,使用步骤S2所得DNA字符码对文字点阵进行存储。
2.如权利要求1所述的一种使用DNA字符码存储文字点阵的方法,其特征在于,所述步骤S2中的校验码为一个DNA碱基,校验码二进制码首位的生成方法为:统计字符码二进制码中奇数位“1”的个数,个数为奇数则为1,偶数则为0;
校验码二进制码次位的生成方法为:统计字符码二进制码中偶数位“1”的个数,个数为奇数则为1,偶数则为0。
3.如权利要求1所述的一种使用DNA字符码存储文字点阵的方法,其特征在于,所述步骤S2中所生成的字符码长度为8-10个DNA碱基。
4.如权利要求1所述的一种使用DNA字符码存储文字点阵的方法,其特征在于,对于经常使用的文字或字符的点阵,步骤S1中生成多个字符码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010588960.XA CN111737955A (zh) | 2020-06-24 | 2020-06-24 | 一种使用dna字符码存储文字点阵的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010588960.XA CN111737955A (zh) | 2020-06-24 | 2020-06-24 | 一种使用dna字符码存储文字点阵的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737955A true CN111737955A (zh) | 2020-10-02 |
Family
ID=72651029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010588960.XA Pending CN111737955A (zh) | 2020-06-24 | 2020-06-24 | 一种使用dna字符码存储文字点阵的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737955A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113099234A (zh) * | 2021-04-09 | 2021-07-09 | 中国矿业大学 | 基于预计算的dna快速编码方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009013910A1 (ja) * | 2007-07-24 | 2009-01-29 | Keio University | 符号化装置、復号化装置、及び情報記録媒体 |
CN104520864A (zh) * | 2012-06-01 | 2015-04-15 | 欧洲分子生物学实验室 | Dna中数字信息的高容量存储 |
CN105022935A (zh) * | 2014-04-22 | 2015-11-04 | 中国科学院青岛生物能源与过程研究所 | 一种利用dna进行信息存储的编码方法和解码方法 |
CN107798219A (zh) * | 2016-08-30 | 2018-03-13 | 清华大学 | 将数据进行生物存储并还原的方法 |
CN109074424A (zh) * | 2016-05-04 | 2018-12-21 | 深圳华大生命科学研究院 | 利用dna存储文本信息的方法、其解码方法及应用 |
CN109300508A (zh) * | 2017-07-25 | 2019-02-01 | 南京金斯瑞生物科技有限公司 | 一种dna数据存储编码解码方法 |
CN109460822A (zh) * | 2018-11-19 | 2019-03-12 | 天津大学 | 基于dna的信息存储方法 |
US10423341B1 (en) * | 2015-06-12 | 2019-09-24 | Bahram Ghaffarzadeh Kermani | Accurate and efficient DNA-based storage of electronic data |
CN110427786A (zh) * | 2019-05-31 | 2019-11-08 | 西藏自治区人民政府驻成都办事处医院 | 一种用dna作为文字信息高效存储介质的方法 |
CN110442472A (zh) * | 2019-07-03 | 2019-11-12 | 天津大学 | 一种dna数据存储混合错误纠正与数据恢复方法 |
CN111243670A (zh) * | 2020-01-23 | 2020-06-05 | 天津大学 | 一种满足生物约束的dna信息存储编码方法 |
-
2020
- 2020-06-24 CN CN202010588960.XA patent/CN111737955A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009013910A1 (ja) * | 2007-07-24 | 2009-01-29 | Keio University | 符号化装置、復号化装置、及び情報記録媒体 |
CN104520864A (zh) * | 2012-06-01 | 2015-04-15 | 欧洲分子生物学实验室 | Dna中数字信息的高容量存储 |
US20150261664A1 (en) * | 2012-06-01 | 2015-09-17 | Nick Goldman | High-Capacity Storage of Digital Information in DNA |
CN105022935A (zh) * | 2014-04-22 | 2015-11-04 | 中国科学院青岛生物能源与过程研究所 | 一种利用dna进行信息存储的编码方法和解码方法 |
US10423341B1 (en) * | 2015-06-12 | 2019-09-24 | Bahram Ghaffarzadeh Kermani | Accurate and efficient DNA-based storage of electronic data |
CN109074424A (zh) * | 2016-05-04 | 2018-12-21 | 深圳华大生命科学研究院 | 利用dna存储文本信息的方法、其解码方法及应用 |
CN107798219A (zh) * | 2016-08-30 | 2018-03-13 | 清华大学 | 将数据进行生物存储并还原的方法 |
CN109300508A (zh) * | 2017-07-25 | 2019-02-01 | 南京金斯瑞生物科技有限公司 | 一种dna数据存储编码解码方法 |
CN109460822A (zh) * | 2018-11-19 | 2019-03-12 | 天津大学 | 基于dna的信息存储方法 |
CN110427786A (zh) * | 2019-05-31 | 2019-11-08 | 西藏自治区人民政府驻成都办事处医院 | 一种用dna作为文字信息高效存储介质的方法 |
CN110442472A (zh) * | 2019-07-03 | 2019-11-12 | 天津大学 | 一种dna数据存储混合错误纠正与数据恢复方法 |
CN111243670A (zh) * | 2020-01-23 | 2020-06-05 | 天津大学 | 一种满足生物约束的dna信息存储编码方法 |
Non-Patent Citations (1)
Title |
---|
张淑芳 等: "DNA数据存储技术研究进展", 《计算机科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113099234A (zh) * | 2021-04-09 | 2021-07-09 | 中国矿业大学 | 基于预计算的dna快速编码方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shipman et al. | CRISPR–Cas encoding of a digital movie into the genomes of a population of living bacteria | |
CN109300508B (zh) | 一种dna数据存储编码解码方法 | |
CN104520864B (zh) | Dna中数字信息的高容量存储 | |
CN109830263B (zh) | 一种基于寡核苷酸序列编码存储的dna存储方法 | |
TWI673604B (zh) | 信息編碼和信息解碼的方法 | |
US10566077B1 (en) | Re-writable DNA-based digital storage with random access | |
CN111600609A (zh) | 一种优化中文存储的dna存储编码方法 | |
Dimopoulou et al. | A biologically constrained encoding solution for long-term storage of images onto synthetic DNA | |
CN111737955A (zh) | 一种使用dna字符码存储文字点阵的方法 | |
Heinis et al. | Survey of information encoding techniques for dna | |
CN114328000B (zh) | 1型2型分段纠错内码的dna存储级联编码与解码方法 | |
CN114974429A (zh) | 一种基于十进制的dna存储编码方法、设备及可读存储介质 | |
Ezekannagha et al. | Design considerations for advancing data storage with synthetic DNA for long-term archiving | |
Jain et al. | Coding for optimized writing rate in DNA storage | |
CN110569974B (zh) | 可包含人造碱基的dna存储分层表示与交织编码方法 | |
CN114254748A (zh) | 一种存储信道的扩展编码方法、系统及相关装置 | |
US11845982B2 (en) | Key-value store that harnesses live micro-organisms to store and retrieve digital information | |
Lin et al. | Managing reliability skew in DNA storage | |
Nassirpour et al. | Embedded codes for reassembling non-overlapping random DNA fragments | |
Gonzalez et al. | Strong short-range correlations and dichotomic codon classes in coding DNA sequences | |
Suyehira et al. | A coding scheme for nucleic acid memory (NAM) | |
Zhang et al. | On secondary structure avoidance of codes for DNA storage | |
CN114927169A (zh) | 一种分布式阵列存储及基于微生物的高容纠错DNA存储技术(Bio-RAID) | |
Sais et al. | DNA technology for big data storage and error detection solutions: Hamming code vs Cyclic Redundancy Check (CRC) | |
CN109242509A (zh) | 用于商品外包装的点阵字符信息编解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201002 |
|
RJ01 | Rejection of invention patent application after publication |