CN115242255A - 一种基于汉明-vt的dna存储编码方法 - Google Patents
一种基于汉明-vt的dna存储编码方法 Download PDFInfo
- Publication number
- CN115242255A CN115242255A CN202210723676.8A CN202210723676A CN115242255A CN 115242255 A CN115242255 A CN 115242255A CN 202210723676 A CN202210723676 A CN 202210723676A CN 115242255 A CN115242255 A CN 115242255A
- Authority
- CN
- China
- Prior art keywords
- code
- hamming
- quaternary
- vector
- ham
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M13/00—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
- H03M13/29—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes combining two or more codes or code structures, e.g. product codes, generalised product codes, concatenated codes, inner and outer codes
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M13/00—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
- H03M13/03—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words
- H03M13/05—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words using block codes, i.e. a predetermined number of check bits joined to a predetermined number of information bits
- H03M13/11—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words using block codes, i.e. a predetermined number of check bits joined to a predetermined number of information bits using multiple parity bits
- H03M13/1102—Codes on graphs and decoding on graphs, e.g. low-density parity check [LDPC] codes
- H03M13/1148—Structural properties of the code parity-check or generator matrix
- H03M13/1174—Parity-check or generator matrices built from sub-matrices representing known block codes such as, e.g. Hamming codes, e.g. generalized LDPC codes
Landscapes
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Error Detection And Correction (AREA)
Abstract
本发明属于无线通信中的信道编码技术领域,尤其涉及一种基于汉明‑VT的DNA存储编码方法,用于保证GC含量稳定在40%‑60%之间,降低DNA存储中出现插入和删除错误的概率;并且解决现有技术无法在低冗余度的情况下纠正插入或删除错误的问题。首先,通过传统的汉明码编码,保证DNA中GC含量在40%‑60%之间降低DNA存储中插入删除错误发生的概率;然后,通过码长为n的四元Varshamov and Tenegolts码(简写为VT码)编码,实现在低冗余度log2n+O(1)下纠正一个插入或删除错误,降低DNA编码的成本。
Description
技术领域
本发明涉及无线通信中的信道编码技术领域,尤其涉及一种基于汉明-VT的DNA存储编码方法。
背景技术
随着分布式、云计算和物联网技术的发展,人类每天产生的数据总量呈现出指数增长的趋势,DNA分子基于其存储密度大,保存时间长的优点成为解决海量大数据存储困境的一种极具潜力的存储介质。目前主要的DNA存储编码方法是利用传统纠错码对信息序列进行编码,通过增加校验位使其具有纠错能力,然后通过DNA合成技术进行储存。
发明内容
针对背景技术中存在的问题,本发明要解决的技术问题在于提供一种基于汉明-VT码的DNA编码方法,目的在于在冗余度较低的情况下纠正插入或删除错误。
本发明解决上述技术问题提供以下技术方案:
一种基于汉明-VT的DNA存储编码方法,包括以下步骤:
步骤1:获取四元待编码信息比特序列,定义是有限域且包含4个元素;对四元待编码信息比特序列进行汉明码编码,定义编码后的四元汉明码记为Ham(r,4),并且有其中码长维数码的最小汉明距距d=3,r为正整数。
步骤3:对校验矩阵H进行分块排序,使得校验矩阵H中前r列是线性无关的;
步骤4:若c是四元汉明码Ham(r,4)的码字,则H·cT=0,其中码字c=(c1,c2,...,cr,cr+1,...,cr+m,cr+m+1,...cn),m是整数;
式中:(c1,c2,...,cr)为第一个向量;(cr+1,...,cr+m)为第二个向量;(cr+m+1,...cn)为第三个向量;
步骤6:令任意一个四元汉明码Ham(r,4)中码字c包含0和1个数为N,再结合步骤5的分块结果,得到m≤N≤m+r;
本发明提出了一种基于汉明码-VT码的DNA编码方法,通过汉明码和VT码编码,保证了GC含量为40%-60%,降低了因GC含量不稳定造成对DNA编码错误率的影响。对汉明码校验矩阵H分块,构建了满足GC含量稳定的四元汉明码,同时也大大降低了冗余度,节约了DNA编码的成本。通过汉明码和VT码编码,并且应用于DNA编码中,能够纠正一个DNA合成和测序时发生的插入或删除错误。
优选的,所述步骤3中的分块排序如下所示:
校验矩阵H=[H1|H2|H3]=[h1,h2,...,hr|hr+1,...,hr+m|hr+m+1,...hn],hi为H的列向量,列向量中的元素属于hi的阶数为r×1,其中H1中的列向量是线性无关的,H2和H3分别对应(hr+1,…,hr+m)和(hr+m+1,…hn)。
优选的,所述步骤7中四元汉明码Ham(r,4)GC含量满足40%-60%的汉明码CH大小如下所示:
第一个向量(c1,c2,...,cr)包含r个元素,其中第一个向量中每个元素属于有限域第二个向量(cr+1,...,cr+m)包含m个元素,其中第二个向量中的元素属于即只有两种选择0或者1,那么固定第一个向量(c1,c2,...,cr)后,第二个向量(cr+1,...,cr+m)的取法有种;第三个向量(cr+m+1,...cn)包含n-m-r个元素,其中第三个向量中的元素属于即每个元素只有两种选择,那么第三个向量(cr+m+1,...cn)的取法有2n-r-m种;因此Ham(r,4)中GC含量满足40%-60%的汉明码CH的大小是
优选的,所述步骤7中基于步骤6得到的四元汉明码Ham(r,4)中码字c包含0和1个数为N,且有m≤N≤m+r,在满足GC含量在40%-60%时可以得到 计算得出保证GC含量稳定在40%-60%,从而降低了DNA测序中发生插入删除错误的概率。
优选的,所述步骤9具体如下:
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明通过从以往在有限域上的二元DNA编码方案改进为在有限域中进行四元DNA编码,从而将图片音频等信息转换为四元信息序列,用A、T、G、C序列表示,这和以往通过传统纠错码编码后再进行A、T、G、C序列的编码不同,是具有创新性的四元的DNA编码方案。
2、本发明通过对汉明码校验矩阵H分块与设计,构建了GC含量稳定的四元汉明码。
3、本发明通过创新性地结合汉明码校验矩阵H分块与VT编码构建的四元DNA编码方案,将冗余度从Levenshtein码DNA编码方案的3log2 n降低至log2 n+O(1),这大大降低了DNA编码的成本。
4、本发明提出了一种基于可纠正一个插入或删除错误且GC含量为40%-60%的DNA编码方案,通过汉明码和VT码编码,不仅保证了GC含量的稳定性,而且大大降低了GC含量在DNA编码合成和测序过程中对发生插入、删除错误概率造成的影响。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明实现的技术手段、特征与功效更容易被理解下面结合具体实施例和本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
步骤1:获取四元待编码信息比特序列,定义是有限域且包含4个元素;对四元待编码信息比特序列进行汉明码编码,定义编码后的四元汉明码记为Ham(r,4),并且有其中码长维数码的最小汉明距距d=3,r为正整数。
步骤3:对校验矩阵H进行分块排序,使得校验矩阵H中前r列为线性无关,排序后得到H1=[h1,h2,...,hr],H2=[hr+1,...,hr+m],H3=[hr+m+1,...hn],其中H=[H1|H2|H3]=[h1,h2,…,hr|hr+1,…,hr+m|hr+m+1,…hn](hi为H的列向量,阶数为r×1);
步骤4:若c是四元汉明码Ham(r,4)的码字,则H·cT=0,其中码字c=(c1,c2,...,cr,cr+1,...,cr+m,cr+m+1,...cn),m是整数;
式中:(c1,c2,...,cr)为第一个向量;(cr+1,...,cr+m)为第二个向量;(cr+m+1,...cn)为第三个向量;
步骤6:令任意一个四元汉明码Ham(r,4)中码字c包含0和1个数为N,再结合步骤5的分块结果,得到m≤N≤m+r;
为使本领域的技术人员更好地理解本发明,下面对原理阐述如下:
本发明通过两次编码,首先进行汉明码编码,然后进行VT码编码,构建了一种能够纠正一个插入或删除错误的DNA编码方案,保证了DNA编码中GC含量稳定在40%-60%之间,找出满足GC含量条件的码字构成的四元码也大大降低了冗余度,节约了DNA编码的成本,并且大大降低了DNA合成和测序中错误发生率。对于在有限域中的汉明码,满足了汉明距离为3,这也保证了可以纠正一个错误。然后,创新性地对汉明码的校验矩阵H分块处理,保证了汉明码码字空间中的每个码字0和1的个数N满足:这也为后面保证GC含量在40%-60%之间打下基础。随后,对编码后的汉明码进行4元VT码编码,在满足得到该码的插入删除距离dinsdel=4。最后,通过VT码译码算法,可以使我们编码后的码字能够纠正一个插入或删除错误。相比以往的研究,我们在对汉明码的校验矩阵H分块处理,找出了满足GC含量条件稳定在40%-60%的码字构成的四元汉明码,同时通过汉明码和VT码编码在能够纠正一个插入或删除错误的同时也大大降低了冗余度,节约了DNA编码的成本。
定义满足GC含量的码字个数占四元码码集大小的百分比为η,通过计算得出理论值如下:
通过在MATLAB2021平台上的仿真实验得出,
当r=2时,四元汉明码Ham(2,4)码长为5、维数为3和最小汉明距离为3,码字个数为qk=43,满足GC含量的个数为48,占四元汉明码码字个数的百分比η=75%,与理论值完全一致;
当r=3时,四元汉明码Ham(3,4)码长为21、维数为18和最小汉明距离为3,码字个数为qk=418,满足GC含量的码字个数为234.5,占四元汉明码码字个数的百分比η=234.5/418×100%=35.3%,与理论值基本一致;
通过仿真实验,可以看出本发明设计的基于汉明-VT的DNA存储编码方法,可以达到理论要求,并且在对汉明码的校验矩阵H分块处理后,找出满足GC含量条件的码字构成的集合,可有效地保证GC含量稳定在40%-60%之间。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (6)
1.一种基于汉明-VT的DNA存储编码方法,其特征在于,包括以下步骤:
步骤1:获取四元待编码信息比特序列,定义是有限域且包含4个元素;对四元待编码信息比特序列进行汉明码编码,定义编码后的四元汉明码记为Ham(r,4),并且有其中码长维数码的最小汉明距距d=3,r为正整数;
步骤3:对校验矩阵H进行分块排序,使得校验矩阵H中前r列是线性无关的;
步骤4:若c是四元汉明码Ham(r,4)的码字,则H·cT=0,其中码字c=(c1,c2,...,cr,cr+1,...,cr+m,cr+m+1,...cn),m是整数;
式中:(c1,c2,...,cr)为第一个向量;(cr+1,...,cr+m)为第二个向量;(cr+m+1,...cn)为第三个向量;
步骤6:令任意一个四元汉明码Ham(r,4)中码字c包含0和1个数为N,再结合步骤5的分块结果,得到m≤N≤m+r;
3.根据权利要求1所述的一种基于汉明-VT的DNA存储编码方法,其特征在于,第一个向量(c1,c2,...,cr)包含r个元素,其中第一个向量中每个元素属于有限域第二个向量(cr+1,...,cr+m)包含m个元素,其中第二个向量中的元素属于即只有两种选择0或者1,那么固定第一个向量(c1,c2,...,cr)后,第二个向量(cr+1,...,cr+m)的取法有种;第三个向量(cr+m+1,...cn)包含n-m-r个元素,其中第三个向量中的元素属于即每个元素只有两种选择,那么第三个向量(cr+m+1,...cn)的取法有2n-r-m种;因此Ham(r,4)中GC含量满足40%-60%的汉明码CH的大小是
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210723676.8A CN115242255A (zh) | 2022-06-23 | 2022-06-23 | 一种基于汉明-vt的dna存储编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210723676.8A CN115242255A (zh) | 2022-06-23 | 2022-06-23 | 一种基于汉明-vt的dna存储编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115242255A true CN115242255A (zh) | 2022-10-25 |
Family
ID=83669289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210723676.8A Pending CN115242255A (zh) | 2022-06-23 | 2022-06-23 | 一种基于汉明-vt的dna存储编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115242255A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115642923A (zh) * | 2022-11-02 | 2023-01-24 | 电子科技大学 | 一种新型的dna存储编码方法 |
-
2022
- 2022-06-23 CN CN202210723676.8A patent/CN115242255A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115642923A (zh) * | 2022-11-02 | 2023-01-24 | 电子科技大学 | 一种新型的dna存储编码方法 |
CN115642923B (zh) * | 2022-11-02 | 2023-10-20 | 电子科技大学 | 一种新型的dna存储编码方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lenz et al. | Coding over sets for DNA storage | |
TWI353521B (en) | Soft-input soft-output decoder for nonvolatile mem | |
JP5464703B2 (ja) | 異機種混合ストレージ要素の容量を増大させる方法及びシステム | |
US8769374B2 (en) | Multi-write endurance and error control coding of non-volatile memories | |
US20200211677A1 (en) | Dna-based data storage and retrieval | |
US9946475B2 (en) | Joint rewriting and error correction in write-once memories | |
CN111600609B (zh) | 一种优化中文存储的dna存储编码方法 | |
JP5620973B2 (ja) | アナログメモリセルにおける最適スレッシュホールドのサーチ | |
US9269448B2 (en) | Generating soft read values using multiple reads and/or bins | |
US20180046921A1 (en) | Code generation method, code generating apparatus and computer readable storage medium | |
Lenz et al. | Anchor-based correction of substitutions in indexed sets | |
US20110239077A1 (en) | Method for constructing checking matrix of ldpc code and coding and decoding apparatus utilizing the method | |
WO2009074978A2 (en) | Systems and methods for error correction and decoding on multi-level physical media | |
US8671327B2 (en) | Method and system for adaptive coding in flash memories | |
Dimopoulou et al. | A biologically constrained encoding solution for long-term storage of images onto synthetic DNA | |
CN110442472B (zh) | 一种dna数据存储混合错误纠正与数据恢复方法 | |
US20170123901A1 (en) | Systems and Methods for Side Data Based Soft Data Flash Memory Access | |
TW200947449A (en) | Error detecting/correcting scheme for memories | |
Mishra et al. | Compressed DNA coding using minimum variance Huffman tree | |
CN115242255A (zh) | 一种基于汉明-vt的dna存储编码方法 | |
Lu et al. | Error rate-based log-likelihood ratio processing for low-density parity-check codes in DNA storage | |
US20090276685A1 (en) | Data decoding apparatus, magnetic disk apparatus, and data decoding method | |
JP2020046871A (ja) | メモリシステム | |
KR20210004897A (ko) | 비트 매칭 기반으로 선형 부호를 고속 복호화하는 방법 및 장치 | |
Park et al. | BIC codes: bit insertion-based constrained codes with error correction for DNA storage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |