CN115242255A

CN115242255A - 一种基于汉明-vt的dna存储编码方法

Info

Publication number: CN115242255A
Application number: CN202210723676.8A
Authority: CN
Inventors: 史祥瑞; 刘姝
Original assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-25

Abstract

本发明属于无线通信中的信道编码技术领域，尤其涉及一种基于汉明‑VT的DNA存储编码方法，用于保证GC含量稳定在40％‑60％之间，降低DNA存储中出现插入和删除错误的概率；并且解决现有技术无法在低冗余度的情况下纠正插入或删除错误的问题。首先，通过传统的汉明码编码，保证DNA中GC含量在40％‑60％之间降低DNA存储中插入删除错误发生的概率；然后，通过码长为n的四元Varshamov and Tenegolts码(简写为VT码)编码，实现在低冗余度log₂n+O(1)下纠正一个插入或删除错误，降低DNA编码的成本。

Description

一种基于汉明-VT的DNA存储编码方法

技术领域

本发明涉及无线通信中的信道编码技术领域，尤其涉及一种基于汉明-VT的DNA存储编码方法。

背景技术

随着分布式、云计算和物联网技术的发展，人类每天产生的数据总量呈现出指数增长的趋势，DNA分子基于其存储密度大，保存时间长的优点成为解决海量大数据存储困境的一种极具潜力的存储介质。目前主要的DNA存储编码方法是利用传统纠错码对信息序列进行编码，通过增加校验位使其具有纠错能力，然后通过DNA合成技术进行储存。

现有的编码方法主要可以分为以下几类：一类是Levenshtein码，这一类编码的冗余度比较高，其冗余度达到了3log₂ n，然而较高地冗余度会大大增加DNA编码的成本，所以需要进一步降低这一类码的冗余度；还有一类是Reed-Solomon码交织编码，这一类编码降低了冗余度，在有限域

上达到了

，但是只能纠正替换错误和擦除错误，无法纠正删除或插入错误，针对在DNA合成和测序过程中出现的碱基丢失和插入情况无法进行纠错。现有技术无法在冗余度较低的情况下纠正插入和删除错误，所以设计一种能够纠正插入和删除错误且冗余度较低的码字将是目前以及未来一个热门的研究方向。

发明内容

针对背景技术中存在的问题，本发明要解决的技术问题在于提供一种基于汉明-VT码的DNA编码方法，目的在于在冗余度较低的情况下纠正插入或删除错误。

本发明解决上述技术问题提供以下技术方案：

一种基于汉明-VT的DNA存储编码方法，包括以下步骤：

步骤1：获取四元待编码信息比特序列，定义

是有限域且包含4个元素；对四元待编码信息比特序列进行汉明码编码，定义编码后的四元汉明码记为Ham(r，4)，并且有

其中码长

维数

码的最小汉明距距d＝3，r为正整数。

步骤2：通过计算得到四元汉明码Ham(r，4)的校验矩阵H，其大小是

阶；

步骤3：对校验矩阵H进行分块排序，使得校验矩阵H中前r列是线性无关的；

步骤4：若c是四元汉明码Ham(r，4)的码字，则H·c^T＝0，其中码字c＝(c₁，c₂，...，c_r，c_r+1，...，c_r+m，c_r+m+1，...c_n)，m是整数；

步骤5：对四元汉明码Ham(r，4)中码字c进行分块，其中前r位元素

后面n-r位中有m位元素是0或1，剩余n-r-m位元素属于

基于此得到

式中：(c₁，c₂，...，c_r)为第一个向量；(c_r+1，...，c_r+m)为第二个向量；(c_r+m+1，...c_n)为第三个向量；

步骤6：令任意一个四元汉明码Ham(r，4)中码字c包含0和1个数为N，再结合步骤5的分块结果，得到m≤N≤m+r；

步骤7：确保构造的出的汉明码C_H的GC含量稳定在40％-60％之间，降低DNA存储中出现插入和删除错误的概率；计算码长为n的四元汉明码Ham(r，4)中GC含量满足40％-60％的汉明码C_H，即

则

步骤8：对C_H进行4元VT码编码得到码

：

使得码

的最小插入删除距离d_insdel＝4；

步骤9：计算码

中包含码字的个数；

步骤10：计算步骤9中码

的冗余度。

本发明提出了一种基于汉明码-VT码的DNA编码方法，通过汉明码和VT码编码，保证了GC含量为40％-60％，降低了因GC含量不稳定造成对DNA编码错误率的影响。对汉明码校验矩阵H分块，构建了满足GC含量稳定的四元汉明码，同时也大大降低了冗余度，节约了DNA编码的成本。通过汉明码和VT码编码，并且应用于DNA编码中，能够纠正一个DNA合成和测序时发生的插入或删除错误。

优选的，所述步骤3中的分块排序如下所示：

校验矩阵H＝[H₁|H₂|H₃]＝[h₁，h₂，...，h_r|h_r+1，...，h_r+m|h_r+m+1，...h_n]，h_i为H的列向量，列向量中的元素属于

h_i的阶数为r×1，其中H₁中的列向量是线性无关的，H₂和H₃分别对应(h_r+1，…，h_r+m)和(h_r+m+1，…h_n)。

优选的，所述步骤7中四元汉明码Ham(r，4)GC含量满足40％-60％的汉明码C_H大小如下所示：

第一个向量(c₁，c₂，...，c_r)包含r个元素，其中第一个向量中每个元素属于有限域

第二个向量(c_r+1，...，c_r+m)包含m个元素，其中第二个向量中的元素属于

即只有两种选择0或者1，那么固定第一个向量(c₁，c₂，...，c_r)后，第二个向量(c_r+1，...，c_r+m)的取法有

种；第三个向量(c_r+m+1，...c_n)包含n-m-r个元素，其中第三个向量中的元素属于

即每个元素只有两种选择，那么第三个向量(c_r+m+1，...c_n)的取法有2^n-r-m种；因此Ham(r，4)中GC含量满足40％-60％的汉明码C_H的大小是

优选的，所述步骤7中基于步骤6得到的四元汉明码Ham(r，4)中码字c包含0和1个数为N，且有m≤N≤m+r，在满足GC含量在40％-60％时可以得到

计算得出

保证GC含量稳定在40％-60％，从而降低了DNA测序中发生插入删除错误的概率。

优选的，所述步骤9具体如下：

针对q元的VT码

记

根据抽屉原理有C_s的大小

定义序列参数a₁＝0，

其中i＝2，3，...，n，记

根据抽屉原理有

故有

优选的，所述步骤10中基于步骤9得到的

且|C_H|≥4^n-r，计算出基于汉明-VT的DNA存储编码的码

均冗余度是

且有

得到ζ＝log₂n+O(1)。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明通过从以往在有限域

上的二元DNA编码方案改进为在有限域

中进行四元DNA编码，从而将图片音频等信息转换为四元信息序列，用A、T、G、C序列表示，这和以往通过传统纠错码编码后再进行A、T、G、C序列的编码不同，是具有创新性的四元的DNA编码方案。

2、本发明通过对汉明码校验矩阵H分块与设计，构建了GC含量稳定的四元汉明码。

3、本发明通过创新性地结合汉明码校验矩阵H分块与VT编码构建的四元DNA编码方案，将冗余度从Levenshtein码DNA编码方案的3log₂ n降低至log₂ n+O(1)，这大大降低了DNA编码的成本。

4、本发明提出了一种基于可纠正一个插入或删除错误且GC含量为40％-60％的DNA编码方案，通过汉明码和VT码编码，不仅保证了GC含量的稳定性，而且大大降低了GC含量在DNA编码合成和测序过程中对发生插入、删除错误概率造成的影响。

附图说明

图1为本发明的流程示意图。

具体实施方式

为了使本发明实现的技术手段、特征与功效更容易被理解下面结合具体实施例和本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

参见附图1所示，一种基于有限域的DNA编码方法，所述有限域为

中包含四个元素，可以纠正1个插入或删除错误，并且满足编码后GC含量稳定在40％-60％之间，包含以下步骤：

步骤1：获取四元待编码信息比特序列，定义

其中码长

维数

码的最小汉明距距d＝3，r为正整数。

阶；

步骤3：对校验矩阵H进行分块排序，使得校验矩阵H中前r列为线性无关，排序后得到H₁＝[h₁，h₂，...，h_r]，H₂＝[h_r+1，...，h_r+m]，H₃＝[h_r+m+1，...h_n]，其中H＝[H₁|H₂|H₃]＝[h₁，h₂，…，h_r|h_r+1，…，h_r+m|h_r+m+1，…h_n](h_i为H的列向量，阶数为r×1)；

后面n-r位中有m位元素是0或1，剩余n-r-m位元素属于

基于此得到

则

步骤8：对C_H进行4元VT码编码得到码

使得码

的最小插入删除距离d_insdel＝4；

步骤9：计算码

中包含码字的个数；定义序列参数a₁＝0，

其中i＝2，3，...，n；记

根据抽屉原理有C_s的大小

同理记

同理根据抽屉原理有

故有

记VT码编码后的码字为

步骤10：基于步骤9得到的

且|C_H|≥4^n-r，计算出基于汉明-VT的DNA存储编码的码

的冗余度是

且有

得到ζ＝log₂n+O(1)。

为使本领域的技术人员更好地理解本发明，下面对原理阐述如下：

本发明通过两次编码，首先进行汉明码编码，然后进行VT码编码，构建了一种能够纠正一个插入或删除错误的DNA编码方案，保证了DNA编码中GC含量稳定在40％-60％之间，找出满足GC含量条件的码字构成的四元码也大大降低了冗余度，节约了DNA编码的成本，并且大大降低了DNA合成和测序中错误发生率。对于在有限域

中的汉明码，满足了汉明距离为3，这也保证了可以纠正一个错误。然后，创新性地对汉明码的校验矩阵H分块处理，保证了汉明码码字空间中的每个码字0和1的个数N满足：

这也为后面保证GC含量在40％-60％之间打下基础。随后，对编码后的汉明码进行4元VT码编码，在满足

得到该码的插入删除距离d_insdel＝4。最后，通过VT码译码算法，可以使我们编码后的码字能够纠正一个插入或删除错误。相比以往的研究，我们在对汉明码的校验矩阵H分块处理，找出了满足GC含量条件稳定在40％-60％的码字构成的四元汉明码，同时通过汉明码和VT码编码在能够纠正一个插入或删除错误的同时也大大降低了冗余度，节约了DNA编码的成本。

定义满足GC含量的码字个数占四元码码集大小的百分比为η，通过计算得出理论值如下：

当r＝2汉明码码长为5时，对应为四元-[5，3，3]汉明码Ham(2，4)，码字个数为q^k＝4³，满足GC含量的个数

带入计算得|C_H|≥48，占四元汉明码码字个数的百分比

当r＝3汉明码码长为21时，对应为四元-[21，18，3]汉明码Ham(3，4)，码字个数为q^k＝4¹⁸，满足GC含量的个数

带入计算得|C_H|≥2.42×10¹⁰，占四元汉明码码字个数的百分比

通过在MATLAB2021平台上的仿真实验得出，

当r＝2时，四元汉明码Ham(2，4)码长为5、维数为3和最小汉明距离为3，码字个数为q^k＝4³，满足GC含量的个数为48，占四元汉明码码字个数的百分比η＝75％，与理论值完全一致；

当r＝3时，四元汉明码Ham(3，4)码长为21、维数为18和最小汉明距离为3，码字个数为q^k＝4¹⁸，满足GC含量的码字个数为2^34.5，占四元汉明码码字个数的百分比η＝2^34.5/4¹⁸×100％＝35.3％，与理论值基本一致；

通过仿真实验，可以看出本发明设计的基于汉明-VT的DNA存储编码方法，可以达到理论要求，并且在对汉明码的校验矩阵H分块处理后，找出满足GC含量条件的码字构成的集合，可有效地保证GC含量稳定在40％-60％之间。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。