CN115642923B

CN115642923B - 一种新型的dna存储编码方法

Info

Publication number: CN115642923B
Application number: CN202211360991.5A
Authority: CN
Inventors: 刘姝; 史祥瑞
Original assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-10-20
Anticipated expiration: 2042-11-02
Also published as: CN115642923A

Abstract

本发明公开一种新型的DNA存储编码方法，涉及信道编码技术领域。包括：步骤一、定义GC‑全局平衡并构造四元(n₁,M₁,d₁)内码C_in；步骤二、计算四元(n₁,M₁,d₁)内码C_in的M₁大小；步骤三、构造q元(n₂,M₂,d₂)汉明码作为外码C_out；步骤四、对内码C_in和外码C_out进行级联，构造四元(N₁,M₃,d₃)级联码C_conc；步骤五、计算步骤四中级联码C_conc的参数；步骤六、定义GC‑分段平衡和GC‑局部平衡及相关转换关系；步骤七、基于步骤六，将步骤五中的级联码C_conc转换为(N,M,d)码C_L；步骤八、基于步骤七中的码C_L，利用四元码Varshamov‑Tenengolts，构造四元码C_VT；步骤九、计算C_VT的参数以及冗余度并分析C_VT的译码复杂度。本发明解决了GC‑局部平衡、游程限制且可以纠正一位编辑错误的DNA存储编码方案。

Description

一种新型的DNA存储编码方法

技术领域

本发明涉及信道编码技术领域，具体涉及一种新型的DNA存储编码方法。

背景技术

随着分布式、云计算和物联网技术的发展，人类每天产生的数据总量呈现出指数增长的趋势，DNA分子基于其存储密度大，保存时间长的优点成为解决海量大数据存储困境的一种极具潜力的存储介质。DNA存储系统通常遵循合成、存储和测序的流程来处理DNA序列。基于现代生物化学和生物技术机器的工作表明，DNA合成和测序中存在过多的插入、删除和替换错误，尤其是，有两个特征显著增加了发生错误的概率，一种是过高或过低的GC含量，另一种是DNA序列中存在过长的游程，例如：AAAAAAAA。具体来说GC含量指的是DNA序列中G和C的数量，而游程指的是相同核苷酸的重复。研究表明，GC含量稳定在50％且DNA序列中游程的长度不超过6时，能最大程度的降低DNA合成和测序时发生错误的概率。

现有DNA编码技术大多只能满足GC-全局平衡加游程限制、GC-分段平衡加游程限制和GC-全局平衡、游程限制且纠正一位编辑错误，而对于满足GC-局部平衡、游程限制且可以纠正一位编辑错误的DNA存储编码方案尚未得到解决。

发明内容

本发明旨在提供一种新型的DNA存储编码方法，通过构造内码C_in，使编码后DNA序列的GC含量稳定在50％，并且游程l≤6；然后通过内码C_in与汉明码外码C_out级联得到的C_conc可以纠正一个替换错误；再通过建立GC-全局平衡、GC-分段平衡和GC-局部平衡之间的转化关系，找出GC-全局平衡的码到GC-局部平衡的码的转化方法，并生成DNA存储编码的相关参数，构造出满足GC-局部平衡、6-游程限制且能纠正一位替换错误的码C_L；然后结合四元Varshamov-Tenengolts码，引入纠正插入、删除错误的性质，最后设计出满足GC-局部平衡、游程约束且纠正一位编辑错误的DNA存储编码C_TV。

为达到上述目的，本发明提供的上述一种新型的DNA存储编码方法，包括：

步骤一、定义GC-全局平衡并构造四元(n₁,M₁,d₁)内码C_in；

步骤二、计算四元(n₁,M₁,d₁)内码C_in的M₁大小；

步骤三、构造q元(n₂,M₂,d₂)汉明码作为外码C_out；

步骤四、对内码C_in和外码C_out进行级联，构造满足GC-全局平衡、l-游程限制且纠正一位替换错误的四元(N₁,M₃,d₃)级联码C_conc；

步骤五、计算步骤四中级联码C_conc的参数；

步骤六、定义GC-分段平衡和GC-局部平衡并分析GC-全局平衡到GC-分段平衡、GC-分段平衡到GC-局部平衡的转换关系；

步骤七、首先从GC-全局平衡到GC-分段平衡，然后从GC-分段平衡到GC-局部平衡的转换关系，将步骤五中满足GC-全局平衡和游程约束的级联码C_conc转换为满足GC-局部平衡和游程约束的(N,M,d)码C_L；

步骤八、基于步骤七中的码C_L，利用四元码Varshamov-Tenengolts，构造GC-(l′,δ)局部平衡、6-游程限制且纠正一个编辑错误的四元码C_VT；

步骤九、计算C_VT的参数以及冗余度并分析C_VT的译码复杂度。

优选的，所述步骤一中定义GC-全局平衡并构造四元(n₁,M₁,d₁)内码C_in的过程为：

首先定义四元有限域其中，α满足α²+α+1＝0；

然后构造DNA字母集并建立/>到DNA字母集/>的双射τ：τ(0)＝C,τ(1)＝G,τ(α)＝A,τ(1+α)＝T；

针对GC-全局平衡首先定义，对任意四元序列令c的GC-重量为/>其中/>GC-全局平衡指的是，对任意小的实数∈≥0，DNA序列S＝s₁s₂…s_n，如果对该DNA序列S，满足0.5-∈≤Ψ(S)≤0.5+∈，则称S满足GC-全局平衡，特别的当∈＝0时，称c是GC全局平衡的，选取/>上所有长度为6的向量其中满足c的GC-重量Ψ(c)＝3的向量来构造C_in，则/>

优选的，所述步骤二中计算四元(n₁,M₁,d₁)内码C_in的M₁大小的过程为：

首先定义{a}^t是长度为t的字符串，其中所以对于四元向量可以写为：

其中||为两个字符的串联。b_i≠b_i+1,i∈[1,k]，并定义为一个游程，即有当/>t_i∈[1,l]时，称v为l-游程限制的，则针对步骤一中的C_in满足GC-全局平衡且3-游程限制；内码C_in的码字个数/>

优选的，所述步骤三中构造q元(n₂,M₂,d₂)汉明码作为外码C_out的过程为：

选取q为不超过M₁的素数幂，在有限域上构造q元(n₂,M₂,d₂)汉明码/>其中码长/>维数为n₂-r，r>1且为整数，最小汉明距离d₂＝3，则C_out的码字个数

优选的，所述步骤四中对内码C_in和外码C_out进行级联，构造满足GC-全局平衡、l-游程限制且纠正一位替换错误的四元(N₁,M₃,d₃)级联码C_conc的过程为：

构造单射π：对任意向量/>利用单射π做级联，得到/>构造

优选的，所述步骤五中计算步骤四中级联码C_conc的参数过程为：

其中码长N₁＝6n₂，码字个数最小汉明距离d≥d₁d₂＝3，所以C_conc可以纠正一个替换错误；由步骤四可以得出π(c_i),i∈[1,n₂]是GC-全局平衡、3-游程限制的，所以可以得出级联码C_conc满足GC-全局平衡、6-游程限制且可以纠正一位替换错误。

优选的，所述步骤六中定义GC-分段平衡和GC-局部平衡并分析GC-全局平衡到GC-分段平衡、GC-分段平衡到GC-局部平衡的转换关系的过程为：

GC-分段平衡指的是，对任意小的实数∈≥0，DNA序列S＝s₁s₂…s_n，n＝ml，将DNA序列S分成m个DNA序列片段：S＝S⁽¹⁾S⁽²⁾…S^(m)，其中，S⁽ⁱ⁾＝s_(i-1)l+1s_(i-1)l+2…s_il，|S⁽ⁱ⁾|＝l，i＝1,…,m，如果对每个DNA序列片段S⁽ⁱ⁾，都满足则称S满足GC-(l,∈)-分段平衡；

GC-局部平衡指的是，对任意小的实数δ≥0，DNA序列S＝s₁s₂…s_n，且整数l′<n，如果对S的任意长为l′的DNA序列片段S_i＝s_is_i+1…s_i+l′-1，i＝1,…,n-l′+1，都有S_i的GC-含量满足则称S满足GC-(l′,δ)-局部平衡；

然后建立从GC-全局平衡到GC-分段平衡的转换，令为正整数，对任意小的实数∈≥0，若四元码/>满足GC-∈-全局平衡，构造则C₁满足GC-(l,∈)-分段平衡，并且|C₁|＝|C₀|^t；

建立GC-分段平衡到GC-局部平衡的转换；令同上为正整数，n＝lt，对任意小的实数∈≥0，若/>满足GC-(l,∈)-分段平衡，且2l<l′≤n，则C₁满足GC-含量(l′,δ)-局部平衡，其中，对任意c＝(c₁,c₂,…c_n)＝(c⁽¹⁾,c⁽²⁾,…,c^(m))∈C₁，|c⁽ⁱ⁾|＝l,i＝1,…,m，即c被分割成m个分块；考虑c的任意l′长的子列/> 根据l′>2l，则/>至少跨越三个分块；假设/>跨越的第一个分块上覆盖了a个位置，/>跨越的最后一个分块上覆盖了b个位置，则l′＝a+tl+b，其中t≥1；根据c满足GC-(l,∈)-分段平衡的性质，有若c满足GC-(l′,δ)-局部平衡的性质，则要求：由此推出

优选的，所述首先从GC-全局平衡到GC-分段平衡，然后从GC-分段平衡到GC-局部平衡的转换关系，将步骤五中满足GC-全局平衡和游程约束的级联码C_conc转换为满足GC-局部平衡和游程约束的(N,M,d)码C_L的过程为：

将步骤五中的级联码C_conc转换为GC局部平衡、6-游程限制且可以纠正一位替换错误的(N,M,d)码C_L，构造则C_L码长为N＝N₁t，码字个数/>极小距离d≥3，此时C_L满足GC-(l,∈)-分段平衡，其中l＝N₁，则根据步骤六中GC-分段平衡到GC-局部平衡的转换关系，C_L满足GC-(l′,δ)-局部平衡，其中2l<l′≤n，/>

优选的，所述基于步骤七中的码C_L，利用四元码Varshamov-Tenengolts，构造GC-(l′,δ)局部平衡、6-游程限制且纠正一个编辑错误的元码C_VT的过程为：

首先针对四元的VT码其中定义序列参数a₁＝0，/>其中i＝2,3,...,n；记根据抽屉原理有C_s的大小/>记根据抽屉原理有/>故有

根据上述构造的C_VT，由于C_VT是C_L的子码，则C_VT满足GC-(l′,δ)局部平衡、6-游程限制且可以纠正一个替换错误，又由于C_VT也是某个四元VT码的子码，故C_VT可以纠正一个插入或删除错误，即C_VT可以纠正一个编辑错误且是GC-(l′,δ)局部平衡、6-游程限制的。

优选的，所述计算C_VT的参数以及冗余度并分析C_VT的译码复杂度的过程为：

C_VT码长为N，最小汉明距离≥3，且码字个数C_VT的冗余度为则有：

若接收向量为r，当|r|＝N时，则判定发生了一位替换错误，通过汉明码的译码算法，纠正一位替换错误，译码复杂度为O(NlogN)；当|r|＝N+1或N-1，则判定发生了一位插入或删除错误，通过VT码的译码算法，纠正一位插入或删除错误，译码复杂度为O(N)。

本发明解决了GC-局部平衡、游程限制且可以纠正一位编辑错误的DNA存储编码方案，通过构造内码C_in，使编码后DNA序列的GC含量稳定在50％，并且游程l≤6；然后通过内码C_in与汉明码外码C_out级联得到的C_conc可以纠正一个替换错误；再通过建立GC-全局平衡、GC-分段平衡和GC-局部平衡之间的转化关系，找出GC-全局平衡的码到GC-局部平衡的码的转化方法，并生成DNA存储编码的相关参数，构造出满足GC-局部平衡、6-游程限制且能纠正一位替换错误的码C_L；然后结合四元Varshamov-Tenengolts码，引入纠正插入、删除错误的性质，最后设计出满足GC-局部平衡、游程约束且纠正一位编辑错误的DNA存储编码C_TV。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明中的方法流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请实施例的描述中，需要说明的是，指示方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请实施例的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接连接，也可以通过中间媒介间接连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

实施例

一种新型的DNA存储编码方法，包括：

步骤一、定义GC-全局平衡并构造四元(n₁,M₁,d₁)内码C_in；

步骤二、计算四元(n₁,M₁,d₁)内码C_in的M₁大小；

步骤三、构造q元(n₂,M₂,d₂)汉明码作为外码C_out；

步骤五、计算步骤四中级联码C_conc的参数；

上述步骤一中定义GC-全局平衡并构造四元(n₁,M₁,d₁)内码C_in的过程为：

首先定义四元有限域其中，α满足α²+α+1＝0；

上述步骤二中计算四元(n₁,M₁,d₁)内码C_in的M₁大小的过程为：

上述步骤三中构造q元(n₂,M₂,d₂)汉明码作为外码C_out的过程为：

上述步骤四中对内码C_in和外码C_out进行级联，构造满足GC-全局平衡、l-游程限制且纠正一位替换错误的四元(N₁,M₃,d₃)级联码C_conc的过程为：

构造单射π：对任意向量/>利用单射π做级联，得到/>构造

上述步骤五中计算步骤四中级联码C_conc的参数过程为：

上述步骤六中定义GC-分段平衡和GC-局部平衡并分析GC-全局平衡到GC-分段平衡、GC-分段平衡到GC-局部平衡的转换关系的过程为：

上述首先从GC-全局平衡到GC-分段平衡，然后从GC-分段平衡到GC-局部平衡的转换关系，将步骤五中满足GC-全局平衡和游程约束的级联码C_conc转换为满足GC-局部平衡和游程约束的(N,M,d)码C_L的过程为：

上述基于步骤七中的码C_L，利用四元码Varshamov-Tenengolts，构造GC-(l′,δ)局部平衡、6-游程限制且纠正一个编辑错误的元码C_VT的过程为：

上述计算C_VT的参数以及冗余度并分析C_VT的译码复杂度的过程为：

通过构造内码C_in，使编码后DNA序列的GC含量稳定在50％，并且游程l≤6；然后通过内码C_in与汉明码外码C_out级联得到的C_conc可以纠正一个替换错误；再通过建立GC-全局平衡、GC-分段平衡和GC-局部平衡之间的转化关系，找出GC-全局平衡的码到GC-局部平衡的码的转化方法，并生成DNA存储编码的相关参数，构造出满足GC-局部平衡、6-游程限制且能纠正一位替换错误的码C_L；然后结合四元Varshamov-Tenengolts码，引入纠正插入、删除错误的性质，最后设计出满足GC-局部平衡、游程约束且纠正一位编辑错误的DNA存储编码C_TV，解决了GC-局部平衡、游程限制且可以纠正一位编辑错误的DNA存储编码方案。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种新型的DNA存储编码方法，其特征在于，包括：

步骤一、定义GC-全局平衡并构造四元(n₁,M₁,d₁)内码C_in；

步骤二、计算四元(n₁,M₁,d₁)内码C_in的M₁大小；

步骤三、构造q元(n₂,M₂,d₂)汉明码作为外码C_out；

步骤五、计算步骤四中级联码C_conc的参数；

2.根据权利要求1所述的一种新型的DNA存储编码方法，其特征在于：所述步骤一中定义GC-全局平衡并构造四元(n₁,M₁,d₁)内码C_in的过程为：

首先定义四元有限域其中，α满足α²+α+1＝0；

针对GC-全局平衡首先定义，对任意四元序列令c的GC-重量为其中/>GC-全局平衡指的是，对任意小的实数∈≥0，DNA序列S＝s₁s₂…s_n，如果对该DNA序列S，满足0.5-∈≤Ψ(S)≤0.5+∈，则称S满足GC-全局平衡，特别的当∈＝0时，称c是GC全局平衡的，选取/>上所有长度为6的向量其中满足c的GC-重量Ψ(c)＝3的向量来构造C_in，则/>

3.根据权利要求1所述的一种新型的DNA存储编码方法，其特征在于：所述步骤二中计算四元(n₁,M₁,d₁)内码C_in的M₁大小的过程为：

其中||为两个字符的串联；b_i≠b_i+1,i∈[1,k]，并定义为一个游程，即有当/>t_i∈[1,l]时，称v为l-游程限制的，则针对步骤一中的C_in满足GC-全局平衡且3-游程限制；内码C_in的码字个数/>

4.根据权利要求1所述的一种新型的DNA存储编码方法，其特征在于：所述步骤三中构造q元(n₂,M₂,d₂)汉明码作为外码C_out的过程为：

5.根据权利要求1所述的一种新型的DNA存储编码方法，其特征在于：所述步骤四中对内码C_in和外码C_out进行级联，构造满足GC-全局平衡、l-游程限制且纠正一位替换错误的四元(N₁,M₃,d₃)级联码C_conc的过程为：

构造单射π：对任意向量/>利用单射π做级联，得到/>构造

6.根据权利要求1所述的一种新型的DNA存储编码方法，其特征在于：所述步骤五中计算步骤四中级联码C_conc的参数过程为：

7.根据权利要求1所述的一种新型的DNA存储编码方法，其特征在于：所述步骤六中定义GC-分段平衡和GC-局部平衡并分析GC-全局平衡到GC-分段平衡、GC-分段平衡到GC-局部平衡的转换关系的过程为：

建立GC-分段平衡到GC-局部平衡的转换；令同上为正整数，n＝lt，对任意小的实数∈≥0，若/>满足GC-(l,∈)-分段平衡，且2l<l′≤n，则C₁满足GC-含量(l′,δ)-局部平衡，其中，对任意c＝(c₁,c₂,…c_n)＝(c⁽¹⁾,c⁽²⁾,…,c^(m))∈C₁，|c⁽ⁱ⁾|＝l,i＝1,…,m，即c被分割成m个分块；考虑c的任意l′长的子列/>根据l′>2l，则/>至少跨越三个分块；假设/>跨越的第一个分块上覆盖了a个位置，/>跨越的最后一个分块上覆盖了b个位置，则l′＝a+tl+b，其中t≥1；根据c满足GC-(l,∈)-分段平衡的性质，有若c满足GC-(l′,δ)-局部平衡的性质，则要求：由此推出

8.根据权利要求1所述的一种新型的DNA存储编码方法，其特征在于：所述首先从GC-全局平衡到GC-分段平衡，然后从GC-分段平衡到GC-局部平衡的转换关系，将步骤五中满足GC-全局平衡和游程约束的级联码C_conc转换为满足GC-局部平衡和游程约束的(N,M,d)码C_L的过程为：

9.根据权利要求1所述的一种新型的DNA存储编码方法，其特征在于：所述基于步骤七中的码C_L，利用四元码Varshamov-Tenengolts，构造GC-(l′,δ)局部平衡、6-游程限制且纠正一个编辑错误的元码C_VT的过程为：

10.根据权利要求1所述的一种新型的DNA存储编码方法，其特征在于：所述计算C_VT的参数以及冗余度并分析C_VT的译码复杂度的过程为：

C_VT码长为N，最小汉明距离≥3，且码字个数C_VT的冗余度为/>则有：