CN115642923B - 一种新型的dna存储编码方法 - Google Patents

一种新型的dna存储编码方法 Download PDF

Info

Publication number
CN115642923B
CN115642923B CN202211360991.5A CN202211360991A CN115642923B CN 115642923 B CN115642923 B CN 115642923B CN 202211360991 A CN202211360991 A CN 202211360991A CN 115642923 B CN115642923 B CN 115642923B
Authority
CN
China
Prior art keywords
code
balance
quaternary
global
run
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211360991.5A
Other languages
English (en)
Other versions
CN115642923A (zh
Inventor
刘姝
史祥瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
University of Electronic Science and Technology of China
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Yangtze River Delta Research Institute of UESTC Huzhou filed Critical University of Electronic Science and Technology of China
Priority to CN202211360991.5A priority Critical patent/CN115642923B/zh
Publication of CN115642923A publication Critical patent/CN115642923A/zh
Application granted granted Critical
Publication of CN115642923B publication Critical patent/CN115642923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Error Detection And Correction (AREA)

Abstract

本发明公开一种新型的DNA存储编码方法,涉及信道编码技术领域。包括:步骤一、定义GC‑全局平衡并构造四元(n1,M1,d1)内码Cin;步骤二、计算四元(n1,M1,d1)内码Cin的M1大小;步骤三、构造q元(n2,M2,d2)汉明码作为外码Cout;步骤四、对内码Cin和外码Cout进行级联,构造四元(N1,M3,d3)级联码Cconc;步骤五、计算步骤四中级联码Cconc的参数;步骤六、定义GC‑分段平衡和GC‑局部平衡及相关转换关系;步骤七、基于步骤六,将步骤五中的级联码Cconc转换为(N,M,d)码CL;步骤八、基于步骤七中的码CL,利用四元码Varshamov‑Tenengolts,构造四元码CVT;步骤九、计算CVT的参数以及冗余度并分析CVT的译码复杂度。本发明解决了GC‑局部平衡、游程限制且可以纠正一位编辑错误的DNA存储编码方案。

Description

一种新型的DNA存储编码方法
技术领域
本发明涉及信道编码技术领域,具体涉及一种新型的DNA存储编码方法。
背景技术
随着分布式、云计算和物联网技术的发展,人类每天产生的数据总量呈现出指数增长的趋势,DNA分子基于其存储密度大,保存时间长的优点成为解决海量大数据存储困境的一种极具潜力的存储介质。DNA存储系统通常遵循合成、存储和测序的流程来处理DNA序列。基于现代生物化学和生物技术机器的工作表明,DNA合成和测序中存在过多的插入、删除和替换错误,尤其是,有两个特征显著增加了发生错误的概率,一种是过高或过低的GC含量,另一种是DNA序列中存在过长的游程,例如:AAAAAAAA。具体来说GC含量指的是DNA序列中G和C的数量,而游程指的是相同核苷酸的重复。研究表明,GC含量稳定在50%且DNA序列中游程的长度不超过6时,能最大程度的降低DNA合成和测序时发生错误的概率。
现有DNA编码技术大多只能满足GC-全局平衡加游程限制、GC-分段平衡加游程限制和GC-全局平衡、游程限制且纠正一位编辑错误,而对于满足GC-局部平衡、游程限制且可以纠正一位编辑错误的DNA存储编码方案尚未得到解决。
发明内容
本发明旨在提供一种新型的DNA存储编码方法,通过构造内码Cin,使编码后DNA序列的GC含量稳定在50%,并且游程l≤6;然后通过内码Cin与汉明码外码Cout级联得到的Cconc可以纠正一个替换错误;再通过建立GC-全局平衡、GC-分段平衡和GC-局部平衡之间的转化关系,找出GC-全局平衡的码到GC-局部平衡的码的转化方法,并生成DNA存储编码的相关参数,构造出满足GC-局部平衡、6-游程限制且能纠正一位替换错误的码CL;然后结合四元Varshamov-Tenengolts码,引入纠正插入、删除错误的性质,最后设计出满足GC-局部平衡、游程约束且纠正一位编辑错误的DNA存储编码CTV
为达到上述目的,本发明提供的上述一种新型的DNA存储编码方法,包括:
步骤一、定义GC-全局平衡并构造四元(n1,M1,d1)内码Cin
步骤二、计算四元(n1,M1,d1)内码Cin的M1大小;
步骤三、构造q元(n2,M2,d2)汉明码作为外码Cout
步骤四、对内码Cin和外码Cout进行级联,构造满足GC-全局平衡、l-游程限制且纠正一位替换错误的四元(N1,M3,d3)级联码Cconc
步骤五、计算步骤四中级联码Cconc的参数;
步骤六、定义GC-分段平衡和GC-局部平衡并分析GC-全局平衡到GC-分段平衡、GC-分段平衡到GC-局部平衡的转换关系;
步骤七、首先从GC-全局平衡到GC-分段平衡,然后从GC-分段平衡到GC-局部平衡的转换关系,将步骤五中满足GC-全局平衡和游程约束的级联码Cconc转换为满足GC-局部平衡和游程约束的(N,M,d)码CL
步骤八、基于步骤七中的码CL,利用四元码Varshamov-Tenengolts,构造GC-(l′,δ)局部平衡、6-游程限制且纠正一个编辑错误的四元码CVT
步骤九、计算CVT的参数以及冗余度并分析CVT的译码复杂度。
优选的,所述步骤一中定义GC-全局平衡并构造四元(n1,M1,d1)内码Cin的过程为:
首先定义四元有限域其中,α满足α2+α+1=0;
然后构造DNA字母集并建立/>到DNA字母集/>的双射τ:τ(0)=C,τ(1)=G,τ(α)=A,τ(1+α)=T;
针对GC-全局平衡首先定义,对任意四元序列令c的GC-重量为/>其中/>GC-全局平衡指的是,对任意小的实数∈≥0,DNA序列S=s1s2…sn,如果对该DNA序列S,满足0.5-∈≤Ψ(S)≤0.5+∈,则称S满足GC-全局平衡,特别的当∈=0时,称c是GC全局平衡的,选取/>上所有长度为6的向量其中满足c的GC-重量Ψ(c)=3的向量来构造Cin,则/>
优选的,所述步骤二中计算四元(n1,M1,d1)内码Cin的M1大小的过程为:
首先定义{a}t是长度为t的字符串,其中所以对于四元向量 可以写为:
其中||为两个字符的串联。bi≠bi+1,i∈[1,k],并定义为一个游程,即有当/>ti∈[1,l]时,称v为l-游程限制的,则针对步骤一中的Cin满足GC-全局平衡且3-游程限制;内码Cin的码字个数/>
优选的,所述步骤三中构造q元(n2,M2,d2)汉明码作为外码Cout的过程为:
选取q为不超过M1的素数幂,在有限域上构造q元(n2,M2,d2)汉明码/>其中码长/>维数为n2-r,r>1且为整数,最小汉明距离d2=3,则Cout的码字个数
优选的,所述步骤四中对内码Cin和外码Cout进行级联,构造满足GC-全局平衡、l-游程限制且纠正一位替换错误的四元(N1,M3,d3)级联码Cconc的过程为:
构造单射π:对任意向量/>利用单射π做级联,得到/>构造
优选的,所述步骤五中计算步骤四中级联码Cconc的参数过程为:
其中码长N1=6n2,码字个数最小汉明距离d≥d1d2=3,所以Cconc可以纠正一个替换错误;由步骤四可以得出π(ci),i∈[1,n2]是GC-全局平衡、3-游程限制的,所以可以得出级联码Cconc满足GC-全局平衡、6-游程限制且可以纠正一位替换错误。
优选的,所述步骤六中定义GC-分段平衡和GC-局部平衡并分析GC-全局平衡到GC-分段平衡、GC-分段平衡到GC-局部平衡的转换关系的过程为:
GC-分段平衡指的是,对任意小的实数∈≥0,DNA序列S=s1s2…sn,n=ml,将DNA序列S分成m个DNA序列片段:S=S(1)S(2)…S(m),其中,S(i)=s(i-1)l+1s(i-1)l+2…sil,|S(i)|=l,i=1,…,m,如果对每个DNA序列片段S(i),都满足则称S满足GC-(l,∈)-分段平衡;
GC-局部平衡指的是,对任意小的实数δ≥0,DNA序列S=s1s2…sn,且整数l′<n,如果对S的任意长为l′的DNA序列片段Si=sisi+1…si+l′-1,i=1,…,n-l′+1,都有Si的GC-含量满足则称S满足GC-(l′,δ)-局部平衡;
然后建立从GC-全局平衡到GC-分段平衡的转换,令 为正整数,对任意小的实数∈≥0,若四元码/>满足GC-∈-全局平衡,构造 则C1满足GC-(l,∈)-分段平衡,并且|C1|=|C0|t
建立GC-分段平衡到GC-局部平衡的转换;令 同上为正整数,n=lt,对任意小的实数∈≥0,若/>满足GC-(l,∈)-分段平衡,且2l<l′≤n,则C1满足GC-含量(l′,δ)-局部平衡,其中,对任意c=(c1,c2,…cn)=(c(1),c(2),…,c(m))∈C1,|c(i)|=l,i=1,…,m,即c被分割成m个分块;考虑c的任意l′长的子列/> 根据l′>2l,则/>至少跨越三个分块;假设/>跨越的第一个分块上覆盖了a个位置,/>跨越的最后一个分块上覆盖了b个位置,则l′=a+tl+b,其中t≥1;根据c满足GC-(l,∈)-分段平衡的性质,有 若c满足GC-(l′,δ)-局部平衡的性质,则要求: 由此推出
优选的,所述首先从GC-全局平衡到GC-分段平衡,然后从GC-分段平衡到GC-局部平衡的转换关系,将步骤五中满足GC-全局平衡和游程约束的级联码Cconc转换为满足GC-局部平衡和游程约束的(N,M,d)码CL的过程为:
将步骤五中的级联码Cconc转换为GC局部平衡、6-游程限制且可以纠正一位替换错误的(N,M,d)码CL,构造则CL码长为N=N1t,码字个数/>极小距离d≥3,此时CL满足GC-(l,∈)-分段平衡,其中l=N1,则根据步骤六中GC-分段平衡到GC-局部平衡的转换关系,CL满足GC-(l′,δ)-局部平衡,其中2l<l′≤n,/>
优选的,所述基于步骤七中的码CL,利用四元码Varshamov-Tenengolts,构造GC-(l′,δ)局部平衡、6-游程限制且纠正一个编辑错误的元码CVT的过程为:
首先针对四元的VT码 其中定义序列参数a1=0,/>其中i=2,3,...,n;记根据抽屉原理有Cs的大小/>根据抽屉原理有/>故有
根据上述构造的CVT,由于CVT是CL的子码,则CVT满足GC-(l′,δ)局部平衡、6-游程限制且可以纠正一个替换错误,又由于CVT也是某个四元VT码的子码,故CVT可以纠正一个插入或删除错误,即CVT可以纠正一个编辑错误且是GC-(l′,δ)局部平衡、6-游程限制的。
优选的,所述计算CVT的参数以及冗余度并分析CVT的译码复杂度的过程为:
CVT码长为N,最小汉明距离≥3,且码字个数CVT的冗余度为则有:
若接收向量为r,当|r|=N时,则判定发生了一位替换错误,通过汉明码的译码算法,纠正一位替换错误,译码复杂度为O(NlogN);当|r|=N+1或N-1,则判定发生了一位插入或删除错误,通过VT码的译码算法,纠正一位插入或删除错误,译码复杂度为O(N)。
本发明解决了GC-局部平衡、游程限制且可以纠正一位编辑错误的DNA存储编码方案,通过构造内码Cin,使编码后DNA序列的GC含量稳定在50%,并且游程l≤6;然后通过内码Cin与汉明码外码Cout级联得到的Cconc可以纠正一个替换错误;再通过建立GC-全局平衡、GC-分段平衡和GC-局部平衡之间的转化关系,找出GC-全局平衡的码到GC-局部平衡的码的转化方法,并生成DNA存储编码的相关参数,构造出满足GC-局部平衡、6-游程限制且能纠正一位替换错误的码CL;然后结合四元Varshamov-Tenengolts码,引入纠正插入、删除错误的性质,最后设计出满足GC-局部平衡、游程约束且纠正一位编辑错误的DNA存储编码CTV
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明中的方法流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请实施例的描述中,需要说明的是,指示方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请实施例的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接连接,也可以通过中间媒介间接连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
实施例
一种新型的DNA存储编码方法,包括:
步骤一、定义GC-全局平衡并构造四元(n1,M1,d1)内码Cin
步骤二、计算四元(n1,M1,d1)内码Cin的M1大小;
步骤三、构造q元(n2,M2,d2)汉明码作为外码Cout
步骤四、对内码Cin和外码Cout进行级联,构造满足GC-全局平衡、l-游程限制且纠正一位替换错误的四元(N1,M3,d3)级联码Cconc
步骤五、计算步骤四中级联码Cconc的参数;
步骤六、定义GC-分段平衡和GC-局部平衡并分析GC-全局平衡到GC-分段平衡、GC-分段平衡到GC-局部平衡的转换关系;
步骤七、首先从GC-全局平衡到GC-分段平衡,然后从GC-分段平衡到GC-局部平衡的转换关系,将步骤五中满足GC-全局平衡和游程约束的级联码Cconc转换为满足GC-局部平衡和游程约束的(N,M,d)码CL
步骤八、基于步骤七中的码CL,利用四元码Varshamov-Tenengolts,构造GC-(l′,δ)局部平衡、6-游程限制且纠正一个编辑错误的四元码CVT
步骤九、计算CVT的参数以及冗余度并分析CVT的译码复杂度。
上述步骤一中定义GC-全局平衡并构造四元(n1,M1,d1)内码Cin的过程为:
首先定义四元有限域其中,α满足α2+α+1=0;
然后构造DNA字母集并建立/>到DNA字母集/>的双射τ:τ(0)=C,τ(1)=G,τ(α)=A,τ(1+α)=T;
针对GC-全局平衡首先定义,对任意四元序列令c的GC-重量为/>其中/>GC-全局平衡指的是,对任意小的实数∈≥0,DNA序列S=s1s2…sn,如果对该DNA序列S,满足0.5-∈≤Ψ(S)≤0.5+∈,则称S满足GC-全局平衡,特别的当∈=0时,称c是GC全局平衡的,选取/>上所有长度为6的向量其中满足c的GC-重量Ψ(c)=3的向量来构造Cin,则/>
上述步骤二中计算四元(n1,M1,d1)内码Cin的M1大小的过程为:
首先定义{a}t是长度为t的字符串,其中所以对于四元向量 可以写为:
其中||为两个字符的串联。bi≠bi+1,i∈[1,k],并定义为一个游程,即有当/>ti∈[1,l]时,称v为l-游程限制的,则针对步骤一中的Cin满足GC-全局平衡且3-游程限制;内码Cin的码字个数/>
上述步骤三中构造q元(n2,M2,d2)汉明码作为外码Cout的过程为:
选取q为不超过M1的素数幂,在有限域上构造q元(n2,M2,d2)汉明码/>其中码长/>维数为n2-r,r>1且为整数,最小汉明距离d2=3,则Cout的码字个数
上述步骤四中对内码Cin和外码Cout进行级联,构造满足GC-全局平衡、l-游程限制且纠正一位替换错误的四元(N1,M3,d3)级联码Cconc的过程为:
构造单射π:对任意向量/>利用单射π做级联,得到/>构造
上述步骤五中计算步骤四中级联码Cconc的参数过程为:
其中码长N1=6n2,码字个数最小汉明距离d≥d1d2=3,所以Cconc可以纠正一个替换错误;由步骤四可以得出π(ci),i∈[1,n2]是GC-全局平衡、3-游程限制的,所以可以得出级联码Cconc满足GC-全局平衡、6-游程限制且可以纠正一位替换错误。
上述步骤六中定义GC-分段平衡和GC-局部平衡并分析GC-全局平衡到GC-分段平衡、GC-分段平衡到GC-局部平衡的转换关系的过程为:
GC-分段平衡指的是,对任意小的实数∈≥0,DNA序列S=s1s2…sn,n=ml,将DNA序列S分成m个DNA序列片段:S=S(1)S(2)…S(m),其中,S(i)=s(i-1)l+1s(i-1)l+2…sil,|S(i)|=l,i=1,…,m,如果对每个DNA序列片段S(i),都满足则称S满足GC-(l,∈)-分段平衡;
GC-局部平衡指的是,对任意小的实数δ≥0,DNA序列S=s1s2…sn,且整数l′<n,如果对S的任意长为l′的DNA序列片段Si=sisi+1…si+l′-1,i=1,…,n-l′+1,都有Si的GC-含量满足则称S满足GC-(l′,δ)-局部平衡;
然后建立从GC-全局平衡到GC-分段平衡的转换,令 为正整数,对任意小的实数∈≥0,若四元码/>满足GC-∈-全局平衡,构造 则C1满足GC-(l,∈)-分段平衡,并且|C1|=|C0|t
建立GC-分段平衡到GC-局部平衡的转换;令 同上为正整数,n=lt,对任意小的实数∈≥0,若/>满足GC-(l,∈)-分段平衡,且2l<l′≤n,则C1满足GC-含量(l′,δ)-局部平衡,其中,对任意c=(c1,c2,…cn)=(c(1),c(2),…,c(m))∈C1,|c(i)|=l,i=1,…,m,即c被分割成m个分块;考虑c的任意l′长的子列/> 根据l′>2l,则/>至少跨越三个分块;假设/>跨越的第一个分块上覆盖了a个位置,/>跨越的最后一个分块上覆盖了b个位置,则l′=a+tl+b,其中t≥1;根据c满足GC-(l,∈)-分段平衡的性质,有 若c满足GC-(l′,δ)-局部平衡的性质,则要求: 由此推出
上述首先从GC-全局平衡到GC-分段平衡,然后从GC-分段平衡到GC-局部平衡的转换关系,将步骤五中满足GC-全局平衡和游程约束的级联码Cconc转换为满足GC-局部平衡和游程约束的(N,M,d)码CL的过程为:
将步骤五中的级联码Cconc转换为GC局部平衡、6-游程限制且可以纠正一位替换错误的(N,M,d)码CL,构造则CL码长为N=N1t,码字个数/>极小距离d≥3,此时CL满足GC-(l,∈)-分段平衡,其中l=N1,则根据步骤六中GC-分段平衡到GC-局部平衡的转换关系,CL满足GC-(l′,δ)-局部平衡,其中2l<l′≤n,/>
上述基于步骤七中的码CL,利用四元码Varshamov-Tenengolts,构造GC-(l′,δ)局部平衡、6-游程限制且纠正一个编辑错误的元码CVT的过程为:
首先针对四元的VT码 其中定义序列参数a1=0,/>其中i=2,3,...,n;记根据抽屉原理有Cs的大小/>根据抽屉原理有/>故有
根据上述构造的CVT,由于CVT是CL的子码,则CVT满足GC-(l′,δ)局部平衡、6-游程限制且可以纠正一个替换错误,又由于CVT也是某个四元VT码的子码,故CVT可以纠正一个插入或删除错误,即CVT可以纠正一个编辑错误且是GC-(l′,δ)局部平衡、6-游程限制的。
上述计算CVT的参数以及冗余度并分析CVT的译码复杂度的过程为:
CVT码长为N,最小汉明距离≥3,且码字个数CVT的冗余度为则有:
若接收向量为r,当|r|=N时,则判定发生了一位替换错误,通过汉明码的译码算法,纠正一位替换错误,译码复杂度为O(NlogN);当|r|=N+1或N-1,则判定发生了一位插入或删除错误,通过VT码的译码算法,纠正一位插入或删除错误,译码复杂度为O(N)。
通过构造内码Cin,使编码后DNA序列的GC含量稳定在50%,并且游程l≤6;然后通过内码Cin与汉明码外码Cout级联得到的Cconc可以纠正一个替换错误;再通过建立GC-全局平衡、GC-分段平衡和GC-局部平衡之间的转化关系,找出GC-全局平衡的码到GC-局部平衡的码的转化方法,并生成DNA存储编码的相关参数,构造出满足GC-局部平衡、6-游程限制且能纠正一位替换错误的码CL;然后结合四元Varshamov-Tenengolts码,引入纠正插入、删除错误的性质,最后设计出满足GC-局部平衡、游程约束且纠正一位编辑错误的DNA存储编码CTV,解决了GC-局部平衡、游程限制且可以纠正一位编辑错误的DNA存储编码方案。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种新型的DNA存储编码方法,其特征在于,包括:
步骤一、定义GC-全局平衡并构造四元(n1,M1,d1)内码Cin
步骤二、计算四元(n1,M1,d1)内码Cin的M1大小;
步骤三、构造q元(n2,M2,d2)汉明码作为外码Cout
步骤四、对内码Cin和外码Cout进行级联,构造满足GC-全局平衡、l-游程限制且纠正一位替换错误的四元(N1,M3,d3)级联码Cconc
步骤五、计算步骤四中级联码Cconc的参数;
步骤六、定义GC-分段平衡和GC-局部平衡并分析GC-全局平衡到GC-分段平衡、GC-分段平衡到GC-局部平衡的转换关系;
步骤七、首先从GC-全局平衡到GC-分段平衡,然后从GC-分段平衡到GC-局部平衡的转换关系,将步骤五中满足GC-全局平衡和游程约束的级联码Cconc转换为满足GC-局部平衡和游程约束的(N,M,d)码CL
步骤八、基于步骤七中的码CL,利用四元码Varshamov-Tenengolts,构造GC-(l′,δ)局部平衡、6-游程限制且纠正一个编辑错误的四元码CVT
步骤九、计算CVT的参数以及冗余度并分析CVT的译码复杂度。
2.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤一中定义GC-全局平衡并构造四元(n1,M1,d1)内码Cin的过程为:
首先定义四元有限域其中,α满足α2+α+1=0;
然后构造DNA字母集并建立/>到DNA字母集/>的双射τ:τ(0)=C,τ(1)=G,τ(α)=A,τ(1+α)=T;
针对GC-全局平衡首先定义,对任意四元序列令c的GC-重量为其中/>GC-全局平衡指的是,对任意小的实数∈≥0,DNA序列S=s1s2…sn,如果对该DNA序列S,满足0.5-∈≤Ψ(S)≤0.5+∈,则称S满足GC-全局平衡,特别的当∈=0时,称c是GC全局平衡的,选取/>上所有长度为6的向量其中满足c的GC-重量Ψ(c)=3的向量来构造Cin,则/>
3.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤二中计算四元(n1,M1,d1)内码Cin的M1大小的过程为:
首先定义{a}t是长度为t的字符串,其中所以对于四元向量 可以写为:
其中||为两个字符的串联;bi≠bi+1,i∈[1,k],并定义为一个游程,即有当/>ti∈[1,l]时,称v为l-游程限制的,则针对步骤一中的Cin满足GC-全局平衡且3-游程限制;内码Cin的码字个数/>
4.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤三中构造q元(n2,M2,d2)汉明码作为外码Cout的过程为:
选取q为不超过M1的素数幂,在有限域上构造q元(n2,M2,d2)汉明码/>其中码长/>维数为n2-r,r>1且为整数,最小汉明距离d2=3,则Cout的码字个数
5.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤四中对内码Cin和外码Cout进行级联,构造满足GC-全局平衡、l-游程限制且纠正一位替换错误的四元(N1,M3,d3)级联码Cconc的过程为:
构造单射π:对任意向量/>利用单射π做级联,得到/>构造
6.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤五中计算步骤四中级联码Cconc的参数过程为:
其中码长N1=6n2,码字个数最小汉明距离d≥d1d2=3,所以Cconc可以纠正一个替换错误;由步骤四可以得出π(ci),i∈[1,n2]是GC-全局平衡、3-游程限制的,所以可以得出级联码Cconc满足GC-全局平衡、6-游程限制且可以纠正一位替换错误。
7.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤六中定义GC-分段平衡和GC-局部平衡并分析GC-全局平衡到GC-分段平衡、GC-分段平衡到GC-局部平衡的转换关系的过程为:
GC-分段平衡指的是,对任意小的实数∈≥0,DNA序列S=s1s2…sn,n=ml,将DNA序列S分成m个DNA序列片段:S=S(1)S(2)…S(m),其中,S(i)=s(i-1)l+1s(i-1)l+2…sil,|S(i)|=l,i=1,…,m,如果对每个DNA序列片段S(i),都满足则称S满足GC-(l,∈)-分段平衡;
GC-局部平衡指的是,对任意小的实数δ≥0,DNA序列S=s1s2…sn,且整数l′<n,如果对S的任意长为l′的DNA序列片段Si=sisi+1…si+l′-1,i=1,…,n-l′+1,都有Si的GC-含量满足则称S满足GC-(l′,δ)-局部平衡;
然后建立从GC-全局平衡到GC-分段平衡的转换,令 为正整数,对任意小的实数∈≥0,若四元码/>满足GC-∈-全局平衡,构造 则C1满足GC-(l,∈)-分段平衡,并且|C1|=|C0|t
建立GC-分段平衡到GC-局部平衡的转换;令 同上为正整数,n=lt,对任意小的实数∈≥0,若/>满足GC-(l,∈)-分段平衡,且2l<l′≤n,则C1满足GC-含量(l′,δ)-局部平衡,其中,对任意c=(c1,c2,…cn)=(c(1),c(2),…,c(m))∈C1,|c(i)|=l,i=1,…,m,即c被分割成m个分块;考虑c的任意l′长的子列/>根据l′>2l,则/>至少跨越三个分块;假设/>跨越的第一个分块上覆盖了a个位置,/>跨越的最后一个分块上覆盖了b个位置,则l′=a+tl+b,其中t≥1;根据c满足GC-(l,∈)-分段平衡的性质,有 若c满足GC-(l′,δ)-局部平衡的性质,则要求: 由此推出
8.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述首先从GC-全局平衡到GC-分段平衡,然后从GC-分段平衡到GC-局部平衡的转换关系,将步骤五中满足GC-全局平衡和游程约束的级联码Cconc转换为满足GC-局部平衡和游程约束的(N,M,d)码CL的过程为:
将步骤五中的级联码Cconc转换为GC局部平衡、6-游程限制且可以纠正一位替换错误的(N,M,d)码CL,构造则CL码长为N=N1t,码字个数/>极小距离d≥3,此时CL满足GC-(l,∈)-分段平衡,其中l=N1,则根据步骤六中GC-分段平衡到GC-局部平衡的转换关系,CL满足GC-(l′,δ)-局部平衡,其中2l<l′≤n,/>
9.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述基于步骤七中的码CL,利用四元码Varshamov-Tenengolts,构造GC-(l′,δ)局部平衡、6-游程限制且纠正一个编辑错误的元码CVT的过程为:
首先针对四元的VT码 其中定义序列参数a1=0,/>其中i=2,3,...,n;记根据抽屉原理有Cs的大小/>根据抽屉原理有/>故有
根据上述构造的CVT,由于CVT是CL的子码,则CVT满足GC-(l′,δ)局部平衡、6-游程限制且可以纠正一个替换错误,又由于CVT也是某个四元VT码的子码,故CVT可以纠正一个插入或删除错误,即CVT可以纠正一个编辑错误且是GC-(l′,δ)局部平衡、6-游程限制的。
10.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述计算CVT的参数以及冗余度并分析CVT的译码复杂度的过程为:
CVT码长为N,最小汉明距离≥3,且码字个数CVT的冗余度为/>则有:
若接收向量为r,当|r|=N时,则判定发生了一位替换错误,通过汉明码的译码算法,纠正一位替换错误,译码复杂度为O(NlogN);当|r|=N+1或N-1,则判定发生了一位插入或删除错误,通过VT码的译码算法,纠正一位插入或删除错误,译码复杂度为O(N)。
CN202211360991.5A 2022-11-02 2022-11-02 一种新型的dna存储编码方法 Active CN115642923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211360991.5A CN115642923B (zh) 2022-11-02 2022-11-02 一种新型的dna存储编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211360991.5A CN115642923B (zh) 2022-11-02 2022-11-02 一种新型的dna存储编码方法

Publications (2)

Publication Number Publication Date
CN115642923A CN115642923A (zh) 2023-01-24
CN115642923B true CN115642923B (zh) 2023-10-20

Family

ID=84947356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211360991.5A Active CN115642923B (zh) 2022-11-02 2022-11-02 一种新型的dna存储编码方法

Country Status (1)

Country Link
CN (1) CN115642923B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328000A (zh) * 2022-01-10 2022-04-12 天津大学 1型2型分段纠错内码的dna存储级联编码与解码方法
CN115242255A (zh) * 2022-06-23 2022-10-25 电子科技大学 一种基于汉明-vt的dna存储编码方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11093547B2 (en) * 2018-06-19 2021-08-17 Intel Corporation Data storage based on encoded DNA sequences
US20210074380A1 (en) * 2019-09-05 2021-03-11 Microsoft Technology Licensing, Llc Reverse concatenation of error-correcting codes in dna data storage

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328000A (zh) * 2022-01-10 2022-04-12 天津大学 1型2型分段纠错内码的dna存储级联编码与解码方法
CN115242255A (zh) * 2022-06-23 2022-10-25 电子科技大学 一种基于汉明-vt的dna存储编码方法

Also Published As

Publication number Publication date
CN115642923A (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
US10090857B2 (en) Method and apparatus for compressing genetic data
KR20190117652A (ko) 압축된 게놈 서열 리드로부터 게놈 참조 서열의 복원 방법 및 시스템
EP1995974A1 (en) Method and apparatus for realizing arithmetic coding/ decoding
RU2007141938A (ru) Энтропийное кодирование с помощью компактных кодовых книг
EP3311318B1 (en) Method for compressing genomic data
KR101969848B1 (ko) 유전자 데이터를 압축하는 방법 및 장치
CN101779379B (zh) 使用通用级联码(gcc)进行编码和解码
JP2014510302A (ja) オーディオ信号のトラックのパルス位置の符号化および復号化
Mishra et al. Compressed DNA coding using minimum variance Huffman tree
EP3583249B1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
Yang et al. Universal lossless data compression with side information by using a conditional MPM grammar transform
CN115642923B (zh) 一种新型的dna存储编码方法
JP5030919B2 (ja) 変調コード化およびデコード方法および装置
JP7362481B2 (ja) ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体
KR20010014990A (ko) 디지털 데이터용 저 디스패리티 코딩 방법
French Distance preserving run-length limited codes
Pic et al. Rotating labeling of entropy coders for synthetic DNA data storage
WO2018028474A1 (zh) 编码方法及装置、译码方法及装置、存储介质
KR20040044589A (ko) 다수결 논리를 이용한 rm 부호의 연판정 복호 방법 및그 장치
CN110798224A (zh) 一种压缩编码、检错及解码方法
KR20190071741A (ko) 생물 정보학 데이터의 간략 표현 방법 및 장치
JP2004120623A (ja) 符号化装置、符号化方法、復号装置及び復号方法
US6753797B2 (en) Multiproperty 16/17 trellis code
JP2020510907A (ja) ゲノムシーケンスリードの効率的圧縮のための方法及びシステム
US6794999B1 (en) Resilient parameterized prefix codes for adaptive coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant