CN110932736A

CN110932736A - 一种基于Raptor码及四进制RS码的DNA信息存储方法

Info

Publication number: CN110932736A
Application number: CN201911091296.1A
Authority: CN
Inventors: 张淑芳; 彭康
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-11-09
Filing date: 2019-11-09
Publication date: 2020-03-27
Anticipated expiration: 2039-11-09
Also published as: CN110932736B

Abstract

本发明公开了一种基于Raptor码及四进制RS码的DNA信息存储方法，该方法包括基于Raptor码的DNA信息存储流程：步骤1、将需要存储的信息文件转为二进制码流；步骤2、对二进制码流用Raptor码编码为含A、T、C、G的碱基序列；步骤3、对碱基序列加入四进制RS纠错机制，保证信息存储的正确性，然后再在碱基序列两端加入合成DNA所需的引物段，并用生物技术将这些碱基序列合成为DNA链，即完成信息的存储；与现有技术相比，本发明所实现的DNA存储技术具有可延展性好、编解码效率高、复杂度小等有益效果。

Description

一种基于Raptor码及四进制RS码的DNA信息存储方法

技术领域

本发明涉及DNA信息存储技术领域。

背景技术

在当今的信息大爆炸时代，全世界在近两年内产生的信息量比过去五年的信息总量还多，数字信息正以惊人的速度增长积累，预计2020年将产生多达4.4×10¹³GB的信息数据。现阶段人们使用的存储设备，如磁盘、半导体等逐渐暴露出先天不足，寻找新一代的可替代存储技术刻不容缓。

早在上世纪七十年代，就有国外学者提出用DNA的各种不同状态来表示信息的想法。但国内对该领域的研究尚处于起步阶段。

脱氧核糖核酸(DeoxyribonucleicAcid，DNA)是一种天然的信息载体，它具有容量大、存储密集、并行存取、无磨损、寿命长等先天优势。此外随着DNA合成及测序技术的快速发展，研究人员把新一代数据存储介质的目标投向DNA，提出了利用DNA中A、T、C、G四个碱基对二进制数据信息进行编码，结合DNA人工合成技术来存储文本文档、图片、音频和视频等数据信息的存储系统。DNA信息存储技术作为信息领域和合成生物学领域的一项交叉融合技术，它开辟了一种新的高效存储模式，对于节约存储能源消耗及推进大数据存储发展有着重要的影响及作用。虽然DNA存储技术由于成本高、耗时久、技术难点多等因素目前仍处于学术研究阶段，尚未投入商业应用中，但从长期投入来看，众多厂商均认为是很有投入价值的，这很可能成为未来存储介质市场的突破口。

目前DNA信息存储领域中用到的编解码技术存在信息易丢失、可延展性差、编解码效率低、复杂度高等缺点，此外引入的纠错机制大部分均为二进制纠错，而DNA碱基为四进制序列。

发明内容

为了解决以上现有的DNA存储技术所存在的问题，本发明提出了一种基于Raptor码及四进制RS码的DNA信息存储方案，实现了基于Raptor码的DNA信息存储方法和四进制纠错编码的新型DNA存储技术。

本发明提出一种基于Raptor码及四进制RS码的DNA信息存储方法，其特征在于，该方法包括基于Raptor码的DNA信息存储流程以及基于四进制RS码的纠错编码流程，这两个流程分别包括以下步骤：

所述基于Raptor码的DNA信息存储流程进一步包括：

步骤1、将需要存储的信息文件转为二进制码流；

步骤2、对二进制码流用Raptor码编码为含A、T、C、G的碱基序列；Raptor码是一种以LDPC为内码，LT为外码的编解码算法，先用LDPC对信息源符号进行编码获得中间符号，再对中间符号进行LT编码生成编码符号，故Raptor编码主要包括两个步骤：LDPC编码和LT编码，具体编码过程如下：

步骤2-1、进行LDPC编码：生成矩阵G，通过矩阵G将编码的信息符号u映射至分组码空间获得映射符号c，即：

c＝u×G (1)

假设ε_pre与δ_pre分别代表预编码的译码开销与译码失败概率上限，则预编码LDPC的码率表示为：

实验中设置ε_pre＝0.1，δ_pre＝0.0227，并采用规则LDPC码，则编码码率计算为R＝0.95；校验矩阵G选择度值为4，作为校验矩阵输入的信息符号数k为240，作为校验矩阵输出的中间符号数L为256，则本方法应用的是(16,4,4)LDPC码；

然后将信息符号矩阵D(x₁,x₂,…,x_k)与LDPC码的校验矩阵G^-1相乘，获得中间符号矩阵C＝[c₀,c₁,…,c_L-1]^T，表达式为：

C＝G^-1D (3)

步骤2-2、LT编码：基于概率转移法对度分布函数进行改进即构建一个适用于短码长的弱LT度分布函数μ(d)，表达式为：

对预编码获得的中间符号C进行LT编码：首先按度分布函数μ(d)随机选择一个度值d，1≤d≤k，然后从L个中间符号中随机选择出d个，对这d个符号进行模二异或运算生成一个编码符号y_i，不断重复异或运算产生无数个编码符号(y₁,y₂,…)，

接收端收到编码符号后，解码出一定个数即LDPC码可纠错范围内的中间符号数的中间符号，再利用LDPC的性质对中间符号进行纠错及BP译码即可恢复原始符号信息；

步骤3、在碱基序列两端加入合成DNA所需的引物段，再用生物技术将这些碱基序列合成为DNA链，即完成信息的存储；

步骤4、当需读取DNA中的信息时，先应用PCR技术对DNA链进行扩增复制，获得多段相同的DNA副本链，再对DNA副本链应用DNA测试技术转换为碱基序列，对碱基序列进行解码恢复成二进制文件，将二进制文档放入转换器中即可获得存储的信息；

所述基于四进制RS码的纠错编码流程包括以下步骤：

将四进制信息序列两两分组，转换成β_j形式，再对β进行分段，每段含k个符号；

计算x^n-k+imod(g(x))的值，由于n-k＝2，故获得的值为C_2x+C₁；

将计算x^n-k+imod(g(x))的值与信息多项式的对应符号m_i相乘；

然后将每个信息符号的余数相加，获得整段信息的余数；然后代入式(4)计算v(x)；

对每段信息多项式执行将计算x^n-k+imod(g(x))的值与信息多项式的对应符号m_i相乘、然后将每个信息符号的余数相加，获得整段信息的余数；然后代入式(4)计算v(x)；直至编码完成，再将结果序列按表1所示转换为四进制序列。

与现有技术相比，本发明所实现的DNA存储技术具有可延展性好、编解码效率高、复杂度小等有益效果。

附图说明

图1为目前通用的DNA数据存储架构。

图2为本发明的一种基于Raptor码的DNA信息存储方法流程图；

图3为四进制纠错编码流程；

图4为DNA-Raptor码编码过程示意图；

图5为图DNA-Raptor码存储性能图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

如图1所示，为目前通用的DNA数据存储架构。主要包括类似于存储控制器的信息编解码、生物数据读写及存储(DNA数据存放)三个部分。其中，信息编解码部分是整个DNA存储技术的关键，主要包括信息编码和解码。信息编码相当于硬盘的写入环节，主要目的是将文字和多媒体数据压缩得到的二进制序列按照一定的对应关系转换为DNA碱基序列(即含A、T、C、G的序列)，便于后期DNA的合成，实现数据写入，该过程由DNA压缩、DNA纠错、模型转换、地址引物四部分组成；信息解码是编码的逆过程，主要是将碱基序列转为原始文件信息，实现数据的读取。

如图2所示，为本发明的采用Raptor码的DNA信息存储方法整体流程图。该流程具体包括以下处理：

步骤1、将需要存储的信息文件转为二进制码流；

步骤2、对二进制码流用Raptor码编码为含A、T、C、G的碱基序列；Raptor码是一种以LDPC为内码、LT(Lubytransform)为外码的编解码算法，先用LDPC对信息源符号进行编码获得中间符号，再对中间符号进行LT编码生成编码符号，故Raptor编码主要包括两个步骤：LDPC编码和LT编码，具体编码过程如下：

步骤2-1、进行LDPC编码，LDPC编码的关键在于确定生成校验矩阵G，通过矩阵G将编码的信息符号u映射至分组码空间获得映射符号c，即：

c＝u×G (1)

假设ε_pre与δ_pre分别代表预编码的译码开销与译码失败概率上限，则预编码LDPC的码率可表示为：

其中，ε_pre与δ_pre分别代表预编码的译码开销与译码失败概率上限，设置ε_pre＝0.1，δ_pre＝0.0227，并采用规则LDPC码，则编码码率计算为R＝0.95。校验矩阵G选择度值为4，作为校验矩阵输入的信息符号数k为240，作为校验矩阵输出的中间符号数L为256，则本发明适合的是(16,4,4)LDPC码。矩阵G通过参数ε_pre与δ_pre确定生成，G为LDPC码的生成矩阵)。

由于预编码环节的加入，确保了Raptor码能在较低的编解码复杂度情况下仍具备良好的解码性能。

C＝G^-1D (3)

步骤2-2、LT编码：基于概率转移法对度分布函数进行改进(即构建一个适用于短码长的弱LT度分布函数μ(d)，表达式为：

对预编码获得的中间符号C进行LT编码：首先按度分布函数μ(d)随机选择一个度值d(1≤d≤k)，然后从L个中间符号中随机选择出d个，对这d个符号进行模二异或运算生成一个编码符号y_i，假设d＝3，则编码符号y可表示为：

式中a、b、c分别代表第a、b、c位置处的中间符号，不断重复异或运算产生无数个编码符号(y₁,y₂,…)；

接收端收到编码符号后，并不需要获得全部中间符号，仅需解码出一定个数即LDPC码可纠错范围内的中间符号数的中间符号，再利用LDPC的性质对中间符号进行纠错及BP译码即可恢复原始符号信息；

步骤3、在碱基序列两端加入合成DNA所需的引物段(一段用于促进DNA合成的碱基序列)，再用生物技术将这些碱基序列合成为DNA链，即完成信息的存储。

步骤4、当需读取DNA中的信息时，先应用PCR(Polymerase Chain Reaction，聚合酶链反应)技术对DNA链进行扩增复制，获得多段相同的DNA副本链，再对DNA链应用DNA测试技术转换为碱基序列，对碱基序列进行解码恢复成二进制文件，将二进制文档放入转换器中即可获得存储的信息。

DNA存储技术中信息需经过传播、DNA合成、PCR复制、DNA测序等众多过程，传输通道噪声较大，极易引入错误，为了确保DNA信息存储的质量，加入纠错码至关重要。RS纠错码由于性能良好，目前被越来越多的研究人员应用至DNA信息存储技术中，保障信息的存储质量。本发明在RS纠错码基础上，结合DNA自身结构特点，提出了一种四进制RS纠错码机制。

设计RS纠错码的关键在于确定伽罗华域元素表及生成多项式g(x)。四进制RS码的伽罗华域GF((2²)²)由GF(22)基于生成多项式g(x)＝Z2+Z+2形成。如表1所示为GF((2²)²)域中的每个元素的元素表。四元复合域GF((2²)²)与二元扩展域GF(24)本质上为GF(16)的伽罗华域。

表1

(n,k)RS码的编码算法是通过添加t＝n-k个冗余符号将k个信息符号扩展为n个。从信息空间到编码空间的映射满足：

v(x)＝r(x)+x^n-km(x) (4)

r(x)＝x^n-km(x)mod(g(x)) (5)

式中：v(x)为编码序列，r(x)为余数，m(x)为信息序列，g(x)为n-k次生成多项式。

以(15,13)RS码为例说明四进制RS码纠错过程。则n＝15，k＝13，t＝n-k＝2，即每13位信息能纠正1处错误。已知生成多项式g(x)的根为1和β，可得：

因为RS码具有线性特性，故式(6)可以写为：

式中，

(

表示对于任意i，x^n-k+imod(g(x))为式(7)中x^n-kmod(g(x))、x^n-k+1mod(g(x))。。。x^n-1mod(g(x))的统称表达式，mod为取余运算)为由给定的n、k及g(x)计算获得的常量。由式(7)可知，信息序列中任何位发生变化都独立地影响最终的余数，因此，可单独计算每个信息符号的余数，然后将这些余数相加获得整段信息序列的余数。

如图3所示，为四进制纠错编码流程。所述基于四进制RS码的纠错编码流程DNA存储技术中信息需经过传播、DNA合成、PCR复制、DNA测序等众多过程，传输通道噪声较大，极易引入错误，为了确保DNA信息存储的质量，加入纠错码至关重要。该流程包括以下步骤：

步骤3-1、将四进制信息序列两两分组，按表1所示转换成β_j形式，再对β进行分段，每段含k个符号；

步骤3-2、计算x^n-k+imod(g(x))的值，由于n-k＝2，故获得的值为C_2x+C₁(因为n＝15，k＝13，引入了两位纠错位，g(x)如式(6)所示可知x的最高幂为2，x²⁺ⁱ/g(x)相除余数为C₂x+C₁)；

步骤3-2、根据式(7)，将步骤3-2中计算的值与信息多项式的对应符号m_i，i＝0,1,...,k-1)相乘；

信息多项式为需要编码的二进制码流多项式，例如需要编码的信息码流为10010，则对应的信息多项式m(x)＝x⁴+x,生成多项式为式(6),主要用于生成纠错码的多项式。

步骤3-4、然后将每个信息符号的余数相加，获得整段信息的余数；然后代入式(4)计算v(x)；

步骤3-5、对每段信息多项式执行步骤3-3、步骤3-4，直至编码完成，再将结果序列按表1所示转换为四进制序列。

通过改进，四进制RS纠错码对于每26个碱基能纠正1个错误，不仅更与DNA结构特点相匹配，也提高了信息存储的正确性。

如图5所示为本发明提出的整个编码流程图。信息符号经Raptor编码后按表2所示转为四进制序列，对该序列加入四进制RS纠错码后进行GC含量及均聚物的筛选，若通过筛选则转为碱基序列，若未通过筛选则舍弃进入下一轮编码。如表2所示为二进制转碱基对应表。

表2

为了探究DNA-Raptor信息存储框架的性能，本发明将文本、图片、音频、视频、压缩包共五种格式的数据文件分别作为输入文件输入至DNA-Raptor存储框架中进行编解码仿真实验，实验环境为64位Ubuntu14.04.5操作系统，处理器为Inter Core i7-6700，运行内存大小为8GB，软件为JetBrainstorm PyCharm 2018.2.4x64。

表3

如表3所示，为DNA-Raptor存储框架性能参数表。其中罗列出了不同文件格式进行仿真编解码后的存储性能参数，如图5所示，为DNA-Raptor存储性能趋势图。由表及图可知：就编码时间而言，需存储的编码文件越大，所需耗费的编码时间越长，符合一般编解码规律；就编码效率而言，五种类型的文件编码效率相差不大，视频、音频、压缩包的编码效率均为1.501bit/nt，其中文本的编码效率略小，为1.467bit/nt，无论对于任何形式的文件，本编解码方案都有较好的效果。

Claims

1.一种基于Raptor码及四进制RS码的DNA信息存储方法，其特征在于，该方法包括基于Raptor码的DNA信息存储流程以及基于四进制RS码的纠错编码流程，这两个流程分别包括以下步骤：

所述基于Raptor码的DNA信息存储流程进一步包括：

步骤1、将需要存储的信息文件转为二进制码流；

c＝u×G (1)

C＝G^-1D (3)

所述基于四进制RS码的纠错编码流程包括以下步骤：

计算x^n-k+imod(g(x))的值，由于n-k＝2，故获得的值为C_2x+C₁；

将计算x^n-k+imod(g(x))的值与信息多项式的对应符号m_i相乘；

然后将每个信息符号的余数相加，获得整段信息的余数；然后代入式(4)计算v(x)；对每段信息多项式执行将计算x^n-k+imod(g(x))的值与信息多项式的对应符号m_i相乘、然后将每个信息符号的余数相加，获得整段信息的余数；然后代入式(4)计算v(x)；直至编码完成，再将结果序列按表1所示转换为四进制序列。