CN110190858A

CN110190858A - 一种聚合物分子信息存储纠错编解码系统

Info

Publication number: CN110190858A
Application number: CN201910465200.7A
Authority: CN
Inventors: 宋理富; 元英进; 耿枫
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-08-30
Anticipated expiration: 2039-05-30
Also published as: CN110190858B

Abstract

本发明属于信息存储技术领域，公开了一种聚合物分子信息存储纠错编解码系统。该编解码系统将聚合物单体以具有校验功能的方式插入聚合物分子序列内，结合其它路径保护编解码策略实现高容错路径保护编解码。该编解码系统不仅保证了存储的信息能够得到精准解码，同时显著降低了大规模信息编解码计算复杂度，提高了解码速率。该编解码系统首次实现了聚合物分子序列编码信息对聚合物降解引起的链断裂导致的编码信息丢失与错误的高度耐受能力。该编解码系统对聚合物分子序列中出现的单体插入、删除及替换错误，同样具有极高的纠正能力和纠正效率，保证了聚合物分子信息存储的可靠性周期得到有效延长。

Description

一种聚合物分子信息存储纠错编解码系统

技术领域

本发明属于信息数据存储技术领域，具体涉及一种聚合物分子信息存储纠错编解码系统。

背景技术

世界范围的数字化浪潮带来全球数字信息的指数增长。据估计，到2040年，传统硅基存储介质将由于原料不足而无法满足全球数字信息的存储需求。寻找替代型存储介质是亟待解决的全球危机之一。以核酸信息存储技术为代表的聚合物分子信息存储技术以含不同单体的聚合物分子作为信息存储介质，通过聚合物合成技术实现对数据信息的记录和存储，具有数据存储密度高、保存时间长和后续维护成本低等显著优势，是目前解决全球数据存储危机的最有前景的技术。但现阶段已有的聚合物分子存储技术的编解码方案均依赖各类传统的纠错编码技术，无法有效抵抗聚合物降解引起的链断裂对数据准确性的影响，而且解码过程需要对大规模聚合物序列进行聚类计算，计算复杂度高，难以满足可靠大规模数据存储的需求。

发明内容

为了解决现有技术存在的上述问题，本发明目的在于提供一种聚合物分子信息存储纠错编解码系统。

本发明所采用的技术方案为：一种聚合物分子信息存储纠错编解码系统，该系统包括：

路径保护编码单元，用于以路径保护的编码方式将二进制信息转码为N进制聚合物分子信息编码，其中N为聚合物分子单体类型数；

路径搜索解码单元，用于以路径搜索和路径校验的方式将聚合物分子序列数据信息中序列长度不一和包含有随机单体替换、删除与插入错误的数据信息解码为二进制信息。

优选地，路径保护编码单元包括索引模块、路径校验编码模块、转码模块和校验单体插入模块；

索引模块能够生成系列索引A，并以预设长度将待存储二进制信息分配至索引A；索引A经预设算法生成相对应的索引B；预设算法包括伪随机函数法和哈希算法；索引A与索引B构成双索引；

路径校验编码模块包括路径校验码，路径校验码是索引A和分配至该索引A的二进制信息经预设算法生成的；预设算法包括循环冗余校验算法；

索引A、二进制信息、索引B和路径校验码组成第一信息码矩阵；

转码模块能够根据预设的二进制比特序列-N进制聚合物单体序列对应规则，将任意一个二进制信息序列转码为相对应的N进制聚合物序列，或将任意一个N进制聚合物序列转码为相对应的二进制比特序列；

校验单体插入模块能够根据预设的校验规则选取方式在预设的校验单体校验规则序列表中选择初始的校验规则，之后根据预设的校验单体校验规则序列表依次选取对应的校验规则进行校验单体的插入；

第一信息码矩阵经转码模块和校验单体插入模块编码后生成N进制的第二信息码矩阵。

优选地，索引A为至少一个特定长度且值唯一的二进制信息序列；二进制比特序列-N进制聚合物单体序列对应规则为具有特定长度的任意二进制比特序列分别具有相对应的特定长度的、唯一的N进制聚合物单体序列；二进制比特序列的特定长度不小于1个位；N进制聚合物单体序列对应规则的序列特定长度不小于1个位。

本发明提供的该特定长度的二进制信息序列是指将待储存信息转换为相对应的二进制信息(可以利用现有技术，例如选取待储存信息后传输至计算机终端，经过计算机终端对待储存信息中所含信息的计算或识别为二进制信息)，根据本发明预设的每条二进制信息序列的长度将上述二进制信息进行分离，分离后得到预设长度的二进制信息序列，该特定长度与本发明预设的二进制序列长度一致。特定长度的N进制聚合物单位序列是根据上述特定长度的二进制信息序列经过转码得到的，其长度与每条二进制信息序列长度相匹配。

优选地，校验单体校验规则是由至少一组符合预设要求的双单体组合分组，且每个分组都分配一个独特的单体类型作为校验单体；预设要求为每个分组的所有组合在相同位置分别具有不同的单体类型；预设的校验单体校验规则序列表是由预设的不同的校验单体校验规则按照预设的方式生成的；预设的方式包括随机序列、递增序列、递减序列和/或上述序列的任意组合序列。

优选地，预设的校验单体校验规则序列表中任意相邻的校验规则的每个分组都具有不同的校验单体。

优选地，初始插入校验单体的相对应的校验规则的选取方式包括以下任意一种：

①通过将索引A的值与校验单体校验规则总数比值的余数作基准值，以基准值在校验单体校验规则序列表中选取初始校验单体插入所对应的校验规则；

②通过将索引A的值与检验单体校验规则序列表长度比值的余数作基准值，以基准值在校验单体校验规则序列表中选取初始校验验单体插入所对应的校验规则；

③通过将索引A的值与其他固定数字比值的余数作基准值，以基准值在校验单体校验规则序列表中选取初始校验单体插入所对应的校验规则。

优选地，路径搜索解码单元包括德布莱英图构建模块、索引路径搜索模块、转码模块和路径校验模块；

德布莱英图构建模块能够将长度不一致、含有随机单体替换、删除和插入错误的聚合物分子序列信息按照K-mer的长度、统计K-mer呈现的频率，构建得到德布莱英图网络；

索引路径搜索模块能够以Q个单体为基数，根据预设的搜索模式，从索引A所含的序列起始，在构建的德布莱英图网络中，搜索得到与索引A相对应的长度为Q的路径；或从索引B所含的序列起始，搜索得到与索引B相对应的长度为Q的路径；或分别从索引A和索引B的端点处同时起始，搜索相对应的长度为Q的路径；

路径校验模块能够通过路径纠错码对经索引路径搜索模块搜索得到的经转码模块转码后的路径进行校验并对正确路径进行选择。

本发明提供的该编解码系统中K-mer是指将聚合物序列分成包含k个单体的字符串，一般长短为m的聚合物序列可以分为m-k+1个K-mers。本申请中的K-mer的长度与聚合物的降解率相关。

优选地，预设的搜索模式是根据校验单体校验规则列出符合规则的、与当前K-mer相连的K-mer集合及其呈现频率，并根据K-mer的呈现频率，选择能够接受的不少于一个K-mer作为路径点；预设的搜索模式的搜索步骤能够循环延伸每个路径直至达到预设的序列长度；K-mer的长度不小于12bp。

优选地，聚合物分子包括天然核酸聚合物、非天然碱基的核酸聚合物、天然氨基酸肽聚物和非天然氨基酸残基的肽聚物中的一种或几种。

优选地，路径保护编码单元与路径搜索解码单元中采用的校验单体校验规则是一致的；路径保护编码单元与路径搜索解码单元中的转码模块是一致的。

本发明的有益效果为：

本发明提供了一种聚合物分子信息存储纠错编解码系统，该编解码系统的编码过程是将聚合物单体以具有校验功能的方式插入聚合物分子序列内，结合路径保护编码策略生成具高性能路径保护编码。该编码过程不仅保证了存储的数据信息能够得到精准解码，同时显著降低了大规模数据信息解码计算复杂度，提高了解码速率。该编解码系统首次实现了聚合物分子序列编码数据信息对聚合物降解引起的链断裂导致的编码数据丢失与错误的高度耐受能力。该编解码系统对聚合物分子序列中出现单体插入、删除及替换错误时，同样具有极高的纠正能力和纠正效率，保证了聚合物分子数据存储的可靠性周期得到有效延长。

附图说明

图1是本发明提供的实施例的聚合物信息存储纠错编解码系统整体流程图；

图2是本发明提供的实施例的路径保护编码过程流程图；

图3是本发明提供的实施例的路径保护编码后的数据结构图；

图4是本发明提供的实施例的路径搜索解码过程的流程图。

具体实施方式

下面结合具体实施例对本发明做进一步阐释。本领域技术人员将会理解，下列所描述的实施例是本发明一部分实施例，而不是全部的实施例，仅用于说明本发明，而不应视为限制本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。实施例中未注明具体条件者，按照常规条件进行。

实施例

本发明提供的该实施例是以DNA分子为介质，将本发明提供的纠错编码系统与传统纠删编码方法结合，实现更加完整且高效的纠错、路径保护编解码系统。

如图1-4所示，该编解码系统PathPS包括三个主要过程：步骤P1：初始化过程，步骤P2：编码写入过程和步骤P3：解码读取过程。

二进制数据D1在经该编解码系统PathPS的步骤P1：初始化过程和步骤P2：编码写入过程处理后，生成大量的包含二进制数据D1信息的聚合物分子。这些聚合物经编解码系统PathPS的步骤P3：解码读取过程处理后，生成二进制数据D2。在合理的设置下，二进制数据D2等价于二进制数据D1。

步骤P1：初始化过程包括步骤S1：预设转码规则，步骤S2：预设校验单体校验规则和步骤S3：预设校验单体校验规则序列表。步骤S3：预设校验单体校验规则序列表必须在步骤S2：预设校验单体校验规则完成后进行。其他步骤先后顺序可根据实际情况进行设定。

步骤S1：预设转码规则。该步骤S1将对编解码系统PathPS中采用的二进制与N进制之间的转码规则进行设置。在步骤S1设置的转码规则将在后续的步骤S5与步骤S8中使用。步骤S1是由二进制比特序列与N进制聚合物单体序列的一一对应关系组成，如表1所示：

表1以DNA聚合物为例的二进制比特序列与DNA碱基序列转码规则表

注：A-腺嘌呤；G-鸟嘌呤；C-胞嘧啶；T-胸腺嘧啶。

步骤S2：预设校验单体校验规则。步骤S2的生成方式如下所示：

(1)将含有N种单体类型的双单体组合分为N组，每组N种组合，且满足每组的所有组合在相同位置均具有不同的单体类型。

(2)将上述步骤(1)中得到的一种双单体组合的分组方式，与N个单体任意组合。每种组合方式均为一种步骤S2。每种校验规则由唯一的数字代表，如表2所示：

表2以DNA聚合物为例的校验单体校验规则示例(本表仅列出满足要求的一种双碱基组合分组的校验规则)

注：A-腺嘌呤；G-鸟嘌呤；C-胞嘧啶；T-胸腺嘧啶。

步骤S3：预设校验单体校验规则序列表。步骤S3是将校验规则作数字编码后排布序列。该数字编码排布序列，可以是随机序列、递增序列、递减序列和/或上述序列的任意组合。为了保证最优的纠错能力，步骤S3中任意相邻的校验规则的每个分组都具有不同的校验单体。

步骤P2：编码写入过程包括步骤S4：纠删编码、步骤S5：路径保护编码和步骤S6：聚合物合成。

步骤S4：纠删编码。将二进制数据D1采用传统纠删编码的方式，例如喷泉码、Reed-Solomon码等进行二进制数据D1的编码；编码过程数据块大小的设置需要根据步骤S6中采用的合成技术的能力与编码效率综合考虑设定。原则上是经过步骤S6的设置，在步骤S5中生成的聚合物序列的长度不能超过步骤S6中聚合物的实际合成能力。

步骤S5：路径保护编码。按照预设的步骤S5方法，对经过步骤S4的二进制数据D1进行步骤S5，生成特定长度(不小于1个位)的N进制聚合物序列数据；聚合物序列长度的设置依赖于步骤S4中设置的数据块大小。聚合物的序列长度不能超过步骤S5采用的步骤S6技术的合成能力的限制。

步骤S5中包括以下步骤：

步骤S5-1：双索引生成。本实施例中是根据步骤S4中生成的索引值(索引A C1)，以特定的算法，生成对应的索引B C4。上述特定算法包括伪随机函数法或哈希算法A1。如果步骤S4中没有可用的索引A C1生成或者系统没有采用步骤S4，则索引A C1也需要在步骤S5-1中生成，然后以同样的方式以步骤S5-1生成的索引A C1计算得到索引B C4。

步骤S5-2：路径校验码生成。根据索引A C1及其对应的二进制数据编码区C2数据编码，通过特定的算法，生成路径校验码C3。上述特定算法包括循环冗余校验算法A2。可选的，索引B C4的数据也可以纳入路径校验码C3的计算生成过程。

步骤S5-2结束后生成的数据结构包括：索引A C1，数据编码区C2,路径校验码C3以及索引B C4。

步骤S5-3：二进制-N进制转码。通过步骤S1中预设的二进制码转N进制转码规则，也就是二进制比特序列与N进制聚合物单体序列的一一对应关系，将所有二进制序列转码为N进制序列。

步骤S5-4：校验单体插入。首先是根据索引A C1的值，选取初始校验单体校验规则。选取的方式可以为通过索引A C1的值对总的校验规则数进行求余运算，根据余数选择初始校验单体校验规则。然后依次选取校验单体校验规则序列表中的校验规则进行校验单体的循环插入。校验规则序列表中的规则在依次选取完后，可以从第一位校验规则重新循环选取。

步骤S6：聚合物合成。根据存储数据的通量，选择合适的聚合物合成技术，对步骤S5中生成的所有聚合物序列进行聚合物序列分子的实际合成。

步骤P3：解码读取过程包括步骤S7：聚合物测序、步骤S8：路径搜索解码和步骤S9：纠删解码。

步骤S7：聚合物测序。根据存储数据的通量，选择合适的聚合物测序技术，对步骤S6中合成的所有聚合物序列混合样品进行测序。

步骤S8：路径搜索解码。按照本发明提供的路径搜索的解码过程，对步骤S7测序得到的聚合物序列进行处理，得到聚合物序列，并进行转码得到二进制数据。其中，关于Q的取值为3的倍数，而具体的单体数或长度由步骤S5生成的聚合物长度决定。

步骤S8详细的过程包括以下步骤：

步骤S8-1：构建德布莱英图。步骤S7产生长度及错误率不一的大量聚合物序列。本实施例中将按照特定的K-mer长度(不小于12bp)统计所有序列出现的K-mer及其出现频率，并构建德步骤S8-1网络。

步骤S8-2：选择对应的索引A并计算得到索引B。根据索引A C1的值，计算对应的索引B C4。

步骤S8-3：计算索引A与索引B对应的K-mer。按照步骤S5中同样的计算方式，计算得到索引A与索引B对应的聚合物序列。取索引A C1对应的聚合物序列的末端，长度为K-mer大小的聚合物序列为左端待延伸K-mer。取索引B C4对应的聚合物序列的头端，长度为K-mer大小的聚合物序列为右端待延伸K-mer。

步骤S8-4：根据两端K-mer同时搜索路径。从两端的K-mer开始，在步骤S8-1构建得到的布莱英图网络中同时开始延伸路径。路径延伸过程保留所有符合校验单体校验规则的路径，同时去除掉不符合校验单体校验规则的路径。

步骤S8-5：判断。每延伸3个单体长度，判断两端搜索得到的路径长度总和是否已经大于目标路径长度。判断为是，继续下一步骤；判断为否，继续两端搜索延伸路径。

步骤S8-6：融合重叠区一致的路径。步骤S8-5结束后，两端路径总长度大于目标路径长度。也就是说两端路径中间有重叠区。根据中间重叠区，将重叠区一致的路径融合成一条完整路径。该步骤有可能形成一条或者多条完整路径。每条路径也就是一条聚合物序列。

步骤S8-7：N进制-二进制转码子。按每两个单体删除一个单体的方式，去除步骤S8-6得到的所有路径，也就是聚合物单体序列中的校验单体。然后根据初始化过程设置的转码方案，通过转码模块将N进制聚合物单体序列转码为二进制比特序列。

步骤S8-8：路径校验与选择。根据路径校验码C3计算选择正确的路径。也就是重复步骤S5-2中类似的计算过程，根据路径中的索引A C1与数据计算得到路径校验码C3并与路径中的路径校验码C3进行比较。如果两个数值相同则该路径通过路径校验，反之，路径校验失败。如果没有路径通过校验或者多条路径通过校验，该索引路径不可读。相关数据通过后续步骤S4恢复。

步骤S8-9：判断是否所有索引都已经搜索完毕。判断为是，结束路径搜索进入下一步骤S9；判断为否，则选择下一索引，返回步骤S8-2，重复路径搜索过程。

步骤S9：纠删解码。按照步骤S2中采用的纠删编码方式，采用对应的解码方法进行步骤S9恢复得到完整的二进制数据。

关于在具体运用过程中，以其它聚合物分子为介质的数据存储可以根据本发明提供的实施例中的具体实施方式，结合纠删编码方法，例如Reed-Sololmon纠删码等，实现基于聚合物分子的信息存储高纠错编解码实施方案。上述过程可根据具体的实施过程进行相应的设定，凡是具有与本发明提供的编解码系统一致的均属于本发明的保护范围。

本发明提供了一种聚合物分子信息存储纠错编解码系统，该编解码系统的编码过程是将具有校验功能的单体以特定方式插入聚合物分子序列内，结合路径保护编码策略生成具高性能路径保护编码。该编码过程不仅保证了存储的数据信息能够得到精准解码，同时显著降低了大规模数据信息解码计算复杂度，提高了解码速率。该编解码系统首次实现了聚合物分子序列编码数据信息对聚合物降解引起的链断裂导致的编码数据丢失与错误的高度耐受能力。该编解码系统对聚合物分子序列中出现单体插入、删除及替换错误时，同样具有极高的纠正能力和纠正效率，保证了聚合物分子数据存储的可靠性周期得到有效延长。

尽管已用具体实施例来说明和描述了本发明，然而应意识到，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本领域的普通技术人员应当理解，在不背离本发明的精神和范围的情况下，可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，与此同时这些修改或者替换，并不会使相应的技术方案的本质脱离本发明各实施例技术方案的范围；本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种聚合物分子信息存储纠错编解码系统，其特征在于，包括：

2.根据权利要求1所述的一种聚合物分子信息存储纠错编解码系统，其特征在于，所述路径保护编码单元包括索引模块、路径校验编码模块、转码模块和校验单体插入模块；

所述索引模块能够生成系列索引A，并以预设长度将待存储二进制信息分配至索引A；索引A经预设算法生成相对应的索引B；所述预设算法包括伪随机函数法和哈希算法；所述索引A与索引B构成双索引；

所述路径校验编码模块包括路径校验码，所述路径校验码是索引A和分配至该索引A的二进制信息经预设算法生成的；所述预设算法包括循环冗余校验算法；

所述索引A、二进制信息、索引B和路径校验码组成第一信息码矩阵；

所述转码模块能够根据预设的二进制比特序列-N进制聚合物单体序列对应规则，将任意一个二进制信息序列转码为相对应的N进制聚合物序列，或将任意一个N进制聚合物序列转码为相对应的二进制比特序列；

所述校验单体插入模块能够根据预设的校验规则选取方式在预设的校验单体校验规则序列表中选择初始的校验规则，之后根据预设的校验单体校验规则序列表依次选取对应的校验规则进行校验单体的插入；

所述第一信息码矩阵经转码模块和校验单体插入模块编码后生成N进制的第二信息码矩阵。

3.根据权利要求2所述的一种聚合物分子信息存储纠错编解码系统，其特征在于，所述索引A为至少一个特定长度且值唯一的二进制信息序列；所述二进制比特序列-N进制聚合物单体序列对应规则为具有特定长度的任意二进制比特序列分别具有相对应的特定长度的、唯一的N进制聚合物单体序列；所述二进制比特序列的特定长度不小于1个位；所述N进制聚合物单体序列对应规则的序列特定长度不小于1个位。

4.根据权利要求2所述的一种聚合物分子信息存储纠错编解码系统，其特征在于，所述校验单体校验规则是由至少一组符合预设要求的双单体组合分组，且每个分组都分配一个独特的单体类型作为校验单体；所述预设要求为每个分组的所有组合在相同位置分别具有不同的单体类型；所述预设的校验单体校验规则序列表是由预设的不同的校验单体校验规则按照预设的方式生成的；所述预设的方式包括随机序列、递增序列、递减序列和/或上述序列的任意组合序列。

5.根据权利要求4所述的一种聚合物分子信息存储纠错编解码系统，其特征在于，所述预设的校验单体校验规则序列表中任意相邻的校验规则的每个分组都具有不同的校验单体。

6.根据权利要求2所述的一种聚合物分子信息存储纠错编解码系统，其特征在于，所述初始插入校验单体的相对应的规则的选取方式包括以下任意一种：

①通过将索引A的值与所述校验单体校验规则总数比值的余数作基准值，以所述基准值在校验单体校验规则序列表中选取初始校验单体插入所对应的校验规则；

②通过将索引A的值与检验单体校验规则序列表长度比值的余数作基准值，以所述基准值在校验单体校验规则序列表中选取初始校验验单体插入所对应的校验规则；

③通过将索引A的值与其他固定数字比值的余数作基准值，以所述基准值在校验单体校验规则序列表中选取初始校验单体插入所对应的校验规则。

7.根据权利要求1所述的一种聚合物分子信息存储纠错编解码系统，其特征在于，所述路径搜索解码单元包括德布莱英图构建模块、索引路径搜索模块、转码模块和路径校验模块；

所述德布莱英图构建模块能够将长度不一致、含有随机单体替换、删除和插入错误的聚合物分子序列信息按照K-mer的长度、统计K-mer呈现的频率，构建得到德布莱英图网络；

所述索引路径搜索模块能够以Q个单体为基数，根据预设的搜索模式，从索引A所含的序列起始，在所述构建的德布莱英图网络中，搜索得到与索引A相对应的长度为Q的路径；或从索引B所含的序列起始，搜索得到与索引B相对应的长度为Q的路径；或分别从索引A和索引B的端点处同时起始，搜索相对应的长度为Q的路径；

所述路径校验模块能够通过路径纠错码对经索引路径搜索模块搜索得到的经转码模块转码后的路径进行校验并对正确路径进行选择。

8.根据权利要求7所述的一种聚合物分子信息存储纠错编解码系统，其特征在于，所述预设的搜索模式是根据校验单体校验规则列出符合规则的、与当前K-mer相连的K-mer集合及其呈现频率，并根据K-mer的呈现频率，选择能够接受的不少于一个K-mer作为路径点；所述预设的搜索模式的搜索步骤能够循环延伸每个路径直至达到预设的序列长度；所述K-mer的长度不小于12bp。

9.根据权利要求1所述的一种聚合物分子信息存储纠错编解码系统，其特征在于，所述聚合物分子包括天然核酸聚合物、非天然碱基的核酸聚合物、天然氨基酸肽聚物和非天然氨基酸残基的肽聚物中的一种或几种。

10.根据权利要求1所述的一种聚合物分子信息存储纠错编解码系统，其特征在于，所述路径保护编码单元与路径搜索解码单元中采用的校验单体校验规则是一致的；路径保护编码单元与路径搜索解码单元中的转码模块是一致的。