CN112288090B

CN112288090B - 存有数据信息的dna序列的处理方法及装置

Info

Publication number: CN112288090B
Application number: CN202011137220.0A
Authority: CN
Inventors: 黄小罗; 戴俊彪
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-07-12
Anticipated expiration: 2040-10-22
Also published as: CN112288090A

Abstract

本申请涉及生物信息技术领域，尤其涉及一种存有数据信息的DNA序列的处理方法及装置。所述方法包括：获取待压缩的DNA序列，DNA序列是根据待存储的数据信息转换所得，DNA序列包括M个碱基重复片段；根据预设的重复次数与基准碱基组之间的对应关系，对DNA序列进行编码，得到压缩序列，压缩序列包括M个编码片段，M个碱基重复片段与M个编码片段一一对应；对压缩序列进行拆分，得到解码序列和信息序列，解码序列包括M个编码片段中的基准碱基组，信息序列包括压缩序列除基准碱基组以外的其他碱基单元和标记物。本申请提供的方法，能够提升DNA数据存储信息的信息编码密度及数据安全性。

Description

存有数据信息的DNA序列的处理方法及装置

技术领域

本申请涉及生物信息技术领域，特别是属于DNA信息存储技术领域，更具体地涉及一种存有数据信息的DNA序列的处理方法及装置。

背景技术

随着互联网及人工智能大数据的发展，人类社会每天产生的数据里量呈爆炸式的增长。互联网数据中心(Internet Data Center，IDC)预测，截止到2020年，世界范围内的数据总量将达到44ZB(44×1012GB)。传统的存储介质比如磁带、光盘、硬盘等耗电量高，存储周期短，成本高；同时，用于信息存储的硅资源储量急剧枯竭，因此，寻找硅基存储的替代物，实现低成本、高效稳定且长期的数据存储对于目前信息社会的高速发展尤为重要。

脱氧核糖核酸(DeoxyriboNucleic Acid，DNA)是由脱氧核苷酸组成的大分子聚合物，其中，脱氧核苷酸由碱基、脱氧核糖和磷酸构成。构成脱氧核苷酸的碱基包括4种，分别为腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)。基于DNA的数据存储技术是利用上述四种碱基序列来表示二进制“0”和“1”组成的数据系列。相比较于传统存储介质，DNA数据存储具有存储密度高，存储时间久，维护成本低，生物相容性好的特点。据理论推算，1gDNA能够实现455EB的数据存储，比传统介质提高6-7个数量级。DNA同时能够稳定存储数据千年以上，同时在维护资源，比如占地、电力等方面要求非常低。由于DNA本身是自然界的遗传物质，DNA存储数据还能放入动植物微生物细胞中，实现代代相传的永久数据存储。

DNA数据存储流程通常包含以下步骤：(1)根据二进制与碱基A、T、C、G之间的预设对应关系，将二进制数据信息转换为由碱基A、T、C、G编码形成的、存储有数据信息的DNA序列；(2)采用高通量DNA合成仪，结合酶拼接技术，合成上述存储有数据信息的DNA序列；(3)采用一代或者二代高通量测序仪对合成DNA序列进行测序；4)根据预设对应关系，将A/T/C/G形成的DNA序列转换为二进制数据信息。该方法中，步骤(1)中，将二进制信息转换为DNA序列的过程中，由于二级制中存储的信息由转换后的DNA序列承载，因此，转换后的DNA序列中碱基数量的多少直接关系到步骤(2)中DNA序列的合成数量以及整个DNA数据存储的存储密度。在二进制数据信息大小既定的情况下，DNA序列的碱基数量越多，单个碱基平均承载的数据信息越小，DNA数据存储的存储密度越小；相反，DNA序列的碱基数量越少，单个碱基平均承载的数据信息越多，DNA数据存储的存储密度越大。目前，已经报道的方法，将二进制0/1信息转换到A/T/C/G的DNA序列信息后，能够实现<2bits/nt(bits/nt表示：位/个碱基或比特/个碱基)的数据存储密度，但对于更高的数据存储密度，尚未有报道。

发明内容

本申请的目的在于提供一种存有数据信息的DNA序列的处理方法及装置，旨在解决现有的DNA数据存储技术的数据存储密度较小的问题。

为实现上述申请目的，本申请采用的技术方案如下：

第一方面，提供了一种存储有数据信息的DNA序列的处理方法，方法包括：

获取待压缩的DNA序列，DNA序列是根据待存储的数据信息转换所得，DNA序列包括M个碱基重复片段，每个碱基重复片段包括连续且重复的碱基单元，M≥1，M为整数；

根据预设的重复次数与基准碱基组之间的对应关系，对DNA序列进行编码，得到压缩序列，压缩序列包括M个编码片段，M个碱基重复片段与M个编码片段一一对应，每个编码片段包括对应的碱基单元、表征对应的碱基单元的重复次数的基准碱基组以及至少一个标记物，标记物用于标记编码片段中的碱基单元的起点位置和终点位置；

对压缩序列进行拆分，得到解码序列和信息序列，解码序列包括M个编码片段中的基准碱基组，信息序列包括压缩序列除基准碱基组以外的其他物质，解码序列和信息序列用于合成存储有数据信息的DNA。

在一个实施例中，标记物为修饰碱基。

在一个实施例中，标记物为甲基化碱基C。

在一个实施例中，方法还包括：

将信息序列划分为J个第一子片段，将解码序列划分为K个第二子片段；其中，J和K均为大于0且小于200nt的正整数。

在一个实施例中，每个第一子片段中设置有第一索引标记，用于标记第一子片段在信息序列中的位置；每个第二子片段中设置有第二索引标记，用于标记第二子片段在解码序列中的位置。

在一个实施例中，第一索引标记、第二索引标记为四种碱基中的一种或多种形成的标记单元。

在一个实施例中，方法还包括：

通过测序从合成的DNA中获取解码序列和信息序列；

根据解码序列和信息序列，得到压缩序列；

根据对应关系对压缩序列进行解压，得到DNA序列。

在一个实施例中，若信息序列包括J个第一子片段，解码序列包括K个第二子片段；其中，J和K均为大于0且小于200nt的正整数，

则通过测序从合成的DNA中获取解码序列和信息序列，包括：

通过测序从合成的DNA中分别获取J个第一子片段和K个第二子片段；

根据J个第一子片段之间的位置对应关系，将J个第一子片段拼接成信息序列；根据K个第二子片段之间的位置对应关系，将K个第二子片段拼接成解码序列。

在一个实施例中，根据解码序列和信息序列，得到压缩序列，包括：

根据解码序列中的基准碱基组的排列顺序以及信息序列中标记物所在的位置，将解码序列和信息序列合并，得到压缩序列。

在一个实施例中，根据对应关系对压缩序列进行解压，得到DNA序列，包括：

根据对应关系，将压缩序列中的编码片段解码成碱基重复片段，得到DNA序列。

第二方面，提供了一种存储有数据信息的DNA序列的处理装置，处理装置包括：

获取模块，用于获取待压缩的DNA序列，DNA序列是根据待存储的数据信息转换所得，DNA序列包括M个碱基重复片段，每个碱基重复片段包括连续且重复的碱基单元，M≥1，M为整数；

编码模块，用于根据预设的重复次数与基准碱基组之间的对应关系，对DNA序列进行编码，得到压缩序列，压缩序列包括M个编码片段，M个碱基重复片段与M个编码片段一一对应，每个编码片段包括对应的碱基单元、表征对应的碱基单元的重复次数的基准碱基组以及至少一个标记物，标记物用于标记编码片段中的碱基单元的起点位置和终点位置；

拆分模块，用于对压缩序列进行拆分，得到解码序列和信息序列，解码序列包括M个编码片段中的基准碱基组，信息序列包括压缩序列除基准碱基组以外的碱基单元、其他碱基和标记物，解码序列和信息序列用于合成存储有数据信息的DNA。

在一个实施例中，处理装置还包括：

测序模块，用于通过测序从合成DNA中获取解码序列和信息序列；

解码模块，用于根据解码序列和信息序列，得到压缩序列；

解压模块，用于根据对应关系对压缩序列进行解压，得到DNA序列。

第三方面，提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如第一方面的处理方法。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如第一方面的处理方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面的处理方法。

本申请提供的存储有数据信息的DNA序列的处理方法，通过预先设定的重复次数与基准碱基组之间的对应关系，将存储有数据信息的待压缩的DNA序列中的一个或多个碱基重复片段简化为编码片段，以得到压缩序列。通过该方法，可以将重复碱基序列简化为编码片段，从而将存储有数据信息的长序列DNA简化为短序列的压缩序列，显著降低存储有数据信息的DNA的碱基数量，提高了单位碱基的存储密度，使得到的DNA的存储密度提高。进一步的，将压缩序列拆分为包解码序列和信息序列两部分，该过程相当于对DNA数据存储进行了加密处理，可以提升DNA数据存储信息的数据安全性；而且，由于解码序列和信息序列较待压缩的DNA序列的碱基数大幅减少，因此在后续DNA存储流程中可以节省DNA的合成和测序时间，提升DNA数据存储的存储合成效率和识别效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供存储有数据信息的DNA序列的压缩方法的流程示意图；

图2是本申请一实施例提供存储有数据信息的DNA序列的解压缩方法的流程示意图；

图3是本申请实施例提供存储有数据信息的DNA序列的压缩方法的流程示意图；

图4是本申请实施例提供存储有数据信息的DNA序列的解压缩方法的流程示意图。

图5是本申请一实施例提供的存储有数据信息的DNA序列的处理装置示意图；

图6是本申请另一实施例提供的存储有数据信息的DNA序列的处理装置示意图；

图7是本申请一实施例提供的终端设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本申请。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”、“第四”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

目前，存储数据信息的DNA序列，通常通过下述方法获得：

获取待存储的数据，示例性的，数据类型为可以在终端设备中显示的任何文字、图片、声音、视频、软件、程序等信息，但不限于此。

将待存储的数据转换为0/1二进制代码，得到二进制数据信息。示例性的，二进制代码如00、01、10、11。

根据二进制代码与碱基A、T、C、G之间的预设对应关系，将二进制数据信息转换为由碱基A、T、C、G编码形成的、存储有数据信息的DNA序列。示例性的，二进制代码与碱基A、T、C、G之间的预设对应关系为：一个碱基A代表一个00，一个碱基T代表一个01，一个碱基C代表一个10，一个碱基G代表一个11。当二级制数据信息为00110110101100101011011011000011001001时，根据二进制与碱基A、T、C、G之间的预设对应关系，将二进制数据信息转换碱基序列为AGTCCGACCGTCGAAGACT的DNA序列。当然，二进制代码与碱基A、T、C、G之间的预设对应关系不限于上述示例，例如，也可以为：一个碱基T代表一个00，一个碱基A代表一个01，一个碱基G代表一个10，一个碱基C代表一个11，但不限于此。应当理解，二进制代码与碱基A、T、C、G之间的预设对应关系，只需要能够根据预设对应关系将二进制数据信息转换DNA序列就行，并不限于上述示例。

采用高通量DNA合成仪，包括结合酶拼接技术，合成上述存储有数据信息的DNA。

这种方法存储数据，数据信息可以通过DNA实现长久存储。然而，目前，通过一个碱基代表一个二进制代码得到的DNA序列，碱基数量较大，因此存储密度不高。

为此，本申请提供给一种存有数据信息的DNA序列的处理方法，通过对DNA序列中的碱基重复片段进行编码，将存储有数据信息的DNA序列进行简化，降低存储有数据信息的DNA的碱基数量，从而使得存储有数据信息的长序列DNA简化为短序列的压缩序列，提高单位碱基的存储密度，使得到的DNA的存储密度提高。

为了说明本申请的技术方案，以下结合具体附图及实施例进行详细说明。

本申请一些实施例提供一种存储有数据信息的DNA序列的处理方法，包括存储有数据信息的DNA序列的压缩方法和解压缩方法。

结合图1，存储有数据信息的DNA序列的压缩方法，包括：

S10.获取待压缩的DNA序列，DNA序列是根据待存储的数据信息转换所得，DNA序列包括M个碱基重复片段，每个碱基重复片段包括连续且重复的碱基单元，M≥1，M为整数。

该步骤中，如上文所述，待压缩的DNA序列是根据待存储的数据信息，根据二进制代码与碱基A、T、C、G之间的预设对应关系，转换所得。

在一些实施例中，二进制代码与碱基A、T、C、G之间的预设对应关系，遵循能够在DNA序列中碱基重复片段的碱基数最多的规则，以便将DNA序列编码形成碱基数量最少的压缩序列，从而最大限度的提高单个碱基承载的存储信息量，提高DNA数据存储密度。

本申请实施例中，DNA序列中包括M个碱基重复片段，其中M为大于或等于1的整数。应当理解的是，DNA序列中碱基重复片段的数量可以是M个，也可以多于M个。在一些实施例中，DNA序列中含有N个碱基重复片段，N大于M；在一些实施例中，DNA序列中有且仅有M个碱基重复片段。

每个碱基重复片段包括连续且重复的碱基单元，其中，碱基单元可以是单碱基、双碱基单元、三碱基单元和四碱基单元。

示例性的，当碱基重复片段包括连续且重复的单碱基时，是指若干个相同的单碱基重复排列，如AAAAA，TTTTTTTTTT，GGGGGGGG，CCCC，对应的碱基单元为单碱基A，单碱基T，单碱基G，单碱基C。当然，连续且重复的单碱基形成的碱基重复片段中碱基重复的次数并不限于上述示例。

示例性的，当碱基重复片段包括连续且重复的双碱基单元时，是指四种碱基A、T、G、C中的任意两种组合后形成的双碱基单元的重复排列，如ATATATAT，TCTCTCTCTCTCTCTCTC，GCGCGCGCGCGCGC，CTCTCTCT，对应的碱基单元为双碱基单元AT，双碱基单元TC，双碱基单元GC，双碱基单元CT。当然，第二序列片段中双碱基的组合类型以及双碱基的重复的次数并不限于上述示例。

示例性的，当碱基重复片段包括连续且重复的三碱基单元时，是指四种碱基A、T、G、C中的任意两种或三种组合成三个碱基后形成的三碱基单元的重复排列，如AGTAGTAGTAGT，TCATCATCATCATCATCATCATCATCA，GTCGTCGTCGTCGTCGTCGTC，CGTCGTCGTCGT、AATAATAAAT，对应的碱基单元为三碱基单元AGT，三碱基单元TCA，三碱基单元GTC，三碱基单元CGT。当然，第三序列片段中三碱基的组合类型以及三碱基的重复的次数并不限于上述示例。

示例性的，当碱基重复片段包括连续且重复的四碱基单元时，是指四种碱基A、T、G、C中的任意两种按照非ABAB的方式组合成四个碱基后形成的四碱基单元的重复排列，或四种脱氧核苷酸A、T、G、C中的任意三种组合成四个碱基后形成的四碱基单元的重复排列，或四种脱氧核苷酸A、T、G、C随机组合形成的四碱基单元的重复排列。示例性的，如AGGAAGGAA，ATCAATCA，AGTCAGTCAGTCAGTC，TGCATGCATGCATGCA，GATCGATCGATC，CGATCGATCGATCGAT，对应的碱基单元分别为四碱基单元AGGA，四碱基单元TATCA，四碱基单元AGTC，四碱基单元TGCA，四碱基单元GATC，四碱基单元CGAT。当然，第四序列片段中四碱基的组合类型以及四碱基的重复的次数并不限于上述示例。

在一些实施例中，DNA序列中，M个碱基重复片段分别对应DNA序列中连续且重复的单碱基形成的重复片段、连续且重复的双碱基单元形成的重复片段、连续且重复的三碱基单元形成的重复片段。即M个碱基重复片段不包括连续且重复的四碱基单元形成的重复片段。在这种情况下，下述步骤S20可以采用碱基数量较少的基准碱基组来编码DNA序列中的单碱基或碱基单元的重复次数，如采用两个碱基组成的基准碱基组来编码DNA序列中的单碱基或碱基单元的重复次数，从而进一步减少得到的压缩序列中的碱基数量，提高单碱基的平均存储密度。

S20.根据预设的重复次数与基准碱基组之间的对应关系，对DNA序列进行编码，得到压缩序列，压缩序列包括M个编码片段，M个碱基重复片段与M个编码片段一一对应，每个编码片段包括对应的碱基单元、表征对应的碱基单元的重复次数的基准碱基组以及至少一个标记物，标记物用于标记编码片段中的碱基单元的起点位置和终点位置。

该步骤中，根据预设的重复次数与基准碱基组之间的对应关系，对DNA序列进行编码，将DNA序列中的M个碱基重复片段编码为碱基数更为简短的M个碱基重复片段，从而将存储有数据信息的长序列DNA简化为短序列DNA。

本申请实施例中，重复次数是指碱基重复片段中碱基单元的重复次数。示例性的，碱基重复片段TTTTTTTTTT中，碱基单元T的重复次数为10；碱基重复片段ATATATAT中，碱基单元AT的重复次数为4；碱基重复片段TGCTGCTGCTGCTGCTGC中，碱基单元TGC的重复次数为6；碱基重复片段ATCGATCG中，碱基单元ATCG的重复次数为2。

本申请实施例中，基准碱基组中碱基的类型和数量，可以根据DNA序列中需要编码的M个碱基重复片段中碱基单元的最大重复次数进行选定。在一些实施例中，当M个碱基重复片段中碱基单元的最大重复次数小于或等于4¹时，基准碱基组可选用单碱基、双碱基、三碱基或四碱基。但基准碱基组的碱基数量为越少，越有利于减少压缩序列中的碱基数量，从而越有利于提高单位碱基的存储密度。因此，基准碱基组的碱基数量为1，即基准碱基组选用单碱基时，得到的压缩序列的碱基数量最少，对应的，单位碱基的存储密度最高。在一些实施例中，当M个碱基重复片段中碱基单元的最大重复次数小于或等于4²即16时，基准碱基组可选用双碱基、三碱基或四碱基。在这种情况下，基准碱基组的碱基数量为2，即基准碱基组选用双碱基时，得到的压缩序列的碱基数量最少，对应的，单位碱基的存储密度最高。以此类推，当M个碱基重复片段中碱基单元的最大重复次数小于或等于4^s时，基准碱基组可选用s碱基时，得到的压缩序列的碱基数量最少，其中，s为大于或等于3的整数。

预设的重复次数与基准碱基组之间的对应关系，是指预先设定的碱基重复片段中碱基单元的重复次数与基准碱基组之间的等同关系。示例性的，基准碱基组中的碱基数量为2，重复次数与基准碱基组之间的对应关系可以预设如下：5对应AT，6对应AC；7对应AG；8对应TA，9对应TC，10对应TG，11对应CA，12对应CT，13对应CG，14对应GA，15对应GT，16对应GC...。当然，基准碱基组中的碱基数量并不限于2，重复次数和基准碱基组的对应关系也不限于上述对应关系。

在一些实施例中，根据预设的重复次数与基准碱基组之间的对应关系，对DNA序列进行编码，得到压缩序列，包括：

采用数字n表示DNA序列中M个碱基重复片段中碱基单元的重复次数，并编码碱基重复片段中除一个碱基单元以外的其他重复碱基单元，即保留M个碱基重复片段中的一个碱基单元。

示例性的，当碱基重复片段为AAAAAAAA时，编码为8A；当碱基重复片段为GCGCGCGCGCGCGC时，编码为7GC；当碱基重复片段为AGTAGTAGTAGT时，编码为4AGT；当碱基重复片段为AGCTAGCTAGCTAGCTAGCT时，编码为5AGCT。

标记n编码后的M个碱基重复片段中保留的碱基单元的起始位置和终止位置。

在一些实施例中，采用标记物标记编码后的M个碱基重复片段中保留的碱基单元的起始位置和终止位置，且标记物为具有可合成性和可识别性的标记物。在这种情况下，压缩后的DNA序列在解压缩过程中，测序过程中可自动识别测试序列中的标记物，进而识别碱基重复片段的类型，以实现DNA序列的解压缩。

在一些实施例中，标记物为修饰碱基。其中，修饰碱基是指对碱基进行修饰后得到的碱基。具体的，标记物为具有可合成性和可识别性的修饰碱基。示例性的，修饰碱基为甲基化碱基C。

在一些实施例中，标记n编码后的M个碱基重复片段中保留的碱基单元的起始位置和终止位置，包括：采用不同数量或类型的修饰碱基对M个碱基重复片段中保留的碱基单元的起始位置和终止位置进行标记。

在一种可能的实施方式中，通过在不同类型的碱基单元的起始位置中插入不同数量的标记物，来标记n编码后的M个碱基重复片段中保留的碱基单元的起始位置和终止位置。示例性的：碱基单元为单碱基，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置(或预设的其他位置)插入一个标记物；碱基单元为双碱基单元，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置(或预设的其他位置)插入两个标记物；碱基单元为三碱基单元，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置(或预设的其他位置)插入三个标记物；碱基单元为四碱基单元，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置(或预设的其他位置)插入四个标记物。由此，可以根据标记物的插入位置，确定碱基单元的起点位置；根据标记物的数量，确定碱基单元的终点位置。当然，标记物的数量与碱基单元类型之间的对应关系并不限于上述示例。在一些实施例中，标记物为修饰碱基；在一些实施例中，标记物为甲基化碱基C。

在一种可能的实施方式中，通过在碱基单元的起始位置和终止位置均插入标记物，直接标记n编码后的M个碱基重复片段中保留的碱基单元的起始位置和终止位置。示例性的：碱基单元为单碱基，在n编码后的M个碱基重复片段中保留的单碱基的前后位置分别插入一个或多个标记物；碱基单元为双碱基单元，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置和终止位置分别插入一个或多个标记物；碱基单元为三碱基单元，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置和终止位置分别插入一个或多个标记物；碱基单元为四碱基单元，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置和终止位置分别插入一个或多个标记物。由此，可以根据标记物的插入位置，直接确定碱基单元的起点位置和终点位置。这种实施方式中，M个碱基重复片段中保留的碱基单元中插入的标记物的类型可以相同，也可以不同；同样的，M个碱基重复片段中保留的碱基单元中插入的标记物的数量可以相同，也可以不同。在一些实施例中，标记物为修饰碱基。

在一种可能的实施方式中，通过在不同类型的碱基单元的起始位置中插入不同类型的标记物，来标记n编码后的M个碱基重复片段中保留的碱基单元的起始位置和终止位置。示例性的：碱基单元为单碱基，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置(或预设的其他位置)插入第一种预设的标记物；碱基单元为双碱基单元，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置(或预设的其他位置)插入第二种预设的标记物；碱基单元为三碱基单元，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置(或预设的其他位置)插入第三种预设的标记物；碱基单元为四碱基单元，在n编码后的M个碱基重复片段中保留的碱基单元的起始位置(或预设的其他位置)插入第四种预设的标记物。此处，应当理解的是，四种预设的标记物的类型为具有可识别性且各不相同的四种碱基。由此，可以根据标记物的插入位置，确定碱基单元的起点位置；根据标记物的类型，确定碱基单元的终点位置。在一些实施例中，标记物为修饰碱基。

上述实施例中，插入的标记物的位置、数量和类型，可以根据事先设定的插入规则来定。示例性的，插入规则可以为在编码后的N中的第一个碱基之前插入标记物，也可以为在编码后N中的最后一个碱后插入标记物，还可以是在其他位置的碱基之间插入标记物，即预设的其他位置。

由此，根据预设的重复次数与基准碱基组之间的对应关系，对DNA序列进行编码，得到的压缩序列，包括M个编码片段，M个碱基重复片段与M个编码片段一一对应，每个编码片段包括对应的碱基单元、表征对应的碱基单元的重复次数的基准碱基组以及至少一个标记物，标记物用于标记编码片段中的碱基单元的起点位置和终点位置。

S30.对压缩序列进行拆分，得到解码序列和信息序列，解码序列包括M个编码片段中的基准碱基组，信息序列包括压缩序列除基准碱基组以外的其他物质，解码序列和信息序列用于合成存储有数据信息的DNA。

该步骤中，对压缩序列进行拆分，包括：提取压缩序列中的基准碱基组，将提取的基准碱基组编码成解码序列，解码序列包括M个编码片段中的基准碱基组。

在一些实施例中，将提取的基准碱基组编码成解码序列，包括：预先设定的基准碱基组的排列顺序，根据预定的排列顺序将基准碱基组进行排列，得到解码序列。基准碱基组的排列顺序，可以根据设置规则事先设定。在一些实施例中，可以根据压缩序列基准碱基组出现的先后顺序，将基准碱基组依次排列，得到解码序列。在一些实施例中，可以根据压缩序列中基准碱基组出现的先后顺序，按照与基准碱基组出现顺序相反的顺序排列基准碱基组，得到解码序列。在一些实施例中，还可以根据压缩序列中基准碱基组出现的先后顺序，将依次出现的基准碱基组，按照预设的其他排列顺序排列，得到解码序列。示例性的，根据压缩序列中基准碱基组出现的先后顺序，将第一个基准碱基组排在第一位，第二个基准碱基组排在第三位，第三个基准碱基组排在第五位，倒数第一个基准碱基组排在第二位，倒数第二个基准碱基组排在第四位等。

该步骤中，对压缩序列进行拆分，包括：提取压缩序列中除基准碱基组外的其他物质，编码成信息序列。在一种可能的实施方式中，信息序列包括压缩序列除基准碱基组以外的碱基单元、其他碱基和标记物。其中，其他碱基是指压缩序列中，除基准碱基组、碱基单元以外的剩余的碱基。在一种可能的实施方式中，信息序列包括压缩序列除基准碱基组以外的碱基单元和标记物。即DNA序列由碱基重复片段组成，不含碱基重复片段以外的其他碱基。

本申请实施例得到的解码序列和信息序列用于合成存储有数据信息的DNA。本申请实施例提供的解码序列和信息序列，均可以通过化学DNA合成法或酶DNA合成法进行合成。

在一个实施例中，方法还包括：将信息序列划分为J个第一子片段，将解码序列划分为K个第二子片段；其中，J和K均为大于0且小于200nt的正整数。通过将信息序列和解码序列进行拆分小片段，便于合成。在一个实施例中，每个第一子片段中设置有第一索引标记，用于标记第一子片段在信息序列中的位置；每个第二子片段中设置有第二索引标记，用于标记第二子片段在解码序列中的位置。在一个实施例中，第一索引标记、第二索引标记为四种碱基中的一种或多种形成的标记单元。示例性的，用2个碱基表征16个标记单元；用3个碱基表征64个标记单元；用4个碱基表征256个标记单元；用5个碱基表征1024个标记单元，等等。此处，应当理解，当采用四种碱基中的至少两种形成标记单元时，四种碱基中一种或多种碱基在标记单元中可以重复出现，以形成碱基数量大于4的标记单元。示例性的，当标记单元由5个碱基形成的标记单元时，标记单元可以为AATGC。通常来讲，信息序列和解码序列成分成的子片段数越多，需要的索引标记越多，对应的，标记单元中的碱基数量就越多。

示例性的，将信息序列划分为J个第一子片段，将解码序列划分为K个第二子片段，其中，J和K均为大于0且小于200nt的正整数，每个第一子片段中设置有第一索引标记，用于标记第一子片段在信息序列中的位置，每个第二子片段中设置有第二索引标记，用于标记第二子片段在解码序列中的位置；分别合成各第一子片段和第二子片段后，根据第一索引标记将各第一子片段连接，得到信息序列，根据第二索引标记将各第二子片段连接，得到解码序列。其中，第一子片段和第二子片段的标记顺序由各子片段在解码序列或信息序列中所处的顺序决定。示例性的，解码序列或信息序列拆分成256个合成序列片段，采用4个碱基来编排1至256个合成序列片段的顺序位。

在一些实施例中，在第一子片段和第二子片段的两端连接接头序列，接头序列用于合成序列片段的扩增。在一些实施例中，接头序列为16-20个碱基的序列。

本申请实施例将合成的解码序列和信息序列分别储存。在一些实施例中，解码序列和信息序列可以储存在有机或无机容器介质中，比如聚丙烯离心管中，也可以以其他形式进行存储。

由此，存储有数据信息的DNA，由含有M个碱基重复片段的长序列减缩为由基准碱基组组成的解码序列和有碱基单元、其他碱基以及和标记物组成的两条短序列。一方面，大幅缩小序列中的碱基数量，从而提高了单个碱基的平均存储密度；另一方面，通过解码序列才能解密信息序列对应的DNA序列，加强了数据信息的安全性。

结合图2，在一些实施例中，提供了一种存储有数据信息的DNA序列的解压缩方法，方法还包括：

S40.通过测序从合成的DNA中获取解码序列和信息序列。

该步骤中，利用测序技术分别读取合成的DNA的解码序列和信息序列。示例性的，可以采用Sanger测序技术对解码序列或信息序列进行读取，也可以采用二代高通量测序技术对解码序列或信息序列进行读取。

读取合成的DNA的信息序列的步骤，包括读取信息序列中的标记物。标记物可以根据标记物的类型，采用对应的读取技术。示例性的，标记物为甲基化碱基C，采用甲基化碱基C的读取技术，读取修饰碱基。在一些实施例中，甲基化碱基C的读取技术读取修饰碱基时，采用重亚硫酸盐对待读取序列进行处理。

则通过测序从合成的DNA中获取解码序列和信息序列，包括：

在一些实施例中，通过测序从合成的DNA中获取解码序列和信息序列，包括：对J个第一子片段和K个第二子片段分别进行PCR扩增，分别读取扩增片段的碱基序列；根据第一索引标记对扩增片段进行排序，拼接成完整的信息序列，根据第二索引标记对扩增片段进行排序，拼接成完整的解码序列。在这种情况下，通过PCR扩增提高各子片段的浓度，提高各子片段的测序识别效率。

S50.根据解码序列和信息序列，得到压缩序列。

该步骤中，根据解码序列以及信息序列的标记信息，将解码序列中的基准碱基组编码进信息序列中，得到压缩序列。

在一些实施例中，根据解码序列和信息序列，得到压缩序列，包括：

获取解码序列中的基准碱基组。

确定信息序列中的标记信息，结合解码序列中的基准碱基组，在信息序列中的标记碱基单元对应的位置插入基准碱基组，将所述解码序列和所述信息序列合并，得到压缩序列。

S60.根据对应关系对压缩序列进行解压，得到DNA序列。

该步骤中，根据对应关系，将压缩序列中的编码片段解码成碱基重复片段，得到DNA序列。

在一个实施例中，根据对应关系对压缩序列进行解压，得到DNA序列，包括：根据预设的重复次数与基准碱基组之间的对应关系，将压缩序列中的M个基准碱基编码的碱基单元还原为M个碱基重复片段，得到DNA序列。

在一些实施例中，按照0/1二进制与碱基之间转换的编码规则，将DNA序列编码还原为0/1二进制序列。进一步的，0/1二进制序列可以通过转换程序转换为对应的图片/文字/视频等信息。

本申请实施例提供的解压缩方法，针对上述方法压缩得到的解码序列和信息序列进行测序解读，并根据序列中的标记确定序列中重复片段的位置和类型，结合解读后的解码序列和信息序列，拼接得到存有数据信息的DNA序列。

一个实施例提供了一种将编码了如下数据信息的DNA的压缩和解压缩过程

“011100000000000000000000010010111100110011001100110011001100000110000110000110000110000110000110”，包括如下步骤：

(1)压缩过程，如图3所示，包括

步骤一：通过“A＝00，T＝01，C＝10，G＝11”的编码规则对上述数据信息进行编码，获得DNA序列：

TGAAAAAAAAAATACGGAGAGAGAGAGAGAATCATCATCATCATCATC；提取DNA序列中的单碱基重复序列单元“AAAAAAAAAA”、双碱基重复序列单元“GAGAGAGAGAGAGA”和三碱基重复序列单元“ATCATCATCATCATCATC”。

步骤二：用10A代表DNA序列中的重复序列单元“AAAAAAAAAA”，用7GA代表重DNA序列中的复序列单元“GAGAGAGAGAGAGA”，用6ATC代表DNA序列中的重复序列单元“ATCATCATCATCATCATC”，形成新的序列TG10ATACG7GA6ATC。

步骤三：在10A中间插入1个甲基化的胞嘧啶C*(甲基化胞嘧啶C目前合成和测序都可行)，在7GA中间插入2个甲基化的胞嘧啶C*，在6ATC中间插入3个甲基化的胞嘧啶C*，形成新的序列，命名为DNA模板序列：TG10C*ATACG7C*C*GA6C*C*C*ATC

步骤四：建立“5＝AT；6＝AC；7＝AG；8＝TA，9＝TC，10＝TG，11＝CA，12＝CT，13＝CG，14＝GA，15＝GT，16＝GC”的对应关系，用TG代表DNA模板序列中的10，用AG代表序列中的7，用AC代表序列中的6，形成新的序列：TGTGC*ATACGAGC*C*GAACATC。依序提取代表步骤四中数字的双碱基，组合成一条新的解码序列：TGAGAC。

步骤五：删除步骤三DNA模板序列中的数字，获得一条信息序列：TGC*ATACGC*C*GAC*C*C*ATC。

获得的解码序列和信息序列可以用于后续的DNA合成过程。

(2)解压缩过程，如图4所示，包括：

步骤一：将测序获得的解码序列“TGAGAC”中2个碱基一个单元依序插入到测序获得的信息序列“TGC*ATACGC*C*GAC*C*C*ATC”中修饰碱基和非修饰碱基中间，形成一条新的序列：

TGTGC*ATACGAGC*C*GAACATC。

步骤二：参照“5＝AT；6＝AC；7＝AG；8＝TA，9＝TC，10＝TG，11＝CA，12＝CT，13＝CG，14＝GA，15＝GT，16＝GC”的对应关系，用10代表TG，用7代表AG，用6代表AC，形成新的序列：

TG10C*ATACG7C*C*GA6C*C*C*ATC。

步骤三：根据修饰碱基个数，确定重复碱基单元，结合获得的重复次数，将序列恢复成完整的序列。10C*A代表单碱基A重复10次，恢复为“AAAAAAAAAA”，7C*C*GA，代表双碱基GA重复7次，恢复为“GAGAGAGAGAGAGA”，6C*C*C*ATC代表ATC重复6次，恢复为“ATCATCATCATCATCATC”，最终获得完整的序列

TGAAAAAAAAAATACGGAGAGAGAGAGAGAATCATCATCATCATCATC；接下来根据“A＝00；T＝01；C＝10；G＝11”规则对应的翻译成0/1二进制序列。

本实施例的压缩过程，首先将96bits的二进制01信息存于48个碱基的DNA序列中，然后通过本申请提供公开的压缩方法，将48个碱基压缩成24个碱基，实现了50％的DNA序列压缩效果，实现了数据存储密度2bits/nt到4bits/nt的一倍提升；同时，压缩后的序列不包含单碱基、双碱基、三碱基重复，利于后续的合成和测序。

结合图5，本申请一些实施例提供了一种存储有数据信息的DNA序列的处理装置5，处理装置5包括：

获取模块51，用于获取待压缩的DNA序列，DNA序列是根据待存储的数据信息转换所得，DNA序列包括M个碱基重复片段，每个碱基重复片段包括连续且重复的碱基单元，M≥1，M为整数；

编码模块52，用于根据预设的重复次数与基准碱基组之间的对应关系，对DNA序列进行编码，得到压缩序列，压缩序列包括M个编码片段，M个碱基重复片段与M个编码片段一一对应，每个编码片段包括对应的碱基单元、表征对应的碱基单元的重复次数的基准碱基组以及至少一个标记物，标记物用于标记编码片段中的碱基单元的起点位置和终点位置；

拆分模块53，用于对压缩序列进行拆分，得到解码序列和信息序列，解码序列包括M个编码片段中的基准碱基组，信息序列包括压缩序列除基准碱基组以外的碱基单元、其他碱基和标记物，解码序列和信息序列用于合成存储有数据信息的DNA。

在一个实施例中，结合图6，处理装置5还包括：

测序模块54，用于通过测序从合成DNA中获取解码序列和信息序列；

解码模块55，用于根据解码序列和信息序列，得到压缩序列；

解压模块56，用于根据对应关系对压缩序列进行解压，得到DNA序列。

参照图7，示出了本申请一个实施例的一种终端设备的示意图。如图7所示，本实施例提供的终端设备70包括：处理器710、存储器720以及存储在存储器720中并可在处理器710上运行的计算机程序721。处理器710执行计算机程序721时实现上述处理方法各个实施例中的步骤，例如图1所示的步骤S10至S30。

示例性的，计算机程序721可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器720中，并由处理器710执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段可以用于描述计算机程序721在终端设备中的执行过程。例如，计算机程序721可以被分割成获取模块、编码模块和拆分模块，各模块具体功能如下：

在一些实施例中，计算机程序721还可以被分割成测序模块、解码模块和解压模块，各模块具体功能如下：

解码模块，用于根据解码序列和信息序列，得到压缩序列；

终端设备70可包括，但不仅限于，处理器710、存储器720。本领域技术人员可以理解，图7仅仅是终端设备70的一种示例，并不构成对终端设备70的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

处理器710可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器720可以是终端设备70的内部存储单元，例如终端设备70的硬盘或内存。存储器720也可以是终端设备70的外部存储设备，例如终端设备70上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等等。进一步地，存储器720还可以既包括终端设备70的内部存储单元也包括外部存储设备。存储器720用于存储计算机程序721以及终端设备70所需的其他程序和数据。存储器720还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现前述各实施例的处理方法。

本申请实施例还提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行前述各实施例的处理方法。

以上仅为本申请的可选实施例而已，并不用于限制本申请。对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种存储有数据信息的DNA序列的处理方法，其特征在于，所述方法包括：

获取待压缩的DNA序列，所述DNA序列是根据待存储的数据信息转换所得，所述DNA序列包括M个碱基重复片段，每个所述碱基重复片段包括连续且重复的碱基单元，M≥1，M为整数；

根据预设的重复次数与基准碱基组之间的对应关系，对所述DNA序列进行编码，得到压缩序列，所述压缩序列包括M个编码片段，所述M个碱基重复片段与所述M个编码片段一一对应，每个所述编码片段包括对应的碱基单元、表征所述对应的碱基单元的重复次数的基准碱基组以及至少一个标记物，所述标记物用于标记所述编码片段中的碱基单元的起点位置和终点位置；

对所述压缩序列进行拆分，得到解码序列和信息序列，所述解码序列包括所述M个编码片段中的基准碱基组，所述信息序列包括所述压缩序列除所述基准碱基组以外的其他物质，所述解码序列和信息序列用于合成存储有所述数据信息的DNA。

2.根据权利要求1所述的方法，其特征在于，所述标记物为修饰碱基。

3.根据权利要求1所述的方法，其特征在于，所述标记物为甲基化碱基C。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述信息序列划分为J个第一子片段，将所述解码序列划分为K个第二子片段；其中，J和K均为大于0且小于200nt的正整数。

5.根据权利要求4所述的方法，其特征在于，每个所述第一子片段中设置有第一索引标记，用于标记所述第一子片段在所述信息序列中的位置；每个所述第二子片段中设置有第二索引标记，用于标记所述第二子片段在所述解码序列中的位置。

6.根据权利要求5所述的方法，其特征在于，所述第一索引标记、所述第二索引标记为四种碱基中的一种或多种形成的标记单元。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

通过测序从合成的DNA中获取所述解码序列和所述信息序列；

根据所述解码序列和所述信息序列，得到压缩序列；

根据所述对应关系对所述压缩序列进行解压，得到所述DNA序列。

8.一种存储有数据信息的DNA序列的处理装置，其特征在于，所述处理装置包括：

获取模块，用于获取待压缩的DNA序列，所述DNA序列是根据待存储的数据信息转换所得，所述DNA序列包括M个碱基重复片段，每个所述碱基重复片段包括连续且重复的碱基单元，M≥1，M为整数；

编码模块，用于根据预设的重复次数与基准碱基组之间的对应关系，对所述DNA序列进行编码，得到压缩序列，所述压缩序列包括M个编码片段，所述M个碱基重复片段与所述M个编码片段一一对应，每个所述编码片段包括对应的碱基单元、表征所述对应的碱基单元的重复次数的基准碱基组以及至少一个标记物，所述标记物用于标记所述编码片段中的碱基单元的起点位置和终点位置；

拆分模块，用于对所述压缩序列进行拆分，得到解码序列和信息序列，所述解码序列包括所述M个编码片段中的基准碱基组，所述信息序列包括所述压缩序列除所述基准碱基组以外的其他碱基单元和所述标记物，所述解码序列和信息序列用于合成存储有所述数据信息的DNA。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。