CN107066837B

CN107066837B - 一种有参考dna序列压缩方法和系统

Info

Publication number: CN107066837B
Application number: CN201710214884.4A
Authority: CN
Inventors: 熊红凯; 范雯敬
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2017-04-01
Filing date: 2017-04-01
Publication date: 2020-02-04
Anticipated expiration: 2037-04-01
Also published as: CN107066837A

Abstract

本发明提供一种有参考DNA序列压缩方法和系统，所述方法包括：重复图案的匹配步骤，利用输入的参考序列生成反向的全文子序列索引结构，对输入的待压缩序列进行最长匹配子序列搜索，将匹配信息用于压缩编码步骤，并将未匹配的符号用于非重复符号的预测编码步骤；压缩编码步骤，将匹配序列的长度、位置信息进行压缩编码，并将编码信息用于解压缩；非重复符号的预测编码步骤，接收所述重复图案的匹配步骤的未匹配的符号，利用混合上下文模型进行符号出现概率预测及编码。本发明充分结合索引数据结构高效查找和混合上下文模型对单个字符高效压缩的特点，在可接受的压缩耗时内，比其他有参考DNA序列方法取得更高的压缩率，具备良好的实用性。

Description

一种有参考DNA序列压缩方法和系统

技术领域

本发明涉及一种DNA序列的压缩系统，具体是一种基于Full-text索引结构与混合上下文预测模型的有参考DNA序列压缩方法和系统。

背景技术

DNA分子是由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)四种脱氧核糖核苷酸组成的。DNA序列中蕴含着生命体重要的遗传信息，对生物、医学、信息等领域具有重要意义。随着DNA测序技术的发展，越来越多的DNA数据被储存被加以利用，DNA序列的数量呈现指数增长。然而，数据储存能力增长速度远远低于数据的增长量，数据储存空间不足已成为科学发展过程中不容回避的现实挑战。因此如何高效地储存DNA数据成为众多研究人员关注的问题。DNA序列之间具有很高的相似性，例如，大猩猩与人之间的DNA相似率高达98％，这给数据储存带来了极高的冗余性，寻找一种高效的压缩方法可以极大地减少所需的储存空间。

为了准确提取出已压缩信息，DNA压缩技术需要是无损并且可逆的压缩。找到一种高效且适合于DNA数据的压缩方法是比较困难的。目前的压缩方法主要分为两种，一种是基于字典的压缩，它把序列中未编码的重复子序列用已编码过的子序列来表示，或者将待压缩序列用参考序列中的重复子序列表示。S.Kuruppu等人在2010年的《InternationalSymposium on String Processing and Information Retrieval》发表的“RelativeLempel-Ziv Compression of Genomes for Large-Scale Storage and Retrieval”一文中即用上述原理利用索引序列压缩目标序列。另一种是基于统计信息的压缩，这种方法主要是通过预测符号出现概率，从而对其进行变长编码，其本质是为出现频率高的符号分配较短的码字，而为出现频率低的符号分配较长码字，使得每个符号的码长接近于其信息量。A.J.Pinho等人在2012年的《Nucleic Acids Research》发表的“GReEn:a tool forefficient compression of genome resequencing data”一文中利用统计模型编码目标序列与参考序列间的差异符号，从而达到了较高的压缩率。但这种方法在搜索重复时给定了子序列的长度，因此不能充分利用DNA序列间重复性这一特点。DNA序列间的高冗余性以及目前压缩算法的不足使申请人针对DNA序列压缩，找到一种更有效的压缩方法。

发明内容

本发明针对现有技术的不足，提供了一种基于压缩的全文子序列索引(Full-textindex)与混合上下文预测模型的有参考DNA序列压缩方法和系统，结合基于字典压缩与基于统计压缩的优势，充分利用序列间冗余性，提高了DNA序列压缩率。

本发明是通过以下技术方案实现的：

根据本发明的第一目的，提供一种有参考DNA序列压缩方法，包括：

重复图案的匹配步骤，利用输入的参考序列生成反向的全文子序列索引结构，对输入的待压缩序列进行最长匹配子序列搜索，将匹配信息用于压缩编码步骤，并将未匹配的符号用于非重复符号的预测编码步骤；

压缩编码步骤，将匹配序列的长度、位置信息进行压缩编码，并将编码信息用于解压缩；

非重复符号的预测编码步骤，接收所述重复图案的匹配步骤的未匹配的符号，利用混合上下文模型进行符号出现概率预测及编码。

优选地，参考DNA序列，是指不同基因组同一编号的DNA序列。

优选地，所述重复图案的匹配步骤，通过对参考序列上重复子序列的查找与定位，高效表示待压缩序列中的匹配子序列。

优选地，所述重复图案的匹配步骤，通过全文子序列索引结构对非固定长度字符串进行匹配搜索。

优选地，所述压缩编码步骤，通过编码匹配序列的标志位、长度、位置信息对匹配信息进行压缩。

优选地，所述的非重复符号的预测编码步骤，通过连续上下文模型与非连续上下文模型的混合模型进行符号出现概率预测及编码。

优选地，所述方法进一步包括解压缩步骤，所述解压缩步骤利用同一参考序列，将压缩编码后的二进制文件恢复出解压缩序列。

优选地，所述解压缩步骤，通过识别已压缩二进制信息，对照同一参考序列，恢复出解压缩序列，恢复出的解压缩序列应与输入待压缩序列相同。

根据本发明的另一目的，提供一种有参考DNA序列压缩系统，包括：

重复图案的匹配模块，利用输入的参考序列生成反向的全文子序列索引结构，对输入的待压缩序列进行最长匹配子序列搜索，将匹配信息输入到压缩编码模块，并将未匹配的符号输出到非重复符号的预测编码模块；

压缩编码模块，将匹配序列的长度、位置信息进行压缩编码，并将编码信息输出到解压缩模块；

非重复符号的预测编码模块，接收所述重复图案的匹配模块输出的未匹配的符号，利用混合上下文模型进行符号出现概率预测及编码。

优选地，所述系统进一步包括解压缩模块，所述解压缩模块利用同一参考序列，将压缩编码后的二进制文件恢复出解压缩序列。

本发明中采用的基于全文子序列索引(Full-text)结构与混合上下文预测模型的压缩技术为有参考序列的DNA序列压缩提供了一种两步压缩框架。本发明第一阶段的重复图案匹配模块所使用的Full-text索引结构可以对非固定长度的待匹配序列进行快速查找与最大长度匹配，从而实现高效的序列压缩。本发明充分结合索引数据结构高效查找和混合上下文模型对单个字符高效压缩的特点，在可接受的压缩耗时内，比其他有参考DNA序列方法取得更高的压缩率，具备良好的实用性。

与现有技术相比，本发明具有如下的有益效果：

本发明在有参考序列的情况下提供一种有效的基因压缩，采用两步压缩框架，对未能达到匹配压缩长度要求的部分进行符号预测编码压缩，提升了压缩率，具备良好的实用性和扩展性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中系统的结构框图；

图2为本发明一实施例方法中Full-text index算法搜索匹配序列示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本发明所述有参考DNA序列压缩系统一优选实施例的结构框图，包括：重复图案的匹配模块、压缩编码模块、非重复符号的预测编码模块及解压缩模块。其中：重复图案的匹配模块利用输入的参考序列生成反向的Full-text索引结构，对输入的待压缩序列进行最长匹配子序列搜索，将匹配信息输入到压缩编码模块，并将未匹配的符号输出到非重复符号的预测编码模块；压缩编码模块将匹配序列的长度、位置信息进行压缩编码，并将编码信息输出到解压缩模块；非重复符号的预测编码模块接收所述重复图案的匹配模块输出的未匹配的符号，利用混合上下文模型进行符号出现概率预测及编码。解压缩模块利用同一参考序列，将压缩编码后的二进制文件恢复出解压缩序列。

当然，对应于上述的步骤，本发明实施例中对应的有参考DNA序列压缩方法，包括：

重复图案的匹配步骤，利用输入的参考序列生成反向的Full-text索引结构，对输入的待压缩序列进行最长匹配子序列搜索，将匹配信息用于压缩编码步骤，并将未匹配的符号用于非重复符号的预测编码步骤；

非重复符号的预测编码步骤，接收所述重复图案的匹配步骤的未匹配的符号，利用混合上下文模型进行符号出现概率预测及编码；

解压缩步骤，利用同一参考序列，将压缩编码后的二进制文件恢复出解压缩序列。

在本发明部分实施例中，所述的重复图案编码模块或步骤中的全文子序列索引结构的具体实现如图2所示。其中，生成全文子序列索引结构主要利用了Burrows-Wheeler变换，使得经过变换后的序列更容易被压缩。通过对参考序列建立反向的全文子序列索引结构，建立统计数组Occ(s),C[s],从而通过sp＝C[s]+Occ(s,sp-1)+1，ep＝C[s]+Occ(s,ep)确定子串在索引中出现的位置范围，其中，Occ(s)表示s在同种符号中的出现顺序，C[s]表示字典序小于s的符号总数。当下一符号不满足sp≤ep这一条件时，匹配到最长重复子串。利用匹配子串的sp和ep确定其位置信息。

在本发明部分实施例中，所述的压缩编码模块或步骤对输出的匹配标志位、匹配序列的长度、位置信息进行压缩编码。对于匹配长度，由于事先设置了匹配长度的最小值，因此将所有待编码匹配长度减去最小匹配长度进行压缩，节省编码位数。对于匹配位置，结合DNA序列经常在某一个或几个位点发生突变的特性，将待编码位置与预期出现位置做比较，若邻近预期位置，则编码相对差值，否则编码其绝对位置。

本实施例中，所述的非重复符号的预测编码模块或步骤，接收所述重复图案的匹配模块输出的未匹配的符号，利用混合上下文模型进行符号出现概率预测及编码。分别根据连续上下文模型和非连续上下文模型构建概率加权树，类似于连续上下文加权树，对于每棵高度为d的非连续上下文加权树，其内部节点s的一对子节点记作0s和1s,已知这一对子节点的加权估计概率为

则对节点s的加权估计概率可通过如下公式计算：

其中，节点s的长度记作l_s，a_s,b_s表示某阶上下文中0和1分别出现的次数，P_e(a_s,b_s)是节点s的加权概率，可通过如下公式计算：

且P_e(0,0)＝1。通过连续上下文模型和非连续上下文模型得出的独立的预测结果分别在不同的条件下达到最优。利用互补上下文模型可以根据所有上下文模型预测结果，得到最可能的整体预测概率，此时模型与训练数据最大可能匹配。互补上下文模型核心在于以下条件最大熵模型的求解：

其中t表示上下文模型对比特位y产生的预测概率，

是t的经验概率，P′满足：

其中，f_i(t,y)是特征函数，当y等于待预测的比特时返回t_i，否则返回0。

是t,y的经验概率。解上述约束最优化问题，用

表示所有M个上下文模型的预测结果，则得到：

最后利用牛顿-拉弗森迭代算法，求出估计概率P及权重w_i。

利用计算得到的概率P对待编码位进行算术编码，从而得到压缩后的二进制文件。由于整个压缩过程是可逆的，利用同一参考序列，对应进行解压缩过程，即可将得到的二进制文件恢复出解压缩序列。

实施效果

本实施例中关键参数的设置为：实验所用数据来源于人类基因组数据KOREF-20090131，YH，hg18,其中包含有人类22条常染色体，X染色体和Y染色体的测序序列。其中hg18作为参考序列，利用上述压缩方法压缩其他两组基因序列。重复序列的匹配长度阈值设为30，连续上下文模型选取了阶数为1，2，4，6，8，10，11，12，13，14，16阶组成的上下文集，非连续上下文选取了11个在训练数据集上表现复杂度较低且压缩率较好的图案。经实验对比，在处理原始DNA序列中，本实施例系统能够得到更高的压缩率。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种有参考DNA序列压缩方法，其特征在于，包括：

重复图案的匹配步骤，利用输入的参考序列生成反向的全文子序列索引结构，对输入的待压缩序列进行最长匹配子序列搜索，将匹配信息用于压缩编码步骤，并将未匹配的符号用于非重复符号的预测编码步骤；所述反向是对所述参考序列中元素的顺序进行反向；所述生成反向的全文子序列索引结构是对所述参考序列建立反向的全文子序列索引结构；

2.根据权利要求1所述的有参考DNA序列压缩方法，其特征是，参考DNA序列，是指不同基因组同一编号的DNA序列。

3.根据权利要求1所述的有参考DNA序列压缩方法，其特征是，所述重复图案的匹配步骤，通过对参考序列上重复子序列的查找与定位，表示待压缩序列中的匹配子序列。

4.根据权利要求3所述的有参考DNA序列压缩方法，其特征是，所述重复图案的匹配步骤，通过全文子序列索引对非固定长度字符串进行匹配搜索。

5.根据权利要求1所述的有参考DNA序列压缩方法，其特征是，所述压缩编码步骤，通过编码匹配序列的标志位、长度、位置信息对匹配信息进行压缩。

6.根据权利要求1所述的有参考DNA序列压缩方法，其特征是，所述非重复符号的预测编码步骤，通过连续上下文模型与非连续上下文模型的混合模型进行符号出现概率预测及编码。

7.根据权利要求1-6任一项所述的有参考DNA序列压缩方法，其特征是，所述方法进一步包括解压缩步骤，所述解压缩步骤利用同一参考序列，将压缩编码后的二进制文件恢复出解压缩序列。

8.根据权利要求7所述的有参考DNA序列压缩方法，其特征是，所述解压缩步骤，通过识别已压缩二进制信息，对照同一参考序列，恢复出解压缩序列，恢复出的解压缩序列应与输入待压缩序列相同。

9.一种用于实现权利要求1-8任一项所述方法的有参考DNA序列压缩系统，其特征在于，包括：

10.根据权利要求9所述的有参考DNA序列压缩系统，其特征是，所述系统进一步包括解压缩模块，所述解压缩模块利用同一参考序列，将压缩编码后的二进制文件恢复出解压缩序列。