CN111916155A

CN111916155A - 无参考基因序列的基因数据压缩及还原方法、系统和介质

Info

Publication number: CN111916155A
Application number: CN201910380333.4A
Authority: CN
Inventors: 李�根; 宋卓; 徐霞丽; 冯博伦; 黄能超; 赵丽霞; 毛海波
Original assignee: Genetalks Bio Tech Changsha Co ltd
Current assignee: Genetalks Bio Tech Changsha Co ltd
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2020-11-10

Abstract

本发明公开了一种无参考基因序列的基因数据压缩及还原方法、系统和介质，本发明提供了采用/不采用影子序列的实现方式，采用影子序列的实现方式建立基因参考序列同长影子序列且初始化为空，针对原始基因数据，首先初始化影子序列，然后通过将原始基因数据和基因参考序列比较动态更新影子序列，并保存原始基因数据与其在影子序列上匹配到的序列之间的差异数据及差异信息，将影子序列、所有的差异信息压缩保存至基因数据压缩文件；不采用影子序列的实现方式则直接保存在基因参考序列上匹配的序列差异数据及差异信息并进行压缩。本发明不需要参考基因序列，其压缩率对比解压需要参考基因序列的方式影响很小，甚至有的数据压缩率还会有所提升。

Description

无参考基因序列的基因数据压缩及还原方法、系统和介质

技术领域

本发明涉及生物信息领域的基因数据压缩及还原技术，具体涉及一种无参考基因序列的基因数据压缩及还原方法、系统和介质。

背景技术

对于生物信息领域的基因数据压缩，为了达到更高倍率的压缩效果，通常会引入参考字典，这样只需要将原始数据与参考字典的差异信息，以及一些必要的元信息进行压缩然后保存至压缩文件，就能实现数据的解压还原。对应到生物信息领域，基因数据所对应物种的基因参考序列通常被用做参考字典，有基因参考序列的压缩方式对比无参考序列的压缩方式，大部分情况下压缩率会有几倍的提升，但是解压时会需要对应的索引文件才能还原。这个索引文件可以是原始基因参考序列，也可以是做过处理的更小的基因参考序列，但这个索引需要单独保存，而且每个压缩数据所对应的索引是不同的，这在很大程序上限制了对应压缩软件的使用和普及。

假如要压缩的原始序列片段为序列A，其压缩过程如下：查找索引表（由基因参考序列所构建），查到基因参考序列中差异性最小的序列B；如图1所示，解压时如果采用使用参考基因序列的方式，只需将序列B和序列A的差异信息，以及序列B在参考基因组中的一些元信息（如序列B在参考序列中的位置信息或其他信息）保存到文压缩文件即可，解压时序列B可以根据保存的元信息直接从参考基因获取；如果解压时采用不使用参考基因序列的方式，那么需要将序列B完整的保存到压缩文件中。最简单和最直接的方式就是将整个基因参考序列直接打包或者压缩到压缩文件中，这种方式虽然能实现无参考基因序列解压，但对比使用参考序列解压的方式，压缩率会降低明显，且会影响压缩性能。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种无参考基因序列的基因数据压缩及还原方法、系统和介质，本发明不需要参考基因序列，其压缩率对比解压需要参考基因序列的方式影响很小，甚至有的数据压缩率还会有所提升。

为了解决上述技术问题，本发明采用的技术方案为：

一种无参考基因序列的基因数据压缩方法，实施步骤包括：

A1）建立长度与基因参考序列长度一致的影子序列且初始化内容为空；

A2）针对待压缩的原始基因数据，通过将原始基因数据和基因参考序列比较动态更新影子序列，并保存原始基因数据与其在影子序列上匹配到的序列之间的差异数据及差异信息；

A3）将影子序列、所有的差异信息压缩保存至基因数据压缩文件。

优选地，步骤A2）的详细步骤包括：遍历原始基因数据的原始序列片段，每遍历得到一个序列A，则针对序列A查找基因参考序列或者预设的索引表获取基因参考序列中差异性最小的序列B，并记录序列B在基因参考序列中的索引位置POS0，将影子序列中索引位置POS0后序列A长度的位置作为更新目标位置，如果更新目标位置没有内容则将序列A放入更新目标位置，否则更新目标位置不放入序列A，计算序列A、更新目标位置内容之间的差异信息。

优选地，步骤A2）中遍历原始基因数据的原始序列片段之前还包括对于原始基因数据进行分块的处理步骤，且分块得到的每一个数据块具有对应自己的顺序编号，且遍历原始基因数据的原始序列片段时按照数据块的顺序进行，且每个数据块在被压缩之前必须等待它前面的数据块完成影子序列的更新；且每一个数据块在被遍历原始基因数据的原始序列片段时，遍历得到的原始序列片段也按照其在数据块内的排序按照顺序依次更新影子序列。

本发明还提供一种无参考基因序列的基因数据压缩方法，实施步骤包括：

B1）遍历原始基因数据的原始序列片段，每遍历得到一个序列A，则针对序列A查找基因参考序列或者预设的索引表获取其在基因参考序列中匹配信息，该匹配信息包括匹配的位置信息和序列长度信息，然后从基因参考序列根据匹配信息找出匹配序列数据；

B2）将所有的匹配信息及其匹配序列数据压缩保存至基因数据压缩文件。

本发明还提供一种无参考基因序列的基因数据压缩系统，包括计算机设备，该计算机设备被编程或配置以执行前述无参考基因序列的基因数据压缩方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行前述无参考基因序列的基因数据压缩方法的计算机程序。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行前述无参考基因序列的基因数据压缩方法的计算机程序。

本发明还提供一种无参考基因序列的基因数据还原方法，实施步骤包括：

C1）针对基因数据压缩文件进行解压获取其中的影子序列、所有的差异信息；

C2）按照指定的顺序遍历所有的差异信息，每遍历得到一个当前的差异信息，且根据当前的差异信息和影子序列中对应的序列C还原出当前的差异信息的原始序列A，最终将影子序列、所有的差异信息还原出原始的基因数据压缩文件。

D1）针对基因数据压缩文件进行解压获取所有的匹配信息及其匹配序列数据；

D2）按照指定的顺序遍历所有的匹配信息及其匹配序列数据，每遍历得到一个当前的匹配信息及其匹配序列数据，且根据当前的匹配信息及其匹配序列数据还原出当前的匹配信息及其匹配序列数据的原始序列A，最终将所有的匹配信息及其匹配序列数据还原出原始的基因数据压缩文件。

本发明还提供一种无参考基因序列的基因数据还原系统，包括计算机设备，该计算机设备被编程或配置以执行前述无参考基因序列的基因数据还原方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行前述无参考基因序列的基因数据还原方法的计算机程序。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行前述无参考基因序列的基因数据还原方法的计算机程序。

本发明无参考基因序列的基因数据压缩方法提供了采用影子序列和不采用影子序列的两种实现方式，和现有技术相比，其分别具有下述优点：

一、采用影子序列的方式：

一方面，该方式通过影子序列记录原始基因数据、基因参考序列之间的差异部分内容并记录差异信息，因此如果序列A更新时，影子序列从POS 0位置开始直至序列A长度整个范围都没有内容，那么A被完整保存到影子序列，A再去与影子序列计算差异时，差异为零，这种情况对比与原始参考序列直接去计算差异效果会更好；另一方面，只需要对影子序列进行压缩保存至压缩文件，那么就可以实现无参考序列解压。影子序列相比原始的参考序列，因为只保存了原始基因数据的差异部分内容，它的实际内容相比原始参考序列会小很多，所以即使把影子参考序列压缩保存至压缩文件，相比使用参考序列解压的方式，压缩率影响非常小，有的数据压缩率甚至会提升，因为影子序列有效地去除了一些差异性。

二、不采用影子序列的方式：

该方式通过遍历原始基因数据的原始序列片段，每遍历得到一个序列A，则针对序列A查找基因参考序列或者预设的索引表获取其在基因参考序列中匹配信息，该匹配信息包括匹配的位置信息和序列长度信息，然后从基因参考序列根据匹配信息找出匹配序列数据，最终将所有的匹配信息及其匹配序列数据压缩保存至基因数据压缩文件，这种方式实现简单，压缩率相比有参解压影响也非常小，而且效率较高。

本发明无参考基因序列的基因数据还原方法为本发明无参考基因序列的基因数据压缩方法对应的方法，其能够实现对于本发明无参考基因序列的基因数据压缩方法的压缩数据的解压还原，同样也具有本发明无参考基因序列的基因数据压缩方法的前述优点，故在此不再赘述。本发明无参考基因序列的基因数据压缩、还原系统为本发明无参考基因序列的基因数据压缩、还原方法完全对应的系统，其同样也具有本发明无参考基因序列的基因数据压缩、还原方法的前述优点，故在此不再赘述。

附图说明

图1为现有技术使用参考基因序列的压缩及还原流程示意图。

图2为本发明实施例一方法的流程示意图。

图3为本发明实施例一中影子序列的构建示意图。

图4为本发明实施例一中不同数据块更新影子序列的示意图。

图5为本发明实施例一中同一数据块内不同序列更新影子序列的示意图。

图6为本发明实施例二方法的流程示意图。

图7为本发明实施例二方法的原理示意图。

具体实施方式

本发明无参考基因序列的基因数据压缩方法提供了采用影子序列和不采用影子序列的两种实现方式，下文将分别采用不同的实施例进行说明。

实施例一：采用影子序列的实现方式。

如图2所示，本实施例无参考基因序列的基因数据压缩方法，其特征在于实施步骤包括：

本实施例不需要参考基因序列，其压缩率对比解压需要参考基因序列的方式影响很小，甚至有的数据压缩率还会有所提升。本实施例实现方式的关键是根据原始压缩数据动态构建一个最精简而又完备的参考序列，这里称之为影子序列，该影子序列的内容可看做原始基因数据中各个原始序列片段在上面的投影，故称为影子序列；这个影子序列的长度与基因参考序列长度一致，并且初始时影子序列没有内容。

本实施例中，基因参考序列只有在步骤A1）创建影子序列和A2）更新影子序列时才被用到，后面步骤A3）压缩时以及解压时也是用保存的影子序列去解压的，而不需要再使用基因参考序列，从而实现了无基因参考序列的基因数据解压还原。步骤A2）记录的是原始基因数据与影子序列之间的差异信息，而不是原始基因数据与基因参考序列之间的差异部分，有影子参考序列时，差异信息是原始基因数据与影子序列对应位置的序列的差异。

本实施例中，步骤A2）的详细步骤包括：遍历原始基因数据的原始序列片段，每遍历得到一个序列A，则针对序列A查找基因参考序列或者预设的索引表获取基因参考序列中差异性最小的序列B，并记录序列B在基因参考序列中的索引位置POS0，将影子序列中索引位置POS0后序列A长度的位置作为更新目标位置，如果更新目标位置没有内容则将序列A放入更新目标位置，否则更新目标位置不放入序列A，计算序列A、更新目标位置内容之间的差异信息。参见图3，其中序列1和序列2的更新目标位置为空，故直接将序列1和序列2放入影子序列中的更新目标位置，对于序列3而言，其更新目标位置非空，则影子序列中的更新目标位置不放入序列3。这种方式做到了下述两点优点：（1）如果序列A更新时，影子序列从POS0位置开始直至序列A长度整个范围都没有内容，那么序列A被完整保存到影子序列，序列A再去与影子序列计算差异时，差异为零，这种情况对比与原始参考序列直接去计算差异效果会更好；（2）我们只需要对影子序列进行压缩保存至压缩文件，那么就可以实现无参考序列解压。影子序列相比原始的参考序列，因为只保存了原始基因数据的差异部分内容，它的实际内容相比原始参考序列会小很多，所以即使把影子参考序列压缩保存至压缩文件，相比使用参考序列解压的方式，压缩率影响非常小，有的数据压缩率甚至会提升，因为影子序列有效地去除了一些差异性。

本实施例中，步骤A2）中遍历原始基因数据的原始序列片段之前还包括对于原始基因数据进行分块的处理步骤，且分块得到的每一个数据块具有对应自己的顺序编号，且遍历原始基因数据的原始序列片段时按照数据块的顺序进行，且每个数据块在被压缩之前必须等待它前面的数据块完成影子序列的更新；且每一个数据块在被遍历原始基因数据的原始序列片段时，遍历得到的原始序列片段也按照其在数据块内的排序按照顺序依次更新影子序列。

在使用影子序列时，必须保证数据序列更新影子序列的顺序。以块方式压缩为例，在读取基因参考数据后，首先会将所有数据进行分块，每个块对应自己的编号（1、2、...N），那么每个块压缩之前必须等待它前面的数据块完成影子序列的更新。比如现在正要压缩数据块2，那么数据块2必须等待数据块1完成更新影子序列之后，然后再自己更新影子序列，更新完成之后数据块2才能开始压缩。每个数据块在更新完影子序列后，各个数据块之间就会变得相互独立，可以并行压缩。如图4所示，数据块1～数据块N必须按照顺序更新影子序列，然后就可以独立进行并发压缩。

影子序列的更新在保证了数据块之间的更新顺序后，可以保证数据块在压缩时的独立性，从而可以并发压缩各数据块。影子序列的更新除了数据块之间需要保证顺序，单个数据块内的数据序列更新也要保证顺序。也就是说，单个数据序列在压缩前必须保证它同一个数据块中，前面的数据序列已经完成了影子序列的更新，只有这样才能保证压缩后的数据能正确还原。该过程见图5所示，序列1～序列M内部的序列也必须按照顺序依次更新影子序列。

此外，针对原始基因数据也可以按照数据流为单位进行处理。

此外，本实施例还提供一种无参考基因序列的基因数据压缩系统，包括计算机设备，该计算机设备被编程或配置以执行本实施例前述无参考基因序列的基因数据压缩方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述无参考基因序列的基因数据压缩方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本实施例前述无参考基因序列的基因数据压缩方法的计算机程序。

此外，对应前述基因数据压缩方法，本实施例还提供一种无参考基因序列的基因数据还原方法，实施步骤包括：

此外，本实施例还提供一种无参考基因序列的基因数据还原系统，包括计算机设备，该计算机设备被编程或配置以执行本实施例前述无参考基因序列的基因数据还原方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述无参考基因序列的基因数据还原方法的计算机程序。此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本实施例前述无参考基因序列的基因数据还原方法的计算机程序。

实施例二：不采用影子序列的实现方式。

和实施例一不同，实施例一是通过在构建和更新影子序列的基础上记录原始基因数据与影子序列之间的差异信息，而本实施例则为直接记录匹配序列数据（即原始基因数据、基因参考序列之间的差异部分内容）。

如图6所示，本实施例无参考基因序列的基因数据压缩方法的实施步骤包括：

如图7所示，实施例一需要动态实时构建影子序列，处理逻辑相对复杂，本实施例则提供另外一种相对比较简单的方式实现无参考序列解压。本实施例的实现方式只需在图2基于参考序列的压缩流程中插入一个步骤，对应图7的标号2所示。在每个块压缩完成后，将该数据块所有数据序列所匹配到的位置信息以及匹配到的长度信息保存下来，然后提取参考序列所有被匹配到的序列数据，再将这部分数据也压缩到压缩文件即可。这种方式比较简单，压缩率相比有参解压影响也非常小，而且效率较高。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种无参考基因序列的基因数据压缩方法，其特征在于实施步骤包括：

2.根据权利要求1所述的无参考基因序列的基因数据压缩方法，其特征在于，步骤A2）的详细步骤包括：遍历原始基因数据的原始序列片段，每遍历得到一个序列A，则针对序列A查找基因参考序列或者预设的索引表获取基因参考序列中差异性最小的序列B，并记录序列B在基因参考序列中的索引位置POS0，将影子序列中索引位置POS0后序列A长度的位置作为更新目标位置，如果更新目标位置没有内容则将序列A放入更新目标位置，否则更新目标位置不放入序列A，计算序列A、更新目标位置内容之间的差异信息。

3.根据权利要求2所述的无参考基因序列的基因数据压缩方法，其特征在于，步骤A2）中遍历原始基因数据的原始序列片段之前还包括对于原始基因数据进行分块的处理步骤，且分块得到的每一个数据块具有对应自己的顺序编号，且遍历原始基因数据的原始序列片段时按照数据块的顺序进行，且每个数据块在被压缩之前必须等待它前面的数据块完成影子序列的更新；且每一个数据块在被遍历原始基因数据的原始序列片段时，遍历得到的原始序列片段也按照其在数据块内的排序按照顺序依次更新影子序列。

4.一种无参考基因序列的基因数据压缩方法，其特征在于实施步骤包括：

5.一种无参考基因序列的基因数据压缩系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～4中任意一项所述无参考基因序列的基因数据压缩方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行权利要求1～4中任意一项所述无参考基因序列的基因数据压缩方法的计算机程序。

6.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～4中任意一项所述无参考基因序列的基因数据压缩方法的计算机程序。

7.一种无参考基因序列的基因数据还原方法，其特征在于实施步骤包括：

8.一种无参考基因序列的基因数据还原方法，其特征在于实施步骤包括：

9.一种无参考基因序列的基因数据还原系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求7或8所述无参考基因序列的基因数据还原方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行权利要求7或8所述无参考基因序列的基因数据还原方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求7或8所述无参考基因序列的基因数据还原方法的计算机程序。