CN111627496B

CN111627496B - 一种哈希表的压缩方法、系统及相关装置

Info

Publication number: CN111627496B
Application number: CN202010387631.9A
Authority: CN
Inventors: 葛沅; 史宏志; 尹云峰; 崔星辰
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2022-05-17
Anticipated expiration: 2040-05-09
Also published as: WO2021227555A1; CN111627496A

Abstract

本申请提供一种哈希表的压缩方法，包括：获取参考基因序列；按照所述参考基因序列的种子长度进行排序；利用长度最短的种子创建基础表；利用其余长度的种子创建所述基础表的扩展表。本申请在基因比对算法的基础上，优化了参考基因序列建哈希表过程。不仅保证原来全基因索引的比对精度，又大大减少了哈希表大小，减少后续大量无效的比对计算，从而提升运行效率。本申请还提供一种哈希表的压缩系统、计算机可读存储介质和电子设备，具有上述有益效果。

Description

一种哈希表的压缩方法、系统及相关装置

技术领域

本申请涉及计算机领域，特别涉及一种哈希表的压缩方法、系统及相关装置。

背景技术

基因比对算法，无论是二代还是三代测序技术，主要都应用在重测序领域。目前业界已经落地了各种成熟并且高效的基因比对算法,主流的BWT算法通常采用将待比对基因序列read分割成固定长度的种子，与标准基因reference完全匹配的位置作为命中位置的算法。但是在实际应用中，如果种子长度选取过小，查表时就会出现大量重叠的匹配位置，为后续过滤筛选增加计算量和难度，如果种子选取长度过大，则查表能够找到的匹配位置不全，影响比对精度。

建哈希表通常采用固定长度的种子，可以计算更多处理数据更快。但是如果按照不同长度同时创建多个扩展表，那么内存的压力将会成倍数增加。而且，后续查表的计算速度都会非常慢。如果只是简单的按照一定间隔读取reference的seed，那么又会存在很多遗漏项，造成表项信息缺失，将会影响最后的准确性。

因此，如何提高参考基因序列的准确度是本领域技术人员亟需解决的技术问题。

发明内容

本申请的目的是提供一种哈希表的压缩方法、系统、计算机可读存储介质和电子设备，能够减少参考基因序列中重复出现的种子。

为解决上述技术问题，本申请提供一种哈希表的压缩方法，具体技术方案如下：

获取参考基因序列；

按照所述参考基因序列的种子长度进行排序；

利用长度最短的种子创建基础表；

利用其余长度的种子创建所述基础表的扩展表。

其中，利用长度最短的种子创建基础表包括：

逐位读取所述参考基因序列；

将连续读取长度不小于预设长度、且全部是为非N的参考基因子序列作为一个种子；

将所述种子的正链种子值和反链种子值中的较小值做哈希表，根据所述较小值生成哈希种子值；

将所述哈希种子值和种子在所述参考基因序列上的位置按照预设格式保存，得到第一哈希对；

对所述第一哈希对按哈希种子值排序，将第一哈希对作为哈希表表项创建基础表。

其中，逐位读取所述参考基因序列之前，还包括：

将所述参考基因序列转换为十六进制。

其中，还包括：

若存在同一哈希种子值对应多个参考基因序列中的种子，以第二哈希对保存到预设映射表，相同哈希种子值的种子在所述参考基因序列上的位置按照位置顺序保存至位置表；所述第二哈希对包含种子在所述位置表中对应的序号。

其中，利用其余长度的种子创建所述基础表的扩展表包括：

将所述参考基因序列按照当前长度划分种子；

以上一个较短长度筛选的参考基因位置作为种子的起始位置；

读取连续的非N，且长度达到所述预设长度时，作为一个种子；

将哈希种子值和对应的参考基因位置一同作为哈希表的表项。

本申请还提供一种哈希表的压缩系统，包括：

获取模块，用于获取参考基因序列；

排序模块，用于按照所述参考基因序列的种子长度进行排序；

基础表创建模块，用于利用长度最短的种子创建基础表；

扩展表模块，用于利用其余长度的种子创建所述基础表的扩展表。

其中，所述基础表创建模块包括：

读取单元，用于逐位读取所述参考基因序列；

种子选取单元，用于将连续读取长度不小于预设长度、且全部是为非N的参考基因子序列作为一个种子；

哈希值计算单元，用于将所述种子的正链种子值和反链种子值中的较小值做哈希表，根据所述较小值生成哈希种子值；

哈希对生成单元，用于将所述哈希种子值和种子在所述参考基因序列上的位置按照预设格式保存，得到第一哈希对；

基础表生成单元，用于对所述第一哈希对按哈希种子值排序，将第一哈希对作为哈希表表项创建基础表。

其中，还包括：

格式转换单元，用于将所述参考基因序列转换为十六进制。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种电子设备，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种哈希表的压缩方法，包括：获取参考基因序列；按照所述参考基因序列的种子长度进行排序；利用长度最短的种子创建基础表；利用其余长度的种子创建所述基础表的扩展表。

本申请在基因比对算法的基础上，优化了参考基因序列建哈希表过程。比起传统将参考基因序列所有种子都用于建表索引的算法，本发明筛选出在参考基因序列上重复出现多次的种子，减少冗余信息，合并同类项，哈希表中仅保存一份相同重复的种子信息，同时仅对这类高重复种子的长度进行扩展。不仅保证原来全基因索引的比对精度，又大大减少了哈希表大小，减少后续大量无效的比对计算，从而提升运行效率。本申请还提供一种哈希表的压缩系统、计算机可读存储介质和电子设备，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种哈希表的压缩方法的流程图；

图2为本申请实施例所提供的一种哈希表的压缩系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种哈希表的压缩方法的流程图，该方法包括：

S101：获取参考基因序列；

S102：按照所述参考基因序列的种子长度进行排序；

S103：利用长度最短的种子创建基础表；

本步骤中，仅利用长度最短的种子创建基础表，并非利用所有种子创建对应的哈希表。在此对于如何创建基础表不做具体限定，优选的，本实施例在此提供一种优选的基础表创建方法，具体步骤如下：

S1031：逐位读取所述参考基因序列；

S1032：将连续读取长度不小于预设长度、且全部是为非N的参考基因子序列作为一个种子；

人类基因的染色体，也就是碱基序列是由“acgtACGT”这些排列组合成的长链。“N”或“n”表示unKnown未知信息，因此在基因比对时，需要剔除掉。比如长度10bp的种子就是类似这样的“acgtaactgc”。

S1033：将所述种子的正链种子值和反链种子值中的较小值做哈希表，根据所述较小值生成哈希种子值；

S1034：将所述哈希种子值和种子在所述参考基因序列上的位置按照预设格式保存，得到第一哈希对；

同一个位置的种子，有正链和反链的区别。DNA是双链的，对于一个参考基因组，一条链被指定为forward链，那另一条就是reverse链。英文中通常将正负链写为forward/reverse strand，有时也会使用plus/minus strand表示。

mRNA转录时结合的那条链称之为模板链，即碱基互补配对的那条链，那么由此可知非互补的链是非模板链。根据碱基互补原则可以知道，非模板链的碱基顺序和mRNA是一致的(除了其中的U/T替换)。显然，这条非模板链对于mRNA是有意义的，存储着mRNA的编码信息，因此这条链也被称为编码链(coding strand)或者正义链(sense strand)。mRNA的序列信息对应着编码链5'->3'方向的序列信息(碱基顺序一致)。有了编码链就肯定有非编码链，所以模板链也就是非编码链或者反义链，即：

非模板链＝编码链(coding strand)＝正义链(sense strand)

模板链＝非编码链(noncoding strand)＝反义链(nonsense strand)

以上二者定义的区别：

两者是不同的定义方式，正义链反义链具有生物学意义，而forward/reverse链只是简单的规定。通过下面关于基因位置的描述，可以更清晰的理解这两个定义的联系。

一个基因位于正链或者反链的其中一条链上。由于一个基因既有编码链信息(或者说是sense strand)，也有模板链(也可以说是nonsense strand)。大概50％的基因其模板链位于正链(forward strand)上，而另外50％的基因其模板链位于反链(reversestrand)上。因此，正链上既可以有一个基因的正义链信息，也可以有另一个基因的反义链信息。当然，一个基因的正义链信息位于正链上，那么它的反义链信息只能位于负链上。

假如找到的一个种子正链为“acgt”，其对应反链是正链取反再取补“gtac”，

acgt需要进行数字化，假如acgt分别对应1、2、3、4，那么正链的seed值为1234，反链值为3412。显然1234值较小，就选择正链作为hashseed。

S1035：对所述第一哈希对按哈希种子值排序，将第一哈希对作为哈希表表项创建基础表。

优选的，在执行步骤S1031之前，还可以将所述参考基因序列转换为十六进制。

需要注意的是，若存在同一哈希种子值对应多个参考基因序列中的种子，以第二哈希对保存到预设映射表，相同哈希种子值的种子在参考基因序列上的位置按照位置顺序保存至位置表，且第二哈希对包含种子在位置表中对应的序号。

S104：利用其余长度的种子创建所述基础表的扩展表。

本步骤中，需要在上述基础表的基础上，创建扩展表。即利用其余长度的种子分别创建扩展表。在此对于如何创建扩展表的过程不做具体限定，优选的，本实施例在此提供一种扩展表的创建方法，具体过程可以如下：

S1041：将所述参考基因序列按照当前长度划分种子；

S1042：以上一个较短长度筛选的参考基因位置作为种子的起始位置；

S1043：读取连续的非N，且长度达到所述预设长度时，作为一个种子；

S1044：将所述种子的正链种子值和反链种子值中的较小值做哈希表，根据所述较小值生成哈希种子值；

S1045：将哈希种子值和对应的参考基因位置一同作为哈希表的表项。

本申请实施例在基因比对算法的基础上，优化了参考基因序列建哈希表过程。比起传统将参考基因序列所有种子都用于建表索引的算法，本发明筛选出在参考基因序列上重复出现多次的种子，减少冗余信息，合并同类项，哈希表中仅保存一份相同重复的种子信息，同时仅对这类高重复种子的长度进行扩展。不仅保证原来全基因索引的比对精度，又大大减少了哈希表大小，减少后续大量无效的比对计算，从而提升运行效率。

下面以一种具体的应用过程对本申请提供的一种哈希表的压缩方法进行描述：

(1)按照种子长度从小到大的顺序，对参考基因序列依次创建Hash表。长度最短的按照步骤2～10建基础表，剩下长度较长的按照步骤11～13创建扩展表。

(2)将参考基因序列转换成十六进制；

(3)按照Kmer算法设定的种子长度K、逐位读取参考基因序列序列，直到参考基因序列结束位置；

(4)将连续读取长度达到种子长度K、且全部是非“N”或“n”的参考基因子序列，作为一个种子。

(5)如果中间遇到“N”或“n”，则读取长度清0，从下一个非“N”位置重新累计读取长度，直到找到满足条件的seed。反之如果没有遇到“N”或“n”，则读取长度不断累加；

(6)比较该种子正链和反链的seedValue，选择seedValue较小的那个做hash，生成hashedseedvalue，同时标记出选取的是正链还是反链；

(7)将seed及其在参考基因序列上的位置，按照<hashedseedvalue,position>成对保存，对hashedseedvalue排序，作为hash table的表项。

(8)压缩出现多个位置的种子表项：找到同一个hashedseedvalue对应多个参考基因序列位置的seeds。如果2个位置的seed，其hashedseedvalue相同，则表示两者序列片段的内容相同。以<hashedseedvalue,positionIdx>保存一个映射表，参考基因序列位置按照原来顺序单独保存一个位置表。其中PositionIdx为该seed在位置表中，首个参考基因序列位置对应的序号。

若是按照hashedseedvalue和在reference一对一的形式成对保存，在保存时会存很多份相同的hashedseedvalue，存在冗余信息。本申请中拆成2个表，一个hashedSeedvalue表，一个位置表，并且都经过事先排序。保存hash表时，只需要保存一个hashedseedvalue和一个位置索引positionIdx。这个位置索引表示另一个位置表的首个索引。比如hashedseedvalue为111的种子，对应5，hashedseedvalue为112的种子，对应索引为10，那么hashedseedvalue为111的种子在reference的位置就是位置表中第5,6,7,8,9项。

(9)保存那些出现多个位置的seed对应的参考基因序列位置，以备下一个长度的种子建表。

在建表时，需要按照种子长度由小到大建表。举例而言，若创建长度为10的种子，只筛选出那些多次重复出现的种子，对其做长度11的种子建表。因为如果一个种子在整条reference上如果仅出现一次，那么它的位置基本上是非常确定的，无需再做更大长度的种子建表了。具体建表过程是，比如长度为10的某一条种子，在reference的起始位置为1000，也就是这条种子是reference在1000～1009区间的序列片段内容。这条种子对应的下一个长度种子，是reference在1000～1010区间的序列片段内容。

(10)参考基因序列序列按照新的长度划分种子，以上一个较短长度筛选的参考基因序列位置作为种子的起始位置，读取连续非“N”或“n”，且seed长度到达k，作为一个种子。

(11)根据seedValue值选择正链还是反链，读取长度，做hash处理，得到Hashedseedvalue。

(12)将Hashedseedvalue及其参考基因序列位置信息一起保存作为hash table的表项；

(13)重复步骤8，对当前Hash表进一步压缩。

(14)重复步骤9，筛选当前长度下，出现多个位置的种子，保存对应的参考基因序列位置信息；

(15)不断循环步骤10～14，直到计算处理完所有长度的扩展表，完成多个长度的建表模块。

(16)后续待比对read也按照kmer算法切分种子，通过哈希查表进行比对，过程不再赘述。

下面对本申请实施例提供的一种哈希表的压缩系统进行介绍，下文描述的压缩系统与上文描述的一种哈希表的压缩方法可相互对应参照。

图2为本申请实施例所提供的一种哈希表的压缩系统结构示意图，本申请还提供一种哈希表的压缩系统，包括：

获取模块100，用于获取参考基因序列；

排序模块200，用于按照所述参考基因序列的种子长度进行排序；

基础表创建模块300，用于利用长度最短的种子创建基础表；

扩展表模块400，用于利用其余长度的种子创建所述基础表的扩展表。

基于上述实施例，作为优选的实施例，所述基础表创建模块300包括：

读取单元，用于逐位读取所述参考基因序列；

基于上述实施例，作为优选的实施例，还包括：

格式转换单元，用于将所述参考基因序列转换为十六进制。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种哈希表的压缩方法，其特征在于，包括：

获取参考基因序列；

按照所述参考基因序列的种子长度进行排序；

利用长度最短的种子创建基础表；

利用其余长度的种子创建所述基础表的扩展表；

其中，利用长度最短的种子创建基础表包括：

逐位读取所述参考基因序列；

将连续读取长度不小于预设长度、且全部为非N的参考基因子序列作为一个种子；

将所述哈希种子值和所述种子在所述参考基因序列上的位置按照预设格式保存，得到第一哈希对；

对所述第一哈希对按哈希种子值排序，将第一哈希对作为哈希表表项创建基础表；

其中，利用其余长度的种子创建所述基础表的扩展表包括：

将所述参考基因序列按照当前长度划分种子；

将所述种子的正链种子值和反链种子值中的较小值做扩展表，根据所述较小值生成哈希种子值；

将哈希种子值和对应的参考基因位置一同作为扩展表的表项。

2.根据权利要求1所述的压缩方法，其特征在于，逐位读取所述参考基因序列之前，还包括：

将所述参考基因序列转换为十六进制。

3.根据权利要求1所述的压缩方法，其特征在于，若存在同一哈希种子值对应多个参考基因序列中的种子，还包括：

以第二哈希对保存到预设映射表，相同哈希种子值的种子在所述参考基因序列上的位置按照位置顺序保存至位置表；所述第二哈希对包含种子在所述位置表中对应的序号。

4.一种哈希表的压缩系统，其特征在于，包括：

获取模块，用于获取参考基因序列；

基础表创建模块，用于利用长度最短的种子创建基础表；

扩展表模块，用于利用其余长度的种子创建所述基础表的扩展表；

其中，所述基础表创建模块包括：

读取单元，用于逐位读取所述参考基因序列；

基础表生成单元，用于对所述第一哈希对按哈希种子值排序，将第一哈希对作为哈希表表项创建基础表；

其中，所述扩展表模块为用于执行如下步骤的模块;

将所述参考基因序列按照当前长度划分种子；以上一个较短长度筛选的参考基因位置作为种子的起始位置；读取连续的非N，且长度达到所述预设长度时，作为一个种子；将所述种子的正链种子值和反链种子值中的较小值做扩展表，根据所述较小值生成哈希种子值；将哈希种子值和对应的参考基因位置一同作为扩展表的表项。

5.根据权利要求4所述的压缩系统，其特征在于，还包括：

格式转换单元，用于将所述参考基因序列转换为十六进制。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3任一项所述的压缩方法的步骤。

7.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-3任一项所述的压缩方法的步骤。