CN114758727A

CN114758727A - 基于携带缓存Trie树加速生物基因的检索方法

Info

Publication number: CN114758727A
Application number: CN202210451340.0A
Authority: CN
Inventors: 徐淳; 吴云志; 乐毅; 董梦龙; 马志宇; 陈佳玲
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-07-15
Anticipated expiration: 2042-04-26
Also published as: CN114758727B

Abstract

本发明公开了基于携带缓存Trie树加速生物基因的检索方法，属于数据查询技术领域，该检索方法具体步骤如下：(1)构建Tire树并将数据导入Tire树中；(2)对Tire树进行性能优化；(3)对基因序列簇进行缓存优化；(4)对Tire树查询效率进行对比分析；本发明通过构建Trie树与哈希表结合的方式对各组生物基因数据进行查询，能够利用有限的内存空间加速基因索引的检索。

Description

基于携带缓存Trie树加速生物基因的检索方法

技术领域

本发明涉及数据查询技术领域，尤其涉及基于携带缓存Trie树加速生物基因的检索方法。

背景技术

信息检索是指用户进行信息查询和获取的主要方式。大批量的数据以数据库的形式进行管理。以关系型数据库为主，通过索引表查询数据，而数据写入磁盘中，在搭建生信数据库时，多数采用的架构方式为以Java，Python构建后端系统，数据保存在MySQL数据库。在这样的系统中，后端主要负责数据的传递，而数据的检索压力全部转交给数据库。检索的效率取决于数据库的性能，其中包括运行数据库机器的硬件性能，以及数据库产品自身的性能。随着数据量的增长，系统的性能很难提升。甚至单次检索耗时可达一分钟之久，同时后端程序在整个系统中并没有起到对数据检索有利的作用。在数据量到达十万级别的时候，MySQL会出现明显的性能问题。当一个SQL语句需要十几秒的执行时间，应当在系统中增加检索服务来缓解数据库压力。若后端程序能够提前帮助数据库过滤出所有符合条件的索引，再结合数据库精准匹配，这种方式能够极大的减缓数据库的压力；为此，我们提出基于携带缓存Trie树加速生物基因的检索方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出的基于携带缓存Trie树加速生物基因的检索方法。

为了实现上述目的，本发明采用了如下技术方案：

基于携带缓存Trie树加速生物基因的检索方法，该检索方法具体步骤如下：

(1)构建Tire树并将数据导入Tire树中：工作人员构建Tire树，同时将生物基因数据导入Tire树中进行存储；

(2)对Tire树进行性能优化：将Tire树进行压缩处理，同时生成一组索引表以对Tire树在精准匹配时效率进行性能优化；

(3)对基因序列簇进行缓存优化：将生成的各组基因序列簇缓存至内存中，同时通过LRU算法对各组基因序列簇进行选择淘汰；

(4)对Tire树查询效率进行对比分析：收集并分析MySQL与Redis查询效率，同时检测Tire树查询效率，并将收集到的三组查询效率进行对比分析。

作为本发明的进一步方案，步骤(1)中所述Tire树构建具体步骤如下：

步骤一：对各组生物基因数据的基因序列进行分析，并提取“MSTRG”和“CSS”两组标识；

步骤二：创建Trie树根节点，同时该根节点不包含字符，依据分析结果将各组生物基因数据的字符录入除根节点以外的每个节点中，同时每个节点只包含一个字符；

步骤三：当工作人员查询某一组或多组生物基因数据时，从根节点到某一节点，路径上经过的字符连接起来，为该生物基因数据对应的字符串，且每个节点的所有子节点包含的字符都不相同。

作为本发明的进一步方案，步骤(2)中所述性能优化具体步骤如下：

第一步：遍历Trie树各连续分支，并将非根内部节点只有一个子节点进行标记，并将该节点视为冗余；

第二步：将标记的各组长度为一的连续分支节点压缩为一串字符串，并将其作为该Trie树索引的单一分支节点，同时存储空间从标准Trie树的O(n)降低到压缩后的O(k)，其中，n为Trie树中总字符串长度，k为插入基因的最长长度；

第三步：在内存中构建一张索引表，在进行模糊查询时通过Trie树做索引查询，进行精确查找时查询索引表，且所有基因索引表在内存中只会保存一份，Trie树与索引表最后指向同一块内存地址。

作为本发明的进一步方案，第三步中所述索引表可替换为缓存表，同时系统在Trie树上进行精准查询时，将查询结果缓存到缓存表中。

作为本发明的进一步方案，步骤(4)中所述选择淘汰具体步骤如下：

S1：依据Trie树的LRU顺序，通过LRU链表对各组启动链表头部进行进一步链接，收集最少查询的基因序列簇信息，并将该基因序列簇的启动链表安排在LRU链表的首位，并依次进行排序；

S2：在Trie树启动阶段跟踪访问信息前，内存模块在Trie树启动之前清除所有更新页表项的访问位，若在Trie树启动期间访问了某个基因序列簇，会将该基因序列簇添加到启动链表中；

S3：在Trie树启动时间结束之前，内存模块重新检查所有基因序列簇的访问位，若在其它阶段也访问某个基因序列簇，则将该基因序列簇将从启动链表中删除，并移到常规LRU链表中，确定完成后对启动链表中的各组基因序列簇进行数据更新；

S4：内存模块从LRU链表的头部选择最少查询的应用基因序列簇，并将其淘汰，同时缓存中只保存那些高频查询的基因序列簇。

作为本发明的进一步方案，步骤(5)中所述对比分析具体步骤如下：

Q1：分别给予MySQL、Redis以及Trie树10个线程数，并执行5次接口访问，分别收集50个样本数据；

Q2：分析各组样本数据，在只提供5个及以下的关键字情况下，Trie的吞吐量比MySQL与Redis高，且当给的关键字足够多，能够筛选走一部分数据时，Trie最快能到达3×10⁴/s吞吐量；

Q3：将数据装到一台2核2G、公网带宽1Mbps的机器中，同时收集各组样本数据进行分析；

Q4：依据分析结果，Redis作为内存数据库其性能大于MySQL类别的磁盘数据库，而同样将数据存放在内存中的Trie树，其性能远大于MySQL与Redis。

相比于现有技术，本发明的有益效果在于：

该基于携带缓存Trie树加速生物基因的检索方法相较于以往的检索方法，本发明通过计算机对各组生物基因数据的基因序列进行分析，并创建Trie树根节点，之后依据分析结果将各组生物基因数据的字符录入除根节点以外的每个节点中，同时每个节点只包含一个字符，将Trie树中各组长度为一的连续分支节点压缩为一串字符串，并将其作为该Trie树索引的单一分支节点，并添加索引表或缓存表优化搜索，依据Trie树的LRU顺序，通过LRU链表对各组启动链表头部进行进一步链接，收集最少查询的基因序列簇信息，收集工作人员查询信息，并对启动链表中的各组基因序列簇进行数据更新，同时从LRU链表的头部选择最少查询的应用基因序列簇，并将其淘汰且缓存中只保存那些高频查询的基因序列簇，通过构建Trie树与哈希表结合的方式对各组生物基因数据进行查询，能够利用有限的内存空间加速基因索引的检索。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提出的基于携带缓存Trie树加速生物基因的检索方法的流程框图。

具体实施方式

参照图1，基于携带缓存Trie树加速生物基因的检索方法，该检索方法具体步骤如下：

构建Tire树并将数据导入Tire树中：工作人员构建Tire树，同时将生物基因数据导入Tire树中进行存储。

具体的，计算机对各组生物基因数据的基因序列进行分析，并提取“MSTRG”和“CSS”两组标识，之后创建Trie树根节点，同时该根节点不包含字符，依据分析结果将各组生物基因数据的字符录入除根节点以外的每个节点中，同时每个节点只包含一个字符，当工作人员查询某一组或多组生物基因数据时，从根节点到某一节点，路径上经过的字符连接起来，为该生物基因数据对应的字符串，且每个节点的所有子节点包含的字符都不相同。

对Tire树进行性能优化：将Tire树进行压缩处理，同时生成一组索引表以对Tire树在精准匹配时效率进行性能优化。

具体的，内存模块遍历Trie树各连续分支，并将非根内部节点只有一个子节点进行标记，并将该节点视为冗余，将标记的各组长度为一的连续分支节点压缩为一串字符串，并将其作为该Trie树索引的单一分支节点，同时存储空间从标准Trie树的O(n)降低到压缩后的O(k)，其中，n为Trie树中总字符串长度，k为插入基因的最长长度，同时在内存中构建一张索引表，在进行模糊查询时通过Trie树做索引查询，进行精确查找时查询索引表，且所有基因索引表在内存中只会保存一份，Trie树与索引表最后指向同一块内存地址。

需要进一步说明的是，索引表可替换为缓存表，同时系统在Trie树上进行精准查询时，会将查询结果缓存到缓存表中。

此外，需要进一步说明的是，所有基因索引表在内存中只会保存一份，Trie树与索引表最后指向同一块内存地址，且索引表中可以使用哈希算法减少因为基因序列编号太长的问题。

对基因序列簇进行缓存优化：将生成的各组基因序列簇缓存至内存中，同时通过LRU算法对各组基因序列簇进行选择淘汰。

具体的，首先系统依据Trie树的LRU顺序，通过LRU链表对各组启动链表头部进行进一步链接，收集最少查询的基因序列簇信息，并将该基因序列簇的启动链表安排在LRU链表的首位，并依次进行排序，然后在Trie树启动阶段跟踪访问信息前，内存模块在Trie树启动之前清除所有更新页表项的访问位，若在Trie树启动期间访问了某个基因序列簇，会将该基因序列簇添加到启动链表中，在Trie树启动时间结束之前，内存模块重新检查所有基因序列簇的访问位，若在其它阶段也访问某个基因序列簇，则将该基因序列簇将从启动链表中删除，并移到常规LRU链表中，确定完成后对启动链表中的各组基因序列簇进行数据更新，内存模块再从LRU链表的头部选择最少查询的应用基因序列簇，并将其淘汰，同时缓存中只保存那些高频查询的基因序列簇。

需要进一步说明的是，LRU算法实现底层数据结构使用链表与哈希表，为了优化查询效率，哈希表负责查询，链表负责淘汰元素。

对Tire树查询效率进行对比分析：收集并分析MySQL与Redis查询效率，同时检测Tire树查询效率，并将收集到的三组查询效率进行对比分析。

具体的，工作人员分别给予MySQL、Redis以及Trie树10个线程数，并执行5次接口访问，分别收集50个样本数据，之后分析各组样本数据，在只提供5个及以下的关键字情况下，Trie的吞吐量比MySQL与Redis高，且当给的关键字足够多，能够筛选走一部分数据时，Trie最快能到达3×10⁴/s吞吐量，再将数据装到一台2核2G、公网带宽1Mbps的机器中，同时收集各组样本数据进行分析，依据分析结果，Redis作为内存数据库其性能大于MySQL类别的磁盘数据库，而同样将数据存放在内存中的Trie树，其性能远大于MySQL与Redis。

Claims

1.基于携带缓存Trie树加速生物基因的检索方法，其特征在于，该检索方法具体步骤如下：

2.根据权利要求1所述的基于携带缓存Trie树加速生物基因的检索方法，其特征在于，步骤(1)中所述Tire树构建具体步骤如下：

3.根据权利要求1所述的基于携带缓存Trie树加速生物基因的检索方法，其特征在于，步骤(2)中所述性能优化具体步骤如下：

4.根据权利要求3所述的基于携带缓存Trie树加速生物基因的检索方法，其特征在于，第三步中所述索引表可替换为缓存表，同时系统在Trie树上进行精准查询时，将查询结果缓存到缓存表中。

5.根据权利要求1所述的基于携带缓存Trie树加速生物基因的检索方法，其特征在于，步骤(4)中所述选择淘汰具体步骤如下：

6.根据权利要求1所述的基于携带缓存Trie树加速生物基因的检索方法，其特征在于，步骤(5)中所述对比分析具体步骤如下：