CN109241098B

CN109241098B - 一种分布式数据库的查询优化方法

Info

Publication number: CN109241098B
Application number: CN201810896484.0A
Authority: CN
Inventors: 鹿林; 王伟; 王东
Original assignee: NANJING SINOVATIO TECHNOLOGY CO LTD
Current assignee: NANJING SINOVATIO TECHNOLOGY CO LTD
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2022-02-18
Anticipated expiration: 2038-08-08
Also published as: CN109241098A

Abstract

本发明公开了一种分布式数据库的查询优化方法，在遍历所有海量文件之前先校验该文件对应的索引文件，以此判断对应的原始海量文件中是否包含所要查询的目标，从而避免了很多不必要的搜索海量文件操作，大幅度提升检索性能。

Description

一种分布式数据库的查询优化方法

技术领域

本发明涉及一种计算机集群的数据处理及应用方法，尤其涉及一种分布式数据库的查询优化方法。

背景技术

Hadoop生态系统包括HDFS、分布式编程模型MapReduce、HBase、Hive等；目前几乎成为大数据处理工具的标准。

HDFS是Hadoop生态系统下核心项目之一，基于流数据处理模式和处理大文件的需求开发，对硬件要求低，容错好，可靠性高。Hadoop2.0之前，HDFS集群通常包括一个NameNode和多个DataNode。NameNode管理命名空间，维护整个文件系统的目录树以及文件的索引目录。DataNode用来执行具体的任务，存储和查询获取文件等；它通过心跳定时向NameNode发送所存储的文件块信息。

此框架支持下，HDFS可以存储大批海量数据，并按需要获取或遍历系统中所有文件，从而解决大数据的存储问题。

Impala是CDH(Cloudera Distribution Hadoop)的一个组件，是一个对大量数据并行处理的查询引擎。Impala的每个节点上都运行一个守护进程，用户通过Impala-Shell、JDBC等接口发送查询命令，由Impala规划器接收和分析查询命令，并与HDFS通信，获取所需要查询文件的具体数据存储位置；并将查询分割成若干个子查询由协调器分发到各个节点执行。各Impala执行器读取HDFS在本地的数据并执行查询后，将结果汇总到Impala协调器，Impala协调器向用户返回最终结果。

以上过程不难看出，在数据量很大而集群规模有限的情况下，每个节点的任务负载十分沉重，各节点执行器遍历本地HDFS数据时将十分耗时；而当前时代下，往往每台机器的存储约能达到20～30T，如果需要在海量文件中模糊查询出指定的某个词以及其上下文关系，单进程遍历本地所有文件所消耗的时间不可预期。

发明内容

为解决现有技术中存在的问题，本发明设计并实现了一种以构造索引的形式在分布式文件系统框架下的文件过滤算法；能够在数据存储阶段为每个文件生成一份15M以内的索引文件，查找遍历原始文件前，提前检查索引文件；即可判断该文件是否包含(必然包含、可能包含、必然不包含三种结果)所要模糊查找的字串，从而避免了扫描大量不必要的原始文件。可优化海量大文本文件的检索和查询，大幅缩短查询时间。

本发明公开了一种分布式数据库的查询优化方法，在数据存储阶段为每个文件生成一份索引文件，查找遍历原始文件前，提前检查索引文件；即可判断该文件是否包含所要模糊查找的字串，结果包括必然包含、可能包含、必然不包含。

索引文件的生成包括以下步骤：

步骤1：申请内存；

步骤2：按行录入原始文件；

步骤3：对原始文件每行需索引的字段分词，每三个字符作为一个词，并对此词取第一个字作为词1，取前两个字作为词2，取最后一个字作为词3，取后两个字作为词4，并取该词和它的词3、词4作为下个词的前置词；

步骤4：计算每个词的hash值，并做如下操作标记hash值在文件中出现过：

MemArry[hash*LINEBYTE]＝MemArry[hash*LINEBYTE]|0x80；

步骤5：检验当前状态是否有前置词；若有前置词，取词1、词2和本词三组hash值做如下操作以标注该前置词的后置词包含此三组hash值：

MemArry[prehash*LINEBYTE+(v+1)/8]＝MemArry[prehash*LINEBYTE+(v+1)/8]|(0x80>>((v1+1)％8))；

其中，MemArry为索引内存段，prehash为前置词Hash值，LINEBYTE为单行BYTE大小，v为当前hash值；

若没有前置词或上述操作结束后，获取步骤3中下一个词并回到步骤4；

步骤6：直到原始文件处理完毕，将内存刷新到磁盘生成索引。

步骤4还包括计算每个词的hash值并对4993取余以减少存储消耗。

采用不同的hash算法计算各词的hash值，减少相同词的相同hash值覆盖。

索引文件读取包括以下步骤：

a.切分需要检索的词并计算其hash值，得到三组hash值数据，每组两个hash值队列分别是两种不同的hash算法；

b.循环加载索引文件到内存中，生成内存段MemArry；

c.对当前加载的索引文件，遍历检索词的每组的两个hash值队列；

d.判断本索引是否包含当前hash值：

(MemArry[(*itvalues)*LINEBYTE]&0x80)

若返回false则表示不成立；

e.如果当前状态没有前置词hash，则将本词置为前置词hash，否则做如下计算以判断前置词与本词的序列组合是否出现在文中：

MemArry[prehash*LINEBYTE+(v+1)/8]&(0x80>>((v+1)％8))；

其中，MemArry为索引内存段，prehash为前置词hash值，LINEBYTE为单行字节大小，v为当前hash值；

若判断返回true，则将此v设置为前置hash值并继续判断下个hash值；

f.循环三组hash队列后，如果有一组不包含返回false的判断，表示生成此索引的文件有可能包含该检索词。

有益效果：本发明与现有技术相比，采用本发明的优化方法能够避免了扫描大量不必要的原始文件，优化海量大文本文件的检索和查询，大幅缩短查询时间。

附图说明

图1：索引写入流程图；

图2：索引文件结构；

图3：索引读取流程图。

具体实施方式

下面结合附图进一步阐述本发明。

本发明以构造索引的形式对在分布式文件系统框架下的文件进行过滤，在数据存储阶段为每个文件生成一份15M以内的索引文件，查找遍历原始文件前，提前检查索引文件；即可判断该文件是否包含(必然包含、可能包含、必然不包含三种结果)所要模糊查找的字串，从而避免了扫描大量不必要的原始文件。

索引文件生成流程如图1：

步骤1：申请一块9801594B大小的内存，索引大小按需求决定，索引越大匹配率约精准，本发明以9M索引为例；

步骤2：对原始文件每行需索引的字段分词，每三个字符作为一个词，并对此词取第一个字(词1)、前两个字(词2)、最后一个字(词3)、后两个字(词4)，作为四个子词；并取这个词和它的词3、词4作为下个词的前置词，切词示例如下；

写入索引时，ABCDEFGHIJK切词为ABC(含AB、BC、A、C)、DEF(含DE、EF、D、F)、GHI(含GH、HI、G、I)、JK(含J、K)；

读取索引时，ABCDEFGHIJK切分为三组，切词结果如下：

1、ABC、DEF、GHI、JK；

2、A、BCD、EFG、HIJ、K；

3、AB、CDE、FGH、IJK；

步骤3：计算每个词的hash值并对4993取余以减少存储消耗，并做如下操作标记hash值在文件中出现过：

MemArry[hash*LINEBYTE]＝MemArry[hash*LINEBYTE]|0x80

其中，MemArry为索引内存段，hash为该词的hash值，LINEBYTE为每一行的BYTE大小，同理，利用另外一种hash算法重新计算一次各个词的hash值以确保其分布离散的同时减少相同词的相同hash值覆盖；索引文件结构示意图详见下图2，每行第一个bit位表示该hash在此文件中是否存在；在每行的后续占位中，每一个bit表示该行hash值的后续词包含对应位置的hash值。

步骤4：检验当前状态是否有前置词，如果前置词存在，则取词1、词2和本词三组hash值做如下操作以标注该前置词的后置词包含此三组hash值：

其中，MemArry为索引内存段，prehash为前置词hash值，LINEBYTE为单行BYTE大小，v为当前hash值。如果当前状态有多个前置词hash，则需要对每个前置词做此操作。

上述操作结束或前置词不存在时，获取步骤2中下一个词并回到步骤3；

步骤5：直到文件处理完毕，将内存刷新到磁盘生成索引。

索引文件读取流程如图3：

1、按照固定切词方法，切分需要检索的词并计算其hash值，得到三组hash值数据，每组两个hash值队列分别是两种不同的hash算法；

2、循环加载索引文件到内存中，生成9801594B大小的内存段MemArry；

3、对当前加载的索引文件，遍历检索词的每组的两个hash值队列；

4、判断本索引是否包含当前hash值：

(MemArry[(*itvalues)*LINEBYTE]&0x80)

若返回false则表示不成立；

5、如果当前状态没有前置词hash，则将本词置为前置词hash，否则做如下操作以判断前置词与本词的序列组合是否出现在文中：

MemArry[prehash*LINEBYTE+(v+1)/8]&(0x80>>((v+1)％8))；

6、循环三组hash队列后，如果有一组(两个hash队列)不包含返回false的判断，表示生成此索引的文件有可能包含该检索词。

此处，列举100个文本文件，每个文件100w行数据、每行数据的索引字段平均长度为20做对比测试，在只有一个文件包含关键词的情况下：

长度为6的关键词误命中约为20～25个，即可将查询时间降低为原有时间的20％～25％；

长度为8的关键词误命中约为5～8个，即可将查询时间降低为原有时间的5％～8％；

长度为10的关键词误命中个数<2，即几乎不会产生不必要扫描。

Claims

1.一种分布式数据库的查询优化方法，其特征在于：在数据存储阶段为每个文件生成一份索引文件，查找遍历原始文件前，提前检查索引文件，判断该文件是否包含所要模糊查找的字串，结果包括必然包含、可能包含、必然不包含；

其中，所述索引文件的生成包括以下步骤：

步骤1：申请内存；

步骤2：按行录入原始文件；

步骤4：采用多种hash算法计算每个词的hash值，并做如下操作标记hash值在文件中出现过：

MemArry[hash*LINEBYTE]＝MemArry[hash*LINEBYTE]|0x80；

其中，MemArry为索引内存段，hash为词的hash值，LINEBYTE为每一行的BYTE大小；

步骤6：直到原始文件处理完毕，将内存刷新到磁盘生成索引；

所述的提前检查索引文件，判断该文件是否包含所要模糊查找的字串，结果包括必然包含、可能包含、必然不包含，包括以下步骤：

b.循环加载索引文件到内存中，生成内存段MemArry；

d.判断本索引是否包含当前hash值：

(MemArry[(*itvalues)*LINEBYTE]&0x80)

若返回false则表示不成立；

MemArry[prehash*LINEBYTE+(v+1)/8]&(0x80>>((v+1)％8))；

2.根据权利要求1所述的一种分布式数据库的查询优化方法，其特征在于：步骤4还包括计算每个词的hash值并对4993取余以减少存储消耗。