CN107491487A

CN107491487A - 一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质

Info

Publication number: CN107491487A
Application number: CN201710582509.5A
Authority: CN
Inventors: 李斌斌; 王振宇; 丁煜
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2017-12-19
Anticipated expiration: 2037-07-17
Also published as: CN107491487B

Abstract

本发明公开了一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质。本发明的全文数据库架构包括：数据模块，用于记录全文数据库的数据库表名及其索引字段信息；存储模块，包括若干独立的数据块，用于存储数据库表的数据和索引信息；加载模块，用于根据元数据模块中的索引信息将各所述数据库表的数据加载到所述数据块，当一数据块写满时，则将该数据块标记为稳态；索引创建模块，用于对于标记为稳态数据块，生成该数据块的索引；查询模块，用于根据查询语句在所述元数据模块中进行查找，如果找到匹配的索引字段，则查找各数据块的索引，然后根据数据块的索引判断该数据块是否满足查询条件。本发明大大提高了查询速度和数据库吞吐率。

Description

一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质

技术领域

本发明涉及一种全文数据库架构及其位图索引创建方法、数据查询方法、服务器及介质，特别是涉及基于lucene的全文索引系统，采用元数据统一标识，利用位图索引提高数据过滤效率，提高查询速度，提高数据库吞吐率的关键技术，属于大数据检索领域。

背景技术

数据库技术产生于20世纪60年代末70年代初，其主要目的是有效地管理和存取大量的数搜索据资源。数据库技术主要研究如何存储，使用和管理数据。数年来，数据库存储的数据由以GB为基准衡量发展到以TB衡量，不久的将来很多企业要存储的数据就要达到PB级。数据量越来越大，需要更大的数据库做支撑。随着数据量的增长，单纯的数据记录已经不足以支撑企业发展了，企业更需要的是数据分析和决策支持，即单纯看一条记录没有任何意义，而是要把所有数据都进行统计分析。因此如何提高数据库的检索速度成为数据库技术的发展方向之一。

随着网络上信息量急剧增长，获取的信息不仅仅是单纯的结构化信息，更多的是各种形式的文本文档信息，因此，如果不能使庞杂的信息有序化，就很难有效使用信息。如何准确有效地处理文本信息就显得十分迫切和重要。目前全文检索中主要使用倒排索引，传统数据库中使用B-树索引和位图索引。其中，倒排索引和B-树索引在创建时耗费时间长，需占用较大CPU和内存资源，创建后索引庞大，占用较大存储资源，同时降低检索效率；位图索引适用于满足固定范围的字段，当数据范围波动较大时，检索效率降低明显。当前没有统一全文数据库标准，且没有完善的技术实现架构和针对全文的高效索引，因此在对海量文本信息处理时存在较大难度。

文本数据的处理包括数据的表示、存储、组织和对数据的访问方法。数据的表示和组织是为了让用户更容易地访问到需要的信息。其核心技术包括以下几部分：

●全文数据库，基于特定的全文检索引擎构造全文数据库，用于对文本数据进行高效的存储和检索。

●索引，在利用全文检索引擎对文本数据检索前，可以对存储数据建立各种不同索引，利用索引技术可以大大提高信息检索速度

Lucene是一个高效的，基于Java的全文检索引擎工具包，它的全文检索技术是信息检索领域广泛使用的基本技术，具有访问索引时间快，多用户访问，跨平台使用的特点。Lucene的检索算法属于索引检索，即用空间来换取时间，主要适用于文档集的全文检索，以及海量数据库的模糊检索，同时支持单个和多个词汇的查询，短语查询，通配符，结果分级以及排序功能。在建立索引方面，Lucene支持多种分词器对不同的文本进行分词及建立索引；在存储方面，支持多种压缩格式，降低数据的存储成本；在存储方面，Lucene具有多种合并索引策略，通过将多个小文件合并成一个大文件，提高检索效率。

在数据库中，索引是一种可选的数据结构。索引跟表一样需要占用磁盘空间。只不过，在索引里的数据存放形式与表里的数据存放形式不同。通常情况下，索引所占用的磁盘空间要比表要小的多，其主要作用是为了加快对数据的搜索速度，也可以用来保证数据的唯一性。索引通常可以分为：常规B树索引和位图(bitmap)索引。

B-树索引是基于二叉树结构的索引。B-树索引结构有3个基本组成部分：根节点、分支节点和叶子节点。其中根节点位于索引结构的最顶端，而叶子节点位于索引结构的最底端，中间为分支节点。当需要获得一个索引块时，首先从根节点开始，根据所要查找的键值，从而知道其所在的下一层的分支节点，然后访问下一层的分支节点，再次同样根据键值访问再下一层的分支节点，直到访问到最底层的叶子节点。在获得最终物理块的过程中，不能同时读取多个块，因为在没有获取当前块前无法确定下一个要访问的物理块地址。因此，在索引上访问数据块时，会对应到db file sequential read等待事件，其原因在于检索机制是按照顺序从一个索引块跳转到另一个索引块，从而找到最终的索引块。

位图索引是一种使用位图的特殊数据库索引。主要针对大量相同值的列而创建(例如：类别，操作员，部门ID,库房ID等)。索引块的一个索引行中存储键值和起止Rowid,以及这些键值的位置编码,位置编码中的每一位表示键值对应的数据行的有无。一个块可能指向的是几十甚至成百上千行数据的位置。

位图索引的优点主要包括：

●位图索引创建时不需要排序，创建和使用非常快，并且按位存储，占用的空间非常小。

●当根据键值查询时，可以根据起始Rowid和位图状态，快速定位数据。

●当根据键值进行and，or或in(x,y,..)查询时，直接用索引的位图进行或运算，快速得出结果行数据。

●当select count(XX)时，可以直接访问索引就快速得出统计数据。

●位图索引允许键值为空，因此对位图索引列进行is null查询时，可以使用索引。

BloomFilter是一种高效的随机数据结构，在位图的基础上拓展产生的，被用于检测一个元素是否是一个集合中的一个元素，这种检测只会对在集合内的数据错判，而不会对不是集合内的数据进行错判，这样每个检测请求返回有“在集合内(可能错误)”和“不在集合内(绝对不在集合内)”两种情况，即如果它判断元素不在集合里，此元素一定不是集合中的元素，如果判断元素在集合里，有可能存在一定的错误率。BloomFilter采用的是哈希函数的方法，将一个元素映射到一个m长度的阵列上的一个点，当该点值为1时，则元素在集合内，反之则不在集合内。采用单一哈希函数会导致当检测的元素很多时可能产生冲突，因此为了降低冲突率，使用K个哈希函数对应K个点，如果所有点的值都为1，则元素在集合内，如果任何一个点为0，则元素不在集合内。

发明内容

针对现有技术中存在的技术问题，本发明的主要目的在于提供一种全文数据库架构及其位图索引的创建方法、数据查询方法、服务器及介质，本发明在元数据中统一标识，利用索引创建模块管理索引，与业务模块相对独立，实现与与线上业务系统的并行处理，查询时，优化查询计划，充分利用位图索引提高查询效率。

本发明的技术方案为：

一种全文数据库架构，其特征在于，包括元数据模块、加载模块、索引创建模块、查询模块和存储模块；其中，

所述元数据模块，用于记录全文数据库的数据库表名及其索引字段信息；

所述存储模块，包括若干独立的数据块，用于存储数据库表的数据和索引信息；

所述加载模块，用于根据元数据模块中的索引信息将各所述数据库表的数据加载到所述数据块，当一所述数据块写满时，则将该数据块标记为稳态；

所述索引创建模块，用于对于标记为稳态数据块，生成该数据块的BloomFilter索引；

所述查询模块，用于根据查询语句在所述元数据模块中进行查找，如果找到匹配的索引字段，则查找各数据块的BloomFilter索引，然后根据数据块的BloomFilter索引判断该数据块是否满足查询条件。

进一步的，生成该数据块的BloomFilter索引的方法为：首先创建一包含m位的位数组，初始状态时，每一位均置0；设该数据块存储的数据位数据库表a的数据，根据该数据库表a的索引列字段值创建一包含n个元素的集合，该集合中元素为该数据库表a索引字段所有字段值去重后的n个元素；然后用k个相互独立的哈希函数分别将该集合中的每个元素映射到{1,…,m}的范围中，生成BloomFilter索引，即若干位置1的m位数组。

进一步的，所述查询模块根据数据块的BloomFilter索引判断该数据块是否满足查询条件的方法为：对于该查询语句中的值y，所述查询模块应用所述k个哈希函数对该值y进行计算，如果每一哈希结果h_i(y)的位置都为1，1≤i≤k；则认为该值y是该集合中的元素，该数据块满足查询条件。

进一步的，当一数据库表的数据加载完成后，所述索引创建模块根据存储该数据库表的全部数据块的BloomFilter索引，生成该数据库表的BloomFilter索引。

一种全文数据库的位图索引创建方法，其步骤包括：

1)根据创建每一数据库表时指定的索引字段，对全文数据库中的每一数据库表创建一索引；并将所述索引字段存储到元数据模块中；

2)将该全文数据库的存储系统分为若干独立的数据块，根据元数据模块中的索引信息将各所述数据库表的数据加载到所述数据块，当一所述数据块写满时，则将该数据块标记为稳态，并生成该数据块的BloomFilter索引；

3)当一数据库表的数据加载完成后，索引创建模块根据存储该数据库表的全部数据块的BloomFilter索引，生成该数据库表的BloomFilter索引。

一种全文数据库的数据查询方法，其步骤包括：

3)根据查询语句在所述元数据模块中进行查找，如果找到匹配的索引字段，则查找各数据块的BloomFilter索引，然后根据数据块的BloomFilter索引判断该数据块是否满足查询条件。

本发明还提供一种服务器，其特征在于，所述服务器包括存储器和处理器，所述存储器存储计算机程序和所述全文数据库架构，所述程序被配置为由所述处理器执行，所述程序包括用于执行所述位图索引创建方法中各步骤的指令以及所述数据查询方法中各步骤的指令。

一种计算机可读存储介质，其特征在于，存储计算机程序和所述全文数据库架构，所述计算机程序包括指令，所述指令包括所述位图索引创建方法中各步骤的指令以及所述数据查询方法中各步骤的指令。

本发明的内容主要包括以下几个方面。

第一，元数据标识，本发明将待处理的海量全文信息的索引字段统一存储到元数据中，由元数据模块统一管理，后续基于索引字段创建索引。索引基于表粒度，在不同的数据库表中可指定不同的索引字段，即针对全文数据库中的每一数据库表创建一索引。在创建每一数据库表时，指定索引字段，为满足不同查询要求，可同时指定多个索引字段，且可随时根据业务情况修改索引字段，修改索引字段不影响线上业务的正常使用。

第二，BloomFilter(布隆过滤器)索引，本发明基于位图索引，利用哈希函数和位图索引的位数组实现索引功能。BloomFilter索引是一个包含m位的位数组，初始状态时，每一位均置0。根据第一步中数据库表的索引列中所有字段值创建一个包含n个元素的集合(n个元素为索引列中的字段值去重后的n个字段值)，使用k个相互独立的哈希函数，它们分别将集合中的每个元素映射到{1,…,m}的范围中，生成BloomFilter索引，即若干位置1的m位数组。对集合中任意一个元素x，第i个哈希函数映射的位置h_i(x)就会被置为1(1≤i≤k)。如果一个位置多次被置为1，只有第一次会起作用，后面几次不会对位数组产生影响。在判断元素y是否属于这个集合时，本发明对y应用上述的k个哈希函数，如果所有h_i(y)的位置都为1(1≤i≤k)，则认为y是集合中的元素，否则就认为y不是集合中的元素。

第三，数据加载，数据加载包括原始数据入库和索引创建，本发明实现独立索引创建模块，用于创建稳态数据的位图索引。为提高加载速率，在原始海量文本数据入库时，将全文数据库系统的存储系统分为若干独立的数据块(一个数据库表的数据会存储到一个或多个数据块中)，当每个数据块写满之后，认为其达到稳态(不再对该数据块进行修改),采用稳态机制，有利于提高数据加载效率，同时避免创建索引后，数据块被修改导致与索引信息不一致的问题。索引创建模块从元数据中获取需要创建索引的字段，并实时监测全文数据库中是否有达到稳态的数据块，找到后，对其处理以生成BloomFilter索引(即生成第二中的BloomFilter索引)，由同一个数据库表的全部数据块生成的全部索引，组成该数据库表的BloomFilter索引，数据表的索引和各数据块的索引只是逻辑上的包含关系，实际物理存储中，索引以数据块为单位存储在索引文件中。用于第四中的查询过滤。

第四，数据查询，本发明在查询模块中加入BloomFilter索引过滤机制进行查询预处理，优化查询计划，充分利用位图索引提高查询效率。查询时，查询模块判断该查询语句是否可以采用索引过滤，若可以使用索引过滤，则检测该数据块是否已建立BloomFilter索引，若建立索引，则根据索引进行数据过滤。

与现有技术相比，本发明的积极效果为：

在元数据标识方面，在数据加载，索引创建和数据检索时都需要获取各个库表的索引信息(哪些字段创建索引)，因此，为了保证索引信息的快速访问和一致性，将索引信息统一存储到元数据中，保证元数据全局统一，各个功能模块与元数据信息同步更新，同时，如果要修改某库表的索引信息，只需在元数据中修改，系统各模块自动同步刷新元数据中的索引信息。

在位图索引机制方面，在位图索引算法的基础上，扩展BloomFilter索引，降低索引所占存储容量，算法效率更高。

在数据加载方面，将索引创建与数据加载分离，解耦合，保证业务系统的正常进行。索引创建模块包括数据块检索线程和索引创建线程，保证高效的索引创建。

在数据查询方面，在数据查询前，利用位图索引进行查询预处理，降低查询数据量，减少磁盘IO，有效提高查询速度。

附图说明

图1为全文数据库结构图；

图2为BloomFilter索引机制示意图；

(a)为初始化位数组示意图，

(b)为索引创建后位数组示意图，

(c)为查询时位数组示意图；

图3为索引创建流程图；

图4为数据查询示意图。

具体实施方式

为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例子，并配合附图，详细说明如下。

本发明是在全文数据库中实现位图索引的创建和读取，涉及元数据模块，数据加载模块，索引创建模块，查询模块。

图1给出了全文数据库架构图，如图1所示，主要包括以下核心模块：

(1)元数据模块，记录数据库的表、字段、索引等元数据信息。

(2)加载模块，按照库表结构从原始数据中提取信息，并根据缓存和分布设置，将数据存储到全文数据库中。

(3)索引模块，按照指定索引规则和索引机制创建索引。

(4)查询模块，解析查询语句，生成查询计划，利用索引优化查询。

(5)存储模块，负责存储数据库数据和索引数据。

图2给出了BloomFilter索引算法示意图，图3中将利用该算法进行索引创建，如图2所示，主要包括以下核心步骤：

(1)初始时，设置一个m位数组，每一位都为0。

(2)集合S＝{x₁,x₂,…,x_n}含有n个元素，利用3个不同的哈希函数将集合中的每个元素分别映射到数组中的某一位，将该位置1，若某一位置被多次置1，则只有第一次有效。

(3)在执行查询时，给出一个值，查询集合中是否包含该值。对该值应用相同的3个哈希函数，获取该值在数组中对应的位置，如果3个位都为1，那么本发明就认为该值是集合中的元素，否则就认为该值不是集合中的元素。

图3给出了索引创建流程图，如图3所示，主要包括以下核心步骤：

(1)数据块扫描线程从元数据中获取哪些字段需要创建索引

(2)数据块扫描线程扫描数据块，查看是否有达到稳态的文件(使用.ok文件名标识)。

(3)若发现达到稳态的文件，则通知索引创建线程，进行索引创建。

(4)索引创建线程响应通知，读取稳态文件并创建相应BloomFilter索引。

图4给出了数据查询流程图，如图4所示，主要包括以下核心步骤：

(1)查询模块对查询语句进行解析，确认是否语法通过，若语法通过则进行查询，否则返回语法错误。

(2)查询元数据中的索引信息，判断该次查询是否可以利用BloomFilter索引进行过滤。

(3)如果元数据中记录查询语句中查询条件里指定的字段有BloomFilter索引，则可以利用该字段进行索引过滤，则尝试读取每个数据块(即存储模块中将存储系统划分的独立数据块)中的BloomFilter索引，判断该块数据是否满足查询要求。若满足查询要求，则读取该块数据，否则，直接跳过该块。

(4)如果该数据块(即存储模块中将存储系统划分的独立数据块)尚未建立BloomFilter索引或者该次查询无法使用BloomFilter索引，则读取该块数据后，将数据的相应字段值与查询条件相比较，判断该块数据是否满足该次查询要求。

(5)将查询后数据返回。

Claims

1.一种全文数据库架构，其特征在于，包括元数据模块、加载模块、索引创建模块、查询模块和存储模块；其中，

2.如权利要求1所述的全文数据库架构，其特征在于，生成该数据块的BloomFilter索引的方法为：首先创建一包含m位的位数组，初始状态时，每一位均置0；设该数据块存储的数据位数据库表a的数据，根据该数据库表a的索引列字段值创建一包含n个元素的集合，该集合中元素为该数据库表a索引字段所有字段值去重后的n个元素；然后用k个相互独立的哈希函数分别将该集合中的每个元素映射到{1,…,m}的范围中，生成BloomFilter索引，即若干位置1的m位数组。

3.如权利要求2所述的全文数据库架构，其特征在于，所述查询模块根据数据块的BloomFilter索引判断该数据块是否满足查询条件的方法为：对于该查询语句中的值y，所述查询模块应用所述k个哈希函数对该值y进行计算，如果每一哈希结果h_i(y)的位置都为1，1≤i≤k；则认为该值y是该集合中的元素，该数据块满足查询条件。

4.如权利要求1所述的全文数据库架构，其特征在于，当一数据库表的数据加载完成后，所述索引创建模块根据存储该数据库表的全部数据块的BloomFilter索引，生成该数据库表的BloomFilter索引。

5.一种全文数据库的位图索引创建方法，其步骤包括：

6.如权利要求5所述的方法，其特征在于，生成该数据块的BloomFilter索引的方法为：首先创建一包含m位的位数组，初始状态时，每一位均置0；设该数据块存储的数据位数据库表a的数据，根据该数据库表a的索引列字段值创建一包含n个元素的集合，该集合中元素为该数据库表a索引字段所有字段值去重后的n个元素；然后用k个相互独立的哈希函数分别将该集合中的每个元素映射到{1,…,m}的范围中，生成BloomFilter索引，即若干位置1的m位数组。

7.一种全文数据库的数据查询方法，其步骤包括：

8.如权利要求7所述的方法，其特征在于，生成该数据块的BloomFilter索引的方法为：首先创建一包含m位的位数组，初始状态时，每一位均置0；设该数据块存储的数据位数据库表a的数据，根据该数据库表a的索引列字段值创建一包含n个元素的集合，该集合中元素为该数据库表a索引字段所有字段值去重后的n个元素；然后用k个相互独立的哈希函数分别将该集合中的每个元素映射到{1,…,m}的范围中，生成BloomFilter索引，即若干位置1的m位数组。

9.如权利要求8所述的方法，其特征在于，所述查询模块根据数据块的BloomFilter索引判断该数据块是否满足查询条件的方法为：对于该查询语句中的值y，所述查询模块应用所述k个哈希函数对该值y进行计算，如果每一哈希结果h_i(y)的位置都为1，1≤i≤k；则认为该值y是该集合中的元素，该数据块满足查询条件。

10.一种服务器，其特征在于，所述服务器包括存储器和处理器，所述存储器存储计算机程序和如权利要求1～4任一所述的全文数据库架构，所述程序被配置为由所述处理器执行，所述程序包括用于执行权利要求5至9中任一所述方法中各步骤的指令。

11.一种计算机可读存储介质，其特征在于，存储计算机程序和如权利要求1～4任一所述的全文数据库架构，所述计算机程序包括指令，所述指令包括如权利要求5至9中任一方法中的各个步骤。