CN108182209A

CN108182209A - 一种数据索引方法、及设备

Info

Publication number: CN108182209A
Application number: CN201711365161.0A
Authority: CN
Inventors: 何庆; 邓晓东; 许敬伟; 冯运波; 江为强; 安宝宇; 周晓阳; 汤泰鼎; 魏星
Original assignee: China Mobile Group Guangdong Co Ltd; Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: China Mobile Group Guangdong Co Ltd; Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-06-19

Abstract

本发明提供了一种数据索引方法及设备，其中数据索引方法包括：根据多个文件的列值构建索引数据；当接收到检索条件时，确定需要检索的列值；根据确定的列值在索引数据中进行检索，得到包含需要检索的列值的文件。本发明实施例提供的数据索引方法、及设备，通过构建索引数据，在接收到检索条件时，能够快速检索到包含需要检索的列值的文件，支持海量数据索引，同时不影响原始数据的存储结构，可适配多种不同的原始数据格式。

Description

一种数据索引方法、及设备

技术领域

本发明涉及数据存储和管理领域，特别涉及一种数据索引方法、及设备。

背景技术

随着信息化的发展和大数据时代的来临，数据量呈爆炸式增长，为了支撑海量数据环境下数据的快速检索，数据索引的设计成为至关重要的环节。

在海量数据环境下，由于数据量过大，通常只为近期的数据建立索引并进行缓存，从而随着时间的推移，索引结构会有大量的增加和删除操作；另一方面，由于数据量过大，索引结构的设计需要尽量提高内存利用率。传统关系型数据中，通常采用B+Tree等结构来实现数据的索引结构，但该方式存在内存占用量较高、索引删除性能低等问题，不适用于海量数据环境下的索引管理。

在大数据技术背景下，数据存储和管理系统通常将外部数据源以文件方式进行存储和管理。一般情况下，存储系统将若干条记录(通常在100W级别以上)组织存储，形成一个文件，存储到如EXT4、HDFS等文件系统中。在系统总数据量达到千亿级别情况下，会产生数万甚至几十万个文件。在没有建立索引时，系统只能逐个扫描文件，以查找符合检索条件的数据，因此性能极低。

在现有技术方案中，1)索引一般与原始数据交叉共存，不适用与大数据环境下的scheme-on-read机制；2)索引通常指向每条记录的具体位置，粒度过细，难以支撑海量数据索引，同时难以支撑高效的批量删除机制。

发明内容

为了支撑海量数量索引，更快的检索到符合检索条件的文件，本发明提供了一种数据索引方法、及设备。

本发明提供的数据索引方法，包括：

根据多个文件的列值构建索引数据；

当接收到检索条件时，确定需要检索的列值；

根据确定的列值在所述索引数据中进行检索，得到包含所述需要检索的列值的文件。

可选的，在本发明所述的数据索引方法中，所述根据多个文件的列值构建索引数据，包括：

获取多个文件的原始数据，并分别对每个文件的原始数据进行解析得到该文件的列值；

对多个文件的列值进行合并、剔除重复列值、及排序得到列值有序表；

以所述文件的数量为行的数量，以所述列值有序表中列值的数量为列的数量，构建矩阵；

分别根据每个文件中的列值，在所述矩阵中填入相应的数据，表示每个文件是否包含所述列值有序表中的列值。

可选的，在本发明所述的数据索引方法中，当需要检索的列值为多个，且多个列值之间存在交集或/和并集关系时，根据确定的列值在所述索引数据中进行检索，得到包含所述需要检索的列值的文件，包括：

分别根据确定的每个列值在所述索引数据中进行检索，得到与每个列值对应的文件的位图信息；

将若干个与列值对应的文件的位图信息按照列值之间的关系进行交集或/和并集计算，得到符合检索条件的位图信息；

将所述符合检索条件的位图信息转换为包含所述需要检索的列值的文件。

可选的，在本发明所述的数据索引方法中，根据确定的列值在所述索引数据中进行检索，包括：

根据确定的列值利用预设的查询方法在所述索引数据中进行检索。

可选的，在本发明所述的数据索引方法中，所述预设的查询方法包括以下中一项或两项：二分法、跳表法。

可选的，在本发明所述的数据索引方法中，还包括：将所述的矩阵中的行数据置零，以删除所述行数据对应的文件的所有索引数据；或/和将所述的矩阵中的列数据置零，以删除所述列数据对应的列值的所有索引数据。

可选的，在本发明所述的数据索引方法中，在根据多个文件的列值构建索引数据之后，还包括：对所述索引数据利用预设的压缩算法进行压缩。

可选的，在本发明所述的数据索引方法中，在根据多个文件的列值构建索引数据之后，还包括：将所述索引数据进行保存。

本发明还提供了一种数据索引设备，所述数据索引设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的数据索引方法的步骤。

本发明的有益效果如下：

本发明实施例提供的数据索引方法、及设备，通过构建索引数据，在接收到检索条件时，能够快速检索到包含需要检索的列值的文件，支持海量数据索引，同时不影响原始数据的存储结构，可适配多种不同的原始数据格式。

附图说明

图1为本发明第一方法实施例中数据索引方法的流程示意图；

图2为本发明第二方法实施例中构建索引数据的示意图；

图3为本发明数据索引系统的结构示意图；

图4为本发明实例1中数据索引方法的流程示意图；

图5为本发明实例2中索引数据构建方法的流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中海量环境下索引管理中存在的内存占用量高、索引删除性能低的问题，本发明提供了一种数据索引方法、及设备。以下结合附图对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

根据本发明的第一方法实施例，提供了一种数据索引方法，图1为本发明第一方法实施例中数据索引方法的流程示意图，如图1所示，本发明第一方法实施例的数据索引方法，包括以下步骤：

S101：根据多个文件的列值构建索引数据。

可选的，在本发明第一方法实施例所述的数据索引方法中，在根据多个文件的列值构建索引数据之后，还包括：对所述索引数据进行保存。

S102：当接收到检索条件时，确定需要检索的列值。

S103：根据确定的列值在所述索引数据中进行检索，得到包含所述需要检索的列值的文件。

可选的，在本发明所述的数据索引方法中，根据确定的列值在所述索引数据中进行检索，包括：根据确定的列值利用预设的查询方法在所述索引数据中进行检索。所述预设的查询方法包括以下中一项或两项：二分法、跳表法，利用二分法或跳表法均能够实现高效检索。

本发明第一方法实施例提供的数据索引方法，在接收到检索条件时，能够快速检索到包含需要检索的列值的文件，支持海量数据索引，同时不影响原始数据的存储结构，可适配多种不同的原始数据格式。

根据本发明的第二方法实施例，提供了一种数据索引方法。本发明第二方法实施例与第一方法实施例的不同之处在于，在本发明第二方法实施例的数据索引方法中，给出了根据多个文件的列值构建索引数据的操作方式。

具体的，所述根据多个文件的列值构建索引数据，包括以下步骤：

图2为本发明第二方法实施例中构建索引数据的示意图，在图2中文件标识即为矩阵。例如，系统中原始数据分为m个文件进行存储，对于文件i，其j个KEY值形成一个列值有序表值对，形如<KEY_i,1,KEY_i,2,…KEY_i,j>->File_i。在索引创建过程中，系统设置每x个文件合并生成一个索引，x个文件合并后生成KEY值个数为k个(k≥j)，则系统形成索引m/x取顶个，每个索引形如<KEY₁,KEY₂,…,KEY_k-1,KEY_k>->Bitset[k][x]。

其中Bitset[i][j]表示第i个文件中是否包含KEY_j。其中<KEY₁,KEY₂,…,KEY_k-1,KEY_k>可以为一个有序数组或跳表结构，从而支持高效的检索操作。Bitset[k][x]可以通过稀疏矩阵压缩等压缩算法，进一步降低内存占用量。

在本发明第二方法实施例中，如图2所示，在合并前，每个文件对应的列值形成一个单独的列值有序表；在合并过程中，多个列值有序表进行归并排序，形成一个大的列值有序表，列值有序表中的每个列值对应矩阵中的一列，每个位i代表文件i中是否包含该列值，例如TRUE表示包含，否则，表示不包含。合并后，列值(key值)为一个大的列值有序表，文件标识(矩阵)为一个二维位图v[][]，其中v[i][j]表示第i个文件中是否存在值为第j个key的数据，若TRUE，表示包含，否则，表示不包含。

在内存占用方面，合并后的索引，一方面将多个文件中重复出现的列值(key值)进行合并，减少列值的数据量，另外，使用一个位来表示文件和key值的包含关系，从两个方面减少内存的占用量。

可选的，在本发明第二方法实施例所述的数据索引方法中，在根据多个文件的列值构建索引数据之后，还包括：对所述索引数据利用预设的压缩算法进行压缩。

本发明第二方法实施例提供的数据索引方法，通过构建索引数据，在接收到检索条件时，能够快速检索到包含需要检索的列值的文件，同时在构建索引数据时，形成的是列值到文件的映射，并通过列值的有序组织，能够支持精确检索、范围检索和前缀检索，而且利用矩阵压缩索引，可以减少对系统内存资源的占用。

根据本发明的第三方法实施例，提供了一种数据索引方法。本发明第三方法实施例在第一方法实施例的基础上还包括以下步骤：

将所述的矩阵中的行数据置零，以删除所述行数据对应的文件的所有索引数据；

或/和将所述的矩阵中的列数据置零，以删除所述列数据对应的列值的所有索引数据。

例如将二维位图v[][]中的行数据置零，即当v[0][1…n]时，高效的删除文件i对应的索引数据；将二维位图v[][]中的列数据置零，即当v[1…n][0]时，高效的删除列值j对应的索引数据；当二维位图v[][]全部置为0时，删除整个索引并释放内存和磁盘空间。另外，系统同时通过控制合并文件的个数，若干个文件合并生成一个独立索引，系统中同时存在多个这样的索引，从而以粗粒度进行索引的删除。综合上述方法，提高文件粒度索引删除性能。

本发明第三方法实施例提供的数据索引方法，能提高索引数据删除的效率，适用于海量数据环境下的索引管理。

根据本发明的方法实施例，本发明实施例还提供了一种数据索引设备，所述数据索引设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下步骤：

步骤11：根据多个文件的列值构建索引数据。

可选的，所述根据多个文件的列值构建索引数据，包括：

可选的，所述计算机程序被所述处理器执行时还实现如下步骤，在根据多个文件的列值构建索引数据之后，对所述索引数据利用预设的压缩算法进行压缩。

可选的，所述计算机程序被所述处理器执行时还实现如下步骤，在根据多个文件的列值构建索引数据之后，还包括：对所述索引数据进行保存。

步骤12：当接收到检索条件时，确定需要检索的列值。

步骤13：根据确定的列值在所述索引数据中进行检索，得到包含所述需要检索的列值的文件。

可选的，当需要检索的列值为多个，且多个列值之间存在交集或/和并集关系时，根据确定的列值在所述索引数据中进行检索，得到包含所述需要检索的列值的文件，包括：

可选的，根据确定的列值在所述索引数据中进行检索，包括：

可选的，所述计算机程序被所述处理器执行时还实现如下步骤：将所述的矩阵中的行数据置零，以删除所述行数据对应的文件的所有索引数据；或/和将所述的矩阵中的列数据置零，以删除所述列数据对应的列值的所有索引数据。

本发明还提供了一种数据索引系统(属于数据索引设备的一部分)，图3为本发明数据索引系统的结构示意图，如图3所示，包括原始数据存储模块30、索引构建模块32、索引存储模块34、索引检索模块36。

索引构建模块32读取原始数据存储模块30中的原始数据，进行解析，并创建索引；索引构建模块32将创建的索引输入到索引存储模块34，存储新创建的索引数据，并根据内存设置，删除旧数据；索引检索模块36根据外部系统的检索请求，读取索引存储模块34的索引数据，进行检索，并返回对应的文件列表。

即，所述索引构建模块32，用于读取原始数据存储模块30中的原始数据，进行解析，并根据多个文件的列值构建索引数据；

所述索引存储模块34，用于存储索引构建模块32构建的索引数据；

所述索引检索模块36，用于当接收到检索条件时，确定需要检索的列值，根据确定的列值在所述索引数据中进行检索，得到包含所述需要检索的列值的文件。

为了更加详细的说明本发明的数据索引方法，给出实例1。图4为本发明实例1中数据索引方法的流程示意图，如图4所示，包括以下步骤：

步骤401：根据多个文件的列值构建索引数据；

步骤402：获取外部系统输入的检索条件；

步骤403：解析检索条件，确定需要检索的多个列值；

步骤404：每个列值独立进行检索，返回对应的文件列表位图信息，每个列值检索为列值有序表的查找操作，可使用二分法或通过跳表等技术实现高效的数据检索；

步骤405：多个返回的文件列表位图信息根据检索条件的交并关系进行交集或并集运算；

步骤406：将位图信息转换为其对应的文件列表，并返回。

为了更加详细的说明本发明实施例中索引数据的构建方法，给出实例2。图5为本发明实例2中索引数据构建方法的流程示意图，如图5所示，包括以下步骤：

步骤501：接收业务系统原始数据，解析原始数据，读取所需创建索引的列对应的值；

步骤502：将该文件中的值进行排序，形成列值有序表，形如<K1,K2,…KN>->FileName；

步骤503：将上述列值有序表中的列值批量添加并合并到索引中；

步骤504：判断缓存索引量是否达到内存上限，如果是，转步骤505执行，否则，转步骤506执行；

步骤505：将旧数据对应的索引剔除，释放对应的内存空间；

步骤506：存储新生成的索引数据。

本发明提供的数据索引方法及设备可应用于原始数据为文件存储格式条件下，包括但不限于HDFS、EXT3、EXT4，主要应用于大数据环境下的稀疏索引组织，能够适配大数据Scheme-on-read的机制，不影响原始数据的存储结，支持精确检索、范围检索、前缀检索，同时支持高效的批量删除机制。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种数据索引方法，其特征在于，包括：

根据多个文件的列值构建索引数据；

当接收到检索条件时，确定需要检索的列值；

2.如权利要求1所述的数据索引方法，其特征在于，所述根据多个文件的列值构建索引数据，包括：

3.如权利要求1所述的数据索引方法，其特征在于，当需要检索的列值为多个，且多个列值之间存在交集或/和并集关系时，根据确定的列值在所述索引数据中进行检索，得到包含所述需要检索的列值的文件，包括：

4.如权利要求1所述的数据索引方法，其特征在于，根据确定的列值在所述索引数据中进行检索，包括：

5.如权利要求4所述的数据索引方法，其特征在于，所述预设的查询方法包括以下中一项或两项：二分法、跳表法。

6.如权利要求1所述的数据索引方法，其特征在于，还包括：

7.如权利要求1所述的数据索引方法，其特征在于，在根据多个文件的列值构建索引数据之后，还包括：对所述索引数据利用预设的压缩算法进行压缩。

8.如权利要求1所述的数据索引方法，其特征在于，在根据多个文件的列值构建索引数据之后，还包括：将所述索引数据进行保存。

9.一种数据索引设备，其特征在于，所述数据索引设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8任一项所述的数据索引方法的步骤。