CN103198150A

CN103198150A - 一种大数据索引方法及系统

Info

Publication number: CN103198150A
Application number: CN2013101460760A
Authority: CN
Inventors: 张勇; 王津; 高旸; 邢春晓
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-04-24
Filing date: 2013-04-24
Publication date: 2013-07-10
Anticipated expiration: 2033-04-24
Also published as: CN103198150B

Abstract

本发明公开了一种大数据索引方法及系统，涉及数据库索引技术领域。所述方法包括：将与数据中心服务器单元相连的所有终端设备产生的数据送入NoSQL数据库单元；建立pLSM索引引擎单元；用户执行索引操作。所述系统包括：数据中心服务器单元，用于接收与其连接的所有终端设备产生的数据并将接收到的数据送入NoSQL数据库单元；NoSQL数据库单元，用于存储数据中心服务器单元传来的数据；pLSM索引引擎单元，以COLA为外存组件，以Skip List为内存组件，并在内存中添加Delete Filter模块以支持外存组件上的删除操作。

Description

一种大数据索引方法及系统

技术领域

本发明涉及大数据背景下数据库索引技术领域，尤其涉及一种大数据索引方法及系统。

背景技术

在信息化的过程中，个人和企业的数据量都在迅速增长。由于社交网络，电子商务和物联网技术的兴起，各种移动终端，传感器和传统设备时刻在产生着各种非结构化数据。2011年麦肯锡公司全球研究所发表研究报告指出，目前数据已渗透到各行业和业务职能领域，逐渐成为人类社会中重要的生产要素。截止2011年底，全球的数据总量达到1.9ZB（1ZB=1×10¹²GB），到2015年将达到8ZB，到2020年将达到大约35ZB。面对数量巨大并且增长迅猛的数据，高效的管理和分析数据已经成为当前信息管理最关注的问题之一。针对这一问题，人们提出了“大数据”的概念。与传统的海量数据不同，大数据除了有巨大的数据规模外，还有着复杂的数据类型和数据关联度。IBM将大数据的特点概括为：海量化（Volume）,快速化（Velocity）以及多样化（Variety）。因此，传统的方法和技术已不适用于大数据的管理和分析。

支持时间连续性的大数据存储是一个非常复杂的问题。为实现对数据的实时分析，必须实现数据的高效插入，并对查询请求做出实时响应。为达到上述目的，需要对持续到来的数据流建立动态索引。在经过实时分析后，暂存的数据需要被迁移到数据仓库进行进一步的数据分析。因此，所建立的索引还需要支持高效率的批量删除操作。LSM-Tree是一种支持数据库写优化的高效索引框架，在当前主流的NoSQL数据库系统中得到了广泛应用。为实现上述目的，本发明提出了一种大数据索引方法及系统。

发明内容

（一）技术问题

大数据在经过实时分析后，暂存的数据需要被迁移到数据仓库进行进一步的数据分析，而根据现有技术建立的索引不支持高效率的批量删除操作，降低了数据的插入以及查询效率，本发明提供一种大数据索引方法及系统以实现数据的批量删除操作，提高大数据的插入及查询效率。

（二）技术方案

为解决上述技术问题，本发明提供了一种大数据索引方法，包括以下步骤：

S1、将与数据中心服务器单元相连的所有终端设备产生的数据送入NoSQL数据库单元；

S2、基于LSM-Tree搜索引擎单元的框架，以Skip List为内存组件，以COLA为外存组件，并在内存中添加Delete Filter模块1和DeleteFilter模块2用于支持外存组件上的删除操作，建立pLSM索引引擎单元；

S3、用户执行索引操作，包括插入操作、查询操作、删除操作和更新操作。

所述外存组件包括第一外存组件第二外存组件。

所述Delete Filter模块包括：Delete Filter模块1，结合pLSM索引引擎单元内存中的Bloom Filter模块1用于支持发生在第一外存组件上的删除操作；Delete Filter模块2，结合pLSM索引引擎单元内存中的Bloom Filter模块2用于支持发生在第二外存组件上的删除操作。

所述查询操作包括：

步骤a：在pLSM索引引擎单元内存的内存组件中进行查询，若所查询内容在内存组件中，则返回查询结果；否则进入步骤b；

步骤b：判断所查询内容是否满足既映射在第一外存组件对应的Bloom Filter模块1中且没有映射在第一外存组件对应的Delete Filter模块1中，则在第一外存组件中按照COLA模块的查询算法进行查询并返回查询结果，否则查询第二外存组件；

步骤c：若所查询内容映射在第二外存组件对应的Bloom Filter模块2中且没有映射在第二外存组件对应的Delete Filter模块2中，则在第二外存组件中按照COLA的查询算法进行查询并返回结果，否则查询失败。

所述删除操作包括：

确定所要删除的记录所处的组件，若该记录位于内存组件中，则直接删除；若位于外存组件中，则首先在Delete Filter模块中标记该记录，然后在外存组件的COLA模块中将该记录标记为逻辑上已删除；检查该所涉及外存组件的空置率，若空置率超过给定阈值，则启动碎片整理操作。

所述碎片整理操作的步骤包括：

步骤a、根据外存组件中剩余的记录求出所要插入的最大层次；

步骤b、从第一层开始，把所有非空记录插入到该最大层次的空闲位置，直到最大层次填满为止；

步骤c、取出所述外存组件中剩余所有记录放入缓冲区，清空该外存组件中除上述最大层次之外的所有层次；

步骤d、把缓冲区中所有记录重新批量插入所述外存组件中。

本发明还提供了一种大数据索引系统，包括：数据中心服务器单元，接收与其连接的所有终端设备产生的数据并将接收到的数据输入NoSQL数据库单元；NoSQL数据库单元，用于存储数据中心服务器单元传来的数据；pLSM索引引擎单元，以COLA为外存组件，以Skip List为内存组件，并在内存中添加Delete Filter模块建立的索引引擎单元，所述Delete Filter模块包括Delete Filter模块1和Delete Filter模块2，分别结合内存中的Bloom Filter模块1和Bloom Filter模块2用于支持发生在外存组件上的删除操作。

所述Delete Filter模块结合所述pLSM索引引擎单元内存组件中的Bloom Filter模块支持在发生在外存组件上的删除操作，并在删除操作完成后检查该外存组件的空置率，若空置率超过给定阈值，则启动碎片整理操作，进行碎片整理。

（三）有益效果

本发明通过提供一种大数据索引方法及系统，为持续到达数据中心服务器的数据流建立动态索引，利用LSM-Tree思想和COLA数据结构达到写优化的目的，实现数据的及时存储，同时支持对数据的实时查询。该方法还支持批量删除数据，提出了一种两阶段的数据删除方法以及高效的碎片整理算法，从而实现高效的数据迁移和空间利用，提高处理大数据的效率。

附图说明

图1是本发明提出的大数据处理方法的流程图；

图2是本发明提出的pLSM索引引擎单元支持的插入操作流程图；

图3是本发明提出的pLSM索引引擎单元支持的查询操作流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提出了一种大数据索引系统，该系统包括：数据中心服务器单元，接收与其连接的所有终端设备产生的数据并将接收到的数据输入NoSQL数据库单元；NoSQL数据库单元，用于存储数据中心服务器单元传来的数据；pLSM索引引擎单元，以COLA为外存组件，以Skip List为内存组件，并在内存中添加Delete Filter模块建立的索引引擎单元，所述Delete Filter模块包括Delete Filter模块1和Delete Filter模块2，分别结合内存中的Bloom Filter模块1和Bloom Filter模块2用于支持发生在外存组件上的删除操作。

NoSQL数据库系统单元是部署于数据中心服务器单元上，对持续的大数据流进行管理的数据库系统，它既包括初级的Key-Value存储，也包括Key-Document存储、图存储等非结构化数据的存储方式。

pLSM索引引擎单元是基于LSM-Tree的索引引擎的结构建立的，包括：内存组件C0、第一外存组件C1、第二外存组件C2，并在内存中添加Delete Filter模块1和Delete Filter模块2。

C0位于内存中，采用Skip List模块实现，该组件用于对写操作的缓存，把随机写转化为顺序写。当C0达到缓存的上限值的时候，将清空其中所有内容，集中写入外存。

C1和C2位于外存中，采用COLA模块实现。该数据结构可充分利用磁盘盘块的容量大小，避免出现磁盘的随机寻道操作，从而优化了读取性能。C0、C1、C2的容量按一定的比例依次增大，当C1的容量达到上限值时，将采取滚动合并的方式将数据迁移到C2中，提高了磁盘的利用效率。

本发明在内存中设置Bloom Filter对外存组件C1和C2进行保护，从而能在常数时间内判断所给记录是否存在于组件中，提高了查询性能。为支持外存组件上的删除操作，本发明提出了一种新的模块—Delete Filter，该结构置于内存中，用于标记外存组件上被删除的记录，从而解决了原始LSM-Tree索引引擎单元不支持外存组件上的删除操作的问题。

实施例1：pLSM索引引擎单元在无线传感器网络中的应用

物联网中存在数量众多、类型众多的传感器。物联网的一个具体应用场景是在海底深水探测工程中。在一定的海洋区域内分布大量传感器，以实时的收集海水的流速、温度、盐度等各种信息。不同的信息被组织成各种结构化和非结构化的数据，每个传感器都定时将采集的数据经过网关送到数据中心服务器单元。数据中心服务器单元的数据库管理系统通过建立pLSM索引，来实现对数据流的动态插入和实时分析。

在本实施例中，数据流采用key-value pair方式进行存储。数据的key值为由数据库管理系统统一分配的UID，value为由无线传感器网络搜集的各种结构化与非结构化数据。在一条数据到达数据中心服务器单元时，首先将其插入内存组件C0。若C0达到容量上限，首先判定C1的剩余空间是否足够容纳C0的所有数据，若可以容纳，则将C0清空，所有数据批量插入C1；否则，先将C1的数据全部滚动归并到C2中，再对C1执行批量插入操作。

Delete Filter模块联合Bloom Filter模块使用，能够支持外存组件上的删除操作。例如对应于外存组件C1的Bloom Filter模块1中key值为{1,2,3,5,7,8}的记录对应的值为true，Delete Filter模块1中key值为{2,4,5}的记录对应的值为true。当查询key值为3的记录时，首先在Delete Filter模块1中进行查询，结果为false，然后在Bloom Filter模块1中进行查询，结果为true，因此key值为3的记录在该组件中存在；当查询key为4的记录时，首先在Delete Filter模块1中进行查询，结果为true，表示该记录已经被删除，因此在该组件中不存在；当查询key为4的记录时，首先在Delete Filter模块1中进行查询，结果为true，即使在Bloom Filter模块1中查询的结果仍然为true，该记录在组件中也不存在。

插入操作：所有数据的插入操作都是在内存中进行的，当内存组件C0达到容量上限的时候，将进行批量写出操作，把C0中的所有内容迁移到外存组件C1中。当C1达到容量上限的时候，将进行滚动归并操作，把C1中的所有内容迁移到外存组件C2中。

查询操作：

步骤a：在pLSM索引引擎单元内存的内存组件C0中进行查询，若所查询内容在C0中，则返回查询结果；否则进入步骤b；

步骤b：判断所查询内容是否满足既映射在第一外存组件C1对应的Bloom Filter模块1中且没有映射在第一外存组件C1对应的DeleteFilter模块1中，则在C1中按照COLA模块的查询算法进行查询并返回查询结果，否则查询第二外存组件C2；

步骤c：若所查询内容映射在第二外存组件C2对应的BloomFilter模块2中且没有映射在C2对应的Delete Filter模块2中，则在C2中按照COLA的查询算法进行查询并返回结果，否则查询失败。

删除操作：首先确定所要删除的记录所处的组件，若该记录位于内存组件中，则直接删除；若位于外存组件C1或C2中，则首先在Delete Filter模块中标记该记录，然后在外存组件的COLA模块中将该记录标记为逻辑上已删除；检查该所涉及外存组件的空置率，若空置率超过给定阈值，则启动碎片整理操作。

碎片整理操作：

步骤a、根据外存组件中剩余的记录求出所要插入的最大层次。

步骤b、从第一层开始，把所有非空记录插入到该最大层次的空闲位置，直到最大层次填满为止。

步骤c、取出外存组件中剩余所有记录放入缓冲区，清空该组件中除最大层次之外的所有层次。

步骤d、把缓冲区中所有记录重新批量插入外存组件中。

实施例2：pLSM索引引擎单元支持的的相关索引操作的步骤

1、插入：先将记录插入内存组件C0中，若插入后C0的容量达到上限，则判断外存组件C1的容量是否达到上限。若C1的容量达到上限，则将C1中所有记录滚动归并入C2中。否则，将C0记录批量插入到C1组件中，然后将C0清空，把新的记录插入C0。

2、查询：要查询key值为100的数据，首先在内存C0组件中查找，若找到则返回相应的value值；否则同时查找外存组件C1和C2各自对应的Delete Filter模块1和Delete Filter模块2中100的结果是否为true，若均为true，则查找失败，查询结束。否则在内存中转向在Delete Filter模块查找结果中为false的组件的Bloom Filter模块，继续在其中查找值为100的结果，若为true，则转向外存上该组件进行查询，返回相应的value值，否则查询失败。

3、删除：要删除key值为100的记录，首先在内存组件C0中进行查找，若找到，则直接删除，否则按照查询操作的步骤判断key值为100的记录存在于哪个外存组件中，将key值为100的记录加入该组件对应的Delete Filter模块中。然后转移到对应的外存组件，将key值为100的记录加入逻辑上删除的标记，将该组件的现有记录的个数减1。若该组件的空置率超过了设定的阈值，则启动碎片整理操作。空置率为被删除记录的个数与组件容量的比。

4、碎片整理：例如外存组件C1的容量为4096，预设的空置率为50%。当被删除的记录超过2048个以后，例如还剩2000个记录时，首先找到容量不大于所剩记录个数的层次，在本例中为第11层（容量为1024）。从第1层开始搜索所有未被删除的记录，插入第11层的空位中，直到第11层装满为止；对第11层做归并排序，以保证层次内记录有序；取出该组件中所有未被删除的记录，放入一个临时的线性表L中；将该组件中除第11层以外的所有层次清空，最后把L中的记录批量插入该组件中，从而实现碎片整理操作完成后结构的重构。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种大数据索引方法，其特征在于，包括以下步骤;

2.如权利要求1所述的方法，其特征在于，所述外存组件包括第一外存组件第二外存组件。

3.如权利要求1所述的方法，其特征在于，所述Delete Filter模块包括：Delete Filter模块1，结合pLSM索引引擎单元内存中的Bloom Filter模块1用于支持发生在第一外存组件上的删除操作；Delete Filter模块2，结合pLSM索引引擎单元内存中的Bloom Filter模块2用于支持发生在第二外存组件上的删除操作。

4.如权利要求1所述的方法，其特征在于，所述查询操作包括：

5.如权利要求1所述的方法，其特征在于，所述删除操作包括：确定所要删除的记录所处的组件，若该记录位于内存组件中，则直接删除；若位于外存组件中，则首先在Delete Filter模块中标记该记录，然后在外存组件的COLA模块中将该记录标记为逻辑上已删除；检查该所涉及外存组件的空置率，若空置率超过给定阈值，则启动碎片整理操作。

6.如权利要求1所述的方法，其特征在于，所述碎片整理操作的步骤包括：

步骤d、把缓冲区中所有记录重新批量插入所述外存组件中。

7.一种大数据索引系统，其特征在于，包括：

数据中心服务器单元，接收与其连接的所有终端设备产生的数据并将接收到的数据输入NoSQL数据库单元；

NoSQL数据库单元，用于存储数据中心服务器单元传来的数据；

pLSM索引引擎单元，以COLA为外存组件，以Skip List为内存组件，并在内存中添加Delete Filter模块建立的索引引擎单元，所述DeleteFilter模块包括Delete Filter模块1和Delete Filter模块2，分别结合内存中的Bloom Filter模块1和Bloom Filter模块2用于支持发生在外存组件上的删除操作。