CN105045894A

CN105045894A - 一种面向分布式顺序表的缓存方法及系统

Info

Publication number: CN105045894A
Application number: CN201510463230.6A
Authority: CN
Inventors: 查礼; 郑忠诚; 程学旗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2015-11-11
Anticipated expiration: 2035-07-31
Also published as: CN105045894B

Abstract

本发明涉及分布式信息处理技术领域，特别涉及一种面向分布式顺序表的缓存方法及系统，该方法包括为所有数据块设置基础分值，当进行数据查询操作时，通过分布式顺序表，获取数据查询操作所涉及的数据范围，统计数据范围中各数据块将要被访问的访问次数，将访问次数累加到相应的数据块；当数据块被缓存命中时，被命中的数据块的分值减去固定值，当缓存空间已满时，则触发缓存的换出操作，在换出操作开始时，根据数据块的分值进行排序，从分值最小的数据块开始淘汰，直到缓存空间能够增加数据块。

Description

一种面向分布式顺序表的缓存方法及系统

技术领域

本发明涉及分布式信息处理技术领域，尤其涉及一种面向分布式顺序表的缓存方法及系统。

背景技术

NoSQL现有的缓存系统一般采用LRU缓存算法或者由LRU缓存算法改进而来的算法，如下所示：

LRU算法：LRU算法是根据对数据的历史访问记录来确定换入换出数据的策略，基本思想是：数据在最近被访问过，在未来会被访问的概率就更高，在具体实现中，一般使用LinkedList作为存储容器，缓存对象在被访问后将被重新放到缓存顶部，在换出对象时则从缓存底部开始，算法具体流程如下：(1)新缓存对象总是被放到缓存顶部；(2)当缓存中的缓存对象被访问后，缓存对象将被移到缓存顶部，这样缓存中的缓存对象总是按照最新的访问时间排序；(3)当缓存空间不足时，根据需要释放的空间大小，从缓存底部开始换出缓存对象。

TwoQueues算法：TwoQueues算法的基本思想是同时考虑时间、频率两个因素，利用分层的思想，将缓存分为L1和L2两层，两层均采用LRU缓存，算法具体流程如下：(1)当新的缓存对象换入时，首先进入L1层，如果L1层中的缓存对象再次被访问后，则将该缓存对象换入更大的L2层；(2)在需要换出数据时，首先换出L1中的数据，如果空间还是不足，再换出L2中的数据。

分布式顺序表的典型缓存算法(BucketCache)：HBase是应用广泛的典型分布式顺序表，其使用的缓存算法是TwoQueues的变型——BucketCache，TwoQueues中，缓存被分为了L1和L2两层，但是在HBase使用的算法中，将缓存分为了3层，即Single、Multi和InMemory，存算法流程如下：(1)在缓存新数据时，如果数据被标记为InMemory，则直接缓存都InMemory中，否则跟TwoQueues中的处理方式一样，先进入Single，被访问后再进入Multi；(2)在换出数据时，则优先换出Single中的数据，其次是Multi，最后是InMemory。

上面提到的各种算法都是基于过去对数据的访问历史来确定换入换出策略的，但是仅仅基于数据的访问历史是很难准确预测未来的，从而造成缓存命中率较低，缓存的数据读取通量不高，因此，要进一步提高缓存的命中率需要考虑利用一些其他的信息，在分布式顺序表的具体实现中，可以利用查询操作的访问模式特征来提高缓存的命中率。

发明内容

针对现有技术的不足，本发明提出一种面向分布式顺序表的缓存方法及系统。

本发明提出一种面向分布式顺序表的缓存方法，包括：

步骤1，为所有数据块设置基础分值，当进行数据查询操作时，通过分布式顺序表，获取数据查询操作所涉及的数据范围，统计数据范围中各数据块将要被访问的访问次数，将访问次数累加到相应的数据块；

步骤2，当数据块被缓存命中时，被命中的数据块的分值减去固定值，当缓存空间已满时，则触发缓存的换出操作，在换出操作开始时，根据数据块的分值进行排序，从分值最小的数据块开始淘汰，直到缓存空间能够增加数据块。

所述的面向分布式顺序表的缓存方法，所述步骤1包括：根据数据查询操作的起始行键定位到所述行键所属的区域，对每个区域下的所有文件按照起始行键在数据块索引结构上定位到第一个数据块索引项，从第一个数据块索引项开始顺序读取直到终止行键所在的数据块索引项，获取数据范围的所有数据块信息。

所述的面向分布式顺序表的缓存方法，缓存未命中数据块时，则根据未命中数据块的分值决定未命中数据块是否换入缓存。

所述的面向分布式顺序表的缓存方法，若数据块的分值为0，则分值为0的数据块在已知的未来不会再被读取，则不再换入到缓存。

所述的面向分布式顺序表的缓存方法，记录各数据块的分值并保存。

本发明还提出一种面向分布式顺序表的缓存系统，包括：

获取数据范围模块，用于为所有数据块设置基础分值，当进行数据查询操作时，通过分布式顺序表，获取数据查询操作所涉及的数据范围，统计数据范围中各数据块将要被访问的访问次数，将访问次数累加到相应的数据块；

计算分值模块，用于当数据块被缓存命中时，被命中的数据块的分值减去固定值，当缓存空间已满时，则触发缓存的换出操作，在换出操作开始时，根据数据块的分值进行排序，从分值最小的数据块开始淘汰，直到缓存空间能够增加数据块。

所述的面向分布式顺序表的缓存系统，所述获取数据范围模块包括：根据数据查询操作的起始行键定位到所述行键所属的区域，对每个区域下的所有文件按照起始行键在数据块索引结构上定位到第一个数据块索引项，从第一个数据块索引项开始顺序读取直到终止行键所在的数据块索引项，获取数据范围的所有数据块信息。

所述的面向分布式顺序表的缓存系统，缓存未命中数据块时，则根据未命中数据块的分值决定未命中数据块是否换入缓存。

所述的面向分布式顺序表的缓存系统，若数据块的分值为0，则分值为0的数据块在已知的未来不会再被读取，则不再换入到缓存。

所述的面向分布式顺序表的缓存系统，记录分值模块，用于记录各数据块的分值并保存。以下为本发明的整体技术效果：

本发明通过实验数据证明本发明的技术效果，如下所示：

缓存系统的对比主要是对比缓存的命中率和数据读取通量，测试中选择了对比不同线程数量和不同缓存空间/查询结果集比例两种情况，如下所示：

不同线程数量测试，图1为命中率对比，本发明提出的方法及系统的命中率比BucketCache缓存提高了15个百分点以上；图2为读取通量对比，本发明提出的方法计系统的读取通量比BucketCache缓存提高了20％以上。

不同缓存空间/查询结果集比例测试，图3为命中率对比，本发明提出的方法及系统的命中率比BucketCache缓存都提高了16个百分点以上；图4为读取通量对比，本发明的方法及系统的读取通量比BucketCache缓存提高了24％以上。

附图说明

图1为不同线程数量的缓存命中率对比图；

图2为不同线程数量的缓存读取通量对比图；

图3为不同缓存空间/查询结果集比例的缓存命中率对比图；

图4为不同缓存空间/查询结果集比例的缓存读取通量对比图；

图5为缓存算法流程示意图；

图6为缓存系统架构图；

图7为ScoreManager模块的计分管理结构图；

具体实施方式

针对现有技术的不足，本发明提出一种面向分布式顺序表的缓存方法及系统，本发明通过分布式顺序表特有的存储结构来获取每个查询所涉及的数据范围信息，然后利用这些信息并结合数据被访问的情况来构建每个数据的实时动态得分，该得分代表了对应的数据在未来会被访问的次数，访问次数越多越应该保留在缓存中，最后利用每个数据的得分来指导数据的换入换出策略，以下为本发明方法详细步骤，如下所示：

本发明方法包括：

步骤1，为所有数据块设置基础分值(此基础分值不做限制，可以为任意整数)，当进行数据查询操作时，通过分布式顺序表，获取数据查询操作所涉及的数据范围，统计数据范围中各数据块将要被访问的访问次数，将访问次数累加到相应的数据块，随着查询不断地提交和执行，不断地有DataBlock(数据块)需要访问，同时也有DataBlock已经访问过了，这是一个动态的过程，而得分代表的是某一时刻各个DataBlock在未来一段时间内被访问的情况；

步骤2，当数据块被缓存命中时，被命中的数据块的分值减去固定值(此固定值不做限制，可以为1、2、3等整数)，当缓存空间已满时，则触发缓存的换出操作，在换出操作开始时，根据数据块的分值进行排序，从分值最小的数据块开始淘汰，直到缓存空间能够增加数据块，其中记录各数据块的分值并保存。

所述步骤1包括：根据数据查询操作的起始行键定位到所述行键所属的区域，对每个区域下的所有文件按照起始行键在数据块索引结构上定位到第一个数据块索引项，从第一个数据块索引项开始顺序读取直到终止行键所在的数据块索引项，获取数据范围的所有数据块信息。

缓存未命中数据块时，则根据未命中数据块的分值决定未命中数据块是否换入缓存。

换入策略，若数据块的分值为0，则分值为0的数据块在已知的未来不会再被读取，则不再换入到缓存，这样可以避免不必要的缓存空间占用。

本发明还包括一种面向分布式顺序表的缓存系统，包括：

所述获取数据范围模块包括：根据数据查询操作的起始行键定位到所述行键所属的区域，对每个区域下的所有文件按照起始行键在数据块索引结构上定位到第一个数据块索引项，从第一个数据块索引项开始顺序读取直到终止行键所在的数据块索引项，获取数据范围的所有数据块信息。

若数据块的分值为0，则分值为0的数据块在已知的未来不会再被读取，则不再换入到缓存。

记录分值模块，用于记录各数据块的分值并保存。

以下为本发明一实施例，如图5所示：

情况1：查询提交时

在新的查询提交后，通过前面提到的方法可以获取查询所涉及的DataBlock(数据块)，这些DataBlock就是该查询在接下来一段时间内会访问到的数据，因此需要将这些DataBlock的得分加一，减小它们被淘汰的几率。

情况2：缓存命中时

当一个已经被缓存的DataBlock被命中一次后，其得分应该减一，这是因为得分代表的是未来会被访问的情况，随着DataBlock被访问后，其未来会被访问的情况也就变化了，所以得分也应该随之变化。

情况3：淘汰DataBlock时

当缓存空间不足时，则会触发缓存的换出操作。在换出操作开始时，则会根据DataBlock的得分来排序，从最小得分的DataBlock开始淘汰。

情况4：缓存未命中时

当缓存未命中时，则需要根据DataBlock的得分来决定该DataBlock是否应该换入缓存，因为如果一个DataBlock的得分已经为0，则说明该DataBlock在已知的未来不会再被读取，则不应该再换入到缓存，这样可以避免不必要的缓存空间占用。

本发明的缓存系统设计如图6所示，整个系统主要分为以下3个模块：

DataBlock记分模块：此模块用于对DataBlock进行计分操作，为换入换出数据提供依据。该模块中的计分过程通过采用线程池技术进行并行执行；该模块使用ConcurrentSkipListMap作为容器，同时计分由AtomicLong完成，这样能保证每次操作的原子性，最终保证记分的正确性；该模块中的计分粒度以Trunk为最小单位，默认1trunk＝16DataBlocks；该模块中使用HFile->Trunk->Score的两层map进行维护，如图7所示。

BlockIndexLoader模块：此模块用于根据每个查询的开始行键和结束行键来读取加载查询范围内的DataBlock信息，以便DataBlock记分模块进行得分更新操作。该模块中设计为两层结构，分为IndexLoader和IndexScanner。每一个IndexLoader对应一个HFile，它负责读取HFile上的索引信息；一个IndexLoader可以有多个IndexScanner，每个IndexScanner对应一个查询请求，保存每个查询请求的执行信息。

StoreManager模块：此模块用于实际存储加载到缓存中的DataBlock。该模块主要考虑3个操作，cacheBlock：此操作是当缓存命中失效时，在换入缓存的时候就可以采取措施将得分已经为0的DataBlock拦截下来，不再换入缓存；getBlock：此操作是从缓存中读取需要的DataBlock，每一次getBlock的操作都就标志着对DataBlock的一次访问，DataBlock的每一次访问后都需要将它的得分减一，以实时反映DataBlock在未来会被访问的情况；evictBlock：此操作是在缓存空间不足时或者已经使用的空间超过阈值时触发的，当新的DataBlock在换入缓存时发现缓存空间已经不足，则会触发缓存的换出操作，在系统实现中，当需要换出DataBlock时，我们会先遍历缓存中所有的DataBlock，然后使用一个大顶堆来选出得分最小的N个DataBlock进行换出操作。

Claims

1.一种面向分布式顺序表的缓存方法，其特征在于，包括：

2.如权利要求1所述的面向分布式顺序表的缓存方法，其特征在于，所述步骤1包括：根据数据查询操作的起始行键定位到所述行键所属的区域，对每个区域下的所有文件按照起始行键在数据块索引结构上定位到第一个数据块索引项，从第一个数据块索引项开始顺序读取直到终止行键所在的数据块索引项，获取数据范围的所有数据块信息。

3.如权利要求1所述的面向分布式顺序表的缓存方法，其特征在于，缓存未命中数据块时，则根据未命中数据块的分值决定未命中数据块是否换入缓存。

4.如权利要求1所述的面向分布式顺序表的缓存方法，其特征在于，若数据块的分值为0，则分值为0的数据块在已知的未来不会再被读取，则不再换入到缓存。

5.如权利要求1所述的面向分布式顺序表的缓存方法，其特征在于，记录各数据块的分值并保存。

6.一种面向分布式顺序表的缓存系统，其特征在于，包括：

7.如权利要求6所述的面向分布式顺序表的缓存系统，其特征在于，所述获取数据范围模块包括：根据数据查询操作的起始行键定位到所述行键所属的区域，对每个区域下的所有文件按照起始行键在数据块索引结构上定位到第一个数据块索引项，从第一个数据块索引项开始顺序读取直到终止行键所在的数据块索引项，获取数据范围的所有数据块信息。

8.如权利要求6所述的面向分布式顺序表的缓存系统，其特征在于，缓存未命中数据块时，则根据未命中数据块的分值决定未命中数据块是否换入缓存。

9.如权利要求6所述的面向分布式顺序表的缓存系统，其特征在于，若数据块的分值为0，则分值为0的数据块在已知的未来不会再被读取，则不再换入到缓存。

10.如权利要求6所述的面向分布式顺序表的缓存系统，其特征在于，记录分值模块，用于记录各数据块的分值并保存。