CN102663090A

CN102663090A - 元数据查询方法和装置

Info

Publication number: CN102663090A
Application number: CN2012101029351A
Authority: CN
Inventors: 刘强; 张程伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-04-10
Filing date: 2012-04-10
Publication date: 2012-09-12
Anticipated expiration: 2032-04-10
Also published as: US9529912B2; EP2711856B1; WO2013152678A1; EP2711856A4; CN102663090B; US20140089318A1; EP2711856A1

Abstract

本发明实施例提供一种元数据查询方法和装置。该方法包括在要查找的元数据中抽样出至少一个第一元数据；将抽样得到的每个第一元数据中的至少部分特征值作为索引，在内存中预置的稀疏索引表中查找对应的容器标识，所述稀疏索引表中记录容器标识，每个容器标识在所述索引表中位置的索引是所述容器标识对应容器中存储的元数据的至少部分特征值；根据同一个容器标识被查到的次数，选择满足设定条件的容器标识对应的容器；将所述选择的容器中的元数据加载到元数据缓存中；从所述元数据缓存中查找与所述要查找的元数据相同的数据块。本发明实施例可以提高查询性能，降低内存占用空间。

Description

元数据查询方法和装置

技术领域

本发明涉及存储技术，尤其涉及一种元数据查询方法和装置。

背景技术

重复数据删除也称为智能压缩或单一实例存储，是一种可自动查找重复数据，将相同数据只保留一个副本，并使用指向单一副本的指针替换掉其他重复副本，以达到消除冗余数据、降低存储容量需求的存储技术。

现有重复数据删除技术的元数据查询方案中包括如下模块：元数据缓存(Metadata Cache)、布隆过滤器(Bloom Filter)、全索引表(Full IndexTable)、容器(Container)，其中，Metadata Cache用于缓存元数据；BloomFilter用于过滤掉大部分的新数据块，减少磁盘访问次数；Full Index Table用于索引元数据在磁盘中的存储位置；Container用于存放删除重复数据后的数据块和元数据。

现有的元数据查询流程如下：对于一个要查询的元数据(Metadata)，首先在元数据缓存中查找，如果在缓存中找到相同的元数据，则该元数据对应的分块是重复块。如果在缓存中没有找到，再到布隆过滤器中查找，如果没有在布隆过滤器中找到，则对应的分块一定是新块。如果元数据在布隆过滤器中，就到索引表中查找对应的容器，如果能在索引表中找到，则对应的分块是重复块，并把对应的容器的元数据全部加载到缓存中。

但是，现有技术中的索引表是全索引包含了所有分块元数据的索引。由于这种索引表占用的空间太大，存放在磁盘上就导致很多的磁盘IO操作，降低了查询的性能。

发明内容

本发明实施例提供一种元数据查询方法和装置，用于提高查询性能，降低占用的内存空间。

本发明实施例提供了一种元数据查询方法，包括：

在要查找的元数据中抽样出至少一个第一元数据；

将抽样得到的每个第一元数据中的至少部分特征值作为索引，在内存中预置的稀疏索引表中查找对应的容器标识，所述稀疏索引表中记录容器标识，每个容器标识在所述索引表中位置的索引是所述容器标识对应容器中存储的元数据的至少部分特征值；

根据同一个容器标识被查到的次数，选择满足设定条件的容器标识对应的容器；

将所述选择的容器中的元数据加载到元数据缓存中；

从所述元数据缓存中查找与所述要查找的元数据相同的数据块。

本发明实施例提供了一种元数据查询装置，包括：

抽样模块，用于在要查找的元数据中抽样出至少一个第一元数据；

确定模块，用于将抽样得到的每个第一元数据中的至少部分特征值作为索引，在内存中预置的稀疏索引表中查找对应的容器标识，所述稀疏索引表中记录容器标识，每个容器标识在所述索引表中位置的索引是所述容器标识对应容器中存储的元数据的至少部分特征值；

选择模块，用于根据同一个容器标识被查到的次数，选择满足设定条件的容器标识对应的容器；

加载模块，用于将所述选择的容器中的元数据加载到元数据缓存中；

查找模块，用于从所述元数据缓存中查找与所述要查找的元数据相同的数据块。

由上述技术方案可知，本发明实施例通过采用稀疏索引表且该稀疏索引表设置在内存中，可以避免磁盘IO操作，提高查询性能；通过不设置布隆过滤，可以降低占用的内存空间。

附图说明

图1为本发明元数据查询方法一实施例的流程示意图；

图2为本发明元数据查询方法对应的结构示意图；

图3为本发明中稀疏索引表的结构示意图；

图4为本发明元数据查询装置一实施例的结构示意图；

图5为本发明元数据查询装置另一实施例的结构示意图。

具体实施方式

图1为本发明元数据查询方法一实施例的流程示意图，包括：

步骤11：在要查找的元数据中抽样出至少一个第一元数据。

例如，参见图2，图2所示的要查找的元数据为6个，可以从中抽样出第2个和第5个，将第2个和第5个作为第一元数据。

具体的抽样方式可以是：首先，将要查找的元数据分组，例如，将要查找的元数据依次选取相同数目的元数据作为一组；

之后，在每个组中抽样一个元数据，例如，在每个组中选择一个哈希值最小的元数据作为抽样的元数据。

步骤12：将抽样得到的每个第一元数据中的至少部分特征值作为索引，在内存中预置的稀疏索引表中查找对应的容器标识，所述稀疏索引表中记录容器标识，每个容器标识在所述索引表中位置的索引为所述容器标识对应容器中存储的元数据的至少部分特征值。

稀疏索引表用于表明元数据与容器的对应关系，例如，该稀疏索引表可以表明元数据的特征值与容器标识(ID)的对应关系，或者表明元数据的部分的特征值与容器ID的对应关系。本发明实施例以特征值为哈希值，稀疏索引表表明元数据的部分的特征值与容器标识的对应关系为例。

稀疏索引表可以在写入新数据块时建立，例如，当抽样一个元数据后，按照元数据部分的哈希值作为索引，在稀疏索引表中没有找到可以对应的容器ID，那么可以将该元数据写入容器内，并在稀疏索引表中记录该元数据写入的容器的容器ID，并且该容器ID在稀疏索引表中位置的索引为该元数据的部分的哈希值。

步骤13：根据同一个容器标识被查到的次数，选择满足设定条件的容器标识对应的容器。

根据同一个容器ID被查到的次数，选择满足设定条件的容器标识对应的容器可以包括：对查找到的容器标识，按照同一容器标识被查询到的次数从高到低的顺序选择设定个数的容器ID对应的容器，作为满足设定条件的容器。例如，如果抽样后的元数据中的6个均对应容器ID1，抽样后的元数据中的5个均对应容器ID2，抽样后的元数据中的4个均对应容器ID3，则同一个容器ID被查询到的次数从高到低的顺序是容器ID1、容器ID2和容器ID3。如果设定条件是选择排序较高的2个，则选择的容器就是容器ID1对应的容器1和容器ID2对应的容器2。对查找到的容器标识，选择满足设定条件的容器标识对应的容器的具体策略，可以根据不同情况来设定，例如，可以设定一个阈值，被查找到的次数大于等于该阈值的容器标识对应的容器，作为满足设定条件的容器。本实施例按照被查询到的次数从高到低的顺序来选择，仅仅是其中的一种方式。

每个容器标识在所述索引表中位置的索引为所述容器标识对应容器中存储的元数据的至少部分的特征值；例如，稀疏索引表的第一个表项中记录的是元数据的部分的哈希值为1对应的容器ID，第二个表项中记录的是元数据的部分的哈希值为2对应的容器ID，其余类推。

此时，稀疏索引表的大小为：(磁盘容量/分块大小)×抽样率×2，其中乘以2是为了减少哈希碰撞，提高索引的准确性。

稀疏索引表所占的内存空间＝索引表的大小×8(以每个容器ID占用64bit为例)字节。以磁盘容量为1PB，分块大小为8KB，抽样率为1/128为例，稀疏索引表占用的内存空间为16GB。

所述每个容器标识在所述索引表中的位置的索引可以通过以下方法获得：

从容器中存储的元数据中抽样出至少一个第二元数据，将第二元数据中的特征值，作为容器对应的容器标识在所述稀疏索引表中的位置的索引；或者，将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引，其中，每个第二元数据的特征值确定一个位置索引。

需要说明的是，本发明实施例中，需要通过元数据的特征值来作为第一元数据的查找索引以及容器标识的位置索引，显然，获取第一元数据中的特征值作为索引的算法，和获取第二元数据中的特征值作为容器标识在稀疏索引表中的位置索引的算法，两者需要一致。例如，第二元数据中取出特征值的前3位作为容器标识在稀疏索引表中的位置索引，那么相应的，第一元数据的查找索引也是取第一元数据中特征值的前3位；又如：第二元数据中取出全部特征值作为容器标识在稀疏索引表中的位置索引，那么相应的，第一元数据的查找索引也是取第一元数据中全部特征值。

另外，从容器中抽样得到至少一个第二元数据，若第二元数据有两个以上，那么，每个第二元数据的特征值都可以确定一个容器标识的位置索引。例如：以第二元数据中全部特征值作为容器A在稀疏索引表中的位置索引为例，从容器A中抽出了三个第二元数据，那么在稀疏索引表中就可以为容器A确定三个位置，位置的索引就是第二元数据的特征值。

容器ID在稀疏索引表中位置的索引也可以采用二维方式确定，该位置的索引的二维示意图可以如图3所示，以位置的索引为抽样元数据的部分的哈希值为例，可以用抽样元数据的部分的哈希值的高m位表示一级索引表的偏移量，用抽样元数据的部分哈希值的低n位表示二级索引表的偏移量，那么，2ⁿ为二级索引表的大小，2^n+m为稀疏索引表的大小。计算n、m时，可以采用2ⁿ＝系统一次能够分配的内存空间，得到n，再根据计算得到的n和2^n+m＝稀疏索引表占用的内存空间，得到m。

采用二维数组的方式可以避免需要一次分配较大的内存空间而导致的内存空间分配失败。例如：稀疏索引表需要8G空间，而内存一次能分配的空间只有1G，那么就每次分配1G，共分配8G的空间；二维数组中，假设以一级索引表的表项为行索引，以二级索引表的表项为列索引，则该二维数组的行数共为2^m行，列数共为2ⁿ列，每个一级索引表的表项对应2ⁿ个二级索引表的表项。该二维数组的第i行第j列保存的容器ID与特征值的高m位＝i-1且低n位＝j-1的元数据对应，i＝1，...2^m，，j＝1，...2ⁿ。进一步的，当稀疏索引表所占的内存空间小于操作系统一次能分配的最大内存空间时，可以采用一组数组方式进行组织。

步骤14：将所述满足设定条件的容器中的元数据加载到元数据缓存中。

参见图2，容器中包含元数据部分和数据部分，将其中的元数据加载到元数据缓存中。

步骤15：从所述元数据缓存中查找与所述要查找的元数据相同的数据块。

将要查找的元数据与元数据缓存中的元数据进行比较，如果要查找的元数据存在于元数据缓存中，则表明该元数据对应的数据块为重复块，否则为新块。之后，可以将新数据库写入容器中，将重复数据块删除等后续处理。

本实施例中由于稀疏索引表只记录容器ID，所在空间较小，可以全部放置在内存中，因此访问稀疏索引表时不会产生任何的磁盘IO操作，提高元数据查询性能；本实施例中没有布隆过滤器，并且稀疏索引表所占内存比布隆过滤器小很多，可以降低对内存的需求。

图4为本发明元数据查询装置一实施例的结构示意图，包括抽样模块41、确定模块42、选择模块43、加载模块44和查找模块45；抽样模块41用于在要查找的元数据中抽样出至少一个第一元数据；确定模块42用于将抽样得到的每个第一元数据中的至少部分特征值作为索引，在内存中预置的稀疏索引表中查找对应的容器标识，所述稀疏索引表中记录容器标识，每个容器标识在所述索引表中位置的索引是所述容器标识对应容器中存储的元数据的至少部分特征值；选择模块43用于根据同一个容器标识被查到的次数，选择满足设定条件的容器标识对应的容器；加载模块44用于将所述选择的容器中的元数据加载到元数据缓存中；查找模块45用于从所述元数据缓存中查找与所述要查找的元数据相同的数据块。

可选的，所述选择模块43具体用于：对查找到的容器标识，按照同一容器标识被查询到的次数从高到低的顺序选择设定个数的容器，作为满足设定条件的容器。

可选的，所述抽样模块41具体用于：将要查找的元数据分为多个组，在每个组中抽样一个元数据，将每个组中特征值最小的元数据作为抽样的第一元数据。

可选的，参见图5，该装置还可以包括：稀疏索引表设置模块46，用于从容器中存储的元数据中抽样出至少一个第二元数据，将第二元数据中的特征值，作为容器对应的容器标识在所述稀疏索引表中的位置的索引；或者，将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引，其中，每个第二元数据的特征值确定一个位置索引。

可选的，所述稀疏索引表设置模块46将第二元数据中的特征值，作为容器对应的容器标识在所述稀疏索引表中的位置的索引或者将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引，具体包括：

将稀疏索引表设置为表示行索引的一级索引偏移量和表示列索引的二级索引偏移量组成的二维表；

如果容器标识位置的索引为所述抽样的第二元数据的特征值，则根据所述第二元数据的特征值的高位确定所述一级索引偏移量，根据所述第二元数据的特征值的低位确定所述二级索引偏移量；或者，如果所述位置的索引为所述第二元数据的部分特征值，则根据所述第二元数据中的部分特征值的高位确定所述一级索引偏移量，根据所述第二元数据中的部分特征值的低位确定所述二级索引偏移量。

本实施例中由于稀疏索引表所在空间较小，可以全部放置在内存中，因此访问稀疏索引表时不会产生任何的磁盘IO操作，提高元数据查询性能；本实施例中没有布隆过滤器，并且稀疏索引表所占内存比布隆过滤器小很多，可以降低对内存的需求。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种元数据查询方法，其特征在于，包括：

在要查找的元数据中抽样出至少一个第一元数据；

将所述选择的容器中的元数据加载到元数据缓存中；

2.根据权利要求1所述的方法，其特征在于，所述每个容器标识在所述索引表中的位置的索引通过以下方法获得：

3.根据权利要求1所述的方法，其特征在于，所述根据同一个容器标识被查到的次数，选择满足设定条件的容器标识对应的容器，包括：

对查找到的容器标识，按照同一容器标识被查询到的次数从高到低的顺序选择设定个数的容器，作为满足设定条件的容器。

4.根据权利要求3所述的方法，其特征在于，所述容器标识在所述稀疏索引表中位置的索引由表示行索引的一级索引偏移量和表示列索引的二级索引偏移量确定，如果所述位置的索引为所述抽样的第二元数据的特征值，则根据所述第二元数据的特征值的高位确定所述一级索引偏移量，根据所述第二元数据的特征值的低位确定所述二级索引偏移量；

或者，如果所述位置的索引为所述第二元数据的部分特征值，则根据所述第二元数据中的部分特征值的高位确定所述一级索引偏移量，根据所述第二元数据中的部分特征值的低位确定所述二级索引偏移量。

5.根据权利要求1所述的方法，其特征在于，所述在要查找的元数据中抽样出至少一个第一元数据，包括：

将要查找的元数据分为多个组，在每个组中抽样一个元数据，将每个组中特征值最小的元数据作为抽样的第一元数据。

6.一种元数据查询装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述选择模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述抽样模块具体用于：

9.根据权利要求6-8任一项所述的装置，其特征在于，还包括：

稀疏索引表设置模块，用于从容器中存储的元数据中抽样出至少一个第二元数据，将第二元数据中的特征值，作为容器对应的容器标识在所述稀疏索引表中的位置的索引；或者，将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引，其中，每个第二元数据的特征值确定一个位置索引。

10.根据权利要求9所述的装置，其特征在于，所述稀疏索引表设置模块将第二元数据中的特征值，作为容器对应的容器标识在所述稀疏索引表中的位置的索引或者将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引部分，具体包括：

将稀疏索引表设置为由表示行索引的一级索引偏移量和表示列索引的二级索引偏移量组成的二维表；