CN102663090A - 元数据查询方法和装置 - Google Patents

元数据查询方法和装置 Download PDF

Info

Publication number
CN102663090A
CN102663090A CN2012101029351A CN201210102935A CN102663090A CN 102663090 A CN102663090 A CN 102663090A CN 2012101029351 A CN2012101029351 A CN 2012101029351A CN 201210102935 A CN201210102935 A CN 201210102935A CN 102663090 A CN102663090 A CN 102663090A
Authority
CN
China
Prior art keywords
metadata
container
index
container identification
eigenwert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101029351A
Other languages
English (en)
Other versions
CN102663090B (zh
Inventor
刘强
张程伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2012101029351A priority Critical patent/CN102663090B/zh
Publication of CN102663090A publication Critical patent/CN102663090A/zh
Priority to PCT/CN2013/073519 priority patent/WO2013152678A1/zh
Priority to EP13776285.2A priority patent/EP2711856B1/en
Application granted granted Critical
Publication of CN102663090B publication Critical patent/CN102663090B/zh
Priority to US14/094,156 priority patent/US9529912B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9017Indexing; Data structures therefor; Storage structures using directory or table look-up

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种元数据查询方法和装置。该方法包括在要查找的元数据中抽样出至少一个第一元数据;将抽样得到的每个第一元数据中的至少部分特征值作为索引,在内存中预置的稀疏索引表中查找对应的容器标识,所述稀疏索引表中记录容器标识,每个容器标识在所述索引表中位置的索引是所述容器标识对应容器中存储的元数据的至少部分特征值;根据同一个容器标识被查到的次数,选择满足设定条件的容器标识对应的容器;将所述选择的容器中的元数据加载到元数据缓存中;从所述元数据缓存中查找与所述要查找的元数据相同的数据块。本发明实施例可以提高查询性能,降低内存占用空间。

Description

元数据查询方法和装置
技术领域
本发明涉及存储技术,尤其涉及一种元数据查询方法和装置。
背景技术
重复数据删除也称为智能压缩或单一实例存储,是一种可自动查找重复数据,将相同数据只保留一个副本,并使用指向单一副本的指针替换掉其他重复副本,以达到消除冗余数据、降低存储容量需求的存储技术。
现有重复数据删除技术的元数据查询方案中包括如下模块:元数据缓存(Metadata Cache)、布隆过滤器(Bloom Filter)、全索引表(Full IndexTable)、容器(Container),其中,Metadata Cache用于缓存元数据;BloomFilter用于过滤掉大部分的新数据块,减少磁盘访问次数;Full Index Table用于索引元数据在磁盘中的存储位置;Container用于存放删除重复数据后的数据块和元数据。
现有的元数据查询流程如下:对于一个要查询的元数据(Metadata),首先在元数据缓存中查找,如果在缓存中找到相同的元数据,则该元数据对应的分块是重复块。如果在缓存中没有找到,再到布隆过滤器中查找,如果没有在布隆过滤器中找到,则对应的分块一定是新块。如果元数据在布隆过滤器中,就到索引表中查找对应的容器,如果能在索引表中找到,则对应的分块是重复块,并把对应的容器的元数据全部加载到缓存中。
但是,现有技术中的索引表是全索引包含了所有分块元数据的索引。由于这种索引表占用的空间太大,存放在磁盘上就导致很多的磁盘IO操作,降低了查询的性能。
发明内容
本发明实施例提供一种元数据查询方法和装置,用于提高查询性能,降低占用的内存空间。
本发明实施例提供了一种元数据查询方法,包括:
在要查找的元数据中抽样出至少一个第一元数据;
将抽样得到的每个第一元数据中的至少部分特征值作为索引,在内存中预置的稀疏索引表中查找对应的容器标识,所述稀疏索引表中记录容器标识,每个容器标识在所述索引表中位置的索引是所述容器标识对应容器中存储的元数据的至少部分特征值;
根据同一个容器标识被查到的次数,选择满足设定条件的容器标识对应的容器;
将所述选择的容器中的元数据加载到元数据缓存中;
从所述元数据缓存中查找与所述要查找的元数据相同的数据块。
本发明实施例提供了一种元数据查询装置,包括:
抽样模块,用于在要查找的元数据中抽样出至少一个第一元数据;
确定模块,用于将抽样得到的每个第一元数据中的至少部分特征值作为索引,在内存中预置的稀疏索引表中查找对应的容器标识,所述稀疏索引表中记录容器标识,每个容器标识在所述索引表中位置的索引是所述容器标识对应容器中存储的元数据的至少部分特征值;
选择模块,用于根据同一个容器标识被查到的次数,选择满足设定条件的容器标识对应的容器;
加载模块,用于将所述选择的容器中的元数据加载到元数据缓存中;
查找模块,用于从所述元数据缓存中查找与所述要查找的元数据相同的数据块。
由上述技术方案可知,本发明实施例通过采用稀疏索引表且该稀疏索引表设置在内存中,可以避免磁盘IO操作,提高查询性能;通过不设置布隆过滤,可以降低占用的内存空间。
附图说明
图1为本发明元数据查询方法一实施例的流程示意图;
图2为本发明元数据查询方法对应的结构示意图;
图3为本发明中稀疏索引表的结构示意图;
图4为本发明元数据查询装置一实施例的结构示意图;
图5为本发明元数据查询装置另一实施例的结构示意图。
具体实施方式
图1为本发明元数据查询方法一实施例的流程示意图,包括:
步骤11:在要查找的元数据中抽样出至少一个第一元数据。
例如,参见图2,图2所示的要查找的元数据为6个,可以从中抽样出第2个和第5个,将第2个和第5个作为第一元数据。
具体的抽样方式可以是:首先,将要查找的元数据分组,例如,将要查找的元数据依次选取相同数目的元数据作为一组;
之后,在每个组中抽样一个元数据,例如,在每个组中选择一个哈希值最小的元数据作为抽样的元数据。
步骤12:将抽样得到的每个第一元数据中的至少部分特征值作为索引,在内存中预置的稀疏索引表中查找对应的容器标识,所述稀疏索引表中记录容器标识,每个容器标识在所述索引表中位置的索引为所述容器标识对应容器中存储的元数据的至少部分特征值。
稀疏索引表用于表明元数据与容器的对应关系,例如,该稀疏索引表可以表明元数据的特征值与容器标识(ID)的对应关系,或者表明元数据的部分的特征值与容器ID的对应关系。本发明实施例以特征值为哈希值,稀疏索引表表明元数据的部分的特征值与容器标识的对应关系为例。
稀疏索引表可以在写入新数据块时建立,例如,当抽样一个元数据后,按照元数据部分的哈希值作为索引,在稀疏索引表中没有找到可以对应的容器ID,那么可以将该元数据写入容器内,并在稀疏索引表中记录该元数据写入的容器的容器ID,并且该容器ID在稀疏索引表中位置的索引为该元数据的部分的哈希值。
步骤13:根据同一个容器标识被查到的次数,选择满足设定条件的容器标识对应的容器。
根据同一个容器ID被查到的次数,选择满足设定条件的容器标识对应的容器可以包括:对查找到的容器标识,按照同一容器标识被查询到的次数从高到低的顺序选择设定个数的容器ID对应的容器,作为满足设定条件的容器。例如,如果抽样后的元数据中的6个均对应容器ID1,抽样后的元数据中的5个均对应容器ID2,抽样后的元数据中的4个均对应容器ID3,则同一个容器ID被查询到的次数从高到低的顺序是容器ID1、容器ID2和容器ID3。如果设定条件是选择排序较高的2个,则选择的容器就是容器ID1对应的容器1和容器ID2对应的容器2。对查找到的容器标识,选择满足设定条件的容器标识对应的容器的具体策略,可以根据不同情况来设定,例如,可以设定一个阈值,被查找到的次数大于等于该阈值的容器标识对应的容器,作为满足设定条件的容器。本实施例按照被查询到的次数从高到低的顺序来选择,仅仅是其中的一种方式。
每个容器标识在所述索引表中位置的索引为所述容器标识对应容器中存储的元数据的至少部分的特征值;例如,稀疏索引表的第一个表项中记录的是元数据的部分的哈希值为1对应的容器ID,第二个表项中记录的是元数据的部分的哈希值为2对应的容器ID,其余类推。
此时,稀疏索引表的大小为:(磁盘容量/分块大小)×抽样率×2,其中乘以2是为了减少哈希碰撞,提高索引的准确性。
稀疏索引表所占的内存空间=索引表的大小×8(以每个容器ID占用64bit为例)字节。以磁盘容量为1PB,分块大小为8KB,抽样率为1/128为例,稀疏索引表占用的内存空间为16GB。
所述每个容器标识在所述索引表中的位置的索引可以通过以下方法获得:
从容器中存储的元数据中抽样出至少一个第二元数据,将第二元数据中的特征值,作为容器对应的容器标识在所述稀疏索引表中的位置的索引;或者,将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引,其中,每个第二元数据的特征值确定一个位置索引。
需要说明的是,本发明实施例中,需要通过元数据的特征值来作为第一元数据的查找索引以及容器标识的位置索引,显然,获取第一元数据中的特征值作为索引的算法,和获取第二元数据中的特征值作为容器标识在稀疏索引表中的位置索引的算法,两者需要一致。例如,第二元数据中取出特征值的前3位作为容器标识在稀疏索引表中的位置索引,那么相应的,第一元数据的查找索引也是取第一元数据中特征值的前3位;又如:第二元数据中取出全部特征值作为容器标识在稀疏索引表中的位置索引,那么相应的,第一元数据的查找索引也是取第一元数据中全部特征值。
另外,从容器中抽样得到至少一个第二元数据,若第二元数据有两个以上,那么,每个第二元数据的特征值都可以确定一个容器标识的位置索引。例如:以第二元数据中全部特征值作为容器A在稀疏索引表中的位置索引为例,从容器A中抽出了三个第二元数据,那么在稀疏索引表中就可以为容器A确定三个位置,位置的索引就是第二元数据的特征值。
容器ID在稀疏索引表中位置的索引也可以采用二维方式确定,该位置的索引的二维示意图可以如图3所示,以位置的索引为抽样元数据的部分的哈希值为例,可以用抽样元数据的部分的哈希值的高m位表示一级索引表的偏移量,用抽样元数据的部分哈希值的低n位表示二级索引表的偏移量,那么,2n为二级索引表的大小,2n+m为稀疏索引表的大小。计算n、m时,可以采用2n=系统一次能够分配的内存空间,得到n,再根据计算得到的n和2n+m=稀疏索引表占用的内存空间,得到m。
采用二维数组的方式可以避免需要一次分配较大的内存空间而导致的内存空间分配失败。例如:稀疏索引表需要8G空间,而内存一次能分配的空间只有1G,那么就每次分配1G,共分配8G的空间;二维数组中,假设以一级索引表的表项为行索引,以二级索引表的表项为列索引,则该二维数组的行数共为2m行,列数共为2n列,每个一级索引表的表项对应2n个二级索引表的表项。该二维数组的第i行第j列保存的容器ID与特征值的高m位=i-1且低n位=j-1的元数据对应,i=1,...2m,,j=1,...2n。进一步的,当稀疏索引表所占的内存空间小于操作系统一次能分配的最大内存空间时,可以采用一组数组方式进行组织。
步骤14:将所述满足设定条件的容器中的元数据加载到元数据缓存中。
参见图2,容器中包含元数据部分和数据部分,将其中的元数据加载到元数据缓存中。
步骤15:从所述元数据缓存中查找与所述要查找的元数据相同的数据块。
将要查找的元数据与元数据缓存中的元数据进行比较,如果要查找的元数据存在于元数据缓存中,则表明该元数据对应的数据块为重复块,否则为新块。之后,可以将新数据库写入容器中,将重复数据块删除等后续处理。
本实施例中由于稀疏索引表只记录容器ID,所在空间较小,可以全部放置在内存中,因此访问稀疏索引表时不会产生任何的磁盘IO操作,提高元数据查询性能;本实施例中没有布隆过滤器,并且稀疏索引表所占内存比布隆过滤器小很多,可以降低对内存的需求。
图4为本发明元数据查询装置一实施例的结构示意图,包括抽样模块41、确定模块42、选择模块43、加载模块44和查找模块45;抽样模块41用于在要查找的元数据中抽样出至少一个第一元数据;确定模块42用于将抽样得到的每个第一元数据中的至少部分特征值作为索引,在内存中预置的稀疏索引表中查找对应的容器标识,所述稀疏索引表中记录容器标识,每个容器标识在所述索引表中位置的索引是所述容器标识对应容器中存储的元数据的至少部分特征值;选择模块43用于根据同一个容器标识被查到的次数,选择满足设定条件的容器标识对应的容器;加载模块44用于将所述选择的容器中的元数据加载到元数据缓存中;查找模块45用于从所述元数据缓存中查找与所述要查找的元数据相同的数据块。
可选的,所述选择模块43具体用于:对查找到的容器标识,按照同一容器标识被查询到的次数从高到低的顺序选择设定个数的容器,作为满足设定条件的容器。
可选的,所述抽样模块41具体用于:将要查找的元数据分为多个组,在每个组中抽样一个元数据,将每个组中特征值最小的元数据作为抽样的第一元数据。
可选的,参见图5,该装置还可以包括:稀疏索引表设置模块46,用于从容器中存储的元数据中抽样出至少一个第二元数据,将第二元数据中的特征值,作为容器对应的容器标识在所述稀疏索引表中的位置的索引;或者,将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引,其中,每个第二元数据的特征值确定一个位置索引。
可选的,所述稀疏索引表设置模块46将第二元数据中的特征值,作为容器对应的容器标识在所述稀疏索引表中的位置的索引或者将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引,具体包括:
将稀疏索引表设置为表示行索引的一级索引偏移量和表示列索引的二级索引偏移量组成的二维表;
如果容器标识位置的索引为所述抽样的第二元数据的特征值,则根据所述第二元数据的特征值的高位确定所述一级索引偏移量,根据所述第二元数据的特征值的低位确定所述二级索引偏移量;或者,如果所述位置的索引为所述第二元数据的部分特征值,则根据所述第二元数据中的部分特征值的高位确定所述一级索引偏移量,根据所述第二元数据中的部分特征值的低位确定所述二级索引偏移量。
本实施例中由于稀疏索引表所在空间较小,可以全部放置在内存中,因此访问稀疏索引表时不会产生任何的磁盘IO操作,提高元数据查询性能;本实施例中没有布隆过滤器,并且稀疏索引表所占内存比布隆过滤器小很多,可以降低对内存的需求。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种元数据查询方法,其特征在于,包括:
在要查找的元数据中抽样出至少一个第一元数据;
将抽样得到的每个第一元数据中的至少部分特征值作为索引,在内存中预置的稀疏索引表中查找对应的容器标识,所述稀疏索引表中记录容器标识,每个容器标识在所述索引表中位置的索引是所述容器标识对应容器中存储的元数据的至少部分特征值;
根据同一个容器标识被查到的次数,选择满足设定条件的容器标识对应的容器;
将所述选择的容器中的元数据加载到元数据缓存中;
从所述元数据缓存中查找与所述要查找的元数据相同的数据块。
2.根据权利要求1所述的方法,其特征在于,所述每个容器标识在所述索引表中的位置的索引通过以下方法获得:
从容器中存储的元数据中抽样出至少一个第二元数据,将第二元数据中的特征值,作为容器对应的容器标识在所述稀疏索引表中的位置的索引;或者,将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引,其中,每个第二元数据的特征值确定一个位置索引。
3.根据权利要求1所述的方法,其特征在于,所述根据同一个容器标识被查到的次数,选择满足设定条件的容器标识对应的容器,包括:
对查找到的容器标识,按照同一容器标识被查询到的次数从高到低的顺序选择设定个数的容器,作为满足设定条件的容器。
4.根据权利要求3所述的方法,其特征在于,所述容器标识在所述稀疏索引表中位置的索引由表示行索引的一级索引偏移量和表示列索引的二级索引偏移量确定,如果所述位置的索引为所述抽样的第二元数据的特征值,则根据所述第二元数据的特征值的高位确定所述一级索引偏移量,根据所述第二元数据的特征值的低位确定所述二级索引偏移量;
或者,如果所述位置的索引为所述第二元数据的部分特征值,则根据所述第二元数据中的部分特征值的高位确定所述一级索引偏移量,根据所述第二元数据中的部分特征值的低位确定所述二级索引偏移量。
5.根据权利要求1所述的方法,其特征在于,所述在要查找的元数据中抽样出至少一个第一元数据,包括:
将要查找的元数据分为多个组,在每个组中抽样一个元数据,将每个组中特征值最小的元数据作为抽样的第一元数据。
6.一种元数据查询装置,其特征在于,包括:
抽样模块,用于在要查找的元数据中抽样出至少一个第一元数据;
确定模块,用于将抽样得到的每个第一元数据中的至少部分特征值作为索引,在内存中预置的稀疏索引表中查找对应的容器标识,所述稀疏索引表中记录容器标识,每个容器标识在所述索引表中位置的索引是所述容器标识对应容器中存储的元数据的至少部分特征值;
选择模块,用于根据同一个容器标识被查到的次数,选择满足设定条件的容器标识对应的容器;
加载模块,用于将所述选择的容器中的元数据加载到元数据缓存中;
查找模块,用于从所述元数据缓存中查找与所述要查找的元数据相同的数据块。
7.根据权利要求6所述的装置,其特征在于,所述选择模块具体用于:
对查找到的容器标识,按照同一容器标识被查询到的次数从高到低的顺序选择设定个数的容器,作为满足设定条件的容器。
8.根据权利要求6所述的装置,其特征在于,所述抽样模块具体用于:
将要查找的元数据分为多个组,在每个组中抽样一个元数据,将每个组中特征值最小的元数据作为抽样的第一元数据。
9.根据权利要求6-8任一项所述的装置,其特征在于,还包括:
稀疏索引表设置模块,用于从容器中存储的元数据中抽样出至少一个第二元数据,将第二元数据中的特征值,作为容器对应的容器标识在所述稀疏索引表中的位置的索引;或者,将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引,其中,每个第二元数据的特征值确定一个位置索引。
10.根据权利要求9所述的装置,其特征在于,所述稀疏索引表设置模块将第二元数据中的特征值,作为容器对应的容器标识在所述稀疏索引表中的位置的索引或者将第二元数据的部分特征值作为容器对应的容器标识在所述稀疏索引表中位置的索引部分,具体包括:
将稀疏索引表设置为由表示行索引的一级索引偏移量和表示列索引的二级索引偏移量组成的二维表;
如果容器标识位置的索引为所述抽样的第二元数据的特征值,则根据所述第二元数据的特征值的高位确定所述一级索引偏移量,根据所述第二元数据的特征值的低位确定所述二级索引偏移量;或者,如果所述位置的索引为所述第二元数据的部分特征值,则根据所述第二元数据中的部分特征值的高位确定所述一级索引偏移量,根据所述第二元数据中的部分特征值的低位确定所述二级索引偏移量。
CN2012101029351A 2012-04-10 2012-04-10 元数据查询方法和装置 Active CN102663090B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN2012101029351A CN102663090B (zh) 2012-04-10 2012-04-10 元数据查询方法和装置
PCT/CN2013/073519 WO2013152678A1 (zh) 2012-04-10 2013-03-30 元数据查询方法和装置
EP13776285.2A EP2711856B1 (en) 2012-04-10 2013-03-30 Method and device for metadata query
US14/094,156 US9529912B2 (en) 2012-04-10 2013-12-02 Metadata querying method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101029351A CN102663090B (zh) 2012-04-10 2012-04-10 元数据查询方法和装置

Publications (2)

Publication Number Publication Date
CN102663090A true CN102663090A (zh) 2012-09-12
CN102663090B CN102663090B (zh) 2013-11-06

Family

ID=46772581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101029351A Active CN102663090B (zh) 2012-04-10 2012-04-10 元数据查询方法和装置

Country Status (4)

Country Link
US (1) US9529912B2 (zh)
EP (1) EP2711856B1 (zh)
CN (1) CN102663090B (zh)
WO (1) WO2013152678A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309939A (zh) * 2013-04-23 2013-09-18 税友软件集团股份有限公司 一种基于元数据的动态检索方法及装置
WO2013152678A1 (zh) * 2012-04-10 2013-10-17 华为技术有限公司 元数据查询方法和装置
CN103927124A (zh) * 2013-01-15 2014-07-16 深圳市腾讯计算机系统有限公司 以Hash方式组织的磁盘访问控制装置及方法
CN106354831A (zh) * 2016-08-31 2017-01-25 天津南大通用数据技术股份有限公司 一种切分数据块的加载方法及装置
CN110865982A (zh) * 2019-11-19 2020-03-06 深信服科技股份有限公司 一种数据匹配方法、装置、电子设备及存储介质
CN110866001A (zh) * 2018-08-21 2020-03-06 北京京东尚科信息技术有限公司 确定待处理订单的方法和装置
CN115658730A (zh) * 2022-09-20 2023-01-31 中国科学院自动化研究所 稀疏数据的查询方法、装置、设备和计算机可读存储介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940365B2 (en) * 2014-07-08 2018-04-10 Microsoft Technology Licensing, Llc Ranking tables for keyword search
US9449188B2 (en) 2014-10-10 2016-09-20 Salesforce.Com, Inc. Integration user for analytical access to read only data stores generated from transactional systems
US10049141B2 (en) 2014-10-10 2018-08-14 salesforce.com,inc. Declarative specification of visualization queries, display formats and bindings
US9600548B2 (en) 2014-10-10 2017-03-21 Salesforce.Com Row level security integration of analytical data store with cloud architecture
US10101889B2 (en) 2014-10-10 2018-10-16 Salesforce.Com, Inc. Dashboard builder with live data updating without exiting an edit mode
US10366068B2 (en) 2014-12-18 2019-07-30 International Business Machines Corporation Optimization of metadata via lossy compression
CA2876466C (en) 2014-12-29 2022-07-05 Ibm Canada Limited - Ibm Canada Limitee Scan optimization using bloom filter synopsis
US10115213B2 (en) 2015-09-15 2018-10-30 Salesforce, Inc. Recursive cell-based hierarchy for data visualizations
US10089368B2 (en) 2015-09-18 2018-10-02 Salesforce, Inc. Systems and methods for making visual data representations actionable
US9971831B2 (en) 2015-11-25 2018-05-15 International Business Machines Corporation Managing complex queries with predicates
CN107291768B (zh) * 2016-04-11 2021-03-05 创新先进技术有限公司 一种索引建立的方法及装置
US10649991B2 (en) 2016-04-26 2020-05-12 International Business Machines Corporation Pruning of columns in synopsis tables
US10311047B2 (en) 2016-10-19 2019-06-04 Salesforce.Com, Inc. Streamlined creation and updating of OLAP analytic databases
US10877997B2 (en) 2017-06-28 2020-12-29 International Business Machines Corporation Clustering database data
CN110019218B (zh) 2017-12-08 2023-08-25 阿里巴巴集团控股有限公司 数据存储与查询方法及设备
JP7006265B2 (ja) * 2017-12-28 2022-01-24 富士通株式会社 情報処理装置,制御プログラムおよび情報処理方法
US10880389B2 (en) * 2018-03-05 2020-12-29 Nextworld Llc Customized application architecture utilizing sparse and base metadata layers
US20200272424A1 (en) * 2019-02-21 2020-08-27 Research & Business Foundation Sungkyunkwan University Methods and apparatuses for cacheline conscious extendible hashing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040244039A1 (en) * 2003-03-14 2004-12-02 Taro Sugahara Data search system and data search method using a global unique identifier
EP1569138A1 (en) * 2002-07-23 2005-08-31 Samsung Electronics Co., Ltd. Index structure of metadata, method for providing indices of metadata, and metadata searching method and apparatus using the indices of metadata
CN1670726A (zh) * 2004-03-17 2005-09-21 联想(北京)有限公司 一种检查机群文件系统中垃圾文件的方法
CN101944134A (zh) * 2010-10-18 2011-01-12 江苏大学 一种海量存储系统的元数据服务器和元数据索引方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404510A (en) * 1992-05-21 1995-04-04 Oracle Corporation Database index design based upon request importance and the reuse and modification of similar existing indexes
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6748401B2 (en) * 2001-10-11 2004-06-08 International Business Machines Corporation Method and system for dynamically managing hash pool data structures
US8799238B2 (en) * 2010-06-18 2014-08-05 Hewlett-Packard Development Company, L.P. Data deduplication
US8392384B1 (en) * 2010-12-10 2013-03-05 Symantec Corporation Method and system of deduplication-based fingerprint index caching
CN102663090B (zh) * 2012-04-10 2013-11-06 华为技术有限公司 元数据查询方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1569138A1 (en) * 2002-07-23 2005-08-31 Samsung Electronics Co., Ltd. Index structure of metadata, method for providing indices of metadata, and metadata searching method and apparatus using the indices of metadata
US20040244039A1 (en) * 2003-03-14 2004-12-02 Taro Sugahara Data search system and data search method using a global unique identifier
CN1670726A (zh) * 2004-03-17 2005-09-21 联想(北京)有限公司 一种检查机群文件系统中垃圾文件的方法
CN101944134A (zh) * 2010-10-18 2011-01-12 江苏大学 一种海量存储系统的元数据服务器和元数据索引方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013152678A1 (zh) * 2012-04-10 2013-10-17 华为技术有限公司 元数据查询方法和装置
US9529912B2 (en) 2012-04-10 2016-12-27 Huawei Technologies Co., Ltd. Metadata querying method and apparatus
CN103927124A (zh) * 2013-01-15 2014-07-16 深圳市腾讯计算机系统有限公司 以Hash方式组织的磁盘访问控制装置及方法
CN103927124B (zh) * 2013-01-15 2018-03-13 深圳市腾讯计算机系统有限公司 以Hash方式组织的磁盘访问控制装置及方法
US10169250B2 (en) 2013-01-15 2019-01-01 Tencent Technology (Shenzhen) Company Limited Method and apparatus method and apparatus for controlling access to a hash-based disk
CN103309939A (zh) * 2013-04-23 2013-09-18 税友软件集团股份有限公司 一种基于元数据的动态检索方法及装置
CN103309939B (zh) * 2013-04-23 2016-07-20 税友软件集团股份有限公司 一种基于元数据的动态检索方法及装置
CN106354831A (zh) * 2016-08-31 2017-01-25 天津南大通用数据技术股份有限公司 一种切分数据块的加载方法及装置
CN110866001A (zh) * 2018-08-21 2020-03-06 北京京东尚科信息技术有限公司 确定待处理订单的方法和装置
CN110865982A (zh) * 2019-11-19 2020-03-06 深信服科技股份有限公司 一种数据匹配方法、装置、电子设备及存储介质
CN115658730A (zh) * 2022-09-20 2023-01-31 中国科学院自动化研究所 稀疏数据的查询方法、装置、设备和计算机可读存储介质
CN115658730B (zh) * 2022-09-20 2024-02-13 中国科学院自动化研究所 稀疏数据的查询方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
US9529912B2 (en) 2016-12-27
EP2711856B1 (en) 2018-05-16
WO2013152678A1 (zh) 2013-10-17
EP2711856A4 (en) 2014-05-07
CN102663090B (zh) 2013-11-06
US20140089318A1 (en) 2014-03-27
EP2711856A1 (en) 2014-03-26

Similar Documents

Publication Publication Date Title
CN102663090B (zh) 元数据查询方法和装置
US10496523B2 (en) Sequential access storage and data de-duplication
CN101719141B (zh) 基于目录对象的文件处理方法和系统
CN102129458B (zh) 关系型数据库的存储方法及装置
US8572312B2 (en) Data de-duplication and solid state memory device
CN103902623B (zh) 用于在存储系统上存取文件的方法和系统
CN101751406B (zh) 一种实现基于列存储的关系型数据库的方法及装置
CN103488709B (zh) 一种索引建立方法及系统、检索方法及系统
CN103020255B (zh) 分级存储方法和装置
US20120303633A1 (en) Systems and methods for querying column oriented databases
CN105117417A (zh) 一种读优化的内存数据库Trie树索引方法
CN102779180A (zh) 数据存储系统的操作处理方法,数据存储系统
CN102999519A (zh) 一种数据库的读写方法及系统
CN104424219A (zh) 一种数据文件的管理方法及装置
CN103500224B (zh) 一种数据写入方法及装置、数据读取方法及装置
CN102622434A (zh) 数据存储方法、查找方法及装置
CN102609492B (zh) 一种支持表模式可变的元数据管理方法
CN102609531B (zh) 一种根据关键字反查文件的方法
CN116257523A (zh) 一种基于非易失存储器的列式存储索引方法及装置
US10055442B2 (en) Efficient updates in non-clustered column stores
CN104462388A (zh) 一种基于级联式存储介质的冗余数据清理方法
AU2018345147B2 (en) Database processing device, group map file production method, and recording medium
CN104166736A (zh) 倒排索引文件的存储方法和装置
CN113253932A (zh) 一种分布式存储系统的读写控制方法和系统
US20070198567A1 (en) File storage and retrieval method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant