CN107924408B - 在文件系统中搜索元数据和标签的异构索引的系统和方法 - Google Patents

在文件系统中搜索元数据和标签的异构索引的系统和方法 Download PDF

Info

Publication number
CN107924408B
CN107924408B CN201680046568.4A CN201680046568A CN107924408B CN 107924408 B CN107924408 B CN 107924408B CN 201680046568 A CN201680046568 A CN 201680046568A CN 107924408 B CN107924408 B CN 107924408B
Authority
CN
China
Prior art keywords
storage partition
query
partition
index
store
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680046568.4A
Other languages
English (en)
Other versions
CN107924408A (zh
Inventor
宁颜
斯蒂芬·摩根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN107924408A publication Critical patent/CN107924408A/zh
Application granted granted Critical
Publication of CN107924408B publication Critical patent/CN107924408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种在异构索引中处理查询的装置。所述装置包括:接收器,用于接收用户的查询,所述查询包括期望文件的至少一个期望属性;处理器,耦合到所述接收器且用于搜索所述异构索引。所述处理器用于通过以下方式搜索所述异构索引:从所述接收器接收所述查询;接收到所述查询后,在所述异构索引中为所述期望属性的存在测试存储分区的布隆过滤器;当所述布隆过滤器指示所述存储分区中不存在所述期望属性时,忽略所述存储分区并进入所述异构索引中的下一个存储分区;当所述布隆过滤器指示所述存储分区中存在所述期望属性时,搜索所述存储分区以确定所述存储分区中的一个或多个文件中的哪一个具有所述期望属性。

Description

在文件系统中搜索元数据和标签的异构索引的系统和方法
相关申请案交叉申请
本申请要求于2015年8月25日递交的发明名称为“在文件系统中搜索元数据和标签的异构索引的系统和方法”的第14/835,399号美国非临时专利申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文。
背景技术
数据存储的规模正快速的增长。为了利用这些数据存储,可能需要高效的用于搜索这些存储并提供基础维护以保持存储最新且有效的方法。此外,还可能需要具有使用纯语言文本以识别与数据的技术细节相反的数据的能力。因此,可能需要搜索纯语言文本标识和技术细节以获取结果文件的过程。
发明内容
在一实施例中,所公开的是一种在异构索引中处理查询的装置。所述装置包括:接收器,用于接收用户的查询,所述查询包括期望文件的至少一个期望属性;处理器,耦合到所述接收器且用于搜索所述异构索引。所述处理器用于通过以下方式搜索所述异构索引:从所述接收器接收所述查询;接收到所述查询后,在所述异构索引中为所述期望属性的存在测试存储分区的布隆过滤器;当所述布隆过滤器指示所述存储分区中不存在所述期望属性时,忽略所述存储分区并进入所述异构索引中的下一个存储分区;当所述布隆过滤器指示所述存储分区中存在所述期望属性时,搜索所述存储分区以确定所述存储分区中的一个或多个文件中的哪一个具有所述期望属性。
在另一实施例中,所公开的是一种为存储分区更新异构搜索索引的方法。所述方法包括:接收用户的更新消息,所述更新消息指示将在所述异构搜索索引上执行的操作,所述异构搜索索引包括属性,所述属性包括元数据和标签;记录日志条目,所述日志条目指示接收到所述用户的所述更新消息;根据所述更新消息确定所述将要执行的操作;根据所述更新消息更新所述异构搜索索引;记录日志条目,所述日志条目指示所述接收到的用户的更新消息执行成功。
在又一实施例中,所公开的是一种从异构搜索索引中的系统故障中恢复的方法。所述方法包括:在接收到多个待执行的动作时,将所述动作输入到日志中,所述动作的接收时间先于所述动作的执行时间,所述待执行的动作包括以下至少两项:更新所述异构搜索索引的布隆过滤器,所述布隆过滤器指示所述异构搜索索引中的标签或元数据的存在;更新所述异构搜索索引的K维树;以及更新所述异构搜索索引的键值存储;在动作完成时,将已执行的动作输入到日志中,以指示第一个动作执行成功并继续第二个动作。
在又一实施例中,更新单元用于为存储分区更新异构搜索索引。所述更新单元可以包括接收单元,用于接收用户的更新消息,所述更新消息指示将在所述异构搜索索引上进行的操作,所述异构搜索索引包括属性,所述属性包括元数据和标签。所述更新单元还可以包括:记录单元,用于记录日志条目,所述日志条目指示接收到所述用户的所述更新消息;确定单元,用于根据所述更新消息确定所述将要执行的操作。所述异构搜索索引可以根据所述更新消息更新。所述记录单元可以记录日志条目,所述日志条目指示所述接收到的用户的更新消息执行成功。
在又一实施例中,恢复单元用于从异构搜索索引中的系统故障中恢复。所述恢复单元可以包括日志记录单元,用于在接收到多个待执行的动作时,将所述动作输入到日志中,所述动作的接收时间先于所述动作的执行时间。所述待执行的动作包括:更新所述异构搜索索引的布隆过滤器,所述布隆过滤器指示所述异构搜索索引中的标签或元数据的存在。所述恢复单元还可以包括更新单元,用于更新所述异构搜索索引的K维树,以及更新所述异构搜索索引的键值存储。所述日志记录单元可以在动作完成时将已执行的动作输入到日志中,以指示第一个动作执行成功并继续第二个动作。
通过以下结合附图和权利要求的详细描述,这些以及其它特征将会被更清楚地理解。
附图说明
为了更透彻地理解本发明,现参阅结合附图和具体实施方式而描述的以下简要说明,其中的相同参考标号表示相同部分。
图1示出了包括文件元数据和标签的网元可读文件;
图2为索引服务器的一实施例的示意图;
图3为索引服务器查询流程的一实施例的流程图;
图4为索引服务器插入或删除以及更新流程的一实施例的流程图;
图5为索引服务器集群系统的一实施例的示意图;
图6为用于索引搜索的网元的一实施例的示意图。
具体实施方式
首先应理解,尽管下文提供一项或多项实施例的说明性实施方案,但所公开的系统和/或方法可使用任何数目的技术来实施,无论该技术是当前已知还是现有的。本发明决不应限于下文所说明的说明性实施方案、附图和技术,包括本文所说明并描述的示例性设计和实施方案,而是可在所附权利要求书的范围以及其等效物的完整范围内修改。
本文公开的是用于建立包括机器可读元数据和语义标签的文件属性的索引的方式。所公开的实施例促进了根据接收到的用户的查询进行的索引搜索。文件存储空间划分成了多个分区,所述分区用于存储文件和伴随这些文件的用于搜索的属性索引。每个分区包括用于指示上述分区中给定属性存在的布隆过滤器,用于将元数据的固定类别编入索引的K维树,以及各自将标签的一个类别编入索引的多个键值存储。采用记录分区中文件存在的哈希表,可以根据接收到的用户的更新消息更新和维护K维树和键值存储索引。通过创建接收到的用户的更新消息和成功执行的更新消息的日志,可以建立基于日志的恢复过程。
图1为包括文件元数据和标签的网元可读文件100,或称为媒体文件,的实施例。多种信息用于标记网元可读文件,以便识别、搜索、排序、索引、呈现网元可读文件,或与网元可读文件交互。元数据102示出了标记网元可读文件的一个示例。在一些实施例中,元数据102可称为机器可读文件属性并包括网元可读文件的自动生成的技术细节。例如,元数据102包括文件系统标识值、索引节点号、文件类型、文件访问许可、文件硬链接、文件所有者、群组、文件大小、文件创建时间戳、文件访问时间戳、文件修改时间戳、文件更改时间戳、文件名和/或其他类似的技术文件属性。
标签104示出了标记网元可读文件的另一个示例。在一些实施例中,标签104可称为人可读文件属性并包括关于网元可读文件的用户引入的语义细节。例如,对于如电影等网元可读文件,标签104包括标题、导演、一个或多个演员的名单、类型、起源国、语言、释放日期、长度、备注和/或其他类似的语义细节。例如,对于如音频文件等网元可读文件,标签104包括歌曲名、一个或多个歌手名、专辑名、一个或多个制作人的姓名、曲目数和/或其他类似的语义细节。
图2为索引服务器200的一实施例的示意图。服务器200包括一个或多个分区202,每个分区包括一个或多个指示文件属性存在于分区中的布隆过滤器204,索引多个固定文件元数据字段(如图1所示的元数据102)的K维树(kd-tree)索引206,以及各自索引文件标签(如图1所示的标签104或动态文件元数据字段)的一个类别的一个或多个键值存储(kv-store)208。在一实施例中,每个分区202代表服务器200上的部分可用文件空间且针对在分区202中进行索引的标签的每个类别包括一个kv存储208。例如,索引四个标签类别(如标题、演员、导演和类型)的分区202将包括四个kv存储208,每个kv存储208有一个相关联的标签类别。在一实施例中,每个分区202针对每个动态添加的元数据类别还包括一个kv存储208。服务器200还包括用于处理查询请求的查询处理器210和用于处理插入、删除和/或更新请求的更新处理器212。
当具有与文件相关联的元数据和/或标签的网元可读文件被添加到分区202时,该文件会被添加到分区202中的哈希表中,以记录该文件在该分区202中的存在。此外,该文件的元数据在该分区202的kd树索引206中进行索引,该文件的标签在对应于各自标签类别的kv存储208中进行索引。
查询处理器210接收用户的查询,该查询包括一个或多个查询属性。查询属性可以是识别网元可读文件的元数据和/或标签的任意组合,其中,针对该网元可读文件的搜索正在进行。查询处理器210解析该查询并为查询属性的存在测试每个分区202的每个布隆过滤器204。在一实施例中,每个分区202针对每个文件属性(如在该分区202中进行索引的元数据和/或标签)包括一个布隆过滤器204。例如,在一个服务器200中,若每个分区202索引27个组合的元数据和标签的文件属性,每个分区202包括27个布隆过滤器204。总的来说,若每个分区202索引N个文件属性,每个分区202包括N个布隆过滤器204。
每个布隆过滤器204包括多个比特,每个比特用作布隆过滤器204所在的分区202中的特定文件属性的存在的指示符。例如,当查询处理器210针对布隆过滤器204测试包括一个或多个查询属性的查询时,将查询属性与布隆过滤器204的比特相比较,以确定具有所述查询属性的文件是否存在于布隆过滤器204所在的特定分区202中。当查询处理器210从布隆过滤器204接收到指示具有期望查询属性的文件很可能存在于布隆过滤器204所在的分区202中的肯定响应时,所述查询处理器210搜索kd树索引206和kv存储208以识别具有期望查询属性的文件,并将这些文件返回给用户。
存储在分区202中的网元可读文件可以从分区202中删除,额外的网元可读文件可以插入到分区202中,和/或分区202中现有的网元可读文件可通过修改一个或多个元数据字段和/或标签更新。在一实施例中,更新处理器212接收用户的包括一个或多个将在分区202中执行的动作的请求。如上所述,动作可以是将网元可读文件插入到分区202中,将网元可读文件从分区202中删除,或者更新分区202中已存在的网元可读文件的元数据或标签。当更新处理器212在分区202中执行动作时,布隆过滤器204、kd树索引206和kv存储208会相应更新,以反映更新处理器212执行动作后分区202中存在的元数据和/或标签的变化。
可以理解,在一实施例中,查询处理器210、更新处理器212和分区202位于同一个设备上,例如,下文中进一步详细描述的单个网元。还可以理解,可替代实施例的存在使得查询处理器210、更新处理器212和分区202分布在多个设备中,例如,在云计算环境中。例如,在一实施例中,查询处理器210和更新处理器212可以位于第一设备上,分区202可以位于第二设备上,例如,网络附加存储设备。
图3为索引服务器查询流程300的一实施例的流程图。例如,方法300可以实施,以高效的搜索文件属性的索引,以响应用户的查询。在步骤302中,查询处理器(例如图2所示的查询处理器210)接收查询。所述查询包括相应的网元可读文件期望的一个或多个属性。在步骤304中,查询处理器通过布隆过滤器(例如图2所示的布隆过滤器204)测试索引服务器(例如图2所示的服务器200)中的第一分区(例如图2所示的分区202),以确定文件存在于具有所述查询指示的属性的特定分区的可能性。查询服务器从布隆过滤器接收响应,所述响应指示所述期望属性肯定不存在于所述分区中或所述期望属性很可能存在于所述分区中。当查询处理器从布隆过滤器接收到指示所述期望属性肯定不存在于所述分区中的响应时,在步骤306中,查询处理器忽略所述特定分区并在索引服务器的其余分区中继续流程300。
当查询处理器从布隆过滤器接收到指示所述期望属性很可能存在于所述分区中的响应时,在步骤308中,查询处理器为与kd树键匹配的元数据测试所述分区的kd树索引(例如图2所示的kd树索引206)。当找到与kd树键匹配的元数据时,在步骤312中,查询处理器搜索kd树索引以识别具有所述查询指示的元数据的特定网元可读文件。在搜索kd树索引以识别具有所述查询指示的元数据的特定网元可读文件后或者如果在步骤308中未找到与kd树键匹配的元数据,在步骤310中,查询处理器测试kv存储(例如图2所示的kv存储208),以确定查询中的标签是否与kv存储键匹配。
当找到与kv存储键匹配的标签时,在步骤316中,查询处理器搜索kv存储索引以识别具有所述查询指示的标签的特定网元可读文件。在搜索kv存储索引以识别具有所述查询指示的标签的特定网元可读文件后或者如果在步骤310中未找到与kv存储键匹配的标签,在步骤314中,查询处理器确定在步骤308中的kd树索引中或在步骤310的kv存储索引中是否未找到查询中的属性。当在任一索引中未找到查询中的属性时,在步骤320中,查询处理器扫描分区中的所有文件以找到与所述查询匹配的任意文件。在步骤318中,查询处理器整合步骤312中kd树搜索、步骤316中kv存储索引搜索和步骤320中对所有文件扫描的结果。在步骤322中,将结果返回给用户。
在流程300的可替代实施例中,在搜索kd树之前搜索kv存储,使得步骤310和步骤316中的一个或全部可以在步骤308和步骤312中的一个或全部之前执行。在流程300的另一可替代实施例中,在搜索kv存储之前搜索kd树。在流程300的另一可替代实施例中,例如,在具有多个处理器和/或多个核心的网元上,大致同时地搜索kv存储和kd树,使得kv存储的搜索和kd树的搜索大致同时地开始和/或结束。
图4为索引服务器插入或删除以及更新流程400的一实施例的流程图。例如,可以实施更新流程400,以响应于更新处理器接收到对应于分区的更新消息。在步骤402中,更新处理器(例如图2所示的更新处理器212)接收更新消息。所述更新消息指示将在分区(例如图2所示的分区202)中执行的动作。所述动作可以是将网元可读文件插入到分区中,从分区中删除网元可读文件,或更新与分区中已存在的网元可读文件相关联的元数据或标签,然后更新一个或多个索引(例如上述图2中讨论的kd树索引和/或kv存储索引)。
在步骤404中,更新处理器写入消息日志。消息日志记录更新消息的内容且为了将来使用或参考在如上所述的备份系统中进行维护。在步骤406中,更新处理器确定更新消息规定了何种操作。若所述更新消息指示将要将文件插入到分区中或者将要通过新的元数据和/或标签更新分区中现有的文件,在步骤408中,更新处理器确定所述文件是否存在于分区的哈希表中,如上所述。若所述文件不在分区的哈希表中,在步骤410中,更新处理器确定所述分区是否针对所述文件有可用空间或者所述分区是否已满。当所述分区已满,在步骤412中,更新处理器创建新的分区并指定该分区为当前分区,然后在步骤414中,更新哈希表以指示所述文件已置于新创建的分区中。更新哈希表后或者如果在步骤408中确定所述分区针对所述文件有可用空间,在步骤416中,更新处理器将当前指定的分区用于将来的动作。
若在步骤408中,在哈希表中找到了所述文件且因此更新了它的元数据和/标签,在步骤418中,更新处理器在分区中找到所述文件。在步骤420中,更新处理器插入与插入到步骤416或418中所确定分区的文件相关联的元数据和/或标签,更新分区的布隆过滤器、kd树以及kv存储以反映新文件和与它相关的元数据和/或标签。在步骤422中,更新处理器写入提交消息,所述提交消息指示更新消息中的在步骤404中记录在消息日志中的任务已经在步骤424中的返回之前完成。
若在步骤406中,更新处理器确定更新消息指示将要从分区中删除文件,在步骤426中,更新处理器确定所述文件是否存在于分区的哈希表中,如上所述。若所述文件不在分区的哈希表中,在步骤428中,更新处理器记录无法找到所述文件并在步骤424中返回。若在哈希表中找到所述文件,在步骤430中,更新处理器找到所述文件所在的分区。在步骤432中,更新处理器删除与删除的文件相关联的元数据和/或标签,更新分区的布隆过滤器、kd树以及kv存储。在步骤434中,更新处理器写入提交消息,所述提交消息指示更新消息中的在步骤404中记录在消息日志中的任务已经在步骤424中的返回之前完成。
在一实施例中,如下文进一步详细讨论,步骤404中的消息日志与步骤422和434中的提交日志的组合用于实现系统备份。例如,一个或多个更新消息被传递给了索引服务器(例如图2中的服务器200),只有一部分更新消息执行成功。对消息日志和提交日志的组合进行检查以确定哪些更新消息执行成功,哪些更新消息开始执行但尚未完成,哪些更新消息有待于开始执行。此备份系统可以通过以下方式实现:允许服务器通过匹配提交日志条目到消息日志条目和更新消息自动地从故障中恢复。
图5为索引服务器集群系统500的一实施例的示意图。在一实施例中,上述图2所示的服务器200可扩展并能够集成到基于集群的系统中,例如系统500。系统500包括查询调度器502、一个或多个包括集群管理器504的集群、恢复管理器506、索引服务器508(例如图2所示的服务器200),以及一个或多个用于数据存储的文件服务器510。查询调度器用于通过路由接收到的用户的查询到集群管理器504以及从系统500的集群返回查询结果给用户连接用户和剩余系统500。可以理解,查询调度器502、集群,以及文件服务器510可以存在于云计算环境中且不必位于单个设备上或单个位置中,例如,同一个数据中心。
集群管理器504根据从查询调度器502接收的查询指导系统504的每个集群的功能。例如,在从查询调度器502接收到查询后,集群管理器504根据流程300和400将查询传递给索引服务器508进行处理,如上所公开(例如,在文件服务器510上搜索具有特定元数据和/或标签属性的文件的存在,和/或更新文件的元数据和/或标签属性)。多个集群随着每个查询传输到每个集群的集群管理器504并行实现,每个集群包括索引服务器508。在一实施例中,查询可以由特别指定的索引服务器508执行。在其他实施例中,查询可以由查询调度器502确定的可用索引服务器508执行。
恢复管理器506用于帮助系统500通过利用消息和提交日志从系统故障中恢复,如图4所示的流程400中所述。当索引服务器508发生故障,查询调度器502将该索引服务器508从可用的索引服务器508的集合中移除,以确定查询分配。发生故障的索引服务器508回到操作状态并通过恢复管理器506恢复。在索引服务器508执行更新消息之前,更新消息由恢复管理器506记入日志。在更新消息执行成功后,恢复管理器506输入提交日志条目以表示第一个记入日志的消息已经完成。当索引服务器508发生故障,它根据恢复管理器506维护的日志恢复。例如,若发生故障的索引服务器508在提交日志#100后发生故障,索引服务器508必须获取从消息日志#101开始并持续到系统500接收到的最新操作的更新后的消息日志,然后相应地更新所有索引数据结构。通过实施此基于日志的系统恢复方法,可以认为系统具有备份以防止故障。
本发明所述的至少部分特征/方法可在网元(Network Element,简称NE)600中实施,例如,本发明所述的特征/方法可通过硬件、固件和/或在硬件上安装运行的软件实现。所述网元可以为通过网络传输数据的任何设备,例如,交换机、路由器、网桥、服务器和客户端等。图6为网元600的一实施例的示意图,所述网元可以用于处理索引服务器查询和/或作为如图2所示的服务器200更新。网元600可以是任何设备(例如,接入点、接入点基站、路由器、交换机、网关、网桥、服务器、客户端、用户设备、移动通信设备等。),其通过网络、系统和/或域传输数据。此外,术语网络“单元”、网络“节点”、网络“部件”、网络“模块”,和/或类似术语可以互换使用,用于概括性地描述网络设备;并且除非本发明另有特别规定和/或声明,这些术语不具有特定或特殊含义。在一实施例中,网元600可以是用于支持多个存储分区的装置,如流程300和/或流程400所述,每个分区能够索引,搜索,更新结构。
所述网元600可包括与收发器(Tx/Rx)620耦合的一个或多个下游端口610,所述收发器可以为发送器、接收器、或者二者的结合。所述Tx/Rx 620可以通过下游端口610向其他网络节点发射帧和/或从其他网络节点接收帧。类似地,所述网元600可以包括与多个上游端口640耦合的另一个Tx/Rx 620,其中所述Tx/Rx 620可以通过所述上游端口640向其他节点发射帧和/或从其他节点接收帧。所述下游端口610和/或上游端口640可以包括电和/或光发射和/或接收组件。在另一实施例中,所述网元600可以包括与所述Tx/Rx 620耦合的一根或多根天线。所述Tx/Rx 620可以通过一根或多根天线无线地发射数据到其他网元和/或接收其他网元的数据(例如,数据包)。
处理器630可以与所述Tx/Rx 620耦合,并可以用于处理帧和/或确定将数据包发送(例如,发射)到哪些节点。在一实施例中,所述处理器630可以包括一个或多个多核处理器和/或存储模块650,其可以充当数据存储、缓存等。处理器630可以实现为通用处理器或者一个或多个专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)和/或数字信号处理器(Digital Signal Processor,简称DSP)的一部分。虽然示出的是单个处理器,但处理器630不限于此,并且可包括多个处理器。处理器630可以用于进行多目的地帧的通信和/或处理。
图6还示出了存储模块650,可以与处理器630耦合,并可以是用于存储各种类型数据的非瞬时性介质。存储模块650可以包括存储设备,包括辅助存储器、只读存储器(Read-Only Memory,简称ROM)和随机存取存储器(Random Access Memory,简称RAM)。辅助存储器通常包括一个或多个磁盘驱动器、光驱、固态驱动器(Solid State Drive,简称SSD)和/或磁带驱动器,并且用于数据的非易失性存储,而且如果RAM的容量不足以存储所有工作数据辅助存储器则用作溢流数据存储设备。辅助存储器可用于当加载到RAM中程序被选择执行时存储这类程序。ROM用于存储指令,可能还存储在程序执行期间读取的数据。ROM是非易失性存储器设备,通常具有相对于辅助存储器的大存储容量来说较小的内存容量。RAM用于存储易失性数据,可能还存储指令。访问ROM和RAM通常都快于访问辅助存储器。存储模块650可以用于容纳用于执行本发明所述的各种实施例的指令。在一实施例中,存储模块650可以包括索引服务器查询流程660,流程660可在处理器630上实现且用于根据上述图3中所讨论的流程300搜索数据存储设备的分区的索引。在另一实施例中,存储模块650可以包括索引服务器更新流程670,流程670可以在处理器630上实现且用于根据上述图4中所讨论的流程400更新数据存储的分区的索引中的元数据和/或标签。
应理解的是,通过编程可执行指令和/或将可执行指令载入网元600,处理器630和/或存储器650中的至少一个发生变化,将网元600部分转换成特定机器或装置,例如,具有本发明所述的新颖功能的多核转发架构。加载可执行软件至计算机所实现的功能可以通过现有技术中公知的设计规则转换成硬件实施,这在电力工程和软件工程领域是很基础的。决定使用软件还是硬件来实施一个概念通常取决于对设计稳定性及待生产的单元数量的考虑,而不是从软件领域转换至硬件领域中所涉及的任何问题。通常,仍在经受频繁改变的设计可以优选在软件中实施,因为重改硬件实施方案比重改软件设计更为昂贵。通常,稳定及大规模生产的设计更适于在硬件(如ASIC)中实施,因为运行硬件实施的大规模生产比软件实施更为便宜。设计通常可以以软件形式进行开发和测试,之后通过现有技术中公知的设计规则转变成ASIC中等同的硬件实施,该ASIC硬线软件指令。以与由新ASIC控制的机器为特定机器或装置相同的方式,同样,已经编程和/或加载有可执行指令的计算机可以被看作特定机器或装置。本发明的任何处理可以通过使处理器(例如,通用多核处理器)执行计算机程序来实施。在这种情况下,可以使用任何类型的非瞬时性计算机可读介质向计算机或网络设备提供计算机程序产品。计算机程序产品可存储在计算机或网络设备中的非瞬时性计算机可读介质中。非暂时性计算机可读媒体包含任何类型的有形存储媒体。非瞬时性计算机可读介质的示例包括磁性存储介质(如软盘、磁带、硬盘驱动器等)、光磁性存储介质(如磁光盘)、只读光盘(Compact Disc Read-Only Memory,简称CD-ROM)、可录光盘(Compact Disc-Readable,简称CD-R)、可重写光盘(Compact Disc-Rewritable,简称CD-R/W)、数字多功能光盘(Digital Versatile Disc,简称DVD)、蓝光(注册商标)光盘(Blue-rayDisc,简称BD)和半导体存储器(如掩模ROM、可编程ROM(Programmable ROM,简称PROM)、可擦PROM、闪存ROM和RAM)。还可以使用任何类型的瞬时性计算机可读介质向计算机或网络设备提供计算机程序产品。瞬时性计算机可读介质的示例包括电信号、光信号和电磁波。瞬时性计算机可读介质可以经由有线通信线路(例如,电线或光纤)或无线通信线路将程序提供给计算机。
虽然本发明中已提供若干实施例,但应理解,在不脱离本发明的精神或范围的情况下,本发明所公开的系统和方法可以以许多其它特定形式来体现。本发明的实例应被视为说明性而非限制性的,且本发明并不限于本文本中所给出的细节。例如,各种元件或组件可以在另一系统中组合或整合,或者某些特征可以省略或不实施。
此外,在不脱离本发明的范围的情况下,各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其它系统、模块、技术或方法进行组合或合并。展示或论述为彼此耦合或直接耦合或通信的其它项也可以采用电方式、机械方式或其它方式经由某一接口、设备或中间组件间接地耦合或通信。其他变化、替代和改变的示例可以由本领域的技术人员在不脱离本文精神和所公开的范围的情况下确定。

Claims (7)

1.一种在异构索引中处理查询的装置,其特征在于,包括:
接收器,用于接收用户的查询,所述查询包括期望文件的至少一个期望属性,其中,所述期望属性包括元数据和标签;
处理器,耦合到所述接收器且用于通过以下方式搜索所述异构索引:
从所述接收器接收所述查询;
接收到所述查询后,在所述异构索引中为所述期望属性的存在测试存储分区的布隆过滤器,所述存储分区包括多个数据结构,所述数据结构包括K维树(kd-tree)和键值存储(kv-store);
所述键值存储在动态添加元数据的类别之后建立;
当所述布隆过滤器指示所述存储分区中不存在所述期望属性时,忽略所述存储分区并进入所述异构索引中的下一个存储分区;
当所述布隆过滤器指示所述存储分区中存在所述期望属性时,搜索所述存储分区以确定所述存储分区中的一个或多个文件中的哪一个具有所述期望属性;
所述搜索所述存储分区以确定一个或多个文件中的哪一个具有所述期望属性包括:在搜索所述kv存储之前搜索所述kd树。
2.根据权利要求1所述的装置,其特征在于,所述搜索所述存储分区以确定一个或多个文件中的哪一个具有所述期望属性包括:
当所述布隆过滤器指示所述存储分区中存在所述期望属性时,测试所述存储分区中的所述kd树以确定所述期望属性是否是期望元数据;
当所述kd树中存在所述期望元数据时,搜索所述存储分区中的kd树索引以确定所述存储分区中的所述一个或多个文件中的哪一个具有所述期望元数据;
当所述期望属性不位于所述kd树中时或在搜索所述kd树索引后,测试所述存储分区中的所述kv存储以确定所述期望属性是否是期望标签;
当所述kv存储中存在所述期望标签时,搜索所述存储分区中的kv存储索引以确定所述存储分区中的所述一个或多个文件中的哪一个具有所述期望标签;
当所述kv存储中不存在所述期望属性时或在搜索所述kv存储索引后,测试所述查询以确定是否在所述kd树或所述kv存储中找到了所有期望属性;
当所述kd树或所述kv存储中仍然没有找到一个或多个所述期望属性时,扫描所述存储分区以查找包括所述期望属性的一个或多个文件中的任意一个;
当在两个或两个以上kd树或kv存储中找到所述查询的任意期望属性时或在扫描所述存储分区后,整合搜索和扫描功能的结果。
3.根据权利要求2所述的装置,其特征在于,一个或多个属性与所述存储分区中的一个或多个文件中的每一个相关联,所述属性包括元数据或标签。
4.根据权利要求3所述的装置,其特征在于,所述标签在所述存储分区中进行索引并被组织成多个类别,所述存储分区针对每个标签类别包括一个kv存储。
5.根据权利要求3所述的装置,其特征在于,所述存储分区包括用于将所述元数据的固定类别编入索引的kd树。
6.根据权利要求2所述的装置,其特征在于,所述查询包括至少两个包括元数据和标签的期望属性。
7.根据权利要求2所述的装置,其特征在于,所述存储分区针对在所述分区中进行索引的属性的每个类别包括一个布隆过滤器。
CN201680046568.4A 2015-08-25 2016-08-12 在文件系统中搜索元数据和标签的异构索引的系统和方法 Active CN107924408B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/835,399 2015-08-25
US14/835,399 US20170060941A1 (en) 2015-08-25 2015-08-25 Systems and Methods for Searching Heterogeneous Indexes of Metadata and Tags in File Systems
PCT/CN2016/094912 WO2017032229A1 (en) 2015-08-25 2016-08-12 Systems and methods for searching heterogeneous indexes of metadata and tags in file systems

Publications (2)

Publication Number Publication Date
CN107924408A CN107924408A (zh) 2018-04-17
CN107924408B true CN107924408B (zh) 2020-09-04

Family

ID=58095725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680046568.4A Active CN107924408B (zh) 2015-08-25 2016-08-12 在文件系统中搜索元数据和标签的异构索引的系统和方法

Country Status (3)

Country Link
US (1) US20170060941A1 (zh)
CN (1) CN107924408B (zh)
WO (1) WO2017032229A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017106863A1 (en) * 2015-12-18 2017-06-22 Drexel University Identifying and quantifying architectural debt and decoupling level; a metric for architectural maintenance complexity
US10229285B2 (en) * 2016-03-22 2019-03-12 International Business Machines Corporation Privacy enhanced central data storage
US10198325B2 (en) 2016-05-24 2019-02-05 Mastercard International Incorporated Method and system for desynchronization recovery for permissioned blockchains using bloom filters
US10204341B2 (en) 2016-05-24 2019-02-12 Mastercard International Incorporated Method and system for an efficient consensus mechanism for permissioned blockchains using bloom filters and audit guarantees
US10635650B1 (en) * 2017-03-14 2020-04-28 Amazon Technologies, Inc. Auto-partitioning secondary index for database tables
US10582277B2 (en) 2017-03-27 2020-03-03 Snap Inc. Generating a stitched data stream
US11507534B2 (en) * 2017-05-11 2022-11-22 Microsoft Technology Licensing, Llc Metadata storage for placeholders in a storage virtualization system
US11132367B1 (en) 2017-06-06 2021-09-28 Amazon Technologies, Inc. Automatic creation of indexes for database tables
US11687333B2 (en) 2018-01-30 2023-06-27 Drexel University Feature decoupling level
CN108897859A (zh) * 2018-06-29 2018-11-27 郑州云海信息技术有限公司 一种元数据检索方法、装置、设备及计算机可读存储介质
US11615142B2 (en) * 2018-08-20 2023-03-28 Salesforce, Inc. Mapping and query service between object oriented programming objects and deep key-value data stores
US20230237016A1 (en) * 2022-01-21 2023-07-27 Dell Products, L.P. Extending filesystem domains with a domain membership condition
US11500889B1 (en) 2022-04-24 2022-11-15 Morgan Stanley Services Group Inc. Dynamic script generation for distributed query execution and aggregation
US11520739B1 (en) 2022-04-24 2022-12-06 Morgan Stanley Services Group Inc. Distributed query execution and aggregation
US11645231B1 (en) 2022-04-24 2023-05-09 Morgan Stanley Services Group Inc. Data indexing for distributed query execution and aggregation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770291A (zh) * 2009-04-30 2010-07-07 广东国笔科技股份有限公司 输入系统语意分析数据散列存储和分析方法
CN101944134A (zh) * 2010-10-18 2011-01-12 江苏大学 一种海量存储系统的元数据服务器和元数据索引方法
CN104115146A (zh) * 2012-02-14 2014-10-22 阿尔卡特朗讯公司 在分布式系统中存储和搜索带标签的内容项的方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7551182B2 (en) * 2005-01-18 2009-06-23 Oculus Info Inc. System and method for processing map data
US8150870B1 (en) * 2006-12-22 2012-04-03 Amazon Technologies, Inc. Scalable partitioning in a multilayered data service framework
US9594794B2 (en) * 2007-10-19 2017-03-14 Oracle International Corporation Restoring records using a change transaction log
US8595248B2 (en) * 2008-05-21 2013-11-26 Oracle International Corporation Querying a cascading index that avoids disk accesses
US8694703B2 (en) * 2010-06-09 2014-04-08 Brocade Communications Systems, Inc. Hardware-accelerated lossless data compression
US9244976B1 (en) * 2010-12-16 2016-01-26 The George Washington University and Board of Regents Just-in-time analytics on large file systems and hidden databases
US8706697B2 (en) * 2010-12-17 2014-04-22 Microsoft Corporation Data retention component and framework
US8332424B2 (en) * 2011-05-13 2012-12-11 Google Inc. Method and apparatus for enabling virtual tags
CN102298631B (zh) * 2011-08-31 2013-08-21 江苏大学 一种新型元数据管理系统和一种元数据属性混合索引方法
JP5557824B2 (ja) * 2011-11-14 2014-07-23 株式会社日立ソリューションズ 階層ファイルストレージに対する差分インデクシング方法
US8938416B1 (en) * 2012-01-13 2015-01-20 Amazon Technologies, Inc. Distributed storage of aggregated data
US9075758B2 (en) * 2012-03-19 2015-07-07 Samsung Electronics Co., Ltd. Removable storage device with transactional operation support and system including same
CN104380690B (zh) * 2012-06-15 2018-02-02 阿尔卡特朗讯 用于推荐服务的隐私保护系统的架构
US9081826B2 (en) * 2013-01-07 2015-07-14 Facebook, Inc. System and method for distributed database query engines
US8972337B1 (en) * 2013-02-21 2015-03-03 Amazon Technologies, Inc. Efficient query processing in columnar databases using bloom filters
US20140258002A1 (en) * 2013-03-11 2014-09-11 DataPop, Inc. Semantic model based targeted search advertising
US10146818B2 (en) * 2013-03-15 2018-12-04 Nec Corporation Computing system
US10242036B2 (en) * 2013-08-14 2019-03-26 Ricoh Co., Ltd. Hybrid detection recognition system
US10719562B2 (en) * 2013-12-13 2020-07-21 BloomReach Inc. Distributed and fast data storage layer for large scale web data services
US9569522B2 (en) * 2014-06-04 2017-02-14 International Business Machines Corporation Classifying uniform resource locators
CN104536958B (zh) * 2014-09-26 2018-03-16 杭州华为数字技术有限公司 一种复合索引方法及装置
US9892166B2 (en) * 2014-10-09 2018-02-13 Ca, Inc. Partitioning log records based on term frequency and type for selective skipping during full-text searching

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770291A (zh) * 2009-04-30 2010-07-07 广东国笔科技股份有限公司 输入系统语意分析数据散列存储和分析方法
CN101944134A (zh) * 2010-10-18 2011-01-12 江苏大学 一种海量存储系统的元数据服务器和元数据索引方法
CN104115146A (zh) * 2012-02-14 2014-10-22 阿尔卡特朗讯公司 在分布式系统中存储和搜索带标签的内容项的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
分布式文件系统元数据高效索引机制设计与实现;张友东;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130715(第7期);I138-684 *

Also Published As

Publication number Publication date
US20170060941A1 (en) 2017-03-02
CN107924408A (zh) 2018-04-17
WO2017032229A1 (en) 2017-03-02

Similar Documents

Publication Publication Date Title
CN107924408B (zh) 在文件系统中搜索元数据和标签的异构索引的系统和方法
US8938430B2 (en) Intelligent data archiving
US20170031948A1 (en) File synchronization method, server, and terminal
WO2018233630A1 (zh) 故障发现
CN109145060B (zh) 数据处理方法及装置
US8880549B2 (en) Concurrent database access by production and prototype applications
US20150143065A1 (en) Data Processing Method and Apparatus, and Shared Storage Device
CN106682003B (zh) 分布式存储命名空间的路径分割映射方法和装置
CN102508913A (zh) 一种带有数据立方存储索引结构的云计算系统
CN109189759B (zh) Kv存储系统中的数据读取方法、数据查询方法、装置及设备
CN113626416A (zh) 数据校验的方法、装置、计算设备和存储介质
CN114968966A (zh) 分布式元数据远程异步复制方法、装置和设备
CN110413629B (zh) 基于日志解析的异构数据库数据一致性的检查方法
CN106649530B (zh) 云详单查询管理系统及方法
CN112306957A (zh) 获取索引节点号的方法、装置、计算设备和存储介质
CN112395307A (zh) 执行语句的方法、装置、服务器及存储介质
CN112749144B (zh) 一种基于区块链的持久化文件存储系统及方法
CN111767282B (zh) 基于MongoDB的存储系统及数据插入方法和存储介质
CN111176901B (zh) 一种hdfs删除文件恢复方法、终端设备及存储介质
CN113032408B (zh) 数据处理方法、系统及设备
CN103177026A (zh) 数据管理方法和数据管理系统
CN113688148B (zh) 城轨数据查询方法、装置、电子设备及可读存储介质
US20150347402A1 (en) System and method for enabling a client system to generate file system operations on a file system data set using a virtual namespace
US20200249876A1 (en) System and method for data storage management
US20070282810A1 (en) Overlay Dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant