CN102521383A

CN102521383A - 一种分布式系统中的海量文件存储和访问方法

Info

Publication number: CN102521383A
Application number: CN2011104334845A
Authority: CN
Inventors: 廖闻剑; 倪良胜; 汪洋
Original assignee: NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Current assignee: NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Priority date: 2011-12-22
Filing date: 2011-12-22
Publication date: 2012-06-27

Abstract

本发明申请公开一种信息技术领域内的海量文件存储和访问方法。分布式系统内各节点均按照此方式来组织和保存文件：其通过对海量数据按照业务的要求分层多个维度来存储，每个维度对应一个层次的文件夹，文件夹的名称即维度的实例。当上层应用选择某一个维度的文件访问时，访问代理会将访问转化为对分布式节点的同步访问，节点上的本地代理会将某个维度的访问转换为对相应维度的文件夹内文件的访问，再由本地的访问引擎对文件进行处理并将处理结果反馈给访问代理，由访问代理将各个节点的处理结果汇总后返回给应用。本申请能够利用廉价的PC服务器来构成分布式集群来实现对海量数据的高速访问，提供价格低廉但媲美于磁盘阵列和磁盘柜的访问性能。

Description

一种分布式系统中的海量文件存储和访问方法

技术领域

本发明专利申请公开一种信息技术领域的海量文件的存储、组织和访问方法。

背景技术

在信息技术领域，经常需要处理大量的数据，特别是在处理一些流式数据的时候，往往需要将数据保存在文件系统里面。但是文件系统的节点下的文件数量太多会导致IO瓶颈。在为了保持低成本而使用多个廉价存储服务器构成的分布式集群的时候，需要保证分布式存储方法的有效性和简洁性。因此针对应用的海量数据特性来组织和存储文件，会提高海量文件服务的响应性能。特别地，如果这些文件系统还需要响应应用程序不同维度的数据访问的时候，需要对这些文件进行遍历访问，因此采用何种方式来组织和存储文件有可能会对应用的反应时间产生较大的影响。

比如在搜索引擎的文件存储系统里面，搜索引擎接收和解析的各种文件体存放在本地文件系统里面，在搜索引擎按照不同的方法对文件进行检索的时候，经常会遍历这些文件的索引，同时还会访问这些文件体及相关的净文本。在一类特殊应用里面，时间维度或者数据的业务类型可能是需要检索的一个关键特性。百度、谷歌提供了对最新文件的检索功能，但是其主要文件检索过程则是在关键词的字符基础上发生的。因此，除非对百度、谷歌等商业化引擎进行改造，使其能够支持时间特性的检索。还有其他的一些特性的检索方式，百度、谷歌对其的支持也不好，这是因为其进行通用的搜索方面走的太远了的缘故。

本专利提出一种分布式系统中的海量文件存储、组织和访问方法，其利用分布式并行架构和维度分割特性来对海量的文件进行组织，使得对某些维度的数据访问非常快捷。对于搜索引擎来讲，由于限定访问的维度和文件组织一致，只需要访问指定节点所代表的维度即可完成应用的要求，因此没有额外的访问开销。

发明内容

通过对文件按照各种维度来组织文件的存放，可以加速文件的访问过程，针对应用的要求减少不必要的文件访问，是本发明申请的出发点。

比如文件对象有3个维度，时间、协议类型、业务类型等等，时间维度还可以细分为年月日、时、分等维度。如果应用程序想访问某一业务在某一时间段内的数据时，只需要访问对应的文件夹下的目录里面的文件即可，即一个层次的目录代表了一个维度。该层目录下某个文件夹的文件名即代表了一个维度的一个实例。

常见的集群式分布式系统，可以采用多台节点来进行文件的组织和存放，只需要将各个节点间的文件都按照一致的维度分割方法和秩序来进行，即可使用访问代理来对节点中的文件按照维度进行同步的访问，加快整个分布式系统的数据吞吐量。

当上层应用选择某一个维度的文件访问时，访问代理会将访问转化为对分布式节点的同步访问，节点上的本地代理会将某个维度的访问转换为对相应维度的文件夹内文件的访问，再由本地的访问引擎对文件进行处理并将处理结果反馈给访问代理。

也就是说在多个分布式节点上使用相同的方式来组织和保存文件，即将海量数据按照多个维度存储，每一个维度为文件系统中的一个层次的目录，目录的名称即该维度的一个实例。系统将访问指令中的维度信息提取出来，转化为对文件夹的访问，可以提高数据访问的效率，减小不必要的数据访问开销。

附图说明

附图1是不同节点间的文件存储和组织方式。各个节点采用相同的方式按照不同的维度来组织和存储文件。

附图2是通过访问代理对不同节点的数据访问和分布式节点的本地代理进行数据访问的流程。

具体实施方式

按照图1所示，文件组织为多个层次结构，一个维度为一个层次的目录，目录的名称为该维度的一个实例，比如日期为20111215。将最常用的维度放在最靠近根的层次下，比如附图1所示的维度A。不同的节点采用相同的文件组织模式，

如图2所示，具体的访问步骤如下：

①应用向访问代理下发访问指令，对某些维度的具体实例进行访问请求；

②访问代理将指令转化为对分布式节点的访问，将访问指令同步下发给各个分布式节点上的本地代理；

③分布式节点的本地代理将访问指令分解为不同的维度实例集合，将访问指令加载到访问引擎；

④分布式节点的访问引擎将访问指令中的维度实例集合转化为具体的文件夹，并对文件夹内的数据进行加载；

⑤分布式节点的访问引擎对加载的数据按照指令进行访问后将结果返回给本地代理；

⑥分布式节点的本地代理将本分布式节点的结果返回给访问代理；

⑦访问代理综合各个分布式节点的结果后返回给应用。

比如用户选择了某一段时间内的某种业务进行关键词查询，查询访问代理会将查询分解到分布式节点，节点的本地代理会对关键词查询按照业务类型、时间的维度，按照具体命中的维度实例来对表示该实例的文件夹下的内容进行访问，从而减少不必要的磁盘访问和计算开销。本分布式节点的查询结果由本地代理返回给查询访问代理，再由查询访问代理综合各节点的查询结果后返回给用户。

本发明申请能够利用廉价的PC服务器来打造分布式节点集群，同时能够快速对指定维度的数据进行快速访问，减少对不相关数据的访问和计算，极大地降低了系统的总体拥有成本。在不采用昂贵的磁盘阵列或者磁盘柜的时候，本发明申请的方案也能够提供非常优秀的访问性能。

Claims

1.一种分布式系统中的海量文件存储和访问方法，其特征在于：在多个分布式节点上使用相同的方式来组织和保存文件，即将海量数据按照多个维度存储，每一个维度为文件系统中的一个层次的目录，目录的名称即该维度的一个实例。

2.一种分布式系统中的海量文件存储和访问方法，其特征在于：系统将访问指令中的维度信息提取出来，转化为对文件夹的访问。