CN102521383A - 一种分布式系统中的海量文件存储和访问方法 - Google Patents
一种分布式系统中的海量文件存储和访问方法 Download PDFInfo
- Publication number
- CN102521383A CN102521383A CN2011104334845A CN201110433484A CN102521383A CN 102521383 A CN102521383 A CN 102521383A CN 2011104334845 A CN2011104334845 A CN 2011104334845A CN 201110433484 A CN201110433484 A CN 201110433484A CN 102521383 A CN102521383 A CN 102521383A
- Authority
- CN
- China
- Prior art keywords
- access
- file
- dimension
- files
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明申请公开一种信息技术领域内的海量文件存储和访问方法。分布式系统内各节点均按照此方式来组织和保存文件:其通过对海量数据按照业务的要求分层多个维度来存储,每个维度对应一个层次的文件夹,文件夹的名称即维度的实例。当上层应用选择某一个维度的文件访问时,访问代理会将访问转化为对分布式节点的同步访问,节点上的本地代理会将某个维度的访问转换为对相应维度的文件夹内文件的访问,再由本地的访问引擎对文件进行处理并将处理结果反馈给访问代理,由访问代理将各个节点的处理结果汇总后返回给应用。本申请能够利用廉价的PC服务器来构成分布式集群来实现对海量数据的高速访问,提供价格低廉但媲美于磁盘阵列和磁盘柜的访问性能。
Description
技术领域
本发明专利申请公开一种信息技术领域的海量文件的存储、组织和访问方法。
背景技术
在信息技术领域,经常需要处理大量的数据,特别是在处理一些流式数据的时候,往往需要将数据保存在文件系统里面。但是文件系统的节点下的文件数量太多会导致IO瓶颈。在为了保持低成本而使用多个廉价存储服务器构成的分布式集群的时候,需要保证分布式存储方法的有效性和简洁性。因此针对应用的海量数据特性来组织和存储文件,会提高海量文件服务的响应性能。特别地,如果这些文件系统还需要响应应用程序不同维度的数据访问的时候,需要对这些文件进行遍历访问,因此采用何种方式来组织和存储文件有可能会对应用的反应时间产生较大的影响。
比如在搜索引擎的文件存储系统里面,搜索引擎接收和解析的各种文件体存放在本地文件系统里面,在搜索引擎按照不同的方法对文件进行检索的时候,经常会遍历这些文件的索引,同时还会访问这些文件体及相关的净文本。在一类特殊应用里面,时间维度或者数据的业务类型可能是需要检索的一个关键特性。百度、谷歌提供了对最新文件的检索功能,但是其主要文件检索过程则是在关键词的字符基础上发生的。因此,除非对百度、谷歌等商业化引擎进行改造,使其能够支持时间特性的检索。还有其他的一些特性的检索方式,百度、谷歌对其的支持也不好,这是因为其进行通用的搜索方面走的太远了的缘故。
本专利提出一种分布式系统中的海量文件存储、组织和访问方法,其利用分布式并行架构和维度分割特性来对海量的文件进行组织,使得对某些维度的数据访问非常快捷。对于搜索引擎来讲,由于限定访问的维度和文件组织一致,只需要访问指定节点所代表的维度即可完成应用的要求,因此没有额外的访问开销。
发明内容
通过对文件按照各种维度来组织文件的存放,可以加速文件的访问过程,针对应用的要求减少不必要的文件访问,是本发明申请的出发点。
比如文件对象有3个维度,时间、协议类型、业务类型等等,时间维度还可以细分为年月日、时、分等维度。如果应用程序想访问某一业务在某一时间段内的数据时,只需要访问对应的文件夹下的目录里面的文件即可,即一个层次的目录代表了一个维度。该层目录下某个文件夹的文件名即代表了一个维度的一个实例。
常见的集群式分布式系统,可以采用多台节点来进行文件的组织和存放,只需要将各个节点间的文件都按照一致的维度分割方法和秩序来进行,即可使用访问代理来对节点中的文件按照维度进行同步的访问,加快整个分布式系统的数据吞吐量。
当上层应用选择某一个维度的文件访问时,访问代理会将访问转化为对分布式节点的同步访问,节点上的本地代理会将某个维度的访问转换为对相应维度的文件夹内文件的访问,再由本地的访问引擎对文件进行处理并将处理结果反馈给访问代理。
也就是说在多个分布式节点上使用相同的方式来组织和保存文件,即将海量数据按照多个维度存储,每一个维度为文件系统中的一个层次的目录,目录的名称即该维度的一个实例。系统将访问指令中的维度信息提取出来,转化为对文件夹的访问,可以提高数据访问的效率,减小不必要的数据访问开销。
附图说明
附图1是不同节点间的文件存储和组织方式。各个节点采用相同的方式按照不同的维度来组织和存储文件。
附图2是通过访问代理对不同节点的数据访问和分布式节点的本地代理进行数据访问的流程。
具体实施方式
按照图1所示,文件组织为多个层次结构,一个维度为一个层次的目录,目录的名称为该维度的一个实例,比如日期为20111215。将最常用的维度放在最靠近根的层次下,比如附图1所示的维度A。不同的节点采用相同的文件组织模式,
如图2所示,具体的访问步骤如下:
①应用向访问代理下发访问指令,对某些维度的具体实例进行访问请求;
②访问代理将指令转化为对分布式节点的访问,将访问指令同步下发给各个分布式节点上的本地代理;
③分布式节点的本地代理将访问指令分解为不同的维度实例集合,将访问指令加载到访问引擎;
④分布式节点的访问引擎将访问指令中的维度实例集合转化为具体的文件夹,并对文件夹内的数据进行加载;
⑤分布式节点的访问引擎对加载的数据按照指令进行访问后将结果返回给本地代理;
⑥分布式节点的本地代理将本分布式节点的结果返回给访问代理;
⑦访问代理综合各个分布式节点的结果后返回给应用。
比如用户选择了某一段时间内的某种业务进行关键词查询,查询访问代理会将查询分解到分布式节点,节点的本地代理会对关键词查询按照业务类型、时间的维度,按照具体命中的维度实例来对表示该实例的文件夹下的内容进行访问,从而减少不必要的磁盘访问和计算开销。本分布式节点的查询结果由本地代理返回给查询访问代理,再由查询访问代理综合各节点的查询结果后返回给用户。
本发明申请能够利用廉价的PC服务器来打造分布式节点集群,同时能够快速对指定维度的数据进行快速访问,减少对不相关数据的访问和计算,极大地降低了系统的总体拥有成本。在不采用昂贵的磁盘阵列或者磁盘柜的时候,本发明申请的方案也能够提供非常优秀的访问性能。
Claims (2)
1.一种分布式系统中的海量文件存储和访问方法,其特征在于:在多个分布式节点上使用相同的方式来组织和保存文件,即将海量数据按照多个维度存储,每一个维度为文件系统中的一个层次的目录,目录的名称即该维度的一个实例。
2.一种分布式系统中的海量文件存储和访问方法,其特征在于:系统将访问指令中的维度信息提取出来,转化为对文件夹的访问。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104334845A CN102521383A (zh) | 2011-12-22 | 2011-12-22 | 一种分布式系统中的海量文件存储和访问方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104334845A CN102521383A (zh) | 2011-12-22 | 2011-12-22 | 一种分布式系统中的海量文件存储和访问方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102521383A true CN102521383A (zh) | 2012-06-27 |
Family
ID=46292296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104334845A Pending CN102521383A (zh) | 2011-12-22 | 2011-12-22 | 一种分布式系统中的海量文件存储和访问方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102521383A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572862A (zh) * | 2014-12-19 | 2015-04-29 | 阳珍秀 | 一种海量数据存储访问方法及系统 |
CN104820717A (zh) * | 2015-05-22 | 2015-08-05 | 国网智能电网研究院 | 一种海量小文件存储及管理方法和系统 |
CN106570038A (zh) * | 2015-10-12 | 2017-04-19 | 中国联合网络通信集团有限公司 | 一种分布式数据处理方法及系统 |
CN110109868A (zh) * | 2018-01-18 | 2019-08-09 | 伊姆西Ip控股有限责任公司 | 用于索引文件的方法、装置和计算机程序产品 |
CN112835908A (zh) * | 2021-02-22 | 2021-05-25 | 广东数程科技有限公司 | 一种时序数据存储方法、系统、存储设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101119278A (zh) * | 2007-09-14 | 2008-02-06 | 广东威创日新电子有限公司 | 一种处理海量数据的方法及系统 |
CN101334785A (zh) * | 2008-07-30 | 2008-12-31 | 浙江大学 | 分布式文件系统虚拟目录组织及命名空间管理的方法 |
CN101339570A (zh) * | 2008-08-12 | 2009-01-07 | 北京航空航天大学 | 一种高效的海量遥感数据分布式组织管理方法 |
US20100223244A1 (en) * | 2009-02-13 | 2010-09-02 | Ayon Sinha | Targeted multi-dimension data extraction for real-time analysis |
-
2011
- 2011-12-22 CN CN2011104334845A patent/CN102521383A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101119278A (zh) * | 2007-09-14 | 2008-02-06 | 广东威创日新电子有限公司 | 一种处理海量数据的方法及系统 |
CN101334785A (zh) * | 2008-07-30 | 2008-12-31 | 浙江大学 | 分布式文件系统虚拟目录组织及命名空间管理的方法 |
CN101339570A (zh) * | 2008-08-12 | 2009-01-07 | 北京航空航天大学 | 一种高效的海量遥感数据分布式组织管理方法 |
US20100223244A1 (en) * | 2009-02-13 | 2010-09-02 | Ayon Sinha | Targeted multi-dimension data extraction for real-time analysis |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572862A (zh) * | 2014-12-19 | 2015-04-29 | 阳珍秀 | 一种海量数据存储访问方法及系统 |
CN104820717A (zh) * | 2015-05-22 | 2015-08-05 | 国网智能电网研究院 | 一种海量小文件存储及管理方法和系统 |
CN104820717B (zh) * | 2015-05-22 | 2019-05-21 | 全球能源互联网研究院 | 一种海量小文件存储及管理方法和系统 |
CN106570038A (zh) * | 2015-10-12 | 2017-04-19 | 中国联合网络通信集团有限公司 | 一种分布式数据处理方法及系统 |
CN106570038B (zh) * | 2015-10-12 | 2020-05-22 | 中国联合网络通信集团有限公司 | 一种分布式数据处理方法及系统 |
CN110109868A (zh) * | 2018-01-18 | 2019-08-09 | 伊姆西Ip控股有限责任公司 | 用于索引文件的方法、装置和计算机程序产品 |
CN110109868B (zh) * | 2018-01-18 | 2023-07-18 | 伊姆西Ip控股有限责任公司 | 用于索引文件的方法、装置和计算机程序产品 |
CN112835908A (zh) * | 2021-02-22 | 2021-05-25 | 广东数程科技有限公司 | 一种时序数据存储方法、系统、存储设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharma et al. | A brief review on leading big data models | |
CN104536959B (zh) | 一种Hadoop存取海量小文件的优化方法 | |
US7711729B2 (en) | Searching a document based on a customer defined metadata schemata | |
Sharma et al. | Classification and comparison of NoSQL big data models | |
CN102012912B (zh) | 一种基于云计算环境的非结构化数据的管理方法 | |
CN104252536B (zh) | 一种基于hbase的上网日志数据查询方法及装置 | |
Devarakonda et al. | Data sharing and retrieval using OAI-PMH | |
CN102930060B (zh) | 一种数据库快速索引的方法及装置 | |
CN101369268B (zh) | 一种文档库系统中文档数据的存储方法 | |
CN103020315A (zh) | 一种基于主从分布式文件系统的海量小文件存储方法 | |
CN101611399A (zh) | 网页、网站建模和生成 | |
CN100458784C (zh) | 在数字图书馆中所采用的检索系统和检索方法 | |
CN102024019B (zh) | 一种分布式文件系统中基于后缀树的目录组织方法 | |
CN102541985A (zh) | 一种分布式文件系统中客户端目录缓存的组织方法 | |
CN102917009B (zh) | 一种基于云计算技术的股票数据采集和存储方法和系统 | |
CN102446225A (zh) | 一种实时搜索的方法、装置和系统 | |
KR20130086005A (ko) | 다수의 장치들에서 데이터 검색 방법 및 장치 | |
CN109284273B (zh) | 一种采用后缀数组索引的海量小文件查询方法及系统 | |
CN102521383A (zh) | 一种分布式系统中的海量文件存储和访问方法 | |
CN103823846A (zh) | 一种基于图论的大数据存储及查询方法 | |
CN101789027A (zh) | 一种基于dbms的元数据管理方法和元数据服务器 | |
Das et al. | A study on big data integration with data warehouse | |
CN103473337A (zh) | 一种分布式存储系统中处理面向海量目录和文件的方法 | |
CN1924915A (zh) | 基于数据仓库技术的图书馆智能管理系统 | |
CN101963993B (zh) | 一种数据库单表记录快速查找的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120627 |