CN105095511A - 一种基于分布式系统的文件处理方法、装置及系统 - Google Patents

一种基于分布式系统的文件处理方法、装置及系统 Download PDF

Info

Publication number
CN105095511A
CN105095511A CN201510568269.4A CN201510568269A CN105095511A CN 105095511 A CN105095511 A CN 105095511A CN 201510568269 A CN201510568269 A CN 201510568269A CN 105095511 A CN105095511 A CN 105095511A
Authority
CN
China
Prior art keywords
file
access
destination object
file size
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510568269.4A
Other languages
English (en)
Inventor
张延良
李雪生
程瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510568269.4A priority Critical patent/CN105095511A/zh
Publication of CN105095511A publication Critical patent/CN105095511A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种基于分布式系统的文件处理方法、装置及系统,上述方法包括以下步骤:客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件;实现了根据文件大小,从对应的访问目标对象中获取对应的文件进行访问,大大节约了文件访问时间,提高了文件处理效率。

Description

一种基于分布式系统的文件处理方法、装置及系统
技术领域
本发明属于文件处理领域,尤其涉及一种基于分布式系统的文件处理方法、装置及系统。
背景技术
图1所示为现有技术的文件处理方法流程图,包括客户端、元数据服务器、数据处理服务器,其中,所述客户端分别与所述元数据服务器、所述数据处理服务器相连;所有文件元数据存储至元数据服务器,而文件存储至数据处理服务器中。
文件数据写流程如下:
客户端向元数据服务器发送写入或修改文件元数据请求;
所述元数据服务器存储文件元数据或者修改文件元数据后,向客户端发送写入或修改成功响应消息;
所述客户端接收写入或修改成功响应消息后,将文件写入数据处理服务器。
文件数据读流程如下:
客户端向元数据服务器发送文件元数据获取请求;
所述元数据服务器接收所述元数据获取请求后,向所述客户端反馈文件元数据响应消息;其中,所述文件元数据响应消息中携带了文件元数据;
所述客户端向数据处理服务器发送文件数据获取请求;
所述数据处理服务器向客户端反馈文件数据响应消息;其中,所述文件数据响应消息中携带了文件。
但是上述文件读写流程中,无论文件大小,都需要客户端分别与元数据服务器、数据处理服务器进行交互,大大延迟了文件处理时间。
发明内容
本发明提供一种基于分布式系统的文件处理方法、装置及系统,以解决上述问题。
本发明提供一种基于分布式系统的文件处理方法。上述方法包括以下步骤:
客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件。
本发明还提供了一种基于分布式系统的文件处理装置,包括目标对象确定模块、文件获取模块;其中,所述目标对象确定模块与所述文件获取模块相连;
所述目标对象确定模块,用于访问文件时,根据文件大小,确定对应的访问目标对象并将确定的所述访问目标对象发送至所述文件获取模块;
所述文件获取模块,用于从所述访问目标对象中获取对应的文件。
本发明还提供了一种基于分布式系统的文件处理系统,包括客户端、元数据服务器、数据处理服务器;其中,所述客户端分别与所述元数据服务器、所述数据处理服务器相连;
所述客户端,用于若所述文件大小小于预设文件大小,则从元数据服务器中获取与小于预设文件大小的文件对应的文件元数据;还用于从文件元数据的扩展属性中获取对应的文件并进行读取访问;
用于若所述文件大小大于或等于预设文件大小,则从元数据服务器中获取与大于或等于预设文件大小的文件对应的文件元数据;还用于从数据处理服务器中获取大于或等于预设文件大小的文件并进行读取访问;
所述文件元数据,用于存储文件元数据。
所述数据处理服务器,用于存储大于或等于预设文件大小的文件。
通过以下方案:客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件;实现了根据文件大小,从对应的访问目标对象中获取对应的文件进行访问,大大节约了文件访问时间,提高了文件处理效率。
通过以下方案:若所述文件大小小于预设文件大小,则所述客户端从元数据服务器中获取与小于预设文件大小的文件对应的文件元数据;所述客户端从文件元数据的扩展属性中获取对应的文件并进行读取访问;大大提高了对小文件的读性能;同时,由于不需要从数据处理服务器中获取文件,因此,大大节约了文件访问时间,提高了文件处理效率。
通过以下方案:若所述客户端从元数据服务器中获取的文件元数据的扩展属性中获取对应的文件,则将所述文件直接加载至内存中进行读取访问;若所述客户端从数据处理服务器中获取大于或等于预设文件大小的文件,则将所述文件分割成预设份数后,按顺序加载至内存中进行顺序读取访问;实现了根据访问文件大小,确定不同的读取方式,大大提高了读取的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为现有技术的文件处理方法流程图;
图2所示为本发明实施例1的文件处理方法流程图;
图3所示为本发明实施例2的文件处理装置结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图2所示为本发明实施例1的文件处理方法流程图,包括以下步骤:
步骤201:客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件;
进一步地,所述访问目标对象包括元数据服务器、数据处理服务器。
进一步地,客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件之前,还包括:
预先将小于预设文件大小的文件写入文件元数据的扩展属性并将所述文件元数据存储至元数据服务器。
其中,所述预设文件大小可以根据实际情况进行灵活设定(例如:500KB),在此不用于限定本实施例的保护范围。
进一步地,客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件的过程为:
若所述文件大小小于预设文件大小,则所述客户端从元数据服务器中获取与小于预设文件大小的文件对应的文件元数据;
所述客户端从文件元数据的扩展属性中获取对应的文件并进行读取访问。
进一步地,客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件的过程为:
若所述文件大小大于或等于预设文件大小,则所述客户端从元数据服务器中获取与大于或等于预设文件大小的文件对应的文件元数据;
所述客户端从数据处理服务器中获取大于或等于预设文件大小的文件并进行读取访问。
步骤202:所述客户端根据从不同的访问目标对象中获取的文件,确定对应的访问方式。
进一步地,所述客户端根据从不同的访问目标对象中获取的文件,确定对应的访问方式过程为:
若所述客户端从元数据服务器中获取的文件元数据的扩展属性中获取对应的文件,则将所述文件直接加载至内存中进行读取访问。
进一步地,所述客户端根据从不同的访问目标对象中获取的文件,确定对应的访问方式过程为:
若所述客户端从数据处理服务器中获取大于或等于预设文件大小的文件,则将所述文件分割成预设份数后,按顺序加载至内存中进行顺序读取访问。
图3所示为本发明实施例2的文件处理装置结构图,包括目标对象确定模块301、文件获取模块302;其中,所述目标对象确定模块301与所述文件获取模块302相连;
所述目标对象确定模块301,用于访问文件时,根据文件大小,确定对应的访问目标对象并将确定的所述访问目标对象发送至所述文件获取模块302;
所述文件获取模块302,用于从所述访问目标对象中获取对应的文件。
本发明还提供了一种基于分布式系统的文件处理系统,包括客户端、元数据服务器、数据处理服务器;其中,所述客户端分别与所述元数据服务器、所述数据处理服务器相连;
所述客户端,用于若所述文件大小小于预设文件大小,则从元数据服务器中获取与小于预设文件大小的文件对应的文件元数据;还用于从文件元数据的扩展属性中获取对应的文件并进行读取访问;
用于若所述文件大小大于或等于预设文件大小,则从元数据服务器中获取与大于或等于预设文件大小的文件对应的文件元数据;还用于从数据处理服务器中获取大于或等于预设文件大小的文件并进行读取访问;
所述文件元数据,用于存储文件元数据。
所述数据处理服务器,用于存储大于或等于预设文件大小的文件。
通过以下方案:客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件;实现了根据文件大小,从对应的访问目标对象中获取对应的文件进行访问,大大节约了文件访问时间,提高了文件处理效率。
通过以下方案:若所述文件大小小于预设文件大小,则所述客户端从元数据服务器中获取与小于预设文件大小的文件对应的文件元数据;所述客户端从文件元数据的扩展属性中获取对应的文件并进行读取访问;大大提高了对小文件的读性能;同时,由于不需要从数据处理服务器中获取文件,因此,大大节约了文件访问时间,提高了文件处理效率。
通过以下方案:若所述客户端从元数据服务器中获取的文件元数据的扩展属性中获取对应的文件,则将所述文件直接加载至内存中进行读取访问;若所述客户端从数据处理服务器中获取大于或等于预设文件大小的文件,则将所述文件分割成预设份数后,按顺序加载至内存中进行顺序读取访问;实现了根据访问文件大小,确定不同的读取方式,大大提高了读取的效率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于分布式系统的文件处理方法,其特征在于,包括以下步骤:
客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件。
2.根据权利要求1所述的方法,其特征在于,所述访问目标对象包括元数据服务器、数据处理服务器。
3.根据权利要求2所述的方法,其特征在于,客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件之前,还包括:
预先将小于预设文件大小的文件写入文件元数据的扩展属性并将所述文件元数据存储至元数据服务器。
4.根据权利要求3所述的方法,其特征在于,客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件的过程为:
若所述文件大小小于预设文件大小,则所述客户端从元数据服务器中获取与小于预设文件大小的文件对应的文件元数据;
所述客户端从文件元数据的扩展属性中获取对应的文件并进行读取访问。
5.根据权利要求2所述的方法,其特征在于,客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件的过程为:
若所述文件大小大于或等于预设文件大小,则所述客户端从元数据服务器中获取与大于或等于预设文件大小的文件对应的文件元数据;
所述客户端从数据处理服务器中获取大于或等于预设文件大小的文件并进行读取访问。
6.根据权利要求1所述的方法,其特征在于,客户端访问文件时,根据文件大小,确定对应的访问目标对象并从所述访问目标对象中获取对应的文件之后,还包括:
所述客户端根据从不同的访问目标对象中获取的文件,确定对应的访问方式。
7.根据权利要求6所述的方法,其特征在于,所述客户端根据从不同的访问目标对象中获取的文件,确定对应的访问方式过程为:
若所述客户端从元数据服务器中获取的文件元数据的扩展属性中获取对应的文件,则将所述文件直接加载至内存中进行读取访问。
8.根据权利要求6所述的方法,其特征在于,所述客户端根据从不同的访问目标对象中获取的文件,确定对应的访问方式过程为:
若所述客户端从数据处理服务器中获取大于或等于预设文件大小的文件,则将所述文件分割成预设份数后,按顺序加载至内存中进行顺序读取访问。
9.一种基于分布式系统的文件处理装置,其特征在于,包括目标对象确定模块、文件获取模块;其中,所述目标对象确定模块与所述文件获取模块相连;
所述目标对象确定模块,用于访问文件时,根据文件大小,确定对应的访问目标对象并将确定的所述访问目标对象发送至所述文件获取模块;
所述文件获取模块,用于从所述访问目标对象中获取对应的文件。
10.一种基于分布式系统的文件处理系统,其特征在于,包括客户端、元数据服务器、数据处理服务器;其中,所述客户端分别与所述元数据服务器、所述数据处理服务器相连;
所述客户端,用于若所述文件大小小于预设文件大小,则从元数据服务器中获取与小于预设文件大小的文件对应的文件元数据;还用于从文件元数据的扩展属性中获取对应的文件并进行读取访问;
用于若所述文件大小大于或等于预设文件大小,则从元数据服务器中获取与大于或等于预设文件大小的文件对应的文件元数据;还用于从数据处理服务器中获取大于或等于预设文件大小的文件并进行读取访问;
所述文件元数据,用于存储文件元数据;
所述数据处理服务器,用于存储大于或等于预设文件大小的文件。
CN201510568269.4A 2015-09-08 2015-09-08 一种基于分布式系统的文件处理方法、装置及系统 Pending CN105095511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510568269.4A CN105095511A (zh) 2015-09-08 2015-09-08 一种基于分布式系统的文件处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510568269.4A CN105095511A (zh) 2015-09-08 2015-09-08 一种基于分布式系统的文件处理方法、装置及系统

Publications (1)

Publication Number Publication Date
CN105095511A true CN105095511A (zh) 2015-11-25

Family

ID=54575946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510568269.4A Pending CN105095511A (zh) 2015-09-08 2015-09-08 一种基于分布式系统的文件处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN105095511A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110620802A (zh) * 2018-06-20 2019-12-27 华为技术有限公司 一种负载均衡方法和装置
CN114936010A (zh) * 2022-07-20 2022-08-23 阿里巴巴(中国)有限公司 数据处理方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2216958A1 (en) * 2009-02-10 2010-08-11 Alcatel Lucent Method and device for reconstructing torrent content metadata
CN102075581A (zh) * 2011-01-25 2011-05-25 中国科学院计算技术研究所 一种面向分布式文件系统的数据传输方法及装置
CN104111804A (zh) * 2014-06-27 2014-10-22 暨南大学 一种分布式文件系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2216958A1 (en) * 2009-02-10 2010-08-11 Alcatel Lucent Method and device for reconstructing torrent content metadata
CN102075581A (zh) * 2011-01-25 2011-05-25 中国科学院计算技术研究所 一种面向分布式文件系统的数据传输方法及装置
CN104111804A (zh) * 2014-06-27 2014-10-22 暨南大学 一种分布式文件系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄华等: "蓝鲸分布式文件系统的分布式分层资源管理模型", 《计算机研究与发展》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110620802A (zh) * 2018-06-20 2019-12-27 华为技术有限公司 一种负载均衡方法和装置
CN110620802B (zh) * 2018-06-20 2021-04-09 华为技术有限公司 一种负载均衡方法和装置
CN114936010A (zh) * 2022-07-20 2022-08-23 阿里巴巴(中国)有限公司 数据处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US20200150890A1 (en) Data Deduplication Method and Apparatus
US11263194B2 (en) File block addressing for backups
EP4318410A3 (en) Distributed application architectures using blockchain and distributed file systems
CN105183839A (zh) 一种基于Hadoop的小文件分级索引的存储优化方法
EP3142014B1 (en) Method, device and user equipment for reading/writing data in nand flash
CN103399823B (zh) 业务数据的存储方法、设备和系统
CN103530388A (zh) 一种云存储系统中提升性能的数据处理方法
WO2017161540A1 (zh) 数据查询的方法、数据对象的存储方法和数据系统
CN104331453A (zh) 一种分布式文件系统及分布式文件系统的构建方法
CN112559386B (zh) 提升ssd性能的方法、装置、计算机设备及存储介质
CN104142937A (zh) 一种分布式数据存取方法、装置和系统
US20170083537A1 (en) Mapping logical identifiers using multiple identifier spaces
CN110543495A (zh) 游标遍历存储方法及装置
CN105243027A (zh) 在存储设备中存储数据的方法和存储控制器
CN106095332A (zh) 一种数据重删方法及装置
CN111124314A (zh) 映射表动态加载的ssd性能提升方法、装置、计算机设备及存储介质
CN102867046B (zh) 基于固态硬盘的数据库优化方法及系统
CN105095511A (zh) 一种基于分布式系统的文件处理方法、装置及系统
CN109522281A (zh) 一种分布式文件系统数据快速拷贝的方法
CN108280123B (zh) 一种HBase的列聚合方法
CN106528876B (zh) 分布式系统的信息处理方法及分布式信息处理系统
CN105205162A (zh) HBase二级索引存储和查询系统及其查询方法
US10241927B2 (en) Linked-list-based method and device for application caching management
CN104216666A (zh) 一种管理磁盘数据写入的方法及装置
WO2017028718A1 (zh) 数据读取方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151125