CN103973744A - 一种分布式文件递进存储技术 - Google Patents

一种分布式文件递进存储技术 Download PDF

Info

Publication number
CN103973744A
CN103973744A CN201310040087.0A CN201310040087A CN103973744A CN 103973744 A CN103973744 A CN 103973744A CN 201310040087 A CN201310040087 A CN 201310040087A CN 103973744 A CN103973744 A CN 103973744A
Authority
CN
China
Prior art keywords
storage
file
server
sent out
storage server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310040087.0A
Other languages
English (en)
Inventor
尹科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING INFCN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING INFCN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING INFCN INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING INFCN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310040087.0A priority Critical patent/CN103973744A/zh
Publication of CN103973744A publication Critical patent/CN103973744A/zh
Pending legal-status Critical Current

Links

Abstract

本发明涉及网页文件数据存储技术领域,公开了一种分布式文件递进存储技术,所述分布式文件递进存储方法包括以下步骤:响应客户端的文件发送请求,通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器;按年月日及用户信息在确定的所述存储服务中创建多层文件目录存储。本发明通过采用以上技术方案,大大提高了存储服务器的网页数据存储量,同时对于抓取的网页,实现了按年、月、日、用户信息进行存储,进而能够实现站点的原版原貌展现。

Description

一种分布式文件递进存储技术
技术领域
本发明涉及网页文件数据存储技术领域,具体涉及一种分布式文件递进存储方法及系统。
背景技术
最近,由于信息创建、存储和访问的方式,用户对存储的需求已经在变化。IT组织存储越来越多的非结构化且基于文件的数据。非结构化数据已经占总存储的50%以上,而且预计其增长率将超过结构化数据的增长率。
对于分布式文件系统,由于各节点处理能力存在差异,当系统运行一段时间后、某些节点分配的任务很多,而另外一些节点却是空闲的。要避免这种现象发生,必须采用负载均衡。
负载均衡也就是在集群中有服务器A、B、C,它们都是互不影响,互不相干的,任何一台的机器宕了,都不会影响其他机器的运行,当用户来一个请求,由负载均衡的算法决定由哪台机器来处理。
常见的负载均衡的算法有round算法。采用round算法,有用户a、b、c,那么分别由服务器A、B、C来处理。round算法是最简单的任务分配方法,循环地将各个应用任务分配到各个计算节点,既可避免计算节点任务的分配失衡,又可减少系统的反应时间。但它没有考虑计算节点计算能力的差异和不同应用任务对计算节点负载的影响,只是按照任务数量简单地来衡量计算节点的负载。
发明内容
本发明的目的是为了克服现有技术中的缺点而提供一种分布式文件递进存储方法及系统。
本发明是这样实现的,一种分布式文件递进存储方法,包括以下步骤:
通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器;
按年月日及用户信息在确定的所述存储服务中创建多层文件目录存储。
当检测到所述存储服务器的预设硬盘使用率超过设定阀值时,将所述被发送文件按预设顺序在下一台存储服务器上创建多层文件目录存储。
所述通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器的步骤之前,还包括以下步骤:
验证所述被发送文件是否存在,是则将所述被发送文件的路径改为已存在的文件路径存储于原存储所述被发送文件的存储服务器;否则通过负载均衡算法确定所述集群中用于存储被发送文件的一台存储服务器。
所述负载均衡算法采用轮叫算法。
本发明的目的还在于提供一种分布式文件递进存储系统,所述分布式文件递进存储系统包括:
若干台存储服务器,通过网络或通信线路互相连接形成一个集群,用于在主控服务器的管控下共同协作存储客户端发送的文件;
所述主控服务器,包括主控制器,对所述存储服务器通过编号进行管理控制,还包括:
负载均衡计算模块,用于通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器;
文件存储模块,用于按年月日及用户信息在确定的所述存储服务中创建多层文件目录存储。
所述主控服务器来还包括:
查找验证模块,用于响应客户端的文件发送请求,验证所述被发送文件是否已经存在。
所述主控服务器还包括:
硬盘使用率监测模块,用于监控所述集群中每台存储服务器的预设硬盘使用率。
所述主控服务器进一步包括:
顺序存储分配模块,用于当所述硬盘使用率监测模块检测到所述集群中被确定存储所述被发送文件的存储服务器的预设硬盘使用率超过设定阀值时,按预设顺序将所述被发送文件分配在下一台存储服务器存储。
所述分布式文件递进存储系统包括:
负载状况监测模块,设于每台所述存储服务器节点,用于监测每台所述存储服务器的硬盘剩余空间信息送至所述硬盘使用率监测模块计算每台所述存储服务器的硬盘使用率。
本发明通过采用以上技术方案,大大提高了存储服务器的网页数据存储量,同时对于抓取的网页,实现了按年、月、日、用户信息进行存储,进而能够实现站点的原版原貌展现。
附图说明
图1所示为本发明实施例提供的分布式文件递进存储方法的流程图;
图2所示为本发明实施例提供的分布式文件递进存储系统的系统图;
图3所示为本发明实施例提供的主控服务器的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。
本发明实施例中,所述文件及被发送文件均指网页文件,所述抓取网页指采集网页。
参见图1,该图示出了本发明实施例提供的一种分布式文件递进存储方法的流程。为了便于说明,仅示出了本发明实施例有关的部分。
本发明实施例所述的一种分布式文件递进存储方法,包括以下步骤:
S101:通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器;
S102:按年月日及用户信息在确定的所述存储服务中创建多层文件目录存储。
本发明实施例在收到客户端的文件请求后,响应客户端的文件发送请求,首先通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器,确定后按年月日及用户信息在确定的所述存储服务中创建多层文件目录存储。
由于采用分布式存储,由多台存储服务器负载均衡、共同协作存储,因而大大提高了存储服务器的网页数据存储量,同时对于抓取的网页,实现了按年、月、日、用户信息进行存储,进而能够实现站点的原版原貌展现
常见的负载均衡算法有:轮叫round调度算法、加权轮叫调度算法等。本发明实施例中,采用轮叫round调度算法进行负载均衡。
使用时,由调度器通过轮叫调度算法将外部文件请求按顺序轮流分配到集群中的每台存储服务器上(i=(i+1)mod n,i表示上次选中的存储服务器,n表示总共有多少台存储服务器),它均等地对待每一台服务器,而不管服务器上实际的连接数和系统负载。
本发明实施例中,为了加快存储效率,对所述集群中的各台存储服务器进行编号管理控制,并对集群中每台存储服务器的硬盘使用率进行实时检测。
当检测到所述存储服务器的预设硬盘使用率超过设定阀值时,将所述被发送文件按预设顺序在下一台存储服务器上创建多层文件目录存储。这样大大提高了存储的效率。
本发明实施例中,所述通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器的步骤之前,还包括以下步骤:
收到所述客户端的文件发送请求后,主动进行目录验证,查找验证所述被发送文件是否存在,是则将所述被发送文件的路径改为已经存在的文件路径存储于所述被发送文件原存储的存储服务器中;否则,按预设的年、月、日以及用户信息在所述集群中确定的一台存储服务器上创建多层文件目录进行存储。
本发明实施例中,主要通过网络管理协议(SNMP)采用轮询方法来实现每台存储服务器的硬盘剩余空间信息的检测。
可通过在每台存储服务器节点设负载检测模块,利用网络管理协议(SNMP)来检测每台存储服务器的硬盘剩余空间信息,通过该磁盘剩余空间信息计算出每台存储服务器的硬盘使用率,通过与设定阈值比较来判断硬盘利用率是否超过预设阀值。
所述网络管理协议(SNMP)由一系列协议组合规范组成,提供了一种从网络上的设备中收集网络管理信息的方法。从网络中设备中收集数据有两种方法:一种是轮询方法,一种是基于中断的方法。本发明实施例使用轮询方法。
所述网络管理协议SNMP使用嵌入到网络设施中的代理软件来收集网络的通信信息和有关网络设备的统计数据。代理软件不断地收集统计数据,并把这些数据记录到一个管理信息库MIB中。网管员通过向代理的MIB发出查询信号可以得到这些信息,这个过程就叫轮询。网管员也可使用网络管理协议SNMP来评价网络的运行状况,并揭示出通信的趋势,如哪一个网段接近通信负载的最大能力或正使通信出错等。
本发明实施例的目的还在于提供一种分布式文件递进存储系统,采用可扩展的主从式系统结构,为了说明需要,本发明实施例仅以三台存储服务器A、B、C予以说明,所述分布式文件递进存储系统的系统结构参见图2所示,包括:
若干台存储服务器A、B、C,通过网络或通信线路互相连接形成一个集群,用于在主控服务器的管控下共同协作存储客户端发送的文件;
参见图3所示,所述主控服务器,包括主控制器,对所述存储服务器通过编号进行管理控制,包括:
负载均衡计算模块,用于通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器;
文件存储模块,用于按年月日及用户信息在确定的所述存储服务中创建多层文件目录存储。
本发明实施例中,所述若干台存储服务器通过网络或通信线路连接起来后,相互独立而又相互合作,在所述主控服务器控制管理下协作进行被发送文件的存储,共同分担存储负荷,不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
由于各台存储服务器的节点处理能力存在差异,当系统运行一段时间后、某些节点分配的任务很多,而另外一些节点却是空闲的,为了平衡这种状况,本发明实施例中,由所述主控服务器通过负载均衡算法(有关负载均衡算法采用轮叫算法,具体见前述的说明)进行负载均衡控制,以使所述集群中各台服务器的负载均衡,从而达到共同分担存储负荷之换目的,最后达到大数据量网页数据的存储,解决了现在大数据量网页存储难的问题。
参见图3所示,本发明实施例中,所述主控服务器还包括:
查找验证模块,用于响应客户端的文件发送请求,验证所述被发送文件是否已经存在。如果验证存在,则将所述主控制器的控制下将被发送文件的路径改为已经存在的文件路径存储于所述被发送文件原存储的存储服务器中;否则,通过所述文件存储模块按预设的年、月、日以及用户信息在所述集群中确定的一台存储服务器上创建多层文件目录进行存储。
参见图3所示,本发明实施例中,所述主控服务器还包括:
硬盘使用率监测模块,用于监控所述集群中每台存储服务器的预设硬盘使用率。
参见图3所示,本发明实施例中,所述主控服务器进一步包括:
顺序存储分配模块,用于当所述硬盘使用率监测模块检测到所述集群中被确定存储所述被发送文件的存储服务器的预设硬盘使用率超过设定阀值时,按预设顺序将所述被发送文件分配在下一台存储服务器存储。
本发明实施例中,所述分布式文件递进存储系统包括:
负载状况监测模块,设于每台所述存储服务器节点,用于监测每台所述存储服务器的硬盘剩余空间信息送至所述主控服务器的硬盘使用率监测模块计算每台所述存储服务器的硬盘使用率。
本发明实施例中,主要通过网络管理协议(SNMP)采用轮询方法来实现对每台所述存储服务器的硬盘剩余空间信息。有关网络管理协议(SNMP)的说明见前述关于分布式文件递进存储的方法中有关说明。
根据负载状况监测模块检测的硬盘剩余空间信息就可通过所述的硬盘使用率监测模块计算出存储服务器的硬盘使用率,当服务器A的硬盘使用率超过设定的硬盘使用率的阈值时,通过主控服务器的顺序存储分配模块将被发送文件分配给存储服务器B,然后通过文件存储模块将被发送文件在新的存储服务器B上按照年、月、日以及用户信息创建多层文件目录对采集的单个网页接着进行存储,当硬盘使用率监测模块检测到新的存储服务器B的硬盘使用率超过预定的硬盘使用率阈值时,主控服务器通过上述方法及过程使用新的存储服务器C,依此类推。
本发明通过采用以上技术方案,大大提高了存储服务器的网页数据存储量,同时对于抓取的网页,实现了按年、月、日以及用户信息进行存储,进而能够实现站点的原版原貌展现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

  1. 本发明涉及一种分布式文件递进存储技术,具体涉及一种分布式文件递进存储方法及系统。
    1.一种分布式文件递进存储方法,其特征在于,包括以下步骤:
    通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器;
    按年月日及用户信息在确定的所述存储服务中创建多层文件目录存储。
  2. 2.根据权利要求1所述一种分布式文件递进存储方法,其特征在于,当检测到所述存储服务器的预设硬盘使用率超过设定阀值时,将所述被发送文件按预设顺序在下一台存储服务器上创建多层文件目录存储。
  3. 3.根据权利要求1所述一种分布式文件递进存储方法,其特征在于,所述通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器的步骤之前,还包括以下步骤:
    验证所述被发送文件是否存在,是则将所述被发送文件的路径改为已存在的文件路径存储于原存储所述被发送文件的存储服务器;否则通过负载均衡算法确定所述集群中用于存储被发送文件的一台存储服务器。
  4. 4.根据权利要求1所述一种分布式文件递进存储方法,其特征在于,所述负载均衡算法采用轮叫算法。
  5. 5.一种分布式文件递进存储方法,其特征在于,包括:
    若干台存储服务器,通过网络或通信线路互相连接形成一个集群,用于在主控服务器的管控下共同协作存储客户端发送的文件;
    所述主控服务器,包括主控制器,对所述存储服务器通过编号进行管理控制,还包括:
    负载均衡计算模块,用于通过负载均衡算法确定集群中用于存储被发送文件的一台存储服务器;
    文件存储模块,用于按年月日及用户信息在确定的所述存储服务中创建多层文件目录存储。
  6. 6.根据权利要求5所述一种分布式文件递进存储系统,其特征在于,所述主控服务器来还包括:
    查找验证模块,用于响应客户端的文件发送请求,验证所述被发送文件是否已经存在。
  7. 7.根据权利要求6所述一种分布式文件递进存储系统,其特征在于,所述主控服务器还包括:
    硬盘使用率监测模块,用于监控所述集群中每台存储服务器的预设硬盘使用率。
  8. 8.根据权利要求7所述一种分布式文件递进存储系统,其特征在于,所述主控服务器进一步包括:
    顺序存储分配模块,用于当所述硬盘使用率监测模块检测到所述集群中被确定存储所述被发送文件的存储服务器的预设硬盘使用率超过设定阀值时,按预设顺序将所述被发送文件分配在下一台存储服务器存储。
  9. 9.根据权利要求7或8所述一种分布式文件递进存储系统,其特征在于,所述分布式文件递进存储系统包括:
    负载状况监测模块,设于每台所述存储服务器节点,用于监测每台所述存储服务器的硬盘剩余空间信息送至所述硬盘使用率监测模块计算每台所述存储服务器的硬盘使用率。
CN201310040087.0A 2013-02-01 2013-02-01 一种分布式文件递进存储技术 Pending CN103973744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310040087.0A CN103973744A (zh) 2013-02-01 2013-02-01 一种分布式文件递进存储技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310040087.0A CN103973744A (zh) 2013-02-01 2013-02-01 一种分布式文件递进存储技术

Publications (1)

Publication Number Publication Date
CN103973744A true CN103973744A (zh) 2014-08-06

Family

ID=51242786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310040087.0A Pending CN103973744A (zh) 2013-02-01 2013-02-01 一种分布式文件递进存储技术

Country Status (1)

Country Link
CN (1) CN103973744A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060173A (zh) * 2016-07-22 2016-10-26 恒业智能信息技术(深圳)有限公司 基于云存储的集群式摄像数据存储系统
CN106506673A (zh) * 2016-11-25 2017-03-15 国信优易数据有限公司 一种大规模分布式数据管理系统及其方法
CN109189341A (zh) * 2018-08-30 2019-01-11 郑州云海信息技术有限公司 分布式存储系统的目录负载均衡方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101137981A (zh) * 2005-06-23 2008-03-05 伊姆西公司 用于管理文件系统中的内容存储的方法和装置
CN102012933A (zh) * 2010-12-02 2011-04-13 清华大学 分布式文件系统及利用其存储数据和提供服务的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101137981A (zh) * 2005-06-23 2008-03-05 伊姆西公司 用于管理文件系统中的内容存储的方法和装置
CN102012933A (zh) * 2010-12-02 2011-04-13 清华大学 分布式文件系统及利用其存储数据和提供服务的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060173A (zh) * 2016-07-22 2016-10-26 恒业智能信息技术(深圳)有限公司 基于云存储的集群式摄像数据存储系统
CN106506673A (zh) * 2016-11-25 2017-03-15 国信优易数据有限公司 一种大规模分布式数据管理系统及其方法
CN106506673B (zh) * 2016-11-25 2019-08-02 国信优易数据有限公司 一种大规模分布式数据管理系统及其方法
CN109189341A (zh) * 2018-08-30 2019-01-11 郑州云海信息技术有限公司 分布式存储系统的目录负载均衡方法、装置、设备及介质
CN109189341B (zh) * 2018-08-30 2021-07-16 郑州云海信息技术有限公司 分布式存储系统的目录负载均衡方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109618002B (zh) 一种微服务网关优化方法、装置及存储介质
CN107688496B (zh) 任务分布式处理方法、装置、存储介质和服务器
CN107872402B (zh) 全局流量调度的方法、装置及电子设备
CN105245373B (zh) 一种容器云平台系统的搭建及运行方法
CN108205541B (zh) 分布式网络爬虫任务的调度方法及装置
CN107733726A (zh) 一种服务请求的处理方法及装置
CN104092719B (zh) 文件传输方法、装置及分布式集群文件系统
CN106412113A (zh) 一种能源云服务系统及其通信方法
CN104380277A (zh) 用于管理云调度环境中的服务器硬件资源的方法、系统和设备
US9525727B2 (en) Efficient and scalable pull-based load distribution
CN109218100A (zh) 分布式对象存储集群及其请求响应方法、系统和存储介质
CN103731482A (zh) 一种集群负载均衡系统及其实现方法
CN106470163B (zh) 一种信息处理方法、装置和系统
KR101211207B1 (ko) 캐시 클라우드 구조를 이용한 캐시 시스템 및 캐싱 서비스 제공 방법
CN110661824B (zh) 分布式集群中服务器的流量调控方法及存储介质
CN104579765A (zh) 一种集群系统的容灾方法和装置
CN102984184A (zh) 一种分布式系统的服务负载均衡方法及装置
CN103973744A (zh) 一种分布式文件递进存储技术
CN109302300B (zh) 数据分配和处理方法、系统及计算机可读记录介质
CN101467132B (zh) 用于在通信网络中分配数据处理单元的方法和系统
CN102137091B (zh) 一种过负荷控制方法、装置、系统及客户端
CN108737543B (zh) 一种分布式物联网中间件及工作方法
CN103297514A (zh) 基于云架构的虚拟机管理平台及管理方法
CN107426012B (zh) 一种基于超融合架构的故障恢复方法及其装置
CN108718398A (zh) 视频会议系统的码流传输方法、装置及会议设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
CB02 Change of applicant information

Address after: 100190, room 2509, block B, century trade building, building 1, Zhongguancun East Road, No. 66, Haidian District East Road, Beijing, China

Applicant after: Beijing Fusen software Limited by Share Ltd

Address before: 100190, room 2509, block B, century trade building, building 1, Zhongguancun East Road, No. 66, Haidian District East Road, Beijing, China

Applicant before: Beijing INFCN Information Technology Co., Ltd.

COR Change of bibliographic data
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140806

WD01 Invention patent application deemed withdrawn after publication