CN106294585B

CN106294585B - 一种云计算平台下的存储方法

Info

Publication number: CN106294585B
Application number: CN201610608375.5A
Authority: CN
Inventors: 张敬华; 程映忠; 王松
Original assignee: Shanghai Double Intelligent Technology Co Ltd
Current assignee: SHANGHAI DOUBLE INTELLIGENT TECHNOLOGY CO., LTD.
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2019-10-18
Anticipated expiration: 2036-07-28
Also published as: CN106294585A

Abstract

本发明提出了一种云计算平台下的存储方法，包括：1.构建基于Hadoop分布式文件系统的云数据备份系统，所述系统从物理上分为客户端、备份服务器和Hadoop分布式文件系统集群；2.客户端中保存着为本机提供服务的备份服务器的信息,当需要备份或恢复时向备份服务器发出相应请求；3.备份服务器接收到客户客户端的请求，进行文件的备份和恢复,文件上传恢复的时候，采用文件分割的方式来管理文件，文件上传之前将文件分割成小文件块，再将文件块进行上传；文件恢复的时候是先下载文件的文件块，所有文件块下载完成之后将文件块合并成原来的文件。本发明提出了一种新的基于云计算平台的存储方法，提高了文件存储的效率。

Description

一种云计算平台下的存储方法

技术领域

本发明涉及云计算领域，具体涉及一种云计算平台下的存储方法。

背景技术

在IT界不断革新的过程中,著名的摩尔定律和贝尔定律⑴共同作用,主宰这IT界的发展趋势。摩尔定律预测处理器的速度会每18个月翻一番。然而,相比迅速增长的CPU、内存、硬盘,甚至是网络带宽,信息量的增加要快的多。由于互联网的发展,对因特网存储量的需求每6个月就要翻一番。

信息存储系统朝着无限的带宽(Infinite Bandwidth),无限的容量(InfiniteCapacity)和无限的处理能力(Infinite processing Capability),即“3i”的方向发展。在数据高增长和企业应用快速变化的今天,网络备份技术也在迅速发展以适应企业和个人需求的变化。存储技术达到了有史以来最繁荣的时期,新的存储技术不断涌现。目前,随着企业备份系统用途广泛拓展和存储容量的增加,在企业内部出现了多种存储方式并存,如DAS(Direct Attached Storage,直连式存储),NAS(Network Attached Storage,附网存储),SAN(Storage Area Network,存储区网络),云存储(Cloud Storage)等。

云备份是云存储(Cloud Storage)的一个子集,可以看成是云存储中与备份即服务(Backup as a Service,BaaS)类似的一个概念。云备份是一个网络化的在线备份服务,数据备份在一些由第三方服务提供商提供的虚拟存储池中。这些服务提供商往往是大型数据中心的运行者。用户可以向这些提供商购买或者租赁备份空间。这些数据中心的运行着,根据用户的需求,将自己的备份资源虚拟化成一些备份池提供给用户使用。用户可以自主的使用这些备份池来备份自己的文件或者数据对象。从物理上来说,这些备份资源可能是跨服务器的(一个备份池可能由多个服务器的存储资源构成)。

云备份旳拓扑结构与云状的局域网和广域网类似。不同的是,云备份的主要目的是备份,而广域网和互联网的目的是通信。对云备份的用户来说,云备份并不特指某一个具体的备份设备,它是由若干个不同的备份设备和备份服务器组成的一个整体。用户使用云备份,并不是使用某一个具体的存储设备,而是在使用由整个云备份系统提供的一种数据备份和访问服务。因此,严格的来说,云备份并不是一种备份介质,而是一种备份服务。对使用者来说,他们无需了解云状备份系统中的若干备份设备是如何协同工作以提供备份服务的。任何合法的用户可以在任何时间,任何地点,都可以通过一根网络接入线缆来使用云备份服务,访问自己的数据。云备份系统的核心技术是如何通过软件来管理和实现物理备份设备向备份服务的转变。

云备份与传统的备份不同,它是一个复杂的系统,是一个由备份设备,备份管理软件、网络设备、服务器、应用软件、公用API接口、网络接入和应用软件等多个部分组成的层次结构系统。各部分以备份设备为基础,通过管理软件、应用软件和网络接口来对用户提供数据备份访问的相关服务。

云备份服给务很大一部分的个人用户和中小型企业提供了便利。个人用户可以使用云备份服务将个人的数据备份到云端,打破了传统的本地备份对个人用户的限制。另外,由于移动终端的普及,个人用户的移动性的需求越来越明显,云备份服务可以使个人用户不受时间和地点的约束。对于中小型企业来说,其IT预算一般比较紧张,更多的关心商业运作,但同时又可能有大量的备份需求。这使得它们陷入了两难的境地,是增加预算,还是降低安全保证。云备份的出现使得这个矛盾可以得到较好的解决。云备份拥有云计算的即用即付的付费方式,同时也能提供安全可靠的备份服务,云备份服务也因此受中小型企业的青睐,让他们可以将更多的精力放到其商业运作中去。

在企业应用快速变化和数据高增长的今天,网络备份技术也在迅速发展以适应用户需求的变化。云备份可以实现满足用户在任意地点、任意时间、任意方式访问备份在云端数据服务器上的数据。对存储需求不可预测和需要廉价存储的组织来说,云备份可按用户实际需求购买存储容量,提供了良好的可扩展性。

发明内容

至少部分的解决现有技术中存在的问题，本发明提出一种云计算平台下的存储方法，包括：

1.构建基于Hadoop分布式文件系统的云数据备份系统，所述系统从物理上分为客户端、备份服务器和Hadoop分布式文件系统集群；

2.客户端中保存着为本机提供服务的备份服务器的信息,当需要备份或恢复时向备份服务器发出相应请求；

3.备份服务器接收到客户客户端的请求，进行文件的备份和恢复；

其中，文件上传恢复的时候，采用文件分割的方式来管理文件，文件上传之前将文件分割成小文件块，再将文件块进行上传；文件恢复的时候是先下载文件的文件块，所有文件块下载完成之后将文件块合并成原来的文件。

优选的，文件的上传包含以下几个步骤：

1.文件分割：将原始的用户文件分割成几个小的文件块，文件分割是将大文件的存储文件变为了多个小文件的存储问题，可以直接避免大文件存储需要应对的多个技术难题；

2.文件块加密：文件块加密采用公钥加密的技术，文件块的公钥跟私钥都需用从Hadoop分布式文件系统集群获取。文件块加密是为了保证文件数据的包密性，对于任何云同步的应用，数据的保密性都是用户的必备需求，用户不会将数据存放在可能泄露的应用中；

3.文件块压缩：对加密后的文件块进行压缩；

4.文件块校验：文件块经过加密加压之后，通过hash算法算出文件块的hash值，文件的上传恢复都需要通过hash值校验，以确定文件块在传输过程中没有出现错误；同时，如果发现hash值已经存在，也就是已经有相同的文件块存放在服务器，那么文件块就不需要重复上传了。使用文件校验不仅仅可以保证数据的完整性，避免上传一样的文件内容可以节省服务器的存储空间，同时减少数据流量，提高文件同步的效率。

5.文件块上传：文件块通过Hadoop分布式文件系统集群提供的远程接口进行同步，将文件块上传到Hadoop分布式文件系统集群，文件块上传结束之后，Hadoop分布式文件系统集群需要通过hash值来确定文件块无错误。

优选的，文件的恢复包含以下几个步骤：

1.获取文件块列表：通过文件ID获取文件对应的文件块列表，根据文件块的ID获取详细的文件块信息，下载文件块来间接完成文件下载功能；

2.文件块下载：使用文件块的ID，到指定的位置查找文件块，将列表中的文件块下载到本地；

3.文件块校验：文件块下载完成之后，通过文件块大小以及hash值来校验文件块是否成功下载；如果文件块校验失败，则此文件块无效，需要重新下载或者采用人工策略进行处理；

4.文件块解压：采用文件块压缩时相对应的文件块解压缩算法，对文件块解压缩；

5.文件块解密：从Hadoop分布式文件系统集群获取文件块解密的私钥，采用文件块加密对应的解密算法对文件块进行解密；

6.文件块合并：文件块完成下载、校验、解压、解密之后，将分离的文件块重新合并，恢复用户的原始文件。

优选的，备份服务器在进行下载和上传数据时遵从以下规则：

备份服务器需要下载数据时，立即进行；而当需要上传数据时，如果没有其他备份服务器上传数据，立即上传，否则称之为产生冲突，等待一段时间再进行检测以决定是否上传，等待时间的长短由退避算法决定，退避算法具体包括：

1)当第一次检测发生冲突时，设置参数L＝2；

2)退避间隔取1到L个时间片中的一个随机数；

3)重复检测发生冲突时，将参数L加倍，L的最大值为256,当L增加到256时，

L不再增加；

4)一旦检测次数超过8，则立即无条件上传数据。

优选的，客户端读取文件的具体实现过程包括：

1.客户端通过调用分布式文件系统的一个实例FileStream对象的open()方法来打开希望读取的文件；

2.分布式文件系统通过RPC远程调用名称节点以获得文件开头部分的数据块的位置，对于每个块，名称节点返回该块所在的数据节点的地址，并且这些数据节点会根据其距离客户端的远近进行排序，如果客户端本身也是数据节点，则直接读取本地数据，分布式文件系统返回一个支持文件定位的输入流的FSDataInputStream对象给客户端，让客户端从FSDataInputStream中读取数据；

3.客户端调用FSDataInputStream的read()方法；

4.存储文件开头部分块的数据节点地址的DFSInputStream随即与这些块最近的数据节点相连接，通过在数据流中重复调用read()，读取数据从数据节点返回客户端；

5.当第一个块读完，DFSInputStream关掉与这个数据节点的连接，然后开始第二个块的操作；

6.客户端从流中读取数据时，块是按照DFSInputStream打开与数据节点的新连接的顺序读取的，DFSInputStream也会调用名称节点来检索下一组需要的块的数据节点的位置，客户端完成数据读取后，调用FSDataInputStream的close()方法关闭数据流。

优选的，在文件读取过程中，如果客户端从一个数据节点上读取出错，则选择下一个离它最近的数据节点，同时记住这个失败的数据节点，在读取后面的块的时候不再选择这个数据节点。

优选的，客户端写入文件的具体实现过程包括：

1.客户端通过调用分布式文件系统的create()方法来创建文件；

2.分布式文件系统通过RPC远程调用名称节点，在文件系统的名字空间里创建一个新文件，此时这个文件还没有任何块与之相联系；名称节点执行检查以确保这个文件不会已经存在，并且客户端拥有创建此文件的权限；如果上述检查通过，名称节点会生成一个新文件的记录；否则文件创建失败并向客户端抛出一个异常；分布式文件系统返回一个FSDataOutputStream,让客户端开始写入数据，FSDataOutputStream控制一个DFSOutputStream，DFSOutputStream负责处理数据节点和名称节点之间的通信；

3.当客户端写入数据时，DFSDataOutputStream把要写入的数据分成很多包，并将它们写入内部的数据队列，数据队列中的数据由数据流来读取，数据流让名称节点找出一个合适的数据节点列表，并要求这些数据节点分配一些新的块以存储作为副本而复制的数据，这个数据节点列表组成了一个管线；

4.FSDataInputStream将包分流给管线中第一个的数据节点，这个节点会对包进行存储并且发送给管线中的第二个数据节点，第二个数据节点存储包并且传给管线中第三个数据节点，直至将包传给管线中的最后一个数据节点；

5.DFSOutputStream有一个内部的包队列来等待数据节点收到确认，称为确认队列，只有当管线中所有的数据节点都返回写入成功，这个包才算写成功，发送确认给DFSOutputStream，包被移出确认队列，然后开始下一个包的写入；

如果在有数据写入期间,数据节点发生故障,则会执行下面的操作：首先管线被关闭，确认队列中的任何包都会被添加回数据队列的前面，以确保数据节点从失败的节点处是顺流的，不会漏掉任意一个包，当前的块在正常工作的数据节点中被给予一个新的身份并联系名称节点，以便能在故障数据节点后期恢复时其中的部分数据块会被删除；故障数据节点会从管线中删除并且余下块的数据会被写入管线中的两个好的数据节点；名称节点注意到块副本不足时，会在另一个节点上安排创建一个副本；随后，后续的块会继续正常处理；

6.客户端完成数据的写入后，就会在FSDataInputStream中调用close()；

7.在块完成复制到最少的份数之后，名字节点将成功返回。

本发明提出了一种新的基于云计算平台的存储方法，提高了存储文件的效率。

附图说明

图1为本发明一种云计算平台下的存储方法的流程图；

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述。这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

参见图1，本发明提出了一种云计算平台下的存储方法，包括：

客户端是企业中众多需要数据备份/恢复服务的计算机节点，按照地域、系统类别等分成若干个群，当需要进行数据备份或者恢复时，他们向负责本群的备份服务器提出请求，得到许可后进行文件的备份和恢复操作。客户端用于实现数据备份恢复，包括文件打包、压缩策略，数据的备份和恢复。

备份服务器是客户端和Hadoop分布式文件系统集群间数据备份恢复的桥梁，由多个高性能、大存储量服务器构成，每个服务器负责一个客户端群。他们接受客户端的备份恢复请求，缓存客户端的备份数据，根据备份数据的不同情况，分别对他们进行合并、分割、压缩后上传到Hadoop分布式文件系统集群进行备份，同时保存客户端备份文件的映像表，当客户端提出恢复请求时，从Hadoop分布式文件系统集群中读取备份文件，按照文件映像表发送给客户端。

备份服务器包含以下几个具体功能模块:

(1)备份管理模块：系统的核心功能模块，主要负责文件的备份管理工作；

(2)恢复管理模块：负责备份文件的恢复工作；

(3)安全管理模块：该模块的功能包括控制文件的传输安全及存储安全，对客户端的认证与授权；

(4)目录管理模块:该模块负责是客户端管理和备份文件目录管理。文件备份信息表负责管理备份文件的目录，客户信息表负责管理备份服务器所负责的所有客户；

(5)用户接口模块:提供友好的用户操作界面，用于显示、配置备份操作信息，用户可以根据自己的需要选择备份方式；

(6)同步处理模块：该模块主要负责文件的同步处理,用于监视客户端文件的变化,进行客户端和Hadoop分布式文件系统集群端之间的同步工作,当监测到客户端文件改变时,将Hadoop分布式文件系统集群上的相应文件进行同步更新。

Hadoop分布式文件系统集群由安装了Hadoop分布式文件系统软件的计算机组成，在Hadoop分布式文件系统软件的架构下，通过配置向多个备份服务器提供上传、下载服务，实现系统的核心功能。

Hadoop分布式文件系统集群采用主/从结构，由一个名字节点Namenode和一定数量的数据节点Datanodes组成，Namenode作为为中心服务器负责管理文件系统的名字空间(namespace)以及客户对文件的访问；Namenode执行文件系统的打开、关闭、重命名文件或目录这些名字空间操作；也负责确定数据块到特定Datanode节点的映射，Namenode由企业云中具有较高性能的服务器配置而成，以实现高效的元数据管理，避免性能瓶颈，DataNode用于存储数据，由企业内部大量廉价计算机配置而成，并且可以根据备份数据的规模进行动态扩展。备份时文件被分成一个或多个数据块，这些块存储在一组Datanode上。Datanode负责对文件系统客户端的读写请求进行处理，并在Namenode的统一调度下进行数据块的创建、删除和复制等操作。

基于Hadoop分布式文件系统的云数据备份系统应用备份服务器作为客户端与备份集群的桥梁出于以下考虑：备份服务器可以屏蔽客户端对备份集群的直接访问，提高备份集群的安全性，同时在备份服务器和客户端之间通过防火墙、安全信道等技术手段实现数据安全，进而保证整个系统的安全；备份服务器可以暂存数据，并根据备份集群的负载状况，网络状况决定在合适的时间上传数据，从而保证备份集群的负载平衡；虽然在特殊情况下，备份服务器由于大量客户端的备份/恢复请求可能成为系统的瓶颈，但通过应用高性能的服务器作为备份服务器及客户端的合理调度可以最大可能地避免此种情况的发生；向Hadoop分布式文件系统集群上传、下载文件需要在计算机上安装Hadoop特定组件，这对数量众多、水平参差不齐的客户来说是不现实的，通过在备份服务器上收集用户需备份的数据，并在其上安装Hadoop组件实现备份、恢复功能，易于实现并充分发挥Hadoop分布式文件系统的功能。

客户端模块备份数据前，应用tar、winrar等工具将所有数据文件打包成一个备份文件，按照“客户Id-备份日期-bak”的规则命名；同时进行压缩以节省存储空间、减少备份恢复时间。

客户端文件的备份过程具体为：

B1调用工具对备份数据打包；

B2调用压缩工具压缩打包文件；

B3向备份服务器提出备份请求；

B4判断备份请求是否通过；

B5如备份请求通过，将数据文件上传至备份服务器。

客户端文件的恢复过程具体为：

H1向备份服务器提出恢复请求；

H2判断恢复请求是否通过；

H3如恢复请求通过，下载数据文件；

H4调用工具解压缩打包文件；

H5调用工具解包备份文件。

3.1备份服务器的备份操作具体包括：

备份服务器接收到客户客户端的备份请求后,首先对客户端进行识别认证，认证通过后接收客户端上传的备份文件，备份文件上传完毕后，备份服务器将备份文件加上时间戳编号后暂存，并将备份文件的信息记入备份文件信息表，然后将文件名作为参数调用云数据上传算法上传数据到Hadoop分布式文件系统集群。

云数据上传算法首先检测用户上传文件大小是否大于等于阈值th_size，如果大于等于则上传该文件到Hadoop分布式文件系统集群，上传成功后将文件备份数据信息表中对应的上传标志置为真，填写上传文件名，删除备份服务器上的文件；如果文件大小小于th_size，则读取备份文件信息表，得到所有未上传备份文件的信息，计算全部未上传文件的大小，如果大于等于th_size,则将所有未上传文件打包成一个文件，按照“文件名1-文件2…-文件名n”的方式对该文件命名后上传，上传成功后，将备份文件信息表中对应的上传标志位置为真，填写上传文件名后删除文件；如果全部为上传文件大小依然小于th_size，则暂时不将文件上传至Hadoop分布式文件系统集群。

3.2备份服务器的恢复操作具体包括：

备份服务器接收到客户端的恢复请求后,首先对客户端进行识别认证，认证通过后,检查备份文件信息表,如果备份文件暂存在本地,则从备份服务器上发送文件给客户端；如果备份文件存于Hadoop分布式文件系统集群中,则从Hadoop分布式文件系统集群中下载文件后,再发送给客户端，如果备份文件是由多个文件打包而成，则还需要对文件解包，再发送给客户端。

备份服务器在进行下载和上传数据时遵从以下规则：

1)当第一次检测发生冲突时，设置参数L＝2；

2)退避间隔取1到L个时间片中的一个随机数；

L不再增加；

4)一旦检测次数超过8，则立即无条件上传数据。

通过应用退避算法，当备份服务器检测冲突较多时，产生较长等待时间的概率越大，从而保证在系统重负载时，尽可能少的对系统进行测试计算；同时当备份服务器退避次数超过8次时立即上传以保证公平性。

大文件的同步问题是云同步的难点。大文件同步不仅仅在云端要占据大量的存储空间，大文件的上传下载有很多难题需要解决，基于网络传输的不稳定性，文件安全性，文件校验，文件加密压缩等问题。目前国内外大多数的云同步应用只支持100MB以下的文件同步。大文件的同步主要面临以下几个问题：1.网络传输的不稳定性；2.文件传输的安全性；3.网络带宽的限制；4.大文件更新的效率问题。

为此，本发明采用文件分割的技术，将文件分割成多个独立的文件块，提高文件同步处理的效率。文件经过分割之后，文件块的大小在一个可控的范围内，无论原始文件本身多大，分割后的文件块都在云存储系统可接受的范围内。这样Hadoop分布式文件系统集群的文件存储系统就能够快速的处理云同步的文件存储问题，对相应的文件块进行管理避免Hadoop分布式文件系统集群出现大的文件块，造成Hadoop分布式文件系统集群存储系统的性能问题以及Hadoop分布式文件系统集群存储空间的浪费。

文件上传恢复的时候，采用文件分割的方式来管理文件。文件上传之前将文件分割成小文件块，再将文件块进行上传；文件恢复的时候是先下载文件的文件块，所有文件块下载完成之后将文件块合并成原来的文件。

文件的上传包含以下几个步骤：

3.文件块压缩：对加密后的文件块进行压缩；

文件的恢复包含以下几个步骤：

当监测到客户端的文件发生改变时，本发明使用以下方式同步更新Hadoop分布式文件系统集群上相应的文件：

1.当监测到客户端的文件CF_old变更为文件CF_new时，将发生改变的文件ID发送给Hadoop分布式文件系统集群；

2.根据客户端发来的文件ID，Hadoop分布式文件系统集群将CF_old对应的SF_old划分为大小为B的块，SF_old[(i-1)B,iB-1],表示文件从偏移地址(i-1)B到iB-1的内容，其中，i的取值为[1,2,3,……,N],N是文件SF_old划分的块数；然后计算每个块B_i的的两个哈希值：q_i＝h_q(B_i)和r_i＝h_m(B_i)，其中，h_q(B_i)表示对块B_i进行alder-32校验计算，h_m(B_i)表示对块B_i进行MD5校验计算，然后将两个校验值发送给客户端；

3.客户端接收Hadoop分布式文件系统集群发来的每个块的两个哈希值(q_i，r_i)，建立哈希表；

4.客户端遍历文件CF_new，从偏移地址j＝0开始，重复执行以下步骤4.1-4.4

4.1计算h_q(CF_new[j,j+B-1])；

4.2从哈希表中查找是否具有匹配的哈希值；

4.3如果找到匹配哈希值，计算h_m(CF_new[j,j+B-1])，如果h_m也匹配，则发送该块的偏移地址j和该块的大小信息给分布式文件系统集群，并对j进行加B操作；

4.4如果没有找到匹配哈希值，或者h_m不匹配，则传输CF_new[j]给Hadoop分布式文件系统集群，CF_new[j]表示文件CF_new在偏移地址j处的内容，j＝j+1；

5.Hadoop分布式文件系统集群根据客户端传送的内容和SF_old构建出与CF_new对应的文件SF_new。

上述同步更新方式计算量小、速度快。对于文件修改量很小的情况，还可以对上述算法进行进一步的改进。当CF_new的第i块与SF_old的第j块匹配时,极有可能CF_new的第i+1块与SF_old的第j+1块匹配,而上述算法每次找到一个匹配的块时要传输的数据次数过多,对带宽的利用性不高。

当监测到客户端的文件发生改变时，本发明还可以使用以下方式同步更新Hadoop分布式文件系统集群上相应的文件：

4.1计算h_q(CF_new[j,j+B-1])；

4.2从哈希表中查找是否具有匹配的哈希值；

4.3如果找到匹配哈希值，计算h_m(CF_new[j,j+B-1])，如果h_m也匹配，则将该块的偏移地址j和该块的大小信息存储到列表MatchList中，并对j进行加B操作；

4.4如果没有找到匹配哈希值，或者h_m不匹配，则将CF_new[j]存储到列表MatchList中，CF_new[j]表示文件CF_new在偏移地址j处的内容,判断列表MatchList中所存储的CF_new[j]总容量是否达到Hadoop分布式文件系统集群中的最小存储单元CK，如果是，则将列表MatchList中存储的内容发送给Hadoop分布式文件系统集群并继续以下操作，否则直接继续以下操作，j＝j+1；

本发明中，客户端读取文件的具体实现过程包括：

3.客户端调用FSDataInputStream的read()方法；

在文件读取过程中，如果客户端从一个数据节点上读取出错，则选择下一个离它最近的数据节点。同时记住这个失败的数据节点，在读取后面的块的时候不再选择这个数据节点。

这个设计的一个重要方面是：客户端直接联系数据节点接收数据，并且客户端通过名字节点直接导向包含所需数据的最佳数据节点。这样的设计可以使Hadoop分布式文件系统扩展而适应大量的客户端，因为数据传输线路是通过集群中的所有数据节点的；名称节点只需要提供相应块的位置查询服务即可，并且名称节点是将块的位置信息存放在内存中的，这样效率就非常高，名称节点不需要提供数据传输服务，否则数据服务将随着客户端的增加将很快成为瓶颈。

本发明中，客户端写入文件的具体实现过程包括：

1.客户端通过调用分布式文件系统的create()方法来创建文件；

7.在块完成复制到最少的份数之后，名字节点将成功返回。

本发明提出了一种新的基于云计算平台的存储方法，提高了文件存储的效率。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种云计算平台下的存储方法，包括：

(1)构建基于Hadoop分布式文件系统的云数据备份系统，所述系统从物理上分为客户端、备份服务器和Hadoop分布式文件系统集群；

(2)客户端中保存着为本机提供服务的备份服务器的信息,当需要备份或恢复时向备份服务器发出相应请求；

(3)备份服务器接收到客户客户端的请求，进行文件的备份和恢复；

其中，文件上传恢复的时候，采用文件分割的方式来管理文件，文件上传之前将文件分割成小文件块，再将文件块进行上传；文件恢复的时候是先下载文件的文件块，所有文件块下载完成之后将文件块合并成原来的文件；

其中，客户端写入文件的具体实现过程包括：

1)客户端通过调用分布式文件系统的create()方法来创建文件；

2)分布式文件系统通过RPC远程调用名称节点，在文件系统的名字空间里创建一个新文件，此时这个文件还没有任何块与之相联系；名称节点执行检查以确保这个文件不会已经存在，并且客户端拥有创建此文件的权限；如果上述检查通过，名称节点会生成一个新文件的记录；否则文件创建失败并向客户端抛出一个异常；分布式文件系统返回一个FSDataOutputStream,让客户端开始写入数据，FSDataOutputStream控制一个DFSOutputStream，DFSOutputStream负责处理数据节点和名称节点之间的通信；

3)当客户端写入数据时，DFSDataOutputStream把要写入的数据分成很多包，并将它们写入内部的数据队列，数据队列中的数据由数据流来读取，数据流让名称节点找出一个合适的数据节点列表，并要求这些数据节点分配一些新的块以存储作为副本而复制的数据，这个数据节点列表组成了一个管线；

4)FSDataInputStream将包分流给管线中第一个的数据节点，这个节点会对包进行存储并且发送给管线中的第二个数据节点，第二个数据节点存储包并且传给管线中第三个数据节点，直至将包传给管线中的最后一个数据节点；

5)DFSOutputStream有一个内部的包队列来等待数据节点收到确认，称为确认队列，只有当管线中所有的数据节点都返回写入成功，这个包才算写成功，发送确认给DFSOutputStream，包被移出确认队列，然后开始下一个包的写入；

6)客户端完成数据的写入后，就会在FSDataInputStream中调用close()；

7)在块完成复制到最少的份数之后，名字节点将成功返回。

2.如权利要求1所述的云计算平台下的存储方法，其中，文件的上传包含以下几个步骤：

1)文件分割：将原始的用户文件分割成几个小的文件块，文件分割是将大文件的存储文件变为了多个小文件的存储问题，可以直接避免大文件存储需要应对的多个技术难题；

2)文件块加密：文件块加密采用公钥加密的技术，文件块的公钥跟私钥都需用从Hadoop分布式文件系统集群获取；

3)文件块压缩：对加密后的文件块进行压缩；

4)文件块校验：文件块经过加密加压之后，通过hash算法算出文件块的hash值，文件的上传恢复都需要通过hash值校验，以确定文件块在传输过程中没有出现错误；同时，如果发现hash值已经存在，也就是已经有相同的文件块存放在服务器，那么文件块就不需要重复上传了；

5)文件块上传：文件块通过Hadoop分布式文件系统集群提供的远程接口进行同步，将文件块上传到Hadoop分布式文件系统集群，文件块上传结束之后，Hadoop分布式文件系统集群需要通过hash值来确定文件块无错误。

3.如权利要求1所述的云计算平台下的存储方法，其中，文件的恢复包含以下几个步骤：

1)获取文件块列表：通过文件ID获取文件对应的文件块列表，根据文件块的ID获取详细的文件块信息，下载文件块来间接完成文件下载功能；

2)文件块下载：使用文件块的ID，到指定的位置查找文件块，将列表中的文件块下载到本地；

3)文件块校验：文件块下载完成之后，通过文件块大小以及hash值来校验文件块是否成功下载；如果文件块校验失败，则此文件块无效，需要重新下载；

4)文件块解压：采用文件块压缩时相对应的文件块解压缩算法，对文件块解压缩；

5)文件块解密：从Hadoop分布式文件系统集群获取文件块解密的私钥，采用文件块加密对应的解密算法对文件块进行解密；

6)文件块合并：文件块完成下载、校验、解压、解密之后，将分离的文件块重新合并，恢复用户的原始文件。

4.如权利要求1所述的云计算平台下的存储方法，其中，备份服务器在进行下载和上传数据时遵从以下规则：

1)当第一次检测发生冲突时，设置参数L＝2；

2)退避间隔取1到L个时间片中的一个随机数；

L不再增加；

4)一旦检测次数超过8，则立即无条件上传数据。

5.如权利要求1所述的云计算平台下的存储方法，其中，客户端读取文件的具体实现过程包括：

1)客户端通过调用分布式文件系统的一个实例FileStream对象的open()方法来打开希望读取的文件；

2)分布式文件系统通过RPC远程调用名称节点以获得文件开头部分的数据块的位置，对于每个块，名称节点返回该块所在的数据节点的地址，并且这些数据节点会根据其距离客户端的远近进行排序，如果客户端本身也是数据节点，则直接读取本地数据，分布式文件系统返回一个支持文件定位的输入流的FSDataInputStream对象给客户端，让客户端从FSDataInputStream中读取数据；

3)客户端调用FSDataInputStream的read()方法；

4)存储文件开头部分块的数据节点地址的DFSInputStream随即与这些块最近的数据节点相连接，通过在数据流中重复调用read()，读取数据从数据节点返回客户端；

5)当第一个块读完，DFSInputStream关掉与这个数据节点的连接，然后开始第二个块的操作；

6)客户端从流中读取数据时，块是按照DFSInputStream打开与数据节点的新连接的顺序读取的，DFSInputStream也会调用名称节点来检索下一组需要的块的数据节点的位置，客户端完成数据读取后，调用FSDataInputStream的close()方法关闭数据流。

6.如权利要求5所述的云计算平台下的存储方法，其中，

在文件读取过程中，如果客户端从一个数据节点上读取出错，则选择下一个离它最近的数据节点，同时记住这个失败的数据节点，在读取后面的块的时候不再选择这个数据节点。