CN102136003A - 大规模分布式存储系统 - Google Patents

大规模分布式存储系统 Download PDF

Info

Publication number
CN102136003A
CN102136003A CN 201110073453 CN201110073453A CN102136003A CN 102136003 A CN102136003 A CN 102136003A CN 201110073453 CN201110073453 CN 201110073453 CN 201110073453 A CN201110073453 A CN 201110073453A CN 102136003 A CN102136003 A CN 102136003A
Authority
CN
China
Prior art keywords
node
data
file
management node
memory node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110073453
Other languages
English (en)
Inventor
李小勇
刘海涛
史高峰
王皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN 201110073453 priority Critical patent/CN102136003A/zh
Publication of CN102136003A publication Critical patent/CN102136003A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种计算机网络应用技术领域的大规模分布式存储系统,包括:至少一个存储对象的名字空间、元数据信息、对象号及对象的地址信息的管理节点、若干个存储对应的对象数据的存储节点和若干个超级客户端,超级客户端通过存储节点访问管理节点并在管理节点中查找待访问文件的对象号及对象的地址信息并从对应的存储节点中访问相应的对象数据;管理节点包括:存储有对象的名字空间和元数据信息的文件系统以及存储有对象号和对象的地址信息的数据库。本发明采用可配置的自动负载均衡和数据迁移,定期检查数据的一致性,清除垃圾数据等,消除了人工操作带来的各种问题,并且具有很高的可扩展性。

Description

大规模分布式存储系统
技术领域
本发明涉及的是一种计算机网络应用技术领域的装置,具体是一种大规模分布式存储系统。
背景技术
在传统的文件存储系统或文件服务器中,比如,基于网路附加存储(Network Attached Storage,NAS)中,数据是被一个巨大的、封闭的、独立的系统所存储和管理。企业中往往需要部署多个文件服务器,来满足迅速增长的数据处理需求。但是,部署多个文件服务器会引起数据迁移、数据共享、负载和容量均衡以及高可用性等等问题,这些问题很多时候需要人工参与解决,会产生诸多隐患。
在传统文件系统中,每个文件服务器限制了整个文件系统的访问带宽,并且由于元数据和数据都存储在一个单独的系统中,越来越多的用户访问时,频繁的随机读写操作使得系统的运行速度变慢,成为性能瓶颈。
经过对现有技术的检索发现,RedHat的《GFS-The Global File System(GFS文件系统)》和Sun的《Lustre File System(Lustre文件系统)》等分布式文件系统解决了传统文件系统中的这些问题。但是该现有技术通常用于高性能计算或大型数据中心,对硬件设施条件要求较高。以Lustre文件系统为例,它只对元数据管理器MDS提供容错解决方案,而对于具体的数据存储节点OST来说,则依赖其自身来解决容错的问题。例如,Lustre推荐OST节点采用RAID技术或SAN存储区域网来容错,但由于Lustre自身不能提供数据存储的容错,一旦OST发生故障就无法恢复,因此对OST的稳定性就提出了相当高的要求,从而大大增加了存储的成本,而且成本会随着规模的扩大线性增长。
经过对现有技术的检索发现,Google的《The Google File System(Google文件系统)》是采用廉价的商用机器的分布式文件系统。Google GFS将容错的任务交由文件系统来完成,利用软件的方法解决系统可靠性问题,这样使得存储的成本成倍下降;但是该现有技术的设计是与Google应用的特点紧密结合的,仅适用于大文件、读操作优先的应用环境,不适用于小文件随机读写的应用环境,并且不支持通用的文件系统访问协议。
发明内容
本发明针对现有技术存在的上述不足,提供一种大规模分布式存储系统,采用可配置的自动负载均衡和数据迁移,定期检查数据的一致性,清除垃圾数据等,消除了人工操作带来的各种问题。并且具有很高的可扩展性,随着存储设备的增加,系统的容量和带宽线性增加。本发明的硬件环境例如:廉价的商用机器或个人电脑等,并通过通用文件系统协议访问,适用于存储各种大小的文件,支持用户对文件系统的各种标准操作。
本发明是通过以下技术方案实现的,本发明包括:至少一个存储文件的名字空间、元数据信息、文件和对象的映射关系、对象号及对象的地址信息的管理节点、若干个存储对应的对象数据的存储节点和若干个超级客户端或客户端,其中:客户端通过存储节点访问管理节点并在管理节点中查找待访问文件的对象号及对象的地址信息并从对应的存储节点中访问相应的对象数据,而超级客户端则直接访问管理节点并在管理节点中查找待访问文件的对象号及对象的地址信息并从对应的存储节点中访问相应的对象数据。
所述的管理节点包括:存储有对象的名字空间和元数据信息的文件系统以及存储有对象号和对象的地址信息的数据库,其中:
所述的访问文件的方式:使用租约管理文件的读写访问,具体为:超级客户端的一个读写请求需要向管理节点请求租约,得到租约后访问其中一个存储节点上的数据;当多个读写请求到来时,要根据是否剥夺或访问时间等信息来进行租约的分配。
所述的文件和对象的映射关系是指:文件被分割成最大为64MB的对象,一个文件可能对应一组对象号,每个对象数据可能有多个相同内容的复本,这种文件和对象的映射关系被保存在管理节点上;文件和对象的映射关系中包括文件的状态信息等,这些信息常被用于提高系统性能的一些策略中,这些策略有:同步复制策略、异步复制策略和异步删除策略等。
所述的对象数据可能有多个相同内容的复本,各个复本存储于不同的存储节点上,这样提高系统的可靠性,当其中某些复本错误时,通过一致性检查恢复错误数据,并且提高这个文件被读访问时的访问带宽。
所述的同步复制策略是指:超级客户端向含有复本的存储节点写入数据时,各个存储节点对其含有的复本进行同步写,当所有的复本都返回写成功后更新管理节点的元数据信息并返回写成功给超级客户端。
所述的异步复制策略是指:超级客户端向含有复本的存储节点写入数据时,至少一个存储节点对其含有的复本进行异步写,并当其余存储节点的同步写结束后即向超级客户端返回写成功,该存储节点在完成异步写后对对象映射关系进行更新,并与其余存储节点进行一致性检查。
所述的异步删除策略是指:删除管理节点中对象的名字空间和元数据后返回给超级客户端删除成功,由对应存储节点通过加入一个异步删除任务队列进行对象数据的删除,当异步删除任务执行后,管理节点对其存储的对象号和对象的地址信息进行修改或删除。
所述的一致性检查是指:通过管理节点周期性地向存储节点发送对象号和对象的地址信息并接收存储节点返回的更新后的对象号和对象的地址信息进行数据检查、垃圾数据清除、数据恢复和数据迁移。
所述的IP地址迁移是指:当一个存储节点与管理节点断开连接或出现错误时,管理节点将该存储节点的IP地址动态迁移至其他的存储节点。
所述的访问采用NFS、CIFS、HTTP或FTP协议。
附图说明
图1为本发明系统结构图。
图2a为本发明的超级客户端访问存储系统的结构图。
图2b为本发明的超级客户端访问存储系统的结构图。
图3为本发明的管理节点的功能模块图。
图4为本发明的存储节点的功能模块图。
图5为本发明的超级客户端的功能模块图。
图6为本发明的对象关系映射示意图。
图7为本发明的目录结构示意图。
图8为本发明的租约管理示意图。
图9为本发明的同步复制示意图。
图10为本发明的同步复制时序图。
图11为本发明的任务引擎示意图。
图12为本发明的任务引擎的任务队列示意图。
图13为本发明的异步删除任务示意图。
图14为本发明的异步复制任务示意图。
图15为本发明的IP地址迁移示意图。
图16为本发明的监控服务示意图。
图17为本发明的文件访问协议示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所述,本实施例包括:至少一个存储对象的名字空间、元数据信息、对象号及对象的地址信息的管理节点、若干个存储对应的对象数据的存储节点和若干个超级客户端或客户端,其中:客户端、超级客户端、管理节点和存储节点之间通过交互网络进行通信。
所述的管理节点为个人电脑、工作站或服务器等;存储系统中可能存在影子管理节点;包括:存储有对象的名字空间和元数据信息的文件系统以及存储有对象号和对象的地址信息的数据库等。
所述的影子管理节点是指:系统中与管理节点是实时备份关系的管理节点,当管理节点宕机时,影子管理节点代替管理节点工作,这样提高了管理节点的可靠性。
所述的存储节点为个人电脑、工作站或服务器等;采用NTFS、EXT、XFS、ZFS等文件系统来存储数据对象。
所述的客户端是独立的计算机系统,例如:个人电脑、工作站、服务器、笔记本电脑或掌上电脑等;通过NFS、CIFS、HTTP和FTP等远程文件系统访问协议来访问存储系统。
所述的超级客户端是独立的计算机系统,例如:个人电脑、工作站、服务器、笔记本电脑或掌上电脑等;是在客户端安装了存储系统的客户端软件。
所述的交互网络是采用IP协议连接的网络。
如图2a所述,客户端不能直接访问管理节点,而是通过存储系统中的某个存储节点访问管理节点,其中:客户端的读文件的简单流程为:
步骤1,客户端通过一个存储节点的IP地址,向存储系统发送访问命令;
步骤2,存储节点将接收到的客户端的访问请求转发给管理节点;
步骤3,管理节点根据请求中的文件句柄查找对象映射关系库找到相应的对象号以及对象的地址信息,并将查询结果返回给存储节点;
步骤4,存储节点将根据对象的映射关系,可能从本节点读取数据或相应的别的存储节点上读取对象数据;
步骤5,存储节点将相应的数据转发给客户端。
如图2b所述,超级客户端是安装客户端软件的客户端,直接访问管理节点,其中:超级客户端的读文件的简单流程为:
步骤1,超级客户端向存储系统发送访问命令;
步骤2,超级客户端中的客户端软件会将命令直接发送到管理节点;
步骤3,管理节点根据请求中的文件句柄查找对象映射关系库找到相应的对象号以及对象的地址信息,并将查询结果返回给超级客户端;
步骤4,超级客户端将根据映射关系,直接从相应的存储节点上读取对象数据;
如图3所述,管理节点存储对象的名字空间、元数据信息、对象号及对象的地址信息,其主要功能模块包括:虚拟地址池管理、成员管理、监控服务、负载均衡、元数据管理、系统配置接口、数据管理、租约管理、目录存储和对象映射关系库等。
所述的虚拟地址池管理是指:为存储节点分配IP地址,客户端通过相应存储节点的IP地址访问存储系统;根据存储节点的性能、容量和负载等管理分配IP地址。
所述的成员管理是指:管理节点发现、添加和删除存储节点的模块。
所述的监控服务是指:监控和报告管理节点和存储节点的性能状态信息,例如,正常运行时间和吞吐量等。
所述的负载均衡是指:根据各个存储节点的空间利用率、网络包统计、文件类型和访问热点等来决定客户端对存储节点的访问,也是决策数据迁移重要参数。
所述的元数据管理是指:对所有系统中的元数据的管理,元数据包括:目录结构、文件大小、文件所有者、文件访问权限、文件类型和文件名字等。
所述的系统配置接口是指:提供给管理者配置存储系统的图形界面;比如,管理者通过系统配置接口来指定文件的同步和异步复本个数,也通过系统配置接口来管理存储系统的成员等。
所述的数据管理是指:数据的一致性、数据迁移、数据的存放位置改变、数据错误以及数据复本个数等的管理;比如,周期性地进行数据一致性检查,周期性地清除垃圾数据,异步复制后进行对象号与相应的地址信息的修改等。
所述的租约管理是指:管理一个文件正在被哪个存储节点使用;租约可能分为读写租约,每个租约会有租期,超出租期则会清除租约。
所述的目录存储是指:存储名字空间、元数据等文件相关的信息。
所述的对象映射关系库是指:存储文件的元数据与对象号的映射关系和对象存储地址信息等;可能是文件系统或结构化数据库等;可能会存储存储系统的其它配置信息,例如,存储系统的虚拟IP地址池的分配信息等。
如图4所述,存储节点存储文件的具体对象数据;其主要功能模块包括:数据处理、文件访问协议接口、用户空间文件系统、任务引擎、租约处理、监控代理和对象存储等。
所述的数据处理是指:管理对文件访问的服务,例如,对对象数据的读写操作,删除操作等提供服务。
所述的文件访问协议接口是指:处理存储节点与不同文件访问协议的交互模块,这些文件访问协议可能有:NFS、CIFS、HTTP和FTP等。
所述的用户空间文件系统是指:实现用户空间文件系统。
所述的任务引擎是指:处理异步数据复制、异步数据删除及执行数据迁移等不同任务的模块。
所述的租约处理是指:存储节点向管理节点申请或清除文件的租约。
所述的监控代理是指:监控和报告存储节点的状态信息的模块。
所述的对象存储是指:存储具体对象数据的模块;对象存储可能是NTFS、EXT、XFS、ZFS等文件系统,并管理相应的存储设备;存储设备可能是SATA盘、SCSI盘或RAID阵列等。
如图5所述,超级客户端是安装了客户端模块的客户端;其主要功能模块包括:数据处理、用户空间文件系统、租约处理和用户界面等。
所述的数据处理是指:保存文件的元数据与对象的映射关系及对象的位置信息,并负责读写相应的对象数据;数据处理模块还负责将异步操作任务添加到相应的存储节点的任务队列中等。
所述的用户空间文件系统是指:实现用户空间文件系统。
所述的租约处理是指:申请和清除文件租约的模块。
所述的用户界面是指:为用户提供友好的图形接口,用户看到自己权限范围内的目录结构,并提供方便用户访问文件的各种操作。
如图6所述,文件到相应的具体数据的映射关系:通过目录存储找到相应文件,通过对象关系映射库找到文件对应的对象号和对象地址信息,通过相应存储节点的对象存储找到对象具体存储设备。
简单的访问流程:
步骤1,超级客户端通过客户端模块发送文件读文件请求;
步骤2,管理节点在目录存储中找到的文件元数据信息;
步骤3,在对象映射关系库中根据文件元数据信息查找到相应的对象号和对象的地址信息;
步骤4,管理节点将文件和对象的映射关系返回给超级客户端;
步骤5,超级客户端根据对象的地址信息访问相应的存储节点;
步骤6,被访问存储节点通过对象存储模块将相应存储设备上的对象数据返回给超级客户端。
如图7所述,目录存储中按照树状结构组织的目录树,目录树中有文件夹和文件等;其中:文件的元数据信息,即文件属性中,包含:文件大小、文件所有者、文件所属组、文件创建时间、文件修改时间和访问时间等。
如图8所述,存储系统使用租约管理文件的读写访问,存储节点通过租约处理模块向管理节点提交租约申请或释放的请求,管理节点的租约管理模块根据租约管理规则对文件的读写租约请求做出相应的应答,其中:管理节点中的租约管理模块中记录了每个文件的租约申请状态,主要有读租约队列和写租约队列,分别记录获得读租约的客户端和获得写租约的客户端信息。
所述的租约是指:对文件的读写操作的期限;具体为:存储节点的租约处理模块维护一个倒计时,当租期快到时,租约处理模块会重新申请或释放租约,租约的申请或释放对用户是透明的。
所述的租约管理规则具体有三种情况:
情况1,多个写操作申请写同一文件时,按照FCFS(先来先服务)的原则,仅允许一个写操作进行,其余写操作被拒绝;可配置的读写租约技术,允许管理员配置剥夺写,这样客户端选择剥夺写,即允许的有权限的客户端强制获得写文件的权限,并提示之前在写的客户端写权限被剥夺;
情况2,写操作申请时,多个读操作正在进行,写操作申请成功,并通知所有读操作的客户端文件正在被修改,或读写严格互斥;
情况3,读操作申请时,写操作正在进行,读操作申请成功,并及时更新自己的缓存,更新操作由客户端来触发,或读写严格互斥。
所述的可配置的读写租约技术是指:管理员配置文件是否剥夺写,即对同一文件,优先级高的客户端的写操作剥夺优先级低的客户端的写操作;文件的读租约和写租约的优先级配置通过管理节点中的系统配置接口来设置;即,读写是否被剥夺,以及允许剥夺的用户的权限等等。
本实施例通过以下方式进行租约申请:
步骤1,客户端通过存储节点的租约处理模块向管理节点发送某一文件的写租约请求,或超级客户端的租约处理模块直接向管理节点发送某一文件的读租约请求;
步骤2,管理节点的租约管理模块根据租约管理规则管理文件的租约请求,将这个请求加入申请租约队列中;
步骤3,如果写租约队列为空,将申请加入到写租约队列中,并通知超级客户端或存储节点的租约处理租约申请成功,否则,返回租约申请失败。
如图9所述,管理节点中设置文件的同步复本数和异步复本数;同步复制时,管理节点提供各个复本的存放地址等信息给存储节点。
所述的同步复制策略是指,对象数据以流水线的方式完成多个复本的同步写操作。
本实施例通过以下方式进行同步写:
步骤1,客户端发送写文件命令到存储节点,主存储节点发送命令到管理节点查找文件的对象号和对象的地址信息和同步写的复本数;
步骤2,管理节点发送包含对象号和对象的地址信息以及复本数的命令到主存储节点;
步骤3,主存储节点接收客户端数据并将其转发给其余的存储节点;
步骤4,其余的存储节点写完数据后返回命令给主存储节点;
步骤5,主存储节点等所有复本都写完后,返回写完成命令给客户端。
如图10所述,多个复本同步写时,需要等待所有复本写完成后才完成一个写操作;本实施例中,当所有同步的复本都写入内存缓存区时,提交写完成,而真正写入磁盘后,再修改文件的元数据和对象映射关系;这样设计,减少了用户的等待,也提高了可靠性。
本实施例同步写时序如下:
步骤1,客户端发送数据到数据主复本,数据主复本将数据转发至其它数据复本;
步骤2,当所有复本的内存缓存区都有这份数据后,数据主复本向客户端返回提交点,这时,客户端看到写成功;
步骤3,所有复本将内存缓存区的数据刷新到磁盘,当所有复本都刷新到磁盘后,由数据主复本向客户端返回最终提交点;
步骤4,返回最终提交点时,数据主复本提交映射关系的修改请求给管理节点,包括:文件大小等信息。
所述的提交点和最终提交点是指,数据写入内存或磁盘后给出的成功返回。
如图11所述,任务引擎主要负责接收、分发任务以及汇报任务执行结果;管理节点会将不同的异步任务加入到不同存储节点的任务引擎中;其中:管理节点的数据管理模块周期性检查各个存储节点上数据的一致性和对象关系映射库中的异步处理数据,将其加入存储节点中的任务引擎中。
本实施例的任务引擎模块的工作流程:
步骤1,管理节点中的数据管理添加任务到各个存储节点的任务引擎中;
步骤2,任务引擎发送执行任务到相应的存储节点的数据处理模块;
步骤3,所有复本将内存缓存区的数据刷新到磁盘,当所有复本都刷新到磁盘后,由数据主复本向客户端返回最终提交点;
步骤4,返回最终提交点时,数据主复本所在的存储节点提交映射关系的修改请求给管理节点,修改请求信息包括对象的地址和文件大小等信息。
如图12所述,存储节点的任务引擎中可能会有多种任务队列,例如,异步复制队列和异步删除队列等;存储节点的任务引擎会将不同的任务分派到各个存储节点的数据处理中执行;分配的依据主要是不同存储节点对任务的开销和负载情况等;各个存储节点的任务引擎之间是相互独立的,并发执行的,并且与管理节点相互独立;存储节点的任务引擎与管理节点的交互发生在:任务执行结束、任务执行错误和添加新的任务等时机。
如图13所述,本实施例通过以下方式进行异步删除:
步骤1,判断异步删除队列头是否为空;如果为空,结束;不为空,步骤2;
步骤2,从异步删除队列中取任务,并将任务分配给一个存储节点;
步骤3,相应的存储节点执行删除操作;
步骤4,判断删除是否成功;如果不成功,任务加入异步删除队列尾,同时有可能产生的垃圾数据需要添加任务到任务引擎中;成功,步骤5;
步骤5,通知管理节点,修改相应的对象映射关系;
步骤6,循环执行异步删除任务。
如图14所述,本实施例通过以下方式进行异步复制:
步骤1,判断异步复制队列头是否为空;如果为空,结束;不为空,步骤2;
步骤2,从异步复制队列中取任务,并将任务分配给一个存储节点;
步骤3,向管理节点申请源数据的读租约,并且这个租约的优先级较低,这个租约很容易剥夺,这样,不影响用户对存储系统的这个文件的访问,同时,复制任务比较快,很少发生被剥夺现象;
步骤4,判断读租约是否申请成功,如果不成功,任务加入到异步复制队列尾;成功,步骤5;
步骤5,相应的存储节点执行复制操作,将源数据复制到目的数据,复制过程中计算各个复本的校验和,复制结束后进行完整性检查;
步骤6,判断复制是否成功;导致不成功的因素很多,可能是源数据的读租约被剥夺等;如果不成功,任务加入异步复制队列尾,同时有可能产生的垃圾数据需要添加任务到任务引擎中;成功,步骤7;
步骤7,通知管理节点,修改相应的对象映射关系;
步骤8,循环执行异步复制任务。
如图15所述,虚拟地址池管理管理存储系统的IP地址。虚拟地址池管理会根据存储系统的负载均衡等分配IP地址信息,并将错误节点的地址迁移到正常节点,这样即使有错误节点,用户也能正常使用存储系统,地址迁移对用户是透明的。
动态地址迁移实施例如下:
管理节点的虚拟地址池管理分配存储节点135地址为10.10.1.2,存储节点140地址为10.10.1.3,存储节点145地址为10.10.1.4。
假如,存储节点140不能工作时,管理节点130的虚拟地址池管理305将存储节点140迁移给存储节点135。所以,存储节点135的IP地址为10.10.1.2和10.10.1.3。这样,客户端105原先通过10.10.1.3访问存储节点140,地址迁移后,客户端将通过存储节点135访问存储系统。
如图16所述,监控服务是监控存储系统的实时信息,包括每个节点的网络包流量、客户端访问数量、空间利用率和热点文件等;监控服务为负载均衡等提供参数。
所述的监控服务是指:管理节点的监控服务模块接收存储节点的监控代理模块的实时信息,并进行统计分析,将一部分信息提供给负载均衡模块,一部分信息提供给数据管理模块;这样,负载均衡模块就能根据各个节点的监控信息分配客户端的访问;数据管理模块就能更好地决定数据复本的存放位置等。
如图17所述,本实施例有两种客户端,超级客户端直接访问存储系统,客户端通过通用的文件访问协议访问存储系统;其中:客户端使用NFS,或CIFS,或HTTP,或FTP等协议通过存储节点访问存储系统;存储节点中的文件访问协议接口包含了NFS协议接口、CIFS协议接口、HTTP协议接口和FTP协议接口等,通过这些接口,提供相应的存储系统访问服务。

Claims (9)

1.一种大规模分布式存储系统,其特征在于,包括:至少一个存储对象的名字空间、元数据信息、对象号及对象的地址信息的管理节点、若干个存储对应的对象数据的存储节点和若干个超级客户端,其中:超级客户端通过存储节点访问管理节点并在管理节点中查找待访问文件的对象号及对象的地址信息并从对应的存储节点中访问相应的对象数据;
所述的管理节点包括:存储有对象的名字空间和元数据信息的文件系统以及存储有对象号和对象的地址信息的数据库。
2.根据权利要求1所述的大规模分布式存储系统,其特征是,所述的通过存储节点访问管理节点是指:使用租约管理文件的读写访问,具体为:超级客户端的一个读写请求需要向管理节点请求租约,得到租约后访问其中一个存储节点上的数据;当多个读写请求到来时,要根据是否剥夺或访问时间等信息来进行租约的分配。
3.根据权利要求1所述的大规模分布式存储系统,其特征是,所述的对象数据由多个相同内容的复本组成,各个复本存储于不同的存储节点上,通过同步复制策略、异步复制策略以及异步删除策略实现所述从对应的存储节点中访问相应的对象数据。
4.根据权利要求3所述的大规模分布式存储系统,其特征是,所述的同步复制策略是指:超级客户端向含有复本的存储节点写入数据时,各个存储节点对其含有的复本进行同步写,当所有的复本都返回写成功后更新管理节点的元数据信息并返回写成功给超级客户端。
5.根据权利要求3所述的大规模分布式存储系统,其特征是,所述的异步复制策略是指:超级客户端向含有复本的存储节点写入数据时,至少一个存储节点对其含有的复本进行异步写,并当其余存储节点的同步写结束后即向超级客户端返回写成功,该存储节点在完成异步写后对对象映射关系进行更新,并与其余存储节点进行一致性检查。
6.根据权利要求3所述的大规模分布式存储系统,其特征是,所述的异步删除策略是指:删除管理节点中对象的名字空间和元数据后返回给超级客户端删除成功,由对应存储节点通过加入一个异步删除任务队列进行对象数据的删除,当异步删除任务执行后,管理节点对其存储的对象号和对象的地址信息进行修改或删除。
7.根据权利要求5所述的大规模分布式存储系统,其特征是,所述的一致性检查是指:通过管理节点周期性地向存储节点发送对象号和对象的地址信息并接收存储节点返回的更新后的对象号和对象的地址信息进行数据检查、垃圾数据清除、数据恢复和数据迁移。
8.根据权利要求7所述的大规模分布式存储系统,其特征是,所述的数据迁移是指:当一个存储节点与管理节点断开连接或出现错误时,管理节点将该存储节点的IP地址动态迁移至其他的存储节点。
9.根据权利要求1或2或3所述的大规模分布式存储系统,其特征是,所述的访问采用NFS、CIFS、HTTP或FTP协议。
CN 201110073453 2011-03-25 2011-03-25 大规模分布式存储系统 Pending CN102136003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110073453 CN102136003A (zh) 2011-03-25 2011-03-25 大规模分布式存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110073453 CN102136003A (zh) 2011-03-25 2011-03-25 大规模分布式存储系统

Publications (1)

Publication Number Publication Date
CN102136003A true CN102136003A (zh) 2011-07-27

Family

ID=44295789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110073453 Pending CN102136003A (zh) 2011-03-25 2011-03-25 大规模分布式存储系统

Country Status (1)

Country Link
CN (1) CN102136003A (zh)

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622284A (zh) * 2012-02-21 2012-08-01 上海交通大学 面向海量存储系统的数据异步复制方法
CN102647362A (zh) * 2012-04-27 2012-08-22 浪潮电子信息产业股份有限公司 一种多控制器存储系统负载均衡的方法
CN102937964A (zh) * 2012-09-28 2013-02-20 无锡江南计算技术研究所 基于分布式系统的智能数据服务方法
CN102982033A (zh) * 2011-09-05 2013-03-20 深圳市快播科技有限公司 小文件的存储方法及系统
CN103034664A (zh) * 2011-10-10 2013-04-10 上海盛霄云计算技术有限公司 控制数据库数据迁移的方法、系统及装置
CN103064929A (zh) * 2012-12-24 2013-04-24 创新科存储技术(深圳)有限公司 一种网络文件系统中服务器写数据的方法
CN103078933A (zh) * 2012-12-29 2013-05-01 深圳先进技术研究院 一种确定数据迁移时机的方法和装置
CN103475732A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种基于虚拟地址池的分布式文件系统数据卷部署方法
WO2014036684A1 (zh) * 2012-09-04 2014-03-13 华为技术有限公司 一种进行数据存储和检索的方法及装置
CN103646194A (zh) * 2013-11-29 2014-03-19 北京广利核系统工程有限公司 一种基于形式化验证的同步数据流程序的可信排序方法
CN103701916A (zh) * 2013-12-31 2014-04-02 赛凡信息科技(厦门)有限公司 分布式存储系统的动态负载均衡方法
CN103778212A (zh) * 2014-01-16 2014-05-07 国网山东省电力公司青岛供电公司 基于数据节点的并行海量数据处理方法
CN104052611A (zh) * 2013-03-12 2014-09-17 华中科技大学 一种云存储系统数据可用性维护方法及其装置
CN104077315A (zh) * 2013-03-29 2014-10-01 国家计算机网络与信息安全管理中心 分布式文件系统数据导入方法及装置
CN104601687A (zh) * 2015-01-07 2015-05-06 曙光信息产业股份有限公司 一种分发跨地域高效存储内容的方法及系统
CN104702634A (zh) * 2013-12-04 2015-06-10 腾讯科技(深圳)有限公司 数据操作请求处理方法、装置及系统
CN104793893A (zh) * 2014-02-12 2015-07-22 北京中科同向信息技术有限公司 基于存储的双活技术
CN104933067A (zh) * 2014-03-19 2015-09-23 中国移动通信集团公司 一种对文件系统和对象存储系统进行操作的方法及装置
CN105302817A (zh) * 2014-06-25 2016-02-03 苏宁云商集团股份有限公司 分布式文件系统管理方法和装置
WO2016065611A1 (zh) * 2014-10-31 2016-05-06 华为技术有限公司 访问文件的方法、系统和主机
CN106168882A (zh) * 2015-05-18 2016-11-30 联发科技股份有限公司 管理存储装置的方法及其存储系统
CN106210038A (zh) * 2016-07-06 2016-12-07 网易(杭州)网络有限公司 数据操作请求的处理方法及系统
CN106610979A (zh) * 2015-10-23 2017-05-03 镇江雅迅软件有限责任公司 一种分步式电子文件管理系统
CN106850856A (zh) * 2017-03-28 2017-06-13 南京卓盛云信息科技有限公司 一种分布式存储系统及其同步缓存方法
CN106845259A (zh) * 2017-02-28 2017-06-13 郑州云海信息技术有限公司 一种分布式文件读写权限设置方法
CN107111481A (zh) * 2014-10-03 2017-08-29 新加坡科技研究局 分布式主动混合存储系统
CN107295030A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 一种数据写入方法、装置、数据处理方法、装置及系统
CN107360245A (zh) * 2017-07-28 2017-11-17 郑州云海信息技术有限公司 一种基于租约锁机制的本地缓存方法及装置
CN107483571A (zh) * 2017-08-08 2017-12-15 柏域信息科技(上海)有限公司 一种动态云存储方法及系统
CN107516048A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种控制分布式文件系统中文件访问的方法与设备
CN107656695A (zh) * 2016-07-25 2018-02-02 杭州海康威视数字技术股份有限公司 一种数据存储、删除方法、装置及分布式存储系统
CN107704490A (zh) * 2017-08-22 2018-02-16 贵州白山云科技有限公司 一种基于对等存储的数据处理方法及装置
CN108289080A (zh) * 2017-01-09 2018-07-17 阿里巴巴集团控股有限公司 一种访问文件系统的方法、装置和系统
CN108400905A (zh) * 2018-01-31 2018-08-14 山东汇贸电子口岸有限公司 一种处理分布式存储端到端流量分析的方法
CN109522053A (zh) * 2017-09-20 2019-03-26 阿里巴巴集团控股有限公司 一种大规模并行处理系统及数据处理方法
CN109669636A (zh) * 2018-12-20 2019-04-23 广州勤泰信息科技有限公司 一种分布式智能存储系统
CN109766313A (zh) * 2018-12-05 2019-05-17 中国地质调查局发展研究中心 地质项目数据处理方法、装置及计算机设备
CN110100229A (zh) * 2017-01-06 2019-08-06 甲骨文国际公司 利用文件系统层次结构和语义的低延时直接云访问
CN110099084A (zh) * 2018-01-31 2019-08-06 北京易真学思教育科技有限公司 一种保证存储服务可用性的方法、系统及计算机可读介质
WO2019161557A1 (zh) * 2018-02-24 2019-08-29 华为技术有限公司 一种通信的方法及装置
CN110602220A (zh) * 2019-09-17 2019-12-20 拉扎斯网络科技(上海)有限公司 任务分配方法、装置、电子设备及计算机可读存储介质
CN110990129A (zh) * 2019-10-17 2020-04-10 上海海加网络科技有限公司 一种基于智能启发式算法的分布式存储系统调度方法
CN111225003A (zh) * 2018-11-23 2020-06-02 北京京东金融科技控股有限公司 一种nfs节点配置方法和装置
CN111339192A (zh) * 2020-02-21 2020-06-26 深圳供电局有限公司 一种分布式边缘计算数据存储系统
CN111404980A (zh) * 2019-09-29 2020-07-10 杭州海康威视系统技术有限公司 一种数据存储方法及一种对象存储系统
CN111666035A (zh) * 2019-03-05 2020-09-15 阿里巴巴集团控股有限公司 一种分布式存储系统的管理方法及装置
CN112817992A (zh) * 2021-01-29 2021-05-18 北京百度网讯科技有限公司 执行更改任务的方法、装置、电子设备以及可读存储介质
CN112905557A (zh) * 2021-03-03 2021-06-04 山东兆物网络技术股份有限公司 支持异步提交的海量文件整合存储方法及系统
CN113608692A (zh) * 2021-07-25 2021-11-05 济南浪潮数据技术有限公司 一种存储系统数据一致性验证方法、系统、设备以及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1726454A (zh) * 2002-10-17 2006-01-25 英特尔公司 分布式网络附接的存储系统
US20060031230A1 (en) * 2004-07-21 2006-02-09 Kumar Sinha M Data storage systems
CN101291347A (zh) * 2008-06-06 2008-10-22 中国科学院计算技术研究所 一种网络存储系统
EP2175383A1 (en) * 2008-10-07 2010-04-14 Hitachi, Ltd. Method and apparatus for improving file access performance of distributed storage system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1726454A (zh) * 2002-10-17 2006-01-25 英特尔公司 分布式网络附接的存储系统
US20060031230A1 (en) * 2004-07-21 2006-02-09 Kumar Sinha M Data storage systems
CN101291347A (zh) * 2008-06-06 2008-10-22 中国科学院计算技术研究所 一种网络存储系统
EP2175383A1 (en) * 2008-10-07 2010-04-14 Hitachi, Ltd. Method and apparatus for improving file access performance of distributed storage system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《中国优秀硕士学位论文全文数据库》 20060930 郭威 分布式文件系统ZD-DFS的设计与实现 第17-18,21-22,27页 1-9 , 第9期 *

Cited By (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982033A (zh) * 2011-09-05 2013-03-20 深圳市快播科技有限公司 小文件的存储方法及系统
CN103034664A (zh) * 2011-10-10 2013-04-10 上海盛霄云计算技术有限公司 控制数据库数据迁移的方法、系统及装置
CN103034664B (zh) * 2011-10-10 2018-01-05 上海盛大网络发展有限公司 控制数据库数据迁移的方法、系统及装置
CN102622284B (zh) * 2012-02-21 2014-04-16 上海交通大学 面向海量存储系统的数据异步复制方法
CN102622284A (zh) * 2012-02-21 2012-08-01 上海交通大学 面向海量存储系统的数据异步复制方法
CN102647362A (zh) * 2012-04-27 2012-08-22 浪潮电子信息产业股份有限公司 一种多控制器存储系统负载均衡的方法
WO2014036684A1 (zh) * 2012-09-04 2014-03-13 华为技术有限公司 一种进行数据存储和检索的方法及装置
CN102937964A (zh) * 2012-09-28 2013-02-20 无锡江南计算技术研究所 基于分布式系统的智能数据服务方法
CN102937964B (zh) * 2012-09-28 2015-02-11 无锡江南计算技术研究所 基于分布式系统的智能数据服务方法
CN103064929A (zh) * 2012-12-24 2013-04-24 创新科存储技术(深圳)有限公司 一种网络文件系统中服务器写数据的方法
CN103064929B (zh) * 2012-12-24 2016-06-29 创新科存储技术(深圳)有限公司 一种网络文件系统中服务器写数据的方法
CN103078933A (zh) * 2012-12-29 2013-05-01 深圳先进技术研究院 一种确定数据迁移时机的方法和装置
CN103078933B (zh) * 2012-12-29 2015-12-02 深圳先进技术研究院 一种确定数据迁移时机的方法和装置
CN104052611A (zh) * 2013-03-12 2014-09-17 华中科技大学 一种云存储系统数据可用性维护方法及其装置
CN104052611B (zh) * 2013-03-12 2017-04-19 华中科技大学 一种云存储系统数据可用性维护方法及其装置
CN104077315A (zh) * 2013-03-29 2014-10-01 国家计算机网络与信息安全管理中心 分布式文件系统数据导入方法及装置
CN104077315B (zh) * 2013-03-29 2017-08-11 国家计算机网络与信息安全管理中心 分布式文件系统数据导入方法及装置
CN103475732A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种基于虚拟地址池的分布式文件系统数据卷部署方法
CN103646194A (zh) * 2013-11-29 2014-03-19 北京广利核系统工程有限公司 一种基于形式化验证的同步数据流程序的可信排序方法
CN103646194B (zh) * 2013-11-29 2016-04-06 北京广利核系统工程有限公司 一种基于形式化验证的同步数据流程序的可信排序方法
CN104702634A (zh) * 2013-12-04 2015-06-10 腾讯科技(深圳)有限公司 数据操作请求处理方法、装置及系统
CN104702634B (zh) * 2013-12-04 2018-10-02 腾讯科技(深圳)有限公司 数据操作请求处理方法、装置及系统
CN103701916B (zh) * 2013-12-31 2017-10-27 赛凡信息科技(厦门)有限公司 分布式存储系统的动态负载均衡方法
CN103701916A (zh) * 2013-12-31 2014-04-02 赛凡信息科技(厦门)有限公司 分布式存储系统的动态负载均衡方法
CN103778212A (zh) * 2014-01-16 2014-05-07 国网山东省电力公司青岛供电公司 基于数据节点的并行海量数据处理方法
CN104793893A (zh) * 2014-02-12 2015-07-22 北京中科同向信息技术有限公司 基于存储的双活技术
CN104933067A (zh) * 2014-03-19 2015-09-23 中国移动通信集团公司 一种对文件系统和对象存储系统进行操作的方法及装置
CN105302817B (zh) * 2014-06-25 2019-10-01 苏宁云计算有限公司 分布式文件系统管理方法和装置
CN105302817A (zh) * 2014-06-25 2016-02-03 苏宁云商集团股份有限公司 分布式文件系统管理方法和装置
CN107111481A (zh) * 2014-10-03 2017-08-29 新加坡科技研究局 分布式主动混合存储系统
CN105745640A (zh) * 2014-10-31 2016-07-06 华为技术有限公司 访问文件的方法、系统和主机
US10372336B2 (en) 2014-10-31 2019-08-06 Huawei Technologies Co., Ltd. File access method, system, and host
WO2016065611A1 (zh) * 2014-10-31 2016-05-06 华为技术有限公司 访问文件的方法、系统和主机
CN105745640B (zh) * 2014-10-31 2018-09-11 华为技术有限公司 访问文件的方法、系统和主机
CN104601687A (zh) * 2015-01-07 2015-05-06 曙光信息产业股份有限公司 一种分发跨地域高效存储内容的方法及系统
CN106168882A (zh) * 2015-05-18 2016-11-30 联发科技股份有限公司 管理存储装置的方法及其存储系统
CN106610979A (zh) * 2015-10-23 2017-05-03 镇江雅迅软件有限责任公司 一种分步式电子文件管理系统
CN107295030A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 一种数据写入方法、装置、数据处理方法、装置及系统
CN107516048A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种控制分布式文件系统中文件访问的方法与设备
CN107516048B (zh) * 2016-06-16 2021-01-08 阿里巴巴集团控股有限公司 一种控制分布式文件系统中文件访问的方法与设备
CN106210038A (zh) * 2016-07-06 2016-12-07 网易(杭州)网络有限公司 数据操作请求的处理方法及系统
CN106210038B (zh) * 2016-07-06 2019-01-29 网易(杭州)网络有限公司 数据操作请求的处理方法及系统
CN107656695A (zh) * 2016-07-25 2018-02-02 杭州海康威视数字技术股份有限公司 一种数据存储、删除方法、装置及分布式存储系统
CN107656695B (zh) * 2016-07-25 2020-12-25 杭州海康威视数字技术股份有限公司 一种数据存储、删除方法、装置及分布式存储系统
US11755535B2 (en) 2017-01-06 2023-09-12 Oracle International Corporation Consistent file system semantics with cloud object storage
US11714784B2 (en) 2017-01-06 2023-08-01 Oracle International Corporation Low-latency direct cloud access with file system hierarchies and semantics
CN110100229B (zh) * 2017-01-06 2023-08-22 甲骨文国际公司 利用文件系统层次结构和语义的低延时直接云访问
CN110100229A (zh) * 2017-01-06 2019-08-06 甲骨文国际公司 利用文件系统层次结构和语义的低延时直接云访问
CN108289080A (zh) * 2017-01-09 2018-07-17 阿里巴巴集团控股有限公司 一种访问文件系统的方法、装置和系统
CN106845259B (zh) * 2017-02-28 2019-12-17 苏州浪潮智能科技有限公司 一种分布式文件读写权限设置方法
CN106845259A (zh) * 2017-02-28 2017-06-13 郑州云海信息技术有限公司 一种分布式文件读写权限设置方法
CN106850856A (zh) * 2017-03-28 2017-06-13 南京卓盛云信息科技有限公司 一种分布式存储系统及其同步缓存方法
CN107360245B (zh) * 2017-07-28 2020-10-16 苏州浪潮智能科技有限公司 一种基于租约锁机制的本地缓存方法及装置
CN107360245A (zh) * 2017-07-28 2017-11-17 郑州云海信息技术有限公司 一种基于租约锁机制的本地缓存方法及装置
CN107483571A (zh) * 2017-08-08 2017-12-15 柏域信息科技(上海)有限公司 一种动态云存储方法及系统
CN107704490A (zh) * 2017-08-22 2018-02-16 贵州白山云科技有限公司 一种基于对等存储的数据处理方法及装置
CN109522053A (zh) * 2017-09-20 2019-03-26 阿里巴巴集团控股有限公司 一种大规模并行处理系统及数据处理方法
CN108400905B (zh) * 2018-01-31 2020-06-19 浪潮云信息技术有限公司 一种处理分布式存储端到端流量分析的方法
CN110099084B (zh) * 2018-01-31 2021-06-15 北京易真学思教育科技有限公司 一种保证存储服务可用性的方法、系统及计算机可读介质
CN110099084A (zh) * 2018-01-31 2019-08-06 北京易真学思教育科技有限公司 一种保证存储服务可用性的方法、系统及计算机可读介质
CN108400905A (zh) * 2018-01-31 2018-08-14 山东汇贸电子口岸有限公司 一种处理分布式存储端到端流量分析的方法
WO2019161557A1 (zh) * 2018-02-24 2019-08-29 华为技术有限公司 一种通信的方法及装置
US11500689B2 (en) 2018-02-24 2022-11-15 Huawei Technologies Co., Ltd. Communication method and apparatus
CN111225003B (zh) * 2018-11-23 2022-12-27 京东科技控股股份有限公司 一种nfs节点配置方法和装置
CN111225003A (zh) * 2018-11-23 2020-06-02 北京京东金融科技控股有限公司 一种nfs节点配置方法和装置
CN109766313A (zh) * 2018-12-05 2019-05-17 中国地质调查局发展研究中心 地质项目数据处理方法、装置及计算机设备
CN109669636A (zh) * 2018-12-20 2019-04-23 广州勤泰信息科技有限公司 一种分布式智能存储系统
CN111666035A (zh) * 2019-03-05 2020-09-15 阿里巴巴集团控股有限公司 一种分布式存储系统的管理方法及装置
CN111666035B (zh) * 2019-03-05 2023-06-20 阿里巴巴集团控股有限公司 一种分布式存储系统的管理方法及装置
CN110602220A (zh) * 2019-09-17 2019-12-20 拉扎斯网络科技(上海)有限公司 任务分配方法、装置、电子设备及计算机可读存储介质
CN111404980A (zh) * 2019-09-29 2020-07-10 杭州海康威视系统技术有限公司 一种数据存储方法及一种对象存储系统
CN110990129A (zh) * 2019-10-17 2020-04-10 上海海加网络科技有限公司 一种基于智能启发式算法的分布式存储系统调度方法
CN111339192A (zh) * 2020-02-21 2020-06-26 深圳供电局有限公司 一种分布式边缘计算数据存储系统
CN112817992B (zh) * 2021-01-29 2023-06-23 北京百度网讯科技有限公司 执行更改任务的方法、装置、电子设备以及可读存储介质
CN112817992A (zh) * 2021-01-29 2021-05-18 北京百度网讯科技有限公司 执行更改任务的方法、装置、电子设备以及可读存储介质
CN112905557A (zh) * 2021-03-03 2021-06-04 山东兆物网络技术股份有限公司 支持异步提交的海量文件整合存储方法及系统
CN113608692A (zh) * 2021-07-25 2021-11-05 济南浪潮数据技术有限公司 一种存储系统数据一致性验证方法、系统、设备以及介质
CN113608692B (zh) * 2021-07-25 2023-12-29 济南浪潮数据技术有限公司 一种存储系统数据一致性验证方法、系统、设备以及介质

Similar Documents

Publication Publication Date Title
CN102136003A (zh) 大规模分布式存储系统
US11782783B2 (en) Method and apparatus to neutralize replication error and retain primary and secondary synchronization during synchronous replication
CN101753617B (zh) 一种云存储系统和方法
US10725691B1 (en) Dynamic recycling algorithm to handle overlapping writes during synchronous replication of application workloads with large number of files
US7870353B2 (en) Copying storage units and related metadata to storage
US7882304B2 (en) System and method for efficient updates of sequential block storage
JP5254611B2 (ja) 固定内容分散データ記憶のためのメタデータ管理
US8161321B2 (en) Virtual machine-based on-demand parallel disaster recovery system and the method thereof
CN101576915B (zh) 一种分布式b+树索引系统及构建方法
CN103761190B (zh) 数据处理方法及装置
CN102708165B (zh) 分布式文件系统中的文件处理方法及装置
CN103037004A (zh) 云存储系统操作的实现方法和装置
US11144252B2 (en) Optimizing write IO bandwidth and latency in an active-active clustered system based on a single storage node having ownership of a storage object
JP2011516994A (ja) 冗長データ記憶システムへの指示に従ってのデータ配置
CN104660643A (zh) 请求响应方法、装置及分布式文件系统
CN107291889A (zh) 一种数据存储方法及系统
CN103455577A (zh) 云主机镜像文件的多备份就近存储和读取方法及系统
CN111984696B (zh) 一种新型数据库和方法
US10031682B1 (en) Methods for improved data store migrations and devices thereof
CN108108476A (zh) 高可靠分布式日志系统的工作方法
CN103067461A (zh) 一种文件的元数据管理系统以及元数据管理方法
CN103312624A (zh) 一种消息队列服务系统和方法
KR20060067119A (ko) 객체 기반 스토리지를 사용하는 분산 파일 서버에서 장애복구 시스템 및 방법
CN100530069C (zh) 一种非同质存储设备的虚拟化系统及方法
EP2534571A1 (en) Method and system for dynamically replicating data within a distributed storage system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110727