CN101170416A - 网络数据存储系统及其数据访问方法 - Google Patents

网络数据存储系统及其数据访问方法 Download PDF

Info

Publication number
CN101170416A
CN101170416A CNA2006101503253A CN200610150325A CN101170416A CN 101170416 A CN101170416 A CN 101170416A CN A2006101503253 A CNA2006101503253 A CN A2006101503253A CN 200610150325 A CN200610150325 A CN 200610150325A CN 101170416 A CN101170416 A CN 101170416A
Authority
CN
China
Prior art keywords
data
back end
node
data cell
management node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101503253A
Other languages
English (en)
Other versions
CN101170416B (zh
Inventor
杨金生
汤峥嵘
潘磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN2006101503253A priority Critical patent/CN101170416B/zh
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to JP2009534958A priority patent/JP5567342B2/ja
Priority to PCT/CN2007/070564 priority patent/WO2008049353A1/zh
Priority to EP07785461.0A priority patent/EP2081329B1/en
Priority to US12/447,036 priority patent/US8953602B2/en
Publication of CN101170416A publication Critical patent/CN101170416A/zh
Priority to HK08108152.9A priority patent/HK1114487A1/xx
Application granted granted Critical
Publication of CN101170416B publication Critical patent/CN101170416B/zh
Priority to JP2012243816A priority patent/JP5730271B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Abstract

本发明公开了一种网络数据存储系统以及网络数据访问方法。本发明的网络数据存储系统包括:数据节点,用于存储数据单元;元数据节点,用于存储和管理路由信息,并根据客户端数据处理请求向其提供路由信息;数据管理节点,用于根据客户端数据访问请求,处理请求的所述数据节点中的所述数据单元。采用本发明,可以增强系统的扩展能力、降低扩展成本,提高网络数据的访问性能。

Description

网络数据存储系统及其数据访问方法
技术领域
本发明涉及数据存储与管理领域,尤其涉及一种网络数据存储系统,以及基于该系统的网络数据访问方法。
背景技术
IT技术的发展历程经历了以计算技术为中心,以处理器的发展为核心动力的过程,发展到以传输技术为中心,并由此促进了计算机网络的发展和普及,使得越来越多的企业信息活动转变为数字形式,从而导致数字化信息爆炸性增长,引发了对IT技术的存储技术需求大量增长。数据存储的应用呈现出以下新的特点:
(1)数据成为最宝贵的财富。数据丢失对于企业来讲,损失将是无法估量的,甚至是毁灭性的。
(2)数据总量呈爆炸性的增长。
(3)全天候服务成为大势所趋。在电子商务和大部分网络服务应用中,365×24小时的全天候服务已是大势所趋,这要求现代数据存储系统具备优异的高可用性。
(4)存储管理和维护要求集中化、自动化、智能化。
(5)存储技术要求平台独立。
传统的存储系统采用的是DAS(Direct Attached Storage,直接附加存储),即直连方式存储,也可称为SAS(Server-Attached Storage,服务器附加存储)。在这种方式中,存储设备通过电缆(通常是SCSI接口电缆)直接连接到服务器,I/O(输入/输出)请求直接发送到存储设备。这种存储方式依赖于服务器,存储设备本身只是硬件的堆叠,不带有任何存储操作系统。由于受服务器总线技术的限制,DAS方式系统的可扩展性差,当客户连接数增多时,服务器将成为整个系统的性能瓶颈,这是因为:
(1)主机的带宽限制:虽然计算机技术的发展使主机总线带宽大为增加,但是仍赶不上现代存储应用对带宽的要求。
(2)主机的内存容量限制:由于主机的内存容量有限,当有连续的大量数据访问请求时,主机的内存容量将很快达到饱和,而不能处理剩下的数据传输请求。
(3)文件系统的管理开销也会增加数据访问时间。
目前大量的企业应用对数据库技术产生的很强的依赖,采用数据库中央服务器集中存储数据,往往成为系统的单点和性能的瓶颈,扩展也很困难,而且成本高,对于海量数据高并发的在线处理尤其困难。因此,传统的集中式的数据存储和管理方式已经无法满足信息日益快速增长的需求。
发明内容
本发明提供一种网络数据存储系统,用以解决现有技术中存在的网络数据存储系统扩展能力差、扩展成本高,以及网络数据访问性能差的问题。
基于相同的技术构思,本发明还提供一种网络数据的访问方法。
本发明提供的网络数据存储系统,包括:
数据节点,用于存储数据单元;
元数据节点,用于存储和管理路由信息,并根据客户端数据处理请求向其提供路由信息;
数据管理节点,用于根据客户端数据访问请求,处理请求的所述数据节点中的所述数据单元。
上述系统中,所述元数据节点、数据管理节点和数据节点以树型连接;
元数据节点为该树型结构的根节点,其下连接有一个或多个数据管理节点;每个数据管理节点下连接有一个或多个数据节点。
上述系统中,所述元数据节点存储的路由信息包括:
所述元数据节点到所述数据管理节点的路由信息;
所述数据管理节点到所述数据节点的路由信息;
所述数据单元的路由算法;所述路由算法为通过数据单元标识推算存储该数据单元的数据节点标识和该数据单元在所述数据节点中的位置信息的算法。
上述系统中,所述数据管理节点中配置有数据访问服务或/和冗余策略。
上述系统还包括日志管理节点,用于存储日志文件,并提供日志管理服务。
上述系统还包括锁节点,用于存储锁文件,并提供锁管理服务。
本发明提供的网络数据访问方法,包括步骤:
客户端向元数据节点发送访问数据单元的请求,并从该元数据节点获取到所述数据管理节点的路由信息;
客户端按照所述路由信息向所述数据管理节点发送访问数据单元的请求;
所述数据管理节点收到请求后,从所述元数据节点获取到存储所述数据单元的数据节点的路由信息,并按照该路由信息和客户端请求的操作对所述数据节点中的所述数据单元进行处理。
上述方法中,所述元数据节点接收到客户端发送的访问数据单元的请求后,向该客户端提供所述数据管理节点的路由信息,包括步骤:
所述元数据节点获取数据访问请求中的数据单元信息,并根据数据单元信息和数据单元标识的映射关系获取到该数据单元的标识;
按照数据单元的路由算法,由该数据单元的标识计算出存储该数据单元的数据节点的标识;
根据数据节点标识与数据管理节点标识的映射关系,获取到对应的数据管理节点标识,并将该数据管理节点标识提供给客户端。
上述方法中,所述元数据节点向所述数据管理节点提供路由信息,包括步骤:
所述元数据节点从所述数据管理节点的请求中获取数据单元标识,并按照数据单元的路由算法,由该数据单元标识计算出存储该数据单元的数据节点的标识和该数据单元在数据节点中的位置信息,并提供给所述数据管理节点。
上述方法中,所述数据管理节点将存储操作与计算操作分离。
上述方法中,所述数据单元内部由多个文件或/和目录构成,所述数据单元内部的文件包括数据文件或/和索引文件;
当所述数据节点收到所述数据管理节点的操作指令后,还包括步骤:
所述数据节点按照该操作指令,通过该数据节点本地的文件系统对所述数据单元进行操作。
上述方法中,所述数据单元为面向业务应用的最小数据集合;所述数据单元具有唯一标识。
所述数据单元标识由该数据单元所在的数据节点的标识和该数据单元在数据节点中的位置信息经过映射计算得出。
上述方法中,所述对数据节点中的所述数据单元进行处理,进一步包括步骤:
将待写块的副本提交到日志文件;
在提交日志文件成功后,将该待写块提交到所述数据节点本地的文件系统;若提交文件系统成功,则将所述日志文件中的所述块副本丢弃;否则保留该块副本;
当系统从异常状态恢复到正常状态时,按照所述日志文件中保留的块副本记录进行数据恢复。
上述方法中,还包括步骤:
使用所述数据节点本地的文件锁或/和网络文件系统中的文件锁,对数据单元的访问操作进行锁保护。
本发明有益效果如下:
(1)本发明提供的网络数据存储系统,将数据分布式存储在三层结构的网络节点上,并提供统一的访问管理和路由,从而支持线形扩容和升级,比现有技术增强了扩展能力,降低了扩展成本。
(2)本发明提供的网络数据访问机制,基于上述分布式数据存储系统,采用两级路由算法,使得数据文件的位置对客户端透明;采用三层结构的分布式设计,使位于中间层的数据管理节点分担了数据访问处理操作,因而可通过配置合理的三层结构,提高网络数据访问性能。
(3)本发明还采用日志技术支持事务处理功能,提高了网络数据访问的一致性、完整性。
(4)本发明还采用锁管理功能,解决了网络文件系统下文件锁失效的问题。
附图说明
图1为本发明实施例的网络数据存储系统的结构示意图;
图2为本发明实施例的网络数据存储系统的树型结构示意图;
图3为本发明实施例的网络数据访问过程的示意图。
具体实施方式
下面结合实施例和附图对本发明进行详细描述。
参见图1,为本发明实施例的网络数据存储系统的结构示意图,该数据存储系统包括:
数据节点:是网络上的节点,用于存储原始数据和索引。这些原始数据以数据单元的形式存储于数据节点。
数据管理节点,是网络上的节点,作为中间层提供一些通用的服务,如索引、冗余策略等。数据管理节点管理一组相关的数据节点。
元数据节点:管理数据节点的名称空间和映射关系的元数据节点,是网络上的节点,用于提供基础的路由信息,主要维护两种路由关系:元数据节点到数据管理节点的路由(一级路由),以及数据管理节点到数据节点的路由(二级路由)。
日志管理节点:这是基于日志技术的事务管理节点,通常部署在数据管理节点,其中存储有日志文件,用于完成数据的事务保护。
锁节点:这是全局可见的网络节点,其中存储有以文件形式存在的数据锁,以实现对数据访问进行锁管理。
图1所示的网络数据存储系统的体系结构按照树型结构组织,如图2所示。
参见图2,为本发明实施例的网络数据存储系统的树型结构示意图。
如图所示,从逻辑上将网络数据存储系统中的节点划分为三层,从底层到上层分别是数据节点、数据管理节点和元数据节点。元数据节点作为根节点,其下有多个数据管理节点作为叶子节点,每个数据管理节点下面又有多个数据节点作为叶子节点。
构建如上实施例所示的网络数据存储系统的步骤包括:
步骤1、确定数据单元,分配数据单元ID,并将数据单元分布存储到数据节点中。
本实施例中的数据单元是在文件系统层次之上的抽象的数据集合,可根据业务特点和业务需要,将可以被单独管理的最小数据集合定义为数据单元。大部分企业数据的请求和处理都具有明显的局部性特征,如在邮件系统中,分类、检索和收发邮件都是在一个固定的命名空间——邮件帐号内实现,因此,可以将邮件帐号作为数据单元。
数据单元内部可以由多个文件或者目录构成,如数据文件和索引文件以及文件目录,这些文件和目录通过数据单元所在的数据节点本地的文件系统进行管理。
数据单元的ID唯一标识了该数据单元。数据单元的ID包含了两部分信息:存储该数据单元的数据节点的ID和该数据单元在数据节点中的具体位置信息。可通过数据单元的路由算法,从数据单元ID中计算获取到上述两种信息。因此,数据单元的ID隐含了该数据单元和存储该数据单元的数据节点的对应关系。
步骤2、确定路由算法和路由信息,并存储到元数据节点中。
元数据节点维护的路由信息包括:元数据节点到数据管理节点的路由信息(一级路由信息),以及数据管理节点到数据节点的路由信息(二级路由信息)。这两种路由信息通过以下映射关系表和算法实现:
建立数据单元信息(如数据单元名称)与数据单元ID的映射关系表、数据节点ID与数据管理节点ID的映射关系表,设置数据单元的路由算法,即通过该算法,可以从数据单元ID提取出存储该数据单元的数据节点的ID和该数据单元在数据节点中的具体位置信息。
一级路由的实现过程为:元数据节点依次根据数据单元信息与数据单元ID的映射关系表,数据单元的路由算法,以及数据节点ID与数据管理节点ID的映射关系表,得到从元数据节点到数据管理节点的路由。
二级路由的实现过程为:数据管理节点向元数据节点发送请求,元数据节点根据所请求的数据单元的路由算法得到数据管理节点到存储相应数据单元的数据节点的路由。
步骤3、部署数据管理节点,包括:
在数据管理节点中配置有数据访问服务,如索引服务,还可以配置冗余策略;
在数据管理节点内部实现采用存储(I/O-bound task)与计算(CPU-boundtask)分离的技术,将工作分为两个队列,计算工作队列和存储工作队列分别用两个线程池并行来完成工作,充分利用CPU和I/O资源。
基于上述实施例所描述的网络数据存储系统,网络数据的访问过程如图3所示。
参见图3,为本发明实施例的网络数据访问过程示意图,包括步骤:
S301、客户端向元数据节点发送数据访问请求,告知要访问的数据单元描述信息(如数据单元名称)。
S302、元数据节点向客户端返回一级路由信息,告知负责管理该数据单元的数据管理节点的位置信息。
元数据节点从客户端的请求中获取到数据单元描述信息,再根据数据单元描述信息和数据单元ID的映射关系表,获取到客户端请求的数据单元ID;然后,根据数据单元的路由算法,由该数据单元ID计算得到存储该数据单元的数据节点的ID;再根据数据节点ID与数据管理节点ID的映射关系表获得管理该数据节点的数据管理节点的ID;元数据节点将获取到的数据管理节点的ID发送到客户端。
S303、客户端根据一级路由信息找到数据管理节点,向其发起数据访问请求。
S304、数据管理节点根据客户端的身份和请求的数据单元信息,向元数据节点请求该数据单元在网络中的位置分布。
在步骤S302中,元数据节点向客户端返回一级路由信息的同时,还可返回客户端所请求的数据单元的ID。这样,步骤S303中,客户端在发送的数据访问请求中携带需要访问的数据单元的ID;在步骤S304中,数据管理节点向元数据节点发送的请求中携带该数据单元ID。
S305、元数据节点向数据管理节点返回二级路由信息,告知请求的数据单元在网络中的位置。
元数据节点从数据管理节点发送的请求中获取到数据单元ID,并根据数据单元的路由算法,由该数据单元ID计算得到存储该数据单元的数据节点ID和该数据单元在数据节点中的具体位置,并将这些信息返回给数据管理节点。
S306、数据管理节点根据该位置信息找到存储该数据单元的数据节点以及该数据单元在数据节点的位置,并按照客户端提出的请求,处理数据单元中的数据。
数据节点按照数据管理节点的操作指令,通过数据节点的本地文件系统对数据单元进行操作。
S307、数据管理节点根据需要向客户端返回数据处理结果。
在上述数据访问过程中,数据管理节点内部采用存储(I/O-bound task)与计算(CPU-bound task)分离的技术,将工作分为两个队列,计算工作队列和存储工作队列分别用两个线程池并行来完成工作。
在上述数据访问过程中,本发明实施例还采用事务处理机制来保证网络数据访问的可靠性,包括日志机制和锁技术。
文件的很多操作都是非原子行为,尤其是跨越多个文件或者多个节点的过程中,数据的一致性和完整性容易遭到破坏,导致异常情况出现,如系统非正常关闭。本发明实施例借鉴数据库和操作系统的文件系统所提供的日志保护机制,为本发明实施例的非数据库结构的数据存取提供了一种事务保护机制。
当对本发明实施例的数据单元进行访问(如存取操作)时,将待写块的一个副本写入日志文件;当发往日志的I/O数据传送完成后(即数据成功提交日志文件),再将该块写入数据节点本地的文件系统;当发往文件系统的I/O数据传送完成后(即数据成功提交文件系统),将日志文件中的块副本丢弃;若发往文件系统的I/O数据传送失败,则日志文件保留该块副本。
当系统发生崩溃或需要重新启动时,系统首先读取日志文件,并按照日志文件中的记录的块副本进行恢复,使系统恢复到发生异常前的正常状态。
为了加强事务隔离性,本发明实施例还提供了锁机制。事务隔离性通常采用锁住事务所访问资源的方式来保证,同时为了保证文件事务的特性和高并发和高可靠性,锁技术是一个非常有利的工具。
本发明实施例将目前广泛采用的应用于本地硬盘单节点的文件锁Dotlock和网络文件系统(Network File System,NFS)文件系统中锁采用的POSIX-compliant和BSD-based system的Flock()or Fcntl()技术结合使用,具体做法为:
首先获取DotLock(这一步通常有可能会被多个节点同时获取成功),成功后在尝试获取Flock()或者Fcntl()。这些锁以文件的方式存在一个全局可见的节点上。在系统恢复的时候检测并释放那些悬挂的锁。锁的粒度,可以对某一个数据块,也可以对一个文件、目录,甚至可以对一个数据节点加锁。
下面以一个为超大容量的邮件系统添加存储能力的例子进行说明。
第一步:进行数据规划,确定系统管理的最小数据单元。
邮件地址(邮件帐号)通常由用户名和域名两部分组成,中间用@符号分割。可以用邮件帐号作为最小单元,也可以用域名作为数据单元,本实施例选择用邮件帐号作为数据单元。
第二步:确定路由算法和路由表。
规划路由算法的目的是解决如何根据用户提供的邮件帐号找到邮箱内容的存储位置。为了支持系统容量的不断扩容,本实施例采用32位的地址空间来路由,这样最大可以支持IG用户数量(大约10亿)。该32位的地址空间称为RID(Route ID),用于唯一标识邮件帐号。本实施例假设一个数据节点的最大容量为支持1M(220=1,048,576)的用户量,因此数据节点的地址空间大小为1M,具体地址通常可以用本机文件系统的目录来表示。本实施例用RID的低20位来映射具体的目录,称作数据节点内部地址。每个数据节点有唯一编号,用32位RID的高12位表示。即RID>>20=数据节点编号,RID右移20位得到数据节点编号。
元数据节点中存储的路由表如表1和表2所示:
表1:邮件帐号与邮件RID的映射关系表
  邮件地址   RID
  xxx@yyy.com   11033234
  aaa@bbb.com   1033134
  …   …
表2:数据节点ID与数据管理节点ID的映射关系表
  数据节点编号   数据管理节点标识
  0,1,2   worker-1
  3,4,5   Worker-2
  …   …
表2表明一个数据管理节点管理三个节点,地址xxx@yyy.com请求由标识为worker-1的数据管理节点负责处理。
第三步:完成数据规划和路由策略制定后,进行容量规划。
在用户较少的时候,可以部署一台数据管理节点和一个数据节点(编号为0,负责管理0-1M的用户)。随着用户数量的增长,一个数据节点不能满足存储需求的时候,可以再增加一个数据节点,假设编号为1,则RID的高12位为000000000001,负责管理低20位1M-2M之间的用户,这样如上所述,随着业务的不断发展,系统可以线性不断扩展,实现海量数据存储。
第四步:部署元数据节点。
如表1和表2所示的路由信息表可以存储在元数据节点的数据库中也可以以文件的形式保存。由于路由信息表不是很大,服务器启动后,可以将整个路由表放在内存中,这样可以快速响应客户端请求。对于不同的应用可以定制不同的策略,如对于简单的应用,数据规则组织良好,则可以简化元数据节点为一个根据应用提供的唯一数据ID实现两级Hash的算法。
第五步:部署数据管理节点服务,指定建立索引的配置。
在数据管理节点上添加数据搜索功能,对需要存储的数据进行索引,将索引文件和数据文件保存在对应的数据节点上,如果需要对数据进行业务相关的处理,可以将相关逻辑job作为服务部署在服务器上,数据管理节点采用存储与计算分离的技术,充分发挥系统的能力。
以后随着业务的发展,系统可以不断的安需扩充容量。随着用户量的增长,可以不断添加数据节点,每添加3个数据节点,部署一台数据管理节点,而对于元数据节点,通常仅需要一台服务器,为了使之不成为系统的单点,可采用备份机制,增设一台用作备份的元数据节点服务器。
上述优选实施例针对的是一个比较简单的邮件系统,但本发明实施例提供的网络数据存储系统的应用场合不限此类应用。本发明实施例提供的网络数据存储系统尤其适用于B2B电子商务平台和软件。这类应用通常以企业和用户为中心,存在大量的在线事务处理,因此可以将用户或者一家企业用户作为一个数据单元集合,因为这些数据主要是内部私有,不容许其他用户任意访问。把这些数据作为一个数据单元集合来管理,这就从物理上保证了企业数据独立性和隔离性,不会和其他用户交织在一起,同时支持在线搜索和事务处理等。这种方案相对数据库的好处是非常明显的。数据库不可能为每个企业用户创建一套数据库,数据库通常将所有的企业同种应用的数据放在一张表中,物理上没有实现安全隔离,需要应用处理非法访问等问题,同时如果用户量非常大的时候这种数据库方法将会导致很大的性能问题。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (15)

1.一种网络数据存储系统,其特征在于,包括:
数据节点,用于存储数据单元;
元数据节点,用于存储和管理路由信息,并根据客户端数据处理请求向其提供路由信息;
数据管理节点,用于根据客户端数据访问请求,处理请求的所述数据节点中的所述数据单元。
2.如权利要求1所述的系统,其特征在于,所述元数据节点、数据管理节点和数据节点以树型连接;
元数据节点为该树型结构的根节点,其下连接有一个或多个数据管理节点;每个数据管理节点下连接有一个或多个数据节点。
3.如权利要求1所述的系统,其特征在于,所述元数据节点存储的路由信息包括:
所述元数据节点到所述数据管理节点的路由信息;
所述数据管理节点到所述数据节点的路由信息;
所述数据单元的路由算法;所述路由算法为通过数据单元标识推算存储该数据单元的数据节点标识和该数据单元在所述数据节点中的位置信息的算法。
4.如权利要求1所述的系统,其特征在于,所述数据管理节点中配置有数据访问服务或/和冗余策略。
5.如权利要求1所述的系统,其特征在于,还包括日志管理节点,用于存储日志文件,并提供日志管理服务。
6.如权利要求1或5所述的系统,其特征在于,还包括锁节点,用于存储锁文件,并提供锁管理服务。
7.一种网络数据访问方法,其特征在于,包括以下步骤:
客户端向元数据节点发送访问数据单元的请求,并从该元数据节点获取到所述数据管理节点的路由信息;
客户端按照所述路由信息向所述数据管理节点发送访问数据单元的请求;
所述数据管理节点收到请求后,从所述元数据节点获取到存储所述数据单元的数据节点的路由信息,并按照该路由信息和客户端请求的操作对所述数据节点中的所述数据单元进行处理。
8.如权利要求7所述的方法,其特征在于,所述元数据节点接收到客户端发送的访问数据单元的请求后,向该客户端提供所述数据管理节点的路由信息,包括步骤:
所述元数据节点获取数据访问请求中的数据单元信息,并根据数据单元信息和数据单元标识的映射关系获取到该数据单元的标识;
按照数据单元的路由算法,由该数据单元的标识计算出存储该数据单元的数据节点的标识;
根据数据节点标识与数据管理节点标识的映射关系,获取到对应的数据管理节点标识,并将该数据管理节点标识提供给客户端。
9.如权利要求7所述的方法,其特征在于,所述元数据节点向所述数据管理节点提供路由信息,包括步骤:
所述元数据节点从所述数据管理节点的请求中获取数据单元标识,并按照数据单元的路由算法,由该数据单元标识计算出存储该数据单元的数据节点的标识和该数据单元在数据节点中的位置信息,并提供给所述数据管理节点。
10.如权利要求7所述的方法,其特征在于,所述数据管理节点将存储操作与计算操作分离。
11.如权利要求7所述的方法,其特征在于,所述数据单元内部由多个文件或/和目录构成,所述数据单元内部的文件包括数据文件或/和索引文件;
当所述数据节点收到所述数据管理节点的操作指令后,还包括步骤:
所述数据节点按照该操作指令,通过该数据节点本地的文件系统对所述数据单元进行操作。
12.如权利要求7-11任一权项所述的方法,其特征在于,所述数据单元为面向业务应用的最小数据集合;所述数据单元具有唯一标识。
13.如权利要求12所述的方法,其特征在于,所述数据单元标识由该数据单元所在的数据节点的标识和该数据单元在数据节点中的位置信息经过映射计算得出。
14.如权利要求7所述的方法,其特征在于,所述对数据节点中的所述数据单元进行处理,进一步包括步骤:
将待写块的副本提交到日志文件;
在提交日志文件成功后,将该待写块提交到所述数据节点本地的文件系统;若提交文件系统成功,则将所述日志文件中的所述块副本丢弃;否则保留该块副本;
当系统从异常状态恢复到正常状态时,按照所述日志文件中保留的块副本记录进行数据恢复。
15.如权利要求7或14所述的方法,其特征在于,还包括步骤:
使用所述数据节点本地的文件锁或/和网络文件系统中的文件锁,对数据单元的访问操作进行锁保护。
CN2006101503253A 2006-10-26 2006-10-26 网络数据存储系统及其数据访问方法 Active CN101170416B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN2006101503253A CN101170416B (zh) 2006-10-26 2006-10-26 网络数据存储系统及其数据访问方法
PCT/CN2007/070564 WO2008049353A1 (fr) 2006-10-26 2007-08-27 Système de mise en mémoire de données de réseau et procédé pour y accéder
EP07785461.0A EP2081329B1 (en) 2006-10-26 2007-08-27 Network data storing system and data accessing method thereof
US12/447,036 US8953602B2 (en) 2006-10-26 2007-08-27 Network data storing system and data accessing method
JP2009534958A JP5567342B2 (ja) 2006-10-26 2007-08-27 ネットワークデータストレージシステムおよびそのデータアクセス方法
HK08108152.9A HK1114487A1 (en) 2006-10-26 2008-07-23 Network data storing system and data accessing method thereof
JP2012243816A JP5730271B2 (ja) 2006-10-26 2012-11-05 ネットワークデータストレージシステムおよびそのデータアクセス方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101503253A CN101170416B (zh) 2006-10-26 2006-10-26 网络数据存储系统及其数据访问方法

Publications (2)

Publication Number Publication Date
CN101170416A true CN101170416A (zh) 2008-04-30
CN101170416B CN101170416B (zh) 2012-01-04

Family

ID=39324142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101503253A Active CN101170416B (zh) 2006-10-26 2006-10-26 网络数据存储系统及其数据访问方法

Country Status (6)

Country Link
US (1) US8953602B2 (zh)
EP (1) EP2081329B1 (zh)
JP (2) JP5567342B2 (zh)
CN (1) CN101170416B (zh)
HK (1) HK1114487A1 (zh)
WO (1) WO2008049353A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916275A (zh) * 2010-08-13 2010-12-15 中国石油天然气集团公司 一种多数据源测井数据访问方法及系统
CN101980203A (zh) * 2010-10-29 2011-02-23 中国科学院声学研究所 一种用于高清媒体的嵌入式文件系统
CN102122306A (zh) * 2011-03-28 2011-07-13 中国人民解放军国防科学技术大学 一种数据处理方法及应用该方法的分布式文件系统
CN102591970A (zh) * 2011-12-31 2012-07-18 北京奇虎科技有限公司 一种分布式键-值查询方法和查询引擎系统
CN102981933A (zh) * 2012-12-18 2013-03-20 武汉邮电科学研究院 物联网感知层的数据增量备份方法及系统
CN103064635A (zh) * 2012-12-19 2013-04-24 华为技术有限公司 分布式存储方法和分布式存储装置
CN103268460A (zh) * 2013-06-20 2013-08-28 北京航空航天大学 一种云存储数据完整性验证方法
CN104050249A (zh) * 2011-12-31 2014-09-17 北京奇虎科技有限公司 分布式查询引擎系统和方法及元数据服务器
CN104050250A (zh) * 2011-12-31 2014-09-17 北京奇虎科技有限公司 一种分布式键-值查询方法和查询引擎系统
WO2014139422A1 (en) * 2013-03-13 2014-09-18 Huawei Technologies Co., Ltd. Disaggregated network architecture for data centers
CN104378396A (zh) * 2013-08-15 2015-02-25 上海七牛信息技术有限公司 数据管理装置及方法
CN104932986A (zh) * 2014-03-19 2015-09-23 中国移动通信集团公司 一种数据重分布方法及装置
CN105205156A (zh) * 2015-09-25 2015-12-30 浪潮(北京)电子信息产业有限公司 一种数据管理方法、装置及系统
CN105868253A (zh) * 2015-12-23 2016-08-17 乐视网信息技术(北京)股份有限公司 数据导入、查询方法及装置
CN106170012A (zh) * 2016-06-29 2016-11-30 上海上大海润信息系统有限公司 一种面向云渲染的分布式文件系统及构建和访问方法
CN106817402A (zh) * 2016-11-29 2017-06-09 上海亿账通互联网科技有限公司 缓存数据的处理方法及装置
CN106874468A (zh) * 2017-02-15 2017-06-20 北京亚信数据有限公司 一种影像文件管理的方法及系统
CN110232035A (zh) * 2018-03-05 2019-09-13 爱思开海力士有限公司 存储器系统以及存储器系统的操作方法
CN111444046A (zh) * 2020-06-16 2020-07-24 北京金山云科技有限公司 一种数据恢复方法及分布式数据恢复系统
CN112667577A (zh) * 2020-12-25 2021-04-16 浙江大华技术股份有限公司 一种元数据管理方法、元数据管理系统及存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521297B (zh) * 2011-11-30 2015-09-09 北京人大金仓信息技术股份有限公司 无共享数据库集群中实现系统动态扩展的方法
CN103678333B (zh) * 2012-09-03 2018-12-25 北京千橡网景科技发展有限公司 用于提高统一资源定位符提取准确率的方法和设备
CN104955581B (zh) 2012-11-02 2017-11-17 脉动灌溉产品股份有限公司 具有两个预设的压力响应常闭阀的脉动装置
CN103235765B (zh) * 2013-05-06 2015-11-25 杭州和利时自动化有限公司 一种智能仪表设备管理方法、系统及装置
CN103338269B (zh) * 2013-07-19 2016-12-28 中国人民解放军信息工程大学 一种数据传输方法及装置
KR102104882B1 (ko) * 2013-12-03 2020-04-27 에스케이 텔레콤주식회사 M2m 클라우드 스토리지 서비스 제공방법 및 장치
CN104021139B (zh) * 2014-04-29 2017-11-24 深圳英飞拓科技股份有限公司 一种视频数据存取方法及装置
CN104268013B (zh) * 2014-10-17 2017-05-17 中国人民解放军国防科学技术大学 一种快速的全系统模拟器确定性回放方法
CN104408056B (zh) * 2014-10-29 2020-09-15 中国建设银行股份有限公司 一种数据处理方法和装置
CN104331460A (zh) * 2014-10-31 2015-02-04 北京思特奇信息技术股份有限公司 一种基于Hbase的数据读写操作方法及系统
US10455045B2 (en) 2016-09-06 2019-10-22 Samsung Electronics Co., Ltd. Automatic data replica manager in distributed caching and data processing systems
US10467195B2 (en) 2016-09-06 2019-11-05 Samsung Electronics Co., Ltd. Adaptive caching replacement manager with dynamic updating granulates and partitions for shared flash-based storage system
CN108710621A (zh) * 2018-03-12 2018-10-26 广东睿江云计算股份有限公司 一种基于ceph实现MySQL数据库水平扩展的方法
CN110727738B (zh) * 2019-12-19 2020-08-07 北京江融信科技有限公司 基于数据分片的全局路由系统、电子设备及存储介质
CN114827145B (zh) * 2022-04-24 2024-01-05 阿里巴巴(中国)有限公司 服务器集群系统、元数据的访问方法及装置

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737732A (en) 1992-07-06 1998-04-07 1St Desk Systems, Inc. Enhanced metatree data structure for storage indexing and retrieval of information
JPH06266600A (ja) * 1993-03-12 1994-09-22 Hitachi Ltd 分散ファイルシステム
JPH06332782A (ja) * 1993-03-22 1994-12-02 Hitachi Ltd ファイルサーバシステム及びそのファイルアクセス制御方法
JPH06323782A (ja) 1993-05-17 1994-11-25 Ishikawajima Harima Heavy Ind Co Ltd 排ガスエコノマイザの洗浄方法
US5970496A (en) 1996-09-12 1999-10-19 Microsoft Corporation Method and system for storing information in a computer system memory using hierarchical data node relationships
SE514727C2 (sv) 1998-11-12 2001-04-09 Ericsson Telefon Ab L M Kommunikationsnät och förfarande för att dirigera meddelanden inom nätet
JP3490642B2 (ja) 1999-06-30 2004-01-26 松下電器産業株式会社 送信装置および送信方法、受信装置および受信方法、ならびに、送受信システムおよび送受信方法
AU6852800A (en) * 1999-08-19 2001-03-19 Matrix Device Limited Recursive dynamic access to a data model having a hierarchical tree structure
US7320065B2 (en) * 2001-04-26 2008-01-15 Eleven Engineering Incorporated Multithread embedded processor with input/output capability
GB0112017D0 (en) * 2001-05-17 2001-07-11 Koninkl Philips Electronics Nv Wireless master-slave distributed communications network
US20020199017A1 (en) 2001-06-25 2002-12-26 Russell Lance W. Routing meta data for network file access
US20030120896A1 (en) * 2001-06-29 2003-06-26 Jason Gosior System on chip architecture
JP2003167815A (ja) 2001-11-30 2003-06-13 Hitachi Ltd データアクセス制御方法
JP2003248611A (ja) 2002-02-26 2003-09-05 Hitachi Ltd 記憶管理統合システム、および、その記憶管理制御方法
JP4146653B2 (ja) 2002-02-28 2008-09-10 株式会社日立製作所 記憶装置
KR100453228B1 (ko) 2002-03-21 2004-10-15 한국전자통신연구원 공유 디스크 파일 시스템의 저널링 및 회복 방법
US7590618B2 (en) 2002-03-25 2009-09-15 Hewlett-Packard Development Company, L.P. System and method for providing location profile data for network nodes
JP4287092B2 (ja) * 2002-03-29 2009-07-01 株式会社富士通ソーシアルサイエンスラボラトリ ファイル管理システムおよびファイル管理方法
US7024519B2 (en) 2002-05-06 2006-04-04 Sony Computer Entertainment Inc. Methods and apparatus for controlling hierarchical cache memory
US7448077B2 (en) 2002-05-23 2008-11-04 International Business Machines Corporation File level security for a metadata controller in a storage area network
US7466698B2 (en) 2002-06-04 2008-12-16 Alcatel-Lucent Usa Inc. Network node with layer 3 interfaces configurable by interface class
US20040015486A1 (en) 2002-07-19 2004-01-22 Jiasen Liang System and method for storing and retrieving data
US7127465B2 (en) 2002-09-30 2006-10-24 Sun Microsystems, Inc. Memory-efficient metadata organization in a storage array
US7509645B2 (en) 2002-10-17 2009-03-24 Intel Corporation Methods and apparatus for load balancing storage nodes in a distributed network attached storage system
JP2004171224A (ja) * 2002-11-19 2004-06-17 Nec Corp 契約ストレージ代行提供システムおよび契約ストレージ代行提供方法
GB2395809B (en) * 2002-11-28 2005-12-21 Ibm Metadata lock management in advanced function n-way shared storage controller systems
US20040122917A1 (en) * 2002-12-18 2004-06-24 Menon Jaishankar Moothedath Distributed storage system for data-sharing among client computers running defferent operating system types
US20040153481A1 (en) * 2003-01-21 2004-08-05 Srikrishna Talluri Method and system for effective utilization of data storage capacity
JP4567293B2 (ja) * 2003-01-21 2010-10-20 株式会社日立製作所 ファイルサーバ
JP2004318743A (ja) 2003-04-21 2004-11-11 Hitachi Ltd ファイル移送装置
US7610348B2 (en) * 2003-05-07 2009-10-27 International Business Machines Distributed file serving architecture system with metadata storage virtualization and data access at the data server connection speed
GB0310689D0 (en) * 2003-05-09 2003-06-11 Ibm Monitoring operational data in data processing systems
US7523130B1 (en) 2004-01-28 2009-04-21 Mike Meadway Storing and retrieving objects on a computer network in a distributed database
US8249113B2 (en) * 2004-03-19 2012-08-21 Broadlogic Network Technologies, Inc. Method and system for providing faster channel switching in a digital broadcast system
JP4491273B2 (ja) 2004-05-10 2010-06-30 株式会社日立製作所 ストレージシステム、ファイルアクセス制御プログラム及びファイルアクセス制御方法
US7490089B1 (en) * 2004-06-01 2009-02-10 Sanbolic, Inc. Methods and apparatus facilitating access to shared storage among multiple computers
JP2006003962A (ja) 2004-06-15 2006-01-05 Hitachi Ltd ネットワークストレージシステム
US20060031230A1 (en) 2004-07-21 2006-02-09 Kumar Sinha M Data storage systems
JP4451293B2 (ja) 2004-12-10 2010-04-14 株式会社日立製作所 名前空間を共有するクラスタ構成のネットワークストレージシステム及びその制御方法
CN100367727C (zh) * 2005-07-26 2008-02-06 华中科技大学 一种可扩展的基于对象的存储系统及其控制方法
US7499905B2 (en) 2005-10-17 2009-03-03 Cisco Technology, Inc. Method and apparatus for accessing information based on distributed file system (DFS) paths
US20070150492A1 (en) * 2005-12-27 2007-06-28 Hitachi, Ltd. Method and system for allocating file in clustered file system
US20070214314A1 (en) 2006-03-07 2007-09-13 Reuter James M Methods and systems for hierarchical management of distributed data
US20070233868A1 (en) * 2006-03-31 2007-10-04 Tyrrell John C System and method for intelligent provisioning of storage across a plurality of storage systems
CN100505762C (zh) * 2006-04-19 2009-06-24 华中科技大学 适用于对象网络存储的分布式多级缓存系统
US7840969B2 (en) * 2006-04-28 2010-11-23 Netapp, Inc. System and method for management of jobs in a cluster environment

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916275B (zh) * 2010-08-13 2012-07-25 中国石油天然气集团公司 一种多数据源测井数据访问方法及系统
CN101916275A (zh) * 2010-08-13 2010-12-15 中国石油天然气集团公司 一种多数据源测井数据访问方法及系统
CN101980203A (zh) * 2010-10-29 2011-02-23 中国科学院声学研究所 一种用于高清媒体的嵌入式文件系统
CN102122306A (zh) * 2011-03-28 2011-07-13 中国人民解放军国防科学技术大学 一种数据处理方法及应用该方法的分布式文件系统
CN104050250A (zh) * 2011-12-31 2014-09-17 北京奇虎科技有限公司 一种分布式键-值查询方法和查询引擎系统
CN102591970A (zh) * 2011-12-31 2012-07-18 北京奇虎科技有限公司 一种分布式键-值查询方法和查询引擎系统
CN104050249B (zh) * 2011-12-31 2018-03-30 北京奇虎科技有限公司 分布式查询引擎系统和方法及元数据服务器
CN104050250B (zh) * 2011-12-31 2018-06-05 北京奇虎科技有限公司 一种分布式键-值查询方法和查询引擎系统
CN102591970B (zh) * 2011-12-31 2014-07-30 北京奇虎科技有限公司 一种分布式键-值查询方法和查询引擎系统
CN104050249A (zh) * 2011-12-31 2014-09-17 北京奇虎科技有限公司 分布式查询引擎系统和方法及元数据服务器
CN102981933A (zh) * 2012-12-18 2013-03-20 武汉邮电科学研究院 物联网感知层的数据增量备份方法及系统
CN102981933B (zh) * 2012-12-18 2015-05-13 武汉邮电科学研究院 物联网感知层的数据增量备份方法及系统
CN103064635A (zh) * 2012-12-19 2013-04-24 华为技术有限公司 分布式存储方法和分布式存储装置
CN103064635B (zh) * 2012-12-19 2016-08-24 华为技术有限公司 分布式存储方法和分布式存储装置
WO2014139422A1 (en) * 2013-03-13 2014-09-18 Huawei Technologies Co., Ltd. Disaggregated network architecture for data centers
US9201837B2 (en) 2013-03-13 2015-12-01 Futurewei Technologies, Inc. Disaggregated server architecture for data centers
US9760527B2 (en) 2013-03-13 2017-09-12 Futurewei Technologies, Inc. Disaggregated server architecture for data centers
CN103268460A (zh) * 2013-06-20 2013-08-28 北京航空航天大学 一种云存储数据完整性验证方法
CN103268460B (zh) * 2013-06-20 2016-02-10 北京航空航天大学 一种云存储数据完整性验证方法
CN104378396A (zh) * 2013-08-15 2015-02-25 上海七牛信息技术有限公司 数据管理装置及方法
CN104378396B (zh) * 2013-08-15 2018-05-15 上海七牛信息技术有限公司 数据管理装置及方法
CN104932986A (zh) * 2014-03-19 2015-09-23 中国移动通信集团公司 一种数据重分布方法及装置
CN105205156A (zh) * 2015-09-25 2015-12-30 浪潮(北京)电子信息产业有限公司 一种数据管理方法、装置及系统
CN105868253A (zh) * 2015-12-23 2016-08-17 乐视网信息技术(北京)股份有限公司 数据导入、查询方法及装置
CN106170012A (zh) * 2016-06-29 2016-11-30 上海上大海润信息系统有限公司 一种面向云渲染的分布式文件系统及构建和访问方法
CN106817402B (zh) * 2016-11-29 2018-02-27 上海壹账通金融科技有限公司 缓存数据的处理方法及装置
CN106817402A (zh) * 2016-11-29 2017-06-09 上海亿账通互联网科技有限公司 缓存数据的处理方法及装置
CN106874468A (zh) * 2017-02-15 2017-06-20 北京亚信数据有限公司 一种影像文件管理的方法及系统
CN106874468B (zh) * 2017-02-15 2021-02-19 北京亚信数据有限公司 一种影像文件管理的方法及系统
CN110232035A (zh) * 2018-03-05 2019-09-13 爱思开海力士有限公司 存储器系统以及存储器系统的操作方法
CN111444046A (zh) * 2020-06-16 2020-07-24 北京金山云科技有限公司 一种数据恢复方法及分布式数据恢复系统
CN112667577A (zh) * 2020-12-25 2021-04-16 浙江大华技术股份有限公司 一种元数据管理方法、元数据管理系统及存储介质

Also Published As

Publication number Publication date
JP2013061959A (ja) 2013-04-04
EP2081329A1 (en) 2009-07-22
JP5567342B2 (ja) 2014-08-06
HK1114487A1 (en) 2008-10-31
CN101170416B (zh) 2012-01-04
JP5730271B2 (ja) 2015-06-03
US8953602B2 (en) 2015-02-10
WO2008049353A1 (fr) 2008-05-02
JP2010507876A (ja) 2010-03-11
EP2081329A4 (en) 2014-05-07
US20100061375A1 (en) 2010-03-11
EP2081329B1 (en) 2020-06-10

Similar Documents

Publication Publication Date Title
CN101170416B (zh) 网络数据存储系统及其数据访问方法
CN101460930B (zh) 维护数据库与文件系统之间的链接级一致性
CN103109292B (zh) 在容错数据库管理系统中聚集查询结果的系统和方法
JP5254611B2 (ja) 固定内容分散データ記憶のためのメタデータ管理
CN101888405B (zh) 一种云计算的文件系统和数据处理方法
CN102158546B (zh) 一种集群文件系统及其文件服务方法
CN102033912A (zh) 一种分布式数据库访问方法及系统
CN100445998C (zh) 事务文件系统
CN101689129B (zh) 在群集文件系统中的文件系统安装
CN102708165B (zh) 分布式文件系统中的文件处理方法及装置
CN100452046C (zh) 一种海量文件的存储方法及系统
CN102088484B (zh) 一种分布式文件系统的写锁定方法及系统
US7054887B2 (en) Method and system for object replication in a content management system
CN109923534A (zh) 对具有未提交事务的数据库记录的多版本并发控制
CN102012933A (zh) 分布式文件系统及利用其存储数据和提供服务的方法
CN102855239A (zh) 一种分布式地理文件系统
CN103119590A (zh) 在分布式数据库中管理完整性的方法和系统
CN102253869A (zh) 可缩放的容错元数据服务
WO2014189851A1 (en) Index update pipeline
CN101187930A (zh) 分布式文件系统虚拟目录及命名空间的实现方法
CN101986276B (zh) 文件存储方法、文件恢复方法、系统及服务器
CN100424699C (zh) 一种属性可扩展的对象文件系统
KR20090063733A (ko) 다중 복제를 지원하는 분산 파일 시스템에서 데이터 서버의복구 방법 및 그에 적당한 메타데이터 스토리지 및 저장방법
CN100543743C (zh) 多机文件存储系统和方法
US7506000B2 (en) Method and system for programming disconnected data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1114487

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1114487

Country of ref document: HK