CN107870726A - 基于冗余机制的数据存储方法和装置、服务器 - Google Patents

基于冗余机制的数据存储方法和装置、服务器 Download PDF

Info

Publication number
CN107870726A
CN107870726A CN201610846589.6A CN201610846589A CN107870726A CN 107870726 A CN107870726 A CN 107870726A CN 201610846589 A CN201610846589 A CN 201610846589A CN 107870726 A CN107870726 A CN 107870726A
Authority
CN
China
Prior art keywords
data
data file
fragment
file
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610846589.6A
Other languages
English (en)
Inventor
傅朋
孙振岗
姜慧良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING UNION VOOLE TECHNOLOGY Co Ltd
Original Assignee
BEIJING UNION VOOLE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING UNION VOOLE TECHNOLOGY Co Ltd filed Critical BEIJING UNION VOOLE TECHNOLOGY Co Ltd
Priority to CN201610846589.6A priority Critical patent/CN107870726A/zh
Publication of CN107870726A publication Critical patent/CN107870726A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0607Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于冗余机制的数据存储方法和装置、服务器,在服务器端,所述方法包括:按预设的周期检查数据文件的状态,找出访问率小于第一预设访问率阈值的冷数据文件;对所述冷数据文件按预设的数据分片备份容错算法参数进行切片,并将各分片数据存储到不同的存储节点;删除所述冷数据文件;记录各分片数据的存储节点信息。本申请通过对低访问率的数据文件利用数据分片备份容错算法(如IDA数据分片算法)将文件进行分片存储,能够在保证数据安全完整的前提下,节省了一定的存储空间。

Description

基于冗余机制的数据存储方法和装置、服务器
技术领域
本申请涉及网络数据存储与服务技术领域,特别地,涉及一种基于冗余机制的数据存储方法和装置、服务器。
背景技术
目前的分布式文件系统大多采用的是完全副本方式的冗余,该方式只需要有一个副本安全就可以提供服务,但其缺点是存储空间利用率较低,对于一些访问率极低的文件,全量存储和全量备份浪费一定的存储空间。
发明内容
本申请提供一种基于冗余机制的数据存储方法和装置、服务器,用于解决现有技术为保证安全完整而对数据进行全量备份导致的存储空间浪费问题。
本申请公开的一种基于冗余机制的数据存储方法,在服务器端,所述方法包括:按预设的周期检查数据文件的状态,找出访问率小于第一预设访问率阈值的冷数据文件;对所述冷数据文件按预设的数据分片备份容错算法参数进行切片,并将各分片数据存储到不同的存储节点;删除所述冷数据文件;记录各分片数据的存储节点信息。
优选的,还包括:接收客户端发送的数据文件下载请求;判断所述数据文件是否为分片存储的文件;若是,利用数据分片备份容错算法对分片数据进行还原,并将还原后的数据文件返回至客户端;若否,直接将所述数据文件返回至客户端。
优选的,所述方法还包括:在所述冷数据文件的访问率上升为大于或等于第二预设访问率阈值时,利用数据分片备份容错算法对分片数据进行还原,将还原后的数据文件存储到缓存服务节点,并记录所述数据文件的缓存服务节点地址;当收到所述数据文件的下载请求时,直接重定向到所述缓存服务节点;其中,第二预设访问率阈值大于或等于第一预设访问率阈值。
优选的,还包括:当所述缓存服务节点的空闲存储空间率小于预设空闲率阈值或空闲存储空间小于预设空间尺寸阈值时,删除所述缓存服务节点中访问率最低的数据文件,更新所述数据文件的存储节点信息,以及,调整所述第二预设访问率阈值。
优选的,所述分片数据的存储节点包括本地存储节点和第三方数据存储服务节点;当所述分片数据的存储节点为第三方数据存储服务节点时,在所述利用数据分片备份容错算法对分片数据进行还原步骤之前,还包括:将所述分片数据从所述第三方数据存储服务节点下载到本地存储节点。
优选的,还包括:当保存分片数据的存储节点的存储设备出现故障,或保存分片数据的存储节点下线且超过预设下线时间阈值时,调度没有保存所述分片数据的存储节点利用其他分片数据对所述分片数据进行恢复;当存储节点的存储设备的故障恢复后,或下线且超过预设下线时间阈值的存储节点重新上线后,查找与该存储节点的分片数据重复的存储节点,随机删除一份重复的分片数据。
优选的,所述数据分片备份容错算法参数包括切片总数n和能够恢复原数据文件的最少切片数m;存储不同分片数据的存储节点数大于m。。
本申请公开的一种基于冗余机制的数据存储装置,在服务器端,所述装置包括:冷数据文件查找模块,用于按预设的周期检查数据文件的状态,找出访问率小于第一预设访问率阈值的冷数据文件;分片数据生成模块,用于对所述冷数据文件按预设的数据分片备份容错算法参数进行切片,将各分片数据存储到不同的存储节点;以及,删除所述冷数据文件;切片信息存储模块,用于记录各分片数据的存储节点信息。
优选的,还包括:下载请求接收模块,用于接收客户端发送的数据文件下载请求;数据文件返回模块,用于判断请求下载的数据文件是否为分片存储的文件;若是,利用数据分片备份容错算法对分片数据进行还原,并将还原后的数据文件返回至客户端;若否,直接将所述数据文件返回至客户端。
优选的,还包括:冷热数据转换模块,用于当冷数据文件的访问率上升为大于或等于第二预设访问率阈值时;利用数据分片备份容错算法对分片数据进行还原,将还原后的数据文件存储到缓存服务节点,并记录所述数据文件的缓存服务节点地址;当收到所述数据文件的下载请求时,直接重定向到所述缓存服务节点;其中,第二预设访问率阈值大于或等于第一预设访问率阈值;和/或,缓存数据清理模块,用于当所述缓存服务节点的空闲存储空间率小于预设空闲率阈值或空闲存储空间小于预设空间尺寸阈值时,删除所述缓存服务节点中访问率最低的数据文件,更新所述数据文件的存储节点信息,以及,调整所述第二预设访问率阈值。
优选的,还包括:分片数据下载模块,用于当所述分片数据的存储节点为第三方数据存储服务节点时,在所述文件返回模块利用数据分片备份容错算法对分片数据进行还原之前,将所述分片数据从第三方数据存储服务节点下载到本地。
本申请公开的一种服务器,包括上述基于冗余机制的数据存储装置。
与现有技术相比,本申请具有以下优点:
本申请优选实施例通过对低访问率的数据文件利用数据分片备份容错算法(如IDA数据分片算法)将文件进行分片存储,能够在保证数据安全完整的前提下,节省了一定的存储空间。
另外,由于服务器在收到客户的访问请求时,对于分片存储的数据文件,在将数据文件返回给客户端之前,需要首先对分片数据进行还原,而数据还原过程会占用一定的CPU、内存等系统资源,如果高访问率的介质数据也采用分片存储方式,必然会较大程度的影响服务器的服务性能;本申请通过对数据文件根据访问率的高低区分存储方式的手段,能够在节省存储资源的基础上基本不影响服务器的性能。
附图说明
附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请基于冗余机制的数据存储方法一实施例的流程;
图2为本申请基于冗余机制的数据存储方法具体实施例中的冷热数据转换处理流程;
图3为本申请基于冗余机制的数据存储方法具体实施例中的数据下载流程;
图4为本申请基于冗余机制的数据存储装置一实施例的结构示意图;
图5为本申请服务器一实施例的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。
参照图1,示出了本申请基于冗余机制的数据存储方法第一实施例的流程,在服务器端,所述方法包括以下步骤:
步骤S101:按预设的周期检查数据文件的状态,找出访问率小于第一预设访问率阈值的冷数据文件。
在具体实施时,上述找冷数据文件之前,需要设置冷数据文件(即低访问率文件)的查找规则。如,可以将N天没有被访问过数据文件作为冷数据文件,也可以将N天被访问的次数不足M次的数据文件作为冷数据文件。上述参数可以根据需要动态配置。
步骤S102:对所述冷数据文件按预设的数据分片备份容错算法(如IDA算法)参数进行切片,并将各分片数据存储到不同的存储节点;以及,删除上述被切片存储的冷数据文件。
IDA是一种数据分片备份容错算法,将一个文件F,假设长度为L,分成n个小片Fi,1<= i <=n,每片大小为L/m,因而只要任意选择n中的m片,即可重建整个文件F。这种分片重构算法很适合容错,也可以用来保证重要数据的传输,整个的数据容量为n/m*L,由于n/m可以接近于1,所以IDA空间较之分片前数据容量比率不大,比主从双备份节省空间,并且只要n片中任意m即可。简要概括就是将一个给定的n*m的矩阵A,乘以一个m*(N/m)的矩阵F(F即为要分片的文件,L为整个文件的大小),得到一个n*(L/m)的结果数据。IDA算法的原理:这个n*(L/m)的结果数据,即n片编码后的数据,只要取其中任意m片数据的集合F'(即一个m*m矩阵),就可以从矩阵A得到一个对应的m*m的矩阵A',使得A' * F = F',推导出F=Z*F',(Z*A'=1),得到整个文件F。
在具体实施时,当找到上述冷数据文件后,服务器可以根据保存有该冷数据文件的存储节点的地址,将切片指令发送到保存有该文件且负载较低的一个存储节点。执行切片处理的存储节点可以根据设置的IDA参数进行切片处理,以切片总数n=8,能够恢复原数据文件的最少切片数m=7为例,当完成切片操作后,可以将不同分片数据存储到8个以上的存储节点中。
在进一步的优选实施例中,分片数据可以保存在本地的存储节点中,也可以保存到第三方内容分发网络(CDN,Content Delivery Network)节点、公有云存储节点或网盘等第三方数据存储服务节点中。对于分片数据被存储到第三方数据存储服务节点的情况,当服务器收到客户端的数据文件下载请求时,优选先从第三方数据存储服务节点将所有分片数据下载到本地,然后再对分片数据进行复原处理。
步骤S103:记录各分片数据的存储节点信息。
当收到客户端的数据文件下载请求时,服务器可以根据上述记录信息重定向客户端的请求,由相应的存储节点(优选采用本地服务器节点)实现数据文件复原操作,并将复原后的数据文件返回给客户端。
在进一步的优选实施例中,所述方法还包括:
步骤S201:接收客户端发送的数据文件下载请求,并将所述请求重定向到对应的存储节点。步骤S202:所述存储节点判断该请求下载的数据文件是否为分片存储的文件;若是,转步骤S203;否则,转步骤S204。
步骤S203:利用预设的数据分片备份容错算法对分片数据进行还原,并将还原后的数据文件返回至客户端;
步骤S204:直接将本地存储的所述数据文件返回至客户端。
需要说明的是,步骤S201~S204所述的数据下载流程和步骤S101~S103所述的数据分片处理流程之间没有严格的顺序限制,数据下载流程可以在数据分片处理流程之前进行,也可以在数据分片处理流程之后或同时进行。
在另一实施例中,为了解决数据文件在由访问量低转成访问量高时,分片数据还原过程需要消耗较大的CPU和内存等服务器资源的问题,本申请还提供了冷热数据转换手段,如图2所示。在图2所示的具体实施例中,服务器具体包括中心索引节点(CIN,ContentIndex Node)、核心存储集群(CSN,Content Storage Node)和缓存服务节点(Cache),相对应的,冷热数据转换流程具体包括:
1、客户端向CIN请求数据文件的存储地址,CIN根据客户端请求的数据文件信息,判断数据文件的访问率。
2、当切片存储的数据文件访问率升高至第二预设访问率阈值(第二预设访问率阈值≥第一预设访问率阈值)时,CIN发送数据还原指令到存在该分片数据的存储节点(CSN节点)中,收到指令的CSN将分片数据通过IDA算法进行还原。
其中,
当分片数据存储在第三方数据存储服务节点时,CSN首先将第三方数据存储服务节点存储的分片数据下载到本地,然后再通过IDA算法还原数据。将还原后的数据文件存储到缓存服务节点(Cache),发送完成后将介质信息发送到CIN进行存储。
当分片数据存储在本地CSN节点时,直接通过预设的数据分片备份容错算法(下文以IDA算法为例进行说明)将数据还原,并将还原后的数据文件存储到Cache,发送完成后将介质信息发送到CIN进行存储。
需要说明的是,上述冷热数据转换流程可以与前述的数据下载流程以异步方式进行,也可以按先后顺序或同时执行。由于每次访问数据文件时都会有相应的文件状态信息,所以在具体实施时,可以在CIN收到客户端的数据文件下载请求时,首先将存储列表返回给客户端(即重定向到相应CSN),然后判断被请求数据文件的访问率是否升高至设定的阈值。
本申请通过上述手段,在低访问率数据文件转换成高访问率文件的时候,通过将分片数据还原并存储到缓存服务节点,以及当收到客户端再次发送的数据文件下载请求时,直接重定向到缓存服务节点的手段,不仅可以解决分片数据还原过程因需要消耗较大的CPU和内存等服务器资源而影响服务性能的问题,其有益效果还包括:不会造成核心存储集群的系统抖动,以及能够减少核心存储集群的压力等。
在另一实施例中,为解决当缓存到缓存服务节点的数据文件由高访问率再次变为低访问率时的资源占用问题,本申请还设置有清理缓存服务节点空间的手段,具体方法可以包括:删除所述缓存服务节点中访问率小于第一预设访问率阈值的数据文件,恢复所述数据文件的各分片数据的存储节点信息(即将该由热再变冷数据文件恢复为分片下载方式)。
另外,为控制缓存服务节点的空间占用率,本申请还公开了如下手段:
判断缓存服务节点的空闲存储空间率是否小于预设空闲率阈值或空闲存储空间是否小于预设空间尺寸阈值,若是,则删除所述缓存服务节点中访问率最低的数据文件,更新所述数据文件的存储节点信息,以及,调整所述第二预设访问率阈值。 本申请通过上述手段,可以在删除缓存服务节点中的低访问率数据文件的同时,通过适当提高第二预设访问率阈值的方式控制缓存到缓存服务节点的数据文件的数量。
与图2所示的冷热数据转换流程相对应,在具体实施时,步骤S201~S204所述的数据下载流程可以采用图3所示的方式进行,具体包括:
1、客户端发送数据文件下载请求到CIN。
2、CIN根据上述请求向客户端返回数据文件对应的存储信息。
其中,当数据文件以切片方式存储在第三方节点时,返回的是CSN节点的地址,由CSN对下载请求进行处理。当请求下载的数据文件是由冷变热的数据时,CIN返回的是缓存服务节点的地址。
3、客户端根据CIN返回的地址信息重新发起数据下载请求。
当客户端发送请求到CSN节点时,CSN根据请求下载的数据文件信息判断是否为经过IDA切片后的分片存储。
如果是经过IDA算法切片的数据文件且分片数据存储在第三方节点,则先从第三方节点将所述分片数据下载到本地后,再进行数据文件还原;如果分片数据存储在本地,则直接将分片数据还原;然后将还原出的数据文件返回给客户端。
如果不是经过IDA算法切片后的数据文件,则直接将读取的数据文件返回给客户端。
在上述实施例中,对冷数据文件采用的是单份分片存储的方式,在节省磁盘空间的同时增加了数据丢失的风险。在另一实施例中,为了解决切片数据单备份存储情况下因磁盘故障、程序崩溃、存储节点宕机等故障导致的数据丢失问题,本申请还提供了对于切片单备份情况下的快速数据恢复(灾备)方法,具体包括:
1、当收到CSN节点上报的存储设备(如磁盘)的故障信息(程序运行时的磁盘突然故障,但是程序没有下线;程序重启后挂载磁盘减少)时,CIN在剩余的CSN节点中找出负载较小的一个节点,发送切片还原任务,收到该任务的存储节点立刻根据该数据文件的其余分片数据还原丢失的数据。
2、当CIN通过CSN的心跳判断CSN下线(如因程序崩溃、宕机、掉电等因素导致的下线)超过一定时间(启动前设定的时间T1,T1大小的设置考虑升级重启或者程序崩溃而暂时下线的情况)时,CIN随机选中一台没有存储该数据文件的分片数据且负载较小的CSN节点,并向该CSN节点发送数据修复操作指令。收到指令的CSN节点根据其它分片数据对将丢失的分片数据进行恢复。
3、当CSN重新上线、且下线时间没有达到T1时,判断该CSN是否有磁盘卸载的情况,若是,则需要对卸载磁盘上的分片数据进行恢复操作。当CSN重新上线、且下线时间达到T1时,CIN查找出与该CSN节点的分片数据重复的存储节点,随机删除一份重复的分片数据。
对于前述的各方法实施例,为了描述简单,故将其都表述为一系列的动作组合,但是本领域的技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为根据本申请,某些步骤可以采用其他顺序或同时执行;其次,本领域技术人员也应该知悉,上述方法实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参照图4,示出了本申请基于冗余机制的数据存储装置一实施例的结构框图,在服务器端,所述装置包括:
冷数据文件查找模块,用于按预设的周期检查数据文件的状态,找出访问率小于第一预设访问率阈值的冷数据文件。
在具体实施时,关于第一预设访问率阈值的设定,可以根据需要设定为N天没有被访问过,也可以设定为N天被访问的次数为M次。
分片数据生成模块,用于对所述冷数据文件按预设的数据分片备份容错算法参数进行切片,并将各分片数据存储到不同的存储节点,以及,删除所述冷数据文件。
以切片总数n=8,能够恢复原数据文件的最少切片数m=7为例,存储不同分片数据的存储节点数要求大于7。
切片信息存储模块,用于记录各分片数据的存储节点信息。
在另一实施例中,所述装置还包括:
下载请求接收模块,用于接收客户端发送的数据文件下载请求。
数据文件返回模块,用于判断请求下载的数据文件是否为分片存储的文件;若是,利用数据分片备份容错算法对分片数据进行还原,并将还原后的数据文件返回至客户端;若否,直接将所述数据文件返回至客户端。
冷热数据转换模块,用于当冷数据文件的访问率上升为大于或等于第二预设访问率阈值时;利用数据分片备份容错算法对分片数据进行还原,将还原后的数据文件存储到缓存服务节点,并记录所述数据文件的缓存服务节点地址;当收到所述数据文件的下载请求时,直接重定向到所述缓存服务节点;其中,第二预设访问率阈值大于或等于第一预设访问率阈值。
热冷数据删除模块,用于删除所述缓存服务节点中访问率小于第一预设访问率阈值的数据文件,并恢复所述数据文件的各分片数据的存储节点信息。
缓存数据清理模块,用于当所述缓存服务节点的空闲存储空间率小于预设空闲率阈值或空闲存储空间小于预设空间尺寸阈值时,删除所述缓存服务节点中访问率最低的数据文件,更新所述数据文件的存储节点信息,以及,调整所述第二预设访问率阈值。
和/或,
分片数据下载模块,用于当所述分片数据的存储节点为第三方数据存储服务节点时,在所述文件返回模块利用数据分片备份容错算法对分片数据进行还原之前,将所述分片数据从第三方数据存储服务节点下载到本地。
另外,本申请还公开了一种包括有上述基于冗余机制的数据存储装置的服务器,在具体实施时,该服务器可以包括中心索引节点CIN(中心索引节点集群)、核心存储集群CSN和缓存服务节点Cache(或存服务节点集群),如图5所示。其中:
基于冗余机制的数据存储装置中的冷数据文件查找模块、切片信息存储模块、下载请求接收模块和冷热数据转换模块、热冷数据删除模块、缓存数据清理模块等功能模块可以布署在中心索引节点中,分片数据生成模块、数据文件返回模块和分片数据下载模块功能模块布署在核心存储集群中。
缓存服务节点存储的是由冷数据变为热数据时分片数据还原后的数据文件;在进一步的优选实施例中,当缓存服务节点的空闲存储空间达到预设的空间下限的时候,缓存服务节点淘汰其中访问率较低的数据文件。
需要说明的是,上述装置和服务器实施例属于优选实施例,所涉及的单元和模块并不一定是本申请所必须的。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于本申请的装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种基于冗余机制的数据存储方法和装置、服务器,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种基于冗余机制的数据存储方法,其特征在于,在服务器端,所述方法包括:
按预设的周期检查数据文件的状态,找出访问率小于第一预设访问率阈值的冷数据文件;
对所述冷数据文件按预设的数据分片备份容错算法参数进行切片,并将各分片数据存储到不同的存储节点;删除所述冷数据文件;
记录各分片数据的存储节点信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
接收客户端发送的数据文件下载请求;
判断所述数据文件是否为分片存储的文件;若是,利用数据分片备份容错算法对分片数据进行还原,并将还原后的数据文件返回至客户端;若否,直接将所述数据文件返回至客户端。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述冷数据文件的访问率上升为大于或等于第二预设访问率阈值时,利用数据分片备份容错算法对分片数据进行还原,将还原后的数据文件存储到缓存服务节点,并记录所述数据文件的缓存服务节点地址;当收到所述数据文件的下载请求时,直接重定向到所述缓存服务节点;
其中,第二预设访问率阈值大于或等于第一预设访问率阈值。
4.根据权利要求3所述的方法,其特征在于,还包括:
当所述缓存服务节点的空闲存储空间率小于预设空闲率阈值或空闲存储空间小于预设空间尺寸阈值时,删除所述缓存服务节点中访问率最低的数据文件,更新所述数据文件的存储节点信息,以及,调整所述第二预设访问率阈值。
5.根据权利要求2所述的方法,其特征在于,所述分片数据的存储节点包括本地存储节点和第三方数据存储服务节点;
当所述分片数据的存储节点为第三方数据存储服务节点时,在所述利用数据分片备份容错算法对分片数据进行还原步骤之前,还包括:将所述分片数据从所述第三方数据存储服务节点下载到本地存储节点。
6.根据权利要求1所述的方法,其特征在于,还包括:
当保存分片数据的存储节点的存储设备出现故障,或保存分片数据的存储节点下线且超过预设下线时间阈值时,调度没有保存所述分片数据的存储节点利用其他分片数据对所述分片数据进行恢复;当存储节点的存储设备的故障恢复后,或下线且超过预设下线时间阈值的存储节点重新上线后,查找与该存储节点的分片数据重复的存储节点,随机删除一份重复的分片数据。
7.根据权利要求1所述的方法,其特征在于,所述数据分片备份容错算法参数包括切片总数n和能够恢复原数据文件的最少切片数m;存储不同分片数据的存储节点数大于m。
8.一种基于冗余机制的数据存储装置,其特征在于,在服务器端,所述装置包括:
冷数据文件查找模块,用于按预设的周期检查数据文件的状态,找出访问率小于第一预设访问率阈值的冷数据文件;
分片数据生成模块,用于对所述冷数据文件按预设的数据分片备份容错算法参数进行切片,将各分片数据存储到不同的存储节点;以及,删除所述冷数据文件;
切片信息存储模块,用于记录各分片数据的存储节点信息。
9.根据权利要求8所述的装置,其特征在于,还包括:
下载请求接收模块,用于接收客户端发送的数据文件下载请求;
数据文件返回模块,用于判断请求下载的数据文件是否为分片存储的文件;若是,利用数据分片备份容错算法对分片数据进行还原,并将还原后的数据文件返回至客户端;若否,直接将所述数据文件返回至客户端。
10.根据权利要求8所述的装置,其特征在于,还包括:
冷热数据转换模块,用于当冷数据文件的访问率上升为大于或等于第二预设访问率阈值时;利用数据分片备份容错算法对分片数据进行还原,将还原后的数据文件存储到缓存服务节点,并记录所述数据文件的缓存服务节点地址;当收到所述数据文件的下载请求时,直接重定向到所述缓存服务节点;其中,第二预设访问率阈值大于或等于第一预设访问率阈值;和/或,
缓存数据清理模块,用于当所述缓存服务节点的空闲存储空间率小于预设空闲率阈值或空闲存储空间小于预设空间尺寸阈值时,删除所述缓存服务节点中访问率最低的数据文件,更新所述数据文件的存储节点信息,以及,调整所述第二预设访问率阈值。
11.根据权利要求8所述的装置,其特征在于,还包括:
分片数据下载模块,用于当所述分片数据的存储节点为第三方数据存储服务节点时,在所述文件返回模块利用数据分片备份容错算法对分片数据进行还原之前,将所述分片数据从第三方数据存储服务节点下载到本地。
12.一种服务器,其特征在于,包括权利要求8至11任一所述的基于冗余机制的数据存储装置。
CN201610846589.6A 2016-09-26 2016-09-26 基于冗余机制的数据存储方法和装置、服务器 Pending CN107870726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610846589.6A CN107870726A (zh) 2016-09-26 2016-09-26 基于冗余机制的数据存储方法和装置、服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610846589.6A CN107870726A (zh) 2016-09-26 2016-09-26 基于冗余机制的数据存储方法和装置、服务器

Publications (1)

Publication Number Publication Date
CN107870726A true CN107870726A (zh) 2018-04-03

Family

ID=61751681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610846589.6A Pending CN107870726A (zh) 2016-09-26 2016-09-26 基于冗余机制的数据存储方法和装置、服务器

Country Status (1)

Country Link
CN (1) CN107870726A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062501A (zh) * 2018-07-05 2018-12-21 南京信息职业技术学院 一种基于ida算法的网盘聚合方法
CN110764692A (zh) * 2019-08-28 2020-02-07 计算力(江苏)智能技术有限公司 一种服务器集群环境下存储切片数据冗余、恢复方法及系统
CN110955641A (zh) * 2019-11-05 2020-04-03 上海海加网络科技有限公司 一种用于分布式文件共享系统的嵌入式存储终端装置
CN110955563A (zh) * 2019-11-26 2020-04-03 上海易点时空网络有限公司 数据备份方法及装置
CN111061357A (zh) * 2019-12-13 2020-04-24 北京奇艺世纪科技有限公司 节能方法、装置、电子设备及存储介质
CN111428271A (zh) * 2020-04-17 2020-07-17 上海坤仪金科信息技术有限公司 一种区块链云存储用户数据安全解决方法
CN111614730A (zh) * 2020-04-28 2020-09-01 北京金山云网络技术有限公司 云存储系统的文件处理方法、装置及电子设备
CN112130771A (zh) * 2020-09-27 2020-12-25 广州市优仪科技股份有限公司 试验箱的存储控制方法、装置和电子设备和存储介质
CN112784288A (zh) * 2021-01-22 2021-05-11 尚娱软件(深圳)有限公司 访问管理方法、终端及计算机可读存储介质
CN112883026A (zh) * 2021-01-28 2021-06-01 青岛海尔科技有限公司 数据处理方法和装置
CN115037755A (zh) * 2022-04-27 2022-09-09 东北大学 基于数据重分布和动态节点策略的区块链轻量存储方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102511043A (zh) * 2011-11-26 2012-06-20 华为技术有限公司 缓存文件替换方法、装置及系统
CN103064902A (zh) * 2012-12-18 2013-04-24 厦门市美亚柏科信息股份有限公司 Hdfs中数据的存储方法、读取方法及存储系统、读取系统
CN205051732U (zh) * 2015-09-30 2016-02-24 南京普亚信息技术有限公司 一种安全网盘存储装置
US20160154601A1 (en) * 2014-11-28 2016-06-02 International Business Machines Corporation Disk management in distributed storage system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102511043A (zh) * 2011-11-26 2012-06-20 华为技术有限公司 缓存文件替换方法、装置及系统
CN103064902A (zh) * 2012-12-18 2013-04-24 厦门市美亚柏科信息股份有限公司 Hdfs中数据的存储方法、读取方法及存储系统、读取系统
US20160154601A1 (en) * 2014-11-28 2016-06-02 International Business Machines Corporation Disk management in distributed storage system
CN205051732U (zh) * 2015-09-30 2016-02-24 南京普亚信息技术有限公司 一种安全网盘存储装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王敬轩: "分布式文件系统存储效率优化研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062501A (zh) * 2018-07-05 2018-12-21 南京信息职业技术学院 一种基于ida算法的网盘聚合方法
CN110764692B (zh) * 2019-08-28 2022-11-11 计算力(江苏)智能技术有限公司 一种服务器集群环境下存储切片数据冗余、恢复方法及系统
CN110764692A (zh) * 2019-08-28 2020-02-07 计算力(江苏)智能技术有限公司 一种服务器集群环境下存储切片数据冗余、恢复方法及系统
CN110955641A (zh) * 2019-11-05 2020-04-03 上海海加网络科技有限公司 一种用于分布式文件共享系统的嵌入式存储终端装置
CN110955563A (zh) * 2019-11-26 2020-04-03 上海易点时空网络有限公司 数据备份方法及装置
CN111061357A (zh) * 2019-12-13 2020-04-24 北京奇艺世纪科技有限公司 节能方法、装置、电子设备及存储介质
CN111428271A (zh) * 2020-04-17 2020-07-17 上海坤仪金科信息技术有限公司 一种区块链云存储用户数据安全解决方法
CN111614730A (zh) * 2020-04-28 2020-09-01 北京金山云网络技术有限公司 云存储系统的文件处理方法、装置及电子设备
CN112130771A (zh) * 2020-09-27 2020-12-25 广州市优仪科技股份有限公司 试验箱的存储控制方法、装置和电子设备和存储介质
CN112784288A (zh) * 2021-01-22 2021-05-11 尚娱软件(深圳)有限公司 访问管理方法、终端及计算机可读存储介质
CN112784288B (zh) * 2021-01-22 2024-05-10 尚娱软件(深圳)有限公司 访问管理方法、终端及计算机可读存储介质
CN112883026A (zh) * 2021-01-28 2021-06-01 青岛海尔科技有限公司 数据处理方法和装置
CN115037755A (zh) * 2022-04-27 2022-09-09 东北大学 基于数据重分布和动态节点策略的区块链轻量存储方法

Similar Documents

Publication Publication Date Title
CN107870726A (zh) 基于冗余机制的数据存储方法和装置、服务器
CN107423426B (zh) 一种区块链块数据的数据归档方法及电子设备
US20210056074A1 (en) File System Data Access Method and File System
CN106294585B (zh) 一种云计算平台下的存储方法
CN106156359B (zh) 一种云计算平台下的数据同步更新方法
CN107045422B (zh) 分布式存储方法和设备
US8874520B2 (en) Processes and methods for client-side fingerprint caching to improve deduplication system backup performance
EP2510455B1 (en) Probabilistic offload engine for distributed hierarchical object storage devices
CN102411637B (zh) 分布式文件系统的元数据管理方法
AU2015221548A1 (en) A computer implemented method for dynamic sharding
CN103279568A (zh) 一种元数据管理系统及方法
US20120323864A1 (en) Distributed de-duplication system and processing method thereof
CN113377868B (zh) 一种基于分布式kv数据库的离线存储系统
CN105025053A (zh) 基于云存储技术的分布式文件的上传方法及其系统
CN113168404B (zh) 用于在分布式数据库系统中复制数据的系统和方法
CN110795395B (zh) 文件部署系统和文件部署方法
CN103227818A (zh) 终端、服务器、文件传输方法、文件存储管理系统和方法
WO2017117148A1 (en) A system, method, and computer program product for securely delivering content between storage mediums
CN103294167A (zh) 一种基于数据行为的低能耗集群存储复制装置和方法
US20160139996A1 (en) Methods for providing unified storage for backup and disaster recovery and devices thereof
US10713216B2 (en) Using relative generation numbers to deduplicate file system events
CN106980618A (zh) 基于MongoDB分布式集群架构的文件存储方法和系统
TWI420333B (zh) 分散式的重複數據刪除系統及其處理方法
EP3146442B1 (en) Methods and apparatus for storing electronic documents
JP2018185562A (ja) 制御プログラム、制御方法、及び情報処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180403