CN103744620B - 一种用于数据存储的方法与设备 - Google Patents

一种用于数据存储的方法与设备 Download PDF

Info

Publication number
CN103744620B
CN103744620B CN201310751664.7A CN201310751664A CN103744620B CN 103744620 B CN103744620 B CN 103744620B CN 201310751664 A CN201310751664 A CN 201310751664A CN 103744620 B CN103744620 B CN 103744620B
Authority
CN
China
Prior art keywords
storage
information
candidate
scheme information
memory space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310751664.7A
Other languages
English (en)
Other versions
CN103744620A (zh
Inventor
覃安
胡殿明
刘俊
杨文君
谭待
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310751664.7A priority Critical patent/CN103744620B/zh
Publication of CN103744620A publication Critical patent/CN103744620A/zh
Application granted granted Critical
Publication of CN103744620B publication Critical patent/CN103744620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于数据存储的方法与设备。处理设备通过根据数据存储请求确定对应的一个或多个候选存储方案信息,并根据所述候选存储方案信息所对应的性能指标信息确定对应的优选存储方案信息,进而对所述数据存储请求进行处理。与现有技术相比,本发明根据硬件介质服务质量的不同,将数据根据重要程度分配到合适的存储介质上,降低了数据损坏和丢失的概率;同时,由于介质的服务质量根据实际情况实时变化,利用本发明能够比较早地发现潜在故障,避免即将发生的硬件故障所带来的损坏;从而实现了对存储介质服务质量感知的数据分级布局技术,消除了存储介质服务质量不一致对存储系统的存储性能和可靠性的影响,并实现了存储成本控制策略。

Description

一种用于数据存储的方法与设备
技术领域
本发明涉及数据存储领域,尤其涉及一种用于数据存储的技术。
背景技术
存储系统的介质随着采购规格、供应批次、运行环境、使用模式,服务寿命等诸多因素影响,对上层系统呈现出不同的性能、可靠性等服务质量上的差异。这些真实存在的异构性导致存储系统在将数据布局在存储介质上时呈现出差异明显的服务质量。特别是采用多副本方式保证可靠性的系统,副本放置方式不同会影响数据的读取速度以及可靠性。
当前,现有方法中对于存储系统的可靠性设计,都是以假设底层存储介质的服务质量(Quality of Service,QoS)相同为前提进行的,其中,主要包括两种方法:
方法一:使用多个冗余副本来确保数据的可靠性。现有研究以及工程方案主要研究在同质存储介质环境下,如何布局和存放数据到多个副本中,从而尽可能小的降低数据丢失或者损坏的概率。同时数据副本的切换对于数据读取而言,代价比较低,工程实现也简单。
这种使用多个冗余副本来确保数据可靠性的方法,利用了副本在系统逻辑层面上无区别的假设,然而这种假设无法在真实生成环境下得到保证。逻辑上,作为相互映像的副本应该在读取性能以及损坏时间上应当没有无区别,但由于实际环境下副本存储介质的不同,使得副本所对应的QoS不同,进而将数据布局到这类副本中会得到不同的访问延时和持久性。
方法二:通过设计有效的编码机制来维护数据的完整性和正确性。这种方法通过将数据切成数据块,然后计算得到校验块,利用验证块在数据块损坏的时候进行恢复。相比于方法一,数据编码往往不需要两倍以上的数据存储量,因此能有效地降低数据空间成本,在可靠性保证上也达到甚至超过方法一的同等效果。
然而,这种通过编码机制来保证数据可靠性的方法,会因为数据块与校验块所处的介质QoS不同而诱发繁重的数据恢复,降低系统的读取性能。这是由于数据读取通常情况下不需要操作校验块,只有当数据损坏情况才需要读取校验块并调度计算资源恢复损坏的数据块。因此,数据块的访问频度远高于校验块。如果存放数据块的介质质量较校验块的QoS差,则数据块的损坏概率会大于校验块,从而增加繁重的数据恢复计算代价,而且工程实现也比较复杂。
发明内容
本发明的目的是提供一种用于数据存储的方法与设备。
根据本发明的一个方面,提供了一种用于数据存储的方法,其中,该方法包括:
根据数据存储请求确定对应的一个或多个候选存储方案信息,其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求;
根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息;
根据所述优选存储方案信息处理所述数据存储请求。
根据本发明的另一方面,还提供了一种用于数据存储的处理设备,其中,该设备包括:
用于根据数据存储请求确定对应的一个或多个候选存储方案信息的装置,其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求;
用于根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息的装置;
用于根据所述优选存储方案信息处理所述数据存储请求的装置。
与现有技术相比,本发明通过根据数据存储请求确定对应的一个或多个候选存储方案信息,并根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息,进而根据所述优选存储方案信息处理所述数据存储请求,其中,所述性能指标信息包括所述候选存储方案信息所对应的可靠性信息和/或存储性能信息。从而,本发明根据硬件介质的服务质量的不同,将数据根据重要程度有选择的分配到合适的存储介质上,降低了数据损坏和丢失的概率;同时,由于介质的服务质量是根据实际情况实时变化的,利用本发明能够比较早地发现潜在的故障,帮助系统调度器更有效地避免即将发生的硬件故障所带来的损坏;从而实现了对存储介质服务质量感知的数据分级布局技术,并消除了存储介质中存在的服务质量不一致对存储系统所带来的存储性能和可靠性上的影响,并降低硬件购置成本,实现了精细化的存储成本控制策略。
而且,本发明还可以基于所述候选存储方案信息所对应的各存储空间的介质可靠参数确定所述可靠性信息;进一步地,还可以对于所述候选存储方案信息所对应的各存储空间,基于每个存储空间所对应的介质健康参数及时间相关信息,确定该存储空间对应的所述介质可靠参数;从而提供了确定可靠性信息的方法,进而能够确定所述候选存储方案信息所对应的性能指标信息,实现了对存储介质服务质量感知的数据分级布局技术,并消除了存储介质中存在的服务质量不一致对存储系统所带来的存储性能和可靠性上的影响,并降低硬件购置成本,实现了精细化的存储成本控制策略。
而且,本发明还可以基于所述候选存储方案信息所对应的各存储空间的介质存储参数确定所述存储性能信息;进一步地,还可以对于所述候选存储方案信息所对应的各存储空间,基于每个存储空间所对应的介质可靠参数及存储相关信息,确定该存储空间对应的所述介质存储参数;从而提供了确定存储性能信息的方法,进而能够确定所述候选存储方案信息所对应的性能指标信息,实现了对存储介质服务质量感知的数据分级布局技术,并消除了存储介质中存在的服务质量不一致对存储系统所带来的存储性能和可靠性上的影响,并降低硬件购置成本,实现了精细化的存储成本控制策略。
而且,本发明还可以根据所述候选存储方案信息所对应的性能指标信息,并结合存储优选规则,从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息;从而灵活地对优选存储方案信息进行选择,实现了对存储介质服务质量感知的数据分级布局技术,并消除了存储介质中存在的服务质量不一致对存储系统所带来的存储性能和可靠性上的影响,并降低硬件购置成本,实现了精细化的存储成本控制策略。
而且,本发明还可以根据所述优选存储方案信息,并结合所述数据存储请求所对应的存储策略信息,处理所述数据存储请求;从而通过将数据按照不同的存储策略进行存储,降低了数据损坏和丢失的概率,帮助系统调度器更有效地避免即将发生的硬件故障所带来的损坏。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种用于数据存储的处理设备示意图;
图2示出根据本发明一个优选实施例的一种用于数据存储的处理设备示意图;
图3示出根据本发明另一个优选实施例的一种用于数据存储的处理设备示意图;
图4示出根据本发明另一个方面的一种用于数据存储的方法流程图;
图5示出根据本发明一个优选实施例的一种用于数据存储的方法流程图;
图6示出根据本发明另一个优选实施例的一种用于数据存储的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的一种用于数据存储的处理设备示意图;其中,所述处理设备包括用于根据数据存储请求确定对应的一个或多个候选存储方案信息的装置(下面简称“候选装置1”),其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求;用于根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息的装置(下面简称“优选装置2”);用于根据所述优选存储方案信息处理所述数据存储请求的装置(下面简称“处理装置3”)。
在此,所述处理设备包括但不限于网络设备、用户设备、或网络设备与用户设备通过网络相集成所构成的设备。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述用户设备其包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品,例如计算机、智能手机、PDA、游戏机、或IPTV等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解,其他的处理设备同样适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本发明可应用在各类存储系统中,也可应用在各类可靠性设计或数据布局技术设计等方面。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地,或者按照设定的或实时调整的工作模式要求,进行候选存储方案信息的确定、优选存储方案信息的确定、数据存储请求的处理等,直至所述处理设备停止获取所述数据存储请求。
所述候选装置1根据数据存储请求确定对应的一个或多个候选存储方案信息,其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求。
具体地,所述候选装置1通过根据各种通信协议,基于各类传输接口,获取与所述处理设备相关联的一个或多个设备所发送的数据存储请求;其中,所述数据存储请求包括但不限于对单个数据的数据存储请求,或者对多个数据所形成的数据集的数据存储请求。
然后,所述候选装置1根据所述数据存储请求,确定所述数据存储请求所对应的存储服务要求,其中,所述存储服务要求包括但不限于服务等级协议(Service-LevelAgreement,SLA)、存储容量、存储格式、存储空间的型号、存储速度等;所述候选装置1根据所确定的存储服务要求,确定满足所述存储服务要求的一个或多个候选存储方案信息;其中,所述候选存储方案信息包括但不限于存储空间的选择、存储数据的读写方式等。
所述优选装置2根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息。
具体地,所述优选装置2根据所述候选存储方案信息,通过与能够提供所述候选存储方案信息的性能指标信息的一个或多个第三方设备相交互,以获取所述性能指标信息。或者,所述优选装置2基于所述候选存储方案信息所对应的一个或多个存储介质的历史数据(如历史运行状态、性能与故障数据等),对所述存储介质当前的健康状况进行预估,以确定所述存储介质所对应的服务质量信息,在此,所述服务质量信息如性能可靠性较好、一般、老化、潜在故障、已经故障等;从而所述优选装置2根据所述一个或多个存储介质的服务质量信息,确定所述候选存储方案信息所对应的性能指标信息。
其中,所述性能指标信息包括所述候选存储方案信息所对应的可靠性信息和/或存储性能信息。
然后,所述优选装置2根据所述性能指标信息,从所述一个或多个候选存储方案信息中选择所述性能指标信息最优的候选存储方案信息,作为所述优选存储方案信息;或者基于所述数据存储请求所对应的存储服务要求,根据所述性能指标信息,从所述一个或多个候选存储方案信息中选择在性能上最适合所述存储服务要求的候选存储方案信息,作为所述优选存储方案信息;或者基于所述数据存储请求所对应的存储服务要求,根据所述性能指标信息,从所述一个或多个候选存储方案信息中选择可靠性信息和存储性能信息最小(即满足:min(可靠性信息,存储性能信息))的一组候选存储方案信息作为所述优选存储方案信息等。
优选地,所述优选装置2可以根据所述候选存储方案信息所对应的性能指标信息,并结合存储优选规则,从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息。
具体地,所述优选装置2可以根据所述性能指标信息,并结合预定或实时提交的或根据所述数据存储请求而确定的存储优选规则,从所述一个或多个候选存储方案信息中选择在性能上最适合所述存储优选规则的候选存储方案信息,作为所述优选存储方案信息。
其中,所述存储优选规则包括但不限于以下至少任一项:
-性能指标最优,即选择性能指标信息中性能指标数据最高的候选存储方案信息,从而满足如要求响应时间的应用;
-性能指标最小,即选择性能指标信息中性能指标数据最低的候选存储方案信息,从而实现存储成本最小;
-性能指标平衡,即选择性能指标信息中性能指标数据适中的候选存储方案信息,从而在存储性能与存储成本中实现平衡等。
所述处理装置3根据所述优选存储方案信息处理所述数据存储请求。
具体地,所述处理装置3根据所述优选存储方案信息,将所述数据存储请求所对应的数据,存储至所述优选存储方案信息所对应的存储介质上。
优选地,所述处理装置3可以根据所述优选存储方案信息,并结合所述数据存储请求所对应的存储策略信息,处理所述数据存储请求。
具体地,所述处理装置3可以根据所述数据存储请求,通过与能够提供所述数据存储请求所对应的存储策略信息的一个或多个第三方设备相交互,以获取所述存储策略信息;或是基于所述数据存储请求,根据所述数据存储请求所对应的数据或应用的特性,确定所述数据存储请求所对应的存储策略信息。
其中,所述存储策略信息包括但不限于如将所述数据存储至多副本(即多副本保证可靠性),或是将所述数据进行编码后存储(即通过编码数据保证可靠性)。
所述处理装置3可以根据所述优选存储方案信息,并结合所述数据存储请求所对应的存储策略信息,将所述数据进行多副本或编码后存储,以实现对所述数据存储请求的处理。
例如,当所述存储策略信息为多副本保证可靠性时,可利用所述性能指标信息,进一步地,利用所述性能指标信息中的可靠性信息,来对所述多副本的分配进行控制,如将至少一个副本放置在可靠性信息最高的存储介质上;当所述存储策略信息为通过编码数据保证可靠性时,将数据块优先放置在性能指标信息最高的存储介质上,进一步地,将数据块优先放置在所述可靠性信息最高的存储介质上,最后放置校验块。
利用本发明后,数据损坏率与平均修复时间都有了大幅的降低。将本发明在真实系统上的运维数据表明,数据损坏率降低了77%,平均修复时间(MTTR)降低了76.3%。
图2示出根据本发明一个优选实施例的一种用于数据存储的处理设备示意图;其中,所述处理设备包括用于根据数据存储请求确定对应的一个或多个候选存储方案信息的装置(下面简称“候选装置1’”),其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求;用于当所述性能指标信息包括所述可靠性信息时,基于所述候选存储方案信息所对应的各存储空间的介质可靠参数确定所述可靠性信息的装置(下面简称“可靠性单元21’”);用于根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息的装置(下面简称“优选装置2’”);用于根据所述优选存储方案信息处理所述数据存储请求的装置(下面简称“处理装置3’”)。
其中,所述处理设备的候选装置1’、优选装置2’、处理装置3’与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地,或者按照设定的或实时调整的工作模式要求,进行候选存储方案信息的确定、可靠性信息的确定、优选存储方案信息的确定、数据存储请求的处理等,直至所述处理设备停止获取所述数据存储请求。
当所述性能指标信息包括所述可靠性信息时,所述可靠性单元21’基于所述候选存储方案信息所对应的各存储空间的介质可靠参数确定所述可靠性信息。
具体地,所述可靠性单元21’通过获取所述候选存储方案信息所对应的各个存储空间(如存储磁盘)的介质可靠参数,通过将所述各个存储空间的介质可靠参数进行平均或乘以相关系数等方式,确定所述可靠性信息。
其中,例如,可以根据公式1确定所述可靠性信息:
(公式1)
其中,所述Rdata表示所述可靠性信息,即数据存储到m块磁盘位置上的可靠程度;Di,j表示两个数据块存放的磁盘距离,计算方法为盘块所在机器的IP之差加1;表示Di,j之间网络的可靠程度,该参数可根据历史记录学习获得,在跨路由链路中会有所不同。
其中,所述表示磁盘的可靠性程度;所述可靠性程度可基于所述磁盘的历史数据(如历史运行状态、性能与故障数据等)进行预估或确定。
更优选地,所述可靠性单元21’还包括用于对于所述候选存储方案信息所对应的各存储空间,基于每个存储空间所对应的介质健康参数及时间相关信息,确定该存储空间对应的所述介质可靠参数的装置(未示出,下面简称“可靠参数单元”)。
具体地,所述可靠参数确定单元对于所述候选存储方案信息所对应的各存储空间,通过基于所述存储空间的历史数据(如历史运行状态、性能与故障数据等),确定所述存储空间所对应的介质健康参数;然后基于所述每个存储空间所对应的介质健康参数及时间相关信息,确定该存储空间对应的所述介质可靠参数。
其中,例如,以根据公式2确定所述介质可靠参数:
(公式2)
其中,所述表示所述介质可靠参数,即所述磁盘的可靠程度;表示通过累计历史采集数据所确定的介质健康参数,用于消除数据波动和误判所带来的噪音影响;T表示的有效时间,ti表示当前时间。每当更新时,T也随之更新。
在此,所述的确定方法例如:
通过采集所述存储空间的温度/伺服/磁头/介质/马达/读写错误/寿命等多维表征,用机器学习算法训练出故障盘及好盘的分类预测模型;利用所述分类预测模型,计算所述存储空间的健康等级信息,根据所述健康等级信息,确定所述进一步地,还可以通过对所述存储空间进行检测,例如检测否就绪、是否存在坏扇区、是否性能下降、内部温度是否偏高及是否接近保修期等,从而对所述健康等级信息进行校正,以避免利用所述分类预测模型的预测误差,获得更为准确的信息。
图3示出根据本发明另一个优选实施例的一种用于数据存储的处理设备示意图;其中,所述处理设备包括用于根据数据存储请求确定对应的一个或多个候选存储方案信息的装置(下面简称“候选装置1””),其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求;用于当所述性能指标信息包括所述存储性能信息时,基于所述候选存储方案信息所对应的各存储空间的介质存储参数确定所述存储性能信息的装置(下面简称“存储性能单元22””);用于根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息的装置(下面简称“优选装置2””);用于根据所述优选存储方案信息处理所述数据存储请求的装置(下面简称“处理装置3””)。
其中,所述处理设备的候选装置1”、优选装置2”、处理装置3”与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地,或者按照设定的或实时调整的工作模式要求,进行候选存储方案信息的确定、存储性能信息的确定、优选存储方案信息的确定、数据存储请求的处理等,直至所述处理设备停止获取所述数据存储请求。
当所述性能指标信息包括所述存储性能信息时,所述存储性能单元22”基于所述候选存储方案信息所对应的各存储空间的介质存储参数确定所述存储性能信息。
具体地,所述存储性能单元22”通过获取所述候选存储方案信息所对应的各个存储空间(如存储磁盘)的介质存储参数,通过将所述各个存储空间的介质存储参数进行平均等方式,确定所述存储性能信息。
其中,例如,可以根据公式3确定所述存储性能信息:
(公式3)
其中,所述Pdata表示所述存储性能信息,即数据放置在m个磁盘位置上的平均性能;Pi表示单个存储空间的介质存储参数,所述介质存储参数与所述存储空间的介质可靠参数成正比,若所述存储空间的可靠性低,则Pi也会降低,从而避免了短板效应。若某数据对于存储具有性能要求,将需放到Pi高的磁盘。
在此,所述介质可靠参数的计算方法,与图2中所述可靠参数确定单元确定所述介质可靠参数的方法相同或相似,故在此不再赘述,并通过引用的方式包含于此。
更优选地,所述存储性能单元22”还包括用于对于所述候选存储方案信息所对应的各存储空间,基于每个存储空间所对应的介质可靠参数及存储相关信息,确定该存储空间对应的所述介质存储参数的装置(未示出,下面简称“存储参数单元”)。
具体地,所述存储参数单元对于所述候选存储方案信息所对应的各存储空间,通过基于所述存储空间的历史数据(如历史运行状态、性能与故障数据等),确定所述存储空间所对应的介质健康参数,并基于所述介质健康参数以及时间相关信息,确定该存储空间对应的所述介质可靠参数;然后基于所述每个存储空间所对应的介质可靠参数及存储相关信息,确定该存储空间对应的所述介质存储参数。
其中,所述介质健康参数以及介质可靠参数的计算方法,与图2中所述可靠参数确定单元确定所述介质健康参数以及介质可靠参数的方法相同或相似,故在此不再赘述,并通过引用的方式包含于此。
所述存储相关信息包括但不限于所述存储介质的物理性能或速度等信息。
其中,例如,以根据公式4确定所述介质存储参数:
(公式4)
其中,所述Pi表示所述介质存储参数,可用于衡量单个磁盘的性能;表示所述存储空间的物理性能或速度等。
图4示出根据本发明另一个方面的一种用于数据存储的方法流程图。具体地,在步骤s1中,所述处理设备根据数据存储请求确定对应的一个或多个候选存储方案信息,其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求;在步骤s2中,所述处理设备根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息;在步骤s3中,所述处理设备根据所述优选存储方案信息处理所述数据存储请求。
本发明可应用在各类存储系统中,也可应用在各类可靠性设计或数据布局技术设计等方面。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地,或者按照设定的或实时调整的工作模式要求,进行候选存储方案信息的确定、优选存储方案信息的确定、数据存储请求的处理等,直至所述处理设备停止获取所述数据存储请求。
在步骤s1中,所述处理设备根据数据存储请求确定对应的一个或多个候选存储方案信息,其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求。
具体地,在步骤s1中,所述处理设备通过根据各种通信协议,基于各类传输接口,获取与所述处理设备相关联的一个或多个设备所发送的数据存储请求;其中,所述数据存储请求包括但不限于对单个数据的数据存储请求,或者对多个数据所形成的数据集的数据存储请求。
然后,在步骤s1中,所述处理设备根据所述数据存储请求,确定所述数据存储请求所对应的存储服务要求,其中,所述存储服务要求包括但不限于服务等级协议(Service-Level Agreement,SLA)、存储容量、存储格式、存储空间的型号、存储速度等;在步骤s1中,所述处理设备根据所确定的存储服务要求,确定满足所述存储服务要求的一个或多个候选存储方案信息;其中,所述候选存储方案信息包括但不限于存储空间的选择、存储数据的读写方式等。
在步骤s2中,所述处理设备根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息。
具体地,在步骤s2中,所述处理设备根据所述候选存储方案信息,通过与能够提供所述候选存储方案信息的性能指标信息的一个或多个第三方设备相交互,以获取所述性能指标信息。或者,在步骤s2中,所述处理设备基于所述候选存储方案信息所对应的一个或多个存储介质的历史数据(如历史运行状态、性能与故障数据等),对所述存储介质当前的健康状况进行预估,以确定所述存储介质所对应的服务质量信息,在此,所述服务质量信息如性能可靠性较好、一般、老化、潜在故障、已经故障等;从而在步骤s2中,所述处理设备根据所述一个或多个存储介质的服务质量信息,确定所述候选存储方案信息所对应的性能指标信息。
其中,所述性能指标信息包括所述候选存储方案信息所对应的可靠性信息和/或存储性能信息。
然后,在步骤s2中,所述处理设备根据所述性能指标信息,从所述一个或多个候选存储方案信息中选择所述性能指标信息最优的候选存储方案信息,作为所述优选存储方案信息;或者基于所述数据存储请求所对应的存储服务要求,根据所述性能指标信息,从所述一个或多个候选存储方案信息中选择在性能上最适合所述存储服务要求的候选存储方案信息,作为所述优选存储方案信息;或者基于所述数据存储请求所对应的存储服务要求,根据所述性能指标信息,从所述一个或多个候选存储方案信息中选择可靠性信息和存储性能信息最小(即满足:min(可靠性信息,存储性能信息))的一组候选存储方案信息作为所述优选存储方案信息等。
优选地,在步骤s2中,所述处理设备可以根据所述候选存储方案信息所对应的性能指标信息,并结合存储优选规则,从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息。
具体地,在步骤s2中,所述处理设备可以根据所述性能指标信息,并结合预定或实时提交的或根据所述数据存储请求而确定的存储优选规则,从所述一个或多个候选存储方案信息中选择在性能上最适合所述存储优选规则的候选存储方案信息,作为所述优选存储方案信息。
其中,所述存储优选规则包括但不限于以下至少任一项:
-性能指标最优,即选择性能指标信息中性能指标数据最高的候选存储方案信息,从而满足如要求响应时间的应用;
-性能指标最小,即选择性能指标信息中性能指标数据最低的候选存储方案信息,从而实现存储成本最小;
-性能指标平衡,即选择性能指标信息中性能指标数据适中的候选存储方案信息,从而在存储性能与存储成本中实现平衡等。
在步骤s3中,所述处理设备根据所述优选存储方案信息处理所述数据存储请求。
具体地,在步骤s3中,所述处理设备根据所述优选存储方案信息,将所述数据存储请求所对应的数据,存储至所述优选存储方案信息所对应的存储介质上。
优选地,在步骤s3中,所述处理设备可以根据所述优选存储方案信息,并结合所述数据存储请求所对应的存储策略信息,处理所述数据存储请求。
具体地,在步骤s3中,所述处理设备可以根据所述数据存储请求,通过与能够提供所述数据存储请求所对应的存储策略信息的一个或多个第三方设备相交互,以获取所述存储策略信息;或是基于所述数据存储请求,根据所述数据存储请求所对应的数据或应用的特性,确定所述数据存储请求所对应的存储策略信息。
其中,所述存储策略信息包括但不限于如将所述数据存储至多副本(即多副本保证可靠性),或是将所述数据进行编码后存储(即通过编码数据保证可靠性)。
在步骤s3中,所述处理设备可以根据所述优选存储方案信息,并结合所述数据存储请求所对应的存储策略信息,将所述数据进行多副本或编码后存储,以实现对所述数据存储请求的处理。
例如,当所述存储策略信息为多副本保证可靠性时,可利用所述性能指标信息,进一步地,利用所述性能指标信息中的可靠性信息,来对所述多副本的分配进行控制,如将至少一个副本放置在可靠性信息最高的存储介质上;当所述存储策略信息为通过编码数据保证可靠性时,将数据块优先放置在性能指标信息最高的存储介质上,进一步地,将数据块优先放置在所述可靠性信息最高的存储介质上,最后放置校验块。
利用本发明后,数据损坏率与平均修复时间都有了大幅的降低。将本发明在真实系统上的运维数据表明,数据损坏率降低了77%,平均修复时间(MTTR)降低了76.3%。
图5示出根据本发明一个优选实施例的一种用于数据存储的方法流程图。具体地,在步骤s1’中,所述处理设备根据数据存储请求确定对应的一个或多个候选存储方案信息,其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求;当所述性能指标信息包括所述可靠性信息时,在步骤s21’中,所述处理设备基于所述候选存储方案信息所对应的各存储空间的介质可靠参数确定所述可靠性信息;在步骤s2’中,所述处理设备根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息;在步骤s3’中,所述处理设备根据所述优选存储方案信息处理所述数据存储请求。
其中,所述方法的步骤s1’、步骤s2’、步骤s3’与图4所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地,或者按照设定的或实时调整的工作模式要求,进行候选存储方案信息的确定、可靠性信息的确定、优选存储方案信息的确定、数据存储请求的处理等,直至所述处理设备停止获取所述数据存储请求。
当所述性能指标信息包括所述可靠性信息时,在步骤s21’中,所述处理设备基于所述候选存储方案信息所对应的各存储空间的介质可靠参数确定所述可靠性信息。
具体地,在步骤s21’中,所述处理设备通过获取所述候选存储方案信息所对应的各个存储空间(如存储磁盘)的介质可靠参数,通过将所述各个存储空间的介质可靠参数进行平均或乘以相关系数等方式,确定所述可靠性信息。
其中,例如,可以根据公式5确定所述可靠性信息:
(公式5)
其中,所述Rdata表示所述可靠性信息,即数据存储到m块磁盘位置上的可靠程度;Di,j表示两个数据块存放的磁盘距离,计算方法为盘块所在机器的IP之差加1;表示Di,j之间网络的可靠程度,该参数可根据历史记录学习获得,在跨路由链路中会有所不同。
其中,所述表示磁盘的可靠性程度;所述可靠性程度可基于所述磁盘的历史数据(如历史运行状态、性能与故障数据等)进行预估或确定。
更优选地,步骤s21’还包括步骤s211’(未示出),其中,在步骤s211’中,所述处理设备对于所述候选存储方案信息所对应的各存储空间,基于每个存储空间所对应的介质健康参数及时间相关信息,确定该存储空间对应的所述介质可靠参数。
具体地,在步骤s211’中,所述处理设备对于所述候选存储方案信息所对应的各存储空间,通过基于所述存储空间的历史数据(如历史运行状态、性能与故障数据等),确定所述存储空间所对应的介质健康参数;然后基于所述每个存储空间所对应的介质健康参数及时间相关信息,确定该存储空间对应的所述介质可靠参数。
其中,例如,以根据公式6确定所述介质可靠参数:
(公式6)
其中,所述表示所述介质可靠参数,即所述磁盘的可靠程度;表示通过累计历史采集数据所确定的介质健康参数,用于消除数据波动和误判所带来的噪音影响;T表示的有效时间,ti表示当前时间。每当更新时,T也随之更新。
在此,所述的确定方法例如:
通过采集所述存储空间的温度/伺服/磁头/介质/马达/读写错误/寿命等多维表征,用机器学习算法训练出故障盘及好盘的分类预测模型;利用所述分类预测模型,计算所述存储空间的健康等级信息,根据所述健康等级信息,确定所述进一步地,还可以通过对所述存储空间进行检测,例如检测否就绪、是否存在坏扇区、是否性能下降、内部温度是否偏高及是否接近保修期等,从而对所述健康等级信息进行校正,以避免利用所述分类预测模型的预测误差,获得更为准确的信息。
图6示出根据本发明另一个优选实施例的一种用于数据存储的方法流程图。具体地,在步骤s1”中,所述处理设备根据数据存储请求确定对应的一个或多个候选存储方案信息,其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求;当所述性能指标信息包括所述存储性能信息时,在步骤s22”中,所述处理设备基于所述候选存储方案信息所对应的各存储空间的介质存储参数确定所述存储性能信息;在步骤s2”中,所述处理设备根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息;在步骤s3”中,所述处理设备根据所述优选存储方案信息处理所述数据存储请求。
其中,所述方法的步骤s1”、步骤s2”、步骤s3”与图4所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地,或者按照设定的或实时调整的工作模式要求,进行候选存储方案信息的确定、存储性能信息的确定、优选存储方案信息的确定、数据存储请求的处理等,直至所述处理设备停止获取所述数据存储请求。
当所述性能指标信息包括所述存储性能信息时,在步骤s22”中,所述处理设备基于所述候选存储方案信息所对应的各存储空间的介质存储参数确定所述存储性能信息。
具体地,在步骤s22”中,所述处理设备通过获取所述候选存储方案信息所对应的各个存储空间(如存储磁盘)的介质存储参数,通过将所述各个存储空间的介质存储参数进行平均等方式,确定所述存储性能信息。
其中,例如,可以根据公式7确定所述存储性能信息:
(公式7)
其中,所述Pdata表示所述存储性能信息,即数据放置在m个磁盘位置上的平均性能;Pi表示单个存储空间的介质存储参数,所述介质存储参数与所述存储空间的介质可靠参数成正比,若所述存储空间的可靠性低,则Pi也会降低,从而避免了短板效应。若某数据对于存储具有性能要求,将需放到Pi高的磁盘。
在此,所述介质可靠参数的计算方法,与图5中所述步骤s211’确定所述介质可靠参数的方法相同或相似,故在此不再赘述,并通过引用的方式包含于此。
更优选地,步骤s22”还包括步骤s221”(未示出),其中,在步骤s221”中,所述处理设备对于所述候选存储方案信息所对应的各存储空间,基于每个存储空间所对应的介质可靠参数及存储相关信息,确定该存储空间对应的所述介质存储参数。
具体地,在步骤s221”中,所述处理设备对于所述候选存储方案信息所对应的各存储空间,通过基于所述存储空间的历史数据(如历史运行状态、性能与故障数据等),确定所述存储空间所对应的介质健康参数,并基于所述介质健康参数以及时间相关信息,确定该存储空间对应的所述介质可靠参数;然后基于所述每个存储空间所对应的介质可靠参数及存储相关信息,确定该存储空间对应的所述介质存储参数。
其中,所述介质健康参数以及介质可靠参数的计算方法,与图5中所述步骤s211’确定所述介质健康参数以及介质可靠参数的方法相同或相似,故在此不再赘述,并通过引用的方式包含于此。
所述存储相关信息包括但不限于所述存储介质的物理性能或速度等信息。
其中,例如,以根据公式8确定所述介质存储参数:
(公式8)
其中,所述Pi表示所述介质存储参数,可用于衡量单个磁盘的性能;表示所述存储空间的物理性能或速度等。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种用于数据存储的方法,其中,该方法包括:
根据数据存储请求确定对应的一个或多个候选存储方案信息,其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求;
基于所述候选存储方案信息所对应的各存储空间的介质可靠参数、各存储空间存放的磁盘距离以及各存储空间之间网络的可靠程度来确定可靠性信息;
基于所述候选存储方案信息所对应的各存储空间的介质存储参数确定存储性能信息,其中,所述介质存储参数与该存储空间的介质可靠参数成正比;
根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息,其中,所述性能指标信息包括所述候选存储方案信息所对应的可靠性信息和/或存储性能信息;
根据所述优选存储方案信息处理所述数据存储请求。
2.根据权利要求1所述的方法,其中,基于所述候选存储方案信息所对应的各存储空间的介质可靠参数确定所述可靠性信息还包括:
对于所述候选存储方案信息所对应的各存储空间,基于每个存储空间所对应的介质健康参数及时间相关信息,确定该存储空间对应的所述介质可靠参数。
3.根据权利要求1所述的方法,其中,基于所述候选存储方案信息所对应的各存储空间的介质存储参数确定所述存储性能信息还包括:
对于所述候选存储方案信息所对应的各存储空间,基于每个存储空间所对应的介质可靠参数及存储相关信息,确定该存储空间对应的所述介质存储参数。
4.根据权利要求1至3中任一项所述的方法,其中,根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息包括:
根据所述候选存储方案信息所对应的性能指标信息,并结合存储优选规则,从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息。
5.根据权利要求1至3中任一项所述的方法,其中,根据所述优选存储方案信息处理所述数据存储请求包括:
根据所述优选存储方案信息,并结合所述数据存储请求所对应的存储策略信息,处理所述数据存储请求。
6.一种用于数据存储的处理设备,其中,该设备包括:
用于根据数据存储请求确定对应的一个或多个候选存储方案信息的装置,其中,所述候选存储方案信息满足所述数据存储请求所对应的存储服务要求;
用于根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息的装置,其中,所述性能指标信息包括所述候选存储方案信息所对应的可靠性信息和/或存储性能信息;
用于根据所述优选存储方案信息处理所述数据存储请求的装置;
其中,用于确定优选存储方案信息的装置还包括以下单元:
用于基于所述候选存储方案信息所对应的各存储空间的介质可靠参数、各存储空间存放的磁盘距离以及各存储空间之间网络的可靠程度来确定所述可靠性信息的单元;
用于基于所述候选存储方案信息所对应的各存储空间的介质存储参数确定所述存储性能信息的单元,其中,所述介质存储参数与该存储空间的介质可靠参数成正比。
7.根据权利要求6所述的处理设备,其中,用于基于所述候选存储方案信息所对应的各存储空间的介质可靠参数确定所述可靠性信息的单元还包括:
用于对于所述候选存储方案信息所对应的各存储空间,基于每个存储空间所对应的介质健康参数及时间相关信息,确定该存储空间对应的所述介质可靠参数的单元。
8.根据权利要求6所述的处理设备,其中,用于基于所述候选存储方案信息所对应的各存储空间的介质存储参数确定所述存储性能信息的单元还包括:
用于对于所述候选存储方案信息所对应的各存储空间,基于每个存储空间所对应的介质可靠参数及存储相关信息,确定该存储空间对应的所述介质存储参数的单元。
9.根据权利要求6至8中任一项所述的处理设备,其中,用于根据所述候选存储方案信息所对应的性能指标信息从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息的装置用于:
根据所述候选存储方案信息所对应的性能指标信息,并结合存储优选规则,从所述一个或多个候选存储方案信息中确定对应的优选存储方案信息。
10.根据权利要求6至8中任一项所述的处理设备,其中,用于根据所述优选存储方案信息处理所述数据存储请求的装置用于:
根据所述优选存储方案信息,并结合所述数据存储请求所对应的存储策略信息,处理所述数据存储请求。
CN201310751664.7A 2013-12-31 2013-12-31 一种用于数据存储的方法与设备 Active CN103744620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310751664.7A CN103744620B (zh) 2013-12-31 2013-12-31 一种用于数据存储的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310751664.7A CN103744620B (zh) 2013-12-31 2013-12-31 一种用于数据存储的方法与设备

Publications (2)

Publication Number Publication Date
CN103744620A CN103744620A (zh) 2014-04-23
CN103744620B true CN103744620B (zh) 2017-11-07

Family

ID=50501641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310751664.7A Active CN103744620B (zh) 2013-12-31 2013-12-31 一种用于数据存储的方法与设备

Country Status (1)

Country Link
CN (1) CN103744620B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10282100B2 (en) 2014-08-19 2019-05-07 Samsung Electronics Co., Ltd. Data management scheme in virtualized hyperscale environments
CN108733508B (zh) 2017-04-17 2022-03-11 伊姆西Ip控股有限责任公司 用于控制数据备份的方法和系统
CN112328168A (zh) 2017-06-29 2021-02-05 华为技术有限公司 分片管理方法和分片管理装置
CN112424742B (zh) * 2018-07-13 2022-06-14 华为技术有限公司 一种ssd数据读取方法和装置
CN109407994B (zh) * 2018-11-01 2022-02-18 郑州云海信息技术有限公司 一种存储策略生成方法、装置、设备及可读存储介质
CN111966645A (zh) * 2020-08-12 2020-11-20 南方科技大学 超级计算机数据存储方法、装置、系统及存储介质
CN114281260A (zh) * 2021-12-23 2022-04-05 广州炒米信息科技有限公司 应用于分布式存储系统的存储方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101465880A (zh) * 2007-12-18 2009-06-24 卢森特技术有限公司 数据在分布式存储系统中的可靠存储
CN102841931A (zh) * 2012-08-03 2012-12-26 中兴通讯股份有限公司 分布式文件系统的存储方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7287121B2 (en) * 2003-08-27 2007-10-23 Aristos Logic Corporation System and method of establishing and reconfiguring volume profiles in a storage system
CN101527739A (zh) * 2009-05-05 2009-09-09 杭州华三通信技术有限公司 一种存储方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101465880A (zh) * 2007-12-18 2009-06-24 卢森特技术有限公司 数据在分布式存储系统中的可靠存储
CN102841931A (zh) * 2012-08-03 2012-12-26 中兴通讯股份有限公司 分布式文件系统的存储方法及装置

Also Published As

Publication number Publication date
CN103744620A (zh) 2014-04-23

Similar Documents

Publication Publication Date Title
CN103744620B (zh) 一种用于数据存储的方法与设备
CN104123198B (zh) 管理数据复制模式的方法和装置
US11546225B1 (en) Methods and systems for network planning with availability guarantees
CN102546782B (zh) 一种分布式系统及其数据操作方法
CN104025054B (zh) 虚拟环境中的动态存储分层
US9110724B2 (en) Selecting computing nodes in cloud service using replication topologies
CN103377285A (zh) 用于增强对存储云去重技术的可靠性的方法与系统
RU2637434C1 (ru) Способ, устройство терминала и устройство сервера для хранения копий данных
CN105487823B (zh) 一种数据迁移的方法及装置
CN106844108B (zh) 一种数据存储方法、服务器以及存储系统
CN105376211A (zh) 无需内容中心网络中的验证的概率性延迟转发技术
CN104731523A (zh) 非易失性分级存储系统中的协同管理的方法及其控制器
CA2635334A1 (en) Method and system for network storage device failure protection and recovery
JP2013539133A5 (zh)
CN103442331A (zh) 终端设备位置确定方法和终端设备
CN101399683B (zh) 一种信誉系统中的信誉计算方法
CN102135983A (zh) 基于网络用户行为的群体划分方法和装置
CN101868834A (zh) Raid信息的存储器效率检查
CN105430615A (zh) 一种连续位置服务请求下基于假位置的位置隐私保护方法
US20220043581A1 (en) Optimized selection of subset of storage devices for data backup
CN101399713B (zh) 测量网络节点邻近度的方法
CN109271438A (zh) 一种数据库访问方法及其系统
US20100287016A1 (en) Method of monitoring a combined workflow with rejection determination function, device and recording medium therefor
US9560027B1 (en) User authentication
CN108958973A (zh) 分布式文件系统纠删码数据重构存储节点选择方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant