CN102023816A - 一种对象存储系统的对象存放策略和访问方法 - Google Patents
一种对象存储系统的对象存放策略和访问方法 Download PDFInfo
- Publication number
- CN102023816A CN102023816A CN 201010536485 CN201010536485A CN102023816A CN 102023816 A CN102023816 A CN 102023816A CN 201010536485 CN201010536485 CN 201010536485 CN 201010536485 A CN201010536485 A CN 201010536485A CN 102023816 A CN102023816 A CN 102023816A
- Authority
- CN
- China
- Prior art keywords
- copy
- mds
- client
- osd
- primary copy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明提供了一种对象存储系统的对象存放策略和访问方法。MDS根据一定的策略,将对象的副本分散在不同的数据服务器上;Client从MDS获取对象的分布信息;如果是读,任意选择一个副本进行读;如果是写,向主副本进行写,由主副本同步到从副本;从副本故障时,主副本通知MDS,MDS标识副本丢失,主副本所在的磁盘失效时,OSD向MDS提出换主请求,由MDS进行换主,MDS标记对象副本丢失;数据服务器宕机或退出时,由客户端向元数据提出换主请求,由元数据服务器进行换主,并标记副本丢失;MDS在合适的时机为丢失副本的对象生成新副本。本发明提供了对象访问的高可用性,能够在线处理磁盘故障和单点故障。
Description
技术领域
本发明涉及计算机存储领域,具体涉及一种基于对象存储系统的对象存放策略及访问方法。
背景技术
随着信息化的发展,信息资源爆炸式的增长,存储技术在各个方面出现了前所未有的发展。然而,存储容量的持续增长和存储设备成本的不断增加,存储技系统成为提高计算机性能的关键。
对象存储技术是充分利用对象存储设备(OSD)的功能和处理能力,对外提供对象接口,基于此建立的对象存储系统具有很强的可扩展性、可共享性、高可靠性以及高可用性等良好性能。对象存储系统具有用户多、用户类型多、网络环境复杂和存储对象类型多种多样等特点,这对对象存储系统在提供持续稳定、高性能的存储服务方面提出了更高的要求。为了保障对象存储系统能够稳定有效地提供高性能存储服务,将副本技术引入对象存储系统,通过创建对象副本,将副本放置在合适的存储节点上,实现I/O请求的就近响应,从而达到降低访问延迟、节约网络带宽、提高系统性能的目的。
OSD通常使用廉价的普通磁盘作为存储设备,磁盘故障及OSD本身的故障发生的概率较大,因此需要能够在线处理磁盘故障及单点故障。
发明内容
本发明的目的在于提供一种高可靠性,高可用性的基于对象存储的对象存放策略和访问方法,
一种对象存储系统的对象存放策略和访问方法,
存放策略如下:
A、采用多副本的存储方式保存对象,同一对象的不同副本存储在不同的OSD上;
B、设定同一对象的一个副本为主副本,所有的修改操作都发给主副本;
C、在MDS中保存对象的副本可用性信息;
D、磁盘或OSD失效时,通过其他副本将对象修复;
访问方法包括外部数据交互过程和内部数据交互过程:
所述外部数据交互过程是指用户通过客户端与系统进行数据读写,客户端提供通用文件系统接口,用户使用时与使用本地文件系统没有区别;
所述内部数据交互过程是指客户端向MDS获取对象的存储信息及副本信息,读操作选择可用副本发送读请求,写操作向主副本发送写请求;OSD响应客户端请求,读操作读取本地对象信息返回客户端,写操作进行本地写对象,同时将写信息发给其他可用的从副本,主副本收集到所有的写结果后,回应客户端。
本发明的一种优选技术方案在于:所述步骤D中的修复过程如下:
磁盘失效修复过程:
客户端写主副本时,如果从副本磁盘失效或坏道,使得写从副本失败,主副本向MDS报告副本丢失,同时主副本所在的OSD记录该对象的副本信息,之后的写操作不再向失效的副本发送。
如果是主副本所在的磁盘失效或坏道,主副本本身写失败,主副本收集完所有的从副本写结果,然后向MDS申请换主,换主成功后,删除本地的对象记录,回应客户端,对象已换主。
OSD失效修复过程:
客户端写主副本时,如果主副本所在的OSD单点故障,客户端向MDS申请换主,MDS为对象选择新的主副本,客户端向新的主副本发送写操作。
主副本向从副本发送写操作时,从副本所在的OSD单点故障,则主副本向MDS报告对象丢失,回应客户端写结果。
本发明的另一优选技术方案在于:所述MDS中保存了所有对象的状态信息,通过MDS能够获取所有丢失副本的对象,为这些对象选择新副本的存储位置并将这些对象通过分批或全部发给对象主副本所在的OSD,由OSD负责为对象创建新的从副本,创建新副本的过程中,阻止新的修改操作,同时在修复之前同步所有客户端缓存并在修复过程中不允许客户端缓存MDS的信息,OSD每修复完一个对象,向MDS报告该对象的最新副本信息。
本发明带来的有益效果如下:
1、具备在线处理故障能力;
2、具备在线修复故障能力;
3、修复时仅影响正在修复的对象;
4、能够处理磁盘故障和单点故障;
5、提供较高的读取性能。
附图说明
图1为系统的交互模型工作过程图。
图2为系统的对象初次写操作流程图
图3为系统的对象后续的写操作流程图
图4为对象换主操作流程图
图5为OSD上磁盘故障
图6为单个OSD故障
具体实施方案
下面结合附图举例对本发明做更细地描述:
图1为系统的交互模型工作过程图。
客户端从MDS处获取对象信息,在OSD单点故障时,向MDS申请对象换主。
MDS存储对象副本及状态信息,并处理对象换主,为对象选择新副本位置。
OSD存储对象,提供对象的读写服务,并负责对象的副本同步和为对象创建新的从副本。
图2为系统的对象初次写操作流程图。
1客户端初次访问对象时,向MDS获取对象存储位置及副本信息,然后向主副本所在的OSD发送写操作,同时对象的副本信息;
2主副本所在的OSD2接到客户端的写请求后,异步发给从副本S1和S2;
3主副本得到所有副本成功应答后,向客户端回应写成功。
图3为系统的后续对象写操作流程图。
1客户端根据自身缓存的信息向主副本发送写操作,同时携带副本信息;
2主副本所在OSD接受数据写操作,并向从副本发送写操作;
3应答客户端。
图4为系统的对象换主流程图。
1当客户端读写主副本时,遇到主副本失效;
2如果是写操作,主副本等待所有的副本写结果;
3向MDS发送换主请求;
4MDS在可用的从副本中选择一个作为新的主副本;
5旧主副本所在的OSD应答客户端,并告知客户端需更新对象副本信息。
图5为系统的磁盘故障处理流程图
OSD在写的过程中发现磁盘失效或坏道,向MDS报告,同时本地保存副本的状态,后续的写操作不再发给这些从副本。
图6为数据修复的流程图
数据修复时,MDS为丢失副本的对象选择新的副本位置,然后发给主副本所在的OSD。
OSD先设置该对象“不可修改”,然后分块读取该对象的内容发给MDS选择的目的磁盘,直到完整创建新的从副本。
OSD向MDS报告副本创建成功,MDS修改对象副本信息。
OSD本地更新副本的状态,如果对象副本全部可用,从内存中删除该对象信息。
Claims (3)
1.一种对象存储系统的对象存放策略和访问方法,其特征在于:
存放策略如下:
A、采用多副本的存储方式保存对象,同一对象的不同副本存储在不同的OSD上;
B、设定同一对象的一个副本为主副本,所有的修改操作都发给主副本;
C、在MDS中保存对象的副本可用性信息;
D、磁盘或OSD失效时,通过其他副本将对象修复;
访问方法包括外部数据交互过程和内部数据交互过程:
所述外部数据交互过程是指用户通过客户端与系统进行数据读写,客户端提供通用文件系统接口,用户使用时与使用本地文件系统没有区别;
所述内部数据交互过程是指客户端向MDS获取对象的存储信息及副本信息,读操作选择可用副本发送读请求,写操作向主副本发送写请求;OSD响应客户端请求,读操作读取本地对象信息返回客户端,写操作进行本地写对象,同时将写信息发给其他可用的从副本,主副本收集到所有的写结果后,回应客户端。
2.如权利要求1所述一种对象存储系统的对象存放策略和访问方法,其特征在于:所述步骤D中的修复过程如下:
磁盘失效修复过程:
客户端写主副本时,如果从副本磁盘失效或坏道,使得写从副本失败,主副本向MDS报告副本丢失,同时主副本所在的OSD记录该对象的副本信息,之后的写操作不再向失效的副本发送。
如果是主副本所在的磁盘失效或坏道,主副本本身写失败,主副本收集完所有的从副本写结果,然后向MDS申请换主,换主成功后,删除本地的对象记录,回应客户端,对象已换主。
OSD失效修复过程:
客户端写主副本时,如果主副本所在的OSD单点故障,客户端向MDS申请换上,MDS为对象选择新的主副本,客户端向新的主副本发送写操作。
主副本向从副本发送写操作时,从副本所在的OSD单点故障,则主副本向MDS报告对象丢失,回应客户端写结果。
3.如权利要求1所述一种对象存储系统的对象存放策略和访问方法,其特征在于:所述MDS中保存了所有对象的状态信息,通过MDS能够获取所有丢失副本的对象,为这些对象选择新副本的存储位置并将这些对象通过分批或全部发给对象主副本所在的OSD,由OSD负责为对象创建新的从副本,创建新副本的过程中,阻止新的修改操作,同时在修复之前同步所有客户端缓存并在修复过程中不允许客户端缓存MDS的信息,OSD每修复完一个对象,向MDS报告该对象的最新副本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010536485 CN102023816A (zh) | 2010-11-04 | 2010-11-04 | 一种对象存储系统的对象存放策略和访问方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010536485 CN102023816A (zh) | 2010-11-04 | 2010-11-04 | 一种对象存储系统的对象存放策略和访问方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102023816A true CN102023816A (zh) | 2011-04-20 |
Family
ID=43865149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010536485 Pending CN102023816A (zh) | 2010-11-04 | 2010-11-04 | 一种对象存储系统的对象存放策略和访问方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102023816A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102368222A (zh) * | 2011-10-25 | 2012-03-07 | 曙光信息产业(北京)有限公司 | 一种多副本存储系统在线修复的方法 |
CN102368267A (zh) * | 2011-10-25 | 2012-03-07 | 曙光信息产业(北京)有限公司 | 一种维护分布式系统中副本一致性的方法 |
CN102984280A (zh) * | 2012-12-18 | 2013-03-20 | 北京工业大学 | 针对社交类云存储网络应用的数据备份系统和方法 |
CN103034673A (zh) * | 2011-09-28 | 2013-04-10 | 歌乐株式会社 | 对象数据传送系统和方法、服务器装置以及客户机装置 |
CN103544081A (zh) * | 2013-10-23 | 2014-01-29 | 曙光信息产业(北京)有限公司 | 双元数据服务器的管理方法和装置 |
CN108235751A (zh) * | 2017-12-18 | 2018-06-29 | 华为技术有限公司 | 识别对象存储设备亚健康的方法、装置和数据存储系统 |
CN112346667A (zh) * | 2021-01-07 | 2021-02-09 | 广东睿江云计算股份有限公司 | 一种ceph存储osd读均衡方法及其系统 |
CN112468601A (zh) * | 2021-02-03 | 2021-03-09 | 柏科数据技术(深圳)股份有限公司 | 一种分布式存储系统的数据同步方法、访问方法及系统 |
CN112783843A (zh) * | 2020-12-31 | 2021-05-11 | 北京聚云科技有限公司 | 数据读取方法、装置及电子设备 |
CN116561089A (zh) * | 2023-07-10 | 2023-08-08 | 成都泛联智存科技有限公司 | 数据同步方法、装置、客户端和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040215589A1 (en) * | 2003-04-23 | 2004-10-28 | International Business Machines Corporation | Storage system class distinction cues for run-time data management |
US20070260806A1 (en) * | 2006-05-08 | 2007-11-08 | Daisuke Kito | Storage system |
CN101095116A (zh) * | 2004-11-05 | 2007-12-26 | 数据机器人技术公司 | 允许各种规模存储装置的动态可扩展和可收缩的容错存储系统和方法 |
CN101706805A (zh) * | 2009-10-30 | 2010-05-12 | 中国科学院计算技术研究所 | 对象存储方法及其系统 |
-
2010
- 2010-11-04 CN CN 201010536485 patent/CN102023816A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040215589A1 (en) * | 2003-04-23 | 2004-10-28 | International Business Machines Corporation | Storage system class distinction cues for run-time data management |
CN101095116A (zh) * | 2004-11-05 | 2007-12-26 | 数据机器人技术公司 | 允许各种规模存储装置的动态可扩展和可收缩的容错存储系统和方法 |
US20070260806A1 (en) * | 2006-05-08 | 2007-11-08 | Daisuke Kito | Storage system |
CN101706805A (zh) * | 2009-10-30 | 2010-05-12 | 中国科学院计算技术研究所 | 对象存储方法及其系统 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034673A (zh) * | 2011-09-28 | 2013-04-10 | 歌乐株式会社 | 对象数据传送系统和方法、服务器装置以及客户机装置 |
CN102368222A (zh) * | 2011-10-25 | 2012-03-07 | 曙光信息产业(北京)有限公司 | 一种多副本存储系统在线修复的方法 |
CN102368267A (zh) * | 2011-10-25 | 2012-03-07 | 曙光信息产业(北京)有限公司 | 一种维护分布式系统中副本一致性的方法 |
CN102984280A (zh) * | 2012-12-18 | 2013-03-20 | 北京工业大学 | 针对社交类云存储网络应用的数据备份系统和方法 |
CN102984280B (zh) * | 2012-12-18 | 2015-05-20 | 北京工业大学 | 针对社交类云存储网络应用的数据备份系统和方法 |
CN103544081A (zh) * | 2013-10-23 | 2014-01-29 | 曙光信息产业(北京)有限公司 | 双元数据服务器的管理方法和装置 |
CN103544081B (zh) * | 2013-10-23 | 2015-08-12 | 曙光信息产业(北京)有限公司 | 双元数据服务器的管理方法和装置 |
WO2019119212A1 (zh) * | 2017-12-18 | 2019-06-27 | 华为技术有限公司 | 识别osd亚健康的方法、装置和数据存储系统 |
CN108235751A (zh) * | 2017-12-18 | 2018-06-29 | 华为技术有限公司 | 识别对象存储设备亚健康的方法、装置和数据存储系统 |
CN108235751B (zh) * | 2017-12-18 | 2020-04-14 | 华为技术有限公司 | 识别对象存储设备亚健康的方法、装置和数据存储系统 |
US11320991B2 (en) | 2017-12-18 | 2022-05-03 | Huawei Technologies Co., Ltd. | Identifying sub-health object storage devices in a data storage system |
CN112783843A (zh) * | 2020-12-31 | 2021-05-11 | 北京聚云科技有限公司 | 数据读取方法、装置及电子设备 |
CN112346667A (zh) * | 2021-01-07 | 2021-02-09 | 广东睿江云计算股份有限公司 | 一种ceph存储osd读均衡方法及其系统 |
CN112468601A (zh) * | 2021-02-03 | 2021-03-09 | 柏科数据技术(深圳)股份有限公司 | 一种分布式存储系统的数据同步方法、访问方法及系统 |
CN116561089A (zh) * | 2023-07-10 | 2023-08-08 | 成都泛联智存科技有限公司 | 数据同步方法、装置、客户端和计算机可读存储介质 |
CN116561089B (zh) * | 2023-07-10 | 2023-09-19 | 成都泛联智存科技有限公司 | 数据同步方法、装置、客户端和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102023816A (zh) | 一种对象存储系统的对象存放策略和访问方法 | |
US9703504B2 (en) | Storage system, recording medium storing data rebalancing program, and data rebalancing method | |
CN105324770B (zh) | 有效读出副本 | |
CN105549905A (zh) | 一种多虚拟机访问分布式对象存储系统的方法 | |
CN104111804B (zh) | 一种分布式文件系统 | |
CN104618482B (zh) | 访问云数据的方法、服务器、传统存储设备、系统 | |
CN100583096C (zh) | 管理数据删除的方法 | |
CN102611745B (zh) | 文件在线迁移方法、装置和系统 | |
CN104050216B (zh) | 用于定制化资源分配的文件系统管理器 | |
JP2019519025A (ja) | 分散システムにおける範囲の分割および移動 | |
CN103870202B (zh) | 一种块设备的分布式存储方法和系统 | |
CN106021381A (zh) | 一种云存储服务系统的数据访问/存储方法及装置 | |
CN102136003A (zh) | 大规模分布式存储系统 | |
CN107798130A (zh) | 一种分布式存储的快照方法 | |
US20210240578A1 (en) | Data backup method, apparatus, and system | |
CN104902009B (zh) | 一种基于可擦除编码和链式备份的分布式存储系统 | |
EP3076307A1 (en) | Method and device for responding to a request, and distributed file system | |
CN103620580A (zh) | 用于数据副本的迁移的系统和方法 | |
US20120042130A1 (en) | Data Storage System | |
CN102598020A (zh) | 用于改进的数据去重的装置、系统及方法 | |
CN105528368A (zh) | 一种数据库迁移方法及装置 | |
CN102662992A (zh) | 一种海量小文件的存储、访问方法及装置 | |
US20130297969A1 (en) | File management method and apparatus for hybrid storage system | |
CN103516549B (zh) | 一种基于共享对象存储的文件系统元数据日志机制 | |
CN104020961A (zh) | 分布式数据存储方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110420 |