CN105549915A - 磁盘坏块隔离方法及系统 - Google Patents

磁盘坏块隔离方法及系统 Download PDF

Info

Publication number
CN105549915A
CN105549915A CN201510993850.0A CN201510993850A CN105549915A CN 105549915 A CN105549915 A CN 105549915A CN 201510993850 A CN201510993850 A CN 201510993850A CN 105549915 A CN105549915 A CN 105549915A
Authority
CN
China
Prior art keywords
obj ect
ect file
file
disk
bad block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510993850.0A
Other languages
English (en)
Inventor
杨鹏
康撼宇
姜国梁
季旻
郭照斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State owned Assets Management Co., Ltd.
Dawning Information Industry Beijing Co Ltd
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd, Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201510993850.0A priority Critical patent/CN105549915A/zh
Publication of CN105549915A publication Critical patent/CN105549915A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种磁盘坏块隔离方法及系统,包括:数据服务器读取一个底层的对象文件时如果发现其对应的磁盘扇区损坏,则将该对象文件移动到一个特定的坏块目录中,然后由元数据服务器主导,借助分布式文件系统中的冗余数据,在该分布式文件系统的其他位置重建该对象文件。由于数据服务器将包含坏块的对象文件移动到坏块目录,而不是直接删除,于是该坏块不会被再次使用,从而避免了磁盘控制器将坏块重映射到磁盘保留区,避免了坏块对磁盘性能和整个分布式文件系统性能的影响。

Description

磁盘坏块隔离方法及系统
技术领域
本发明涉及磁盘存储技术领域,尤其涉及磁盘坏块隔离方法及系统。
背景技术
图1示出了分布式文件系统的结构示意图,从中可见,分布式文件系统一般包含客户端,元数据服务器和数据服务器,客户端负责文件数据访问接口的制定,元数据服务器处理文件的布局及属性,数据服务器存储文件的数据内容。
对于分布式文件系统,可以存储海量数据是其最主要的特征,于是分布式文件系统通常配置了较多的数据服务器,数据服务器上通常配置了大量的磁盘,于是磁盘中出现坏块的概率也相应的提高。
磁盘的实际扇区数通常比磁盘的容量要大,磁盘控制器将磁盘内道的一些扇区保留下来作为磁盘保留区。当读操作访问一个磁盘扇区时,如果发现该扇区损坏,则该读操作失败,磁盘控制器将该扇区置为pendingsector(等待重映射的扇区),后续如果有写操作访问该扇区,则磁盘磁盘控制器将该扇区映射到磁盘保留区。
磁盘控制器的这种重映射操作可以降低写操作失败的概率,但是却破坏了数据在磁盘物理位置上的连续性,增加了磁盘寻道的开销,降低了磁盘和分布式文件系统的性能。此外,由于磁盘保留区位于访问速度较低的内道,于是对磁盘和分布式文件系统的影响又被进一步放大。
发明内容
本发明实施例提出了解决分布式文件系统中磁盘重映射操作会导致磁盘性能降低的问题的技术方案。
在一个方面,本发明实施例提供了一种磁盘坏块隔离方法,用于包括数据服务器和元数据服务器的分布式文件系统中,包括:
数据服务器读取底层对象文件时若发现存储所述对象文件的磁盘扇区已损坏,则将所述对象文件移动到特定的坏块目录中;
所述元数据服务器利用所述对象文件对应的冗余数据,在所述分布式文件系统的其他位置重建所述对象文件。
在另一个方面,本发明实施例提供了一种磁盘坏块隔离系统,用于包括数据服务器和元数据服务器的分布式文件系统中,包括:
对象文件读取模块,设置在所述数据服务器中,用于在读取底层对象文件时若发现存储所述对象文件的磁盘扇区已损坏,则将所述对象文件移动到特定的坏块目录中;
对象文件重建模块,设置在所述元数据服务器中,用于利用所述对象文件对应的冗余数据,在所述分布式文件系统的其他位置重建所述对象文件。
有益效果如下:
当前分布式文件系统中磁盘重映射操作会导致磁盘性能降低的问题,由于本发明实施例中,数据服务器读取一个底层的对象文件时如果发现其对应的磁盘扇区损坏,则将该对象文件移动到一个特定的坏块目录中,然后由元数据服务器主导,借助分布式文件系统中的冗余数据,在该分布式文件系统的其他位置重建该对象文件。由于数据服务器将包含坏块的对象文件移动到坏块目录,而不是直接删除,于是该坏块不会被再次使用,从而避免了磁盘控制器将坏块重映射到磁盘保留区,避免了坏块对磁盘性能和整个分布式文件系统性能的影响。
附图说明
下面将参照附图描述本发明的具体实施例,其中:
图1示出了分布式文件系统的结构示意图;
图2示出了本发明实施例中磁盘坏块隔离方法的流程示意图;
图3示出了本发明实施例中磁盘坏块隔离系统的结构示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。
发明人在发明过程中注意到:分布式文件系统中,磁盘的实际扇区数通常比磁盘的容量要大,磁盘控制器将磁盘内道的一些扇区保留下来作为磁盘保留区。当读操作访问一个磁盘扇区时,如果发现该扇区损坏,则该读操作失败,磁盘控制器将该扇区置为pendingsector(等待重映射的扇区),后续如果有写操作访问该扇区,则磁盘磁盘控制器将该扇区映射到磁盘保留区。磁盘控制器的这种重映射操作可以降低写操作失败的概率,但是却破坏了数据在磁盘物理位置上的连续性,增加了磁盘寻道的开销,降低了磁盘和分布式文件系统的性能。此外,由于磁盘保留区位于访问速度较低的内道,于是对磁盘和分布式文件系统的影响又被进一步放大。
针对上述不足,本发明实施例提出了一种磁盘坏块隔离方法,用于包括数据服务器和元数据服务器的分布式文件系统中,下面进行说明。
图2示出了本发明实施例中磁盘坏块隔离方法的流程示意图,如图所示,包括:
步骤201、客户端向数据服务器发送读操作请求。
步骤202、数据服务器解析客户端的请求,读取底层对象文件,若在读取底层对象文件时若发现存储该对象文件的磁盘扇区已损坏(例如:返回EIO,但是磁盘状态正常),则将该对象文件移动到数据服务器下的一个特定的坏块目录中;
数据服务器将对象文件移动到特定的坏块目录后,不再对所述已损坏的磁盘扇区进行修改操作,从而避免了磁盘控制器将已损坏的磁盘扇区重新映射到磁盘保留区。
步骤203、数据服务器向元数据服务器登记存储该对象文件的磁盘扇区已损坏。
步骤204、元数据服务器向存储该对象文件对应的冗余数据的数据服务器发送数据获取请求,利用该对象文件对应的冗余数据,如副本形式的冗余数据或纠删码(Erasurecode)形式的冗余数据,在分布式文件系统的其他位置重建该对象文件。
本步骤中,若该对象文件对应的冗余数据为副本形式的冗余数据,则通过将副本拷贝到分布式系统的其他位置重建该对象文件;若该对象文件对应的冗余数据为纠删码形式的冗余数据,则通过所述对象文件的冗余数据重建已损坏的部分数据。
相对于传统的做法,本发明中,数据服务器读取一个底层的对象文件时如果发现其对应的磁盘扇区损坏,则将该对象文件移动到一个特定的坏块目录中,并向元数据服务器报送坏块对象信息,然后由元数据服务器主导,借助分布式文件系统中的冗余数据,在该分布式文件系统的其他位置重建该对象文件。由于数据服务器将包含坏块的对象文件移动到坏块目录,而不是直接删除,于是该坏块不会被再次使用,可以避免磁盘控制器将坏块重映射到磁盘保留区,避免坏块对磁盘性能和整个分布式文件系统性能的影响。
基于同一发明构思,本发明实施例中还提供了一种磁盘坏块隔离系统,用于包括数据服务器和元数据服务器的分布式文件系统中。
图3示出了本发明实施例中分布式文件系统的结构示意图,如图所示,本发明实施例的磁盘坏块隔离系统可以包括:
对象文件读取模块,设置在分布式文件系统的数据服务器中,用于在读取底层对象文件时若发现存储所述对象文件的磁盘扇区已损坏,则将对象文件移动到特定的坏块目录中,将对象文件移动到特定的坏块目录后,不再对所述已损坏的磁盘扇区进行修改操作;
对象文件重建模块,设置在分布式文件系统的元数据服务器中,用于利用所述对象文件对应的冗余数据,在分布式文件系统的其他位置重建对象文件。
进一步地,对象文件读取模块将对象文件移动到特定的坏块目录的同时,向对象文件重建模块登记存储对象文件的磁盘扇区已损坏。
进一步地,冗余数据为副本形式的冗余数据或纠删码形式的冗余数据,当对象文件对应的冗余数据为副本形式的冗余数据时,则通过将副本拷贝到分布式系统的其他位置重建该对象文件;当对象文件对应的冗余数据为纠删码形式的冗余数据时,则通过所述对象文件的冗余数据重建已损坏的部分数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种磁盘坏块隔离方法,用于包括数据服务器和元数据服务器的分布式文件系统中,其特征在于,包括:
数据服务器读取底层对象文件时若发现存储所述对象文件的磁盘扇区已损坏,则将所述对象文件移动到特定的坏块目录中;
所述元数据服务器利用所述对象文件对应的冗余数据,在所述分布式文件系统的其他位置重建所述对象文件。
2.如权利要求1所述的方法,其特征在于,所述数据服务器将所述对象文件移动到特定的坏块目录的同时,向所述元数据服务器登记存储所述对象文件的磁盘扇区已损坏。
3.如权利要求1所述的方法,其特征在于,所述冗余数据为副本形式的冗余数据或纠删码形式的冗余数据。
4.如权利要求3所述的方法,其特征在于,若所述冗余数据为副本形式的冗余数据,则通过将所述副本拷贝到所述分布式系统的其他位置重建所述对象文件。
5.如权利要求3所述的方法,其特征在于,若所述冗余数据为纠删码形式的冗余数据,则通过所述对象文件的所述冗余数据重建已损坏的部分数据。
6.如权利要求1所述的方法,其特征在于,所述对象文件移动到特定的坏块目录后,所述数据服务器不再对所述已损坏的磁盘扇区进行修改操作。
7.一种磁盘坏块隔离系统,用于包括数据服务器和元数据服务器的分布式文件系统中,其特征在于,包括:
对象文件读取模块,设置在所述数据服务器中,用于在读取底层对象文件时若发现存储所述对象文件的磁盘扇区已损坏,则将所述对象文件移动到特定的坏块目录中;
对象文件重建模块,设置在所述元数据服务器中,用于利用所述对象文件对应的冗余数据,在所述分布式文件系统的其他位置重建所述对象文件。
8.如权利要求7所述的系统,其特征在于,所述对象文件读取模块将所述对象文件移动到特定的坏块目录的同时,向所述对象文件重建模块登记存储所述对象文件的磁盘扇区已损坏。
9.如权利要求7所述的系统,其特征在于,所述冗余数据为副本形式的冗余数据或纠删码形式的冗余数据。
10.如权利要求7所述的系统,其特征在于,所述对象文件读取模块将对象文件移动到特定的坏块目录后,不再对所述已损坏的磁盘扇区进行修改操作。
CN201510993850.0A 2015-12-25 2015-12-25 磁盘坏块隔离方法及系统 Pending CN105549915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510993850.0A CN105549915A (zh) 2015-12-25 2015-12-25 磁盘坏块隔离方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510993850.0A CN105549915A (zh) 2015-12-25 2015-12-25 磁盘坏块隔离方法及系统

Publications (1)

Publication Number Publication Date
CN105549915A true CN105549915A (zh) 2016-05-04

Family

ID=55829118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510993850.0A Pending CN105549915A (zh) 2015-12-25 2015-12-25 磁盘坏块隔离方法及系统

Country Status (1)

Country Link
CN (1) CN105549915A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933515A (zh) * 2017-03-15 2017-07-07 郑州云海信息技术有限公司 一种兼顾读写速度与数据安全的磁盘raid冗余方法
CN111785304A (zh) * 2020-06-23 2020-10-16 厦门市美亚柏科信息股份有限公司 一种希捷硬盘内圈划伤数据恢复方法
CN111949217A (zh) * 2020-08-21 2020-11-17 广东韶钢松山股份有限公司 超融合一体机及其软件定义存储sds处理方法和系统
CN113986120A (zh) * 2021-10-09 2022-01-28 至誉科技(武汉)有限公司 存储设备的坏块管理方法、系统及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933515A (zh) * 2017-03-15 2017-07-07 郑州云海信息技术有限公司 一种兼顾读写速度与数据安全的磁盘raid冗余方法
CN111785304A (zh) * 2020-06-23 2020-10-16 厦门市美亚柏科信息股份有限公司 一种希捷硬盘内圈划伤数据恢复方法
CN111949217A (zh) * 2020-08-21 2020-11-17 广东韶钢松山股份有限公司 超融合一体机及其软件定义存储sds处理方法和系统
CN113986120A (zh) * 2021-10-09 2022-01-28 至誉科技(武汉)有限公司 存储设备的坏块管理方法、系统及计算机可读存储介质
CN113986120B (zh) * 2021-10-09 2024-02-09 至誉科技(武汉)有限公司 存储设备的坏块管理方法、系统及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US11086774B2 (en) Address translation for storage device
US10365983B1 (en) Repairing raid systems at per-stripe granularity
US9880762B1 (en) Compressing metadata blocks prior to writing the metadata blocks out to secondary storage
US8103847B2 (en) Storage virtual containers
CN107038087B (zh) 用于多维独立磁盘冗余阵列的方法和系统
CN107728937B (zh) 一种使用非易失性内存介质的键值对持久存储方法及系统
US8924776B1 (en) Method and system for calculating parity values for multi-dimensional raid
US10852966B1 (en) System and method for creating mapped RAID group during expansion of extent pool
US7788244B2 (en) Method and system for copying a snapshot tree
US11722064B2 (en) Address translation for storage device
US10380025B2 (en) Accessing objects via object references
US9032246B2 (en) Redundant file storage system with parity information
CN111679795B (zh) 无锁并发io处理方法及其装置
KR20120044324A (ko) 불휘발성 메모리에 대한 메타데이터 리던던시 스킴
CN105549915A (zh) 磁盘坏块隔离方法及系统
US9977626B2 (en) Implementing scattered atomic I/O writes
US20080209132A1 (en) Disk snapshot acquisition method
US9256373B1 (en) Invulnerable data movement for file system upgrade
US8019953B2 (en) Method for providing atomicity for host write input/outputs (I/Os) in a continuous data protection (CDP)-enabled volume using intent log
US10409682B1 (en) Distributed RAID system
US20210034462A1 (en) Simple and efficient technique to support disk extents of different sizes for mapped raid
US11263180B2 (en) Method for facilitating recovery from crash of solid-state storage device, method of data synchronization, computer system, and solid-state storage device
US11379326B2 (en) Data access method, apparatus and computer program product
US11467777B1 (en) Method and system for storing data in portable storage devices
US10289491B1 (en) Method and system for implementing multi-dimensional raid in an extensible storage array to optimize performance

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20170126

Address after: 100085 Beijing, Haidian District, northeast Wang West Road, No. 8, Zhongguancun Software Park, building No. 36

Applicant after: Dawning Information Industry (Beijing) Co., Ltd.

Applicant after: Sugon Information Industry Co., Ltd.

Applicant after: State owned Assets Management Co., Ltd.

Address before: 100193 Beijing, Haidian District, northeast Wang West Road, No. 8, Zhongguancun Software Park, building No. 36

Applicant before: Dawning Information Industry (Beijing) Co., Ltd.

Applicant before: Sugon Information Industry Co., Ltd.

RJ01 Rejection of invention patent application after publication

Application publication date: 20160504

RJ01 Rejection of invention patent application after publication