CN113296706A - 一种Ceph系统数据清洗方法、装置、设备及介质 - Google Patents

一种Ceph系统数据清洗方法、装置、设备及介质 Download PDF

Info

Publication number
CN113296706A
CN113296706A CN202110585709.2A CN202110585709A CN113296706A CN 113296706 A CN113296706 A CN 113296706A CN 202110585709 A CN202110585709 A CN 202110585709A CN 113296706 A CN113296706 A CN 113296706A
Authority
CN
China
Prior art keywords
ceph
data
threshold
cleaning
ceph system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110585709.2A
Other languages
English (en)
Other versions
CN113296706B (zh
Inventor
王洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inesa R&d Center
Original Assignee
Inesa R&d Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inesa R&d Center filed Critical Inesa R&d Center
Priority to CN202110585709.2A priority Critical patent/CN113296706B/zh
Publication of CN113296706A publication Critical patent/CN113296706A/zh
Application granted granted Critical
Publication of CN113296706B publication Critical patent/CN113296706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0607Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种Ceph系统数据清洗方法、装置、设备及介质,所述方法包括状态判断步骤和数据清洗步骤,其中,所述状态判断步骤具体为:采集Ceph系统实时状态信息,循环判断当前Ceph系统是否同时满足以下判定条件:负载低于第一阈值;可用内存高于第二阈值;PG所对应的OSD iops低于第三阈值;若是,则启动所述数据清洗步骤,若否,则返回状态判断步骤。与现有技术相比,本发明能够有效减少数据清洗对系统可用性和性能的影响。

Description

一种Ceph系统数据清洗方法、装置、设备及介质
技术领域
本发明属于云计算技术领域,涉及一种分布式存储系统,尤其是涉及一种Ceph系统数据清洗方法、装置、设备及介质。
背景技术
Ceph作为一个分布式存储系统,在云计算行业爆发式增长的背景下,得到了越来越多的应用。Ceph分布式存储采用数据多副本备份机制来保证数据的可靠性。其中,cephPG是一个放置策略组,它是对象的集合,相同PG内的对象都会放到相同的硬盘上,ceph OSD是负责物理存储的进程,一般配置成和磁盘一一对应,一块磁盘启动一个OSD进程。Ceph系统为了维护数据干净和一致性,OSD守护进程可以在PG内清洗对象。
Ceph的数据清洗包括轻清洗和深度清洗两种,轻清洗是指OSD守护进程在PG内和其他OSD的对象副本比较元数据,捕获bugs或者文件系统错误。深度清洗是指OSD守护进程通过逐位比较PG中所有对象的数据执行更深层的清洗。可以发现轻清洗不能发现的硬盘坏扇区。在数据清洗之前,相关的OSD会锁定对象的读写请求。
在传统模式下,Ceph系统数据清洗开始之前会判定所在系统的负载(CPU load)是否超过相关配置的阈值,在负载不超过阈值的情况下即可开启清洗操作,以此来避免Ceph清洗对系统负载的负担,以可能出现的数据清洗错误和卡死。但这种模式考虑因素较少,会较为频繁地启动清洗操作。除此以外,Ceph系统的深度清洗一旦开始,若因为系统原因导致无法结束是没有主动停止的能力的,也就是说PG scrub会持续很长时间,在这期间相关的对象都是被锁死的,这会严重影响Ceph整个存储系统的可用性和性能。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种Ceph系统数据清洗方法、装置、设备及介质,以减少数据清洗对系统可用性和性能的影响。
本发明的目的可以通过以下技术方案来实现:
一种Ceph系统数据清洗方法,包括状态判断步骤和数据清洗步骤,其中,所述状态判断步骤具体为:
采集Ceph系统实时状态信息,循环判断当前Ceph系统是否同时满足以下判定条件:
负载低于第一阈值;
可用内存高于第二阈值;
PG所对应的OSD iops低于第三阈值;
若是,则启动所述数据清洗步骤,若否,则返回状态判断步骤。
进一步地,所述数据清洗步骤包括:
执行数据清洗过程中,实时判断清洗持续时长是否超过第四阈值,若是,则中断数据清洗。
进一步地,所述第一阈值、第二阈值、第三阈值和第四阈值Ceph系统运行环境确定。
进一步地,所述Ceph系统运行环境包括Ceph所在系统的CPU核数、内存大小、硬盘正常情况下的IOPS指标和Ceph系统在该硬件环境下正常运行时的延时性能。
本发明还提供一种Ceph系统数据清洗装置,包括状态判断模块和数据清洗模块,其中,所述状态判断模块包括:
采集单元,用于采集Ceph系统实时状态信息;
判断单元,用于循环判断当前Ceph系统是否同时满足以下判定条件:
负载低于第一阈值;
可用内存高于第二阈值;
PG所对应的OSD iops低于第三阈值;
若是,则产生清洗指令,若否,则产生重新判断指令;
所述数据清洗模块响应所述清洗指令执行数据清洗过程。
进一步地,所述数据清洗模块包括:
监听模块,用于在执行数据清洗过程中,实时判断清洗持续时长是否超过第四阈值,若是,则中断数据清洗。
进一步地,所述第一阈值、第二阈值、第三阈值和第四阈值Ceph系统运行环境确定。
进一步地,所述Ceph系统运行环境包括Ceph所在系统的CPU核数、内存大小、硬盘正常情况下的IOPS指标和Ceph系统在该硬件环境下正常运行时的延时性能
本发明还提供一种电子设备,包括:
一个或多个处理器;
存储器;和
被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述Ceph系统数据清洗方法的指令。
本发明还提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上所述Ceph系统数据清洗方法的指令。
与现有技术相比,本发明具有以下有益效果:
1、本发明在数据清洗是否启动的判定中,同时利用系统的负载、可用内存以及PG所对应的OSD iops进行条件判定,既能够避免系统出现内存抢占、导致部分进程被杀死的情况,又能够避免当前的数据清洗操作卡死、导致相关osd对象长时间被锁定无法读写的情况,消除ceph系统数据清洗的隐患,有效提高了存储系统的可用性和性能。
2、本发明在数据清洗过程中实时监听清洗过程是否超时,进一步减少数据清洗对系统可用性和性能的影响。
3、本发明的设置的各项阈值可以根据Ceph系统运行环境确定,更符合实际运行情况,提高数据清洗准确性和效率。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
参考图1所示,本实施例提供一种Ceph系统数据清洗方法,包括状态判断步骤和数据清洗步骤,其中,所述状态判断步骤具体为:
采集Ceph系统实时状态信息,循环判断当前Ceph系统是否同时满足以下判定条件:负载低于第一阈值osd_scrub_load_threshold;可用内存高于第二阈值osd_scrub_mem_threshold;PG所对应的OSD iops低于第三阈值osd_scrub_iops_threshold;
若是,则启动所述数据清洗步骤,若否,则返回状态判断步骤。
上述数据清洗(PG scrub)方法在负载判定的基础上增加两个判定条件:
a.osd_scrub_mem_threshold阈值判定,判断当前的剩余可用内容是否不低于这个阈值,如果低于这个阈值,在这个情况下开启数据清洗操作则可能导致系统出现内存抢占的情况,会导致部分进程被杀死,影响整个系统的可用性和性能;
b.osd_scrub_iops_threshold阈值判定,判断当前数据清洗pg相关的osd对应的硬盘的IOPS是否高于这个阈值,如果高于这个阈值,标明当前的磁盘处于高速读写的状态中,在这个情况下开启数据清洗操作可能导致当前的数据清洗操作卡死,导致相关osd对象长时间被锁定无法读写,影响存储系统的可用性和性能。
在优选的实施方式中,所述数据清洗步骤包括:在数据清洗过程开启之后,对数据清洗过程的进行监听,实时判断清洗持续时长是否超过第四阈值osd_scrub_time_threshold,若是,则主动中断数据清洗。
上述第一阈值sd_scrub_load_threshold、第二阈值osd_scrub_mem_threshold、第三阈值osd_scrub_iops_threshold和第四阈值osd_scrub_time_threshold可以根据ceph系统的运行环境决定,比如ceph所在系统的cpu核数、内存大小、硬盘正常情况下的iops指标以及ceph系统在该硬件环境下正常运行时的延时性能等。
这几个阈值是根据ceph系统的运行环境决定的,比如ceph所在系统的cpu核数,内存大小,以及硬盘正常情况下的iops指标,以及ceph系统在该硬件环境下正常运行时的延时性能等
参考图1所示,在优选实施方式中,上述数据清洗方法的具体实施过程包括如下步骤:
S1、Scrub定时器开始,启动时间相关判定流程;
S2、判断系统负载是否低于osd_scrub_load_threshold,若是,则执行步骤S3,若否,则执行步骤S5;
S3、判断系统可用内存是否不低于osd_scrub_mem_threshold,若是,则执行步骤S4,若否,则执行步骤S5;
S4、判断系统PG所对应的OSD iops是否低于osd_scrub_iops_threshold,若是,则执行步骤S6,若否,则执行步骤S5;
S5、While循环若干时间后重试,返回步骤S1;
S6、开始PG scrub;
S7、进入实时监听PG scrub进程;
S8、实时判断PG scrub耗时是否超过osd_scrub_time_threshold,若是,则执行步骤S9,若否,则执行步骤S7;
S9、主动中断PG scrub进程;
S10、PG scrub进程正常停止。
基于上述步骤,在数据清洗过程开始之前,假设一个PG对应n个osd进程,这n个osd进程分别分布在n个系统中,读取对应n个osd进程所在系统的当前available memory值为AM1,AM2,…,AMn,读取对应n个osd进程对应硬盘的当前iops值为IO1,IO2,…,IOn。数据清洗开启过程记为函数fstart(pg),数据清洗中断过程记为函数fstop(pg),当前时间记为t,数据清洗开始时间为t0,则:
1.当(min(AM1,AM2,…,AMn)>osd_scrub_mem_threshold)∩(max(IO1,IO2,…,IOn)<osd_scrub_iops_threshold)时,fstart(pg),t0=t
2.当(t-t0)>=sd_scrub_time_threshold时,fstop(pg)
3.其他情况下:等待
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在另一实施例中,提供一种电子设备,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述Ceph系统数据清洗方法的指令。
实施例2
本实施例中,提供一种Ceph系统数据清洗装置,包括状态判断模块和数据清洗模块,其中,所述状态判断模块包括:
采集单元,用于采集Ceph系统实时状态信息;
判断单元,用于循环判断当前Ceph系统是否同时满足以下判定条件:负载低于第一阈值;可用内存高于第二阈值;PG所对应的OSD iops低于第三阈值;
若是,则产生清洗指令,若否,则产生重新判断指令;所述数据清洗模块响应所述清洗指令执行数据清洗过程。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种Ceph系统数据清洗方法,其特征在于,包括状态判断步骤和数据清洗步骤,其中,所述状态判断步骤具体为:
采集Ceph系统实时状态信息,循环判断当前Ceph系统是否同时满足以下判定条件:
负载低于第一阈值;
可用内存高于第二阈值;
PG所对应的OSD iops低于第三阈值;
若是,则启动所述数据清洗步骤,若否,则返回状态判断步骤。
2.根据权利要求1所述的Ceph系统数据清洗方法,其特征在于,所述数据清洗步骤包括:
执行数据清洗过程中,实时判断清洗持续时长是否超过第四阈值,若是,则中断数据清洗。
3.根据权利要求2所述的Ceph系统数据清洗方法,其特征在于,所述第一阈值、第二阈值、第三阈值和第四阈值Ceph系统运行环境确定。
4.根据权利要求3所述的Ceph系统数据清洗方法,其特征在于,所述Ceph系统运行环境包括Ceph所在系统的CPU核数、内存大小、硬盘正常情况下的IOPS指标和Ceph系统在该硬件环境下正常运行时的延时性能。
5.一种Ceph系统数据清洗装置,其特征在于,包括状态判断模块和数据清洗模块,其中,所述状态判断模块包括:
采集单元,用于采集Ceph系统实时状态信息;
判断单元,用于循环判断当前Ceph系统是否同时满足以下判定条件:
负载低于第一阈值;
可用内存高于第二阈值;
PG所对应的OSD iops低于第三阈值;
若是,则产生清洗指令,若否,则产生重新判断指令;
所述数据清洗模块响应所述清洗指令执行数据清洗过程。
6.根据权利要求5所述的Ceph系统数据清洗装置,其特征在于,所述数据清洗模块包括:
监听模块,用于在执行数据清洗过程中,实时判断清洗持续时长是否超过第四阈值,若是,则中断数据清洗。
7.根据权利要求6所述的Ceph系统数据清洗装置,其特征在于,所述第一阈值、第二阈值、第三阈值和第四阈值Ceph系统运行环境确定。
8.根据权利要求7所述的Ceph系统数据清洗装置,其特征在于,所述Ceph系统运行环境包括Ceph所在系统的CPU核数、内存大小、硬盘正常情况下的IOPS指标和Ceph系统在该硬件环境下正常运行时的延时性能。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;和
被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-4任一所述Ceph系统数据清洗方法的指令。
10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-4任一所述Ceph系统数据清洗方法的指令。
CN202110585709.2A 2021-05-27 2021-05-27 一种Ceph系统数据清洗方法、装置、设备及介质 Active CN113296706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110585709.2A CN113296706B (zh) 2021-05-27 2021-05-27 一种Ceph系统数据清洗方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110585709.2A CN113296706B (zh) 2021-05-27 2021-05-27 一种Ceph系统数据清洗方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113296706A true CN113296706A (zh) 2021-08-24
CN113296706B CN113296706B (zh) 2024-04-09

Family

ID=77325574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110585709.2A Active CN113296706B (zh) 2021-05-27 2021-05-27 一种Ceph系统数据清洗方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113296706B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823639A (zh) * 2014-02-19 2014-05-28 曙光信息产业(北京)有限公司 迁移对象的方法和系统
CN108846064A (zh) * 2018-06-06 2018-11-20 南京群顶科技有限公司 基于ceph的动态链式存储集群实现方法
CN109656895A (zh) * 2018-11-28 2019-04-19 平安科技(深圳)有限公司 分布式存储系统、数据写入方法、装置和存储介质
CN110059068A (zh) * 2019-04-11 2019-07-26 厦门网宿有限公司 一种分布式存储系统中的数据校验方法及数据校验系统
CN111930685A (zh) * 2020-09-21 2020-11-13 柏科数据技术(深圳)股份有限公司 基于ceph的元素选择方法、装置、服务器及存储介质
CN112379825A (zh) * 2019-09-24 2021-02-19 北京城建设计发展集团股份有限公司 基于数据特征分池的分布式数据存储方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823639A (zh) * 2014-02-19 2014-05-28 曙光信息产业(北京)有限公司 迁移对象的方法和系统
CN108846064A (zh) * 2018-06-06 2018-11-20 南京群顶科技有限公司 基于ceph的动态链式存储集群实现方法
CN109656895A (zh) * 2018-11-28 2019-04-19 平安科技(深圳)有限公司 分布式存储系统、数据写入方法、装置和存储介质
CN110059068A (zh) * 2019-04-11 2019-07-26 厦门网宿有限公司 一种分布式存储系统中的数据校验方法及数据校验系统
CN112379825A (zh) * 2019-09-24 2021-02-19 北京城建设计发展集团股份有限公司 基于数据特征分池的分布式数据存储方法及装置
CN111930685A (zh) * 2020-09-21 2020-11-13 柏科数据技术(深圳)股份有限公司 基于ceph的元素选择方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN113296706B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
US8627143B2 (en) Dynamically modeling and selecting a checkpoint scheme based upon an application workload
CN109684140B (zh) 一种慢盘检测方法、装置、设备及计算机可读存储介质
US8424016B2 (en) Techniques to manage critical region interrupts
CN109656895B (zh) 分布式存储系统、数据写入方法、装置和存储介质
RU2667033C2 (ru) Системы и способы для обнаружения хостом возможности асинхронного уведомления usb
CN113010275B (zh) 一种中断处理方法和装置
EP3770765A1 (en) Error recovery method and apparatus
CN106155839B (zh) 一种用于备份数据的方法与设备
CN114706708B (zh) 一种用于Linux操作系统的故障分析方法及系统
CN109491592B (zh) 存储设备及其数据写入方法、存储装置
CN102339236B (zh) 侦测可插拔储存装置的方法及电子装置
EP3274839B1 (en) Technologies for root cause identification of use-after-free memory corruption bugs
CN113296706A (zh) 一种Ceph系统数据清洗方法、装置、设备及介质
WO2021068515A1 (zh) 存储系统中数据管理方法和装置
CN117112522A (zh) 并发进程日志管理方法、装置、设备和存储介质
CN109491611B (zh) 一种元数据落盘方法、装置及设备
WO2015057962A1 (en) Concurrently accessing memory
US20040044864A1 (en) Data storage
US20180089012A1 (en) Information processing apparatus for analyzing hardware failure
CN113254482A (zh) 一种业务数据异步存储的方法、系统及介质
CN114138575A (zh) 一种硬盘数据垃圾回收的测试方法、装置、设备及介质
CN111506256B (zh) 减少写入效能变化并防止io阻塞的方法
JP2017201481A (ja) 情報処理装置、情報処理装置の制御方法および情報処理装置の制御プログラム
JP2757648B2 (ja) オンライントランザクションデータ処理システム
TWI840795B (zh) 主機系統及其操作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant