CN107678923A - 一种分布式文件系统消息处理的优化方法 - Google Patents

一种分布式文件系统消息处理的优化方法 Download PDF

Info

Publication number
CN107678923A
CN107678923A CN201710912380.XA CN201710912380A CN107678923A CN 107678923 A CN107678923 A CN 107678923A CN 201710912380 A CN201710912380 A CN 201710912380A CN 107678923 A CN107678923 A CN 107678923A
Authority
CN
China
Prior art keywords
mon
message
transmission monitor
data
states
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710912380.XA
Other languages
English (en)
Inventor
李彦博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710912380.XA priority Critical patent/CN107678923A/zh
Publication of CN107678923A publication Critical patent/CN107678923A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3041Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Abstract

本发明公开了一种分布式文件系统消息处理的优化方法,该方法包括:步骤1、主监控器MON收到消息后,比较这次消息中的PG状态是否与上次接收的消息中的PG状态一致;步骤2、若PG状态不一致,主监控器MON记录这次消息内容中的PG状态,把向对象存储设备OSD回复消息的操作符加入队列中,等待议案;步骤3、主监控器MON继续接收消息,重复步骤1至步骤2;步骤4、当到达定时器的预设定时时间时,定时器触发议案流程,统一进行数据同步及数据落盘。该方法实现降低磁盘IO的压力。

Description

一种分布式文件系统消息处理的优化方法
技术领域
本发明涉及分布式文件系统技术领域,特别是涉及一种分布式文件系统消息处理的优化方法。
背景技术
目前,PGstat消息是OSD与MON之间的正常通信消息,负责维持MON和OSD之间,关于PG状态的一致性。
OSD定期向MON发送消息,上报自己的PG状态,MON收到消息的处理流程包括:1、MON收到消息后,比较这次消息内容中的PG状态是否与上次一致,一致则给OSD回复消息;2、消息内容中PG状态与上次不一致,说明PG状态进行了变更,需要更改保存的OSD的状态,在这里先记录PG状态,并且把回复消息的操作符加入队列中,等待议案;3、处理函数返回true,提案定时时间到(定时时间为1s),开始议案;4、主MON将PGmap发送给备用MON,备用MON收到数据后,更新PGmap,并给主MON发送回复消息;5、主MON收到所有的备用MON的回复确认后,开始通知所有备用MON进行数据落盘动作;6、数据落盘动作完成后,触发回复消息操作符的队列的线程,进行回复OSD的动作。流程图如图1所示。
在大规模集群的情况下,集群中OSD数量众多,MON会频繁的收到OSD发来的PGstat消息,然后执行以上的处理流程,在MON所在的磁盘IO忙碌时,磁盘IO压力过大,数据落盘的动作变慢,这样容易引起MON处理消息阻塞的问题,进而引发消息处理超时,从而引发更多问题使得集群异常。因此如何降低磁盘IO的压力是亟待解决的问题。
发明内容
本发明的目的是提供一种分布式文件系统消息处理的优化方法,以实现降低磁盘IO的压力。
为解决上述技术问题,本发明提供一种分布式文件系统消息处理的优化方法,该方法包括:
步骤1、主监控器MON收到消息后,比较这次消息中的PG状态是否与上次接收的消息中的PG状态一致;
步骤2、若PG状态不一致,主监控器MON记录这次消息内容中的PG状态,把向对象存储设备OSD回复消息的操作符加入队列中,等待议案;
步骤3、主监控器MON继续接收消息,重复步骤1至步骤2;
步骤4、当到达定时器的预设定时时间时,定时器触发议案流程,统一进行数据同步及数据落盘。
优选的,所述主监控器MON收到消息后,比较这次消息中的PG状态是否与上次接收的消息中的PG状态一致之后,还包括:
若PG状态一致,主监控器MON给对象存储设备OSD回复消息。
优选的,所述当到达定时器的预设定时时间时,定时器触发议案流程,统一进行数据同步及数据落盘,包括:
当到达定时器的预设定时时间时,定时器触发议案流程;
主监控器MON通知备用监控器MON对PGmap数据进行同步更新;
备用监控器MON对PGmap数据完成同步更新后,向主监控器回复已完成同步更新;
主监控器MON接收到所有备用监控器MON的回复后,通知所有备用监控器MON进行数据落盘动作;
数据落盘动作完成后,主监控器MON触发队列的处理线程,逐个向对象存储设备OSD回复消息。
优选的,所述主监控器MON记录这次消息内容中的PG状态,把向对象存储设备OSD回复消息的操作符加入队列中,等待议案之后,还包括:
函数处理返回false,不触发议案。
优选的,所述主监控器MON通知备用监控器MON对PGmap数据进行同步更新之前,还包括:
主监控器MON将PGmap数据发送给备用监控器MON。
优选的,所述主监控器MON通知备用监控器MON对PGmap数据进行同步更新之后,还包括:
备用监控器更新PGmap数据。
优选的,主监控器MON收到的消息为PGstat消息。
本发明所提供的一种分布式文件系统消息处理的优化方法,步骤1、主监控器MON收到消息后,比较这次消息中的PG状态是否与上次接收的消息中的PG状态一致;步骤2、若PG状态不一致,主监控器MON记录这次消息内容中的PG状态,把向对象存储设备OSD回复消息的操作符加入队列中,等待议案;步骤3、主监控器MON继续接收消息,重复步骤1至步骤2;步骤4、当到达定时器的预设定时时间时,定时器触发议案流程,统一进行数据同步及数据落盘。可见,该方法增加数据同步定时器触发机制,不在逐条触发,采用批量定时触发机制,定时批量数据同步、落盘,减少MON资源消耗,减轻MON所在磁盘的IO压力,提高MON处理消息效率,降低MON消息处理阻塞的概率。即采用消息合并处理的机制,对于每一个消息,没必要每次都进行数据同步、落盘的动作,在收到消息的时候先记录状态,然后待消息足够多的时候,在统一进行数据同步、数据落盘,这样就能极大的减轻磁盘IO的压力,提高MON的处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为现有技术中分布式文件系统消息处理的流程图;
图2为本发明所提供的一种分布式文件系统消息处理的优化方法的流程图;
图3为监控器MON收到消息的具体处理流程图。
具体实施方式
本发明的核心是提供一种分布式文件系统消息处理的优化方法,以实现降低磁盘IO的压力。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
术语解释:
MON:monitor,表示存储系统的监控器;
OSD:Object-based Storage Device,表示对象存储设备。
请参考图2,图2为本发明所提供的一种分布式文件系统消息处理的优化方法的流程图,该方法包括:
步骤1、主监控器MON收到消息后,比较这次消息中的PG状态是否与上次接收的消息中的PG状态一致;
步骤2、若PG状态不一致,主监控器MON记录这次消息内容中的PG状态,把向对象存储设备OSD回复消息的操作符加入队列中,等待议案;
步骤3、主监控器MON继续接收消息,重复步骤1至步骤2;
步骤4、当到达定时器的预设定时时间时,定时器触发议案流程,统一进行数据同步及数据落盘。
可见,该方法增加数据同步定时器触发机制,不在逐条触发,采用批量定时触发机制,定时批量数据同步、落盘,减少MON资源消耗,减轻MON所在磁盘的IO压力,提高MON处理消息效率,降低MON消息处理阻塞的概率。即采用消息合并处理的机制,对于每一个消息,没必要每次都进行数据同步、落盘的动作,在收到消息的时候先记录状态,然后待消息足够多的时候,在统一进行数据同步、数据落盘,这样就能极大的减轻磁盘IO的压力,提高MON的处理效率。
基于上述方法,进一步的,步骤1中,主监控器MON收到消息后,比较这次消息中的PG状态是否与上次接收的消息中的PG状态一致之后,还包括:若PG状态一致,主监控器MON给对象存储设备OSD回复消息。
其中,主监控器MON收到的消息为PGstat消息。
进一步的,步骤2中,主监控器MON记录这次消息内容中的PG状态,把向对象存储设备OSD回复消息的操作符加入队列中,等待议案之后,还包括:函数处理返回false,不触发议案。
具体的,步骤4具体采用以下步骤实现:
S1:当到达定时器的预设定时时间时,定时器触发议案流程;
S2:主监控器MON通知备用监控器MON对PGmap数据进行同步更新;
S3:备用监控器MON对PGmap数据完成同步更新后,向主监控器回复已完成同步更新;
S4:主监控器MON接收到所有备用监控器MON的回复后,通知所有备用监控器MON进行数据落盘动作;
S5:数据落盘动作完成后,主监控器MON触发队列的处理线程,逐个向对象存储设备OSD回复消息。
其中,步骤S2中,主监控器MON通知备用监控器MON对PGmap数据进行同步更新之前,还包括:主监控器MON将PGmap数据发送给备用监控器MON。
其中,步骤S2中,所述主监控器MON通知备用监控器MON对PGmap数据进行同步更新之后,还包括:备用监控器更新PGmap数据。
本方法中,MON对于收到的PGstat消息,采用合并处理的方案,降低数据同步、落盘的操作,这样能够有效的降低磁盘IO的压力,提高MON的处理效率。本方法主要针对分布式文件系统中,OSD定期的上报MON自己的状态。在大规模集群中,该消息上报非常频繁,增加了MON的处理压力,合并该消息的处理,减少主MON与备用MON之间的数据同步次数,从而减轻MON的处理压力,提高MON的处理效率。即本方法为了减轻频繁同步主MON与备用MON所产生的资源消耗,在对PGstat这类消息处理时采用定时同步的策略,先记录更新状态,定时批量同步更新。
基于本方法,具体的消息处理流程如下:
(1)MON收到消息后,比较这次消息内容中的PG状态是否与上次一致,一致则给OSD回复消息;
(2)消息内容中PG状态与上次不一致,说明PG状态进行了变更,需要更改保存的OSD的状态,在这里先记录PG状态,并且把回复消息的操作符加入队列中,等待议案。该函数处理返回false,不触发议案;
(3)定时器线程定时时间到,触发议案流程;
(4)主MON将PGmap发送给备用MON,备用MON收到数据后,更新PGmap,并给主MON发送回复消息;
(5)主MON收到所有的备用MON的回复确认后,开始通知所有备用MON进行数据落盘动作;
(6)数据落盘动作完成后,触发回复消息操作符的队列的线程,逐个回复OSD消息。请参考图3,图3为监控器MON收到消息的具体处理流程图。
原有的消息处理流程,对于每一次OSD的状态更改,都需要MON进行数据同步、落盘的操作,在大集群规模下,极大的消耗MON的资源,磁盘IO压力过大,造成MON处理阻塞。本方法提供的消息处理流程中,定时批量数据同步、落盘,减少MON资源消耗,减轻MON所在磁盘IO压力,提高了MON处理效率。
其中,MON收到pgstat消息后,由主MON进行处理,MON先保存pgstat消息携带的待更新状态,保存好待回复OSD的消息,然后返回false使得MON认为无需进行数据同步,之后收到的PGstat消息都做此处理;MON启动的时候,PGmonitor模块启动定时器线程,在定时器线程中增加数据同步的触发,同步完成后对OSD进行消息回复。本方法增加数据同步定时器触发机制,不在逐条触发,采用批量定时触发机制,减轻MON所在磁盘的IO压力,提高MON处理消息效率,降低MON消息处理阻塞的概率。
本发明采用消息合并处理的机制,对于每一个PGstat消息,没必要每次都进行数据同步、落盘的动作,在收到消息的时候先记录状态,然后待消息足够多的时候,在统一进行数据同步、数据落盘,这样就能极大的减轻磁盘IO的压力,提高MON的处理效率。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种分布式文件系统消息处理的优化方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (7)

1.一种分布式文件系统消息处理的优化方法,其特征在于,包括:
步骤1、主监控器MON收到消息后,比较这次消息中的PG状态是否与上次接收的消息中的PG状态一致;
步骤2、若PG状态不一致,主监控器MON记录这次消息内容中的PG状态,把向对象存储设备OSD回复消息的操作符加入队列中,等待议案;
步骤3、主监控器MON继续接收消息,重复步骤1至步骤2;
步骤4、当到达定时器的预设定时时间时,定时器触发议案流程,统一进行数据同步及数据落盘。
2.如权利要求1所述的方法,其特征在于,所述主监控器MON收到消息后,比较这次消息中的PG状态是否与上次接收的消息中的PG状态一致之后,还包括:
若PG状态一致,主监控器MON给对象存储设备OSD回复消息。
3.如权利要求1所述的方法,其特征在于,所述当到达定时器的预设定时时间时,定时器触发议案流程,统一进行数据同步及数据落盘,包括:
当到达定时器的预设定时时间时,定时器触发议案流程;
主监控器MON通知备用监控器MON对PGmap数据进行同步更新;
备用监控器MON对PGmap数据完成同步更新后,向主监控器回复已完成同步更新;
主监控器MON接收到所有备用监控器MON的回复后,通知所有备用监控器MON进行数据落盘动作;
数据落盘动作完成后,主监控器MON触发队列的处理线程,逐个向对象存储设备OSD回复消息。
4.如权利要求1所述的方法,其特征在于,所述主监控器MON记录这次消息内容中的PG状态,把向对象存储设备OSD回复消息的操作符加入队列中,等待议案之后,还包括:
函数处理返回false,不触发议案。
5.如权利要求3所述的方法,其特征在于,所述主监控器MON通知备用监控器MON对PGmap数据进行同步更新之前,还包括:
主监控器MON将PGmap数据发送给备用监控器MON。
6.如权利要求5所述的方法,其特征在于,所述主监控器MON通知备用监控器MON对PGmap数据进行同步更新之后,还包括:
备用监控器更新PGmap数据。
7.如权利要求1至6中任意一项所述的方法,其特征在于,主监控器MON收到的消息为PGstat消息。
CN201710912380.XA 2017-09-29 2017-09-29 一种分布式文件系统消息处理的优化方法 Pending CN107678923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710912380.XA CN107678923A (zh) 2017-09-29 2017-09-29 一种分布式文件系统消息处理的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710912380.XA CN107678923A (zh) 2017-09-29 2017-09-29 一种分布式文件系统消息处理的优化方法

Publications (1)

Publication Number Publication Date
CN107678923A true CN107678923A (zh) 2018-02-09

Family

ID=61138719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710912380.XA Pending CN107678923A (zh) 2017-09-29 2017-09-29 一种分布式文件系统消息处理的优化方法

Country Status (1)

Country Link
CN (1) CN107678923A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509157A (zh) * 2018-04-13 2018-09-07 郑州云海信息技术有限公司 一种应用于分布式文件系统的数据均衡方法及装置
CN109407983A (zh) * 2018-10-08 2019-03-01 郑州云海信息技术有限公司 一种分布式文件存储系统的加载磁盘方法
CN110231913A (zh) * 2018-03-05 2019-09-13 中兴通讯股份有限公司 数据处理方法、装置及设备、计算机可读存储介质
CN111767119A (zh) * 2020-06-30 2020-10-13 云袭网络技术河北有限公司 一种不触发系统保护的内核挂钩方法
CN112416595A (zh) * 2020-11-30 2021-02-26 苏州浪潮智能科技有限公司 一种大规模集群减轻主监视器压力的方法及设备
CN112597243A (zh) * 2020-12-22 2021-04-02 新华三大数据技术有限公司 Ceph集群中加速同步状态的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582920A (zh) * 2009-06-09 2009-11-18 中兴通讯股份有限公司 一种分布式文件系统中校验和同步数据块的方法及装置
CN105323289A (zh) * 2014-08-01 2016-02-10 上海博达数据通信有限公司 一种基于分布式的数据同步方法
US20160077936A1 (en) * 2014-09-12 2016-03-17 Facebook, Inc. Failover mechanism in a distributed computing system
CN107436735A (zh) * 2017-07-28 2017-12-05 郑州云海信息技术有限公司 一种分布式文件系统中存储单元状态更新方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582920A (zh) * 2009-06-09 2009-11-18 中兴通讯股份有限公司 一种分布式文件系统中校验和同步数据块的方法及装置
CN105323289A (zh) * 2014-08-01 2016-02-10 上海博达数据通信有限公司 一种基于分布式的数据同步方法
US20160077936A1 (en) * 2014-09-12 2016-03-17 Facebook, Inc. Failover mechanism in a distributed computing system
CN107436735A (zh) * 2017-07-28 2017-12-05 郑州云海信息技术有限公司 一种分布式文件系统中存储单元状态更新方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李翔: "Ceph分布式文件系统的研究及性能测试", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110231913A (zh) * 2018-03-05 2019-09-13 中兴通讯股份有限公司 数据处理方法、装置及设备、计算机可读存储介质
CN108509157A (zh) * 2018-04-13 2018-09-07 郑州云海信息技术有限公司 一种应用于分布式文件系统的数据均衡方法及装置
CN109407983A (zh) * 2018-10-08 2019-03-01 郑州云海信息技术有限公司 一种分布式文件存储系统的加载磁盘方法
CN109407983B (zh) * 2018-10-08 2021-09-28 郑州云海信息技术有限公司 一种分布式文件存储系统的加载磁盘方法
CN111767119A (zh) * 2020-06-30 2020-10-13 云袭网络技术河北有限公司 一种不触发系统保护的内核挂钩方法
CN111767119B (zh) * 2020-06-30 2023-05-23 云袭网络技术河北有限公司 一种不触发系统保护的内核挂钩方法
CN112416595A (zh) * 2020-11-30 2021-02-26 苏州浪潮智能科技有限公司 一种大规模集群减轻主监视器压力的方法及设备
CN112416595B (zh) * 2020-11-30 2022-12-27 苏州浪潮智能科技有限公司 一种大规模集群减轻主监视器压力的方法及设备
CN112597243A (zh) * 2020-12-22 2021-04-02 新华三大数据技术有限公司 Ceph集群中加速同步状态的方法及装置
CN112597243B (zh) * 2020-12-22 2022-05-27 新华三大数据技术有限公司 Ceph集群中加速同步状态的方法及装置

Similar Documents

Publication Publication Date Title
CN107678923A (zh) 一种分布式文件系统消息处理的优化方法
CN103645904B (zh) 一种接口调用的缓存实现方法
CN104731956A (zh) 同步数据的方法、系统及相关数据库
US9836516B2 (en) Parallel scanners for log based replication
CN103870393B (zh) 缓存管理方法及系统
CN104734915A (zh) 一种复合多进程多线程的多网络并发动态仿真方法
CN104281489B (zh) Soa架构下的多线程请求方法及系统
CN104866528B (zh) 多平台数据采集方法及系统
CN106528853A (zh) 数据交互管理装置、跨库数据交互处理装置及方法
CN110647392A (zh) 一种基于容器集群的智能弹性伸缩方法
CN107436735A (zh) 一种分布式文件系统中存储单元状态更新方法
CN107357630A (zh) 一种实现虚拟机同步的方法、装置和存储介质
CN110474845A (zh) 流表项淘汰方法及相关装置
CN109358873A (zh) 一种应用程序更新方法、存储介质和终端设备
CN108924007A (zh) 通信运营信息的大数据采集及存储系统和方法
CN104683155A (zh) 网络管理系统中的告警屏蔽机制
CN106874465A (zh) 一种基于数据版本的高效管理缓存的方法
CN104199729B (zh) 一种资源管理方法及系统
CN104410511A (zh) 一种服务器管理方法及系统
CN102902593B (zh) 基于缓存机制的协议分发处理系统
CN108388529A (zh) 一种外设主动实现与cpu间数据交换的方法
CN104360961A (zh) 一种基于对象存储的自适应分级处理方法及系统
CN107368326A (zh) 进程控制方法和装置
CN103179051B (zh) 一种流媒体的转发方法和系统
KR20170130178A (ko) 분산 환경 기반 빅데이터 실시간 분석을 위한 인-메모리 db 연결 지원형 스케줄링 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209

RJ01 Rejection of invention patent application after publication