CN116561076A - 分布式文件系统的监控方法、装置、计算机设备及介质 - Google Patents

分布式文件系统的监控方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN116561076A
CN116561076A CN202310524109.4A CN202310524109A CN116561076A CN 116561076 A CN116561076 A CN 116561076A CN 202310524109 A CN202310524109 A CN 202310524109A CN 116561076 A CN116561076 A CN 116561076A
Authority
CN
China
Prior art keywords
data
node
monitoring
monitoring data
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310524109.4A
Other languages
English (en)
Inventor
李华庆
汤玮
姚文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hexin Technology Co ltd
Hexin Technology Suzhou Co ltd
Original Assignee
Hexin Technology Co ltd
Hexin Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hexin Technology Co ltd, Hexin Technology Suzhou Co ltd filed Critical Hexin Technology Co ltd
Priority to CN202310524109.4A priority Critical patent/CN116561076A/zh
Publication of CN116561076A publication Critical patent/CN116561076A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及系统监控领域,公开了一种分布式文件系统的监控方法、装置、计算机设备及介质,包括:分别采集分布式文件系统中各节点的监控数据,得到各节点的监控数据;基于所述监控数据的类型汇总所述各节点的监控数据,确定不同类型的各节点的汇总监控数据;在预设界面上分别显示所述汇总监控数据。本方法将分布式文件系统中各节点的监控数据进行集中,在预设界面上显示数据,便于直观地对各节点的运行情况进行查看,可对各节点进行统一的监控和管理,提高对分布式文件系统的监控效率。

Description

分布式文件系统的监控方法、装置、计算机设备及介质
技术领域
本发明涉及系统监控领域,具体涉及分布式文件系统的监控方法、装置、计算机设备及介质。
背景技术
分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统,在分布式文件系统中的各节点运行过程中,通常需要对整个分布式文件系统进行维护和管理,记录各个性能指标情况以及日志。由于分布式文件系统部署方案为集群化多节点,各服务组件承载于不同职能节点,在维护和管理过程中,可能需要对各个节点分别进行监控以及管理,若对各个节点进行人工监控和管理,难度较高,运维的效率较低。
发明内容
有鉴于此,本发明实施例提供了一种分布式文件系统方法、装置、计算机设备及介质,以解决分布式文件系统监控困难的问题。
第一方面,本发明实施例提供了一种分布式文件系统的监控方法,所述方法包括:
分别采集分布式文件系统中各节点的监控数据,得到各节点的监控数据;
基于所述监控数据的类型汇总所述各节点的监控数据,确定不同类型的各节点的汇总监控数据;
在预设界面上分别显示所述汇总监控数据。
本实施例提供的分布式文件系统的监控方法,对各节点进行监控并采集监控数据,基于监控数据的类型对各节点的监控数据进行汇总,得到各类型的汇总监控数据,并在监控界面上显示汇总监控数据。本方法将分布式文件系统中各节点的监控数据进行集中,在预设界面上显示数据,便于直观地对各节点的运行情况进行查看,本方法可对各节点进行统一的监控和管理,提高对分布式文件系统的监控效率。
在一些可选的实施方式中,各个所述节点上部署有数据采集组件,所述分别采集分布式文件系统中各节点的监控数据,得到各节点的监控数据,包括:
基于数据采集组件对各所述数据采集组件对应的节点进行监控数据的采集,得到各节点的监控数据。
本实施例提供的方法,采用数据采集组件采集各节点上不同类型的监控数据,考虑到不同类型的监控数据可能存在不同的形式,因此采用对应类型的数据采集组件可以针对性地进行监控数据的采集。
在一些可选的实施方式中,所述基于所述监控数据的类型汇总所述各节点的监控数据,确定不同类型的各节点的汇总监控数据,包括:
基于所述数据采集组件对应的服务接收所述数据采集组件发送的各节点的不同类型的监控数据,以确定不同类型的各节点的汇总监控数据。
本实施例提供的方法,通过数据采集组件对应的服务接收各类型的监控数据,从而实现不同类型的监控数据的汇总,得到汇总监控数据。
在一些可选的实施方式中,所述监控数据包括日志数据和性能指标数据,所述数据采集组件包括日志采集组件和性能指标采集组件,所述基于所述数据采集组件对应的服务接收所述数据采集组件发送的各节点的不同类型的监控数据,以确定不同类型的各节点的汇总监控数据,包括:
基于日志监控服务接收各节点上所述日志采集组件发送的日志数据,以对各节点的日志数据进行汇总,确定各节点的汇总日志数据,所述日志采集组件对应日志监控服务;
基于性能指标监控服务接收各节点上所述性能指标采集组件发送的性能指标数据,以对各节点的性能指标数据进行汇总,确定各节点的汇总性能指标数据,所述性能指标采集组件对应性能指标监控服务。
本实施例提供的方法,采用日志采集组件进行日志数据的采集,并由日志采集组件对应的日志监控服务接收并汇总采集到的日志数据,采用性能指标采集组件进行性能指标数据的采集,并由性能指标采集组件对应的性能指标监控服务接收并汇总采集到的性能指标数据,可对日志数据和性能指标数据进行监控。
在一些可选的实施方式中,在所述基于所述监控数据的类型汇总所述各节点的监控数据,确定不同类型的各节点的汇总监控数据之后,所述方法还包括:
判断所述汇总监控数据中的监控数据是否满足预设预警条件;
当所述监控数据满足预设预警条件,在预设预警界面显示所述满足预警条件的监控数据对应的节点。
本实施例提供的方法,将满足预设预警条件的监控数据对应的节点显示在预设预警界面中,便于实时对节点进行查看。
在一些可选的实施方式中,当所述监控数据满足预设预警条件之后,所述方法包括:
生成预警通知并对所述预警通知进行分类,得到至少一种类型的预警通知;
基于预设对应表和所述预警通知的类型将所述预警通知发送给负责人,所述预设对应表包括预警通知类型与所述负责人的对应关系。
本实施例提供的方法,若出现多种故障,将触发多条预警通知,对预警通知进行分类,将同类型的预警通知发送给对应的负责人,可避免瞬间突发性的接受大量警报通知,便于负责人对问题进行快速定位,并针对性地进行维护。
在一些可选的实施方式中,所述在预设界面上分别显示各节点的监控数据,包括:
响应于对节点的选择操作,确定目标节点;
在所述预设界面上显示所述目标节点对应的监控数据。
本实施例提供的方法,提供一种监控数据筛选的方式,可根据需求对监控数据进行筛选,从而显示目标节点对应的监控数据,便于对需要查看的节点进行监控,提升监控维护的效率。
第二方面,本发明实施例提供了一种分布式文件系统的监控装置,包括:
数据采集模块,用于分别采集分布式文件系统中各节点的监控数据,得到各节点的监控数据;
数据汇总模块,用于基于所述监控数据的类型汇总所述各节点的监控数据,确定不同类型的各节点的汇总监控数据;
数据显示模块,用于在预设界面上分别显示所述汇总监控数据。
第三方面,本发明实施例提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的分布式文件系统的监控方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的分布式文件系统的监控方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一些实施例的分布式文件系统的监控方法的流程示意图;
图2是根据本发明一些实施例的分布式文件系统的监控方法的流程示意图;
图3是根据本发明实施例的分布式文件系统的监控装置的结构框图;
图4是根据本发明提供的分布式文件系统运维监控平台的方法示意图;
图5是根据本发明提供的分布式文件系统运维监控平台的架构模块图;
图6是根据本发明提供的分布式文件系统运维监控平台的工作流程图;
图7是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于分布式文件系统为集群化多节点,其中各个服务组件承载于不同职能节点,对涉及多个节点的系统进行监控和维护需要耗费较多人力,且难度较高,监控维护的效率较低,对此,本发明实施例提供了一种分布式文件系统的监控方法,可应用于一种分布式文件系统的监控平台,用于电脑、平板电脑等终端。
根据本发明实施例,提供了一种分布式文件系统的监控方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种分布式文件系统的监控方法,图1是根据本发明实施例的分布式文件系统的监控方法的流程图,如图1所示,该流程包括如下步骤:
步骤S11,分别采集分布式文件系统中各节点的监控数据,得到各节点的监控数据。
分布式文件系统是一种云计算基础服务,该系统涉及多台服务器,每台服务器部署了服务,所有服务器构成一个总的文件系统存储池,每台服务器中包括多种底层资源节点,例如管理节点、业务节点等。对每个节点进行监控,例如对内存容量、处理器利用率、运行日志等进行监控,采集节点运行时的各项数据,经过采集得到各节点的监控数据,监控数据可能包括多种类型,具体可依据监控需求自行设定监控的目标。可以通过在节点上部署数据采集工具,进而进行监控数据的采集。实时采集各节点的监控数据,并将采集得到的监控数据进行存储,依据监控数据的类型可以存储在节点本地也可以存储于云端,具体存储方式不作限定。
步骤S12,基于监控数据的类型汇总各节点的监控数据,确定不同类型的各节点的汇总监控数据。
针对不同类型的监控数据可采用不同的采集工具,不同的采集工具有其对应的监控服务,各种类型的采集工具在采集到对应类型的监控数据后,会主动向其对应的监控服务推送采集到的监控数据。汇总监控服务包括来自多个节点的同类型的监控数据,同一类型的各节点的监控数据汇总于同一监控服务中,每种监控服务得到一种类型的汇总监控数据。
监控服务对应的采集工具所采集的监控数据中所包含的具体内容可以根据实际需求进行自定义设置。
步骤S13,在预设界面上分别显示汇总监控数据。
预设界面为分布式文件系统的监控平台中的界面,各监控服务对分布式文件系统中的各节点进行汇总后,在预设界面中显示汇总监控数据,可分别显示不同类型的汇总监控数据,也可显示不同节点的汇总监控数据,显示方式根据实际业务需求进行具体设置。
具体地,可通过预设接口可对分布式文件系统的监控平台中的显示界面根据实际需求进行配置,预设接口可以为RESTful API。通过预设接口对监控服务进行数据读取,从而将汇总监控数据显示在预设界面。
本实施例提供的分布式文件系统的监控方法,对各节点进行监控并采集监控数据,基于监控数据的类型对各节点的监控数据进行汇总,得到各类型的汇总监控数据,并在监控界面上显示汇总监控数据。本方法将分布式文件系统中各节点的监控数据进行集中,在预设界面上显示数据,便于直观地对各节点的运行情况进行查看,本方法可对各节点进行统一的监控和管理,提高对分布式文件系统的监控效率。
在本实施例中提供了一种分布式文件系统的监控方法,该方法包括如下步骤:
步骤S21,基于数据采集组件对各数据采集组件对应的节点进行监控数据的采集,得到各节点的监控数据。
在本实施例中,采用数据采集组件进行监控数据的采集,数据采集组件的类型与采集的监控数据类型一致,若某节点采集监控数据A和监控数据B,那么对应地,在该节点上部署采集监控数据A的数据采集组件a和采集监控数据B的数据采集组件b。采集得到的各节点的监控数据可根据数据类型选择云端存储或本地存储。
步骤S22,基于数据采集组件对应的服务接收所述数据采集组件发送的各节点的不同类型的监控数据,以确定不同类型的各节点的汇总监控数据。
各数据采集组件有其对应的监控服务,即数据采集组件是监控服务的agent服务,数据采集组件采集到监控数据后将监控数据主动推送给对应的监控服务,监控服务可根据实际需求随时对接收到的监控数据进行处理。数据采集组件、监控服务以及监控数据的类型三者之间存在对应关系,将同一类型的监控数据集中于对应类型的监控服务,各汇总监控数据存储于对应类型的监控服务中。
步骤S23,在预设界面上分别显示所述汇总监控数据。详细请参见图1所示实施例的步骤S13,在此不再赘述。
本实施例提供的分布式文件系统的监控方法,采用数据采集组件采集各节点上不同类型的监控数据,考虑到不同类型的监控数据可能存在不同的形式,因此采用对应类型的数据采集组件可以针对性地进行监控数据的采集。通过数据采集组件对应的服务接收各类型的监控数据,从而实现不同类型的监控数据的汇总,得到汇总监控数据。
在一些可选的实施方式中,所述监控数据包括日志数据和性能指标数据,所述数据采集组件包括日志采集组件和性能指标采集组件,上述步骤S22包括:
步骤S221,基于日志监控服务接收各节点上日志采集组件发送的日志数据,以对各节点的日志数据进行汇总,得到各节点的汇总日志数据,日志采集组件对应日志监控服务。
在各个节点上部署了日志采集组件,与日志采集组件对应的是日志监控服务,日志采集组件采集日志数据,日志数据包括但不限于系统级别的日志、分布式文件系统业务服务日志。日志采集组件将采集到的日志数据推送给对应的日志监控服务,在日志监控服务中对各节点的日志数据进行汇总,得到汇总日志数据。
日志监控服务不作具体限定,例如可采用Loki日志服务,是一种水平可扩展、高可用性的日志聚合系统。在各节点中搭载Loki日志服务对应的Promtail日志采集组件进行日志数据的采集,通过在集群范围内的节点上配置日志数据路径,从而实现日志数据的读取。
步骤S222,基于性能指标监控服务接收各节点上性能指标采集组件发送的性能指标数据,以对各节点的性能指标数据进行汇总,得到各节点的汇总性能指标数据,性能指标采集组件对应性能指标监控服务。
在各个节点上部署了性能指标采集组件,与性能指标采集组件对应的是性能指标监控服务,性能指标采集组件采集性能指标数据,性能指标数据包括但不限于硬盘带宽、硬盘IO、硬盘延迟。性能指标采集组件将采集到的性能指标数据推送给对应的日志监控服务,在日志监控服务中对各节点的日志数据进行汇总,得到汇总日志数据。
性能指标监控服务不作具体限定,例如可采用Prometheus性能指标监控服务,在各节点中搭载Prometheus性能指标监控服务对应的Exporter性能指标采集组件进行性能指标数据的采集。
监控数据包含但不限于日志数据和性能指标数据,相应地,进行监控数据采集的数据采集组件与监控数据的类型对应,可根据实际需求进行拓展。
本实施例提供的方法,采用日志采集组件进行日志数据的采集,并由日志采集组件对应的日志监控服务接收并汇总采集到的日志数据,采用性能指标采集组件进行性能指标数据的采集,并由性能指标采集组件对应的性能指标监控服务接收并汇总采集到的性能指标数据,可对日志数据和性能指标数据进行监控。
在一些可选的实施方式中,上述图1中步骤S12之后,方法还包括如下步骤:
步骤S31,判断汇总监控数据中的监控数据是否满足预设预警条件。
预先配置预警条件,对各类型的汇总监控数据进行判断,具体需判断汇总监控数据中的监控数据,不同监控数据有其对应的预警条件。预设预警条件可根据实际业务需求自定义设置。
步骤S32,当监控数据满足预设预警条件,在预设预警界面显示满足预警条件的监控数据对应的节点。
预设预警界面是分布式文件系统的监控平台中的,选择查看预警,将显示预设预警界面,将满足预设预警条件的监控数据对应的节点显示在预设预警界面。
进一步地,当所述监控数据满足预设预警条件,步骤S32还包括:
步骤S321,生成预警通知并对所述预警通知进行分类,得到至少一种类型的预警通知。
在分布式文件系统的监控平台中设有预警模块,若存在监控数据满足预设预警条件,则将该监控数据推送给预警模块。预警模块根据监控数据满足预设预警条件的类型生成对应的预警通知,可能存在多种满足预设预警条件的监控数据,预警模块对所有预警通知进行分类,得到一种或多种类型的预警通知。
步骤S322,基于预设对应表和预警通知的类型将预警通知发送给负责人,预设对应表包括预警通知类型与负责人的对应关系。
负责人指业务系统的维护人员,可以是一个部门或个人,对于不同类型的预警通知可能由不同的负责人对此进行处理,根据预设对应表中的对应关系,将预警通知发送给对应类型的负责人。具体可由预警模块根据预先配置好的路由转发到接收器进行通知,通知方式包括但不限于邮件、即时通讯软件中的消息通知。
本实施例提供的方法,将满足预设预警条件的监控数据对应的节点显示在预设预警界面中,便于实时对节点进行查看。在生产环境中,特别是云环境下的业务之间密集耦合时,若出现多台故障,将触发多条预警通知,对预警通知进行分类,将同类型的预警通知发送给对应的负责人,可避免瞬间突发性的接受大量警报通知,便于负责人对问题进行快速定位,并针对性地进行维护。
在一些可选的实施方式中,上述图1中步骤S13包括如下步骤:
步骤S41,响应于对节点的选择操作,确定目标节点。
本发明实施例应用于一种分布式文件系统的监控平台,在进行监控数据查看时,由于分布式系统可能存在多个节点,可对节点进行选择,具体选择方式可以采用自行输入、下拉框选择等方式,从而确定目标节点。目标节点指需要查看的节点。
步骤S42,在预设界面上显示目标节点对应的监控数据。
在选择目标节点后,对所有监控数据进行筛选,并在预设界面上显示目标节点对应的监控数据。
本实施例提供的方法,提供一种监控数据筛选的方式,可根据需求对监控数据进行筛选,从而显示目标节点对应的监控数据,便于对需要查看的节点进行监控,提升监控维护的效率。
在本实施例中提供了一种具体的分布式文件系统的监控方法,该方法应用于一种运维监控平台,该平台的工作流程如图2所示,该方法中的监控数据包括性能指标数据和日志数据。分布式文件系统中应用集群的节点部署有性能指标采集组件与日志采集组件,其中,可根据业务需求对性能指标采集组件进行扩展,自定义设置采集组件。各节点搭载Exporter性能指标采集组件采集其性能指标数据、搭载Promtail日志采集组件采集其日志数据。具体地,使用支持Prometheus Metric协议的Exporter作为Agent进行性能指标数据采集,Prometheus Server主动拉取配置的性能指标。对于性能指标采集节点的范畴分两种场景,一种是对于基础资源设施,此类通用Exporter的部署规划范围为所有的集群节点,另一种是对分布式文件系统的特定关键服务的监控,此类定制化Exporter是部署于承载分布式文件系统相关业务的节点。采用Loki日志服务,在各节点中搭载Loki日志服务对应的Promtail日志采集组件进行日志数据的采集,通过在集群范围内的节点上配置日志数据路径。采集的日志数据包括系统级别的日志、分布式文件系统业务服务日志。
由Prometheus中的AlertManager进行预警,当存在满足预设预警条件的监控数据,将其推送给AlertManager,AlertManager对预警通知进行分类并通过提前配置好的路由转发到接收器进行预警通知。对于该平台的终端用户提供统一的运维监控平台进行展示,采用前后端分离的架构,后端提供标准的Restful API接口能力。
在本实施例中还提供了一种分布式文件系统的监控装置,该装置用于实现上述实施例及实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种分布式文件系统的监控装置,如图3所示,包括:
数据采集模块51,用于分别采集分布式文件系统中各节点的监控数据,得到各节点的监控数据;
数据汇总模块52,用于基于所述监控数据的类型汇总所述各节点的监控数据,确定不同类型的各节点的汇总监控数据;
数据显示模块53,用于在预设界面上分别显示所述汇总监控数据。
在一些可选的实施方式中,数据采集模块51包括:
数据采集单元,用于基于数据采集组件对各所述数据采集组件对应的节点进行监控数据的采集,得到各节点的监控数据。
在一些可选的实施方式中,数据汇总模块52包括:
数据接收单元,用于基于所述数据采集组件对应的服务接收所述数据采集组件发送的各节点的不同类型的监控数据,以确定不同类型的各节点的汇总监控数据。
在一些可选的实施方式中,所述监控数据包括日志数据和性能指标数据,所述数据采集组件包括日志采集组件和性能指标采集组件,数据接收单元包括:
第一接收子单元,用于基于日志监控服务接收各节点上所述日志采集组件发送的日志数据,以对各节点的日志数据进行汇总,确定各节点的汇总日志数据,所述日志采集组件对应日志监控服务;
第二接收子单元,用于基于性能指标监控服务接收各节点上所述性能指标采集组件发送的性能指标数据,以对各节点的性能指标数据进行汇总,确定各节点的汇总性能指标数据,所述性能指标采集组件对应性能指标监控服务。
在一些可选的实施方式中,所述装置还包括:
数据判断模块,用于判断所述汇总监控数据中的监控数据是否满足预设预警条件;
节点显示模块,用于当所述监控数据满足预设预警条件,在预设预警界面显示所述满足预警条件的监控数据对应的节点。
在一些可选的实施方式中,节点显示模块包括:
通知分类单元,用于生成预警通知并对所述预警通知进行分类,得到至少一种类型的预警通知;
通知发送单元,用于基于预设对应表和所述预警通知的类型将所述预警通知发送给负责人,所述预设对应表包括预警通知类型与所述负责人的对应关系。
在一些可选的实施方式中,数据显示模块53包括:
节点选择单元,用于响应于对节点的选择操作,确定目标节点;
数据显示单元,用于在所述预设界面上显示所述目标节点对应的监控数据。
本实施例中的分布式文件系统的监控装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
下面以一种基于Loki、Prometheus的分布式文件系统运维监控平台为例进行说明,该平台的方法如图4所示,该平台对应的架构模块如图5所示,包括性能指标监控模块、日志监控模块、告警模块以及自研web界面。应用集群中的各节点搭载Exporter性能指标采集器组件采集其性能指标数据、搭载Promtail日志采集器组件采集其日志文件数据。由Prometheus性能监控服务模块拉取各节点指标采集器采集的性能指标数据,由Loki日志监控服务模块接收集群中各节点日志的日志文件数据,将采集到的性能指标数据和日志文件数据进行聚合。自研web监控界面通过RESTful接口对Prometheus与Loki进行监控数据读取与配置监控设置,并在界面进行监控数据展示。Prometheus的AlertManager告警模块接收由Prometheus性能监控服务模块和Loki日志监控服务模块推送的告警信息,根据配置的告警规则做出判断并发出告警通知。其中,自研web监控界面根据实际的技术栈,整体交互采用前后端分离的方案,后端方案组织完之后,前端根据标准RESTful接口进行数据请求以及展示。应用集群中的各节点指底层资源节点,例如管理节点、业务节点等。
上述基于Loki、Prometheus的分布式文件系统运维监控平台的工作流程如图6所示,该平台中对于性能指标的采集使用支持Prometheus Metric协议的Exporter作为Agent进行性能指标的采集,最终Prometheus Server通过Pull方式主动拉取配置的性能指标。对于性能指标采集节点的范畴分两种场景,一种是对于基础资源设施,此类通用Exporter的部署规划范围为所有的集群节点,另一种是对分布式文件系统的特定关键服务的监控,此类定制化Exporter是部署于承载分布式文件系统相关业务的节点。对于日志文件的采集使用的Agent为Promtail,日志聚合系统为Loki,通过在集群范围内的节点之上配置日志文件路径进行日志文件的读取,最终在Loki服务中进行聚合处理。对于日志文件的采集主要分为两类:一种为系统级别日志,另外一种为分布式文件系统业务服务日志。通过PrometheusAlertManager来实现告警功能,通过Prometheus来配置警报规则并计算,当满足警报条件的时候将其推送给AlertManager服务,AlertManager对警报信息进行分组并通过提前配置好的路由转发到接收器进行告警通知,警报条件不作具体限制,可以指内存是否不够、延时是否超时、CPU利用率是否超标等。对于终端用户提供统一的运维监控平台可以进行大屏展示,采用前后端分离的架构,后端提供标准的Restful API接口能力。
在本分布式文件系统运维监控平台,支持对基础设施资源的指标监控,对分布式文件系统的关键业务指标的监控。通过对各业务日志的采集与汇聚,通过对异常故障的配置及捕捉进行有效及时的告警实现,完成对分布式文件系统的分布式特性的支持且提供了统一的运维监控管理平台。采用Prometheus便于统一集成,Loki是结合业务进行日志方案选择,轻量级可控满足业务需求,符合主流规范和标准便于迭代升级及可维护性,满足目前业务需求,对多节点业务进行统一汇聚处理。通过统一集中汇聚处理解决分布式文件集群运维监控数据分散,数据洪范化的痛点;通过自定义Exporter,实现可插拔式配置,支持对自定义分布式文件系统关键业务监控拓展;通过告警服务,可以快速有效及时的对运维人员进行告警消息的自动化推送;通过定义标准的Restful API,可对统一运维管理平台进行二次开发与拓展,丰富功能需求。
本发明实施例还提供一种计算机设备,具有上述图3所示的分布式文件系统的监控装置。
请参阅图7,图7是本发明可选实施例提供的一种计算机设备的结构示意图,如图7所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种小程序落地页的展现的计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种分布式文件系统的监控方法,其特征在于,所述方法包括:
分别采集分布式文件系统中各节点的监控数据,得到各节点的监控数据;
基于所述监控数据的类型汇总所述各节点的监控数据,确定不同类型的各节点的汇总监控数据;
在预设界面上分别显示所述汇总监控数据。
2.根据权利要求1所述的方法,其特征在于,各个所述节点上部署有数据采集组件,所述分别采集分布式文件系统中各节点的监控数据,得到各节点的监控数据,包括:
基于数据采集组件对各所述数据采集组件对应的节点进行监控数据的采集,得到各节点的监控数据。
3.根据权利要求2所述的方法,其特征在于,所述基于所述监控数据的类型汇总所述各节点的监控数据,确定不同类型的各节点的汇总监控数据,包括:
基于所述数据采集组件对应的服务接收所述数据采集组件发送的各节点的不同类型的监控数据,以确定不同类型的各节点的汇总监控数据。
4.根据权利要求3所述的方法,其特征在于,所述监控数据包括日志数据和性能指标数据,所述数据采集组件包括日志采集组件和性能指标采集组件,所述基于所述数据采集组件对应的服务接收所述数据采集组件发送的各节点的不同类型的监控数据,以确定不同类型的各节点的汇总监控数据,包括:
基于日志监控服务接收各节点上所述日志采集组件发送的日志数据,以对各节点的日志数据进行汇总,确定各节点的汇总日志数据,所述日志采集组件对应日志监控服务;
基于性能指标监控服务接收各节点上所述性能指标采集组件发送的性能指标数据,以对各节点的性能指标数据进行汇总,确定各节点的汇总性能指标数据,所述性能指标采集组件对应性能指标监控服务。
5.根据权利要求1所述的方法,其特征在于,在所述基于所述监控数据的类型汇总所述各节点的监控数据,确定不同类型的各节点的汇总监控数据之后,所述方法还包括:
判断所述汇总监控数据中的监控数据是否满足预设预警条件;
当所述监控数据满足预设预警条件,在预设预警界面显示所述满足预警条件的监控数据对应的节点。
6.根据权利要求5所述的方法,其特征在于,当所述监控数据满足预设预警条件之后,所述方法包括:
生成预警通知并对所述预警通知进行分类,得到至少一种类型的预警通知;
基于预设对应表和所述预警通知的类型将所述预警通知发送给负责人,所述预设对应表包括预警通知类型与所述负责人的对应关系。
7.根据权利要求1所述的方法,其特征在于,所述在预设界面上分别显示各节点的监控数据,包括:
响应于对节点的选择操作,确定目标节点;
在所述预设界面上显示所述目标节点对应的监控数据。
8.一种分布式文件系统的监控装置,其特征在于,所述装置包括:
数据采集模块,用于分别采集分布式文件系统中各节点的监控数据,得到各节点的监控数据;
数据汇总模块,用于基于所述监控数据的类型汇总所述各节点的监控数据,确定不同类型的各节点的汇总监控数据;
数据显示模块,用于在预设界面上分别显示所述汇总监控数据。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至7中任一项所述的分布式文件系统的监控方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的分布式文件系统的监控方法。
CN202310524109.4A 2023-05-10 2023-05-10 分布式文件系统的监控方法、装置、计算机设备及介质 Pending CN116561076A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310524109.4A CN116561076A (zh) 2023-05-10 2023-05-10 分布式文件系统的监控方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310524109.4A CN116561076A (zh) 2023-05-10 2023-05-10 分布式文件系统的监控方法、装置、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN116561076A true CN116561076A (zh) 2023-08-08

Family

ID=87501332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310524109.4A Pending CN116561076A (zh) 2023-05-10 2023-05-10 分布式文件系统的监控方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN116561076A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491375A (zh) * 2017-08-18 2017-12-19 国网山东省电力公司信息通信公司 一种云计算环境下的设备检测及故障预警系统及方法
CN108563550A (zh) * 2018-04-23 2018-09-21 上海达梦数据库有限公司 一种分布式系统的监控方法、装置、服务器和存储介质
CN109522287A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 分布式文件存储集群的监控方法、系统、设备及介质
CN110309109A (zh) * 2019-05-23 2019-10-08 中国平安财产保险股份有限公司 数据监控方法、装置、计算机设备及存储介质
CN110908964A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 分布式文件系统的监控方法、装置、终端及存储介质
CN111124808A (zh) * 2019-11-29 2020-05-08 北京浪潮数据技术有限公司 一种分布式存储监控方法、系统、设备及计算机存储介质
CN111352806A (zh) * 2020-03-31 2020-06-30 中国工商银行股份有限公司 日志数据监控方法及装置
CN112084098A (zh) * 2020-10-21 2020-12-15 中国银行股份有限公司 资源监控系统及工作方法
CN112235130A (zh) * 2020-09-23 2021-01-15 建信金融科技有限责任公司 一种实现基于sdn网络的运维自动化的方法和装置
CN112698915A (zh) * 2020-12-31 2021-04-23 北京千方科技股份有限公司 多集群统一监控告警方法、系统、设备及存储介质
CN114138612A (zh) * 2021-12-08 2022-03-04 兴业银行股份有限公司 多地多活数据中心的应用监控系统及方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491375A (zh) * 2017-08-18 2017-12-19 国网山东省电力公司信息通信公司 一种云计算环境下的设备检测及故障预警系统及方法
CN108563550A (zh) * 2018-04-23 2018-09-21 上海达梦数据库有限公司 一种分布式系统的监控方法、装置、服务器和存储介质
CN109522287A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 分布式文件存储集群的监控方法、系统、设备及介质
CN110309109A (zh) * 2019-05-23 2019-10-08 中国平安财产保险股份有限公司 数据监控方法、装置、计算机设备及存储介质
CN110908964A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 分布式文件系统的监控方法、装置、终端及存储介质
WO2021073144A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 分布式文件系统的监控方法、装置、终端及存储介质
CN111124808A (zh) * 2019-11-29 2020-05-08 北京浪潮数据技术有限公司 一种分布式存储监控方法、系统、设备及计算机存储介质
CN111352806A (zh) * 2020-03-31 2020-06-30 中国工商银行股份有限公司 日志数据监控方法及装置
CN112235130A (zh) * 2020-09-23 2021-01-15 建信金融科技有限责任公司 一种实现基于sdn网络的运维自动化的方法和装置
CN112084098A (zh) * 2020-10-21 2020-12-15 中国银行股份有限公司 资源监控系统及工作方法
CN112698915A (zh) * 2020-12-31 2021-04-23 北京千方科技股份有限公司 多集群统一监控告警方法、系统、设备及存储介质
CN114138612A (zh) * 2021-12-08 2022-03-04 兴业银行股份有限公司 多地多活数据中心的应用监控系统及方法

Similar Documents

Publication Publication Date Title
WO2021008031A1 (zh) 基于微服务实现监控智能化的处理方法及电子装置
CN112015753B (zh) 适于容器化部署开源云平台的监控系统和方法
CN110535713B (zh) 监控管理系统以及监控管理方法
CN112311617A (zh) 一种配置化数据监控告警方法及系统
CN101707632A (zh) 一种动态监控服务器集群性能并实时报警的方法
CN107332765B (zh) 用于维修路由器故障的方法和装置
CN112000502B (zh) 海量错误日志的处理方法、装置、电子装置及存储介质
US7783743B1 (en) Methods and apparatus for processing electronic mail-related data
CN111258971A (zh) 一种基于访问日志的应用状态监控报警系统及方法
CN113505048A (zh) 基于应用系统画像的统一监控平台及实现方法
CN106911519B (zh) 一种数据采集监控方法及装置
CN113590437B (zh) 一种告警信息处理方法、装置、设备和介质
CN113157659A (zh) 一种日志处理方法和装置
CN114048090A (zh) 基于k8s的容器云平台监控的方法、设备及存储介质
CN113986649A (zh) 一种基于prometheus服务的系统监控装置及方法
CN115809119A (zh) 容器编排引擎的监控方法、系统及装置
CN112417050A (zh) 数据同步方法和装置、系统、存储介质及电子装置
CN114328107A (zh) 光磁融合存储服务器集群的监控方法、系统及电子设备
CN117370053A (zh) 一种面向信息系统业务运行全景监测方法及系统
CN116561076A (zh) 分布式文件系统的监控方法、装置、计算机设备及介质
CN116260703A (zh) 分布式消息服务节点cpu性能故障自恢复方法及装置
CN114168672B (zh) 日志数据的处理方法、装置、系统以及介质
CN115934464A (zh) 一种信息化平台监控采集系统
CN115378853A (zh) 一种网络监控方法、装置和设备
CN112187543A (zh) 一种云平台事件监控系统、方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination