CN111988165B - 一种分布式存储系统使用情况的监控方法及系统 - Google Patents

一种分布式存储系统使用情况的监控方法及系统 Download PDF

Info

Publication number
CN111988165B
CN111988165B CN202010658069.9A CN202010658069A CN111988165B CN 111988165 B CN111988165 B CN 111988165B CN 202010658069 A CN202010658069 A CN 202010658069A CN 111988165 B CN111988165 B CN 111988165B
Authority
CN
China
Prior art keywords
distributed storage
information
storage node
alarm
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010658069.9A
Other languages
English (en)
Other versions
CN111988165A (zh
Inventor
吕冬冬
陆阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010658069.9A priority Critical patent/CN111988165B/zh
Publication of CN111988165A publication Critical patent/CN111988165A/zh
Application granted granted Critical
Publication of CN111988165B publication Critical patent/CN111988165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种分布式存储系统使用情况的监控方法及系统,所述方法执行以下步骤:采集各分布式存储节点的信息;读取所采集的各分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中;在数据库中查询各分布式存储节点的信息,并根据所查询的信息进行报警;根据发生报警的分布式存储节点所对应的信息以及使用分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因。根据本发明的方法,借助于采集的各分布式存储节点的信息以及使用分布式存储节点的客户端情况,可以使监控的维度更加精细化,定位问题更加准确,能够直观的找出导致告警的客户端,能够较为精确快速的定位到出问题的节点以及该节点上的进程以及使用者的用户身份。

Description

一种分布式存储系统使用情况的监控方法及系统
技术领域
本发明涉及分布式技术领域,特别涉及一种分布式存储系统使用情况的监控方法及系统。
背景技术
分布式存储系统的特点是所有用户都公用一套磁盘,然而磁盘的速率是有限的,如果每个节点同时高并发读取,那么对于分布式存储系统来说会是巨大的灾难。
目前针对分布式存储系统使用情况的监控方式主要是实现对服务器本身以及分布式存储系统本身的监控,而对分布式存储系统的使用者的信息获取的信息较少;如果存在众多的节点高读取高并发的读取数据,则会造成集群其他节点的读取速率下降,使得整体训练任务的速度下降,严重时会使得整个分布式存储系统瘫痪,可见,传统的针对分布式存储系统使用情况的监控无法获取节点上具体的进程。
发明内容
本发明提供一种分布式存储系统使用情况的监控方法及系统,用以较为精确快速地定位到出问题的节点以及该节点上的进程以及使用者的用户身份。
本发明提供了一种分布式存储系统使用情况的监控方法,所述方法执行以下步骤:
步骤1:采集各分布式存储节点的信息;
步骤2:读取所采集的各所述分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中;
步骤3:在所述数据库中查询各所述分布式存储节点的信息,并根据所查询的信息进行报警;
步骤4:根据发生报警的分布式存储节点所对应的信息以及使用所述分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因。
进一步地,所述步骤1:采集各分布式存储节点的信息包括:
利用部署在分布式存储系统的各分布式存储节点上的采集器采集各分布式存储节点的信息。
进一步地,所述利用部署在分布式存储系统的各分布式存储节点上的采集器采集各分布式存储节点的信息执行以下步骤:
步骤S11:将所述采集器中的采集器守护进程部署在各个分布式存储节点,以使每个分布式存储节点各自对应一个采集器;
步骤S12:通过与各个所述分布式存储节点对应的所述采集器采集所述分布式存储系统的各分布式存储节点的信息。
进一步地,在所述步骤1中,采集的各所述分布式存储节点的信息包括以下信息中的至少一项:各分布式存储节点的服务器对应的目录、文件系统信息、系统型号、由多个硬盘组成的块设备、磁盘读写速率、访问所述块设备的客户端的使用情况、流量。
进一步地,所述步骤2:读取所采集的各所述分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中,执行以下步骤:
步骤S21:利用部署在监控节点上的数据收集器读取所采集的各所述分布式存储节点的信息;
步骤S22:按照相应的时间序列以及监控数据类型将所述数据收集器所读取的信息存储到所述监控节点的数据库中。
进一步地,所述步骤3:在所述数据库中查询各所述分布式存储节点的信息,并根据所查询的信息进行报警,执行以下步骤:
步骤S31:利用部署在监控节点上的告警引擎,定时地在所述数据库中查询各所述分布式存储节点的信息对应的数据;
步骤S32:将查询的所述信息对应的数据与所述信息在各所述分布式存储节点对应的预设阈值进行比较;
步骤S32:若所述信息对应的数据超过预设阈值,则触发所述告警引擎进行报警。
进一步地,所述步骤4:根据发生报警的分布式存储节点所对应的信息以及使用所述分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因,执行以下步骤:
步骤S41:所述告警引擎触发部署在客户端节点的探测器,所述探测器对与所述探测器对应的客户端的数据读写情况、读取数据的线程数以及用户身份进行探测;
步骤S42:所述探测器对所述客户端的线程数与读写速率进行分析;
步骤S43:若所述线程超过预设线程阈值,和/或所述读写速率超过预设读写速率阈值,则所述探测器将使用所述分布式存储节点的客户端的数据情况返回到所述告警引擎。
进一步地,在所述步骤S43后,所述步骤4还包括以下步骤:
步骤S44:所述告警引擎根据所述探测器所返回的所述数据情况,以查询通知管理员以及所述客户端的使用者。
本发明实施例提供的一种分布式存储系统使用情况的监控方法,具有以下有益效果:借助于采集的各分布式存储节点的信息以及使用分布式存储节点的客户端情况,可以使监控的维度更加精细化,定位问题更加准确,能够直观的找出导致告警的客户端,能够较为精确快速的定位到出问题的节点以及该节点上的进程以及使用者的用户身份。
本发明还提供一种分布式存储系统使用情况的监控系统,包括:
采集模块,用于采集各分布式存储节点的信息;
读取模块,用于读取所采集的各所述分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中;
报警模块,用于在所述数据库中查询各所述分布式存储节点的信息,并根据所查询的信息进行报警;
分析模块,用于根据发生报警的分布式存储节点所对应的信息以及使用所述分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因。
进一步地,所述采集模块包括:
采集器部署单元,用于将所述采集器中的采集器守护进程部署在各个分布式存储节点,以使每个分布式存储节点各自对应一个采集器;
采集单元,用于通过与各个所述分布式存储节点对应的所述采集器采集所述分布式存储系统的各分布式存储节点的信息。
本发明实施例提供的一种分布式存储系统使用情况的监控系统,具有以下有益效果:分析模块根据采集的各分布式存储节点的信息以及使用分布式存储节点的客户端情况,可以使监控的维度更加精细化,定位问题更加准确,能够直观的找出导致告警的客户端,能够较为精确快速的定位到出问题的节点以及该节点上的进程以及使用者的用户身份。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种分布式存储系统使用情况的监控方法的流程示意图;
图2为本发明实施例中一种分布式存储系统使用情况的监控系统的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种分布式存储系统使用情况的监控方法,如图1所示,所述方法执行以下步骤:
步骤1:采集各分布式存储节点的信息;
步骤2:读取所采集的各所述分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中;
步骤3:在所述数据库中查询各所述分布式存储节点的信息,并根据所查询的信息进行报警;
步骤4:根据发生报警的分布式存储节点所对应的信息以及使用所述分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因。
上述技术方案的工作原理为:在步骤1中,每个分布式存储节点的信息均会被采集,这些采集的信息包括多维度的信息,便于后续在发生报警后,与使用所述分布式存储节点的客户端情况相结合,来分析告警原因,以确定导致告警的客户端以及告警的具体原因。
在步骤2中,将所读取的信息存储到数据库中时,需要按照时间序列进行存储,即存储在数据库中的信息均对应一个时间。
步骤3的设计目的是根据所查询的信息,确定哪一个分布式存储节点或哪些分布式存储节点出现问题。
步骤4的设计目的是根据之前采集的分布式存储节点所对应的信息以及使用分布式存储节点的客户端情况,分析导致该分布式存储节点出现问题的原因。
上述技术方案的有益效果为:借助于采集的各分布式存储节点的信息以及使用分布式存储节点的客户端情况,可以使监控的维度更加精细化,定位问题更加准确,能够直观的找出导致告警的客户端,能够较为精确快速的定位到出问题的节点以及该节点上的进程以及使用者的用户身份。
在一个实施例中,所述步骤1:采集各分布式存储节点的信息包括:
利用部署在分布式存储系统的各分布式存储节点上的采集器采集各分布式存储节点的信息。
上述技术方案的工作原理为:在所述步骤1中,采集的各所述分布式存储节点的信息包括以下信息中的至少一项:各分布式存储节点的服务器对应的目录、文件系统信息、系统型号、由多个硬盘组成的块设备、磁盘读写速率、访问所述块设备的客户端的使用情况、流量。
所述利用部署在分布式存储系统的各分布式存储节点上的采集器采集各分布式存储节点的信息执行以下步骤:
步骤S11:将所述采集器中的采集器守护进程部署在各个分布式存储节点,以使每个分布式存储节点各自对应一个采集器;
步骤S12:通过与各个所述分布式存储节点对应的所述采集器采集所述分布式存储系统的各分布式存储节点的信息。
在步骤S11中,可以先编写分布式存储节点的采集器守护进程,而且部署在各个分布式存储节点的采集器守护进程是相同的,所述采集器守护进程用于持续地采集与每个分布式存储节点对应的服务器自身的信息。
在步骤S12中,采集器可以通过分布式存储节点的某个目录(例如,/proc/fs)下文件系统的信息,能够读取由多个硬盘堆叠组成的每个块设备的磁盘读写速率,所有访问该块设备的客户端的使用情况,并提取每个分布式存储节点的流量。
上述技术方案的有益效果为:提供了采集各分布式存储节点的信息的具体步骤。
在一个实施例中,所述步骤2:读取所采集的各所述分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中,执行以下步骤:
步骤S21:利用部署在监控节点上的数据收集器读取所采集的各所述分布式存储节点的信息;
步骤S22:按照相应的时间序列以及监控数据类型将所述数据收集器所读取的信息存储到所述监控节点的数据库中。
上述技术方案的工作原理为:部署在监控节点的数据收集器将各个存储节点的采集器的数据读取出来,并且按照相应的时间序列以及监控数据类型存储到数据库中。其中,监控数据类型例如为内存,流量等标签。
上述技术方案的有益效果为:提供了读取所采集的各分布式存储节点的信息并进行存储的具体步骤。
在一个实施例中,所述步骤3:在所述数据库中查询各所述分布式存储节点的信息,并根据所查询的信息进行报警,执行以下步骤:
步骤S31:利用部署在监控节点上的告警引擎,定时地在所述数据库中查询各所述分布式存储节点的信息对应的数据;
步骤S32:将查询的所述信息对应的数据与所述信息在各所述分布式存储节点对应的预设阈值进行比较;
步骤S32:若所述信息对应的数据超过预设阈值,则触发所述告警引擎进行报警。
上述技术方案的工作原理为:告警引擎作为一个告警程序,可以定时地(例如,每隔30秒)在数据库中查找所需要的信息,例如可以查询每个分布式存储节点的流量,访问该分布式存储节点的进程数量等。并且,告警引擎在从数据库中查询数据的时候,采用的是自研的数据库语法,利用高效的查询语句,例如可以根据数据收集器所读取的监控数据类型以及时间维度的聚合数据进行查询,从而使得查询更加快跟准,能够快速地进行数据查询,提高数据查询的准确度以及速度。
同时,告警引擎还可以为每个分布式存储节点的流量或者进程数量设置相应的阈值,例如,当流量超过流量阈值时,或者,进程数量超过进程数量阈值时,则触发报警系统进行报警。
上述技术方案的有益效果为:通过设置不同的预设阈值,可以根据超限的阈值提前发出告警,保证分布式存储系统的稳定性。
在一个实施例中,所述步骤4:根据发生报警的分布式存储节点所对应的信息以及使用所述分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因,执行以下步骤:
步骤S41:所述告警引擎触发部署在客户端节点的探测器,所述探测器对与所述探测器对应的客户端的数据读写情况、读取数据的线程数以及用户身份进行探测;
步骤S42:所述探测器对所述客户端的线程数与读写速率进行分析;
步骤S43:若所述线程超过预设线程阈值,和/或所述读写速率超过预设读写速率阈值,则所述探测器将使用所述分布式存储节点的客户端的数据情况返回到所述告警引擎。
上述技术方案的工作原理为:部署在客户端节点的探测器能探测该客户端节点上的读写速率(IO)情况、读取数据的线程数以及用户身份证明(例如,用户名),然后探测器分析线程数与IO值,如果超过阈值则向告警引擎返回使用者的情况。
上述技术方案的有益效果为:提供了根据发生报警的分布式存储节点所对应的信息以及使用分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因的具体步骤,管理员能够直观的找出访问压力大的分布式存储节点所对应的客户端。
在一个实施例中,在所述步骤S43后,所述步骤4还包括以下步骤:
步骤S44:所述告警引擎根据所述探测器所返回的所述数据情况,以通知管理员以及所述客户端的使用者。
上述技术方案的工作原理为:在一种实现方式中,告警引擎可以根据探测器所返回的数据情况,告警引擎触发邮件发送进程,以发送邮件的方式通知管理员以及客户端的使用者(即用户)。在其他实现方式中,告警引擎也可以通过其他方式通知管理员以及客户端的使用者,例如,在钉钉上向用户发送“你的某个程序在哪个分布式节点对应的服务器上的流量或进程超过阈值了”的消息,便于管理员和用户及时处理。
上述技术方案的有益效果为:借助于步骤S44,能够及时将告警信息发送到管理员和用户,便于及时处理。
如图2所示,本发明实施例提供了一种分布式存储系统使用情况的监控系统,包括:
采集模块201,用于采集各分布式存储节点的信息;
读取模块202,用于读取所采集的各所述分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中;
报警模块203,用于在所述数据库中查询各所述分布式存储节点的信息,并根据所查询的信息进行报警;
分析模块204,用于根据发生报警的分布式存储节点所对应的信息以及使用所述分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因。
上述技术方案的工作原理为:采集模块201在采集各分布式存储节点的信息时,每个分布式存储节点的信息均会被采集,这些采集的信息包括多维度的信息,便于后续在发生报警后,与使用所述分布式存储节点的客户端情况相结合,来分析告警原因,以确定导致告警的客户端以及告警的具体原因。
读取模块202将所读取的信息存储到数据库中时,需要按照时间序列进行存储,即存储在数据库中的信息均对应一个时间。
报警模块203的设计目的是根据所查询的信息,确定哪一个分布式存储节点或哪些分布式存储节点出现问题。
分析模块204的设计目的是根据之前采集的分布式存储节点所对应的信息以及使用分布式存储节点的客户端情况,分析导致该分布式存储节点出现问题的原因。
本发明的采集模块201采集各分布式存储节点的信息;读取模块202读取所采集的各所述分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中;报警模块203在所述数据库中查询各所述分布式存储节点的信息,并根据所查询的信息进行报警;分析模块204,用于根据发生报警的分布式存储节点所对应的信息以及使用所述分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因。
上述技术方案的有益效果为:分析模块根据采集的各分布式存储节点的信息以及使用分布式存储节点的客户端情况,可以使监控的维度更加精细化,定位问题更加准确,能够直观的找出导致告警的客户端,能够较为精确快速的定位到出问题的节点以及该节点上的进程以及使用者的用户身份。
在一个实施例中,所述采集模块201包括:
采集器部署单元,用于将所述采集器中的采集器守护进程部署在各个分布式存储节点,以使每个分布式存储节点各自对应一个采集器;
采集单元,用于通过与各个所述分布式存储节点对应的所述采集器采集所述分布式存储系统的各分布式存储节点的信息。
上述技术方案的工作原理为:采集器部署单元可以先编写分布式存储节点的采集器守护进程,而且部署在各个分布式存储节点的采集器守护进程是相同的,所述采集器守护进程用于持续地采集与每个分布式存储节点对应的服务器自身的信息。
进一步地,采集器可以通过分布式存储节点的某个目录(例如,/proc/fs)下文件系统的信息,能够读取由多个硬盘堆叠组成的每个块设备的磁盘读写速率,所有访问该块设备的客户端的使用情况,并提取每个分布式存储节点的流量。
上述技术方案的有益效果为:借助于采集器部署单元和采集单元,可以实现各分布式存储节点的信息的采集。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种分布式存储系统使用情况的监控方法,其特征在于,所述方法执行以下步骤:
步骤1:利用部署在分布式存储系统的各分布式存储节点上的采集器采集各分布式存储节点的信息;
步骤2:读取所采集的各所述分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中;
步骤3:在所述数据库中查询各所述分布式存储节点的信息,并根据所查询的信息进行报警;
步骤4:根据发生报警的分布式存储节点所对应的信息以及使用所述分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因;
所述利用部署在分布式存储系统的各分布式存储节点上的采集器采集各分布式存储节点的信息执行以下步骤:
步骤S11:将所述采集器中的采集器守护进程部署在各个分布式存储节点,以使每个分布式存储节点各自对应一个采集器;
步骤S12:通过与各个所述分布式存储节点对应的所述采集器采集所述分布式存储系统的各分布式存储节点的信息。
2.如权利要求1所述的方法,其特征在于,在所述步骤1中,采集的各所述分布式存储节点的信息包括以下信息中的至少一项:各分布式存储节点的服务器对应的目录、文件系统信息、系统型号、由多个硬盘组成的块设备、磁盘读写速率、访问所述块设备的客户端的使用情况、流量。
3.如权利要求1所述的方法,其特征在于,所述步骤2:读取所采集的各所述分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中,执行以下步骤:
步骤S21:利用部署在监控节点上的数据收集器读取所采集的各所述分布式存储节点的信息;
步骤S22:按照相应的时间序列以及监控数据类型将所述数据收集器所读取的信息存储到所述监控节点的数据库中。
4.如权利要求1所述的方法,其特征在于,所述步骤3:在所述数据库中查询各所述分布式存储节点的信息,并根据所查询的信息进行报警,执行以下步骤:
步骤S31:利用部署在监控节点上的告警引擎,定时地在所述数据库中查询各所述分布式存储节点的信息对应的数据;
步骤S32:将查询的所述信息对应的数据与所述信息在各所述分布式存储节点对应的预设阈值进行比较;
步骤S32:若所述信息对应的数据超过预设阈值,则触发所述告警引擎进行报警。
5.如权利要求4所述的方法,其特征在于,所述步骤4:根据发生报警的分布式存储节点所对应的信息以及使用所述分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因,执行以下步骤:
步骤S41:所述告警引擎触发部署在客户端节点的探测器,所述探测器对与所述探测器对应的客户端的数据读写情况、读取数据的线程数以及用户身份进行探测;
步骤S42:所述探测器对所述客户端的线程数与读写速率进行分析;
步骤S43:若所述线程超过预设线程阈值,和/或所述读写速率超过预设读写速率阈值,则所述探测器将使用所述分布式存储节点的客户端的数据情况返回到所述告警引擎。
6.如权利要求5所述的方法,其特征在于,在所述步骤S43后,所述步骤4还包括以下步骤:
步骤S44:所述告警引擎根据所述探测器所返回的所述数据情况,以查询通知管理员以及所述客户端的使用者。
7.一种分布式存储系统使用情况的监控系统,其特征在于,包括:
采集模块,用于采集各分布式存储节点的信息;
读取模块,用于读取所采集的各所述分布式存储节点的信息,并按照相应的时间序列以及监控数据类型存储到数据库中;
报警模块,用于在所述数据库中查询各所述分布式存储节点的信息,并根据所查询的信息进行报警;
分析模块,用于根据发生报警的分布式存储节点所对应的信息以及使用所述分布式存储节点的客户端情况,确定导致告警的客户端以及告警原因;
所述采集模块包括:
采集器部署单元,用于将所述采集器中的采集器守护进程部署在各个分布式存储节点,以使每个分布式存储节点各自对应一个采集器;
采集单元,用于通过与各个所述分布式存储节点对应的所述采集器采集所述分布式存储系统的各分布式存储节点的信息。
CN202010658069.9A 2020-07-09 2020-07-09 一种分布式存储系统使用情况的监控方法及系统 Active CN111988165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010658069.9A CN111988165B (zh) 2020-07-09 2020-07-09 一种分布式存储系统使用情况的监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010658069.9A CN111988165B (zh) 2020-07-09 2020-07-09 一种分布式存储系统使用情况的监控方法及系统

Publications (2)

Publication Number Publication Date
CN111988165A CN111988165A (zh) 2020-11-24
CN111988165B true CN111988165B (zh) 2023-01-24

Family

ID=73438516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010658069.9A Active CN111988165B (zh) 2020-07-09 2020-07-09 一种分布式存储系统使用情况的监控方法及系统

Country Status (1)

Country Link
CN (1) CN111988165B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100938A (zh) * 2016-08-19 2016-11-09 浪潮(北京)电子信息产业有限公司 一种分布式集群系统的监控和告警方法及系统
CN111049705A (zh) * 2019-12-23 2020-04-21 深圳前海微众银行股份有限公司 一种监控分布式存储系统的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9081826B2 (en) * 2013-01-07 2015-07-14 Facebook, Inc. System and method for distributed database query engines

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100938A (zh) * 2016-08-19 2016-11-09 浪潮(北京)电子信息产业有限公司 一种分布式集群系统的监控和告警方法及系统
CN111049705A (zh) * 2019-12-23 2020-04-21 深圳前海微众银行股份有限公司 一种监控分布式存储系统的方法及装置

Also Published As

Publication number Publication date
CN111988165A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN106980699B (zh) 一种数据处理平台和系统
CN106250258B (zh) 一种磁盘故障定位方法及装置
CN111881011A (zh) 日志管理方法、平台、服务器及存储介质
CN112463553B (zh) 一种基于普通告警关联分析智能告警的系统与方法
CN111078513A (zh) 日志处理方法、装置、设备、存储介质及日志告警系统
CN111339293B (zh) 告警事件的数据处理方法、装置和告警事件的分类方法
CN102882700A (zh) 一种网管系统中的告警信息管理方法及设备
WO2022252512A1 (zh) 根因分析方法、装置、电子设备、介质和程序
CN111046011A (zh) 日志收集方法、系统、节点、电子设备及可读存储介质
CN102541884A (zh) 数据库优化方法和装置
CN110933115A (zh) 基于动态session的分析对象行为异常检测方法及装置
CN112600719A (zh) 告警聚类方法、装置及存储介质
CN111988165B (zh) 一种分布式存储系统使用情况的监控方法及系统
CN113297278B (zh) 时序数据库、数据处理方法、存储设备及计算机程序产品
JP2008108154A (ja) 稼働性能情報の管理システム
CN110636116A (zh) 一种多维数据采集的系统及方法
CN115640158A (zh) 一种基于数据库的检测分析方法及装置
KR101484186B1 (ko) 보안 관제 데이터의 검색을 위한 인덱싱 장치 및 방법
CN114937316B (zh) 一种软件故障检测方法、装置、设备及介质
CN112632058A (zh) 轨迹确定方法、装置及设备、存储介质
CN112732517B (zh) 一种磁盘故障告警方法、装置、设备及可读存储介质
CN116126621A (zh) 大数据集群的任务监控方法及相关设备
CN112612679A (zh) 系统运行状态监控方法、装置、计算机设备和存储介质
KR101329976B1 (ko) 리포트 생성 방법 및 시스템
CN111683037A (zh) 一种基于大数据分析的智能网络安全系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant