CN115562935A - 数据处理平台的监控方法、装置、电子设备及存储介质 - Google Patents

数据处理平台的监控方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115562935A
CN115562935A CN202211153132.9A CN202211153132A CN115562935A CN 115562935 A CN115562935 A CN 115562935A CN 202211153132 A CN202211153132 A CN 202211153132A CN 115562935 A CN115562935 A CN 115562935A
Authority
CN
China
Prior art keywords
monitoring
service
state information
running state
service component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211153132.9A
Other languages
English (en)
Inventor
裴志凡
程强
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202211153132.9A priority Critical patent/CN115562935A/zh
Publication of CN115562935A publication Critical patent/CN115562935A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据处理平台的监控方法、装置、电子设备及存储介质,数据处理平台包括多个服务组件,多个服务组件中的每个服务组件具有对应的服务进程,该方法包括:通过每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息;监控服务进程获取对应服务组件的第二运行状态信息;根据每个服务组件的第一运行状态信息和第二运行状态信息确定对应服务组件的目标状态信息。本发明实施例提供了一种自动监控方法,将人工监控改为设备监控,结合API和服务进程两种方式对服务组件进行状态监控,提升了监控结果的全面性和准确性,降低了监控成本,提高了监控效率。

Description

数据处理平台的监控方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术,尤其涉及一种数据处理平台的监控方法、装置、电子设备及存储介质。
背景技术
各行各业每天都会产生大量的数据,为了快速处理这些数据,从这些数据中获取有价值的信息,各行各业会建立大数据平台来处理这些数据。一个大数据平台的运行,涉及数据接入、清洗、提取、关联、回填等多个数据处理环节,这些数据处理环节需要众多服务组件的支撑。
目前,大数据平台各个服务组件的运行状态,一般通过人工进行监控,人工监控容易出现遗漏、不准确的情况,且存在监控成本高、监控效率低等问题。
发明内容
本发明实施例提供一种数据处理平台的监控方法、装置、电子设备及存储介质,能够提升监控结果的全面性和准确性,且能够降低监控成本,提高监控效率。
第一方面,本发明实施例提供一种数据处理平台的监控方法,所述数据处理平台包括多个服务组件,所述多个服务组件中的每个服务组件具有对应的服务进程,所述方法包括:
通过所述每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息;
监控所述服务进程获取对应服务组件的第二运行状态信息;
根据所述每个服务组件的所述第一运行状态信息和所述第二运行状态信息确定对应服务组件的目标状态信息。
第二方面,本发明实施例提供了一种数据处理平台的监控装置,所述数据处理平台包括多个服务组件,所述多个服务组件中的每个服务组件具有对应的服务进程,所述装置包括:
第一获取模块,用于通过所述每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息;
第二获取模块,用于监控所述服务进程获取对应服务组件的第二运行状态信息;
确定模块,用于根据所述每个服务组件的所述第一运行状态信息和所述第二运行状态信息确定对应服务组件的目标状态信息。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的数据处理平台的监控方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据处理平台的监控方法。
本发明实施例中,数据处理平台包括多个服务组件,多个服务组件中的每个服务组件具有对应的服务进程,通过每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息,监控服务进程获取对应服务组件的第二运行状态信息,根据每个服务组件的第一运行状态信息和第二运行状态信息确定对应服务组件的目标状态信息。本发明提供了一种自动监控方法,将人工监控改为设备监控,结合API和服务进程两种方式对服务组件进行状态监控,提升了监控结果的全面性和准确性,降低了监控成本,提高了监控效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的数据处理平台的监控方法的一个流程示意图;
图2是本发明实施例提供的数据处理平台的监控方法的另一流程示意图;
图3是本发明实施例提供的数据处理平台的监控装置的一个结构图;
图4是本发明实施例提供的电子设备的一个结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1是本发明实施例提供的数据处理平台的监控方法的一种流程示意图,该方法可以由本发明实施例提供的数据处理平台的监控装置来执行,该装置可采用软件和/或硬件的方式实现。在一个具体的实施例中,该装置可以集成在电子设备中,电子设备比如可以是计算机,电子设备中装有客户端(即client端)。以下实施例将以该装置集成在电子设备中为例进行说明,参考图1,该方法具体可以包括如下步骤:
步骤101,通过每个服务组件的应用程序编程接口(application programminginterface,API)获取对应服务组件的第一运行状态信息。
在本实施例中,数据处理平台可以是大数据平台,其包括多个服务组件,如分布式应用程序协调服务组件(zookeeper)、分布式文件服务组件(hadoop distributed filesystem,HDFS)、分布式存储服务组件(hadoop database,HBase)等,每个服务组件具有对应的服务进程,具体的,一个服务组件可以对应或启用一个或多个服务进程。示例地,zookeeper是一个分布式协调服务组件,为用户的分布式应用程序提供协调服务,为用户程序提供数据节点监听服务。API为应用编程接口,即软件系统不同组成部分衔接的约定。
具体的,第一运行状态信息指的是通过API获取的每个服务组件的运行状态信息。其中,运行状态信息可以包括正常或异常,正常的运行状态比如服务组件无故障、API正常连接;异常的状态比如服务组件故障、API无法连接等。
步骤102,监控服务进程获取对应服务组件的第二运行状态信息。
其中,对服务组件进行监控还可以通过对服务组件配置的监控服务端来实现。示例地,可以在服务组件所在的设备上配置监控服务端(即server端),通过监控服务端监控服务组件对应的服务进程,从而实现对对应的服务组件的监控。服务进程比如可以有数据采集、数据传输、数据分析、数据存储、数据展示等功能。具体的,监控服务端可以有一个或多个,多个服务组件可以配置同一监控服务端或不同监控服务端进行监控,监控服务端的数量可依据需要监控的多个服务组件所在的设备的数量确定。比如,有6个服务组件布置在3台服务器上,服务组件1、服务组件2布置在服务器1上,服务组件3布置在服务器2上,服务组件4、服务组件5和服务组件6布置在服务器3上;则可以在3个服务器上分别配置一个监控服务端,总共配置3个监控服务端;利用服务器1上配置的监控服务端监控服务组件1、服务组件2对应的服务进程,从而实现对服务组件1、服务组件2的状态监控;利用服务器2上配置的监控服务端监控服务组件3对应的服务进程,从而实现对服务组件3的状态监控;利用服务器3上配置的监控服务端监控服务组件4、服务组件5、服务组件6对应的服务进程,从而实现对服务组件4、服务组件5、服务组件6的状态监控。
当监控服务端有多个时,电子设备上安装的客户端可以分别与每个监控服务端建立连接,从而通过各个监控服务端监控对应的服务组件。第二运行状态信息指的是利用监控服务端对服务进程进行监控得到的对应服务组件的运行状态。当一个服务组件对应多个服务进程时,如果监控到多个服务进程中有至少一个服务进程为异常状态,则可以确定该服务组件为异常状态,当多个服务进程均为正常状态,则可以确定该服务组件为正常状态。监控服务端可以直接将监控到的服务进程的状态发送给客户端,由客户端根据服务进程的状态确定对应服务组件的运行状态;或者监控服务端也可以根据服务进程的状态确定对应服务组件的运行状态,将服务组件的运行状态发送给客户端。
步骤103,根据每个服务组件的第一运行状态信息和第二运行状态信息确定对应服务组件的目标状态信息。
其中,第一运行状态信息包括正常或异常,第二运行状态信息包括正常或异常,第一运行状态信息和第二运行状态信息可能相同、也可能不同,即通过API和进程监控两种方式监控到的同一服务组件的运行状态可能相同,也可能不同。根据每个服务组件的第一运行状态信息和第二运行状态信息确定对应服务组件的目标状态信息时,如果第一运行状态信息和第二运行状态信息中的至少一者为异常,则确定对应服务组件的目标状态信息为异常;如果第一运行状态信息和第二运行状态信息均为正常,则确定对应服务组件的目标状态信息为正常。结合两种方式确定服务组件的最终状态,可以避免由于网络或其他原因,仅依赖服务组件自身API管理状态,导致的监控结果与实际状态不一致的问题,提高监控结果的准确度。
示例性的,在生产环境下,一组HBase集群共用50个域服务(即regionserver)进程,通过HBase集群API获取到50个域服务进程全部在线,但是在通过进程监控发现其中一个域服务进程掉线,即HBase集群master管理状态与实际状态不一致,掉线域服务进程上的分区(即region)并没有重新分配上线到其他正常域服务进程节点,使得在查询时掉线域服务进程上的某一分区读取数据无法正常响应,且数据写入数据分配存储到掉线域服务进程的某一分区中也无法正常响应,影响数据查询准确性及数据写入速度。这种情况下,采用本发明的方案,通过API和进程监控两种方式,可以及时发现HBase服务组件的目标状态信息为异常,可以对该异常服务组件对应的异常进程进行标记、处理和恢复等操作。
本发明实施例中,数据处理平台包括多个服务组件,多个服务组件中的每个服务组件具有对应的服务进程,通过每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息,监控服务进程获取对应服务组件的第二运行状态信息,根据每个服务组件的第一运行状态信息和第二运行状态信息确定对应服务组件的目标状态信息。本发明提供了一种自动监控方法,将人工监控改为设备监控,结合API和服务进程两种方式对服务组件进行状态监控,提升了监控结果的全面性和准确性,降低了监控成本,提高了监控效率。
下面进一步说明本发明实施例提供的数据处理平台的监控方法,该方法同样应用于电子设备,电子设备中安装有客户端,数据处理平台的每个服务组件配置有监控服务端,如图2所示,该方法可以包括如下步骤:
步骤201,通过每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息。
具体地,第一运行状态信息可以周期性地获取,第一运行状态信息包括正常或异常,正常的运行状态比如服务组件为在线状态(比如服务组件为领导者leader角色、跟随者follower角色)、服务组件无故障、API正常连接等;异常的运行状态比如服务组件为离线状态、API无法连接、无法获取服务组件状态等。
步骤202,根据为每个服务组件配置的监控服务端和每个服务组件具有的服务进程创建配置文件。
具体地,配置文件中可以包括服务组件的组件标识信息(比如组件名称)、为每个服务组件配置的监控服务端的地址信息(比如server ip)、每个服务组件对应的服务进程的进程标识信息(比如进程类型)等,创建的配置文件可以保存在电子设备本地。
步骤203,根据配置文件中监控服务端的地址信息创建套接字,并根据配置文件中监控服务端的地址信息和进程标识信息创建通信消息。
具体实现中,客户端可以读取本地保存的配置文件,根据配置文件中每个监控服务端的地址信息创建套接字,并利用套接字连接对应的监控服务端;根据配置文件中每个监控服务端的地址信息和进程标识信息组织通信消息的消息头,获取设置的监控时间间隔,将监控时间间隔写入消息内容,从而创建通信消息。其中,套接字是应用程序通过网络协议进行通信的接口。在一种可能的实施方式中,客户端根据已保存的配置信息,逐个使用配置信息中的地址信息去创建套接字。
步骤204,基于套接字向监控服务端发送通信消息,以利用通信消息与监控服务端建立通信连接。
在一种可能的实施方式中,当客户端发起获取数据命令时,根据保存的配置文件中相关的监控服务端的地址信息、进程标识信息等来创建对监控服务端的连接。
步骤205,通过监控服务端监控服务进程,并按照监控时间间隔周期性地获取对应服务组件的第二运行状态信息。
示例性的,为了实现大数据平台服务进程监控,主要使用的是一台客户端与多台监控服务端之间的通信。监控服务端监控服务组件对应的服务进程,从而实现对对应的服务组件的监控。服务进程比如可以有数据采集、数据传输、数据分析、数据存储、数据展示等功能。
具体的,监控时间间隔为预先根据需要设置的时间间隔。示例地,监控时间间隔可以为30分钟、60分钟等,即每隔30分钟或60分钟监控服务端就向客户端反馈一次第二运行状态信息。具体实现中,当通信消息中包括监控时间间隔时,客户端可以向监控服务端发送一次获取数据命令,监控服务端可以根据接收到的通信消息头中的进程标识信息确定需要监控的服务进程,根据消息内容中的监控时间间隔去监控相应服务进程,从而获取相应服务进程的运行状态,获取后将相应的运行状态发送给客户端;即在接收到获取数据命令之后,监控服务端可以周期性地向客户端反馈监控到的服务组件的运行状态信息;客户端将接收到的信息进行缓存,并根据缓存的信息判断服务进程运行状态是否正常,从而确定对应服务组件的运行状态是否正常。
具体地,第二运行状态信息包括正常或异常,正常的运行状态比如服务组件为在线状态、服务组件无故障、服务组件对应的各个服务线程均正常运行;异常的运行状态比如无法与为服务组件配置的监控服务端连接、无法获取运行状态信息、服务组件故障、服务组件对应的服务进程故障等。
客户端可以采用MySQL数据库来缓存服务进程的运行状态和服务组件的运行状态,MySQL数据库是开源的、支持常见的结构化查询语言语句规范、且运行效率良好,有丰富信息的网络支持;这对于后续的结果展示来说,便于查询,易于实现;另外,采用MySQL数据库,对于运维人员来说,其可移植行高,安装简单小巧以及调试、管理、优化简单。
步骤206,根据每个服务组件的第一运行状态信息和第二运行状态信息确定对应服务组件的目标状态信息。
在第一运行状态信息和第二运行状态信息中的至少一者为异常时,确定对应服务组件的目标状态信息为异常;在第一运行状态信息和第二运行状态信息均为正常时,确定对应服务组件的目标状态信息为正常。第一运行状态信息的获取周期和第二运行状态信息的获取周期可以相同,即通过两种方式周期性地获取服务组件的运行状态,可以提高监控的准确性和及时性。
步骤207,获取数据处理平台的组件依赖关系。
其中,组件依赖指的是一个组件依赖另一个组件工作,各个服务组件之间相互依赖的关系形成组件依赖关系。具体实现中,可以根据组件依赖关系进行逐层分析,标记各个服务组件状态是否正常。示例地,生产环境中包括zookeeper集群、HDFS集群和HBase集群,其中,HDFS集群依赖zookeeper集群,HBase集群依赖HDFS集群和zookeeper集群,在判断该生产环境组件状态是否正常时,首先判断zookeeper集群状态是否正常,状态正常时再判断HDFS集群状态是否正常,状态正常时再判断HBase集群状态是否正常。
步骤208,根据组件依赖关系展示每个服务组件的目标状态信息。
在本实施例中,可以在得到每个服务组件的目标状态信息之后,直接根据根据组件依赖关系展示每个服务组件的目标状态信息,或者还可以根据用户查询展示相应组件的目标状态信息。示例性的,可以将各个服务组件的目标状态信息上传至服务器,数据展示采用浏览器/服务器结构(Browser/Server,B/S)实现,可以在电子设备上通过浏览器请求服务地址从而访问服务器,获取所需查询的原始数据,对原始数据进行转码、组装等操作,从而在浏览器页面展示每个服务组件的目标状态信息。另外,还可以展示每个服务组件对应的服务进程的运行状态信息,针对运行状态为异常的服务进程或服务组件,还可以展示异常的具体原因,以便相关人员(例如平台管理人员)追溯异常、维护数据处理平台。相关人员还可以根据历史监控记录,针对数据处理平台的服务组件出现异常时间点,分析数据峰值、网络传输、计算资源等,维持组件稳定,处理瓶颈,综合分析数据处理平台运行情况,提供优化数据支撑。
本发明实施例提供的方案,数据处理平台包括多个服务组件,多个服务组件中的每个服务组件具有对应的服务进程,通过每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息,监控服务进程获取对应服务组件的第二运行状态信息,根据每个服务组件的第一运行状态信息和第二运行状态信息确定对应服务组件的目标状态信息。本发明提供了一种自动监控方法,将人工监控改为设备监控,结合API和服务进程两种方式对服务组件进行状态监控,提升了监控结果的全面性和准确性,降低了监控成本,提高了监控效率。
图3是本发明实施例提供的数据处理平台的监控装置的一个结构图,该装置适用于执行本发明实施例提供的数据处理平台的监控方法。如图3所示,该装置具体可以包括:
第一获取模块301,用于通过所述每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息;
第二获取模块302,用于监控所述服务进程获取对应服务组件的第二运行状态信息;
确定模块303,用于根据所述每个服务组件的所述第一运行状态信息和所述第二运行状态信息确定对应服务组件的目标状态信息。
一实施例中,所述每个服务组件配置有监控服务端,第二获取模块302具体用于:
与所述监控服务端建立通信连接;
通过所述监控服务端监控所述服务进程获取对应服务组件的第二运行状态信息。
一实施例中,第二获取模块302与所述监控服务端建立通信连接,具体包括:
根据配置文件中所述监控服务端的地址信息创建套接字,并根据所述配置文件中所述监控服务端的地址信息和进程标识信息创建通信消息,所述进程标识信息为所述监控服务端监控的服务组件对应的服务进程的标识信息;
基于所述套接字向所述监控服务端发送所述通信消息,以利用所述通信消息与所述监控服务端建立通信连接。
一实施例中,所述通信消息中还包括监控时间间隔,第二获取模块302通过所述监控服务端监控所述服务进程获取对应服务组件的第二运行状态信息,具体包括:
通过所述监控服务端监控所述服务进程,并按照所述监控时间间隔周期性地获取对应服务组件的第二运行状态信息。
一实施例中,所述装置还包括:
创建模块,用于根据为所述每个服务组件配置的监控服务端和所述每个服务组件具有的服务进程创建所述配置文件。一实施例中,所述第一运行状态信息包括正常或异常,所述第二运行状态信息包括正常或异常,所述确定模块303具体用于:
在所述第一运行状态信息和所述第二运行状态信息中的至少一者为异常时,确定对应服务组件的目标状态信息为异常;在所述第一运行状态信息和所述第二运行状态信息均为正常时,确定对应服务组件的目标状态信息为正常。
一实施例中,所述装置还包括:
关系获取模块,用于获取所述数据处理平台的组件依赖关系;
展示模块,用于根据所述组件依赖关系展示所述每个服务组件的目标状态信息。
本领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例的装置,数据处理平台包括多个服务组件,多个服务组件中的每个服务组件具有对应的服务进程,通过每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息,监控服务进程获取对应服务组件的第二运行状态信息,根据每个服务组件的第一运行状态信息和第二运行状态信息确定对应服务组件的目标状态信息。本发明提供了一种自动监控方法,将人工监控改为设备监控,结合API和服务进程两种方式对服务组件进行状态监控,提升了监控结果的全面性和准确性,降低了监控成本,提高了监控效率。
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例提供的数据处理平台的监控方法。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现上述任一实施例提供的数据处理平台的监控方法。
下面参考图4,其示出了适于用来实现本发明实施例的电子设备的计算机系统400的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取模块、第二获取模块、确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
通过每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息,监控服务进程获取对应服务组件的第二运行状态信息,根据每个服务组件的第一运行状态信息和第二运行状态信息确定对应服务组件的目标状态信息。本发明提供了一种自动监控方法,将人工监控改为设备监控,结合API和服务进程两种方式对服务组件进行状态监控,提升了监控结果的全面性和准确性,降低了监控成本,提高了监控效率。
根据本发明实施例的技术方案,数据处理平台包括多个服务组件,多个服务组件中的每个服务组件具有对应的服务进程,通过每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息,监控服务进程获取对应服务组件的第二运行状态信息,根据每个服务组件的第一运行状态信息和第二运行状态信息确定对应服务组件的目标状态信息。本发明提供了一种自动监控方法,将人工监控改为设备监控,结合API和服务进程两种方式对服务组件进行状态监控,提升了监控结果的全面性和准确性,降低了监控成本,提高了监控效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据处理平台的监控方法,其特征在于,所述数据处理平台包括多个服务组件,所述多个服务组件中的每个服务组件具有对应的服务进程,所述方法包括:
通过所述每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息;
监控所述服务进程获取对应服务组件的第二运行状态信息;
根据所述每个服务组件的所述第一运行状态信息和所述第二运行状态信息确定对应服务组件的目标状态信息。
2.根据权利要求1所述的方法,其特征在于,所述每个服务组件配置有监控服务端,所述监控所述服务进程获取对应服务组件的第二运行状态信息,包括:
与所述监控服务端建立通信连接;
通过所述监控服务端监控所述服务进程获取对应服务组件的第二运行状态信息。
3.根据权利要求2所述的方法,其特征在于,所述与所述监控服务端建立通信连接,包括:
根据配置文件中所述监控服务端的地址信息创建套接字,并根据所述配置文件中所述监控服务端的地址信息和进程标识信息创建通信消息,所述进程标识信息为所述监控服务端监控的服务组件对应的服务进程的标识信息;
基于所述套接字向所述监控服务端发送所述通信消息,以利用所述通信消息与所述监控服务端建立通信连接。
4.根据权利要求3所述的方法,其特征在于,所述通信消息中还包括监控时间间隔,所述通过所述监控服务端监控所述服务进程获取对应服务组件的第二运行状态信息,包括:
通过所述监控服务端监控所述服务进程,并按照所述监控时间间隔周期性地获取对应服务组件的第二运行状态信息。
5.根据权利要求3所述的方法,其特征在于,所述配置文件通过如下方式创建:
根据为所述每个服务组件配置的监控服务端和所述每个服务组件具有的服务进程创建所述配置文件。
6.根据权利要求1所述的方法,其特征在于,所述第一运行状态信息包括正常或异常,所述第二运行状态信息包括正常或异常,所述根据所述每个服务组件的所述第一运行状态信息和所述第二运行状态信息确定对应服务组件的目标状态信息,包括:
在所述第一运行状态信息和所述第二运行状态信息中的至少一者为异常时,确定对应服务组件的目标状态信息为异常;
在所述第一运行状态信息和所述第二运行状态信息均为正常时,确定对应服务组件的目标状态信息为正常。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述数据处理平台的组件依赖关系;
根据所述组件依赖关系展示所述每个服务组件的目标状态信息。
8.一种数据处理平台的监控装置,其特征在于,所述数据处理平台包括多个服务组件,所述多个服务组件中的每个服务组件具有对应的服务进程,所述装置包括:
第一获取模块,用于通过所述每个服务组件的应用程序编程接口API获取对应服务组件的第一运行状态信息;
第二获取模块,用于监控所述服务进程获取对应服务组件的第二运行状态信息;
确定模块,用于根据所述每个服务组件的所述第一运行状态信息和所述第二运行状态信息确定对应服务组件的目标状态信息。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一所述的数据处理平台的监控方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一所述的数据处理平台的监控方法。
CN202211153132.9A 2022-09-21 2022-09-21 数据处理平台的监控方法、装置、电子设备及存储介质 Pending CN115562935A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211153132.9A CN115562935A (zh) 2022-09-21 2022-09-21 数据处理平台的监控方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211153132.9A CN115562935A (zh) 2022-09-21 2022-09-21 数据处理平台的监控方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115562935A true CN115562935A (zh) 2023-01-03

Family

ID=84741546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211153132.9A Pending CN115562935A (zh) 2022-09-21 2022-09-21 数据处理平台的监控方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115562935A (zh)

Similar Documents

Publication Publication Date Title
US10116534B2 (en) Systems and methods for WebSphere MQ performance metrics analysis
US20140068568A1 (en) System and method for dynamically debugging data in a multi-tenant database environment
CN111190888A (zh) 一种管理图数据库集群的方法和装置
CN109245908B (zh) 一种主从集群切换的方法和装置
CN111970195B (zh) 数据传输方法和流式数据传输系统
CN108052358B (zh) 一种分布式部署的系统和方法
CN112286774A (zh) 运维监控数据展示方法、装置、存储介质及计算设备
CN112181942A (zh) 时序数据库系统和数据处理方法及装置
US10659289B2 (en) System and method for event processing order guarantee
CN112346980B (zh) 软件性能测试方法、系统和可读存储介质
CN111752916B (zh) 数据采集方法及装置、计算机可读存储介质、电子设备
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
CN112463251A (zh) 一种uliweb框架配置热发布的方法和装置
CN107682432B (zh) 基于Spark的数据处理系统和方法
CN110807058B (zh) 一种导出数据的方法和系统
CN115562935A (zh) 数据处理平台的监控方法、装置、电子设备及存储介质
CN115202973A (zh) 应用运行状态的确定方法、装置、电子设备和介质
CN114816914A (zh) 基于Kubernetes的数据处理方法、设备及介质
CN110768855B (zh) 链路化性能测试的方法和装置
CN112559001B (zh) 更新应用的方法和装置
CN112579447A (zh) 一种浏览器测试方法和装置
US10516767B2 (en) Unifying realtime and static data for presenting over a web service
US11797418B1 (en) Automatic creation of trace spans from log data
CN113297002B (zh) 数据库工作模式的切换方法和装置
CN107391342B (zh) 一种数据库一体机及其监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination