CN106371968A - 一种对实时计算进行监控的方法和装置 - Google Patents

一种对实时计算进行监控的方法和装置 Download PDF

Info

Publication number
CN106371968A
CN106371968A CN201610709947.9A CN201610709947A CN106371968A CN 106371968 A CN106371968 A CN 106371968A CN 201610709947 A CN201610709947 A CN 201610709947A CN 106371968 A CN106371968 A CN 106371968A
Authority
CN
China
Prior art keywords
data
real
input source
running
calculating task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610709947.9A
Other languages
English (en)
Other versions
CN106371968B (zh
Inventor
沈迪
王义辉
王素梅
徐胜国
李铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201610709947.9A priority Critical patent/CN106371968B/zh
Publication of CN106371968A publication Critical patent/CN106371968A/zh
Application granted granted Critical
Publication of CN106371968B publication Critical patent/CN106371968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种对实时计算进行监控的方法和装置,该方法包括:对实时计算任务的输入源的运行过程进行监测;对实时计算任务的运行过程进行监测;其中,实时计算任务运行在计算平台上,实时计算任务从输入源获取数据并进行计算处理;当监测到实时计算任务的输入源的运行过程出现异常时,和/或,当监测到实时计算任务的运行过程出现异常时,向关联用户发送报警信息。本方案包括对输入源的监控和对实时计算任务本身的监控,输入源的正常运行和实时计算任务本身的正常运行才能支撑起完整的实时计算流程,任一部分的运行过程出现问题都会造成实时计算过程的异常,通过本方案,能够帮助关联用户及早发现问题并进行相应补救,以维持实时计算过程的稳定有效进行。

Description

一种对实时计算进行监控的方法和装置
技术领域
本发明涉及互联网技术领域,具体涉及一种对实时计算进行监控的方法和装置。
背景技术
随着互联网技术的不断发展,互联网大数据的趋势日益显著,每一条互联网的业务线都在不断地产生新的打点日志,对产生的日志进行进一步地处理以对互联网业务的运行进行反馈是相当重要的工作之一。在此趋势下,对于互联网业务线产生的日志数据进行实时计算的技术方案应运而生,由于实时计算过程需要通过快速、准确、实时的计算结果来获取对不用业务数据的反馈,当实时计算过程出现问题时,如无数据输出、计算结果错误、计算效率低等,这些问题使得实时计算的意义荡然无存,可见,对实时计算进行有效的监控对于维持实时计算的稳定性、有效性、准确性等各个方面均有重要的意义,对于实时计算技术的进一步发展具有重要的意义。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种对实时计算进行监控的方法和装置。
依据本发明的一个方面,提供了一种对实时计算进行监控的方法,该方法包括:
对实时计算任务的输入源的运行过程进行监测;
对实时计算任务的运行过程进行监测;
其中,实时计算任务运行在计算平台上,实时计算任务从输入源获取数据并进行计算处理;
当监测到实时计算任务的输入源的运行过程出现异常时,和/或,当监测到实时计算任务的运行过程出现异常时,向关联用户发送报警信息。
可选地,实时计算任务的输入源中包括数据产生方和数据消费方;所述对实时计算任务的输入源的运行过程进行监测包括:
对输入源中的数据产生方产生的数据量进行监测;
和/或,
对输入源中的数据消费方消费的数据量进行监测。
可选地,所述对实时计算任务的运行过程进行监控包括:
对实时计算任务的数据处理能力进行监测;
对实时计算任务的运行状态进行监测;
对实时计算任务在运行过程中产生的运行日志进行监测;
和/或,
对实时计算任务在运行过程中是否发生特定事件进行监测。
可选地,所述对输入源中的数据产生方产生的数据量进行监测包括:
获取输入源中的数据产生方在每个单位时间内产生的数据量;
将当前监测周期内产生的数据总量与前一监测周期内产生的数据总量进行比较,当二者的差异大于第一预设阈值时,和/或,将当前监测周期内的一个时间段内产生的数据总量与前一监测周期内的同一个时间段内产生的数据总量进行比较,当二者的差异大于第二预设阈值时,确定实时计算任务的输入源的运行过程出现异常。
可选地,所述对输入源中的数据产生方产生的数据量进行监测包括:
获取输入源中的数据产生方在每个单位时间内产生的数据量;
当监测到数据产生方在第一预设时间长度内产生的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
可选地,所述对输入源中的数据消费方消费的数据量进行监测包括:
获取输入源中的数据消费方在每个单位时间内消费的数据量;
当监测到数据消费方在第二预设时间长度内消费的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
可选地,输入源中的数据产生方产生的数据分布到多个数据队列中,输入源中的数据消费方从所述多个数据队列中读取数据进行消费;所述对输入源中的数据产生方产生的数据量进行监测和对输入源中的数据消费方消费的数据量进行监测包括:
获取每个数据队列在每个单位时间内接收到的数据量和被读取的数据量,计算该数据队列在每个单位时间内接收到的数据量和被读取的数据量的比值;根据各数据队列在同一时间段内对应的比值计算该时间段对应的标准差;当该时间段内的标准差大于第三预设阈值时,确定输入源的数据分布不均;
当监测到输入源的数据分布不均时,确定实时计算任务的输入源的运行过程出现异常。
可选地,所述获取输入源中的数据消费方在每个单位时间内消费的数据量包括:读取输入源中指示数据消费位置的标识,根据数据消费位置在每个单位时间内的变化,确定输入源中的数据消费方在每个单位时间内消费的数据量;
所述获取每个数据队列在每个单位时间内被读取的数据量包括:读取该数据队列中指示被读取数据位置的标识,根据被读取数据位置在每个单位时间内的变化,确定该数据队列在每个单位时间内被读取的数据量。
可选地,所述对实时计算任务的数据处理能力进行监测包括:
获取实时计算任务当前正在处理的数据量;
当实时计算任务当前正在处理的数据量大于第四预设阈值时,确定实时计算任务的运行过程出现异常。
可选地,所述对实时计算任务的运行状态进行监测包括:
在将实时计算任务提交到计算平台时,获取实时计算任务对应的进程标识;
每隔预设时间间隔,检查实时计算任务对应的进程标识是否在计算平台的进程列表中,是则确定实时计算任务处于运行状态,否则确定实时计算任务处于非运行状态;
当监测到实时计算任务处于非运行状态时,确定实时计算任务的运行过程出现异常。
可选地,所述对实时计算任务在运行过程中产生的运行日志进行监测包括:
当监测到实时计算任务在运行过程中产生的运行日志中记录指示第一指定类型异常的信息时,确定实时计算任务的运行过程出现异常;
所述第一指定类型异常包括:单条日志异常,和/或,集群节点丢失异常。
可选地,所述对实时计算任务在运行过程中是否发生特定事件进行监测包括:
对实时计算任务在运行过程中产生的运行日志进行监测;
当监测到所述运行日志中记录指示第二指定类型异常的信息时,确定实时计算任务在运行过程中发生特定事件;
当监测到实时计算任务在运行过程中发生特定事件时,确定实时计算任务的运行过程出现异常;
所述特定事件为假死事件;所述第二指定类型异常包括:Jar包丢失异常,无输出异常,无输入异常,内存异常,和/或,找不到通道异常。
可选地,计算平台包括:Spark Streaming计算平台或Storm计算平台;
当实时计算任务在Storm计算平台上运行时,所述对实时计算任务的数据处理能力进行监测还包括:
获取实时计算任务的数据处理失败率;
当监测到实时计算任务的数据处理失败率大于第五预设阈值时,确定实时计算任务的运行过程出现异常。
依据本发明的另一个方面,提供了一种对实时计算进行监控的装置,该装置包括:
第一监测单元,适于对实时计算任务的输入源的运行过程进行监测;
第二监测单元,适于对实时计算任务的运行过程进行监测;
其中,实时计算任务运行在计算平台上,实时计算任务从输入源获取数据并进行计算处理;
报警单元,适于当所述第一监测单元监测到实时计算任务的输入源的运行过程出现异常时,和/或,当第二监测单元监测到实时计算任务的运行过程出现异常时,向关联用户发送报警信息。
可选地,实时计算任务的输入源中包括数据产生方和数据消费方;
所述第一监测单元,适于对输入源中的数据产生方产生的数据量进行监测;和/或,对输入源中的数据消费方消费的数据量进行监测。
可选地,所述第二监测单元,适于对实时计算任务的数据处理能力进行监测;对实时计算任务的运行状态进行监测;对实时计算任务在运行过程中产生的运行日志进行监测;和/或,对实时计算任务在运行过程中是否发生特定事件进行监测。
可选地,所述第一监测单元,适于获取输入源中的数据产生方在每个单位时间内产生的数据量;将当前监测周期内产生的数据总量与前一监测周期内产生的数据总量进行比较,当二者的差异大于第一预设阈值时,和/或,将当前监测周期内的一个时间段内产生的数据总量与前一监测周期内的同一个时间段内产生的数据总量进行比较,当二者的差异大于第二预设阈值时,确定实时计算任务的输入源的运行过程出现异常。
可选地,所述第一监测单元,适于获取输入源中的数据产生方在每个单位时间内产生的数据量;当监测到数据产生方在第一预设时间长度内产生的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
可选地,所述第一监测单元,适于获取输入源中的数据消费方在每个单位时间内消费的数据量;当监测到数据消费方在第二预设时间长度内消费的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
可选地,输入源中的数据产生方产生的数据分布到多个数据队列中,输入源中的数据消费方从所述多个数据队列中读取数据进行消费;
所述第一监测单元,适于获取每个数据队列在每个单位时间内接收到的数据量和被读取的数据量,计算该数据队列在每个单位时间内接收到的数据量和被读取的数据量的比值;根据各数据队列在同一时间段内对应的比值计算该时间段对应的标准差;当该时间段内的标准差大于第三预设阈值时,确定输入源的数据分布不均;当监测到输入源的数据分布不均时,确定实时计算任务的输入源的运行过程出现异常。
可选地,所述第一监测单元,适于读取输入源中指示数据消费位置的标识,根据数据消费位置在每个单位时间内的变化,确定输入源中的数据消费方在每个单位时间内消费的数据量;以及,适于读取该数据队列中指示被读取数据位置的标识,根据被读取数据位置在每个单位时间内的变化,确定该数据队列在每个单位时间内被读取的数据量。
可选地,所述第二监测单元,适于获取实时计算任务当前正在处理的数据量;当实时计算任务当前正在处理的数据量大于第四预设阈值时,确定实时计算任务的运行过程出现异常。
可选地,所述第二监测单元,适于在将实时计算任务提交到计算平台时,获取实时计算任务对应的进程标识;每隔预设时间间隔,检查实时计算任务对应的进程标识是否在计算平台的进程列表中,是则确定实时计算任务处于运行状态,否则确定实时计算任务处于非运行状态;当监测到实时计算任务处于非运行状态时,确定实时计算任务的运行过程出现异常。
可选地,所述第二监测单元,适于当监测到实时计算任务在运行过程中产生的运行日志中记录指示第一指定类型异常的信息时,确定实时计算任务的运行过程出现异常;
所述第一指定类型异常包括:单条日志异常,和/或,集群节点丢失异常。
可选地,所述第二监测单元,适于对实时计算任务在运行过程中产生的运行日志进行监测;当监测到所述运行日志中记录指示第二指定类型异常的信息时,确定实时计算任务在运行过程中发生特定事件;当监测到实时计算任务在运行过程中发生特定事件时,确定实时计算任务的运行过程出现异常;
所述特定事件为假死事件;所述第二指定类型异常包括:Jar包丢失异常,无输出异常,无输入异常,内存异常,和/或,找不到通道异常。
可选地,计算平台包括:Spark Streaming计算平台或Storm计算平台;
当实时计算任务在Storm计算平台上运行时,所述第二监测单元还适于获取实时计算任务的数据处理失败率;当监测到实时计算任务的数据处理失败率大于第五预设阈值时,确定实时计算任务的运行过程出现异常。
由上述可知,本发明提供的技术方案在对实时计算进行监控时主要的监控内容分为两部分:对输入源的监控和对实时计算任务本身的监控,输入源的正常运行和实时计算任务本身的正常运行才能支撑起完整的实时计算流程,任一部分的运行过程出现问题都会造成实时计算过程的异常,因此,通过对输入源的运行过程的监测以及对实时计算任务的运行过程的监测,能够帮助关联用户及早发现问题并进行相应的补救,以维持实时计算过程的稳定有效进行。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种对实时计算进行监控的方法的流程图;
图2示出了根据本发明一个实施例的一种对实时计算进行监控的装置的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种对实时计算进行监控的方法的流程图。如图1所示,该方法包括:
步骤S110,对实时计算任务的输入源的运行过程进行监测。
步骤S120,对实时计算任务的运行过程进行监测。
其中,实时计算任务运行在计算平台上,实时计算任务从输入源获取数据并进行计算处理。
步骤S130,当监测到实时计算任务的输入源的运行过程出现异常时,和/或,当监测到实时计算任务的运行过程出现异常时,向关联用户发送报警信息。
可见,图1所示的方法在对实时计算进行监控时主要的监控内容分为两部分:对输入源的监控和对实时计算任务本身的监控,输入源的正常运行和实时计算任务本身的正常运行才能支撑起完整的实时计算流程,任一部分的运行过程出现问题都会造成实时计算过程的异常,因此,通过对输入源的运行过程的监测以及对实时计算任务的运行过程的监测,能够帮助关联用户及早发现问题并进行相应的补救,以维持实时计算过程的稳定有效进行。
在本发明的一个实施例中,实时计算任务的输入源中包括数据产生方和数据消费方;图1所示方法的步骤S110对实时计算任务的输入源的运行过程进行监测包括:对输入源中的数据产生方产生的数据量进行监测;和/或,对输入源中的数据消费方消费的数据量进行监测。例如,输入源为Kafka集群,是一个基于推送订阅分布式输入源,它具备快速、可扩展、可持久化的特点;Kafka集群对数据保存时根据主题(Topic)进行归类,包括数据产生方(Producer)和数据消费方(Consumer);则对该Kafka集群的运行过程进行监测包括:对Kafka集群中的数据产生方(Producer)产生的数据量进行监测,和/或,对Kafka集群中的数据消费方(Consumer)消费的数据量进行监测。
在一个具体的实施例中,上述对输入源中的数据产生方产生的数据量进行监测包括:
方案一,通过对输入源中的数据产生方产生的数据量进行同比和/或环比来监测数据产生方产生的数据量是否发生较大幅度的变化:获取输入源中的数据产生方在每个单位时间内产生的数据量;将当前监测周期内产生的数据总量与前一监测周期内产生的数据总量进行比较,当二者的差异大于第一预设阈值时,和/或,将当前监测周期内的一个时间段内产生的数据总量与前一监测周期内的同一个时间段内产生的数据总量进行比较,当二者的差异大于第二预设阈值时,确定实时计算任务的输入源的运行过程出现异常。沿用上文中输入源为Kafka集群的例子,根据Kafka集群自身的数据指标获取数据产生方(Producer)在每个单位时间内产生的数据量(Producer_speed),根据该Producer_speed可以计算出当天0:00-24:00内产生的数据总量,将该数据总量与昨天0:00-24:00内产生的数据总量相比,如果差异大于第一预设阈值,或者,将该数据总量与前一周的同一天(同为星期五)内产生的数据总量相比,如果差异大于第二预设阈值,说明数据产生方(Producer)产生的数据量发生突变,确定Kafka集群的运行过程出现异常。
方案二,获取输入源中的数据产生方在每个单位时间内产生的数据量;当监测到数据产生方在第一预设时间长度内产生的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。根据Kafka集群自身的数据指标获取数据产生方(Producer)在每个单位时间内产生的数据量(Producer_speed),当监测到连续30min的Producer_speed均为0,说明Kafka集群没有数据产生,确定Kafka集群的运行过程出现异常。
在另一个具体的实施例中,上述对输入源中的数据消费方消费的数据量进行监测包括:获取输入源中的数据消费方在每个单位时间内消费的数据量;当监测到数据消费方在第二预设时间长度内消费的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。其中,获取输入源中的数据消费方在每个单位时间内消费的数据量的方式是:根据输入源自身的数据指标(即输入源自身具有一个对应的数据指标页面,该页面中指示了输入源在各个维度上的数据指标)获取数据消费方在每个单位时间内消费的数据量,或者,读取输入源中指示数据消费位置的标识,根据数据消费位置在每个单位时间内的变化,确定输入源中的数据消费方在每个单位时间内消费的数据量。
在又一个具体的实施例中,输入源中的数据产生方产生的数据分布到多个数据队列中,输入源中的数据消费方从所述多个数据队列中读取数据进行消费;上述对输入源中的数据产生方产生的数据量进行监测和对输入源中的数据消费方消费的数据量进行监测包括:获取每个数据队列在每个单位时间内接收到的数据量和被读取的数据量,计算该数据队列在每个单位时间内接收到的数据量和被读取的数据量的比值;根据各数据队列在同一时间段内对应的比值计算该时间段对应的标准差;当该时间段内的标准差大于第三预设阈值时,确定输入源的数据分布不均;当监测到输入源的数据分布不均时,确定实时计算任务的输入源的运行过程出现异常。其中,所述获取每个数据队列在每个单位时间内被读取的数据量包括:读取该数据队列中指示被读取数据位置的标识,根据被读取数据位置在每个单位时间内的变化,确定该数据队列在每个单位时间内被读取的数据量。
沿用上文中输入源为Kafka集群的例子,在Kafka集群中,一个主题(Topic)的数据可以认为是一类数据,每个主题(Topic)将被分成多个数据队列(partition),对于每个数据队列(partition),任何发布到此数据队列(partition)的数据都会被直接追加到该数据队列(partition)的尾部,每条数据在数据队列(partition)中的位置称为偏移量(offset),偏移量为一个long型数字,它用来唯一地标记一条数据的位置信息;数据消费方(Consumer)在从数据队列(partition)中消费数据的过程中,偏移量(offset)随之变化,该偏移量(offset)即为Kafka集群指示数据消费位置的标识,根据偏移量(offset)在每个单位时间内的变化,确定Kafka集群中的数据消费方(Consumer)在每个单位时间内消费的数据量;更为具体地,根据每个数据队列(partition)中的偏移量(offset)在每个单位时间内的变化,获知每个数据队列(partition)在每个单位时间内接收到的数据量和被读取的数据量,如共有5个数据队列(partition),计算每个数据队列(partition)在当前周期内接收到的数据量和被读取的数据量的比值,根据5个数据队列(partition)对应的5个比值计算标准差,如果标准差过大,说明5个比值相对离散,即5个数据队列(partition)中的数据分布不均,确定Kafka集群的运行过程出现异常。
在本发明的其他实施例中,实时计算任务的输入源还可以是Qbus集群、Scribe集群等,对此类输入源的监控过程与上述原理相同,在此不再赘述。
在本发明的一个实施例中,图1所示方法的步骤S120对实时计算任务的运行过程进行监控包括以下几方面:对实时计算任务的数据处理能力进行监测;对实时计算任务的运行状态进行监测;对实时计算任务在运行过程中产生的运行日志进行监测;和/或,对实时计算任务在运行过程中是否发生特定事件进行监测。
在一个具体的实施例中,上述对实时计算任务的数据处理能力进行监测包括:获取实时计算任务当前正在处理的数据量;当实时计算任务当前正在处理的数据量大于第四预设阈值时,确定实时计算任务的运行过程出现异常。例如,根据实时计算平台自身的数据指标获取实时计算任务当前正在处理的数据量,如在Spark Streaming计算平台上运行的实时计算任务,其接收数据的方式不是流式连续接收而是按照数据流周期性地分段接收,每隔预设时间间隔接收一段数据流,每段数据流中包括前一预设时间间隔中产生的日志数据,在进行实时计算过程中需要分别对接收到的每段数据流中的日志数据进行初次解析和初次聚合,此时Spark Streaming计算平台自身的数据指标中会指示当前已接收到的且尚未处理完的数据流的数量,如果该数量过大,说明实时计算任务处理数据流效率远低于从输入源接收数据流的效率,导致实时计算平台上的待处理数据流的积滞,积滞到一定程度可能会导致实时计算平台的崩溃,因此要及时通知关联人员来进行平衡性地调整。
在另一个具体的实施例中,上述对实时计算任务的运行状态进行监测包括:在将实时计算任务提交到计算平台时,获取实时计算任务对应的进程标识;每隔预设时间间隔,检查实时计算任务对应的进程标识是否在计算平台的进程列表中,是则确定实时计算任务处于运行状态,否则确定实时计算任务处于非运行状态;当监测到实时计算任务处于非运行状态时,确定实时计算任务的运行过程出现异常。实时计算任务在实时计算平台上运行时会生成对应的进程号(PID),通过周期性地检查相应的PID的状态可以获知实时计算任务是否处于运行状态。
在又一个具体的实施例中,上述对实时计算任务在运行过程中产生的运行日志进行监测包括:当监测到实时计算任务在运行过程中产生的运行日志中记录指示第一指定类型异常的信息时,确定实时计算任务的运行过程出现异常;其中,所述第一指定类型异常包括:单条日志异常,和/或,集群节点丢失异常。
在再一个具体的实施例中,有些时候实时计算任务对应的PID存在在进程列表中但实时计算任务已经不运行了,即实时计算任务出现了“假死”的状态,上述对实时计算任务在运行过程中是否发生特定事件进行监测即是对实时计算任务的“假死”状态进行检测,包括:对实时计算任务在运行过程中产生的运行日志进行监测;当监测到所述运行日志中记录指示第二指定类型异常的信息时,确定实时计算任务在运行过程中发生特定事件;当监测到实时计算任务在运行过程中发生特定事件时,确定实时计算任务的运行过程出现异常;其中,所述特定事件为假死事件;所述第二指定类型异常包括:Jar包丢失异常,无输出异常,无输入异常,内存异常,和/或,找不到通道异常。
在本发明的一个实施例中,计算平台包括:Spark Streaming计算平台或Storm计算平台;当实时计算任务在Storm计算平台上运行时,上述对实时计算任务的数据处理能力进行监测还包括:获取实时计算任务的数据处理失败率;当监测到实时计算任务的数据处理失败率大于第五预设阈值时,确定实时计算任务的运行过程出现异常。
图2示出了根据本发明一个实施例的一种对实时计算进行监控的装置的示意图。如图2所示,该对实时计算进行监控的装置200包括:
第一监测单元210,适于对实时计算任务的输入源的运行过程进行监测。
第二监测单元220,适于对实时计算任务的运行过程进行监测。
其中,实时计算任务运行在计算平台上,实时计算任务从输入源获取数据并进行计算处理。
报警单元230,适于当所述第一监测单元监测到实时计算任务的输入源的运行过程出现异常时,和/或,当第二监测单元监测到实时计算任务的运行过程出现异常时,向关联用户发送报警信息。
可见,图2所示的装置在对实时计算进行监控时主要的监控内容分为两部分:对输入源的监控和对实时计算任务本身的监控,输入源的正常运行和实时计算任务本身的正常运行才能支撑起完整的实时计算流程,任一部分的运行过程出现问题都会造成实时计算过程的异常,因此,通过对输入源的运行过程的监测以及对实时计算任务的运行过程的监测,能够帮助关联用户及早发现问题并进行相应的补救,以维持实时计算过程的稳定有效进行。
在本发明的一个实施例中,实时计算任务的输入源中包括数据产生方和数据消费方;第一监测单元210,适于对输入源中的数据产生方产生的数据量进行监测;和/或,对输入源中的数据消费方消费的数据量进行监测。
具体地,第一监测单元210,适于获取输入源中的数据产生方在每个单位时间内产生的数据量;将当前监测周期内产生的数据总量与前一监测周期内产生的数据总量进行比较,当二者的差异大于第一预设阈值时,和/或,将当前监测周期内的一个时间段内产生的数据总量与前一监测周期内的同一个时间段内产生的数据总量进行比较,当二者的差异大于第二预设阈值时,确定实时计算任务的输入源的运行过程出现异常。
具体地,第一监测单元210,适于获取输入源中的数据产生方在每个单位时间内产生的数据量;当监测到数据产生方在第一预设时间长度内产生的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
具体地,第一监测单元210,适于获取输入源中的数据消费方在每个单位时间内消费的数据量;当监测到数据消费方在第二预设时间长度内消费的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
在本发明的一个实施例中,输入源中的数据产生方产生的数据分布到多个数据队列中,输入源中的数据消费方从所述多个数据队列中读取数据进行消费;第一监测单元210,适于获取每个数据队列在每个单位时间内接收到的数据量和被读取的数据量,计算该数据队列在每个单位时间内接收到的数据量和被读取的数据量的比值;根据各数据队列在同一时间段内对应的比值计算该时间段对应的标准差;当该时间段内的标准差大于第三预设阈值时,确定输入源的数据分布不均;当监测到输入源的数据分布不均时,确定实时计算任务的输入源的运行过程出现异常。
具体地,第一监测单元210,适于读取输入源中指示数据消费位置的标识,根据数据消费位置在每个单位时间内的变化,确定输入源中的数据消费方在每个单位时间内消费的数据量;以及,适于读取该数据队列中指示被读取数据位置的标识,根据被读取数据位置在每个单位时间内的变化,确定该数据队列在每个单位时间内被读取的数据量。
在本发明的一个实施例中,第二监测单元220,适于对实时计算任务的数据处理能力进行监测;对实时计算任务的运行状态进行监测;对实时计算任务在运行过程中产生的运行日志进行监测;和/或,对实时计算任务在运行过程中是否发生特定事件进行监测。
具体地,第二监测单元220,适于获取实时计算任务当前正在处理的数据量;当实时计算任务当前正在处理的数据量大于第四预设阈值时,确定实时计算任务的运行过程出现异常。
具体地,第二监测单元220,适于在将实时计算任务提交到计算平台时,获取实时计算任务对应的进程标识;每隔预设时间间隔,检查实时计算任务对应的进程标识是否在计算平台的进程列表中,是则确定实时计算任务处于运行状态,否则确定实时计算任务处于非运行状态;当监测到实时计算任务处于非运行状态时,确定实时计算任务的运行过程出现异常。
具体地,第二监测单元220,适于当监测到实时计算任务在运行过程中产生的运行日志中记录指示第一指定类型异常的信息时,确定实时计算任务的运行过程出现异常;所述第一指定类型异常包括:单条日志异常,和/或,集群节点丢失异常。
具体地,第二监测单元220,适于对实时计算任务在运行过程中产生的运行日志进行监测;当监测到所述运行日志中记录指示第二指定类型异常的信息时,确定实时计算任务在运行过程中发生特定事件;当监测到实时计算任务在运行过程中发生特定事件时,确定实时计算任务的运行过程出现异常;所述特定事件为假死事件;所述第二指定类型异常包括:Jar包丢失异常,无输出异常,无输入异常,内存异常,和/或,找不到通道异常。
在本发明的一个实施例中,计算平台包括:Spark Streaming计算平台或Storm计算平台;当实时计算任务在Storm计算平台上运行时,第二监测单元220还适于获取实时计算任务的数据处理失败率;当监测到实时计算任务的数据处理失败率大于第五预设阈值时,确定实时计算任务的运行过程出现异常。
需要说明的是,图2所示装置的各实施例与图1所示方法的各实施例对应相同,上文中已详细说明,在此不再赘述。
综上所述,本发明提供的技术方案在对实时计算进行监控时主要的监控内容分为两部分:对输入源的监控和对实时计算任务本身的监控,输入源的正常运行和实时计算任务本身的正常运行才能支撑起完整的实时计算流程,任一部分的运行过程出现问题都会造成实时计算过程的异常,因此,通过对输入源的运行过程的监测以及对实时计算任务的运行过程的监测,能够帮助关联用户及早发现问题并进行相应的补救,以维持实时计算过程的稳定有效进行。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种对实时计算进行监控的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种对实时计算进行监控的方法,其中,该方法包括:
对实时计算任务的输入源的运行过程进行监测;
对实时计算任务的运行过程进行监测;
其中,实时计算任务运行在计算平台上,实时计算任务从输入源获取数据并进行计算处理;
当监测到实时计算任务的输入源的运行过程出现异常时,和/或,当监测到实时计算任务的运行过程出现异常时,向关联用户发送报警信息。
A2、如A1所述的方法,其中,实时计算任务的输入源中包括数据产生方和数据消费方;所述对实时计算任务的输入源的运行过程进行监测包括:
对输入源中的数据产生方产生的数据量进行监测;
和/或,
对输入源中的数据消费方消费的数据量进行监测。
A3、如A1所述的方法,其中,所述对实时计算任务的运行过程进行监控包括:
对实时计算任务的数据处理能力进行监测;
对实时计算任务的运行状态进行监测;
对实时计算任务在运行过程中产生的运行日志进行监测;
和/或,
对实时计算任务在运行过程中是否发生特定事件进行监测。
A4、如A2所述的方法,其中,所述对输入源中的数据产生方产生的数据量进行监测包括:
获取输入源中的数据产生方在每个单位时间内产生的数据量;
将当前监测周期内产生的数据总量与前一监测周期内产生的数据总量进行比较,当二者的差异大于第一预设阈值时,和/或,将当前监测周期内的一个时间段内产生的数据总量与前一监测周期内的同一个时间段内产生的数据总量进行比较,当二者的差异大于第二预设阈值时,确定实时计算任务的输入源的运行过程出现异常。
A5、如A2所述的方法,其中,所述对输入源中的数据产生方产生的数据量进行监测包括:
获取输入源中的数据产生方在每个单位时间内产生的数据量;
当监测到数据产生方在第一预设时间长度内产生的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
A6、如A2所述的方法,其中,所述对输入源中的数据消费方消费的数据量进行监测包括:
获取输入源中的数据消费方在每个单位时间内消费的数据量;
当监测到数据消费方在第二预设时间长度内消费的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
A7、如A2所述的方法,其中,输入源中的数据产生方产生的数据分布到多个数据队列中,输入源中的数据消费方从所述多个数据队列中读取数据进行消费;所述对输入源中的数据产生方产生的数据量进行监测和对输入源中的数据消费方消费的数据量进行监测包括:
获取每个数据队列在每个单位时间内接收到的数据量和被读取的数据量,计算该数据队列在每个单位时间内接收到的数据量和被读取的数据量的比值;根据各数据队列在同一时间段内对应的比值计算该时间段对应的标准差;当该时间段内的标准差大于第三预设阈值时,确定输入源的数据分布不均;
当监测到输入源的数据分布不均时,确定实时计算任务的输入源的运行过程出现异常。
A8、如A6或A7所述的方法,其中,
所述获取输入源中的数据消费方在每个单位时间内消费的数据量包括:读取输入源中指示数据消费位置的标识,根据数据消费位置在每个单位时间内的变化,确定输入源中的数据消费方在每个单位时间内消费的数据量;
所述获取每个数据队列在每个单位时间内被读取的数据量包括:读取该数据队列中指示被读取数据位置的标识,根据被读取数据位置在每个单位时间内的变化,确定该数据队列在每个单位时间内被读取的数据量。
A9、如A3所述的方法,其中,所述对实时计算任务的数据处理能力进行监测包括:
获取实时计算任务当前正在处理的数据量;
当实时计算任务当前正在处理的数据量大于第四预设阈值时,确定实时计算任务的运行过程出现异常。
A10、如A3所述的方法,其中,所述对实时计算任务的运行状态进行监测包括:
在将实时计算任务提交到计算平台时,获取实时计算任务对应的进程标识;
每隔预设时间间隔,检查实时计算任务对应的进程标识是否在计算平台的进程列表中,是则确定实时计算任务处于运行状态,否则确定实时计算任务处于非运行状态;
当监测到实时计算任务处于非运行状态时,确定实时计算任务的运行过程出现异常。
A11、如A3所述的方法,其中,所述对实时计算任务在运行过程中产生的运行日志进行监测包括:
当监测到实时计算任务在运行过程中产生的运行日志中记录指示第一指定类型异常的信息时,确定实时计算任务的运行过程出现异常;
所述第一指定类型异常包括:单条日志异常,和/或,集群节点丢失异常。
A12、如A3所述的方法,其中,所述对实时计算任务在运行过程中是否发生特定事件进行监测包括:
对实时计算任务在运行过程中产生的运行日志进行监测;
当监测到所述运行日志中记录指示第二指定类型异常的信息时,确定实时计算任务在运行过程中发生特定事件;
当监测到实时计算任务在运行过程中发生特定事件时,确定实时计算任务的运行过程出现异常;
所述特定事件为假死事件;所述第二指定类型异常包括:Jar包丢失异常,无输出异常,无输入异常,内存异常,和/或,找不到通道异常。
A13、如A3所述的方法,其中,计算平台包括:Spark Streaming计算平台或Storm计算平台;
当实时计算任务在Storm计算平台上运行时,所述对实时计算任务的数据处理能力进行监测还包括:
获取实时计算任务的数据处理失败率;
当监测到实时计算任务的数据处理失败率大于第五预设阈值时,确定实时计算任务的运行过程出现异常。
本发明公开了B14、一种对实时计算进行监控的装置,其中,该装置包括:
第一监测单元,适于对实时计算任务的输入源的运行过程进行监测;
第二监测单元,适于对实时计算任务的运行过程进行监测;
其中,实时计算任务运行在计算平台上,实时计算任务从输入源获取数据并进行计算处理;
报警单元,适于当所述第一监测单元监测到实时计算任务的输入源的运行过程出现异常时,和/或,当第二监测单元监测到实时计算任务的运行过程出现异常时,向关联用户发送报警信息。
B15、如B14所述的装置,其中,实时计算任务的输入源中包括数据产生方和数据消费方;
所述第一监测单元,适于对输入源中的数据产生方产生的数据量进行监测;和/或,对输入源中的数据消费方消费的数据量进行监测。
B16、如B14所述的装置,其中,
所述第二监测单元,适于对实时计算任务的数据处理能力进行监测;对实时计算任务的运行状态进行监测;对实时计算任务在运行过程中产生的运行日志进行监测;和/或,对实时计算任务在运行过程中是否发生特定事件进行监测。
B17、如B15所述的装置,其中,
所述第一监测单元,适于获取输入源中的数据产生方在每个单位时间内产生的数据量;将当前监测周期内产生的数据总量与前一监测周期内产生的数据总量进行比较,当二者的差异大于第一预设阈值时,和/或,将当前监测周期内的一个时间段内产生的数据总量与前一监测周期内的同一个时间段内产生的数据总量进行比较,当二者的差异大于第二预设阈值时,确定实时计算任务的输入源的运行过程出现异常。
B18、如B15所述的装置,其中,
所述第一监测单元,适于获取输入源中的数据产生方在每个单位时间内产生的数据量;当监测到数据产生方在第一预设时间长度内产生的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
B19、如B15所述的装置,其中,
所述第一监测单元,适于获取输入源中的数据消费方在每个单位时间内消费的数据量;当监测到数据消费方在第二预设时间长度内消费的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
B20、如B15所述的装置,其中,输入源中的数据产生方产生的数据分布到多个数据队列中,输入源中的数据消费方从所述多个数据队列中读取数据进行消费;
所述第一监测单元,适于获取每个数据队列在每个单位时间内接收到的数据量和被读取的数据量,计算该数据队列在每个单位时间内接收到的数据量和被读取的数据量的比值;根据各数据队列在同一时间段内对应的比值计算该时间段对应的标准差;当该时间段内的标准差大于第三预设阈值时,确定输入源的数据分布不均;当监测到输入源的数据分布不均时,确定实时计算任务的输入源的运行过程出现异常。
B21、如B19或B20所述的装置,其中,
所述第一监测单元,适于读取输入源中指示数据消费位置的标识,根据数据消费位置在每个单位时间内的变化,确定输入源中的数据消费方在每个单位时间内消费的数据量;以及,适于读取该数据队列中指示被读取数据位置的标识,根据被读取数据位置在每个单位时间内的变化,确定该数据队列在每个单位时间内被读取的数据量。
B22、如B16所述的装置,其中,
所述第二监测单元,适于获取实时计算任务当前正在处理的数据量;当实时计算任务当前正在处理的数据量大于第四预设阈值时,确定实时计算任务的运行过程出现异常。
B23、如B16所述的装置,其中,
所述第二监测单元,适于在将实时计算任务提交到计算平台时,获取实时计算任务对应的进程标识;每隔预设时间间隔,检查实时计算任务对应的进程标识是否在计算平台的进程列表中,是则确定实时计算任务处于运行状态,否则确定实时计算任务处于非运行状态;当监测到实时计算任务处于非运行状态时,确定实时计算任务的运行过程出现异常。
B24、如B16所述的装置,其中,
所述第二监测单元,适于当监测到实时计算任务在运行过程中产生的运行日志中记录指示第一指定类型异常的信息时,确定实时计算任务的运行过程出现异常;
所述第一指定类型异常包括:单条日志异常,和/或,集群节点丢失异常。
B25、如B16所述的装置,其中,
所述第二监测单元,适于对实时计算任务在运行过程中产生的运行日志进行监测;当监测到所述运行日志中记录指示第二指定类型异常的信息时,确定实时计算任务在运行过程中发生特定事件;当监测到实时计算任务在运行过程中发生特定事件时,确定实时计算任务的运行过程出现异常;
所述特定事件为假死事件;所述第二指定类型异常包括:Jar包丢失异常,无输出异常,无输入异常,内存异常,和/或,找不到通道异常。
B26、如B16所述的装置,其中,计算平台包括:Spark Streaming计算平台或Storm计算平台;
当实时计算任务在Storm计算平台上运行时,所述第二监测单元还适于获取实时计算任务的数据处理失败率;当监测到实时计算任务的数据处理失败率大于第五预设阈值时,确定实时计算任务的运行过程出现异常。

Claims (10)

1.一种对实时计算进行监控的方法,其中,该方法包括:
对实时计算任务的输入源的运行过程进行监测;
对实时计算任务的运行过程进行监测;
其中,实时计算任务运行在计算平台上,实时计算任务从输入源获取数据并进行计算处理;
当监测到实时计算任务的输入源的运行过程出现异常时,和/或,当监测到实时计算任务的运行过程出现异常时,向关联用户发送报警信息。
2.如权利要求1所述的方法,其中,实时计算任务的输入源中包括数据产生方和数据消费方;所述对实时计算任务的输入源的运行过程进行监测包括:
对输入源中的数据产生方产生的数据量进行监测;
和/或,
对输入源中的数据消费方消费的数据量进行监测。
3.如权利要求1所述的方法,其中,所述对实时计算任务的运行过程进行监控包括:
对实时计算任务的数据处理能力进行监测;
对实时计算任务的运行状态进行监测;
对实时计算任务在运行过程中产生的运行日志进行监测;
和/或,
对实时计算任务在运行过程中是否发生特定事件进行监测。
4.如权利要求2所述的方法,其中,所述对输入源中的数据产生方产生的数据量进行监测包括:
获取输入源中的数据产生方在每个单位时间内产生的数据量;
将当前监测周期内产生的数据总量与前一监测周期内产生的数据总量进行比较,当二者的差异大于第一预设阈值时,和/或,将当前监测周期内的一个时间段内产生的数据总量与前一监测周期内的同一个时间段内产生的数据总量进行比较,当二者的差异大于第二预设阈值时,确定实时计算任务的输入源的运行过程出现异常。
5.如权利要求2所述的方法,其中,所述对输入源中的数据产生方产生的数据量进行监测包括:
获取输入源中的数据产生方在每个单位时间内产生的数据量;
当监测到数据产生方在第一预设时间长度内产生的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
6.如权利要求2所述的方法,其中,所述对输入源中的数据消费方消费的数据量进行监测包括:
获取输入源中的数据消费方在每个单位时间内消费的数据量;
当监测到数据消费方在第二预设时间长度内消费的数据量为零时,确定实时计算任务的输入源的运行过程出现异常。
7.如权利要求2所述的方法,其中,输入源中的数据产生方产生的数据分布到多个数据队列中,输入源中的数据消费方从所述多个数据队列中读取数据进行消费;所述对输入源中的数据产生方产生的数据量进行监测和对输入源中的数据消费方消费的数据量进行监测包括:
获取每个数据队列在每个单位时间内接收到的数据量和被读取的数据量,计算该数据队列在每个单位时间内接收到的数据量和被读取的数据量的比值;根据各数据队列在同一时间段内对应的比值计算该时间段对应的标准差;当该时间段内的标准差大于第三预设阈值时,确定输入源的数据分布不均;
当监测到输入源的数据分布不均时,确定实时计算任务的输入源的运行过程出现异常。
8.如权利要求6或7所述的方法,其中,
所述获取输入源中的数据消费方在每个单位时间内消费的数据量包括:读取输入源中指示数据消费位置的标识,根据数据消费位置在每个单位时间内的变化,确定输入源中的数据消费方在每个单位时间内消费的数据量;
所述获取每个数据队列在每个单位时间内被读取的数据量包括:读取该数据队列中指示被读取数据位置的标识,根据被读取数据位置在每个单位时间内的变化,确定该数据队列在每个单位时间内被读取的数据量。
9.一种对实时计算进行监控的装置,其中,该装置包括:
第一监测单元,适于对实时计算任务的输入源的运行过程进行监测;
第二监测单元,适于对实时计算任务的运行过程进行监测;
其中,实时计算任务运行在计算平台上,实时计算任务从输入源获取数据并进行计算处理;
报警单元,适于当所述第一监测单元监测到实时计算任务的输入源的运行过程出现异常时,和/或,当第二监测单元监测到实时计算任务的运行过程出现异常时,向关联用户发送报警信息。
10.如权利要求9所述的装置,其中,实时计算任务的输入源中包括数据产生方和数据消费方;
所述第一监测单元,适于对输入源中的数据产生方产生的数据量进行监测;和/或,对输入源中的数据消费方消费的数据量进行监测。
CN201610709947.9A 2016-08-23 2016-08-23 一种对实时计算进行监控的方法和装置 Active CN106371968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610709947.9A CN106371968B (zh) 2016-08-23 2016-08-23 一种对实时计算进行监控的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610709947.9A CN106371968B (zh) 2016-08-23 2016-08-23 一种对实时计算进行监控的方法和装置

Publications (2)

Publication Number Publication Date
CN106371968A true CN106371968A (zh) 2017-02-01
CN106371968B CN106371968B (zh) 2019-03-05

Family

ID=57879504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610709947.9A Active CN106371968B (zh) 2016-08-23 2016-08-23 一种对实时计算进行监控的方法和装置

Country Status (1)

Country Link
CN (1) CN106371968B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423141A (zh) * 2017-06-20 2017-12-01 北京小度信息科技有限公司 信息处理方法及装置
CN107509119A (zh) * 2017-07-11 2017-12-22 北京潘达互娱科技有限公司 一种监控报警方法与装置
CN108062251A (zh) * 2018-01-09 2018-05-22 福建星瑞格软件有限公司 一种服务器资源回收方法以及计算机设备
CN109144761A (zh) * 2018-07-12 2019-01-04 北京猫眼文化传媒有限公司 一种数据故障处理方法及系统
CN109190025A (zh) * 2018-08-21 2019-01-11 北京京东尚科信息技术有限公司 信息监控方法、装置、系统和计算机可读存储介质
CN109561133A (zh) * 2018-10-23 2019-04-02 深圳壹账通智能科技有限公司 业务处理方法、装置、设备及计算机可读存储介质
CN110971483A (zh) * 2019-11-08 2020-04-07 苏宁云计算有限公司 一种压力测试的方法、装置及计算机系统
CN111126933A (zh) * 2019-11-11 2020-05-08 中盈优创资讯科技有限公司 Kafka生产和消费进度监控方法及装置
CN111522719A (zh) * 2020-04-27 2020-08-11 中国银行股份有限公司 大数据任务状态的监控方法及装置
CN111984429A (zh) * 2019-05-21 2020-11-24 阿里巴巴集团控股有限公司 基于消息队列的通信方法及装置
CN113535514A (zh) * 2021-07-02 2021-10-22 中科曙光国际信息产业有限公司 作业跟踪方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555228C (zh) * 2006-11-08 2009-10-28 中兴通讯股份有限公司 一种嵌入式linux应用进程的监控方法
US20120324000A1 (en) * 2011-06-17 2012-12-20 Oracle International Corporation System and method for flow control in a messaging subsystem based on message-in/out rates
CN104360923A (zh) * 2014-11-03 2015-02-18 中国银行股份有限公司 批量应用进程的监控方法及监控系统
CN104683171A (zh) * 2013-12-02 2015-06-03 中国移动通信集团广东有限公司 应用软件的实时监控方法及装置
CN105183609A (zh) * 2015-09-16 2015-12-23 焦点科技股份有限公司 一种应用于软件系统的实时监控系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555228C (zh) * 2006-11-08 2009-10-28 中兴通讯股份有限公司 一种嵌入式linux应用进程的监控方法
US20120324000A1 (en) * 2011-06-17 2012-12-20 Oracle International Corporation System and method for flow control in a messaging subsystem based on message-in/out rates
CN104683171A (zh) * 2013-12-02 2015-06-03 中国移动通信集团广东有限公司 应用软件的实时监控方法及装置
CN104360923A (zh) * 2014-11-03 2015-02-18 中国银行股份有限公司 批量应用进程的监控方法及监控系统
CN105183609A (zh) * 2015-09-16 2015-12-23 焦点科技股份有限公司 一种应用于软件系统的实时监控系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏彬: "基于分布式日志系统的数据云服务平台设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423141A (zh) * 2017-06-20 2017-12-01 北京小度信息科技有限公司 信息处理方法及装置
CN107423141B (zh) * 2017-06-20 2020-05-19 北京星选科技有限公司 信息处理方法及装置
CN107509119A (zh) * 2017-07-11 2017-12-22 北京潘达互娱科技有限公司 一种监控报警方法与装置
CN107509119B (zh) * 2017-07-11 2020-02-21 北京潘达互娱科技有限公司 一种监控报警方法与装置
CN108062251A (zh) * 2018-01-09 2018-05-22 福建星瑞格软件有限公司 一种服务器资源回收方法以及计算机设备
CN108062251B (zh) * 2018-01-09 2023-02-28 福建星瑞格软件有限公司 一种服务器资源回收方法以及计算机设备
CN109144761A (zh) * 2018-07-12 2019-01-04 北京猫眼文化传媒有限公司 一种数据故障处理方法及系统
CN109190025A (zh) * 2018-08-21 2019-01-11 北京京东尚科信息技术有限公司 信息监控方法、装置、系统和计算机可读存储介质
CN109190025B (zh) * 2018-08-21 2021-09-14 北京京东尚科信息技术有限公司 信息监控方法、装置、系统和计算机可读存储介质
CN109561133A (zh) * 2018-10-23 2019-04-02 深圳壹账通智能科技有限公司 业务处理方法、装置、设备及计算机可读存储介质
WO2020233461A1 (zh) * 2019-05-21 2020-11-26 阿里巴巴集团控股有限公司 基于消息队列的通信方法及装置
CN111984429A (zh) * 2019-05-21 2020-11-24 阿里巴巴集团控股有限公司 基于消息队列的通信方法及装置
CN110971483B (zh) * 2019-11-08 2021-11-09 苏宁云计算有限公司 一种压力测试的方法、装置及计算机系统
CN110971483A (zh) * 2019-11-08 2020-04-07 苏宁云计算有限公司 一种压力测试的方法、装置及计算机系统
CN111126933A (zh) * 2019-11-11 2020-05-08 中盈优创资讯科技有限公司 Kafka生产和消费进度监控方法及装置
CN111126933B (zh) * 2019-11-11 2023-09-29 中盈优创资讯科技有限公司 Kafka生产和消费进度监控方法及装置
CN111522719A (zh) * 2020-04-27 2020-08-11 中国银行股份有限公司 大数据任务状态的监控方法及装置
CN111522719B (zh) * 2020-04-27 2023-12-01 中国银行股份有限公司 大数据任务状态的监控方法及装置
CN113535514A (zh) * 2021-07-02 2021-10-22 中科曙光国际信息产业有限公司 作业跟踪方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN106371968B (zh) 2019-03-05

Similar Documents

Publication Publication Date Title
CN106371968A (zh) 一种对实时计算进行监控的方法和装置
CN109039833B (zh) 一种监控带宽状态的方法和装置
CN106156307A (zh) 一种实时计算平台的数据处理系统和方法
US20160253425A1 (en) Bloom filter based log data analysis
CN109032914A (zh) 资源占用数据预测方法、电子设备、存储介质
CN104182332B (zh) 判断资源泄漏、预测资源使用情况的方法及装置
CN110058977A (zh) 基于流式处理的监控指标异常检测方法、装置及设备
CN106844145A (zh) 一种服务器硬件故障预警方法和装置
CN106874280A (zh) 异常数据的报警方法和装置
CN106940677A (zh) 一种应用日志数据告警方法及装置
CN106202324A (zh) 一种实时计算平台的数据处理方法和装置
CN110187980B (zh) 消息队列监控方法、装置、电子设备及可读存储介质
CN104778111A (zh) 一种进行报警的方法和装置
CN107391335B (zh) 一种用于检查集群健康状态的方法和设备
CN107346272A (zh) 动态异构冗余系统的确定方法和装置
CN107423141A (zh) 信息处理方法及装置
CN104426696A (zh) 一种故障处理的方法及装置
CN105100216B (zh) 一种多业务的监控方法和装置
CN107491374A (zh) 一种设备停机状态的判断方法及计算设备
CN110471822A (zh) 用于监控主机系统的方法、装置、计算机系统和介质
US20120030520A1 (en) Storage and output of trace data
CN110673973A (zh) 应用程序编程接口api的异常确定方法和装置
CN112433908B (zh) 确定检测服务器的间隔时间的方法、系统、设备及介质
CN109597680A (zh) 任务排队响应参数估算方法及装置
CN108920326A (zh) 确定系统耗时异常的方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220714

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right