CN109960635A - 实时计算平台的监控和报警方法、系统、设备及存储介质 - Google Patents
实时计算平台的监控和报警方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN109960635A CN109960635A CN201910312130.1A CN201910312130A CN109960635A CN 109960635 A CN109960635 A CN 109960635A CN 201910312130 A CN201910312130 A CN 201910312130A CN 109960635 A CN109960635 A CN 109960635A
- Authority
- CN
- China
- Prior art keywords
- application program
- real
- alarm
- monitoring
- computing platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种实时计算平台的监控和报警方法、系统、设备及存储介质,所述方法包括:获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,判断所述应用程序是否处于运行状态;如果所述应用程序处于运行状态,则根据预设的运行状态判断规则判断所述应用程序是否运行正常,以及则读取所述应用程序的埋点数据,根据设定的基准埋点数据判断所述应用程序是否运行正常。通过采用本发明的方案,提供了对实时计算平台的多维度监控,对实时计算平台的监控更为灵活。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种实时计算平台的监控和报警方法、系统、设备及存储介质。
背景技术
随着互联网技术的快速发展,每天产生的数据正以指数级的速度增长,对这些大量数据的处理与分析具有巨大的应用价值,而实时数据的增多,传统的离线数据计算已经越来越难以满足分析的需求,因此流式计算应用越来越广泛。
目前,实时计算任务的需求持续增长,关于实时计算任务的监控尚不完善,而实时计算具有很高的实时性以及稳定性的要求,如果不能进行有效的实时监控,及时的处理报错,经常会带来巨大损失。监控系统的全面建立能够及时监控任务的报错,数据的异常,缩短处理任务异常所需的时间,更好的保证程序的稳定运行。然而,现有技术中,针对于流式计算任务的报警系统却并不完善,并且尚没有一套成熟的方案。
现有的实时任务的监控一般通过Grafana等可视化组件实现,Grafana是一个跨平台的开源的度量分析和可视化工具,可以通过将采集的数据查询进行可视化的展示,并及时通知。用户通过配置信息到Grafana,检测到用户写到opentsdb信息,进行展示,并选择适当方式的报警。Opentsdb是基于Hbase的时序数据库,主要针对具有时间特性和需求的数据,如监控数据、温度变化数据等,opentsdb是在Hbase(一个分布式的、面向列的开源数据库)的基础上,进行数据结构的优化和处理,从而适合存储具有时间特性的数据,同时提供特定的工具进行查询等操作。
然而现有的方法中,对任务运行具体状态,应用本身metrics(metrics是一个给JAVA服务的各项指标提供度量工具的包)信息等没有做到明确的监控。此外,采用该种方法,在出现异常后需要用户进一步登录YARN日志界面进行查看,YARN即Yet AnotherResource Negotiator,另一种资源协调者,是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,并且不支持电话告警等更加及时有效的配置方式。因此只适合用户监控看板,查看任务一段时间运行状态。而作为刚需的报警功能支持上并不灵活,亦不完善。并且由于是直接应用的系统,配置方式以及场景都比较固化,一些特殊需求并没有办法通过二次开发实现。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种实时计算平台的监控和报警方法、系统、设备及存储介质,提供多维度监控方法。
本发明实施例提供一种实时计算平台的监控方法,包括如下步骤:
S100:获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,判断所述应用程序是否处于运行状态;
S200:如果所述应用程序处于运行状态,则根据预设的运行状态判断规则判断所述应用程序是否运行正常;
S300:如果所述应用程序处于运行状态,则读取所述应用程序的埋点数据,根据设定的基准埋点数据判断所述应用程序是否运行正常。
可选地,所述读取应用程序的埋点数据,包括通过openTSDB应用程序编程接口读取应用程序中的埋点数据。
可选地,所述方法还包括获取用户设定的监控的应用程序名称,并创建与应用程序名称关联的监控任务。
可选地,所述监控方法还包括将所述监控任务注册到Zookeeper中,各个所述监控任务用于针对关联的应用程序执行所述步骤S100到步骤S300。
可选地,所述运行状态判断规则包括应用程序所占用的各项资源的使用率的基准范围,如果应用程序对各项资源的使用率处于对应的基准范围之内,则应用程序运行正常,否则应用程序运行异常。
可选地,所述方法还包括获取用户设定的应用程序对各项资源的使用率的基准范围以及用户设定的基准埋点数据。
本发明实施例还提供一种实时计算平台的报警方法,基于所述的实时计算平台的监控方法实现,所述报警方法包括如下步骤:
S400:如果应用程序未处于运行状态或应用程序运行异常,根据预设的异常等级判定规则评定应用程序异常等级;
S500:根据应用程序的异常等级选择预设的报警方式进行报警。
可选地,所述报警方法还包括获取用户设定的监控程序对应的报警信息,所述报警信息包括报警人联系方式、异常等级判定规则以及各个异常等级所对应的报警方式。
本发明实施例还提供一种实时计算平台的报警系统,应用于所述的实时计算平台的监控方法,所述报警系统包括:
数据采集模块,用于获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,以及读取应用程序的埋点数据;
数据处理模块,用于根据应用程序的运行数据判断应用程序是否处于运行状态,如果应用程序处于运行状态,则根据预设的运行状态判断规则判断应用程序是否运行正常,并根据设定的基准埋点数据判断应用程序是否运行正常;
异常分类模块,用于如果应用程序未处于运行状态或应用程序运行异常,根据预设的异常等级判定规则评定应用程序异常等级;
异常报警模块,用于根据应用程序的异常等级选择预设的报警方式进行报警。
本发明实施例还提供一种实时计算平台的报警设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的实时计算平台的报警方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的实时计算平台的报警方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明所提供的实时计算平台的监控和报警方法、系统、设备及存储介质具有下列优点:
本发明解决了现有技术中的问题,其中,监控方法提供了对实时计算平台的多维度监控,对实时计算平台的监控更为灵活;报警方法提供了更为灵活的报警方法,根据异常等级采用不同的报警方式,用户无需一直关注实时计算平台的监控状态,只需要在接收到报警信息时去查看异常状态即可,并且便于用户快速发现和处理异常。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的实时计算平台的监控方法的流程图;
图2是本发明一实施例的实时计算平台的报警方法的流程图;
图3是本发明一实施例的实时计算平台的报警系统的结构示意图;
图4是本发明一实施例的实时计算平台的报警系统的架构图;
图5是本发明一实施例的实时计算平台的报警设备的示意图;
图6是本发明一实施例的计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,本发明实施例提供一种实时计算平台的监控方法,包括如下步骤:
S110:获取另一种资源协调器YARN的metrics信息;
S120:采用监控的应用程序的名称进行匹配,在metrics信息中匹配到监控的应用程序的运行数据;
S130:根据所述应用程序的运行数据判断所述应用程序是否处于运行状态;
S200:如果应用程序处于运行状态,则根据预设的运行状态判断规则判断应用程序是否运行正常;即此处将应用程序的运行数据与预设的运行状态判断规则进行逻辑比对;
S300:如果应用程序处于运行状态,则读取应用程序的埋点数据,根据设定的基准埋点数据判断应用程序是否运行正常,即此处将读取到的埋点数据与设定的基准埋点数据进行逻辑比对。
因此,本发明的实时计算平台的监控方法实现了对实时计算平台的三个维度的监控:步骤S130中,根据metrics信息判断应用程序是否处于运行状态;步骤S200中,根据运行数据判断应用程序是否运行正常;步骤S300中,根据埋点数据判断应用程序是否运行正常。通过三个维度的设置,监控更加全面。
在该实施例中,所述方法还包括获取用户设定的监控的应用程序名称,并创建与应用程序名称关联的监控任务。监控任务用于针对关联的应用程序执行所述步骤S100到步骤S300。进一步地,还可以获取监控的应用程序的yarn_application_id,由于yarn_application_id在实际应用中会有所变化,而不是唯一不变的,但应用程序名称对于应用程序来说是始终唯一不变的,因此,步骤S120中采用应用程序名称来匹配运行数据,并且可以基于应用程序名称匹配到最新的运行数据之后,再匹配到应用程序最新的yarn_application_id,来更新记录的yarn_application_id。
在该实施例中,所述步骤S300中,读取应用程序的埋点数据,包括通过openTSDB应用程序编程接口读取应用程序中的埋点数据。数据埋点是数据产品经理、数据运营以及数据分析师,基于业务需求(例如:点击付费广告中统计每一个广告位的点击次数),产品需求(例如:推荐系统中推荐商品的曝光次数以及点击的人数)对用户行为的每一个事件对应的位置进行开发埋点,并通过软件开发工具包上报埋点的数据结果,记录数据汇总后进行分析,推动产品优化或指导运营。埋点分析,是网站分析的一种常用的数据采集方法。其中,设定的基准埋点数据可以由用户进行自定义,即变更监控是否异常的判断标准。该实时计算平台的监控方法还包括获取用户自定义的基准埋点数据的步骤。基准埋点数据可以是埋点数据本身的数据量大小的范围,也可以是对埋点数据进行运算后的数据量大小的范围,例如根据时间计算的一埋点数据的数据变化斜率,而基准埋点数据即为数据变化斜率的基准范围。
在该实施例中,所述监控方法还包括将所述监控任务注册到Zookeeper中。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的分布式协调系统Chubby一个开源的实现,是Hadoop(由Apache基金会所开发的分布式系统基础架构)和Hbase(分布式的、面向列的开源数据库)的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。Zookeeper通过任务调度,每隔一段预设时间间隔进行一次轮询,获取到所需运行数据和埋点数据,并进行判断和分析,避免了单点故障问题。
在该实施例中,所述运行状态判断规则包括应用程序所占用的各项资源的使用率的基准范围,如果应用程序对各项资源的使用率处于对应的基准范围之内,则应用程序运行正常,否则应用程序运行异常。例如,
在该实施例中,所述方法还包括获取用户设定的应用程序对各项资源的使用率的基准范围。例如,设定应用程序在运行时的CPU使用率基准范围为10%~20%,如果应用程序实际运行数据中CPU使用率为5%,则应用程序运行异常,如果应用程序实际运行数据中CPU使用率为15%,则应用程序运行正常。此处,资源也可以是内存使用率或其他系统资源的使用率。
如图2所示,在上述的实时计算平台的监控方法的基础上,本发明实施例还提供一种实时计算平台的报警方法,所述报警方法包括如下步骤:
S400:如果应用程序未处于运行状态或应用程序运行异常,根据预设的异常等级判定规则评定应用程序异常等级;
S500:根据应用程序的异常等级选择预设的报警方式进行报警。
步骤S500中,在需要向用户报警时,不仅可以将异常的应用程序名称、异常类型发送给用户,也可以将异常相关的数据一起发送给用户,用户在接收到报警信息后,无需去查看YARN日志即可以快速了解应用程序运行异常状态。例如,如果应用程序未运行,则将应用程序启动失败相关的报警数据发送给用户,如果应用程序某一个埋点数据异常,则将该异常的埋点数据的名称、实际数值和基准数值范围一起发送给用户,如果应用程序中某一资源使用率异常,则将该异常的资源名称、实际使用率和基准数值范围一起发送给用户。
如果应用程序处于运行状态且应用程序运行正常,则不进行报警操作,再下一个任务执行周期时重新从步骤S100开始执行。
因此,通过采用本发明的实时计算平台的报警方法,在监控发现应用程序未运行或者运行异常时能够及时进行报警,用户无需一直盯着监控平台,只需要在接收到报警信息之后及时查看监控数据即可,节省了用户的时间和精力。在报警时,可以根据异常等级来选择合适的报警方式,例如对于比较严重的异常情况选择直接电话报警,对于一些比较轻微的异常情况可以选择钉钉告警或邮件告警等等。
在该实施例中,所述报警方法还包括获取用户设定的监控程序对应的报警信息,所述报警信息包括报警人联系方式、异常等级判定规则以及各个异常等级所对应的报警方式。异常等级判定规则可以根据异常种类和异常的指标进行判定,例如应用程序未运行时属于最高等级的异常等级,应用程序运行时资源使用率不在基准范围内的为中等的异常等级,应用程序运行时部分埋点数据不在对应的基准范围内为低级的异常等级等等,具体异常等级的判定标准可以由用户自由设定,并且可以由用户灵活更改。异常等级对应的报警方式可以设置为高级异常等级时,直接采用电话等时效性比较高的报警方式及时通知用户,中等异常等级则可以采用钉钉或邮件方式通知用户,如果一段时间内用户没有查看则再次通知,低等异常等级可以采用钉钉或邮件方式通知用户。
如图3和图4所示,本发明实施例还提供一种实时计算平台的报警系统,应用于所述的实时计算平台的监控方法,所述报警系统包括:
数据采集模块M100,用于获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,以及读取应用程序的埋点数据;
数据处理模块M200,用于根据应用程序的运行数据判断应用程序是否处于运行状态,如果应用程序处于运行状态,则根据预设的运行状态判断规则判断应用程序是否运行正常,并根据设定的基准埋点数据判断应用程序是否运行正常;
异常分类模块M300,用于如果应用程序未处于运行状态或应用程序运行异常,根据预设的异常等级判定规则评定应用程序异常等级;
异常报警模块M400,用于根据应用程序的异常等级选择预设的报警方式进行报警。
因此,通过采用本发明的实时计算平台的报警系统,通过数据采集模块M100和数据处理模块M200,可以实现对实时计算平台三个维度的实时监控,对实时计算平台的监控更加全面;采用异常分类模块M300和异常报警模块M400,在监控发现应用程序未运行或者运行异常时能够及时进行报警,用户无需一直盯着监控平台,只需要在接收到报警信息之后及时查看监控数据即可,节省了用户的时间和精力。在报警时,可以根据异常等级来选择合适的报警方式,例如对于比较严重的异常情况选择直接电话报警,对于一些比较轻微的异常情况可以选择钉钉告警或邮件告警等等,报警方式灵活,人性化。
该实施例中,实时计算平台的报警系统中的各个模块的功能可以采用如上实时计算平台的报警方法中各个步骤的具体实施方式来实现。例如,数据采集模块M100和数据处理模块M200的功能可以采用上述步骤S100~S300的具体实施方式来实现,异常分类模块M300和异常报警模块M400可以采用上述步骤S400和S500的具体实施方式来实现,此处不予赘述。
进一步地,实时计算平台的报警系统还可以包括用户设置模块,用于接收用户设置的一些数据。具体地,用户可以通过用户设置模块设置采集的报警信息,例如报警人信息、监控的应用程序名称、埋点的设置等,用户也可以通过用户设置模块设置监控判断和报警的规则,例如资源使用率的基准范围、埋点数据的基准范围、异常等级判定规则、异常等级与报警方式的对应关系等等,从而实现用户灵活设置监控和报警规则。
异常报警模块M400在配合报警平台向用户报警时,不仅可以将异常的应用程序名称、异常类型发送给用户,也可以将异常相关的数据一起发送给用户,用户在接收到报警信息后,无需去查看YARN日志即可以快速了解应用程序运行异常状态。例如,如果应用程序未运行,则将应用程序启动失败相关的报警数据发送给用户,如果应用程序某一个埋点数据异常,则将该异常的埋点数据的名称、实际数值和基准数值范围一起发送给用户,如果应用程序中某一资源使用率异常,则将该异常的资源名称、实际使用率和基准数值范围一起发送给用户。
本发明实施例还提供一种实时计算平台的报警设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的实时计算平台的报警方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为方法、系统或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
本发明的实时计算平台的报警设备提供了一种插件化组件的机制,将组件的功能划分到插件当中,把功能边界限定在单独的插件内,大大降低了组件的整体复杂度,并且可以自由选择需要的功能插件自由组装,提高了组件性能表现,降低了资源压力。
下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组合可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组合(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的实时计算平台的报警方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,与现有技术相比,本发明所提供的实时计算平台的监控和报警方法、系统、设备及存储介质具有下列优点:
本发明解决了现有技术中的问题,其中,监控方法提供了对实时计算平台的多维度监控,对实时计算平台的监控更为灵活;报警方法提供了更为灵活的报警方法,根据异常等级采用不同的报警方式,用户无需一直关注实时计算平台的监控状态,只需要在接收到报警信息时去查看异常状态即可,并且便于用户快速发现和处理异常。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (11)
1.一种实时计算平台的监控方法,其特征在于,包括如下步骤:
S100:获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,判断所述应用程序是否处于运行状态;
S200:如果所述应用程序处于运行状态,则根据预设的运行状态判断规则判断所述应用程序是否运行正常;
S300:如果所述应用程序处于运行状态,则读取所述应用程序的埋点数据,根据设定的基准埋点数据判断所述应用程序是否运行正常。
2.根据权利要求1所述的实时计算平台的监控方法,其特征在于,所述读取应用程序的埋点数据,包括通过openTSDB应用程序编程接口读取应用程序中的埋点数据。
3.根据权利要求1所述的实时计算平台的监控方法,其特征在于,所述方法还包括获取用户设定的监控的应用程序名称,并创建与所述应用程序名称关联的监控任务。
4.根据权利要求3所述的实时计算平台的监控方法,其特征在于,所述监控方法还包括将所述监控任务注册到Zookeeper中,各个所述监控任务用于针对关联的应用程序执行所述步骤S100到步骤S300。
5.根据权利要求1所述的实时计算平台的监控方法,其特征在于,所述运行状态判断规则包括应用程序所占用的各项资源的使用率的基准范围,如果应用程序对各项资源的使用率处于对应的基准范围之内,则应用程序运行正常,否则应用程序运行异常。
6.根据权利要求5所述的实时计算平台的监控方法,其特征在于,所述方法还包括获取用户设定的应用程序对各项资源的使用率的基准范围以及用户设定的基准埋点数据。
7.一种实时计算平台的报警方法,其特征在于,基于权利要求1至6中任一项所述的实时计算平台的监控方法实现,所述报警方法包括如下步骤:
S400:如果应用程序未处于运行状态或应用程序运行异常,根据预设的异常等级判定规则评定应用程序异常等级;
S500:根据应用程序的异常等级选择预设的报警方式进行报警。
8.根据权利要求7所述的实时计算平台的报警方法,其特征在于,所述报警方法还包括获取用户设定的监控程序对应的报警信息,所述报警信息包括报警人联系方式、异常等级判定规则以及各个异常等级所对应的报警方式。
9.一种实时计算平台的报警系统,其特征在于,应用于权利要求7或8所述的实时计算平台的监控方法,所述报警系统包括:
数据采集模块,用于获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,以及读取应用程序的埋点数据;
数据处理模块,用于根据应用程序的运行数据判断应用程序是否处于运行状态,如果应用程序处于运行状态,则根据预设的运行状态判断规则判断应用程序是否运行正常,并根据设定的基准埋点数据判断应用程序是否运行正常;
异常分类模块,用于如果应用程序未处于运行状态或应用程序运行异常,根据预设的异常等级判定规则评定应用程序异常等级;
异常报警模块,用于根据应用程序的异常等级选择预设的报警方式进行报警。
10.一种实时计算平台的报警设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求7或8所述的实时计算平台的报警方法的步骤。
11.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求7至8所述的实时计算平台的报警方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910312130.1A CN109960635B (zh) | 2019-04-18 | 2019-04-18 | 实时计算平台的监控和报警方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910312130.1A CN109960635B (zh) | 2019-04-18 | 2019-04-18 | 实时计算平台的监控和报警方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109960635A true CN109960635A (zh) | 2019-07-02 |
CN109960635B CN109960635B (zh) | 2022-09-02 |
Family
ID=67026299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910312130.1A Active CN109960635B (zh) | 2019-04-18 | 2019-04-18 | 实时计算平台的监控和报警方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109960635B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110764977A (zh) * | 2019-09-27 | 2020-02-07 | 赛诺贝斯(北京)营销技术股份有限公司 | 一种实现系统安全的报警方法和装置 |
CN110837399A (zh) * | 2019-10-31 | 2020-02-25 | 锐捷网络股份有限公司 | 一种管理流式计算应用程序的方法、装置及计算设备 |
CN111209167A (zh) * | 2020-01-10 | 2020-05-29 | 深圳震有科技股份有限公司 | 一种任务状态的展现方法、存储介质、显示终端 |
CN111274094A (zh) * | 2020-02-04 | 2020-06-12 | 上海携程商务有限公司 | 接口预警方法、系统、设备及存储介质 |
CN111625428A (zh) * | 2020-04-20 | 2020-09-04 | 中国建设银行股份有限公司 | 监控Java应用程序运行状态的方法、系统、设备和存储介质 |
CN114385435A (zh) * | 2021-12-01 | 2022-04-22 | 山东有人物联网股份有限公司 | 一种程序运维监控方法、装置及计算机可读存储介质 |
CN114706733A (zh) * | 2022-05-30 | 2022-07-05 | 支付宝(杭州)信息技术有限公司 | 切面程序异常的监控方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049365A (zh) * | 2012-11-07 | 2013-04-17 | 北京宏德信智源信息技术有限公司 | 信息与应用资源运行状态监控及评价方法 |
WO2017045533A1 (zh) * | 2015-09-15 | 2017-03-23 | 北京金山安全软件有限公司 | 在应用程序的预设界面显示用户设备状态的方法和装置 |
CN107992398A (zh) * | 2017-12-22 | 2018-05-04 | 宜人恒业科技发展(北京)有限公司 | 一种业务系统的监控方法和监控系统 |
CN108021485A (zh) * | 2016-11-04 | 2018-05-11 | 北大方正集团有限公司 | 应用程序运行状态的监控方法及装置 |
CN109542714A (zh) * | 2018-09-29 | 2019-03-29 | 中国平安人寿保险股份有限公司 | 应用程序监控方法及装置、计算机装置及计算机存储介质 |
-
2019
- 2019-04-18 CN CN201910312130.1A patent/CN109960635B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049365A (zh) * | 2012-11-07 | 2013-04-17 | 北京宏德信智源信息技术有限公司 | 信息与应用资源运行状态监控及评价方法 |
WO2017045533A1 (zh) * | 2015-09-15 | 2017-03-23 | 北京金山安全软件有限公司 | 在应用程序的预设界面显示用户设备状态的方法和装置 |
CN108021485A (zh) * | 2016-11-04 | 2018-05-11 | 北大方正集团有限公司 | 应用程序运行状态的监控方法及装置 |
CN107992398A (zh) * | 2017-12-22 | 2018-05-04 | 宜人恒业科技发展(北京)有限公司 | 一种业务系统的监控方法和监控系统 |
CN109542714A (zh) * | 2018-09-29 | 2019-03-29 | 中国平安人寿保险股份有限公司 | 应用程序监控方法及装置、计算机装置及计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
ROSANU: "java服务端监控平台设计", 《HTTPS://BLOG.CSDN.NET/ROSANU_BLOG/ARTICLE/DETAILS/50585162》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110764977A (zh) * | 2019-09-27 | 2020-02-07 | 赛诺贝斯(北京)营销技术股份有限公司 | 一种实现系统安全的报警方法和装置 |
CN110764977B (zh) * | 2019-09-27 | 2023-11-10 | 赛诺贝斯(北京)营销技术股份有限公司 | 一种实现系统安全的报警方法和装置 |
CN110837399A (zh) * | 2019-10-31 | 2020-02-25 | 锐捷网络股份有限公司 | 一种管理流式计算应用程序的方法、装置及计算设备 |
CN111209167A (zh) * | 2020-01-10 | 2020-05-29 | 深圳震有科技股份有限公司 | 一种任务状态的展现方法、存储介质、显示终端 |
CN111209167B (zh) * | 2020-01-10 | 2023-09-15 | 深圳震有科技股份有限公司 | 一种任务状态的展现方法、存储介质、显示终端 |
CN111274094A (zh) * | 2020-02-04 | 2020-06-12 | 上海携程商务有限公司 | 接口预警方法、系统、设备及存储介质 |
CN111274094B (zh) * | 2020-02-04 | 2023-09-26 | 上海携程商务有限公司 | 接口预警方法、系统、设备及存储介质 |
CN111625428A (zh) * | 2020-04-20 | 2020-09-04 | 中国建设银行股份有限公司 | 监控Java应用程序运行状态的方法、系统、设备和存储介质 |
CN114385435A (zh) * | 2021-12-01 | 2022-04-22 | 山东有人物联网股份有限公司 | 一种程序运维监控方法、装置及计算机可读存储介质 |
CN114706733A (zh) * | 2022-05-30 | 2022-07-05 | 支付宝(杭州)信息技术有限公司 | 切面程序异常的监控方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109960635B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960635A (zh) | 实时计算平台的监控和报警方法、系统、设备及存储介质 | |
US11119878B2 (en) | System to manage economics and operational dynamics of IT systems and infrastructure in a multi-vendor service environment | |
KR102083766B1 (ko) | 애플리케이션별 자원 사용량 정보의 제공 기법 | |
CN110493080B (zh) | 一种区块链节点监控方法、装置及电子设备和存储介质 | |
CN110516971A (zh) | 异常检测的方法、装置、介质和计算设备 | |
CN103532780A (zh) | 用于it领域的运维监控一体化系统及一体化监控方法 | |
US11283863B1 (en) | Data center management using digital twins | |
CN102782736A (zh) | 警报综合系统和方法 | |
CN109670690A (zh) | 数据信息中心监控预警方法、系统及设备 | |
CN102112940A (zh) | 用于对电力输送控制系统的性能进行监控的方法和装置 | |
CN103778513A (zh) | 一种基于二维码的it设备运维监控方法 | |
CN107704387A (zh) | 用于系统预警的方法、装置、电子设备及计算机可读介质 | |
CN110430081A (zh) | 基于指令自动编排的智能化巡检方法以及装置 | |
US11100458B2 (en) | Asset and device management | |
CN113704065A (zh) | 监控方法、装置、设备及计算机存储介质 | |
CN109992473A (zh) | 应用系统的监控方法、装置、设备及存储介质 | |
JP2017207894A (ja) | 統合監視運用システムおよび方法 | |
Pathak et al. | A service-oriented architecture for electric power transmission system asset management | |
US20200372367A1 (en) | Cognitive methods and systems for responding to computing system incidents | |
CN117234844A (zh) | 云服务器异常管理方法、装置、计算机设备及存储介质 | |
CN111448551B (zh) | 跟踪来自远程设备的应用活动数据并生成用于远程设备的校正动作数据结构的方法和系统 | |
CN110059480A (zh) | 网络攻击行为监控方法、装置、计算机设备及存储介质 | |
CN113537519B (zh) | 一种识别异常设备的方法和装置 | |
US11869060B2 (en) | Automated and customized entitlement recommendation | |
CN109101267A (zh) | 应用发布管理方法、装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |