CN113190423B - 业务数据的监控方法、装置及系统 - Google Patents

业务数据的监控方法、装置及系统 Download PDF

Info

Publication number
CN113190423B
CN113190423B CN202110427448.1A CN202110427448A CN113190423B CN 113190423 B CN113190423 B CN 113190423B CN 202110427448 A CN202110427448 A CN 202110427448A CN 113190423 B CN113190423 B CN 113190423B
Authority
CN
China
Prior art keywords
alarm
preset
service data
service
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110427448.1A
Other languages
English (en)
Other versions
CN113190423A (zh
Inventor
水旭强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Foreign Travel Network Technology Co ltd
Original Assignee
Beijing Foreign Travel Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Foreign Travel Network Technology Co ltd filed Critical Beijing Foreign Travel Network Technology Co ltd
Priority to CN202110427448.1A priority Critical patent/CN113190423B/zh
Publication of CN113190423A publication Critical patent/CN113190423A/zh
Application granted granted Critical
Publication of CN113190423B publication Critical patent/CN113190423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Alarm Systems (AREA)

Abstract

本申请公开了一种业务数据的监控方法、装置及系统。该申请的方法包括接收业务系统中埋点日志收集工具实时采集并上报的业务数据,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;将所述业务数据存储至Elasticsearch中;根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件;根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息。本申请实现了对各个业务系统的实时监控,能够快速发现问题,有助于及时解决问题的技术效果。

Description

业务数据的监控方法、装置及系统
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种业务数据的监控方法、装置及系统。
背景技术
随着部门的业务线越来越多,任何一个线上运行的应用,都可能因为各种各样的原因出现问题,比如:在业务层面上,可能出订单量比上周减少了、流量突然下降了等问题;在技术层面上,系统出现ERROR、接口响应变慢等问题;另外,在支付业务中会依赖很多支付渠道的服务,所以还需要关注调用支付渠道接口是否出现异常等问题。
按照现有技术,通常会采取监控nginx请求日志Error报错邮件预警,但会出现如下技术问题:(1)无法做到实时监控、快速定位发现问题、解决问题;(2)无法发现一些潜在问题,比如某个系统目前来看没有影响业务逻辑的正常运转,但是一些操作耗时已经比较长等,这类问题如果不及时处理,将来就很可能影响业务的发展;(3)无法支持业务的自定义报警和常用组件自动报警等。
发明内容
本申请的主要目的在于提供一种业务数据的监控方法,至少解决上述一个技术问题。
为了实现上述目的,根据本申请的第一方面,提供了一种业务数据的监控方法。
根据本申请的业务数据的监控方法包括:
接收业务系统中埋点日志收集工具实时采集并上报的业务数据,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;
将所述业务数据存储至Elasticsearch中;
根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件;
根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息。
进一步的,所述判断所述业务数据是否满足预设报警条件包括:
根据预设过滤条件对所述业务数据进行筛选,得到每种类和/或方法对应的数据集,预设过滤条件中至少包括埋点标识、业务类型、错误等级;
将筛选得到的数据集通过预设聚合函数进行聚合计算;
判断所述聚合计算得到的结果是否大于预设报警阈值。
进一步的,报警信息包括具体出现异常的指标字段信息,在所述根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息之前包括:
提取报警信息中异常的指标字段信息,在Elasticsearch中查询所述异常的指标字段信息对应的字段值;
通过模板引擎将所查询到的字段值替换对应的异常的指标字段信息,得到包含字段值的报警信息。
进一步的,所述方法还包括:
根据不同的类和/或方法预先设定对应的报警规则,报警规则中包括数据筛选、聚合计算、阈值判断三个阶段;
将报警规则存储在MySql数据库中,同时缓存在Redis数据库中。
进一步的,所述方法还包括:
根据Elastic Job设置定时任务,根据定时任务执行根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件的步骤。
为了实现上述目的,根据本申请的第二方面,提供了一种业务数据的监控装置。
根据本申请的业务数据的监控装置包括:
数据接收模块,用于接收业务系统中埋点日志收集工具实时采集并上报的业务数据,将所述业务数据发送至Elasticsearch引擎中,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;
Elasticsearch引擎,用于将数据接收模块中采集到的业务数据进行存储;
数据库模块,用于存储和缓存不同的类和/或方法对应的报警规则;
规则执行引擎,用于从数据库模块获取不同的类和/或方法对应的报警规则,并根据不同的类和/或方法的报警规则,判断所述业务数据是否满足预设报警条件;根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息。
进一步的,所述规则执行引擎包括:
数据筛选单元,用于根据预设过滤条件对所述业务数据进行筛选,得到每种方法和类对应的数据集,预设过滤条件中至少包括埋点标识、业务类型、错误等级;
聚合计算单元,用于将筛选得到的数据集通过预设聚合函数进行聚合计算;
阈值判断单元,用于判断所述聚合计算得到的结果是否大于预设报警阈值。
进一步的,所述规则执行引擎还包括:
问题定位单元,用于在所述根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息之前,提取报警信息中异常的指标字段信息,在Elasticsearch中查询所述异常的指标字段信息对应的字段值;通过模板引擎将所查询到的字段值替换对应的异常的指标字段信息,得到包含字段值的报警信息。
进一步的,所述装置还包括:
前端管理模块,用于接收用户针对不同的类和方法选择的报警规则,报警规则中包括数据筛选、聚合计算、阈值判断三个阶段;
规则维护模块,用于接收前端管理模块中不同的类和/或方法对应的报警规则为不同的类和/或方法设置对应的报警规则。
进一步的,所述规则执行引擎还包括:
定时单元,用于根据Elastic Job设置定时任务,根据定时任务执行根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件的步骤。
为了实现上述目的,根据本申请的第三方面,提供了一种业务数据的监控系统。
根据本申请的业务数据的监控系统包括:
业务系统,用于根据埋点日志收集工具实时采集并上报业务数据,将所述业务数据发送至报警系统,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;
报警系统,用于接收业务系统中埋点日志收集工具实时采集并上报的业务数据,将所述业务数据存储至Elasticsearch中,根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件,根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息;
终端,用于接收报警系统发送的报警信息。
为了实现上述目的,根据本申请的第四个方面,提供了一种电子设备,其特征在于,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行第一方面中任一项所述的业务数据的监控方法。
为了实现上述目的,根据本申请的第五个方面,提供了一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述第一方面中任一项所述的业务数据的监控方法。
在本申请实施例中,业务数据的监控方法和装置能够首先接收业务系统中埋点日志收集工具实时采集并上报的业务数据,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;然后将所述业务数据存储至Elasticsearch中;最后根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息。由于使用了埋点日志收集工具实时采集并上报业务数据,以及根据不同的类和/或方法对应的报警规则,判断业务数据是否满足预设报警条件,业务数据中满足预设报警条件的业务数据,向终端发送报警信息,所以可以实现对各个业务系统的实时监控,维护人员也可以通过终端及时获取到报警信息,快速发现问题,并及时解决问题。另外,使用Elasticsearch来存储业务数据,可以支持大数据量的存储,并且具有良好的水平扩展性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的业务数据的监控方法的流程图;
图2是根据本申请另一种实施例的业务数据的监控方法的流程图;
图3是判断业务数据是否满足预设报警条件的三个阶段的示例图;
图4是本申请实施例的业务数据的监控方法中命中取样功能的示例图;
图5是根据本申请一种实施例的业务数据的监控方法的流程框图。
图6是根据本申请一种实施例的业务数据的监控装置的组成框图。
图7是根据本申请一种实施例的业务数据的监控系统的组成框图。
图8是根据本申请一种实施例的业务数据的监控系统中具体的报警系统的结构框图以及业务系统的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的指标在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请实施例,提供了一种业务数据的监控方法,应用于报警系统中,如图1所示,该方法包括如下的步骤S1至步骤S4:
S1.接收业务系统中埋点日志收集工具实时采集并上报的业务数据。
其中,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的。需要监控的业务指标是指可能出现异常的数据、需要埋点的数据;根据不同业务系统来自定义需要监控的业务指标。确定需要监控的业务指标后,业务系统就可以根据埋点日志收集工具MES来实时采集和上报业务数据,上报的方式可以为日志、UDP等。在业务数据上报后,报警系统可以接收到实时的业务数据。
在具体采集业务数据时拿用户的一次下单请求为例,整个下单请求的链路可能包括HTTP请求、Dubbo调用、SQL操作,中间可能还包括校验、转换、赋值等环节。其中对于一些常用的框架组件会选取自动打点,而对于一些业务系统中需要关注的指标就会通过维护人员进行手动埋点,自己定义不同业务系统需要记录的状况,来实现数据收集。
S2.将业务数据存储至Elasticsearch中。
报警系统使用Elasticsearch来存储业务数据,主要基于两点原因:一是动态字段存储,每个业务系统关注的指标都不一样,每个中间件的关注点也不同,所以埋哪些字段、每个字段的类型都无法预知,这就需要一个可以动态添加字段的数据库来存储埋点。二是能够经得起海量数据的考验,每个用户请求经过每个监控组件都会产生多条埋点,数据量是非常庞大的。Elasticsearch可以支持大数据量的存储,具有良好的水平扩展性。
S3.根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件。
在报警系统判断业务数据是否满足预设报警条件之前预先建立基础报警规则,基础报警规则是指包含预设筛选条件、预设聚合函数和预设判断阈值的报警规则,但基础报警规则并不是针对具体某一类或某一方法设置的,因此,在“根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件”还需要用户根据基础报警规则自定义具体的类或方法对应的报警规则。具体的实现如下:前端管理模块接收用户针对某一类和/或方法选择基础报警规则中对应的预设筛选条件、预设聚合函数、预设判断阈值;然后将某一类和/或方法的信息与基础报警规则中选择的预设筛选条件、预设聚合函数、预设判断阈值进行结合得到适用于某一类和/或方法的预设报警规则;并将该预设报警规则存储和缓存至数据库模块中。当执行“根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件”时,规则执行引擎会从数据库模块中获取与类和/或方法对应的预设报警规则。
具体将预设报警规则存储和缓存至数据库模块中包括:将得到的预设报警规则存储到MySql数据库中,同时缓存在Redis数据库中。
以Dubbo为例,首先通过Dubbo的ApplicationModel获取所有的provider和consumer,将这些类和方法的信息与基础报警规则进行结合,创建出针对某个类下某个方法的预设报警规则。
例如:A服务对外提供的dubbo接口/order/getOrderById每分钟平均响应时间超过1秒则报警;B服务调用的dubbo接口/train/grabTicket/每分钟范围false状态个数超过10个则报警等等。
另外,为了保证系统的可用性,避免由于单点故障导致整个报警系统失效,还根据Elastic Job设置定时任务,所述Elastic Job是基于Zookepper、Quartz开发的一个Java分布式定时任务,解决了Quartz不支持分布式的弊端。Elastic job可以支持弹性扩容,通过Zookepper集中管理和监控job。对于定时任务具体的是指,可以设置预定时间执行一次报警规则,可以是每三分钟或者每五分钟执行一次报警规则,优选为每一分钟执行一次报警规则。当定时任务开始时,执行根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件的步骤。使用Elastic Job来进行分布式任务调度,可以方便操控任务的启动和停止。
当确定类和/或方法对应的预设报警规则后,规则执行引擎就可以执行“根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件”的步骤,其步骤主要分为数据筛选、聚合计算、阈值判断三个阶段,如图2所示:
S31.根据预设过滤条件对所述业务数据进行筛选,得到每种类和/或方法对应的数据集。
所述不同的类和/或方法包含着不同的业务数据,不同的业务数据也对应不同的预设过滤条件,所述预设过滤条件包括:埋点标识、业务类型、错误等级、应用程序的名称、判断返回的数值是否错误、时间的限定等。根据不同的过滤条件对不同的业务数据进行筛选会得到不同的类和/或方法对应的数据集。
S32.将筛选得到的数据集通过预设聚合函数进行聚合计算。
预设聚合函数包括:count、avg、sum、max等聚合函数;count/sum,可以计算得到出现ERROR的次数;avg,可以通过二维矢量图形的一种图形格式来呈现埋点数据,从而直观地看出是否达到阀值;max,可以统计错误级别来判断是否达到预设报警阈值。不同的类和/或方法在进行聚合计算时可以对应着不同的聚合函数,因此,当根据预设过滤条件对所述业务数据进行筛选,得到每种类和/或方法对应的数据集后,还需要选择每种类和/或方法对应的聚合函数进行聚合计算。
S33.判断所述聚合计算得到的结果是否大于预设报警阈值。
预设报警阈值为:出现ERROR的次数、二维矢量图形中的预设高度值、错误级别等。
聚合计算的结果的不同会对应着不同的预设报警阈值。当聚合计算得到的结果为出现ERROR的次数时,对应的预设报警阈值为出现ERROR的次数;当聚合计算得到的结果为二维矢量图形中的预设高度值时,对应的预设报警阈值为二维矢量图形中的预设高度值;当聚合计算得到的结果为错误级别时,对应的预设报警阈值为错误级别。
结合实例对“根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件”包括的数据筛选、聚合计算、阈值判断三个阶段进行说明,如图3所示:
图3是一个ERROR埋点日志,其中预设过滤条件可以为:app_name=A,is_error=true,datetime‘2019-14-02 16:12:00’and‘2019-14-0216:13:00’;预设聚合函数可以选择count/sum来计算得到出现ERROR的次数,预先设定的预设报警阈值为每分钟出现ERROR的次数为10次,因此,当计算得到的出现ERROR的次数超过10次时,就向终端发送报警信息。
S4.根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息。
当聚合计算得到的结果大于预设报警阈值时,报警系统会向终端发送报警信息,具体报警信息包括:异常的指标字段信息、发生异常的时间、异常的业务类型、异常所在位置信息等;具体发送报警信息的方式可以是邮件报警,通过对每一类报警指定不同的负责人,使相关人员第一时间获悉系统异常;也可以是即时通信进行报警,还可以是电话、短信等方式进行报警。
从以上的描述中,可以看出,在本申请实施例中,业务数据的监控方法和装置能够首先接收业务系统中埋点日志收集工具实时采集并上报的业务数据,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;然后将所述业务数据存储至Elasticsearch中;最后根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息。由于使用了埋点日志收集工具实时采集并上报业务数据,以及根据不同的类和/或方法对应的报警规则,判断业务数据是否满足预设报警条件,业务数据中满足预设报警条件的业务数据,向终端发送报警信息,所以可以实现对各个业务系统的实时监控,维护人员也可以通过终端及时获取到报警信息,快速发现问题,并及时解决问题。另外,使用Elasticsearch来存储业务数据,可以支持大数据量的存储,并且具有良好的水平扩展性。用户在后台管理界面上可自定义业务报警规则,针对不同的类和/或方法选择不同的报警规则,因此也实现了对报警规则的动态灵活的配置。另外,使用Elasticsearch来存储业务数据,可以支持大数据量的存储,并且具有良好的水平扩展性的技术效果。
为了能够快速的定位具体问题,设计了命中抽样的功能,作为上述实施例的补充或者细化,在向终端发送报警信息之前包括:
提取报警信息中异常的指标字段信息,在Elasticsearch中查询所述异常的指标字段信息对应的字段值;通过模板引擎将所查询到的字段值替换对应的异常的指标字段信息,得到包含字段值的报警信息。
具体的,维护人员可以设置需要关注的字段,然后将该需要关注的字段对应的字段值抽取出来,最后问题出在哪里就很容易看到的。在具体技术实现上,进行举例说明:当需要关注某个供应商的接口运行情况时,则命中抽样的字段可能会图4的上半部分,然后根据异常的指标字段信息在Elasticsearch中查询对应的字段值,再通过模板引擎freemarker将所查询到的字段值进行替换,替换后的字段信息中含有异常的指标字段信息对应的字段值,如图4的下半部分,开发人员可以快速知道系统哪里出现了问题或者异常。
另外,还可以将命中预设报警规则的tracer_id提取出来,提供一个链接可以直接跳转到日志分享平台查看相关日志,实现链路的还原,维护人员也可以直接的发现问题出在哪里。所述日志分享平台为kibana,所述tracer是用于分布式系统调用跟踪的组件,通过统一的ID,将调用链路中的各种网络调用情况以日志的方式记录下来,以达到透视化网络调用的目的,这些日志可用于故障的快速发现,服务治理等。
从以上的描述中,可以看出,本申请实施例中业务数据的监控方法能够在向终端发送报警信息前,提取报警信息中异常的指标字段信息,在Elasticsearch中查询所述异常的指标字段信息对应的字段值;通过模板引擎将所查询到的字段值替换对应的异常的指标字段信息,得到包含字段值的报警信息。实现了能够对问题或者异常的及时精确的定位,使用户能够快速知道系统哪里出现了问题或者异常,有助于及时解决问题。
另外,本申请实施例还提供了一种业务数据的监控方法,进行举例说明,如图5所示:具体的流程为数据收集基于MES—数据存储Elasticsearch—报警规则(过滤+聚合+比较)—报警行为(企业微信+邮件)—辅助定位(指标提取+问题定位)
图5中的“数据收集基于MES”相当于上述实施例中的“S1.接收业务系统中埋点日志收集工具实时采集并上报的业务数据”;“数据存储Elasticsearch”相当于“S2.将业务数据存储至Elasticsearch中”;“报警规则”相当于“S3.根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件”;“报警规则的过滤”相当于“S31.根据预设过滤条件对所述业务数据进行筛选,得到每种类和/或方法对应的数据集”;“报警规则的聚合”相当于“S32.将筛选得到的数据集通过预设聚合函数进行聚合计算”;“报警规则的比较”相当于“S33.判断所述聚合计算得到的结果是否大于预设报警阈值”;“报警行为”相当于“S4.根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息”“辅助定位,指标提取+问题定位”相当于“在向终端发送报警信息之前包括:提取报警信息中异常的指标字段信息,在Elasticsearch中查询所述异常的指标字段信息对应的字段值;通过模板引擎将所查询到的字段值替换对应的异常的指标字段信息,得到包含字段值的报警信息”。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述图1所述方法的业务数据的监控装置,所述装置应用在报警系统侧,如图6所示,该装置包括:
数据接收模块,用于接收业务系统中埋点日志收集工具实时采集并上报的业务数据,将所述业务数据发送至Elasticsearch引擎中,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;
其中,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的。需要监控的业务指标是指可能出现异常的数据、需要埋点的数据;根据不同业务系统来自定义需要监控的业务指标。确定需要监控的业务指标后,业务系统就可以根据埋点日志收集工具MES来实时采集和上报业务数据,上报的方式可以为日志、UDP等。在业务数据上报后,报警系统可以接收到实时的业务数据。
在具体采集业务数据时拿用户的一次下单请求为例,整个下单请求的链路可能包括HTTP请求、Dubbo调用、SQL操作,中间可能还包括校验、转换、赋值等环节。其中对于一些常用的框架组件会选取自动打点,而对于一些业务系统中需要关注的指标就会通过维护人员进行手动埋点,自己定义不同业务系统需要记录的状况,来实现数据收集。
Elasticsearch引擎,用于将数据接收模块中采集到的业务数据进行存储;
报警系统使用Elasticsearch来存储业务数据,主要基于两点原因:一是动态字段存储,每个业务系统关注的指标都不一样,每个中间件的关注点也不同,所以埋哪些字段、每个字段的类型都无法预知,这就需要一个可以动态添加字段的数据库来存储埋点。二是能够经得起海量数据的考验,每个用户请求经过每个监控组件都会产生多条埋点,数据量是非常庞大的。Elasticsearch可以支持大数据量的存储,并且具有良好的水平扩展性。
数据库模块,用于存储和缓存不同的方法和类对应的报警规则;
预设报警规则存储到MySql数据库中,同时在Redis数据库中缓存。
规则执行引擎,用于从数据库模块获取不同的方法和类对应的报警规则,并根据不同的方法和类对应的报警规则,判断所述业务数据是否满足预设报警条件;根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息。
在报警系统判断业务数据是否满足预设报警条件之前预先建立基础报警规则,基础报警规则是指包含预设筛选条件、预设聚合函数和预设判断阈值的报警规则,但基础报警规则并不是针对具体某一类或某一方法设置的,因此,在“根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件”还需要用户根据基础报警规则自定义具体的类或方法对应的报警规则。具体的实现如下:前端管理模块接收用户针对某一类和/或方法选择基础报警规则中对应的预设筛选条件、预设聚合函数、预设判断阈值;然后将某一类和/或方法的信息与基础报警规则中选择的预设筛选条件、预设聚合函数、预设判断阈值进行结合得到适用于某一类和/或方法的预设报警规则;并将该预设报警规则存储和缓存至数据库模块中。当执行“根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件”时,数据库模块会向规则执行引擎发送与类和/或方法对应的预设报警规则。
进一步的,所述规则执行引擎包括:
数据筛选单元,用于根据预设过滤条件对所述业务数据进行筛选,得到每种方法和类对应的数据集,预设过滤条件中至少包括埋点标识、业务类型、错误等级;
所述不同的类和/或方法包含着不同的业务数据,不同的业务数据也对应不同的预设过滤条件,所述预设过滤条件包括:埋点标识、业务类型、错误等级、应用程序的名称、判断返回的数值是否错误、时间的限定等。根据不同的过滤条件对不同的业务数据进行筛选会得到不同的类和/或方法对应的数据集。
聚合计算单元,用于将筛选得到的数据集通过预设聚合函数进行聚合计算;
预设聚合函数包括:count、avg、sum、max等聚合函数;count/sum,可以计算得到出现ERROR的次数;avg,可以通过二维矢量图形的一种图形格式来呈现埋点数据,从而直观地看出是否达到阀值;max,可以统计错误级别来判断是否达到预设报警阈值。不同的类和/或方法在进行聚合计算时可以对应着不同的聚合函数,因此,当根据预设过滤条件对所述业务数据进行筛选,得到每种类和/或方法对应的数据集后,还需要选择每种类和/或方法对应的聚合函数进行聚合计算。
阈值判断单元,用于判断所述聚合计算得到的结果是否大于预设报警阈值。
预设报警阈值为:出现ERROR的次数、二维矢量图形中的预设高度值、错误级别等。
聚合计算的结果的不同会对应着不同的预设报警阈值。当聚合计算得到的结果为出现ERROR的次数时,对应的预设报警阈值为出现ERROR的次数;当聚合计算得到的结果为二维矢量图形中的预设高度值时,对应的预设报警阈值为二维矢量图形中的预设高度值;当聚合计算得到的结果为错误级别时,对应的预设报警阈值为错误级别。
当聚合计算得到的结果大于预设报警阈值时,报警系统会向终端发送报警信息,具体报警信息包括:异常的指标字段信息、发生异常的时间、异常的业务类型、异常所在位置信息等;具体发送报警信息的方式可以是邮件报警,通过对每一类报警指定不同的负责人,使相关人员第一时间获悉系统异常;也可以是即时通信进行报警,还可以是电话、短信等方式进行报警。
进一步的,所述规则执行引擎还包括:
问题定位单元,用于在所述根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息之前提取报警信息中异常的指标字段信息,在Elasticsearch中查询所述异常的指标字段信息对应的字段值;通过模板引擎将所查询到的字段值替换对应的异常的指标字段信息,得到包含字段值的报警信息。
具体的,维护人员可以设置需要关注的字段,然后将该需要关注的字段对应的字段值抽取出来,最后问题出在哪里就很容易看到的。在具体技术实现上,进行举例说明:当需要关注某个供应商的接口运行情况时,则命中抽样的字段可能会图4的上半部分,然后根据异常的指标字段信息在Elasticsearch中查询对应的字段值,再通过模板引擎freemarker将所查询到的字段值进行替换,替换后的字段信息中含有异常的指标字段信息对应的字段值,如图4的下半部分,开发人员可以快速知道系统哪里出现了问题或者异常。
另外,还可以将命中预设报警规则的tracer_id提取出来,提供一个链接可以直接跳转到日志分享平台查看相关日志,实现链路的还原,维护人员也可以直接的发现问题出在哪里。所述日志分享平台为kibana,所述tracer是用于分布式系统调用跟踪的组件,通过统一的ID,将调用链路中的各种网络调用情况以日志的方式记录下来,以达到透视化网络调用的目的,这些日志可用于故障的快速发现,服务治理等。
进一步的,所述装置还包括:
前端管理模块,用于接收用户针对不同的类和方法选择的报警规则,报警规则中包括数据筛选、聚合计算、阈值判断三个阶段;
规则维护模块,用于接收前端管理模块中不同的类和方法对应的报警规则为不同的类和方法设置对应的报警规则。
进一步的,所述规则执行引擎还包括:
定时单元,用于根据Elastic Job设置定时任务,当定时任务开始时,执行根据不同的方法和类对应的报警规则,判断所述业务数据是否满足预设报警条件的步骤。
为了保证系统的可用性,避免由于单点故障导致整个报警系统失效,还根据Elastic Job设置定时任务,所述Elastic Job是基于Zookepper、Quartz开发的一个Java分布式定时任务,解决了Quartz不支持分布式的弊端。Elastic job可以支持弹性扩容,通过Zookepper集中管理和监控job。对于定时任务具体的是指,可以设置预定时间执行一次报警规则,可以是每三分钟或者每五分钟执行一次报警规则,优选为每一分钟执行一次报警规则。当定时任务开始时,执行根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件的步骤。使用Elastic Job来进行分布式任务调度,可以方便操控任务的启动和停止。
从以上的描述中,可以看出,在本申请实施例中,业务数据的监控方法和装置能够首先接收业务系统中埋点日志收集工具实时采集并上报的业务数据,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;然后将所述业务数据存储至Elasticsearch中;最后根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息。由于使用了埋点日志收集工具实时采集并上报业务数据,以及根据不同的类和/或方法对应的报警规则,判断业务数据是否满足预设报警条件,业务数据中满足预设报警条件的业务数据,向终端发送报警信息,所以可以实现对各个业务系统的实时监控,维护人员也可以通过终端及时获取到报警信息,快速发现问题,并及时解决问题。另外,使用Elasticsearch来存储业务数据,可以支持大数据量的存储,并且具有良好的水平扩展性。用户在后台管理界面上可自定义业务报警规则,针对不同的类和/或方法选择不同的报警规则,因此也实现了对报警规则的动态灵活的配置。另外,使用Elasticsearch来存储业务数据,可以支持大数据量的存储,并且具有良好的水平扩展性的技术效果。
根据本申请实施例,还提供了一种业务数据的监控系统,如图7所示,该系统包括:
业务系统,用于根据埋点日志收集工具实时采集并上报业务数据,将所述业务数据发送至报警系统,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;
报警系统,用于接收业务系统中埋点日志收集工具实时采集并上报的业务数据,将所述业务数据存储至Elasticsearch中,根据不同的方法和类对应的报警规则,判断所述业务数据是否满足预设报警条件,根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息;
终端,用于接收报警系统发送的报警信息。
从以上的描述中,可以看出,在本申请实施例中,业务系统会根据埋点日志收集工具实时采集并上报业务数据,将所述业务数据发送至报警系统,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;然后接收业务系统中埋点日志收集工具实时采集并上报的业务数据,将所述业务数据存储至Elasticsearch中,根据不同的方法和类对应的报警规则,判断所述业务数据是否满足预设报警条件,根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息;最后终端,用于接收报警系统发送的报警信息。由于使用了埋点日志收集工具实时采集并上报业务数据,以及根据不同的类和/或方法对应的报警规则,判断业务数据是否满足预设报警条件,业务数据中满足预设报警条件的业务数据,向终端发送报警信息,所以可以实现对各个业务系统的实时监控,维护人员也可以通过终端及时获取到报警信息,快速发现问题,并及时解决问题。另外,使用Elasticsearch来存储业务数据,可以支持大数据量的存储,并且具有良好的水平扩展性。用户在后台管理界面上可自定义业务报警规则,针对不同的类和/或方法选择不同的报警规则,因此也实现了对报警规则的动态灵活的配置。另外,使用Elasticsearch来存储业务数据,可以支持大数据量的存储,并且具有良好的水平扩展性的技术效果。
不同的实施例中的相关描述可以相互参考。
根据本申请实施例,还提供了一种业务数据的监控系统中具体的报警系统的结构框图以及业务系统的结构框图,如图8所示:
纵向来看,Kafka左侧是报警系统,右侧是业务系统。报警中心的架构共分为三层,最上层是WEB后台管理页面,主要完成报警规则的维护和报警记录的查询;中间层是报警中心的核心;最下面一层是数据层。业务系统通过一个叫做mes-client-starter的jar包完成报警中心的接入。上述实施例的业务数据的监控装置中的“数据接收模块31”相当于图8中“埋点日志接收、存储”;“规则执行引擎32”相当于“规则执行引擎”;“前端管理模块”相当于“WEB后台管理页面33”;“规则维护模块34”相当于“报警规则、报警记录”;“数据库模块35”相当于“存储在MySql数据库中,同时缓存在Redis数据库中”;“Elasticsearch引擎36”相当于“ES引擎”。
根据本申请实施例,还提供了一种电子设备,该电子设备包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行上述图1实施例中所述的业务数据的监控方法。
根据本申请实施例,还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行图1实施例中所述的业务数据的监控方法。
具体的,本申请实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应在本申请的保护范围之内。

Claims (5)

1.一种业务数据的监控方法,其特征在于,包括:
接收业务系统中埋点日志收集工具实时采集并上报的业务数据,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;
将所述业务数据存储至Elasticsearch中;
根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件;
根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息;
在判断所述业务数据是否满足预设报警条件之前,所述方法还包括:
接收用户针对某一类和/或方法选择基础报警规则中对应的预设筛选条件、预设聚合函数、预设判断阈值;将某一类和/或方法的信息与基础报警规则中选择的预设筛选条件、预设聚合函数、预设判断阈值进行结合得到适用于某一类和/或方法的预设报警规则;并将该预设报警规则存储和缓存至数据库模块中;
所述判断所述业务数据是否满足预设报警条件包括:
根据预设过滤条件对所述业务数据进行筛选,得到每种类和/或方法对应的数据集,预设过滤条件中至少包括埋点标识、业务类型、错误等级;不同的业务数据也对应不同的预设过滤条件,所述预设过滤条件还包括:应用程序的名称、判断返回的数值是否错误、时间的限定;根据不同的过滤条件对不同的业务数据进行筛选会得到不同的类和/或方法对应的数据集;
将筛选得到的数据集通过预设聚合函数进行聚合计算;所述预设聚合函数包括:count、avg、sum、max;count用于计算得到出现ERROR的次数;avg用于通过二维矢量图形的一种图形格式来呈现埋点数据是否达到阀值;max用于统计错误级别来判断是否达到预设报警阈值;
判断所述聚合计算得到的结果是否大于预设报警阈值;聚合计算的结果的不同对应着不同的预设报警阈值,当聚合计算得到的结果为出现ERROR的次数时,对应的预设报警阈值为出现ERROR的次数;当聚合计算得到的结果为二维矢量图形中的预设高度值时,对应的预设报警阈值为二维矢量图形中的预设高度值;当聚合计算得到的结果为错误级别时,对应的预设报警阈值为错误级别;
所述方法还包括:当聚合计算得到的结果大于预设报警阈值时,报警系统向终端发送报警信息,报警信息包括:异常的指标字段信息、发生异常的时间、异常的业务类型、异常所在位置信息;
报警信息包括具体出现异常的指标字段信息,在所述根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息之前包括:
提取报警信息中异常的指标字段信息,在Elasticsearch中查询所述异常的指标字段信息对应的字段值;
通过模板引擎将所查询到的字段值替换对应的异常的指标字段信息,得到包含字段值的报警信息;
所述方法还包括:
根据不同的类和/或方法设置对应的报警规则,报警规则中包括数据筛选、聚合计算、阈值判断三个阶段;
将报警规则存储在MySql数据库中,同时缓存在Redis数据库中;
所述方法还包括:
根据Elastic Job设置定时任务,根据定时任务执行根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件的步骤;
所述方法还包括:将命中预设报警规则的tracer_id提取出来,提供一个链接用于跳转到日志分享平台查看相关日志;tracer是用于分布式系统调用跟踪的组件。
2.一种业务数据的监控装置,其特征在于,所述装置包括:
数据接收模块,用于接收业务系统中埋点日志收集工具实时采集并上报的业务数据,将所述业务数据发送至Elasticsearch引擎中,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;
Elasticsearch引擎,用于将数据接收模块中采集到的业务数据进行存储;
数据库模块,用于存储和缓存不同的类和/或方法对应的报警规则;
规则执行引擎,用于从数据库模块获取不同的类和/或方法对应的报警规则,并根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件;根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息;
在判断所述业务数据是否满足预设报警条件之前,还包括:
接收用户针对某一类和/或方法选择基础报警规则中对应的预设筛选条件、预设聚合函数、预设判断阈值;将某一类和/或方法的信息与基础报警规则中选择的预设筛选条件、预设聚合函数、预设判断阈值进行结合得到适用于某一类和/或方法的预设报警规则;并将该预设报警规则存储和缓存至数据库模块中;
所述规则执行引擎包括:
数据筛选单元,用于根据预设过滤条件对所述业务数据进行筛选,得到每种方法和类对应的数据集,预设过滤条件中至少包括埋点标识、业务类型、错误等级;不同的业务数据也对应不同的预设过滤条件,所述预设过滤条件还包括:应用程序的名称、判断返回的数值是否错误、时间的限定;根据不同的过滤条件对不同的业务数据进行筛选会得到不同的类和/或方法对应的数据集;
聚合计算单元,用于将筛选得到的数据集通过预设聚合函数进行聚合计算;所述预设聚合函数包括:count、avg、sum、max;count用于计算得到出现ERROR的次数;avg用于通过二维矢量图形的一种图形格式来呈现埋点数据是否达到阀值;max用于统计错误级别来判断是否达到预设报警阈值;
阈值判断单元,用于判断所述聚合计算得到的结果是否大于预设报警阈值;聚合计算的结果的不同对应着不同的预设报警阈值,当聚合计算得到的结果为出现ERROR的次数时,对应的预设报警阈值为出现ERROR的次数;当聚合计算得到的结果为二维矢量图形中的预设高度值时,对应的预设报警阈值为二维矢量图形中的预设高度值;当聚合计算得到的结果为错误级别时,对应的预设报警阈值为错误级别;
还包括:当聚合计算得到的结果大于预设报警阈值时,报警系统向终端发送报警信息,报警信息包括:异常的指标字段信息、发生异常的时间、异常的业务类型、异常所在位置信息;
报警信息包括具体出现异常的指标字段信息,在所述根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息之前包括:
提取报警信息中异常的指标字段信息,在Elasticsearch中查询所述异常的指标字段信息对应的字段值;
通过模板引擎将所查询到的字段值替换对应的异常的指标字段信息,得到包含字段值的报警信息;
还包括:
根据不同的类和/或方法设置对应的报警规则,报警规则中包括数据筛选、聚合计算、阈值判断三个阶段;
将报警规则存储在MySql数据库中,同时缓存在Redis数据库中;
还包括:
根据Elastic Job设置定时任务,根据定时任务执行根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件的步骤;
还包括:将命中预设报警规则的tracer_id提取出来,提供一个链接用于跳转到日志分享平台查看相关日志;tracer是用于分布式系统调用跟踪的组件。
3.一种业务数据的监控系统,其特征在于,所述系统包括:
业务系统,用于根据埋点日志收集工具实时采集并上报业务数据,将所述业务数据发送至报警系统,所述业务数据是根据需要监控的业务指标进行自定义埋点得到的;
报警系统,用于接收业务系统中埋点日志收集工具实时采集并上报的业务数据,将所述业务数据存储至Elasticsearch中,根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件,根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息;
在判断所述业务数据是否满足预设报警条件之前,还包括:
接收用户针对某一类和/或方法选择基础报警规则中对应的预设筛选条件、预设聚合函数、预设判断阈值;将某一类和/或方法的信息与基础报警规则中选择的预设筛选条件、预设聚合函数、预设判断阈值进行结合得到适用于某一类和/或方法的预设报警规则;并将该预设报警规则存储和缓存至数据库模块中;
所述判断所述业务数据是否满足预设报警条件包括:
根据预设过滤条件对所述业务数据进行筛选,得到每种类和/或方法对应的数据集,预设过滤条件中至少包括埋点标识、业务类型、错误等级;不同的业务数据也对应不同的预设过滤条件,所述预设过滤条件还包括:应用程序的名称、判断返回的数值是否错误、时间的限定;根据不同的过滤条件对不同的业务数据进行筛选会得到不同的类和/或方法对应的数据集;
将筛选得到的数据集通过预设聚合函数进行聚合计算;所述预设聚合函数包括:count、avg、sum、max;count用于计算得到出现ERROR的次数;avg用于通过二维矢量图形的一种图形格式来呈现埋点数据是否达到阀值;max用于统计错误级别来判断是否达到预设报警阈值;
判断所述聚合计算得到的结果是否大于预设报警阈值;聚合计算的结果的不同对应着不同的预设报警阈值,当聚合计算得到的结果为出现ERROR的次数时,对应的预设报警阈值为出现ERROR的次数;当聚合计算得到的结果为二维矢量图形中的预设高度值时,对应的预设报警阈值为二维矢量图形中的预设高度值;当聚合计算得到的结果为错误级别时,对应的预设报警阈值为错误级别;
还包括:当聚合计算得到的结果大于预设报警阈值时,报警系统向终端发送报警信息,报警信息包括:异常的指标字段信息、发生异常的时间、异常的业务类型、异常所在位置信息;
报警信息包括具体出现异常的指标字段信息,在所述根据所述业务数据中满足预设报警条件的业务数据,向终端发送报警信息之前包括:
提取报警信息中异常的指标字段信息,在Elasticsearch中查询所述异常的指标字段信息对应的字段值;
通过模板引擎将所查询到的字段值替换对应的异常的指标字段信息,得到包含字段值的报警信息;
还包括:
根据不同的类和/或方法设置对应的报警规则,报警规则中包括数据筛选、聚合计算、阈值判断三个阶段;
将报警规则存储在MySql数据库中,同时缓存在Redis数据库中;
还包括:
根据Elastic Job设置定时任务,根据定时任务执行根据不同的类和/或方法对应的报警规则,判断所述业务数据是否满足预设报警条件的步骤;
还包括:将命中预设报警规则的tracer_id提取出来,提供一个链接用于跳转到日志分享平台查看相关日志;tracer是用于分布式系统调用跟踪的组件;
终端,用于接收报警系统发送的报警信息。
4.一种电子设备,其特征在于,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行权利要求1所述的业务数据的监控方法。
5.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1所述的业务数据的监控方法。
CN202110427448.1A 2021-04-20 2021-04-20 业务数据的监控方法、装置及系统 Active CN113190423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110427448.1A CN113190423B (zh) 2021-04-20 2021-04-20 业务数据的监控方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427448.1A CN113190423B (zh) 2021-04-20 2021-04-20 业务数据的监控方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113190423A CN113190423A (zh) 2021-07-30
CN113190423B true CN113190423B (zh) 2024-02-20

Family

ID=76977802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427448.1A Active CN113190423B (zh) 2021-04-20 2021-04-20 业务数据的监控方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113190423B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020566B (zh) * 2021-10-28 2024-08-27 建信金融科技有限责任公司 作业调度系统的作业监控方法、装置、介质及电子设备
CN114328139A (zh) * 2021-12-17 2022-04-12 江苏银承网络科技股份有限公司 大厅接口的监控方法、装置、存储介质及服务器
CN114490249B (zh) * 2021-12-30 2023-04-07 广州市玄武无线科技股份有限公司 监控报警方法和装置、计算机设备、存储介质
CN115086147B (zh) * 2022-06-14 2024-09-17 康键信息技术(深圳)有限公司 一种业务数据监控预警方法、装置、介质及电子设备
CN115102845B (zh) * 2022-06-23 2024-09-17 中国民航信息网络股份有限公司 一种api网关故障定位方法、装置、系统和介质
CN115150782A (zh) * 2022-06-29 2022-10-04 中国第一汽车股份有限公司 车联网云服务的服务质量监控方法、装置、监控平台、服务器和存储介质
CN115277409A (zh) * 2022-07-20 2022-11-01 杭州米络星科技(集团)有限公司 埋点数据实时采集和上报方法及装置、获取系统和终端
CN116185782B (zh) * 2023-04-23 2023-07-18 智者四海(北京)技术有限公司 社交软件的业务监控方法与装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2413285A1 (en) * 2000-06-21 2001-12-27 Will C. Lauer Liveexception system
CN105653425A (zh) * 2015-12-28 2016-06-08 中国民航信息网络股份有限公司 基于复杂事件处理引擎的监控系统
CN106385331A (zh) * 2016-09-08 2017-02-08 努比亚技术有限公司 一种基于日志的监控告警方法及系统
CN106940677A (zh) * 2017-02-13 2017-07-11 咪咕音乐有限公司 一种应用日志数据告警方法及装置
CN107229556A (zh) * 2017-06-09 2017-10-03 环球智达科技(北京)有限公司 基于elastic组件的日志分析系统
CN108170580A (zh) * 2017-11-22 2018-06-15 链家网(北京)科技有限公司 一种基于规则的日志报警方法、装置及系统
CN110134659A (zh) * 2019-05-08 2019-08-16 厦门欢乐逛科技股份有限公司 运行程序的日志监控系统、方法、介质及设备
CN110244991A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 一种微服务依赖分析方法及装置
CN111581054A (zh) * 2020-04-30 2020-08-25 重庆富民银行股份有限公司 一种基于elk的日志埋点的业务分析告警系统及方法
CN112491611A (zh) * 2020-11-25 2021-03-12 网银在线(北京)科技有限公司 故障定位系统、方法、装置、电子设备和计算机可读介质
CN112615742A (zh) * 2020-12-18 2021-04-06 北京百度网讯科技有限公司 用于预警的方法、装置、设备以及存储介质
CN112653586A (zh) * 2019-10-12 2021-04-13 苏州工业园区测绘地理信息有限公司 基于全链路监控的时空大数据平台应用性能管理方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2413285A1 (en) * 2000-06-21 2001-12-27 Will C. Lauer Liveexception system
CN105653425A (zh) * 2015-12-28 2016-06-08 中国民航信息网络股份有限公司 基于复杂事件处理引擎的监控系统
CN106385331A (zh) * 2016-09-08 2017-02-08 努比亚技术有限公司 一种基于日志的监控告警方法及系统
CN106940677A (zh) * 2017-02-13 2017-07-11 咪咕音乐有限公司 一种应用日志数据告警方法及装置
CN107229556A (zh) * 2017-06-09 2017-10-03 环球智达科技(北京)有限公司 基于elastic组件的日志分析系统
CN108170580A (zh) * 2017-11-22 2018-06-15 链家网(北京)科技有限公司 一种基于规则的日志报警方法、装置及系统
CN110134659A (zh) * 2019-05-08 2019-08-16 厦门欢乐逛科技股份有限公司 运行程序的日志监控系统、方法、介质及设备
CN110244991A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 一种微服务依赖分析方法及装置
CN112653586A (zh) * 2019-10-12 2021-04-13 苏州工业园区测绘地理信息有限公司 基于全链路监控的时空大数据平台应用性能管理方法
CN111581054A (zh) * 2020-04-30 2020-08-25 重庆富民银行股份有限公司 一种基于elk的日志埋点的业务分析告警系统及方法
CN112491611A (zh) * 2020-11-25 2021-03-12 网银在线(北京)科技有限公司 故障定位系统、方法、装置、电子设备和计算机可读介质
CN112615742A (zh) * 2020-12-18 2021-04-06 北京百度网讯科技有限公司 用于预警的方法、装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
报警规则设计策略及其词法分析研究;武晓宏;;微电子学与计算机;20070505(第05期);141-142+145 *

Also Published As

Publication number Publication date
CN113190423A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN113190423B (zh) 业务数据的监控方法、装置及系统
CN107196804B (zh) 电力系统终端通信接入网告警集中监控系统及方法
CN110213068B (zh) 一种消息中间件的监控方法及相关设备
US20180365085A1 (en) Method and apparatus for monitoring client applications
CN112311617A (zh) 一种配置化数据监控告警方法及系统
CN110784355B (zh) 一种故障识别方法及装置
CN109977089A (zh) 日志管理方法、装置、计算机设备及计算机可读存储介质
CN103370904A (zh) 用于确定网络意外事件的严重性的方法
CN103220173A (zh) 一种报警监控方法及监控系统
CN109409948B (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN106789158A (zh) 一种云服务保险定损方法和系统
CN108959048A (zh) 模块化环境的性能分析方法、装置及可存储介质
CN112699007A (zh) 监控机器性能的方法、系统、网络设备及存储介质
CN111314137A (zh) 信息通信网络自动化运维方法、装置、存储介质和处理器
CN108390793A (zh) 一种分析系统稳定性的方法及装置
CN113746703A (zh) 一种异常链路监控方法、系统和装置
CN117370060A (zh) 基于云边协同的业务故障自动定位方法、系统及存储介质
CN111371570A (zh) 一种nfv网络的故障检测方法及装置
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN111324583B (zh) 一种业务日志的分类方法及装置
CN117135030A (zh) 告警关联分析方法、装置、终端设备以及存储介质
CN113225218A (zh) 一种话单质量的核查方法和装置
CN116136801B (zh) 云平台的数据处理方法、装置、电子设备及存储介质
CN115766768A (zh) 一种算力网络操作系统中感知中枢设计方法及装置
CN112383409B (zh) 一种网络状态码聚合报警方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant