CN113961440A - 一种用于发现大数据业务模块运行健康度的方法 - Google Patents

一种用于发现大数据业务模块运行健康度的方法 Download PDF

Info

Publication number
CN113961440A
CN113961440A CN202111269364.6A CN202111269364A CN113961440A CN 113961440 A CN113961440 A CN 113961440A CN 202111269364 A CN202111269364 A CN 202111269364A CN 113961440 A CN113961440 A CN 113961440A
Authority
CN
China
Prior art keywords
monitoring
module
file
alarm
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111269364.6A
Other languages
English (en)
Inventor
何晓庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamu Technology Co ltd
Original Assignee
Yamu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamu Technology Co ltd filed Critical Yamu Technology Co ltd
Priority to CN202111269364.6A priority Critical patent/CN113961440A/zh
Publication of CN113961440A publication Critical patent/CN113961440A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种用于发现大数据业务模块运行健康度的方法。本发明通过将监控文件包括在标准化的模块之中,能做到规范开发,降低部署门槛。此外,在监控期间,所有操作均不需要人工干预,且无需额外的系统,能够基于监控文件实现大数据分析领域的自动化的业务监控。

Description

一种用于发现大数据业务模块运行健康度的方法
技术领域
本发明涉及大数据领域的监控技术,尤其涉及一种用于发现大数据业务模块运行健康度的方法。
背景技术
在大数据OLAP业务领域,通用的监控技术,大多数基于单节点监控,需要进行较多手工配置,新增监控大多需要进行自定义开发。数据治理领域的监控技术,有基于业务的监控,但需要独立的系统完成,部署成本高,且大部分工作均需要手工完成。
因此,需要一种能够自动化监控业务运行状态的解决方案。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
大数据运维监控系统能帮助运维人员及时发现导致系统故障的隐患。在实际生产环境中,业务运行容易受服务器资源、数据时效性、网络、任务依赖、磁盘故障等影响而导致服务虽然正常,但业务运行不正常。传统的监控技术,侧重对服务器资源的监控,大多数只是监控了服务器操作系统层面上的一些底层指标,如基本的CPU,内存利用率等,对业务的监控关注较少。在数据治理领域,虽然有对业务运行状态进行监控,但大多是手动进行配置,显然不是经济的做法。
处于对生产中业务运行情况的告警需要,需对通过多种维度对业务和程序进行监控,以达到准确掌握业务运行状态的目的。本发明提出了一种自动化业务监控技术,能够自动地基于监控文件来进行业务运行状态监控。
根据本发明的一个实施例,公开了一种用于发现大数据业务模块运行健康度的方法,包括:生成针对所需业务功能的业务模块,所述业务模块包括监控文件,所述监控文件用于监控所述业务模块的运行健康度,并且所述监控文件指定了以下各项中的一者或多者:监控任务的监控类型,监控任务是否需要被周期性执行的循环标识,监控任务的监控周期,监控任务的执行指令,异常规则,告警冗余次数;读取所述监控文件,并根据所述监控文件中指定的监控周期来生成监控任务调度指令;基于所述监控任务调度指令和所述监控文件来执行监控任务,获得监控结果,并将所述监控结果与所述监控文件中指定的异常规则进行匹配;以及至少部分基于所述匹配来判断是否要触发业务告警,所述业务告警表示所述业务模块目前的运行状态已经处于不健康的水平。
根据本发明的另一个实施例,公开了一种用于发现大数据业务模块运行健康度的系统,包括:监控文件定义模块,所述监控文件定义模块被配置为生成针对所需业务功能的业务模块,所述业务模块包括监控文件,所述监控文件用于监控所述业务模块的运行健康度,并且所述监控文件指定了以下各项中的一者或多者:监控任务的监控类型,监控任务是否需要被周期性执行的循环标识,监控任务的监控周期,监控任务的执行指令,异常规则,告警冗余次数;监控任务调度模块,所述监控任务调度模块被配置为读取所述监控文件,并根据所述监控文件中指定的监控周期来生成监控任务调度指令;监控任务执行模块,所述监控任务执行模块被配置为基于所述监控任务调度指令和所述监控文件来执行监控任务,获得监控结果,并将所述监控结果与所述监控文件中指定的异常规则进行匹配;以及告警模块,所述告警模块被配置为至少部分基于所述匹配来判断是否要触发业务告警,所述业务告警表示所述业务模块目前的运行状态已经处于不健康的水平。
根据本发明的另一个实施例,公开了一种用于发现大数据业务模块运行健康度的计算设备,包括:处理器;存储器,所述存储器存储有指令,所述指令在被所述处理器执行时能执行如上所述的方法。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
图1示出了根据本发明的一个实施例的用于发现大数据业务模块运行健康度的系统100的示意图;
图2示出了根据本发明的一个实施例的用于发现大数据业务模块运行健康度的方法200的流程图;以及
图3示出了根据本发明的一实施例的可应用于本发明的各方面的硬件设备的计算设备300的框图。
具体实施方式
下面结合附图详细描述本发明,本发明的特点将在以下的具体描述中得到进一步的显现。
以下简要介绍本发明中出现的一些术语的定义。
OLAP(on-Line Analytic Processing):一般指联机分析处理。联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
图1示出了根据本发明的一个实施例的用于发现大数据业务模块运行健康度的系统100的示意图。该系统100被配置为对大数据OLAP业务进行模块化开发,并基于业务模块内定义的监控文件对业务运行状态进行自动化的监控。该系统100可包括监控文件定义模块101、监控任务调度模块102、监控任务执行模块103以及告警模块104。
在实践中,监控文件定义模块101定义模块代码目录结构,以对模块代码的组织结构进行标准化,并针对客户所需具体业务功能对模块代码目录结构进行初始化,从而生成包含经初始化的模块代码的业务模块。该经初始化的模块代码中包括经初始化的监控文件。该监控文件用于监控业务模块的运行健康度。在将业务模块交付给客户后,客户可将业务模块部署在客户端或其他合适之处。监控任务调度模块102可基于监控文件中指定的监控任务的监控周期来生成监控任务调度指令。监控任务执行模块103可基于监控任务调度模块102发出的监控任务调度指令来基于监控文件执行监控任务,并将执行监控任务所得到的监控结果与监控文件中指定的异常规则进行比较,以判断是否存在异常。如果存在异常,则向告警模块104发送告警,以由告警模块104判断是否要触发警告。由此,可对该业务模块是否运行正常来进行自动化的监控。
一般而言,监控文件定义模块101可被安装在提供大数据OLAP业务的提供商处,而监控任务调度模块102、监控任务执行模块103以及告警模块104可被实现在执行大数据业务的客户的客户端处。当然,取决于具体的业务模块部署方式,以上模块可在不同或相同的计算设备、服务器或云端实现。
其中,上述任何模块可以与任何其他模块通信,但出于容易解说的目的而未示出所有连接。并且,本领域的技术人员完全可以理解,本文仅仅是出于解说的目的来解说上述各个模块,上述模块中的一者或多者的功能可被合并到单个模块或拆分到多个模块中。并且,上述模块中的一者或多者可用软件、硬件或其组合的方式来实现。
根据本发明的一个实施例,监控文件定义模块101可进一步包括标准化模块101-1与初始化模块101-2。标准化模块101-1被配置为对模块目录结构进行标准化,使得开发人员可以在后续开发过程中根据该标准化的模块目录结构来放入相应的代码文件。根据本发明的一个实施例,标准化模块101-1可被配置为针对具体的业务功能来定义不同的模块代码目录结构,使得开发人员可在面对客户提出的业务功能时选择合适的模块代码目录结构来进行开发。例如,每种模块可针对一种类型的业务功能。举例而言,一种模块可针对用于检测是否受到恶意攻击的业务功能。而另一种模块可针对用于检测数据流向是否正确的业务功能。由此,取决于不同业务功能的具体需求,这两种模块的代码目录结构可被不同地定义。
根据本发明的一个实施例,模块代码目录结构中可包含对业务模块的描述,对配置文件的描述,对调度任务的描述,对模块初始化操作的描述,对监控任务的描述,对模块管理操作执行后校验的描述,对业务任务的描述和对依赖库的描述。
根据本发明的一个实施例,初始化模块101-2可被配置为基于客户的所需业务功能对模块代码目录结构进行初始化操作,以生成包含针对该所需业务功能的经初始化的模块代码在内的业务模块。具体而言,初始化模块101-2可被配置为将上述标准化模块101-1所定义的模块代码目录结构作为标准化的模板结构,按照业务功能的需要针对模块代码目录结构中的各项生成相应的初始化文件。例如,初始化模块101-2可被配置为生成监控文件(例如,monitor.json)。该监控文件用于监控针对所需业务功能的业务模块的运行健康度。该监控文件对监控任务的调度频次,监控任务的具体执行内容,以及在执行监控任务后出现异常结果时如何处理等方面进行了指定。具体而言,监控文件可定义一个或多个监控任务。针对每一个监控任务,监控文件可包括以下各项中的一者或多者:监控任务的任务名称,监控任务的监控类型,监控任务所针对的模块信息,监控任务是否需要被周期性执行的循环标识,监控任务的监控周期,监控任务的执行指令,异常规则,告警冗余次数等。如下文描述,如在监控类型为data的情况下,监控任务的执行指令可包括“数据源信息”与“监控任务的sql”。本领域的技术人员完全可以根据不同的监控类型来指定监控任务的执行指令。
在下面的示例监控文件的描述中,定义了一个基于sql进行监控的任务。
其中:
task_name为监控任务的名称;
type则为监控类型,本示例中的data表示为基于数据的监控类型,用于从业务数据缓存中监控业务项目的数量。除了本示例中示出的data类型之外,还可有以下的监控类型:file(文件监控),directory(目录监控),process(进程监控),port(端口监控),api(api监控)等。举例而言,file(文件监控)可监控某个文件是不是存在,process(进程监控)可监控某个进程是不是存在。
module_name表示此监控任务所针对的模块信息;
loop_flag标识是否周期性执行监控;
monitor_interval代表监控周期,10min代表10分钟监控一次;
source标识数据源信息,即要监控的数据所在的位置,ch标识在clickhosue数据库中。除了本示例中示出的ch之外,还可存在以下代表数据存储的框架名称:例如mysql,pg-postgres,oracle,hive,spqrk-sql,druid,gp-greenplum等;
sql则标识当type为data时,要执行的sql,通过此sql获得监控结果,其中带{}代表参数,可模板化定义,本示例中的sql表示统计符合条件的数据条数;
rules中定义的是异常规则,符合这些规则,则认为是异常;
alert_times是实际触发告警的冗余次数,本示例中标识达到2次异常时告警。
Figure BDA0003328136260000061
以下表1提供了关于代码中常用的匹配符号的全称、代码中所使用的相应的符号以及对应的含义:
Figure BDA0003328136260000062
Figure BDA0003328136260000071
表1
在提供商将业务模块交付给客户之后,客户可对该业务模块进行部署,使得客户端能自动基于该业务模块内的监控文件来执行对该业务模块运行状态的监控。本领域的技术人员可以理解,客户端可为一台计算设备或多台以集群方式存在的计算设备,以至少实现对业务功能的执行以及对业务功能运行状态的监控。
对于客户端而言,大数据业务监控体系从逻辑上可分为业务层、平台层和应用层。其中,业务层可包括具体的大数据业务系统。平台层可包括例如大数据采集引擎、大数据计算引擎和/或大数据存储等,以实时采集来自业务系统的大数据并分析大数据的运行状态。应用层可实时动态展现业务功能的各项运行指标图表,例如针对异常运行状态的告警。一般而言,本发明中的监控任务调度模块102、监控任务执行模块103以及告警模块104可被实现在平台层中。即,监控任务生成、监控任务执行以及告警可由各引擎来自动地完成。
根据本发明的一个实施例,监控任务调度模块102可被配置成在将针对所需业务功能的业务模块部署在客户端后,读取该业务模块中包括的监控文件,根据监控文件中指定的监控周期来生成监控任务调度指令。例如,监控任务调度模块102可被配置为获取当前时间的对应单位数字,针对监控文件中指定的监控周期进行取模,当取模结果为0时,代表符合执行条件,表明可生成监控任务调度指令。
继续上述的示例性监控文件,如果当前时间为23:20,监控周期为10min(如,代码"monitor_interval":"10min"所指定的),则取当前分钟数20对10进行取模,结果为0,说明符合执行条件,可生成监控任务调度指令。
根据本发明的一个实施例,如果监控文件中指定了"loop_flag":true,即允许循环,则监控任务调度模块102可被配置为按照指定的监控周期来定期生成监控任务调度指令。
根据本发明的一个实施例,所生成的监控任务调度指令可被传送到监控任务执行模块103以触发监控任务的执行。
根据本发明的一个实施例,监控任务执行模块103可被配置为在接收到监控任务调度指令之际,基于监控文件来执行监控任务,并将监控结果与监控文件中指定的异常规则进行匹配。例如,监控任务执行模块103可被配置从监控文件中提取监控任务的执行指令,异常规则等来执行监控任务。
例如,监控任务执行模块103被配置为基于监控任务的执行指令来执行监控任务以得到监控结果,并将监控结果与异常规则进行比对,以判断监控结果是否存在异常,如果存在异常,则向告警模块104发送告警指令。
继续上述的示例性监控文件,监控任务的数据源信息为"source":"ch",监控任务所要执行的sql为"sql":"select count(*)from src.src_dns_logs_cache where parse_timestamp between'{monitor_timestamp_end}'and'{monitor_timestamp_end}',从配置中心中读取针对该数据源的连接信息ch=clickhouse,pg=postgresql,gp=greenplum,由此来执行该sql,并获得执行该sql的监控结果。例如,执行该sql所得到的监控结果是在某个有效时间段期间的特定时间处src.src_dns_logs_cache中项的数量。如果第一次获取监控结果为1,异常规则为le:100,le的意思为小于等于,显然1小于等于100,符合异常规则,从而将告警指令传送到告警模块104。
根据本发明的一个实施例,告警模块104被配置为基于监控任务执行模块103发送的告警指令,将针对该监控任务的告警发生次数与监控文件中指定的告警冗余次数进行比对,以判断是否触发告警。例如,如果告警发生次数超过告警冗余次数,则触发告警,若小于告警冗余次数,则记录此次告警,即将告警发生次数递增1,而不触发告警。
继续上述的示例性监控文件,针对该监控任务的告警次数的计数器被初始地设置为0。如果第一次获取监控结果为1,异常规则为le:100,le的意思为小于等于,显然1小于等于100,符合异常规则,告警次数为1,小于冗余上限2,则不进行告警,记录本次告警,即计数器被递增为1;第二次获得监控结果为1,显然符合异常规则,计数器加1,即告警次数此时为2,等于冗余上限,则触发告警,并将告警次数重置为0。如果触发告警,则表示该业务模块目前的运行状态已经处于不健康的水平,需要进行进一步的监控或处理。例如,可向客户或管理员报告该告警。
根据本发明的另一个实施例,如果监控文件中定义了一个以上的监控任务,则监控任务调度模块102可基于监控文件中每个监控任务的监控周期来生成多个监控任务调度指令,其中每个监控任务调度指令可包括对应的监控任务的名称(例如,task_name)。监控任务执行模块103可基于监控任务调度模块102发出的监控任务调度指令中所包含的监控任务的名称来寻找对应的监控任务,并基于该对应的监控任务中的执行指令来执行监控任务,并将执行监控任务所得到的监控结果与该对应的监控任务指定的异常规则进行比较,以判断是否存在异常。如果存在异常,则向告警模块104发送告警指令,以由告警模块104判断是否要触发警告。该告警指令也可包括对应的监控任务的名称。由此,告警模块104可基于与该监控任务名称相对应的监控任务指定的告警冗余次数来判断是否要触发警告。
图2示出了根据本发明的一个实施例的用于发现大数据业务模块运行健康度的方法200的流程图。根据本发明的一个实施例,步骤201在大数据OLAP业务提供商处执行,步骤202-204在客户端处执行。当然,取决于具体的业务模块部署方式,以上步骤201-204可在不同或相同的计算设备、服务器或云端实现。
在步骤201,生成针对所需业务功能的业务模块,该业务模块包括监控文件。所生成的监控文件用于监控该业务模块的运行健康度。并且,所生成的监控文件指定了以下信息中的一者或多者:监控任务的任务名称、监控任务是否需要被循环执行的循环标识、监控任务的监控周期、数据源信息、监控任务的sql、异常规则和/或告警冗余次数。当然,监控文件还可以根据具体业务需求来指定其他信息或删除以上信息中的一者或多者。例如,根据本发明的一个实施例,告警冗余次数可不被指定。即,只要满足异常规则,即可触发告警。
根据本发明的一个实施例,生成监控文件可包括:(1)定义模块代码目录结构,以对模块代码的组织结构进行标准化;(2)基于所需业务功能对模块代码目录结构进行初始化操作,使得模块代码目录结构中的一项或多项根据客户提出的所需业务功能被初始化,以生成针对所需业务功能的经初始化的模块代码,该业务模块包括经初始化的模块代码。具体而言,该业务模块包括在初始化过程中生成的监控文件。
在步骤202,读取监控文件,并根据监控文件中指定的监控周期来生成监控任务调度指令。根据本发明的一个实施例,客户端接收步骤301生成的针对所需业务功能的业务模块并基于该业务模块中的配置文件、调度文件等进行部署。之后,客户端读取该业务模块中所包括的监控文件,并获取当前时间的对应单位数字,针对监控文件中指定的监控周期进行取模,当取模结果为0时,代表符合执行条件,表明可生成监控任务调度指令。
在步骤203,基于监控任务调度指令和监控文件,执行监控任务,获得监控结果,并将监控结果与监控文件中指定的异常规则进行匹配。根据本发明的一个实施例,例如,在监控类型为data的情况下,可从监控文件中提取监控任务的数据源信息,提取监控任务所要执行的sql,连接数据源,并执行该sql,由此获取监控结果。根据本发明的一个实施例,如果监控结果不符合异常规则,则不生成告警指令。如果监控结果符合异常规则,则生成告警指令。
在步骤204,判断是否要触发业务告警。根据本发明的一个实施例,基于告警指令,进一步判断针对监控任务的告警发生次数是否超过告警冗余次数,若超过,则触发告警,若小于告警冗余次数,则针对此次监控结果进行计数(即,告警发生次数递增1),不触发告警。如果触发告警,则表示该业务模块目前的运行状态已经处于不健康的水平,需要进行进一步的监控或处理。在触发告警后,将告警发生次数重置为0。
根据本发明的一个实施例,告警可通过用户界面、语音、文本等多种方式被传递给客户。
根据本发明的另一个实施例,如果客户端安装了多个业务模块,则可在用户界面中同时显示针对多个业务模块的告警信息。
总而言之,通过对代码结构进行模块化和标准化,并将监控文件包括在标准化的模块之中,能做到规范开发,降低部署门槛。此外,在监控期间,所有操作均不需要人工干预,且无需额外的系统,能够实现大数据分析领域的自动化的业务监控。
图3示出了根据本发明的一实施例的可应用于本发明的各方面的硬件设备的计算设备300的框图。例如,本发明中的大数据业务提供商和/或客户端可被实现为计算设备300或计算设备300的群集。
参考图3,计算设备300可以是可被配置成用于实现处理和/或计算的任何机器,可以是但并不局限于工作站、服务器、桌面型计算机、膝上型计算机、平板计算机、个人数字处理、智能手机、车载计算机、家用摄像头、会议录像设备、道路摄像头或者它们的任何组合。前述的各种方法/装置/服务器/客户端设备可全部或者至少部分地由计算设备300或者类似设备或系统来实现。
计算设备300可包括可经由一个或多个接口和总线302连接或通信的组件。例如,计算设备300可包括总线302、一个或多个处理器304、一个或多个输入设备306以及一个或多个输出设备308。该一个或多个处理器304可以是任何类型的处理器并且可包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如,专门的处理芯片)。输入设备306可以是任何类型的能够向计算设备输入信息的设备并且可以包括但不限于鼠标、键盘、触摸屏、麦克风、摄像头和/或远程控制器。输出设备308可以是任何类型的能够呈现信息的设备并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备300也可以包括非瞬态存储设备310或者与所述非瞬态存储设备相连接,所述非瞬态存储设备可以是非瞬态的并且能够实现数据存储的任何存储设备,并且所述非瞬态存储设备可以包括但不限于磁盘驱动器、光存储设备、固态存储器、软盘、软磁盘、硬盘、磁带或任何其它磁介质、光盘或任何其它光介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何存储芯片或盒式磁带、和/或计算机可从其读取数据、指令和/或代码的任何其它介质。非瞬态存储设备310可从接口分离。非瞬态存储设备310可具有用于实施上述方法和步骤的数据/指令/代码。计算设备300也可包括通信设备312。通信设备312可以是任何类型的能够实现与内部装置通信和/或与网络通信的设备或系统并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、IEEE1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似设备。
总线302可以包括但不限于工业标准结构(ISA)总线、微通道结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外部设备互连(PCI)总线。
计算设备300还可包括工作存储器314,该工作存储器314可以是任何类型的能够存储有利于处理器304的工作的指令和/或数据的工作存储器并且可以包括但不限于随机存取存储器和/或只读存储设备。
软件组件可位于工作存储器314中,这些软件组件包括但不限于操作系统316、一个或多个应用程序318、驱动程序和/或其它数据和代码。用于实现本发明上述方法和步骤的指令可包含在所述一个或多个应用程序318中,并且可通过处理器304读取和执行所述一个或多个应用程序318的指令来实现本发明的上述方法200。
也应该认识到可根据具体需求而做出变化。例如,也可使用定制硬件、和/或特定组件可在硬件、软件、固件、中间件、微代码、硬件描述语音或其任何组合中实现。此外,可采用与其它计算设备、例如网络输入/输出设备等的连接。例如,可通过具有汇编语言或硬件编程语言(例如,VERILOG、VHDL、C++)的编程硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)利用根据本发明的逻辑和算法来实现所公开的方法和设备的部分或全部。
尽管目前为止已经参考附图描述了本发明的各方面,但是上述方法、系统和设备仅是示例,并且本发明的范围不限于这些方面,而是仅由所附权利要求及其等同物来限定。各种组件可被省略或者也可被等同组件替代。另外,也可以在与本发明中描述的顺序不同的顺序实现所述步骤。此外,可以按各种方式组合各种组件。也重要的是,随着技术的发展,所描述的组件中的许多组件可被之后出现的等同组件所替代。

Claims (10)

1.一种用于发现大数据业务模块运行健康度的方法,包括:
生成针对所需业务功能的业务模块,所述业务模块包括监控文件,所述监控文件用于监控所述业务模块的运行健康度,并且所述监控文件指定了以下各项中的一者或多者:监控任务的监控类型,监控任务是否需要被周期性执行的循环标识,监控任务的监控周期,监控任务的执行指令,异常规则,告警冗余次数;
读取所述监控文件,并根据所述监控文件中指定的监控周期来生成监控任务调度指令;
基于所述监控任务调度指令和所述监控文件来执行监控任务,获得监控结果,并将所述监控结果与所述监控文件中指定的异常规则进行匹配;以及
至少部分基于所述匹配来判断是否要触发业务告警,所述业务告警表示所述业务模块目前的运行状态已经处于不健康的水平。
2.如权利要求1所述的方法,其特征在于,生成业务模块进一步包括:
定义模块代码目录结构,以对模块代码的组织结构进行标准化,所述模块代码目录结构中的各项包含以下中的一者或多者:对业务模块的描述,对配置文件的描述,对调度任务的描述,对模块初始化操作的描述,对监控任务的描述,对模块管理操作执行后校验的描述,对业务任务的描述和对依赖库的描述;
基于所需业务功能对所述模块代码目录结构进行初始化操作,以生成针对所述所需业务功能的业务模块,所述业务模块包括经初始化的模块代码。
3.如权利要求1所述的方法,其特征在于,读取所述监控文件,并根据所述监控文件中指定的监控周期来生成监控任务调度指令进一步包括:
接收所述业务模块;
读取所述业务模块中的所述监控文件,并获取当前时间的对应单位数字;
针对所述监控文件中指定的监控周期进行取模,当取模结果为0时,生成监控任务调度指令。
4.如权利要求1所述的方法,其特征在于,执行所述监控任务,并获得监控结果进一步包括:如果所述监控类型为data,则:
从所述监控文件中提取所述监控任务的数据源信息;
从所述监控文件中提取所述监控任务所要执行的sql;
连接所述数据源;
执行所述sql;以及
获得所述监控结果。
5.如权利要求1所述的方法,其特征在于,执行监控任务,获得监控结果,并将所述监控结果与所述监控文件中指定的异常规则进行匹配进一步包括:
如果所述监控结果与所述异常规则匹配,则生成告警指令。
6.如权利要求5所述的方法,其特征在于,判断是否要触发业务告警进一步包括:基于所述告警指令,将针对所述监控任务的告警发生次数与所述监控文件中指定的告警冗余次数进行比对;若所述告警发生次数超过所述告警冗余次数,则触发告警;
若所述告警发生次数小于所述告警冗余次数,则不触发告警。
7.一种用于发现大数据业务模块运行健康度的系统,包括:
监控文件定义模块,所述监控文件定义模块被配置为生成针对所需业务功能的业务模块,所述业务模块包括监控文件,所述监控文件用于监控所述业务模块的运行健康度,并且所述监控文件指定了以下各项中的一者或多者:监控任务的监控类型,监控任务是否需要被周期性执行的循环标识,监控任务的监控周期,监控任务的执行指令,异常规则,告警冗余次数;
监控任务调度模块,所述监控任务调度模块被配置为读取所述监控文件,并根据所述监控文件中指定的监控周期来生成监控任务调度指令;
监控任务执行模块,所述监控任务执行模块被配置为基于所述监控任务调度指令和所述监控文件来执行监控任务,获得监控结果,并将所述监控结果与所述监控文件中指定的异常规则进行匹配;以及
告警模块,所述告警模块被配置为至少部分基于所述匹配来判断是否要触发业务告警,所述业务告警表示所述业务模块目前的运行状态已经处于不健康的水平。
8.如权利要求7所述的系统,其特征在于,监控文件定义模块进一步包括:
标准化模块,所述标准化模块被配置为定义模块代码目录结构,以对模块代码的组织结构进行标准化,所述模块代码目录结构中的各项包含以下中的一者或多者:对业务模块的描述,对配置文件的描述,对调度任务的描述,对模块初始化操作的描述,对监控任务的描述,对模块管理操作执行后校验的描述,对业务任务的描述和对依赖库的描述;以及
初始化模块,所述初始化模块被配置为基于所需业务功能对所述模块代码目录结构进行初始化操作,以生成针对所述所需业务功能的业务模块,所述业务模块包括经初始化的模块代码。
9.如权利要求8所述的系统,其特征在于,读取所述监控文件,并根据所述监控文件中指定的监控周期来生成监控任务调度指令进一步包括:接收所述业务模块;读取所述业务模块中的所述监控文件,并获取当前时间的对应单位数字;针对所述监控文件中指定的监控周期进行取模,当取模结果为0时,生成监控任务调度指令;
执行所述监控任务,并获得监控结果进一步包括:如果所述监控结果与所述异常规则匹配,则将告警指令传送到所述告警模块;
至少部分基于所述匹配来判断是否要触发业务告警进一步包括:基于所述告警指令,将针对所述监控任务的告警发生次数与所述监控文件中指定的告警冗余次数进行比对,以判断是否触发告警。
10.一种用于发现大数据业务模块运行健康度的计算设备,包括:
处理器;
存储器,所述存储器存储有指令,所述指令在被所述处理器执行时能执行如权利要求1-6所述的方法。
CN202111269364.6A 2021-10-29 2021-10-29 一种用于发现大数据业务模块运行健康度的方法 Pending CN113961440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111269364.6A CN113961440A (zh) 2021-10-29 2021-10-29 一种用于发现大数据业务模块运行健康度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111269364.6A CN113961440A (zh) 2021-10-29 2021-10-29 一种用于发现大数据业务模块运行健康度的方法

Publications (1)

Publication Number Publication Date
CN113961440A true CN113961440A (zh) 2022-01-21

Family

ID=79468252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111269364.6A Pending CN113961440A (zh) 2021-10-29 2021-10-29 一种用于发现大数据业务模块运行健康度的方法

Country Status (1)

Country Link
CN (1) CN113961440A (zh)

Similar Documents

Publication Publication Date Title
US11586972B2 (en) Tool-specific alerting rules based on abnormal and normal patterns obtained from history logs
US11983639B2 (en) Systems and methods for identifying process flows from log files and visualizing the flow
CN111352921A (zh) 基于elk的慢查询监控方法、装置、计算机设备及存储介质
CN111581054A (zh) 一种基于elk的日志埋点的业务分析告警系统及方法
CN111162950B (zh) 故障事件处理方法、装置及系统
CN110928853A (zh) 一种标识日志的方法和装置
CN110213238A (zh) 数据的威胁检测方法及装置、存储介质、计算机设备
CN112232881A (zh) 一种数据检测方法、装置、电子设备及存储介质
CN112306700A (zh) 一种异常rpc请求的诊断方法和装置
CN112313627A (zh) 事件到无服务器函数工作流实例的映射机制
US10009220B2 (en) In-vehicle information system and information processing method thereof
US20190190933A1 (en) Behavioral and account fingerprinting
CN113672475B (zh) 告警处理方法、装置、计算机设备和存储介质
US20220179764A1 (en) Multi-source data correlation extraction for anomaly detection
CN112685255A (zh) 一种接口监控方法、装置、电子设备及存储介质
CN113961440A (zh) 一种用于发现大数据业务模块运行健康度的方法
CN114428706B (zh) 接口监控方法、装置、存储介质及电子设备
CN113986706A (zh) 一种基于数据业务监控的自动数据业务重跑方法
CN110990237B (zh) 一种信息收集系统、方法及存储介质
CN113342619A (zh) 日志监控方法、系统、电子设备及可读介质
CN112612679A (zh) 系统运行状态监控方法、装置、计算机设备和存储介质
CN106777010B (zh) 日志的提供方法、装置以及日志的获取方法、装置和系统
CN115190008B (zh) 故障处理方法、故障处理装置、电子设备及存储介质
CN114584616B (zh) 一种消息推送方法、装置、电子设备及存储介质
CN109450700B (zh) 可视化的业务检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination