CN115562932A - 一种基于多接口平台的任务监控与异常自愈方法和装置 - Google Patents
一种基于多接口平台的任务监控与异常自愈方法和装置 Download PDFInfo
- Publication number
- CN115562932A CN115562932A CN202211094234.8A CN202211094234A CN115562932A CN 115562932 A CN115562932 A CN 115562932A CN 202211094234 A CN202211094234 A CN 202211094234A CN 115562932 A CN115562932 A CN 115562932A
- Authority
- CN
- China
- Prior art keywords
- task
- interface
- module
- alarm
- warehousing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012544 monitoring process Methods 0.000 title claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 19
- 238000007689 inspection Methods 0.000 claims abstract description 24
- 238000012423 maintenance Methods 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 abstract description 2
- 238000011084 recovery Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Debugging And Monitoring (AREA)
Abstract
一种基于多接口平台的任务监控与异常自愈方法和装置,包括任务调度模块、任务执行模块和任务告警模块,所述任务调度模块用于调度任务创建、调用控制、调度任务日志;所述任务执行模块用于监控任务配置、呈现整个接口任务调用的执行过程和结果,包括任务执行时间、执行状态、执行结果、任务告警,触发流程;所述任务告警模块用于接口任务告警规则配置、告警通知配置、告警后触发任务配置,利用上述装置配套自愈方法,实现对接口任务的循环巡检,发现问题并解决,确保系统能正常运行,本发明能实现自动7x24小时接口任务监控、调用和异常恢复,大大减少了对人工的依赖,提高了工作效率。
Description
技术领域
本发明专利属于计算机技术领域,具体涉及一种基于多接口平台的任务监控与异常自愈方法和装置。
背景技术
在大型企业发展过程中,IT系统是提高企业工作效率的重要手段。随着业务扩展,IT系 统越建越多,系统间数据不统一,能力重复开发等问题逐步显现。中台架构在一定程度上解决问题,但能力微服务化在一定程度上增加运维的难度。
位于呈现层的系统,一般位于架构的上层,高度依赖底层能力。上下游系统均需要监控能力可用性。传统巡检方式高度依靠运维人员来保障,该方式需要人工7x24对系统进行监控。
发明内容
本发明的目的是为了解决背景技术中提及的问题,提供一种基于多接口平台的任务监控与异常自愈方法和装置,能实现自动7x24小时接口任务监控、调用和异常恢复。
为实现上述技术目的,本发明采取的技术方案为:
一种基于多接口平台的任务监控与异常自愈方法,包括以下步骤:
步骤一:入库巡检,判断入库是否正常执行;如果正常执行则增加临时入库巡检任务,进行下一轮入库巡检,直到满足入库要求为止;如果入库未正常执行则进入步骤二;
步骤二:接口检查,如果接口正常,进入步骤三;如果接口异常则进入步骤四;
步骤三:日志检查:先检查入库任务是否存在日志报错,如有报错则进入步骤四;如无报错则进入步骤五;
步骤四:触发警告,通知内外部接口运维人处理,同时增加临时入库巡检任务;
步骤五:增加临时任务,增加临时入库任务和临时入库巡检任务。
作为优选,所述接口检查,包括HTTP接口、数据库接口和文件接口的检查。
作为优选,所述步骤四,通知内外部接口运维人员采用:邮件或短信或电话方式。
作为优选,所述步骤三中日志可人工录入特殊异常,增加日志检查识别库。
一种基于多接口平台的任务监控与异常自愈装置,包括任务调度模块、任务执行模块和任务告警模块,所述任务调度模块用于调度任务创建、调用控制、调度任务日志;所述任务执行模块用于监控任务配置、呈现整个接口任务调用的执行过程和结果,包括任务执行时间、执行状态、执行结果、任务告警,触发流程;所述任务告警模块用于接口任务告警规则配置、告警通知配置、告警后触发任务配置。
作为优选,所述任务调度模块、任务执行模块和任务告警模块充分解耦,可独立部署。
作为优选,任务调度模块、任务执行模块和任务告警模块采用奇数方式部署。
本发明的有益效果是:
1、将人工处理的工作全部通过自动化方式实现,包括自动检查入库是否正常执行,自动判断接口是否异常,接口异常时自动触发告警,并且自动新增临时巡检任务,大大减少了对人工的依赖,提高了工作效率。
2、本发明提供的异常自愈方法能反复触发巡检、修复流程,最终形成闭环,直到问题解决为止,可靠有保障,确保了系统能正常运行。
附图说明
图1是各模块作用示意图;
图2是各模块间运转流程图;
图3是自愈方法流程图;
图4是故障自处理流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
如图1、2所示,先配置各模块,首先配置任务执行模块,它用于监控任务配置、呈现整个接口任务调用的执行过程和结果,包括任务执行时间、执行状态、执行结果、任务告警,触发流程;
梳理要进行监控的任务,可监控的任务包括HTTP接口监控任务、文件接口监控任务、数据库接口监控任务;对于HTTP接口监控任务需提供接口地址、调用参数;对于文件接口监控任务,需提供巡检服务器地址、目录;对于数据库接口监控任务,需提供巡检 SQL 脚本;任务执行模块的监控任务需部署到对应的服务器上,根据不同的任务,还需提供服务器访问用户名和密码,数据库访问用户名密码,以及相关的权限;
然后配置任务调度模块,它用于调度任务创建、调用控制、调度任务日志;
先配置任务创建和调用控制的功能,再配置日志内容:入库的问题通常出现于数据类型错误、空字段、空数据等,需配置哪些错误可以直接通知对方运维人员;完成任务配置后,要完成执行调度配置,配置支持 Cron 时间表达式;
最后配置任务告警模块,它用于接口任务告警规则配置、告警通知配置、告警后触发任务配置;
先配置任务执行结果对应的告警规则,支持“> = < like”等常用匹配符,和告警后触发任务,可触发自愈算法、告警通知、调用接口等,再配置告警后要触发的任务,通知人。
本装置的任务调度模块、任务执行模块和任务告警模块,每个模块均采用3节点及以上奇数方式部署;例如部署一套完整的本监控系统需要至少部署一个3节点的任务调度模块,一个3节点的任务监控模块,一个3节点的任务告警模块,部署完成后各模块与系统间通过心跳检测方式检查模块可用性;
奇数方式部署具备自监控算法:当某一模块节点可用性率在50%至100%,系统自动向运维人员推送节点故障一般警告告警;当该模块节点可用率在0%至50%间,系统自动向运维人员推送严重警告告警;当该模块可用率为0%时,系统自动向运维人员推送系统不可用告警;发生告警时,系统均主动发起重启该故障节点操作;采用奇数方式部署,确保了各模块的高可用性。
如图3、4所示,完成各模块配置后,将各模块与平台对应的监控程序对接,本自愈系统即可运行,具体自愈方法如下:
步骤一:入库巡检,判断入库是否正常执行;如果正常执行则增加临时入库巡检任务,进行下一轮入库巡检,直到满足入库要求为止;如果入库未正常执行则进入步骤二;
步骤二:接口检查,接口包括HTTP接口、数据库接口和文件接口,如果接口正常,进入步骤三;如果接口异常则进入步骤四;
步骤三:日志检查:先检查入库任务是否存在日志报错,如有报错则进入步骤四,需注意,当出现特殊异常情况,日志未报错,后续可以人工将异常情况录入日志,增加日志检查识别库;如无报错则进入步骤五;
步骤四:触发警告,通过短信、邮件、或电话等方式通知内外部接口运维人处理,同时增加临时入库巡检任务;
步骤五:增加临时任务,增加临时入库任务和临时入库巡检任务。
本发明提供的自愈方法是一套从任务调度、执行、告警、任务补偿的全流程闭环系统,是一个循环调用,直到问题解决的过程,能够有效减少我方人工运维工作量。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (7)
1.一种基于多接口平台的任务监控与异常自愈方法,其特征在于,包括以下步骤:
步骤一:入库巡检,判断入库是否正常执行;如果正常执行则增加临时入库巡检任务,进行下一轮入库巡检,直到满足入库要求为止;如果入库未正常执行则进入步骤二;
步骤二:接口检查,如果接口正常,进入步骤三;如果接口异常则进入步骤四;
步骤三:日志检查:先检查入库任务是否存在日志报错,如有报错则进入步骤四;如无报错则进入步骤五;
步骤四:触发警告,通知内外部接口运维人处理,同时增加临时入库巡检任务;
步骤五:增加临时任务,增加临时入库任务和临时入库巡检任务。
2.根据权利要求1所述的一种基于多接口平台的任务监控与异常自愈方法,其特征在于:所述接口检查,包括HTTP接口、数据库接口和文件接口的检查。
3.根据权利要求2所述的一种基于多接口平台的任务监控与异常自愈方法,其特征在于:所述步骤四,通知内外部接口运维人员采用:邮件或短信或电话方式。
4.根据权利要求3所述的一种基于多接口平台的任务监控与异常自愈方法,其特征在于:所述步骤三中日志能够人工录入特殊异常,增加日志检查识别库。
5.一种基于多接口平台的任务监控与异常自愈装置,其特征在于:包括任务调度模块、任务执行模块和任务告警模块,所述任务调度模块用于调度任务创建、调用控制、调度任务日志;所述任务执行模块用于监控任务配置、呈现整个接口任务调用的执行过程和结果,包括任务执行时间、执行状态、执行结果、任务告警,触发流程;所述任务告警模块用于接口任务告警规则配置、告警通知配置、告警后触发任务配置。
6.根据权利要求5所述的一种基于多接口平台的任务监控与异常自愈装置,其特征在于:所述任务调度模块、任务执行模块和任务告警模块充分解耦,能够独立部署。
7.根据权利要求6所述的一种基于多接口平台的任务监控与异常自愈装置,其特征在于:任务调度模块、任务执行模块和任务告警模块采用奇数方式部署。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211094234.8A CN115562932A (zh) | 2022-09-08 | 2022-09-08 | 一种基于多接口平台的任务监控与异常自愈方法和装置 |
PCT/CN2023/117162 WO2024051723A1 (zh) | 2022-09-08 | 2023-09-06 | 一种基于多接口平台的任务监控与异常自愈方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211094234.8A CN115562932A (zh) | 2022-09-08 | 2022-09-08 | 一种基于多接口平台的任务监控与异常自愈方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115562932A true CN115562932A (zh) | 2023-01-03 |
Family
ID=84738399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211094234.8A Pending CN115562932A (zh) | 2022-09-08 | 2022-09-08 | 一种基于多接口平台的任务监控与异常自愈方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115562932A (zh) |
WO (1) | WO2024051723A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024051723A1 (zh) * | 2022-09-08 | 2024-03-14 | 中电信数智科技有限公司 | 一种基于多接口平台的任务监控与异常自愈方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140372805A1 (en) * | 2012-10-31 | 2014-12-18 | Verizon Patent And Licensing Inc. | Self-healing managed customer premises equipment |
CN109543992B (zh) * | 2018-11-19 | 2020-08-11 | 华能国际电力股份有限公司上安电厂 | 智能巡检方法、装置、智能终端及服务器 |
CN112149975B (zh) * | 2020-09-11 | 2023-04-18 | 杭州东方通信软件技术有限公司 | 一种基于人工智能的apm监控系统及监控方法 |
CN113342607A (zh) * | 2021-06-08 | 2021-09-03 | 北京科东电力控制系统有限责任公司 | 一种面向api的全场景多维度监控机制的实现方法 |
CN114816930A (zh) * | 2022-05-06 | 2022-07-29 | 南京壹证通信息科技有限公司 | 一种主动式服务自愈运维系统及方法 |
CN115562932A (zh) * | 2022-09-08 | 2023-01-03 | 中电信数智科技有限公司 | 一种基于多接口平台的任务监控与异常自愈方法和装置 |
-
2022
- 2022-09-08 CN CN202211094234.8A patent/CN115562932A/zh active Pending
-
2023
- 2023-09-06 WO PCT/CN2023/117162 patent/WO2024051723A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024051723A1 (zh) * | 2022-09-08 | 2024-03-14 | 中电信数智科技有限公司 | 一种基于多接口平台的任务监控与异常自愈方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2024051723A1 (zh) | 2024-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726072B (zh) | WebLogic服务器的监控告警方法、装置、系统及计算机存储介质 | |
CN102937930B (zh) | 应用程序监控系统及方法 | |
US6898733B2 (en) | Process activity and error monitoring system and method | |
US7213176B2 (en) | Adaptive log file scanning utility | |
CN111510349A (zh) | 业务异常检测和告警方法、装置、设备及存储介质 | |
CN113434327B (zh) | 一种故障处理系统、方法、设备和存储介质 | |
US7610172B2 (en) | Method and system for monitoring non-occurring events | |
WO2007005440A2 (en) | Change event correlation | |
US20020120638A1 (en) | System, method and apparatus for a network-organized repository of data | |
WO2024051723A1 (zh) | 一种基于多接口平台的任务监控与异常自愈方法和装置 | |
CN114205224A (zh) | 一种基于物联网的多媒体设备远程运维管控方法及系统 | |
CN106982141A (zh) | Weblogic实例监控方法及装置 | |
CN108809729A (zh) | 一种分布式系统中ctdb服务的故障处理方法及装置 | |
CN108173711B (zh) | 企业内部系统数据交换监控方法 | |
CN111399978A (zh) | 一种基于OpenStack的故障迁移系统及迁移方法 | |
CN114390016B (zh) | 邮箱规则管理方法、装置、计算机设备和存储介质 | |
KR101973728B1 (ko) | 통합 보안 이상징후 모니터링 시스템 | |
JP2004164271A (ja) | ジョブ実行監視方法及びプログラム | |
CN114610560B (zh) | 系统异常监控方法、装置和存储介质 | |
CN108874626A (zh) | 系统监控方法与装置 | |
CN113971508A (zh) | 基于信息集成平台针对接口调用异常的处理方法及装置 | |
CN112181780A (zh) | 容器化平台核心组件的检测及告警方法、装置及设备 | |
CN113157555A (zh) | 用于线上压测数据漏库实时检测的系统、方法及设备 | |
CN111835566A (zh) | 一种系统故障管理方法、装置及系统 | |
CN114461506A (zh) | 集群告警控制方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |