CN115562932A - 一种基于多接口平台的任务监控与异常自愈方法和装置 - Google Patents

一种基于多接口平台的任务监控与异常自愈方法和装置 Download PDF

Info

Publication number
CN115562932A
CN115562932A CN202211094234.8A CN202211094234A CN115562932A CN 115562932 A CN115562932 A CN 115562932A CN 202211094234 A CN202211094234 A CN 202211094234A CN 115562932 A CN115562932 A CN 115562932A
Authority
CN
China
Prior art keywords
task
interface
module
alarm
warehousing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211094234.8A
Other languages
English (en)
Inventor
刘彬
郭建章
邹琳
夏峻
李建明
傅博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Digital Intelligence Technology Co Ltd
Original Assignee
China Telecom Digital Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Digital Intelligence Technology Co Ltd filed Critical China Telecom Digital Intelligence Technology Co Ltd
Priority to CN202211094234.8A priority Critical patent/CN115562932A/zh
Publication of CN115562932A publication Critical patent/CN115562932A/zh
Priority to PCT/CN2023/117162 priority patent/WO2024051723A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种基于多接口平台的任务监控与异常自愈方法和装置,包括任务调度模块、任务执行模块和任务告警模块,所述任务调度模块用于调度任务创建、调用控制、调度任务日志;所述任务执行模块用于监控任务配置、呈现整个接口任务调用的执行过程和结果,包括任务执行时间、执行状态、执行结果、任务告警,触发流程;所述任务告警模块用于接口任务告警规则配置、告警通知配置、告警后触发任务配置,利用上述装置配套自愈方法,实现对接口任务的循环巡检,发现问题并解决,确保系统能正常运行,本发明能实现自动7x24小时接口任务监控、调用和异常恢复,大大减少了对人工的依赖,提高了工作效率。

Description

一种基于多接口平台的任务监控与异常自愈方法和装置
技术领域
本发明专利属于计算机技术领域,具体涉及一种基于多接口平台的任务监控与异常自愈方法和装置。
背景技术
在大型企业发展过程中,IT系统是提高企业工作效率的重要手段。随着业务扩展,IT系 统越建越多,系统间数据不统一,能力重复开发等问题逐步显现。中台架构在一定程度上解决问题,但能力微服务化在一定程度上增加运维的难度。
位于呈现层的系统,一般位于架构的上层,高度依赖底层能力。上下游系统均需要监控能力可用性。传统巡检方式高度依靠运维人员来保障,该方式需要人工7x24对系统进行监控。
发明内容
本发明的目的是为了解决背景技术中提及的问题,提供一种基于多接口平台的任务监控与异常自愈方法和装置,能实现自动7x24小时接口任务监控、调用和异常恢复。
为实现上述技术目的,本发明采取的技术方案为:
一种基于多接口平台的任务监控与异常自愈方法,包括以下步骤:
步骤一:入库巡检,判断入库是否正常执行;如果正常执行则增加临时入库巡检任务,进行下一轮入库巡检,直到满足入库要求为止;如果入库未正常执行则进入步骤二;
步骤二:接口检查,如果接口正常,进入步骤三;如果接口异常则进入步骤四;
步骤三:日志检查:先检查入库任务是否存在日志报错,如有报错则进入步骤四;如无报错则进入步骤五;
步骤四:触发警告,通知内外部接口运维人处理,同时增加临时入库巡检任务;
步骤五:增加临时任务,增加临时入库任务和临时入库巡检任务。
作为优选,所述接口检查,包括HTTP接口、数据库接口和文件接口的检查。
作为优选,所述步骤四,通知内外部接口运维人员采用:邮件或短信或电话方式。
作为优选,所述步骤三中日志可人工录入特殊异常,增加日志检查识别库。
一种基于多接口平台的任务监控与异常自愈装置,包括任务调度模块、任务执行模块和任务告警模块,所述任务调度模块用于调度任务创建、调用控制、调度任务日志;所述任务执行模块用于监控任务配置、呈现整个接口任务调用的执行过程和结果,包括任务执行时间、执行状态、执行结果、任务告警,触发流程;所述任务告警模块用于接口任务告警规则配置、告警通知配置、告警后触发任务配置。
作为优选,所述任务调度模块、任务执行模块和任务告警模块充分解耦,可独立部署。
作为优选,任务调度模块、任务执行模块和任务告警模块采用奇数方式部署。
本发明的有益效果是:
1、将人工处理的工作全部通过自动化方式实现,包括自动检查入库是否正常执行,自动判断接口是否异常,接口异常时自动触发告警,并且自动新增临时巡检任务,大大减少了对人工的依赖,提高了工作效率。
2、本发明提供的异常自愈方法能反复触发巡检、修复流程,最终形成闭环,直到问题解决为止,可靠有保障,确保了系统能正常运行。
附图说明
图1是各模块作用示意图;
图2是各模块间运转流程图;
图3是自愈方法流程图;
图4是故障自处理流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
如图1、2所示,先配置各模块,首先配置任务执行模块,它用于监控任务配置、呈现整个接口任务调用的执行过程和结果,包括任务执行时间、执行状态、执行结果、任务告警,触发流程;
梳理要进行监控的任务,可监控的任务包括HTTP接口监控任务、文件接口监控任务、数据库接口监控任务;对于HTTP接口监控任务需提供接口地址、调用参数;对于文件接口监控任务,需提供巡检服务器地址、目录;对于数据库接口监控任务,需提供巡检 SQL 脚本;任务执行模块的监控任务需部署到对应的服务器上,根据不同的任务,还需提供服务器访问用户名和密码,数据库访问用户名密码,以及相关的权限;
然后配置任务调度模块,它用于调度任务创建、调用控制、调度任务日志;
先配置任务创建和调用控制的功能,再配置日志内容:入库的问题通常出现于数据类型错误、空字段、空数据等,需配置哪些错误可以直接通知对方运维人员;完成任务配置后,要完成执行调度配置,配置支持 Cron 时间表达式;
最后配置任务告警模块,它用于接口任务告警规则配置、告警通知配置、告警后触发任务配置;
先配置任务执行结果对应的告警规则,支持“> = < like”等常用匹配符,和告警后触发任务,可触发自愈算法、告警通知、调用接口等,再配置告警后要触发的任务,通知人。
本装置的任务调度模块、任务执行模块和任务告警模块,每个模块均采用3节点及以上奇数方式部署;例如部署一套完整的本监控系统需要至少部署一个3节点的任务调度模块,一个3节点的任务监控模块,一个3节点的任务告警模块,部署完成后各模块与系统间通过心跳检测方式检查模块可用性;
奇数方式部署具备自监控算法:当某一模块节点可用性率在50%至100%,系统自动向运维人员推送节点故障一般警告告警;当该模块节点可用率在0%至50%间,系统自动向运维人员推送严重警告告警;当该模块可用率为0%时,系统自动向运维人员推送系统不可用告警;发生告警时,系统均主动发起重启该故障节点操作;采用奇数方式部署,确保了各模块的高可用性。
如图3、4所示,完成各模块配置后,将各模块与平台对应的监控程序对接,本自愈系统即可运行,具体自愈方法如下:
步骤一:入库巡检,判断入库是否正常执行;如果正常执行则增加临时入库巡检任务,进行下一轮入库巡检,直到满足入库要求为止;如果入库未正常执行则进入步骤二;
步骤二:接口检查,接口包括HTTP接口、数据库接口和文件接口,如果接口正常,进入步骤三;如果接口异常则进入步骤四;
步骤三:日志检查:先检查入库任务是否存在日志报错,如有报错则进入步骤四,需注意,当出现特殊异常情况,日志未报错,后续可以人工将异常情况录入日志,增加日志检查识别库;如无报错则进入步骤五;
步骤四:触发警告,通过短信、邮件、或电话等方式通知内外部接口运维人处理,同时增加临时入库巡检任务;
步骤五:增加临时任务,增加临时入库任务和临时入库巡检任务。
本发明提供的自愈方法是一套从任务调度、执行、告警、任务补偿的全流程闭环系统,是一个循环调用,直到问题解决的过程,能够有效减少我方人工运维工作量。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (7)

1.一种基于多接口平台的任务监控与异常自愈方法,其特征在于,包括以下步骤:
步骤一:入库巡检,判断入库是否正常执行;如果正常执行则增加临时入库巡检任务,进行下一轮入库巡检,直到满足入库要求为止;如果入库未正常执行则进入步骤二;
步骤二:接口检查,如果接口正常,进入步骤三;如果接口异常则进入步骤四;
步骤三:日志检查:先检查入库任务是否存在日志报错,如有报错则进入步骤四;如无报错则进入步骤五;
步骤四:触发警告,通知内外部接口运维人处理,同时增加临时入库巡检任务;
步骤五:增加临时任务,增加临时入库任务和临时入库巡检任务。
2.根据权利要求1所述的一种基于多接口平台的任务监控与异常自愈方法,其特征在于:所述接口检查,包括HTTP接口、数据库接口和文件接口的检查。
3.根据权利要求2所述的一种基于多接口平台的任务监控与异常自愈方法,其特征在于:所述步骤四,通知内外部接口运维人员采用:邮件或短信或电话方式。
4.根据权利要求3所述的一种基于多接口平台的任务监控与异常自愈方法,其特征在于:所述步骤三中日志能够人工录入特殊异常,增加日志检查识别库。
5.一种基于多接口平台的任务监控与异常自愈装置,其特征在于:包括任务调度模块、任务执行模块和任务告警模块,所述任务调度模块用于调度任务创建、调用控制、调度任务日志;所述任务执行模块用于监控任务配置、呈现整个接口任务调用的执行过程和结果,包括任务执行时间、执行状态、执行结果、任务告警,触发流程;所述任务告警模块用于接口任务告警规则配置、告警通知配置、告警后触发任务配置。
6.根据权利要求5所述的一种基于多接口平台的任务监控与异常自愈装置,其特征在于:所述任务调度模块、任务执行模块和任务告警模块充分解耦,能够独立部署。
7.根据权利要求6所述的一种基于多接口平台的任务监控与异常自愈装置,其特征在于:任务调度模块、任务执行模块和任务告警模块采用奇数方式部署。
CN202211094234.8A 2022-09-08 2022-09-08 一种基于多接口平台的任务监控与异常自愈方法和装置 Pending CN115562932A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211094234.8A CN115562932A (zh) 2022-09-08 2022-09-08 一种基于多接口平台的任务监控与异常自愈方法和装置
PCT/CN2023/117162 WO2024051723A1 (zh) 2022-09-08 2023-09-06 一种基于多接口平台的任务监控与异常自愈方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211094234.8A CN115562932A (zh) 2022-09-08 2022-09-08 一种基于多接口平台的任务监控与异常自愈方法和装置

Publications (1)

Publication Number Publication Date
CN115562932A true CN115562932A (zh) 2023-01-03

Family

ID=84738399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211094234.8A Pending CN115562932A (zh) 2022-09-08 2022-09-08 一种基于多接口平台的任务监控与异常自愈方法和装置

Country Status (2)

Country Link
CN (1) CN115562932A (zh)
WO (1) WO2024051723A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051723A1 (zh) * 2022-09-08 2024-03-14 中电信数智科技有限公司 一种基于多接口平台的任务监控与异常自愈方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140372805A1 (en) * 2012-10-31 2014-12-18 Verizon Patent And Licensing Inc. Self-healing managed customer premises equipment
CN109543992B (zh) * 2018-11-19 2020-08-11 华能国际电力股份有限公司上安电厂 智能巡检方法、装置、智能终端及服务器
CN112149975B (zh) * 2020-09-11 2023-04-18 杭州东方通信软件技术有限公司 一种基于人工智能的apm监控系统及监控方法
CN113342607A (zh) * 2021-06-08 2021-09-03 北京科东电力控制系统有限责任公司 一种面向api的全场景多维度监控机制的实现方法
CN114816930A (zh) * 2022-05-06 2022-07-29 南京壹证通信息科技有限公司 一种主动式服务自愈运维系统及方法
CN115562932A (zh) * 2022-09-08 2023-01-03 中电信数智科技有限公司 一种基于多接口平台的任务监控与异常自愈方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051723A1 (zh) * 2022-09-08 2024-03-14 中电信数智科技有限公司 一种基于多接口平台的任务监控与异常自愈方法和装置

Also Published As

Publication number Publication date
WO2024051723A1 (zh) 2024-03-14

Similar Documents

Publication Publication Date Title
CN109726072B (zh) WebLogic服务器的监控告警方法、装置、系统及计算机存储介质
CN102937930B (zh) 应用程序监控系统及方法
US6898733B2 (en) Process activity and error monitoring system and method
US7213176B2 (en) Adaptive log file scanning utility
CN111510349A (zh) 业务异常检测和告警方法、装置、设备及存储介质
CN113434327B (zh) 一种故障处理系统、方法、设备和存储介质
US7610172B2 (en) Method and system for monitoring non-occurring events
WO2007005440A2 (en) Change event correlation
US20020120638A1 (en) System, method and apparatus for a network-organized repository of data
WO2024051723A1 (zh) 一种基于多接口平台的任务监控与异常自愈方法和装置
CN114205224A (zh) 一种基于物联网的多媒体设备远程运维管控方法及系统
CN106982141A (zh) Weblogic实例监控方法及装置
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN108173711B (zh) 企业内部系统数据交换监控方法
CN111399978A (zh) 一种基于OpenStack的故障迁移系统及迁移方法
CN114390016B (zh) 邮箱规则管理方法、装置、计算机设备和存储介质
KR101973728B1 (ko) 통합 보안 이상징후 모니터링 시스템
JP2004164271A (ja) ジョブ実行監視方法及びプログラム
CN114610560B (zh) 系统异常监控方法、装置和存储介质
CN108874626A (zh) 系统监控方法与装置
CN113971508A (zh) 基于信息集成平台针对接口调用异常的处理方法及装置
CN112181780A (zh) 容器化平台核心组件的检测及告警方法、装置及设备
CN113157555A (zh) 用于线上压测数据漏库实时检测的系统、方法及设备
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN114461506A (zh) 集群告警控制方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination