CN113672456A - 应用平台的模块化自监听方法、系统、终端及存储介质 - Google Patents
应用平台的模块化自监听方法、系统、终端及存储介质 Download PDFInfo
- Publication number
- CN113672456A CN113672456A CN202110902905.8A CN202110902905A CN113672456A CN 113672456 A CN113672456 A CN 113672456A CN 202110902905 A CN202110902905 A CN 202110902905A CN 113672456 A CN113672456 A CN 113672456A
- Authority
- CN
- China
- Prior art keywords
- log
- application platform
- file
- monitoring
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002159 abnormal effect Effects 0.000 claims abstract description 93
- 238000011084 recovery Methods 0.000 claims abstract description 31
- 238000013500 data storage Methods 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 7
- 238000011144 upstream manufacturing Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims 1
- 230000002776 aggregation Effects 0.000 claims 1
- 238000012423 maintenance Methods 0.000 abstract description 12
- 238000003745 diagnosis Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 238000007726 management method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种应用平台的模块化自监听方法、系统、终端及存储介质,包括:解析应用平台的监听渠道信息,根据所述监听渠道信息监听应用平台各服务组件的运行状态;监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径;根据所述相关日志从故障数据存储库查询匹配的故障修复操作文件,执行所述故障修复操作文件对应用平台进行异常恢复。本发明提供了基于日志的故障恢复流程,流程包括触发告警、收集日志、故障诊断以及故障恢复;其中故障诊断采用人工添加的模板日志机型匹配,并且模板日志和恢复操作可自定义扩充,所提出方法可以提高平台运行的稳定性,提高了运维效率。
Description
技术领域
本发明涉及大型服务器机房应用平台技术领域,具体涉及一种应用平台的模块化自监听方法、系统、终端及存储介质。
背景技术
随着互联网的应用范围逐渐扩大,互联网企业对物理设备的需求逐渐增加,机房运维难度日益增加,对物理设备的管理需求逐步增大。综合化的平台级应用在机房管理、监控以及运维中发挥着重要的作用。作为一款平台级应用软件,往往涉及多个应用模块以满足复杂的机房运维需求,所有平台功能和运维操作的实现均是基于这些基础的服务组件。
为了保障平台功能的稳定,首先要保证平台的各基本服务正常运行,因此除了具备对外提供产品功能的基础服务组件外,还需要监控自身服务的运行状态,在服务状态发生异常后及时产生告警。现有应用平台的监控大多是通过对接其日志,通过采集错误日志进行故障告警。但是由于应用平台的功能模块较多,功能模块的日志存储路径也不同,导致日志分析的计算量较大,效率较低。且若间隔一定周期对错误日志进行筛选分析,可能会导致故障告警的滞后性,造成应用平台的不稳定性,一旦一些高等级的故障未被及时发现,容易造成应用平台的崩溃。而应用平台的自身报错大多是总体的报错,只有在整体运行出现问题时才会向操作系统报错,也会导致故障告警的滞后性。
发明内容
针对现有技术存在的大型应用平台的监控告警滞后性导致的应用平台稳定性不佳的问题,本发明提供一种应用平台的模块化自监听方法、系统、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种应用平台的模块化自监听方法,包括:
解析应用平台的监听渠道信息,根据所述监听渠道信息监听应用平台各服务组件的运行状态;
监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径;
根据所述相关日志从故障数据存储库查询匹配的故障修复操作文件,执行所述故障修复操作文件对应用平台进行异常恢复。
进一步的,解析应用平台的监听渠道信息,包括:
采集应用平台版本信息,根据所述版本信息从资源库查询匹配的基础监听渠道,所述资源库存储多种版本应用平台的监听渠道信息,所述基础监听渠道包括操作系统对应用平台的监听渠道和监听信息查询指令;
读取应用平台配置文件,从所述配置文件解析各服务组件的对外监听接口信息。
进一步的,根据所述监听渠道信息监听应用平台各服务组件的运行状态,包括:
通过操作系统对应用平台的监听渠道获取应用平台的第一运行状态;
通过监听信息查询指令获取获取应用平台的第二运行状态;
通过远程调用各服务组件的对外监听接口获取应用平台的第三运行状态;
从第一运行状态、第二运行状态和第三运行状态筛选运行状态异常的服务组件信息;
根据运行状态异常的服务组件信息生成异常告警,并将异常告警推送至前端。
进一步的,监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径,包括:
预先从应用平台的配置文件中解析各服务组件的日志文件存储路径和日志格式,所述日志格式包括日志生成时间、线程名和级别;
从所有日志文件存储路径读取所有服务组件的日志文件,并对所有服务组件的日志文件进行整合汇总;
从汇总的日志文件中调取日志生成时间在异常发生时间范围内的初级日志文件;
从初级日志文件中筛选出级别为错误等级的日志文件作为异常日志文件。
进一步的,从所有日志文件存储路径读取所有服务组件的日志文件,并对所有服务组件的日志文件进行整合汇总,包括:
对各服务组件的日志文件标记所属服务组件信息,并按照日志生成时间先后进行排序;
对排序后的日志文件进行去重处理,得到汇总日志文件。
进一步的,监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径,包括:
预先解析各服务组件之间的上下游关联关系,构建服务组件关联拓扑;
从异常的运行状态相关数据中解析异常服务组件信息;
根据异常服务组件信息和服务组件关联拓扑从异常日志文件中筛选出异常服务组件日志文件和异常服务组件的关联服务组件的日志文件,作为重要匹配日志文件。
进一步的,根据所述相关日志从故障数据存储库查询匹配的故障修复操作文件,执行所述故障修复操作文件对应用平台进行异常恢复,包括:
根据异常日志文件从故障数据存储库查询匹配的故障修复操作文件;
若查询到匹配的故障修复操作文件,则将匹配的故障修复操作文件输出至操作系统;
若未查询到匹配的故障修复操作文件,则从故障数据存储库二次查询与重要匹配日志文件匹配的故障修复操作文件,并将二次查询到的故障修复操作文件输出至操作系统。
第二方面,本发明提供一种应用平台的模块化自监听系统,包括:
监听执行单元,用于解析应用平台的监听渠道信息,根据所述监听渠道信息监听应用平台各服务组件的运行状态;
日志获取单元,用于监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径;
故障恢复单元,用于根据所述相关日志从故障数据存储库查询匹配的故障修复操作文件,执行所述故障修复操作文件对应用平台进行异常恢复。
进一步的,监听执行单元用于:
采集应用平台版本信息,根据所述版本信息从资源库查询匹配的基础监听渠道,所述资源库存储多种版本应用平台的监听渠道信息,所述基础监听渠道包括操作系统对应用平台的监听渠道和监听信息查询指令;
读取应用平台配置文件,从所述配置文件解析各服务组件的对外监听接口信息。
进一步的,监听执行单元用于:
通过操作系统对应用平台的监听渠道获取应用平台的第一运行状态;
通过监听信息查询指令获取获取应用平台的第二运行状态;
通过远程调用各服务组件的对外监听接口获取应用平台的第三运行状态;
从第一运行状态、第二运行状态和第三运行状态筛选运行状态异常的服务组件信息;
根据运行状态异常的服务组件信息生成异常告警,并将异常告警推送至前端。
进一步的,日志获取单元用于:
预先从应用平台的配置文件中解析各服务组件的日志文件存储路径和日志格式,所述日志格式包括日志生成时间、线程名和级别;
从所有日志文件存储路径读取所有服务组件的日志文件,并对所有服务组件的日志文件进行整合汇总;
从汇总的日志文件中调取日志生成时间在异常发生时间范围内的初级日志文件;
从初级日志文件中筛选出级别为错误等级的日志文件作为异常日志文件。
进一步的,日志获取单元用于:
对各服务组件的日志文件标记所属服务组件信息,并按照日志生成时间先后进行排序;
对排序后的日志文件进行去重处理,得到汇总日志文件。
进一步的,日志获取单元用于:
预先解析各服务组件之间的上下游关联关系,构建服务组件关联拓扑;
从异常的运行状态相关数据中解析异常服务组件信息;
根据异常服务组件信息和服务组件关联拓扑从异常日志文件中筛选出异常服务组件日志文件和异常服务组件的关联服务组件的日志文件,作为重要匹配日志文件。
进一步的,故障恢复单元用于:
根据异常日志文件从故障数据存储库查询匹配的故障修复操作文件;
若查询到匹配的故障修复操作文件,则将匹配的故障修复操作文件输出至操作系统;
若未查询到匹配的故障修复操作文件,则从故障数据存储库二次查询与重要匹配日志文件匹配的故障修复操作文件,并将二次查询到的故障修复操作文件输出至操作系统。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,
本发明提供的应用平台的模块化自监听方法、系统、终端及存储介质,通过解析应用平台的监听渠道信息,实现对应用平台的模块化监听,对应用平台的监听更加全面、准确,同时对各服务组件的日志进行整合,实现异常相关日志的快速读取,并结合相关日志实现对应用平台的自修复,增强了应用平台的稳定性。本发明提供了基于日志的故障恢复流程,流程包括触发告警、收集日志、故障诊断以及故障恢复;其中故障诊断采用人工添加的模板日志机型匹配,并且模板日志和恢复操作可自定义扩充,所提出方法可以提高平台运行的稳定性,提高了运维效率。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的方法的日志汇总的示意性流程图。
图3是本发明一个实施例的系统的示意性框图。
图4为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种应用平台的模块化自监听系统。
如图1所示,该方法包括:
步骤110,解析应用平台的监听渠道信息,根据所述监听渠道信息监听应用平台各服务组件的运行状态;
步骤120,监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径;
步骤130,根据所述相关日志从故障数据存储库查询匹配的故障修复操作文件,执行所述故障修复操作文件对应用平台进行异常恢复。
为了便于对本发明的理解,下面以本发明应用平台的模块化自监听方法的原理,结合实施例中对应用平台的模块化进行自监听的过程,对本发明提供的应用平台的模块化自监听方法做进一步的描述。
具体的,所述应用平台的模块化自监听方法包括:
S1、解析应用平台的监听渠道信息,根据所述监听渠道信息监听应用平台各服务组件的运行状态。
采集应用平台版本信息,根据版本信息从资源库查询匹配的基础监听渠道,资源库存储多种版本应用平台的监听渠道信息,基础监听渠道包括操作系统对应用平台的监听渠道和监听信息查询指令;读取应用平台配置文件,从配置文件解析各服务组件的对外监听接口信息。通过操作系统对应用平台的监听渠道获取应用平台的第一运行状态;通过监听信息查询指令获取获取应用平台的第二运行状态;通过远程调用各服务组件的对外监听接口获取应用平台的第三运行状态;从第一运行状态、第二运行状态和第三运行状态筛选运行状态异常的服务组件信息;根据运行状态异常的服务组件信息生成异常告警,并将异常告警推送至前端。
本实施例以ISPIM平台为例进行说明,浪潮物理基础设施管理平台(ISPIM),为用户提供资产管理、智能监控、能耗管理、自动巡检与保修、无状态管理、报表统计分析等功能,实现服务器、存储、网络设备、防火墙的统一管理,有效地帮助企业用户提高运维效率、降低运维成本,保障数据中心稳定的运行。ISPIM的服务组件依赖于操作系统的Java运行环境,每个服务组件均有独立的Java线程,由操作系统下的systemd服务统一管理,通过systemctl-cmd命令实现服务组件状态的监控以及基本的启停操作。此外每个ISPIM服务组件均有默认的监听端口,可以在对应配置文件中进行修改,ISPIM各服务组件启动后通过该端口对外进行通信,因此也可以通过netstat命令查询各ISPIM服务组件的端口监听状况实现对服务状态的监控;在操作系统层面对ISPIM服务组件进行监控可以保障服务正常启动、监听端口,但无法识别程序的假死状态,即systemctl命令结果显示服务运行正常,netstat命令结果显示服务端口监听正常,但服务组件的对外接口调用无反应。因此需要通过定时远程方法调用(RMI)的方式,调用各服务的RMI接口来监控服务运行状态,当接口返回值正常时服务状态正常,当接口返回值错误或无应答时,显示服务状态异常。
本实施例通过综合ISPIM的多种监听渠道实现对ISPIM平台的全方位模块化监听,不仅能够获取ISPIM平台的整体运行状态还能够获取各服务组件的运行状态。
S2、监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径。
预先从应用平台的配置文件中解析各服务组件的日志文件存储路径和日志格式,所述日志格式包括日志生成时间、线程名和级别;从所有日志文件存储路径读取所有服务组件的日志文件,并对所有服务组件的日志文件进行整合汇总;从汇总的日志文件中调取日志生成时间在异常发生时间范围内的初级日志文件;从初级日志文件中筛选出级别为错误等级的日志文件作为异常日志文件。
日志整合汇总过程如图2所示,对各服务组件的日志文件标记所属服务组件信息,并按照日志生成时间先后进行排序;对排序后的日志文件进行去重处理,得到汇总日志文件。
为了进一步提取有效的异常日志,预先解析各服务组件之间的上下游关联关系,构建服务组件关联拓扑;从异常的运行状态相关数据中解析异常服务组件信息;根据异常服务组件信息和服务组件关联拓扑从异常日志文件中筛选出异常服务组件日志文件和异常服务组件的关联服务组件的日志文件,作为重要匹配日志文件。
在服务组件进行故障诊断或性能分析时,首先要对服务组件进行日志分析,对平台服务日志仅有最低的标准格式要求,即使用标准化的日志记录即可在平台服务中引入日志收集,以ISPIM平台为例。在ISPIM平台中,ISPIM的各服务组件均有各自的运行日志,并保存在固定的目录中,日志文件中的服务运行记录具有统一的格式——“{时间}[线程名称][级别]-记录信息:详细信息–at{java类目录(类名称:所在行)}”。例如“2021-07-02 00:06:33.857[pool-12-thread-4][ERROR]get error,url:https://*/*/*,exception:Failed to connect to/*-at com.inspur.*(*.java:*)”,表示在7月2日0点6分时收到ERROR级别的错误日志,错误信息为url连接错误。日志记录格式中的“时间”为操作系统时间,ISPIM各服务组件的日志时间均为操作系统时间,保持一致;“线程名称”和“java类目录(类名称:所在行)”为自动获取;“级别”和“记录信息:详细信息”为自定义信息,在各服务组件实现具体功能时由开发人员设定。当平台运行出现错误时,运维人员首先会调查各服务的运行日志,由于平台功能可能会使用多个服务组件,而每个服务组件的日志分别保存在各自的日志文件中,为产品的维护带来了不便。本实施例针对这一问题给出的解决方案为:首先从配置文件中读取服务日志所在路径,若日志不存在则跳过该服务组件选择另一个服务组件,若日志存在按照输入的时间范围,对比日志记录中的“时间”标记,提取所有位于时间范围内的日志记录,并对这些记录添加新的“服务组件”标记位置,例如该日志来源于backend组件,则为每一条记录添加“[backend]”标记;重复执行该过程,直至所有服务组件的日志均被处理,汇总整理后,将日志记录按照“时间”标志进行排序。由于所有服务组件均与操作系统时间保持一致,因此用户在使用某功能时,用户的日志记录将按照时间顺序保存,即汇总整理后的日志记录将包含整个功能调用周期的完整日志记录。
对各服务组件的日志进行汇总排序后,再从中筛选与应用平台异常相关的日志文件。
S3、根据所述相关日志从故障数据存储库查询匹配的故障修复操作文件,执行所述故障修复操作文件对应用平台进行异常恢复。
根据异常日志文件从故障数据存储库查询匹配的故障修复操作文件;若查询到匹配的故障修复操作文件,则将匹配的故障修复操作文件输出至操作系统;若未查询到匹配的故障修复操作文件,则从故障数据存储库二次查询与重要匹配日志文件匹配的故障修复操作文件,并将二次查询到的故障修复操作文件输出至操作系统。
具体的,可以预先创建一个故障数据存储库,故障数据存储库中存储历史故障数据,历史故障数据包括历史发生过的故障类型,以及故障类型对应的日志文件和故障修复操作文件,属于同一故障类型的日志文件和故障修复操作文件绑定。
本实施例优选地采用二级匹配机制,即首次匹配是从故障数据存储库查询与异常日志文件匹配的故障修复操作文件。异常日志文件包括所有服务组件在异常发生时间范围内的异常日志,若首次匹配成功,在将首次匹配到的故障修复操作文件输出至操作系统,由操作系统执行该故障修复操作文件。若首次匹配不成功,则进程二次查询,二次查询选择与平台异常相关度较高的异常日志,从故障数据存储库二次查询与重要匹配日志文件匹配的故障修复操作文件,并将二次查询到的故障修复操作文件输出至操作系统。通过二级匹配机制实现最大范围地查找有效的故障修复操作文件,提高了应用平台的恢复效率。
在本发明的其他实施方式中,也可以将两次查询步骤的先后顺序调换,即先查询与重要匹配日志文件匹配的故障修复操作文件,然后再通过匹配异常日志文件缩小目标范围。也可以采用单级匹配,即只查找与重要匹配日志文件匹配的故障修复操作文件。
如图3所示,该系统300包括:
监听执行单元310,用于解析应用平台的监听渠道信息,根据所述监听渠道信息监听应用平台各服务组件的运行状态;
日志获取单元320,用于监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径;
故障恢复单元330,用于根据所述相关日志从故障数据存储库查询匹配的故障修复操作文件,执行所述故障修复操作文件对应用平台进行异常恢复。
可选地,作为本发明一个实施例,监听执行单元用于:
采集应用平台版本信息,根据所述版本信息从资源库查询匹配的基础监听渠道,所述资源库存储多种版本应用平台的监听渠道信息,所述基础监听渠道包括操作系统对应用平台的监听渠道和监听信息查询指令;
读取应用平台配置文件,从所述配置文件解析各服务组件的对外监听接口信息。
可选地,作为本发明一个实施例,监听执行单元用于:
通过操作系统对应用平台的监听渠道获取应用平台的第一运行状态;
通过监听信息查询指令获取获取应用平台的第二运行状态;
通过远程调用各服务组件的对外监听接口获取应用平台的第三运行状态;
从第一运行状态、第二运行状态和第三运行状态筛选运行状态异常的服务组件信息;
根据运行状态异常的服务组件信息生成异常告警,并将异常告警推送至前端。
可选地,作为本发明一个实施例,日志获取单元用于:
预先从应用平台的配置文件中解析各服务组件的日志文件存储路径和日志格式,所述日志格式包括日志生成时间、线程名和级别;
从所有日志文件存储路径读取所有服务组件的日志文件,并对所有服务组件的日志文件进行整合汇总;
从汇总的日志文件中调取日志生成时间在异常发生时间范围内的初级日志文件;
从初级日志文件中筛选出级别为错误等级的日志文件作为异常日志文件。
可选地,作为本发明一个实施例,日志获取单元用于:
对各服务组件的日志文件标记所属服务组件信息,并按照日志生成时间先后进行排序;
对排序后的日志文件进行去重处理,得到汇总日志文件。
可选地,作为本发明一个实施例,日志获取单元用于:
预先解析各服务组件之间的上下游关联关系,构建服务组件关联拓扑;
从异常的运行状态相关数据中解析异常服务组件信息;
根据异常服务组件信息和服务组件关联拓扑从异常日志文件中筛选出异常服务组件日志文件和异常服务组件的关联服务组件的日志文件,作为重要匹配日志文件。
可选地,作为本发明一个实施例,故障恢复单元用于:
根据异常日志文件从故障数据存储库查询匹配的故障修复操作文件;
若查询到匹配的故障修复操作文件,则将匹配的故障修复操作文件输出至操作系统;
若未查询到匹配的故障修复操作文件,则从故障数据存储库二次查询与重要匹配日志文件匹配的故障修复操作文件,并将二次查询到的故障修复操作文件输出至操作系统。
图4为本发明实施例提供的一种终端400的结构示意图,该终端400可以用于执行本发明实施例提供的应用平台的模块化自监听方法。
其中,该终端400可以包括:处理器410、存储器420及通信单元430。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器420可以用于存储处理器410的执行指令,存储器420可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器420中的执行指令由处理器410执行时,使得终端400能够执行以下上述方法实施例中的部分或全部步骤。
处理器410为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器410可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元430,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
因此,本发明通过解析应用平台的监听渠道信息,实现对应用平台的模块化监听,对应用平台的监听更加全面、准确,同时对各服务组件的日志进行整合,实现异常相关日志的快速读取,并结合相关日志实现对应用平台的自修复,增强了应用平台的稳定性。本发明提供了基于日志的故障恢复流程,流程包括触发告警、收集日志、故障诊断以及故障恢复;其中故障诊断采用人工添加的模板日志机型匹配,并且模板日志和恢复操作可自定义扩充,所提出方法可以提高平台运行的稳定性,提高了运维效率,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种应用平台的模块化自监听方法,其特征在于,包括:
解析应用平台的监听渠道信息,根据所述监听渠道信息监听应用平台各服务组件的运行状态;
监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径;
根据所述相关日志从故障数据存储库查询匹配的故障修复操作文件,执行所述故障修复操作文件对应用平台进行异常恢复。
2.根据权利要求1所述的方法,其特征在于,解析应用平台的监听渠道信息,包括:
采集应用平台版本信息,根据所述版本信息从资源库查询匹配的基础监听渠道,所述资源库存储多种版本应用平台的监听渠道信息,所述基础监听渠道包括操作系统对应用平台的监听渠道和监听信息查询指令;
读取应用平台配置文件,从所述配置文件解析各服务组件的对外监听接口信息。
3.根据权利要求2所述的方法,其特征在于,根据所述监听渠道信息监听应用平台各服务组件的运行状态,包括:
通过操作系统对应用平台的监听渠道获取应用平台的第一运行状态;
通过监听信息查询指令获取获取应用平台的第二运行状态;
通过远程调用各服务组件的对外监听接口获取应用平台的第三运行状态;
从第一运行状态、第二运行状态和第三运行状态筛选运行状态异常的服务组件信息;
根据运行状态异常的服务组件信息生成异常告警,并将异常告警推送至前端。
4.根据权利要求1所述的方法,其特征在于,监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径,包括:
预先从应用平台的配置文件中解析各服务组件的日志文件存储路径和日志格式,所述日志格式包括日志生成时间、线程名和级别;
从所有日志文件存储路径读取所有服务组件的日志文件,并对所有服务组件的日志文件进行整合汇总;
从汇总的日志文件中调取日志生成时间在异常发生时间范围内的初级日志文件;
从初级日志文件中筛选出级别为错误等级的日志文件作为异常日志文件。
5.根据权利要求4所述的方法,其特征在于,从所有日志文件存储路径读取所有服务组件的日志文件,并对所有服务组件的日志文件进行整合汇总,包括:
对各服务组件的日志文件标记所属服务组件信息,并按照日志生成时间先后进行排序;
对排序后的日志文件进行去重处理,得到汇总日志文件。
6.根据权利要求4所述的方法,其特征在于,监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径,包括:
预先解析各服务组件之间的上下游关联关系,构建服务组件关联拓扑;
从异常的运行状态相关数据中解析异常服务组件信息;
根据异常服务组件信息和服务组件关联拓扑从异常日志文件中筛选出异常服务组件日志文件和异常服务组件的关联服务组件的日志文件,作为重要匹配日志文件。
7.根据权利要求6所述的方法,其特征在于,根据所述相关日志从故障数据存储库查询匹配的故障修复操作文件,执行所述故障修复操作文件对应用平台进行异常恢复,包括:
根据异常日志文件从故障数据存储库查询匹配的故障修复操作文件;
若查询到匹配的故障修复操作文件,则将匹配的故障修复操作文件输出至操作系统;
若未查询到匹配的故障修复操作文件,则从故障数据存储库二次查询与重要匹配日志文件匹配的故障修复操作文件,并将二次查询到的故障修复操作文件输出至操作系统。
8.一种应用平台的模块化自监听系统,其特征在于,包括:
监听执行单元,用于解析应用平台的监听渠道信息,根据所述监听渠道信息监听应用平台各服务组件的运行状态;
日志获取单元,用于监听到应用平台运行状态存在异常,根据日志路径信息读取相关日志,所述日志路径信息用于指示各服务组件的日志文件存储路径;
故障恢复单元,用于根据所述相关日志从故障数据存储库查询匹配的故障修复操作文件,执行所述故障修复操作文件对应用平台进行异常恢复。
9.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任一项所述的方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110902905.8A CN113672456B (zh) | 2021-08-06 | 2021-08-06 | 应用平台的模块化自监听方法、系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110902905.8A CN113672456B (zh) | 2021-08-06 | 2021-08-06 | 应用平台的模块化自监听方法、系统、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113672456A true CN113672456A (zh) | 2021-11-19 |
CN113672456B CN113672456B (zh) | 2024-06-11 |
Family
ID=78541765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110902905.8A Active CN113672456B (zh) | 2021-08-06 | 2021-08-06 | 应用平台的模块化自监听方法、系统、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113672456B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398239A (zh) * | 2022-01-18 | 2022-04-26 | 平安国际智慧城市科技股份有限公司 | 日志监控方法、装置、计算机设备及存储介质 |
CN114860326A (zh) * | 2022-07-05 | 2022-08-05 | 麒麟软件有限公司 | 操作系统应用服务管理系统及其应用服务管理方法 |
CN115174557A (zh) * | 2022-07-01 | 2022-10-11 | 济南浪潮数据技术有限公司 | 一种日志下载的调度方法、装置以及介质 |
CN115514630A (zh) * | 2022-08-26 | 2022-12-23 | 苏州浪潮智能科技有限公司 | 一种自适应的故障解析方法、装置、设备、存储介质 |
CN117608912A (zh) * | 2024-01-24 | 2024-02-27 | 之江实验室 | 基于nlp大模型的全自动日志分析和故障处理系统和方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104158881B (zh) * | 2014-08-20 | 2018-01-19 | 哈尔滨工程大学 | 一种支持用户自定制的第三方云安全监控系统及方法 |
CN105824718B (zh) * | 2016-04-01 | 2018-10-19 | 北京大学 | 基于问答网站知识的软件配置故障自动修复方法和系统 |
CN106713007A (zh) * | 2016-11-15 | 2017-05-24 | 郑州云海信息技术有限公司 | 一种告警监控系统、用于服务器的告警监控方法及其装置 |
CN108540341B (zh) * | 2018-03-19 | 2021-01-29 | 云宏信息科技股份有限公司 | 资源监控方法及装置 |
CN110851320A (zh) * | 2019-09-29 | 2020-02-28 | 苏州浪潮智能科技有限公司 | 一种服务器宕机监管方法、系统、终端及存储介质 |
CN111459698A (zh) * | 2020-03-31 | 2020-07-28 | 国网电力科学研究院有限公司 | 一种数据库集群故障自愈方法及装置 |
CN112749053A (zh) * | 2020-12-14 | 2021-05-04 | 北京同有飞骥科技股份有限公司 | 一种基于云平台的智能故障监听及智能修复管理系统 |
-
2021
- 2021-08-06 CN CN202110902905.8A patent/CN113672456B/zh active Active
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398239A (zh) * | 2022-01-18 | 2022-04-26 | 平安国际智慧城市科技股份有限公司 | 日志监控方法、装置、计算机设备及存储介质 |
CN115174557A (zh) * | 2022-07-01 | 2022-10-11 | 济南浪潮数据技术有限公司 | 一种日志下载的调度方法、装置以及介质 |
CN115174557B (zh) * | 2022-07-01 | 2024-03-01 | 济南浪潮数据技术有限公司 | 一种日志下载的调度方法、装置以及介质 |
CN114860326A (zh) * | 2022-07-05 | 2022-08-05 | 麒麟软件有限公司 | 操作系统应用服务管理系统及其应用服务管理方法 |
CN115514630A (zh) * | 2022-08-26 | 2022-12-23 | 苏州浪潮智能科技有限公司 | 一种自适应的故障解析方法、装置、设备、存储介质 |
CN115514630B (zh) * | 2022-08-26 | 2023-08-22 | 苏州浪潮智能科技有限公司 | 一种自适应的故障解析方法、装置、设备、存储介质 |
CN117608912A (zh) * | 2024-01-24 | 2024-02-27 | 之江实验室 | 基于nlp大模型的全自动日志分析和故障处理系统和方法 |
CN117608912B (zh) * | 2024-01-24 | 2024-06-07 | 之江实验室 | 基于nlp大模型的全自动日志分析和故障处理系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113672456B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113672456A (zh) | 应用平台的模块化自监听方法、系统、终端及存储介质 | |
CN112631913B (zh) | 应用程序的运行故障监控方法、装置、设备和存储介质 | |
CN111108481B (zh) | 故障分析方法及相关设备 | |
US20130311977A1 (en) | Arrangement and method for model-based testing | |
JPWO2004061681A1 (ja) | 運用管理方法および運用管理サーバ | |
CN112152823B (zh) | 网站运行错误监控方法、装置及计算机存储介质 | |
CN110764980A (zh) | 日志处理方法和装置 | |
WO2006117833A1 (ja) | 監視シミュレーション装置,方法およびそのプログラム | |
CN112000502B (zh) | 海量错误日志的处理方法、装置、电子装置及存储介质 | |
CN112529223A (zh) | 一种设备故障报修方法、装置、服务器及储存介质 | |
CN111881014A (zh) | 一种系统测试方法、装置、存储介质及电子设备 | |
CN115333923B (zh) | 一种故障点溯源分析方法、装置、设备及介质 | |
WO2024148857A1 (zh) | 服务器故障根因的过滤方法和装置、非易失性可读存储介质及电子装置 | |
CN112235128B (zh) | 一种交易路径分析方法、装置、服务器及存储介质 | |
CN114327967A (zh) | 设备修复方法及装置、存储介质、电子装置 | |
CN113392000A (zh) | 测试用例执行结果分析方法、装置、设备及存储介质 | |
US9354962B1 (en) | Memory dump file collection and analysis using analysis server and cloud knowledge base | |
CN112256532A (zh) | 测试界面生成方法、装置、计算机设备及可读存储介质 | |
CN110609761B (zh) | 确定故障源的方法、装置、存储介质和电子设备 | |
CN111813872A (zh) | 一种故障排查模型的生成方法、装置、设备 | |
CN111835566A (zh) | 一种系统故障管理方法、装置及系统 | |
CN114327988B (zh) | 一种可视化网络故障关系确定方法和装置 | |
CN115629919A (zh) | 一种快速故障系统切换的方法及装置 | |
CN112131090B (zh) | 业务系统性能监控方法及装置、设备及介质 | |
CN113946465A (zh) | 一种大数据的故障处理方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |