CN116089205A - 一种自动化运维管理方法、装置、服务器和存储介质 - Google Patents

一种自动化运维管理方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN116089205A
CN116089205A CN202211550915.0A CN202211550915A CN116089205A CN 116089205 A CN116089205 A CN 116089205A CN 202211550915 A CN202211550915 A CN 202211550915A CN 116089205 A CN116089205 A CN 116089205A
Authority
CN
China
Prior art keywords
abnormal
execution program
equipment
knowledge base
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211550915.0A
Other languages
English (en)
Inventor
曹圣杰
杨琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Grandage Data System Co ltd
Original Assignee
Shanghai Grandage Data System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Grandage Data System Co ltd filed Critical Shanghai Grandage Data System Co ltd
Priority to CN202211550915.0A priority Critical patent/CN116089205A/zh
Publication of CN116089205A publication Critical patent/CN116089205A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Abstract

本发明公开了一种自动化运维管理方法、装置、服务器和存储介质,该方法应用于第一设备,包括:接收第二设备的第一异常消息;所述第二设备是待运维的设备;根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,并从所述知识库中确定所述第一异常标签对应的执行程序;通过第三设备,向第二设备发送所述执行程序,由第二设备运行所述执行程序得到运行结果;根据第三设备返回的执行程序的运行凭证,通过第三设备查询运行结果。本申请的技术方案能够充分利用运维知识库,根据异常事件匹配的异常标签,自动运行对应异常标签的执行程序,解除系统异常状态,大量节省运维人员重复性的操作,形成运维维护流程的规范化、自动化。

Description

一种自动化运维管理方法、装置、服务器和存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种自动化运营管理方法、装置、服务器和存储介质。
背景技术
随着互联网技术的发展,业务系统之间的关联复杂性日益增长,各种业务主机每天会产生大量的异常事件,需要通过越来越多的人员来进行运维。
现有技术中,通过多样性的监控措施来监控每日产生的大量异常事件,运维人员根据接收到的异常告警登录到产生异常的业务主机,进行手工维护操作,这样同类型的工作机械化、流程化重复执行,运维效率低下。
针对上述存在的技术问题,需要一种能够自动化运营管理的解决方案。
发明内容
本发明提供一种自动化运维管理方法、装置、服务器和存储介质,以实现节省运维人员重复性的操作,形成运维维护流程的规范化、自动化,提高运维效率。
第一方面,本发明实施例提供了一种自动化运维管理方法,应用于第一设备,该方法包括:
接收第二设备的第一异常消息;所述第二设备是待运维的设备;
根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,并从所述知识库中确定所述第一异常标签对应的执行程序;
通过第三设备,向第二设备发送所述执行程序,由第二设备运行所述执行程序得到运行结果;
根据第三设备返回的执行程序的运行凭证,通过第三设备查询运行结果。
可选的,所述根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,包括:
解析所述第一异常消息,确定第一异常事件;
判断所述预设的知识库中是否存在所述第一异常事件的执行程序,若存在,则根据预设知识库匹配所述第一异常事件的第一异常标签,若不存在,则舍弃所述第一异常事件。
可选的,所述从所述知识库中确定所述第一异常标签对应的执行程序之后,还包括:
获取第二设备的权限信息作为运行参数;
通过第三设备,向第二设备发送所述运行参数,所述运行参数用于第二设备配置所述执行程序。
可选的,所述方法还包括:
所述第一异常消息从部署在所述第二设备上的监测服务处采集;并对所述第一异常消息进行加密传输。
可选的,所述知识库的创建,包括:
设定多个异常事件;
对于每个异常事件,配置异常事件的标签和执行程序,所述执行程序用于修复所述异常事件。
第二方面,本发明实施例还提供了一种自动化运维管理方法,应用于第三设备,该方法包括:
接收第一设备发送的执行程序和运行参数;
转发所述执行程序和运行参数至第二设备,以使所述第二设备根据所述运行参数配置所述执行程序并运行;
接收第一设备基于运行凭证的查询请求,向第二设备查询运行结果,转发第二设备返回的运行结果至第一设备。
第三方面,本发明实施例还提供了一种自动化运维管理装置,应用于第一设备,该装置包括:
消息订阅模块,用于接收第二设备的第一异常消息;所述第二设备是待运维的设备;
程序确定模块,用于根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,并从所述知识库中确定所述第一异常标签对应的执行程序;
程序发送模块,用于通过第三设备,向第二设备发送所述执行程序,由第二设备运行所述执行程序得到运行结果;
结果查询模块,用于根据第三设备返回的执行程序的运行凭证,通过第三设备查询运行结果。
第四方面,本申请实施例还提供了一种自动化运维管理装置,应用于第三设备,该装置包括:
程序接收模块,用于接收第一设备发送的执行程序和运行参数;
程序中转模块,用于转发所述执行程序和运行参数至第二设备,以使所述第二设备根据所述运行参数配置所述执行程序并运行;
结果转发模块,用于接收第一设备基于运行凭证的查询请求,向第二设备查询运行结果,转发第二设备返回的运行结果至第一设备。
第五方面,本发明实施例还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请实施例任一所述的自动化运维管理方法。
第六方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例任一所述的自动化运维管理方法。
本发明通过接收第二设备的第一异常消息;所述第二设备是待运维的设备;根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,并从所述知识库中确定所述第一异常标签对应的执行程序;通过第三设备,向第二设备发送所述执行程序,由第二设备运行所述执行程序得到运行结果;根据第三设备返回的执行程序的运行凭证,通过第三设备查询运行结果。本申请的技术方案能够充分利用运维知识库,根据异常事件匹配的异常标签,自动运行对应异常标签的执行程序,解除系统异常状态,大量节省运维人员重复性的操作,形成运维维护流程的规范化、自动化。
附图说明
图1为本发明实施例一提供的一种自动化运维管理方法的流程示意图;
图2为本发明实施例二提供的一种自动化运维管理方法的流程示意图;
图3所示为本申请实施例三提供一种采用本申请技术方案的自动化运维管理方法的实例图;
图4为本发明实施例四提供的一种自动化运维管理装置的结构示意图;
图5为本发明实施例五提供的一种自动化运维管理装置的结构示意图;
图6为本发明实施例六提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种自动化运维管理方法的流程示意图,本实施例可适用于服务器根据异常告警消息自动进行运营维护的情况,该方法可以由一种自动化运维管理装置来执行,该装置可以采用软件和/或硬件的方式来实现。该装置可配置于服务器中,该方法应用于第一设备,具体包括:
S110、接收第二设备的第一异常消息;所述第二设备是待运维的设备。
所述第二设备区别于第一设备,第一设备可以是有一定计算能力的设备,可以与其他设备进行数据通信。第一设备的基本结构可以包括:至少一个处理器。处理器的数量可以取决于具有一定计算能力装置的配置和类型。具有一定计算能力装置也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-OnlyMemory,ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,具有一定计算能力装置还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、输入笔等。其它外围设备在本领域中是众所周知的,在此不做赘述。可选地,在物理实现上,第一设备可以是任何能够提供计算服务,并进行运维服务的设备,例如可以是云服务器、云主机、虚拟中心、常规服务器等等,具体的,第一设备可以是进行运维的服务器。可选的,所述第一设备中部署有自动化运维工具,例如ansible。
第二设备是指可以在网络虚拟环境中提供计算处理服务的设备,可以是指利用网络进行提供服务的设备,例如,为各种业务系统提供服务的业务主机。在物理实现上,第二设备可以是任何能够提供计算服务,响应服务请求,并进行服务的提供的设备,例如可以是云服务器、云主机、虚拟中心、常规服务器等等。第二设备的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。例如,第二设备可以是待进行运维的服务器。
所述第一异常消息可以是所述第二设备在运行过程中发生异常时产生,所述第一异常消息可以是一种数据包,包括包头和包体。其中,包头中有所述第一异常消息的源IP地址和目的IP地址,所述源IP地址可以是出现异常的第二设备的IP地址,所述目的IP地址可以是进行自动化运维管理的第一设备的IP地址。
具体的,所述第一异常消息从部署在所述第二设备上的监测服务处采集;并对所述第一异消息进行加密传输。可选的,所述检测服务可以包括各种检测软件,例如Cacti、Checkmk、Nagios等。所述第二设备可以部署在内网环境中,所述第一设备可以部署在内网环境或者公网环境中,为了安全起见,所述第一设备和所述第二设备之间可以存在第二设备到第一设备的单向安全通信链路,用于对所述第一异常消息进行加密传输,使得第一设备接收加密后的所述第一异常消息,并进行解密,确定第一异常事件。
S120、根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,并从所述知识库中确定所述第一异常标签对应的执行程序。
其中,所述预设的知识库中包括有各种异常事件以及对应各种异常事件的解决方式。
可选的,所述知识库的创建,包括:设定多个异常事件;对于每个异常事件,配置异常事件的标签和执行程序,所述执行程序用于修复所述异常事件。
其中,所述异常事件可以包括应用服务异常事件类、程序设备异常事件类、网络传输异常事件类等;具体的,所述应用服务异常事件类可以包括Web应用服务异常事件、浏览器异常事件等;所述程序设备异常事件类包括物理层异常事件、虚拟化层异常事件等,所述物理层异常事件可以包括服务器异常事件、数据库异常事件、存储设备异常事件、处理机异常事件以及物理网络异常事件等;所述可以虚拟化层异常事件包括虚拟软件异常事件、VM异常事件、以及虚拟网络异常事件等;所述网络传输异常事件类可以包括网络异常事件、中间件异常事件以及操作系统异常事件等;所述网络异常事件可以包括网络延迟异常事件、网络丢包异常事件等;所述中间件异常事件可以包括服务器堵塞异常事件、传输超时异常事件、队列过载异常事件等;所述操作系统异常事件可以包括内存异常事件、CPU异常事件、磁盘IO异常事件等。
其中,所述标签可以是具体的异常事件的标签,还可以是对异常事件的维度划分得到的标签,例如针对异常事件危险程度划分的标签,所述标签由技术人员自行按需设置。
示例的,第一终端设备可以包括一知识库的配置模块,用于运维人员输入异常事件并配置异常事件的标签和对应的执行程序,所述配置模块还支持运维人员导入互联网存储或本地存储的知识库。
可选的,所述知识库的创建,还可以包括根据历史异常事件、历史异常事件对应的标签、对应标签的处理信息建立对应关系;根据历史处理信息或对应的处理信息,生成对应的执行程序。可选的,所述知识库的创建,还可以包括将历史处理信息生成对应的处理建议;所述处理建议可以在异常事件自动运维失败后或者无法进行自动运维时提供至对应的运维人员。
可选的,所述根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,包括:
解析所述第一异常消息,确定第一异常事件;
判断所述预设的知识库中是否存在所述第一异常事件的执行程序,若存在,则根据预设知识库匹配所述第一异常事件的第一异常标签,若不存在,则舍弃所述第一异常事件。
其中,所述解析所述第一异常消息,确定第一异常事件,可以包括:解析所述第一异常消息的数据包,对其中的数据进行分析,例如其中包含的日志描述信息,根据预设的异常事件类别判断出异常数据的异常事件分类;进一步的,计算异常数据的特征信息权值,基于预设的特征信息权值阈值,确定对应的第一异常事件。
可选的,所述知识库可以配置在第一设备中,也可以配置在其他设备中,当所述知识库配置在其他设备时,对外提供访问接口,以确保第一设备可以访问所述知识库。当确定预设的知识库存在所述第一异常事件的执行程序,则证明预设的知识库中存在有所述第一异常事件的修复策略,所述第一设备可以进行自动化修复,若不存在所述第一异常事件的执行程序,则证明预设的知识库中不存在所述第一异常事件的修复策略,无法进行自动化修复,此时第一设备舍弃第一异常事件,通知运维人员进行对所述第一异常事件进行人工处理。
可选的,针对同一个/同一类异常事件,所述知识库可以包括一套或多套修复策略,此时进一步的,根据第一异常事件的特征信息确定所述第一异常事件的第一异常标签。示例的,根据第一异常事件的各个维度的特征信息权值,基于预设的知识库中修复策略对应的维度特征信息权值阈值,确定对应的第一异常标签。若具有第一异常事件的第一异常标签,则表明所述第一异常事件达到需要进行修复的要求,此时对第一异常事件进行刺修复,若不具有第一异常事件的第一异常标签,则表明所述第一异常事件未达到需要进行修复的要求,此时舍弃第一异常事件,不进行处理。
可选的,上述根据预设的知识库确定与所述第一异常消息匹配的第一异常标签的步骤可以由第一设备进行,也可以由第二设备进行,由第二设备进行可以降低第一设备的计算负担,具体的,可以由第二设备中部署的监测服务进行,确定第一异常事件的第一异常标签,并通过Kafka等流处理平台实现第一异常标签的消息传递。
可选的,所述从所述知识库中确定所述第一异常标签对应的执行程序可以包括:根据所述第一异常标签从所述知识库中匹配第一异常标签对应的执行程序。可选的,所述知识库中包括异常事件与执行程序的映射关系表,在确定所述第一异常标签后,可以映射关系表匹配其中异常事件包含的异常标签,并根据对应的映射关系查找所述执行程序。
S130、通过第三设备,向第二设备发送所述执行程序,由第二设备运行所述执行程序得到运行结果。
其中,所述第三设备区别于第一设备和第二设备,第三设备可以是有一定计算能力的设备,可以与其他设备进行数据通信。具体的,所述第一设备和所述第三设备之间可以存在双向安全通信链路,可选的,所述第一设备和所述第三设备通过SSH通讯;所述第三设备和所述第二设备之间可以存在第三设备到第二设备的单向安全通信链路。在物理实现上,第三设备可以是任何能够提供计算服务,响应服务请求,并进行服务的提供的设备,例如可以是云服务器、云主机、虚拟中心、常规服务器等等。第三设备的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。例如,第三设备可以是进行运维的服务器。
具体的,第二设备中可以包括一修复模块,能够对第二设备产生的第一异常事件进行修复,可选的,第一设备通过第一设备和第三设备之间的双向安全通信链路将所述执行程序发送至第三设备,第三设备通过第三设备和第二设备之间的单向安全通信链路将所述执行程序发送至第二设备,通过第一设备和第三设备之间的双向安全通信链路将所述执行程序的运行凭证发送至第一设备,所述第二设备运行所述执行程序,得到运行结果。
可选的,所述从所述知识库中确定所述第一异常标签对应的执行程序之后,还包括:
获取第二设备的权限信息作为运行参数;
通过第三设备,向第二设备发送所述运行参数,所述运行参数用于第二设备配置所述执行程序。
其中,所述第二设备的权限信息可以是所述执行程序能够被发送至第二设备并由第二设备运行的所有参数信息,例如IP地址、用户账户、用户密码等。
可选的,所述第一设备可以解析第一异常消息,获得第二设备的源IP地址,作为执行程序的目的IP地址。所述第一设备中还可以存储有所述第二设备的用户账户、账户密码等。所述第一设备通过第一设备和第三设备之间的双向安全通信链路将所述运行参数发送至第三设备,所述第三设备可以配置所述执行程序,将配置好的执行程序通过第三设备和第二设备之间的单向安全通信链路将所述执行程序发送至第二设备;或者第三设备之间将所述执行程序和运行参数发送至第二设备。
可选的,所述第三设备可以将接收到的执行程序及对应运行信息进行分组,示例的,可以根据所述执行程序的目标第一设备是否同类型的第一设备、所述执行程序是否是同标签的执行程序进行分组,相同类型的第一设备发生相同标签的第一异常事件时,其修复策略是相同的,这样第三设备只需对同类型的第一设备进行一次转发,降低了发生错误的概率,提高了运维效率。
S140、根据第三设备返回的执行程序的运行凭证,通过第三设备查询运行结果。
具体的,本申请中的运维是一种异步过程,第一设备不能查看第二设备的运行结果,因此,本申请中,第三设备在将所述执行程序发送至第二设备的同时还向第一设备返回执行程序的运行凭证,所述运行凭证用于第一设备通过第三设备查询运行结果,基于查询结果更改第一设备中相关运维任务的状态。
可选的,所述第三设备和所述第二设备之间可以存在双向安全通信链路,第一设备向第三设备发送所述运行凭证,第三设备根据所述运行凭证向第二设备查询运行结果,第三设备接收第二设备通过所述双向安全通信链路返回的查询结果,并转发至第一设备更改任务状态,。
本实施例的技术方案,应用于第一设备,通过接收第二设备的第一异常消息;所述第二设备是待运维的设备;根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,并从所述知识库中确定所述第一异常标签对应的执行程序;通过第三设备,向第二设备发送所述执行程序,由第二设备运行所述执行程序得到运行结果;根据第三设备返回的执行程序的运行凭证,通过第三设备查询运行结果。本申请的技术方案能够充分利用运维知识库,根据异常事件匹配的异常标签,自动运行对应异常标签的执行程序,解除系统异常状态,大量节省运维人员重复性的操作,形成运维维护流程的规范化、自动化。
实施例二
图2为本发明实施例二提供的一种自动化运维管理方法的流程示意图,本实施例可适用于服务器根据异常告警消息自动进行运营维护的情况,该方法可以由一种自动化运维管理装置来执行,该装置可以采用软件和/或硬件的方式来实现。该装置可配置于服务器中,该方法应用于第三设备,应当注意的是,本实施例是与上述实施例中的自动化运维管理方法的不同应用主体,相同的术语与上述实施例中具有类似的定义、原理、过程和技术效果。所述方法包括:
S210、接收第一设备发送的执行程序和运行参数。
其中,所述第一设备和所述第三设备之间可以存在双向安全通信链路,可选的,所述第一设备和所述第三设备通过SSH通讯。
所述执行程序可以是能够修复第二设备异常事件的封装程序,所述运行参数可以是所述执行程序能够被发送至第二设备并由第二设备运行的所有参数信息,例如IP地址、用户账户、用户密码等。
S220、转发所述执行程序和运行参数至第二设备,以使所述第二设备根据所述运行参数配置所述执行程序并运行。
其中,所述第三设备和所述第二设备之间可以存在双向的安全通信链路,所述第三设备通过所述安全通信链路向第二设备发送所述执行程序和运行参数,并接收第二设备对所述执行程序的运行结果。
可选的,所述第三设备可以将接收到的执行程序及对应运行信息进行分组,示例的,可以根据所述执行程序的目标第一设备是否同类型的第一设备、所述执行程序是否是同标签的执行程序进行分组,相同类型的第一设备发生相同标签的第一异常事件时,其修复策略是相同的,这样第三设备只需对同类型的第一设备进行一次转发,降低了发生错误的概率,提高了运维效率。
S230、接收第一设备基于运行凭证的查询请求,向第二设备查询运行结果,转发第二设备返回的运行结果至第一设备。
具体的,本申请中的运维是一种异步过程,第一设备不能查看第二设备的运行结果,因此,本申请中,第三设备在将所述执行程序发送至第二设备的同时还向第一设备返回执行程序的运行凭证,所述运行凭证用于第一设备通过第三设备查询运行结果,基于查询结果更改第一设备中相关运维任务的状态。
本实施例的技术方案,应用于第三设备,通过接收第一设备发送的执行程序和运行参数;转发所述执行程序和运行参数至第二设备,以使所述第二设备根据所述运行参数配置所述执行程序并运行;接收第一设备基于运行凭证的查询请求,向第二设备查询运行结果,转发第二设备返回的运行结果至第一设备,本申请的技术方案能够充分利用运维知识库,根据异常事件匹配的异常标签,自动运行对应异常标签的执行程序,解除系统异常状态,大量节省运维人员重复性的操作,形成运维维护流程的规范化、自动化。
实施例三
图3所示为本申请实施例三提供一种采用本申请技术方案的自动化运维管理方法的实例图,如下所示:
(1)web服务器上安装ansible自动化运维工具。
(2)web服务器上开启SSH协议。
(3)web服务器上安装程序模块AutomationApi。
(4)自动化服务器安装程序模块AutomationRecover。
(5)配置AutomationRecover模块,关联自动化服务器所属web的服务器。具体的,自动化服务器安装有客户端,web服务器安装有服务端,客户端配置有服务端的地址,能够通过SSH与服务端通讯。
(6)使用AutomationRecover模块,导入修复程序知识库,客户端从服务端获取事件-程序的映射表;
(7)使用AutomationRecover模块,创建修复场景,在客户端配置异常事件-程序的映射表;
(8)使用AutomationRecover模块,设置场景,关联异常事件的标签。
(9)客户端开启AutomationRecover模块异常事件订阅功能,获取所有设备的告警信息。
(10)客户端基于知识库的异常事件-程序的映射表关联到执行程序。
(11)自动化服务器的客户端接收到告警信息,通过AutomationRecover模块触发修复操作,将对应的执行程序发送至服务端,并通过json-rpc调用web服务器的服务端的automation.runscript方法,获取执行参数信息填入执行程序。
其中,SON-RPC,是一个无状态且轻量级的远程过程调用(RPC)传送协议,其传递内容透过JSON为主。相较于一般的REST透过网址(如GET/user)调用远程服务器,JSON-RPC直接在内容中定义了欲调用的函数名称(如{"method":"getUser"}),这也令开发者不会陷于该使用PUT或者PATCH的问题之中。本规范主要定义了一些数据结构及其相关的处理规则。它允许运行在基于Socket、HTTP等诸多不同消息传输环境的同一进程中。其使用JSON(RFC4627)作为数据格式。
(12)web服务器AutomationApi模块执行修复并结果返回查询workid凭证。
(13)自动化服务器AutomationRecover模块,获取到修复workid凭证,进行修复状态更新。
值得注意的是,本申请实施例三提供一种采用本申请技术方案的自动化运维管理方法的实例仅是一种举例,并不用于限制本发明的保护范围。
实施例四
图4为本发明实施例四提供的一种自动化运维管理装置的结构示意图,该装置应用于第一设备,包括消息订阅模块410、程序确定模块420、程序发送模块430和结果查询模块440。
所述消息订阅模块410,用于接收第二设备的第一异常消息;所述第二设备是待运维的设备;
所述程序确定模块420,用于根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,并从所述知识库中确定所述第一异常标签对应的执行程序;
所述程序发送模块430,用于通过第三设备,向第二设备发送所述执行程序,由第二设备运行所述执行程序得到运行结果;
所述结果查询模块440,用于根据第三设备返回的执行程序的运行凭证,通过第三设备查询运行结果。
本申请的技术方案能够充分利用运维知识库,根据异常事件匹配的异常标签,自动运行对应异常标签的执行程序,解除系统异常状态,大量节省运维人员重复性的操作,形成运维维护流程的规范化、自动化。
作为一种可选的实施方式,所述程序确定模块包括标签确定单元,所述标签确定单元,用于解析所述第一异常消息,确定第一异常事件;判断所述预设的知识库中是否存在所述第一异常事件的执行程序,若存在,则根据预设知识库匹配所述第一异常事件的第一异常标签,若不存在,则舍弃所述第一异常事件。
作为一种可选的实施方式,所述装置还包括参数确定模块,用于获取第二设备的权限信息作为运行参数;通过第三设备,向第二设备发送所述运行参数,所述运行参数用于第二设备配置所述执行程序。
作为一种可选的实施方式,所述第一异常消息从部署在所述第二设备上的监测服务处采集;并对所述第一异常信息进行加密传输。
作为一种可选的实施方式,所述装置还包括知识库创建模块,所述知识库创建模块用于:设定多个异常事件;对于每个异常事件,配置异常事件的标签和执行程序,所述执行程序用于修复所述异常事件。
本发明实施例所提供的自动化运维管理装置可执行本发明任意实施例所提供的自动化运维管理方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种自动化运维管理装置的结构示意图,该装置应用于第三设备,包括程序接收模块510、程序中转模块520和结果接收模块530。
所述程序接收模块510,用于接收第一设备发送的执行程序和运行参数;
所述程序中转模块520,用于转发所述执行程序和运行参数至第二设备,以使所述第二设备根据所述运行参数配置所述执行程序并运行;
所述结果接收模块530,用于接收所述第二设备返回的运行结果。
本申请的技术方案能够充分利用运维知识库,根据异常事件匹配的异常标签,自动运行对应异常标签的执行程序,解除系统异常状态,大量节省运维人员重复性的操作,形成运维维护流程的规范化、自动化。
本发明实施例所提供的自动化运维管理装置可执行本发明任意实施例所提供的自动化运维管理方法,具备执行方法相应的功能模块和有益效果。
实施例六
图6为本发明实施例六提供的一种服务器的结构示意图,如图6所示,该电子设备包括处理器610、存储器620、输入装置630和输出装置640;电子设备中处理器610的数量可以是一个或多个,图中以一个处理器610为例;电子设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接,图中以通过总线连接为例。
存储器620作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的人脸图像旋正方法对应的程序指令/模块(例如,实施例四自动化运维管理装置中的消息订阅模块410、程序确定模块420、程序发送模块430和结果查询模块440,实施例五自动化运维管理装置中的程序接收模块510、程序中转模块520和结果接收模块530)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的自动化运维管理方法。
存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器620可进一步包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
实施例七
本发明实施例七还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种自动化运维管理方法,该方法应用于第一设备,包括:
接收第二设备的第一异常消息;所述第二设备是待运维的设备;
根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,并从所述知识库中确定所述第一异常标签对应的执行程序;
通过第三设备,向第二设备发送所述执行程序,由第二设备运行所述执行程序得到运行结果;
根据第三设备返回的执行程序的运行凭证,通过第三设备查询运行结果。
所述计算机可执行指令在由计算机处理器执行时还可以用于执行一种自动化运维管理方法,该方法应用于第三设备,包括:
接收第一设备发送的执行程序和运行参数;
转发所述执行程序和运行参数至第二设备,以使所述第二设备根据所述运行参数配置所述执行程序并运行;
接收第一设备基于运行凭证的查询请求,向第二设备查询运行结果,转发第二设备返回的运行结果至第一设备。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的自动化运维管理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种自动化运维管理方法,应用于第一设备,其特征在于,包括:
接收第二设备的第一异常消息;所述第二设备是待运维的设备;
根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,并从所述知识库中确定所述第一异常标签对应的执行程序;
通过第三设备,向第二设备发送所述执行程序,由第二设备运行所述执行程序得到运行结果;
根据第三设备返回的执行程序的运行凭证,通过第三设备查询运行结果。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,包括:
解析所述第一异常消息,确定第一异常事件;
判断所述预设的知识库中是否存在所述第一异常事件的执行程序,若存在,则根据预设知识库匹配所述第一异常事件的第一异常标签,若不存在,则舍弃所述第一异常事件。
3.根据权利要求1所述的方法,其特征在于,所述从所述知识库中确定所述第一异常标签对应的执行程序之后,还包括:
获取第二设备的权限信息作为运行参数;
通过第三设备,向第二设备发送所述运行参数,所述运行参数用于第二设备配置所述执行程序。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述第一异常消息从部署在所述第二设备上的监测服务处采集;并对所述第一异常消息进行加密传输。
5.根据权利要求1所述的方法,其特征在于,所述知识库的创建,包括:
设定多个异常事件;
对于每个异常事件,配置异常事件的标签和执行程序,所述执行程序用于修复所述异常事件。
6.一种自动化运维管理方法,应用于第三设备,其特征在于,包括:
接收第一设备发送的执行程序和运行参数;
转发所述执行程序和运行参数至第二设备,以使所述第二设备根据所述运行参数配置所述执行程序并运行;
接收第一设备基于运行凭证的查询请求,向第二设备查询运行结果,转发第二设备返回的运行结果至第一设备。
7.一种自动化运维管理装置,应用于第一设备,其特征在于,包括:
消息订阅模块,用于接收第二设备的第一异常消息;所述第二设备是待运维的设备;
程序确定模块,用于根据预设的知识库确定与所述第一异常消息匹配的第一异常标签,并从所述知识库中确定所述第一异常标签对应的执行程序;
程序发送模块,用于通过第三设备,向第二设备发送所述执行程序,由第二设备运行所述执行程序得到运行结果;
结果查询模块,用于根据第三设备返回的执行程序的运行凭证,通过第三设备查询运行结果。
8.一种自动化运维管理装置,应用于第三设备,其特征在于,包括:
程序接收模块,用于接收第一设备发送的执行程序和运行参数;
程序中转模块,用于转发所述执行程序和运行参数至第二设备,以使所述第二设备根据所述运行参数配置所述执行程序并运行;
结果转发模块,用于接收第一设备基于运行凭证的查询请求,向第二设备查询运行结果,转发第二设备返回的运行结果至第一设备。
9.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5或6中任一所述的自动化运维管理方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-5或6中任一所述的自动化运维管理方法。
CN202211550915.0A 2022-12-05 2022-12-05 一种自动化运维管理方法、装置、服务器和存储介质 Pending CN116089205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211550915.0A CN116089205A (zh) 2022-12-05 2022-12-05 一种自动化运维管理方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211550915.0A CN116089205A (zh) 2022-12-05 2022-12-05 一种自动化运维管理方法、装置、服务器和存储介质

Publications (1)

Publication Number Publication Date
CN116089205A true CN116089205A (zh) 2023-05-09

Family

ID=86185871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211550915.0A Pending CN116089205A (zh) 2022-12-05 2022-12-05 一种自动化运维管理方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN116089205A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116560722A (zh) * 2023-07-12 2023-08-08 腾讯科技(深圳)有限公司 运维流程处理方法、装置、电子设备及存储介质
CN117389843A (zh) * 2023-12-13 2024-01-12 广州嘉为科技有限公司 一种智能运维系统、方法、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116560722A (zh) * 2023-07-12 2023-08-08 腾讯科技(深圳)有限公司 运维流程处理方法、装置、电子设备及存储介质
CN116560722B (zh) * 2023-07-12 2024-01-02 腾讯科技(深圳)有限公司 运维流程处理方法、装置、电子设备及存储介质
CN117389843A (zh) * 2023-12-13 2024-01-12 广州嘉为科技有限公司 一种智能运维系统、方法、电子设备及存储介质
CN117389843B (zh) * 2023-12-13 2024-04-09 广州嘉为科技有限公司 一种智能运维系统、方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111447109B (zh) 监控管理设备及方法、计算机可读存储介质
US11057438B1 (en) Configurable investigative tool
US10079846B2 (en) Domain name system (DNS) based anomaly detection
CN116089205A (zh) 一种自动化运维管理方法、装置、服务器和存储介质
CN101371237B (zh) 在网络元件中代表应用执行消息有效载荷处理功能
CN101069169B (zh) 在网络元件处缓存内容和状态数据
CN101438255B (zh) 基于应用层消息检查的网络和应用攻击保护
US9372995B2 (en) Vulnerability countermeasure device and vulnerability countermeasure method
US10187400B1 (en) Packet filters in security appliances with modes and intervals
US8880669B2 (en) Method and apparatus to detect unidentified inventory
US20120209983A1 (en) Configurable forensic investigative tool
WO2015109443A1 (zh) 网络服务故障处理方法,服务管理系统和系统管理模块
WO2008010873A1 (en) Managing networks using dependency analysis
US11044184B2 (en) Data packet loss detection
US20060248179A1 (en) Method and system for event-driven network management
WO2022257226A1 (zh) 基于网络空间测绘的蜜罐识别方法、装置、设备及介质
US11652828B1 (en) Systems and methods for automated anomalous behavior detection and risk-scoring individuals
CN110855699A (zh) 一种流量审计方法、装置、服务器及审计设备
CN113867885A (zh) 用于应用程序流监控的方法、计算系统和计算机可读介质
US20060053021A1 (en) Method for monitoring and managing an information system
US10038603B1 (en) Packet capture collection tasking system
EP4080850A1 (en) Onboarding virtualized network devices to cloud-based network assurance system
US10020990B2 (en) Network stability reconnaisance tool
CN117397223A (zh) 物联网设备应用工作负荷捕捉
US10505792B1 (en) Methods for facilitating network traffic analytics and devices thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination