CN112817827A - 运维方法、装置、服务器、设备、系统及介质 - Google Patents

运维方法、装置、服务器、设备、系统及介质 Download PDF

Info

Publication number
CN112817827A
CN112817827A CN202110091234.1A CN202110091234A CN112817827A CN 112817827 A CN112817827 A CN 112817827A CN 202110091234 A CN202110091234 A CN 202110091234A CN 112817827 A CN112817827 A CN 112817827A
Authority
CN
China
Prior art keywords
maintenance
data
target
maintenance object
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110091234.1A
Other languages
English (en)
Inventor
何柯君
夏晓松
覃非
周银辉
倪晓慧
赵樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN202110091234.1A priority Critical patent/CN112817827A/zh
Publication of CN112817827A publication Critical patent/CN112817827A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种运维方法、装置、服务器、设备及介质。其中,该运维方法包括:首先,获取目标运维对象的运维数据,运维数据用于表征目标运维对象的运行状态。其次,在运维数据不满足预设条件时,向目标运维对象发送第一指令,第一指令包括目标运维对象的状态类型,第一指令用于指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态。接着,接收目标运维对象调整后的运维数据。然后,在目标运维对象调整后的运维数据不满足预设条件时,确定目标运维对象为异常运维对象。根据本申请实施例,能够准确地识别出无效告警的运维对象,降低各类告警带来的分析研判的资源和时间,以降低网络安全分析人员维护网络设备难度。

Description

运维方法、装置、服务器、设备、系统及介质
技术领域
本申请属于通信技术领域,尤其涉及一种运维方法、装置、服务器、设备、系统及介质。
背景技术
随着网络和计算机技术的普及,计算机已经逐渐深入到人们工作和生活的各个方面。而随着各种计算业务量的快速增长,计算机的规模也在呈几何倍数的扩大,与此同时网络设备运维也变得越来越重要。
目前,运维涵盖变更、服务、应急、事件处理、监控、网络设备信息采集等,需要理解、分析业务需求,转译为网络设备配置内容,并且通过与网络设备进行交互配置,最终来满足业务需求。在一般的运维中,会经常会出现网络设备进行无效告警的情况,当无效告警情况过多,会对网络安全分析人员造成干扰,增加网络设备运维难度。
发明内容
本申请实施例提供一种运维方法、装置、服务器、设备、系统及介质,能够准确地识别出无效告警的运维对象,提高运维工作效率,以降低网络安全分析人员维护网络设备难度。
第一方面,本申请实施例提供了一种运维方法,应用于数据中心平台,包括:
获取目标运维对象的运维数据,运维数据用于表征目标运维对象的运行状态;
在运维数据不满足预设条件时,向目标运维对象发送第一指令,第一指令包括目标运维对象的状态类型,第一指令用于指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态;
接收目标运维对象调整后的运维数据;
在目标运维对象调整后的运维数据不满足预设条件时,确定目标运维对象为异常运维对象。
第二方面,本申请实施例提供了一种运维方法,应用于目标运维对象,包括:
接收数据中心平台发送的第一指令,第一指令包括目标运维对象的状态类型;
根据状态类型,获取与状态类型对应的运维操作指令;
根据运维操作指令调整目标运维对象的运行状态,得到调整后的运维数据;
向数据中心平台发送目标运维对象调整后的运维数据。
第三方面,本申请实施例提供了一种运维装置,应用于数据中心平台,包括:
获取模块,用于获取目标运维对象的运维数据,运维数据用于表征目标运维对象的运行状态;
发送模块,用于在运维数据不满足预设条件时,向目标运维对象发送第一指令,第一指令包括目标运维对象的状态类型,第一指令用于指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态;
接收模块,用于接收目标运维对象调整后的运维数据;
处理模块,用于在目标运维对象调整后的运维数据不满足预设条件时,确定目标运维对象为异常运维对象。
第四方面,本申请实施例提供了一种运维装置,应用于目标运维对象,包括:
接收模块,用于接收数据中心平台发送的第一指令,第一指令包括目标运维对象的状态类型;
获取模块,用于根据状态类型,获取与状态类型对应的运维操作指令;
调整模块,用于根据运维操作指令调整目标运维对象的运行状态,得到调整后的运维数据;
发送模块,用于向数据中心平台发送目标运维对象调整后的运维数据。
第五方面,本申请实施例提供了一种服务器,包括:
处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面所示的运维方法。
第六方面,本申请实施例提供了一种网络设备,包括:
处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第二方面所示的运维方法。
第七方面,本申请实施例提供了一种运维系统,包括如第五方面所示的服务器和如第六方面所示的网络设备。
第八方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面或者第二方面所示的运维方法。
本申请实施例的运维方法、装置、服务器、设备、系统及介质,其中运维包括应用运维、系统运维、网络运维、安全运维、基础环境运维等,工作场景包括监控、故障处理、设备部署、应用部署、巡检等。通过目标运维对象的运维数据所表征的运行状态,来归集数据中心平台的告警信息,以减少告警信息的数量,提升异常事件的处理速度。另外,数据中心平台通过指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态,这样,实现运维对象的自检和自愈。然后,在确定目标运维对象调整后的运维数据还不满足预设条件时,确定目标运维对象为异常运维对象,这样,能够通过两次判断,降低各类告警带来的分析研判的资源和时间,以降低数据中心运维人员开展运维工作难度,可适用于数据中心平台的各类运维场景,复用程度高,维护性较好。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请提供的运维系统的一个实施例架构示意图;
图2是根据本申请提供的数据中心平台的一个实施例架构示意图;
图3是根据本申请提供的运维对象的管理模型的一个实施例架构示意图;
图4是根据本申请提供的基于数据中心平台的运维方法的一个实施例流程示意图;
图5是根据本申请提供的基于目标运维对象的运维方法的一个实施例流程示意图;
图6是根据本申请提供的运维方法的一个实施例场景示意图;
图7是根据本申请提供的运维方法的一种基于数据中心平台的运维装置的结构示意图;
图8是根据本申请提供的运维方法的一种基于目标运维对象的运维装置的结构示意图;
图9是根据本申请提供的运维方法的一种运维设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前,数据中心平台是对外服务的基础设施,其核心功能是保证互联网服务(ITservice)安全稳定且运行高效。当前,数据中心平台面临规模化运维场景的挑战,主要表现为业务功能的创新迭代加快,数据中心平台运维的应用系统数量剧增,底层支撑的服务器、安全设备和网络设备数量相应增多,数据中心平台处理应用上线、监控告警、故障应急等运维场景的压力增加。另外,传统的运维管理系统、架构和平台不能较好地适应规模化运维场景,导致在出现故障时间时容易产生大量无效告警的情况,运维效率不高,控制运维风险的难度增大。
数据中心平台的运维过程是通过多个平台共同支撑完成。其中,多个平台可以包括:流程管控平台、流程编排平台、作业平台、监控平台、数据平台、自动化操作平台、配置平台、资源平台等。如,流程管控平台和流程编排平台用于围绕运维流程开展流程管控,配置平台、资源平台和监控平台是基于运维对象如实体设备开展配置和监控。
这里,数据中心平台根据其管理模型可分为两类:基于运维过程和基于运维实体。其中,基于运维过程的数据中心平台,可以通过故障事件驱动自动化过程,实现应用自动部署、故障自动发现及自愈等。基于运维实体的数据中心平台,可以通过配置平台存储数据中心平台的运维实体及其关联关系,并基于配置平台进行资源管理、任务调度、运维作业、自动部署、版本管理、应用发布等运维工作。
但是,上述运维过程的数据中心平台不能较好地适应规模化运维工作需要。例如,在规模化运维场景下,当多个平台中的一个或几个异常时,会产生大量告警,在此情况下,会对网络安全分析人员造成干扰,导致定位故障设备时间较长,增加网络设备运维难度,甚至影响业务可用性和对外服务。另外,基于运维实体的数据中心平台对于管理的运维实体资源的标准化要求较高,导致运维实体类型、型号及版本无法标准一致的数据中心来说,改造的难度大成本高。
基于此,如图1所示,本申请实施例中提供了一种运维系统,该运维平台包括服务器10和多个运维对象20。其中,服务器10运行数据中心平台,运维对象可以包括如网络设备、交换机、加密机等实体设备,以及如虚拟机服务器、数据库等虚拟设备。基于此,数据中心平台在检测到目标事件如故障事件或者应用功能版本升级的情况下,可以在多个运维对象中确定与目标事件对应的目标运维对象。这样,根据目标运维对象的运维数据,确定目标运维对象的运行状态是否在健康状态,在确定目标运维对象的运行状态为非健康状态如宕机或者程序异常的情况下,向目标运维对象发送第一指令,第一指令包括目标运维对象的状态类型。这样,在目标运维对象接收数据中心平台发送的第一指令时,根据目标运维对象的状态类型,获取与状态类型对应的运维操作指令,并根据运维操作指令调整目标运维对象的运行状态,得到调整后的运维数据;向数据中心平台发送目标运维对象调整后的运维数据。然后,数据中心平台接收目标运维对象调整后的运维数据,并在目标运维对象调整后的运维数据不满足预设条件时,确定目标运维对象为异常运维对象。
这样,在规模化运维中,通过目标运维对象的运维数据所表征的运行状态,来归集数据中心平台的告警信息,以减少告警信息的数量,提升异常事件的处理速度。另外,数据中心平台通过指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态,这样,实现运维对象的自检和自愈。然后,在确定目标运维对象调整后的运维数据还不满足预设条件时,确定目标运维对象为异常运维对象,这样,能够通过两次判断,降低各类告警带来的分析研判的资源和时间,以降低数据中心运维人员开展运维工作难度,以降低网络安全分析人员维护网络设备难度,可适用于数据中心平台的各类运维场景,复用程度高,维护性较好。
需要说明是,如图2所示,本申请实施例中的数据中心平台可以分为运维对象构建区和运维对象消费区两个部分,该数据中心平台先构建运维对象的体系,并基于该运维对象体系进行智能运维工作场景建设。
运维对象构建区包括对象维护平台、运维作业平台和运维工具平台三个部分。其中,对象维护平台是核心组成部分,依托数据中心平台的配置管理数据库(ConfigurationManagement Database,CMDB)构建运维对象体系,维护对象数据和行为更新如更新运维对象的运维数据和/或状态类型,并提供运维对象的全局索引、数据查询及行为调用。运维作业平台的作用是封装行为实现,将行为与运维对象关联,并管理行为接口。运维工具平台提供运维对象的行为实现,用以完成数据中心运维场景的各项工作任务。
另外,运维对象消费区包括状态监控平台、智能运维平台和运维管控平台三个部分。其中,状态监控平台用于对运维对象的状态的持续监控,捕捉状态变化并输出到智能运维平台。智能运维平台用于根据运维对象的运行状态,进行智能分析、建模及决策,最后生成运维操作指令,如已授权则直接调用运维对象行为执行,如未授权则推送决策方案到管控平台。运维管控平台用于对于智能运维平台推送的决策方案进行人工判断和决策授权,基于运维管控需要调用运维对象的行为操作。如,可以通过运维对象消费区监测运维对象的运行状态;根据运行状态和运维对象消费区,确定与运行状态对应的运维操作指令,运维操作指令用于调整运维数据。
这里,本申请实施例还提供了应用于数据中心平台的运维对象模型。该运维对象模型统一数据中心平台相关的运维对象的属性数据、状态数据及操作数据,不同运维平台均可使用统一的运维对象进行数据交互和操作调用。运维对象统一了数据中心平台的协同工作的基础,对已有工具平台兼容较好,具有较好的通用性。
本申请实施例通过数据中心平台的运维模型定义运维对象,如图3所示,对于数据中心平台的运维场景中的主要运维实体都可认定为运维对象,运维对象是全局唯一的。(2)运维对象的特征数据可以包括下述中的至少一种:属性数据、行为数据、状态数据和关系数据。其中,属性数据和状态数据的区别为属性数据是运维对象固有特性、更新频率慢,如对外服务的地址、端口信息等;状态数据是运维对象动态变化的特征、更新频率较快,如健康的运行状态或者非健康的运行状态,这里,在内存占有率低于60%或者读写量低于30%时,可以作为健康的运行状态,反之,在内存占有率高于60%或者读写量高于30%时,可以作为非健康的运行状态。行为数据如主、备设备切换数据、扩容数据等;关系数据如该运维对象运行应用程序的标识。(3)运维对象存在一个抽象的分类称为对象父类,对象父类的行为和数据可由运维对象继承。对象父类可是多层级的组成,即对象父类还可以继承其他的父类。(4)行为接口是实现典型场景的一组行为集合,即运维对象继承该接口定义的行为。
该运维对象模型有以下特性:(1)全局唯一,运维对象是全局唯一的,可被所有运维平台索引、使用及更新。(2)父类继承,运维对象的属性、状态和行为继承自对象父类。(3)接口实现,运维对象可以通过声明行为接口继承行为接口的默认行为。(4)行为封装,行为由两部分组成:第一,行为引用,是行为的调用封装,调用方仅需关注行为的输入和输出;第二,行为实现,是行为的设计实现,由设计方根据规范负责具体设计。(5)行为多态,运维对象可以重写继承自对象父类或行为接口的行为。
根据上述架构,下面结合图4对本申请实施例提供的运维方法进行详细说明。
图4是根据本申请提供的基于数据中心平台的运维方法的一个实施例流程示意图。
如图4所示,该运维方法可以应用于如图1所示的服务器或者图2所示的数据中心平台,基于此,该方法具体可以包括步骤410-步骤440。
首先,步骤410,获取目标运维对象的运维数据,运维数据用于表征目标运维对象的运行状态。
其次,步骤420,在运维数据不满足预设条件时,向目标运维对象发送第一指令,第一指令包括目标运维对象的状态类型,第一指令用于指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态。
接着,步骤430,接收目标运维对象调整后的运维数据。
然后,步骤440,在目标运维对象调整后的运维数据不满足预设条件时,确定目标运维对象为异常运维对象。
这样,在规模化运维中,通过目标运维对象的运维数据所表征的运行状态,来归集数据中心平台的告警信息,以减少告警信息的数量,提升异常事件的处理速度。另外,数据中心平台通过指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态,这样,实现运维对象的自检和自愈。然后,在确定目标运维对象调整后的运维数据还不满足预设条件时,确定目标运维对象为异常运维对象,这样,能够通过两次判断,降低各类告警带来的分析研判的资源和时间,以降低数据中心运维人员开展运维工作难度,可适用于数据中心平台的各类运维场景,复用程度高,维护性较好。
下面对上述步骤进行详细说明,具体如下所示:
首先,涉及步骤410,在一种可能的实施例中,在步骤410之前,该运维方法还包括:
在检测到目标事件的情况下,在数据中心平台的多个运维对象中筛选与目标事件对应的目标运维对象。
其中,根据多个运维对象中每个运维对象的特征数据,筛选与目标事件对应的目标运维对象;
其中,特征数据包括下述中的至少一种:属性数据、行为数据、状态数据和关系数据。
需要说明的是,本申请实施例中的运维数据包括目标运维对象的第一维度数据和/或目标运维对象和关联运维对象的第二维度数据,关联运维对象与目标运维对象相关;其中,
第一维度数据或者第二维度数据包括下述中至少一个维度数据:业务维度数据、系统维度数据、容量维度数据、维护记录维度数据。
基于此,在预设条件包括预设评分数据的情况下,在涉及步骤420之前,该运维方法还包括:
将第一维度数据和/或第二维度数据输入到预设状态维度模型,得到每个维度数据的评分数据;
在每个维度数据的评分数据小于或者等于预设评分数据的情况下,确定运维数据未满足预设数据。
这里,本申请实施例中的数据中心平台持续稳定运行的基础是与业务运行或对外服务相关的运维对象始终保持在健康运行状态。运维对象的运行状态可以基于目标运维对象及其相关的关联运维对象的业务维度数据、系统维度数据、容量维度数据、维护记录维度数据等多个维度分析,在每个维度数据的评分数据小于或者等于预设评分数据的情况下,确定运维数据未满足预设数据即非健康状态,同理,运维数据满足预设数据及健康的状态。
此外,在步骤440之后,该运维方法还可以包括:显示告警信息,告警信息包括下述中的至少一种信息:第一告警信息、第二告警信息;
第一告警信息包括目标运维对象的运行状态,第一告警信息用于提示目标运维对象为异常运维对象;
第二告警信息包括运维操作指令,第二告警信息用于提示运维操作指令不能将目标运维对象的运维数据调整为满足预设条件的运维数据,以便更新运维操作指令。
这里,在一些可能的实施例中,在显示告警信息之前,该运维方法还可以包括:通过运维对象消费区监测运维对象的运行状态;
根据运行状态和运维对象消费区,确定与运行状态对应的运维操作指令,运维操作指令用于调整运维数据。
基于相同的发明构思,本申请还提供了一种基于目标运维对象的运维方法。具体结合图5进行详细说明。
图5是根据本申请提供的基于目标运维对象的运维方法的一个实施例流程示意图。
如图5所示,该运维方法可以应用于如图1所示的网络设备,基于此,该运维方法可以包括步骤510-步骤540。
首先,步骤510,接收数据中心平台发送的第一指令,第一指令包括目标运维对象的状态类型;
其次,步骤520,根据状态类型,获取与状态类型对应的运维操作指令;
接着,步骤530,根据运维操作指令调整目标运维对象的运行状态,得到调整后的运维数据;
然后,步骤540,向数据中心平台发送目标运维对象调整后的运维数据。
由此,当运维对象的运行状态变化到非健康状态(例如亚健康、异常、宕机等)时,通过一次触发阈值、多次高频触发阈值、趋势触发阈值等触发方式触发运维对象的一种或多种行为操作执行,从而使运维对象进行自动检查调整,在调整后的目标运维对象还处于非健康状态时,则确定目标运维对象为异常运维对象。这里,对于无法自己调整的目标运维对象,可以将目标运维对象进行汇总,并提供给网络安全分析人员进行判断处理,从而让运维对象始终处于或者趋向健康状态。由此,能够准确地识别出无效告警的运维对象,降低各类告警带来的分析研判的资源和时间,以降低网络安全分析人员维护网络设备难度。
本申请实施例的运维方法和装置是面向数据中心规模化运维场景构建,为了更好的说明上述运维方法,本申请实施例结合图6所示的场景示意图,选取运维场景中的故障处理和版本上线作为典型场景对运维方法进行说明。
如图6所示,该运维场景可以涉及应用系统、应用子系统、数据库、物理服务器、交换机等多类运维对象,其中与业务运行相关的运维对象包括四类,分别是应用系统、应用子系统、中间件、数据库。
基于此,对故障处理场景进行说明。首先,对该故障场景进行描述:数据中心平台通过监控平台和工具对各类运维对象进行监控,并向非健康状态的目标运维对象发送第一指令,第一指令包括目标运维对象的状态类型,第一指令用于指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态,然后接受目标运维对象调整后的运维数据,并根据调整后的运维数据进一步判断,对于还是处于非健康状态的目标运维对象,确定为异常运维对象,提示网络安全分析人员进行故障处理。例如,在日常运维工作中,平均每10分钟有10个左右故障告警处理;在规模化运维工作中,如核心运维对象故障(例如交换机、加密机等),受故障传播链的影响,1分钟内可出现10000个以上的故障告警。
然后,基于本申请实施例涉及的运维对象模型,可以实现标准化、自动化和智能化的故障处理流程,具体如下:数据中心平台中的监控平台持续监控多个目标运维对象的运行状态。当目标运维对象的运行状态出现非健康状态时,启动故障快照和健康检查操作,故障快照是持续收集故障事件相关的信息,并向目标运维对象发送用于指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态的第一指令。这里,目标运维对象可以根据故障事件的状态类型,确认是否存在运维操作指令,如存在运维操作指令,则根据运维操作指令对目标运维对象进行处理。对于无故障事件或运维操作指令实施后未解决故障的,汇总故障事件信息向网络安全分析人员进行提示。举例说明,在日常运维工作中,平均1个小时存在1-2个业务相关运维对象出现非健康状态,其中超过50%可实现自愈;对于非自愈的应用系统,可根据故障快照和健康检查结果平均10分钟左右解决;在规模化运维工作中,出现的上万个告警会收敛到个别应用系统中,通过业务关联的运维对象健康状态监控及自检自愈处理,同样也是10分钟左右完成一个应用系统的故障处理。
由此,上述运维方法可以在规模化运维中,通过目标运维对象的运维数据所表征的运行状态,来归集数据中心平台的告警信息,以减少告警信息的数量,提升异常事件的处理速度。另外,数据中心平台通过指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态,这样,实现运维对象的自检和自愈。然后,在确定目标运维对象调整后的运维数据还不满足预设条件时,确定目标运维对象为异常运维对象,这样,能够通过两次判断,降低各类告警带来的分析研判的资源和时间,以降低数据中心运维人员开展运维工作难度,以降低网络安全分析人员维护网络设备难度,可适用于数据中心平台的各类运维场景,复用程度高,维护性较好。
另外,对应用部署场景进行说明。根据业务需求,对应用系统实施版本上线进行部署。然后,通过发布流程、变更流程等规范处理应用部署。其中,运维对象对应用版本实施风险评估,确定上线时间。接着,上线前,通过本申请实施例中的运维方法对运维对象进行检测以及检测运行环境是否安全稳定。然后,健康检查、版本部署、版本回退均围绕运维对象的状态自动化进行,实现全自动智能化的版本部署,运维对象的行为操作为统一操作,在相关场景均获得充分验证。
由此,本申请实施例围绕运维对象及其健康状态实施运维操作统一标准,实施质量较高,复用程度高、易维护性好,运维对象的行为主要基于通用的标准化的操作,在多个场景中均可复用。
综上,本申请实施例的运维方法、装置、服务器、设备、系统及介质,在规模化运维中,通过目标运维对象的运维数据所表征的运行状态,来归集数据中心平台的告警信息,以减少告警信息的数量,提升异常事件的处理速度。另外,数据中心平台通过指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态,这样,实现运维对象的自检和自愈。然后,在确定目标运维对象调整后的运维数据还不满足预设条件时,确定目标运维对象为异常运维对象,这样,能够通过两次判断,降低各类告警带来的分析研判的资源和时间,以降低数据中心运维人员开展运维工作难度,以降低网络安全分析人员维护网络设备难度,可适用于数据中心平台的各类运维场景,复用程度高,维护性较好。
基于相同的发明构思,本申请还提供了一种基于数据中心平台的运维装置。具体结合图7进行详细说明。
图7是根据本申请提供的运维方法的一种基于数据中心平台的运维装置的结构示意图。
如图7所示,在本申请一些实施例中,图7所示的运维装置可以设置在如图1所示的服务器中,该运维装置70具体可以包括:
获取模块701,用于获取目标运维对象的运维数据,运维数据用于表征目标运维对象的运行状态。
发送模块702,用于在运维数据不满足预设条件时,向目标运维对象发送第一指令,第一指令包括目标运维对象的状态类型,第一指令用于指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态。
接收模块703,用于接收目标运维对象调整后的运维数据。
处理模块704,用于在目标运维对象调整后的运维数据不满足预设条件时,确定目标运维对象为异常运维对象。
这里,在规模化运维中,通过目标运维对象的运维数据所表征的运行状态,来归集数据中心平台的告警信息,以减少告警信息的数量,提升异常事件的处理速度。另外,数据中心平台通过指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态,这样,实现运维对象的自检和自愈。然后,在确定目标运维对象调整后的运维数据还不满足预设条件时,确定目标运维对象为异常运维对象,这样,能够通过两次判断,降低各类告警带来的分析研判的资源和时间,以降低数据中心运维人员开展运维工作难度,以降低网络安全分析人员维护网络设备难度,可适用于数据中心平台的各类运维场景,复用程度高,维护性较好。
下面对上述运维装置进行详细说明,具体如下所示:
在可能的实施例中,运维装置70还可以包括筛选模块,用于在检测到目标事件的情况下,在数据中心平台的多个运维对象中筛选与目标事件对应的目标运维对象。
进一步地,筛选模块具体可以用于,根据多个运维对象中每个运维对象的特征数据,筛选与目标事件对应的目标运维对象;
其中,特征数据包括下述中的至少一种:属性数据、行为数据、状态数据和关系数据。
本申请实施例中涉及的运维数据包括目标运维对象的第一维度数据和/或目标运维对象和关联运维对象的第二维度数据,关联运维对象与目标运维对象相关;其中,
第一维度数据或者第二维度数据包括下述中至少一个维度数据:业务维度数据、系统维度数据、容量维度数据、维护记录维度数据。
在可能的实施例中,运维装置70还可以包括计算模块,用于在预设条件包括预设评分数据的情况下,将第一维度数据和/或第二维度数据输入到预设状态维度模型,得到每个维度数据的评分数据;
在每个维度数据的评分数据小于或者等于预设评分数据的情况下,确定运维数据未满足预设数据。
在可能的实施例中,运维装置70还可以包括显示模块,用于显示告警信息,告警信息包括下述中的至少一种信息:第一告警信息、第二告警信息;
第一告警信息包括目标运维对象的运行状态,第一告警信息用于提示目标运维对象为异常运维对象;
第二告警信息包括运维操作指令,第二告警信息用于提示运维操作指令不能将目标运维对象的运维数据调整为满足预设条件的运维数据,以便更新运维操作指令。
这里,在一些实施例中,本申请实施例中的数据中心平台可以包括运维对象构建区,其中,运维对象构建区用于构建运维对象的体系,运维对象的体系用于基于数据中心平台的配置管理数据库,更新运维对象的运维数据和/或状态类型,运维对象包括目标运维对象。
另外,数据中心平台包括运维对象消费区,其中,运维对象消费区用于基于运维对象的体系对运维对象进行运维。
基于此,运维装置70还可以包括监测模块,监测模块可以通过运维对象消费区监测运维对象的运行状态;根据运行状态和运维对象消费区,确定与运行状态对应的运维操作指令,运维操作指令用于调整运维数据。
需要说明的是,图7所示的运维装置70可以执行图1-图6所示的运维方法实施例中的各个步骤,并且实现图1-图6所示的运维方法实施例中的各个过程和效果,在此不做赘述。
另外,基于相同的发明构思,本申请还提供了一种基于目标运维对象的运维装置。具体结合图8进行详细说明。
图8是根据本申请提供的运维方法的一种基于目标运维对象的运维装置的结构示意图。
如图8所示,在本申请一些实施例中,图8所示的运维装置可以设置在网络设备中,该运维装置80具体可以包括:
接收模块801,用于接收数据中心平台发送的第一指令,第一指令包括目标运维对象的状态类型;
获取模块802,用于根据状态类型,获取与状态类型对应的运维操作指令;
调整模块803,用于根据运维操作指令调整目标运维对象的运行状态,得到调整后的运维数据;
发送模块804,用于向数据中心平台发送目标运维对象调整后的运维数据。
由此,在规模化运维中,通过目标运维对象的运维数据所表征的运行状态,来归集数据中心平台的告警信息,以减少告警信息的数量,提升异常事件的处理速度。另外,数据中心平台通过指示目标运维对象根据与状态类型对应的运维操作指令调整目标运维对象的运行状态,这样,实现运维对象的自检和自愈。然后,在确定目标运维对象调整后的运维数据还不满足预设条件时,确定目标运维对象为异常运维对象,这样,能够通过两次判断,降低各类告警带来的分析研判的资源和时间,以降低数据中心运维人员开展运维工作难度,以降低网络安全分析人员维护网络设备难度,可适用于数据中心平台的各类运维场景,复用程度高,维护性较好。
基于相同的发明构思,本申请还提供了一种运维设备。具体结合图9进行详细说明。
图9是根据本申请提供的运维方法的一种运维设备的硬件结构示意图。
如图所示,该运维设备900可以为如图1所示的服务器也可以是网络设备。该运维设备可以包括处理器901以及存储有计算机程序指令的存储器902。
具体地,上述处理器901可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器902可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器902可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器902可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器902可在综合网关容灾设备的内部或外部。在特定实施例中,存储器902是非易失性固态存储器。在特定实施例中,存储器902包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器901通过读取并执行存储器902中存储的计算机程序指令,以实现上述实施例中的任意一种运维方法。
在一个示例中,运维设备还可包括通信接口903和总线910。其中,如图9所示,处理器901、存储器902、通信接口903通过总线910连接并完成相互间的通信。
通信接口903,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线910包括硬件、软件或两者,将流量控制设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线910可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该运维设备可以执行本申请实施例中的运维方法,从而实现结合图1至图6描述的运维方法和装置。
另外,结合上述实施例中的运维方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种运维方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (16)

1.一种运维方法,应用于数据中心平台,包括:
获取目标运维对象的运维数据,所述运维数据用于表征所述目标运维对象的运行状态;
在所述运维数据不满足预设条件时,向所述目标运维对象发送第一指令,所述第一指令包括所述目标运维对象的状态类型,所述第一指令用于指示所述目标运维对象根据与所述状态类型对应的运维操作指令调整所述目标运维对象的运行状态;
接收所述目标运维对象调整后的运维数据;
在所述目标运维对象调整后的运维数据不满足所述预设条件时,确定所述目标运维对象为异常运维对象。
2.根据权利要求1所述的方法,其特征在于,所述获取目标运维对象的运维数据之前,所述方法还包括:
在检测到目标事件的情况下,在所述数据中心平台的多个运维对象中筛选与所述目标事件对应的目标运维对象。
3.根据权利要求2所述的方法,其特征在于,所述在所述数据中心平台的多个运维对象中筛选与所述目标事件对应的目标运维对象,包括:
根据所述多个运维对象中每个运维对象的特征数据,筛选与所述目标事件对应的目标运维对象;
其中,所述特征数据包括下述中的至少一种:属性数据、行为数据、状态数据和关系数据。
4.根据权利要求1所述的方法,其特征在于,所述运维数据包括所述目标运维对象的第一维度数据和/或所述目标运维对象和关联运维对象的第二维度数据,所述关联运维对象与所述目标运维对象相关;其中,
所述第一维度数据或者所述第二维度数据包括下述中至少一个维度数据:业务维度数据、系统维度数据、容量维度数据、维护记录维度数据。
5.根据权利要求4所述的方法,其特征在于,所述预设条件包括预设评分数据;所述向所述目标运维对象发送第一指令之前,所述方法还包括:
将所述第一维度数据和/或所述第二维度数据输入到预设状态维度模型,得到每个维度数据的评分数据;
在所述每个维度数据的评分数据小于或者等于所述预设评分数据的情况下,确定所述运维数据未满足所述预设数据。
6.根据权利要求1所述的方法,其特征在于,所述确定所述目标运维对象为异常运维对象之后,所述方法还包括:
显示告警信息,所述告警信息包括下述中的至少一种信息:第一告警信息、第二告警信息;
所述第一告警信息包括所述目标运维对象的运行状态,所述第一告警信息用于提示所述目标运维对象为异常运维对象;
所述第二告警信息包括所述运维操作指令,所述第二告警信息用于提示所述运维操作指令不能将所述目标运维对象的运维数据调整为满足所述预设条件的运维数据,以便更新所述运维操作指令。
7.根据权利要求1所述的方法,其特征在于,所述数据中心平台包括运维对象构建区,其中,所述运维对象构建区用于构建运维对象的体系,所述运维对象的体系用于基于所述数据中心平台的配置管理数据库,更新所述运维对象的运维数据和/或状态类型,所述运维对象包括所述目标运维对象。
8.根据权利要求6所述的方法,其特征在于,所述数据中心平台包括运维对象消费区,其中,所述运维对象消费区用于基于所述运维对象的体系对所述运维对象进行运维。
9.根据权利要求8所述的方法,其特征在于,所述显示告警信息之前,所述方法还包括:
通过所述运维对象消费区监测所述运维对象的运行状态;
根据所述运行状态和所述运维对象消费区,确定与所述运行状态对应的运维操作指令,所述运维操作指令用于调整所述运维数据。
10.一种运维方法,应用于目标运维对象,包括:
接收数据中心平台发送的第一指令,所述第一指令包括所述目标运维对象的状态类型;
根据所述状态类型,获取与所述状态类型对应的运维操作指令;
根据所述运维操作指令调整所述目标运维对象的运行状态,得到调整后的运维数据;
向所述数据中心平台发送所述目标运维对象调整后的运维数据。
11.一种运维装置,应用于数据中心平台,包括:
获取模块,用于获取目标运维对象的运维数据,所述运维数据用于表征所述目标运维对象的运行状态;
发送模块,用于在所述运维数据不满足预设条件时,向所述目标运维对象发送第一指令,所述第一指令包括所述目标运维对象的状态类型,所述第一指令用于指示所述目标运维对象根据与所述状态类型对应的运维操作指令调整所述目标运维对象的运行状态;
接收模块,用于接收所述目标运维对象调整后的运维数据;
处理模块,用于在所述目标运维对象调整后的运维数据不满足所述预设条件时,确定所述目标运维对象为异常运维对象。
12.一种运维装置,应用于目标运维对象,包括:
接收模块,用于接收数据中心平台发送的第一指令,所述第一指令包括所述目标运维对象的状态类型;
获取模块,用于根据所述状态类型,获取与所述状态类型对应的运维操作指令;
调整模块,用于根据所述运维操作指令调整所述目标运维对象的运行状态,得到调整后的运维数据;
发送模块,用于向所述数据中心平台发送所述目标运维对象调整后的运维数据。
13.一种服务器,包括:
处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如权利要求1-9中任意一项所述的运维方法。
14.一种网络设备,包括:
处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如权利要求10所述的运维方法。
15.一种运维系统,包括如权利要求13所述的服务器和如权利要求14所述的网络设备。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-9中任意一项所述运维方法,或者如权利要求10所述的运维方法。
CN202110091234.1A 2021-01-22 2021-01-22 运维方法、装置、服务器、设备、系统及介质 Pending CN112817827A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110091234.1A CN112817827A (zh) 2021-01-22 2021-01-22 运维方法、装置、服务器、设备、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110091234.1A CN112817827A (zh) 2021-01-22 2021-01-22 运维方法、装置、服务器、设备、系统及介质

Publications (1)

Publication Number Publication Date
CN112817827A true CN112817827A (zh) 2021-05-18

Family

ID=75859187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110091234.1A Pending CN112817827A (zh) 2021-01-22 2021-01-22 运维方法、装置、服务器、设备、系统及介质

Country Status (1)

Country Link
CN (1) CN112817827A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117268455A (zh) * 2023-11-22 2023-12-22 河北建设集团股份有限公司 一种工程建筑施工质量检测设备的监测系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105577457A (zh) * 2016-03-09 2016-05-11 上海天玑科技股份有限公司 一种数据中心资源智能弹性调度系统及方法
CN109144820A (zh) * 2018-08-31 2019-01-04 新华三信息安全技术有限公司 一种异常主机的检测方法及装置
CN109308252A (zh) * 2017-07-27 2019-02-05 中国移动通信集团浙江有限公司 一种故障定位处理方法及装置
CN109471769A (zh) * 2018-09-04 2019-03-15 深圳市宝德计算机系统有限公司 风扇异常控制方法、装置及计算机可读存储介质
CN110247810A (zh) * 2019-07-09 2019-09-17 浪潮云信息技术有限公司 一种收集容器服务监控数据的系统及方法
CN111176879A (zh) * 2019-12-31 2020-05-19 中国建设银行股份有限公司 设备的故障修复方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105577457A (zh) * 2016-03-09 2016-05-11 上海天玑科技股份有限公司 一种数据中心资源智能弹性调度系统及方法
CN109308252A (zh) * 2017-07-27 2019-02-05 中国移动通信集团浙江有限公司 一种故障定位处理方法及装置
CN109144820A (zh) * 2018-08-31 2019-01-04 新华三信息安全技术有限公司 一种异常主机的检测方法及装置
CN109471769A (zh) * 2018-09-04 2019-03-15 深圳市宝德计算机系统有限公司 风扇异常控制方法、装置及计算机可读存储介质
CN110247810A (zh) * 2019-07-09 2019-09-17 浪潮云信息技术有限公司 一种收集容器服务监控数据的系统及方法
CN111176879A (zh) * 2019-12-31 2020-05-19 中国建设银行股份有限公司 设备的故障修复方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117268455A (zh) * 2023-11-22 2023-12-22 河北建设集团股份有限公司 一种工程建筑施工质量检测设备的监测系统
CN117268455B (zh) * 2023-11-22 2024-01-26 河北建设集团股份有限公司 一种工程建筑施工质量检测设备的监测系统

Similar Documents

Publication Publication Date Title
CN110062926B (zh) 设备驱动器遥测
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN110971464A (zh) 一种适合灾备中心的运维自动化系统
CN114978568A (zh) 使用机器学习进行数据中心管理
CN102859505B (zh) 管理系统以及计算机系统的管理方法
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
US11934972B2 (en) Configuration assessment based on inventory
US11704186B2 (en) Analysis of deep-level cause of fault of storage management
CN115396289A (zh) 一种故障告警确定方法、装置、电子设备及存储介质
CN112559489A (zh) 基于跨链的区块链监管方法、设备及存储介质
CN111611097A (zh) 故障检测方法、装置、设备及存储介质
JP2008234351A (ja) 統合運用監視システム及びプログラム
CN114598506A (zh) 工控网络安全风险溯源方法、装置、电子设备及存储介质
CN112817827A (zh) 运维方法、装置、服务器、设备、系统及介质
CN114679295B (zh) 防火墙安全配置方法及装置
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CN113010375B (zh) 设备告警方法及相关设备
CN112882892B (zh) 数据处理方法和装置、电子设备及存储介质
CN112579402A (zh) 一种应用系统故障定位的方法和装置
CN114676002A (zh) 基于phm技术的系统运维方法及装置
US20180165141A1 (en) Device driver verification
WO2023206521A1 (en) Method, apparatus and device for hardening assets in ot system and storage medium and computer program product
CN116708135B (zh) 网络业务故障监测方法、装置、电子设备及存储介质
CN113282372B (zh) 数据收集集群的部署方法、装置、设备以及存储介质
CN111314103B (zh) 一种数据交换平台的监控系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination