CN112990744B - 一种面向海量百万级云化设备的自动化运维方法及装置 - Google Patents

一种面向海量百万级云化设备的自动化运维方法及装置 Download PDF

Info

Publication number
CN112990744B
CN112990744B CN202110354682.6A CN202110354682A CN112990744B CN 112990744 B CN112990744 B CN 112990744B CN 202110354682 A CN202110354682 A CN 202110354682A CN 112990744 B CN112990744 B CN 112990744B
Authority
CN
China
Prior art keywords
maintenance
abnormal
execution
catalog
node group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110354682.6A
Other languages
English (en)
Other versions
CN112990744A (zh
Inventor
杨克伟
胡剑
张泽钦
林小莎
康俊健
钟世钦
伍闵
许宜斌
钟惠娜
朱桂芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Eastcom Software Technology Co ltd
Original Assignee
Hangzhou Eastcom Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Eastcom Software Technology Co ltd filed Critical Hangzhou Eastcom Software Technology Co ltd
Priority to CN202110354682.6A priority Critical patent/CN112990744B/zh
Publication of CN112990744A publication Critical patent/CN112990744A/zh
Application granted granted Critical
Publication of CN112990744B publication Critical patent/CN112990744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向海量百万级云化设备的自动化运维方法及装置。该方法的步骤为:建立运维目录模型;建立执行节点组;根据运维目录模型,将运维任务进行分类;将分类后的运维任务下发至执行节点组;执行节点组执行运维任务后生成执行结果;根据预设的异常判断策略,确定执行结果中的异常结果;对异常结果进行AI智能分析。用于实施该方法的装置包括目录单元、分类单元、调度单元和分析单元。通过及时有效地推进运维自动化、智能化,适应网络集中、集成、集约的发展理念,为网元和业务的集中运维操作提供了有力的支撑和保障,在电信运营商、互联网等行业广泛应用后,有效地提升生产运维效率,节约人力时间成本,已经取得了良好的经济效益。

Description

一种面向海量百万级云化设备的自动化运维方法及装置
技术领域
本发明涉及自动化/AI智能化运维领域,尤其涉及一种面向海量百万级云化设备的自动化运维方法及装置。
背景技术
现有技术方案主要是海量百万级的云化设备网元配置操作、业务开通、例行检查等运维操作,一般采用离线操作、结合人工半自动的方式完成运维操作。不能支持针对海量的百万级别的种类繁多的云化设备批量一键自动化的运维操作,出现异常也不支持智能化的定位判断和处理。
然而,随着云资源池这些快速增长、种类繁多的云化设备、以及云资源池之上的应用指数级增值,传统的IT运维系统的架构采用定时任务Quratz的任务调度体系,存在如下弊端,无法满足海量的种类繁多的云化设备运维操作诉求,大大影响了生产运维效率:1)同一个任务只能有一个节点运行,其他节点将不执行任务,性能低,资源浪费;2)当碰到大量短任务时,各个节点频繁的竞争数据库锁,节点越多这种情况越严重,性能会很低下;3)quartz的分布式仅解决了集群高可用的问题,并没有解决任务分片的问题,不能实现水平扩展;4)前置节点不支持多类脚本执行,仅支持groovy脚本。
发明内容
为解决现有技术中存在的缺陷。本发明实施例主要针对解决海量的、百万级别的、种类繁多的云化设备运维效率慢、不够智能化的问题。
第一方面,本发明实施例中记载了一种面向海量百万级云化设备的自动化运维方法,该方法包括下列步骤:建立运维目录模型;建立执行节点组;根据运维目录模型,将运维任务进行分类;将分类后的运维任务下发至执行节点组;执行节点组执行运维任务后生成执行结果;根据预设的异常判断策略,确定执行结果中的异常结果;对异常结果进行AI智能分析。
一个可实现的实施例中,运维目录模型包括至少两层目录,每层目录中包含用于对运维任务进行分类的至少一个项目。
一个可实现的实施例中,关联每两层目录之间的项目,使关联后的项目形成跨目录的项目链。
一个可实现的实施例中,建立执行节点组包括下列步骤:将用于执行运维任务的执行节点集群化,建立包括代理机和设备的执行节点组;在代理机上部署用于下发运维任务的执行节点。
进一步地,在同个网络里部署多台代理机上的执行节点;根据代理机上的执行节点的任务执行情况动态分配运维任务。执行节点组包括多个代理机,一个执行节点组中的多个代理机可以连接执行节点组内的全部设备。
一个可实现的实施例中,AI智能分析包括下列步骤:分析对应的时间和设备参数触发门限,定位异常设备;聚类对应的设备、端口、参数的异常,判断异常聚类在某些设备上;结合设备性能指标和历史数据,判断设备异常的根源,对异常结果进行定位;根据定位结果,结合历史工单处理经验处理异常设备。
进一步地,根据定位结果,结合历史工单处理经验处理异常设备后,生成反馈信息;通过反馈信息训练AI智能分析的方法,提升AI智能分析的准确度。
一个可实现的实施例中,AI智能分析采用图团体检测算法,图团体算法中的节点为设备、边为网络链路;图团体算法得到的设备团体值作为异常设备的评估依据,设备团体值M的计算公式如下:
Figure BDA0003000061870000021
其中,k为图团体顶点的度;L为图团体的边;N表示顶点数量;ki表示第i个顶点的度;kj表示第j个顶点的度;Aij的值为邻接矩阵中的值;ci表示第i个顶点的聚类;cj表示第j个顶点的聚类;δ为克罗内克函数。
第二方面,本发明实施例中记载了一种用于实现上述第一方面中记载的方法的装置,该装置包括:目录单元,用于建立运维目录模型、编辑运维目录模型和存储运维目录模型;分类单元,用于调用运维目录模型,并根据运维目录模型对运维任务进行分类;调度单元,用于建立执行节点组;还用于将分类后的运维任务下发至执行节点组执行运维任务,生成执行结果;分析单元,用于根据异常判断策略确定执行结果中的异常结果;还用于对异常结果进行AI智能分析,生成分析结果。
本申请实施例的优点在于:能够及时有效地推进运维自动化、智能化,适应网络集中、集成、集约的发展理念,为网元和业务的集中运维操作提供了有力的支撑和保障,在电信运营商、互联网等行业广泛应用后,有效地提升生产运维效率,节约人力时间成本,已经取得了良好的经济效益。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性工作的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的一种面向海量百万级云化设备的自动化运维方法流程框图;
图2为本发明实施例的一种运维目录模型示意图;
图3为现有技术中的一种任务调度系统示意图;
图4为本发明实施例的一种任务调度系统示意图;
图5为本发明实施例的一种AI智能分析方法流程框图;
图6为本发明实施例的一种面向海量百万级云化设备的自动化运维装置结构框图;
图7为本发明实施例的一种分析单元内模块结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的一种面向海量百万级云化设备的自动化运维方法流程框图。如图1所示,该方法包括下列步骤:
步骤S110:建立运维目录模型。该模型包括至少两层目录,每层目录中包含用于对运维任务进行分类的项目。
对于运维目录模型,第一方面,该模型可基于解耦模型建立,以提供更为广泛的扩展能力。第二方面,每层目录均支持横向扩展;通过横向扩展,增加每层目录中包含的项目,实现运维任务的细分。第三方面,每两层目录之间支持进行目录间的项目的关联,使关联后的项目形成跨目录的项目链,通过项目链实现运维任务的细分。第四方面,模型中的目录层数、每层目录中的项目数量、以及目录之间的项目链可由用户自定义;例如,运维目录模型可以基于运维场景建立,使用户根据运维业务场景的实际情况,定制符合需求的运维目录模型、定制层次结构、以及定制每层目录内的项目和目录间的项目链。第五方面,该模型支持版本管理,以实现某一模型的迁移和改造,使得用户可以根据实时的需求调整原有的运维目录模型。
在一个具体实施例中,可以建立一个包含运维场景、网络类型、网元类型、厂家/版本、运维剧本运维脚本和运维参数的6层目录的运维目录模型。该模型如图2所示,运维场景的目录中包括例行检查、自动化验收和自动化配置共三个项目;网络类型的目录中包括网络设备、硬件主机、存储设备和虚拟化共四个项目;网元类型的目录中包括SW、RT、FW、HOST、块存储、集成存储、虚拟机和容器共八个项目;厂家、版本的目录中包括中兴、华为、浪潮和爱立信共四个项目;运维脚本运维剧本的目录中包括备份脚本、查看告警脚本、查看电源脚本和业务配置脚本共四个项目;运维参数的目录中包括参数1、参数2、参数3和参数N共四个项目。其中,以运维场景目录和网络类型目录为例,例行检查项目可分别与网络设备、硬件主机和存储设备进行项目关联,形成相应的项目链,使后续的运维任务分类时,可以根据例行检查、网络设备、硬件主机、存储设备、例行检查与网络设备、例行检查与硬件主机和例行检查与存储设备中的一种或多种对运维任务进行分类。在方法执行过程中,用户还可以根据个人需求对该运维目录模型进行版本管理,即运维目录模型的版本升级和版本降级。具体地,可以建立模型库用于存储每一个版本的运维目录模型。通过对现有运维目录模型进行目录调整和/或删减,对现有目录中的项目进行删减,对每两层目录之间的关联项目调整和/或删减,形成调整后的新的运维目录模型。新的运维目录模型作为后续智能化运维的执行基础。
步骤S200:根据运维目录模型,将运维任务进行分类。
具体地,可以根据运维目录模型中的项目将运维任务分类为一级子任务;还可以根据运维目录模型中的项目链将运维任务分类为二级子任务。
在一个具体实施例中,当用户按照上述的6层的运维目录模型编排好运维场景后,在前端界面定义该运维场景的任务类型如周期性的、即时性的等等。可以根据运维场景特点将运维任务分为周期性的自动化运维任务、非周期性的自动化处理任务,并可根据定义好的运维目录将运维任务拆分相应的子任务。然后,再根据6层运维目录模型制定的业务流程拆分成更细粒度的子任务。即一级子任务可以包括周期性的自动化运维任务、和非周期性的自动化处理任务。
步骤S120:建立执行节点组。
图3为现有技术中的一种任务调度系统示意图,如图3所示,运维任务通过现有的任务调度体系进行下发调度。如果,设备没有配置代理IP,任务调度系统通过默认执行节点连接设备;如果,设备配置了代理IP,则需要先在代理机上部署执行节点,再由代理机连接设备,通过代理机上部署的执行节点向设备下发运维任务。我们考虑到不同的代理机之间的网络往往存在不通的情况,不同的网络由不同的代理机分别去连接设备。代理机对于运维任务的执行属于单节点,如果代理机器宕机了,则配置了该代理机的设备将无法收到运维任务,即无法进行运维操作。
为了解决上述的问题,我们对任务调度系统和服务进行了优化。将用于执行运维任务的执行节点集群化,建立包括代理机和设备的执行节点组。在代理机上部署用于下发任务的执行节点。
优化后的任务调度系统示意图如图4所示,在调度上,采用ETS任务调度体系,提供大任务量的分布式调度,支持实时调度、定时调度和周期性调度。在服务上,在同个网络里部署多台代理机上的执行节点,使执行节点集群化,并根据代理机上的执行节点的任务执行情况动态分配任务,做到负载均衡。在集群化的情况下,不同的代理机同属于一个执行节点组,ETS下发任务时,分配组里的一个执行节点去连接设备。需要说明,同个执行节点组中的代理机可以连接同属于一组内的所有设备。
步骤S300:采用ETS任务调度体系,将分类后的运维任务下发至执行节点组;由执行节点组执行运维任务后生成执行结果。
当ETS任务调度体系下发多个运维任务后。代理机接收上述运维任务,而后由代理机中的执行节点将运维任务下发至该执行节点组中的各设备,由各设备分别对运维任务进行处理。生成各运维任务的执行结果。
步骤S400:根据预设的异常判断策略,确定执行结果中的异常结果;对异常结果进行AI智能分析。
其中,根据异常判断策略确定异常结果后,可以采用AI智能分析方法对异常结果进行第一分析;也可以采用传统的门限规则对异常结果进行第二分析;或同时对异常结果进行第一分析和第二分析。
这里指的传统的门限规则,具体为根据定义的异常判断策略进行最初的分析判断,如果正常,则返回正常至前端界面呈现。如果出现异常,支持关键字匹配规则和自动告警生成规则,对于满足关键字匹配规则的分析结果,按照自动告警生成规则,生成告警信息;支持告警发送规则,能够将生成的告警信息按照规则发送到指定的告警台、外部告警系统、或者以通知的方式发送给用户。
这里指的AI智能分析方法,相比传统的方法中更多是使用人工预定的规则去分析,费时费力,难以适应多场景、多业务的网络分析的缺陷。利用AI的手段嵌入到智能运维分析每个环节,实现运维分析的智能化,提升准确性,降本增效。具体地方法流程如图5所示,包括下列步骤:步骤S310:分析对应的时间和设备参数触发门限,定位异常设备;步骤S320:聚类对应的设备、端口、参数的异常,判断异常聚类在某些设备上;步骤S330:结合设备性能指标和历史数据,判断设备异常的根源,对异常结果进行定位;步骤S340:运维人员根据定位结果,历史工单处理经验去处理。处理结束后将处理结果作为反馈信息发送至用于存放步骤S330中使用的历史数据所在的历史数据库中,通过反馈信息对AI智能分析方法进行训练,提升对于异常结果的分析准确性。
在一个具体实施例中,第一分析在算法的选择上,基于运维角度,从故障查看、故障聚类和故障分析三个环节,通过图团体检测算法,实现了对于故障的分析聚类和动态呈现,提高了监控和故障定位能力。在网络中以图团体算法引入节点和边的概念,其中节点为设备、边为网络链路。将故障从节点和边两个维度进行聚类,不再逐条呈现,而是以设备维度进行追加,将大面积故障的各网元上万条故障信息通过不断的追加聚类,形成大小不一的团体。将设备团体值的大小作为该告警在本次故障中的定性评估依据,将评估最高的设备故障信息或者链路故障确定为故障点或故障原因,从而实现快速有效的故障定位。具体公式如下:
Figure BDA0003000061870000061
其中,M为设备团体值;k为图团体顶点的度;L为图团体的边,因涉及重复互联关系,所以对所有的边都要除以2;N表示顶点数量;ki表示第i个顶点的度;kj表示第j个顶点的度;Aij的值为邻接矩阵中的值;ci表示第i个顶点的聚类;cj表示第j个顶点的聚类。使用克罗内克函数δ计算后,如相等则返回1,说明它们属于同一聚类;如不等则返回0,说明它们不在同一聚类中。
第二分析为,对于满足预设的关键字匹配规则的异常结果,根据预设的告警生成规则,生成告警信息;将告警信息通过推送平台发送给用户。
图6为本发明实施例的一种面向海量百万级云化设备的自动化运维装置结构框图。如图6所示,该装置包括:目录单元、分类单元、调度单元和分析单元。
目录单元用于建立运维目录模型、编辑运维目录模型和存储运维目录模型。
建立模型时,用户可以根据自己的需求以及基本的建模规则,在目录单元内建立用于执行运维的运维目录模型。常见的运维目录模型一般包括至少两层目录,每层目录中包含用于对运维任务进行分类的项目。模型可基于解耦模型建立,以提供更为广泛的扩展能力。每层目录可进行横向扩展;通过横向扩展,增加每层目录中包含的项目,实现运维任务的细分。每两层目录之间可进行目录间的项目的关联,使关联后的项目形成跨目录的项目链,通过项目链实现运维任务的细分。模型中的目录层数、每层目录中的项目数量、以及目录之间的项目链可由用户自定义。
建立后的模型存储于目录单元中,供运维执行时使用。另外,存储的运维目录模型也可由用户根据实时需求进行编辑修改,存储多个不同的运维目录模型版本,实现版本迭代或退回。
分类单元用于调用运维目录模型,并根据运维目录模型对运维任务进行分类。用户可以根据需求设置不同的分类规则,使运维任务按照模型目录内的项目进行分类,或按照模型目录间的项目链进行分类,或同时采用多种不同的分类规则进行更为复杂的分类。
调度单元用于建立执行节点组和运维任务调度。
将用于执行运维任务的执行节点集群化,建立包括代理机和设备的执行节点组。在同个网络里的代理机上部署用于下发任务的执行节点。
采用ETS任务调度体系下发多个运维任务。代理机接收运维任务,而后由代理机中的执行节点将运维任务下发至该执行节点组中的各设备,由各设备分别对运维任务进行处理。生成各运维任务的执行结果。
分析单元用于根据异常判断策略确定异常结果;还用于对异常结果进行第一分析和/或第二分析。其中,采用AI智能分析方法对异常结果进行第一分析;采用传统的门限规则对异常结果进行第二分析;还可以同时对异常结果进行第一分析和第二分析。
在一个具体实施例中,分析单元用于执行第一分析的模块结构如图7所示。该第一分析模块包括监控分析模块、定界根因模块、诊断模块和方案推送模块。
监控分析模块用于接收根据异常判断策略确定的异常结果,而后通过门限规则、人工检测和经验判断等方法进行动态基线、异常检测和指标检测,并将检测分析得到的信息发送至定界根因模块。
定界根因模块根据接收到的信息进行数据源分析、历史特征对比和经验判断,同时结合异常关联分析,确定异常业务聚类、异常设备聚类和/或异常关联聚类对应的设备、端口、和/或参数异常,确定异常结果对应的设备。
诊断模块根据聚类的结果,结合设备性能指标和对应的历史数据,确定设备异常的根因。
方案推送模块将确定的设备异常根因进行推送。运维人员根据推送内容,结合自身的运维经验进行运维。
更进一步的,运维人员可以将运维结果作为反馈数据回传给诊断模块。
诊断模块根据反馈结果训练历史诊断数据,构建异常结果的诊断树,以提高确定异常设备根因的准确性。
基于反馈数据的信息,方案推送模块还可以将历史诊断数据中的解决方案进行归类,并与设备异常根因同时推送给运维人员,以便于运维人员提高运维效率和效果。具体地,根据反馈数据的信息,提炼历史解决方案;由权威人士对历史解决方案进行经验归档,建立运维知识图谱;当产生新的设备异常时,可以基于运维知识图谱快速的关联出最优的运维解决方案,以便运维人员提高运维效率和效果。
本发明实施例中记载的一种面向海量百万级云化设备的自动化运维方法,及用于实施该方法的装置,能够及时有效地推进运维自动化、智能化,适应网络集中、集成、集约的发展理念,为网元和业务的集中运维操作提供了有力的支撑和保障,在电信运营商、互联网等行业广泛应用后,有效地提升生产运维效率,节约人力时间成本,已经取得了良好的经济效益。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (7)

1.一种面向海量百万级云化设备的自动化运维方法,其特征在于,所述方法包括下列步骤:
建立运维目录模型;建立执行节点组;
根据所述运维目录模型,将运维任务进行分类;
将分类后的所述运维任务下发至所述执行节点组;所述执行节点组执行所述运维任务后生成执行结果;
根据预设的异常判断策略,确定所述执行结果中的异常结果;对所述异常结果进行AI智能分析;
所述建立执行节点组包括下列步骤:将用于执行所述运维任务的执行节点集群化,建立包括代理机和设备的所述执行节点组;在所述代理机上部署用于下发所述运维任务的所述执行节点;
在同个网络里部署多台所述代理机上的执行节点;根据所述代理机上的执行节点的任务执行情况动态分配所述运维任务;
所述执行节点组包括多个所述代理机,一个执行节点组中的多个所述代理机可以连接所述执行节点组内的全部设备。
2.根据权利要求1所述的方法,其特征在于,所述运维目录模型包括至少两层目录,每层所述目录中包含用于对所述运维任务进行分类的至少一个项目。
3.根据权利要求1所述的方法,其特征在于,关联每两层所述目录之间的项目,使关联后的所述项目形成跨目录的项目链。
4.根据权利要求1所述的方法,其特征在于,所述AI智能分析包括下列步骤:
分析对应的时间和设备参数触发门限,定位异常设备;
聚类对应的设备、端口、参数的异常,判断异常聚类在某些设备上;
结合设备性能指标和历史数据,判断设备异常的根源,对异常结果进行定位;
根据定位结果,结合历史工单处理经验处理异常设备。
5.根据权利要求4所述的方法,其特征在于,所述根据定位结果,结合历史工单处理经验处理异常设备后,生成反馈信息;通过所述反馈信息训练所述AI智能分析的方法,提升所述AI智能分析的准确度。
6.根据权利要求1所述的方法,其特征在于,所述AI智能分析采用图团体检测算法,所述图团体检测算法中的节点为设备、边为网络链路;所述图团体检测算法得到的设备团体值作为异常设备的评估依据,所述设备团体值M的计算公式如下:
Figure FDA0003576507450000021
其中,k为图团体顶点的度;L为图团体的边;N表示顶点数量;ki表示第i个顶点的度;kj表示第j个顶点的度;Aij的值为邻接矩阵中的值;ci表示第i个顶点的聚类;cj表示第j个顶点的聚类;δ为克罗内克函数。
7.一种面向海量百万级云化设备的自动化运维装置,用于实施如权利要求1所述的方法,其特征在于,所述装置包括:
目录单元,用于建立运维目录模型、编辑运维目录模型和存储运维目录模型;
分类单元,用于调用所述运维目录模型,并根据所述运维目录模型对运维任务进行分类;
调度单元,用于建立执行节点组;还用于将分类后的所述运维任务下发至所述执行节点组执行所述运维任务,生成执行结果;
分析单元,用于根据异常判断策略确定所述执行结果中的异常结果;还用于对异常结果进行AI智能分析,生成分析结果。
CN202110354682.6A 2021-03-30 2021-03-30 一种面向海量百万级云化设备的自动化运维方法及装置 Active CN112990744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110354682.6A CN112990744B (zh) 2021-03-30 2021-03-30 一种面向海量百万级云化设备的自动化运维方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110354682.6A CN112990744B (zh) 2021-03-30 2021-03-30 一种面向海量百万级云化设备的自动化运维方法及装置

Publications (2)

Publication Number Publication Date
CN112990744A CN112990744A (zh) 2021-06-18
CN112990744B true CN112990744B (zh) 2022-07-12

Family

ID=76338684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110354682.6A Active CN112990744B (zh) 2021-03-30 2021-03-30 一种面向海量百万级云化设备的自动化运维方法及装置

Country Status (1)

Country Link
CN (1) CN112990744B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014116345A1 (en) * 2013-01-28 2014-07-31 Google Inc. Cluster maintenance system and operation thereof
CN110990367A (zh) * 2019-11-19 2020-04-10 中国移动通信集团广东有限公司 一种基于图团体聚类实现gps定位集群计算性能优化方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9083748B2 (en) * 2004-12-16 2015-07-14 Hewlett-Packard Development Company, L.P. Modelling network to assess security properties
CN105337765B (zh) * 2015-10-10 2018-10-12 上海新炬网络信息技术股份有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN109034521B (zh) * 2018-06-07 2021-11-16 国电南瑞科技股份有限公司 一种电网调度控制系统的智能运维架构设计方法
CN109214704A (zh) * 2018-09-26 2019-01-15 广东电网有限责任公司 一种分布式智能化运维平台、方法、装置及可读存储介质
CN109857613B (zh) * 2018-12-25 2021-10-08 南京南瑞信息通信科技有限公司 一种基于采集集群的自动化运维系统
CN110633189B (zh) * 2019-09-20 2023-04-07 深圳市广通软件有限公司 一种it系统的智能运维监控方法及其智能运维监控系统
CN112328361A (zh) * 2020-11-02 2021-02-05 杭州当虹科技股份有限公司 一种快速部署kubenetes集群的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014116345A1 (en) * 2013-01-28 2014-07-31 Google Inc. Cluster maintenance system and operation thereof
CN110990367A (zh) * 2019-11-19 2020-04-10 中国移动通信集团广东有限公司 一种基于图团体聚类实现gps定位集群计算性能优化方法

Also Published As

Publication number Publication date
CN112990744A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN110493025B (zh) 一种基于多层有向图的故障根因诊断的方法及装置
CN111082960B9 (zh) 数据的处理方法及装置
US20240264647A1 (en) Computing power distribution method and apparatus, and computing power server
CN111371616B (zh) 一种面向numa架构服务器的虚拟网络功能链部署方法和系统
CN114153580A (zh) 一种跨多集群的工作调度方法及装置
CN110740079A (zh) 一种面向分布式调度系统的全链路基准测试系统
CN113704046B (zh) 一种故障告警处理方法及装置、设备、存储介质
CN106874109A (zh) 一种分布式作业分发处理方法及系统
CN116701043B (zh) 面向异构计算系统的故障节点切换方法、装置和设备
CN115373861B (zh) Gpu资源调度方法、装置、电子设备及存储介质
CN107506381A (zh) 一种大数据分布式调度分析方法、系统装置及存储介质
CN112631754A (zh) 数据处理方法、装置、存储介质及电子装置
CN113128143A (zh) Ai处理器的仿真方法、装置、计算机设备及存储介质
CN113535225A (zh) 应用软件的环境配置文件处理方法、装置、设备和介质
CN114675956B (zh) 一种基于Kubernetes集群之间Pod配置及调度的方法
CN112990744B (zh) 一种面向海量百万级云化设备的自动化运维方法及装置
CN115291842B (zh) 一种cad结构件轻量化转换与在线浏览方法及系统
CN114185938B (zh) 基于数字金融及大数据溯源的项目溯源分析方法及系统
CN115622862A (zh) 基于数字孪生的算力网络系统及算力处理方法
CN109165325A (zh) 用于切分图数据的方法、装置、设备以及计算机可读存储介质
CN113867736A (zh) 部署方案生成方法及装置
Pankov et al. Model studies of systems with diagnostics based on fault simulation
CN113810242A (zh) 系统日志分析方法及装置
CN108134810B (zh) 一种确定资源调度组件的方法及其系统
CN113411841A (zh) 5g切片的割接合并方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant