CN114358655A - 一种生成推荐方案的方法和装置 - Google Patents

一种生成推荐方案的方法和装置 Download PDF

Info

Publication number
CN114358655A
CN114358655A CN202210152275.1A CN202210152275A CN114358655A CN 114358655 A CN114358655 A CN 114358655A CN 202210152275 A CN202210152275 A CN 202210152275A CN 114358655 A CN114358655 A CN 114358655A
Authority
CN
China
Prior art keywords
path
troubleshooting
recommendation
solution
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210152275.1A
Other languages
English (en)
Inventor
王建华
姜勇越
王菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruiyun Qizhi Chongqing Technology Co ltd
Original Assignee
Ruiyun Qizhi Chongqing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruiyun Qizhi Chongqing Technology Co ltd filed Critical Ruiyun Qizhi Chongqing Technology Co ltd
Priority to CN202210152275.1A priority Critical patent/CN114358655A/zh
Publication of CN114358655A publication Critical patent/CN114358655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供一种生成推荐方案的方法和装置,该方法包括:获取第一故障排查路径;其中,第一故障排查路径为预先确定的多条故障排查路径中的任意一条故障排查路径;确定第一故障排查路径的推荐度信息;其中,推荐度信息包括第一故障排查路径的路径推荐度和/或第一故障排查路径对应的多个故障解决方案中每个故障解决方案的推荐度;利用第一故障排查路径和推荐度信息,生成推荐方案。借助于上述技术方案,本申请实施例能够提高运维效率。

Description

一种生成推荐方案的方法和装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种生成推荐方案的方法和装置。
背景技术
以人工智能技术为核心的智能运维是适应时代发展,有效提高运维方式和效率,保障良好的用户体验和业务连续性等内容最有效的手段。人们之所以关注智能运维,是认为智能运维可以进行预测性维护,通过机器学习等方式提前发现异常、告警和故障,而且智能运维的确是可以做到这一点。但是,这些预测的内容有多准确是无法衡量的,并且随着第三代人工智能理论的提出,人们也越来越意识到人工智能不是完全智能,是无法脱离人工参与的,至少在当前这个阶段是无法完全独立的。
也就是说,对于智能运维来说,这个理论尤其的重要,在实际的运维过程中依然需要工程师这个角色。虽然智能运维无法完全替代人工,但是智能运维依然可以为工程师提供便利,大幅度的提升运维效率,尤其是在发现故障后的根因分析和提供解决方案等场景下。
但是,由于工程师之间的知识储备和经验都是不同的,并且依据对整个业务架构的了解程度的不同,对产生故障的原因以及修复该故障的能够采用的解决方案的认知自然也存在差距。例如,对于经验较少的工程师来说,其确定产生故障的原因以及修复该故障的能够采用的解决方案所需要的时间相对来说是比较长的,即其效率是不高的。
发明内容
本申请实施例的目的在于提供一种生成推荐方案的方法和装置,以提高运维概率。
第一方面,本申请实施例提供了一种生成推荐方案的方法,该方法包括:获取第一故障排查路径;其中,第一故障排查路径为预先确定的多条故障排查路径中的任意一条故障排查路径;确定第一故障排查路径的推荐度信息;其中,推荐度信息包括第一故障排查路径的路径推荐度和/或第一故障排查路径对应的多个故障解决方案中每个故障解决方案的推荐度;利用第一故障排查路径和推荐度信息,生成推荐方案。
因此,本申请实施例通过获取第一故障排查路径,其中,第一故障排查路径为预先确定的多条故障排查路径中的任意一条故障排查路径,随后确定第一故障排查路径的推荐度信息,其中,推荐度信息包括第一故障排查路径的路径推荐度和/或第一故障排查路径对应的多个故障解决方案中每个故障解决方案的推荐度,最后利用第一故障排查路径和推荐度信息,生成推荐方案,从而即便是经验较少的工程师也能够根据推荐方案快速地确定产生故障的原因以及修复该故障的能够采用的解决方案,进而能够提高运维效率。
在一个可能的实施例中,第一故障排查路径的多个节点中每个节点均包括告警IP和告警模板,并且推荐度信息包括第一故障排查路径的路径推荐度;
其中,确定第一故障排查路径的推荐度信息,包括:确定第一故障排查路径的多个节点中任意两个相邻节点的告警IP间的拓扑关系;根据预先确定的第一故障排查路径的相邻节点之间的引发概率和拓扑关系,确定第一故障排查路径的路径推荐度。
在一个可能的实施例中,根据预先确定的第一故障排查路径的相邻节点之间的引发概率和拓扑关系,确定第一故障排查路径的路径推荐度,包括:对引发概率和拓扑关系进行加权求和,得到第一故障排查路径的路径推荐度。
在一个可能的实施例中,第一故障排查路径是以预设的根节点为源头的故障事件的故障排查路径,以及第一故障排查路径的多个节点中每个节点均对应有一个故障,以及推荐度信息包括第一故障解决方案的推荐度,以及第一故障解决方案为多个故障解决方案中的任意一个故障解决方案;
其中,确定第一故障排查路径的推荐度信息,包括:确定第一故障解决方案所需要解决的目标故障对应的节点和根节点之间的距离;确定第一故障解决方案的可能性得分;其中,可能性得分用于表示第一故障解决方案解决目标故障的可能性;确定第一故障解决方案在预先生成的运维知识图谱中的协作关系得分;其中,协作关系得分用于表示第一故障解决方案和运维知识图谱中除第一故障解决方案之外的的其他故障解决方案协同合作解决故障事件的得分;根据距离、可能性得分和协作关系得分,确定第一故障解决方案的推荐度。
在一个可能的实施例中,根据距离、可能性得分和协作关系得分,确定第一故障解决方案的推荐度,包括:对距离、可能性得分和协作关系得分进行加权求和,得到第一故障解决方案的推荐度。
第二方面,本申请实施例提供了一种生成推荐方案的装置,该装置包括:获取模块,用于获取第一故障排查路径;其中,第一故障排查路径为预先确定的多条故障排查路径中的任意一条故障排查路径;确定模块,用于确定第一故障排查路径的推荐度信息;其中,推荐度信息包括第一故障排查路径的路径推荐度和/或第一故障排查路径对应的多个故障解决方案中每个故障解决方案的推荐度;生成模块,用于利用第一故障排查路径和推荐度信息,生成推荐方案。
在一个可能的实施例中,第一故障排查路径的多个节点中每个节点均包括告警IP和告警模板,并且推荐度信息包括第一故障排查路径的路径推荐度;
其中,确定模块,具体用于:确定第一故障排查路径的多个节点中任意两个相邻节点的告警IP间的拓扑关系;根据预先确定的第一故障排查路径的相邻节点之间的引发概率和拓扑关系,确定第一故障排查路径的路径推荐度。
在一个可能的实施例中,确定模块,具体用于对引发概率和拓扑关系进行加权求和,得到第一故障排查路径的路径推荐度。
在一个可能的实施例中,第一故障排查路径是以预设的根节点为源头的故障事件的故障排查路径,以及第一故障排查路径的多个节点中每个节点均对应有一个故障,以及推荐度信息包括第一故障解决方案的推荐度,以及第一故障解决方案为多个故障解决方案中的任意一个故障解决方案;
其中,确定模块,具体用于:确定第一故障解决方案所需要解决的目标故障对应的节点和根节点之间的距离;确定第一故障解决方案的可能性得分;其中,可能性得分用于表示第一故障解决方案解决目标故障的可能性;确定第一故障解决方案在预先生成的运维知识图谱中的协作关系得分;其中,协作关系得分用于表示第一故障解决方案和运维知识图谱中除第一故障解决方案之外的的其他故障解决方案协同合作解决故障事件的得分;根据距离、可能性得分和协作关系得分,确定第一故障解决方案的推荐度。
在一个可能的实施例中,确定模块,具体用于对距离、可能性得分和协作关系得分进行加权求和,得到第一故障解决方案的推荐度。
第三方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种生成推荐方案的方法的流程图;
图2示出了本申请实施例提供的一种生成推荐方案的装置的结构框图;
图3示出了本申请实施例提供的一种电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高工程师(尤其是经验较少的工程师)的运维效率,本申请实施例提供了一种生成推荐方案的方案,通过获取第一故障排查路径,其中,第一故障排查路径为预先确定的多条故障排查路径中的任意一条故障排查路径,随后确定第一故障排查路径的推荐度信息,其中,推荐度信息包括第一故障排查路径的路径推荐度和/或第一故障排查路径对应的多个故障解决方案中每个故障解决方案的推荐度,最后利用第一故障排查路径和推荐度信息,生成推荐方案,从而即便是经验较少的工程师也能够根据推荐方案快速地确定产生故障的原因以及修复该故障的能够采用的解决方案,进而能够提高运维效率。
请参见图1,图1示出了本申请实施例提供的一种生成推荐方案的方法的流程图,并且该方法可以由生成推荐方案的装置执行,并且该装置可以是如图2所示的生成推荐方案的装置,以及该装置的具体装置也可根据实际需求来进行设置。例如,该装置可以是客户端,也可以是服务器,也可以是集群等。具体地,该方法包括:
步骤S110,获取第一故障排查路径。其中,第一故障排查路径为预先确定的多条故障排查路径中的任意一条故障排查路径。
应理解,多条故障排查路径的确定方法可根据实际需求来进行设置,本申请实施例并不局限于次。
例如,该多条故障排查路径可以是通过申请号为202011009706.6的根因分析方法、装置、设备及计算机存储介质的方案确定的。
这里需要说明的是,虽然根因分析方法、装置、设备及计算机存储介质的方案也公开了一种故障排查路径的得分的计算方法,但是,本申请实施例计算第一故障排查路径的路径推荐度的计算方法与该方案中的故障排查路径的得分的计算方法是不同的,后续不再赘述。
为了便于理解步骤S110,下面通过具体的实施例来进行描述。
具体地,可通过分析告警模板和告警模板之间的关联关系,确定当前故障事件所包含的多个告警之间的引发关系,以及根据引发关系,可梳理出多条故障排查路径。
应理解,告警模板的获取过程也可以根据实际需求来进行设置,本申请实施例并不局限于次。
例如,可通过申请号为202111086898.5的影响传播关系模型构建和告警影响评估方法、计算机设备、存储介质的方案来获取告警模板。
步骤S120,确定第一故障排查路径的推荐度信息。其中,推荐度信息包括第一故障排查路径的路径推荐度和/或第一故障排查路径对应的多个故障解决方案中每个故障解决方案的推荐度。
应理解,在推荐度信息包括第一故障排查路径的路径推荐度的情况下,确定第一故障排查路径的路径推荐度的具体方法可根据实际需求来进行设置,本申请实施例并不局限于次。
可选地,在第一故障排查路径的多个节点中每个节点均包括一个告警IP(这里需要说明的是IP是指IP地址)和一个告警模板的情况下,可确定第一故障排查路径的多个节点中任意两个相邻节点的告警IP间的拓扑关系,并根据预先确定的第一故障排查路径的相邻节点之间的引发概率和拓扑关系,确定第一故障排查路径的路径推荐度。
应理解,任意两个相邻节点的告警IP间的拓扑关系可以是指由一个节点中的告警IP找到另外一个相邻的节点中的告警IP的关系层数。
例如,在第一故障排查路径为节点A->节点B->节点C的情况下,节点为根节点,以及节点A和节点B是相邻的节点,以及节点C和节点D也是相邻的节点,但是,节点A和节点C并非是相邻的节点。以及,可确定节点A中的告警IP和节点B中的告警IP间的拓扑关系,即节点A中的告警IP需要通过多少关系层数才能找到节点B中的告警IP。对应地,也可确定节点B中的告警IP和节点C中的告警IP间的拓扑关系。其中,->表示前后引发关系。
还应理解,第一故障排查路径的相邻节点之间的引发概率的确定方法也可以根据实际需求来进行设置,本申请实施例并不局限于次。
例如,该引发概率可以是通过申请号为202011009706.6的根因分析方法、装置、设备及计算机存储介质的方案确定的。
还应理解,根据预先确定的第一故障排查路径的相邻节点之间的引发概率和拓扑关系,确定第一故障排查路径的路径推荐度的具体方法也可根据实际需求来进行设置,本申请实施例并不局限于次。
可选地,可通过如下公式计算路径推荐度:
Path_score=F(IP_rel,model_rel);
式中,Path_score表示路径推荐度;F函数表示预设的函数,并且该预设函数可以根据实际需求来进行设置,本申请实施例并不局限于次。例如,F函数可以为加权求和,也可以为协同过滤等;IP_rel表示第一故障排查路径的多个节点中任意两个相邻节点的告警IP间的拓扑关系;model_rel表示第一故障排查路径的相邻节点之间的引发概率的集合。
这里需要说明的是,虽然上面是以两个相邻节点的告警IP间的拓扑关系为例来进行描述的,但本领域的技术人员应当理解,其还可通过其他的方式来表示,只要保证其能够表示两个相邻节点的告警IP间的关系即可,本申请实施例并不局限于次。
例如,还可通过两个相邻节点的告警IP是否是属于同一个集群来表示,若属于同一个集群,则为第一分值,若不属于同一个集群,则为第二分值。以及,二者在一个集群的关系层数就要小于二者属于两个集群,连接各自的交换机但都连接同一个汇聚交换机,前者的得分自然要高于后者,即第一分值高于第二分值。
再例如,还可通过两个相邻节点的告警IP是否是属于同一个计算机上的两个虚拟机的IP来表示,若属于同一个计算机上的两个虚拟机的IP,则为第三分值,若不属于同一个计算机上的两个虚拟机的IP,则为第四分值,并且第三分值高于第四分值。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。
具体地,在当前故障排查路径为“Linux服务器10.18.24.12过去5分钟系统平均负载为18,超过阈值10”--->“Linux服务器10.18.24.17内存使用率为87%,超过阈值80%”的情况下,“Linux服务器10.18.24.12过去5分钟系统平均负载为18,超过阈值10”为用于表示第一故障的第一节点,以及第一节点中的告警IP为10.18.24.12,以及第一节点中的第一告警模板为“Linux服务器XX过去5分钟系统平均负载为XX,超过阈值10”,即该第一告警模板为通过隐藏起第一节点中的告警IP和负载值后得到的,即第一节点中“X”表示待填入值。对应地,也可确定“Linux服务器10.18.24.17内存使用率为87%,超过阈值80%”为用于表示第二故障的第二节点,并可确定第二节点中的告警IP和告警模板。
随后,可计算第一节点中的告警IP和第二节点中的告警IP之间的拓扑关系,并根据该拓扑关系和前后两个告警模板之间的引发概率,计算第一故障排查路径的路径推荐度。
这里需要说明的是,每一个故障都只有一个根因,但是在进行故障排查路径推荐时会有多个根因的原因有两个:真正的根因未被告警描述以及挖掘告警模板引发关系的方法为无监督学习。前者其实是在说明监控的盲区,监控是只能监控可以明确的指标,如CPU使用率、内存使用率等,但有些现象是没有任何指标来直接表示,如服务器宕机。没有任何指标能够直接表明服务器宕机,即便是由于服务器宕机导致CPU使用率和内存使用率等指标为0,但也只能间接说明,更何况二者为零不一定就是服务器宕机;而后者的出现是由于监督学习会耗费大量的人力和物力,无监督学习则需要人工定期校验。虽然存在这两个原因无法挖掘真正的根因,但是结合合理和有效的推荐结果,工程师再依据自身的经验是可以有效定位根因。
还应理解,在推荐度信息包括第一故障解决方案的推荐度的情况下,确定第一故障排查路径对应的多个故障解决方案中每个故障解决方案的推荐度的具体方法也可根据实际需求来进行设置,本申请实施例并不局限于次。
可选地,在第一故障排查路径是以预设的根节点为源头的故障事件的故障排查路径,以及第一故障排查路径的多个节点中每个节点均对应有一个故障,以及第一故障解决方案为多个故障解决方案中的任意一个故障解决方案的情况下,确定第一故障解决方案所需要解决的目标故障对应的节点和根节点之间的距离,以及确定第一故障解决方案的可能性得分,其中,可能性得分用于表示第一故障解决方案解决目标故障的可能性,以及确定第一故障解决方案在预先生成的运维知识图谱中的协作关系得分,其中,协作关系得分用于表示第一故障解决方案和运维知识图谱中除第一故障解决方案之外的的其他故障解决方案协同合作解决故障事件的得分,以及根据距离、可能性得分和协作关系得分,确定第一故障解决方案的推荐度。
应理解,确定第一故障路径的多个故障解决方案的具体方法以及运维知识图谱的构建方法等均可根据实际需求来进行设置,本申请实施例并不局限于次。
例如,可通过由申请号为202111457864.2的运维知识图谱构建及运维的方法、装置及计算机设备、存储介质的方案来构建记录有多个历史的故障解决方案的运维知识图谱,并通过该运维知识图谱确定第一故障路径的多个故障解决方案。
还应理解,第一故障解决方案所需要解决的目标故障对应的节点和根节点之间的距离的具体确定方法可根据实际需求来进行设置,本申请实施例并不局限于次。
例如,在第一故障排查路径为节点A->节点B->节点C的情况下,第一故障解决方案所需要解决的目标故障对应的节点为节点C,则节点C和根节点A之间的距离可以为2,并且该距离2表示节点C通过2次引发关系就可到达根节点A。
这里需要说明的是,除了上述引发关系确定距离的方式之外,还可通过IP来表示,本申请实施例并不局限于次。
还应理解,确定第一故障解决方案的可能性得分的具体方式可根据实际需求来进行设置,本申请实施例并不局限于次。
例如,通过该运维知识图谱可确定该第一故障解决方案用于解决目标故障10次,以及还可确定成功解决该目标故障3次,则该可能性得分为3/10。
还应理解,确定第一故障解决方案在预先生成的运维知识图谱中的协作关系得分的具体方式可根据实际需求来进行设置,本申请实施例并不局限于次。
例如,在其他的故障解决方案包括第二故障解决方案和第三故障解决方案的情况下,通过该运维知识图谱可确定该第一故障解决方案、第二故障解决方案和第三故障解决方案共解决100种告警,并可确定第一故障排查路径对应有10次告警,以及100种告警和10次告警只有3次告警是相同的,则可确定协作关系得分为3/100。
还应理解,根据距离、可能性得分和协作关系得分,确定第一故障解决方案的推荐度的具体方法也可根据实际需求来进行设置,本申请实施例并不局限于次。
例如,可通过如下公式计算第一故障解决方案的推荐度:
solution_score=G(root_distance,score_model,rel_score);
式中,solution_score表示第一故障解决方案的推荐度;F函数表示预设的函数,并且该函数可以根据实际需求来进行设置,本申请实施例并不局限于次。例如,F函数可以为加权求和,也可以为协同过滤等;root_distance表示所述第一故障解决方案所需要解决的目标故障对应的节点和所述根节点之间的距离;score_model表示第一故障解决方案的可能性得分;rel_score表示所述第一故障解决方案在预先生成的运维知识图谱中的协作关系得分。
以及,根据上述该公式就可以计算出所有故障解决方案的推荐度,从公式可以看出,故障排查路径的根因的解决方案不一定是得分最高的故障解决方案,因为该根因可能只出现在一条故障排查路径,而非根因的告警节点可能出现在多条推荐路径中,因此解决它可能影响的会更广,更有助于解决所有告警。
为了便于理解步骤S120,下面通过具体的方式来进行描述。
具体地,故障排查路径的推荐可以辅助运维工程师定位产生当前故障的根因,但是对于经验尚少的运维工程师可能仍然无法采用有效的解决办法。从而,可充分利用历史工单以及企业知识库的积累,依据运维知识图谱中告警模板与解决方案之间的关系,合理有效的进行解决方案的输出。这里本申请既可以对每个告警都输出各自的解决方案推荐的结果,也可以依据故障排查路径推荐的结果输出故障级的解决方案推荐结果,这里详细介绍后者。首先明确其目的是解决当前的故障,也就是解决故障中的所有告警,那么我们就要把所有可能的解决方案放在一起进行推荐,也就是计算故障解决方案的推荐度或者推荐得分。
步骤S130,利用第一故障排查路径和推荐度信息,生成推荐方案。
具体地,可以将每个故障排查路径及其路径推荐度以及每个故障排查路径对应的多个故障解决方案的推荐度推荐给工程师,以便于工程师根据该推荐方案,快速地确定产生故障的原因以及修复该故障的能够采用的解决方案。其中,路径推荐度用于确定产生故障的原因;故障解决方案的推荐度用于确定修复该故障的能够采用的解决方案。
因此,借助于上述技术方案,本申请实施例能够提高运维效率。
应理解,上述生成推荐方案的方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,该变形之后的方案也属于本申请的保护范围。
请参见图2,图2示出了本申请实施例提供的一种生成推荐方案的装置200的结构框图。应理解,该装置200能够执行上述方法实施例中的各个步骤,该装置200具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置200包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置200的操作系统(operatingsystem,OS)中的软件功能模块。具体地,该装置包括:
获取模块210,用于获取第一故障排查路径;其中,第一故障排查路径为预先确定的多条故障排查路径中的任意一条故障排查路径;
确定模块220,用于确定第一故障排查路径的推荐度信息;其中,推荐度信息包括第一故障排查路径的路径推荐度和/或第一故障排查路径对应的多个故障解决方案中每个故障解决方案的推荐度;
生成模块230,用于利用第一故障排查路径和推荐度信息,生成推荐方案。
在一个可能的实施例中,第一故障排查路径的多个节点中每个节点均包括告警IP和告警模板,并且推荐度信息包括第一故障排查路径的路径推荐度;
其中,确定模块220,具体用于:确定第一故障排查路径的多个节点中任意两个相邻节点的告警IP间的拓扑关系;根据预先确定的第一故障排查路径的相邻节点之间的引发概率和拓扑关系,确定第一故障排查路径的路径推荐度。
在一个可能的实施例中,确定模块220,具体用于对引发概率和拓扑关系进行加权求和,得到第一故障排查路径的路径推荐度。
在一个可能的实施例中,第一故障排查路径是以预设的根节点为源头的故障事件的故障排查路径,以及第一故障排查路径的多个节点中每个节点均对应有一个故障,以及推荐度信息包括第一故障解决方案的推荐度,以及第一故障解决方案为多个故障解决方案中的任意一个故障解决方案;
其中,确定模块220,具体用于:确定第一故障解决方案所需要解决的目标故障对应的节点和根节点之间的距离;确定第一故障解决方案的可能性得分;其中,可能性得分用于表示第一故障解决方案解决目标故障的可能性;确定第一故障解决方案在预先生成的运维知识图谱中的协作关系得分;其中,协作关系得分用于表示第一故障解决方案和运维知识图谱中除第一故障解决方案之外的的其他故障解决方案协同合作解决故障事件的得分;根据距离、可能性得分和协作关系得分,确定第一故障解决方案的推荐度。
在一个可能的实施例中,确定模块220,具体用于对距离、可能性得分和协作关系得分进行加权求和,得到第一故障解决方案的推荐度。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
请参见图3,图3示出了本申请实施例提供的一种电子设备300的结构框图。如图3所示,电子设备300可以包括处理器310、通信接口320、存储器330和至少一个通信总线340。其中,通信总线340用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口320用于与其他节点设备进行信令或数据的通信。处理器310可以是一种集成电路芯片,具有信号的处理能力。上述的处理器310可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、现场可编程逻辑门阵列(Field ProgrammableGate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器310也可以是任何常规的处理器等。
存储器330可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。存储器330中存储有计算机可读取指令,当计算机可读取指令由处理器310执行时,电子设备300可以执行上述方法实施例中的各个步骤。
电子设备300还可以包括存储控制器、输入输出单元、音频单元、显示单元。
存储器330、存储控制器、处理器310、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线340实现电性连接。处理器310用于执行存储器330中存储的可执行模块,例如电子设备300包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户输入数据实现用户与服务器(或本地终端)的交互。输入输出单元可以是,但不限于,鼠标和键盘等。
音频单元向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元在电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
可以理解,图3所示的结构仅为示意,电子设备300还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
本申请提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例所述的方法。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种生成推荐方案的方法,其特征在于,包括:
获取第一故障排查路径;其中,所述第一故障排查路径为预先确定的多条故障排查路径中的任意一条故障排查路径;
确定所述第一故障排查路径的推荐度信息;其中,所述推荐度信息包括所述第一故障排查路径的路径推荐度和/或所述第一故障排查路径对应的多个故障解决方案中每个故障解决方案的推荐度;
利用所述第一故障排查路径和所述推荐度信息,生成推荐方案。
2.根据权利要求1所述的方法,其特征在于,所述第一故障排查路径的多个节点中每个节点均包括告警IP和告警模板,并且所述推荐度信息包括所述第一故障排查路径的路径推荐度;
其中,所述确定所述第一故障排查路径的推荐度信息,包括:
确定所述第一故障排查路径的多个节点中任意两个相邻节点的告警IP间的拓扑关系;
根据预先确定的所述第一故障排查路径的相邻节点之间的引发概率和所述拓扑关系,确定所述第一故障排查路径的路径推荐度。
3.根据权利要求2所述的方法,其特征在于,所述根据预先确定的第一故障排查路径的相邻节点之间的引发概率和所述拓扑关系,确定所述第一故障排查路径的路径推荐度,包括:
对所述引发概率和所述拓扑关系进行加权求和,得到所述第一故障排查路径的路径推荐度。
4.根据权利要求1所述的方法,其特征在于,所述第一故障排查路径是以预设的根节点为源头的故障事件的故障排查路径,以及所述第一故障排查路径的多个节点中每个节点均对应有一个故障,以及所述推荐度信息包括所述第一故障解决方案的推荐度,以及所述第一故障解决方案为所述多个故障解决方案中的任意一个故障解决方案;
其中,所述确定所述第一故障排查路径的推荐度信息,包括:
确定所述第一故障解决方案所需要解决的目标故障对应的节点和所述根节点之间的距离;
确定所述第一故障解决方案的可能性得分;其中,所述可能性得分用于表示所述第一故障解决方案解决所述目标故障的可能性;
确定所述第一故障解决方案在预先生成的运维知识图谱中的协作关系得分;其中,所述协作关系得分用于表示所述第一故障解决方案和所述运维知识图谱中除所述第一故障解决方案之外的的其他故障解决方案协同合作解决所述故障事件的得分;
根据所述距离、所述可能性得分和所述协作关系得分,确定所述第一故障解决方案的推荐度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述距离、所述可能性得分和所述协作关系得分,确定所述第一故障解决方案的推荐度,包括:
对所述所述距离、所述可能性得分和所述协作关系得分进行加权求和,得到所述第一故障解决方案的推荐度。
6.一种生成推荐方案的装置,其特征在于,包括:
获取模块,用于获取第一故障排查路径;其中,所述第一故障排查路径为预先确定的多条故障排查路径中的任意一条故障排查路径;
确定模块,用于确定所述第一故障排查路径的推荐度信息;其中,所述推荐度信息包括所述第一故障排查路径的路径推荐度和/或所述第一故障排查路径对应的多个故障解决方案中每个故障解决方案的推荐度;
生成模块,用于利用所述第一故障排查路径和所述推荐度信息,生成推荐方案。
7.根据权利要求6所述的装置,其特征在于,所述第一故障排查路径的多个节点中每个节点均包括告警IP和告警模板,并且所述推荐度信息包括所述第一故障排查路径的路径推荐度;
其中,所述确定模块,具体用于:确定所述第一故障排查路径的多个节点中任意两个相邻节点的告警IP间的拓扑关系;根据预先确定的所述第一故障排查路径的相邻节点之间的引发概率和所述拓扑关系,确定所述第一故障排查路径的路径推荐度。
8.根据权利要求7所述的装置,其特征在于,所述所述确定模块,具体用于对所述引发概率和所述拓扑关系进行加权求和,得到所述第一故障排查路径的路径推荐度。
9.根据权利要求6所述的装置,其特征在于,所述第一故障排查路径是以预设的根节点为源头的故障事件的故障排查路径,以及所述第一故障排查路径的多个节点中每个节点均对应有一个故障,以及所述推荐度信息包括所述第一故障解决方案的推荐度,以及所述第一故障解决方案为所述多个故障解决方案中的任意一个故障解决方案;
其中,所述确定模块,具体用于:确定所述第一故障解决方案所需要解决的目标故障对应的节点和所述根节点之间的距离;确定所述第一故障解决方案的可能性得分;其中,所述可能性得分用于表示所述第一故障解决方案解决所述目标故障的可能性;确定所述第一故障解决方案在预先生成的运维知识图谱中的协作关系得分;其中,所述协作关系得分用于表示所述第一故障解决方案和所述运维知识图谱中除所述第一故障解决方案之外的的其他故障解决方案协同合作解决所述故障事件的得分;根据所述距离、所述可能性得分和所述协作关系得分,确定所述第一故障解决方案的推荐度。
10.根据权利要求9所述的装置,其特征在于,所述确定模块,具体用于对所述所述距离、所述可能性得分和所述协作关系得分进行加权求和,得到所述第一故障解决方案的推荐度。
CN202210152275.1A 2022-02-18 2022-02-18 一种生成推荐方案的方法和装置 Pending CN114358655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210152275.1A CN114358655A (zh) 2022-02-18 2022-02-18 一种生成推荐方案的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210152275.1A CN114358655A (zh) 2022-02-18 2022-02-18 一种生成推荐方案的方法和装置

Publications (1)

Publication Number Publication Date
CN114358655A true CN114358655A (zh) 2022-04-15

Family

ID=81093453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210152275.1A Pending CN114358655A (zh) 2022-02-18 2022-02-18 一种生成推荐方案的方法和装置

Country Status (1)

Country Link
CN (1) CN114358655A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880151A (zh) * 2022-04-25 2022-08-09 北京科杰科技有限公司 人工智能运维方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880151A (zh) * 2022-04-25 2022-08-09 北京科杰科技有限公司 人工智能运维方法
CN114880151B (zh) * 2022-04-25 2023-01-13 北京科杰科技有限公司 人工智能运维方法

Similar Documents

Publication Publication Date Title
CN110309009B (zh) 基于情境的运维故障根因定位方法、装置、设备及介质
US10462027B2 (en) Cloud network stability
US11042476B2 (en) Variability system and analytics for continuous reliability in cloud-based workflows
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
US20170294112A1 (en) Alarm causality templates for network function virtualization
CN106663041B (zh) 从系统故障恢复基于云的服务的易用性的方法及装置
US9860109B2 (en) Automatic alert generation
Bogojeska et al. Classifying server behavior and predicting impact of modernization actions
US11314609B2 (en) Diagnosing and remediating errors using visual error signatures
CN111708682B (zh) 数据预测方法、装置、设备及存储介质
US11645172B1 (en) Managing data center failure events
CN112380089A (zh) 一种数据中心监控预警方法及系统
WO2019061364A1 (zh) 故障分析方法及相关设备
US11410049B2 (en) Cognitive methods and systems for responding to computing system incidents
CN114358655A (zh) 一种生成推荐方案的方法和装置
CN108880838B (zh) 业务故障的监控方法及装置、计算机设备及可读介质
CN104765672A (zh) 错误码监控方法、装置及设备
CN111901156B (zh) 一种监控故障的方法及装置
US11212162B2 (en) Bayesian-based event grouping
CN114327988B (zh) 一种可视化网络故障关系确定方法和装置
US11418411B1 (en) Data center issue resolution prioritization
CN113835961A (zh) 告警信息监控方法、装置、服务器及存储介质
US11210159B2 (en) Failure detection and correction in a distributed computing system
JP2017102716A (ja) 情報処理装置及び方法
CN116057902A (zh) 服务的健康指数

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination