CN112804072B - 一种故障信息收集方法、装置、目标电子设备及存储介质 - Google Patents

一种故障信息收集方法、装置、目标电子设备及存储介质 Download PDF

Info

Publication number
CN112804072B
CN112804072B CN201911113658.2A CN201911113658A CN112804072B CN 112804072 B CN112804072 B CN 112804072B CN 201911113658 A CN201911113658 A CN 201911113658A CN 112804072 B CN112804072 B CN 112804072B
Authority
CN
China
Prior art keywords
host
fault information
cluster
type
target electronic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911113658.2A
Other languages
English (en)
Other versions
CN112804072A (zh
Inventor
陈晓帆
张穗辉
王磊
古亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201911113658.2A priority Critical patent/CN112804072B/zh
Publication of CN112804072A publication Critical patent/CN112804072A/zh
Application granted granted Critical
Publication of CN112804072B publication Critical patent/CN112804072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/133Protocols for remote procedure calls [RPC]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本申请公开了一种故障信息收集方法,应用于目标电子设备,该目标电子设备中存储有集群内每种类型的主机与每种故障信息收集操作之间的对应关系,本申请通过预先将(每种类型的主机与每种故障信息收集操作之间的)对应关系存储在目标电子设备中,使得在通过该目标电子设备收集全局故障信息时,可以利用该对应关系控制每台主机执行与其所属主机类型相匹配的故障信息收集操作,从而只需“一键”(或一个操作)就可以完成让每台主机收集其故障信息的目的,十分方便快捷,故障定位时间也通过自动化执行操作得以尽可能的缩短。本申请还同时公开了一种故障信息收集装置、目标电子设备及可读存储介质,具有上述有益效果。

Description

一种故障信息收集方法、装置、目标电子设备及存储介质
技术领域
本申请涉及主机信息收集技术领域,特别涉及一种故障信息收集方法、装置、目标电子设备及可读存储介质。
背景技术
随着互联网技术的发展、企业规模的不断扩大,企业网络的规模也随着部门的增多、精细化分工、业务增加逐渐扩大,成为一个庞大的集群。
集群内主机的类型受管理方式、部门规定、采购时间等多因素影响,通常是不统一的,可能包括采购自不同厂商、相同厂商的不同系列、相同系列的不同型号等,而通过主机执行的各式操作与主机类型往往呈现强耦合的特性,即不同主机类型的主机执行用于实现相同或类似目的的方式也往往不同。在这种情况下,想要获取到集群内各主机的信息会十分繁琐和耗时,往往需要人工分别针对不同类型的主机下发其可识别的信息获取指令。在多种类型的信息中,用于定位故障的故障信息尤为重要(故障信息的收集速度与集群可用性密切相关),应当理解的是,尽可能的缩短故障定位时间对任何业务集群都是十分重要的。
因此,针对包括多主机类型的集群,如何提供一种更简单、更快捷、故障定位时间更短的故障信息收集方法,是本领域技术人员亟待解决的问题。
发明内容
本申请目的是提供一种故障信息收集方法、故障信息收集装置、目标电子设备及可读存储介质,旨在可通过更简单快捷的方式,以更短的故障定位时间收集到集群内各主机的故障信息。
为实现上述目的,本申请首先提供了一种故障信息收集方法,应用于目标电子设备,所述目标电子设备中存储有集群内每种类型的主机与每种故障信息收集操作之间的对应关系,该方法包括:
接收传入的全局故障信息收集指令;
根据所述全局故障信息收集指令,按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作;
接收每台所述主机返回的故障信息,以得到全局故障信息。
可选的,当所述目标电子设备为集群内任意一台主机时,按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作,包括:
通过RPC协议获取每台其它主机的主机类型;其中,集群内任意两台主机之间均预先基于RPC协议建立有数据交互通路;
根据所述对应关系生成与每个所述主机类型对应的执行指令;
将每个所述执行指令通过所述RPC协议分别下发给每台相应的其它主机,以使每台所述其它主机通过执行与接收到的执行指令对应的故障信息收集操作得到所述故障信息。
可选的,当所述目标电子设备为集群内任意一台非主机设备时,按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作,包括:
通过连接于每台所述主机的硬件端口获取每台所述主机的主机类型;
根据所述对应关系生成与每个所述主机类型对应的执行指令;
将每个所述执行指令通过各所述硬件端口分别下发给每台相应的主机,以使每台所述主机通过执行与接收到的执行指令对应的故障信息收集操作得到所述故障信息。
可选的,当所述非主机设备为集群内任意一台交换机时,通过连接于每台所述主机的硬件端口获取每台所述主机的主机类型,包括:
根据网络拓扑结构确定接入交换机;其中,每台所述主机均通过所述硬件端口连接于所述接入交换机;
控制所述接入交换机通过所述硬件端口获取每台所述主机的主机类型。
可选的,在按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作之前,还包括:
将所述对应关系同步至集群内每个所述目标电子设备。
可选的,当采用选择同步方式同步所述对应关系时,将所述对应关系同步至集群内每个所述目标电子设备,包括:
将所述对应关系根据所述故障信息收集操作的层级进行分组;
将不同组对应的部分对应关系分别同步至相应组的目标电子设备。
可选的,该故障信息收集方法还包括:
根据所述全局故障信息生成全局故障分析报告;
将所述故障分析报告按可视化模板进行处理,得到可视故障分析报告。
为实现上述目的,本申请还提供了一种故障信息收集装置,应用于目标电子设备,所述目标电子设备中存储有集群内每种类型的主机与每种故障信息收集操作之间的对应关系,该装置包括:
指令接收单元,用于接收传入的全局故障信息收集指令;
收集操作控制执行单元,用于根据所述全局故障信息收集指令,按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作;
信息接收及整合单元,用于接收每台所述主机返回的故障信息,以得到全局故障信息。
可选的,当所述目标电子设备为集群内任意一台主机时,所述收集操作控制执行单元包括:
RPC主机类型获取子单元,用于通过RPC协议获取每台其它主机的主机类型;其中,集群内任意两台主机之间均预先基于RPC协议建立有数据交互通路;
执行指令第一生成子单元,用于根据所述对应关系生成与每个所述主机类型对应的执行指令;
RPC下发子单元,用于将每个所述执行指令通过所述RPC协议分别下发给每台相应的其它主机,以使每台所述其它主机通过执行与接收到的执行指令对应的故障信息收集操作得到所述故障信息。
可选的,当所述目标电子设备为集群内任意一台非主机设备时,所述收集操作控制执行单元包括:
硬件端口主机类型获取子单元,用于通过连接于每台所述主机的硬件端口获取每台所述主机的主机类型;
执行指令第二生成子单元,用于根据所述对应关系生成与每个所述主机类型对应的执行指令;
硬件端口下发子单元,用于将每个所述执行指令通过各所述硬件端口分别下发给每台相应的主机,以使每台所述主机通过执行与接收到的执行指令对应的故障信息收集操作得到所述故障信息。
可选的,当所述非主机设备为集群内任意一台交换机时,所述硬件端口主机类型获取子单元包括:
接入交换机确定模块,用于根据网络拓扑结构确定接入交换机;其中,每台所述主机均通过所述硬件端口连接于所述接入交换机;
主机类型获取模块,用于控制所述接入交换机通过所述硬件端口获取每台所述主机的主机类型。
可选的,该故障信息收集装置还包括:
对应关系同步单元,用于在按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作之前,将所述对应关系同步至集群内每个所述目标电子设备。
可选的,当采用选择同步方式同步所述对应关系时,所述对应关系同步单元,包括:
对应关系分组子单元,用于将所述对应关系根据所述故障信息收集操作的层级进行分组;
选择同步子单元,用于将不同组对应的部分对应关系分别同步至相应组的目标电子设备。
可选的,该故障信息收集装置还包括:
全局故障分析报告生成单元,用于根据所述全局故障信息生成全局故障分析报告;
可视化处理单元,用于将所述故障分析报告按可视化模板进行处理,得到可视故障分析报告。
为实现上述目的,本申请还提供了一种目标电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述内容所描述的故障信息收集方法。
为实现上述目的,本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述内容所描述的故障信息收集方法。
本申请提供了一种应用于目标电子设备的故障信息收集方法,所述目标电子设备中存储有集群内每种类型的主机与每种故障信息收集操作之间的对应关系,该方法包括:接收传入的全局故障信息收集指令;根据所述全局故障信息收集指令,按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作;接收每台所述主机返回的故障信息,以得到全局故障信息。
显然,本申请通过预先将(每种类型的主机与每种故障信息收集操作之间的)对应关系存储在目标电子设备中,使得在通过该目标电子设备收集全局故障信息时,可以利用该对应关系控制每台主机执行与其所属主机类型相匹配的故障信息收集操作,从而只需“一键”(或一个操作)就可以完成让每台主机收集其故障信息的目的,十分方便快捷,故障定位时间也通过自动化执行操作得以尽可能的缩短。
本申请同时还提供了一种故障信息收集装置、目标电子设备及可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种故障信息收集方法的流程图;
图2为本申请实施例提供的故障信息收集方法中当目标电子设备为集群任意主机时一种故障信息收集操作执行方法的流程图;
图3为本申请实施例提供的一种与图2所示方法对应的各主机之间的连接关系示意图;
图4为本申请实施例提供的故障信息收集方法中当目标电子设备为集群任意非主机设备时一种故障信息收集操作执行方法的流程图;
图5为本申请实施例提供的故障信息收集方法中当目标电子设备为集群任意交换机时一种故障信息收集操作执行方法的流程图;
图6为本申请实施例提供的一种与图5所示方法对应的集群内的设备拓扑示意图;
图7为本申请实施例提供的一种故障信息收集装置的结构框图。
具体实施方式
本申请目的是提供一种故障信息收集方法、故障信息收集装置、目标电子设备及可读存储介质,旨在可通过更简单快捷的方式,以更短的故障定位时间收集到集群内各主机的故障信息。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例一
请参见图1,图1为本申请实施例提供的一种故障信息收集方法的流程图,需要说明的是,本实施例的执行主体均为目标电子设备,该目标电子设备亦可以为目标集群中的任意可执行下述步骤的电子设备,可简单的根据是否为主机设备(业务主机)分为主机设备和非主机设备,包括以下步骤:
S101:接收传入的全局故障信息收集指令;
本步骤旨在由目标电子设备接收传入的全局故障信息收集指令,该全局故障信息收集指令的目的是通过该指令“一键式”的收集到集群内所有主机的故障信息,即全局故障信息。
S102:根据全局故障信息收集指令,按照对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作;
需要说明的是,该目标电子设备中预先存储有集群内每种类型的主机与每种故障信息收集操作之间的对应关系,举例来说,假定A类型的主机只能通过X逻辑操作完成自身的故障信息收集、B类型主机只能通过Y逻辑操作完成自身的故障信息收集,那么该对应关系将表现为A—X,B—Y。
其中,主机类型的不同可以由主机设备的系列差异、型号差异、操作系统差异、系统运行环境差异等各种影响因素导致,具体分类方式也灵活多样,但此处仅是说明该对应关系是不同主机类型与其相应故障信息收集操作之间的关系,不对采用基于何种分类方式做具体限定。
在S101的基础上,本步骤旨在由目标电子设备根据接收到的全局故障信息收集指令,按照自身存储的对应关系控制每台主机分别执行与所属主机类型相匹配的故障信息收集操作,即该对应关系在本步骤的作用是让目标电子设备明确哪种故障信息收集操作是与哪种类型的主机相匹配的,进而好控制每种类型的主机执行与其主机类型匹配的故障信息收集操作,从而完成故障信息的收集。
具体的,根据是否选用任意主机设备作为本申请的目标电子设备,实现“按照对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作”这一目的的方式也可以存在不同,即选择与目标电子设备具体表现的设备类型更匹配、更合适的实现方式。
当目标电子设备为集群内的任意主机,在本方案中就需要接收到全局故障信息收集指令的主机充当主控机控制着与自身同属同一层级的其它主机来执行故障信息收集操作。而处于同一层次的主机设备之间要实现这一目的,在不同主机设备之间没有建立直接通讯通路时,就需要频繁由上层的非主机设备(例如各层级的交换机)进行指令的中转,否则就需要预先建立起每两个主机设备之间的直接通讯通路。相比于靠层层中转的方式传达控制指令,无需上层非主机设备中转、可直接传输控制指令给相同层次的其它主机的方式,无疑在实际使用中能够尽可能的缩短耗时。
当目标电子设备为集群内的任意非主机设备时,由于目标主要针对的是主机,例如交换机等非主机设备往往与主机存在有现成的通讯通路(通常为通过以太网线连接的两者的硬件端口),且相较于主机设备,诸如交换机等非主机设备数量更少,因此当其作为目标电子设备时,需要保存该对应关系的设备数量得以显著减少,且可以尽可能的利用现成的数据传输链路,减少主机设备作为目标电子设备在完成上述操作时对运行的正常业务的影响。
其中,“按照对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作”在具体实现方面上,还可以根据控制指令中包含信息的多少分为两种情况:一种是由目标电子设备向每台其它主机下发相同的执行指令,以使每台接收到该执行指令的主机执行默认的故障信息收集操作,此种情况仅建立在主机预先将与自身主机类型匹配的故障信息收集操作设置为默认应执行的操作的前提下,通常为实现这一目的需要额外对每台主机进行默认操作的配置,同时由于下发的控制指令相同,不适合需要向不同类型的主机下发不同指令或更具体的子项指令的目的;另一种则是由目标电子设备向不同类型的主机下发不同的执行指令,该执行指令中写明了接收到该指令的主机应如何执行的信息,使得接收到该执行指令的主机只需要按信息执行即可,相较于上一种实现方式,目标电子设备要承担更多的处理量,但相对的可免除对大多数其它主机进行默认操作的配置。
上述两种方式中,都允许仅将该对应关系预存在极少数的目标电子设备中,其它主机保持现有状态即可,使得改造量较小。但为了尽可能的提升冗余性,还可以通过同步的方式将该对应关系存储至更多的同类型设备(当目标电子设备为主机设备,就可以存储至其它主机),甚至是每台同类型设备,使得任意同类型设备都可以作为全局故障信息收集操作的接收设备,来执行这一操作。
一种包括但不限于的实现方式为:在按照对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作之前,将对应关系同步至集群内每个目标电子设备。进一步的,根据对应关系在同步时是否需要全部同步,以及将哪部分同步为哪些可以作为目标电子设备的设备,可进一步的将同步方式区分为全部同步方式和选择同步方式,当采用选择同步方式同步对应关系时,将对应关系同步至集群内每个目标电子设备时,包括:
将对应关系根据故障信息收集操作的层级进行分组;
将不同组对应的部分对应关系分别同步至相应组的目标电子设备。
其中,故障信息收集操作的层级在此处指不同深度或是否为某一大项下的某一小项,例如主机故障信息下包括有CPU故障信息、显卡故障信息等子项,CPU故障信息下包括有第一处理核心故障信息、第二处理核心故障信息等,那么可以根据这些层次的划分将对应部分的对应关系同步至不同的目标电子设备中,以在实际执行时也根据实际指令的层级选取相应的目标电子设备来作为主控设备实现这一目的。
S103:接收每台主机返回的故障信息,以得到全局故障信息。
在S102的基础上,本步骤旨在由目标电子设备接收每台主机返回的其收集到的自身的故障信息,并通过目标电子设备进行汇总、整合等操作以得到全局故障信息。
进一步的,为了更好的将整合得到的全局故障信息中的信息进行展示,还可以通过可视化技术对其中包含的信息进行可视化处理。其中一种包括但不限于的实现方式可以为:
根据全局故障信息生成全局故障分析报告;
用于将故障分析报告按可视化模板进行处理,得到可视故障分析报告。
其中,可视化模板包括但不限于扇形分布图、柱形统计图、折线统计图等多种便于可视化展现的方式。
基于上述技术方案,本实施例通过预先将(每种类型的主机与每种故障信息收集操作之间的)对应关系存储在目标电子设备中,使得在通过该目标电子设备收集全局故障信息时,可以利用该对应关系控制每台主机执行与其所属主机类型相匹配的故障信息收集操作,从而只需“一键”(或一个操作)就可以完成让每台主机收集其故障信息的目的,十分方便快捷,故障定位时间也通过自动化执行操作得以尽可能的缩短。
需要说明的是,上述的实施例一对实现本方案目的的基本方案进行了介绍,基于实施例一给出的基础方案,本申请还将通过后续的其它实施例对实施例一的一些步骤给出在具体应用场景下的一种更具体的实现方式或优选的改进方案,后续涉及与上述实施例一种相同步骤或相应步骤之间的说明可以互相参照,也应具有相同的有益效果,后续实施例将不再赘述重复的步骤。
实施例二
请参见图2,图2为本申请实施例提供的故障信息收集方法中当目标电子设备为集群任意主机时一种故障信息收集操作执行方法的流程图。在实施例一的基础上,本实施例针对S102,具体针对当目标电子设备为集群任意主机时,给出了一种如何通过与其它主机之间存在的直接通讯通路来完成执行指令的传输,从而完成控制执行故障信息收集操作的具体方案,包括以下步骤:
S201:通过RPC协议获取每台其它主机的主机类型;
在本实施例中,集群中每两台主机设备之间预先通过RPC协议建立有数据传输通路,图3以四台主机为例示出了建立起的数据传输通路的示意图。
RPC,英文全称为:Remote Procedure Call,中文名为:远程过程调用,其本质是一个计算机通信协议,该协议允许于一台计算机的程序调用另一台计算机的子程序,且无需额外地为这个交互作用编程。它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的思想。
应当理解的是,通过RPC协议作为主控机的主机,可以通过让每台其它主机运行其自身的主机类型信息收集操作来完成主机类型收集的操作,并通过返回该主控机来完成获取到每台其它主机的主机类型的目的。
S202:根据对应关系生成与每个主机类型对应的执行指令;
S203:将每个执行指令通过RPC协议分别下发给每台相应的其它主机,以使每台其它主机通过执行与接收到的执行指令对应的故障信息收集操作得到故障信息。
在S202根据对应关系生成与每个主机类型对应的执行指令之后,本步骤再通过RPC协议将生成的执行指令下发给每台相应的其它主机,以使每台其它主机通过执行与接收到的执行指令对应的故障信息收集操作得到故障信息。
需要说明的是,本实施例选用RPC协议给出了一种具体的实现过程,当然也可以换用其它可实现与此处RPC协议相同或类似效果的其它技术,此处并不做具体限定。
在实施例一的基础上,本实例数通过RPC协议构建了同层次不同主机设备之间的直接通讯通路,可直接以最短的路径传输执行指令,尽可能的减少了耗时。
实施例三
请参见图4,图4为本申请实施例提供的故障信息收集方法中当目标电子设备为集群任意非主机设备时一种故障信息收集操作执行方法的流程图。在实施例一的基础上,本实施例针对S102,具体针对当目标电子设备为集群任意非主机设备时,给出了一种如何通过非主机设备与主机之间存在的现成通讯通路来完成执行指令的传输,从而完成控制执行故障信息收集操作,包括如下步骤:
S301:通过连接于每台主机的硬件端口获取每台主机的主机类型;
当目标电子设备为集群内的非主机设备时,为实现像S201一样获取到每台主机的主机类型的目的,本实施例是通过主机设备与非主机设备之间所连接的硬件端口(例如交换机端口)来实现交换机向主机下发主机类型获取命令的。由于基于硬件端口构建的数据传输通路是现成的,因此可使得现成的数据传输通路得以充分利用。
S302:根据对应关系生成与每个主机类型对应的执行指令;
S303:将每个执行指令通过各硬件端口分别下发给每台相应的主机,以使每台主机通过执行与接收到的执行指令对应的故障信息收集操作得到所述故障信息。
区别于实施例二中S203中通过RPC协议完成执行指令的下发,本实施例中由于使用非主机设备与主机设备之间构建连接使用的现成硬件端口,因此只执行指令的下发也是通过硬件端口来完成,可以使改造量尽可能的少。
实施例四
在实施例三的基础上,本申请具体针对当目标电子设备为非主机设备中常见的交换机的情况,进一步给出一种具体的解决方案,请参见如图5所示的流程图:
S401:根据网络拓扑结构确定接入交换机;
由于主机设备都处于接入层,因此当目标电子设备为集群中任意层级的交换机时,均可以首先通过网络拓扑结果确定与主机设备最接近的接入交换机。图6示出了一种常见的主机设备与各层级交换机构成的网络拓扑示意图,可以看出,接入交换机是与处于接入层的主机设备建立最直接连接的设备,汇聚交换机和核心交换机则依次位于接入交换机的上层。
S402:控制接入交换机通过硬件端口获取每台主机的主机类型;
在S401的基础上,本步骤旨在由作为目标电子设备的交换机控制确定出的接入交换机来通过硬件端口实现获取每台主机的主机类型的目的。
S403:根据对应关系生成与每个主机类型对应的执行指令;
S404:将每个执行指令通过各硬件端口分别下发给每台相应的主机,以使每台主机通过执行与接收到的执行指令对应的故障信息收集操作得到所述故障信息。
S403和S404与实施例三中的S303和S304相同,此处不再赘述。
上述各实施例的方案不仅适用于常见的大型集群,也适用于基于超融合技术构建起的小型集群。基于超融合技术构建起的小型集群与大型集群的重要区别为:通过虚拟化技术基于相同的硬件资源构建虚拟的集群功能设备,以实现仅需要很少的硬件设备(甚至仅需要一台)就可以建立起功能完整但规模较小、计算能力稍弱的小型集群。
若将本方案应用在基于超融合技术构建起的小型集群上,主机设备都将是通过虚拟化技术创建出的主机虚拟机,非主机设备也是通过虚拟机化基础创建出的非主机虚拟机,例如虚拟机交换机、虚拟路由器等,但除此之外与通过实体设备构建其的网络拓扑不存在差别。
相较于应用本方案在大型集群,应用在基于超融合技术构建起的小型集群需要更少的前期配置工作量,整体耗时也由于集群规模小更短。
因为情况复杂,无法一一列举进行阐述,本领域技术人员应能意识到根据本申请提供的基本方法原理结合实际情况可以存在很多的例子,在不付出足够的创造性劳动下,应均在本申请的保护范围内。
实施例五
下面请参见图7,图7为本申请实施例提供的一种故障信息收集装置的结构框图,应用于目标电子设备,所述目标电子设备中存储有集群内每种类型的主机与每种故障信息收集操作之间的对应关系,该装置可以包括:
指令接收单元100,用于接收传入的全局故障信息收集指令;
收集操作控制执行单元200,用于根据全局故障信息收集指令,按照对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作;
信息接收及整合单元300,用于接收每台主机返回的故障信息,以得到全局故障信息。
其中,当该目标电子设备为集群内任意一台主机时,该收集操作控制执行单元200可以包括:
RPC主机类型获取子单元,用于通过RPC协议获取每台其它主机的主机类型;其中,集群内任意两台主机之间均预先基于RPC协议建立有数据交互通路;
执行指令第一生成子单元,用于根据对应关系生成与每个主机类型对应的执行指令;
RPC下发子单元,用于将每个执行指令通过RPC协议分别下发给每台相应的其它主机,以使每台其它主机通过执行与接收到的执行指令对应的故障信息收集操作得到故障信息。
其中,当该目标电子设备为集群内任意一台非主机设备时,该收集操作控制执行单元200可以包括:
硬件端口主机类型获取子单元,用于通过连接于每台主机的硬件端口获取每台主机的主机类型;
执行指令第二生成子单元,用于根据对应关系生成与每个主机类型对应的执行指令;
硬件端口下发子单元,用于将每个执行指令通过各硬件端口分别下发给每台相应的主机,以使每台主机通过执行与接收到的执行指令对应的故障信息收集操作得到故障信息。
其中,当该非主机设备为集群内任意一台交换机时,该硬件端口主机类型获取子单元包括:
接入交换机确定模块,用于根据网络拓扑结构确定接入交换机;其中,每台主机均通过硬件端口连接于接入交换机;
主机类型获取模块,用于控制接入交换机通过硬件端口获取每台主机的主机类型。
进一步的,该故障信息收集装置还可以包括:
对应关系同步单元,用于在按照对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作之前,将对应关系同步至集群内每个目标电子设备。
其中,当采用选择同步方式同步对应关系时,该对应关系同步单元,包括:
对应关系分组子单元,用于将对应关系根据故障信息收集操作的层级进行分组;
选择同步子单元,用于将不同组对应的部分对应关系分别同步至相应组的目标电子设备。
更进一步的,该故障信息收集装置还可以包括:
全局故障分析报告生成单元,用于根据全局故障信息生成全局故障分析报告;
可视化处理单元,用于将故障分析报告按可视化模板进行处理,得到可视故障分析报告。
本实施例作为对应于上述方法实施例的装置实施例存在,具有方法实施例的全部有益效果,此处不再一一赘述。
基于上述实施例,本申请还提供了一种目标电子设备,该目标电子设备可以包括存储器和处理器,其中,该存储器中存有计算机程序,该处理器调用并执行该存储器中的计算机程序时,可以实现上述实施例所提供的故障信息收集方法的各步骤。当然,该电子设备还可以包括各种必要的网络接口、电源以及其它零部件等。
本申请还提供了一种可读存储介质,其上存有计算机程序,该计算机程序被执行终端或处理器执行时可以实现上述实施例所提供的故障信息收集方法的各步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种故障信息收集方法,其特征在于,应用于目标电子设备,所述目标电子设备中存储有集群内每种类型的主机与每种故障信息收集操作之间的对应关系,包括:
接收传入的全局故障信息收集指令;
根据所述全局故障信息收集指令,按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作;
接收每台所述主机返回的故障信息,以得到全局故障信息;
其中,当所述目标电子设备为集群内任意一台主机时,按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作,包括:
通过协议获取每台其它主机的主机类型;其中,集群内任意两台主机之间均预先基于协议建立有数据交互通路;
根据所述对应关系生成与每个所述主机类型对应的执行指令;
将每个所述执行指令通过所述协议分别下发给每台相应的其它主机,以使每台所述其它主机通过执行与接收到的执行指令对应的故障信息收集操作得到所述故障信息。
2.根据权利要求1所述的故障信息收集方法,其特征在于,当所述目标电子设备为集群内任意一台非主机设备时,按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作,包括:
通过连接于每台所述主机的硬件端口获取每台所述主机的主机类型;
根据所述对应关系生成与每个所述主机类型对应的执行指令;
将每个所述执行指令通过各所述硬件端口分别下发给每台相应的主机,以使每台所述主机通过执行与接收到的执行指令对应的故障信息收集操作得到所述故障信息。
3.根据权利要求2所述的故障信息收集方法,其特征在于,当所述非主机设备为集群内任意一台交换机时,通过连接于每台所述主机的硬件端口获取每台所述主机的主机类型,包括:
根据网络拓扑结构确定接入交换机;其中,每台所述主机均通过所述硬件端口连接于所述接入交换机;
控制所述接入交换机通过所述硬件端口获取每台所述主机的主机类型。
4.根据权利要求1至3任一项所述的故障信息收集方法,其特征在于,在按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作之前,还包括:
将所述对应关系同步至集群内每个所述目标电子设备。
5.根据权利要求4所述的故障信息收集方法,其特征在于,当采用选择同步方式同步所述对应关系时,将所述对应关系同步至集群内每个所述目标电子设备,包括:
将所述对应关系根据所述故障信息收集操作的层级进行分组;
将不同组对应的部分对应关系分别同步至相应组的目标电子设备。
6.根据权利要求1所述的故障信息收集方法,其特征在于,还包括:
根据所述全局故障信息生成全局故障分析报告;
将所述故障分析报告按可视化模板进行处理,得到可视故障分析报告。
7.一种故障信息收集装置,其特征在于,应用于目标电子设备,所述目标电子设备中存储有集群内每种类型的主机与每种故障信息收集操作之间的对应关系,包括:
指令接收单元,用于接收传入的全局故障信息收集指令;
收集操作控制执行单元,用于根据所述全局故障信息收集指令,按照所述对应关系控制集群内的每台主机分别执行与所属主机类型相匹配的故障信息收集操作;
信息接收及整合单元,用于接收每台所述主机返回的故障信息,以得到全局故障信息;
其中,当所述目标电子设备为集群内任意一台主机时,所述收集操作控制执行单元,还用于通过协议获取每台其它主机的主机类型;其中,集群内任意两台主机之间均预先基于协议建立有数据交互通路;根据所述对应关系生成与每个所述主机类型对应的执行指令;将每个所述执行指令通过所述协议分别下发给每台相应的其它主机,以使每台所述其它主机通过执行与接收到的执行指令对应的故障信息收集操作得到所述故障信息。
8.一种目标电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时,实现如权利要求1至6任一项所述的故障信息收集方法。
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序在被处理器执行时,实现如权利要求1至6任一项所述的故障信息收集方法。
CN201911113658.2A 2019-11-14 2019-11-14 一种故障信息收集方法、装置、目标电子设备及存储介质 Active CN112804072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911113658.2A CN112804072B (zh) 2019-11-14 2019-11-14 一种故障信息收集方法、装置、目标电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911113658.2A CN112804072B (zh) 2019-11-14 2019-11-14 一种故障信息收集方法、装置、目标电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112804072A CN112804072A (zh) 2021-05-14
CN112804072B true CN112804072B (zh) 2023-05-16

Family

ID=75803826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911113658.2A Active CN112804072B (zh) 2019-11-14 2019-11-14 一种故障信息收集方法、装置、目标电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112804072B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451040A (zh) * 2017-07-07 2017-12-08 深信服科技股份有限公司 故障原因的定位方法、装置及计算机可读存储介质
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN108897665A (zh) * 2018-06-29 2018-11-27 平安科技(深圳)有限公司 日志管理方法、装置、计算机设备及存储介质
CN108920103A (zh) * 2018-06-29 2018-11-30 平安科技(深圳)有限公司 服务器的管理方法、装置、计算机设备及存储介质
CN110428400A (zh) * 2019-07-09 2019-11-08 北京百分点信息科技有限公司 一种设备故障的定位方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8381033B2 (en) * 2009-10-30 2013-02-19 International Business Machines Corporation Fault management in virtual computing environments

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN107451040A (zh) * 2017-07-07 2017-12-08 深信服科技股份有限公司 故障原因的定位方法、装置及计算机可读存储介质
CN108897665A (zh) * 2018-06-29 2018-11-27 平安科技(深圳)有限公司 日志管理方法、装置、计算机设备及存储介质
CN108920103A (zh) * 2018-06-29 2018-11-30 平安科技(深圳)有限公司 服务器的管理方法、装置、计算机设备及存储介质
CN110428400A (zh) * 2019-07-09 2019-11-08 北京百分点信息科技有限公司 一种设备故障的定位方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112804072A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
EP2972746B1 (en) Storage unit selection for virtualized storage units
US9270523B2 (en) Reconfiguring interrelationships between components of virtual computing networks
EP3852335A1 (en) Method and system for modifying blockchain network configuration
CN102316043B (zh) 端口虚拟化方法、交换机及通信系统
CN105653398B (zh) 一种智能分配操作系统镜像方法
CN107666493B (zh) 一种数据库配置方法及其设备
CN105867864A (zh) 一种kvm显示方法及装置
CN103399781A (zh) 云服务器及其虚拟机管理方法
CN105095103A (zh) 用于云环境下的存储设备管理方法和装置
WO2021104156A1 (zh) 一种管理网络服务的方法、设备及系统
CN105357042A (zh) 一种高可用集群系统及其主节点和从节点
CN112685175A (zh) 一种服务拓扑图的构建方法、装置和计算机可读存储介质
CN105812423A (zh) 一种云系统配置方法、服务器及装置
CN103455363A (zh) 一种虚拟机的指令处理方法、装置及物理主机
CN107153495B (zh) 一种建立网元间业务链路的方法和装置
CN114650223A (zh) 一种Kubernetes集群的网络配置方法、装置及电子设备
CN104536926B (zh) 串口设备的控制方法及装置
CN112804072B (zh) 一种故障信息收集方法、装置、目标电子设备及存储介质
CN110460456B (zh) 一种管理信息库mib同步生成网络拓扑的方法及装置
MX2012009526A (es) Metodo de adquisicion de datos en estimacion de recursos de red y sistema del mismo.
CN112380411B (zh) 敏感词处理方法、装置、电子设备、系统及存储介质
CN114510323A (zh) 在容器中运行虚机的网络优化实现方法
CN101426220A (zh) 一种基站割接的方法、装置及系统
EP4009167A1 (en) Instantiated request generation method, interface virtual machine configuration method, nfvo, and vim
CN110855541B (zh) 一种环状网络设备裂环方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant