CN113821367A - 确定故障设备影响范围的方法及相关装置 - Google Patents

确定故障设备影响范围的方法及相关装置 Download PDF

Info

Publication number
CN113821367A
CN113821367A CN202111116205.2A CN202111116205A CN113821367A CN 113821367 A CN113821367 A CN 113821367A CN 202111116205 A CN202111116205 A CN 202111116205A CN 113821367 A CN113821367 A CN 113821367A
Authority
CN
China
Prior art keywords
server
network
identifier
switch
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111116205.2A
Other languages
English (en)
Other versions
CN113821367B (zh
Inventor
胡巧龙
王勇涛
赵辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111116205.2A priority Critical patent/CN113821367B/zh
Publication of CN113821367A publication Critical patent/CN113821367A/zh
Application granted granted Critical
Publication of CN113821367B publication Critical patent/CN113821367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开的确定故障设备影响范围的方法及相关装置,可以通过获得故障网络设备的设备标识;根据设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到故障网络设备的至少一个接入交换机的交换机标识;基于各所述交换机标识,查询预先建立的服务器接入信息表,从而分别获得各所述接入交换机所连接的至少一个服务器的服务器标识;基于各所述服务器标识,查询预先建立的应用系统列表,从而分别得到各所述服务器标识对应的服务器上所挂载的应用系统作为所述故障网络设备所影响的应用系统。本发明可以在网络设备发生故障的第一时间准确完整地确定该网络设备所影响的所有应用系统,响应速度较快且全面和完整。

Description

确定故障设备影响范围的方法及相关装置
技术领域
本发明涉及计算机领域,特别涉及一种确定故障设备影响范围的方法及相关装置。
背景技术
银行数据中心是一种通过运行应用系统来处理和运作数据的集成设备,对于银行数据中心来说,其主要目的是保障应用系统对外提供服务的高可靠性和高稳定性,要求服务中断时间短、复原数据丢失少。
银行数据中心应用系统之间的通信、外部对应用系统的访问,必须要通过网络进行数据传递,多采用三层或四层基础网络架构,高层网络设备下联的应用系统数量非常庞大。因此网络设备的故障对银行数据中心的业务影响是灾难性的。
当网络设备故障时,管理人员迫切需要知道该网络设备会影响哪些应用系统。目前,对于这种情况的处理,都是基于告警的被动响应,难以全面排查可能的潜在影响,并且响应不及时。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的确定故障设备影响范围的方法及相关装置。
第一方面,一种确定故障设备影响范围的方法,包括:
获得故障网络设备的设备标识;
根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到所述故障网络设备的至少一个接入交换机的交换机标识,其中,所述网络拓扑图中记录各网络设备之间的连接关系,所述网络设备包括所述故障网络设备、所述接入交换机和至少一个服务器,所述故障网络设备通过所述接入交换机与至少一个所述服务器连接;
基于搜索得到的各所述交换机标识,查询预先建立的服务器接入信息表,从而分别获得搜索得到的各所述接入交换机所连接的至少一个所述服务器的服务器标识,其中,所述服务器接入信息表记录各所述接入交换机与各所述服务器之间的连接关系;
基于查询获得的各所述服务器标识,查询预先建立的应用系统列表,从而分别得到查询获得的各所述服务器标识对应的服务器上所挂载的应用系统作为所述故障网络设备所影响的应用系统,其中,所述应用系统列表记录各所述服务器上所挂载的所有应用系统。
结合第一方面,在某些可选的实施方式中,构建所述网络拓扑图的过程,包括:
将远端网络互联信息同步至本地网络互联信息,其中,所述远端网络互联信息包括:数据中心区域间的网络设备之间的第一层级关系矩阵和区域内的网络设备之间的第二层级关系矩阵;
根据所述第一层级关系矩阵和所述第二层级关系矩阵,确定各所述网络设备之间的层级关系;
基于所述层级关系,构建涵盖各所述网络设备的有向图,其中,各所述网络设备在所述有向图中以相应的设备标识进行标识,具有连接关系的两个所述网络设备共同作为所述有向图中的一条边;
分别确定各所述网络设备是否为接入交换机并进行标注,进而得到所述网络拓扑图。
结合上一个实施方式,在某些可选的实施方式中,所述根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到所述故障网络设备的至少一个接入交换机的交换机标识,包括:
以所述网络拓扑图中、涵盖所述故障网络设备的一条边为起点,在所述网络拓扑图中进行递归搜索得到至少一条边;
确定所述至少一条边对应的各所述网络设备是否标注为所述接入交换机,若是则获得相应的所述设备标识。
结合第一方面,在某些可选的实施方式中,在所述根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索之前,所述方法还包括:
确定所述故障网络设备的设备标识是否已经保存在已进行搜索的设备列表中,若所述故障网络设备的设备标识未保存在所述已进行搜索的设备列表中,则对所述设备标识执行所述根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索;
否则,获得其它故障网络设备的设备标识;
其中,所述已进行搜索的设备列表中记录有本轮过程中已经进行搜索的各所述故障网络设备的设备标识,所述已进行搜索的设备列表在每次进行所述深度搜索之后均会被更新。
结合第一方面,在某些可选的实施方式中,构建所述服务器接入信息表的过程,包括:
在系统建设完成后,根据各所述服务器与各所述交换机的实际连接情况,构建所述服务器接入信息表,其中,在所述服务器接入信息表中、对于每个所述服务器均至少记录有连接一个所述交换机。
结合第一方面,在某些可选的实施方式中,构建所述应用系统列表的过程,包括:
根据各所述服务器上分别挂载的应用系统的实际情况,构建所述应用系统列表,其中,在所述应用系统列表中、对于每个所述服务器均至少记录有挂载一个所述应用系统。
结合第一方面,在某些可选的实施方式中,所述网络设备包括:交换机、路由器、负载均衡、防火墙、探针和分光器中的至少一种。
第二方面,一种确定故障设备影响范围的装置,包括:设备标识获得单元、交换机标识获得单元、服务器标识获得单元和应用系统获得单元;
所述设备标识获得单元,被配置为执行获得故障网络设备的设备标识;
所述交换机标识获得单元,被配置为执行根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到所述故障网络设备的至少一个接入交换机的交换机标识,其中,所述网络拓扑图中记录各网络设备之间的连接关系,所述网络设备包括所述故障网络设备、所述接入交换机和至少一个服务器,所述故障网络设备通过所述接入交换机与至少一个所述服务器连接;
所述服务器标识获得单元,被配置为执行基于搜索得到的各所述交换机标识,查询预先建立的服务器接入信息表,从而分别获得搜索得到的各所述接入交换机所连接的至少一个所述服务器的服务器标识,其中,所述服务器接入信息表记录各所述接入交换机与各所述服务器之间的连接关系;
所述应用系统获得单元,被配置为执行基于查询获得的各所述服务器标识,查询预先建立的应用系统列表,从而分别得到查询获得的各所述服务器标识对应的服务器上所挂载的应用系统作为所述故障网络设备所影响的应用系统,其中,所述应用系统列表记录各所述服务器上所挂载的所有应用系统。
第三方面,一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现任一项所述的确定故障设备影响范围的方法。
第四方面,一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行任一项所述的确定故障设备影响范围的方法。
借由上述技术方案,本发明提供的确定故障设备影响范围的方法及相关装置,可以通过获得故障网络设备的设备标识;根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到所述故障网络设备的至少一个接入交换机的交换机标识,其中,所述网络拓扑图中记录各网络设备之间的连接关系,所述网络设备包括所述故障网络设备、所述接入交换机和至少一个服务器,所述故障网络设备通过所述接入交换机与至少一个所述服务器连接;基于各所述交换机标识,查询预先建立的服务器接入信息表,从而分别获得各所述接入交换机所连接的至少一个服务器的服务器标识,其中,所述服务器接入信息表记录各所述接入交换机与各所述服务器之间的连接关系;基于各所述服务器标识,查询预先建立的应用系统列表,从而分别得到各所述服务器标识对应的服务器上所挂载的应用系统作为所述故障网络设备所影响的应用系统,其中,所述应用系统列表记录各所述服务器上所挂载的所有应用系统。由此可以看出,本发明可以在网络设备发生故障的第一时间准确完整地确定该网络设备所影响的所有应用系统,响应速度较快且全面和完整。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明提供的一种确定故障设备影响范围的方法的流程图;
图2示出了本发明提供的一种确定故障设备影响范围的装置的结构示意图;
图3示出了本发明提供的一种电子设备的结构示意图。
具体实施方式
银行数据中心是一种通过运行应用系统来处理和运作数据的集成设备,对于银行数据中心来说,其主要目的是保障应用系统对外提供服务的高可靠性和高稳定性。相对于其他行业数据中心,银行数据中心的一个突出特点是对RTO(Recovery Time Objective,复原时间目标)和RPO(Recovery Point Objective,复原点目标)的高要求,即要求服务中断时间短、复原数据丢失少。
银行数据中心应用系统之间的通信、外部对应用系统的访问,必须要通过网络进行数据传递。如果说银行数据中心是一个精密而复杂的人体,那网络就是遍布全身的血管。银行数据中心网络多采用三层或四层基础网络架构,高层网络设备下联的应用系统数量非常庞大。网络设备的故障对银行数据中心的业务影响是灾难性的。
当网络设备故障时,管理人员迫切需要知道该网络设备会影响哪些应用系统。
经本发明人研究发现,目前,对于这种情况的处理,都是基于告警的被动响应,难以全面排查可能的潜在影响。对于银行数据中心来说,这种风险是难以接受的。
为了能在网络设备发生故障后的第一时间,准确全面地确定该网络设备发生故障所影响的应用系统有哪些,本发明人提供了确定故障设备影响范围的方法及相关装置。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,一种确定故障设备影响范围的方法,包括:S100、S200、S300和S400;
S100、获得故障网络设备的设备标识;
可选的,本发明对于故障网络设备指的是:发生故障的网络设备,本发明对网络设备不做任何设置,任何可行的方式均属于本发明的保护范围。
例如,结合图1所示的实施方式,在某些可选的实施方式中,所述网络设备包括:交换机、路由器、负载均衡、防火墙、探针和分光器中的至少一种。
可选的,对于任何一个网络设备,均可以用一个设备标识进行表征,设备标识可以是设备名或者设备编号,并且,设备标识可以用于下述网络拓扑图中,以便于后续在网络拓扑图中进行深度搜索,本发明对此不做限制。
可选的,当某一个网络设备发生故障,该网络设备的告警日志中可以生成相应的告警日志,在告警日志中包括了该网络设备的设备标识。由于生成了相应的告警日志,所以可以从告警日志中及时获得故障网络设备的设备标识,本发明对此不做限制。
S200、根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到所述故障网络设备的至少一个接入交换机的交换机标识;
其中,所述网络拓扑图中记录各网络设备之间的连接关系,所述网络设备包括所述故障网络设备、所述接入交换机和至少一个服务器,所述故障网络设备通过所述接入交换机与至少一个所述服务器连接;
可选的,本发明对于构建网络拓扑图的过程不做具体限制,任何可行的方式均属于本发明的保护范围。例如,结合图1所示的实施方式,在某些可选的实施方式中,构建所述网络拓扑图的过程,包括:步骤1.1、步骤1.2、步骤1.3和步骤1.4;
步骤1.1、将远端网络互联信息同步至本地网络互联信息,其中,所述远端网络互联信息包括:数据中心区域间的网络设备之间的第一层级关系矩阵和区域内的网络设备之间的第二层级关系矩阵;
可选的,本发明所说的远端网络互联信息可以理解为:整个数据中心的各个网络设备的网络互联信息,本发明对此不做限制。
可选的,本发明的执行主体可以将远端网络互联信息同步至本地网络互联信息,以便于后续构建网络拓扑图,本发明对此不做限制。
可选的,第一层级关系矩阵可以表征不同区域的网络设备之间的层级连接关系,第二层级关系矩阵可以表征同一个区域内的不同网络设备之间层级连接关系,本发明对此不做限制。
步骤1.2、根据所述第一层级关系矩阵和所述第二层级关系矩阵,确定各所述网络设备之间的层级关系;
可选的,如前所述第一层级关系矩阵描述的是不同区域的网络设备之间的层级连接关系,第二层级关系矩阵描述的是同一个区域内的不同网络设备之间的层级连接关系。所以可以综合第一层级关系矩阵和第二层级关系矩阵,从而准确完整地确定整个数据中心的各所述网络设备之间的层级关系。
可选的,通过各所述网络设备之间的层级关系首先可以反映各个网络设备之间的层次关系,其次可以反映各个网络设备之间的连接关系,再者对于具体一个网络设备而言,通过层次关系可以反映哪些交换机是该网络设备的接入交换机。这里所说的接入交换机指的是所述网络设备直接或者间接通过所述接入交换机与至少一个服务器连接,本发明对此不做限制。
其中,所述网络设备与所述接入交换机之间可以是直接连接的关系,也可以是间接连接的关系。例如,所述网络设备通过其它网络设备与所述接入交换机间接连接,本发明对此不做限制。
所述接入交换机与所述服务器之间可以是直接连接的关系,也可以是间接连接的关系。例如,所述接入交换机通过其它网络设备与所述服务器间接连接,本发明对此不做限制。
步骤1.3、基于所述层级关系,构建涵盖各所述网络设备的有向图,其中,各所述网络设备在所述有向图中以相应的设备标识进行标识,具有连接关系的两个所述网络设备共同作为所述有向图中的一条边;
可选的,有向图是本领域公知的概念,本文对此不做过多赘述,具体请参见本领域对于有向图的解释。
可选的,在有向图中,对于“边”的概念也是本领域公知,本发明对此不做过多描述。例如,在所述有向图中,各个网络设备均可以单独作为有向图的一个节点,具有连接关系的两个节点共同作为一条边,本发明对此不做过多描述。
步骤1.4、分别确定各所述网络设备是否为所述接入交换机并进行标注,进而得到所述网络拓扑图。
可选的,如前所述,通过层次关系可以反映哪些交换机是该网络设备的接入交换机,即这里的接入交换机可以理解为:对于任一网络设备而言,所述网络设备直接或者间接通过所述接入交换机与至少一个服务器连接,本发明对此不做限制。
当然,对于任一网络设备而言,也可以通过查询服务器接入信息表中是否记录了该网络设备连接了服务器进行确定,本发明对此不做限制。
可选的,如前所述,层次关系可以确定每一个网络设备的接入交换机,但并未在有向图中体现。所以为了方便后续搜索,可以在所述有向图中标注相应的网络设备为接入交换机,标注的方式本发明不做具体限制,任何可行的方式均属于本发明的保护范围。
可选的,对于具体一个网络设备而言,其若需要与其他网络设备进行通信,一般需要经过交换机。通过在有向图中标注每一台网络设备是否为接入交换机,进而得到网络拓扑图,以便于后续通过搜索网络拓扑图查询得到故障网络设备的接入交换机,进而通过接入交换机查询到被影响的服务器,本发明对此不做限制。
例如,结合上一个实施方式,在某些可选的实施方式中,所述S200,包括:步骤2.1、步骤2.2、步骤2.3和步骤2.4;
步骤2.1、以所述网络拓扑图中、涵盖所述故障网络设备的一条边为起点,在所述网络拓扑图中进行递归搜索得到至少一条边;
可选的,递归搜索是本领域常用的技术手段,本发明对此不做过多描述,具体请参见本领域对于递归搜索的说明。
步骤2.2、确定所述至少一条边对应的各所述网络设备是否标注为所述接入交换机;
若所述网络设备标注为接入交换机,则执行步骤2.3,否则执行步骤2.4;
步骤2.3、获得相应的所述设备标识。
步骤2.4、不获得相应的所述设备标识、并继续确定剩余的、所述至少一条边对应的其它所述网络设备是否标注为所述服务器接入信息表中记录的交换机。
可选的,若搜索得到的网络设备被标注为接入交换机,则说明该交换机与故障网络设备之间有连接关系,也与服务器有连接关系。由此说明,故障网络设备可能会影响到该服务器上挂载的应用系统,所以可以获得所述设备标识,以便于继续执行后续过程。
S300、基于搜索得到的各所述交换机标识,查询预先建立的服务器接入信息表,从而分别获得搜索得到的各所述接入交换机所连接的至少一个所述服务器的服务器标识;
其中,所述服务器接入信息表记录各所述接入交换机与各所述服务器之间的连接关系;
可选的,基于服务器接入信息表记录的各所述交换机与各所述服务器之间的连接关系,可以查询得到接入交换机与哪些服务器连接。即获得各所述接入交换机所连接的至少一个服务器的服务器标识,这里所说的服务器标识可以是服务器的序列号,本发明对此不做限制。
S400、基于查询获得的各所述服务器标识,查询预先建立的应用系统列表,从而分别得到查询获得的各所述服务器标识对应的服务器上所挂载的应用系统作为所述故障网络设备所影响的应用系统;
其中,所述应用系统列表记录各所述服务器上所挂载的所有应用系统。
可选的,基于应用系统列表记录各所述服务器上所挂载的所有应用系统,通过服务器标识可以从应用系统列表中查到各所述服务器标识所对应的各个服务器上挂载的应用系统。
可选的,步骤S400中查询得到的应用系统可以理解为:该应用系统所在的服务器直接或者间接与至少一个接入服务器连接,该接入服务器与故障网络设备连接。所以,查询得到的应用系统即为故障网络设备发生故障所影响到的应用系统,本发明对此不做限制。
结合图1所示的实施方式,在某些可选的实施方式中,在所述S200之前,所述方法还包括:步骤3.1、步骤3.2和步骤3.3;
步骤3.1、确定所述故障网络设备的设备标识是否已经保存在已进行搜索的设备列表中;
可选的,为了提高深度搜索的效率,可以通过设置已进行搜索的设备列表,从而避免针对同一个故障网络设备进行搜索。即先确定所述故障网络设备的设备标识是否已经保存在已进行搜索的设备列表中,本发明对此不做限制。
若所述故障网络设备的设备标识未保存在所述已进行搜索的设备列表中,则执行步骤3.2,否则执行步骤3.3;
步骤3.2、对所述设备标识执行步骤S200;
可选的,若所述故障网络设备的设备标识未保存在所述已进行搜索的设备列表中,则说明还没针对所述故障网络设备进行深度搜索确定其影响范围,所以可以对所述设备标识执行步骤S200,本发明对此不做限制。
步骤3.3、获得其它故障网络设备的设备标识;
可选的,若所述故障网络设备的设备标识已保存在所述已进行搜索的设备列表中,则说明本轮过程中已针对所述故障网络设备进行深度搜索确定其影响范围,所以可以获得其它故障网络设备的设备标识,以便于对其它故障网络设备进行深度搜索,本发明对此不做限制。
其中,所述已进行搜索的设备列表中记录有本轮过程中已经进行搜索的各所述故障网络设备的设备标识,所述已进行搜索的设备列表在每次进行所述深度搜索之后均会被更新。
可选的,本发明对于“本轮”不做具体限制。例如,本发明可以是周期执行,当“本轮”的开始时间到达时,可以对各个故障网络设备以此进行深度搜索,对所有故障网络设备均进行深度搜索后,“本轮”结束。当然,也可以是条件触发的方式,即当有网络设备发生故障时,触发“本轮”开始,当对某一个故障网路设备进行深度搜索之后,没有其他故障网络设备需要进行深度搜索,则“本轮”结束,本发明对此不做限制。
结合图1所示的实施方式,在某些可选的实施方式中,构建所述服务器接入信息表的过程,包括:在系统建设完成后,根据各所述服务器与各所述交换机的实际连接情况,构建所述服务器接入信息表,其中,在所述服务器接入信息表中、对于每个所述服务器均至少记录有连接一个所述交换机。
结合图1所示的实施方式,在某些可选的实施方式中,构建所述应用系统列表的过程,包括:根据各所述服务器上分别挂载的应用系统的实际情况,构建所述应用系统列表,其中,在所述应用系统列表中、对于每个所述服务器均至少记录有挂载一个所述应用系统。
如图2所示,本发明提供了一种确定故障设备影响范围的装置,包括:设备标识获得单元100、交换机标识获得单元200、服务器标识获得单元300和应用系统获得单元400;
所述设备标识获得单元100,被配置为执行获得故障网络设备的设备标识;
所述交换机标识获得单元200,被配置为执行根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到所述故障网络设备的至少一个接入交换机的交换机标识,其中,所述网络拓扑图中记录各网络设备之间的连接关系,所述网络设备包括所述故障网络设备、所述接入交换机和至少一个服务器,所述故障网络设备通过所述接入交换机与至少一个所述服务器连接;
所述服务器标识获得单元300,被配置为执行基于各所述交换机标识,查询预先建立的服务器接入信息表,从而分别获得各所述接入交换机所连接的至少一个服务器的服务器标识,其中,所述服务器接入信息表记录各所述接入交换机与各所述服务器之间的连接关系;
所述应用系统获得单元400,被配置为执行基于各所述服务器标识,查询预先建立的应用系统列表,从而分别得到各所述服务器标识对应的服务器上所挂载的应用系统作为所述故障网络设备所影响的应用系统,其中,所述应用系统列表记录各所述服务器上所挂载的所有应用系统。
本发明提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现任一项所述的确定故障设备影响范围的方法。
如图2所示,本发明提供了一种确定故障设备影响范围的装置,包括:设备标识获得单元100、交换机标识获得单元200、服务器标识获得单元300和应用系统获得单元400;
所述设备标识获得单元100,被配置为执行获得故障网络设备的设备标识;
所述交换机标识获得单元200,被配置为执行根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到所述故障网络设备的至少一个接入交换机的交换机标识,其中,所述网络拓扑图中记录各网络设备之间的连接关系,所述网络设备包括所述故障网络设备、所述接入交换机和至少一个服务器,所述故障网络设备通过所述接入交换机与至少一个所述服务器连接;
所述服务器标识获得单元300,被配置为执行基于搜索得到的各所述交换机标识,查询预先建立的服务器接入信息表,从而分别获得搜索得到的各所述接入交换机所连接的至少一个所述服务器的服务器标识,其中,所述服务器接入信息表记录各所述接入交换机与各所述服务器之间的连接关系;
所述应用系统获得单元400,被配置为执行基于查询获得的各所述服务器标识,查询预先建立的应用系统列表,从而分别得到查询获得的各所述服务器标识对应的服务器上所挂载的应用系统作为所述故障网络设备所影响的应用系统,其中,所述应用系统列表记录各所述服务器上所挂载的所有应用系统。
结合图2所示的实施方式,在某些可选的实施方式中,所述装置还包括:拓扑图构建单元;
所述拓扑图构建单元执行构建所述网络拓扑图的过程,具体包括:互联信息同步子单元、层级关系确定子单元、有向图构建子单元和接入交换机标注子单元;
所述互联信息同步子单元,被配置为执行将远端网络互联信息同步至本地网络互联信息,其中,所述远端网络互联信息包括:数据中心区域间的网络设备之间的第一层级关系矩阵和区域内的网络设备之间的第二层级关系矩阵;
所述层级关系确定子单元,被配置为执行根据所述第一层级关系矩阵和所述第二层级关系矩阵,确定各所述网络设备之间的层级关系;
所述有向图构建子单元,被配置为执行基于所述层级关系,构建涵盖各所述网络设备的有向图,其中,各所述网络设备在所述有向图中以相应的设备标识进行标识,具有连接关系的两个所述网络设备共同作为所述有向图中的一条边;
所述接入交换机标注子单元,被配置为执行分别确定各所述网络设备是否为所述接入交换机并进行标注,进而得到所述网络拓扑图。
结合上一个实施方式,在某些可选的实施方式中,所述交换机标识获得单元200,包括:递归搜索子单元、交换机确定子单元和设备标识获得子单元;
所述递归搜索子单元,被配置为执行以所述网络拓扑图中、涵盖所述故障网络设备的一条边为起点,在所述网络拓扑图中进行递归搜索得到至少一条边;
所述交换机确定子单元,被配置为执行确定所述至少一条边对应的各所述网络设备是否标注为所述接入交换机,若是则触发所述设备标识获得子单元;
所述设备标识获得子单元,被配置为执行获得相应的所述设备标识。
结合图2所示的实施方式,在某些可选的实施方式中,所述装置还包括:标识保存确定子单元、未保存子单元和已保存子单元;
所述标识保存确定子单元,被配置为执行在所述交换机标识获得单元200执行根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索之前,确定所述故障网络设备的设备标识是否已经保存在已进行搜索的设备列表中;
若所述故障网络设备的设备标识未保存在所述已进行搜索的设备列表中,则触发所述未保存子单元,否则触发所述已保存子单元;
所述未保存子单元,被配置为执行对所述设备标识执行所述根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索;
所述已保存子单元,被配置为执行获得其它故障网络设备的设备标识;
其中,所述已进行搜索的设备列表中记录有本轮过程中已经进行搜索的各所述故障网络设备的设备标识,所述已进行搜索的设备列表在每次进行所述深度搜索之后均会被更新。
结合图2所示的实施方式,在某些可选的实施方式中,所述装置还包括:信息表构建单元;
所述信息表构建单元,被配置为执行构建所述服务器接入信息表的过程;
所述构建所述服务器接入信息表的过程,具体包括:在系统建设完成后,根据各所述服务器与各所述交换机的实际连接情况,构建所述服务器接入信息表,其中,在所述服务器接入信息表中、对于每个所述服务器均至少记录有连接一个所述交换机。
结合图2所示的实施方式,在某些可选的实施方式中,所述装置还包括:系统列表构建单元;
所述系统列表构建单元,被配置为执行构建所述应用系统列表的过程;
所述构建所述应用系统列表的过程,具体包括:根据各所述服务器上分别挂载的应用系统的实际情况,构建所述应用系统列表,其中,在所述应用系统列表中、对于每个所述服务器均至少记录有挂载一个所述应用系统。
如图3所示,本发明提供了一种电子设备70,所述电子设备70包括至少一个处理器701、以及与所述701处理器连接的至少一个存储器702、总线703;其中,所述处理器701、所述存储器702通过所述总线703完成相互间的通信;所述处理器701用于调用所述存储器702中的程序指令,以执行上述任一项所述的确定故障设备影响范围的方法。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种确定故障设备影响范围的方法,其特征在于,包括:
获得故障网络设备的设备标识;
根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到所述故障网络设备的至少一个接入交换机的交换机标识,其中,所述网络拓扑图中记录各网络设备之间的连接关系,所述网络设备包括所述故障网络设备、所述接入交换机和至少一个服务器,所述故障网络设备通过所述接入交换机与至少一个所述服务器连接;
基于搜索得到的各所述交换机标识,查询预先建立的服务器接入信息表,从而分别获得搜索得到的各所述接入交换机所连接的至少一个所述服务器的服务器标识,其中,所述服务器接入信息表记录各所述接入交换机与各所述服务器之间的连接关系;
基于查询获得的各所述服务器标识,查询预先建立的应用系统列表,从而分别得到查询获得的各所述服务器标识对应的服务器上所挂载的应用系统作为所述故障网络设备所影响的应用系统,其中,所述应用系统列表记录各所述服务器上所挂载的所有应用系统。
2.根据权利要求1所述的方法,其特征在于,构建所述网络拓扑图的过程,包括:
将远端网络互联信息同步至本地网络互联信息,其中,所述远端网络互联信息包括:数据中心区域间的网络设备之间的第一层级关系矩阵和区域内的网络设备之间的第二层级关系矩阵;
根据所述第一层级关系矩阵和所述第二层级关系矩阵,确定各所述网络设备之间的层级关系;
基于所述层级关系,构建涵盖各所述网络设备的有向图,其中,各所述网络设备在所述有向图中以相应的设备标识进行标识,具有连接关系的两个所述网络设备共同作为所述有向图中的一条边;
分别确定各所述网络设备是否为所述接入交换机并进行标注,进而得到所述网络拓扑图。
3.根据权利要求2所述的方法,其特征在于,所述根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到所述故障网络设备的至少一个接入交换机的交换机标识,包括:
以所述网络拓扑图中、涵盖所述故障网络设备的一条边为起点,在所述网络拓扑图中进行递归搜索得到至少一条边;
确定所述至少一条边对应的各所述网络设备是否标注为所述接入交换机,若是则获得相应的所述设备标识。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索之前,所述方法还包括:
确定所述故障网络设备的设备标识是否已经保存在已进行搜索的设备列表中,若所述故障网络设备的设备标识未保存在所述已进行搜索的设备列表中,则对所述设备标识执行所述根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索;
否则,获得其它故障网络设备的设备标识;
其中,所述已进行搜索的设备列表中记录有本轮过程中已经进行搜索的各所述故障网络设备的设备标识,所述已进行搜索的设备列表在每次进行所述深度搜索之后均会被更新。
5.根据权利要求1所述的方法,其特征在于,构建所述服务器接入信息表的过程,包括:
在系统建设完成后,根据各所述服务器与各所述交换机的实际连接情况,构建所述服务器接入信息表,其中,在所述服务器接入信息表中、对于每个所述服务器均至少记录有连接一个所述交换机。
6.根据权利要求1所述的方法,其特征在于,构建所述应用系统列表的过程,包括:
根据各所述服务器上分别挂载的应用系统的实际情况,构建所述应用系统列表,其中,在所述应用系统列表中、对于每个所述服务器均至少记录有挂载一个所述应用系统。
7.根据权利要求1所述的方法,其特征在于,所述网络设备包括:交换机、路由器、负载均衡、防火墙、探针和分光器中的至少一种。
8.一种确定故障设备影响范围的装置,其特征在于,包括:设备标识获得单元、交换机标识获得单元、服务器标识获得单元和应用系统获得单元;
所述设备标识获得单元,被配置为执行获得故障网络设备的设备标识;
所述交换机标识获得单元,被配置为执行根据所述设备标识,在预先构建的网络拓扑图中进行深度搜索,从而得到所述故障网络设备的至少一个接入交换机的交换机标识,其中,所述网络拓扑图中记录各网络设备之间的连接关系,所述网络设备包括所述故障网络设备、所述接入交换机和至少一个服务器,所述故障网络设备通过所述接入交换机与至少一个所述服务器连接;
所述服务器标识获得单元,被配置为执行基于搜索得到的各所述交换机标识,查询预先建立的服务器接入信息表,从而分别获得搜索得到的各所述接入交换机所连接的至少一个所述服务器的服务器标识,其中,所述服务器接入信息表记录各所述接入交换机与各所述服务器之间的连接关系;
所述应用系统获得单元,被配置为执行基于查询获得的各所述服务器标识,查询预先建立的应用系统列表,从而分别得到查询获得的各所述服务器标识对应的服务器上所挂载的应用系统作为所述故障网络设备所影响的应用系统,其中,所述应用系统列表记录各所述服务器上所挂载的所有应用系统。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的确定故障设备影响范围的方法。
10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至7中任一项所述的确定故障设备影响范围的方法。
CN202111116205.2A 2021-09-23 2021-09-23 确定故障设备影响范围的方法及相关装置 Active CN113821367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111116205.2A CN113821367B (zh) 2021-09-23 2021-09-23 确定故障设备影响范围的方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111116205.2A CN113821367B (zh) 2021-09-23 2021-09-23 确定故障设备影响范围的方法及相关装置

Publications (2)

Publication Number Publication Date
CN113821367A true CN113821367A (zh) 2021-12-21
CN113821367B CN113821367B (zh) 2024-02-02

Family

ID=78915311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111116205.2A Active CN113821367B (zh) 2021-09-23 2021-09-23 确定故障设备影响范围的方法及相关装置

Country Status (1)

Country Link
CN (1) CN113821367B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114327988A (zh) * 2021-12-31 2022-04-12 海南神州泰岳软件有限公司 一种可视化网络故障关系确定方法和装置
CN115086143A (zh) * 2022-04-28 2022-09-20 阿里巴巴(中国)有限公司 故障预警方法及装置
WO2024051258A1 (zh) * 2022-09-08 2024-03-14 华为技术有限公司 事件处理方法、装置及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3905023A (en) * 1973-08-15 1975-09-09 Burroughs Corp Large scale multi-level information processing system employing improved failsaft techniques
US5708775A (en) * 1995-04-19 1998-01-13 Fuji Xerox Co., Ltd. Fault information notification system localized at each network server
US7197558B1 (en) * 2001-12-17 2007-03-27 Bellsouth Intellectual Property Corp. Methods and systems for network element fault information processing
US7711980B1 (en) * 2007-05-22 2010-05-04 Hewlett-Packard Development Company, L.P. Computer system failure management with topology-based failure impact determinations
US20140325277A1 (en) * 2012-01-27 2014-10-30 Fujitsu Limited Information processing technique for managing computer system
CN106130761A (zh) * 2016-06-22 2016-11-16 北京百度网讯科技有限公司 数据中心的故障网络设备的识别方法和装置
US20180052945A1 (en) * 2016-08-18 2018-02-22 Cerner Innovation, Inc. Generation of data model mapping a data center
CN110266550A (zh) * 2019-07-25 2019-09-20 中国联合网络通信集团有限公司 故障影响预测的方法及装置
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN111600746A (zh) * 2020-04-15 2020-08-28 新浪网技术(中国)有限公司 网络故障定位方法、装置及设备
WO2021104269A1 (zh) * 2019-11-29 2021-06-03 中兴通讯股份有限公司 故障定位方法、装置、设备及存储介质
CN113114510A (zh) * 2021-04-22 2021-07-13 中国科学技术大学 一种网络故障信息的同步方法及装置
CN113364628A (zh) * 2021-06-11 2021-09-07 上海中通吉网络技术有限公司 服务器与交换机拓扑关系建立方法及设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3905023A (en) * 1973-08-15 1975-09-09 Burroughs Corp Large scale multi-level information processing system employing improved failsaft techniques
US5708775A (en) * 1995-04-19 1998-01-13 Fuji Xerox Co., Ltd. Fault information notification system localized at each network server
US7197558B1 (en) * 2001-12-17 2007-03-27 Bellsouth Intellectual Property Corp. Methods and systems for network element fault information processing
US7711980B1 (en) * 2007-05-22 2010-05-04 Hewlett-Packard Development Company, L.P. Computer system failure management with topology-based failure impact determinations
US20140325277A1 (en) * 2012-01-27 2014-10-30 Fujitsu Limited Information processing technique for managing computer system
CN106130761A (zh) * 2016-06-22 2016-11-16 北京百度网讯科技有限公司 数据中心的故障网络设备的识别方法和装置
US20180052945A1 (en) * 2016-08-18 2018-02-22 Cerner Innovation, Inc. Generation of data model mapping a data center
CN110266550A (zh) * 2019-07-25 2019-09-20 中国联合网络通信集团有限公司 故障影响预测的方法及装置
WO2021104269A1 (zh) * 2019-11-29 2021-06-03 中兴通讯股份有限公司 故障定位方法、装置、设备及存储介质
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN111600746A (zh) * 2020-04-15 2020-08-28 新浪网技术(中国)有限公司 网络故障定位方法、装置及设备
CN113114510A (zh) * 2021-04-22 2021-07-13 中国科学技术大学 一种网络故障信息的同步方法及装置
CN113364628A (zh) * 2021-06-11 2021-09-07 上海中通吉网络技术有限公司 服务器与交换机拓扑关系建立方法及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114327988A (zh) * 2021-12-31 2022-04-12 海南神州泰岳软件有限公司 一种可视化网络故障关系确定方法和装置
CN114327988B (zh) * 2021-12-31 2024-01-23 海南神州泰岳软件有限公司 一种可视化网络故障关系确定方法和装置
CN115086143A (zh) * 2022-04-28 2022-09-20 阿里巴巴(中国)有限公司 故障预警方法及装置
WO2024051258A1 (zh) * 2022-09-08 2024-03-14 华为技术有限公司 事件处理方法、装置及系统

Also Published As

Publication number Publication date
CN113821367B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN113821367B (zh) 确定故障设备影响范围的方法及相关装置
US8443078B2 (en) Method of determining equivalent subsets of agents to gather information for a fabric
EP2336890A1 (en) Root cause analysis method targeting information technology (it) device not to acquire event information, device and program
US7869349B2 (en) Method and system for deducing network routes by querying routers
CN106506490B (zh) 一种分布式计算控制方法以及分布式计算系统
CN108566296B (zh) 网络设备分层方法、网络管理设备及计算机可读存储介质
JP2011091464A (ja) ネットワーク構成の想定のための装置、システム
CN109936480B (zh) 网络拓扑发现方法及装置、存储介质及电子设备
CN112328421B (zh) 一种系统故障处理方法、装置、计算机设备和存储介质
US20110225296A1 (en) Autonomous management method for processing unexpecting events using interaction between nodes in sensor networks
JP5146020B2 (ja) 情報処理装置、リソース同定プログラム、リソース同定方法
JP2013542476A5 (zh)
CN114244683A (zh) 事件分类方法和装置
CN110858810B (zh) 网络链路状态监测方法、设备、系统及介质
EP3010182A1 (en) Fault management method and apparatus
JP2003032257A (ja) Lan構成装置の設置場所の特定方法および検索装置
US8005932B2 (en) Network discovery
JP2004336658A (ja) ネットワーク監視方法およびネットワーク監視装置
CN113746950A (zh) Ip地址冲突预检测方法、系统、计算机设备及存储介质
EP2669808A1 (en) Management device, management method, and management program
JP4808595B2 (ja) ネットワーク情報収集システム及びネットワーク情報収集方法
CN113328963A (zh) 一种路由表项下发与报文转发方法、装置及网络设备
US8463940B2 (en) Method of indicating a path in a computer network
CN113542127B (zh) 无角色vtep节点单vxlan拓扑查找方法及装置
CN115550192B (zh) 基于网内多源数据采集并分析资产连接关系的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant