CN110932894A - 云存储系统的网络故障定位方法、装置及电子设备 - Google Patents

云存储系统的网络故障定位方法、装置及电子设备 Download PDF

Info

Publication number
CN110932894A
CN110932894A CN201911159396.3A CN201911159396A CN110932894A CN 110932894 A CN110932894 A CN 110932894A CN 201911159396 A CN201911159396 A CN 201911159396A CN 110932894 A CN110932894 A CN 110932894A
Authority
CN
China
Prior art keywords
network
link
fault
switch
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911159396.3A
Other languages
English (en)
Inventor
彭力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd, Beijing Kingsoft Cloud Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN201911159396.3A priority Critical patent/CN110932894A/zh
Publication of CN110932894A publication Critical patent/CN110932894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及云存储系统的网络故障定位方法、装置及电子设备。该方法包括:获取每个目标服务器发送的机器网络指标和链路网络指标,其中,链路网络指标包括:以目标服务器作为起点的每个链路的网络指标;获取交换机发送的交换机网络指标;将机器网络指标、链路网络指标和交换机网络指标分别与预设的标准值进行比较,获得故障定位结果。

Description

云存储系统的网络故障定位方法、装置及电子设备
技术领域
本发明涉及云存储技术领域,更具体地,涉及一种云存储系统的网络故障定位方法、一种云存储系统的网络故障定位装置、一种电子设备、一种云存储系统的网络故障定位系统以及一种可读存储介质。
背景技术
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
对于大规模分布式存储而言其网路故障的原因复杂,涉及的设备较多,通常采用人工分析链路流量、查询特定设备的指标等方式定位故障点。但是,上述方式的准确率低、耗时长、人力成本高。
因此,有必要提出一种新的云存储系统的网络故障定位方案。
发明内容
本发明的一个目的是提供一种新的云存储系统的网络故障定位方案。
根据本发明的第一方面,提供了一种云存储系统的网络故障定位方法,应用于故障分析服务器,所述云存储系统包括交换机和多个目标服务器,所述方法包括:
获取每个所述目标服务器发送的机器网络指标和链路网络指标,其中,所述链路网络指标包括:以所述目标服务器作为起点的每个链路的网络指标;
获取所述交换机发送的交换机网络指标;
将所述机器网络指标、所述链路网络指标和所述交换机网络指标分别与预设的标准值进行比较,获得故障定位结果。
可选地,所述机器网络指标包括所述目标服务器的丢包率和/或网络延时,所述链路网络指标包括以所述目标服务器作为起点的每个链路的丢包率和/或网络延时,所述交换机网络指标包括所述交换机的丢包率和/或网络延时。
可选地,所述将所述机器网络指标、所述链路网络指标和所述交换机网络指标分别与预设的标准值进行比较,获得故障定位结果,包括:
将所述链路网络指标与所述标准值进行比较,获取所述网络指标劣于所述标准值的链路,作为异常链路;
将所述异常链路对应的机器网络指标和交换机网络指标分别与所述标准值进行比较;如果所述机器网络指标劣于所述标准值,判断故障位置为相应的目标服务器;如果所述交换机网络指标劣于所述标准值,判断故障位置为相应的交换机;否则,判断故障位置为所述异常链路。
可选地,在将所述链路网络指标与所述标准值进行比较,获取所述网络指标劣于所述标准值的链路,作为异常链路之后,还包括:
判断是否存在多个所述异常链路共用同一交换机的情况;
如果存在,判断故障位置为所述共用的交换机。可选地,所述方法还包括:
将所述故障定位结果发送至显示终端,以供所述显示终端对所述故障定位结果进行显示。
可选地,所述方法还包括:
根据所述故障定位结果生成报警消息;
将所述报警消息发送至预设的终端设备。
根据本发明的第二方面,还提供了一种云存储系统的网络故障定位方法,应用于显示终端,包括:
获取本发明第一方面描述的故障分析服务器发送的故障定位结果;
根据所述故障定位结果生成结果展示列表;
对所述结果展示列表进行显示。
可选地,所述根据所述故障定位结果生成结果展示列表,包括:
根据每个链路的源IP和目的IP,获取所述结果展示列表的行坐标和列坐标;
在行和列的交点处显示对应所述行坐标和列坐标的链路是否发生故障;
将故障位置对应的所述行坐标、所述列坐标或者所述交点进行标记。
根据本发明的第三方面,还提供了一种云存储系统的网络故障定位装置,应用于故障分析服务器,所述云存储系统包括交换机和多个目标服务器,所述装置包括:
第一获取模块,用于获取每个所述目标服务器发送的机器网络指标和链路网络指标,其中,所述链路网络指标包括:以所述目标服务器作为起点的每个链路的网络指标;
第二获取模块,用于获取所述交换机发送的交换机网络指标;
数据处理模块,用于将所述机器网络指标、所述链路网络指标和所述交换机网络指标分别与预设的标准值进行比较,获得故障定位结果。
可选地,所述机器网络指标包括所述目标服务器的丢包率和/或网络延时,所述链路网络指标包括以所述目标服务器作为起点的每个链路的丢包率和/或网络延时,所述交换机网络指标包括所述交换机的丢包率和/或网络延时。
可选地,所述数据处理模块在将所述机器网络指标、所述链路网络指标和所述交换机网络指标分别与预设的标准值进行比较,获得故障定位结果时,还用于:
将所述链路网络指标与所述标准值进行比较,获取所述网络指标劣于所述标准值的链路,作为异常链路;
将所述异常链路对应的机器网络指标和交换机网络指标分别与所述标准值进行比较;如果所述机器网络指标劣于所述标准值,判断故障位置为相应的目标服务器;如果所述交换机网络指标劣于所述标准值,判断故障位置为相应的交换机;否则,判断故障位置为所述异常链路。
可选地,所述数据处理模块在将所述链路网络指标与所述标准值进行比较,获取所述网络指标劣于所述标准值的链路,作为异常链路之后,还用于:
判断是否存在多个所述异常链路共用同一交换机的情况;
如果存在,判断故障位置为所述共用的交换机。
根据本发明的第四方面,还提供了一种云存储系统的网络故障定位装置,应用于显示终端,包括:
结果获取模块,用于获取本发明第一方面所述的故障分析服务器发送的故障定位结果;
列表生成模块,用于根据所述故障定位结果生成结果展示列表;
显示模块,用于对所述结果展示列表进行显示。
可选地,列表生成模块在根据所述故障定位结果生成结果展示列表时,用于:
根据每个链路的源IP和目的IP,获取所述结果展示列表的行坐标和列坐标;
在行和列的交点处显示对应所述行坐标和列坐标的链路是否发生故障;
将故障位置对应的所述行坐标、所述列坐标或者所述交点进行标记。
根据本发明的第五方面,还提供了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令;
所述处理器执行所述机器可执行指令以实现本发明第一方面或者第二方面所述的云存储系统的网络故障定位方法。
根据本发明的第六方面,还提供了一种云存储系统的网络故障定位系统,包括云存储系统、执行本发明第一方面所述方法的故障分析服务器和执行本发明第二方面所述方法的显示终端,所述云存储系统包括交换机和多个目标服务器;其中,所述故障分析服务器分别于所述交换机、所述多个目标服务器和所述显示终端通信连接。
根据本发明的第七方面,还提供了一种可读存储介质,所述可读存储介质存储有可执行指令,所述可执行指令在被处理器调用和执行时,所述可执行指令促使处理器实现本发明第一方面或者第二方面所述的云存储系统的网络故障定位方法。
本实施例中云存储系统的网络故障定位方法、装置及电子设备,通过收集云存储系统中各网络设备(例如,服务器和交换机)的各类网络指标,并将各类网络指标与其对应的标准值进行比较,根据比较的结果来定位云存储系统中的故障位置,能够快速并且准确地确定故障位置,且故障定位结果对工作人员的经验依赖较低,因此定位结果更为客观,故障定位效率更高,且人力成本更低,此外,本发明实施例,可以对云存储系统中的所有的网络设备均进行检测和故障定位,较相关技术中采用抽样检测的方式而言,故障定位效率、准确率更高,有利于及时发现和处理云存储系统地网络故障。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是可用于实现本发明实施例的网络故障定位系统的示意图。
图2是可用于实现本发明实施例的电子设备的结构示意图。
图3是根据本发明实施例的云存储系统的网络故障定位方法的流程图。
图4示出了结果展示列表的一个例子。
图5示出了结果展示列表的另外一个例子。
图6示出了本发明的实施例的一个具体例子的流程图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1示出了可用于实现本发明实施例的网络故障定位系统的示意图。
如图1所示,本实施例中的网络故障定位系统1000包括云存储系统1100、故障分析服务器1200和显示终端1300,其中,云存储系统1100包括目标服务器Ⅰ、目标服务器Ⅱ……目标服务器N等多个目标服务器以及交换机,其中目标服务器之间通过交换机进行数据通信,交换机的数目可以为多个。
云存储系统1100用于提供云存储服务的分布式存储系统,相应地,其中的目标服务器是用于存储数据的服务器。
故障分析服务器1200是用于提供故障分析服务的设备。故障分析服务器1200可以是刀片服务器、机架式服务器等,故障分析服务器1200也可以是部署在云端的服务器集群,在此不做限定。
显示终端1300是用于显示故障分析结果的终端设备。显示终端1300例如是智能手机、台式计算机、笔记本电脑、平板电脑等等。
故障分析服务器1200分别与云存储系统1100中的每个目标服务器、交换机以及显示终端1300通信连接。这里的通信连接可以是有线连接也可以是无线连接。
网络故障定位系统1000涉及的电子设备具有如图2所示的结构。参见图2,电子设备2000包括处理器2100、存储器2200、接口装置2300、通信装置2400、显示装置2500和输入装置2600。处理器2100例如可以是中央处理器CPU、微控制单元MCU等。存储器2200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置2300例如包括USB接口、串行接口等。通信装置2400例如能够进行有线或无线通信。显示装置2500例如是液晶显示屏。输入装置2600例如可以包括触摸屏、键盘、鼠标、麦克风等。
本领域技术人员应当理解,尽管在图2中示出了电子设备2000的多个装置,但是,网络故障定位系统1000中的电子设备可以仅涉及其中的部分装置,例如,只涉及处理器2100、存储器2200和通信装置2400。
图1和图2所示的硬件配置仅是解释性的,并且决不是为了要限制本说明书、其应用或用途。
<方法实施例>
本实施例提供了一种云存储系统的网络故障定位方法,应用于图1所示的故障分析服务器1200。如图3所示,该方法包括以下步骤S1100-S1300。
在步骤S1100中,获取每个目标服务器发送的机器网络指标和链路网络指标。其中,链路网络指标包括:以目标服务器为起点的每个链路的网络指标。
本实施例中,云存储系统包括交换机和多个目标服务器。目标服务器之间通过交换机进行数据通信,交换机的数目可以为多个。其中,以某个目标服务器为起点、经过某一个交换机并以另外一个目标服务器为终点的数据传输路径形成一个链路。例如,在图1中,以目标服务器Ⅰ为起点、经过交换机并以目标服务Ⅲ为终点的数据传输路径形成一个链路。
本实施例中,机器网络指标反映目标设备自身的数据传输能力。在一个例子中,一个目标服务器的机器网络指标包括该目标服务器自身的丢包率和/或网络延时,通常受该目标服务器自身软硬件性能的影响,例如受网卡性能的影响。
本实施例中,链路网络指标包括以目标服务器为起点的每个链路的网络指标。在一个例子中,一个目标服务器的链路网络指标包括以该服务器为起点的每个链路的丢包率和/或网络延时。例如,在图1中,目标服务器Ⅰ的链路网络指标包括以目标服务器Ⅰ为起点的每个链路的丢包率/或网络延时,即以目标服务器Ⅰ为起点、以目标服务器Ⅱ为终点的丢包率/或网络延时,以目标服务器Ⅰ为起点、以目标服务器Ⅲ为终点的丢包率/或网络延时……以目标服务器Ⅰ为起点、以目标服务器N为终点的丢包率/或网络延时。
本实施例中,在每个目标服务器上部署了机器网络指标检测程序。通过执行该程序,目标服务器可以周期性的检测自身的机器网络指标,并将检测结果发送至故障分析服务器。
本实施例中,在每个目标服务器上部署了链路网络指标检测程序。通过执行该程序,目标服务器向其余每个目标服务器周期性地链路探测指令,并根据其余服务器对链路探测指令的反馈情况获得各个链路的网络指标,从而获得自身对应的链路网络指标,并将检测结果发送至故障分析服务器。
在步骤S1200中,获取交换机发送的交换机网络指标。
本实施例中,交换机网络指标反映交换机自身的数据传输能力。在一个例子中,一个交换机的网络指标包括该交换机自身的丢包率和/或网络延时。
本实施例中,在每个交换机上部署了交换机网络指标检测程序。通过执行该程序,交换机可以周期性的检测自身的交换机网络指标,并将检测结果发送至故障分析服务器。
在步骤S1300中,将机器网络指标、链路网络指标和交换机网络指标分别与预设的标准值进行比较,获得故障定位结果。
本实施例中,可以针对机器网络指标、链路网络指标和交换机网络指标中的每一种预设相应的标准值,即分别预设机器网络指标的标准值、链路网络指标的标准值和交换机网络指标的标准值。也可以针对三种指标预设统一的标准值。
在一个实施例中,步骤S1300进一步包括以下步骤S1310-S1320。
在步骤S1310中,将链路网络指标与标准值进行比较,获取网络指标劣于标准值的链路,作为异常链路。
本实施例中,将链路网络指标与标准值进行比较,也就是分别将每个链路的指标与标准值进行比较。
以网络指标为网络延时的情况为例,对于“起点服务器-交换机-终点服务器”这一链路,该链路上每个设备出现的网络延时都会最终反映到该链路的延时上。例如,假设起点服务器、交换机和终点服务器的网络延时均为5ms,则链路的网络延时至少为三者之和,即15ms。
通过步骤S1310,可以快速地确定故障链路,对于正常链路不再进行后续分析,有利于提高故障定位速度。
在步骤S1320中,将异常链路对应的机器网络指标和交换机网络指标分别与标准值进行比较;如果机器网络指标劣于标准值,判断故障位置为相应的目标服务器;如果交换机网络指标劣于标准值,判断故障位置为相应的交换机;否则,判断故障位置为异常链路。
本实施例中,将异常链路对应的机器网络指标和交换机网络指标分别与标准值进行比较。例如,对于“起点服务器-交换机-终点服务器”这一链路,分别将起点服务器的机器网络指标、交换机的交换机网络指标、终点服务器的机器网络指标与标准值进行比较。
本实施例中,如果机器网络指标劣于标准值,判断故障位置为相应的目标服务器。例如,如果起点服务器的网络延时大于标准值,判断故障位置为起点服务器。
本实施例中,如果交换机网络指标劣于标准值,判断故障位置为相应的交换机。例如,如果交换机的网络延时大于标准值,判断故障位置为交换机。
本实施例中,如果异常链路对应的机器网络指标和交换机网络指标均优于标准值,则判断故障位置为异常链路自身,即故障由异常线路上的各个环节共同导致。
在一个实施例中,在执行步骤S1310之后,判断是否存在多个异常链路共用同一交换机的情况;如果存在,判断故障位置为共用的交换机。
容易理解,对于多个交换机的情况,如果多个异常链路均经过同一交换机,即使该交换机对应的交换机网络指标优于标准值,也可根据上述情况判断该交换机可能存在故障。
在一个实施例中,网络故障定位方法还包括以下步骤:将故障定位结果发送至显示终端,以供显示终端对故障定位结果进行显示。如此,有利于直观展示故障位置。
在一个实施例中,网络故障定位方法还包括以下步骤:根据故障定位结果生成报警消息;将报警消息发送至预设的终端设备。
本实施例中,故障分析服务器将定位结果整合为报警消息,以邮件、短信、电话等形式发送给相关用户,以使相关用户及时获得全面准确的故障信息。
本实施例中云存储系统的网络故障定位方法、装置及电子设备,通过收集云存储系统中各网络设备(例如,服务器和交换机)的各类网络指标,并将各类网络指标与其对应的标准值进行比较,根据比较的结果来定位云存储系统中的故障位置,能够快速并且准确地确定故障位置,而故障定位结果对工作人员的经验依赖较低,因此定位结果更为客观、故障定位效率更高,且人力成本更低,此外,本发明实施例,可以对云存储系统中的所有的网络设备均进行检测和故障定位,较相关技术中采用抽样检测的方式而言,故障定位效率、准确率更高,有利于及时发现和处理云存储系统地网络故障。
本实施例还提供了一种云存储系统的网络故障定位方法,应用于图1所示的显示终端1300。该方法包括以下步骤S2100-S2300。
在步骤S2100中,获取故障分析服务器发送的故障定位结果。
本实施例中,故障分析服务器将故障定位结果发送至显示终端,以供显示终端对故障定位结果进行显示。
在步骤S2200中,根据故障定位结果生成结果展示列表。
在一个实施例中,步骤S2200进一步包括:根据每个链路的源IP和目的IP,获取结果展示列表的行坐标和列坐标;在行和列的交点处显示对应行坐标和列坐标的链路是否发生故障;将故障位置对应的行坐标、列坐标或者交点进行标记。
图4示出了结果展示列表的一个例子。在图4中,每个列的列坐标是链路的源IP(即起点服务器的IP),例如source_ip1、source_ip2等,每个行的行坐标是链路的目的IP(即终点服务器的IP),例如dest_ip1、dest_ip2等。
该例子中,在行坐标和列坐标的交点处显示了相应的链路是否发生故障。例如,在列坐标source_ip1的列和行坐标为dest_ip1的行的交点处,显示了起点服务器source_ip1至终点服务器dest_ip1之间链路是否故障,从图4中可以看出该链路为正常状态。
该例子中,将故障位置对应的行坐标、列坐标或者交点进行了标记。例如,标记为error1的交点表示相应的链路发生了故障,进一步地,该链路的目的IP(即dest_ip3)被标记,表示故障位置为终点服务器。又例如,标记为error2的交点表示相应的链路发生了故障,进一步地,该链路的源IP(即source_ip2)被标记,表示故障位置为起点服务器。又例如,标记为error3的交点表示相应的链路发生了故障,该链路对应的源IP和目的IP均没有标记,表示故障位置为该链路本身。
图5示出了结果展示列表的另外一个例子。在该例子中,有多个链路均为故障状态,并且这些链路共用一个交换机SWITCH-X,因此故障位置为该交换机。
图6示出了本发明的实施例的一个具体例子的流程图。该例子涉及的硬件包括云存储系统、故障分析服务器和显示终端。参见图6,首先,云存储系统获取自身的网络指标,包括机器网络指标、链路网络指标和交换机网络指标,即执行步骤S101。之后,云存储系统将网络指标发送至故障分析服务器,即执行步骤S102。故障分析服务器将网络指标与标准值进行比较,分析获得故障定位结果,即执行步骤S103。之后,故障分析服务器将故障定位结果发送至显示终端,即执行步骤S104。显示终端根据故障定位结果生成结果展示列表,即执行步骤S105。之后,显示终端将结果展示列表进行显示,即执行步骤S106。
<装置实施例>
本实施例提供一种云存储系统的网络故障定位装置,应用于故障分析服务器,云存储系统包括交换机和多个目标服务器,该装置包括第一获取模块、第二获取模块和数据处理模块。
第一获取模块,用于获取每个目标服务器发送的机器网络指标和链路网络指标,其中,链路网络指标包括:以目标服务器作为起点的每个链路的网络指标。
第二获取模块,用于获取交换机发送的交换机网络指标。
数据处理模块,用于将机器网络指标、链路网络指标和交换机网络指标分别与预设的标准值进行比较,获得故障定位结果。
在一个实施例中,机器网络指标包括目标服务器的丢包率和/或网络延时,链路网络指标包括以目标服务器作为起点的每个链路的丢包率和/或网络延时,交换机网络指标包括交换机的丢包率和/或网络延时。
在一个实施例中,数据处理模块在将机器网络指标、链路网络指标和交换机网络指标分别与预设的标准值进行比较,获得故障定位结果时,还用于:
将链路网络指标与标准值进行比较,获取网络指标劣于标准值的链路,作为异常链路;
将异常链路对应的机器网络指标和交换机网络指标分别与标准值进行比较;如果机器网络指标劣于标准值,判断故障位置为相应的目标服务器;如果交换机网络指标劣于标准值,判断故障位置为相应的交换机;否则,判断故障位置为异常链路。
在一个实施例中,数据处理模块在将链路网络指标与标准值进行比较,获取网络指标劣于标准值的链路,作为异常链路之后,还用于:
判断是否存在多个异常链路共用同一交换机的情况;
如果存在,判断故障位置为共用的交换机。
本实施例还提供一种云存储系统的网络故障定位装置,应用于显示终端,包括结果获取模块、列表生成模块和显示模块。
结果获取模块,用于获取本发明第一方面的故障分析服务器发送的故障定位结果。
列表生成模块,用于根据故障定位结果生成结果展示列表。
显示模块,用于对结果展示列表进行显示。
在一个例子中,列表生成模块在根据故障定位结果生成结果展示列表时,用于:根据每个链路的源IP和目的IP,获取结果展示列表的行坐标和列坐标;在行和列的交点处显示对应行坐标和列坐标的链路是否发生故障;将故障位置对应的行坐标、列坐标或者交点进行标记。
<电子设备实施例>
本实施例提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现本发明方法实施例描述的云存储系统的网络故障定位方法。
<网络故障定位系统实施例>
本实施例提供一种云存储系统的网络故障定位系统,包括云存储系统、执行前文描述方法的故障分析服务器和执行前文描述方法的显示终端,云存储系统包括交换机和多个目标服务器;其中,故障分析服务器分别于交换机、多个目标服务器和显示终端通信连接。
<可读存储介质实施例>
本实施例提供一种可读存储介质,可读存储介质存储有可执行指令,可执行指令在被处理器调用和执行时,可执行指令促使处理器实现本发明方法实施例描述的云存储系统的网络故障定位方法。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (13)

1.一种云存储系统的网络故障定位方法,应用于故障分析服务器,所述云存储系统包括交换机和多个目标服务器,所述方法包括:
获取每个所述目标服务器发送的机器网络指标和链路网络指标,其中,所述链路网络指标包括:以所述目标服务器作为起点的每个链路的网络指标;
获取所述交换机发送的交换机网络指标;
将所述机器网络指标、所述链路网络指标和所述交换机网络指标分别与预设的标准值进行比较,获得故障定位结果。
2.根据权利要求1所述的方法,其中,所述机器网络指标包括所述目标服务器的丢包率和/或网络延时,所述链路网络指标包括以所述目标服务器作为起点的每个链路的丢包率和/或网络延时,所述交换机网络指标包括所述交换机的丢包率和/或网络延时。
3.根据权利要求2所述的方法,其中,所述将所述机器网络指标、所述链路网络指标和所述交换机网络指标分别与预设的标准值进行比较,获得故障定位结果,包括:
将所述链路网络指标与所述标准值进行比较,获取所述网络指标劣于所述标准值的链路,作为异常链路;
将所述异常链路对应的机器网络指标和交换机网络指标分别与所述标准值进行比较;
如果所述机器网络指标劣于所述标准值,判断故障位置为相应的目标服务器;
如果所述交换机网络指标劣于所述标准值,判断故障位置为相应的交换机;
否则,判断故障位置为所述异常链路。
4.根据权利要求3所述的方法,其中,在将所述链路网络指标与所述标准值进行比较,获取所述网络指标劣于所述标准值的链路,作为异常链路之后,还包括:
判断是否存在多个所述异常链路共用同一交换机的情况;
如果存在,判断故障位置为所述共用的交换机。
5.根据权利要求1所述的方法,其中,还包括:
将所述故障定位结果发送至显示终端,以供所述显示终端对所述故障定位结果进行显示。
6.根据权利要求1所述的方法,其中,还包括:
根据所述故障定位结果生成报警消息;
将所述报警消息发送至预设的终端设备。
7.一种云存储系统的网络故障定位方法,应用于显示终端,包括:
获取权利要求1-6任一项所述的故障分析服务器发送的故障定位结果;
根据所述故障定位结果生成结果展示列表;
对所述结果展示列表进行显示。
8.根据权利要求7所述的方法,其中,所述根据所述故障定位结果生成结果展示列表,包括:
根据每个链路的源IP和目的IP,获取所述结果展示列表的行坐标和列坐标;
在行和列的交点处显示对应所述行坐标和列坐标的链路是否发生故障;
将故障位置对应的所述行坐标、所述列坐标或者所述交点进行标记。
9.一种云存储系统的网络故障定位装置,应用于故障分析服务器,所述云存储系统包括交换机和多个目标服务器,所述装置包括:
第一获取模块,用于获取每个所述目标服务器发送的机器网络指标和链路网络指标,其中,所述链路网络指标包括:以所述目标服务器作为起点的每个链路的网络指标;
第二获取模块,用于获取所述交换机发送的交换机网络指标;
数据处理模块,用于将所述机器网络指标、所述链路网络指标和所述交换机网络指标分别与预设的标准值进行比较,获得故障定位结果。
10.一种云存储系统的网络故障定位装置,应用于显示终端,包括:
结果获取模块,用于获取权利要求1-6任一项所述的故障分析服务器发送的故障定位结果;
列表生成模块,用于根据所述故障定位结果生成结果展示列表;
显示模块,用于对所述结果展示列表进行显示。
11.一种电子设备,包括处理器和存储器,
所述存储器存储有能够被所述处理器执行的机器可执行指令;
所述处理器执行所述机器可执行指令以实现权利要求1至8任一项所述的云存储系统的网络故障定位方法。
12.一种云存储系统的网络故障定位系统,包括云存储系统、执行所述权利要求1-6任一项所述方法的故障分析服务器和执行所述权利要求7-8任一项所述方法的显示终端,所述云存储系统包括交换机和多个目标服务器;其中,所述故障分析服务器分别于所述交换机、所述多个目标服务器和所述显示终端通信连接。
13.一种可读存储介质,所述可读存储介质存储有可执行指令,所述可执行指令在被处理器调用和执行时,所述可执行指令促使处理器实现权利要求1-8任一项所述的云存储系统的网络故障定位方法。
CN201911159396.3A 2019-11-22 2019-11-22 云存储系统的网络故障定位方法、装置及电子设备 Pending CN110932894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911159396.3A CN110932894A (zh) 2019-11-22 2019-11-22 云存储系统的网络故障定位方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911159396.3A CN110932894A (zh) 2019-11-22 2019-11-22 云存储系统的网络故障定位方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN110932894A true CN110932894A (zh) 2020-03-27

Family

ID=69851702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911159396.3A Pending CN110932894A (zh) 2019-11-22 2019-11-22 云存储系统的网络故障定位方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110932894A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112600687A (zh) * 2020-11-16 2021-04-02 新华三大数据技术有限公司 一种物理位置信息维护方法、装置及网络设备、存储介质
CN112838962A (zh) * 2020-12-31 2021-05-25 中国银联股份有限公司 一种大数据集群的性能瓶颈检测方法及装置
CN114024834A (zh) * 2021-10-21 2022-02-08 济南浪潮数据技术有限公司 故障定位方法、装置、电子设备及可读存储介质
CN115065586A (zh) * 2022-05-30 2022-09-16 齐鲁中科电工先进电磁驱动技术研究院 控制系统故障检测及数据通道切换方法、装置及电子设备
CN115529228A (zh) * 2022-09-20 2022-12-27 浪潮思科网络科技有限公司 一种基于浏览器端的故障定位方法、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106130767A (zh) * 2016-09-23 2016-11-16 深圳灵动智网科技有限公司 一种业务路径故障监控及故障解决的系统和方法
CN107294786A (zh) * 2017-07-13 2017-10-24 郑州云海信息技术有限公司 一种故障信息处理方法及装置
US20180013798A1 (en) * 2016-07-07 2018-01-11 Cisco Technology, Inc. Automatic link security
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及系统
CN107911240A (zh) * 2017-11-14 2018-04-13 北京知道创宇信息技术有限公司 一种故障检测方法以及装置
US20180165280A1 (en) * 2016-12-09 2018-06-14 Nhn Entertainment Corporation Method and system for managing cloud storage
CN109728931A (zh) * 2017-10-31 2019-05-07 杭州华为数字技术有限公司 网络的故障定界方法、装置以及计算机存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180013798A1 (en) * 2016-07-07 2018-01-11 Cisco Technology, Inc. Automatic link security
CN106130767A (zh) * 2016-09-23 2016-11-16 深圳灵动智网科技有限公司 一种业务路径故障监控及故障解决的系统和方法
US20180165280A1 (en) * 2016-12-09 2018-06-14 Nhn Entertainment Corporation Method and system for managing cloud storage
CN107294786A (zh) * 2017-07-13 2017-10-24 郑州云海信息技术有限公司 一种故障信息处理方法及装置
CN109728931A (zh) * 2017-10-31 2019-05-07 杭州华为数字技术有限公司 网络的故障定界方法、装置以及计算机存储介质
CN107911240A (zh) * 2017-11-14 2018-04-13 北京知道创宇信息技术有限公司 一种故障检测方法以及装置
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112600687A (zh) * 2020-11-16 2021-04-02 新华三大数据技术有限公司 一种物理位置信息维护方法、装置及网络设备、存储介质
CN112600687B (zh) * 2020-11-16 2022-07-12 新华三大数据技术有限公司 一种物理位置信息维护方法、装置及网络设备、存储介质
CN112838962A (zh) * 2020-12-31 2021-05-25 中国银联股份有限公司 一种大数据集群的性能瓶颈检测方法及装置
CN114024834A (zh) * 2021-10-21 2022-02-08 济南浪潮数据技术有限公司 故障定位方法、装置、电子设备及可读存储介质
CN114024834B (zh) * 2021-10-21 2024-08-16 济南浪潮数据技术有限公司 故障定位方法、装置、电子设备及可读存储介质
CN115065586A (zh) * 2022-05-30 2022-09-16 齐鲁中科电工先进电磁驱动技术研究院 控制系统故障检测及数据通道切换方法、装置及电子设备
CN115529228A (zh) * 2022-09-20 2022-12-27 浪潮思科网络科技有限公司 一种基于浏览器端的故障定位方法、设备及介质

Similar Documents

Publication Publication Date Title
CN110932894A (zh) 云存储系统的网络故障定位方法、装置及电子设备
US11550628B2 (en) Performing runbook operations for an application based on a runbook definition
CN113987074A (zh) 分布式服务全链路监控方法、装置、电子设备及存储介质
CN111190888A (zh) 一种管理图数据库集群的方法和装置
US9250895B2 (en) Establishing subsystem boundaries based on call flow graph topology
US20150242380A1 (en) Checking testing coverage
US10897512B2 (en) Generating push notifications
CN112486820A (zh) 用于测试代码的方法、装置、设备以及存储介质
JP7132999B2 (ja) アプリケーションの動作状態を検証する方法および装置
US9946630B2 (en) Efficiently debugging software code
US11593478B2 (en) Malware collusion detection
CN111026572A (zh) 分布式系统的故障处理方法、装置及电子设备
JP2022033685A (ja) 堅牢性を確定するための方法、装置、電子機器、コンピュータ可読記憶媒体、及びコンピュータプログラム
CN110377341A (zh) 一种监听无响应异常的方法、装置、介质和电子设备
CN110096413A (zh) 一种磁盘定位方法、系统及电子设备和存储介质
CN110943887B (zh) 探针调度方法、装置、设备和存储介质
CN110620806B (zh) 信息生成方法和装置
CN110737560B (zh) 一种服务状态检测方法、装置、电子设备和介质
CN111190791A (zh) 应用异常上报方法、装置和电子设备
CN112954056A (zh) 监控数据处理方法、装置、电子设备及存储介质
CN113176989B (zh) 日志文件的解析方法、装置、设备及存储介质
CN115309730A (zh) 数据审核方法、装置、电子设备及存储介质
CN114327577A (zh) 一种代码变动的确定方法、装置、电子设备及存储介质
CN111290870B (zh) 一种检测异常的方法和装置
US9678821B2 (en) Operating a trace procedure for a computer program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327

RJ01 Rejection of invention patent application after publication