CN106165345B - 促进化解数据中心中网络故障的方法、系统和计算机可读存储介质 - Google Patents

促进化解数据中心中网络故障的方法、系统和计算机可读存储介质 Download PDF

Info

Publication number
CN106165345B
CN106165345B CN201580015257.7A CN201580015257A CN106165345B CN 106165345 B CN106165345 B CN 106165345B CN 201580015257 A CN201580015257 A CN 201580015257A CN 106165345 B CN106165345 B CN 106165345B
Authority
CN
China
Prior art keywords
equipment
failure
alarm
network
troubleshooting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580015257.7A
Other languages
English (en)
Other versions
CN106165345A (zh
Inventor
N·贾因
R·波塔拉朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN106165345A publication Critical patent/CN106165345A/zh
Application granted granted Critical
Publication of CN106165345B publication Critical patent/CN106165345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)
  • Telephonic Communication Services (AREA)

Abstract

这里描述了涉及向数据中心中的操作者提供关于数据中心中的故障的辅助的各种技术。接收警报,并且基于警报的内容标识出故障的设备。将警报的故障状况映射到可以由出故障的设备展现的故障症状,并且从历史数据取回先前用来减轻故障症状的故障排除选项。向故障排除选项分别指派标签,其中标签指示已经被指派有标签的故障排除选项将减轻故障症状的概率。

Description

促进化解数据中心中网络故障的方法、系统和计算机可读存 储介质
背景技术
数据中心是通过网络相互通信并且结合地操作以向一个或者多个终端用户提供计算服务和/或数据存储服务的计算设备的汇集,其中终端用户可以是个人、企业等。数据中心因此包括许多计算设备、许多网络基础设施设备(比如路由器、重路由器、交换机、网关、防火墙、虚拟专有网络(VPN)、网桥等)、在计算设备与网络基础设施设备之间的通信链路以及在网络基础设施设备之间的通信链路。在提供前述服务时,通过网络并且在数据中心中的计算设备之间传输数据。网络基础设施设备被配置为通过网络指引流量。
在常规数据中心中,网络基础设施设备包括往往相对地昂贵的高端设备。然而,近来,数据中心已经被配置为包括许多商品(例如,现货)网络基础设施设备以减少与数据中心关联的资金成本。尽管这些商品设备成本少于“高端”设备,但是商品设备往往有些不如高端设备可靠,从而造成数据中心操作者保证无间断服务的增加的负担。然而,化解网络故障可能复杂并且因此耗费时间,因为数据中心中的网络基础设施设备可能由许多不同制造商制造,因为数据中心中的计算和/或网络设备可以让不同操作系统安装在其上,因为制造商可以生成不同型号的相同类型的设备等等。因此,在常规数据中心中存在显著数量的异构性。
在相对大的数据中心中,运用操作团队以保证满足向终端用户承诺(例如,在服务水平协定中)的计算服务和存储服务。因而,在网络设备(例如,计算设备或者网络基础设施设备)生成警报时,警报被引向由操作团队上的操作者监视的操作者控制台。操作者审查警报,并且基于个人知识和经验(以及可能地基于一些静态方针),操作者执行故障排除和调试以尝试仅减轻(而不是诊断)或者修复由警报指示的故障(通过诊断问题根本原因)。尽管这一方式可以对于相对小的数据中心是适合的,但是这样的方式没有缩放。例如,数据中心正在缩放以包括数十万个计算设备和数千个网络基础设施设备。在特定事件出现时,大量警报可能在相对少量时间内由数据中心中的设备生成。操作者必须解析警报以对将被初始地解决的警报进行优先级化,并且然后通常地使用试错方式(潜在地由预定义的由人生成的方针驱动)以解决被认为是高优先级的警报。由于潜在网络问题的相对高的复杂性,操作者可能需要延长的故障排除时间窗口,这可能造成服务停用。
发明内容
下文是这里更具体描述的主题内容的简要发明内容。这一发明内容并未旨在于关于权利要求的范围有所限制。
这里描述的是涉及标识可以用来化解数据中心中的网络故障的潜在故障排除选项和化解步骤的各种技术。向操作者提供故障排除选项和化解步骤,该操作者可以消耗故障排除选项和化解步骤并且使用提供的故障排除选项和化解步骤来化解网络故障。这里附加地描述的是涉及基于由数据中心中的设备生成的警报来对网络故障进行优先级化的各种技术,其中优先级化的列表可以被揭示给操作者以促进优先处理警报。
数据中心包括多个联网的计算设备,其中可以借助多个网络基础设施设备(比如路由器、协同路由器、交换机、负载平衡器、防火墙、虚拟专有网络(VPN)以及其它网络基础设施设备)通过网络链路在计算设备之间传输数据。计算设备和/或网络基础设施设备(统称为“设备”)可以被配置为生成指示网络故障的警报。例如,交换机可以被配置为在交换机检测到在交换机与另一设备之间的链路停用时生成警报。接收警报,并且关于警报是否指示可作用的网络事件(例如,将要被化解的网络故障)做出确定。在确定警报指示可化解的网络故障时,可以将故障状况和关联的遥测数据映射到在以下各项上经历的观测的症状的集合:1)出故障的设备或者链路;2)出故障的设备的平台;3)在网络拓扑中与出故障的设备邻接的设备;4)与出故障的设备共享性能的设备;和/或5)在与出故障的设备相同的数据中心中的设备以及其它方面。因而,可以对于出故障的设备或者链路标识至少一个症状(例如,“设备停用”、“链路抖动”、“高CPU利用率”…)。
响应于对于出故障的设备或者链路标识症状,可以标识可以潜在地化解网络故障的多个推荐的故障排除选项。故障排除选项可以基于以往观测的用于化解涉及出故障的设备或者链路、出故障的设备类型、出故障的设备平台等的网络故障的先前故障排除选项。故障排除选项可以具有向它们指派的相应的标签,其中标签指示故障排除选项在由操作者采取时将化解由警报指示的网络故障的相应的概率。可以基于故障排除选项在关于出故障的设备或者链路、出故障的设备类型、出故障的设备平台等采用时的以往成功或者失败标识标签。因而,可以向操作者提供用于化解网络故障的故障排除选项的列表以及分别向故障排除选项指派的标签,这些标签指示故障排除选项将化解网络故障的相应的概率。另外,操作者可以与故障排除选项的概率组合地运用领域知识(例如,来自由领域专家提供的经验或者知识)以确定用于执行以化解故障的动作的序列。
附加地,对于故障排除选项的列表中的故障排除选项,可以向操作者呈现多个调试步骤,其中可以向调试步骤指派分别指示调试步骤将纠正网络故障的概率的标签。在非限制的示例中,网络基础设施设备可以输出警报,该警报指示下游网络基础设施设备未答复心跳请求。可以接收警报,并且可以将警报中的故障状况映射到先前观测到的症状“设备停用”。对于这样的症状,可以向操作者呈现按照它们化解故障的相应的概率排名的三个故障排除选项:1)“检查线缆”、2)“检查电源”和3)“检查网卡”。向故障排除选项指派的标签可以指示第一故障排除选项最可能化解网络故障,第二故障排除选项第二最可能化解网络故障,并且第三故障排除选项第三最可能化解网络故障。另外,对于故障排除选项的列表中的故障排除选项,可以向操作者提供至少一个调试步骤。例如,对于故障排除选项“检查线缆”,可以向操作者呈现两个潜在调试步骤。每个调试步骤可以被指派有指示调试步骤将化解网络故障的概率的相应的标签。例如,可以呈现调试步骤“重装线缆”和“清理线缆”作为调试步骤,其中第一调试步骤被指示为比第二调试步骤更可能纠正网络故障。可能性的指示可以是基于由数据中心操作者对出故障的设备或者链路或者与出故障的设备或者链路有关的设备先前采取的观测到的调试步骤计算出的概率的函数。
数据驱动的方式可以用来标识故障排除选项和调试步骤,以及向故障排除选项和调试步骤指派相应的标签。例如,在操作者借助故障排除选项和对应的调试步骤化解网络故障时,操作者可以提供指示是否正确地标识了症状的反馈、可以标识选择了哪个故障排除选项并且可以标识哪些调试步骤用来化解网络故障。因而,在后续地接收到不同警报(涉及出故障的设备或者链路、出故障的设备的类型、出故障的设备的平台等)时,可以将故障状况适当地映射到症状,并且可以基于这一反馈更新分别向故障排除选项和调试步骤指派的标签。因此,故障排除选项和调试步骤的准确性可以随时间增加。
附加地,如这里将描述的那样,可以对警报进行分组以代表单个网络故障,并且可以对网络故障进行优先级化。也就是说,取代隔离地对待低级网络警报,警报可以被相互相关(分组)以代表单个网络故障。按照一个示例,这一分组可以基于三个标准:1)时间;由第一设备生成的第一警报可以与由相同接口上的第一设备或者第二设备在时间上新近地生成的第二警报被分组在一起;2)位置;第一警报可以与由第二设备生成的第二警报被分组在一起,该第二设备在网络中是第一设备的邻居(例如,在分级网络拓扑中的上游或者下游1-2个跳跃);以及3)冗余性;第一警报可以与由在与第一设备相同的冗余性组中的第二设备生成的第二警报被分组在一起(例如,该第二警报可以指示故障转移协议的问题)。对警报进行分组以代表网络故障可以用来对当前网络故障进行分类和排名,从而使得可能造成高业务影响的网络故障可以比造成低业务影响的网络故障被更高地优先级化。
以上发明内容呈现了简化的发明内容以便提供对这里讨论的系统和/或方法的一些方面的基本理解。这一发明内容不是对这里讨论的系统和/或方法的广泛概述。它并未旨在于标识重要/关键要素或者界定这样的系统和/或方法的范围。它的唯一目的是以简化的形式呈现一些概念作为后文呈现的具体实施方式的前序。
附图说明
图1图示了数据中心的示例性部分。
图2图示了示例西欧美国数据中心架构。
图3是接收由数据中心中的网络设备生成的警报并且响应于接收警报来输出故障排除选项和调试步骤的示例性化解系统的功能框图。
图4是在化解系统中包括的示例性化解标识器部件的功能框图。
图5是示例性故障历史表。
图6是示例性图形用户界面,该图形用户界面描绘了用于化解由警报指示的网络故障的潜在故障排除选项和调试步骤。
图7图示了在化解系统中可选地包括的示例性警报优先级化器部件。
图8是图示了用于输出故障排除选项的示例性方法的流程图,这些故障排除选项用于化解由网络设备生成的警报指示的网络故障。
图9是图示了用于首先对有关警报进行分组并且然后输出网络故障的排名的列表的示例性方法的流程图。
图10是图示了用于基于操作者反馈更新涉及数据中心的历史数据的示例性方法的流程图。
图11是示例性计算系统。
具体实施方式
现在参照附图描述涉及化解数据中心的网络故障的各种技术,其中相似标号用来全篇指代相似要素。在以下描述中,出于说明的目的,阐述了许多具体细节以便提供对一个或者多个方面的透彻理解。然而,可以不言而喻的是,没有这些具体细节仍然可以实现这样的方面。在其它实例中,以框图形式示出了公知的结构和设备以便促进描述一个或者多个方面。另外,将理解,被描述为由某些系统部件执行的功能可以由多个部件执行。相似地,例如,一个部件可以被配置为执行被描述为由多个部件执行的功能。
另外,措词“或者”旨在于意味着包含意义的“或者”而不是排他意义的“或者”。也就是说,除非另有指明或者从上下文清楚,短语“X运用A或者B”意味着自然的包含意义的排列组合中的任何排列组合。也就是说,以下实例中的任一实例满足短语“X运用A或者B”:X运用A;X运用B;或者X运用A和B二者。附加地,如在本申请和所附权利要求中使用的冠词“一个/一种”应当一般地被解释为意味着“一个或者多个”,除非另外指定或者从上下文清楚涉及单数形式。
另外,如这里所用,术语“部件”和“系统”旨在于涵盖计算机可读数据存储装置,该计算机可读数据存储装置被配置有在由处理器执行时使某个功能被执行的计算机可执行指令。计算机可执行指令可以包括例程、函数等。也将理解,部件或者系统可以被局限在单个设备上或者跨若干设备被分布。另外,如这里所用,术语“示例性”旨在于意味着用作某事物的例示或者示例而未旨在于指示偏好。
现在参照图1,图示了示例性数据中心100(这里被称为数据中心100)的一部分。数据中心100可以被配置为向终端用户102提供服务,其中这样的服务可以是计算服务和/或存储服务,并且其中终端用户102可以是个人、企业等。在一个示例中,数据中心100可以是由特定企业拥有的企业数据中心并且为企业提供计算和存储服务。在这样的情形中,终端用户102可以是在企业、企业的部门等中工作的个人。在另一示例中,数据中心100可以由第一公司操作,并且终端用户102可以是第二公司(例如,第一公司向第二公司出租数据存储和计算资源)。在又一示例中,数据中心100可以由公司操作,并且终端用户102可以是个人。可以由数据中心100赋予的示例性计算服务和/或存储服务包括电子邮件服务、搜索服务、存储、在线服务等。在一个示例中,终端用户102可以操作计算设备103并且可以借助计算设备103向数据中心100传输数据和从数据中心100接收数据,其中计算设备103可以是任何适当类型的计算设备、包括但不限于台式计算设备、移动计算设备(例如,膝上型计算设备、移动电话、平板计算设备、可穿戴计算设备等)、服务器等。
数据中心100包括多个计算设备104-110,其中计算设备104-110可以包括服务器、专用存储设备等。计算设备104-110被配置为基于来自终端用户102的计算设备103的请求执行动作(例如,存储数据、处理数据和/或传输数据)。例如,终端用户102可以请求对第一计算设备104的存储装置中的内容执行搜索,并且第一计算设备104可以被配置为响应于数据中心100接收请求来执行搜索并且输出搜索结果。在另一示例中,第二计算设备016可以存储搜索引擎索引的部分,并且可以被配置为响应于从计算设备103接收用于这样做的请求来向数据中心100中的另一计算设备(或者向另一数据中心)传输搜索引擎索引的部分。
数据中心100还包括多个网络基础设施设备114-120。网络基础设施设备被配置为促进在数据中心100中的计算设备104-110中的计算设备之间传输数据、促进在数据中心之间传输数据以及促进在由终端用户102操作的计算设备103与计算设备104-110之间传输数据。在图1中描绘的示例性数据中心100中,网络基础设施设备114-120包括两个交换机114和116、路由器118和防火墙120。数据中心100中的设备(其中“设备”统一地指代计算设备和网络基础设施设备)借助网络链路相互通信地耦合。因此,例如,第一计算设备104借助第一网络链路与交换机114通信地耦合,第二计算设备106借助第二网络链路与交换机114通信地耦合,交换机114借助第三网络链路通信地耦合到路由器118,等等。将理解,尽管数据中心100被示出为包括相对少量的设备,数据中心也可以包括数千个计算设备和数千个网络基础设施设备。另外,网络基础设施设备114-120可以包括基于硬件和/或软件的设备。例如,路由器118可以是由计算设备执行的基于软件的路由器。相似地,防火墙120可以是在硬件路由器或者计算设备中执行的软件防火墙。
计算设备104-110和/或网络基础设施设备114-120可以被配置为在检测到某些相应的事件时输出警报。在一个示例中,路由器118可以被配置为在路由器118输出被引向特定计算设备的心跳请求(例如,用于答复消息的请求)并且未能在从传输心跳的阈值时间量内接收一个或者多个响应时输出警报。在另一示例中,在数据中心100以内运行的分布式过程的集合(被称为“运行器”或者“看门狗”)或者在数据中心100以外运行的分布式过程的集合除了执行合成微事务的集合之外还周期性地向服务、服务器或者计算设备发送心跳请求以保证服务、服务器或者计算设备从终端用户的角度来看可用(例如,发送小的测试邮件以检查邮件服务正在恰当地运行)。可以在未接收到对心跳请求的响应时生成警报。因而,警报可以指示网络故障:例如,计算设备停用,或者在路由器118与特定计算设备之间的网络链路停用。在另一示例中,交换机114可以被配置为在经过交换机114被指引的数据量达到预定义的阈值时生成警报。
化解系统122接收由计算设备104-110和/或网络基础设施设备114-120生成的警报并且向由网络操作者126运用的操作者台124输出数据以辅助网络操作者126化解由至少一个警报指示的网络故障。如这里将更具体描述的那样,化解系统122可以基于至少一个接收到的警报标识网络故障,并且可以标识用于化解网络故障的多个潜在故障排除选项。故障排除选项可以被感知为可以由操作者执行的高级别检查,比如“检查网卡”、“检查线缆”等。另外,化解系统122可以向故障排除选项指派相应的标签,其中标签分别指示故障排除选项将在被网络操作者126采取时化解网络故障的概率。如这里将更具体描述的那样,化解系统122可以基于由网络操作者126(或者在用于数据中心100的操作团队中的其他操作者)采取的先前故障排除选项来标识故障排除选项和相应的标签以化解相似的网络故障(例如,具有相似症状的网络故障)。
因此,向操作者126提供操作者126可以逐步用来化解网络故障的故障排除选项的优先级化的列表。另外,故障排除选项可以具有向它指派的一个或者多个调试步骤,其中调试步骤向操作者126提供用于化解网络故障的更多粒度的指令(在与故障排除选项比较时)。在一个示例中,在操作者126选择特定故障排除选项时,可以向操作者126呈现调试步骤的列表。附加地,每个调试步骤可以具有向它指派的相应的标签,其中标签指示调试步骤将化解标识的网络故障的概率(假设故障排除选项是正确选项)。从操作者126的角度来看,向操作者126提供故障排除选项的列表,操作者126可以从该列表选择特定故障排除选项(例如,与化解网络故障的最高概率关联的故障排除选项),并且然后可以按照概率的顺序执行调试步骤。附加地,还可以向操作者126提供计数,这些计数指示采取故障排除选项和/或调试步骤的次数和/或故障排除选项和/或调试步骤成功的次数。例如,可以向两个故障排除选项指派等效概率(例如,50%)。然而,向第一故障排除选项指派的第一标签可以指示故障排除选项被采用两次并且成功一次,而向第二故障排除选项指派的第二标签可以指示故障排除选项被选择一千次并且成功五百次。在操作者126化解网络故障时,操作者126可以向化解系统122提供关于哪个故障排除选项(如果有)和哪些调试步骤(如果有)化解了网络故障的反馈。这一反馈可以在后续警报被接收时由化解系统122运用,其中故障排除选项、调试步骤和对应的标签可以基于反馈。因此,化解系统122使用数据驱动的方式以向操作者提供网络故障化解指令。
化解系统122还可以被配置为对针对操作者126的网络故障进行优先级化,从而使得优先处理(triage)网络故障。如本领域技术人员将理解的,一些网络故障对利润、数据吞吐量等比其他网络故障具有更大影响。化解系统122可以被配置为从计算设备104-110和/或网络基础设施设备114-120接收警报,并且将警报与至少一个其它警报分组在一起以代表单个网络故障。因此,取代操作者126分析低级独立警报,可以向操作者126提供网络故障的更高级别表示。另外,化解系统122可以相对于彼此对网络故障进行优先级化,从而使得操作者126首先被引向具有最高影响的故障排除网络故障,继而是具有更低影响的网络故障。
尽管化解系统122被示出为被包括在数据中心100中,但是将理解,可以在数据中心100外部的计算设备上执行化解系统122。例如,数据中心100可以包括被配置为向执行化解系统122的外部设备传输所有收集的网络警报的计算设备。另外,将理解,可以在一个计算设备上执行或者跨多个计算设备分布化解系统122。在又一示例中,化解系统122可以在虚拟机(VM)中执行,其中在一个计算设备上执行或者跨多个计算设备(在数据中心100内部或者外部)分布VM。
现在参照图2,图示了示例性(部分)数据中心架构200,其中可以在数据中心架构200中包括数据中心100。将理解,数据中心架构200是示例性的并且其它拓扑变体(比如平坦网络/Clos拓扑)可以包括数据中心100并且旨在于被所附权利要求覆盖。数据中心架构200包括多个架顶(ToR)交换机202-208。相应的多个架装服务器(未示出)可以被连接(或者双归属)到ToR交换机202-208中的每个ToR交换机。
架构200也包括主要聚合交换机210和备用聚合交换机212,其中ToR交换机202-208中的每个ToR交换机被连接到主要聚合交换机210和备用聚合交换机212(为了冗余性)。在实践中,数据中心包括若干对主要和备用聚合交换机,并且每个冗余对的聚合交换机聚合来自若干(例如,数十个)ToR交换机的流量。架构200可以包括被连接到主要聚合交换机210的第一冗余对的负载平衡器214-216以及被连接到备用聚合交换机212的第二冗余对的负载平衡器218和220。负载平衡器214-220可以执行在静态IP地址(例如,通过DNS暴露给客户端)与处理用户请求的服务器的动态IP地址之间的映射。
架构200还包括主要接入路由器222和备用接入路由器224。主要聚合交换机210、备用聚合交换机212、主要接入路由器222和备用接入路由器224可以形成冗余性组。在具有架构200的数据中心中,冗余的设备和链路组可以用来屏蔽网络故障。聚合交换机210-212向接入路由器222-224转发(从ToR 202-208聚合的)流量。架构200也包括各自被连接到两个接入路由器222-224的主要核心路由器226和备用核心路由器228。主要接入路由器222、备用接入路由器224、主要核心路由器226和备用核心路由器228形成另一冗余性组。接入路由器222-224例如路由来自上至数千个服务器的聚合的流量并且向核心路由器226-228路由流量。核心路由器226-228连接到数据中心网络的其余部件和因特网230。
在一个示例性实施例中,架构中的服务器(例如,耦合到ToR交换机202-208)可以被分割成虚拟局域网(VLAN)以限制开销并且隔离在网络中主控的不同应用。在数据中心拓扑的每层(其中TOR交换机的子集可能例外),冗余性(例如,1:1冗余性)可以被构建到网络拓扑中以减轻故障。另外,除了路由器和交换机之外,架构200还可以包括中间盒,比如负载平衡器、防火墙等。从前文可以查明计算设备104-110可以是架构中的服务器计算设备,交换机114-116可以是聚合交换机,路由器118可以是接入路由器或者核心接入区,等等。
现在参照图3,图示了化解系统122的功能框图。如以上指示的那样,化解系统122可以接收在不同时间点由数据中心100中的多个设备生成的警报。化解系统120包括接收由数据中心100中的设备生成的警报的警报接收器部件302。化解标识器部件304与警报接收器部件302通信并且被配置为查明由警报接收器部件302接收的警报是否指示可作用的网络故障(例如,操作者126可以经由故障排除和调试来化解的网络故障)。按照一个示例,由路由器118生成的警报可以指示路由器118不能与交换机116通信,该交换机116又可以(例如)指示以下各项中的任一项:1)路由器出故障、2)交换机停用;3)在路由器118与交换机116之间的网络链路上的线缆敷设松动等等。这些是可以由操作者126化解的可作用的网络故障。
化解系统122可以包括包括历史数据308的数据存储库306或者具有对其的访问。如以下将更具体描述的那样,历史数据306可以包括用于数据中心100中的设备和链路的“故障历史表”,其中用于设备或者链路的故障历史表可以包括描述设备或者链路的以往故障的信息,包括故障症状、最新近故障的时间、在阈值时间段内的故障数目、配置改变等。
在操作中,警报接收器部件302接收包括故障状况的警报。故障状况可以包括警报的生成时间、展现故障症状的设备或者链路的身份、生成警报的设备的身份、与检测到的事件对应的接口的标识、包括展现故障症状的设备或者链路的数据中心的身份等。化解标识器部件304基于警报(和可选地基于其它接收的警报)可以确定警报指示可作用的网络故障,并且还可以基于警报的内容标识出故障的设备或者链路(例如,在一些情况下,生成警报的设备并不是出故障的设备)。化解标识器部件304可以将在警报中指示的故障状况和关联的遥测数据映射到在历史数据308中包括的先前观测到的故障症状的集合。在一个示例中,出故障的设备或者链路可能先前已经展现了故障症状,与出故障的设备相同类型的设备可能先前已经展现了故障症状,与出故障的设备共享平台的设备可能先前已经展现了故障症状,网络中的邻近设备(例如,从出故障的设备的上游或者下游1-2个跳跃)可能先前已经展现故障症状,等等。还设想了在警报的故障状况不能被映射到症状的实例中,则静态方针可以被揭示给操作者126。
响应于经由映射标识观测的症状,化解标识器部件304可以对历史数据308执行统计分析以标识多个推荐的故障排除选项以及分别对应于故障排除选项的调试步骤,以用于由操作者126用来化解网络故障。另外,故障排除选项和关联的调试步骤可以各自按照置信度被排名,从而使得向操作者126最显著地呈现具有化解网络问题的最高置信度的故障排除选项和调试步骤。
例如,化解标识器部件304可以确定由交换机116生成的网络警报指示数据中心100中的第三计算设备108未对心跳请求做出响应,这些心跳请求可以例如被映射到用于第三计算设备108(或者数据中心100中或者另一数据中心中的其它设备)的以下先前观测到的故障症状:1)“链路抖动”;以及2)“设备停用”。对于由化解标识器部件304标识的这样的症状中的每个症状,化解标识器部件304可以标识历史数据308中的先前指示为被执行以化解具有这样的症状的网络故障的故障排除选项和对应的调试步骤。另外,化解标识器部件304可以向故障排除选项和调试步骤指派分别指示故障排除选项和调试步骤将减轻网络故障的概率的标签。以下进一步具体描述历史数据308中的数据的示例性结构,该结构促进症状、故障排除选项、调试步骤和标签的标识。
在一个示例性实施例中,化解标识器部件304然后可以向操作者126输出症状、故障排除选项、调试步骤和对应的标签。有效地,然后向操作者126提供用于每个症状的故障排除选项和化解步骤的优先级化的列表,该症状被映射到接收到的警报的故障状况(该警报指示可作用的网络故障)。操作者126然后可以按照基于向故障排除选项和调试步骤指派的标签的顺序逐步进行故障排除选项和调试步骤,从而造成相对高效地化解网络故障。
在另一示例性实施例中,化解标识器部件304可以标识至少一个故障排除选项和至少一个调试步骤,并且可以向数据中心100中的设备传输可以使至少一个故障排除选项被选择和至少一个调试步骤被执行的信号,而没有来自操作者126的介入。在一个非限制的示例中,化解标识器部件304可以确定存在重新引导交换机116将减轻观测到的网络故障症状的相对高概率。化解标识器部件304可以向交换机116传输使交换机116被重新引导的信号,而未向操作者126揭示警报或者以别的方式需要操作者介入。
在一个示例中,化解标识器部件304可以在以下各项时在向操作者126揭示故障排除选项和调试步骤之前尝试自动地化解网络故障:1)故障排除选项和调试步骤化解网络故障的计算出的概率在预定义的概率阈值(例如,0.9)以上;2)故障排除选项和调试步骤化解网络故障的计算出的概率在用于化解网络故障的故障排除选项和调试步骤的k个最高概率之中(例如,在最可能化解网络故障的三个故障排除选项和调试步骤之中);3)自动选择故障排除选项和执行调试步骤未造成冗余性故障;4)自动选择故障排除选项和执行调试步骤未花费多于阈值数量的时间(例如,一分钟);和/或5)自动选择故障排除选项和执行调试步骤未去除促进通过数据中心100传送相对大量流量的设备。也设想了用于确定何时自动选择调试选项和执行调试步骤的其它因素。
化解标识器部件304还可以被配置为向操作者126揭示涉及网络故障的附加数据。例如,化解标识器部件304可以查询历史数据308以跨多种维度聚合故障数据。在一个示例中,关于特定出故障的设备或者链路(例如,被标识为出故障的设备或者以别的方式由操作者126标识),化解标识器部件304可以输出数据,该数据指示设备或者链路已经出故障(例如,在阈值历史时间窗口内)的次数、设备或者链路出故障的频率相对于数据中心100中的其它设备或者链路出故障的频率、设备出故障的频率相对于数据中心100中的相同类型的其它设备出故障的频率等。
在另一示例中,操作者126可以阐述用于涉及特定设备类型、平台或者数据中心的信息的请求,并且化解标识器部件304可以跨多个参数聚合故障数据以揭示用于操作者126的故障信息。在一个非限制的示例中,响应于从操作者126接收用于关于设备平台的信息的请求,化解标识器部件304可以输出数据,该数据标识该平台上的最频繁地出故障的设备、平台上的设备故障相对于其它平台的频率、不同类型的设备的故障相对于彼此的频率等。
在又一示例中,操作者126可以请求揭示关于数据中心维度/轴而不是指定的设备或者设备类型的信息。例如,操作者126可以请求数据中心100中的最频繁地出故障的设备的标识,并且化解标识器部件304可以返回数据中心100中的最频繁地出故障的设备的列表。相似地,操作者126可以请求数据中心100中的最稳定设备的标识,并且化解标识器部件304可以返回数据中心100中的最不频繁地出故障的设备的列表。历史数据308的结构促进聚合关于多个维度/轴的信息。
化解系统122也可以包括反馈部件312,该反馈部件312被配置为从操作者126接收关于对于出故障的设备而观测到的症状的反馈、采取的用于纠正由出故障的设备引起的网络故障的故障排除选项和/或调试步骤以及其它信息。反馈部件312响应于从操作者126接收到信息然后可以被配置为更新历史数据308(例如,用于出故障的设备的历史故障表)。因此,在警报后续地由化解系统122接收时,化解标识器部件304可以基于操作者126的新近观测输出更新的故障症状、故障排除选项、调试步骤和/或标签。
化解系统122可以可选地包括事件优先级化器部件314,该事件优先级化器部件314对用于向操作者126呈现的可作用的网络故障进行优先级化。例如在特定时间窗口期间(例如,由于操作系统补丁初次公开),数据中心100中的许多设备可能生成警报,从而常规地要求操作者126解析大量警报以确定哪些警报代表可作用的网络故障并且进一步对网络故障进行优先级化。事件优先级化器部件314通过使若干警报相关以代表单一网络故障并且对网络故障进行优先级化(例如,按照网络故障的影响)来减轻对操作者126的负担。
结合对网络故障进行优先级化,数据存储库306可以包括代表数据中心100的分级网络拓扑的网路图310,并且事件优先级化器部件314可以基于网络图310对网络故障进行优先级化。例如,由与网络分级的最高级接近的(如在网络图形308中标识的)设备引起的网络故障引起高的服务停用风险,并且因此可以比由在网络分级中更低的设备引起的网络故障被更高地优先级化。在另一示例中,事件优先级化部件312可以按照可能由于相应的网络故障而被影响的性能数目(或者甚至有高的业务智能影响风险的单个性能)对网络故障进行优先级化。
现在参照图4,描绘了化解标识器部件304的功能框图。化解标识器部件304接收由数据中心100中的设备生成的警报400。例如,设备可以是计算设备104-110之一或者网络基础设施设备114-120之一。在图4中所示的示例中,警报400包括多个故障状况:1)指示警报何时由设备生成的时间戳;2)标识从设备生成的唯一警报的警报ID;3)标识生成了警报的设备的设备ID;4)标识正在经历故障的特定端口或者网络链路的接口链路;以及5)事件描述,该事件描述包括提供关于故障的更多细节的机器生成的文本并且由生成了警报400的设备输出。将理解,警报400的内容可以与图4中示出的和这里描述的内容不同。
化解标识器部件304接收警报400,并且在一个示例性实施例中,可以确定警报是否指示可作用的网络动作。更具体而言,化解标识器部件304包括故障标识器部件402,该故障标识器部件402分析警报400并且可以标识警报400代表可作用的网络故障,而且还可以标识出故障的设备或者链路(例如,基于设备ID和/或网络图310)。例如,生成了警报400的设备(生成设备)可能正在恰当地操作;然而,连接到生成了警报(例如,借助在警报400中标识的接口)的网络基础设施设备(出故障的设备)可能正在出故障。在一个示例中,警报400中的事件描述可以指示由设备ID标识的设备没有对在特定网络链路之上的心跳请求做出响应。
另外,故障标识器部件402可以向警报400指派元数据,该元数据指示由警报指示的网络故障的严重性。在一个示例中,响应于故障标识器部件402标识出故障的设备或者链路,故障标识器部件402可以标识由设备或者链路出故障引起的流量损失。例如,故障标识器部件402可以基于可能由警报400代表的事件引起的流量损失量向警报400指派多个预定义的值之一。因此,故障标识器部件402可以向警报400指派“高”、“中”或者“低”之一以代表网络警报的严重性。按照一个示例,这一值可以被放置在设备故障历史表和/或链路故障历史表中。
另外,故障标识器部件402可以向警报400指派值,该值指示与数据中心100中的冗余性有关的风险。例如,值可以指示由警报400代表的故障是否在冗余性组内引起流量损失。对于其中冗余性有效并且流量损失最少的事件,可以自动地选择故障排除选项,并且可以自动地执行调试步骤以自动优先处理由警报400代表的故障事件。示例性值可以包括“冗余性成功”、“冗余性故障”或者“冗余性处于风险”,其中“冗余性处于风险”可以指示出故障的设备或者链路是单支路的。
化解标识器部件304还包括映射器部件404。响应于故障标识器部件402标识出故障的设备或者链路,映射器部件404可以访问历史数据308并且将在警报400(或者代表网络故障的一组相关的警报)中指示的故障状况(和关联的遥测数据)映射到在历史数据308中代表的至少一个先前观测到的症状。
具体而言涉及历史数据308的一个示例性结构,历史数据308可以包括多个设备故障历史表406-408和多个链路故障历史表410-412,其中设备故障历史表406-408中的每个故障历史表用于数据中心100中的相应的设备,并且链路故障历史表410-412中的每个故障历史表用于数据中心100中的相应的链路。可选地,历史数据308可以包括用于其它数据中心中的设备/链路的故障历史表。另外,尽管历史数据308被示出为集中的,但是将理解,可以在许多存储设备之上分布故障历史表410-412。
第一设备故障历史表406可以包括用于数据中心100中的第一设备的历史故障信息。这一故障信息可以包括但不限于包括:1)描述第一设备的数据,包括第一设备的身份、第一设备的制造商、第一设备的类型、第一设备的型号、第一设备的平台等;2)第一设备随时间的可用性(和自从最新近故障起已经经过的时间量);3)网络监视数据,比如穿过第一设备的流量、第一设备的当前CPU和存储器利用率、第一设备随时间的CPU利用率、第一设备随时间的存储器利用率、第一设备的连接数目等;4)指示对第一设备做出的配置改变的数据;5)对于第一设备的观测到的故障症状、先前用来缓解故障症状的故障排除选项和先前被采取以化解故障症状的调试步骤;6)对第一设备执行的硬件和软件改变;7)历史上已经对设备工作的工程师和操作者的身份;以及8)对第一设备做出的超保修部件更换的数目。第n设备故障历史表408可以包括类似信息。简要地转向图5,图示了示例性故障历史表500的内容。
第一链路故障历史表410可以包括用于数据中心中的第一链路的历史故障数据。这一故障信息可以包括但不限于包括:1)描述第一链路的数据,包括第一设备的身份、经由第一链路连接的设备、这样的设备/链路的制造商、这样的设备的平台等;2)第一链路随时间的可用性(和自从最新近故障起已经经过的时间量);3)网络监视数据,比如通过链路的当前流量、通过链路的历史流量等;4)指示对经由链路耦合的设备的配置改变的数据;5)对于链路的观测到的故障症状、先前用来缓解故障症状的故障排除选项和先前被采取以化解故障症状的调试步骤;6)对经由链路连接的设备执行的硬件和软件改变;7)链路的类型,例如,铜比对光;8)链路的容量等。第m链路故障历史表412可以包括类似信息。
因此,映射器部件408可以接收警报400并且将警报400中的故障状况映射到在设备故障历史表406-408或者链路故障历史表410-412中的至少一个故障历史表中标识的对于出故障的设备的至少一个观测到的症状。例如,映射器部件404可以初始地访问出故障的设备的故障历史表,并且查明故障状况是否映射到对于出故障的设备的先前观测到的故障症状。映射器部件404然后可以将搜索扩展到网络中的邻近设备和/或与出故障的设备相同类型和/或型号的设备以标识映射到在警报400中指示的故障状况的先前观测到的故障症状。在一个非限制的示例中,映射器部件404可以将警报400的故障状况映射到先前观测到的症状:如在用于出故障的设备的故障历史表中标识的对于出故障的设备的:1)“设备停用”;以及2)“链路抖动”。
化解标识器部件304还包括标签指派器部件414,该标签指派器部件414将在历史数据308中标识的故障排除选项标识为先前被采取用以化解由映射器部件404标识的网络故障症状。标签指派器部件414还向相应的故障排除选项指派标签,其中标签指示故障排除选项将减轻网络故障症状的概率。
在一个示例性实施例中,标签指派器部件414可以初始地搜索出故障的设备的设备故障历史表(或者用于出故障的链路的链路故障历史表)以查明是否对于观测到的症状和设备先前已经采取了任何故障排除选项和/或调试步骤。在出故障的设备和/或链路已经受到相对大量故障排除和调试时,标签指派器部件414可以无需对历史数据308执行进一步搜索。例如,在用于出故障的设备的故障历史表指示重新引导设备的故障排除选项先前已经(和以高置信度)缓解了由出故障的设备展现的故障症状时,标签指派器部件414可以输出故障排除选项而不分析其它设备的其它故障历史表的内容。备选地,在用于出故障的设备的故障历史表指示出故障的设备先前尚未展现症状(或者已经不频繁地展现症状)时,则标签指派器部件414然后可以搜索其它设备(例如网络拓扑中的邻近设备、相同制造商的设备、相同类型的设备等)的故障历史表。通过对历史数据308中的故障历史表406-412进行搜索,标签指派器部件414可以标识用于化解故障症状的先前成功的故障排除选项和调试步骤以及相应的置信度标签。
化解标识器部件304还可以包括输出部件416,该输出部件416输出故障排除选项、调试步骤和对应的标签。在一个示例中,输出部件416可以向由操作者126运用的计算设备124的显示器输出这样的故障排除选项、调试步骤和标签。在另一示例中,输出部件416可以向不同计算设备传输故障排除选项、调试步骤和标签。在又一示例中,输出部件416可以使故障排除选项被自动地选择以及调试步骤被自动地执行而无操作者介入。
除了输出故障排除选项和调试步骤之外,输出部件416也可以输出(对于出故障设备或者链路)摘要故障历史表以用于向操作者126呈现。这可以向操作者126提供涉及先前设备或者链路故障的历史情境。例如,化解标识器可以维护用于数据中心100中的设备和/或链路的摘要故障历史表,其中示例性摘要故障历史表可以包括但不限于包括:1)设备或者链路的名称;2)关于设备或者链路相对于其它设备或者链路的故障率的指示(例如,关于设备或者链路是否为前k个问题设备的指示);3)对设备或者链路做出的新近改变(例如,硬件、软件和/或配置改变);4)自从设备或者链路上次出故障起的时间量;以及5)选择的新近故障排除选项和/或执行了故障排除的操作者。
现在参照图6,图示了可以在由操作者126运用的计算设备124的显示器上呈现的示例性图形用户界面600。图形用户界面600可以由化解标识器部件304生成。图形用户界面包括字段602,该字段602向操作者126呈现涉及由故障标识器部件402标识的出故障的设备或者另外让操作者126感兴趣的设备的以下信息:1)出故障的设备的名称;2)出故障的设备的型号;3)包括出故障的设备的数据中心的身份;4)出故障的设备的性能;5)出故障的设备的类型;6)新近硬件改变和新近软件改变;以及7)指向更具体描述这些改变的票券的链接。
图形用户界面600附加地包括字段604,该字段604例示了先前观测到的症状,这些症状映射到接收到的警报(例如,警报400)的内容。如图6中所示,示例性症状可以包括“链路抖动”和“设备停用”。字段604对于每个观测到的症状也包括多个潜在故障排除选项。例如,对于“设备停用”系统,在字段604中显示以下故障排除选项:1)“检查线缆”;2)“检查电源”;以及3)“检查网卡”。故障排除选项具有向它们指派的相应的标签,这些标签指示相应的故障排除选项将缓解对应的故障症状的概率。例如,向“检查线缆”故障排除选项指派标签,该标签指示存在通过利用与这样的故障排除选项对应的至少一个调试步骤对故障症状“设备停用”进行故障排除将缓解问题的60%的概率。相似地,可以向“检查功率供应”故障排除选项指派标签,该标签指示存在执行与这样的故障排除选项对应的调试步骤将造成缓解故障症状的25%的概率。
如查明的那样,每个故障排除选项具有与它对应的至少一个调试步骤。例如,故障排除选项“检查线缆”具有与它对应(并且在图形用户界面600中被图示)的两个调试步骤:1)“重装线缆”;以及2)“清理线缆”。也可以向这些调试步骤指派标签,这些标签指示化解步骤将化解故障症状的相应的概率(在选择母故障排除选项时)。
附加地,一些调试步骤可以具有向它们指派的更多指令以辅助操作者126执行调试步骤。例如,对于“更换网卡”调试步骤,可以响应于操作者选择图形用户界面600中的与前述化解步骤相邻被定位的图形图标606来向操作者126呈现更多指令。这可以造成显示弹出窗口607(或者分离的窗口),该弹出窗口(或者分离的窗口)向操作者126提供关于更换网卡的附加信息。附加信息在一个示例性实施例中可以具有向它指派的超链接,其中操作者126选择超链接可以将操作者引向附加信息。
图形用户界面600还可以包括各种字段608-612,这些字段608-612可以包括图形数据(例如,图形),这些图形数据代表出故障的设备的各种操作参数。例如,字段608可以描绘图形,该图形图示了在特定时间窗口内穿过出故障的设备的流量的数量,字段610可以描绘图形,该图形代表出故障的设备在时间窗口内的可用性,并且字段612可以描绘图形,该图形图示了在观察到出故障的设备已经出故障时的时间点。
图形用户界面600也可以包括促进从操作者126接收反馈的特征。例如,可以在图形用户界面600中包括按钮614,该按钮614在被选择时使窗口616呈现给操作者126,其中窗口126包括可以由操作者126填充的若干字段。这允许操作者126标识在对出故障的设备进行故障排除时观测到的症状、由操作者126在对出故障的设备进行故障排除时运用的故障排除选项和由操作者126在对出故障的设备进行故障排除时采取的调试步骤。
图形用户界面600也可以包括图形对象618,该图形对象618代表数据中心100的部分的拓扑视图,其中可以将在字段602中标识的设备表示为图形对象618中的中心图形图标620,并且从在字段602中标识的设备的一个跳跃的设备可以由包围中心图形图标620的图形图标622-634代表(例如,其中在图形图标之间的连接代表在它们之间的链路)。另外,图形图标620-634可以被色编码以指示由图形图标620-634代表的相应的设备的类型。在另一示例中,图形对象618中的图形图标620-634可以具有相应的形状,这些形状指示由图形图标代表的设备的类型。例如,被成形为方形的图形图标可以代表核心路由器,被成形为圆形的图形对象可以代表VPN,等等。图形对象618中的图形图标620-634可以是可选择的,其中选择图形图标使关于由图形图标代表的设备的信息在字段602(和在图形用户界面600中的其它字段)中被阐述。在又一示例中,图形图标的形状可以代表由图标代表的设备的类型,并且图形图标的颜色可以代表设备的制造商。也设想了其它变体。
现在参照图7,图示了事件优先级化器部件312的示例性描绘。事件优先级化器部件312可以接收由数据中心100中的设备生成的警报。事件优先级化器部件312包括警报相关器部件700,其中警报相关器部件700将警报相关成相应的组,其中组代表相应的网络故障。在一个示例性实施例中,警报相关器部件700在接收到警报时可以在历史数据308中执行搜索以标识可以与接收到的警报有关的新近警报。例如,警报相关器部件700可以在历史数据308中搜寻由相同设备生成和/或用于相同接口的先前警报(例如,在某个阈值历史时间窗口(比如最新近30分钟)内)。在一个示例性实施例中,警报相关器部件700可以将接收到的警报与在阈值时间窗口内由相同设备生成和/或用于相同接口的其它警报分组在一起。在另一示例中,警报相关器部件700可以将接收到的警报与由网络拓扑中的邻近设备生成的至少一个警报分组在一起(其中警报相关器部件700通过分析网络图310来标识邻近设备)。例如,警报相关器部件700可以将警报与在分级网络拓扑中的在出故障的设备上游或者下游1至2个跳跃的邻近设备上生成的、并且已经在从生成了接收到的警报的时间起的阈值时间量内生成的警报分组在一起。附加地,警报相关器部件700可以将接收到的警报与由网络冗余性组(具有生成了警报的设备)中的一个或者多个设备生成的可以相关的至少一个其它警报分组在一起(例如,例示故障转移协议的问题)。可以查明一组警报可以代表单个网络故障,并且不同组的警报可以代表不同网络故障。
具体而言涉及警报相关器部件700的操作,对于每个接收到的警报,警报相关器部件700可以尝试匹配警报与优先级事件或者麻烦票券(如果存在)。例如,警报相关器部件700可以对各种字段执行匹配:1)网络设备和/或接口名称,设备名称通常地被编码为aa-bb-cc-dd,其中aa是数据中心,bb是平台名称,cc是主控的服务或者应用的名称,并且dd是与生成了警报的设备的部署有关的逻辑编号;2)设备的类型;3)错误消息;以及4)事件通知时间。为了比较基于串的字段(设备名称和错误消息),警报相关器部件700可以使用多种串匹配算法(例如,编辑距离、Aho-Corasick模式匹配、Levenshtein距离等)。这允许匹配警报与新近以往的可能匹配(基于对通知时间设置阈值)。第二,警报相关器部件700可以基于在邻近设备上出现的故障来执行匹配。通过基于链路级连通分析网络图310来确定邻居。第三,警报相关器部件700可以基于网络设备的类型来执行匹配,例如,跨相同数据中心中的负载平衡器或者跨造成大型相关故障的多个数据中心的配置漏洞。
事件优先级化器312也包括对用于故障排除的警报(故障事件)的分组进行排名的排名器部件702。排名器部件702可以被配置为对事件进行优先级化以最小化对数据中心100和/或数据中心100的客户的负面影响。例如,排名器部件702可以基于出故障的设备接近网络分级的最高级来对事件进行优先级化,因为这样的设备引起相对高的服务停用风险。在另一示例中,排名器部件702可以按照可能由于设备的故障而被影响的性能的数目对事件进行优先级化。另外,单个性能的影响可以使排名器部件702向事件指派相对高的优先级。在另一示例中,排名器部件702可以基于由出故障的设备输送的流量的数量来对事件进行优先级化。在又一示例中,排名器部件702可以基于对经过数据中心100的流量的影响对事件进行优先级化,例如,设备的故障可能引起显著流量损失。在再一示例中,排名器部件702可以基于潜在冗余性故障来对事件进行优先级化。例如,未被设备内或者设备间冗余性屏蔽的故障事件可以被相对高地排名。最后,排名器部件702可以对由单支路的设备引起或者影响单支路的设备的故障事件进行优先级化。例如,涉及故障转移何处成功但是具有引起冗余性故障这一危险的事件可以被相对高地排名。事件优先级化器部件312的输出因此是事件的优先级化的列表,从而使得操作者126可以对网络故障进行优先级化以最小化它们对主控的应用和服务的影响。
图8至图10图示了涉及化解网络故障的示例性方法。尽管方法被示出和描述为在序列中被执行的一系列动作,但是将理解和认识到,方法不受序列的顺序限制。例如,一些动作可以在与这里描述的顺序不同的顺序中出现。附加地,一个动作可以与另一动作并行地出现。另外,在一些实例中,可以无需所有动作以实施这里描述的方法。
另外,这里描述的动作可以是可以由一个或者多个处理器实施和/或在一个或者多个计算机可读介质上存储的计算机可执行指令。计算机可执行指令可以包括例程、子例程、程序、执行的线程等。进而另外,方法的动作的结果可以被存储在计算机可读介质中、显示在显示设备上、等等。
现在参照图8,图示了流程图,该流程图图示了用于输出用于在对网络故障进行故障排除时使用的多个故障排除选项的示例性方法800。方法800在802处开始,并且在804处接收到指示网络故障的警报。警报由数据中心中的设备生成,该设备可以是计算设备或者网络基础设施设备。警报可以标识被认为出故障的设备、生成了警报的设备、在出故障的设备上的受影响的接口、指示何时生成了警报的时间戳以及其它数据。
在806处,响应于接收到警报,标识出故障的设备和/或出故障的链路。出故障的设备可以是生成了警报的设备或者与生成了警报的设备通信的设备。将理解,在出故障的设备生成警报时,它未必地意味着整个设备已经停用。实际上,警报可以指示设备的链路之一已经停用、设备的CPU利用率已经超过预定阈值、存储器利用率已经超过预定阈值,等等。在808处,响应于标识出故障的设备,将在警报中指示的故障状况映射到历史上观测到的故障症状,其中可能先前已经将故障症状观测为由出故障的设备、由与出故障的设备有关的设备等展现。如以上指示的那样,可以对于相应的网络设备维护故障历史表,这些故障历史表促进将警报中的故障状况映射到可能的故障症状。
在810处,对于标识的故障症状,标识多个故障排除选项,其中故障排除选项指示用于治疗故障症状的潜在的化解。另外,故障排除选项可以具有向它们指派的相应的标签,这些标签指示故障排除选项治疗故障症状的概率。标签可以是概率或者更审慎的标签(例如,高置信度、中置信度、低置信度等)。在812处,输出多个故障排除选项及其相应的标签以用于由操作者用来化解网络故障。如以上指出的那样,标签可以指示故障排除选项在由操作者采用时将分别减轻网络故障的置信度。方法800在814处完成。
现在参照图9,图示了促进对警报进行分组以标识网络故障并且对网络故障进行优先级化的示例性方法900。方法900在902处开始,并且在904处接收指示网络故障的警报。在906处,响应于接收到警报,向数据库发出查询。查询基于警报的生成时间、发出了警报的设备类型和设备在网络的分级中的位置。在908处,响应于发出查询,基于查询接收结果,这些结果包括第二警报。在910处,将警报与第二警报分组在一起,并且在912处,基于警报与第二警报的分组输出警报的排名的列表。方法900在914处完成。
现在参照图10,图示了用于接收关于故障排除选项和/或调试步骤的反馈并且基于反馈更新与故障排除选项和/或调试步骤对应的概率的示例性方法1000。方法1000在1002处开始,并且在1004处接收来自操作者的反馈。反馈可以标识1)出故障的网络设备或者链路(例如,包括设备的类型、设备的平台、设备在网络拓扑中的位置等);2)故障的症状;3)由操作者采取的用以减轻故障的故障排除选项的身份;4)故障排除选项是否成功地减轻了故障的指示;5)由操作者执行的用以减轻故障的调试步骤的身份;以及6)调试步骤是否成功地减轻了故障的指示。
在1006处,基于反馈更新描述网络故障的历史数据。更具体而言,可以基于接收到的反馈更新设备故障历史表和/或链路故障历史表。在1008处,在更新历史数据之后接收警报,并且在1010处,基于警报查询历史数据。例如,可以在若干维度(例如,设备ID、设备类型、设备平台、链路ID等)之上查询历史数据。在1012处,计算(例如,实时或者离线)用于故障排除选项和/或调试步骤的可以潜在地减轻由警报指示的网络故障的概率。这样的概率可以基于来自操作者的反馈,从而使得在接收到附加反馈时随时间细化概率。另外,如果操作者本来应采取先前未结合设备运用的故障排除选项,则可以用可以在生成相似警报时以后揭示的这一新故障排除选项更新历史数据和/或概率。方法1000在1014处完成。
现在参照图11,图示了可以根据这里公开的系统和方法使用的示例性计算设备1100的高级图示。例如,可以在系统中使用计算设备1100,该系统支持输出用于治疗数据中心中的故障症状的故障排除选项和调试步骤。又举例而言,可以在为操作者支持对网络故障进行优先级化的系统中使用计算设备1100。计算设备1100包括执行在存储器1104中存储的指令的至少一个处理器1102。指令可以例如是用于实施被描述为由以上讨论的一个或者多个部件执行的功能的指令或者用于实施以上描述的方法中的一种或者多种方法的指令。处理器1102可以借助系统总线1106访问存储器1104。除了存储可执行指令之外,存储器1104也可以存储故障历史表、网络图等。
计算设备1100附加地包括借助系统总线1106可由处理器1102访问的数据存储库1108。数据存储库1108可以包括可执行指令、故障历史表等。通信设备1100也包括允许外部设备与计算设备1100通信的输入接口1110。例如,输入接口1110可以用来从外部计算设备、从用户等接收指令。计算设备1100也包括使计算设备1100与一个或者多个外部设备对接的输出接口1112。例如,计算设备1100可以例如借助输出接口112输出文本、图像等。
设想了可以在提供用户可以与之交互的基本上任何类型的用户接口的环境中包括经由输入接口1110和输出接口1112与计算设备1100通信的外部设备。用户接口类型的示例包括图形用户界面、自然用户接口等等。例如,图形用户界面可以接受来自运用输入设备(比如键盘、鼠标、遥控等)的用户的输入并且在输出设备(比如显示器)上提供输出。另外,自然用户接口可以让用户能够以不受输入设备(比如键盘、鼠标、遥控等)强加的约束的方式与计算设备1100交互。实际上,自然用户接口可以依赖于话音识别、触摸和触笔识别、在屏幕上和与屏幕相邻二者的手势识别、空中手势、头和眼跟踪、语音和话音、视觉、触摸、手势、机器智能等等。
附加地,尽管被图示为单个系统,但是将理解,计算设备1100可以是分布式系统。因此,例如,若干设备可以借助网络连接来通信并且可以共同地执行被描述为由计算设备1100执行的任务。
可以在硬件、软件或者其任何组合中实施这里描述的各种功能。如果在软件中实施,则功能可以被存储在计算机可读介质上或者作为一个或者多个指令或者代码通过计算机可读介质而被传输。计算机可读介质可以是可以由计算机访问的任何可用存储介质。举例而言而非限制,这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或者其它光盘存储装置、磁盘存储装置或者其它磁存储设备或者可以用来以指令或者数据结构的形式输送或者存储希望的程序代码并且可以由计算机访问的任何其它介质。磁盘和光盘如这里所用包括紧致盘(CD)、激光盘、光盘、数字万用盘(DVD)、软盘和蓝光盘(BD),其中磁盘通常地磁再现数据而光盘通常用激光器光再现数据。另外,在计算机可读存储介质的范围内未包括传播的信号。计算机可读介质也包括通信介质,这些通信介质包括促进从一个地方向另一地方传送计算机程序的任何介质。连接例如可以是通信介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线(DSL)或者无线技术(比如红外线、无线电和微波)从网站、服务器或者其它远程源传输软件,则在通信介质的定义中包括同轴线缆、光纤线缆、双绞线、DSL或者无线技术(比如红外线、无线电和微波)。也应当在计算机可读介质的范围内包括以上示例的组合。
备选地或者附加地,这里描述的功能可以至少部分由一个或者多个硬件逻辑部件执行。例如,而无限制,可以使用的硬件逻辑部件的示例类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。
以上已经描述的内容包括一个或者多个实施例的示例。当然,不可能为了描述前述方面而描述以上设备或者方法的每个可设想的修改和变更,但是本领域普通技术人员可以认识到,各种方面的许多进一步修改和排列组合是可能的。因而,描述的方面旨在于涵盖落入所附权利要求的精神实质和范围内的所有这样的变更、修改和变化。另外,在具体实施方式或者权利要求中使用术语“包括”的程度上,这样的措词旨在于以与措词“包括”在权利要求中用作过渡词时解释“包括”的方式相似的方式有包含意义。

Claims (20)

1.一种促进化解数据中心中的网络故障的方法,包括:
接收由数据中心中的设备生成的警报,所述警报包括指示所述数据中心中的网络故障的故障状况;
响应于接收所述警报并且基于所述警报,标识引起所述网络故障的出故障的设备;
响应于标识所述出故障的设备,并且基于被保持在数据储存库中的历史数据中,基于所述故障状况和所述出故障的设备来标识所述网络故障的故障症状,其中所述历史数据包括:
至少一个故障症状;
关于所述数据中心中的所述出故障的设备先前采取的用于减轻所述网络故障的故障排除选项;以及
包括所述出故障的设备的历史故障频率的故障历史表;
响应于所述出故障的设备被标识而输出指示所述出故障的设备的所述历史故障频率的数据;
响应于标识所述出故障的设备,标识所述故障排除选项;
向所述故障排除选项指派标签,所述标签指示所述故障排除选项在关于所述出故障的设备被采取时将减轻所述故障症状的概率;
输出多个故障排除选项及其标签;
从操作者接收如下反馈:所述故障症状已经被减轻并且所述故障排除选项中的故障排除选项被用来减轻所述故障症状;以及
基于所述反馈来更新所述故障历史表。
2.根据权利要求1所述的方法,其中所述设备故障历史表还包括:
由所述出故障的设备先前展现的多个故障症状,所述故障症状被包括在由所述出故障的设备先前展现的所述多个故障症状中,以及
用于由所述出故障的设备先前展现的所述多个故障症状的第二故障排除选项。
3.根据权利要求1所述的方法,其中所述历史数据还包括用于在与所述出故障的设备相同的平台上的第二设备的第二设备故障历史表,所述第二设备故障历史表包括由所述第二设备先前展现的多个故障症状,并且其中所述故障症状被包括在由所述第二设备先前展现的所述多个故障症状中。
4.根据权利要求1所述的方法,其中所述历史数据还包括链路故障历史表,所述链路故障历史表包括涉及所述数据中心中的链路的历史故障的数据,并且其中所述链路故障历史表包括所述故障症状。
5.根据权利要求1所述的方法,还包括:
接收从所述故障排除选项对所述故障排除选项的选择;以及
响应于接收对所述一个故障排除选项的所述选择,显示调试步骤,所述调试步骤包括用于化解所述网络故障的指令。
6.根据权利要求1所述的方法,还包括:
响应于输出所述多个故障排除选项及其相应的标签,向所述出故障的设备传输信号,所述信号使所述故障排除选项中的所述故障排除选项在没有操作者介入的情况下被执行。
7.根据权利要求1所述的方法,还包括:
响应于接收所述警报,将所述警报与第二警报相关以代表所述网络故障,其中所述故障症状基于所述警报与所述第二警报相关而在所述历史数据中被标识。
8.根据权利要求7所述的方法,其中将所述警报与所述第二警报相关基于以下各项中的至少一项:在所述警报和所述第二警报被生成时之间的时间量,分别生成了所述警报和所述第二警报的设备,分别生成了所述警报和所述第二警报的所述设备的类型或者在分别生成了所述警报和所述第二警报的所述设备之间的跳跃的数目。
9.根据权利要求1所述的方法,还包括基于所述故障排除选项在所述历史数据中被指示为被采用的次数和所述故障排除选项被指示为成功地化解相应的网络故障的次数计算所述概率。
10.根据权利要求1所述的方法,其中所述设备是以下各项之一:交换机、路由器、重路由器、网关、集线器或者网桥。
11.一种促进化解数据中心中的网络故障的化解系统,所述化解系统包括:
至少一个处理器;以及
存储器,其存储指令,所述指令在由所述至少一个处理器执行时,使得所述至少一个处理器执行动作,所述动作包括:
接收由所述数据中心中的设备生成的警报,其中所述警报指示所述数据中心中的网络故障;
响应于接收所述警报,基于接收的所述警报中的故障状况标识所述网络故障的故障症状;
标识引起所述网络故障的出故障的设备,其中所述出故障的设备基于所述警报而被标识;
响应于所述出故障的设备被标识,输出指示相对于所述数据中心中的其他设备的历史故障频率、所述出故障的设备的历史故障频率的数据;以及
基于所述故障症状输出用于化解所述网络故障的故障排除选项,其中所述故障排除选项具有向它们指派的标签,所述标签指示所述故障排除选项在由所述数据中心的操作者执行时将化解所述网络故障的置信度。
12.根据权利要求11所述的化解系统,所述动作还包括基于涉及所述故障排除选项的操作者反馈确定所述标签,其中所述操作者反馈指示所述故障排除选项是否先前化解了所述网络故障。
13.根据权利要求11所述的化解系统,还包括数据存储库,所述数据存储库包括历史数据,其中所述历史数据包括用于所述出故障的设备的故障历史表,其中所述故障历史表包括所述故障症状,并且进一步其中所述故障历史表中的所述故障症状被映射到所述警报的所述故障状况。
14.根据权利要求13所述的化解系统,所述动作还包括:
从所述操作者接收反馈,其中所述反馈指示所述操作者是否通过使用所述故障排除选项成功地化解了所述网络故障;以及
基于所述反馈更新所述故障历史表。
15.根据权利要求11所述的化解系统,其中所述设备是以下各项之一:交换机、路由器、重路由器、网关、集线器或者网桥。
16.根据权利要求11所述的化解系统,所述动作还包括输出与所述故障排除选项中的故障排除选项对应的调试步骤,其中所述调试步骤向所述操作者提供用于化解所述网络故障的指令。
17.根据权利要求11所述的化解系统,其中所述故障历史表包括所述出故障的设备的所述历史故障频率。
18.根据权利要求11所述的化解系统,所述动作还包括:
响应于输出所述故障排除选项,向所述出故障的设备传输信号,所述信号使所述故障排除选项中的故障排除选项在没有操作者介入的情况下被执行。
19.一种包括指令的计算机可读存储介质,所述指令在由处理器执行时,使得所述处理器执行动作,所述动作包括:
接收警报,所述警报包括指示数据中心中的网络故障的故障状况;
响应于接收所述警报,标识引起所述网络故障的出故障的设备,所述出故障的设备基于所述故障状况被标识;
响应于所述出故障的设备被标识,输出指示所述出故障的设备的历史故障频率的数据;
响应于标识所述出故障的设备,基于所述故障状况来标识故障历史表中的故障症状,其中所述故障历史表指示由所述出故障的设备先前展现的所述故障症状,并且进一步其中所述故障历史表包括先前用来减轻所述故障症状的故障排除选项;
响应于标识所述故障症状,取回所述故障排除选项;以及
输出所述故障排除选项和用于所述故障排除选项的标签,所述标签指示所述故障排除选项在被操作者使用时将减轻所述故障症状的置信度,其中所述标签基于涉及所述故障排除选项的操作者反馈而被确定,并且进一步其中所述操作者反馈指示所述故障排除选项是否先前化解了所述网络故障。
20.根据权利要求19所述的计算机可读存储介质,所述动作还包括:
从所述操作者接收如下反馈:所述故障症状已经被减轻并且所述故障排除选项中的第一故障排除选项被用来减轻所述故障症状;以及
基于所述反馈来更新所述故障历史表。
CN201580015257.7A 2014-03-24 2015-03-19 促进化解数据中心中网络故障的方法、系统和计算机可读存储介质 Active CN106165345B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/223,995 2014-03-24
US14/223,995 US10263836B2 (en) 2014-03-24 2014-03-24 Identifying troubleshooting options for resolving network failures
PCT/US2015/021360 WO2015148234A1 (en) 2014-03-24 2015-03-19 Identifying troubleshooting options for resolving network failures

Publications (2)

Publication Number Publication Date
CN106165345A CN106165345A (zh) 2016-11-23
CN106165345B true CN106165345B (zh) 2019-11-26

Family

ID=52988406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580015257.7A Active CN106165345B (zh) 2014-03-24 2015-03-19 促进化解数据中心中网络故障的方法、系统和计算机可读存储介质

Country Status (6)

Country Link
US (2) US10263836B2 (zh)
EP (1) EP3123666B1 (zh)
JP (1) JP6959736B2 (zh)
CN (1) CN106165345B (zh)
RU (1) RU2682018C2 (zh)
WO (1) WO2015148234A1 (zh)

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10791148B2 (en) * 2013-04-29 2020-09-29 Moogsoft Inc. System in communication with a managed infrastructure
US10263836B2 (en) 2014-03-24 2019-04-16 Microsoft Technology Licensing, Llc Identifying troubleshooting options for resolving network failures
US9465685B2 (en) 2015-02-02 2016-10-11 International Business Machines Corporation Identifying solutions to application execution problems in distributed computing environments
US20160274962A1 (en) * 2015-03-19 2016-09-22 Alcatel-Lucent Usa Inc. Self-Tuning Troubleshooting Scripts
US10374904B2 (en) 2015-05-15 2019-08-06 Cisco Technology, Inc. Diagnostic network visualization
US10536357B2 (en) 2015-06-05 2020-01-14 Cisco Technology, Inc. Late data detection in data center
US9967158B2 (en) 2015-06-05 2018-05-08 Cisco Technology, Inc. Interactive hierarchical network chord diagram for application dependency mapping
US10142353B2 (en) 2015-06-05 2018-11-27 Cisco Technology, Inc. System for monitoring and managing datacenters
US10728085B1 (en) * 2015-09-15 2020-07-28 Amazon Technologies, Inc. Model-based network management
US10193742B2 (en) * 2015-10-29 2019-01-29 Kodacloud Inc. Selecting a corrective action for a network connection problem based on historical data
CN106834149B (zh) * 2015-12-03 2019-10-29 中国科学院沈阳应用生态研究所 成刚菌属嗜甲基短杆菌及其在降解磺酰脲除草剂的应用
US10291648B2 (en) * 2015-12-22 2019-05-14 At&T Intellectual Property I, L.P. System for distributing virtual entity behavior profiling in cloud deployments
CN107040395B (zh) * 2016-02-03 2019-11-15 腾讯科技(深圳)有限公司 一种告警信息的处理方法、装置和系统
US10073753B2 (en) * 2016-02-14 2018-09-11 Dell Products, Lp System and method to assess information handling system health and resource utilization
CN107171820B (zh) * 2016-03-08 2019-12-31 北京京东尚科信息技术有限公司 信息传输、发送、获取方法和装置
US10169133B2 (en) * 2016-04-26 2019-01-01 Juniper Networks, Inc. Method, system, and apparatus for debugging networking malfunctions within network nodes
US10289438B2 (en) 2016-06-16 2019-05-14 Cisco Technology, Inc. Techniques for coordination of application components deployed on distributed virtual machines
US10708183B2 (en) 2016-07-21 2020-07-07 Cisco Technology, Inc. System and method of providing segment routing as a service
US10972388B2 (en) 2016-11-22 2021-04-06 Cisco Technology, Inc. Federated microburst detection
US10469603B2 (en) * 2016-12-08 2019-11-05 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Using a historical record of actions taken by a group of users to identify responsive actions in a computing system
US10331507B2 (en) * 2016-12-21 2019-06-25 Mastercard International Incorporated Systems and methods for real time computer fault evaluation
WO2018127304A1 (en) * 2017-01-04 2018-07-12 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and method for network incident troubleshooting
US11329864B2 (en) * 2017-01-13 2022-05-10 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Remote computing system event resolution
US10275296B2 (en) * 2017-01-24 2019-04-30 Wipro Limited Method and system for resolving one or more errors in an enterprise storage system
US10708152B2 (en) 2017-03-23 2020-07-07 Cisco Technology, Inc. Predicting application and network performance
US10523512B2 (en) 2017-03-24 2019-12-31 Cisco Technology, Inc. Network agent for generating platform specific network policies
US10594560B2 (en) 2017-03-27 2020-03-17 Cisco Technology, Inc. Intent driven network policy platform
US10250446B2 (en) 2017-03-27 2019-04-02 Cisco Technology, Inc. Distributed policy store
US10764141B2 (en) 2017-03-27 2020-09-01 Cisco Technology, Inc. Network agent for reporting to a network policy system
CN107395659B (zh) * 2017-03-28 2021-08-24 创新先进技术有限公司 一种业务受理及共识的方法及装置
US10873794B2 (en) 2017-03-28 2020-12-22 Cisco Technology, Inc. Flowlet resolution for application performance monitoring and management
US10680887B2 (en) 2017-07-21 2020-06-09 Cisco Technology, Inc. Remote device status audit and recovery
CN107204883B (zh) * 2017-07-27 2020-09-08 北京小米移动软件有限公司 网络故障处理方法及装置
US10379934B2 (en) * 2017-07-31 2019-08-13 Oracle International Corporation System and method of providing post error analysis for instances of applications in cloud service environments on a per user basis
WO2019026171A1 (ja) * 2017-08-01 2019-02-07 株式会社日立製作所 ストレージシステムの管理システム
US10771314B2 (en) * 2017-09-15 2020-09-08 Accenture Global Solutions Limited Learning based incident or defect resolution, and test generation
US10554501B2 (en) 2017-10-23 2020-02-04 Cisco Technology, Inc. Network migration assistant
US10523541B2 (en) 2017-10-25 2019-12-31 Cisco Technology, Inc. Federated network and application data analytics platform
US10594542B2 (en) 2017-10-27 2020-03-17 Cisco Technology, Inc. System and method for network root cause analysis
US11233821B2 (en) 2018-01-04 2022-01-25 Cisco Technology, Inc. Network intrusion counter-intelligence
US10999149B2 (en) 2018-01-25 2021-05-04 Cisco Technology, Inc. Automatic configuration discovery based on traffic flow data
US10574575B2 (en) 2018-01-25 2020-02-25 Cisco Technology, Inc. Network flow stitching using middle box flow stitching
US10826803B2 (en) 2018-01-25 2020-11-03 Cisco Technology, Inc. Mechanism for facilitating efficient policy updates
US10798015B2 (en) 2018-01-25 2020-10-06 Cisco Technology, Inc. Discovery of middleboxes using traffic flow stitching
US11128700B2 (en) 2018-01-26 2021-09-21 Cisco Technology, Inc. Load balancing configuration based on traffic flow telemetry
US10628283B2 (en) * 2018-03-12 2020-04-21 Bank Of America Corporation Deployment tool that corrects deployment errors
US10838948B2 (en) * 2018-04-30 2020-11-17 Hewlett Packard Enterprise Development Lp Switch configuration troubleshooting
US10904070B2 (en) 2018-07-11 2021-01-26 Cisco Technology, Inc. Techniques and interfaces for troubleshooting datacenter networks
US10769006B2 (en) * 2018-07-31 2020-09-08 Cisco Technology, Inc. Ensemble risk assessment method for networked devices
US11200142B2 (en) * 2018-10-26 2021-12-14 International Business Machines Corporation Perform preemptive identification and reduction of risk of failure in computational systems by training a machine learning module
US11200103B2 (en) 2018-10-26 2021-12-14 International Business Machines Corporation Using a machine learning module to perform preemptive identification and reduction of risk of failure in computational systems
US10282248B1 (en) * 2018-11-27 2019-05-07 Capital One Services, Llc Technology system auto-recovery and optimality engine and techniques
US10275331B1 (en) 2018-11-27 2019-04-30 Capital One Services, Llc Techniques and system for optimization driven by dynamic resilience
US11601352B2 (en) * 2019-02-21 2023-03-07 Sandvine Corporation System and method for providing a network traffic portal
US11743105B2 (en) 2019-06-03 2023-08-29 Hewlett Packard Enterprise Development Lp Extracting and tagging text about networking entities from human readable textual data sources and using tagged text to build graph of nodes including networking entities
CN110247821B (zh) * 2019-06-04 2022-10-18 平安科技(深圳)有限公司 一种故障检测方法及相关设备
US10917288B2 (en) * 2019-06-25 2021-02-09 Bank Of America Corporation Adaptive edge-shift for enterprise contingency operations
US11294755B2 (en) * 2019-07-05 2022-04-05 Dell Products L.P. Automated method of identifying troubleshooting and system repair instructions using complementary machine learning models
US10691528B1 (en) * 2019-07-23 2020-06-23 Core Scientific, Inc. Automatic repair of computing devices in a data center
US11275664B2 (en) * 2019-07-25 2022-03-15 Dell Products L.P. Encoding and decoding troubleshooting actions with machine learning to predict repair solutions
TWI725552B (zh) * 2019-09-24 2021-04-21 旺捷智能感知股份有限公司 機台病灶分析系統及具有機台病灶分析功能之穿戴式電子裝置
US11144038B2 (en) * 2019-09-27 2021-10-12 Rockwell Automation Technologies, Inc. System and method for industrial automation troubleshooting
US10686645B1 (en) 2019-10-09 2020-06-16 Capital One Services, Llc Scalable subscriptions for virtual collaborative workspaces
US11477077B1 (en) 2019-10-30 2022-10-18 United Services Automobile Association (Usaa) Change management system with monitoring, alerting, and trending for information technology environment
CN112910781B (zh) * 2019-12-04 2022-12-06 中国电信股份有限公司 网络故障切换方法、装置、系统和存储介质
US10904383B1 (en) * 2020-02-19 2021-01-26 International Business Machines Corporation Assigning operators to incidents
US11283671B2 (en) * 2020-02-28 2022-03-22 Hewlett Packard Enterprise Development Lp Handling issues reported by network devices
US11501222B2 (en) 2020-03-20 2022-11-15 International Business Machines Corporation Training operators through co-assignment
EP3926891B1 (en) 2020-06-19 2024-05-08 Accenture Global Solutions Limited Intelligent network operation platform for network fault mitigation
US11204824B1 (en) 2020-06-19 2021-12-21 Accenture Global Solutions Limited Intelligent network operation platform for network fault mitigation
CN112118248B (zh) * 2020-09-11 2022-06-14 苏州浪潮智能科技有限公司 云平台虚拟机异常流量检测方法、装置、虚拟机及系统
US11593669B1 (en) * 2020-11-27 2023-02-28 Amazon Technologies, Inc. Systems, methods, and apparatuses for detecting and creating operation incidents
US11627032B2 (en) * 2020-11-30 2023-04-11 At&T Intellectual Property I, L.P. Data-powered shipwright for network cloud maintenance
CN112508129A (zh) * 2020-12-22 2021-03-16 珠海格力智能装备有限公司 设备的异常处理方法及装置
US11388039B1 (en) * 2021-04-09 2022-07-12 International Business Machines Corporation Identifying problem graphs in an information technology infrastructure network
US11677615B2 (en) * 2021-04-23 2023-06-13 Fortinet, Inc. Systems and methods for incorporating automated remediation into information technology incident solutions
JP7339298B2 (ja) * 2021-05-27 2023-09-05 株式会社日立製作所 情報処理システム及び方法並びに装置
WO2022259496A1 (ja) * 2021-06-10 2022-12-15 日本電信電話株式会社 分析装置、分析方法、および、分析プログラム
CN114418292A (zh) * 2021-12-14 2022-04-29 国电南瑞南京控制系统有限公司 一种系统级停电检修计划标准工期计算体系的构建方法
US20240179061A1 (en) * 2022-04-18 2024-05-30 Rakuten Mobile, Inc. System and method for auto-commissioning of network device
US12088347B2 (en) * 2022-04-22 2024-09-10 Bank Of America Corporation Intelligent monitoring and repair of network services using log feeds provided over Li-Fi networks
CN115934390A (zh) * 2022-11-10 2023-04-07 梅赛德斯-奔驰集团股份公司 处理应用程序崩溃的方法、系统和运行应用程序的设备
US11870648B1 (en) * 2023-05-22 2024-01-09 Saudi Arabian Oil Company System and method for systematically managing network devices

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2103744C1 (ru) * 1994-10-06 1998-01-27 Третьяков Сергей Александрович Система тревожной сигнализации
JPH08221295A (ja) * 1995-02-13 1996-08-30 Mitsubishi Electric Corp 障害支援装置
JPH08288944A (ja) * 1995-04-18 1996-11-01 Hitachi Ltd 通信設備管理システム
JPH09307550A (ja) * 1996-05-10 1997-11-28 Hitachi Ltd ネットワークシステム監視装置
US5881048A (en) * 1996-11-25 1999-03-09 Mci Communication Corporation Method and apparatus for determining maximum network failure spans forrestoration
JPH10312321A (ja) * 1997-05-12 1998-11-24 Hitachi Ltd オンラインシステム障害解析方法
US9197599B1 (en) * 1997-09-26 2015-11-24 Verizon Patent And Licensing Inc. Integrated business system for web based telecommunications management
FI107312B (fi) 1997-10-14 2001-06-29 Nokia Networks Oy Verkonvalvontamenetelmä tietoliikenneverkkoa varten
US7730172B1 (en) * 1999-05-24 2010-06-01 Computer Associates Think, Inc. Method and apparatus for reactive and deliberative service level management (SLM)
RU2304849C2 (ru) * 2002-11-21 2007-08-20 Хуавэй Текнолоджиз Ко., Лтд. Способ реализации передачи состояния линии связи в сети
JP2006085538A (ja) * 2004-09-17 2006-03-30 Nec Fielding Ltd 復旧支援方法及び復旧支援システム並びに復旧支援用プログラム
JP4586528B2 (ja) * 2004-12-22 2010-11-24 セイコーエプソン株式会社 ユーザサポート
CN100433642C (zh) * 2005-03-15 2008-11-12 华为技术有限公司 一种故障定位和故障排除方法和系统
US7669085B2 (en) * 2005-04-15 2010-02-23 Microsoft Corporation Method and apparatus for performing wireless diagnostics and troubleshooting
JP4626852B2 (ja) * 2005-07-11 2011-02-09 日本電気株式会社 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム
US8437246B1 (en) 2005-12-30 2013-05-07 At&T Intellectual Property Ii, L.P. Method and apparatus for providing internet protocol call signaling network assurance
US20080181100A1 (en) * 2007-01-31 2008-07-31 Charlie Chen-Yui Yang Methods and apparatus to manage network correction procedures
KR101459170B1 (ko) * 2007-04-23 2014-11-07 톰슨 라이센싱 게이트웨이 장치에서 장애 검출 및 완화를 위한 메커니즘
US8041663B2 (en) 2008-02-27 2011-10-18 International Business Machines Corporation Method for predicting problematic configurations and recommending safe configurations
JP4502037B2 (ja) * 2008-04-02 2010-07-14 トヨタ自動車株式会社 故障診断用情報生成装置及びシステム
US8332690B1 (en) 2008-06-27 2012-12-11 Symantec Corporation Method and apparatus for managing failures in a datacenter
JP2010045624A (ja) * 2008-08-13 2010-02-25 Fujitsu Ltd 保守システム
JP2010049551A (ja) * 2008-08-22 2010-03-04 Toshiba Corp 障害監視装置および障害監視方法
JP5439775B2 (ja) * 2008-09-17 2014-03-12 富士通株式会社 障害対応プログラム、障害対応装置、及び障害対応システム
US7962472B2 (en) 2008-09-29 2011-06-14 International Business Machines Corporation Self-optimizing algorithm for real-time problem resolution using historical data
CN102055604B (zh) * 2009-11-05 2012-12-05 中国移动通信集团山东有限公司 一种故障定位方法及其系统
CN102143008A (zh) 2010-01-29 2011-08-03 国际商业机器公司 用于数据中心的诊断故障事件的方法及装置
US8365009B2 (en) 2010-09-10 2013-01-29 Microsoft Corporation Controlled automatic healing of data-center services
US8560474B2 (en) 2011-03-07 2013-10-15 Cisco Technology, Inc. System and method for providing adaptive manufacturing diagnoses in a circuit board environment
US8806550B1 (en) * 2011-11-01 2014-08-12 TV2 Consulting, LLC Rules engine for troubleshooting video content delivery network
US9817709B2 (en) 2011-11-11 2017-11-14 Level 3 Communications, Llc Systems and methods for automatic replacement and repair of communications network devices
US20130232382A1 (en) 2012-03-01 2013-09-05 Microsoft Corporation Method and system for determining the impact of failures in data center networks
GB2500740B (en) * 2012-03-23 2014-07-09 Avaya Inc System and method for end-to-end RTCP
US9178778B2 (en) * 2012-03-23 2015-11-03 Avaya Inc. System and method for end-to-end RTCP
US9824403B2 (en) * 2012-08-17 2017-11-21 International Business Machines Corporation Measuring problems from social media discussions
US9026851B2 (en) * 2012-09-05 2015-05-05 Wipro Limited System and method for intelligent troubleshooting of in-service customer experience issues in communication networks
US9628362B2 (en) * 2013-02-05 2017-04-18 Cisco Technology, Inc. Learning machine based detection of abnormal network performance
US9411787B1 (en) * 2013-03-15 2016-08-09 Thousandeyes, Inc. Cross-layer troubleshooting of application delivery
EP3000254B1 (en) * 2013-05-22 2022-05-11 Vivo Mobile Communication Co., Ltd. Fault tracking in a telecommunications system
US9274902B1 (en) * 2013-08-07 2016-03-01 Amazon Technologies, Inc. Distributed computing fault management
US9443196B1 (en) * 2013-09-30 2016-09-13 Emc Corporation Method and apparatus for problem analysis using a causal map
US10263836B2 (en) 2014-03-24 2019-04-16 Microsoft Technology Licensing, Llc Identifying troubleshooting options for resolving network failures
US10142353B2 (en) * 2015-06-05 2018-11-27 Cisco Technology, Inc. System for monitoring and managing datacenters
US10102054B2 (en) * 2015-10-27 2018-10-16 Time Warner Cable Enterprises Llc Anomaly detection, alerting, and failure correction in a network
WO2017127421A1 (en) * 2016-01-18 2017-07-27 Qoscience, Inc. Method and apparatus for the detection of distortion or corruption of cellular communication signals
US9888397B1 (en) * 2016-09-16 2018-02-06 Verizon Patent And Licensing Inc. Intelligent network analytics architecture

Also Published As

Publication number Publication date
JP6959736B2 (ja) 2021-11-05
CN106165345A (zh) 2016-11-23
RU2016137896A (ru) 2018-03-28
US20150271008A1 (en) 2015-09-24
US11057266B2 (en) 2021-07-06
RU2682018C2 (ru) 2019-03-14
WO2015148234A1 (en) 2015-10-01
BR112016020189A8 (pt) 2021-06-29
EP3123666A1 (en) 2017-02-01
BR112016020189A2 (pt) 2017-08-15
US10263836B2 (en) 2019-04-16
US20190215236A1 (en) 2019-07-11
JP2017509262A (ja) 2017-03-30
EP3123666B1 (en) 2017-06-28
RU2016137896A3 (zh) 2018-09-19

Similar Documents

Publication Publication Date Title
CN106165345B (zh) 促进化解数据中心中网络故障的方法、系统和计算机可读存储介质
KR100714157B1 (ko) 컴퓨터 기반 방법, 컴퓨터 판독 가능 기록 매체 및 데이터 처리 시스템
CN113328872A (zh) 故障修复方法、装置和存储介质
US20080183855A1 (en) System and method for performance problem localization
US11860721B2 (en) Utilizing automatic labelling, prioritizing, and root cause analysis machine learning models and dependency graphs to determine recommendations for software products
CN106888106A (zh) 智能电网中的it资产大规模侦测系统
US11983105B2 (en) Systems and methods for generating and executing a test case plan for a software product
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
US20230168639A1 (en) Failure mode analytics
AU2022259730B2 (en) Utilizing machine learning models to determine customer care actions for telecommunications network providers
CN111539493A (zh) 一种告警预测方法、装置、电子设备及存储介质
US20220050733A1 (en) Component failure prediction
US20220138032A1 (en) Analysis of deep-level cause of fault of storage management
US9836382B2 (en) Cognitive platform for troubleshooting system events
Shen et al. Evolving from traditional systems to AIOps: design, implementation and measurements
JP7466479B2 (ja) 業務改善支援装置、プログラムおよびプログラムを格納した記憶媒体
US11822578B2 (en) Matching machine generated data entries to pattern clusters
Figalist et al. Supporting the devops feedback loop using unsupervised machine learning
CN109917776A (zh) 风力发电机组的故障智能分析方法及装置
CN110209558A (zh) 基于软件定义存储的智能运维方法和装置
US20220342743A1 (en) Recommendation system, configuration method therefor, and recommendation method
US11537914B2 (en) Systems and methods for determining developed code scores of an application
US9229898B2 (en) Causation isolation using a configuration item metric identified based on event classification
US20240303529A1 (en) Machine learning-based application management for enterprise systems
Guo et al. DTFL: A Digital Twin-assisted Graph Neural Network Approach for Service Function Chains Failure Localization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant