CN104798341B

CN104798341B - 在电子网络上表征服务水平

Info

Publication number: CN104798341B
Application number: CN201380059928.0A
Authority: CN
Inventors: N·简恩; R·波塔居
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2012-11-15
Filing date: 2013-11-14
Publication date: 2019-04-16
Anticipated expiration: 2033-11-14
Also published as: WO2014078592A2; WO2014078592A3; CN104798341A; EP2920917B1; US9325748B2; US20140136684A1; EP2920917A2

Abstract

所描述的各实现涉及电子数据的处理。一实现表现为一系统，该系统可包括事件分析组件和被配置成执行该事件分析组件的一个或多个处理设备。事件分析组件可被配置成从事件日志获得事件，该事件反映一个或多个数据中心中的一个或多个网络设备发生的故障，并且基于事件来表征应用或网络设备的服务水平。例如，事件分析组件可被配置成基于应用的一个或多个网络戳记来表征应用的可用性。

Description

在电子网络上表征服务水平

背景

应用通常被部署在数据中心内，其中应用在一个或多个服务器上执行。数据中心通常具有包括多个不同网络设备(诸如各种类型的路由器、交换机等)的网络。任意单个网络设备的故障有时能导致应用从数据中心外部不可用。由此，从终端用户的观点来看，应用的可用性不仅仅依赖于应用本身是否正常运行，还依赖于将应用连接到终端用户的居间网络设备的正常运行。

为了解决这个问题，网络设备可被部署在冗余对或更大的分组中。冗余网络设备和/或链接可提供一些对单个设备故障或链接故障的保全措施，因为当给定分组中的单个设备/链接发生故障时，其他设备有时将继续工作，由此，应用依然可被终端用户获得。由此，某个应用是否可从数据中心外部获得不仅仅依赖于单个网络设备的正常运行，还依赖于在冗余分组中的一个或多个设备发生故障时，冗余分组有多有效地处于保持连接。

概述

以上列出的示例旨在提供快速参考以帮助读者，并且不旨在限定此处所描述的概念的范围。

本文档涉及处理电子数据。一个实现表现为能包括从一个或多个事件日志中获得事件的技术。事件可反映一个或多个数据中心中的一个或多个网络设备发生的故障。该技术还可包括使用一个或多个准则来过滤事件以获得事件子集。该技术还可包括确定一应用的一个或多个网络戳记，使用该事件子集来表征一个或多个网络戳记中各个网络设备的一个或多个服务水平，以及基于一个或多个网络戳记中的各个网络设备的服务水平来表征该应用的服务水平。

另一实现表现为包括指令的一个或多个计算机可读存储设备，所述指令在被一个或多个处理设备执行时使得所述一个或多个处理设备执行动作。动作可包括从一个或多个事件日志中获得事件。事件可反映一个或多个数据中心中的一个或多个网络设备发生的故障。动作还可包括使用一个或多个准则来过滤事件以获得事件子集并使用该事件子集来表征网络设备的一个或多个服务水平。动作还可包括确定服务水平的一个或多个相关并基于该一个或多个相关来标识一个或多个有风险的设备。

另一实现表现为一系统，该系统可包括事件分析组件和被配置成执行该事件分析组件的一个或多个处理设备。事件分析组件可被配置成从事件日志获得事件，事件反映网络上的由一个或多个数据中心中的一个或多个网络设备发生的故障。事件分析组件还可被配置成基于事件来表征应用或网络设备的服务水平，以及标识用于改变应用或网络设备的服务水平的一个或多个推荐的潜在网络改变。一个或多个推荐的潜在网络改变可基于与所推荐的潜在网络改变相关联的预期成本或预期收益中的至少一个来推荐。

附图说明

附图示出了本专利中传达的概念的实现。示出的实现的特点将参考以下描述并结合附图来更容易地理解。各个附图中的类似附图标记被用于指示类似的元素。此外，每一个如图标记的最左边的数字传达其中首次引入该附图标记的附图及相关联的讨论。

图1-3和8显示了其中可根据某些实现来采用所提出的概念的示例性数据中心架构。

图4示出其中可采用所提出的概念的示例系统。

图5示出根据某些实现可被配置成实现某些概念的示例计算机或计算设备。

图6、7和10是用于根据某些实现实现某些概念的流程图。

图9和11显示可根据某些实现来相对于某些概念生成的图像用户界面的屏幕截图。

详细描述

概览

本讨论涉及表征电子网络上的设备或应用的服务水平。出于本文档的目的，术语“服务水平”包括诸如可靠性、可用性、通信量流/损失等概念。例如，可用性涉及给定应用、设备或硬件/软件组件在给定时间段上平均运行的时间片段，例如，如按时间基础(诸如按一年的基础)测量的“运行时间”。可靠性涉及给定应用、设备或硬件组件的故障的可能性，例如，到下一故障的预期时间。故障涉及当给定应用、设备或组件不如期地执行时的实例。

可用性、可靠性以及故障的具体定义可在各参考文献中找到。虽然以下定义不在本文中被显式地采取，但是以下定义可提供关于术语可用性、可靠性和故障的更清楚的解释。例如，MIL-STD 721C将可用性定义为一项目处于可操作和可提交状态中的程度的测量。MIL-STD 721C将可靠性定义为(1)在规定条件下没有故障执行的持续时间或概率或(2)在规定条件下，一项目将在没有故障的情况下执行其预期功能达指定间隔的概率。故障可被定义为一项目不能在其指定的性能限定(MIL-STD 721B)内运行或在其中任一项目或任一项目的一部分没有或不会如先前指定地那样(MIL-STD 721C)执行的事件或不可操作状态。

一般而言，所揭示的实现可表征个别网络设备(诸如接入路由器、聚集交换机等)的服务水平。附加地，所揭示的实现可表征使用一个或多个网络设备的应用的服务水平。应用的服务水平可以是应用所使用的网络设备的服务水平的函数。此外，网络设备中的一些可被部署在多个设备的冗余分组中。由此，应用的服务水平可以是冗余分组在确保应用通信量能在没有受到故障的显著影响的情况下被例如沿着替换设备/链接的替换路径路由时如何有效的函数。术语“网络服务水平”独立于应用代码和/或执行应用的计算设备的故障来描述该应用的服务水平，并涉及应用依赖于用于连接性的各个网络设备和链接的服务水平。例如，网络服务水平可受到硬件故障(设备或链接故障)、软件故障(协议、设备操作系统、固件等)以及配置故障的影响。术语“网络可用性”类似地独立于应用代码故障和执行应用的计算设备的故障。

本技术的一些可充分利用数据中心事件日志，其可包括被各个设备或应用记录的事件。日志中的事件可包括指示数据中心中一个或多个设备的故障的错误报告。事件日志可被处理来评估数据中心中各个设备的服务水平。在一些实现中，事件日志可被过滤，例如，通过过滤出重复事件、合并同时事件等，来提供更加紧凑的数据集以供评估服务水平。

数据中心示例

图1示出数据中心网络架构100的示例。架构可显现在被连接到网络104(诸如因特网)的数据中心102中。在这种情况下，架构100包括各设备或组件，诸如一个或多个核心路由器106、一个或多个接入路由器108、一个或多个聚集交换机110、一个或多个架顶式(ToR)交换机112(1)和112(2)以及一个或多个机架114(1)、114(2)、114(3)和114(4)。机架114中的每一个都能包括一个或多个主存应用116的服务器设备。注意，图1中各个设备的不同实例由括号来区别，例如，112(1)指代与112(2)不同的ToR交换机。当统一地参照多个设备时，括号将不被使用，例如ToR 112可指代ToR 112(1)或ToR 112(2)或它们两者。还注意，架构100可包括各种不在图1中显示的设备或组件，例如，各种入侵检测和防护系统、虚拟专用网络(VPN)、防火墙、负载平衡器等。

从逻辑观点来看，架构100可被组织到包括核心层118、L3聚集层120和L2聚集层122的分层结构中。该逻辑组织可基于层-2(例如，干线化、VLAN等)和层-3(例如，路由)职责的功能分隔。在图1中，只显示了一个接入路由器108和一个聚集交换机110，但是具有多个接入路由器和多个聚集交换机的示例也遵循。在具有多个接入路由器的实现中，多个接入路由器可被部署在冗余性分组中以在L3聚集层120处提供冗余性。类似地，在具有多个聚集交换机的实现中，多个聚集交换机可被部署在冗余性分组中以在L2聚集层122处提供冗余性。一般而言，在冗余性分组中，该分组包括多个成员并且各个成员能在冗余性分组的其他成员发生故障时执行交换/路由功能。还注意，图1示出了冗余配置中的核心路由器106。尽管以下示例使用设备的冗余对来解释某些发明概念，但是设备可被冗余地以2个或更多个来配置在分组中。由此，本文中使用的术语“分组”包括设备对以及更大的分组两者。

一般而言，冗余性分组可用各种配置来部署，包括“活跃－待用”配置和“活跃－活跃”配置。在活跃－待用配置中，一个或多个设备是活跃的(例如，携带通信量)，而一个或多个其他设备是待用的(例如，不携带通信量)并且可被激活来替代发生故障的设备。在活跃－活跃配置中，分组中的各设备是活跃的，并且在分组中的一设备发生故障时，本应该由该发生故障的设备携带的通信量能由分组中的其余成员来携带。

ToR 112(也称为主交换机)将由机架114主存的服务器经由图1中连接线表示的数据中心网络连接到架构100的其余部分。这些ToR交换机中的主端口通常是10/100/1000以太网，其中上行链路是千兆以太网或10GE(千兆)端口。ToR可向上游连接到聚集交换机110。这些聚集交换机可用作层-2通信量的聚集点并通常支持高速技术(诸如10千兆以太网)以携带大量通信量(例如，数据)。

来自聚集交换机110的通信量可被转发到接入路由器108。接入路由器可以采用虚拟路由和转发(VRF)来为每个承租人创建虚拟的层-3环境。(承租人是被主存在使用网络设备来用于连接性的服务器上的应用(诸如服务)—将通信量从用户或其他服务路由到主存其的服务器或将通信量从主存其的服务器路由到用户或其他服务。)由此，图1示出了单个承租人、应用116，虽然多个承租人可以在机架114的各个服务器上执行。在一些实现中，L3聚集层120可聚集来自多达数千个服务器的通信量并将通信量路由到能连接到架构100的剩余部分和网络104的核心路由器106。

一些实现(尤其是面向用户的应用)可使用负载平衡器来改进被主存的应用的性能。负载平衡器的冗余对可连接到聚集交换机110并执行服务器的静态IP地址(通过DNS展示给客户端)和动态IP地址之间的映射来处理用户对于应用116的请求。负载平衡器可支持不同的功能，诸如网络地址转换、安全套接字层或传输层安全性加速、cookie管理和数据高速缓存。

防火墙可被部署在一些实现中以通过针对一组预定规则来检查在IP(因特网协议)层、传输层以及甚至有时在应用层处的分组字段来保护应用免受不想要的通信量(例如，DoS攻击)。一般而言，基于软件的防火墙对于快速实现新特征是能有吸引力的。然而，基于硬件的防火墙通常被用在数据中心中来提供性能关键特征。

虚拟专用网络可通过为web和客户端/服务器应用提供交换、优化和安全性来扩充数据中心网络基础结构。虚拟专用网络可提供安全远程接入。例如，虚拟专用网络可实现安全套接字层、传输层安全性或其他技术。

考虑图1，注意到，存在若干个可引起应用116的不可用的故障点。例如，应用116可能具有软件故障、硬件故障、错误配置、协议错误或其他引起应用116停止在机架114的服务器上正确执行的故障。附加地，ToR 112(1)和112(2)两者的故障可导致应用116的不可用，因为可并发被冗余配置的核心路由器106两者的故障。还注意，由于图1中仅显示了单个聚集交换机110和单个接入路由器108，这些单个设备中的任一设备的故障可能足以阻止用户从数据中心102外部来访问应用116。

出于本文档的目的，给定应用所依赖于的携带应用通信量的网络设备被称为应用的“网络戳记”。由此，在图1中，应用116的网络戳记包括ToR 112(1)和112(2)、聚集交换机110、接入路由器108和核心路由器106。以下讨论将解释用于根据应用的网络戳记来表征应用的服务水平的技术。在一些实现中，对服务水平的表征可反映网络设备的冗余分组。在此关于L2聚集层122和L3聚集层120来讨论详细的示例。然而，本领域的技术人员将理解，这些概念可容易地扩展到其他网络设备或网络拓扑结构的各层(例如，核心路由器冗余性、负载平衡器冗余性等)。

作为假想示例，出于说明的目的，假设网络104、核心路由器106、接入路由器108、聚集交换机110、ToR 112(1)和112(2)、机架114(1)-114(4)以及应用116的软件都展现出完美的可靠性－从来没有故障。还假设，应用116不被主存在其他地方并且仅可通过数据中心102可用。在这种理想化的情况集合下，应用116可展现出100％的可用性以及无限的可靠性。现在，假设接入路由器108被具有90％的可用性的设备替换。因为在L3聚集层120处没有冗余性，应用的可用性现在被减低到90％。还注意，用具有90％的可用性的设备来替换聚集交换机110(而非接入路由器108)将对应用116的可用性产生类似的影响。

更一般地，对于给定应用的计算机网络可用性，可基于端到端来为每个携带应用通信量的组件(链接或设备)考虑网络可用性。一些实现可假设设备之间故障的统计独立性。在这种假设下，如果聚集交换机110和接入路由器108两者均具有90％的可用性，那么应用116的预期网络可用性是(0.9*0.9)＝0.81或81％。如在以下更详细讨论的，其他实现可考虑到设备故障被统计地相关的扩展。

具有L3冗余性的数据中心示例

图2示出了具有不同架构200的数据中心102，该不同架构200例如具有不同配置以在L3聚集层120处提供冗余性。在图2中，多个接入路由器108现在被部署为冗余性分组，在这个情况下，为冗余性对。由此，图1和图2中应用116的网络戳记之间的不同在于图2的冗余配置中添加了附加接入路由器108。对应用116的网络戳记的改变可对应用116的可用性产生不同的影响，如以下更详细讨论的。

继续以上引入的假想示例，假设网络104、核心路由器106、聚集交换机110、ToR112(1)和112(2)、机架114(1)-114(4)以及应用116的软件都展现出完美的可靠性以及100％的可用性。此外，假设来自接入路由器108的每个单个设备展现出90％的可用性，并且单个接入路由器可在其他接入路由器发生故障的情况下处理所有的应用通信量(否则剩余的接入路由器在通信量被转向到该剩余的接入路由器时将丢弃该通信量)。以下场景示出冗余性的有效性如何根据各个接入路由器的故障是否紧密相关来变化。

在一个“零冗余性”假想情况下，在L3聚集层120处添加冗余性相对于单个90％可用性的接入路由器108而言不提供附加的益处。具体而言，考虑其中接入路由器108中的各个设备总是一起发生故障的情况。在这些情况下，应用116的可用性依然是90％，因为接入路由器108的冗余对依然有效地作为单个故障点。

现在，考虑不同的“完美冗余性”假想情况，其中各个冗余接入路由器108从不一起发生故障。在这种情况下，应用116的可用性为100％。假设，两个具有完美冗余性的冗余接入路由器(即，从不一起发生故障)可提供100％的可用性，其中每个单个设备仅有50％的可用性。继续该假想示例，在3个接入路由器108的冗余分组中，各个设备仅需要在1/3的时间中展现可用性，4个设备的分组需要1/4的可用性等。

在实践中，冗余设备不太可能提供零冗余性或完美冗余性。相反，冗余分组中的各个设备有时例如由于共同原因(诸如在冗余性分组所位于的位置处的断电)会一起发生故障。其他时候，冗余性分组中的设备中的一些会发生故障，而分组中的其他设备继续正常运行。例如，冗余性分组中一个设备的电源可能发生故障，导致分组中的一个设备发生故障。以下讨论揭示用于鉴于这些实际考虑来表征应用和设备服务水平的技术。

如以上关于图1提到的，在一些实现中使用的一个实际方式是假设故障的统计独立性。在此，给定以上假设，假想网络可用性是至少一个接入路由器可用的概率。

Pr(至少1个接入路由器可用)＝

1-Pr(没有接入路由器可用)＝

1–Pr(接入路由器1不是可用的)*Pr(接入路由器2不是可用的)＝

1–(1-0.9)*(1–0.9)＝1–(1–0.9)^2＝1–0.01＝0.99

由此，通过使用冗余性，即使系统的各个组件各自具有较低的0.9的可用性，依然可实现较高的系统可用性。更一般地，等式：

Pr(至少1个接入路由器可用)＝1–(1–Pr(接入路由器发生故障))^接入路由器的数量

能被用于推广到不同数量的接入路由器。该等式也可用直接的方式被推广到其他设备类型/链接/其他数量的数据中心。

例如，先前的示例示出数据中心内冗余性，例如，给定数据中心内设备或链接的冗余性。一些实现也可考虑数据中心间冗余性的服务水平，例如，其中应用被主存在多个数据中心处的情况。当以类似于以上描述的方法来评估应用的服务水平时，可考虑数据中心间冗余性。由此，例如，假设各自具有90％可用性的两个数据中心发生的故障的统计独立性以及每个数据中心各自能够携带所需的应用通信量，被主存在该两个数据中心处的应用的预期可用性是99％。

具有L2和L3冗余性的数据中心示例

图3示出架构300，其中数据中心102具有在L3聚集层120和L2聚集层122两者处提供冗余性的不同配置。在图3中，聚集交换机110对现在被部署为L2聚集层122处的冗余性分组并且被耦合到L3聚集层120中的冗余接入路由器108对。由此，图2和图3中应用116的网络戳记之间的不同在于在图3的冗余配置中添加了附加聚集交换机110。再次，取决于各个设备故障可能相关的程度，对应用116的网络戳记的改变可对应用116的可用性产生不同影响。

注意，在图3的示例中，每个聚集交换机110都连接到来自冗余对的两个接入路由器108。由此，只要L3聚集层120处的至少一个接入路由器108和在L2聚集层122处的一个聚集交换机110在运行，通信量就能在ToR 112(1)以及112(2)和核心路由器106之间传递。对应用116的网络戳记的这个改变可对应用116的可用性产生不同影响，如以下更详细讨论的。

例如，考虑另一假想场景，其中网络104、核心路由器106、ToR 112(1)和112(2)、机架114(1)-114(4)以及应用116的软件继续展现出完美的可靠性以及100％的可用性。进一步，假设共同地，在L3聚集层120处的接入路由器108的冗余分组提供完美冗余性－该对中的两个设备中的至少一个总是正确运行并能在其他设备发生故障时处理应用通信量。在这个假设中，仅有的故障点是在L2聚集层122中的聚集交换机110对处。

以上关于在L3聚集层120处的冗余性的介绍提到的“零冗余性”假设同样适用于图3中显示的冗余L2聚集层122。即，如果冗余对中单个聚集交换机总是一起发生故障，那么具有多个聚集交换机是没有益处的。类似地，“完美冗余性”假设也同样适用，例如，如果单个聚集交换机110从不一起发生故障并能处理对方的应用通信量，那么应用116的可用性是100％。

此外，还注意，故障可在多个层处发生并且这些故障是否趋向于同时发生可影响应用116的可用性。继续该假想，假设接入路由器108的冗余对和聚集交换机110的冗余对均展现90％的可用性，例如，10％的停机时间。换言之，冗余对中的两个接入路由器均是平均每10个小时停机1个小时，并且冗余对中的两个聚集交换机均是每10个小时停机1个小时。注意，在最佳情况假想场景中，在L2和L3层出的冗余对的故障总是一起发生。由此，应用116的可用性依然是90％，因为故障总是同时发生。在最坏情形中，L2层的故障可从不与L3层同时发生。在这种情况下，应用116的可用性是80％，即，对于每操作10个小时，一个小时损失来针对L2处的冗余聚集交换机的故障并且另一个小时损失来针对L3处的冗余接入路由器的故障。

出于已经讨论过的类似理由，最佳情形或最坏情形都不是可能的。相反，有些时候接入路由器的冗余对会与聚集交换机的冗余对在同一时间发生故障，并且其他时候一个对中的两个设备均会发生故障，而另一对中的至少一个设备会继续运行。假设统计独立性，预期可用性是0.9*0.9或0.81(81％)。由于故障可能是或可能不是统计地独立，一些实现可在表征应用116的服务水平时考虑到一个层处的故障可被相关到另一层处的故障的扩展。

示例系统

图4示出根据所公开的实现的示例性系统400。如图4中显示的，系统400包括连接数个实体的网络104，数个实体包括数据中心102(1)和数据中心102(2)、具有监视系统404的服务器操作中心402、具有事件分析组件408的分析设备406以及具有应用接口412的客户端设备410。

网络104可包括各种有线和/或无线网络以及它们的组合。例如，网络104可包括公共因特网以及各种专用网络或它们的连接图4中显示的设备/数据中心中的任意的部分。出于以下讨论的目的，网络104通常足以提供设备或数据中心之间共享信息的连接性。

每个数据中心102可如以上关于图1-3中的任意讨论的来配置，或被配置成其他合适的配置。客户端设备410可通过经由网络104与数据中心102(1)或数据中心102(2)通信来与应用116交互。应用接口412可包括用于与应用116通信的逻辑，例如格式化功能、显示功能等。例如，客户端设备410可被希望使用各种被应用116变得可用的特征的终端用户来采用。

服务器操作中心402一般可包括被配置成监视各个数据中心来发现网络问题的一个或多个服务器设备。例如，监视系统404可在服务器设备上执行来监视数据中心102(1)和102(2)。在一些实现中，服务器操作中心402处的网络操作者(例如，网络工程师)可尝试解决任一数据中心上的问题并使用支持权证、日志或其他技术来跟踪这些问题。

分析设备406的事件分析组件408可被配置成分析一个或多个数据中心中的各种事件，例如，以表征位于数据中心102(1)、102(2)或两者处的各种应用的服务水平。事件分析组件还可被配置成表征一个或两个数据中心处的一个或多个网络设备的服务水平。一般而言，事件分析组件408可被配置成分析各种事件以及支持权证和其他数据来表征应用和/或设备的服务水平。

注意，系统400中显示的各种设备关于能在系统400的操作中被设备执行的逻辑角色来示出。然而，各种设备的地理位置不需要被系统400反映。例如，数据中心102(1)和/或102(2)可与服务器操作中心402和/或分析设备406并置。作为另一示例，事件分析组件408和/或监视系统404可被实现在一单个数据中心内部的一个或多个设备上，例如，在服务器机架114的一个或多个上。

此外，注意，图4将服务器操作中心402示为多个服务器设备，而分析设备406和客户端设备410被示为各个计算设备。这反映了一个具体实现，而其他实现可经由多个设备提供如在此讨论的表征功能和/或客户端功能。类似地，如在此讨论的服务器操作中心和/或数据中心功能可由各个设备来执行。

此外，在此关于一特定设备或多个设备描述的功能可跨多个设备来分布或被组合在单个设备上。例如，监视系统404和事件分析组件408可并置在单个设备或多个设备上的服务器操作中心处。作为另一示例，事件分析组件和/或监视可在系统400的一个数据中心或两个数据中心处被采用在设备上。

还要注意，在实践中，可能存在在此提到的每个计算设备的附加实例，例如，附加的分析设备、服务器操作中心、客户端设备和数据中心。如在以下更加详细讨论的，图1中显示的计算设备中的每一个都可包括一个或多个处理设备(诸如计算机处理器)，其执行存储在一个或多个计算机可读存储介质(诸如易失性或非易失性存储器、光盘、硬盘驱动器、闪存等)上的指令。

监视系统

服务器操作中心402上的监视系统404一般能用于获得与数据中心102(1)和102(2)的操作有关的各种数据。所获得的数据可被提供到事件分析组件408以供进一步处理，如以下更详细讨论的。例如，监视系统获得的数据可包括事件、故障权证、维护数据和通信量数据。

关于事件，监视系统可接受事件日志流(例如，来自系统日志)并可执行各功能，诸如基于规则来重新格式化和过滤事件数据并将消息路由到任何安装的规则引擎或归档日志文件。例如，事件日志可从网络设备获得并可包括由网络设备生成的事件，网络设备诸如核心路由器106、接入路由器108、聚集交换机110和/或ToR 112以及各种其他网络设备(防火墙、负载平衡器等)。事件日志中的事件可包括关于什么类型的网络组件经历了事件、该事件类型、这个组件的另一端点(例如，单跳直接连接的邻居)以及该事件的简短的机器生成的描述的信息。

服务器操作中心402上的监视系统404还可获得故障权证或与故障权证有关的数据。例如，网络操作者可通过在解决问题的网络操作者之中进行协调的问题跟踪系统或“权证”系统来对网络故障进行故障查找。一些故障查找系统可围绕对于评论备忘录(例如，RFC1297)的请求来构建，该备忘录包括用于网络操作中心(“NOC”，诸如服务器操作中心402)的故障权证系统的规范。在这种情况下，一(可能唯一的)标识符在此被称为被分配到每个故障事件的NOC TicketID(权证标识符)。这些权证包括结构化的信息，该结构化的信息关于何时以及如何发现事件以及网络操作者在进行故障查找和减轻问题时采取的步骤的日志。

服务器操作中心402上的监视系统404还可包括维护数据。例如，网络操作者可使用维护跟踪和修订控制系统来跟踪能通过系统400改变网络的活动，诸如设备供应、配置改变和/或软件升级。维护跟踪和修订控制系统可以是监视系统404的特征或是一独立系统。在调试一中断之前，网络操作者可检查维护跟踪系统来寻找正在进行的和计划的维护。网络操作者可使用修订控制系统来检测对于设备配置文件的任何最近的改变。从维护跟踪和修订控制系统获得的维护数据可反映设备供应、配置改变和/或软件升级。

服务器操作中心402上的监视系统404还可包括通信量数据。例如，网络接口(链接)上携带的通信量可使用例如将每5分钟看到的通信量进行平均的简单网络管理协议(“SNMP”)轮询来记录。通信量数据的其他源可从基于采样的方式(诸如sFlow(s流))中获得。通信量监视系统可使用包括字段的MIB格式来存储数据，各字段诸如接口类型(令牌环、以太网等)、接口的另一端、接口状态(上/下)、时戳和/或接口发送或接收的字节数等。

通过使用如以上描述的监视系统404，服务器操作中心402可允许网络操作者监视数据中心102(1)和102(2)的状态来发现各种故障，例如，发生故障的路由器、不正确的设备配置、较慢的响应时间等。由监视系统获得的各个事件可被处理来表征应用和/或设备的服务水平，如在以下更详细讨论的。

事件分析组件

事件分析组件408可利用监视系统404获得的事件日志来表征应用和/或设备服务水平。例如，附加于或替代于从监视系统获得的事件日志，事件分析组件可利用网络操作者收集的数据。例如，网络操作者可检测来自网络设备的故障并通过使用监视报警(诸如syslog(系统日志)和SNMP陷阱)以及通过经由ping(查验)和SNMP轮询来监视设备状态来分析根本原因。事件分析组件可获得其他设备相关数据以在分析应用和设备两者的服务水平中使用，包括故障权证、维护数据和通信量数据。

事件分析组件408可将以上提到的数据与事件日志中的故障事件相关以提取影响网络通信量的故障，并且随着拓扑结构时不时地改变来使用链接级连接性对拓扑结构信息进行反向工程。如在此使用的，故障能被认为是导致设备或链接不可用来执行其打算的任务(例如，携带通信量)的事件。具体而言，链接故障可被认为在两个设备之间的连接停用时发生。类似地，设备故障可被认为在设备不在运行来路由/转发通信量时发生。

事件分析组件408的一些实现可过滤事件日志中数种类型的虚假网络事件，诸如不准确的事件日志、由多个设备包括相同事件导致的重复事件、被记录为多个事件的单个事件以及“阴影”报告(例如，健谈的设备)。关于不准确的事件日志，syslog消息可以是虚假的，因为即使设备是可操作的，设备发送多个被记录为故障事件的通知。关于多个报告设备，两个或更多个设备(例如，邻居)可针对相同事件发送被记录为分开的事件的通知，从而导致冗余的事件日志(例如，多个冗余错误报告)。如果接下来的错误报告与被之前的错误报告报告的错误有关，则错误报告可被认为是冗余的。关于被记录为多个事件的单个事件，拍打设备可生成多个各自被记录为不同的事件的向下和向上消息。

阴影事件可被认为是由于被安排来替换或已经被操作者检测为有缺陷但在等待修理的设备触发的事件。在一些情况下，这种影响是严重的，其中因为通知系统在故障查找窗口期间没有抑制一些设备(例如，“健谈的”或“阴影”设备)，这些设备在几小时内发送一千条以上的设备停用通知。能被事件分析组件408采用来从网络事件日志中过滤数种类型的虚假事件的技术在以下被更详细描述。经过滤的网络事件日志可被事件分析组件使用来如在此讨论的表征应用和/或设备服务水平。

具体事件分析组件实现

图5显示了体现在分析设备406上的事件分析组件408。分析设备是系统的能被配置来实现某些概念的一个示例，如在以下详细讨论的。在这种情况下，分析设备被示为台式计算机。术语“计算机”或“计算设备”可互换地使用，并且在此被用来指具有某种处理能力的任何类型的设备。尽管出于解释的目的示出了具体计算机示例，但是这种计算机的其他示例可包括传统计算设备，诸如个人计算机、针对图1-4介绍的设备中的任一、蜂窝电话、智能电话、个人数字助理或不断演化或要被开发的设备类型的混合中的任一。此外，系统可显现在单个计算设备上、或分布在多个计算设备上。

在这种情况下，分析设备406可包括应用层502、操作系统层504和硬件层506。事件分析组件408可显现为应用层502的程序或应用或其他配置。在这个示例中，事件分析组件可包括过滤模块508、表征模块510和输出模块512。事件分析组件可处理由监视系统404通过网络104提供的数据，诸如事件日志。替换地，监视系统404可用事件数据来填充数据库522并且事件分析组件可处理数据库中的事件数据。

硬件层506可包括处理器514、存储/存储器(例如，一个或多个计算机可读存储介质)516、显示设备518和/或各种其他元件。例如，其他元件可包括输入/输出设备、光盘读取器、USB端口等。

处理器514可执行计算机可读指令来提供功能，诸如事件分析组件功能。数据和/或计算机可读指令可被存储在存储/存储器516上和/或从另一源(诸如光学存储设备520)接收。存储/存储器516可包括易失性或非易失性存储器设备、硬盘驱动存储设备、闪存存储设备(例如，记忆棒或记忆卡)和/或光学存储设备(如CD、DVD等)以及其他中的任何一个或多个。

替换于所示出的分析设备406的配置，计算机可采用片上系统(SOC)类型设计。在这一情况下，计算机所提供的功能可被集成在单个SOC或多个耦合的SOC上。例如，计算机可包括共享资源和专用资源。(诸)接口可促成共享资源和专用资源之间的通信。如名称所暗示的，专用资源可被看作包括专用于获得特定功能的各个体部分。共享资源可以是多个功能可使用的存储、处理单元等。

一般而言，在此描述的任何功能可使用软件、固件、硬件(例如，固定逻辑电路)、手动处理或这些实现的组合来实现。如此处所使用的术语“引擎”、“组件”或“模块”一般表示软件、固件、硬件、整个设备或网络、或其组合。例如在软件实现的情况下，其可以表示当在处理器(例如，一个或多个CPU)上执行时执行指定任务的程序代码。程序代码可被储存在一个或多个计算机可读存储/存储器器设备中，诸如计算机可读存储介质。组件的各特征和技术是平台无关的，从而意味着它们可在具有各种处理配置的各种商用计算平台上实现。

如本文所使用的，术语"计算机可读介质"可包括信号和硬件。相反，术语“计算机可读存储介质”排除纯信号。计算机可读存储介质可包括“计算机可读存储设备”。计算机可读存储设备的实例包括易失性存储介质(诸如RAM)和非易失性存储介质(诸如硬盘驱动器、光盘和闪存等等)。

在一些实现中，过滤模块508可被配置成执行与从一个或多个事件日志中的事件的剩余部分中隔离重复事件有关的功能。经过滤的事件可产生被用作用于表征设备或应用服务水平的数据集的恰当事件的子集。表征模块510可被配置成执行与表征数据中心102(1)和/或102(2)处的各个网络设备和/或应用的当前或未来服务水平有关的功能。例如，表征模块可被配置成使用来自经过滤的事件子集的各个事件以及权证数据、维护数据和/或通信量数据来表征服务水平。表征模块可基于发生时间、发生日期、发生的持续时间、物理位置、类型、特性、配置设置和/或所涉及的设备的功能角色来推断权证数据、维护数据和/或通信量数据与事件之间的关系。输出模块512可被配置成输出表征的结果。输出结果可包括反映所表征的服务水平的值(例如，设备或应用的可用性的百分比)。输出结果还可标识趋向于一起发生故障的各种设备或设备分组，例如，“有风险的”设备或设备分组。

在图5的示例中，输出模块512可通过获得来自监视系统404和/或数据库522的数据来生成GUI屏幕截图524。如提到的，数据库522可被监视系统来填充并且可包括来自一个或多个数据中心的事件。从一个或多个数据中心获得的或与一个或多个数据中心有关的事件可被认为是被事件分析组件408评估的数据集。事件分析组件可分隔与网络设备有关的各个事件并从其他数据中心设备中的那些设备连接这些设备的链接。事件分析组件还可例如基于一个数据中心按一个数据中心来确定应用的网络戳记，并基于网络戳记中各个设备的服务水平来表征该应用的服务水平。

图5显示的GUI屏幕截图524可由事件分析组件408从数据集中生成。GUI屏幕截图524示出在数据中心102(1)处，应用116具有大约98％的可用性。在数据中心102(2)处，应用116具有大约96％的可用性。事件分析组件408可使用应用116在各个数据中心处的各个网络戳记来推断这些百分比，如在此更详细讨论的，包括各种假想示例。换言之，图5示出了一配置，其中应用116在数据中心102(1)处的网络戳记具有98％的可用性，而应用116在数据中心102(2)处的网络戳记具有96％的可用性。

概括而言，能被事件分析组件408提供的数个特征在以上和以下被描述。这些特征可包括表征设备和/或应用服务水平。另一特征(如以下更详细讨论的)可涉及标识有风险的冗余性分组，例如，趋向于一起而不是个别地发生故障的一个或多个设备的冗余性分组。另一特征可涉及当冗余性分组具有多个设备时评估冗余性的有效性以及还评估冗余地在多个数据中心处主存应用的有效性。这些特征在下文更详细地描述。

事件过滤

如以上提到的，一些实现采用从事件日志中过滤事件来获得能被用于表征应用和/或设备的服务水平的数据集。图6显示了用于从来自集合的较少信息量的事件中隔离恰当事件的子集来获得子集的过滤方法600。这个方法可利用来自各种源的事件。在这个情况下，事件可显现为Syslog/SNMP事件602并可使用来自NOC权证数据库604的权证来被过滤。在这个实现中，不具有相关联的NOC权证的所获得事件可在606处由“无权证”过滤器移除。这个过滤器可基于以下假设：如果事件不曾被操作者处理，那么很可能该事件不导致影响。由此，过滤器606可基于与事件是否具有相关联的NOC权证有关的相关联权证准则来过滤事件。

该方法可采用时序过滤器608，该时序过滤器608使用与时序有关的准则来过滤事件。定时过滤器可被用于修复各种时序不一致。在一个实现中，时序过滤器可首先将源自相同接口上的具有相同开始和结束时间的事件分组到单个事件中。这个过程能移除重复事件。接着，时序过滤器可挑选源自相同接口上预定时间窗口内的多个事件的最早开始和结束时间。例如，在相同接口上预定60秒时间内发生的任意事件可被分组到单个事件中(例如，被表征为单个事件)。这个过程可减少或避免由于时钟同步和日志缓冲引起的任何问题。时序过滤器还可被用于使用接口准则(例如通过标识源自相同接口上的事件)来将两个事件分组。例如，具有相同开始时间但是不同结束时间的事件可被分组到被分配了较早的结束时间的单个事件中。由于事件在它们解决很久之后也可能不被标记为清除，因此可利用最早的结束时间。

该技术可采用应用计划的维护准则的计划的维护过滤器610。由计划的维护导致的事件相比于未经计划的事件(例如，未预期的中断)在理解设备行为方面会具有较少的价值。由此，计划的维护过滤器可移除由计划的维护活动导致的事件。

该技术可采用阴影设备过滤器612。阴影设备过滤器可应用阴影设备准则来过滤由被安排来替换或已经被操作者检测为有缺陷但在等待修理的设备记录的事件。阴影设备过滤器可通过按照设备的故障数量的降序来安排这些设备来标识这些阴影设备。在一个实现中，对于这个列表中前百分比的设备，具有相同“NOC TicketID”字段的所有事件被合并。这构成了合并的事件，该合并的事件反映具有相同权证ID、可能具有相同征兆的各个事件。在一个情况中，前百分比被定义为前百分之五，而在其他实现中可采用其他值。

该技术可采用应用影响准则来过滤事件的影响过滤器614。当事件影响应用可靠性时，例如，吞吐量损失、发生故障的连接的数量或增加的等待时间，该事件可被定义为具有影响。在不访问应用级日志的实现中，可通过充分利用网络通信量数据616以及计算故障期间在发生故障的设备/链接上的中间通信量与不久前它的值的比率来估计故障影响。例如，不久之前的值可被设为前8小时(或其他持续时间)时间相关性窗口618。其他实现可使用其他值。如果这个比率小于1，则故障具有影响，或者对比率可使用另一(例如，更低的)阈值。以上动作可共同允许方法600在620来标识具有影响的故障。注意，替换地或附加地可使用其他过滤器。

表征应用服务水平

如以上提到的，一些实现可表征被主存在一个或多个数据中心处的应用的服务水平。图7显示了可被应用在这个上下文中的方法700。例如，方法700可被事件分析组件408执行来表征应用的服务水平。

在框702，该方法可获得被记录在一个或多个数据中心处的事件集。在一个实现中，可从数据中心监视系统或从代表数据中心监视系统来存储该事件集的数据库中获得该事件集。事件可反映一个或多个数据中心中的一个或多个设备发生的故障。

在框704，该方法可使用一个或多个准则来过滤事件。例如，该方法可使用方法600来隔离虚假和重复事件以获得经过滤的事件子集。在一个实现中，隔离可通过将事件过滤器的流水线应用到该事件集以生成经过滤的事件子集来实现。在一些情况下，可通过从一组可用事件过滤器中选择各个过滤器来创建流水线。各个事件过滤器可各自应用不同的准则来过滤不同的事件以创建经过滤的子集。

在框706，该方法可确定应用的一个或多个网络戳记。例如，主存应用的每个数据中心可具有单独网络戳记。在一些情况下，框706可包括处理经过滤的事件子集来确定数据中心中应用的网络戳记。

在框708，该方法可表征网络戳记中一个或多个网络设备的服务水平。例如，该方法可表征各个接入路由器、聚集交换机等的可用性、可靠性和/或通信量损失。此外，该方法可包括通过表征包括多个网络设备的冗余分组的服务水平来表征一个或多个网络设备的服务水平。

在框710，应用的服务水平可使用网络设备的服务水平来表征，例如，应用被主存在其中的网络戳记中的各个设备和/或设备的冗余分组的服务水平。在其中应用被主存在单个数据中心上的实现中，服务水平可以是该单个数据中心处的网络戳记的可用性。在其中应用被主存在多个数据中心上的实现中，服务水平可以是该多个数据中心中的每一个上的应用的可用性的函数。一些实现可假设不同数据中心上的应用的可用性的统计独立性。

在框712，该方法可标识与应用或网络设备有关的潜在网络改变。例如，该方法可基于一个或多个准则来标识应用的冗余配置，例如，在多个数据中心处主存应用、将新的冗余性分组添加到网络戳记的给定层等。作为网络改变的另一示例，该方法可标识对一个或多个聚集交换机的ToR连接性的建议的改变。在一些实现中，建议的改变可被标识来满足约束，诸如与可靠性、可用性、通信量损失等有关的服务水平协议(“SLA”)定义的度量。

还注意，成本可被用作用于标识潜在网络改变的准则。例如，可为每个潜在改变确定货币、时间、资源等方面的成本。例如，在新的数据中心处主存应用可能花费大约$10,000,000并且预期应用的网络可用性从90％提升到99.9％。仅仅将冗余设备添加到该设备已经被主存在其中的数据中心可能花费大约$10,000并且预期应用的网络可用性从90％提升到99％。取决于用于应用可用性的具体要求，任一种方式都可以是适当的。

进一步的实现可使用成本效益分析来推荐所标识的潜在网络改变中的一个或多个。例如，一些实现可推荐预期满足给定约束(诸如SLA要求)的花费最少的潜在网络改变，而排除不预期满足该约束的其他潜在网络改变。其他实现可根据通过采取相应潜在网络改变所获得的预期可用性(或可靠性)的单位成本来对各种潜在网络改变进行排序。排名在前的子集可被推荐，同时丢弃其他、较不合算的可能改变。附加地，一些实现可固定成本预算并且选择满足该成本预算的一个或多个推荐的改变。推荐的潜在改变可包括那些满足成本预算并趋向最大化预期服务水平的改变。其他不满足预算的潜在改变可从推荐的潜在改变中排除。

网络拓扑结构

注意，一些实现可从网络戳记角度来关注应用的服务水平。换言之，这样的实现可不管应用代码故障和/或主存应用的服务器或机架的故障的后果，而是关注应用用来与数据中心外部的其他设备进行通信的网络设备所提供的服务水平。然而，进一步的实现可基于应用的网络戳记的服务水平以及应用代码和/或主存服务器/机架的服务水平两者来表征应用的服务水平。以下讨论关注从网络戳记的角度来表征应用服务水平，例如，“网络服务水平”。

在一些实现中，应用的网络戳记可通过考虑单个数据中心中各个设备之间的连接来确定。考虑图8的示例，其显示了其中数据中心102配置有第二应用802的架构800。注意，应用116被显示为通过冗余聚集交换机110(1)、接入路由器108(1)和核心路由器106对被主存在由单个ToR 112(1)连接的两个服务器机架114(1)和114(2)上。应用802被显示为被主存在类似的、但具有单个聚集交换机110(2)和单个接入路由器108(2)的配置中，还注意应用802被主存在经由ToR 112(2)连接的机架114(3)和114(4)上。

还注意，每个应用可被视为包括数据中心中的所有设备的设备的公共树的一部分。各个应用网络戳记可包括不同子树中的设备。在图8中，应用116具有以接入路由器108(1)为根的子树，其与应用802的以接入路由器108(2)为根的第二子树不同。核心路由器通常跨多个被主存的应用来共享，因此，在一些实现中，核心路由器不被视为应用专用网络戳记的一部分。

在一些实现中，网络操作者可手动地评估数据中心配置的物理和/或逻辑连接来确定每个应用的网络戳记。例如，网络操作者可将ToR 112(1)、聚集交换机对110(1)、接入路由器对108(1)和核心路由器对106标识为应用116的网络戳记。类似地，网络操作者可将ToR 112(2)、聚集交换机110(2)、接入路由器108(2)和核心路由器106标识为应用802的网络戳记。

在进一步的实现中，应用通信量可被用来确定应用的网络戳记。例如，事件分析组件408可评估通过数据中心的通信量流来确定设备通信量流(例如，入站和出站网络通信量)经过哪些设备。事件分析组件还可通过标识具有共同父或子的各个设备来从通信量中提取冗余设备分组。例如，事件分析组件可从网络通信量中推断出聚集交换机对110(1)的各个聚集交换机被冗余地配对到ToR 112(1)，这是因为去往或来自ToR 112(1)的通信量通过该对中的两个聚集交换机。作为另一示例，由于来自两个聚集交换机110(1)的通信量通过两个接入路由器108(1)，事件分析组件因此可推断出接入路由器相互被冗余地配对。事件分析组件还可推断出，由于来自ToR 112(2)的网络通信量通过单个聚集交换机110(2)和单个接入路由器108(2)，对于单个聚集交换机110(2)或单个接入路由器108(2)而言没有冗余性。注意，非冗余设备的故障可导致以发生故障的设备为根的整个子树由于连接性的丢失而变得不可用。

一些实现可推断传达设备是否被冗余地配对的特定命名约定。例如，接入路由器对108(1)可包括命名为AR1_A的单个接入路由器以及命名为AR1_B的另一单个接入路由器。相反，单个接入路由器108(2)可被简单地命名为AR2。在这个实例中，命名约定后缀“_A”和“_B”暗示具有共同前缀“AR1”的两个冗余设备。进一步的实现可通过考虑通信量流和冗余性两者来推断冗余性。

一些实现还考虑各个ToR的连接性。例如，给定聚集交换机或接入路由器提供的服务水平可取决于有多少ToR交换机(间接地或直接地)连接到聚集交换机或路由器来变化。再次，网络操作者可手动地检查数据中心中的物理和/或逻辑连接来确定连接到给定聚集交换机的ToR的数量，并还可检查连接到以单个接入路由器为根的子树中的一个或多个聚集交换机的ToR的数量。一些实现还可通过以类似于以上描述的用于标识冗余性分组的方式分析通信量数据来推断聚集交换机和/或接入路由器的ToR连接性或“ToR计数”。

表征度量

一般而言，所公开的实现可表征设备的服务水平或共同地表征一组冗余设备的服务水平。经过滤的事件可例如通过单个设备、冗余性分组、设备型号和/或设备类型来跨数个维度被分组，并且度量可被应用于使用经分组的事件来测量服务水平。用于表征经分组的事件的示例性度量可包括总中断时间、通信量损失和/或总权证。可使用来自一个或多个数据中心的经过滤的事件数据来计算度量。

在总中断时间的情况中，事件分析组件可按加法的方式来确定单个设备的总中断时间，例如，对经过滤的数据集中的每个事件的各个中断分钟求和。可基于一特定设备在一段时间(诸如一年)上的总运行时间来计算服务水平的一个示例，可用性。注意，这对于冗余性分组而言也是正确的，例如，通过作为整体来考虑冗余性分组的总中断时间，冗余性分组的可用性可以在不计算各个分组成员的可用性的情况下来被计算。这也可以针对设备类型，例如，作为整体的接入路由器的平均可用性可基于特定类型的多个(例如，所有)设备的总运行时间来计算。类似地处理可针对各个设备型号(例如，品牌X型号Y接入路由器)来执行，该型号的平均可用性可被计算为该特定型号的所有设备的总中断时间除以该特定型号的所有设备的总预期操作时间。

在通信量损失的情况下，可使用数个等式。设备的每事件中间通信量损失的估计的平均可被定义为：

在此，该等式暗示，每事件给定设备的中间通信量损失的估计的平均可被表示为，在所有事件上，一事件之前和之后中间网络通信量方面的差乘以故障的持续时间的总和，除以由该设备贡献的总事件来根据每事件的基础规范化损失。为了获得这个值，每个事件之后和之前的中间通信量可被计算来确定中间通信量损失，并接着该中间通信量损失可针对给定事件来平均。注意，在这个上下文中，术语“事件”可指代任意个别故障情节，并可指代共同与该事件有关的单个或多个个别设备和/或链接故障。

给定设备每天的估计的中间通信量损失可被定义为：

在此，该等式暗示，一天中设备的损失是，对于在该天与设备相关联的每个事件，在该事件之前和之后的中间通信量方面的差乘以故障的持续时间的总和。还注意，通信量流可跨链接或冗余分组中的设备来聚集(例如，求和)。

对于给定的设备型号，由该设备型号做出的损失的通信量的百分比可被计算为：

其中吞吐量是每秒的分组或每秒的字节并且时间是在其上执行计算的整个持续时间。

在总权证的情况下，给定单个设备、冗余性分组、设备类型或设备型号的总权证的数量可从经过滤的事件以相对直接的方式来被计算。例如，每个经过滤的事件可标识单个发生故障的设备或多个发生故障的设备(例如，针对经合并的事件)。该特定设备的权证(例如，唯一权证)的数量可用加法的方式来计算。类似地，对于冗余性分组而言，标识来自分组的至少一个设备的权证的数量可用加法的方式来计算。对于设备类型(例如，接入路由器)，标识任意接入路由器的权证的数量可用加法的方式来计算。对于设备型号(例如，品牌X型号Y接入路由器)，标识特定信号的权证的数量可用加法的方式来计算。这一概念可容易地扩展到与服务水平有关的其他概念，例如，平台或设备分组的总停机时间可以是另一合适的度量。

通过使用以上度量，设备服务水平可被表征并且应用的服务水平可通过使用应用的网络戳记中的各个设备/冗余性分组的服务水平来被计算。进一步的实现可考虑其他网络配置方面，例如设备特性、连接性等。

网络设备的设备特性可反映配置参数、软件或固件修订、通过该设备传递的特定应用等。一些实现可根据一特性按一特性的基础来计算各个度量以捕捉不同的设备特性可如何影响服务水平。例如，具有带有特定软件/固件修订的特定型号的接入路由器的可用性可被确定。作为另一示例，被用于路由来自搜索应用的通信量的聚集交换机的可用性可被确定，并且该可用性可以与被类似配置的路由不同应用(例如，云存储)的通信量的聚集交换机的可用性不同。

一些实现还可考虑设备连接性或容量并为不同水平的连接性确定以上提到的度量。例如，假设高达80个ToR交换机可被连接到单个聚集交换机。一些实现可基于所连接的ToR的数量来表征聚集交换机的通信量损失。对于ToR连接性影响聚集交换机的通信量损失的程度，这样的实现可揭示该关系。在其他层处也可以是这种情况，例如，连接到给定接入路由器的聚集交换机的数量也可被考虑。还注意，这个处理可跨多个层来执行，例如，一些实现可基于以接入路由器为根的子树中连接的ToR的总数量来表征接入路由器的服务水平。

数值示例

参考回图8，以下将介绍一些简单的数值示例以说明以上表达的概念。使用之前的假想，除非另外指明，否则假设图8中显示的设备展现100％的可用性。考虑应用802，注意聚集交换机110(2)或接入路由器108(2)的任一处的故障导致以发生故障的设备为根的整个子树丢失连接性。出于该假想的目的，假设接入路由器108(2)具有90％的可用性。由此，在这个实例中，应用802的可用性被计算为90％，因为仅有的故障点具有90％的可用性。

现在，考虑应用116并且再次假设只有接入路由器具有任意故障并且具有90％的可用性，或在任意给定时间的故障的概率是10％。由于接入路由器108(1)被采用在冗余分组中，通过假设统计独立性，共同发生故障的概率是(.1)n，其中n是该分组中冗余设备的数量。在显示的示例中，存在两个设备，所以两个设备发生故障的概率是.01。由此，将接入路由器部署在冗余对产生99％的可用性。

给定以上的情况下，使用权证计数的一种方式是使用有序元组<可用性，权证计数，通信量损失>来表示设备或设备族(例如，特定型号)。对于设备族，可针对来自给定族的每个单独设备来聚集权证计数。可使用字典顺序来比较元组，例如，如果可用性是相同或相似的，则具有较低权证计数的设备族是较佳的，因为它暗示有影响的故障的数量是更小的。类似地，通信量损失可被用于比较－在中断期间导致高通信量损失的设备族(平台)上相对小的损失是较佳的。相反，具有高权证计数和/或通信量损失的设备族可被认为是“有风险的”设备族。可通过基于权证计数/通信量损失来字典地排序设备族并选择具有高权证计数/通信量损失的设备族来标识这些有风险的族。还可通过向权证计数/通信量损失应用阈值来标识有风险的设备族，例如，具有大于阈值权证频率或大于阈值百分比通信量损失的设备族可被认为是有风险的。类似地分析可通过使用其他度量(例如，设备故障率等)来执行。

先前的示例说明了事件分析组件可如何表征现有网络配置的服务水平。事件分析组件还可估计反映对网络的一个或多个改变的建议的配置的服务水平。例如，假设构想了用于从接入路由器对108(1)中移除单个路由器的配置改变。在这种情况下，事件分析组件可估计，在配置改变后，应用116的可用性为90％(例如，n＝1)。替换地，事件分析组件可估计，如果添加了另一接入路由器，应用116的可用性为99.9％(例如，n＝3)。进一步的实现可考虑到接入路由器故障可能相关的范围(例如，同时的、至少部分重叠、或按时序)。

注意，这个分析还可扩展到不同的设备或数据中心，例如，假设应用802被主存在具有90％可用性的单个数据中心上。潜在的网络改变可以是在3个相同的数据中心上主存应用802，每个数据中心提供90％的可用性。假设数据中心的统计独立性，如果这个改变做出，则应用802的估计的可用性将是99.9％。替换地，如果各个数据中心提供不同的估计的可用性并且被假设为统计上独立，则应用在每个数据中心处的各个网络戳记可被单独地评估并相乘来获得估计的可用性。这是假设在各个数据中心具有足够的容量以在其他数据中心不可用时处理全部应用通信量负载的情况。

在一些实现中，事件分析组件可标识能满足特定约束的各个网络改变。一种类型的约束由服务水平协议(“SLA”)定义。例如，数据中心的操作者可按契约地负责向应用116提供99.8％的可用性。回想在图8的示例中，应用116在单个故障点处(接入路由器108(1)的冗余对)具有99％的可用性。在这个示例中，事件分析组件可将在一附加的数据中心处主存应用116标识为一个潜在的改变，因为具有99％个别可用性的两个数据中心将被期望提供99.99％的可用性。替换地，事件分析组件可将用冗余配置中的接入路由器108(1)对来配置第三接入路由器标识为可满足应用802的SLA要求的可用性的另一潜在改变。这是由于每个个别接入路由器预期提供90％的可用性，由此产生预期99.9％的可用性(假设统计独立性)的情况。

图9示出了可由事件分析组件408的输出组件512生成的另一GUI屏幕截图900。GUI屏幕截图900示出当前配置中在99％处的应用116的可用性，以及在具有附加的接入路由器的潜在配置中应用116的为99.9％的可用性以及在附加的数据中心处的为99.99％的可用性。GUI屏幕截图900还包括SLA要求901，示为反映由SLA定义的网络可用性的水平的线。由此，查看GUI屏幕截图900的用户可看到，尽管当前配置不满足SLA，将冗余接入路由器添加到接入路由器对108(1)将使得应用116的网络戳记满足SLA，如将在另一相同的数据中心处主存应用那样。

一些实现还可传达与各个潜在配置改变相关联的成本，例如，将针对每个潜在改变的货币、按小时的、或其他资源成本添加到GUI屏幕截图900，例如辅助Y轴、文本表示、饼图上。一些实现还可按可用性的每单元来表示成本，例如，可用性每增加“9”(例如，从90％到99％、从99％到99.9％等)可预期花费某个特定量的资源。例如，图9显示了用于添加的数据中心的美元成本远远高于添加附加的接入路由器的成本。在这个实例中，添加附加的接入路由器相比于添加另一数据中心而言可能是适当的，因为两个建议的配置均满足SLA要求并且添加接入路由器要便宜的多。

还注意，一些潜在的网络改变可考虑连接性。例如，假设不同假想，其中所有设备除了聚集交换机之外都展现100％的可用性，并且聚集交换机的可用性随着ToR连接性而变化。具体而言，考虑以下示例，其中连接到50个或更少ToR的聚集交换机展现90％的可用性并且连接到51个或更多ToR的聚集交换机展现80％的可用性。现在，假设应用802的网络戳记包括总共80个ToR和两个非冗余聚集交换机，该两个非冗余聚集交换机中的第一聚集交换机具有60个连接的ToR而该两个非冗余聚集交换机中的第二聚集交换机具有20个连接的ToR。在这个示例中，事件分析组件可计算第一聚集交换机的估计的80％可用性和第二聚集交换机的90％可用性。假设统计独立性，子树的估计的可用性在这个配置中是98％。事件分析组件408可标识将连接的ToR中的至少10个移动到第二聚集交换机的潜在改变，因为对于具有估计的99％可用性的子树，这将不会改变第二聚集交换机的估计的可用性并且将第一聚集交换机的估计的可用性提升到90％。这是对于ToR从其移动的任意应用而言依然在空间上剩余充足的容量的情况。

有风险的设备

在以上讨论的假想示例中，各个设备中的故障之间的统计独立性被假设为允许相对简单的示例性计算。实践中，一些设备可展现它们故障中的一些统计相关。例如，一冗余接入路由器对可由于两个接入路由器共同的问题而趋向于一起发生故障。例如，两个接入路由器都具有软件/固件中的隐错，电力中断或猛增可导致两个路由器都发生故障，过载条件可同时影响两个路由器等。然而，注意，尤其对于冗余设备而言，高度相关的故障可以是不期望的。这是因为如以上讨论的，当分组中的冗余设备一起发生故障时，它们不能用于相互来接管功能。

鉴于以上，一些实现可标识给定网络配置中的某些有风险的设备分组。图10显示方法1000。例如，方法1000可由事件分析组件408执行来将设备分组表征为“有风险的”，表明这些设备相对更有可能一起而非个别地发生故障。

在框1002，该方法可获得被记录在数据中心处的事件集。框1002可以类似于方法700的框702。

在框1004，该方法可使用一个或多个准则来过滤事件。框1004可以类似于方法700的框704。

在框1006，该方法可使用经过滤的事件子集来表征一个或多个设备的服务水平。例如，该方法可确定L3聚集层处冗余性分组中多个接入路由器的各个可用性或L2聚集层处的多个聚集交换机的各个可用性。

在框1008，该方法可确定各个设备的服务水平之间的相关性。例如，一些实现可计算单个冗余性分组内设备的权证、中断分钟或通信量损失之间的相关性(例如，皮尔森相关性)。一些实现还可计算不同层处连接的设备的权证、中断分钟或通信量损失之间(例如单个聚集交换机和单个接入路由器之间)的相关性。

在框1010，该方法可基于相关性来标识有风险的设备。例如，相关性可与阈值来进行比较，并且具有超过阈值的相关性的设备可被标识为有风险的，因为这些设备可能趋向于一起发生故障(例如，具有时间关系的故障，诸如重叠的故障或趋向接连地发生故障)。作为一个示例，冗余性分组中趋向于一起发生故障的接入路由器或聚集交换机可以是有风险的，因为当设备趋向于一起发生故障时，冗余性较不有效。作为另一示例，一个层处设备的故障能趋向导致其他层处设备的故障，例如，发生故障的ToR可趋向引起上游聚集交换机停机并且这能从相关性中显而易见。还注意，可在框1010标识趋向于经常发生故障的各个设备(例如，具有高故障数量的设备)。

用于方法1000的服务水平可包括以上提到的各个服务水平，例如，总中断时间、总权证、通信量损失等。然而，注意，其他度量可以是合适的。进一步，尽管以下实现将皮尔森相关性讨论为合适的相关性测量，但是也可用其他相关性测量，诸如斯皮尔曼的排序相关性系数和/或肯德尔Τ(Kendall tau)排序相关性系数。

考虑总中断时间，一种在两个设备之间相关中断时间的方式如下。首先，如以上讨论的从经过滤的事件中确定设备A的总停机时间和设备B的总停机时间。接着，经过滤的事件还被用于确定各个事件，其中设备A和B均一起停机或就它们的不可用的时间窗口而言至少部分地重叠。如果在设备A和B的故障之间存在强的负相关(例如，皮尔森系数接近-1)，则重叠的故障将趋向于相对于设备的各个故障率而言相对很小—换言之，相比于没有相关性的情况，它们较不可能一起发生故障。如果存在很小的相关性或没有相关性(例如，皮尔森系数大约为0)，则设备趋向于相互独立地发生故障，例如，一个设备的故障对于另一设备是否发生故障而言具有很少或没有明显的影响。如果存在强相关性(例如，皮尔森系数接近1)，则存在强的相关性并且相比于故障是独立的情况，设备更加可能一起发生故障。

出于已经提到的问题，这最后一种情况(相对高的相关性)对于冗余配置中的设备而言可能是有问题的。由此，在一些实现中，有风险的设备可以是被部署在冗余配置中具有超过特定阈值(例如，0.7)的相关性的设备。可通过确定支持权证的皮尔森系数来关于网络权证采取类似的处理，例如通过确定每个各个设备的总权证数量和与两个设备有关的这些权证的交集。假设相等数量的权证，较小的交集暗示较低的相关性，而较大的交集暗示较高的相关性。还可针对各个设备做出的网络通信量的损失来确定相关性，例如，如果冗余对中一个设备做出的通信量损失趋向于与该冗余对中另一设备做出的通信量损失高度相关，则该对可被标记为有风险的设备对。

图11示出了可由事件分析组件408的输出组件512生成的另一GUI屏幕截图1100。GUI屏幕截图1100显示了三个冗余接入路由器对(“AR对”)的相关性。GUI屏幕截图1100还显示了相关性阈值1101，其被显示为表示用于将个别设备分组表征为“有风险的”阈值的线。由此，GUI屏幕截图1100显示冗余AR对3是有风险的，因为相关性超过阈值。在一些实现中，GUI屏幕截图1100可允许用户输入来向上或向下移动相关性阈值1001并相应地重新表征设备分组。例如，如果用户将阈值向下移动到0.53，则冗余AR对2也将被表征为有风险的AR对。

注意，一些实现可执行与以上关于方法1000讨论的类似的处理来确定有风险的设备特性。例如，考虑具有多个物理上相同的网络设备的数据中心，其中第一分组具有第一软件/固件修订，修订A，而其中第二分组具有第二软件/固件修订，修订B。这些设备的一个设备特性可反映当前修订。如果修订A与权证、中断或通信量损失高度相关(例如，使用以上提到的相关性测量中的一个或多个)，则这个特性可被标记为有风险的特性。在进一步的实现中，事件分析组件可评估数据中心拓扑结构来标识具有有风险的特性(例如，修订A)的这些设备。事件分析组件还可估计在修订A设备被升级到修订B的情况下设备可用性方面的改变。基于估计的单个设备可用性，事件分析组件还可估计针对具有包括一个或多个修订A设备的网络戳记的应用的应用可用性方面的改变。

结语

描述所公开的各方法的次序并不旨在解释为限制，并且任何数量的所述方法框都可以按任何次序组合以实现方法或实现替换方法。此外，方法还可以用任何合适的硬件、软件、固件或其组合来实现，以使得计算设备可实现该方法。在一种情况下，该方法作为指令集被存储在一个或多个计算机可读存储介质上，以使得计算设备的处理器的执行使得该计算设备执行该方法。

尽管已用对结构特征和/或方法动作专用的语言描述了涉及表征服务水平的技术、方法、设备、系统等，但可以理解，所附权利要求书中定义的主题不必限于所述具体特征或动作。相反地，具体特征和动作是作为实现所要求保护的方法、设备、系统等的示例性形式来公开的。

Claims

1.一种用于在电子网络上表征服务水平的方法，包括：

从一个或多个事件日志中获得事件，所述事件反映一个或多个数据中心中的一个或多个网络设备发生的故障；

使用一个或多个准则来过滤所述事件以获得事件子集；

确定应用的一个或多个网络戳记；

使用所述事件子集来表征所述一个或多个网络戳记中的各个网络设备的一个或多个服务水平；以及

基于所述一个或多个网络戳记中的所述各个网络设备的服务水平来表征所述应用的服务水平。

2.如权利要求1所述的方法，其特征在于，确定所述一个或多个网络戳记包括处理来自所述事件子集的各个事件。

3.如权利要求1所述的方法，其特征在于，所述一个或多个准则包括相关联的权证准则、与时序有关的准则、计划的维护准则、阴影设备准则，或影响准则。

4.如权利要求1所述的方法，其特征在于，表征所述应用的服务水平假定所述各个网络设备的至少两个的故障的统计独立性。

5.如权利要求1所述的方法，其特征在于，还包括：

标识与所述应用或所述网络戳记有关的一个或多个潜在网络改变。

6.如权利要求5所述的方法，其特征在于，个别潜在网络改变与改变所述一个或多个网络戳记中的冗余性有关。

7.如权利要求5所述的方法，其特征在于，个别潜在网络改变与改变数据中心的数量有关，其中所述应用被主存在所述数据中心处。

8.一种用于在电子网络上表征服务水平的方法，包括：

使用一个或多个准则来过滤所述事件以获得事件子集；

使用所述事件子集来表征所述网络设备的一个或多个服务水平；

确定所述服务水平的一个或多个相关性；以及

基于所述一个或多个相关性来标识一个或多个有风险的设备。

9.如权利要求8所述的方法，其特征在于，所述一个或多个有风险的设备被一起配置在冗余分组中。

10.如权利要求8所述的方法，其特征在于，所述一个或多个有风险的设备在网络拓扑结构的不同层处。

11.一种用于在电子网络上表征服务水平的系统，包括：

用于从一个或多个事件日志中获得事件的装置，所述事件反映一个或多个数据中心中的一个或多个网络设备发生的故障；

用于使用一个或多个准则来过滤所述事件以获得事件子集的装置；

用于使用所述事件子集来表征所述网络设备的一个或多个服务水平的装置；

用于确定所述服务水平的一个或多个相关性的装置；以及

用于基于所述一个或多个相关性来标识一个或多个有风险的设备的装置。

12.一种包括用于执行如权利要求1-7中的任一项所述的方法的装置的计算机系统。

13.一种具有指令的计算机可读存储介质，所述指令在被执行时使机器执行如权利要求1-10中的任一项所述的方法。