CN104584483A - 用于自动确定服务质量降级的原因的方法和设备 - Google Patents

用于自动确定服务质量降级的原因的方法和设备 Download PDF

Info

Publication number
CN104584483A
CN104584483A CN201280075613.0A CN201280075613A CN104584483A CN 104584483 A CN104584483 A CN 104584483A CN 201280075613 A CN201280075613 A CN 201280075613A CN 104584483 A CN104584483 A CN 104584483A
Authority
CN
China
Prior art keywords
resource
performance
good enough
service quality
degradation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280075613.0A
Other languages
English (en)
Other versions
CN104584483B (zh
Inventor
J.格勒南迪克
Y.黄
J.C.W.格拉纳特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN104584483A publication Critical patent/CN104584483A/zh
Application granted granted Critical
Publication of CN104584483B publication Critical patent/CN104584483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5032Generating service level reports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/12Arrangements for detecting or preventing errors in the information received by using return channel
    • H04L1/16Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
    • H04L1/18Automatic repetition systems, e.g. Van Duuren systems
    • H04L1/1829Arrangements specially adapted for the receiver end
    • H04L1/1854Scheduling and prioritising arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/12Arrangements for detecting or preventing errors in the information received by using return channel
    • H04L1/16Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
    • H04L1/18Automatic repetition systems, e.g. Van Duuren systems
    • H04L1/1867Arrangements specially adapted for the transmitter end
    • H04L1/1887Scheduling and prioritising arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5061Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
    • H04L41/5067Customer-centric QoS measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/091Measuring contribution of individual network components to actual service level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/003Arrangements for allocating sub-channels of the transmission path
    • H04L5/0078Timing of allocation
    • H04L5/0087Timing of allocation when data requirements change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/0091Signaling for the administration of the divided path
    • H04L5/0092Indication of how the channel is divided
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/0091Signaling for the administration of the divided path
    • H04L5/0096Indication of changes in allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • H04L43/0864Round trip delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0882Utilisation of link capacity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

通过下列步骤来确定通信网络中的服务质量降级的原因以用于自动化根本原因分析:识别(301)用户会话中的服务质量的降级的发生;识别(303)服务质量的所述所识别降级的发生期间的通信网络的表现欠佳资源;响应确定表现欠佳资源具有至少一个依赖资源,识别(305)服务质量的所述所识别降级的发生期间的任何表现欠佳依赖资源;输出(509)包括所识别表现欠佳资源的每个的身份的服务质量降级的多个原因。

Description

用于自动确定服务质量降级的原因的方法和设备
技术领域
本发明涉及用于自动确定通信网络中的服务质量降级的原因以用于自动化根本原因分析的方法和设备。
背景技术
服务提供商的主要职责之一是确保其服务提供满足与客户的服务等级协议(SLA)中规定的承诺的性能和健壮性级别。
现有方式是通过测量系统内部性能特性(例如往返延迟、可用带宽和丢失比)来监测服务的质量和行为,识别直接指示或者间接暗示服务不再令人满意地表现的不寻常或反常活动,以及识别服务性能降级的(根本)原因。
已经提出,从网络资源提供测量和元数据,并且利用元数据来使系统能够自动生成资源之间的拓扑和依赖性,以帮助识别根本原因。
除了测量和拓扑之外,还需要逻辑和决策标准,以自动查找服务降级的原因。当今的解决方案没有应用解决所有系统服务的这个问题的通用方法,只是开发了特定系统服务的特定解决方案,其中预先已知问题原因,以及根本原因分析系统可使用决策树或其它同样的方法得出结果。
基于决策树的现有解决方案依靠概率或优先级(以判定推理将继续哪一个分支)。使用决策树存在许多缺点。例如,为了能够确定优先级或概率,需要训练或“学习”周期。此外,已经指配给决策的优先级或概率可能不准确。由于判定要沿用哪一个分支供进一步处理遗漏尚未沿用的另一个分支中存在的原因的先前决策(基于概率),决策树可能遗漏服务降级的原因。此外,决策树在计算概率时可能没有反映实时网络状态。
现有解决方案提供用于分析告警和测量以查找特定服务问题的复杂系统和算法。用于查找违规资源的实际自动化常常局限于特定问题,并且仅在服务已经交付之后进行工作。对于这些解决方案,需要时间来查找服务降级的根本原因,从而使系统受到限制并且不可能实现用于实时分析。
用于全网络测量和性能估计的现有解决方案极少注意到兼容性或互通的要求。这些系统通常是点解决方案,使用不同性能量度,采用各种基本测量机制,并且常常仅离线操作。尽管基本机制的不同,但是这些系统的共同目标是向应用提供系统内部特性,并且其测量极大地重叠。
此外,现有解决方案要求复杂系统和特定于领域的知识,以便相互关联来自不同资源的信息以能够查找根本原因。
现有解决方案还依靠非结构化网络测量,并且因而设法尽量利用可用测量。在提供测量的网络的节点中缺乏元数据和相互关联信息使得很难特别是在会话级相互关联来自不同资源的测量。
由于缺乏数据源之间的互通,现有根本原因分析(RCA)解决方案要求大量人类干预;现有根本原因分析解决方案中的自动化在具有异构资源和服务的当今电信网络中仅有极为受限的使用。
基于探测的解决方案提供测量,但是缺乏来自服务传递中涉及的资源的元数据和寻址信息以实现高程度自动化。
发明内容
本发明寻求避免现有技术系统的缺点的至少一部分,并且使用应用于来自网络资源的测量的简单决策逻辑来提供自动化近实时根本原因分析。
按照本发明的一个方面,这通过一种用于自动确定通信网络中的服务质量降级的原因以用于自动化根本原因分析的方法来实现。识别用户会话中的服务质量的降级的发生。识别在服务质量的所识别降级的发生期间的通信网络的表现欠佳资源。响应确定表现欠佳资源具有至少一个依赖资源,识别在服务质量的所识别降级的发生期间的任何表现欠佳依赖资源。输出包括所识别表现欠佳资源的身份的服务质量降级的多个原因。
按照本发明的另一方面,这还通过一种用于自动确定通信网络中的服务质量降级的原因以用于自动化根本原因分析的设备来实现。该设备包括处理器,其配置成:识别用户会话中的服务质量的降级的发生;识别在服务质量的所识别降级的发生期间的通信网络的表现欠佳资源;响应确定表现欠佳资源具有至少一个依赖资源,识别在服务质量的所识别降级的发生期间的任何表现欠佳依赖资源。该设备还包括接口,其配置成输出包括处理器所识别的表现欠佳资源的身份的服务质量降级的多个原因。
按照本发明的又一方面,这通过一种包括多个资源以及用于自动确定通信网络中的服务质量降级的原因以用于自动化根本原因分析的设备的通信网络来实现。该设备包括处理器,其配置成:识别用户会话中的服务质量的降级的发生;识别在服务质量的所识别降级的发生期间的通信网络的表现欠佳资源;响应确定表现欠佳资源具有至少一个依赖资源,识别在服务质量的所识别降级的发生期间的任何表现欠佳依赖资源。该设备还包括接口,其配置成输出包括处理器所识别的表现欠佳资源的身份的服务质量降级的多个原因。
附图说明
为了更全面了解本发明,现在参照以下结合附图的描述,附图包括:
图1是按照本发明的一实施例、用于自动确定服务质量降级的原因的设备的简化示意图;
图2是按照本发明的一实施例、用于自动确定服务质量降级的原因的设备的简化示意图;
图3是按照本发明的一实施例、用于自动确定通信网络中的服务质量降级的原因的方法的流程图;
图4是系统与资源服务、取样周期与求平均周期之间的关系的示例的图形表示;
图5示出按照本发明的一实施例、用于确定具有可访问性和可保持性减损的资源的模型;
图6示出按照本发明的一实施例、用于确定具有完整性减损的资源的模型;
图7是示出资源服务中的差错集的示例的文氏图;
图8是示出按照本发明的一实施例、受影响系统服务与依赖资源服务之间的关系的表;
图9a-c示出确定通信网络中的服务降级的原因的示例;以及
图10是图3的方法的更详细流程图。
具体实施方式
术语“系统服务关键性能指示符”(“S-KPI”)和“资源服务关键性能指示符”(“R-KPI”)等通过Ericsson USP(用户服务性能)概念来定义。在最近的发表物“Keeping the Customer Service Experience Promise”(2011年1月,http://www.ericsson.com/res/docs/whitepapers/wp service assurance.pdf)以及Holm-Oste and M. Norling的论文“Ericsson’s User Service Performance Framework”(Ericsson Review,(1 ):43-46, 2008 http://www.ericsson.com/ericsson/corpinfo/publications/review/2008 01/files/7 EricssonsUserService.pdf)中说明USP概念。
USP概念还由专利发表物no.WO/2008/121062来公开。
本发明的一实施例的RCA逻辑的基本概念在图1中示出。逻辑100(RCA逻辑)接收来自网络资源的测量103以及资源拓扑101。测量和资源拓扑可采取从网络资源所接收的测量和元数据的形式来提供,以便自动生成资源之间的拓扑和依赖性(在这里不作详细描述)。例如从操作支持系统(OSS)来收集测量和元数据而不是从提供这些输入的节点直接报告的其它方法可用于图1的逻辑100中。
RCA逻辑100由规则和算法组成,其应用于其性能测量103被连续收集的资源服务对象。在一备选实施例中,性能测量103可对连续周期来取样,或者备选地可对预定时间间隔来收集或取样。当检测到服务质量的降级、例如检测到系统服务违反时,应用RCA逻辑100,并且评估第一资源服务对象的性能。识别任何依赖资源,以及如果确定存在至少一个依赖资源,则应用该逻辑,并且评估各依赖资源。依赖性资源拓扑(资源服务对象之间的依赖性关系)可以是已知的。仅进一步遍历资源拓扑的表现欠佳部分、即包含表现欠佳资源的部分,如以下更详细描述。因此,可从分析中排除表现良好的资源服务对象,因而使分析更快。
RCA逻辑是决定性的,并且由规则和算法组成。RCA逻辑通常通过一个或多个软件模块来实现。
参照图2,按照本发明的一实施例、用于自动确定通信网络中的服务质量降级的原因以用于自动化根本原因分析的设备200包括:处理器207,其配置成:识别用户会话中的服务质量的降级的发生,识别在服务质量的所识别降级的发生期间的通信网络的表现欠佳资源,响应确定表现欠佳资源具有至少一个依赖资源,识别任何表现欠佳依赖资源;以及接口211,配置成输出包括处理器207所识别的表现欠佳资源的每个的服务质量降级的多个原因。
处理器207连接到接口211的输入。接口211的输出连接到设备200的输出端子213。
处理器还连接到存储装置209。存储装置209如图2所示可以是设备200的整体部分,或者它可以是其外部的。处理器还连接到建模模块205的输出。建模模块205的输入连接到接收器203的输出。接收器203的输入连接到设备200的输入端子201。接收器203还连接到存储装置209。
现在将参照图3来描述设备200的操作。按照本发明的一实施例、用于自动确定通信网络中的服务质量降级的原因以用于自动化根本原因分析的方法300包括下列步骤:识别301用户会话中的服务质量的降级的发生;识别303在服务质量的所识别降级的发生期间的通信网络的表现欠佳资源;响应确定表现欠佳资源具有至少一个依赖资源,识别305在服务质量的所识别降级的发生期间的任何表现欠佳依赖资源;以及输出307包括所识别表现欠佳资源的每个的身份的服务质量降级的多个原因。
来自各节点的多个测量和元数据在设备200的输入端子201和接收器203上接收。处理原始测量,例如,可如本领域已知的那样解析数据流,并且将测量数据和元数据转发到存储装置209供存储,直到处理器为了RCA所需要为止。元数据还转发到建模模块205。建模模块205确定网络的拓扑。这可从随来自网络资源的测量所发送的元数据来确定(在这里不作详细描述)。
处理器207然后通过事件来触发,以执行RCA。备选地,处理器可以以预定时间间隔或者响应特定类型的系统服务违反来执行RCA,如以下更详细描述。处理器207然后如上所述通过从建模模块205检索拓扑并且从存储装置209检测测量数据,来运行图3的步骤。包括表现欠佳资源的身份的服务降级的多个原因由处理器207输出到接口211,其中它被格式化以用于在设备200的输出端子213上输出。可链接多个输出原因,以形成原因链。各链路定义表现欠佳资源的每个相互之间的关系。
下面将更详细描述本发明的实施例。
当检测到服务质量降级时,信息的需要通过哪一方面受到影响来管理。如果它是附加性方面、例如等待时间,则要求对网络的预算。如果引起降级的违反在所识别表现欠佳资源之一中相当大,以致于它超过整个系统的总阈值,则显而易见,这个表现欠佳是服务质量降级的原因(但不一定全部是原因)。
作为服务质量降级的原因的表现欠佳资源可通过使用从涉及系统服务的某一级(顶级资源服务)描述资源服务的模型来查找。连续测量资源服务性能,并且对于要求根本原因分析的事件存储测量。当违反依赖系统服务时使用测量。如果顶级资源服务表现欠佳(第一表现欠佳资源),则测量和评估资源服务模型中的下一级,以使用逻辑“与”和资源预算来找出与第一表现欠佳资源相关的哪一个资源服务表现欠佳,直至找到不满足目标性能的资源服务。依赖性拓扑最下面的不满足所需性能的资源服务是违规资源服务。
通过采用RCA结构中的由上至下方式,能够在拓扑的较高级排除资源服务分支,从而使分析的计算工作量为最小。
被建模为连接对象的资源服务的性能通过下列R-KPI来表达:可访问性、可保持性和完整性。完整性包括吞吐量、等待时间、差错和丢失。
完整性参数能够使用统计取样方法来测量,在这种情况下,参数具有平均值和变化,当测量等待时间时,等待时间的变化是抖动。充分取样间隔需要选择成匹配故障的预期分辨率。这适用于所有测量完整性方面,并且是这个解决方案的整体部分。抖动常常用作描述分组之间的延迟的平均变化的属性。当传递抖动敏感服务、例如语音和视频时,用缓冲器来降低抖动对传递给消费者的媒体质量的影响。抖动能够从等待时间测量来得出。
对于资源服务(ReSe)完整性,测量不是仅进行一次,而是在会话期间连续进行。ReSe完整性如图4所示以取样周期411来测量。服务关键性能指示符409(在这个具体示例中为ReSe完整性)的测量在会话期间作为吞吐量、等待时间、差错率和丢弃率的样本以取样周期411(其中各周期表示为求平均周期401期间求平均的值417)连续进行。提供预定阈值413,并且如图4所示,求平均周期415中的平均值下降到低于阈值,指示服务质量降级。在分析相应资源F、A和B的资源关键性能指示符403、405和407时,在资源F的资源关键性能指示符403中在求平均周期415内在419处识别峰值。因此,资源F识别为表现欠佳资源。
具体来说,控制对象测量用来表达提供用来产生系统服务会话的连通性资源的建立、保存和卸载的功能的性能。控制对象的性能的测量包含:控制过程中的第一信号的开始时间;控制过程中的所有信令交换的时长(执行时间);控制过程中的信令的结果(结果代码)。控制过程能够由一个或数个信号过程组成。
控制过程的性能部分依靠用户平面的性能,其中用户平面提供两个控制过程端点之间的连接。这个依赖性在控制过程测量的元数据中描述。
本发明的一实施例的RCA逻辑具有使用来自所涉及资源服务对象类型和事件的测量来识别根本原因的能力。以下性能方面描述系统或资源服务的性能:可访问性、可保持性和完整性。
用于表明取决于资源服务对象的服务对象(系统或资源服务)的性能之间的关系的模型在图5中对可访问性和可保持性以及在图6中对完整性示出。
顶级服务对象501、601是系统服务,而所有较下级服务对象503、505、507、603、605、607是资源服务。系统服务取决于一个或多个资源服务。该模型能够水平和垂直地扩大,即,资源服务取决于其它资源服务。
性能测量用来确定系统服务(SySe)501、601是否处于违反。当发现受影响SySe处于违反(所识别的第一表现欠佳资源)时,依赖资源服务(ReSe)503、505、507、603、605、607从ReSe性能测量来确定,以及SySe与ReSe之间的性能属性的关系在图8中示出。
参照图5,单独ReSe的可访问性为布尔,即,ReSe是可访问的或者不是可访问的。资源501、例如连接X的可访问性取决于所有连接A、B和C(资源503、505、507)是可访问的。这通过下列布尔方程使用“与”(∧)运算来表达:
布尔方程规定,如果A和B和C是可访问的,则X是可访问的。
如果受影响SySe x的可访问性处于违反,则该逻辑将(基于来自ReSe(a,b,c)的可访问性测量)确定依赖ReSe(a,b,c)的哪一个将是受影响ReSe或诱因ReSe。
参照图6,单独ReSe的可保持性也是布尔,因为ReSe被成功保持(完成)或者没有保持。
当所有依赖较下级ReSe在较高级ReSe成功完成时被成功释放或者仍然可用时,较高级可保持性未受损害。
只要ReSe所依赖的所有ReSe被保持了,就保持它。
对于该表达,使用否定,即,如果较下ReSe 603、605、607的任一个不成功,则较高级ReSe 601不成功。ReSe的可误性是ReSe的可保持性的反面,比如说,可误性表达为F。下列布尔方程使用“或”()和“非”():
从可误性到可保持性的转换给出下列结果:
布尔方程规定,如果不保持A或B或C,则不保持X。如果受影响SySe x的可保持性处于违反,则该逻辑将(基于来自ReSe(a,b,c)的可保持性测量)确定依赖ReSe(a,b,c)的哪一个将是受影响ReSe或诱因ReSe。
完整性是一类性能。ReSe的完整性:连接对吞吐量表示为IT,对等待时间或延迟表示为IL,对差错率表示为IE,以及对丢弃表示为ID。表达完整性测量的单位取决于所提供的ReSe。例如,ReSe E线路服务(以太网)将丢弃率定义为帧丢失,而路由器将丢弃率定义为分组丢失。模型中的连接经过节点来连接,在该模型中,连接部分延伸到节点中。当节点影响必须考虑时,例如节点中的延迟的一半的延迟贡献于入口连接以及一半贡献于出口连接。
对ReSe存在吞吐量的两个方面。第一方面是利用吞吐量,其是ReSe的测量实际吞吐量能力。利用吞吐量并不表示吞吐量应当或者可能是的情况,而是实际传递的情况。另一方面是ReSe的可用空闲吞吐量。可用空闲吞吐量测量表示对ReSe是否存在空闲容量。
ReSe X的可用空闲吞吐量等于ReSe A、B和C的最低利用吞吐量。如果连接A、B或C之一具有为0的可用和空闲吞吐量,则该ReSe是违规资源。这通过下列表达式来描述:
如果,则ReSe (i)是违规资源(之一) {i=a, b,或者c}
如果受影响SySe x的吞吐量敏感S-KPI处于违反,则该逻辑将(基于来自ReSe(a,b,c)的完整性测量)确定依赖ReSe(a,b,c)的哪一个将是受影响ReSe或诱因ReSe。
端点之间的等待时间通过各级联ReSe的延迟来确定。每个ReSe具有单独延迟预算,ReSe的性能必须处于其完全系统延迟预算的部分之内,如果系统服务降级并且ReSe的延迟不在延迟预算之内,则必须检查较下层ReSe。等待时间的下列算术表达式适用:
该方程规定,X的等待时间与A、B和C的等待时间之和是相同的。
如果受影响SySe x的等待时间敏感S-KPI处于违反,则该逻辑将(基于来自ReSe(a,b,c)的完整性测量)确定依赖ReSe(a,b,c)的哪一个将是受影响ReSe或诱因ReSe。
ReSe的差错率取决于较下级ReSe的差错率。在所有较下ReSe具有零的差错率的状况中,较高级ReSe的差错率也为零。一个ReSe中的差错可(经由较高级ReSe)传播到另一个ReSe,从而引入较下级ReSe之间的统计依赖性。
ReSe X与ReSe A、B和C之间的关系在图7中示为文氏图。ReSe X中的差错是ReSe A、B和C 701、703、705中的差错的组合集合。
文氏图中所示的关系能够表达为:
该方程规定,X中的差错/差错率是A、B和C的差错/差错率之和减去具有共同原因的A和B、C和B、A和C中的差错/差错率加上具有共同原因的A、B和C中的差错。
如果受影响SySe x的差错敏感S-KPI处于违反,则该逻辑将(基于来自ReSe(a,b,c)的差错率测量)确定依赖ReSe(a,b,c)的哪一个将是受影响ReSe或诱因ReSe。
丢失是馈入ReSe中的分组与没有被抛弃或丢弃而到达ReSe端点的分组之间的关系。在最佳情况中,每个ReSe具有零的丢弃率,在这种情况下,较高级ReSe的丢弃率为零。每个ReSe的丢弃率被加入总丢弃率。这表达为:
该方程规定,X的丢失率与A、B和C中的丢失率之和是相同的。
如果受影响SySe x的丢失敏感S-KPI处于违反,则该逻辑将(基于来自ReSe(a,b,c)的丢失测量)确定依赖ReSe(a,b,c)的哪一个将是受影响ReSe或诱因ReSe。
受影响SySe与依赖ReSe之间的关系在图8中示出。从图8的表能够看到,在吞吐量敏感性能的违反的情况下,依赖ReSe完整性评估可涉及吞吐量、等待时间、差错和丢失测量。对于等待时间敏感性能的违反,依赖ReSe完整性可涉及吞吐量、等待时间、差错和丢失测量。
分析情形的示例在图9a、图9b、图9c中示出。这些附图示出包括经由连接905互连的两个端子901、903的VPN 900。VPN 900为SySe提供下列性能要求:吞吐量至少为60,以及等待时间不大于20,如图9c所示。从测量中,VPN SySe的吞吐量性能是35,如图9c所示。测量依赖ReSe表明905具有与处于违反的SySe相同的吞吐量,该逻辑判定连接905成为表现欠佳资源,并且L1 907、L2 909和路由器R911是依赖资源。L2 909呈现与连接905相同的吞吐量,并且因此是表现欠佳资源,在这个示例中,不存在其它依赖资源(即,进一步细分),以及结果是,资源L2 909因吞吐量问题而引起服务降级。
在检测到S-KPI违反时,第一步骤是通过识别受影响SySe来识别服务质量降级的发生。在可访问性违反的情况下,该过程识别表现欠佳资源,识别依赖所识别表现欠佳资源的可访问性的任何资源,应用如以上所指定的规则以确定哪一个资源和R-KPI是表现欠佳的原因。这对所有依赖资源重复进行。该过程对所识别表现欠佳依赖资源的一个或全部的所有后续识别的依赖资源重复进行。
类似地,如果检测到可保持性违反,则执行上述过程,但是任何依赖资源被识别为依赖第一表现欠佳资源的可保持性的那些资源。
类似地,如果检测到完整性违反,则执行上述过程,但是任何依赖资源被识别为依赖第一表现欠佳资源的完整性的那些资源。
按照本发明的一实施例,图3的方法在图10中更详细示出。
接收链接的测量样本(步骤1001)。S-KPI和预计R-KPI性能的阈值可预先确定或者“即时”计算。随后,识别服务会话的阈值违反的时间点和阈值违反的时长(步骤1003),即,识别服务质量的降级的发生。S-KPI的阈值违反将与那些依赖资源(即,表现欠佳资源)的R-KPI性能不足共同发生。然后,得到识别为与表现欠佳资源相关的各资源的R-KPI测量(步骤1005)。随后,各依赖资源的R-KPI性能不足从R-KPI测量(其与先前确定的S-KPI违反相互关联)来识别(步骤1007),即,识别表现欠佳资源,使得识别与在步骤1003所识别的S-KPI阈值违反共同发生的那些不足。
显然,只有与S-KPI阈值违反共同发生的那些R-KPI性能不足可能导致系统服务会话的性能降级。这基于如下假设:服务会话的降级开始将与依赖资源服务会话的降级开始共同发生(或者以可忽略传播延迟发生)。
对于各资源,多个完整性R-KPI(分组丢失、延迟等)的测量可以是从链接的测量可用的。将检查每个R-KPI的性能不足。
所有违反(和对应依赖资源性能不足)将加入原因链中,作为系统服务会话的性能降级的潜在原因(步骤1009)。
将步骤1005至1009迭代地应用于每个所识别依赖资源,直至到达链接的测量中的最后一个资源(步骤1011)。
最后一个资源(连同其R-KPI性能不足一起)被看作是降级的“根本”原因。在这里,“根本”原因取决于测量的可用性。
显然,并非所有所识别违反都是实际原因。至少有可能的是,违反之一与服务降级不相关。去除这种错误肯定的表现欠佳资源(步骤1013)。
在步骤1013从该链中去除的其它错误肯定的表现欠佳资源是在步骤1007对其没有识别到与在步骤1003所识别的S-KPI阈值违反同时发生的依赖资源的R-KPI性能不足的那些资源,依赖资源将从原因链中去除,并且不会执行进一步向下探取。
表明源自根本原因一直到服务会话的问题的传播的表现欠佳资源的链在步骤1015输出。
输出中仍然存在可能错误肯定的违规资源。这种不准确性只能使用对多个系统会话的统计分析进一步去除。
按照本发明的系统提供决策逻辑,其是通用的,并且不要求特定于领域的知识来相互关联来自不同资源的信息,以便近实时地查找根本原因。这促进基于来自不同网络域的测量的自动化全网络全盘分析。所产生的系统得到简化,同时提供改进精度和更快分析。
本发明的实施例的系统输出表现欠佳资源的链而不是单个资源来作为根本原因。因此,系统的输出清楚地描述问题跨网络的传播。这促进通过对于来自多个服务会话的原因链的统计分析进一步细化根本原因。
本发明描述通过将规则和策略应用于每用户会话的拓扑相关S-KPI和R-KPI的测量进行自动化根本原因分析的方法、算法和功能。识别通信网络的表现欠佳资源的步骤包括得到通信网络的资源的多个资源关键性能指示符测量;识别服务质量降级的发生期间的资源的资源关键性能指示符的任一个的不足;以及其中识别任何表现欠佳依赖资源的步骤包括得到依赖于识别为表现欠佳的资源的各资源的多个资源关键性能指示符测量;识别依赖于在服务质量降级的发生期间识别为表现欠佳的资源的各资源的资源关键性能指示符的任一个的不足。因此,系统标准用来提供跨一系列服务问题的测量,同时提供兼容性和互通。
提供有测量的元数据能够用来提供表现欠佳资源的身份,从而实现过程的全自动化。
此外,动态确定资源的拓扑,从而提供系统适合拓扑的变化的灵活性。
识别表现欠佳资源的步骤包括在所接收拓扑的最顶级识别表现欠佳资源,以及其中识别任何表现欠佳依赖资源的步骤包括从拓扑中的前一上级来识别下一后续级的每个中的任何表现欠佳资源,并且将最后一个表现欠佳资源识别为最低级中的表现欠佳资源。这种向下探取技术改进精度,从而确保没有遗漏任何表现欠佳资源,改进精度,同时避免决策树的使用的要求,并且因而避免使用决策树的所有缺点。
通过链接的测量中嵌入的依赖性模型,本发明的实施例的系统完全自动化,而无需人类干预。这显著降低因手动干预引起的OPEN和错误分析结果。
向下探取方式通过分析违反之间的重叠并且在没有发现重叠违反时去除错误肯定的违规资源,来改进RCA的精度。
与基于决策树的解决方案相比,本发明的实施例的系统具有下列优点:算法能够直接应用于测量,不需要学习;该解决方案在查找故障原因中更为准确;准实时分析提供用于查找故障原因的更快方法。
虽然在附图中示出以及在以上详细描述中描述了本发明的实施例,但是将会理解,本发明并不局限于所公开的实施例,而是能够有进行许多修改,而没有背离如所附权利要求书提出的本发明的范围。

Claims (14)

1. 一种用于自动确定通信网络中的服务质量降级的原因以用于自动化根本原因分析的方法,所述方法包括下列步骤:
识别用户会话中的服务质量的降级的发生;
识别在服务质量的所述所识别降级的发生期间的所述通信网络的表现欠佳资源;
响应确定表现欠佳资源具有至少一个依赖资源,识别在服务质量的所述所识别降级的发生期间的任何表现欠佳依赖资源;
输出包括所述所识别表现欠佳资源的身份的所述服务质量降级的多个原因。
2. 如权利要求1所述的方法,其中,输出多个原因的步骤包括:
相加识别为表现欠佳的资源的识别信息和所述表现欠佳的原因,以生成原因对象;
输出所述多个原因对象的每个之间的至少一个链路,以输出原因链。
3. 如以上权利要求中的任一项所述的方法,其中,识别服务质量的降级的发生的步骤包括:
如果服务质量下降到低于服务质量阈值,则识别服务质量的降级的发生。
4. 如以上权利要求中的任一项所述的方法,其中,识别服务质量的降级的发生的步骤包括:
识别所述服务质量的降级发生的时间点和所述服务质量的降级的发生的时长。
5. 如以上权利要求中的任一项所述的方法,其中,识别任何表现欠佳依赖资源的步骤包括:
得到依赖于识别为表现欠佳的资源的各资源的多个资源关键性能指示符测量;
识别依赖于在服务质量降级的发生期间识别为表现欠佳的资源的各资源的资源关键性能指示符的任一个的不足。
6. 如以上权利要求中的任一项所述的方法,其中,输出所述服务质量降级的多个原因的步骤包括:
从所述多个原因中去除识别为错误肯定的资源;以及
输出剩余的多个原因。
7. 如权利要求5或6所述的方法,其中,识别所述通信网络的表现欠佳资源的步骤包括下列步骤:
接收来自通信网络的资源的多个测量,所述多个测量的每个包括与其关联的标识符;
确定所述至少一个接收测量是否不指示资源关键性能指示符的不足。
8. 如以上权利要求中的任一项所述的方法,其中,所述方法还包括:
接收与各接收测量关联的所述资源的识别信息;以及
从所述接收识别信息来确定所述资源的拓扑。
9. 如权利要求8所述的方法,其中,识别表现欠佳资源的步骤包括:
在所述接收拓扑的最顶级识别表现欠佳资源,并且其中识别任何表现欠佳依赖资源的步骤包括:
从所述拓扑中的所述前一上级来识别所述下一后续级的每个中的任何表现欠佳资源,并且将最后一个表现欠佳资源识别为所述最下级中的所述表现欠佳资源。
10. 一种用于自动确定通信网络中的服务质量降级的原因以用于自动化根本原因分析的设备,所述设备包括处理器,其配置成:
识别用户会话中的服务质量的降级的发生;
识别在服务质量的所述所识别降级的发生期间的所述通信网络的表现欠佳资源;
响应确定所述表现欠佳资源具有至少一个依赖资源,识别任何表现欠佳依赖资源;以及
接口,配置成输出包括所述处理器所识别的所述表现欠佳资源的身份的所述服务质量降级的多个原因。
11. 如权利要求10所述的设备,其中,所述设备还包括:
接收器,配置成接收来自通信网络的多个资源的每个的多个测量。
12. 如权利要求11所述的设备,其中,所述设备还包括:
建模模块,配置成从所述所接收的多个测量来确定所述多个资源的拓扑。
13. 如权利要求11或12所述的设备,其中,所述设备还包括:
存储装置,用于存储所述所接收的测量。
14. 一种包括多个资源以及如权利要求10至13中的任一项所述的设备的通信网络。
CN201280075613.0A 2012-07-04 2012-07-04 用于自动确定服务质量降级的原因的方法和设备 Active CN104584483B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/062994 WO2014005627A1 (en) 2012-07-04 2012-07-04 Method and apparatus for automatically determining causes of service quality degradation

Publications (2)

Publication Number Publication Date
CN104584483A true CN104584483A (zh) 2015-04-29
CN104584483B CN104584483B (zh) 2018-05-08

Family

ID=46466518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280075613.0A Active CN104584483B (zh) 2012-07-04 2012-07-04 用于自动确定服务质量降级的原因的方法和设备

Country Status (4)

Country Link
US (1) US9692671B2 (zh)
EP (1) EP2870725B1 (zh)
CN (1) CN104584483B (zh)
WO (1) WO2014005627A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112583631A (zh) * 2019-09-30 2021-03-30 瞻博网络公司 确定计算机系统事件的依赖原因
CN113206749A (zh) * 2020-01-31 2021-08-03 瞻博网络公司 网络事件的相关性的可编程诊断模型
US11809266B2 (en) 2020-07-14 2023-11-07 Juniper Networks, Inc. Failure impact analysis of network events

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10135698B2 (en) 2013-05-14 2018-11-20 Telefonaktiebolaget Lm Ericsson (Publ) Resource budget determination for communications network
IN2013CH03925A (zh) * 2013-09-02 2015-09-11 Appnomic Systems Private Ltd
US10397082B2 (en) * 2014-08-07 2019-08-27 Citrix Systems, Inc. Internet infrastructure measurement method and system adapted to session volume
US10321336B2 (en) * 2016-03-16 2019-06-11 Futurewei Technologies, Inc. Systems and methods for robustly determining time series relationships in wireless networks
US10700767B2 (en) * 2016-03-16 2020-06-30 Honeywell International Inc. Requesting weather data based on pre-selected events
US10374882B2 (en) * 2016-03-16 2019-08-06 Futurewei Technologies, Inc. Systems and methods for identifying causes of quality degradation in wireless networks
US10979480B2 (en) * 2016-10-14 2021-04-13 8X8, Inc. Methods and systems for communicating information concerning streaming media sessions
US10489363B2 (en) * 2016-10-19 2019-11-26 Futurewei Technologies, Inc. Distributed FP-growth with node table for large-scale association rule mining
US10565045B2 (en) 2017-06-28 2020-02-18 Microsoft Technology Licensing, Llc Modularized collaborative performance issue diagnostic system
US10516777B1 (en) * 2018-09-11 2019-12-24 Qualcomm Incorporated Enhanced user experience for voice communication
US11310141B2 (en) * 2019-12-11 2022-04-19 Cisco Technology, Inc. Anomaly detection of model performance in an MLOps platform
CN113422690A (zh) * 2020-03-02 2021-09-21 烽火通信科技股份有限公司 一种业务质量劣化预测方法及系统
US20230020899A1 (en) * 2021-06-30 2023-01-19 Juniper Networks, Inc. Virtual network assistant with location input
US11770290B2 (en) 2021-08-13 2023-09-26 Juniper Networks, Inc. Network management actions based on access point classification
US11652684B1 (en) * 2021-11-17 2023-05-16 Rakuten Mobile, Inc. System, method, device, and program for performing automatic troubleshooting of a network

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1666536A (zh) * 2002-07-10 2005-09-07 西门子公司 确定通信网中服务性能降低的原因
CN101675648A (zh) * 2007-03-08 2010-03-17 Lm爱立信电话有限公司 与性能监测有关的结构和方法
US20100284293A1 (en) * 2007-12-28 2010-11-11 Nec Corporation Communication network quality analysis system, quality analysis device, quality analysis method, and program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7467193B2 (en) * 2000-08-01 2008-12-16 Qwest Communications International Inc Management of virtual and physical network inventories
US7391812B2 (en) 2002-07-14 2008-06-24 Apple Inc. Adaptively post filtering encoded video
US9839005B2 (en) * 2006-08-02 2017-12-05 Qualcomm Incorporated Methods and apparatus for mobile terminal-based radio resource management and wireless network optimization
ES2370919T3 (es) 2007-03-29 2011-12-23 Telefonaktiebolaget Lm Ericsson (Publ) Método y aparato para la evaluación de servicios en redes de comunicación.
US8495428B2 (en) * 2009-06-30 2013-07-23 International Business Machines Corporation Quality of service management of end user devices in an end user network
WO2011012173A1 (en) * 2009-07-31 2011-02-03 Telefonaktiebolaget Lm Ericsson (Publ) Service monitoring and service problem diagnosing in communications network
EP2742646B1 (en) 2011-09-30 2015-11-18 Telefonaktiebolaget LM Ericsson (PUBL) A method, apparatus and communication network for root cause analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1666536A (zh) * 2002-07-10 2005-09-07 西门子公司 确定通信网中服务性能降低的原因
CN101675648A (zh) * 2007-03-08 2010-03-17 Lm爱立信电话有限公司 与性能监测有关的结构和方法
US20100284293A1 (en) * 2007-12-28 2010-11-11 Nec Corporation Communication network quality analysis system, quality analysis device, quality analysis method, and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112583631A (zh) * 2019-09-30 2021-03-30 瞻博网络公司 确定计算机系统事件的依赖原因
US11900273B2 (en) 2019-09-30 2024-02-13 Juniper Networks, Inc. Determining dependent causes of a computer system event
CN113206749A (zh) * 2020-01-31 2021-08-03 瞻博网络公司 网络事件的相关性的可编程诊断模型
CN113206749B (zh) * 2020-01-31 2023-11-17 瞻博网络公司 网络事件的相关性的可编程诊断模型
US11956116B2 (en) 2020-01-31 2024-04-09 Juniper Networks, Inc. Programmable diagnosis model for correlation of network events
US11809266B2 (en) 2020-07-14 2023-11-07 Juniper Networks, Inc. Failure impact analysis of network events

Also Published As

Publication number Publication date
CN104584483B (zh) 2018-05-08
WO2014005627A1 (en) 2014-01-09
EP2870725B1 (en) 2016-05-11
EP2870725A1 (en) 2015-05-13
US9692671B2 (en) 2017-06-27
US20150304191A1 (en) 2015-10-22

Similar Documents

Publication Publication Date Title
CN104584483A (zh) 用于自动确定服务质量降级的原因的方法和设备
EP2924579B1 (en) Event correlation
JP6097889B2 (ja) 監視システム、監視装置、および検査装置
EP3951598B1 (en) Methods and systems for detecting anomalies in cloud services based on mining time-evolving graphs
CN108989136A (zh) 业务端到端性能监控方法及装置
US9253029B2 (en) Communication monitor, occurrence prediction method, and recording medium
CN110569166A (zh) 异常检测方法、装置、电子设备及介质
WO2023125272A1 (zh) Radius环境下的全链路压测方法、装置、计算机设备及存储介质
CN113313280B (zh) 云平台的巡检方法、电子设备及非易失性存储介质
EP2963552A1 (en) System analysis device and system analysis method
CN115038088B (zh) 一种智能网络安全检测预警系统和方法
WO2015182629A1 (ja) 監視システム、監視装置及び監視プログラム
CN115114124A (zh) 主机风险的评估方法及评估装置
CN112073396A (zh) 一种内网横向移动攻击行为的检测方法及装置
CN114157486B (zh) 通信流量数据异常检测方法、装置、电子设备及存储介质
CN115706695A (zh) 网络故障根因的确定方法、装置、设备及存储介质
JP2019502969A (ja) スーパーコンピュータの保守および最適化を支援するための方法およびシステム
JP2006033715A (ja) ネットワークe2e性能評価システムと方法およびプログラム
CN117880055B (zh) 基于传输层指标的网络故障诊断方法、装置、设备及介质
US20230064755A1 (en) Data processing method and apparatus
TW201929584A (zh) 基地台之障礙辨識伺服器及方法
CN116915463B (zh) 一种调用链数据安全分析方法、装置、设备及存储介质
US20230198911A1 (en) System and method for time sliced based traffic detection
CN112187498B (zh) 旁路保护方法及其装置、系统和深度报文检测dpi系统
US20240171505A1 (en) Predicting impending change to Interior Gateway Protocol (IGP) metrics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant