CN116261845A - 根本原因分析 - Google Patents

根本原因分析 Download PDF

Info

Publication number
CN116261845A
CN116261845A CN202080105939.8A CN202080105939A CN116261845A CN 116261845 A CN116261845 A CN 116261845A CN 202080105939 A CN202080105939 A CN 202080105939A CN 116261845 A CN116261845 A CN 116261845A
Authority
CN
China
Prior art keywords
root cause
feature
measurement data
model
analyzer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080105939.8A
Other languages
English (en)
Inventor
彼得·瓦德纳
彼得·克施
若菲奥·卡卢斯
陶马什·博尔绍什
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN116261845A publication Critical patent/CN116261845A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

用于根本原因分析的方法和装置。方法包括:获取测量数据,该测量数据包括系统的特征的测量数据。该方法还包括:通过将经训练的机器学习模型应用于测量数据来生成预测值,并且还通过将所生成的机器学习模型解释器应用于测量数据来生成特征影响值。该方法还包括:使用所生成的特征影响值来更新系统的特征与预测值之间的连接的本体表示,以及基于所更新的本体表示来输出导致该预测值的所提出的根本原因。

Description

根本原因分析
技术领域
本文描述的实施例涉及用于根本原因分析的方法和装置,具体地,涉及将机器学习技术应用于根本原因分析的方法和装置。
背景技术
确定复杂系统的执行方式及其原因通常是一项耗时且劳动密集的任务,通常需要系统专家进行大量工作。在此背景下的复杂系统的示例是电信或电信网络;电信网络(例如,移动电信网络)的性能可以通过评估网络的末端用户(也被称为网络客户)的体验质量来评定。
客户体验管理(CEM)对于移动电信网络的运营商来说可能具有挑战性。为了为末端用户提供服务保证(SA),即满足各种质量标准(示例可以包括数据吞吐量的最低水平、最大掉线呼叫率等)的服务,通常需要服务的端到端可观测性。还可能需要通过许多域进行的网络管理。
图1是一般的端到端电信网络CEM架构的示意性概览,其中低级别网络测量数据特征(例如,日志、轨迹、探针、计数器、测量报告等)被流式传输到中央管理实体(例如,其可以是核心网节点)。这些特征可以来自许多不同的网络域,例如用户设备(UE)、无线电接入网(RAN)、核心网、传输网络、服务等。为了识别与给定移动用户相关的相关数据,需要将从多个域收集的测量进行相关,使得运营商可以监控末端用户会话的主要特性和性能。网络管理数据的复杂性增加,因为来自多个域的多样的测量数据也可能涉及多种接入技术、网络层和协议。另外,一些相关数据对于网络管理可能是不可访问的,因为特定的网络域可能由第三方管理(例如,过顶(over-the-top)服务、传输服务等)。
可以使用关键性能指标(KPI)来概括网络的性能;使用电信网络的示例,KPI的示例可以包括分组丢失率、时延等。可以直接监测或估计KPI;回到电信网络的示例,可以直接监测或使用例如图1所示的低级别网络测量数据来估计电信KPI。
为了对末端用户会话执行更深入的分析,需要进一步的分析法。通过手动分析来自多个域、接入技术等的相关的测量,网络运营商可以获得高级别的洞察,并且可能能够确定在网络性能差和/或网络性能退化的情况下在网络上执行的潜在动作。
根本原因分析(RCA)是识别问题或性能退化的主要来源的过程;通常,该过程由技术熟练的运营商使用网络、KPI和低级别网络测量数据的知识来执行。在找到问题/性能退化的根本原因之后,运营商可能会潜在地采取进一步的动作来修复问题和/或修改网络以降低类似问题再次发生的风险。为了减少由于执行RCA而对运营商造成的负担,可以使用机器学习(ML)技术来通过在网络管理中执行高级别分析法来辅助运营商,然而,对运营商仍然存在相当大的负担。
US 9,774,506B2公开了如何基于不同事件/事件突发的时序顺序来探索事件之间的因果关系。该系统使用自底向上的方法,其中检测事件突发,并且基于检测到的表示事件中突发行为的发生的事件突发记录来识别事件和系统操作报告之间的因果关系。基于所找到的因果关系,可以通过确定与相关于系统操作中的改变的事件突发的事件相关联的参数来识别系统操作中改变的原因。事件的影响和事件之间的相关性未被考虑在内,并且没有进行特征聚合的余地。
发明内容
本公开的目的是提供方法、装置和计算机可读介质,其至少部分地解决上述一个或多个挑战。具体地,本公开的目的是提供能够以复杂数据集来操作、需要最小量的人工输入并且考虑数据之间的因果关系的根本原因分析方法和装置。
根据实施例的一个方面,提供了用于根本原因分析的方法。该方法包括:获取测量数据,该测量数据包括系统的特征的测量数据;通过将经训练的ML模型应用于测量数据来生成预测值。该方法还包括:通过将所生成的ML模型解释器应用于测量数据来生成特征影响值。该方法还包括:使用所生成的特征影响值来更新系统的特征与预测值之间的连接的本体表示;以及基于所更新的本体表示来输出所提出的根本原因,其中所提出的根本原因导致该预测值。结合模型解释器和本体表示使用经训练的ML模型允许以最少的人工输入来识别预测值的根本原因。然后,可以使用该根本原因来识别和解决潜在的系统问题,并且提高系统性能。
在实施例的一些方面,本体表示可以是知识图。知识图可以具有静态结构,并且可以表示域、预测值和特征的测量数据之间的因果关系。知识图特别适合于表示复杂系统中的因果关系,并且对知识图使用静态结构可以确保在准备知识图时使用的专家系统知识可以被保留。因此,知识图可以准确地表示系统。
在实施例的一些方面,该方法可以包括训练ML模型和/或生成ML模型解释器,这潜在地是并行执行的。由此,可以尽可能高效地进行ML模型和/或模型解释器的创建。
在实施例的一些方面,系统可以是电信网络的至少一部分,预测值可以是KPI值(例如,VoLTE MOS),特征的测量数据可以是电信网络度量。实施例的各方面可以特别适合于为诸如电信网络之类的复杂系统提供根本原因信息。
在实施例的一些方面,该方法还可以包括:建议用于解决所提出的根本原因的动作;以及潜在地在系统上执行该动作。以这种方式,可以在所需人工输入最少的情况下快速地识别和解决系统的潜在问题。
根据实施例的其他方面,提供了用于根本原因分析的根本原因分析器。该根本原因分析器包括处理电路和包含可由处理电路执行的指令的存储器。该根本原因分析器可操作以执行方法,该方法包括:获取测量数据,该测量数据包括系统的特征的测量数据;通过将经训练的机器学习(ML)模型应用于测量数据来生成预测值。该根本原因分析器还被配置为通过将所生成的ML模型解释器应用于测量数据来生成特征影响值。该根本原因分析器还被配置为:使用所生成的特征影响值来更新系统的特征与预测值之间的连接的本体表示;以及基于所更新的本体表示来输出所提出的根本原因,其中所提出的根本原因导致该预测值。由该根本原因分析器提供的一些优点可以如以上在用于根本原因分析的方法的上下文中所讨论的。
附图说明
仅通过示例的方式,参考以下附图来描述本公开,附图中:
图1是电信网络CEM架构的示意性概览;
图2是根据实施例的各方面的方法的流程图;
图3A和图3B是根据实施例的各方面的系统的示意图;
图4是根据实施例的各方面的ML模型和ML模型解释器的训练/生成的示意性概览;
图5是指示可以如何获取预测值的说明图;
图6是根据实施例的一个方面的知识图的示例的表示;
图7A和图7B是根本原因识别的示意性表示;
图8A和图8B是根据实施例的各方面的知识图的示例的表示;
图9是使用根据实施例的各方面的方法获得的结果的示例;以及
图10是根据实施例的各方面的可以获得预测值的一个或多个根本原因的过程的示意性概览。
具体实施方式
出于解释的目的,在以下描述中阐述细节以便提供对所公开实施例的透彻理解。然而,对于本领域技术人员来说将显而易见的是,可以在没有这些具体细节的情况下或以等效的布置来实现这些实施例。
如上所述,ML技术可以辅助运营商执行RCA。然而,通常,ML系统作为“黑匣子”系统操作,其中当给定特定输入时由ML代理生成特定输出的方式是未知的。结果,典型的ML系统可以向执行RCA的运营商提供一些辅助,但是辅助的范围是有限的。如果要使用ML代理来预测KPI值,则为了识别哪些特征对所预测的KPI值做出贡献以及来自每个特征(对于RCA可能有用的信息)的贡献的量值,可以使用ML模型解释器。
ML模型解释器用于识别当被提供有给定输入时ML模型返回给定输出的原因。ML模型解释器的示例包括Eli5包(更详细的讨论参见以下网址:https://eli5.readthedocs.io/en/latest/overview.html,自2020年9月11日起)和LIME(LocalInterpretable Model-agnostic Explanations;局部可解释的模型不可知解释)方法(更详细的讨论参见Ribeiro,M.T.、Singh,S.和Guestrin,C.所著的““Why Should I TrustYou?”:Explaining the Predictions of Any Classifier”;ACM SIGKDD知识发现和数据挖掘国际会议(KDD),2016;可在以下网址获取:https://arxiv.org/abs/1602.04938,自2020年9月29日起)。在Lundberg,S.M.和Lee,S-I所著的“A Unified Approach toInterpreting Model Predictions”中更详细地讨论了被称为SHAP(SHapley AdditiveexPlanations;Sharley加性解释)的加性ML模型解释器(NIPS会议,2017;可在以下网址获得:https://papers.nips.cc/paper/7062-a-unified-approach-to-interpreting-model-predictions,自2020年9月11日起)。
使用ML模型解释器,可以识别对预测的KPI值有贡献的最相关的特征。虽然ML模型解释器的使用可以允许在一些简单系统中进行RCA,但是在诸如电信网络之类的复杂系统中,电信网络的特征通常是高度相互关联的。一个特定的问题或KPI降级可能由多个特征来指示,因此不容易找到问题/降级的根本原因,因为可能无法识别因果关系。为了获得因果关系,可能需要详细的系统知识。
本公开的实施例提供了用于通过结合本体表示与ML模型解释器一起使用ML模型来至少部分地自动化RCA的方法和装置。本体表示可以用于表示与系统相关的知识库,从而指示特征和较高级别值(从特征中导出)之间的因果关系。通常,本体表示最初是在一个或多个系统专家的辅助下编译的,并且是该一个或多个专家的与给定系统相关的知识库的表示。可以使用的本体表示的一个示例是知识图。
知识图本质上以图形形式来表示(形成知识库的)多个陈述(statement)。在知识图中,通常以多维图的形式表示实体和谓词(predicate)的集合。可以使用实体之间的链接来说明实体(谓词)之间的关系。在一些知识图中,实体和链接在知识图上的相对定位可以用于说明不同实体和链接之间的关系。
根据实施例的各方面,使用ML模型来从低级别特征(例如,如图1所示的网络度量)中生成对提供给末端用户的性能进行指示的预测值(例如,预测的KPI值)。使用ML模型解释器来为每个个体样本的每个特征生成影响值。可以使用如上所述的ML模型解释器,优选地使用诸如SHAP的加性ML模型解释器。然后,使用所生成的特征影响值来更新对特征与更高级别域之间的因果关系进行编码的本体表示(例如知识图)。如上所述,本体表示的结构由一个或多个人类专家使用专家的知识库预先定义;该结构可以是固定的。基于所更新的本体表示,针对预测值的所提出的根本原因然后可被识别并且输出。
在本体表示是知识图的情况下,所生成的特征影响值可以被分配给知识图的低级别节点(其可以被称为叶节点,特别是在知识图具有树形的情况下)。然后,知识图的给定较高级别域的影响可以通过对连接到该给定较高级别域的低级别节点的影响值进行迭代求和来确定;如果使用加性ML模型解释器,则该过程被简化。一旦跨较高级别域实现了该过程,就可以基于这些域的相对影响值来识别预测值的一个或多个根本原因。下面更详细地讨论实施例的一些方面的操作。
根据实施例的各方面,可以在所需的运营商输入减少的情况下执行RCA。实施例的各方面能够使用诸如从电信网络、车辆交通管理系统、web服务、云数据服务等中导出的数据集之类的复杂数据集进行操作。本体表示的使用允许调查因果关系,并且还便于结合系统专家知识。
在图2的流程图中示出了根据实施例的各方面的方法。该方法可以由任何合适的装置执行。图3A和图3B中示意性地示出了根据实施例的各方面的适合于执行该方法的合适装置的示例。图3A和图3B中所示的一个或多个装置可以被结合到系统中(例如,系统是电信网络的全部或一部分),用于执行该方法的一个或多个装置可以被结合到基站、核心网节点或其他中央管理实体中。
如图2的步骤S202所示,该方法包括获取测量数据,该测量数据包括系统的特征的测量数据。如上所述,可以从多个源获取特征测量数据;使用电信网络的示例,特征数据可以是从多个域获取的电信网络度量。在使用根据图3A所示的实施例的方面的根本原因分析器301的情况下,可以根据存储在存储器315中的计算机程序获取特征测量数据,该计算机程序由处理器311结合一个或多个接口313来执行。备选地,在使用根据图3B所示的实施例的方面的根本原因分析器351的情况下,可以由获取器361来获取特征测量数据。一旦接收到测量数据,就可以将测量数据存储在数据库中;图3A的存储器315或被结合到获取器361中或可由获取器361访问的存储器可以用于此目的。测量数据可以由另一组件(例如,形成根本原因分析器301、351的一部分或与根本原因分析器301、351分离的组件)整理,并且以一个或多个批次接收。备选地,可以在测量之后直接接收测量数据,而不进行整理。
如图2的步骤S204所示,然后将接收到的测量数据传递给经训练的机器学习(ML)模型以生成预测值。可以使用任何合适的ML模型,例如神经网络、提升决策树等。ML模型的选择可以由ML模型解释器的选择(下面更详细地讨论)和/或由对建模期望系统的适合性来决定。在实施例的一些方面,可以在获取测量数据之前或与获取测量数据同时地训练ML模型。可以使用预期与所获取的测量数据相似的训练数据来训练ML模型,可选地,该训练数据可以是先前已经获取的特征测量数据。可以使用任何合适的训练方法;合适的ML训练方法是本领域技术人员公知的。
在使用根据图3A所示的实施例的方面的根本原因分析器301的情况下,可以根据存储在存储器315中的计算机程序来生成预测值,该计算机程序由处理器311结合一个或多个接口313来执行。备选地,在使用根据图3B所示的实施例的方面的根本原因分析器351的情况下,可以由数据分析器363来生成预测。ML模型可以形成根本原因分析器301、351的一部分,例如可以形成数据分析器363的一部分。备选地,ML模型可以是可由根本原因分析器301、351访问的,但不形成所述根本原因分析器301、351的一部分。
经训练的ML模型生成预测值,该预测值可以是指示系统属性的数值。使用电信网络的示例实现系统,预测值可以是KPI值,诸如分组丢失率、时延值或长期演进(LTE)语音平均意见得分(VoLTE MOS)。上面列出的所有示例KPI使用数值范围,例如,分组丢失率使用界限为0和1的数值范围,而VoLTE MOS使用界限为1和5的数值范围。如果预测值与通常不使用数值范围来测量的测量相关,则可以将该测量转换为使用数值范围。
除了将经训练的ML模型应用于测量数据以生成预测值之外,该方法还包括将所生成的ML模型解释器应用于测量数据来生成特征影响值,如步骤S206所示。特征影响值是对针对其输入测量数据的每个特征对ML模型生成的预测值的影响程度的估量。在使用根据图3A所示实施例的方面的根本原因分析器301的情况下,可以根据存储在存储器315中的计算机程序生成特征影响值,该计算机程序由处理器311结合一个或多个接口313来执行。备选地,在使用根据图3B中所示的实施例的方面的根本原因分析器351的情况下,特征影响值可以由特征影响值生成器365来生成。ML模型分析器可以形成根本原因分析器301、351的一部分,例如可以形成特征影响值生成器365的一部分。备选地,ML模型分析器可以是可由根本原因分析器301、351访问的,但不形成所述根本原因分析器301、351的一部分。
特征影响值是数值;通常,在特征对预测值具有有益影响的情况下,特征影响值可以是正的,而在特征对预测值具有有害影响的情况下,特征影响值可以是负的。以其中预测值是分组丢失率(KPI)的电信网络为例,服务小区的参考信号接收功率(RSRP)的网络度量在高于某个平均性能值时可以是正的,因为高服务小区RSRP将减少分组丢失,或者在低于某个平均性能值时可以是负的,因为低服务小区RSRP将增加分组丢失。构成正度量的内容和构成负度量的内容取决于特定的系统配置来确定,并且可以使用系统专家知识来确定。
在实施例的一些方面,ML模型解释器可以在用于生成特征影响值之前由根本原因分析器生成。可以使用训练数据来生成ML模型解释器,该训练数据可以是与用于训练ML模型的训练数据(如上所述)相同的训练数据。ML模型的训练也可以是ML模型解释器的生成中的因素。图4中示出了ML模型和ML模型解释器的训练/生成以及ML模型和ML模型解释器的后续使用的示意性概览。如图4所示,相同的训练数据可以用于ML模型训练和ML模型解释器生成,或者可以使用不同的数据。该过程产生经训练的ML模型和所生成的ML模型解释器。ML模型训练和ML模型解释器生成可以并行地执行(使用不同的硬件),或者可以使用相同的硬件连续地执行。通常,ML模型训练至少在ML模型解释器生成开始之前开始,因为ML模型是ML模型解释器生成中的因素。然后,可以将经训练的ML模型和所生成的ML模型解释器应用于特征测量数据以分别获得预测和特征影响值。
图5是指示预测值(在该示例中为KPI值)可以如何从多个特征的相应影响值中产生的说明图。在图5所示的示例中,预测的KPI值低于平均(参考)KPI值。特征1和特征3具有最大的负影响值,因此对KPI降级贡献最大。相比之下,特征2和特征5具有小的正影响。图5所示的特征影响值由ML模型解释器生成。加性ML模型解释器(例如,SHAP)是特别适合的,因为多个特征可以被分组在一起,并且通过简单地累加各个特征的特征影响值来确定复合特征的特征影响值。在使用非加性的ML模型解释器的情况下,用于获取复合特征的特征影响值的过程可能是复杂的。
该方法还包括使用所生成的特征影响值来更新特征和预测值之间的连接的本体表示,如图2的S208所示。在使用根据图3A所示的实施例的方面的根本原因分析器301的情况下,可以根据存储在存储器315中的计算机程序来更新本体表示,该计算机程序由处理器311结合一个或多个接口313来执行。备选地,在使用根据图3B所示的实施例的方面的根本原因分析器351的情况下,可以由本体表示控制器367来更新本体表示。本体表示可以形成根本原因分析器301、351的一部分,例如可以形成本体表示控制器367的一部分。备选地,本体表示可以是可由根本原因分析器301、351访问的,但不形成所述根本原因分析器301、351的一部分。
实施例的一些方面还包括例如使用与给定系统相关的专家知识的知识库来生成本体表示。在实施例的一些方面,本体表示可以是知识图;知识图可以特别适合于表示与某些系统(例如,电信系统)相关的知识。在本体表示是知识图的情况下,知识图的结构可以是静态的,使得节点和边(节点之间的链接)是固定的,但是节点和边的相应权重可以变化。静态结构可以特别适合于表示一些系统,其中边表示节点之间的所定义的因果关系。备选地,具有动态结构的知识图对于一些系统来说可能更适当,其中可以基于数据来创建和删除边。
图6中示出了根据实施例的方面的知识图的示例。在图6的示例中,示出了与电信网络末端用户会话相关的知识图结构。建立了KPI与网络参数之间的因果关系。除了KPI和低级别特征之外,还存在表示不同网络域和子域的中级别域。边示出了依赖性,例如,KPI取决于具有指向KPI的箭头的子域,并且这些子域可能是KPI问题的原因。然后,这些子域可以进一步取决于其他较低级别的子域等。图的最低级别(叶子)包含针对其获取测量数据的特征(在这种情况下是电信网络度量)。图6中的知识图示出了其中(针对其获取测量数据的)每个特征仅直接影响单个域的系统;由源自每个最低级别特征的单个箭头指示。在实施例的其他方面,单个特征可以直接影响多个域,并且这在图形上将被指示为源自单个特征且终止于不同域的多个箭头。
一旦用由ML模型解释器生成的特征值更新了本体表示,就可以使用本体表示来识别比预期更差的预测值的所提出的根本原因。然后,可以输出所提出的根本原因,如步骤S210所示。在多个根本原因共同导致该预测值的情况下,可以输出这些多个根本原因。在使用根据图3A所示的实施例的方面的根本原因分析器301的情况下,可以根据存储在存储器315中的计算机程序来输出根本原因,该计算机程序由处理器311结合一个或多个接口313来执行。备选地,在使用根据图3B所示的实施例的方面的根本原因分析器351的情况下,可以由输出器369来输出根本原因。
使用系统是电信网络的示例,当值预期为4时,ML模型可以预测VoLTE MOS值(通常在电信网络中使用的KPI)为2。本体表示可以指示:该比预期更差的VoLTE MOS值的根本原因要比通常的SINR值更差(例如,其可能是由大气干扰引起的)。在实施例的一些方面,该方法还可以包括建议用于解决所提出的(一个或多个)根本原因的动作,并且输出该建议的动作。使用该比通常的SINR值更差的示例,可以提出提升信号传输功率以帮助改善SINR的提案。该建议可以从与解决方案相关联的潜在根本原因的数据库中取得,该数据库可以从根本原因分析器访问或作为根本原因分析器的一部分。在实施例的一些方面,该方法还可以包括实现所建议的动作,即,在系统上执行该动作。参考上面的示例,根本原因分析器可以触发发送信号,该信号指示增加传输功率。执行动作的根本原因分析器可以减少正在执行的动作中的延迟,并且可以特别适合于其中根本原因分析器形成系统的一部分的情况(例如,在系统是电信网络并且根本原因分析器301、351被结合到核心网节点内的情况下)。
所输出的一个或多个根本原因可以是单个特征或多个特征,和/或可以是单个域或多个域。图7A是单个特征是问题的根本原因(由断言的低KPI来指示)的情况的示意性表示,图7B是单个域是问题的根本原因的情况的示意性表示。在图7中,图中的框的相对尺寸代表影响值(为了简单起见,图7中的所有特征和域具有负影响值)。在图7A中,可以清楚地看到特征X具有比任何其他低级别特征更大的影响值。这个大影响值沿知识图的级别向上传播;经由因果链接到中级别域并且最终到图的顶部(目标变量KPI所在的位置)。在这种情况下,特征X将作为根本原因而被输出。相比之下,在图7B中,域Y具有比同等级别的其他域更大的影响值。域Y的大影响值不是因为任何单个的低级别特征,而是来自多个低级别特征的贡献的结果(如图7B所示)。在这种情况下,域Y将作为根本原因被输出。
图8A示出了可以在系统是电信网络并且预测值是VoLTE MOS值的实施例的一个方面中生成的知识图。参考图6中的图,图8A的知识图中的低级别特征是网络度量。在图8A中,低级别特征被标记为f1至f11;在表1中示出了可以由f1至f11中的每一个表示的网络度量的示例。其他网络度量也可以是合适的。可以在实施例的各方面中使用的一些网络度量的示例在3GPP,TS 36.214v 9.1.0的“Evolved Universal Terrestrial Radio Access(E-UTRA);Physical layer-Measurements”中进行了讨论(可在以下网址获得:https://www.etsi.org/deliver/etsi_ts/136200_136299/136214/09.01.00_60/ts_136214v090100p.pdf,自2020年9月29日起)。
表1
低级别特征 示例网络度量
f1 PRB(物理资源块)利用率
f2 SINR(信号与干扰噪声比)
f3 RSRP(参考信号接收功率)
f4 RSRQ(参考信号接收质量)
f5 RSSI(接收信号强度指标)
f6 邻居RSRP
f7 修改承载请求的数量
f8 不成功承载修改事件的数量
f9 不成功UE上下文释放事件的数量
f10 S1接口故障事件的数量
f11 RRC重新配置超时事件的数量
KPI是直接取决于上游RAN、下游RAN、核心网和IP多媒体子系统的性能的VoLTEMOS(LTE语音平均意见得分)。在图8A中,仅完整地示出了与高级别域“上游RAN”有因果链接的低级别特征和中级别域。为了清楚起见,没有示出与域“下游RAN”、“核心”(网)和“IMS”(IP多媒体子系统)有因果链接的低级别特征和中级别域。
在图8A中,每个低级别特征被因果地链接到单个中级别域(通过边),每个域被因果地链接到单个更高级别的域,依此类推。图8B中示出了备选的知识图。图8B中的知识图包括从一些特征到多个域(例如,参见特征f6)、从一个级别的域到多个更高级别的域(例如,参见“覆盖”)以及在单个级别的域之间(参见“信道质量”)的因果链接。为了说明特征/域对它们因果地链接到的域的不同影响,可以相应地对形成因果链接的边进行加权。作为对此的一个示例,如果特征f6对“覆盖”的值的影响较小,但是对“切换”的值的影响较大,则从f6到“覆盖”的边可以被赋予比到“切换”的边更小的权重。可以对权重进行归一化以确保计算的一致性,使得来自单个特征的所有边的权重等于1。作为对此的一个示例,如果始于小区负载的两条边都得到权重0.5,则上游RAN的权重被计算为0.5W(小区负载)+W(信道质量)+W(切换)+W(丢弃)。
图9是使用根据实施例的各方面的方法获得的结果的示例。在图9的示例中,针对电信网络获得KPI VoLTE MOS的预测值;预测值比预期值低1.38(如图9中“总降级”的值“-1.38”所示),其指示KPI降级。在该示例中,为了清楚起见,仅示出了来自上游RAN和下游RAN域的对KPI值的贡献。表示域的框中的数字指示相应的域影响值。正影响值(例如,下游RAN域的切换0.01)指示性能比平均性能好,而负影响值(例如,上游RAN中的信道质量-1.06)指示性能比平均性能差。没有数字的域(例如,上游RAN中的“丢弃”)提供平均性能;这些域中的每一个域的有效值是0。图9中未示出个体的特征值,个体的特征中没有一个具有特别高或低的影响值。图9所示的各个特征的名称是该图所涉及的系统所特有的;图中每个个体特征的确切性质不相关。从对低于KPI值的高级别域的检查中可以清楚地看出,上游RAN对KPI降级的贡献明显大于下游RAN。对知识图的分析表明,对KPI降级的主要贡献是-0.78的SINR值;因此,根本原因分析将输出该SINR作为KPI降级的根本原因。
图10中示出了根据实施例的各方面的可以获得预测值的一个或多个根本原因的过程的示意性概览。如图10所示,由经训练的ML模型以及由所生成的解释器来处理(已经获得的)特征测量数据。另外,使用本体表示来表示知识库(可能从一个或多个专家的专家知识中生成)。ML模型基于数据来生成预测,并且解释器生成特征影响。然后,使用特征影响来更新本体表示,并且使用所更新的本体表示来导出预测值的一个或多个根本原因。然后,输出这些根本原因。一旦在本体表示的生成中使用了专家知识,就可以以最少的人工输入来执行该过程。因此,该根本原因分析方法的劳动强度小于以前的方法。此外,所公开的方法和/或装置可以用于处理高度复杂的数据集,并且还可以将因果关系(除了观察到的相关性之外)结合到分析中。因此,所公开的方法和/或装置可以提供比现有方法更准确的分析。作为所提供的准确根本原因分析的结果,问题(例如,KPI降级)可以被迅速地阻止或逆转,并且可以改善受根本原因分析影响的系统的整体操作。
应当理解,本公开的示例可以被虚拟化,使得本文所描述的方法和过程可以在云环境中运行。
本公开的方法可以用硬件来实现,或者作为在一个或多个处理器上运行的软件模块来实现。这些方法还可以根据计算机程序的指令来执行,并且本公开还提供了一种计算机可读介质,其上存储有用于执行本文所描述的任何方法的程序。体现本公开的计算机程序可以存储在计算机可读介质上,或者它可以例如是诸如从互联网网站提供的可下载数据信号之类的信号的形式,或者它可以是任何其他形式。
通常,各种示例性实施例可以用硬件或专用电路、软件、逻辑或其任意组合来实现。例如,一些方面可以用硬件来实现,而其他方面可以用固件或软件来实现,这些固件或软件可以由控制器、微处理器或其他计算设备来执行,尽管本公开不限于此。虽然本公开的示例性实施例的各方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当清楚地理解,本文所描述的这些框、装置、系统、技术或方法可以用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其一些组合来实现(作为非限制性示例)。
因此,应当理解,本公开的示例性实施例的至少一些方面可以在例如集成电路芯片和模块的各种组件中实践。因此,应当理解,本公开的示例性实施例可以在被体现为集成电路的装置中实现,其中集成电路可以包括用于体现可被配置为根据本公开的示例性实施例操作的数据处理器、数字信号处理器、基带电路和射频电路中的至少一个或多个的电路(以及可能地,固件)。
应当理解,本公开的示例性实施例的至少一些方面可以体现在由一个或多个计算机或其他设备执行的计算机可执行指令中,例如体现在一个或多个程序模块中。一般而言,程序模块包括例程、程序、对象、组件、数据结构等,其当由计算机中的处理器或其他设备执行时执行特定任务或实现特定抽象数据类型。计算机可执行指令可以被存储在诸如硬盘、光盘、可移除存储介质、固态存储器、RAM等的计算机可读介质上。如本领域技术人员将理解的,程序模块的功能可以在各种实施例中按需组合或分布。此外,该功能可以整体或部分地体现在固件或硬件等同物中,例如集成电路、现场可编程门阵列(FPGA)等。
本公开中对“一个实施例”、“实施例”等的引用指示所描述的实施例可以包括特定的特征、结构或特性,但是不一定每个实施例都包括该特定的特征、结构或特性。此外,这些短语不一定指同一实施例。此外,当结合实施例描述特定的特征、结构或特性时,应当认为,结合其他实施例来实现此类特征、结构或特性在本领域技术人员的知识范围内,无论是否明确描述。
应当理解,虽然术语“第一”、“第二”等在本文中可以用于描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件与另一个元件。例如,在不脱离本公开的范围的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件。如本文所使用的,术语“和/或”包括一个或多个相关联列出的术语的任何和所有组合。
本文所使用的术语仅用于描述特定实施例的目的,而不旨在限制本公开。如本文所使用的,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另外明确指出。还将理解,术语“包括”、“包含”、“具有”、“含有”和/或“包含有”在本文中使用时指定所述特征、元件和/或组件的存在,但不排除一个或多个其他特征、元件、组件和/或其组合的存在或添加。本文所使用的术语“连接”、“连接着”、“连接有”和/或“被连接”涵盖了两个元件之间的直接和/或间接连接。
本公开包括本文明确地或以其任何概括地公开的任何新颖特征或特征的组合。当结合附图阅读时,鉴于前述描述,对本公开的前述示例性实施例的各种修改和改编对于本领域技术人员来说可以变得显而易见。然而,任何和所有修改仍将落入本公开的非限制性和示例性实施例的范围内。为了避免疑问,本公开的范围由权利要求限定。

Claims (36)

1.一种用于根本原因分析的方法,所述方法包括:
获取测量数据,所述测量数据包括系统的特征的测量数据;
通过将经训练的机器学习ML模型应用于所述测量数据来生成预测值;
通过将所生成的ML模型解释器应用于所述测量数据来生成特征影响值;
使用所生成的特征影响值来更新所述系统的所述特征与所述预测值之间的连接的本体表示;以及
基于所更新的本体表示来输出所提出的根本原因,其中,所述所提出的根本原因导致所述预测值。
2.根据权利要求1所述的方法,还包括:使用与所述系统相关的专家知识来生成所述本体表示。
3.根据权利要求1和2中任一项所述的方法,其中,所述本体表示是知识图。
4.根据权利要求3所述的方法,其中,所述知识图具有静态结构。
5.根据权利要求3和4中任一项所述的方法,其中,所述知识图表示域、预测值和特征的测量数据之间的因果关系。
6.根据权利要求5所述的方法,其中,针对其获取测量数据的给定特征直接影响单个域,和/或其中,针对其获取测量数据的另一给定特征直接影响多个域。
7.根据前述权利要求中任一项所述的方法,还包括:训练所述ML模型和/或生成所述ML模型解释器。
8.根据权利要求7所述的方法,其中,并行地执行ML模型训练和ML模型解释器生成。
9.根据前述权利要求中任一项所述的方法,其中,所述ML模型是神经网络或提升决策树。
10.根据前述权利要求中任一项所述的方法,其中,输出所述所提出的根本原因包括:输出共同导致所述预测值的多个根本原因。
11.根据前述权利要求中任一项所述的方法,其中,所述系统是电信网络的至少一部分。
12.根据权利要求10所述的方法,其中,所述预测值是关键性能指标KPI值。
13.根据权利要求11所述的方法,其中,所述KPI是长期演进LTE语音平均意见得分VoLTE MOS。
14.根据权利要求10至12中任一项所述的方法,其中,所述特征的测量数据是电信网络度量。
15.根据前述权利要求中任一项所述的方法,还包括:建议用于解决所述所提出的根本原因的动作。
16.根据权利要求15所述的方法,还包括:在所述系统上执行所述动作。
17.一种用于根本原因分析的根本原因分析器,所述根本原因分析器包括处理电路和包含能够由所述处理电路执行的指令的存储器,由此所述根本原因分析器能够操作以:
获取测量数据,所述测量数据包括系统的特征的测量数据;
将经训练的机器学习ML模型应用于所述测量数据,并生成预测值;
将所生成的ML模型解释器应用于所述测量数据和所述经训练的ML模型,并生成特征影响值;
使用所生成的特征影响值来更新所述特征与所述预测值之间的连接的本体表示;以及
基于所更新的本体表示来输出所提出的根本原因,其中,所述所提出的根本原因导致所述预测值。
18.根据权利要求17所述的根本原因分析器,还被配置为:使用与所述系统相关的专家知识来生成所述本体表示。
19.根据权利要求17和18中任一项所述的根本原因分析器,其中,所述本体表示是知识图。
20.根据权利要求19所述的根本原因分析器,其中,所述知识图具有静态结构。
21.根据权利要求19和20中任一项所述的根本原因分析器,其中,所述知识图表示域、预测值和特征的测量数据之间的因果关系。
22.根据权利要求21所述的根本原因分析器,其中,针对其获取测量数据的给定特征直接影响单个域,和/或其中,针对其获取测量数据的另一给定特征直接影响多个域。
23.根据权利要求17至22中任一项所述的根本原因分析器,还被配置为:训练所述ML模型和/或生成所述ML模型解释器。
24.根据权利要求23所述的根本原因分析器,还被配置为:并行地训练所述ML模型和生成所述ML模型解释器。
25.根据权利要求17至24中任一项所述的根本原因分析器,其中,所述ML模型是神经网络或提升决策树。
26.根据权利要求17至25中任一项所述的根本原因分析器,还被配置为:输出共同导致所述预测值的多个根本原因。
27.根据权利要求17至26中任一项所述的根本原因分析器,其中,所述系统是电信网络的至少一部分。
28.根据权利要求27所述的根本原因分析器,其中,所述预测值是关键性能指标KPI值。
29.根据权利要求28所述的根本原因分析器,其中,所述KPI是长期演进LTE语音平均意见得分VoLTE MOS。
30.根据权利要求27至29中任一项所述的根本原因分析器,其中,所述特征的测量数据是电信网络度量。
31.根据权利要求27至30中任一项所述的根本原因分析器,其中,所述根本原因分析器是所述电信网络的一部分。
32.根据权利要求31所述的根本原因分析器(301),其中,所述根本原因分析器(301)是所述电信网络中的网络节点的一部分。
33.根据权利要求17至32中任一项所述的根本原因分析器,还被配置为:建议用于解决所述所提出的根本原因的动作。
34.根据权利要求33所述的根本原因分析器,还被配置为:发起在所述系统上执行所述动作。
35.一种用于根本原因分析的根本原因分析器,所述根本原因分析器包括:
获取器,被配置为获取测量数据,所述测量数据包括系统的特征的测量数据;
数据分析器,被配置为将经训练的机器学习ML模型应用于所述测量数据,并生成预测值;
特征影响值生成器,被配置为将所生成的ML模型解释器应用于所述测量数据,并生成特征影响值;
本体表示控制器,被配置为使用所生成的特征影响值来更新所述特征与所述预测值之间的连接的本体表示;以及
输出器,被配置为基于所更新的本体表示来输出所提出的根本原因,其中,所述所提出的根本原因导致所述预测值。
36.一种包括指令的计算机可读介质,所述指令当在计算机上执行时使所述计算机执行根据权利要求1至16中任一项所述的方法。
CN202080105939.8A 2020-10-08 2020-10-08 根本原因分析 Pending CN116261845A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SE2020/050961 WO2022075897A1 (en) 2020-10-08 2020-10-08 Root cause analysis

Publications (1)

Publication Number Publication Date
CN116261845A true CN116261845A (zh) 2023-06-13

Family

ID=81127030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080105939.8A Pending CN116261845A (zh) 2020-10-08 2020-10-08 根本原因分析

Country Status (4)

Country Link
US (1) US20230353447A1 (zh)
EP (1) EP4226246A1 (zh)
CN (1) CN116261845A (zh)
WO (1) WO2022075897A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943415A (zh) * 2022-04-15 2022-08-26 上海波士内智能科技有限公司 一种基于知识图谱的金属焊接缺陷根因分析方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008107020A1 (en) * 2007-03-08 2008-09-12 Telefonaktiebolaget L M Ericsson (Publ) An arrangement and a method relating to performance monitoring
US9712415B2 (en) * 2011-09-30 2017-07-18 Telefonaktiebolaget Lm Ericsson (Publ) Method, apparatus and communication network for root cause analysis
US20170364819A1 (en) * 2016-06-17 2017-12-21 Futurewei Technologies, Inc. Root cause analysis in a communication network via probabilistic network structure
US11132620B2 (en) * 2017-04-20 2021-09-28 Cisco Technology, Inc. Root cause discovery engine
US10594542B2 (en) * 2017-10-27 2020-03-17 Cisco Technology, Inc. System and method for network root cause analysis
EP3633959B1 (en) * 2018-10-05 2024-05-15 Tata Consultancy Services Limited Automation of data analytics in an internet of things (iot) platform
US11514347B2 (en) * 2019-02-01 2022-11-29 Dell Products L.P. Identifying and remediating system anomalies through machine learning algorithms
US10985969B2 (en) * 2019-02-19 2021-04-20 Juniper Networks, Inc. Systems and methods for a virtual network assistant

Also Published As

Publication number Publication date
EP4226246A1 (en) 2023-08-16
US20230353447A1 (en) 2023-11-02
WO2022075897A1 (en) 2022-04-14

Similar Documents

Publication Publication Date Title
US11018958B2 (en) Communication network quality of experience extrapolation and diagnosis
US20140122594A1 (en) Method and apparatus for determining user satisfaction with services provided in a communication network
CN111212330B (zh) 一种网络性能瓶颈值的确定方法、装置及存储介质
KR20140147872A (ko) 모바일 네트워크 성능 문제점들의 근본 원인 분석을 위한 시스템 및 방법
US11057787B2 (en) Method and test system for mobile network testing as well as prediction system
US20190059008A1 (en) Data intelligence in fault detection in a wireless communication network
US11012864B2 (en) Machine-learning framework for spectrum allocation
CN110474786B (zh) 基于随机森林分析VoLTE网络故障原因的方法及装置
US20210184940A1 (en) Prediction of a performance indicator
Oršolić et al. In-network qoe and kpi monitoring of mobile youtube traffic: Insights for encrypted ios flows
WO2014040646A1 (en) Determining the function relating user-centric quality of experience and network performance based quality of service
US9531867B2 (en) Methods and systems for determining a voice quality score for a mobile telephone
US10841820B2 (en) Method and test system for mobile network testing as well as prediction system
CN117242754A (zh) 用于自主网络测试用例生成的方法、系统和计算机可读介质
CN116261845A (zh) 根本原因分析
WO2017108106A1 (en) Method and network node for identifiying specific area of wireless communication system
Yusuf-Asaju et al. Mobile network quality of experience using big data analytics approach
CN107592646B (zh) 一种小区语音质量的检测方法和装置
Samba et al. Predicting file downloading time in cellular network: Large-Scale analysis of machine learning approaches
Taibi et al. When deep learning meets web measurements to infer network performance
Ferreira et al. Root cause analysis of reduced accessibility in 4G networks
Touloupou et al. Towards optimized verification and validation of 5G services
JPWO2016194498A1 (ja) 通信速度制限ユーザ抽出装置、スループット推定装置、通信速度制限ユーザ抽出方法、スループット推定方法、通信速度制限ユーザ抽出プログラム、及びスループット推定プログラム
JPWO2018173481A1 (ja) サービス構成設計装置、およびサービス構成設計方法
Mampaka et al. A quadri-dimensional approach for poor performance prioritization in mobile networks using Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination