CN114064196A

CN114064196A - 用于预测性保障的系统和方法

Info

Publication number: CN114064196A
Application number: CN202110433324.4A
Authority: CN
Inventors: B·达塔; R·德迪格·梅里诺
Original assignee: Hewlett Packard Enterprise Development LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2020-07-31
Filing date: 2021-04-21
Publication date: 2022-02-18
Also published as: US11533217B2; US20230115255A1; US20220038330A1; DE102021109767A1; US11805005B2

Abstract

根据本公开的各实施例涉及用于预测性保障的系统和方法。提供了用于预测系统或网络故障的系统和方法，系统或网络故障诸如是由服务提供商系统或网络提供的服务的降级、系统或网络中断等。在发现阶段，可以基于所监视的系统事件而被准确预测的故障场景被识别。在操作化阶段，那些故障场景可以被用于设计生产运行时机器，这些生产运行时机器可以被用于实时预测未来故障场景。可以在发生故障场景之前发送(一个或多个)预警信号。

Description

用于预测性保障的系统和方法

背景技术

服务保障可以是指服务提供商(SP)(诸如例如通信SP)对策略和过程的应用，以确保通过通信网络提供的服务满足针对积极订户体验的一些预定义服务质量。

服务履行(也称为提供)可以是指与组装和使服务从SP对订户可用相关联的各种活动。通常，这些活动构成了运营基础设施，运营基础设施的效率依赖于SP在维持服务质量和可靠性的同时将服务的供应与需求相匹配的能力。

附图说明

根据一个或多个各种实施例，参照以下附图详细描述了本公开。这些附图仅出于说明的目的而被提供，并且仅描绘了典型实施例或示例实施例。

图1图示了根据所公开技术的一个实施例的示例服务提供商工作流。

图2图示了根据所公开技术的一个实施例的示例服务提供商系统架构。

图3图示了根据所公开技术的一个实施例的示例预测系统。

图4是图3的预测系统的发现阶段组件的示意表示。

图5是根据所公开技术的一个实施例的示例预警信号时间确定的图形表示。

图6是图3的预测系统的操作化和生产运行时阶段组件的示意表示。

图7是图示了根据所公开技术的一个实施例的可以被执行以实行系统故障预测和预警的示例操作的流程图。

图8图示了可以在其中实现本文描述的各种实施例的示例计算组件。

附图不是穷尽的，并且并不将本公开限制为所公开的精确形式。

具体实施方式

如上所指出，服务提供商(SP)的操作可以涉及服务履行和服务保障。SP操作的服务保障方面的一部分可以涉及解决可能会导致运营商规模的电信网络中的服务中断和/或服务降级的故障，诸如网络功能(NF)故障。此类故障导致SP的不可接受的商业结果。因此，SP已经越来越多地开始寻找解决NF故障的主动型方法。由于最新网络技术(例如，5G)的部署，进一步提高了主动型运营商级解决方案的紧迫性，最新网络技术已经导致对网络问题进行故障排除和修复时涉及的复杂性增加(尽管本文公开的各种实施例不限于任何特定的网络或系统或网络技术)。

网络功能虚拟化(NFV)是一种新兴的设计方法，用于迁移物理的、专有的、硬件盒，这些盒为在工业标准物理服务器上的虚拟机或容器中运行的软件提供网络服务，特别是在电信行业中。网络架构的经典方法是基于用于实现NF——也被称为物理NF(例如，防火墙、深层分组检查器、网络地址转换器、路由器、交换机、无线电基站收发器)的零散的专用硬件，其要求在需要它们的每个站点处进行物理安装。相反，NFV旨在通过在可以运行于一系列标准硬件上的软件中实现虚拟网络功能(VNF)，来将许多网络设备类型整合到例如标准化的大容量服务器、交换机和存储设备上。此外，NFV旨在变换网络操作，因为VNF可以根据需要被动态地移动到网络中的各个位置或在各个位置中进行实例化，而无需安装新硬件。此外，多个物理NF和VNF可以一起被配置为形成“服务链”和依次通过链中的每个网络功能被控制的分组。

随着容器化和CNF(容器网络功能)的出现，在例如5G中从边缘到核心的动态性已成为可能，这意味着可以采用动态的、软件/数据驱动的方法用于网络操作。如本文中将描述的，可以通过利用由这些网络生成的大量数据来实行向NF的更主动的管理的转变。

因此，本公开的各个实施例针对用于预测NF故障并在实际发生NF故障之前通知SP的系统和方法。特别地，SP的操作分析员可以识别如下的情形(其涉及NF)，这些情形导致服务中断，并且可以在实际发生服务中断之前被预测。然后，可以在实时生产引擎中对识别出的情形进行操作化，以使得可以提供潜在服务中断(或降级)的预警信号。以这种方式，SP的操作团队和/或系统(例如，保障系统)可以采取主动补救步骤或保障动作来避免此类服务中断、故障或其他关联问题。

各种实施例可以例如基于以下启发式观察。NF(无论是物理的、虚拟的还是容器化的)都可以在导致服务降级或中断情形之前的时间帧(time frame)中生成例如数以万计的事件或日志消息。来自系统/网络的不同类型的事件或日志消息的数量是有限的，并且大多数常常不超过数百个消息类型，这使得学习/分析此类事件/日志变得可行，尽管各种实施例不必受到任何数量的不同消息类型的限制。此外，大多数涉及NF的故障场景都显示出独特的消息类型的计数和序列直方图。消息类型计数的直方图倾向于展现出与指数或幂律函数的良好拟合。此外，关联的、拟合的、连续的概率密度函数(PDF)应导致到例如指数函数、伽玛(Gamma)函数、威布尔(Weibull)函数或帕累托(Pareto)分布函数或者其他积极地使故障场景取得用于预测何时发送预警信号的良好候选的资格的数学标准的良好拟合。

例如，在5G上下文中，作为以下项中任一项或多项的结果，5G无线电接入网(RAN)中的无线电单元(RU)可能变得完全无法操作或部分降级：无线电发射和接收问题；环境问题，如操作环境中的高温；不良功率状况和关联的整流器故障；电池故障或变弱；无线回程IP连接降级/缓慢降级；导致视距微波链路出现问题的不良天气状况；等等。这样的问题/场景指示由5G网络自动生成的事件，并且可以被用作所公开的系统/方法的输入，该系统/方法可以学习如何预测其发生。应当理解，2G、3G和4G网络可以经历相同/相似的问题，因此，各种实施例也可以被应用于那些上下文中。类似地，数据单元(DU)以及控制单元(CU)可能遭受导致操作降级和/或故障的类似问题。还应当理解，各种实施例适用于有线网络和其他类型的自动生成的事件。

本文公开的用于基于NF故障来预测服务降级和中断并用于生成预警的系统和方法涉及“发现”阶段、“操作化”阶段和“生产运行时”阶段。

在发现阶段，统计技术定量地鉴定(qualify)和识别NF故障场景，这些NF故障场景可以作为用于未来故障预测的良好指示符。时间序列事件和/或日志数据被接收、进行类型分类并被标记。NF故障场景候选被识别。对NF故障场景候选执行评分，并且最终，具有最高分数的消息或事件的发生之间的时间被计算，并被用来估计针对每个NF故障场景情形/场景的预警的时间帧。数据拟合过程可以使用例如大数据计算框架(Spark或Flink或其他支持在大容量和高吞吐量数据流上进行状态计算的框架)上的最小二乘回归(LSR)、模拟退火和卡方/克默果夫-史密洛夫(Kolmogorov-Smirnov)检验来完成。

在操作化阶段，将识别出的预测性NF故障场景部署为生产运行时机器。机器学习可以是指通过算法的使用能够将数据集自动转换为信息模型的方法。进而，这些模型能够基于从其他数据中收集的模式或推断做出预测。已经存在在例如公司之类的企业环境中实现机器学习的动力，以使得这些实体可以利用机器学习向其客户提供更好的服务和产品，在其操作中变得更有效率，等等。在企业上下文中实现机器学习(也被称为操作化)可以涉及模型的部署(和管理)，即，将模型投入到生产中。

在生产运行时阶段，生产运行时机器将分析来自NF的消息的实时传入流，并生成具有在其中将发生降级或中断情况的估计时间帧和关联概率的预警信号。生产运行时推断机器的设计涉及三个神经网络(NN)，即，单词到向量(Word-To-Vector)NN、卷积NN(CNN)和背对背运行的长短期记忆(LSTM)NN。应当理解，根据其他实施例，可以利用其他AI/机器学习方法/机制。

应当指出，尽管在NF实例和NF故障的上下文中描述了各种实施例，但是实施例不必局限于NF。也就是说，可以用作预测一些故障或中断的基础的任何系统或网络应用或(一个或多个)方面可以被利用。而且，所预测的事件不必局限于系统故障。也就是说，可以相关于SP(或其他实体)希望跟踪和预测的系统的(一个或多个)特定方面的消息、事件或其他状态指示符来监视系统。

图1图示了示例服务提供商(SP)工作流100，其表示可能在服务履行和服务保障的上下文中发生的动作、操作、事件等。本文中所使用的术语“服务”可以是指交互式服务、网络的(常常是复杂的)系统和用于创建通信服务或产品的系统中的改变的编排。例如，服务可以是实体、类、节点、顶点等。因此，例如在传统意义上，服务可以是一些动作集合，这些动作通过产生期望结果的(物理和/或虚拟的)一个或多个计算/存储器资源而被实行，但是基于：该动作集合是影响或涉及构成该动作集合的动作中的一个或多个动作的参数、关系和/或潜在动作。

如图1中所图示，服务102(例如，5G疏导(breakout)服务)可以涉及在诸如服务器、无线局域网(WLAN)设备例如接入点、路由器等之类的基础设施104上实现的一些物理资源和/或虚拟资源。跟随5G疏导服务示例，应该理解，资源(如上述服务)可以是但不限于组件、方面、对象、应用或者提供或充当此类元素先决条件的其他元素，例如另一资源或服务。例如，基础设施104可以包括与到/来自一个或多个物理基础设施和/或虚拟基础设施的连接，其也可以被认为是资源。在一些实施例中，资源可以是指在开始设计或利用另一服务来实行该另一服务之前需要处于活跃状态的服务。响应于来自例如客户相关管理(CRM)层的服务请求112，此类服务102可以在通过服务提供机制/过程110和对应的提供动作110a被提供之后，由服务提供商108提供给客户106。特别地，可以在目录中定义服务(例如，服务的外观和/或服务的构建方式)，该目录还可以反映服务之间的关系(父子和/或链接关系、继承关系等)。应该理解，服务和服务的结构可以被维持在服务清单中。服务请求112可以包括服务数据收集、服务订单验证、服务订单编排、服务订单跟踪和/或管理等。基于对服务进行定义的构建块，服务资源可以被激活。因此，服务102可以被指定为模型101。

如上所述并且跟随示例5G疏导服务，可以使用硬件(例如，服务器、天线、电缆、WAN终端)以及虚拟网络功能(VNF)的组合在零售商店的多个场所部署5G疏导服务。此类服务可以被用于拦截由零售商店内的客户和员工所生成的各种类型的移动业务，和/或将特定业务引导到由企业或企业客户所托管的客户应用。此类服务也可以是端对端服务的一部分，提供由客户和员工使用的功能，诸如数据缩减、分析、远程监控和位置感知服务。另一个服务示例可以是经典的类似于云的服务提供，但与网络服务提供相结合，网络服务诸如是与防火墙、路由配置以及对最终客户场所的扩展相结合的不同安全区域(客户、员工、法律等)。

可以通过从基础设施104上实现的物理资源和/或虚拟资源中收集事件114来识别与任何(一个或多个)服务有关的存在的或可能出现的任何问题或疑问。可以执行服务影响分析以确定服务的状态116，并且可以将任何此类问题或疑问通知服务提供商108。此类服务问题或疑问的解决可以经由利用闭环补救动作118a实现的闭环补救处理118而被自动化，并且修复或补救过程可以被触发。

图2是包括服务履行和服务保障功能的SP系统架构200的示意表示。服务引导器202可以是指用于被管理的混合服务的基于模型的编排引擎。在一些实施例中，服务引导器202可以包括服务履行引擎204和服务保障引擎206。根据各种实施例，尽管闭环框架不是必要的，但是也可以实现用于解决服务履行和保障的闭环框架或机制。也就是说并且如上所述，可以通过服务履行动作来自动解决服务级别的问题、疑问等。换句话说，被用于提供/履行服务请求的相同机制(服务履行引擎204)可以被用来解决由服务保障引擎206识别并由其指令的服务事件。此外，正如可以从图2中意识到的，在服务履行引擎204和服务保障引擎206之间实现了单个服务清单222(以及单个服务目录220和单个资源清单224)。

例如，服务引导器202可以经由RESTFUL应用编程接口(API)204b接收履行(服务)请求204a。服务履行引擎204可以执行各种履行(服务提供)动作。特别地，服务履行引擎204可以通过数学模型来定义服务，并且将这些服务定义存储在服务目录220中，该服务目录可以是数据库、数据库分区或其他数据储存库。而且，服务履行引擎204可以基于经定义的规则和策略来编排服务实例化。作为由服务履行引擎204进行这种服务实例化的结果，服务清单222可以被自动填充。应当理解，服务清单222(如服务目录220)可以是数据库、数据库分区或其他数据储存库。服务清单222可以包含在服务目录220中定义的版本产品、服务和/或资源，而资源清单224可以包含关于可以被利用来提供服务的资源的信息(例如，基础设施的元素104)。服务激活器210可以在包括基础设施104的必要资源上实现或执行履行动作204c的执行(即，执行关于服务提供的命令)。

一旦针对SP实例化了(一个或多个)服务并且(一个或多个)服务针对SP是可操作的，则从服务保障的角度来看，资源管理器212可以对物理和/或虚拟地实现的资源执行例如资源监视，并且状态通知212a(例如，事件)可以被收集并被分发到企业服务总线、事件总线或类似的集成系统。在该实施例中，可以使用事件总线208，诸如通常被用于处理实时数据馈送的开源流处理软件平台ApacheKafka。其他事件总线包括但不限于Amazon Kinesis、GooglePub/Subm和Microsoft Event Hub。此外，如将在下面更详细描述的，由资源管理器212进行的这种资源监视可以提供必要信息或数据，例如时间序列事件和/或日志数据，从时间序列事件和/或日志数据中可以识别、类型分类以及标记NF故障场景候选。在发现阶段，统计技术可以定量地鉴定和识别NF故障场景，这些NF故障场景可以作为用于未来故障预测的良好指示符。时间序列事件和/或日志数据被接收、被类型分类并被标记。NF故障场景候选被识别。对NF故障场景候选执行评分，并且具有最高分数的消息或事件的发生之间的时间被计算，并被用来估计针对每个NF故障场景情形/场景的预警的时间帧。此外，在前述生产运行时模型的操作化之后，资源管理器212可以开始接收预测性通知，例如即将发生的系统故障降级等的预警信号。

资源清单224可以包括数据储存库，在其中的记录包括可用于实现(一个或多个)特定服务的物理资源、逻辑资源和/或虚拟资源。例如，资源清单224可以维持关于在其上可以将虚拟化资源实例化以实现服务履行引擎204试图履行/提供的被请求服务的基础设施元素的信息。

虽然讨论了逻辑资源和虚拟资源，但是应该理解，这些资源最终例如将以低的实施细节级别、使用物理计算、存储或网络(即，硬件、资源)而被实现。例如，网络功能虚拟化基础设施可以包括在虚拟化层上实现(例如，由一个或多个监督器或虚拟机监视器实现)的虚拟计算(例如，处理器)、虚拟存储设备(例如，硬盘)和虚拟网络(例如，虚拟网络接口控制器)资源。然后，虚拟化层可以在例如由一个或多个服务器计算机设备所提供的诸如处理器设备、存储设备和物理网络设备之类的硬件资源上进行操作。

资源管理器212与资源清单224中定义的资源一起，基于物理基础设施和/或虚拟基础设施104来提供实体-动作构建块，物理基础设施和/或虚拟基础设施104可以以描述符的形式进行组合以使得能够提供资源服务。如上所述，服务履行引擎204执行必要的编排以提供期望的网络功能虚拟化，而资源管理器212确定如何编排用于支持期望的网络功能虚拟化的资源。

在图2中，事件总线208可以被用于任何事件的消息收发、存储和处理，即，在SP的系统中的发生事件和/或作为此类发生事件的结果而由于服务引导器202的服务履行侧所提供的服务的资源监视而引起的状态通知，其可以包括丢失的通信、丢失的服务、资源故障、服务质量级别低于阈值等。服务保障引擎206在接收到有关服务和/或资源问题的此类状态通知之后可以确定可以如何通过解决这些问题而使服务和/或资源得到恢复(下面将详细描述)。再次，并且如上所述，在本文所公开的生产运行时模型的操作化之后，系统问题可以被预测并且可以在此类系统问题实际发生之前生成通知。服务保障引擎206可以将闭环动作206a(如上所述)发送到履行引擎204，从而实行闭环，以使得履行引擎204可以执行必要的动作来达到必要的服务保障。

如上所述，可以在发现阶段、操作化阶段和生产运行时阶段的过程中完成NF故障预测和服务降级/中断警告。图3是体现这三个阶段的系统架构300的示意表示。如图3中所示，数据源302(其可以表示可以从其中接收事件、消息、日志数据的一个或多个系统、系统组件、NF等)将原始事件数据贡献给数据湖(Data Lake)306。数据湖306可以是用于数据例如企业数据的存储设备，该数据包括源系统数据的原始副本以及用于报告可视化、分析、机器学习等的变换后数据。由于数据(即，消息或事件)的量和吞吐量都是大的，因此可以使用能够处理这种量和吞吐量的工具和平台。大数据技术被专门设计来解决这些需求，并允许在可用的计算资源内在有限的时间内生成计算结果，并且在这种上下文中，数据湖306可以被用来持久化或托管量大且吞吐量高的传入数据，其随后通过本文所述的系统方法进行处理。数据湖306可以汇总来自SP系统(例如，图1和图2)的一个或多个部分、方面、组件等的信息。警报/事件相关信息也可以由数据湖306从故障管理系统304接收。保障引擎206(图2)可以被认为是这种故障管理系统304的实施例。警报/事件相关信息连同原始事件数据一起，可以在发现阶段308期间被自动分析(例如，离线)。发现引擎310可以实现发现阶段，在该阶段中，统计技术被用来定量地鉴定并识别NF故障场景，这些NF故障场景适用于预测将来某个时间点服务故障的概率。一旦NF故障场景候选已经被识别，就对与NF故障场景候选相关联的症状进行评分，并且可以估计预警信号的时间帧。换句话说，发现包括从数学上构建要解决的问题。这导致可以被训练的模型320的开发。

在选择模型(被选择的模型326)后，操作化阶段330可以开始。可以通过用于部署生产运行时机器或模型(例如，活跃模型339)的操作化功能来实现操作化阶段，其反映了由发现引擎310使用部署API 331所学习的情报。例如，一些寻求预测(推断请求)的客户端或用户可以将数据输入到API服务器(其可以使用表示状态传送(REST)架构或远程过程调用(RPC)客户端)。作为回报，API服务器可以基于活跃模型339输出预测。

一旦此类生产运行时机器或模型被操作化，它们就可以共同操作为推断引擎340，该推断引擎可以实时地根据/使用生产运行时机器/模型来分析传入消息流，以预测即将发生的或将来的服务降级和/或中断。在预测到这种将来的服务降级/中断后，推断引擎340可以在所预测的服务降级/中断之前输出预警信号。

此外，生产运行时机器/模型(例如，活跃模型339)可以随着时间的推移而失去预测准确性。因此，在一些实施例中，推断引擎340可以访问故障管理系统304(如上所述)，以将所生成的预测与关于过去服务降级、中断和/或其他服务问题的历史信息进行比较。如果所生成的预测的准确性降到低于某个阈值，则可以例如经由发现阶段的重复通过重新训练/重新学习来重新校准运行时生产机器/模型。也就是说，对于任何机器学习模型，预测或推断的精度和准确性的改变可能会随时间的推移而发生。如果模型的精度和准确性未良好地相关，则在预定义的可接受误差范围内，该模型可能需要重新校准或者再次经历发现和操作化阶段。这使得能够生成新模型，该模型可以更好地反映现实，并产生更有意义和有用的预测或推断。这可以被称为模型生命周期管理322。模型生命周期图形用户界面(GUI)324可以被提供，以允许用户执行这种重新校准、发起重新发现和/或重新操作化。应当指出，类似于上述闭环方面，各种实施例的这种实现还导致发现/设计阶段与生产运行时阶段之间的闭环实现。

图4图示了可以在(由发现引擎310实现的)发现阶段期间执行的操作，其被概括地表征为数据准备312、候选识别314、评分316(即，个体事件或消息类型的评分或加权、汇总评分、以及预警信号时间帧估计318(其可以包括识别预测性情形的类似实例)。

数据准备312可以涉及将来自基础NF实例的收集的数据集中可用的症状信息(包括事件/日志的以时间为序的集合的消息)聚类为等价类，其中事件的聚类或类表示来自NF的不同实例的相同症状条件。一些非限制性示例包括由交换机或路由器生成的日志消息(例如，“服务不稳定”、“LSP上的MPLS路径宕机”、“远程MEP CCM失败”消息)。其他非限制性示例包括由RAN设备生成的事件消息(例如，“远程节点传输错误(Remote_Node_Transmission_Error)”、“时钟同步问题(Clock_Synchronisation_Problem)”，“LAN错误/通信错误(LAN_Error/Communication_Error)”消息)。应当理解，本文所公开的实施例不限于特定消息/消息类型。

换句话说，可以通过NF类型和实例对所收集的事件或日志进行分类，并且可以相应地对它们进行标记。可以将这些事件视为可能最终导向/导致一些NF故障场景的症状，诸如上述系统降级和/或系统中断。数据集的标记元素(在这种情况下，关于涉及特定NF类型和NF实例的事件的个体消息)可以通过聚类技术的组合而实现。在此，术语“聚类技术”应被理解为被使用在无监督机器学习的上下文中。

取决于被用于将给定数据集聚类为等效类的维度的性质，可以如下使用各种聚类方法。在一个示例中，对于简单的字符串、令牌或枚举字段，可以在应用一系列数据变换(例如，字符串索引、独热编码和向量汇编)之后执行标准的K均值聚类。HyperLogLog算法可以被用来估计被用作K均值聚类算法的输入的不同消息聚类的数量。在另一个实施例中，对于具有低到中等复杂度的自由文本字段，当消息在性质上更加非结构化时，可以执行位置敏感哈希(Locality Sensitive Hashing,LSH)。在另一个实施例中，对于具有中等到高复杂度的自由文本字段，利用词频-逆文档频率(TermFrequency-Inverse DocumentFrequency,TF-IDF)进行单词到向量以及文档到向量，然后进行K均值聚类。以这种方式，可以建立从其中可以识别候选的数据语料库(指示NF状态的收集的事件/日志)，这些候选反映了可以预测未来系统故障的NF故障场景。

应当指出，各种实施例不限于可以应用它们的任何NF、网络域或技术，只要数据源可以提供事件或日志的以时间为序的集合并且消息的收集遵循一些数学准则。还应指出，通常，警报或故障条件不是用于识别可以通过生成预警信号来避免或补救的场景的良好数据源。应用于由NF生成的给定数据集的任何总结、合并或汇总操作都将导致信息丢失。本质上，在时间维度的潜在信息被过滤或压缩，并且因此所得信息(即，警报)对于时间维度的详细分析没有任何用处。

候选识别操作314可以涉及：选择那些将成为准确预测项(predictor)的潜在NF故障场景候选。应当指出，准确性的程度可以取决于所讨论的系统/网络、SP的需求、SP希望预测的(一个或多个)方面等而有所不同。因此，术语“准确”并非限制性的，并且不同级别的准确性可能足以将特定候选视为准确预测项。通常，对于此类预测性分析而言，良好的NF故障场景或事件候选是在给定的时间范围内(相对于其他NF故障场景/事件)具有极大量的消息计数的场景/事件。例如，那些被选作潜在NF故障场景候选(事件或消息)进行分析的事件或消息可以与展现出通常在98％或99％以及更高范围内的事件计数的NF实例相关联。应当理解，NF故障场景可能会潜在地导致更大或更全局的系统问题/故障场景。然而，关于有关故障或问题预测的各种实施例对任何特定上下文的适用性没有限制。因此，各种实施例可以被用来预测NF故障、系统故障、系统组件故障等。系统的历史数据中存在可能被预测的内容，并且例如在接收到整个系统的信息后就可以预测(一个或多个)系统故障。应当理解，尽管一些实施例以识别具有大消息计数特性的NF故障场景/事件候选为前提，但是其他实施例可以寻找/取决于当前已知(或将来已知)的其他NF故障场景/事件候选特性。

应该指出，对于给定的时间范围，具有尖峰或极大数量的消息计数的上述特性可以在多种上下文中显现。使用上述聚类机制之一来识别上述类型的消息或事件的概率分布，可以创建将每个不同消息/事件类型映射到分数或随机变量值(基于概率分布)的功能。通过将消息类型映射到分数的功能，可以计算出由网络功能生成的来自消息的关联随机过程。因为由特定概率分布所管控的随机过程已被识别，所以可以假设将存在所汇总的分数增加的时隙。每个时间窗的最高汇总分数和第二最高汇总分数之间的时间差可以提供对可以生成预警信号的提前时间的估计。

一旦已经选择了初步NF故障场景候选，则进一步将初步NF故障场景候选鉴定为能够准确预测未来系统故障并且能够被用作生成预警信号的基础。该鉴定过程可以包括：执行最小二乘回归(LSR)操作，以将指数或幂律函数拟合到事件计数的直方图或分布。模拟退火算法可以被应用以找到最小二乘和的全局最小值。随后，卡方检验可以被应用以确认所拟合的指数或幂律函数是否是良好的拟合。

类似地，利用模拟退火算法的LSR可以被用来找到从事件计数的直方图所获得的概率质量函数(PMF)的最佳拟合概率密度函数(PDF)。然后，克默果夫-史密洛夫检验可以被用来确认最佳拟合PDF源自以下分布之一：指数、伽玛、威布尔或帕累托。未通过上述检验的NF故障场景候选将被拒绝作为用于进行预警预测的合适候选。换句话说，可以使用上述数据拟合过程来验证事件计数的直方图和表现出特定行为的关联PDF。

应该理解，即使不是全部系统或网络，大多数系统或网络的特性是：在经历某种类型的故障或宕机之前，系统或网络将更多地“交谈(talk)”。也就是说，指示即将发生的故障的症状将开始出现，并且系统和网络将开始发布有关可能是例如NF故障场景的症状的事件的消息(被视为事件或在日志中可见)。通常，更靠近的系统和网络出现故障，消息/事件的数量将成指数级增加。本文所公开的并由发现引擎310实行的发现阶段涉及：识别作为系统故障的良好预兆的NF故障场景。一旦被识别，这些NF故障场景可以被用来对(一个或多个)模型进行训练，这些模型将能够分析实时NF故障场景并确定何时系统故障即将发生。

可以执行评分操作316以将分数或权重指派给反映NF故障场景的每个不同的消息或事件类型(或症状)。应当理解，所识别的事件发生在某个时间范围内(回忆一下所收集的事件/日志是按时间顺序排列的)。可以为每个消息或事件指派分数，并且可以将时间范围分成多个时间片。应当指出，可以基于先前的NF故障场景通过学习来确定时间范围。也就是说，时间范围可以是表征NF故障场景的输出。在一些实施例中，可以指定足够长的时间范围以捕获所需的必要信息/数据，并且从那里可以学习要考虑的适当时间范围。例如，可以在发现阶段期间使用信息理论技术来确定给定时间范围的时间片的适当大小/持续时间，以及消息、日志和/或事件的关联数据集。

可以汇总在每个时间片中发生的时间中的每个事件的分数，以创建针对该时间片的汇总分数。应当指出，在一些实施例中，可以通过进一步应用标准统计度量(诸如计算平均值或中位数)来对汇总分数进行标准化。可以这样做以解决以下情况：其中时间片可能包含不同数量的事件，而事件的数量不一定有意义。但是，尽管进行了该标准化，但是随着系统或网络更靠近某个系统/网络故障事件，所关联的汇总分数仍将开始增加。通常将在系统/网络故障发生或到达时观察到最高汇总分数。应当理解，关于问题的数学建模(将分数指派给不同消息的方式)确保分数的增加值表明即将发生的问题或故障场景。例如，以高频率生成的消息往往具有较低的分数。随着时间的推移，故障NF将发出更多的消息，并且严重性更高，但频率更低。此类消息在时间范围内较晚出现，频率较低，指示严重性较高，被指派较高的权重或分数。可以将观察到最高汇总分数时的时间与观察到第二最高汇总分数时的时间之间的时间差视为如下的时间段，该时间段的开始可以作为发送预警信号的基础。在发现阶段期间(在设计时)，可以从与要在预测/推断期间(在运行时)使用的NF故障场景的多个实例相关的收集数据中学习最佳提前通知时间。

在操作中，将值指派给变量，该变量在一些示例中可以是随机变量。每个变量可以表示不同的消息类型，并且可以基于与不同消息类型相对应的事件计数的直方图的排名来指派值。该随机变量可以被称为被指派给每个不同消息类型的“分数”。应当指出，通常，对于给定的NF故障场景，若干不同消息类型的事件计数(尤其是对于在事件序列中较晚发生的消息)可能是相同的。假定基于概率的度量理论定义，概率空间是Borel sigma代数，则多个sigma代数可以具有相同的概率。因此，如果将随机变量的相同值指派给来自不同sigma代数的多种消息类型，那么分数的相关联的不同时间序列将不允许识别并预测故障场景。为了克服这种预测能力的局限性，引入并利用了附加的时间维度，以便为在时间范围中较晚发生的消息或事件类型指派较高的权重或分数。可以通过确定这些消息类型(即，具有相同计数或具有相同概率但属于不同sigma代数的消息类型)发生的编排时间顺序并手动地为较早发生的消息类型指派较低的分数或权重来克服这个问题。这样做是为了使在序列中较晚出现的消息被认为是更重要的，并且对服务的影响更大。同样，较晚出现的消息往往更能指示即将发生的故障。

在另一个实施例中，拟合的PDF可以被反转，并且该变量可以被用于特定的概率值，以将权重或分数指派给每个消息类型。应该指出，分析方法是鲁棒的，并且对用于将分数或权重指派给每个消息类型的特定技术不敏感。因此，其他实施例可以利用其他技术或机制来对NF故障场景候选进行评分。

例如，为了简化(即减少)要被分析的独立候选的数量，可以在广泛的相关NF集上应用更复杂的评分机制。在一些示例中，可以使用TF-IDF数值统计。在这里，文档被视为在每个时间片中出现的消息集合。取在一起的消息的时间片可以构成“消息”文档的语料库。可以为每个不同的消息类型指派分数，该分数反映该消息类型相关于语料库中的整个文档集合或时间范围被划分为多个时间片的重要性。当存在相同类的NF故障场景的多个实例时，可以应用更通用的评分方案，例如TF-IG(信息增益)、TF-GR(增益比)、TF-CC(相关系数)、TF-MI(互信息)、TF-OR(几率比)或TF-CHI(卡方)。

下一步是计算汇总分数，其中将已经收集了与NF故障场景相对应的事件或消息的采样的时间范围分为时间片。对于每个时间片，我们计算从针对每个时间片中发生的消息的分数或权重中导出的代表性汇总分数。

如上所述，存在用于基于标准统计来确定代表性分数的若干选项，如累积汇总分数、均值、中位数、加权平均或分散加权平均分数。也可以使用基于信息理论量度的针对每个时间片的汇总分数。在一些实施例中，可以使用一些或多个前述选项来计算多个代表性的或标准化的分数，并且可以选择更清楚地放大被选择的数据集中的两个最高汇总分数之间的差异的汇总评分机制。最高时间片汇总分数和第二最高时间片汇总分数之间的差异可以被用来提供被预测的NF故障事件之前的时间估计，可以在此期间或在此之前生成并传输预警信号。通常，第二最高时间片分数或最近的下一最高时间片分数到最高分数的时间点可以被用来生成预警信号。

现在参考图5，描述了汇总分数和时间差计算的示例。图5图示了针对与某个时间段上的事件相对应的时间片的分数的示例直方图，其可以反映由发现引擎310接收到的消息A的传入实时流。如所图示，示例直方图可以表示作为时隙/时间窗(X轴)的函数的汇总分数(Y轴)。在时间B和C处的幅度反映了在经验证的NF故障场景数据集中的两个最高汇总分数。观察到最高汇总分数的时间C反映了系统或网络故障(例如，需要补救的系统降级、系统中断等)的发生。在时间B处观察到的第二最高汇总分数可以被用作在此之前(或在此期间)应发送预警信号的时间帧估计。取决于系统/网络可能的风险规避程度，可以整体考虑时间帧估计，即，该特定评分迭代可以将第二最高汇总分数的时间与在此应发送预警信号的时间(或接近该时间的时间)相关联。然而，在另一个实施例中，可以确定第二最高汇总分数的时间与最高汇总分数的时间之间的某个时段可能足以发送预警信号。在另外的实施例中，第二最高汇总分数之前的时间可以被认为是发送预警信号的适当时间。

预警信号时间帧估计318可以涉及：生成或计算表示鉴定的NF故障预测场景的症状的高维向量表示。这可以使用“单词到向量”算法来完成。使用症状事件的向量表示以及事件的时间片集合，可以计算针对每个时间片的TF-IDF加权文档向量。近似最近邻算法可以被用来查找或分组所有相似的NF故障预测场景实例。以这种方式，可以针对已被识别并验证为是可预测的每个NF故障场景来估计预警信号时间帧。应该指出，可以对这样的估计求平均(因为即使在相同的NF故障场景下，直到故障为止的估计时间的一些方差在不同实例下也可能不同。例如，可以计算集中趋势(均值、中位数、众数)的度量。因为可用于训练的数据集的数量可能不大，所以在一些实施例中，选择中位数值或对集中趋势度量执行简单的引导估计可能更有利。

图6图示了组成操作化阶段330的示例操作，以及由推断机器340(即，生产运行时机器)执行的示例操作。如上所指出，操作化阶段已被设计为允许将发现的NF故障预测方案部署为生产运行时机器，其将分析来自NF的实时消息传入流并生成具有关联概率的预警信号以及在其中将发生降级或中断场景的估计时间帧。换句话说，操作化阶段相当于构建一个或多个机器学习模型或预测性应用。生产运行时推断机器的设计涉及三个神经网络(NN)，即单词到向量NN、卷积NN(CNN)和背对背运行的长短期记忆(LSTM)NN。在332处，训练单词到向量NN，并且可以生成文档向量(即，文档到向量)。在334处，可以训练CNN以对表示NF故障预测场景的文档向量进行分类。在338处，以时间序列的方式组装由上述发现引擎310所确定的汇总分数，以创建可以被用来训练LSTM的滚动时间窗的矩阵。

在推断机器340的操作化之后，推断机器340可以分析实时事件/日志以预测NF故障场景，并发送预警信号。特别地，在342处，可以通过将经训练的单词到向量NN和文档到向量NN应用于作为消息、事件日志的一部分等而被接收的事件的实时序列来生成事件文档。在SP系统架构200的上下文中，事件总线208可以提供要被分析的事件。如果期望，可以以周期性间隔或按需执行事件分析。

在344处，经训练的CNN可以被应用于在342处生成的事件文档，以便推断特定NF故障预测场景的存在(该特定NF故障预测场景对应于在发现阶段期间由发现引擎310所确定的被选择的/验证的NF故障预测场景之一)。在346处，事件/消息的实时评分/加权被执行。由推断机器340接收的事件/消息的评分/加权可以遵循与在发现阶段期间执行的事件/消息的评分/加权相同的过程。在348处，可以从推断机器340发送预警信号(或者推断机器340可以通知例如保障引擎206：预警信号应被发送)。在关闭履行/保障循环(通常被称为“闭环”)的上下文中，预警信号本身可以被发送给履行引擎204。应该指出，预警信号可以包括相关信息，诸如已被预测要发生的故障的类型、与例如(一个或多个)相关NF相关联的其他数据/元数据、受影响的系统资源等。备选地，除了预警信号之外，这样的相关信息也可以被发送到系统管理员或其他系统代理(人或计算机化的)。可以从接收到的消息流中和/或通过查询系统或其组件来获取此相关信息，这取决于可以从消息流本身所获得的信息。

图7是根据一个实施例的用于执行服务保障功能的示例计算组件或设备700的框图。计算组件700可以是例如服务器计算机、控制器或者如下的任何其他类似计算组件，该计算组件能够处理数据并实现CSP系统或(一个或多个)组件、一个或多个引擎或在其中可以实现引擎的组件等的功能。在图7的示例实现中，计算组件700包括硬件处理器702和机器可读存储介质704。在一些实施例中，计算组件700可以是处理器的实施例。

硬件处理器702可以是一个或多个中央处理单元(CPU)、基于半导体的微处理器、和/或适合于检索和执行存储在机器可读存储介质704中的指令的其他硬件设备。根据一个实施例，硬件处理器702可以获取、解码和执行指令(诸如指令706至712)，以控制用于计算参数依赖性的过程或操作。作为检索和执行指令的备选或补充，硬件处理器702可以包括一个或多个电子电路，该电子电路包括用于执行一个或多个指令的功能的电子组件，诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)或其他电子电路。

机器可读存储介质(诸如机器可读存储介质704)可以是包含或存储可执行指令的任何电存储设备、磁存储设备、光存储设备或其他物理存储设备。因此，机器可读存储介质704可以是例如随机存取存储器(RAM)、非易失性RAM(NVRAM)、电可擦除可编程只读存储器(EEPROM)、存储设备、光盘等等。在一些实施例中，机器可读存储介质604可以是非暂态存储介质，其中术语“非暂态”不涵盖暂态传播信号。如以下详细描述的，机器可读存储介质704可以用可执行指令(例如，指令706至712)被编码。

硬件处理器702可以执行指令706以接收消息流。如上所述，消息流可以包括事件流、事件日志或与系统(诸如SP系统)中的事件、动作、状态或其他发生有关的信息的其他集合。在一些实施例中，SP系统可以包括履行引擎、保障引擎以及在其上可以获得/接收消息流的总线(诸如Kafka总线)。事件可以是未来系统故障的指示符，诸如一些系统降级、系统中断或者可能需要补救的任何其他系统疑问或问题，这可以经由保障引擎来完成，并且在一些实施例中可以通过由履行引擎与保障引擎一起规划/执行的闭环动作来完成。

硬件处理器702可以执行指令708以存储来自所接收的流中的消息。同样，消息可以对应于已经发生的系统事件，并且可以发信号通知即将发生的系统故障。如上所述，可以在时间范围的时间片上划分系统事件，并且可以汇总与个体系统事件相关联的分数，以创建与落入特定时间片内的事件相对应的汇总分数。由于系统故障的性质，系统消息收发的强度趋于增加，即系统越接近处于故障状态、进入中断模式或经历不希望的系统发生。

硬件处理器702可以执行指令710以基于消息的评分来预测未来系统故障和未来系统故障的发生时间。如上所指出，系统/网络趋于经历/创建增加的消息收发/系统状态报告或更新，而系统可能越接近经受系统故障。因此，最高汇总分数将对应于系统故障的实际发生，而通常，第二最高汇总分数将对应于系统故障的发生之前的时间。该提前时间可以是用于生成和传输预警信号的适当时间，该预警信号向系统通知将即将发生的(预测的)系统故障以及与预测的系统故障相关联的信息。

硬件处理器702可以执行指令712以基于消息的评分和未来系统故障的发生时间来生成预警信号。上面讨论的第二最高汇总分数可以是何时发送预警信号的基础。如上所述，可以精确地在第二最高汇总分数的时间与最高汇总分数的时间之间的时间差处发送预警信号。在其他实施例中，发送预警信号的时间可以是第二最高汇总分数的那个时间之前或之后的某个时间。应当指出，可以发送多个预警信号。例如，在传输初始的预警信号之后，可以以某个确定的/经编程的间隔(渐进的间隔)发送一个或多个后续的预警信号。

如本文所述，可以执行一系列分析步骤以鉴定适合用于在预测故障中使用的候选列表，并且可以准备能够生成预警信号的机器。可以将实行这些分析步骤的系统应用于NF(或其他企业软件应用，其中描述问题情形的事件/日志的数量往往很大)，这需要非常有限的人工干预。对已鉴定的候选的进一步分析允许识别提前的时间帧，在该时间帧中可以通过人类操作员以手动方式或通过自动化/编排引擎通过闭环实行以编程的方式生成预警信号以进行补救(例如，在预测到故障时自动重启NF)。

网络设备提供商(NEP)倾向于提出需要其设备的特定知识的监督学习解决方案，以用于对网络故障进行故障排除，这仅仅是因为NEP具有他们自己制造的设备的专业知识所以是可以预期的。相反，本文公开的各种实施例是与供应商无关的，并且不假定有关设备或NF的任何特定知识。此外，发现(和候选鉴定)阶段基本上使用标准的统计和无监督学习技术，而由(一个或多个)生产运行时机器实行的推断(和预测)阶段则使用在操作化期间经训练/经测试的监督深度学习模型。

还应指出，对于大多数企业软件应用而言，不同/唯一事件/日志消息的数量比NF通常可能遇到的数量少得多。通常，软件应用具有几十个不一样的不同事件/日志消息，或者至多几百个。相反，NF展示出至少多一个数量级的不同/独特的消息的数量。因此，在大多数情况下，可以手动地或通过一些简单的无监督机器学习来完成对消息的标记和对问题的后续发现，其与在软件应用的上下文中的消息组相关联。对于NF而言并非如此。本质上，与应用软件相比，在NF的上下文中，问题的维数要大一个数量级。此外，拓扑结构不像电信上下文中的那么复杂。在电信情况下，与问题相对应的事件/日志的集合也具有更深、更复杂的数学结构。例如，通常存在大量表征问题情况的不同消息类型，通常是因为NF由如下的NF组件组成，这些NF组件一起使用了大量消息类型来描述问题情况。消息的报告顺序可以指向不同的问题情况。重复或出现特定消息的次数可能会影响所表征的问题情况。消息之间的时间差也会影响所表征的问题情况。需要对其分析消息流的时间范围是大的，因为问题情形会在很长一段时间内显现它们自己，然后才真正导致无法操作或故障状态。

图8描绘了在其中可以实现本文描述的各种实施例的示例计算机系统800的框图。计算机系统800包括总线802或用于传送信息的其他通信机制、与总线802耦合以用于处理信息的一个或多个硬件处理器804。(一个或多个)硬件处理器804例如可以是一个或多个通用微处理器。

计算机系统800还包括存储器单元，诸如主存储器806，诸如随机存取存储器(RAM)、高速缓存和/或其他动态存储设备，存储器单元耦合到总线802以用于存储要由处理器804执行的指令和信息。主存储器806还可以被用于在由处理器804执行的指令的执行期间存储临时变量或其他中间信息。当被存储在处理器804可访问的存储介质中时，这些指令将计算机系统800呈现为被定制来执行指令中所指定的操作的专用机器。

计算机系统800还包括耦合到总线802的只读存储器(ROM)808或其他静态存储设备，以用于存储用于处理器804的指令和静态信息。存储设备810(诸如磁盘、光盘或USB拇指驱动器(闪存驱动器)等)被提供并耦合到总线802以用于存储信息和指令。还耦合到总线802的是：显示器812，其用于显示各种信息、数据、媒体等；输入设备814，其用于允许计算机系统800的用户控制、操纵和/或与计算机系统800交互。一种交互方式可以通过诸如计算机鼠标之类的光标控件816或类似的控件/导航机制。

总体上，本文中所使用的词“引擎”、“组件”、“系统”、“数据库”等等可以是指体现在硬件或固件中的逻辑，或者指的是以编程语言(诸如例如Java、C或C++)编写的可能具有入口点和出口点的软件指令的集合。软件组件可以被编译并链接到可执行程序中，被安装在动态链接库中，或者可以用诸如例如BASIC、Perl或Python之类的解释性编程语言来进行编写。将意识到，软件组件可以从其他组件或从其自身被调用，和/或可以响应于检测到的事件或中止而被唤起。被配置用于在计算设备上执行的软件组件可以被提供在计算机可读介质(诸如光盘、数字视频光盘、闪存驱动器、磁盘或任何其他有形介质)上，还可以作为数字下载文件而被提供(并且最初可以以压缩的或可安装的格式被存储，这样的格式在执行之前需要安装、解压缩或解密)。这样的软件代码可以部分地或全部地存储在执行计算设备中的存储器设备上，以用于由计算设备执行。软件指令可以被嵌入在固件(诸如EPROM)中。还将意识到，硬件组件可以包括已连接逻辑单元(诸如门和触发器)，和/或可以包括可编程单元(诸如可编程门阵列或处理器)。

计算机系统800可以使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本文描述的技术，它们与计算机系统结合来使计算机系统800成为专用机器或者将计算机系统800编程为专用机器。根据一个实施例，本文的技术由计算机系统800响应于(一个或多个)处理器804执行包含在主存储器806中的一个或多个指令的一个或多个序列来执行。这样的指令可以从另一存储介质(诸如存储设备810)被读取到主存储器806中。执行包含在主存储器806中的指令序列使(一个或多个)处理器804执行本文所述的处理步骤。在备选实施例中，可以使用硬连线电路装置代替软件指令或与软件指令结合使用。

如本文中所使用的，术语“非暂态介质”和类似术语是指存储使机器以特定方式进行操作的数据和/或指令的任何介质。这样的非暂态介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘，诸如存储设备810。易失性介质包括动态存储器，诸如主存储器806。非暂态介质的常见形式包括例如软盘、软磁盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、带孔图案的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其他存储芯片或磁盒以及它们的网络版本。

非暂态介质不同于传输介质但可以与传输介质结合使用。传输介质参与了非暂态介质之间的信息传送。例如，传输介质包括同轴电缆、铜线和光纤，包括构成总线802的导线。传输介质还可以采用声波或光波的形式，诸如在无线电波和红外数据通信期间生成的声波或光波。

如本文中所使用的，术语“或”可以以包括性或排他性的意义来解释。而且，单数形式的资源、操作或结构的描述不应被解读为排除复数。除非在所使用的上下文中以其他方式理解或者另外明确说明，否则诸如“可以”、“可能”或“可”之类的条件性语言通常旨在传达一些实施例包括而其他实施例不包括一些特征、元件和/或步骤。除非另外明确说明，否则本文档中使用的术语和短语及其变型应被解释为开放性的而不是限制性的。作为前述的示例，术语“包括”应被解读为意指“包括但不限于”等。术语“示例”被用来提供所讨论项目的示例性实例，而不是其详尽或限制性的清单。术语“一”或“一个”应被解读为意指“至少一个”、“一个或多个”等。在一些实例中，诸如“一个或多个”、“至少”、“但不限于”或其他类似短语之类宽泛的单词和短语的存在不应被理解为意味着在可能不存在此类宽泛短语的情况下旨在或要求较窄的情况。

Claims

1.一种系统，包括：

处理器；和

存储器单元，可操作地连接到所述处理器，并且包括计算机代码，所述计算机代码在被执行时使所述处理器：

接收来自所述系统的一个或多个网络功能NF的消息流；

基于接收到的所述消息流，生成关于一个或多个所预测的NF故障场景的预警信号，所述一个或多个所预测的NF故障场景基于先前选择的NF故障场景候选被确定，所述先前选择的NF故障场景候选被操作化为在所述系统上实时执行的生产运行时机器。

2.根据权利要求1所述的系统，其中接收到的所述消息流包括与不同消息类型相对应的多个消息，并且其中所述计算机代码在被执行时还使所述处理器基于与不同消息类型相对应的事件计数的分布，来生成所述预警信号。

3.根据权利要求2所述的系统，其中所述存储器单元包括如下的计算机代码，所述计算机代码在被执行时还使所述处理器：验证与所述不同消息类型相对应的所述事件计数的所述分布，并且基于所述事件计数的所述分布，来确定对概率质量函数的最佳拟合概率密度函数，以确定所述先前选择的NF故障场景候选。

4.根据权利要求3所述的系统，其中所述存储器单元包括如下的计算机代码，所述计算机代码在被执行时还使所述处理器：通过使用所述最佳拟合概率密度函数向与所述事件计数的分布相对应的事件指派分数，来估计生成所述预警信号的时间。

5.根据权利要求4所述的系统，其中所述存储器单元包括如下的计算机代码，所述计算机代码在被执行时还使所述处理器：将接收到的所述消息流的至少一部分在其上被接收的时间范围划分成多个时间片。

6.根据权利要求5所述的系统，其中所述存储器单元包括如下的计算机代码，所述计算机代码在被执行时还使所述处理器：基于在所述多个时间片中的每个时间片中发生的多个事件来计算汇总分数。

7.根据权利要求6所述的系统，其中所述存储器单元包括如下的计算机代码，所述计算机代码在被执行时还使所述处理器：计算与最高汇总分数相对应的第一时间和与第二最高汇总分数相对应的第二时间之间的时间差。

8.根据权利要求7所述的系统，其中所述存储器单元包括如下的计算机代码，所述计算机代码在被执行时还使所述处理器：基于计算出的所述时间差来估计生成所述预警信号的时间。

9.根据权利要求1所述的系统，其中所述存储器单元包括如下的计算机代码，所述计算机代码在被执行时还使所述处理器：训练单词到向量神经网络，所述单词到向量神经网络生成应用于来自所述一个或多个NF的事件的事件序列的文档向量。

10.根据权利要求9所述的系统，其中所述存储器单元包括如下的计算机代码，所述计算机代码在被执行时还使所述处理器：训练卷积神经网络以对所生成的文档向量中的每个文档向量进行分类。

11.根据权利要求10所述的系统，其中所述存储器单元包括如下的计算机代码，所述计算机代码在被执行时还使所述处理器：将基于来自所述一个或多个NF的所述事件而确定的汇总分数的时间序列组装在滚动时间窗的矩阵中，并且训练长短期记忆神经网络。

12.根据权利要求1所述的系统，其中所述消息流包括消息的以时间为序的流或日志。

13.一种系统，包括：

处理器；和

存储器单元，可操作地连接到所述处理器并包括计算机代码，所述计算机代码在被执行时使所述处理器：

接收消息流；

对接收到的所述消息流中的消息进行评分；

基于对所述消息的所述评分，来预测未来系统故障和所述未来系统故障的发生时间；以及

基于对所述消息的所述评分和所述未来系统故障的所述发生时间，来生成预警信号。

14.根据权利要求13所述的系统，其中所述消息流包括由所述系统的一个或多个网络功能NF经历的事件的时序序列，事件的所述时序序列包括不同类型的事件，并且所述系统包括通信服务提供商CSP系统。

15.根据权利要求14所述的系统，其中所述存储器单元包括如下的计算机代码，所述计算机代码在被执行时还使所述处理器：基于事件的所述时序序列来验证事件计数的直方图，并基于所述事件计数的所述直方图，来确定对概率质量函数的最佳拟合概率密度函数，以确定NF故障场景候选。

16.根据权利要求13所述的系统，其中在被执行时使所述处理器对所述消息进行评分的所述计算机代码还使所述处理器：将所述消息流划分成多个时间片，并计算与在接收到的所述消息流中反映的事件相对应的汇总分数。

17.根据权利要求16所述的系统，其中在被执行时使所述处理器生成所述预警信号的所述计算机代码还使所述处理器：基于最高汇总分数和第二最高汇总分数时间差，来确定所述未来系统故障的发生时间之前的时间。

18.一种通信服务提供商CSP系统，包括：

履行引擎，用于执行所述CSP系统的一个或多个履行动作；

保障引擎，可操作地连接到所述履行引擎，以用于确定一个或多个补救动作以纠正一个或多个CSP系统故障；

总线，传输在所述CSP系统上发生的事件的日志；和

推断机器，分析来自所述总线的所述事件的日志，以预测所述一个或多个CSP系统故障的未来发生，并基于由所述事件的日志所反映的事件计数的分布，来在所述一个或多个CSP系统故障的所述未来发生之前生成预警信号，所述事件的日志包括不同类型的事件。

19.根据权利要求18所述的CSP系统，其中所述推断机器包括基于关于与过去的CSP系统故障相关联的事件的分析而训练的至少一个生产运行时机器，所述事件已经相对于所述事件在其上发生的时间范围被评分，所述事件已经被确定为所述过去的CSP系统故障的指示符。

20.根据权利要求19所述的CSP系统，其中所述推断机器基于根据事件分数计算出的最高汇总分数和下一最高汇总分数来生成所述预警信号。