CN118041755B

CN118041755B - 一种向前故障恢复方法、云操作系统以及智能计算平台

Info

Publication number: CN118041755B
Application number: CN202410431925.5A
Authority: CN
Inventors: 邓练兵
Original assignee: Guangdong Qinzhi Technology Research Institute Co ltd
Current assignee: Guangdong Qinzhi Technology Research Institute Co ltd
Filing date: 2024-04-11
Publication date: 2024-07-16
Anticipated expiration: 2044-04-11

Abstract

本申请属于数据处理领域，尤其涉及一种向前故障恢复方法、云操作系统以及智能计算平台，该方法包括：监测所述智能计算云操作系统中各个组件的系统状态数据；通过向前故障预测模型，对所述系统状态数据进行预测分析，以获得目标组件的潜在故障模式；通过向前故障修复模型，对所述潜在故障模式进行修复模式学习，以获得所述目标组件的智能化修复模式；对所述目标组件执行所述智能化修复模式下的修复操作，以预防所述智能计算云操作系统中出现潜在故障。该方法通过向前故障预测模型以及向前故障修复模型，在系统出现潜在故障之前进行预防性维护和修复，从而减少系统故障对业务的影响，提高系统的可用性和可靠性，提升事前干预效率。

Description

一种向前故障恢复方法、云操作系统以及智能计算平台

技术领域

本申请属于数据处理领域，尤其涉及一种向前故障恢复方法、云操作系统以及智能计算平台。

背景技术

为了推动各个产业和领域智能化应用的普及，迫切需要建立一种智能化计算平台，助力智能超级计算中心的建设，并为科研、产业和城市服务提供人工智能平台的基础构建，进一步实现人才聚集、产业升级和发展。应用容器化是一项技术，将应用程序及其所有依赖关系打包到一个独立、可移植的容器中。容器化技术允许将应用程序、库、配置文件和其他依赖项捆绑在一起，以确保在各种环境中的一致性运行，提高部署效率、可移植性和灵活性，使开发人员更轻松地管理和部署应用程序。

相关技术中，当前的计算系统往往由大量的组件和服务构成，这些组件之间相互依赖、相互影响。若一个或多个组件发生故障，对用户服务的中断或影响确实会导致用户损失增加，并可能造成用户体验下降。这种情况下，组件修复成本通常也会相对较高，因为需要投入更多的资源和时间来应对故障，以恢复系统的正常运行。因此需要智能化的向前故障恢复方法来实现更加灵活的组件故障预防操作。

发明内容

本申请提供了一种向前故障恢复方法、云操作系统以及智能计算平台，用以在系统出现潜在故障之前进行预防性维护和修复，从而减少系统故障对业务的影响，提高系统的可用性和可靠性，提升事前干预效率。

第一方面，本申请提供了一种向前故障恢复方法，应用于智能计算云操作系统，所述智能计算云操作系统为适配于云计算环境的操作系统；所述智能计算云操作系统中包括多个组件，所述多个组件分别用于实现所述智能计算云操作系统中的不同数据处理任务；所述向前故障恢复方法包括：

监测所述智能计算云操作系统中各个组件的系统状态数据；所述系统状态数据至少包括以下之一：系统组件状态、性能指标、资源利用率、网络流量、系统事件、系统错误日志；

通过向前故障预测模型，对所述系统状态数据进行预测分析，以获得目标组件的潜在故障模式；所述潜在故障模式至少包括以下之一：硬件故障、软件错误、网络问题；所述向前故障预测模型至少包括：双星对比参数网络；所述双星对比参数网络用于定位所述目标组件，为所述潜在故障模式的识别提供判别基础；

通过向前故障修复模型，对所述潜在故障模式进行修复模式学习，以获得所述目标组件的智能化修复模式；所述智能化修复模式至少包括以下之一：自动化修复操作、系统配置调整、组件替换；

对所述目标组件执行所述智能化修复模式下的修复操作，以预防所述智能计算云操作系统中出现潜在故障。

第二方面，本申请实施例提供了一种智能计算云操作系统，所述智能计算云操作系统为适配于云计算环境的操作系统；所述智能计算云操作系统中包括多个组件，所述多个组件分别用于实现所述智能计算云操作系统中的不同数据处理任务；所述智能计算云操作系统包括：

监测单元，被配置为监测所述智能计算云操作系统中各个组件的系统状态数据；所述系统状态数据至少包括以下之一：系统组件状态、性能指标、资源利用率、网络流量、系统事件、系统错误日志；

预测单元，被配置为通过向前故障预测模型，对所述系统状态数据进行预测分析，以获得目标组件的潜在故障模式；所述潜在故障模式至少包括以下之一：硬件故障、软件错误、网络问题；所述向前故障预测模型至少包括：双星对比参数网络；所述双星对比参数网络用于定位所述目标组件，为所述潜在故障模式的识别提供判别基础；

获取单元，被配置为通过向前故障修复模型，对所述潜在故障模式进行修复模式学习，以获得所述目标组件的智能化修复模式；所述智能化修复模式至少包括以下之一：自动化修复操作、系统配置调整、组件替换；

修复单元，被配置为对所述目标组件执行所述智能化修复模式下的修复操作，以预防所述智能计算云操作系统中出现潜在故障。

第三方面，本申请实施例提供了一种智能计算平台，所述智能计算平台包括：

至少一个处理器、存储器和输入输出单元；

其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行第一方面的向前故障恢复方法。

第四方面，提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行该指令时，使得计算机执行第一方面的向前故障恢复方法。

本申请实施例提供的技术方案，智能计算云操作系统为适配于云计算环境的操作系统。该智能计算云操作系统中包括多个组件，这些组件分别用于实现所述智能计算云操作系统中的不同数据处理任务。在向前故障恢复方案中，首先，监测智能计算云操作系统中各个组件的系统状态数据。该系统状态数据至少包括以下之一：系统组件状态、性能指标、资源利用率、网络流量、系统事件、系统错误日志。进而，通过向前故障预测模型，对系统状态数据进行预测分析，以获得目标组件的潜在故障模式。这些潜在故障模式至少包括以下之一：硬件故障、软件错误、网络问题。接着，通过向前故障修复模型，对潜在故障模式进行修复模式学习，以获得目标组件的智能化修复模式。这些智能化修复模式至少包括以下之一：自动化修复操作、系统配置调整、组件替换。最终，对目标组件执行智能化修复模式下的修复操作，以预防智能计算云操作系统中出现潜在故障。本申请实施例提供的技术方案，通过向前故障预测模型以及向前故障修复模型，在系统出现潜在故障之前进行预防性维护和修复，从而减少系统故障对业务的影响，提高系统的可用性和可靠性，提升事前干预效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种向前故障恢复方法的流程示意图；

图2是本申请实施例的一种智能计算云操作系统的结构示意图；

图3是本申请实施例的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

云计算是一种新兴的计算模式，它通过网络提供按需使用的计算资源和服务。云计算的核心思想是将计算任务分布在大量的计算机构成的资源池上，使各种应用能够根据需要获取计算能力、存储空间和各种软件服务。智能计算则是一种模拟人类智能的技术，它通过模拟人的思维方式和学习能力来实现计算机自动完成复杂任务的过程。资源管理技术则是关于如何有效地分配和调度系统资源以满足用户需求的技术。

本申请实施例提供了一种向前故障恢复方法、云操作系统以及智能计算平台。

具体而言，向前故障恢复方案中，可以应用于智能计算云操作系统。智能计算云操作系统为适配于云计算环境的操作系统。这些，智能计算云操作系统中包括多个组件，这些组件分别用于实现所述智能计算云操作系统中的不同数据处理任务。在向前故障恢复方案中，首先，监测智能计算云操作系统中各个组件的系统状态数据。该系统状态数据至少包括以下之一：系统组件状态、性能指标、资源利用率、网络流量、系统事件、系统错误日志。进而，通过向前故障预测模型，对系统状态数据进行预测分析，以获得目标组件的潜在故障模式。这些潜在故障模式至少包括以下之一：硬件故障、软件错误、网络问题。接着，通过向前故障修复模型，对潜在故障模式进行修复模式学习，以获得目标组件的智能化修复模式。这些智能化修复模式至少包括以下之一：自动化修复操作、系统配置调整、组件替换。最终，对目标组件执行智能化修复模式下的修复操作，以预防智能计算云操作系统中出现潜在故障。

向前故障恢复方案中，提供了针对云计算环境的智能计算云操作系统，其主要目的是在预防智能计算云操作系统中出现潜在故障方面发挥作用。首先，通过监测智能计算云操作系统中各个组件的系统状态数据，包括系统组件状态、性能指标、资源利用率、网络流量、系统事件和系统错误日志等。这些数据是实时的，并可用于系统健康状态的评估和故障检测。进而，利用向前故障预测模型对系统状态数据进行预测分析，以便提前识别目标组件可能出现的潜在故障模式。这些潜在故障模式可以是硬件故障、软件错误或网络问题等。接着，通过向前故障修复模型，对潜在故障模式进行修复模式学习，以获取目标组件的智能化修复模式。这些智能化修复模式可能包括自动化修复操作、系统配置调整或组件替换等。最终，根据学习到的智能化修复模式，对目标组件执行相应的修复操作。这有助于预防潜在故障的发生，提高系统的稳定性和可靠性。

实际应用中，故障对用户服务的中断或影响确实会导致用户损失增加，并可能造成用户体验下降。这种情况下，修复成本通常也会相对较高，因为需要投入更多的资源和时间来应对故障，以恢复系统的正常运行。通过预测潜在的故障模式并采取智能化的修复措施，可以在故障发生之前就预防问题的发生，从而降低了故障对用户服务的中断或影响，减少了用户损失。通过避免故障造成的服务中断或影响，可以提高用户的满意度和体验质量，从而增强用户对系统的信任和忠诚度。尽管采用智能化的向前故障恢复方法可能需要一定的投入，但相较于传统的故障应急响应，这种方法可以减少因故障而导致的修复成本，例如减少停机时间、减少人工干预和维护费用等。综上所述，采用智能化的向前故障恢复方法可以在多个方面带来收益，包括降低用户损失、提高用户体验和降低修复成本等。

总之，通过这种向前故障恢复方法，通过向前故障预测模型以及向前故障修复模型，在系统出现潜在故障之前进行预防性维护和修复，从而减少系统故障对业务的影响，提高系统的可用性和可靠性，提升事前干预效率。

本申请实施例提供的向前故障恢复方案，可以由芯片来执行。其中，此处介绍的芯片可以是各类专用处理器，包括图形处理器(Graphics Processing Unit，GPU)、机器学习处理器(Machine Learning Unit，MLU)、中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

进一步可选地，人工智能芯片及加速卡设计可以采用高性能的MLU作为智能平台的基础模块。MLU高性能低功耗人工智能处理器卡采用最新的架构，等效理论峰值速度可达每秒128万亿次定点运算，典型板级功耗仅为80瓦，峰值功耗不超过110瓦。基于MLU能够模块化的搭建高性能人工智能服务器，可灵活应对不同的智能应用负载。

本申请实施例提供的向前故障恢复方案，也可以由电子设备来执行，该电子设备可以是服务器、服务器集群、云服务器。该电子设备也可以是诸如手机、计算机、平板电脑、可穿戴设备、或者专用设备(如带有向前故障恢复系统的专用终端设备等)等终端设备。这些电子设备中也可以搭载上述实施例介绍的芯片。或者，这些电子设备也可以安装用于执行向前故障恢复方案的服务程序。

本申请实施例中，智能计算云操作系统主要负责先进计算平台的输入数据、计算结果、观测数据、可视化数据等各种相关数据的存储。这些数据可能是来自不同应用的，需要进行统一的管理和存储，以便后续的分析和处理。

图1为本申请实施例提供的一种向前故障恢复方法的示意图，如图1，该方法包括以下步骤：

101，监测所述智能计算云操作系统中各个组件的系统状态数据。

本申请实施例中，所述系统状态数据至少包括以下之一：系统组件状态、性能指标、资源利用率、网络流量、系统事件、系统错误日志。

在这个实施例中，在智能计算云操作系统中，监测各个组件的系统状态数据是确保系统稳定性和性能的重要步骤。这些系统状态数据包括以下几个方面：系统组件状态，指的是各个组件(如服务器、虚拟机、容器等)的运行状态，包括是否在线、是否正常运行等信息。通过监测系统组件状态，可以及时发现组件是否出现故障或异常。性能指标，包括CPU使用率、内存使用率、磁盘IO速率、网络带宽利用率等指标。这些性能指标反映了系统的运行性能和资源利用情况，能够帮助管理员及时调整资源配置，优化系统性能。资源利用率，指的是各个组件所占用的系统资源情况，包括CPU、内存、存储等资源的利用率。监测资源利用率可以帮助管理员合理分配资源，避免资源瓶颈和过度消耗。网络流量，指的是系统中的网络数据传输情况，包括入流量和出流量等。监测网络流量可以帮助管理员及时发现网络拥塞、异常流量等问题，保障网络通信的正常运行。系统事件，指的是系统中发生的各种事件，如用户登录、服务启动、服务停止等。监测系统事件可以帮助管理员了解系统运行情况，及时处理异常事件。系统错误日志，记录了系统中发生的错误和异常情况，包括系统崩溃、应用程序错误、硬件故障等。监测系统错误日志可以帮助管理员及时发现并解决系统中的问题，提高系统的稳定性和可靠性。

通过监测以上这些系统状态数据，可以全面了解系统的运行情况，及时发现并处理各种问题，确保智能计算云操作系统的稳定运行。

102，通过向前故障预测模型，对所述系统状态数据进行预测分析，以获得目标组件的潜在故障模式。

本申请实施例中，潜在故障模式至少包括以下之一：硬件故障、软件错误、网络问题。在本申请实施例中，硬件故障：指的是智能计算云操作系统中硬件组件出现的故障，例如服务器的主板、CPU、内存条等硬件元件损坏或故障。硬件故障可能由于物理损坏、电路连接问题、元件老化等原因引起，导致系统的稳定性和性能受到影响，甚至导致系统无法正常工作。

软件错误：指的是智能计算云操作系统中软件部分出现的错误或异常，包括软件代码中的bug、逻辑错误、内存泄漏等问题。软件错误可能导致系统功能异常、服务崩溃、系统性能下降等情况，严重影响系统的可用性和稳定性。

网络问题：指的是智能计算云操作系统中网络通信出现的问题，例如网络延迟、丢包、拥塞等。网络问题可能导致应用程序无法正常访问网络、数据传输速度变慢、网络连接不稳定等，影响系统的通信和数据交换能力。

这些潜在故障模式，均会对智能计算云操作系统的正常运行产生不利影响，因此在监测系统状态数据的基础上，通过向前故障预测模型对这些潜在故障模式进行预测分析，以便及时采取相应的修复措施，确保系统的稳定性和可靠性。

本申请实施例中，向前故障预测模型是一个通过层层分析系统状态数据，从异常指标到异常行为再到潜在故障模式的预测模型。通过这一模型，可以在系统出现故障之前，提前识别出潜在的问题，从而采取预防性措施，确保系统的稳定性和可靠性。

举例来说，假设所述向前故障预测模型：指标识别层、异常行为识别层、故障分析层。具体来说，指标识别层，这一层的主要任务是分析系统状态数据，识别出其中的异常指标。异常指标可能是系统性能指标、资源利用率、网络流量等方面的数据，其异常表现可能暗示着潜在的故障。这一层的目的是从大量的系统状态数据中挑选出具有异常特征的指标，作为后续异常行为识别的输入。异常行为识别层，在这一层，针对通过指标识别层筛选出的异常指标数据进行进一步的分析和处理。这可能涉及到组件定位，即确定哪些组件与异常指标相关联，以及异常行为的分析，即了解异常指标的产生可能是由哪些具体行为或事件引起的。这一层的输出是目标组件的异常行为数据，即异常行为的特征和模式。故障分析层，这一层是整个模型的核心，其任务是对异常行为数据进行深入分析，以识别潜在的故障模式。通过模式判别算法，可以将异常行为数据与已知的故障模式进行比对，从而确定异常行为可能对应的具体故障类型。这一层的输出是目标组件的潜在故障模式，即预测系统可能出现的故障类型。

基于上述假设结构，102中，通过向前故障预测模型，对所述系统状态数据进行预测分析，以获得目标组件的潜在故障模式，可以实现为如下步骤：

201，通过指标识别层，对所述系统状态数据进行异常指标分析，以获得所述智能计算云操作系统的异常指标数据；

202，通过异常行为识别层，对所述异常指标数据进行组件定位以及异常行为分析，以获得所述目标组件的异常行为数据；

203，通过故障分析层，对所述异常行为数据进行模式判别，以获取所述异常行为数据对应的潜在故障模式。

以一个具体的示例来说明基于上述假设结构的向前故障预测模型如何在实际中发挥作用。

假设有一个智能计算云操作系统，其中的目标组件是负责处理用户请求的服务器集群。这里，通过向前故障预测模型来预测这些服务器集群可能出现的潜在故障模式，以便提前采取措施确保系统的稳定性。

201中，首先对系统状态数据进行异常指标分析。假设监测到的系统状态数据包括服务器的CPU使用率、内存利用率、网络流量等指标。通过指标识别层，可以分析这些指标的历史数据，发现在某个时间段内，某些服务器的CPU使用率异常高，内存利用率异常低，并且网络流量出现明显的波动。这些异常指标数据被识别出来，作为异常行为识别层的输入。202中，针对异常指标数据进行组件定位和异常行为分析。通过对异常指标数据的分析，可能发现某几台服务器的CPU使用率异常高，而内存利用率异常低的情况下，用户请求的响应时间明显增加。这些异常行为数据被识别为目标组件的异常行为数据，并传递给下一层进行故障分析。203中，对异常行为数据进行模式判别，以获取潜在的故障模式。通过模式判别算法，可能得出结论：在高负载情况下，某些服务器的CPU过载导致响应时间增加，而其他服务器则在处理能力上存在瓶颈，导致内存利用率异常低。这些模式识别的结果就是所关心的目标组件的潜在故障模式。

通过步骤201至203，在这个示例中，向前故障预测模型通过层层分析系统状态数据，从异常指标到异常行为再到潜在故障模式的预测，帮助发现服务器集群可能存在的负载过载和处理能力瓶颈等故障模式。这使得能够提前采取措施，例如优化资源分配、增加服务器容量等，以确保系统在高负载时仍能保持稳定性和可靠性。这种预测和预防性的操作有助于降低系统故障的风险，提高系统的运行效率和可用性。

作为一个可选实施例为，201中，首先，将所述系统状态数据输入到第一自适应转换模型中，按照分离度量约束对所述系统状态数据进行重构，以获得第一重构系统状态特征。进而，将所述系统状态数据输入到第二自适应转换模型中，从所述系统状态数据中学习对应的潜在数据概率分布特征，并以学习到的潜在数据概率分布特征进行中采样处理，以获得第二重构系统状态特征。接着，基于第一重构系统状态特征以及第二重构系统状态特征，获取所述系统状态数据对应的对比评估指标分值。所述对比评估指标分值至少包括：重构误差、分离度量约束参数、潜在数据概率分布参数。最终，根据所述对比评估指标分值，识别出第一重构系统状态特征以及第二重构系统状态特征中异常分化概率高于设定动态识别门限的数据特征，作为所述异常指标数据。

举例来说，在这个步骤中，首先利用第一自适应转换模型和第二自适应转换模型对系统状态数据进行处理，以获取系统状态的特征并评估其异常性。然后，根据对比评估指标分值，识别出异常指标数据，即异常行为识别层的输入。下面通过一个示例来说明这个过程。

假设仍然使用智能计算云操作系统作为示例，并以服务器集群的CPU使用率作为系统状态数据的一部分。目标是识别出异常的CPU使用率情况，并将其作为潜在故障模式的指标之一。

首先，将系统状态数据(包括CPU使用率)输入第一自适应转换模型。这个模型会尝试通过学习数据的稀疏表示来重构原始输入数据。通过这一过程，模型可以学习到系统状态数据的重要特征，同时保持数据的分离度量。在训练完成后，可以使用这个模型对新的系统状态数据进行重构，得到第一重构系统状态特征。接着，将同样的系统状态数据输入到第二自适应转换模型中。这个模型的目标是学习数据的潜在分布特征，并能够从中采样生成新的数据。通过训练这个模型，可以得到系统状态数据的潜在分布特征。然后，可以利用学习到的概率分布特征对数据进行采样，从而得到第二重构系统状态特征。接下来，基于第一和第二重构的系统状态特征来计算对比评估指标分值。这些指标包括重构误差、分离度量约束参数和潜在数据概率分布参数。可以通过比较这些指标的分值，来评估系统状态数据的异常性。最后，根据设定的动态识别门限，可以识别出第一和第二重构系统状态特征中异常分化概率高于门限的数据特征。这些被识别出的异常指标数据将作为异常行为识别层的输出，供后续的故障分析层使用。

通过这个过程，可以利用自编码模型和对比评估指标来识别系统状态数据中的异常情况，从而提前发现潜在的故障模式。例如，如果某些服务器的CPU使用率异常高，并且在潜在数据分布中呈现出明显的异常特征，那么这些数据特征就可能被识别为异常指标数据，进而成为故障分析的重要输入。这种方法可以帮助系统管理员及时发现并解决潜在的故障问题，提高系统的可靠性和稳定性。

本申请实施例中，可选地，所述向前故障预测模型至少包括：双星对比参数网络。进一步可选地，所述双星对比参数网络用于定位所述目标组件，为所述潜在故障模式的识别提供判别基础。作为一个可选实施例为，202中，首先，将所述异常指标数据与预先构建的双星对比参数网络中各个组件的双星对比参数样本进行对比学习，以定位所述异常指标数据对应的目标组件。其中，每一双星对比参数样本中包含：基于历史指标数据分离出的异常行为状态特征、以及对应的正常行为状态特征。接着，将所述异常指标数据按照对应的目标组件进行分类重组，以获得多个目标组件各自对应的异常指标数据。然后，将多个目标组件各自对应的异常指标数据分别转换为异常行为识别矩阵。最终，对多个目标组件各自对应的异常行为识别矩阵进行异化度识别计算，以获得多个目标组件各自对应的异常行为数据。

在这个步骤中，利用预先构建的双星对比参数网络，对异常指标数据进行对比学习，以定位异常指标数据对应的目标组件，并将其转换为异常行为数据。下面通过一个示例来说明这个过程。

假设的智能计算云操作系统中有多个服务器组成的集群，每个服务器都是一个独立的组件。已经在双星对比参数网络中预先构建了每个服务器的异常行为状态特征和正常行为状态特征。

首先，将异常指标数据与双星对比参数网络中各个组件的双星对比参数样本进行对比学习。这个网络中的参数样本包含了每个组件的异常行为状态特征和正常行为状态特征。通过对比学习，可以确定异常指标数据对应的目标组件。接着，根据对比学习的结果，将异常指标数据按照对应的目标组件进行分类重组。这样，就可以得到多个目标组件各自对应的异常指标数据集合。对于每个目标组件的异常指标数据集合，将其转换为异常行为识别矩阵。这个矩阵记录了每个组件的异常行为情况，其中每一行代表一个时间段，每一列代表一个特定的异常指标。通过这个矩阵，可以更好地理解每个组件的异常行为模式。最后，对每个目标组件各自对应的异常行为识别矩阵进行异化度识别计算。这个计算可以帮助确定每个组件的异常行为数据，即与其正常行为状态相比较而显著偏离的行为。这些异常行为数据可以被视为目标组件的潜在故障模式的指标之一。

举例来说，假设在对比学习中发现某台服务器的异常指标数据与其双星对比参数样本中的异常行为状态特征高度吻合，那么可以确定该异常指标数据对应的目标组件是这台服务器。接着，将该服务器的异常指标数据转换为异常行为识别矩阵，并计算其异化度。如果计算结果显示某些行为显著偏离了正常行为状态，那么这些异常行为数据就可以被识别为该服务器的潜在故障模式之一。通过这个过程，可以针对每个组件识别出其可能的故障模式，从而更好地了解系统中可能存在的问题，并采取相应的措施加以解决，以确保系统的稳定性和可靠性。

进一步可选地，上述步骤中，将所述异常指标数据与预先构建的双星对比参数网络中各个组件的双星对比参数样本进行对比学习，以定位所述异常指标数据对应的目标组件，可以实现为：

首先，计算所述异常指标数据与各个组件的双星对比参数样本之间的趋同性程度。进而，选择与所述异常指标数据之间趋同性程度最高的组件作为所述目标组件。其中，第t个时刻下采集的异常指标数据集与第c个组件之间的趋同性程度S_c ^t的计算公式为：

其中，X_mal ^c表示第t个时刻下采集的异常指标数据集中与第c个组件对应的数据，P×Siam^t+1,c表示表示第t+1个时刻下第c个组件的双星对比参数，P为偏置权重，jsim表示用于衡量两个集合元素之间在第一评估维度下趋同度的第一评估函数，α和β为动态配比的平衡参数，msim表示用于衡量两个集合元素之间在第二评估维度下趋同度的第二评估函数。

这样，可以更加准确地定位异常指标数据对应的目标组件，从而提高异常行为识别的准确性和效率。例如，如果某个组件的双星对比参数样本与异常指标数据在多个维度上表现出高度一致的情况，那么这个组件就可能被选定为目标组件。这样，就可以更加精确地识别出系统中存在的异常行为，为后续的故障分析提供更有针对性的数据支持。

示例性地，所述双星对比参数网络中至少包含：第一子模型和第二子模型。进一步地，第一子模型和第二子模型的网络结构相似，且网络参数之间存在一定映射关系。进一步地，第一子模型和第二子模型分别用于抽取双星对比参数样本中的更新特性，以提升双星对比参数样本中异常行为状态特征以及对应的正常行为状态特征之间的异化分离度。

具体来说，在这个示例中，双星对比参数网络包含两个子模型：第一子模型和第二子模型。它们的网络结构相似，并且网络参数之间存在一定的映射关系。这种结构可以帮助提升异常行为状态特征和正常行为状态特征之间的异化分离度，从而更有效地区分异常行为和正常行为。第一子模型用于抽取双星对比参数样本中的更新特性。这个模型的目标是从历史数据中学习到异常行为状态特征和正常行为状态特征，并将它们映射到双星对比参数样本中。通过对历史数据的学习和特征提取，第一子模型可以为异常行为和正常行为之间的分离度提供更好的基础。第二子模型与第一子模型相似，同样用于抽取双星对比参数样本中的更新特性。它的结构和参数映射与第一子模型类似，但可能会有一些微调以适应不同的数据特征。第二子模型的目标是进一步提升异常行为状态特征和正常行为状态特征之间的异化分离度。通过两个子模型的协同作用，可以更好地捕获数据中的异常行为模式，并将其与正常行为加以区分。这种双子模型结构的有益效果在于，两个子模型共同学习数据的特征，可以增强对数据特征的表达能力，更好地捕获数据中的异常模式。其次，通过对比学习和特征提取，两个子模型可以使异常行为状态特征和正常行为状态特征之间的分离度更高，从而更有效地区分异常行为。此外，由于两个子模型的结构相似且具有一定的参数映射关系，因此它们可以相互补充并适应不同的数据特征，从而提高了系统的适应性和泛化能力。

通过这种双子模型结构，可以更加准确地提取数据中的异常行为特征，并将其与正常行为区分开来，为后续的异常行为识别和故障分析提供更加可靠的支持。

所述双星对比参数网络中损失函数对网络参数的梯度值表示为如下公式：

其中，L^(y)表示所述双星对比参数网络中预测值y与对应真实值之间的差异度损失函数，P_st ^t+1表示所述双星对比参数网络中第一子模型在未来第t+1个时刻下的网络参数，和为自适应动态权重系数，表示差异度损失函数L^(y)对第一子模型的未来网络参数的变化率，W_te表示所述双星对比参数网络中第二子模型的网络参数，表示差异度损失函数L^(y)对第二子模型的网络参数的变化率，表示第二子模型的网络参数在参数空间中的更新变化方向。

通过这个损失函数，双星对比参数网络可以根据预测值与真实值的差异度来动态调整两个子模型的网络参数，以实现更好的参数更新和模型优化。自适应动态权重系数允许网络根据实时情况动态调整两个子模型的重要性，从而更好地适应不同的数据分布和特征。通过最小化差异度损失函数，网络可以有效地更新参数，使预测值更加接近真实值，从而提高模型的准确性和泛化能力。损失函数的梯度值指导着网络参数的更新方向，确保网络能够朝着更优的方向进行调整，加速收敛过程。综合来看，这个损失函数的设计可以有效地指导双星对比参数网络的训练过程，使其能够更好地学习数据的特征和模式，提高异常行为识别的精度和效率。

作为一个可选实施例，双星对比参数网络中的参考异常行为识别矩阵为基于历史指标数据预先构建的。基于此，对异常行为识别矩阵中的矩阵元素i以及所述参考异常行为识别矩阵中对应的参考矩阵元素j之间的异化度程度h(i,j)的识别计算过程表示为如下公式：

其中，ω₁、ω₂分别为动态权重参数，r_i和r_j分别表示矩阵元素i和参考矩阵元素j各自对应的异化程度得分，为矩阵元素i和参考矩阵元素j各自对应的异化程度得分之间的绝对差异值，l_i,k和l_j,k分别表示矩阵元素i和参考矩阵元素j在第k个维度上各自所属的异常行为类别，m为异常行为类别的维度数量，表示在计算异化度时考虑了矩阵元素i和参考矩阵元素j在m个维度上的异常行为类别之间的差异程度估值。

从而，这种计算方式考虑了矩阵元素和参考矩阵元素在多个维度上的异常行为类别，使得评估更加全面和综合。通过动态权重参数的调节，可以根据不同维度上的异常行为类别之间的重要性来调整异化度的计算，增强了计算的灵活性和准确性。通过绝对差异值的计算，可以量化元素和参考元素之间的差异程度，为后续的异常行为识别和分析提供了具体指标。综合来看，这个计算过程可以帮助双星对比参数网络更准确地评估参考异常行为识别矩阵中的元素与对应参考矩阵元素之间的异化度程度，为异常行为的识别和分析提供了有力支持。

103，通过向前故障修复模型，对所述潜在故障模式进行修复模式学习，以获得所述目标组件的智能化修复模式。

在本申请实施例中，所述智能化修复模式至少包括以下之一：自动化修复操作、系统配置调整、组件替换。在本申请实施例中，所述智能化修复模式具有以下至少包括以下三种方式：

自动化修复操作是指系统根据双星对比参数网络的分析结果，自动执行修复措施以恢复系统的正常运行状态。这种修复操作可以包括自动重启故障组件、自动调整系统配置参数、自动应用补丁程序等。通过自动化修复操作，系统可以在发生异常行为时快速响应并自动恢复，减少人工干预的需求，提高系统的稳定性和可靠性。系统配置调整是指根据双星对比参数网络的分析结果，对系统的配置参数进行调整以解决异常行为或提升系统性能。这种调整可以涉及到硬件配置、软件配置、网络配置等方面的调整。例如，根据异常行为的特征，调整系统的缓冲区大小、线程数、超时时间等参数，以优化系统的性能和稳定性。组件替换是指根据双星对比参数网络的分析结果，对发生故障或异常行为的组件进行更换以恢复系统的正常运行状态。这种替换可以涉及到硬件组件、软件组件、传感器等的更换。例如，当系统检测到某个硬件组件出现故障时，可以自动触发系统将其替换为备用组件，以确保系统的连续性和可靠性。

这些智能化修复模式的具体实施取决于系统的具体需求和设计，但它们的共同目标是通过智能化手段快速、准确地识别和解决系统中的异常行为，提高系统的稳定性、可靠性和性能。通过结合双星对比参数网络的分析结果和智能化修复模式的实施，系统可以实现自动化的故障诊断和修复，提升系统的自管理能力和运行效率。

作为一个可选实施例，假设所述向前故障修复模型至少包括：模式获取层、修复策略层、修复配置层、输出层。

基于此，103中，所述通过向前故障修复模型，对所述潜在故障模式进行修复模式学习，以获得所述目标组件的智能化修复模式，可以实现为如下步骤：

301，通过模式获取层，对所述潜在故障模式进行模式解析，以获得所述潜在故障模式的潜在根源特征；所述潜在根源特征至少包括以下之一：硬件组件的物理损坏、电路连接问题、元件老化、软件组件中的逻辑错误、内存泄漏、网络通信中的延迟、丢包、网络拥塞；

302，通过修复策略层，对所述潜在根源特征进行预判断，以选取即将出现潜在故障模式对应的目标修复策略；所述目标修复策略至少包括：修复目标对象、修复操作；

303，通过修复配置层，对所述目标修复策略进行参数预配置，以获得所述目标修复策略对应的目标预配置参数；

304，通过输出层，基于所述目标修复策略以及所述目标预配置参数，构建所述目标组件的智能化修复模式。

这个向前故障修复模型的步骤确保了在潜在故障模式出现之前就能够识别并采取相应的修复措施，从而提高系统的稳定性和可靠性。举例介绍一下这个过程的有益效果：

假设这个模型应用于一个网络服务器系统，如果模式获取层检测到网络通信中的延迟潜在故障模式，可能由于大量的网络请求导致服务器负载过重。模式获取层将识别出的潜在根源特征定位为网络拥塞或者服务器负载问题。通过修复策略层，系统可以预判断出网络拥塞或服务器负载过重即将导致的潜在故障模式。在这种情况下，系统可能会选择修复策略为自动化修复操作，例如增加服务器资源、动态调整网络流量限制等。在这一步，针对选定的修复策略，系统会预先配置参数，比如增加服务器资源的参数预配置可能涉及新增的服务器节点数量、分配的计算资源、网络带宽限制等。输出层将根据所选的修复策略和参数预配置构建智能化修复模式。例如，如果选择了增加服务器资源作为修复策略，输出层将生成自动化的服务器扩容方案，包括新增服务器节点的配置、网络负载均衡配置等。

通过这个模型，系统可以在网络拥塞或服务器负载问题即将引发严重故障之前，及时采取相应的修复措施，保障系统的稳定性和可用性。这种预测性的修复模式不仅提高了系统的容错性，也降低了维护成本和服务中断的风险，从而实现了系统的智能化维护和管理。

这个向前故障修复模型中，通过模式获取层和修复策略层的预判，系统能够快速识别问题并选择适当的修复策略，从而实现快速响应和自动修复，减少了系统停机时间，提高了系统的可用性。智能化修复模式的实施减少了人工干预的需求，系统能够在不需要人为干预的情况下自动进行修复，降低了维护成本和人力资源的消耗。修复策略层能够根据潜在故障模式预先判断，选择最合适的修复策略，从而优化了修复过程，提高了修复的效率和成功率。通过不断地分析修复结果和调整修复策略，系统可以持续优化智能化修复模式，不断学习和适应新的故障模式，提高了系统的稳定性和可靠性。

综合来看，这个向前故障修复模型通过将潜在故障模式的识别与智能化修复策略的选择相结合，实现了对系统异常的快速响应和自动化修复，提高了系统的稳定性、可靠性和运行效率。

104，对所述目标组件执行所述智能化修复模式下的修复操作，以预防所述智能计算云操作系统中出现潜在故障。

举例而言，假设智能计算云操作系统中的一个关键组件是虚拟机管理器，负责管理和调度虚拟机的创建、启动、停止等操作。在某一时刻，系统监测到了一个潜在故障模式，即虚拟机创建过程中出现了异常，可能是由于资源分配不足或者虚拟机配置错误导致的。

针对这种潜在故障模式，系统可以执行智能化修复模式下的修复操作，以预防潜在故障的发生。假设系统预判了潜在故障模式可能的根源特征，比如资源分配不足或者配置错误。假设系统选择适当的修复策略，比如增加资源分配、修改虚拟机配置等。假设系统预先配置了修复操作所需的参数。例如，如果选择增加资源分配作为修复策略，那么系统可能会预先配置好增加的CPU、内存和存储资源的数量和分配方式。基于上述假设，系统根据选定的修复策略和预配置参数，执行智能化修复模式下的修复操作。例如，系统可能自动调整虚拟机创建过程中资源的分配方式，确保每个虚拟机都有足够的资源来正常运行，从而预防了潜在故障的发生。

在本申请实施例中，通过向前故障预测模型以及向前故障修复模型，在系统出现潜在故障之前进行预防性维护和修复，从而减少系统故障对业务的影响，提高系统的可用性和可靠性，提升事前干预效率。

在本申请的又一实施例中，还提供了一种智能计算云操作系统，所述智能计算云操作系统为适配于云计算环境的操作系统；所述智能计算云操作系统中包括多个组件，所述多个组件分别用于实现所述智能计算云操作系统中的不同数据处理任务；参见图3所述，所述智能计算云操作系统包括：

进一步可选地，所述向前故障预测模型：指标识别层、异常行为识别层、故障分析层；

所述预测单元，通过向前故障预测模型，对所述系统状态数据进行预测分析，以获得目标组件的潜在故障模式，被配置为：

通过指标识别层，对所述系统状态数据进行异常指标分析，以获得所述智能计算云操作系统的异常指标数据；

通过异常行为识别层，对所述异常指标数据进行组件定位以及异常行为分析，以获得所述目标组件的异常行为数据；

通过故障分析层，对所述异常行为数据进行模式判别，以获取所述异常行为数据对应的潜在故障模式。

进一步可选地，所述预测单元，所述通过指标识别层，对所述系统状态数据进行异常行为分析，以获得所述智能计算云操作系统的异常指标数据，具体被配置为：

将所述系统状态数据输入到第一自适应转换模型中，按照分离度量约束对所述系统状态数据进行重构，以获得第一重构系统状态特征；

将所述系统状态数据输入到第二自适应转换模型中，从所述系统状态数据中学习对应的潜在数据概率分布特征，并以学习到的潜在数据概率分布特征进行中采样处理，以获得第二重构系统状态特征；

基于第一重构系统状态特征以及第二重构系统状态特征，获取所述系统状态数据对应的对比评估指标分值；所述对比评估指标分值至少包括：重构误差、分离度量约束参数、潜在数据概率分布参数；

根据所述对比评估指标分值，识别出第一重构系统状态特征以及第二重构系统状态特征中异常分化概率高于设定动态识别门限的数据特征，作为所述异常指标数据。

进一步可选地，所述预测单元，通过异常行为识别层，对所述异常指标数据进行组件定位以及异常行为分析，以获得所述目标组件的异常行为数据，具体被配置为：

将所述异常指标数据与预先构建的双星对比参数网络中各个组件的双星对比参数样本进行对比学习，以定位所述异常指标数据对应的目标组件；其中，每一双星对比参数样本中包含：基于历史指标数据分离出的异常行为状态特征、以及对应的正常行为状态特征；

将所述异常指标数据按照对应的目标组件进行分类重组，以获得多个目标组件各自对应的异常指标数据；

将多个目标组件各自对应的异常指标数据分别转换为异常行为识别矩阵；

对多个目标组件各自对应的异常行为识别矩阵进行异化度识别计算，以获得多个目标组件各自对应的异常行为数据。

进一步可选地，所述预测单元，将所述异常指标数据与预先构建的双星对比参数网络中各个组件的双星对比参数样本进行对比学习，以定位所述异常指标数据对应的目标组件，具体被配置为：

计算所述异常指标数据与各个组件的双星对比参数样本之间的趋同性程度；

选择与所述异常指标数据之间趋同性程度最高的组件作为所述目标组件；

其中，第t个时刻下采集的异常指标数据集与第c个组件之间的趋同性程度的计算公式为：

进一步可选地，所述双星对比参数网络中至少包含：第一子模型和第二子模型；第一子模型和第二子模型的网络结构相似，且网络参数之间存在一定映射关系；第一子模型和第二子模型分别用于抽取双星对比参数样本中的更新特性，以提升双星对比参数样本中异常行为状态特征以及对应的正常行为状态特征之间的异化分离度；

进一步可选地，双星对比参数网络中的参考异常行为识别矩阵为基于历史指标数据预先构建的；

对异常行为识别矩阵中的矩阵元素i以及所述参考异常行为识别矩阵中对应的参考矩阵元素j之间的异化度程度h(i,j)的识别计算过程表示为如下公式：

进一步可选地，所述向前故障修复模型至少包括：模式获取层、修复策略层、修复配置层、输出层；

所述获取单元，通过向前故障修复模型，对所述潜在故障模式进行修复模式学习，以获得所述目标组件的智能化修复模式，具体被配置为：

通过模式获取层，对所述潜在故障模式进行模式解析，以获得所述潜在故障模式的潜在根源特征；所述潜在根源特征至少包括以下之一：硬件组件的物理损坏、电路连接问题、元件老化、软件组件中的逻辑错误、内存泄漏、网络通信中的延迟、丢包、网络拥塞；

通过修复策略层，对所述潜在根源特征进行预判断，以选取即将出现潜在故障模式对应的目标修复策略；所述目标修复策略至少包括：修复目标对象、修复操作；

通过修复配置层，对所述目标修复策略进行参数预配置，以获得所述目标修复策略对应的目标预配置参数；

通过输出层，基于所述目标修复策略以及所述目标预配置参数，构建所述目标组件的智能化修复模式。

在本申请实施例中，这种向前故障恢复装置通过向前故障预测模型以及向前故障修复模型，在系统出现潜在故障之前进行预防性维护和修复，从而减少系统故障对业务的影响，提高系统的可用性和可靠性，提升事前干预效率。

在本申请的又一实施例中，还提供一种智能计算平台，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现方法实施例所述的向前故障恢复方法。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect，PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。

示例性地，假设需要建立一个基于神经元网络专用芯片的大规模、自主可控的智能计算平台，用于为研发和建设智能计算平台提供硬件基础。同时，智能计算平台也可以为智能超算中心建设提供硬件基础，通过该中心的构建可以为科研、产业、城市服务的人工智能平台，集聚人才、发展产业。

具体来说，智能计算平台主要包括：智能硬件平台、智能计算云操作系统、应用环境开发、大数据平台、智能应用PaaS平台这五个部分。在智能硬件平台中，以智能计算理论为基础，可以将深度学习芯片、AI智能加速卡及分布式服务器集成为智能硬件平台，从而为整个超算平台以及相关衍生平台提供基础硬件支撑，其主要内容包含以下四个部分：智能计算子系统、数据存储子系统、智能计算云操作系统及支撑管理子系统。

本申请实施例提供了用于构建低能耗运算器的向前故障恢复方法。

为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(RandomAccessMemory，RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器1110可以是各类专用处理器，包括图形处理器(GraphicsProcessingUnit，GPU)、机器学习处理器(MachineLearningUnit，MLU)、中央处理器(CentralProcessingUnit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

Claims

1.一种向前故障恢复方法，其特征在于，应用于智能计算云操作系统，所述智能计算云操作系统为适配于云计算环境的操作系统；所述智能计算云操作系统中包括多个组件，所述多个组件分别用于实现所述智能计算云操作系统中的不同数据处理任务；所述向前故障恢复方法包括：

对所述目标组件执行所述智能化修复模式下的修复操作，以预防所述智能计算云操作系统中出现潜在故障；

所述向前故障预测模型：指标识别层、异常行为识别层、故障分析层；

所述通过向前故障预测模型，对所述系统状态数据进行预测分析，以获得目标组件的潜在故障模式，包括：

通过故障分析层，对所述异常行为数据进行模式判别，以获取所述异常行为数据对应的潜在故障模式；

所述通过异常行为识别层，对所述异常指标数据进行组件定位以及异常行为分析，以获得所述目标组件的异常行为数据，包括：

对多个目标组件各自对应的异常行为识别矩阵进行异化度识别计算，以获得多个目标组件各自对应的异常行为数据；

所述将所述异常指标数据与预先构建的双星对比参数网络中各个组件的双星对比参数样本进行对比学习，以定位所述异常指标数据对应的目标组件，包括：

其中，X_mal ^c表示第t个时刻下采集的异常指标数据集中与第c个组件对应的数据，P×Siam^t+1,c表示第t+1个时刻下第c个组件的双星对比参数，P为偏置权重，jsim表示用于衡量两个集合元素之间在第一评估维度下趋同度的第一评估函数，α和β为动态配比的平衡参数，msim表示用于衡量两个集合元素之间在第二评估维度下趋同度的第二评估函数；

所述双星对比参数网络中至少包含：第一子模型和第二子模型；第一子模型和第二子模型的网络结构相似，且网络参数之间存在一定映射关系；第一子模型和第二子模型分别用于抽取双星对比参数样本中的更新特性，以提升双星对比参数样本中异常行为状态特征以及对应的正常行为状态特征之间的异化分离度；

2.根据权利要求1所述的向前故障恢复方法，其特征在于，所述通过指标识别层，对所述系统状态数据进行异常行为分析，以获得所述智能计算云操作系统的异常指标数据，包括：

3.根据权利要求1所述的向前故障恢复方法，其特征在于，双星对比参数网络中的参考异常行为识别矩阵为基于历史指标数据预先构建的；

4.根据权利要求1所述的向前故障恢复方法，其特征在于，所述向前故障修复模型至少包括：模式获取层、修复策略层、修复配置层、输出层；

所述通过向前故障修复模型，对所述潜在故障模式进行修复模式学习，以获得所述目标组件的智能化修复模式，包括：

5.一种智能计算云操作系统，其特征在于，所述智能计算云操作系统为适配于云计算环境的操作系统；所述智能计算云操作系统中包括多个组件，所述多个组件分别用于实现所述智能计算云操作系统中的不同数据处理任务；所述智能计算云操作系统包括：

修复单元，被配置为对所述目标组件执行所述智能化修复模式下的修复操作，以预防所述智能计算云操作系统中出现潜在故障；

6.一种智能计算平台，其特征在于，所述智能计算平台包括：

至少一个处理器、存储器和输入输出单元；

其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1至4中任一项所述的向前故障恢复方法。