CN113536306A

CN113536306A - 处理健康信息以确定是否发生异常

Info

Publication number: CN113536306A
Application number: CN202110398293.3A
Authority: CN
Inventors: J·莱特; C·达文波特
Original assignee: Hewlett Packard Enterprise Development LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2020-04-14
Filing date: 2021-04-14
Publication date: 2021-10-22
Also published as: US11652831B2; DE102021105413A1; US20210320936A1

Abstract

本文公开的示例涉及根据深度学习模型处理计算设备的健康信息，以确定是否已经发生异常。多个计算设备可以是系统的一部分。计算设备之一包括主机处理元件、与主机处理元件分离的管理控制器以及深度学习模型，该深度学习模型包括经训练来识别计算设备的异常行为的参数。管理控制器可以从计算设备的多个组件接收健康信息，并根据深度学习模型处理健康信息，以确定是否发生异常。

Description

处理健康信息以确定是否发生异常

背景技术

信息技术公司和制造商面临着例如通过提供具有高可用性和/或安全性的计算设备向消费者提供质量和价值的挑战。高可用性是一种旨在确保一定水平的操作性能的特性，例如比不具有高可用性特性的系统更长的正常运行时间。系统可能会感染恶意软件或出现其他对消费者有害的异常情况。

附图说明

以下参考附图进行详细描述，其中：

图1是根据一个示例的具有管理控制器的计算设备的框图，该管理控制器能够根据深度学习模型来处理与该计算设备相关联的健康信息，以确定是否已经发生异常；

图2是根据一个示例的能够更新和使用深度学习模型来确定是否已经发生异常的系统的框图；

图3是根据一个示例的使用管理控制器和深度学习模型来确定计算设备处是否已经发生异常的方法的流程图；

图4是根据一个示例的能够确定计算设备上是否已经发生异常的管理控制器的框图；

图5是根据一个示例的用于响应于确定计算设备上存在异常而采取行动的方法的流程图；

图6是根据一个示例的用于响应于确定计算设备上存在异常而采取管理员行动的方法的流程图；和

图7是根据一个示例的能够更新和/或管理深度学习模型以识别异常的分析平台的框图。

在所有附图中，相同的附图标记可以表示相似但不一定相同的元件。附加到一些参考数字的索引数字“N”可以被理解为仅仅表示多个，并且对于具有这样的索引数字“N”的每个参考数字不一定代表相同的数量。此外，这里使用的没有索引数字的参考数字(其中这种参考数字在别处用索引数字指代)可以是对相应的多个元件的统称或单独的统称。在另一个示例中，可以使用索引数字“I”、“M”等来代替索引数字N。

在所有附图中，相同的附图标记表示相似但不一定相同的元件。附图不一定按比例绘制，一些部分的尺寸可能被放大以更清楚地说明所示的示例。此外，附图提供了与说明书一致的示例和/或实现；然而，说明书不限于附图中提供的示例和/或实现。

具体实施方式

在本公开中，除非上下文清楚地指示相反的情况，术语“一种(a或an)”或“该”的使用也旨在包括复数形式。此外，当在本公开中使用时，术语“包括(includes或including)”、“包含(comprises或comprising)”、或“具有(have或having)”指定了所述元件的存在，但是不排除其他元件的存在或添加。

信息技术公司和制造商面临着例如通过提供具有高可用性和/或安全性的计算设备向消费者提供质量和价值的挑战。高可用性是一种旨在确保一定水平的操作性能的特性，例如比不具有高可用性特性的系统更长的正常运行时间。此外，系统可能会感染恶意软件或出现其他对消费者有害的异常情况。

现代网络安全实践对外部威胁(如分布式拒绝服务攻击)有很好的装备。然而，网络面临的一个挑战是物理入侵，其中恶意软件能够穿透物理边界，从内部扩散到整个网络。不管是出于什么目的，也不管公司的程序如何，这些物理入侵可能是有针对性的，也可能是偶然的，例如，通用串行总线(USB)闪存驱动器能够进入最安全的网络边界。如果USB闪存驱动器上存在恶意软件，它会感染计算设备，然后该计算设备会感染网络中的其他设备。

网络系统上的计算设备的管理控制器(例如，基板管理控制器)可以利用带外定位来直接与主机网络、处理器、存储装置(storage)、存储器(memory)、电源设备等连接。因此，管理控制器具有计算设备的设备配置、状态和性能度量的可信视图。本文描述的监控技术可以通过实时检测行为异常来增强系统安全性。当异常发生时，可以采取措施，例如，警告主管、批准的纠正措施、更新模型以包含允许的异常等。

在一些示例中，管理控制器可以通过直接通道，例如(外围组件互连)PCIexpress、USB、通道接口驱动器等来监控设备，以确保数据不受损害。这些数据点可以根据期望的阈值或智能构建的模型进行测量，以确定威胁是否有效以及是否需要响应。在一些示例中，威胁响应可以是警报、平息威胁的反应性尝试、减轻显著威胁或感知的脆弱性的预先(preemptive)努力等。

对于特定的工作负荷，可以使用机器学习来创建智能创建的模型。可以训练一组计算设备的模型，该组计算设备预期在指定的工作负荷上工作。在一些示例中，可以在训练组中使用工作负荷的基准负荷来创建模型。在基准测试期间，被监控的每个计算设备的管理控制器可以从相应计算设备的组件获取健康信息。健康信息之后可被发送到分析平台。分析平台可以从多个计算设备获取大量健康信息，以创建计算设备在工作负荷期间的正常操作的深度学习模型。

深度学习模型可以在管理控制器的生产环境中实现。在一些示例中，计算设备可以由计算设备上的管理控制器使用深度学习模型来监控。如果管理控制器检测到异常，它可以执行行动。该行动可以是报告行动，例如向管理员通知问题。在其他示例中，该行动可以包括向相关管理网络上的其他管理控制器警告异常或基于异常的诊断。在进一步的示例中，检测到异常的管理控制器或相关联的管理控制器可以在其计算设备上执行行动，例如隔离网络流量、隔离等。

深度学习模型的示例包括使用循环神经网络(RNN)来处理系统事件，以确定健康信息中收集的哪些事件是正常工作负荷使用的一部分。可以使用先前的日志来训练将在该领域使用的深度学习网络。来自生产工作负荷的反馈可用于强化和更新模型。

在一个示例中，计算设备可以包括服务器。管理控制器诸如基板管理控制器(BMC)可用于根据深度学习模型对传入的健康信息进行分析。BMC为计算设备提供所谓的“无人值守(lights-out)”功能。无人值守功能可以允许用户诸如系统管理员在计算设备上执行管理操作，即使操作系统没有安装在计算设备上或者在计算设备上不起作用。此外，在一个示例中，BMC可以在辅助电源上运行，因此计算设备不需要被通电到开启状态，在该开启状态下，计算设备的控制在引导(boot)之后被移交给操作系统。作为示例，BMC可以提供所谓的管理和所谓的“带外”服务，例如远程控制台访问、远程重启和电源管理功能、对系统日志的访问等。如此处所使用的，BMC具有对计算设备的子系统的管理能力，并且与执行计算设备的主操作系统的处理器分离。BMC可以包括诸如网络接口和/或串行接口的接口，管理员可以使用该接口与BMC远程通信。

如上所述，BMC可以访问系统日志和健康信息。在一个示例中，系统组件诸如硬件设备和/或在硬件之上执行的软件可以被配置为向BMC提供事件信息。

图1是根据一个示例的具有管理控制器的计算设备的框图，该管理控制器能够根据深度学习模型来处理与该计算设备相关联的健康信息，以确定是否已经发生异常。图2是根据一个示例的能够更新和使用深度学习模型来确定是否已经发生异常的系统的框图。

在图1的示例中，计算设备102包括组件110、深度学习模型112、管理控制器116和主机处理元件130。在图2的示例中，计算系统200包括多个计算设备102a、102b–102n，一个或多个计算设备可以包括组件110、深度学习模型112、管理控制器116、健康信息214、健康信息参数反馈216、主机处理元件130、存储器232、输入/输出234等。此外，计算系统200可以进一步包括分析平台250。在某些示例中，分析平台250和一个或多个计算设备102可以经由网络连接。在一些示例中，该连接可以经由将一个或多个管理控制器116相互连接和/或连接到管理节点的管理网络。在其他示例中，可以使用其他网络，例如生产网络来连接一个或多个计算设备102。在一些示例中，生产网络可以与管理网络分开。

生产或测试环境中的管理控制器116可以与计算设备102的组件110通信，以生成健康信息214。管理控制器116可以使用一条或多条总线来与组件通信以接收健康信息。健康信息214的示例可以包括与诸如一个或多个中央处理单元、存储器等芯片相关联的温度、日志信息、会话计数器、用户行动信息、网络分组计数器、功耗、错误信息、安装在计算设备上的固件或软件的记录、处理工作负荷信息、外围设备配置信息、外围设备传感器信息等。在一些示例中，健康信息214可以存储在与管理控制器116相关联的存储器中。在一个示例中，安装在主机处理元件130上执行的操作系统上的软件可以例如使用驱动器和总线经由接口与管理控制器116通信。此外，在一些示例中，可以向管理控制器116提供关于在主机处理元件130上执行的软件、存在于一个或多个总线上的组件110(例如，PCIe总线、网络接口控制器、非易失性存储器主控制器等)的信息。在一些示例中，信息可以经由用于管理的总线来传送，例如，诸如I2C的串行通信、系统管理总线、控制器局域网(CAN)总线等。在其他示例中，可以通过管理网络以配置的形式从主机或管理平台接收输入。

在一些示例中，健康信息214可以作为日志或其他数据结构存储在永久存储器或易失性存储器中。可能存在不同的存储和接收条件。例如，管理控制器116可以比来自温度传感器的信息更少地接收关于安装在计算设备102上的软件的信息。

如上所述，深度学习模型112可以基于与系统200相关联的特定工作负荷。训练模型可以包括使用基准工作负荷。在一个或多个计算设备上的基准工作负荷期间，相关联的管理控制器116可以从测试环境中的相应系统的组件访问数据，并产生健康数据。健康数据可以被提供给可以生成模型的分析平台。在一些示例中，使用基准工作负荷的训练可以认为是针对特定工作负荷的深度学习模型的预训练。该深度学习模型可以基于来自计算设备的额外反馈来进一步更新。

可以使用各种深度学习模型。深度学习模型的示例包括长短期记忆(LSTM)、卷积神经网络、循环(recurrent)神经网络、神经历史压缩器、递归(recursive)神经网络、门控循环单元(GRU)等。循环神经网络的一个优点是包含反馈。用于深度学习模型的参数可以基于来自计算设备102或这里讨论的其他设备的反馈来更新。

在一个示例模型中，可以将健康信息处理为字符。在示例模型中，字符可以表示组件提供的寄存器或与其他系统日志相关联的信息。在一个示例中，每个字符可以被认为是一个输入向量。事件的分数可以随着每个字符的处理而更新。在处理过程中，这些分数可以认为是隐藏的。更新后的分数可以和下一个字符一起作为输入向量。处理可以继续，直到一个字符代表事件的结束。不同类型的健康信息事件可以区别对待。例如，温度信息可以处理代表温度的字符或多个字符，而固件的版本号可以作为单独的事件信息进行不同的处理。

在长短期记忆(LSTM)模型中，字符可以被特殊字符分解并作为一个组(例如，代表与事件相关联的信息的组)。例如，第一字符可以标识事件，第二、第三和第四字符可以包括日志寄存器信息，并且特殊字符(第五字符)可以指示关于事件的信息结束。在本示例中，这五个字符是要一起处理的。虽然描述了LSTM模型，但是也可以使用其他方法，例如门控循环单元。

输入事件可以来源于任何软件实体、现场可替换单元、组件110等。在一个示例中，深度神经网络(DNN)在消耗输入向量时做出即时预测。可以采用完全连接的架构，其最后一级是预测是否发生异常的输出。

在一些示例中，分数可用于对每个事件或一组事件代表计算设备102正常操作的异常的概率进行排名。

当深度学习模型112用于生产模式时，管理控制器116可以根据深度学习模型112处理其各自的健康信息214，以基于深度学习模型112确定是否已经发生异常。

在一个示例中，管理控制器116确定存在异常。管理控制器116可以对异常进行分类。在一些示例中，在模型生成期间，模型可以包括基于与异常相关联的参数的类型的分类。此外，在一些示例中，可以监督一些训练，例如，具有异常行为的特定工作负荷可以用作用于训练的工作负荷的一部分，并且可以与异常行为相关联。在一个示例中，训练模型可以包括指示已知异常正在工作负荷的时间框架内发生的信息。在一些示例中，管理控制器116可以响应于基于相关分类的异常已经发生的确定而采取行动。

在一个示例中，分类与发送警报的行动相关联。在这个示例中，警报被发送到诸如分析平台250的管理或分析平台。该警报可以指示存在异常以及与该异常相关联的特定标准。

此外，在一些示例中，该行动可以包括对管理员反馈的请求。例如，可以要求管理员确认异常是否是一个问题。在一个示例中，管理员可以指示异常不是问题，而是与工作负荷变化一致。这种情况的一个示例是当维护事件发生时，例如固件包的更新、软件的更新、新硬件的添加等。这种情况的另一个示例是正在发生额外活动时，例如，黑色星期五或零售服务器工作负荷上的销售事件或增加流式服务器工作负荷或零售工作负荷的在家事件。

在一个示例中，分析平台接收响应于该行动的管理员响应。管理员响应可以包括工作负荷已变化的指示。响应于工作负荷的变化，深度学习模型可以由分析平台250更新。在一个示例中，深度学习模型的更新包括在行动发生之后来自多个计算设备102a、102b、102n的健康信息参数反馈。

健康信息参数反馈216可以由管理控制器116生成。在一些示例中，健康信息参数反馈216可以被收集、存储，然后批量发送。在一个示例中，健康信息参数反馈216可以包括在一段时间内收集的健康信息214的集合。在另一个示例中，可以对健康信息参数反馈216进行预处理。这可以包括，例如，计算特定事件发生的次数，对数据执行转换以帮助其由分析平台250分析，减少发送到分析平台的数据量，重新缩放数据，标准化数据等。每个计算设备102可以生成由分析平台250接收的健康信息参数反馈的一部分。每个部分可以与相应的计算设备102相关联。

分析平台250从计算设备102接收健康信息参数反馈。分析平台250可以基于先前使用的深度学习模型和健康信息参数反馈，使用与模型训练期间类似的方法来更新深度学习模型。基于针对异常的管理员响应，可以认为反馈是有效的。可以将更新的深度学习模型提供回计算设备102a和/或其他计算设备102b-102n。

计算设备102a或诸如计算设备102b的另一类似计算设备可以接收更新的深度学习模型。计算设备102可以使用更新的深度学习模型来确定是否存在异常。在该示例中，计算设备102之一从其相应的组件110检索附加健康信息214。根据更新的深度学习模型来处理附加健康信息214。在一个示例中，管理控制器116可以确定第二异常已经发生。响应于该确定，可以采取另一个行动。

可以响应于异常的检测而采取的行动的其他示例包括隔离、软件或固件组件的更新、与其他计算设备的其他管理控制器的通信、预先行动等。

在隔离的一个示例中，管理控制器116可以通过隔离计算设备102来隔离计算设备102(例如通过关闭I/O 234)。在另一示例中，管理控制器116可以与主机应用或操作系统通信，以在隔离或关闭计算设备102之前将工作负荷转移到另一计算设备。

在一个示例中，另一计算设备102n可以采取预先行动。在这个示例中，管理控制器116可以向其他计算设备(例如计算设备102n)的其他管理控制器提供(例如，通过通知)有关该异常的信息。计算设备102n的管理控制器可以接收关于异常的通知。管理控制器可以在计算设备102n上执行另一个行动，以预先避免异常。

在一个示例中，另一个行动(或第一计算设备的行动)可以包括不允许与异常相关联的特定用户发送信息。在另一个示例中，该行动可以包括关闭网络端口。在进一步的行动中，管理控制器116可以请求在主机处理元件130上执行的代理执行补救行动。例如，可以向代理提供恶意或异常进程的特征，代理可以终止该进程和类似的进程。可以采取其他类似的行动来阻止具有类似特征的进程运行。进一步的行动可以包括停止实体访问/使用存储器或网络端口的权利。

在更新软件或固件组件的一个示例中，管理控制器116可以检测异常。异常可以分类为与固件或软件组件相关。异常可以是计算设备102与组中的其他计算设备相比具有不同的固件或软件版本。在一个示例中，可以设置组件用于更新。更新可以作为下一次计划维护时间的一部分进行，也可以动态进行。例如，这取决于更新组件的要求。在一些示例中，计算设备102a-102n中的每一个可以是与计算设备102a相同的模型。在其他示例中，可以使用不同的模型，但架构相同。在其他示例中，该组计算设备102可以具有异构组成。深度学习模型的特征对于这些分组中的每一个可以是不同的。

此外，在某些示例中，可以将健康信息214的一些或全部提供给分析平台250以更新深度学习模型。这可以周期性地执行，例如，在一个时间段内(例如，在每天的低工作流程部分)收集健康信息214。分析平台250可以理所当然地处理健康信息214，并将更新的深度学习模型112发送到计算设备以供使用。

在一个示例用例中，一名员工带着一个看似没问题的通用串行总线(USB)闪存驱动器。一旦插入计算设备，恶意软件就会自动安装并开始传播到生产网络上的其他系统。员工计算设备上的恶意软件能够侵入操作系统软件，修改行为度量，计算设备报告没有异常发生。

然后，恶意软件找到其到配备有运行该特征的管理控制器116的服务器的路径，其中常规监控已经建立了健康的行为模型。例如，网络接口卡可以获取健康信息，并对发送/接收利用率、字节、数据包、错误和队列状态执行度量，以得出有形的行为度量。

虽然在主机处理元件130上执行的操作系统(OS)可能通过软件操作而被欺骗，但是硬件设备不能被修改。管理控制器116能够将网络、处理器、存储装置、存储器和电源活动的大规模转移表征为异常行为。例如，恶意软件导致系统处理器达到100％利用率，电源报告电流消耗急剧增加。将这些指标与已建立的行为模型进行比较，确定攻击正在进行，并触发已配置的响应机制。

可将策略用于分类和实施响应。配置策略的示例可以包括从管理控制器116发送给管理员的详细说明该问题的优先级消息。在另一示例中，管理控制器116将受感染的计算设备102与网络上的其他系统隔离。在另一个示例中，受感染系统的管理控制器116向邻近的管理控制器116系统广播威胁已被确认的消息，并为即将到来的威胁做准备。

如果恶意软件攻击旨在轰击主机网络带宽，则管理控制器116可以被配置为通过其专用网络端口发送和接收消息。该接口与生产网络的子系统分离，并且在主机处理元件130上执行的操作系统或其他软件受到危害时不会被感染。这允许管理控制器116为网络管理员修复系统提供不受危害的接口。

在一些示例中，管理控制器可以包括BMC。管理控制器116可以用于为计算设备102实现服务。管理控制器116可以使用与用于执行高级操作系统的主机处理元件130分离的处理器来实现。管理控制器116可以为计算设备提供所谓的“无人值守”功能。无人值守功能可以允许用户诸如系统管理员在计算设备102上执行管理操作，即使操作系统没有安装在计算设备上或者在计算设备上不起作用。此外，在一个示例中，管理控制器116可以在辅助电源上运行，因此计算设备102不需要被通电到开启状态，在该开启状态下，计算设备102的控制在引导之后被移交给操作系统。作为示例，管理控制器116可以提供所谓的“带外”服务，例如远程控制台访问、远程重启和电源管理功能、监控系统健康、访问系统日志等。如这里所使用的，管理控制器116具有对计算设备102的子系统的管理能力，并且与执行计算设备(例如，一个服务器或一组服务器)的主操作系统的处理器或主机处理元件130分离。

如上所述，在一些情况下，管理控制器116可以实现计算设备102的无人值守管理，这提供了远程管理访问(例如，系统控制台访问)，而不管计算设备102是否通电、主网络子系统硬件是否正在运行、或者OS是否正在运行或甚至是否安装。管理控制器116可以包括诸如网络接口和/或串行接口的接口，管理员可以使用该接口来与管理控制器116远程通信。如此处所使用的，“带外”服务是由管理控制器116经由专用管理信道(例如，网络接口或串行接口)提供的服务并且无论计算设备102是否处于通电状态都可用。

在一些示例中，管理控制器116可以被包括作为外壳的一部分。在其他示例中，管理控制器116可以被包括在一个或多个服务器中(例如，作为服务器的管理子系统的一部分)或通过接口(例如，外围接口)连接。在一些示例中，与管理控制器116相关联的传感器可以测量内部物理变量，例如湿度、温度、电源电压、通信参数、风扇速度、操作系统功能等。管理控制器116还能够重启设备或对设备进行电力循环。如上所述，管理控制器116允许设备的远程管理，因此，可以使用管理控制器116向中央站发出通知，并且可以通过管理控制器116实现密码或其他用户输入。

在一些示例中，一个或多个组件110可以与固件相关联。固件引擎可以使用可由处理器和/或逻辑执行的指令来实现。在一些示例中，固件可以与作为相应组件110的一部分的一个或多个控制器相关联。

在一些示例中，固件引擎可以实现为平台固件。平台固件可以包括诸如基本输入/输出系统(BIOS)或统一可扩展固件接口(UEFI)之类的接口，以允许其被连接。平台固件可以位于计算设备102的主机处理元件130(例如，中央处理器)启动的地址空间。在一些示例中，平台固件可以负责计算设备102的通电自检。在其他示例中，平台固件可以负责引导过程以及在计算设备102上加载什么操作系统(如果有的话)。此外，平台固件可能能够初始化计算设备102的各种组件，例如外围设备、存储器设备232、存储器控制器设置、存储控制器设置、总线速度、视频卡信息等。在一些示例中，平台固件还能够在计算设备102执行时执行各种低级功能。此外，在一些示例中，平台固件能够例如经由高级配置和电源接口(ACPI)与在CPU上执行的更高级别的操作系统通信。

主机处理元件130，例如一个或多个中央处理单元(CPU)或适于检索和执行指令的微处理器和/或电子电路，可以被配置为执行本文描述的任何主机进程的功能。在某些场景下，指令和/或其他信息，例如健康信息，可以包括在存储器232或其他存储器中。输入/输出接口234可以另外由计算设备102提供。例如，输入设备(如键盘、传感器、触摸接口、鼠标、麦克风等)可以用于从计算设备102周围的环境接收输入。此外，输出设备诸如显示器可以用于向用户呈现信息。输出设备的示例包括扬声器、显示设备、放大器等。此外，在某些示例中，一些组件可以被用来实现本文描述的其他组件的功能。输入/输出设备诸如网络通信设备或无线设备之类的通信设备也可以被认为是能够使用输入/输出接口234的设备。

通信网络可以用于分析平台250和计算设备102之间的通信。例如，管理网络可以用于管理控制器和分析平台250之间的通信。在其他示例中，通信网络可以用于将计算设备的一个或多个I/O连接到其他设备(例如，经由互联网或其他网络)。

通信网络可以使用有线通信、无线通信或其组合。此外，通信网络可以包括多个子通信网络，例如数据网络、无线网络、电话网络等。这种网络可以包括例如公共数据网络，例如互联网、局域网(LAN)、广域网(WAN)、城域网(MAN)、电缆网络、光纤网络、它们的组合等。在某些示例中，无线网络可以包括蜂窝网络、卫星通信、无线LAN等。此外，通信网络可以是设备之间的直接网络链接的形式。可以利用各种通信结构和基础设施来实现通信网络。

设备可以通过通信协议或多种协议相互通信并与接入通信网络的其他组件通信。协议可以是定义通信网络节点如何与其他节点交互的一组规则。此外，网络节点之间的通信可以通过交换离散的数据包或发送消息来实现。分组可以包括与协议相关联的报头信息(例如，关于要联系的网络节点的位置的信息)以及有效载荷信息。

图3是根据一个示例的使用管理控制器和深度学习模型来确定计算设备处是否已经发生异常的方法的流程图。图4是根据一个示例的能够确定计算设备上是否已经发生异常的管理控制器的框图。尽管方法300显示为使用管理控制器400来实现，但是也可以使用其他控制器诸如管理控制器116。

处理元件410可以是一个或多个中央处理单元(CPU)、一个或多个基于半导体的微处理器、一个或多个图形处理单元(GPU)、适于检索和执行存储在机器可读存储介质420中的指令的其他硬件设备或其组合。处理元件410可以是物理设备。此外，在一个示例中，处理元件410可以包括芯片上的多个核，包括跨多个芯片的多个核，或者其组合。处理元件410可以获取、解码和执行指令422、424、426，以实现本文描述的过程。作为检索和执行指令的替代或补充，处理元件410可以包括至少一个集成电路(IC)、其他控制逻辑、其他电子电路或其组合，其包括用于执行指令422、424、426的功能的多个电子组件。

机器可读存储介质420可以是包含或存储可执行指令的任何电子、磁、光或其他物理存储设备。因此，机器可读存储介质可以是例如随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、存储驱动器、光盘只读存储器(CD-ROM)等。这样，机器可读存储介质可以是非暂时性的。如本文中详细描述的，机器可读存储介质420可以用一系列可执行指令编码，用于处理健康信息以确定是否已经发生异常。

如上进一步所述，管理控制器400可以是计算设备的一部分。计算设备可以是系统中的多个计算设备之一。管理控制器400可以与计算设备的主机处理元件分离。此外，管理控制器400可以访问根据特定工作负荷训练的深度学习模型，以基于健康信息确定是否存在异常行为。深度学习模型可以针对特定的工作负荷进行预先训练，并且可以作为一个持续的过程进行更新。

在302，处理元件410可以执行健康指令422，以从计算设备的组件接收健康信息。管理控制器400可以使用一条或多条总线来与计算设备的组件通信，以接收健康信息。健康信息的示例可以包括与例如一个或多个中央处理单元、存储器等芯片相关联的温度、日志信息、会话计数器、网络分组计数器、功耗、错误信息、安装在计算设备上的固件或软件的记录、处理工作负荷信息、外围设备配置信息、外围设备传感器信息等。在一些示例中，健康信息可以存储在管理控制器400可访问的存储器中。

在一个示例中，安装在主机处理元件上执行的操作系统上的软件可以例如使用驱动器和总线经由接口与管理控制器400通信。此外，在一些示例中，可以向管理控制器400提供关于在主机处理元件上执行的软件、存在于一个或多个总线上的组件(例如，PCIe总线、网络接口控制器、非易失性存储器主控制器等)的信息。在一些示例中，信息可以经由用于管理的总线来传送，例如，诸如I2C的串行通信、系统管理总线、控制器局域网(CAN)总线等。在其他示例中，可以通过管理网络以配置的形式从主机或管理平台接收输入。

在304，处理元件410可以执行分析指令424来处理健康信息304。该处理可以根据所使用的深度学习模型的类型，例如，使用LSTM模型、GRU模型、深度神经网络模型、卷积神经网络模型、循环神经网络模型等。在306，分析指令424可以由处理元件410执行，以确定是否已经发生异常。这也可以基于所使用的深度学习模型。如果发生异常，处理元件410可以执行行动指令426，以响应于所确定的异常来执行行动。

图5是根据一个示例的用于响应于确定计算设备上存在异常而采取行动的方法的流程图。尽管方法500示为使用管理控制器400来实现，但是也可以使用诸如管理控制器116的其他控制器。

在502，管理控制器400确定存在异常。如上所述，该确定可以基于如上所述的健康信息的处理。

在504，管理控制器400可以对异常进行分类。如上所述，在一些示例中，在模型生成期间，模型可以包括基于与异常相关联的参数的类型的分类。此外，在一些示例中，可以监督一些训练，例如，具有异常行为的特定工作负荷可以用作用于训练的工作负荷的一部分，并且可以与异常行为相关联。在一个示例中，训练模型可以包括指示已知异常或异常类型正在工作负荷的时间框架内发生的信息。

在一些示例中，在506，管理控制器400可以响应于基于相关分类的异常已经发生的确定而采取行动。处理元件410可以执行行动指令426来执行该行动。在一个示例中，分类与发送警报的行动相关联。在这个示例中，警报被发送到管理或分析平台，例如分析平台250或700。该警报可以指示存在异常以及与该异常相关联的特定标准。

此外，在一些示例中，该行动可以包括对管理员反馈的请求。例如，可以要求管理员确认异常是否是一个问题。在一个示例中，管理员可以指示该异常不是问题，而是与工作负荷变化一致。这种情况的一个示例是当维护事件发生时，例如固件包的更新、软件的更新、新硬件的添加等。这种情况的另一个示例是正在发生额外活动时，例如，黑色星期五或零售服务器工作负荷上的销售事件或增加流式服务器工作负荷或零售工作负荷的在家事件。

在其他示例中，该行动可以包括向相关管理网络上的其他管理控制器警告异常或基于异常的诊断。在进一步的示例中，检测到异常的管理控制器或相关联的管理控制器可以在其计算设备上执行行动，例如隔离网络流量、隔离、更新软件或固件组件、与其他计算设备的其他管理控制器通信、预先行动等。

此外，在一些示例中，可以执行分析指令424来处理健康信息，以生成可以发送到分析平台的健康信息参数反馈的一部分。

此外，管理控制器400可以从分析平台接收更新的深度学习模型。如上所述，这可以基于从多个计算设备接收的健康信息参数反馈来更新。其他计算设备可以基于来自管理控制器的健康信息对更新的模型起作用(例如，通过使用关于新健康信息的更新模型来检测另一个异常)。

图6是根据一个示例的用于响应于确定计算设备上存在异常而采取管理员行动的方法的流程图。图7是根据一个示例的能够更新和/或管理深度学习模型以识别异常的分析平台的框图。尽管方法600被示为使用分析平台700来实现，但是也可以使用诸如分析平台250的其他设备。

处理元件710可以是一个或多个中央处理单元(CPU)、一个或多个基于半导体的微处理器、一个或多个图形处理单元(GPU)、适于检索和执行存储在机器可读存储介质720中的指令的其他硬件设备或其组合。处理元件710可以是物理设备。此外，在一个示例中，处理元件710可以包括芯片上的多个核，包括跨多个芯片的多个核，跨多个设备的多个核，或其组合。处理元件710可以提取、解码和执行指令722、724来实现方法600。作为检索和执行指令的替代或补充，处理元件710可以包括至少一个集成电路、其他控制逻辑、其他电子电路或其组合，其包括用于执行指令722、724的功能的多个电子组件。

机器可读存储介质720可以是包含或存储可执行指令的任何电子、磁、光或其他物理存储设备。因此，机器可读存储介质可以是例如随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、存储驱动器、光盘只读存储器(CD-ROM)等。这样，机器可读存储介质可以是非暂时性的。如本文详细描述的，机器可读存储介质720可以用一系列用于执行行动的可执行指令来编码。

在一些示例中，分析平台700可以被实现为在物理处理元件上执行的软件。在一个示例中，分析平台700可以实现为使用在计算设备上执行的虚拟机来执行的软件。

在一个示例中，分析平台700从计算设备接收健康信息参数反馈。分析平台700可以基于先前使用的深度学习模型和健康信息参数反馈，使用与模型训练期间类似的方法来更新深度学习模型。

在一个示例中，分析平台从管理控制器接收异常的通知(602)。行动指令724可以由处理元件710执行，以响应于接收到通知而执行行动。在一个示例中，该行动可以包括请求管理员响应。在604，处理元件710可以执行行动指令724以接收来自管理员的响应(604)。如上所述，这种响应的一个示例可以包括管理员预期异常发生并且模型应该被更新。

可以在606执行管理员行动。在一个示例中，管理员行动包括更新模型。分析平台700可以从多个计算设备接收健康信息参数反馈，并以与上述方法一致的方式更新将由执行模型指令722使用的深度学习模型。例如，更新可以响应更新的工作负荷。更新后的深度学习模型可以提供给管理控制器使用。

也可以执行其他管理员行动。例如，通知可以向管理员指示需要更新。管理员可以选择执行更新。在一些示例中，这可以在没有管理员交互的情况下执行。

虽然上面已经示出和描述了某些实施方式，但是可以在形式和细节上进行各种改变。例如，已经关于一个实现和/或过程描述的一些特征可以与其他实现相关。换言之，关于一个实现描述的过程、特征、组件和/或属性在其他实现中可能是有用的。此外，应当理解，本文描述的系统和方法可以包括所描述的不同实现的组件和/或特征的各种组合和/或子组合。因此，参考一个或多个实现描述的特征可以与本文描述的其他实现相结合。

Claims

1.一种计算系统，包括：

多个计算设备；

所述多个计算设备中的一个计算设备包括：

主机处理元件；

与所述主机处理元件分离的管理控制器，其中所述管理控制器由与所述处理元件分离的电源轨供电；

深度学习模型，其包括经训练来识别所述一个计算设备的异常行为的参数，

其中所述管理控制器用于执行指令以：

从所述一个计算设备的多个组件接收健康信息；以及

根据所述深度学习模型处理所述健康信息，以确定是否已经发生异常。

2.根据权利要求1所述的计算系统，其中所述深度学习模型基于针对与所述多个计算设备相关联的特定工作负荷的预先训练的深度学习模型。

3.根据权利要求1所述的计算系统，进一步包括：

分析平台，其包括存储在计算机可读介质上的指令，所述指令当由另一处理元件执行时使得所述另一处理元件：

从多个计算设备接收健康信息参数反馈；

基于所述深度学习模型和所述健康信息参数反馈来更新更新的深度学习模型；以及

向所述一个计算设备提供所述更新的深度学习模型。

4.根据权利要求3所述的计算系统，其中，所述一个计算设备的所述管理控制器进一步用于：

处理所述健康信息以生成所述健康信息参数反馈的一部分；并将所述健康信息参数反馈的所述一部分发送给所述分析平台。

5.根据权利要求4所述的计算系统，进一步包括：

所述多个计算设备中之一的第二个计算设备，包括：

第二主机处理元件；

与所述第二主机处理元件分离的第二管理控制器，其中所述第二管理控制器由与所述第二处理元件分离的电源轨供电；

其中所述第二管理控制器用于执行指令以：

接收所述更新的深度学习模型；

从所述第二个计算设备的多个组件中检索第二健康信息；

根据所述更新的深度学习模型处理所述第二健康信息，以确定已经发生第二异常。

6.根据权利要求1所述的计算系统，其中所述管理控制器进一步用于：

确定所述异常存在；

确定所述异常的分类；以及

响应于基于所述分类的所述异常的确定而采取行动。

7.根据权利要求6所述的计算系统，进一步包括：

接收响应于所述行动的管理员响应；以及

使得分析平台基于所述管理员响应更新所述深度学习模型，其中所述深度学习模型的更新包括在所述行动发生之后来自多个计算设备的健康信息参数反馈。

8.根据权利要求6所述的计算系统，其中所述行动包括将所述一个计算设备与所述多个计算设备中的其他计算设备隔离。

9.根据权利要求6所述的计算系统，其中所述行动包括将固件组件更新到由所述多个计算设备中的其他计算设备使用的版本。

10.根据权利要求9所述的计算系统，其中所述多个计算设备中的所述其他计算设备与所述一个计算设备具有相同的模型。

11.根据权利要求6所述的计算系统，其中所述行动包括发送关于包括所述分类的所述异常的通知。

12.根据权利要求11所述的计算系统，进一步包括：

所述多个计算设备中之一的第二个计算设备，包括：

第二主机处理元件；

其中所述第二管理控制器用于执行指令以：

接收关于所述异常的所述通知；

在所述第二个计算设备上执行另一个行动以预先避免所述异常。

13.一种方法，包括：

由管理控制器从多个计算设备中的一个计算设备的多个组件接收健康信息，

其中所述一个计算设备包括：

主机处理元件；

与所述主机处理元件分离的所述管理控制器，其中所述管理控制器由与所述处理元件分离的电源轨供电；和

由所述管理控制器根据所述深度学习模型处理所述健康信息，以确定是否已经发生异常。

14.根据权利要求13所述的方法，其中所述深度学习模型基于针对与所述多个计算设备相关联的特定工作负荷的预先训练的深度学习模型。

15.根据权利要求13所述的方法，进一步包括：

在分析平台从多个计算设备接收健康信息参数反馈，

由所述分析平台基于所述深度学习模型和所述健康信息参数反馈来更新更新的深度学习模型；以及

向所述一个计算设备提供所述更新的深度学习模型。

16.根据权利要求15所述的方法，进一步包括：

由所述管理控制器处理所述健康信息以生成所述健康信息参数反馈的一部分；并将所述健康信息参数反馈的所述一部分发送给所述分析平台。

17.根据权利要求16所述的方法，进一步包括：

在所述多个计算设备中的第二个计算设备的第二管理控制器处接收所述更新的深度学习模型，其中所述多个计算设备中的所述第二个计算设备包括第二主机处理元件和与所述第二主机处理元件分离的所述第二管理控制器，其中所述第二管理控制器由与所述第二处理元件分离的电源轨供电；

从所述第二个计算设备的多个组件中检索第二健康信息；以及

18.一种存储指令的非暂时性机器可读存储介质，所述指令如果由设备的管理控制器的物理处理元件执行，则使得所述管理控制器：

从多个计算设备中的一个计算设备的多个组件接收健康信息，其中所述设备是所述多个计算设备中的所述一个计算设备，其中所述一个计算设备包括：

主机处理元件，其中所述管理控制器与所述主机处理元件分离，其中所述管理控制器由与所述处理元件分离的电源轨供电；和

19.根据权利要求18所述的非暂时性机器可读存储介质，进一步包括指令，所述指令如果由所述物理处理元件执行，则使得所述管理控制器：

生成健康信息参数反馈；

将所述健康信息参数反馈发送给分析平台；

基于所述健康信息参数反馈和来自所述多个计算设备中的另一计算设备的另一健康信息参数反馈，从所述分析平台接收更新的深度学习模型；

基于所述更新的深度学习模型和从所述多个组件收集的附加健康信息，确定存在另一异常；

确定其他异常的分类；以及

响应于基于所述分类的所述其他异常的确定而采取行动。

20.根据权利要求18所述的非暂时性机器可读存储介质，其中所述深度学习模型基于针对与所述多个计算设备相关联的特定工作负荷的预先训练的深度学习模型。