CN117390536A

CN117390536A - 基于人工智能的运维管理方法及系统

Info

Publication number: CN117390536A
Application number: CN202311684358.6A
Authority: CN
Inventors: 张超; 梁海栋; 李原洲
Original assignee: Shenzhen Baoteng Internet Technology Co ltd
Current assignee: Shenzhen Baoteng Internet Technology Co ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-01-12
Anticipated expiration: 2043-12-11
Also published as: CN117390536B

Abstract

本申请涉及人工智能技术领域，公开了一种基于人工智能的运维管理方法及系统。所述方法包括：对数据中心机房进行运行数据采集、标准化处理和主成分分析，得到目标运行数据；构建初始KNN模型并通过深度强化学习算法进行模型超参数优化，得到目标K值以及目标欧式距离；对初始KNN模型进行模型参数更新和交叉验证，得到目标KNN模型；对数据中心机房进行实时运行状态分析，得到实时运行数据，并将实时运行数据输入目标KNN模型进行状态监控和故障预测，得到故障预测结果；根据故障预测结果进行性能评估，得到性能评估指标并进行迭代更新，输出最优KNN模型，进而提高了数据中心机房的运维管理效率和准确率。

Description

基于人工智能的运维管理方法及系统

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于人工智能的运维管理方法及系统。

背景技术

在当今的信息时代，数据中心作为存储和处理海量数据的关键基础设施，承载着极其重要的角色。随着云计算、大数据、物联网等技术的迅速发展，数据中心的规模和复杂性不断增加，这就对其运维管理提出了更高的要求。

传统的数据中心运维管理多依赖于人工经验，不仅效率低下，而且难以应对日益复杂的系统环境和突发的故障。因此，如何提高数据中心的运维效率和可靠性，成为了一个迫切需要解决的问题。

发明内容

本申请提供了一种基于人工智能的运维管理方法及系统，进而提高了数据中心机房的运维管理效率和准确率。

本申请第一方面提供了一种基于人工智能的运维管理方法，所述基于人工智能的运维管理方法包括：

对数据中心机房的服务器、冷却系统及电源进行运行数据采集，得到初始运行数据，并对所述初始运行数据进行标准化处理和主成分分析，得到目标运行数据；

根据所述目标运行数据对预置的KNN算法进行K值计算和欧式距离计算，得到初始K值和初始欧式距离，并根据所述初始K值和所述初始欧式距离构建所述数据中心机房的初始KNN模型；

通过预置的深度强化学习算法，根据预置的奖励函数对所述初始KNN模型进行模型超参数优化，得到目标K值以及目标欧式距离；

根据所述目标K值以及所述目标欧式距离对所述初始KNN模型进行模型参数更新和交叉验证，得到目标KNN模型；

对所述数据中心机房的服务器、冷却系统及电源进行实时运行状态分析，得到实时运行数据，并将所述实时运行数据输入所述目标KNN模型进行状态监控和故障预测，得到故障预测结果；

根据所述故障预测结果，对所述目标KNN模型进行性能评估，得到性能评估指标，并根据所述性能评估指标对所述目标KNN模型进行迭代更新，输出最优KNN模型。

本申请第二方面提供了一种基于人工智能的运维管理系统，所述基于人工智能的运维管理系统包括：

采集模块，用于对数据中心机房的服务器、冷却系统及电源进行运行数据采集，得到初始运行数据，并对所述初始运行数据进行标准化处理和主成分分析，得到目标运行数据；

构建模块，用于根据所述目标运行数据对预置的KNN算法进行K值计算和欧式距离计算，得到初始K值和初始欧式距离，并根据所述初始K值和所述初始欧式距离构建所述数据中心机房的初始KNN模型；

优化模块，用于通过预置的深度强化学习算法，根据预置的奖励函数对所述初始KNN模型进行模型超参数优化，得到目标K值以及目标欧式距离；

验证模块，用于根据所述目标K值以及所述目标欧式距离对所述初始KNN模型进行模型参数更新和交叉验证，得到目标KNN模型；

预测模块，用于对所述数据中心机房的服务器、冷却系统及电源进行实时运行状态分析，得到实时运行数据，并将所述实时运行数据输入所述目标KNN模型进行状态监控和故障预测，得到故障预测结果；

迭代模块，用于根据所述故障预测结果，对所述目标KNN模型进行性能评估，得到性能评估指标，并根据所述性能评估指标对所述目标KNN模型进行迭代更新，输出最优KNN模型。

本申请提供的技术方案中，通过标准化处理和主成分分析（PCA），方法能有效降低数据维度，同时保留关键信息。这不仅减少了计算资源的消耗，还提高了后续分析和模型训练的效率。利用KNN算法结合优化的K值和欧氏距离参数，能够更精确地预测和识别数据中心的运行状态，从而提高故障预测的准确性。通过深度强化学习算法优化KNN模型的超参数，使得模型能够自动适应不同的数据特征和变化，增强了模型在多变环境中的稳健性。实时运行状态分析和故障预测能力使得数据中心的运维管理更为及时和有效，能快速响应潜在的问题，减少系统停机时间，提高整体运维效率。通过性能评估指标和模型的迭代更新，该方法能够不断优化模型性能，适应数据中心环境和设备的变化，确保长期运行的可靠性和效率。自动化的数据采集、处理、模型训练和预测减少了对人工干预的依赖，降低了运维过程中的人为错误，提高了整体运维管理的安全性和可靠性，进而提高了数据中心机房的运维管理效率和准确率。

附图说明

图1为本申请实施例中基于人工智能的运维管理方法的一个实施例示意图；

图2为本申请实施例中基于人工智能的运维管理系统的一个实施例示意图。

具体实施方式

本申请实施例提供了一种基于人工智能的运维管理方法及系统，进而提高了数据中心机房的运维管理效率和准确率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本申请实施例的具体流程进行描述，请参阅图1，本申请实施例中基于人工智能的运维管理方法的一个实施例包括：

步骤101、对数据中心机房的服务器、冷却系统及电源进行运行数据采集，得到初始运行数据，并对初始运行数据进行标准化处理和主成分分析，得到目标运行数据；

可以理解的是，本申请的执行主体可以为基于人工智能的运维管理系统，还可以是终端或者服务器，具体此处不做限定。本申请实施例以服务器为执行主体为例进行说明。

具体的，首先，对数据中心机房内的服务器、冷却系统及电源进行运行数据采集，获取初始运行数据，包括温度、湿度、电流和电压等关键参数。这些数据有助于监控系统的稳定运行和故障预防。接着，对这些数据进行标准化处理。把每个数据点减去整体数据的平均值，然后再除以数据的标准差。从而消除数据之间的量纲和大小差异，使其更适合进行分析。接下来，对标准化后的数据进行线性变换，然后计算它们的协方差。对于每个数据点，计算其与平均值的差异，然后将这些差异相乘并求和，除以数据点的总数。这个过程有助于系统理解不同数据变量之间的相互关系。然后，进行协方差矩阵的特征值分解。找出一些特殊的向量，当数据被这些向量所映射时，映射后的数据值（即特征值）只与原数据点和特殊向量之间的关系有关。这有助于系统识别数据中的主要模式。最后，根据这些特征值和对应的特征向量，构建一个新的投影矩阵，并用它来映射标准化后的数据，得到系统的目标运行数据。将原始数据转换到一个新的空间，这个空间的基础是数据中最重要的特征。

步骤102、根据目标运行数据对预置的KNN算法进行K值计算和欧式距离计算，得到初始K值和初始欧式距离，并根据初始K值和初始欧式距离构建数据中心机房的初始KNN模型；

具体的，首先，对目标运行数据进行有效的数据集划分，将数据划分为训练数据集和验证数据集。确保模型在学习过程中能够有效地适应数据，同时也为模型的验证提供了基础。接下来，对预置的KNN算法进行模型训练，这里涉及到K值的计算。计算K值的方法是通过一个预置的K值选择函数，这个函数的作用是找到一个最佳的K值，使得模型在这个K值下对训练数据集的预测误差最小。这个误差是通过损失函数来计算的，损失函数衡量的是模型预测类别与样本真实类别之间的差异。选择最佳的K值就是在尝试找到一个平衡点，使得模型在这个K值下既能很好地捕捉数据的特性，又不会过度拟合。同时，为了构建初始的KNN模型，系统还需要对训练数据集进行欧式距离的计算。欧式距离是KNN算法中判断样本点之间相似度的关键指标，它通过计算样本点在每个特征维度上的差异的平方和的平方根来实现。通过计算欧式距离，系统量化样本之间的相似程度，这可以提升KNN算法的有效性。最后，综合考虑这些初始K值和初始欧式距离，系统构建数据中心机房的初始KNN模型。这个模型将基于训练数据集中的模式和关系来预测新数据点的类别。

步骤103、通过预置的深度强化学习算法，根据预置的奖励函数对初始KNN模型进行模型超参数优化，得到目标K值以及目标欧式距离；

需要说明的是，首先，根据初始K值和初始欧式距离来创建深度强化学习算法的状态空间和行动空间。状态空间指的是KNN模型处于的所有不同的参数配置，而行动空间则指的是系统采取的所有的调整措施，比如改变K值或调整欧式距离计算方式。为了优化模型的超参数，系统应用Q学习这一强化学习算法中的一种更新规则。这个规则是通过学习来不断更新系统对于在特定状态下采取某一行动所能得到的预期回报的估计。具体来说，这个更新过程涉及到考虑当前的回报以及未来得到的最大回报，并通过这些信息来调整系统对于当前行动效果的预期。这种方法可以帮助系统在保留已有知识的基础上，不断适应新的数据和环境。在优化过程中，系统还需要一个奖励函数来评估不同候选K值和欧式距离的效果。这个奖励函数的计算基于KNN模型的预测准确性，即正确预测的数量占总预测数量的比例。通过这个奖励函数，系统为每种候选的参数配置计算出一个奖励值，从而判断哪些配置更有带来更好的预测性能。最后，利用ε-greedy算法，系统在所有候选的超参数配置中进行搜索，以找到最优的配置。这个算法通过平衡探索（尝试新的或不太常见的配置）和利用（使用已知的、效果好的配置）来帮助系统在维持模型性能的同时，不断探索更多性。通过这种方式，系统能够最终确定目标K值和目标欧式距离，从而构建出更为精确和有效的KNN模型。

步骤104、根据目标K值以及目标欧式距离对初始KNN模型进行模型参数更新和交叉验证，得到目标KNN模型；

具体的，首先，根据确定的目标K值和欧式距离对初始的KNN模型进行参数更新，使模型更好地适应数据中心运维的实际情况，从而提高模型的预测精度和可靠性。接下来，对更新后的KNN模型进行交叉验证，这是一种评估模型泛化能力的方法。在交叉验证过程中，整个数据集被分成若干个子集，模型在这些子集上轮流进行训练和测试。这样，系统通过计算每一次测试的准确率来得到一个综合的交叉验证分数，这个分数反映了模型在不同数据子集上的表现情况。交叉验证分数的计算方法是将所有子集的准确率求和后平均，这个分数能够为系统提供关于模型整体性能的可靠信息。最后，根据得到的交叉验证分数和预先设定的验证分数阈值进行比较，这一比较结果将帮助系统判断更新后的KNN模型是否达到了预期的性能标准。如果交叉验证分数达到或超过了阈值，这意味着模型的性能是可接受的，此时系统将其确定为目标KNN模型。反之，如果交叉验证分数低于阈值，系统需要重新调整模型参数或考虑其他优化方法。

步骤105、对数据中心机房的服务器、冷却系统及电源进行实时运行状态分析，得到实时运行数据，并将实时运行数据输入目标KNN模型进行状态监控和故障预测，得到故障预测结果；

具体的，首先，对数据中心机房的关键组件进行实时运行状态分析，以收集实时运行数据。这些数据反映了服务器、冷却系统和电源的当前运行状况，包括温度、湿度、电流、电压等各种重要指标。这些实时数据是故障预测和状态监控的基础，它们提供了实时的、动态的系统运行信息。接着，将收集到的实时运行数据输入目标KNN模型中。这个模型已经经过了之前步骤中的优化和调整，因此具备了更高的准确性和适应性。在模型的帮助下，实时运行数据被用于进行状态监控，从而生成实时的预测结果。这些预测结果有助于及时识别的运行异常，它们可以帮助运维团队迅速响应潜在的问题。接下来，为了进一步提高预测结果的准确性和可靠性，系统采用基于预设的异常检测阈值的故障检测规则。这个规则的核心是判断实时预测结果是否超过了设定的异常检测阈值，如果超过，则标记为潜在的故障。由于数据中心的运行环境会随时间变化，仅靠固定的异常检测阈值不足以应对所有情况。因此，系统还引入了一个动态阈值调整函数，这个函数可以根据实时预测结果的变化动态调整异常检测阈值。这种动态调整是基于预测结果的统计特性，如均值和标准差进行的，它考虑了实时数据的波动和变化趋势，使得阈值更加灵活和适应性更强。最后，根据这个动态调整后的异常检测阈值，系统对初始的预测结果进行进一步的校验，以得到最终的故障预测结果。这一步骤是对整个预测过程的最后确认，确保了故障预测结果的准确性和可靠性。通过这样一系列的步骤，系统不仅能实时监控数据中心的运行状态，还能提前预测并防范潜在的故障，从而大大提高数据中心运维的效率和安全性。这种基于人工智能的运维管理方法能够帮助数据中心更好地应对复杂和不断变化的运维挑战，保证数据中心的高效稳定运行。

步骤106、根据故障预测结果，对目标KNN模型进行性能评估，得到性能评估指标，并根据性能评估指标对目标KNN模型进行迭代更新，输出最优KNN模型。

具体的，首先，基于故障预测结果来进行性能评估，确保模型能够准确反映数据中心机房的实际运行状态及出现的问题。性能评估的关键在于通过预置的评估函数来计算模型的准确率。系统采用一个常用的分类性能评估指标，即通过计算真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN）的比例来评估模型的准确性。具体来说，模型准确率的计算是将正确预测的结果（无论是正类还是负类）除以所有预测的结果。这个准确率不仅反映了模型正确识别故障的能力，也考虑了模型避免误报的能力，因此是一个全面评价模型性能的指标。接下来，对模型参数进行调整。这一过程是基于当前模型性能的评估结果，采取相应的策略来优化模型的参数。参数调整的方法是通过计算损失函数相对于模型参数的梯度，并结合一个预设的学习率来更新模型参数。梯度的计算是为了确定参数应该如何调整以减少预测错误，而学习率则控制了参数调整的幅度。通过这种方式，模型的新参数将更好地适应数据，提高模型的预测准确性。随后，进行模型的迭代更新。系统将使用新的模型参数对KNN模型进行再次训练，这通常涉及到使用新的数据集或在原有数据集上进行进一步的训练。这种迭代更新的目的是使模型不断适应新的数据和环境，从而提高其泛化能力。在每次迭代过程中，系统都会使用之前定义的性能评估方法来评估模型的准确率，并根据评估结果调整模型参数，这样的过程将重复进行，直到模型的性能达到一个满意的水平。整个过程是一个动态的、不断进化的过程。通过对模型进行持续的评估和更新，系统能够确保KNN模型始终保持最佳状态，有效地适应数据中心运维的需求。这种基于实时数据和连续学习的方法可以显著提高故障预测的准确性，从而为数据中心的高效稳定运行提供强有力的技术支持。

本申请实施例中，通过标准化处理和主成分分析（PCA），方法能有效降低数据维度，同时保留关键信息。这不仅减少了计算资源的消耗，还提高了后续分析和模型训练的效率。利用KNN算法结合优化的K值和欧氏距离参数，能够更精确地预测和识别数据中心的运行状态，从而提高故障预测的准确性。通过深度强化学习算法优化KNN模型的超参数，使得模型能够自动适应不同的数据特征和变化，增强了模型在多变环境中的稳健性。实时运行状态分析和故障预测能力使得数据中心的运维管理更为及时和有效，能快速响应潜在的问题，减少系统停机时间，提高整体运维效率。通过性能评估指标和模型的迭代更新，该方法能够不断优化模型性能，适应数据中心环境和设备的变化，确保长期运行的可靠性和效率。自动化的数据采集、处理、模型训练和预测减少了对人工干预的依赖，降低了运维过程中的人为错误，提高了整体运维管理的安全性和可靠性，进而提高了数据中心机房的运维管理效率和准确率。

在一具体实施例中，执行步骤101的过程可以具体包括如下步骤：

（1）对数据中心机房的服务器、冷却系统及电源进行运行数据采集，得到初始运行数据，初始运行数据包括温度数据、湿度数据、电流数据及电压数据；

（2）通过预置的标准化函数，对初始运行数据进行标准化处理，得到标准运行数据，标准化函数为：，X表示初始运行数据，/>表示均值，/>表示标准差；

（3）对标准运行数据进行线性变换，得到线性运行数据，并对线性运行数据进行协方差矩阵计算，得到协方差矩阵，协方差矩阵为：，/>表示协方差矩阵，N表示样本数量，/>表示均值，X_i表示第i个线性运行数据的数据点；

（4）对协方差矩阵进行特征值分解，得到多个特征值以及每个特征值对应的特征向量，其中，特征值分解为：，/>表示协方差矩阵，V表示特征向量，/>表示特征值矩阵；

（5）根据多个特征值以及每个特征值对应的特征向量构建对应的投影矩阵，并根据投影矩阵对线性运行数据进行数据映射，得到目标运行数据。

具体的，首先，从数据中心机房的服务器、冷却系统及电源中收集初始运行数据，包括但不限于温度数据、湿度数据、电流数据及电压数据。这些数据提供了对设备运行状况的直观反映，是后续分析的基础。例如，服务器的温度数据可以反映其散热效率和运行负荷，电流和电压数据则可以揭示电源系统的稳定性和效率。接下来，通过预置的标准化函数，对初始运行数据进行标准化处理，消除数据在量纲和大小上的差异，使其更适合于后续的分析和处理。标准化处理是对每个数据点减去整体数据的平均值，然后除以数据的标准差。这样的处理不仅减少了不同设备和传感器之间的差异，也使得数据更加标准化和一致。例如，当系统收集到不同服务器的温度数据时，由于它们位于不同的位置或有不同的运行负荷，它们的温度读数会有很大差异。通过标准化处理，系统能够将这些读数转换到一个统一的尺度上，使得它们之间可以公平比较。接下来，对标准化后的数据进行线性变换，将数据转换到一个适合进行协方差分析的形式。线性变换后的数据可以更好地反映不同变量之间的线性关系，为后续分析提供了基础。例如，系统通过线性变换来观察温度和电流之间是否存在某种线性关系，从而揭示设备运行状况的内在联系。随后，对线性变换后的数据进行协方差矩阵的计算。协方差矩阵是一种表达变量间相互关系的重要工具，它可以揭示不同运行数据之间的相关性。计算协方差矩阵是通过对每个数据点与平均值的差异进行平方和运算，并将结果累加得到。这个过程实际上是在寻找不同数据之间的共变关系，比如，温度上升时，电流是否也有相应的变化。接着，系统对协方差矩阵进行特征值分解。从协方差矩阵中提取出最重要的信息，即数据的主要变化方向。特征值分解的结果是多个特征值及其对应的特征向量，每个特征值代表了数据在特定方向上的变化量，而特征向量则指明了这些变化的方向。例如，一个较大的特征值表明在某个方向上（比如温度和湿度的组合）数据变化最显著，而对应的特征向量则告诉系统这种变化的具体方向。最后，基于这些特征值和特征向量构建投影矩阵，并利用这个矩阵对线性运行数据进行映射，从而得到目标运行数据。将原始数据投影到一个新的空间，这个空间由数据的主要变化方向构成。通过这种方式，系统从大量复杂的运行数据中提取出最关键的信息，为进一步的数据分析和模型构建提供了有价值的输入。例如，通过这种数据映射，系统会发现某些看似无关的运行指标实际上密切相关，从而为数据中心的运维管理提供了新的洞察。

在一具体实施例中，执行步骤102的过程可以具体包括如下步骤：

（1）对目标运行数据进行数据集划分，得到训练数据集以及验证数据集；

（2）根据训练数据集，对预置的KNN算法进行模型训练，并根据预置的K值选择函数计算KNN算法的初始K值，K值选择函数为：，K表示K值，L表示损失函数，/>表示样本i的真实类别，/>表示基于K值为k时样本i的预测类别；

（3）根据训练数据集，对KNN算法进行欧式距离计算，得到初始欧式距离，其中，欧氏距离计算为：，/>表示样本点，n表示特征数量，/>表示样本点在第i个特征的值；

（4）根据初始K值和初始欧式距离构建数据中心机房的初始KNN模型。

具体的，首先，对目标运行数据进行数据集划分，得到训练数据集以及验证数据集。这个划分过程确定了模型将在哪些数据上进行学习（训练数据集），以及在哪些独立的数据上验证其性能（验证数据集）。随后，系统使用训练数据集对预置的KNN算法进行模型训练。这里的关键是确定K值，即在KNN算法中考虑的最近邻的数量。K值的选择对模型的性能有重要影响。系统利用一个K值选择函数来确定最佳的K值。这个函数的目标是最小化模型在不同K值下的总损失，损失函数可以是实际类别和预测类别之间的差异。例如，如果系统在处理温度数据时，发现K值为3时模型的总损失最小，那么系统将选择3作为KNN模型的K值。接着，系统对KNN算法进行欧式距离的计算。欧式距离是用来衡量不同样本点之间相似度的一种方法，它是通过计算两个样本点在每个特征维度上的差异的平方和的平方根来实现的。在数据中心机房的环境中，这意味着系统将比较每台服务器的运行数据（如温度、湿度等）与其他服务器的相似程度。例如，系统计算一台特定服务器的温度与所有其他服务器温度的欧式距离，以此来识别出运行状况相似的服务器。接下来，构建数据中心机房的初始KNN模型。这个模型将基于系统之前确定的K值和计算的欧式距离来预测新的样本数据的类别或状态。例如，当一个新的温度读数被输入到模型中时，模型将查找与这个读数最相似的K个服务器，并基于这些服务器的状态来预测新服务器的状态。

在一具体实施例中，执行步骤103的过程可以具体包括如下步骤：

（1）根据初始K值和初始欧式距离创建预置深度强化学习算法的状态空间和行动空间；

（2）通过预置的Q学习更新规则，对初始KNN模型进行模型超参数优化，生成多个候选K值以及多个候选欧式距离，Q学习更新规则为：

，/>表示在状态s下采取行动/>的预期回报，/>学习率，r即时奖励，/>折扣因子/>表示下一个状态和行动；

（3）通过预置的奖励函数，对多个候选K值以及多个候选欧式距离进行奖励值计算，得到对应的多个奖励值，奖励函数为：，R表示奖励值；

（4）根据多个奖励值，采用算法对初始KNN模型进行模型超参数最优化搜索，得到目标K值以及目标欧式距离。

具体的，首先，根据初始K值和初始欧式距离创建预置深度强化学习算法的状态空间和行动空间。状态空间为模型存在的所有不同参数配置的集合，而行动空间则定义了系统采取的所有的调整措施，比如改变K值或调整欧式距离的计算方式。接下来，系统利用深度强化学习算法中的Q学习更新规则对KNN模型进行超参数优化。在Q学习中，每个行动的预期回报（Q值）会根据一个特定的公式进行更新。这个更新包括当前的奖励加上对未来奖励的预期，其中涉及到学习率（α）、折扣因子（γ）以及即时奖励（r）。通过这种方式，算法能够在探索（尝试新的或不常见的配置）和利用（使用已知的、效果好的配置）之间找到平衡。例如，在处理服务器的温度监控数据时，系统发现在某个特定的K值和欧式距离配置下，模型能够更准确地预测温度的异常变化。在这种情况下，Q学习将会增加在这种配置下采取行动的预期回报值，从而鼓励算法在未来的学习中更倾向于这种配置。接下来，通过预置的奖励函数来计算不同配置的奖励值。这个奖励函数可以基于模型在特定参数配置下的预测准确性，比如，可以使用正确预测的数量除以总预测数量来计算奖励值。这种基于性能的奖励函数能够直观地反映出不同配置的效用，为系统提供了选择最佳参数配置的依据。最后，系统采用ε-greedy算法来进行模型超参数的最优化搜索。这种方法结合了探索和利用两种策略：它允许算法在大部分时间里选择当前估计最优的参数配置（利用），同时也给予一定的机会去尝试其他的配置（探索）。例如，如果系统在处理电源数据时，算法发现在当前最优的K值和欧式距离配置之外，还有其他未被充分探索的配置会带来更好的预测效果。通过ε-greedy算法，系统确保这些潜在有效的配置也能得到尝试。

在一具体实施例中，执行步骤104的过程可以具体包括如下步骤：

（1）根据目标K值以及目标欧式距离对初始KNN模型进行模型参数更新，得到参数更新后的KNN模型；

（2）通过验证数据集，对参数更新后的KNN模型进行交叉验证，得到交叉验证分数，其中，交叉验证分数函数为：，/>表示交叉验证分数，k表示折数，Accuracy_foldi表示第i折的准确率；

（3）对交叉验证分数和预置的验证分数阈值进行比较，得到目标比较结果，并根据目标比较结果将参数更新后的KNN模型作为对应的目标KNN模型。

具体的，首先，根据目标K值和目标欧式距离对初始KNN模型进行参数更新。这个更新过程的目的是调整模型，使其更好地适应数据中心机房的实际运行状态。例如，如果系统发现在处理服务器温度监控数据时，一个特定的K值和欧式距离能够更准确地预测温度异常，那么系统会将这些值作为模型的新参数。更新模型参数后，通过验证数据集对更新后的KNN模型进行交叉验证。交叉验证是一种常用的模型评估方法，它通过将数据集分成多个小部分（称为“折”），在这些不同的子集上轮流训练和测试模型来评估其性能。例如，系统将收集到的电源电压数据分为五部分，使用其中的四部分来训练模型，然后用剩下的一部分来测试模型。重复这个过程五次，每次都更换用于测试的数据部分，从而得到五个不同的准确率分数。这些准确率分数随后被用来计算交叉验证分数，这是一个衡量模型整体性能的重要指标。交叉验证分数的计算方法是将所有的准确率分数加起来，然后除以折数。例如，如果在五折交叉验证中，系统得到的准确率分数分别是80%，85%，90%，75%和80%，那么交叉验证分数就是这些数值的平均，即82%。这个分数为系统提供了一个全面的、基于多个测试集的模型性能评估。最后，系统将这个交叉验证分数与预设的验证分数阈值进行比较。这个阈值是根据数据中心运维的具体需求和预期性能标准设定的。例如，系统预先决定任何低于85%准确率的模型都不符合系统的要求。如果交叉验证分数达到或超过这个阈值，这意味着模型的性能是可以接受的。如果低于这个阈值，系统需要重新调整模型参数或者考虑其他模型和方法。

在一具体实施例中，执行步骤105的过程可以具体包括如下步骤：

（1）对数据中心机房的服务器、冷却系统及电源进行实时运行状态分析，得到实时运行数据；

（2）将实时运行数据输入目标KNN模型进行状态监控，得到实时预测结果；

（3）基于预设的异常检测阈值，对实时预测结果进行故障检测，得到初始预测结果，其中，故障检测规则为：，Anomaly_t表示初始预测结果，Threshold表示异常检测阈値，/>表示时刻t的预测结果；

（4）通过预置的动态阈值调整函数，对异常检测阈值进行动态调整，得到动态调整后的异常检测阈值，动态阈值调整函数为，Threshold_t表示动态调整后的异常检测阈值，/>表示预测值的均值，/>预测值的标准差，K表示目标K值；

（5）根据动态调整后的异常检测阈值，对初始预测结果进行故障结果校验，得到故障预测结果。

具体的，首先，对数据中心机房的服务器、冷却系统及电源进行实时运行状态分析，得到实时运行数据。这些数据包括服务器的温度、湿度、电流、电压等关键指标，这些指标能够反映出设备的即时运行状况和的异常情况。例如，假设系统监测到某台服务器的温度突然升高，这是过热或系统故障的迹象。为了更准确地分析这些实时数据，系统将其输入到预先训练好的目标KNN模型中。这个模型基于历史数据学习得到的模式和关系，能够对新的数据进行有效的状态监测和预测。通过这种方式，系统及时发现和识别潜在的故障或异常状态，如预测该服务器是否即将出现故障。随后，基于预设的异常检测阈值，系统对模型的实时预测结果进行故障检测。异常检测规则定义了何种情况下的预测结果应被视为异常或潜在的故障。例如，如果设定的阈值是服务器温度的上限，当预测的温度超过这个阈值时，系统就会标记为异常状态，这种情况通常需要立即的关注和进一步的检查。由于数据中心环境的复杂性和多变性，固定的异常检测阈值不足以应对所有情况。因此，采用一个动态阈值调整函数，能够根据最近的预测结果自动调整阈值。这个函数考虑了预测值的均值和标准差，并结合一个因子K进行调整。例如，如果系统观察到最近的温度预测值普遍高于历史均值，系统会提高异常检测的温度阈值，以适应的环境变化或设备状况变化。最后，根据这个动态调整后的异常检测阈值，系统对初始的预测结果进行进一步的校验，确保故障预测的准确性和可靠性。通过这种方式，系统不仅能够实时监控数据中心的运行状态，还能基于动态和智能的方法提前预测并预防潜在的故障，从而大大提高数据中心的运维效率和系统稳定性。例如，假设系统的系统检测到某台服务器的温度连续几次预测都接近但未超过阈值，系统会根据这些连续的接近阈值的情况，自动调整阈值来更加敏感地响应的问题。这种动态调整使得系统在保持高灵敏度的同时，也避免了过于频繁的误报。

在一具体实施例中，执行步骤106的过程可以具体包括如下步骤：

（1）根据故障预测结果，并通过预置的性能评估函数对目标KNN模型进行模型准确率计算，得到性能评估指标，其中，性能评估函数为：，Accuracy表示性能评估指标，TP表示真阳性，TN表示真阴性，FP表示假阳性，FN表示假阴性；

（2）根据性能评估指标，对目标KNN模型进行模型参数调整，得到目标KNN模型的新模型参数，模型参数调整为：，/>分别表示目标KNN模型的新模型参数和旧模型参数，/>表示学习率，/>表示损失函数相对于参数的梯度；

（3）根据目标KNN模型的新模型参数，对目标KNN模型进行迭代更新，输出最优KNN模型，其中，迭代更新为：，/>表示下一迭代的模型参数，Update表示模型更新函数，Data表示新的数据集。

具体的，首先，根据故障预测结果，并通过预置的性能评估函数对目标KNN模型进行模型准确率计算。性能评估主要依赖于一个预设的性能评估函数，通常是准确率的计算公式。这个准确率是通过计算真阳性（TP，即模型正确预测的正例数）、真阴性（TN，即模型正确预测的负例数）、假阳性（FP，即模型错误预测的正例数）和假阴性（FN，即模型错误预测的负例数）的比例来实现的。例如，如果系统的KNN模型用于预测数据中心机房中服务器的故障，那么真阳性代表模型正确识别出的故障服务器，而假阳性则是模型错误标记为故障的正常服务器。通过计算这些指标，系统得到模型的整体准确率，这是评价模型性能的一个重要指标。准确率越高，意味着模型在预测故障方面的性能越好。单纯依赖准确率不足以全面评估模型性能，因此系统也需要考虑其他指标，如召回率、精确率等，以获得更全面的性能评估。在评估了模型性能之后，对模型参数进行调整。确定新的模型参数，使得模型在未来的预测中能够表现得更好。参数调整通常是基于模型的损失函数来进行的。损失函数是一个衡量模型预测错误程度的函数，系统的目标是最小化这个损失函数。参数调整的过程可以通过计算损失函数相对于模型参数的梯度，然后根据这个梯度以及一个预设的学习率来更新参数。例如，如果系统发现减小K值能够减少模型的损失，那么系统会调整K值，使其更小。接着，系统对模型进行迭代更新。这个过程通常涉及到使用新的或者更新过的数据集对模型进行进一步的训练，以确保模型能够适应最新的数据。迭代更新使模型能够不断适应新的数据和环境，从而保持其性能。例如，如果数据中心的运行环境发生了变化，或者新增了新的服务器类型，系统需要使用最新的数据对模型进行更新，以确保模型仍然有效。

上面对本申请实施例中基于人工智能的运维管理方法进行了描述，下面对本申请实施例中基于人工智能的运维管理系统进行描述，请参阅图2，本申请实施例中基于人工智能的运维管理系统一个实施例包括：

采集模块201，用于对数据中心机房的服务器、冷却系统及电源进行运行数据采集，得到初始运行数据，并对所述初始运行数据进行标准化处理和主成分分析，得到目标运行数据；

构建模块202，用于根据所述目标运行数据对预置的KNN算法进行K值计算和欧式距离计算，得到初始K值和初始欧式距离，并根据所述初始K值和所述初始欧式距离构建所述数据中心机房的初始KNN模型；

优化模块203，用于通过预置的深度强化学习算法，根据预置的奖励函数对所述初始KNN模型进行模型超参数优化，得到目标K值以及目标欧式距离；

验证模块204，用于根据所述目标K值以及所述目标欧式距离对所述初始KNN模型进行模型参数更新和交叉验证，得到目标KNN模型；

预测模块205，用于对所述数据中心机房的服务器、冷却系统及电源进行实时运行状态分析，得到实时运行数据，并将所述实时运行数据输入所述目标KNN模型进行状态监控和故障预测，得到故障预测结果；

迭代模块206，用于根据所述故障预测结果，对所述目标KNN模型进行性能评估，得到性能评估指标，并根据所述性能评估指标对所述目标KNN模型进行迭代更新，输出最优KNN模型。

通过上述各个组成部分的协同合作，通过标准化处理和主成分分析（PCA），方法能有效降低数据维度，同时保留关键信息。这不仅减少了计算资源的消耗，还提高了后续分析和模型训练的效率。利用KNN算法结合优化的K值和欧氏距离参数，能够更精确地预测和识别数据中心的运行状态，从而提高故障预测的准确性。通过深度强化学习算法优化KNN模型的超参数，使得模型能够自动适应不同的数据特征和变化，增强了模型在多变环境中的稳健性。实时运行状态分析和故障预测能力使得数据中心的运维管理更为及时和有效，能快速响应潜在的问题，减少系统停机时间，提高整体运维效率。通过性能评估指标和模型的迭代更新，该方法能够不断优化模型性能，适应数据中心环境和设备的变化，确保长期运行的可靠性和效率。自动化的数据采集、处理、模型训练和预测减少了对人工干预的依赖，降低了运维过程中的人为错误，提高了整体运维管理的安全性和可靠性，进而提高了数据中心机房的运维管理效率和准确率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的运维管理方法，其特征在于，所述基于人工智能的运维管理方法包括：

2.根据权利要求1所述的基于人工智能的运维管理方法，其特征在于，所述对数据中心机房的服务器、冷却系统及电源进行运行数据采集，得到初始运行数据，并对所述初始运行数据进行标准化处理和主成分分析，得到目标运行数据，包括：

对数据中心机房的服务器、冷却系统及电源进行运行数据采集，得到初始运行数据，所述初始运行数据包括温度数据、湿度数据、电流数据及电压数据；

通过预置的标准化函数，对所述初始运行数据进行标准化处理，得到标准运行数据，所述标准化函数为：，/>表示初始运行数据，/>表示均值，/>表示标准差；

对所述标准运行数据进行线性变换，得到线性运行数据，并对所述线性运行数据进行协方差矩阵计算，得到协方差矩阵，所述协方差矩阵为：，/>表示协方差矩阵，N表示样本数量，/>表示均值，X_i表示第i个线性运行数据的数据点；

对所述协方差矩阵进行特征值分解，得到多个特征值以及每个特征值对应的特征向量，其中，特征值分解为：，/>表示协方差矩阵，V表示特征向量，/>表示特征值矩阵；

根据所述多个特征值以及每个特征值对应的特征向量构建对应的投影矩阵，并根据所述投影矩阵对所述线性运行数据进行数据映射，得到目标运行数据。

3.根据权利要求1所述的基于人工智能的运维管理方法，其特征在于，所述根据所述目标运行数据对预置的KNN算法进行K值计算和欧式距离计算，得到初始K值和初始欧式距离，并根据所述初始K值和所述初始欧式距离构建所述数据中心机房的初始KNN模型，包括：

对所述目标运行数据进行数据集划分，得到训练数据集以及验证数据集；

根据所述训练数据集，对预置的KNN算法进行模型训练，并根据预置的K值选择函数计算所述KNN算法的初始K值，所述K值选择函数为：，K表示K值，表示损失函数，/>表示样本/>的真实类别，/>表示基于K值为k时样本/>的预测类别；

根据所述训练数据集，对所述KNN算法进行欧式距离计算，得到初始欧式距离，其中，欧氏距离计算为：，/>表示样本点，/>表示特征数量，/>表示样本点在第/>个特征的值；

根据所述初始K值和所述初始欧式距离构建所述数据中心机房的初始KNN模型。

4.根据权利要求3所述的基于人工智能的运维管理方法，其特征在于，所述通过预置的深度强化学习算法，根据预置的奖励函数对所述初始KNN模型进行模型超参数优化，得到目标K值以及目标欧式距离，包括：

根据所述初始K值和所述初始欧式距离创建预置深度强化学习算法的状态空间和行动空间；

通过预置的Q学习更新规则，对所述初始KNN模型进行模型超参数优化，生成多个候选K值以及多个候选欧式距离，所述Q学习更新规则为：

，/>表示在状态/>下采取行动/>的预期回报，/>表示学习率，/>表示即时奖励，/>表示折扣因子，/>表示下一个状态和行动；

通过预置的奖励函数，对所述多个候选K值以及所述多个候选欧式距离进行奖励值计算，得到对应的多个奖励值，所述奖励函数为：，R表示奖励值；

根据所述多个奖励值，采用算法对所述初始KNN模型进行模型超参数最优化搜索，得到目标K值以及目标欧式距离。

5.根据权利要求3所述的基于人工智能的运维管理方法，其特征在于，所述根据所述目标K值以及所述目标欧式距离对所述初始KNN模型进行模型参数更新和交叉验证，得到目标KNN模型，包括：

根据所述目标K值以及所述目标欧式距离对所述初始KNN模型进行模型参数更新，得到参数更新后的KNN模型；

通过所述验证数据集，对所述参数更新后的KNN模型进行交叉验证，得到交叉验证分数，其中，交叉验证分数函数为：，/>表示交叉验证分数，k表示折数，Accuracy_foldi表示第/>折的准确率；

对所述交叉验证分数和预置的验证分数阈值进行比较，得到目标比较结果，并根据所述目标比较结果将所述参数更新后的KNN模型作为对应的目标KNN模型。

6.根据权利要求1所述的基于人工智能的运维管理方法，其特征在于，所述对所述数据中心机房的服务器、冷却系统及电源进行实时运行状态分析，得到实时运行数据，并将所述实时运行数据输入所述目标KNN模型进行状态监控和故障预测，得到故障预测结果，包括：

对所述数据中心机房的服务器、冷却系统及电源进行实时运行状态分析，得到实时运行数据；

将所述实时运行数据输入所述目标KNN模型进行状态监控，得到实时预测结果；

基于预设的异常检测阈值，对所述实时预测结果进行故障检测，得到初始预测结果，其中，故障检测规则为：，Anomaly_t表示初始预测结果，Threshold表示异常检测阈値，/>表示时刻t的预测结果；

通过预置的动态阈值调整函数，对所述异常检测阈值进行动态调整，得到动态调整后的异常检测阈值，所述动态阈值调整函数为，Threshold_t表示动态调整后的异常检测阈值，/>表示预测值的均值，/>表示预测值的标准差，K表示目标K值；

根据所述动态调整后的异常检测阈值，对所述初始预测结果进行故障结果校验，得到故障预测结果。

7.根据权利要求1所述的基于人工智能的运维管理方法，其特征在于，所述根据所述故障预测结果，对所述目标KNN模型进行性能评估，得到性能评估指标，并根据所述性能评估指标对所述目标KNN模型进行迭代更新，输出最优KNN模型，包括：

根据所述故障预测结果，并通过预置的性能评估函数对所述目标KNN模型进行模型准确率计算，得到性能评估指标，其中，性能评估函数为：，Accuracy表示性能评估指标，TP表示真阳性，TN表示真阴性，FP表示假阳性，FN表示假阴性；

根据所述性能评估指标，对所述目标KNN模型进行模型参数调整，得到目标KNN模型的新模型参数，所述模型参数调整为：，/>分别表示目标KNN模型的新模型参数和旧模型参数，/>表示学习率，/>表示损失函数相对于参数的梯度；

根据所述目标KNN模型的新模型参数，对所述目标KNN模型进行迭代更新，输出最优KNN模型，其中，迭代更新为：，/>表示下一迭代的模型参数，Update表示模型更新函数，Data表示新的数据集。

8.一种基于人工智能的运维管理系统，其特征在于，所述基于人工智能的运维管理系统包括：