CN115879783A

CN115879783A - 关键绩效指标异常检测方法和装置、电子设备及存储介质

Info

Publication number: CN115879783A
Application number: CN202111148413.0A
Authority: CN
Inventors: 陈晓鸿; 张晓民; 黄华新; 黄伟文; 杨莹; 曾晓宇; 阮浚杰; 许苏柏; 董灿佳; 罗朝彤; 薛蓉蓉; 陈庆
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2023-03-31

Abstract

本发明提供一种关键绩效指标异常检测方法和装置、电子设备及存储介质，其中所述方法包括：基于输入的关键绩效指标，将强化学习模型中的智能体与环境进行交互，进行强化学习训练，得到训练好的强化学习模型；将待检测关键绩效指标输入训练好的强化学习模型，得到待检测关键绩效指标是否异常的检测结果；进行强化学习训练包括：将输入的关键绩效指标输入智能体中，输出所述输入的关键绩效指标是否异常的第一判定结果；利用环境输出所述输入的关键绩效指标是否异常的第二判定结果；对第一判定结果与第二判定结果进行比较，若比较结果为一致，给予智能体正奖励；若比较结果为不一致，则给予智能体负奖励。本发明能够实现自成长，提升准确率与灵活性。

Description

关键绩效指标异常检测方法和装置、电子设备及存储介质

技术领域

本发明涉及指标异常检测领域，尤其涉及一种关键绩效指标异常检测方法和装置、电子设备及存储介质。

背景技术

随着信息技术的高速发展，数据采集与存储能力日益强大，各大企业开始重视数据的收集，在通信、互联网、金融等领域的大公司都积累了大量的关键绩效指标数据，如中央处理器使用率、内存占用率、在线用户数等等，如何更好的检查此类数据的变化趋势与异常成为了智慧运维领域的持续研究课题。此类数据基本都是随时间变化的时间序列，且存在数据量大，异常数据占比低、信噪比低、难以标注等问题，在实际项目实施过程中，现有的异常检测技术使用基于统计分析的无监督检测方法，往往假设历史训练数据是不包含异常数据，并且是服从某种分布的。这种无监督检测方法存在如下缺陷：如果实际的关键绩效指标数据本身或者特征工程的特征数据与原假设不符合，就会造成模型推理的准确度和召回率下降；在持续训练的过程中容易将历史出现大范围异常数据作为正常数据进行学习，获得错误的分布模型，进一步降低了检测的准确度。

上述现有方案存在的问题是，基于无监督的关键绩效指标异常检测准确度低。

发明内容

本发明提供一种关键绩效指标异常检测方法，包括：

基于输入的关键绩效指标，将强化学习模型中的智能体与环境进行交互，进行强化学习训练，得到训练好的强化学习模型；

将待检测关键绩效指标输入所述训练好的强化学习模型，得到所述待检测关键绩效指标是否异常的检测结果；

其中，所述基于输入的关键绩效指标，将强化学习模型中的智能体与环境进行交互，进行强化学习训练，包括：

将输入的关键绩效指标输入所述智能体中，输出所述输入的关键绩效指标是否异常的第一判定结果；

利用所述环境对系统的业务黄金指标、系统日志、系统Trace日志、以及所述输入的关键绩效指标进行检测，输出所述输入的关键绩效指标是否异常的第二判定结果；

对所述第一判定结果与第二判定结果进行比较，若比较结果为一致，则给予所述智能体正奖励；若比较结果为不一致，则给予所述智能体负奖励。

根据本发明所述的关键绩效指标异常检测方法，其中，所述将输入的关键绩效指标输入所述智能体中，输出所述输入的关键绩效指标是否异常的第一判定结果，包括：

将输入的关键绩效指标输入所述智能体中，生成所述待检测关键绩效指标的第一异常概率；将第一异常概率小于预设的检测灵敏度所对应的关键绩效指标作为正常值，将第一异常概率不小于预设的检测灵敏度所对应的关键绩效指标作为异常值；输出所述输入的关键绩效指标是否异常的第一判定结果。

根据本发明所述的关键绩效指标异常检测方法，其中，所述利用所述环境对系统的业务黄金指标、系统日志、系统Trace日志、以及所述输入的关键绩效指标进行检测，输出所述输入的关键绩效指标是否异常的第二判定结果，包括：

利用所述环境对系统的业务黄金指标、系统日志、系统Trace日志、以及所述输入的关键绩效指标进行检测，检测出所述待检测关键绩效指标的第二异常概率；将第二异常概率小于预设的反馈灵敏度所对应的关键绩效指标作为正常值，将第二异常概率不小于预设的反馈灵敏度所对应的关键绩效指标作为异常值；输出所述输入的关键绩效指标是否异常的第二判定结果。

根据本发明所述的关键绩效指标异常检测方法，其中，所述利用所述环境对系统的业务黄金指标、系统日志、系统Trace日志、以及所述输入的关键绩效指标进行检测，检测出所述待检测关键绩效指标的第二异常概率，包括：

利用所述环境对系统的业务黄金指标、系统日志、系统Trace日志、以及所述输入的关键绩效指标进行检测；

从KPI变化度检测、KPI异常模式检测、日志易异常检测、Trace异常检测的结果后分别给出所述输入的关键绩效指标是异常值的概率，结合运维知识图谱的专家经验对各个检测方式给出的是异常值的概率进行加权，加权调和后获得第二异常概率。

根据本发明所述的关键绩效指标异常检测方法，其中，所述将输入的关键绩效指标输入所述智能体中，生成所述待检测关键绩效指标的第一异常概率，包括：

将输入的关键绩效指标输入所述智能体中，利用所述智能体中的特征工程模块，使用滑动窗口对关键绩效指标进行处理，统计滑动窗口内的均值、中位数、累加和、最大值、最小值、分位数、方差、标准差、偏度、峰度、直方图作为关键绩效指标异常检测的输入特征，基于所述关键绩效指标异常检测的输入特征，生成所述待检测关键绩效指标的第一异常概率。

根据本发明所述的关键绩效指标异常检测方法，其中，所述对所述第一判定结果与第二判定结果进行比较，若比较结果为一致，则给予所述智能体正奖励；若比较结果为不一致，则给予所述智能体负奖励，包括利用以下公式作为奖励方法：

其中，e_t是s_t时刻环境对所述关键绩效指标的第二判定结果；D_P是训练样本为环境检测为异常的样本，D_N是环境检测为正常的样本；λ为对于正常的关键绩效指标的判断的正奖励，-λ为对于正常的关键绩效指标的判断的负奖励，λ的取值范围以[0,1]。

根据本发明所述的关键绩效指标异常检测方法，其中，所述进行强化学习训练，包括：

通过所述智能体中的DQN网络学习最优的检测策略；所述智能体在DQN网络的损失函数L(θ_k)上执行梯度下降的学习策略：

其中，所述y是对关键绩效指标检测结果的推理，y的表达为：

将所述智能体与环境的交互数据(s,a,r,s’)存储在内存中，在训练所述DQN网络时，所述智能体从所述内存中随机采样状态转移数据在损失函数上进行梯度随机下降；

则所述DQN网络的损失函数的导数的表示为：

通过最小化所述DQN网络的损失函数，以获得最大的累积奖励，获得DQN网络最优的检测策略。

本发明还提供了一种关键绩效指标异常检测装置，包括：

强化学习模型训练模块，用于基于输入的关键绩效指标，将强化学习模型中的智能体与环境进行交互，进行强化学习训练，得到训练好的强化学习模型；

异常检测模块，用于将待检测关键绩效指标输入所述训练好的强化学习模型，得到所述待检测关键绩效指标是否异常的检测结果；

其中，所述强化学习模型训练模块包括：

第一判定单元，用于将输入的关键绩效指标输入所述智能体中，输出所述输入的关键绩效指标是否异常的第一判定结果；

第二判定单元，用于利用所述环境对系统的业务黄金指标、系统日志、系统Trace日志、以及所述输入的关键绩效指标进行检测，输出所述输入的关键绩效指标是否异常的第二判定结果；

奖励单元，用于对所述第一判定结果与第二判定结果进行比较，若比较结果为一致，则给予所述智能体正奖励；若比较结果为不一致，则给予所述智能体负奖励。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述关键绩效指标异常检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述关键绩效指标异常检测方法的步骤。

本发明通过将强化学习模型中的智能体与环境进行交互，进行强化学习训练，将待检测关键绩效指标输入所述训练好的强化学习模型，得到所述待检测关键绩效指标是否异常的检测结果，其中强化学习模型是利用智能体得到的异常判定结果与环境得到的异常判定结果进行比较和优化，是一种无监督学习方法。本发明是一种支持自成长的KPI异常检测方法，通过引入强化学习模型，将批量学习改为在线学习，让模型支持持续优化，再引入自动打分机制对模型推测结果进行判分，将专家经验与行业积累转化成自动化评分体制，实时反馈判分结果，推动模型持续优化，实现自成长，最终大幅提升异常检测的准确率与灵活性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的关键绩效指标异常检测方法的流程示意图；

图2是本发明提供的关键绩效指标异常检测方法中的模型训练策略示意图；

图3是本发明提供的关键绩效指标异常检测装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明的一种关键绩效指标异常检测方法，该方法包括：

S1、基于输入的关键绩效指标，将强化学习模型中的智能体与环境进行交互，进行强化学习训练，得到训练好的强化学习模型；

S2、将待检测关键绩效指标输入所述训练好的强化学习模型，得到所述待检测关键绩效指标是否异常的检测结果；

在实际的生产系统中，不单单对系统部署KPI指标监控，还部署了日志系统和调用链系统。当系统发生异常时，运维人员通过查看日志数据或者调用链Trace数据进行异常根因确认。同时运维人员积累的丰富的异常形式判定的知识图谱，也可以快速检测KPI指标数据中的异常数据。如果可以模拟运维人员进行故障处理的知识图谱，通过运维人员的异常判定知识图谱、系统的日志数据、系统的调用链Trace数据来检验当前的KPI数据为异常数据的概率。如此，可以将基于无标签数据训练异常检测模型的无监督式检测方案，转化为了通过实时分析可以进行检测结果判断的监督学习方案，使用深度强化学习的策略训练KPI异常检测模型。

在实际的业务系统中异常是很少的，KPI数据存在着信噪比极低的问题，不过运维专家在大量的实践中已经总结出来常见异常的特征形式，使用KPI异常模式检测，如果DTW时序相似度计算，可以较好的从匹配出运维专家已知的异常。同时，系统日志、系统Trace日志的异常检测算法都较容易实现，而且健壮性较好，可以使用系统日志和Trace日志来集成检测Agent推理的结果，用以作为Agent推理结果的检验，以给出相应的奖励。

Agent(智能体)在每个监控时刻接收一个KPI(Key Performance Indicator，关键绩效指标)值，并且推理该KPI值是异常的概率，然后有KPI关联的业务黄金指标、系统日志、Trace日志、专家异常判定经验组成的环境(Environment)对Agent的推理进行奖励反馈。如果Environment给出的是一个正向的反馈的话，表示Agent的推理结果是正确的，反之亦然。当Agent可以从Environment的反馈过程中得到最大的累积奖励，学习到最优的推理策略，Agent就可以正确对KPI指标进行异常检测。

Environment使用业务黄金指标数据、系统日志数据、Trace日志数据以及运维知识图谱进行KPI值异常判断的过程，相当于模拟运维专家进行人工异常判断的过程，对KPI异常检测业务系统环境进行建模。Environment对KPI进行异常检测是比较耗时的过程，通过使用强化学习的手段使得智能体中的DQN网络可以学习Environment复杂、耗时的判断策略，以最终使得DQN网络最终可以具备运维专家的能力，而且可以在KPI指标上进行实时检测。

本发明涉及无监督学习。在面向机器学习任务时，如果缺乏足够的先验知识，并且难以人工标注类别或进行人工类别标注的成本太高。此时又希望计算机能代人完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。

图2是该方案模型的训练策略。由于KPI指标的信噪比较低，为了充分使用KPI数据的特征，Agent中的特征工程模块使用滑动窗口对KPI值进行处理，统计滑动窗口内的均值、中位数、累加和、最大值、最小值、分位数、方差、标准差、偏度、峰度、直方图作为KPI异常检测的输入特征，通过DQN网络学习最优的检测策略。

图2中的S表示对于KPI训练样本的Envirnoment状态。在开始训练的时候，Agent使用在训练样本上初始位置的滑动窗口的统计特征作为初始状态S₁。状态S_t表示滑动窗口t时刻的状态。

图2中的A表示Agent根据输入的滑动窗口的统计特征做出的异常判定动作。动作a_t表示对KPI的一次异常判定。A＝{0,1},0表示检测的KPI值为正常，1表示为异常。

图2的R表示Environment对Agent的判定动作的奖励。r_t表示Environment对于t时Agent做出的判定动作的奖励。由于系统更加关注异常时刻的KPI的检测，所以对于正确的异常检测的奖励，要高于正确的正常检测的奖励。

在图2流程中，Agent由s_t转移到s_t+1的转移概率记为p(s_t+1|s_t,a_t)；γ记为Environment对Agent异常决策立即奖励和未来奖励的衰减因子，其取值范围为[0,1]；{s₁,a₁,r₁,s₂,a₂,r₂,…,s_t,a_t,r_t}为一轮训练从初始状态到终止状态的转移策略。一轮训练的结束判定是所有的KPI数据已经被正确检测完了或没有检测出异常的KPI值；π_θ是S→A的映射方程，π_θ(s_t)表示Agent在状态s_t执行动作a_t的概率，策略π_θ可以认为是具有超参数θ的一个分类器。

在实际业务中，更加关注真实的KPI值是否能够被正确检测出来，这就要求对于真实的异常值模型应该足够敏感。如果对于Environment检测为异常的KPI值Ageng检测错误的话，应该给予Agent一个较大的惩罚，如果Agent检测的异常Environment判定也是异常的话，应该给予一个较大的奖励。

进一步的，根据本发明所述的关键绩效指标异常检测方法，其中，所述对所述第一判定结果与第二判定结果进行比较，若比较结果为一致，则给予所述智能体正奖励；若比较结果为不一致，则给予所述智能体负奖励，包括利用以下公式作为奖励方法：

其中，e_t是s_t时刻环境对所述关键绩效指标的第二判定结果；D_P是训练样本为环境检测为异常的样本，D_N是环境检测为正常的样本；λ为对于正常的关键绩效指标的判断的正奖励，-λ为对于正常的关键绩效指标的判断的负奖励，λ的取值范围以[0,1]，可以根据具体训练效果进行调整。

基于KPI异常检测的DQN：

在该方案中，KPI异常检测的策略π是一个输入KPI数据特征，返回KPI检测结果概率的方程：

T(a|s)＝P(a_t＝a|s_t＝s)

检测的目标是尽可能的对KPI检测的结果与Environment检测的结果一致，Agent的目标是获得是获得最大的累积奖励g_t：

根据强化学习的策略，Q方程可以表示为：

Q^π(s，a)＝E_π[g_t|s_t＝s，a_t＝a]

使用Bellman展开为：

Q^π(s，a)＝E_π[r_t+rQ^π(s_t+1，a_t+1)|s_t＝s，a_t＝a]

通过求解最优的Q^*方程可以使得Agent获得最大的奖励，那么满足Q^*的KPI已经检测策略π^*可以表示为：

该方案中Q深度学习算法，可以通过在内存中重放(s，a，r，s’)来实现，Agent在DQN网络的损失函数L(θ_k)上执行梯度下降的学习策略。

因此，根据本发明所述的关键绩效指标异常检测方法，其中，所述进行强化学习训练，包括：

将所述智能体与环境的交互数据(s，a，r，s’)存储在内存中，在训练所述DQN网络时，所述智能体从所述内存中随机采样状态转移数据在损失函数上进行梯度随机下降；

则所述DQN网络的损失函数的导数的表示为：

如此就可以通过最小化DQN的损失函数来获得最优化的Q^*方法，以获得最大的累积奖励，最终获得KPI异常检测的最优策略π^*。

由于实际业务中由于系统出现异常的比例很低，为了防止DQN网络在KPI的正常数据和异常数据的发生失衡，本方案不仅为KPI正常数据的判断和异常数据的判断设置了不同的奖励权重，而且设置了如下的奖励策略。

假设Environment判断的训练集中的正常的样本为s⁺，异常的样本为s^-，那么它们的目标Q值记为y⁺和y^-，则训练集中KPI的正常验证可异常样本的Q值可以表示为：

其中I(x)是指示函数。

如此根据Environment判断的KPI训练样本的值的正常与否，可以将DQN网络的损失函数写为KPI异常值的损失函数L₊(θ)和KPI正常值的损失函数L_-(θ)，则它们的导数可以表示为：

其中P表示整个训练集中Environment检测出来的异常的KPI值的数量，而N表示检测出来的正常的KPI值的数量。

结合上面的公式可以得出损失函数的导数的最终表达为：

当terminal＝True的时候t_m＝1，否则，t_m＝0

DQN网络训练优化算法：

Q方法训练算法：

Environment对KPI值的异常判断算法

如图3所示，本发明还提供了一种关键绩效指标异常检测装置，包括：

强化学习模型训练模块10，用于基于输入的关键绩效指标，将强化学习模型中的智能体与环境进行交互，进行强化学习训练，得到训练好的强化学习模型；

异常检测模块20，用于将待检测关键绩效指标输入所述训练好的强化学习模型，得到所述待检测关键绩效指标是否异常的检测结果；

其中，所述强化学习模型训练模块10包括：

根据本发明所述的关键绩效指标异常检测装置，其中，所述第一判定单元用于：

根据本发明所述的关键绩效指标异常检测装置，其中，所述第二判定单元用于：

根据本发明所述的关键绩效指标异常检测装置，其中，所述第二判定单元具体用于：

根据本发明所述的关键绩效指标异常检测装置，其中，所述第一判定单元具体用于：

进一步的，根据本发明所述的关键绩效指标异常检测装置，其中，所述对所述第一判定结果与第二判定结果进行比较，若比较结果为一致，则给予所述智能体正奖励；若比较结果为不一致，则给予所述智能体负奖励，包括利用以下公式作为奖励方法：

其中，e_t是s_t时刻环境对所述关键绩效指标的第二判定结果；D_P是训练样本为环境检测为异常的样本，D_N是环境检测为正常的样本；λ为对于正常的关键绩效指标的判断的正奖励，-λ为对于正常的关键绩效指标的判断的负奖励，λ的取值范围以[0，1]，可以根据具体训练效果进行调整。

基于KPI异常检测的DQN：

π(a|s)＝P(a_t＝a|s_t＝s)

根据强化学习的策略，Q方程可以表示为：

Q^π(s，a)＝E_π[g_t|s_t＝s，a_t＝a]

使用Bellman展开为：

Q^π(s，a)＝E_π[r_t+rQ^π(s_t+1，a_t+1)|s_t＝s，a_t＝a]

该方案中Q深度学习算法，可以通过在内存中重放(s,a,r,s’)来实现，Agent在DQN网络的损失函数L(θ_k)上执行梯度下降的学习策略。

因此，根据本发明所述的关键绩效指标异常检测装置，其中，所述进行强化学习训练，包括：

将所述智能体与环境的交互数据(s,a,r,s,)存储在内存中，在训练所述DQN网络时，所述智能体从所述内存中随机采样状态转移数据在损失函数上进行梯度随机下降；

则所述DQN网络的损失函数的导数的表示为：

图4示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行关键绩效指标异常检测方法，该方法包括：

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的关键绩效指标异常检测方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的关键绩效指标异常检测方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种关键绩效指标异常检测方法，其特征在于，包括：

2.根据权利要求1所述的关键绩效指标异常检测方法，其特征在于，所述将输入的关键绩效指标输入所述智能体中，输出所述输入的关键绩效指标是否异常的第一判定结果，包括：

3.根据权利要求1所述的关键绩效指标异常检测方法，其特征在于，所述利用所述环境对系统的业务黄金指标、系统日志、系统Trace日志、以及所述输入的关键绩效指标进行检测，输出所述输入的关键绩效指标是否异常的第二判定结果，包括：

4.根据权利要求1所述的关键绩效指标异常检测方法，其特征在于，所述利用所述环境对系统的业务黄金指标、系统日志、系统Trace日志、以及所述输入的关键绩效指标进行检测，检测出所述待检测关键绩效指标的第二异常概率，包括：

5.根据权利要求2所述的关键绩效指标异常检测方法，其特征在于，所述将输入的关键绩效指标输入所述智能体中，生成所述待检测关键绩效指标的第一异常概率，包括：

6.根据权利要求5所述的关键绩效指标异常检测方法，其特征在于，所述对所述第一判定结果与第二判定结果进行比较，若比较结果为一致，则给予所述智能体正奖励；若比较结果为不一致，则给予所述智能体负奖励，包括利用以下公式作为奖励方法：

7.根据权利要求6所述的关键绩效指标异常检测装置，其特征在于，所述进行强化学习训练，包括：

则所述DQN网络的损失函数的导数的表示为：

8.一种关键绩效指标异常检测装置，其特征在于，包括：

其中，所述强化学习模型训练模块包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的关键绩效指标异常检测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的关键绩效指标异常检测方法的步骤。