CN117709806B

CN117709806B - 协同工作的多设备异常自动化检测方法及检测系统

Info

Publication number: CN117709806B
Application number: CN202410163562.1A
Authority: CN
Inventors: 林凯; 汤连杰; 于东; 张增伟; 李政亮; 滕孟祥
Original assignee: Huixin Quanzhi Industrial Interconnection Technology Qingdao Co ltd
Current assignee: Huixin Quanzhi Industrial Interconnection Technology Qingdao Co ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-05-28
Anticipated expiration: 2044-02-05
Also published as: CN117709806A

Abstract

本申请公开了协同工作的多设备异常自动化检测方法及检测系统，涉及设备异常检测技术领域；该检测方法包括：确定待检测设备的待检测指标；将每个设备的每个待检测指标适配一个智能体；为智能体设计深度强化学习模型并收集智能体数据以训练所述深度强化学习模型；设计智能体的通信协议，并确定智能体之间信息交换方式；将智能体部署到待检测设备上，进行设备异常检测并对设备的运行状态进行控制。本申请方案中智能体能够根据自身状态和环境变化，自动地学习和调整自己的行为，从而实现对设备异常的动态检测和响应；避免静态的指标门限值的局限性，减少误报或漏报的情况，提高检测的准确率和效率。

Description

协同工作的多设备异常自动化检测方法及检测系统

技术领域

本申请涉及设备异常检测技术领域，特别是涉及协同工作的多设备异常自动化检测方法及检测系统。

背景技术

设备异常检测是指对设备的运行状态进行监测，发现并诊断设备的故障，预测设备的故障发展趋势，制定并执行设备的故障修复方案的过程。设备异常检测对于保证设备的正常运行和安全性能具有重要意义。

在目前的设备异常检测方法中，通常是通过设定设备性能的指标门限值来进行异常检测，即当设备实时性能的时序数据超过某个预设指标阈值时，则确定该设备出现异常，例如：若设备的CPU或者网络带宽的使用率超过90%，且持续时长超过预设时长，那么就确定该设备出现异常。在确定该设备出现异常之后，获取该设备的告警信息，并将告警信息发送给该设备对应的运维人员，运维人员在收到告警信息之后，对该设备进行相应的处理以消除设备异常。

然而，这种基于指标门限值的异常检测方法存在以下不足：

由于设备的运行状态和环境因素的影响，设备性能的时序数据具有动态变化和不确定性的特点，因此，通过静态的指标门限值进行异常检测的准确率非常低，该准确率主要依赖于运维人员的经验水平，容易造成大量误报或漏报的情况；由于设备之间可能存在相互影响和协作的关系，因此，单独地对每个设备进行异常检测，忽略了设备之间的关联性和协同性，容易导致检测效果的下降和资源的浪费。

发明内容

本申请技术方案主要提供了协同工作的多设备异常自动化检测方法及检测系统，考虑在实际工作过程中设备之间可能存在的相互影响及协作，避免单独检测可能会造成的检测效果不佳的问题。

为实现上述目的，本申请提供了如下技术方案：

协同工作的多设备异常自动化检测方法，包括：

S20，确定待检测设备的待检测指标；

S40，将每个设备的每个待检测指标适配一个智能体；

S60，为智能体设计深度强化学习模型并收集智能体数据以训练所述深度强化学习模型；其中，所述深度强化学习模型包括观察空间、动作空间和奖励函数；

S80，设计智能体的通信协议，并确定智能体之间信息交换方式；

S100，将智能体部署到待检测设备上，进行设备异常检测并对设备的运行状态进行控制。

优选为，步骤S60中对深度强化学习模型的训练包括：

初始化每个智能体的深度强化学习模型；并设定每个智能体的观察空间、动作空间及奖励函数；并预设时间步；

在每个时间步，每个智能体根据自身状态及深度强化学习模型输出一个动作，并执行该动作；

将智能体执行动作后的奖励以及下一个状态存储在其自身的经验回放缓冲区中；

在每个训练周期，智能体从其自身的经验回放缓冲区中随机采样一批数据以训练其深度强化学习模型；

重复以上步骤，直至每个智能体的深度强化学习模型收敛，或者达到预设的训练次数或训练时间。

优选为，所述智能体从其自身的经验回放缓冲区采样的同时将采样数据发送给其他检智能体。

优选为，步骤S100中包括：

获得智能体的多个时序数据以及多个非时序数据；

对所述时序数据及所述非时序数据进行预处理；

将预处理后的时序数据和非时序数据进行融合，获得融合后的数据，作为深度强化学习模型的观察空间；

基于观察空间给出对应智能体的奖励函数，基于该奖励函数判断对应智能体是否存在异常以及异常程度并给出第一判定结果：

若存在异常，基于对应的奖励函数评估异常的程度；

基于对应智能体的动作空间，选择执行对应的控制策略。

优选为，所述异常的程度分为轻微异常、严重异常以及危急异常；

当对应的异常被判定为严重异常或者危急异常，将对应的多个时序数据以及异常结果发送终端；

终端基于前述时序数据以及异常程度反馈第二判定结果。

优选为，比对第一判定结果与第二判定结果：

若第二判定结果与第一判定结果一致，仍执行原动作；

若第二判定结果与第一判定结果不一致，执行第二判定结果对应的动作。

优选为，还包括：

对智能体之间进行关联分析，挖掘智能体之间的关联规则，构建智能体的正常行为模式库。

优选为，还包括：S120，对所述深度强化学习模型进行更新；

其中，深度强化学习模型更新数据源基于：

获得的所述智能体的多个时序数据；

获得的所述第一判定结果；

获得的所述第二判定结果；

该智能体对应的正常行为模式库以及其他智能体对应的正常行为模式库。

本申请的另一方面公开了设备异常自动化检测系统，包括：

数据采集模块，配置于待检测设备的检测过程中，用于接收智能体的运行数据；

通信模块，基于智能体之间的通信协议，以预设的信息交互方式进行智能体之间的信息交换；

异常检测模块，用于对智能体的运行数据进行异常检测，其中所述异常检测模块内嵌有深度强化学习模型；

执行器，被配置在待检测设备上，所述执行器能够基于异常检测模块的检测结果执行对应的动作以对设备的运行状态进行控制。

本申请提供的技术方案，与已知的公有技术相比，具有如下有益效果：

（1）通过将每个设备的每个待检测指标定义为一个智能体，为智能体设计深度强化学习模型，让智能体能够根据自身状态和环境变化，自动地学习和调整自己的行为，从而实现对设备异常的动态检测和响应；避免静态的指标门限值的局限性，减少误报或漏报的情况，提高检测的准确率和效率。

（2）通过设计智能体的通信协议，并确定智能体之间信息交换方式，让智能体能够在检测过程中，与其他相关的智能体进行数据的传输和同步，实现设备之间的协同工作和信息共享；利用设备之间的关联性和协同性，提高检测的效果和资源的利用率。

（3）通过将智能体部署到待检测设备上，进行设备异常检测并对设备的运行状态进行控制，让智能体能够根据检测结果，输出相应的控制指令，优化设备的运行状态和控制策略，提高设备的运行效率和安全性，降低设备的故障率和维护成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的协同工作的多设备异常自动化检测方法的工作流程图；

图2为本申请实施例公开的协同工作的多设备异常自动化检测系统的结构示意图；

图3为本申请实施例公开的协同工作的多设备异常自动化检测方法中设备检测的原理图；

图4为本申请实施例公开的协同工作的多设备异常自动化检测方法中的一种信息交换方式示意图；

图5为本申请实施例公开的协同工作的多设备异常自动化检测方法中的另一种信息交换方式示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合图1-图5对本申请实施例中记载的协同工作的多设备异常自动化检测方法及检测系统进行阐释。

本申请实施例技术方案记载的是一种协同工作的多设备异常自动化检测方法，其中所称的协同工作是指多个设备的工作状态可能存在相互影响的状况，比如对于设置在某一加热设备上的温度传感器和压力传感器来说，其中当该加热设备中的温度过高时可能会影响压力传感器的灵敏度，当该加热设备中的压力出现较大波动时也可能会影响对应温度传感器的灵敏度，此种情形下的温度传感器和压力传感器可以定义为协同工作的设备；再比如对于流水式工作的加工系统，上一道工序设备存在异常则会对下道工序产生影响，而当下道工序设备发生异常时，通常也需要上道的工序设备及时作出反应，此时不同工序的设备可以定义为协同工作的设备。其他的情形不再赘述。

本申请实施例记载协同工作的多设备异常自动化检测方法是基于设备异常自动化检测系统进行的，该检测系统包括数据采集模块100、通信模块200、异常检测模块300以及执行器400；其中数据采集模块100配置于待检测设备的检测过程中，用于接收智能体的运行数据；通信模块200能够基于智能体之间的通信协议，以预设的信息交互方式进行智能体之间的信息交换；异常检测模块300用于对智能体的运行数据进行异常检测，且异常检测模块内嵌有深度强化学习模型；执行器400被配置在待检测设备上，执行器的数量一般与智能体的数量适配，且执行器能够基于异常检测模块的检测结果执行对应的动作以对设备的运行状态进行控制。

本申请实施例技术方案记载的协同工作的多设备异常自动化检测方法，包括如下步骤：

步骤S20，确定待检测设备的待检测指标。比如在一个具体的示例中，协同工作的设备包括一控温空调、一电机以及一液压泵；在该具体示例中确定控温空调的待检测指标为出风温度，电机的待检测指标为电压及功率，液压泵的待检测指标为压力、流量以及电流。

步骤S40，将每个设备的每个待检测指标适配一个智能体，并赋予唯一的标识符。也即在步骤S20中确定的控温空调的出风温度适配一个智能体，赋予其标识符T；电机的电压适配一个智能体，赋予其标识符V，电机的功率适配一个智能体，赋予其标识符P；液压泵的压力适配一个智能体，赋予其标识符Q，液压泵的流量适配一个智能体，赋予其标识符L，液压泵的电流适配一个智能体，赋予其标识符I。

步骤S60，为每个智能体设计深度强化学习模型并收集智能体的数据以训练所述深度强化学习模型，其中所述深度强化学习模型包括观察空间、动作空间和奖励函数。

深度强化模型是利用神经网络对状态和动作之间的映射进行建模，能够根据输入的对应智能体的多维数据来做出最优的决策，它能够处理高维度、非线性的状态和动作空间。

其中，观察空间是指智能体能够获取状态的对应设备的特征，比如对于前述控温空调的出风温度对应的智能体，它的观察空间是一个实体区间，表示温度范围，在初始阶段，需要初始化智能体对应的观察空间，比如对于控温空调的出风温度范围这一实体数据，根据历史数据或者相同环境下相同控温空调的数据给出一个初始温度范围。

动作空间是指智能体基于获取的特征能够采取的行为的合集，比如对于前述电机，其动作空间是一个离散的合集，表示电机的开关和速度；奖励函数是指智能体在每个状态下采取每个动作后获得的反馈信号，比如如若智能体的任务是维持一个相对恒定的温度，那么奖励函数可能是一个与温度偏差呈反比的函数，表示温度越接近目标值，奖励越高。在实际工作过程中，奖励函数可以根据具体方案进行定义。

在本申请实施例中，以液压泵为例进行说明，其奖励函数为：；其中，R是奖励函数的值，Q、L和I分别是液压泵的实时压力、流量和电流；Q ₀、L ₀和I ₀分别是液压泵的期望压力、流量和电流，α、β、γ分别是不同指标的权重系数。

这个奖励函数的含义是，智能体的目标是使液压泵的压力、流量、电流尽可能接近期望值，如果偏离期望值，就会受到负的奖励。

以上的示例中，Q ₀、L ₀和I ₀分别是液压泵的期望压力、流量和电流。其中，Q ₀、L ₀和I ₀可以为固定值，也可以定义为一实体范围，如Q ₀对应的液压泵的期望压力可以为[Q ₀₁，Q ₀₂]，在这种情况下：

液压泵的实时压力Q若落在[Q ₀₁，Q ₀₂]对应的范围内，则上述奖励函数中的；

若液压泵的实时压力Q＜Q ₀₁，则定义；

若液压泵的实时压力Q＞Q ₀₂，则定义。

以上的示例中液压泵的期望压力、流量和电流对应的值或者实体范围，也即对应智能体的观察空间。

L ₀与I ₀也可以采用类似的定义方法。

步骤S80，设计智能体的通信协议，并确定智能体之间信息交换方式；通过预定交换方式进行智能体之间的交互以实现智能体之间信息共享。

其中，智能体间的通信协议有多种：

1）基于消息传递的通信协议，通过发送和接收消息实现通信，每条消息通常包含发送者、接受者、内容和类型等信息。

2）基于共享空间的通信协议，通过在一个共享空间中存储和读取信息实现通信，这个空间可以是物理的，也可以是逻辑的，允许在一个分布式的数据结构中存储和检索元组。

3）基于服务发现的通信协议，通过在一个服务注册中心注册和查找付诸于来实现通信，每个服务通常包含服务者、服务描述、服务地址等信息。其允许智能体在一个分布式的网络中发现和使用服务。

在本申请记载的实施例中主要是采用前述的基于消息传递的通信协议，这种通信协议的优点是简单、直接、可靠。

基于消息传递的通信协议中信息交换方式主要有广播、单播、多播与任播等多种方式。其中，广播是指一个智能体向其他所有智能体发送同一条信息的方式；单播是指一个智能体向另一个特定的智能体发送信息的方式；多播是指一个智能体向一组特定的智能体发送信息的方式；任播是指一个智能体向一组智能体中的任意一个发送信息的方式。前述所称的一组智能体在本申请实施例中是指基于同一设备的多个智能体，比如电机电压对应的智能体与电机功率对应的智能体可以定义为一组智能体；比如液压泵压力对应的智能体、液压泵流量对应的智能体以及液压泵电流对应的智能体可以定义为一组智能体。

信息交互的方式取决于多智能体系统的目标、任务、环境和约束等因素，以本申请实施例中给出的示例为例，其主要涉及三个设备的六个智能体，智能体的数量较少，可以选用广播的方式，如图4所示，这种方式能够简单、快速、有效地进行信息交换。

当然，本申请实施例给出的示例也可以采用广播与任播结合的方式进行信息交换，如图5所示，也即同组的多个智能体之间采用广播的交换方式，其他组的智能体与该组之间采用任播的交换方式，同样能够有效地进行信息交换。

步骤S100，将智能体部署到待检测设备上，进行设备异常检测并对设备的运行状态进行控制。

该步骤主要包括如下的子步骤：

S101，将对应的数据采集模块以及通信模块安装在待检测设备上，以便对待检测设备的待检测指标进行检测；比如对控温空调的出风温度、电机的电压、电机的功率、液压泵的压力、液压泵的流量配置对应的数据采集模块；通信模块主要是基于智能体前述的通信协议，以预设的信息交互方式进行智能体间的信息交换，现有的通信模块主要采用无线通信的方式。

S102，获得智能体的多个时序数据以及多个非时序数据；其中时序数据是随着时间变化的设备性能数据，比如对控温空调的出风温度、电机的电压、电机的功率、液压泵的压力、液压泵的流量；非时序数据是与设备性能数据相关的其他数据，如设备配置信息、设备运行日志、设备故障历史等。

S103，对所述时序数据及所述非时序数据进行预处理；包括滤波、归一化以及降维等操作。

S104，将预处理后的时序数据和非时序数据进行融合，获得融合后的数据；其中数据融合的方法可以采用使用张量分解或者注意力机制等深度学习算法。

S105，将融合后的数据作为深度强化学习模型的观察空间，并基于该观察空间判断对应的智能体是否存在异常；基于前述阐释，在初始阶段需要初始化智能体对应的观察空间，比如对于控温空调的出风温度基于数据学习及数据迁移会给出一个初始的温度范围，当融合后的数据超出该温度范围，则判定对应的智能体存在异常。

S106，基于对应的奖励函数评估是否存在异常以及对应的异常程度，此为第一判定结果；对于本申请实施例中定义的液压泵的奖励函数，它表示如果偏离期望值受到一个负奖励，此时可以定义：

当R≥R ₁，则判定为正常；

当R ₂≤R＜R ₁，则判定为轻微异常；

当R ₃≤R＜R ₂，则判定为严重异常；

当R＜R ₃，则判定为危急异常；

其中的R ₁、R ₂及R ₃可以根据液压泵的实际工况进行设置。

S107，基于判定结果以及对应智能体的动作空间，选择执行对应的控制策略。在初始化的过程中，预设了智能体观察空间的初始值、奖励函数以及基于奖励函数的判定结果，则还需要预设针对每种判定结果的对应的动作空间。比如：当基于液压泵的奖励函数判定该液压泵为正常或轻微异常，则可按照当前参数继续工作；

当基于液压泵的奖励函数判定该液压泵为严重异常，则调整液压泵的工作参数，继续对液压泵的工作状态进行检测；

当基于液压泵的奖励函数判定该液压泵为危急异常，则需要及时停机。

在有的实施例中，对于判定为严重异常或者危急异常的工况，需要将对应的时序数据以及异常结果发送至终端，终端一方面需要将对应的数据以及结果进行存储，另一方面需要基于对应的异常结果发生警报以提醒工作人员及时干预。终端工作人员基于对应的时序数据以及第一异常结果给出第二判定结果：

如若第二判定结果与第一判定结果一致，仍执行原动作；

如若第二判定结果与第一判定结果不一致，执行第二判定结果对应的动作。

在有的实施例中，协同工作的多设备异常自动化检测方法还包括：

S120，对智能体之间进行关联分析，以挖掘智能体之间的关联规则；具体来说，包括如下步骤：

S121，收集并整理智能体对应的行为数据，包括观察空间、动作空间、奖励函数、第一判定结果以及第二判定结果；

S122，基于关联分析法，从智能体的行为数据中挖掘出频繁项集和关联规则；其中，频繁项集是指在数据集中出现次数超过一定阈值的项集，关联规则是指在数据集中存在一定支持度和置信度的条件概率关系。

S123，基于支持度和置信度指标对挖掘出的频繁项集和关联规则进行评估和筛选，并将筛选出来的关联规则存储/更新到一个正常行为模式库中。

在本申请实施例中采用的是Apriori算法来挖掘频繁项集和关联规则。仍以前述定义的智能体T，V，P，Q，L和I为例进行说明。

比如，对于收集到的一个关于协同工作设备的数据集，记录了每次设备运行时各个智能体的状态，数据集如下：

采集序号	智能体状态
		1	T，V，P
2	T，V，Q
		3	T，P，L
4	V，P，Q
		5	V，L，I

其中，T表示控温空调的出风温度，V表示电机的电压，P表示电机的功率，Q表示液压泵的压力，L表示液压泵的流量，I表示液压泵的电流。每个智能体的状态用正常或异常来表示，正常用0表示，异常用1表示。例如，智能体状态为T，V，P则表示控温空调的出风温度、电机的电压和功率都异常（包括轻微异常、严重异常和危急异常），其他智能体正常。

使用Apriori算法来从这个数据集中挖掘频繁项集和关联规则。首先，需要设定一个最小支持度（minsup）和一个最小置信度（minconf）。假设设定minsup=0.4，minconf=0.6，那么算法的步骤如下：

1）生成所有单个元素的项集列表，即C1={T，V，P，Q，L，I}，并计算它们的支持度。例如，support(T)=4/5=0.8，support(I)=1/5=0.2。

2）剪枝，去掉不满足最小支持度的项集，得到频繁1项集列表，即D1={T，V，P，Q，L}。

3）连接，利用D1生成候选2项集列表，即C2={TV，TP，TQ，TL，VP，VQ，VL，PQ，PL，QL}，并计算它们的支持度。例如，support(TV)=3/5=0.6，support(TL)=1/5=0.2。

4）剪枝，去掉不满足最小支持度的项集，得到频繁2项集列表，即D2={TV，TP，TQ，VP，VQ，PQ}。

5）连接，利用D2生成候选3项集列表，即C3={TVP，TVQ，TPQ，VPQ}，并计算它们的支持度。例如，support(TVP)=2/5=0.4，support(TVQ)=1/5=0.2。

6）剪枝，去掉不满足最小支持度的项集，得到频繁3项集列表，即D3={TVP，VPQ}。

7）结束，由于没有更多的候选项集，算法终止，得到所有的频繁项集，即D=D1∪D2∪D3={T，V，P，Q，L，TV，TP，TQ，VP，VQ，PQ，TVP，VPQ}。

8）生成关联规则，利用频繁项集和最小置信度来产生有意义的规则。例如，对于频繁2项集TV，可以生成两条规则：TV 和 V/>T，然后计算该两条规

则对应的置信度。例如，confidence(TV)=support(TV)/support(T)=0.6/0.8=0.75，confidence(T/>)=support(TV)/support(V)=0.6/0.8=0.75。

9）剪枝，去掉不满足最小置信度的规则，得到最终的关联规则。例如，对于频繁2项集TV，两条规则都满足最小置信度，所以都保留。

10）结束，重复第八步和第九步，直到所有的频繁项集都被考虑过，得到所有的关联规则，即M{TV，V/>T，T/>P，P/>T，T/>Q，Q/>T，V/>P，

PV，V/>Q，Q/>V，P/>Q，Q/>P，T/>VP，VP/>T，V/>TP，TP/>V，P/>TQ，TQ/>P，V/>PQ，PQV，T/>VQ，VQ/>T，P/>TV，TV/>P，Q/>TV，TV/>Q，Q/>VP，VP/>Q}。

以上述每个智能体的正常状态范围，例如控温空调的出风温度、电机的电压和功率、液压泵的压力、流量和电流等；以及每个智能体的正常行为模式，例如控温空调的出风温度变化趋势、电机的电压和功率的波动范围、液压泵的压力、流量和电流的关系等；以及每个智能体之间的正常关联规则，例如控温空调的出风温度与电机的电压和功率的相关性、电机的电压和功率与液压泵的压力、流量和电流的影响数据构建正常行为模式库。该正常行为模式库能够为智能体提供参考和指导，以及为设备的异常检测和运行状态控制提供依据和支持。

正常行为模式库的另一个作用是为了辅助深度强化学习模型的更新。在本申请实施例中记载的深度强化模型的训练过程包括：

S61，初始化每个智能体的深度强化学习模型；并设定每个智能体的观察空间、动作空间及奖励函数；并预设时间步；

S62，在每个时间步，每个智能体根据自身状态及深度强化学习模型输出一个动作，并执行该动作；这一步是为了让每个智能体根据当前的环境状态，选择一个最优或者随机的动作，来探索或者利用环境，从而获得奖励或惩罚;动作的选择可以采用不同的策略，如ε-贪心、softmax、UCB等;动作的执行会影响环境的状态，从而影响其他智能体的观察和动作。

S63，将智能体执行动作后的奖励以及下一个状态存储在其自身的经验回放缓冲区中；智能体通过保存自己的历史经验，包括状态、动作、奖励和下一个状态进行后续的学习，避免重复采样，提高数据利用率，减少相关性，增强稳定性。

S64，在每个训练周期，智能体从其自身的经验回放缓冲区中随机采样一批数据以训练其深度强化学习模型；每个智能体根据自身的历史经验，更新其深度强化学习模型，提高自己的策略或价值函数的近似精度；训练的方法可以采用不同的算法，如DQN、DDPG、PPO等，这些算法都基于贝尔曼方程，利用目标网络或优势函数来计算目标值，然后用梯度下降法或策略梯度法来优化损失函数，从而实现深度强化学习模型的训练。

在有的实施例中，智能体从其自身的经验回放缓冲区采样的同时将采样数据发送给其他检智能体，使得智能体之间实现信息的共享和协作，使得在深度强化学习的过程中就考虑到了其他智能体对该智能体的影响，保证了后续检测的准确性。

S65，重复以上步骤，直至每个智能体的深度强化学习模型收敛，或者达到预设的训练次数或训练时间。

对深度强化学习模型的训练使得该深度强学习模型不断与环境交互，从经验中学习，提高对应智能体的性能；使得深度强化学习模型训练可以解决高维度、复杂的原始输入资料的决策问题，也可以利用深度学习的感知能力，来解决策略和值函数的建模问题。

训练完成后的深度强化学习模型嵌设入异常检测模型对设备进行异常自动化检测，在后续的检测过程中，由于设备的工作状态和环境参数可能会随着时间和条件的变化而发生变化，并且协同工作的设备之间可能会存在相互影响，因此需要考虑这些因素对该深度强化学习模型进行更新以提高泛化能力，避免检测结果出现偏差或漏报。

因此在本申请实施例中，该协同工作多设备异常自动化检测方法还包括步骤S120，也即对深度强化学习模型进行更新。

其中，对深度强化学习模型更新的数据源基于：获得的所述智能体的多个时序数据；获得的所述第一判定结果；获得的所述第二判定结果；以及该智能体对应的正常行为模式库以及其他智能体对应的正常行为模式库。

在本申请实施例中，对深度强化学习模型更新的数据源除有基于异常自动化检测获得的检测数据（获得的所述智能体的多个时序数据、获得的所述第一判定结果、该智能体对应的正常行为模式库以及其他智能体对应的正常行为模式库）外，还有基于终端反馈的第二判定结果，使得对深度强化模型的更新引入终端反亏，能够对模型的判断结果进行验证和修正，从而不断提高模型的准确性。

其中，对深度强化学习模型更新的方法有多种：比如，在线更新，即在每次检测后，利用上述数据源来更新深度强化学习模型，使其能够实时地学习和适应环境的变化；离线更新，即在每隔一段时间，利用一批累积的上述数据源来更新深度强化学习模型，使其能够保持一定的稳定性和泛化性；混合更新：即结合在线更新和离线更新的优点，利用一定的策略来平衡模型的更新频率和幅度，使其能够在稳定性和实时性之间取得一个平衡。在实际工作过程中可以根据实际需求选择上述更新方法中的任一种。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本申请各实施例技术方案的保护范围。

Claims

1.协同工作的多设备异常自动化检测方法，其特征在于，包括：

S20，确定待检测设备的待检测指标；

S40，将每个设备的每个待检测指标适配一个智能体；

S100，将智能体部署到待检测设备上，进行设备异常检测并对设备的运行状态进行控制；其中，步骤S100中包括：

获得智能体的多个时序数据以及多个非时序数据；

对所述时序数据及所述非时序数据进行预处理；

基于观察空间给出对应智能体的奖励函数，基于该奖励函数判断对应智能体是否存在异常以及异常程度并给出第一判定结果：若存在异常，基于对应的奖励函数评估异常的程度；其中，所述异常的程度分为轻微异常、严重异常以及危急异常；

基于对应智能体的动作空间，选择执行对应的控制策略；当对应的异常被判定为严重异常或者危急异常，将对应的多个时序数据以及异常结果发送终端；终端基于前述时序数据以及异常程度反馈第二判定结果；比对第一判定结果与第二判定结果：若第二判定结果与第一判定结果一致，仍执行原动作；若第二判定结果与第一判定结果不一致，执行第二判定结果对应的动作；

S120，对智能体之间进行关联分析，挖掘智能体之间的关联规则，构建智能体的正常行为模式库；

S140，对所述深度强化学习模型进行更新；

其中，深度强化学习模型更新数据源基于：

获得的所述智能体的多个时序数据；

获得的所述第一判定结果；

获得的所述第二判定结果；

2.根据权利要求1所述的协同工作的多设备异常自动化检测方法，其特征在于，步骤S60中对深度强化学习模型的训练包括：

3.根据权利要求2所述的协同工作的多设备异常自动化检测方法，其特征在于，所述智能体从其自身的经验回放缓冲区采样的同时将采样数据发送给其他检智能体。

4.设备异常自动化检测系统，用于执行权利要求1-3任一项所述的协同工作的多设备异常自动化检测方法，其特征在于，包括：

数据采集模块，配置于待检测设备的检测过程中，用于接收智能体在对应设备运行中的数据；

异常检测模块，用于对智能体的数据进行异常检测，其中所述异常检测模块内嵌有深度强化学习模型；