CN115098330A

CN115098330A - 基于云边协同模式的设备异常检测系统及方法

Info

Publication number: CN115098330A
Application number: CN202210743259.XA
Authority: CN
Inventors: 李孝斌; 刘宇杰; 张跃彬; 尹超; 江沛
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-23

Abstract

本发明具体涉及基于云边协同模式的设备异常检测系统及方法。系统包括：设备层，用于获取设备的运行数据；云端，部署有若干个经过训练的故障检测模型；故障检测模型为BiLSTM‑VAE模型；边缘服务器，具有多个分别用于从云端下载对应故障检测模型的并行的边缘节点；边缘服务器将各个边缘节点故障检测模型的输出进行加权计算，以判断设备是否存在故障；云端生成决策信息并下发至边缘服务器；边缘服务器将决策信息下发至设备层以供设备层执行对应的动作。本发明还公开了一种设备异常检测方法。本发明能够通过多个隐层维度不同的故障检测模型之间的集成互补来提高设备异常检测性能，并且无需构建特定于问题场景的模型结构、无需先验经验与专业知识。

Description

基于云边协同模式的设备异常检测系统及方法

技术领域

本发明涉及设备异常检测技术领域，具体涉及基于云边协同模式的设备异常检测系统及方法。

背景技术

云边协同是一种将基础设施资源进行分布式部署再统一管理的系统架构，与云制造将所有计算服务集中至云数据中心不同，云边协同采用物联网的方式实现对分布式工业设备的实时感知，通过智能网关将终端设备的数据信息上传至近端的边缘计算节点，边缘节点将采集到的量测数据以时间序列形式，通过并行化的本地计算服务进行大数据处理，实现机器设备的自主控制决策与生产流程的个性化自动调控，为智能工厂提供加工质量检测、制造资源调度、物流管控等智能化服务，提升传统离散制造企业的生产管控能力和综合竞争力。

云边协同架构模式不仅可以实时、准确地为智能工厂提供真实有效的数据，增强对终端设备的实时控制响应速度，同时适配先进工业生产过程中海量数据的实时分析，降低云数据中心的计算压力和网络负载。但是，随着企业生产规模的不断扩大，终端机械设备与边缘计算设备的数量也不断增加，导致云边协同网络的拓扑结构愈加复杂、干扰因素发生率指数级增长，导致系统的管理难度与维护成本不断增加。

当边缘计算设备出现异常状况，如网络故障、服务器故障、配置错误、服务器过载、外部攻击等，不仅会影响数据处理的效率与稳定性，也制约节点相应终端设备作业任务的高效执行，例如视觉检测产品缺陷、制造资源调度等。而终端机械设备的故障对于产品的生产质量、工人操作安全性的影响较大，导致生产线的产品合格率下降、故障维修成本和订单延期交付损失升高。因此，实现终端机械设备与边缘计算设备运行状态的实时监测，支持生产设备与边缘节点的故障智能预判与报警，是智能工厂与云边协同网络高效运行的基础。

通过设备历史运行数据建立机器学习模型，实现工业设备运行过程的实时状态监测、异常检测、故障诊断已成为制造企业智能化提升的热点方向。现有研究成果在利用机器学习检测设备异常方面取得了良好的应用成效，但以LSTM-AE模型为代表的计算原时间序列数据与重建数据的残差进行异常检测的方法，存在着重建误差适应区间狭窄导致算法在准确率(precision)、虚警率(FAR)等指标上表现不佳的问题，导致设备异常检测的准确性不好。同时，现有模型的残差阈值与神经网络结构依赖人工调参，如需要构建特定于问题场景的模型结构或需要先验经验与专业知识，适应性较差，无法在智能工厂这种设备种类与故障类别繁多的场景下进行大规模应用，进而导致设备异常检测的实用性不好。因此，如何设计一种能够提高设备异常检测的实用性和准确性的方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种基于云边协同模式的设备异常检测方法，以能够通过多个隐层维度不同的故障检测模型之间的集成互补来提高设备异常检测性能，并且无需构建特定于问题场景的模型结构、无需先验经验与专业知识，从而能够提高设备异常检测的实用性和准确性。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于云边协同模式的设备异常检测系统，包括：

设备层，用于获取设备的运行数据；

云端，部署有若干个经过训练的故障检测模型；

故障检测模型为将双向长短时记忆网络嵌入至变分自动编码器的编码层和解码层得到的BiLSTM-VAE模型，各个故障检测模型的隐层维度各不相同；

边缘服务器，具有多个分别用于从云端下载对应故障检测模型的并行的边缘节点；

边缘服务器将运行数据作为各个边缘节点故障检测模型的输入，并将各个边缘节点故障检测模型的输出进行加权计算，以判断设备是否存在故障；

云端在设备存在故障时通过实时运行数据和历史运行数据进行故障分析，生成决策信息并下发至边缘服务器；

边缘服务器将决策信息下发至设备层，以供设备层执行对应的动作。

优选的，当设备不存在故障时，边缘服务器以预设频率向云端上传运行数据作为历史运行数据；当设备存在故障时，边缘服务器以高于预设频率的频率向云端上传包含故障信息的运行数据作为实时运行数据。

本发明还公开了基于云边协同模式的设备异常检测方法，基于本发明的基于云边协同模式的设备异常检测系统实施，具体包括以下步骤：

S1：设备层获取设备的运行数据；

S2：边缘服务器的各个边缘节点对应的从云端下载经过训练的故障检测模型；

S3：边缘服务器将运行数据作为各个边缘节点故障检测模型的输入，并将各个边缘节点故障检测模型的输出进行加权计算，以判断设备是否存在故障；

S4：云端在设备存在故障时通过实时运行数据和历史运行数据进行故障分析，生成决策信息并下发至边缘服务器；

S5：边缘服务器将决策信息下发至设备层，以供设备层执行对应的动作。

优选的，步骤S2中，云端通过如下步骤训练故障检测模型：

S201：获取样本数据集并进行数据预处理，进而将数据预处理后的数据分割为由全部正常标签数据组成的训练集、所有异常标签数据组成的测试集和正常数据与异常数据混合组成的验证集；

S202：设置K₀个隐层维度不同的故障检测模型，然后使用训练集对各个故障检测模型进行训练以实现设备正常状态数据的特征学习，生成初始残差阀值矩阵；

S203：淘汰性能最差的K₁个故障检测模型，得到K₂＝K₀-K₁个故障检测模型；

S204：通过混沌策略初始化剩余各个故障检测模型对应的重建误差权重矩阵和残差阀值权重矩阵；

S205：通过鲸鱼优化算法求解最优的重建误差权重矩阵和残差阀值权重矩阵，进而得到故障检测模型k_j及其对应的重建误差权重

残差阀值权重

和残差阈值σ_j；

S206：通过测试集测试各个故障检测模型的性能，若性能达标，则结束训练并通过验证集验证各个故障检测模型的训练效果；否则，返回步骤S204。

优选的，步骤S201中，数据预处理包括Z-score标准化处理和特征加强处理；特征加强处理时提取统计特征和时间序列预测特征；时间序列预测特征包括指数加权移动平均法的预测值，以及预测值与原值的差值；

其中，指数加权移动平均法的预测值通过如下公式计算：

式中：y_i表示i时刻指数加权移动平均法的预测值；x_i表示i时刻的原值；t表示时序数据总步长；系数α表示加权下降的速率，其值越大，早期数据的权重下降的越快。

优选的，步骤S203中，采用误报率和漏报率对各个故障检测模型进行评价：误报率和漏报率的值越小说明故障检测模型的效果越佳；淘汰综合评价最末尾的K₁个故障检测模型，挑选出综合评价最高的K₂＝K₀-K₁个故障检测模型；

其中，

式中：FAR表示误报率；MAR表示漏报率；TP表示故障检测模型对异常点的准确检测次数；FP表示故障检测模型将正常点识别为异常的次数；FN表示故障检测模型将异常点别为正常点的次数；TN表示故障检测模型准确识别正常点的次数。

优选的，步骤S205中，对于鲸鱼优化算法：

通过动态递变的AP值代替鲸鱼优化算法原有的固定概率值；

AP＝min_AP+max_AP*t/t_max；

式中：t当前迭代次数；t_max最大迭代次数；

收缩包围猎物阶段的鲸鱼位置迭代公式表示为：

C＝1.5*sin(2π*rand₃)+0.5；

式中：rand₁、rand₂和rand₃均为[0,1]之间的随机数；

分别表示座头鲸i在第t和t+1次迭代的位置；

是从当前种群中随机选择的个体；D表示个体

迭代移动距离；A表示个体

迭代移动方向；a表示非线性的收敛因子；C为取值范围[0，2]的随机值；

狩猎阶段的鲸鱼位置迭代公式表示为：

l＝a2+rand₄；

式中：

是当前精英解集合中随机选择的个体；

分别表示座头鲸i在第t和t+1次迭代的位置；rand₄为[0,1]之间的随机数；b为限定螺旋线形状大小的常数；l由[-1,1]之间的随机数改进为随算法迭代过程进行非线性衰减的系数，用以调控对数螺旋的形状；a2表示非线性的收敛因子；β表示对收录速度进行调节；

新猎物的搜索公式表示为：

式中：

表示座头鲸i在第t+1次迭代的位置；

是当前精英解集合中随机选择的个体；μ、v服从标准正态分布：

A表示位移步长；Levy(γ)表示莱维飞行函数；γ为系数常量；a3表示非线性的收敛因子；φ表示莱维飞行的步长；Γ表示gamma函数；exp表示进行指数运算。

优选的，步骤S206中，通过精度、召回率和F-score三个评价指标评价故障检测模型的性能；

其中，

式中：Prcision表示精度；TP表示故障检测模型对异常点的准确检测次数；FP表示故障检测模型将正常点识别为异常的次数；Recall表示召回率；FN表示故障检测模型将异常点别为正常点的次数。

优选的，步骤S3中，边缘服务器将各个边缘节点故障检测模型输出的重建误差进行加权计算得到综合重建误差；然后基于各个故障检测模型对应的残差阈值进行加权计算得到综合残差阈值；最后比较综合重建误差和综合残差阈值，以判断设备是否存在故障。

优选的，通过如下公式计算综合重建误差：

式中：Loss_i表示K个故障检测模型对运行数据的时序数据X_i的综合重建误差；loss_j,i表示第j个故障检测模型k_j对运行数据的时序数据X_i的重建误差；

表示故障检测模型k_j的重建误差权重；

通过如下公式计算综合残差阈值：

式中：δ_j表示故障检测模型k_j的残差阈值；

表示故障检测模型k_j的残差阀值权重；

当Loss_l＜δ时，运行数据的时序数据X_i正常，设备不存在异常；Loss_l≥δ时，运行数据的时序数据X_i异常，设备存在异常。

本发明中基于云边协同模式的设备异常检测方法，具有如下有益效果：

本发明通过边缘服务器将运行数据作为各个边缘节点故障检测模型的输入，并将各个边缘节点故障检测模型的输出进行加权计算以判断设备是否存在故障，使得能够通过多个布置在边缘服务器的并行边缘节点且隐层维度不同的故障检测模型之间的集成互补来提高设备异常检测性能，从而能够提高设备异常检测的准确性。并且，本发明中的故障检测模型(即BiLSTM-VAE模型)能够通过现有算法(如鲸鱼优化算法)直接求解，不依赖人工调参，无需构建特定于问题场景的模型结构、无需先验经验与专业知识，从而能够提高设备异常检测的实用性。

同时，本发明通过设备层获取设备的运行数据，通过边缘服务器从云端下载故障检测模型来判断设备是否存在故障，使得能够通过部署于工厂内部的边缘服务器进行实时的设备运行状态分析与故障检测，从而能够提高设备异常检测的实时性。

此外，本发明通过边缘服务器从云端下载故障检测模型检测设备故障，通过云端基于实时运行数据和历史运行数据进行故障分析生成决策信息，并下发至边缘服务器用以供设备层执行对应的动作，即形成了边缘节点负责日常情况下设备运行状态检测、云端负责故障状态下应急处理的工作模式，不仅能够减少边缘服务器与云中心之间交互的数据量，避免通信网络波动、传输数据丢失、用户隐私泄露等问题的频繁发生，还能够提升对生产现场设备的实时控制响应速度，避免云计算中心处理计算任务的数据量与复杂度过高，从而能够进一步提升云边协同网络的工作效率。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为基于云边协同模式的设备异常检测系统的网络构架图；

图2为基于云边协同模式的设备异常检测方法的逻辑框图；

图3为LSTM的内部组成结构示意图；

图4为Bi-LSTM的组成结构示意图；

图5为自动编码器(VAE)的组成结构示意图；

图6为故障检测(BiLSTM-VAE)模型的结构示意图；

图7为训练故障检测模型的流程图；

图8为SKAB数据采集环境的示意图；

图9为TEP仿真环境的示意图；

图10为BiLSTM-VAE-WOA检测结果图；

图11为BiLSTM-VAE1检测图；

图12为BiLSTM-VAE2检测图；

图13为重建误差密度分布图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面通过具体实施方式进一步详细的说明：

实施例一：

本实施例中公开了一种基于云边协同模式的设备异常检测系统。

如图1所示，基于云边协同模式的设备异常检测系统，包括：

设备层，用于获取设备的运行数据；

本实施例中，通过对生产现场部署用于采集执行终端数据的传感器(工业相机、RFID扫描器等)、联网设备(如嵌入了5G模组的PLC控制器、带有智能数据聚合模块的双向通信网关等)等数据装置，构建大量的底层物联网(终端)节点即设备层，负责采集与传输工业生产设备的运行数据，为智能工厂的设备故障检测提供数据基础。

云端(中心云)，部署有若干个经过训练的故障检测模型；

故障检测模型为将双向长短时记忆网络(Bi-directional Long Short-TermMemory,Bi-LSTM)嵌入至变分自动编码器(Variational Auto-Encoder,VAE)的编码层和解码层得到的BiLSTM-VAE模型，各个故障检测模型的隐层维度各不相同；

本实施例中，由于深度学习模型与群智能进化算法(即故障检测模型)的训练与调试需要大量的计算资源，才能保证算法模型在有限时间内达到较高的精度，计算能力与存储空间有限的边缘服务器无法负责庞大计算量的训练任务，因此本发明由装配了大量计算资源的云计算中心负责模型的训练与更新，从而保证故障检测模型的故障检测精度。

边缘服务器，具有多个分别用于从云端下载对应故障检测模型的并行的边缘(计算)节点；

本实施例中，边缘计算节点也负责将各种生产数据上传至云端进行汇总、存储，以备后续质量溯源等模块使用。

为降低通信网络传输数据的负载量，当设备不存在故障时，边缘服务器以预设频率向云端上传运行数据作为历史运行数据；当设备存在故障时，边缘服务器以高于预设频率的频率向云端上传包含故障信息的运行数据作为实时运行数据。

本实施例中，边缘服务器将决策信息下发至设备层后，相关的车间管理人员根据决策信息做出对应的现场决策，然后边缘服务器的边缘节点通过现场决策驱动PLC等控制器对产线的运行状态进行调整。

具体的：

1、鲸鱼优化算法(WOA算法)

鲸鱼优化算法具有原理简单、参数设置少、寻优性能强等优点。但鲸鱼优化算法仅靠一个参数对前期全局搜索与后期局部寻优之间的转换进行调整，难以达到良好的平衡，存在收敛速度过快、易陷入局部最优的问题。

因此，本发明通过动态递变的AP值代替鲸鱼优化算法原有的固定概率值(50％)；设置p为[0,1]范围内均匀分布产生的随机数，进行收缩捕食与随机搜索的选择决策：

AP＝min_AP+max_AP*t/t_max。

式中：t当前迭代次数；t_max最大迭代次数；

(1)收缩捕食(p＜AP)

a)包围猎物(|A|≥1)

鲸鱼种群将根据彼此的位置进行猎物的包围。表1展示了收缩包围猎物阶段鲸鱼位置迭代的原公式与改进公式。

表1鲸鱼位置迭代公式对比

收缩包围猎物阶段的鲸鱼位置迭代公式表示为：

C＝1.5*sin(2π*rand₃)+0.5；

式中：rand₁、rand₂和rand₃均为[0,1]之间的随机数；

分别表示座头鲸i在第t和t+1次迭代的位置；

是从当前种群中随机选择的个体；D表示个体

迭代移动距离；A表示个体

迭代移动方向；a表示非线性的收敛因子，值变化可对算法前后期迭代重心转变的时间点进行自主调整；C为取值范围[0，2]的随机值，扩大种群全局搜索范围。

本发明的改进公式表示鲸鱼个体会随机选择其他鲸鱼作为位置迭代的引导，如此改进的原因是原公式与螺旋捕食都是根据鲸鱼群的当前最优个体进行位置迭代，容易出现群聚化现象导致鲸鱼位置的种群多样性降低，从而能够辅助提高设备异常检测的准确性。同时，能够通过系数β调整系数向量a、A的非线性变化程度，平衡算法前后期迭代重心。

b)狩猎行为(|A|<1)

狩猎阶段的位置迭代公式模仿了鲸鱼群螺旋捕食进行泡泡网攻击的行为，将当前适应度最优鲸鱼个体的位置设定为猎物位置，沿螺旋路径靠近并围困猎物。

表2鲸鱼位置迭代公式对比

狩猎阶段的鲸鱼位置迭代公式表示为：

l＝a2+rand₄；

式中：

是当前精英解集合中随机选择的个体；

分别表示座头鲸i在第t和t+1次迭代的位置；rand₄为[0,1]之间的随机数；b为限定螺旋线形状大小的常数；l由[-1,1]之间的随机数改进为随算法迭代过程进行非线性衰减的系数，用以调控对数螺旋的形状；a2表示非线性的收敛因子，值变化可调节算法何时结束早期在全局进行候选解筛选、何时进入后期在局部区域进行精细搜索；β表示对收录速度进行调节。

(2)随机搜索捕食(p≥AP)

除了靠近已知猎物，鲸鱼还进行新猎物的搜索。

表3新猎物的搜索公式对比

新猎物的搜索公式表示为：

式中：

表示座头鲸i在第t+1次迭代的位置；

A表示位移步长；Levy(γ)表示莱维飞行函数，生成一个随机值对精英个体位置进行扰动；γ为系数常量；a3表示非线性的收敛因子，值变化可调节算法何时结束早期在全局进行候选解筛选、何时进入后期在局部区域进行精细搜索；φ表示莱维飞行的步长；Γ表示gamma函数；exp表示进行指数运算。

鲸鱼优化算法的原公式采用与收缩包围猎物阶段一致的位置迭代方法，导致算法全局搜索能力降低。然而，本发明的改进公式通过采用莱维飞行算法对鲸鱼精英个体的位置进行随机扰动，随算法求解过程进行数值非线性衰减的系数A与a3调整随机扰动数值大小，协助算法在初期对全局搜索空间进行扩张，同时提升算法后期的局部精细寻优能力。

2、双向长短时记忆网络(BiLSTM)

长短期记忆网络(Long Short Term Memory Networks，LSTM)是RNN的优化模型。LSTM模型主要由遗忘门、传入门和输出门组成，输入部分包括C_t-1、h_t-1和x_t，LSTM的内部结构如图3所示。

遗忘门(forget gates)的作用是决定旧的状态信息C_t-1的丢弃部分。输出是与cell状态向量长度相同的向量f_t，取值范围在[0,1]之间：

f_t＝σ*(W_f[h_t-1,x_t]+b_f)；

传入门的作用是决定h_t-1和x_t在cell中保存哪些信息，这主要分为两部分，Sigmoid层决定了将更新哪些值，加权tanh层决定了加入cell状态的候选向量

i_t＝σ(W_i[h_t-1,x_t]+b_i)；

通过f_t表达对C_t-1的期望替换部分，i_t表达了对新信息

的期望添加部分，以实现状态信息的更新：

输出门用来决定最终的输出信息h_t，Sigmoid层通过o_t决定输出，并通过tanh函数将值规范化到[-1,1]之间：

o_t＝σ(W_o[h_t-1,x_t]+b_o)；

h_t＝o_t*tanh(C_t)；

由于在单向的长短期记忆网络中，模型对于时序数据的处理是正向的，C_t-1与h_t-1包含了t时刻之前的历史信息，但对于t时刻之后的数据未进行学习。这种单向的学习方式增加了模型过拟合的风险，降低了重建数据的精度。

双向长短时记忆网络(BiLSTM)结合了从序列起点到末尾移动的一个LSTM网络和一个从序列末尾向序列起点移动的LSTM网络，t时刻的输出综合考虑了历史若干输入信息和未来若干输入信息，如图4所示。

在Forward层从1时刻到，时刻正向计算输入时间序列X＝{X₁,X₂…,X_i}每个时间步的隐藏状态，得到X_i的正向输出

再由Backward层沿着时刻i到时刻1进行反向计算，得到X_i的反向输出结果

Forward层和Backward层共同连接着输出层，结合两个LSTM网络每个时刻输出的结果

与

通过相加、平均值或连接等方式得到最终输出。

3、变分自动编码器(VAE)

典型的自动编码器(Autoencoder，AE)是一种三层神经网络，由编码层将原始的n维输入数据

映射到m维的中间隐藏层，提取到非线性特征

再由解码层将隐藏层向量重构为n维输出数据

训练过程以最小化输入X_i和输出Y_i的重建误差为模型参数的优化目标，重建误差loss的计算公式如下：

传统自动编码器易出现过拟合现象，变分自编码器(VAE)整体结构与自编码器AE相似，不同之处在于该模型对中间隐藏层提取的特征进行了扰动处理，生成类似但不同于训练数据的新样本。变分自编码器(VAE)的结构如图5所示。

编码层输出两个特征向量m＝{m₁,m₂...,m_m}与σ＝{σ₁,σ₂...,σ_m}，然后根据标准正态分布生成一个向量数据e＝{e₁,e₂...,e_m},最后执行公式得到最终的隐藏层特征向量C_i＝exp(σ_i)×e_i+m_i。

实际生产环境中，设备日常运行过程中异常情况的出现时间远小于正常运行的时间，异常发生的频率很低导致可供分析的异常数据不足。并且，因为云边协同模式下智能工厂的设备工作场景不断动态变化，业务类型会不断更新升级，导致了异常故障种类的多样性。而VAE作为一种无监督学习算法只需根据正常数据样本进行训练，无需学习故障数据的特征，通过对比原始数据X与重构数据Y之间的差异，若重构数据与原始数据的残差过大(即重构误差过大)，则认为可能存在异常。

虽然VAE可以解决正常数据与异常数据的样本量失衡问题，但存在着难以识别正常数据与异常数据的残差区间，以及对时序数据学习效果不佳的问题。因此，本发明通过将处理时序数据效果较佳的Bi-LSTM网络嵌入至VAE的编码层与解码层，构建一种BiLSTM-VAE模型，其结构如图6所示。

BiLSTM-VAE模型通过X_i和Y_i的残差Loss_i与重建阈值δ的大小比较进行异常判定，阈值的计算公式如下；

σ＝p·max(||X-Y||²)；

其中，δ为重建阈值，α和β分别表示BiLSTM-VAE模型对正常数据的重建误差值集合的90％分位数和异常数据的重建误差值集合的10％分位数。

BiLSTM-VAE模型的超参数设置困难，不合适的超参数将导致模型诊断精度偏低、误报率偏高，并且单个故障检测模型存在对正常数据与异常数据的重建误差区间分化不够明显的问题。因此，本发明设置K个隐层维度不同的BiLSTM-VAE故障检测模型共同求取残差，每个故障检测模型都会产生一组重建数据，最终每个时间步数据的故障检测结果为各个故障检测模型的重建误差在权重矩阵下的加权和。

具体实施过程中，边缘服务器将各个边缘节点故障检测模型输出的重建误差进行加权计算得到综合重建误差；然后基于各个故障检测模型对应的残差阈值进行加权计算得到综合残差阈值；最后比较综合重建误差和综合残差阈值，以判断设备是否存在故障。

通过如下公式计算综合重建误差：

表示故障检测模型k_j的重建误差权重；

通过如下公式计算综合残差阈值：

式中：δ_j表示故障检测模型k_j的残差阈值；

表示故障检测模型k_j的残差阀值权重；

本发明通过边缘服务器将运行数据作为各个边缘节点故障检测模型的输入，并将各个边缘节点故障检测模型的输出进行加权计算以判断设备是否存在故障，使得能够通过多个布置在边缘服务器的并行边缘节点且隐层维度不同的故障检测模型之间的集成互补来提高设备异常检测性能，即每个时间步数据的故障检测结果为各个故障检测模型的重建误差在权重矩阵下的加权和，从而能够进一步提高设备异常检测的准确性。

同时，本发明中的故障检测模型(即BiLSTM-VAE模型)能够通过鲸鱼优化算法直接求解，不依赖人工调参，无需构建特定于问题场景的模型结构、无需先验经验与专业知识，从而能够进一步提高设备异常检测的实用性。

具体实施过程中，结合图7所示，云端通过如下步骤训练故障检测模型：

本实施例中，混沌策略中的混沌是指非线性系统所独有且广泛存在的一种非周期运动形式。混沌：目前尚无通用的严格的定义，一般认为，将不是由随机性外因引起的，而是由确定性方程(内因)直接得到的具有随机性的运动状态称为混沌。

混沌理论主要研究对初始状态特别敏感的动力系统的行为，其主要属性包括：遍历性(遍历一定区域所有状态的能力)、随机性和规律性。

混沌策略的目的是产生一个混乱的种群，其方法是利用一个一维混沌映射，并指定一个随机初值，不断迭代，生成一系列连续的点。

S205：通过鲸鱼优化算法(Whale Optimization Algorithm,WOA)求解得到最优的重建误差权重矩阵和残差阀值权重矩阵，进而得到故障检测模型k_j及其对应的重建误差权重

残差阀值权重

和残差阈值σ_j；

本实施例中，若验证集验证故障检测模型的训练效果不佳，则对故障检测模型的参数进行调整修改。

具体实施过程中，数据预处理包括Z-score标准化处理(同时使用独热编码one-hot encoding技术对故障标签进行离散数字化处理)和特征加强处理；特征加强处理时提取统计特征(一阶差分)和时间序列预测特征，时间序列预测特征包括指数加权移动平均法(Exponentially Weighted Moving-Average,EWMA)的预测值，以及预测值与原值的差值；

其中，指数加权移动平均法的预测值通过如下公式计算：

具体实施过程中，采用误报率和漏报率对各个故障检测模型进行评价：误报率和漏报率的值越小说明故障检测模型的效果越佳；淘汰综合评价最末尾的K₁个故障检测模型，挑选出综合评价最高的K₂＝K₀-K₁个故障检测模型；

其中，

具体实施过程中，通过精度(precision)、召回率(recall)和F-score三个评价指标评价故障检测模型的性能；

其中，

由于深度学习模型与群智能进化算法(即故障检测模型)的训练与调试需要大量的计算资源，才能保证算法模型在有限时间内达到较高的精度，计算能力与存储空间有限的边缘服务器无法负责庞大计算量的训练任务，因此本发明由装配了大量计算资源的云计算中心负责模型的训练与更新，从而保证故障检测模型的故障检测精度。

实施例二：

本实施例中公开了一种基于云边协同模式的设备异常检测方法，基于实施例一中的基于云边协同模式的设备异常检测系统实施。

如图2所示，基于云边协同模式的设备异常检测方法，具体包括以下步骤：

S1：设备层获取设备的运行数据；

最后，由于深度学习模型与群智能进化算法(即故障检测模型)的训练与调试需要大量的计算资源，才能保证算法模型在有限时间内达到较高的精度，计算能力与存储空间有限的边缘服务器无法负责庞大计算量的训练任务，因此本发明由装配了大量计算资源的云计算中心负责模型的训练与更新，从而保证故障检测模型的故障检测精度。

具体的：

1、鲸鱼优化算法(WOA算法)

AP＝min_AP+max_AP*t/t_max；

式中：t当前迭代次数；t_max最大迭代次数。

(1)收缩捕食(p＜AP)

a)包围猎物(|A|≥1)

表1鲸鱼位置迭代公式对比

收缩包围猎物阶段的鲸鱼位置迭代公式表示为：

C＝1.5*sin(2π*rand₃)+0.5；

式中：rand₁、rand₂和rand₃均为[0,1]之间的随机数；

分别表示座头鲸i在第t和t+1次迭代的位置；

是从当前种群中随机选择的个体；D表示个体

迭代移动距离；A表示个体

b)狩猎行为(|A|<1)

表2鲸鱼位置迭代公式对比

狩猎阶段的鲸鱼位置迭代公式表示为：

l＝a2+rand₄；

式中：

是当前精英解集合中随机选择的个体；

(2)随机搜索捕食(p≥AP)

除了靠近已知猎物，鲸鱼还进行新猎物的搜索。

表3新猎物的搜索公式对比

新猎物的搜索公式表示为：

式中：

表示座头鲸i在第t+1次迭代的位置；

2、双向长短时记忆网络(BiLSTM)

f_t＝σ*(W_f[h_t-1,x_t]+b_f)；

i_t＝σ(W_i[h_t-1,x_t]+b_i)；

通过f_t表达对C_t-1的期望替换部分，i_t表达了对新信息

的期望添加部分，以实现状态信息的更新：

o_t＝σ(W_o[h_t-1,x_t]+b_o)；

h_t＝o_t*tanh(C_t)；

与

通过相加、平均值或连接等方式得到最终输出。

3、变分自动编码器(VAE)

映射到m维的中间隐藏层，提取到非线性特征

再由解码层将隐藏层向量重构为n维输出数据

σ＝p·max(||X-Y||²)；

通过如下公式计算综合重建误差：

表示故障检测模型k_j的重建误差权重；

通过如下公式计算综合残差阈值：

式中：δ_j表示故障检测模型k_j的残差阈值；

表示故障检测模型k_j的残差阀值权重；

本实施例中，通过混沌策略初始化深度模型的参数是现有常规手段，这里不再赘述。

残差阀值权重

和残差阈值σ_j；

其中，指数加权移动平均法的预测值通过如下公式计算：

其中，

其中，

为了验证本发明提出的云边协同异常检测系统与BiLSTM-VAE-WOA算法(即故障检测模型+鲸鱼优化算法的框架)的有效性，本实施例中公开了如下实验。

本实验在自主开发的智能工厂云边协同网络管理平台上进行应用，如图8所示。

一、实验数据

利用实验室设备数据和一个服务器硬盘数据集对所提方法的有效性和优越性进行试验验证。由于智能工厂在生产过程中会产生大量的设备运行数据，因此云边协同网络需要大量的固态硬盘SSD以满足大数据的存储需求。SSD故障的多发性会影响服务器甚至整个云边协同网络的稳定性和可靠性，数据的安全性也无法得到保护。因此对服务器硬盘的故障实时检测是大型IT数据设施的重大课题之一。

二、实验参数

经过对算法参数的多次调整，最终发现按表4与表5设置BiLSTM-VAE模型与WOA算法的参数时，异常检测效果最佳。BiLSTM-VAE模型的参数设置如表4所示，其中，设置K₀＝30个隐层维度不等的故障检测模型；features表示数据集输入特征数量；隐藏层维度hidden_dim取值范围为10～160，间隔为5。WOA算法按表5设置参数时，寻优效果最佳。

表4 BiLSTM-VAE模型参数

表5 WOA算法参数

三、实验结果

3.1实验结果。

首先将异常检测集成框架与单个BiLSTM-VAE故障检测模型对数据的重建结果进行对比，分别选择正常数据集拟合度最高的BiLSTM-VAE1与在异常数据集上检测正确率最高的BiLSTM-VAE2。BiLSTM-VAE-WOA、BiLSTM-VAE1与BiLSTM-VAE2对数据的重建误差情况分布如图8、图9、图10所示，其中临界线以下点表示正常数据，临界线以上点表示异常数据。对正常数据与异常数据的残差密度分布概率如图11所示。

可以看出，由于隐层维度的不同，BiLSTM-VAE1和BiLSTM-VAE2对异常数据的重建误差表现差距较大，前者的重建误差整体相对偏大并且较为分散，后者重建误差的数值更小更集中。而BiLSTM-VAE-WOA对异常数据的重建误差最为集中，其对正常序列的重建误差密度分布区间也更靠左，正常与异常部分的重合面积明显小于单个故障检测模型。

结果表明单个故障检测模型在各个指标均劣于BiLSTM-VAE-WOA方法，说明异常检测集成框架有效优化了单个BiLSTM-VAE模型的特征学习和故障检测性能，提高了识别异常状态目标的整体检测正确率。

为了进一步评估本文提出的方法，将异常检测集成框架与MSET、LSTM-AE、T-squared+Q(PCA)、LSTM等市面上具有代表性的算法进行对比，其误报率(FAR)、漏报率(MAR)与F1指标。所提BiLSTM-VAE-WOA方法在上述指标上均有最佳表现，说明了集成方法相较于其他方法更擅于辨别出时间序列中的异常序列，检测正确率最高。

另外为了验证所提出方法的性能，不仅采用SDAE、PCA、KPCA、LGPCA和LSTM-AE等经典算法进行测试，还引用了一些新的改进深度学习模型，例如1DRCAE算法、CLSTM-AE模型、LE-DBN模型和SSAE算进行比较。

结果表明对比方法由于从时序数据中学习故障相关方面的特征信息效率较低，均无法有效地检测这些故障，但是本发明的BiLSTM-VAE-WOA可以非常有效地识别三类故障，检测成功率指标达到100％，在检测轻微故障方面表现优秀。并且BiLSTM-VAE-WOA方法对21个故障的平均FDR/DR指标为最优。这些测试结果证明了本专利提出方法较强的特征学习与故障检测的性能。

3.2服务器硬盘SSD数据集实验

服务器硬盘SSD数据集来自自主开发的平台服务器的50万+硬盘运行数据，该数据集由102个维度的原始SMART数据与标准化SMART数据组成，其包含了硬盘的硬件如磁头、盘片、马达、电路的运行情况数据。

图12显示了BiLSTM-VAE-WOA算法对服务器硬盘故障的检测结果，对正常运行数据与故障数据的分化明显，证明了算法可以较好地解决数据集中频发的数据噪音、极度失衡的正常数据与异常数据的比例等问题。其中临界线以下点表示正常数据，临界线以上点表示异常数据。

由图13可知，由于隐层维度的不同，使得BiLSTM-VAE1计算的残差相对偏小，BiLSTM-VAE2计算的残差相对偏大，但正常与异常部分重合面积均较大，使得残差在异常阈值附近的时序数据不能得到正确的判定。而本发明的集成算法BiLSTM-VAE-WOA对异常数据的残差密度分布区间更靠右，更小的重合面积使得残差分化更加明显。

综上所述，本发明针对云边协同模式下智能工厂的设备种类繁杂、故障类型多样化导致的设备异常难以检测问题，结合了变分自编码器、BiLSTM、WOA等算法，提出了一种故障检测模型(BiLSTM-VAE-WOA)。故障检测模型首先在云端使用训练集对多个隐藏层维度不同的BiLSTM-VAE进行训练，然后通过WOA算法与测试集求解故障检测模型的最佳残差阀值与权重矩阵，最后在异常检测阶段，边缘服务器下载训练完成的故障检测模型与最佳残差阀值、权重矩阵，通过并行计算的方式获得各个故障检测模型产生的输出，并进行加权集成获得最终的异常判定结果。

通过SKAB数据集、TEP数据集与服务器硬盘SSD异常数据集进行了仿真实验。实验结果表明：与传统的异常检测方法相比，本发明的模型可以有效地降低异常检测的误报率，提高准确率与实时性，而且检测模型在三个实验数据集中均有综合最佳表现，拥有较强的适应性与通用性，有利于推广该方法在云边协同模式下的各个场景的大规模应用。通过该方法对设备运行过程的异常反应频率进行检测并提醒相关管理人员，帮助企业获得更长的反应时间做出应当措施，防止对生产经营活动造成更大的损失。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。