CN117633448A

CN117633448A - 一种基于云边协同的设备集群健康监测方法

Info

Publication number: CN117633448A
Application number: CN202311710443.5A
Authority: CN
Inventors: 吴以凡; 胡承凯; 叶挺聪; 许艳萍; 张桦
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-03-01

Abstract

本发明公开了一种基于云边协同的设备集群健康监测方法，步骤1、构建数据集并预处理；步骤2、模型训练，模型训练阶段涉及边缘端本地模型的迭代训练，以及通过基于加权卡帕值设计的模型聚合策略，迭代聚合生成云端全局模型、组模型和边缘端边缘模型，直至云边通信次数达到阈值。步骤3、设备健康监测，在边缘端，每个边缘节点的边缘模型承担健康监测任务。运行中的设备持续上传设备数据至边缘端。一旦监测到设备处于故障状态，边缘端将记录该设备的故障发生时间和故障类型，并将这些信息上传至云端，最终由云端统一发布告警。该方法应用在实际生产中能够针对设备提供实时精准的健康状态监测，特别针对设备是否处于健康状态的推理。

Description

一种基于云边协同的设备集群健康监测方法

技术领域

本发明涉及工业设备集群监测技术领域，具体指一种基于云边协同的设备集群健康监测方法。

背景技术

当今，云边协同技术已成为工业互联网的重要组成部分。该技术旨在通过整合和抽象分布广泛、资源异构的边缘节点、终端设备，实现云边端分布式资源统一视角管理和使用。在设备健康监测场景中，设备运行环境复杂、数据样本不足等问题日益突出。同种设备在不同的工作场景中都会展现出不同的数据特征，并且随着使用时间的推移，这些特征也在不断的发生变化。现实中对于单个工厂而言，其采集的设备数据量往往不足以完成一个高精度、高泛化的模型训练任务。为了解决上述问题，采用云边协同技术来实现设备健康监测显然是一个理想的选项。

针对目前基于云边协同实现设备健康监测的方法，传统做法是在各个边缘端进行数据处理和模型构建，然后将构建好的模型上传至云端，进行多个边缘端模型的聚合。这种方式通过迭代聚合实现全局模型的构建。虽然上传模型相对于上传训练数据至云端，能够显著降低云边通信成本和设备数据泄露风险，但通用的全局模型并不能在所有生产环境下实现高精度监测。在实际生产中，误诊设备健康问题可能导致比误诊具体故障类型更严重的财产和人员损失。然而，过去的研究多数将设备健康和具体故障类型推理视为同等重要的任务，忽略了设备健康状态推理失误可能带来的重大影响。

发明内容

本发明针对现有技术的不足，提出一种基于云边协同的设备集群健康监测方法，旨在实现工业设备健康状态的实时动态监测。其目标是在不同工作环境下实现实时、精准的告警，并将设备是否处于健康状态的诊断置于首要位置。

为了解决上述技术问题，本发明的技术方案为：

一种基于云边协同的设备集群健康监测方法，包括如下步骤：

步骤1、构建数据集并预处理

设备端采集设备数据并上传至边缘端，在边缘端进行设备数据的标注，完成标注的设备数据通过滑动窗口的过采样方法进行数据切片，最后完成边缘端中各个边缘节点的本地训练集以及测试集的构建；

步骤2、模型训练

模型训练阶段涉及边缘端本地模型的迭代训练，以及通过基于加权卡帕值设计的模型聚合策略，迭代聚合生成云端全局模型、组模型和边缘端边缘模型，直至云边通信次数达到阈值。

步骤2-1、云端初始模型生成及下发：初始模型的每层权重随机生成，遵循N(0,1)的正态分布，随后将初始模型下发至所有边缘节点，作为步骤2-2中各个边缘节点的本地模型；该模型的输入为固定大小的1维数据切片，输出为设备的健康状态；

步骤2-2、边缘端本地模型训练：边缘端中各边缘节点的本地模型使用该节点的本地训练集进行训练，当训练迭代次数达到最大值或精度达到预期精度时，训练结束；随后，本地模型使用本地测试集计算加权卡帕值，并将各边缘节点的本地模型、本地模型加权卡帕值、本地训练集样本数量以及本地训练集数据特征上传至云端；

步骤2-3、云端全局模型与组模型生成：云端针对各个边缘节点上传的训练集数据特征，利用K-Means算法进行聚类分组，得到边缘节点的分组结果，将各个分组内的边缘节点本地模型聚合生成组模型，并下发至分组内的边缘节点；将所有边缘节点的本地模型聚合生成全局模型，并下发至所有边缘节点；若云边通信次数达到阈值，则将聚合结束的信号下发至边缘端；

步骤2-4、边缘端边缘模型生成：边缘端中各边缘节点将本地模型以及云端下发的全局模型、组模型分别使用本地测试集计算加权卡帕值；接着，利用这三个模型的加权卡帕值作为模型聚合时的权重分配依据，根据边缘模型聚合策略获得边缘模型，如果接收到步骤2-3中聚合结束的信号，则停止模型训练；否则，各边缘节点将复制边缘模型的模型参数至本地模型,并重复执行步骤2-2；

步骤3、设备健康监测

在边缘端，各个边缘节点的边缘模型承担健康监测任务。运行中的设备持续上传设备数据至边缘端，各个边缘节点将设备数据传入边缘模型进行设备健康监测。一旦监测到设备处于故障状态，边缘节点将记录该设备的故障发生时间和故障类型，并将这些信息上传至云端，最终由云端统一发布告警。

作为优选，所述云端指的是远程的、集中的计算资源，可以是大型的数据中心或服务器群。

所述边缘端指的是介于设备端和云端之间的位置。在边缘端，数据处理和计算发生在接近数据源的位置，可以是接近设备的本地网关、微型数据中心、本地服务器。

所述设备端指的是最接近数据源的位置，可以是各类传感器、信号发生器。

作为优选，所述初始化全局模型为GRU、LSTM、CNN中任意一种或组合。

作为优选，所述设备数据的类型包括加速度、振动、电流信号。

作为优选，所述步骤2-2中，得到本地训练集的数据特征的方法为：通过深度学习网络的前向传播得到一个高维的特征张量。然后通过取平均的降维方法，将其转换为一个低维的特征张量。

作为优选，所述组模型和全局模型的生成均采用加权卡帕K_mul值以及训练集样本数量作为模型权重分配依据。

作为优选，所述全局模型生成公式为：

其中T为边缘节点数量，K_muli表示第i个边缘节点完成本地模型训练后上传的加权卡帕值，Sum表示排除加权卡帕值小于等于0的边缘节点之后，所有符合条件的边缘节点所上传的加权卡帕值与本地训练集样本数量乘积的总和，表示第j+1轮训练时聚合生成全局模型的模型参数，/>表示在第j轮训练时边缘节点i完成本地模型训练后上传的本地模型参数。

作为优选，所述组模型的生成公式为：

其中，Sum_Z表示所属分组Z中，排除加权卡帕值小于等于0的边缘节点之后，所有符合条件的边缘节点所上传的加权卡帕值与本地训练集样本数量乘积的总和，表示第j+1轮训练时聚合生成分组Z的组模型参数。

作为优选，所述加权卡帕值计算方式为：传入Multiple参数，加权放大模型分类混淆矩阵中将故障数据误识别为正常数据和将正常数据误识别为故障数据的系数，接着，利用加权所得的混淆矩阵计算其卡帕系数，得到加权卡帕值。

具体的，假设有混淆矩阵A：

混淆矩阵中α_ij表示将第i类数据误分类为第j类数据的数量。假设第1类数据是正常样本，而第2至第n类数据代表不同的故障类型。

所述混淆矩阵加权公式为：

α_1j(j＞¹)＝α_1j*mul

α_j1(j＞1)＝α_j1*mul

所述卡帕系数计算公式为：

卡帕系数取值范围在-1到1之间。卡帕值接近1表明模型识别结果与实际数据样本标签越接近，而小于0的卡帕值表明模型的识别结果比随机预测结果更差。

作为优选，所述步骤2-4中，边缘模型的聚合策略为：

当全局模型与组模型的加权卡帕值均小于等于0时，边缘端放弃模型聚合，边缘模型由复制本地模型参数所得；

当全局模型与组模型的加权卡帕值至少有一个大于0时，边缘端会将全局模型、组模型与边缘节点本地模型进行聚合，得到边缘模型；

所述边缘模型聚合公式为：

其中K_mul _1-3代表全局模型、组模型以及本地模型使用该边缘节点测试集计算所得的加权卡帕值，W_1-3代表全局模型、组模型以及本地模型的模型参数，Sum_f表示所有加权卡帕值大于0的总和，模型聚合时，每个模型的聚合权重是由该模型使用边缘节点测试集计算所得的加权卡帕值与Sum_f的比值确定的，W_f则代表聚合所得边缘模型的模型参数。

在聚合过程中，当参与聚合模型(全局模型、组模型、本地模型)的加权卡帕值小于等于0时，对应模型的聚合权重会被设定为0，因此该模型不会参与到模型聚合中。

本发明具有以下的特点和有益效果：

采用上述技术方案，1、提出的基于云边协同的设备集群健康监测技术，利用自定义的加权卡帕系数来确定模型聚合的权重，从而增强聚合模型在面对数据样本分布不均衡以及设备是否处于健康状态识别时的可靠性。2、设计并提出边缘端的边缘模型聚合策略，并将聚合所得的边缘模型参数复制至本地模型，极大地提高训练过程中本地模型的收敛速度和泛化能力。3、模型训练结束后，由各个边缘节点的边缘模型承担健康监测任务，能够显著提升边缘端健康监测的准确率。4、在云端根据不同边缘节点训练数据集的数据特征进行聚类分组，通过聚类结果进行模型聚合，所得组模型在对应分组的边缘节点表现出较高的性能，从而在聚合生成边缘模型时增强边缘模型的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例整体框架图。

图2为本实施例模型架构图。

图3为本实施例在CWRU数据集模型训练过程中的正确率变化示意图。

图4为本实施例在CWRU数据集模型训练过程中的加权卡帕值变化示意图。

图5为本实施例在JNU数据集模型训练过程中的正确率变化示意图。

图6为本实施例在JNU数据集模型训练过程中的加权卡帕值变化示意图。

图7为本实施例模型聚合算法示意图。

图8为本实施例在CWRU数据集中边缘模型混淆矩阵图。

图9为本实施例在JNU数据集中边缘模型混淆矩阵图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

本发明提供了本实施例提供一种基于云边协同的设备集群健康监测方法，该方法应用在实际生产中能够针对设备提供实时精准的健康状态监测，特别针对设备是否处于健康状态的推理。

本实施例中，硬件环境采用Intel i5-12500H(2.50GHz,8cores)，配备32GB DDR4内存。软件环境为Ubuntu 18.04.1，Python 3.6.5。实验基于PyTorch框架建立了一个自定义学习率、批量大小、权重衰减以及混淆矩阵加权参数(Multiple参数)的云边协同模型训练框架。实验的主要目的在于比较分析模型训练过程中云端的全局模型、组模型以及各边缘节点的本地模型在各个边缘节点测试集中的推理表现。同时验证边缘模型最终的性能表现，以及采用加权卡帕值作为模型聚合权重分配依据的可行性。

图1为本实施例在云边协同架构上实现设备健康监测的整体框架图。本实施例的整体框架分为云端，边缘端以及设备端。三端协同工作的具体步骤如下：

S1、数据集构建阶段，设备端采集设备数据并上传至边缘端。本实施例中设备数据为时序振动数据。边缘端将设备数据以人工标记的方式进行标注，并在标注完成后，按比例划分为训练集和测试集。随后，数据集会按照指定的固定窗口大小进行切片，形成单独的数据样本。对于训练集中样本较少的类别，采用滑动窗口的方式进行过采样，以增加训练样本数据。最终完成各个边缘节点的本地训练集以及测试集的构建。

具体的，本实施例中，数据集选用了凯斯西储大学(CWRU)滚动轴承的振动数据集和江南大学(JNU)滚动轴承的振动数据集，用于全面准确地评估模型性能。

CWRU轴承数据集包含四个数据集，数据集A：在12Khz采样频率下的驱动端轴承故障数据；数据集B：在48Khz采样频率下的驱动端轴承故障数据；数据集C：在12Khz采样频率下的风扇端轴承故障数据；数据集D：正常的轴承数据。

本实施例选用数据集B以及数据集D作为模型推理数据集。数据集B在48Khz采样频率下的驱动端轴承故障直径又分为0.007英寸、0.014英寸、0.028英寸三种类别，每种故障下负载又分为0马力、1马力、2马力、3马力。在每种故障的每种马力下有轴承内圈故障、轴承滚动体故障、轴承外环故障(由于轴承外环位置一般比较固定，因此外环故障又分为3点钟、6点钟和12点钟三种类别)。本实施例将同一故障类型中不同故障直径的数据视为同一种故障，而不同的工作负载视为不同的工作环境。在CWRU轴承数据集中，本实施例将数据集划分为16份数据用于构建不同边缘节点的数据集。具体分布如下表所示：

表1边缘端CWRU数据集分布

JNU轴承数据集采样频率为50Khz，数据类型分为轴承内圈故障、轴承外圈故障、轴承滚动体故障以及正常的轴承数据。其中轴承的转速分为600RPM、800RPM、1000RPM，本实施例中将该数据集中不同的轴承转速视为不同的工作环境。在JNU轴承数据集中，本实施例将数据集划分为12份数据用于构建不同边缘节点的数据集。具体分布如下表所示：

表2边缘端JNU数据集分布

在本实施例中，设置了学习率为0.001，批量大小为64，权重衰减为1e-5。边缘端模型的最大训练周期为3个epoch，在CWRU数据集中，Multiple参数取1.5，K-Means簇值为4。在JNU数据集中，Multiple参数取1.5，K-Means簇值为3。

S2、模型训练阶段，该阶段涉及边缘端本地模型的迭代训练，以及通过基于加权卡帕值设计的模型聚合策略，迭代聚合生成云端全局模型、组模型和边缘端边缘模型，直至云边通信次数达到阈值。具体步骤过程如下：

S2-1云端初始模型生成及下发阶段

云端生成一个初始模型。该模型每层的权重随机生成，并且遵循N(0,1)的正态分布，随后将初始模型下发至所有边缘节点。考虑到边缘端设备受限的算力，边缘端中无法支持高复杂度模型的部署，因此需要针对边缘端资源有限性进行合理的模型设计和优化。

在本实施例中，全局模型是一个深度学习网络，结构如图2所示，包含输入层、卷积层、池化层、LSTM层和线性层。输入层：接收固定长度的一维设备数据。一维卷积层：接收一维特征序列，具有1个通道，输出64个特征通道的序列。批量归一化层：减少每层内部协变量偏移，保持输入相对稳定，提高梯度下降效率。激活函数采用ReLU对64个特征通道进行非线性变换，加强学习复杂函数能力。Dropout层：作为正则化技术，暂时“丢弃”神经网络单元以提高泛化能力。池化层：通过选取最大值进行降采样减少数据维度，保留主要特征。第二层卷积网络类似于第一层，在两层卷积网络之后接入LSTM层。LSTM层：捕获数据时间关联性，进一步提高模型精度。线性层：接收来自LSTM层的64隐藏单元输入，输出4个神经元，对应最终输出的设备健康状态。

S2-2边缘端本地模型训练阶段

在首轮模型训练中，边缘端使用云端下发的初始模型作为本地模型。非首轮训练时，将步骤S2-4中边缘模型的模型参数复制至本地模型。本地模型使用本地训练集进行模型训练，当模型训练迭代次数达到最大值或者模型精度达到预期精度时，本地模型结束训练。随后，本地模型使用本地测试集计算加权卡帕值，并将各边缘节点的本地模型、本地模型加权卡帕值、本地训练集样本数量以及本地训练集数据特征上传至云端。本实施例中，首先将本地测试集通过深度学习网络的前向传播得到的一个64*4的特征张量。然后通过取平均的降维方法，将其转换为一个1*4的特征张量，作为本地训练集的特征。

S2-3云端全局模型与组模型生成阶段

云端针对各个边缘节点上传的训练集数据特征，利用K-Means算法进行聚类分组，得到边缘节点的分组结果。

全局模型由所有边缘节点本地模型聚合生成。具体的模型聚合算法在图7中展示，其过程中考虑了每个边缘节点上传的加权卡帕值以及本地训练集的样本数量。相对而言，组模型由各个分组内的边缘节点本地模型分别聚合生成，其模型聚合策略与全局模型一致。

模型聚合公式为：

Sum为排除加权卡帕值小于等于0的边缘节点之后，所有符合条件的边缘节点的加权卡帕值与其本地训练集样本数量乘积的总和。W^j+1表示在j+1轮训练时聚合所得模型的模型参数，该模型可以是组模型也可以是全局模型。模型聚合权重分配的具体策略为：计算各个边缘节点的加权卡帕值与其本地训练集样本数量的乘积在Sum中所占比重，根据上述比重来确定边缘节点本地模型在模型聚合时的聚合权重。完成全局模型和组模型的生成后，将全局模型下发至所有边缘节点，而组模型则下发至其所属分组的所有边缘节点。若云边通信次数达到阈值，则将聚合结束的信号下发至边缘端。

S2-4边缘端边缘模型生成阶段

边缘端中各个边缘节点将本地模型以及云端下发的全局模型、组模型分别使用本地测试集计算加权卡帕值。接着，利用这三个模型的加权卡帕值作为模型聚合时的权重分配依据，根据边缘模型聚合策略获得边缘模型。如果接收到步骤S2-3中聚合结束的信号，则停止模型训练；否则，重复执行步骤S2-2。

边缘模型聚合策略分为两种情况：1、当全局模型与组模型的加权卡帕值均小于等于0时，该边缘节点放弃模型聚合，边缘模型由复制本地模型参数所得。2、当全局模型与组模型的加权卡帕值至少有一个大于0时，该边缘节点会将全局模型、组模型与本地模型进行聚合生成边缘模型。在聚合过程中，当参与聚合模型的加权卡帕值小于等于0，对应模型的聚合权重会被设定为0，因此该模型不会参与到模型聚合中。

所述边缘模型聚合公式为：

S3、设备健康监测阶段

边缘端中各个边缘节点的边缘模型承担健康监测任务。在本实施例中各个边缘节点通过监听机制获取设备上传的设备数据，并将设备数据传入边缘模型进行设备健康监测。一旦监测到设备处于故障状态，边缘节点将记录该设备的故障发生时间和故障类型，并将这些信息上传至云端，最终由云端统一发布告警。

基于上述本实施例提供的技术方案得到以下结果

表3CWRU数据集中模型正确率百分比

表4CWRU数据集中模型加权卡帕值百分比

在CWRU数据集中，根据表3和表4显示的结果，本地模型、组模型和全局模型在各边缘节点测试集的正确率和加权卡帕值展示如下：对于CWRU数据集的训练，组模型的正确率均值相较于本地模型提高了0.18％，比全局模型高出了3.29％。在加权卡帕均值方面，组模型相较于本地模型高出了2.18％，比全局模型高出了6.47％。

表5JNU数据集中模型正确率百分比

表6JNU数据集中模型加权卡帕值百分比

本实施例中，针对JNU数据集，表5和表6显示了本地模型、组模型以及全局模型在各个边缘节点测试集的正确率和加权卡帕值。在JNU数据集的训练中，与本地模型相比，组模型的正确率均值提高了0.78％，比全局模型提升了6.75％。在加权卡帕均值方面，组模型比本地模型高出了2.39％，高出全局模型的均值13.11％。

在上述两组数据集的测试结果中观察到，组模型相对于全局模型在所属分组的边缘节点测试集中表现出更高的推理精度。同时，在某些边缘节点的测试集中，组模型的推理精度高于本地模型。因为组模型由类似工作环境下的边缘节点本地模型聚合生成，拥有更多相似工作环境数据样本的支撑。而全局模型是由所有不同工作环境下的边缘节点本地模型聚合生成。

除了各个模型的最终表现之外，在整个模型训练过程中全局模型和组模型的表现也有较大差异。如图3，图4所示在CWRU数据集中组模型在第5次云边通信进行模型聚合时在边缘端测试集中已经实现高精度监测，而全局模型则在第10次云边通信进行模型聚合时才实现较高精度监测。由于CWRU的数据集不同故障类型的数据特征差异较为明显且数据噪声较少，本地模型、组模型以及全局模型都较快的实现了高精度监测。在JNU数据集的训练过程中组模型与全局模型则呈现了一个极大的差异。如图5，图6所示我们可以清晰的看到组模型在第5次云边通信进行模型聚合时已经实现高精度监测，而全局模型则在第45次云边通信时才实现较高精度监测。且整个训练过程中组模型在边缘端的表现远优于全局模型。

由于组模型的优异表现，经由全局模型、组模型和本地模型聚合得到的边缘模型展现出了出色的性能。图8、图9为边缘模型在CWRU数据集以及JNU数据集中的混淆矩阵，其中混淆矩阵中标签0-3分别代表设备状态为：轴承健康、轴承滚动体故障、轴承内圈故障、轴承外环故障。从图8中可以看出，边缘模型在CWRU数据集中实现了对设备健康的高精度监测，尤其是在识别设备是否处于健康状态方面达到了100％的正确率。另一方面，根据图9中边缘模型在JNU数据集的混淆矩阵显示，边缘模型在针对标签1的故障类型识别精度不高。尽管如此，由于模型聚合过程中采用了加权卡帕值作为权重分配依据，导致标签1的故障类型不会被误识别为健康状态，在实际生产过程中能够极大的降低风险。除标签1外，边缘模型对JNU数据集中的其余标签都表现出了较好的识别精度。

此外由图4，图6与图3，图5对比可以发现加权卡帕值相较于正确率而言能更好的区分模型性能。本实施例中Multiple参数为1.5，将混淆矩阵中设备是否处于健康状态推理错误的系数进行加权放大。同时，卡帕值本身会对不平衡的混淆矩阵倾向性地赋予较低的分数。

Kappa系数计算公式为：

下面给出两个混淆矩阵一个是无偏向的混淆矩阵A，另一个则是有偏向的混淆矩阵B

在这种情况下，虽然混淆矩阵A和混淆矩阵B的正确率相同(60％)，但卡帕值的差异显示了两个模型性能的不同。混淆矩阵A的卡帕值为0.4，表明该模型相对于随机猜测要好一些。然而，混淆矩阵B的卡帕值为0.0，这意味着该模型的性能等同于随机猜测。因此，在反映模型性能方面，卡帕值能更好地区分这两个模型的能力。

由此可以得出通过使用加权卡帕值作为模型聚合权重分配的依据，可以极大程度上确保聚合后模型的性能。同时，在图6中清晰地观察到，本地模型并没有受到全局模型的影响，导致模型质量的显著下降。这进一步验证了边缘模型聚合策略的有效性。以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于云边协同的设备集群健康监测方法，其特征在于，包括如下步骤：

步骤1、构建数据集并预处理

步骤2、模型训练

步骤3、设备健康监测

运行中的设备持续上传设备数据至边缘端，各个边缘节点将设备数据传入边缘模型进行设备健康监测，一旦监测到设备处于故障状态，边缘节点将记录该设备的故障发生时间和故障类型，并将这些信息上传至云端，最终由云端统一发布告警。

2.根据权利要求1所述的一种基于云边协同的设备集群健康监测方法，其特征在于，所述初始模型为GRU、LSTM、CNN中任意一种或组合。

3.根据权利要求1所述的一种基于云边协同的设备集群健康监测方法，其特征在于，所述设备数据的类型包括加速度、振动、电流信号。

4.根据权利要求1所述的一种基于云边协同的设备集群健康监测方法，其特征在于，所述步骤2-2中，得到本地训练集的数据特征的方法为：通过深度学习网络的前向传播得到一个高维的特征张量，然后通过取平均的降维方法，将其转换为一个低维的特征张量。

5.根据权利要求1所述的一种基于云边协同的设备集群健康监测方法，其特征在于，所述步骤2-3中云端全局模型与组模型生成均采用加权卡帕K_mul值以及训练集样本数量作为模型权重分配依据。

6.根据权利要求5所述的一种基于云边协同的设备集群健康监测方法，其特征在于，所述全局模型生成公式为：

其中T为边缘节点数量，K_{mul i}表示第i个边缘节点完成本地模型训练后上传的加权卡帕值，Sum表示排除加权卡帕值小于等于0的边缘节点之后，所有符合条件的边缘节点所上传的加权卡帕值与本地训练集样本数量乘积的总和，表示第j+1轮训练时聚合生成全局模型的模型参数，/>表示在第j轮训练时边缘节点i完成本地模型训练后上传的本地模型参数。

7.根据权利要求6所述的一种基于云边协同的设备集群健康监测方法，其特征在于，所述组模型的生成公式为：

8.根据权利要求5或6或7所述的一种基于云边协同的设备集群健康监测方法，其特征在于，所述加权卡帕值计算方式为：传入Multiple参数，加权放大模型分类混淆矩阵中将故障数据误识别为正常数据和将正常数据误识别为故障数据的系数，接着，利用加权所得的混淆矩阵计算其卡帕系数，得到加权卡帕值。

9.根据权利要求8所述的一种基于云边协同的设备集群健康监测方法，其特征在于，所述步骤2-4中，边缘模型的聚合策略为：

所述边缘模型聚合公式为：

其中K_{mul 1-3}代表全局模型、组模型以及本地模型使用该边缘节点测试集计算所得的加权卡帕值，W_1-3代表全局模型、组模型以及本地模型的模型参数，Sum_f表示所有加权卡帕值大于0的总和，模型聚合时，每个模型的聚合权重是由该模型使用边缘节点测试集计算所得的加权卡帕值与Sum_f的比值确定的，W_f则代表聚合所得边缘模型的模型参数。