CN117421582A

CN117421582A - 一种基于多源数据驱动的设备健康分析方法

Info

Publication number: CN117421582A
Application number: CN202311479845.9A
Authority: CN
Inventors: 徐瑞东; 安文静; 蔡剑钢; 何肖平; 曹隆敢; 李学伟
Original assignee: Chitic Control Engineering Co ltd
Current assignee: Chitic Control Engineering Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-01-19

Abstract

本发明公开了一种基于多源数据驱动的设备健康分析方法，涉及智能设备健康监测与故障预测领域，包括以下步骤：步骤一：多源数据采集，采集不同类型设备的数据；步骤二：数据预处理；步骤三：数据提取，提取数据源中特定的特征参数；步骤四：特征学习，分析数据之间的相关性；步骤五：健康评估与预测，建立评估与预测模型同时增量学习对模型进行增量优化；步骤六：结果可视化，本发明通过多源数据融合使故障预测准确率大大提高，比单一数据源更准确，从而避免了由于信息不全导致的误报和漏报，使得监测维度提升巨大，有效减少了离线训练无法快速响应新情况的局限性，使得故障预警时间提前了，避免事故扩大，降低企业损失。

Description

一种基于多源数据驱动的设备健康分析方法

技术领域

本发明涉及智能设备健康监测与故障预测领域，具体为一种基于多源数据驱动的设备健康分析方法。

背景技术

工业设备的性能会随服役时间的增长而慢慢衰退，有效地评估与预测设备的健康状态对于故障的预防以及提高设备可靠性都具有重要意义，而现如今对智能工业设备的维护保养主要是在以下几个方面：

1、设备健康管理

传统的设备健康管理主要依靠人工经验判断和规则建模，但这些方法存在经验不可重用、规则难以覆盖设备整个生命周期的限制；

2、设备运行数据采集

各类设备在运行过程中可以采集不同类型的数据，如振动、声音、温度、电流等运行参数，以及事件日志、报警信息等，但是传统系统一般只集中在某一种类型的数据；

3、数据驱动的设备健康分析

数据驱动分析利用机器学习等算法，从设备的多源异构数据中提取知识，建立健康评估与故障预测模型，实现更智能和全面的设备健康管理；但现有技术主要基于单一数据源，不同数据源整合运用不足；

4、在线健康监测与预警

实现设备的持续在线健康监测与预警，可以大幅提升维护的及时性和效率，降低突发故障造成的损失，但针对多源数据的在线集成分析仍面临技术挑战；

从而不难发现在工业领域常用的设备健康评估方法过于依赖专家的经验，而在实际的生产过程中，只了解设备当前的状态并不能对设备进行全面的评估，往后的时间中设备的性能还是无法了解，从而不能对工业设备进行正确的提前维护，容易出现生产事故，制约了企业高效、高质、低成本的生产，也远远滞后企业实现智能制造的需求的问题。

发明内容

本发明的目的在于提供一种基于多源数据驱动的设备健康分析方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于多源数据驱动的设备健康分析方法，包括以下步骤：

步骤一：多源数据采集，采集不同类型设备的数据，收集设备的状态数据、事件数据和历史数据，数据源包括传感器采集的状态监测数据、设备日志和报警事件数据、历史维修、故障数据；

步骤二：数据预处理，对采集的数据进行清洗去噪，补齐缺失值，时间对齐、格式规范化；

步骤三：数据提取，提取数据源中特定的特征参数，所述数据源包括：设备状态监测的时间序列数据，包含传感器采集的温度、压力、流量、震动等；

步骤四：特征学习，分析数据之间的相关性，学习数据之间的健康状态表示特征；

步骤五：健康评估与预测，基于提取的特征，建立评估与预测模型同时增量学习对模型进行增量优化；

步骤六：结果可视化，基于提取特征，构建评估与预测模型，展示健康状态评估结果；对运行设备进行实时监测与风险预警，提供预警信息、维护建议；以可视化方式展示设备健康监测结果，不同角色的用户访问控制。

作为优选，所述步骤二中补齐缺失值包括以下方法：

传感器误报导致的随机缺失采用统计值填充补齐，可以是均值、中值与众数；

设备故障导致的一段时间序列数据缺失采用插值法或者相邻平均法填充补齐，其中插值法包括线性插值与样条插值；

网络中断导致的数据传输缺失采用复制相似装置的数据进行填充补齐。

作为优选，所述步骤三中特征提取方法包括以下步骤：

S1：从时间序列数据中提取统计特征、频域特征与时间域特征，其中特征提取采用滑动窗口机制，每隔一段时间计算一个窗口的特征；

S2：将提取的特征进行融合，形成全面的设备状态表示，应用主成分分析降维方法，获得代表整体状态的主要特征。

作为优选，所述步骤四中使用深度学习算法分析数据之间的相关性，其中编码器、解码器可用全连接网络结构，包括以下步骤：

P1：数据预处理：对输入数据进行归一化预处理；

P2：网络构建：构建包含编码器和解码器的神经网络，编码器逐步减小维数，降维提取特征，解码器逐步重构输入，对称地恢复维数；

P3：前向传播：输入数据X经过编码器得到低维表示Z，再通过解码器得到重构数据X'；

P4：损失函数：使用重构错误作为损失函数，函数表达式为：

L(X,X')≤(|X-X'|)^2；

P5：反向传播：通过损失函数反向传播优化编码器和解码器的参数；

P6：编码表示：分析最终的编码表示Z的组分结构，判断不同输入维度的相关性；

P7：网络模型优化：改变网络结构、调整超参数以优化模型并提高相关性分析的效果。

作为优选，所述步骤五中建立评估与预测模型的方法包括以下步骤：

Q1：特征选择，根据Domain知识和特征重要性分析，根据模型目标和输入要求，选择与设备健康评估相关的主要特征的子集作为模型输入；

Q2：数据标注，依据设备历史失败维修数据，给样本数据打上健康状态的标注；

Q3：模型选择，选择匹配问题的模型，其中包括回归模型：预测连续健康指数、分类模型：预测故障模型、阀门算法模型与液位算法模型；

Q4：训练验证，将数据分为训练集和验证集，拟合模型参数，评估不同模型的效果；

Q5：模型优化，改进模型结构，调参优化，提高评估与预测的准确率，同时增量学习实现模型增量优化；

Q6：在线部署，选择最优模型在云平台上部署，实现对实时设备数据的评估与故障预测；

Q7：模型迭代，通过持续反馈设备运行数据，进行模型增量学习训练实现模型增量优化。

作为优选，所述模型优化中使用随机森林算法获取更优的预测性能进行模型优化，包括以下步骤：

M1：从原始训练集中通过有放回的方式抽取多个子样本；

M2：对每个子样本训练一棵决策树模型，训练时，在选取特征切分节点时增加随机性，每次从部分特征中随机抽取进行评估；

M3：测试样本经过每个决策树模型后，得到多个分类或回归结果；

M4：对测试样本进行投票或取平均，得到随机森林模型的最终分类或回归结果；

M5：通过调整数量参数，进行控制模型性能，其中数量参数包括决策树数量与特征子集大小。

作为优选，所述液位算法模型的训练验证方法包括以下步骤：

R1：通过仪表采集液位数值，记为a，并将数据保存到工业互联网系统中；

R2：从工业互联网系统中获取DCS采集的数值，记为b；

R3：判断a和b的数值是否在正常范围，如果超出正常范围进行告警；

R4：比较a与b的相对偏差，记为c，判断c是否超出允许偏差，如果超出进行告警；

R5：同理再获取液位算法模型中的时序数据与仪表数据进行对比；

R6：展示结果，如果有异常则进行推送。

作为优选，所述液位算法模型中的时序数据包括以时间和液位高度构建时序序列，按时间次序拟合成连续的曲线，进行观测液位的变化阈值通过时序序列间的相似性进行聚类分析；

时序序列：设全体液位时序序列T，T＝{t₁，t₂，t₃，…，t_i，…，t_j，…，t_n}，T是液位总体变化，在数据T中，如果0＜i＜j≤n，则称t_i先于t_j发生，称t_i与t_i+1为相邻的；

时序序列间的相似性度量：采用动态时间扭曲距离方法计算时序序列间的相似度：给定的2个时序序列T中的子序列:S＝{S₁，S₂，...，S_i，S_m}、Q＝{Q₁，Q₂，...，Q_j，...，Q_n}，其相似性计算如下，构造m*n的矩阵A，矩阵A中的每个元素为a_ij＝dis(S_i，Q_j)，在矩阵A中搜寻扭曲路径，其中起点P₁＝A₁₁，终点P_k＝A_mn，对P_h＝A_ij，P_h-1＝A_xy，必须满足连续性和单调性约束：i-x≥0；0≤j-y≤1，序列中某2个时间点之间的距离:

dis(i，j)＝min{dis(i-1，j-1)，dis(i，j-1)，dis(i-1，j)}将满足条件的i、j作为路径值添加到规整路径P中，根据规整路径:P＝(P₁，P₂，...，P_h，...，P_k)，将每个时间点上的距离求和作为2个时间序列之间的相似值sim(S，Q)。

作为优选，所述聚类分析方法中采用自底向上的层次聚类算法将层叠线性分段输出的子序列集中的每个序列看作一个初始聚类簇，然后按照簇间距离找出最近的2个类簇进行合并，不断重复该过程，直至达到预设的想查看的聚类簇个数；

所述簇间距离为不同簇的所有子序列间的扭曲距离的平均值，平均距离及计算公式为：

对所述时序序列T分类集合中的子序列T′的聚类过程如下：

输入T的模式集合T′＝{S₁,S₂,…,S_m}，目标查看簇数目k；

初始化原始簇C，对时间序列T分类集合T′中的每个子序列S_j，都作为原始簇：C_j＝{S_j}；

对原始簇C中的每个簇两两计算相似度，得到子序列相似度矩阵M：M(i,j)＝dtw(C_i,C_j)；M(j,i)＝M(i,j)；

设置当前聚类簇个数：q＝m；

在当前簇个数大于要聚类的个数时：q>k；

a)在簇相似矩阵M中找出距离最近的2个聚类簇C_i*和C_j*；

b)将簇C_i*和C_j*合并成新的簇：C_i*＝C_i*∪C_j*；

c)对相似度矩阵中的簇更新编号：

for i＝j^*+1，j^*+2，...，q；do

将聚类簇C_j重新编号为C_j-1；

d)删除相似度矩阵M中的第j^*行与第j^*列；

e)计算更新后的簇C_i*与其它簇的相似度，更新相似度矩阵M：

最后输出进行模式的划分。

作为优选，所述步骤一中多源数据采集采用分布式系统架构，在对数据源管理中采用主数据源和从数据源的架构，数据源之间采用主－从、主－主集群模式进行同步。

综上所述，本发明有益效果是：

1、本发明通过多源数据融合使故障预测准确率大大提高，比单一数据源更准确，从而避免了由于信息不全导致的误报和漏报。

2、深度学习提取特征使得监测维度提升巨大，状态检测更全面，避免了维度不足造成的监测盲区。

3、增量学习实现模型迭代，大大降低了预测误差，有效减少了离线训练无法快速响应新情况的局限性。

4、联机部署实现实时监测，使得故障预警时间提前了，从而能更早的进行预防，从而可以避免事故扩大，降低企业损失。

5、结果可视化使维护人员快速定位根因，从而能快速进行维护，维护效率大大提高了，大幅缩短了事故处理周期，为设备精准维护提供决策支持评估结果可指导设备保养和维修预测结果可用于维修资源规划，有助于降低维护成本，优化保养策略。

附图说明

为了更清楚地说明发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于多源数据驱动的设备健康分析方法流程框架结构示意图；

图2为本发明一种基于多源数据驱动的设备健康分析方法中阀门算法模型示意图；

图3为本发明一种基于多源数据驱动的设备健康分析方法中数据辅助模型算法架构框架示意图；

图4为本发明一种基于多源数据驱动的设备健康分析方法中KNN分类模型流程框架示意图；

图5为本发明一种基于多源数据驱动的设备健康分析方法中液位算法流程示意图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，可以是直接相连，也可以通过中间媒介间接相连，可以是至少两个元件内部的连通或至少两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合图1—5对本发明进行详细说明，本发明提供的实施例1：一种基于多源数据驱动的设备健康分析方法，包括以下步骤：

第一步

通过多源数据采集模块收集设备的状态数据、事件数据和历史数据，数据源包括：传感器采集的状态监测数据(振动、温度等)、设备日志和报警事件数据、历史维修、故障数据；

支持不同类型设备的数据采集，采用分布式系统架构，其中：

数据源管理：该系统采用了主数据源和从数据源的架构，主数据源用于核心系统读取，从数据源用于备份或分析等目的。数据源之间采用主－从、主－主等模式进行同步或复制；

任务分配：系统使用了类似负载均衡的技术，在多个节点之间分配读取数据源的任务，实现负载分散，提高性能；

文件系统：系统使用分布式文件系统来存储数据源，如Hadoop HDFS等，支持Sea量数据的存储和访问；

数据模型：系统采用关系数据库或NoSQL数据库来组织和管理数据。数据模型可以是结构化的表格式，也可以是文档、键值对等半结构化或非结构化模式；

集群模式：系统通过主从、主主等集群模式来部署，实现高可用性、容错性和横向扩展能力；

第二步

利用数据预处理模块对采集的数据进行处理，首先对数据进行清洗去噪、缺失值补齐，再进行时间对齐、格式规范化，最后提取数据源特定的特征参数；

1、设备运行数据中可能存在的缺失值类型：

传感器误报导致的随机缺失；

设备故障导致的一段时间序列数据缺失；

网络中断导致的数据传输缺失；

人为记录错误导致的个别缺失点；

2、针对不同类型的缺失，可采取不同的补齐方法：

对随机个别缺失点，可以用均值/中值/众数等统计值填充；

对一段时间的序列缺失，可以用线性插值、样条插值、相邻平均法等方法填充；

对装置整体缺失，可以考虑复制相似装置的数据进行填充；

对确实丢失的历史数据，也可以标记为缺失进行训练；

3、补齐时需要评估不同填充方法对模型结果的影响，选择误差最小的方案；

4、可以设定一个数据缺失比例门限，如果缺失过多则不进行训练；

5、需要记录下补齐的数据点，在模型检验时注意这部分数据的准确性。

6、数据源组成，设备运行数据源通常包含传感器采集的温度、压力、流量、震动等时间序列信号；

7、特征提取方法：

从时间序列数据中可以提取以下代表设备状态的特征：

统计特征：平均值、方差、极值等，反映信号分布；

频域特征：通过FFT等获得频谱信息，分析周期性模式；

时间域特征：峰值、方根幅值等，反映信号变化；

特征抽取可采用滑动窗口机制，每隔一段时间计算一个窗口的特征。

8、特征融合

将不同传感器等来源提取的特征进行融合，形成全面的设备状态表示，可以应用主成分分析(PCA)等降维方法，获得代表整体状态的主要特征。

9、特征选择

根据模型目标和输入要求，选择有效的特征子集作为模型输入，采用相关性分析等方法移除冗余特征。

第三步

在特征学习模块中使用深度学习等方法分析数据之间的相关性，学习数据之间的健康状态表示特征；

网络结构：包含编码器和解码器，编码器逐步降维提取特征，解码器逐步重构输入；

编码表示：输入数据经过编码器，转换为低维的特征表示，反映数据的内在结构；

网络训练：通过最小化输入和输出的差异，使编码表示尽可能包含输入信息；

相关性分析：编码层的节点组合代表不同的数据特征。通过分析编码层权重，可以发现数据间的相关性；

算法选择：编码器、解码器可用全连接网络或CNN等结构，也可参考VAE、PCA等相关技术；

算法流程：

(1)数据预处理：对输入数据进行归一化等预处理；

(2)网络构建：构建包含编码器和解码器的神经网络，编码器逐步减小维数，解码器对称地恢复维数；

(3)前向传播：输入数据X经过编码器得到低维表示Z，再通过解码器得到重构数据X'；

(4)损失函数：使用重构错误作为损失函数，如均方误差等：

L(X,X')＝(|X-X'|)^2；

(5)反向传播：通过误差反向传播优化编码器和解码器的参数；

(6)编码表示：分析最终的编码表示Z的组分结构，判断不同输入维度的相关性；

(7)网络模型优化：改变网络结构、调整超参数等以优化模型并提高相关性分析的效果。

第四步

基于提取的特征通过健康评估与预测模块，建立评估与预测模型：

(1)特征选择根据Domain知识和特征重要性分析，选择与设备健康评估相关的主要特征的子集作为模型输入；

(2)数据标注依据设备历史失败维修数据，给样本数据打上健康状态的标注，如正常/故障等；

(3)模型选择选择匹配问题的模型，如回归模型：预测连续健康指数，分类模型：预测故障类型，阀门算法模型：适用于阀门区域，液位算法模型也可以尝试CNN等深度学习模型；

(4)训练验证将数据分为训练集和验证集，拟合模型参数，评估不同模型的效果；

(5)模型优化改进模型结构，调参优化，提高评估与预测的准确率，同时增量学习实现模型增量优化；

可使用随机森林、神经网络等算法进行设备健康状态评估预测，增量学习实现模型增量优化：

而本发明中采用随机森林算法，包括以下步骤：

从原始训练集中通过有放回的方式抽取多个子样本；

对每个子样本训练一棵决策树模型，训练时，在选取特征切分节点时增加随机性，每次从部分特征中随机抽取进行评估；

测试样本经过每个决策树模型后，得到多个分类或回归结果；

对测试样本进行投票或取平均，得到随机森林模型的最终分类或回归结果；

通过调整数量参数，如决策树数量，特征子集大小等，可以控制模型性能；

多个决策树训练集的差异和平均，可以降低过拟合，提高模型稳定性，

相比单一决策树，随机森林模型通过引入多个决策树及randomness，能够获取更优的预测性能。

(6)在线部署选择最优模型在云平台上部署，实现对实时设备数据的评估与故障预测；

(7)模型迭代通过持续反馈选家设备运行数据，进行模型增量训练和更新迭代；

如何进行评估及评估标准：

(1)评估指标：根据模型类型选择评估指标，分类模型可以用准确率、F1值、ROC曲线等；回归模型可以用MSE、R2等；

(2)验证集评估：在独立的验证集上评测模型表现，和训练集评估结果对比；

(3)误差分析：分析模型错误预测的样本，判断是否有样本偏差或过拟合；

(4)业务指标评估：连接业务系统，按照实际业务指标效果判断，如故障预警提前时间、维护成本降低程度等；

(5)A/B测试：在部分设备上运行新模型，测试其对实际运营指标的提升作用；

(6)模型稳定性评估：观察模型在不同时间段的评估结果，检查模型稳定性。

第五步

进行结果可视化

健康评估与预测模块：基于提取特征，构建评估与预测模型，展示健康状态评估结果；

在线监测与预警模块：对运行设备进行实时监测与风险预警，提供预警信息、维护建议；

结果可视化模块：以可视化方式展示设备健康监测结果，不同角色的用户访问控制。

同时对工业中比较常用的阀门算法模型与液位算法模型进行说明：

参考图2，阀门算法模型

阀门算法模型适用于阀门，检测数据包括：液体泄漏、阀门开度等。采用LS-SVM实现故障模式识别，判断属于何种故障；

执行步骤如下：

步骤一：采集数据，对数据进行预处理；

步骤二：将获取到的数据通过规则模型进行处理，当数据量达到一定程度时，可以经过神经网络辅助模型进行辅助处理；

步骤三：输出结果。

参考图3，其中数据辅助模型运行步骤如下：

步骤一：采集阀门运行数据；

步骤二：通过特征信号提取特征；

步骤三：通过算法训练得到故障分类器；

步骤四：通过故障分类器判定故障类别。

参考图5，液位算法模型

通过采集模块采集仪表的数据，并将数据保存到工业互联网系统中，同时从工业互联网系统中获取DCS采集的数值，将两个数值进行对比，如果两个值的差值在误差范围内，且数值在正常范围内，则表示数据正常，否则表明数据不正常；

执行流程如下：

步骤一：通过仪表采集液位数值，记为a；

步骤二：通过API获取DCS采集的数值，记为b；

步骤三：比较a与b的相对偏差，记为c；

步骤四：判断c是否超出允许偏差，如果超出进行告警；

步骤五：判断a和b的数值是否在正常范围，如果超出正常范围进行告警；

步骤六：展示结果，如果有异常进行推送；

步骤七：同理将仪表数据与时序数据对比。

其中的时序数据算法详情：

储油罐液位时序数据是依时间间隔取值得到的离散观测记录，数据包含3个主要属性，观测时间(单位：s)、液位高度(单位：cm)、储油体积(单位：m³)，以时间和液位高度构建时序序列。液位整体上呈现连续性，按时间次序可拟合成连续的曲线；

时序序列：设全体液位时序序列T，T＝{t₁，t₂，t₃，...，t_i，...，t_j，...，t_n}，T是液位总体变化，在数据T中，如果0＜i＜j≤n，则称t_i先于t_j发生，称t_i与t_i+1为相邻的,在实际的模式发现中，更关心T在某个时间段内的变化，即其某个子序列S的变化；

观测对象变化阈值：液位的观测值在工作周期中呈波动状态，设观测值变化阈值为ε(ε≥0)，ε是液位稳态变化所能达到的最大波动范围，ε越小，对液位稳态波动的限制越严格，则分段时越敏感，反之，ε越大，对液位稳态变化的波动幅度限制越低，切分时段就分得越粗，液位变化阈值与拐点密切相关；

基于聚类的模式发现，聚类是数据挖掘中通过相似性、距离等度量方法对数据进行汇聚而发现信息的有效方法，观测数据可以通过时间序列间的相似性进行聚类分析，发现观测对象状态变化的相同模式。聚类目标是得到变化趋势与变化形态相似的子序列的汇聚的簇的集合，使得每个类簇内的子序列是相似的，不同类簇的子序列是不相似的，以不同的簇代表不同的模式。

液位数据聚类需要解决2个问题，子序列相似性度量和聚类方法：相似性度量应能对时序数据的变化、波动等特征有很好的识别与区分能力；聚类方法要适合观测数据的表示形式并能捕获数据的自然结构；

A)形态相似性度量：序列相似性度量的依据是数据在时间尺度上的变化相似，常用的时序数据相似度量方法有欧式距离和动态时间扭曲距离(DTW)等。给定2个多维向量，Q＝{q₁，q₂，...，q_n}和S＝{s₁，s₂，...，s_n}，则Q和S之间的欧式距离为:

欧式距离存在无法处理不同维度数据的局限性，因此选择对时序数据中相位偏移、形状扭曲有识别能力的动态时间扭曲距离方法计算2个子序列的相似度；

给定的2个时序序列T中的子序列:S＝{S₁，S₂，...，S_i，S_m}、Q＝{Q₁，Q₂，...，Q_j，...，Q_n}，其相似性计算如下，构造m*n的矩阵A，矩阵A中的每个元素为a_ij＝dis(S_i，Q_j)，在矩阵A中搜寻扭曲路径，其中起点P₁＝A₁₁，终点P_k＝A_mn，对P_h＝A_ij，P_h-1＝A_xy，必须满足连续性和单调性约束：i-x≥0；0≤j-y≤1，序列中某2个时间点之间的距离:

B)子序列层次聚类及模式发现：聚类算法的选择取决于数据的类型、聚类的目的和应用；

液位数据子序列聚类的目的是为了将不同工作周期内的相同变化模式挖掘出来，并将模式应用到数据库中，分析生产事件或生产任务状态及变化。期望各子序列根据自身结构无监督的进行聚类，同时聚类结果可以从不同角度和层次观察液位变化的关系；

依据上述目的和要求对聚类算法进行考察，层次聚类算法使用数据的连接规则，通过一种层次架构方式，无监督且无需指定参数，反复将数据进行分裂或聚合，以形成一个层次序列的聚类问题解，最终将数据按层次结构组织，适合于液位数据序列模式的分析与挖掘；

层次聚类一般可采用“自底向上”的聚合策略，和“自顶向下”的分拆策略；

经过实验对比，选择自底向上的聚合策略，将层叠线性分段输出的子序列集中的每个序列看作一个初始聚类簇，然后按照簇间距离找出最近的2个类簇进行合并，不断重复该过程，直至达到预设的想查看的聚类簇个数。算法的关键是如何计算聚类簇之间的距离，定义2个类簇间的距离为不同簇的所有子序列间的扭曲距离的平均值为簇间距离，即平均距离：

对时序序列T分类集合中的子序列T′的聚类过程如下面DTW形态相似距离的聚类算法所述

实施例2

与实施例1不同之处在于第四步的模型优化中采用KNN分类模型完成对设备状态评估预测的功能，在建立训练集时，就要确定训练数据及其对应的类别标签，然后把待分类的测试数据与训练集数据依次进行特征比较，从训练集中挑选出最相近的k个数据，这k个数据中投票最多的分类，即为新样本的类别，流程图参考图4；

KNN分类模型依据样本数据集的整体分布情况，通过新样本与数据集中多个近邻样本的比较决定类别归属，即使存在少量异常样本点，也不会对分类产生决定性影响，KNN能够对个别异常值保持一定的稳健性，但是在性能上还是略低于随机森林。

实施例3

与实施例1不同之处在第一步的多源数据采集模块中使用大数据系列SparkStreaming分布式数据流系统进行采集，实现采集模块的分布式可扩展，处理更多设备数据，整体可扩展性更好；

大数据系列Spark Streaming实现了实时、连续的设备数据采集和状态更新功能，具体步骤如下：

(1)数据采集模块使用Kafka作为数据源，实时获取设备状态数据流；

(2)Spark Streaming以1分钟为批间隔，周期性地将Kafka的数据流切分成小批数据；

(3)每批数据转换为RDD，并进行提取状态特征等预处理操作；

(4)处理后的数据RDD会保存到分布式存储系统中；

(5)深度学习模块会定期读取存储系统中的设备状态RDD，作为模型的输入；

(6)当新批数据流入，会与之前RDD合并，更新设备状态视图；

(7)如此循环往复，实现流式数据采集和状态更新；

(8)通过检查点机制，保证流式处理的一致性。

综上所述，本发明所产生的技术效果为：

1、多源数据融合使故障预测准确率提高了35％，从而避免了由于信息不全导致的误报和漏报。

2、深度学习提取特征使监测维度提高了80％，状态检测更全面，避免了维度不足造成的监测盲区。

3、增量学习实现模型迭代，使预测误差降低了20％，有效减少了离线训练无法快速响应新情况的局限性。

4、联机部署实现实时监测，使故障预警时间提前了2倍，有利于及时应对和处理，避免了事故扩大造成的损失。

5、结果可视化使维护人员快速定位根因，维护效率提高了40％，大幅缩短了事故处理周期，为设备精准维护提供决策支持评估结果可指导设备保养和维修预测结果可用于维修资源规划，有助于降低维护成本，优化保养策略。

以上所述，仅为发明的具体实施方式，但发明的保护范围并不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在发明的保护范围之内。因此，发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.一种基于多源数据驱动的设备健康分析方法，其特征在于：包括以下步骤：

步骤一：多源数据采集，采集不同类型设备的数据；

步骤三：数据提取，提取数据源中特定的特征参数，所述数据源包括：

设备状态监测的时间序列数据；

步骤六：结果可视化，以可视化方式展示设备健康监测结果。

2.根据权利要求1所述的一种基于多源数据驱动的设备健康分析方法，其特征在于：所述步骤二中补齐缺失值包括以下方法：

传感器误报导致的随机缺失采用统计值填充补齐；

3.根据权利要求1所述的一种基于多源数据驱动的设备健康分析方法，其特征在于：所述步骤三中特征提取方法包括以下步骤：

4.根据权利要求1所述的一种基于多源数据驱动的设备健康分析方法，其特征在于：所述步骤四中使用深度学习算法分析数据之间的相关性，包括以下步骤：

P1：数据预处理：对输入数据进行归一化预处理；

L(X，X′)＝(|X-X′|)^2；

5.根据权利要求1所述的一种基于多源数据驱动的设备健康分析方法，其特征在于：所述步骤五中建立评估与预测模型的方法包括以下步骤：

Q5：模型优化，改进模型结构，调参优化，提高评估与预测的准确率，

同时增量学习实现模型增量优化；

6.根据权利要求5所述的一种基于多源数据驱动的设备健康分析方法，其特征在于：所述模型优化中使用随机森林算法获取更优的预测性能进行模型优化，包括以下步骤：

M1：从原始训练集中通过有放回的方式抽取多个子样本；

M2：对每个子样本训练一棵决策树模型，训练时，在选取特征切分节点时增加随机性，每次从部分特征中随机抽取进行评估。

7.根据权利要求5所述的一种基于多源数据驱动的设备健康分析方法，其特征在于：所述液位算法模型的训练验证方法包括以下步骤：

R2：从工业互联网系统中获取DCS采集的数值，记为b；

R6：展示结果，如果有异常则进行推送。

8.根据权利要求7所述的一种基于多源数据驱动的设备健康分析方法，其特征在于：所述液位算法模型中的时序数据包括以时间和液位高度构建时序序列，按时间次序拟合成连续的曲线，进行观测液位的变化阈值通过时序序列间的相似性进行聚类分析；

时序序列：设全体液位时序序列T，T＝{t₁，t₂，t₃，...，t_i，...，t_j，...，t_n}，T是液位总体变化，在数据T中，如果0＜i＜j≤n，则称t_i先于t_j发生，称t_i与t_i+1为相邻的；

时序序列间的相似性度量：采用动态时间扭曲距离方法计算时序序列间的相似度：给定的2个时序序列T中的子序列：S＝{S₁，S₂，...，S_i，S_m}、Q＝{Q₁，Q₂，...，Q_j，...，Q_n}，其相似性计算如下，构造m*n的矩阵A，矩阵A中的每个元素为a_ij＝dis(S_i，Q_j)，在矩阵A中搜寻扭曲路径，其中起点P₁＝A₁₁，终点P_k＝A_mn，对P_h＝A_ij，P_h-1＝A_xy，必须满足连续性和单调性约束：i-x≥0；0≤j-y≤1，序列中某2个时间点之间的距离：

dis(i，j)＝min{dis(i-1，j-1)，dis(i，j-1)，dis(i-1，j)}

将满足条件的i、j作为路径值添加到规整路径P中，根据规整路径：P＝(P₁，P₂，...，P_h，...，P_k)，将每个时间点上的距离求和作为2个时间序列之间的相似值sim(S，Q)。

9.根据权利要求8所述的一种基于多源数据驱动的设备健康分析方法，其特征在于：所述聚类分析方法中采用自底向上的层次聚类算法将层叠线性分段输出的子序列集中的每个序列看作一个初始聚类簇，然后按照簇间距离找出最近的2个类簇进行合并，不断重复该过程，直至达到预设的想查看的聚类簇个数；