CN114595753A

CN114595753A - 面向数据稀缺场景的综合供能服务站油气回收系统故障检测方法

Info

Publication number: CN114595753A
Application number: CN202210194296.XA
Authority: CN
Inventors: 赵春晖; 王应龙; 常树超
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-06-07

Abstract

本发明公开了一种面向数据稀缺场景的综合供能服务站油气回收系统故障检测方法。本发明针对综合供能服务站油气回收系统存在的无历史故障样本和多设备间样本不均衡等数据稀缺问题，首先运用聚类方法将所有设备中分布相似的正常数据聚为同一样本簇，使原本单一设备的少量建模样本得到扩充，有效克服了多设备间样本不均衡的问题；然后基于各样本簇建立无监督故障检测模型，结合自编码器和生成对抗思想，能够放大故障样本的重构误差，从而在无历史故障数据的情况下有效提高故障的检测精度与灵敏度。本发明能够在多设备间样本不均衡和无历史故障数据的场景下有效增强故障检测的精度和灵敏度，为供能站油气回收系统安全可靠运行和智能运维奠定基础。

Description

面向数据稀缺场景的综合供能服务站油气回收系统故障检测方法

技术领域

本发明属于工业过程故障检测领域，面向无历史故障样本以及多设备间样本不均衡等数据稀缺的工业场景，特别是针对综合供能服务站油气回收系统的故障检测。

背景技术

综合供能服务站是一种新型的交通能源类的全方位、多功能、智慧化公共基础服务设施，为群众安全便捷出行提供停车饮水、公共卫生、电气油氢等能源补给、旅游中继、文化宣传、信息咨询等公共服务。具有接入设备多、服务对象广泛、信息量大等特点。因此，开展综合能源智能运维和故障预警诊断技术、构建站端关键设备安全评估模型对提高站点智能运维有着重要意义。与此同时，工业物联网、云计算、人工智能技术和智能仪表的迅猛发展，使得现代工业过程中能够根据实际生产和控制的要求准确采集并存储高频和低频的传感器测量信号、工艺、产品质量等结构化和非结构化数据。工业4.0等概念被顺势提出，基于大数据的人工智能故障检测手段逐渐代替了传统的基于机理的异常检测方法。结合工业设备的功能作用、结构组成和工作特点，基于设备的大数据进行价值挖掘、信息提取进而实现设备的状态监测、异常预警、故障诊断、寿命预测、智能维护等工作十分迫切和必要。

目前，不论是日常生活中还是综合能源供应站，汽油仍然是使用最广泛的能源。加油站点中，油气回收涉及装、卸油和给汽车加油的全过程，其目的是将挥发的汽油油气收集起来，通过吸收、吸附、冷凝等工艺的一种或两种方法，使油气从气态转变为液态，重新变为汽油回收利用，减少油气的污染。加油站的油气回收系统一般有三个阶段，一次、二次和三次油气回收，分别为卸油油气回收、加油油气回收和油气排放处理。其中，二次油气回收是发生最频繁的阶段，同时也是涉及加油枪、加油机、油罐、车辆和人员的要素最多，工作原理最复杂的阶段。以上关键设备都有可能发生故障，其中许多典型的故障可以直接根据设备的工作状态或者仪表直接观测到，如停枪走字、油枪漏油、加油机振动和噪声等；但是对于结构复杂、要求精密的内部结构，一些微小的变化是不能直观检测出来的，如，油气胶管是反向同轴胶管，在汽油的长期腐蚀作用下，可能会使内部产生微小的劈裂而造成内泄露，因此基于数据驱动的故障检测至关重要。

供能站本身即是安全性要求十分高的场景，因此在日常的数据库中，鲜有甚至是零故障样本。然而基于无监督的故障检测方法还未应用在综合能源供应站油气回收系统中。在其他工业场景，前人针对基于数据驱动的工业故障检测的研究大部分是基于有故障历史样本的有监督学习方法，如偏最小二乘(PLS)、线性判别分析(LDA)和支持向量机(SVM)等，这些方法通常建立全局的有监督模型，需要预先知道故障标签，也不能适应油气回收系统故障样本稀少、甚至完全缺失的场景；部分基于无监督学习的故障检测方法如主成分分析(PCA)和慢特征分析(SFA)等方法在无历史故障数据的场景下取得了良好的效果，但是在存在不同设备之间样本不均衡的情况下，如分布式加油机连接同一个储油罐，多把加油枪又连接同一个加油机，但是由于实际生产过程的需要，不同的加油枪之间的样本不平衡，有的会产生成百上千个样本，有的仅仅有几十个，不足以支撑故障诊断模型的建立。因此针对油气回收系统单个加油枪样本量不足、缺少历史故障数据等数据稀缺的场景特性提出一种基于无监督学习的油气回收系统故障检测方法十分必要。

发明内容

本发明的目的是针对综合供能服务站油气回收系统在日常运行过程中缺少历史故障样本、单个油枪系统样本量不足以建模等数据稀缺的场景，以及传统仪表监测方式不能及时有效地检测出微小故障现象等问题提出了一种面向数据稀缺场景的综合供能服务站油气回收系统故障检测方法。该方法首先收集油气回收系统的历史正常工况数据；然后对历史正常工况样本进行高斯混合聚类，利用软聚类的方式将分布相似的历史正常工况数据聚类为同一簇，对于测试样本则会得到一组属于各个样本簇的隶属度；再在每一个分布相似的历史样本簇上，分别建立无监督的故障检测模型，该无监督模型结合自编码器的重构方式和生成对抗思想，能够放大故障样本的重构误差，为每一个测试样本进行异常打分，分值越大说明故障的可能性越大；最后，融合测试样本的隶属度和各无监督故障检测模型上的异常得分，输出测试样本的综合异常得分，根据得分判断是否在正常分布之内，在分布内则判断该测试样本正常，反之判断为异常。综上，为了能够有效的检测出综合供能服务站微小的故障现象，提高检测的灵敏度，并适应无历史故障数据以及多设备间样本不均衡的场景，提出了一种基于高斯混合模型和结合自编码器的生成方式与对抗生成思想的无监督故障检测方法(GMM-AE-GAN)。

本发明的目的是通过以下技术方案实现的：一种面向数据稀缺场景的综合供能服务站油气回收系统故障检测方法，包括以下步骤：

采集综合供能服务站油气回收系统的油气回收过程变量数据；

计算当前油气回收过程变量数据对于K个类别的隶属度；所述K个类别是基于综合供能服务站油气回收系统历史正常运行的油气回收过程变量数据集划分获得；

基于K个训练好的无监督异常检测模型，计算当前油气回收过程变量数据对于各个类别的异常得分；所述K个无监督异常检测模型是利用综合供能服务站油气回收系统历史正常运行的油气回收过程变量数据集根据K个类别划分的K个子数据集分别训练获得。

将各个类别得到的隶属度和异常得分做内积融合得到最终的异常得分，根据最终的异常得分判断综合供能服务站油气回收系统是否发生故障。

进一步地，所述K个类别是采用高斯混合模型或K-means聚类方法对综合供能服务站油气回收系统历史正常运行的油气回收过程变量数据进行划分获得。

进一步地，所述K个类别是采用高斯混合模型对综合供能服务站油气回收系统历史正常运行的油气回收过程变量数据进行划分获得，所述K个子数据集的划分方法具体如下：

分别计算综合供能服务站油气回收系统历史正常运行的油气回收过程变量数据集中每个样本对于K个高斯元的后验概率，并根据其中最大后验概率对应的高斯元划分每个样本对应的类别，形成K个子数据集。

进一步地，所述无监督异常检测模型包括一个编码器E和两个解码器，其中，其中编码器E与第一解码器D₁连接构成第一自编码器AE₁，编码器E与第二解码器D₂连接构成第二自编码器AE₂。

进一步地，所述无监督异常检测模型训练采用的损失函数包括：

其中，

是第一自编码器AE₁的损失函数，

是第二自编码器AE₂的损失函数，X_k是子数据集的样本矩阵，表示第k类子数据集，AE₁(X_k)是第一自编码器AE₁的输出，AE₂(AE₁(X_k))是由AE₁重构之后的数据再次经过E的压缩得到Z，然后由AE₂重构，得到的输出，||*||₂是L2范数，AE₂(X_k)是第二自编码器AE₂的输出，n是训练次数。

进一步地，基于K个训练好的无监督异常检测模型，计算当前油气回收过程变量数据对于各个类别的异常得分，具体如下：

其中α+β＝1，

是当前油气回收过程变量数据。

进一步地，所述油气回收过程变量数据包括气液比、汽油流速、汽油流量、油气流速、油气流量。

进一步地，所述根据最终的异常得分判断综合供能服务站油气回收系统是否发生故障，具体为：

若最终的异常得分超过异常检测的阈值，则判断为综合供能服务站油气回收系统发生故障，所述异常检测的阈值通过ROC曲线确定。

进一步地，所述综合供能服务站油气回收系统历史正常运行的油气回收过程变量数据集包含不同标号的油品的油气回收过程变量数据。。

与现有技术相比，本发明的有益效果在于：本发明针对综合供能服务站数据稀缺的场景，一个是单个加油枪的样本数据不足以支撑故障诊断模型建立的问题，另一个是历史数据库中无故障数据导致有监督模型失效的问题，提出一种基于聚类和自编码器与生成对抗网络结构的无监督故障检测方法。该方法充分考虑了设备之间样本不匹配的问题，能够将分布相似的样本先通过聚类的策略识别出来；然后建立结合自编码器和生成对抗网络的无监督生成模型，能够有效的提取正常工况样本的有效信息并进行重构，并据此分辨出未知样本的标签(正常还是异常)。本发明方法在有效应对上述问题的同时，提高故障检测的准确率，灵敏度，有助于准确判断油气回收系统各子设备的运行状态，保证综合能源供应站油气回收相关设备的安全可靠运行。

附图说明

图1是本发明方法的整理框架流程图；

图2是本发明基于综合供能服务站油气回收系统测试数据中的故障模拟；

图3是基于自编码器和对抗生成网络的无监督故障检测模型的网络结构图；

图4是本发明方法和对比Kmeans在测试数据上的检测结果；

图5是使用主成分分析(Principal Component Analysis，PCA)采用T²统计量和spe统计量作为与发明方法效果对比的故障检测结果。

具体实施方式

本发明提供了一种面向数据稀缺场景的综合供能服务站油气回收系统故障检测方法，所述方法包括以下步骤：

将各个类别得到的后验概率和异常得分做内积融合得到最终的异常得分，根据最终的异常得分判断综合供能服务站油气回收系统是否发生故障。

本发明方法充分考虑了设备之间样本不匹配的问题，能够将分布相似的样本先通过聚类的策略识别出来；然后建立无监督生成模型，能够有效的提取正常工况样本的有效信息并进行重构，并据此分辨出未知样本的标签(正常还是异常)，下面结合附图及具体实例，对本发明作进一步详细说明。

本实施例以浙江省某综合供能服务站二次油气回收系统为例，该系统长期稳定安全运行，自接入供能站以来尚未出现过严重故障，系统中没有故障样本。每一次加油操作时，都会进行一次二次油气回收，同时将相关数据存入系统，主要变量包括汽油流速、汽油流量、油气流速、加油枪编号等过程变量。

如图1所示，本发明是一种面向数据稀缺场景的综合供能服务站油气回收系统故障检测方法，包括以下步骤：

(1)收集历史数据：

(1.1)同一个加油站中会供给不同标号的油品(如92#，95#，98#)，不同标号的油品存放在各自的储油罐中，油罐中的油品由加油机通过加油枪输送至用户的车辆，加油机和加油枪中的油气胶管为反向同轴胶管(胶管的一端和油气分离器相连，另一端和加油枪或油气回收拉断阀相连；胶管内是气路，胶管内管和外管之间是油路)，每一把油枪固定输送唯一标号的油品。二次油气回收就发生在这个阶段。

(1.2)二次油气回收过程中，当有加油操作之后才会产生数据样本并将其根据时间先后顺序存入数据库中，关键变量包括气液比、汽油流速、汽油流量、油气流速、油气流量等，皆为加油过程中的平均值。此外还需采集加油机编号、油枪编号、读取时间等辅助变量。所收集到的历史样本皆为正常工况数据。油品根据不同的抗爆性(辛烷值)标定标号，与清洁度无关，换言之，加油过程中的流速、流量等关键变量的影响因素不是油品标号。故将不同油枪的样本集合起来视作一个系统，变量矩阵用

表示，i＝1,2,…,N表示样本数量，j＝1,2,…,M表示变量数。

(2)数据标准化：上述步骤将所有油枪视作整体系统得到关键变量矩阵

为了消除变量之间量纲的差异，采用z-score标准化：对变量矩阵按列减去该列的均值，并除以该列标准差进行标准化，获得标准化后的矩阵X＝X_N×M。

(3)已知空间上的基于高斯混合模型(Gaussian Mixture Model,GMM)的聚类：在油气回收系统中每一把加油枪由于加油的频率不同、控制不同标号的油，最终获得的数据是不均衡的，比如在一个月的时间内，1号加油枪最终收集到500组样本，而2号枪由于控制不常用标号的汽油，因此可能只有几十个样本，此时单个加油枪上的数据是不足以支撑建模的。可以根据步骤(1.2)将油气回收系统中的所有数据作为一个系统，为了更加精确地提取已知空间上的数据分布特征，通常采用聚类的方法，要求类内尽量紧缩，类间尽量分离，每个类别内，认为数据分布比类间更加相似。本发明采用高斯混合模型，它既是工业界常用的聚类技术手段，也是一种描述数据分布的生成模型。高斯混合模型是一种软聚类手段，投影后的样本点得到的不是一个确定的分类标记，而是对于每个类的概率，这是一个重要信息。其高斯混合模型的目标函数如下：

其中，π_k为第k个分模型(类)生成的概率，

表示将数据分为K类；_k表示第k个高斯元(每一类是一个高斯元)的均值，∑_k指第k个高斯元的协方差矩阵，p(X|μ_k,k)为高维高斯分布的概率密度函数，定义如下：

其中M表示样本的维度，即变量数。样本x_i.属于k类的后验概率为：

若样本x_i.在第k个高斯元上的后验概率最大，则认为该样本属于第k类。根据后验概率将数据矩阵划分为K个类别，每一个类别就是一个子数据集。

(4)根据K个子数据集，构建K个基于自编码器和生成对抗训练的无监督异常检测模型：

综合供能服务站作为一种新型的综合性交通类服务站点，设备和系统目前为止都处于比较新的状态，并且由于其安全性的要求，人工巡检的频率比较高，因此目前由传感器监测的系统中鲜有甚至没有故障数据。为了解决这个问题，结合自编码器(AutoEncoder，AE)的生成方式和生成对抗网络(Generative Adversarial Networks,GAN)可以得到能够辨别与原始数据空间分布相似度大小的无监督异常检测模型(AE-GAN)。AE-GAN包括一个编码器E、两个解码器：第一解码器D₁和第二解码器D₂，两个解码器D₁和D₂共用一个编码器E，其中编码器E与第一解码器D₁连接构成第一自编码器AE₁，编码器E与第二解码器D₂连接构成第二自编码器AE₂，重构误差的训练由生成对抗训练网络完成。基于AE和GAN的异常检测使用正常数据进行训练，训练后，鉴别器用作异常检测器。如果输入数据与学习数据分布不同，则鉴别器将其视为来自生成器并将其分类为假数据，即异常。AE-GAN的训练过程包括以下步骤：

(4.1)第一阶段：目标是训练两个AE重构输入X_k，给定X_k后，两个编码器的输出分别为AE₁(X_k)和AE₂(X_k)，重构误差由距离衡量，第一阶段的损失函数为：

其中，X_k表示子数据集矩阵，表示第k类子数据集，||*||₂表示L2范数。

(4.2)第二阶段：首先将由AE₁重构之后的数据再次经过E的压缩得到Z，然后由AE₂重构，得到的输出为AE₂(AE₁(X_k))，然后在对抗训练的策略下，AE₁作为生成器期望最小化X_k和二次重构输出AE₂(AE₁(X_k))之间的差异，而AE₂作为鉴别器的目标是最大化这种差异。所以损失函数为：

AE₂的目的是为了识别AE₁(X_k)是AE₁重构之后的输入，而不是真实的输入X_k。因此AE₂需要最大化AE₂(AE₁(X_k)与真实X_k之间的差异，而AE₁为了欺骗AE₂，则需要最小化AE₂(AE₁(X_k))与真实X_k之间的差异。结合两个阶段，最终的损失函数为：

其中n是训练次数。

根据K个子数据集，构建得到K个基于自编码器和对抗生成训练的无监督异常检测模型。

应用阶段：

(5)未知空间的样本在高斯混合模型上的隶属度计算：

在未知空间上，不能确定得到的数据是正常的还是异常的，本方法通过将未知空间的数据输入由步骤(3)中得到的高斯混合模型，可以计算出当前样本对于各个高斯元的后验概率，即隶属度：

P＝{P_1,2,…,_K}

隶属度越高说明数据分布特点与该高斯元的数据分布特点越相似。

(6)未知空间上的故障检测分类器设计：

(6.1)无监督异常检测模型AE-GAN的检测阶段：将未知空间的样本

输入步骤(4)在正常工况数据上训练好的异常检测模型，得到未知空间上的异常得分：

其中α+β＝1,

表示当前油气回收系统中(未知空间)的数据样本。这两个参数决定了模型对异常的敏感度，在实际使用时可以根据场景进行调节。增加α，FP(FalsePositives)的数量降低，TP(True Positives)的数量上升。也就是说增加α可以增加模型的准确率(precision)，但同时F1-score也降低，也就是说明召回率(recall)会降低，也就是模型变得更加保守。K个模型有K个异常得分：S＝{S_1,2,…,_K}。

(6.2)确定最终输出结果：将步骤(5)和步骤(6.1)中得到的隶属度和异常得分集合做内积融合得到最终的异常得分：

S_Fin＝P·S

其中，S_Fin表示样本

最终的异常得分。

(7)模型测试：模型训练完成后需要使用测试数据对模型的性能进行测试与评价，采用精确度、F1-Score、AUC指标、马修斯系数四项指标对模型性能进行评价，其中异常检测的阈值通过ROC曲线确定。具体计算公式及含义如下：

(7.1)精确度ACC：

在所有样本中预测正确的样本数(right)的与全体样本(all)的比值，很直观，但是特别受样本不均衡和样本数量的影响，比如在训练或者测试过程中经常人为的划分故障(负样本)和正常数据(正样本)的数量，有可能故障数据过多或者正常数据太多从而导致精确度的不可信。

(7.2)F1-Score:

其中，Precision＝TP/(TP+FP)为准确率；Recall＝TP/(TP+FN)为召回率，F1-Score越接近1性能越好。TP表示正样本预测正确的个数；TN表示负样本预测正确的个数；FN表示正样本预测错误的个数；FP表示负样本预测错误的个数。

(7.3)AUC指标：AUC值为ROC曲线所覆盖的区域面积，AUC越大(0到1)，分类器分类效果越好；

(7.4)马修斯相关系数(Matthews correlation coefficient，MCC)：

MCC∈[-1,1],值越接近1，表示性能越好。

下表是本方法和其他对比模型用于综合供能服务站油气回收系统故障检测的实验结果。系统收集了2021年9月份的所有数据，共有9434个样本，其中抽取2500个样本作为未知空间的数据集用作测试，剩余6934个样本作为已知空间的数据集用作模型训练。在未知空间上，由于系统中的数据全部为正常数据，为了模拟实际场景的故障情形，考虑变量之间的耦合关系，先将M维样本通过主成分分析(Principal Component Analysis，PCA)降维至1维(此时保留51％的信息)，然后一维空间上加入阶跃信号模拟故障发生，将加入故障的一维空间上的信息反射回M维作为原始空间的故障数据，如图2所示，故障数据模拟选择在第1000到1500个样本上。

表1是本发明方法对比其他故障检测方法用于综合能源供应站油气回收系统的检测结果(表中最优结果用粗体表示)。Kmeans-AE-GAN模型将本发明方法提出的方法的高斯混合聚类改为Kmean聚类，Global表示没有对已知空间预先聚类的全局模型，T²(PCA)、spe(PCA)和T²&spe(PCA)表示使用PCA方法的故障监测模型，分别采用了T²统计量、spe统计量和两个统计量同时监测的故障检测策略的结果。

表1故障检测结果

结合图4和图5可以看出，相比于没有聚类的全局无监督模型和PCA检测结果，本发明方法结果明显胜出。通过实际的工业数据验证了本发明所提方法的有效性和优越性，本发明提出的方法不仅可以应对单个设备样本量小不足以支撑建模和无历史故障数据等数据稀缺的问题，同时还提升了故障检测的准确性和灵敏度，有助于准确判断油气回收系统各子设备的运行状态，最终为综合供能服务站二次油气回收系统安全可靠运行和智能运维奠定了基础。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims

1.一种面向数据稀缺场景的综合供能服务站油气回收系统故障检测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述K个类别是采用高斯混合模型或K-means聚类方法对综合供能服务站油气回收系统历史正常运行的油气回收过程变量数据进行划分获得。

3.根据权利要求1所述的方法，其特征在于，所述K个类别是采用高斯混合模型对综合供能服务站油气回收系统历史正常运行的油气回收过程变量数据进行划分获得，所述K个子数据集的划分方法具体如下：

4.根据权利要求1所述的方法，其特征在于，所述无监督异常检测模型包括一个编码器E和两个解码器，其中，其中编码器E与第一解码器D₁连接构成第一自编码器AE₁，编码器E与第二解码器D₂连接构成第二自编码器AE₂。

5.根据权利要求3所述的方法，其特征在于，所述无监督异常检测模型训练采用的损失函数包括：

其中，

是第一自编码器AE₁的损失函数，

6.根据权利要求5所述的方法，其特征在于，基于K个训练好的无监督异常检测模型，计算当前油气回收过程变量数据对于各个类别的异常得分，具体如下：

其中α+β＝1，

是当前油气回收过程变量数据。

7.根据权利要求1所述的方法，其特征在于，所述油气回收过程变量数据包括气液比、汽油流速、汽油流量、油气流速、油气流量。

8.根据权利要求1所述的方法，其特征在于，所述根据最终的异常得分判断综合供能服务站油气回收系统是否发生故障，具体为：

9.根据权利要求1所述的方法，其特征在于，所述综合供能服务站油气回收系统历史正常运行的油气回收过程变量数据集包含不同标号的油品的油气回收过程变量数据。