CN117171531A

CN117171531A - 一种数字能源空压站的数据分析系统及其方法

Info

Publication number: CN117171531A
Application number: CN202311157878.1A
Authority: CN
Inventors: 胡培生; 孙小琴; 魏运贵; 胡明辛
Original assignee: Guangzhou Ruixin Intelligent Manufacturing Co ltd
Current assignee: Guangzhou Ruixin Intelligent Manufacturing Co ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-12-05

Abstract

本发明涉及一种数字能源空压站的数据分析系统及其方法，属于空压站技术领域，包括以下步骤：采集数字能源空压站的设备运行状态数据、设备故障数据及空气质量数据；对采集到的数据按照数据特点进行整理，针对缺失数据、重复数据采取数据填充及数据去重的方式，并对整理后的数据进行预处理；确定分析目标，并对预处理后的数据进行特征分析提取，针对单批次空压站的生产数据，选用均值及方差的参数统计量，对预处理后的数据进行比较；通过机器学习模型对比较后的数据自身的特征进行排序，使特征数据进行降维，并不断进行迭代选择目标数据特征，将数据特征作为输入建立分析模型，并进行模型训练与标准评估。

Description

一种数字能源空压站的数据分析系统及其方法

技术领域

本发明属于空压站技术领域，具体地，涉及一种数字能源空压站的数据分析系统及其方法。

背景技术

数字能源空压站是一种基于数字技术和控制的智能压缩空气设备集，将自然气体或空气等气体压缩至高压状态，从而提供空气供应，为各种工业或商业应用提供压缩空气。

而数据分析可以实时了解空压站压缩空气的生产情况，通过检测压缩机的实时数据，可以及时发现问题从而及时解决问题，优化生产效率和能耗，同时，数据分析也可以统计生产历史数据，从而进行趋势分析和预测，对压缩空气生产的规划和管理提供支持。

但现有技术中，由于空压站数据来源多样，数据的质量和准确性不够完善，存在测量误差、数据缺失和不一致的问题，导致数据分析结果的可靠性受到影响。

发明内容

为解决上述背景技术中存在的数据的质量和准确性不高的技术问题，本发明提供了一种数字能源空压站的数据分析方法，包括以下步骤：

采集数字能源空压站的设备运行状态数据、设备故障数据及空气质量数据；

对采集到的数据按照数据特点进行整理，针对缺失数据、重复数据采取数据填充及数据去重的方式，并对整理后的数据进行预处理；

确定分析目标，并对预处理后的数据进行特征分析提取，针对单批次空压站的生产数据，选用均值及方差的参数统计量，对预处理后的数据进行比较；

通过机器学习模型对比较后的数据自身的特征进行排序，使特征数据进行降维，并不断进行迭代选择目标数据特征，将数据特征作为输入建立分析模型，并进行模型训练与标准评估。

进一步的，所述选择目标数据特征具体包括对数据特征进行过滤、封装或嵌入。

进一步的，所述对数据特征进行过滤的具体过程为：

通过计算每个特征与目标变量的相关得分；

按得分以及特征排序方法进行排序；

选择与目标变相高度相关的特征为目标数据特征。

进一步的，所述对数据特征进行封装的具体过程为：

特征子集生成：从原始特征集中生成不同的子集；

子集评估：对每个生成的子集，使用分类器进行训练并计算性能指标，并将性能指标作为评估指标，其中，计算性能指标包括准确率、精度和召回率；

特征选择：对子集的性能指标进行评估后，选择性能指标最优的子集作为最终特征集；

使用性能指标最优的子集输入至机器学习模型中，并进行训练，利用测试数据集对训练后的机器学习模型进行评估。

进一步的，所述对数据特征进行嵌入的具体过程为：

准备包含所以特征和目标变量的数据集；

使用神经网络机器学习模型，构建嵌入层，所述嵌入层将输入的特征进行转换和编码，并提取出特征的重要性；

根据嵌入层学习到的特征重要性，选择最高重要性的特征子集；

使用选定的特征子集进行机器学习模型训练，并使用测试数据集对机器学习模型进行评估。

进一步的，所述通过机器学习模型对比较后的数据自身的特征进行排序，使特征数据进行降维，具体包括以下步骤：

对原始数据进行标准化处理，使得数据具有零均值和单位方差；

对标准化后的数据计算协同方差矩阵，所述协同方差矩阵描述数据之间的线性关系以及维度之间的相关性；

对协同方差矩阵进行特征值分解，得到特征值和特征向量；

选择K个最大特征值对应的特征向量作为新的低维度特征空间的基，其中，K为降维后的维度；

将原始数据投影到选定的特征向量所长成的低纬度子空间上，得到降维后的新样本。

进一步的，进行模型训练具体包括以下步骤：

从训练集中选中T个采样集，每个采样集均包含m个训练样本；

针对采样集进行基学习器的训练，并最终做加权结合；

再划分出包含m个样本的数据集，并从中随机抽取一个样本并入采样集之后，将所述样本放回；

重复m次随机采样，又得到含m个样本的采样集，最终再通过基于学习器集成的方式减小估计的方差。

进一步的，基于学习器集成的方式减小估计的方差，具体包括以下步骤：

给所有样本训练集赋予相同的权重；

经过n此迭代过程，每次均用分类算法进行分类，分类的错误率为：

其中，ω_i为第i个样本的权重，G_n表示第n个分类器；

计算α_n＝log((1-err_n)/err_n)；

考虑n+1次迭代，将第i个样本的权重ω_i重设为

迭代完成后，即可得到所有分类器。

另一方面，本发明还公开一种数字能源空压站的数据分析系统，执行前述的一种数字能源空压站的数据分析方法，包括集中数据存储系统、查询系统及数据分析系统，所述查询系统与数据分析系统之间建立数据通道，数据分析系统与集中数据存储系统建立数据传输通道，所述集中数据存储系统包括数据采集模块，其中：

数据采集模块包括设备数据采集子模块，所述设备数据采集子模块包括设备故障采集单元、设备运行状态采集单元和空气质量采集单元；

所述数据分析系统包括设备分析模块、环境分析模块和空气分析模块。

进一步的，还包括可视化平台，所述可视化平台包括设备实时交互模块和异常监控处理模块，所述设备实时交互模块与所述数据采集模块连接，实时更新设备的信息，所述异常监控处理模块根据所述数据分析系统的分析结果，进行结果展示。

本发明的有益效果：

1、本发明公开的一种数字能源空压站的数据分析方法，通过对数字能源空压站的设备数据、环境数据及空气数据进行采集、整理后对数据进行预处理，通过机器学习模型对预处理后的数据进行特征提取，可以降低由于空压站数据复杂而导致的特征过多、维度过高而常常出现数据冗余或过拟合的情况；

2、本发明公开的一种数字能源空压站的数据分析方法，通过机器学习模型对比较后的数据自身的特征进行排序，使特征数据进行降维，能够在训练过程中根据学习器的表现以调整其权重，实现弱学习器的增强，以提升分类的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种数字能源空压站的数据分析方法的整体步骤流程图；

图2为本申请实施例中步骤S4的其中一个分支步骤流程图；

图3为本申请实施例中步骤S4的另一个分支步骤流程图；

图4为本申请实施例中一种数字能源空压站的数据分析系统的整体原理框图；

图5为本申请实施例中局部工作原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

空压站是一个实施运行的设备集，所产生的数据具有时变性，也就是说数据会随着时间的推移不断变化，如空压机的工作状态、电流、温度等都会不断发生变化，空压站还涉及多个关键指标和参数的监测和记录，包括流量、压力、温度、湿度和功率消耗等，这些数据通常以多维度的形式出现，需要综合分析才能得出全面的结论。

并且，空压站的各个设备和部件之间存在着紧密的关联关系，如压缩机的运行状态直接影响空气压力和空气质量，而空气质量又会影响到后续的生产过程，因此，需要将不同设备之间的数据进行关联分析，从而得到更加准确的分析结果。

进一步的，在本申请实施例中，空压站每小时甚至每秒钟都会产生大量的生产数据，这就需要有专门的数据存储和数据处理的能力，并且，空压站的数据具有周期性，通常以固定的时间间隔产生，如每秒、每分钟或每小时，利用空压站周期性的规律，监测和分析空压站的运行情况，并提前发现潜在的问题。

如图1所示，本申请实施例公开一种数字能源空压站的数据分析方法，包括以下步骤：

步骤S1、采集数字能源空压站的设备运行状态数据、设备故障数据及空气质量数据；

步骤S2、对采集到的数据按照数据特点进行整理，针对缺失数据、重复数据采取数据填充及数据去重的方式，并对整理后的数据进行预处理；

步骤S3、确定分析目标，并对预处理后的数据进行特征分析提取，针对单批次空压站的生产数据，选用均值及方差的参数统计量，对预处理后的数据进行比较；

步骤S4、通过机器学习模型对比较后的数据自身的特征进行排序，使特征数据进行降维，并不断进行迭代选择目标数据特征，将数据特征作为输入建立分析模型，并进行模型训练与标准评估。

进一步的，在本申请的一种优选实施例中，步骤S4中的所述选择目标数据特征具体包括对数据特征进行过滤(Filter)、封装(Wrapper)或嵌入(Embedding)。

Filter是特征选择中的一种方法，它是基于特征间的统计关系或者量对特征进行评价和排序，根据评价(或排序)结果选择其中的一部分特征作为输入数据的特征，从而简化模型并且提高学习效率。Filter的特点是：不依赖于特定的分类器，可以与各种分类器一起使用；过程简单，计算速度快；可能无法捕捉特征之间的交互作用。

进一步的，在本申请的一种优选实施例中，所述对数据特征进行过滤的具体过程为：

通过计算每个特征与目标变量的相关得分；

按得分以及特征排序方法进行排序；

选择与目标变相高度相关的特征为目标数据特征。

Wrapper是一种特征选择方法，它通过对不同的特征子集进行评估，选择那些使模型表现最优的特征子集。Wrapper方法常见的应用场景包括模型选择和超参数调整。Wrapper与Filter不同，它包含了模型训练和特征选择两部分，可以捕获特征之间的复杂关系和交互作用，但计算量较大，需要花费更多时间来进行特征选择。

进一步的，在本申请的一种优选实施例中，所述对数据特征进行封装的具体过程为：

特征子集生成：从原始特征集中生成不同的子集；

Embedding是一种特征选择方法，它使用机器学习模型来学习特征的表示。与Filter和Wrapper方法不同，Embedding方法将特征选择看作是机器学习模型的一个子任务，通过模型的学习过程来确定特征的重要性。Embedding方法通常用于深度学习任务，如神经网络的嵌入层。

进一步的，在本申请的一种优选实施例中，所述对数据特征进行嵌入的具体过程为：

准备包含所以特征和目标变量的数据集；

其中，本申请实施例优选使用对数据特征进行封装来选择目标数据特征。

所述通过机器学习模型对比较后的数据自身的特征进行排序，如图2所示，步骤S4中，使特征数据进行降维，具体包括以下步骤：

步骤S410、对原始数据进行标准化处理，使得数据具有零均值和单位方差；

步骤S420、对标准化后的数据计算协同方差矩阵，所述协同方差矩阵描述数据之间的线性关系以及维度之间的相关性；

步骤S430、对协同方差矩阵进行特征值分解，得到特征值和特征向量；

步骤S440、选择K个最大特征值对应的特征向量作为新的低维度特征空间的基，其中，K为降维后的维度；

步骤S450、将原始数据投影到选定的特征向量所长成的低纬度子空间上，得到降维后的新样本。

进一步的，在本申请的一种优选实施例中，如图3所示，步骤S4中，进行模型训练具体包括以下步骤：

步骤S401、从训练集中选中T个采样集，每个采样集均包含m个训练样本；

步骤S402、针对采样集进行基学习器的训练，并最终做加权结合；

步骤S403、再划分出包含m个样本的数据集，并从中随机抽取一个样本并入采样集之后，将所述样本放回；

步骤S404、重复m次随机采样，又得到含m个样本的采样集，最终再通过基于学习器集成的方式减小估计的方差。

进一步的，在本申请的一种优选实施例中，基于学习器集成的方式减小估计的方差，具体包括以下步骤：

给所有样本训练集赋予相同的权重；

其中，ωi为第i个样本的权重，G_n表示第n个分类器；

计算α_n＝log((1-err_n)/err_n)；

考虑n+1次迭代，将第i个样本的权重ω_i重设为

迭代完成后，即可得到所有分类器。

另一方面，本申请实施例还提供一种数字能源空压站的数据分析系统，前述的一种数字能源空压站的数据分析方法，如图4至图5所示，包括集中数据存储系统、查询系统及数据分析系统，所述查询系统与数据分析系统之间建立数据通道，数据分析系统与集中数据存储系统建立数据传输通道，所述集中数据存储系统包括数据采集模块，其中：

进一步的，在本申请的一种优选实施例中，还包括可视化平台，所述可视化平台包括设备实时交互模块和异常监控处理模块，所述设备实时交互模块与所述数据采集模块连接，实时更新设备的信息，所述异常监控处理模块根据所述数据分析系统的分析结果，进行结果展示。

在本申请的另一实施例中，针对空压站产生的数据具有多维度和数据之间具有关联性的特点，本申请实施例使用多元统计分析的方法对数据进行分析，具体的：

多元统计分析是一种通过统计学方法，分析多个变量之间的关系和相互作用的方法，利用多元统计分析方法如主成分分析(PCA)、因子分析、聚类分析等来识别主要变量和相关性。

多元统计分析法的目的是找到变量间的关系、变量对数据的贡献度、变量的权重等，从而综合考虑多个变量的影响，更全面的理解数据背后的含义。

在本申请实施例中，通过因子分析方法，找到变量间的关系、变量对数据的贡献度和变量的权重等，因子分析方法是一种用来发现指标之间的共同特征的技术，主要用于分析一个有相当多变量的数据集，确定代表数据整体方面的小组。因子分析可以在数据变量数目较多繁琐的情况下，快速找出数据变量之间的内在联系，是一种较好的数据简化方法。

具体的，因子分析法包括以下步骤：

收集空压站产生的数据，并进行清洗处理，包括缺失值处理和异常值处理；

通过主成分分析，将原始数据转换成较少的因子，使新因子能够解释原始变量中的大部分方差，从而进行因子提取。通过选择解释方差比、平行分析、最大似然估计的方法，得到合适的因子个数及其权重；

通过因子提取得到的公因变量进行旋转，使每个因子只解释其中某些变量，而其他与公因变量相关性较小的因子，则进行剔除；

对每个因子进行因子解释；

通过对因子分析结果的评价，从而验证所选择的因子数和因子旋转方式是否正确。

因子提取是因子分析的核心过程之一，目的是将原始数据转换为较少的几个因子来说明变量之间的关系，具体的，在本申请实施例中，因子提取具体包括以下步骤：

计算原始变量之间的相关系数矩阵或协同方差矩阵。相关系数矩阵用于处理标准化的数据，而协同方差矩阵用于处理原始数据；

选择因子的数量：根据因子分析的目的，确定需要提取的因子的数量。一般来说，选择的因子数量应该能够解释大部分的变异，但也要避免过度提取，导致解释力度不足。

因子提取：根据选择的因子提取方法，进行计算。例如，主成分分析方法可以通过特征值分解或奇异值分解来计算主成分。最大似然估计方法可以通过迭代算法来估计因子载荷。

判断因子的有效性：通过判断子载荷矩阵中的因子载荷值大小、共同度、解释总方差等指来评估因子的有效性和解释力。较大的因子载荷值表明变量与因子之间的相关程度较高，较小的共同度表明变量与其他因子的相关程度较低。

因子命名：根据因子载荷矩阵中变量与因子的相关性，对提取的因子进行命名和解释。这一过程需要综合考虑因子载荷值、变量的含义、领域知识等因素。

在本申请实施例中，利用主成分分析法(PCA)对空压站数据的因子进行提取，可以将相关联的变量转化为较少数量的因子，并解释大部分的变异性。如空压站数据有多个相关变量，可以使用PCA来提取潜在的因子，并减少数据维度。

具体的，使用主成分分析法对空压站进行因子提取具体包括以下步骤：

收集数据并进行清理：收集数据并进行清洗，包括去异常值、缺失值填补等。确保准确的数据将有助于之后的PCA分析；

变量标准化：因为PCA依赖于标准化数据(均值为0，方差为1)，所以必须将原始数据标准化为标准分数或Z分数，从而消除度量单位的影响；

计算协同方差矩阵：根据标准化后的数据计算协同方差矩阵，它反映了每对变量之间的相关性。可以根据数据类型选择计算协同方差矩阵或相关系数矩阵；

计算特征值和特征向量：通过对协同方差矩阵进行特征值分解，得到特征值和特征向量，特征向量描述了原始数据集的主成分；

选择主成分：确定要选择的主成分数量，可以特征值、Kaiser准则、Scree图和平行分析等方法确定主成分的数量，通常会选择解释总方差的比例大于80的主成分；

计算因子载荷：将原始变量映射到新空间中，计算每个原始变量和每个新主成分之间的线性关系(也称为因子载荷)；

解释主成分：解释主成分可以帮助我们理原始变量和新主成分之间的关系，可以考虑每个主成分所解释的变异度，以及各个因子载荷的大小和符号；

进行主成分回归分析：最后，可以将新主成分用作回归分析的自变量，进行进一步的建模和预测分析。

主成分提取；主成分是原始数据中每个变量的线性组合，主成分的权重(也就是因子载荷)，由一组特殊的方向决定，这些方向为主因子，是数据中可以被提取的最大方差方向。第一组成分是方差最大的方向，第二个是与第一个不相关方向上方差最大的线性组合，第三主成分则是不相关前面两个主成分的方向上方差最大的线性组合，并以此类推。

确定主成分的数量。在确定主成分数量的过程中，遵循Kaiser准则，将特征值小于1的因子舍弃，这样就可以剔除无共性方差的特征，这样选出的因子能够保留数据方差的大部分，但不会对模型的解释力造成负面影响。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上内容仅仅是对本发明结构所作的举例和说明，所述本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种数字能源空压站的数据分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数字能源空压站的数据分析方法，其特征在于，所述选择目标数据特征具体包括对数据特征进行过滤、封装或嵌入。

3.根据权利要求2所述的一种数字能源空压站的数据分析方法，其特征在于，所述对数据特征进行过滤的具体过程为：

通过计算每个特征与目标变量的相关得分；

按得分以及特征排序方法进行排序；

选择与目标变相高度相关的特征为目标数据特征。

4.根据权利要求2所述的一种数字能源空压站的数据分析方法，其特征在于，所述对数据特征进行封装的具体过程为：

特征子集生成：从原始特征集中生成不同的子集；

5.根据权利要求2所述的一种数字能源空压站的数据分析方法，其特征在于，所述对数据特征进行嵌入的具体过程为：

准备包含所以特征和目标变量的数据集；

6.根据权利要求1所述的一种数字能源空压站的数据分析方法，其特征在于，所述通过机器学习模型对比较后的数据自身的特征进行排序，使特征数据进行降维，具体包括以下步骤：

对协同方差矩阵进行特征值分解，得到特征值和特征向量；

7.根据权利要求1所述的一种数字能源空压站的数据分析方法，其特征在于，进行模型训练具体包括以下步骤：

针对采样集进行基学习器的训练，并最终做加权结合；

8.根据权利要求7所述的一种数字能源空压站的数据分析方法，其特征在于，基于学习器集成的方式减小估计的方差，具体包括以下步骤：

给所有样本训练集赋予相同的权重；

其中，ω_i为第i个样本的权重，G_n表示第n个分类器；

计算α_n＝log((1-err_n)/err_n)；

考虑n+1次迭代，将第i个样本的权重ω_i重设为

迭代完成后，即可得到所有分类器。

9.一种数字能源空压站的数据分析系统，其特征在于，执行权利要求1至8任一项所述的一种数字能源空压站的数据分析方法，包括集中数据存储系统、查询系统及数据分析系统，所述查询系统与数据分析系统之间建立数据通道，数据分析系统与集中数据存储系统建立数据传输通道，所述集中数据存储系统包括数据采集模块，其中：

10.根据权利要求9所述的一种数字能源空压站的数据分析系统，其特征在于，还包括可视化平台，所述可视化平台包括设备实时交互模块和异常监控处理模块，所述设备实时交互模块与所述数据采集模块连接，实时更新设备的信息，所述异常监控处理模块根据所述数据分析系统的分析结果，进行结果展示。