CN116822649A

CN116822649A - 一种基于机器学习和深度学习的电厂数据预测系统及方法

Info

Publication number: CN116822649A
Application number: CN202310699890.9A
Authority: CN
Inventors: 郑艳伟; 陈锋; 于东晓
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-09-29

Abstract

本发明公开了一种基于机器学习和深度学习的电厂数据预测系统及方法，系统包括数据采集与观测点分析模块、模型训练模块、数据分析模块、数据预测模块、风险上报与报警模块、日志与存储模块；本发明通过对来自不同测点的观测数据每隔五秒进行取值，然后对数据进行数据预处理，对于数据分析和数据预测采取不同的模型进行处理，数据分析主要是对连续数据进行分析和监测，对异常点进行报警处理降低人工成本和提高检测效率。数据预测主要对时序数据进行预测，预测其未来一段时间的走向和趋势，提前通过其变化来控制成本和风险分析。通过建立的关系来自动选择模型进行数据分析和数据预测，极大地改善了电厂的运行效率和人工成本投入。

Description

一种基于机器学习和深度学习的电厂数据预测系统及方法

技术领域

本发明属于计算机机器学习和深度学习领域，特别涉及一种基于机器学习和深度学习的电厂数据预测系统及方法。

背景技术

随着科技的发展和电力行业的进步，电厂需要更加智能化、高效和可靠的运行方式。数据分析和预测技术可以帮助电厂更好地监控运行状况，提前发现问题并优化调度策略。在电厂运行过程中，有大量的监测设备和传感器部署在各个观测点，用于实时收集设备运行状态、环境参数等数据。这些数据对于电厂运行的安全性、稳定性和经济性具有重要价值。然而，由于数据量庞大、类型繁多，传统的数据分析方法难以满足需求，因此需要借助新兴技术来实现更高效的数据分析和预测。

发明内容

为解决上述技术问题，本发明提供了一种基于机器学习和深度学习的电厂数据预测系统及方法，通过建立的关系来自动选择模型进行数据分析和数据预测，以达到极大地改善电厂的运行效率和人工成本投入的目的。

为达到上述目的，本发明的技术方案如下：

一种基于机器学习和深度学习的电厂数据预测系统，包括数据采集与观测点分析模块、模型训练模块、数据分析模块、数据预测模块、风险上报与报警模块、日志与存储模块；

所述数据采集与观测点分析模块负责从多个观测点每个5秒钟采集一次数据并根据时序关系进行排列，对于多个测点的之间的存在的直接物理关系和潜在抽象关系建立联系；

所述模型训练模块负责训练多种异常点检测模型，并综合训练数据与各模型的拟合关系去选择单个模型或者多种模型的组合来进行异常点分析，根据预测点与其相关联的观测点的关系选择单对单、多对单、多对多模型进行对应模型的训练；

所述数据分析模块包括模型选择与组合模块、异常点检测模块、原因分析模块；

所述数据预测模块包括数据处理模块、模型预测模块、趋势分析模块；

所述风险上报与报警模块对数据分析模块和数据预测模块输出的风险进行分析与历史比对，把已出现的并且符合报警条件的测点信息及时报警，并根据不同的报警条件进行不同等级的报警；对于预测模型给出的潜在风险和成本投入优化上报给管理人员，进行及时调整优化；

所述日志与存储模块对各模块中警告和错误以及调试和正常信息进行输出和日志形式的存储，对必要的分析值和预测值进行数据库存储，以备未来的查询和分析。

上述方案中，所述数据分析模块中，模型选择与组合模块根据训练模型与观测点之间的数据拟合关系，建立测点与模型的权重矩阵，并根据权重矩阵进行单观测点单模型的选择，多观测点多个模型的堆叠串联或多个单模型的并联的选择；异常点检测模块根据选择模型去进行单测点或多测点的异常点检测；原因分析模块根据异常点之间的各种关系分析其可能的原因。

上述方案中，所述数据预测模块中，数据处理模块对选择的输入测点进行数据处理，根据输入步长和时间长度把重新整理的数据输入给模型；模型预测模块根据数据处理后的数据选择输单对单、多对单、多对多的输出格式，并根据模型调好的参数进行时序预测输出；趋势分析模块对模型输出进行趋势分析，分析其潜在的风险和成本投入。

一种基于机器学习和深度学习的电厂数据预测方法，采用如上所述的一种基于机器学习和深度学习的电厂数据预测系统，包括如下步骤：

(1)由数据采集与观测点分析模块收集和整理各观测点的数据，并针对其客观存在的物理逻辑关系以及其潜在抽象关系建立联系，并将各观测点根据其需求分发给数据分析模块和数据预测模块；

(2)数据分析模块对各种需要单测点和多测点异常分析的测点和模型进行训练，并根据训练的结果构建权重矩阵，测点根据权重矩阵选择对应合适的模型，对应模型负责检测对应测点的数据，针对检测出的异常点进行分析，单测点只需要结合历史分析，多测点需要再结合多测点的关系分析；

(3)数据预测模块对需要数据预测的测点数据进行整理和清洗，把数据整理成模型可以读懂的输入，并进行模型训练和调参，模型预测时需要把时序数据不断的输入到模型进行未来一段时间的数据预测，并根据预测结果进行潜在风险和投入调整的分析；

(4)风险上报与报警模块把数据预测和数据分析产生的风险及警报进行分析，并对风险和警报进行分级上报，警报等级越高则需要管理人员进行干预；

(5)日志与存储模块把系统各个阶段产生的日志进行输出和存储，日志也分为正常、警告、调试、错误等信息，帮助管理人员实时对系统的管理，存储模块把系统从测点收集到的数据和数据分析和预测模块产生的风险和预测进行存储以备后续的查询。

上述方案中，步骤(1)中，所述数据采集与观测点分析模块分为数据采集模块和相关性分析模块；所述数据采集模块的功能是从电厂观测点采集数据，并将数据存储到数据库中，后续模块从数据库中直接拿取；所述相关性分析模块的功能是对采集到的数据进行分析，并得出不同观测点之间的物理逻辑相关性和其他隐藏相关性。

上述方案中，所述相关性分析模块的具体实现步骤如下：

首先对采集到的数据进行预处理，包括数据清洗和缺失值填充；然后对预处理后的数据，使用相关系数方法来计算不同观测点之间的相关性，包括Pearson线性相关系数、Spearman相关系数、Kendall秩相关系数。

上述方案中，步骤(2)中，数据分析模块对不同观测点选取多个模型进行比对选择，所述模型分为基于统计学的模型、基于机器学习聚类的模型、基于深度学习的模型、基于集成学习的模型以及人工观测方法。

上述方案中，步骤(3)中，数据预测模块中的数据预测模型分为数据预处理、编码器嵌入、编码器、解码器嵌入、解码器、映射层；经过数据预处理的数据，再经过编码嵌入得到模型可以处理的数据，数据分别经过Token嵌入、位置嵌入、时间嵌入再相加得到可以输入到编码器的数据；编码器由多层编码器层组合而成，编码器层内部由ProbSparse注意力和前馈神经网络、残差结构、层归一化组成，依次通过如上结构得到编码器层输出结果，每个编码器层的输出维度均相同；在输入到解码器嵌入之前通过一个卷积层对数列长度进行下采样，使得解码器的注意力计算量降低，并可以让网络自己学习对输出更有利的时间点；

解码器嵌入与编码器嵌入相同，对查询的query同时进行Token嵌入、位置嵌入、时间嵌入的叠加；解码器同样由多个解码器层组成，每个解码器层由自注意力、交叉注意力、残差结构、前馈神经网络组成，解码器的第一个注意力机制同编码器中相同为ProbSparse自注意力，第二个注意力机制使交叉注意力机制，query来自第一个注意力机制，key和value来自编码器的注意力机制；数据依次通过多个解码器层输出解码结果；最后数据通过一个线性映射层得到输出维度，该线性映射层位全连接层负责输出结果的维度变换。

通过上述技术方案，本发明提供的一种基于机器学习和深度学习的电厂数据预测系统及方法具有如下有益效果：

本发明将各测点产生的大量数据按时序进行组合，并分析其根据其物理逻辑位置以及其潜在的相关性，通过相关性分析对大量意义不同分布不同的测点进行分类和组合。在异常点检测中，通过数据列与模型拟合的权重矩阵来自动进行模型的选择，以减少人工进行模型的选择的资源消耗。在数据预测中，通过注意力机制中的采样和数据长度选择来减少注意力的计算量，在保证数据预测精度几乎不减的前提下能大量较少注意力的计算。通过建立的关系来自动选择模型进行数据分析和数据预测，极大的改善了电厂的运行效率和人工成本投入。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于机器学习和深度学习的电厂数据预测系统示意图。

图2为数据分析结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于机器学习和深度学习的电厂数据预测系统，如图1所示，包括数据采集与观测点分析模块、模型训练模块、数据分析模块、数据预测模块、风险上报与报警模块、日志与存储模块。

数据采集与观测点分析模块负责从多个观测点每个5秒钟采集一次数据并根据时序关系进行排列，对于多个测点的之间的存在的直接物理关系和潜在抽象关系建立联系；

模型训练模块负责训练多种异常点检测模型，并综合训练数据与各模型的拟合关系去选择单个模型或者多种模型的组合来进行异常点分析，根据预测点与其相关联的观测点的关系选择单对单、多对单、多对多模型进行对应模型的训练；

数据分析模块包括模型选择与组合模块、异常点检测模块、原因分析模块；模型选择与组合模块根据训练模型与观测点之间的数据拟合关系，建立测点与模型的权重矩阵，并根据权重矩阵进行单观测点单模型的选择，多观测点多个模型的堆叠串联或多个单模型的并联的选择；异常点检测模块根据选择模型去进行单测点或多测点的异常点检测；原因分析模块根据异常点之间的各种关系分析其可能的原因。

数据预测模块包括数据处理模块、模型预测模块、趋势分析模块；数据处理模块对选择的输入测点进行数据处理，根据输入步长和时间长度把重新整理的数据输入给模型；模型预测模块根据数据处理后的数据选择输单对单、多对单、多对多的输出格式，并根据模型调好的参数进行时序预测输出；趋势分析模块对模型输出进行趋势分析，分析其潜在的风险和成本投入。

风险上报与报警模块对数据分析模块和数据预测模块输出的风险进行分析与历史比对，把已出现的并且符合报警条件的测点信息及时报警，并根据不同的报警条件进行不同等级的报警；对于预测模型给出的潜在风险和成本投入优化上报给管理人员，进行及时调整优化；

日志与存储模块对各模块中警告和错误以及调试和正常信息进行输出和日志形式的存储，对必要的分析值和预测值进行数据库存储，以备未来的查询和分析。

一种基于机器学习和深度学习的电厂数据预测方法，采用如上的一种基于机器学习和深度学习的电厂数据预测系统，包括如下步骤：

数据采集与观测点分析模块分为数据采集模块和相关性分析模块；数据采集模块的功能是从电厂观测点采集数据，并将数据存储到数据库中，后续模块从数据库中直接拿取；以下是该模块的具体实现步骤：

步骤1：在观测点放置采集设备。用户可以根据需要在想要检测的观测点放置合适的对应设备，如在发电器附近放置电流电压传感器、在燃烧炉附近放置温度传感器、在出风口和进风口附近放置压力传感器、在进煤口放置枚流量传感器等；

步骤2：采集数据。针对每个选定的观测点，我们需要采集其相应的数据。数据采集可以通过现场传感器、PLC等方式获取。采集到的数据包括电压、电流、功率因数、湿度、温度、压力等指标。

步骤3：数据存储。将采集到的数据存储到数据库中。我们可以选择关系型数据库如MySQL，也可以选择非关系型数据库如MongoDB等。

相关性分析模块的功能是对采集到的数据进行分析，并得出不同观测点之间的物理逻辑相关性和其他隐藏相关性。以下是该模块的具体实现步骤：

步骤1：数据预处理。对采集到的数据进行预处理，包括数据清洗：对无意义数据进行清洗删除；缺失值填充：这里具体问题具体分析，对电流观测点的数据缺失值通常为补0方法，因为通常电流的缺失是指发电机停止工作，因此在逻辑上电流应该为0，温度和压力等观测点数据缺失通常只温度计和压力传感器没电，但通常温度和压力是不会骤增和骤降的，因此通常对缺失值进行均值化处理，数据标准化采用均值方差标准化公式，把数据集中到均值为0，方差为1的分布上，具体公式如下：

其中，对于每个特征j＝1,2,…,d，计算该特征在所有样本上的方差μ_j和方差对于每个样本x_i，将其第j个特征标准化为z_i,j，z_i,j表示将第i个样本的第j个特征标准化之后的值。

步骤2：计算相关性。

对预处理后的数据，使用相关系数方法来计算不同观测点之间的相关性。可以用Pearson线性相关系数、Spearman相关系数、Kendall秩相关系数等。

(2)数据分析模块对各种需要单测点和多测点异常分析的测点和模型进行训练，并根据训练的结果构建权重矩阵，测点根据权重矩阵选择对应合适的模型，对应模型负责检测对应测点的数据，针对检测出的异常点进行分析，单测点只需要结合历史分析，多测点需要再结合多测点的关系分析。

图2是数据分析结构图。需要进行数据分析的测点经过相关性分析的结果，去除相关性相似的测点，选择具有代表性的测点与所有模型进行数据拟合，拟合后进行测试集进行测试，根据测试结果的拟合情况构建测点与模型的权重矩阵，权重矩阵中越大说明拟合的效果越好，也就是模型更适合处理该测点的数据。后续权重矩阵中有的测点则直接根据权重大小进行模型选择，没有的测点根据相关性最为接近的测点进行模型选择。单测点和多测点与模型组合好之后进行数据检测，对于检测出的异常点进行原因分析，单测点直接根据历史比对得出结果，多测点根据各测点之间的相互关系以及相关测点的历史得出结果。最后把异常点以及分析出的原因输入到风险上报及报警模块进行报警。

本发明数据分析模型主要以异常值检测为主，是指在数据中寻找与众不同的数据点，即与其它数据点显著不同的数据点，通常也称为离群值。由于观测点众多且表示的涵义几乎不相同，因此同一模型对不同测点的效果差异巨大。因此对不同观测点选取多个模型进行比对选择。

本发明基于各观测点选择的模型可以分为基于统计学的模型、基于机器学习聚类的模型、基于深度学习的模型、基于集成学习的模型等以及人工观测等方法。其中：

基于统计学的模型是指利用统计学方法来刻画数据的分布，并根据分布特征来判断某个数据点是否为异常值。常见的统计学方法包括3σ、IQR(四分位距)等。基于聚类的模型是指利用聚类算法来将数据集分成若干个类别，并通过比较某个数据点与其它类别中心点之间的距离来判断该数据点是否为异常值。常见的聚类算法包括K-means、DBSCAN等。基于深度学习的模型是指利用深度神经网络来建立异常值检测模型。常用的深度学习模型包括自编码器(Autoencoder)、变分自编码器(Variational Autoencoder)等。基于集成学习的模型是指将多个异常值检测模型进行集成，从而提高检测的准确率和鲁棒性。常见的集成学习方法包括Bagging、Boosting、Stacking等。人工观测的方法主要是依靠人为经验和明显的观测点值区别来划定范围和阈值等方法。

根据数据列的不同的分布与各模型与数据列之间的拟合结果构建数据列与各模型的权重矩阵，矩阵中拟合结果约高权重越大。单模型或者多模型综合可以通过权重矩阵来选择对应的模型。

(3)数据预测模块对需要数据预测的测点数据进行整理和清洗，把数据整理成模型可以读懂的输入，并进行模型训练和调参，模型预测时需要把时序数据不断的输入到模型进行未来一段时间的数据预测，并根据预测结果进行潜在风险和投入调整的分析。

时序数据在输入到模型前需要先对数据进行预处理，对数据进行清理和标准化处理，并按照格式要求对进行重新排列和组合。在模型训练中根据需求以及效果进行单对单、多对单、多对多的选择，根据需求选择合适的预测长度，通常预测的长度超过一定长度后就变得不稳定，因此需要根据需求进行合适的长度选择。训练完的模型与数据列进行绑定预测，再通过对未来数据的预测进行趋势分析，分析未来数据中的潜在的风险，以及结合历史信息对成本输入的调整等。

数据预测模块中的数据预测模型分为数据预处理、编码器嵌入、编码器、解码器嵌入、解码器、映射层。

非时间数据里通过均值方差标准化进行数据预处理，时序数据预测除了数据列之间的信息具有位置关系外，时间列也是一个重要参考依据，因此还需要额外添加时间列让模型学习时间关系，时间数据列按日期格式进行标准化，数据列通常为“年-月-日时:分:秒”格式，每一个时间格式位置都包含有不同涵义信息，因此需要对每一个位置都进行标准化，使其输出映射到[-0.5,0.5]范围内，以月份为例,公式如下。

经过数据预处理的数据，再经过编码嵌入得到模型可以处理的数据，数据分别经过Token嵌入、位置嵌入、时间嵌入再相加得到可以输入到编码器的数据；Token嵌入、位置嵌入、时间嵌入方法如下：

Token嵌入：对非时间数据列标准化的数据通过以为卷积Conv1D映射到指定维度形成Token。

位置嵌入:使用SinCosine位置编码对非时间列数据进行位置编码，SinCosine位置编码公式如下：

时间嵌入：对时间数据列标准化后的数据通过全连接层线性映射到编码维度。

编码器由多层编码器层组合而成，编码器层内部由ProbSparse注意力和前馈神经网络、残差结构、层归一化组成，依次通过如上结构得到编码器层输出结果，每个编码器层的输出维度均相同；

ProbSparse注意力操作如下：

在注意力计算之前需要先对Query和Key采样，在保证精度减少很小的情况下，极大的减少了计算量具体流程如下：

①为每个query都随机采样5×lnL个key值；

②通过KL散度计算每个query的稀疏性得分；

③选择5×lnL个稀疏性得分最高的query；

④选择的部分query与所有key计算点积结果。

具体公式如下：

随机采样U＝L_KlnL_Q个点积对，使用KL散度来计算query的稀疏矩阵

其中，是稀疏矩阵/>中采样U＝clnL_Q而来，c为一个常系数。

在输入到解码器嵌入之前通过一个卷积层对数列长度进行下采样，使得解码器的注意力计算量降低，并可以让网络自己学习对输出更有利的时间点；

解码器嵌入与编码器嵌入相同，对查询的query同时进行Token嵌入、位置嵌入、时间嵌入的叠加。

解码器同样由多个解码器层组成，每个解码器层由自注意力、交叉注意力、残差结构、前馈神经网络组成，解码器的第一个注意力机制同编码器中相同为ProbSparse自注意力，第二个注意力机制使交叉注意力机制，query来自第一个注意力机制，key和value来自编码器的注意力机制；数据依次通过多个解码器层输出解码结果。

最后数据通过一个线性映射层得到输出维度，该线性映射层位全连接层负责输出结果的维度变换。

(4)风险上报与报警模块把数据预测和数据分析产生的风险及警报进行分析，并对风险和警报进行分级上报，警报等级越高则需要管理人员进行干预。

(5)日志与存储模块把系统各个阶段产生的日志进行输出和存储，日志也分为正常、警告、调试、错误等信息，帮助管理人员实时对系统的管理，存储模块把系统从测点收集到的数据和数据分析和预测模块产生的风险和预测进行存储以备后续的查询，根据数据关系可自行选择关系型数据库MySQL或者非关系型数据库MongoDB等。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于机器学习和深度学习的电厂数据预测系统，其特征在于，包括数据采集与观测点分析模块、模型训练模块、数据分析模块、数据预测模块、风险上报与报警模块、日志与存储模块；

2.根据权利要求1所述的一种基于机器学习和深度学习的电厂数据预测系统，其特征在于，所述数据分析模块中，模型选择与组合模块根据训练模型与观测点之间的数据拟合关系，建立测点与模型的权重矩阵，并根据权重矩阵进行单观测点单模型的选择，多观测点多个模型的堆叠串联或多个单模型的并联的选择；异常点检测模块根据选择模型去进行单测点或多测点的异常点检测；原因分析模块根据异常点之间的各种关系分析其可能的原因。

3.根据权利要求1所述的一种基于机器学习和深度学习的电厂数据预测系统，其特征在于，所述数据预测模块中，数据处理模块对选择的输入测点进行数据处理，根据输入步长和时间长度把重新整理的数据输入给模型；模型预测模块根据数据处理后的数据选择输单对单、多对单、多对多的输出格式，并根据模型调好的参数进行时序预测输出；趋势分析模块对模型输出进行趋势分析，分析其潜在的风险和成本投入。

4.一种基于机器学习和深度学习的电厂数据预测方法，采用如权利要求1所述的一种基于机器学习和深度学习的电厂数据预测系统，其特征在于，包括如下步骤：

5.根据权利要求4所述的一种基于机器学习和深度学习的电厂数据预测方法，其特征在于，步骤(1)中，所述数据采集与观测点分析模块分为数据采集模块和相关性分析模块；所述数据采集模块的功能是从电厂观测点采集数据，并将数据存储到数据库中，后续模块从数据库中直接拿取；所述相关性分析模块的功能是对采集到的数据进行分析，并得出不同观测点之间的物理逻辑相关性和其他隐藏相关性。

6.根据权利要求5所述的一种基于机器学习和深度学习的电厂数据预测方法，其特征在于，所述相关性分析模块的具体实现步骤如下：

7.根据权利要求4所述的一种基于机器学习和深度学习的电厂数据预测方法，其特征在于，步骤(2)中，数据分析模块对不同观测点选取多个模型进行比对选择，所述模型分为基于统计学的模型、基于机器学习聚类的模型、基于深度学习的模型、基于集成学习的模型以及人工观测方法。

8.根据权利要求4所述的一种基于机器学习和深度学习的电厂数据预测方法，其特征在于，步骤(3)中，数据预测模块中的数据预测模型分为数据预处理、编码器嵌入、编码器、解码器嵌入、解码器、映射层；经过数据预处理的数据，再经过编码嵌入得到模型可以处理的数据，数据分别经过Token嵌入、位置嵌入、时间嵌入再相加得到可以输入到编码器的数据；编码器由多层编码器层组合而成，编码器层内部由ProbSparse注意力和前馈神经网络、残差结构、层归一化组成，依次通过如上结构得到编码器层输出结果，每个编码器层的输出维度均相同；在输入到解码器嵌入之前通过一个卷积层对数列长度进行下采样，使得解码器的注意力计算量降低，并可以让网络自己学习对输出更有利的时间点；