CN110222416A

CN110222416A - 一种基于大数据的工业蒸汽量预测方法

Info

Publication number: CN110222416A
Application number: CN201910486534.2A
Authority: CN
Inventors: 王进; 张睿; 陈重元; 邓欣; 孙开伟; 刘彬
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-09-10
Anticipated expiration: 2039-06-05
Also published as: CN110222416B

Abstract

本发明请求保护一种基于大数据的工业蒸汽量预测方法，包括：101对锅炉的工况数据进行预处理操作；102根据工况数据的采集时间划分训练集数据、验证集数据；103建立多个机器学习模型，并进行模型融合操作；104通过建立的模型，根据锅炉传感器每分钟采集的工况数据对锅炉产生的蒸汽量进行预测。本发明主要是通过对锅炉工况数据进行预处理和分析，划分数据集，并利用已处理的工况数据建立多个机器学习模型，根据锅炉传感器每分钟采集的工况数据对锅炉产生的蒸汽量进行预测，为工业实时监测锅炉的燃烧效率提供服务。

Description

一种基于大数据的工业蒸汽量预测方法

技术领域

本发明属于机器学习、大数据处理，尤其是特征工程构建、模型融合方案、工业蒸汽量预测等。

背景技术

当今世界在城市化和工业化的道路上突飞猛进，人类将进入一个以知识经济为特征的信息时代，检测技术、计算机技术和通讯技术一起构成现代信息的三大基础。21世纪的热点必将向传感、执行与检测方向发展。锅炉自动化控制系统作为传感、执行与检测技术的一个应用方面也必将跨入数字化、网络化和智能化时代。火力发电厂在发电时，燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。如何通过锅炉的工况来反应锅炉的燃烧效率的问题也就出现了。

为了更好地解决这一问题，首先要搞清影响锅炉燃烧效率的主要因素以及影响锅炉产生对蒸汽量的条件。然后对锅炉传感器反馈回来的信息进行收集和分析，利用大数据处理以及机器学习方面的知识对数据进行深度的挖掘与利用。对锅炉工况数据进行分析和整合，利用相关知识来研究锅炉产生的蒸汽量和锅炉的燃烧效率已经成为一个具有挑战性的技术难题。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种工业实时监测锅炉的燃烧效率的基于大数据的工业蒸汽量预测方法。本发明的技术方案如下：

一种基于大数据的工业蒸汽量预测方法，其包括以下步骤：

101.获取锅炉的工况数据，并对锅炉的工况数据先后进行缺失值处理、异常值处理和对非对称分布的处于偏斜状态的数据进行偏态修正三个数据预处理操作；

102.采用以区间覆盖为基础的自助法，根据工况数据的采集时间划分训练集数据、验证集数据，并对锅炉工况数据进行特征工程操作；

103.建立多个机器学习模型，并采用基于Filter和线性加权的瀑布融合法进行模型融合操作；

104.通过步骤103建立的融合模型，根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测，利用预测的蒸汽量求得锅炉的燃烧效率运用在工业生产上。

进一步的，所述步骤101对锅炉传感器每分钟采集的工况数据进行异常值处理的具体步骤为：

1011.对异常值处理：基于拉依达方法，对近似正态分布的数据中的异常值进行剔除，采集数据中只含有随机误差，对其进行计算处理得到标准偏差，按概率确定区间，超过这个区间的误差已不属于随机误差而是粗大误差，含有该误差的数据应予以剔除；

独立得到x₁,x₂,...,x_n等样本值，n表示样本数，计算出算术平均值μ及剩余误差v_i(i＝1,2,...,n)，并按贝塞尔公式计算出标准偏差σ，若某个测量值x_t的剩余误差v_t(1≤t≤n)，满足下式：

则认为x_t是含有粗大误差值的坏值，应予剔除，λ表示0到1之间的任意实数，用来增大数据容忍程度。

进一步的，所述步骤101对非对称分布的处于偏斜状态的数据进行偏态修正具体包括：偏态分布是与正态分布相对、分布曲线左右不对称的分布，对偏态分布数据转换为进行操作，使其转换为正态分布数据，这样样本均值和方差则相互独立；

对于正偏态的数据进行取对数或取平方根操作，进行这样的变换将大的数据向左移动，使数据接近正态分布，负偏态数据的情况取相反数转化为右偏的情况；

为了凸显方差和偏态的相似性，定义偏度系数计算公式如下：

其中，μ为偏态数据的算术平均值，σ为偏态数据的标准差。当偏度系数大于0时，则为正偏态，这时对数据进行取对数操作；当偏度系数小于0时，则为负偏态，这时对数据取相反数后再取对数。

进一步的，所述步骤101缺失值处理是基于时间加权的缺失值处理：对于存在缺失值的属性列，使用如下公式对其值进行填充：

x⁽⁰⁾＝0.2x⁽¹⁰⁾+0.3x⁽⁵⁾+0.5x⁽¹⁾ 公式(3)

其中，x⁽⁰⁾表示属性列缺失值，x⁽¹⁰⁾表示十分钟前的属性列值，x⁽⁵⁾表示五分钟前的属性列值，x⁽¹⁾表示一分钟前的属性列值。

进一步的，所述步骤102根据锅炉传感器对工况数据的采集时间划分训练集数据、验证集数据具体步骤为：

采用以区间覆盖为基础的自助法划分训练集数据和验证集数据，在锅炉传感器以每分钟为单位采集的7天的工况数据中，将每两个小时作为一个小区间，这样7天168个小时可以划分为84个小区间，在这些小区间D_i中进行采样产生D_i'：D_i'表示从D_i中随机且有放回地采样得到的数据集。每次随机从D_i中挑选一个样本，并将其拷贝一份放入D_i'中，保持D_i不变，重复以上过程m次，D_i中有部分样本会多次出现在D_i'，而另一部分不会出现；将∑D_i'当作训练集，将∑(D_i'\D_i)当作验证集。

进一步的，所述步骤103建立多个机器学习模型，并基于Filter和线性加权的瀑布融合法进行模型融合操作的具体步骤为：

采用将多个模型串联的方法，将每个基模型视为一个过滤器，将不同粒度的过滤器进行前后衔接，对于样本集近似于正态分布的数据，基模型的选择中保证线性与非线性相结合，线性模型选择Lasso回归模型、线性的Kernel ridge regression模型和使用L1和L2先验作为正则化矩阵的模型ElasticNet，另外三个非线性基模型选择分别为基于多项式的Kernel ridge regression模型、SVR模型和Xgboost模型；

在基于Filter和线性加权的瀑布融合法中，前一个模型过滤的结果，将作为后一个模型的候选集合输入，模型共三层，每一层基模型的顺序为线性模型在前，非线性模型在后，最后对非线性模型的输出结果进行线性加权，得到最终的融合模型；

进一步的，当Xgboost模型的权重为0.76，多项式的Kernel ridge regression模型的权重为0.12，SVR模型的权重为0.12，利用最终的融合模型根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测。

进一步的，所述对训练集和测试集进行特征工程构建具体包括：对锅炉工况数据构建基础统计特征、模块特征、外部特征和时序特征；

1031.基础统计特征：对锅炉床温、床压、湿度，炉膛温度、膛压、湿度以及过热器的温度、压强、湿度以每小时为单位区间进行求均值和求众数的操作，之后再对所求出的均值和众数再取平均，将其作为特征，同时，利用公式(4)将锅炉的额定功率及实际功率通过物理运算提特征，直接将ratio值作为特征列；

1032.模块特征：将特征工程模块化，将其分为炉膛、锅炉床、锅炉风口、主蒸汽四个模块，分别研究每个模块内的温度、湿度和压力值，按照锅炉传感器以分钟为单位采集的各种锅炉工况数据，分别在模块内提取特征，提取特征的方法为在模块内部对每分钟的温度、湿度和压强求方差，通过模块内部的数据的波动来构建模块特征；

1033.外部特征：通过对当地气候的查询，获得训练集和测试集当天的气温、空气湿度、风速以及阳光强度这些外部数据；将这些外部数据同样以每分钟为单位进行统计加入到特征工程中，在加入这些离散型数据特征时，使用FP-growth算法来挖掘频繁项集，找出已给的多条数据记录中哪些项是频繁一起出现的；

1034.时序特征：对一天内某一时段的蒸汽量进行预测，时间是特征工程中不可或缺的一部分；针对时间的字段，统计当前时刻与温度峰值、压强峰值和湿度峰值时刻的时间差值，直接将其当做连续值特征，另外，利用公式(5)再将每天的时段进行离散化处理构建特征。

本发明的优点及有益效果如下：

本发明通过对锅炉传感器在7天内每分钟采集的工况数据进行分析，对原始数据进行了预处理工作，基于拉依达原则，对近似正态分布的数据中的异常值进行剔除，同时对非对称分布的处于偏斜状态的数据进行偏态修正。同时为工业锅炉蒸汽量预测构建了具有针对性、区分性和可解释性的特征工程，也为蒸汽量预测提供了基于Filter和线性加权的瀑布融合法。本发明为工业锅炉蒸汽量的预测提供了一种有效且可靠的方案，为工业实时监测锅炉的燃烧效率提供了支持和保障，也使得锅炉自动化控制在前进的道路上迈出了一大步。

本发明的创新主要体现在：

1.通过对锅炉传感器在7天内每分钟采集的工况数据进行分析后，基于拉依达原则，对近似正态分布的数据中的异常值进行剔除，也对原始数据中非对称分布的处于偏斜状态的数据进行了偏态修正，克服了噪声数据的处理难题。

2.同时为工业锅炉蒸汽量预测构建了具有针对性、区分性和可解释性的特征工程，克服了特征工程不具有表征性的难题；

3.在特征选择操作上，使用Fisher score特征选择与sklearn中的单变量特征选择相结合的方法筛选出了鉴别能力强和重要程度高的特征，克服了特征选择无法提取出有价值特征的难题；

4.还为蒸汽量预测提供了基于Filter和线性加权的瀑布融合法，该方法避开了现有的直接对模型结果进行线性加权的方式，首先通过线性模型过滤，将过滤结果同特征一起输入到非线性模型预测，最后对非线性模型的输出结果进行线性加权，克服了普通线性加权达不到较好模型融合效果的难题。

附图说明

图1是本发明提供优选实施例提供的一种基于大数据的工业蒸汽量预测方法的流程图。

图2为本发明实施例一提供的一种基于大数据的工业蒸汽量预测方法中训练集与测试集数据预处理之后的数据偏差与密度分布图。(横轴表示数据偏差，纵轴表示数据密度)

图3为本发明实施例一提供的一种基于大数据的工业蒸汽预测方法中特征选择方法流程图。

图4为本发明实施例一提供的一种基于大数据的工业蒸汽量预测方法中基于Filter和线性加权的瀑布融合图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

参考图1，图1为本发明实施例提供一种基于大数据的工业蒸汽量预测方法流程图，具体包括：

101.对锅炉的工况数据进行预处理操作；

102.根据工况数据的采集时间划分训练集数据、验证集数据；

103.对锅炉工况数据进行特征工程操作；

104.对构建特征完成的样本集进行特征选择操作；

105.建立多个机器学习模型，并进行模型融合操作；

106.通过建立的模型，根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测。

101.对锅炉传感器每分钟采集的工况数据进行预处理操作，具体步骤为：1011.①对异常值处理：基于拉依达原则，利用公式(1)计算出样本值的剩余误差，对近似正态分布的数据中的异常值进行剔除。1012.基于对偏度系数地改进，定义偏度系数计算公式(2)，对非对称分布的处于偏斜状态的数据进行偏态修正1013.基于时间加权的缺失值处理：对于存在缺失值的属性列，使用公式(3)对其值进行填充：

102.根据锅炉传感器对工况数据的采集时间划分训练集数据、验证集数据，具体步骤为：采用以区间覆盖为基础的的自助法划分训练集数据和验证集数据。在锅炉传感器以每分钟为单位采集的7天的工况数据中，将每两个小时作为一个小区间，这样7天168个小时可以划分为84个小区间，在这些小区间D_i中进行采样产生D_i'：D_i'表示从D_i中随机且有放回地采样得到的数据集。每次随机从D_i中挑选一个样本，并将其拷贝一份放入D_i'中，保持D_i不变，重复以上过程m次，将∑D_i'当作训练集，将∑(D_i'\D_i)当作验证集。

103.对锅炉工况数据进行特征工程操作，具体步骤为：根据对传感器每分钟采集的锅炉工况数据的分析，对训练集和测试集进行特征工程构建，所述对特征工程构建是指对锅炉工况数据构建基础统计特征、模块特征、外部特征和时序特征。

1031.基础统计特征：对锅炉床温、床压、湿度，炉膛温度、膛压、湿度以及过热器的温度、压强、湿度以每小时为单位区间进行求均值和求众数的操作，之后再对所求出的均值和众数再取平均，将其作为特征。同时，利用公式(4)将锅炉的额定功率及实际功率通过物理运算提特征，直接将ratio值作为特征列。

1032.模块特征：将特征工程模块化，将其分为炉膛、锅炉床、锅炉风口、主蒸汽四个模块，分别研究每个模块内的温度、湿度和压力值。按照锅炉传感器以分钟为单位采集的各种锅炉工况数据，分别在模块内提取特征。提取特征的方法为在模块内部对每分钟的温度、湿度和压强求方差。通过模块内部的数据的波动来构建模块特征。

1033.外部特征：通过对当地气候的查询，获得训练集和测试集当天的气温、空气湿度、风速以及阳光强度这些外部数据。外界的气温、空气湿度、风速以及阳光强度对于锅炉一天各时间内的工况是有很大影响的，都直接或间接影响着炉口的进出风量、给水量，炉壁的湿度和温度。将这些外部数据同样以每分钟为单位进行统计加入到特征工程中，给了模型很大的改善。同时，在加入这些离散型数据特征时，使用FP-growth算法来挖掘频繁项集，找出已给的多条数据记录中哪些项是频繁一起出现的。

1034.时序特征：对一天内某一时段的蒸汽量进行预测，时间是特征工程中不可或缺的一部分。针对时间的字段，统计当前时刻与温度峰值、压强峰值和湿度峰值时刻的时间差值，直接将其当做连续值特征。另外，利用公式(5)再将每天的时段进行离散化处理构建特征。

104.在构建完包括基础统计特征、模块特征、外部特征和时序特征这四个部分的特征工程后，特征维数已经达到了一百二十维。需要通过特征选择步骤来筛选能更有效预测结果的特征。参考图3，在这里采用了Fisher score特征选择与sklearn中的单变量特征选择相结合的方法来筛选出鉴别能力强和重要程度高的特征。在Fisher score特征选择中，鉴别能力越强的特征表现为类内部样本点的距离越小，类之间的距离越大。将求出的每一维度上的Fisher值从小到大排序，然后再结合sklearn中的SelectBest求出的特征评分由高到低进行排序，取两个排序平均名次的前65％。这样得到了最终的特征集合，基于特征重要度和鉴别能力的前提下完成了特征选择。

105.建立多个机器学习模型，并进行模型融合操作，具体步骤为：基于Filter和线性加权的瀑布融合法：采用将多个模型串联的方法，将每个基模型视为一个过滤器，将不同粒度的过滤器进行前后衔接。对于样本集近似于正态分布的数据，基模型的选择中保证线性与非线性相结合。线性模型选择Lasso回归模型、线性的Kernel ridge regression模型和使用L1和L2先验作为正则化矩阵的模型ElasticNet。另外三个非线性基模型选择分别为基于多项式的Kernel ridge regression模型、SVR模型和Xgboost模型。

参考图4，在基于Filter和线性加权的瀑布融合法中，前一个模型过滤的结果，将作为后一个模型的候选集合输入。模型共三层，每一层基模型的顺序为线性模型在前，非线性模型在后。最后对非线性模型的输出结果进行线性加权，得到最终的融合模型。

设定Xgboost模型的权重为0.76，多项式的Kernel ridge regression模型的权重为0.12，SVR模型的权重为0.12。最后，利用最终的融合模型根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测。

106.通过建立的模型，根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测，具体步骤为：

根据所得到的确定权重后的最终模型对工业锅炉蒸汽量进行预测，为工业实时监测锅炉的燃烧效率提供了支持和保障，也为锅炉自动化控制提供了方案。

本发明通过对锅炉传感器在7天内每分钟采集的工况数据进行分析，对原始数据进行了预处理工作，基于拉依达原则，对近似正态分布的数据中的异常值进行剔除，同时对非对称分布的处于偏斜状态的数据进行偏态修正。同时为工业锅炉蒸汽量预测构建了具有针对性、区分性和可解释性的特征工程，也为蒸汽量预测提供了基于Filter和线性加权的瀑布融合法。本发明为工业锅炉蒸汽量的预测提供了一种有效且可靠的方案，为工业实时监测锅炉的燃烧效率提供了支持和保障。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于大数据的工业蒸汽量预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大数据的工业蒸汽量预测方法，其特征在于，所述步骤101对锅炉传感器每分钟采集的工况数据进行异常值处理的具体步骤为：

3.根据权利要求1所述的一种基于大数据的工业蒸汽量预测方法，其特征在于，所述步骤101对非对称分布的处于偏斜状态的数据进行偏态修正具体包括：偏态分布是与正态分布相对、分布曲线左右不对称的分布，对偏态分布数据转换为进行操作，使其转换为正态分布数据，这样样本均值和方差则相互独立；

4.根据权利要求1所述的一种基于大数据的工业蒸汽量预测方法，其特征在于，所述步骤101缺失值处理是基于时间加权的缺失值处理：对于存在缺失值的属性列，使用如下公式对其值进行填充：

x⁽⁰⁾＝0.2x⁽¹⁰⁾+0.3x⁽⁵⁾+0.5x⁽¹⁾ 公式(3)

5.根据权利要求1-4之一所述的一种基于大数据的工业蒸汽量预测方法，其特征在于，所述步骤102根据锅炉传感器对工况数据的采集时间划分训练集数据、验证集数据具体步骤为：

采用以区间覆盖为基础的自助法划分训练集数据和验证集数据，在锅炉传感器以每分钟为单位采集的7天的工况数据中，将每两个小时作为一个小区间，这样7天168个小时可以划分为84个小区间，在这些小区间D_i中进行采样产生D_i′：D_i′表示从D_i中随机且有放回地采样得到的数据集。每次随机从D_i中挑选一个样本，并将其拷贝一份放入D_i′中，保持D_i不变，重复以上过程m次，D_i中有部分样本会多次出现在D_i′，而另一部分不会出现；

将∑D_i'当作训练集，将∑(D_i'\D_i)当作验证集。

6.根据权利要求5所述的一种基于大数据的工业蒸汽量预测方法，其特征在于，所述步骤103建立多个机器学习模型，并基于Filter和线性加权的瀑布融合法进行模型融合操作的具体步骤为：

在基于Filter和线性加权的瀑布融合法中，前一个模型过滤的结果，将作为后一个模型的候选集合输入，模型共三层，每一层基模型的顺序为线性模型在前，非线性模型在后，最后对非线性模型的输出结果进行线性加权，得到最终的融合模型。

7.根据权利要求6所述的一种基于大数据的工业蒸汽量预测方法，其特征在于，当Xgboost模型的权重为0.76，多项式的Kernel ridge regression模型的权重为0.12，SVR模型的权重为0.12，利用最终的融合模型根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测。

8.根据权利要求6所述的一种基于大数据的工业蒸汽量预测方法，其特征在于，所述对训练集和测试集进行特征工程构建具体包括：对锅炉工况数据构建基础统计特征、模块特征、外部特征和时序特征；