CN110222416A - 一种基于大数据的工业蒸汽量预测方法 - Google Patents

一种基于大数据的工业蒸汽量预测方法 Download PDF

Info

Publication number
CN110222416A
CN110222416A CN201910486534.2A CN201910486534A CN110222416A CN 110222416 A CN110222416 A CN 110222416A CN 201910486534 A CN201910486534 A CN 201910486534A CN 110222416 A CN110222416 A CN 110222416A
Authority
CN
China
Prior art keywords
data
boiler
model
value
skewness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910486534.2A
Other languages
English (en)
Other versions
CN110222416B (zh
Inventor
王进
张睿
陈重元
邓欣
孙开伟
刘彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910486534.2A priority Critical patent/CN110222416B/zh
Publication of CN110222416A publication Critical patent/CN110222416A/zh
Application granted granted Critical
Publication of CN110222416B publication Critical patent/CN110222416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F22STEAM GENERATION
    • F22BMETHODS OF STEAM GENERATION; STEAM BOILERS
    • F22B35/00Control systems for steam boilers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Chemical & Material Sciences (AREA)
  • Marketing (AREA)
  • Thermal Sciences (AREA)
  • Development Economics (AREA)
  • Combustion & Propulsion (AREA)
  • Game Theory and Decision Science (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mechanical Engineering (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Control Of Steam Boilers And Waste-Gas Boilers (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明请求保护一种基于大数据的工业蒸汽量预测方法,包括:101对锅炉的工况数据进行预处理操作;102根据工况数据的采集时间划分训练集数据、验证集数据;103建立多个机器学习模型,并进行模型融合操作;104通过建立的模型,根据锅炉传感器每分钟采集的工况数据对锅炉产生的蒸汽量进行预测。本发明主要是通过对锅炉工况数据进行预处理和分析,划分数据集,并利用已处理的工况数据建立多个机器学习模型,根据锅炉传感器每分钟采集的工况数据对锅炉产生的蒸汽量进行预测,为工业实时监测锅炉的燃烧效率提供服务。

Description

一种基于大数据的工业蒸汽量预测方法
技术领域
本发明属于机器学习、大数据处理,尤其是特征工程构建、模型融合方案、工业蒸汽量预测等。
背景技术
当今世界在城市化和工业化的道路上突飞猛进,人类将进入一个以知识经济为特征的信息时代,检测技术、计算机技术和通讯技术一起构成现代信息的三大基础。21世纪的热点必将向传感、执行与检测方向发展。锅炉自动化控制系统作为传感、执行与检测技术的一个应用方面也必将跨入数字化、网络化和智能化时代。火力发电厂在发电时,燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。如何通过锅炉的工况来反应锅炉的燃烧效率的问题也就出现了。
为了更好地解决这一问题,首先要搞清影响锅炉燃烧效率的主要因素以及影响锅炉产生对蒸汽量的条件。然后对锅炉传感器反馈回来的信息进行收集和分析,利用大数据处理以及机器学习方面的知识对数据进行深度的挖掘与利用。对锅炉工况数据进行分析和整合,利用相关知识来研究锅炉产生的蒸汽量和锅炉的燃烧效率已经成为一个具有挑战性的技术难题。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种工业实时监测锅炉的燃烧效率的基于大数据的工业蒸汽量预测方法。本发明的技术方案如下:
一种基于大数据的工业蒸汽量预测方法,其包括以下步骤:
101.获取锅炉的工况数据,并对锅炉的工况数据先后进行缺失值处理、异常值处理和对非对称分布的处于偏斜状态的数据进行偏态修正三个数据预处理操作;
102.采用以区间覆盖为基础的自助法,根据工况数据的采集时间划分训练集数据、验证集数据,并对锅炉工况数据进行特征工程操作;
103.建立多个机器学习模型,并采用基于Filter和线性加权的瀑布融合法进行模型融合操作;
104.通过步骤103建立的融合模型,根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测,利用预测的蒸汽量求得锅炉的燃烧效率运用在工业生产上。
进一步的,所述步骤101对锅炉传感器每分钟采集的工况数据进行异常值处理的具体步骤为:
1011.对异常值处理:基于拉依达方法,对近似正态分布的数据中的异常值进行剔除,采集数据中只含有随机误差,对其进行计算处理得到标准偏差,按概率确定区间,超过这个区间的误差已不属于随机误差而是粗大误差,含有该误差的数据应予以剔除;
独立得到x1,x2,...,xn等样本值,n表示样本数,计算出算术平均值μ及剩余误差vi(i=1,2,...,n),并按贝塞尔公式计算出标准偏差σ,若某个测量值xt的剩余误差vt(1≤t≤n),满足下式:
则认为xt是含有粗大误差值的坏值,应予剔除,λ表示0到1之间的任意实数,用来增大数据容忍程度。
进一步的,所述步骤101对非对称分布的处于偏斜状态的数据进行偏态修正具体包括:偏态分布是与正态分布相对、分布曲线左右不对称的分布,对偏态分布数据转换为进行操作,使其转换为正态分布数据,这样样本均值和方差则相互独立;
对于正偏态的数据进行取对数或取平方根操作,进行这样的变换将大的数据向左移动,使数据接近正态分布,负偏态数据的情况取相反数转化为右偏的情况;
为了凸显方差和偏态的相似性,定义偏度系数计算公式如下:
其中,μ为偏态数据的算术平均值,σ为偏态数据的标准差。当偏度系数大于0时,则为正偏态,这时对数据进行取对数操作;当偏度系数小于0时,则为负偏态,这时对数据取相反数后再取对数。
进一步的,所述步骤101缺失值处理是基于时间加权的缺失值处理:对于存在缺失值的属性列,使用如下公式对其值进行填充:
x(0)=0.2x(10)+0.3x(5)+0.5x(1) 公式(3)
其中,x(0)表示属性列缺失值,x(10)表示十分钟前的属性列值,x(5)表示五分钟前的属性列值,x(1)表示一分钟前的属性列值。
进一步的,所述步骤102根据锅炉传感器对工况数据的采集时间划分训练集数据、验证集数据具体步骤为:
采用以区间覆盖为基础的自助法划分训练集数据和验证集数据,在锅炉传感器以每分钟为单位采集的7天的工况数据中,将每两个小时作为一个小区间,这样7天168个小时可以划分为84个小区间,在这些小区间Di中进行采样产生Di':Di'表示从Di中随机且有放回地采样得到的数据集。每次随机从Di中挑选一个样本,并将其拷贝一份放入Di'中,保持Di不变,重复以上过程m次,Di中有部分样本会多次出现在Di',而另一部分不会出现;将∑Di'当作训练集,将∑(Di'\Di)当作验证集。
进一步的,所述步骤103建立多个机器学习模型,并基于Filter和线性加权的瀑布融合法进行模型融合操作的具体步骤为:
采用将多个模型串联的方法,将每个基模型视为一个过滤器,将不同粒度的过滤器进行前后衔接,对于样本集近似于正态分布的数据,基模型的选择中保证线性与非线性相结合,线性模型选择Lasso回归模型、线性的Kernel ridge regression模型和使用L1和L2先验作为正则化矩阵的模型ElasticNet,另外三个非线性基模型选择分别为基于多项式的Kernel ridge regression模型、SVR模型和Xgboost模型;
在基于Filter和线性加权的瀑布融合法中,前一个模型过滤的结果,将作为后一个模型的候选集合输入,模型共三层,每一层基模型的顺序为线性模型在前,非线性模型在后,最后对非线性模型的输出结果进行线性加权,得到最终的融合模型;
进一步的,当Xgboost模型的权重为0.76,多项式的Kernel ridge regression模型的权重为0.12,SVR模型的权重为0.12,利用最终的融合模型根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测。
进一步的,所述对训练集和测试集进行特征工程构建具体包括:对锅炉工况数据构建基础统计特征、模块特征、外部特征和时序特征;
1031.基础统计特征:对锅炉床温、床压、湿度,炉膛温度、膛压、湿度以及过热器的温度、压强、湿度以每小时为单位区间进行求均值和求众数的操作,之后再对所求出的均值和众数再取平均,将其作为特征,同时,利用公式(4)将锅炉的额定功率及实际功率通过物理运算提特征,直接将ratio值作为特征列;
1032.模块特征:将特征工程模块化,将其分为炉膛、锅炉床、锅炉风口、主蒸汽四个模块,分别研究每个模块内的温度、湿度和压力值,按照锅炉传感器以分钟为单位采集的各种锅炉工况数据,分别在模块内提取特征,提取特征的方法为在模块内部对每分钟的温度、湿度和压强求方差,通过模块内部的数据的波动来构建模块特征;
1033.外部特征:通过对当地气候的查询,获得训练集和测试集当天的气温、空气湿度、风速以及阳光强度这些外部数据;将这些外部数据同样以每分钟为单位进行统计加入到特征工程中,在加入这些离散型数据特征时,使用FP-growth算法来挖掘频繁项集,找出已给的多条数据记录中哪些项是频繁一起出现的;
1034.时序特征:对一天内某一时段的蒸汽量进行预测,时间是特征工程中不可或缺的一部分;针对时间的字段,统计当前时刻与温度峰值、压强峰值和湿度峰值时刻的时间差值,直接将其当做连续值特征,另外,利用公式(5)再将每天的时段进行离散化处理构建特征。
本发明的优点及有益效果如下:
本发明通过对锅炉传感器在7天内每分钟采集的工况数据进行分析,对原始数据进行了预处理工作,基于拉依达原则,对近似正态分布的数据中的异常值进行剔除,同时对非对称分布的处于偏斜状态的数据进行偏态修正。同时为工业锅炉蒸汽量预测构建了具有针对性、区分性和可解释性的特征工程,也为蒸汽量预测提供了基于Filter和线性加权的瀑布融合法。本发明为工业锅炉蒸汽量的预测提供了一种有效且可靠的方案,为工业实时监测锅炉的燃烧效率提供了支持和保障,也使得锅炉自动化控制在前进的道路上迈出了一大步。
本发明的创新主要体现在:
1.通过对锅炉传感器在7天内每分钟采集的工况数据进行分析后,基于拉依达原则,对近似正态分布的数据中的异常值进行剔除,也对原始数据中非对称分布的处于偏斜状态的数据进行了偏态修正,克服了噪声数据的处理难题。
2.同时为工业锅炉蒸汽量预测构建了具有针对性、区分性和可解释性的特征工程,克服了特征工程不具有表征性的难题;
3.在特征选择操作上,使用Fisher score特征选择与sklearn中的单变量特征选择相结合的方法筛选出了鉴别能力强和重要程度高的特征,克服了特征选择无法提取出有价值特征的难题;
4.还为蒸汽量预测提供了基于Filter和线性加权的瀑布融合法,该方法避开了现有的直接对模型结果进行线性加权的方式,首先通过线性模型过滤,将过滤结果同特征一起输入到非线性模型预测,最后对非线性模型的输出结果进行线性加权,克服了普通线性加权达不到较好模型融合效果的难题。
附图说明
图1是本发明提供优选实施例提供的一种基于大数据的工业蒸汽量预测方法的流程图。
图2为本发明实施例一提供的一种基于大数据的工业蒸汽量预测方法中训练集与测试集数据预处理之后的数据偏差与密度分布图。(横轴表示数据偏差,纵轴表示数据密度)
图3为本发明实施例一提供的一种基于大数据的工业蒸汽预测方法中特征选择方法流程图。
图4为本发明实施例一提供的一种基于大数据的工业蒸汽量预测方法中基于Filter和线性加权的瀑布融合图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
参考图1,图1为本发明实施例提供一种基于大数据的工业蒸汽量预测方法流程图,具体包括:
101.对锅炉的工况数据进行预处理操作;
102.根据工况数据的采集时间划分训练集数据、验证集数据;
103.对锅炉工况数据进行特征工程操作;
104.对构建特征完成的样本集进行特征选择操作;
105.建立多个机器学习模型,并进行模型融合操作;
106.通过建立的模型,根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测。
101.对锅炉传感器每分钟采集的工况数据进行预处理操作,具体步骤为:1011.①对异常值处理:基于拉依达原则,利用公式(1)计算出样本值的剩余误差,对近似正态分布的数据中的异常值进行剔除。1012.基于对偏度系数地改进,定义偏度系数计算公式(2),对非对称分布的处于偏斜状态的数据进行偏态修正1013.基于时间加权的缺失值处理:对于存在缺失值的属性列,使用公式(3)对其值进行填充:
102.根据锅炉传感器对工况数据的采集时间划分训练集数据、验证集数据,具体步骤为:采用以区间覆盖为基础的的自助法划分训练集数据和验证集数据。在锅炉传感器以每分钟为单位采集的7天的工况数据中,将每两个小时作为一个小区间,这样7天168个小时可以划分为84个小区间,在这些小区间Di中进行采样产生Di':Di'表示从Di中随机且有放回地采样得到的数据集。每次随机从Di中挑选一个样本,并将其拷贝一份放入Di'中,保持Di不变,重复以上过程m次,将∑Di'当作训练集,将∑(Di'\Di)当作验证集。
103.对锅炉工况数据进行特征工程操作,具体步骤为:根据对传感器每分钟采集的锅炉工况数据的分析,对训练集和测试集进行特征工程构建,所述对特征工程构建是指对锅炉工况数据构建基础统计特征、模块特征、外部特征和时序特征。
1031.基础统计特征:对锅炉床温、床压、湿度,炉膛温度、膛压、湿度以及过热器的温度、压强、湿度以每小时为单位区间进行求均值和求众数的操作,之后再对所求出的均值和众数再取平均,将其作为特征。同时,利用公式(4)将锅炉的额定功率及实际功率通过物理运算提特征,直接将ratio值作为特征列。
1032.模块特征:将特征工程模块化,将其分为炉膛、锅炉床、锅炉风口、主蒸汽四个模块,分别研究每个模块内的温度、湿度和压力值。按照锅炉传感器以分钟为单位采集的各种锅炉工况数据,分别在模块内提取特征。提取特征的方法为在模块内部对每分钟的温度、湿度和压强求方差。通过模块内部的数据的波动来构建模块特征。
1033.外部特征:通过对当地气候的查询,获得训练集和测试集当天的气温、空气湿度、风速以及阳光强度这些外部数据。外界的气温、空气湿度、风速以及阳光强度对于锅炉一天各时间内的工况是有很大影响的,都直接或间接影响着炉口的进出风量、给水量,炉壁的湿度和温度。将这些外部数据同样以每分钟为单位进行统计加入到特征工程中,给了模型很大的改善。同时,在加入这些离散型数据特征时,使用FP-growth算法来挖掘频繁项集,找出已给的多条数据记录中哪些项是频繁一起出现的。
1034.时序特征:对一天内某一时段的蒸汽量进行预测,时间是特征工程中不可或缺的一部分。针对时间的字段,统计当前时刻与温度峰值、压强峰值和湿度峰值时刻的时间差值,直接将其当做连续值特征。另外,利用公式(5)再将每天的时段进行离散化处理构建特征。
104.在构建完包括基础统计特征、模块特征、外部特征和时序特征这四个部分的特征工程后,特征维数已经达到了一百二十维。需要通过特征选择步骤来筛选能更有效预测结果的特征。参考图3,在这里采用了Fisher score特征选择与sklearn中的单变量特征选择相结合的方法来筛选出鉴别能力强和重要程度高的特征。在Fisher score特征选择中,鉴别能力越强的特征表现为类内部样本点的距离越小,类之间的距离越大。将求出的每一维度上的Fisher值从小到大排序,然后再结合sklearn中的SelectBest求出的特征评分由高到低进行排序,取两个排序平均名次的前65%。这样得到了最终的特征集合,基于特征重要度和鉴别能力的前提下完成了特征选择。
105.建立多个机器学习模型,并进行模型融合操作,具体步骤为:基于Filter和线性加权的瀑布融合法:采用将多个模型串联的方法,将每个基模型视为一个过滤器,将不同粒度的过滤器进行前后衔接。对于样本集近似于正态分布的数据,基模型的选择中保证线性与非线性相结合。线性模型选择Lasso回归模型、线性的Kernel ridge regression模型和使用L1和L2先验作为正则化矩阵的模型ElasticNet。另外三个非线性基模型选择分别为基于多项式的Kernel ridge regression模型、SVR模型和Xgboost模型。
参考图4,在基于Filter和线性加权的瀑布融合法中,前一个模型过滤的结果,将作为后一个模型的候选集合输入。模型共三层,每一层基模型的顺序为线性模型在前,非线性模型在后。最后对非线性模型的输出结果进行线性加权,得到最终的融合模型。
设定Xgboost模型的权重为0.76,多项式的Kernel ridge regression模型的权重为0.12,SVR模型的权重为0.12。最后,利用最终的融合模型根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测。
106.通过建立的模型,根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测,具体步骤为:
根据所得到的确定权重后的最终模型对工业锅炉蒸汽量进行预测,为工业实时监测锅炉的燃烧效率提供了支持和保障,也为锅炉自动化控制提供了方案。
本发明通过对锅炉传感器在7天内每分钟采集的工况数据进行分析,对原始数据进行了预处理工作,基于拉依达原则,对近似正态分布的数据中的异常值进行剔除,同时对非对称分布的处于偏斜状态的数据进行偏态修正。同时为工业锅炉蒸汽量预测构建了具有针对性、区分性和可解释性的特征工程,也为蒸汽量预测提供了基于Filter和线性加权的瀑布融合法。本发明为工业锅炉蒸汽量的预测提供了一种有效且可靠的方案,为工业实时监测锅炉的燃烧效率提供了支持和保障。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种基于大数据的工业蒸汽量预测方法,其特征在于,包括以下步骤:
101.获取锅炉的工况数据,并对锅炉的工况数据先后进行缺失值处理、异常值处理和对非对称分布的处于偏斜状态的数据进行偏态修正三个数据预处理操作;
102.采用以区间覆盖为基础的自助法,根据工况数据的采集时间划分训练集数据、验证集数据,并对锅炉工况数据进行特征工程操作;
103.建立多个机器学习模型,并采用基于Filter和线性加权的瀑布融合法进行模型融合操作;
104.通过步骤103建立的融合模型,根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测,利用预测的蒸汽量求得锅炉的燃烧效率运用在工业生产上。
2.根据权利要求1所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述步骤101对锅炉传感器每分钟采集的工况数据进行异常值处理的具体步骤为:
1011.对异常值处理:基于拉依达方法,对近似正态分布的数据中的异常值进行剔除,采集数据中只含有随机误差,对其进行计算处理得到标准偏差,按概率确定区间,超过这个区间的误差已不属于随机误差而是粗大误差,含有该误差的数据应予以剔除;
独立得到x1,x2,...,xn等样本值,n表示样本数,计算出算术平均值μ及剩余误差vi(i=1,2,...,n),并按贝塞尔公式计算出标准偏差σ,若某个测量值xt的剩余误差vt(1≤t≤n),满足下式:
则认为xt是含有粗大误差值的坏值,应予剔除,λ表示0到1之间的任意实数,用来增大数据容忍程度。
3.根据权利要求1所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述步骤101对非对称分布的处于偏斜状态的数据进行偏态修正具体包括:偏态分布是与正态分布相对、分布曲线左右不对称的分布,对偏态分布数据转换为进行操作,使其转换为正态分布数据,这样样本均值和方差则相互独立;
对于正偏态的数据进行取对数或取平方根操作,进行这样的变换将大的数据向左移动,使数据接近正态分布,负偏态数据的情况取相反数转化为右偏的情况;
为了凸显方差和偏态的相似性,定义偏度系数计算公式如下:
其中,μ为偏态数据的算术平均值,σ为偏态数据的标准差。当偏度系数大于0时,则为正偏态,这时对数据进行取对数操作;当偏度系数小于0时,则为负偏态,这时对数据取相反数后再取对数。
4.根据权利要求1所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述步骤101缺失值处理是基于时间加权的缺失值处理:对于存在缺失值的属性列,使用如下公式对其值进行填充:
x(0)=0.2x(10)+0.3x(5)+0.5x(1) 公式(3)
其中,x(0)表示属性列缺失值,x(10)表示十分钟前的属性列值,x(5)表示五分钟前的属性列值,x(1)表示一分钟前的属性列值。
5.根据权利要求1-4之一所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述步骤102根据锅炉传感器对工况数据的采集时间划分训练集数据、验证集数据具体步骤为:
采用以区间覆盖为基础的自助法划分训练集数据和验证集数据,在锅炉传感器以每分钟为单位采集的7天的工况数据中,将每两个小时作为一个小区间,这样7天168个小时可以划分为84个小区间,在这些小区间Di中进行采样产生Di′:Di′表示从Di中随机且有放回地采样得到的数据集。每次随机从Di中挑选一个样本,并将其拷贝一份放入Di′中,保持Di不变,重复以上过程m次,Di中有部分样本会多次出现在Di′,而另一部分不会出现;
将∑Di'当作训练集,将∑(Di'\Di)当作验证集。
6.根据权利要求5所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述步骤103建立多个机器学习模型,并基于Filter和线性加权的瀑布融合法进行模型融合操作的具体步骤为:
采用将多个模型串联的方法,将每个基模型视为一个过滤器,将不同粒度的过滤器进行前后衔接,对于样本集近似于正态分布的数据,基模型的选择中保证线性与非线性相结合,线性模型选择Lasso回归模型、线性的Kernel ridge regression模型和使用L1和L2先验作为正则化矩阵的模型ElasticNet,另外三个非线性基模型选择分别为基于多项式的Kernel ridge regression模型、SVR模型和Xgboost模型;
在基于Filter和线性加权的瀑布融合法中,前一个模型过滤的结果,将作为后一个模型的候选集合输入,模型共三层,每一层基模型的顺序为线性模型在前,非线性模型在后,最后对非线性模型的输出结果进行线性加权,得到最终的融合模型。
7.根据权利要求6所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,当Xgboost模型的权重为0.76,多项式的Kernel ridge regression模型的权重为0.12,SVR模型的权重为0.12,利用最终的融合模型根据锅炉传感器采集的工况数据对锅炉产生的蒸汽量进行预测。
8.根据权利要求6所述的一种基于大数据的工业蒸汽量预测方法,其特征在于,所述对训练集和测试集进行特征工程构建具体包括:对锅炉工况数据构建基础统计特征、模块特征、外部特征和时序特征;
1031.基础统计特征:对锅炉床温、床压、湿度,炉膛温度、膛压、湿度以及过热器的温度、压强、湿度以每小时为单位区间进行求均值和求众数的操作,之后再对所求出的均值和众数再取平均,将其作为特征,同时,利用公式(4)将锅炉的额定功率及实际功率通过物理运算提特征,直接将ratio值作为特征列;
1032.模块特征:将特征工程模块化,将其分为炉膛、锅炉床、锅炉风口、主蒸汽四个模块,分别研究每个模块内的温度、湿度和压力值,按照锅炉传感器以分钟为单位采集的各种锅炉工况数据,分别在模块内提取特征,提取特征的方法为在模块内部对每分钟的温度、湿度和压强求方差,通过模块内部的数据的波动来构建模块特征;
1033.外部特征:通过对当地气候的查询,获得训练集和测试集当天的气温、空气湿度、风速以及阳光强度这些外部数据;将这些外部数据同样以每分钟为单位进行统计加入到特征工程中,在加入这些离散型数据特征时,使用FP-growth算法来挖掘频繁项集,找出已给的多条数据记录中哪些项是频繁一起出现的;
1034.时序特征:对一天内某一时段的蒸汽量进行预测,时间是特征工程中不可或缺的一部分;针对时间的字段,统计当前时刻与温度峰值、压强峰值和湿度峰值时刻的时间差值,直接将其当做连续值特征,另外,利用公式(5)再将每天的时段进行离散化处理构建特征。
CN201910486534.2A 2019-06-05 2019-06-05 一种基于大数据的工业蒸汽量预测方法 Active CN110222416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910486534.2A CN110222416B (zh) 2019-06-05 2019-06-05 一种基于大数据的工业蒸汽量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910486534.2A CN110222416B (zh) 2019-06-05 2019-06-05 一种基于大数据的工业蒸汽量预测方法

Publications (2)

Publication Number Publication Date
CN110222416A true CN110222416A (zh) 2019-09-10
CN110222416B CN110222416B (zh) 2022-08-23

Family

ID=67819443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910486534.2A Active CN110222416B (zh) 2019-06-05 2019-06-05 一种基于大数据的工业蒸汽量预测方法

Country Status (1)

Country Link
CN (1) CN110222416B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241677A (zh) * 2020-01-09 2020-06-05 浙江中控技术股份有限公司 一种基于机器学习的常减压装置生产模拟方法及系统
CN111428906A (zh) * 2020-02-17 2020-07-17 浙江大学 一种基于图像变换的工业锅炉蒸汽量预测方法
CN111507507A (zh) * 2020-03-24 2020-08-07 重庆森鑫炬科技有限公司 基于大数据的月用水量预测方法
CN112417764A (zh) * 2020-12-01 2021-02-26 江苏省特种设备安全监督检验研究院 一种面向锅炉特种设备蒸汽量预测的k近邻回归预测方法
CN112906307A (zh) * 2021-03-24 2021-06-04 青岛洪锦智慧能源技术有限公司 一种基于数据挖掘的蒸汽锅炉的蒸汽产量的预测方法
CN113705888A (zh) * 2021-08-27 2021-11-26 浙江工业大学 基于皮尔逊相关性和神经网络的工业蒸汽生成量预测方法和系统
CN114004425A (zh) * 2021-12-29 2022-02-01 北京京东振世信息技术有限公司 物品流转信息预测模型生成方法、信息生成方法、装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679263A (zh) * 2012-08-30 2014-03-26 重庆邮电大学 基于粒子群支持向量机的雷电临近预测方法
US20170315537A1 (en) * 2016-04-27 2017-11-02 General Electric Company Control of machinery with calibrated performance model
CN107704962A (zh) * 2017-10-11 2018-02-16 大连理工大学 一种基于不完整时间序列数据集的冶金企业蒸汽流量区间预测方法
CN107909433A (zh) * 2017-11-14 2018-04-13 重庆邮电大学 一种基于大数据移动电子商务的商品推荐方法
JP2018092511A (ja) * 2016-12-07 2018-06-14 三菱重工業株式会社 運用支援装置、機器運用システム、運用方法、制御方法及びプログラム
CN108647809A (zh) * 2018-04-17 2018-10-12 西安热工研究院有限公司 一种基于最小二乘支持向量机的汽轮机排汽焓实时计算方法
WO2019046972A1 (en) * 2017-09-11 2019-03-14 Enero Solutions Inc. DYNAMIC HEAT RELEASE CALCULATION FOR ENHANCED FEEDBACK CONTROL OF COMBUSTION PROCESS BASED ON SOLID FUEL

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679263A (zh) * 2012-08-30 2014-03-26 重庆邮电大学 基于粒子群支持向量机的雷电临近预测方法
US20170315537A1 (en) * 2016-04-27 2017-11-02 General Electric Company Control of machinery with calibrated performance model
JP2018092511A (ja) * 2016-12-07 2018-06-14 三菱重工業株式会社 運用支援装置、機器運用システム、運用方法、制御方法及びプログラム
WO2019046972A1 (en) * 2017-09-11 2019-03-14 Enero Solutions Inc. DYNAMIC HEAT RELEASE CALCULATION FOR ENHANCED FEEDBACK CONTROL OF COMBUSTION PROCESS BASED ON SOLID FUEL
CN107704962A (zh) * 2017-10-11 2018-02-16 大连理工大学 一种基于不完整时间序列数据集的冶金企业蒸汽流量区间预测方法
CN107909433A (zh) * 2017-11-14 2018-04-13 重庆邮电大学 一种基于大数据移动电子商务的商品推荐方法
CN108647809A (zh) * 2018-04-17 2018-10-12 西安热工研究院有限公司 一种基于最小二乘支持向量机的汽轮机排汽焓实时计算方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BIN LIU 等: "Temperature prediction control based on least squares support vector machines", 《JOURNAL OF CONTROL THEORY AND APPLICATIONS》 *
XIUYA ZHAO 等: "Soft Sensor Modeling for the Efficiency of Steam Turbine Last Stage Group Using Support Vector Machine Regression", 《2012 SECOND INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEM DESIGN AND ENGINEERING APPLICATION》 *
YU WANG 等: "Modeling of Boiler Steam Flow Based on Adaptive Least Squares Support Vector Machine", 《2017 9TH INTERNATIONAL CONFERENCE ON INTELLIGENT HUMAN-MACHINE SYSTEMS AND CYBERNETICS》 *
王进 等: "基于标签关联的多标签演化超网络", 《电子学报》 *
齐敏芳 等: "大数据技术及其在电站机组分析中的应用", 《中国博士学位论文全文数据库工程科技Ⅱ辑》 *
齐敏芳 等: "火电机组主蒸汽流量在线监测计算方法", 《华北电力大学学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241677A (zh) * 2020-01-09 2020-06-05 浙江中控技术股份有限公司 一种基于机器学习的常减压装置生产模拟方法及系统
CN111428906A (zh) * 2020-02-17 2020-07-17 浙江大学 一种基于图像变换的工业锅炉蒸汽量预测方法
CN111428906B (zh) * 2020-02-17 2023-05-09 浙江大学 一种基于图像变换的工业锅炉蒸汽量预测方法
CN111507507A (zh) * 2020-03-24 2020-08-07 重庆森鑫炬科技有限公司 基于大数据的月用水量预测方法
CN111507507B (zh) * 2020-03-24 2023-04-18 重庆森鑫炬科技有限公司 基于大数据的月用水量预测方法
CN112417764A (zh) * 2020-12-01 2021-02-26 江苏省特种设备安全监督检验研究院 一种面向锅炉特种设备蒸汽量预测的k近邻回归预测方法
CN112906307A (zh) * 2021-03-24 2021-06-04 青岛洪锦智慧能源技术有限公司 一种基于数据挖掘的蒸汽锅炉的蒸汽产量的预测方法
CN113705888A (zh) * 2021-08-27 2021-11-26 浙江工业大学 基于皮尔逊相关性和神经网络的工业蒸汽生成量预测方法和系统
CN114004425A (zh) * 2021-12-29 2022-02-01 北京京东振世信息技术有限公司 物品流转信息预测模型生成方法、信息生成方法、装置
CN114004425B (zh) * 2021-12-29 2022-06-07 北京京东振世信息技术有限公司 物品流转信息预测模型生成方法、信息生成方法、装置

Also Published As

Publication number Publication date
CN110222416B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN110222416A (zh) 一种基于大数据的工业蒸汽量预测方法
Li et al. Hierarchical attention graph convolutional network to fuse multi-sensor signals for remaining useful life prediction
Zhou et al. Hybrid-model-based intelligent optimization of ironmaking process
Wan et al. Short-term power load forecasting for combined heat and power using CNN-LSTM enhanced by attention mechanism
CN110532674A (zh) 一种燃煤电站锅炉炉膛温度测量方法
Han et al. An ensemble deep learning model for exhaust emissions prediction of heavy oil-fired boiler combustion
Li et al. Deep spatio-temporal wind power forecasting
CN107895202A (zh) 基于多视角风速模式挖掘的短期风速预测方法
Nai-Zhi et al. A data-driven analytical model for wind turbine wakes using machine learning method
CN109084613A (zh) 基于卷积神经网络和图像识别的空冷凝汽器积灰状态监测与清洗控制系统及其调控方法
CN116976529B (zh) 基于供需预测动态校正的跨流域调水方法和系统
CN115510904B (zh) 基于时序预测的锅炉受热面积灰监测方法
Han et al. A hybrid deep neural network based prediction of 300 MW coal-fired boiler combustion operation condition
CN116821695B (zh) 一种半监督神经网络软测量建模方法
CN109063930A (zh) 一种基于聚类分析的动态风电场总功率预测方法
CN113642255A (zh) 基于多尺度卷积循环神经网络的光伏发电功率预测方法
Santarisi et al. Prediction of combined cycle power plant electrical output power using machine learning regression algorithms
CN111008725B (zh) 一种用于短期风电功率预测的气象因素波动特征提取方法
CN117033923A (zh) 一种基于可解释性机器学习的犯罪数量预测方法及系统
Chen et al. GCN-and GRU-based intelligent model for temperature prediction of local heating surfaces
CN115290218A (zh) 一种火力发电机组锅炉水冷壁壁温的软测量方法与系统
Gu et al. A modified clustering procedure for energy consumption monitoring in the steam turbine considering volume effect
CN114896895A (zh) 基于门控循环神经网络的脱硝系统入口氮氧化物排放预测方法及系统
Wang et al. A distributed fusion LSTM model to forecast temperature and relative humidity in smart buildings
Wang et al. Precipitation prediction in several Chinese regions using machine learning methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant