CN112270449A - 基于时间相关性的工业系统时延确定及受控量预测方法 - Google Patents

基于时间相关性的工业系统时延确定及受控量预测方法 Download PDF

Info

Publication number
CN112270449A
CN112270449A CN202011215184.5A CN202011215184A CN112270449A CN 112270449 A CN112270449 A CN 112270449A CN 202011215184 A CN202011215184 A CN 202011215184A CN 112270449 A CN112270449 A CN 112270449A
Authority
CN
China
Prior art keywords
time
time delay
correlation
cort
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011215184.5A
Other languages
English (en)
Other versions
CN112270449B (zh
Inventor
郭磊
王林钰
陈浩
桂宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Suzhou Urban Energy Research Institute Co ltd
Central South University
Original Assignee
State Grid Suzhou Urban Energy Research Institute Co ltd
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Suzhou Urban Energy Research Institute Co ltd, Central South University filed Critical State Grid Suzhou Urban Energy Research Institute Co ltd
Priority to CN202011215184.5A priority Critical patent/CN112270449B/zh
Publication of CN112270449A publication Critical patent/CN112270449A/zh
Application granted granted Critical
Publication of CN112270449B publication Critical patent/CN112270449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于时间相关性的工业系统时延确定方法,自工业系统采集传感器特征和数据,提出结合预测目标Spearman的相关性系数、梯度提升机对海量特征进行特征选择后,根据TD‑CORT时延算法得到各特征与预测目标之间的时延大小;本发明也公开了一种基于时间相关性的工业系统时延确定方法的受控量预测方法,由时延大小进一步进行特征选择,并重构输入数据集,输入融合模型进行受控量的预测;本发明将各传感器参数的时滞时间量化,经过时延检测的数据,可以准确划分输入数据窗口,有效避免数据窗口不准确对模型预测结果的影响,在提高预测的准确性的同时有效降低了模型的计算量。

Description

基于时间相关性的工业系统时延确定及受控量预测方法
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于时间相关性的工业系统时延确定及受控量预测方法。
背景技术
工业系统比如火电机组系统相关的预测和控制已经成为一个值得重视的研究领域,如火电机组系统是典型的非线性、大滞后、高耦合和复杂的热系统,关键的生产过程指标受到许多因素的影响,往往与其他过程变量之间存在着复杂的非线性关系。对工业系统的主要关键指标进行预测对于有效提高工业系统的的运行效率、保证系统的的安全运行至关重要。由于工业系统通常是将化学反应或者物理反应的复杂过程,如火电机组为例,其将燃料的化学能、蒸汽的热势能、机械能等转化,分步骤最终转化为电能的复杂过程,各参数之间的关系以及时延现象非常复杂。同时,不同的工业系统的延迟特性有着较为明显的区别,系统容量越大,时延现象就越严重,很难得到预测对象与各参数之间准确的机理模型的数学表达式。即使通过现场试验的方法得到当时的数学模型,其也会随时间的推移和系统工况的变化发生越来越大的偏差。因此,对于这种复杂系统,必须提供系统性的特征及其时延特性的鉴别方法。此外,特征和时延的判定对于模型的机理分析、模型可解释性均有着重要的意义。
传统的特征选择通常是在质量平衡、能量平衡和动态原理的基础上发展的,这些都高度依赖于专家知识,导致需要较长的建模周期,近年来,数据驱动的方法被越来越多的采用,直接分析机组积累的大量历史数据即可提取特征,但都主要集中在寻找与建模目标参数相关的特征,并未涉及其时延的影响。目前对于特征的时延计算问题较少,即使涉及时延,也是通过建模误差反馈的方式对时延进行计算,存在着计算量较大的问题。
发明内容
(一)要解决的技术问题
基于上述问题,本发明提供一种基于时间相关性的工业系统时延确定及受控量预测方法,解决数据驱动的工业系统的时延确定方法复杂,时延影响火电机组等工业系统的受控量比如主汽温度的预测的问题。
(二)技术方案
基于上述的技术问题,本发明提供一种基于时间相关性的工业系统时延确定及受控量预测方法,包括以下步骤:
S1、自具有滞后性的工业系统采集传感器的特征和数据,预测目标Y为受控量;
S2、数据预处理;
S3、基于空间选择与所述受控物理量相关的特征,包括其中的任一特征X;
S4、通过TD-CORT时延算法求得特征X与预测目标Y之间的时延大小,包括:
S4.1、取所述预测目标Y的任意H长度的连续时序序列:
YK,H+K-1=[YK,YK+1,YK+2,YK+3,YK+4,...,YH+K-1];
S4.2、取所述特征X的(2K+1)个H长度的连续时序序列:
fX1,H=[X1,X2,X3,X4,X5,X6,X7,...,XH],
fX2,H+1=[X2,X3,X4,X5,X6,X7,X8,...,XH+1],
fX3,H+2=[X3,X4,X5,X6,X7,X8,X9,...,XH+2],
fX2K+1,H+2K=[X2K+1,X2K+2,X2K+3,...,XH+2K];
其中,K表示计算时延大小的数据点范围,根据所述工业系统的时延合理范围和数据采样时间间隔确定,H为数据长度;
S4.3、将所述特征X的(2K+1)个连续时序序列fX1,H,fX2,H+1,fX3,H+2,...,fX2K+1,H+2K分别与所述YK,H+K-1计算(2K+1)次CORT一阶时序相关性系数,得到长度为(2K+1)的特征X与预测目标Y的CORTX,Y序列:
CORTX,Y=[CORT(fX1,H,YK,H+K-1),CORT(fX2,H+1,YK,H+K-1),
CORT(fX3,H+2,YK,H+K-1),...,CORT(fX2K+1,H+2K,YK,H+K-1)];
S4.4、将所述特征X与预测目标Y的CORTX,Y序列进行一个滑窗大小的平滑,平滑后的CORTX,Y序列的最大值点对应特征X与预测目标Y之间的时延差,即为特征X与预测目标Y之间的时延大小;
所述时延大小为正,表示特征X落后于预测目标Y变化,对预测目标Y未产生影响;所述时延大小为负,表示特征X领先于预测目标Y变化,对预测目标Y产生影响,所述时延大小的绝对值为特征X的滞后时间。
进一步的,所述CORT一阶时序相关性系数,即公式CORT(.,.)的计算方法为:
Figure BDA0002760123330000041
其中XH,YH分别为两段T长度的时序序列,xh,xh+1分别为XH序列在h,h+1时刻的数值,yh,yh+1分别为YH序列在h,h+1时刻的数值。
进一步的,步骤S3所述基于空间选择与所述受控物理量相关的特征的方法包括:
S3.1、通过Spearman的相关性系数进行特征选择;
S3.2、通过梯度提升机进行特征选择。
进一步的,步骤S3.1包括以下步骤:
S3.1.1、各特征两两之间分别计算相关性系数ρ:
Figure BDA0002760123330000042
其中,a,b为任意两个特征,i表示特征的第i个样本量,
Figure BDA0002760123330000043
分别代表了a,b两个特征的均值,n为各特征的样本数量;
S3.1.2、互为冗余的特征只保留一个,所述相关性系数高于相关性系数阈值的两个特征为互为冗余的特征;
S3.1.3、保留高相关性特征,与所述预测目标Y的相关性系数高于相关性系数的较大四等分点的特征为高相关性特征。
进一步的,步骤S3.2包括:将步骤S3.1筛选出的特征组成数据集以所述预测目标Y为预测目标,输入梯度提升机构造决策树,输出每个特征相应的重要性指标,仅保留重要性指标的百分比达到累积贡献度阈值的特征。
进一步的,步骤S2包括缺失值处理、异常值处理和归一化处理。
进一步的,所述缺失值处理采用前值填充的方式,异常值处理采用前值填充的方式,所述归一化处理方法为对所有特征数据进行z-均值规范化零均值规范化。
进一步的,所述基于时间相关性的工业系统包括火电机组,所述预测目标Y为主汽温度,所述滑窗大小设为5。
本发明还公开了一种受控量预测方法,在所述基于时间相关性的工业系统时延确定方法之后,包括以下步骤:
S5、根据所述时延大小进行特征选择:保留时延大小为负的特征,得到N个特征;
S6、根据所述时延大小的绝对值重构输入数据集:
所述N个特征对于预测目标Y的时延大小的绝对值分别为d1,d2,d3,...,dN,对所述N个特征对应的原输入数据集分别以时延dx(x=1,2,...,N)为中心,取一个滑窗大小的数据,得到重构的输入数据集;
S7、将所述重构的输入数据集输入融合模型,输出预测目标Y的预测值。
进一步的,步骤S7所述的融合模型为LSTM与DNN相结合的ensemble融合模型,即将所述重构的输入数据集分别输入DNN与LSTM模型,分别得到DNN与LSTM模型的预测结果,所述DNN与LSTM模型的预测结果的加权平均结果即为所述融合模型的输出的预测目标Y的预测值。
(三)有益效果
本发明的上述技术方案具有如下优点:
(1)本发明通过TD-CORT时延算法求得基于时间相关性的工业系统的各传感器特征与受控物理量之间的时延大小,用于量化各传感器特征的时滞时间,从而有利于考虑时滞对该工业系统的影响;
(2)本发明根据各参数与受控量即预测目标主汽温度之间的时延计算结果,重新匹配滑动窗口以重构准确考虑时延特性的建模输入数据集,能有效避免时延对模型预测结果的影响,但相对于建模误差反馈的方式更简单,计算量更小;
(3)本发明依次通过Spearman的相关性系数、梯度提升机、TD-CORT时延算法对特征进行选择,不仅从空间维度进行选择,也从时间维度进行选择,使得特征的选择更符合预测目标的特性,提高预测的准确性;
(4)本发明通过LSTM与DNN相结合的ensemble融合模型,综合两个模型在空间和时间维度上的优点,使得融合模型的预测结果更准确。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明实施例一种基于时间相关性的工业系统时延确定及受控量预测方法的流程示意图;
图2为本发明实施例的火电机组结构示意图;
图3为本发明实施例的重构的输入数据集示意图;
图4为本发明实施例的融合模型的结构示意图;
图5为本发明实施例的主汽温度权重较高的六个参数时延曲线对比图;
图6为本发明实施例的不同模型预测30秒后主汽温度效果对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明实施例以火电机组预测主汽温度的方法为例,其中,包括火电机组的各参数与预测目标主汽温度的时延大小的确定方法,但工业系统为具有滞后性的系统,具有高滞后性的工业系统这里通常指由于复杂和低速率的化学或者物理反应导致的控制量和受控量(预测目标)直接有着较长复杂的延迟关系,同时这些延迟关系对于同类系统的不同个体来说,都可能有着一定的变化,包括但不限于火电系统、冶金系统、化工系统等;所述预测目标为该工业系统中的受控状态的物理量,包括但不限于火电系统的主汽温度、火电系统的加煤量、化工系统的精馏塔的加热温度、化工系统的精馏塔的回流比等,。
本发明实施例为某1000MW超超临界火电机组,通过火电机组DCS系统采集的数据对30秒后的主汽温度进行建模预测,常见的火电机组结构如图1所示,其由多个子系统构成,包括:磨煤机、排粉风机、送风机、空气预热器、锅炉、引风机、除尘器、灰渣泵等。在燃料的化学能最终转化为电能的过程中,火电机组部分参数对预测目标有着不同程度和不同时延的影响,影响的差异通常是由各机组的物理模型决定的。对30秒后的主汽温度进行建模预测的方法如图2所示,包括以下步骤:
S1、自具有滞后性的工业系统采集传感器的特征和数据,预测目标Y为受控量:自火电机组的DCS系统采集传感器特征和数据,人为将与预测目标的预测无关的特征和数据删除,所述预测目标即主汽温度;
该火电机组中,直接传感器的数量高达15824个,其采样频率为3秒。火电机组中的检测设备众多且机组产线多,传感器分布非常广,分为总线仪表、功能块、系统点、中间变量以及IO点特征。根据本实施例的建模任务,排除总线仪表、功能块、系统点三个部分的特征,选择更有实际建模价值的中间变量和IO点部分的特征。其中,中间变量包括DS、AS、DMI、AMI中的传感器特征,IO点部分包括DVI、DVO、AVI、AVO、PUI、SOE_DH、REALOUT、REALIN、BITOUT、BITIN中的传感器特征。在这些特征中,一部分是“COUNTER计数器”特征,共计588个,这些特征对预测重要参数是没有实际价值的,因此直接过滤这部分特征。另外,通过统计发现,其中存在一部分特征为恒定值,这部分特征也被认为是对预测重要参数是没有价值的,共计9711个,过滤后剩余保留的特征量为5525个。
选取从2018年5月1日到2018年7月31日三个月的数据作为训练数据,将2018年8月1日至31日一个月的数据作为测试数据。
S2、数据预处理,包括缺失值处理、异常值处理和归一化处理;
S2.1、缺失值处理
由于火电机组工业生产过程中数据为时间序列连续性数据,正常合理的样本数据被认为应当具有连续性且不会发生突变。因此,对于缺失值,采用前值填充的方式进行数据处理。
S2.2、异常值处理
在数据采集的过程中,因外界环境变化等非正常生产的影响,采样数据存在异常值。采用3σ准则对异常值进行相关处理。计算σ值:
Figure BDA0002760123330000091
其中xi为x特征在i时刻的数值大小,若残差
Figure BDA0002760123330000092
则xi为异常点,考虑到火电机组流程工业大数据的时序连续性,采用前值对异常值进行替换。
S2.3、归一化处理
在本实施例火电机组建模场景中,采样数据可能会受到离群点的干扰,本实施例所有特征数据进行z-均值规范化零均值规范化(Z-Score Normalization),公式如下:
Figure BDA0002760123330000093
特征A的值基于A的平均值和标准差进行规范化。A的值vi被规范化为vi',其中,A是特征A的均值,σA是特征A的标准差。这种规范化方式会将原始数据映射到均值为0,标准差为1的分布上。
S3、基于空间选择与所述受控物理量相关的特征,包括其中的任一特征X;
火电机组数据主要具有三种特性:非线性、高耦合性以及高维性。各传感器数据并非都与预测目标相关,因而必须进行有效的筛选,即特征选择。一般来说,相关性系数是特征选择的主要方法,但是这种特征选择方法一般面临在特征较多的时候性能下降的问题。本实施例提出通过相关性系数进行粗筛并结合梯度提升机的特征选择方法进行细筛,最终筛选出与预测目标高相关的特征用于后期建模。
S3.1、通过Spearman的相关性系数进行特征的初步选择;
S3.1.1、各特征两两之间分别计算相关性系数;
相比于Pearson相关系数,Spearman秩相关系数并不依赖数据必须服从正态分布这一假设。因此,对于火电机组实际运行数据而言,Spearman秩相关系数是一种用来表征特征之间相关性的非常合适的系数。其计算公式如下:
Figure BDA0002760123330000101
其中,a,b为两个特征变量,i表示特征变量的第i个样本量,
Figure BDA0002760123330000102
分别代表了a,b两个特征变量的均值,n为各特征的样本量。相关性计算所得的结果表征两个变量之间的相关联程度,相关性系数在-1~1之间,1表示两个变量完全相关,-1表示两个变量完全负相关,0表示两个变量完全无关。
S3.1.2、互为冗余的特征只保留一个,所述相关性系数高于相关性系数阈值的两个特征为互为冗余的特征:
冗余是相互高度相关的特征。在机器学习中,高方差的共线性特征及低可解释性的模型,会严重导致预测模型泛化性差,通过计算两两特征之间的Spearman秩相关系数可对特征进行筛选。本实施例中将判定为冗余特征的相关性系数阈值设置为0.98,高于此阈值则该组特征被认为互为冗余,只保留其一。筛选掉高于0.98的高共线性特征后,删除了55.0%的特征,剩余特征数量为2484个。
S3.1.3、保留高相关性特征,与所述主汽温度的相关性系数高于相关性系数的较大四等分点的特征为高相关性特征:
在实际建模场景中,通过Spearman秩相关性系数的特征选择方法,选取与预测目标相关性系数高于相关性系数的较大四等分点的特征作为保留特征。通过该方法,在火电机组的传感器特征中,保留下了585个特征。
S3.2、通过梯度提升机进行特征的进一步选择:将S3.1筛选出的特征组成数据集以主汽温度为预测目标,输入梯度提升机构造决策树,输出每个特征相应的重要性指标,仅保留重要性指标的百分比达到累积贡献度阈值的特征。
通过相关性系数进行特征的粗筛后,通过梯度提升机的特征选择方法进行细筛。更精确的特征选择采用梯度提升机(Gradient Boosting Model,GBM)来进行。使用筛选出的特征组成数据集构造决策树,不出现在树中的特征在此被认为是无关特征,出现在决策树中的特征会有一个相应的重要性指标。重要性指标的绝对值并不那么重要,但其相对值可用于确定与预测目标最相关的特征。借助主成分分析(Principal Component Analysis,PCA)的思路,特征选择最终只保留累计达到某百分比的总重要性的那部分特征,并将其他低重要性特征直接删除。
在保留的585个特征中,通过基于梯度提升机的特征选择方法,在该特征子集中再次进行筛选,保留特征的累积贡献度阈值选取为99%。为减小每次树模型结果差异的影响,重要性指标取三次梯度提升机训练结果的均值。对应累计贡献度0.99的特征数量为161,因此,最终保留按照特征重要性降序排列的前161个特征作为对预测目标建模的重要特征。
S4、通过TD-CORT时延算法求得特征X与预测目标Y之间的时延大小:
步骤S3.1和S3.2的特征选择本质上是空间维度的建模特征选择,事实上,时间维度的特征选择同样重要。在火电机组中,不同特征对于预测目标还存在着不同的时延特性。火电机组的DCS系统采集的传感器数值来自分布全机组不同位置的各个传感器,这些传感器记录下的特征其中一部分的变化可能会在一定时间延迟后反映到预测目标上,而另一部分可能会落后于预测目标变化。因此,需要进行时间维度的特征选择,即保留先于预测目标变化的特征而删除落后于预测目标的特征。
考虑到各特征和预测目标的时序序列存在趋势性,本实施例提出了基于一阶时序相关性系数的TD-CORT算法来量化时序序列之间的相似度以计算传感器特征之间的时滞时间。一阶时序相关性系数的计算公式如下:
Figure BDA0002760123330000131
其中XH,YH分别为两段H长度的时序序列,xh,xh+1分别为XH序列在h,h+1时刻的数值,yh,yh+1分别为YH序列在h,h+1时刻的数值。
计算两个时序序列XH,YH之间的CORT(XH,XH)相关性的数值,便可以合理的量化两时序序列之间的相似度。两个时间序列的一阶时序相关性系数CORT(XH,XH)的大小在[-1,1]之间。当CORT(XH,XH)=1时表示两时序序列之间有类似的趋势,他们会同时上升或下降,并且涨幅和跌幅相同;CORT(XH,XH)数值越接近1,表示两时序序列之间的上升或下降趋势越类似;CORT(XH,XH)=-1表示两时间序列之间上升或下降的趋势恰好相反;CORT(XH,XH)=0表示两时间序列之间在单调性方面不存在相关性。
假设在前后K个数据点范围内计算时延的大小,K根据所述工业系统的时延合理范围和数据采样时间间隔确定,H根据经验确定一个范围,估计延迟应该在这个范围内,长度越大,计算量越大,但是时延落在该区间的可靠性越高,通过TD-CORT算法计算特征X与预测目标Y之间时延大小的具体步骤如下:
S4.1、取预测目标Y的任意H长度的连续时序序列:
YK,H+K-1=[YK,YK+1,YK+2,YK+3,YK+4,...,YH+K-1];
S4.2、取特征X的(2K+1)个H长度的连续时序序列:
fX1,H=[X1,X2,X3,X4,X5,X6,X7,...,XH],
fX2,H+1=[X2,X3,X4,X5,X6,X7,X8,...,XH+1],
fX3,H+2=[X3,X4,X5,X6,X7,X8,X9,...,XH+2],
fX2K+1,H+2K=[X2K+1,X2K+2,X2K+3,...,XH+2K];
S4.3、将所述(2K+1)个序列fX1,H,fX2,H+1,fX3,H+2,...,fX2K+1,H+2K分别与YK,H+K-1计算(2K+1)次CORT一阶时序相关性系数,得到一个长度为(2K+1)的特征X与预测目标Y的CORTX,Y序列:
CORTX,Y=[CORT(fX1,H,YK,H+K-1),CORT(fX2,H+1,YK,H+K-1),
CORT(fX3,H+2,YK,H+K-1),...,CORT(fX2K+1,H+2K,YK,H+K-1)]
S4.4、将所述长度为(2K+1)的CORTX,Y序列进行一个滑窗大小的平滑,平滑后的CORTX,Y序列的最大值点对应特征X与预测目标Y之间的时延差,即为特征X与预测目标Y之间的时延大小。构建数据集时滑窗大小也设置为5个时间点。
所述时延大小为正,表示特征X落后于预测目标Y变化,对预测目标Y未产生影响;所述时延大小为负,表示特征X领先于预测目标Y变化,对预测目标Y产生影响,所述时延大小的绝对值为特征X的滞后时间。
在本实施例的火电机组工业生产过程中,两个特征之间合理的时延应落在前后3分钟范围内。由于本实施例数据的采样时间间隔为3秒,前后三分钟范围即前后60个数据点范围。采用TD-CORT算法计算时延时,K设为60,采集10000组数据。
图5展示了主汽温度重要性较高的六个参数的时延曲线图。图中横轴为时延的大小,从-60到60,蓝色线条为对应时延下该特征的序列与具有30s时间差的主汽温度序列的一阶时序相关性系数的大小,黄色线条为一阶时序相关性系数的大小的五点平滑后的结果。
在每一个曲线图中,五点平滑后的一阶时序相关性系数曲线都存在一个最大值点,该最大值点对应的时延大小即作为该特征与主汽温度的时延大小。
观察主汽温度权重较高的六个参数最高CORT值及对应时延大小通过图5中的曲线,其中横轴为时间点,纵轴为CORT值,曲线CORT为其CORT值曲线,曲线CORT_mean为该CORT值曲线取均值后的平滑曲线,可以看出,B侧高过出口温度特征的CORT最大值为0.6828,该特征与主汽温度的时延为领先3个时间点;主汽温度过热度特征的CORT最大值为0.3930,该特征与主汽温度的时延为领先8个时间点;B侧高过入口温度特征的CORT最大值为0.3695,该特征与主汽温度的时延为领先33个时间点;炉前屏255温度特征的CORT最大值为0.3150,该特征与主汽温度的时延为落后15个时间点;高压调压阀内壁温度特征的CORT最大值为0.1969,该特征与主汽温度的时延为落后32个时间点;高压主汽阀外内壁温度差特征的CORT最大值为0.1130,该特征与主汽温度的时延为落后47个时间点。
表1主汽温度对各特征CORT相关度数值及时延(仅展示前6个)
Figure BDA0002760123330000151
Figure BDA0002760123330000161
表1记录了与主汽温度高相关的前六个特征的时延大小和该时延下对应的CORT值,其中每个时延时间点为3秒。
由于在实际问题中,时滞不可能是一个确切的数值,事实上,其时延大小会受很多因素在一定区间内波动,因此得到的时延大小应该为一个时间窗口,会覆盖在一定波动区间的一个时延范围,因此,在重构考虑时延的数据集时,本实施例时间窗口取为5个时间点。
S5、根据所述时延大小进行特征选择:保留时延大小为负的特征,得到N个特征;
时延为负数,则说明该特征领先于预测特征变化;时延为正,则说明该特征落后于预测特征变化。落后于预测目标变化的特征,并未对预测目标产生影响,因此直接删除。最终保留所有时延为负的特征,共计57个。
S6、根据所述时延大小重构输入数据集:
构建建模数据集时,使用N个特征对预测目标进行建模,通过本实施例提出的TD-CORT算法获得的N个特征对于预测目标的时延大小的绝对值分别为d1,d2,d3,...,dN,那么在构建预测模型的输入时,分别以时延dx(x=1,2,...,N)为中心,取滑窗大小为5个时间点,覆盖尽可能涵盖30秒后预测目标的信息。
比如,当预测t-1时刻后30秒的预测目标时,构建的输入数据即为:
Figure BDA0002760123330000171
当预测t时刻后30秒的预测目标时,构建的输入的数据即为:
Figure BDA0002760123330000172
以此类推,这种考虑时延的重构数据集的方法在图3中详细可视化展示。
S7、将所述重构的输入数据集输入融合模型,输出主汽温度的预测值,所述融合模型为根据所述重构的输入数据集分别得到DNN与LSTM预测结果,所述预测结果的加权平均结果即为融合模型的输出的主汽温度的预测值。
长短期记忆模型和深度神经网络都是目前主流的深度学习模型。其中,LSTM模型是一种时间递归神经网络,适合进行时间扩展,具有长期记忆功能,适合处理时间序列预测问题,这种预测模型能够具有时间维度的特征表达能力。DNN模型是具有很多隐藏层的神经网络,是由大量处理单元互联组成的非线性、自适应信息处理系统。相比浅层神经网络,深度神经网络提供了更高的抽象层次,因而能够提高模型的预测能力。
在火电机组的实际建模场景中,不仅需要考虑各传感器参数间空间维度上的关系,还需要考虑各传感器在时间维度上的关系。综合考虑,本实施例采用LSTM与DNN相结合的ensemble融合模型,抽象出工业大数据在时间维度与空间维度两个维度的特征,从而更好的对目标特征进行建模。
融合模型结构示意图如图4所示,ensemble模型融合的基本思路是通过对多个单模型融合以提升整体性能。采用加权模型融合方法,即分别取DNN与LSTM预测结果的加权平均进行模型融合,公式如下:
Figure BDA0002760123330000181
其中,n表示单模型的个数,Wi表示第i个单模型权重,predictt表示对应单模型的预测值。
本实施例具体的融合模型选取LSTM的模型权重为0.6,DNN模型的权重为0.4,即n为2,W1为0.6,W2选取0.4。LSTM模型采用节点数为72的LSTM单元,再接一个128节点的全连接层,激活函数为ReLU,输出层的输出为1维。训练时,batch_size为10000,优化器选取Adam,学习率为4e-4。DNN模型采用7层全连接网络模型,其中输入层的维度为预测目标对应的特征个数的5倍(时间滑窗大小设为5)。隐藏层设置为7层,每层神经元个数为64,隐藏层激活函数设置为Sigmoid,输出层的输出为1维。训练时,层间的dropout参数设置为0.2,batch_size大小设置为10000,优化器选取Adam,学习率设置为2e-3。
下面对本发明实施例的预测结果进行验证,分别对考虑时延重构后的数据集和未考虑时延重构的数据集进行融合模型建模。并与单一的DNN和LSTM模型在数据集上分别做对比实验。
传统的主汽温度建模,通过专家知识对机组进行机理分析得出主汽温度容易受到的影响因素。例如,烟气温度的变化、烟气压力的波动、机组负荷的变化、主汽压力的变化、燃料量的变化、给水温度和给水流量的波动、煤水比的变化等都会引起主汽温度的变化;由于机组对于火电机组主汽温度一般采用二级减温水结构对末级过热器出口温度进行控制,其中,一级减温水起到粗调作用,二级减温水起到细调作用。因此,本实施例将一级减温水流量、二级减温水流量的变化也作为影响主汽温度的特征,传统的建模方式采用以上机理分析得到的相关特征,通过传统线性回归模型对主汽温度进行建模。
为衡量模型性能,本实施例采用平均绝对误差、均方根误差(Root Mean SquareError,RMSE)、平均反切绝对百分比误差(Mean Arctangent Absolute Percentage Error,MAAPE)作为评价指标,计算公式分别如式(6)-(8)所示:
Figure BDA0002760123330000191
Figure BDA0002760123330000192
Figure BDA0002760123330000193
其中y(t)为真实值,yd(t)为预测值。以上三个指标MAE、RMSE、MAAPE数值越小表明预测值越接近真实值,即模型性能越好。
五种模型在测试集上的预测结果如图6所示,表示不同模型预测30s后主汽温度效果对比,误差指标的数值结果记录于下表2中。
表2不同模型预测30s后主汽温度的评价指标值
模型 MAE RMSE MAAPE(%)
Traditional Model 0.2875 0.3667 0.0483
DNN 0.2386 0.2909 0.0397
DNN+TD-CORT 0.1442 0.1786 0.0240
DNN+LSTM 0.2247 0.2908 0.0373
DNN+LSTM+TD-CORT 0.1016 0.1182 0.0169
观察图6中的预测效果及表2所示的各项模型评价指标,通过比较可以看出本实施例提出的基于LSTM和DNN的融合模型的建模效果都明显优于单一DNN模型的效果。这组对比,体现了本实施例提出的LSTM与DNN相结合的融合模型的建模有效性。
观察上图6中的预测效果及表2中对应的各项模型评价指标,通过比较可以看出根据本实施例提出的基于TD-CORT计算的特征与预测目标之间的时延以构建的模型能够更好的覆盖表征了30秒后主汽温度变化的信息。考虑特征时延大小,并基于以这个时延大小为中心构建五时间点滑窗的这种构建输入量的方法,建立了更精准的模型输入特征数据集。不论是对于单一DNN模型而言,还是对于DNN与LSTM的融合模型而言,考虑TD-CORT时延时的建模效果都明显优于未考虑时延时的建模效果。这组对比,体现了本实施例提出的TD-CORT时延计算方法的有效性。相对于传统的未考虑时延的深度神经网络预测MAE值0.2386,本实施例的预测结果MAE值为0.1016,相较于传统机理分析的线性模型的建模准确度提升了64.66%,相较于未考虑时延的神经网络的模型的预测准确度提升了57.42%,有效提高了预测准确度。
综上可知,通过上述的一种基于时间相关性的工业系统时延确定及受控量预测方法,具有以下优点:
(1)本发明通过TD-CORT时延算法求得基于时间相关性的工业系统的各传感器特征与受控物理量之间的时延大小,用于量化各传感器特征的时滞时间,从而有利于考虑时滞对该工业系统的影响;
(2)本发明根据各参数与受控量即预测目标主汽温度之间的时延计算结果,重新匹配滑动窗口以重构准确考虑时延特性的建模输入数据集,能有效避免时延对模型预测结果的影响,但相对于建模误差反馈的方式更简单,计算量更小;
(3)本发明依次通过Spearman的相关性系数、梯度提升机、TD-CORT时延算法对特征进行选择,不仅从空间维度进行选择,也从时间维度进行选择,使得特征的选择更符合预测目标的特性,提高预测的准确性;
(4)本发明通过LSTM与DNN相结合的ensemble融合模型,综合两个模型在空间和时间维度上的优点,使得融合模型的预测结果更准确。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种基于时间相关性的工业系统时延确定方法,其特征在于,包括以下步骤:
S1、自具有滞后性的工业系统采集传感器的特征和数据,预测目标Y为受控量;
S2、数据预处理;
S3、基于空间选择与所述受控物理量相关的特征,包括其中的任一特征X;
S4、通过TD-CORT时延算法求得特征X与预测目标Y之间的时延大小,包括:
S4.1、取所述预测目标Y的任意H长度的连续时序序列:
YK,H+K-1=[YK,YK+1,YK+2,YK+3,YK+4,...,YH+K-1];
S4.2、取所述特征X的(2K+1)个H长度的连续时序序列:
fX1,H=[X1,X2,X3,X4,X5,X6,X7,...,XH],
fX2,H+1=[X2,X3,X4,X5,X6,X7,X8,...,XH+1],
fX3,H+2=[X3,X4,X5,X6,X7,X8,X9,...,XH+2],
fX2K+1,H+2K=[X2K+1,X2K+2,X2K+3,...,XH+2K];
其中,K表示计算时延大小的数据点范围,根据所述工业系统的时延合理范围和数据采样时间间隔确定,H为数据长度;
S4.3、将所述特征X的(2K+1)个连续时序序列fX1,H,fX2,H+1,fX3,H+2,...,fX2K+1,H+2K分别与所述YK,H+K-1计算(2K+1)次CORT一阶时序相关性系数,得到长度为(2K+1)的特征X与预测目标Y的CORTX,Y序列:
CORTX,Y=[CORT(fX1,H,YK,H+K-1),CORT(fX2,H+1,YK,H+K-1),
CORT(fX3,H+2,YK,H+K-1),...,CORT(fX2K+1,H+2K,YK,H+K-1)];
S4.4、将所述特征X与预测目标Y的CORTX,Y序列进行一个滑窗大小的平滑,平滑后的CORTX,Y序列的最大值点对应特征X与预测目标Y之间的时延差,即为特征X与预测目标Y之间的时延大小;
所述时延大小为正,表示特征X落后于预测目标Y变化,对预测目标Y未产生影响;所述时延大小为负,表示特征X领先于预测目标Y变化,对预测目标Y产生影响,所述时延大小的绝对值为特征X的滞后时间。
2.根据权利要求1所述的基于时间相关性的工业系统时延确定方法,其特征在于,所述CORT一阶时序相关性系数,即公式CORT(.,.)的计算方法为:
Figure FDA0002760123320000021
其中XH,YH分别为两段T长度的时序序列,xh,xh+1分别为XH序列在h,h+1时刻的数值,yh,yh+1分别为YH序列在h,h+1时刻的数值。
3.根据权利要求1所述的基于时间相关性的工业系统时延确定方法,其特征在于,步骤S3所述基于空间选择与所述受控物理量相关的特征的方法包括:
S3.1、通过Spearman的相关性系数进行特征选择;
S3.2、通过梯度提升机进行特征选择。
4.根据权利要求3所述的基于时间相关性的工业系统时延确定方法,其特征在于,步骤S3.1包括以下步骤:
S3.1.1、各特征两两之间分别计算相关性系数ρ:
Figure FDA0002760123320000031
其中,a,b为任意两个特征,i表示特征的第i个样本量,
Figure FDA0002760123320000032
分别代表了a,b两个特征的均值,n为各特征的样本数量;
S3.1.2、互为冗余的特征只保留一个,所述相关性系数高于相关性系数阈值的两个特征为互为冗余的特征;
S3.1.3、保留高相关性特征,与所述预测目标Y的相关性系数高于相关性系数的较大四等分点的特征为高相关性特征。
5.根据权利要求3所述的基于时间相关性的工业系统时延确定方法,其特征在于,步骤S3.2包括:将步骤S3.1筛选出的特征组成数据集以所述预测目标Y为预测目标,输入梯度提升机构造决策树,输出每个特征相应的重要性指标,仅保留重要性指标的百分比达到累积贡献度阈值的特征。
6.根据权利要求1所述的基于时间相关性的工业系统时延确定方法,其特征在于,步骤S2包括缺失值处理、异常值处理和归一化处理。
7.根据权利要求6所述的基于时间相关性的工业系统时延确定方法,其特征在于,所述缺失值处理采用前值填充的方式,异常值处理采用前值填充的方式,所述归一化处理方法为对所有特征数据进行z-均值规范化零均值规范化。
8.根据权利要求1所述的基于时间相关性的工业系统时延确定方法,其特征在于,所述基于时间相关性的工业系统包括火电机组,所述预测目标Y为主汽温度,所述滑窗大小设为5。
9.一种根据权利要求1-8任一项所述的受控量预测方法,其特征在于,在所述基于时间相关性的工业系统时延确定方法之后,包括以下步骤:
S5、根据所述时延大小进行特征选择:保留时延大小为负的特征,得到N个特征;
S6、根据所述时延大小的绝对值重构输入数据集:
所述N个特征对于预测目标Y的时延大小的绝对值分别为d1,d2,d3,...,dN,对所述N个特征对应的原输入数据集分别以时延dx(x=1,2,...,N)为中心,取一个滑窗大小的数据,得到重构的输入数据集;
S7、将所述重构的输入数据集输入融合模型,输出预测目标Y的预测值。
10.根据权利要求9所述的基于时间相关性的工业系统时延确定方法,其特征在于,步骤S7所述的融合模型为LSTM与DNN相结合的ensemble融合模型,即将所述重构的输入数据集分别输入DNN与LSTM模型,分别得到DNN与LSTM模型的预测结果,所述DNN与LSTM模型的预测结果的加权平均结果即为所述融合模型的输出的预测目标Y的预测值。
CN202011215184.5A 2020-11-04 2020-11-04 基于时间相关性的工业系统时延确定及受控量预测方法 Active CN112270449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011215184.5A CN112270449B (zh) 2020-11-04 2020-11-04 基于时间相关性的工业系统时延确定及受控量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011215184.5A CN112270449B (zh) 2020-11-04 2020-11-04 基于时间相关性的工业系统时延确定及受控量预测方法

Publications (2)

Publication Number Publication Date
CN112270449A true CN112270449A (zh) 2021-01-26
CN112270449B CN112270449B (zh) 2023-12-26

Family

ID=74346063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011215184.5A Active CN112270449B (zh) 2020-11-04 2020-11-04 基于时间相关性的工业系统时延确定及受控量预测方法

Country Status (1)

Country Link
CN (1) CN112270449B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112859793A (zh) * 2021-02-04 2021-05-28 中南大学 基于改进滑动时间窗口的工业生产过程动态时延辨识方法
CN113486074A (zh) * 2021-06-02 2021-10-08 北方工业大学 相关过程参量延迟时间的获取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061305A1 (en) * 2015-08-28 2017-03-02 Jiangnan University Fuzzy curve analysis based soft sensor modeling method using time difference Gaussian process regression
CN109884892A (zh) * 2019-02-28 2019-06-14 杭州电子科技大学 基于交叉相关时滞灰色关联分析的流程工业系统预测模型
CN111178553A (zh) * 2019-12-16 2020-05-19 北京航天智造科技发展有限公司 一种基于arima和lstm算法的工业设备健康趋势分析方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061305A1 (en) * 2015-08-28 2017-03-02 Jiangnan University Fuzzy curve analysis based soft sensor modeling method using time difference Gaussian process regression
CN109884892A (zh) * 2019-02-28 2019-06-14 杭州电子科技大学 基于交叉相关时滞灰色关联分析的流程工业系统预测模型
CN111178553A (zh) * 2019-12-16 2020-05-19 北京航天智造科技发展有限公司 一种基于arima和lstm算法的工业设备健康趋势分析方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112859793A (zh) * 2021-02-04 2021-05-28 中南大学 基于改进滑动时间窗口的工业生产过程动态时延辨识方法
CN112859793B (zh) * 2021-02-04 2022-05-10 中南大学 基于改进滑动时间窗口的工业生产过程动态时延辨识方法
CN113486074A (zh) * 2021-06-02 2021-10-08 北方工业大学 相关过程参量延迟时间的获取方法
CN113486074B (zh) * 2021-06-02 2023-11-03 北方工业大学 相关过程参量延迟时间的获取方法

Also Published As

Publication number Publication date
CN112270449B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN112270449B (zh) 基于时间相关性的工业系统时延确定及受控量预测方法
CN106980910B (zh) 中长期电力负荷测算系统及方法
CN103729501A (zh) 基于灰色理论的短期电力负荷预测方法
CN110782067B (zh) 一种基于模糊信息粒化的烧结终点波动范围预测方法
CN113011796A (zh) 一种基于“层次分析-神经网络”的食用油安全预警方法
CN115730191A (zh) 一种基于注意力机制的磨煤机故障预警方法
CN116542429A (zh) 一种融合时空特征的油藏生产指标机器学习预测方法
CN114818847A (zh) 一种基于catboost算法的汽轮机背压趋势预测方法
CN115438897A (zh) 一种基于blstm神经网络的工业过程产品质量预测方法
Yuan et al. Multiscale dynamic feature learning for quality prediction based on hierarchical sequential generative network
Yousefpour et al. Unsupervised anomaly detection via nonlinear manifold learning
CN114169091A (zh) 工程机械部件剩余寿命的预测模型建立方法及预测方法
CN117313015A (zh) 一种基于时序和多变量的时间序列异常检测方法及系统
CN112731890A (zh) 一种电厂设备故障的检测方法和装置
CN112801426A (zh) 一种基于关联参数挖掘的工业过程故障融合预测方法
CN115630582A (zh) 一种多滑窗模型融合的软岩隧道围岩变形预测方法及设备
CN112801388A (zh) 一种基于非线性时间序列算法的电力负荷预测方法及系统
CN112926774A (zh) 基于长短时记忆神经网络的地热产能预测方法及系统
Chia Predicting the boiling point of diesel fuel using adaptive linear neuron and near infrared spectrum
Walker et al. Development of Short-Term Forecasting Models Using Plant Asset Data and Feature Selection
CN117574780B (zh) 一种智能火电厂负荷在线建模方法及系统
Nguyen et al. Load Forecasting For Months Of The Lunar New Year Holiday Using Standardized Load Profile And Support Regression Vector: Case Study Ho Chi Minh City
Natsumeda et al. Feature Selection with Partial Autoencoding for Zero-Sample Fault Diagnosis
CN116883038A (zh) 一种电力价格数据的处理方法及装置
CN114021449B (zh) 一种磨煤机安全性评估的预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant