CN109670634A

CN109670634A - 一种基于非等长粒度化特征的煤气流量数据预测方法

Info

Publication number: CN109670634A
Application number: CN201811466119.2A
Authority: CN
Inventors: 吕政�; 张宇; 伞扬; 向锋伟
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-23

Abstract

本发明属于能源数据预测技术领域，提出了一种基于非等长粒度化特征的煤气流量数据预测方法。首先，基于煤气系统采集数据，对数据基于离散变化极点进行不等长模糊粒度化，粒化形式表现为包含代表值，支撑上下界，粒子代表原数据个数的向量；其次，对粒化后的数据进行基于权值变化的多维密度聚类，以簇划分代替时序上的粒度数据；再次，设计了一种基于人工神经网络的数据预测方法，该方法应用簇划分的时序结果进行模型预测，得到相应的权值和阈值矩阵并检验其准确性，为接下来的粒度还原做准备；最后，提出了一种基于一维插值的粒度的还原方法。

Description

一种基于非等长粒度化特征的煤气流量数据预测方法

技术领域

本发明属于能源数据预测领域，具体涉及粒度化分析，密度聚类，模型预测以及粒度还原，是一种基于非等长粒度化特征的煤气流量数据预测方法。本发明利用系统采集煤气流量数据，基于粒度化数据和变权值的多维密度聚类以及人工神经网络预测模型，设计了一种煤气流量数据预测方法。该方法通过对煤气流量数据进行非等长粒度化，提取概括数据特征和变化，并通过基于变权值的多维密度聚类方法进行特征概括，将粒度特征用聚类特征代替，并使用人工神经网络的相关知识，对替代后的数据进行建模预测。通过调节相关参数(具体涉及用于预测的数据个数，密度聚类中的权值更新参数、密度参数，中间层隐结点的个数，训练次数以及目标误差等)来提高数据的预测精度，最后将预测的结果进行粒度还原，通过插值的方法还原数据。通过此方法能够更加有效利用已有数据预测尽可能长的时间序列，提高预测效率。

背景技术

煤气是冶金生产过程中的重要能源介质，作为高能耗、高污染、高排放的生产过程，其节能降耗一直是冶金行业所面临的严峻问题之一。由高炉煤气(BFG)、焦炉煤气(COG)和转炉煤气(LDG)等组成的煤气系统不仅涉及煤气生产、配比、输送、贮存、分配、使用、调整运行等诸多环节,而且还关系到多种工序产品产量和质量的提高、原材料成本的降低、环境污染的改善等一系列问题。(吴萌,马光宇,李志锋,金耀辉.钢铁企业煤气预测及优化调度系统开发[J].鞍钢技术,2017(06):37-40.)因此，研究煤气消耗规律，建立合理的预测模型，对钢铁企业提高煤气利用率，降低煤气放散有重要意义。

随着钢铁工业信息化的不断发展，目前针对气体能源介质预测问题，采用的方法大致分为两类，分别是以神经网络为代表的网络化方法和以支持向量机为代表的核学习方法。有学者利用带有时序更新能力的最小二乘支持向量机对高炉煤气消耗量进行了预测(张琦,李鸿亮,赵晓宇,贾辉.高炉煤气产生量与消耗量动态预测模型及应用[J].哈尔滨工业大学学报,2016,48(01):101-106.)。其首先应用小波分析对初始数据进行处理，降低随机与波动数据的影响，采用样本更新方法，根据预测误差对模型进行修正。还有学者提出一种数据滤波与二重神经网络相结合的建模预测方法，达到良好的去噪效果和预测结果。(王妍鹏.基于数据的高炉煤气受入量的预测[D].天津工业大学,2017.)该模型主要思想是将原始信号去噪并分解为不同时间尺度下的固有模态(IMF)分量，分别对每个模态建立径向基神经网络(RBF)预测模型；根据各模态与原始数据相关性建立二重径向基神经网络(RBF)预测模型,并通过此模型对各模态预测结果进行融合和修正。

然而，这些方法均存在某些方面的不足：首先，煤气数据输入信息复杂，规模大，其中可能掺杂一些冗余点，不利于预测模型的锻炼；其次，模型对于短周期预测能达到较高精度，随着预测时间的增长，预测误差较大；本发明在神经网络的基础上加以改进，首先，以粒度代替多个数据点，有利于减小数据浮动带来的误差，减少训练集和测试集中的数据量，得到的粒度特征也能较为准确的描述数据。提高预测模型运行效率。其次，用密度聚类的方法得到粒度数据的聚类概括，用类代表数据代替时序上的粒度化数据，作为神经网络的输入，有利于提高神经网络输入的规律性，从而使锻炼模型更为精准。最后，本实验将神经网络与基于时间轴的不等长粒度化方法以及基于变权值的多维密度聚类方法相结合，获得比较精准的预测模型。

发明内容

本发明要解决的技术问题是现有煤气系统的预测。为解决上述这一问题，设计了一种基于不等长粒度化与基于变权值的多维密度聚类方法以及与神经网络相结合的方法。首先，基于煤气系统的采集数据，根据离散数据变化极点进行不等长模糊粒化，得到粒化特征；其次，对粒化后数据进行归一化处理，进行基于变权值的多维密度聚类，得到粒化数据的聚类概括；再次，该方法应用聚类概括后的时序结果进行模型预测，得到相应的权值和阈值矩阵并检验其准确性，为接下来的粒度还原做准备。最后，将预测出的粒子反归一化后还原为原测量分度下数据。利用该发明可以提高预测序列的长度，提高预测结果的精准性。

本发明的技术方案包括以下四个部分：

1.确定粒化结构，依据离散数据变化极点对数据进行不等长粒化；

2.根据粒化结果归一化后进行基于变权值的多维密度聚类，得到粒化数据的聚类概括；

3.建立基于BP神经网络的预测模型，输入为聚类概括时序数据，输出为相应结构的预测结果；

4.根据预测结果反归一化后返回原测量分度下的数据值。

本发明的有益效果：本发明能够充分利用已有的相关知识，将粒度化方法和聚类方法以及预测方法相结合，减少原始数据采集带来的误差影响，较好的概括数据特征，同时聚类结果能更好地描述数据特征，提高了神经网络的建立模型的准确性和预测结果准确度。对于煤气流量预测及调控有重要意义。

附图说明

图1粒化与预测过程流程图。

图2粒化结果示例图。

图3预测结果示例图。

具体实施方式

下面将结合具体实施例和附图对本发明的技术方案进行进一步的说明。

本发明提出一种基于粒度化和密度聚类以及神经网络的煤气流量数据预测方法，本方法的具体实施步骤如下：

步骤1：对煤气流量采集数据进行基于时间轴的非等长模糊粒化；

步骤1.1：寻找原始离散数据变化极点，包括极大值点和极小值点，此过程中可修改参数来控制各极大值点之间和各极小值点之间数据的最小个数；

步骤1.2：针对步骤1.1中各极大值间和各极小值间数据最小个数的不同，采取不同的粒化方式进行非等长模糊粒化，分为以下两种方式；

方式一：当各极大值和极小值间数据最小的个数少于20时，选用梯形隶属函数对数据进行粒化描述，其隶属度函数为：

其中，x为论域中的变量，a、b分别为模糊集支撑上下界，m、n分别为梯形隶属度函数值为1时对应论域中变量的值，即为梯形模糊集的核。

X＝[x₁,x₂,…,x_N]； (2)

其中，X表示对原始离散数据进行升序排列后的数据集，x_N表示第N个时序数据；

当N为偶数时，则梯形模糊集的核m,n分别为

当N为奇数时，则梯形模糊集的核m,n分别为

根据确定的m和n，要求s、t满足m＝x_s,n＝x_t时，记下s、t，进而得到以下参数的表达式：

countn＝N； (8)

mono＝±1； (9)

其中，r为粒子相应数据变化的大体平均水平，low为粒子对应数据变化的最小值，up为粒子对应数据变化的最大值，countn为粒子代表数据个数，mono的值表示此粒子所代表原数据的大致的单调情况，1代表单调增，-1代表单调减。模糊粒子由r、low、up、countn、mono参数描述。

方式二：当各极大值和各极小值间数据个数大于20时，选用三角形隶属函数对数据进行粒化描述，其隶属度函数为：

其中，x为论域中的变量，a,b为模糊集支撑下界和模糊集支撑上界，m为模糊集的核。

相比较于方式一，对s,t做出了改变，s为向下取整，t为向上取整，其余参数的计算方式相同。模糊粒子同样由参数r、low、up、countn、mono来描述。

步骤2：根据步骤1的非等长模糊粒化结果，进行基于变权值的多维密度聚类，得到粒化数据的聚类概括；

步骤2.1：初始化数据，包括粒化结果的归一化、权值矩阵Wn的初始化(权值矩阵和为1)、密度邻域参数(ε,MinPts)的初始化，ε为邻域半径，MinPts为密度阈值；

步骤2.2：变权值的多维密度聚类

步骤2.2.1：确定权值最大更新次数，防止进入死循环；将归一化结果I₁乘权值矩阵得到I₂＝{x₁,x₂...,x_m}，作为密度聚类DBSCAN的输入。当达到最大更新次数时，转入步骤3，否则进行步骤2.2.2。

步骤2.2.2：初始化核心对象集合初始化聚类簇数k＝0，初始化未访问样本集合Γ＝I₂，初始化簇划分

步骤2.2.3：对于j＝1,2......m，按下面步骤找出所有的核心对象：

(a)通过距离度量方式，找到样本x_j的∈-邻域子样本集N_∈(x_j)；

(b)当邻域子样本集样本集中个数满足|N_∈(x_j)|≥MinPts时，将样本x_j加入核心对象样本集合：Ω＝Ω∪{x_j}；

步骤2.2.4：当核心对象集合时，则簇划分结束，转入步骤2.2.7，否则转入步骤2.2.5；

步骤2.2.5：在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ω_cur＝{o}，初始化类别序号k＝k+1，初始化当前簇样本集合C_k＝{o}，更新未访问样本集合Γ＝Γ-{o}；

步骤2.2.6：当前簇核心对象队列时，则当前簇样本集合C_k生成完毕，更新簇划分C＝{C₁,C₂,...,C_k}，更新核心对象集合Ω＝Ω-C_k，转入步骤2.2.4；

步骤2.2.7：当前簇核心对象队列时，在当前簇核心对象队列Ω_cur中取出一个核心对象o′，通过邻域距离阈值∈找出所有的∈-邻域子样本集N_∈(o′)，令Δ＝N_∈(o′)∩Γ，更新当前簇样本集合C_k＝C_k∪Δ，更新未访问样本集合Γ＝Γ-Δ，更新Ω_cur＝Ω_cur∪(Δ∩Ω)-o′，转入步骤2.3；

步骤2.3：根据步骤2.2得到的簇划分结果对输入数据进行划分，求出每一簇的每个变量的方差SE及均值M，进而求出方差平方和SVE，并与设定方差平方和S0作差，取绝对值得到SVEE，将SVEE与阈值E0比较，当均小于阈值E0时，则聚类结束，以求得均值M来代表每一簇的值。当大于E0时，则进入步骤2.4；

步骤2.4：根据步骤2.3求得的SVEE，取其中的最小值作为权值更新变化量Deltaw，最小值对应位置minloc，最大值对应位置maxloc，对原权值矩阵中对应位置做出如下更新，并转入步骤2.2；

Wn{minloc}＝Wn{minloc}-Deltaw； (11)

Wn{maxloc}＝Wn{maxloc}+Deltaw； (12)

步骤3：根据步骤2的聚类结果即簇划分进行模型预测；

步骤3.1：初步确定BP神经网络参数的值，包括激励函数，隐含层的个数，每个隐含层神经元的数目，学习速率，最大训练次数以及目标误差；

步骤3.2：导入聚类概括后的时序数据矩阵，将数据矩阵分为预测矩阵和检验矩阵。预测矩阵用于模型预测，检验矩阵用于检验预测的准确性。只用预测矩阵参与预测模型不够理想，即将检验矩阵加入预测矩阵参与预测。参与预测的变量为步骤2中的聚类结果即簇编号。

步骤3.3：神经网络的训练

步骤3.3.1：所述的神经网络有3层神经元。初始化(随机生成)输入层与隐含层，隐含层和输出层之间的权值矩阵，分别设为W₁和W₂；初始化输入层与隐含层、隐含层和输出层之间的阈值矩阵，分别设为B₁,B₂。

步骤3.3.2：神经网络核心算法

选用S型激励函数

设能量函数为

E＝∑[(Y-O₃)²]； (14)

其中，能量函数E表示实际输出与网络输出之间误差的平方和，Y表示实际输出矩阵，O₃为输出层输出矩阵，当能量函数小于目标误差，将停止训练。

根据负梯度下降原理，权值和阈值的调整方向必然是沿误差的梯度方向调整，根据数学原理可知，沿梯度方向变化量最大。对于权值和阈值的调整，存在式(15)～(18)：

其中，X1为输入的预测矩阵，O₂为隐含层输出矩阵，ones是一个元素全为1的矩阵，η为神经网络的学习速率，dW₂、dB₂分别是误差相对于隐含层和输出层之间权值和阈值的调整量，dW₁、dB₁分别是误差相对于输入层和隐含层之间权值和阈值的调整量。

通过循环计算步骤3.2至3.3来查找最优解，循环次数由设定的神经网络的最大训练次数和目标误差决定。

步骤4：根据步骤3预测出的结果通过反归一化后再通过一维插值的方法还原为原数据类型数据；

步骤4.1：将预测数据先进行预处理。

步骤4.1.1：将预测数据反归一化处理，将其中粒子代表数据个数countn四舍五入取整，根据countn构造预测数据点时序顺序大小，形成时序向量X_new。

步骤4.1.2：根据预测矩阵中mono的正负调整预测数据点顺序形成数据向量Y_new。

步骤4.2：根据时序向量X_new和数据向量Y_new，基于由变量countn构成的总个数点进行一维插值，得到粒度还原数据。

Claims

1.一种基于非等长粒度化特征的煤气流量数据预测方法，其特征在于，步骤如下：

步骤1.1：寻找原始离散数据变化极点，包括极大值点和极小值点，此过程中通过修改参数来控制各极大值点之间和各极小值点之间数据的最小个数；

其中，x为论域中的变量，a、b分别为模糊集支撑上下界，m、n分别为梯形隶属度函数值为1时对应论域中变量的值，即为梯形模糊集的核；

X＝[x₁,x₂,…,x_N]； (2)

当N为偶数时，则梯形模糊集的核m,n分别为：

当N为奇数时，则梯形模糊集的核m,n分别为：

countn＝N； (8)

mono＝±1； (9)

其中，r为粒子相应数据变化的大体平均水平，low为粒子对应数据变化的最小值，up为粒子对应数据变化的最大值，countn为粒子代表数据个数，mono的值表示此粒子所代表原数据的大致的单调情况，1代表单调增，-1代表单调减；模糊粒子由r、low、up、countn、mono参数描述；

其中，x为论域中的变量，a,b为模糊集支撑下界和模糊集支撑上界，m为三角形模糊集的核；

相比较于方式一，对s,t做出了改变，s为向下取整，t为向上取整，其余参数的计算方式相同；模糊粒子同样由参数r、low、up、countn、mono来描述；

步骤2.1：初始化数据，包括粒化结果的归一化、权值矩阵Wn的初始化、密度邻域参数ε,MinPts的初始化，ε为邻域半径，MinPts为密度阈值；

步骤2.2：变权值的多维密度聚类

步骤2.2.1：确定权值最大更新次数，防止进入死循环；将归一化结果I₁乘权值矩阵得到I₂＝{x₁,x₂...,x_m}，作为密度聚类DBSCAN的输入；当达到最大更新次数时，转入步骤3，否则进行步骤2.2.2；

步骤2.3：根据步骤2.2得到的簇划分结果对输入数据进行划分，求出每一簇的每个变量的方差SE及均值M，进而求出方差平方和SVE，并与设定方差平方和S0作差，取绝对值得到SVEE，将SVEE与阈值E0比较，当均小于阈值E0时，则聚类结束，以求得均值M来代表每一簇的值；当大于E0时，则进入步骤2.4；

Wn{minloc}＝Wn{minloc}-Deltaw； (11)

Wn{maxloc}＝Wn{maxloc}+Deltaw； (12)

步骤3：根据步骤2的聚类结果即簇划分进行模型预测；

步骤3.2：导入聚类概括后的时序数据矩阵，将数据矩阵分为预测矩阵和检验矩阵；预测矩阵用于模型预测，检验矩阵用于检验预测的准确性；只用预测矩阵参与预测模型不够理想，即将检验矩阵加入预测矩阵参与预测；参与预测的变量为步骤2中的聚类结果即簇编号；

步骤3.3：神经网络的训练

步骤3.3.1：所述的神经网络有3层神经元；初始化输入层与隐含层，隐含层和输出层之间的权值矩阵，分别设为W₁和W₂；初始化输入层与隐含层、隐含层和输出层之间的阈值矩阵，分别设为B₁,B₂；

步骤3.3.2：神经网络核心算法

选用S型激励函数

设能量函数为

E＝∑[(Y-O₃)²]； (14)

其中，能量函数E表示实际输出与网络输出之间误差的平方和，Y表示实际输出矩阵，O₃为输出层输出矩阵，当能量函数小于目标误差，将停止训练；

根据负梯度下降原理，权值和阈值的调整方向必然是沿误差的梯度方向调整，根据数学原理可知，沿梯度方向变化量最大；对于权值和阈值的调整，存在式(15)～(18)：

其中，X1为输入的预测矩阵，O₂为隐含层输出矩阵，ones是一个元素全为1的矩阵，η为神经网络的学习速率，dW₂、dB₂分别是误差相对于隐含层和输出层之间权值和阈值的调整量，dW₁、dB₁分别是误差相对于输入层和隐含层之间权值和阈值的调整量；

通过循环计算步骤3.2至3.3来查找最优解，循环次数由设定的神经网络的最大训练次数和目标误差决定；

步骤4.1：将预测数据先进行预处理；

步骤4.1.1：将预测数据反归一化处理，将其中粒子代表数据个数countn四舍五入取整，根据countn构造预测数据点时序顺序大小，形成时序向量X_new；

步骤4.1.2：根据预测矩阵中mono的正负调整预测数据点顺序形成数据向量Y_new；