CN114881347A

CN114881347A - 一种采用加权残差聚类的天然气负荷预测区间估计方法

Info

Publication number: CN114881347A
Application number: CN202210578673.XA
Authority: CN
Inventors: 吕海舟; 王涛; 吴昀; 周凯; 马鹏岳; 章超波; 王云龙; 王舰; 董志; 徐能
Original assignee: Zhejiang Energy And Natural Gas Group Co ltd
Current assignee: Zhejiang Energy And Natural Gas Group Co ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-09

Abstract

本发明提出了一种采用加权残差聚类的天然气负荷预测区间估计方法。该方法使用敏感性分析量化了模型输入对输出的影响程度，并根据得到的影响程度对模型输入进行加权聚类，针对异常残差采用了一种基于核密度估计的异常残差剔除方法，最后根据各个聚类簇中的残差分布计算模型的预测区间。本发明提出了完整的天然气负荷预测和区间估计流程，可以量化天然气负荷预测模型的不确定度，解决了天然气负荷预测由于随机性强导致的区间估计难题。本发明不对残差分布做出任何假设，可用于估计任何基于数据驱动预测模型的天然气负荷预测不确定性。

Description

一种采用加权残差聚类的天然气负荷预测区间估计方法

技术领域

本发明属于负荷预测、区间估计领域，涉及基于深度学习的建模技术和预测区间估计技术，特别是涉及一种采用加权残差聚类的天然气负荷预测区间估计方法及应用

背景技术

随着我国能源结构转型的不断深入，天然气的需求量逐年上涨。可靠的天然气供应管理对燃气企业平稳安全运行至关重要，而准确的天然气用气量预测是实现可靠的天然气供应的基础。目前关于用气量预测的方法大多为基于深度学习的点预测(给出预测值)，但是在实际中，点预测的结果受限于数据噪声和模型局限性等原因往往存在不确定性，从而降低了基于点预测的天然气系统安全运行的可靠性，而安全性是燃气企业运行管理最重要的指标。针对这一问题，可以使用预测区间估计方法来描述点预测的不确定性，这一方法在电力和建筑负荷预测等领域有所研究，但是在天然气预测领域未见相关研究。因此，针对天然气负荷预测领域开发一种区间估计方法具有重要意义。

预测区间是指一个范围，实际负荷将以一定概率落在该范围内。预测区间估计算法有贝叶斯方法、蒙特卡洛法、重采样法以及下上限估计法等。其中下上限估计法一般指训练神经网络学习模型输入与预测区间上下界的关系，根据前人的研究，这种区间估计算法较为优秀。但是它计算规模大，需要较长的训练时间。另外，也可以通过预测模型在训练集上的残差分布来计算实际预测时的预测区间。这类方法具有更高的计算效率，更加契合实时预测这种应用场景。该方法需要计算预测模型在训练集上的残差分布，而不同工况有着不同的残差分布，因此得到准确且合理的残差分布是解决此类问题的关键。

发明内容

本发明能够克服现有技术的不足，提出了一种采用加权残差聚类的天然气负荷预测区间估计方法。

有鉴于此，本发明采用加权残差聚类的天然气负荷预测区间估计方法，其具体包括以下步骤：

一种采用加权残差聚类的天然气负荷预测区间估计方法，其包括如下步骤：

S1、按照S11～S19进行模型残差聚类，具体步骤如下：

S11、获取天然气历史负荷数据；

S12、选择与天然气负荷最为相关的多个变量作为深度学习模型的输入特征，选择天然气负荷作为深度学习模型的输出，对所述天然气历史负荷数据进行降维筛选，从而得到天然气历史负荷数据集，用于作为实时预测天然气负荷的深度学习模型的训练数据；

S13、对所述历史天然气负荷数据集进行数据预处理，同时对预处理后的数据进行归一化处理，得到处理后的历史天然气负荷数据集；

S14、把所述处理后的历史天然气负荷数据集中的所有训练样本划分为训练集和验证集，利用训练集对深度学习模型进行训练，并根据验证集预测值与实际值的均方根误差对深度学习模型的超参数进行优化，得到一组最优超参数值；

S15、将以最优超参数值训练后的所述深度学习模型重新对所述训练集进行预测，得到各训练样本的预测值和残差e，残差的计算公式为：

式中，e为模型残差，y为天然气负荷的实际值，

为天然气负荷的模型预测值；

S16、用敏感性分析方法求得模型中每个输入特征的敏感性指数I；

S17、对所述训练集中的每一个训练样本，在训练样本的每个输入特征值乘上对应输入特征的敏感性指数，更新训练样本中的输入特征值，同时将对应的残差e加入训练样本中形成残差样本，所有残差样本构成加权后的训练集；

S18、针对加权后的训练集中的所有残差样本，利用K-means算法划分成若干聚类簇，并计算每一个聚类簇的聚类中心；

S19、针对每一个聚类簇，采用核密度估计算法计算残差概率密度分布，并根据残差概率密度分布计算每一个残差样本的概率密度值，剔除概率密度值低于设定概率密度阈值的残差样本；所述残差概率密度分布的计算公式为：

式中，P(.)是聚类簇内的概率密度分布函数，e_i是聚类簇内第i个残差样本，b是带宽，K(.)是核函数；

S2、按照S21～S25进行预测区间估计，具体步骤如下：

S21、获取与所述训练集相同时间间隔的实时天然气负荷数据；

S22、从所述实时天然气负荷数据中提取深度学习模型的输入特征所需的变量值并构成实时输入特征；

S23、对所述实时输入特征进行所述归一化处理，得到归一化输入特征；

S24、将所述归一化输入特征输入以最优超参数值训练后的所述深度学习模型中，利用深度学习模型预测未来目标时刻的天然气负荷

S24、计算所述归一化输入特征与各聚类簇的聚类中心之间的欧几里得距离，确定欧几里得距离最小的目标聚类簇C，进而利用下式计算未来目标时刻的天然气负荷所在的预测区间上界与下界：

式中，U和L分别为预测区间的上下界，

为模型预测值，Q_x为目标聚类簇C内的名义置信水平为x的残差百分位数，γ为该残差簇中小于0的残差的占比，100×(1-α)％为名义置信水平。

基于上述技术方案，还可以进一步提供如下优选方式，其中：

作为优选，所述天然气负荷为瞬时标况流量。

作为优选，所述天然气负荷数据由数据采集与监视控制系统(SCADA)系统获取。

作为优选，所述S12中，选择的与天然气负荷最为相关的多个变量包括温度、历史用气负荷和时间变量，所述时间变量为预测时刻处于一天中的第几个小时、一周中的第几天、一年中的第几月、是否节假日这些变量中的一个或多个。

作为优选，所述S13中，进行数据预处理时使用3σ准则识别所述天然气负荷数据中的异常值，并剔除异常和缺失的数据；进行归一化处理时使用最大最小规范化方法对所述历史天然气负荷数据集进行归一化。

作为优选，所述S14中，使用贝叶斯优化算法对深度学习模型的超参数进行寻优，获得最优超参数。

作为优选，所述超参数包括激活函数、学习率、训练轮次和神经元数量。

作为优选，所述S14中，将所述处理后的历史天然气负荷数据集以8:2的比例划分为训练集和验证集。

作为优选，所述敏感性分析方法中，每个输入特征的敏感性指数I计算公式为：

式中，I(x_i)为输入特征x_i的无量纲敏感性指数，f(x₁,…,x_n)为所有的输入特征都取基准值时的模型输出，n为输入特征x_i的总数，f((x_i+KΔx_i))为输入特征x_i增大KΔx_i且其他特征保持不变时的模型输出，l为进行敏感性分析时自变量增大的次数，K为-l到l之间的整数，变量前面的Δ代表该变量的最小改变单元。

作为优选，所述深度学习模型由长短期记忆神经网络(LSTM)和反向传播神经网络(BPNN)级联而成，模型输入经长短期记忆神经网络进行特征提取后，通过反向传播神经网络进行非线性拟合从而输出预测值。

与现有技术相比，本发明所述的一种采用加权残差聚类的天然气负荷预测区间估计方法具有的优势在于：

与传统不对输入进行加权的方法相比，该方法通过对预测模型输入进行加权，增强了样本间的区分度，可以优化聚类的结果，进而提升预测区间估计的精度。该方法将区间估计技术应用在天然气负荷预测领域，为天然气负荷预测的区间估计问题提供了一种新方法。

附图说明

图1为本发明提供的区间估计流程图。

图2为实施例中深度学习模型的结构示意图。

图3为实施例中某一残差簇内的残差分布示意图。

图4为名义置信水平取80％时的预测区间曲线。

具体实施方式

下面结合附图对本发明的实施例作详细说明，本实施例在本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下属实施例。

如图1所示，本发明提供了一种采用加权残差聚类的天然气负荷预测区间估计方法，该方法包括模型残差聚类和预测区间估计两个步骤；

模型残差聚类是指得到预测任务在历史数据下的残差聚类簇，以便在实时预测时能够判断该预测工况应归为哪一簇，得到更准确的区间估计结果。该步骤包含获取训练数据、数据预处理、输入特征选择、超参数寻优、模型训练、计算敏感性指数、加权归一化输入、K-means聚类和异常残差剔除。

预测区间估计是指对于模型计算的预测值，得到其置信区间。该步骤包含获取实际数据、数据预处理、模型预测、加权归一化输入、预测点根据距离匹配残差簇，最后得到置信区间。该步骤的残差聚类簇、敏感性指数、最优的超参数和选择的输入特征需要从步骤1中获得。

下面具体对模型残差聚类和预测区间估计两个步骤在本发明的一个较佳实施例中的具体实现方式进行展开描述。

步骤1为模型残差聚类，具体步骤如下：

第1-1步，从SCADA系统中获取天然气历史负荷数据，其中，天然气历史负荷数据为瞬时标况流量；

第1-2步，选择与天然气负荷最为相关的多个变量作为深度学习模型的输入特征，此处最为相关的变量包括空气温度、历史用气负荷和时间变量(预测时刻处于一天中的第几个小时、一周中的第几天、一年中的第几月、节假日与否)，选择天然气负荷作为深度学习模型的输出，对所述天然气历史负荷数据进行降维筛选，从而构建形成天然气历史负荷数据集，用于作为实时预测天然气负荷的深度学习模型的训练数据；

第1-3步，对天然气历史负荷数据集进行预处理，使用3σ准则识别数据集中天然气历史负荷数据中存在的异常值，剔除存在异常值或者缺失值的样本数据，然后使用最大最小规范化方法对预处理后的天然气历史负荷数据进行归一化计算，形成归一化后的一系列训练样本，从而得到处理后的历史天然气负荷数据集；

第1-4步，把所述处理后的历史天然气负荷数据集按8:2划分为训练集和验证集，利用训练集对深度学习模型进行训练，并根据验证集预测值与实际值的均方根误差对深度学习模型的超参数进行优化，得到一组最优的超参数值。其中，此处采用的超参数优化方法为贝叶斯优化，待超参数是激活函数、学习率、训练轮次和神经元数量。

第1-5步，将以最优超参数值训练后的所述深度学习模型重新对训练集进行预测，得到各训练样本的预测值和残差e，残差的计算公式为：

式中，e为模型残差，y为天然气负荷的实际值，

为天然气负荷的模型预测值。

第1-6步，用敏感性分析方法求得模型中每个输入特征的敏感性指数I。敏感性分析方法中，每个输入特征的敏感性指数I的计算公式如为：

第1-7步，针对训练集中的每一个训练样本进行加权计算，具体做法为：在训练样本的每个输入特征值乘上根据第1-6步中计算得到的对应输入特征的敏感性指数，进而更新训练样本中的输入特征值，同时将对应的残差e加入加权更新后的训练样本中形成残差样本，所有残差样本构成加权后的训练集。举例而言，原始的归一化后输入特征为(x₁,…,x_n)，而第1-6步中计算得到的这n个输入特征的敏感性指数I(x_i)分别为(a₁,…,a_n)，加权更新后的输入特征为(a₁x₁,…,a_nx_n)。

第1-8步，针对加权后的训练集中的所有残差样本，利用K-means算法划分成若干聚类簇，并计算每一个聚类簇的聚类中心。其中，聚类簇的具体数据需要进行优化，最终得到最优聚类簇数据。在本实施例中，最优聚类簇的数目需根据区间估计效果而定。

第1-9步，针对每一个聚类簇，采用核密度估计算法计算残差概率密度分布，并根据残差概率密度分布计算每一个残差样本的概率密度值，剔除概率密度值低于设定概率密度阈值的残差样本。上述设定概率密度阈值可根据实际进行优化。本实施例所采用的残差概率密度分布函数的计算公式为：

式中，P(.)是聚类簇内的概率密度分布函数，e_i是聚类簇内第i个残差样本，b是带宽，K(.)是核函数，n为聚类簇内残差样本的总数。

步骤2为预测区间估计，具体步骤如下：

第2-1步，从SCADA系统中获取与深度学习模型训练集相同时间间隔的实时天然气负荷数据；

第2-2步，选取与第1-2步相同的变量作为深度学习模型的输入特征，从所述实时天然气负荷数据中提取深度学习模型的输入特征所需的变量值并构成实时输入特征；

第2-3步，对所述实时输入特征进行归一化处理，得到归一化输入特征，该步骤的归一化范围与第1-3步的归一化范围需一致；

第2-4步，选取与第1-4步相同的最优超参数值作为深度学习模型的超参数，将所述归一化输入特征输入以最优超参数值训练后的深度学习模型中，利用深度学习模型预测未来目标时刻的天然气负荷

第2-5步，计算所述归一化输入特征与各聚类簇的聚类中心之间的欧几里得距离，确定欧几里得距离最小的目标聚类簇C，进而利用下式计算未来目标时刻的天然气负荷所在的预测区间上界与下界：

式中，U和L分别为预测区间的上界和下界，

为了进一步展示本发明的上述采用加权残差聚类的天然气负荷预测区间估计方法的优点，下面将其应用于一个具体的场景实例中，以展示其技术效果。

实施例

本实施例中，按照前述步骤1进行模型残差聚类，再按照步骤2进行预测区间估计，从而实现采用加权残差聚类的天然气负荷预测区间估计方法，两个步骤的具体步骤流程如前所述，不再赘述，下面主要展示其具体实现细节和技术效果。

本实施例选取浙江某天然气门站作为实例验证的数据来源，取用的是该门站8个支路的标况总量。除此之外还选取当地的天气信息，包括温度和降雨。按照70％、15％、15％的比例划分训练集，验证集和测试集。训练集用来训练模型，验证集用来在训练过程中方式模型过拟合，测试集用来对训练好的模型做预测。

本实施例采用的深度学习模型为基于长短期记忆神经网络(LSTM)和反向传播神经网络(BPNN)级联而成的混合模型，其结构如图2所示。原始数据输入LSTM，经LSTM进行特征提取后，利用BPNN的非线性拟合能力输出预测值。模型以1h为时间尺度，预测未来1h的天然气负荷。对LSTM-BPNN模型利用贝叶斯优化算法优化的超参数值如表1所示

表1超参数寻优结果

采用敏感性分析方法来计算输入特征对模型预测值的权重，敏感性指数越大，表示该特征对模型输出的影响越大。模型的各个特征敏感性指数如表2所示。

表2模型特征的敏感性指数

基于表2中的敏感性指数对模型归一化输入进行加权计算，然后采用K-means算法对加权后的数据进行聚类。为了得到最优的聚类数量(k)，引入预测区间覆盖概率(PICP)和平均覆盖误差(ACE)来评价预测区间的性能指标。PICP指的是实际值能够落在预测区间内的概率。ACE指的是PICP与名义置信水平(PINC)之差。ACE的绝对值越小，实际值落在预测区间内的概率越接近理论值。

令k取2～6，名义置信水平取60～90％(以10％为间隔)。在上述情况下计算ACE绝对值的平均值。结果显示k取5时区间估计效果最佳，此时ACE绝对值的平均值最小，为0.46％。同时表3也列出了不进行加权和不进行聚类时的ACE绝对值的平均值，结果表明对输入进行加权聚类后，其最优区间估计的结果要好于不进行加权或不进行聚类时的结果，从而证明了该发明的优越性。

表3不同聚类数下的ACE绝对值的平均值

当k取5时，令核密度估计的带宽为10000，异常值阈值的缩放因子为0.02，经核密度估计算法得到的某一残差簇内的残差分布如图3所示。图中处于灰色部分的残差为低于设定阈值的异常残差，将异常残差识别并剔除有利于提高区间估计的准确性。

表4列出了k取5时，不同PINC下测试集PICP和ACE结果。由表可知，本发明提出的预测区间估计方法得到的PICP与PINC十分接近，这表明本发明有较强的可靠性。

表4预测区间估计性能指标

图4展示了PINC取80％时的预测区间曲线，从图中可以得出在不同时刻该方法均能捕捉到用气的变化规律，从而得到准确的预测区间。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种采用加权残差聚类的天然气负荷预测区间估计方法，其特征在于，包括如下步骤：

S1、按照S11～S19进行模型残差聚类，具体步骤如下：

S11、获取天然气历史负荷数据；

式中，e为模型残差，y为天然气负荷的实际值，

为天然气负荷的模型预测值；

式中，P(.)是聚类簇内的概率密度分布函数，e_i是聚类簇内第i个残差样本，b是带宽，K(.)是核函数，n为聚类簇内的残差样本数量；

S2、按照S21～S25进行预测区间估计，具体步骤如下：

式中，U和L分别为预测区间的上界和下界，

2.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法，其特征在于，所述天然气负荷为瞬时标况流量。

3.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法，其特征在于，所述天然气负荷数据由数据采集与监视控制系统(SCADA)系统获取。

4.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法，其特征在于，所述S12中，选择的与天然气负荷最为相关的多个变量包括温度、历史用气负荷和时间变量，所述时间变量为预测时刻处于一天中的第几个小时、一周中的第几天、一年中的第几月、是否节假日这些变量中的一个或多个。

5.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法，其特征在于，所述S13中，进行数据预处理时使用3σ准则识别所述天然气负荷数据中的异常值，并剔除异常和缺失的数据；进行归一化处理时使用最大最小规范化方法对所述历史天然气负荷数据集进行归一化。

6.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法，其特征在于，所述S14中，使用贝叶斯优化算法对深度学习模型的超参数进行寻优，获得最优超参数。

7.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法，其特征在于，所述超参数包括激活函数、学习率、训练轮次和神经元数量。

8.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法，其特征在于，所述S14中，将所述处理后的历史天然气负荷数据集以8:2的比例划分为训练集和验证集。

9.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法，其特征在于，所述敏感性分析方法中，每个输入特征的敏感性指数I计算公式为：

10.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法，其特征在于，所述深度学习模型由长短期记忆神经网络(LSTM)和反向传播神经网络(BPNN)级联而成，模型输入经长短期记忆神经网络进行特征提取后，通过反向传播神经网络进行非线性拟合从而输出预测值。