CN114881347A - 一种采用加权残差聚类的天然气负荷预测区间估计方法 - Google Patents
一种采用加权残差聚类的天然气负荷预测区间估计方法 Download PDFInfo
- Publication number
- CN114881347A CN114881347A CN202210578673.XA CN202210578673A CN114881347A CN 114881347 A CN114881347 A CN 114881347A CN 202210578673 A CN202210578673 A CN 202210578673A CN 114881347 A CN114881347 A CN 114881347A
- Authority
- CN
- China
- Prior art keywords
- natural gas
- gas load
- residual
- model
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 title claims abstract description 180
- 239000003345 natural gas Substances 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000009826 distribution Methods 0.000 claims abstract description 16
- 230000002159 abnormal effect Effects 0.000 claims abstract description 12
- 238000010206 sensitivity analysis Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 60
- 238000013136 deep learning model Methods 0.000 claims description 35
- 230000035945 sensitivity Effects 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000007789 gas Substances 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Fuzzy Systems (AREA)
Abstract
本发明提出了一种采用加权残差聚类的天然气负荷预测区间估计方法。该方法使用敏感性分析量化了模型输入对输出的影响程度,并根据得到的影响程度对模型输入进行加权聚类,针对异常残差采用了一种基于核密度估计的异常残差剔除方法,最后根据各个聚类簇中的残差分布计算模型的预测区间。本发明提出了完整的天然气负荷预测和区间估计流程,可以量化天然气负荷预测模型的不确定度,解决了天然气负荷预测由于随机性强导致的区间估计难题。本发明不对残差分布做出任何假设,可用于估计任何基于数据驱动预测模型的天然气负荷预测不确定性。
Description
技术领域
本发明属于负荷预测、区间估计领域,涉及基于深度学习的建模技术和预测区间估计技术,特别是涉及一种采用加权残差聚类的天然气负荷预测区间估计方法及应用
背景技术
随着我国能源结构转型的不断深入,天然气的需求量逐年上涨。可靠的天然气供应管理对燃气企业平稳安全运行至关重要,而准确的天然气用气量预测是实现可靠的天然气供应的基础。目前关于用气量预测的方法大多为基于深度学习的点预测(给出预测值),但是在实际中,点预测的结果受限于数据噪声和模型局限性等原因往往存在不确定性,从而降低了基于点预测的天然气系统安全运行的可靠性,而安全性是燃气企业运行管理最重要的指标。针对这一问题,可以使用预测区间估计方法来描述点预测的不确定性,这一方法在电力和建筑负荷预测等领域有所研究,但是在天然气预测领域未见相关研究。因此,针对天然气负荷预测领域开发一种区间估计方法具有重要意义。
预测区间是指一个范围,实际负荷将以一定概率落在该范围内。预测区间估计算法有贝叶斯方法、蒙特卡洛法、重采样法以及下上限估计法等。其中下上限估计法一般指训练神经网络学习模型输入与预测区间上下界的关系,根据前人的研究,这种区间估计算法较为优秀。但是它计算规模大,需要较长的训练时间。另外,也可以通过预测模型在训练集上的残差分布来计算实际预测时的预测区间。这类方法具有更高的计算效率,更加契合实时预测这种应用场景。该方法需要计算预测模型在训练集上的残差分布,而不同工况有着不同的残差分布,因此得到准确且合理的残差分布是解决此类问题的关键。
发明内容
本发明能够克服现有技术的不足,提出了一种采用加权残差聚类的天然气负荷预测区间估计方法。
有鉴于此,本发明采用加权残差聚类的天然气负荷预测区间估计方法,其具体包括以下步骤:
一种采用加权残差聚类的天然气负荷预测区间估计方法,其包括如下步骤:
S1、按照S11~S19进行模型残差聚类,具体步骤如下:
S11、获取天然气历史负荷数据;
S12、选择与天然气负荷最为相关的多个变量作为深度学习模型的输入特征,选择天然气负荷作为深度学习模型的输出,对所述天然气历史负荷数据进行降维筛选,从而得到天然气历史负荷数据集,用于作为实时预测天然气负荷的深度学习模型的训练数据;
S13、对所述历史天然气负荷数据集进行数据预处理,同时对预处理后的数据进行归一化处理,得到处理后的历史天然气负荷数据集;
S14、把所述处理后的历史天然气负荷数据集中的所有训练样本划分为训练集和验证集,利用训练集对深度学习模型进行训练,并根据验证集预测值与实际值的均方根误差对深度学习模型的超参数进行优化,得到一组最优超参数值;
S15、将以最优超参数值训练后的所述深度学习模型重新对所述训练集进行预测,得到各训练样本的预测值和残差e,残差的计算公式为:
S16、用敏感性分析方法求得模型中每个输入特征的敏感性指数I;
S17、对所述训练集中的每一个训练样本,在训练样本的每个输入特征值乘上对应输入特征的敏感性指数,更新训练样本中的输入特征值,同时将对应的残差e加入训练样本中形成残差样本,所有残差样本构成加权后的训练集;
S18、针对加权后的训练集中的所有残差样本,利用K-means算法划分成若干聚类簇,并计算每一个聚类簇的聚类中心;
S19、针对每一个聚类簇,采用核密度估计算法计算残差概率密度分布,并根据残差概率密度分布计算每一个残差样本的概率密度值,剔除概率密度值低于设定概率密度阈值的残差样本;所述残差概率密度分布的计算公式为:
式中,P(.)是聚类簇内的概率密度分布函数,ei是聚类簇内第i个残差样本,b是带宽,K(.)是核函数;
S2、按照S21~S25进行预测区间估计,具体步骤如下:
S21、获取与所述训练集相同时间间隔的实时天然气负荷数据;
S22、从所述实时天然气负荷数据中提取深度学习模型的输入特征所需的变量值并构成实时输入特征;
S23、对所述实时输入特征进行所述归一化处理,得到归一化输入特征;
S24、计算所述归一化输入特征与各聚类簇的聚类中心之间的欧几里得距离,确定欧几里得距离最小的目标聚类簇C,进而利用下式计算未来目标时刻的天然气负荷所在的预测区间上界与下界:
基于上述技术方案,还可以进一步提供如下优选方式,其中:
作为优选,所述天然气负荷为瞬时标况流量。
作为优选,所述天然气负荷数据由数据采集与监视控制系统(SCADA)系统获取。
作为优选,所述S12中,选择的与天然气负荷最为相关的多个变量包括温度、历史用气负荷和时间变量,所述时间变量为预测时刻处于一天中的第几个小时、一周中的第几天、一年中的第几月、是否节假日这些变量中的一个或多个。
作为优选,所述S13中,进行数据预处理时使用3σ准则识别所述天然气负荷数据中的异常值,并剔除异常和缺失的数据;进行归一化处理时使用最大最小规范化方法对所述历史天然气负荷数据集进行归一化。
作为优选,所述S14中,使用贝叶斯优化算法对深度学习模型的超参数进行寻优,获得最优超参数。
作为优选,所述超参数包括激活函数、学习率、训练轮次和神经元数量。
作为优选,所述S14中,将所述处理后的历史天然气负荷数据集以8:2的比例划分为训练集和验证集。
作为优选,所述敏感性分析方法中,每个输入特征的敏感性指数I计算公式为:
式中,I(xi)为输入特征xi的无量纲敏感性指数,f(x1,…,xn)为所有的输入特征都取基准值时的模型输出,n为输入特征xi的总数,f((xi+KΔxi))为输入特征xi增大KΔxi且其他特征保持不变时的模型输出,l为进行敏感性分析时自变量增大的次数,K为-l到l之间的整数,变量前面的Δ代表该变量的最小改变单元。
作为优选,所述深度学习模型由长短期记忆神经网络(LSTM)和反向传播神经网络(BPNN)级联而成,模型输入经长短期记忆神经网络进行特征提取后,通过反向传播神经网络进行非线性拟合从而输出预测值。
与现有技术相比,本发明所述的一种采用加权残差聚类的天然气负荷预测区间估计方法具有的优势在于:
与传统不对输入进行加权的方法相比,该方法通过对预测模型输入进行加权,增强了样本间的区分度,可以优化聚类的结果,进而提升预测区间估计的精度。该方法将区间估计技术应用在天然气负荷预测领域,为天然气负荷预测的区间估计问题提供了一种新方法。
附图说明
图1为本发明提供的区间估计流程图。
图2为实施例中深度学习模型的结构示意图。
图3为实施例中某一残差簇内的残差分布示意图。
图4为名义置信水平取80%时的预测区间曲线。
具体实施方式
下面结合附图对本发明的实施例作详细说明,本实施例在本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下属实施例。
如图1所示,本发明提供了一种采用加权残差聚类的天然气负荷预测区间估计方法,该方法包括模型残差聚类和预测区间估计两个步骤;
模型残差聚类是指得到预测任务在历史数据下的残差聚类簇,以便在实时预测时能够判断该预测工况应归为哪一簇,得到更准确的区间估计结果。该步骤包含获取训练数据、数据预处理、输入特征选择、超参数寻优、模型训练、计算敏感性指数、加权归一化输入、K-means聚类和异常残差剔除。
预测区间估计是指对于模型计算的预测值,得到其置信区间。该步骤包含获取实际数据、数据预处理、模型预测、加权归一化输入、预测点根据距离匹配残差簇,最后得到置信区间。该步骤的残差聚类簇、敏感性指数、最优的超参数和选择的输入特征需要从步骤1中获得。
下面具体对模型残差聚类和预测区间估计两个步骤在本发明的一个较佳实施例中的具体实现方式进行展开描述。
步骤1为模型残差聚类,具体步骤如下:
第1-1步,从SCADA系统中获取天然气历史负荷数据,其中,天然气历史负荷数据为瞬时标况流量;
第1-2步,选择与天然气负荷最为相关的多个变量作为深度学习模型的输入特征,此处最为相关的变量包括空气温度、历史用气负荷和时间变量(预测时刻处于一天中的第几个小时、一周中的第几天、一年中的第几月、节假日与否),选择天然气负荷作为深度学习模型的输出,对所述天然气历史负荷数据进行降维筛选,从而构建形成天然气历史负荷数据集,用于作为实时预测天然气负荷的深度学习模型的训练数据;
第1-3步,对天然气历史负荷数据集进行预处理,使用3σ准则识别数据集中天然气历史负荷数据中存在的异常值,剔除存在异常值或者缺失值的样本数据,然后使用最大最小规范化方法对预处理后的天然气历史负荷数据进行归一化计算,形成归一化后的一系列训练样本,从而得到处理后的历史天然气负荷数据集;
第1-4步,把所述处理后的历史天然气负荷数据集按8:2划分为训练集和验证集,利用训练集对深度学习模型进行训练,并根据验证集预测值与实际值的均方根误差对深度学习模型的超参数进行优化,得到一组最优的超参数值。其中,此处采用的超参数优化方法为贝叶斯优化,待超参数是激活函数、学习率、训练轮次和神经元数量。
第1-5步,将以最优超参数值训练后的所述深度学习模型重新对训练集进行预测,得到各训练样本的预测值和残差e,残差的计算公式为:
第1-6步,用敏感性分析方法求得模型中每个输入特征的敏感性指数I。敏感性分析方法中,每个输入特征的敏感性指数I的计算公式如为:
式中,I(xi)为输入特征xi的无量纲敏感性指数,f(x1,…,xn)为所有的输入特征都取基准值时的模型输出,n为输入特征xi的总数,f((xi+KΔxi))为输入特征xi增大KΔxi且其他特征保持不变时的模型输出,l为进行敏感性分析时自变量增大的次数,K为-l到l之间的整数,变量前面的Δ代表该变量的最小改变单元。
第1-7步,针对训练集中的每一个训练样本进行加权计算,具体做法为:在训练样本的每个输入特征值乘上根据第1-6步中计算得到的对应输入特征的敏感性指数,进而更新训练样本中的输入特征值,同时将对应的残差e加入加权更新后的训练样本中形成残差样本,所有残差样本构成加权后的训练集。举例而言,原始的归一化后输入特征为(x1,…,xn),而第1-6步中计算得到的这n个输入特征的敏感性指数I(xi)分别为(a1,…,an),加权更新后的输入特征为(a1x1,…,anxn)。
第1-8步,针对加权后的训练集中的所有残差样本,利用K-means算法划分成若干聚类簇,并计算每一个聚类簇的聚类中心。其中,聚类簇的具体数据需要进行优化,最终得到最优聚类簇数据。在本实施例中,最优聚类簇的数目需根据区间估计效果而定。
第1-9步,针对每一个聚类簇,采用核密度估计算法计算残差概率密度分布,并根据残差概率密度分布计算每一个残差样本的概率密度值,剔除概率密度值低于设定概率密度阈值的残差样本。上述设定概率密度阈值可根据实际进行优化。本实施例所采用的残差概率密度分布函数的计算公式为:
式中,P(.)是聚类簇内的概率密度分布函数,ei是聚类簇内第i个残差样本,b是带宽,K(.)是核函数,n为聚类簇内残差样本的总数。
步骤2为预测区间估计,具体步骤如下:
第2-1步,从SCADA系统中获取与深度学习模型训练集相同时间间隔的实时天然气负荷数据;
第2-2步,选取与第1-2步相同的变量作为深度学习模型的输入特征,从所述实时天然气负荷数据中提取深度学习模型的输入特征所需的变量值并构成实时输入特征;
第2-3步,对所述实时输入特征进行归一化处理,得到归一化输入特征,该步骤的归一化范围与第1-3步的归一化范围需一致;
第2-5步,计算所述归一化输入特征与各聚类簇的聚类中心之间的欧几里得距离,确定欧几里得距离最小的目标聚类簇C,进而利用下式计算未来目标时刻的天然气负荷所在的预测区间上界与下界:
为了进一步展示本发明的上述采用加权残差聚类的天然气负荷预测区间估计方法的优点,下面将其应用于一个具体的场景实例中,以展示其技术效果。
实施例
本实施例中,按照前述步骤1进行模型残差聚类,再按照步骤2进行预测区间估计,从而实现采用加权残差聚类的天然气负荷预测区间估计方法,两个步骤的具体步骤流程如前所述,不再赘述,下面主要展示其具体实现细节和技术效果。
本实施例选取浙江某天然气门站作为实例验证的数据来源,取用的是该门站8个支路的标况总量。除此之外还选取当地的天气信息,包括温度和降雨。按照70%、15%、15%的比例划分训练集,验证集和测试集。训练集用来训练模型,验证集用来在训练过程中方式模型过拟合,测试集用来对训练好的模型做预测。
本实施例采用的深度学习模型为基于长短期记忆神经网络(LSTM)和反向传播神经网络(BPNN)级联而成的混合模型,其结构如图2所示。原始数据输入LSTM,经LSTM进行特征提取后,利用BPNN的非线性拟合能力输出预测值。模型以1h为时间尺度,预测未来1h的天然气负荷。对LSTM-BPNN模型利用贝叶斯优化算法优化的超参数值如表1所示
表1超参数寻优结果
采用敏感性分析方法来计算输入特征对模型预测值的权重,敏感性指数越大,表示该特征对模型输出的影响越大。模型的各个特征敏感性指数如表2所示。
表2模型特征的敏感性指数
基于表2中的敏感性指数对模型归一化输入进行加权计算,然后采用K-means算法对加权后的数据进行聚类。为了得到最优的聚类数量(k),引入预测区间覆盖概率(PICP)和平均覆盖误差(ACE)来评价预测区间的性能指标。PICP指的是实际值能够落在预测区间内的概率。ACE指的是PICP与名义置信水平(PINC)之差。ACE的绝对值越小,实际值落在预测区间内的概率越接近理论值。
令k取2~6,名义置信水平取60~90%(以10%为间隔)。在上述情况下计算ACE绝对值的平均值。结果显示k取5时区间估计效果最佳,此时ACE绝对值的平均值最小,为0.46%。同时表3也列出了不进行加权和不进行聚类时的ACE绝对值的平均值,结果表明对输入进行加权聚类后,其最优区间估计的结果要好于不进行加权或不进行聚类时的结果,从而证明了该发明的优越性。
表3不同聚类数下的ACE绝对值的平均值
当k取5时,令核密度估计的带宽为10000,异常值阈值的缩放因子为0.02,经核密度估计算法得到的某一残差簇内的残差分布如图3所示。图中处于灰色部分的残差为低于设定阈值的异常残差,将异常残差识别并剔除有利于提高区间估计的准确性。
表4列出了k取5时,不同PINC下测试集PICP和ACE结果。由表可知,本发明提出的预测区间估计方法得到的PICP与PINC十分接近,这表明本发明有较强的可靠性。
表4预测区间估计性能指标
图4展示了PINC取80%时的预测区间曲线,从图中可以得出在不同时刻该方法均能捕捉到用气的变化规律,从而得到准确的预测区间。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种采用加权残差聚类的天然气负荷预测区间估计方法,其特征在于,包括如下步骤:
S1、按照S11~S19进行模型残差聚类,具体步骤如下:
S11、获取天然气历史负荷数据;
S12、选择与天然气负荷最为相关的多个变量作为深度学习模型的输入特征,选择天然气负荷作为深度学习模型的输出,对所述天然气历史负荷数据进行降维筛选,从而得到天然气历史负荷数据集,用于作为实时预测天然气负荷的深度学习模型的训练数据;
S13、对所述历史天然气负荷数据集进行数据预处理,同时对预处理后的数据进行归一化处理,得到处理后的历史天然气负荷数据集;
S14、把所述处理后的历史天然气负荷数据集中的所有训练样本划分为训练集和验证集,利用训练集对深度学习模型进行训练,并根据验证集预测值与实际值的均方根误差对深度学习模型的超参数进行优化,得到一组最优超参数值;
S15、将以最优超参数值训练后的所述深度学习模型重新对所述训练集进行预测,得到各训练样本的预测值和残差e,残差的计算公式为:
S16、用敏感性分析方法求得模型中每个输入特征的敏感性指数I;
S17、对所述训练集中的每一个训练样本,在训练样本的每个输入特征值乘上对应输入特征的敏感性指数,更新训练样本中的输入特征值,同时将对应的残差e加入训练样本中形成残差样本,所有残差样本构成加权后的训练集;
S18、针对加权后的训练集中的所有残差样本,利用K-means算法划分成若干聚类簇,并计算每一个聚类簇的聚类中心;
S19、针对每一个聚类簇,采用核密度估计算法计算残差概率密度分布,并根据残差概率密度分布计算每一个残差样本的概率密度值,剔除概率密度值低于设定概率密度阈值的残差样本;所述残差概率密度分布的计算公式为:
式中,P(.)是聚类簇内的概率密度分布函数,ei是聚类簇内第i个残差样本,b是带宽,K(.)是核函数,n为聚类簇内的残差样本数量;
S2、按照S21~S25进行预测区间估计,具体步骤如下:
S21、获取与所述训练集相同时间间隔的实时天然气负荷数据;
S22、从所述实时天然气负荷数据中提取深度学习模型的输入特征所需的变量值并构成实时输入特征;
S23、对所述实时输入特征进行所述归一化处理,得到归一化输入特征;
S24、计算所述归一化输入特征与各聚类簇的聚类中心之间的欧几里得距离,确定欧几里得距离最小的目标聚类簇C,进而利用下式计算未来目标时刻的天然气负荷所在的预测区间上界与下界:
2.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法,其特征在于,所述天然气负荷为瞬时标况流量。
3.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法,其特征在于,所述天然气负荷数据由数据采集与监视控制系统(SCADA)系统获取。
4.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法,其特征在于,所述S12中,选择的与天然气负荷最为相关的多个变量包括温度、历史用气负荷和时间变量,所述时间变量为预测时刻处于一天中的第几个小时、一周中的第几天、一年中的第几月、是否节假日这些变量中的一个或多个。
5.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法,其特征在于,所述S13中,进行数据预处理时使用3σ准则识别所述天然气负荷数据中的异常值,并剔除异常和缺失的数据;进行归一化处理时使用最大最小规范化方法对所述历史天然气负荷数据集进行归一化。
6.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法,其特征在于,所述S14中,使用贝叶斯优化算法对深度学习模型的超参数进行寻优,获得最优超参数。
7.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法,其特征在于,所述超参数包括激活函数、学习率、训练轮次和神经元数量。
8.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法,其特征在于,所述S14中,将所述处理后的历史天然气负荷数据集以8:2的比例划分为训练集和验证集。
10.如权利要求1所述的一种采用加权残差聚类的天然气负荷预测区间估计方法,其特征在于,所述深度学习模型由长短期记忆神经网络(LSTM)和反向传播神经网络(BPNN)级联而成,模型输入经长短期记忆神经网络进行特征提取后,通过反向传播神经网络进行非线性拟合从而输出预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578673.XA CN114881347A (zh) | 2022-05-25 | 2022-05-25 | 一种采用加权残差聚类的天然气负荷预测区间估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578673.XA CN114881347A (zh) | 2022-05-25 | 2022-05-25 | 一种采用加权残差聚类的天然气负荷预测区间估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114881347A true CN114881347A (zh) | 2022-08-09 |
Family
ID=82678353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210578673.XA Pending CN114881347A (zh) | 2022-05-25 | 2022-05-25 | 一种采用加权残差聚类的天然气负荷预测区间估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881347A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116632842A (zh) * | 2023-07-26 | 2023-08-22 | 国网山东省电力公司信息通信公司 | 基于聚类特性的台区分布式光伏负荷概率预测方法及系统 |
CN117196121A (zh) * | 2023-10-26 | 2023-12-08 | 广东省信息网络有限公司 | 一种基于预测系统的数据分析方法和系统 |
-
2022
- 2022-05-25 CN CN202210578673.XA patent/CN114881347A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116632842A (zh) * | 2023-07-26 | 2023-08-22 | 国网山东省电力公司信息通信公司 | 基于聚类特性的台区分布式光伏负荷概率预测方法及系统 |
CN116632842B (zh) * | 2023-07-26 | 2023-11-10 | 国网山东省电力公司信息通信公司 | 基于聚类特性的台区分布式光伏负荷概率预测方法及系统 |
CN117196121A (zh) * | 2023-10-26 | 2023-12-08 | 广东省信息网络有限公司 | 一种基于预测系统的数据分析方法和系统 |
CN117196121B (zh) * | 2023-10-26 | 2024-05-24 | 广东省信息网络有限公司 | 一种基于预测系统的数据分析方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414788B (zh) | 一种基于相似日和改进lstm的电能质量预测方法 | |
CN107967542B (zh) | 一种基于长短期记忆网络的售电量预测方法 | |
CN114881347A (zh) | 一种采用加权残差聚类的天然气负荷预测区间估计方法 | |
CN112364560B (zh) | 矿山凿岩装备作业工时智能预测方法 | |
CN113554466A (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
CN113344288B (zh) | 梯级水电站群水位预测方法、装置及计算机可读存储介质 | |
CN114548592A (zh) | 一种基于cemd和lstm的非平稳时间序列数据预测方法 | |
CN112711896B (zh) | 一种考虑多源预报误差不确定性的复杂水库群优化调度方法 | |
CN117611015B (zh) | 一种建筑工程质量实时监测系统 | |
CN112418476A (zh) | 一种超短期电力负荷预测方法 | |
CN117977568A (zh) | 基于嵌套lstm和分位数计算的电力负荷预测方法 | |
Fan et al. | Fluctuation pattern recognition based ultra-short-term wind power probabilistic forecasting method | |
CN112232604A (zh) | 基于Prophet模型提取网络流量的预测方法 | |
CN112288157A (zh) | 一种基于模糊聚类与深度强化学习的风电场功率预测方法 | |
CN113762591B (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 | |
CN112418522B (zh) | 一种基于三支集成预测模型的工业加热炉钢温预测方法 | |
CN116644562B (zh) | 一种新能源电站运维费用评估系统 | |
CN116629686A (zh) | 一种评估企业能耗数据的方法及装置 | |
CN111339155A (zh) | 一种关联分析系统 | |
CN114091782A (zh) | 中长期电力负荷预测方法 | |
Liu et al. | Short-term power load forecasting via recurrent neural network with similar day selection | |
CN113112085A (zh) | 一种基于bp神经网络的新能源场站发电负荷预测方法 | |
CN113191526A (zh) | 一种基于随机敏感度的短期风速区间多目标优化预测方法及系统 | |
CN117633456B (zh) | 基于自适应焦点损失的海上风电天气事件辨识方法和装置 | |
CN117933316B (zh) | 一种基于可解释贝叶斯卷积网络的地下水位概率预报方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |