CN109146553A

CN109146553A - 基于多密度聚类与多核svm的实时电价预测系统及其方法

Info

Publication number: CN109146553A
Application number: CN201810845093.6A
Authority: CN
Inventors: 周铁华; 王玲; 孙聪慧; 呼功亮
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-01-04

Abstract

本发明提供一种基于多密度聚类与多核SVM的实时电价预测系统，其特点是，包括数据库管理模块分别与数据采集模块、发电能耗统计模块、实时电价预测模块、数据可视化模块信号连接。主要应用于分析实时电价、用电负荷、主要能源发电量及发电成本的时间‑空间分布特征并总结规律，预测所选区域的实时电价，全面考虑了实时电价呈现出的非线性、稀疏性以及波动性特点，兼顾了影响实时电价的用电负荷、主要能源发电量及其发电成本等多种因素，提高了系统的预测准确性与自适应性，避免了预测模型的过度拟合，提高了分布式处理能力，降低了计算复杂度与时间复杂度。并提供科学合理，适用性强的基于多密度聚类与多核SVM的实时电价预测方法。

Description

基于多密度聚类与多核SVM的实时电价预测系统及其方法

技术领域

本发明属于电力电价预测技术领域，是一种基于多密度聚类与多核SVM的实时电价预测系统及其方法。

背景技术

实时电价是指，在考虑电力系统运行与基本投资的情况下，在限定的极短时段内，向用户提供电能的边际成本，它直接反应了市场价格与日前或实时市场购电成本的关系，是最理想的电价机制之一。实时电价的准确预测，一方面可以为购电用户提供可靠的价值依据，从而制定科学的用电策略；另一方面，可以为电力市场监管部门提供重要的参考，进而制定合理的市场规则，促使电力市场健康、稳定、有序的发展。但是，由于实时电价易受多种因素的影响，使得实时电价呈现出很强的波动性与稀疏性，导致难以对其有效预测。因此，实时电价的预测问题已成为当前电力系统市场化运营领域的重要课题之一。

目前，实时电价预测方法主要两类，一类是基于时间序列的预测方法，包括自回归条件异方差模型与自回归移动平均模型等，主要用于表示实时电价与时间的线性关系，确定样本数据与待预测电价之间存在的相似性关联。另一类是基于机器学习的智能预测方法，包括支持向量机(SVM)和人工神经网络等预测方法，其中，支持向量机具有较好的非线性映射能力，提高了系统的泛化性能；而人工神经网络具有良好的并行分布处理能力，而且，对电价噪声具有较高的容错性能。

上述基于实时电价的预测方法的局限性在于：随着新能源、新设备并入各级电网，电价时间序列呈现出更为复杂的非线性特征，从而导致时间序列预测方法难以选取合适的输入变量个数；而采用人工神经网络的实时电价预测方法，易使预测模型产生过度拟合的现象，影响模型的预测性能；基于支持向量机的预测方法尽管克服了人工神经网络预测方法中所存在的泛化能力较差、收敛慢等缺点，但大规模的训练样本数据将导致其计算复杂度大幅上升。因此，采用现有的实时电价预测方法难以达到理想的效果。

发明内容

本发明的目的在于克服现有实时电价预测方法中所存在的不足，针对实时电价的波动性、稀疏性以及非线性特征，提出一种结构合理，预测准确，效果佳的基于多密度聚类与多核SVM的实时电价预测系统，并提供科学合理，适用性强的基于多密度聚类与多核SVM的实时电价预测方法。

实现本发明的目的之一采用的技术方案是：一种基于多密度聚类与多核SVM的实时电价预测系统，其特征是，它包括：用于采集电力市场实时电价及相应用电负荷数据；煤炭、石油、太阳能、氢气、核能、风能的发电量及相应的能源价格数据的数据采集模块；用于对数据进行分类管理，进而构建系统数据库的数据库管理模块；用于实时统计并计算煤炭、石油、太阳能、氢气、核能、风能的发电量、发电成本以及发电能耗比例的发电能耗统计模块；采用多密度聚类与时间序列模式识别方法预测分析实时电价及相应用电负荷，和采用最优多核SVM组合预测煤炭、石油、太阳能、氢气、核能、风能的发电消耗量，并利用熵权法计算各影响因素权重的，用于预测实时电价的实时电价预测模块；用于评估系统预测值的精确程度，计算预测误差并调整预测模型参数，从而证明实时电价预测的准确性与合理性的实时电价预测评估模块；用于展示实时电价预测值、实时电价预测评估量表、煤炭、石油、太阳能、氢气、核能、风能的发电量和发电成本及发电能耗占比的数据可视化模块；所述的数据库管理模块分别与数据采集模块、发电能耗统计模块、实时电价预测模块、数据可视化模块信号连接。

所述的数据采集模块的功能是，分别对所选区域电力市场的实时电价、用电负荷、煤炭发电量、煤炭发电成本、石油发电量、石油发电成本、氢气发电量、氢气发电成本、核能发电量、核能发电成本、风能发电量、风能发电成本、太阳能发电量、太阳能发电成本数据进行在线采集。

所述的数据库管理模块的功能是，将数据采集模块所采集数据进行分类、储存、管理以及传输，其中，煤炭、石油、太阳能、氢气、核能、风能的发电量和发电成本作为发电能耗统计模块的输入量进行统计，并将统计得到的各类能源发电能耗比例存储到数据库管理模块中；实时电价与用电负荷作为实时电价预测模块的输入量进行计算，并将实时电价预测值储存到数据库管理模块中。

所述的发电能耗统计模块的功能是，实时统计采集到的煤炭、石油、氢气、核能、太阳能、风能六种发电能源发电量以及发电成本，计算各类能源的发电能耗比例，并将各类能源的发电能耗比例作为实时电价预测模块的输入量。

所述的实时电价预测模块的功能是，实时预测所选区域电力市场的实时电价，首先，应用多密度聚类算法对实时电价与相应用电负荷数据进行聚类分析，并采用时间序列模式识别的方式搜索相似日初步预测实时电价与相应用电负荷；其次，选择多核SVM预测各类能源的消耗占比，并根据预测结果选择最优的多核函数组合；最终，利用熵权法计算各影响因素的权重，并通过影响因素加权计算的方式预测实时电价。

所述的实时电价预测评估模块的功能是，评估系统预测值的精确程度，通过计算电价真实值与系统预测值之间的绝对百分比误差，并调整相应的预测模型参数，从而证明实时电价预测的准确性与合理性。

所述的数据可视化模块的功能是，根据系统数据的可视化处理，展示相应的实时电价预测值、电价预测评估量表、各类能源发电能耗比、主要发电能源发电量及发电成本，主要发电能源发电量及发电成本包括：煤炭发电量及成本、石油发电量及成本、氢气发电量及成本、核能发电量及成本、风能发电量及成本、太阳能发电量及成本。

实现本发明的目的之二采用的技术方案是：本发明的一种基于多密度聚类与多核SVM的实时电价预测方法，其特征是，它包括以下步骤：

步骤1：提出一种多密度聚类算法对所采集的实时电价与相应的负荷数据进行聚类分析；

(a)选择KNN算法对原始数据的实时电价维度以及相应的用电负荷进行聚类分析，依据式(1)计算参考半径：

其中，r为参考半径长度，k为核心对象阈值，Γ(n)为伽马函数，m为样本点维度，n为样本点数目，为样本点连乘积，x_i为第i个样本点；

(b)依据类内明氏距离将各个类簇从小到大排列，提取类簇排列数组中的四分位数、中位数、四分之三位数所在类簇，将三项类内均值明氏距离赋以相应的权值，并计算加权距离，作为时间轴相邻刻度的距离，对时间轴进行重新编码；

(c)根据参考半径r选出样本点中密度最大的点为中心点，将中心点与其k近邻点的平均距离作为本次的密度半径，进行密度聚类；当该类簇聚类完成时，停止聚类，并将样本点标记为已聚类点；在未聚类样本点中再次根据参考半径选出密度最大的点作为中心点，将中心点与其k近邻点的平均距离作为该次的密度半径，当该类簇聚类完成时，停止聚类，并将样本点标记为已聚类点；重复此过程直至将所有样本点聚类完毕；

步骤2：采用时间序列模式识别算法，根据实时电价与相应用电负荷的簇类时间序列分布特征，搜索历史数据中与其分布特征相似度最高的一天作为相似日，对实时电价及相应用电负荷进行初步预测；

(d)确定待预测实时电价及用电负荷的日前簇类时间序列分布；

(e)在历史数据中搜索相似度值最高的一天作为相似日，对实时电价及相应用电负荷的相似度计算依据式(2)：

其中，Cp为待处理的时间序列模式，由当日24小时每个样本点所属的类簇组成，C为待计算与Cp相似度的时间序列模式，Cp_i为第i个样本点所属的类簇，n^*为当日样本点的数目。，C_i为第i个样本点所属的类簇。Similarity为两个时序模式的相似度；

(f)根据相似日的后一日的实时电价及相应用电负荷变化趋势预测当日实时电价及相应的用电负荷；

步骤3：提出多核SVM算法预测主要能源的发电能耗占比，根据不同SVM核函数组合预测结果，确定最优的多核函数组合；根据不同影响因素的特性，选择合适的单核SVM函数预测各种主要发电能源的能耗占比，构成多组多核SVM函数的表达式(3)：

其中，K_d(x_i，x_j)为单核函数，x_i为时间点，x_j为第d个影响因素在时间点x_i的样本值，m为影响因素种类的数目，K_MKL(x_i，x_j)为多核SVM函数；

步骤4：采用熵权法计算各种影响因素的权重，建立回归预测模型，并通过加权法计算最终的实时电价预测值；选用熵权法计算式(4)计算各影响因素标准值；

(g)根据标准化方程将各影响因素数据标准化：

其中，Y_ij为影响因素标准值，x_ij为影响因素实际值，min(x_i)为该影响因素最小值，max(x_i)为此影响因素的最大值；

(h)根据信息熵式(5)计算各影响因素信息熵：

其中，E_j为该影响因素信息熵，n′为该影响因素的样本集大小，标准化信息因子

根据式(6)计算各影响因素权重：

其中，λ_i为影响因素权重，E_i为该影响因素的信息熵，k为影响因素的个数；

(i)得到回归预测函数表达式(7)：

其中，λ_i为各单核SVM函数的权重，m为影响因素种类的数目，λ_p为实时电价的权重，λ_l为用电负荷的权重，为影响因素的核函数，P_f为实时电价预测值，P为实时电价的初步预测结果，L为用电负荷的初步预测结果。

本发明的基于多密度聚类与多核SVM的实时电价预测系统及其方法具有如下优点：

1)本发明的基于多密度聚类与多核SVM的实时电价预测系统，主要应用于分析实时电价、用电负荷、煤炭、石油、太阳能、氢气、核能、风能的发电量及发电成本的时间-空间分布特征并总结规律，从而准确地预测所选区域的实时电价；

2)本发明的基于多密度聚类与多核SVM的实时电价预测系统全面考虑了由于新能源、新设备并入各级电网，导致实时电价呈现出的非线性、稀疏性以及波动性特点，并且兼顾了实时电价的用电负荷、煤炭、石油、太阳能、氢气、核能、风能的发电量和发电成本这七类影响因素，提高了系统的预测准确性；

3)本发明的基于多密度聚类与多核SVM的实时电价预测方法，根据实时电价与相应用电负荷数据的非线性、稀疏性以及波动性，提出了一种具有时间轴自适应性的多密度聚类算法；根据煤炭、石油、太阳能、氢气、核能、风能的发电量具有不同非线性分布特征的问题，提出了一种多核SVM最优组合算法；将具有不同变化特征的数据分别采用不同的方法处理，避免了预测模型的过度拟合，提高了分布式处理能力，降低了计算复杂度与时间复杂度；

4)其方法科学合理，适用性强。

附图说明

图1为本发明的一种基于多密度聚类与多核SVM的实时电价预测系统结构框图；

图2为本发明的一种基于多密度聚类与多核SVM的实时电价预测系统流程图；

图3为本发明实施例所述的基于多密度聚类的实时电价聚类示意图；

图4为本发明实施例所述的预测方法与神经网络预测对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，在本发明的一个实施例中，提供了一种基于多密度聚类与多核SVM的实时电价预测系统，用来预测至少未来某一时间点的实时电价，而时间范围可以为至少两个时间节点。本发明的一种基于多密度聚类与多核SVM的实时电价预测系统，用于采集电力市场实时电价及相应用电负荷数据、煤炭、石油、太阳能、氢气、核能、风能的发电量及相应的能源价格数据的数据采集模块；用于对数据进行分类管理，进而构建系统数据库的数据库管理模块；用于实时统计并计算煤炭、石油、太阳能、氢气、核能、风能的发电量、发电成本以及发电能耗比例的发电能耗统计模块；采用多密度聚类与时间序列模式识别方法预测分析实时电价及相应用电负荷，和采用最优多核SVM组合预测煤炭、石油、太阳能、氢气、核能、风能的发电消耗量，并利用熵权法计算各影响因素权重的，用于预测实时电价的实时电价预测模块；用于评估系统预测值的精确程度，计算预测误差并调整预测模型参数，从而证明实时电价预测的准确性与合理性的实时电价预测评估模块；用于展示实时电价预测值、实时电价预测评估量表、煤炭、石油、太阳能、氢气、核能、风能的发电量和发电成本、发电能耗占比的数据可视化模块；所述的数据库管理模块分别与数据采集模块、发电能耗统计模块、实时电价预测模块、数据可视化模块信号连接。

本实施例中，以美国PJM电力市场为实施例所选区域，采集时段为2015-2017年，所述的数据采集模块所采集的数据，包括：实时电价数据p以及相应的用电负荷数据l、煤炭发电量X₁、煤炭发电成本Xc₁、石油发电量X₂、石油发电成本Xc₂、氢气发电量X₃、氢气发电成本Xc₃、核能发电量X₄、核能发电成本Xc₄、风能发电量X₅、风能发电成本Xc₅、太阳能发电量X₆、太阳能发电成本Xc₆。

数据列表一：

实时电价	p	氢气发电量成本	Xc<sub>3</sub>
				用电负荷	l	核能发电量	X<sub>4</sub>
煤发电量	X<sub>1</sub>	核能发电成本	Xc<sub>4</sub>
				煤炭发电成本	Xc<sub>1</sub>	风能发电量	X<sub>5</sub>
石油发电量	X<sub>2</sub>	风能发电成本	Xc<sub>5</sub>
				石油发电成本	Xc<sub>2</sub>	太阳能发电量	X<sub>6</sub>
氢气发电量	X<sub>3</sub>	太阳能发电成本	Xc<sub>6</sub>

所述的数据库管理模块的功能是，将数据采集模块采集到的数据进行分类、储存、管理以及传输，其中，煤炭、石油、太阳能、氢气、核能、风能发电量和发电成本是作为发电能耗统计模块的输入量进行统计计算，并将统计计算得到的能源发电能耗比例存储到数据库管理模块中；实时电价与用电负荷作为实时电价预测模块的输入量进行预测值计算，并将实时电价预测值储存到数据库管理模块中。

所述的发电能耗统计模块的功能是，实时统计采集到的煤炭、石油、氢气、核能、太阳能、风能六种发电能源发电量以及发电成本，计算煤炭、石油、太阳能、氢气、核能、风能的发电能耗比例，并将发电能耗比例作为实时电价预测模块的输入量。

所述的实时电价预测模块的功能是，实时预测所选区域电力市场的实时电价。首先，应用多密度聚类算法对实时电价与相应用电负荷数据进行聚类分析，并采用时间序列模式识别的方式搜索相似日初步预测实时电价与相应用电负荷；其次，选择多核SVM预测各类能源的消耗占比，并根据预测结果选择最优的多核函数组合；最终，利用熵权法计算各影响因素的权重，并通过影响因素加权计算的方式预测实时电价。

所述的实时电价预测评估模块的功能是，评估系统预测值的精确程度。通过计算电价真实值与系统预测值之间的绝对百分比误差，并调整相应的预测模型参数，从而证明实时电价预测的准确性与合理性。

所述的数据可视化模块的功能是，根据系统数据的可视化处理，展示相应的实时电价预测值、电价预测评估量表、发电能源的发电能耗比、发电能源的发电量及发电成本，发电能源发电量及发电成本包括：煤炭发电量及成本、石油发电量及成本、氢气发电量及成本、核能发电量及成本、风能发电量及成本、太阳能发电量及成本。

参照图2，在本实施例中,一种基于多密度聚类与多核SVM的实时电价预测方法，包括以下步骤：

(b)依据类内明氏距离将各个类簇从小到大排列，提取类簇排列数组中的四分位数、中位数、四分之三位数所在类簇，将三项类内均值明氏距离赋以相应的权值，本实施例中，权值赋值分别为0.25,0.5,0.25；计算加权距离，作为时间轴相邻刻度的距离，对时间轴进行重新编码；

(c)根据参考半径r选出样本点中密度最大的点为中心点，将中心点与其k近邻点的平均距离作为本次的密度半径，进行密度聚类；当该类簇聚类完成时，停止聚类，并将样本点标记为已聚类点；在未聚类样本点中再次根据参考半径选出密度最大的点作为中心点，将中心点与其k近邻点的平均距离作为该次的密度半径，当该类簇聚类完成时，停止聚类，并将样本点标记为已聚类点；重复此过程直至将所有样本点聚类完毕；(参照图3)

步骤2：采用时间序列模式识别算法，根据实时电价与相应用电负荷的簇类时间序列分布特征，搜索历史数据中与其分布特征相似度最高的一天作为相似日，初步实时电价P及相应用电负荷L；

(d)确定待预测实时电价与相应用电负荷的日前簇类时间序列分布；

(e)在历史数据中搜索相似度值最高的一天作为相似日S_d，对实时电价及相应用电负荷的相似度计算依据式(2)：

步骤3：提出多核SVM算法预测主要能源的发电能耗占比，根据不同SVM核函数组合预测结果，确定最优的多核函数组合；

(g)根据不同影响因素的特性，选择合适的单核SVM函数预测各种主要发电能源的能耗占比，构成多核SVM函数的表达式(3)：

(h)根据不同多核SVM函数的预测结果，选择最优的多核SVM函数K_b；

步骤4：采用熵权法计算各影响因素的权重，建立回归预测模型，并通过加权法计算最终的实时电价预测值；

(i)根据标准化方程式(4)将各影响因素数据标准化：

(j)根据信息熵式(5)计算各影响因素的信息熵：

其中，E_j为该影响因素信息熵，n′为该影响因素的样本集大小，标准化信息因子；

(k)根据式(6)计算各影响因素权重：

(l)得到回归预测函数表达式(7)：

参照图4，选取该市场的2016年4月1日作为预测日，利用1月1日到3月30日的数据作为训练样本集，对基于多密度聚类与多核SVM的实时电价预测系统进行训练和测试；下表为BP神经网络预测值与本系统预测值的对比表：

下表为神经网络预测值和本系统预测值与实时电价真实值的平均误差表：

	平均值	平均真实值	平均误差值
				BP神经网络	18.706	19.382	3.54％
本系统	19.106	19.382	2.45％

从上述两表中可以看出本系统的实时电价预测方法相较于BP神经网络方法具有更高的预测精度。

本发明所涉及的软件程序，依据互联网和自然语言处理技术编制，是本领域人员所熟悉的技术。

显然，上述实施例仅仅是为了清楚地说明所作的举例，而并非对实施方式的限定。对于所述领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有实施方式予以穷举。而由此引申出的显而易见的变化或变动都应涵盖在本发明的保护范围之内，因此，本发明的保护范围都应以权利要求的保护范围。

Claims

1.一种基于多密度聚类与多核SVM的实时电价预测系统，其特征是，它包括：用于采集电力市场实时电价及相应用电负荷数据；煤炭、石油、太阳能、氢气、核能、风能的发电量及相应的能源价格数据的数据采集模块；用于对数据进行分类管理，进而构建系统数据库的数据库管理模块；用于实时统计并计算煤炭、石油、太阳能、氢气、核能、风能的发电量、发电成本以及发电能耗比例的发电能耗统计模块；采用多密度聚类与时间序列模式识别方法预测分析实时电价及相应用电负荷，和采用最优多核SVM组合预测煤炭、石油、太阳能、氢气、核能、风能的发电消耗量，并利用熵权法计算各影响因素权重的，用于预测实时电价的实时电价预测模块；用于评估系统预测值的精确程度，计算预测误差并调整预测模型参数，从而证明实时电价预测的准确性与合理性的实时电价预测评估模块；用于展示实时电价预测值、实时电价预测评估量表、煤炭、石油、太阳能、氢气、核能、风能的发电量和发电成本及发电能耗占比的数据可视化模块；所述的数据库管理模块分别与数据采集模块、发电能耗统计模块、实时电价预测模块、数据可视化模块信号连接。

2.根据权利要求1所述的基于多密度聚类与多核SVM的实时电价预测系统，其特征是，所述的数据采集模块的功能是，分别对所选区域电力市场的实时电价、用电负荷、煤炭发电量、煤炭发电成本、石油发电量、石油发电成本、氢气发电量、氢气发电成本、核能发电量、核能发电成本、风能发电量、风能发电成本、太阳能发电量、太阳能发电成本数据进行在线采集。

3.根据权利要求1所述的基于多密度聚类与多核SVM的实时电价预测系统，其特征是，所述的数据库管理模块的功能是，将数据采集模块所采集数据进行分类、储存、管理以及传输，其中，煤炭、石油、太阳能、氢气、核能、风能的发电量和发电成本作为发电能耗统计模块的输入量进行统计，并将统计得到的各类能源发电能耗比例存储到数据库管理模块中；实时电价与用电负荷作为实时电价预测模块的输入量进行计算，并将实时电价预测值储存到数据库管理模块中。

4.根据权利要求1所述的基于多密度聚类与多核SVM的实时电价预测系统，其特征是，所述的发电能耗统计模块的功能是，实时统计采集到的煤炭、石油、氢气、核能、太阳能、风能六种发电能源发电量以及发电成本，计算各类能源的发电能耗比例，并将各类能源的发电能耗比例作为实时电价预测模块的输入量。

5.根据权利要求1所述的基于多密度聚类与多核SVM的实时电价预测系统，其特征是，所述的实时电价预测模块的功能是，实时预测所选区域电力市场的实时电价，首先，应用多密度聚类算法对实时电价与相应用电负荷数据进行聚类分析，并采用时间序列模式识别的方式搜索相似日初步预测实时电价与相应用电负荷；其次，选择多核SVM预测各类能源的消耗占比，并根据预测结果选择最优的多核函数组合；最终，利用熵权法计算各影响因素的权重，并通过影响因素加权计算的方式预测实时电价。

6.根据权利要求1所述的基于多密度聚类与多核SVM的实时电价预测系统，其特征是，所述的实时电价预测评估模块的功能是，评估系统预测值的精确程度，通过计算电价真实值与系统预测值之间的绝对百分比误差，并调整相应的预测模型参数，从而证明实时电价预测的准确性与合理性。

7.根据权利要求1所述的基于多密度聚类与多核SVM的实时电价预测系统，其特征是，所述的数据可视化模块的功能是，根据系统数据的可视化处理，展示相应的实时电价预测值、电价预测评估量表、各类能源发电能耗比、主要发电能源发电量及发电成本，主要发电能源发电量及发电成本包括：煤炭发电量及成本、石油发电量及成本、氢气发电量及成本、核能发电量及成本、风能发电量及成本、太阳能发电量及成本。

8.一种基于多密度聚类与多核SVM的实时电价预测方法，其特征是，它包括以下步骤：

其中，K_d(x_i，x_j)为单核函数，x_i为时间点，x_j为第d个影响因素在时间点x_i的样本值，m为影响因素种类的数目，K_MKL(x_i,x_j)为多核SVM函数；

(g)根据标准化方程将各影响因素数据标准化：

(h)根据信息熵式(5)计算各影响因素信息熵：

根据式(6)计算各影响因素权重：

(i)得到回归预测函数表达式(7)：