CN111815054A

CN111815054A - 基于大数据的工业蒸汽热网短期负荷预测方法

Info

Publication number: CN111815054A
Application number: CN202010656981.0A
Authority: CN
Inventors: 林小杰; 吴茜; 姜业正; 赵琼; 钟崴
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU; Wuxi Huaguang Environment and Energy Group Co Ltd
Priority date: 2020-03-31
Filing date: 2020-07-09
Publication date: 2020-10-23

Abstract

本发明提出了一种基于大数据的工业蒸汽热网短期负荷预测方法，该方法的主体思路是对热网中的每个用户的负荷进行独立预测，最后将所有用户的预测结果进行累加得到热网系统的总负荷。本发明捕捉了每个用户的用汽规律，避免了从热网负荷总量上进行分析预测结果产生的偏颇，提高了短期负荷预测准确度。

Description

基于大数据的工业蒸汽热网短期负荷预测方法

技术领域

本发明涉及智慧能源和能源互联网领域，具体涉及基于大数据的工业蒸汽热网短期负荷预测方法。

背景技术

热网系统短期负荷预测结果关系到热网系统调度运行和生产计划的制定，准确的算起负荷预测结果有助于提高系统的安全性和稳定性，能够减少发电成本。

目前，热网系统根据业务需求已实现用汽信息采集系统的建设，实现了热网用户的用汽信息全采集，为准确把握用户级负荷变化规律提供了数据基础。目前很多热网负荷预测对象主要都是针对总量负荷，或者再深一层配气站的母线负荷，通过母线负荷累加获得总量负荷。而热网负荷时由众多用户负荷构成，不同用户的负荷受自身行业属性和生产特点的影响，负荷规律也千差万别，从热网负荷总量上分析负荷变化规律就忽略了用户的用汽规律，因此分析结果必然存在一定的偏颇，更加无法精确定位负荷波动的源头(即用户)。而用汽信息采集系统的海量用户级负荷信息将使从用户级负荷入手的短期负荷预测成为可能。

同时，随着热网公司大数据平台等业务辅助平台的完善，热网现有数据源头已经可以定位到用户负荷层面。行业标准划分数据、季节天气等于短期负荷密切耦合的相关因素也将会纳入到短期负荷预测的基础数据库中。但是负荷的影响因素众多、非线性极强，因此结合负荷数据与影响因素数据，研究负荷随多种因素的变化规律，进而总结用户的用汽规律，将是提高短期负荷准确度的一种有效手段。本发明提供了热用户负荷走势与其影响因素之间的分析方法，研究负荷随影响因素的变化规律，进而分析用汽规律，并对未来的负荷走势进行预测性分析，为热网的运行优化和精准调控提供参考与指导。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于大数据的工业蒸汽热网短期负荷预测方法。

本发明采用以下方案：

一种基于大数据的工业蒸汽热网短期负荷预测方法，包括以下步骤：

步骤S1，采集数据源，包括供热系统中N个热用户用汽信息采集及相关影响因素采集；然后进行数据清洗、数据转换；

步骤S2，数据预处理，针对其中第n(1≤n≤N)个用户，利用聚类分析、灰色关联分析、决策树等技术对历史负荷数据进行预处理，用于建立该用户每天的负荷曲线与影响因素的数学模型；

步骤S3，负荷预测模型建立：根据第n个用户的负荷曲线特性构建预测模型，并预测该用户的待预测日负荷曲线；

步骤S4，重复S2到S3，最终得到所有用户在待预测日的负荷预测曲线，并累加所有用户的预测结果得到系统负荷预测曲线。

上述技术方案中，进一步地，步骤S1中，所述采集数据源的方法包括：

采集供热系统中所有用户的历史负荷数据集，并从天气预报接口采集待预测日天气因素的预测数据；所述的历史负荷数据集包括所有热用户历史负荷数据，影响热用户负荷走势的天气因素和日类型历史数据；所述的天气因素包括日最高气温、日平均气温、日平均降水、日平均湿度、日平均风速，所述的日类型包括工作日、休息日、节假日；

将各数据库中所需要的历史数据和预测数据打包成数据视图，并将上述数据视图与所有数据库进行对接，以将所有所需要的历史数据和预测数据存储到相应的目标数据表中。

进一步地，所述步骤S1中对历史负荷数据进行数据清洗、数据转换的方法包括：

通常情况下负荷会受到不同的因素的影响，在对负荷异常的分析时需要考虑噪声点和缺失值的影响。

设N个用户历史负荷数据为F＝[F_y(1)F_y(2)…F_y(n)…F_y(N)]，其中,F_y(n)＝[F_y1(n)F_y2(n)…F_yd(n)]，F_yd(n)构成一条负荷曲线，n为第n个用户，d为第d天，并且1≤n≤N,d≥1。

分别对每个用户负荷曲线异常值类型建立时间序列上的模型：

式中，F_yd(n)表示第n个用户的第d天的负荷序列，F_yd(n)(t)表示的t时刻的负荷，F_xd(n)(t)表示不包含异常值的t时刻负荷，p为异常值个数，w_i和a(j)表示负荷异常值的影响因子，

表示的是t时刻的脉冲函数。

对于数据库中的缺失值，根据用汽负荷的波动特性，计算前后相邻两日相同时间点的负荷以及当前时刻的前后两个时间点的负荷的均值，和后一日相对前一日的负荷变化率，以均值加上负荷变化量填充空缺值：

式中：X_i表示当前时刻的负荷,i表示时间点取值为1到24，a₁和a₂分别表示前后两天对应时刻和当前时刻前后两个时间点负荷的加权系数。

对于噪声点数据，在负荷曲线上体现为远离正常的波动范围,出现毛刺等现象。利用负荷序列的前后波动性关系，可以通过计算负荷间的距离来检测异常。取时间序列中到中心点s最近的k个负荷的距离表示负荷的密度区域，则密度越大的点区域半径越小，取负荷点到中心点的距离d与密度区域半径r的较大者作为中心点s的可达距离。则负荷的异常程度可以用负荷点到中心点s的相对距离来表示，通过设定一定的阈值就可得到数据异常的负荷点，阈值的计算方式为：

式中，r_d表示以s为中心点的密度区域的可达距离，d_s表示以s为中心点的所有距离的均值，m表示该时间序列中的所有负荷点。

对于异常的噪声点数据要进行修复，修复方法采用当前负荷相对前一天时间序列的变化的思路进行处理：

式中，x(t)表示当前序列中不存在异常的负荷数据，x(t-j)表示序列异常点前面第j个的负荷数据，x′(t-j)表示相对x(t-j)前一天的负荷数据。

进一步地，所述步骤S2中，采用凝聚层次聚类算法对数据进行预处理，分别对每个独立用户的负荷曲线进行聚类分析的方法为：

设将第n个用户的d(d≥1)组F_yd(n)负荷曲线组成初始簇C₁～C_d，F_yd(n)为单独一个单独样本簇C_i(1≤i≤d)；

计算负荷样本簇C_i与负荷样本簇C_j(1≤j≤d)之间的平均距离：

其中，x_i，x_j分别为负荷样本簇C_i，C_j中的负荷点,x_i＝{x_i1,x_i2,……x_in},{x_j＝{x_j1,x_j2,……x_jn}，二者间的欧式距离d(x_i-x_j)为：

设定曲线间的距离阈值为D，在负荷样本S中有N条负荷曲线序列{L₁,L₂,…….,L_N},，任意取出曲线L_N并计算与其他曲线间的欧式距离，合并最近两个簇，合并的过程反复进行直到类别总数达到预设的数目K。

进一步地，所述步骤S2中，对于每个独立用户，利用灰色关联分析方法对数据进行预处理，确立影响负荷走势的关键因素的方法为：

针对第n个用户的历史负荷数据集，先对影响该用户的负荷曲线走势的因素进行关联度排序，根据关联度来判断因素对负荷的影响，从而剔除一些对负荷影响小(关联度小于0.4)的因素，即采用灰色关联分析方法计算每天的天气因素、日类型与负荷曲线之间的灰色关联度；

将历史负荷数据、天气因素以及日类型作为分析样本，设定负荷数据为母序列、天气因素和日类型为子序列；采用灰色关联分析算法分析各个子序列与母序列的相关性，最后将同一子序列的所有灰色关联度求均值即可得到各个影响因素的灰色关联度。

所述影响因素与负荷之间的灰色关联度计算方法包括：

确定反映系统行为特征的参考序列和影响系统行为的比较序列：即历史负荷数据为参考序列，天气因素和日类型组成的历史影响因素数据则称比较序列；将第n个用户的参考序列F_y(n)＝[F_y1(n)F_y2(n)…F_yd(n)]表示成X₀＝[X₀(1),X₀(2),……,X₀(d)](d＝n),将比较序列D_x(n)＝[D_x1(n)D_x2(n)…D_xd(n)]表示成X_i＝[X_i(1),X_i(2),……,X_i(d)](i＝1,2,…,k)；其中，k为变量个数；

对历史负荷数据和历史因素数据进行无量纲化处理；

对历史负荷数据进行标准化：

其中，X₀(1)为一组历史负荷数据序列，p＝2

对历史影响因素数据进行标准化：

其中，X_i(1)为一组历史影响因素数据序列，p＝2

计算参考序列与比较序列的灰色关联系数方法为：

灰色绝对关联度只与历史负荷数据序列X₀和历史影响因素数据序列X_i的几何形状有关，而与其空间相对位置无关。计算灰色绝对关联度

式中，

灰色相对关联度表征了历史负荷数据序列X₀和历史影响因素数据序列X_i相对于始点的变化速率之间的关系，历史负荷数据序列X₀和历史影响因素数据序列X_i的变化速率越趋于一致，其灰色相对关联度越大。计算灰色相对关联度Π_0i：

式中，

灰色综合关联度体现了负荷序列X₀和影响因素序列X_i的相似程度，较为全面地表征两个序列之间联系是否紧密。计算灰色综合关联度Ψ_0i：

对计算得出的灰色关联度进行排序，选定灰色关联度超过设定阈值的四个因素作为关键影响因素。

更进一步地，所述的步骤S2中，针对每个独立用户，采用CART决策树对数据进行预处理，建立负荷与关键影响因素之间分类规则的方法为：

根据历史负荷曲线产生的分类结果与确立的关键影响因素，利用CART决策树算法建立分类规则模型；

采用CART决策树算法进行样本分类的方法包括：

针对第n用户的m组参考序列F_y(n)构建训练样本：

C＝{X₁,X₂,……,X_m,L}

X_m＝{x_m1,x_m2,……,x_mt}

L＝{L₁,L₂,……,L_k}

其中，X₁,X₂,……,X_m为历史负荷数据分类标签；L为历史影响因素标签；

将训练样本划分为测试变量和目标变量，通过对这两种变量的循环分析形成二叉决策树。假设训练数据集D＝{(x₁,y₁),(x₂,y₂),……(x_n,y_n)},A为历史影响因素数据集，现在用特征A对数据进行分割，若特征A为离散特征，则根据A的某一可能取值a将D分为D1与D2：

D₁＝{D|A＝a}，D₂＝{D|A≠a}

即在已知特征A的条件下集合D的基尼指数：

对整个数据集中所有的可能特征A以及其可能取值a选取基尼系数最小的特征A^*与特征下的取值a^*，将数据集切分，数据D₁,D₂被分到两个子节点中去，对子节点递归进行重复迭代直至满足所有的Gini(D,A)取值都最小；

计算基尼系数：

式中，

是从训练样本集中随机抽取的一个样本，表示当某一测试变量值为h时属于第j类的概率；n_j(h)为训练样本中测试变量值为h时属于第j类的样本个数；n(h)为训练样本中该测试变量值为h的样本个数；j为类别个数。

为避免模型过拟合，需要对决策树进行减枝。设树的叶结点个数为|T|，t是树T的叶结点，该叶结点有N_t个样本点，其中k类的样本点有N_tk个，k＝1,2,…,K，H_t(T)为叶结点t上的经验熵，α≥0为参数，则损失函数可定义为：

其中经验熵为：

在损失函数定义公式中，将其右端第一项记作：

则损失函数简化为：

C_α(T)＝C(T)+α|T|

输入生成算法产生的决策树T₀，参数α，计算每个结点的经验熵，递归的从树的叶结点向上回缩。设一组叶节点回归到其父结点之前与之后的整体数分别为T_A与T_B，计算其对应的损失函数值C_α(T_A)与C_α(T_B)，如果

C_α(T_A)≤C_α(T_B)

则进行剪枝，即将父结点变为新的叶结点。继续从叶结点向上回缩，直至不能继续为止，得到损失函数最小的子树T_α，即最优决策树。

进一步地，所述步骤S3中负荷预测模型建立方法为：

找到与待预测日同类型日的历史负荷曲线、历史影响因素，以及针对每一类训练对应的支持向量机模型，计算出每个独立用户的预测负荷曲线，

找到第n个用户的与待预测日的分类标签L′(n)相同的历史负荷曲线数据集、日特征向量集构建训练样本，针对该类负荷曲线的走势变化规律和特征，选取匹配的预测模型，预测该用户在待预测日的负荷曲线；

其中，所述的分类标签L′(n)的计算方式为：找到第n个用户的待预测日的关键因素日特征向量为x′(n)＝{x′₁,x′₂,…x′_k}(k＝4)；

输入上述匹配的预测模型中：

L′(n)＝f(x′(n))

其中输入x′(n)为日特征向量，输出L′(n)即为用户n的待预测日的负荷曲线对应的分类标签。

采用支持向量机模型完成负荷预测的方法为：

设第n个用户的历史负荷曲线数据集中，属于分类标签L′(n)的样本共k个，(x₁,y1),(x₂,y₂),…(x_k,y_k)，其中x_k∈D_x(n)为输入参数，即日特征向量集，y_k∈F_y(n)为相应的输出参数，即负荷曲线，k为样本个数。输入参数与输出参数之间存在如下关系：

f(x)(n)＝ω·θ(x)+b

其中，ω为权值矢量，b为阈值。

这里，同理理论计算SVM的回归函数，目标函数与约束条件：

其中，x_i，y_i为样本点，ξ_i和

为非负松弛变量；C为惩罚因子，控制超出误差范围的样本的惩罚程度，起到平衡经验风险和模型复杂度的作用。ε为不敏感损失函数参数。

利用拉格朗日方法求解上述最优化问题：

式中，K(x_i,x_j)＝[θ(x_i)·θ(x_j)]，为SVM的核函数；a_i，

a_j，

为拉格朗日系数。得出第n用户SVM的回归模型：

K(x_i,x_j)＝exp(-g|x_i-x_j|²)

式中，核函数采用径向基函，g为核函数的参数。

第n个用户的待预测日的关键因素日特征向量x′(n)输入到上述支持向量机f(x)(n)模型中，得出该用户在待预测日的负荷曲线F′_yd(n)。

进一步地，所述的步骤S4中计算系统负荷预测曲线的方法为：

重复上述步骤S2到S3,计算得出所有用户在待预测日的负荷曲线数据集{F′_yd(1)F′_yd(2)…F′_yd(n)}，将预测结果累加起来，即求得目标热网的系统总负荷：

其中，Flow为待预测日的系统负荷，F′_yd(n)为第n用户的待预测日负荷曲线。

本发明的有益效果为：

本发明通过采集的热网中热用户的历史负荷数据、天气因素和日类型历史数据，利用大数据技术(聚类分析、灰色关联分析、决策树算法)对历史负荷数据、历史影响因素数据(天气因素和日类型历史数据)进行预处理；把握每个热用户负荷与天气因素、日类型的密切关系；并根据不同用户特性构建预测模型，对某用户的未来日负荷曲线进行独立预测，最后累加所有用户的预测结果，得到系统的预测负荷；本发明利用大数据技术，捕捉了每个用户的用汽规律，弥补了传统的数据统计方法对数量级较大的数据量分析方面的不足，解决了工业用汽系统从热网负荷总量上进行分析导致的预测失准问题，提高了工业热网系统短期总负荷预测准确度，最终为工业热网的运行优化和精准调控做参考。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明所涉及的一种基于大数据技术的工业热网短期负荷预测方法的流程图；

图2是本发明所涉及的凝聚层次聚类方法的流程图；

图3是本发明所涉及的用户负荷曲线走势图；

图4是本发明所涉及的分类规则建立图

图5是本发明所涉及的CART决策树示意图；

图6是本发明所涉及的支持向量机算法示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

实施例1

图1是本发明所涉及的一种基于大数据技术的工业热网短期负荷预测方法的流程图。如图1所示，本实施例提供了一种基于大数据技术的工业热网短期负荷预测解决方案，包括：步骤S1，获取数据源，包括供热系统中N个热用户用汽信息采集及相关影响因素采集，并对上述数据进行清洗、转换；步骤S2，数据预处理，针对其中第n(1≤n≤N)个用户，利用聚类分析、灰色关联分析、决策树等技术对历史负荷数据进行预处理，建立该用户每天的负荷曲线与天气、日类型等影响因素的数学模型；步骤S3，负荷预测模型建立，根据第n个用户的负荷曲线特性构建预测模型，并预测该用户的待预测日负荷曲线；步骤S4，重复S2到S3，最终得到所有用户在待预测日的负荷预测曲线，并累加所有用户的预测结果得到系统负荷预测曲线。

图2是本发明所涉及的凝聚层次聚类方法的流程图。如图2所示，在本实施例中，所述步骤S2，凝聚层次聚类方法包括：设将第n个用户的d(d≥1)组F_yd(n)负荷曲线组成初始簇C₁～C_d，F_yd(n)为单独一个负荷样本簇C_i(1≤i≤d)；

其中，x_i，x_j分别为负荷样本簇C_i，C_j中的负荷点,x_i＝{x_i1,x_i2,……x_in},x_j＝{x_j1,x_j2,……x_jn}，二者的欧式距离d(x_i-x_j)为：

由于负荷曲线的走势与日类型、天气因素等密切相关，对历史负荷曲线的聚类分析是负荷预测的基础步骤。针对海量的用户负荷，若无针对性的研究每个用户的用汽规律将会造成巨大的资源浪费。因此，聚类分析能够将用汽规律相近的负荷日期归为一类。通过计算各个向量之间的空间距离，将其由零散分布的独立样本逐渐归为趋势相近的若干类。

图3是本发明所涉及的用户负荷曲线走势图

如图3所示，在本实施例中，所述步骤S2，聚类结果方法包括：通过对某独立用户的历史负荷曲线进行凝聚层次聚类分析得出该用户分类结果，该用户的历史负荷曲线可以归类为图3中的六类负荷曲线，并将聚类结果与其对应日类型存入表中：

表1聚类结果与其对应的日类型

结合负荷曲线分类结果及表1可以看出六类负荷曲线在幅值大小及曲线走势上存在较大的差异。可以看出类1、类3、类4主要为工作日负荷，类2、类5主要为休息日负荷，进一步分析节假日属性，发现第5类含有大量的节假日如国庆节等的负荷走势，而第6类为主要为节假日前一天的负荷。分析表明，凝聚层次聚类算法成功完成了分类的任务。

图4是本发明所涉及的分类规则建立图。如图4所示，在本实施例中，所述步骤S2，灰色关联度计算方法包括：针对第n用户的历史负荷数据集，先对影响该用户的负荷曲线走势的因素进行关联度排序，剔除一些对负荷影响小的因素。即采用灰色关联分析方法计算每天的天气因素[日最高气温、日平均气温、日平均湿度、日平均风速、日平均降水、日类型(工作日、休息日、节假日)]与负荷曲线之间的灰色关联度；

将历史负荷数据、天气因素以及日类型数据集作为分析样本，设定负荷数据为母序列、天气因素和日类型为若干子序列；采用灰色关联分析算法分析各个子序列与母序列的相关性，最后将所有灰色关联度求均值即可得到各个影响因素的灰色关联度。

确定反映系统行为特征的参考序列和影响系统行为的比较序列：即历史负荷数据为参考序列，天气因素和日类型组成的历史影响因素数据则称比较序列；第n个用户的参考序列F_y(n)＝[F_y1(n)F_y2(n)…F_yd(n)]表示成X₀＝[X₀(1),X₀(2),……,X₀(d)](d＝n),比较序列D_x(n)＝[D_x1(n)P_x2(n)…D_xd(n)]表示成X_i＝[X_i(1),X_i(2),……,X_i(d)](i＝1,2,…,k)。其中，k为变量个数。

对历史负荷数据和历史因素数据进行无量纲化处理；

即对参考序列进行Normalization标准化：

其中，X₀(1)为一组历史负荷数据序列，p＝2

即对比较序列进行Normalization标准化：

其中，X_d(1)为一组历史影响因素数据序列，p＝2

计算参考数列与比较数列的灰色关联系数方法包括：

式中，

灰色相对关联度表征了历史负荷数据序列X₀和历史影响因素数据序列X_i相对于始点的变化速率之间的关系，历史负荷数据序列X₀和历史影响因素数据序列X_i的变化速率越趋于一致，其灰色相对关联度越大。

计算灰色相对关联度Π_0i：

式中，

灰色综合关联度体现了负荷序列X₀和影响因素序列X_i的相似程度，较为全面地表征两个序列之间联系是否紧密。

计算灰色综合关联度Ψ_0i：

对影响负荷的因素进行关联度排序，剔除一些对负荷影响小的因素，从而达到约简分类规则，简化预测模型的目的。选定灰色关联度超过设定阈值的四个因素作为关键影响因素。

通过对第n用户的历史负荷数据以及历史天气数据进行灰色关联分析，可以得出影响该用户负荷变化规律的关键影响因素，有利于缩减样本集的数据维度，进一步提高准确度。对第n用户的灰色关联度计算结果表2：

表2第n用户的灰色关联度计算结果

根据灰色关联度大小，最终选择出最高气温、平均气温、日类型、平均湿度对负荷变化趋势影响较大，可作为关键因素，在后续分析汇总主要关注这几项影响因素。

在本示例中，所述步骤S2，图4中中间为决策树的算法模型，左输入为日属性向量，即历史负荷中每天的负荷数据。右侧输入为在层次聚类分析后得到的若干类别。

在本实施例中，所述步骤S2，CART决策树建立分类规则的方法包括：针对第n用户的m组参考序列F_y(n)构建训练样本C：

C＝{X₁,X₂,……,X_m,L}

X₁＝{x₁₁,x₁₂,……,x_1t}…X_m＝{x_m1,x_m2,……,x_mt}

L＝{L₁,L₂,……,L_k}

其中，X₁,X₂,……,X_m为历史负荷数据分类标签，称为属性向量；L为历史影响因素标签，称为标签向量；

将训练样本划分为测试变量和目标变量，通过对这两种变量的循环分析形成二叉决策树：

其中，训练数据集D＝{(x₁,y₁),(x₂,y₂),……(x_n,y_n)},特征A＝{A₁,A₂,…A_n}(n＝4)为历史影响因素数据集，若特征A为离散特征，则利用特征A的某一可能取值a将数据分为D1与D2两部分，计算A＝a时的基尼系数，对整个数据集中所有的可能特征A以及其可能取值a选取基尼系数最小的特征A^*与该特征下的取值a^*，将数据集切分，数据D₁,D₂被分到两个子节点中去，对子节点递归的重复迭代直至满足所有所有的Gini(D,A)取值都最小。

计算基尼系数：

式中，

是从训练样本集中随机抽取一个样本，表示当某一测试变量值为h时属于第j类的概率；n_j(h)为训练样本中测试变量值为h时属于第j类的样本个数；n(h)为训练样本中该测试变量值为h的样本个数；j为类别个数。

为避免模型过拟合，需要对决策树进行减枝：

设树的叶结点个数为|T|，树T的任意叶结点t有N_t个样本点，其中k类的样本点有N_tk个，k＝1,2,…,K，H_t(T)为叶结点t上的经验熵，α≥0为参数，则损失函数可定义为：

其中经验熵为：

在损失函数定义公式中，将其右端第一项记作：

则损失函数简化为：

C_α(T)＝C(T)+α|T|

输入生成算法产生的决策树T₀，参数α，计算每个结点的经验熵，递归的从树的叶结点向上回缩；设一组叶节点回归到其父结点之前与之后的整体数分别为T_A与T_B，计算其对应的损失函数值C_α(T_A)与C_α(T_B)，如果

C_α(T_A)≤C_α(T_B)

则进行剪枝，即将父结点变为新的叶结点；继续从叶结点向上回缩，直至不能继续为止，得到损失函数最小的子树T_α，即最优决策树。

CART决策树算法根据信息增益度将样本按其若干影响属性值不断划分，最后归入指定的类。因此能够找到分类结果与关键影响因素间的耦合关系，造成聚类结果的依据，并以分类规则的形式表现出来。当已知待预测日的关键影响因素值时，可以将预测日遵循分类规则分配到对应的聚类中去，从而该类的结果就可以作为待预测日的相似日数据集来训练模型。

根据第n用户的负荷曲线进行分析，所得分类决策树也是久特变负荷曲线分类规则，同时也表征了负荷聚类结果与关键影响因素值的定量关系，某日影响负荷的关键因素表：

表3某日影响负荷的关键因素

图6是本发明所涉及的支持向量机算法示意图。如图6所示，在本实施例中，所述步骤S3，找到待预测日的同类型日历史负荷曲线、历史影响因素，已知待预测日的相关因素数据，在上述分类规则中可以将待预测日分到与之对应的类中，存入表4：

表4待预测日及与其对应的类

以及针对每一类训练对应的支持向量机模型，以及计算出每个独立用户的预测负荷曲线的方法包括：

找到第n用户的与待预测日的分类标签L′(n)相同的历史负荷曲线数据集、日特征向量集构建训练样本，针对该类负荷曲线的走势变化规律和特征，选取匹配的预测模型，预测该用户在待预测日的负荷曲线。

其中，所述的分类标签L′(n)的计算方式为：找到第n个用户的待预测日的关键因素日特征向量为x′(n)＝{x′₁,x′₂,…x′_k}(＝4),其中x′₁,′₂,…x′_k分别为日平均气温、日平均湿度、日平均风速、日类型；

输入上述匹配的预测模型中：

L′(n)＝f(x′(n))

采用支持向量机模型完成负荷预测的方法为：

设第n个用户的历史负荷曲线数据集中，属于分类标签L′(n)的样本共k个，(x₁,y₁),(x₂,y₂),…(x_k,y_k)，其中x_k∈D_x(n)为输入参数，即日特征向量集，y_k∈F_y(n)为相应的输出参数，即负荷曲线，k为样本个数。输入参数与输出参数之间存在如下关系：

f(x)(n)＝ω·θ(x)+b

其中，ω为权值矢量，b为阈值。

这里，同理理论计算SVM的回归函数，目标函数与约束条件：

其中，x_i，y_i为样本点，ξi和

利用拉格朗日方法求解上述最优化问题：

式中，K(x_i,x_j)＝[θ(x_i)·θ(x_j)]，为SVM的核函数；a_i，

a_j，

为拉格朗日系数。得出第n用户SVM的回归模型：

K(x_i,x_j)＝exp(-g|x_i-x_j|²)

式中，核函数采用径向基函，g为核函数的参数。

针对上述的分类结果，将第n用户的每类负荷数据及相应的关键影响因素数据构建训练样本，针对每类负荷数据的变化规律和特征，选取匹配的预测模型完成对该日负荷的预测。支持向量机的核函数选用RBF核函数，此核函数下需要确定参数有核函数参数、不敏感系数和惩罚参数。不同的参数组合，匹配不同类型的负荷，具有更强的建模针对性。因此通过遗传算法对六类历史数据集分别进行寻优和计算，可得到匹配最优的参数组合表：

表5最优的参数组合

第n用户的待预测日的关键因素日特征向量x′(n)输入到上述支持向量机f(x)(n)模型中，得出该用户在待预测日的负荷曲线F′_yd(n)。

重复上述步骤,计算得出所有用户在待预测日的负荷曲线数据集{F′_yd(1)F′_yd(2)…F′_yd(n)}，将其预测结果进行累加起来，即求得目标热网的系统总负荷：

综上所述，本发明通过采集的热网中热用户历史负荷数据、天气因素、日类型数据，利用大数据技术(聚类分析、灰色关联分析、决策树算法)对历史负荷数据、因素数据、日类型进行预处理；把握每个热用户负荷与天气因素、日类型的密切关系；并根据不同用户特性构建预测模型，对某用户的未来日负荷曲线进行独立预测，最后累加所有用户的预测结果，得到系统的预测负荷；本发明利用大数据技术，捕捉了每个用户的用汽规律，弥补了传统的数据统计方法对数量级较大的数据量分析方面的不足，解决了工业用汽系统从热网负荷总量上进行分析导致的预测失准问题，提高了工业热网系统短期总负荷预测准确度，最终为工业热网的运行优化和精准调控做参考。

采用数据清洗算法处理数据传输与采集过程中产生的异常数据，提升负荷预测的精度，有利于运行人员对供热系统的用户用汽情况进行更加科学的统计；基于大数据技术的工业热网负荷实时滚动预测，使运行人员实时掌握当前系统的用汽水平，并辅助分析当前工况条件下供热系统运行情况，能及时做好工业热网的运行优化和精准调控，提升供热企业精细化运行管理水平。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于大数据的工业蒸汽热网短期负荷预测方法，其特征在于，包括：

1)采集数据源；数据清洗、数据转换；

2)数据预处理：针对每个独立用户，首先，利用凝聚层次聚类分析算法对其负荷曲线进行分类；然后，利用灰色关联分析方法选取影响其负荷走势的关键影响因素；最后，利用CART决策树建立分类规则；

3)负荷预测模型建立：根据第n个用户的负荷曲线特性构建预测模型，并预测该用户的待预测日负荷曲线；

4)重复步骤2)-3)，将所有用户的负荷预测结果累加，得到热网系统负荷。

2.如权利要求1所述的基于大数据的工业蒸汽热网短期负荷预测方法，其特征在于，所述的步骤1)中采集数据源的方法为：

将各数据库中所需要的历史负荷数据集和预测数据打包成数据视图，并将上述数据视图与所有数据库对接，以将所有所需要的历史负荷数据集和预测数据存储到相应的目标数据表中。

3.如权利要求1所述的基于大数据的工业蒸汽热网短期负荷预测方法，其特征在于，所述的步骤1)中数据清洗、数据转换的方法为：

负荷会受到不同因素的影响，在对负荷异常的分析时需要考虑噪声点和缺失值的影响；

设N个用户历史负荷数据为F＝[F_y(1)F_y(2)…F_y(n)…F_y(N)]，其中，F_y(n)＝[F_y1(n)F_y2(n)…F_yd(n)]，F_yd(n)构成一条负荷曲线，n为第n个用户，d为第d天，并且1≤n≤N，d≥1；

表示的是t时刻的脉冲函数；

式中：X_i表示当前时刻的负荷，i表示时间点取值为1到24，a₁和a₂分别表示前后两天对应时刻和当前时刻前后两个时间点负荷的加权系数；

对于噪声点数据，利用负荷序列的前后波动性关系，通过计算负荷间的距离来检测异常；取时间序列中到中心点s最近的k个负荷的距离表示负荷的密度区域，则密度越大的点区域半径越小，取负荷点到中心点的距离d与密度区域半径r的较大者作为中心点s的可达距离；则负荷的异常程度可以用负荷点到中心点s的相对距离来表示，通过设定阈值可得到数据异常的负荷点，阈值的计算方式为：

式中，r_d表示以s为中心点的密度区域的可达距离，d_s表示以s为中心点的所有距离的均值，m表示该时间序列中的所有负荷点；

对于异常的噪声点数据要进行修复，修复方法采用当前负荷相对前一天时间序列的变化思路进行处理：

4.如权利要求1所述的基于大数据的工业蒸汽热网短期负荷预测方法，其特征在于，所述步骤2)中，针对每个独立用户，利用凝聚层次聚类分析算法对其负荷曲线进行分类的方法为：

设将第n个用户的d(d≥1)组F_yd(n)负荷曲线组成初始簇C₁～C_d，F_yd(n)为单独一个负荷样本簇C_i(1≤i≤d)；

取负荷样本簇C_i(1≤i≤d)与负荷样本簇C_j(1≤j≤d)，计算两者之间的平均距离：

其中，x_i，x_j分别为负荷样本簇C_i，C_j中的负荷点，x_i＝{x_i1，x_i2，......x_in}，x_j＝{x_j1，x_j2，......x_jn}，二者间的欧式距离d(x_i-x_j)为：

设定曲线间的距离阈值为D，在负荷样本S中有N条负荷曲线序列{L₁，L₂，......，L_N}，任意取出曲线L_N并计算与其他曲线间的欧式距离，合并最近两个簇，合并的过程反复进行直到类别总数达到预设的数目K。

5.如权利要求4所述的基于大数据的工业蒸汽热网短期负荷预测方法，其特征在于，所述步骤2)中，针对每个独立用户，利用灰色关联分析方法选取影响其负荷走势的关键影响因素的方法为：

针对第n个用户的历史负荷数据集，采用灰色关联分析方法计算每天的天气因素、日类型与负荷曲线之间的灰色关联度；

将历史负荷数据、天气因素以及日类型作为分析样本，设定负荷数据为母序列、天气因素和日类型为子序列；采用灰色关联分析算法分析各个子序列与母序列的相关性，最后将同一子序列的所有灰色关联度求均值即可得到各个影响因素的灰色关联度；

所述影响因素与负荷曲线之间的灰色关联度的计算方法为：

确定反映系统行为特征的参考序列和影响系统行为的比较序列：即历史负荷数据为参考序列，天气因素和日类型组成的历史影响因素数据则称比较序列；将第n个用户的参考序列F_y(n)＝[F_y1(n)F_y2(n)…F_yd(n)]表示成X₀＝[X₀(1)，X₀(2)，......，X₀(d)](d＝n)，将比较序列D_x(n)＝[D_x1(n)D_x2(n)…D_xd(n)]表示成X_i＝[X_i(1)，X_i(2)，......，X_i(d)](i＝1，2，...，k)；其中k为变量个数；

对历史负荷数据和历史因素数据进行无量纲化处理；

对历史负荷数据进行标准化：