CN113780343A

CN113780343A - 一种基于lttb降维的双边斜率dtw距离负荷谱聚类方法

Info

Publication number: CN113780343A
Application number: CN202110897035.XA
Authority: CN
Inventors: 黄冬梅; 葛书阳; 胡安铎; 孙园; 孙锦中; 时帅
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai Electric Power University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-12-10
Anticipated expiration: 2041-08-05
Also published as: CN113780343B

Abstract

本发明提供一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，其特征在于，包括如下步骤：步骤S1，采集电力负荷数据；步骤S2，对电力负荷数据进行预处理，得到预处理数据；步骤S3，利用预处理数据，通过LTTB降维得到低维度数据；步骤S4，通过每个数据点与x轴正负方向的角度θ得到低维度数据的双边斜率距离；步骤S5，将双边斜率距离作为DTW的相似性度量；步骤S6，设定聚类数目，对处理后的负荷数据集进行双边斜率DTW谱聚类算法计算，得到每个电力负荷数据对应的聚类标签并进行输出。该方法减少了数据存储空间，节约了模型训练的计算时间，提高了聚类的识别效果。

Description

一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法

技术领域

本发明涉及一种基于LTTB降维的双边斜率DTW距离负荷谱聚类算法。

背景技术

随着社会经济发展和智能电网的不断建设，电力负荷的数据量不断增长、类型日益多样化。大量电力负荷数据中蕴含着差异化的用电信息。电力系统负荷聚类是按照负荷之间的相似度，将相似度大的负荷归为同一类，从而得到不同类别的电力使用情况和典型的用电模式，进而有效识别不同的用电规律和负荷特性。电力负荷聚类可以应用于电价划分与制定、负荷预测、负荷模型建立、电能质量检测等多种场合，对电网负荷管理水平的提高有着重要意义。

海量的电力负荷数据处理工作需要通过降维方法进行优化，减少计算量。但传统的PAA和PCA降维方法由于在降维过程中容易丢失电力负荷数据的变化信息和外形特征，因此不能更好反映电力负荷曲线的变化特征。

传统的DTW(动态时间规整)方法虽然可以保留电力负荷数据的原始变化特征，但在计算最小累计距离进行相似度识别过程中，由于电力负荷数据是高维度数据，传统的DTW方法也没有采用降维方法，因此传统的DTW方法计算量过大，且在某些数据集上聚类效果不佳。

发明内容

为解决上述问题，提供一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，本发明采用了如下技术方案：

本发明提供了一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，其特征在于，包括如下步骤：步骤S1，采集电力负荷数据；步骤S2，对电力负荷数据进行预处理，得到预处理数据；步骤S3，利用预处理数据，通过LTTB降维得到低维度数据；步骤S4，通过每个数据点与x轴正负方向的角度θ得到低维度数据的双边斜率距离；步骤S5，将双边斜率距离作为DTW的相似性度量；步骤S6，设定聚类数目，对双边斜率距离矩阵进行谱聚类算法计算，得到每个电力负荷数据对应的聚类标签并进行输出。

本发明提供的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，还可以具有这样的技术特征，其中，步骤S2包括以下步骤：步骤S2-1，对电力负荷数据中的缺失值，以多项式差值法进行补全形成补全数据；步骤S2-2，对补全数据进行归一化处理，归一化处理的公式为：

式中，x_i为所述电力负荷数据，

为采用归一化处理后的第i点数据，x_imin为所述预处理的电力负荷数据序列的最小值，x_imax为所述预处理的电力负荷数据序列的最大值。

本发明提供的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，还可以具有这样的技术特征，其中，步骤S3包括以下步骤：步骤S3-1，将预处理数据分割成相等数量的分段作为阈值，其中第一个分段只包含第一个数据点，最后一个分段只包含最后一个数据点；步骤S3-2，第一个分段中的点作为该分段的选定点；步骤S3-3，对于除第一个分段和最后一个分段之外的中间每个分段，定义中间每个分段中的点集为V＝{v₁,v₂,…,v_m}(点集V一共含有m个点)。计算点集中的平均点作为虚拟固定点V_virtual，计算公式为：

式中，v_j为所述点集V中的第j个点；步骤S3-4，计算中间每个分段中所有点与上一个分段中的选定点和虚拟固定点V_virtual形成的三角形的面积，并对中间每个分段中的每个点进行排序，选择分段内所述三角形的面积最大的点作为该分段的所述选定点；步骤S3-5，最后一个所述分段中的点作为该分段的选定点；步骤S3-6，定义归一化后的数据为x＝(x₁,x₂,…,x_m)，设置阈值为μ，则经过LTTB降维后输出μ维度的低维度数据，表达式为：x＝(x’₁,x₂',…,x'_μ)，式中，x'₁＝x₁,x'_μ＝x_m。

本发明提供的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，还可以具有这样的技术特征，其中，步骤S4包括以下步骤：步骤S4-1，输入低维度数据，将低维度数据求差值得到角度θ，并默认正弦值为角度θ的斜率，求得角度θ的右斜率值sinθ，将输入降维后的低维度数据转化为右斜率作为特征序列，特征序列的表达式为：TS₁＝((x'₁,sinθ₁),(x'₂,sinθ₂),…,(x'_μ,0))；步骤S4-2，将左斜率进行序列处理，得到同时带有左右斜率的负荷时间序列，该表达式为：TS₁＝((x'₁,sinθ₁，0),(x'₂,sinθ₂，sinθ₁),…,(x'_μ,0,sinθ_μ-1))；步骤S4-3，将欧氏距离修正为带双边斜率的距离，其表达式为：

式中，d_eu表示的是欧氏距离。

本发明提供的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，还可以具有这样的技术特征，其中，步骤S5包括以下步骤：步骤S5-1，构建m×n的网格，网格中的元素(i,j)表示为x_i和y_j两个点之间的双边斜率距离d(x_i,y_j)；步骤S5-2，得到网格的最短路径，并使得累积距离最小，将点集P定义为：P＝{p₁,p₂,…,p_i,…p_k}，式中，p_i表示第i元素的坐标，k表示路径元素的个数，累积距离的表达式为：

式中，TS₁和TS₂表示两条电力负荷时间序列；步骤S5-3，将累计距离作为DTW相似性度量的结果，来衡量两条时间序列的相似性。

本发明提供的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，还可以具有这样的技术特征，其中，步骤S6包括以下步骤：步骤S6-1，定义聚类个数为c和数据集为N。根据负荷曲线两两之间的双边斜率DTW距离获得N×N的距离矩阵；步骤S6-2，用高斯核函数对距离矩阵全连接，得到相似性矩阵，并根据相似性矩阵计算出标准拉普拉斯矩阵L；步骤S6-3，对标准拉普拉斯矩阵L进行特征分解，得到最小聚类个数c个特征值对应的特征向量f，组合成(N×c)的特征矩阵F，对特征矩阵F进行K-means聚类得到聚类标签并进行输出。

发明作用与效果

根据本发明的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，由于在对电力负荷数据进行预处理过程中采用了降维方法，用较少的变量因子代表原始数据的各类信息，提升了数据处理速度，能够处理大数据和高维度的情况带来的计算资源消耗过大的情况，因此减少了数据存储空间，节约了模型训练的计算时间，提高了聚类的准确度。

其次，还由于在对电力负荷数据进行预处理过程中采用了LTTB计算方法，充分考虑了原始数据的外形特征，保留了原始数据的变化信息，因此相比于比PAA和PCA的其他降维方法聚类效果好，在形态还原度和曲线细节还原程度上效果好。

最后，还由于在计算最小累计距离来识别数据相似度的过程中使用了双边斜率距离计算方法，提高了聚类识别效果，相比于其他聚类方法，聚类效果更优。

附图说明

图1是本发明实施例中的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类算法的流程图；

图2是本发明实施例中三种降维方法的聚类效果对比图；

图3是本发明实施例中LTTB+K-means聚类方法效果图；

图4是本发明实施例中LTTB+双边斜率DTW谱聚类方法效果图；

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法作具体阐述。

<实施例>

图1是本发明实施例的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类算法的流程图。

如图1所示，本实施例提供一种基于LTTB降维的双边斜率DTW距离负荷谱聚类算法，用于对采集的电力负荷原始数据进行聚类分析。

步骤S1，采集电力负荷数据。

步骤S2，对电力负荷数据进行预处理，得到预处理数据。本实施例中，步骤S2具体包括步骤S2-1至步骤S2-2：

步骤S2-1，对所述电力负荷数据中的个别缺失值，以多项式差值法进行补全形成补全数据。

步骤S2-2，对补全数据进行归一化处理，归一化处理的公式为：

式中，x_i为电力负荷数据，

为采用归一化处理后的第i点数据，x_imin为预处理的电力负荷数据序列的最小值，x_imax为预处理的电力负荷数据序列的最大值。归一化处理的目的是将电力负荷特性数据压缩在区间[0,1]中。

步骤S3，利用预处理数据，通过LTTB降维得到低维度数据。

本实施例中，步骤S3具体包括步骤S3-1至步骤S3-6：

步骤S3-1，将预处理数据分割成相等数量的分段作为阈值，其中第一个分段只包含第一个数据点，最后一个分段只包含最后一个数据点；

步骤S3-2，第一个分段中的点作为该分段的选定点；

步骤S3-3，对于除第一个分段和最后一个分段之外的中间每个分段，定义中间每个分段中的点集为V＝{v₁,v₂,…,v_m}(点集V一共含有m个点)。计算点集中的平均点作为虚拟固定点V_virtual，计算公式为：

式中，v_j为所述点集V中的第j个点；

步骤S3-4，计算中间每个分段中所有点与上一个分段中的选定点和虚拟固定点V_virtual形成的三角形的面积，并对中间每个分段中的每个点进行排序，选择分段内所述三角形的面积最大的点作为该分段的所述选定点；

步骤S3-5，最后一个所述分段中的点作为该分段的选定点；

步骤S3-6，定义归一化后的数据为x＝(x₁,x₂,…,x_m)，设置阈值为μ，则经过LTTB降维后输出μ维度的低维度数据，表达式为：

x＝(x’₁,x₂',…,x'_μ)

式中，x'₁＝x₁,x'_μ＝x_m。

步骤S4，利用角度得到双边斜率距离。本实施例中，步骤S4具体包括步骤S4-1至步骤S4-3：

步骤S4-1，输入低维度数据，将低维度数据求差值得到角度θ，并默认正弦值为角度θ的斜率，求得角度θ的右斜率值sinθ，将输入降维后的低维度数据转化为右斜率作为特征序列，特征序列的表达式为：

TS₁＝((x'₁,sinθ₁),(x'₂,sinθ₂),…,(x'_μ,0))；

步骤S4-2，将左斜率进行序列处理，得到同时带有左右斜率的负荷时间序列，该表达式为：

TS₁＝((x'₁,sinθ₁，0),(x'₂,sinθ₂，sinθ₁),…,(x'_μ,0,sinθ_μ-1))；

步骤S4-3，将欧氏距离修正为带双边斜率的距离，其表达式为：

式中，d_eu表示的是欧氏距离。

步骤S5，使用双边斜率距离作为DTW的相似性度量。本实施例中，步骤S5具体包括步骤S5-1至步骤S5-3：

步骤S5-1，构建m×n的网格，网格中的元素(i,j)表示为i和j两个点之间的双边斜率距离d(x_i,y_j)；

步骤S5-2，得到网格的最短路径，并使得累积距离最小，将点集P定义为：P＝{p₁,p₂,…,p_i,…p_k}，p_i表示第i元素的坐标，k表示路径元素的个数，累积距离的表达式为：

式中，TS₁和TS₂表示两条电力负荷时间序列；

步骤S5-3，将累计距离作为DTW相似性度量的结果，来衡量两条时间序列的相似性。

步骤S6，设定聚类数目进行谱聚类，输出最后的聚类标签。本实施例中，步骤S6具体包括步骤S6-1至步骤S6-3：

步骤S6-1，定义聚类个数为c和数据集为N。根据负荷曲线两两之间的双边斜率DTW距离获得N×N的距离矩阵；

步骤S6-2，用高斯核函数对距离矩阵全连接，得到相似性矩阵，并根据相似性矩阵计算出标准拉普拉斯矩阵L；

步骤S6-3，对标准拉普拉斯矩阵L进行特征分解，得到最小聚类个数c个特征值对应的特征向量f，组合成(N×c)的特征矩阵F，对特征矩阵F进行K-means聚类得到聚类标签并进行输出。

现利用聚类效果指标轮廓系数SIL和聚类效果指标Q对本实施例中的基于LTTB降维的双边斜率DTW距离负荷谱聚类方法的聚类效果进行评估。

其中聚类效果指标轮廓系数SIL表达式为：

式中，b_i为第i个样本到它非同类簇的所有样本的平均距离的最小值，反映非同类簇之间的离散度；a_i表示第i个样本所在簇的平均距离，反映同类簇内的紧密度。

所有样本的平均轮廓系数I_SILmean定义为：

式中，I_SILmean用于评估聚类的总体质量，n表示电力负荷曲线样本个数。

聚类效果指标Q表达式为：

式中，

为曲线和相应聚类中心之间的平均距离，

为聚类中心的平均距离，

为聚类中心之间的平均相关系数，

为曲线和相应聚类中心之间的平均相关性，α和β为权重。本实例中权重α和β分别取0.5。

其中I_SILmean越接近于1，说明聚类效果越好；Q指标越小，说明聚类效果越好。

表1各种降维方法的聚类效果对比

降维方法	SIL	Q
			PCA	0.572	0.21
PAA	0.537	0.12
			LTTB	0.576	0.10

由表1所示，采用LTTB降维方法相比于PCA降维方法和PAA降维方法，在聚类有效性指标SIL和Q上来说，聚类效果更好。

图2为本发明实施例中三种降维方法的聚类效果对比图。

时间序列降维需要尽量保留原始曲线的形状特征。如图2所示，LTTB降维方法(即图2中的LTTB Reduction)在形态还原度和曲线细节还原程度上要比PAA方法(即图2中的PAA Reduction)和PCA方法(即图2中的PCA Reduction)好。

表2各种方法的聚类效果对比

聚类方法	SIL	Q
			LTTB+K-means	0.439	0.18
LTTB+谱聚类	0.574	0.21
			LTTB+DTW谱聚类	0.541	0.13
LTTB+双边斜率DTW谱聚类	0.576	0.10

由表2所示，本实施例中采用的LTTB降维的双边斜率DTW距离负荷谱聚类方法要比其他三种方法聚类效果好。

图3为本发明实施例中LTTB+K-means聚类方法效果图，图4为本发明实施例中LTTB+双边斜率DTW谱聚类方法效果图。

如图3和图4所示，第一类为单峰，第二类为负荷突变的情况，第三类为双峰，第四类为避峰型，第五类为多峰波动型。图3LTTB+K-means聚类方法错把相似的图形分成不同的类1和类5，而在类别2和4中，错把不同类的图形分为了同一类，聚类质量较差。图4本方法基本上能够区分形态各异的五个类别，聚类质量较优，且指标也较优。

表3谱聚类方法使用时间对比

使用方法	时间(/s)
		双边斜率DTW谱聚类	7222
LTTB+双边斜率DTW谱聚类	562

由表3所示，使用LTTB后聚类的间接聚类方法与不降维的直接聚类方法相比，极大减小了相似性矩阵计算所消耗的时间。因此可以说明，使用降维手段的间接聚类方法，能够处理大数据和高维度的情况带来的计算资源消耗过大的情况。

实施例作用与效果

根据本实施例提供的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，由于在对电力负荷数据进行预处理过程中采用了降维方法，用较少的变量因子代表原始数据的各类信息，提升了数据处理速度，能够处理大数据和高维度的情况带来的计算资源消耗过大的情况，因此减少了数据存储空间，节约了模型训练的计算时间，提高了聚类的准确度。

最后，还由于在计算最小累计距离来识别数据相似度的过程中使用了双边斜率DTW距离计算方法，提高了聚类识别效果，相比于其他的谱聚类方法的聚类效果要好，聚类效果更优。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，其特征在于，包括如下步骤：

步骤S1，采集电力负荷数据；

步骤S2，对所述电力负荷数据进行预处理，得到预处理数据；

步骤S3，利用所述预处理数据，通过LTTB降维得到低维度数据；

步骤S4，通过每个数据点与x轴正负方向的角度θ得到所述低维度数据的双边斜率距离；

步骤S5，将所述双边斜率距离作为DTW的相似性度量；

步骤S6，设定聚类数目，对所述处理后的负荷数据集进行双边斜率DTW谱聚类算法计算，得到每个所述电力负荷数据对应的聚类标签并进行输出。

2.根据权利要求1所述的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，其特征在于：

其中，所述步骤S2包括以下步骤：

步骤S2-1，对所述电力负荷数据中的缺失值，以多项式差值法进行补全形成补全数据；

步骤S2-2，对所述补全数据进行归一化处理，所述归一化处理的公式为：

式中，x_i为所述电力负荷数据，

3.根据权利要求1所述的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，其特征在于：

其中，所述步骤S3包括以下步骤：

步骤S3-1,将所述预处理数据分割成相等数量的分段作为阈值，其中第一个所述分段只包含第一个数据点，最后一个所述分段只包含最后一个数据点；

步骤S3-2，第一个所述分段中的点作为该分段的选定点；

步骤S3-3，对于除第一个所述分段和最后一个所述分段之外的中间每个所述分段，定义中间每个所述分段中的点集为V＝{v₁,v₂,...,v_m}，计算所述点集中的平均点作为虚拟固定点V_virtual，计算公式为：

式中，v_j为所述点集V中的第j个点；

步骤S3-4，计算中间每个所述分段中所有点与上一个所述分段中的所述选定点和所述虚拟固定点V_virtual形成的三角形的面积，并对中间每个所述分段中的每个点进行排序，选择所述分段内所述三角形的面积最大的点作为该分段的所述选定点；

步骤S3-5，最后一个所述分段中的点作为该分段的选定点；

步骤S3-6，定义归一化后的数据为x＝(x₁,x₂,…,x_m)，设置阈值为μ，则经过LTTB降维后输出μ维度的所述低维度数据，表达式为：

x＝(x′₁，x′₂,…,x′_μ)

式中，x′₁＝x₁,x′_μ＝x_m。

4.根据权利要求1所述的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，其特征在于：

其中，所述步骤S4包括以下步骤：

步骤S4-1，输入所述低维度数据，将所述低维度数据求差值得到所述角度θ，并默认正弦值为所述角度θ的斜率，求得所述角度θ的右斜率值sinθ，将输入降维后的所述低维度数据转化为右斜率作为特征序列，所述特征序列的表达式为：

TS₁＝((x′₁,sinθ₁),(x′₂,sinθ₂),…,(x′_μ,0))；

步骤S4-2,将左斜率进行序列处理，得到同时带有左右斜率的负荷时间序列，该表达式为：

TS₁＝((x′₁,sinθ₁，0),(x′₂,sinθ₂，sinθ₁),…,(x′_μ,0,sinθ_μ-1))；

式中，d_eu表示的是所述欧氏距离。

5.根据权利要求1所述的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，其特征在于：

其中，所述步骤S5包括以下步骤：

步骤S5-1,构建m×n的网格，所述网格中的元素(i,j)表示为x_i和y_j两个点之间的双边斜率距离d(x_i,y_j)；

步骤S5-2，得到所述网格的最短路径，并使得累积距离最小，

将所述点集P定义为：

P＝{p₁,p₂,…,p_i,…p_k}

式中，p_i表示第i元素的坐标，k表示路径元素的个数，

所述累积距离的表达式为：

式中，TS₁和TS₂表示两条电力负荷时间序列；

步骤S5-3，将所述累计距离作为DTW相似性度量的结果，来衡量两条时间序列的相似性。

6.根据权利要求1所述的一种基于LTTB降维的双边斜率DTW距离负荷谱聚类方法，其特征在于：

其中，所述步骤S6包括以下步骤：

步骤S6-2,用高斯核函数对所述距离矩阵全连接，得到相似性矩阵，并根据所述相似性矩阵计算出标准拉普拉斯矩阵L；

步骤S6-3，对所述标准拉普拉斯矩阵L进行特征分解，得到最小所述聚类个数c个特征值对应的特征向量f，组合成(N×c)的特征矩阵F,对所述特征矩阵F进行K-means聚类得到所述聚类标签并进行输出。