CN115796378A

CN115796378A - 一种基于分段线性近似的用户负荷曲线相似性度量方法

Info

Publication number: CN115796378A
Application number: CN202211606219.7A
Authority: CN
Inventors: 夏小芳; 杨静媛; 曾巧玲; 赖锦淘; 贾倩楠; 崔江涛
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-03-14

Abstract

本发明涉及新型电力系统技术，具体地说是一种基于分段线性近似的用户负荷曲线相似性度量方法；通过对用户日负荷曲线电量消耗数据进行分段线性近似，将每两个用户的分段断点按照先后顺序进行排序，并对其日负荷曲线进行重新分段；对重新分段后的每个线段用斜率、电量消耗均值及结束时刻三个特征进行重新表征；通过计算不同分段内的斜率/用电总量之差的绝对值之和来评估不同用户日负荷曲线的形态/数值差异度；通过对形态差异度和数值差异度进行加权平均来计算用户日负荷曲线总差异度；通过构建所有用户的总差异度矩阵来计算任意两个用户之间的日负荷曲线相似度；本发明克服了现有用户负荷曲线相似性度量方法对极值和噪声的敏感性。

Description

一种基于分段线性近似的用户负荷曲线相似性度量方法

技术领域

本发明涉及新型电力系统技术，具体地说是一种基于分段线性近似的用户负荷曲线相似性度量方法。

背景技术

在新型电力系统中部署了大量的智能电表，这些智能电表周期性地上传用户的细粒度用电数据；根据这些用电数据绘制而成的用户负荷曲线，准确地反映了用户的用电行为习惯；通过对用户的负荷曲线的相似度进行衡量，并进一步聚类，能够帮助电网公司更加了解用户的用电行为模式，从而制定更加合理的运行策略和营销策略，保障电力系统安全稳定高效运行。

用户负荷曲线相似度度量是很多电力系统相关应用的关键步骤；如在窃电检测应用中，通过对用户负荷曲线的相似度进行度量，从而对用电习惯较为相近的用户进行分组监测，可以有效提高窃电检测效率和精度，从而减少窃电损失，并保障电力系统安全稳定运行；在负荷预测应用中，通过对用户负荷曲线相似度进行衡量，从而对用电习惯较为相近的用户构建基于联邦学习的负荷预测模型，可以在保护用户隐私的情况下对用户的用电情况进行预测，帮助电力供应商制定满足需求相应的营销策略，最小化运行成本。

对于用户负荷曲线相似度度量，现有技术的方案包括：欧氏距离、动态时间规整(DTW)、以及符号距聚合近似方法等；其中，采用欧式距离的实质是通过衡量向量之间的距离来判断相似程度，距离越近就代表越相似，但这种几何平均距离的相似性，不能充分保证曲线的形态或轮廓的相似性，且极易受极端值及噪声的影响；而DWT则是通过动态规划的思想建立并计算二维累积代价矩阵来得到数据点距离值之和的最小值，以此作为序列间的距离值，衡量曲线的相似度，但该方法时间复杂度较大，难以用于长度较大或者在实时场景下的时间序列；而符号距聚合近似方法将时间序列转换为符号的字符串，需要根据趋势符号是否相同决定相似性，但这种方法容易造成子序列段中其他信息的丢失(例如趋势信息、方差信息、极值信息等)，尤其当数据的压缩比越大，其丢失的信息就会越多。

发明内容

本发明的目的在于：针对目前现有相似性度量方法计算复杂度高、准确率低、异受极端值影响等问题，提供了一种基于分段线性近似的用户负荷曲线相似性度量方法，对负荷曲线进行线性近似分段，并对分段后的曲线从形态相似性和值相似性两个角度来衡量用户负荷曲线的相似度，提升相似性度量的准确性、稳定性，同时简化了相似性计算方法，提高了计算效率。

本发明的技术方案如下：

1一种基于分段线性近似的用户负荷曲线相似性度量方法，标记U＝{u₁,u₂,...,u_n}为n个用户(n≥2，且n为整数)，为每个用户安装一个智能电表，周期性地上传用户电量消耗数据。标记T为用户每天上传的数据个数，标记p_i,t为用户u_i的智能电表在某天第t个数据汇报周期上报的电量消耗数据，其中t为正整数。标记P_i＝{p_i,1,p_i,2,...,p_i,T}用户u_i的智能电表在某天上报的电量消耗时间序列。标记K(i)为给定的对用户u_i的日负荷曲线时间序列P_i＝{p_i,1,p_i,2,...,p_i,T}的分段段数。

进一步地，包括如下步骤：

步骤S1：对用户u_i的日负荷曲线时间序列P_i＝{p_i,1,p_i,2,...,p_i,T}按照给定段数K(i)进行分段线性近似；

步骤S2：对每两个用户u_i，u_j(其中u_i∈U，u_j∈U且u_i≠u_j)的日负荷曲线分段线性近似断点按照先后顺序进行排序，并对其日负荷曲线重新分段，使得用户u_i和用户u_j对应的分段长度一致；

步骤S3：对每两个用户u_i，u_j(其中u_i∈U，u_j∈U且u_i≠u_j)重新分段后的日负荷曲线，用斜率、电量消耗均值及断点时刻三个特征重新进行表征；

步骤S4：通过计算不同分段内的斜率/用电总量之差的绝对值之和来评估任意两个用户u_i，u_j的负荷曲线的形态/数值差异度；并通过对用户u_i和用户u_j的负荷曲线的形态差异度和数值差异度进行加权平均来衡量用户的负荷曲线总差异度。

步骤S5：通过任意两个用户u_i、u_j的总差异度构建所有用户的差异度矩阵，并计算任意两个用户之间的日负荷曲线相似度。

进一步地，所述步骤S1，包括：

步骤S11：标记Δ_i＝{δ_i(1),δ_i(2),...,δ_i(K(i)+1)}为断点集合，其中δ_i(1)＝1<δ_i(2)<,...,<δ_i(K(i)+1)＝T。标记a_i,k和b_i,k分别为第k个线性近似线段的斜率和截距，其中1≤k≤K(i)，且k为正整数。

步骤S12：标记r_i,k＝{a_i,kt+b_i,k|t∈{δ_i(k),δ_i(k)+1,...,δ_i(k+1)}}为用户u_i的日负荷曲线的第k个线性近似线段相应时间周期内的电量消耗近似值集合。标记

为用户u_i的日负荷曲线的第k个线性近似线段相应时间周期内的电量消耗真实值集合。

步骤S13：通过最小化电量消耗真实值与近似值的偏差(即集合r_i,k与集合P_i,k中的点之间的偏差)的平方和来确定线性近似线段集合R_i＝{r_i,k|k∈{1,...,K(i)}}，即

进一步地，所述步骤S2，包括：

步骤S21：将用户u_i和用户u_j的日负荷曲线通过步骤S1后得到的线性近似线段集合分别表示为R_i＝{r_i,1,r_i,2,...,r_i,K(i)}和R_j＝{r_j,1,r_j,2,...,r_j,K(j)}，其断点集合分别表示为Δ_i＝{δ_i(1),δ_i(2),...,δ_i(K(i)+1)}和Δ_j＝{δ_j(1),δ_j(2),...,δ_j(K(j)+1)}，其中δ_i(1)＝δ_j(1)＝1，δ_i(K(i)+1)＝δ_j(K(j)+1)＝T。

步骤S22：对Δ_i和Δ_j中的断点按时间先后顺序进行排列，得到Δ_ij＝{δ_ij(1),δ_ij(2),...,δ_ij(M+1)}，其中δ_ij(1)＝1，δ_ij(M+1)＝T，且M≤K(i)+K(j)-1，其中“＝”在当δ_i(1)＝δ_j(1)≠δ_i(2)≠δ_j(2)≠...≠δ_i(K(i))≠δ_i(K(i))≠δ_i(K(i)+1)＝δ_j(K(j)+1)时取得。

步骤S23：将用户u_i和用户u_j的负荷曲线重新根据Δ中的断点分为M段，即R′_i＝{r′_i,1,r′_i,2,...,r′_i,M}，R′_j＝{r′_j,1,r′_j,2,...,r′_j,M}。标记a′_i,m和b′_i,m分别为用户u_i的日负荷曲线重新分段后的第m个线性近似线段的斜率和截距，其中1≤m≤M，且m为正整数。标记r′_i,m＝{a′_i,mt+b′_i,m|t∈{δ_ij(m),δ_ij(m)+1,...,δ_ij(m+1)}}。若δ_i(k)≤δ_ij(m)<δ_ij(m+1)≤δ_i(k+1)，则有a′_i,m＝a_i,k。同理可得a′_j,m。

进一步地，所述步骤S3，包括：

步骤S22：对Δ_i和Δ_j中的断点按时间先后顺序进行排列，得到Δ_ij＝{δ_ij(1),δ_ij(2),...,δ_ij(M+1)}，其中δ_ij(1)＝1，δ_ij(M+1)＝T，且M≤K(i)+K(j)-1，其中“＝”在当δ_i(1)＝δ_j(1)≠δ_i(2)≠δ_j(2)≠…≠δ_i(K(i))≠δ_i(K(i))≠δ_i(K(i)+1)＝δ_j(K(j)+1)时取得。

进一步地，所述步骤S4，包括：

步骤S41：标记d_s(i,j)为用户u_i和用户u_j的日负荷曲线形态差异度。则d_s(i,j)计算如下：

步骤S42：标记d_v(i,j)为用户u_i和用户u_j的日负荷曲线数值差异度。则d_v(i,j)计算如下：

步骤S43：标记d(i,j)为用户u_i和用户u_j的日负荷曲线总差异度。则d(i,j)计算如下：

d(i,j)＝αd_s(i,j)+(1-α)d_v(i,j)，

其中α∈(0,1)为形态差异度d_s(i,j)和数值差异度d_v(i,j)之间的权重因子。

进一步地，所述步骤S5，包括：

步骤S51：标记D为U中所有用户的差异度矩阵，则矩阵D构建如下：

步骤S52：标记D_max和D_min分别为矩阵D的最大值和最小值。标记θ(i,j)为用户u_i和用户u_j的日负荷曲线相似度。则θ(i,j)计算如下：

与现有的技术相比本发明的有益效果是：

一种基于分段线性近似的用户负荷曲线相似性度量方法，包括：步骤S1：对获取的每个用户的负荷曲线进行分段线性近似处理；步骤S2：对每两个用户的分段断点按先后顺序进行排序，并对其日负荷曲线重新分段；步骤S3：对每两个用户重新分段后的日负荷曲线进行重新表征；步骤S4：计算每两个用户重新分段后的日负荷曲线的形态差异度和数值差异度，并进一步计算总差异度；步骤S5：构建所有用户的差异度矩阵，并计算任意两个用户之间的日负荷曲线相似度；其克服了现有用户负荷曲线相似性度量方法对极值和噪声的敏感性，提高了算法准确性、鲁棒性及计算效率。

附图说明

图1为一种基于分段线性近似的用户负荷曲线相似性度量方法的流程图；

图2为用户u₁，用户u₂和用户u₃的日负荷时间序列示例图；

图3为用户u₁，用户u₂和用户u₃的线性分段示例图。

具体实施方式

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

实施例一

对于用户负荷曲线相似度度量，现有技术的方案包括：欧氏距离、动态时间规整(DTW)、以及符号距聚合近似方法等；

其中，采用欧式距离的实质是通过衡量向量之间的距离来判断相似程度，距离越近就代表越相似，但这种几何平均距离的相似性，不能充分保证曲线的形态或轮廓的相似性，且极易受极端值及噪声的影响；

而DWT则是通过动态规划的思想建立并计算二维累积代价矩阵来得到数据点距离值之和的最小值，以此作为序列间的距离值，衡量曲线的相似度，但该方法时间复杂度较大，难以用于长度较大或者在实时场景下的时间序列；

而符号距聚合近似方法将时间序列转换为符号的字符串，需要根据趋势符号是否相同决定相似性，但这种方法容易造成子序列段中其他信息的丢失(例如趋势信息、方差信息、极值信息等)，尤其当数据的压缩比越大，其丢失的信息就会越多。

本实施例针对于上述问题，提出了一种基于分段线性近似的用户负荷曲线相似性度量方法，通过获取不同用户在一段时间内负荷形成的时间序列曲线，针对每个用户的负荷曲线进行分段线性近似，之后对用户负荷曲线重新进行表征，来评估负荷曲线的形态差异度和值差异度，并结合两种差异度来构建曲线整体相似度量公式，减少负荷曲线对极端值和噪声的敏感性，使算法更加稳定，提升了曲线相似性度量的准确度，提高了计算的效率。

请参阅图1，一种基于分段线性近似的用户负荷曲线相似性度量方法，具体包括如下步骤：

步骤S1：如图2所示，假设共3个用户U＝{u₁,u₂,u₃}，其智能电表数据汇报周期为15分钟，即智能电表每日上传数据个数为T＝96，分别获取3个用户的日负荷曲线时间序列P₁＝{35.52,31.97,24.87,21.31,15.99,15.99,21.31,23.09,26.64,39.08,51.51,55.06,39.08,39.08,37.3,60.39,83.48,81.71,72.82,63.94,71.05,60.39,60.39,63.94,69.27,69.27,71.05,62.17,60.39,65.72,63.94,55.06,44.4,49.73,49.73,53.29,49.73,44.4,55.06,53.29,60.39,60.39,51.51,49.73,55.06,55.06,56.84,55.06,53.29,47.96,47.96,46.18,46.18,56.84,42.63,42.63,39.08,44.4,44.4,47.96,55.06,58.61,56.84,60.39,58.61,62.17,67.5,74.6,81.71,78.15,78.15,67.5,60.39,53.29,56.84,53.29,46.18,46.18,44.4,49.73,46.18,49.73,47.96,46.18,35.52,40.85,33.75,33.75,28.42,30.2,31.97,33.75,30.2,33.75,28.42,31.97}；P₂＝{35.25,36.43,39.95,37.6,30.55,28.2,28.2,29.38,42.3,47,51.7,62.28,74.03,66.98,76.38,71.68,66.98,69.33,58.75,59.93,59.93,59.93,52.88,51.7,45.83,37.6,43.48,48.18,48.18,47,41.13,37.6,39.95,41.13,42.3,39.95,35.25,37.6,42.3,39.95,38.78,38.78,41.13,39.95,43.48,42.3,43.48,44.65,43.48,42.3,42.3,39.95,43.48,42.3,43.48,50.53,62.28,70.51,77.56,88.13,91.66,102.23,101.06,96.36,91.66,89.31,91.66,96.36,88.13,81.08,79.91,81.08,76.38,81.08,71.68,72.86,69.33,58.75,49.35,49.35,54.05,56.4,45.83,44.65,42.3,42.3,43.48,41.13,37.6,38.78,41.13,37.6,35.25,37.6,35.25,39.95}；P₃＝{25.86,26.55,27.25,25.16,24.46,23.06,23.06,21.66,25.16,27.95,31.45,35.64,31.45,34.24,34.24,31.45,37.04,39.83,37.04,36.34,36.34,35.64,35.64,37.74,41.23,46.12,41.93,39.13,39.13,39.83,44.72,48.92,41.23,37.04,34.94,32.84,36.34,34.94,40.53,36.34,36.34,37.74,38.43,40.53,41.23,34.24,36.34,34.24,37.04,37.74,35.64,34.94,34.94,39.13,39.13,40.53,43.33,50.31,48.22,48.92,51.71,49.62,47.52,43.33,39.13,40.53,46.12,44.72,44.72,45.42,41.93,38.43,39.83,36.34,33.54,32.84,32.84,30.75,32.15,29.35,27.25,27.25,25.86,24.46,25.16,25.86,24.46,24.46,25.86,25.16,24.46,25.16,24.46,24.46,24.46,26.55}。对上述三个用户的日负荷曲线时间序列都按照给定段数7进行分段线性近似，即K(1)＝K(2)＝K(3)＝7。

步骤S2：对用户集合U＝{u₁,u₂,u₃}中的每两个用户u_i，u_j(其中u_i∈U，u_j∈U且u_i≠u_j)的日负荷曲线分段线性近似断点按照先后顺序进行排序，并对其日负荷曲线重新分段，使得用户u_i和用户u_j对应的分段长度一致；

步骤S3：对每两个用户u_i，u_j(其中u_i∈U，u_j∈U且u_i≠u_j)重新分段后的日负荷曲线，用斜率、电量消耗均值及该分段的结束时刻三个特征重新进行表征；

在本实施例中，具体的，所述步骤S1，包括：

步骤S11：按照给定段数7段进行线性分段，对用户u₁，得出a_1,1＝-4.97，a_1,2＝3.10，a_1,3＝15.60，a_1,4＝-0.69，a_1,5＝2.97，a_1,6＝-8.87，a_1,7＝-1.22；对用户u₂，得出a_2,1＝-1.67，a_2,2＝6.84，a_2,3＝-2.95，a_2,4＝-0.04，a_2,5＝8.35，a_2,6＝-2.62，a_2,7＝-0.56；对用户u₃，得出a_3,1＝0.71，a_3,2＝-4.18，a_3,3＝0.50，a_3,4＝-0.52，a_3,5＝2.37，a_3,6＝-1.05，a_3,7＝0.00。

在本实施例中，具体的，所述步骤S2，包括：

步骤S21：对用户u₁和用户u₂，通过步骤S1后分别得到的线性近似线段集合，即R₁＝{r_1,1,r_1,2,...,r_1,7}，R₂＝{r_2,1,r_2,2,...,r_2,7}，其断点集合分别为Δ₁＝{1,5,15,17,58,71,74,96}，Δ₂＝{1,7,14,26,55,62,85,96}。同理可得，用户u₃的断点集合Δ₃＝{1,32,35,43,53,60,84,96}。

步骤S22：对用户u₁和用户u₂线性分段后的断点集合Δ₁和Δ₂按照时间先后顺序进行排列，得到Δ₁₂＝{1,5,7,14,15,17,26,55,58,62,71,74,85,96}。同理可得，Δ₁₃＝{1,5,15,17,32,35,43,53,58,60,71,74,84,96},和Δ₂₃＝{1,7,14,26,32,35,43,53,55,60,62,84,85,96}。

步骤S23：按照Δ₁₂中的断点，将用户u₁和用户u₂重新分为13段，对用户u₁，根据δ₁(1)≤δ₁₂(1)<δ₁₂(2)≤δ₁(2)，得出a₁′_,1＝a_1,1＝-4.97。同理可得，a₁′_,2＝3.10，a₁′_,3＝3.10，a₁′_,4＝3.10，a₁′_,5＝15.60，a₁′_,6＝-0.69，a₁′_,7＝-0.69，a₁′_,8＝-0.69，a₁′_,9＝2.97，a₁′_,10＝2.97，a₁′_,11＝-8.87，a₁′_,12＝-1.22，a₁′_,13＝-1.22。对用户u₂，得出a₂′_,1＝-1.67，a₂′_,2＝-1.67，a₂′_,3＝6.84，a₂′_,4＝-2.95，a₂′_,5＝-2.95，a₂′_,6＝-2.95，a₂′_,7＝-0.04，a₂′_,8＝8.35，a₂′_,9＝8.35，a₂′_,10＝-2.62，a₂′_,11＝-2.62，a₂′_,12＝-2.62，a₂′_,13＝-0.56。

在本实施例中，具体的，所述步骤S3，包括：

步骤S31：按照Δ₁₂中断点重新分段后，计算用户u₁和用户u₂在每段内的电量消耗平均值。对用户u₁，得出c₁′_,1＝25.93，c₁′_,2＝18.65，c₁′_,3＝39.08，c₁′_,4＝37.30，c₁′_,5＝71.94，c₁′_,6＝68.09，c₁′_,7＝53.90，c₁′_,8＝42.04，c₁′_,9＝51.51，c₁′_,10＝68.68，c₁′_,11＝60.39，c₁′_,12＝47.47，c₁′_,13＝32.46；对用户u₂，得出c₂′_,1＝35.96，c₂′_,2＝28.20，c₂′_,3＝53.38，c₂′_,4＝76.38，c₂′_,5＝69.33，c₂′_,6＝55.10，c₂′_,7＝41.86，c₂′_,8＝61.11，c₂′_,9＝89.9，c₂′_,10＝90.61，c₂′_,11＝79.51，c₂′_,12＝55.87，c₂′_,13＝39.10。

步骤S32：对于用户u_i，其日负荷曲线的第m个线性近似线段用该段的斜率a_i′_,m、电量消耗平均值c_j′_,m、断点时刻δ(m+1)，即三元组(a_i′_,m,c_j′_,m,δ(m+1))，进行重新表征。根据Δ₁₂中的断点，则用户u₁的日负荷曲线时间序列P₁可以重新表征为{(-4.97,25.93,5),(3.10,18.65,7),(3.10,39.08,14),(3.10,37.30,15),(15.60,71.94,17),(-0.69,68.09,26),(-0.69,53.90,55),(-0.69,42.04,58),(2.97,51.51,62),(2.97,68.68,71),(-8.87,60.39,74),(-1.22,47.47,85),(-1.22,32.46,96)}；用户u₂的日负荷曲线时间序列P₂可以重新表征为{(-1.67,35.96,5),(-1.67,28.20,7),(6.84,53.38,14),(-2.95,76.38,15),(-2.95,69.33,17),(-2.95,55.10,26),(-0.04,41.86,55),(8.35,61.11,58),(8.35,89.90,62),(-2.62,90.61,71),(-2.62,79.51,74),(-2.62,55.87,85),(-0.56,39.10,96)}。

同理可得，根据Δ₁₃中的断点，则用户u₁的日负荷曲线时间序列P₁可以重新表征为{(-4.97,25.93,5),(3.10,34.81,15),(15.60,71.94,17),(-0.69,66.07,32),(-0.69,47.95,35),(-0.69,53.51,43),(-0.69,51.33,53),(-0.69,45.12,58),(2.97,46.18,60),(2.97,66.53,71),(-8.87,60.39,74),(-1.22,48.67,84),(-1.22,32.71,96)}；用户u₃的日负荷曲线时间序列P₃可以重新表征为{(0.71,25.86,5),(0.71,28.79,15),(0.71,34.25,17),(0.71,39.97,32),(-4.18,37.74,35),(0.50,36.69,43),(-0.52,36.69,53),(2.37,42.49,58),(2.37,48.57,60),(-1.05,44.98,71),(-1.05,38.20,74),(-1.05,29.63,84),(0.00,25.04,96)}。

根据Δ₂₃中的断点，则用户u₂的日负荷曲线时间序列P₂可以重新表征为{(-1.67,33.74,7),(6.84,53.38,14),(-2.95,59.24,26),(-0.04,44.26,32),(-0.04,41.13,35),(-0.04,39.22,43),(-0.04,42.54,53),(-0.04,42.89,55),(8.35,69.80,60),(8.35,96.95,62),(-2.62,73.92,84),(-2.62,42.30,85),(-0.56,39.10,96)}；用户u₃的日负荷曲线时间序列P₃可以重新表征为{(0.71,25.06,7),(0.71,29.65,14),(0.71,37.39,26),(0.71,42.28,32),(-4.18,37.74,35),(0.50,36.69,43),(-0.52,36.69,53),(2.37,39.13,55),(2.37,46.26,60),(-1.05,50.67,62),(-1.05,36.56,84),(0.00,25.16,85),(0.00,25.03,96)}。

在本实施例中，具体的，所述步骤S4，包括：

步骤S41：根据步骤S32中重新表征后的数据，可得出，用户u₁和用户u₂的日负荷曲线形态差异度d_s(1,2)＝67.66；用户u₁和用户u₃的日负荷曲线形态差异度d_s(1,3)＝46.08；用户u₂和用户u₃的日负荷曲线形态差异度d_s(2,3)＝40.62。

步骤S42：根据步骤S32中重新表征后的数据，可得出，用户u₁和用户u₂的日负荷曲线数值差异度d_v(1,2)＝214.15；用户u₁和用户u₃的日负荷曲线数值差异度d_v(1,3)＝187.02；用户u₂和用户u₃的日负荷曲线数值差异度d_v(2,3)＝210.16。

步骤S43：假设α＝0.4，根据步骤S41和步骤S42中计算的形态差异度和数值差异度，可得出，用户u₁和用户u₂的日负荷曲线总差异度d(1,2)＝155.55；用户u₁和用户u₃的日负荷曲线总差异度d(1,3)＝130.65；用户u₂和用户u₃的日负荷曲线总差异度d(2,3)＝142.34。

在本实施例中，具体的，所述步骤S5，包括：

步骤S51：根据步骤43中计算出的总差异度值，构建用户u₁，用户u₂和用户u₃的差异度矩阵，可得出：

步骤S52：根据步骤51中所有用户的差异度矩阵D，计算每两个用户的日负荷曲线相似度，可得出，用户u₁和用户u₂的日负荷曲线相似度θ(1,2)＝0；用户u₁和用户u₃的日负荷曲线相似度θ(1,3)＝0.16；用户u₂和用户u₃的日负荷曲线相似度θ(2,3)＝0.08。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

提供本背景技术部分是为了大体上呈现本发明的上下文，当前所署名的发明人的工作、在本背景技术部分中所描述的程度上的工作以及本部分描述在申请时尚不构成现有技术的方面，既非明示地也非暗示地被承认是本发明的现有技术。

Claims

1.一种基于分段线性近似的用户负荷曲线相似性度量方法，其特征在于，标记U＝{u₁,u₂,...,u_n}为n个用户，其中：n≥2，且n为整数；为每个用户安装一个智能电表，周期性地上传用户电量消耗数据；标记T为用户每天上传的数据个数，标记p_i,t为用户u_i的智能电表在某天第t个数据汇报周期上报的电量消耗数据，其中t为正整数；标记P_i＝{p_i,1,p_i,2,...,p_i,T}用户u_i的智能电表在某天上报的电量消耗时间序列；标记K(i)为给定的对用户u_i的日负荷曲线时间序列P_i＝{p_i,1,p_i,2,...,p_i,T}的分段段数。

2.根据权利要求1所述的一种基于分段线性近似的用户负荷曲线相似性度量方法，其特征在于，包括如下步骤：

步骤S2：对每两个用户u_i，u_j的日负荷曲线分段线性近似断点按照先后顺序进行排序，并对其日负荷曲线重新分段，使得用户u_i和用户u_j对应的分段长度一致，其中：u_i∈U，u_j∈U且u_i≠u_j；

步骤S3：对每两个用户u_i，u_j重新分段后的日负荷曲线，对每个分段，用斜率、电量消耗均值及该分段的结束时刻三个特征重新进行表征，其中u_i∈U，u_j∈U且u_i≠u_j；

步骤S4：通过计算所有分段内的斜率/用电总量之差的绝对值之和来评估任意两个用户u_i，u_j的负荷曲线的形态/数值差异度；并通过对用户u_i和用户u_j的负荷曲线的形态差异度和数值差异度进行加权平均来衡量用户的负荷曲线总差异度；

3.根据权利要求2所述的一种基于分段线性近似的用户负荷曲线相似性度量方法，其特征在于，所述步骤S1，包括：

步骤S11：标记Δ_i＝{δ_i(1),δ_i(2),...,δ_i(K(i)+1)}为断点集合，其中δ_i(1)＝1<δ_i(2)<,...,<δ_i(K(i)+1)＝T；标记a_i,k和b_i,k分别为第k个线性近似线段的斜率和截距，其中1≤k≤K(i)，且k为正整数；

步骤S12：标记r_i,k＝{a_i,kt+b_i,k|t∈{δ_i(k),δ_i(k)+1,...,δ_i(k+1)}}为用户u_i的日负荷曲线的第k个线性近似线段相应时间周期内的电量消耗近似值集合；标记

为用户u_i的日负荷曲线的第k个线性近似线段相应时间周期内的电量消耗真实值集合；

步骤S13：通过最小化电量消耗真实值与近似值的偏差的平方和来确定线性近似线段集合R_i＝{r_i,k|k∈{1,...,K(i)}}，即

4.根据权利要求3所述的一种基于分段线性近似的用户负荷曲线相似性度量方法，其特征在于，所述步骤S2，包括：

步骤S21：将用户u_i和用户u_j的日负荷曲线通过步骤S1后得到的线性近似线段集合分别表示为R_i＝{r_i,1,r_i,2,...,r_i,K(i)}和R_j＝{r_j,1,r_j,2,...,r_j,K(j)}，其断点集合分别表示为Δ_i＝{δ_i(1),δ_i(2),...,δ_i(K(i)+1)}和Δ_j＝{δ_j(1),δ_j(2),...,δ_j(K(j)+1)}，其中δ_i(1)＝δ_j(1)＝1，δ_i(K(i)+1)＝δ_j(K(j)+1)＝T；

步骤S22：对Δ_i和Δ_j中的断点按时间先后顺序进行排列，得到Δ_ij＝{δ_ij(1),δ_ij(2),...,δ_ij(M+1)}，其中δ_ij(1)＝1，δ_ij(M+1)＝T，且M≤K(i)+K(j)-1，其中“＝”在当δ_i(1)＝δ_j(1)≠δ_i(2)≠δ_j(2)≠…≠δ_i(K(i))≠δ_i(K(i))≠δ_i(K(i)+1)＝δ_j(K(j)+1)时取得；

步骤S23：将用户u_i和用户u_j的负荷曲线重新根据Δ中的断点分为M段，即R′_i＝{r′_i,1,r′_i,2,...,r′_i,M}，R′_j＝{r′_j,1,r′_j,2,...,r′_j,M}；标记a′_i,m和b′_i,m分别为用户u_i的日负荷曲线重新分段后的第m个线性近似线段的斜率和截距，其中1≤m≤M，且m为正整数；标记r′_i,m＝{a′_i,mt+b′_i,m|t∈{δ_ij(m),δ_ij(m)+1,...,δ_ij(m+1)}}；若δ_i(k)≤δ_ij(m)<δ_ij(m+1)≤δ_i(k+1)，则有a′_i,m＝a_i,k；同理可得a′_j,m。

5.根据权利要求4所述的一种基于分段线性近似的用户负荷曲线相似性度量方法，其特征在于，所述步骤S3，包括：

步骤S31：标记c′_i,m为用户u_i在数据汇报周期δ_ij(m)和δ_ij(m+1)内的电量消耗平均值；计算

同理可得c′_j,m；

步骤S32：对于用户u_i，其日负荷曲线的第m个线性近似线段用该段的斜率a′_i,m、电量消耗平均值c′_j,m以及该分段结束时刻δ_ij(m+1)，即三元组(a′_i,m,c′_j,m,δ_ij(m+1))，进行重新表征；则用户u_i的日负荷曲线时间序列P_i可以重新表征为{(a_i′_,1,c_i′_,1,δ_ij(2)),(a_i′_,2,c_i′_,2,δ_ij(3)),..,(a_i′_,M,c_i′_,M,δ_ij(M+1))}；同理，则用户u_j的日负荷曲线时间序列P_j可以重新表征为{(a_j′_,1,c_j′_,1,δ_ij(2)),(a_j′_,2,c_j′_,2,δ_ij(3)),..,(a′_j,M,c_j′_,M,δ_ij(M+1))}。

6.根据权利要求5所述的一种基于分段线性近似的用户负荷曲线相似性度量方法，其特征在于，所述步骤S4，包括：

步骤S41：标记d_s(i,j)为用户u_i和用户u_j的日负荷曲线形态差异度，则d_s(i,j)计算如下：

步骤S42：标记d_v(i,j)为用户u_i和用户u_j的日负荷曲线数值差异度，则d_v(i,j)计算如下：

步骤S43：标记d(i,j)为用户u_i和用户u_j的日负荷曲线总差异度，则d(i,j)计算如下：

d(i,j)＝αd_s(i,j)+(1-α)d_v(i,j)；

其中：α∈(0,1)为形态差异度d_s(i,j)和数值差异度d_v(i,j)之间的权重因子。

7.根据权利要求6所述的一种基于分段线性近似的用户负荷曲线相似性度量方法，其特征在于，所述步骤S5，包括：

步骤S52：标记D_max和D_min分别为矩阵D的最大值和最小值；标记θ(i,j)为用户u_i和用户u_j的日负荷曲线相似度；则θ(i,j)计算如下：