CN110705616A

CN110705616A - 基于用电偏好进行用户负荷曲线聚类的方法及系统

Info

Publication number: CN110705616A
Application number: CN201910899836.2A
Authority: CN
Inventors: 别佩; 吴明兴; 黄远明; 卢恩; 黄志生; 王一; 段秦刚; 王浩浩; 孙谦; 罗锦庆; 冯成; 李文萱
Original assignee: Guangdong Electric Power Trading Center LLC
Current assignee: Guangdong Electric Power Trading Center LLC
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-17

Abstract

本发明公开了一种基于用电偏好进行用户负荷曲线聚类的方法及系统，其中，该方法包括以下步骤：获取预设时间段内的负荷数据；对负荷数据进行预处理，得到相似偏好用户集；使用层次聚类算法对相似偏好用户集进行聚类生成簇；利用戴维森堡丁指标对簇进行评价，得到并输出最佳聚类个数。该方法最终精准分析用户偏好，提高对电力市场的应用价值，且使负荷曲线不仅具有几何意义还具有实际的经济现实意义，表征了一个类中用户行为的共同特征，使类群解释清晰化。

Description

基于用电偏好进行用户负荷曲线聚类的方法及系统

技术领域

本发明涉及电力市场技术领域，特别涉及一种基于用电偏好进行用户负荷曲线聚类的方法。

背景技术

电力用户聚类是把将大量用电用户分成不同类别的一种数据集群技术。现有市场上的用户聚类根据用户的用电负荷曲线基于形状而不是基于用户的偏好对用户进行分类，按照不同用户的用电曲线的形状，通过某种形状相似度的度量方法，将形状相似度相近的负荷曲线聚到一个类别中去。

然而，简单的不分析用户偏好的基于用户负荷曲线形状的聚类方法对于电力市场的应用价值较小，负荷曲线形状聚类仅仅具有几何意义而不具有实际的经济现实意义，仅仅形状相同并不能表征一个类中用户行为的共同特性。另外，负荷曲线的形状相似度定义也多种多样，多样化导致了类群解释的模糊化。电力市场中需要对用户的偏好进行仔细分析，发明基于用户偏好的用户聚类方法十分必要。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于用电偏好进行用户负荷曲线聚类的方法。

本发明的另一个目的在于提出一种基于用电偏好进行用户负荷曲线聚类的系统。

为达到上述目的，本发明一方面提出了基于用电偏好进行用户负荷曲线聚类的方法，包括以下步骤：获取预设时间段内的负荷数据；对所述负荷数据进行预处理，得到相似偏好用户集；使用层次聚类算法对所述相似偏好用户集进行聚类生成簇；利用戴维森堡丁指标对所述簇进行评价，得到并输出最佳聚类个数。

本发明实施例的基于用电偏好进行用户负荷曲线聚类的方法，精准分析用户偏好，提高对电力市场的应用价值，且使负荷曲线不仅具有几何意义还具有实际的经济现实意义，表征了一个类中用户行为的共同特征，使类群解释清晰化。

另外，根据本发明上述实施例的基于用电偏好进行用户负荷曲线聚类的方法还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述预处理是将所述负荷数据中的用户用电量设为次要因素，用电峰谷设为主要因素，以用所述用电峰谷表征用户偏好，得到所述相似偏好用户集。

在本发明的一个实施例中，采用所述层次聚类算法中的合并的层次聚类，通过合并最相似的聚类来形成上一层次中的聚类。

在本发明的一个实施例中，所述使用层次聚类算法对所述相似偏好用户集进行聚类，得到多个簇，包括：计算所述负荷数据中全部负荷曲线之间的距离矩阵；将每一个负荷曲线作为单独的类迭代，根据所述距离矩阵计算类间距离；从最底层开始，合并距离最近的类作为一个新类，直至将全部类合并至同一个簇。

在本发明的一个实施例中，所述戴维森堡丁指标表示每个类与最相似类之间的平均相似性，所述平均相似性与所述类间距离成反比，所述类间距离与分类效果成反比。

为达到上述目的，本发明另一方面提出了一种基于用电偏好进行用户负荷曲线聚类的系统，包括：获取模块，用于获取预设时间段内的负荷数据；预处理模块，用于对所述负荷数据进行预处理，得到相似偏好用户集；聚类模块，用于使用层次聚类算法对所述相似偏好用户集进行聚类生成簇；评价模块，用于利用戴维森堡丁指标对所述簇进行评价，得到并输出最佳聚类个数。

本发明实施例的基于用电偏好进行用户负荷曲线聚类的系统，精准分析用户偏好，提高对电力市场的应用价值，且使负荷曲线不仅具有几何意义还具有实际的经济现实意义，表征了一个类中用户行为的共同特征，使类群解释清晰化。

另外，根据本发明上述实施例的基于用电偏好进行用户负荷曲线聚类的系统还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述聚类模块包括：计算单元，用于计算所述负荷数据中全部负荷曲线之间的距离矩阵；迭代计算单元，用于将每一个负荷曲线作为单独的类迭代，根据所述距离矩阵计算类间距离；合并单元，用于从最底层开始，合并距离最近的类作为一个新类，直至将全部类合并至同一个簇。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于用电偏好进行用户负荷曲线聚类的方法流程图；

图2为根据本发明实施例的具体示例的执行流程图；

图3为根据本发明实施例的基于用电偏好进行用户负荷曲线聚类的系统结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于用电偏好进行用户负荷曲线聚类的方法及系统，首先将参照附图描述根据本发明实施例提出的基于用电偏好进行用户负荷曲线聚类的方法。

图1是本发明一个实施例的基于用电偏好进行用户负荷曲线聚类的方法流程图。

如图1所示，该基于用电偏好进行用户负荷曲线聚类的方法包括以下步骤：

在步骤S101中，获取预设时间段内的负荷数据。

例如，如图2所示，获取广东上一年的负荷数据。

在步骤S102中，对负荷数据进行预处理，得到相似偏好用户集。

在本发明的一个实施例中，预处理是将负荷数据中的用户用电量设为次要因素，用电峰谷设为主要因素，以用用电峰谷表征用户偏好，得到相似偏好用户集。

具体地，预处理方法使得用户的用电量成为次要因素，而峰谷成为主要因素，而用电峰谷分布表征了用户的用电习惯，也因此表征了用户偏好，预处理方法如：

其中，q_k,t(0)是用户k在t时的用电量，max为求最大值，

使预处理后的用户k在t时的用电量。

在步骤S103中，使用层次聚类算法对相似偏好用户集进行聚类生成簇。

在本发明的一个实施例中，采用层次聚类算法中的合并的层次聚类，通过合并最相似的聚类来形成上一层次中的聚类。

其中，层次聚类算法是一种基于层次思想的聚类算法。又被称为树聚类算法，它通过制定数据的链接规则，架构聚类层次，反复地将数据分裂、聚合，形成一个层次序列为聚类问题的解。算法一般由树状结构的底部开始逐层向上进行聚合。两个类之间的距离度量方式和连接规则是层次聚类主要考虑的内容，比较常用的是采用欧氏距离，链接规则主要包括单链接、完全连接、类间平均连接、类内平均连接和离差平方和方法。层次聚类需要指定聚类树的切割位置。

层次聚类主要有两种类型：合并的层次聚类和分裂的层次聚类。前者是一种自底向上的层次聚类算法，从最底层开始，每一次通过合并最相似的聚类来形成上一层次中的聚类，整个当全部数据点都合并到一个聚类的时候停止或者达到某个终止条件而结束，大部分层次聚类都是采用这种方法处理。后者是采用自顶向下的方法，从一个包含全部数据点的聚类开始，然后把根节点分裂为一些子聚类，每个子聚类再递归地继续往下分裂，直到出现只包含一个数据点的单节点聚类出现，即每个聚类中仅包含一个数据点。本发明实施例采用的是自底而上的完全连接层次聚类法，该方法具有减小类中各个个体距离的特点，适用于负荷曲线的聚类。

在本发明的一个实施例中，使用层次聚类算法对相似偏好用户集进行聚类，得到多个簇，包括：

计算负荷数据中全部负荷曲线之间的距离矩阵；

将每一个负荷曲线作为单独的类迭代，根据距离矩阵计算类间距离；

从最底层开始，合并距离最近的类作为一个新类，直至将全部类合并至同一个簇。

具体地，完全连接(complete linkage)的由下到上的层次聚类算法过程：

第一步，计算所有负荷曲线之间的距离矩阵，矩阵的每个元素代表了负荷曲线两两之间的距离，距离的度量方式是欧式聚类，欧式距离的计算方法如下：

式中，k₁、k₂分别为任意两个用户的编号，最后的d为欧氏距离。

第二步，将每条负荷曲线作为一个单独的类迭代；

第三步，计算每个类之间的距离，每个类的距离是类中距离最远的负荷曲线之间的距离，更新距离矩阵，即:

d(k₁,k₂,k₃,k₄)＝max(d(k₁,k₃),d(k₁,k₄),d(k₂,k₃),d(k₂,k₄))

式中，k₁、k₂、k₃、k₄分别为任意两个用户的编号。

第四步，合并两个距离最接近的类为一个新类；

第五步，重复第三步和第四步，直到所有样本都属于同一个簇为止。

在步骤S104中，利用戴维森堡丁指标对簇进行评价，得到并输出最佳聚类个数。

在本发明的一个实施例中，戴维森堡丁指标表示每个类与最相似类之间的平均相似性，平均相似性与类间距离成反比，类间距离与分类效果成反比。

其中，本发明发明实施例选用戴维森堡丁指标(Davies Bouldin)作为聚类效果的评价标准。Davies Bouldin指标被定义为每个类与其最相似类之间的平均相似性。DaviesBouldin指标可直观展示了分类的效果，分成多类讨论是为了避免提前选择类数造成的讨论不完全的问题。该相似性越小，表明类间距离越大，类距离约小，分类效果越好。因此，Davies Bouldin指标选择的最后分类数应该每个类之间的差别较大，而每个类中自身个体的差别较小。

使用Davies Bouldin指标得出最佳的聚类个数，其中：

d_i计算的是类内数据到簇质心的平均距离，代表了簇类i中各时间序列的分散程度，计算公式为：

其中，X_i代表簇类i中第j个数据点，也就是一个时间序列，A_i是簇类i的质心，T_i是簇类i中数据的个数，p在通常情况下取2。

d_i,j定义为簇类i与簇类j的距离，计算公式为：

其中，a_k,i代表簇类i质心点的第k个值，d_i,j就是簇类i与簇类j质心的距离。

根据本发明实施例提出的基于用电偏好进行用户负荷曲线聚类的方法，首先，对负荷曲线进行了新的预处理，使得用户的用电量成为次要因素，而峰谷成为主要因素，而用电峰谷分布表征了用户的用电习惯，也因此表征了用户偏好。其次，按照全连接层次聚类方式将用户分为多类，可以增加类间个体的相似程度：最后，通过DBI指数对分类进行评价，最终精准分析用户偏好，提高对电力市场的应用价值，且使负荷曲线不仅具有几何意义还具有实际的经济现实意义，表征了一个类中用户行为的共同特征，使类群解释清晰化。

其次参照附图描述根据本发明实施例提出的基于用电偏好进行用户负荷曲线聚类的系统。

图2是本发明一个实施例的基于用电偏好进行用户负荷曲线聚类的系统结构示意图。

如图2所示，该基于用电偏好进行用户负荷曲线聚类的系统10包括：获取模块100、预处理模块200、聚类模块300和评价模块400。

其中，获取模块100，用于获取预设时间段内的负荷数据。预处理模块200，用于对负荷数据进行预处理，得到相似偏好用户集。聚类模块300，用于使用层次聚类算法对相似偏好用户集进行聚类生成簇。评价模块400，用于利用戴维森堡丁指标对簇进行评价，得到并输出最佳聚类个数。

进一步地，在本发明的一个实施例中，预处理是将负荷数据中的用户用电量设为次要因素，用电峰谷设为主要因素，以用用电峰谷表征用户偏好，得到相似偏好用户集。

可选地，在本发明的一个实施例中，采用层次聚类算法中的合并的层次聚类，通过合并最相似的聚类来形成上一层次中的聚类。

在本发明的一个实施例中，聚类模块包括：计算单元，用于计算负荷数据中全部负荷曲线之间的距离矩阵；迭代计算单元，用于将每一个负荷曲线作为单独的类迭代，根据距离矩阵计算类间距离；合并单元，用于从最底层开始，合并距离最近的类作为一个新类，直至将全部类合并至同一个簇。

需要说明的是，前述对基于用电偏好进行用户负荷曲线聚类的方法实施例的解释说明也适用于该系统，此处不再赘述。

根据本发明实施例提出的基于用电偏好进行用户负荷曲线聚类的系统，首先，对负荷曲线进行了新的预处理，使得用户的用电量成为次要因素，而峰谷成为主要因素，而用电峰谷分布表征了用户的用电习惯，也因此表征了用户偏好。其次，按照全连接层次聚类方式将用户分为多类，可以增加类间个体的相似程度：最后，通过DBI指数对分类进行评价，最终精准分析用户偏好，提高对电力市场的应用价值，且使负荷曲线不仅具有几何意义还具有实际的经济现实意义，表征了一个类中用户行为的共同特征，使类群解释清晰化。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于用电偏好进行用户负荷曲线聚类的方法，其特征在于，包括以下步骤：

获取预设时间段内的负荷数据；

对所述负荷数据进行预处理，得到相似偏好用户集；

使用层次聚类算法对所述相似偏好用户集进行聚类生成簇；以及

利用戴维森堡丁指标对所述簇进行评价，得到并输出最佳聚类个数。

2.根据权利要求1所述的基于用电偏好进行用户负荷曲线聚类的方法，其特征在于，所述预处理是将所述负荷数据中的用户用电量设为次要因素，用电峰谷设为主要因素，以用所述用电峰谷表征用户偏好，得到所述相似偏好用户集。

3.根据权利要求1所述的基于用电偏好进行用户负荷曲线聚类的方法，其特征在于，采用所述层次聚类算法中的合并的层次聚类，通过合并最相似的聚类来形成上一层次中的聚类。

4.根据权利要求1所述的基于用电偏好进行用户负荷曲线聚类的方法，其特征在于，所述使用层次聚类算法对所述相似偏好用户集进行聚类，得到多个簇，包括：

计算所述负荷数据中全部负荷曲线之间的距离矩阵；

将每一个负荷曲线作为单独的类迭代，根据所述距离矩阵计算类间距离；

5.根据权利要求1所述的基于用电偏好进行用户负荷曲线聚类的方法，其特征在于，所述戴维森堡丁指标表示每个类与最相似类之间的平均相似性，所述平均相似性与所述类间距离成反比，所述类间距离与分类效果成反比。

6.一种基于用电偏好进行用户负荷曲线聚类的系统，其特征在于，包括：

获取模块，用于获取预设时间段内的负荷数据；

预处理模块，用于对所述负荷数据进行预处理，得到相似偏好用户集；

聚类模块，用于使用层次聚类算法对所述相似偏好用户集进行聚类生成簇；以及

评价模块，用于利用戴维森堡丁指标对所述簇进行评价，得到并输出最佳聚类个数。

7.根据权利要求6所述的基于用电偏好进行用户负荷曲线聚类的系统，其特征在于，所述预处理是将所述负荷数据中的用户用电量设为次要因素，用电峰谷设为主要因素，以用所述用电峰谷表征用户偏好，得到所述相似偏好用户集。

8.根据权利要求6所述的基于用电偏好进行用户负荷曲线聚类的系统，其特征在于，采用所述层次聚类算法中的合并的层次聚类，通过合并最相似的聚类来形成上一层次中的聚类。

9.根据权利要求6所述的基于用电偏好进行用户负荷曲线聚类的系统，其特征在于，所述聚类模块包括：

计算单元，用于计算所述负荷数据中全部负荷曲线之间的距离矩阵；

迭代计算单元，用于将每一个负荷曲线作为单独的类迭代，根据所述距离矩阵计算类间距离；

合并单元，用于从最底层开始，合并距离最近的类作为一个新类，直至将全部类合并至同一个簇。

10.根据权利要求6所述的基于用电偏好进行用户负荷曲线聚类的系统，其特征在于，所述戴维森堡丁指标表示每个类与最相似类之间的平均相似性，所述平均相似性与所述类间距离成反比，所述类间距离与分类效果成反比。