CN114897097A

CN114897097A - 一种电力用户画像方法、装置、设备及介质

Info

Publication number: CN114897097A
Application number: CN202210631285.3A
Authority: CN
Inventors: 李南帆; 魏妍萍; 王军; 徐楠; 邓帆; 刘博文; 王波; 郭英杰
Original assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-08-12

Abstract

本发明属于电力技术领域，具体公开了一种电力用户画像方法、装置、设备及介质。包括以下步骤：获取电力用户的用电数据，对电力用户的用电数据进行预处理转化为特征工程的原始样本集；对原始样本集进行特征提取，获得特征样本集；对特征样本集进行聚类，得到聚类结果；分析聚类结果中每个簇的特点，确定每个簇的类别；根据分析聚类结果Resul中每个簇的类别形成电力用户画像。本发明提供的基于特征提取和聚类的用户用电画像方法，其思路是先对数据进行预处理，然后建立特征工程，接着使用k‑means算法聚类，最后对结果进行分析，确定各个簇的类别，流程简洁，占用的计算资源较少，在保证准确度的情况下具有很高的实用性。

Description

一种电力用户画像方法、装置、设备及介质

技术领域

本发明属于电力技术领域，具体涉及一种电力用户画像方法、装置、设备及介质。

背景技术

电力大数据是智慧城市创建和发展的基石，而随着大数据技术在电力系统中的深入发展与应用，电网逐步向创新服务型转变，电网的态势感知功能正在发挥越来越大的作用，如何提取用户用电特征用于对用户进行画像成为一个迫切需要解决的问题。随着信息化建设的深入推进和电力行业的高速发展，深度挖掘现有数据并充分利用数据分析结果辅助决策，进而探究电网发展和客户服务规律，成为驱动电网企业创新发展的重要途径之一。通过对电力用户画像的研究，参考数据分析结果制定差异化与精准化的创新服务策略，实现对不同用户用电特征和习惯的刻画、“千人千面”精准服务，多方面地提升用户服务体验，实现在城市街道精细化治理、用户精细化管理以及应急管理服务，满足电力客户日益增长的多样化的用电服务需求。

目前常规的电力用户画像算法只是简单的采取k-means算法进行聚类，并未充分考虑不同数据指标之间的量纲问题以及k-means算法初始化粗糙，导致聚类结果的准确率不高，此外，研究中并未充分地考虑计算资源的占用问题，使得实用性大大降低。

发明内容

本发明的目的在于提供一种电力用户画像方法、装置、设备及介质，以解决现有电力用户画像因数据处理不当导致结果准确率低和实用性差的技术问题。

为实现上述目的，本发明采用下述技术方案予以实现：

第一方面，一种电力用户画像方法，包括以下步骤：

获取电力用户的用电数据，对电力用户的用电数据进行预处理转化为特征工程的原始样本集Soriginal；

对原始样本集Soriginal进行特征提取，获得特征样本集Sfeature；

对特征样本集Sfeature进行聚类，得到聚类结果Result；

分析聚类结果Result中每个簇的特点，确定每个簇的类别；

根据分析聚类结果Result中每个簇的类别形成电力用户画像。

本发明的进一步改进在于：对电力用户的用电数据进行预处理转化为特征工程的原始样本集Soriginal时，具体包括以下步骤：

将电力用户的用电数据以用户为单位分组，并将分组后的数据进行可视化处理，将数据量少于预设值的用户剔除，得到第一数据集；

将第一数据集以用户id为单位进行分组，得到若干组用户数据，

然后采用可视化的手段检测用户数据是否存在异常值，

将存在异常值的用户数据从第一数据集中删除，

被删除的用户数据成为缺失值，

通过平滑算法处理缺失值；

生成原始样本集Soriginal。

本发明的进一步改进在于：当电力用户的用电数据中某段时间无用电数据时也为缺失值，缺失值每天的用电量为缺失值所处时间段的总用电量与缺失值所处时间段总天数的比值。

本发明的进一步改进在于：对原始样本集Soriginal进行特征提取，获得特征样本集Sfeature时，具体包括以下步骤：

根据原始样本集Soriginal，提取出若干新的特征；

将若干新的特征另存为特征样本集Sfeature。

本发明的进一步改进在于：对特征样本集Sfeature进行聚类，得到聚类结果Result时，具体包括以下步骤：

从特征样本集Sfeature中选取相关的特征，生成相关数据集；

对相关数据集中的数据进行最大-最小标准化处理，得到标准化数据集；

采用手肘法顶确定聚类数K；

根据标准化数据集采用K-means++法计算K个簇中心；

将K个簇中心带入k-means算法中，聚类后将结果存储起来，给不同的簇编号label，得到聚类结果Result。

本发明的进一步改进在于：根据分析聚类结果Result中每个簇的类别形成电力用户画像时，具体包括以下步骤：

对聚类结果Result以编号label为单位划分，逐个分析不同簇的特点；

对比分析不同簇的差别；

给出每个簇的类别；

根据每个簇的类别形成电力用户画像。

本发明的进一步改进在于：所述k-means算法具体步骤如下：

步骤1、选择初始化的K个样本作为初始聚类中心a＝a₁,a₂,a₁,…a_k；

步骤2、针对标准化数据集中每个样本x_i计算x_i到K个聚类中心的欧式距离并将其分到距离最小的聚类中心所对应的类中；

步骤3、针对每个类别a_j，重新计算它的聚类中心

即属于该类的所有样本的质心；

步骤4、重复步骤2和步骤3，直到达到预设中止条件。

第二方面，一种电力用户画像装置，包括：

原始样本集生成模块：用于获取电力用户的用电数据，对电力用户的用电数据进行预处理转化为特征工程的原始样本集Soriginal；

特征样本集生成模块：用于对原始样本集Soriginal进行特征提取，获得特征样本集Sfeature；

聚类结果生成模块：用于对特征样本集Sfeature进行聚类，得到聚类结果Result；

类别确定模块：用于分析聚类结果Result中每个簇的特点，确定每个簇的类别；

电力用户画像生成模块：用于根据分析聚类结果Result中每个簇的类别形成电力用户画像。

第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的一种电力用户画像方法。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种电力用户画像方法。

与现有技术相比，本发明至少包括以下有益效果：

本发明提供的基于特征提取和聚类的用户用电画像方法，其思路是先对数据进行预处理，然后建立特征工程，接着使用k-means算法聚类，最后对结果进行分析，确定各个簇的类别，流程简洁，占用的计算资源较少，在保证准确度的情况下具有很高的实用性。

本发明采用的基于特征提取和聚类的用户用电画像方法，不但具有很高的精度而且具有很强的实用性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

在附图中：

图1为本发明一种电力用户画像方法的整体流程图；

图2为本发明一种电力用户画像方法中数据预处理的流程图；

图3为本发明一种电力用户画像方法中特征工程的整体流程图；

图4为本发明一种电力用户画像方法中聚类算法的整体流程图；

图5为本发明一种电力用户画像方法中画像结果的整体流程图；

图6为本发明一种电力用户画像方法的主要流程图；

图7为本发明一种电力用户画像装置的系统框图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本发明所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

实施例1

一种电力用户画像方法，如图1-6所示，包括以下步骤：

对特征样本集Sfeature进行聚类，得到聚类结果Result；

分析聚类结果Result中每个簇的特点，确定每个簇的类别；

根据分析聚类结果Result中每个簇的类别形成电力用户画像。

电力用户的用电数据包含用的id、用电记录、缴费情况的信息。电力用户的用电数据数据质量较差，存在异常值、缺失值等，需要通过预处理如数据清洗手段将电力用户的用电数据处理成干净、平滑的数据。

如图2所示，对电力用户的用电数据进行预处理转化为特征工程的原始样本集Soriginal时，具体包括以下步骤：

将电力用户的用电数据以用户为单位分组，并将分组后的数据进行可视化处理，将数据量过少的用户剔除，得到第一数据集；

将第一数据集以用户id为单位进行分组，然后对每组数据进行分析，处理异常值。采用可视化的手段检测存在异常值的用户数据，将异常值从第一数据集中删除，删除的部分成为缺失值，然后通过平滑算法处理缺失值；当部分日期无用电数据，即为缺失值时，每天的用电量计算公式如下：

每天的用电量＝total/days

式中，total为缺失值所处时间段的总用电量，days为缺失值所处时间段的总天数。

通过去除数据量少的用户、处理异常值和处理缺失值，将电力用户的用电数据处理成干净平滑的适合建立特征工程的原始样本集Soriginal，原始样本集Soriginal包含用户id、用电量和缴费情况。

如图3所示，对原始样本集Soriginal进行特征提取，获得特征样本集Sfeature时，具体包括以下步骤：

根据原始样本集Soriginal，考虑不同指标之间的联系，提取出若干新的特征，例如：

考虑缴费金额和时间之间的关系，生成特征“平均缴费次数”和“缴费金额”.

平均缴费次数＝缴费次数/天数

式中，Count_k表示第k天的缴费金额。

考虑用电量和时间之间的关系，可以生成工作日总用电量、周末总用电量、国庆期间用电量、春节期间用电量、每月的用电量、每个季度的用电量等等。

将若干新的特征另存为特征样本集Sfeature，以便后续k-means算法应用。

如图4所示，对特征样本集Sfeature进行聚类，得到聚类结果Result时，具体包括以下步骤：

针对不同的识别任务，从特征样本集Sfeature中选取相关的特征，生成相关数据集；

数据标准化，k-means的本质是基于欧式距离的数据划分算法，均值和方差大的维度将对数据的聚类产生决定性影响。而相关数据集中不同特征的量纲之间可能相差巨大，所以未做归一化处理和统一单位的数据是无法直接参与运算和比较的。

对从特征样本集Sfeature中获得的相关数据集中每个特征进行最大-最小标准化处理，得到标准化数据集，其公式为x’＝(x-Min)/(Max-Min)，其中x’表示标准化后的数据，x表示标准化前的数据，Min表示x中的最小值，Max表示x中的最大值。

确定K值。由于K值的选取对k-means结果影响很大，这也是k-means最大的缺点，为了克服这一弱点，采用手肘法确定K，其核心思想是随着聚类数K的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。并且，当K小于真实聚类数时，由于K的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当K到达真实聚类数时，再增加K所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着K值的继续增大而趋于平缓，也就是说SSE和K的关系图是一个手肘的形状，而这个肘部对应的K值就是标准化数据集的真实聚类数。其核心指标为SSE(sum of thesquared errors，误差平方和)

式中，C_i是第i个簇，p是C_i中的样本点，m_i是C_i的质心(C_i中所有样本的均值)，SSE是误差平方和代表所有样本的聚类误差；

确定初始簇中心。k-means初始簇中心的选取对结果的影响很大，对初始值选择的改进是很重要的一部分，这里采用k-means++算法确定初始簇中心。原始K-means算法最开始随机选取标准化数据集中K个点作为聚类中心，而K-means++按照如下的思想选取K个聚类中心：假设已经选取了n个初始聚类中心(0<n<K)，则在选取第n+1个聚类中心时：距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。在选取第一个聚类中心(n＝1)时同样通过随机的方法，计算方法如下：

随机从标准化数据集中选取一个中心点a₁；

计算数据到之前n个聚类中心最远的距离D(x)，并以一定概率

选择新中心点a_i；

重复“计算数据到之前n个聚类中心最远的距离D(x)，并以一定概率

选择新中心点a_i”的步骤，直至选出K个簇中心；

将数据带入k-means算法中，聚类后将结果存储起来，给不同的簇编号(label)，得到聚类结果Result；

k-means算法具体步骤如下：

步骤3、针对每个类别a_j，重新计算它的聚类中心

(即属于该类的所有样本的质心)；

步骤4、重复步骤2和步骤3，直到达到预设中止条件，预设终止条件可为迭代次数或最小误差变化等。

如图5所示，根据分析聚类结果Result中每个簇的类别形成电力用户画像时，具体包括以下步骤：

对聚类结果Result以编号(label)为单位划分，逐个分析不同簇的特点；

对比分析不同簇的差别；

给出每个簇的类别，如“空置房”“商业用户”“居民用户”等等。

根据每个簇的类别形成基于特征提取和聚类的电力用户画像，从而实现对利用电力数据对用户进行画像的目标。

实施例2

一种电力用户画像装置，如图7所示，包括：

实施例3：

一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现实施例1的一种电力用户画像方法。

实施例4：

一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现实施例1的一种电力用户画像方法。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种电力用户画像方法，其特征在于，包括以下步骤：

对特征样本集Sfeature进行聚类，得到聚类结果Result；

分析聚类结果Result中每个簇的特点，确定每个簇的类别；

根据分析聚类结果Result中每个簇的类别形成电力用户画像。

2.根据权利要求1所述的一种电力用户画像方法，其特征在于，对电力用户的用电数据进行预处理转化为特征工程的原始样本集Soriginal时，具体包括以下步骤：

然后采用可视化的手段检测用户数据是否存在异常值，

将存在异常值的用户数据从第一数据集中删除，

被删除的用户数据成为缺失值，

通过平滑算法处理缺失值；

生成原始样本集Soriginal。

3.根据权利要求2所述的一种电力用户画像方法，其特征在于，当电力用户的用电数据中某段时间无用电数据时也为缺失值，缺失值每天的用电量为缺失值所处时间段的总用电量与缺失值所处时间段总天数的比值。

4.根据权利要求1所述的一种电力用户画像方法，其特征在于，对原始样本集Soriginal进行特征提取，获得特征样本集Sfeature时，具体包括以下步骤：

根据原始样本集Soriginal，提取出若干新的特征；

将若干新的特征另存为特征样本集Sfeature。

5.根据权利要求1所述的一种电力用户画像方法，其特征在于，对特征样本集Sfeature进行聚类，得到聚类结果Result时，具体包括以下步骤：

从特征样本集Sfeature中选取相关的特征，生成相关数据集；

采用手肘法顶确定聚类数K；

根据标准化数据集采用K-means++法计算K个簇中心；

6.根据权利要求1所述的一种电力用户画像方法，其特征在于，根据分析聚类结果Result中每个簇的类别形成电力用户画像时，具体包括以下步骤：

对比分析不同簇的差别；

给出每个簇的类别；

根据每个簇的类别形成电力用户画像。

7.根据权利要求5所述的一种电力用户画像方法，其特征在于，所述k-means算法具体步骤如下：

步骤1、选择初始化的K个样本作为初始聚类中心a＝a₁，a₂，a₁，...a_k；

步骤3、针对每个类别a_j，重新计算它的聚类中心

即属于该类的所有样本的质心；

步骤4、重复步骤2和步骤3，直到达到预设中止条件。

8.一种电力用户画像装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的一种电力用户画像方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的一种电力用户画像方法。