CN113191453B

CN113191453B - 一种基于dae网络特征的用电行为画像生成方法及系统

Info

Publication number: CN113191453B
Application number: CN202110565158.3A
Authority: CN
Inventors: 任志超; 汪伟; 马瑞光; 徐浩; 刘卉; 雷云凯; 刘旭娜; 王思琪
Original assignee: State Grid Sichuan Economic Research Institute
Current assignee: State Grid Sichuan Economic Research Institute
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-04-22
Anticipated expiration: 2041-05-24
Also published as: CN113191453A

Abstract

本发明公开了一种基于DAE网络特征的用电行为画像生成方法及系统，首先提取对总体样本的用户用电行为特征并进行特征预处理得到特征数据集；将特征数据集输入已构建好的DAE网络特征模型中压缩得到降维数据集；基于最佳聚类数K使用初始优化的MBKM算法对降维数据集聚类后进行聚类效果评估；基于互信息特征模型计算用户行为的关键特征，根据关键特征和聚类效果评估结果生成用户用电行为画像。本发明提供一种新的海量电力用户行为分析方法，采用初始优化的MBKM算法进行海量用电用户数据计算，克服了现有技术中存在海量电力用户数据挖掘效率低、特征降维非线性保留率低等问题。

Description

一种基于DAE网络特征的用电行为画像生成方法及系统

技术领域

本发明涉及用电行数据处理技术领域，具体涉及一种基于DAE网络特征的用电行为画像生成方法及系统置。

背景技术

我国清洁能源的渗透率及新型负荷的增长速度不断提高，用户侧的用电监测与调控愈发重要。配电网的高级量测体系(advanced metering infrastructure,AMI)持续推进与建设，构建了用户用电信息测量、存储、分析与应用的完整体系，使得基于电力大数据分析，实现用户侧用电调控成为可能。准确进行用户用电特性聚类与行为分析，是开展用电调控的必要前提。

进行用户用电特性与行为分析的主要技术，包括非侵入式负荷监测技术(NILM)、大数据驱动的负荷聚类技术等。前者通过对用户总线数据的监测与分解，实现对用户各用电设备投切与运行的监测，实时分析用户的用电行为。该技术的研究较为成熟，属于设备级的监测，但受监测终端改进、用户隐私等问题局限，尚未广泛应用。后者是典型的无监督式机器学习的应用，根据聚类的输入数据不同，负荷聚类方法包括基于负荷曲线的聚类和基于用电特征聚类两大类，属于用户群的监测，适合进行分布广泛的海量用户的实时分析。

在实际工程中，用电行为画像获取过程中用电特性聚类的各项应用都面临着用户类型多样、体量庞大、数据通信制约等问题，如何高效地实现海量用户的分析与挖掘是当前面临的重要问题，当前在方法层面存在的问题：

1、特征降维技术是降低聚类算法时间复杂度的有效方法之一，但传统特征降维技术存在特征全局信息保留率低与重构能力弱等问题。

2、面对海量用户数据时，现有的聚类算法流程繁琐，耗费时间长、占用流量大及超参数优化复杂的问题。

发明内容

为解决用电行为画像获取过程中用电特性聚类的各项应用都面临着用户类型多样、体量庞大、数据通信制约等技术问题，本发明提供一种一种基于DAE网络特征的用电行为画像生成方法及系统，方法整体时空复杂度低、收敛速度快，并且DAE网络特征模型在泛化能力、全局特征保留率、数据传输时隐私保护等方面均有较好表现。

本发明通过下述技术方案实现：

本发明提供一种基于DAE网络特征降维的用电行为画像生成方法，包括步骤：

S1、提取对总体样本的用户用电行为特征并进行特征预处理得到特征数据集；

S2、将特征数据集输入已构建好的DAE网络特征模型中压缩得到降维数据集；

S3、基于最佳聚类数K使用初始优化的MBKM算法对降维数据集聚类后进行聚类效果评估；

S4、基于互信息特征模型计算用户行为的关键特征，根据关键特征和聚类效果评估结果生成用户用电行为画像。

本方案工作原理：本方案克服了现有技术中存在海量电力用户数据挖掘效率低、特征降维非线性保留率低等问题，提供一种新的海量电力用户行为分析方法，本方法整体时空复杂度低、收敛速度快，并且DAE网络特征模型。DAE通过最小化输入与重构信号之间的误差来对网络参数进行调整，这一点传统的自动编码器相同；不同的是，DAE的隐含层表示并不是由原始输入直接映射得到，而是由原始输入的“腐坏”版本得到。DAE按照一定比例将原始输入中的元素随机置零，对剩余元素不作处理，便得到了原始输入的“腐坏”版本。相当于向原始输入中引入一定比例的“空白”元素，减少了原始输入包含的信息；而DAE就是通过对和进行学习，尝试着去填补丢失的信息，进而学习到的数据结构，使得提取到的特征更能反映原始输入的特点。

初始优化的MBKM算法面对海量用电用户数据时的聚类效果明显优于其他算法，而当样本数量逐渐增大时，初始优化的MBKM算法的聚类效果更好，在计算时间方面，现有的SPC算法、EM算法等趋势接近线性；在效果接近的情况下，初始优化的MBKM算法的收敛速度比K-Means++快了近一倍，并且计算时间不会随着冗余样本的增加而增加。

进一步优化方案为，所述用户用电行为特征包括：日最大负荷时刻、日最小负荷时刻、全天峰谷相距时间、日最小负荷率、日峰谷差率、日负荷率、峰期负载率、谷期负载率和平期负载率。

全天时段用户用电行为特征包括：

日最大负荷时刻，反映全天峰值时间；

日最小负荷时刻，反映全天低谷时间；

峰谷相距时间，反映峰谷时间跨度；

日最小负荷率，反映负荷波动大小；

日峰谷差率，反映负荷波动程度与电网调峰能力；

日负荷率，反映负荷变化程度；

峰期时段包括：时间段8:00-11:00和18:00-21:00，该时段用户用电行为特征为峰期负载率，反映用电峰期用电的负荷变化波动程度；

谷期时段包括：时间段0:00-06:00和22:00-24:00，该时段用户用电行为特征为谷期负载率，反映用电谷期用电的负荷变化波动程度；

平期时段包括：时间段6:00-8:00、11:00-18:00和21:00-22:00，该时段用户用电行为特征为平期负载率，反映用电平期用电的负荷变化波动程度。

进一步优化方案为，最佳聚类数K和DAE网络特征模型通过典型样本训练得到，所述典型样本训练过程包括：

T1、以系统抽样方式从总体样本中选取典型样本，并以加速算法收敛典型样本；

T2、用专家指标方式提取典型样本的用户用电行为特征，并进行特征预处理得到特征向量；

T3、构建多层DAE网络，利用其非线性特征映射能力对特征向量进行DAE模型降维训练得到DAE网络特征模型；

T4、根据典型样本的K-Means++聚类结果，利用Sil指标确定最佳聚类数K。

本方案通过构建多层DAE网络，利用其非线性特征映射能力，实现高维特征优化、可视化与降维。

AE是一种无监督式的特征降维与特征表达方法，其结构如图2所示，由编码器(encoder)与解码器(decoder)构成，是一种输入和训练目标相同的神经网络。AE的参数通过重构损失(reconstruction Loss,RL)训练得到，一个神经元的输出可表示为多个输入的非线性映射过程：

其中w_ij表示第i个输入向量到第j个神经元的权重(weight)，x_i(i＝1,…,n)代表输入向量，b表示偏置(bias)，f表示激活函数。AE的编码过程为表示f_θ，解码过程为g_θ’，编码与重构过程表示为r：

其中编码器参数θ＝{w,b}，解码器θ’＝{w’,b’}，其中w与w’代表权重，b与b’代表偏置。AE的训练过程就是利用随机梯度下降法(求参数的偏导数)调整网络参数(w与b)，使重构信号与输入信号误差最小，本方案选用交叉熵作为损失函数L(x)：

式中：x⁽ⁱ⁾为原始输入向量，

代表重构向量，i为向量维度，f与g分别代表编码与重构过程，RL(f,g)代表重构损失目标函数。

进一步优化方案为，在DAE模型降维训练过程中，结合随机失活正则化和增加输入样本噪声两种方法进行输入样本增加噪声处理，并在输入层间加入Dropout处理。

普通AE仅通过几十次迭代训练即可达到较佳效果，但是易导致过拟合(overfitting)现象。可利用随机失活(Dropout)正则化、增加输入样本噪声^[19]等方法提高模型的泛化能力。本发明结合两种方式，对输入样本增加噪声，并在层间加入Dropout处理。将高斯随机噪声加入训练样本：

式中，NF为噪声因子，G代表高斯分布(正态分布)，μ与σ²代表均值与方差。X_train-N是X_train通过式(5)产生的损坏数据，从含噪声的输入数据中学习到更具适应性的特征表示，增强模型的鲁棒性。并且本发明在输入层间加入Dropout处理，在训练阶段减弱神经元的联合适应性，增强模型的泛化能力。

本方案选用轮廓系数(silhouette coefficient)作为最佳聚类数的筛选指标，该指标结合内聚度(簇内)和分离度(簇间)进行计算。

其中，i为一个样本，a(i)代表簇内的内聚度，b(i)代表簇间的分离度。

式中n_k代表第k个簇中样本的数量，C_K代表K个划分好的簇；D为欧氏距离，表征不相似度；K为聚类个数。对所有样本的Sil值求平均值，用以代表整体聚类效果，Sil介于[-1,1]，越趋近于1代表内聚度和分离度都相对较优。

进一步优化方案为，步骤S3包括：

在Mini-Batch K-Means算法基础上采用初始优化方法确定降维数据集X中每个样本与已有类聚中心的最短距离D(x)；

再计算每个样本被选中当作质心的概率p(x)，

通过轮盘法选出下一个质心，最终确定K个质心。

BKM使用小批量样本优化K-Means，小批量是指每次训练算法时所随机抽取的数据子集，采用这些随机产生的子集训练算法，大大减小了计算时间。算法优势在于小批量的随机噪声往往比整体低(允许收敛到更好的解)，当数据集随着冗余样本增加而变大时，不会增加计算成本。该算法基于每批次样本中心的学习率加速收敛，然后取样本的流平均值(Streaming Average)和之前分配给该质心的所有样本来更新质心，达到降低质心的变化率的效果。一定迭代次数后最终的收敛特性与整体样本收敛特性接近。

进一步优化方案为，步骤S4具体为：

对特征数据集和降维数据集进行互信息特征模型计算得到用户行为的关键特征；用户互信息特征模型表示为：

式中：X与Y为离散型随机变量；p表示事件出现概率；I值越大代表相关性越高；I为0时，代表变量独立。

进一步优化方案为，聚类效果评估的评价指标为：Davies-Bouldin指数、Calinski-Harabaz指数和轮廓系数。

实际工程中，大量数据是无标签的，必须使用聚类结果本身进行评价。常用的评价指标包括轮廓系数、Calinski-Harabaz指数(CHI)、邓恩指数(dunn validity index,DVI)以及戴维森堡丁指数(davies-bouldin index,DBI)等^[17]。本方案选用Sil、CHI及DBI三类指数进行聚类有效性的评价，其中Sil的计算方法已在上文描述过。

CHI是簇间色散平均值(between-clusters dispersion mean)与簇内色散(within-cluster dispersion)的比值，分值越大，则聚类效果越好。

其中B_k是簇间色散矩阵，W_k是簇内色散矩阵，该指标计算速度快，但凸簇的分值较高。k表示聚类的数目，N为数据的点数，Tr(B_k)为簇内色散矩阵的迹，Tr(W_k)为簇间色散矩阵的迹。C_q为簇q的点集，c_q为簇q的中心店，n_q为簇q的点数：

DBI是簇内距离之和与簇间距离之比，即：

其中，S是簇内数据到簇质心的平均距离；ω代表质心位置，分母代表簇间距离。DBI指数越小，则聚类效果越好。

本方案基于上述一种基于DAE网络特征的用电行为画像生成方法提供一种基于DAE网络特征的用电行为画像生成系统，包括：特征处理模块、DAE特征降维模块、聚类模块和画像生成模块；

特征处理模块，提取对总体样本的用户用电行为特征并进行特征预处理得到特征数据集；

DAE特征降维模块，将特征数据集输入已构建好的DAE特征模型中压缩得到降维数据集；

聚类模块，基于最佳聚类数K使用初始优化的MBKM算法对降维数据集聚类后进行聚类效果评估；

画像生成模块，基于互信息特征模型计算用户行为的关键特征，根据关键特征和聚类效果评估结果生成用户用电行为画像。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种基于DAE网络特征的用电行为画像生成方法及系统，提供一种新的海量电力用户行为分析方法，采用初始优化的MBKM算法进行海量用电用户数据计算，克服了现有技术中存在海量电力用户数据挖掘效率低、特征降维非线性保留率低等问题。

2、本发明一种基于DAE网络特征的用电行为画像生成方法及系统，本方法整体时空复杂度低、收敛速度快，并且DAE网络特征模型在泛化能力、全局特征保留率、数据传输时隐私保护等方面均有较好表现。

3、本发明一种基于DAE网络特征的用电行为画像生成方法及系统，选用Sil、CHI及DBI三类指数进行聚类有效性的评价，让聚类结果本身评价结果参与用电行为画像生成过程，获得的用电行为画像更准确。

4、本发明一种基于DAE网络特征的用电行为画像生成方法及系统，在DAE网络特征模型构建过程中，在输入层间加入Dropout处理，在训练阶段减弱神经元的联合适应性，增强模型的泛化能力，使得降维模型效果更好。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明方法流程示意图；

图2为自动编码器(AE)结构示意图；

图3为DAE模型训练误差曲线示意图；

图4为聚类个数与轮廓系数的关系示意图；

图5为各类算法在不同数据集大小情况下的收敛时间示意图；

图6为K-Means++算法与MBKM+算法在不同数据集下的收敛时间示意图；

图7为降维数据集的聚类结果示意图；

图8为聚类中心与降维前特征数据集的特征相关图；

图9为聚类中心与降维后降维数据集的特征相关图；

图10为第一类用户用电属性雷达图；

图11为第二类用户用电属性雷达图；

图12为第三类用户用电属性雷达图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的结构、电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

在本发明的描述中，需要理解的是，术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

实施例1

本实施例用爱尔兰智能电表的计量数据进行算法验证。数据来源于爱尔兰电力和天然气行业监管机构(commission for energy regulation,CER)。该数据发布在ISSDA网站，为智能电网关键技术研究，提供了数据支撑。CER于2009年和2010年进行了智能计量电力用户行为试验(CBTs)，共5000多家爱尔兰家庭和企业参加。数据集每隔半小时记录一次用电量(单位：kWh)，一天共48个采样点。

如图1所示，本实例根据本发明方法进行以下步骤：

步骤1：提取总体样本用户用电行为特征共9种并进行采用归一化方法特征预处理；

用户用电行为特征包括：

全天时段用户用电行为特征：

日最大负荷时刻，反映全天峰值时间；

日最小负荷时刻，反映全天低谷时间；

峰谷相距时间，反映峰谷时间跨度；

日最小负荷率，反映负荷波动大小；

日峰谷差率，反映负荷波动程度与电网调峰能力；

日负荷率，反映负荷变化程度；

峰期时段用户用电行为特征：时间段8:00-11:00和18:00-21:00，该时段用户用电行为特征为峰期负载率，反映用电峰期用电的负荷变化波动程度；

谷期时段用户用电行为特征：时间段0:00-06:00和22:00-24:00，该时段用户用电行为特征为谷期负载率，反映用电谷期用电的负荷变化波动程度；

平期时段用户用电行为特征：时间段6:00-8:00、11:00-18:00和21:00-22:00，该时段用户用电行为特征为平期负载率，反映用电平期用电的负荷变化波动程度。

典型样本训练：

T1、随机抽取总体样本的10％作为典型样本(总体样本共2000条样本)，并以加速算法收敛典型样本；当总体样本不均衡时可考虑使用分层抽样等方式进行。

T2、用专家指标方式提取典型样本的提取其9种用电行为特征，并采用归一化方法进行特征预处理得到特征数据集；

T3、构建多层DAE网络，利用其非线性特征映射能力对特征向量进行DAE模型降维训练得到DAE网络特征模型；所构建的多层DAE网络参数如表1所示；多层DAE编码器将9维特征压缩至2维。网络训练迭代次数为200次，图3为DAE网络训练的误差曲线，可以看出，在迭代30次左右后DAE网络有效收敛。

表1用户行为特征的多层DAE网络

注：总参数287，训练参数287，非训练参数0。

(4)根据典型样本的K-Means++聚类结果，利用Sil指标确定最佳聚类数K；由图4可知，当聚类数K至4时，轮廓系数出现明显拐点，故确定最佳聚类数K＝3。

步骤二、将特征数据集输入T3中已构建好的DAE网络特征模型中压缩得到降维数据集；

步骤三、基于最佳聚类数K使用初始优化的MBKM算法对降维数据集聚类后进行聚类效果评估；

MBKM使用小批量样本优化K-Means，小批量是指每次训练算法时所随机抽取的数据子集，采用这些随机产生的子集训练算法，大大减小了计算时间。算法优势在于小批量的随机噪声往往比整体低[25](允许收敛到更好的解)，当数据集随着冗余样本增加而变大时，不会增加计算成本。该算法基于每批次样本中心的学习率加速收敛，然后取样本的流平均值(Streaming Average)和之前分配给该质心的所有样本来更新质心，达到降低质心的变化率的效果。一定迭代次数后最终的收敛特性与整体样本收敛特性接近。

算法步骤如表2所示：

表2 Mini-Batch K-Means的算法步骤

本实施例在MBKM算法的基础上，采用初始优化方法确定初始质心(表2的第二步)，进一步提升其收敛性能。质心优化是指计算每个样本与已有类聚中心最短距离D(x)，再计算每个样本被选中当作质心的概率，最后通过轮盘法选出下一个质心，最终确定K个质心。

本实例对比了本发明方法MBKM+算法与EM算法、SPC算法、K-Means++算法、BIRCH算法的聚类效果、收敛时间。在不同样本数量下，表3对比了MBKM+算法与K-Means++算法、EM等算法的聚类效果，图5和图6展示了各算法的收敛时间。

由表7可知，BIRCH算法、K-Means++算法与MBKM+算法的聚类指标明显优于EM算法与SPC算法，其中K-Means++算法与MBKM+算法的效果比BIRCH算法更好；当样本逐渐增大时，K-Means++算法与MBKM+算法的聚类效果接近。在计算时间方面，SPC算法收敛时间最久，呈现指数增长，而其余几类趋势接近线性。图6显示，在效果接近的情况下，MBKM+算法收敛速度比K-Means++算法快了近一倍，并且计算时间不会随着冗余样本的增加而增加。

表3 MBKM+与其他聚类算法对比

应用所提方法，本实例对2000个不同用户在同一天的用电数据进行聚类。图7是经过DAE网络特征模型降维后的聚类情况，共分为三类用户，第一类用户的数量最多。

图8是聚类中心与特征数据集的特征相关图，和图9是聚类中心与降维数据集的特征相关图，表4是用户行为特征的互信息特征模型计算结果。

初始的特征数据集(9维特征){x₁,x₂,x₃,…,x₉}分别对应{日峰谷差率、最小负荷率、日负荷率、最大负荷时刻、最小负荷时刻、峰期负载率、谷期负载率、平期负载率、峰谷时距}，经DAE网络特征模型生成降维数据集(两维特征)，两维特征分别命名为Y₁和Y₂。

由图8及表4可知，在初始特征空间中x₁、x₂、x₃(日峰谷差率、日最小负荷率和日负荷率)是主要分类特征；由图9及表4可知，经过DAE网络特征模型降维后，Y1是聚类的主要依据。

表4初始特征与降维特征的互信息大小

注：Y_1,2为DAE降维后的特征向量。

图10是第一类用户的用电属性雷达图、图11是第二类用户的用电属性雷达图、图12是第三类用户的用电属性雷达图。由图可知第一类用户的日峰谷差率、日最小负荷率和日负荷率与其余两类用户的相关特征差别明显；第二类用户与第三类用户在日峰谷差率上区别较大。除前三类特征差异明显外，最大负荷时刻(x₄)、峰期负载率(x₆)等特征也存在差异，如第二、三类用户与第一类用户的峰期负载率差异明显。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于DAE网络特征的用电行为画像生成方法，其特征在于，包括步骤：

S4、基于互信息特征模型计算用户行为的关键特征，根据关键特征和聚类效果评估结果生成用户用电行为画像；

最佳聚类数K和DAE网络特征模型通过典型样本训练得到，所述典型样本训练过程包括：

T4、根据典型样本的K-Means++聚类结果，利用Sil指标确定最佳聚类数K；

步骤S3包括：

再计算每个样本被选中当作质心的概率p(x)，

通过轮盘法选出下一个质心，最终确定出K个质心；

步骤S4具体为：

式中：X与Y为离散型随机变量；p表示事件出现概率；I(X；Y)代表X与Y的相关性。

2.根据权利要求1所述的一种基于DAE网络特征的用电行为画像生成方法，其特征在于，所述用户用电行为特征包括：日最大负荷时刻、日最小负荷时刻、全天峰谷相距时间、日最小负荷率、日峰谷差率、日负荷率、峰期负载率、谷期负载率和平期负载率。

3.根据权利要求1所述的一种基于DAE网络特征的用电行为画像生成方法，其特征在于，在DAE模型降维训练过程中，结合随机失活正则化和增加输入样本噪声两种方法进行输入样本增加噪声处理，并在输入层间加入Dropout处理。

4.根据权利要求1所述的一种基于DAE网络特征的用电行为画像生成方法，其特征在于，聚类效果评估的评价指标为：Davies-Bouldin指数、Calinski-Harabaz指数和轮廓系数。

5.一种基于DAE网络特征的用电行为画像生成系统，应用于权利要求1-4的任意一种基于DAE网络特征的用电行为画像生成方法，其特征在于，包括：特征处理模块、DAE特征降维模块、聚类模块和画像生成模块；

6.根据权利要求5所述的一种基于DAE网络特征的用电行为画像生成系统，其特征在于，所述用户用电行为特征包括：日最大负荷时刻、日最小负荷时刻、全天峰谷相距时间、日最小负荷率、日峰谷差率、日负荷率、峰期负载率、谷期负载率和平期负载率。