CN113033596A

CN113033596A - 用户用电行为类别和典型用电模式精细化辨识方法

Info

Publication number: CN113033596A
Application number: CN202011643498.5A
Authority: CN
Inventors: 吴博; 惠峥; 魏子博; 陈林; 赵建立
Original assignee: Nanyang Power Supply Co of State Grid Henan Electric Power Co Ltd
Current assignee: Nanyang Power Supply Co of State Grid Henan Electric Power Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-06-25

Abstract

属于用户用电行为类别分析技术领域，具体涉及一种用户用电行为类别和典型用电模式精细化辨识方法，包括如下步骤：S1.数据预处理，对海量负荷数据进行预处理，修正问题数据；S2.海量负荷数据分类算法模型建立，建立基于改进深度LSTM网络的负荷分类模型；S3.海量负荷数据特征提取，从各类负荷曲线中提取典型曲线模型表示此类曲线的共同特征；S4.典型地市用户用电行为实例分析。该方法具有高稳定性、高效性以及精准性，分析不同用户用电特征，展现其地域差异性、时域关联性以及空间相关性。

Description

用户用电行为类别和典型用电模式精细化辨识方法

技术领域

本发明属于用户用电行为类别分析技术领域，具体涉及一种用户用电行为类别和典型用电模式精细化辨识方法。

背景技术

用户用电行为辨识是负荷数据挖掘领域的一个重要研究方向，国内外对用户用电行为类别辨识和典型用电模式提取展开了大量研究。

在用户用电行为类别辨识研究方面，传统用户负荷类别辨识方法主要分为无监督聚类和有监督分类，传统无监督聚类多以K均值聚类、模糊C聚类算法为基础。考虑到传统聚类算法对于噪声较为敏感，伊朗德黑兰大学专门针对超大数据库中的空间数据提出聚类算法 WaveCluster，该算法是一种基于小波变换的网格聚类算法，可以通过多层次小波变换识别不同分辨率下的簇，能够识别不同形状的簇，甚至包括嵌套和凹模式。

无监督聚类方法通常需指定类别数量，同时对于数据异常值较敏感，算法稳定性较差。随着机器学习算法的兴起，支持向量机和BP 神经网络为代表的有监督分类算法被越来越多用于负荷类别辨识。有文献公开通过结合K-means聚类算法与BP神经网络实现了更高精度的分类。有文献公开提出了一种基于高斯混合模型聚类和支持向量机的用户负荷分类方法，对新用户用电行为类别辨识效果良好，鲁棒性较强，但支持向量机算法因计算成本问题难以处理大规模训练样本。有文献公开对传统BP神经网络的学习速率以及权值惯性因子进行优化改进，提出自适应神经网络用于负荷建模；有文献公开提出一种模糊聚类与BP神经网络结合的负荷分类方法，利用变学习速率和附加动量的方式改进BP网络。BP神经网络具有很强的自适应学习能力及非线性映射能力，在用户用电行为类别辨识方面取得良好效果，但其未考虑到用户负荷的时序特性。上海电力学院采用稀疏自动编码器神经网络学习大规模待分类负荷曲线的内在特征，并基于已获得的标签数据训练支持向量机分类器实现有监督分类，得到更优的辨识结果。近年来，以深度学习为代表的人工智能方法在学习数据深层特征方面表现出优异的性能，其中以LSTM网络为代表的循环神经网络相较其他类型神经网络具有更优越的时序数据特征提取能力，但是LSTM的超参数调节较为困难，同时误差反向传播时容易发生梯度消失或爆炸的问题，算法仍具备一定改进空间。

在用户典型用电模式提取方面，国内外研究多采用基于欧氏距离的均值中心度量来提取用户典型用电模式，但该方法忽略了用户用电形态特性，无法刻画各类负荷在具体时段的微观波动。所提取的用户用电模式难以准确表征用户用电行为特性，无法适用于海量负荷数据的典型用电模式的精细化辨识研究。

综上所述，面对海量负荷数据呈现出的数据类别多样、结构复杂等特点，当前的用户用电行为辨识算法受限于算法性能，难以深入挖掘提取用电用户的潜在行为特性。同时，传统用户典型用电模式提取方法难以捕捉用户用电形态的细节特征，无法用于海量负荷数据的典型用电模式的精细化辨识研究。因此，需要提出针对海量负荷数据的用户用电行为类别和典型用电模式精细化辨识的有效方法，为电网公司制定个性化需求响应方案和用电优化策略以应对用户需求多元化挑战奠定基础，这对于改善电网运行可靠性、负荷预测、电价决策等具有重要意义。

发明内容

本发明的目的在于针对现有技术中存在的问题提供一种用户用电行为类别和典型用电模式精细化辨识方法，该方法具有高稳定性、高效性以及精准性，分析不同用户用电特征，展现其地域差异性、时域关联性以及空间相关性。

本发明的技术方案是：

一种用户用电行为类别和典型用电模式精细化辨识方法，包括如下步骤：

S1.数据预处理，对海量负荷数据进行预处理，修正问题数据；

S2.海量负荷数据分类算法模型建立，建立基于改进深度LSTM 网络的负荷分类模型；

S3.海量负荷数据特征提取，从各类负荷曲线中提取典型曲线模型表示此类曲线的共同特征；

S4.典型地市用户用电行为实例分析。

具体的，所述的步骤S1中数据预处理包括数据缺失处理、数据异常处理、数据归一化处理和数据标准化处理。

具体的，所述的数据的缺失处理包括均值填充法、回归填充法及曲线相似度的数据补全算法。

具体的，所述的数据异常处理包括直接丢弃存在异常的负荷数据。

具体的，所述的回归填充法是根据用户用电数据缺失值与其他属性值的相关性建立回归方程，对于包含缺失值的用户用电样本，通过建立的模型与已知属性值来估计并填充缺失值。

具体的，所述的曲线相似度的数据补全算法采用矩阵填充的方法对用户用电缺失数据进行预填充，定义曲线相似性度量；然后对于每一个存在数据缺失的用户用电样本，选取与其最为相似的k个样本，再次采用矩阵填充实现缺失数据的补全。

具体的，所述的数据归一化处理过程中归一化的公式表达如下：

其中，max(x)、min(x)分别为样本数据的最大值、最小值，归一化也称离差标准化，是对原始结果的线性变换，使得结果映射到[0,1] 之间，有新样本加入时，需要重新计算最大、最小值。

具体的，所述的步骤S2中所述的LSTM网络包括有三个门结构，分别是输入门、遗忘门、输出门，输入门用来控制信息输入，遗忘门用来控制细胞历史状态信息的保留，输出门用来控制信息输出，激活函数σ使得遗忘门的输出值在[0,1]之间，当遗忘门输出为0的时候，表示将上一状态的信息全部丢弃；为1的时候，表示上一状态的信息全部保留，其过程可用以下公式表示：

i_t＝σ(W_ix*x_t+W_im*m_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fz*x_t+W_fm*m_t-1+W_fc*c_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙g(W_cx*x_t+W_cm*m_t-1+b_c)

o_t＝σ(W_oz*x_t+W_om*m_t-1+W_oc*c_t+b_o)

m_t＝o_t⊙h(c_t)

其中，i_t为输入门系数；f_t为遗忘门系数；c_t为t时刻更新后的细胞状态；o_t为输出门系数；m_t和y_t分别为输出向量和最终输出；W_ix为各个权重矩阵；b为偏置向量；σ为Sigmoid函数；c为细胞单元状态更新向量；⊙为点乘；g、h为cell的输入输出激活函数，一般为tanh函数；

为最终输出激活函数，一般为SoftMax函数。

具体的，所述的步骤S3中海量负荷数据特征提取中典型曲线模型提取方法选取本类别所有数据向量的均值向量作为均值类中心，兼顾类内所有曲线，表示负荷曲线的整体特征；又按照曲线互相关性选取负荷曲线形态中心，具体表示曲线细微的上升下降变化。

具体的，所述的曲线形态中心提取按照Spearman相关系数进行曲线相似性的度量，计算公式为：

式中，ρ表示任意两向量间的Spearman相关系数，T为向量维度， d为两向量中元素排行差分集合。

本发明的有益效果是：本发明针对海量负荷数据预先进行丢弃处理，然后通过基于曲线相似度的数据缺失补全算法对存在数据质量问题的数据集进行预处理；其次通过数据归一化处理加快模型的收敛速度，提高模型的数据分类精度；最后，针对传统LSTM网络超参数确定困难、容易过拟合等问题，提出基于改进深度LSTM网络的负荷分类模型；进而分别通过提取负荷数据均值中心和形态中心得到各类负荷的典型用电模式，建立精细化的用户用电行为特征属性库，进一步理解用户用电行为。

本发明数据预处理采用数据缺失补全算法、数据归一化、标准化等方法，提高负荷大数据分析算法数据适应性，加快算法收敛速度并提高分析精度，梳理传统的数据预处理方法，结合海量负荷数据价值密度低、信息总量高的特点，确定适用于大数据场景下的数据缺失补全算法，设计科学合理的数据归一化、标准化等方法，改变数据分布属性，对接后续算法模型，加快算法收敛速度，提高算法分类精度。

提出适用于海量负荷类别数据的典型用电模式提取方法，精准辨识全省及典型地市用户典型用电行为，构建差异化的典型用电模式提取方法，综合展现各类负荷的典型用电模式，建立更加精细化的用户用电行为特征属性库，进一步厘清用户用电行为，为用户用电需求响应方案和用电优化策略研究提供实践基础。

附图说明

图1是本发明的结构示意图。

图2是基于曲线相似度的数据缺失补全算法流程图；

图3是LSTM细胞单元结构示意图；

图4是负荷数据深度学习模型的流程示意图。

具体实施方式

下面结合附图及具体实施方式对本发明的技术方案进行详细的描述。

S4.典型地市用户用电行为实例分析。

所述的步骤S1中数据预处理包括数据缺失处理、数据异常处理、数据归一化处理和数据标准化处理。所述的数据的缺失处理包括均值填充法、回归填充法及曲线相似度的数据补全算法。所述的数据异常处理包括直接丢弃存在异常的负荷数据，直接丢弃存在异常的样本数据是最简单的用户用电数据处理方案，该方法在异常数据占整个数据集的比例极其小且删除用户用电数据不会影响其他数据的情况下采用，采用均值填充用户用电数据时，数值型和非数值型的属性值分别根据该属性的平均值或者众数来填充该缺失的属性值。

所述的回归填充法是根据用户用电数据缺失值与其他属性值的相关性建立回归方程，对于包含缺失值的用户用电样本，通过建立的模型与已知属性值来估计并填充缺失值。

所述的曲线相似度的数据补全算法采用矩阵填充的方法对用户用电缺失数据进行预填充，定义曲线相似性度量；然后对于每一个存在数据缺失的用户用电样本，选取与其最为相似的k个样本，再次采用矩阵填充实现缺失数据的补全。面对大规模数据矩阵补全的优化问题，奇异值阈值算法(singular value thresholding，SVT)有着显著的求解效率优势，其流程图如图2所示，该算法具体实施步骤如下:

将用户负荷矩阵L奇异值分解后，计算其奇异值收缩算子D_τ，如下:

D_τ(L¹)＝UD_τ(∑)V^T；

将∑的全部奇异值元素减去奇异值收缩算子的收缩步长τ得到 D_τ(∑):D_τ(∑)＝diag(max{0，σ-τ})

奇异值收缩算子的意义在于，通过奇异值的不断收缩来约束用户负荷矩阵的近似低秩特性，以此逼近最优补全结果。

将矩阵L¹的所有奇异值按照步长进行奇异值收缩以后，恢复得到新的矩阵。从而得到求解低秩矩阵补全优化问题的迭代序列:

式中:T∈R^m×n是迭代过程中的中间矩阵，T⁰＝0；k代表迭代数次；{δ_k}_k≥1是权重系数的迭代序列集合；P_Ω表示未缺失数据集合。

本实施例所述的数据归一化处理过程中归一化的公式表达如下：

其中，max(x)、min(x)分别为样本数据的最大值、最小值，归一化也称离差标准化，是对原始结果的线性变换，使得结果映射到[0,1] 之间，有新样本加入时，需要重新计算最大、最小值。在训练深度学习模型之前，对用户用电样本数据进行归一化和零均值化等特征放缩，可以加快模型的收敛速度，提高模型预测和分类的精度。

所述的步骤S2中所述的LSTM网络包括有三个门结构，分别是输入门、遗忘门、输出门，LSTM的细胞单元结构如图3所示，输入门用来控制信息输入，遗忘门用来控制细胞历史状态信息的保留，输出门用来控制信息输出，激活函数σ使得遗忘门的输出值在[0,1]之间，当遗忘门输出为0的时候，表示将上一状态的信息全部丢弃；为 1的时候，表示上一状态的信息全部保留，其过程可用以下公式表示：

i_t＝σ(W_ix*x_t+W_im*m_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fz*x_t+W_fm*m_t-1+W_fc*c_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙g(W_cx*x_t+W_cm*m_t-1+b_c)

o_t＝σ(W_oz*x_t+W_om*m_t-1+W_oc*c_t+b_o)

m_t＝o_t⊙h(c_t)

为最终输出激活函数，一般为SoftMax函数。

将深度LSTM网络应用于负荷分类工作，其关键问题在于超参数的确定。针对该问题，本发明在传统深度LSTM网络负荷分类模型的基础上加入验证数据集，验证集可以对动态训练过程中模型的泛化能力进行监视，通过记录在训练过程中验证集上误差最小的模型参数，在测试集上对该模型参数以及训练完成时的模型参数进行测试，选择泛化能力最好的一组作为最终参数，从而避免由于超参数选择不合理带来的过拟合问题。其具体流程图如图4所示，其中虚线部分为深度LSTM网络模型结构:Sequence input layer将矩阵形式的输入数据转换为网络可以训练的时序数据，其参数input size是每个输入序列的特征维度；LSTM layer学习时序数据中序列数据与时间步长之间的依赖关系，并提取出固有的抽象特征；Fully connected layer接收从LSTM层提取的抽象特征,通过将输入数据与权重矩阵相乘并加入偏差向量来降低分类输出层的数据复杂度；SoftMax层对经过Fullyconnected layer的输入采用SoftMax激活函数，可以将多分类问题的输出数值转化为分类数据属于各个类别的概率；Classification layer 从Softmax函数中获取输入，并通过计算交叉熵损失函数得到模型的预测结果和真实值之间的差异，交叉熵损失函数值也是判断网络是否收敛的依据。

为明确表示用户负荷分类类型的差异性和独特性，需从各类负荷曲线中提取典型模型表示此类曲线的共同特征。大多数负荷分类过程是按照以距离规则区分的训练样本来辨识负荷类型的，同一类型负荷曲线距离相关性较强。为从宏观趋势和微观波动上分别体现各类负荷的整体和精细化特征，所述的步骤S3中海量负荷数据特征提取中典型曲线模型提取方法选取本类别所有数据向量的均值向量作为均值类中心，兼顾类内所有曲线，表示负荷曲线的整体特征；又按照曲线互相关性选取负荷曲线形态中心，具体表示曲线细微的上升下降变化。

所述的曲线形态中心提取按照Spearman相关系数进行曲线相似性的度量，计算公式为：

具体负荷形态模型选取步骤如下:

a、在各类负荷数据中，按照式表示两独立变量的相关方向，计算公式计算两负荷向量的相似度；

b、对于某一负荷数据向量，其与所在类全部数据的相似度按照下式求和:

ρ_Σ为某一负荷向量与其所在类所有数据相似度之和，N为该类向量个数。

c、选取与类内所有数据相似度最高，即ρ_Σ最大的负荷数据向量作为该类形态中心。

本发明针对现有用电行为分析技术对典型用电模式辨识精度较低的问题，首先通过基于曲线相似度的数据缺失补全算法对存在数据质量问题的数据集进行预处理；其次通过数据归一化处理加快模型的收敛速度，提高模型的数据分类精度；最后，针对传统LSTM网络超参数确定困难、容易过拟合等问题，提出基于改进深度LSTM网络的负荷分类模型；进而分别通过提取负荷数据均值中心和形态中心得到各类负荷的典型用电模式，建立精细化的用户用电行为特征属性库，进一步理解用户用电行为。

针对海量负荷数据潜在的数据缺失问题，提出基于曲线相似度的缺失数据补全算法，首先采用均值填充的方法对用户用电数据进行低精度预填充；其次定义基于欧式距离的曲线相似性度量，遍历存在数据缺失的用户用电样本曲线，利用与其最为相似的k个样本，再次利用均值填充实现缺失数据的高精度恢复。数据归一化可有效解决不同时序数据比较问题，使得原始数据均转换为无量纲化指标测评值，即各指标值都处在同一个数量级别上，可以进行综合测评分析。在训练深度学习模型之前，对用户用电样本数据进行数据标准化，可以加快模型的收敛速度，提高模型预测和分类的精度。

海量负荷数据在经过预处理之后，采用深度LSTM网络模型对其进行训练和分类。首先经过卷积神经网络模块对时序趋势特征进行压缩；然后将其转换为适用于LSTM的数据结构；其次利用LSTM 学习时序数据中序列数据与时间步长之间的依赖关系，提取固有的典型特征；之后通过全连接层进一步提升模型的曲线趋势特征捕捉能力；下一步经过SoftMax将多分类问题的输出数值转化为分类数据属于各个类别的概率；最后通过Classificationlayer输出分类结果。针对训练过程中超参数的选择问题，本研究在传统深度LSTM网络负荷分类模型的基础上加入验证数据集，验证集可以对动态训练过程中模型的泛化能力进行监视，通过记录在训练过程中验证集上误差最小的模型参数，在测试集上对该模型参数以及训练完成时的模型参数进行测试，选择泛化能力最好的一组作为最终参数，从而避免由于超参数选择不合理带来的过拟合问题。

为明确表示用户负荷分类类型的差异性和独特性，需从各类负荷曲线中提取典型模型表示此类曲线的共同特征。大多数负荷分类过程是按照以距离规则区分的训练样本来辨识负荷类型的，同一类型负荷曲线距离相关性较强。为从宏观趋势和微观波动上分别体现各类负荷的整体和精细化特征，本项目按照经典的曲线模型提取方法选取本类别所有数据向量的均值向量作为均值类中心，兼顾类内所有曲线，表示负荷曲线的整体特征；又按照曲线互相关性选取负荷形态中心，能够更加具体表示曲线细微的上升下降变化。

根据建立的高性能海量数据分类模型，构建全省及典型地市用户用电场景，比较传统分类算法的典型性能指标，体现本发明提供的分类算法的稳定性、高效性以及精准性，分析不同用户用电特征，展现其地域差异性、时域关联性以及空间相关性。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.用户用电行为类别和典型用电模式精细化辨识方法，其特征在于，包括如下步骤：

S2.海量负荷数据分类算法模型建立，建立基于改进深度LSTM网络的负荷分类模型；

S4.典型地市用户用电行为实例分析。

2.根据权利要求1所述用户用电行为类别和典型用电模式精细化辨识方法，其特征在于，所述的步骤S1中数据预处理包括数据缺失处理、数据异常处理、数据归一化处理和数据标准化处理。

3.根据权利要求2所述用户用电行为类别和典型用电模式精细化辨识方法，其特征在于，所述的数据的缺失处理包括均值填充法、回归填充法及曲线相似度的数据补全算法。

4.根据权利要求2所述用户用电行为类别和典型用电模式精细化辨识方法，其特征在于，所述的数据异常处理包括直接丢弃存在异常的负荷数据。

5.根据权利要求3所述用户用电行为类别和典型用电模式精细化辨识方法，其特征在于，所述的回归填充法是根据用户用电数据缺失值与其他属性值的相关性建立回归方程，对于包含缺失值的用户用电样本，通过建立的模型与已知属性值来估计并填充缺失值。

6.根据权利要求3所述用户用电行为类别和典型用电模式精细化辨识方法，其特征在于，所述的曲线相似度的数据补全算法采用矩阵填充的方法对用户用电缺失数据进行预填充，定义曲线相似性度量；然后对于每一个存在数据缺失的用户用电样本，选取与其最为相似的k个样本，再次采用矩阵填充实现缺失数据的补全。

7.根据权利要求2所述用用户用电行为类别和典型用电模式精细化辨识方法，其特征在于，所述的数据归一化处理过程中归一化的公式表达如下：

其中，max(x)、min(x)分别为样本数据的最大值、最小值，归一化也称离差标准化，是对原始结果的线性变换，使得结果映射到[0,1]之间，有新样本加入时，需要重新计算最大、最小值。

8.根据权利要求1所述用户用电行为类别和典型用电模式精细化辨识方法，其特征在于，所述的步骤S2中所述的LSTM网络包括有三个门结构，分别是输入门、遗忘门、输出门，输入门用来控制信息输入，遗忘门用来控制细胞历史状态信息的保留，输出门用来控制信息输出，激活函数σ使得遗忘门的输出值在[0,1]之间，当遗忘门输出为0的时候，表示将上一状态的信息全部丢弃；为1的时候，表示上一状态的信息全部保留，其过程可用以下公式表示：

i_t＝σ(W_ix*x_t+W_im*m_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fz*x_t+W_fm*m_t-1+W_fc*c_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙g(W_cx*x_t+W_cm*m_t-1+b_c)

o_t＝σ(W_oz*x_t+W_om*m_t-1+W_oc*c_t+b_o)

m_t＝o_t⊙h(c_t)

为最终输出激活函数，一般为SoftMax函数。

9.根据权利要求1所述用户用电行为类别和典型用电模式精细化辨识方法，其特征在于，所述的步骤S3中海量负荷数据特征提取中典型曲线模型提取方法选取本类别所有数据向量的均值向量作为均值类中心，兼顾类内所有曲线，表示负荷曲线的整体特征；又按照曲线互相关性选取负荷曲线形态中心，具体表示曲线细微的上升下降变化。

10.根据权利要求9所述用户用电行为类别和典型用电模式精细化辨识方法，其特征在于，所述的曲线形态中心提取按照Spearman相关系数进行曲线相似性的度量，计算公式为:

式中，ρ表示任意两向量间的Spearman相关系数，T为向量维度，d为两向量中元素排行差分集合。