CN113033596A - 用户用电行为类别和典型用电模式精细化辨识方法 - Google Patents
用户用电行为类别和典型用电模式精细化辨识方法 Download PDFInfo
- Publication number
- CN113033596A CN113033596A CN202011643498.5A CN202011643498A CN113033596A CN 113033596 A CN113033596 A CN 113033596A CN 202011643498 A CN202011643498 A CN 202011643498A CN 113033596 A CN113033596 A CN 113033596A
- Authority
- CN
- China
- Prior art keywords
- data
- electricity consumption
- typical
- user
- load
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 9
- 238000007635 classification algorithm Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 34
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000010606 normalization Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000001174 ascending effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000006399 behavior Effects 0.000 description 25
- 238000012549 training Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 230000008602 contraction Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
属于用户用电行为类别分析技术领域,具体涉及一种用户用电行为类别和典型用电模式精细化辨识方法,包括如下步骤:S1.数据预处理,对海量负荷数据进行预处理,修正问题数据;S2.海量负荷数据分类算法模型建立,建立基于改进深度LSTM网络的负荷分类模型;S3.海量负荷数据特征提取,从各类负荷曲线中提取典型曲线模型表示此类曲线的共同特征;S4.典型地市用户用电行为实例分析。该方法具有高稳定性、高效性以及精准性,分析不同用户用电特征,展现其地域差异性、时域关联性以及空间相关性。
Description
技术领域
本发明属于用户用电行为类别分析技术领域,具体涉及一种用户用电行为类别和典型用电模式精细化辨识方法。
背景技术
用户用电行为辨识是负荷数据挖掘领域的一个重要研究方向,国内外对用户用电行为类别辨识和典型用电模式提取展开了大量研究。
在用户用电行为类别辨识研究方面,传统用户负荷类别辨识方法主要分为无监督聚类和有监督分类,传统无监督聚类多以K均值聚类、模糊C聚类算法为基础。考虑到传统聚类算法对于噪声较为敏感,伊朗德黑兰大学专门针对超大数据库中的空间数据提出聚类算法 WaveCluster,该算法是一种基于小波变换的网格聚类算法,可以通过多层次小波变换识别不同分辨率下的簇,能够识别不同形状的簇,甚至包括嵌套和凹模式。
无监督聚类方法通常需指定类别数量,同时对于数据异常值较敏感,算法稳定性较差。随着机器学习算法的兴起,支持向量机和BP 神经网络为代表的有监督分类算法被越来越多用于负荷类别辨识。有文献公开通过结合K-means聚类算法与BP神经网络实现了更高精度的分类。有文献公开提出了一种基于高斯混合模型聚类和支持向量机的用户负荷分类方法,对新用户用电行为类别辨识效果良好,鲁棒性较强,但支持向量机算法因计算成本问题难以处理大规模训练样本。有文献公开对传统BP神经网络的学习速率以及权值惯性因子进行优化改进,提出自适应神经网络用于负荷建模;有文献公开提出一种模糊聚类与BP神经网络结合的负荷分类方法,利用变学习速率和附加动量的方式改进BP网络。BP神经网络具有很强的自适应学习能力及非线性映射能力,在用户用电行为类别辨识方面取得良好效果,但其未考虑到用户负荷的时序特性。上海电力学院采用稀疏自动编码器神经网络学习大规模待分类负荷曲线的内在特征,并基于已获得的标签数据训练支持向量机分类器实现有监督分类,得到更优的辨识结果。近年来,以深度学习为代表的人工智能方法在学习数据深层特征方面表现出优异的性能,其中以LSTM网络为代表的循环神经网络相较其他类型神经网络具有更优越的时序数据特征提取能力,但是LSTM的超参数调节较为困难,同时误差反向传播时容易发生梯度消失或爆炸的问题,算法仍具备一定改进空间。
在用户典型用电模式提取方面,国内外研究多采用基于欧氏距离的均值中心度量来提取用户典型用电模式,但该方法忽略了用户用电形态特性,无法刻画各类负荷在具体时段的微观波动。所提取的用户用电模式难以准确表征用户用电行为特性,无法适用于海量负荷数据的典型用电模式的精细化辨识研究。
综上所述,面对海量负荷数据呈现出的数据类别多样、结构复杂等特点,当前的用户用电行为辨识算法受限于算法性能,难以深入挖掘提取用电用户的潜在行为特性。同时,传统用户典型用电模式提取方法难以捕捉用户用电形态的细节特征,无法用于海量负荷数据的典型用电模式的精细化辨识研究。因此,需要提出针对海量负荷数据的用户用电行为类别和典型用电模式精细化辨识的有效方法,为电网公司制定个性化需求响应方案和用电优化策略以应对用户需求多元化挑战奠定基础,这对于改善电网运行可靠性、负荷预测、电价决策等具有重要意义。
发明内容
本发明的目的在于针对现有技术中存在的问题提供一种用户用电行为类别和典型用电模式精细化辨识方法,该方法具有高稳定性、高效性以及精准性,分析不同用户用电特征,展现其地域差异性、时域关联性以及空间相关性。
本发明的技术方案是:
一种用户用电行为类别和典型用电模式精细化辨识方法,包括如下步骤:
S1.数据预处理,对海量负荷数据进行预处理,修正问题数据;
S2.海量负荷数据分类算法模型建立,建立基于改进深度LSTM 网络的负荷分类模型;
S3.海量负荷数据特征提取,从各类负荷曲线中提取典型曲线模型表示此类曲线的共同特征;
S4.典型地市用户用电行为实例分析。
具体的,所述的步骤S1中数据预处理包括数据缺失处理、数据异常处理、数据归一化处理和数据标准化处理。
具体的,所述的数据的缺失处理包括均值填充法、回归填充法及曲线相似度的数据补全算法。
具体的,所述的数据异常处理包括直接丢弃存在异常的负荷数据。
具体的,所述的回归填充法是根据用户用电数据缺失值与其他属性值的相关性建立回归方程,对于包含缺失值的用户用电样本,通过建立的模型与已知属性值来估计并填充缺失值。
具体的,所述的曲线相似度的数据补全算法采用矩阵填充的方法对用户用电缺失数据进行预填充,定义曲线相似性度量;然后对于每一个存在数据缺失的用户用电样本,选取与其最为相似的k个样本,再次采用矩阵填充实现缺失数据的补全。
具体的,所述的数据归一化处理过程中归一化的公式表达如下:
其中,max(x)、min(x)分别为样本数据的最大值、最小值,归一化也称离差标准化,是对原始结果的线性变换,使得结果映射到[0,1] 之间,有新样本加入时,需要重新计算最大、最小值。
具体的,所述的步骤S2中所述的LSTM网络包括有三个门结构,分别是输入门、遗忘门、输出门,输入门用来控制信息输入,遗忘门用来控制细胞历史状态信息的保留,输出门用来控制信息输出,激活函数σ使得遗忘门的输出值在[0,1]之间,当遗忘门输出为0的时候,表示将上一状态的信息全部丢弃;为1的时候,表示上一状态的信息全部保留,其过程可用以下公式表示:
it=σ(Wix*xt+Wim*mt-1+Wicct-1+bi)
ft=σ(Wfz*xt+Wfm*mt-1+Wfc*ct-1+bf)
ct=ft⊙ct-1+it⊙g(Wcx*xt+Wcm*mt-1+bc)
ot=σ(Woz*xt+Wom*mt-1+Woc*ct+bo)
mt=ot⊙h(ct)
其中,it为输入门系数;ft为遗忘门系数;ct为t时刻更新后的细胞状态;ot为输出门系数;mt和yt分别为输出向量和最终输出;Wix为各个权重矩阵;b为偏置向量;σ为Sigmoid函数;c为细胞单元状态更新向量;⊙为点乘;g、h为cell的输入输出激活函数,一般为tanh函数;为最终输出激活函数,一般为SoftMax函数。
具体的,所述的步骤S3中海量负荷数据特征提取中典型曲线模型提取方法选取本类别所有数据向量的均值向量作为均值类中心,兼顾类内所有曲线,表示负荷曲线的整体特征;又按照曲线互相关性选取负荷曲线形态中心,具体表示曲线细微的上升下降变化。
具体的,所述的曲线形态中心提取按照Spearman相关系数进行曲线相似性的度量,计算公式为:
式中,ρ表示任意两向量间的Spearman相关系数,T为向量维度, d为两向量中元素排行差分集合。
本发明的有益效果是:本发明针对海量负荷数据预先进行丢弃处理,然后通过基于曲线相似度的数据缺失补全算法对存在数据质量问题的数据集进行预处理;其次通过数据归一化处理加快模型的收敛速度,提高模型的数据分类精度;最后,针对传统LSTM网络超参数确定困难、容易过拟合等问题,提出基于改进深度LSTM网络的负荷分类模型;进而分别通过提取负荷数据均值中心和形态中心得到各类负荷的典型用电模式,建立精细化的用户用电行为特征属性库,进一步理解用户用电行为。
本发明数据预处理采用数据缺失补全算法、数据归一化、标准化等方法,提高负荷大数据分析算法数据适应性,加快算法收敛速度并提高分析精度,梳理传统的数据预处理方法,结合海量负荷数据价值密度低、信息总量高的特点,确定适用于大数据场景下的数据缺失补全算法,设计科学合理的数据归一化、标准化等方法,改变数据分布属性,对接后续算法模型,加快算法收敛速度,提高算法分类精度。
提出适用于海量负荷类别数据的典型用电模式提取方法,精准辨识全省及典型地市用户典型用电行为,构建差异化的典型用电模式提取方法,综合展现各类负荷的典型用电模式,建立更加精细化的用户用电行为特征属性库,进一步厘清用户用电行为,为用户用电需求响应方案和用电优化策略研究提供实践基础。
附图说明
图1是本发明的结构示意图。
图2是基于曲线相似度的数据缺失补全算法流程图;
图3是LSTM细胞单元结构示意图;
图4是负荷数据深度学习模型的流程示意图。
具体实施方式
下面结合附图及具体实施方式对本发明的技术方案进行详细的描述。
一种用户用电行为类别和典型用电模式精细化辨识方法,包括如下步骤:
S1.数据预处理,对海量负荷数据进行预处理,修正问题数据;
S2.海量负荷数据分类算法模型建立,建立基于改进深度LSTM 网络的负荷分类模型;
S3.海量负荷数据特征提取,从各类负荷曲线中提取典型曲线模型表示此类曲线的共同特征;
S4.典型地市用户用电行为实例分析。
所述的步骤S1中数据预处理包括数据缺失处理、数据异常处理、数据归一化处理和数据标准化处理。所述的数据的缺失处理包括均值填充法、回归填充法及曲线相似度的数据补全算法。所述的数据异常处理包括直接丢弃存在异常的负荷数据,直接丢弃存在异常的样本数据是最简单的用户用电数据处理方案,该方法在异常数据占整个数据集的比例极其小且删除用户用电数据不会影响其他数据的情况下采用,采用均值填充用户用电数据时,数值型和非数值型的属性值分别根据该属性的平均值或者众数来填充该缺失的属性值。
所述的回归填充法是根据用户用电数据缺失值与其他属性值的相关性建立回归方程,对于包含缺失值的用户用电样本,通过建立的模型与已知属性值来估计并填充缺失值。
所述的曲线相似度的数据补全算法采用矩阵填充的方法对用户用电缺失数据进行预填充,定义曲线相似性度量;然后对于每一个存在数据缺失的用户用电样本,选取与其最为相似的k个样本,再次采用矩阵填充实现缺失数据的补全。面对大规模数据矩阵补全的优化问题,奇异值阈值算法(singular value thresholding,SVT)有着显著的求解效率优势,其流程图如图2所示,该算法具体实施步骤如下:
将用户负荷矩阵L奇异值分解后,计算其奇异值收缩算子Dτ,如下:
Dτ(L1)=UDτ(∑)VT;
将∑的全部奇异值元素减去奇异值收缩算子的收缩步长τ得到 Dτ(∑):Dτ(∑)=diag(max{0,σ-τ})
奇异值收缩算子的意义在于,通过奇异值的不断收缩来约束用户负荷矩阵的近似低秩特性,以此逼近最优补全结果。
将矩阵L1的所有奇异值按照步长进行奇异值收缩以后,恢复得到新的矩阵。从而得到求解低秩矩阵补全优化问题的迭代序列:
式中:T∈Rm×n是迭代过程中的中间矩阵,T0=0;k代表迭代数次;{δk}k≥1是权重系数的迭代序列集合;PΩ表示未缺失数据集合。
本实施例所述的数据归一化处理过程中归一化的公式表达如下:
其中,max(x)、min(x)分别为样本数据的最大值、最小值,归一化也称离差标准化,是对原始结果的线性变换,使得结果映射到[0,1] 之间,有新样本加入时,需要重新计算最大、最小值。在训练深度学习模型之前,对用户用电样本数据进行归一化和零均值化等特征放缩,可以加快模型的收敛速度,提高模型预测和分类的精度。
所述的步骤S2中所述的LSTM网络包括有三个门结构,分别是输入门、遗忘门、输出门,LSTM的细胞单元结构如图3所示,输入门用来控制信息输入,遗忘门用来控制细胞历史状态信息的保留,输出门用来控制信息输出,激活函数σ使得遗忘门的输出值在[0,1]之间,当遗忘门输出为0的时候,表示将上一状态的信息全部丢弃;为 1的时候,表示上一状态的信息全部保留,其过程可用以下公式表示:
it=σ(Wix*xt+Wim*mt-1+Wicct-1+bi)
ft=σ(Wfz*xt+Wfm*mt-1+Wfc*ct-1+bf)
ct=ft⊙ct-1+it⊙g(Wcx*xt+Wcm*mt-1+bc)
ot=σ(Woz*xt+Wom*mt-1+Woc*ct+bo)
mt=ot⊙h(ct)
其中,it为输入门系数;ft为遗忘门系数;ct为t时刻更新后的细胞状态;ot为输出门系数;mt和yt分别为输出向量和最终输出;Wix为各个权重矩阵;b为偏置向量;σ为Sigmoid函数;c为细胞单元状态更新向量;⊙为点乘;g、h为cell的输入输出激活函数,一般为tanh函数;为最终输出激活函数,一般为SoftMax函数。
将深度LSTM网络应用于负荷分类工作,其关键问题在于超参数的确定。针对该问题,本发明在传统深度LSTM网络负荷分类模型的基础上加入验证数据集,验证集可以对动态训练过程中模型的泛化能力进行监视,通过记录在训练过程中验证集上误差最小的模型参数,在测试集上对该模型参数以及训练完成时的模型参数进行测试,选择泛化能力最好的一组作为最终参数,从而避免由于超参数选择不合理带来的过拟合问题。其具体流程图如图4所示,其中虚线部分为深度LSTM网络模型结构:Sequence input layer将矩阵形式的输入数据转换为网络可以训练的时序数据,其参数input size是每个输入序列的特征维度;LSTM layer学习时序数据中序列数据与时间步长之间的依赖关系,并提取出固有的抽象特征;Fully connected layer接收从LSTM层提取的抽象特征,通过将输入数据与权重矩阵相乘并加入偏差向量来降低分类输出层的数据复杂度;SoftMax层对经过Fullyconnected layer的输入采用SoftMax激活函数,可以将多分类问题的输出数值转化为分类数据属于各个类别的概率;Classification layer 从Softmax函数中获取输入,并通过计算交叉熵损失函数得到模型的预测结果和真实值之间的差异,交叉熵损失函数值也是判断网络是否收敛的依据。
为明确表示用户负荷分类类型的差异性和独特性,需从各类负荷曲线中提取典型模型表示此类曲线的共同特征。大多数负荷分类过程是按照以距离规则区分的训练样本来辨识负荷类型的,同一类型负荷曲线距离相关性较强。为从宏观趋势和微观波动上分别体现各类负荷的整体和精细化特征,所述的步骤S3中海量负荷数据特征提取中典型曲线模型提取方法选取本类别所有数据向量的均值向量作为均值类中心,兼顾类内所有曲线,表示负荷曲线的整体特征;又按照曲线互相关性选取负荷曲线形态中心,具体表示曲线细微的上升下降变化。
所述的曲线形态中心提取按照Spearman相关系数进行曲线相似性的度量,计算公式为:
式中,ρ表示任意两向量间的Spearman相关系数,T为向量维度, d为两向量中元素排行差分集合。
具体负荷形态模型选取步骤如下:
a、在各类负荷数据中,按照式表示两独立变量的相关方向,计算公式计算两负荷向量的相似度;
b、对于某一负荷数据向量,其与所在类全部数据的相似度按照下式求和:
ρΣ为某一负荷向量与其所在类所有数据相似度之和,N为该类向量个数。
c、选取与类内所有数据相似度最高,即ρΣ最大的负荷数据向量作为该类形态中心。
本发明针对现有用电行为分析技术对典型用电模式辨识精度较低的问题,首先通过基于曲线相似度的数据缺失补全算法对存在数据质量问题的数据集进行预处理;其次通过数据归一化处理加快模型的收敛速度,提高模型的数据分类精度;最后,针对传统LSTM网络超参数确定困难、容易过拟合等问题,提出基于改进深度LSTM网络的负荷分类模型;进而分别通过提取负荷数据均值中心和形态中心得到各类负荷的典型用电模式,建立精细化的用户用电行为特征属性库,进一步理解用户用电行为。
针对海量负荷数据潜在的数据缺失问题,提出基于曲线相似度的缺失数据补全算法,首先采用均值填充的方法对用户用电数据进行低精度预填充;其次定义基于欧式距离的曲线相似性度量,遍历存在数据缺失的用户用电样本曲线,利用与其最为相似的k个样本,再次利用均值填充实现缺失数据的高精度恢复。数据归一化可有效解决不同时序数据比较问题,使得原始数据均转换为无量纲化指标测评值,即各指标值都处在同一个数量级别上,可以进行综合测评分析。在训练深度学习模型之前,对用户用电样本数据进行数据标准化,可以加快模型的收敛速度,提高模型预测和分类的精度。
海量负荷数据在经过预处理之后,采用深度LSTM网络模型对其进行训练和分类。首先经过卷积神经网络模块对时序趋势特征进行压缩;然后将其转换为适用于LSTM的数据结构;其次利用LSTM 学习时序数据中序列数据与时间步长之间的依赖关系,提取固有的典型特征;之后通过全连接层进一步提升模型的曲线趋势特征捕捉能力;下一步经过SoftMax将多分类问题的输出数值转化为分类数据属于各个类别的概率;最后通过Classificationlayer输出分类结果。针对训练过程中超参数的选择问题,本研究在传统深度LSTM网络负荷分类模型的基础上加入验证数据集,验证集可以对动态训练过程中模型的泛化能力进行监视,通过记录在训练过程中验证集上误差最小的模型参数,在测试集上对该模型参数以及训练完成时的模型参数进行测试,选择泛化能力最好的一组作为最终参数,从而避免由于超参数选择不合理带来的过拟合问题。
为明确表示用户负荷分类类型的差异性和独特性,需从各类负荷曲线中提取典型模型表示此类曲线的共同特征。大多数负荷分类过程是按照以距离规则区分的训练样本来辨识负荷类型的,同一类型负荷曲线距离相关性较强。为从宏观趋势和微观波动上分别体现各类负荷的整体和精细化特征,本项目按照经典的曲线模型提取方法选取本类别所有数据向量的均值向量作为均值类中心,兼顾类内所有曲线,表示负荷曲线的整体特征;又按照曲线互相关性选取负荷形态中心,能够更加具体表示曲线细微的上升下降变化。
根据建立的高性能海量数据分类模型,构建全省及典型地市用户用电场景,比较传统分类算法的典型性能指标,体现本发明提供的分类算法的稳定性、高效性以及精准性,分析不同用户用电特征,展现其地域差异性、时域关联性以及空间相关性。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
Claims (10)
1.用户用电行为类别和典型用电模式精细化辨识方法,其特征在于,包括如下步骤:
S1.数据预处理,对海量负荷数据进行预处理,修正问题数据;
S2.海量负荷数据分类算法模型建立,建立基于改进深度LSTM网络的负荷分类模型;
S3.海量负荷数据特征提取,从各类负荷曲线中提取典型曲线模型表示此类曲线的共同特征;
S4.典型地市用户用电行为实例分析。
2.根据权利要求1所述用户用电行为类别和典型用电模式精细化辨识方法,其特征在于,所述的步骤S1中数据预处理包括数据缺失处理、数据异常处理、数据归一化处理和数据标准化处理。
3.根据权利要求2所述用户用电行为类别和典型用电模式精细化辨识方法,其特征在于,所述的数据的缺失处理包括均值填充法、回归填充法及曲线相似度的数据补全算法。
4.根据权利要求2所述用户用电行为类别和典型用电模式精细化辨识方法,其特征在于,所述的数据异常处理包括直接丢弃存在异常的负荷数据。
5.根据权利要求3所述用户用电行为类别和典型用电模式精细化辨识方法,其特征在于,所述的回归填充法是根据用户用电数据缺失值与其他属性值的相关性建立回归方程,对于包含缺失值的用户用电样本,通过建立的模型与已知属性值来估计并填充缺失值。
6.根据权利要求3所述用户用电行为类别和典型用电模式精细化辨识方法,其特征在于,所述的曲线相似度的数据补全算法采用矩阵填充的方法对用户用电缺失数据进行预填充,定义曲线相似性度量;然后对于每一个存在数据缺失的用户用电样本,选取与其最为相似的k个样本,再次采用矩阵填充实现缺失数据的补全。
8.根据权利要求1所述用户用电行为类别和典型用电模式精细化辨识方法,其特征在于,所述的步骤S2中所述的LSTM网络包括有三个门结构,分别是输入门、遗忘门、输出门,输入门用来控制信息输入,遗忘门用来控制细胞历史状态信息的保留,输出门用来控制信息输出,激活函数σ使得遗忘门的输出值在[0,1]之间,当遗忘门输出为0的时候,表示将上一状态的信息全部丢弃;为1的时候,表示上一状态的信息全部保留,其过程可用以下公式表示:
it=σ(Wix*xt+Wim*mt-1+Wicct-1+bi)
ft=σ(Wfz*xt+Wfm*mt-1+Wfc*ct-1+bf)
ct=ft⊙ct-1+it⊙g(Wcx*xt+Wcm*mt-1+bc)
ot=σ(Woz*xt+Wom*mt-1+Woc*ct+bo)
mt=ot⊙h(ct)
9.根据权利要求1所述用户用电行为类别和典型用电模式精细化辨识方法,其特征在于,所述的步骤S3中海量负荷数据特征提取中典型曲线模型提取方法选取本类别所有数据向量的均值向量作为均值类中心,兼顾类内所有曲线,表示负荷曲线的整体特征;又按照曲线互相关性选取负荷曲线形态中心,具体表示曲线细微的上升下降变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643498.5A CN113033596A (zh) | 2020-12-30 | 2020-12-30 | 用户用电行为类别和典型用电模式精细化辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643498.5A CN113033596A (zh) | 2020-12-30 | 2020-12-30 | 用户用电行为类别和典型用电模式精细化辨识方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113033596A true CN113033596A (zh) | 2021-06-25 |
Family
ID=76460570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011643498.5A Pending CN113033596A (zh) | 2020-12-30 | 2020-12-30 | 用户用电行为类别和典型用电模式精细化辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033596A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673168A (zh) * | 2021-08-27 | 2021-11-19 | 广东电网有限责任公司广州供电局 | 模型参数修正方法、装置、设备及可读存储介质 |
CN113887809A (zh) * | 2021-10-11 | 2022-01-04 | 国网新疆电力有限公司巴州供电公司 | 双碳目标下配电网供需平衡方法、系统、介质及计算设备 |
CN113988436A (zh) * | 2021-11-01 | 2022-01-28 | 广西电网有限责任公司 | 基于lstm神经网络和层级关系修正的用电量预测方法 |
CN116029457A (zh) * | 2023-02-21 | 2023-04-28 | 南方电网调峰调频发电有限公司鲁布革水力发电厂 | 基于负荷数据分析的电力市场电能协调优化方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303263A (zh) * | 2015-11-16 | 2016-02-03 | 深圳合纵能源技术有限公司 | 一种区域电网的负荷预测系统及其方法 |
CN109598451A (zh) * | 2018-12-27 | 2019-04-09 | 东北大学 | 一种基于pca与lstm神经网络的非侵入式负荷辨识方法 |
CN111415270A (zh) * | 2020-03-03 | 2020-07-14 | 浙江万胜智能科技股份有限公司 | 一种基于lstm学习的电力负荷智能识别方法 |
CN111667135A (zh) * | 2020-03-25 | 2020-09-15 | 国网天津市电力公司 | 一种基于典型特征提取的负荷结构解析方法 |
CN112116153A (zh) * | 2020-09-18 | 2020-12-22 | 上海电力大学 | 一种耦合Copula与堆叠式LSTM网络的园区多元负荷联合预测方法 |
-
2020
- 2020-12-30 CN CN202011643498.5A patent/CN113033596A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303263A (zh) * | 2015-11-16 | 2016-02-03 | 深圳合纵能源技术有限公司 | 一种区域电网的负荷预测系统及其方法 |
CN109598451A (zh) * | 2018-12-27 | 2019-04-09 | 东北大学 | 一种基于pca与lstm神经网络的非侵入式负荷辨识方法 |
CN111415270A (zh) * | 2020-03-03 | 2020-07-14 | 浙江万胜智能科技股份有限公司 | 一种基于lstm学习的电力负荷智能识别方法 |
CN111667135A (zh) * | 2020-03-25 | 2020-09-15 | 国网天津市电力公司 | 一种基于典型特征提取的负荷结构解析方法 |
CN112116153A (zh) * | 2020-09-18 | 2020-12-22 | 上海电力大学 | 一种耦合Copula与堆叠式LSTM网络的园区多元负荷联合预测方法 |
Non-Patent Citations (1)
Title |
---|
金程金融研究院 编著: "《FRM二级中文精读(上)》", 民主与建设出版社 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673168A (zh) * | 2021-08-27 | 2021-11-19 | 广东电网有限责任公司广州供电局 | 模型参数修正方法、装置、设备及可读存储介质 |
CN113673168B (zh) * | 2021-08-27 | 2024-05-31 | 广东电网有限责任公司广州供电局 | 模型参数修正方法、装置、设备及可读存储介质 |
CN113887809A (zh) * | 2021-10-11 | 2022-01-04 | 国网新疆电力有限公司巴州供电公司 | 双碳目标下配电网供需平衡方法、系统、介质及计算设备 |
CN113988436A (zh) * | 2021-11-01 | 2022-01-28 | 广西电网有限责任公司 | 基于lstm神经网络和层级关系修正的用电量预测方法 |
CN113988436B (zh) * | 2021-11-01 | 2023-04-28 | 广西电网有限责任公司 | 基于lstm神经网络和层级关系修正的用电量预测方法 |
CN116029457A (zh) * | 2023-02-21 | 2023-04-28 | 南方电网调峰调频发电有限公司鲁布革水力发电厂 | 基于负荷数据分析的电力市场电能协调优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113033596A (zh) | 用户用电行为类别和典型用电模式精细化辨识方法 | |
WO2019237492A1 (zh) | 一种基于半监督学习的异常用电用户检测方法 | |
CN112561156A (zh) | 基于用户负荷模式分类的短期电力负荷预测方法 | |
CN104523268A (zh) | 一种具备迁移学习能力的脑电信号识别模糊系统方法 | |
CN116937579B (zh) | 一种考虑时空相关性的风电功率区间预测及其可解释方法 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN110544177A (zh) | 基于电力指纹的负荷识别方法及计算机可读存储介质 | |
CN115470962A (zh) | 一种基于LightGBM的企业失信风险预测模型构建方法 | |
CN114580262B (zh) | 一种锂离子电池健康状态估计方法 | |
CN115730635A (zh) | 一种电动汽车负荷预测方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN114596726B (zh) | 基于可解释时空注意力机制的停车泊位预测方法 | |
CN117786441A (zh) | 一种基于改进K-means聚类算法的多场景光伏用户用电行为分析方法 | |
CN113987910A (zh) | 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置 | |
CN111090679B (zh) | 基于时序影响和图嵌入的时序数据表示学习方法 | |
CN117131022A (zh) | 一种电力信息系统的异构数据迁移方法 | |
CN112287979A (zh) | 一种基于互信息的储能电池状态判定方法 | |
CN111858343A (zh) | 一种基于攻击能力的对抗样本生成方法 | |
CN106816871B (zh) | 一种电力系统状态相似性分析方法 | |
CN115545342A (zh) | 一种企业电费回收的风险预测方法与系统 | |
Long et al. | Power quality disturbance identification and optimization based on machine learning | |
CN115017988A (zh) | 一种用于状态异常诊断的竞争聚类方法 | |
CN110942089B (zh) | 一种基于多级决策的击键识别方法 | |
CN113111588A (zh) | 一种燃气轮机nox排放浓度预测方法及装置 | |
CN113469106B (zh) | 一种缺失数据的knn区间型轴承故障诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210625 |
|
RJ01 | Rejection of invention patent application after publication |