CN114881120B

CN114881120B - 基于深度自编码器和聚类的台区户变关系识别方法和系统

Info

Publication number: CN114881120B
Application number: CN202210410801.XA
Authority: CN
Inventors: 缪晓卫; 袁健华; 欧朱建; 黄冬冬; 施辉; 曹越; 袁明秋; 唐琳; 江和和
Original assignee: Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co
Current assignee: Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-12-26
Anticipated expiration: 2042-04-19
Also published as: CN114881120A

Abstract

本发明公开了一种基于深度自编码器和聚类的台区户变关系识别方法和系统，采集台区变压器侧及台区用户侧的电压幅值数据，剔除异常值并填补缺失值，分别对每个电压序列进行归一化，得到96维的电压时序数据；运用深度自编码器对样本数据进行迭代训练，取自编码器输出的隐变量作为聚类的输入；采用自适应的DBSCAN聚类方法，对自编码器输出的隐变量进行聚类分析，并自动调节聚类参数重新聚类以达到最优效果，得到户变关系错误用户；最后输出户变关系错误的样本标号，并将DBSCAN聚类结果可视化输出。该方法无需安装额外设备和装置，对数据需求量低，降低了户变关系识别成本；同时具备自适应性，对不同台区都有较好识别效果。

Description

基于深度自编码器和聚类的台区户变关系识别方法和系统

技术领域

本发明发明涉及电力系统配电台区管理领域，具体的说，本发明涉及一种基于深度学习和DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)聚类的台区户变关系识别方法和系统。

背景技术

本部分的陈述仅仅是提供了与本发明发明相关的背景技术信息，并不必然构成在先技术。

在用电信息采集系统中，台区档案的准确性对配电网的安全稳定运行起着十分重要的作用，错误的台区档案会直接影响配电网台区线损计算的准确性。近年来，随着城市化程度提高，居民小区用户数量不断增加，配电网用电负荷加大，一方面需要对配网进行改造重新划分台区，由于采集系统和营销系统更新不及时，很容易出现系统中多个台区用户挂接不对应或者有表用户电量统计不到系统的状况；另一方面，一部分老旧小区，特别是城中村地带，私拉乱接现象严重，清查台区档案困难；此外，地方调度临时调整负荷而采取的倒闸操作等原因也会导致台区户变关系的改变。当台区户变关系发生改变时，若营销系统信息更新不及时，就会导致配电网的台区档案记录时有错误发生，进而导致台区线损异常，因此需要对台区户变关系进行有效识别。

目前国内比较常用的户变关系识别方法主要基于载波通信技术和脉冲电流技术，但它们对于硬件设备和信号传输的要求较高，难以大面积的推广应用，同时需要人工逐户排查，工作量巨大。鉴于上述问题，亟待一种无需额外安装设备及人工逐户排查，又有高准确率的智能识别方法。近年来国网公司大力推进用户用电信息采集系统建设，在各省市地区已实现了基本覆盖并获得了海量用户用电数据，可用于大数据分析得出正确的户变关系。

发明内容

本发明发明为了解决上述问题，利用每户电能表收集的电压幅值数据及台区电压幅值数据，构建了基于深度学习和聚类的户变关系识别模型，从而在无需安装额外设备和装置的情况下实现台区户变关系的识别，并输出识别结果与档案不符的用户，用于后续具体核查。

为达到上述目的，本发明采用如下技术方案：

本发明提出一种基于深度自编码器和聚类的台区户变关系识别方法，所述方法包括如下步骤：

S1：数据采集与预处理；

S2：运用深度自编码器对预处理的样本数据进行迭代训练并提取特征；

S3：取编码器最后一层隐含层输出的隐变量，使用自适应的DBSCAN聚类对其进行聚类分析；

S4：输出户变关系异常用户号实现台区户变关系识别，并将DBSCAN聚类结果可视化输出，方便运维人员快速理清台区户变关系。

进一步地，所述步骤S1中，间隔15分钟采集台区变压器侧及台区用户侧的电压幅值数据；从原始数据中剔除异常值并填补缺失值，分别对每个电压序列进行最大值最小值归一化，得到96维的电压时序数据。

进一步地，所述步骤S2中，深度自编码器结构为：每层神经网络间采用全连接结构，其每层网络神经元数为96/48/16/3/16/48/96，激活函数采用tanh函数。深度自编码器的迭代训练过程为：将预处理数据输入深度自编码器，经编码器和解码器后得到重建的96维数据，计算重建误差，采用Adam优化器将误差反向传播，对网络参数进行更新。

进一步地，所述步骤S3包括：

采用自适应的DBSCAN聚类方法，对自编码器输出的降维数据进行聚类分析，并在不满足要求时自动调节聚类参数重新聚类，得到户变关系错误用户。步骤S3所述的自适应的DBSCAN聚类分析过程包括：

S1：随机选择一个未标记的电压特征向量p；

S2：根据聚类的邻域距离阈值ε和邻域样本密度阈值MinPts，将S1中选择的电压特征向量p标记为核心点或待定点。

S3：若p为核心点，以p为核心创建新簇C_i，将其领域内样本添加到集合N。

S4：取N中的一个电压特征向量q，将q标记为簇C_i的样本，检查q邻域N_ε(q)中所有电压特征向量r，若q邻域内电压特征向量总数大于邻域样本密度阈值MinPts，则将所有r添加到集合N。

S5：重复S4过程直到无法添加新电压特征向量到簇C_i。

S6：重复S1-S5直到所有电压特征向量都被标记，将所有待定点标记为噪声点。

进一步地，所述DBSCAN聚类参数自动调节方法为：根据噪声样本占总样本比例，按一定步长调整邻域距离阈值并重新聚类直到满足要求，输出户变关系错误的样本标号，并将DBSCAN聚类结果可视化输出。

为达到上述目的，本发明另一方面实施例提出了一种基于深度自编码器和DBSCAN聚类的户变关系识别系统，包括采集与预处理模块、特征提取模块、聚类模块，输出模块。

所述采集与预处理模块，用于采集处理输入的原始电压时序数据。

所述特征提取模块，用于对预处理后的数据进行特征提取，获得高维稀疏特征的低维表达；

所述聚类模块，取编码器最后一层隐含层输出的隐变量h，使用自适应的DBSCAN聚类对其进行聚类分析；

所述输出模块，输出户变关系异常用户号实现台区户变关系识别，并将DBSCAN聚类结果可视化输出，方便运维人员快速理清台区户变关系。

进一步地，本发明还提出一种终端，包括处理器及存储介质；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行根据本发明所述方法的步骤。

进一步地，本发明还提出计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明所述方法的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明先通过深度自编码器对高维电压时序数据进行了降维和特征提取，再对降维后数据进行DBSCAN聚类，提高了聚类效果和识别准确度，同时无需安装额外的硬件设备，无需人工逐户排查，降低了户变关系识别成本。

(2)本发明使用的深度自编码器，无需大量带标签数据，在小样本无标签数据集上特征提取效果明显优于其它深度学习算法，同时能够方便的将结果可视化，比其它传统特征提取和降维方法更为直观。

(2)本发明通过自适应的DBSCAN聚类方法识别户变关系，适用于处理含个别异常点的数据集，而台区户变关系错误用户远少于正常用户，因此相比k-means等聚类算法，本发明所用方法能更直观快速地确定户变关系识别错误的用户。同时能自动调节DBSCAN参数重新聚类，对不同数据分布都有良好的普适性。最后对聚类数据可视化输出，方便运维人员快速直观判明户变关系错误的用户。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的限定。

图1为本发明的基于深度自编码器和DBSCAN聚类的台区户变关系识别方法具体流程图；

图2为本发明的深度自编码器结构示意图；

图3为本发明的DBSCAN聚类分析算法具体流程图；

图4为本发明的基于深度自编码器和DBSCAN聚类的台区户变关系识别系统结构示意图；

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

如图1所示，基于深度自编码器和DBSCAN聚类的台区户变关系识别方法包括以下步骤：

步骤一，在一天内间隔15分钟采集台区变压器二次侧和用户侧的电压，对采集到的电压时序数据进行预处理，从原始数据中剔除异常值并填补缺失值，分别对每个电压序列进行归一化，得到96维的电压时序数据。

其中，所述剔除异常值并填补缺失值的具体过程为：

筛选样本数据集中缺失的电压数据，判定为缺失值，当一样本缺失值占比超过该样本总数据的5％时，输出对应户号，并将该户数据从样本集中删除；当一样本缺失值占比低于样本总数据的5％时，利用插值方法补全数据。

筛选样本数据集中远超电网合理运行范围的电压数据，判定为异常值，当一样本异常值占比超过该样本总数据的5％时，输出对应户号，并将该户数据从样本集中删除；当一样本异常值占比低于样本总数据的5％时，利用插值方法补全数据。

其中，所述归一化采用最大值最小值归一化，具体为：

式中x_i ^(k)表示第k个电压序列中第i个电压幅值数据，为第k个电压序列中电压幅值最大值，/>为第k个电压序列中电压幅值最小值。

数据预处理后得到96维电压时序数据，作为深度自编码器的输入。

步骤二，训练深度自编码器，对预处理数据降维并提取特征。

进一步地，所述训练深度自编码器过程为：搭建深度自编码器，将归一化后的数据输入深度自编码器，计算编码器输入数据与解码器输出数据的重构误差，采用Adam算法对网络参数反复迭代更新，使深度自编码器的重构误差最小。其中重构误差具体为：

其中，为经过深度自编码器重构的96维电压序列中第i个电压幅值数据，n为电压序列维数。

进一步地，深度自编码器结构如图2所示，由编码器和解码器两部分组成，编码器部分对经过预处理电压时序数据进行降维，得到隐变量h，解码器部分将隐变量h还原为原96维电压时序数据。每层神经网络间采用全连接结构，其每层网络神经元数为96/48/16/3/16/48/96，其表达式具体为：

其中，h^(k)为深度自编码器的编码器输出，为经过深度自编码器重构的96维电压时序数据，W₁和W₂为编码器和解码器网络的权重矩阵，b₁和b₂为编码器和解码器网络的偏置项。g(·)为激活函数tanh，用于给神经网络引入非线性因素，具体为：

步骤三，取编码器最后一层隐含层输出的隐变量h，使用自适应的DBSCAN聚类对其进行聚类分析。如图3所示，DBSCAN聚类分析具体过程为：

设解码器最后一层隐含层输出向量为p_i，其集合为D＝(p₁,p₂,……,p_m)，即为降维后的台区电压特征数据集。

S1：随机选择一个未标记的电压特征向量p；

S2：根据聚类的邻域距离阈值ε和邻域样本密度阈值MinPts，将S1中选择的电压特征向量p标记为核心点或噪声点，具体过程为：

设N_ε(p)为编码器输出集合D中与p的距离不大于ε的电压特征向量子集，称N_ε(p)为p的邻域，具体为：

N_ε(p)＝{q∈D|distance(p,q)≤ε}

其中，distance(p,q)表示输出向量p和q间的欧氏距离。

计该子集中电压特征向量个数为ρ(p)＝|N_ε(p)|，若ρ(p)≥MinPts，则将p标记为核心点，否则标记为待定点并重复S1。

S3：若p为核心点，以p为核心创建新簇C_i，令N＝N_ε(p)。

S4：取N中的一个电压特征向量q，根据聚类的邻域距离阈值ε和邻域样本密度阈值MinPts，检查q邻域N_ε(q)中所有电压特征向量r，具体过程为：

令q的邻域N_ε(q)＝{r∈D|distance(q,r)≤ε,q∈N_ε(p)}，ρ(q)＝|N_ε(q)|。

将q标记为簇C_i的样本，若ρ(q)≥MinPts，则将q邻域N_ε(q)中所有电压特征向量r添加到集合N。

S5：重复S4过程直到无法添加新电压特征向量到簇C_i。

DBSCAN聚类效果受邻域距离阈值ε和邻域样本密度阈值MinPts影响很大，上述参数仅靠初始设置难以适应复杂多变的台区户变关系情况，因此本发明采用一种可以自动调节聚类参数的方法，其具体过程为：

S1：计算台区电压序列与其它用户电压序列距离μ＝distance(p_taiqu,p)，并取最大值μ_max。

S2：设置ε为进行一次聚类。

S3：若聚类结果中噪声样本占总样本比例超过10％，则ε以步长递增，并重新进行一次聚类，直到/>时停止，否则输出噪声样本标号及样本数少于总样本数10％的簇样本标号。

步骤四，输出户变关系异常用户号实现台区户变关系识别，并将DBSCAN聚类结果可视化输出，方便运维人员快速理清台区户变关系。

进一步地，DBSCAN聚类结果可视化输出为三维图像，每个样本为一个坐标点，聚类的每一簇及噪声点由不同颜色表示，每个样本标注有用户号，方便运维人员快速直观判明户变关系错误的用户。

实施例2

一种基于深度自编码器和DBSCAN聚类的户变关系识别系统，包括采集与预处理模块、特征提取模块、聚类模块，输出模块，其结构如图4所示。

采集与预处理模块，用于采集处理输入的原始电压时序数据。

进一步地，数据采集与预处理包括：间隔15分钟采集台区变压器侧及台区用户侧的电压幅值数据；从原始数据中剔除异常值并填补缺失值，分别对每个电压序列进行最大值最小值归一化，得到96维的电压时序数据。

特征提取模块，用于对预处理后的数据进行特征提取，获得高维稀疏特征的低维表达。

进一步地，数据特征提取包括，运用深度自编码器对样本数据进行迭代训练，取训练后的深度自编码器输出作为聚类的输入；

进一步地，深度自编码器结构为：每层神经网络间采用全连接结构，其每层网络神经元数为96/48/16/3/16/48/96，激活函数采用tanh函数。

进一步地，深度自编码器的迭代训练过程为：将预处理数据输入深度自编码器，经编码器和解码器后得到重建的96维数据，计算重建误差，采用Adam优化器将误差反向传播，对网络参数进行迭代更新。

聚类模块，采用一种自适应的DBSCAN聚类方法，对自编码器输出的降维数据进行聚类分析，确定台区户变关系。

进一步地，自适应的DBSCAN聚类分析过程包括：

S1：随机选择一个未标记的电压特征向量p；

S5：重复S4过程直到无法添加新电压特征向量到簇C_i。

进一步地，DBSCAN聚类参数自动调节方法为：根据噪声样本占总样本比例，按一定步长调整邻域距离阈值并重新聚类直到满足要求。

输出模块，用于输出户变关系错误的样本标号，并将DBSCAN聚类结果可视化输出。

实施例1和实施例2提出了一种基于深度自编码器和DBSCAN聚类的台区户变关系识别方法和系统。首先，采集台区变压器侧及台区用户侧的电压幅值数据，剔除异常值并填补缺失值，分别对每个电压序列进行归一化，得到96维的电压时序数据；运用深度自编码器对样本数据进行迭代训练，取自编码器输出的隐变量作为聚类的输入；采用一种自适应的DBSCAN聚类方法，对自编码器输出的隐变量进行聚类分析，并自动调节聚类参数重新聚类以达到最优效果，得到户变关系错误用户；最后输出户变关系错误的样本标号，并将DBSCAN聚类结果可视化输出。该方法无需安装额外设备和装置，对数据需求低，降低了户变关系识别成本；同时方法具备一定自适应性，对不同台区都有较好识别效果。

本发明还提出计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明所述方法的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度自编码器和聚类的台区户变关系识别方法，其特征在于，所述方法包括如下步骤：

S1：数据采集与预处理；

间隔15分钟采集台区变压器侧及台区用户侧的电压幅值数据；从原始数据中剔除异常值并填补缺失值，包括：

当一样本缺失值占比超过样本总数据的5％时，输出对应户号，并将该户数据从样本集中删除；当一样本缺失值占比低于样本总数据的5％时，利用插值方法补全数据；

筛选样本数据集中超过电网运行范围的电压数据，判定为异常值，当一样本异常值占比超过样本总数据的5％时，输出对应户号，并将该户数据从样本集中删除；当一样本异常值占比低于样本总数据的5％时，利用插值方法补全数据；

分别对每个电压序列进行最大值最小值归一化，得到96维的电压时序数据；

训练深度自编码器过程为：搭建深度自编码器，将归一化后的数据输入深度自编码器，计算编码器输入数据与解码器输出数据的重构误差，采用Adam算法对网络参数反复迭代更新，使深度自编码器的重构误差最小；其中重构误差具体为：

其中，为经过深度自编码器重构的96维电压序列中第i个电压幅值数据，n为电压序列维数；

深度自编码器由编码器和解码器两部分组成，编码器部分对经过预处理电压时序数据进行降维，得到隐变量h，解码器部分将隐变量h还原为原96维电压时序数据；每层神经网络间采用全连接结构，其每层网络神经元数为96/48/16/3/16/48/96，其表达式具体为：

；

其中，h^(k)为深度自编码器的编码器输出，为经过深度自编码器重构的96维电压序列中的电压幅值数据，W₁和W₂为编码器和解码器网络的权重矩阵，b₁和b₂为编码器和解码器网络的偏置项，g(·)为激活函数tanh，用于给神经网络引入非线性因素，具体为：

采用Adam优化器将误差反向传播，对网络参数进行更新；

S3：取编码器最后一层隐含层输出的隐变量h，使用自适应的DBSCAN聚类对其进行聚类分析；包括：

S31：随机选择一个未标记的电压特征向量p；

S32：根据聚类的邻域距离阈值ε和邻域样本密度阈值MinPts，将S31选择的电压特征向量p标记为核心点或待定点；

S33：若选择电压特征向量p为核心点，以所述核心点p为核心创建新簇C_i，将其领域内样本添加到集合N；

S34：取集合N中的一个电压特征向量q，将电压特征向量q标记为簇C_i的样本，检查电压特征向量q邻域N_ε(q)中所有电压特征向量r，若电压特征向量q邻域N_ε(q)内电压特征向量r总数大于邻域样本密度阈值MinPts，则将所有电压特征向量r添加到集合N；

S35：重复步骤S34过程直到无法添加新的电压特征向量r到集合N；

S36：重复步骤S31-S35直到所有电压特征向量p都被标记为核心点或待定点，将所有待定点标记为噪声点；

采用自适应的DBSCAN聚类对自编码器输出的降维数据进行聚类分析，并在不满足要求时自动调节聚类参数重新聚类，得到户变关系错误用户；

S4：输出户变关系异常用户号实现台区户变关系识别，并将DBSCAN聚类结果可视化输出，方便运维人员快速理清台区户变关系；

DBSCAN聚类参数自动调节方法为：根据噪声样本占总样本比例，按一定步长调整邻域距离阈值并重新聚类直到满足要求，输出户变关系错误的样本标号，并将DBSCAN聚类结果可视化输出。

2.一种基于深度自编码器和聚类的台区户变关系识别系统，用于实现如权利要求1所述的方法，其特征在于，所述系统包括采集与预处理模块、特征提取模块、聚类模块，输出模块；

所述采集与预处理模块，用于采集处理输入的原始电压时序数据；间隔15分钟采集台区变压器侧及台区用户侧的电压幅值数据；从原始数据中剔除异常值并填补缺失值，

所述特征提取模块，用于对预处理后的数据进行特征提取，获得高维稀疏特征的低维表达；训练深度自编码器过程为：搭建深度自编码器，将归一化后的数据输入深度自编码器，计算编码器输入数据与解码器输出数据的重构误差，采用Adam算法对网络参数反复迭代更新，使深度自编码器的重构误差最小；其中重构误差具体为：

；

采用Adam优化器将误差反向传播，对网络参数进行更新；

所述聚类模块，取编码器最后一层隐含层输出的隐变量h，使用自适应的DBSCAN聚类对其进行聚类分析；包括：

S31：随机选择一个未标记的电压特征向量p；

S34：取集合N中的一个电压特征向量q，将电压特征向量q标记为簇C_i的样本，检查电压特征向量q邻域N_ε(q)中所有电压特征向量r，若电压特征向量q邻域N_ε(q)内电压特征向量r总数大于邻域样本密度阈值MinPts，则将所有电压特征相连r添加到集合N；

所述输出模块，输出户变关系异常用户号实现台区户变关系识别，并将DBSCAN聚类结果可视化输出，方便运维人员快速理清台区户变关系；

所述DBSCAN聚类参数自动调节方法为：根据噪声样本占总样本比例，按一定步长调整邻域距离阈值并重新聚类直到满足要求，输出户变关系错误的样本标号，并将DBSCAN聚类结果可视化输出。

3.一种终端，其特征在于，包括处理器及存储介质；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行根据权利要求1所述方法的步骤。

4.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1所述方法的步骤。