CN115618249A - 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法 - Google Patents

一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法 Download PDF

Info

Publication number
CN115618249A
CN115618249A CN202211390547.8A CN202211390547A CN115618249A CN 115618249 A CN115618249 A CN 115618249A CN 202211390547 A CN202211390547 A CN 202211390547A CN 115618249 A CN115618249 A CN 115618249A
Authority
CN
China
Prior art keywords
voltage
data
user
largevis
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211390547.8A
Other languages
English (en)
Inventor
刘斌
谈竹奎
吕黔苏
殷子皓
华涛
张秋雁
徐玉韬
欧家祥
高吉普
范强
唐赛秋
聂沧禹
黄青
吴艾婷
许乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN202211390547.8A priority Critical patent/CN115618249A/zh
Publication of CN115618249A publication Critical patent/CN115618249A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,包括采集某日期下台区用户及母线电压数据并进行校验;挑选出临近母线的用户节点,通过计算这部分节点电压与各相母线电压的皮尔逊相关系数识别出其所属相位,对剩余节点进行Z‑score标准化。本发明采用LargeVis降维方法对用户数据进行降维,并将降维后的数据进行最大最小值归一化处理;采用DBSCAN算法对归一化后的降维数据进行聚类并输出各用户的相位识别结果,提高了识别的准确率,便于后续算法操作,降低了时间和空间复杂度,去除高维空间中冗余的噪声。采用非线性的LargeVis降维方法将台区用户电压矩阵的高维度数据集降低至2或3维空间,保留原始台区电压数据集的分布特性,便于对数据合理化解释。

Description

一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识 别方法
技术领域
本发明涉及低压配电网技术领域,特别是一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法。
背景技术
随着社会经济和新能源技术的快速发展,对处于电力系统末端的低压配电网的稳定运行提出了更高的要求。低压配电网之中,普遍存在用户接线混乱的情况,大量存在的单相低压负荷由于在建设初期没有进行合理的负荷容量规划,往往造成后期运行时,低压配电网出现严重的三相不平衡现象。同时随着大规模新能源建设,分布式光伏、储能设备及新能源电动汽车等新型电力设备并入低压配电网,对低压配电网也产生新一轮的冲击。
相较于发展较为成熟的高压输电网络和中压配电网能够充分、完整地获取节点信息,供电部门对于低压用户计量数据了解程度往往仅限于用户用电量以及配网终端侧获取整个台区用电情况、配电二次母线侧线路信息等。更多涉及用户电气信息只能通过供电部门的档案记录。而档案信息往往由于管理混乱、人工录入出错等情况存在,导致相关数据资源缺失或者记录信息有误。
能够获取低压配电台区用户相位是解决台区三相不平衡的基础,也是对供电部门之后针对低压配电台区的负荷不平衡提出调解措施、治理方案,降低台区内的线损,提升用户的用电质量等一系列措施的应用基础。目前,低压配电台区用户的相位识别技术得到了电网专家和学者的重视。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述和/或现有的基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法中存在的问题,提出了本发明。
因此,本发明所要解决的问题在于如何提供一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法。
为解决上述技术问题,本发明提供如下技术方案:一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其包括采集某日期下台区用户及母线电压数据并进行校验;
挑选出临近母线的用户节点,通过计算这部分节点电压与各相母线电压的皮尔逊相关系数识别出其所属相位,对剩余节点进行Z-score标准化;
采用LargeVis降维方法对用户数据进行降维,并将降维后的数据进行最大最小值归一化处理;
采用DBSCAN算法对归一化后的降维数据进行聚类,输出各用户的相位识别结果。
作为本发明所述基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法的一种优选方案,其中:所述电压数据由智能电表采集,采样间隔为15min,某日期下单一用户及单相母线电压数据为长度为96的行向量,某日期下台区所有用户的电压数据为M*96的矩阵,其中M为台区下用户数量。
作为本发明所述基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法的一种优选方案,其中:所述校验步骤包括:
采集某日期下台区用户及母线电压数据;
对每一用户在该日期内的电压采样数据:
Um=[Um,1,Um,2,…Um,t…,Um,96](m∈{1,2,……,M},t∈{1,2,……,96})
其中,m∈{1,2,……,M}表示用户标号,t∈{1,2,……,96}表示采样时刻;
计算各采样值与中位值的绝对偏差Em,t=|Um,t-median(Um)|及各绝对偏差的中位值MAD=median(Em),并设定参数n,当Em,t≥n×MAD时,将Um,t认定为异常数据。
作为本发明所述基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法的一种优选方案,其中:所述校验步骤还包括:
当异常值占比较少,且不连续出现时,采用拉格朗日差值法对缺失电压数值进行修复;
当异常值连续大片数据存在,则将同时段所有用户的电压幅值删除,从后续的采样中补充新的数据点,重复对每一用户在该日期内的电压采样数据并采用拉格朗日差值法对缺失电压数值进行修复,直至没有异常值出现同理对母线数据进行校验。
作为本发明所述基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法的一种优选方案,其中:所述挑选出临近母线的用户节点,通过计算这部分节点电压与各相母线电压的皮尔逊相关系数识别出其所属相位,对剩余节点进行Z-score标准化的步骤包括:
计算各用户在采样日期内的电压幅值平均值,将幅值最高的一部分节点认定为临近母线的用户节点;
通过以下公式分别计算这部分节点与各相母线的皮尔逊系数:
Figure BDA0003931735290000031
其中,式中,
Figure BDA0003931735290000032
分别表示变量X、Y的均值;r代表皮尔逊相关系数;对于其中的每一个用户节点,若其与某一相母线的r值大于其与其他相母线的r值,则认为用户节点属于该相;
对剩余节点进行Z-score标准化,使原始的数据变化成均值为0,标准差为1的标准正态分布,消去了统计方差的影响,且保留了原数据集中的原始分布特性,其表达式为:
Figure BDA0003931735290000033
其中,Ut'表示在t时刻处采集电压的Z-Score标准值,Ut表示在t时刻处电压的初始采样值,μ(Ut)表示t时刻处所有计量用户点的电压均值;σ(Ut)表示t时刻处所有计量点的电压标准差;U'为标准化后的用户电压数据集;标准化后的电压数据为L*96的矩阵,其中L为除去下临近母线的用户后的用户数量。
作为本发明所述基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法的一种优选方案,其中:所述电压幅值最高的一部分约为5%~8%。
作为本发明所述基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法的一种优选方案,其中:所述LargeVis算法首先构建kNN图,然后构造目标函数进行优化从而得到数据的低维表示;
所述构建kNN图的步骤包括:
利用随机投影树得到一个空间划分,在此基础上寻找每个点的k近邻,得到一个初步的kNN图;
在其基础上根据“我邻居的邻居也可能是我的邻居”的思想,利用邻居搜索搜索算法寻找潜在的邻居,最终得到一个较为精准的kNN图;
所述kNN图的边权的计算公式设定为:
Figure BDA0003931735290000041
pii=0
Figure BDA0003931735290000042
其中,X'i表示高维空间中节点i的电压数据,wij为在kNN图上台区内节点i和j的边权,σi为以X'i为中心的高斯分布的方差。
作为本发明所述基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法的一种优选方案,其中:所述DBSCAN算法的具体步骤为:
从数据集中任意选取一个数据对象点p,根据输入参数领域半径Eps和样本密度MinPts,找到与该点距离小于等于Eps的所有的点,若数量小于MinPts,则认为点p为噪声,继续挑选下一个未选取的点;若数量大于等于MinPts,则认为点p为核心样本并分配一个簇标签;
将与点p距离小于等于Eps的所有的点,也即点p的邻居点,分配与该点相同的簇标签;
访问任意一个点p的邻居点q,若该点为核心样本,则对点q执行上一步以及本步骤,直至该簇的Eps距离内没有更多的核心样本为止;
挑选一个未访问过的点,重复执行前三步,直至所有簇的Eps距离内没有更多的核心样本为止。
作为本发明所述基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法的一种优选方案,其中:所述DBSCAN算法对于输入参数Eps和MinPts是敏感的,需要确立参数Eps与MinPts的值,根据以下公式确定其初始值:
Figure BDA0003931735290000051
Figure BDA0003931735290000052
Di=[d(Y'i,Y'1),d(Y'i,Y'2),…,d(Y'i,Y'L)]T
其中,Di为节点i与其他节点的距离向量,d(Yi,Yj)表示Yi,Yj两节点之间的欧式距离,Z为预计分类的簇数量,count(Di<Eps)表示为距离向量Di中临近周围节点距离小于Eps的节点个数。
作为本发明所述基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法的一种优选方案,其中:所述DBSCAN聚类算法采用轮廓系数法确定算法的参数,即邻域半径Eps和样本密度MinPts。
本发明有益效果为(1)在对台区用户数据进行降维与聚类之前,先将靠近母线的台区用户区分出来单独识别,避免由于这部分节点区分度较低而对整体的聚类结果产生扰动,提高了识别的准确率。(2)对高维电压数据进行降维,有利于对后续的算法操作,降低了时间复杂度和空间复杂度,同时可以去除高维空间中冗余的噪声,数据集也能够通过低维空间的较少特征展开更合理的解释。相比于PCA等线性降维方法在降维程度过高会导致主题信息存在大幅度丢失的问题,本发明采用非线性的LargeVis降维方法,能够将台区用户电压矩阵的高维度数据集降低至2或3维空间的同时仍能保留原始台区电压数据集的分布特性,便于对数据进行可视化与合理的解释。(3)本发明采用DBSCAN算法对台区用户数据进行聚类,与传统的相位识别中运用的k-means算法相比,DBSCAN算法聚类结果稳定,不受初始值的影响,同时,在聚类时可以找出异常点,即若存在其他台区错误登记进入该台区档案之中,在本发明中能够作为噪声点识别出来。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明的整体流程图。
图2为本发明的聚类参数对轮廓系数的影响示意图。
图3为本发明的低压用户二维可视化示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例1
参照图1~图3,为本发明第一个实施例,该实施例提供了一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法包括:
S1、采集某日期下台区用户及母线电压数据并进行校验。
S1-1、更进一步的,通过智能电表采集某日期下台区用户及母线电压数据,采样间隔为15min,某日期下单一用户及单相母线电压数据为长度为96的行向量,某日期下台区所有用户的电压数据为M*96的矩阵,其中M为台区下用户数量。
更进一步的,校验步骤包括:
采集某日期下台区用户及母线电压数据;
对每一用户在该日期内的电压采样数据:
Um=[Um,1,Um,2,…Um,t…,Um,96](m∈{1,2,……,M},t∈{1,2,……,96})
其中,m∈{1,2,……,M}表示用户标号,t∈{1,2,……,96}表示采样时刻。
更进一步的,各相母线电压数据表示为:
UA=[UA,1,UA,2,…UA,t…,UA,96]
UB=[UB,1,UB,2,…UB,t…,UB,96]
UC=[UC,1,UC,2,…UC,t…,UC,96]
某日期下台区所有用户的电压数据表示为:
其中,m∈{1,2,……,M}表示用户标号,t∈{1,2,……,96}表示采样时刻。
S1-2、更进一步的,对每一用户在该日期内的电压采样数据Um,计算各采
Figure BDA0003931735290000071
样值与中位值的绝对偏差Em,t=|Um,t-median(Um)|及各绝对偏差Em,t的中位值MAD=median(Em),按照如下公式:
Em,t=|Um,t-median(Um)|
MAD=median(Em)
设定参数n,当Em,t≥n×MAD时,将Um,t认定为异常数据。
S1-3、更进一步的,当异常值占比较少,且不连续出现时,采用拉格朗日差值法对缺失电压数值进行修复:
根据拉格朗日差值定义可知,对于平面中存在的n个已知点(n个点的横坐标互不相同),存在唯一的一个n-1次的多项式,使该多项式恰好能通过这n个已知点。这样的多项式称为拉格朗日(插值)多项式。多项式为:
y=a0+a1x+a2x2+L+an-1xn-1
为求解该多项式,将n个点的坐标(x1,y1),(x2,y2),…(xn,yn),代入多项式函数,得:
Figure BDA0003931735290000072
Figure BDA0003931735290000073
L
Figure BDA0003931735290000074
求得拉格朗日插值多项式为:
Figure BDA0003931735290000075
对于本实施例,对于存在少量异常值,且不连续出现的台区用户电压数据,利用正常值的点坐标(t1,u1),(t2,u2),…(tn,un)求得该用户节点电压幅值的拉格朗日插值多项式L(t),将异常值对应的点t'∈Tabnormal的时间记录数值代入整个插值多项式,得到缺失电压幅值的拉格朗日近似值L(t')。
当异常值连续大片数据存在,则将同时段所有用户的电压幅值删除,从后续的采样中补充新的数据点,执行步骤S1-2、S1-3,直至没有异常值出现。同理对母线数据进行校验。
S2、挑选出临近母线的用户节点,通过计算这部分节点电压与各相母线电压的皮尔逊相关系数识别出其所属相位,对剩余节点进行Z-score标准化。
S2-1、更进一步的,计算各用户在采样日期内的电压幅值平均值,将幅值最高的一部分(约5%~8%)节点认定为临近母线的用户节点;
S2-2、通过以下公式分别计算这部分节点与各相母线的皮尔逊系数:
Figure BDA0003931735290000081
式中,
Figure BDA0003931735290000082
分别表示变量X、Y的均值;r代表皮尔逊相关系数。
对于其中的每一个用户节点,若其与某一相母线的r值大于其与其他相母线的r值,则认为用户节点属于该相。
S2-3、对剩余节点进行Z-score标准化,使原始的数据变化成均值为0,标准差为1的标准正态分布,消去了统计方差的影响,且保留了原数据集中的原始分布特性,其表达式为:
Figure BDA0003931735290000083
式中,Ut'表示在t时刻处采集电压的Z-Score标准值,Ut表示在t时刻处电压的初始采样值,μ(Ut)表示t时刻处所有计量用户点的电压均值;σ(Ut)表示t时刻处所有计量点的电压标准差;U'为标准化后的用户电压数据集。标准化后的电压数据为L*96的矩阵(其中L为除去下临近母线的用户后的用户数量)。
S3、采用LargeVis降维方法对用户数据进行降维,并将降维后的数据进行最大最小值归一化处理。
更进一步的,LargeVis算法首先构建kNN图,然后构造目标函数进行优化从而得到数据的低维表示。在构建kNN图的过程中,首先利用随机投影树得到一个空间划分,在此基础上寻找每个点的k近邻,得到一个初步的kNN图;在其基础上根据“我邻居的邻居也可能是我的邻居”的思想,利用邻居搜索搜索算法寻找潜在的邻居,最终得到一个较为精准的kNN图。在kNN图中,直接相邻的节点之间称作为正边/正样本,而不直接相邻的节点之间称作为负边/负样本。kNN图的边权的计算公式设定为:
Figure BDA0003931735290000091
pii=0
Figure BDA0003931735290000092
其中,X'i表示高维空间中节点i的电压数据,wij为在kNN图上台区内节点i和j的边权,σi为以X'i为中心的高斯分布的方差。
在降维后的空间中两个节点i和j在kNN图中有一条二元边eij=1的概率为:
p(eij=1)=f(||Yi-Yj||2)
Figure BDA0003931735290000093
其中,Yi、Yj表示降维后的空间中节点i、j的电压数据。
考虑kNN图的边权,在降维后的空间中两个节点i和j在kNN图中有一条二元边eij=wij(权值为wij的边)的概率为:
Figure BDA0003931735290000094
假设正样本集合为E,负样本集合为
Figure BDA0003931735290000095
为了最大化正样本的节点对在kNN图中有连接边的概率,最小化负样本的节点对在kNN图中有连接边的概率,设计目标函数为:
Figure BDA0003931735290000096
对上式取对数,再通过负采样算法选取K个负样本以减少计算量,目标函数变为:
Figure BDA0003931735290000097
其中,Ejk~Pn(j)表示从噪声分布Pn(j)∝d0.75(d为节点j的出度)中采样得到的负样本集合,γ为对负样本设定的权值。
对目标函数采用梯度下降法进行训练,计算得到的解即为降维后的数据Y。
为对密度聚类的空间进行限定以及更好的可视化表现,将降维后的数据Y进行最大最小值归一化,最大最小值归一化公式为:
Figure BDA0003931735290000101
式中,yij为Y中元素;max(y*j),min(y*j)分别为Y数据集中第j维变量的最大值和最小值。归一化后得到数据集Y'。
S4、采用DBSCAN算法对归一化后的降维数据进行聚类,输出各用户的相位识别结果。
S4-1、从数据集中任意选取一个数据对象点p,根据输入参数Eps(称为邻域半径)和MinPts(称为样本密度),找到与该点距离小于等于Eps的所有的点,若数量小于MinPts,认为点p为噪声,继续挑选下一个未选取的点;若数量大于等于MinPts,认为点p为核心样本并分配一个簇标签,执行步骤S4-2;
S4-2、将与点p距离小于等于Eps的所有的点(称为点p的邻居点)分配与该点相同的簇标签;
S4-3、访问任意一个点p的邻居点q,若该点为核心样本,则对点q执行步骤S4-2和S4-3,直至该簇的Eps距离内没有更多的核心样本为止;
S4-4、挑选一个未访问过的点,重复步骤S4-1~S4-3,直至所有簇的Eps距离内没有更多的核心样本为止。
更进一步的,DBSCAN算法对于输入参数Eps和MinPts是敏感的,需要
Figure BDA0003931735290000102
Figure BDA0003931735290000103
Di=[d(Y'i,Y'1),d(Y'i,Y'2),…,d(Y'i,Y'L)]T
确立参数Eps与MinPts的值,根据以下公式确定其初始值:
式中,Di为节点i与其他节点的距离向量,d(Yi,Yj)表示Yi,Yj两节点之间的欧式距离,Z为预计分类的簇数量,count(Di<Eps)表示为距离向量Di中临近周围节点距离小于Eps的节点个数。
此后设定步长,调节Eps和MinPts数值,依据轮廓系数法确定最为适合的参数系数。轮廓系数法公式为:
Figure BDA0003931735290000111
式中,a(i)表示样本i到同簇其他样本的平均距离;b(i)表示样本i到其他簇样本的平均距离。
s(i)接近1,聚类合理;s(i)接近-1,样本应该被分到别的簇,s(i)近似为0,说明样本位于两个簇的边界上。经聚类得到各簇集群,依据聚类结果中对各节点归属的相位标签,和实际的用户的相位识别进行对比验证。
实施例2
参照图1~图3,为本发明第二个实施例。
通过潮流计算得到的电压时间序列数据集,以15min作为时间间隔节点,形成原始电压幅值数据矩阵U∈R55×96
靠近母线侧造成错误聚类的节点数占总节点数的5%~8%,依据电压幅值与母线的相关性,相关节点单独归类。本数据集中挑选4位电压平均幅值最高的用户节点。挑选用户编号为1,2,3,6。实验数据通过如下表格展示:
表1低压配电台区用户相位关系表
Figure BDA0003931735290000112
Figure BDA0003931735290000121
表2低压配电台区用户日电压仿真数据
Figure BDA0003931735290000122
表3用户平均电压幅值排序表
Figure BDA0003931735290000123
和母线A、B、C三相进行皮尔逊相关系数分析。结果如表4所示:
表4用户、母线皮尔逊相关系数表
Figure BDA0003931735290000124
除疑似首端的电能表外,其余电表组成的电压时序矩阵进行Z-Score标准化,得到矩阵U'。采用机器学习中的非线性降维算法对台区用户时序电压矩阵U'进行降维处理。设置降维算法中的参数为:降维可视化输出目标维度d=2,线程数设定为8,邻居传播次数为3,KNN中K数值设定为7,学习率设定为1。
降维过程结束后,得到台区用户低维电压特征矩阵Y。经过数据降维处理后,台区内各用户之间的相关性得到降低。位于同一维度下(即处于同一采样时刻)各用户特征值的分布方差大幅度提高,有利于后续利用聚类算法对用户的区分。经过降维前后的用户数据特征如表5所示。
表5降维前后数据集方差与相关性变化表
Figure BDA0003931735290000131
将特征矩阵Y最大最小归一化Y'后,计算降维后各用户节点之间的距离矩阵,Z取3,获得初始DBSCAN参数值(Eps=0.126,MinPts=4)。Eps以步长0.005变化,MinPts以步长1变化。通过轮廓系数法确定聚类参数具体数值,结果如图2所示。
将第四组参数(Eps=0.131,MinPts=3)作为最终的聚类输入参数,数据集经DBSCAN聚类后形成三簇。簇中心用户电压与母线电压比较相关系数后,即可确立台区内用户的相序。用户聚类结果以2维平面可视化方式进行展示,如图3所示。各节点聚类结果如表6所示:
表6用户节点聚类结果
Figure BDA0003931735290000132
整体统计后,最终实际相位的结果为表所示:
表7用户节点相位识别结果
Figure BDA0003931735290000133
结果表明对于该仿真数据,本文方法能够准确将低压配电网中的55个单相用户划分为3簇,且最终每个簇中的用户相位标签与实际相位的标签是一致的,聚类最终结果的识别率为100%。
为进一步证明本文所提方法在相位识别中的准确性,在考虑了扰动因素的基础上,将本文方法与K-means算法、PCA(Principal Component Analysis)和K-means算法、谱聚类(spectral clustering)算法作比较,计算用户相位正确识别率。各方法的聚类簇数均预设为3。比较结果如表所示。表格中的数字为正确的相位识别率M。计算方法为:
Figure BDA0003931735290000141
式中,T表示正确识别的相位用户个数,V表示所需相位识别用户总数。
表8相位识别方法对比
Figure BDA0003931735290000142
对比其他方法,本发明方法的用户相别识别正确率最高,其原因是对临近母线端的用户节点单独聚类,避免临近二次侧端口的节点聚类对整体其他节点聚类产生干扰,使用DBSCAN聚类结果稳定且精确。只采用K-means聚类法,当电表存在计量误差时,时序电压矩阵内冗余信息过多,噪声产生较大干扰,且K-means聚类与初始点的设定有很大关系,容易造成聚类结果的不稳定。PCA+K-means方法,虽然降维过程剔除部分冗余信息,但基于线性降维方法的降维,若需保留的主成分比例较大,实际的降低的维度不高,后续计算量相较于非线性降维,时序电压矩阵维度更高,计算量大,另一方面线性降维容易导致数据细节信息丢失,整体识别精确度有所下降。对于谱聚类方法来说,其性能的表现好坏更多的在于依赖于相似矩阵如何构建,不同的相似矩阵得到的最终聚类效果可能很不同。且用来定义边权重的核函数的选择不同也对建立邻接矩阵产生很大影响。而本文采用的非线性降维算法,一方面降维程度能够大范围压缩数据结果,且降维后仍保持了原始的数据分布特征,DBSCAN密度聚类算法可以对任意密度的数据点进行聚类,对数据集的适应性更强。在存在噪声扰动的情况下,识别性能更加可靠,鲁棒性更强。
需要说明的是,本实施例所有算法在硬件处理器为:Inter(R)Core(TM)i7-7700CPU@3.60GHz,内存容量:8GB,操作系统为64位Windows10计算机上进行验证。
整个实验数据预处理、算法运行以Python编程环境编码运行,软件的版本为Python 3.8,编程软件为PyCharm Community Edition 2021.1.1x64,使用Python附加库为matplotlib、sklearn、pandas、numpy、random、scipy等。
本实施例使用的电气数据集来自于The Test Feeders Working Group of theDistribution System Analysis Subcommittee of the Power Systems Analysis,Computing,and Economics发布的测试馈线2015The IEEE European Low Voltage TestFeeder。该数据集测试用例偏向于北美风格的低压配电系统,也适用于绝大多数低压配电系统。低压测试馈线是呈辐射状,径向分配,基本频率为50Hz。馈线通过变电站的变压器连接到中压(MV)系统。变压器将电压从11kV降至416V。
可基于1min采样的用户实时用电负荷数据,可获取配电网各节点静态潮流结果。本文使用的台区用户时序电压序列数据集通过软件Opendss潮流静态仿真获取的,软件版本为Verson 9.2.0.1(64-bit build)。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其特征在于:包括,
采集某日期下台区用户及母线电压数据并进行校验;
挑选出临近母线的用户节点,通过计算这部分节点电压与各相母线电压的皮尔逊相关系数识别出其所属相位,对剩余节点进行Z-score标准化;
采用LargeVis降维方法对用户数据进行降维,并将降维后的数据进行最大最小值归一化处理;
采用DBSCAN算法对归一化后的降维数据进行聚类,输出各用户的相位识别结果。
2.如权利要求1所述的基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其特征在于:所述电压数据由智能电表采集,采样间隔为15min,某日期下单一用户及单相母线电压数据为长度为96的行向量,某日期下台区所有用户的电压数据为M*96的矩阵,其中M为台区下用户数量。
3.如权利要求2所述的基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其特征在于:所述校验步骤包括:
采集某日期下台区用户及母线电压数据;
对每一用户在该日期内的电压采样数据:
Um=[Um,1,Um,2,…Um,t…,Um,96](m∈{1,2,……,M},t∈{1,2,……,96})
其中,m∈{1,2,……,M}表示用户标号,t∈{1,2,……,96}表示采样时刻;
计算各采样值与中位值的绝对偏差Em,t=|Um,t-median(Um)|及各绝对偏差的中位值MAD=median(Em),并设定参数n,当Em,t≥n×MAD时,将Um,t认定为异常数据。
4.如权利要求3所述的基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其特征在于:所述校验步骤还包括:
当异常值占比较少,且不连续出现时,采用拉格朗日差值法对缺失电压数值进行修复;
当异常值连续大片数据存在,则将同时段所有用户的电压幅值删除,从后续的采样中补充新的数据点,重复对每一用户在该日期内的电压采样数据并采用拉格朗日差值法对缺失电压数值进行修复,直至没有异常值出现同理对母线数据进行校验。
5.如权利要求4所述的基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其特征在于:所述挑选出临近母线的用户节点,通过计算这部分节点电压与各相母线电压的皮尔逊相关系数识别出其所属相位,对剩余节点进行Z-score标准化的步骤包括:
计算各用户在采样日期内的电压幅值平均值,将幅值最高的一部分节点认定为临近母线的用户节点;
通过以下公式分别计算这部分节点与各相母线的皮尔逊系数:
Figure FDA0003931735280000021
其中,式中,
Figure FDA0003931735280000022
分别表示变量X、Y的均值;r代表皮尔逊相关系数;对于其中的每一个用户节点,若其与某一相母线的r值大于其与其他相母线的r值,则认为用户节点属于该相;
对剩余节点进行Z-score标准化,使原始的数据变化成均值为0,标准差为1的标准正态分布,消去了统计方差的影响,且保留了原数据集中的原始分布特性,其表达式为:
Figure FDA0003931735280000023
其中,Ut'表示在t时刻处采集电压的Z-Score标准值,Ut表示在t时刻处电压的初始采样值,μ(Ut)表示t时刻处所有计量用户点的电压均值;σ(Ut)表示t时刻处所有计量点的电压标准差;U'为标准化后的用户电压数据集;标准化后的电压数据为L*96的矩阵,其中L为除去下临近母线的用户后的用户数量。
6.如权利要求5所述的基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其特征在于:所述电压幅值最高的一部分约为5%~8%。
7.如权利要求6所述的基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其特征在于:所述LargeVis算法首先构建kNN图,然后构造目标函数进行优化从而得到数据的低维表示;
所述构建kNN图的步骤包括:
利用随机投影树得到一个空间划分,在此基础上寻找每个点的k近邻,得到一个初步的kNN图;
在其基础上根据“我邻居的邻居也可能是我的邻居”的思想,利用邻居搜索搜索算法寻找潜在的邻居,最终得到一个较为精准的kNN图;
所述kNN图的边权的计算公式设定为:
Figure FDA0003931735280000031
pii=0
Figure FDA0003931735280000032
其中,X’i表示高维空间中节点i的电压数据,wij为在kNN图上台区内节点i和j的边权,σi为以X’i为中心的高斯分布的方差。
8.如权利要求6所述的基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其特征在于:所述DBSCAN算法的具体步骤为:
从数据集中任意选取一个数据对象点p,根据输入参数领域半径Eps和样本密度MinPts,找到与该点距离小于等于Eps的所有的点,若数量小于MinPts,则认为点p为噪声,继续挑选下一个未选取的点;若数量大于等于MinPts,则认为点p为核心样本并分配一个簇标签;
将与点p距离小于等于Eps的所有的点,也即点p的邻居点,分配与该点相同的簇标签;
访问任意一个点p的邻居点q,若该点为核心样本,则对点q执行上一步以及本步骤,直至该簇的Eps距离内没有更多的核心样本为止;
挑选一个未访问过的点,重复执行前三步,直至所有簇的Eps距离内没有更多的核心样本为止。
9.如权利要求8所述的基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其特征在于:所述DBSCAN算法对于输入参数Eps和MinPts是敏感的,需要确立参数Eps与MinPts的值,根据以下公式确定其初始值:
Figure FDA0003931735280000041
Figure FDA0003931735280000042
Di=[d(Yi',Y1'),d(Yi',Y2'),…,d(Yi',YL')]T
其中,Di为节点i与其他节点的距离向量,d(Yi,Yj)表示Yi,Yj两节点之间的欧式距离,Z为预计分类的簇数量,count(Di<Eps)表示为距离向量Di中临近周围节点距离小于Eps的节点个数。
10.如权利要求9所述的基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法,其特征在于:所述DBSCAN聚类算法采用轮廓系数法确定算法的参数,即邻域半径Eps和样本密度MinPts。
CN202211390547.8A 2022-11-08 2022-11-08 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法 Pending CN115618249A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211390547.8A CN115618249A (zh) 2022-11-08 2022-11-08 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211390547.8A CN115618249A (zh) 2022-11-08 2022-11-08 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法

Publications (1)

Publication Number Publication Date
CN115618249A true CN115618249A (zh) 2023-01-17

Family

ID=84879163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211390547.8A Pending CN115618249A (zh) 2022-11-08 2022-11-08 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法

Country Status (1)

Country Link
CN (1) CN115618249A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975539A (zh) * 2023-08-16 2023-10-31 杭州火奴数据科技有限公司 基于聚类算法的营销数据存储管理系统
CN116975503A (zh) * 2023-09-22 2023-10-31 临沂大学 一种土壤侵蚀信息管理方法及系统
CN117272086A (zh) * 2023-11-22 2023-12-22 中国电子科技集团公司第二十九研究所 一种基于dbscan的雷达信号扫描包络分割方法
WO2024164509A1 (zh) * 2023-02-08 2024-08-15 威胜信息技术股份有限公司 一种基于机器学习的低压台区用户相位识别方法
CN118520020A (zh) * 2024-07-23 2024-08-20 杭州茼久网络科技有限公司 基于大数据的人工智能数据聚合方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024164509A1 (zh) * 2023-02-08 2024-08-15 威胜信息技术股份有限公司 一种基于机器学习的低压台区用户相位识别方法
CN116975539A (zh) * 2023-08-16 2023-10-31 杭州火奴数据科技有限公司 基于聚类算法的营销数据存储管理系统
CN116975539B (zh) * 2023-08-16 2024-03-19 杭州火奴数据科技有限公司 基于聚类算法的营销数据存储管理系统
CN116975503A (zh) * 2023-09-22 2023-10-31 临沂大学 一种土壤侵蚀信息管理方法及系统
CN116975503B (zh) * 2023-09-22 2023-12-05 临沂大学 一种土壤侵蚀信息管理方法及系统
CN117272086A (zh) * 2023-11-22 2023-12-22 中国电子科技集团公司第二十九研究所 一种基于dbscan的雷达信号扫描包络分割方法
CN117272086B (zh) * 2023-11-22 2024-02-13 中国电子科技集团公司第二十九研究所 一种基于dbscan的雷达信号扫描包络分割方法
CN118520020A (zh) * 2024-07-23 2024-08-20 杭州茼久网络科技有限公司 基于大数据的人工智能数据聚合方法

Similar Documents

Publication Publication Date Title
CN115618249A (zh) 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法
CN109873501B (zh) 一种低压配电网拓扑自动识别方法
CN109190672A (zh) 电力系统运行工况无监督聚类方法及装置
CN106485089B (zh) 谐波用户典型工况的区间参数获取方法
Ali et al. COMSATS University Islamabad
CN113254669B (zh) 基于知识图谱的配电网cim模型信息补全方法及系统
CN111654392A (zh) 基于互信息的低压配电网拓扑识别方法及系统
CN110544047A (zh) 一种不良数据辨识方法
CN113657678A (zh) 一种基于信息新鲜度的电网电力数据预测方法
CN114626487A (zh) 基于随机森林分类算法的线变关系校核方法
CN118427720A (zh) 基于可解释图神经树的电力系统暂稳判别方法与系统
Zhu et al. Robust representation learning for power system short-term voltage stability assessment under diverse data loss conditions
CN113887623A (zh) 基于ifcm-bb的变压器故障诊断方法
CN117609818A (zh) 基于聚类与信息熵的电网关联关系发现方法
Gu et al. Partitioning active distribution networks by using spectral clustering
CN117076967A (zh) 一种基于理论线损数据计算的台区拓扑修正方法及系统
Houben et al. Coupling of K-NN with decision trees for power system transient stability assessment
CN110189230B (zh) 一种动态分区的解析化模型的构建方法
CN115936926A (zh) 一种基于smote-gbdt的不平衡窃电数据分类方法、装置、计算机设备和存储介质
CN115545422A (zh) 一种基于改进决策机制的台区户变关系识别方法
CN112241812B (zh) 基于单边优化与遗传算法协作的低压配电网拓扑识别方法
CN115392347A (zh) 一种基于生成对抗网络的用户相位关系识别方法
CN114444589A (zh) 一种基于kDBA聚类的谐波污染分区方法
Guzmán et al. Efficient connectivity identification of large-scale distribution network elements in GIS
CN113569904B (zh) 母线接线类型辨识方法、系统、存储介质及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination