CN109829497B - 一种基于监督学习的台区用户识别及判别方法 - Google Patents

一种基于监督学习的台区用户识别及判别方法 Download PDF

Info

Publication number
CN109829497B
CN109829497B CN201910095243.0A CN201910095243A CN109829497B CN 109829497 B CN109829497 B CN 109829497B CN 201910095243 A CN201910095243 A CN 201910095243A CN 109829497 B CN109829497 B CN 109829497B
Authority
CN
China
Prior art keywords
user
data
users
voltage
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910095243.0A
Other languages
English (en)
Other versions
CN109829497A (zh
Inventor
唐明
何仲潇
王剑
王枭
汪晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Energy Internet Research Institute EIRI Tsinghua University
Original Assignee
Sichuan Energy Internet Research Institute EIRI Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Energy Internet Research Institute EIRI Tsinghua University filed Critical Sichuan Energy Internet Research Institute EIRI Tsinghua University
Priority to CN201910095243.0A priority Critical patent/CN109829497B/zh
Publication of CN109829497A publication Critical patent/CN109829497A/zh
Application granted granted Critical
Publication of CN109829497B publication Critical patent/CN109829497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据分析领域,特别是一种基于监督学习方法的台区用户识别及判别方法。包括:根据用户所属台区和相别确定用户数据的对应标签建立训练集、验证集和测试集,采用交叉验证的方式进行确定;采用已训练好的训练模型对待识别用户的电压数据进行识别;建立台区用户识别结果可靠度的量化评价指标,并计算台区用户初次识别结果的可靠度。本发明实现了无监督学习到有监督学习的转换,降低了硬件和人工成本,辨识结果更加可靠;同时建立对台区用户户变关系识别结果的量化评价指标,实现“争议用户”的准确识别,从而准确有效地识别用户所属台区与相别,彻底解决跨台区用户归属难题,为全面指导低压台区运行、维护、抢修、技改、规划等各领域的工作奠定基础。

Description

一种基于监督学习的台区用户识别及判别方法
技术领域
本发明涉及数据分析领域,特别是一种基于优化的监督学习方法进行台区用户识别及 判别方法。
背景技术
准确的基础台区档案是台区线损率分析、配网故障定位、抢修工单下发、三相不平衡 分析等等一系列高级应用的重要基础。然而由于我国电力系统起步较晚、初期发展规划不 完善,我国现阶段配电变压器分布散乱、配电线路错综复杂。同时,由于电网公司在多年的运营过程中信息记录遗失、更新不及时、信息不完整等原因,导致台区的档案资料往往不准确,即少部分终端用户存在台户真实挂接关系与台区档案不相符的现象。错乱的台区档案使多种高级应用无法有效开展,严重影响了电网公司建设智能电网的进程。因此,亟需高效、稳定、准确的台区拓扑辨识方法,为全面指导低压台区运行、维护、抢修、技改、 规划等各领域的工作奠定基础。
传统的台区用户识别方法分为人工识别和利用专用的台区识别设备两种。人工识别需 要依靠电力人员到现场逐户排查台区用户的归属情况,费时费力且效率极低。专用的台区 识别设备主要包括台区用户识别仪,而台区用户识别仪多数基于电力载波技术直接通信与 否或电流脉冲技术等来识别台区信息。载波信号通过共地、共高压、并行布线耦合的方式 向周边台区传输数据,尽管信号幅值有所衰减,仍能和邻近变压器下距离较近的电表进行 通信,故仍然存在“串台区”的问题。基于电力载波与脉冲载波混合方式的配电台区用户 辨识虽然解决了共高压串线、共地串线、共电缆沟串线问题,但仍需人工测量,而且采用 电流钳进行配电台区用户辨识的过程中可能存在安全隐患,难以满足配电台区的智能化发 展需求。
近年来,随着物联网技术的迅速发展,为智能电表海量数据打通了上行通道,电网公 司有机会获取海量、高密度的数据。一些学者将台区配电变压器电参量以及用户端电参量 进行大数据融合统计分析,从而实现台区用户的识别。现有技术主要分为两种:
1.利用智能电表的量测数据,分别计算用户处智能电表的量测数据与各变压器低压侧 数据的相似度,选择其中相似度最高来确定用户的台区及相别,但是在某些情况下相似度 差别不明显,难以有效区分;
2.基于同一台区电能采集设备电压数据的高度相关性,利用k-means算法对用户电压 数据进行聚类,从而实现台区用户识别(可参考已公开专利申请CN106156792A)。而聚类算 法本身是一种无监督学习,该算法基于数据的内部结构寻找观察样本的自然族群。当数据 质量较低时,辨识的准确度偏低,辨识结果不可靠。
3、虽然现有技术有些能够较为准确的进行台户关系的识别,但依然存在两大问题:首 先是对于识别的结果没有量化的评价指标,从而不知道哪些用户的识别结果是可靠的,哪 些用户的识别结果具有争议;其次是对于辨识结果不够可靠的“争议用户”,没有采用进一步的 策略对它们所属的台区和相别进行判别。
本发明考虑到当前国家电网已通过传统的台区用户识别方法确定了部分用户所属的台 区和相别,可以用这部分用户作为训练对象从而采用有监督学习的方法对待辨识的用户进 行分类,从而提高算法的可靠性和准确性,并进一步建立对识别结果验证判别的有效机制, 从而使辨识结果更加可靠,准确率更高。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供了一种基于监督学习的台 区用户识别及判别方法,用于提高台区用户识别的准确度和效率,同时降低硬件和人工成 本,为全面指导低压台区运行、维护、抢修、技改、规划等各领域的工作奠定良好基础。
本发明采用的技术方案如下:
一种基于监督学习的台区用户识别及判别方法,包括以下步骤:
步骤S1,获取台区变压器低压侧电压数据及待识别的用户电表电压数据;
步骤S2,对获取的电压数据进行预处理;
步骤S3,确定已知台户拓扑关系的用户及用户所属台区和相别,根据用户所属台区和 相别确定用户数据的对应标签建立训练集、验证集和测试集,采用交叉验证的方式对KNN 模型中的k参数进行确定,并完成模型的训练;
步骤S4,采用已训练好的训练模型和确定的k值对待识别用户的电压数据进行识别分类, 进而实现对待识别用户电压数据中台区用户的初次识别,并输出初次识别结果;
步骤S5,建立台区用户识别结果可靠度的量化评价指标,并计算台区用户初次识别结果的 可靠度;
步骤S6,设定可靠度阈值,该阈值的选取可根据实际情况而定,基于该可靠度阈值将第一 次分类的台区用户初次识别结果中可靠度超过该阈值的用户视作辨识可靠的用户,并将该可 靠用户及用户所属台区和相别加入已知台户拓扑关系数据中,并更新已知用户数据和相应标 签;而可靠度低于阈值的用户视作下一次待识别的“争议用户”;
步骤S7,基于更新后的用户数据和对应标签,重新建立训练集、验证集和测试集,并对分 类模型进行重新训练,待模型重新训练完毕后,对第二次待识别的“争议用户”开展新一轮 的分类识别。
步骤S8,重复步骤S7-S9并进行验证判别,直到所有用户的识别可靠度均大于所述设定的 可靠度阈值,和/或达到设定的迭代次数。
步骤S9.迭代结束后将获得的台区用户识别结果作为最终的台区用户识别结果,并提供 最终识别结果的可靠度指标。
进一步的,步骤S1中l台台区变压器低压侧电压数据为
Figure RE-GDA0002016477900000031
其中:
Figure RE-GDA0002016477900000032
表示第n个时刻第f台变压器A相的低压侧电压;
Figure RE-GDA0002016477900000033
表示第n个时刻第f台变压器B相的低压侧电压;
Figure RE-GDA0002016477900000034
表示第n个时刻第f台变压器A相的低压侧电压;而待识别的m台用户电表电压数据
Figure RE-GDA0002016477900000035
其中,
Figure RE-GDA0002016477900000036
表示第n个时刻第f台待识别用户电表电压。
进一步的,所述步骤S2中当待处理数据的维度较大时对数据进行降维处理,把多维的 数据化为少数主成分进行分析,以提高算法的计算效率;或当数据维度较小时不降维直接 处理。
进一步的,所述步骤S3中采用交叉验证的方式对KNN模型中的k参数进行确定,并完 成模型的训练具体包括以下步骤:
步骤S3.1,选取一部分已知台户关系的用户电压数据和对应标签、及变压器的电压数 据和对应标签作为训练集;一部分已知台户关系的用户电压数据和对应标签作为验证集; 剩余的已知台户关系的用户电压数据和对应标签作为测试集;
步骤S3.2,在训练集中数据和标签已知的情况下,确定距离度量方式,输入验证集的 数据,遍历所有可能出现的k值,利用优化后的KNN模型对验证集中的用户电压数据进行分类,评估输入不同的k值时,对验证集用户分类结果的准确度,并选取准确度最高时的k值作为输入参数;
步骤S3.3,对前一步骤中确定的k值进行判断,判断其是否满足预定的目标条件,当满足 预定目标条件时继续下一步骤,当不满足预定目标条件时返回步骤S3.2、并进一步地利用训 练模型对测试集数据进行分类,从而进一步确认k值的合理性;
进一步的,所述步骤S3.1中训练集、验证集和测试集的数据占总数据的比例分别为80%、10%和10%。
进一步的,其特征在于,所述利用优化后的KNN模型对验证集中的用户电压数据进行 分类具体为:
S3.2.1,计算验证数据与各个训练数据之间的距离,并确定距离度量方式;
S3.2.2,按照距离值的递增关系对训练数据进行排序;
S3.2.3,选取训练数据中距离值最小的前k个点;
S3.2.4,统计并确定前k个点所属类别的出现频率;
S3.2.5,返回前k个点中出现频率最高的分类类别作为此次验证数据的预测分类。
进一步的,所述距离度量方式采用相关系数、余弦相似度、欧式距离中的一种,且各距离 度量方式的定义分别如下:
(a).所述距离Lpq采用欧式距离来定义时,
Figure BDA0001964354680000041
式中,n'为样本的数据维度,zpd为第p个行向量的第d维坐标,zqd为第q个行向量的第d维坐标。
(b).所述距离Lpq采用余弦相似度来定义时,
Figure BDA0001964354680000042
式中,zp′为行向量zp的转置。zq′为行向量zq的转置。
(c).所述距离Lpq采用相关系数来定义时,
Figure BDA0001964354680000043
式中,
Figure BDA0001964354680000044
为单位行向量。
进一步的,步骤S3.3中对k值进行判断其是否满足预定的目标条件,当出现如下两种情况 中的至少一种时,即认为该k值不满足预定的目标条件:
(1)准确度最高的情况对应了多个k值;
(2)准确度最高的情况只对应了1个k值;
此时需要在步骤S3.3中利用测试集进一步进行确认k值的合理性和唯一性。
进一步的,步骤S7中建立台区用户识别结果可靠度的量化评价指标具体为:由于在进行KNN 模型训练时已合理设置了训练集、验证集和测试集,并采用交叉验证的方式对KNN算法模型中 的k参数进行确定,因此将所述k个已知的用户与待识别用户之间的距离作为量化评价指标用 于体现各类用户之间距离的整体情况。
进一步的,经计算后,前k个点离待识别用户q的距离和所属类别分别为 L=(L1q(c1),L2q(c2),...,Lpq(cp),...,Lkq(ck)),其中Lpq表示前k个点中第p个点到待识别用户q的距离,cp=s则表示前k个点中第p个点是属于s类的。假设 D=(D1q(c1),D2q(c2),...,Dpq(cp),...,Dkq(ck)),其中Dpq=1-Lpq,Dpq表示对象p与待识别用户q 之间相关性的大小,当Dpq越大时,对象p与待识别用户q之间的相关性越大,用户q与对象p 属于同一类的概率越大;
因此,定义用户q属于s类的可靠度Rqs为:
Figure BDA0001964354680000051
与现有技术相比,采用上述技术方案的有益效果为:
1.本发明提供的基于监督学习的台区用户识别及判别方法采用KNN算法模型进行台区 用户识别,实现了无监督学习到有监督学习的转换,规避了传统方法辨识不可靠、效率低 且存在安全隐患的问题,并且降低了硬件和人工成本,辨识结果更加可靠,准确率更高。
2.本发明提供的基于监督学习的台区用户识别及判别方法合理设置了训练集、验证集 和测试集,从而采用交叉验证的方式对KNN算法中的k参数进行确定,进一步提升了算法 的性能,提升了台区用户识别的准确性。
3.本发明提供的基于监督学习的台区用户识别及判别方法建立对台区用户户变关系 识别结果的量化评价指标,使得电网和用户能够对识别结果进行更加客观、准确的把控, 更能体现同一台区同一相变压器和用户电压数据变化趋势的一致性,能够进一步提升台区 用户识别的准确性,另一方面针对识别结果不可靠的“争议用户”采用迭代分类的方式对 它们进行进一步的分类,从而实现“争议用户”户变关系的准确识别,从而准确有效地识 别用户所属台区与相别,彻底解决跨台区用户归属难题,为全面指导低压台区运行、维护、 抢修、技改、规划等各领域的工作奠定基础。
附图说明
图1是典型台区变压气与用户表拓扑架构示意图。
图2是本发明提供的基于优化的监督学习方法进行台区用户识别及判别方法流程示意 图。
具体实施方式
下面结合附图对本发明做进一步描述。
如图1所示为现有的典型台区变与用户表的拓扑连接关系示意图,其中配电台区用户 以辐射状拓扑方式运行,由于不同时刻系统的负荷情况及运行状态不同,用户处的电压会 呈现一定的波动。由于同一相的台区变压器和用户的电表之间具有确定的电气连接,用户 侧的电压会随着台区变的出口电压的升高而升高,二者具有高度的相关性,变化趋势高度 一致。即处于同一台区同一相别的用户,电压波动规律具有很强的相似性,而属不同台区 的用户,其电气距离远,电压波动相似性较差。
基于配网同一台区同一相别的用户电压波动规律相似性强,而属不同台区的用户电压 波动相似性较差的特点,同时考虑到目前通过传统的台区用户识别方法已确定了部分用户 所属的台区和相别,因此可以基于KNN算法对未知的台区用户进行分类,从而实现台区用 户的准确识别。即用户只需获取一定数量变压器低压侧及待识别用户电表电压数据,以及 已知用户所属的台区和相别,通过大数据分析的方法完成台区用户拓扑关系的识别。能够 有效解决传统台区用户识别方法以及无监督学习识别方法辨识不可靠、效率低且存在安全 隐患的问题。
如果直接采用传统KNN算法进行台区用户拓扑关系识别仍然会有以下缺点:
1.对于k值的选择,没有一个固定的经验。
选择较小的k值,就相当于用较小的领域中的训练实例进行预测,训练误差会减小, 只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是泛 化误差会增大,换言之,k值的减小就意味着整体模型变得复杂,容易发生过拟合;选择较 大的k值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少泛化误差,但 缺点是训练误差会增大。这此时与输入实例距离较远(不相似的)训练实例也会对预测器 作用,使预测发生错误,且k值的增大就意味着整体的模型变得简单。
2.现有技术对于距离的度量,一般采用欧式距离的方式。
由于欧式距离衡量的是多维空间中各个点之间的绝对距离,体现个体数值特征的绝对 差异。而本发明的理论基础是同一台区同一相变压器和用户电压数据变化趋势的一致性, 更强调电压波动规律的一致性,因此欧式距离不是非常适合此场景。
3.现有技术有些能够较为准确的进行台户关系的识别,但没有对识别的结果没有量化 的评价指标,也没有对于辨识结果不够可靠的结果采用进一步的策略对它们所属的台区和相别进 行判别。
因此本实施例提供了一种基于监督学习的台区用户识别及判别方法,针对现有技术的 上述缺陷进行了改进,如图2所示,所述方法包括如下步骤:
步骤a,获取台区变压器低压侧电压数据及待识别的用户电表电压数据;其中l台台区 变压器低压侧电压数据
Figure BDA0001964354680000071
其中:
Figure BDA0001964354680000072
表示第n个时刻第f台变压器A相的低压侧电压;
Figure BDA0001964354680000073
表示第n个时刻第f台变压器B相的低压侧电压;
Figure BDA0001964354680000074
表示第n个时刻第f台变压器A相的低压侧电压;而待识别 的m台用户电表电压数据
Figure BDA0001964354680000075
其中,
Figure BDA0001964354680000076
Figure BDA0001964354680000077
表示第n个时刻第f台待识别用户电表电压。
需要说明的是,在本实施例采用的识别数据类型为电压数据,在另一实施例中也可以 根据实际应用需求选取电流数据或其他电力相关数据,以能够用于台区用户拓扑关系实施 即可,本发明对此不进行限定。
步骤b,对获取的电压数据进行预处理。在一个实施例中,当待处理数据的维度较大时, 可以选取一些常用的降维算法对变压器电压数据和用户电压数据进行降维处理,把多维的 电压数据化为少数几个主成分来进行分析,以提高算法的计算效率。在另一个实施例中当 数据维度较小时,也可以选择不降维直接处理,以提升数据处理的准确性。
步骤c,确定已知台户拓扑关系的用户及用户所属台区和相别,根据用户所属台区和相 别确定用户数据的对应标签。其中选取一部分已知台户关系的用户电压数据和对应标签(即 所属的变压器及相别)及变压器的电压数据和对应标签作为训练集;一部分已知台户关系 的用户电压数据和对应标签作为验证集;剩余的已知台户关系的用户电压数据和对应标签 作为测试集。
在一个实施例中,所述训练集、验证集和测试集的数据占总数据的比例分别为80%、10% 和10%,在另一个实施例中该占比也可以根据实际情况进行不同比例的设定,例如当获取的 数据量非常大时,验证集和测试集的占比可以适当降低,本发明对此不做限定。
步骤d,在训练集中数据和标签已知的情况下,确定距离度量方式,输入验证集的数据, 遍历所有可能出现的k值,利用优化后的KNN算法模型对验证集中的用户电压数据进行分类, 评估输入不同的k值时,对验证集用户分类结果的准确度,并选取准确度最高时的k值作为输 入参数。
其中,所述利用优化后的KNN算法模型对验证集中的用户电压数据进行分类具体为:
步骤d1,计算验证数据与各个训练数据之间的距离,并确定距离度量方式;其中距离 可采用相关系数、余弦相似度、欧式距离,经测试,采用相关系数的效果好于采用余弦相似度,其次采用余弦相似度的效果好于采用欧式距离;所述距离的定义分别如下:
(a).所述距离Lpq采用欧式距离来定义时,
Figure BDA0001964354680000081
式中,n'为样本的数据维度,zpd为第p个行向量的第d维坐标,zqd为第q个行向量的第d维坐标。
(b).所述距离Lpq采用余弦相似度来定义时,
Figure BDA0001964354680000082
式中,zp′为行向量zp的转置。zq′为行向量zq的转置。
(c).所述距离Lpq采用相关系数来定义时,
Figure BDA0001964354680000083
式中,
Figure BDA0001964354680000084
为单位行向量。
步骤d2,按照距离值的递增关系对训练数据进行排序;
步骤d3,选取训练数据中距离值最小的前k个点;
步骤d4,统计并确定前k个点所属类别的出现频率;
步骤d5,返回前k个点中出现频率最高的分类类别作为此次验证数据的预测分类。
步骤e,对前一步骤中确定的k值进行判断,判断其是否满足预定的目标条件,当满足预定 目标条件时继续下一步骤,当不满足预定目标条件时返回步骤d、并进一步地利用测试集对训 练模型进行测试,进一步确认k值的合理性。
当步骤d中利用验证集的数据确定一个k值后,此时还可能会出现如下两种情况:
(1)准确度最高的情况对应了多个k值;
(2)准确度最高的情况只对应了1个k值;
此时即认为该k值不满足预定的目标条件,需要在步骤S5中进一步利用测试集进一步进行 确认k值的合理性和唯一性。
步骤f,采用已训练好的训练模型和确定的k值对待识别用户的电压数据进行识别分类,进 而实现对待识别用户电压数据中台区用户的初次识别,并输出初次识别结果。
步骤g,建立台区用户识别结果可靠度的量化评价指标,并计算台区用户初次识别结果的 可靠度。
由于在前述步骤的进行KNN分类时,已合理设置了训练集、验证集和测试集,并采用交叉 验证的方式对KNN算法中的k参数进行确定,因此这k个已知的用户与待识别用户之间的距离能 比较好地体现出各类用户之间距离的整体情况。
经计算后,前k个点离待识别用户q的距离和所属类别分别为 L=(L1q(c1),L2q(c2),...,Lpq(cp),...,Lkq(ck)),其中Lpq表示前k个点中第p个点到待识别用户q的 距离,cp=s则表示前k个点中第p个点是属于s类的。假设 D=(D1q(c1),D2q(c2),...,Dpq(cp),...,Dkq(ck)),其中Dpq=1-Lpq,Dpq表示对象p与待识别用户q 之间相关性的大小,当Dpq越大时,对象p与待识别用户q之间的相关性越大,用户q与对象p 属于同一类的概率越大。
考虑到k个已知的用户与待识别用户之间的相关性能比较好地体现出各类用户之间相关 性的整体情况。若与待识别用户相关性最大的前k个用户中,属于某一类的用户越多且相关性 越大,则说明待识别用户属于此类的可靠度越高。因此,定义用户q属于s类的可靠度Rqs为:
Figure BDA0001964354680000091
步骤h,设定可靠度阈值,该阈值的选取可根据实际情况而定。基于该可靠度阈值将第一 次分类的台区用户初次识别结果中可靠度超过该阈值的用户视作辨识可靠的用户,并将该可 靠用户及用户所属台区和相别加入已知台户拓扑关系数据中,并更新已知用户数据和相应标 签;而可靠度低于阈值的用户视作下一次待识别的“争议用户”。
步骤i,基于更新后的用户数据和对应标签,重新建立训练集、验证集和测试集,并对分 类模型进行重新训练。待模型重新训练完毕后,对第二次待识别的“争议用户”开展新一轮 的分类识别。
步骤j,重复步骤g-i并进行验证判别,直到所有用户的识别可靠度均大于所述设定的可靠 度阈值,和/或达到设定的迭代次数。
步骤k.迭代结束后将获得的台区用户识别结果作为最终的台区用户识别结果,并提供最终 识别结果的可靠度指标。
综上所述,本发明实施例提供的基于优化的监督学习方法进行台区用户识别及判别方 法,对分类算法进行监督识别,并建立对台区用户户变关系识别结果的量化评价指标对初 始识别分类结果进行验证判别,从而能够对识别结果进行更加客观、准确的把控,识别结 果更准确可靠。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特 征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域 技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要 求保护的范围。

Claims (6)

1.一种基于监督学习的台区用户识别及判别方法,其特征在于,包括以下步骤:
步骤S1,获取台区变压器低压侧电压数据及待识别的用户电表电压数据;
所述台区变压器低压侧电压数据为
Figure FDA0002994478630000011
l表示台区数,其中:
Figure FDA0002994478630000012
Figure FDA0002994478630000013
表示第n个时刻第f台变压器A相的低压侧电压;
Figure FDA0002994478630000014
Figure FDA0002994478630000015
表示第n个时刻第f台变压器B相的低压侧电压;
Figure FDA0002994478630000016
Figure FDA0002994478630000017
表示第n个时刻第f台变压器C相的低压侧电压;而待识别的m台用户电表电压数据
Figure FDA0002994478630000018
其中,
Figure FDA0002994478630000019
Figure FDA00029944786300000110
表示第n个时刻第f台待识别用户电表电压;
步骤S2,对获取的电压数据进行预处理;
步骤S3,确定已知台户拓扑关系的用户及用户所属台区和相别,根据用户所属台区和相别确定用户数据的对应标签建立训练集、验证集和测试集,采用交叉验证的方式对KNN模型中的K参数进行确定,并完成模型的训练;
所述步骤S3中采用交叉验证的方式对KNN模型中的K参数进行确定,并完成模型的训练具体包括以下步骤:
步骤S3.1,选取一部分已知台户关系的用户电压数据和对应标签、及变压器的电压数据和对应标签作为训练集;一部分已知台户关系的用户电压数据和对应标签作为验证集;剩余的已知台户关系的用户电压数据和对应标签作为测试集;
步骤S3.2,在训练集中数据和标签已知的情况下,确定距离度量方式,输入验证集的数据,遍历所有可能出现的K值,利用优化后的KNN模型对验证集中的用户电压数据进行分类,评估输入不同的K值时,对验证集用户分类结果的准确度,并选取准确度最高时的K值作为输入参数;
步骤S3.3,对前一步骤中确定的K值进行判断,判断其是否满足预定的目标条件,当满足预定目标条件时继续下一步骤,当不满足预定目标条件时返回步骤S3.2、并进一步地利用训练模型对测试集数据进行分类,从而进一步确认K值的合理性;
步骤S4,采用已训练好的训练模型和确定的K值对待识别用户的电压数据进行识别分类,进而实现对待识别用户电压数据中台区用户的初次识别,并输出初次识别结果;
步骤S5,建立台区用户识别结果可靠度的量化评价指标,并计算台区用户初次识别结果的可靠度;
步骤S6,设定可靠度阈值,该阈值的选取可根据实际情况而定,基于该可靠度阈值将第一次分类的台区用户初次识别结果中可靠度超过该阈值的用户视作辨识可靠的用户,并将该可靠用户及用户所属台区和相别加入已知台户拓扑关系数据中,并更新已知用户数据和相应标签;而可靠度低于阈值的用户视作下一次待识别的“争议用户”;
步骤S7,基于更新后的用户数据和对应标签,重新建立训练集、验证集和测试集,并对分类模型进行重新训练,待模型重新训练完毕后,对第二次待识别的“争议用户”开展新一轮的分类识别;
步骤S8,重复步骤S7-S9并进行验证判别,直到所有用户的识别可靠度均大于所述设定的可靠度阈值,和/或达到设定的迭代次数;
步骤S9,迭代结束后将获得的台区用户识别结果作为最终的台区用户识别结果,并提供最终识别结果的可靠度指标;
所述可靠度指标是指经计算后,前K个点离待识别用户q的距离和所属类别分别为L=(L1q(c1),L2q(c2),...,Lpq(cp),...,Lkq(ck)),其中Lpq表示前K个点中第p个点到待识别用户q的距离,cp=s则表示前K个点中第p个点是属于s类的;假设D=(D1q(c1),D2q(c2),...,Dpq(cp),...,Dkq(ck)),其中Dpq=1-Lpq,Dpq表示对象p与待识别用户q之间相关性的大小,当Dpq越大时,对象p与待识别用户q之间的相关性越大,用户q与对象p属于同一类的概率越大;
因此,定义用户q属于s类的可靠度Rqs为:
Figure FDA0002994478630000021
步骤S3.3中对K值进行判断其是否满足预定的目标条件,当出现如下两种情况中的至少一种时,即认为该K值不满足预定的目标条件:
(1)准确度最高的情况对应了多个K值;
(2)准确度最高的情况只对应了1个K值;
此时需要在步骤S3.3中利用测试集进一步进行确认K值的合理性和唯一性。
2.如权利要求1所述的基于监督学习的台区用户识别及判别方法,其特征在于,所述步骤S2中当待处理数据的维度较大时对数据进行降维处理,把多维的数据化为少数主成分进行分析,以提高算法的计算效率;或当数据维度较小时不降维直接处理。
3.如权利要求2所述的基于监督学习的台区用户识别及判别方法,其特征在于,所述步骤S3.1中训练集、验证集和测试集的数据占总数据的比例分别为80%、10%和10%。
4.如权利要求1或2所述的基于监督学习的台区用户识别及判别方法,其特征在于,所述利用优化后的KNN模型对验证集中的用户电压数据进行分类具体为:
S3.2.1,计算验证数据与各个训练数据之间的距离,并确定距离度量方式;
S3.2.2,按照距离值的递增关系对训练数据进行排序;
S3.2.3,选取训练数据中距离值最小的前K个点;
S3.2.4,统计并确定前K个点所属类别的出现频率;
S3.2.5,返回前K个点中出现频率最高的分类类别作为此次验证数据的预测分类。
5.如权利要求4所述的基于监督学习的台区用户识别及判别方法,其特征在于,所述距离度量方式采用相关系数、余弦相似度、欧式距离中的一种,且各距离度量方式的定义分别如下:
(a).所述距离Lpq采用欧式距离来定义时,
Figure FDA0002994478630000031
式中,n'为样本的数据维度,zpd为第p个行向量的第d维坐标,zqd为第q个行向量的第d维坐标;
(b).所述距离Lpq采用余弦相似度来定义时,
Figure FDA0002994478630000041
式中,zp’为行向量zp的转置;zq’为行向量zq的转置;
(c).所述距离Lpq采用相关系数来定义时,
Figure FDA0002994478630000042
式中,
Figure FDA0002994478630000043
Figure FDA0002994478630000044
为单位行向量。
6.如权利要求1所述的基于监督学习的台区用户识别及判别方法,其特征在于,步骤S7中建立台区用户识别结果可靠度的量化评价指标具体为:由于在进行KNN模型训练时已合理设置了训练集、验证集和测试集,并采用交叉验证的方式对KNN算法中的K参数进行确定,因此将所述K个已知的用户与待识别用户之间的距离作为量化评价指标用于体现各类用户之间距离的整体情况。
CN201910095243.0A 2019-01-31 2019-01-31 一种基于监督学习的台区用户识别及判别方法 Active CN109829497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910095243.0A CN109829497B (zh) 2019-01-31 2019-01-31 一种基于监督学习的台区用户识别及判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910095243.0A CN109829497B (zh) 2019-01-31 2019-01-31 一种基于监督学习的台区用户识别及判别方法

Publications (2)

Publication Number Publication Date
CN109829497A CN109829497A (zh) 2019-05-31
CN109829497B true CN109829497B (zh) 2021-06-22

Family

ID=66861964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910095243.0A Active CN109829497B (zh) 2019-01-31 2019-01-31 一种基于监督学习的台区用户识别及判别方法

Country Status (1)

Country Link
CN (1) CN109829497B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659693B (zh) * 2019-09-26 2024-03-01 国网湖南省电力有限公司 基于k近邻分类的配电网快速拓扑识别方法、系统及介质
CN111695600B (zh) * 2020-05-13 2023-08-18 国网湖北省电力有限公司电力科学研究院 一种基于多阈值和knn的台区分类方法
CN111666456B (zh) * 2020-06-09 2023-09-08 云南电网有限责任公司电力科学研究院 一种基于多源配网网络的网架拓扑自动构建方法
CN112087056B (zh) * 2020-09-14 2022-01-21 广东电网有限责任公司计量中心 一种台区户变关系的识别方法和装置
CN112329630A (zh) * 2020-11-05 2021-02-05 四川能信科技股份有限公司 基于载波信号强度分布的电缆分支识别系统及方法
CN112270510B (zh) * 2020-12-21 2021-05-04 广东电网有限责任公司佛山供电局 一种基于个体和群体电压相似性的户变关系辨识方法
CN113517687B (zh) * 2021-05-28 2023-07-21 国网浙江省电力有限公司营销服务中心 一种基于特征信号的低压台区拓扑识别方法及装置
CN114240105A (zh) * 2021-12-03 2022-03-25 南京南瑞信息通信科技有限公司 一种台区线损分析方法、装置及系统
CN114501420A (zh) * 2022-03-06 2022-05-13 北京工业大学 一种利用手机信令数据识别家庭关系的方法
CN115085274B (zh) * 2022-07-27 2023-01-20 北京智芯微电子科技有限公司 新能源设备接入的自动识别方法、装置、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404944A (zh) * 2015-12-11 2016-03-16 中国电力科学研究院 一种面向电力系统重过载预警的大数据分析方法
CN108205139A (zh) * 2017-12-22 2018-06-26 北京凌宇智控科技有限公司 用于超声波测距系统的控制方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7492943B2 (en) * 2004-10-29 2009-02-17 George Mason Intellectual Properties, Inc. Open set recognition using transduction
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法
CN108764295B (zh) * 2018-04-28 2021-05-28 江南大学 一种基于半监督集成学习的软测量建模对脱丁烷塔底丁烷浓度进行预测的方法
CN108763201B (zh) * 2018-05-17 2021-07-23 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404944A (zh) * 2015-12-11 2016-03-16 中国电力科学研究院 一种面向电力系统重过载预警的大数据分析方法
CN108205139A (zh) * 2017-12-22 2018-06-26 北京凌宇智控科技有限公司 用于超声波测距系统的控制方法及装置

Also Published As

Publication number Publication date
CN109829497A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829497B (zh) 一种基于监督学习的台区用户识别及判别方法
WO2022110557A1 (zh) 一种台区户变关系异常诊断方法及装置
CN111505433B (zh) 一种低压台区户变关系纠错及相位识别方法
CN111061821B (zh) 基于改进k值聚类算法的低压配电网拓扑校验方法及系统
CN110991786B (zh) 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法
CN109816033A (zh) 一种基于优化的监督学习进行台区用户识别的方法
CN109828184B (zh) 一种基于互近似熵的电压暂降源识别方法
CN113297797A (zh) 一种基于XGBoost的电子式互感器量测误差状态评估方法及装置
CN109298225B (zh) 一种电压量测数据异常状态自动识别模型系统及方法
CN113723844B (zh) 一种基于集成学习的低压台区理论线损计算方法
CN113987033A (zh) 主变在线监测数据群体偏差识别与校准方法
CN112701675A (zh) 基于筛选电压数据的配电台区用户相别辨识方法及系统
CN114626769B (zh) 一种电容式电压互感器运维方法及系统
CN113659564B (zh) 基于电压波动特征聚类的低压配电网拓扑识别方法及系统
CN112508254B (zh) 变电站工程项目投资预测数据的确定方法
CN114266457A (zh) 一种配电线路异损诱因检测的方法
CN117057666A (zh) 一种数字化配电网的配电质量评估方法及系统
CN114838923A (zh) 有载分接开关的故障诊断模型建立方法及故障诊断方法
Pena et al. Parameter tuning analysis for phase identification algorithms in distribution system model calibration
CN112256766A (zh) 用于能源采集终端的用电行为分析方法
Liu et al. Intelligent Identification Technology of Attributes of Users' Transformers Based on Gray Correlation Analysis.
Asri et al. Clusterization of customer energy usage to detect power shrinkage in an effort to increase the efficiency of electric energy consumption
CN113052249B (zh) 基于支持向量机和电流偏差系数的变压器绕组故障类型识别方法
CN117154716B (zh) 一种分布式电源接入配电网的规划方法及系统
CN116796213B (zh) 一种基于聚类算法的配电网线变关系辨识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Tang Ming

Inventor after: He Zhongxiao

Inventor after: Wang Jian

Inventor after: Wang Xiao

Inventor after: Wang Xiaohua

Inventor before: He Zhongxiao

Inventor before: Tang Ming

Inventor before: Wang Xiao

Inventor before: Wang Jian

Inventor before: Wang Xiaohua

GR01 Patent grant
GR01 Patent grant