CN115563489B - 超差表检出方法、装置及计算机存储介质 - Google Patents

超差表检出方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN115563489B
CN115563489B CN202211369578.5A CN202211369578A CN115563489B CN 115563489 B CN115563489 B CN 115563489B CN 202211369578 A CN202211369578 A CN 202211369578A CN 115563489 B CN115563489 B CN 115563489B
Authority
CN
China
Prior art keywords
regression coefficient
tolerance
preset
line loss
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211369578.5A
Other languages
English (en)
Other versions
CN115563489A (zh
Inventor
陈昊
刘婧
谭煌
赵兵
于海波
林繁涛
陈天阳
李媛
乔文俞
刁新平
李亚杰
谷凯
田成明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electric Power Research Institute Co Ltd CEPRI filed Critical China Electric Power Research Institute Co Ltd CEPRI
Priority to CN202211369578.5A priority Critical patent/CN115563489B/zh
Publication of CN115563489A publication Critical patent/CN115563489A/zh
Application granted granted Critical
Publication of CN115563489B publication Critical patent/CN115563489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种超差表检出方法及装置,其中,该方法包括:对样本数据利用先验知识进行第一次特征选择,将得到的初次特征候选集合输入统计线损模型并使用Lasso算法求解,之后进行第二次特征选择,将得到的二次特征候选集合再次输入所述统计线损模型,并使用岭回归方法求解,根据回归拟合结果进行第三次特征选择,得到最终的超差表集合。该方法,通过多次特征选择以及Lasso算法求解,大大减少了超差表的个数,既降低了统计线损模型求解的复杂度,又提高了统计线损模型求解的准确度,大大提高了超差表识别及检出的效率和准确率。

Description

超差表检出方法、装置及计算机存储介质
技术领域
本发明涉及电能表计量异常诊断技术领域,具体而言,涉及一种超差表检出方法、装置、计算机存储介质及电子设备。
背景技术
电能表在运行过程中,由于使用年限过长、电能表本身质量问题、安装不当等原因造成电表内部零部件自然或人为损坏,从而导致电能表计量失准。电能表能否正确计量,不仅影响用户的自身利益,同时也直接影响了电力公司的收益,电能表计量异常同时会影响正确评估台区线损、分析低压台区运行效率等。
传统的针对电能表计量异常的检测方法是针对用户进行周期性地抽检,但该方法不仅不能保证抽检电能表计量异常的准确性,同时会导致大量真正超差表的漏检,准确率和召回率都过低,造成人力物力的浪费,同时也会造成由于未及时进行失准电能表更换的经济损失。
随着用电信息采集的自动化,已经实现了数据的自动采集和管理,目前虽然已有一些针对智能电能表的在线分析方法,但方法较为单一,存在准确度低且求解过程复杂的问题。
发明内容
鉴于此,本发明提出了一种超差表检出方法、装置、计算机存储介质及电子设备,旨在解决现有技术中超差表识别准确度低且求解过程复杂的问题。
第一方面,本发明提出了一种超差表检出方法,所述方法包括:获取台区的样本数据,其中,所述样本数据包括总表及所有户表的档案信息和日冻结电量信息;基于所述样本数据,利用先验知识进行第一次特征选择,得到初次特征候选集合;将所述初次特征候选集合输入统计线损模型,并使用Lasso算法求解,得到第一回归系数集合;基于所述第一回归系数集合,对所述初次特征候选集合进行第二次特征选择,得到二次特征候选集合;将所述二次特征候选集合再次输入所述统计线损模型,并使用岭回归方法求解,得到第二计量误差集合、第二回归系数集合以及岭回归的正则化系数;根据所述岭回归的正则化系数,对所述第二回归系数集合进行T检验得到T检验值集合,以及根据所述第二计量误差集合得到超差表每个样本点的超差电量集合、超差电量均值集合和统计线损均值集合;根据所述第一回归系数集合、所述第二回归系数集合、所述第二计量误差集合、所述超差电量均值集合、所述统计线损均值集合和所述T检验值集合,对所述二次特征候选集合进行第三次特征选择,得到最终的超差表集合。
进一步地,所述获取台区的样本数据,包括:获取台区的档案信息和预设时间段内的台区下总表及所有户表的日冻结电量信息;根据预设的台区可算性评价条件判定台区是否可算,若台区可算,则根据预设的时间样本点选择条件,从所述预设时间段内进行样本点选择,得到样本数据。
进一步地,所述根据预设的台区可算性评价条件判定台区是否可算之前,还包括:对所述台区下总表及所有户表的日冻结电量信息进行清洗和治理。
进一步地,所述基于所述样本数据,利用先验知识进行第一次特征选择,得到初次特征候选集合,包括:将满足如下任一条件的特征过滤掉,得到初次特征候选集合,其中,特征包括每个户表的档案信息及其他相关信息,其他相关信息包括户表的各种运行数据及拟合数据:新上线的表运行天数少于预设天数;用电量波动小于预设波动值且用电次数小于预设次数。
进一步地,所述基于所述第一回归系数集合,对所述初次特征候选集合进行第二次特征选择,得到二次特征候选集合,包括:将所述初次特征候选集合按照所述第一回归系数的正负分为正回归系数队列和负回归系数队列,每个队列按照所述第一回归系数的绝对值大小进行排列;对于排序后的正回归系数队列和负回归系数队列,进行个数特征选择或数量级特征选择或阈值特征选择,得到二次特征候选集合。
进一步地,所述根据所述第一回归系数集合、所述第二回归系数集合、所述第二计量误差集合、所述超差电量均值集合、所述统计线损均值集合和所述T检验值集合,对所述二次特征候选集合进行第三次特征选择,得到最终的超差表集合,包括:将满足如下任一条件的特征过滤掉,得到最终的超差表集合:所述第二计量误差绝对值小于预设最小误差值;所述T检验值的绝对值小于预设最大T值;计算出的所述超差电量均值占所述统计线损均值比值小于设置比例阈值;所述第一回归系数与所述第二回归系数的符号相反。
进一步地,所述得到最终的超差表集合之后,还包括:根据等级评价指标,对所述最终的超差表集合中超差表进行等级判定。
第二方面,本发明实施例还提供了一种超差表检出装置,所述装置包括:数据获取单元,用于获取台区的样本数据,其中,所述样本数据包括总表及所有户表的档案信息和日冻结电量信息;第一次特征选择单元,用于基于所述样本数据,利用先验知识进行第一次特征选择,得到初次特征候选集合;第一模型求解单元,用于将所述初次特征候选集合输入统计线损模型,并使用Lasso算法求解,得到第一回归系数集合;第二次特征选择单元,用于基于所述第一回归系数集合,对所述初次特征候选集合进行第二次特征选择,得到二次特征候选集合;第二模型求解单元,用于将所述二次特征候选集合再次输入所述统计线损模型,并使用岭回归方法求解,得到第二计量误差集合、第二回归系数集合以及岭回归的正则化系数;相关数值计算单元,用于根据所述岭回归的正则化系数,对所述第二回归系数集合进行T检验得到T检验值集合,以及根据所述第二计量误差集合得到超差表每个样本点的超差电量集合、超差电量均值集合和统计线损均值集合;第三次特征选择单元,用于根据所述第一回归系数集合、所述第二回归系数集合、所述第二计量误差集合、所述超差电量均值集合、所述统计线损均值集合和所述T检验值集合,对所述二次特征候选集合进行第三次特征选择,得到最终的超差表集合。
进一步地,所述数据获取单元,还用于:获取台区的档案信息和预设时间段内的台区下总表及所有户表的日冻结电量信息;根据预设的台区可算性评价条件判定台区是否可算,若台区可算,则根据预设的时间样本点选择条件,从所述预设时间段内进行样本点选择,得到样本数据。
进一步地,所述根据预设的台区可算性评价条件判定台区是否可算之前,还包括:对所述台区下总表及所有户表的日冻结电量信息进行清洗和治理。
进一步地,所述第一次特征选择单元,还用于:将满足如下任一条件的特征过滤掉,得到超差表初次候选集合,其中,特征包括每个户表的档案信息及其他相关信息,其他相关信息包括户表的各种运行数据及拟合数据:新上线的表运行天数少于预设天数;用电量波动小于预设波动值且用电次数小于预设次数。
进一步地,所述第二次特征选择单元,还用于:将所述初次特征候选集合按照所述第一回归系数的正负分为正回归系数队列和负回归系数队列,每个队列按照所述第一回归系数的绝对值大小进行排列;对于排序后的正回归系数队列和负回归系数队列,进行个数特征选择或数量级特征选择或阈值特征选择,得到二次特征候选集合。
进一步地,所述第三次特征选择单元,还用于:将满足如下任一条件的特征过滤掉,得到最终的超差表集合:所述第二计量误差绝对值小于预设最小误差值;所述T检验值的绝对值小于预设最大T值;计算出的所述超差电量均值占所述统计线损均值比值小于设置比例阈值;所述第一回归系数与所述第二回归系数的符号相反。
进一步地,所述装置还包括:等级评价指标单元,用于在得到最终的超差表集合之后,根据等级评价指标,对所述最终的超差表集合中超差表进行等级判定。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述各实施例提供的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述各实施例提供的方法。
本发明实施例提供的超差表检出方法、装置、计算机存储介质及电子设备,通过对样本数据利用先验知识进行第一次特征选择,将得到的超差表初次候选集合输入统计线损模型并使用Lasso算法求解,之后进行第二次特征选择,将得到的超差表二次候选集合再次输入所述统计线损模型进行回归拟合,并根据回归拟合结果进行第三次特征选择,得到最终的超差表集合,大大减少了超差表的个数,既降低了统计线损模型求解的复杂度,又提高了统计线损模型求解的准确度,大大提高了超差表识别及检出的效率和准确率。
附图说明
图1示出了根据本发明实施例的超差表检出方法的示例性流程图;
图2示出了根据本发明实施例的超差表检出装置的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
超差表,即超差电能表,是指电能表的计量误差范围超出了电能表的精度,电能表超差有正超差和负超差。超差表计量已经不准确,不能再使用,需要校表或者更换。
图1示出了根据本发明实施例的超差表检出方法的示例性流程图。
如图1所示,该方法包括:
步骤S101:获取台区的样本数据,其中,样本数据包括总表及所有户表的档案信息和日冻结电量信息。
进一步地,步骤S101,包括:
获取台区的档案信息和预设时间段内的台区下总表及所有户表的日冻结电量信息;
根据预设的台区可算性评价条件判定台区是否可算,若台区可算,则根据预设的时间样本点选择条件,从预设时间段内进行样本点选择,得到样本数据。
进一步地,根据预设的台区可算性评价条件判定台区是否可算之前,还包括:
对台区下总表及所有户表的日冻结电量信息进行清洗和治理。
结合档案信息对当前运行的户表信息进行整理,并对每个时间样本点电量数据进行清洗和治理。
步骤S102:基于样本数据,利用先验知识进行第一次特征选择,得到初次特征候选集合。
每个户表称为一个特征,用于特征选择的信息包括:每个户表的档案信息及其他相关信息,其他相关信息包括户表的各种运行数据及拟合数据。具体地,其他相关信息包括:日冻结电量信息、运行天数、运行电量、统计线损、运行相对误差、计量误差、回归系数、T检验值、超差电量、在拟合理论线损时用到的大电量户表和总表的二次函数项的二次项特征等。
进一步地,步骤S102,包括:
将满足如下任一条件的特征过滤掉,得到初次特征候选集合:
新上线的表运行天数少于预设天数;
用电量波动小于预设波动值且用电次数小于预设次数。
步骤S103:将初次特征候选集合输入统计线损模型,并使用Lasso算法求解,得到第一回归系数集合。
基于台区能量守恒,预先建立台区日冻结电量统计线损模型,其中线路损耗项用户表电量的二次函数进行拟合。统计线损模型表达式为:
Figure BDA0003925044260000071
其中:Δy(i)是台区第i个测量点的统计线损,
Figure BDA0003925044260000072
是台区内第j个户表的第i个测量点的表计电量,εj是第j个户表的运行相对误差,yu(i)是第i个测量点的台区线路损耗,y0是每天的固定损耗,j=1,2,…,m,m为超差表初次候选集合中的户表个数。
进一步地,可以定义计量误差θj为:
Figure BDA0003925044260000073
其中,
Figure BDA0003925044260000074
为第j个户表的用电量的表计量值,xj为第j个户表用电量的真实值;
进而,根据相对误差εj,采用下式计算得到计量误差θj
Figure BDA0003925044260000075
其中,θj>0或εj<0代表表计正超差,θj<0或εj>0代表表计负超差,θj=0或εj=0代表表计不超差。
对线路损耗项用户表电量的二次函数进行拟合,具体方法为:选择大电量户表用于拟合线路损耗项,计算预设时间段内的户表电量均值与总表电量均值的比值,选取所有比值大于预设比例阈值的表作为大电量户表,用于拟合线路损耗,根据需求可加入总表电量的二次函数作为拟合项。此时台区统计线损模型可表示为:
Figure BDA0003925044260000076
其中:p为用于拟合线路损耗的大电量的户表个数,
Figure BDA0003925044260000077
为拟合的线路损耗项,/>
Figure BDA0003925044260000078
和y2称为回归时的二次项特征,/>
Figure BDA0003925044260000079
是用于拟合线路损耗的p个户表中第i个样本点第k个户表的日冻结电量,δk为用于拟合线损户表电量二次函数项的系数,εy为总表电量二次函数项的系数,y(i)为台区第i个样本点的总表计量的日冻结电量。
将初次特征候选集合输入统计线损模型,此时,m为经第一次特征选择后得到的初次特征候选集合中的户表个数。将初次特征候选集合中的数据带入统计线损模型,并使用Lasso回归算法进行回归分析,得到第一回归系数集合[ε1,ε2,....εm,δ1,δ2,....,δk,εy]。
步骤S104:基于第一回归系数集合,对初次特征候选集合进行第二次特征选择,得到二次特征候选集合。
进一步地,步骤S104,包括:
将初次特征候选集合按照第一回归系数的正负分为正回归系数队列和负回归系数队列,每个队列按照第一回归系数的绝对值大小进行排列;
对于排序后的正回归系数队列和负回归系数队列,进行个数特征选择或数量级特征选择或阈值特征选择,得到二次特征候选集合。
具体地,正回归系数队列和负回归系数队列,可以分别按照第一回归系数的绝对值由大到小或由小到大排列。
个数特征选择:分别在其正负回归系数队列中进行特征选择,得到正负回归系数队列中所对应的特征候选集合,选取正回归系数特征候选集合中等于预设负超差表阈值个数的前或后几个特征和负回归系数特征候选集合中等于预设正超差表阈值个数的前或几个特征合并得到二次特征候选集合;其中,预设正超差个数代表为预估台区内可能正超差的表数的最大个数,预设负超差个数为预估台区内可能负超差的表数的最大个数。
数量级特征选择:计算回归系数队列中每个回归系数的数量级,得到回归系数数量级队列,其中数量级的计算方法为:计算回归系数绝对值以10为底的对数,然后向下取其最接近的整数;选取队列中回归系数的数量级等于回归系数数量级队列中最大值的所有特征,作为二次特征选择的候选特征集合。
阈值特征选择:根据预设的回归系数阈值,选取队列中回归系数绝对值大于预设阈值的所有对应特征作为候选特征集合。
步骤S105:将二次特征候选集合再次输入统计线损模型,并使用岭回归方法求解,得到第二计量误差集合、第二回归系数集合以及岭回归的正则化系数。
具体地,可以参见步骤S103,构建统计线损模型,并将二次特征候选集合输入统计线损模型,使用岭回归方法进行回归拟合,得到第二计量误差集合、第二回归系数集合
Figure BDA0003925044260000091
以及岭回归的正则化系数λ。
步骤S106:根据岭回归的正则化系数,对第二回归系数集合进行T检验得到T检验值集合,以及根据第二计量误差集合得到超差表每个样本点的超差电量集合、超差电量均值集合和统计线损均值集合。
进一步地,根据岭回归的正则化系数,对第二回归系数集合进行T检验得到T检验值集合,包括:
采用如下方式计算得到T检验值:
Figure BDA0003925044260000092
Figure BDA0003925044260000093
v=n-tr(2H-H'H);
H=X(X′X+λI)-1X′;
其中:λ为岭回归的正则化系数,
Figure BDA0003925044260000094
为正则化系数为λ下的第二回归系数矩阵
Figure BDA0003925044260000095
其中m1为二次候选集合中的特征个数,/>
Figure BDA0003925044260000096
为正则化系数为λ下的/>
Figure BDA0003925044260000097
估计标准差,/>
Figure BDA0003925044260000098
为每个第二回归系数的T检验值构成的矩阵。Y是n个样本点下的真实统计线损矩阵[Δy(1),Δy(2),....,Δy(i),....Δy(n)],X是二次候选特征的样本点日冻结组成的矩阵,其中每一列代表一个特征的n个样本点下电量日冻结,如下所示:
Figure BDA0003925044260000101
X′为X的转置,I代表维数为m1的单位矩阵,v为自由度,tr(2H-H′H)为2H-H′H的迹。
步骤S107:根据第一回归系数集合、第二回归系数集合、第二计量误差集合、超差电量均值集合、统计线损均值集合和T检验值集合,对二次特征候选集合进行第三次特征选择,得到最终的超差表集合。
进一步地,步骤S107,包括:
将满足如下任一条件的特征过滤掉,得到最终的超差表集合:
第二计量误差绝对值小于预设最小误差值;
T检验值的绝对值小于预设最大T值;
计算出的超差电量均值占统计线损均值比值小于设置比例阈值;
第一回归系数与第二回归系数的符号相反。
进一步地,得到最终的超差表集合之后,还包括:
根据等级评价指标,对所述最终的超差表集合中超差表进行等级判定。
等级评价指标包括T检验值和相关系数,其中,相关系数通过超差电量与统计线损得到。根据不同等级对应的T检验值阈值和相关系数阈值将异常等级分为一类、二类、三类,其中一类等级代表户表为真正超差表的可能性最高,可以直接进行核查换表,二类其次,三类最低,二三类还需进一步后确认是否真正超差。
上述实施例,通过多次特征选择以及使用Lasso算法对统计线损模型进行求解,大大减少了超差表的个数,既降低了统计线损模型求解的复杂度,又提高了统计线损模型求解的准确度,大大提高了超差表识别及检出的效率和准确率。
图2示出了根据本发明实施例的超差表检出装置的结构示意图。
如图2所示,该装置包括:
数据获取单元201,用于获取台区的样本数据,其中,样本数据包括总表及所有户表的档案信息和日冻结电量信息。
进一步地,数据获取单元201,还用于:
获取台区的档案信息和预设时间段内的台区下总表及所有户表的日冻结电量信息;
根据预设的台区可算性评价条件判定台区是否可算,若台区可算,则根据预设的时间样本点选择条件,从预设时间段内进行样本点选择,得到样本数据。
进一步地,根据预设的台区可算性评价条件判定台区是否可算之前,还包括:
对台区下总表及所有户表的日冻结电量信息进行清洗和治理。
结合档案信息对当前运行的户表信息进行整理,并对每个时间样本点电量数据进行清洗和治理。
第一次特征选择单元202,用于基于样本数据,利用先验知识进行第一次特征选择,得到初次特征候选集合。
每个户表称为一个特征,用于特征选择的信息包括:每个户表的档案信息及其他相关信息,其他相关信息包括户表的各种运行数据及拟合数据。具体地,其他相关信息包括:日冻结电量信息、运行天数、运行电量、统计线损、运行相对误差、计量误差、回归系数、T检验值、超差电量、在拟合理论线损时用到的大电量户表和总表的二次函数项的二次项特征等。
进一步地,第一次特征选择单元202,还用于:
将满足如下任一条件的特征过滤掉,得到初次特征候选集合:
新上线的表运行天数少于预设天数;
用电量波动小于预设波动值且用电次数小于预设次数。
第一模型求解单元203,用于将初次特征候选集合输入统计线损模型,并使用Lasso算法求解,得到第一回归系数集合。
基于台区能量守恒,预先建立台区日冻结电量统计线损模型,其中线路损耗项用户表电量的二次函数进行拟合。统计线损模型表达式为:
Figure BDA0003925044260000121
其中:Δy(i)是台区第i个测量点的统计线损,
Figure BDA0003925044260000122
是台区内第j个户表的第i个测量点的表计电量,εj是第j个户表的运行相对误差,yll(i)是第i个测量点的台区线路损耗,y0是每天的固定损耗,j=1,2,…,m,m为超差表初次候选集合中的户表个数。
进一步地,可以定义计量误差θj为:
Figure BDA0003925044260000123
其中,
Figure BDA0003925044260000124
为第j个户表的用电量的表计量值,xj为第j个户表用电量的真实值;
进而,根据相对误差εj,采用下式计算得到计量误差θj
Figure BDA0003925044260000125
其中,θj>0或εj<0代表表计正超差,θj<0或εj>0代表表计负超差,θj=0或εj=0代表表计不超差。
对线路损耗项用户表电量的二次函数进行拟合,具体方法为:选择大电量户表用于拟合线路损耗项,计算预设时间段内的户表电量均值与总表电量均值的比值,选取所有比值大于预设比例阈值的表作为大电量户表,用于拟合线路损耗,根据需求可加入总表电量的二次函数作为拟合项。此时台区统计线损模型可表示为:
Figure BDA0003925044260000126
其中:p为用于拟合线路损耗的大电量的户表个数,
Figure BDA0003925044260000127
为拟合的线路损耗项,/>
Figure BDA0003925044260000128
和y2称为回归时的二次项特征,/>
Figure BDA0003925044260000129
是用于拟合线路损耗的p个户表中第i个样本点第k个户表的日冻结电量,δk为用于拟合线损户表电量二次函数项的系数,εy为总表电量二次函数项的系数,y(i)为台区第i个样本点的总表计量的日冻结电量。
将初次特征候选集合输入统计线损模型,此时,m为经第一次特征选择后得到的初次特征候选集合中的户表个数。将初次特征候选集合中的数据带入统计线损模型,并使用Lasso回归算法进行回归分析,得到第一回归系数集合[ε1,ε2,....εm,δ1,δ2,....,δk,εy]。
第二次特征选择单元204,用于基于第一回归系数集合,对初次特征候选集合进行第二次特征选择,得到二次特征候选集合。
进一步地,第二次特征选择单元204,还用于:
将初次特征候选集合按照第一回归系数的正负分为正回归系数队列和负回归系数队列,每个队列按照第一回归系数的绝对值大小进行排列;
对于排序后的正回归系数队列和负回归系数队列,进行个数特征选择或数量级特征选择或阈值特征选择,得到二次特征候选集合。
具体地,正回归系数队列和负回归系数队列,可以分别按照第一回归系数的绝对值由大到小或由小到大排列。
个数特征选择:分别在其正负回归系数队列中进行特征选择,得到正负回归系数队列中所对应的特征候选集合,选取正回归系数特征候选集合中等于预设负超差表阈值个数的前或后几个特征和负回归系数特征候选集合中等于预设正超差表阈值个数的前或几个特征合并得到二次特征候选集合;其中,预设正超差个数代表为预估台区内可能正超差的表数的最大个数,预设负超差个数为预估台区内可能负超差的表数的最大个数。
数量级特征选择:计算回归系数队列中每个回归系数的数量级,得到回归系数数量级队列,其中数量级的计算方法为:计算回归系数绝对值以10为底的对数,然后向下取其最接近的整数;选取队列中回归系数的数量级等于回归系数数量级队列中最大值的所有特征,作为二次特征选择的候选特征集合。
阈值特征选择:根据预设的回归系数阈值,选取队列中回归系数绝对值大于预设阈值的所有对应特征作为候选特征集合。
第二模型求解单元205,用于将二次特征候选集合再次输入统计线损模型,并使用岭回归方法求解,得到第二计量误差集合、第二回归系数集合以及岭回归的正则化系数。
具体地,可以参见步骤S103,构建统计线损模型,并将二次特征候选集合输入统计线损模型,使用岭回归方法进行回归拟合,得到第二计量误差集合、第二回归系数集合
Figure BDA0003925044260000141
以及岭回归的正则化系数λ。
相关数值计算单元206,用于根据岭回归的正则化系数,对第二回归系数集合进行T检验得到T检验值集合,以及根据第二计量误差集合得到超差表每个样本点的超差电量集合、超差电量均值集合和统计线损均值集合。
进一步地,根据岭回归的正则化系数,对第二回归系数集合进行T检验得到T检验值集合,包括:
采用如下方式计算得到T检验值:
Figure BDA0003925044260000142
Figure BDA0003925044260000143
v=n-tr(2H-H'H);
H=X(X′X+λI)-1X′;
其中:λ为岭回归的正则化系数,
Figure BDA0003925044260000144
为正则化系数为λ下的第二回归系数矩阵
Figure BDA0003925044260000145
其中m1为二次候选集合中的特征个数,/>
Figure BDA0003925044260000146
为正则化系数为λ下的/>
Figure BDA0003925044260000147
估计标准差,/>
Figure BDA0003925044260000148
为每个第二回归系数的T检验值构成的矩阵。Y是n个样本点下的真实统计线损矩阵[Δy(1),Δy(2),....,Δy(i),....Δy(n)],X是二次候选特征的样本点日冻结组成的矩阵,其中每一列代表一个特征的n个样本点下电量日冻结,如下所示:
Figure BDA0003925044260000151
/>
X′为X的转置,I代表维数为m1的单位矩阵,v为自由度,tr(2H-H′H)为2H-H′H的迹。
第三次特征选择单元207,用于根据第一回归系数集合、第二回归系数集合、第二计量误差集合、超差电量均值集合、统计线损均值集合和T检验值集合,对二次特征候选集合进行第三次特征选择,得到最终的超差表集合。
进一步地,第三次特征选择单元207,还用于:
将满足如下任一条件的特征过滤掉,得到最终的超差表集合:
第二计量误差绝对值小于预设最小误差值;
T检验值的绝对值小于预设最大T值;
计算出的超差电量均值占统计线损均值比值小于设置比例阈值;
第一回归系数与第二回归系数的符号相反。
进一步地,该装置还包括:
等级评价指标单元,用于在得到最终的超差表集合之后,根据等级评价指标,对所述最终的超差表集合中超差表进行等级判定。
等级评价指标包括T检验值和相关系数,其中,相关系数通过超差电量与统计线损得到。根据不同等级对应的T检验值阈值和相关系数阈值将异常等级分为一类、二类、三类,其中一类等级代表户表为真正超差表的可能性最高,可以直接进行核查换表,二类其次,三类最低,二三类还需进一步后确认是否真正超差。
上述实施例,通过多次特征选择以及使用Lasso算法对统计线损模型进行求解,大大减少了超差表的个数,既降低了统计线损模型求解的复杂度,又提高了统计线损模型求解的准确度,大大提高了超差表识别及检出的效率和准确率。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述各个实施例所提供的超差表检出方法。
本发明实施例还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;该处理器,用于从该存储器中读取所述可执行指令,并执行该指令以实现上述各个实施例所提供的超差表检出方法。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (16)

1.一种超差表检出方法,其特征在于,所述方法包括:
获取台区的样本数据,其中,所述样本数据包括总表及所有户表的档案信息和日冻结电量信息;
基于所述样本数据,利用先验知识进行第一次特征选择,得到初次特征候选集合;
将所述初次特征候选集合输入统计线损模型,并使用Lasso算法求解,得到第一回归系数集合;
基于所述第一回归系数集合,对所述初次特征候选集合进行第二次特征选择,得到二次特征候选集合;
将所述二次特征候选集合再次输入所述统计线损模型,并使用岭回归方法求解,得到第二计量误差集合、第二回归系数集合以及岭回归的正则化系数;
根据所述岭回归的正则化系数,对所述第二回归系数集合进行T检验得到T检验值集合,以及根据所述第二计量误差集合得到超差表每个样本点的超差电量集合、超差电量均值集合和统计线损均值集合;
根据所述第一回归系数集合、所述第二回归系数集合、所述第二计量误差集合、所述超差电量均值集合、所述统计线损均值集合和所述T检验值集合,对所述二次特征候选集合进行第三次特征选择,得到最终的超差表集合。
2.根据权利要求1所述的方法,其特征在于,所述获取台区的样本数据,包括:
获取台区的档案信息和预设时间段内的台区下总表及所有户表的日冻结电量信息;
根据预设的台区可算性评价条件判定台区是否可算,若台区可算,则根据预设的时间样本点选择条件,从所述预设时间段内进行样本点选择,得到样本数据。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的台区可算性评价条件判定台区是否可算之前,还包括:
对所述台区下总表及所有户表的日冻结电量信息进行清洗和治理。
4.根据权利要求1所述的方法,其特征在于,所述基于所述样本数据,利用先验知识进行第一次特征选择,得到初次特征候选集合,包括:
将满足如下任一条件的特征过滤掉,得到初次特征候选集合,其中,特征包括每个户表的档案信息及其他相关信息,其他相关信息包括户表的各种运行数据及拟合数据:
新上线的表运行天数少于预设天数;
用电量波动小于预设波动值且用电次数小于预设次数。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一回归系数集合,对所述初次特征候选集合进行第二次特征选择,得到二次特征候选集合,包括:
将所述初次特征候选集合按照所述第一回归系数的正负分为正回归系数队列和负回归系数队列,每个队列按照所述第一回归系数的绝对值大小进行排列;
对于排序后的正回归系数队列和负回归系数队列,进行个数特征选择或数量级特征选择或阈值特征选择,得到二次特征候选集合。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一回归系数集合、所述第二回归系数集合、所述第二计量误差集合、所述超差电量均值集合、所述统计线损均值集合和所述T检验值集合,对所述二次特征候选集合进行第三次特征选择,得到最终的超差表集合,包括:
将满足如下任一条件的特征过滤掉,得到最终的超差表集合:
所述第二计量误差绝对值小于预设最小误差值;
所述T检验值的绝对值小于预设最大T值;
计算出的所述超差电量均值占所述统计线损均值比值小于设置比例阈值;
所述第一回归系数与所述第二回归系数的符号相反。
7.根据权利要求1所述的方法,其特征在于,所述得到最终的超差表集合之后,还包括:
根据等级评价指标,对所述最终的超差表集合中超差表进行等级判定。
8.一种超差表检出装置,其特征在于,所述装置包括:
数据获取单元,用于获取台区的样本数据,其中,所述样本数据包括总表及所有户表的档案信息和日冻结电量信息;
第一次特征选择单元,用于基于所述样本数据,利用先验知识进行第一次特征选择,得到初次特征候选集合;
第一模型求解单元,用于将所述初次特征候选集合输入统计线损模型,并使用Lasso算法求解,得到第一回归系数集合;
第二次特征选择单元,用于基于所述第一回归系数集合,对所述初次特征候选集合进行第二次特征选择,得到二次特征候选集合;
第二模型求解单元,用于将所述二次特征候选集合再次输入所述统计线损模型,并使用岭回归方法求解,得到第二计量误差集合、第二回归系数集合以及岭回归的正则化系数;
相关数值计算单元,用于根据所述岭回归的正则化系数,对所述第二回归系数集合进行T检验得到T检验值集合,以及根据所述第二计量误差集合得到超差表每个样本点的超差电量集合、超差电量均值集合和统计线损均值集合;
第三次特征选择单元,用于根据所述第一回归系数集合、所述第二回归系数集合、所述第二计量误差集合、所述超差电量均值集合、所述统计线损均值集合和所述T检验值集合,对所述二次特征候选集合进行第三次特征选择,得到最终的超差表集合。
9.根据权利要求8所述的装置,其特征在于,所述数据获取单元,还用于:
获取台区的档案信息和预设时间段内的台区下总表及所有户表的日冻结电量信息;
根据预设的台区可算性评价条件判定台区是否可算,若台区可算,则根据预设的时间样本点选择条件,从所述预设时间段内进行样本点选择,得到样本数据。
10.根据权利要求9所述的装置,其特征在于,所述根据预设的台区可算性评价条件判定台区是否可算之前,还包括:
对所述台区下总表及所有户表的日冻结电量信息进行清洗和治理。
11.根据权利要求8所述的装置,其特征在于,所述第一次特征选择单元,还用于:
将满足如下任一条件的特征过滤掉,得到初次特征候选集合,其中,特征包括每个户表的档案信息及其他相关信息,其他相关信息包括户表的各种运行数据及拟合数据:
新上线的表运行天数少于预设天数;
用电量波动小于预设波动值且用电次数小于预设次数。
12.根据权利要求8所述的装置,其特征在于,所述第二次特征选择单元,还用于:
将所述初次特征候选集合按照所述第一回归系数的正负分为正回归系数队列和负回归系数队列,每个队列按照所述第一回归系数的绝对值大小进行排列;
对于排序后的正回归系数队列和负回归系数队列,进行个数特征选择或数量级特征选择或阈值特征选择,得到二次特征候选集合。
13.根据权利要求8所述的装置,其特征在于,所述第三次特征选择单元,还用于:
将满足如下任一条件的特征过滤掉,得到最终的超差表集合:
所述第二计量误差绝对值小于预设最小误差值;
所述T检验值的绝对值小于预设最大T值;
计算出的所述超差电量均值占所述统计线损均值比值小于设置比例阈值;
所述第一回归系数与所述第二回归系数的符号相反。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
等级评价指标单元,用于在得到最终的超差表集合之后,根据等级评价指标,对所述最终的超差表集合中超差表进行等级判定。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现权利要求1-7任一所述的方法。
16.一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现权利要求1-7任一项所述的方法。
CN202211369578.5A 2022-11-03 2022-11-03 超差表检出方法、装置及计算机存储介质 Active CN115563489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211369578.5A CN115563489B (zh) 2022-11-03 2022-11-03 超差表检出方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211369578.5A CN115563489B (zh) 2022-11-03 2022-11-03 超差表检出方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN115563489A CN115563489A (zh) 2023-01-03
CN115563489B true CN115563489B (zh) 2023-03-28

Family

ID=84769319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211369578.5A Active CN115563489B (zh) 2022-11-03 2022-11-03 超差表检出方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN115563489B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109193635A (zh) * 2018-09-29 2019-01-11 清华大学 一种基于自适应稀疏回归方法的配电网拓扑结构重建方法
CN112215479A (zh) * 2020-09-27 2021-01-12 青岛鼎信通讯股份有限公司 一种基于自适应收缩岭回归的电表反窃电分析方法
CN113406558A (zh) * 2021-07-29 2021-09-17 天目数据(福建)科技有限公司 基于线性回归的电表失准检测方法、装置及电子设备
CN115166619A (zh) * 2022-05-27 2022-10-11 云南电网有限责任公司 一种智能电能表运行误差监测系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109193635A (zh) * 2018-09-29 2019-01-11 清华大学 一种基于自适应稀疏回归方法的配电网拓扑结构重建方法
CN112215479A (zh) * 2020-09-27 2021-01-12 青岛鼎信通讯股份有限公司 一种基于自适应收缩岭回归的电表反窃电分析方法
CN113406558A (zh) * 2021-07-29 2021-09-17 天目数据(福建)科技有限公司 基于线性回归的电表失准检测方法、装置及电子设备
CN115166619A (zh) * 2022-05-27 2022-10-11 云南电网有限责任公司 一种智能电能表运行误差监测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Anant Chaudhary.Predictive Modelling of Home Appliances Energy Consumption in Belgium.《National College of Ireland》.2018,全文. *
刘小康.基于智能电能表大数据的分析方法和应用.《万方数据知识服务平台》.2019,第7-20页. *

Also Published As

Publication number Publication date
CN115563489A (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN110471024B (zh) 一种基于量测数据分析的智能电表在线远程校验方法
CN112381476B (zh) 用于确定状态异常的电能表的方法及装置
CN105930976B (zh) 基于加权理想点法的节点电压暂降严重程度综合评估方法
CN106651169A (zh) 基于模糊综合评价的配电自动化终端状态评价方法及系统
CN110070282B (zh) 一种基于综合关联度的低压台区线损影响因素分析方法
CN109389145B (zh) 基于计量大数据聚类模型的电能表生产厂商评价方法
CN113032454A (zh) 基于云计算的交互式用户用电异常监测预警管理云平台
CN110264107B (zh) 一种基于大数据技术的台区线损率异常诊断方法
CN111008193A (zh) 一种数据清洗与质量评价方法及系统
CN113884975B (zh) 一种基于改进动态线损估计的超差电表检测方法
CN113406558B (zh) 基于线性回归的电表失准检测方法、装置及电子设备
CN115407259A (zh) 考虑嫌疑系数的超差电表在线检测方法、装置及存储介质
CN114862139A (zh) 一种基于数据驱动的台区线损率异常诊断方法
CN113050018A (zh) 基于数据驱动评估结果变化趋势的电压互感器状态评估方法及系统
CN111949939A (zh) 基于改进topsis和聚类分析的智能电表运行状态评价方法
CN115079082A (zh) 一种台区电表监测方法、系统及终端
CN111612371A (zh) 一种基于层次分析法的智能电表质量评估方法
CN115293257A (zh) 一种针对异常用电用户的检测方法及系统
CN115098829A (zh) 一种基于多源计量数据的碳排放量在线分析方法
CN111832174A (zh) 一种基于多元回归的配线线损率处理方法及装置
CN113721182B (zh) 一种电力互感器性能在线监测结果可靠度评估方法及系统
CN114280527A (zh) 一种基于低压物联感知终端的电能表失准分析方法
CN114371438A (zh) 基于物联网的计量设备失准判断方法
CN117849700A (zh) 可控制测量的模块化电能计量系统
CN115563489B (zh) 超差表检出方法、装置及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant