CN116186501A - 一种用户电表采集数据修复方法、系统、电子设备及介质 - Google Patents

一种用户电表采集数据修复方法、系统、电子设备及介质 Download PDF

Info

Publication number
CN116186501A
CN116186501A CN202310426147.6A CN202310426147A CN116186501A CN 116186501 A CN116186501 A CN 116186501A CN 202310426147 A CN202310426147 A CN 202310426147A CN 116186501 A CN116186501 A CN 116186501A
Authority
CN
China
Prior art keywords
data
abnormal
complete
collected
repairing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310426147.6A
Other languages
English (en)
Other versions
CN116186501B (zh
Inventor
唐冬来
尚忠玉
唐吉忠
付世峻
吴磊
黄璞
杨俏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Zhongdian Aostar Information Technologies Co ltd
Original Assignee
Sichuan Zhongdian Aostar Information Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Zhongdian Aostar Information Technologies Co ltd filed Critical Sichuan Zhongdian Aostar Information Technologies Co ltd
Priority to CN202310426147.6A priority Critical patent/CN116186501B/zh
Publication of CN116186501A publication Critical patent/CN116186501A/zh
Application granted granted Critical
Publication of CN116186501B publication Critical patent/CN116186501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Testing Electric Properties And Detecting Electric Faults (AREA)

Abstract

本发明涉及电力数据修复技术领域,具体地说,涉及一种用户电表采集数据修复方法、系统、电子设备及介质;该方法首先获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块,然后根据所述完整数据区块训练多分类器模型,将所述异常采集数据进行分类,最后利用变分自编码器学习分类后的所述异常采集数据的真实变化规律,并利用分类集合方式生成修复数据修复所述异常采集数据,并输出修复结果;在无监督环境下对用户电表采集数据进行训练与修复,提高了用户电表采集数据修复准确率。

Description

一种用户电表采集数据修复方法、系统、电子设备及介质
技术领域
本发明涉及电力采集数据修复技术领域,具体地说,涉及一种用户电表采集数据修复方法、系统、电子设备及介质。
背景技术
用户电表是指安装在用电客户进户线处的电能计量装置,用于计量用电客户的电能消耗情况,具有地理位置分布广泛、类型众多、数量庞大等特点。在国家推动减碳战略和建设能源互联网的背景下,用户电表作为电网末端监测的重要设备,是推动“电力减碳”和能源互联网建设的关键环节。为保障电网末端家庭智慧用能、分布式能源服务、电动汽车与电网协同互动(vehicle to grid,V2G)等能源互联网新兴业务的开展,需通过新一代智能电表采集的数据指导配电台区“源网荷储”协同控制。新一代智能电表以每天96点频次采集用户的电气数据,采集频次高、数据传输信道压力大,若出现电表故障、信道噪声等问题,将造成用户电表采集数据出现缺失、错误等异常情况,进而影响配电台区“源网荷储”控制的准确性。
用户电表采集异常采集数据处理的方法分为删除法与填补法两类。其中,删除法将用户电表采集异常值的周期数据项删除,以满足计算条件。但该方法会造成真实数据丢失,导致计算结果偏差更大。填补法采用近似值来填补用户电表的异常值,分插值法和机器学习法。插值法利用均值、分位数、中值、随机值等进行插补,具有逻辑简单、计算速度快的特点,但该方法将异常值视为线性变化值,未考虑用户电表采集数据时序中蕴含的变化规律,异常值修复误差大。机器学习法考虑了用户电表采集数据时序变化规律,采用贝叶斯网络、K近邻、长短期记忆网络等模型训练提高了异常值的修复精度,但上述方法将用户电表数据作为一个整体进行修复,未考虑不同时段用户电表采集异常采集数据的时序差异,数据修复的准确性不高。
多分类器是一种组合式的模型训练方法,该方法将用户电表采集异常采集数据集训练成不同的子集,每个子集的训练程度均有差别,然后采用子集修复不同时段的用户电表采集异常采集数据,进而形成更准确的用户电表采集异常采集数据修复结果。多分类器在电力系统的故障预警、负荷预测等方面得到了应用,表明多分类器能够较好地学习到用户电表真实数据特征。但采用多分类器进行用户电表数据修复训练时,难以找到用户电表真实时序数据来训练模型。
发明内容
本发明针对上述用户电表采集数据修复方法中存在的时序变化规律挖掘不足、异常值修复误差大的问题,提出一种用户电表采集数据修复方法、系统、电子设备及介质,该方法首先获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块,然后根据所述完整数据区块训练多分类器模型,将所述异常采集数据进行分类,最后利用变分自编码器学习分类后的所述异常采集数据的真实变化规律,并利用分类集合方式生成修复数据修复所述异常采集数据,并输出修复结果;在无监督环境下对用户电表采集数据进行训练与修复,提高了用户电表采集数据修复准确率。
本发明具体实现内容如下:
一种用户电表采集数据修复方法,该方法首先获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块,然后根据所述完整数据区块训练多分类器模型,将所述异常采集数据进行分类,最后利用变分自编码器学习分类后的所述异常采集数据的真实变化规律,并利用分类集合方式生成修复数据修复所述异常采集数据,并输出修复结果。
为了更好地实现本发明,进一步地,该方法具体包括以下步骤:
步骤1:首先获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块,并将所述完整数据区块作为分类训练的备选子集;
步骤2:缩减所述完整数据区块的数量,直至所述数量缩小至设定的最小值;
步骤3:将缩减后的所述完整数据区块作为子分类器,建立分类器集合,并将所述异常采集数据进行分类;
步骤4:利用变分自编码器将单类的异常采集数据进行编码,得到单类的异常采集数据的标准差和均值,将单类的异常采集数据进行重新参数化,并根据所述标准差和均值生成所述异常采集数据的隐含变量;
步骤5:分析所述隐含变量,得到异常采集数据修复数据,根据所述异常采集修复数据生成异常采集修复集合;
步骤6:根据所述异常采集修复集合重构和修复所述异常采集数据,并输出修复结果。
为了更好地实现本发明,进一步地,步骤1中所述获取用户电表采集数据中异常采集数据的完整数据区块的具体操作为:
步骤11:根据包括所述异常采集数据的用户电表采集数据集中的样本值、异常采集样本属性集、用户电表采集样本值的异常特征值、用户电表采集数据的缺失值,计算用户电表采集数据异常特征;
步骤12:根据所述用户电表采集数据异常特征、异常样本属性子集,得到异常区块;所述异常区块为所述异常采集数据的完整区块;
步骤13:根据所述异常区块,得到所述异常采集数据的完整数据区块。
为了更好地实现本发明,进一步地,所述步骤2具体包括以下步骤:
步骤21:随机构造一个完整数据区块,确定完整数据区块的参数集合;
步骤22:从正向搜索异常采集数据的完整数据区块的参数集合是否属于构造的完整数据区块,若属于构造的完整数据区块,则将异常采集数据的完整数据区块数量减少1;
步骤23:从逆向搜索候异常采集数据的完整数据区块的参数集合是否属于构造的完整数据区块,若属于构造的完整数据区块,则将异常采集数据的完整数据区块数量减少1;
步骤24:若正向搜索后的异常数据的完整数据区块和逆向搜索后的异常数据的完整区块重叠,则结束搜索,输出缩减后的异常采集数据的完整数据区块的数量。
为了更好地实现本发明,进一步地,所述步骤3具体包括以下步骤:
步骤31:将缩减后的所述完整数据区块作为子分类器,根据所述子分类器的个数、子分类器包含的信息量,计算所述子分类器的信息熵值;
步骤32:根据子分类器的信息熵值,计算所述子分类器的权重;
步骤33:对不同的子分类器设置不同的权重,建立分类器集合;
步骤34:采用多数投票决策的方式得到异常采集数据的分类器集合的分类结果;
步骤35:根据所述分类结果对所述异常采集数据进行分类。
为了更好地实现本发明,进一步地,所述步骤4具体包括以下步骤:
步骤41:利用变分自编码器,将单类的异常采集数据进行编码,得到所述异常采集数据的标准差和均值;
步骤43:根据所述标准差和所述均值,将单类的异常采集数据在参数化模型中进行重新参数化,并从所述异常采集数据的子分类的专属正态分布中进行采样,得到采样变量;
步骤44:将所述采样变量进行解码,得到不同分类的异常采集数据的隐含变量。
为了更好地实现本发明,进一步地,所述步骤5具体包括以下步骤:
步骤51:根据所述隐含变量之间的关系,分析所述隐含变量;
步骤52:根据所述变分自编码器中异常采集数据的子分类的数量、变分自编码器每次训练的异常采集数据的子分类数量、异常采集数据的子分类的修复数据边界值、超参数、异常采集数据的子分类的最小正态分布,得到解耦目标函数;
步骤53:根据所述解耦目标函数,将所述隐含变量解耦,并根据所述变分自编码器的损失函数,得到异常采集数据修复数据,并生成异常采集修复集合。
基于上述提出的用户电表采集数据修复方法,为了更好地实现本发明,进一步地,提出一种用户电表采集数据修复系统,包括提取单元、分类单元、修复单元;
所述提取单元,用于获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块;
所述分类单元,用于根据所述完整数据区块训练多分类器模型,将所述异常采集数据进行分类;
所述修复单元,用于利用变分自编码器学习分类后的所述异常采集数据的真实变化规律,并利用分类集合方式生成修复数据修复所述异常采集数据,并输出修复结果。
基于上述提出的用户电表采集数据修复方法,为了更好地实现本发明,进一步地,提出一种电子设备,包括存储器、处理器;
所述存储器存储有计算机程序;当所述处理器执行所述计算机程序时,实现上述的用户电表采集数据修复方法。
基于上述提出的用户电表采集数据修复方法,为了更好地实现本发明,进一步地,提出一种计算机可读存储介质,所述计算机可读存储介质上存储有指令;当所述指令在上述的电子设备上运行时,实现上述的用户电表采集数据修复方法。
本发明具有以下有益效果:
(1)本发明在无监督环境下实现了对用户电表采集数据进行训练与修复,提高了用户电表采集数据修复准确率。
(2)本发明对贪心算法GA进行改进,在传统的开始点向结果点的正向搜索的基础上,增加了从结果点到开始点的逆向搜索。正向搜索和逆向搜索重叠时,则完成全局逼近最优求解,实现完整数据区块的缩减,降低了模型训练时间,提高了模型运行性能。
(3)本发明通过解码得到各子类异常采集数据的隐含变量后,结合各子类隐含变量之间的关系对所有的子类集合进行整体解耦,避免了单个子隐含类解耦存在的关联分析不足的问题。
附图说明
图1为本发明实施例提供的用户电表采集数据修复方法流程图。
图2为本发明实施例提供的变分自编码器修复异常数据流程示意框图。
图3为本发明实施例提供的用户电表采集数据修复系统的结构示意框图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不应被看作是对保护范围的限定。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;也可以是直接相连,也可以是通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本申请实施例涉及的术语解释如下:
用户电表:是指安装在用电客户进户线处的电能计量装置,用于计量用电客户的电能消耗情况,具有地理位置分布广泛、类型众多、数量庞大等特点。在国家推动“双碳”战略和建设能源互联网的背景下,用户电表作为电网末端监测的重要设备,是推动“电力减碳”和能源互联网建设的关键环节。
实施例1:
本实施例提出一种用户电表采集数据修复方法,该方法首先获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块,然后根据所述完整数据区块训练多分类器模型,将所述异常采集数据进行分类,最后利用变分自编码器学习分类后的所述异常采集数据的真实变化规律,并利用分类集合方式生成修复数据修复所述异常采集数据,并输出修复结果。
该方法具体包括以下步骤。
为了更好地实现本发明,进一步地,该方法具体包括以下步骤:
步骤1:首先获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块,并将所述完整数据区块作为分类训练的备选子集。
步骤1中所述获取用户电表采集数据中异常采集数据的完整数据区块的具体操作为:
步骤11:根据包括所述异常采集数据的用户电表采集数据集中的样本值、异常采集样本属性集、用户电表采集样本值的异常特征值、用户电表采集数据的缺失值,计算用户电表采集数据异常特征;
步骤12:根据所述用户电表采集数据异常特征、异常样本属性子集,得到异常区块;所述异常区块为所述异常采集数据的完整区块;
步骤13:根据所述异常区块,得到所述异常采集数据的完整数据区块。
步骤2:缩减所述完整数据区块的数量,直至所述数量缩小至设定的最小值。
进一步地,所述步骤2具体包括以下步骤:
步骤21:随机构造一个完整数据区块,确定完整数据区块的参数集合;
步骤22:从正向搜索异常采集数据的完整数据区块的参数集合是否属于构造的完整数据区块,若属于构造的完整数据区块,则将异常采集数据的完整数据区块数量减少1;
步骤23:从逆向搜索候异常采集数据的完整数据区块的参数集合是否属于构造的完整数据区块,若属于构造的完整数据区块,则将异常采集数据的完整数据区块数量减少1;
步骤24:若正向搜索后的异常数据的完整数据区块和逆向搜索后的异常数据的完整区块重叠,则结束搜索,输出缩减后的异常采集数据的完整数据区块的数量。
步骤3:将缩减后的所述完整数据区块作为子分类器,建立分类器集合,并将所述异常采集数据进行分类。
进一步地,所述步骤3具体包括以下步骤:
步骤31:将缩减后的所述完整数据区块作为子分类器,根据所述子分类器的个数、子分类器包含的信息量,计算所述子分类器的信息熵值;
步骤32:根据子分类器的信息熵值,计算所述子分类器的权重;
步骤33:对不同的子分类器设置不同的权重,建立分类器集合;
步骤34:采用多数投票决策的方式得到异常采集数据的分类器集合的分类结果;
步骤35:根据所述分类结果对所述异常采集数据进行分类。
步骤4:利用变分自编码器将单类的异常采集数据进行编码,得到单类的异常采集数据的标准差和均值,将单类的异常采集数据进行重新参数化,并根据所述标准差和均值生成所述异常采集数据的隐含变量。
进一步地,所述步骤4具体包括以下步骤:
步骤41:利用变分自编码器,将单类的异常采集数据进行编码,得到所述异常采集数据的标准差和均值;
步骤43:根据所述标准差和所述均值,将单类的异常采集数据在参数化模型中进行重新参数化,并从所述异常采集数据的子分类的专属正态分布中进行采样,得到采样变量;
步骤44:将所述采样变量进行解码,得到不同分类的异常采集数据的隐含变量。
步骤5:分析所述隐含变量,得到异常采集数据修复数据,根据所述异常采集修复数据生成异常采集修复集合。
进一步地,所述步骤5具体包括以下步骤:
步骤51:根据所述隐含变量之间的关系,分析所述隐含变量;
步骤52:根据所述变分自编码器中异常采集数据的子分类的数量、变分自编码器每次训练的异常采集数据的子分类数量、异常采集数据的子分类的修复数据边界值、超参数、异常采集数据的子分类的最小正态分布,得到解耦目标函数;
步骤53:根据所述解耦目标函数,将所述隐含变量解耦,并根据所述变分自编码器的损失函数,得到异常采集数据修复数据,并生成异常采集修复集合。
步骤6:根据所述异常采集修复集合重构和修复所述异常采集数据,并输出修复结果。
工作原理:该方法首先获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块,然后根据所述完整数据区块训练多分类器模型,将所述异常采集数据进行分类,最后利用变分自编码器学习分类后的所述异常采集数据的真实变化规律,并利用分类集合方式生成修复数据修复所述异常采集数据,并输出修复结果;在无监督环境下对用户电表采集数据进行训练与修复,提高了用户电表采集数据修复准确率。
实施例2:
本实施例在上述实施例1的基础上,如图1、图2所示,以一个具体的实施例进行详细说明。
如图1所示为用户电表采集数据修复的流程示意图,包括用户电表采集异常数据分类、用户电表采集异常数据修复;
用户电表采集异常数据分类包括:首先,在包含异常值的用户电表采集数据中,获取异常采集数据中完整区块,并将其作为分类训练的备选子集;其次,缩减用户电表采集数据完整区块的数量,直至有效的完整区块数量最小,以降低模型训练时间,提高模型运行性能;在此基础上,将每个有效的用户电表采集数据完整区块分别建立不同的子分类器;最后,在计及子分类器权重的情况下,形成分类器集合,并以此对用户电表采集异常数据分类。
用户电表采集异常数据修复包括:首先,对单类的用户电表采集异常数据进行编码,通过输入的用户电表采集数据得到标准差和均值;其次,对单类的用户电表采集异常数据进行重新参数化,通过用户电表采集数据的标准差和均值生成用户电表采集数据中的蕴含变量;在此基础上,进行单类异常数据解码和隐含层信息分析,直至所有分类完成隐含层信息分析。最后,通过分类集合对用户电表异常数据进行重构与修复,并输出修复结果。
在用户电表采集数据的过程中,受电表故障、高速载波(High Power lineCommunication,HPLC)信道噪声等因素影响,将造成缺失、错误等采集异常数据。若采用含异常样本的数据集训练分类模型,将导致异常数据分类性能大幅下降,对用户电表采集数据异常值的修复也不准确。因此,需将含异常样本数据集中的完整数据区块提取出来,并以此进行模型分类训练。
步骤1:用户电表采集数据异常特征c k为:
Figure SMS_1
(1)
式中:d i 为用户电表采集含异常样本数据集中的第i个样本值;E a为用户电表采集异常样本属性集;d il 为用户电表采集第i个样本值的第l个异常特征值;d null为用户电表采集数据的缺失值,i为异常样本数据集的样本值;l为用户电表采集样本值的异常特征值。
对于含异常样本的用户电表采集数据集中,每个采集样本都有异常样本属性,若多个用户电表采集样本的异常样本属性相同,则上述样本构成完整区块,并按同一个属性子集处理。
异常区块可以视为含异常样本数据集D all在异常样本属性子集E b的投影,异常区块Q a为:
Figure SMS_2
(2)
因此,在每个用户电表采集异常区块Q a中,均包含异常数据。
用户电表采集数据第e个完整数据区块数据Q ce 为:
Figure SMS_3
(3)
式中:D allf 为第f个含异常区块的区块数量;Q af 为第f个异常区块;其中e表示完整数据区块,f表示异常区块;
步骤2:缩减完整区块数量;
通过式(3)获得的用户电表采集数据完整区块的数量庞大,且多个每个完整区块间存在部分特征重叠,若将全部的用户电表采集数据完整区块用于模型训练,将导致模型性能降低。因此,文中在全部完整区块中,筛选出可以代表完整区块的典型区块,以缩减用于模型训练的完整区块数量。
在缩减完整区块数量过程中,用户电表采集数据的特征属性大于样本属性,因此,可以采用包含全部特征属性的用户电表采集数据完整区块代替全部的完整区块,从而降低完整区块数量。
贪心算法(greedy alogorithm,GA)是一种集合覆盖算法,该方法在每一步执行过程中,均求解当前局部最优的状态,并不断迭代,直至整体逼近最优求解。但GA在搜索过程中,若找不出满足条件的特征属性时,则陷入局部收敛。因此,文中对GA进行改进,在传统的开始点向结果点的正向搜索的基础上,增加了从结果点到开始点的逆向搜索。正向搜索和逆向搜索重叠时,则完成全局逼近最优求解。采用改进GA缩减完整区块数量的运行的具体过程如下:
输入:Qcd候选的完整区块,λ完整区块的所需参数集合;
输出:Qcf完整区块的最终集合;
function BINSEG(Q cd,λ,a e);
1最小的完整区块≠空值Ø;
2随机构造一个完整区块Q e
3选择参数G a←λ;
4while true;
5forQ e Q cddo;
6选择Q cd*λG a|最小的候选完整区块数量f e
7f e完整区块数量减少1,得到Q g
8将Q cd中增加Q e
9完整区块数量减少1,得到Q h
10ifQ gQ h重叠then循环终止;
11G a=Q cd中所有的特征集合
12Q cf←min(G a);
13 if then break;
14 end function;
15 returenQ cf
由上述运行过程可见,在每个迭代环节,GA集合Qci包含未被覆盖的元素集合,该元素集合中拥有的特征为Ga;行6为贪心算法的决策步骤,即选出最小的Ga。在行7和行9向同一方向Ga逼近,直至Qg与Qh重叠,收敛全局逼近最优的用户电表采集数据求解,Qe为随机构造的一个完整区块,Ga表示搜索参数。
步骤3:异常数据分类。
以每一个用户电表采集数据完整区块训练一个子分类器,子分类器中可充分学习到该完整区块的特征信息。因不同的用户电表采集数据特征对最终的分类结果影响不同,因此,针对每个子分类器设置不同的权重,在此基础上,立分类器集合,并对用户电表采集数据进行异常数据分类。
随机森林(random forest,RF)是一种分类器,该分类器中,从原始数据中提取多个训练样本,并对每个样本建立决策树进行单独训练,构建不同的训练样本集,从而扩大决策树与各子样本训练集之间的差异。然后采用决策投票的方式组合多个决策树,从而得到样本的分类结果。RF可以处理大量数据的用户电表采集完整区块数据,具有算法运行速度快,分类结果准确率高的特点。因此,采用RF建立子分类器和分类器集合。
在用户电表采集数据子分类器训练中,采用信息熵衡量子分类器的重要程度,熵值越小,则说明子分类器的不确定性越小,即重要性越高;反之,熵值越大,则重要性越小。计算子分类器的信息熵值E l为:
Figure SMS_4
(4)
式中:n a为子分类器的个数;og为不同子分类器所占的信息量,g表示子分类器;。
然后,计算子分类器的权重w l
Figure SMS_5
(5)
式中:E lg 为不同的子分类器的信息熵值,g表示子分类器。
在进行用户电表采集数据子分类器训练完成后,得到n b个子分类器,并形成了分类器集合,通过多数投票决策的方式得到用户电表采集数据分类器集合的最终分类结果。RF最终的分类决策结果输出R out为:
Figure SMS_6
(6)
式中:r g 为不同的子分类器决策树输出数据;w lg 为不同的子分类器权重,g表示子分类器。
最后,采用RF最终的分类决策结果对输入的用户电表采集异常数据进行分类。
步骤4:利用变分自编码器将单类的异常采集数据进行编码,得到单类的异常采集数据的标准差和均值,将单类的异常采集数据进行重新参数化,并根据所述标准差和均值生成所述异常采集数据的隐含变量。
VAE是一种深度隐含空间的生成模型,由Diederik P.Kingma等人在2013年提出。VAE包含编码器、重新参数化和解码器三部分,可挖掘输入数据的规律与隐含信息,实现缺失数据的推理重构,具有强大的缺失数据修复能力。在VAE的结构中,编码器用于对输入样本数据的方差和均值的计算与推理;重新参数化用于计算输入样本数据方差和均值的专属正态分布特征;解码器对重新参数化中的特征进行解码,重构生成数据。VAE异常数据修复框架如图2所示。
图2中,m为得到的用户电表采集异常分类数量;(z 1,z 2,...,z m) 为输入VAE的原始数据分类样本;(f 1,f 2,...,f m) 为VAE重新参数化的采样变量;(z a1,z a2,...,z am) 为VAE输出的生成修复样本数据。
VAE中,编码器用于计算用户电表采集异常原始子分类样本的方差和均值;重新参数化用于从用户电表采集异常数据子分类的专属正态分布中进行采样变量获得推理特征(f 1,f 2,...,f m );解码器则对推理特征进行解码,得出不同分类的用户电表采集异常数据类型的隐含变量S j
Figure SMS_7
(7)
式中:δ j 为不同分类的用户电表采集异常数据方差;f j 为不同分类的用户电表采集异常数据采样变量;h j 为不同分类的用户电表采集异常数据均值,j表示不同分类的用户电表采集异常数据。
通过解码器得到各子类用户电表采集异常数据的隐含变量后,考虑各子类隐含变量之间的关系对所有的子类集合进行整体解耦,从而避免单个子隐含类解耦存在的关联分析不足的问题。
在分类集合解耦的过程中,各子分类的隐含变量相互独立,各子分类的隐含变量并发似然概率为各子分类概率的积。因此,各子分类的改变不会影响别的子分类,即不同的用户电表采集异常数据子分类VAE训练程度不同,从而满足各子类用户电表采集异常数据特征。然后,再采用分类集合进行整体解耦与生成修复数据样本。分类集合整体解耦的目标函数B out为:
Figure SMS_8
(8)
式中:nh为VAE中子分类的数量;ng为VAE每次训练的子分类数量;vr为不同子分类的修复数据边界值;ψ为超参数;ur为不同子分类的最小正态分布,r为子分类。
VAE训练的目标为重新参数化层推理出的用户电表采集数据正态分布值与正态分布的相对熵散度最小;VAE解码器输出的用户电表采集修复数据与编码器输入的用户电表采集数据相似。VAE损失函数l all为:
Figure SMS_9
(9)/>
式中:l study为学习损失,即确保VAE重新参数化中学习的正态分布、正态分布的相对熵散度与真实的值相似;l rebuild为重建损失,即确保VAE解码器输出与编码器输入的用户电表采集数据相似。
学习损失函数l study为:
Figure SMS_10
(10)
式中:ng1为VAE中学习的用户电表采集异常数据分类数量;δp为不同学习分类的用户电表采集异常数据方差;hp为不同学习分类的用户电表采集异常数据均值,p为学习分类。
重建损函数l rebuild为:
Figure SMS_11
(11)
式中:no为VAE中重建的用户电表采集异常数据分类数量;zaq为VAE中不同分类的输入的用户电表采集异常数据;zq为VAE中不同分类的输出的生成修复样本数据,q表示VAE中重建的用户电表采集异常数据分类。
工作原理:本实施例在多分类器的基础上,采用变分自编码器(variational autoencoder, VAE)设计了一种用户电表采集数据修复方法。首先,该方法将用户电表采集数据中的完整区块作为训练子集,将其缩减后作为子分类器,在此基础上建立分类器集合,并对用户电表采集异常数据进行分类;其次,通过VAE构建模型训练子集,从而在用户电表采集异常数据的情况下,学习到数据的真实变化规律。最后,对用户电表采集异常数据进行修复,形成用户电表采集数据修复集合。所提方法在无监督环境下训练与修复,可提高用户电表采集数据修复准确率。
用户电表位于配电网末端,是开展能源互联网新兴业务的关键环节。受电表故障、信道噪声等因素影响,用户电表采集数据存在缺失、错误等异常情况,进而影响配电台区“源网荷储”控制的准确性。为解决传统用户电表采集数据修复方法中存在的时序变化规律挖掘不足,异常值修复误差大的问题,本实施例提出了一种基于改进多分类器的用户电表采集数据修复方法,改进了多分类器的结构,提取异常数据中的完整区块进行多分类器模型训练,并对用户电表采集数据进行分类,在此基础上,采用变分自编码器学习分类数据的真实变化规律,并采用分类集合方式生成修复数据。
本实施例的其他部分与上述实施例1相同,故不再赘述。
实施例3:
本实施例在上述实施例1-实施例2任一项的基础上,如图3所示,提出一种用户电表采集数据修复系统,包括提取单元、分类单元、修复单元。
所述提取单元,用于获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块。
所述分类单元,用于根据所述完整数据区块训练多分类器模型,将所述异常采集数据进行分类。
所述修复单元,用于利用变分自编码器学习分类后的所述异常采集数据的真实变化规律,并利用分类集合方式生成修复数据修复所述异常采集数据,并输出修复结果。
本实施例还提出一种电子设备,包括存储器、处理器。
所述存储器存储有计算机程序;当所述处理器执行所述计算机程序时,实现上述的用户电表采集数据修复方法。
本实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有指令;当所述指令在上述的电子设备上运行时,实现上述的用户电表采集数据修复方法。
本实施例的其他部分与上述实施例1-实施例2任一项相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (10)

1.一种用户电表采集数据修复方法,其特征在于,首先获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块,然后根据所述完整数据区块训练多分类器模型,将所述异常采集数据进行分类,最后利用变分自编码器学习分类后的所述异常采集数据的真实变化规律,并利用分类集合方式生成修复数据修复所述异常采集数据,并输出修复结果。
2.根据权利要求1所述的一种用户电表采集数据修复方法,其特征在于,具体包括以下步骤:
步骤1:首先获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块,并将所述完整数据区块作为分类训练的备选子集;
步骤2:缩减所述完整数据区块的数量,直至所述完整数据区块的数量缩小至设定的最小值;
步骤3:将缩减后的所述完整数据区块作为子分类器,建立分类器集合,并将所述异常采集数据进行分类;
步骤4:利用变分自编码器将单类的异常采集数据进行编码,得到单类的异常采集数据的标准差和均值,将单类的异常采集数据进行重新参数化,并根据所述标准差和均值生成所述异常采集数据的隐含变量;
步骤5:分析所述隐含变量,得到异常采集数据修复数据,根据所述异常采集修复数据生成异常采集修复集合;
步骤6:根据所述异常采集修复集合重构和修复所述异常采集数据,并输出修复结果。
3.根据权利要求2所述的一种用户电表采集数据修复方法,其特征在于,步骤1中所述获取用户电表采集数据中异常采集数据的完整数据区块的具体操作为:
步骤11:根据包括所述异常采集数据的用户电表采集数据集中的样本值、异常采集样本属性集、用户电表采集样本值的异常特征值、用户电表采集数据的缺失值,计算用户电表采集数据异常特征;
步骤12:根据所述用户电表采集数据异常特征、异常样本属性子集,得到异常区块;所述异常区块为所述异常采集数据的完整区块;
步骤13:根据所述异常区块,得到所述异常采集数据的完整数据区块。
4.根据权利要求3所述的一种用户电表采集数据修复方法,其特征在于,所述步骤2具体包括以下步骤:
步骤21:随机构造一个完整数据区块,确定完整数据区块的参数集合;
步骤22:从正向搜索异常采集数据的完整数据区块的参数集合是否属于构造的完整数据区块,若属于构造的完整数据区块,则将异常采集数据的完整数据区块数量减少1;
步骤23:从逆向搜索候异常采集数据的完整数据区块的参数集合是否属于构造的完整数据区块,若属于构造的完整数据区块,则将异常采集数据的完整数据区块数量减少1;
步骤24:若正向搜索后的异常数据的完整数据区块和逆向搜索后的异常数据的完整区块重叠,则结束搜索,输出缩减后的异常采集数据的完整数据区块的数量。
5.根据权利要求4所述的一种用户电表采集数据修复方法,其特征在于,所述步骤3具体包括以下步骤:
步骤31:将缩减后的所述完整数据区块作为子分类器,根据所述子分类器的个数、子分类器包含的信息量,计算所述子分类器的信息熵值;
步骤32:根据子分类器的信息熵值,计算所述子分类器的权重;
步骤33:对不同的子分类器设置不同的权重,建立分类器集合;
步骤34:采用多数投票决策的方式得到异常采集数据的分类器集合的分类结果;
步骤35:根据所述分类结果对所述异常采集数据进行分类。
6.根据权利要求5所述的一种用户电表采集数据修复方法,其特征在于,所述步骤4具体包括以下步骤:
步骤41:利用变分自编码器,将单类的异常采集数据进行编码,得到所述异常采集数据的标准差和均值;
步骤43:根据所述标准差和所述均值,将单类的异常采集数据在参数化模型中进行重新参数化,并从所述异常采集数据的子分类的专属正态分布中进行采样,得到采样变量;
步骤44:将所述采样变量进行解码,得到不同分类的异常采集数据的隐含变量。
7.根据权利要求6所述的一种用户电表采集数据修复方法,其特征在于,所述步骤5具体包括以下步骤:
步骤51:根据所述隐含变量之间的关系,分析所述隐含变量;
步骤52:根据所述变分自编码器中异常采集数据的子分类的数量、变分自编码器每次训练的异常采集数据的子分类数量、异常采集数据的子分类的修复数据边界值、超参数、异常采集数据的子分类的最小正态分布,得到解耦目标函数;
步骤53:根据所述解耦目标函数,将所述隐含变量解耦,并根据所述变分自编码器的损失函数,得到异常采集数据修复数据,并生成异常采集修复集合。
8.一种用户电表采集数据修复系统,其特征在于,包括提取单元、分类单元、修复单元;
所述提取单元,用于获取用户电表采集数据中的异常采集数据,提取所述异常采集数据的完整数据区块;
所述分类单元,用于根据所述完整数据区块训练多分类器模型,将所述异常采集数据进行分类;
所述修复单元,用于利用变分自编码器学习分类后的所述异常采集数据的真实变化规律,并利用分类集合方式生成修复数据修复所述异常采集数据,并输出修复结果。
9.一种电子设备,其特征在于,包括存储器、处理器;
所述存储器存储有计算机程序;当所述处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的用户电表采集数据修复方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令;当所述指令在如权利要求9所述的电子设备上运行时,实现如权利要求1-7任一项所述的用户电表采集数据修复方法。
CN202310426147.6A 2023-04-20 2023-04-20 一种用户电表采集数据修复方法、系统、电子设备及介质 Active CN116186501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310426147.6A CN116186501B (zh) 2023-04-20 2023-04-20 一种用户电表采集数据修复方法、系统、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310426147.6A CN116186501B (zh) 2023-04-20 2023-04-20 一种用户电表采集数据修复方法、系统、电子设备及介质

Publications (2)

Publication Number Publication Date
CN116186501A true CN116186501A (zh) 2023-05-30
CN116186501B CN116186501B (zh) 2023-07-28

Family

ID=86438744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310426147.6A Active CN116186501B (zh) 2023-04-20 2023-04-20 一种用户电表采集数据修复方法、系统、电子设备及介质

Country Status (1)

Country Link
CN (1) CN116186501B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018228672A1 (en) * 2017-06-13 2018-12-20 Huawei Technologies Co., Ltd. A method, an apparatus and a system for detecting alarm data
CN109728580A (zh) * 2019-03-06 2019-05-07 国网上海市电力公司 基于深度双向搜索法的配电网检修方式下可靠性评估方法
CN110659273A (zh) * 2019-09-20 2020-01-07 南方电网科学研究院有限责任公司 分布式大数据采集平台的数据异常监控及修复方法
CN111625516A (zh) * 2020-01-10 2020-09-04 京东数字科技控股有限公司 检测数据状态的方法、装置、计算机设备和存储介质
CN112990274A (zh) * 2021-02-20 2021-06-18 国网山东省电力公司电力科学研究院 一种基于大数据的风电场异常数据自动辨识方法
CN113240011A (zh) * 2021-05-14 2021-08-10 烟台海颐软件股份有限公司 一种深度学习驱动的异常识别与修复方法及智能化系统
CN113469189A (zh) * 2021-09-02 2021-10-01 国网江西省电力有限公司供电服务管理中心 一种用电采集数据缺失值填充方法、系统及装置
CN114113778A (zh) * 2021-10-19 2022-03-01 黄兵 电能量数据管理平台大数据系统的计量大数据计算方法
CN114356944A (zh) * 2021-12-30 2022-04-15 深圳市国电科技通信有限公司 基于大数据处理用电表码数据的方法、装置和存储介质
CN114757370A (zh) * 2022-03-16 2022-07-15 广东电网有限责任公司广州供电局 监控电表异常的分析方法、系统、计算机设备和存储介质
US20220292301A1 (en) * 2021-03-10 2022-09-15 Mitsubishi Electric Research Laboratories, Inc. System and a Method for Training a Neural Network Having Autoencoder Architecture to Recover Missing Data
US20230057653A1 (en) * 2021-08-23 2023-02-23 Siemens Healthcare Gmbh Method and system and apparatus for quantifying uncertainty for medical image assessment

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018228672A1 (en) * 2017-06-13 2018-12-20 Huawei Technologies Co., Ltd. A method, an apparatus and a system for detecting alarm data
CN109728580A (zh) * 2019-03-06 2019-05-07 国网上海市电力公司 基于深度双向搜索法的配电网检修方式下可靠性评估方法
CN110659273A (zh) * 2019-09-20 2020-01-07 南方电网科学研究院有限责任公司 分布式大数据采集平台的数据异常监控及修复方法
CN111625516A (zh) * 2020-01-10 2020-09-04 京东数字科技控股有限公司 检测数据状态的方法、装置、计算机设备和存储介质
CN112990274A (zh) * 2021-02-20 2021-06-18 国网山东省电力公司电力科学研究院 一种基于大数据的风电场异常数据自动辨识方法
US20220292301A1 (en) * 2021-03-10 2022-09-15 Mitsubishi Electric Research Laboratories, Inc. System and a Method for Training a Neural Network Having Autoencoder Architecture to Recover Missing Data
CN113240011A (zh) * 2021-05-14 2021-08-10 烟台海颐软件股份有限公司 一种深度学习驱动的异常识别与修复方法及智能化系统
US20230057653A1 (en) * 2021-08-23 2023-02-23 Siemens Healthcare Gmbh Method and system and apparatus for quantifying uncertainty for medical image assessment
CN113469189A (zh) * 2021-09-02 2021-10-01 国网江西省电力有限公司供电服务管理中心 一种用电采集数据缺失值填充方法、系统及装置
CN114113778A (zh) * 2021-10-19 2022-03-01 黄兵 电能量数据管理平台大数据系统的计量大数据计算方法
CN114356944A (zh) * 2021-12-30 2022-04-15 深圳市国电科技通信有限公司 基于大数据处理用电表码数据的方法、装置和存储介质
CN114757370A (zh) * 2022-03-16 2022-07-15 广东电网有限责任公司广州供电局 监控电表异常的分析方法、系统、计算机设备和存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
TINA BEHROUZI 等: "Graph variational auto-encoder for deriving EEG-based graph embedding", 《PATTERN RECOGNITION》, pages 1 - 10 *
ZHI-QIANG ZOU 等: "Energy-Efficient Data Recovery via Greedy Algorithm for Wireless Sensor Networks", 《INTERNATIONAL JOURNAL OF DISTRIBUTED SENSOR NETWORKS》, vol. 12, no. 2, pages 1 - 9 *
唐冬来 等: "基于时空关联矩阵的配电台区反窃电预警方法", 《电力系统自动化》, vol. 44, no. 19, pages 168 - 176 *
唐艺: "基于深度学习的连续血糖监测仪故障检测和信号修复研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, pages 030 - 133 *
张继东: "于深度自编码器的异常用电行为辨识方法研究", 《电子技术与软件工程》, pages 162 - 164 *
王新峰 等: "变分自编码器对甲基化缺失数据的填补", 《计算机工程与应用》, pages 1 *

Also Published As

Publication number Publication date
CN116186501B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
Deng et al. A missing power data filling method based on improved random forest algorithm
Tan et al. A deep imbalanced learning framework for transient stability assessment of power system
CN107944705B (zh) 一种基于模块度划分通信社团的全端可靠性计算方法
Liu et al. Super resolution perception for smart meter data
CN113011481B (zh) 一种基于决策树算法的电能表功能异常评估方法及系统
CN114676883A (zh) 基于大数据的电网运行管理方法、装置、设备及存储介质
CN113485863B (zh) 基于改进生成对抗网络生成异构不平衡故障样本的方法
CN108197837A (zh) 基于KMeans聚类的光伏发电预测方法
CN112559963A (zh) 一种配电网动态参数辨识方法及装置
CN115758151A (zh) 联合诊断模型建立方法、光伏组件故障诊断方法
CN111091141B (zh) 一种基于分层Softmax的光伏背板故障诊断方法
CN112907222B (zh) 一种多源异构电网运监业务数据融合方法
CN116186501B (zh) 一种用户电表采集数据修复方法、系统、电子设备及介质
CN114358367A (zh) 一种非侵入式负荷分解方法及装置
Kuang et al. An Association Rules-Based Method for Outliers Cleaning of Measurement Data in the Distribution Network
CN116027158A (zh) 一种高压电缆局放故障预测方法及系统
CN114781495A (zh) 一种基于样本全局再平衡的智能电表故障分类方法
CN110889614A (zh) 基于scada大数据的电网系统重要用户供电风险分析方法
Hong et al. Power Transformer Fault Diagnosis Based on Improved Support Vector Machine
Gong et al. Motor fault diagnosis based on decision tree-Bayesian network model
CN117872038B (zh) 一种基于图论的直流微电网失稳故障源定位方法及装置
He et al. Method of Equipment Fault Diagnosis Based on Frequent Itemsets Mining
Ran et al. Research and Application of Software Defect Prediction Model based on Data Mining
Sun et al. Short-Term Wind Power Prediction Based on ICEEMDAN-SE-LSTM Neural Network Model with Classifying Seasonal.
Tian et al. A novel data quality assessment framework for vehicular network testbeds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant