CN115481115A - 一种冗余数据清洗方法、装置、设备及介质 - Google Patents
一种冗余数据清洗方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115481115A CN115481115A CN202211157916.9A CN202211157916A CN115481115A CN 115481115 A CN115481115 A CN 115481115A CN 202211157916 A CN202211157916 A CN 202211157916A CN 115481115 A CN115481115 A CN 115481115A
- Authority
- CN
- China
- Prior art keywords
- data
- filtering
- fusion
- group
- redundant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明属于数据清洗技术领域,具体涉及一种冗余数据清洗方法、装置、设备及介质。包括以下步骤:获取供电所冗余数据;对供电所冗余数据进行滤波处理得到滤波数据序列;计算滤波数据序列中每组滤波数据的信息熵值,并根据每组滤波数据的信息熵值计算每组滤波数据对应的融合权重;根据融合权重对滤波数据进行叠加得到融合数据并输出。本发明先对冗余数据进行初次滤波处理,过滤了一定噪声数据;在此基础上计算融合权重和信息熵值,最后得到融合数据,进一步提升了融合数据准确性。
Description
技术领域
本发明属于数据清洗技术领域,具体涉及一种冗余数据清洗方法、装置、设备及介质。
背景技术
由于供电所系统涉及供电所、源侧、用电侧设备以及气候条件等海量多维数据,在数据信息产生、量测、传输及接收过程中容易出现数据冗余情况,导致上传至系统中台的数据信息存在失真情况,不利于供电所系统的统一管理与业务开展。因而研究供电所冗余数据清洗技术,获取更加准确规范监测数据,对于保障供电所安全与高效运行具有重大意义。
国内外专家学者针对电力系统数据处理已开展了一些研究。现有技术中存在一种基于复合数据结构压缩感知的综合能源数据压缩采集方法,并考虑到数据存在的异常和缺失情况,提出了基于改进K-Means聚类的异常数据识别方法,但其忽略了对于冗余数据的考虑。现有技术中还包括基于云计算的电力大数据清洗模型,对于电力大数据进行了数据存储、数据辨识与数据清洗的研究,但缺乏对于数据失真情况的考虑。针对传统的用户异常用电模式检测模型存在投入高、效率低的问题,提出了包含数据清洗-特征筛选-模型训练的用户异常用电全周期检测模型。
以上研究促进了数据清洗技术在电力系统的推广与应用。但是有关供电所场景下的数据清洗技术研究仍较少且不够深入,缺乏对于数据冗余情况的考虑,为供电所的安全与高效运行带来了问题与挑战。
发明内容
本发明的目的在于提供一种冗余数据清洗方法、装置、设备及介质,以解决现有供电所数据清洗技术缺乏对于数据冗余情况的考虑,导致供电所监测数据的准确性与可靠性低的技术问题。
为实现上述目的,本发明采用如下技术方案予以实现:
第一方面,一种冗余数据清洗方法,包括以下步骤:
获取供电所冗余数据;
对供电所冗余数据进行滤波处理得到滤波数据序列;
计算滤波数据序列中每组滤波数据的信息熵值,并根据每组滤波数据的信息熵值计算每组滤波数据对应的融合权重;
根据融合权重对滤波数据进行叠加得到融合数据并输出。
本发明的进一步改进在于:所述供电所冗余数据包括电网电压幅值、电网节点有功功率、电网节点无功功率、电网线路有功负荷和电网线路无功负荷。
本发明的进一步改进在于:所述滤波处理为卡尔曼滤波处理。
本发明的进一步改进在于:所述卡尔曼滤波处理包括预测处理和校正处理。
本发明的进一步改进在于:所述根据每组滤波数据的信息熵值计算每组滤波数据对应的融合权重时,根据滤波数据序列计算输出概率,在根据输出概率计算信息熵值,最后根据信息熵值计算融合权重。
本发明的进一步改进在于:所述计算滤波数据序列中每组滤波数据的信息熵值时,采用信息熵理论。
第二方面,一种冗余数据清洗装置,包括:
冗余数据获取模块:用于获取供电所冗余数据;
滤波模块:用于对供电所冗余数据进行滤波处理得到滤波数据序列;
融合权重计算模块:用于计算滤波数据序列中每组滤波数据的信息熵值,并根据每组滤波数据的信息熵值计算每组滤波数据对应的融合权重;
融合数据输出模块:用于根据融合权重对滤波数据进行叠加得到融合数据并输出。
第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种冗余数据清洗方法。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种冗余数据清洗方法。
与现有技术相比,本发明至少包括以下有益效果:
1、本发明先对冗余数据进行初次滤波处理,过滤了一定噪声数据;在此基础上计算融合权重和信息熵值,最后得到融合数据,进一步提升了融合数据准确性;
2、本发明采用的信息熵理论计算信息熵,不仅保证了对于融合前信息的有效提取,同时提升了融合后数据的准确性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明一种冗余数据清洗方法的流程图;
图2是本发明一种冗余数据清洗方法实施例1中冗余数据融合相对误差图;
图3是本发明一种冗余数据清洗装置的系统框图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本发明所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
实施例1
一种冗余数据清洗方法,如图1所示,包括以下步骤:
S1、获取供电所冗余数据;
供电所冗余数据包括电网电压幅值Ui、电网节点有功功率Pi、电网节点无功功率Qi、电网线路有功负荷Pij和电网线路无功负荷Qij等
S2、通过卡尔曼滤波处理供电所冗余数据得到滤波数据序列;
在S2中卡尔曼滤波具体可分为预测和校正两部分,具体包括以下步骤:
S21、对于k组供电所冗余数据[X1,X2,...,Xk],进行预测处理;
Pi -=APi-1AT+Q;
式中:为i时刻先验状态估计量;为i-1时刻后验状态估计量;A为上一状态到当前状态的状态转移系数;B为控制输入到当前状态的状态转移系数;ui为控制输入变量;Pi -为先验估计误差协方差;Pi-1为后验估计误差协方差;Q为过程噪声协方差。
S22、对预测处理结果进行校正处理得到滤波数据序列;
式中:Ki为卡尔曼增益;H为量测系数;R为量测噪声协方差;zi为i时刻量测量;I为单位系数。
将k组冗余数据序列[X1,X2,...,Xk]进行卡尔曼滤波处理即可得到滤波数据序列。
S3、计算滤波数据序列中每组滤波数据的信息熵值,并根据每组滤波数据的信息熵值计算每组滤波数据对应的融合权重;
S4、根据融合权重对滤波数据进行叠加得到融合数据并输出。
经过上述四个步骤的滤波融合之后,实现对供电所冗余数据的有效清洗。
下面以某供电所中的实际数据为例,对所提基于数据融合的供电所冗余数据清洗方法进行验证。表1中冗余数据1与冗余数据2为该供电所系统中某分布式电源电流数据。
表1供电所冗余数据
由表1可以看出冗余数据1与冗余数据2存在对于某分布式电源电流数据的重复采集,并且存在一定误差。基于所提方法进行数据清洗后的结果如图2所示。由图2可以看出,所提方法将冗余数据进行有效融合,并且融合数据相比于融合前的冗余数据相对误差更小,更加接近真实值。
实施例2
一种冗余数据清洗装置,如图2所示,包括:
冗余数据获取模块:用于获取供电所冗余数据;
滤波模块:用于通过卡尔曼滤波处理供电所冗余数据得到滤波数据序列;
融合权重计算模块:用于计算滤波数据序列中每组滤波数据的信息熵值,并根据每组滤波数据的信息熵值计算每组滤波数据对应的融合权重;
融合数据输出模块:用于根据融合权重对滤波数据进行叠加得到融合数据并输出。
实施例3
一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的一种冗余数据清洗方法。
实施例4
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的一种冗余数据清洗方法。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (9)
1.一种冗余数据清洗方法,其特征在于,包括以下步骤:
获取供电所冗余数据;
对供电所冗余数据进行滤波处理得到滤波数据序列;
计算滤波数据序列中每组滤波数据的信息熵值,并根据每组滤波数据的信息熵值计算每组滤波数据对应的融合权重;
根据融合权重对滤波数据进行叠加得到融合数据并输出。
2.根据权利要求1所述的一种冗余数据清洗方法,其特征在于,所述供电所冗余数据包括电网电压幅值、电网节点有功功率、电网节点无功功率、电网线路有功负荷和电网线路无功负荷。
3.根据权利要求1所述的一种冗余数据清洗方法,其特征在于,所述滤波处理为卡尔曼滤波处理。
4.根据权利要求3所述的一种冗余数据清洗方法,其特征在于,所述卡尔曼滤波处理包括预测处理和校正处理。
5.根据权利要求1所述的一种冗余数据清洗方法,其特征在于,所述根据每组滤波数据的信息熵值计算每组滤波数据对应的融合权重时,根据滤波数据序列计算输出概率,在根据输出概率计算信息熵值,最后根据信息熵值计算融合权重。
6.根据权利要求1所述的一种冗余数据清洗方法,其特征在于,所述计算滤波数据序列中每组滤波数据的信息熵值时,采用信息熵理论。
7.一种冗余数据清洗装置,其特征在于,包括:
冗余数据获取模块:用于获取供电所冗余数据;
滤波模块:用于对供电所冗余数据进行滤波处理得到滤波数据序列;
融合权重计算模块:用于计算滤波数据序列中每组滤波数据的信息熵值,并根据每组滤波数据的信息熵值计算每组滤波数据对应的融合权重;
融合数据输出模块:用于根据融合权重对滤波数据进行叠加得到融合数据并输出。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述一种冗余数据清洗方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述一种冗余数据清洗方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211157916.9A CN115481115A (zh) | 2022-09-22 | 2022-09-22 | 一种冗余数据清洗方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211157916.9A CN115481115A (zh) | 2022-09-22 | 2022-09-22 | 一种冗余数据清洗方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115481115A true CN115481115A (zh) | 2022-12-16 |
Family
ID=84394051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211157916.9A Pending CN115481115A (zh) | 2022-09-22 | 2022-09-22 | 一种冗余数据清洗方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115481115A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116369868A (zh) * | 2023-06-07 | 2023-07-04 | 青岛大学附属医院 | 基于大数据的睡眠分期监测方法及装置 |
-
2022
- 2022-09-22 CN CN202211157916.9A patent/CN115481115A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116369868A (zh) * | 2023-06-07 | 2023-07-04 | 青岛大学附属医院 | 基于大数据的睡眠分期监测方法及装置 |
CN116369868B (zh) * | 2023-06-07 | 2023-08-11 | 青岛大学附属医院 | 基于大数据的睡眠分期监测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110659693B (zh) | 基于k近邻分类的配电网快速拓扑识别方法、系统及介质 | |
CN104155519B (zh) | 谐波序列关系分析与电力计算相结合的谐波源定位方法 | |
CN115481115A (zh) | 一种冗余数据清洗方法、装置、设备及介质 | |
CN115800272B (zh) | 基于拓扑识别的电网故障分析方法、系统、终端及介质 | |
CN110289613A (zh) | 基于灵敏度矩阵的配电网拓扑识别与线路参数辨识方法 | |
CN111680879A (zh) | 一种考虑敏感负荷失效的配电网运行韧性评估方法及装置 | |
CN109543083B (zh) | 一种多元电网实时数据中异常数据的检测方法 | |
CN115081597A (zh) | 一种基于机器学习的以电核碳方法、系统、设备和介质 | |
CN111199494B (zh) | 提高电力系统整定计算速度的方法及装置 | |
CN115453356A (zh) | 一种动力设备运行状态监测分析方法、系统、终端及介质 | |
CN110865329B (zh) | 一种基于大数据自诊断的电能计量方法及系统 | |
CN113837423A (zh) | 基于能源互联网电力大数据的电网运行态势预测方法 | |
CN110489852A (zh) | 提高风电系统数据质量的方法及装置 | |
CN115934691A (zh) | 短期光伏功率的确定方法及装置 | |
CN112257997B (zh) | 一种基于神经网络的pcs转化率计算方法及系统 | |
CN107069710B (zh) | 计及新能源时空相关性的电力系统状态估计方法 | |
CN113158134B (zh) | 非侵入式负荷辨识模型的构建方法、装置和存储介质 | |
CN110083804B (zh) | 基于条件分布回归的风电场scada数据缺失的智能修复方法 | |
CN109670243B (zh) | 一种基于勒贝格空间模型的寿命预测方法 | |
CN107317377B (zh) | 一种电池化成分容双向ac-dc电路及其控制方法 | |
CN115828165B (zh) | 一种新能源智能微电网数据处理方法及系统 | |
CN114047372B (zh) | 一种基于电压特征的台区拓扑辨识系统 | |
CN116306095B (zh) | 基于边缘计算的抽水蓄能机组故障诊断系统及方法 | |
CN117313021B (zh) | 一种电力设备异常检测分析方法、系统、终端及介质 | |
Zhang et al. | Research of General Threshold Model for Pumped Storage Power Station Equipment Based on Normal Distribution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |