CN111930725A

CN111930725A - 一种配用电数据压缩、融合方法及装置

Info

Publication number: CN111930725A
Application number: CN202010460733.9A
Authority: CN
Inventors: 孙虹; 李刚; 李野; 何泽昊; 季浩; 杨光; 马玉莹; 刘超; 孔祥玉; 常丽; 董得龙; 白涛; 顾强; 卢静雅; 翟术然; 李静; 刘浩宇; 张兆杰; 乔亚男; 许迪
Original assignee: Tianjin University; State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Current assignee: Tianjin University; State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-11-13

Abstract

本发明涉及一种配用电数据压缩、融合方法及装置，其特征在于：包括以下步骤：利用并行化的EEMD算法对原始配用电信息数据进行分解，基于特征的符号聚类近似(SAX)将分解后的主元配用电信息数据时间序列进行符号化处理，再将符号化后的配用电信息时间序列进行配用电信息数据的重构，完成对采集的原始配用电信息数据的清洗；基于SPIHT压缩算法对配用电信息数据进行压缩处理，利用多输入—单输出的模式的网络结构完成对压缩处理后的配用电采集信息数据的分类融合。本发明能够在实现对原始配用电信息数据清洗、压缩及融合的基础上完成配用电信息的准确采集，充分挖掘信息数据的价值，为电力系统运行提供重要科学依据。

Description

一种配用电数据压缩、融合方法及装置

技术领域

本发明属于配用电信息数据采集处理技术领域，涉及原始配用电信息数据的分解、时间序列符号化处理、重构、压缩以及分类融合等关键数据处理方法，尤其是一种配用电数据压缩、融合方法及装置。

背景技术

随着泛在电力物联网建设的推进，电力系统的规模越来越大，大量的智能电表及其配套监测设备投入使用，种类繁多的电力大数据被及时采集，其中包括电力生产过程中的数据资料、音频资料和影像资料等。这些数据资料贯穿电力生产的各个环节，它们相互联系、相辅相成，共同构成电力大数据。电力大数据产生于电力生产中的各个环节，蕴含巨大的潜在价值。电力大数据是将大数据的理念、技术和方法应用到电力行业，是大数据的重要组成部分之一。电力大数据涉及到发电、输电、变电、配电、用电和调度等环节，是跨单位、跨专业、跨业务数据分析与挖掘，以及数据可视化的集合。电力大数据由结构化数据和非结构化数据构成，结构化数据主要包括智能电表可以监测到的各种电力实时数据以及历史数据，非结构化数据不仅仅局限于电力数据，还包括设备监测系统采集到的音频资料、影像资料以及客户服务中心的客户服务信息等，这些种类繁多的数据、资料共同构成电力大数据。随着能源互联网技术的应用以及智能电网的建设，电力大数据呈现快速发展的趋势。大数据的应用环境也越来越多，需要针对大数据在配电网中的应用做进一步的探究，由此为大数据技术在智能电网中的应用提供保障，电力大数据技术是支撑智能电网安全稳定运行的核心。

近年来，大数据(big data)技术得到了各国政府和全球学术界、工业界的高度关注和重视，在各行业领域的应用迅猛发展。2012年3月，美国政府发布了“大数据研究发展创新计划”，我国政府、学术界和工业界对大数据也予以了高度关注。就电力行业而言，在智能电网运行模式下，产生的数量是海量的，近年来数据资源开始急剧增长并形成了一定的规模，对大数据技术也产生强烈的需求，具体表现为数据量由TB级向PB级发展，数据高性能存储和高可扩展性面临挑战。就目前而言，存在的问题有：业务向智能化、精益化方向发展，而对复杂数据的处理和实时性方面不尽理想；跨业务、跨平台的数据处理和分析能力不足；随着电力大数据云平台的发展与完善，电力大数据的数据采集、分类、存储、分析的效率和应用的能力不高。

发明内容

本发明的目的在于克服现有技术的不足，提供一种配用电数据压缩、融合方法及装置，能够在实现对原始配用电信息数据清洗、压缩及融合的基础上完成配用电信息的准确采集，充分挖掘信息数据的价值，为电力系统运行提供重要科学依据。

本发明解决其技术问题是采取以下技术方案实现的：

一种配用电数据压缩、融合方法，包括以下步骤：

步骤一、通过并行化的EEMD算法对原始配用电信息数据进行分解，得到主元配用电信息数据的时间序列；

步骤二，利用基于特征的符号聚类近似SAX将步骤一中分解后的主元配用电信息数据时间序列进行符号化处理；

步骤三，将步骤二中符号化处理后的主元配用电信息时间序列进行配用电信息数据的重构，完成对采集的原始配用电信息数据的清洗；

步骤四，对步骤三中清洗后的配用电信息数据进行压缩处理；

步骤五，对步骤四中压缩处理后的主元配用电采集信息数据进行分类融合。

而且，所述步骤1利用并行化的EEMD算法对原始配用电信息进行分解的具体步骤包括：

(1)设置总体信号X(t)，由原始配用电信号x(t)叠加一组高斯白噪声信号v(t)组成；

(2)根据设置的信号X(t)，基于AWS算法选择自适应窗口的边界；

(3)确定上述窗口的延拓代价η，基于分段边界的信号局部平稳度α，查找延拓代价表；

(4)根据延拓代价η，对各分段进行延拓，将波形记录转换为MapReduce能够处理的波形数据矩阵，作为Map任务的输入。以延拓后的边界点作为窗口边界对波形记录进行分割，每个分割的记录片段作为波形数据矩阵的一行。

(5)将波形记录矩阵中的各配用电信息数据分段并行求取极值。在Map阶段，计算节点接收波形记录矩阵中的数据分段作为输入，并行的对分段中的记录逐点进行极值点判断，并记录极值点；在Reduce阶段，接收Map任务输出的局部极值片段并进行连接操作，输出极大值矩阵spmax，极小值矩阵spmin；

(6)对分段信号进行并行化的包络线求解。算法接收步骤(5)的输出spmax和spmin作为输入，在Map阶段，各数据节点的Mapper任务利用3次样条插值算法并行求解各分段的包络线，并根据之前的延拓代价η，对包络线裁切；在Reduce阶段，对接收的包络分段进行连接重构，算法的输出为信号整体的上包络线和下包络线。

(7)求解包络均值，重复步骤(2)～(6)，得到各阶段的IMF分量；

(8)在原始信号中加入不同的白噪声v(t)，重复上述步骤；原始信号对应的IMF分量a_m(t)如公式(1)所示：

其中，M表示IMF分量的数量；

(9)原始信号x(t)最终的分解结果如公式(2)所示：

其中，r_m(t)是IMF分量，H是残余分量的数量，a_m(t)是残余分量。

而且，所述步骤1利用基于特征的符号聚类近似(SAX)将分解后的96点主元配用电信息数据时间序列进行符号化处理的具体步骤包括：

(1)先将分解后的主元配用电信息数据时间序列规格化处理，即把数据转变成平均值为0，标准差为1的时序数据，记为D＝[d(1),d(2),…,d(t)]，对其进行规范化公式为：

式中μ为时序数据中所有值的平均值，δ为所有值的标准差，x(i)为原始的时序数据，d(i)为规范化后的时序数据。

(2)再将规格化后的数据降维，利用PAA算法处理D＝[d(1),d(2),…,d(t)]，得到D的分段累积近似表示为

其中T为时间序列PAA表示的分段数，即：

其中，d_j′是处理上一步规格化处理后的数据，T是按照采集时段划分的最大采集次数；

最后将

进行离散化处理，即将用PAA表示的时间序列映射到有限字符集上：根据选定字母集的大小，在高斯分布表中查找区间分裂点β，将

映射到等概率的q个区间，用同一个字符表示处于同一个区间，从而将PAA映射转换为相应字符串，最终能够获得离散化目标字符串

而且，所述步骤1进行符号化后的配用电信息时间序列进行配用电信息数据的重构的具体步骤包括：

(1)初始化模型的各参数。设置空集矩阵Q存储恢复矩阵Z对应的基向量，设置空集集合O存储己选取的恢复矩阵Z的下标值，恢复矩阵Y＝ΦK，稀疏表示系数初始值S＝0，残差R＝Y，迭代次数b＝0。

(2)选择快复矩阵T的基向量，选择与残差ε内积最大的基向量。

(3)求解稀疏表示系数S，利用己选的恢复矩阵T基向量对符号化后的配用电信息时间序列数据稀疏表示系数，求解其稀疏报上系数向量

(4)更新残差

(5)判断迭代次数是否已最大或者误差条件是否满足，若已最大或误差达标，则停止计算，若不是，则继续执行步骤(2)。

而且，所述步骤2基于SPIHT压缩算法对清洗后的配用电信息数据进行压缩处理的具体步骤包括：

(1)计算重构信息数据矩阵中高频系数以及其总阈值C，找出最大的高频系数，并求解对应该高频系数的最小二进制位数k，其中k＝log₂C；

(2)按高频系数所在的子带将其分为对角块、水平块、垂直块，并对角、水平、垂直块对应的阈值；

(3)对高频系数K带(K为小波系数分解层数的三分之一)前的子带采用全扫描方式，其K代后的子带扫描水平块；将高频系数的当前阈值与K代前子带的所有块的阈值进行比较，若总的阈值大于子带的块阈值，不扫描该块。

(4)进一步精细扫描高频系数，除了步骤(3)扫描检测出的重要元素以外的其他元素分别输出他们的第k个(k＝log₂C)重要位；

(5)更新当前总阈值，若C<C_min，C_min是设置的阈值下限，则停止当前编码；若当前的总阈值C≥C_min，则将当前的总阈值变为为其原值的1/2，返回到步骤(3)进行下一次的顺序扫描和精细扫描。

而且，所述步骤2利用多输入—单输出模式的网络结构完成对压缩处理后的配用电采集信息数据的分类融合模块包括：

(1)选取需要进行分类融合的用户配用电信息数据样本，将期望输出满足当前对象的样本设为1，不属于该对象的期望输出设为0，通过选取多输入—单输出的模式的神经网络模型—Hermite正交基神经网络来学习逼近。

(2)将需要进行分类融合的用户配用电信息数据样本作为已训练好的神经网络的输入变量，依据各个神经网络的输出结果，将未知用户配用电信息数据样本分别映射到相应类别。

(3)统计分析最终的分类结果，分类辨识未知用户配用电信息样本。

本发明的优点和积极效果是：

1、本发明在完成配用电信息数据的清洗处理后，针对电力系统的配用电信息数据的特征，实现复杂度低而准确度高的数据清洗处理流程。

2、本发明基于并行EEMD算法能够自适应地确定信号分段的边界和延拓长度，保持了原始EEMD算法特性，实现了快速的EEMD分解，适合处理目前泛在电力物联配用电信息等高采样率信号。

3、本发明通过分析配用电信息的具体采集流程、网络拓扑架构及其特征，收到的稀疏压缩采样感知数据后，构建配用电信息数据的稀疏压缩采样感知数据的重构模型，进而完成稀疏压缩采样感知数据的重构与分析，提离配用电信息物联采集效率。

4、本发明结合Map Reduce模型实现大规模数据集的分类融合并行计算，实现数据的分类融合处理目的，满足了电力数据的实时性、并行化处理要求。

附图说明

图1为本发明的方法流程图。

具体实施方式

以下结合附图对本发明实施例作进一步详述：

一种配用电数据压缩、融合方法，其创新之处在于：如图1所示，包括以下步骤：

步骤1、利用并行化的EEMD算法对原始配用电信息数据进行分解，基于特征的符号聚类近似(SAX)将分解后的主元配用电信息数据时间序列进行符号化处理，再将符号化后的配用电信息时间序列进行配用电信息数据的重构，完成对采集的原始配用电信息数据的清洗。

所述步骤1利用并行化的EEMD算法对原始配用电信息数据进行分解的具体方法为：

(2)根据设置的信号X(t)，基于AWS算法选择自适应窗口的边界；

(7)求解包络均值，重复步骤(2)～(6)，得到各阶段的IMF分量；

其中，M表示IMF分量的数量；

(9)原始信号x(t)最终的分解结果如公式(2)所示：

所述步骤1基于特征的符号聚类近似(SAX)将分解后的主元配用电信息数据时间序列进行符号化处理的具体方法为：

其中T为时间序列PAA表示的分段数，即：

最后将

所述步骤1对符号化后的配用电信息时间序列进行配用电信息数据的重构的具体方法为：

(4)更新残差

步骤2、基于SPIHT压缩算法对配用电信息数据进行压缩处理，利用多输入—单输出的模式的网络结构完成对压缩处理后的配用电采集信息数据的分类融合。

如图1所示，所述步骤2基于SPIHT压缩算法对配用电信息数据进行压缩处理的具体步骤为：

如图1所示，所述步骤2利用多输入—单输出的模式的网络结构完成对压缩处理后的配用电采集信息数据的分类融合的具体步骤为：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种配用电数据压缩、融合方法，其特征在于：包括以下步骤：

步骤一、对原始配用电信息数据进行分解，得到主元配用电信息数据的时间序列；

步骤二，将步骤一中分解后的主元配用电信息数据的时间序列进行符号化处理；

2.根据权利要求1所述的一种配用电数据压缩、融合方法，其特征在于：所述对原始配用电信息数据进行分解的方法具体步骤包括：

步骤1，设置总体信号X(t)，该总体信号X(t)由原始配用电信号x(t)叠加一组高斯白噪声信号v(t)组成；

步骤2，根据设置的信号X(t)，基于AWS算法选择自适应窗口的边界；

步骤3，确定上述窗口的延拓代价η，基于分段边界的信号局部平稳度α，查找延拓代价表；

步骤4，根据延拓代价η，对各分段进行延拓，将波形记录转换为MapReduce能够处理的波形记录矩阵，作为Map任务的输入；以延拓后的边界点作为窗口边界对波形记录进行分割，每个分割的记录片段作为波形数据矩阵的一行，得到分段信号；

步骤5，将波形记录矩阵中的各配用电信息数据分段并行求取极值；在Map阶段，计算节点接收波形记录矩阵中的数据分段作为输入，并行的对分段中的记录逐点进行极值点判断，并记录极值点；在Reduce阶段，接收Map阶段任务输出的局部极值片段并进行连接操作，输出极大值矩阵spmax以及极小值矩阵spmin；

步骤6，对步骤4得到的分段信号进行并行化的包络线求解，算法接收步骤5的输出spmax和spmin作为输入，在Map阶段，各数据节点的Mapper任务利用3次样条插值算法并行求解各分段的包络线，并根据之前的延拓代价η，对包络线裁切；在Reduce阶段，对接收的包络分段进行连接重构，算法的输出为信号整体的上包络线和下包络线；

步骤7，根据步骤6中的上包络线与下包络线求解包络均值，重复步骤2～6，得到各阶段的IMF分量；

步骤8，在原始信号中加入不同的白噪声v(t)，重复上述步骤，得到噪声下的IMF分量为a_i,m(t)；

步骤9，利用白噪声的均值为零，将步骤8中各个IMF分量求均值得到原始信号对应的IMF分量，原始分量a_m(t)的计算如公式(1)所示：

其中，M表示IMF分量的数量；

步骤10，原始信号x(t)最终可以分解为一个IMF分量与信号残余分量之和，分解结果如公式(2)所示：

3.根据权利要求1所述的一种配用电数据压缩、融合方法，其特征在于：所述将分解后的主元配用电信息数据的时间序列进行符号化处理的方法具体步骤包括：

步骤1，把数据转变成平均值为0，标准差为1的时序数据，记为D＝[d(1),d(2),…,d(t)]，对其进行规范化公式为：

式中μ为时序数据中所有值的平均值，δ为所有值的标准差，x(i)为原始的时序数据，d(i)为规范化后的时序数据；

步骤2，将规格化处理后的数据降维，利用PAA算法处理D＝[d(1),d(2),…,d(t)]，得到D的分段累积近似表示为

其中T为时间序列PAA表示的分段数，即：

步骤3，将降维处理后的数据

4.根据权利要求1所述的一种配用电数据压缩、融合方法，其特征在于：所述将符号化处理后的主元配用电信息时间序列进行配用电信息数据的重构，完成对采集的原始配用电信息数据的清洗的方法包括：

步骤1，设置空集矩阵Q存储恢复矩阵Z对应的基向量，设置空集集合O存储己选取的恢复矩阵Z的下标值，恢复矩阵Y＝ΦK，稀疏表示系数初始值S＝0，残差R＝Y，迭代次数b＝0；

步骤2，根据步骤1中的残差，确定快复矩阵T的基向量，选择与残差ε内积最大的基向量；

步骤3，求解稀疏表示系数S，利用步骤2中选择的恢复矩阵T基向量对符号化后的配用电信息时间序列数据稀疏表示系数，求解其稀疏报上系数向量

步骤4，利用步骤3的求解结果，更新残差

步骤5，判断迭代次数是否已最大或者误差条件是否满足，若已最大或误差达标，则停止计算，若不是，则继续执行步骤2～步骤4。

5.根据权利要求1所述的一种配用电数据压缩、融合方法，其特征在于：所述对清洗后的配用电信息数据进行压缩处理采用SPIHT压缩算法，其包括如下步骤：

步骤1，计算重构信息数据矩阵中高频系数以及其总阈值C，找出最大的高频系数，并求解对应该高频系数的最小二进制位数k，其中k＝log₂C；

步骤2，按高频系数所在的子带将其分为对角块、水平块、垂直块，并确定对角、水平、垂直块对应的阈值；

步骤3，对高频系数K带前的子带采用全扫描方式，其K代后的子带扫描水平块；将高频系数的当前阈值与K代前子带的所有块的阈值进行比较，若总的阈值大于子带的块阈值，不扫描该块，其中K为小波系数分解层数的三分之一；

步骤4，进一步精细扫描高频系数，除了步骤3扫描检测出的重要元素以外的其他元素分别输出他们的第k个重要位，其中k＝log₂ C；

步骤5，更新当前总阈值，若C<C_min，C_min是设置的阈值下限，则停止当前编码；若当前的总阈值C≥C_min，则将当前的总阈值变为为其原值的1/2，返回到步骤3进行下一次的顺序扫描和精细扫描。

6.根据权利要求1所述的一种配用电数据压缩、融合方法，其特征在于：所述对压缩处理后的主元配用电采集信息数据进行分类融合方法利用多输入—单输出模式的网络结构完成，其具体步骤包括：

步骤1，选取需要进行分类融合的用户配用电信息数据样本；

步骤2，将用户配用电信息数据样本中期望输出满足当前对象的样本设为1，不属于该对象的期望输出设为0，通过选取多输入—单输出的模式的神经网络模型—Hermite正交基神经网络来学习逼近；

步骤2，将需要进行分类融合的用户配用电信息数据样本作为已训练好的神经网络的输入变量，依据各个神经网络的输出结果，将未知用户配用电信息数据样本分别映射到相应类别；

步骤3，统计分析最终的分类结果，分类辨识未知用户配用电信息样本。

7.一种配用电数据压缩、融合装置，其特征在于：包括时间序列获取模块、符号化处理模块、清洗处理模块、压缩处理模块、分类融合模块，

所述的时间序列获取模块用于对原始配用电信息数据进行分解，得到主元配用电信息数据的时间序列；

所述的符号化处理模块用于将分解后的主元配用电信息数据的时间序列进行符号化处理；

所述的清洗处理模块用于将符号化处理后的主元配用电信息时间序列进行配用电信息数据的重构，完成对采集的原始配用电信息数据的清洗；

所述的压缩处理模块用于对清洗后的配用电信息数据进行压缩处理；

所述的分类融合模块用于对压缩处理后的主元配用电采集信息数据进行分类融合。

8.根据权利要求7所述的一种配用电数据压缩、融合装置，其特征在于：所述的时间序列获取模块用于对原始配用电信息数据进行分解，其分解的方法采用并行化的EEMD算法。

9.根据权利要求7所述的一种配用电数据压缩、融合装置，其特征在于：所述的符号化处理模块用于将分解后的主元配用电信息数据的时间序列进行符号化处理的方法利用基于特征的符号聚类近似，对时间序列X＝[x(1),x(2),…,x(t)]进行特征的符号聚类近似表示。

10.根据权利要求7所述的一种配用电数据压缩、融合装置，其特征在于：所述的压缩处理模块用于对清洗后的配用电信息数据进行压缩处理采用SPIHT压缩算法。