CN108629356B

CN108629356B - 一种面向用电负荷分类应用的数据存储方法和装置

Info

Publication number: CN108629356B
Application number: CN201710169912.5A
Authority: CN
Inventors: 赵婷; 张迪; 陈江琦; 黄复鹏; 潘新民
Original assignee: QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co; State Grid Corp of China SGCC; Global Energy Interconnection Research Institute
Current assignee: QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co; State Grid Corp of China SGCC; Global Energy Interconnection Research Institute
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2021-12-21
Anticipated expiration: 2037-03-21
Also published as: CN108629356A

Abstract

本发明提供一种面向用电负荷分类应用的数据存储方法和装置，方法包括选取小波基函数对预处理后的用电负荷数据进行多分辨分解，得到候选特征小波系数集，并对预处理后的用电负荷数据添加标签信息；从候选特征小波系数集中选取特征小波系数，并建立用电负荷数据特征化模型；采用用电负荷数据特征化模型对用电负荷数据进行特征化处理；存储特征化处理后的用户电荷数据。本发明将小波变换的优势应用到用电负荷数据的特征提取中，在对数据进行压缩存储的同时，保持了原有的信息，能够对后续的用电负荷分类等应用带来有力支撑；对特征小波系数的数量进行调整，选取了最优最少的特征小波系数，提高了用电负荷数据特征化的效率。

Description

一种面向用电负荷分类应用的数据存储方法和装置

技术领域

本发明涉及数据特征化技术，具体涉及一种面向用电负荷分类应用的数据存储方法和装置。

背景技术

随着大数据时代的到来，各界组织和企业都将数据作为未来发展的重要资源，并大力投入数据采集、传输和存储技术的研发。对电网企业而言，其数据量大、类型多、价值高，已成为助推公司和社会发展的基本要素。

用电负荷数据均为数值记录，但数据记录量大、记录密集、数据冗余大、占用存储空间高，对其搬运、存储、分析和处理需要大容量存储和高性能计算平台支撑。因此，有必要以用电负荷数据为对象，开展数据的特征化处理技术研究，变数据的“精确存储”为“特征存储”，变“原始数据”的计算分析为“特征量”的直接应用，能够大大减少存储空间，提高分析效率。

小波变换具有计算快捷，简便的优点，并且能够有效的压缩数据的存储空间，对于电力系统其他含量明细数据和指标数据的特征提取具有一定的借鉴作用。因此，基于小波变换的数据特征化方法具有潜在的应用价值和经济效益。

发明内容

为了克服上述现有技术的不足，本发明针对当前用电负荷类数据的存储量大、数据冗余多等特征，开展了深入研究，提供了一种面向用电负荷分类应用的数据存储方法和装置，本发明能够对用电负荷数据进行特征化降维，并且在对用电负荷数据进行分类时具有很好的效果，有效降低了数据存储空间。

为了实现上述发明目的，本发明采取如下技术方案：

本发明提供一种面向用电负荷分类应用的数据存储方法，所述方法包括：

选取小波基函数对预处理后的用电负荷数据进行多分辨分解，得到候选特征小波系数集，并对预处理后的用电负荷数据添加标签信息；

从候选特征小波系数集中选取特征小波系数，并建立用电负荷数据特征化模型；

采用用电负荷数据特征化模型对用电负荷数据进行特征化处理；

存储特征化处理后的用户电荷数据。

所述选取小波基函数对预处理后的用电负荷数据进行多分辨分解，得到候选特征小波系数集，并对预处理后的用电负荷数据添加标签信息之前包括：

选取用电负荷数据，并对其进行预处理。

所述选取用电负荷数据，并对其进行预处理包括：

选取用电负荷数据，形成用电负荷数据矩阵；

分别计算用电负荷数据各行缺失值占比和各列缺失值占比，行缺失值占比超过缺失值阈值时，舍弃该行用电负荷数据；否则选取缺失值填充方法对用电负荷数据矩阵进行缺失值填充。

所述缺失值填充方法包括KNN法和平均值填充法。

所述选取小波基函数对预处理后的用电负荷数据进行多分辨分解，得到候选特征小波系数集包括：

选取M个小波基函数G₁,G₂,...,G_M，并根据用电负荷数据的长度确定小波分解级数；

根据小波基函数和小波分解级数对预处理后的用电负荷数据进行多分辨分解，得到M个小波分解系数W₁,W₂,...,W_M；

根据小波分解系数计算小波分解系数的熵值，有：

其中，i＝1,2,…,M，W_i表示第i个小波基函数G_i下的小波分解系数，H(W_i)为W_i的熵值，ω_ij为W_i的第j个分量；

选取小波分解系数的熵值最小的小波基函数作为小波变换基函数；

采用小波变换基函数对预处理后的用电负荷数据进行多分辨分解，得到多个候选特征小波系数，得到候选特征小波系数集；

对候选特征小波系数进行标准化处理：

其中，Wall[j]为第j个候选特征小波系数，Wall[j]^*为标准化处理后的第j个候选特征小波系数，level(Wall[j])为Wall[j]在多分辨分解中的小波分解级数。

所述对预处理后的用电负荷数据添加标签信息包括：

对预处理后的用电负荷数据进行主成分降维，并进行K-means聚类，得到聚类结果；

以聚类结果为类别标签，根据类别标签标记用电负荷数据的模式类别。

所述从候选特征小波系数集中选取特征小波系数，并建立用电负荷数据特征化模型包括：

从候选特征小波系数集中选取特征小波系数，作为用电负荷数据特征集，并获取用电负荷数据的标签信息；

根据用电负荷数据特征集和标签信息建立C5.0决策树模型，并评估C5.0决策树模型的准确度；

调整特征小波系数的数量，得到不同的C5.0决策树模型，并依据各C5.0决策树模型的准确度，确定特征小波系数的数量，从准确度达到准确度阈值的C5.0决策树模型中选择特征小波系数数量最少的C5.0决策树模型作为用电负荷数据特征化模型。

所述采用用电负荷数据特征化模型对用电负荷数据进行特征化处理包括：

根据小波变换基函数和特征小波系数数量，采用用电负荷数据特征化模型对用电负荷数据进行特征化处理。

本发明还提供一种面向用电负荷分类应用的数据存储装置，所述装置包括：

分解模块，用于选取小波基函数对预处理后的用电负荷数据进行多分辨分解，得到候选特征小波系数集，并对预处理后的用电负荷数据添加标签信息；

建模模块，用于从候选特征小波系数集中选取特征小波系数，并建立用电负荷数据特征化模型；

处理模块，用于采用用电负荷数据特征化模型对用电负荷数据进行特征化处理；

存储模块，用于存储特征化处理后的用户电荷数据。

所述分解模块包括预处理模块；

所述预处理模块用于选取用电负荷数据，并对选取的用电负荷数据进行预处理。

所述预处理模块具体用于：

选取用电负荷数据，形成用电负荷数据矩阵；

所述缺失值填充方法包括KNN法和平均值填充法。

所述分解模块具体用于：

根据小波分解系数计算小波分解系数的熵值，有：

对候选特征小波系数进行标准化处理：

所述分解模块具体用于：

所述建模模块具体用于：

所述处理模块具体用于：

与最接近的现有技术相比，本发明提供的技术方案具有以下有益效果：

本发明将小波变换的优势应用到用电负荷数据的特征提取中，在对数据进行压缩存储的同时，保持了原有的信息，能够对后续的用电负荷分类等应用带来有力支撑；

本发明能够将数据量巨大的用电负荷数据特征化为数据量较小的特征小波系数，对用电负荷数据进行了压缩，去掉了大量数据冗余，大大降低了存储空间，并且可以保证特征化后的数据能够支撑用电负荷数据的分类相关应用；

小波变换基函数结构简单、计算方便，因此利用小波变换基函数最终实现对用电负荷数据的特征化出力，具有计算快捷、简便的优点，并且可以根据需要选择不同的小波基函数，提高了特征化能力；

本发明利用机器学习的方法，将用电负荷数据进行主成分降维，再经过K-means聚类，得到标签信息，并选择最优的特征小波系数的数量，使得特征化得到准确率最高、存储空间最省的最优结果；

对特征小波系数的数量进行调整，选取了最优最少的特征小波系数，提高了用电负荷数据特征化的效率。

附图说明

图1是本发明实施例中面向用电负荷分类应用的数据存储方法流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明实施例提供一种面向用电负荷分类应用的数据存储方法，具体流程图如图1所示，该方法包括以下步骤：

S101：选取小波基函数对预处理后的用电负荷数据进行多分辨分解，得到候选特征小波系数集，并对预处理后的用电负荷数据添加标签信息；

S102：从S101中得到的候选特征小波系数集中选取特征小波系数，并建立用电负荷数据特征化模型；

S103：采用S102中建立的用电负荷数据特征化模型对用电负荷数据进行特征化处理；

S104：存储S103中特征化处理后的用户电荷数据。

以上S101的选取小波基函数对预处理后的用电负荷数据进行多分辨分解，得到候选特征小波系数集，并对预处理后的用电负荷数据添加标签信息之前还需要选取用电负荷数据，并对其进行预处理，具体过程如下：

首先，选取用电负荷数据，形成用电负荷数据矩阵；

然后分别计算用电负荷数据各行缺失值占比和各列缺失值占比，行缺失值占比超过缺失值阈值时，舍弃该行用电负荷数据；否则选取缺失值填充方法(缺失值填充方法包括KNN法和平均值填充法)对用电负荷数据矩阵进行缺失值填充。

上述S102中，选取小波基函数对预处理后的用电负荷数据进行多分辨分解，得到候选特征小波系数集具体过程如下：

先选取M个小波基函数G₁,G₂,...,G_M，并根据用电负荷数据的长度确定小波分解级数；

然后，根据小波基函数和小波分解级数对预处理后的用电负荷数据进行多分辨分解，得到M个小波分解系数W₁,W₂,...,W_M；

接着，根据小波分解系数计算小波分解系数的熵值，有：

再者，选取小波分解系数的熵值最小的小波基函数作为小波变换基函数；

之后，采用小波变换基函数对预处理后的用电负荷数据进行多分辨分解，得到多个候选特征小波系数，得到候选特征小波系数集；

最后，还需要对候选特征小波系数进行标准化处理：

上述S102中，对预处理后的用电负荷数据添加标签信息具体过程如下：

先对预处理后的用电负荷数据进行主成分降维，并进行K-means聚类，得到聚类结果；

然后以聚类结果为类别标签，根据类别标签标记用电负荷数据的模式类别。

上述S102中，从候选特征小波系数集中选取特征小波系数，并建立用电负荷数据特征化模型具体过程如下：

先从候选特征小波系数集中选取特征小波系数，作为用电负荷数据特征集，并获取用电负荷数据的标签信息；

然后，根据用电负荷数据特征集和标签信息建立C5.0决策树模型，并评估C5.0决策树模型的准确度；

最后，调整特征小波系数的数量，得到不同的C5.0决策树模型，并依据各C5.0决策树模型的准确度，确定特征小波系数的数量，从准确度达到准确度阈值的C5.0决策树模型中选择特征小波系数数量最少的C5.0决策树模型作为用电负荷数据特征化模型。

上述S103中，采用用电负荷数据特征化模型对用电负荷数据进行特征化处理具体过程如下：

本发明实施例还提供一种面向用电负荷分类应用的数据存储装置，该数据存储装置包括分解模块、建模模块、处理模块、和存储模块；三个模块具体用于：

存储模块，用于存储特征化处理后的用户电荷数据。

上述分解模块包括预处理模块，该预处理模块用于选取用电负荷数据，并对选取的用电负荷数据进行预处理，具体过程如下：

先选取用电负荷数据，形成用电负荷数据矩阵；

上述分解模块选取小波基函数对预处理后的用电负荷数据进行多分辨分解的具体过程如下：

接着，根据小波分解系数计算小波分解系数的熵值，有：

最后，对候选特征小波系数进行一下标准化处理：

上述分解模块对预处理后的用电负荷数据添加标签信息具体过程如下：

上述建模模块用于从候选特征小波系数集中选取特征小波系数，并建立用电负荷数据特征化模型，具体过程如下：

然后根据用电负荷数据特征集和标签信息建立C5.0决策树模型，并评估C5.0决策树模型的准确度；

最后调整特征小波系数的数量，得到不同的C5.0决策树模型，并依据各C5.0决策树模型的准确度，确定特征小波系数的数量，从准确度达到准确度阈值的C5.0决策树模型中选择特征小波系数数量最少的C5.0决策树模型作为用电负荷数据特征化模型。

上述处理模块用于采用用电负荷数据特征化模型对用电负荷数据进行特征化处理，具体过程为：

本发明针对当前用电负荷类数据的存储量大、数据冗余多等特征，开展了深入研究，提供了一种面向用电负荷分类应用的数据存储方法和装置，本发明能够对用电负荷数据进行特征化降维，并且在对用电负荷数据进行分类时具有很好的效果，有效降低了数据存储空间。

本发明选取小波基函数对用电负荷数据进行多分辨分解，得到若干小波系数和尺度系数，然后从这些系数中选择特征小波系数，完成对原始数据的特征化。且本发明能够高速地完成对用电负荷类数据的特征化工作，并且能够在用电负荷数据分类应用中取得很好的效果，有效降低了数据存储空间。本发明的面向用电负荷分类应用的数据存储方法，能够有效对用电负荷数据进行特征化降维，并且能够支撑用电符合数据的分类。本发明提供的数据存储方法大大减少了存储空间，由于维数降低，也提高了分类时的计算速度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种面向用电负荷分类应用的数据存储方法，其特征在于，所述方法包括：

存储特征化处理后的用户电荷数据；

选取用电负荷数据，并对其进行预处理；

所述选取用电负荷数据，并对其进行预处理包括：

选取用电负荷数据，形成用电负荷数据矩阵；

分别计算用电负荷数据各行缺失值占比和各列缺失值占比，行缺失值占比超过缺失值阈值时，舍弃该行用电负荷数据；否则选取缺失值填充方法对用电负荷数据矩阵进行缺失值填充；

所述缺失值填充方法包括KNN法和平均值填充法；

根据小波分解系数计算小波分解系数的熵值，有：

对候选特征小波系数进行标准化处理：

其中，Wall[j]为第j个候选特征小波系数，Wall[j]^*为标准化处理后的第j个候选特征小波系数，level(Wall[j])为Wall[j]在多分辨分解中的小波分解级数；

所述对预处理后的用电负荷数据添加标签信息包括：

以聚类结果为类别标签，根据类别标签标记用电负荷数据的模式类别；

调整特征小波系数的数量，得到不同的C5.0决策树模型，并依据各C5.0决策树模型的准确度，确定特征小波系数的数量，从准确度达到准确度阈值的C5.0决策树模型中选择特征小波系数数量最少的C5.0决策树模型作为用电负荷数据特征化模型；

2.一种面向用电负荷分类应用的数据存储装置，其特征在于，所述装置包括：

存储模块，用于存储特征化处理后的用户电荷数据；

所述分解模块包括预处理模块；

所述预处理模块用于选取用电负荷数据，并对选取的用电负荷数据进行预处理；

所述预处理模块具体用于：

选取用电负荷数据，形成用电负荷数据矩阵；

所述缺失值填充方法包括KNN法和平均值填充法；

所述分解模块具体用于：

根据小波分解系数计算小波分解系数的熵值，有：

对候选特征小波系数进行标准化处理：

所述分解模块具体用于：

所述建模模块具体用于：

所述处理模块具体用于：