CN114722943A

CN114722943A - 数据处理方法、装置及其设备

Info

Publication number: CN114722943A
Application number: CN202210375696.0A
Authority: CN
Inventors: 吴辰晔; 张家声
Original assignee: Shenzhen Institute of Artificial Intelligence and Robotics
Current assignee: Shenzhen Institute of Artificial Intelligence and Robotics
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-08

Abstract

本申请实施例公开了数据处理方法、装置及其设备，用于对用户高维数的负载数据进行降维，从而解决维度灾难问题。本申请实施例方法包括：获取目标用户的初始负载数据，所述初始负载数据包括初始维数的负载数据；获取由多个训练样本训练得到的目标自编码器，其中，所述目标自编码器包括由N个卷积层和M个池化层构成的编码器；每个所述训练样本包括初始维数的历史负载数据和目标维数的历史负载数据，且所述初始维数大于所述目标维数，所述目标自编码器保存有所述初始维数降维至所述目标维度的降维规则；将所述初始负载数据输入至所述目标自编码器，以使所述目标自编码器根据所述降维规则将所述初始维数的负载数据降维为所述目标维数的负载数据。

Description

数据处理方法、装置及其设备

技术领域

本申请实施例涉及机器学习领域，尤其涉及数据处理方法、装置及其设备。

背景技术

负载曲线聚类是能源研究许多领域的重要主题和有用工具，也是电力数据挖掘中的一个研究热点。

在负载预测中，负载曲线聚类之前先对负载曲线进行标准化处理,建立一个能用于预测负载曲线的通用模型，从而实现负载预测。

但是由于负载曲线存在维度灾难，所以很难建立一个能够准确预测所有条件下的负载曲线的通用模型。例如K-means聚类等基于距离的方法在高维数据中表现出不稳定性。虽然主成分分析PCA等传统降维方法可用于减轻维度灾难，但这些方法只能生成线性映射，而不能解决复杂的问题。

发明内容

本申请实施例提供了数据处理方法、装置及其设备，用于对用户高维数的负载数据进行降维，从而解决维度灾难问题。

本申请实施例提供的一种数据处理方法，包括：

获取目标用户的初始负载数据，所述初始负载数据包括初始维数的负载数据；

获取由多个训练样本训练得到的目标自编码器，其中，所述目标自编码器包括由N个卷积层和M个池化层构成的编码器；每个所述训练样本包括初始维数的历史负载数据和目标维数的历史负载数据，且所述初始维数大于所述目标维数，所述目标自编码器保存有所述初始维数降维至所述目标维度的降维规则；

将所述初始负载数据输入至所述目标自编码器，以使所述目标自编码器根据所述降维规则将所述初始维数的负载数据降维为所述目标维数的负载数据。

可选的，所述目标自编码器包括由2个卷积层和2个池化层构成的编码器以及由2个卷积层和2个池化层构成的解码器，其中，所述编码器的第一卷积层卷积核长度为5，第一池化层步长为5；所述编码器的第二卷积层卷积核长度为4，第一池化层步长为4；所述解码器的第一卷积层卷积核长度为4，第一池化层步长为4；所述解码器的第一卷积层卷积核长度为5，第一池化层步长为5。

可选的，在所述将所述初始负载数据输入至所述目标自编码器之前，所述方法还包括：

对所述初始负载数据进行归一化处理；

所述对所述初始负载数据进行归一化处理，具体包括：

从所述初始维数的初始负载数据中，确定最大的初始负载数据及最小的初始负载数据；

确定所述最大的初始负载数据与所述最小的初始负载数据的差值；

若所述差值等于0,则将预设归一化参数设置为1；

若所述差值不等于0，则将所述预设归一化参数设置为所述差值；

针对所述初始负载数据中的每个负载数据，根据公式x'＝(x-x_min)/d计算所述负载数据归一化后的负载数据；其中x为所述负载数据，x'为归一化后的所述负载数据，d为所述预设归一化参数。

可选的，在所述将所述初始负载数据输入至所述目标自编码器，以使所述目标自编码器根据所述降维规则将所述初始维数的负载数据降维为所述目标维数的负载数据之后，所述方法还包括：

对多个所述目标用户的目标负载数据进行聚类，得到每个所述目标用户的聚类特征；

将具有相同聚类特征的目标用户划分为一个用户簇，得到至少一个用户簇。

可选的，在对多个所述目标用户的目标负载数据进行聚类，得到每个所述目标用户的聚类特征之后，所述方法还包括：

将所述目标用户的目标负载数据输入至目标预测模型，以使所述目标预测模型根据所述目标用户的聚类特征以及目标对应关系得到预测负载数据；其中，所述目标预测模型由所述目标用户的历史目标负载数据和所述聚类特征进行训练得到，所述目标预测模型保存有目标负载数据转换至预测负载数据的所述目标对应关系。

本申请实施例提供的一种数据处理装置，其特征在于，包括：

获取单元，用于获取目标用户的初始负载数据，所述初始负载数据包括初始维数的负载数据；

所述获取单元，还用于获取由多个训练样本训练得到的目标自编码器，其中，所述目标自编码器包括由N个卷积层和M个池化层构成的编码器；每个所述训练样本包括初始维数的历史负载数据和目标维数的历史负载数据，且所述初始维数大于所述目标维数，所述目标自编码器保存有所述初始维数降维至所述目标维度的降维规则；

输入单元，用于将所述初始负载数据输入至所述目标自编码器，以使所述目标自编码器根据所述降维规则将所述初始维数的负载数据降维为所述目标维数的负载数据。

可选的，所述数据处理装置还包括：

归一化单元，用于对所述初始负载数据进行归一化处理；

所述对所述初始负载数据进行归一化处理，具体包括：

若所述差值等于0,则将预设归一化参数设置为1；

可选的，所述数据处理装置还包括：

聚类单元，用于对多个所述目标用户的目标负载数据进行聚类，得到每个所述目标用户的聚类特征；

可选的，所述数据处理装置还包括：

预测单元，用于将所述目标用户的目标负载数据输入至目标预测模型，以使所述目标预测模型根据所述目标用户的聚类特征以及目标对应关系得到预测负载数据；其中，所述目标预测模型由所述目标用户的历史目标负载数据和所述聚类特征进行训练得到，所述目标预测模型保存有目标负载数据转换至预测负载数据的对应关系。

本申请实施例提供的一种数据处理设备，包括：

中央处理器，存储器以及输入输出接口；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行前述数据处理方法。

本申请实施例提供的一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行前述数据处理方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过预先训练的目标自编码器对目标用户的初始负载数据进行降维，得到经过降维后的目标用户的目标负载数据，从而解决维度灾难问题。

附图说明

图1为本申请实施例提供的目标自编码器的网络架构图；

图2为本申请实施例提供的数据处理方法的一种实施方式的示意图；

图3为本申请实施例提供的数据处理方法的另一种实施方式的示意图；

图4为本申请实施例提供的数据处理装置的一种实施方式的示意图；

图5为本申请实施例提供的数据处理设备的一种实施方式的示意图。

具体实施方式

基于以上问题，本申请提出了一种数据处理方法，用于解决负载曲线中的维度灾难问题。请参阅图1，图以为本申请实施例提供的目标自编码器的网络架构图，由图1可知，本申请实施例提供的目标自编码器由一个编码器Encoder和一个解码器Decoder构成。

具体地，编码器通过输入层Input输入数据，数据经过第一卷积层和第一池化层Conv+Maxpool1以及第二卷积层和第二池化层Conv+Maxpool2后，通过Flatten函数把数据都展开得到Dense数据，之后数据进入全连接层Linear。

解码器由全连接层Linear获取编码器进行编码后的数据，之后通过Reshape函数将数据进行分片，再使数据经过第三卷积层和第三池化层Conv+Maxpool3并进行上采样Upsampling，之后再经过第四卷积层和第四池化层Conv+Maxpool4后，再次进行上采样Upsampling，将解码之后的数据经过sigmoid激活函数后输出。

本申请实施例中，采用了卷积层与池化层结合的网络结构，虽然池化操作对于整体的精度提升效果不大，但是在减参降维，控制过拟合以及提高模型性能，节约算力方面的作用还是很明显的，所以池化操作是卷积自编码器设计上不可缺少的一个环节。

池化层采用最大池化对数据进行特征选择，减小了卷积层参数误差造成估计均值的偏移，选出了分类辨识度更高的特征，更多地保留纹理信息，得到了非线性数据。在本技术方案中具有良好的效果。

结合以上目标自编码器的网络架构图，请参阅图2，本申请提供的一种数据处理方法的一种实施方式包括步骤201至步骤203。

201、获取目标用户的初始负载数据。

目标用户为需要进行降维处理的用户，首先获取目标用户的初始负载数据，初始负载数据即为初始维数的负载数据，以便于后续对其进行降维处理。

202、获取由多个训练样本训练得到的目标自编码器。

目标自编码器是预先训练得到的，首先搭建目标自编码器的网络结构，确定其由一个编码器和一个解码器构成，其中编码器由N个卷积层和M个池化层构成，编码器由P个卷积层和Q个池化层构成。本实施例中，目标自编码器的网络架构参数M、N、P、Q可根据实际的降维需求进行调整，具体此处不做限定。

获取多个用户的初始维数的历史负载数据和目标维数的历史负载数据，其中，初始维数大于目标维数，将多个用户的初始维数的历史负载数据和目标维数的历史负载数据作为训练样本对初始自编码器进行机器学习训练，得到保存有初始维数降维至目标维度的降维规则的目标自编码器。

203、将初始负载数据输入至目标自编码器，以使目标自编码器根据降维规则将初始维数的负载数据降维为目标维数的负载数据。

将初始负载数据输入至目标自编码器，以使目标自编码器根据降维规则将初始维数的负载数据降维为目标维数的负载数据。

本实施例中，通过预先训练的目标自编码器对目标用户的初始负载数据进行降维，得到经过降维后的目标用户的目标负载数据，从而解决维度灾难问题。

请参阅图3，本申请提供的一种数据处理方法的另一种实施方式包括步骤301至步骤305。

301、获取由多个训练样本训练得到的目标自编码器。

目标自编码器是预先训练得到的，首先确定初始维度为1440维，其中，1440维通过24*60得到，表示每个用户一天内每分钟的用电数据为一个维度的负载数据，根据1440维的初始数据的降维需求，设计目标自编码器的网络结构参数。经过实验人员的多次实验验证，当初始维度为1440维时，目标自编码器降维效果最优的网络结构设计为：目标自编码器包括由2个卷积层和2个池化层构成的编码器以及由2个卷积层和2个池化层构成的解码器，其中，编码器的第一卷积层卷积核长度为5，第一池化层步长为5；编码器的第二卷积层卷积核长度为4，第一池化层步长为4；解码器的第一卷积层卷积核长度为4，第一池化层步长为4；解码器的第一卷积层卷积核长度为5，第一池化层步长为5。

获取多个用户的1440维的历史负载数据和16维的历史负载数据，16维的历史负载数据维1440维的历史负载数据中具有代表性的16维，将多个用户的1440维的历史负载数据和16维的历史负载数据作为训练样本对初始自编码器进行机器学习训练，得到保存有1440维的负载数据降维至16维的负载数据的降维规则的目标自编码器。

302、获取目标用户的初始负载数据，并进行归一化处理得到归一化负载数据。

目标用户为需要进行降维处理的用户，首先获取目标用户的1440维的初始负载数据，对初始负载数据进行归一化处理；

对初始负载数据进行归一化处理，具体包括：

从初始维数的初始负载数据中，确定最大的初始负载数据及最小的初始负载数据；

确定最大的初始负载数据与最小的初始负载数据的差值；

若差值等于0,则将预设归一化参数设置为1；

若差值不等于0，则将预设归一化参数设置为差值；

针对初始负载数据中的每个负载数据，根据公式x'＝(x-x_min)/d计算负载数据归一化后的负载数据；其中x为负载数据，x'为归一化后的负载数据，d为预设归一化参数。得到1440维的归一化负载数据，以便于后续对其进行降维处理。

303、将归一化负载数据输入至目标自编码器，以使目标自编码器根据降维规则将归一化负载数据降维为目标维数的负载数据。

将1440维经过归一化处理的初始负载数据输入至目标自编码器，以使目标自编码器根据降维规则将初始维数的负载数据降维为目标维数的负载数据。

具体地，1440维的归一化负载数据经输入层Input输入至编码器中，经过Conv+Maxpool1：第一个卷积层使用16个长度为5卷积核，与输入为1440维的单通道的数据进行卷积计算，边缘填充维度为2，生成16通道长度为1440的数据，再使用步长为5的池化层，进行下采样生成16通道长度为288(即1440/5)的数据；再经过Conv+Maxpool2：第二个卷积层使用长度为4的卷积核，边缘填充维度为2，与第一层输出进行卷积计算，输出为32通道长度288的数据。再使用步长为4的池化层，生产32通道长度72的数据；再由Flatten函数把数据全展开，生成一通道维度为32*72＝2304的Dense数据；经由全连接层，将Dense数据生成16维的目标负载数据。

再经由解码器对数据进行解码：首先将16维度的目标负载数据通过全连接生成维度为32*72＝2304的单通道数据；再由Reshape函数将数据分片生成32通道长度72的数据；再经由Conv+Maxpool1：第一次卷积，卷积核长度为4，边缘填充维度为2，通道为16，(实际上这个卷积核是32通道4维的，总共有16个，每个卷积核和原来32通道72维的数据做卷积得到一个1通道72维的数据，十六个卷积核就有16个通道)，输出16通道72维的数据。再进行上采样，得到16通道长度288维的数据。再经过Conv+Maxpool2：第二次卷积，卷积核长度为5，边缘填充维度为2，通道为1，输出单通道72维的数据。再进行上采用，得到单通道1440维的数据。将解码后的1440维数据输出，但是但应用时只选取经过降维得到的16维的目标负载数据，将其全部解码是为了获取这16为数据的原始数据。

304、对多个目标用户的目标负载数据进行聚类得到至少一个用户簇。

对多个目标用户的目标负载数据进行聚类，得到每个目标用户的聚类特征，将具有相同聚类特征的目标用户划分为一个用户簇，得到至少一个用户簇。

具体地，基于上述步骤303所得的每个用户降维之后的16维负载数据运用K-means算法对用户进行聚类。K-means的主要思想是把一组数据分成k类，假设每个类别用集合S_i来表示，那么目标是找到这样的一组集合

使得以下优化问题达到最优解：

其中p表示每个数据点，

表示每个类别的中心。求解上式相当于找到一组这样的集合，使得其中所有点到这个点隶属的集合的中心点的距离之和最小。

以需要聚类的用户数为1000位为例，将1000位用户降维后的16维负载数据和需要聚类得到的种类数为10类作为K-means算法的输入，随机分配10个类别中心，每个类别中心应该包含16维负载数据的中心数据，将每个用户的16维负载数据作为数据点，将每个数据点归类为与它距离最近的中心点所在的种类，则1000位用户会被分别分入这10类中，重新计算每个类别中心，用更新后的类别中心再对用户的数据点进行聚类，直到没有任何数据点会随着类别中心的微调变到另一个集合内，至此，输出1000位用户分别属于的类别以及每个类别的类别中心，其中，每个类别作为一个用户簇，每个类别的类别中心用以表示用户的聚类特征，还可以对类别中心的数值进行抽象，概括出用户的聚类特征。

还可以采用其他与K-means算法达到相同或相似技术效果的聚类算法，具体此处对聚类算法的种类不做限定。

305、将目标用户的目标负载数据输入至目标预测模型，以使目标预测模型根据目标用户的聚类特征以及目标对应关系得到预测负载数据。

将目标用户的目标负载数据输入至目标预测模型，以使目标预测模型根据目标用户的聚类特征以及目标对应关系得到预测负载数据。其中，目标预测模型由目标用户的历史目标负载数据和聚类特征进行训练得到，目标预测模型保存有目标负载数据转换至预测负载数据的目标对应关系。由于本技术方案重点在于通过卷积自编码器实现对负载数据的降维，并进行K-means聚类，作为后续负载数据预测的数据预处理步骤，所以本实施例对于负载数据的预测不做详细阐述。具体地，负载数据预测可以通过循环神经网络模型或者长短时记忆网络LSTM模型进行预测，具体此处不再展开阐述。

本实施例中，不仅能通过预先训练的目标自编码器对目标用户的初始负载数据进行降维，得到经过降维后的目标用户的目标负载数据，从而解决维度灾难问题。还可以对降维后的目标用户的目标负载数据进行聚类，并根据聚类对目标用户的用电数据进行预测，且具有良好的预测效果，准确率较高。

下面对本申请实施例提供的数据处理装置进行描述，请参阅图4，本申请实施例提供的数据处理装置的一种实施方式包括：

获取单元401，用于获取目标用户的初始负载数据，初始负载数据包括初始维数的负载数据；

获取单元401，还用于获取由多个训练样本训练得到的目标自编码器，其中，目标自编码器包括由N个卷积层和M个池化层构成的编码器；每个训练样本包括初始维数的历史负载数据和目标维数的历史负载数据，且初始维数大于目标维数，目标自编码器保存有初始维数降维至目标维度的降维规则；

输入单元402，用于将初始负载数据输入至目标自编码器，以使目标自编码器根据降维规则将初始维数的负载数据降维为目标维数的负载数据。

可选的，目标自编码器包括由2个卷积层和2个池化层构成的编码器以及由2个卷积层和2个池化层构成的解码器，其中，编码器的第一卷积层卷积核长度为5，第一池化层步长为5；编码器的第二卷积层卷积核长度为4，第一池化层步长为4；解码器的第一卷积层卷积核长度为4，第一池化层步长为4；解码器的第一卷积层卷积核长度为5，第一池化层步长为5。

可选的，数据处理装置还包括：

归一化单元403，用于对初始负载数据进行归一化处理；

对初始负载数据进行归一化处理，具体包括：

确定最大的初始负载数据与最小的初始负载数据的差值；

若差值等于0,则将预设归一化参数设置为1；

若差值不等于0，则将预设归一化参数设置为差值；

针对初始负载数据中的每个负载数据，根据公式x'＝(x-x_min)/d计算负载数据归一化后的负载数据；其中x为负载数据，x'为归一化后的负载数据，d为预设归一化参数。

可选的，数据处理装置还包括：

聚类单元404，用于对多个目标用户的目标负载数据进行聚类，得到每个目标用户的聚类特征；

可选的，数据处理装置还包括：

预测单元405，用于将目标用户的目标负载数据输入至目标预测模型，以使目标预测模型根据目标用户的聚类特征以及目标对应关系得到预测负载数据；其中，目标预测模型由目标用户的历史目标负载数据和聚类特征进行训练得到，目标预测模型保存有目标负载数据转换至预测负载数据的对应关系。

图5是本申请实施例提供的数据处理设备结构示意图，该数据处理设备500可以包括一个或一个以上中央处理器(central processing units，CPU)501和存储器505，该存储器505中存储有一个或一个以上的应用程序或数据。

其中，存储器505可以是易失性存储或持久存储。存储在存储器505的程序可以包括一个或一个以上模块，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器501可以设置为与存储器505通信，在数据处理设备500上执行存储器505中的一系列指令操作。

数据处理设备500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等。

该中央处理器501可以执行前述图2至图3所示实施例中数据处理设备所执行的操作，具体此处不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，所述目标自编码器包括由2个卷积层和2个池化层构成的编码器以及由2个卷积层和2个池化层构成的解码器，其中，所述编码器的第一卷积层卷积核长度为5，第一池化层步长为5；所述编码器的第二卷积层卷积核长度为4，第一池化层步长为4；所述解码器的第一卷积层卷积核长度为4，第一池化层步长为4；所述解码器的第一卷积层卷积核长度为5，第一池化层步长为5。

3.根据权利要求1所述的数据处理方法，其特征在于，在所述将所述初始负载数据输入至所述目标自编码器之前，所述方法还包括：

对所述初始负载数据进行归一化处理；

所述对所述初始负载数据进行归一化处理，具体包括：

若所述差值等于0,则将预设归一化参数设置为1；

4.根据权利要求1至3中任一项所述的数据处理方法，其特征在于，在所述将所述初始负载数据输入至所述目标自编码器，以使所述目标自编码器根据所述降维规则将所述初始维数的负载数据降维为所述目标维数的负载数据之后，所述方法还包括：

5.根据权利要求4所述的数据处理方法，其特征在于，在对多个所述目标用户的目标负载数据进行聚类，得到每个所述目标用户的聚类特征之后，所述方法还包括：

6.一种数据处理装置，其特征在于，包括：

7.根据权利要求6所述的数据处理装置，其特征在于，所述目标自编码器包括由2个卷积层和2个池化层构成的编码器以及由2个卷积层和2个池化层构成的解码器，其中，所述编码器的第一卷积层卷积核长度为5，第一池化层步长为5；所述编码器的第二卷积层卷积核长度为4，第一池化层步长为4；所述解码器的第一卷积层卷积核长度为4，第一池化层步长为4；所述解码器的第一卷积层卷积核长度为5，第一池化层步长为5。

8.根据权利要求6至7中任一项所述的数据处理装置，其特征在于，所述数据处理装置还包括：

9.一种数据处理设备，其特征在于，包括：

中央处理器，存储器以及输入输出接口；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行权利要求1至5中任意一项所述的方法。

10.一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至5中任意一项所述的方法。