CN116910506A

CN116910506A - 一种基于时空网络变分自编码器算法的负荷降维聚类的方法

Info

Publication number: CN116910506A
Application number: CN202310727329.7A
Authority: CN
Inventors: 陆绮荣; 王泽鑫
Original assignee: Guilin University of Technology
Current assignee: Guilin University of Technology
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-10-20

Abstract

针对负荷聚类问题，目前大多是直接聚类的方式，在面临如今数据量和数据维度激增的情况时，并不能很好的进行有效的聚类。我们通过长短期记忆网络和卷积网络组成的时空变分自编码器进行潜在特征提取，针对变分自编码器降维数据在聚类方面的不足，构建网络分类器，使用sigmoid函数初步分类后通过联合误差优化模型。与传统算法和现有降维算法相比，时空网络变分自编码器模型能够更好的提取潜在特征，降维的数据，更加适合在下游的聚类算法的使用。其次，所获取的低维数据，特征更加明显，在类间更加远离，内类更加紧密，在聚类指标上变现效果也更加好。

Description

一种基于时空网络变分自编码器算法的负荷降维聚类的方法

技术领域

本发明是基于传统变分自编码器算法，提供一种针对高维负荷数据降维的方法。

背景技术

降维的一个主要目的就是防止过拟合，维度越低，模型的假设空间越简单。降维还有以下好处：减少冗余特征或噪声数据；计算量更小，训练速度更快；数据存储所占空间（内存）减少；若将维度降为二维或三维，则方便可视化。降维算法是得到少量特征，这些特征既可能是原始数据中的特征，也可能是新构建的特征，从而尽可能保留原始特征中的重要信息。特征选择也可以起到降维的作用。降维算法可以分为传统的机器学降维算法如PCA、LDA等，随着神经网络的兴起也有目前的神经网络降维如编码器等。相较于传统的机器学习，神经网络降维更能够应对庞大的数据量以及更高维的数据，并且其更能提取非线性特征。

发明内容

本发明所要解决的技术问题：解决传统降维算法提取潜在特征困难潜在特征表征不清晰等问题，同时因为编码降维数据并不适用于下游任务，通过本发明可以使提取的潜在特征更适合下游聚类任务。

1. 一种基于时空网络变分自编码器算法的负荷降维聚类方法，其特征在于：

（1）变分自编码器算法属于神经网络降维算法，首先编码器将输入数据压缩到较低维度，然后解码器尝试使用较低维度的数据重新创建原始输入，换句话说，它试图反转编码过程。原始数据和输出数据的误差称为重构误差。通过训练网络来最小化数据集上的重构误差，网络学会利用数据中的自然结构，找到了一个有效地低维表示。

基于传统变分自编码器算法，提出了一种基于时空网络的变分自编码器降维再聚类算法，用于用户用电负荷的聚类。该算法能够较好的提取数据的潜在特征，通过讲高维数据降低到更低维度实现更好的聚类。

该改进变分自编码器算法两项贡献如下呈现。

1）基于传统变分自编码器，提出使用时空网络替换全连接层，通过长短期记忆网络和卷积网络，提高数据时间和空间的提取能力。

2）针对降维数据不适用与下游的聚类算法，提出针对隐变量数据先分类，通过联合误差优化的方法，使提取的潜在特征数据更具有聚类的效果。

（2）变分自编码器模型。输入数据x已知，通过编码器利用隐变量z表征x的分布通过优化参数使二者尽可能相似。但由于真实的后验分布并不好直接求，于是引入新分布q(z|x)来逼近p(z|x)，通过KL（Kullback-Leibler）散度来逼近两者。

重构项在于尽可能高效的解决编码解码问题，其通过使编码器返回的分布接近标准正态分布的形式来构建隐空间。通过使用KL散度来度量分布之间的相似性，将KL散度作为深度学习的优化目标，则损失值越小，两分布越接近。其优化优化目标函数如下。

（1）

变分推断的关键问题是需要似然性和先验共轭，以便可以对大多数问题进行合理的优化，这样会限制算法的适用性，并且变分自编码器存在后验崩塌等问题,影响了聚类的结果。

（3）基于时空的变分自编码器模型。基于时空网络的变分自编码器解决VAE在提取特征应对下游聚类任务出现的问题。在VAE编码之后，使用神经网络构建一个初步聚类过程，通过softmax构建一个分类器，对编码特征进行一次初步的分类。

为了提取适应后续聚类任务的隐藏变量，假设z为编码向量，通过初步的分类任务实现分类得到离散变量y。那么将上述KL散度中隐变量z替换为(z,y)，得到如下式。

（2）

其中是经验分布，为了求解上式，现假设p(z,y|x)=p(y|z)p(z|x)，q(x|z,y)= q(x|z)，q(z,y)=q(z|y)q(y)。得到如下式子。

（3）

在VAE的假设基础上，假设p(z|x)的均值和方差分别为μ(x)和σ²(x)以及q(x|z)的均值和方差为G(z)和常数，并且q(z|y)假设均值为μ_y，方差为1的正态分布。其余假q(y)等设为均匀分布，p(y|z)为对隐变量的分类器，使用softmax拟合，则损失函数表示为。

（4）

-logq(x|z)表示重构误差，其越小表示重构出的数据与原数据越相近，则保留的信息更加完整。起到聚类重要，能够将生成的潜在变量z对应到其的正态分布那一类。

（5）

KL(p(y|z)||q(y))为了保证每个类别尽量的分布合理，不会发生坍缩，使类别混合到一起。为下游的聚类任务提供更加适合的潜在特征数据。

变分自编码器和自编码器一样，都是采用全连接层连接在一起，并不能很好的提取数据的特征。而采用LSTM-CNN网络的方式替代全连接层可以较好的提取时间序列的长时序特征，更好的提取出潜在特征降低数据维度。

此处假设经过处理和归一化后的输入数据是，其通过卷积网络编码过程为。

（6）

表示卷积，b_i表示偏置，σ为激活函数，w_i为权重。经过卷积网络后得到特征y_i，再输入到LSTM网络中，对其长时间序列进行特征提取，得到降维后的潜在表征序列h_i。再经过与前诉对称的网络，重构后得到的序列，重构损失L_c则表示如下试。

（7）

最后，通过梯度下降算法和反向传播过程，将前面所提的损失函数L不断最小化实现编码器的构建过程。

网络分为编码和解码的过程，两部分呈对称状。整个网络使用Adam优化器，优化器学利率为0.001，设置训练批次为128，迭代次数为500。网络结构参数如表1所示。

表1 时空网络变分自编码器网络图

网络层	输入维度	卷积核大小	卷积核数量	输出维度
					Input	1×96×1	/	/	1×96×1
Conv2d	1×96×1	1×3	16	1×96×16
					Maxpool	1×96×16	1×2	/	1×48×16
Conv2d	1×48×16	1×3	32	1×48×32
					Maxpool	1×48×32	1×2	/	1×24×32
Flatten	1×24×32	/	/	768
					RepeatVector	768	/	/	1×768
LSTM	1×768	/	/	1×320
					LSTM	1×320	/	/	1×156
Droupt	1×156	/	/	1×156
					Embedding	156	/	/	12
RepeatVector	12	/	/	1×12
					LSTM	1×12	/	/	1×156
LSTM	1×156	/	/	1×320
					Dense	1×320	/	/	1×768
Reshape	1×768	/	/	1×24×32
					UpSampling	1×24×32	1×2	/	1×48×32
Conv2dTrampose	1×48×32	1×3	16	1×48×16
					UpSampling	1×48×16	1×2	/	1×96×16
Conv2dTrampose	1×96×16	1×3	1	1×96×1

编码器两层一维卷积，输入数据维度是96×1通过卷积核数量分为16和32大小为3的两层卷积，卷积层后跟池化层，输出数据进入一层长短期记忆网络层，网络层后使用Droupt层防止网络过拟合。然后通过Flatten层将数据打平成1维序列，经过Dense层降成维度为12的均值和方差，再针对均值和方差通过重参数化技巧的方式，获得中间隐藏变量z。

解码器的过程与编码器过程类似，通过几层网络通过解码重构出负荷数据，再通过误差函数进行优化。

分类层使用两个全连接层，第二层使用sofimax函数，将输出定为3类。

此时，在初步聚类后的编码器降维的数据，具有明显的类别特征，其在后续的聚类任务中能够较好的表现。

Minibatchkmeans由于其提出使用小批量训练的方式，在不损失聚类精度的前提下，更适合于大量数据的聚类，时间快且效果好。选取Minibatchkmeans作为本文下游聚类任务的算法。

附图说明

图1为本发明实例时空网络变分自编码器算法的负荷降维流程图；

图2为本发明对时空网络变分自编码器具体用户进行降维测试图；

图3为本发明选取聚类算法所需的聚类数测试图；

图4为本发明使用聚类算法用户进行聚类测试图；

具体实施方式

实施例：

以UCI（University of California Irvine）数据集中部分葡萄牙实际用户用电量为样例。选择其中2013年370户每天96个用电数据经过处理后的3800条作为接下来的分析数据。该数据每隔15分钟采集一次，每天一共采集96个数据点。

（1）如图1所示，先对原始图像进行预处理，包括原始数据的初步处理，剔除在20个以上采样点为0的情况或者整天采样点数值无变化的数据，这类情况采取直接删除的操作,对于，负荷序列异常值指在某一采样点的数值突然升高或降低过大，变化率过大的偏离序列趋势，进行异常数据的修正，然后再对数据进行归一化处理。

（2）在步骤1对数据进行了处理，然后根据下游聚类算法，选取所需的聚类数，根据本例数据，DBI值在k为2、3时，点取得较小的值，但是k为2时SSE还在急速下降，在k为3时，出现曲线的“肘部”，固选取3作为聚类k值得到聚类数k为3，如图2所示。

（3）在步骤2中根据测试样例，通过构建网络结构，联合误差优化网络参数，原始数据为96维，设置降维数据为12维，设置初始使用Adam优化器，优化器学利率为0.001，设置训练批次为128，迭代次数为500，根据步骤2，设置初始分器分类族为3，通过数据对网络进行学习，再提取出隐变量z，降维后可视化如图3所示。

（4）在步骤3中对生成了隐变量z，其是一组12维的数据。接下来，将对的数据集进行聚类，聚类结果，横坐标表示采样点一共96个，表示0到23:45，纵坐标表示归一化后的功率，聚类后得到3类曲线族如图4中a、b、c所示。根据前文所述，选取Minibatchkmeans作为聚类算法，聚类得到各族负荷曲线并得到聚类中心如图4a、b、c中颜色最深的部分，根据各类别的聚类中心，可以看出不同类别的用户的用电的规律和特征，三类曲线的中心表示如图4d所示。并且，本例数据在K-means、AE-Kmeans、VAE-Kmeans和C-VAE-Kmeans算法以及本文所使用的算法上进行实验，以DBI和SC作为指标下，得到对比效果如下表2所示。

表2 6种算法对比

模型	DBI	SC
			K-means	2.134	0.312
PCA+Kmeans	2.021	0.323
			AE+Kmeans	1.934	0.341
VAE+Kmeans	1.821	0.366
			C-VAE+Kmeans	1.634	0.388
本模型	1.224	0.453

看出通过降维的方式，明显提升了聚类的效果，相比于几种自编码编码算法以及传统的直接聚类算法，在两个指标上都得到了较高的提高。

基于上述分析，可得出时空网络变分自编码器具有以下优势：

1）通过加入时空网络并通过深度学习，算法对于对于非线性数据的学习能力和特征的提取能力更加强。

2）在面对高维数据时，神经网络对于更深层次的数据特征的提取能力更强，降维数据更具有原始数的特征。

3）通过时空网络变分自编码器提取的数据，在后续聚类中，类内的距离更加的紧密，类间的距离更加远离。

Claims

1.一种基于时空网络变分自编码器算法的负荷降维聚类方法，其特征在于：

（1）变分自编码器算法属于神经网络降维算法，首先编码器将输入数据压缩到较低维度，然后解码器尝试使用较低维度的数据重新创建原始输入，换句话说，它试图反转编码过程；原始数据和输出数据的误差称为重构误差；通过训练网络来最小化数据集上的重构误差，网络学会利用数据中的自然结构，找到了一个有效地低维表示；

基于传统变分自编码器算法，提出了一种基于时空网络的变分自编码器降维再聚类算法，用于用户用电负荷的聚类；该算法能够较好的提取数据的潜在特征，通过讲高维数据降低到更低维度实现更好的聚类；

该改进变分自编码器算法两项贡献如下呈现：

1）基于传统变分自编码器，提出使用时空网络替换全连接层，通过长短期记忆网络和卷积网络，提高数据时间和空间的提取能力；

2）针对降维数据不适用与下游的聚类算法，提出针对隐变量数据先分类，通过联合误差优化的方法，使提取的潜在特征数据更具有聚类的效果；

（2）变分自编码器模型；输入数据x已知，通过编码器利用隐变量z表征x的分布通过优化参数使二者尽可能相似；但由于真实的后验分布并不好直接求，于是引入新分布q(z|x)来逼近p(z|x)，通过KL（Kullback-Leibler）散度来逼近两者；

重构项在于尽可能高效的解决编码解码问题，其通过使编码器返回的分布接近标准正态分布的形式来构建隐空间；通过使用KL散度来度量分布之间的相似性，将KL散度作为深度学习的优化目标，则损失值越小，两分布越接近；其优化优化目标函数如下；

（1）

变分推断的关键问题是需要似然性和先验共轭，以便可以对大多数问题进行合理的优化，这样会限制算法的适用性，并且变分自编码器存在后验崩塌等问题,影响了聚类的结果；

（3）基于时空的变分自编码器模型；基于时空网络的变分自编码器解决VAE在提取特征应对下游聚类任务出现的问题；在VAE编码之后，使用神经网络构建一个初步聚类过程，通过softmax构建一个分类器，对编码特征进行一次初步的分类；

为了提取适应后续聚类任务的隐藏变量，假设z为编码向量，通过初步的分类任务实现分类得到离散变量y；那么将上述KL散度中隐变量z替换为(z,y)，得到如下式；

（2）

其中是经验分布，为了求解上式，现假设p(z,y|x)=p(y|z)p(z|x)，q(x|z,y)=q(x|z)，q(z,y)=q(z|y)q(y)；得到如下式子；

（3）

在VAE的假设基础上，假设p(z|x)的均值和方差分别为μ(x)和σ²(x)以及q(x|z)的均值和方差为G(z)和常数，并且q(z|y)假设均值为μ_y，方差为1的正态分布；其余假q(y)等设为均匀分布，p(y|z)为对隐变量的分类器，使用softmax拟合，则损失函数表示为；

（4）

-logq(x|z)表示重构误差，其越小表示重构出的数据与原数据越相近，则保留的信息更加完整；

起到聚类重要，能够将生成的潜在变量z对应到其的正态分布那一类；

（5）

KL(p(y|z)||q(y))为了保证每个类别尽量的分布合理，不会发生坍缩，使类别混合到一起；为下游的聚类任务提供更加适合的潜在特征数据；

变分自编码器和自编码器一样，都是采用全连接层连接在一起，并不能很好的提取数据的特征；而采用LSTM-CNN网络的方式替代全连接层可以较好的提取时间序列的长时序特征，更好的提取出潜在特征降低数据维度；

此处假设经过处理和归一化后的输入数据是，其通过卷积网络编码过程为；

（6）

表示卷积，b_i表示偏置，σ为激活函数，w_i为权重；经过卷积网络后得到特征y_i，再输入到LSTM网络中，对其长时间序列进行特征提取，得到降维后的潜在表征序列h_i；再经过与前诉对称的网络，重构后得到的序列/>，重构损失L_c则表示如下试；

（7）

最后，通过梯度下降算法和反向传播过程，将前面所提的损失函数L不断最小化实现编码器的构建过程；

网络分为编码和解码的过程，两部分呈对称状；整个网络使用Adam优化器，优化器学利率为0.001，设置训练批次为128，迭代次数为500；具体网络结构参数如表1所示；

表1 时空网络变分自编码器网络图

网络层输入维度卷积核大小卷积核数量输出维度 Input 1×96×1 / / 1×96×1 Conv2d 1×96×1 1×3 16 1×96×16 Maxpool 1×96×16 1×2 / 1×48×16 Conv2d 1×48×16 1×3 32 1×48×32 Maxpool 1×48×32 1×2 / 1×24×32 Flatten 1×24×32 / / 768 RepeatVector 768 / / 1×768 LSTM 1×768 / / 1×320 LSTM 1×320 / / 1×156 Droupt 1×156 / / 1×156 Embedding 156 / / 12 RepeatVector 12 / / 1×12 LSTM 1×12 / / 1×156 LSTM 1×156 / / 1×320 Dense 1×320 / / 1×768 Reshape 1×768 / / 1×24×32 UpSampling 1×24×32 1×2 / 1×48×32 Conv2dTrampose 1×48×32 1×3 16 1×48×16 UpSampling 1×48×16 1×2 / 1×96×16 Conv2dTrampose 1×96×16 1×3 1 1×96×1

编码器两层一维卷积，输入数据维度是96×1通过卷积核数量分为16和32大小为3的两层卷积，卷积层后跟池化层，输出数据进入一层长短期记忆网络层，网络层后使用Droupt层防止网络过拟合；然后通过Flatten层将数据打平成1维序列，经过Dense层降成维度为12的均值和方差，再针对均值和方差通过重参数化技巧的方式，获得中间隐藏变量z；

解码器的过程与编码器过程类似，通过几层网络通过解码重构出负荷数据，再通过误差函数进行优化；分类层使用两个全连接层，第二层使用sofimax函数，将输出定为3类；