CN112348068A

CN112348068A - 一种基于降噪编码器和注意力机制的时序数据聚类方法

Info

Publication number: CN112348068A
Application number: CN202011172267.0A
Authority: CN
Inventors: 何洁月; 徐周
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-02-09

Abstract

本发明提供一种基于降噪编码器和注意力机制的时序数据聚类方法，以无监督的方式实现对无标签数据的聚类，依次包括以下步骤：步骤1：在原始的时间序列中加入噪声数据；步骤2：将注意力机制加入到LSTM中；步骤3：采用K‑means方法初始化模型；步骤4：采用Adam优化方法联合优化降噪自编码器的重构损失与KL散度损失；迭代优化编码器重构损失和聚类损失以得到训练的最佳模型。通过基于深度降噪自编码器，解决了时序数据聚类对噪声敏感的问题，通过引入注意力机制提高了聚类效果。

Description

一种基于降噪编码器和注意力机制的时序数据聚类方法

技术领域

本发明属于_数据挖掘技术领域，涉及一种时间序列聚类方法，具体涉及一种基于降噪编码器和注意力机制的时序数据聚类技术。

背景技术

时间序列聚类研究是数据挖掘与机器学习领域中重要的研究内容，是挖掘出时序数据中隐藏的模式，将时间序列划分成不同的类别的研究。而时间序列通常是高维的，因此时间序列的聚类研究充满了挑战性。近年来，深度学习促进了自然语言处理、图像处理领域等领域的发展，可以从高维数据中提取出低维的特征向量，而时间序列研究中正需要这种低维的特征表示。但是，现有的基于深度学习的时间序列聚类方法，大多是基于深度自编码器框架实现的，这种模型对噪声数据比较敏感。而且，现有的时序聚类算法存在注意力分散的问题，因为在特征提取过程中忽略了不同时刻的特征的权重是不同的。总之，现有的时间序列聚类方法无法很好地提取出具有鲁棒性和分辨性的时序特征，这样极大影响了后续的聚类准确性。针对上述存在的问题，本发明提出了一种新颖基于降噪编码器和注意力机制的时序数据聚类方法。

发明内容

为解决上述问题，本发明公开了提供基于降噪自编码器和注意力机制的时序数据聚类方法，以提升时序数据聚类的性能。

本发明所述的基于降噪自编码器和注意力机制的时序数据聚类方法，依次包括以下顺序执行的步骤：

(1)给定时间序列数据集D，生成对应的加入噪声的时间序列

(2)采用K-means初始化模型并得到初始聚类簇心；

(3)根据步骤(1)提取出时间序列的低维特征信息；

(4)采用COR距离衡量方法计算输入的时间序列与各个聚类簇心的距离；

(5)迭代优化目标函数；

其中进一步地，所述步骤(2)中，使用K-means方法之前需要得到聚类数量K，采用手肘法得到K值。

进一步地，所述步骤(4)的详细内容为：距离衡量方法可以根据应用需求进行选择，例如欧式距离、马氏距离等，COR在UCR数据集上表现优异。其中采用COR距离衡量方法计算输入的时间序列与步骤(2)得到的聚类簇心之间的聚类，然后将输入的时间序列分配到距离最小的聚类中。

进一步的，所述步骤(5)的详细内容为：采用Adam优化方法，联合优化降噪自编码器损失函数L_{rechonstruction}以及聚类损失函数L_KL。

有益效果：

本发明提供一种基于降噪编码器和注意力机制的时序数据聚类方法，以无监督的方式实现对无标签数据的聚类，其包含以下优点：

(1)针对普通的自编码器容易受到噪声数据影响的问题，本专利使用降噪自编码器，向输入的训练数据加入噪声，并使自编码器学会去除这种噪声来获得没有被噪声污染过的真实输入。降噪自编码模型避免了普通自编码模型可能会学习得到无编码功能的恒等函数和需要样本的个数大于样本的维数的限制，尝试通过最小化降噪重构误差，从含随机噪声的数据中重构真实的原始输入，从而使得编码获得的特征更具鲁棒性。

(2)通过将注意力机制与编码器中的LSTM模型融合，使得LSTM具有注意力功能，没有额外增加网络层，从而实现轻量级的注意力机制模型。而且引入非线性函数Gelu，以提取出时间序列的非线性特征，使得提取出的低维特征更容易分类，提高了聚类准确性。

附图说明

图1本发明中DTSC框架图；

图2为本发明中DATC框架图；

图3为DTSC算法的聚类结果图；

图4为DATC的聚类结果图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

下文中所涉及符号和参数的定义如表1：

表1符号说明

定义1(d())：给定一个数据集x，d()为度量函数，x与聚类簇心ω之间的距离计算如下：

其中ρ是特征变量z与k个簇心ω_i(i＝1...,k)的皮尔逊系数，其中，

cov是协方差。

定义2(L_{rechonstruction})：解码器的输出与原始输入的误差，采用最小均方误差来衡量重构误差，损失函数L_{rechonstruction}如下：

定义3(L_KL)：本文采用KL散度来衡量聚类损失，聚类损失函数L_KL如下：

其中n是样本个数，k是聚类类别数。

以下所有的算法均在Tensorflow平台上实现：

(1)基于降噪自编码器的时序聚类算法(DTSC)

现有的DTSC中，DTSC模型由三个部分组构成：编码器、解码器、时序聚类层。

其整体框架图如图1所示。编码器主要包含三层网络结构，作用是提取出时间序列特征，然后输送到解码器和聚类层。其中，编码器第一层是1D CNN，作用是降低时间序列的维度且提取其短时特征，后接Gelu[34]激活函数以提取出时间序列的非线性特征。第二层与第三层为了解决时间序列存在的时间维度偏差的问题，双向LSTM可以提取出时间序列前向和反向两个时间维度的特征。解码器部分是编码器的逆过程，包含两层网络结构，通过反卷积与上采样技术将编码器提取出的低维特征进行重构，然后根据重构损失优化编码器能力；时序聚类层是对编码器输出的低维特征进行聚类分配，采用COR距离衡量方法以及 KL散度[36]不断优化聚类分配效果。最终联合优化模型的重构损失MSE与聚类损失KL散度，从而实现端到端模型优化效果。本发明在DTSC中引入Batch Normalization(BN)，可以加快模型收敛以及训练速度，并且在一定程度上提高模型精度。

(2)基于元素注意力机制的时序聚类算法(DATC)

在DTSC的基础上，引入元素注意力机制，提出了一种基于元素注意力机制和降噪自编码器的时间序列聚类模型(Time Series Clustering Based On Denoise Encoderand Attention，DATC)，框架图如图2所示，使得网络学会对应输入序列中的权重分配问题，从而特征提取更加准确，可以提高聚类的准确性。

实施例1：

本实施例是Linux平台实现，采用Python语言编写，运行Tensorflow框架上，硬件是英伟达GTX 1080Ti GPU处理器。软件基本配置如下表1：

表1软件配置信息

如表2至表5所示，实验部分主要从以下三个指标来评价DTSC、DATC两个算法：平均错误率MER、RI、NMI，此外，还进行了引入降噪自编码器以及注意力机制的有效性实验，实验中的参数默认设置如下表2所示。

表2实验默认参数配置

在公开的时序数据集进行分析：UCR数据集，包含36个子时序数据集，每个数据集的类别以及样本数量均不同。

实验1采用平均错误率评价各个算法，如表3所所示。

表3 UCR混合数据集实验结果

实验2，采用RI评价各个算法的聚类效果，实验结果如表4所示。

表4 UCR数据上的RI、NMI实验结果

实验3，验证引入降噪自编码器的有效性实验，实验结果如表5所示。

表5引入降噪自编码器有效性实验

实验4，验证引入注意力机制的的有效性实验，实验结果如表6所示。

表6引入元素注意力机制有效性实验

实验5，DTSC以及DATC模型聚类过程可视化实验，分别如图4所示。观察图可知，随着迭代轮次的增加，特征相似的时间序列逐渐被聚类到同一类别中。

通过上述实施例1可以看出，本发明对于给定的数据集，基于深度神经网络的时间序列聚类算法在输入的训练数据随机去掉部分时间序列中某个时刻的数值，使得自编码器学会去除这种噪声来获得真实输入，因此编码器将学习提取出最重要的特征。而且将注意力机制与编码器中的LSTM模型融合，使得LSTM 具备注意力功能。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种基于降噪编码器和注意力机制的时序数据聚类方法，其特征在于：依次包括以下顺序执行的步骤：基于深度神经网络的时序数据聚类方法，其依次包括以下顺序执行的步骤：

(1)给定输入的时序数据数据集D，在D中加入噪声数据；生成对应的加入噪声的时间序列

(2)采用K-means方法初始化模型并得到初始的聚类簇心；

(3)计算输入时间序列与聚类簇心的距离；

(4)采用Adam优化方法联合优化降噪自编码器的重构损失与KL散度损失。

2.根据权利要求1所述的基于降噪自编码器和注意力机制的时序数据聚类方法，其特征在于：所述步骤(2)中，使用K-means方法之前需要得到聚类数量K，采用手肘法得到K值。

3.根据权利要求1所述的基于降噪自编码器和注意力机制的时序数据聚类方法，其特征在于：所述步骤(3)的详细内容为：采用COR距离衡量方法计算输入的时间序列与步骤(2)得到的聚类簇心之间的聚类，然后将输入的时间序列分配到距离最小的聚类中。

4.根据权利要求1所述的基于降噪自编码器和注意力机制的时序数据聚类方法，其特征在于：所述步骤(4)采用Adam优化方法，联合优化降噪自编码器损失函数L_{rechonstruction}以及聚类损失函数L_KL。