CN114358157A

CN114358157A - 一种基于时序数据LSTM特征的K-Shape聚类方法

Info

Publication number: CN114358157A
Application number: CN202111598917.2A
Authority: CN
Inventors: 王正宇; 王平平; 丁磊; 隆云飞; 杨鹏飞
Original assignee: Ustc Sinovate Software Co ltd
Current assignee: Ustc Sinovate Software Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-15

Abstract

本发明公开了一种基于时序数据LSTM特征的K‑Shape聚类方法，属于数据挖掘技术领域，包括以下步骤：S1：收集时间序列数据样本并预处理；S2：建立并训练长短期记忆模型，输出时序动态特征数据；S3：利用手肘法和轮廓法计算出聚类的最佳聚类K值；S4：建立K‑Shape聚类模型并输出结果。本发明使用LSTM模型获取时序数据的动态特征并进行K‑Shape聚类能更好的解决如K‑均值聚类等一般聚类在对复杂时序数据的聚类结果不明确的问题，并且得出时序数据的变化趋势聚类结果；同时利用LSTM在K‑Shape聚类之前提取数据的时序特征额外地增加了聚类结果的准确性，鲁棒性和泛用能力。

Description

一种基于时序数据LSTM特征的K-Shape聚类方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于时序数据LSTM特征的K-Shape聚类方法。

背景技术

随着工业互联网概念的提出与发展，日常工作生活上会产生大量的时间序列数据。这种时序数据往往是无标签的，难以直接加以利用或提取信息。因此，如何从海量的时序数据中提取有效的信息成了一个相当重要的课题。

聚类是无监督学习的一个重要内容，旨在解决无标签的数据的分类问题，一般地，聚类算法将数据集划分到若干个彼此靠近但不同类或簇中，从而得到数据的统计信息。因为时序数据大多为无标签数据，所以使用聚类方法能够较好的提取数据信息并加以利用。

现有的聚类技术主要是K-均值聚类(K-Means Clustering)。K-均值聚类是以欧氏距离(Euclidean Distance)为距离函数的聚类方法，能反映对应相同时间点的数据之间的位置关系，但是容易受到数值上的离群点的干扰，不能用在不同长度的时序数据间，更无法体现时序数据的波峰、波谷、周期性等动态变化特征。

有些时序数据有很强的变化趋势相似性，但是因为时间序列数据具有时空上的复杂性，很难从直观的统计上提取和描述其动态特征的物理意义，传统的聚类并不能有效的处理这种相似性，而且没有经过特征提取的时序数据离群点更容易干扰聚类结果。为了解决上述问题，提出一种基于时序数据LSTM特征的K-Shape聚类方法。

发明内容

本发明所要解决的技术问题在于：如何解决现有算法存在的不足，提供了一种基于时序数据LSTM特征的K-Shape聚类方法，该方法能够很好地提取出时序数据的动态特征，并计算比较时序数据特征的动态变化趋势，进而加以聚类，能够显著的提升模型的聚类效果和鲁棒性。

本发明是通过以下技术方案解决上述技术问题的，本发明包括以下步骤：

S1：收集时间序列数据样本并进行预处理；

S2：构建长短期记忆网络并对其进行训练，获得时序特征提取模型，将步骤S1中得到的时序数据输入时序特征提取模型，得到对应时序数据id的时序特征数据并保存；

S3：计算步骤S2中时序特征数据的误差平方和轮廓系数，比较得出最佳聚类数K值；

S4：将时序特征数据和步骤S3中计算出的最佳聚类数K值带入K-Shape聚类算法，计算形状距离并迭代得出聚类结果。

更进一步地，所述步骤S1包括以下子步骤：

S11：获取时序数据，并将时序数据，数据时间信息，id序号写入建立好的数据库中；

S12：对时序数据进行读取和预处理，使用广义ESD假设检验出时序数据的异常大值和异常小值，并做标记；

S13：将标记好的异常值进行替换；

S14：将处理好的时序数据集保存。

更进一步地，在所述步骤S11中，采用CSV格式保存数据。

更进一步地，在所述步骤S13中，使用当前id时序数据的均值或者均值加减一个标准差进行替换。

更进一步地，当所述时序特征提取模型基于长短期记忆网络实现时，所述步骤S2包括以下子步骤：

S21：将处理好异常值的时序数据集进行最大最小归一化处理，计算公式为：

其中，x为单条时序数据，x_max为时序数据集的全局最大值，x_min为时序数据集的全局最小值；

S22：建立长短期记忆网络并训练，输入数据并提取出隐藏层的时序特征。

更进一步地，所述步骤S202具体包括以下子步骤：

S221：用以下公式表示长短期记忆网络：

i_t＝σ(W_iiX_t+b_ii+W_hih_t-1+b_hi)

f_t＝σ(W_ifX_t+b_if+W_hfh_t-1+b_hf)

g_t＝tanh(W_igX_t+b_ig+W_hgh_t-1+b_hg)

o_t＝σ(W_ioX_t+b_io+W_hoh_t-1+b_ho)

C_t＝f_t*C_t-1+i_t*g_t

h_t＝o_t*tanh(C_t)

其中，W和b分别是各项的系数和偏置，i_t是t时间点的输入门，f_t是t时间点遗忘因子，g_t是学习门输出的短期记忆，o_t是输出门，C_t是当前的细胞状态，h_t表示长短期记忆的输出；

S222：用部分时序数据作为训练集训练长短期记忆网络，并用其余时序数据进行验证，得到训练好的长短期记忆模型和参数；

S223：将整个时序数据集带入训练好的长短期记忆模型并提取时序特征数据集。

更进一步地，所述步骤S3包括以下子步骤：

S31：计算时序数据的误差平方和并得到K值，公式为：

其中，C_i为第i个簇，y为时序特征数据样本点，m_i为样本均值(质心)；

S32：计算时序数据的轮廓系数并得到最优K值，公式为：

其中，a(i)是样本i在A簇的簇内平均不相似度，b(i)为样本i和次优选簇B内各点的平均不相似度；

S33：误差平方和法和轮廓系数法的最优K值相同时，选取误差平方和法/轮廓系数法的最优K值，作为最佳聚类数K值。

更进一步地，在所述步骤S33中，如果两种方法的最优K值不同，则最佳聚类数K取值于误差平方和法和轮廓法中最优K值范围的交集。

更进一步地，所述步骤S4包括以下子步骤：

S41：将时序特征数据集进行Z-Score归一化处理，其公式为：

其中，x为输入的单条时序特征序列数据，μ为时序特征数据的平均数，σ为时序特征数据的标准差，z为输出；

S42：随机划分K个时序数据聚类质心，遍历计算质心数据

与其他数据

的形状距离SBD，计算公式为：

其中，

是归一化互相关系数，CC_w代表是交互相关测度，

和

分别是数据

和

的标准差；然后将SBD距离近的数据点分配到该质心所在的簇；对于每一个分配好的簇，计算簇中所有点的均值，然后将均值作为新的质心，重复该过程直到聚类结果收敛；保存聚类划分结果。

本发明相比现有技术具有以下优点：使用长短期记忆(LTSM)模型获取时序数据的动态特征并进行K-Shape聚类能更好的解决如K-均值聚类等一般聚类在对复杂时序数据的聚类结果不明确的问题，能有效的对时序数据的变化趋势进行聚类；K-Shape能解决K-均值聚类等一般聚类不能聚类不同长度的时序数据的问题；K-Shape还有缩放平移不变性(Scaling and Translation Invariances),均匀缩放不变性(Uniform ScalingInvariance)，缺失不变性(Occlusion Invariance)等数据处理优势特性；同时利用LSTM在K-Shape聚类之前提取数据的时序特征额外地增加了聚类结果的准确性，鲁棒性和泛用能力，值得被推广使用。

附图说明

图1是本发明实施例中基于时序数据LSTM特征的K-Shape聚类方法的流程示意图；

图2是本发明实施例中预处理前后的时序数据的示意图；

图3是本发明实施例中长短期记忆细胞的示意图；

图4是本发明实施例中供水数据LSTM特征的K-Shape聚类年化分类效果图；

图5是本发明实施例中供水数据LSTM特征的K-Shape聚类的第一类第二季度效果图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1～4所示，本实施例提供了一种基于时序数据LSTM特征的K-Shape聚类方法，时序数据为工商户供水大数据的时序数据，按照以下步骤进行：

步骤1：读取收集到的供水时序数据集D，在本实施例中，读取后的时序数据表示为

同时，

此处的

为单条时序数据，故总时序数据集的维度为m*n。

步骤2：对读取后的时序数据进行预处理。

在本实施例中，对时序数据中的异常值进行处理，建立广义ESD测试检验来检验数据的异常值。

广义ESD检测(Generalized ESD test)可以定义为如下假设检验，H0：这个数据集中没有异常值，H1：这个数据集中有不多于r个异常值；检验统计量(test statistics)为

其中σ是样本标准差，

是样本平均数。

使用广义ESD检测的目的是移除当前样本中的

值，迭代计算直到移除出r个这样的异常值，每次的检验统计量r为R₁,R₂,...,R_r。之后，计算r的临界值(criticalvalue):

其中，t_p,k是学生t分布在k自由度下的100p百分位数，其中，

i的取值是使R_i>λ_i最大的i值，在本实施例中，为了降低计算的复杂性和结果的有效性确定一个迭代上限，将最大值i选定为固定值，i选取

其中m为时序数据维度。

经过假设检验后的数据异常值用别的值替代。假设检验出的异常大值用时序数据

的均值与一个标准差的和，即

替代；假设检验出的异常小值用时序数据

的均值与一个标准差的差，即

替代；同时，替代用值不小于最小值或大于最大值，且不能为负值，否则用均值替代。

替代结果如图2所示，浅色线为修正后的供水时序数据，深色线为修正前的供水时序数据。可以发现，供水时序数据的异常大值和异常小值(此处为异常零值)被修正为正常值。

为方便长短期记忆模型的运算进一步处理时序数据，使用最大最小归一化(Min-Max Normalization)处理，计算公式为：

步骤3：建立长短期记忆网络，输入数据并提取出隐藏层的时序特征。

在本实施例中，步骤3包括以下子步骤：

步骤3.1：长短期记忆网络的计算方法可以用以下公式表示：

i_t＝σ(W_iiX_t+b_ii+W_hih_t-1+b_hi) (1)

f_t＝σ(W_ifX_t+b_if+W_hfh_t-1+b_hf) (2)

g_t＝tanh(W_igX_t+b_ig+W_hgh_t-1+b_hg) (3)

o_t＝σ(W_ioX_t+b_io+W_hoh_t-1+b_ho) (4)

C_t＝f_t*C_t-1+i_t*g_t (5)

h_t＝o_t*tanh(C_t) (6)

在公式(1)中，i_t是t时间点的输入门，σ是sigmoid函数，

其值域为(0,1)，W_ii和W_hi是参数矩阵，X_t是t时间点的输入，h_t-1是t-1时间点的隐层，b_ii和b_hi是偏置项。因为输入门信息是通过sigmoid函数算出，所以输入门信息的值域为(0,1)，取值0代表细胞状态不会因新的输入而更新，1代表细胞状态的完全更新。

在公式(2)中，f_t是t时间点的遗忘因子，σ是sigmoid函数，W_if和W_hf是参数矩阵，b_if和b_hf是偏置项。因为遗忘因子是通过sigmoid函数算出，所以遗忘因子的值域为(0,1)，取值0代表细胞状态的完全遗忘，1代表细胞状态的完全记忆。

在公式(3)中，g_t是学习门输出的短期记忆，tanh是双曲正切函数，定义是

W_ig和W_hg是参数矩阵，X_t是t时间点的输入，h_t-1是t-1时间点的隐层，b_ig和b_hg是偏置项。

在公式(4)中，o_t是输出门，σ是sigmoid函数，W_io和W_ho是参数矩阵，b_io和b_ho是偏置项。输出门o_t的值域为(0,1)，取值0代表细胞状态不会输出，1代表输出全部细胞状态。

在公式(5)中，是t时间点的细胞状态的更新，其中C_t是当前的细胞状态，f_t是t时间点的遗忘因子，C_t-1是t-1时间点的细胞状态，i_t是t时间点的输入门信息，g_t是t时间点学习门输出的短期记忆。

在公式(6)中，h_t表示长短期记忆的输出，输出的结果由细胞状态C_t和输出门o_t决定。

LSTM的细胞示意图如图3所示。

步骤3.2：基于当前的供水时序数据集进行长短期记忆的模型训练，选择损失函数收敛的模型参数和权重，输出并保存当前模型。

具体的：

步骤3.21：设置长短期记忆模型的Time Step(时间步长)选择为7，即以前7天数据为x去预测第8天数据y；

步骤3.22：将输入数据序列化；

步骤3.23：添加长短期记忆层，可选的，模型优化器为Adam，损失函数选择均方误差(MSE)；

步骤3.24：为了防止过拟合并增加模型鲁棒性，添加Dropout层，随机删除0.2的神经网络数据；

步骤3.25：输出的数据特征维度持等同于输入长度365。

步骤3.3：将供水时序数据集作为输入，使用训练好的长短期记忆模型，遍历得到时序数据的LSTM特征向量，保存为供水时序特征数据集。

在步骤3.3中，维持时序数据特征和时序数据相同的数据维度,此维度可为数据的总时间单位数。

步骤3.4：提取出的供水时序特征数据集可以表示为，

其中，

是单条时序特征数据。

步骤4：对于聚类数量的最佳聚类K值选取，有误差平方和法(Sum of SquareError,SSE)和轮廓系数法(Silhouette Method)。

在本实施例中，使用供水时序数据的动态特征数据结合上述两种方法得到最佳聚类K值。

在本实施例中，步骤S4具体包括以下子步骤：

步骤4.1：误差平方和法又称手肘法，其公式为：

其中，C_i为第i个簇，y为时序特征数据样本点，m_i为样本均值(质心)。误差平方和统计了在聚类数量为K时的样本聚类误差。一般的，时序特征数据的最优K值为k^*情况时，若K<k^*时，K增大会降低聚类误差，增大簇内聚合程度，此时SSE快速降低，当K≥k^*时，K增大簇内聚合程度回报降低，此时SSE的降幅趋于平缓。SSE随着K的变化趋势是一个手肘的图形，肘部对应着最优K值。

步骤4.2：利用时序数据建立轮廓系数法模型：轮廓系数法的公式为

假设其时序特征数据i被划分到簇A，一般的，a(i)是样本i在A簇的簇内平均不相似度，b(i)为样本i和次优选簇B内各点的平均不相似度。所以，轮廓系数s(i)的值域为[-1,1]，一般地，s(i)＝-1说明样本i应当划分在簇B中；s(i)＝0说明样本i在簇A和簇B的交界上，可以随意划分；s(i)＝1说明样本i划分为最优划分。轮廓系数法确定的最优K值为平均轮廓系数较大的K值。

选取手肘法和轮廓系数法的最优K值作为最佳聚类K值，考虑到两种方法可能会出现最优K值不同的情况，此处K值可以取两种方法中的最优K值范围的交集。本实施例中工商户供水时序数据特征的K值为6。

步骤5：使用长短期记忆模型提取出来的时序特征数据和手肘法轮廓法得到的K值进行K-Shape聚类：

步骤5.1：将输入数据标准化：

在本实施例中，通过长短期记忆模型提取出来的时序特征数据可以表示为

其中，

是单条时序特征。为了防止计算开销过大，优选地，使用Z-Score归一化处理，计算公式为：

x为输入的单条时序特征序列数据，μ为时序特征数据的平均数，σ为时序特征数据的标准差，z为输出。标准化处理好的时序特征数据可表示为

其中，

是单条归一化后的时序数据。

步骤5.2：计算时序特征之间的形状距离，假设有两个时序数据，质心数据

与其他数据

其形状距离的计算公式为：

在公式(7)中，

是归一化互相关系数(Normalized CrossCorrelation,NCC)，

和

分别是数据

和

的标准差；CC_w代表是交互相关测度，用于计算时间序列数据之间的相似程度，其计算公式为：

CC＝IFFT{FFT(x,len)*FFT(y,len)} (8)

在公式(8)中，len的定义为：

len ＝ 2^{nextpower2(2*length(x)-1)} (9)

对于公式(8)，FFT是快速傅里叶变换(Fast Fourier Transform)，是一种离散傅里叶变换(Discrete Fourier Transform，DFT)算法，DFT的定义为：

在公式(8)中，IFFT是快速逆傅里叶变换(Inverse Fast Fourier Transform),是一种离散逆傅里叶变换(Inverse Discrete Fourier Transform，IDFT)算法，IDFT的定义为：

公式(10)和(11)中的j为虚数，

同时，(逆)傅里叶变换的时间复杂度为

为了降低计算的时间开销，优选地，使用分治法的快速(逆)傅里叶变换，其时间复杂度为

步骤5.4：遍历时序特征数据集，随机选择K个质心并计算数据间的形状距离，然后将形状距离近的数据分配到该质心所在的簇，迭代至收敛并得到聚类结果。

输出结果之一如图4所示，为K＝6时的供水数据年化聚类结果，时序数据经过LSTM提取动态特征后经过K-Shape聚类得到了依据变化趋势的聚类结果。此聚类结果示意图由每一类的供水数据(浅色线)和其分类质心数据(深色线)直观展示。所有供水数据依据不同的波动特征划分到了每一类中。具体的，从图4的自左到右，自上而下的顺序来描述，被分为第一类(k＝0)数据的变化趋势是以周为单位的周期波动递增的用水趋势；被分为第二类(k＝1)数据的变化趋势是波动小且平稳的用水趋势(质心中第二季度有个骤减的波动可以被K-Shape的缩放平移不变性Scaling and Translation Invariances忽略)；被分为第三类(k＝2)数据的变化趋势是有个先升后降再升的局部高点的用水趋势；被分为第四类(k＝3)数据的变化趋势是周坚波动较大但是总体较为平稳的用水趋势(质心中第三季度有个骤减的波动可以被K-Shape的缩放平移不变性Scaling and Translation Invariances忽略)；被分为第五类(k＝4)数据的变化趋势是周间波动大且有多峰的的用水趋势(质心中第二季度有个骤升的波动可以被K-Shape的缩放平移不变性Scaling and TranslationInvariances忽略)；被分为第六类(k＝5)数据的变化趋势是几乎无波动且平稳用水趋势(质心中第二季度有个骤升的波动可以被K-Shape的缩放平移不变性Scaling andTranslation Invariances忽略)。

输出结果之二如图5所示，其中浅色线为该类的供水数据，深色线为该类质心数据。观察发现，输出的第一类(k＝0)的第二季度分类结果中相关的供水数据除了有递增的总体趋势还有很强的周期波动规律，具体为，该类工商户周中用水多，周末用水少。K-Shape聚类能够挖掘到K-均值聚类所计算不了的数据动态特征，这种动态特征能够为供水时序大数据提供用户分类及用户画像等后续研究的理论基础。

综上所述，上述实施例的基于时序数据LSTM特征的K-Shape聚类方法，使用长短期记忆(LTSM)模型获取时序数据的动态特征并进行K-Shape聚类能更好的解决如K-均值聚类等一般聚类在对复杂时序数据的聚类结果不明确的问题,其形状距离的距离函数能够很好的聚类出时序数据的波动趋势；同时利用LSTM在K-Shape聚类之前提取数据的时序特征额外地增加了聚类结果的准确性，鲁棒性和泛用能力，值得被推广使用。