CN114358157A - 一种基于时序数据LSTM特征的K-Shape聚类方法 - Google Patents

一种基于时序数据LSTM特征的K-Shape聚类方法 Download PDF

Info

Publication number
CN114358157A
CN114358157A CN202111598917.2A CN202111598917A CN114358157A CN 114358157 A CN114358157 A CN 114358157A CN 202111598917 A CN202111598917 A CN 202111598917A CN 114358157 A CN114358157 A CN 114358157A
Authority
CN
China
Prior art keywords
data
time sequence
clustering
time series
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111598917.2A
Other languages
English (en)
Inventor
王正宇
王平平
丁磊
隆云飞
杨鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ustc Sinovate Software Co ltd
Original Assignee
Ustc Sinovate Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ustc Sinovate Software Co ltd filed Critical Ustc Sinovate Software Co ltd
Priority to CN202111598917.2A priority Critical patent/CN114358157A/zh
Publication of CN114358157A publication Critical patent/CN114358157A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于时序数据LSTM特征的K‑Shape聚类方法,属于数据挖掘技术领域,包括以下步骤:S1:收集时间序列数据样本并预处理;S2:建立并训练长短期记忆模型,输出时序动态特征数据;S3:利用手肘法和轮廓法计算出聚类的最佳聚类K值;S4:建立K‑Shape聚类模型并输出结果。本发明使用LSTM模型获取时序数据的动态特征并进行K‑Shape聚类能更好的解决如K‑均值聚类等一般聚类在对复杂时序数据的聚类结果不明确的问题,并且得出时序数据的变化趋势聚类结果;同时利用LSTM在K‑Shape聚类之前提取数据的时序特征额外地增加了聚类结果的准确性,鲁棒性和泛用能力。

Description

一种基于时序数据LSTM特征的K-Shape聚类方法
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种基于时序数据LSTM特征的K-Shape聚类方法。
背景技术
随着工业互联网概念的提出与发展,日常工作生活上会产生大量的时间序列数据。这种时序数据往往是无标签的,难以直接加以利用或提取信息。因此,如何从海量的时序数据中提取有效的信息成了一个相当重要的课题。
聚类是无监督学习的一个重要内容,旨在解决无标签的数据的分类问题,一般地,聚类算法将数据集划分到若干个彼此靠近但不同类或簇中,从而得到数据的统计信息。因为时序数据大多为无标签数据,所以使用聚类方法能够较好的提取数据信息并加以利用。
现有的聚类技术主要是K-均值聚类(K-Means Clustering)。K-均值聚类是以欧氏距离(Euclidean Distance)为距离函数的聚类方法,能反映对应相同时间点的数据之间的位置关系,但是容易受到数值上的离群点的干扰,不能用在不同长度的时序数据间,更无法体现时序数据的波峰、波谷、周期性等动态变化特征。
有些时序数据有很强的变化趋势相似性,但是因为时间序列数据具有时空上的复杂性,很难从直观的统计上提取和描述其动态特征的物理意义,传统的聚类并不能有效的处理这种相似性,而且没有经过特征提取的时序数据离群点更容易干扰聚类结果。为了解决上述问题,提出一种基于时序数据LSTM特征的K-Shape聚类方法。
发明内容
本发明所要解决的技术问题在于:如何解决现有算法存在的不足,提供了一种基于时序数据LSTM特征的K-Shape聚类方法,该方法能够很好地提取出时序数据的动态特征,并计算比较时序数据特征的动态变化趋势,进而加以聚类,能够显著的提升模型的聚类效果和鲁棒性。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:收集时间序列数据样本并进行预处理;
S2:构建长短期记忆网络并对其进行训练,获得时序特征提取模型,将步骤S1中得到的时序数据输入时序特征提取模型,得到对应时序数据id的时序特征数据并保存;
S3:计算步骤S2中时序特征数据的误差平方和轮廓系数,比较得出最佳聚类数K值;
S4:将时序特征数据和步骤S3中计算出的最佳聚类数K值带入K-Shape聚类算法,计算形状距离并迭代得出聚类结果。
更进一步地,所述步骤S1包括以下子步骤:
S11:获取时序数据,并将时序数据,数据时间信息,id序号写入建立好的数据库中;
S12:对时序数据进行读取和预处理,使用广义ESD假设检验出时序数据的异常大值和异常小值,并做标记;
S13:将标记好的异常值进行替换;
S14:将处理好的时序数据集保存。
更进一步地,在所述步骤S11中,采用CSV格式保存数据。
更进一步地,在所述步骤S13中,使用当前id时序数据的均值或者均值加减一个标准差进行替换。
更进一步地,当所述时序特征提取模型基于长短期记忆网络实现时,所述步骤S2包括以下子步骤:
S21:将处理好异常值的时序数据集进行最大最小归一化处理,计算公式为:
Figure BDA0003432387190000021
其中,x为单条时序数据,xmax为时序数据集的全局最大值,xmin为时序数据集的全局最小值;
S22:建立长短期记忆网络并训练,输入数据并提取出隐藏层的时序特征。
更进一步地,所述步骤S202具体包括以下子步骤:
S221:用以下公式表示长短期记忆网络:
it=σ(WiiXt+bii+Whiht-1+bhi)
ft=σ(WifXt+bif+Whfht-1+bhf)
gt=tanh(WigXt+big+Whght-1+bhg)
ot=σ(WioXt+bio+Whoht-1+bho)
Ct=ft*Ct-1+it*gt
ht=ot*tanh(Ct)
其中,W和b分别是各项的系数和偏置,it是t时间点的输入门,ft是t时间点遗忘因子,gt是学习门输出的短期记忆,ot是输出门,Ct是当前的细胞状态,ht表示长短期记忆的输出;
S222:用部分时序数据作为训练集训练长短期记忆网络,并用其余时序数据进行验证,得到训练好的长短期记忆模型和参数;
S223:将整个时序数据集带入训练好的长短期记忆模型并提取时序特征数据集。
更进一步地,所述步骤S3包括以下子步骤:
S31:计算时序数据的误差平方和并得到K值,公式为:
Figure BDA0003432387190000031
其中,Ci为第i个簇,y为时序特征数据样本点,mi为样本均值(质心);
S32:计算时序数据的轮廓系数并得到最优K值,公式为:
Figure BDA0003432387190000032
其中,a(i)是样本i在A簇的簇内平均不相似度,b(i)为样本i和次优选簇B内各点的平均不相似度;
S33:误差平方和法和轮廓系数法的最优K值相同时,选取误差平方和法/轮廓系数法的最优K值,作为最佳聚类数K值。
更进一步地,在所述步骤S33中,如果两种方法的最优K值不同,则最佳聚类数K取值于误差平方和法和轮廓法中最优K值范围的交集。
更进一步地,所述步骤S4包括以下子步骤:
S41:将时序特征数据集进行Z-Score归一化处理,其公式为:
Figure BDA0003432387190000033
其中,x为输入的单条时序特征序列数据,μ为时序特征数据的平均数,σ为时序特征数据的标准差,z为输出;
S42:随机划分K个时序数据聚类质心,遍历计算质心数据
Figure BDA0003432387190000034
与其他数据
Figure BDA0003432387190000035
的形状距离SBD,计算公式为:
Figure BDA0003432387190000036
其中,
Figure BDA0003432387190000037
是归一化互相关系数,CCw代表是交互相关测度,
Figure BDA0003432387190000038
Figure BDA0003432387190000039
分别是数据
Figure BDA00034323871900000310
Figure BDA00034323871900000311
的标准差;然后将SBD距离近的数据点分配到该质心所在的簇;对于每一个分配好的簇,计算簇中所有点的均值,然后将均值作为新的质心,重复该过程直到聚类结果收敛;保存聚类划分结果。
本发明相比现有技术具有以下优点:使用长短期记忆(LTSM)模型获取时序数据的动态特征并进行K-Shape聚类能更好的解决如K-均值聚类等一般聚类在对复杂时序数据的聚类结果不明确的问题,能有效的对时序数据的变化趋势进行聚类;K-Shape能解决K-均值聚类等一般聚类不能聚类不同长度的时序数据的问题;K-Shape还有缩放平移不变性(Scaling and Translation Invariances),均匀缩放不变性(Uniform ScalingInvariance),缺失不变性(Occlusion Invariance)等数据处理优势特性;同时利用LSTM在K-Shape聚类之前提取数据的时序特征额外地增加了聚类结果的准确性,鲁棒性和泛用能力,值得被推广使用。
附图说明
图1是本发明实施例中基于时序数据LSTM特征的K-Shape聚类方法的流程示意图;
图2是本发明实施例中预处理前后的时序数据的示意图;
图3是本发明实施例中长短期记忆细胞的示意图;
图4是本发明实施例中供水数据LSTM特征的K-Shape聚类年化分类效果图;
图5是本发明实施例中供水数据LSTM特征的K-Shape聚类的第一类第二季度效果图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1~4所示,本实施例提供了一种基于时序数据LSTM特征的K-Shape聚类方法,时序数据为工商户供水大数据的时序数据,按照以下步骤进行:
步骤1:读取收集到的供水时序数据集D,在本实施例中,读取后的时序数据表示为
Figure BDA0003432387190000041
Figure BDA0003432387190000042
同时,
Figure BDA0003432387190000043
此处的
Figure BDA0003432387190000044
为单条时序数据,故总时序数据集的维度为m*n。
步骤2:对读取后的时序数据进行预处理。
在本实施例中,对时序数据中的异常值进行处理,建立广义ESD测试检验来检验数据的异常值。
广义ESD检测(Generalized ESD test)可以定义为如下假设检验,H0:这个数据集中没有异常值,H1:这个数据集中有不多于r个异常值;检验统计量(test statistics)为
Figure BDA0003432387190000045
其中σ是样本标准差,
Figure BDA0003432387190000046
是样本平均数。
使用广义ESD检测的目的是移除当前样本中的
Figure BDA0003432387190000047
值,迭代计算直到移除出r个这样的异常值,每次的检验统计量r为R1,R2,...,Rr。之后,计算r的临界值(criticalvalue):
Figure BDA0003432387190000048
其中,tp,k是学生t分布在k自由度下的100p百分位数,其中,
Figure BDA0003432387190000049
i的取值是使Rii最大的i值,在本实施例中,为了降低计算的复杂性和结果的有效性确定一个迭代上限,将最大值i选定为固定值,i选取
Figure BDA00034323871900000410
其中m为时序数据维度。
经过假设检验后的数据异常值用别的值替代。假设检验出的异常大值用时序数据
Figure BDA00034323871900000411
的均值与一个标准差的和,即
Figure BDA00034323871900000412
替代;假设检验出的异常小值用时序数据
Figure BDA00034323871900000413
的均值与一个标准差的差,即
Figure BDA00034323871900000414
替代;同时,替代用值不小于最小值或大于最大值,且不能为负值,否则用均值替代。
替代结果如图2所示,浅色线为修正后的供水时序数据,深色线为修正前的供水时序数据。可以发现,供水时序数据的异常大值和异常小值(此处为异常零值)被修正为正常值。
为方便长短期记忆模型的运算进一步处理时序数据,使用最大最小归一化(Min-Max Normalization)处理,计算公式为:
Figure BDA0003432387190000051
步骤3:建立长短期记忆网络,输入数据并提取出隐藏层的时序特征。
在本实施例中,步骤3包括以下子步骤:
步骤3.1:长短期记忆网络的计算方法可以用以下公式表示:
it=σ(WiiXt+bii+Whiht-1+bhi) (1)
ft=σ(WifXt+bif+Whfht-1+bhf) (2)
gt=tanh(WigXt+big+Whght-1+bhg) (3)
ot=σ(WioXt+bio+Whoht-1+bho) (4)
Ct=ft*Ct-1+it*gt (5)
ht=ot*tanh(Ct) (6)
在公式(1)中,it是t时间点的输入门,σ是sigmoid函数,
Figure BDA0003432387190000052
其值域为(0,1),Wii和Whi是参数矩阵,Xt是t时间点的输入,ht-1是t-1时间点的隐层,bii和bhi是偏置项。因为输入门信息是通过sigmoid函数算出,所以输入门信息的值域为(0,1),取值0代表细胞状态不会因新的输入而更新,1代表细胞状态的完全更新。
在公式(2)中,ft是t时间点的遗忘因子,σ是sigmoid函数,Wif和Whf是参数矩阵,bif和bhf是偏置项。因为遗忘因子是通过sigmoid函数算出,所以遗忘因子的值域为(0,1),取值0代表细胞状态的完全遗忘,1代表细胞状态的完全记忆。
在公式(3)中,gt是学习门输出的短期记忆,tanh是双曲正切函数,定义是
Figure BDA0003432387190000053
Wig和Whg是参数矩阵,Xt是t时间点的输入,ht-1是t-1时间点的隐层,big和bhg是偏置项。
在公式(4)中,ot是输出门,σ是sigmoid函数,Wio和Who是参数矩阵,bio和bho是偏置项。输出门ot的值域为(0,1),取值0代表细胞状态不会输出,1代表输出全部细胞状态。
在公式(5)中,是t时间点的细胞状态的更新,其中Ct是当前的细胞状态,ft是t时间点的遗忘因子,Ct-1是t-1时间点的细胞状态,it是t时间点的输入门信息,gt是t时间点学习门输出的短期记忆。
在公式(6)中,ht表示长短期记忆的输出,输出的结果由细胞状态Ct和输出门ot决定。
LSTM的细胞示意图如图3所示。
步骤3.2:基于当前的供水时序数据集进行长短期记忆的模型训练,选择损失函数收敛的模型参数和权重,输出并保存当前模型。
具体的:
步骤3.21:设置长短期记忆模型的Time Step(时间步长)选择为7,即以前7天数据为x去预测第8天数据y;
步骤3.22:将输入数据序列化;
步骤3.23:添加长短期记忆层,可选的,模型优化器为Adam,损失函数选择均方误差(MSE);
步骤3.24:为了防止过拟合并增加模型鲁棒性,添加Dropout层,随机删除0.2的神经网络数据;
步骤3.25:输出的数据特征维度持等同于输入长度365。
步骤3.3:将供水时序数据集作为输入,使用训练好的长短期记忆模型,遍历得到时序数据的LSTM特征向量,保存为供水时序特征数据集。
在步骤3.3中,维持时序数据特征和时序数据相同的数据维度,此维度可为数据的总时间单位数。
步骤3.4:提取出的供水时序特征数据集可以表示为,
Figure BDA0003432387190000061
其中,
Figure BDA0003432387190000062
Figure BDA0003432387190000063
是单条时序特征数据。
步骤4:对于聚类数量的最佳聚类K值选取,有误差平方和法(Sum of SquareError,SSE)和轮廓系数法(Silhouette Method)。
在本实施例中,使用供水时序数据的动态特征数据结合上述两种方法得到最佳聚类K值。
在本实施例中,步骤S4具体包括以下子步骤:
步骤4.1:误差平方和法又称手肘法,其公式为:
Figure BDA0003432387190000064
其中,Ci为第i个簇,y为时序特征数据样本点,mi为样本均值(质心)。误差平方和统计了在聚类数量为K时的样本聚类误差。一般的,时序特征数据的最优K值为k*情况时,若K<k*时,K增大会降低聚类误差,增大簇内聚合程度,此时SSE快速降低,当K≥k*时,K增大簇内聚合程度回报降低,此时SSE的降幅趋于平缓。SSE随着K的变化趋势是一个手肘的图形,肘部对应着最优K值。
步骤4.2:利用时序数据建立轮廓系数法模型:轮廓系数法的公式为
Figure BDA0003432387190000065
假设其时序特征数据i被划分到簇A,一般的,a(i)是样本i在A簇的簇内平均不相似度,b(i)为样本i和次优选簇B内各点的平均不相似度。所以,轮廓系数s(i)的值域为[-1,1],一般地,s(i)=-1说明样本i应当划分在簇B中;s(i)=0说明样本i在簇A和簇B的交界上,可以随意划分;s(i)=1说明样本i划分为最优划分。轮廓系数法确定的最优K值为平均轮廓系数较大的K值。
选取手肘法和轮廓系数法的最优K值作为最佳聚类K值,考虑到两种方法可能会出现最优K值不同的情况,此处K值可以取两种方法中的最优K值范围的交集。本实施例中工商户供水时序数据特征的K值为6。
步骤5:使用长短期记忆模型提取出来的时序特征数据和手肘法轮廓法得到的K值进行K-Shape聚类:
步骤5.1:将输入数据标准化:
在本实施例中,通过长短期记忆模型提取出来的时序特征数据可以表示为
Figure BDA0003432387190000071
Figure BDA0003432387190000072
其中,
Figure BDA0003432387190000073
是单条时序特征。为了防止计算开销过大,优选地,使用Z-Score归一化处理,计算公式为:
Figure BDA0003432387190000074
x为输入的单条时序特征序列数据,μ为时序特征数据的平均数,σ为时序特征数据的标准差,z为输出。标准化处理好的时序特征数据可表示为
Figure BDA0003432387190000075
其中,
Figure BDA0003432387190000076
是单条归一化后的时序数据。
步骤5.2:计算时序特征之间的形状距离,假设有两个时序数据,质心数据
Figure BDA0003432387190000077
Figure BDA0003432387190000078
与其他数据
Figure BDA0003432387190000079
其形状距离的计算公式为:
Figure BDA00034323871900000710
在公式(7)中,
Figure BDA00034323871900000711
是归一化互相关系数(Normalized CrossCorrelation,NCC),
Figure BDA00034323871900000712
Figure BDA00034323871900000713
分别是数据
Figure BDA00034323871900000714
Figure BDA00034323871900000715
的标准差;CCw代表是交互相关测度,用于计算时间序列数据之间的相似程度,其计算公式为:
CC=IFFT{FFT(x,len)*FFT(y,len)} (8)
在公式(8)中,len的定义为:
len = 2nextpower2(2*length(x)-1) (9)
对于公式(8),FFT是快速傅里叶变换(Fast Fourier Transform),是一种离散傅里叶变换(Discrete Fourier Transform,DFT)算法,DFT的定义为:
Figure BDA00034323871900000716
在公式(8)中,IFFT是快速逆傅里叶变换(Inverse Fast Fourier Transform),是一种离散逆傅里叶变换(Inverse Discrete Fourier Transform,IDFT)算法,IDFT的定义为:
Figure BDA00034323871900000717
公式(10)和(11)中的j为虚数,
Figure BDA00034323871900000718
同时,(逆)傅里叶变换的时间复杂度为
Figure BDA00034323871900000719
为了降低计算的时间开销,优选地,使用分治法的快速(逆)傅里叶变换,其时间复杂度为
Figure BDA0003432387190000081
步骤5.4:遍历时序特征数据集,随机选择K个质心并计算数据间的形状距离,然后将形状距离近的数据分配到该质心所在的簇,迭代至收敛并得到聚类结果。
输出结果之一如图4所示,为K=6时的供水数据年化聚类结果,时序数据经过LSTM提取动态特征后经过K-Shape聚类得到了依据变化趋势的聚类结果。此聚类结果示意图由每一类的供水数据(浅色线)和其分类质心数据(深色线)直观展示。所有供水数据依据不同的波动特征划分到了每一类中。具体的,从图4的自左到右,自上而下的顺序来描述,被分为第一类(k=0)数据的变化趋势是以周为单位的周期波动递增的用水趋势;被分为第二类(k=1)数据的变化趋势是波动小且平稳的用水趋势(质心中第二季度有个骤减的波动可以被K-Shape的缩放平移不变性Scaling and Translation Invariances忽略);被分为第三类(k=2)数据的变化趋势是有个先升后降再升的局部高点的用水趋势;被分为第四类(k=3)数据的变化趋势是周坚波动较大但是总体较为平稳的用水趋势(质心中第三季度有个骤减的波动可以被K-Shape的缩放平移不变性Scaling and Translation Invariances忽略);被分为第五类(k=4)数据的变化趋势是周间波动大且有多峰的的用水趋势(质心中第二季度有个骤升的波动可以被K-Shape的缩放平移不变性Scaling and TranslationInvariances忽略);被分为第六类(k=5)数据的变化趋势是几乎无波动且平稳用水趋势(质心中第二季度有个骤升的波动可以被K-Shape的缩放平移不变性Scaling andTranslation Invariances忽略)。
输出结果之二如图5所示,其中浅色线为该类的供水数据,深色线为该类质心数据。观察发现,输出的第一类(k=0)的第二季度分类结果中相关的供水数据除了有递增的总体趋势还有很强的周期波动规律,具体为,该类工商户周中用水多,周末用水少。K-Shape聚类能够挖掘到K-均值聚类所计算不了的数据动态特征,这种动态特征能够为供水时序大数据提供用户分类及用户画像等后续研究的理论基础。
综上所述,上述实施例的基于时序数据LSTM特征的K-Shape聚类方法,使用长短期记忆(LTSM)模型获取时序数据的动态特征并进行K-Shape聚类能更好的解决如K-均值聚类等一般聚类在对复杂时序数据的聚类结果不明确的问题,其形状距离的距离函数能够很好的聚类出时序数据的波动趋势;同时利用LSTM在K-Shape聚类之前提取数据的时序特征额外地增加了聚类结果的准确性,鲁棒性和泛用能力,值得被推广使用。

Claims (8)

1.一种基于时序数据LSTM特征的K-Shape聚类方法,其特征在于,包括以下步骤:
S1:收集时间序列数据样本并进行预处理;
S2:构建长短期记忆网络并对其进行训练,获得时序特征提取模型,将步骤S1中得到的时序数据输入时序特征提取模型,得到对应时序数据id的时序特征数据并保存;
S3:计算步骤S2中时序特征数据的误差平方和及轮廓系数,比较得出最佳聚类数K值;
S4:将步骤S2得到的时序特征数据和步骤S3中计算出的最佳聚类数K值带入K-Shape聚类算法,计算形状距离并迭代得出聚类结果。
2.根据权利要求1所述的一种基于时序数据LSTM特征的K-Shape聚类方法,其特征在于:所述步骤S1包括以下子步骤:
S11:获取时序数据,并将时序数据,数据时间信息,id序号写入建立好的数据库中;
S12:对时序数据进行读取和预处理,使用广义ESD假设检验出时序数据的异常大值和异常小值,并做标记;
S13:将标记好的异常值进行替换;
S14:将处理好的时序数据集保存。
3.根据权利要求2所述的一种基于时序数据LSTM特征的K-Shape聚类方法,其特征在于:在所述步骤S13中,使用当前id时序数据的均值或者均值加减一个标准差进行替换。
4.根据权利要求2所述的一种基于时序数据LSTM特征的K-Shape聚类方法,其特征在于:当所述时序特征提取模型基于长短期记忆网络实现时,所述步骤S2包括以下子步骤:
S21:将处理好异常值的时序数据集进行最大最小归一化处理;
S22:建立长短期记忆网络并训练,输入数据并提取出隐藏层的时序特征。
5.根据权利要求4所述的一种基于时序数据LSTM特征的K-Shape聚类方法,其特征在于:所述步骤S202具体包括以下子步骤:
S221:用以下公式表示长短期记忆网络:
it=σ(WiiXt+bii+Whiht-1+bhi)
ft=σ(WifXt+bif+Whfht-1+bhf)
gt=tanh(WigXt+big+Whght-1+bhg)
ot=σ(WioXt+bio+Whoht-1+bho)
Ct=ft*Ct-1+it*gt
ht=ot*tanh(Ct)
其中,W和b分别是各项的系数和偏置,it是t时间点的输入门,ft是t时间点遗忘因子,gt是学习门输出的短期记忆,ot是输出门,Ct是当前的细胞状态,ht表示长短期记忆的输出;
S222:用部分时序数据作为训练集训练长短期记忆网络,并用其余时序数据进行验证,得到训练好的长短期记忆模型和参数;
S223:将整个时序数据集带入训练好的长短期记忆模型并提取时序特征数据集。
6.根据权利要求5所述的一种基于时序数据LSTM特征的K-Shape聚类方法,其特征在于:所述步骤S3包括以下子步骤:
S31:计算时序数据的误差平方和并得到K值,公式为:
Figure FDA0003432387180000021
其中,Ci为第i个簇,y为时序特征数据样本点,mi为样本均值即质心;
S32:计算时序数据的轮廓系数并得到最优K值,公式为:
Figure FDA0003432387180000022
其中,a(i)是样本i在A簇的簇内平均不相似度,b(i)为样本i和次优选簇B内各点的平均不相似度;
S33:误差平方和法和轮廓系数法的最优K值相同时,选取误差平方和法/轮廓系数法的最优K值,作为最佳聚类数K值。
7.根据权利要求6所述的一种基于时序数据LSTM特征的K-Shape聚类方法,其特征在于:在所述步骤S33中,当两种方法的最优K值不同时,则最佳聚类数K值在误差平方和法和轮廓法中最优K值范围的交集中选取。
8.根据权利要求7所述的一种基于时序数据LSTM特征的K-Shape聚类方法,其特征在于:所述步骤S4包括以下子步骤:
S41:将时序特征数据集进行Z-Score归一化处理,其公式为:
Figure FDA0003432387180000023
其中,x为单条时序数据特征,μ为时序数据特征总的平均值,σ为时序数据特征总的标准差,z为归一化处理结果;
S42:随机划分K个时序数据聚类质心,遍历计算质心数据
Figure FDA0003432387180000024
与其他数据
Figure FDA0003432387180000025
的形状距离SBD,计算公式为:
Figure FDA0003432387180000026
其中,
Figure FDA0003432387180000027
是归一化互相关系数,CCw代表是交互相关测度,
Figure FDA0003432387180000028
Figure FDA0003432387180000029
分别是数据
Figure FDA00034323871800000210
Figure FDA00034323871800000211
的标准差;然后将SBD距离近的数据点分配到该质心所在的簇;对于每一个分配好的簇,计算簇中所有点的均值,然后将均值作为新的质心,重复该过程直到聚类结果收敛;保存聚类划分结果。
CN202111598917.2A 2021-12-24 2021-12-24 一种基于时序数据LSTM特征的K-Shape聚类方法 Pending CN114358157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111598917.2A CN114358157A (zh) 2021-12-24 2021-12-24 一种基于时序数据LSTM特征的K-Shape聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111598917.2A CN114358157A (zh) 2021-12-24 2021-12-24 一种基于时序数据LSTM特征的K-Shape聚类方法

Publications (1)

Publication Number Publication Date
CN114358157A true CN114358157A (zh) 2022-04-15

Family

ID=81101585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111598917.2A Pending CN114358157A (zh) 2021-12-24 2021-12-24 一种基于时序数据LSTM特征的K-Shape聚类方法

Country Status (1)

Country Link
CN (1) CN114358157A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116232761A (zh) * 2023-05-04 2023-06-06 华东交通大学 基于shapelet的网络异常流量检测方法及系统
CN117407733A (zh) * 2023-12-12 2024-01-16 南昌科晨电力试验研究有限公司 一种基于对抗生成shapelet的流量异常检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116232761A (zh) * 2023-05-04 2023-06-06 华东交通大学 基于shapelet的网络异常流量检测方法及系统
CN117407733A (zh) * 2023-12-12 2024-01-16 南昌科晨电力试验研究有限公司 一种基于对抗生成shapelet的流量异常检测方法及系统
CN117407733B (zh) * 2023-12-12 2024-04-02 南昌科晨电力试验研究有限公司 一种基于对抗生成shapelet的流量异常检测方法及系统

Similar Documents

Publication Publication Date Title
CN111199016B (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN110852856B (zh) 一种基于动态网络表征的发票虚开识别方法
CN114358157A (zh) 一种基于时序数据LSTM特征的K-Shape聚类方法
CN109993225B (zh) 一种基于无监督学习的空域复杂度分类方法及装置
CN111008726B (zh) 一种电力负荷预测中类图片转换方法
CN116523320B (zh) 基于互联网大数据的知识产权风险智能分析方法
CN112270596A (zh) 基于用户画像构建的风险控制系统及方法
CN112132210A (zh) 一种基于客户用电行为的窃电概率预警分析方法
CN115115090A (zh) 一种基于改进lstm-cnn的风功率短期预测方法
CN110543904A (zh) 一种基于贝叶斯的企业风险分类模型构建方法
CN110837853A (zh) 一种快速分类模型构建方法
CN116167004A (zh) 电力数据的无监督最优异常检测模型选择方法及系统
CN115293641A (zh) 一种基于金融大数据的企业风险智能识别方法
Dragut Stock data clustering and multiscale trend detection
CN114168578A (zh) 一种基于聚类和近邻算法的日负荷数据缺失值插补方法
CN113407700A (zh) 一种数据查询方法、装置和设备
CN111882441A (zh) 一种基于理财产品推荐场景的用户预测解释Treeshap方法
CN110580494A (zh) 一种基于分位数逻辑回归的数据分析方法
CN111401783A (zh) 一种电力系统运行数据集成特征选择方法
CN111626376A (zh) 一种基于判别联合概率的域适配方法及系统
CN115658990B (zh) 一种用于目标空间分群的数据处理方法及装置
CN116206154B (zh) 一种非常见工况下的污水处理过程的故障分类方法
CN113435915B (zh) 用户窃电行为检测方法、装置、设备及存储介质
CN117951695B (zh) 一种工业未知威胁检测方法及系统
CN115545104A (zh) 基于函数型数据分析的kpi异常检测方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination