CN112348068A - 一种基于降噪编码器和注意力机制的时序数据聚类方法 - Google Patents

一种基于降噪编码器和注意力机制的时序数据聚类方法 Download PDF

Info

Publication number
CN112348068A
CN112348068A CN202011172267.0A CN202011172267A CN112348068A CN 112348068 A CN112348068 A CN 112348068A CN 202011172267 A CN202011172267 A CN 202011172267A CN 112348068 A CN112348068 A CN 112348068A
Authority
CN
China
Prior art keywords
clustering
encoder
noise reduction
time sequence
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011172267.0A
Other languages
English (en)
Inventor
何洁月
徐周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011172267.0A priority Critical patent/CN112348068A/zh
Publication of CN112348068A publication Critical patent/CN112348068A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种基于降噪编码器和注意力机制的时序数据聚类方法,以无监督的方式实现对无标签数据的聚类,依次包括以下步骤:步骤1:在原始的时间序列中加入噪声数据;步骤2:将注意力机制加入到LSTM中;步骤3:采用K‑means方法初始化模型;步骤4:采用Adam优化方法联合优化降噪自编码器的重构损失与KL散度损失;迭代优化编码器重构损失和聚类损失以得到训练的最佳模型。通过基于深度降噪自编码器,解决了时序数据聚类对噪声敏感的问题,通过引入注意力机制提高了聚类效果。

Description

一种基于降噪编码器和注意力机制的时序数据聚类方法
技术领域
本发明属于_数据挖掘技术领域,涉及一种时间序列聚类方法,具体涉及一种基于降噪编码器和注意力机制的时序数据聚类技术。
背景技术
时间序列聚类研究是数据挖掘与机器学习领域中重要的研究内容,是挖掘出时序数据中隐藏的模式,将时间序列划分成不同的类别的研究。而时间序列通常是高维的,因此时间序列的聚类研究充满了挑战性。近年来,深度学习促进了自然语言处理、图像处理领域等领域的发展,可以从高维数据中提取出低维的特征向量,而时间序列研究中正需要这种低维的特征表示。但是,现有的基于深度学习的时间序列聚类方法,大多是基于深度自编码器框架实现的,这种模型对噪声数据比较敏感。而且,现有的时序聚类算法存在注意力分散的问题,因为在特征提取过程中忽略了不同时刻的特征的权重是不同的。总之,现有的时间序列聚类方法无法很好地提取出具有鲁棒性和分辨性的时序特征,这样极大影响了后续的聚类准确性。针对上述存在的问题,本发明提出了一种新颖基于降噪编码器和注意力机制的时序数据聚类方法。
发明内容
为解决上述问题,本发明公开了提供基于降噪自编码器和注意力机制的时序数据聚类方法,以提升时序数据聚类的性能。
本发明所述的基于降噪自编码器和注意力机制的时序数据聚类方法,依次包括以下顺序执行的步骤:
(1)给定时间序列数据集D,生成对应的加入噪声的时间序列
Figure RE-GDA0002886238900000011
(2)采用K-means初始化模型并得到初始聚类簇心;
(3)根据步骤(1)提取出时间序列的低维特征信息;
(4)采用COR距离衡量方法计算输入的时间序列与各个聚类簇心的距离;
(5)迭代优化目标函数;
其中进一步地,所述步骤(2)中,使用K-means方法之前需要得到聚类数量K,采用手肘法得到K值。
进一步地,所述步骤(4)的详细内容为:距离衡量方法可以根据应用需求进行选择,例如欧式距离、马氏距离等,COR在UCR数据集上表现优异。其中采用COR距离衡量方法计算输入的时间序列与步骤(2)得到的聚类簇心之间的聚类,然后将输入的时间序列分配到距离最小的聚类中。
进一步的,所述步骤(5)的详细内容为:采用Adam优化方法,联合优化降噪自编码器损失函数Lrechonstruction以及聚类损失函数LKL
有益效果:
本发明提供一种基于降噪编码器和注意力机制的时序数据聚类方法,以无监督的方式实现对无标签数据的聚类,其包含以下优点:
(1)针对普通的自编码器容易受到噪声数据影响的问题,本专利使用降噪自编码器,向输入的训练数据加入噪声,并使自编码器学会去除这种噪声来获得没有被噪声污染过的真实输入。降噪自编码模型避免了普通自编码模型可能会学习得到无编码功能的恒等函数和需要样本的个数大于样本的维数的限制,尝试通过最小化降噪重构误差,从含随机噪声的数据中重构真实的原始输入,从而使得编码获得的特征更具鲁棒性。
(2)通过将注意力机制与编码器中的LSTM模型融合,使得LSTM具有注意力功能,没有额外增加网络层,从而实现轻量级的注意力机制模型。而且引入非线性函数Gelu,以提取出时间序列的非线性特征,使得提取出的低维特征更容易分类,提高了聚类准确性。
附图说明
图1本发明中DTSC框架图;
图2为本发明中DATC框架图;
图3为DTSC算法的聚类结果图;
图4为DATC的聚类结果图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
下文中所涉及符号和参数的定义如表1:
表1符号说明
Figure RE-GDA0002886238900000031
定义1(d()):给定一个数据集x,d()为度量函数,x与聚类簇心ω之间的距离计算如下:
Figure RE-GDA0002886238900000032
其中ρ是特征变量z与k个簇心ωi(i=1...,k)的皮尔逊系数,其中,
Figure RE-GDA0002886238900000033
cov是协方差。
定义2(Lrechonstruction):解码器的输出与原始输入的误差,采用最小均方误差来衡量重构误差,损失函数Lrechonstruction如下:
Figure RE-GDA0002886238900000041
定义3(LKL):本文采用KL散度来衡量聚类损失,聚类损失函数LKL如下:
Figure RE-GDA0002886238900000042
其中n是样本个数,k是聚类类别数。
以下所有的算法均在Tensorflow平台上实现:
(1)基于降噪自编码器的时序聚类算法(DTSC)
现有的DTSC中,DTSC模型由三个部分组构成:编码器、解码器、时序聚类层。
其整体框架图如图1所示。编码器主要包含三层网络结构,作用是提取出时间序列特征,然后输送到解码器和聚类层。其中,编码器第一层是1D CNN,作用是降低时间序列的维度且提取其短时特征,后接Gelu[34]激活函数以提取出时间序列的非线性特征。第二层与第三层为了解决时间序列存在的时间维度偏差的问题,双向LSTM可以提取出时间序列前向和反向两个时间维度的特征。解码器部分是编码器的逆过程,包含两层网络结构,通过反卷积与上采样技术将编码器提取出的低维特征进行重构,然后根据重构损失优化编码器能力;时序聚类层是对编码器输出的低维特征进行聚类分配,采用COR距离衡量方法以及 KL散度[36]不断优化聚类分配效果。最终联合优化模型的重构损失MSE与聚类损失KL散度,从而实现端到端模型优化效果。本发明在DTSC中引入Batch Normalization(BN),可以加快模型收敛以及训练速度,并且在一定程度上提高模型精度。
(2)基于元素注意力机制的时序聚类算法(DATC)
在DTSC的基础上,引入元素注意力机制,提出了一种基于元素注意力机制和降噪自编码器的时间序列聚类模型(Time Series Clustering Based On Denoise Encoderand Attention,DATC),框架图如图2所示,使得网络学会对应输入序列中的权重分配问题,从而特征提取更加准确,可以提高聚类的准确性。
实施例1:
本实施例是Linux平台实现,采用Python语言编写,运行Tensorflow框架上,硬件是英伟达GTX 1080Ti GPU处理器。软件基本配置如下表1:
表1软件配置信息
Figure RE-GDA0002886238900000051
如表2至表5所示,实验部分主要从以下三个指标来评价DTSC、DATC两个算法:平均错误率MER、RI、NMI,此外,还进行了引入降噪自编码器以及注意力机制的有效性实验,实验中的参数默认设置如下表2所示。
表2实验默认参数配置
Figure RE-GDA0002886238900000052
在公开的时序数据集进行分析:UCR数据集,包含36个子时序数据集,每个数据集的类别以及样本数量均不同。
实验1采用平均错误率评价各个算法,如表3所所示。
表3 UCR混合数据集实验结果
Figure RE-GDA0002886238900000061
实验2,采用RI评价各个算法的聚类效果,实验结果如表4所示。
表4 UCR数据上的RI、NMI实验结果
Figure RE-GDA0002886238900000062
实验3,验证引入降噪自编码器的有效性实验,实验结果如表5所示。
表5引入降噪自编码器有效性实验
Figure RE-GDA0002886238900000063
实验4,验证引入注意力机制的的有效性实验,实验结果如表6所示。
表6引入元素注意力机制有效性实验
Figure RE-GDA0002886238900000064
Figure RE-GDA0002886238900000071
实验5,DTSC以及DATC模型聚类过程可视化实验,分别如图4所示。观察图可知,随着迭代轮次的增加,特征相似的时间序列逐渐被聚类到同一类别中。
通过上述实施例1可以看出,本发明对于给定的数据集,基于深度神经网络的时间序列聚类算法在输入的训练数据随机去掉部分时间序列中某个时刻的数值,使得自编码器学会去除这种噪声来获得真实输入,因此编码器将学习提取出最重要的特征。而且将注意力机制与编码器中的LSTM模型融合,使得LSTM 具备注意力功能。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (4)

1.一种基于降噪编码器和注意力机制的时序数据聚类方法,其特征在于:依次包括以下顺序执行的步骤:基于深度神经网络的时序数据聚类方法,其依次包括以下顺序执行的步骤:
(1)给定输入的时序数据数据集D,在D中加入噪声数据;生成对应的加入噪声的时间序列
Figure FDA0002747662800000011
(2)采用K-means方法初始化模型并得到初始的聚类簇心;
(3)计算输入时间序列与聚类簇心的距离;
(4)采用Adam优化方法联合优化降噪自编码器的重构损失与KL散度损失。
2.根据权利要求1所述的基于降噪自编码器和注意力机制的时序数据聚类方法,其特征在于:所述步骤(2)中,使用K-means方法之前需要得到聚类数量K,采用手肘法得到K值。
3.根据权利要求1所述的基于降噪自编码器和注意力机制的时序数据聚类方法,其特征在于:所述步骤(3)的详细内容为:采用COR距离衡量方法计算输入的时间序列与步骤(2)得到的聚类簇心之间的聚类,然后将输入的时间序列分配到距离最小的聚类中。
4.根据权利要求1所述的基于降噪自编码器和注意力机制的时序数据聚类方法,其特征在于:所述步骤(4)采用Adam优化方法,联合优化降噪自编码器损失函数Lrechonstruction以及聚类损失函数LKL
CN202011172267.0A 2020-10-28 2020-10-28 一种基于降噪编码器和注意力机制的时序数据聚类方法 Pending CN112348068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011172267.0A CN112348068A (zh) 2020-10-28 2020-10-28 一种基于降噪编码器和注意力机制的时序数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011172267.0A CN112348068A (zh) 2020-10-28 2020-10-28 一种基于降噪编码器和注意力机制的时序数据聚类方法

Publications (1)

Publication Number Publication Date
CN112348068A true CN112348068A (zh) 2021-02-09

Family

ID=74358926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011172267.0A Pending CN112348068A (zh) 2020-10-28 2020-10-28 一种基于降噪编码器和注意力机制的时序数据聚类方法

Country Status (1)

Country Link
CN (1) CN112348068A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971440A (zh) * 2021-10-21 2022-01-25 中国人民解放军空军航空大学 一种基于深度聚类的无监督雷达信号分选方法
CN116049253A (zh) * 2022-11-30 2023-05-02 南京通力峰达软件科技有限公司 一种基于深度学习的车联网数据建模方法与系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1457968A1 (en) * 2003-03-12 2004-09-15 NTT DoCoMo, Inc. Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
CN103218516A (zh) * 2013-03-22 2013-07-24 南京航空航天大学 一种聚类再回归的机场噪声单步预测方法
CN109165743A (zh) * 2018-07-17 2019-01-08 东南大学 一种基于深度压缩自编码器的半监督网络表示学习算法
JP2019017406A (ja) * 2017-07-11 2019-02-07 有限会社あんしん 時系列データの動的想起出力信号の雑音除去装置、雑音除去方法、プログラム及びクラスター分析による呼吸、心拍、音声等の解析装置、解析方法、プログラム
CN109919204A (zh) * 2019-02-23 2019-06-21 华南理工大学 一种面向噪声图像的深度学习聚类方法
CN109993208A (zh) * 2019-03-04 2019-07-09 北京工业大学 一种有噪声图像的聚类处理方法
CN111027681A (zh) * 2019-12-09 2020-04-17 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN111209971A (zh) * 2020-01-08 2020-05-29 华南理工大学 一种实现有效特征抽取的深度子空间聚类方法及系统
CN111461173A (zh) * 2020-03-06 2020-07-28 华南理工大学 一种基于注意力机制的多说话人聚类系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1457968A1 (en) * 2003-03-12 2004-09-15 NTT DoCoMo, Inc. Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
CN103218516A (zh) * 2013-03-22 2013-07-24 南京航空航天大学 一种聚类再回归的机场噪声单步预测方法
JP2019017406A (ja) * 2017-07-11 2019-02-07 有限会社あんしん 時系列データの動的想起出力信号の雑音除去装置、雑音除去方法、プログラム及びクラスター分析による呼吸、心拍、音声等の解析装置、解析方法、プログラム
CN109165743A (zh) * 2018-07-17 2019-01-08 东南大学 一种基于深度压缩自编码器的半监督网络表示学习算法
CN109919204A (zh) * 2019-02-23 2019-06-21 华南理工大学 一种面向噪声图像的深度学习聚类方法
CN109993208A (zh) * 2019-03-04 2019-07-09 北京工业大学 一种有噪声图像的聚类处理方法
CN111027681A (zh) * 2019-12-09 2020-04-17 腾讯科技(深圳)有限公司 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN111209971A (zh) * 2020-01-08 2020-05-29 华南理工大学 一种实现有效特征抽取的深度子空间聚类方法及系统
CN111461173A (zh) * 2020-03-06 2020-07-28 华南理工大学 一种基于注意力机制的多说话人聚类系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
M.C. MALLIKA ET.AL: "Effect of White Noise on the Structural Properties of Networks Arose from Time Series", 《2018 INTERNATIONAL CET CONFERENCE ON CONTROL, COMMUNICATION, AND COMPUTING (IC4)》, 11 November 2018 (2018-11-11), pages 301 - 305 *
NAVEEN SAI MADIRAJU;ET AL.: "DEEP TEMPORAL CLUSTERING:FULLY UNSUPERVISED LEARNING OF TIME-DOMAIN FEATURES", pages 1 - 11 *
RAJESH N. DAVE;ET AL.: "Noise Clustering Algorithm Revisited", pages 199 - 204 *
张潇龙;等: "融合稀疏降噪自编码与聚类算法的配电网台区分类研究", 《电力信息与通信技术》, no. 12, 25 December 2019 (2019-12-25), pages 15 - 24 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971440A (zh) * 2021-10-21 2022-01-25 中国人民解放军空军航空大学 一种基于深度聚类的无监督雷达信号分选方法
CN116049253A (zh) * 2022-11-30 2023-05-02 南京通力峰达软件科技有限公司 一种基于深度学习的车联网数据建模方法与系统
CN116049253B (zh) * 2022-11-30 2023-09-22 南京通力峰达软件科技有限公司 一种基于深度学习的车联网数据建模方法与系统

Similar Documents

Publication Publication Date Title
CN110503598B (zh) 基于条件循环一致性生成对抗网络的字体风格迁移方法
EP3926623B1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
WO2019168202A1 (ja) ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム
CN112348068A (zh) 一种基于降噪编码器和注意力机制的时序数据聚类方法
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN113505225B (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN110647916A (zh) 基于卷积神经网络的色情图片识别方法及装置
CN114067915A (zh) 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法
CN111860364A (zh) 人脸识别模型的训练方法、装置、电子设备和存储介质
CN114048290A (zh) 一种文本分类方法及装置
CN111737688B (zh) 基于用户画像的攻击防御系统
CN111785274B (zh) 一种针对语音识别系统的黑盒对抗样本生成方法
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN112906820A (zh) 基于遗传算法的对抗卷积神经网络句子相似度计算方法
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
CN112633079A (zh) 一种手写英文单词识别方法及系统
CN117011943A (zh) 基于多尺度自注意力机制的解耦的3d网络的动作识别方法
CN112488238B (zh) 一种基于对抗自编码器的混合异常检测方法
CN114401049A (zh) 一种基于幅度分布特征的概率整形信号整形分布识别方法
CN111460105B (zh) 基于短文本的主题挖掘方法、系统、设备及存储介质
CN111177370B (zh) 一种自然语言处理的算法
CN117743838B (zh) 用于大语言模型的数据知识提取方法
CN113076751A (zh) 命名实体识别方法及系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination