CN110647891A

CN110647891A - 基于cnn和自编码器时序数据特征自动提取方法及系统

Info

Publication number: CN110647891A
Application number: CN201910877495.9A
Authority: CN
Inventors: 刘建志; 高冲
Original assignee: Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Current assignee: Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2020-01-03
Anticipated expiration: 2039-09-17
Also published as: CN110647891B

Abstract

本发明公开了一种基于CNN和自编码器时序数据特征自动提取方法及系统，方法包括数据准备阶段、数据图像化阶段、模型训练阶段和模型使用阶段，数据准备阶段是对获取原始数据进行预处理，数据图像化阶段是将预处理的时序数据转换为二维图像数据，图像化的过程中保留时序数据的原始表征，模型训练阶段是构建基于CNN的自编器模型，利用生成的图像数据进行模型训练，模型使用阶段则是针对时序数据，利用训练好的模型来提取特征。本发明在保留原始表征的前提下，将时序数据图像化，达到高质量的自动提取时序数据特征的效果，应用领域广泛。

Description

基于CNN和自编码器时序数据特征自动提取方法及系统

技术领域

本发明属于时序数据、特征提取、时序数据图像化、自编码器领域，具体涉及一种基于CNN和自编码器时序数据特征自动提取方法及系统。

背景技术

随着深度学习和神经网络的发展，时序数据的分析处理也越来越受到人们的关注，应用领域诸如气象、医疗、交通、水务等。一些典型的分析处理如时序数据的预测、行为模式的提取等等都需要对原始时序数据提取出高质量的特征。传统的特征提取工程一般是在时域和频域进行一些统计特征的提取，需要大量的先验知识和技巧，而且无法保证特征的质量，需要对特征进一步的分析和筛选。行为模式提取等任务则会更关注时序数据的形状、变化趋势等性质，相关的专利比如CN109711277A、CN103052964A等等，现有的一些进行域转换的自动特征提取方式不能很好地保持这些表征，往往在转换过程中丢失或者弱化这些重要的形状、趋势等，因此亟待提出一种新的高质量的自动特征提取方法。

发明内容

有鉴于此，本发明的目的是提供一种基于CNN和自编码器时序数据特征自动提取方法及系统，能够在尽可能的保留原始表征的同时，实现更高质量的时序特征自动提取。以解决现有技术中的不足。

为了达到上述目的，本发明的目的是通过下述技术方案实现的：

一方面，提供一种基于CNN和自编码器时序数据特征自动提取方法，其中，包括数据准备阶段、数据图像化阶段、模型训练阶段和模型使用阶段，所述数据准备阶段是对获取原始数据进行预处理，所述数据图像化阶段是将预处理的时序数据转换为二维图像数据，图像化的过程中保留时序数据的原始表征，所述模型训练阶段是构建基于CNN的自编器模型，利用生成的图像数据进行模型训练，所述模型使用阶段则是针对时序数据，利用训练好的模型来提取特征。

上述基于CNN和自编码器时序数据特征自动提取方法，其中，包括如下步骤：

S1.数据准备阶段

获取时序数据，并进行预处理，得到数据集合{XI_i}(i∈1，2...m),其中XI_i∈R^k为k维向量；

S2.数据图像化阶段

将k维向量转换为二维灰度图像，当k值偏大时，采用至少两次降维的方法，一次降维首先利用分段聚合近似(Piecewise Aggregate Approximation，PAA)将k维向量转换成k1维向量，得到{X_i}∈(i∈1，2...m),其中X_i∈R^k为k1维向量,k1＜k；

将得到的数据集合进行Min-Max归一化，使得所有元素的取值在0-1之间；

将k1维的向量X_i转换成的灰度图Mⁱ∈R^k1*k1，其中：

ceil()表示取上整数界；

当k1值仍然偏大时，继续降维，二次降维对上面生成的灰度图进行操作，将图像Mⁱ等比例缩放成Nⁱ∈R^k2*k2，得到转换后的数据集合{Nⁱ}(i∈1，2...m)，其中k2＜k1；

S3.模型训练阶段

基于CNN的自编码器模型包括输入层、编码层、解码层和输出层，输入层的输入N为上面构造的数据集合{Nⁱ}；

编码层进行下采样和特征提取，得到特征Feature；

解码层通过反卷积，将Feature还原为输入N；

S4.模型使用阶段

假设需要进行特征提取的时序数据为G∈R^k，为k维向量，通过上面提到的方法将时序数据G转换为二维图像NG∈R^k2*k2，然后将NG通过上面的训练的模型，将编码层的输出Feature作为最后提取的特征。

上述基于CNN和自编码器时序数据特征自动提取方法，其中，模型训练过程中输出Y还原输入N，损失函数定义为F(Y，N)，损失函数包括MSE。

另一方面，提供一种基于CNN和自编码器时序数据特征自动提取系统，其中，包括数据准备模块、数据图像化模块、模型训练模块和模型使用模块，基于如上述任意一项所述方法实现特征提取。

本发明技术方案的有益效果是：

在保留原始表征的前提下，将时序数据图像化，达到高质量的自动提取时序数据特征的效果，应用领域广泛。

附图说明

图1为本发明时序数据特征自动提取方法流程示意图；

图2为本发明自编码模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

参看图1所示，本发明基于CNN和自编码器时序数据特征自动提取方法包括数据准备阶段、数据图像化阶段、模型训练阶段和模型使用阶段，数据准备阶段是对获取原始数据进行预处理，包括数据异常值处理、缺失值填补等操作。数据图像化阶段是将预处理的时序数据转换为二维图像数据，图像化的过程中保留时序数据的原始表征，模型训练阶段是构建基于CNN的自编器模型，利用生成的图像数据进行模型训练，模型使用阶段则是针对时序数据，利用训练好的模型来提取特征。

本方法具体包括如下步骤：

S1.数据准备阶段

获取时序数据，并进行预处理，得到数据集合{XI_i}(i∈1，2...m),其中

为k维向量；

S2.数据图像化阶段

将k维向量转换为二维灰度图像，当k值偏大时，为了减少生成图像的大小，加快后续模型提取特征的速度，采用至少两次降维的方法，一次降维首先利用分段聚合近似将k维向量转换成k1维向量，得到{X_i}(i∈1，2...m),其中X_i∈R^k1为k1维向量,k1＜k；

将k1维的向量X_i转换成的灰度图Mⁱ∈R^k1*k1，其中：

ceil()表示取上整数界；

S3.模型训练阶段

参看图2所示，基于CNN的自编码器模型包括输入层1、编码层2、解码层3和输出层4，输入层1的输入N为上面构造的数据集合{Nⁱ}；

编码层2通过卷积和池化等操作进行下采样和特征提取，得到特征Feature；

解码层3通过反卷积，将Feature还原为输入N；

S4.模型使用阶段

模型训练过程中同时使用编码层2和解码层3，而在使用模型进行特征提取的时候，不使用解码层3。

模型训练过程中输出Y还原输入N，损失函数定义为F(Y，N)，其中典型的损失函数为MSE(Mean Squared Error)。

本发明还提供一种基于CNN和自编码器时序数据特征自动提取系统，包括数据准备模块、数据图像化模块、模型训练模块和模型使用模块，基于如上述任意一项方法实现特征提取。

本发明技术方案的有益效果是：

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于CNN和自编码器时序数据特征自动提取方法，其特征在于，包括数据准备阶段、数据图像化阶段、模型训练阶段和模型使用阶段，所述数据准备阶段是对获取原始数据进行预处理，所述数据图像化阶段是将预处理的时序数据转换为二维图像数据，图像化的过程中保留时序数据的原始表征，所述模型训练阶段是构建基于CNN的自编器模型，利用生成的图像数据进行模型训练，所述模型使用阶段则是针对时序数据，利用训练好的模型来提取特征。

2.如权利要求1所述基于CNN和自编码器时序数据特征自动提取方法，其特征在于，包括如下步骤：

S1.数据准备阶段

S2.数据图像化阶段

将k维向量转换为二维灰度图像，当k值偏大时，采用至少两次降维的方法，一次降维首先利用分段聚合近似将k维向量转换成k1维向量，得到{X_i}(i∈1，2...m),其中X_i∈R^k1为k1维向量,k1＜k；

将k1维的向量X_i转换成的灰度图Mⁱ∈R^k1*k1，其中：

ceil()表示取上整数界；

S3.模型训练阶段

编码层进行下采样和特征提取，得到特征Feature；

解码层通过反卷积，将Feature还原为输入N；

S4.模型使用阶段

3.如权利要求2所述基于CNN和自编码器时序数据特征自动提取方法，其特征在于，模型训练过程中输出Y还原输入N，损失函数定义为F(Y，N)，损失函数包括MSE。

4.一种基于CNN和自编码器时序数据特征自动提取系统，其特征在于，包括数据准备模块、数据图像化模块、模型训练模块和模型使用模块，基于如上述权利要求1至3中任意一项所述方法实现特征提取。