CN104182771A

CN104182771A - 基于带丢包自动编码技术的时间序列数据图形化分析方法

Info

Publication number: CN104182771A
Application number: CN201410371240.2A
Authority: CN
Inventors: 王岩; 钱琛; 郭雷
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-07-30
Filing date: 2014-07-30
Publication date: 2014-12-03
Anticipated expiration: 2034-07-30
Also published as: CN104182771B

Abstract

本发明是一种基于带丢包自动编码技术的时间序列数据图形化分析方法，它有4个步骤：步骤1.数据预处理，将时间序列数据转化为特定的图像格式；步骤2.预训练，通过带丢包的自动编码技术提取时间序列的图形特征；步骤3.训练分类器，利用预训练过程中得到的编码机权重和训练样本类标进行分类器训练；步骤4.应用，利用训练好的分类器实现时间序列相似度匹配和分类功能。本发明克服了现有时间序列分析方法注重时间序列的数据特征而对数据的变化十分敏感的缺点，模拟人类视觉处理时间序列数据的方式。在相似度匹配上有较高的准确度和极低的时间复杂度；在分类中，既保证了良好的分类精度又对不同类型的时间序列数据有良好的普适性和鲁棒性。

Description

基于带丢包自动编码技术的时间序列数据图形化分析方法

技术领域

本发明涉及一种基于带丢包自动编码技术的时间序列数据图形化分析方法，该方法受到人类视觉对数据处理方式的启发，针对传统时间序列分析方法注重时间序列的数据特征而对数据的变化十分敏感的缺点，利用带丢包的堆栈式自动编码技术自动学习时间序列数据的图形特征，并将时间序列数据重新抽象表达，然后利用习得的特征用于误差反向传播神经网络分类器的训练，进而实现对时间序列数据的相似性匹配与分类功能，属于数据挖掘与机器学习领域。

背景技术

在过去的二十年里，不同的时间序列分析、挖掘的技术不断产生。这些技术主要集中在时间序列的相似度匹配、分类、聚类和分割上。但是，由于这些技术都是建立在时间序列的数据特征基础之上，所以它们对于某些符合自身数据处理要求的时间序列数据有很好的分析处理效果，而在另外的数据上的处理能力可能大幅下降。这使得这些技术对于现实问题仅有很有限的意义。

效力与效率是时间序列分析的最终目标，而目前的技术可以分为两大类，一类是表示，另一类是测量。基于表示的方法有主要目的是通过降低时间序列数据的维数来对其进行处理，常见的方法有：离散傅里叶变换(DFT)、奇异值变换(SVD)、离散余弦变换(DCT)、离散小波变换(DWT)、线性平均分段累积近似方法(PPA)、自适应逐段常量近似(APCA)、符号聚集近似(SAX)和可转位分段线性近似(IPLA)等等。但是，由于时间序列数据通常是非常高维的，在降低数据维度的同时还能保持数据的基本特征几乎是一件不可能完成的事。相较而言，基于距离测量的时间序列分析方法更加容易实现。最常见的就是欧式距离，它非常易于应用于不同的问题中。然而，欧式距离(ED)对于噪声和有时间位移的时间序列数据没有很好的处理效果。为此，有学者提出了动态时间弯曲距离(DTW)来解决有时间位移的时间序列分析问题，并得到了广泛的使用。然而，动态时间弯曲距离的最大弱点是它的算法复杂度太高，常常达不到实际问题中的时效性。另外，还有一类基于距离的度量方法被广泛用于处理字符串、语音和生物信息。如最长公共子序列(LCSS)、实序列编辑距离(EDR)、实补偿编辑距离(ERP)。实序列编辑距离比欧氏距离和动态弯曲距离的鲁棒性更好，而相较最长公共子序列，它的精度有比较高，但是它也不能处理带时间位移的时间序列数据分析问题，所以实补偿编辑距离的提出弥补了它的这个缺点。然而，实补偿编辑距离和动态时间弯曲距离一样，对噪声比较敏感。综上所述如何能够找到一种时间序列分析方法能够既具有效力和效率，又具有鲁棒性，是一个十分迫切的问题。

发明内容

1、发明目的

本发明的目的是：针对现有的时间序列数据处理方法注重时间序列的数据特征而对数据的变化十分敏感的缺点，提供一种基于带丢包自动编码技术的时间序列数据图形化分析方法，它是一种更具有鲁棒性和准确性的时间序列数据分析方法。本发明与现有方法的最大差异在于本发明是基于时间序列数据的图像特征进行时间序列分析，克服了现有时间序列数据分析方法仅针对特有数据形式有良好性能而没有普适性的不足，在相似度匹配中，本发明相较现有方法拥有良好的准确度与极低的时间复杂度，而在分类当中，又比现有方法更具鲁棒性，其分类精度在不同数据集中的综合表现也非常优异。

2、技术方案

本发明是一种基于带丢包自动编码技术的时间序列数据图形化分析方法，其设计思想是：模拟人类视觉系统处理时间序列数据的过程，先将时间序列数据转化成带有图形特征的图像，再利用带丢包的自动编码技术抽象提取时间序列数据的图像特征，并利用该特征训练神经网络分类器，最后将训练得到的神经网络分类器应用于时间序列数据的相似度匹配和分类当中。

下面结合流程框图1中所示的步骤，具体介绍本发明的技术方案。

步骤1：数据预处理

数据预处理阶段的主要内容及作用是将时间序列数据转化为能让自动编码机获得图像特征的图像格式。该处理的好坏会直接影响图像特征抽象的质量。本方法最终采用黑白两色的面积图作为时间序列数据图像化形式，即将时间序列转化为同等长度的正方形像素矩阵，每一列像素表示了一个数据。由于在预处理阶段采用了堆栈式自动编码机，所以在得到时间序列数据图像化形式后还要将其转化为堆栈式向量，最终形成堆栈式自动编码机的训练样本的输入与输出。

步骤2：预训练

处理完了自动编码机的输入与输出后，即可开始训练自动编码机，其结构框架如图2所示。该结构是以一个标准的三层神经网络结构为基础，进行了适当的改进得到的。首先，在输入层中，由于图片转化后的堆栈式向量输入往往是很高维的，本方法为了提高神经网络自学习的能力，在输入层加入了丢包机制，即以一定的概率使输入层节点的输入为零，这样，整个神经网络的有效输入层节点数会显著地降低，网络结构也就变得简单，随之带来的好处就是神经网络的学习性能有了大幅提升。该过程也类似与人类视觉处理的特点，当一个物体的某一个局部被遮挡时，人依然可以成功识别该物体的特征。此外，神经网络通过前向传播机制与误差反向传播机制进行训练，这两个机制可以保证整个网络结构的误差可以不断降低，最终达到期望的误差精度。

由于自动编码机的目的是使训练样本的输出能尽可能地接近输入，在这个过程中，通常把输入层到隐藏层的数据传递过程称为编码过程，而把隐藏层到输出层之间的数据传递过程称为解码过程。下面将针对这两个过程进行数学上的描述：

编码机：将输入转化成隐藏层特征的映射f_θ称为编码机。每一个输入向量X和权重矩阵W将应用于一个非线性的激活函数a(u)，比如tanh、sigmoid或者relu，这个过程可以表示为：

V＝f_θ(X)＝a(WX+b)

V是一个由编码机获得的特征矩阵。f_θ是一个仿射的映射，它的参数集为θ＝{W,b}，其中，W是一个d×n的权重矩阵，而b是一个d维的隐藏层补偿向量。

解码机：解码映射g_θ'被用于重构自动编码机的输出Y。它可以看作是编码机的逆过程。因此，解码机的结构与编码机相类似，其表达形式为：

Y＝g_θ'(V)＝o(W'V+b')

其中，o(v)为输出层的激活函数，W'为一个n×d维隐藏层到输出层之间的连接权重，而b'是一个n维的输出层补偿向量。解码机的参数集为θ'＝{W',b'}。

根据信息量最大化原理，一个好的表示应该从输入中获取尽可能多的信息，而在自动编码机里面，这种信息被隐藏在参数集{θ,θ'}中。而获得最优的参数集途径，即为最小化全局信息损失函数的过程。这个函数可以表示为：

\min E (X, Y) = \min_{θ, θ^{'}} Σ_{i = 1}^{n} Δ (X, Y; θ, θ^{'})

而在实际应用中，通常采用平方差损失函数，它的表示形式为：

L_{2} (X, Y) = Σ_{i = 1}^{n} {(x_{i} - y_{i})}^{2}

通过误差梯度反向传播机制，可以通过最小化信息损失函数来使得自动编码机达到输出尽可能地等于输入的效果。

而在本方法中，由于时间序列往往是高维数据，其转化为图像之后形成的堆栈式向量输入的维数将会比时间序列数据本身的维数有平方式的增长，这导致了自动编码机的输入节点数量极其庞大。庞大的输入节点数量会带来两个方面的弊端，其一，节点数量增加导致了自动编码机的神经网络结构复杂度增加，使得训练时间大大延长；其二，节点数量增加也会使整个网络的收敛性能下降，即神经网络的训练精度会有所下降。所以，本方法在这个问题上引入了丢包算法这个改进方案，即以一定的概率使得输入节点的输入值为零。这样，一定程度上削减了自动编码机的网络复杂程度，使得隐藏层的特征表示更加稀疏。实验结果表明，这种方法大大增加了自动编码机的训练精度，并且减少了训练所使用的时间。

所以，根据上面的描述，编码机映射f_θ可以被重新表示为：

其中，m是一个n维的二值向量，它的每一个元素m_j都服从Bernoulli(p)的伯努利分布，而M'是一个d×n维的带丢包连接矩阵，它的每一行都是相同的一个二值元素。在此基础之上，化简损失函数的形式，可以表达为：

这样，一些输入节点对于隐藏层节点的作用就会被屏蔽，而如果将|M|记为矩阵M中元素的个数，那么整个自动编码机网络的可能的形式就从2^|M|降到了种。

通过上述过程，即可训练得到含有训练样本图像特征的自动编码机网络。该网络可用于后续分类器的训练，减少分类器训练过程出现的过拟合现象，并且极大地提高了分类器的训练精度与训练效率。

步骤3：训练分类器

当自动编码机训练完毕，对于输入样本的良好表示就可以从编码机的权重当中获取。此时，可以利用这种良好的表示训练分类器。在本方法中，选取了误差反向传播神经网络分类器。训练分类器首先需要构造训练样本的期望输出。将本方法运用在不同的应用环境中，其分类器的期望输出是不相同的。例如，如果将本方法用于相似度匹配，那么期望输出应该构造成一个单位矩阵，这样相当于每一个训练样本都是一个，而分类器的最终目的是将训练样本归结到与自身所对应的那个类标中去；而如果将本方法应用于分类中，那么构造的期望输出就是训练样本自身的期望类标。在构造完期望输出之后，即可对分类器进行训练。由于选择了神经网络分类器，其结构与上面所提到的自动编码机所用到的神将网络结构类似，亦是一个标准三层神经网络。设置该网络的输入层到隐藏层之间的连接矩阵为已经在预训练阶段得到的编码机权重，这样就可以用到在与训练阶段得利用自动编码机得到的时间序列图像特征来提升分类器的分类精度。除此之外，选择合适的学习率，即可得到一个训练精度相当高的分类器。

步骤4：应用阶段

当预训练阶段与分类器训练阶段都完成后，会得到一个训练过的分类器，这个分类器里包含了时间序列样本的图像特征信息，并且已经把具有类似图像特征的样本映射到相应的类标上。利用这个训练好的分类器，就可以实现相似度匹配与分类的功能。

在实现相似度匹配时，将需要匹配的时间序列片段转化为与预训练阶段训练样本相同的图像转换格式，再将其转化为堆栈式向量，即可作为分类器的输入。通过分类器神经网络的计算，输出是该时间序列片段匹配最相近的时间序列片段序号。而在实现分类时，只需要将分类样本转化为图像格式，再将其转化为堆栈式向量作为分类器的输入。分类器的输出结果为该输入片段的分类类标。

在应用阶段，该方法的明显优势是：无论是被匹配的时间序列数据样本有多少，神经网络分类器仅需计算一次即可得出结果，这比现有的基于距离度量的相似度测量方法高效得多。同时，虽然预训练、分类器训练和应用这三个阶段有依次的参数依赖关系，但是由于自动编码机高效的特征抽象提取能力，参数的实时性并不会对分类器的性能造成很大的影响，换言之，如果需要数据更新，这三个阶段可以在不同的计算机上进行分布式并行计算更新。

优点及功效：本发明一种基于带丢包自动编码技术的时间序列数据图形化分析方法，其优点是：克服了现有时间序列分析方法注重时间序列数据特征而对数据形式变化十分敏感的缺点，模拟人类视觉系统处理时间序列数据的方式，通过时间序列数据的曲线图像特征来对时间序列数据进行相似度匹配与分类处理，对于不同特性的时间序列数据都有良好的匹配、分类精度，即大大提高了时间序列分析方法的鲁棒性与普适性。同时，在算法复杂度方面相较现有方法也有极大的优势。

附图说明

图1：带丢包自动编码技术的时间序列数据图形化分析方法流程图

图2：带丢包的自动编码机结构图

图3：编码机权重可视化结果

图4：6组匹配对象和4种方法分别匹配结果对比

具体实施方式

图1为带丢包自动编码技术的时间序列数据图形化分析方法流程图，图2为带丢包的自动编码机结构图。

本发明设计目标包括两个方面：其一，实现基于数据图形化的时间序列数据相似度匹配；其二，实现基于数据图形化的时间序列数据分类。具体实施中，相似度匹配采用2007.07.26至2014.06.06的美国纳斯达克100指数数据集，而在分类实验中采用了UCR实验室提供的Cyliner-Bell-Funnel(CBF)数据集,ECG200数据集,Synthetic Control数据集和Trace数据集，仿真和检验都借助于Matlab来实现。

实验一：时间序列数据相似度匹配

第一步：训练样本构造与参数初始化

根据自动编码机的结构特点，将纳斯达克100指数数据分割成长度为30的时间序列片段，每个片段之间间隔为5，这样，能够得到340张时间序列图像，每张图像的大小为30×30像素点。为了匹配图像大小，自动编码神经网络的输入节点的个数为900个，隐藏层节点为100个，相对应的输出节点也为900个。设置输入层的丢包概率为70％，输入层和输出层的激活函数都是sigm函数，神经网络学习率为1。通过反向传播的误差梯度下降算法，可以使输入与输出之间的误差逐步缩小。

第二步：预训练自动编码机

训练自动编码机3000次，使其训练均方误差达到10一下，表明整个网络的训练精度已经较高。将编码机权重进行可视化处理，结果显示在图3中，可以看出，经过自动编码机的训练，样本中的图像特征被隐藏层节点抽象提取出来，但是由于输入层丢包的稀疏表达，一些隐藏层节点并没有获得特征，说明网络并没有处于过拟合状态。

第三步：训练神经网络分类器

神经网络分类器的结构与自动编码机相类似，也是一个三层神经网络结构。输入层的节点个数为900个，隐藏层节点个数为100个，输出层的节点个数为340个。分类器的输入层和隐藏层之间的初始连接权重不再是随机产生，而是将预训练中自动编码机的编码机权重传递过来。通过这样的方式，使得在自动编码机中抽象获取的时间序列图像特征能够被神经网络分类器所有效利用。由于应用背景是相似度匹配，所以在构造分类器训练样本类标的时候相当于是将每一个样本映射到自身的类当中，如果一个时间序列片段与某个训练样本相似度最高，分类器的理想输出应该为对应训练样本的类标，即在对应的输出节点上输出1，而其余的节点输出为0。实际应用过程中几乎不会有这么完美的情况，所以一般选择所有节点输出值中最大的那个节点对应的类标为最终的分类结果。本实验中，对该分类器训练1000次，训练算法仍然采用误差梯度反向传播算法。训练后的网络误差降到了0.0001以下，并且训练速度相较自动编码机有明显提升。

第四步：相似度匹配

当分类器训练达到了期望的精度，该分类器就可以用于相似度匹配。为了验证本方法的精度与效率，我们构造了六组具有特殊走势特征的时间序列标准样本作为本次试验的匹配对象。这六组时间序列样本和由欧氏距离(ED)，动态弯曲距离(DTW)和本方法(TSV)分别匹配出来的最符合该样本测试集的时间序列片段显示在图4中。此外，为了衡量各个方法匹配的片段的相似度情况，选取了余弦相似度指标作为参考评判标准。其表达式为：

\cos (D_{i}, D_{j}) = \frac{Σ_{k = 1}^{n} w_{ik} w_{jk}}{\sqrt{Σ_{k = 1}^{n} {w_{ik}}^{2}} \sqrt{Σ_{k = 1}^{n} {w_{jk}}^{2}}}

利用该指标评判各个方法的相似度匹配性能，其结果和三种方法的运行时间在表1中显示。

表1三种方法匹配结果的余弦相似度和运行时间比较

从上表可以看出，本方法在相似度精度上对比DTW有很大的优势，对比ED几乎不相上下，但是在运行时间上来看，本方法的运行时间远远低于其它两种方法，说明本方法在不丢失精度的情况下，效率相较于其他方法有了大幅度提升。

实验二：时间序列数据分类

第一步：训练样本构造与参数初始化

该步骤与相似度匹配中的第一步过程基本类似，只是在训练样本构造中，由于测试时间序列数据集的特性不同，导致输入的样本数据格式不一致。在转化为图像后，可能导致图像大小不相同的情况，从而导致自动编码机输入节点个需要更改。当时间序列数据长度比较大的时候，其转换后的堆栈式输入向量就会以平方增长，使得自动编码机神经网络的性能快速下降。所以，必须对不同长度的时间序列数据做统一处理，使最终的输入向量长度一致，也在合理范围之内。而这个过程，也是为了使得本方法可以应用于各种长度的时间序列数据集，增强了算法的鲁棒性。幸运的是，图像的大小变换是一个极其容易实现的过程，通过插值的方法，在本实验中，将所有的时间序列数据图像伸缩到与上一个实验相同的30×30像素大小的图像，并将之转化为堆栈式输入向量。

四个本实验采用的时间序列分类测试集的属性显示在下表中：

表2四个分类测试时间序列数据集的属性统计

可见，长度最长的Trace数据集的长度为275，远远高于压缩之后的长度30，但是从分类实验结果可以看出，该分类测试集的准确率为100％，这也证明了本方法具有卓越的普适性和鲁棒性。

第二步：预训练自动编码机

该过程与上一个实验的第二步相同，参数为：输入节点数900个，隐藏层节点数100个，输出层节点900个，输入层的丢包概率为70％，输入层和输出层的激活函数都是sigm函数，神经网络学习率为1。训练次数为3000次。

第三步：训练分类器

该过程与上一个实验的第三步相同，参数为：输入节点数900个，隐藏层节点数100个，输出层节点数与分类数相同，输入层和输出层的激活函数都是sigm函数，神经网络学习率为1。训练次数为1000次。

第四步：分类

本次分类测试选取了表2中列出的4种时间序列数据集作为测试集，并选取了常用6种时间序列分类方法与本方法进行比较，它们分别为：基于欧式距离的1近邻分类法(1-NNEuclidean Distance)、基于动态弯曲距离的1近邻分类法(1-NN DTW)、基于实序列编辑距离的1近邻分类法(1-NN EDR)、基于实补偿编辑距离的1近邻分类法(1-NN ERP)、基于最长公共子序列的1近邻分类法(1-NN LCSS)和基于欧氏距离的支持向量机分类法(SVMEuclidean Distance)。此外，为了排除随机性对本分类实验的影响，每个时间序列测试集的分类实验都重复了50次，并且取平均分类误差率，在表3中显示：

表37种时间序列分类方法在4个标准测试集中的分类误差率

从上表中可以看出，本方法在ECG200和Trace时间序列数据集中表现为7种分类方法中最好的，而在CBF数据集和Synthetic Control数据集中准确率分别名列第三和第二位，且与表现最好的方法差距很小。从这四个测试集的表现可以看出，本方法在不同特性的时间序列数据集中的分类效果十分优异且稳定，但是其它基于距离度量的分类方法往往在某一些测试集上有良好的表现，而在其它数据集上表现不佳。

至此，基于带丢包自动编码技术的时间序列数据图形化相似度匹配和分类功能已全部实现，实验结果证明了该方法在普适性、鲁棒性和时间复杂度上有很大的优势。最后所应说明的是：以上实施案例仅用以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于带丢包自动编码技术的时间序列数据图形化分析方法，其特征在于：该方法具体步骤如下：

步骤1：数据预处理

数据预处理阶段是将时间序列数据转化为能让自动编码机获得图像特征的图像格式；该处理的好坏会直接影响图像特征抽象的质量，最终采用黑白两色的面积图作为时间序列数据图像化形式，即将时间序列转化为同等长度的正方形像素矩阵，每一列像素表示了一个数据，由于在预处理阶段采用了堆栈式自动编码机，所以在得到时间序列数据图像化形式后还要将其转化为堆栈式向量，最终形成堆栈式自动编码机的训练样本的输入与输出；

步骤2：预训练

处理完了自动编码机的输入与输出后，即开始训练自动编码机，该结构是以一个标准的三层神经网络结构为基础，进行了适当的改进得到；首先，在输入层中，由于图片转化后的堆栈式向量输入往往是很高维的，为了提高神经网络自学习的能力，在输入层加入了丢包机制，即以一定的概率使输入层节点的输入为零，这样，整个神经网络的有效输入层节点数会显著地降低，网络结构也就变得简单，随之带来的好处就是神经网络的学习性能有了大幅提升；该过程也类似与人类视觉处理的特点，当一个物体的某一个局部被遮挡时，人依然可以成功识别该物体的特征；此外，神经网络通过前向传播机制与误差反向传播机制进行训练，这两个机制能保证整个网络结构的误差不断降低，最终达到期望的误差精度；

由于自动编码机的目的是使训练样本的输出能尽可能地接近输入，在这个过程中，通常把输入层到隐藏层的数据传递过程称为编码过程，而把隐藏层到输出层之间的数据传递过程称为解码过程，下面将针对这两个过程进行数学上的描述：

编码机：将输入转化成隐藏层特征的映射f_θ称为编码机，每一个输入向量X和权重矩阵W将应用于一个非线性的激活函数a(u)，这个过程表示为：

V＝f_θ(X)＝a(WX+b)

V是一个由编码机获得的特征矩阵，f_θ是一个仿射的映射，它的参数集为θ＝{W,b}，其中，W是一个d×n的权重矩阵，而b是一个d维的隐藏层补偿向量；

解码机：解码映射g_θ'被用于重构自动编码机的输出Y，它看作是编码机的逆过程，因此，解码机的结构与编码机相类似，其表达形式为：

Y＝g_θ'(V)＝o(W'V+b')

其中，o(v)为输出层的激活函数，W'为一个n×d维隐藏层到输出层之间的连接权重，而b'是一个n维的输出层补偿向量，解码机的参数集为θ'＝{W',b'}；

根据信息量最大化原理，一个好的表示应该从输入中获取尽可能多的信息，而在自动编码机里面，这种信息被隐藏在参数集{θ,θ'}中；而获得最优的参数集途径，即为最小化全局信息损失函数的过程，这个函数表示为：

\min E (X, Y) = \min_{θ, θ^{'}} Σ_{i = 1}^{n} Δ (X, Y; θ, θ^{'})

L_{2} (X, Y) = Σ_{i = 1}^{n} {(x_{i} - y_{i})}^{2}

通过误差梯度反向传播机制，能通过最小化信息损失函数来使得自动编码机达到输出尽可能地等于输入的效果；

由于时间序列往往是高维数据，其转化为图像之后形成的堆栈式向量输入的维数将会比时间序列数据本身的维数有平方式的增长，这导致了自动编码机的输入节点数量极其庞大；庞大的输入节点数量会带来两个方面的弊端，其一，节点数量增加导致了自动编码机的神经网络结构复杂度增加，使得训练时间大大延长；其二，节点数量增加也会使整个网络的收敛性能下降，即神经网络的训练精度会有所下降；所以，引入了丢包算法这个改进方案，即以一定的概率使得输入节点的输入值为零，这样，一定程度上削减了自动编码机的网络复杂程度，使得隐藏层的特征表示更加稀疏；实验结果表明，该方法大大增加了自动编码机的训练精度，并且减少了训练所使用的时间；

根据上面的描述，编码机映射f_θ被重新表示为：

其中，m是一个n维的二值向量，它的每一个元素m_j都服从Bernoulli(p)的伯努利分布，而M'是一个d×n维的带丢包连接矩阵，它的每一行都是相同的一个二值元素；在此基础之上，化简损失函数的形式，表达为：

这样，一些输入节点对于隐藏层节点的作用就会被屏蔽，而如果将|M|记为矩阵M中元素的个数，那么整个自动编码机网络的可能的形式就从2^|M|降到了种；

通过上述过程，即可训练得到含有训练样本图像特征的自动编码机网络；该网络可用于后续分类器的训练，减少分类器训练过程出现的过拟合现象，并且极大地提高了分类器的训练精度与训练效率；

步骤3：训练分类器

当自动编码机训练完毕，对于输入样本的良好表示就从编码机的权重当中获取，此时，能利用这种良好的表示训练分类器；这里选取了误差反向传播神经网络分类器，训练分类器首先需要构造训练样本的期望输出，运用在不同的应用环境中，其分类器的期望输出是不相同的；如果将用于相似度匹配，那么期望输出应该构造成一个单位矩阵，这样相当于每一个训练样本都是一个，而分类器的最终目的是将训练样本归结到与自身所对应的那个类标中去；如果应用于分类中，那么构造的期望输出就是训练样本自身的期望类标，在构造完期望输出之后，即对分类器进行训练；由于选择了神经网络分类器，其结构与上面所提到的自动编码机所用到的神将网络结构类似，亦是一个标准三层神经网络；设置该网络的输入层到隐藏层之间的连接矩阵为已经在预训练阶段得到的编码机权重，这样就用到在与训练阶段得利用自动编码机得到的时间序列图像特征来提升分类器的分类精度；除此之外，选择合适的学习率，即得到一个训练精度相当高的分类器；

步骤4：应用阶段

当预训练阶段与分类器训练阶段都完成后，会得到一个训练过的分类器，该分类器里包含了时间序列样本的图像特征信息，并且已经把具有类似图像特征的样本映射到相应的类标上；利用这个训练好的分类器，就能实现相似度匹配与分类的功能；

在实现相似度匹配时，将需要匹配的时间序列片段转化为与预训练阶段训练样本相同的图像转换格式，再将其转化为堆栈式向量，即作为分类器的输入；通过分类器神经网络的计算，输出是该时间序列片段匹配最相近的时间序列片段序号，而在实现分类时，只需要将分类样本转化为图像格式，再将其转化为堆栈式向量作为分类器的输入；分类器的输出结果为该输入片段的分类类标；

在应用阶段，无论是被匹配的时间序列数据样本有多少，神经网络分类器仅需计算一次即可得出结果，这比现有的基于距离度量的相似度测量方法高效得多；同时，虽然预训练、分类器训练和应用这三个阶段有依次的参数依赖关系，但是由于自动编码机高效的特征抽象提取能力，参数的实时性并不会对分类器的性能造成很大的影响，换言之，如果需要数据更新，这三个阶段能在不同的计算机上进行分布式并行计算更新。