CN115081489A

CN115081489A - 基于小波分解矩阵和残差网络的时间序列分类方法

Info

Publication number: CN115081489A
Application number: CN202210827820.2A
Authority: CN
Inventors: 刘然; 陈鑫; 易琳; 崔珊珊; 陈丹; 任席伟; 王仕丹; 陈宇泽
Original assignee: Chongqing University; Chongqing University Cancer Hospital
Current assignee: Chongqing University; Chongqing University Cancer Hospital
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-09-20

Abstract

本发明公开了一种基于小波分解矩阵和残差网络的时间序列分类方法，其包括步骤：1)对时间序列数据进行图像化表示，2)以时间序列的图像化表示G作为分类网络的输入，通过分类网络的非线性函数f_c：

进行映射，得到G对应的分类表示

3)设置总体目标L_total，实现联合优化图像化表示转换阶段的监督目标L_s和分类阶段的监督目标L_c。本发明提出了一种新的时间序列图像化表示方法——小波分解矩阵，还提出了图像化表示阶段的相似性约束，通过结合相似性约束和最小化分类误差约束，将图像化表示阶段和分类阶段集成在一起进行联合优化，这样端到端的联合优化方式，帮助达到更好的分类效果。

Description

基于小波分解矩阵和残差网络的时间序列分类方法

技术领域

本发明涉及数据分类技术领域，特别涉及一种单变量时间序列的分类方法。

背景技术

大数据时代，我们在日常生活中不断产生大量时间序列数据。在各种时间序列分析任务中，TSC是最基本且重要的一项。近年来，随着时间序列的可用性日渐提升，国内外研究人员对时间序列分类的研究不断深入，已提出许多时间序列分类(Time seriesclassification,TSC)算法。传统的时间序列分类方法可以大致分为以下三类：基于距离的方法、基于特征的方法和基于集成的方法。

基于距离的TSC方法中最流行的方法之一是使用最近邻分类器和距离函数。当DTW距离与最近邻分类器一起使用时，被证明是一个非常强的基线。基于特征的方法在分类之前需要进行复杂的数据预处理、特征提取以及特征选择等操作。基于集成的方法将多种特征和分类器集成在一个框架中以获得更好的性能。尽管基于集成的方法通常可以实现非常令人印象深刻的性能，但它们很复杂，计算成本高且耗时。因此，很难在现实世界中应用这些方法。此外，这些传统方法有一个共同点，它们的特征表示阶段和分类阶段是分离的。手工提取特征的表示能力较弱，在一定程度限制了这些方法的分类性能。因此，通过传统方法提高分类准确率变得越来越困难。

近年来随着深度学习的发展，深度学习已成为时间序列分类领域更通用且有效的方法。深度神经网络(Deep neural networks,DNNs)在特征提取方面的优势，克服了传统方法的特征表示能力较弱的缺点。因此，这些DNNs方法显示出令人鼓舞的性能。

另外的一些研究开始将时间序列分类任务转换为图像识别任务。具体而言就是先按照某种方法(GAF、MTF、RP、RPM)将一维时间序列转换为二维图像(即图像化表示阶段)，然后由CNN模型自动提取显著特征进行分类(分类阶段)。图像化是时间序列表示的不同视角，图像化表示引入了与一维信号不同类型的特征。

目前时间序列分类任务转换为图像识别任务的方法中，图像化表示阶段和分类阶段是分离的。虽然这种低耦合的方式也在一定程度上提高了时间序列分类的性能，但图像化表示阶段生成的图像是基于主观经验进行转换得到的，并不是通过独立的参数推理过程进行优化的，即图像化表示阶段不可以通过训练达到最优解。如何将图像化表示阶段集成到深度学习分类阶段的框架中仍然是一个巨大的挑战。

发明内容

有鉴于此，本发明的目的在于提供一种基于小波分解矩阵和残差网络的时间序列分类方法，以解决如何将图像化表示阶段集成到深度学习分类阶段中，并提升对时间序列数据分类性能的技术问题。

本发明基于小波分解矩阵和残差网络的时间序列分类方法包括以下步骤：

1)对时间序列数据进行图像化表示，其又包括以下步骤：

1a)小波分解网络WDNs通过如下公式逐层分解输入时间序列x＝[x₁,x₂,...,x_T]^T

其中，x^h(i-1)表示第i-1级低频子序列，i≥1；x^h(0)表示输入时间序列x＝[x₁,x₂,...,x_T]^T；σ(·)是sigmoid激活函数，W^h(i)和W^g(i)是第i层全连接层的权重；b^l(i)和b^g(i)是第i层全连接层的偏置向量，W^h(i)、W^g(i)、b^l(i)和b^g(i)都是可训练的参数；z^h(i)和z^g(i)则表示第i级分解得到的中间子序列；

通过公式(1)得到的第i层中间子序列z^h(i)和z^g(i)被输入到平均池化层进行下采样，计算过程如下：

其中

表示z^h(i)的第j个元素，z^h(i)和z^g(i)经过下采样后得到第i层低频子序列x^h(i)和高频子序列x^g(i)，

表示x^h(i)的第j个元素；

使用低通滤波器h＝[h₁,h₂,...,h_K]和高通滤波器g＝[g₁,g₂,...,g_K]初始化W^h(i)和W^g(i)，下标K代表滤波器的长度，W^h(i)和W^g(i)的初始权重定义如下：

其中，ε是随机初始化的值，满足

和

W^h(i)和W^g(i)∈R^L ^×L，L表示x^h(i-1)的长度；

和

分别表示W^h(i)和W^g(i)的第p行第q列对应的元素，p+K-1≤L；

WDNs的I级分解得到I条低频子序列和I条高频子序列，第i级子序列的长度为T/(2ⁱ)，其中T指原始输入时间序列x的长度，1≤i≤I；由于各级子序列的长度不一致，对于长度小于T/2的第i(2≤i≤I)级子序列，将该序列重复2^i-1次；

1b)用WDNs分解时间序列x＝[x₁,x₂,...,x_T]^T得到的子序列构成集合χ^I＝{x^g(1),x^h(1),x^g(2),x^h(2),...,x^g(I),x^h(I)}，随后通过小波分解矩阵以每条子序列作为二维矩阵M中每一行的参考，组合集合χ^I中的所有子序列得到一个(2×I)×(T/2)的二维矩阵M，其中I表示分解的级数，T表示输入时间序列x的长度；

用m_p,q表示M的第p行第q列的元素，则m_p,q与各级分解子序列中的各元素之间的联系如下：

其中，

表示第i个低频子序列x^h(i)的第j个元素，

表示第i个高频子序列x^g(i)的第j个元素，符号％表示取余，i和j的表示如下：

1c)采用min-max标准化将M转换为最终的灰度值矩阵G：

输入时间序列x经由图像化表示阶段，被转换为图像化表示G＝f_s(x,W_s)，其中G∈R^m×n，m＝2×I,n＝(T/2),f_s表示图像化表示阶段中所有的非线性激活函数，W_s表示图像化表示阶段中所有的可训练参数，W_s包含W^h(i),W^g(i),b^h(i)和b^g(i)；

2)以时间序列的图像化表示G作为分类网络的输入，通过分类网络的非线性函数f_c：

进行映射，得到G对应的分类表示

所述分类网络为由一个卷积层、一个BN层、一个最大池化层、四个残差块、一个全局平均池化层和一个全连接层依次连接组成的残差网络；其中，W_c表示残差网络中所有的可训练参数，非线性函数f_c由Relu层实现；

每个残差块包括两个卷积块和一个快捷连接，残差块中的每个卷积块包括：两个卷积层、两个批标准化层和一个Relu激活层，卷积层和批标准化层交叉连接，Relu激活层与第二个批标准化层的输出连接，所述快捷连接将残差块的输入直接与第二个批标准化层的输出连接；

第一个残差块、第二个残差块和第四个残差块中的卷积层的步长都是1，第一个残差块、第二个残差块和第四个残差块中的卷积块的计算过程如下：

其中，x是输入，

表示卷积运算，BN表示批标准化层对应的运算，用Block_k代表公式(7)的计算过程，k表示卷积块中卷积核的个数，残差块的计算过程如公式(8)所示：

第三个残差块和另外三个残差块的区别在于：第三个残差块的第一个卷积层的步长为2，第三个残差块的快捷连接上多了一个步长为2的卷积层和一个批标准化层；经过第三个残差块的处理，输出数据的尺寸降为输入数据尺寸的一半；第三个残差块中的卷积块的计算过程如公式(7)所示，第三个残差块的整个计算过程如公式(9)所示：

第四个残差块的输出与全局平均池化层连接，全局平均池化层对每个通道的特征图中的所有像素值计算一个平均值，假设该层的输入形状为H×W×C，则全局平均池化之后形状变为1×1×C，H和W分别表示特征图的高度和宽度，C表示通道数；

全局平均池化层的输出与全连接层连接，全连接层输出分类结果；

3)设计监督约束目标函数L_s对时间序列的图像化表示G进行相似性约束，来保证类间间距最大化、类内间距最小化，设置交叉熵损失函数L_c作为分类的经典目标函数，让分类网络的预测结果更接近样本的真实标签值；

L_s的定义如下：

针对二分类问题：

L_s＝{-[(m₀-m₁)²-δ×(s₀+s₁)]}² (10)

其中，下标j∈{0,1}，m_j表示第j类样本的类别中心点，|D_j|表示集合D_j中的样本数量，D_j表示时间序列数据集X经过图像化表示阶段得到的图像化表示G的第j类样本集合，G_i表示G中的第i个样本，1≤i≤|G|,|G|表示总的样本数，mean(G_i)表示样本G_i的全部像素的均值，即计算过程中用一张图像的全部像素的均值表示该图像；δ表示类内分散程度所占的权重；s_j表示第j类样本的类内分散程度；

针对多分类问题：

其中

为类间间距，多分类情形中类间间距表示每类的类别中心m_j与全体样本类别中心m的差距之和；

针对二分类问题的交叉熵损失函数L_c公式如下：

其中，y是样本的真实标签，

是分类网络输出层的实际输出结果，N是样本数；针对多分类问题的交叉熵损失函数L_c公式如下：

其中，C是类别数量，N是样本数，

表示观测样本i属于类别j的预测概率，y_i,j是样本的真实标签，y_i,j是符号函数，如果样本i的真实类别等于j，则y_i,j取值为1，否则y_i,j的取值为0；

设置总体目标L_total，实现联合优化图像化表示转换阶段的监督目标L_s和分类阶段的监督目标L_c，总体目标L_total定义如下：

L_total＝L_c+λ₁L_s+λ₂(||W_s||₂) (16)

其中，λ₁是一个平衡参数，用于平衡两个目标函数，λ₂是一个正则化参数，用于控制图像化表示阶段学习到的表示的边界以提高泛化性能。

进一步，所述步骤1)中选择I＝3，即对输入时间序列进行3级离散小波分解，最终组成一个6×(T/2)大小的二维矩阵M；I＝3时，M的表达公式如下：

本发明的有益效果：

1、本发明提出了一种新的时间序列图像化表示方法——小波分解矩阵(WDM)，WDM将1D时间序列数据转换为2D图像，生成的图像中包含隐藏在时间序列中的多尺度的时域和频域信息。

2、本发明还提出了图像化表示阶段的相似性约束(Similarity constraint)。为了充分利用时间序列的标签信息，对WDM生成的图像进行相似性约束，通过最大化类间间距、最小化类内间距的相似性约束，让相同类别的图像相互靠近，不同类别的图像之间相互远离，更利于分类。

3、本发明在分类阶段，利用改进的ResNet模型来对这些2D图像进行分类，分类阶段的优化目标是最小化分类误差。通过结合相似性约束和最小化分类误差约束，将图像化表示阶段和分类阶段集成在一起进行联合优化，这样“端到端”的联合优化方式，帮助达到更好的分类效果。

4、通过对比实验，实验结果表明，在UCR数据集上，WDM转图像方法比其他的时间序列图像化方法效果更好。其次，消融实验的结果说明，无论是WDM还是类内、类间相似性约束，在WDM-ResNet框架中都是必要且有效的存在，它们的存在有助于获得更好的时间序列表示，进而提高了TSC性能。实验还将WDM-ResNet与其他先进的TSC方法在UCR的光谱类型的数据集上进行比较。结果表明，WDM-ResNet提高了基于CNN的TSC方法的分类准确率。总的来说，针对TSC问题，本发明所提出的基于小波分解矩阵和残差网络(WDM-ResNet)的时间序列分类方法，是一个很好的解决方案。

附图说明

图1为WDM-ResNet的框架图。

图2为图像化表示阶段图。

图3为改进的残差网络的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步描述。

本实施例中基于小波分解矩阵和残差网络的时间序列分类方法包括以下步骤：

1)对时间序列数据进行图像化表示，其又包括以下步骤：

其中，x^h(i-1)表示第i-1级低频子序列，i≥1；x^h(0)表示输入时间序列x＝[x₁,x₂,...,x_T]^T；σ(·)是sigmoid激活函数，W^h(i)和W^g(i)是第i层全连接层的权重；b^l(i)和b^g(i)是第i层全连接层的偏置向量，W^h(i)、W^g(i)、b^l(i)和b^g(i)都是可训练的参数；z^h(i)和z^g(i)则表示第i级分解得到的中间子序列。

其中

表示x^h(i)的第j个元素。

其中，ε是随机初始化的值，满足

和

W^h(i)和W^g(i)∈R^L ^×L，L表示x^h(i-1)的长度；

和

分别表示W^h(i)和W^g(i)的第p行第q列对应的元素，p+K-1≤L。

WDNs的I级分解得到I条低频子序列和I条高频子序列，第i级子序列的长度为T/(2ⁱ)，其中T指原始输入时间序列x的长度，1≤i≤I；由于各级子序列的长度不一致，对于长度小于T/2的第i(2≤i≤I)级子序列，将该序列重复2^i-1次。

本实施例中具体选择I＝3，即对输入时间序列进行3级离散小波分解，最终组成一个6×(T/2)大小的二维矩阵M；I＝3时，M的表达公式如下：

1b)用WDNs分解时间序列x＝[x₁,x₂,...,x_T]^T得到的子序列构成集合χ^I＝{x^g(1),x^h(1),x^g(2),x^h(2),...,x^g(I),x^h(I)}，随后通过小波分解矩阵以每条子序列作为二维矩阵M中每一行的参考，组合集合χ^I中的所有子序列得到一个(2×I)×(T/2)的二维矩阵M，其中I表示分解的级数，T表示输入时间序列x的长度。

其中，

表示第i个低频子序列x^h(i)的第j个元素，

1c)采用min-max标准化将M转换为最终的灰度值矩阵G：

输入时间序列x经由图像化表示阶段，被转换为图像化表示G＝f_s(x,W_s)，其中G∈R^m×n，m＝2×I,n＝(T/2),f_s表示图像化表示阶段中所有的非线性激活函数，W_s表示图像化表示阶段中所有的可训练参数，W_s包含W^h(i),W^g(i),b^h(i)和b^g(i)。

进行映射，得到G对应的分类表示

所述分类网络为由一个卷积层、一个BN层、一个最大池化层、四个残差块、一个全局平均池化层和一个全连接层依次连接组成的残差网络；其中，W_c表示残差网络中所有的可训练参数，非线性函数f_c由Relu层实现。

每个残差块包括两个卷积块和一个快捷连接，残差块中的每个卷积块包括：两个卷积层、两个批标准化层和一个Relu激活层，卷积层和批标准化层交叉连接，Relu激活层与第二个批标准化层的输出连接，所述快捷连接将残差块的输入直接与第二个批标准化层的输出连接。

其中，x是输入，

第四个残差块的输出与全局平均池化层连接，全局平均池化层对每个通道的特征图中的所有像素值计算一个平均值，假设该层的输入形状为H×W×C，则全局平均池化之后形状变为1×1×C，H和W分别表示特征图的高度和宽度，C表示通道数。

全局平均池化层的输出与全连接层连接，全连接层输出分类结果。

表1显示了本实施例中分类网络(残差网络)中关键的超参数设置，以及网络中每一层数据的维度变化。该表中的“Output size”隐式地反映了每一层如何处理数据。“Output size”的第一个元素代表样本数，“None”表明它是由实际样本数决定的，第二个元素代表的是通道，即卷积层的filters)个数，如果有第三个元素和第四个元素，那这最后两个元素分别代表的是特征图的高度和宽度(假设输入图像的高和宽分别为H和W。表1中最后一个Dense层的神经元个数是class_num，class_num代表数据集的类别数。

表1分类网络中每层超参数设置和数据的维度变化。以输入数据的形状为(1,H,W)为例，其中1指输入图像通道数，H和W指输入图像的高度和宽度

从表1能够看出，不同于其他图像分类模型中的二维卷积层，它们的卷积核的大小一般是3×3或者7×7的正方形，在本实施例中改进的残差网络中，卷积核的大小为1×3或者1×7。这么做考虑到了我们生成的时间序列的图像化表示G包含的实际意义。图像化表示G中的每一行都包含了原始时间序列中特定尺度的时间和频率信息。因此，为了挖掘不同时域和频域下包含的模式信息，我们选择1×3或者1×7的卷积核，对G逐行进行卷积。使用一般的3×3或者7×7的正方形卷积核，会把不同尺度的频域和时域信息混合，采用我们的卷积核就能避免趋势混淆的问题。

3)设计监督约束目标函数L_s对时间序列的图像化表示G进行相似性约束，来保证类间间距最大化、类内间距最小化，设置交叉熵损失函数L_c作为分类的经典目标函数，让分类网络的预测结果更接近样本的真实标签值。

L_s的定义如下：

针对二分类问题：

L_s＝{-[(m₀-m₁)²-δ×(s₀+s₁)]}² (10)

针对多分类问题：

其中

为类间间距，多分类情形中类间间距表示每类的类别中心m_j与全体样本类别中心m的差距之和。

针对二分类问题的交叉熵损失函数L_c公式如下：

其中，y是样本的真实标签，

是分类网络输出层的实际输出结果，N是样本数；

针对多分类问题的交叉熵损失函数L_c公式如下：

其中，C是类别数量，N是样本数，

表示观测样本i属于类别j的预测概率，y_i,j是样本的真实标签，y_i,j是符号函数，如果样本i的真实类别等于j，则y_i,j取值为1，否则y_i,j的取值为0。

L_total＝L_c+λ₁L_s+λ₂(||W_s||₂) (16)

下面通过该实验来验证本实施例中所提方法的分类性能。

在UCR的12个光谱类型的数据集上进行实验。数据集的详细信息如表2所示，包括数据集的名称(Name)、类型(Type)、训练集样本数(Train)、测试集样本数(Test)、类别数(Class)、时间序列长度(Length)等信息，按照时间序列长度从上到下排列。

表2使用的12个光谱类型的数据集信息汇总

实验设置

利用Pytorch来实现基于小波分解矩阵和残差网络的时间序列分类方法中的WDM-ResNet。分类阶段改进的ResNet结构中卷积核的个数、卷积核的大小，步长等关键的超参数的设置详见表1。WDM-ResNet整个框架的总体目标中有两个关键的参数λ₁,λ₂。其中正则化参数λ₂被固定为0.01。λ₁是一个平衡参数，用于平衡两个目标函数，是一个需要调参的超参数，参数选择范围为{10,50,100,500,1000}。另一个需要调参的超参数是学习率，学习率的调参范围是{0.0001,0.00005,0.00001}。本文选择的调参算法是网格搜索，在需要调参的超参数数量少，且调参范围小的情况下，网格搜索是一个很好的调参工具。我们采用分层随机抽样从训练集中抽取20％做为验证集，根据模型在验证集上的性能选择合适的超参数λ₁和学习率。

此外，WDM-ResNet框架的优化器(Optimizer)选择的是Adam。Batch size设置如下：

batch_size＝int(min(N/10,16)) (17)

其中，N表示数据集的总体训练集样本数，int为取整函数，min表示求两者中的最小值。迭代次数(Epoch)设为500。本文的模型在每个数据集上分别进行实验，并且在每个数据集上进行五次重复实验，取五次测试结果的平均值作为最终的结果。

评价指标

为了评估各种分类算法的性能，我们计算每种算法在所有数据集上的“平均错误率(ME)”以及“获胜次数(Wins)”。平均错误率指的是特定算法在所有数据集上错误率的平均值，获胜次数是计算特定算法获得最低错误率的数据集个数。

此外，我们还选择平均每类错误率(Mean per-class error,MPCE)作为评价指标。具体来说，MPCE被定义为每类错误率(Per-class error,PCE)的算术平均值。对于具有K个数据集的数据集集合，第k个数据集对应的类别数是C_k，模型i在这个数据集上的错误率是e_k，MPCE计算如公式(18)所示。

实验结果

为了评估不同方法的性能，选择在表2中罗列的12个UCR数据集上进行对比实验。此外，我们将WDM-ResNet与以下这些先进的方法进行比较。

FCN和ResNet：这两个分类器被广泛认为是基于神经网络的TSC基线方法。

InceptionTime：它是五个深度卷积神经网络模型的平均加权集成，每个模型都是级联多个Inception模块建的。

ROCKET：使用大量随机卷积核来转换时间序列。

RP-CNN和RPM-CNN：先将时间序列转成图像，利用CNN对图像分类。

ED和DTW：利用欧氏距离和DTW计算相似性，结合最近邻算法使用。

BOSS：从符号傅里叶近似(Symbolic fourier approximation,SFA)离散化获得的频率直方图中计算定制的欧氏距离，然后用最近邻分类器的集合完成分类。

Shapelet转换(ST)：从训练集中提取判别子序列shapelets送到现成的分类器，例如支持向量机或随机森林，完成分类。

HIVE-COTE：在不同的时间序列表示上构建不同分类器的集合(称为COTE)显着提高了分类的准确率，使用分层投票方案扩展COTE，进一步改进集成决策，命名为HIVE-COTE。

表3给出了WDM-ResNet与其他先进的方法的分类错误率，评价指标(平均错误率(ME)、获胜次数(Wins)和平均每类错误率(MPCE))列在底部三行。每个数据集上获得最佳性能的分类器的结果被加粗、加下划线以突出显示。表中，ED(w＝0)、DTW(w＝100)和DTW(learned_w)的错误率结果来自于网站https://www.cs.ucr.edu/～eamonn/time_series_data_2018/，BOSS、ST和HIVE-COTE(HC)的结果来自于网站https://www.timeseriesclassification.com/results.php。对于公开代码的方法(InceptionTime、Rocket、ResNet和FCN)，按照作者提供的代码重复进行五次实验，最终结果取五次实验结果的平均值。RP-CNN和RPM-CNN这两个基于图像化的方法没有公开代码，则按照论文中给的参数和结构信息进行复现，实验结果也取的是运行五次的结果的平均值。

从表3可以看出，本实施例提出的WDM-ResNet框架在获胜次数这个评价指标上获得了第一名，在5个数据集上获胜。WDM-ResNet框架在TSC问题上的表现明显优于其他的图像化方法。跟InceptionTime和Rocket这样先进的基于深度学习的分类方法相比，WDM-ResNet同样获得了最好的获胜次数、最低的平均错误率和平均每类错误率。WDM-ResNet提高了基于深度学习的时间序列分类方法的性能。WDM-ResNet在平均错误率和平均每类错误率这两个指标上的性能比HIVE-COTE稍差，这可能是由于训练样本不足导致的，如果可以获得更多的训练样本，WDM-ResNet可能会获得更好的实验结果。虽然HIVE-COTE总体表现较好一些，但HIVE-COTE的时间和空间复杂度都非常高，实用性不强。综合来看，本实施例中提出的WDM-ResNet是完成TSC任务更好的选择。

表3不同方法在UCR的12个光谱类型的数据集上的错误率

WDM转换的必要性

本发明(基于小波分解矩阵和残差网络的时间序列分类方法)提出的WDM图像化表示方法，WDM基于小波分解挖掘时间序列隐藏在不同时域和频域中的多尺度信息。与使用原始时间序列作为输入相比，引入图像化表示看起来似乎把时间序列分类问题复杂化了。为了证明在WDM-ResNet框架中，图像化表示这一阶段是有效的、不冗余的，我们将WDM-ResNet框架中去掉WDM转图像这一阶段与WDM-ResNet作对比。表4显示了有/无WDM的对比结果。

从表4看出，去掉WDM(without WDM)，在获胜次数、平均错误率和平均每类错误率上的结果都远不如WDM-ResNet。表4的结果有力地证明了本文提出的WDM图像化方法的有效性和必要性。

表1对比有/无WDM对性能的影响

相似性约束的必要性

在图像化表示阶段，为了充分利用有监督的标签信息，我们对生成的图像进行相似性约束，利用最大化类间间距并最小化类内间距的相似性约束目标，期望生成的不同类别的图像之间相似性低，相同类别的图像相似性高，便于后续进行分类。为了证明相似性约束的有效性，我们将WDM-ResNet框架中是否包含相似性约束进行对比。

表5显示了以UCR中的光谱类型数据集为例，WDM-ResNet框架中包含相似性约束(with similarity constraint)与不包含相似性约束(without similarity constraint)的分类性能。从表5的数据可以看出，无论是在获胜次数还是在平均错误率、平均每类错误率上，包含相似性约束的WDM-ResNet框架的结果都比没有相似性约束的结果更好。带有相似性约束的WDM-ResNet框架在10个数据集上获得了第一名，获胜次数远大于不带相似性约束的情形。这样的结果说明，在图像化表示阶段添加相似性约束是有意义的。

表5 WDM-ResNet框架中有/无相似性约束对分类性能的影响

与其他图像化表示方法的比较

WDM-ResNet是一种图像化TSC方法，虽然从表3也可以看出WDM-ResNet比其他图像化TSC方法(RP-CNN和RPM-CNN)的性能更好，但由于每种方法使用的分类模型不一样，实验结果的差异可能是由于分类器不同导致的。为了排除分类器对分类结果的影响，我们进行了消融实验。

我们在图像化表示阶段提供了包括RPM和RP在内的不同图像化表示方法来与WDM进行比较。表6显示了基于我们的改进的ResNet模型，WDM与其他图像化表示方法的对比结果。如表6所示，基于同样的分类器，WDM在三个指标上都比其他图像化表示方法取得了更好的结果。在UCR的光谱类型数据集的TSC上，WDM图像化表示方法获得了非常大的性能提升。此外，跟表3中的结果相比，基于我们改进的ResNet模型，RP在7个数据集上的分类结果都比基于原始所使用的模型结果更好，这也说明了我们改进的ResNet模型的有效性。

表6使用我们改进的ResNet结构的不同图像化表示方法的结果

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于小波分解矩阵和残差网络的时间序列分类方法，其特征在于：包括以下步骤：

1)对时间序列数据进行图像化表示，其又包括以下步骤：

其中

表示x^h(i)的第j个元素；

其中，ε是随机初始化的值，满足

和

W^h(i)和W^g(i)∈R^L×L，L表示x^h(i-1)的长度；

和

分别表示W^h(i)和W^g(i)的第p行第q列对应的元素，p+K-1≤L；

1b)用WDNs分解时间序列x＝[x₁,x₂,...,x_T]^T得到的子序列构成集合χ^I＝{x^g(1),x^h(1),x^g(2),x^h(2),…,x^g(I),x^h(I)}，随后通过小波分解矩阵以每条子序列作为二维矩阵M中每一行的参考，组合集合χ^I中的所有子序列得到一个(2×I)×(T/2)的二维矩阵M，其中I表示分解的级数，T表示输入时间序列x的长度；