CN116644378A

CN116644378A - 一种基于双层嵌套lstm的超长多维时间序列分类方法

Info

Publication number: CN116644378A
Application number: CN202310623774.9A
Authority: CN
Inventors: 曹斌; 钱凤; 侯晨煜
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-25

Abstract

本发明公开了一种基于双层嵌套LSTM的超长多维时间序列分类方法，包括：获取超长多维时间序列数据集；将输入层、由i个LSTM网络并联而合成的网络、LSTM网络、全连接层、Batch Normalization层、Softmax层进行串联，得到双层嵌套LSTM模型；将已知所属类别的时间序列作为训练数据输入双层嵌套LSTM模型进行分类训练；使用训练后的双层嵌套LSTM模型对未知所属类别的目标时间序列进行分类识别。本方法适用于各种实际应用场景中的超长多维时间序列，能够对采集自这些现实场景中的超长时间序列数据进行有效处理，且不会出现训练时间长、参数更新慢，甚至梯度消失等问题。

Description

一种基于双层嵌套LSTM的超长多维时间序列分类方法

技术领域

本发明涉及时间序列的数据挖掘技术领域，具体涉及一种基于双层嵌套LSTM的超长多维时间序列分类方法。

背景技术

多维时间序列是指在一段时间内按照一定的时间间隔频率对所观测的客观对象的多个变量值进行采样而得到的一段数据序列，它如实地记录了所观测对象在各个测量时间点上的状态值，是所观测对象真实运行状态的客观反映。多维时间序列数据是实值型的序列数据，具有数据量大、数据维度高以及数据是不断更新的等特点。近十几年来，随着物联网(IOT)和大数据技术的蓬勃发展，也带来了数据的爆发式增长，其中，多维时间序列更是随着硬件设备的快速迭代迎来了其增长的黄金时代。现在，多维时间序列已经普遍存在于各行各业，包括医疗产业的心电图时间序列数据、金融产业的金融时间序列数据、交通运输业的交通指数时间序列数据等，通过深入研究各个行业中的多维时序数据，可以挖掘出这些数据中隐藏着的信息，再将这些挖掘出来的信息加以利用来指导各自行业进一步的发展。

目前，针对多维时间序列的分类问题，传统的解决方法主要包括基于距离的方法、基于特征的方法和基于集成学习的方法等。基于距离的方法，主要是先通过定义距离函数来计算两个时间序列间的相似性，然后根据每条时间序列实例与训练数据中距离最近的实例来区分所属的类，最后将该序列实例分类到相对应的类中。基于特征的方法，一般包括两个步骤：首先是设计特征表示方法将序列转换成一种特征向量，然后训练基于序列特征的分类器对序列进行分类。基于集成学习(Ensemble Learning)的方法是将不同的分类器组合成一个新的分类器，将神经网络作为集成学习的基分类器可以提高网络的泛化能力与分类的效果。上述的这些方法都需要对数据进行复杂的预处理，或者进行复杂且繁重的特征工程，特别是基于特征的方法。

深度学习作为当前机器学习中的一个主流领域，其凭借海量数据驱动，可以自动地获取到深层且抽象的特征表达，很多时候可以替代人工设计的特征。深度学习算法是一种端到端的算法，它属于表示学习的一种，只需要数据输入和对应的目标输出，在此过程中省去了人工特征提取工程，这是深度学习区别于传统算法的特点。如果使用人工进行特征提取，那么人工特征提取的优劣决定了分类的精度。人工进行提取的特征不仅简单而且还不稳定，这就会影响模型的质量，不能对时间序列数据进行有效的特征提取，因此，相较于传统算法，利用深度学习模型来对时间序列数据进行分类往往能够得到更优的性能。

由于多维时间序列数据是按照采样时刻的先后顺序依次排列，前后数据之间存在着较强的时间依赖关系，而且多维时间序列数据还表现出变量之间的相关性。数据矩阵前一行数据对应前一个时刻的采样值，后一行数据对应后一个时刻的采样值，交换某两行数据会导致当前序列所含信息发生变化；每个序列含有多个时间变量，每个变量表示序列的一个维度，多个维度组合成一个整体，增加或删除变量将会变成一个完全不同的序列；不同维度之间可能存在某种未知的线性或非线性相关性，不同类型的序列，其维度之间的相关关系可能不同，因此，这种相关关系亦是序列含有的重要信息。此外，在各种实际的工业应用场景中采集到的真实多维时间序列数据往往存在采样频率偏高的问题，采样频率越高，能够获取到的信息就越丰富，根据计算表达式

其中，t为采样总时间；N为采样点数量；fs为采样频率。在采样点数量一定的情况下，采样频率越高，采集数据对应的采样总时间就越短。以医疗异常诊断领域的心电图数据为例，它包括P波、PR段、P-R间期、QRS波群、ST段、T波、Q-T间期和U波等多个维度的信息，实际上就是一种多维时间序列数据。在采集心电图数据时往往会选取较高的采样频率，而较高的采样频率可能会导致采样点数量相当多(即时间序列长度相当长)的一段心电图序列仅仅只能表示其在相当短的一段采样时间内的变化。之后在对其进行心电图样本切片时，为了使一次切得的心电图样本片段包含分类所应具有的全部特征，通常会让切片长度尽可能地大，即切得超长序列样本。在使用深度学习模型对这些超长序列进行处理时，往往会出现训练时间长、参数更新慢，甚至梯度消失等问题。因此，探究一种对真实超长多维时间序列数据高效可行的分类方法具有较好的研究和应用价值。

发明内容

为了解决现有技术中的上述不足，本发明提出了一种基于双层嵌套LSTM的超长多维时间序列分类方法，以达到提高超长多维时间序列数据的分类准确率的目的。

本发明是针对采集自各种实际应用场景中的真实时间序列数据的分类问题而提出的，可以广泛应用于医学异常诊断、金融异常检测、交通流量控制等领域。

为了达到上述发明目的，本发明基于深度学习思想，利用嵌套的两层长短期记忆网络(LSTM)，再结合“先分割，再拼合”的思想，提出了一种超长多维时间序列的分类模型。其中，通过嵌套(和堆叠相对)为LSTM增加网络的层深，使其能够有效提取超长时序样本的时间相关特征，并获得更好的分类性能。本发明采用的技术方案：一种基于双层嵌套LSTM的超长多维时间序列分类方法，其包括以下步骤：

S1：获取多维时间序列，并标注其所属类别；

S2：将输入层、一个由i个LSTM网络并联而合成的网络、一个LSTM网络、三个全连接层、两个Batch Normalization层、一个Softmax层进行串联，得到双层嵌套LSTM模型；

S3：将已知所属类别的时间序列样本作为训练数据输入双层嵌套LSTM模型进行分类训练，得到训练后的双层嵌套LSTM模型；

S4：使用训练后的双层嵌套LSTM模型对未知所属类别的目标时间序列样本进行分类识别。

进一步地，在各种实际应用场景中，使用专业仪器或技术手段实时获取多维时间序列数据，并依据该领域的专业知识对这些数据的所属类别进行标注。以医疗诊断领域的心电图异常数据识别为例，使用动态心电图仪实时采集使用者的所有心电图数据，包括P波、PR段、P-R间期、QRS波群、ST段、T波、Q-T间期和U波等多个维度的数据信息，对于各项数据显示正常的心电图数据标注为“正常”，对于各项数据显示心动过速、心动过缓、心房纤颤、心房扑动、房性早搏、室性早搏等异常的心电图数据标注为“异常”；

进一步地，t时刻的LSTM记忆单元将t时刻的时间序列数据x_t、t-1时刻的LSTM记忆单元输出的隐藏层状态h_t-1和t-1时刻的LSTM记忆单元输出的细胞状态C_t-1作为输入，并输出t时刻的LSTM记忆单元的隐藏层状态h_t和t时刻的LSTM记忆单元的细胞状态C_t，h_t且C_t和的计算表达式为

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t·tanh(C_t)

其中，W_i、W_f、W_C和W_o均为权重；b_i、b_f、b_C和b_o均为偏置；f_t为t时刻的LSTM记忆单元的遗忘门；i_t为t时刻的LSTM记忆单元的输入门；为t时刻的LSTM记忆单元的细胞状态候选值；o_t为t时刻的LSTM记忆单元的输出门；tanh(·)为双曲正切函数；σ(·)表示Sigmoid函数；最后一个时刻的LSTM记忆单元输出的隐藏层状态为一个LSTM网络的最终输出，维度为(128,None,64)，128指切割后的时间序列样本分片的时间步长，None指一次训练所抓取的样本数量，64指输出的维度。

进一步地，输入时间序列样本在经过双层嵌套LSTM模型的输入层后，先进行等长分割，分割成i个长度相同的时间序列样本分片；然后，将这i个时间序列样本分片分别输入到并联的i个LSTM网络中，以提取每个时间序列样本分片内部的时间相关特征并把/> 按顺序进行拼接，得到拼接特征/>再将/>输入到接下来的一个LSTM网络，用来提取这i个时间序列样本分片之间的时间相关特征，并得到这个输入时间序列样本的最终特征/>最后，将/>通过多个全连接层映射到样本标记空间。

在双层嵌套LSTM模型中，先使用Split操作将整个输入时间序列样本分割成i个时间序列样本分片，再使用Concat操作对i个时间序列样本分片的特征进行特征融合，得到最终特征/>其目的是为了避免在直接使用LSTM网络处理超长多维时间序列时经常会出现的训练时间长、参数更新慢，甚至梯度消失等问题。同时，使用Concat操作进行特征融合可以使模型能够重新得到整个输入时间序列样本的全局信息。其中，/>维度为(None,64)，/>维度为(i,None,64)。

进一步地，第一个全连接层的参数为64，第二个全连接层的参数为32，第三个全连接层的参数为P，Softmax层的分类数为P，需与全部时间序列数据的类别个数对应。

与现有技术相比，本发明具有如下有益效果：

本发明方法适用于各种实际应用场景中的超长多维时间序列，能够对采集自这些现实场景中的超长时间序列数据进行有效处理，且不会出现训练时间长、参数更新慢，甚至梯度消失等问题。同时，本方法具有记忆功能，能够有效地挖掘出真实时序数据中隐含的时序信息，且训练后的模型拟合精度高、稳定性能强。此外，引入“先分割，再拼合”思想，使得使用该方法能够更加全面地提取出超长时序数据的全部特征，并有效地提高了时序数据的分类效果。

附图说明

图1为本发明基于双层嵌套LSTM的超长多维时间序列分类方法的流程示意图；

图2为LSTM网络的时序逻辑结构示意图；

图3为本发明双层嵌套LSTM模型结构示意图。

具体实施方式

下面结合附图以及具体实例对本发明的具体实施方式进行进一步描述。

如图1所示，该基于双层嵌套LSTM的超长多维时间序列分类方法包括以下步骤：

S1：获取多维时间序列，并标注其所属类别；

在各种实际应用场景中，使用专业仪器或技术手段实时获取多维时间序列数据，并依据该领域的专业知识对这些数据的所属类别进行标注。以医疗异常诊断领域的心电图异常数据识别为例，使用动态心电图仪实时采集使用者的所有心电图数据，包括P波、PR段、P-R间期、QRS波群、ST段、T波、Q-T间期和U波等多个维度的数据信息，对于各项数据显示正常的心电图数据标注为“正常”，对于各项数据显示心动过速、心动过缓、心房纤颤、心房扑动、房性早搏、室性早搏等异常的心电图数据标注为“异常”。

LSTM网络，也称为长短期记忆网络，是循环神经网络(RNN)的一种特殊结构。一个LSTM网络由多个LSTM记忆单元构成，在RNN的基础上为每个LSTM记忆单元引入了细胞状态，并使用输入门、遗忘门和输出门三种门控机制来让网络自己学习什么时候允许“记忆”、“遗忘”和“输出”信息。LSTM记忆单元中的输入门和tanh函数可以决定从上一时刻中获取哪些信息，结合遗忘门和输入门可以实现信息的舍弃和保存，并得到当前时刻的细胞状态，最后，得出本时刻的隐藏层状态。正是因为LSTM有遗忘的功能，所以才减少了梯度消失和梯度爆炸的可能性，同时也能够解决RNN无法解决的长短期依赖问题。

LSTM网络可以完成一个Cell在不同时刻上的拼接，也就是说，其实是一个Cell在不同时刻的状态。Cell在t-1时刻、t时刻、t+1时刻的连接图，如图2所示。t时刻的LSTM记忆单元将t时刻的时间序列数据x_t、t-1时刻的LSTM记忆单元输出的隐藏层状态h_t-1和t-1时刻的LSTM记忆单元输出的细胞状态C_t-1作为输入，并输出t时刻的LSTM记忆单元的隐藏层状态h_t和t时刻的LSTM记忆单元的细胞状态C_t，h_t且C_t和的计算表达式为

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t·tanh(C_t)

其中，W_i、W_f、W_C和W_o均为权重；b_i、b_f、b_C和b_o均为偏置；f_t为t时刻的LSTM记忆单元的遗忘门；i_t为t时刻的LSTM记忆单元的输入门；为t时刻的LSTM记忆单元的细胞状态候选值；o_t为t时刻的LSTM记忆单元的输出门；tanh(·)为双曲正切函数；σ(·)表示Sigmoid函数；最后一个时刻的LSTM记忆单元输出的隐藏层状态为一个LSTM网络的最终输出，维度为(128,None,64)，128指切割后的时间序列样本分片的时间步长，None指一次训练所抓取的样本数量，可根据实际情况自由设定具体数值，64指输出的维度。

如图3所示，输入时间序列样本在经过双层嵌套LSTM模型的输入层后，先进行等长分割，分割成i个长度相同的时间序列样本分片；然后，将这i个时间序列样本分片分别输入到并联的i个LSTM网络中，以提取每个时间序列样本分片内部的时间相关特征并把/> 按顺序进行拼接，得到拼接特征/>再将/>输入到接下来的一个LSTM网络，用来提取这i个时间序列样本分片之间的时间相关特征，并得到这个输入时间序列样本的最终特征/>最后，将/>通过多个全连接层映射到样本标记空间。

在本实施例中，由于双层嵌套LSTM模型的第二层是i个LSTM并联而合成的网络，且LSTM网络的输入维度为3，因此，需要利用输入层将输入时间序列样本分割成i个时间序列样本分片，同时，将时间序列样本分片的维度转换成3维，即(batch_size,time_step,input_size)，其中，batch_size表示同时输入的时间序列样本分片数量；time_step表示时间序列样本分片的长度，同时也表示时间序列样本分片的采样点数量；input_size表示每个时间点输入的维度。分割后的时间序列样本分片的长度为128，即一个时间序列样本分片有128个时间步长，并且每个时间序列样本分片都有S个维度的数据，因此，一个时间样本序列分片可以用S*128的矩阵来表示。此时，time_step为128，input_size为S。为了便于将时间序列样本分片输入到LSTM网络中，需要把S*128的时间序列样本分片矩阵转换成128*S的矩阵，再通过输入层把时间序列样本分片的维度转换为(None,128,S)。

在本实施例中，把i个并联的LSTM网络的hidden_size参数均设置为64；把之后的一个LSTM网络的hidden_size参数设置为64；把第一个全连接层的参数设置为64，使用ReLU激活函数进行处理，再经过一个参数设置为64的Batch Normalization层；把第二个全连接层的参数设置为32，使用ReLU激活函数进行处理，再经过一个参数设置为32的BatchNormalization层；把第三个全连接层的参数设置为P，并将第三个全连接层的输出结果再输入到分类数为P的Softmax层中，将其映射到样本标记空间，以达到分类目的。其中，P是全部时间序列数据的类别个数。

在本实施例中，把采集到的真实多维时间序列数据集的60％作为训练集，20％作为验证集，20％作为测试集。在训练过程中，把批处理大小batch_size设置为32，训练轮次epoch设置为150，学习率设置为0.001，优化算法设置为Adam。经过150轮次的训练，就可以获得最终的训练模型。此时，将未知所属类别的时间序列样本通过训练好的模型进行预测，可以得到最终的预测标签。

Claims

1.一种基于双层嵌套LSTM的超长多维时间序列分类方法，其特征在于，包括以下步骤：

S1：获取多维时间序列样本，并标注所属类别，得到已知所属类别的时间序列样本；

2.根据权利要求1所述的基于双层嵌套LSTM的超长多维时间序列分类方法，其特征在于，步骤S2中，所述的LSTM网络包括:

t时刻的LSTM记忆单元将t时刻的时间序列数据x_t、t-1时刻的LSTM记忆单元输出的隐藏层状态h_t-1和t-1时刻的LSTM记忆单元输出的细胞状态C_t-1作为输入，并输出t时刻的LSTM记忆单元的隐藏层状态h_t和t时刻的LSTM记忆单元的细胞状态C_t，h_t且C_t和的计算表达式为：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t·tanh(C_t)

其中，W_i、W_f、W_C和W_o均为权重；b_i、b_f、b_C和b_o均为偏置；f_t为t时刻的LSTM记忆单元的遗忘门；i_t为t时刻的LSTM记忆单元的输入门；C～_t为t时刻的LSTM记忆单元的细胞状态候选值；o_t为t时刻的LSTM记忆单元的输出门；tanh(·)为双曲正切函数；σ(·)表示Sigmoid函数。

最后一个时刻的LSTM记忆单元输出的隐藏层状态为一个LSTM网络的最终输出，维度为(128,None,64)，128指切割后的时间序列样本分片的时间步长，None指一次训练所抓取的样本数量，64指输出的维度。

3.根据权利要求1所述的基于双层嵌套LSTM的超长多维时间序列分类方法，其特征在于，所述的双层嵌套LSTM模型，具体包括：

输入时间序列样本在经过双层嵌套LSTM模型的输入层后，先进行等长分割，分割成i个长度相同的时间序列样本分片；然后，将i个时间序列样本分片分别输入到并联的i个LSTM网络中，以提取每个时间序列样本分片内部的时间相关特征并把按顺序进行拼接，得到拼接特征/>再将/>输入到接下来的一个LSTM网络，用来提取i个时间序列样本分片之间的时间相关特征，并得到这个输入时间序列样本的最终特征/>最后，通过全连接层、Batch Normalization层和Softmax层将/>映射到样本标记空间。

4.根据权利要求3所述的基于双层嵌套LSTM的超长多维时间序列分类方法，其特征在于，使用Split操作将输入时间序列样本分割成i个长度相同的时间序列样本分片。

5.根据权利要求3所述的基于双层嵌套LSTM的超长多维时间序列分类方法，其特征在于，使用Concat操作把按顺序拼接进行特征融合。

6.根据权利要求3所述的基于双层嵌套LSTM的超长多维时间序列分类方法，其特征在于，时间相关特征维度为(None,64)，拼接特征/>维度为(i,None,64)。

7.根据权利要求1所述的基于双层嵌套LSTM的超长多维时间序列分类方法，其特征在于，步骤S2中，第一个全连接层的参数为64，第二个全连接层的参数为32，第三个全连接层的参数为P，Softmax层的分类数为P，Softmax层的分类数P与步骤S1中多维时间序列样本的类别个数对应。