CN113035361A

CN113035361A - 一种基于数据增强的神经网络时间序列分类方法

Info

Publication number: CN113035361A
Application number: CN202110179057.2A
Authority: CN
Inventors: 王天; 张婷; 刘兆英; 李玉鑑
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-06-25

Abstract

本发明公开了一种基于数据增强的神经网络时间序列分类方法，首先，对时间序列数据集进行预处理；其次，选择合适的参数α对训练数据进行Mixup数据增强，增强后的数据用于模型训练；接着，构建LSTM‑FCN时间序列分类网络模型；最后，以交叉熵函数作为损失函数，使用反向传播和梯度下降算法Adam训练LSTM‑FCN网络。本发明的基于数据增强的时间序列分类方法有效提高了神经网络的时间序列分类性能。

Description

一种基于数据增强的神经网络时间序列分类方法

技术领域

本发明属于时间序列分类领域，尤其涉及一种基于数据增强的神经网络时间序列分类方法。

背景技术

时间序列数据广泛地存在于生产生活中，例如股票的走向趋势、天气的温度、患者的心电图等，分析这些时序数据，并从中挖掘出重要信息对指导人们生产生活具有重大意义。时间序列分类是时间序列问题中比较重要且具有挑战性的任务，传统的时间序列分类方法，往往依靠人工设计特征，计算过程繁琐且时间复杂度高。而基于深度学习的方法，则需要大量的训练数据保证模型的泛化能力，以避免过拟合和欠拟合，这种方法在数据量小的情况下，难以发挥作用。

目前时间序列分类方法大致可分为基于距离的方法、基于特征的方法和基于深度学习的方法。基于距离的方法以欧氏距离或动态时间规整距离等，使用最近邻分类器以距离关系做分类；基于特征的方法，通过人工设计以形状，频率，统计学参数等作为特征，训练分类模型(如支持向量机、随机森林等)；基于深度学习的方法，通过设计神经网络结构，直接输入原始数据训练模型，实现了端到端的训练过程。为了训练出高准确率的模型，深度学习方法通常需要大量数据，但在现实世界中很难获取充足的数据集供模型使用，因此存在一定局限性。

数据增强作为一种有效提高模型泛化能力、提升模型分类精度的技术手段，已经被广泛应用于深度学习模型的训练过程中。该技术通过对数据进行一定变换，得到新数据，这些新数据可作为对原始数据集的补充，帮助模型训练，提高模型性能。本发明利用Mixup数据增强技术训练神经网络模型，可有效提高网络模型性能，提高分类准确率；本发明可操作性，通用性较强，适用于各种基于深度学习的时间序列分类模型。

发明内容

本发明要解决的技术问题是，提供一种基于数据增强的神经网络时间序列分类方法，克服训练数据集不足的问题。本发明通过Mixup数据增强技术扩展数据集，使训练好的神经网络模型更具鲁棒性，从而提高网络对时间序列数据的分类能力。

为实现上述目的，本发明采用如下的技术方案：

一种基于数据增强的神经网络时间序列分类方法，包括以下步骤：

步骤1：对包含N个样本的时间序列数据集D＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}进行预处理；预处理步骤包括：

步骤1.1：使用z-score标准化方法对时间序列数据集D进行标准化处理，标准化公式为：

其中，x_i表示第i(1≤i≤N)个时间序列样本，μ表示时间序列样本均值，σ表示时间序列样本方差，x_i′表示标准化后的第i(1≤i≤N)个时间序列样本；

步骤1.2：将时间序列样本类别标签y_i(1≤i≤N)转换为独热编码y′_i(1≤i≤N)，其中，y′_i为具有C个元素的一维向量，C为时间序列样本类别数量，转换公式为：

其中，j∈[0,C)，且j属于整数；

步骤1.3：将数据集D以8:2划分为训练集D_train(包含N_train个时间序列样本)和测试集D_test(包含N_test个时间序列样本)。

步骤2：对训练集D_train进行数据增强，具体步骤包括：

步骤2.1：根据Mixup公式，首先选择参数α：

其中，(x′_p,y′_p)和(x′_q,y′_q)(1≤p≤N_train，1≤q≤N_train，p,q∈N⁺)为两个不同的时间序列样本，

为生成的时间序列样本，λ～Beta(α,α)，α∈(0,∞)，选择参数α，并从Beta(α,α)分布中产生随机数λ；

步骤2.2：从训练集D_train中依次选择M(1≤M≤N_train)个样本，得到时间序列样本集D_p＝{(x′_p1,y′_p1),(x′_p2,y′_p2),...,(x′_pM,y′_pM)}，对样本集D_p随机排列，得到时间序列样本集D_q＝{(x′_q1,y′_q1),(x′_q2,y′_q2),...,(x′_qM,y′_qM)}，其中pm≠qm(1≤m≤M)；

步骤2.3：利用样本集D_p和样本集D_q计算出增强后的训练集

作为一次迭代的训练数据集，计算公式为：

其中，(x′_pm,y′_pm)为D_p中的第m(1≤m≤M)个时间序列样本，(x′_qm,y′_qm)为D_q中的第m(1≤m≤M)个时间序列样本，

为生成的第m(1≤m≤M)个时间序列样本。

步骤3：构建LSTM-FCN模型，LSTM-FCN中有两个并行分支：LSTM和FCN，LSTM由一个LSTM单元组成，隐含状态个数为8，最后是丢弃率为0.8的丢弃层；FCN由3个一维卷积层组成，分别具有{7×1,5×1,3×1}的卷积核和{128,256,128}个通道，卷积步长均为1，每个卷积层后都有一个块归一化层和修正线性单元，FCN的最后一层为全局平均池化层；对于第i个输入时间序列样本，LSTM-FCN首先分别使用LSTM和FCN提取特征f_LSTM和f_FCN，然后将特征f_LSTM、f_FCN在特征维度上进行拼接，最后使用Softmax对拼接的特征进行分类。

步骤4：选择迭代次数、学习率参数，每次迭代按照步骤2.2，步骤2.3生成训练集D_mixup训练LSTM-FCN模型，以交叉熵函数作为损失函数，使用反向传播和梯度下降算法Adam训练网络，并保存训练好的网络，交叉熵函数公式为：

其中，

为时间序列真实标签，

为时间序列预测标签。

步骤5：在测试集D_test上测试训练好的LSTM-FCN网络，计算时间序列的分类准确率。

与现有技术相比，本发明具有哪些有益效果，可以结合技术原理进行下相关描述。

附图说明

图1为本发明的基本方法流程示意图。

图2为时间序列数据样本。

图3为实例的神经网络LSTM-FCN模型结构。

图4为实例的测试准确率结果。

具体实施方式

本发明实施例提供一种基于数据增强的神经网络时间序列分类方法，下面结合相关附图对本发明进行解释和阐述：

本发明在Mixup数据增强基础上，数据集使用单变量时间序列数据CinCECGTorso，CinCECGTorso数据集包含了4种类别，共有1420个样本，序列长度为1639。采用LSTM-FCN网络作为分类模型。

本发明的实施方案流程如下：

步骤1：对具有1420个样本的CinCECGTorso时间序列数据集D＝{(x₁,y₁),(x₂,y₂),...,(x₁₄₂₀,y₁₄₂₀)}进行预处理；具体步骤包括：

步骤1.1：使用z-score标准化方法对数据集D进行标准化处理，标准化公式为：

其中，x_i表示第i(1≤i≤1420)个样本，μ表示样本均值，σ表示样本方差，x_i′表示标准化后的第i(1≤i≤1420)个样本；

步骤1.2：将样本类别标签y_i(1≤i≤1420)转换为独热编码y′_i(1≤i≤1420)，其中，y′_i为具有4个元素的一维向量，转换公式为：

其中，j∈{0,1,2,3}；

步骤1.3：将数据集CinCECGTorso按照8:2划分为训练集D_train和测试集D_test，其中，训练集D_train共有1136个样本，测试集D_test共有284个样本，部分训练集样本如图2所示；

步骤2：对训练集D_train进行数据增强，具体步骤包括：

步骤2.1：根据Mixup公式，首先选择参数α：

其中，(x′_p,y′_p)和(x′_q,y′_q)(1≤p≤1136，1≤q≤1136，p,q∈N⁺)为两个不同的样本，

为生成的样本，λ～Beta(α,α)，α∈(0,∞)，选择参数α＝0.2，并从Beta(0.2,0.2)分布中产生随机数λ；

步骤2.2：从训练集D_train中依次选择64个样本，得到样本集D_p＝{(x′_p1,y′_p1),(x′_p2,y′_p2),...,(x′_p64,y′_p64)}，对样本集D_p随机排列，得到样本集D_q＝{(x′_q1,y′_q1),(x′_q2,y′_q2),...,(x′_q64,y′_q64)}，其中pm≠qm(1≤m≤64)；

步骤2.3：利用样本集D_p和样本集D_q计算出增强后的训练集

作为一次迭代的训练数据集，计算公式为：

其中，(x′_pm,y′_pm)为D_p中的第m(1≤m≤64)个样本，(x′_qm,y′_qm)为D_q中的第m(1≤m≤64)个样本，

为生成的第m(1≤m≤64)个样本；

步骤3：构建LSTM-FCN模型，其结构如图3所示，LSTM-FCN中有两个并行分支：LSTM和FCN，LSTM由一个LSTM单元组成，隐含状态个数为8，最后是丢弃率为0.8的丢弃层；FCN由3个一维卷积层组成，分别具有{7×1,5×1,3×1}的卷积核和{128,256,128}个通道，卷积步长均为1，每个卷积层后都有一个块归一化层和修正线性单元，FCN的最后一层为全局平均池化层；对于第i个输入样本，LSTM-FCN首先分别使用LSTM和FCN提取特征f_LSTM和f_FCN，然后将特征f_LSTM、f_FCN在特征维度上进行拼接，最后使用Softmax对拼接的特征进行分类；

步骤4：选择迭代次数900次、学习率0.0001，每次迭代按照步骤2.2，步骤2.3生成训练集D_mixup训练LSTM-FCN模型，以交叉熵函数作为损失函数，使用反向传播和梯度下降算法Adam训练网络，并保存训练好的网络，交叉熵函数公式为：

其中，

为真实标签，

为预测标签；

步骤5：在测试集D_test上测试训练好的LSTM-FCN网络，计算分类准确率，测试结果见图4。

以上实例仅用于描述本发明，而非限制本发明所描述的技术方案。因此，一切不脱离本发明精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围中。

Claims

1.一种基于数据增强的神经网络时间序列分类方法，其特征在于：包括以下步骤：

步骤1：对包含N个样本的时间序列数据集D＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}进行预处理；

步骤2：对训练集D_train进行数据增强；

步骤3：构建LSTM-FCN模型，LSTM-FCN中有两个并行分支：LSTM和FCN，LSTM由一个LSTM单元组成，隐含状态个数为8，最后是丢弃率为0.8的丢弃层；FCN由3个一维卷积层组成，分别具有{7×1,5×1,3×1}的卷积核和{128,256,128}个通道，卷积步长均为1，每个卷积层后都有一个块归一化层和修正线性单元，FCN的最后一层为全局平均池化层；对于第i个输入时间序列样本，LSTM-FCN首先分别使用LSTM和FCN提取特征f_LSTM和f_FCN，然后将特征f_LSTM、f_FCN在特征维度上进行拼接，最后使用Softmax对拼接的特征进行分类；

步骤4：选择迭代次数、学习率参数，每次迭代按照生成训练集D_mixup训练LSTM-FCN模型，以交叉熵函数作为损失函数，使用反向传播和梯度下降算法Adam训练网络，并保存训练好的网络，交叉熵函数公式为：

其中，

为时间序列真实标签，

为时间序列预测标签，1≤p≤N_train；

2.根据权利要求1所述的一种基于数据增强的神经网络时间序列分类方法，其特征在于：预处理步骤包括：

其中，x_i表示第i个时间序列样本，μ表示时间序列样本均值，σ表示时间序列样本方差，x_i′表示标准化后的第i个时间序列样本，1≤i≤N；

步骤1.2：将时间序列样本类别标签y_i转换为独热编码y′_i，其中，y′_i为具有C个元素的一维向量，C为时间序列样本类别数量，转换公式为：

其中，j∈[0,C)，且j属于整数；

步骤1.3：将数据集D以8:2划分为训练集D_train和测试集D_test。

3.根据权利要求1所述的一种基于数据增强的神经网络时间序列分类方法，其特征在于：步骤2包括：

步骤2.1：根据Mixup公式，首先选择参数α：

其中，(x′_p,y′_p)和(x′_q,y′_q)为两个不同的时间序列样本，

为生成的时间序列样本，λ～Beta(α,α)，α∈(0,∞)，选择参数α，并从Beta(α,α)分布中产生随机数λ；1≤p≤N_train，1≤q≤N_train，p,q∈N⁺；

步骤2.2：从训练集D_train中依次选择M个样本，1≤M≤N_train，得到时间序列样本集D_p＝{(x′_p1,y′_p1),(x′_p2,y′_p2),...,(x′_pM,y′_pM)}，对样本集D_p随机排列，得到时间序列样本集D_q＝{(x′_q1,y′_q1),(x′_q2,y′_q2),...,(x′_qM,y′_qM)}，其中pm≠qm，1≤m≤M；

步骤2.3：利用样本集D_p和样本集D_q计算出增强后的训练集

作为一次迭代的训练数据集，计算公式为：

其中，(x′_pm,y′_pm)为D_p中的第m个时间序列样本，(x′_qm,y′_qm)为D_q中的第m个时间序列样本，

为生成的第m个时间序列样本。