CN110826624A

CN110826624A - 一种基于深度强化学习的时间序列分类方法

Info

Publication number: CN110826624A
Application number: CN201911070579.8A
Authority: CN
Inventors: 杨尚明; 刘勇国; 李巧勤; 刘朗; 任志扬; 陈智
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-21

Abstract

本发明公开了一种基于深度强化学习的时间序列分类方法，包括以下步骤：采集若干时间序列，获取样本数据，并对样本数据进行预处理；构建深度残差网络，根据预处理后的样本数据，并通过深度强化学习方法对深度残差网络进行更新；将待测试的时间序列输入更新完成的深度残差网络，得到时间序列的分类结果。本发明通过将样本打乱顺序输入深度强化学习网络，使其更具鲁棒性，设置奖励和惩罚的方式寻找时间序列分类的最优策略，拥有高的分类准确度。

Description

一种基于深度强化学习的时间序列分类方法

技术领域

本发明属于时间序列分类领域，具体涉及一种基于深度强化学习的时间序列分类方法。

背景技术

随着传感技术、监测技术的提高，我们的日常生活不断产生时间序列数据，如股票价格、天气读数、生物观测、健康监测数据等。在大数据时代，越来越需要从时间序列数据中提取知识，其中一个主要任务是时间序列分类，即通过已有时间序列数据预测其对应的类别标签。现有绝大多数的时间序列分类方法可以分为基于距离的方法和基于特征的方法。但是现有的时间序列分类方法的计算复杂度较高，且时间序列的分类决策精度不高。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于深度强化学习的时间序列分类方法解决了现有技术存在的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于深度强化学习的时间序列分类方法，包括以下步骤：

S1、采集若干时间序列，获取样本数据，并对样本数据进行预处理；

S2、构建深度残差网络，根据预处理后的样本数据，通过深度强化学习方法对深度残差网络进行更新；

S3、将待测试的时间序列输入更新完成的深度残差网络，得到时间序列的分类结果。

进一步地，所述步骤S1中采集的时间序列为X，X＝{x₁,...,x_t,...,x_T}，所述样本数据为D＝{(X₁,y₁),...,(X_i,y_i),...,(X_N,y_N)}；

其中，x_t表示t时刻的观测值，t＝1,2,...,T，T表示观测值总数，X_i表示样本，i＝1,2,...,N，N表示样本总数，y_i表示样本标签。

进一步地，所述步骤S1中预处理的具体方法为：采用线性函数归一化方法对样本数据进行线性变化；

所述线性函数X_i ^*为：

其中，X_i表示样本数据中的时间序列样本，i＝1,2,...,N，N表示样本总数，X_min表示样本数据中的最小值，X_max表示样本数据中的最大值。

进一步地，所述步骤S2的分步骤包括：

S2.1、构建深度残差网络，并随机抽取一条预处理过后的样本数据输入深度残差网络；

S2.2、通过深度残差网络获取当前Q值，根据当前Q值对样本数据中时间序列选取分类动作，得到分类结果；

S2.3、根据样本标签和分类结果建立奖励函数，并判断样本标签和分类结果是否一致，若是则通过奖励函数向深度残差网络发送正奖励，否则通过奖励函数向深度残差网络发送负奖励；

S2.4、根据真实的分类结果，生成与深度残差网络结构相同的模拟深度残差网络，并通过模拟深度残差网络生成目标Q值；

S2.5、根据当前Q值和目标Q值，对深度残差网络和模拟深度残差网络进行更新；

S2.6、对深度残差网络更新K次，每更新一次网络，则采用与步骤S2.2-步骤S2.3相同的方法得到该次深度残差网络的奖励值；

S2.7、遍历所有样本后，将所有样本参与的第k次网络更新时产生的奖励值相加，得到K个总奖励值，将总奖励值最大时的网络参数作为最终的网络参数；

其中，k＝1,2,...,K，K为每个样本参与的网络更新总次数。

进一步地，所述深度残差网络包括依次连接的输入层、第一残差块、第二残差块、第三残差块、平均池化层、分类器和输出层；

所述第一残差块、第二残差块和第三残差块结构相同，均包括依次连接的第一卷积层、第二卷积层和第三卷积层，所述第一卷积层的输入和第三卷积层的输出相加作为残差块的输出；

所述每个卷积层的卷积核数量为64，且使用Relu作为每个卷积层的激活函数，所述第一卷积层、第二卷积层和第三卷积层的卷积核大小分别设置为8、5和3。

进一步地，所述步骤S2.3中奖励函数R(s_i,a_i,y_i)为：

其中，s_i表示与X_i对应的环境状态，a_i表示环境状态s_i的动作，y_i表示样本标签，σ表示权衡参数，D_c表示实际类别标签为c的时间序列样本集合，λ_c表示D_c中样本数量在总样本数中所占比例。

进一步地，所述步骤S2.5包括以下分步骤：

S2.5.1、根据当前Q值和目标Q值，求取当前Q值与目标Q值的误差函数L(θ_i)；

S2.5.2、对误差函数L(θ_i)中深度残差网络的参数值θ_i求偏导，得到偏导值

S2.5.3、根据偏导值

对深度残差网络的参数θ_i进行更新，更新公式为：

S2.5.4、重复K次步骤S2.5.2-步骤S2.5.3，将当前Q值所在网络的参数作为目标Q值所在网络的参数；

其中，θ_i+1表示更新过后的网络参数，lr表示学习率，

表示误差求取函数，Q(s,a|θ_i)表示当前Q值，

表示目标Q值。

进一步地，所述目标Q值

为：

其中，r表示状态s下选择动作a的奖励，γ表示折扣因子，γ∈[0,1]，s'表示环境状态s的下一个状态s'，a'表示环境状态s'下的动作，Q'表示目标值网络的Q值输出，θ_i-1表示目标值网络的参数；

所述误差函数L(θ_i)为：

其中，

表示误差求取函数，Q(s,a|θ_i)表示当前Q值。

进一步地，所述步骤S2.7中总奖励值R_t通过以下公式获取：

其中，γ表示折扣因子，γ∈[0,1]，r_i+j表示继续采用当前策略的情况下，未来每一步所获得的奖励。

本发明的有益效果为：

(1)本发明通过对样本数据进行归一化处理，将样本数据映射到[0,1]中，不仅可以提升收敛速度，同时保证了时间序列分类的高精度。

(2)本发明通过将样本数据中时间序列打乱，使训练过后的深度强化学习网络拥有高的鲁棒性。

(3)本发明的计算复杂度低，通过设置奖励和惩罚的方式寻找时间序列分类的最优策略，拥有高的分类准确度。

附图说明

图1为本发明提出的一种基于深度强化学习的时间序列分类方法流程图。

图2为本发明提出的深度残差网络的示意图。

图3为本发明提出的深度残差网络中残差块示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，一种基于深度强化学习的时间序列分类方法，包括以下步骤：

S2、构建深度残差网络，根据预处理后的样本数据，并通过深度强化学习方法对深度残差网络进行更新；

在本实施例中，待测试的时间序列输入训练完成的深度强化学习网络前经过归一化处理。

步骤S1中采集的时间序列为X，X＝{x₁,...,x_t,...,x_T}，所述样本数据为D＝{(X₁,y₁),...,(X_i,y_i),...,(X_N,y_N)}；

其中，x_t表示t时刻的观测值，t＝1,2,...,T，T为观测值总数，X_i表示样本，i＝1,2,...,N，N表示样本总数，y_i表示样本标签。

步骤S1中预处理的具体方法为：采用线性函数归一化方法对样本数据进行线性变化；

所述线性函数X_i ^*为：

步骤S2的分步骤包括：

其中，k＝1,2,...,K，K为每个样本参与的网络更新总次数。

如图2所示，深度残差网络包括依次连接的输入层、第一残差块、第二残差块、第三残差块、平均池化层、分类器和输出层；

所述第一残差块、第二残差块和第三残差块结构相同，如图3所示，第一残差块、第二残差块和第三残差块均包括依次连接的第一卷积层、第二卷积层和第三卷积层，所述第一卷积层的输入和第三卷积层的输出相加作为残差块的输出。

步骤S2.3中奖励函数R(s_i,a_i,y_i)为：

步骤S2.5包括以下分步骤：

S2.5.3、根据偏导值

对深度残差网络的参数θ_i进行更新，更新公式为：

其中，θ_i+1表示更新过后的网络参数，lr表示学习率，

表示误差求取函数，Q(s,a|θ_i)表示当前Q值，表示目标Q值。

在本实施例中，K＝5。

目标Q值

为：

所述误差函数L(θ_i)为：

其中，

表示误差求取函数，Q(s,a|θ_i)表示当前Q值。

步骤S2.7中总奖励值R_t通过以下公式获取：

本发明通过对样本数据进行归一化处理，将样本数据映射到[0,1]中，不仅可以提升收敛速度，同时保证了时间序列分类的高精度。本发明通过将样本数据中时间序列打乱，使训练过后的深度强化学习网络拥有高的鲁棒性。本发明的计算复杂度低，通过设置奖励和惩罚的方式寻找时间序列分类的最优策略，拥有高的分类准确度。

Claims

1.一种基于深度强化学习的时间序列分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的时间序列分类方法，其特征在于，所述步骤S1中采集的时间序列为X，X＝{x₁,...,x_t,...,x_T}，所述样本数据为D＝{(X₁,y₁),...,(X_i,y_i),...,(X_N,y_N)}；

3.根据权利要求1所述的基于深度强化学习的时间序列分类方法，其特征在于，所述步骤S1中预处理的具体方法为：采用线性函数归一化方法对样本数据进行线性变化；

所述线性函数X_i ^*为：

4.根据权利要求2所述的基于深度强化学习的时间序列分类方法，其特征在于，所述步骤S2的分步骤包括：

其中，k＝1,2,...,K，K为每个样本参与的网络更新总次数。

5.根据权利要求4所述的基于深度强化学习的时间序列分类方法，其特征在于，所述深度残差网络包括依次连接的输入层、第一残差块、第二残差块、第三残差块、平均池化层、分类器和输出层；

6.根据权利要求4所述的基于深度强化学习的时间序列分类方法，其特征在于，所述步骤S2.3中奖励函数R(s_i,a_i,y_i)为：

7.根据权利要求4所述的基于深度强化学习的时间序列分类方法，其特征在于，所述步骤S2.5包括以下分步骤：

S2.5.3、根据偏导值

对深度残差网络的参数θ_i进行更新，更新公式为：

其中，θ_i+1表示更新过后的网络参数，lr表示学习率，表示误差求取函数，Q(s,a|θ_i)表示当前Q值，

表示目标Q值。

8.根据权利要求7所述的基于深度强化学习的时间序列分类方法，其特征在于，所述目标Q值为：

所述误差函数L(θ_i)为：

其中，

表示误差求取函数，Q(s,a|θ_i)表示当前Q值。

9.根据权利要求4所述的基于深度强化学习的时间序列分类方法，其特征在于，所述步骤S2.7中总奖励值R_t通过以下公式获取：