CN110826624A - 一种基于深度强化学习的时间序列分类方法 - Google Patents
一种基于深度强化学习的时间序列分类方法 Download PDFInfo
- Publication number
- CN110826624A CN110826624A CN201911070579.8A CN201911070579A CN110826624A CN 110826624 A CN110826624 A CN 110826624A CN 201911070579 A CN201911070579 A CN 201911070579A CN 110826624 A CN110826624 A CN 110826624A
- Authority
- CN
- China
- Prior art keywords
- value
- network
- residual error
- reward
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度强化学习的时间序列分类方法,包括以下步骤:采集若干时间序列,获取样本数据,并对样本数据进行预处理;构建深度残差网络,根据预处理后的样本数据,并通过深度强化学习方法对深度残差网络进行更新;将待测试的时间序列输入更新完成的深度残差网络,得到时间序列的分类结果。本发明通过将样本打乱顺序输入深度强化学习网络,使其更具鲁棒性,设置奖励和惩罚的方式寻找时间序列分类的最优策略,拥有高的分类准确度。
Description
技术领域
本发明属于时间序列分类领域,具体涉及一种基于深度强化学习的时间序列分类方法。
背景技术
随着传感技术、监测技术的提高,我们的日常生活不断产生时间序列数据,如股票价格、天气读数、生物观测、健康监测数据等。在大数据时代,越来越需要从时间序列数据中提取知识,其中一个主要任务是时间序列分类,即通过已有时间序列数据预测其对应的类别标签。现有绝大多数的时间序列分类方法可以分为基于距离的方法和基于特征的方法。但是现有的时间序列分类方法的计算复杂度较高,且时间序列的分类决策精度不高。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于深度强化学习的时间序列分类方法解决了现有技术存在的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于深度强化学习的时间序列分类方法,包括以下步骤:
S1、采集若干时间序列,获取样本数据,并对样本数据进行预处理;
S2、构建深度残差网络,根据预处理后的样本数据,通过深度强化学习方法对深度残差网络进行更新;
S3、将待测试的时间序列输入更新完成的深度残差网络,得到时间序列的分类结果。
进一步地,所述步骤S1中采集的时间序列为X,X={x1,...,xt,...,xT},所述样本数据为D={(X1,y1),...,(Xi,yi),...,(XN,yN)};
其中,xt表示t时刻的观测值,t=1,2,...,T,T表示观测值总数,Xi表示样本,i=1,2,...,N,N表示样本总数,yi表示样本标签。
进一步地,所述步骤S1中预处理的具体方法为:采用线性函数归一化方法对样本数据进行线性变化;
所述线性函数Xi *为:
其中,Xi表示样本数据中的时间序列样本,i=1,2,...,N,N表示样本总数,Xmin表示样本数据中的最小值,Xmax表示样本数据中的最大值。
进一步地,所述步骤S2的分步骤包括:
S2.1、构建深度残差网络,并随机抽取一条预处理过后的样本数据输入深度残差网络;
S2.2、通过深度残差网络获取当前Q值,根据当前Q值对样本数据中时间序列选取分类动作,得到分类结果;
S2.3、根据样本标签和分类结果建立奖励函数,并判断样本标签和分类结果是否一致,若是则通过奖励函数向深度残差网络发送正奖励,否则通过奖励函数向深度残差网络发送负奖励;
S2.4、根据真实的分类结果,生成与深度残差网络结构相同的模拟深度残差网络,并通过模拟深度残差网络生成目标Q值;
S2.5、根据当前Q值和目标Q值,对深度残差网络和模拟深度残差网络进行更新;
S2.6、对深度残差网络更新K次,每更新一次网络,则采用与步骤S2.2-步骤S2.3相同的方法得到该次深度残差网络的奖励值;
S2.7、遍历所有样本后,将所有样本参与的第k次网络更新时产生的奖励值相加,得到K个总奖励值,将总奖励值最大时的网络参数作为最终的网络参数;
其中,k=1,2,...,K,K为每个样本参与的网络更新总次数。
进一步地,所述深度残差网络包括依次连接的输入层、第一残差块、第二残差块、第三残差块、平均池化层、分类器和输出层;
所述第一残差块、第二残差块和第三残差块结构相同,均包括依次连接的第一卷积层、第二卷积层和第三卷积层,所述第一卷积层的输入和第三卷积层的输出相加作为残差块的输出;
所述每个卷积层的卷积核数量为64,且使用Relu作为每个卷积层的激活函数,所述第一卷积层、第二卷积层和第三卷积层的卷积核大小分别设置为8、5和3。
进一步地,所述步骤S2.3中奖励函数R(si,ai,yi)为:
其中,si表示与Xi对应的环境状态,ai表示环境状态si的动作,yi表示样本标签,σ表示权衡参数,Dc表示实际类别标签为c的时间序列样本集合,λc表示Dc中样本数量在总样本数中所占比例。
进一步地,所述步骤S2.5包括以下分步骤:
S2.5.1、根据当前Q值和目标Q值,求取当前Q值与目标Q值的误差函数L(θi);
S2.5.4、重复K次步骤S2.5.2-步骤S2.5.3,将当前Q值所在网络的参数作为目标Q值所在网络的参数;
其中,r表示状态s下选择动作a的奖励,γ表示折扣因子,γ∈[0,1],s'表示环境状态s的下一个状态s',a'表示环境状态s'下的动作,Q'表示目标值网络的Q值输出,θi-1表示目标值网络的参数;
所述误差函数L(θi)为:
进一步地,所述步骤S2.7中总奖励值Rt通过以下公式获取:
其中,γ表示折扣因子,γ∈[0,1],ri+j表示继续采用当前策略的情况下,未来每一步所获得的奖励。
本发明的有益效果为:
(1)本发明通过对样本数据进行归一化处理,将样本数据映射到[0,1]中,不仅可以提升收敛速度,同时保证了时间序列分类的高精度。
(2)本发明通过将样本数据中时间序列打乱,使训练过后的深度强化学习网络拥有高的鲁棒性。
(3)本发明的计算复杂度低,通过设置奖励和惩罚的方式寻找时间序列分类的最优策略,拥有高的分类准确度。
附图说明
图1为本发明提出的一种基于深度强化学习的时间序列分类方法流程图。
图2为本发明提出的深度残差网络的示意图。
图3为本发明提出的深度残差网络中残差块示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种基于深度强化学习的时间序列分类方法,包括以下步骤:
S1、采集若干时间序列,获取样本数据,并对样本数据进行预处理;
S2、构建深度残差网络,根据预处理后的样本数据,并通过深度强化学习方法对深度残差网络进行更新;
S3、将待测试的时间序列输入更新完成的深度残差网络,得到时间序列的分类结果。
在本实施例中,待测试的时间序列输入训练完成的深度强化学习网络前经过归一化处理。
步骤S1中采集的时间序列为X,X={x1,...,xt,...,xT},所述样本数据为D={(X1,y1),...,(Xi,yi),...,(XN,yN)};
其中,xt表示t时刻的观测值,t=1,2,...,T,T为观测值总数,Xi表示样本,i=1,2,...,N,N表示样本总数,yi表示样本标签。
步骤S1中预处理的具体方法为:采用线性函数归一化方法对样本数据进行线性变化;
所述线性函数Xi *为:
其中,Xi表示样本数据中的时间序列样本,i=1,2,...,N,N表示样本总数,Xmin表示样本数据中的最小值,Xmax表示样本数据中的最大值。
步骤S2的分步骤包括:
S2.1、构建深度残差网络,并随机抽取一条预处理过后的样本数据输入深度残差网络;
S2.2、通过深度残差网络获取当前Q值,根据当前Q值对样本数据中时间序列选取分类动作,得到分类结果;
S2.3、根据样本标签和分类结果建立奖励函数,并判断样本标签和分类结果是否一致,若是则通过奖励函数向深度残差网络发送正奖励,否则通过奖励函数向深度残差网络发送负奖励;
S2.4、根据真实的分类结果,生成与深度残差网络结构相同的模拟深度残差网络,并通过模拟深度残差网络生成目标Q值;
S2.5、根据当前Q值和目标Q值,对深度残差网络和模拟深度残差网络进行更新;
S2.6、对深度残差网络更新K次,每更新一次网络,则采用与步骤S2.2-步骤S2.3相同的方法得到该次深度残差网络的奖励值;
S2.7、遍历所有样本后,将所有样本参与的第k次网络更新时产生的奖励值相加,得到K个总奖励值,将总奖励值最大时的网络参数作为最终的网络参数;
其中,k=1,2,...,K,K为每个样本参与的网络更新总次数。
如图2所示,深度残差网络包括依次连接的输入层、第一残差块、第二残差块、第三残差块、平均池化层、分类器和输出层;
所述第一残差块、第二残差块和第三残差块结构相同,如图3所示,第一残差块、第二残差块和第三残差块均包括依次连接的第一卷积层、第二卷积层和第三卷积层,所述第一卷积层的输入和第三卷积层的输出相加作为残差块的输出。
所述每个卷积层的卷积核数量为64,且使用Relu作为每个卷积层的激活函数,所述第一卷积层、第二卷积层和第三卷积层的卷积核大小分别设置为8、5和3。
步骤S2.3中奖励函数R(si,ai,yi)为:
其中,si表示与Xi对应的环境状态,ai表示环境状态si的动作,yi表示样本标签,σ表示权衡参数,Dc表示实际类别标签为c的时间序列样本集合,λc表示Dc中样本数量在总样本数中所占比例。
步骤S2.5包括以下分步骤:
S2.5.1、根据当前Q值和目标Q值,求取当前Q值与目标Q值的误差函数L(θi);
S2.5.4、重复K次步骤S2.5.2-步骤S2.5.3,将当前Q值所在网络的参数作为目标Q值所在网络的参数;
在本实施例中,K=5。
其中,r表示状态s下选择动作a的奖励,γ表示折扣因子,γ∈[0,1],s'表示环境状态s的下一个状态s',a'表示环境状态s'下的动作,Q'表示目标值网络的Q值输出,θi-1表示目标值网络的参数;
所述误差函数L(θi)为:
步骤S2.7中总奖励值Rt通过以下公式获取:
其中,γ表示折扣因子,γ∈[0,1],ri+j表示继续采用当前策略的情况下,未来每一步所获得的奖励。
本发明通过对样本数据进行归一化处理,将样本数据映射到[0,1]中,不仅可以提升收敛速度,同时保证了时间序列分类的高精度。本发明通过将样本数据中时间序列打乱,使训练过后的深度强化学习网络拥有高的鲁棒性。本发明的计算复杂度低,通过设置奖励和惩罚的方式寻找时间序列分类的最优策略,拥有高的分类准确度。
Claims (9)
1.一种基于深度强化学习的时间序列分类方法,其特征在于,包括以下步骤:
S1、采集若干时间序列,获取样本数据,并对样本数据进行预处理;
S2、构建深度残差网络,根据预处理后的样本数据,通过深度强化学习方法对深度残差网络进行更新;
S3、将待测试的时间序列输入更新完成的深度残差网络,得到时间序列的分类结果。
2.根据权利要求1所述的基于深度强化学习的时间序列分类方法,其特征在于,所述步骤S1中采集的时间序列为X,X={x1,...,xt,...,xT},所述样本数据为D={(X1,y1),...,(Xi,yi),...,(XN,yN)};
其中,xt表示t时刻的观测值,t=1,2,...,T,T表示观测值总数,Xi表示样本,i=1,2,...,N,N表示样本总数,yi表示样本标签。
4.根据权利要求2所述的基于深度强化学习的时间序列分类方法,其特征在于,所述步骤S2的分步骤包括:
S2.1、构建深度残差网络,并随机抽取一条预处理过后的样本数据输入深度残差网络;
S2.2、通过深度残差网络获取当前Q值,根据当前Q值对样本数据中时间序列选取分类动作,得到分类结果;
S2.3、根据样本标签和分类结果建立奖励函数,并判断样本标签和分类结果是否一致,若是则通过奖励函数向深度残差网络发送正奖励,否则通过奖励函数向深度残差网络发送负奖励;
S2.4、根据真实的分类结果,生成与深度残差网络结构相同的模拟深度残差网络,并通过模拟深度残差网络生成目标Q值;
S2.5、根据当前Q值和目标Q值,对深度残差网络和模拟深度残差网络进行更新;
S2.6、对深度残差网络更新K次,每更新一次网络,则采用与步骤S2.2-步骤S2.3相同的方法得到该次深度残差网络的奖励值;
S2.7、遍历所有样本后,将所有样本参与的第k次网络更新时产生的奖励值相加,得到K个总奖励值,将总奖励值最大时的网络参数作为最终的网络参数;
其中,k=1,2,...,K,K为每个样本参与的网络更新总次数。
5.根据权利要求4所述的基于深度强化学习的时间序列分类方法,其特征在于,所述深度残差网络包括依次连接的输入层、第一残差块、第二残差块、第三残差块、平均池化层、分类器和输出层;
所述第一残差块、第二残差块和第三残差块结构相同,均包括依次连接的第一卷积层、第二卷积层和第三卷积层,所述第一卷积层的输入和第三卷积层的输出相加作为残差块的输出;
所述每个卷积层的卷积核数量为64,且使用Relu作为每个卷积层的激活函数,所述第一卷积层、第二卷积层和第三卷积层的卷积核大小分别设置为8、5和3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911070579.8A CN110826624A (zh) | 2019-11-05 | 2019-11-05 | 一种基于深度强化学习的时间序列分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911070579.8A CN110826624A (zh) | 2019-11-05 | 2019-11-05 | 一种基于深度强化学习的时间序列分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110826624A true CN110826624A (zh) | 2020-02-21 |
Family
ID=69552534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911070579.8A Pending CN110826624A (zh) | 2019-11-05 | 2019-11-05 | 一种基于深度强化学习的时间序列分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826624A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270451A (zh) * | 2020-11-04 | 2021-01-26 | 中国科学院重庆绿色智能技术研究院 | 一种基于强化学习的监护预警方法及系统 |
WO2021151295A1 (zh) * | 2020-06-29 | 2021-08-05 | 平安科技(深圳)有限公司 | 患者治疗方案的确定方法、装置、计算机设备及介质 |
CN113505827A (zh) * | 2021-07-08 | 2021-10-15 | 西藏大学 | 一种机器学习分类方法 |
CN114048576A (zh) * | 2021-11-24 | 2022-02-15 | 国网四川省电力公司成都供电公司 | 一种稳定电网输电断面潮流的储能系统智能化控制方法 |
CN111695620B (zh) * | 2020-06-08 | 2023-10-24 | 中国电力科学研究院有限公司 | 一种电力系统时间序列异常数据检测与修正方法及系统 |
-
2019
- 2019-11-05 CN CN201911070579.8A patent/CN110826624A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695620B (zh) * | 2020-06-08 | 2023-10-24 | 中国电力科学研究院有限公司 | 一种电力系统时间序列异常数据检测与修正方法及系统 |
WO2021151295A1 (zh) * | 2020-06-29 | 2021-08-05 | 平安科技(深圳)有限公司 | 患者治疗方案的确定方法、装置、计算机设备及介质 |
CN112270451A (zh) * | 2020-11-04 | 2021-01-26 | 中国科学院重庆绿色智能技术研究院 | 一种基于强化学习的监护预警方法及系统 |
CN112270451B (zh) * | 2020-11-04 | 2022-05-24 | 中国科学院重庆绿色智能技术研究院 | 一种基于强化学习的监护预警方法及系统 |
CN113505827A (zh) * | 2021-07-08 | 2021-10-15 | 西藏大学 | 一种机器学习分类方法 |
CN113505827B (zh) * | 2021-07-08 | 2024-01-12 | 西藏大学 | 一种机器学习分类方法 |
CN114048576A (zh) * | 2021-11-24 | 2022-02-15 | 国网四川省电力公司成都供电公司 | 一种稳定电网输电断面潮流的储能系统智能化控制方法 |
CN114048576B (zh) * | 2021-11-24 | 2024-05-10 | 国网四川省电力公司成都供电公司 | 一种稳定电网输电断面潮流的储能系统智能化控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826624A (zh) | 一种基于深度强化学习的时间序列分类方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN109101938B (zh) | 一种基于卷积神经网络的多标签年龄估计方法 | |
CN105389480B (zh) | 多类不平衡基因组学数据迭代集成特征选择方法及系统 | |
CN112687327B (zh) | 一种基于多任务和多模态的癌症生存分析系统 | |
CN107945210B (zh) | 基于深度学习和环境自适应的目标跟踪方法 | |
CN112734691A (zh) | 一种工业制品缺陷检测方法、装置、终端设备及存储介质 | |
CN111914159B (zh) | 一种信息推荐方法及终端 | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
CN111914902A (zh) | 一种基于深度神经网络的中药识别与表面缺陷检测方法 | |
CN112749653A (zh) | 行人检测方法、装置、电子设备及存储介质 | |
CN112749675A (zh) | 一种基于卷积神经网络的马铃薯病害识别方法 | |
CN114445356A (zh) | 基于多分辨率的全视野病理切片图像肿瘤快速定位方法 | |
CN114399763B (zh) | 一种单样本与小样本微体古生物化石图像识别方法及系统 | |
CN115909011A (zh) | 基于改进的SE-Inception-v3网络模型的天文图像自动分类方法 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN109617864B (zh) | 一种网站识别方法及网站识别系统 | |
CN113283467A (zh) | 一种基于平均损失和逐类选择的弱监督图片分类方法 | |
CN113160115A (zh) | 一种基于改进深度残差网络的农作物病害识别方法及系统 | |
CN110349119B (zh) | 基于边缘检测神经网络的路面病害检测方法和装置 | |
CN116977834A (zh) | 一种开放条件下分布内外图像识别方法 | |
CN116089708A (zh) | 农业知识推荐方法及装置 | |
CN113889274B (zh) | 一种孤独症谱系障碍的风险预测模型构建方法及装置 | |
US11715288B2 (en) | Optical character recognition using specialized confidence functions | |
CN115374931A (zh) | 一种基于元对抗训练的深度神经网络鲁棒性增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |