CN114463994B

CN114463994B - 基于混沌与强化学习的交通流预测的并行方法

Info

Publication number: CN114463994B
Application number: CN202111453764.2A
Authority: CN
Inventors: 刘嘉辉; 杜金; 仇化平
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2024-05-28
Anticipated expiration: 2041-12-01
Also published as: CN114463994A

Abstract

本发明提出一种基于混沌与强化学习的交通流预测的并行方法。包括：1.对数据进行预处理和混沌分析，通过混沌模型生成对比混沌时间序列，进行重构，标准化及数据集划分；2.使用预处理后的数据进行强化学习训练和对比环境的构造；3.构造actor‑critic神经网络模型进行智能体策略的学习和行为价值的判断；4.并行框架下从进程产生多个训练模型与环境进行互动，通过与主进程的中央神经网络模型的离散度对比和奖励实现并行更新，最后主进程进行预测验证。本发明采用强化学习和混沌时间序列对交通流进行预测，比传统统计学预测方法具有更强的解释性和在线调整的学习能力；并行的强化学习更快速地学习和调整，产生最佳的预测结果。

Description

基于混沌与强化学习的交通流预测的并行方法

技术领域

本发明属于混沌理论,强化学习,并行计算领域,尤其涉及一种基于混沌与强化学习的交通流预测的并行方法。

背景技术

随着经济水平的发展,中国私家车的拥有量急剧增加,道路交通情况变得更加复杂,因此对于交通流的预测变得十分重要。通过对交通流的预测可以提前对道路情况进行规划并最大程度保证交通情况的通畅,并且随着大数据环境以及智慧城市系统的发展,对于交通流预测数据的收集以及对预测方法的动态调整越来越具有实时性。目前对于交通流的预测一种是采用传统的统计学方法通过对历史交通流数据的分析进行概率计算从而进行预测,另一种是将交通流信息看作一般的时间序列信息通过机器学习和深度学习模型对未来的交通流进行预测。

混沌时间序列预测作为混沌理论研究的重要部分,随着混沌理论的发展,对混沌时间序列预测的研究也越来越深入。由于其具有的混沌特性和动力学信息,可以通过相空间重构的非线性映射来近似地还原混沌系统来进行对下一步的预测,并且混沌时间序列具有其他模型所不具有的优点,例如可以直接根据序列自身的客观规律进行预测,避免了人为主观性的因素对预测结果和预测精度的影响,以及具有良好的适应性。目前已经被应用到天气,金融,以及电力负载等方面,并且交通流的时间序列数据同样具有混沌特性,因此对于交通流的预测同样可以采用混沌时间序列的预测方法进行预测。

目前由于通过混沌时间序列对交通流进行预测的方法主要采取通过混沌理论进行相空间重构和深度学习的模型结合的方式。但这种方式的研究目前较少,这主要是因为一方面混沌时间序列的时间延迟和嵌入维度选取对预测的结果具有很大影响,另一方面基于深度学习的模型对于混沌时间序列的混沌特性学习能力较差,容易产生结果过拟合和连续预测结果不准确等问题。

强化学习与传统的深度学习和机器学习不同,当对模型进行输入数据时,模型并不知道最佳的输出而是通过与环境交互获得的奖励来进行动作策略的调整,从而学习到应对环境反应的最佳动作。因此强化学习适合于学习可以对环境产生最大奖励的决策行为,目前强化学习已经在游戏领域以及在线推荐等领域有了成熟的研究成果,在对于时间序列的预测领域已经逐渐有人开始进行金融时间序列的尝试,即利用股价时间序列信息为环境,学习买入和卖出的行为。对于交通流的预测因为环境的复杂情况,以及对预测结果的准确要求,目前尚且缺少使用强化学习方法的研究,但是由对股票时间序列的强化学习研究可以看出使用强化学习方法进行预测是可行的。

随着强化学习与深度学习研究的深入以及研究问题的环境和动作空间的复杂化,越来越多的学习过程开始与并行计算框架进行结合来实现更加快速和高效的学习。但是由于大部分的并行计算框架针对的是大数据背景下的问题,对于强化学习模型的学习和频繁的参数更新呈现出构造复杂和并行化程度不够高等问题。而由伯克利开源的Ray框架很好的解决了这些问题,Ray框架与目前流行的TensorFlow,PyTorch和Keras等深度学习框架完全兼容,可以在框架中使用一个或多个深度学习框架进行强化学习的训练,并且Ray拥有Rllib(可扩展强化学习库)可以方便地进行参数的搜索。Ray框架还为强化学习提供灵活的任务嵌套,可以在运行时灵活的更改,并且支持任务共享神经网络的参数权重以实现更加灵活和迅速的策略调整。Ray框架作为科学计算的并行框架,可以使程序更加注重计算本身的逻辑性和灵活性,使得单进程的强化学习模型只进行少量的改动就可以在Ray框架内变成多进程的并行程序,从而提高程序的运行效率。

发明内容

(一)要解决的技术问题

为了实现对交通流进行实时预测,并且通过并行的方式提高预测速度和准确率。本发明对交通流时间序列的预测过程进行了设计。首先为了更准确的预测交通流信息引入混沌理论对交通流时间序列初始化嵌入维度和时延及进行相空间重构,并进行混沌性质分析及通过混沌模型生成对比混沌时间序列,将交通流时间序列和对比混沌时间序列的数据进行标准化处理及按照嵌入维度和时延进行重构,并按照比例将数据集分别划分为交通流数据训练集,交通流数据测试集,对比数据训练集和对比数据测试集；其次,将交通流数据训练集和对比数据训练集的数据分别构造为强化学习的训练环境和对比环境,并且通过模糊理论确定模糊边界以此来确定训练环境和对比环境的奖励与惩罚函数,通过交通流数据训练集和对比数据训练集的数据确定强化学习模型actor-critic的动作空间；之后构造两个神经网络模型并初始化参数,用于强化学习中的actor-critic的学习,其中actor模型输出的为正态分布的各动作空间概率,critic模型输出的为状态的价值,最后通过Ray并行框架在从进程中产生多个actor-critic模型首先在对比环境中进行互动,并通过与主进程的中央神经网络模型global的离散度对比和奖励来实现并行更新,通过学习到的主进程的global模型对对比数据测试集上的数据进行预测验证,证明模型对混沌时间序列预测的准确性及可行性,之后将对比环境更换为训练环境使用交通流数据进行训练并测试。

(二)技术方案

为了可以从大量的交通流时间序列信息中学习到序列的混沌特性并对未来的交通流进行预测,本发明的目的在于提供一种基于混沌理论与强化学习的交通流并行预测方法,包括：

(1)对数据进行预处理,初始化嵌入维度和时间延迟,并进行混沌性质分析及通过混沌模型生成对比混沌时间序列,之后对交通流时间序列和对比混沌时间序列进行重构和标准化处理并进行数据集划分；

(2)构造强化学习的训练环境和对比环境,确定准确度边界,并以此来确定训练环境和对比环境奖励与惩罚函数以及actor的动作空间；

(3)构造actor-critic的神经网络模型结构,并初始化参数和更新方式；

(4)通过Ray并行框架在从进程中产生多个actor-critic模型与对比环境进行互动,通过与主进程的中央神经网络模型global的离散度对比和奖励来实现并行更新,并通过学习到的主进程的global模型对对比数据测试集上的数据进行预测验证,之后将对比环境更换为训练环境使用交通流数据进行训练并测试。

一种基于混沌与强化学习的交通流预测的并行方法,在进行强化学习训练之前需要对交通流数据初始化嵌入维度和时延及进行相空间重构,并进行混沌性质分析及通过混沌模型生成对比混沌时间序列,之后进行对交通流时间序列和对比混沌时间序列重构和标准化的预处理及数据集划分,具体步骤如下：

Step1_1,初始化重构交通流时间序列数据的嵌入维度m和时间延迟k；

Step1_2,通过Wolf法计算重构后交通流时间序列数据的最大Lyapunov指数,分析交通流时间序列的混沌特性；

Step1_3,初始化混沌模型生成对比混沌时间序列,混沌模型为X_i+1＝cX_i(1-X_i),其中X_i+1的集合为生成的混沌时间序列,c为混沌模型控制参数；

Step1_4,初始化重构对比混沌时间序列数据的嵌入维度md和时间延迟kd；

Step1_5,对交通流时间序列和对比混沌时间序列进行标准化处理,即使得ti＝(ti-tm)/σ,tdi＝(tdi-tdm)/σd,其中tm为交通流时间序列ti数据的平均值,σ为交通流时间序列数据的标准差,tdm为对比混沌时间序列tdi数据的平均值,σd为对比混沌时间序列数据的标准差；

Step1_6,通过选取的嵌入维度m,md和时间延迟k,kd对交通流时间序列和对比混沌时间序列进行重构,重构后的数据为：

T1＝[t₁,t_1+k,t_1+2k,…,t_1+(m-1)k],T2＝[t₂,t_2+k,t_2+2k,…,t_2+(m-1)k],…,Ti＝[t_i,t_i+k,t_i+2k,…,t_i+(m-1)k]；

Td1＝[td₁,td_1+kd,td_1+2kd,…,td_1+(md-1)kd],Td2＝[td₂,td_2+kd,td_2+2kd,…,td_2+(md-1)kd],…,

Tdi＝[td_i,td_i+kd,td_i+2kd,…,td_i+(md-1)kd]；

其中[T1,T2,…,Ti]为重构后的交通流时间序列数据,[Td1,Td2,…,Tdi]为重构后的对比混沌时间序列数据；

Step1_7,对重构后的交通流数据和对比混沌时间序列数据分别选取后n个点作为交通流数据测试集和对比数据测试集进行测试,其余点作为交通流数据训练集和对比数据训练集进行训练；

数据预处理过程描述完毕。

一种基于混沌与强化学习的交通流预测的并行方法,在进行强化学习训练之前需要将交通流数据训练集和对比数据训练集的数据构造为强化学习中智能体互动的训练环境和对比环境,并确定训练环境和对比环境的状态空间和准确度边界并且制定奖励与惩罚函数和actor的动作空间,具体步骤如下：

Step2_1,将经过预处理的交通流数据训练集数据作为环境中的状态空间并按照时间顺序排列,具体如下所示：

S₁＝T1＝[t₁,t_1+k,t_1+2k,…,t_1+(m-1)k],

S₂＝T2＝[t₂,t_2+k,t_2+2k,…,t_2+(m-1)k],

…,

S_n＝Tn＝[t_n,t_n+k,t_n+2k,…,t_n+(m-1)k]；

Step2_2,将相邻状态空间的最后一维数据依次进行求差操作求出动作空间范围,即t_c1＝t_2+(m-1)k-t_1+(m-1)k,t_c2＝t_3+(m-1)k-t_2+(m-1)k,…,t_ci-1＝t_i+(m-1)k-t_i-1+(m-1)k,并求出动作空间范围和差值的标准差,动作空间范围为：[d_min,d_max],标准差为σ,其中d_min,d_max分别为差值的最小值和最大值；

Step2_3,以t_ci为中心将状态Si对应的动作空间的奖励按照正态分布进行分布,分布函数为ri＝1/((2Π)^1/2σ)exp(-(di-tci)²/(2σ)²),其中di代表动作空间内的动作i；

Step2_4,依据预测值与真实值差值最小条件求出表示预测准确度的范围边界,具体如下所述：

Step2_4_1,根据动作空间范围与奖励分布设定条件函数与约束函数,具体公式如下所示：

(1)F＝((t_i+1+(m-1)k)²-t_ui ²)^1/2；

(2)t_i+1+(m-1)k-t_ui>＝-d_max；

(3)t_ui-t_i+1+(m-1)k>＝d_min；

其中(1)为条件函数,结果为预测值与真实值的欧氏距离,(2)和(3)为约束函数,t_ui为状态S_i下的预测值,t_i+1+(m-1)k为状态S_i+1的真实值；

Step2_4_2,依据条件函数与约束函数确定求解函数,具体公式如下所示：

L1＝(t_i+1+(m-1)k-t_ui)²+1/(4a)*((max(0,b1-2a(t_i+1+(m-1)k-t_ui+d_max)))²-b²)；

L2＝(t_i+1+(m-1)k-t_ui)²+1/(4a)*((max(0,b2-2a(t_ui-t_i+1+(m-1)k-d_min)))²-b²)；

其中L1,L2分别为准确度的右边界和左边界求解函数；

Step2_4_3,使dL1/dt_ui＝0,dL2/dt_ui＝0,得到t_ui1＝(2t_i+1+(m-1)k-b1+2a(t_i+1+(m-1)k+d_max))/(2(a-1)),t_ui2＝(2t_i+1+(m-1)k-b2+2a(t_i+1+(m-1)k-d_min))/(2(a-1)),其中t_ui1为准确度右边界值,t_ui2为准确度左边界值；

Step2_4_4,对a,b1,b2赋初值,确定t_ui1,t_ui2的初始值,其中a为惩罚因子,b1,b2为乘子；

Step2_4_5,设定迭代次数k,并按照如下公式进行迭代：

b1＝max(0,b1-2a(t_i+1+(m-1)k-t_ui+d_max))；

b2＝max(0,b1-2a(t_i+1+(m-1)k-t_ui-d_min))；

t_ui1＝(2t_i+1+(m-1)k-b1+2a(t_i+1+(m-1)k+d_max))/(2(a-1))；

t_ui2＝(2t_i+1+(m-1)k-b2+2a(t_i+1+(m-1)k-d_min))/(2(a-1))；

Step2_4_6,对迭代输出的t_ui1,t_ui2结果分别进行向上取整和向下取整操作,并将t_ui1,t_ui2的取整结果设置为准确度范围边界；

Step2_5,将dli＝t_ui1-t_i+1+(m-1)k,dri＝t_ui2-t_i+1+(m-1)k,分别设置为状态空间Si对应动作空间的左边界值和右边界值,取边界内的奖励值为ri,边界外的奖励值为ri＝-1/ri；

Step2_6,将交通流数据训练集数据替换为对比数据训练集数据重复以上步骤构造对比环境；

强化学习环境构造过程描述完毕。

一种基于混沌与强化学习的交通流预测的并行方法,在通过智能体与环境交互进行学习的过程中,使用的actor-critic模型是两种结构不同的深度学习模型的组合,分别为actor和critic的神经网络模型,用来进行智能体策略的学习和对智能体行为价值的判断,具体如下所示：

Step3_1,初始化actor网络结构,由于actor网络用来估计智能体的行动策略,并且策略具有连续性,因此actor的网络输入神经元个数为m即环境的状态维度,当环境为训练环境时m为训练环境的状态维度,当环境为对比环境时m为对比环境的状态维度,中间层网络结构使用CRU结构的神经网络,输出为[d_min,d_max]的动作概率分布并使用softmax激活函数构建模型；

Step3_2,初始化critic网络结构,由于critic网络用来估计状态的价值,因此critic的网络输入神经元个数为m,中间层网络结构使用CRU结构的神经网络,输出为[0,1]的数值并使用ReLU激活函数构建模型；

Step3_3,初始化actor与critic的网络参数θ_a,θ_c,其中actor网络用来学习智能体的行为策略,critic网络用来学习预测行为前后状态的价值差；

Step3_4,设定actor与critic的损失函数分别为：

loss_a＝1/n*(A(s1,a1)*log(a1|s1))+(A(s2,a2)*log(a2|s2))+…(A(si,ai)*log(ai|si))+(A(sn,an)*log(an|sn)),其中A(si,ai)＝ri+G*Si+1+ri+1+G²*Si+2+…+rn+G^n-i*Sn,si为状态值,ai为动作值,ri为环境的奖励值,G为状态更新率,Vi为critic模型对状态Si+1的估计值；

loss_s＝-((V1-S1)²+(V2-S2)²+…+(Vi-Si)²+(Vn-Sn)²)/n,其中

Vi＝ri+G*Si+1+ri+1+G²*Si+2+…+rn+G^n-i*Sn,其中Si为critic模型对状态Si的价值估计值；

Step3_5,设定actor与critic模型的初始动作策略,即如下所示策略选择函数：

A＝μ*max(pa1,pa2,…,pai,pan)+(1-μ)*rand(pa1,pa2,…,pai,pan),其中μ为贪心比例,pai代表动作i的估计值,rand为随机函数；

Step3_6,根据critic模型的损失函数loss_s与actor模型的损失函数loss_a的梯度ts,ta,依据梯度进行参数更新；

初始化神经网络模型结构及更新方式过程描述完毕。

一种基于混沌与强化学习的交通流预测的并行方法,在通过智能体与对比环境交互进行学习的过程中,通过Ray并行计算框架在从进程中产生多个包含actor-critic的进程与对比环境进行互动,通过对比从进程内的actor-critic与主进程内的中央神经网络模型global的总奖励来实现参数并行更新,并且通过学习到的主进程的global模型对对比数据测试集上的数据进行预测验证,之后将对比环境更换为训练环境使用交通流数据进行训练并测试,具体如下所示：

Step4_1,初始化主进程Master及Master内global模型的actor参数θ_ga,critic参数θ_gc,初始化从进程Slave_1,Slave_2,...,Slave_i,Slave_m及从进程内的actor-critic模型J1,J2,…,JM,并将主进程Master内global的参数发送到各从进程中进行初始化；

Step4_2,设置从进程Slave_i的本地学习时间间隔T,本地更新数目Tm与公共更新数目Tg,并统一初始化各从进程；

Step4_3,从进程Slave_i内的actor-critic模型Ji通过对状态的预测结果进行动作选择,其中当状态多次未改变时使用动作选择的优化策略函数,具体如下所示：

Step4_3_1,设定探索区间[d_min,d_max],最终区间长度e,探索次数n,辨别常数b>0；

Step4_3_2,计算试探动作值以及奖励值,具体如下所示：

Al＝d_min+F_n-2/F_n*(d_max-d_min),Ar＝d_min+F_n-1/F_n*(d_max-d_min),Rl＝ri(Al),Rr＝ri(Ar),其中Al,Ar为试探动作范围的左右边界值,F_n为第n项的Fibonacci数列值,Rl,Rr为左右动作边界试探的奖励值；

Step4_3_3,使n＝n-1,并开始迭代计算,具体如下所示：

当Al<Ar时,使d_max＝Ar,Ar＝Al,Rr＝Rl,若n>2,则计算Al＝d_min+F_n-2/F_n*(d_max-d_min),Rl＝ri(Al),否则计算Al＝Al-b,Rl＝ri(Al)；

当Al>＝Ar时,使d_min＝Al,Al＝Ar,Rl＝Rr,若n>2,则计算Al＝d_min+F_n-1/F_n*(d_max-d_min),Rr＝ri(Ar),否则计算Ar＝Ar+b,Rr＝ri(Ar)；

Step4_3_4,当(Rr>0U Rl>0U n＝1,U为逻辑或运算)为真时迭代结束,从进程Slave_i内的actor-critic模型Ji转为使用初始动作策略进行探索；

Step4_4,从进程Slave_i将本地actor-critic模型Ji收集的结果以[S,A,R]的形式按照时间顺序保存到本地记忆库中；

Step4_5,从进程Slave_i内的actor-critic模型Ji的以T时间间隔从本地记忆库中选择Tm个记忆进行学习并进行本地参数更新,当本地记忆库数目达到Tg时将模型最新参数Jia,Jic和Tg-Tm的奖励Rm以及0-Tm时间内的奖励R0上传到主进程Master内,并将本地记忆库清空；

Step4_6,主进程Master内的global模型根据global参数与从进程Slave_i内的actor-critic模型Ji上传的参数进行参数更新,具体如下所示：

Step4_6_1,计算主进程Master内的global模型与从进程Slave_i内的actor-critic模型Ji上传的本地模型参数的离散度,具体公式如下所：

D(Ga||Jia)＝Ga1*log(Ga1/Jia1)+Ga2*log(Ga2/Jia2)+…+Gai*log(Gai/Jiak)+Gan*log(Gan/Jian)；D(Gc||Jic)＝Gc1*log(Gc1/Jic1)+Gc2*log(Gc2/Jic2)+…+Gci*log(Gci/Jick)+Gcn*log(Gcn/Jicn)；

其中D(Ga||Jia),D(Gc||Jic)分别表示主进程Master内的global模型与从进程Slave_i内的Ji模型中的actor参数离散度和critic参数离散度；

Step4_6_2,计算奖励Rm与奖励R0的差值Rt用于下一步更新,其中Rt＝Rm-R0；

Step4_6_3,计算损失函数用于参数优化更新,损失函数具体如下所示：

Loss_ga＝-Rt*D(Ga||Jia)；

Loss_gc＝-Rt*D(Gc||Jic)；

Step4_6_4,依据损失函数Loss_ga,Loss_gc对主进程Master内的global模型参数进行损失最小化更新；

Step4_7,当主进程Master内的global模型在Tm时间内的总奖励Rg>Rmax时,使用global模型的最新参数对对比数据测试集上的数据进行预测并计算绝对误差,验证算法对混沌时间序列预测的准确性及可行性；

Step4_8,将对比环境更换为训练环境对交通流数据进行学习,并在交通流数据测试集上进行测试；

并行强化学习过程描述完毕。

(三)有益效果

本发明的有益效果是：依据混沌理论对交通流时间序列数据进行重构,并通过混沌模型生成对比混沌时间序列进行对比,与其他时间序列预测方法相比可以挖掘时间序列的更多特征信息。采用强化学习方式首先对对比混沌时间序列进行预测,验证算法的准确性及可行性,之后对交通流进行预测,比以往依据深度学习的预测方法具有更强的解释性和在线调整的能力。通过Ray框架进行并行的强化学习训练可以更快速的进行学习和调整,并且产生最佳的预测结果。

附图说明

图1是基于混沌理论与强化学习的交通流并行预测方法的模块流程图。

图2是基于混沌理论与强化学习的交通流并行预测方法的并行框架图。

具体实施方式

下面结合附图和实例对本发明的实施方式进一步详细描述。以下实例用于说明本发明,但不能用来限制本发明的范围。

实例1：交通流数据预处理。

Step1_1,设定初始化混沌时间序列的嵌入维度m＝3和时间延迟k＝2；

Step1_3,初始化混沌模型并生成对比混沌时间序列,混沌模型为X_i+1＝4X_i(1-X_i),其中X₁＝0.1；

Step1_4,初始化重构对比混沌时间序列数据的嵌入维度md＝3和时间延迟kd＝2；

Step1_5,对交通流时间序列和对比混沌时间序列进行标准化处理,设定交通流时间序列数据和对比混沌时间序列如下所示：

T＝[3,6,8,5,7,10,5]；

Td＝[0.3600,0.9216,0.2890,0.8219,0.5854,0.9708,0.1133]；

其中交通流数据均值tm＝6.33,交通流数据标准差σ＝4.95,对比数据均值tdm＝0.5802,对比数据标准差σd＝0.3363,则标准化后的数据如下所示：

T＝[-0.67,-0.06,0.34,-0.27,0.14,0.74,-0.27]；

Td＝[-0.6548,1.0152,-0.8659,0.7187,0.0155,1.1615,-1.3383]；

Step1_6,依据设定选取的嵌入维度为3和时间延迟2对交通流时间序列和对比混沌时间序列进行重构,以T和Td为例重构后的数据为：

T1＝[-0.67,0.34,0.14],

T2＝[-0.06,-0.27,0.74],

T3＝[0.34,0.14,-0.27],

Td1＝[-0.6548,-0.8659,0.0155],

Td2＝[1.0152,0.7187,1.1615],

Td3＝[-0.8659,0.0155,-1.3383]；

Step1_7,对重构后的交通流数据和对比混沌时间序列数据分别选取后100个点作为交通流数据测试集和对比数据测试集进行测试,其余点作为交通流数据训练集和对比数据训练集进行训练。

实例2：构造强化学习环境。

Step2_1,将经过预处理的交通流数据训练集的数据作为环境中的状态空间并按照时间顺

序排列,设定如下所示：

S₁＝T1＝[-0.67,0.34,0.14],

S₂＝T2＝[-0.06,-0.27,0.74],

S₃＝T3＝[0.34,0.14,-0.27],

…,

S_n＝Tn＝[0.64,0.25,-0.56]；

Step2_2,将相邻状态空间的最后一维数据依次进行求差操作求出动作空间范围,即设定：

T＝[3,6,8,5,7,10,5,…,9,10],

t_c1＝10-7＝3,

t_c2＝5-10＝-5,

…,

t_cn＝10-9＝1,

则设定动作空间范围为：[-5,3],差值的标准差为0.36；

(1)F＝((t_i+1+(m-1)k)²-t_ui ²)^1/2；

(2)t_i+1+(m-1)k-t_ui>＝-d_max；

(3)t_ui-t_i+1+(m-1)k>＝d_min；

Step2_4_2,依据条件函数与约束函数确定求解函数,具体如下所示：

Step2_4_5,设定迭代次数k,并按照如下公式进行迭代：

b1＝max(0,b1-2a(t_i+1+(m-1)k-t_ui+d_max))；

b2＝max(0,b1-2a(t_i+1+(m-1)k-t_ui-d_min))；

t_ui1＝(2t_i+1+(m-1)k-b1+2a(t_i+1+(m-1)k+d_max))/(2(a-1))；

t_ui2＝(2t_i+1+(m-1)k-b2+2a(t_i+1+(m-1)k-d_min))/(2(a-1))；

Step2_4_6,对迭代输出的t_ui1,t_ui2结果分别进行向上取整和向下取整操作,例如t_ui1＝12.56,t_ui2＝8.63,则准确度范围边界为[13,8]；

Step2_5,将dil＝t_ui1-t_i+1+(m-1)k,dir＝t_ui2-t_i+1+(m-1)k,分别设置为动作空间i的左右边界,例如当t_u11＝13,t_u12＝8,t6＝10时,d1l＝3,d1r＝-2,取[-2,3]内的奖励值为ri,[-2,3]外的奖励值为ri＝-1/ri；

Step2_6,将交通流数据训练集的数据替换为对比数据训练集的数据重复以上步骤构造对比环境。

实例3：初始化神经网络模型结构及更新方式。

Step3_1,初始化actor网络结构,由于actor网络用来估计智能体的行动策略并且策略具有连续性,因此actor的网络输入神经元个数为m即环境的状态维度,当环境为训练环境时m为训练环境的状态维度,当环境为对比环境时m为对比环境的状态维度,中间层网络结构使用CRU结构的神经网络,输出为[d_min,d_max]的动作概率分布并使用softmax激活函数构建模型,例如设定重构后的状态为S＝[-0.59,0.42,0.38,0.81],动作空间为[-2,3],则输入神经元个数为4,可选择的动作为[-2,-1,0,1,2,3],对应输出的概率分布为[0.1,0.2,0.3,0.2,0.1,0.1],表示选择动作-2的概率为0.1,动作-1的概率为0.3,…,动作3的概率为0.1；

Step3_2,初始化critic网络结构,由于critic网络用来估计状态的价值,因此critic的网络输入神经元个数为m,中间层网络结构使用CRU结构的神经网络,输出为[0,1]的数值并使用ReLU激活函数构建模型,例如设定重构后的状态为S＝[-0.67,0.34,0.14],则输入神经元个数为3,输出的S价值为0.62；

Step3_3,初始化actor-critic的网络参数θ_a,θ_c,其中actor网络用来学习智能体的行为策略,critic网络用来学习预测行为前后状态的价值差；

Step3_4,设定actor与critic的损失函数分别为：

loss_a＝-1/n*(A(s1,a1)*log(a1|s1))+(A(s2,a2)*log(a2|s2))+…(A(si,ai)*log(ai|si))+(A(sn,an)*log(an|sn)),

其中A(si,ai)＝ri+G*Si+1+ri+1+G²*Si+2+…+rn+G^n-i*Sn,si为状态值,ai为动作值,ri为环境的奖励值,G为状态更新率,Vi为critic模型对状态Si+1的估计值；

loss_s＝-((V1-S1)²+(V2-S2)²+…+(Vi-Si)²+(Vn-Sn)²)/n,其中Vi＝ri+G*Si+1+ri+1+G²*Si+2+…+rn+G^n-i*Sn,Si为critic模型对状态Si的价值估计值；

Step3_5,设定actor-critic模型的初始动作策略,即如下所示策略选择函数：

A＝μ*max(pa1,pa2,…,pai,pan)+(1-μ)*rand(pa1,pa2,…,pai,pan),其中μ为贪心比例,pai代表动作i的估计值,rand为随机函数,例如设定μ＝0.6,pa1＝0.1,pa2＝0.2,pa3＝0.3,pa4＝0.3,pa5＝0.1,则A＝0.6*max(0.1,0.2,0.3,0.3,0.1)+0.4*rand(0.1,0.2,0.3,0.3,0.1),表示60％的情况下选择动作价值最高的动作执行,40％随机选择动作执行；

Step3_6,根据critic模型的损失函数loss_s与actor模型的损失函数loss_a的梯度ts,ta,依据梯度进行参数更新。

实例4：并行强化学习。

Step4_3_2,计算试探动作值以及奖励值,具体如下所示：

Step4_3_3,使n＝n-1,并开始迭代计算,具体如下所示：

Step4_3_4,当Rr或Rl>0或n＝1时迭代结束,从进程Slave_i内的actor-critic模型Ji转为使用初始动作策略进行探索；

Ga＝[0.12,0.35,0.67,...,0.55],

Gc＝[0.31,0.55,0.87,...,0.65],

Jia＝[0.22,0.48,0.53,...,0.39],

Jic＝[0.42,0.48,0.79,...,0.74]；

则D(Ga||Jia)＝0.12*log(0.12/0.22)+0.35*log(0.35/0.48)+0.67*log(0.67/0.53)+…+0.55*log(0.55/0.39)；

D(Gc||Jic)＝0.31*log(0.31/0.42)+0.55*log(0.55/0.48)+0.87*log(0.87/0.79)+…+0.65*log(,0.65/0.74)；

Step4_6_2,设定Rm＝10.52,R0＝8.56,则Rt＝10.52-8.56＝1.96；

Loss_ga＝-1.96*(0.12*log(0.12/0.22)+0.35*log(0.35/0.48)+0.67*log(0.67/0.53)+0.55*log(0.55/0.39))；

Loss_gc＝-1.96*(0.31*log(0.31/0.42)+0.55*log(0.55/0.48)+0.87*log(0.87/0.79)+,0.65*log(,0.65/0.74))；

Step4_7,当主进程Master内的global模型在Tm时间内的总奖励Rg>Rmax时,使用global模型的最新参数对对比数据测试集数据进行预测并计算绝对误差,验证算法对混沌时间序列预测的准确性及可行性；

并行强化学习过程描述完毕。

最后应说明的是：以上实例仅用以说明本发明的技术方法,而非对其限制；尽管参照前述实例对本发明进行了详细的说明,本领域的普通技术人员应当理解：其依然可以对前述各实例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换；而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实例技术方案的精神和范围。

Claims

1.基于混沌与强化学习的交通流预测的并行方法，其特征在于：

(1)对数据进行预处理，初始化嵌入维度和时间延迟，并进行混沌性质分析及通过混沌模型生成对比混沌时间序列，然后对交通流时间序列和对比混沌时间序列进行重构和标准化处理并进行数据集划分；

(2)构造强化学习的训练环境和对比环境，确定准确度边界，并以此来确定训练环境和对比环境奖励与惩罚函数以及actor的动作空间；

(3)构造actor-critic的神经网络模型结构，并初始化参数和更新方式；

(4)通过Ray并行框架在从进程中产生多个actor-critic模型与对比环境进行互动，通过与主进程的中央神经网络模型global的离散度对比和奖励来实现并行更新，并通过学习到的主进程的global模型对对比数据测试集上的数据进行预测验证，然后将对比环境更换为训练环境使用交通流数据进行训练并测试；

基于混沌与强化学习的交通流预测的并行方法，在数据预处理过程中其特征在于：

Step1_1，初始化重构交通流时间序列数据的嵌入维度m和时间延迟k；

Step1_2，通过Wolf法计算重构后交通流时间序列数据的最大Lyapunov指数，分析交通流时间序列的混沌特性；

Step1_3，初始化混沌模型生成对比混沌时间序列，混沌模型为X_i+1＝cX_i(1-X_i)，其中X_i+1的集合为生成的混沌时间序列，c为混沌模型控制参数；

Step1_4，初始化重构对比混沌时间序列数据的嵌入维度md和时间延迟kd；

Step1_5，对交通流时间序列和对比混沌时间序列进行标准化处理，即计算ti＝(ti-tm)/σ_s15，tdi＝(tdi-tdm)/σd，其中tm为交通流时间序列ti数据的平均值，σ_s15为交通流时间序列数据的标准差，tdm为对比混沌时间序列tdi数据的平均值，σd为对比混沌时间序列数据的标准差；

Step1_6，通过预设的嵌入维度m，md和时间延迟k，kd对交通流时间序列和对比混沌时间序列进行重构，重构后的数据为：

Tdi＝[td_i,td_i+kd,td_i+2kd,…,td_i+(md-1)kd]；

其中[T1,T2,…,Ti]为重构后的交通流时间序列数据，[Td1,Td2,…,Tdi]为重构后的对比混沌时间序列数据；

Step1_7，对重构后的交通流数据和对比混沌时间序列数据分别选取后n个点作为交通流数据测试集和对比数据测试集进行测试，其余点作为交通流数据训练集和对比数据训练集进行训练；

数据预处理过程描述完毕；

基于混沌与强化学习的交通流预测的并行方法在强化学习环境构造过程中包括：

Step2_1，将经过预处理的交通流数据训练集数据作为环境中的状态空间并按照时间顺序排列，具体如下所示：

S₁＝T1＝[t₁,t_1+k,t_1+2k,…,t_1+(m-1)k],

S₂＝T2＝[t₂,t_2+k,t_2+2k,…,t_2+(m-1)k],

…,

S_n＝Tn＝[t_n,t_n+k,t_n+2k,…,t_n+(m-1)k]；

Step2_2，将相邻状态空间的最后一维数据依次进行求差操作求出动作空间范围，即t_c1＝t_2+(m-1)k-t_1+(m-1)k,t_c2＝t_3+(m-1)k-t_2+(m-1)k,…,t_ci-1＝t_i+(m-1)k-t_i-1+(m-1)k，并求出动作空间范围和差值的标准差，动作空间范围为：[d_min，d_max]，标准差为σ_s22，其中d_min，d_max分别为差值的最小值和最大值；

Step2_3，以t_ci为中心将状态Si对应的动作空间的奖励按照正态分布进行分布，分布函数为ri＝1/((2Π)^1/2σ_s22)exp(-(di-tci)²/(2σ_s22)²),其中di代表动作空间内的动作i；

Step2_4，依据预测值与真实值差值最小条件求出表示预测准确度的范围边界，具体描述为：

Step2_4_1，根据动作空间范围与奖励分布设定条件函数与约束函数，具体公式描述为：

(1)F＝((t_i+1+(m-1)k)²-t_ui ²)^1/2；

(2)t_i+1+(m-1)k-t_ui>＝-d_max；

(3)t_ui-t_i+1+(m-1)k>＝d_min；

其中(1)为条件函数，结果为预测值与真实值的欧氏距离，(2)和(3)为约束函数，t_ui为状态S_i下的预测值，t_i+1+(m-1)k为状态S_i+1的真实值；

Step2_4_2，依据条件函数与约束函数确定求解函数，具体公式为：

其中L1，L2分别为准确度的右边界和左边界求解函数；

Step2_4_3，使dL1/dt_ui＝0，dL2/dt_ui＝0，计算t_ui1＝(2t_i+1+(m-1)k-b1+2a(t_i+1+(m-1)k+d_max))/(2(a-1)),t_ui2＝(2t_i+1+(m-1)k-b2+2a(t_i+1+(m-1)k-d_min))/(2(a-1))，其中t_ui1为准确度右边界值，t_ui2为准确度左边界值；

Step2_4_4，对a，b1，b2赋初值，设定t_ui1，t_ui2的初始值，其中a为惩罚因子，b1，b2为乘子；

Step2_4_5，设定迭代次数k，并按照下面公式进行迭代：

b1＝max(0,b1-2a(t_i+1+(m-1)k-t_ui+d_max))；

b2＝max(0,b1-2a(t_i+1+(m-1)k-t_ui-d_min))；

t_ui1＝(2t_i+1+(m-1)k-b1+2a(t_i+1+(m-1)k+d_max))/(2(a-1))；

t_ui2＝(2t_i+1+(m-1)k-b2+2a(t_i+1+(m-1)k-d_min))/(2(a-1))；

Step2_4_6，对迭代输出的t_ui1，t_ui2结果分别进行向上取整和向下取整操作，并将t_ui1，t_ui2的取整结果设置为准确度范围边界；

Step2_5，将dli＝t_ui1-t_i+1+(m-1)k，dri＝t_ui2-t_i+1+(m-1)k，分别设置为状态空间Si对应动作空间的左边界值和右边界值，取边界内的奖励值为ri，边界外的奖励值为ri＝-1/ri；

Step2_6，将交通流数据训练集数据替换为对比数据训练集数据重复以上步骤构造对比环境；

强化学习环境构造过程描述完毕；

基于混沌与强化学习的交通流预测的并行方法在初始化神经网络模型过程中包括：

Step3_1，初始化actor网络结构，actor网络实现估计智能体的行动策略，并且策略具有连续性，设置actor的网络输入神经元个数为m即环境的状态维度，当环境为训练环境时m为训练环境的状态维度，当环境为对比环境时m为对比环境的状态维度，中间层网络结构使用CRU结构的神经网络，输出为[d_min，d_max]的动作概率分布并使用softmax激活函数构建模型；

Step3_2，初始化critic网络结构，critic网络实现估计状态的价值，设置critic的网络输入神经元个数为m，中间层网络结构使用CRU结构的神经网络，输出为[0，1]的数值并使用ReLU激活函数构建模型；

Step3_3，初始化actor与critic的网络参数θ_a，θ_c，其中actor网络用来学习智能体的行为策略，critic网络用来学习预测行为前后状态的价值差；

Step3_4，设定actor与critic的损失函数分别为：

loss_a＝1/n*(A(s1,a1)*log(a1|s1))+(A(s2,a2)*log(a2|s2))+…(A(si,ai)*log(ai|si))+(A(sn,an)*log(an|sn)),其中A(si,ai)＝ri+G*Si+1+ri+1+G²*Si+2+…+rn+Gⁿ ^-i*Sn，si为状态值，ai为动作值，ri为环境的奖励值，G为状态更新率，Vi为critic模型对状态Si+1的估计值；

loss_s＝-((V1-S1)²+(V2-S2)²+…+(Vi-Si)²+(Vn-Sn)²)/n,其中

Vi＝ri+G*Svali+1+ri+1+G²*Svali+2+…+rn+G^n-i*Svaln,其中Svali为critic模型对状态Si的价值估计值；

Step3_5，设定actor与critic模型的初始动作策略，策略选择函数为：

A＝μ*max(pa1,pa2,…,pai,pan)+(1-μ)*rand(pa1,pa2,…,pai,pan),其中μ为贪心比例，pai代表动作i的估计值，rand为随机函数；

Step3_6，根据critic模型的损失函数loss_s与actor模型的损失函数loss_a的梯度ts，ta，依据梯度进行参数更新；

初始化神经网络模型结构及更新方式过程描述完毕；

基于混沌与强化学习的交通流预测的并行方法在并行强化学习过程中包括：

Step4_1，初始化主进程Master及Master内global模型的actor参数θ_ga，critic参数θ_gc，初始化从进程Slave_1，Slave_2，...，Slave_i，Slave_m及从进程内的actor-critic模型J1,J2,…,JM,并将主进程Master内global的参数发送到每个从进程中进行初始化；

Step4_2，设置从进程Slave_i的本地学习时间间隔T，本地更新数目Tm与公共更新数目Tg，并统一初始化每个从进程；

Step4_3，从进程Slave_i内的actor-critic模型Ji通过对状态的预测结果进行动作选择，其中当状态多次未改变时使用动作选择的优化策略函数，具体为：

Step4_3_1，设定探索区间[d_min，d_max]，最终区间长度e，探索次数n，辨别常数b>0；

Step4_3_2，计算试探动作值以及奖励值，具体为：

Al＝d_min+F_n-2/F_n*(d_max-d_min)，Ar＝d_min+F_n-1/F_n*(d_max-d_min)，Rl＝ri(Al)，Rr＝ri(Ar)，其中Al，

Ar为试探动作范围的左右边界值，F_n为第n项的Fibonacci数列值，Rl，Rr为左右动作边界试探的奖励值；

Step4_3_3，使n＝n-1，并开始迭代计算，具体为：

当Al<Ar时，使d_max＝Ar，Ar＝Al，Rr＝Rl，若n>2，则计算Al＝d_min+F_n-2/F_n*(d_max-d_min)，Rl＝ri(Al)，否则计算Al＝Al-b，Rl＝ri(Al)；

当Al>＝Ar时，使d_min＝Al，Al＝Ar，Rl＝Rr，若n>2，则计算Al＝d_min+F_n-1/F_n*(d_max-d_min)，Rr＝ri(Ar)，否则计算Ar＝Ar+b，Rr＝ri(Ar)；

Step4_3_4，当Rr>0U Rl>0U n＝1，U为逻辑或运算为真时迭代结束，从进程Slave_i内的actor-critic模型Ji转为使用初始动作策略进行探索；

Step4_4，从进程Slave_i将本地actor-critic模型Ji收集的结果以[S,A,R]的形式按照时间顺序保存到本地记忆库中；

Step4_5，从进程Slave_i内的actor-critic模型Ji以T时间间隔从本地记忆库中选择Tm个记忆进行学习并进行本地参数更新，当本地记忆库数目达到Tg时将模型最新参数Jia，Jic，Tg-Tm的奖励Rm和0-Tm时间内的奖励R0上传到主进程Master内，并将本地记忆库进行清空处理；

Step4_6，主进程Master内的global模型根据global参数与从进程Slave_i内的actor-critic模型Ji上传的参数进行参数更新，具体为：

Step4_6_1，计算主进程Master内的global模型与从进程Slave_i内的actor-critic模型Ji上传的本地模型参数的离散度，具体公式为：

其中D(Ga||Jia)，D(Gc||Jic)分别表示主进程Master内的global模型与从进程Slave_i内的Ji模型中的actor参数离散度和critic参数离散度；

Step4_6_2，计算奖励Rm与奖励R0的差值Rt用于下一步更新，其中Rt＝Rm-R0；

Step4_6_3，计算损失函数实现参数优化更新，损失函数具体为：

Loss_ga＝-Rt*D(Ga||Jia)；

Loss_gc＝-Rt*D(Gc||Jic)；

Step4_6_4，依据损失函数Loss_ga，Loss_gc对主进程Master内的global模型参数进行损失最小化更新；

Step4_7，当主进程Master内的global模型在Tm时间内的总奖励Rg>Rmax时，使用global模型的最新参数对对比数据测试集上的数据进行预测并计算绝对误差，验证算法对混沌时间序列预测的准确性及可行性；

Step4_8，将对比环境更换为训练环境对交通流数据进行学习，并在交通流数据测试集上进行测试；

并行强化学习过程描述完毕。