CN116311948A

CN116311948A - 基于交通流速度预测和信号灯状态的车辆路径规划方法

Info

Publication number: CN116311948A
Application number: CN202310527421.9A
Authority: CN
Inventors: 刘冰艺; 陈葳旸; 宋斌; 韩玮祯; 熊盛武
Original assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Current assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-06-23
Anticipated expiration: 2043-05-11
Also published as: CN116311948B

Abstract

本发明提供了一种基于交通流速度预测和信号灯状态的车辆路径规划方法，包括：基于每条路径多个历史时间区间的平均行驶速度，利用mWDN‑LSTM‑ARIMA模型预测当前时间区间的平均行驶速度；确定路网中所有路径在当前时间区间的通行时间；利用训练样本车辆在路网中实时的位置信息、所有交通信号灯实时的相位状态信息、以及所有路径实时的通行时间信息，基于PPO算法训练深度强化学习模型；基于训练好的深度强化学习模型，确定出目标车辆从当前路径预行驶至下一路径所即将执行的动作，并将包含即将执行的动作的信息发送至目标车辆。本方法考虑了交通信号灯状态对车辆通行时间的影响，能为车辆规划通行耗时短的路径。

Description

基于交通流速度预测和信号灯状态的车辆路径规划方法

技术领域

本发明属于智能交通技术领域，具体涉及一种基于交通流速度预测和信号灯状态的车辆路径规划方法。

背景技术

随着自动驾驶、车载传感、车辆定位等新技术、新理论的不断研究与应用，为解决交通拥堵问题提供了新的思路和方案。在车联网、全球定位系统以及人工智能等新技术的不断融合下，智能交通系统能依据城市道路中各路段的交通流信息，通过路径规划方法为用户提供交通行驶建议，减少了车辆通行时间，缓解了交通拥堵。

然而，在城市路况下，现有的路径规划方案，仅仅考虑车流密度、道路长度和道路工况等因素，忽略了交通信号灯状态对车辆通行时间的影响，因此规划出的路径耗时仍然较长，未能做到最大化减少车辆通行时间，影响车辆通行效率的大幅度提高。

发明内容

考虑到上述情况，本发明的目的是提供一种基于交通流速度预测和信号灯状态的车辆路径规划方法，能规划车辆耗时较短的路径，可最大化减少车辆通行时间，大幅度提高车辆通行效率。

为了实现上述目的，本发明实施例提供了一种基于交通流速度预测和信号灯状态的车辆路径规划方法，包括：

步骤S100：获取路网中所有路径在当前时间区间之前的多个历史时间区间中每个历史时间区间的平均行驶速度；

步骤S200：基于每条路径在当前时间区间之前每个历史时间区间的平均行驶速度，利用mWDN-LSTM-ARIMA 模型预测每条路径在当前时间区间的平均行驶速度；

步骤S300: 根据每条路径在当前时间区间的平均行驶速度预测值，预测路网中对应路径在当前时间区间的通行时间；

步骤 S400：利用训练样本车辆在路网中从初始训练位置行驶至终点训练位置过程中实时的位置信息、路网中所有路口的交通信号灯实时的相位状态信息、以及路网中所有路径实时的通行时间预测值，基于PPO算法训练深度强化学习模型，得到训练好的深度强化学习模型，所述训练好的深度强化学习模型的输出为从当前训练位置所在路径预行驶至下一路径所即将执行的动作；

步骤S500，当接收到车主发送的目标车辆路径规划请求后，基于训练好的深度强化学习模型，确定出目标车辆从当前位置所在路径预行驶至下一路径所即将执行的动作，并将包含即将执行的动作的信息发送至目标车辆以使车主行驶至目的地，其中目标车辆路径规划请求包含目标车辆发送请求时的当前时间、初始位置和目的地位置信息。

较佳地，所述步骤S400具体包括：

步骤S410，采样者on-policy获取训练样本车辆的观测值所包含的数据，其中训练样本车辆的观测值包括训练样本车辆在当前训练时刻的训练位置和终点训练位置、路网中每条路径在当前训练时刻的通行时间预测值、路网中所有路口的交通信号灯在当前训练时刻的相位状态；

步骤S420: 利用actor 神经网络，根据训练样本车辆的观测值输出训练样本车辆的所有动作的概率分布；利用critic神经网络，根据训练样本车辆的观测值输出训练样本车辆所处路网环境的状态价值，其中训练样本车辆所处路网环境的状态价值表征训练样本车辆在当前位置所在路径行驶到达下一个路径的通行时间评估值；

步骤 S430: actor 神经网络根据训练样本车辆的所有动作的概率分布，将概率最大的动作设置为训练样本车辆从当前训练位置所在路径预行驶至下一路径所即将执行的动作；

步骤 S440: actor 神经网络将包含即将执行的动作的信息发送至训练样本车辆，以使训练样本车辆执行所述信息指示的动作；

步骤S450，检测到训练样本车辆行驶到下一个路径时，采样者on-policy确定训练样本车辆对应当前路径之上一路径的奖励，其中训练样本车辆对应当前路径之上一路径的奖励为训练样本车辆在当前路径之上一路径上行驶到达当前路径的时间的相反数；

步骤 S460：actor 神经网络判断训练样本车辆是否到达终点训练位置，如果否，转步骤S410，如果是，继续下一步；

步骤 S470: actor 神经网络根据采样者on-policy确定出的训练样本车辆所有路径的奖励计算训练样本车辆的累计折扣奖励；

步骤 S480: actor 神经网络根据训练样本车辆的累计折扣奖励和critic神经网络最后一次输出的训练样本车辆所处路网环境的状态价值计算损失函数；

步骤S490，actor 神经网络判断损失函数的值是否收敛，如果否，则继续下一步；如果是，则结束；

步骤S491: actor 神经网络根据计算出的损失函数更新actor 神经网络和critic神经网络的神经网络参数；

步骤S492，将训练样本车辆的位置更新为初始训练位置，转步骤S410。

较佳地，所述步骤S492之前，还包括：

判断actor 神经网络和/或critic神经网络的神经网络参数的更新次数是否大于预定次数，如果是，则将actor 神经网络和/或critic神经网络的神经网络参数赋值给采样者on-policy的神经网络参数，然后进行步骤S492；如果否，直接进行步骤S492。

较佳地，步骤S430中actor神经网络和critic神经网络均由依次连接的一层卷积层和两层全连接层组成，actor神经网络的输出维度为3，critic神经网络的输出维度为1，

其中：卷积层中卷积核的深度为16，长度和宽度均为10；第一层全连接层中神经元的排列方式为288行，每行一个神经元；第二层全连接层中神经元的排列方式为128行，每行一个神经元；激活函数采用Softmax激活函数。

较佳地，所述步骤S500具体包括：

步骤S510：获取目标车辆的观测值所包含的数据，其中目标车辆的观测值包括目标车辆在当前时刻的位置和目的地位置、路网中每条路径在当前时刻的通行时间预测值、路网中所有路口的交通信号灯在当前时刻的相位状态；

步骤S520：将目标车辆的观测值输入至所述训练好的深度强化学习模型，得到目标车辆从当前位置所在路径预行驶至下一路径所即将执行的动作；

步骤S530：将包含即将执行的动作的信息发送至目标车辆，以使目标车辆执行所述信息指示的动作，从而从当前位置所在路径行驶至下一个路径；

步骤S540，当检测到目标车辆执行所述信息指示的动作后行驶到下一个路径时，判断目标车辆是否到达目的地位置，如果否，转步骤S510，如果是，结束。

较佳地，所述步骤S200具体包括：

步骤S210：利用mWDN网络对每条路径当前时间区间的历史交通流序列进行三级分解，其中每条路径当前时间区间的历史交通流序列为对应路径在当前时间区间之前的所有历史时间区间的平均行驶速度所组成的序列集合；

步骤S220：针对每条路径所对应的mWDN网络三级分解结果中的每个子序列，利用独立的LSTM神经网络提取对应子序列的交通流速度特征，从而得到每条路径当前时间区间的平均行驶速度的第一预测值；

步骤S230：针对每条路径，利用NN网络对所有LSTM神经网络输出的当前时间区间的平均行驶速度的第一预测值进行加权组合，从而得到每条路径当前时间区间的平均行驶速度的第二预测值；

步骤S240：判断每条路径当前时间区间的平均行驶速度的第二预测值的残差值是否为白噪声，如果是，则将对应路径当前时间区间的平均行驶速度的第二预测值作为对应路径当前时间区间的平均行驶速度的预测值；如果否，则利用ARIMA 模型提取对应路径当前时间区间的平均行驶速度的第二预测值的残差值所包含的交通流速度特征，从而得到对应路径当前时间区间的平均行驶速度的第三预测值，将对应路径当前时间区间的平均行驶速度的第二预测值与第三预测值相加的结果作为对应路径当前时间区间的平均行驶速度的预测值。

较佳地，所述步骤S210具体包括：

第一级分解：对每条路径当前时间区间的历史交通流序列进行分解，得到高频子序列

和低频子序列/>

；

第二级分解：对第一级分解中得到的低频子序列

进行分解，得到高频子序列

和低频子序列/>

；

第三级分解：对第二级分解中得到的低频子序列

进行分解，得到高频子序列

和低频子序列/>

，

其中，mWDN网络对每条路径当前时间区间的历史交通流序列进行三级分解的结果包括每一级分解得到的高频子序列

和第三级分解得到的低频子序列/>

，

其中，高频子序列包含交通流速度的整体变化趋势，低频子序列包含交通流速度的局部细节信息。

较佳地，所述步骤S240中判断每条路径当前时间区间的平均行驶速度的第二预测值的残差值是否为白噪声，具体为：

构建每条路径当前时间区间的平均行驶速度的第二预测值的残差值的滞后1~20阶自相关系数图；

若滞后1~20阶自相关系数图中的自相关系数超出了显著性边界，或滞后1~20阶自相关系数图中的自相关系数没有随机分布在横坐标轴的两侧，则对应路径当前时间区间的平均行驶速度的第二预测值的残差值不为白噪声；

若滞后1~20阶自相关系数图中的自相关系数没有超出显著性边界，且滞后1~20阶自相关系数图中的自相关系数随机分布在横坐标轴的两侧，则对应路径当前时间区间的平均行驶速度的第二预测值的残差值为白噪声。

本发明实施例提供的技术方案带来的有益效果是：

（1）本发明以历史时间区间的平均行驶速度为基础，基于mWDN-LSTM-ARIMA组合模型来对当前时间区间的平均行驶速度进行预测，弥补了单一模型预测数据特征提取不彻底、预测精度低、对重要的频域信息缺乏有效建模的问题。

（2）本发明在训练深度强化学习模型时，充分考虑了交通信号灯状态对车辆通行时间的影响，在训练车辆的观测值中加入了路网中所有路口的交通信号灯实时的相位状态，并且根据训练样本车辆在当前路径之上一路径上行驶到达当前路径的时间的相反数来确定当前路径之上一路径的奖励，其中训练样本车辆在上一路径上行驶到达当前路径的时间包含了在训练样本车辆在上一路径与当前路径的交叉路口处等待交通信号灯的时间，因此相比于不考虑交通信号灯状态对车辆通行时间的影响的现有方案，本方法规划处的车辆路径耗时更短，能减少车辆的通行时间，提高通行效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于交通流速度预测和信号灯状态的车辆路径规划方法的流程图；

图1a为本发明实施例基于交通流速度预测和信号灯状态的车辆路径规划方法的原理示意图；

图2为本发明实施例基于交通流速度预测和信号灯状态的车辆路径规划方法中mWDN-LSTM-ARIMA模型实现当前时间区间的平均行驶速度预测的流程图；

图2a为本发明实施例基于交通流速度预测和信号灯状态的车辆路径规划方法中mWDN-LSTM-ARIMA模型实现当前时间区间的平均行驶速度预测的原理示意图；

图3为本发明实施例基于交通流速度预测和信号灯状态的车辆路径规划方法中深度强化学习模型训练过程的流程图；

图4为本发明实施例基于交通流速度预测和信号灯状态的车辆路径规划方法中目标车辆路径规划的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

首先，在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

长短期记忆网络(Long Short-Term Memory，简称为LSTM)，为一种时间递归神经网络，用于处理和预测时间序列中间隔和延迟相对较长的重要事件。

多级小波分解网络（mutil Wavelet Decomposition Network, 简称mWDN）：是一种深度神经网络模型，用于对时间序列的特征提取和预测。

差分求整合移动平均自回归（Autoregressive Integrated Moving Average, 简称ARIMA）模型：是一种广泛应用于时间序列预测和分析的统计模型，能够捕捉到交通流序列的相关性、趋势性和季节性等特征，用于对交通流序列进行预测和分析。

全连接神经网络（Fully Connected Neural Network，简称 NN网络）：是一种最简单的神经网络结构, 用于整合或加权组合其他交通流预测模型的预测结果。

近端策略优化(Proximal Policy Optimization, 简称PPO)算法: 是一种强化学习算法，用于训练智能体在某个环境中执行有目的的动作。它通过不断尝试并学习，帮助智能体找到执行有效动作的最佳方式，从而获得最大的回报。

下面详细说明本发明的实施例。

参考图1和图1a，本发明实施例提供的一种基于交通流速度预测和信号灯状态的车辆路径规划方法，包括以下步骤：

步骤S100：获取路网中所有路径在当前时间区间之前的多个历史时间区间中每个历史时间区间的平均行驶速度。

需要说明的是，每个时间区间都具有规定的时间区间长度，且当前时间区间和每个历史时间区间的时间区间长度相同。当前时间区间是包含当前时刻且具有规定时间区间长度的时间段；所有历史时间区间均为当前时间区间之前的时间区间。较佳地，多个历史时间区间中的一个历史时间区间是当前时间区间之前紧挨着的时间区间。同样较佳地，多个历史时间区间为连续的时间区间。在本实施例中，每个时间区间的长度为5min，也即时间序列每5min分为一个时间区间。

本实施例针对路网中的每条路径，利用对应路径当前时间区间之前的多个历史时间区间的平均行驶速度预测当前时间区间的平均行驶速度。每条路径每个历史时间区间的平均行驶速度可以通过对应路径上的速度传感器检测得到。具体地，通过在路网的每条路径上安装速度传感器，速度传感器收集对应路段每间隔5min的平均行驶速度。示例性地，历史时间区间的数量可以为9个，各个路径当前时间区间的平均行驶速度可以由前9个历史时间区间的平均行驶速度预测得到。必须指出的是，路径具有行驶方向性。如果路网中某条路段是双行道，则该路段有2条行驶方向相反的路径，该2条路径的平均行驶速度可能不相同；如果某条路段是单行道，则该路段仅有1条路径。

设当前时间区间为t，路网中路径的总数为p，以第i条路径为例，将该路径i在当前时间区间t之前的T个历史时间区间的平均行驶速度所组成的序列集合定义为第i条路径当前时间区间t的历史交通流序列，

，其中，/>

为第i条路径当前时间区间t的历史交通流序列，/>

为第i条路径在当前时间区间t的第j个历史时间区间的平均行驶速度，1≤j≤T，1≤i≤p。

步骤S200：基于每条路径在当前时间区间之前每个历史时间区间的平均行驶速度，利用mWDN-LSTM-ARIMA 模型预测每条路径在当前时间区间的平均行驶速度。

下面以第i条路径为例，详细阐述mWDN-LSTM-ARIMA 模型如何预测每条路径在当前时间区间t的平均行驶速度。参考图2和图2a，步骤S200包括：

步骤S210：利用mWDN网络对第i条路径当前时间区间t的历史交通流序列进行三级分解。

具体地，第一级分解为对第i条路径当前时间区间t的历史交通流序列进行分解，得到高频子序列

和低频子序列/>

；第二级分解为对第一级分解中得到的低频子序列/>

进行分解，得到高频子序列/>

和低频子序列/>

；第三级分解为对第二级分解中得到的低频子序列/>

进行分解，得到高频子序列/>

和低频子序列/>

。其中，mWDN网络对第i条路径当前时间区间的历史交通流序列进行三级分解的结果包括每一级分解得到的高频子序列/>

和第三级分解得到的低频子序列/>

。其中，高频子序列包含交通流速度的整体变化趋势，低频子序列包含交通流速度的局部细节信息，例如车祸，天气突变造成短时的交通流速度变化。

步骤S220：针对第i条路径所对应的mWDN网络三级分解结果中的每个子序列，利用独立的LSTM神经网络提取对应子序列的交通流速度特征，并根据提取的对应子序列的交通流速度特征分别独立预测第i条路径当前时间区间的平均行驶速度，从而得到第i条路径当前时间区间的平均行驶速度的第一预测值。

需要说明的是，在交通流速度预测中，通常将输入数据的变化规律看作特征，将输出结果看作预测。特征是输入数据的一些属性或特性，用来描述数据的特点，提取特征的作用是发现交通流速度随时间的变化规律；预测则是对未来事件或未知数据的预测结果。LSTM神经网络的前面几层通常用于提取输入数据的特征，后面的层则用于预测输出结果。

在本实施例中，针对第i条路径，由于mWDN网络三级分解结果中有4个子序列，因此本步骤利用4个独立的LSTM神经网络对4个子序列中对应的子序列进行交通流速度特征的提取并进行交通流速度预测，此时每个LSTM神经网络输出对应子序列的当前时间区间的平均行驶速度的第一预测值。可以理解地，由于第i条路径所对应的mWDN网络三级分解结果中包含4子序列，因此步骤针对第i条路径会得到4个当前时间区间的平均行驶速度的第一预测值。

需要说明的是，LSTM能够通过自身的门控机制，对子序列中的信息进行筛选和遗忘，从而提取出子序列中的重要特征。例如，通过门控机制，LSTM可以选择性地忘记过去某些时刻的信息，只保留最近时刻的信息，从而更好地适应动态变化的交通流。本步骤中，LSTM神经网络提取各个高频子序列

的交通流速度特征，例如交通流速度的整体变化趋势；LSTM神经网络提取低频子序列/>

的交通流速度特征，例如交通流序列的局部细节信息。另外，LSTM还能够处理长时依赖问题，能够记忆更长时间跨度的信息，从而更好地捕捉交通流序列的周期性和趋势性。

步骤S230：针对第i条路径，利用NN网络对所有LSTM神经网络输出的当前时间区间的平均行驶速度的第一预测值进行加权组合，从而得到第i条路径当前时间区间t的平均行驶速度的第二预测值

。该第二预测值/>

即为mWDN-LSTM 模型的预测值。

具体地，NN网络将第i条路径所对应的4个不同的LSTM神经网络所输出的第一预测值进行加权求和，生成第i条路径当前时间区间t的平均行驶速度的第二预测值

。

步骤S240: 判断第i条路径当前时间区间的平均行驶速度的第二预测值

的残差值/>

是否为白噪声，如果是，则继续步骤S250；如果否，转步骤S260；

其中，第i条路径当前时间区间t的平均行驶速度的第二预测值

的残差值/>

为：

式中，

为第i条路径当前时间区间t的历史交通流序列，/>

为第i条路径当前时间区间t的平均行驶速度的第二预测值；/>

为第i条路径当前时间区间t的平均行驶速度的第二预测值/>

的残差值。

在本步骤中，判断第i条路径当前时间区间t的平均行驶速度的第二预测值

的残差值/>

是否为白噪声，具体为：

（1）构建第i条路径当前时间区间t的平均行驶速度的第二预测值

的残差值/>

的滞后1~20阶自相关系数图。其中滞后1~20阶自相关系数图中展示残差值的自相关系数的分布情况。

（2）若滞后1~20阶自相关系数图中的自相关系数超出了显著性边界，或滞后1~20阶自相关系数图中的自相关系数没有随机分布在横坐标轴的两侧，而是长期处于横坐标轴的一侧，说明残差值存在自相关性，则第i条路径当前时间区间t的平均行驶速度的第二预测值

的残差值/>

不为白噪声，这种情况说明残差值中有待提取的交通流特征，也说明mWDN-LSTM模型没有完整提取交通流序列的特征（需要说明的是，一个交通流序列往往包含多种变化规律，有周周期、日周期等变化规律，也有通勤出行、交通事故、天气变化导致的交通流速度的变化，各种规律相互杂糅，mWDN 分解的目的就是将上述变化规律分离，便于之后使用LSTM神经网络有针对的提取交通流速度特征），同时说明了这种情况下，仅通过mWDN-LSTM模型预测得到的结果精度有待提高。为了提高预测精度，本方法后续使用了ARIMA 模型提取残差值的交通流特征，从而得到残差值的预测值，可以用这个预测值和先前的mWDN-LSTM 的预测值相加，以修正先前mWDN-LSTM 的预测值，从而提高预测精度。

（3）若滞后1~20阶的自相关系数图中的自相关系数没有超出显著性边界，且滞后1~20阶自相关系数图中的自相关系数随机分布在横坐标轴的两侧，则第i条路径当前时间区间t的平均行驶速度的第二预测值

的残差值/>

为白噪声。

步骤S250：将第i条路径当前时间区间的平均行驶速度的第二预测值

作为第i条路径当前时间区间的平均行驶速度的预测值，结束（此时第i条路径当前时间区间的平均行驶速度的预测值/>

即为mWDN-LSTM-ARIMA模型的预测结果）；

步骤S260：利用ARIMA 模型提取第i条路径当前时间区间的平均行驶速度的第二预测值

的残差值所包含的交通流速度特征，并根据提取的交通流速度特征预测第i条路径当前时间区间t的平均行驶速度，从而得到第i条路径当前时间区间t的平均行驶速度的第三预测值/>

；

需要说明的是，在交通流速度预测中，通常将输入数据的变化规律看作特征，将输出结果看作预测。特征是输入数据的一些属性或特性，用来描述数据的特点；预测则是对未来事件或未知数据的预测结果。ARIMA模型的前面几层通常用于提取输入数据的特征，后面的层则用于预测输出结果。

ARIMA模型可以通过差分和移动平均等方式消除第i条路径当前时间区间t的平均行驶速度的第二预测值

的残差值中的非平稳性，从而得到平稳的残差值，并利用自回归和移动平均的方式来建立残差值与过去时刻的依赖关系，从而提取残差值所包含的交通流速度特征，并预测结果。

步骤S270：将第i条路径当前时间区间的平均行驶速度的第二预测值

与第三预测值/>

相加的结果作为第i条路径当前时间区间t的平均行驶速度的预测值/>

，结束（此时第i条路径当前时间区间t的平均行驶速度的预测值/>

即为mWDN-LSTM-ARIMA模型的预测结果）。mWDN-LSTM-ARIMA模型的预测结果/>

为车辆于当前时刻在第i条路径上行驶的平均速度的预测值。

步骤S300:根据每条路径在当前时间区间的平均行驶速度预测值，预测路网中对应路径在当前时间区间的通行时间。

具体地，以第i条路径为例，通过地图获取第i条路径的长度，将第i条路径的长度记为

，则第i条路径在当前时间区间t内任一时刻下的通行时间的预测值为/>

，其中/>

为第i条路径当前时间区间t的平均行驶速度的预测值，是mWDN-LSTM-ARIMA模型的预测结果。路网中每条路径在当前时间区间t内任一时刻下的通行时间预测值用集合List表示，

，1≤i≤P，P为路径的总数量。

步骤 S400：利用训练样本车辆在路网中从初始训练位置行驶至终点训练位置过程中实时的位置信息、路网中所有路口的交通信号灯实时的相位状态信息、以及路网中所有路径实时的通行时间预测值，基于PPO算法训练深度强化学习模型，得到训练好的深度强化学习模型，所述训练好的深度强化学习模型的输出为从当前训练位置所在路径预行驶至下一路径所即将执行的动作。

PPO算法采用采样与训练分离的模式，具体是采样者on-policy基于策略

与环境交互以收集数据，并将收集的数据存入数据缓冲区replay-buffer中，然后使用replay-buffer中的数据来训练学习者off-policy的策略/>

。这种模式下可使用同一批训练数据多次更新学习者策略参数/>

，从而提高更新效率。需要说明的是，采样者On-policy 是学习者off-policy 的一个副本，其所有结构与学习者off-policy 一样，只是它们的任务不同，on-policy 负责与环境交互，获取样本数据，学习者off-policy 利用采样者on-policy 获取的样本数据训练。

其中学习者off-policy由actor神经网络和 critic神经网络组成。actor神经网络是深度强化学习中的一个关键组件，用于确定智能体在当前状态下应该采取哪个动作。它将智能体所观察到的状态作为输入，并输出一组动作概率分布，智能体可以根据这个分布选择最优的动作。critic神经网络是一种用于强化学习的神经网络，主要用于估计状态价值函数的神经网络模型。

具体地，步骤S400如下步骤：

步骤 S410: 采样者on-policy获取训练样本车辆的观测值所包含的数据，其中训练样本车辆的观测值包括训练样本车辆在当前训练时刻的训练位置和终点训练位置、路网中每条路径在当前训练时刻的通行时间预测值、路网中所有路口的交通信号灯在当前训练时刻的相位状态。

其中，训练样本车辆在当前训练时刻的训练位置可以通过GPS 获取得到。路网中所有路口的交通信号灯在当前训练时刻的相位状态可以通过车辆上安装的通信设备来获取得到。例如，当训练样本车辆在当前路径上之与下一路径的交叉路口处时，通过通信设备获取所有交叉路口处交通信号灯的相位状态。整个路网中所有路口的交通信号灯当前训练时刻的相位状态信息用集合

表示，/>

，/>

为当前训练时刻第k个交通信号灯所处于的相位。路网中每条路径在当前训练时刻的通行时间预测值可以通过前述mWDN-LSTM-ARIMA模型获得。

步骤S420: 利用actor 神经网络，根据训练样本车辆的观测值输出训练样本车辆的所有动作的概率分布Policy；利用critic神经网络，根据训练样本车辆的观测值输出训练样本车辆所处路网环境的状态价值，其中训练样本车辆所处路网环境的状态价值表征训练样本车辆在当前位置所在路径行驶到达下一个路径的通行时间评估值。

具体地，actor神经网络和critic神经网络均由依次连接的一层卷积层和两层全连接层组成，actor神经网络的输出维度为3，critic神经网络的输出维度为1。其中卷积层的维度为

；第一层全连接层的维度为/>

；第二层全连接层的维度为/>

，激活函数采用Softmax激活函数。具体地，卷积层中卷积核的深度为16，长度和宽度均为10；第一层全连接层中神经元的排列方式为288行，每行一个神经元；第二层全连接层中神经元的排列方式为128行，每行一个神经元；激活函数采用Softmax激活函数。

本实施例在actor神经网络和critic神经网络中加入了卷积层，利用卷积神经网络参数共享、局部链接等特点，可以加快模型的训练速度。

具体而言，actor神经网络会接收训练样本车辆当前的观测值，将其作为卷积层的输入，通过卷积层、第一全连接层和第二全连接层的处理后，第二连接层的输出经过softmax激活函数得到训练样本车辆在当前状态下采取各个可能动作的概率，从而输出智能体在当前状态下采取所有可能动作的概率分布。

需要说明的是，训练样本车辆的动作指的是训练样本车辆可以做的道路选择决策，动作空间维度与当前道路相连接的道路数量有关，一般的交通场景下，训练样本车辆只能从一种状态左转、右转或直行到另一种状态，因此本发明中动作空间为3，分别为左转、右转和直行。

critic神经网络根据训练样本车辆的观测值输出训练样本车辆所处路网环境的状态价值。训练样本车辆所处路网环境指的是道路网络的地理环境，包括路网拓扑结构、交通流量、交通信号、道路限速等因素。训练样本车辆所处路网环境的状态价值能表征训练样本车辆在当前训练位置所在路径行驶到达下一个路径的通行耗时的评估时间。在训练阶段，critic神经网络的目标是最小化当前状态的价值与预期的长期累积奖励值之间的差距。

步骤 S430: actor 神经网络根据训练样本车辆的所有动作的概率分布，将概率最大的动作设置为训练样本车辆从当前训练位置所在路径预行驶至下一路径所即将执行的动作。

较佳地，可以使用python 语言中的Sample 函数从动作概率分布Policy 中取样，得到概率最大的动作，将该概率最大的动作设置为训练样本车辆从当前训练位置所在路径预行驶至下一路径所即将执行的动作。

步骤 S440: actor 神经网络将包含即将执行的动作的信息发送至训练样本车辆，以使训练样本车辆执行该信息所指示的动作；

步骤S450，检测到训练样本车辆执行该信息所指示的动作后行驶到达下一个路径时，采样者on-policy确定训练样本车辆对应于当前路径之上一路径的奖励

，其中训练样本车辆对应于当前路径之上一路径的奖励/>

为训练样本车辆在当前路径之上一路径上行驶到达当前路径的时间的相反数。训练样本车辆在当前路径之上一路径上行驶到达当前路径的时间包括训练样本车辆在当前路径之上一路径上的实际行驶时间、在当前路径之上一路径与当前路径的交叉路口处等待交通信号灯的实际等待时间、以及从当前路径之上一路径与当前路径的交叉路口处行驶到达当前路径的实际行驶时间。

在本实施例中，训练样本车辆在当前路径之上一路径上的实际行驶时间、在当前路径之上一路径与当前路径的交叉路口处等待交通信号灯的实际等待时间、以及从当前路径之上一路径与当前路径的交叉路口处行驶到达当前路径的实际行驶时间都可使用计时器统计。需要说明的是，训练样本车辆在当前路径之上一路径与当前路径的交叉路口处等待交通信号灯的实际等待时间为等待交通信号灯所花费的时间，等待该时间后，训练样本车辆可以从该交叉路口处执行对应的动作进入该下一个路径。

需要说明的是，每当训练样本车辆到达一条新的路径，即进入一个新的状态。训练样本车辆在当前路径上的状态是训练样本车辆的观测值。例如，训练样本车辆在

路径上行驶，此时训练样本车辆的状态为/>

，训练样本车辆在执行右转动作后进入路径/>

，继续在路径/>

上行驶，此时训练样本车辆的状态为/>

。必须指出的是，应用本方法的训练样本车辆或目标车辆称为智能体（agent）。

另外，训练样本车辆对应于各个路径的奖励

是训练样本车辆与环境交互过程中环境给予训练样本车辆的奖励，强化学习寻求奖励的最大值，奖励的设计直接影响强化学习的策略。本实施例奖励的设置有考虑到交通信号灯状态对车辆通行时间的影响。

步骤 S460：actor 神经网络判断训练样本车辆是否到达终点训练位置，如果否，转步骤S410，如果是，继续下一步

如果智能体没有到达终点训练位置，则继续步骤S410~S460，采样者on-policy 可获取一组数据

，其中/>

是训练样本车辆在路径i上的状态，/>

是训练样本车辆从路径i上预行驶至下一路径所即将执行的动作，/>

是训练样本车辆对应于路径i的奖励。

步骤 S470: actor 神经网络根据采样者on-policy确定出的训练样本车辆所有路径的奖励计算训练样本车辆的累计折扣奖励。

训练样本车辆的累计折扣奖励U的计算公式为：

其中，

为折扣因子，本发明中/>

的取值为1，/>

是训练样本车辆对应于路径i的奖励，1≤i≤n，n为训练样本车辆从初始训练位置行驶至终点训练位置所经过的路径总数。

步骤 S480: actor 神经网络根据训练样本车辆的累计折扣奖励和critic神经网络最后一次输出训练样本车辆所处路网环境的状态价值计算损失函数。

损失函数loss 的具体计算公式如下：

loss = U – V

其中，U为训练样本车辆的累计折扣奖励，V为critic神经网络输出的训练样本车辆所处路网环境的状态价值。

步骤S490，actor 神经网络判断损失函数的值是否收敛(即损失函数loss的值趋近于设定值)，如果否，则继续下一步；如果是，则结束（此时得到训练好的深度强化学习模型）。

步骤S491: actor 神经网络根据计算出的损失函数，使用神经网络中的反向传播算法loss.backward()更新actor神经网络和critic神经网络的神经网络参数；

步骤S492：判断actor 神经网络和/或critic神经网络的神经网络参数的更新次数是否大于预定次数，如果是，则继续下一步，如果否，转步骤S494。

步骤S493：将actor 神经网络和/或critic神经网络的神经网络参数赋值给采样者on-policy的神经网络参数；

在本步骤中，阶段性地将off-policy的神经网络参数复制给采样者on-policy的神经网络参数，目的是防止采样者on-policy 和学习者 off-policy 两个神经网络的差异过大。本发明中学习者off-policy 的神经网络每更新100次之后，就将学习者off-policy的神经网络参数复制给采样者on-policy的神经网络参数。可以理解地，这里的神经网络参数指的是神经网络中神经元线上的权重。

步骤S494：将训练样本车辆的位置更新为初始训练位置，转步骤S410。

需要说明的是，训练好的深度强化学习模型的输入为训练样本车辆的观测值，输出为训练样本车辆从当前训练位置所在路径预行驶至下一路径所即将执行的动作，训练好的深度强化学习模型中，采样者on-policy中actor 神经网络和critic神经网络的神经网络参数和学习者off-policy的神经网络参数为最终更新的值。

具体地，步骤S500包括：

步骤S520：将目标车辆的观测值输入至训练好的深度强化学习模型，得到目标车辆从当前位置所在路径预行驶至下一路径所即将执行的动作；

步骤S530：将包含即将执行的动作的信息发送至目标车辆，以使目标车辆执行该信息所指示的动作，从而从当前位置所在路径行驶至下一个路径；

步骤S540，当检测到目标车辆执行该信息指示的动作后行驶到下一个路径时，判断目标车辆是否到达目的地位置，如果否，转步骤S510，如果是，结束。

本发明还提供了一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现上述的基于交通流速度预测和信号灯状态的车辆路径规划方法。

上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序；计算机程序被处理器执行以实现上述的基于交通流速度预测和信号灯状态的车辆路径规划方法，该方法包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

应当理解的是，上述针对较实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术员工在本发明的启示下,在不脱离本发明权利要求书所保护的范围情况下,还可以做出替换和变形,均落入本发明的保护范围之内,本发明的请求保护范围应当以所附的权利要求为准。