CN113189998B

CN113189998B - 一种基于深度强化学习的多乘客动态车辆路径优化方法

Info

Publication number: CN113189998B
Application number: CN202110478381.4A
Authority: CN
Inventors: 刘玮; 甘陈峰; 王宁
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2023-04-18
Anticipated expiration: 2041-04-30
Also published as: CN113189998A

Abstract

本发明提供了一种基于深度强化学习的多乘客动态车辆路径优化方法，针对大量乘客的动态巴士路线规划的问题，使用深度强化学习中的神经网络DQN代替表格数据存储方式，解决了维度爆炸的缺陷，实现了在开放环境下优化大量乘客的浮动巴士路径的功能。本发明满足了巴士运行动态路线变化的需求，为管理者进行应急处置、应急决策提供了技术支撑。本发明通过模拟乘客分布对现实的巴士规划做出参考，提高了城市规划效率。

Description

一种基于深度强化学习的多乘客动态车辆路径优化方法

技术领域

本发明属于智能交通技术领域，具体涉及一种基于深度强化学习的多乘客动态车辆路径优化方法。

背景技术

巴士系统是城市交通系统重要的一环，结合自适应系统的研究，创建动态、智能的巴士系统提高人群的出行效率。浮动巴士系统是以一种典型的以人为中心(AutonomousHuman Adaptive Systems，AHASs)的自适应系统。浮动巴士系统中，以巴士为载体，以人为核心，使用软件或算法为主导。系统的浮动性来自于系统所处的动态，开放环境，例如道路环境的变化，天气的影响和突发状况等。浮动巴士系统是AHASs的实现，提高质量，增加效率，降低成本等根本需求，在该系统以人为中心的核心下，转化成了提高巴士运输效率，降低乘客等待时间，优化线路等需求。

现有的智能巴士领域研究在优化线路、降低能耗和减少乘客等待时间三个方面有一定的进展，但针对较大人流量下的浮动巴士路径优化问题少有涉足，现实场景中的乘客运输除了环境持续变化之外，往往存在通行人数远超过模拟案例的情况。

发明内容

本发明要解决的技术问题是：提供一种基于深度强化学习的多乘客动态车辆路径优化方法，用于优化大人流量下的浮动巴士路径。

本发明为解决上述技术问题所采取的技术方案为：一种基于深度强化学习的多乘客动态车辆路径优化方法，包括以下步骤：

S1：构建车辆运行的状态动作空间；

S2：以车辆作为强化学习的主体，根据不同情况设定不同的奖励值和惩罚值；

S3：搭建具有经验回放机制的DQN算法，建立DQN深度神经网络，并训练车辆让实际Q值趋近目标Q值；

S4：进行监督学习，通过确定损失函数、梯度获得最优的动态车辆路径。

按上述方案，所述的步骤S1中，具体步骤为：设车辆的通行范围在道路的起点和终点之间；在车辆的通行范围内设有车站、特殊区域、信号灯；车站为行人的上下车地点，车站带有停车属性；行人为参与交通的实体，分布在车站的附近，行人分别带有不同的通行计划属性；特殊区域分布在道路的两旁，车辆在经过特殊区域时进行减速操作；信号灯用于控制交通。

进一步的，所述的步骤S2中，具体步骤为：

设参与学习的车辆的状态为S，车辆在状态S下的动作为A，对车辆的动作的奖励或惩罚的值为R，车辆的状态发生改变的状态转移概率为P；定义四元组<A，S，R，P>和奖惩规则如下：

S＝特殊区域且红灯，A＝减速，R＝-3；

S＝普通区域，A＝正常速度，R＝-1；

S＝终点，A＝停止，R＝10；

S＝乘客上车或下车，A＝停止，R＝1。

进一步的，所述的步骤S3中，具体步骤为：

S31：设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a)，在状态s下通过动作a转移到状态s′的转移概率为

通过动作a从状态s转移到状态s′获得的奖励为

设折扣值为γ，折扣值越大表示越考虑未来的价值累计，折扣值为零表示只看当前步骤的奖励积累；建立状态s下的状态价值函数V^π(s)为：

设在状态s′下采取动作a′的奖励为Q^π(s′，a′)，则状态s下累计的状态动作价值函数Q^π(s)为：

用于评定车辆交互时状态的价值和动作的价值；

S32：在高维连续的状态动作空间中，通过相近的状态拟合相近的输出动作，得到每个状态动作对的Q值：

Q(s，a；ω)≈Q′(s，α)；

S33：将Q-Learning计算得到的目标Q值作为标签，并训练车辆让实际Q值趋近目标Q值。

进一步的，所述的步骤S4中，具体步骤为：

S41：采用Q-Learning确定损失函数为：

S42：设DQN算法收敛，使车辆在每个状态下选取到最好的动作的策略为π：

π(s)＝arg max_a∈AQ(s，a)；

S43：使用包括随机梯度下降的方法更新参数，从而优化函数直至获得稳定的全局奖励，得到车辆的最优动作序列和最优路线。

进一步的，所述的步骤S3中，采用numpy、tensorflow、openAI-GYM环境，用python语言搭建DQN算法的具体步骤为：

环境E；动作空间A；起始状态X0；奖励折扣γ；学习率α；

输入：状态空间S；

1)初始化经验回放存储空间D；

2)使用随机权重θ初始化动作-价值函数Q；

3)令随机权重θ-＝θ，初始化目标动作-价值函数

4)对每一个episode循环

5)初始化状态序列S1＝{X1}，Φ1＝Φ(S1)；

6)对每一步循环

7)选择一个动作A：

8)以概率ε选择一个随机动作At；

9)否则选择动作at＝argmaxaQ(Φ(st)，a；θ)；

10)执行动作Ai并观察奖励Rt和新状态Xt+1；

11)令St+1＝St，At，Xt+1并进行预处理使Φt+1＝Φ(St+1)；

12)在经验回放中D保存经验(Φt，At，Rt，Φt+1)；

13)从D中随机选取小批样本(Φj，Aj，Rj，Φj+1)；

14)

15)对于θ使用损失函数(y_i-Q(Φ_j，A_j，θ))梯度下降更新；

16)每C步对

进行重置；

17)判断终止条件，结束循环；

18)判断终止条件，结束循环；

输出：当前状态下所有可能采取动作的Q值。

一种计算机存储介质，其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行一种基于深度强化学习的多乘客动态车辆路径优化方法。

本发明的有益效果为：

1.本发明的一种基于深度强化学习的多乘客动态车辆路径优化方法，针对大量乘客的动态巴士路线规划的问题，使用深度强化学习中的神经网络DQN代替表格数据存储方式，解决了维度爆炸的缺陷，实现了在开放环境下优化大量乘客的浮动巴士路径的功能。

2.本发明满足了巴士运行动态路线变化的需求，为管理者进行应急处置、应急决策提供了技术支撑。

3.本发明通过模拟乘客分布对现实的巴士规划做出参考，提高了城市规划效率。

附图说明

图1是本发明实施例的DQN算法流程图。

图2是本发明实施例的DQN深度神经网络结构图。

图3是本发明实施例的动态巴士场景示意图。

图4是本发明实施例的DQN算法的收敛过程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

参见图3，在场景中定义巴士站，人群分布状态，人群在站台区域随机上下车，巴士停留时间设定为2min，巴士在正常行驶时受到-1的惩罚，减速或红灯时受到-3的惩罚，乘客正常上下车时得到1的奖励，到达终点时奖励10。将巴士的状态S作为神经网络的输入，输出状态的价值Q，迭代得到最大价值的巴士状态，动作序列，以及最优路线。

参见图1，本发明实施例的一种基于深度强化学习的多乘客动态车辆路径优化方法，包含以下步骤：

1.动态巴士场景建模

构建巴士动态运行场景；

道路：巴士的通行范围，起点和终点，设有控制交通的信号灯和减速区域。

巴士站：行人的上下车地点，设在道路上，巴士站自带停车属性。

行人：参与交通的实体，分布在场景中各个巴士站附近，行人各自有不同的通行计划。

特殊区域：分布在道路两旁，例如学校医院等设施，巴士需要在经过时进行减速操作。

2.奖励值设置

将巴士作为参与强化学习的主体，根据不同情况设定不同的奖惩如下：

状态S	动作A	奖励R
			特殊区域，红灯	减速	-3
普通区域	正常速度	-1
			终点	停止	10
乘客上下车	停止	1

3.DQN算法计算

参见图2，建立状态价值函数和状态动作价值函数，用来评定Agent交互时状态的价值和动作的价值：

其中定义了一个经典的四元组<A，S，R，P>：A代表所有参与学习的巴士的动作；S是巴士能处于的环境状态State；R是对一个动作奖励或者惩罚的值；P是巴士的状态发生改变时的状态转移概率。

搭建具有经验回放机制的DQN算法，由于存放的数据是按照时间顺序构造的，具有一定的数据相关性，经验回放是通过样本随机采样，在一定程度上打破了相关性，更有利于收敛。

在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。通常做法是把Q-Table的更新问题变成一个函数拟合问题，相近的状态得到相近的输出动作：

Q(s，a；ω)≈Q′(s，a)

E-DQN算法将Q-Learning计算出来的目标Q值作为标签，在训练中让Q值趋近目标Q值。在函数优化上，监督学习先确定损失函数、求梯度，使用随机梯度下降等方法更新参数。E-DQN中用Q-Learning确定损失函数，表达式如下：

算法收敛得到最优的策略π表示为每一个状态选取到最好的动作，形式如下：

π(s)＝arg max_a∈AQ(s，a)

在numpy，tensorflow，openAI-GYM环境下，用python搭建实验算法：

环境E；动作空间A；起始状态X0；奖励折扣γ；学习率α。

输入：状态空间S。

1)初始化经验回放存储空间D；

2)使用随机权重θ初始化动作-价值函数Q；

3)令随机权重θ-＝θ，初始化目标动作-价值函数

4)对每一个episode循环

5)初始化状态序列S1＝{X1}，Φ1＝Φ(S1)；

6)对每一步循环

7)选择一个动作A：

8)以概率ε选择一个随机动作At；

9)否则选择动作at＝argmaxaQ(Φ(st)，a；θ)；

10)执行动作Ai并观察奖励Rt和新状态Xt+1；

11)令St+1＝St，At，Xt+1并进行预处理使Φt+1＝Φ(St+1)；

12)在经验回放中D保存经验(Φt，At，Rt，Φt+1)；

13)从D中随机选取小批样本(Φj，Aj，Rj，Φj+1)；

14)

15)对于θ使用损失函数(y_i-Q(Φ_j，A_j，θ))梯度下降更新；

16)每C步对

进行重置；

17)判断终止条件，结束循环；

18)判断终止条件，结束循环；

输出：当前状态下所有可能采取动作的Q值。

4.获得最优动作序列以及最优路线。

参见图4是DQN算法的收敛过程，全局奖励稳定时代表了最优的动态巴士路线。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的多乘客动态车辆路径优化方法，其特征在于：包括以下步骤：

S1：构建车辆运行的状态动作空间；

具体步骤为：

S＝特殊区域且红灯，A＝减速，R＝-3；

S＝普通区域，A＝正常速度，R＝-1；

S＝终点，A＝停止，R＝10；

S＝乘客上车或下车，A＝停止，R＝1；

具体步骤为：

通过动作a从状态s转移到状态s′获得的奖励为

用于评定车辆交互时状态的价值和动作的价值；

Q(s，a；ω)≈Q′(s，a)；

S33：将Q-Learning计算得到的目标Q值作为标签，并训练车辆让实际Q值趋近目标Q值；

2.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法，其特征在于：所述的步骤S1中，具体步骤为：

设车辆的通行范围在道路的起点和终点之间；

在车辆的通行范围内设有车站、特殊区域、信号灯；

车站为行人的上下车地点，车站带有停车属性；

行人为参与交通的实体，分布在车站的附近，行人分别带有不同的通行计划属性；特殊区域分布在道路的两旁，车辆在经过特殊区域时进行减速操作；

信号灯用于控制交通。

3.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法，其特征在于：所述的步骤S4中，具体步骤为：

S41：采用Q-Learning确定损失函数为：

π(s)＝arg max_a∈AQ(s，a)；

4.根据权利要求3所述的一种基于深度强化学习的多乘客动态车辆路径优化方法，其特征在于：所述的步骤S3中，采用numpy、tensorflow、openAI-GYM环境，用python语言搭建DQN算法的具体步骤为：

环境E；动作空间A；起始状态X0；奖励折扣γ；学习率α；

输入：状态空间S；

1)初始化经验回放存储空间D；

2)使用随机权重θ初始化动作-价值函数Q；

3)令随机权重θ-＝θ，初始化目标动作-价值函数

4)对每一个episode循环

5)初始化状态序列S1＝{X1}，Φ1＝Φ(S1)；

6)对每一步循环

7)选择一个动作A：

8)以概率ε选择一个随机动作At；

9)否则选择动作at＝argmaxQ(Φ(st)，a；θ)；

10)执行动作Ai并观察奖励Rt和新状态Xt+1；

11)令St+1＝St，At，Xt+1并进行预处理使Φt+1＝Φ(St+1)；

12)在经验回放中D保存经验(Φt，At，Rt，Φt+1)；

13)从D中随机选取小批样本(Φj，Aj，Rj，Φj+1)；

14)

15)对于θ使用损失函数(y_i-Q(Φ_j，A_j，θ))梯度下降更新；

16)每C步对

进行重置；

17)判断终止条件，结束循环；

18)判断终止条件，结束循环；

输出：当前状态下所有可能采取动作的Q值。

5.一种计算机存储介质，其特征在于：其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行如权利要求1至权利要求4中任意一项所述的一种基于深度强化学习的多乘客动态车辆路径优化方法。