CN112508356A

CN112508356A - 一种基于强化学习模型的共享汽车平衡方法

Info

Publication number: CN112508356A
Application number: CN202011317789.5A
Authority: CN
Inventors: 顾钊铨; 方滨兴; 贾焰; 任昌伟; 王乐; 仇晶; 韩伟红; 李树栋
Original assignee: Guangzhou University
Current assignee: National University of Defense Technology; Guangzhou University
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-16

Abstract

本发明公开了一种基于强化学习模型的共享汽车平衡方法，包括：S1，接收用户的待用车请求或者待还车请求；S2，将待用车请求或者待还车请求输入预先建立好的强化学习模型，强化学习模型输出各个站点的用车奖励金或者还车奖励金；S3，用户遍历包含他自身的预设网格区域，在提供奖励金最多的站点进行取车或者还车。本发明能主动平衡共享汽车系统，由此可以大量减少人工调度成本，更好地平衡各站点的车辆分布，增加用户的用车体验，提到商家的服务率。

Description

一种基于强化学习模型的共享汽车平衡方法

技术领域

本发明涉及深度学习和强化学习技术领域，具体涉及一种基于强化学习模型的共享汽车平衡方法。

背景技术

随着共享经济的蓬勃发展，越来越多的共享产品进入人们的视野当中，例如共享充电宝、共享单车、共享汽车。共享经济的发展，为人们的生活带来了很多便利，特别是共享汽车，为人们的出行方式提供了多样的选择。共享汽车与传统的租车行业有很大不同，共享汽车会有更多的租赁站点，更方便的取还车模式，更合理的分时计费方式等。

但是在共享汽车的运营当中也存在着一些问题，由于用户相似的出行模式，在共享汽车的租赁系统，车辆分布的不平衡，特别是在高峰时间段。例如，在早高峰期间，多数用户倾向于在生活区取车，并将车还至工作区或者商业区，导致了生活区车辆数很稀少，工作区车辆数量达到顶峰。这种车辆分布的不平衡不仅降低了用户的用车体验，同时也一定程度上减少了商家的收入。如何平衡车辆的分布是共享汽车亟待解决的一大问题。

目前缓解汽车分时租赁系统供需不平衡的解决办法主要有以下几种方案：一种是人工调度，员工将车辆从车辆富裕的站点调到车辆稀缺的站点；另一种是自适应调度，以价格为杠杆，调节各站点的需求量。

基于上述方案，现有的用于共享汽车系统平衡问题的方法是基于人工或者规则来调控，人工调度需要耗费大量的人力和时间成本，当车辆数增多时，人工调度成本也会大幅度增加；基于价格调控的方法是一种基于规则的调控方法，也需要人力来设定具体定价，也会耗费一点的人力资源，并且难以自适应的设置车辆分时价格。

因此，行业内急需研发一种能自适应平衡共享汽车系统的方法，以此可以大量减少人工调度成本，更好地平衡各站点的车辆分布，增加用户的用车体验。

发明内容

本发明的目的是为了克服以上现有技术存在的不足，提供了一种能自适应平衡共享汽车系统的基于强化学习模型的共享汽车平衡方法。

本发明的目的通过以下的技术方案实现：

一种基于强化学习模型的共享汽车平衡方法，包括：

S1，接收用户的待用车请求或者待还车请求；

S2，将待用车请求或者待还车请求输入预先建立好的强化学习模型，强化学习模型输出各个站点的用车奖励金或者还车奖励金；

S3，用户遍历包含他自身的预设网格区域，在提供奖励金最多的站点进行取车或者还车。为了避免高峰时间段存在取车难以及还车难的情况发生，从而提升共享汽车的服务率进而提升商家的收入，需要为用户提供一定的奖励来激励用户主动平衡共享汽车系统。即设计了取车奖励以及换车奖励的两种奖励方法：对于每一个用户，在用户选择车辆时，在每一个时间段，为了刺激用户平衡共享汽车系统，商家在车辆数目较多的站点提供较高的奖励金，以此来激励用户去该区域取车；在用户还车时，商家在车辆数目较少的站点提供较高的奖励金，以此来激励用户去该区域还车。

优选地，建立强化学习模型包括：将共享汽车的租赁区域划分为网格状，其中每一个网格代表一个共享汽车的租赁点；其中每个网格中有固定的共享汽车停放数目，并且将s作为该站点的剩余车辆的数目；其中，各个站点的共享汽车数目都在动态地变化。

建立马尔可夫决策过程，包括四元组(S，A，R，γ)，其中S表示每个时刻的各个站点的车辆信息集合，由{s₁，s₂，...，s_n}组成，s_i表示每个站点当前的车辆信息，具体表示为每一个车站的剩余车辆数量，A为各个站点为用户提供的取车奖励金和还车奖励金，由A_t＝(pt_1t，pt_2t，...，pt_nt，ps_1t，ps_2t，...，ps_nt)表示，其中pt_it表示t时间段第i个站点取车的奖励金额，ps_it表示t时间段内第i个站点的停车奖励金额；R表示奖赏值，在强化学习中，agent的行为学习是靠环境反馈的奖励进行驱动的，采用用户对公司的奖励金的接受率作为奖励，可以有效保证算法的收敛速度。γ为折扣因子，表示未来的reward所占的权重；本发明将共享汽车的平衡问题抽象为马尔可夫决策过程，通过训练强化学习模型来，通过在满足一定商家服务率情况下提升收入的方式，来学习最优的奖励金的设计方式。

采用探索序列来学习奖励金的发放方式。

优选地，采用探索序列来学习奖励金的发放方式包括：将一天划分为24个时间间隔(timestamp)，并在每天的0点对整个区域各共享汽车站点进行车辆数量的初始化，用S₀来表示初始时刻的状态；在开始当前时间间隔时，通过强化学习算法计算得到每个站点的取车奖励和还车奖励A₀；当产生一条用户的用车请求时，通过遍历包含他自身的预设网格区域中，在提供奖励金最多的站点进行取车；当产生一条用户还车请求时，用户会遍历他目标还车区域的预设区域的提供奖励金最高的站点进行取车；采取一段时间内的用户用车请求数据进行模型训练；其中每一条用户的用户用车请求包括用户id，时间，起始位置，终点位置，预计驾车时间，花费金额；通过计算一段时间内用户的用车情况，得到一段时间内用户订单的服务率R₀，以及下一个时刻的车辆分布状态的表示S₁,并重复以上步骤得到A₁，R₁，S₂，A₂，R₂……。

优选地，建立强化学习模型之后还包括：训练强化学习模型。

优选地，训练强化学习模型包括采用DDPG算法来训练深度强化学习模型，具体为：

S21，建立actor网络和critic网络,并建立actor网络和critic网络分别对应的副本target critic网络和target actor网络；随机初始化critic网络Q(s，a|θ^Q)，和actor网络μ(s|θ^μ)；初始化target critic网络Q′、target actor网络μ′，target critic网络权重θ^Q′和target actor网络权重θ^μ′，并将critic网络和actor网络的初始参数θ^Q和θ^μ′的值分别赋予target critic网络和target actor网络的参数；其中，target网络的参数更新速度慢于原始网络，目的是保证训练的稳定性。其中critic网络将上述介绍的各个站点的车辆信息状态S作为输入，输出状态动作值函数(State-Action Function)来量化当前状态的好坏(也就是当前系统的平衡状况)；神经网络actor同样将各个站点的车辆信息S作为输入，输出预测动作A，即输出每个站点的预测的奖励金大小。使用神经网络拟合各站点车辆数目与奖励金设置的分布。

S22，初始化经验回放池B；

S23，对于每个情节(episode)进行如下循环操作；

S24，初始化原始的车辆分布状态S₀和一个随机探测噪声

用于动作空间的探索；

S25，对于每个时间间隔(timestamp)，进行如下循环操作：

S251，利用当前的策略μ和探测噪声

根据当前车辆分布状态来决定每个站点的取车奖励金和还车奖励金：

S252，根据设置的奖励金，得到该时间段结束后对应的奖赏r_t和下一个状态s_t+1；

S253，将转移状态向量(s_t，a_t，r_t，s_t+1)放入经验回放池中；

S254，在经验回放池中选择大小为N批量的训练样本(s_i，a_i，r_i，s_i+1)；

S255，计算当前状态-动作对的Q值：Q(s_i，a_i|θ^Q)；

S256，通过actor网络获得下一个状态的动作：a_i+1＝μ′(s_i+1|θ^μ′)；

S257，计算下一个状态-动作对的Q值：Q′(s_i+1，a_i+1|θ^Q′)；

S258，通过时序查分来更新critic网络，L＝∑(y_i-Q(s_i，a_i))²/N，其中y_i＝r_i+γQ′(s_i+1，a_i+1)；

S258，通过策略梯度来更新actor网络参数：

S2510，更新target网络的参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

通过上述强化学习DDPG算法，可以训练学习得到一个自适应的奖励金计算模型。在每个时间间隔的初期，可以通过该算法计算得到每个区域的取车奖励金和还车奖励金。以此来引导用户自适应的主动平衡共享汽车系统。

本发明相对于现有技术具有如下优点：

本发明提出了一种利用强化学习模型的自适应平衡共享汽车系统的方法，本发明先构建出强化学习模型，其中强化学习模型根据当前区域各站点的共享汽车的数量能够输出各个站点的用车奖励金或者还车奖励金，当在实际情况中，用户有用车请求或者还车请求时；将用车请求或者还车请求输入预先建立好的强化学习模型，强化学习模型输出各个站点的用车奖励金或者还车奖励金；用户遍历包含他自身的预设网格区域，在提供奖励金最多的站点进行取车或者还车，以此来主动平衡共享汽车系统，由此可以大量减少人工调度成本，更好地平衡各站点的车辆分布，增加用户的用车体验，提到商家的服务率。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的基于强化学习模型的共享汽车平衡方法的流程示意图。

图2为本发明的构建强化学习模型的框架图。其中State(状态)为各个站点的车辆数量，通过神经网络计算得到Action(动作)为每个站点的取车奖励和还车奖励，通过共享汽车Environment(环境)的反馈，得到公司的服务率作为Reward(奖赏)来更新强化学习模型。

图3为采用DDPG算法来训练深度强化学习模型的流程图。其中根据当前State(状态)和Actor网络得到Action(动作)，再根据State和Action通过Critic网络得到Q值，通过TD差分和策略梯度的方法来更新Actor网络和Critic网络的参数。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

利用连续两个月的共享汽车的订单请求信息作为训练数据，寻找最佳的奖励策略，激励用户主动平衡共享汽车系统，进一步提升商家的服务率。下面对强化学习模型的构建和训练进行举例说明。

首先，建立强化学习模型，根据共享汽车的位置分布，将共享汽车区域划分为10*10的网格状的区域，其中(x,y)表示网格的具体坐标，记录每个站点每个时间段的车辆数量为状态,例如在时刻1时站点状态为

状态的转移即站点车辆数目的变动情况由强化学习中的动作A所决定，由上述内容所介绍，动作为时刻1时每个站点的取车奖励金和还车奖励金，

例如在(3，4)区域对应站点的取车奖励为

还车奖励为

当用户在此区域建立一个用车订单时，用户会探索以他为中心，3*3的网格状中，提供奖励金最高的取车点，当用户的取车代价(所花费)小于奖励金时，用户会前往该取车点取车，从而提升了订单的接受率。在还车阶段也是同样的方式，选择在以还车区域为中心的3*3区域进行探索，选择还车奖励金最高的区域进行还车。在一个时间段结束后，将用户的订单接收率作为奖赏R。

其次，训练强化学习模型，首先初始化critic，actor网络已经target critic，target actor网络，并初始化经验回放池。根据上述数据集，获得了用户某一段时间请求使用车辆的时间与空间信息。在不失一般性的情况下，假设需求曲线在工作日遵循相同的模式。每一天将会包含24个时间段，每个时间段为1个小时。将会尽力服务用户的每一条请求，但如果用户的取车点的汽车数目或者还车点的空位数目不能满足用户需求的时候，该用户很遗憾不会被服务到。通过每一个时间段，可以得到一个(S_t，A_t，R_t，S_t+1)的四元组，其中S为每个时间段各个站点的车辆信息，A为各个站点通过actor计算得到的取车和还车奖励金大小，R为该时间段的商家服务率。将其保存在经验回放池中。S_{t+1}为下一个状态的各个站点的车辆信息。

当经验回放池积累够一定数量时，采取小批量的样本进行训练。通过critic网络得到当前的状态动作值Q，通过actor网络和target critic网络得到下一个状态动作值Q’，通过计算TD差分来更新critic网络的参数，通过策略梯度来更新actor网络的参数。通过对两个月的历史用户请求数据进行训练，可以学习到一个取车奖励与还车奖励的奖励策略。

模型建立并训练好后，则在实际应用中，当接收用户的待用车请求或者待还车请求；将待用车请求或者待还车请求输入预先建立好的强化学习模型，强化学习模型输出各个站点的用车奖励金或者还车奖励金；用户遍历包含他自身的预设网格区域，在提供奖励金最多的站点进行取车或者还车。通过与不采用强化学习机制的共享汽车系统进行比较，商家的服务率能够得到明显提升。

上述具体实施方式为本发明的优选实施例，并不能对本发明进行限定，其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于强化学习模型的共享汽车平衡方法，其特征在于，包括：

S1，接收用户的待用车请求或者待还车请求；

S3，用户遍历包含他自身的预设网格区域，在提供奖励金最多的站点进行取车或者还车。

2.根据权利要求1所述的基于强化学习模型的共享汽车平衡方法，其特征在于，建立强化学习模型包括：

将共享汽车的租赁区域划分为网格状，其中每一个网格代表一个共享汽车的租赁点；其中每个网格中有固定的共享汽车停放数目，并且将s作为该站点的剩余车辆的数目；

建立马尔可夫决策过程，包含四元组(S，A，R，γ)，其中S表示每个时刻的各个站点的车辆信息集合，由{s₁，s₂，...，s_n}组成，s_i表示每个站点当前的车辆信息，具体表示为每一个车站的剩余车辆数量，A为各个站点为用户提供的取车奖励金和还车奖励金，由A_t＝(pt_1t，pt_2t，...，pt_nt，ps_1t，ps_2t，...，ps_nt)表示，其中pt_it表示t时间段第i个站点取车的奖励金额，ps_it表示t时间段内第i个站点的停车奖励金额；R表示奖赏值，γ表示未来的reward所占的权重；

采用探索序列来学习奖励金的发放方式。

3.根据权利要求2所述的基于强化学习模型的共享汽车平衡方法，其特征在于，采用探索序列来学习奖励金的发放方式包括：

将一天划分为24个时间间隔，并在每天的0点对整个区域各共享汽车站点进行车辆数量的初始化，用S₀来表示初始时刻的状态；在开始当前时间间隔时，通过强化学习算法计算得到每个站点的取车奖励和还车奖励A₀；当产生一条用户的用车请求时，通过遍历包含他自身的预设网格区域中，在提供奖励金最多的站点进行取车；当产生一条用户还车请求时，用户会遍历他目标还车区域的预设区域的提供奖励金最高的站点进行取车；采取一段时间内的用户用车请求数据进行模型训练；其中每一条用户的用户用车请求包括用户id，时间，起始位置，终点位置，预计驾车时间，花费金额；通过计算一段时间内用户的用车情况，得到一段时间内用户订单的服务率R₀，以及下一个时刻的车辆分布状态的表示S₁，并重复以上步骤得到A₁，R₁，S₂，A₂，R₂。

4.根据权利要求3所述的基于强化学习模型的共享汽车平衡方法，其特征在于，建立强化学习模型之后还包括：训练强化学习模型。

5.根据权利要求4所述的基于强化学习模型的共享汽车平衡方法，其特征在于，训练强化学习模型包括采用DDPG算法来训练深度强化学习模型，具体为：

S21，建立actor网络和critic网络，并建立actor网络和critic网络分别对应的副本target critic网络和target actor网络；随机初始化critic网络Q(s，a|θ^Q)，和actor网络μ(s|θ^μ)；初始化target critic网络Q′、target actor网络μ′，target critic网络权重θ^Q′和target actor网络权重θ^μ′，并将critic网络和actor网络的初始参数θ^Q和θ^μ′的值分别赋予target critic网络和target actor网络的参数；