CN112508356A - 一种基于强化学习模型的共享汽车平衡方法 - Google Patents

一种基于强化学习模型的共享汽车平衡方法 Download PDF

Info

Publication number
CN112508356A
CN112508356A CN202011317789.5A CN202011317789A CN112508356A CN 112508356 A CN112508356 A CN 112508356A CN 202011317789 A CN202011317789 A CN 202011317789A CN 112508356 A CN112508356 A CN 112508356A
Authority
CN
China
Prior art keywords
vehicle
reinforcement learning
user
learning model
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011317789.5A
Other languages
English (en)
Inventor
顾钊铨
方滨兴
贾焰
任昌伟
王乐
仇晶
韩伟红
李树栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202011317789.5A priority Critical patent/CN112508356A/zh
Publication of CN112508356A publication Critical patent/CN112508356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习模型的共享汽车平衡方法,包括:S1,接收用户的待用车请求或者待还车请求;S2,将待用车请求或者待还车请求输入预先建立好的强化学习模型,强化学习模型输出各个站点的用车奖励金或者还车奖励金;S3,用户遍历包含他自身的预设网格区域,在提供奖励金最多的站点进行取车或者还车。本发明能主动平衡共享汽车系统,由此可以大量减少人工调度成本,更好地平衡各站点的车辆分布,增加用户的用车体验,提到商家的服务率。

Description

一种基于强化学习模型的共享汽车平衡方法
技术领域
本发明涉及深度学习和强化学习技术领域,具体涉及一种基于强化学习模型的共享汽车平衡方法。
背景技术
随着共享经济的蓬勃发展,越来越多的共享产品进入人们的视野当中,例如共享充电宝、共享单车、共享汽车。共享经济的发展,为人们的生活带来了很多便利,特别是共享汽车,为人们的出行方式提供了多样的选择。共享汽车与传统的租车行业有很大不同,共享汽车会有更多的租赁站点,更方便的取还车模式,更合理的分时计费方式等。
但是在共享汽车的运营当中也存在着一些问题,由于用户相似的出行模式,在共享汽车的租赁系统,车辆分布的不平衡,特别是在高峰时间段。例如,在早高峰期间,多数用户倾向于在生活区取车,并将车还至工作区或者商业区,导致了生活区车辆数很稀少,工作区车辆数量达到顶峰。这种车辆分布的不平衡不仅降低了用户的用车体验,同时也一定程度上减少了商家的收入。如何平衡车辆的分布是共享汽车亟待解决的一大问题。
目前缓解汽车分时租赁系统供需不平衡的解决办法主要有以下几种方案:一种是人工调度,员工将车辆从车辆富裕的站点调到车辆稀缺的站点;另一种是自适应调度,以价格为杠杆,调节各站点的需求量。
基于上述方案,现有的用于共享汽车系统平衡问题的方法是基于人工或者规则来调控,人工调度需要耗费大量的人力和时间成本,当车辆数增多时,人工调度成本也会大幅度增加;基于价格调控的方法是一种基于规则的调控方法,也需要人力来设定具体定价,也会耗费一点的人力资源,并且难以自适应的设置车辆分时价格。
因此,行业内急需研发一种能自适应平衡共享汽车系统的方法,以此可以大量减少人工调度成本,更好地平衡各站点的车辆分布,增加用户的用车体验。
发明内容
本发明的目的是为了克服以上现有技术存在的不足,提供了一种能自适应平衡共享汽车系统的基于强化学习模型的共享汽车平衡方法。
本发明的目的通过以下的技术方案实现:
一种基于强化学习模型的共享汽车平衡方法,包括:
S1,接收用户的待用车请求或者待还车请求;
S2,将待用车请求或者待还车请求输入预先建立好的强化学习模型,强化学习模型输出各个站点的用车奖励金或者还车奖励金;
S3,用户遍历包含他自身的预设网格区域,在提供奖励金最多的站点进行取车或者还车。为了避免高峰时间段存在取车难以及还车难的情况发生,从而提升共享汽车的服务率进而提升商家的收入,需要为用户提供一定的奖励来激励用户主动平衡共享汽车系统。即设计了取车奖励以及换车奖励的两种奖励方法:对于每一个用户,在用户选择车辆时,在每一个时间段,为了刺激用户平衡共享汽车系统,商家在车辆数目较多的站点提供较高的奖励金,以此来激励用户去该区域取车;在用户还车时,商家在车辆数目较少的站点提供较高的奖励金,以此来激励用户去该区域还车。
优选地,建立强化学习模型包括:将共享汽车的租赁区域划分为网格状,其中每一个网格代表一个共享汽车的租赁点;其中每个网格中有固定的共享汽车停放数目,并且将s作为该站点的剩余车辆的数目;其中,各个站点的共享汽车数目都在动态地变化。
建立马尔可夫决策过程,包括四元组(S,A,R,γ),其中S表示每个时刻的各个站点的车辆信息集合,由{s1,s2,...,sn}组成,si表示每个站点当前的车辆信息,具体表示为每一个车站的剩余车辆数量,A为各个站点为用户提供的取车奖励金和还车奖励金,由At=(pt1t,pt2t,...,ptnt,ps1t,ps2t,...,psnt)表示,其中ptit表示t时间段第i个站点取车的奖励金额,psit表示t时间段内第i个站点的停车奖励金额;R表示奖赏值,在强化学习中,agent的行为学习是靠环境反馈的奖励进行驱动的,采用用户对公司的奖励金的接受率作为奖励,可以有效保证算法的收敛速度。γ为折扣因子,表示未来的reward所占的权重;本发明将共享汽车的平衡问题抽象为马尔可夫决策过程,通过训练强化学习模型来,通过在满足一定商家服务率情况下提升收入的方式,来学习最优的奖励金的设计方式。
采用探索序列来学习奖励金的发放方式。
优选地,采用探索序列来学习奖励金的发放方式包括:将一天划分为24个时间间隔(timestamp),并在每天的0点对整个区域各共享汽车站点进行车辆数量的初始化,用S0来表示初始时刻的状态;在开始当前时间间隔时,通过强化学习算法计算得到每个站点的取车奖励和还车奖励A0;当产生一条用户的用车请求时,通过遍历包含他自身的预设网格区域中,在提供奖励金最多的站点进行取车;当产生一条用户还车请求时,用户会遍历他目标还车区域的预设区域的提供奖励金最高的站点进行取车;采取一段时间内的用户用车请求数据进行模型训练;其中每一条用户的用户用车请求包括用户id,时间,起始位置,终点位置,预计驾车时间,花费金额;通过计算一段时间内用户的用车情况,得到一段时间内用户订单的服务率R0,以及下一个时刻的车辆分布状态的表示S1,并重复以上步骤得到A1,R1,S2,A2,R2……。
优选地,建立强化学习模型之后还包括:训练强化学习模型。
优选地,训练强化学习模型包括采用DDPG算法来训练深度强化学习模型,具体为:
S21,建立actor网络和critic网络,并建立actor网络和critic网络分别对应的副本target critic网络和target actor网络;随机初始化critic网络Q(s,a|θQ),和actor网络μ(s|θμ);初始化target critic网络Q′、target actor网络μ′,target critic网络权重θQ′和target actor网络权重θμ′,并将critic网络和actor网络的初始参数θQ和θμ′的值分别赋予target critic网络和target actor网络的参数;其中,target网络的参数更新速度慢于原始网络,目的是保证训练的稳定性。其中critic网络将上述介绍的各个站点的车辆信息状态S作为输入,输出状态动作值函数(State-Action Function)来量化当前状态的好坏(也就是当前系统的平衡状况);神经网络actor同样将各个站点的车辆信息S作为输入,输出预测动作A,即输出每个站点的预测的奖励金大小。使用神经网络拟合各站点车辆数目与奖励金设置的分布。
S22,初始化经验回放池B;
S23,对于每个情节(episode)进行如下循环操作;
S24,初始化原始的车辆分布状态S0和一个随机探测噪声
Figure BDA0002791815030000041
用于动作空间的探索;
S25,对于每个时间间隔(timestamp),进行如下循环操作:
S251,利用当前的策略μ和探测噪声
Figure BDA0002791815030000042
根据当前车辆分布状态来决定每个站点的取车奖励金和还车奖励金:
Figure BDA0002791815030000043
S252,根据设置的奖励金,得到该时间段结束后对应的奖赏rt和下一个状态st+1
S253,将转移状态向量(st,at,rt,st+1)放入经验回放池中;
S254,在经验回放池中选择大小为N批量的训练样本(si,ai,ri,si+1);
S255,计算当前状态-动作对的Q值:Q(si,aiQ);
S256,通过actor网络获得下一个状态的动作:ai+1=μ′(si+1μ′);
S257,计算下一个状态-动作对的Q值:Q′(si+1,ai+1Q′);
S258,通过时序查分来更新critic网络,L=∑(yi-Q(si,ai))2/N,其中yi=ri+γQ′(si+1,ai+1);
S258,通过策略梯度来更新actor网络参数:
Figure BDA0002791815030000051
S2510,更新target网络的参数:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
通过上述强化学习DDPG算法,可以训练学习得到一个自适应的奖励金计算模型。在每个时间间隔的初期,可以通过该算法计算得到每个区域的取车奖励金和还车奖励金。以此来引导用户自适应的主动平衡共享汽车系统。
本发明相对于现有技术具有如下优点:
本发明提出了一种利用强化学习模型的自适应平衡共享汽车系统的方法,本发明先构建出强化学习模型,其中强化学习模型根据当前区域各站点的共享汽车的数量能够输出各个站点的用车奖励金或者还车奖励金,当在实际情况中,用户有用车请求或者还车请求时;将用车请求或者还车请求输入预先建立好的强化学习模型,强化学习模型输出各个站点的用车奖励金或者还车奖励金;用户遍历包含他自身的预设网格区域,在提供奖励金最多的站点进行取车或者还车,以此来主动平衡共享汽车系统,由此可以大量减少人工调度成本,更好地平衡各站点的车辆分布,增加用户的用车体验,提到商家的服务率。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的基于强化学习模型的共享汽车平衡方法的流程示意图。
图2为本发明的构建强化学习模型的框架图。其中State(状态)为各个站点的车辆数量,通过神经网络计算得到Action(动作)为每个站点的取车奖励和还车奖励,通过共享汽车Environment(环境)的反馈,得到公司的服务率作为Reward(奖赏)来更新强化学习模型。
图3为采用DDPG算法来训练深度强化学习模型的流程图。其中根据当前State(状态)和Actor网络得到Action(动作),再根据State和Action通过Critic网络得到Q值,通过TD差分和策略梯度的方法来更新Actor网络和Critic网络的参数。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
利用连续两个月的共享汽车的订单请求信息作为训练数据,寻找最佳的奖励策略,激励用户主动平衡共享汽车系统,进一步提升商家的服务率。下面对强化学习模型的构建和训练进行举例说明。
首先,建立强化学习模型,根据共享汽车的位置分布,将共享汽车区域划分为10*10的网格状的区域,其中(x,y)表示网格的具体坐标,记录每个站点每个时间段的车辆数量为状态,例如在时刻1时站点状态为
Figure BDA0002791815030000061
状态的转移即站点车辆数目的变动情况由强化学习中的动作A所决定,由上述内容所介绍,动作为时刻1时每个站点的取车奖励金和还车奖励金,
Figure BDA0002791815030000062
例如在(3,4)区域对应站点的取车奖励为
Figure BDA0002791815030000063
还车奖励为
Figure BDA0002791815030000064
当用户在此区域建立一个用车订单时,用户会探索以他为中心,3*3的网格状中,提供奖励金最高的取车点,当用户的取车代价(所花费)小于奖励金时,用户会前往该取车点取车,从而提升了订单的接受率。在还车阶段也是同样的方式,选择在以还车区域为中心的3*3区域进行探索,选择还车奖励金最高的区域进行还车。在一个时间段结束后,将用户的订单接收率作为奖赏R。
其次,训练强化学习模型,首先初始化critic,actor网络已经target critic,target actor网络,并初始化经验回放池。根据上述数据集,获得了用户某一段时间请求使用车辆的时间与空间信息。在不失一般性的情况下,假设需求曲线在工作日遵循相同的模式。每一天将会包含24个时间段,每个时间段为1个小时。将会尽力服务用户的每一条请求,但如果用户的取车点的汽车数目或者还车点的空位数目不能满足用户需求的时候,该用户很遗憾不会被服务到。通过每一个时间段,可以得到一个(St,At,Rt,St+1)的四元组,其中S为每个时间段各个站点的车辆信息,A为各个站点通过actor计算得到的取车和还车奖励金大小,R为该时间段的商家服务率。将其保存在经验回放池中。S_{t+1}为下一个状态的各个站点的车辆信息。
当经验回放池积累够一定数量时,采取小批量的样本进行训练。通过critic网络得到当前的状态动作值Q,通过actor网络和target critic网络得到下一个状态动作值Q’,通过计算TD差分来更新critic网络的参数,通过策略梯度来更新actor网络的参数。通过对两个月的历史用户请求数据进行训练,可以学习到一个取车奖励与还车奖励的奖励策略。
模型建立并训练好后,则在实际应用中,当接收用户的待用车请求或者待还车请求;将待用车请求或者待还车请求输入预先建立好的强化学习模型,强化学习模型输出各个站点的用车奖励金或者还车奖励金;用户遍历包含他自身的预设网格区域,在提供奖励金最多的站点进行取车或者还车。通过与不采用强化学习机制的共享汽车系统进行比较,商家的服务率能够得到明显提升。
上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于强化学习模型的共享汽车平衡方法,其特征在于,包括:
S1,接收用户的待用车请求或者待还车请求;
S2,将待用车请求或者待还车请求输入预先建立好的强化学习模型,强化学习模型输出各个站点的用车奖励金或者还车奖励金;
S3,用户遍历包含他自身的预设网格区域,在提供奖励金最多的站点进行取车或者还车。
2.根据权利要求1所述的基于强化学习模型的共享汽车平衡方法,其特征在于,建立强化学习模型包括:
将共享汽车的租赁区域划分为网格状,其中每一个网格代表一个共享汽车的租赁点;其中每个网格中有固定的共享汽车停放数目,并且将s作为该站点的剩余车辆的数目;
建立马尔可夫决策过程,包含四元组(S,A,R,γ),其中S表示每个时刻的各个站点的车辆信息集合,由{s1,s2,...,sn}组成,si表示每个站点当前的车辆信息,具体表示为每一个车站的剩余车辆数量,A为各个站点为用户提供的取车奖励金和还车奖励金,由At=(pt1t,pt2t,...,ptnt,ps1t,ps2t,...,psnt)表示,其中ptit表示t时间段第i个站点取车的奖励金额,psit表示t时间段内第i个站点的停车奖励金额;R表示奖赏值,γ表示未来的reward所占的权重;
采用探索序列来学习奖励金的发放方式。
3.根据权利要求2所述的基于强化学习模型的共享汽车平衡方法,其特征在于,采用探索序列来学习奖励金的发放方式包括:
将一天划分为24个时间间隔,并在每天的0点对整个区域各共享汽车站点进行车辆数量的初始化,用S0来表示初始时刻的状态;在开始当前时间间隔时,通过强化学习算法计算得到每个站点的取车奖励和还车奖励A0;当产生一条用户的用车请求时,通过遍历包含他自身的预设网格区域中,在提供奖励金最多的站点进行取车;当产生一条用户还车请求时,用户会遍历他目标还车区域的预设区域的提供奖励金最高的站点进行取车;采取一段时间内的用户用车请求数据进行模型训练;其中每一条用户的用户用车请求包括用户id,时间,起始位置,终点位置,预计驾车时间,花费金额;通过计算一段时间内用户的用车情况,得到一段时间内用户订单的服务率R0,以及下一个时刻的车辆分布状态的表示S1,并重复以上步骤得到A1,R1,S2,A2,R2
4.根据权利要求3所述的基于强化学习模型的共享汽车平衡方法,其特征在于,建立强化学习模型之后还包括:训练强化学习模型。
5.根据权利要求4所述的基于强化学习模型的共享汽车平衡方法,其特征在于,训练强化学习模型包括采用DDPG算法来训练深度强化学习模型,具体为:
S21,建立actor网络和critic网络,并建立actor网络和critic网络分别对应的副本target critic网络和target actor网络;随机初始化critic网络Q(s,a|θQ),和actor网络μ(s|θμ);初始化target critic网络Q′、target actor网络μ′,target critic网络权重θQ′和target actor网络权重θμ′,并将critic网络和actor网络的初始参数θQ和θμ′的值分别赋予target critic网络和target actor网络的参数;
S22,初始化经验回放池B;
S23,对于每个情节进行如下循环操作;
S24,初始化原始的车辆分布状态S0和一个随机探测噪声
Figure FDA0002791815020000021
用于动作空间的探索;
S25,对于每个时间间隔(timestamp),进行如下循环操作:
S251,利用当前的策略μ和探测噪声
Figure FDA0002791815020000022
根据当前车辆分布状态来决定每个站点的取车奖励金和还车奖励金:
Figure FDA0002791815020000023
S252,根据设置的奖励金,得到该时间段结束后对应的奖赏rt和下一个状态st+1
S253,将转移状态向量(st,at,rt,st+1)放入经验回放池中;
S254,在经验回放池中选择大小为N批量的训练样本(si,ai,ri,si+1);
S255,计算当前状态-动作对的Q值:Q(si,aiQ);
S256,通过actor网络获得下一个状态的动作:ai+1=μ′(si+1μ′);
S257,计算下一个状态-动作对的Q值:Q′(si+1,ai+1Q′);
S258,通过时序查分来更新critic网络,L=∑(yi-Q(si,ai))2/N,其中yi=ri+γQ′(si+1,ai+1);
S258,通过策略梯度来更新actor网络参数:
Figure FDA0002791815020000031
S2510,更新target网络的参数:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
通过上述强化学习DDPG算法,训练学习得到一个自适应的奖励金计算模型,即强化学习模型。
CN202011317789.5A 2020-11-23 2020-11-23 一种基于强化学习模型的共享汽车平衡方法 Pending CN112508356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011317789.5A CN112508356A (zh) 2020-11-23 2020-11-23 一种基于强化学习模型的共享汽车平衡方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011317789.5A CN112508356A (zh) 2020-11-23 2020-11-23 一种基于强化学习模型的共享汽车平衡方法

Publications (1)

Publication Number Publication Date
CN112508356A true CN112508356A (zh) 2021-03-16

Family

ID=74959373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011317789.5A Pending CN112508356A (zh) 2020-11-23 2020-11-23 一种基于强化学习模型的共享汽车平衡方法

Country Status (1)

Country Link
CN (1) CN112508356A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907296A (zh) * 2021-03-22 2021-06-04 东南大学 一种行程截止时间敏感的电子收费道路动态定价方法
CN117933665A (zh) * 2024-03-20 2024-04-26 北京阿帕科蓝科技有限公司 车辆管理方法、装置、计算机设备和存储介质
CN112907296B (zh) * 2021-03-22 2024-05-24 东南大学 一种行程截止时间敏感的电子收费道路动态定价方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107093104A (zh) * 2017-04-13 2017-08-25 成都步共享科技有限公司 一种基于用户参与的共享单车调度方法
CN107578163A (zh) * 2017-08-30 2018-01-12 顾泰来 一种共享车辆调度方法、装置及服务器
CN108280569A (zh) * 2018-01-05 2018-07-13 上海碧虎网络科技有限公司 车辆调度方法、装置和设备
CN108416605A (zh) * 2017-09-15 2018-08-17 杭州创屹机电科技有限公司 一种共享单车预约积分系统及方法
CN110046953A (zh) * 2019-02-27 2019-07-23 山东开创云软件有限公司 一种共享汽车的租用方法和装置
CN110110993A (zh) * 2019-04-30 2019-08-09 广州大学 一种为电动汽车提供充电服务的调度系统
CN110147919A (zh) * 2018-11-21 2019-08-20 太原理工大学 一种基于价格激励机制的公共自行车自动调度方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107093104A (zh) * 2017-04-13 2017-08-25 成都步共享科技有限公司 一种基于用户参与的共享单车调度方法
CN107578163A (zh) * 2017-08-30 2018-01-12 顾泰来 一种共享车辆调度方法、装置及服务器
CN108416605A (zh) * 2017-09-15 2018-08-17 杭州创屹机电科技有限公司 一种共享单车预约积分系统及方法
CN108280569A (zh) * 2018-01-05 2018-07-13 上海碧虎网络科技有限公司 车辆调度方法、装置和设备
CN110147919A (zh) * 2018-11-21 2019-08-20 太原理工大学 一种基于价格激励机制的公共自行车自动调度方法
CN110046953A (zh) * 2019-02-27 2019-07-23 山东开创云软件有限公司 一种共享汽车的租用方法和装置
CN110110993A (zh) * 2019-04-30 2019-08-09 广州大学 一种为电动汽车提供充电服务的调度系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ADISH SINGLA等, INCENTIVIZING USERS FOR BALANCING BIKE SHARING SYSTEMS, pages 723 - 729 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907296A (zh) * 2021-03-22 2021-06-04 东南大学 一种行程截止时间敏感的电子收费道路动态定价方法
CN112907296B (zh) * 2021-03-22 2024-05-24 东南大学 一种行程截止时间敏感的电子收费道路动态定价方法
CN117933665A (zh) * 2024-03-20 2024-04-26 北京阿帕科蓝科技有限公司 车辆管理方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
WO2021248607A1 (zh) 一种基于深度强化学习的出租车调度方法及系统
Shi et al. Operating electric vehicle fleet for ride-hailing services with reinforcement learning
Da Silva et al. Coordination of electric vehicle charging through multiagent reinforcement learning
Al-Kanj et al. Approximate dynamic programming for planning a ride-hailing system using autonomous fleets of electric vehicles
Zhang et al. Multistep multiagent reinforcement learning for optimal energy schedule strategy of charging stations in smart grid
CN107145387A (zh) 一种车载网环境下基于深度强化学习的任务调度方法
CN116001624A (zh) 基于深度强化学习的一桩多联电动汽车有序充电方法
CN115713130B (zh) 基于超参数网络权重分配深度强化学习的车辆调度方法
Yu et al. Optimal operations planning of electric autonomous vehicles via asynchronous learning in ride-hailing systems
Kalakanti et al. A hybrid cooperative method with Lévy flights for electric vehicle charge scheduling
CN112508356A (zh) 一种基于强化学习模型的共享汽车平衡方法
Chu et al. A multiagent federated reinforcement learning approach for plug-in electric vehicle fleet charging coordination in a residential community
CN113110052A (zh) 一种基于神经网络和强化学习的混合能量管理方法
Hu et al. Dynamic rebalancing optimization for bike-sharing system using priority-based MOEA/D algorithm
Cui et al. Dynamic pricing for fast charging stations with deep reinforcement learning
He et al. Robust electric vehicle balancing of autonomous mobility-on-demand system: A multi-agent reinforcement learning approach
Ahadi et al. Cooperative learning for smart charging of shared autonomous vehicle fleets
CN116739466A (zh) 基于多智能体深度强化学习的配送中心车辆路径规划方法
CN115743248A (zh) 列车时刻表确定方法、装置、设备及介质
CN114399185A (zh) 一种基于强化学习的电动物流车队行为调度方法
CN112700022A (zh) 信息处理设备及信息处理方法
CN117410998A (zh) 基于交通与电力多网信息的电动汽车调峰调度方法和装置
Wang et al. QMIX-Based Multi-Agent Reinforcement Learning for Electric Vehicle-Facilitated Peak Shaving
Li et al. Multi Actor-Critic PPO: A Novel Reinforcement Learning Method for Intelligent Task and Charging Scheduling in Electric Freight Vehicles Management
Wang et al. Reinforcement Contract Design for Vehicular-Edge Computing Scheduling and Energy Trading Via Deep Q-Network With Hybrid Action Space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220630

Address after: 510006 No. 230 West Ring Road, University of Guangdong, Guangzhou

Applicant after: Guangzhou University

Applicant after: National University of Defense Technology

Address before: 510006 No. 230 West Ring Road, Panyu District University, Guangdong, Guangzhou

Applicant before: Guangzhou University