CN113189998B - 一种基于深度强化学习的多乘客动态车辆路径优化方法 - Google Patents

一种基于深度强化学习的多乘客动态车辆路径优化方法 Download PDF

Info

Publication number
CN113189998B
CN113189998B CN202110478381.4A CN202110478381A CN113189998B CN 113189998 B CN113189998 B CN 113189998B CN 202110478381 A CN202110478381 A CN 202110478381A CN 113189998 B CN113189998 B CN 113189998B
Authority
CN
China
Prior art keywords
state
action
value
vehicle
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110478381.4A
Other languages
English (en)
Other versions
CN113189998A (zh
Inventor
刘玮
甘陈峰
王宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202110478381.4A priority Critical patent/CN113189998B/zh
Publication of CN113189998A publication Critical patent/CN113189998A/zh
Application granted granted Critical
Publication of CN113189998B publication Critical patent/CN113189998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供了一种基于深度强化学习的多乘客动态车辆路径优化方法,针对大量乘客的动态巴士路线规划的问题,使用深度强化学习中的神经网络DQN代替表格数据存储方式,解决了维度爆炸的缺陷,实现了在开放环境下优化大量乘客的浮动巴士路径的功能。本发明满足了巴士运行动态路线变化的需求,为管理者进行应急处置、应急决策提供了技术支撑。本发明通过模拟乘客分布对现实的巴士规划做出参考,提高了城市规划效率。

Description

一种基于深度强化学习的多乘客动态车辆路径优化方法
技术领域
本发明属于智能交通技术领域,具体涉及一种基于深度强化学习的多乘客动态车辆路径优化方法。
背景技术
巴士系统是城市交通系统重要的一环,结合自适应系统的研究,创建动态、智能的巴士系统提高人群的出行效率。浮动巴士系统是以一种典型的以人为中心(AutonomousHuman Adaptive Systems,AHASs)的自适应系统。浮动巴士系统中,以巴士为载体,以人为核心,使用软件或算法为主导。系统的浮动性来自于系统所处的动态,开放环境,例如道路环境的变化,天气的影响和突发状况等。浮动巴士系统是AHASs的实现,提高质量,增加效率,降低成本等根本需求,在该系统以人为中心的核心下,转化成了提高巴士运输效率,降低乘客等待时间,优化线路等需求。
现有的智能巴士领域研究在优化线路、降低能耗和减少乘客等待时间三个方面有一定的进展,但针对较大人流量下的浮动巴士路径优化问题少有涉足,现实场景中的乘客运输除了环境持续变化之外,往往存在通行人数远超过模拟案例的情况。
发明内容
本发明要解决的技术问题是:提供一种基于深度强化学习的多乘客动态车辆路径优化方法,用于优化大人流量下的浮动巴士路径。
本发明为解决上述技术问题所采取的技术方案为:一种基于深度强化学习的多乘客动态车辆路径优化方法,包括以下步骤:
S1:构建车辆运行的状态动作空间;
S2:以车辆作为强化学习的主体,根据不同情况设定不同的奖励值和惩罚值;
S3:搭建具有经验回放机制的DQN算法,建立DQN深度神经网络,并训练车辆让实际Q值趋近目标Q值;
S4:进行监督学习,通过确定损失函数、梯度获得最优的动态车辆路径。
按上述方案,所述的步骤S1中,具体步骤为:设车辆的通行范围在道路的起点和终点之间;在车辆的通行范围内设有车站、特殊区域、信号灯;车站为行人的上下车地点,车站带有停车属性;行人为参与交通的实体,分布在车站的附近,行人分别带有不同的通行计划属性;特殊区域分布在道路的两旁,车辆在经过特殊区域时进行减速操作;信号灯用于控制交通。
进一步的,所述的步骤S2中,具体步骤为:
设参与学习的车辆的状态为S,车辆在状态S下的动作为A,对车辆的动作的奖励或惩罚的值为R,车辆的状态发生改变的状态转移概率为P;定义四元组<A,S,R,P>和奖惩规则如下:
S=特殊区域且红灯,A=减速,R=-3;
S=普通区域,A=正常速度,R=-1;
S=终点,A=停止,R=10;
S=乘客上车或下车,A=停止,R=1。
进一步的,所述的步骤S3中,具体步骤为:
S31:设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a),在状态s下通过动作a转移到状态s′的转移概率为
Figure BDA0003048182320000021
通过动作a从状态s转移到状态s′获得的奖励为
Figure BDA0003048182320000022
设折扣值为γ,折扣值越大表示越考虑未来的价值累计,折扣值为零表示只看当前步骤的奖励积累;建立状态s下的状态价值函数Vπ(s)为:
Figure BDA0003048182320000023
设在状态s′下采取动作a′的奖励为Qπ(s′,a′),则状态s下累计的状态动作价值函数Qπ(s)为:
Figure BDA0003048182320000024
用于评定车辆交互时状态的价值和动作的价值;
S32:在高维连续的状态动作空间中,通过相近的状态拟合相近的输出动作,得到每个状态动作对的Q值:
Q(s,a;ω)≈Q′(s,α);
S33:将Q-Learning计算得到的目标Q值作为标签,并训练车辆让实际Q值趋近目标Q值。
进一步的,所述的步骤S4中,具体步骤为:
S41:采用Q-Learning确定损失函数为:
Figure BDA0003048182320000031
S42:设DQN算法收敛,使车辆在每个状态下选取到最好的动作的策略为π:
π(s)=arg maxa∈AQ(s,a);
S43:使用包括随机梯度下降的方法更新参数,从而优化函数直至获得稳定的全局奖励,得到车辆的最优动作序列和最优路线。
进一步的,所述的步骤S3中,采用numpy、tensorflow、openAI-GYM环境,用python语言搭建DQN算法的具体步骤为:
环境E;动作空间A;起始状态X0;奖励折扣γ;学习率α;
输入:状态空间S;
1)初始化经验回放存储空间D;
2)使用随机权重θ初始化动作-价值函数Q;
3)令随机权重θ-=θ,初始化目标动作-价值函数
Figure BDA0003048182320000032
4)对每一个episode循环
5)初始化状态序列S1={X1},Φ1=Φ(S1);
6)对每一步循环
7)选择一个动作A:
8)以概率ε选择一个随机动作At;
9)否则选择动作at=argmaxaQ(Φ(st),a;θ);
10)执行动作Ai并观察奖励Rt和新状态Xt+1;
11)令St+1=St,At,Xt+1并进行预处理使Φt+1=Φ(St+1);
12)在经验回放中D保存经验(Φt,At,Rt,Φt+1);
13)从D中随机选取小批样本(Φj,Aj,Rj,Φj+1);
14)
Figure BDA0003048182320000041
15)对于θ使用损失函数(yi-Q(Φj,Aj,θ))梯度下降更新;
16)每C步对
Figure BDA0003048182320000042
进行重置;
17)判断终止条件,结束循环;
18)判断终止条件,结束循环;
输出:当前状态下所有可能采取动作的Q值。
一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行一种基于深度强化学习的多乘客动态车辆路径优化方法。
本发明的有益效果为:
1.本发明的一种基于深度强化学习的多乘客动态车辆路径优化方法,针对大量乘客的动态巴士路线规划的问题,使用深度强化学习中的神经网络DQN代替表格数据存储方式,解决了维度爆炸的缺陷,实现了在开放环境下优化大量乘客的浮动巴士路径的功能。
2.本发明满足了巴士运行动态路线变化的需求,为管理者进行应急处置、应急决策提供了技术支撑。
3.本发明通过模拟乘客分布对现实的巴士规划做出参考,提高了城市规划效率。
附图说明
图1是本发明实施例的DQN算法流程图。
图2是本发明实施例的DQN深度神经网络结构图。
图3是本发明实施例的动态巴士场景示意图。
图4是本发明实施例的DQN算法的收敛过程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图3,在场景中定义巴士站,人群分布状态,人群在站台区域随机上下车,巴士停留时间设定为2min,巴士在正常行驶时受到-1的惩罚,减速或红灯时受到-3的惩罚,乘客正常上下车时得到1的奖励,到达终点时奖励10。将巴士的状态S作为神经网络的输入,输出状态的价值Q,迭代得到最大价值的巴士状态,动作序列,以及最优路线。
参见图1,本发明实施例的一种基于深度强化学习的多乘客动态车辆路径优化方法,包含以下步骤:
1.动态巴士场景建模
构建巴士动态运行场景;
道路:巴士的通行范围,起点和终点,设有控制交通的信号灯和减速区域。
巴士站:行人的上下车地点,设在道路上,巴士站自带停车属性。
行人:参与交通的实体,分布在场景中各个巴士站附近,行人各自有不同的通行计划。
特殊区域:分布在道路两旁,例如学校医院等设施,巴士需要在经过时进行减速操作。
2.奖励值设置
将巴士作为参与强化学习的主体,根据不同情况设定不同的奖惩如下:
状态S 动作A 奖励R
特殊区域,红灯 减速 -3
普通区域 正常速度 -1
终点 停止 10
乘客上下车 停止 1
3.DQN算法计算
参见图2,建立状态价值函数和状态动作价值函数,用来评定Agent交互时状态的价值和动作的价值:
Figure BDA0003048182320000051
Figure BDA0003048182320000052
其中定义了一个经典的四元组<A,S,R,P>:A代表所有参与学习的巴士的动作;S是巴士能处于的环境状态State;R是对一个动作奖励或者惩罚的值;P是巴士的状态发生改变时的状态转移概率。
搭建具有经验回放机制的DQN算法,由于存放的数据是按照时间顺序构造的,具有一定的数据相关性,经验回放是通过样本随机采样,在一定程度上打破了相关性,更有利于收敛。
在普通的Q-learning中,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Table不现实。通常做法是把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作:
Q(s,a;ω)≈Q′(s,a)
E-DQN算法将Q-Learning计算出来的目标Q值作为标签,在训练中让Q值趋近目标Q值。在函数优化上,监督学习先确定损失函数、求梯度,使用随机梯度下降等方法更新参数。E-DQN中用Q-Learning确定损失函数,表达式如下:
Figure BDA0003048182320000061
算法收敛得到最优的策略π表示为每一个状态选取到最好的动作,形式如下:
π(s)=arg maxa∈AQ(s,a)
在numpy,tensorflow,openAI-GYM环境下,用python搭建实验算法:
环境E;动作空间A;起始状态X0;奖励折扣γ;学习率α。
输入:状态空间S。
1)初始化经验回放存储空间D;
2)使用随机权重θ初始化动作-价值函数Q;
3)令随机权重θ-=θ,初始化目标动作-价值函数
Figure BDA0003048182320000062
4)对每一个episode循环
5)初始化状态序列S1={X1},Φ1=Φ(S1);
6)对每一步循环
7)选择一个动作A:
8)以概率ε选择一个随机动作At;
9)否则选择动作at=argmaxaQ(Φ(st),a;θ);
10)执行动作Ai并观察奖励Rt和新状态Xt+1;
11)令St+1=St,At,Xt+1并进行预处理使Φt+1=Φ(St+1);
12)在经验回放中D保存经验(Φt,At,Rt,Φt+1);
13)从D中随机选取小批样本(Φj,Aj,Rj,Φj+1);
14)
Figure BDA0003048182320000071
15)对于θ使用损失函数(yi-Q(Φj,Aj,θ))梯度下降更新;
16)每C步对
Figure BDA0003048182320000072
进行重置;
17)判断终止条件,结束循环;
18)判断终止条件,结束循环;
输出:当前状态下所有可能采取动作的Q值。
4.获得最优动作序列以及最优路线。
参见图4是DQN算法的收敛过程,全局奖励稳定时代表了最优的动态巴士路线。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (5)

1.一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:包括以下步骤:
S1:构建车辆运行的状态动作空间;
S2:以车辆作为强化学习的主体,根据不同情况设定不同的奖励值和惩罚值;
具体步骤为:
设参与学习的车辆的状态为S,车辆在状态S下的动作为A,对车辆的动作的奖励或惩罚的值为R,车辆的状态发生改变的状态转移概率为P;定义四元组<A,S,R,P>和奖惩规则如下:
S=特殊区域且红灯,A=减速,R=-3;
S=普通区域,A=正常速度,R=-1;
S=终点,A=停止,R=10;
S=乘客上车或下车,A=停止,R=1;
S3:搭建具有经验回放机制的DQN算法,建立DQN深度神经网络,并训练车辆让实际Q值趋近目标Q值;
具体步骤为:
S31:设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a),在状态s下通过动作a转移到状态s′的转移概率为
Figure FDA0004061677330000011
通过动作a从状态s转移到状态s′获得的奖励为
Figure FDA0004061677330000012
设折扣值为γ,折扣值越大表示越考虑未来的价值累计,折扣值为零表示只看当前步骤的奖励积累;建立状态s下的状态价值函数Vπ(s)为:
Figure FDA0004061677330000013
设在状态s′下采取动作a′的奖励为Qπ(s′,a′),则状态s下累计的状态动作价值函数Qπ(s)为:
Figure FDA0004061677330000014
用于评定车辆交互时状态的价值和动作的价值;
S32:在高维连续的状态动作空间中,通过相近的状态拟合相近的输出动作,得到每个状态动作对的Q值:
Q(s,a;ω)≈Q′(s,a);
S33:将Q-Learning计算得到的目标Q值作为标签,并训练车辆让实际Q值趋近目标Q值;
S4:进行监督学习,通过确定损失函数、梯度获得最优的动态车辆路径。
2.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S1中,具体步骤为:
设车辆的通行范围在道路的起点和终点之间;
在车辆的通行范围内设有车站、特殊区域、信号灯;
车站为行人的上下车地点,车站带有停车属性;
行人为参与交通的实体,分布在车站的附近,行人分别带有不同的通行计划属性;特殊区域分布在道路的两旁,车辆在经过特殊区域时进行减速操作;
信号灯用于控制交通。
3.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S4中,具体步骤为:
S41:采用Q-Learning确定损失函数为:
Figure FDA0004061677330000021
S42:设DQN算法收敛,使车辆在每个状态下选取到最好的动作的策略为π:
π(s)=arg maxa∈AQ(s,a);
S43:使用包括随机梯度下降的方法更新参数,从而优化函数直至获得稳定的全局奖励,得到车辆的最优动作序列和最优路线。
4.根据权利要求3所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S3中,采用numpy、tensorflow、openAI-GYM环境,用python语言搭建DQN算法的具体步骤为:
环境E;动作空间A;起始状态X0;奖励折扣γ;学习率α;
输入:状态空间S;
1)初始化经验回放存储空间D;
2)使用随机权重θ初始化动作-价值函数Q;
3)令随机权重θ-=θ,初始化目标动作-价值函数
Figure FDA0004061677330000022
4)对每一个episode循环
5)初始化状态序列S1={X1},Φ1=Φ(S1);
6)对每一步循环
7)选择一个动作A:
8)以概率ε选择一个随机动作At;
9)否则选择动作at=argmaxQ(Φ(st),a;θ);
10)执行动作Ai并观察奖励Rt和新状态Xt+1;
11)令St+1=St,At,Xt+1并进行预处理使Φt+1=Φ(St+1);
12)在经验回放中D保存经验(Φt,At,Rt,Φt+1);
13)从D中随机选取小批样本(Φj,Aj,Rj,Φj+1);
14)
Figure FDA0004061677330000031
15)对于θ使用损失函数(yi-Q(Φj,Aj,θ))梯度下降更新;
16)每C步对
Figure FDA0004061677330000032
进行重置;
17)判断终止条件,结束循环;
18)判断终止条件,结束循环;
输出:当前状态下所有可能采取动作的Q值。
5.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求1至权利要求4中任意一项所述的一种基于深度强化学习的多乘客动态车辆路径优化方法。
CN202110478381.4A 2021-04-30 2021-04-30 一种基于深度强化学习的多乘客动态车辆路径优化方法 Active CN113189998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110478381.4A CN113189998B (zh) 2021-04-30 2021-04-30 一种基于深度强化学习的多乘客动态车辆路径优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110478381.4A CN113189998B (zh) 2021-04-30 2021-04-30 一种基于深度强化学习的多乘客动态车辆路径优化方法

Publications (2)

Publication Number Publication Date
CN113189998A CN113189998A (zh) 2021-07-30
CN113189998B true CN113189998B (zh) 2023-04-18

Family

ID=76982971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110478381.4A Active CN113189998B (zh) 2021-04-30 2021-04-30 一种基于深度强化学习的多乘客动态车辆路径优化方法

Country Status (1)

Country Link
CN (1) CN113189998B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105141B (zh) * 2019-11-23 2023-06-02 同济大学 一种需求响应型公交调度方法
CN111123738B (zh) * 2019-11-25 2023-06-30 的卢技术有限公司 提高仿真环境中深度强化学习算法训练效率的方法及系统
CN110883776B (zh) * 2019-11-29 2021-04-23 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法

Also Published As

Publication number Publication date
CN113189998A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
Liu et al. A driving intention prediction method based on hidden Markov model for autonomous driving
Bhattacharyya et al. Simulating emergent properties of human driving behavior using multi-agent reward augmented imitation learning
Yang et al. Bus arrival time prediction using support vector machine with genetic algorithm
CN110750877A (zh) 一种Apollo平台下的车辆跟驰行为预测方法
CN114170789B (zh) 基于时空图神经网络的智能网联车换道决策建模方法
CN111267830A (zh) 一种混合动力公交车能量管理方法、设备和存储介质
Wu et al. Cooperative multiagent deep deterministic policy gradient (CoMADDPG) for intelligent connected transportation with unsignalized intersection
CN114463997A (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
CN113609784B (zh) 一种交通极限场景生成方法、系统、设备和存储介质
CN116432448B (zh) 基于智能网联车和驾驶员遵从度的可变限速优化方法
CN114889610A (zh) 一种基于循环神经网络的目标车辆换道时刻预测方法及系统
He et al. Multi-objective longitudinal decision-making for autonomous electric vehicle: a entropy-constrained reinforcement learning approach
Tunc et al. Fuzzy logic and deep Q learning based control for traffic lights
Yang et al. Leveraging human driving preferences to predict vehicle speed
CN113189998B (zh) 一种基于深度强化学习的多乘客动态车辆路径优化方法
Venkatesh et al. Connected and automated vehicles in mixed-traffic: Learning human driver behavior for effective on-ramp merging
WO2024001301A1 (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
Le et al. Optimal weight adaptation of model predictive control for connected and automated vehicles in mixed traffic with bayesian optimization
CN114148349B (zh) 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
Bai et al. Station stopping of freight trains with pneumatic braking
WO2018205245A1 (zh) 一种用于车辆自动驾驶的策略网络模型的生成方法及装置
CN115719547A (zh) 基于多重交互行为的交通参与者轨迹预测方法及系统
Si et al. A deep coordination graph convolution reinforcement learning for multi-intelligent vehicle driving policy
Zhang et al. An automated driving strategy generating method based on WGAIL–DDPG
Zheng et al. Feedback forecasting based deep deterministic policy gradient algorithm for car-following of autonomous vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant