CN113189998B - 一种基于深度强化学习的多乘客动态车辆路径优化方法 - Google Patents
一种基于深度强化学习的多乘客动态车辆路径优化方法 Download PDFInfo
- Publication number
- CN113189998B CN113189998B CN202110478381.4A CN202110478381A CN113189998B CN 113189998 B CN113189998 B CN 113189998B CN 202110478381 A CN202110478381 A CN 202110478381A CN 113189998 B CN113189998 B CN 113189998B
- Authority
- CN
- China
- Prior art keywords
- state
- action
- value
- vehicle
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000002787 reinforcement Effects 0.000 title claims abstract description 19
- 238000005457 optimization Methods 0.000 title claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 29
- 230000008859 change Effects 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 55
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 9
- 238000013459 approach Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000004880 explosion Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102100027328 2-hydroxyacyl-CoA lyase 2 Human genes 0.000 description 1
- 101710103719 Acetolactate synthase large subunit Proteins 0.000 description 1
- 101710182467 Acetolactate synthase large subunit IlvB1 Proteins 0.000 description 1
- 101710171176 Acetolactate synthase large subunit IlvG Proteins 0.000 description 1
- 101710176702 Acetolactate synthase small subunit Proteins 0.000 description 1
- 101710147947 Acetolactate synthase small subunit 1, chloroplastic Proteins 0.000 description 1
- 101710095712 Acetolactate synthase, mitochondrial Proteins 0.000 description 1
- 101710196435 Probable acetolactate synthase large subunit Proteins 0.000 description 1
- 101710181764 Probable acetolactate synthase small subunit Proteins 0.000 description 1
- 101710104000 Putative acetolactate synthase small subunit Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Biophysics (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种基于深度强化学习的多乘客动态车辆路径优化方法,针对大量乘客的动态巴士路线规划的问题,使用深度强化学习中的神经网络DQN代替表格数据存储方式,解决了维度爆炸的缺陷,实现了在开放环境下优化大量乘客的浮动巴士路径的功能。本发明满足了巴士运行动态路线变化的需求,为管理者进行应急处置、应急决策提供了技术支撑。本发明通过模拟乘客分布对现实的巴士规划做出参考,提高了城市规划效率。
Description
技术领域
本发明属于智能交通技术领域,具体涉及一种基于深度强化学习的多乘客动态车辆路径优化方法。
背景技术
巴士系统是城市交通系统重要的一环,结合自适应系统的研究,创建动态、智能的巴士系统提高人群的出行效率。浮动巴士系统是以一种典型的以人为中心(AutonomousHuman Adaptive Systems,AHASs)的自适应系统。浮动巴士系统中,以巴士为载体,以人为核心,使用软件或算法为主导。系统的浮动性来自于系统所处的动态,开放环境,例如道路环境的变化,天气的影响和突发状况等。浮动巴士系统是AHASs的实现,提高质量,增加效率,降低成本等根本需求,在该系统以人为中心的核心下,转化成了提高巴士运输效率,降低乘客等待时间,优化线路等需求。
现有的智能巴士领域研究在优化线路、降低能耗和减少乘客等待时间三个方面有一定的进展,但针对较大人流量下的浮动巴士路径优化问题少有涉足,现实场景中的乘客运输除了环境持续变化之外,往往存在通行人数远超过模拟案例的情况。
发明内容
本发明要解决的技术问题是:提供一种基于深度强化学习的多乘客动态车辆路径优化方法,用于优化大人流量下的浮动巴士路径。
本发明为解决上述技术问题所采取的技术方案为:一种基于深度强化学习的多乘客动态车辆路径优化方法,包括以下步骤:
S1:构建车辆运行的状态动作空间;
S2:以车辆作为强化学习的主体,根据不同情况设定不同的奖励值和惩罚值;
S3:搭建具有经验回放机制的DQN算法,建立DQN深度神经网络,并训练车辆让实际Q值趋近目标Q值;
S4:进行监督学习,通过确定损失函数、梯度获得最优的动态车辆路径。
按上述方案,所述的步骤S1中,具体步骤为:设车辆的通行范围在道路的起点和终点之间;在车辆的通行范围内设有车站、特殊区域、信号灯;车站为行人的上下车地点,车站带有停车属性;行人为参与交通的实体,分布在车站的附近,行人分别带有不同的通行计划属性;特殊区域分布在道路的两旁,车辆在经过特殊区域时进行减速操作;信号灯用于控制交通。
进一步的,所述的步骤S2中,具体步骤为:
设参与学习的车辆的状态为S,车辆在状态S下的动作为A,对车辆的动作的奖励或惩罚的值为R,车辆的状态发生改变的状态转移概率为P;定义四元组<A,S,R,P>和奖惩规则如下:
S=特殊区域且红灯,A=减速,R=-3;
S=普通区域,A=正常速度,R=-1;
S=终点,A=停止,R=10;
S=乘客上车或下车,A=停止,R=1。
进一步的,所述的步骤S3中,具体步骤为:
S31:设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a),在状态s下通过动作a转移到状态s′的转移概率为通过动作a从状态s转移到状态s′获得的奖励为设折扣值为γ,折扣值越大表示越考虑未来的价值累计,折扣值为零表示只看当前步骤的奖励积累;建立状态s下的状态价值函数Vπ(s)为:
设在状态s′下采取动作a′的奖励为Qπ(s′,a′),则状态s下累计的状态动作价值函数Qπ(s)为:
用于评定车辆交互时状态的价值和动作的价值;
S32:在高维连续的状态动作空间中,通过相近的状态拟合相近的输出动作,得到每个状态动作对的Q值:
Q(s,a;ω)≈Q′(s,α);
S33:将Q-Learning计算得到的目标Q值作为标签,并训练车辆让实际Q值趋近目标Q值。
进一步的,所述的步骤S4中,具体步骤为:
S41:采用Q-Learning确定损失函数为:
S42:设DQN算法收敛,使车辆在每个状态下选取到最好的动作的策略为π:
π(s)=arg maxa∈AQ(s,a);
S43:使用包括随机梯度下降的方法更新参数,从而优化函数直至获得稳定的全局奖励,得到车辆的最优动作序列和最优路线。
进一步的,所述的步骤S3中,采用numpy、tensorflow、openAI-GYM环境,用python语言搭建DQN算法的具体步骤为:
环境E;动作空间A;起始状态X0;奖励折扣γ;学习率α;
输入:状态空间S;
1)初始化经验回放存储空间D;
2)使用随机权重θ初始化动作-价值函数Q;
4)对每一个episode循环
5)初始化状态序列S1={X1},Φ1=Φ(S1);
6)对每一步循环
7)选择一个动作A:
8)以概率ε选择一个随机动作At;
9)否则选择动作at=argmaxaQ(Φ(st),a;θ);
10)执行动作Ai并观察奖励Rt和新状态Xt+1;
11)令St+1=St,At,Xt+1并进行预处理使Φt+1=Φ(St+1);
12)在经验回放中D保存经验(Φt,At,Rt,Φt+1);
13)从D中随机选取小批样本(Φj,Aj,Rj,Φj+1);
15)对于θ使用损失函数(yi-Q(Φj,Aj,θ))梯度下降更新;
17)判断终止条件,结束循环;
18)判断终止条件,结束循环;
输出:当前状态下所有可能采取动作的Q值。
一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行一种基于深度强化学习的多乘客动态车辆路径优化方法。
本发明的有益效果为:
1.本发明的一种基于深度强化学习的多乘客动态车辆路径优化方法,针对大量乘客的动态巴士路线规划的问题,使用深度强化学习中的神经网络DQN代替表格数据存储方式,解决了维度爆炸的缺陷,实现了在开放环境下优化大量乘客的浮动巴士路径的功能。
2.本发明满足了巴士运行动态路线变化的需求,为管理者进行应急处置、应急决策提供了技术支撑。
3.本发明通过模拟乘客分布对现实的巴士规划做出参考,提高了城市规划效率。
附图说明
图1是本发明实施例的DQN算法流程图。
图2是本发明实施例的DQN深度神经网络结构图。
图3是本发明实施例的动态巴士场景示意图。
图4是本发明实施例的DQN算法的收敛过程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图3,在场景中定义巴士站,人群分布状态,人群在站台区域随机上下车,巴士停留时间设定为2min,巴士在正常行驶时受到-1的惩罚,减速或红灯时受到-3的惩罚,乘客正常上下车时得到1的奖励,到达终点时奖励10。将巴士的状态S作为神经网络的输入,输出状态的价值Q,迭代得到最大价值的巴士状态,动作序列,以及最优路线。
参见图1,本发明实施例的一种基于深度强化学习的多乘客动态车辆路径优化方法,包含以下步骤:
1.动态巴士场景建模
构建巴士动态运行场景;
道路:巴士的通行范围,起点和终点,设有控制交通的信号灯和减速区域。
巴士站:行人的上下车地点,设在道路上,巴士站自带停车属性。
行人:参与交通的实体,分布在场景中各个巴士站附近,行人各自有不同的通行计划。
特殊区域:分布在道路两旁,例如学校医院等设施,巴士需要在经过时进行减速操作。
2.奖励值设置
将巴士作为参与强化学习的主体,根据不同情况设定不同的奖惩如下:
状态S | 动作A | 奖励R |
特殊区域,红灯 | 减速 | -3 |
普通区域 | 正常速度 | -1 |
终点 | 停止 | 10 |
乘客上下车 | 停止 | 1 |
3.DQN算法计算
参见图2,建立状态价值函数和状态动作价值函数,用来评定Agent交互时状态的价值和动作的价值:
其中定义了一个经典的四元组<A,S,R,P>:A代表所有参与学习的巴士的动作;S是巴士能处于的环境状态State;R是对一个动作奖励或者惩罚的值;P是巴士的状态发生改变时的状态转移概率。
搭建具有经验回放机制的DQN算法,由于存放的数据是按照时间顺序构造的,具有一定的数据相关性,经验回放是通过样本随机采样,在一定程度上打破了相关性,更有利于收敛。
在普通的Q-learning中,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Table不现实。通常做法是把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作:
Q(s,a;ω)≈Q′(s,a)
E-DQN算法将Q-Learning计算出来的目标Q值作为标签,在训练中让Q值趋近目标Q值。在函数优化上,监督学习先确定损失函数、求梯度,使用随机梯度下降等方法更新参数。E-DQN中用Q-Learning确定损失函数,表达式如下:
算法收敛得到最优的策略π表示为每一个状态选取到最好的动作,形式如下:
π(s)=arg maxa∈AQ(s,a)
在numpy,tensorflow,openAI-GYM环境下,用python搭建实验算法:
环境E;动作空间A;起始状态X0;奖励折扣γ;学习率α。
输入:状态空间S。
1)初始化经验回放存储空间D;
2)使用随机权重θ初始化动作-价值函数Q;
4)对每一个episode循环
5)初始化状态序列S1={X1},Φ1=Φ(S1);
6)对每一步循环
7)选择一个动作A:
8)以概率ε选择一个随机动作At;
9)否则选择动作at=argmaxaQ(Φ(st),a;θ);
10)执行动作Ai并观察奖励Rt和新状态Xt+1;
11)令St+1=St,At,Xt+1并进行预处理使Φt+1=Φ(St+1);
12)在经验回放中D保存经验(Φt,At,Rt,Φt+1);
13)从D中随机选取小批样本(Φj,Aj,Rj,Φj+1);
15)对于θ使用损失函数(yi-Q(Φj,Aj,θ))梯度下降更新;
17)判断终止条件,结束循环;
18)判断终止条件,结束循环;
输出:当前状态下所有可能采取动作的Q值。
4.获得最优动作序列以及最优路线。
参见图4是DQN算法的收敛过程,全局奖励稳定时代表了最优的动态巴士路线。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (5)
1.一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:包括以下步骤:
S1:构建车辆运行的状态动作空间;
S2:以车辆作为强化学习的主体,根据不同情况设定不同的奖励值和惩罚值;
具体步骤为:
设参与学习的车辆的状态为S,车辆在状态S下的动作为A,对车辆的动作的奖励或惩罚的值为R,车辆的状态发生改变的状态转移概率为P;定义四元组<A,S,R,P>和奖惩规则如下:
S=特殊区域且红灯,A=减速,R=-3;
S=普通区域,A=正常速度,R=-1;
S=终点,A=停止,R=10;
S=乘客上车或下车,A=停止,R=1;
S3:搭建具有经验回放机制的DQN算法,建立DQN深度神经网络,并训练车辆让实际Q值趋近目标Q值;
具体步骤为:
S31:设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a),在状态s下通过动作a转移到状态s′的转移概率为通过动作a从状态s转移到状态s′获得的奖励为设折扣值为γ,折扣值越大表示越考虑未来的价值累计,折扣值为零表示只看当前步骤的奖励积累;建立状态s下的状态价值函数Vπ(s)为:
设在状态s′下采取动作a′的奖励为Qπ(s′,a′),则状态s下累计的状态动作价值函数Qπ(s)为:
用于评定车辆交互时状态的价值和动作的价值;
S32:在高维连续的状态动作空间中,通过相近的状态拟合相近的输出动作,得到每个状态动作对的Q值:
Q(s,a;ω)≈Q′(s,a);
S33:将Q-Learning计算得到的目标Q值作为标签,并训练车辆让实际Q值趋近目标Q值;
S4:进行监督学习,通过确定损失函数、梯度获得最优的动态车辆路径。
2.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S1中,具体步骤为:
设车辆的通行范围在道路的起点和终点之间;
在车辆的通行范围内设有车站、特殊区域、信号灯;
车站为行人的上下车地点,车站带有停车属性;
行人为参与交通的实体,分布在车站的附近,行人分别带有不同的通行计划属性;特殊区域分布在道路的两旁,车辆在经过特殊区域时进行减速操作;
信号灯用于控制交通。
4.根据权利要求3所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S3中,采用numpy、tensorflow、openAI-GYM环境,用python语言搭建DQN算法的具体步骤为:
环境E;动作空间A;起始状态X0;奖励折扣γ;学习率α;
输入:状态空间S;
1)初始化经验回放存储空间D;
2)使用随机权重θ初始化动作-价值函数Q;
4)对每一个episode循环
5)初始化状态序列S1={X1},Φ1=Φ(S1);
6)对每一步循环
7)选择一个动作A:
8)以概率ε选择一个随机动作At;
9)否则选择动作at=argmaxQ(Φ(st),a;θ);
10)执行动作Ai并观察奖励Rt和新状态Xt+1;
11)令St+1=St,At,Xt+1并进行预处理使Φt+1=Φ(St+1);
12)在经验回放中D保存经验(Φt,At,Rt,Φt+1);
13)从D中随机选取小批样本(Φj,Aj,Rj,Φj+1);
15)对于θ使用损失函数(yi-Q(Φj,Aj,θ))梯度下降更新;
17)判断终止条件,结束循环;
18)判断终止条件,结束循环;
输出:当前状态下所有可能采取动作的Q值。
5.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求1至权利要求4中任意一项所述的一种基于深度强化学习的多乘客动态车辆路径优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110478381.4A CN113189998B (zh) | 2021-04-30 | 2021-04-30 | 一种基于深度强化学习的多乘客动态车辆路径优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110478381.4A CN113189998B (zh) | 2021-04-30 | 2021-04-30 | 一种基于深度强化学习的多乘客动态车辆路径优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113189998A CN113189998A (zh) | 2021-07-30 |
CN113189998B true CN113189998B (zh) | 2023-04-18 |
Family
ID=76982971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110478381.4A Active CN113189998B (zh) | 2021-04-30 | 2021-04-30 | 一种基于深度强化学习的多乘客动态车辆路径优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113189998B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105141B (zh) * | 2019-11-23 | 2023-06-02 | 同济大学 | 一种需求响应型公交调度方法 |
CN111123738B (zh) * | 2019-11-25 | 2023-06-30 | 的卢技术有限公司 | 提高仿真环境中深度强化学习算法训练效率的方法及系统 |
CN110883776B (zh) * | 2019-11-29 | 2021-04-23 | 河南大学 | 一种快速搜索机制下改进dqn的机器人路径规划算法 |
CN110977967A (zh) * | 2019-11-29 | 2020-04-10 | 天津博诺智创机器人技术有限公司 | 一种基于深度强化学习的机器人路径规划方法 |
-
2021
- 2021-04-30 CN CN202110478381.4A patent/CN113189998B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113189998A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | A driving intention prediction method based on hidden Markov model for autonomous driving | |
Bhattacharyya et al. | Simulating emergent properties of human driving behavior using multi-agent reward augmented imitation learning | |
Yang et al. | Bus arrival time prediction using support vector machine with genetic algorithm | |
CN110750877A (zh) | 一种Apollo平台下的车辆跟驰行为预测方法 | |
CN114170789B (zh) | 基于时空图神经网络的智能网联车换道决策建模方法 | |
CN111267830A (zh) | 一种混合动力公交车能量管理方法、设备和存储介质 | |
Wu et al. | Cooperative multiagent deep deterministic policy gradient (CoMADDPG) for intelligent connected transportation with unsignalized intersection | |
CN114463997A (zh) | 一种无信号灯交叉路口车辆协同控制方法及系统 | |
CN113609784B (zh) | 一种交通极限场景生成方法、系统、设备和存储介质 | |
CN116432448B (zh) | 基于智能网联车和驾驶员遵从度的可变限速优化方法 | |
CN114889610A (zh) | 一种基于循环神经网络的目标车辆换道时刻预测方法及系统 | |
He et al. | Multi-objective longitudinal decision-making for autonomous electric vehicle: a entropy-constrained reinforcement learning approach | |
Tunc et al. | Fuzzy logic and deep Q learning based control for traffic lights | |
Yang et al. | Leveraging human driving preferences to predict vehicle speed | |
CN113189998B (zh) | 一种基于深度强化学习的多乘客动态车辆路径优化方法 | |
Venkatesh et al. | Connected and automated vehicles in mixed-traffic: Learning human driver behavior for effective on-ramp merging | |
WO2024001301A1 (zh) | 一种无信号灯交叉路口车辆协同控制方法及系统 | |
Le et al. | Optimal weight adaptation of model predictive control for connected and automated vehicles in mixed traffic with bayesian optimization | |
CN114148349B (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 | |
Bai et al. | Station stopping of freight trains with pneumatic braking | |
WO2018205245A1 (zh) | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 | |
CN115719547A (zh) | 基于多重交互行为的交通参与者轨迹预测方法及系统 | |
Si et al. | A deep coordination graph convolution reinforcement learning for multi-intelligent vehicle driving policy | |
Zhang et al. | An automated driving strategy generating method based on WGAIL–DDPG | |
Zheng et al. | Feedback forecasting based deep deterministic policy gradient algorithm for car-following of autonomous vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |