CN111260027A - 一种基于强化学习的智能体自动决策方法 - Google Patents
一种基于强化学习的智能体自动决策方法 Download PDFInfo
- Publication number
- CN111260027A CN111260027A CN202010026000.4A CN202010026000A CN111260027A CN 111260027 A CN111260027 A CN 111260027A CN 202010026000 A CN202010026000 A CN 202010026000A CN 111260027 A CN111260027 A CN 111260027A
- Authority
- CN
- China
- Prior art keywords
- network
- strategy
- action
- target
- target network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 45
- 238000011156 evaluation Methods 0.000 claims abstract description 26
- 230000007613 environmental effect Effects 0.000 claims description 15
- 230000008901 benefit Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000012549 training Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于强化学习的智能体自动决策方法,确定智能体的环境状态以及动作空间,构建用于确定可选动作第一选择概率的目标网络以及用于确定实施第一选择概率动作的后效奖励值的评价网络,确定智能体的当前环境状态和目标环境状态,通过目标网络和评价网络得到智能体各步的动作,构成轨迹策略存入经验样本池,根据经验样本池中现有的轨迹策略生成新的轨迹策略对经验样本池进行扩充,根据预先设置好的更新周期采用经验样本池中的样本对评价网络和目标网络进行参数更新。采用本发明可以提高神经网络训练性能,从而提升智能体自动决策的准确度。
Description
技术领域
本发明属于机器学习技术领域,更为具体地讲,涉及一种基于强化学习的智能体自动决策方法。
背景技术
强化学习(Reinforcement Learning,RL)最初源于心理学,用于模仿智能生物的学习模式,是一类以环境状态(State)作为输入,以适应环境(Environment)为目标的特殊的无模型机器学习方法。图1是强化学习的过程示意图。如图1所示,强化学习的核心思想是通过与环境的不断交互和不断试错(Explorer),利用从环境中得到的反馈信号(Reward)实现对一系列策略(Policy)的优化。
强化学习已经涉及与应用到了很多领域,例如自动驾驶、推荐系统、机器人、直升机飞行、游戏等等领域。例如,目前强化学习在游戏领域得到了快速的发展,主要以谷歌公司的DeepMind团队为代表,从状态有限游戏围棋的AlphaGo到如今状态无限的大型经典即时战略游戏星际争霸2(StarCraft 2)的AlphaStar,都是使用了精心设计的强化学习训练后得到较优模型,自动生成最优目标策略来实现。在自动驾驶领域,强化学习可以使得汽车在无人无地图无规则的条件下,从零开始自主学习驾驶,通过摄像头和其他传感器将周围环境的信息作为输入并解析,例如区分障碍物类别、障碍物的相对速度和相对距离、道路的宽度和曲率等等。
在当前强化学习领域,DQN(Deep Q-Learning)算法是一种较为常用的方法,该方法将Q-learning和深度学习(Deep Learning)结合,其中Q-learning是通过不停地探索和更新Q表中的Q(质量)值从而计算出智能体行动的最佳路径,深度学习就是用神经网络来学习数据。在DQN算法中,其Q值不用Q表记录,而是用神经网络来预测Q值,并通过不断更新神经网络从而学习到最优的行动路径。DQN包含两个神经网络,一个为目标网络,用于预测Q值,另一个为评价网络,用于获取Q评估值。目标网络的参数相对固定,是评价网络的一个历史版本。在智能体运行过程中会维护一个经验样本池,用于记录每一个状态下的行动、奖励、和下一个状态的结果,评价网络从记忆库中随机提取样本进行训练,实现参数更新,目标网络定期将评价网络的参数复制过来完成参数更新。
在现有方法中,由于经验样本池中只存储相关达成规定目标状态的轨迹策略,对于规定探索次数和规定时间步中未达到欲达目标的相关轨迹策略执意丢弃,可能会造成所构造的经验样本池内可用数据较少,也即是说有效样本数少,轨迹中策略所达奖励稀疏,大量浪费资源,包括人工设计奖励函数成本、编写代码成本、硬件设施成本等。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于强化学习的智能体自动决策方法,对经验样本池进行扩充,提高神经网络训练性能,从而提升智能体自动决策的准确度。
为了实现以上发明目的,本发明基于强化学习的智能体自动决策方法包括以下步骤:
S1:确定智能体的环境状态S以及动作空间A,其中动作空间A包含至少一个可选动作;
S2:构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能体各个可选动作的第一选择概率;评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值;
S3:确定智能体的初始环境状态S0和目标环境状态G,通过目标网络和评价网络得到智能体各步的动作,记智能体从初始环境状态S0到达目标环境状态G所需的步数为K,每步获取当前策略πk的元组为(Sk-1,ak-1,Sk,rk,G),其中Sk-1表示第k步动作执行前的环境状态,ak-1表示第k步执行的动作,Sk表示第k步动作执行后所达到的环境状态,rk表示第k步动作得到的即时奖励值;将K步策略构成轨迹策略并存入经验样本池中;
S4:根据经验样本池现有的轨迹策略生成新的轨迹策略,其具体方法如下:记现有的某个轨迹策略中包含K步策略,每步策略为πk=(Sk-1,ak-1,Sk,rk,G),将第k*步动作执行后所达到的环境状态作为目标状态,将根据现有轨迹策略重新从初始环境状态S0开始执行策略到达环境状态将所得到的轨迹策略存入经验样本池中;
S5:根据预先设置好的更新周期对评价网络进行参数更新,在参数更新时从经验样本池中选择若干轨迹策略对评价网络进行训练,目标网络根据预先设置好的更新周期将评价网络的参数复制至目标网络,完成目标网络的更新。目标网络的更新周期大于评价网络的更新周期。
本发明基于强化学习的智能体自动决策方法,确定智能体的环境状态以及动作空间,构建用于确定可选动作第一选择概率的目标网络以及用于确定实施第一选择概率动作的后效奖励值的评价网络,确定智能体的当前环境状态和目标环境状态,通过目标网络和评价网络得到智能体各步的动作,构成轨迹策略存入经验样本池,根据经验样本池中现有的轨迹策略生成新的轨迹策略对经验样本池进行扩充,根据预先设置好的更新周期采用经验样本池中的样本对评价网络和目标网络进行参数更新。采用本发明可以提高神经网络训练性能,从而提升智能体自动决策的准确度。
附图说明
图1是强化学习的过程示意图;
图2是本发明基于强化学习的智能体自动决策方法的具体实施方式流程图;
图3是本实施例中智能汽车自动驾驶网络的结构示意图;
图4是本实施例中基于经典DQN算法进行智能汽车自动驾驶决策的平均得分曲线图;
图5是本实施例中基于本发明进行智能汽车自动驾驶决策的平均得分曲线图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图2是本发明基于强化学习的智能体自动决策方法的具体实施方式流程图。如图2所示,本发明基于强化学习的智能体自动决策方法的具体步骤包括:
S201:获取智能体信息:
确定智能体的环境状态S以及动作空间A,其中动作空间A包含至少一个可选动作。
本实施例中以智能汽车的自动驾驶为例,其环境状态为智能汽车所处的道路环境,通常包括智能汽车所拍摄的前方道路图像和传感器所采集到的风速、湿度等参数,动作空间包括智能汽车的多个驾驶动作:汽车行进速度、转速、角度偏移量。
S202:构建目标网络和评价网络:
构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能体各个可选动作的第一选择概率,通过目标网络可以实现对输入环境状态的自动特征提取。评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值。图3是本实施例中智能汽车自动驾驶网络的结构示意图。
S203:获取轨迹策略:
确定智能体的初始环境状态S0和目标环境状态G,通过目标网络和评价网络得到智能体各步的动作,记智能体从初始环境状态S0到达目标环境状态G所需的步数为K,每步获取当前策略πk的元组为(Sk-1,ak-1,Sk,rk,G),其中Sk-1表示第k步动作执行前的环境状态,ak-1表示第k步执行的动作,Sk表示第k步动作执行后所达到的环境状态,rk表示第k步动作得到的即时奖励值。将K步策略构成轨迹策略并存入经验样本池中。
S204:扩充经验样本池:
为了提高经验样本池中的经验样本质量,可以根据经验样本池现有的轨迹策略生成新的轨迹策略,其具体方法如下:记现有的某个轨迹策略中包含K步策略,每步策略为πk=(Sk-1,ak-1,Sk,rk,G),将第k*步动作执行后所达到的环境状态作为目标状态,根据现有轨迹策略重新从初始环境状态S0开始执行策略到达环境状态将所得到的轨迹策略存入经验样本池中。
本发明通过对经验样本池进行了扩充,将未达目标环境状态的部分策略存入,增加矩阵中的奖励正值,将稀疏奖励问题给转化成非稀疏奖励,有效地扩展了经验池中完成任务获得正值奖励的经验数量。在智能体运行过程中会对经验样本池进行维护,保留新的轨迹策略,删除旧的轨迹策略,即采用先入先出的维护模式,以保证对目标网络和评价网络的训练适应最新的环境状态。
S205:网络更新:
根据预先设置好的更新周期对评价网络进行参数更新,在参数更新时从经验样本池中选择若干轨迹策略对评价网络进行训练,目标网络根据预先设置好的更新周期将评价网络的参数复制至目标网络,完成目标网络的更新。目标网络的更新周期大于评价网络的更新周期。
为了更好地说明本发明的技术效果,采用经典DQN算法作为对比方法,和本发明在智能汽车自动驾驶平台中的应用效果进行应用验证。本次验证中轨迹策略的生成和网络更新交叉进行,在对评价网络更新时利用小批量梯度下降法进行。设置控制的最大帧数为200000,重放池队列大小为10000,预达目标取值为5,批尺寸为5,采用Adam优化器。将每100次轨迹策略的得分(即轨迹策略的折扣即时奖励和,也就是Q值)进行平均,以对比两种方法的应用效果。图4是本实施例中基于经典DQN算法进行智能汽车自动驾驶决策的平均得分曲线图。图5是本实施例中基于本发明进行智能汽车自动驾驶决策的平均得分曲线图。比较图4和图5可知,本发明的得分逐渐增大并且平均得分值十分稳定,而经典DQN算法的得分不高且不稳定,这是因为经典DQN算法在进行网络训练时采用随机经验采样和奖励稀疏,导致目标网络和评价网络的性能不高,而本发明通过扩充经验样本池,使以上问题得到了改善。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种基于强化学习的智能体自动决策方法,其特征在于,包括以下步骤:
S1:确定智能体的环境状态S以及动作空间A,其中动作空间A包含至少一个可选动作;
S2:构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能体各个可选动作的第一选择概率;评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值;
S3:确定智能体的初始环境状态S0和目标环境状态G,通过目标网络和评价网络得到智能体各步的动作,记智能体从初始环境状态S0到达目标环境状态G所需的步数为K,每步获取当前策略πk的元组为(Sk-1,ak-1,Sk,rk,G),其中Sk-1表示第k步动作执行前的环境状态,ak-1表示第k步执行的动作,Sk表示第k步动作执行后所达到的环境状态,rk表示第k步动作得到的即时奖励值;将K步策略构成轨迹策略并存入经验样本池中;
S4:根据经验池现有的轨迹策略生成新的轨迹策略,其具体方法如下:记现有的某个轨迹策略中包含K步策略,每步策略为πk=(Sk-1,ak-1,Sk,rk,G),将第k*步动作执行后所达到的环境状态作为目标状态,将根据现有轨迹策略重新从初始环境状态S0开始执行策略到达环境状态Sk,将所得到的轨迹策略存入经验样本池中;
S5:根据预先设置好的更新周期对评价网络进行参数更新,在参数更新时从经验样本池中选择若干轨迹策略对评价网络进行训练,目标网络根据预先设置好的更新周期将评价网络的参数复制至目标网络,完成目标网络的更新。目标网络的更新周期大于评价网络的更新周期。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010026000.4A CN111260027B (zh) | 2020-01-10 | 2020-01-10 | 一种基于强化学习的智能体自动决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010026000.4A CN111260027B (zh) | 2020-01-10 | 2020-01-10 | 一种基于强化学习的智能体自动决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260027A true CN111260027A (zh) | 2020-06-09 |
CN111260027B CN111260027B (zh) | 2022-07-26 |
Family
ID=70952854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010026000.4A Expired - Fee Related CN111260027B (zh) | 2020-01-10 | 2020-01-10 | 一种基于强化学习的智能体自动决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111260027B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101564A (zh) * | 2020-08-17 | 2020-12-18 | 清华大学 | 基于注意力机制的多智能体值函数分解方法及装置 |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
CN112221140A (zh) * | 2020-11-04 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 虚拟对象的动作确定模型训练方法、装置、设备及介质 |
CN112327821A (zh) * | 2020-07-08 | 2021-02-05 | 东莞市均谊视觉科技有限公司 | 一种基于深度强化学习的智能清洁机器人路径规划方法 |
CN112765892A (zh) * | 2021-01-27 | 2021-05-07 | 东北大学 | 一种异构车联网中的智能切换判决方法 |
CN112843725A (zh) * | 2021-03-15 | 2021-05-28 | 网易(杭州)网络有限公司 | 智能体处理方法及装置 |
CN113211441A (zh) * | 2020-11-30 | 2021-08-06 | 湖南太观科技有限公司 | 神经网络训练和机器人控制方法及装置 |
CN113807460A (zh) * | 2021-09-27 | 2021-12-17 | 北京地平线机器人技术研发有限公司 | 智能体动作的确定方法和装置、电子设备和介质 |
CN114599116A (zh) * | 2022-03-01 | 2022-06-07 | 中山大学 | 一种非授权频段公平共存接入方法及系统 |
CN115169519A (zh) * | 2022-07-14 | 2022-10-11 | 重庆交通大学 | 一种仿生鱼体自主智能游动模拟方法、装置及系统 |
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108211362A (zh) * | 2017-12-26 | 2018-06-29 | 浙江大学 | 一种基于深度q学习网络的非玩家角色战斗策略学习方法 |
CN110525428A (zh) * | 2019-08-29 | 2019-12-03 | 合肥工业大学 | 一种基于模糊深度强化学习的自动泊车方法 |
WO2019241680A1 (en) * | 2018-06-15 | 2019-12-19 | Google Llc | Deep reinforcement learning for robotic manipulation |
-
2020
- 2020-01-10 CN CN202010026000.4A patent/CN111260027B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108211362A (zh) * | 2017-12-26 | 2018-06-29 | 浙江大学 | 一种基于深度q学习网络的非玩家角色战斗策略学习方法 |
WO2019241680A1 (en) * | 2018-06-15 | 2019-12-19 | Google Llc | Deep reinforcement learning for robotic manipulation |
CN110525428A (zh) * | 2019-08-29 | 2019-12-03 | 合肥工业大学 | 一种基于模糊深度强化学习的自动泊车方法 |
Non-Patent Citations (3)
Title |
---|
JIA WU: "RPR-BP: A Deep Reinforcement Learning Method for Automatic Hyperparameter Optimization", 《2019 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 * |
万里鹏: "深度强化学习理论及其应用综述", 《模式识别与人工智能》 * |
王寻: "基于强化学习的游戏环境中智能体决策模型的设计研究", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112327821A (zh) * | 2020-07-08 | 2021-02-05 | 东莞市均谊视觉科技有限公司 | 一种基于深度强化学习的智能清洁机器人路径规划方法 |
CN112101564A (zh) * | 2020-08-17 | 2020-12-18 | 清华大学 | 基于注意力机制的多智能体值函数分解方法及装置 |
CN112132263A (zh) * | 2020-09-11 | 2020-12-25 | 大连理工大学 | 一种基于强化学习的多智能体自主导航方法 |
CN112221140A (zh) * | 2020-11-04 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 虚拟对象的动作确定模型训练方法、装置、设备及介质 |
CN112221140B (zh) * | 2020-11-04 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 虚拟对象的动作确定模型训练方法、装置、设备及介质 |
CN113211441A (zh) * | 2020-11-30 | 2021-08-06 | 湖南太观科技有限公司 | 神经网络训练和机器人控制方法及装置 |
CN113211441B (zh) * | 2020-11-30 | 2022-09-09 | 湖南太观科技有限公司 | 神经网络训练和机器人控制方法及装置 |
CN112765892B (zh) * | 2021-01-27 | 2023-09-26 | 东北大学 | 一种异构车联网中的智能切换判决方法 |
CN112765892A (zh) * | 2021-01-27 | 2021-05-07 | 东北大学 | 一种异构车联网中的智能切换判决方法 |
CN112843725A (zh) * | 2021-03-15 | 2021-05-28 | 网易(杭州)网络有限公司 | 智能体处理方法及装置 |
CN113807460A (zh) * | 2021-09-27 | 2021-12-17 | 北京地平线机器人技术研发有限公司 | 智能体动作的确定方法和装置、电子设备和介质 |
CN113807460B (zh) * | 2021-09-27 | 2024-05-14 | 北京地平线机器人技术研发有限公司 | 智能体动作的确定方法和装置、电子设备和介质 |
CN114599116A (zh) * | 2022-03-01 | 2022-06-07 | 中山大学 | 一种非授权频段公平共存接入方法及系统 |
CN115169519A (zh) * | 2022-07-14 | 2022-10-11 | 重庆交通大学 | 一种仿生鱼体自主智能游动模拟方法、装置及系统 |
CN115993831B (zh) * | 2023-03-23 | 2023-06-09 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111260027B (zh) | 2022-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260027B (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN114358128B (zh) | 一种训练端到端的自动驾驶策略的方法 | |
Zhang et al. | Query-efficient imitation learning for end-to-end autonomous driving | |
CN110956148B (zh) | 无人车的自主避障方法及装置、电子设备、可读存储介质 | |
CN112172813B (zh) | 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 | |
US20240308068A1 (en) | Data-efficient hierarchical reinforcement learning | |
CN114162146B (zh) | 行驶策略模型训练方法以及自动驾驶的控制方法 | |
CN118246513A (zh) | 训练动作选择神经网络 | |
CN112596515B (zh) | 一种多物流机器人移动控制方法及装置 | |
CN113561986B (zh) | 自动驾驶汽车决策方法及装置 | |
CN110447041B (zh) | 噪声神经网络层 | |
Zou et al. | An end-to-end learning of driving strategies based on DDPG and imitation learning | |
CN115826621B (zh) | 一种基于深度强化学习的无人机运动规划方法及系统 | |
US20210213977A1 (en) | Nearby Driver Intent Determining Autonomous Driving System | |
US20230162539A1 (en) | Driving decision-making method and apparatus and chip | |
CN115409158A (zh) | 基于分层深度强化学习模型的机器人行为决策方法及设备 | |
CN114137967B (zh) | 基于多网络联合学习的驾驶行为决策方法 | |
CN113743603A (zh) | 控制方法、装置、存储介质及电子设备 | |
CN111348034A (zh) | 基于生成对抗模仿学习的自动泊车方法及系统 | |
Hilleli et al. | Toward deep reinforcement learning without a simulator: An autonomous steering example | |
CN114415507A (zh) | 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法 | |
CN112884129B (zh) | 一种基于示教数据的多步规则提取方法、设备及存储介质 | |
CN113985870B (zh) | 一种基于元强化学习的路径规划方法 | |
CN114655211A (zh) | 一种基于深度强化学习的自动驾驶车辆超车决策方法 | |
CN117396389A (zh) | 自动驾驶指令生成模型优化方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220726 |
|
CF01 | Termination of patent right due to non-payment of annual fee |