CN111141300A - 基于深度强化学习的智能移动平台无地图自主导航方法 - Google Patents
基于深度强化学习的智能移动平台无地图自主导航方法 Download PDFInfo
- Publication number
- CN111141300A CN111141300A CN201911312270.5A CN201911312270A CN111141300A CN 111141300 A CN111141300 A CN 111141300A CN 201911312270 A CN201911312270 A CN 201911312270A CN 111141300 A CN111141300 A CN 111141300A
- Authority
- CN
- China
- Prior art keywords
- mobile platform
- navigation
- network
- value
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3446—Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度强化学习的智能移动平台无地图自主导航方法,在AI2‑THOR仿真框架中选取导航场景;构建基于Actor‑Critic框架的深度强化学习模型;根据动作概率分布进行移动平台与导航场景的动作交互,更新奖励值和当前观测信息,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数,则更新模型参数,否则继续动作交互;构建Actor‑Critic网络的损失函数,采用异步优势算法A3C训练更新深度强化学习模型;重复训练,直至训练步数达到设定阈值;获取实际导航场景的初始观测信息与目标图像,利用训练好的模型进行导航,规划智能移动平台的导航路径。本发明无需提前构建环境模型,即可实现显示环境的导航。
Description
技术领域
本发明涉及视觉导航领域,特别涉及一种基于深度强化学习的智能移动平台无地图自主导航方法。
背景技术
导航是智能移动平台的基本能力之一,是智能移动平台能够在环境中实现自主移动的前提。传统的导航技术往往要求移动平台携带大量的传感器去感知环境,预先构建导航场景的全局地图,该方法在环境发生变化时需要重新建立连通模型,实用性不强。结合深度神经网络的强化学习作为一种自学习能力较强的机器学习方法,相较于传统的导航策略,非常符合智能移动平台合理处理各种环境情况的需求。但采用深度强化学习策略的问题在于两个方面。首先,尽管一些论文认为在真实环境中使用深度强化学习对模型进行训练是可行的,但这种方法代价高昂,因为在真实环境中训练智能移动平台实体是非常耗时的,且有效数据集采集难度大。其次,视觉导航领域的标准强化学习算法往往针对某一个目标来训练模型的,在更换导航目标时,模型失效,需要重新训练,即目标被硬编码为网络参数的一部分,这种做法时间成本高,且通用性低。
发明内容
本发明的目的在于提供一种基于深度强化学习的智能移动平台无地图自主导航方法。
实现本发明目的的技术解决方案为:一种基于深度强化学习的智能移动平台无地图自主导航方法,包括如下步骤:
步骤1,在AI2-THOR仿真框架中选取导航场景,并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制;
步骤2,以移动平台对导航环境的观测信息与目标图像信息为输入,以在动作空间上的概率分布与当前状态的价值为输出,构建基于Actor-Critic框架的深度强化学习模型,进行动作预测;
步骤3,根据动作概率分布进行移动平台与导航场景的动作交互,更新奖励值和当前观测信息,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数,则进入步骤4;否则转至步骤2;
步骤4,根据最终获得的奖励值和状态价值构建Actor-Critic网络的损失函数,采用异步优势算法A3C训练更新深度强化学习模型;
步骤5,重复步骤2~4,继续针对该目标图像进行训练,直至训练步数达到设定阈值;
步骤6,获取实际导航场景的初始观测信息与目标图像,利用训练好的模型进行导航,规划智能移动平台的导航路径。
与现有技术相比,本发明的显著优点在于:1)通过将导航目标作为网络输入,避免了导航目标更换时模型的重训练问题,且训练好的模型对未经过训练的目标有较高的泛化性能;2)采用AI2-THOR仿真环境训练模型,训练样本的采集更高效,且训练好的模型经过少量参数微调后能直接应用于现实环境,模型的迁移性迁移性与实用性更高;3)采用LSTM层记录历史决策,提升了模型的收敛能力,训练好的模型能以更少的步数到达导航目标。
附图说明
图1为本发明基于Actor-Critic框架的深度强化学习模型的结构图。
图2为本发明智能移动平台执行动作后当前观测信息改变的示意图。
图3为本发明基于深度强化学习的无地图自主导航方法的流程图。
具体实施方式
下面结合附图和具体实施例,对本发明方案作进一步的说明。
基于深度强化学习的智能移动平台无地图自主导航方法,包括如下步骤:
步骤1,在AI2-THOR仿真框架中选取导航场景,并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制,具体步骤包括:
步骤11,在仿真框架中选取导航场景,网格化该导航场景,设置移动平台的初始位置为导航场景中的任一网格点;
步骤12,利用移动平台上搭载的RGB相机拍摄图片,将该图片作为初始观测信息;
步骤13,从导航场景中选取导航的目标图像;
步骤14,设置移动平台的动作空间,包括:前进、后退、左转、右转,其中前进步长、后退步长与网格单位尺寸相关,假设网格单位尺寸为0.5米,则前进步长、后退步长均为0.5米,而左转、右转角度均设置为90°;
步骤15,设置移动平台与导航环境交互时的奖惩机制,移动平台在规定步数内到达导航目标,则奖励值为10.0分;发生碰撞时,奖励值为-0.1分;除这两种情况外,每一时间步奖励值为-0.01分。
步骤2,以移动平台对导航环境的观测信息与目标图像信息为输入,以在动作空间上的概率分布与当前状态的价值为输出,构建基于Actor-Critic框架的深度强化学习模型,如图1所示;
步骤21,将当前状态观测信息与目标图像信息,分别输入到两个通道,这两个通道构成网络结构、参数完全一致的孪生层,每一通道包含深度神经网络ResNet-50与一个全连接层,对全连接层输出的两个特征向量进行堆叠,再输入一个全连接层得到融合特征向量;
步骤22,将融合特征向量输入到Actor-Critic网络,所述Actor-Critic网络包含两个全连接层、一个LSTM层与一个softmax层,融合特征向量经过一个全连接层、一个LSTM层后分别输入到一个softmax层与一个全连接层,得到动作概率分布与当前状态的价值,其中得到动作概率分布的是softmax层,得到当前状态价值的是全连接层。
步骤3,根据贪心算法在动作概率分布中选取概率值最大的动作,作为移动平台的执行动作,对移动平台与导航场景进行交互,根据步骤1中设计的奖惩机制计算奖励值,同时更新当前观测信息,如图2所示,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数tmax,则进入步骤4;否则转至步骤2,预测下一步的动作概率分布和状态价值。
步骤4,根据步骤3最终获得的奖励值和状态价值计算优势值,进而确定Actor-Critic网络的损失函数,然后计算损失函数对网络参数的梯度,并采用异步优势算法A3C来训练并更新深度强化学习模型的参数;
步骤41,计算优势值Advantage,公式为:
Advantage=Rt-V(st,gt|θv)
其中,st、gt、rt为离散时刻t下移动平台的当前观测值、导航目标、获取的奖励值,θv为Critic网络的参数,V(st,gt|θv)为Critic网络输出的当前状态的价值,Rt表示从时间步t开始直到移动平台到达目标或累计时间步达到tmax步的累计奖励,st+1为执行动作at后的下一时刻状态观测值,st+k为执行k步动作后更新的状态观测值,且k不大于tmax,γi为采取第i步动作获得奖励的折扣率;
步骤42,构建Actor网络与Critic网络的损失函数分别为lossπ、lossv,进而确定总损失函数losstotal;
lossπ=lnπ(st,gt|θπ)(Rt-V(st,gt|θv))+βH(π(st,gt|θπ))
lossv=(Rt-V(st,gt|θv))2
losstotal=lossπ+lossv
H(π(st,gt|θπ))=-∑π(st,gt|θπ).ln(clip(π(st,gt|θπ),10-20,1))
其中θπ为Actor网络参数,π(st,gt|θπ)为在离散时刻t下Actor网络输出的概率值最大的动作,为防止过早地收敛到局部最优,强化学习方法通常将策略π的交叉熵H加入到待优化的损失函数中,其中β用于控制熵正则项的强度,clip函数用于将π(st,gt|θπ)的值限制在10-20~1的范围内;
步骤43,计算Actor网络与Critic网络的损失函数lossπ、lossv对θπ、θv的梯度Δπ与Δv:
步骤44,采用异步优势算法A3C训练更新深度强化学习模型的参数,更新公式为:
累积局部策略网络梯度dθπ:
dθπ←dθπ+ηΔπ
累积局部价值网络梯度dθv:
dθv←dθv+ηΔv
其中η为学习率,使用上述累积梯度,更新拥有相同结构的全局神经网络的模型参数,同时局部网络再从全局网络中获取最新的模型参数值。
步骤5,重复步骤2~4,继续针对该目标图像进行训练,直至训练步数达到设定阈值;
步骤6,获取实际导航场景的初始观测信息与目标图像,利用训练好的模型进行导航,规划智能移动平台的导航路径。
实施例
为了验证本发明方案的有效性,在图3中给出了本发明的基于深度强化学习的视觉导航方法工作流程图,并基于AI2-THOR仿真框架进行了如下仿真实验,具体工作步骤如下:
1)选取导航场景living_room_08.h5,在该场景的导航目标集中选取目标号为92、135、193、228共计4个目标,分别在4个线程上进行训练,每个线程上的训练在多核CPU上同时进行,随机初始化移动平台的初始位置,并获取该位置上的初始观测信息,按步骤14、步骤15对奖惩机制与动作空间进行设置;
2)构建基于Actor-Critic框架的深度强化学习模型,模型网络参数信息如下,首先,当前观测信息与目标图像信息尺寸均为300*400*3,通过在ImageNet数据集上预训练的深度神经网络ResNet-50提取图像特征,截断ResNet-50的softmax层,输出为2048维的特征向量,再输入到512维的全连接层;其次,在特征融合层对两个512维特征进行维度叠加,经特征融合层输出512维特征融合向量;然后,将融合特征送入场景特定层,场景特定层中,包含512维的全连接层、512维的LSTM层,将LSTM层生成的512维特征同时输入两个网络层,维度为4的softmax层与维度为1的全连接层,其中softmax层用于产生动作,它输出的是在动作空间上的概率分布,在动作选择上采用贪心策略,而维度为1的全连接层输出的当前状态的价值,则用于衡量从任意状态到达给定目标的能力;
3)按步骤3、4、5对基于Actor-Critic框架的深度强化学习模型进行训练,设置最大移动步数为5000步,设置连续采取动作数tmax为5,设置奖励折扣率γ为0.99,设置用于控制熵正则项的强度β为0.01,设置学习率η在10^-4~10^-2之间按训练步数线性递减,设置最大训练步数阈值为3000000,RMSProp优化器α值、ε值分别为0.99与0.1,优化器延迟率设置为0.9;
4)深度强化学习模型训练完成后,模型能根据真实场景中的目标图像与当前观测图像输出智能移动平台应该采取的动作,移动平台在真实场景中采取该动作,获得奖励,且当前观测值变为新观测值,若新观测值与目标图像不匹配,则重复上述过程,直至导航到目标图像;
在使用4个线程训练完模型后,在训练目标与不在训练集上的未见目标(254号)上的评估结果如表1所示:
表1训练完成后的模型在五个目标上的评估结果
表1显示,在异步优势算法A3C的基础上添加LSTM层的算法性能在到达每一个评估目标所需平均步数为14.88,比采用原始A3C算法获得的数据16.95低,因此算法性能也更优越。
Claims (4)
1.一种基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,包括如下步骤:
步骤1,在AI2-THOR仿真框架中选取导航场景,并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制;
步骤2,以移动平台对导航环境的观测信息与目标图像信息为输入,以在动作空间上的概率分布与当前状态的价值为输出,构建基于Actor-Critic框架的深度强化学习模型,进行动作预测;
步骤3,根据动作概率分布进行移动平台与导航场景的动作交互,更新奖励值和当前观测信息,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数,则进入步骤4;否则转至步骤2;
步骤4,根据最终获得的奖励值和状态价值构建Actor-Critic网络的损失函数,采用异步优势算法A3C训练更新深度强化学习模型;
步骤5,重复步骤2~4,继续针对该目标图像进行训练,直至训练步数达到设定阈值;
步骤6,获取实际导航场景的初始观测信息与目标图像,利用训练好的模型进行导航,规划智能移动平台的导航路径。
2.根据权利要求1所述的基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,步骤1的具体过程为:
步骤11,在仿真框架中选取导航场景,网格化该导航场景,设置移动平台的初始位置为导航场景中的任一网格点;
步骤12,利用移动平台上搭载的RGB相机拍摄图片,将该图片作为初始观测信息;
步骤13,从导航场景中选取导航的目标图像;
步骤14,设置移动平台的动作空间,包括:前进、后退、左转、右转,其中前进步长、后退步长与网格单位尺寸相关,假设网格单位尺寸为0.5米,则前进步长、后退步长均为0.5米,而左转、右转角度均设置为90°;
步骤15,设置移动平台与导航环境交互时的奖惩机制,移动平台在规定步数内到达导航目标,则奖励值为10.0分;发生碰撞时,奖励值为-0.1分;除这两种情况外,每一时间步奖励值为-0.01分。
3.根据权利要求1所述的基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,步骤2的具体过程为:
步骤21,将当前状态观测信息与目标图像信息,分别输入到两个通道,这两个通道构成网络结构、参数完全一致的孪生层,每一通道包含深度神经网络ResNet-50与一个全连接层,对全连接层输出的两个特征向量进行堆叠,再输入一个全连接层得到融合特征向量;
步骤22,将融合特征向量输入到Actor-Critic网络,所述Actor-Critic网络包含两个全连接层、一个LSTM层与一个softmax层,融合特征向量经过一个全连接层、一个LSTM层后分别输入到一个softmax层与一个全连接层,得到动作概率分布与当前状态的价值,其中得到动作概率分布的是softmax层,得到当前状态价值的是全连接层。
4.根据权利要求1所述的基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,步骤4的具体过程为:
步骤41,计算优势值Advantage,公式为:
Advantage=Rt-V(st,gt|θv)
其中,st、gt、rt为离散时刻t下移动平台的当前观测值、导航目标、获取的奖励值,θv为Critic网络的参数,V(st,gt|θv)为Critic网络输出的当前状态的价值,Rt表示从时间步t开始直到移动平台到达目标或累计时间步达到tmax步的累计奖励,st+1为执行动作at后的下一时刻状态观测值,st+k为执行k步动作后更新的状态观测值,且k不大于tmax,γi为采取第i步动作获得奖励的折扣率;
步骤42,构建Actor网络与Critic网络的损失函数分别为lossπ、lossv,进而确定总损失函数losstotal;
lossπ=lnπ(st,gt|θπ)(Rt-V(st,gt|θv))+βH(π(st,gt|θπ))
lossv=(Rt-V(st,gt|θv))2
losstotal=lossπ+lossv
H(π(st,gt|θπ))=-∑π(st,gt|θπ).ln(clip(π(st,gt|θπ),10-20,1))
其中θπ为Actor网络参数,π(st,gt|θπ)为在离散时刻t下Actor网络输出的概率值最大的动作,为防止过早地收敛到局部最优,强化学习方法通常将策略π的交叉熵H加入到待优化的损失函数中,其中β用于控制熵正则项的强度,clip函数用于将π(st,gt|θπ)的值限制在10-20~1的范围内;
步骤43,计算Actor网络与Critic网络的损失函数lossπ、lossv对θπ、θv的梯度Δπ与Δv:
步骤44,采用异步优势算法A3C训练更新深度强化学习模型的参数,更新公式为:
累积局部策略网络梯度dθπ:
dθπ←dθπ+ηΔπ
累积局部价值网络梯度dθv:
dθv←dθv+ηΔv
其中η为学习率,使用上述累积梯度,更新拥有相同结构的全局神经网络的模型参数,同时局部网络再从全局网络中获取最新的模型参数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911312270.5A CN111141300A (zh) | 2019-12-18 | 2019-12-18 | 基于深度强化学习的智能移动平台无地图自主导航方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911312270.5A CN111141300A (zh) | 2019-12-18 | 2019-12-18 | 基于深度强化学习的智能移动平台无地图自主导航方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111141300A true CN111141300A (zh) | 2020-05-12 |
Family
ID=70518783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911312270.5A Pending CN111141300A (zh) | 2019-12-18 | 2019-12-18 | 基于深度强化学习的智能移动平台无地图自主导航方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111141300A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111679577A (zh) * | 2020-05-27 | 2020-09-18 | 北京交通大学 | 一种高速列车的速度跟踪控制方法和自动驾驶控制系统 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112347961A (zh) * | 2020-11-16 | 2021-02-09 | 哈尔滨工业大学 | 水流体内无人平台智能目标捕获方法及系统 |
CN112857373A (zh) * | 2021-02-26 | 2021-05-28 | 哈尔滨工业大学 | 一种最小化无用动作的节能性无人车路径导航方法 |
CN112857370A (zh) * | 2021-01-07 | 2021-05-28 | 北京大学 | 一种基于时序信息建模的机器人无地图导航方法 |
CN112873211A (zh) * | 2021-02-24 | 2021-06-01 | 清华大学 | 一种机器人人机交互方法 |
CN112947081A (zh) * | 2021-02-05 | 2021-06-11 | 浙江大学 | 基于图像隐变量概率模型的分布式强化学习社交导航方法 |
CN113011081A (zh) * | 2021-02-02 | 2021-06-22 | 电子科技大学 | 一种基于元学习的无人机导航方法 |
CN113093727A (zh) * | 2021-03-08 | 2021-07-09 | 哈尔滨工业大学(深圳) | 一种基于深度安全强化学习的机器人无地图导航方法 |
CN113156959A (zh) * | 2021-04-27 | 2021-07-23 | 东莞理工学院 | 复杂场景自主移动机器人自监督学习及导航方法 |
CN113184767A (zh) * | 2021-04-21 | 2021-07-30 | 湖南中联重科智能高空作业机械有限公司 | 高空作业平台导航方法、装置、设备及高空作业平台 |
CN113268859A (zh) * | 2021-04-25 | 2021-08-17 | 北京控制工程研究所 | 航天器在轨博弈的仿真模拟方法、系统及存储介质 |
CN113359449A (zh) * | 2021-06-04 | 2021-09-07 | 西安交通大学 | 基于强化学习的航空发动机双参数指数劣化维护方法 |
CN113392584A (zh) * | 2021-06-08 | 2021-09-14 | 华南理工大学 | 基于深度强化学习和方向估计的视觉导航方法 |
CN113625718A (zh) * | 2021-08-12 | 2021-11-09 | 上汽大众汽车有限公司 | 车辆的行驶路径规划方法 |
CN113902830A (zh) * | 2021-12-08 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 轨迹路网生成方法 |
CN114252071A (zh) * | 2020-09-25 | 2022-03-29 | 财团法人工业技术研究院 | 自走车导航装置及其方法 |
CN114355980A (zh) * | 2022-01-06 | 2022-04-15 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN114413910A (zh) * | 2022-03-31 | 2022-04-29 | 中国科学院自动化研究所 | 视觉目标导航方法及装置 |
CN114460943A (zh) * | 2022-02-10 | 2022-05-10 | 山东大学 | 服务机器人自适应目标导航方法及系统 |
CN114526738A (zh) * | 2022-01-25 | 2022-05-24 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
CN115805595A (zh) * | 2023-02-09 | 2023-03-17 | 白杨时代(北京)科技有限公司 | 机器人导航方法、装置及杂物清理机器人 |
CN116661456A (zh) * | 2023-06-21 | 2023-08-29 | 上海海事大学 | 一种基于a3c的agv防冲突路径规划方法 |
CN113156959B (zh) * | 2021-04-27 | 2024-06-04 | 东莞理工学院 | 复杂场景自主移动机器人自监督学习及导航方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305275A (zh) * | 2017-08-25 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 主动跟踪方法、装置及系统 |
CN108803615A (zh) * | 2018-07-03 | 2018-11-13 | 东南大学 | 一种基于深度强化学习的虚拟人未知环境导航算法 |
CN109682392A (zh) * | 2018-12-28 | 2019-04-26 | 山东大学 | 基于深度强化学习的视觉导航方法及系统 |
CN110341700A (zh) * | 2018-04-03 | 2019-10-18 | 福特全球技术公司 | 使用深度强化学习的自动导航 |
CN110376594A (zh) * | 2018-08-17 | 2019-10-25 | 北京京东尚科信息技术有限公司 | 一种基于拓扑图的智能导航的方法和系统 |
-
2019
- 2019-12-18 CN CN201911312270.5A patent/CN111141300A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305275A (zh) * | 2017-08-25 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 主动跟踪方法、装置及系统 |
CN110341700A (zh) * | 2018-04-03 | 2019-10-18 | 福特全球技术公司 | 使用深度强化学习的自动导航 |
CN108803615A (zh) * | 2018-07-03 | 2018-11-13 | 东南大学 | 一种基于深度强化学习的虚拟人未知环境导航算法 |
CN110376594A (zh) * | 2018-08-17 | 2019-10-25 | 北京京东尚科信息技术有限公司 | 一种基于拓扑图的智能导航的方法和系统 |
CN109682392A (zh) * | 2018-12-28 | 2019-04-26 | 山东大学 | 基于深度强化学习的视觉导航方法及系统 |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111679577A (zh) * | 2020-05-27 | 2020-09-18 | 北京交通大学 | 一种高速列车的速度跟踪控制方法和自动驾驶控制系统 |
CN111679577B (zh) * | 2020-05-27 | 2021-11-05 | 北京交通大学 | 一种高速列车的速度跟踪控制方法和自动驾驶控制系统 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112068549B (zh) * | 2020-08-07 | 2022-12-16 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN114252071A (zh) * | 2020-09-25 | 2022-03-29 | 财团法人工业技术研究院 | 自走车导航装置及其方法 |
CN112347961A (zh) * | 2020-11-16 | 2021-02-09 | 哈尔滨工业大学 | 水流体内无人平台智能目标捕获方法及系统 |
CN112347961B (zh) * | 2020-11-16 | 2023-05-26 | 哈尔滨工业大学 | 水流体内无人平台智能目标捕获方法及系统 |
CN112857370A (zh) * | 2021-01-07 | 2021-05-28 | 北京大学 | 一种基于时序信息建模的机器人无地图导航方法 |
CN113011081B (zh) * | 2021-02-02 | 2022-03-22 | 电子科技大学 | 一种基于元学习的无人机导航方法 |
CN113011081A (zh) * | 2021-02-02 | 2021-06-22 | 电子科技大学 | 一种基于元学习的无人机导航方法 |
CN112947081A (zh) * | 2021-02-05 | 2021-06-11 | 浙江大学 | 基于图像隐变量概率模型的分布式强化学习社交导航方法 |
CN112873211B (zh) * | 2021-02-24 | 2022-03-11 | 清华大学 | 一种机器人人机交互方法 |
CN112873211A (zh) * | 2021-02-24 | 2021-06-01 | 清华大学 | 一种机器人人机交互方法 |
CN112857373B (zh) * | 2021-02-26 | 2024-02-20 | 哈尔滨工业大学 | 一种最小化无用动作的节能性无人车路径导航方法 |
CN112857373A (zh) * | 2021-02-26 | 2021-05-28 | 哈尔滨工业大学 | 一种最小化无用动作的节能性无人车路径导航方法 |
CN113093727A (zh) * | 2021-03-08 | 2021-07-09 | 哈尔滨工业大学(深圳) | 一种基于深度安全强化学习的机器人无地图导航方法 |
CN113184767A (zh) * | 2021-04-21 | 2021-07-30 | 湖南中联重科智能高空作业机械有限公司 | 高空作业平台导航方法、装置、设备及高空作业平台 |
CN113268859B (zh) * | 2021-04-25 | 2023-07-14 | 北京控制工程研究所 | 航天器在轨博弈的仿真模拟方法、系统及存储介质 |
CN113268859A (zh) * | 2021-04-25 | 2021-08-17 | 北京控制工程研究所 | 航天器在轨博弈的仿真模拟方法、系统及存储介质 |
CN113156959A (zh) * | 2021-04-27 | 2021-07-23 | 东莞理工学院 | 复杂场景自主移动机器人自监督学习及导航方法 |
CN113156959B (zh) * | 2021-04-27 | 2024-06-04 | 东莞理工学院 | 复杂场景自主移动机器人自监督学习及导航方法 |
CN113359449A (zh) * | 2021-06-04 | 2021-09-07 | 西安交通大学 | 基于强化学习的航空发动机双参数指数劣化维护方法 |
CN113392584A (zh) * | 2021-06-08 | 2021-09-14 | 华南理工大学 | 基于深度强化学习和方向估计的视觉导航方法 |
CN113625718A (zh) * | 2021-08-12 | 2021-11-09 | 上汽大众汽车有限公司 | 车辆的行驶路径规划方法 |
CN113625718B (zh) * | 2021-08-12 | 2023-07-21 | 上汽大众汽车有限公司 | 车辆的行驶路径规划方法 |
CN113902830A (zh) * | 2021-12-08 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 轨迹路网生成方法 |
CN114355980A (zh) * | 2022-01-06 | 2022-04-15 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN114355980B (zh) * | 2022-01-06 | 2024-03-08 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN114526738B (zh) * | 2022-01-25 | 2023-06-16 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
CN114526738A (zh) * | 2022-01-25 | 2022-05-24 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
WO2023142780A1 (zh) * | 2022-01-25 | 2023-08-03 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
CN114460943B (zh) * | 2022-02-10 | 2023-07-28 | 山东大学 | 服务机器人自适应目标导航方法及系统 |
CN114460943A (zh) * | 2022-02-10 | 2022-05-10 | 山东大学 | 服务机器人自适应目标导航方法及系统 |
CN114413910A (zh) * | 2022-03-31 | 2022-04-29 | 中国科学院自动化研究所 | 视觉目标导航方法及装置 |
CN115805595A (zh) * | 2023-02-09 | 2023-03-17 | 白杨时代(北京)科技有限公司 | 机器人导航方法、装置及杂物清理机器人 |
CN115805595B (zh) * | 2023-02-09 | 2023-12-26 | 白杨时代(北京)科技有限公司 | 机器人导航方法、装置及杂物清理机器人 |
CN116661456A (zh) * | 2023-06-21 | 2023-08-29 | 上海海事大学 | 一种基于a3c的agv防冲突路径规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111141300A (zh) | 基于深度强化学习的智能移动平台无地图自主导航方法 | |
CN109635917B (zh) | 一种多智能体合作决策及训练方法 | |
CN111061277B (zh) | 一种无人车全局路径规划方法和装置 | |
CN110703766B (zh) | 一种基于迁移学习策略深度q网络的无人机路径规划方法 | |
CN113110509B (zh) | 一种基于深度强化学习的仓储系统多机器人路径规划方法 | |
EP3480741A1 (en) | Reinforcement and imitation learning for a task | |
CN105137967B (zh) | 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法 | |
CN106970615A (zh) | 一种深度强化学习的实时在线路径规划方法 | |
CN109682392A (zh) | 基于深度强化学习的视觉导航方法及系统 | |
CN107479547B (zh) | 基于示教学习的决策树行为决策算法 | |
CN109964237A (zh) | 图像深度预测神经网络 | |
CN109885891A (zh) | 一种智能车gpu并行加速轨迹规划方法 | |
CN110874578A (zh) | 一种基于强化学习的无人机视角车辆识别追踪方法 | |
CN111461325B (zh) | 一种用于稀疏奖励环境问题的多目标分层强化学习算法 | |
EP3671555A1 (en) | Object shape regression using wasserstein distance | |
CN113110052B (zh) | 一种基于神经网络和强化学习的混合能量管理方法 | |
CN115016534A (zh) | 一种基于记忆增强学习的无人机自主避障导航方法 | |
CN110281949A (zh) | 一种自动驾驶统一分层决策方法 | |
WO2022023385A1 (en) | Training action selection neural networks using auxiliary tasks of controlling observation embeddings | |
CN113657292A (zh) | 一种基于深度强化学习的车辆自动循迹驾驶方法 | |
CN112595326A (zh) | 一种融合先验知识的改进Q-learning路径规划算法 | |
Ejaz et al. | Autonomous visual navigation using deep reinforcement learning: An overview | |
CN117011342A (zh) | 一种注意力增强的时空Transformer视觉单目标跟踪方法 | |
Liu et al. | Forward-looking imaginative planning framework combined with prioritized-replay double DQN | |
Wang et al. | Multi-objective end-to-end self-driving based on Pareto-optimal actor-critic approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |