CN109871011B - 一种基于预处理层与深度强化学习的机器人导航方法 - Google Patents

一种基于预处理层与深度强化学习的机器人导航方法 Download PDF

Info

Publication number
CN109871011B
CN109871011B CN201910037930.7A CN201910037930A CN109871011B CN 109871011 B CN109871011 B CN 109871011B CN 201910037930 A CN201910037930 A CN 201910037930A CN 109871011 B CN109871011 B CN 109871011B
Authority
CN
China
Prior art keywords
virtual
environment
reinforcement learning
information
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910037930.7A
Other languages
English (en)
Other versions
CN109871011A (zh
Inventor
许杰雄
于刚
黄思静
张畅
帅凯鹏
蒋境伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201910037930.7A priority Critical patent/CN109871011B/zh
Publication of CN109871011A publication Critical patent/CN109871011A/zh
Application granted granted Critical
Publication of CN109871011B publication Critical patent/CN109871011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种基于预处理层与深度强化学习的机器人导航方法,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现实环境中设置现实预处理层;通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航。本发明解决基于深度强化学习的导航算法从虚拟环境迁移至现实环境的泛化性能差的问题,将预处理层与深度强化学习结合,通过预处理层与深度强化学习接收环境信息并输出正确的动作,进而使搭载上述方法的机器人获得导航能力,并具有很强的从虚拟环境迁移至现实环境的能力,可应用于机器人导航领域。

Description

一种基于预处理层与深度强化学习的机器人导航方法
技术领域
本发明涉及机器人导航技术领域,尤其涉及一种基于预处理层与深度强化学习的机器人导航方法。
背景技术
在过去的二十年中,机器人的身影在许多人类活动中变得越来越常见,占据越 来越重要的地位。
然而,由于环境的复杂和不可预测,大部分机器人是通过手动或半自动操作实现其导航。虽然为应对不可预见的环境情况提供了可能性。但需要人类来理解传感器获 得的感知数据并做出决策驱动机器人。因此,移动机器人需要具有更高水平的智能和 自主性的导航系统,以允许其在复杂环境中自主做出最佳决策。
在深度强化学习中,机器人通过与环境的交互,即通过在环境中执行动作同时接收奖励,促进完成任务目标就给予正反馈,否则给予负反馈,并且不停的重复这一过 程来进行训练,其训练目标是为了能在当前环境下,选择出能得到最大化奖励的动作。
虽然一些论文显示了在真实机器人中使用深度强化学习进行导航能力训练的可行性,但这种方法的成本非常的大,因为在物理空间中运行机器人系统进行训练是非 常耗时的,需要数十万次执行任务的数据集和几个月的时间。因此科学家们经常利用 虚拟环境训练代替真实环境训练。使用虚拟环境训练平台的主要步骤是在虚拟环境中 训练真实机器人的虚拟模型,直到学习到其所需的能力,然后将知识迁移至真实环境 中的真实机器人身上。
但上述基于深度强化学习模型的导航系统有一个致命的问题,即机器人训练完毕后,在虚拟环境中具有一定的导航能力。但在将虚拟环境中的训练完成好的导航算法 迁移至现实环境中时,由于虚拟环境与现实环境差别过大,会使机器人的导航性能急 剧下降。也会出现如图4所示的由于虚拟环境与现实环境差别过大(其灰度值矩阵差 别过大),深度强化学习在移植至现实环境中时,获得的现实环境的环境信息与虚拟环 境有着非常大的差异,更会出现图5所示的使深度强化学习的性能下降至一个非常严 重的地步,阻止了深度强化学习的迁移性能与在现实环境中的实用性。
发明内容
针对现有技术中存在的缺陷或不足,本发明提供一种基于预处理层与深度强化学习的机器人导航方法解决基于深度强化学习的导航算法从虚拟环境迁移至现实环境的 泛化性能差的问题,将预处理层与深度强化学习结合,通过预处理层与深度强化学习 接收环境信息并输出正确的动作,进而使搭载上述方法的机器人获得导航能力,并具 有很强的从虚拟环境迁移至现实环境的能力,可应用于机器人导航领域。
为了实现上述目的,本发明采取的技术方案为提供一种基于预处理层与深度强化学习的机器人导航方法,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现 实环境中设置现实预处理层;
通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航。
作为本发明的进一步改进,该方法包括如下步骤:
S100,构建虚拟训练环境;
S200,在构建的虚拟训练环境中训练;
S300,构建现实环境;
S400,在现实环境中机器人执行导航过程。
作为本发明的进一步改进,所述步骤S100中构建虚拟训练环境,包括如下步骤:
S101,搭建至少包含导航目标、障碍物以及搭载虚拟传感器的虚拟机器人所在的虚拟环境;
S102,根据虚拟环境中的导航目标和障碍物的场景设计虚拟预处理层,用于提取视野中每个物体的类别信息、占据面积大小信息以及左右位置信息;
S103,根据虚拟预处理层提取并输出的信息结合机器人的运动机构,设计深度强化学习框架;
所述步骤S200中构建虚拟训练环境,包括如下步骤:
S201,虚拟预处理层从虚拟传感器获得的环境图片中提取出每个物体包含物体类别、占据面积大小、左右位置的信息,送至深度强化学习;
S202,根据目标与障碍物的面积进行奖励的计算,判断任务完成情况,输出任务完成或任务失败信号,送至深度强化学习;
S203,深度强化学习根据目标与障碍物信息输出动作,并结合奖励信息进行网络调优,从网络输出端到输入端进行梯度反向传播,循环至完成训练。
作为本发明的进一步改进,在步骤S102中设计虚拟预处理层后,先对虚拟传感 器拍摄的图片进行高斯滤波,再选取使图片中物体与背景分离的阈值T对滤波后的图 片进行二值化处理;
其中,对虚拟传感器拍摄的图片进行高斯滤波,通过如下公式实现:
Figure BDA0001945922610000031
其中,(x,y)分别表示当前的像素点坐标值,σ表示像素点的方差;
对滤波后的图片通过如下公式:
Figure BDA0001945922610000032
进行二值化处理。
作为本发明的进一步改进,在步骤S300构建现实环境时,将在虚拟训练环境中 训练完成的深度强化学习权重信息移植至现实环境的深度强化学习中。
作为本发明的进一步改进,深度强化学习中时,根据式h(x)=WTx+ b和公式
Figure BDA0001945922610000033
交叠前向反馈进行计算输出动作选项;其中,x表示每一层的输 入,WT表示每一层的权重数值,b表示每一层的偏置,exp(x)表示对网络每一层作指 数运算。
作为本发明的进一步改进,深度强化学习调优中,利用公式
L(θ)=Eπ[(r+γmaxQ(s’,a’;θ)-Q(s,a;θ))2]进行损失函数计算;
再利用公式
Figure BDA0001945922610000034
进行梯度反向传播 更新网络参数;
其中,Q(s,a;θ)表示动作值函数,表示在当前策略信息下,状态与动作代表的收益值,
Figure BDA0001945922610000035
表示收益值函数对当前策略的梯度,用于反向传播更新策略。
本发明的有益效果是
1、本发明可以通过预处理层与深度强化学习接收环境信息并输出正确的动作,进而使搭载上述方法的机器人获得导航能力。同时具有很强的从虚拟环境迁移至现实 环境的能力。可应用于机器人导航领域。针对在无环境地图的情况下基于视觉对指定 目标进行有效导航与避障上述问题以及解决基于深度强化学习的导航算法从虚拟环境 迁移至现实环境的泛化性能差的问题。
2、本发明中在虚拟环境训练过程中,预处理层接收机器人传感器获取的环境图片,提取目标与障碍信息、奖励信息以及是否完成任务信息。深度强化学习部分接收 信息后输出将执行的动作,虚拟机器人在虚拟环境中执行动作。同时深度强化学习根 据奖励信息进行训练,最后能选择出得到最大化奖励的动作。虚拟机器人搭载上述方 法通过在计算机软件中的虚拟的室内环境中的不断训练,直至在虚拟环境中获得导航 能力。在现实环境执行过程中,将虚拟环境的预处理层替换为针对现实环境设计的预 处理层,再将深度强化学习移植至现实环境的机器人导航系统上。由于针对现实环境 设计的预处理层可以有效输出与具有相同意义的虚拟环境信息相同的信息,故深度强 化学习可以具有优良的从虚拟环境迁移至现实环境的迁移性能,实现现实环境中机器 人的导航性能。
附图说明
图1为预处理层与深度强化学习方法结构。
图2为本发明的导航方法的流程图。
图3为本发明的虚拟训练环境示意图。
图4为虚拟环境图像与现实环境图像的灰度矩阵图。
图5为传统深度强化学习从虚拟环境迁移到现实环境示意图。
图6为预处理层与深度强化学习从虚拟环境迁移到现实环境示意图。
图7为预处理层处理图片示意图。
图8为虚拟环境图像经过预处理层处理后的目标与障碍物信息与奖励信息。
图9虚拟环境下深度强化学习训练完成后,机器人执行一次任务过程。
图10为实施例2的预处理层与深度强化学习在虚拟环境中导航任务训练过程收敛步数,横坐标是训练回合,纵坐标是执行一次任务所需的步数。
图11为实施例2的预处理层与深度强化学习在现实环境中执行导航任务步数, 横坐标是执行任务回合,纵坐标是执行一次任务所需的步数。
图12为实施例2的导航过程示意图。
具体实施方式
下面结合附图1-图11说明及具体实施方式对本发明进一步说明。
本发明的基于预处理层与深度强化学习的机器人导航方法是分为预处理层单元和深度强化学习单元;
在预处理层单元,先构建虚拟训练环境,在虚拟环境训练过程中设计虚拟预处理层,虚拟预处理层接收传感器获取的虚拟的环境图片,提取目标与障碍信息、奖励信 息以及是否完成任务信息,传输至深度强化学习单元。
在深度强化学习单元,接收预处理层单元的信息后输出将要执行的动作指令,虚拟机器人在虚拟环境中接收动作指令并执行动作;同时深度强化学习单元根据奖励信 息进行训练,选择出得到最大化奖励的动作,进行训练。
技术原理是:虚拟机器人通过在虚拟环境(构建的虚拟训练环境)中的不断训练,直至虚拟机器人在虚拟环境中获得导航能力。在现实环境执行过程中,先将虚拟环境 的虚拟预处理层替换为针对现实环境设计的现实预处理层,采用现实预处理层与虚拟 预处理层输出具有相同意义的信息的方法,再将在虚拟训练环境中的深度强化学习结 果移植至现实环境的机器人导航系统上,使得深度强化学习可以具有优良的从虚拟环 境迁移至现实环境的迁移性能,实现现实环境中机器人的导航性能。其中,现实预处 理层与虚拟预处理层输出具有相同意义的信息,图6所示是指针对现实环境设计的现 实预处理层可以有效输出的信息,与虚拟预处理层接收传感器获取的虚拟的环境图片 提取除的目标与障碍信息、奖励信息以及是否完成任务信息相同。
进一步的为更好的陈述本发明的导航方法的过程,具体是如图1和图2所示,分 为如下步骤:
S100,构建虚拟训练环境;
S200,在虚拟训练环境的训练;
S300,构建现实环境;
S400,在现实环境中机器人执行导航过程。
每个步骤更具体的过程是:
(S100)构建虚拟训练环境,具体包括:
S101,搭建至少包含导航目标、障碍物以及搭载虚拟传感器的虚拟机器人所在的虚拟环境;
S102,根据虚拟环境中的导航目标和障碍物的场景设计虚拟预处理层,用于提取视野中每个物体的类别信息、占据面积大小信息以及左右位置信息(将视野进行纵向 二等分来区分为左右位置)。
S103,根据虚拟预处理层提取并输出的信息结合机器人的运动机构,设计深度强化学习框架。
(S200)在虚拟训练环境的训练,是指在构建的虚拟训练环境中,对虚拟机器人 模型中的深度强化学习进行训练,输出信息供虚拟机器人执行;也是指在虚拟环境中 虚拟预处理层处理环境图片,并提取目标与障碍物信息及奖励信息,在深度强化学习 中根据目标与障碍物信息输出动作,结合奖励信息进行网络调优;更详细的过程是包 括如下的步骤:
S201,虚拟预处理层处理环境图片,具体是虚拟预处理层从虚拟传感器获得的环境图片中提取出每个物体包含物体类别、在图片中占据面积大小、左右位置的信息;
S202,提取目标与障碍物信息及奖励信息;
提取目标与障碍物信息时,根据预先设定好的目标类别信息与障碍物类别信息分别选取其面积大小与左右位置。面积大小即物体在图片中所占的面积大小,若物体在 图片中所占面积越大,则说明机器人靠近物体,否则反之。左右位置意味着物体在其 视野中的左右位置。
提取奖励信息时,根据目标与障碍物的面积进行奖励的计算,若目标的面积超过一定大小(任务成功设定值),则认为机器人到达目标附近,输出正反馈,判断为机器 人执行任务成功,输出任务成功信号;若障碍物的面积超过一定大小(任务失败设定 值),则认为机器人碰到障碍,输出负反馈,判断为机器人执行任务失败,输出任务失 败信号;将上诉处理后的环境信息与任务完成信息送至深度强化学习中。
S203,深度强化学习根据目标与障碍物信息输出动作,结合奖励信息进行网络调优:
深度强化学习根据收到的目标与障碍物的大小、左右信息进行神经网络运算输出动作选项,虚拟机器人根据输出的动作选项执行动作,同时根据奖励信息进行判断上 次执行的动作的正确程度,即当前动作对应的奖励值与理论计算的奖励值的差的平方, 并从网络输出端到输入端进行梯度反向传播,完成一次训练。
S204,虚拟机器人执行动作后,通过虚拟传感器接收到新的环境图片,再进行上述步骤S201-S203,周而复始,直至执行任务成功或执行任务失败,则计为完成一次任 务。通过多次的完成任务不断进行训练调优,直至虚拟机器人能够稳定的执行任务成 功,才认为是训练成功。
(S300)构建现实环境
S301,搭建包含导航目标、障碍物以及搭载真实传感器的真实机器人的现实环境。
S302,根据现实环境中导航目标以及障碍物场景设计现实预处理层,现实预处理层可以提取现实视野中每个物体的类别信息,大小信息以及左右信息(将视野进行纵 向二等分来区分为左右位置)。
S303,将深度强化学习在虚拟环境训练完成的网络权重信息,移植至现实环境的深度强化学习中。
(S400)在现实环境中机器人执行导航过程
S401,现实环境图片经过预处理层处理:
现实预处理层需要从实际传感器获得的现实环境图片中提出每个物体的信息,物体的信息至少包括:物体类别,占据面积大小及左右位置。
S402,提取目标与障碍物信息:
根据预先设定好的现实环境中的目标类别信息与障碍物类别信息选取目标物体的面积大小与左右位置。其中,面积大小即目标物体在图片中所占的面积大小,若物 体在图片中所占面积越大,则说明机器人靠近物体,否则反之。左右位置意味着物体 在其视野中的左右位置。
S403,深度强化学习根据目标与障碍物信息输出动作:
将虚拟环境训练完成的深度强化学习权重信息移植至现实环境的深度强化学习中,深度强化学习根据收到现实环境中的目标与障碍物的面积大小、左右位置信息进 行神经网络运算输出动作选项,真实机器人(现实环境中的机器人)执行动作。
S404,真实机器人执行动作后,通过真实传感器接收到新的环境图片,再进行上述步骤,周而复始,直至执行任务成功或执行任务失败。
具体实施例1
针对本发明的导航方法,结合图2~图12对本发明在实际应用及计算过程进一 步做具体的实施例说明:
构建如图3所示的虚拟训练环境,在虚拟训练环境中虚拟传感器采用了RGB相机,虚拟机器人采用虚拟TURTLEBOT模型,虚拟环境采用GAZEBO(仿真机器人软件),通信 层采用了ROS多电脑通信方式,设定印有数字9的正方块为障碍,设定印在墙上的数字 2为目标,4和8分别为左右位置信息。
考虑到在训练过程中存在如图4所示的虚拟环境与现实环境差别过大(其灰度值矩阵差别过大),深度强化学习在移植至现实环境中时,获得的现实环境的环境信息与 虚拟环境有着非常大的差异,会使深度强化学习的性能下降至一个非常严重的地步, 阻止了深度强化学习的迁移性能与在现实环境中的实用性,犹如图5所示的传统深度 强化学习从虚拟环境迁移到现实环境出现的问题。针对此问题,本发明采用了图6所 示处理过程,对虚拟环境与现实环境分别进行设计预处理层分别(可分为虚拟预处理 层和现实预处理层,也可以虚拟环境与现实环境共用一个预处理层),使预处理层可以 分别处理虚拟环境与现实环境的信息。如本发明实施例图6所示,使预处理层对具有 相同意义的虚拟环境与现实环境的环境信息可以输出相同的信息。
在如图7所示的虚拟预处理层中,先利用公式(1)对虚拟传感器拍摄的图片进行高斯滤波,
Figure BDA0001945922610000081
其中,(x,y)分别表示当前的像素点坐标值,σ表示像素点的方差,再选取使图 片中物体与背景分离的阈值T对滤波后的图片进行公式(2)二值化处理,
Figure BDA0001945922610000082
经过二值化处理是为了得到黑白图片,利于后面找到目标物体与障碍物体并进行分割。虚拟预处理层对到黑白图片进行连通区域检测,将连通的白色区域进行截图框 选,进行子图片整形与子图片识别,以获得其子图片面积大小信息以及左右信息。而 输入图像经过预处理层的输出结果可以设置成如图8所示的三步,获取虚拟环境图像 经过预处理层处理后的目标与障碍物信息与奖励信息。
在对深度强化学习进行网络结构设计时,考虑到目标障碍物信息以及机器人动作机构组成,为对应上述导航情况,对现实预处理层与真实机器人的条件进行状态空间 设计以及动作空间设计。其中,状态空间S设计为:
S=[Sgoal,Ogoal,Dgoal,Sobstacle,Oobstacle,Dobstacle] (3)
Sgoal表示目标的面积,Ogoal表示目标的左右方向,Dgoal表示目标的消失位,Sobstacle表示障碍的面积,Oobstacle表示障碍的左右方向,Dobstacle表示障碍的消失位。
动作空间A设计为:
A=[as,al,ar] (4)
其中,as表示前进0.5米,al左转固定15度,ar右转15度。
奖励函数设置为:
Figure BDA0001945922610000091
完成任务函数设置为:
Figure BDA0001945922610000092
Sobstacle>20是指目标在图片中面积超过20个像素点单位,则给予数值为1的正反馈;若障碍物面积Sgoal超过20个像素点单位,则给予数值为-1的负反馈;这两种情况视 为完成任务,返回True的完成任务信号。否则给予数值为-0.01的负反馈,返回False的 未完成任务信号。
由于深度强化学习是一个全连接的网络结构,所以在实施例中根据式(7)与公式(8)交叠前向反馈进行计算输出动作选项:
h(x)=WTx+b (7)
Figure BDA0001945922610000093
其中,在深度强化学习中,x表示每一层的输入,WT表示每一层的权重数值,b表 示每一层的偏置,exp(x)表示对网络每一层作指数运算。
而在深度强化学习调优中,则是利用公式(9)进行损失函数计算,最后利用公式(10)进行梯度反向传播更新网络参数。
L(θ)=Eπ[(r+γmaxQ(s’,a’;θ)-Q(s,a;θ))2] (9)
Figure BDA0001945922610000094
其中,Q(s,a;θ)表示动作值函数,表示在当前策略信息下,状态与动作代表的收益值。
Figure BDA0001945922610000095
表示收益值函数对当前策略的梯度,用于反向传播更新策略。
在虚拟环境中训练完毕后,将训练完成的网络权重参数移植到现实环境中,同时针对现实环境进行预处理层的设计,设计过程与虚拟环境中预处理层设计过程相似, 不再赘述。现实执行任务环境中不再进行网络调优。
具体实施例2
图10-图12具体应用本发明的导航方法的另一个具体的实施例。
实施例2是基于实施例1构建的虚拟训练环境,同样虚拟传感器采用了RGB相机,虚拟机器人采用虚拟TURTLEBOT模型,虚拟环境采用GAZEBO(仿真机器人软件),通信 层采用了ROS多电脑通信方式,将带有“火”图片的正方块设定为障碍,设定印在白 纸上被救助者为目标,现实机器人为救援者。
采用与实施例1相同的方法对救援机器人进行训练,观察统计得到如图10所示在虚拟环境下的虚拟机器人导航任务的训练迭代步数,可以看出随着训练回合的增加, 机器人完成任务的步数逐渐减少,直至约120000回合时深度强化学习收敛。
将在虚拟环境中深度强化学习的结果迁移至现实环境中,具体是虚拟环境中训练完毕后,将训练完成的网络权重参数移植到现实环境中,得到如图11所示的为现实环 境下的机器人迁移后的完成导航任务的所需步数和救援导航轨迹如图12所示,由此可 以看出,采用本发明的方法解决基于深度强化学习的导航算法从虚拟环境迁移至现实 环境的泛化性能差的问题,具有很好的导航性能。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说, 在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本 发明的保护范围。

Claims (2)

1.一种基于预处理层与深度强化学习的机器人导航方法,其特征在于,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现实环境中设置现实预处理层;
通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航;
该方法包括如下步骤:
S100,构建虚拟训练环境;
S200,在构建的虚拟训练环境中进行训练;
S300,构建现实环境;
S400,在现实环境中机器人执行导航过程;
其中,所述步骤S100中构建虚拟训练环境,包括如下步骤:
S101,搭建至少包含导航目标、障碍物以及搭载虚拟传感器的虚拟机器人所在的虚拟环境;
S102,根据虚拟环境中的导航目标和障碍物的场景设计虚拟预处理层,用于提取视野中每个物体的类别信息、占据面积大小信息以及左右位置信息;
S103,根据虚拟预处理层提取并输出的信息结合机器人的运动机构,设计深度强化学习框架;
所述步骤S200在构建的虚拟训练环境中进行训练,是指在构建的虚拟训练环境中,对虚拟机器人模型中的深度强化学习进行训练,输出信息供虚拟机器人执行,其过程包括如下步骤:
S201,虚拟预处理层从虚拟传感器获得的环境图片中提取出每个物体的物体类别、占据面积大小和左右位置的信息,送至深度强化学习;
S202,根据目标与障碍物的面积进行奖励的计算,判断任务完成情况,输出任务完成或任务失败信号,送至深度强化学习;
S203,深度强化学习根据目标与障碍物信息输出动作,供虚拟机器人模型执行以获得奖励信息,并结合奖励信息进行网络调优,从网络输出端到输入端进行梯度反向传播,循环至完成训练。
2.根据权利要求1所述 的基于预处理层与深度强化学习的机器人导航方法,其特征在于,在步骤S300构建现实环境时,构建能提取现实环境图片中物体信息的现实预处理层,并将在虚拟训练环境中训练完成的深度强化学习权重信息移植至现实环境的深度强化学习中,进行调优。
CN201910037930.7A 2019-01-15 2019-01-15 一种基于预处理层与深度强化学习的机器人导航方法 Active CN109871011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910037930.7A CN109871011B (zh) 2019-01-15 2019-01-15 一种基于预处理层与深度强化学习的机器人导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910037930.7A CN109871011B (zh) 2019-01-15 2019-01-15 一种基于预处理层与深度强化学习的机器人导航方法

Publications (2)

Publication Number Publication Date
CN109871011A CN109871011A (zh) 2019-06-11
CN109871011B true CN109871011B (zh) 2022-03-11

Family

ID=66917715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910037930.7A Active CN109871011B (zh) 2019-01-15 2019-01-15 一种基于预处理层与深度强化学习的机器人导航方法

Country Status (1)

Country Link
CN (1) CN109871011B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110315544B (zh) * 2019-06-24 2022-10-14 南京邮电大学 一种基于视频图像演示的机器人操作学习方法
CN110672101B (zh) * 2019-09-20 2021-09-28 北京百度网讯科技有限公司 导航模型训练方法、装置、电子设备及存储介质
CN111260026B (zh) * 2020-01-10 2022-07-05 电子科技大学 一种基于元强化学习的导航迁移方法
CN112767373B (zh) * 2021-01-27 2022-09-02 大连理工大学 一种基于单目相机的机器人室内复杂场景避障方法
CN112947081A (zh) * 2021-02-05 2021-06-11 浙江大学 基于图像隐变量概率模型的分布式强化学习社交导航方法
CN112906888B (zh) * 2021-03-02 2023-05-09 中国人民解放军军事科学院国防科技创新研究院 一种任务执行方法及装置、电子设备和存储介质
CN113110459A (zh) * 2021-04-20 2021-07-13 上海交通大学 一种多足机器人运动规划方法
CN113552883B (zh) * 2021-07-19 2024-05-14 吉林大学 基于深度强化学习的地面无人车自主驾驶方法及系统
CN117636900B (zh) * 2023-12-04 2024-05-07 广东新裕信息科技有限公司 一种基于音频特征形状匹配的乐器演奏质量评价方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996177B2 (en) * 2013-03-15 2015-03-31 Brain Corporation Robotic training apparatus and methods
US11347054B2 (en) * 2017-02-16 2022-05-31 Magic Leap, Inc. Systems and methods for augmented reality
CN106970615B (zh) * 2017-03-21 2019-10-22 西北工业大学 一种深度强化学习的实时在线路径规划方法
US10234848B2 (en) * 2017-05-24 2019-03-19 Relativity Space, Inc. Real-time adaptive control of additive manufacturing processes using machine learning
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN108182438B (zh) * 2018-01-17 2020-09-25 清华大学 基于深度强化学习的图二值特征学习方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Approach to Graph-Based Grid Map Segmentation for Robot Global Localization;Bingrui Liu 等;《2018 IEEE International Conference on Mechatronics and Automation (ICMA)》;20181008;第1812-1817页 *
Virtual-to-real Deep Reinforcement Learning: Continuous Control of Mobile Robots for Mapless Navigation;Tai, L 等;《2017 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS)》;20171231;第31-36页 *

Also Published As

Publication number Publication date
CN109871011A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109871011B (zh) 一种基于预处理层与深度强化学习的机器人导航方法
Ruan et al. Mobile robot navigation based on deep reinforcement learning
CN111587408B (zh) 机器人导航和对象跟踪
CN110084307B (zh) 一种基于深度强化学习的移动机器人视觉跟随方法
CN113495578B (zh) 一种基于数字孪生式训练的集群航迹规划强化学习方法
Zhou et al. A deep Q-network (DQN) based path planning method for mobile robots
CN112629542B (zh) 基于ddpg和lstm的无地图机器人路径导航方法及系统
JP2020061144A (ja) トラッキングネットワークを含むcnnを使用して物体をトラッキングする方法、及びそれを利用した装置{method for tracking object by using convolutional neural network including tracking network and computing device using the same}
JP2020119527A (ja) レーンマスク(Lane Mask)を使用して後処理なしに入力イメージに含まれた一つ以上の車線を検出する方法及び装置、並びにそれを利用したテスト方法及びテスト装置{METHOD AND DEVICE FOR LANE DETECTION WITHOUT POST−PROCESSING BY USING LANE MASK, AND TESTING METHOD, AND TESTING DEVICE USING THE SAME}
WO2022160430A1 (en) Method for obstacle avoidance of robot in the complex indoor scene based on monocular camera
CN111190981A (zh) 一种三维语义地图的构建方法、装置、电子设备及存储介质
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及系统
JP6941386B2 (ja) 自律走行の安全性を提供するための方法及び装置
JP7110884B2 (ja) 学習装置、制御装置、学習方法、及び学習プログラム
WO2022229657A1 (en) Method and system for robot navigation in unknown environments
JP6810432B2 (ja) 物体の条件に応じてモードを切り換えることができるcnn基盤で軍事目的、スマートフォン又は仮想走行に使用される疑似3dバウンディングボックスを検出する方法及びこれを利用した装置
Li et al. Vg-swarm: A vision-based gene regulation network for uavs swarm behavior emergence
Zhao et al. A multi-robot cooperative exploration algorithm considering working efficiency and working load
CN117406762A (zh) 一种基于分段式强化学习的无人机远程控制算法
CN114355915B (zh) 一种基于深度强化学习的agv路径规划
Cao et al. Unsupervised Visual Odometry and Action Integration for PointGoal Navigation in Indoor Environment
Wang et al. Behavioral decision-making of mobile robot in unknown environment with the cognitive transfer
CN110673642B (zh) 无人机着陆控制方法、装置、计算机设备及存储介质
Abdalmanan et al. 2D LiDAR based reinforcement learning for multi-target path planning in unknown environment
CN112862840A (zh) 图像分割方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant