CN108255182B - 一种基于深度强化学习的服务机器人行人感知避障方法 - Google Patents

一种基于深度强化学习的服务机器人行人感知避障方法 Download PDF

Info

Publication number
CN108255182B
CN108255182B CN201810091022.1A CN201810091022A CN108255182B CN 108255182 B CN108255182 B CN 108255182B CN 201810091022 A CN201810091022 A CN 201810091022A CN 108255182 B CN108255182 B CN 108255182B
Authority
CN
China
Prior art keywords
robot
pedestrian
reinforcement learning
obstacle avoidance
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810091022.1A
Other languages
English (en)
Other versions
CN108255182A (zh
Inventor
赵忠华
鲁兴龙
曹一文
晏懿琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201810091022.1A priority Critical patent/CN108255182B/zh
Publication of CN108255182A publication Critical patent/CN108255182A/zh
Application granted granted Critical
Publication of CN108255182B publication Critical patent/CN108255182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种基于深度强化学习的服务机器人行人感知避障方法,涉及深度学习和服务机器人避障领域。该方法在训练阶段:首先,使用ORCA算法生成训练数据。然后,随机生成实验场景,使用初始化后的强化学习模型与环境交互生成新的训练数据,并融合进原有训练数据。最后,在新的训练数据上利用SGD算法训练网络,得到最终的网络模型。该方法在执行阶段:通过激光雷达获取周围行人的状态,根据训练好的模型和奖励函数计算预测状态,选择获得最大奖励的动作作为输出并执行。本发明具有很强的实时性和适应性,在行人环境下,可以使机器人遵守行人的右行规则,规划出高效、安全、自然的路径,提升了服务机器人的智能性和社交性。

Description

一种基于深度强化学习的服务机器人行人感知避障方法
技术领域
本发明涉及深度学习和服务机器人避障领域,尤其涉及一种基于深度强化学习的服务机器人行人感知避障方法。
背景技术
随着劳动力成本的提高,机器人开始在各个领域取代人类劳动者,特别是公共服务领域,如外卖机器人、快递机器人、商场导购机器人等。这些机器人面临的场景一般有很多高动态变化的障碍物,如行人。如何使服务机器人能够在行人环境下自主导航,完成高效、安全、自然躲避行人障碍物,成为限制服务机器人得到更加广泛应用的关键问题。在行人环境下,传统的避障算法适应性变差,有时候会表现出急停、急转等不安全的行为,尤其是当机器人的移动速度达到行人步行速度的时候。
最近很多研究者开始尝试使用强化学习的方法来解决机器人的控制问题,特别是机器人的自主避障问题,基于学习的方法可以使为机器人规划出更加自然、连续的路径。公开专利CN106970615A提出了一种深度强化学习的实时在线路径规划方法,利用深度学习方法来得到图像的高层语义信息,并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。该发明使用从图像到结果端到端的训练方法,首先训练不容易收敛,即收敛速度很慢或者不收敛。另外,该发明没有考虑行人环境下如何与行人进行自然、安全的交互。不能适用于商场、机场等行人环境。
机器人在行人环境下的避障算法是当前研究的重点也是难点,最大的困难在于行人自身的避障机制还尚未研究清楚,即什么时间采用什么动作躲避周围什么状态的行人,因此很难对行人的避障机制进行建模。因此传统的避障算法难以应对这样场景。另外,对于深度强化学习,一般使用端到端的训练方式通常比较难收敛,或者收敛很慢。
因此,本领域的技术人员致力于开发一种基于深度强化学习的服务机器人行人感知避障方法,将行人一般遵守的靠右行走的规则(简称“右行规则”)建模,并与避障规则融合进深度强化学习的奖励函数中,奖励机器人遵守右行规则的行为,惩罚不遵守右行规则或者与行人碰撞的行为,很好地解决了行人环境下的避障问题,增加了机器人的智能性和社交性。使用激光雷达采集周围行人的信息,并人工提取特征,然后放入网络进行训练,使强化学习更易收敛。使用ORCA多体避障算法生成训练数据,预先训练网络作为初始化,大大加快收敛速度。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是克服现有技术所存在的难以对行人的避障机制进行建模的问题,以及克服机器人深度强化学习中,一般使用端到端的训练方式通常比较难收敛,或者收敛很慢的问题。
为实现上述目的,本发明提供了一种基于深度强化学习的服务机器人行人感知避障方法,包括以下步骤:
S1、深度强化学习框架搭建,包括以下步骤:
S1-1、状态空间
Figure GDA0002655756030000024
描述为15维向量空间;
S1-2、动作空间
Figure GDA0002655756030000025
描述为2维离散向量空间;
S1-3、奖励函数设置为包含避障规则Rav(s,a)和右行规则Rnorm(s,a),其中s表示状态,a表示动作;
S1-4、建立多层神经网络拟合价值函数,强化学习中使用价值函数来评价状态的潜在累计奖励,建立用于评价状态价值的深度神经网络V;
S2、线下训练阶段,包括以下步骤:
S2-1、预训练阶段,步骤如下:
S2-1-1、利用ORCA多体避障算法,生成多条机器人避障轨迹,并将轨迹处理成N个“状态-价值”对的形式
Figure GDA0002655756030000021
其中第k个“状态-价值”对为(s,y)k,式中,
Figure GDA0002655756030000022
γ为折扣因子,tg为从当前位置到达目标位置所用的时间,vmax为机器人的最大速率,生成训练数据集D;
S2-1-2、使用训练数据集D,对步骤S1-4中搭建的多层神经网络V通过SGD算法训练,更新网络参数;
S2-2、强化学习阶段,使用初始化后的网络,进行深度强化学习训练,进一步优化网络参数;
S3、线上执行阶段,步骤如下:
S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度尺寸等信息,然后处理成15维状态的形式;
S3-2、遍历动作空间
Figure GDA0002655756030000026
依次选择动作执行,将当前的状态做一步预测,得到预测状态s′;
S3-3、将预测状态s′输入到训练好的神经网络V中,得到对状态的评价y,并结合执行动作后的即时奖励R=Rav(s,a)+Rnorm(s,a),计算预测状态总的奖励值
Figure GDA0002655756030000023
S3-4、选择奖励值最大的动作作为输出。
进一步地,所述步骤S2强化训练阶段包括以下步骤:
S2-2-1、将多层神经网络V复制一份,生成另一个多层神经网络V′;
S2-2-2、在仿真器中,随机生成实验场景,包括机器人自身的位置[px,py]、目的地[pgx,pgy]和周围行人的位置[p′x,p′y]和目的地[pg′x,pg′y]等状态;
S2-2-3、根据步骤S2-2-2中生成的场景,使用线上执行阶段的步骤,获得机器人和周围行人的轨迹,并利用神经网络V′预测状态,将轨迹处理成M个“状态-价值”对的形式
Figure GDA0002655756030000031
用新生成的训练数据更新训练数据集D,并剔除相同数量的旧数据;
S2-2-4、将步骤S2-2-2和步骤2-2-3重复m次;
S2-2-5、对训练数据集D,随机采样一个训练子集,利用SGD算法,更新网络参数V的参数;
S2-2-6、将步骤S2-2-4、步骤2-2-5重复N次,并且每隔C次,用预先设置的实验场景测试训练效果,并将神经网络V的参数赋值给V′;
S2-2-7、达到固定的训练次数后(观察到模型收敛),得到最终的网络模型。
进一步地,所述15维向量空间中,状态
Figure GDA0002655756030000032
Figure GDA0002655756030000033
其中等式右边的参数分别表示机器人距离目标的距离,机器人的最大速率,机器人的速度分量,机器人尺寸(半径),机器人的航向角,行人相对机器人的速度分量,行人相对机器人的位置分量,行人的尺寸(半径),机器人尺寸和行人尺寸的和,机器人航向角的余弦和正弦值,机器人和行人的距离。
进一步地,所述2维离散向量空间中,动作a=[Δθ,v],式中Δθ,v分别表示航向变化值和速率。
进一步地,所述避障规则Rav(s,a)奖励机器人到达目的地,惩罚机器人靠近行人0.2米以内或者发生碰撞:
Figure GDA0002655756030000034
其中,dmin表示决策时间间隔Δt内机器人与行人之间的距离,p表示机器人当前的位置,pg表示机器人的目标位置,pg可以由全局路径规划算法提供。
进一步地,所述右行规则Rnorm(s,a)具体为三个场景,分别为“超车”、“会车”和“交叉”。
进一步地,所述拟合价值函数是一个全连接层网络。
进一步地,所述深度神经网络V为五层,包括输入层、3个隐含层和输出层。
进一步地,所述步骤S3-1还包括具体使用激光雷达测量环境信息,并将测量数据进行人腿特征提取,然后利用分类器判别是否为行人,根据机器人和行人的相对关系,确定出行人的位置、速度、尺寸等状态信息,机器人自身的状态信息可以由机器人自身的里程计提供。
进一步地,所述激光雷达为单线激光雷达。
本发明所提供的基于深度强化学习的服务机器人行人感知避障方法,将行人一般遵守的靠右行走的规则(简称“右行规则”)建模,并与避障规则融合进深度强化学习的奖励函数中,奖励机器人遵守右行规则的行为,惩罚不遵守右行规则或者与行人碰撞的行为,很好地解决了行人环境下的避障问题,增加了机器人的智能性和社交性。使用激光雷达采集周围行人的信息,并人工提取特征,而非直接的图像信息,然后放入网络进行训练,使强化学习更易收敛。使用ORCA多体避障算法生成训练数据,预先训练网络作为初始化,大大加快收敛速度。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的离散动作空间示意图;
图2是本发明的一个较佳实施例的右行规则示意图;
图3是本发明的一个较佳实施例的神经网络结构示意图;
图4是本发明的一个较佳实施例的线下训练阶段流程图;
图5是本发明的一个较佳实施例的线上执行阶段流程图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
如图1、图2、图3、图4和图5所示,本发明提出的一种基于深度强化学习的服务机器人行人感知避障方法,包含深度强化学习框架搭建、线下训练阶段和线上执行阶段,包括以下步骤:
S1、深度强化学习框架搭建,具体内容如下:
S1-1、状态空间
Figure GDA0002655756030000041
描述为15维向量空间,包括
Figure GDA0002655756030000042
Figure GDA0002655756030000043
分别表示机器人距离目标的距离,机器人的最大速率,机器人的速度分量,机器人尺寸(半径),机器人的航向角,行人相对机器人的速度分量,行人相对机器人的位置分量,行人的尺寸(半径),机器人尺寸和行人尺寸的和,机器人航向角的余弦和正弦值,机器人和行人的距离;
S1-2、动作空间
Figure GDA0002655756030000051
描述为2维离散向量空间,如图1所示,包括a=[Δθ,v],分别表示航向变化值和速率;
S1-3、奖励函数设置包含两个部分,避障规则和右行规则,具体如下:
S1-3-1、避障规则Rav(s,a)主要奖励机器人到达目的地,惩罚机器人靠近行人0.2米以内或者发生碰撞:
Figure GDA0002655756030000052
其中,dmin表示决策时间间隔Δt内机器人与行人之间的距离。p表示机器人当前的位置,pg表示机器人的目标位置。pg可以由全局路径规划算法提供;
S1-3-2、右行规则Rnorm(s,a)将右行规则具体化为三个场景,分别为“超车”、“会车”和“交叉”。如图2所示,如果机器人和行人的相对位置满足其中的灰色区域,那么进行惩罚,即减去一个常数;
其中,圆圈加箭头表示机器人,矩形加箭头表示行人,黑色五角星表示机器人的目标位置,灰色区域表示惩罚区域;
S1-4、多层神经网络拟合价值函数。强化学习中使用价值函数来评价状态的潜在累计奖励,本发明用一个全连接层网络来拟合价值函数。建立用于评价状态价值的深度神经网络V,如图3所示,整个网络为五层,包括输入层、3个隐含层和输出层;
S2、线下训练阶段,如图4所示,包括预训练阶段和强化学习阶段两部分,具体步骤如下:
S2-1、预训练阶段,具体步骤如下:
S2-1-1、利用ORCA多体避障算法,生成多条机器人避障轨迹,并将轨迹处理成N个“状态-价值”对的形式
Figure GDA0002655756030000053
其中,
Figure GDA0002655756030000054
γ为折扣因子,tg为从当前位置到达目标位置所用的时间,生成训练数据集D;
S2-1-2、使用训练数据集D,对S1-4中搭建的多层神经网络V通过SGD算法训练,更新网络参数;
S2-2、强化学习阶段,使用初始化后的网络,进行深度强化学习训练,进一步优化网络参数。具体步骤包括:
S2-2-1、将多层神经网络V复制一份,生成另一个多层神经网络V′;
S2-2-2、在仿真器中,随机生成实验场景,包括机器人自身的位置[px,py]、目的地[pgx,pgy]和周围行人的位置[p′x,p′y]和目的地[pg′x,pg′y]等状态;
S2-2-3、根据S2-2-2生成的场景,使用线上执行阶段的步骤,获得机器人和周围行人的轨迹,并利用神经网络V′预测状态,将轨迹处理成M个“状态-价值”对的形式
Figure GDA0002655756030000055
用新生成的训练数据更新训练数据集D,并剔除相同数量的旧数据;
S2-2-4、将S2-2-2和S2-2-3重复m次;
S2-2-5、对训练数据集D,随机采样一个训练子集,利用SGD算法,更新网络参数V的参数;
S2-2-6、将S2-2-4、S2-2-5重复N次,并且每隔C次,用预先设置的实验场景测试训练效果,并将神经网络V的参数赋值给V′;
S2-2-7、达到固定的训练次数后(观察到模型收敛),得到最终的网络模型V。
S3、线上执行阶段,如图5所示,具体步骤如下:
S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度尺寸等信息,然后处理成15维状态s的形式,具体使用单线激光雷达测量环境信息,并将测量数据进行人腿特征提取,然后利用分类器判别是否为行人。根据机器人和行人的相对关系,确定出行人的位置、速度、尺寸等状态信息。机器人自身的状态信息可以由机器人自身的里程计提供;
S3-2、遍历动作空间
Figure GDA0002655756030000062
依次选择动作a执行,将当前的状态s做一步预测,得到预测状态s′;
S3-3、将预测状态s′输入到训练好的神经网络V中,得到对状态的评价y,并结合执行动作后的即时奖励R=Rav(s,a)+Rnorm(s,a),计算预测状态总的奖励值
Figure GDA0002655756030000061
S3-4、选择奖励值最大的动作a作为输出。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于深度强化学习的服务机器人行人感知避障方法,其特征在于,包括以下步骤:
S1、深度强化学习框架搭建,包括以下步骤:
S1-1、状态空间
Figure FDA0002966319040000015
描述为15维向量空间;
S1-2、动作空间
Figure FDA0002966319040000016
描述为2维离散向量空间;
S1-3、奖励函数设置为包含避障规则Rav(s,a)和右行规则Rnorm(s,a),式中s表示状态,a表示动作;
S1-4、建立多层神经网络拟合价值函数,强化学习中使用价值函数来评价状态的潜在累计奖励,建立用于评价状态价值的深度神经网络V;
S2、线下训练阶段,包括以下步骤:
S2-1、预训练阶段,步骤如下:
S2-1-1、利用ORCA多体避障算法,生成多条机器人避障轨迹,并将轨迹处理成N个“状态一价值”对的形式
Figure FDA0002966319040000011
其中,第k个所述“状态一价值”对表示为(s,y)k,y表示价值,
Figure FDA0002966319040000012
γ为折扣因子,tg为从当前位置到达目标位置所用的时间,vmax为机器人的最大速率,生成训练数据集D;
S2-1-2、使用训练数据集D,对步骤S1-4中搭建的多层神经网络V通过SGD算法训练,更新网络参数;
S2-2、强化学习阶段,使用初始化后的网络,进行深度强化学习训练,进一步优化网络参数;
S3、线上执行阶段,步骤如下:
S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度和尺寸信息,然后处理成15维状态的形式;
S3-2、遍历所述动作空间
Figure FDA0002966319040000013
依次选择其中的动作执行,将当前的状态做一步预测,得到预测状态s′;
S3-3、将预测状态s′输入到训练好的神经网络V中,得到对状态的评价y,并结合执行动作后的即时奖励R=Rav(s,a)+Rnorm(s,a),计算预测状态总的奖励值
Figure FDA0002966319040000014
其中Δt为决策时间间隔;
S3-4、选择奖励值最大的动作作为输出。
2.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述步骤S2-2强化学习阶段包括以下步骤:
S2-2-1、将多层神经网络V复制一份,生成另一个多层神经网络V′;
S2-2-2、在仿真器中,随机生成实验场景,包括机器人自身的位置[px,py]、目的地[pgx,pgy]和周围行人的位置[p′x,p′y]和目的地[pg′x,pg′y]状态;
S2-2-3、根据步骤S2-2-2中生成的场景,使用线上执行阶段的步骤,获得机器人和周围行人的轨迹,并利用神经网络V′预测状态,将轨迹处理成M个所述“状态-价值”对的形式
Figure FDA0002966319040000021
用新生成的训练数据更新训练数据集D,并剔除相同数量的旧数据;
S2-2-4、将步骤S2-2-2和步骤2-2-3重复m次;
S2-2-5、对训练数据集D,随机采样一个训练子集,利用SGD算法,更新网络参数V的参数;
S2-2-6、将步骤S2-2-4、步骤2-2-5重复N次,并且每隔C次,用预先设置的实验场景测试训练效果,并将神经网络V的参数赋值给V′;
S2-2-7、达到固定的训练次数即观察到模型收敛,得到最终的网络模型。
3.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述15维向量空间中,状态
Figure FDA0002966319040000022
Figure FDA0002966319040000023
式中,dg表示机器人距离目标的距离,vmax表示机器人的最大速率,v′x,V′y表示机器人的速度分量,r表示机器人半径,θ′表示机器人的航向角,
Figure FDA0002966319040000024
表示行人相对机器人的速度分量,
Figure FDA0002966319040000025
表示行人相对机器人的位置分量,
Figure FDA0002966319040000026
表示行人的半径,
Figure FDA0002966319040000028
表示机器人半径和行人半径的和,cos(θ′),sin(θ′)分别表示机器人航向角的余弦和正弦值,da表示机器人和行人的距离。
4.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述2维离散向量空间中,动作a=[Δθ,v],式中Δθ,v分别表示航向变化值和速率。
5.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述避障规则Rav(s,a)奖励机器人到达目的地,惩罚机器人靠近行人0.2米以内或者发生碰撞:
Figure FDA0002966319040000027
其中,dmin表示决策时间间隔Δt内机器人与行人之间的距离,p表示机器人当前的位置,pg表示机器人的目标位置,pg可以由全局路径规划算法提供。
6.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述右行规则Rnorm(s,a)具体为三个场景,分别为“超车”、“会车”和“交叉”。
7.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述拟合价值函数是一个全连接层网络。
8.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述深度神经网络V为五层,包括输入层、3个隐含层和输出层。
9.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述步骤S3-1还包括具体使用激光雷达测量环境信息,并将测量数据进行人腿特征提取,然后利用分类器判别是否为行人,根据机器人和行人的相对关系,确定出行人的位置、速度、尺寸状态信息,机器人自身的状态信息可以由机器人自身的里程计提供。
10.如权利要求1或9所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述激光雷达为单线激光雷达。
CN201810091022.1A 2018-01-30 2018-01-30 一种基于深度强化学习的服务机器人行人感知避障方法 Active CN108255182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810091022.1A CN108255182B (zh) 2018-01-30 2018-01-30 一种基于深度强化学习的服务机器人行人感知避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810091022.1A CN108255182B (zh) 2018-01-30 2018-01-30 一种基于深度强化学习的服务机器人行人感知避障方法

Publications (2)

Publication Number Publication Date
CN108255182A CN108255182A (zh) 2018-07-06
CN108255182B true CN108255182B (zh) 2021-05-11

Family

ID=62743432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810091022.1A Active CN108255182B (zh) 2018-01-30 2018-01-30 一种基于深度强化学习的服务机器人行人感知避障方法

Country Status (1)

Country Link
CN (1) CN108255182B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984275A (zh) * 2018-08-27 2018-12-11 洛阳中科龙网创新科技有限公司 基于Unity3D和深度增强学习的智能无人农用驾驶训练方法
CN109116854B (zh) * 2018-09-16 2021-03-12 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统
US20200160210A1 (en) * 2018-11-20 2020-05-21 Siemens Industry Software Ltd. Method and system for predicting a motion trajectory of a robot moving between a given pair of robotic locations
CN109407676B (zh) * 2018-12-20 2019-08-02 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的机器人避障方法
US20220055215A1 (en) * 2018-12-27 2022-02-24 Honda Motor Co., Ltd. Path determination device, robot, and path determination method
CN109523574B (zh) * 2018-12-27 2022-06-24 联想(北京)有限公司 一种行走轨迹预测方法和电子设备
CN109855616B (zh) * 2019-01-16 2021-02-02 电子科技大学 一种基于虚拟环境和强化学习的多传感器机器人导航方法
CN109933086B (zh) * 2019-03-14 2022-08-30 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109993106A (zh) * 2019-03-29 2019-07-09 北京易达图灵科技有限公司 避障方法和装置
CN109870162B (zh) * 2019-04-04 2020-10-30 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN110032189A (zh) * 2019-04-22 2019-07-19 河海大学常州校区 一种不依赖地图的智能仓储移动机器人路径规划方法
CN110147101B (zh) * 2019-05-13 2020-05-22 中山大学 一种基于深度强化学习的端到端分布式多机器人编队导航方法
US11467591B2 (en) * 2019-05-15 2022-10-11 Baidu Usa Llc Online agent using reinforcement learning to plan an open space trajectory for autonomous vehicles
CN110197163B (zh) * 2019-06-04 2021-02-12 中国矿业大学 一种基于行人搜索的目标追踪样本扩充方法
CN113966596B (zh) * 2019-06-11 2024-03-01 瑞典爱立信有限公司 用于数据流量路由的方法和设备
CN110399730B (zh) * 2019-07-24 2021-05-04 上海交通大学 智能合约漏洞的检查方法、系统及介质
CN110458281B (zh) * 2019-08-02 2021-09-03 中科新松有限公司 乒乓球机器人的深度强化学习旋转速度预测方法及系统
CN110530371B (zh) * 2019-09-06 2021-05-18 电子科技大学 一种基于深度强化学习的室内地图匹配方法
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN110750096B (zh) * 2019-10-09 2022-08-02 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN113552867B (zh) * 2020-04-20 2023-07-18 华为技术有限公司 一种运动轨迹的规划方法及轮式移动设备
CN111644398A (zh) * 2020-05-28 2020-09-11 华中科技大学 一种基于双视角的推抓协同分拣网络及其分拣方法和系统
CN111781922B (zh) * 2020-06-15 2021-10-26 中山大学 一种基于深度强化学习的多机器人协同导航方法
CN111596668B (zh) * 2020-06-17 2021-12-21 苏州大学 基于逆向强化学习的移动机器人拟人化路径规划方法
CN113960995A (zh) * 2020-07-20 2022-01-21 炬星科技(深圳)有限公司 一种避障规划方法、系统及设备
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN112894809B (zh) * 2021-01-18 2022-08-02 华中科技大学 一种基于强化学习的阻抗控制器设计方法和系统
CN112965081B (zh) * 2021-02-05 2023-08-01 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法
CN112947081A (zh) * 2021-02-05 2021-06-11 浙江大学 基于图像隐变量概率模型的分布式强化学习社交导航方法
CN113532461B (zh) * 2021-07-08 2024-02-09 山东新一代信息产业技术研究院有限公司 一种机器人自主避障导航的方法、设备及存储介质
CN113515131B (zh) * 2021-08-27 2022-12-27 苏州大学 基于条件变分自动编码器的移动机器人避障方法及系统
CN113848750A (zh) * 2021-09-14 2021-12-28 清华大学 一种双轮机器人仿真系统及机器人系统
CN114326720B (zh) * 2021-12-20 2023-08-22 上海大学 一种无人艇实时避障方法及系统
CN114518762B (zh) * 2022-04-20 2022-07-22 长沙小钴科技有限公司 机器人避障装置、避障控制方法和机器人
CN114779792B (zh) * 2022-06-20 2022-09-09 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105116881B (zh) * 2015-06-26 2018-03-16 武汉科技大学 一种基于在线学习机制的轮式机器人自适应导航方法
KR102592076B1 (ko) * 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
CN106444738B (zh) * 2016-05-24 2019-04-09 武汉科技大学 基于动态运动基元学习模型的移动机器人路径规划方法
CN106873585B (zh) * 2017-01-18 2019-12-03 上海器魂智能科技有限公司 一种导航寻路方法、机器人及系统
CN106970615B (zh) * 2017-03-21 2019-10-22 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107092254B (zh) * 2017-04-27 2019-11-29 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN107065881B (zh) * 2017-05-17 2019-11-08 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107301377B (zh) * 2017-05-26 2020-08-18 浙江大学 一种基于深度相机的人脸与行人感知系统
CN107368076B (zh) * 2017-07-31 2018-03-27 中南大学 一种智能环境下机器人运动路径深度学习控制规划方法
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法

Also Published As

Publication number Publication date
CN108255182A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN108255182B (zh) 一种基于深度强化学习的服务机器人行人感知避障方法
Boloor et al. Attacking vision-based perception in end-to-end autonomous driving models
Pfeiffer et al. Predicting actions to act predictably: Cooperative partial motion planning with maximum entropy models
Luo et al. Porca: Modeling and planning for autonomous driving among many pedestrians
Sharifzadeh et al. Learning to drive using inverse reinforcement learning and deep q-networks
Kivrak et al. Social navigation framework for assistive robots in human inhabited unknown environments
US20230042431A1 (en) Prediction and planning for mobile robots
Li et al. Inferring the latent structure of human decision-making from raw visual inputs
Liu et al. Map-based deep imitation learning for obstacle avoidance
Sarkar et al. Trajectory prediction of traffic agents at urban intersections through learned interactions
Zhang et al. A systematic solution of human driving behavior modeling and simulation for automated vehicle studies
CN116134292A (zh) 用于性能测试和/或训练自动驾驶车辆规划器的工具
Das et al. A machine learning approach for collision avoidance and path planning of mobile robot under dense and cluttered environments
Lee et al. Spatiotemporal costmap inference for MPC via deep inverse reinforcement learning
Xie et al. Drl-vo: Learning to navigate through crowded dynamic scenes using velocity obstacles
Wulfmeier et al. Incorporating human domain knowledge into large scale cost function learning
Feher et al. Q-learning based reinforcement learning approach for lane keeping
Campo et al. Learning probabilistic awareness models for detecting abnormalities in vehicle motions
Kim et al. An open-source low-cost mobile robot system with an RGB-D camera and efficient real-time navigation algorithm
AbuZekry et al. Comparative study of NeuroEvolution algorithms in reinforcement learning for self-driving cars
Diehl et al. Energy-based potential games for joint motion forecasting and control
Varga et al. Intention-Aware Decision-Making for Mixed Intersection Scenarios
Prabhu et al. Feasibility study of multi autonomous mobile robots (amrs) motion planning in smart warehouse environment
Hu et al. A pattern-based modeling framework for simulating human-like pedestrian steering behaviors
Qiao et al. Scenario generalization of data-driven imitation models in crowd simulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant