CN108255182A - 一种基于深度强化学习的服务机器人行人感知避障方法 - Google Patents

一种基于深度强化学习的服务机器人行人感知避障方法 Download PDF

Info

Publication number
CN108255182A
CN108255182A CN201810091022.1A CN201810091022A CN108255182A CN 108255182 A CN108255182 A CN 108255182A CN 201810091022 A CN201810091022 A CN 201810091022A CN 108255182 A CN108255182 A CN 108255182A
Authority
CN
China
Prior art keywords
pedestrian
robot
training
state
service robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810091022.1A
Other languages
English (en)
Other versions
CN108255182B (zh
Inventor
赵忠华
鲁兴龙
曹文
曹一文
晏懿琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201810091022.1A priority Critical patent/CN108255182B/zh
Publication of CN108255182A publication Critical patent/CN108255182A/zh
Application granted granted Critical
Publication of CN108255182B publication Critical patent/CN108255182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Electromagnetism (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于深度强化学习的服务机器人行人感知避障方法,涉及深度学习和服务机器人避障领域。该方法在训练阶段:首先,使用ORCA算法生成训练数据。然后,随机生成实验场景,使用初始化后的强化学习模型与环境交互生成新的训练数据,并融合进原有训练数据。最后,在新的训练数据上利用SGD算法训练网络,得到最终的网络模型。该方法在执行阶段:通过激光雷达获取周围行人的状态,根据训练好的模型和奖励函数计算预测状态,选择获得最大奖励的动作作为输出并执行。本发明具有很强的实时性和适应性,在行人环境下,可以使机器人遵守行人的右行规则,规划出高效、安全、自然的路径,提升了服务机器人的智能性和社交性。

Description

一种基于深度强化学习的服务机器人行人感知避障方法
技术领域
本发明涉及深度学习和服务机器人避障领域,尤其涉及一种基于深度强化学习的服务机器人行人感知避障方法。
背景技术
随着劳动力成本的提高,机器人开始在各个领域取代人类劳动者,特别是公共服务领域,如外卖机器人、快递机器人、商场导购机器人等。这些机器人面临的场景一般有很多高动态变化的障碍物,如行人。如何使服务机器人能够在行人环境下自主导航,完成高效、安全、自然躲避行人障碍物,成为限制服务机器人得到更加广泛应用的关键问题。在行人环境下,传统的避障算法适应性变差,有时候会表现出急停、急转等不安全的行为,尤其是当机器人的移动速度达到行人步行速度的时候。
最近很多研究者开始尝试使用强化学习的方法来解决机器人的控制问题,特别是机器人的自主避障问题,基于学习的方法可以使为机器人规划出更加自然、连续的路径。公开专利CN106970615A提出了一种深度强化学习的实时在线路径规划方法,利用深度学习方法来得到图像的高层语义信息,并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。该发明使用从图像到结果端到端的训练方法,首先训练不容易收敛,即收敛速度很慢或者不收敛。另外,该发明没有考虑行人环境下如何与行人进行自然、安全的交互。不能适用于商场、机场等行人环境。
机器人在行人环境下的避障算法是当前研究的重点也是难点,最大的困难在于行人自身的避障机制还尚未研究清楚,即什么时间采用什么动作躲避周围什么状态的行人,因此很难对行人的避障机制进行建模。因此传统的避障算法难以应对这样场景。另外,对于深度强化学习,一般使用端到端的训练方式通常比较难收敛,或者收敛很慢。
因此,本领域的技术人员致力于开发一种基于深度强化学习的服务机器人行人感知避障方法,将行人一般遵守的靠右行走的规则(简称“右行规则”)建模,并与避障规则融合进深度强化学习的奖励函数中,奖励机器人遵守右行规则的行为,惩罚不遵守右行规则或者与行人碰撞的行为,很好地解决了行人环境下的避障问题,增加了机器人的智能性和社交性。使用激光雷达采集周围行人的信息,并人工提取特征,然后放入网络进行训练,使强化学习更易收敛。使用ORCA多体避障算法生成训练数据,预先训练网络作为初始化,大大加快收敛速度。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是克服现有技术所存在的难以对行人的避障机制进行建模的问题,以及克服机器人深度强化学习中,一般使用端到端的训练方式通常比较难收敛,或者收敛很慢的问题。
为实现上述目的,本发明提供了一种基于深度强化学习的服务机器人行人感知避障方法,包括以下步骤:
S1、深度强化学习框架搭建,包括以下步骤:
S1-1、状态空间描述为15维向量空间s;
S1-2、动作空间描述为2维离散向量空间a;
S1-3、奖励函数设置为包含避障规则Rav(s,a)和右行规则Rnorm(s,a);
S1-4、建立多层神经网络拟合价值函数,强化学习中使用价值函数来评价状态的潜在累计奖励,建立用于评价状态价值的深度神经网络V;
S2、线下训练阶段,包括以下步骤:
S2-1、预训练阶段,步骤如下:
S2-1-1、利用ORCA多体避障算法,生成多条机器人避障轨迹,并将轨迹处理成N个“状态-价值”对的形式其中,γ为折扣因子,tg为从当前位置到达目标位置所用的时间,生成训练数据集D;
S2-1-2、使用训练数据集D,对步骤S1-4中搭建的多层神经网络V通过SGD算法训练,更新网络参数;
S2-2、强化学习阶段,使用初始化后的网络,进行深度强化学习训练,进一步优化网络参数;
S3、线上执行阶段,步骤如下:
S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度尺寸等信息,然后处理成15维状态s的形式;
S3-2、遍历动作空间依次选择动作a执行,将当前的状态s做一步预测,得到预测状态s′;
S3-3、将预测状态s′输入到训练好的神经网络V中,得到对状态的评价y,并结合执行动作后的即时奖励R=Rav(s,a)+Rnorm(s,a),计算预测状态总的奖励值
S3-4、选择奖励值最大的动作a作为输出。
进一步地,所述步骤S2强化训练阶段包括以下步骤:
S2-2-1、将多层神经网络V复制一份,生成另一个多层神经网络V′;
S2-2-2、在仿真器中,随机生成实验场景,包括机器人自身的位置[px,py]、目的地[pgx,pgy]和周围行人的位置[p′x,p′y]和目的地[pg′x,pg′y]等状态;
S2-2-3、根据步骤S2-2-2中生成的场景,使用线上执行阶段的步骤,获得机器人和周围行人的轨迹,并利用神经网络V′预测状态,将轨迹处理成M个“状态-价值”对的形式用新生成的训练数据更新训练数据集D,并剔除相同数量的旧数据;
S2-2-4、将步骤S2-2-2和步骤2-2-3重复m次;
S2-2-5、对训练数据集D,随机采样一个训练子集,利用SGD算法,更新网络参数V的参数;
S2-2-6、将步骤S2-2-4、步骤2-2-5重复N次,并且每隔C次,用预先设置的实验场景测试训练效果,并将神经网络V的参数赋值给V′;
S2-2-7、达到固定的训练次数后(观察到模型收敛),得到最终的网络模型。
进一步地,所述15维向量空间s=[dg,vmax,v′x,v′y,r,θ′, cos(θ′),sin(θ′),da],分别表示机器人距离目标的距离,机器人的最大速率,机器人的速度分量,机器人尺寸(半径),机器人的航向角,行人相对机器人的速度分量,行人相对机器人的位置分量,行人的尺寸(半径),机器人尺寸和行人尺寸的和,机器人航向角的余弦和正弦值,机器人和行人的距离。
进一步地,所述2维离散向量空间a=[Δθ,v],分别表示航向变化值和速率。
进一步地,所述避障规则Rav(s,a)奖励机器人到达目的地,惩罚机器人靠近行人0.2米以内或者发生碰撞:
其中,dmin表示决策时间间隔Δt内机器人与行人之间的距离,p表示机器人当前的位置,pg表示机器人的目标位置,pg可以由全局路径规划算法提供。
进一步地,所述右行规则Rnorm(s,a)具体为三个场景,分别为“超车”、“会车”和“交叉”。
进一步地,所述拟合价值函数是一个全连接层网络。
进一步地,所述深度神经网络V为五层,包括输入层、3个隐含层和输出层。
进一步地,所述步骤S3-1还包括具体使用激光雷达测量环境信息,并将测量数据进行人腿特征提取,然后利用分类器判别是否为行人,根据机器人和行人的相对关系,确定出行人的位置、速度、尺寸等状态信息,机器人自身的状态信息可以由机器人自身的里程计提供。
进一步地,所述激光雷达为单线激光雷达。
本发明所提供的基于深度强化学习的服务机器人行人感知避障方法,将行人一般遵守的靠右行走的规则(简称“右行规则”)建模,并与避障规则融合进深度强化学习的奖励函数中,奖励机器人遵守右行规则的行为,惩罚不遵守右行规则或者与行人碰撞的行为,很好地解决了行人环境下的避障问题,增加了机器人的智能性和社交性。使用激光雷达采集周围行人的信息,并人工提取特征,而非直接的图像信息,然后放入网络进行训练,使强化学习更易收敛。使用ORCA多体避障算法生成训练数据,预先训练网络作为初始化,大大加快收敛速度。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的离散动作空间示意图;
图2是本发明的一个较佳实施例的右行规则示意图;
图3是本发明的一个较佳实施例的神经网络结构示意图;
图4是本发明的一个较佳实施例的线下训练阶段流程图;
图5是本发明的一个较佳实施例的线上执行阶段流程图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
如图1、图2、图3、图4和图5所示,本发明提出的一种基于深度强化学习的服务机器人行人感知避障方法,包含深度强化学习框架搭建、线下训练阶段和线上执行阶段,包括以下步骤:
S1、深度强化学习框架搭建,具体内容如下:
S1-1、状态空间描述为15维向量空间,包括s=[dg,vmax,v′x,v′y,r,θ′, cos(θ′),sin(θ′),da],分别表示机器人距离目标的距离,机器人的最大速率,机器人的速度分量,机器人尺寸(半径),机器人的航向角,行人相对机器人的速度分量,行人相对机器人的位置分量,行人的尺寸(半径),机器人尺寸和行人尺寸的和,机器人航向角的余弦和正弦值,机器人和行人的距离;
S1-2、动作空间描述为2维离散向量空间,如图1所示,包括a=[Δθ,v],分别表示航向变化值和速率;
S1-3、奖励函数设置包含两个部分,避障规则和右行规则,具体如下:
S1-3-1、避障规则Rav(s,a)主要奖励机器人到达目的地,惩罚机器人靠近行人0.2米以内或者发生碰撞:
其中,dmin表示决策时间间隔Δt内机器人与行人之间的距离。p表示机器人当前的位置,pg表示机器人的目标位置。pg可以由全局路径规划算法提供;
S1-3-2、右行规则Rnorm(s,a)将右行规则具体化为三个场景,分别为“超车”、“会车”和“交叉”。如图2所示,如果机器人和行人的相对位置满足其中的灰色区域,那么进行惩罚,即减去一个常数;
其中,圆圈加箭头表示机器人,矩形加箭头表示行人,黑色五角星表示机器人的目标位置,灰色区域表示惩罚区域;
S1-4、多层神经网络拟合价值函数。强化学习中使用价值函数来评价状态的潜在累计奖励,本发明用一个全连接层网络来拟合价值函数。建立用于评价状态价值的深度神经网络V,如图3所示,整个网络为五层,包括输入层、3个隐含层和输出层;
S2、线下训练阶段,如图4所示,包括预训练阶段和强化学习阶段两部分,具体步骤如下:
S2-1、预训练阶段,具体步骤如下:
S2-1-1、利用ORCA多体避障算法,生成多条机器人避障轨迹,并将轨迹处理成N个“状态-价值”对的形式其中,γ为折扣因子,tg为从当前位置到达目标位置所用的时间,生成训练数据集D;
S2-1-2、使用训练数据集D,对S1-4中搭建的多层神经网络V通过SGD算法训练,更新网络参数;
S2-2、强化学习阶段,使用初始化后的网络,进行深度强化学习训练,进一步优化网络参数。具体步骤包括:
S2-2-1、将多层神经网络V复制一份,生成另一个多层神经网络V′;
S2-2-2、在仿真器中,随机生成实验场景,包括机器人自身的位置[px,py]、目的地[pgx,pgy]和周围行人的位置[p′x,p′y]和目的地[pg′x,pg′y]等状态;
S2-2-3、根据S2-2-2生成的场景,使用线上执行阶段的步骤,获得机器人和周围行人的轨迹,并利用神经网络V′预测状态,将轨迹处理成M个“状态-价值”对的形式用新生成的训练数据更新训练数据集D,并剔除相同数量的旧数据;
S2-2-4、将S2-2-2和S2-2-3重复m次;
S2-2-5、对训练数据集D,随机采样一个训练子集,利用SGD算法,更新网络参数V的参数;
S2-2-6、将S2-2-4、S2-2-5重复N次,并且每隔C次,用预先设置的实验场景测试训练效果,并将神经网络V的参数赋值给V′;
S2-2-7、达到固定的训练次数后(观察到模型收敛),得到最终的网络模型V。
S3、线上执行阶段,如图5所示,具体步骤如下:
S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度尺寸等信息,然后处理成15维状态s的形式,具体使用单线激光雷达测量环境信息,并将测量数据进行人腿特征提取,然后利用分类器判别是否为行人。根据机器人和行人的相对关系,确定出行人的位置、速度、尺寸等状态信息。机器人自身的状态信息可以由机器人自身的里程计提供;
S3-2、遍历动作空间依次选择动作a执行,将当前的状态s做一步预测,得到预测状态s′;
S3-3、将预测状态s′输入到训练好的神经网络V中,得到对状态的评价y,并结合执行动作后的即时奖励R=Rav(s,a)+Rnorm(s,a),计算预测状态总的奖励值
S3-4、选择奖励值最大的动作a作为输出。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于深度强化学习的服务机器人行人感知避障方法,其特征在于,包括以下步骤:
S1、深度强化学习框架搭建,包括以下步骤:
S1-1、状态空间描述为15维向量空间s;
S1-2、动作空间描述为2维离散向量空间a;
S1-3、奖励函数设置为包含避障规则Rav(s,a)和右行规则Rnorm(s,a);
S1-4、建立多层神经网络拟合价值函数,强化学习中使用价值函数来评价状态的潜在累计奖励,建立用于评价状态价值的深度神经网络V;
S2、线下训练阶段,包括以下步骤:
S2-1、预训练阶段,步骤如下:
S2-1-1、利用ORCA多体避障算法,生成多条机器人避障轨迹,并将轨迹处理成N个“状态-价值”对的形式其中,γ为折扣因子,tg为从当前位置到达目标位置所用的时间,生成训练数据集D;
S2-1-2、使用训练数据集D,对步骤S1-4中搭建的多层神经网络V通过SGD算法训练,更新网络参数;
S2-2、强化学习阶段,使用初始化后的网络,进行深度强化学习训练,进一步优化网络参数;
S3、线上执行阶段,步骤如下:
S3-1、使用激光雷达获取周围行人的位置、速度和尺寸信息以及机器人自身的位置、速度尺寸等信息,然后处理成15维状态s的形式;
S3-2、遍历动作空间依次选择动作a执行,将当前的状态s做一步预测,得到预测状态s′;
S3-3、将预测状态s′输入到训练好的神经网络V中,得到对状态的评价y,并结合执行动作后的即时奖励R=Rav(s,a)+Rnorm(s,a),计算预测状态总的奖励值
S3-4、选择奖励值最大的动作a作为输出。
2.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述步骤S2强化训练阶段包括以下步骤:
S2-2-1、将多层神经网络V复制一份,生成另一个多层神经网络V′;
S2-2-2、在仿真器中,随机生成实验场景,包括机器人自身的位置[px,py]、目的地[pgx,pgy]和周围行人的位置[p′x,p′y]和目的地[pg′x,pg′y]等状态;
S2-2-3、根据步骤S2-2-2中生成的场景,使用线上执行阶段的步骤,获得机器人和周围行人的轨迹,并利用神经网络V′预测状态,将轨迹处理成M个“状态-价值”对的形式用新生成的训练数据更新训练数据集D,并剔除相同数量的旧数据;
S2-2-4、将步骤S2-2-2和步骤2-2-3重复m次;
S2-2-5、对训练数据集D,随机采样一个训练子集,利用SGD算法,更新网络参数V的参数;
S2-2-6、将步骤S2-2-4、步骤2-2-5重复N次,并且每隔C次,用预先设置的实验场景测试训练效果,并将神经网络V的参数赋值给V′;
S2-2-7、达到固定的训练次数后(观察到模型收敛),得到最终的网络模型。
3.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述15维向量空间 分别表示机器人距离目标的距离,机器人的最大速率,机器人的速度分量,机器人尺寸(半径),机器人的航向角,行人相对机器人的速度分量,行人相对机器人的位置分量,行人的尺寸(半径),机器人尺寸和行人尺寸的和,机器人航向角的余弦和正弦值,机器人和行人的距离。
4.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述2维离散向量空间a=[Δθ,v],分别表示航向变化值和速率。
5.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述避障规则Rav(s,a)奖励机器人到达目的地,惩罚机器人靠近行人0.2米以内或者发生碰撞:
其中,dmin表示决策时间间隔Δt内机器人与行人之间的距离,p表示机器人当前的位置,pg表示机器人的目标位置,pg可以由全局路径规划算法提供。
6.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述右行规则Rnorm(s,a)具体为三个场景,分别为“超车”、“会车”和“交叉”。
7.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述拟合价值函数是一个全连接层网络。
8.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述深度神经网络V为五层,包括输入层、3个隐含层和输出层。
9.如权利要求1所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述步骤S3-1还包括具体使用激光雷达测量环境信息,并将测量数据进行人腿特征提取,然后利用分类器判别是否为行人,根据机器人和行人的相对关系,确定出行人的位置、速度、尺寸等状态信息,机器人自身的状态信息可以由机器人自身的里程计提供。
10.如权利要求1或9所述基于深度强化学习的服务机器人行人感知避障方法,其特征在于,所述激光雷达为单线激光雷达。
CN201810091022.1A 2018-01-30 2018-01-30 一种基于深度强化学习的服务机器人行人感知避障方法 Active CN108255182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810091022.1A CN108255182B (zh) 2018-01-30 2018-01-30 一种基于深度强化学习的服务机器人行人感知避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810091022.1A CN108255182B (zh) 2018-01-30 2018-01-30 一种基于深度强化学习的服务机器人行人感知避障方法

Publications (2)

Publication Number Publication Date
CN108255182A true CN108255182A (zh) 2018-07-06
CN108255182B CN108255182B (zh) 2021-05-11

Family

ID=62743432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810091022.1A Active CN108255182B (zh) 2018-01-30 2018-01-30 一种基于深度强化学习的服务机器人行人感知避障方法

Country Status (1)

Country Link
CN (1) CN108255182B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984275A (zh) * 2018-08-27 2018-12-11 洛阳中科龙网创新科技有限公司 基于Unity3D和深度增强学习的智能无人农用驾驶训练方法
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109523574A (zh) * 2018-12-27 2019-03-26 联想(北京)有限公司 一种行走轨迹预测方法和电子设备
CN109855616A (zh) * 2019-01-16 2019-06-07 电子科技大学 一种基于虚拟环境和强化学习的多传感器机器人导航方法
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109993106A (zh) * 2019-03-29 2019-07-09 北京易达图灵科技有限公司 避障方法和装置
CN110032189A (zh) * 2019-04-22 2019-07-19 河海大学常州校区 一种不依赖地图的智能仓储移动机器人路径规划方法
CN110147101A (zh) * 2019-05-13 2019-08-20 中山大学 一种基于深度强化学习的端到端分布式多机器人编队导航方法
CN110197163A (zh) * 2019-06-04 2019-09-03 中国矿业大学 一种基于行人搜索的目标追踪样本扩充方法
CN110399730A (zh) * 2019-07-24 2019-11-01 上海交通大学 智能合约漏洞的检查方法、系统及介质
CN110458281A (zh) * 2019-08-02 2019-11-15 中科新松有限公司 乒乓球机器人的深度强化学习旋转速度预测方法及系统
CN110530371A (zh) * 2019-09-06 2019-12-03 电子科技大学 一种基于深度强化学习的室内地图匹配方法
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN110750096A (zh) * 2019-10-09 2020-02-04 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN110955466A (zh) * 2018-09-27 2020-04-03 罗伯特·博世有限公司 用于测定智能体的策略的方法、装置和计算机程序
CN111195906A (zh) * 2018-11-20 2020-05-26 西门子工业软件有限公司 用于预测机器人的运动轨迹的方法和系统
CN111596668A (zh) * 2020-06-17 2020-08-28 苏州大学 基于逆向强化学习的移动机器人拟人化路径规划方法
CN111644398A (zh) * 2020-05-28 2020-09-11 华中科技大学 一种基于双视角的推抓协同分拣网络及其分拣方法和系统
CN111781922A (zh) * 2020-06-15 2020-10-16 中山大学 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN112034833A (zh) * 2019-05-15 2020-12-04 百度(美国)有限责任公司 规划用于自动驾驶车辆的开放空间轨迹的在线代理
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN112894809A (zh) * 2021-01-18 2021-06-04 华中科技大学 一种基于强化学习的阻抗控制器设计方法和系统
CN112947081A (zh) * 2021-02-05 2021-06-11 浙江大学 基于图像隐变量概率模型的分布式强化学习社交导航方法
CN112965081A (zh) * 2021-02-05 2021-06-15 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法
CN113196195A (zh) * 2018-12-27 2021-07-30 本田技研工业株式会社 路径决定装置、机器人及路径决定方法
CN113515131A (zh) * 2021-08-27 2021-10-19 苏州大学 基于条件变分自动编码器的移动机器人避障方法及系统
CN113532461A (zh) * 2021-07-08 2021-10-22 山东新一代信息产业技术研究院有限公司 一种机器人自主避障导航的方法、设备及存储介质
CN113552867A (zh) * 2020-04-20 2021-10-26 华为技术有限公司 一种运动轨迹的规划方法及轮式移动设备
CN113848750A (zh) * 2021-09-14 2021-12-28 清华大学 一种双轮机器人仿真系统及机器人系统
CN113960995A (zh) * 2020-07-20 2022-01-21 炬星科技(深圳)有限公司 一种避障规划方法、系统及设备
CN113966596A (zh) * 2019-06-11 2022-01-21 瑞典爱立信有限公司 用于数据流量路由的方法和设备
CN114155298A (zh) * 2021-12-09 2022-03-08 山东大学 一种基于主动感知的机器人堵漏方法及系统
CN114326720A (zh) * 2021-12-20 2022-04-12 上海大学 一种无人艇实时避障方法及系统
CN114518762A (zh) * 2022-04-20 2022-05-20 长沙小钴科技有限公司 机器人避障模型、避障控制方法和机器人
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN114859899A (zh) * 2022-04-18 2022-08-05 哈尔滨工业大学人工智能研究院有限公司 移动机器人导航避障的演员-评论家稳定性强化学习方法
CN114859899B (zh) * 2022-04-18 2024-05-31 哈尔滨工业大学人工智能研究院有限公司 移动机器人导航避障的演员-评论家稳定性强化学习方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105116881A (zh) * 2015-06-26 2015-12-02 武汉科技大学 一种基于在线学习机制的轮式机器人自适应导航方法
CN106444738A (zh) * 2016-05-24 2017-02-22 武汉科技大学 基于动态运动基元学习模型的移动机器人路径规划方法
US20170169313A1 (en) * 2015-12-14 2017-06-15 Samsung Electronics Co., Ltd. Image processing apparatus and method based on deep learning and neural network learning
CN106873585A (zh) * 2017-01-18 2017-06-20 无锡辰星机器人科技有限公司 一种导航寻路方法、机器人及系统
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107092254A (zh) * 2017-04-27 2017-08-25 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN107301377A (zh) * 2017-05-26 2017-10-27 浙江大学 一种基于深度相机的人脸与行人感知系统
CN107368076A (zh) * 2017-07-31 2017-11-21 中南大学 一种智能环境下机器人运动路径深度学习控制规划方法
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105116881A (zh) * 2015-06-26 2015-12-02 武汉科技大学 一种基于在线学习机制的轮式机器人自适应导航方法
US20170169313A1 (en) * 2015-12-14 2017-06-15 Samsung Electronics Co., Ltd. Image processing apparatus and method based on deep learning and neural network learning
CN106444738A (zh) * 2016-05-24 2017-02-22 武汉科技大学 基于动态运动基元学习模型的移动机器人路径规划方法
CN106873585A (zh) * 2017-01-18 2017-06-20 无锡辰星机器人科技有限公司 一种导航寻路方法、机器人及系统
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107092254A (zh) * 2017-04-27 2017-08-25 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107301377A (zh) * 2017-05-26 2017-10-27 浙江大学 一种基于深度相机的人脸与行人感知系统
CN107368076A (zh) * 2017-07-31 2017-11-21 中南大学 一种智能环境下机器人运动路径深度学习控制规划方法
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BEOMJOON KIM: "Socially Adaptive Path Planning in Human Environments", 《INTERNATIONAL JOURNAL OF SOCIAL ROBOTICS》 *
任子玉: "智能车自主避障路径规划研究综述", 《软件导航》 *
唐雷等: "基于误差四元数与Kalman滤波的行人惯导系统设计", 《电子设计工程》 *

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984275A (zh) * 2018-08-27 2018-12-11 洛阳中科龙网创新科技有限公司 基于Unity3D和深度增强学习的智能无人农用驾驶训练方法
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统
CN110955466A (zh) * 2018-09-27 2020-04-03 罗伯特·博世有限公司 用于测定智能体的策略的方法、装置和计算机程序
CN111195906B (zh) * 2018-11-20 2023-11-28 西门子工业软件有限公司 用于预测机器人的运动轨迹的方法和系统
CN111195906A (zh) * 2018-11-20 2020-05-26 西门子工业软件有限公司 用于预测机器人的运动轨迹的方法和系统
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109523574B (zh) * 2018-12-27 2022-06-24 联想(北京)有限公司 一种行走轨迹预测方法和电子设备
CN113196195A (zh) * 2018-12-27 2021-07-30 本田技研工业株式会社 路径决定装置、机器人及路径决定方法
CN109523574A (zh) * 2018-12-27 2019-03-26 联想(北京)有限公司 一种行走轨迹预测方法和电子设备
US11986964B2 (en) 2018-12-27 2024-05-21 Honda Motor Co., Ltd. Path determination device, robot, and path determination method
CN109855616A (zh) * 2019-01-16 2019-06-07 电子科技大学 一种基于虚拟环境和强化学习的多传感器机器人导航方法
CN109933086B (zh) * 2019-03-14 2022-08-30 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109993106A (zh) * 2019-03-29 2019-07-09 北京易达图灵科技有限公司 避障方法和装置
CN109870162B (zh) * 2019-04-04 2020-10-30 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN110032189A (zh) * 2019-04-22 2019-07-19 河海大学常州校区 一种不依赖地图的智能仓储移动机器人路径规划方法
CN110147101A (zh) * 2019-05-13 2019-08-20 中山大学 一种基于深度强化学习的端到端分布式多机器人编队导航方法
CN110147101B (zh) * 2019-05-13 2020-05-22 中山大学 一种基于深度强化学习的端到端分布式多机器人编队导航方法
CN112034833A (zh) * 2019-05-15 2020-12-04 百度(美国)有限责任公司 规划用于自动驾驶车辆的开放空间轨迹的在线代理
CN110197163A (zh) * 2019-06-04 2019-09-03 中国矿业大学 一种基于行人搜索的目标追踪样本扩充方法
CN110197163B (zh) * 2019-06-04 2021-02-12 中国矿业大学 一种基于行人搜索的目标追踪样本扩充方法
CN113966596A (zh) * 2019-06-11 2022-01-21 瑞典爱立信有限公司 用于数据流量路由的方法和设备
CN113966596B (zh) * 2019-06-11 2024-03-01 瑞典爱立信有限公司 用于数据流量路由的方法和设备
CN110399730A (zh) * 2019-07-24 2019-11-01 上海交通大学 智能合约漏洞的检查方法、系统及介质
CN110458281A (zh) * 2019-08-02 2019-11-15 中科新松有限公司 乒乓球机器人的深度强化学习旋转速度预测方法及系统
CN110530371A (zh) * 2019-09-06 2019-12-03 电子科技大学 一种基于深度强化学习的室内地图匹配方法
CN110530371B (zh) * 2019-09-06 2021-05-18 电子科技大学 一种基于深度强化学习的室内地图匹配方法
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN110750096A (zh) * 2019-10-09 2020-02-04 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN110750096B (zh) * 2019-10-09 2022-08-02 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN113552867A (zh) * 2020-04-20 2021-10-26 华为技术有限公司 一种运动轨迹的规划方法及轮式移动设备
CN111644398A (zh) * 2020-05-28 2020-09-11 华中科技大学 一种基于双视角的推抓协同分拣网络及其分拣方法和系统
CN111781922A (zh) * 2020-06-15 2020-10-16 中山大学 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN111781922B (zh) * 2020-06-15 2021-10-26 中山大学 一种基于深度强化学习的多机器人协同导航方法
CN111596668A (zh) * 2020-06-17 2020-08-28 苏州大学 基于逆向强化学习的移动机器人拟人化路径规划方法
CN113960995A (zh) * 2020-07-20 2022-01-21 炬星科技(深圳)有限公司 一种避障规划方法、系统及设备
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN112894809A (zh) * 2021-01-18 2021-06-04 华中科技大学 一种基于强化学习的阻抗控制器设计方法和系统
CN112894809B (zh) * 2021-01-18 2022-08-02 华中科技大学 一种基于强化学习的阻抗控制器设计方法和系统
CN112947081A (zh) * 2021-02-05 2021-06-11 浙江大学 基于图像隐变量概率模型的分布式强化学习社交导航方法
CN112965081B (zh) * 2021-02-05 2023-08-01 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法
CN112965081A (zh) * 2021-02-05 2021-06-15 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法
CN113532461B (zh) * 2021-07-08 2024-02-09 山东新一代信息产业技术研究院有限公司 一种机器人自主避障导航的方法、设备及存储介质
CN113532461A (zh) * 2021-07-08 2021-10-22 山东新一代信息产业技术研究院有限公司 一种机器人自主避障导航的方法、设备及存储介质
CN113515131A (zh) * 2021-08-27 2021-10-19 苏州大学 基于条件变分自动编码器的移动机器人避障方法及系统
CN113848750A (zh) * 2021-09-14 2021-12-28 清华大学 一种双轮机器人仿真系统及机器人系统
CN114155298A (zh) * 2021-12-09 2022-03-08 山东大学 一种基于主动感知的机器人堵漏方法及系统
CN114155298B (zh) * 2021-12-09 2024-05-17 山东大学 一种基于主动感知的机器人堵漏方法及系统
CN114326720B (zh) * 2021-12-20 2023-08-22 上海大学 一种无人艇实时避障方法及系统
CN114326720A (zh) * 2021-12-20 2022-04-12 上海大学 一种无人艇实时避障方法及系统
CN114859899A (zh) * 2022-04-18 2022-08-05 哈尔滨工业大学人工智能研究院有限公司 移动机器人导航避障的演员-评论家稳定性强化学习方法
CN114859899B (zh) * 2022-04-18 2024-05-31 哈尔滨工业大学人工智能研究院有限公司 移动机器人导航避障的演员-评论家稳定性强化学习方法
CN114518762B (zh) * 2022-04-20 2022-07-22 长沙小钴科技有限公司 机器人避障装置、避障控制方法和机器人
CN114518762A (zh) * 2022-04-20 2022-05-20 长沙小钴科技有限公司 机器人避障模型、避障控制方法和机器人
CN114779792B (zh) * 2022-06-20 2022-09-09 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统

Also Published As

Publication number Publication date
CN108255182B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN108255182A (zh) 一种基于深度强化学习的服务机器人行人感知避障方法
US11429854B2 (en) Method and device for a computerized mechanical device
JP7367183B2 (ja) 占有予測ニューラルネットワーク
Shao et al. Autonomous pedestrians
CN112771542B (zh) 以学习的视觉实体为基础的强化学习神经网络
Ondřej et al. A synthetic-vision based steering approach for crowd simulation
WO2019076044A1 (zh) 移动机器人局部运动规划方法、装置及计算机存储介质
CN108227710A (zh) 自动驾驶控制方法和装置、电子设备、程序和介质
Crosato et al. Interaction-aware decision-making for automated vehicles using social value orientation
CN112965081A (zh) 基于融合行人信息的特征地图的模仿学习社交导航方法
Yang et al. What contributes to driving behavior prediction at unsignalized intersections?
Zhang et al. A systematic solution of human driving behavior modeling and simulation for automated vehicle studies
CN116134292A (zh) 用于性能测试和/或训练自动驾驶车辆规划器的工具
Cheng et al. Mixed traffic trajectory prediction using lstm–based models in shared space
CN109948830A (zh) 面向人自混杂环境的自行车轨迹预测方法、设备和介质
Kremer et al. Modelling distracted agents in crowd simulations
CN109740192B (zh) 基于阿诺德情绪模型的人群疏散仿真方法及系统
Kim et al. An open-source low-cost mobile robot system with an RGB-D camera and efficient real-time navigation algorithm
Kang et al. A simple and realistic pedestrian model for crowd simulation and application
Ren et al. Improve generalization of driving policy at signalized intersections with adversarial learning
Zhou et al. Online adaptive generation of critical boundary scenarios for evaluation of autonomous vehicles
Hu et al. A pattern-based modeling framework for simulating human-like pedestrian steering behaviors
CN115981302A (zh) 车辆跟驰换道行为决策方法、装置及电子设备
Mohammed et al. Reinforcement learning and deep neural network for autonomous driving
Yliniemi et al. Evolutionary agent-based simulation of the introduction of new technologies in air traffic management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant