CN110174118A - 基于强化学习的机器人多目标搜索路径规划方法和装置 - Google Patents

基于强化学习的机器人多目标搜索路径规划方法和装置 Download PDF

Info

Publication number
CN110174118A
CN110174118A CN201910461717.9A CN201910461717A CN110174118A CN 110174118 A CN110174118 A CN 110174118A CN 201910461717 A CN201910461717 A CN 201910461717A CN 110174118 A CN110174118 A CN 110174118A
Authority
CN
China
Prior art keywords
robot
search
target
movement
search pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910461717.9A
Other languages
English (en)
Inventor
吴新开
霍向
马亚龙
宋涛
何山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lobby Technology Co Ltd
Original Assignee
Beijing Lobby Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lobby Technology Co Ltd filed Critical Beijing Lobby Technology Co Ltd
Priority to CN201910461717.9A priority Critical patent/CN110174118A/zh
Publication of CN110174118A publication Critical patent/CN110174118A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Manipulator (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供一种基于强化学习的机器人多目标搜索路径规划方法和装置。方法包括:对机器人进行目标搜索的地图信息和状态信息进行初始化;指示机器人按照第一搜索模式开始目标搜索,并同时启动搜索计时;第一搜索模式包括规则搜索模式、随机搜索模式;判断机器人是否在其当前探测范围区域搜索到目标;若为否,则指示机器人继续按照第一搜索模式执行目标搜索;若为是,则指示机器人按照第二搜索模式执行目标搜索;第二搜索模式为:先根据机器人的环境状态,基于强化学习算法获得机器人的状态‑动作对的评价值,再根据获得的机器人的状态‑动作对的评价值确定机器人执行的下一个动作。本发明提供的技术方案可以有效提高机器人对多目标搜索的速度和精度。

Description

基于强化学习的机器人多目标搜索路径规划方法和装置
技术领域
本发明涉及机器人控制技术领域,特别涉及一种基于强化学习的机器人多 目标搜索路径规划方法和装置。
背景技术
目前,国内外对机器人进行区域目标搜索问题开展了较为广泛的研究,现 有技术的搜索路径规划方法通常是采用规则搜索、随机搜索等搜索模型进行目 标搜索。使用规则搜索模型进行目标搜索时,机器人的运动路径固定,对于移 动同标搜索效率不高;使用随机搜索模型进行目标搜索时,需对环境具备一定 的先验知识,而在实际应用中对待搜索区域的信息往往一无所知。因此,现有 技术的搜索路径规划方法不具有普遍适用性。
发明内容
本发明的实施例提供一种基于强化学习的机器人多目标搜索路径规划方法 和装置,用以提高机器人目标搜索的速度和精度。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供一种基于强化学习的机器人多目标搜索路径 规划方法,包括:
对机器人进行目标搜索的地图信息和状态信息进行初始化;所述地图信息 用于标识机器人进行目标搜索的环境区域,所述状态信息包括机器人的位置信 息和朝向信息;
指示机器人按照第一搜索模式开始目标搜索,并同时启动搜索计时;所述 第一搜索模式包括规则搜索模式、随机搜索模式;
判断机器人是否在其当前探测范围区域搜索到目标;
若为否,则指示机器人继续按照第一搜索模式执行目标搜索;
若为是,则指示机器人按照第二搜索模式执行目标搜索;所述第二搜索模 式为:先根据机器人的环境状态,基于强化学习算法获得机器人的状态-动作对 的评价值,再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一 个动作。
在第一方面的第一种可能的实现方式中,在机器人继续按照第一搜索模式 执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后,还包括:
根据搜索计时器记录的搜索时间,判断是否达到限定的搜索时间;
若为是,则终止搜索;
若为否,则继续判断机器人是否在其当前探测范围区域搜索到目标。
在第一方面的第二种可能的实现方式中,在机器人继续按照第一搜索模式 执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后,还包括:
判断机器人搜索出的目标数量是否趋于稳定;
若为是,则终止搜索;
若为否,则继续判断机器人是否在其当前探测范围区域搜索到目标。
在第一方面的第三种可能的实现方式中,机器人的环境状态根据机器人携 带的传感器范围内各区域单元的状态、目标及障碍物的个数确定;
所述的区域单元是根据占据栅格的地图构建法将机器人运行环境区域的平 面区域划分成的多个矩形单元。
结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可 能的实现方式或第一方面的第三种可能的实现方式,在第四种可能的实现方式 中,机器人的动作包括:保持当前方向前行、后退、左转弯、右转弯;
所述根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动 作,具体为:
将机器人的状态-动作对的评价值中的最大值对应的动作确定为机器人执行 的下一个动作。
第二方面,本发明实施例提供一种基于强化学习的机器人多目标搜索路径 规划装置,包括:
初始化模块,用于对机器人进行目标搜索的地图信息和状态信息进行初始 化;所述地图信息用于标识机器人进行目标搜索的环境区域,所述状态信息包 括机器人的位置信息和朝向信息;
执行模块,用于指示机器人按照第一搜索模式开始目标搜索,并同时启动 搜索计时;所述第一搜索模式包括规则搜索模式、随机搜索模式;
判断模块,用于判断机器人是否在其当前探测范围区域搜索到目标;
若为否,则所述执行模块还用于指示机器人继续按照第一搜索模式执行目 标搜索;
若为是,则所述执行模块还用于指示机器人按照第二搜索模式执行目标搜 索;所述第二搜索模式为:先根据机器人的环境状态,基于强化学习算法获得 机器人的状态-动作对的评价值,再根据获得的机器人的状态-动作对的评价值确 定机器人执行的下一个动作。
在第二方面的第一种可能的实现方式中,在机器人继续按照第一搜索模式 执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后,所述判断模块 还用于根据搜索计时器记录的搜索时间,判断是否达到限定的搜索时间;若为 是,则终止搜索;若为否,则继续判断机器人是否在其当前探测范围区域搜索 到目标。
在第二方面的第二种可能的实现方式中,在机器人继续按照第一搜索模式 执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后,所述判断模块 还用于判断机器人搜索出的目标数量是否趋于稳定;若为是,则终止搜索;若 为否,则继续判断机器人是否在其当前探测范围区域搜索到目标。
在第二方面的第三种可能的实现方式中,还包括:
处理模块,用于根据机器人携带的传感器范围内各区域单元的状态、目标 及障碍物的个数确定机器人的环境状态;所述的区域单元是根据占据栅格的地图 构建法将机器人运行环境区域的平面区域划分成的多个矩形单元。
结合第二方面或第二面的第一种可能的实现方式或第二方面的第二种可能 的实现方式或第二方面的第三种可能的实现方式,在第四种可能的实现方式中, 机器人的动作包括:保持当前方向前行、后退、左转弯、右转弯;
所述处理模块还用于将机器人的状态-动作对的评价值中的最大值对应的动 作确定为机器人执行的下一个动作。
本发明实施例提供的技术方案,首先对机器人进行目标搜索的地图信息和 状态信息进行初始化;然后指示机器人按照第一搜索模式开始目标搜索,并同 时启动搜索计时;第一搜索模式包括规则搜索模式、随机搜索模式;再判断机 器人是否在其当前探测范围区域搜索到目标;若为否,则指示机器人继续按照 第一搜索模式执行目标搜索;若为是,则指示机器人按照第二搜索模式执行目 标搜索;第二搜索模式为:先根据机器人的环境状态,基于强化学习算法获得 机器人的状态-动作对的评价值,评价值的确定是根据之前机器人执行动作后获 取的环境状态,包括执行动作后机器人状态是否搜索到目标以及搜索到目标的 个数,以及是否搜索到了障碍物体及其个数,通过每搜索到一个目标给予系统一正奖励,搜索到一个障碍物体给予系统一负奖励。将综合获得的奖励转化为 评价值。再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个 动作。本发明提供的技术方案基于强化学习算法来改进搜索方式,提高强化学 习的效率,从而最终提高值函数的搜索效率,效率的提高使得机器人能够快速 地建立环境模型,从而优先选择搜索目标最多的地点,并计算出达到该地点的 最优路径,有效提高了机器人目标搜索的速度和精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1为本发明提供的基于强化学习的机器人多目标搜索路径规划方法的流 程图;
图2为本发明提供的基于强化学习的机器人多目标搜索路径规划方法的应 用实施例的示意图;
图3为本发明实施例提供的基于强化学习的机器人多目标搜索路径规划装 置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
强化学习(Reinforcement Learning,RL)是一种学习环境状态到动作映射的机器学习方法。图1为本发明提供的基于强化学习的机器人多目标搜索路径规划 方法的流程图,该方法可以由机器人多目标搜索路径规划装置来执行,该规划 装置可以通过软件方式实现,配置于机器人设备中。如图1所示,本实施例的 方法可以包括以下内容。
S101、对机器人进行目标搜索的地图信息和状态信息进行初始化;地图信 息用于标识机器人进行目标搜索的环境区域,状态信息包括机器人的位置信息 和朝向信息。
S102、指示机器人按照第一搜索模式开始目标搜索,并同时启动搜索计时; 第一搜索模式包括规则搜索模式、随机搜索模式。
S103、判断机器人是否在其当前探测范围区域搜索到目标。
若为否,则继续执行步骤S102,指示机器人继续按照第一搜索模式执行目 标搜索。
若为是,则执行步骤S104。
S104、指示机器人按照第二搜索模式执行目标搜索;第二搜索模式为:先 根据机器人的环境状态,基于强化学习算法获得机器人的状态-动作对的评价值, 再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作。
机器人的环境状态根据机器人携带的传感器范围内各区域单元的状态、目 标及障碍物的个数确定;所述的区域单元通常是根据占据栅格的地图构建法将机 器人运行环境区域的平面区域划分成的多个矩形单元。评价值的确定是根据之 前机器人执行动作后获取的环境状态,包括执行动作后机器人状态是否搜索到 目标以及搜索到目标的个数,以及是否搜索到了障碍物体及其个数,通过每搜 索到一个目标给予系统一正奖励,搜索到一个障碍物体给予系统一负奖励。将 综合获得的奖励转化为评价值。机器人的动作包括:保持当前方向前行、后退、 左转弯、右转弯。优选地,将机器人的状态-动作对的评价值中的最大值对应的 动作确定为机器人执行的下一个动作。执行动作后将获取环境状态,包括执行该状态是否搜索到目标以及搜索到目标的个数,以及是否搜索到了障碍物体及 其个数,通过每搜索到一个目标给予系统一正奖励,搜索到一个障碍物体给予 系统一负奖励方式,使得机器人逐渐获取执行最优动作的规划路径。
本实施例提供的技术方案,对多样的环境(包括搜索目标对地点固定或随机 的情况)有较强的适用性,在模型学习的效率上有很大提高,对机器人探索环境 的速度和精度有显著改善,从而能够准确地优先处理搜索目标最多的地点。
如上所述的方法,其中,在机器人继续按照第一搜索模式执行目标搜索或 者机器人按照第二搜索模式执行目标搜索之后,还包括:
根据搜索计时器记录的搜索时间,判断是否达到限定的搜索时间;
若为是,则终止搜索;
若为否,则继续判断机器人是否在其当前探测范围区域搜索到目标。
如上所述的方法,其中,在机器人继续按照第一搜索模式执行目标搜索或 者机器人按照第二搜索模式执行目标搜索之后,还包括:
判断机器人搜索出的目标数量是否趋于稳定(即已搜索完全部目标);
若为是,则终止搜索;
若为否,则继续判断机器人是否在其当前探测范围区域搜索到目标。
本发明实施例提供的技术方案,可驱动机器人优先处理搜索目标可能最多 的地点,以强化学习框架中Q学习算法为基础建立了路径规划算法,从而提高 模型的学习效率,另外在有模型的情况下,使用动态规划算法更新值函数,以 得到更精确的解,本发明实施例提供的技术方案,优点是模型学习效率较高, 适用确定环境和随机环境,在复杂的环境下能够较为高效地使机器人快速得到 较为准确的环境模型,以规划出到达搜索目标最多地点的最优路径。
强化学习模型由三部分组成:智能体(agent)、策略(policy)和环境(environment)。智能体与环境之间进行交互。本申请中智能体为移动机器人。当 智能体执行一个动作时,环境提供一个奖励(reward)。智能体选择动作作用于环 境,改变环境的状态,迁移到新的环境状态,并得到环境的反馈信号,这个反 馈信号通常称为奖赏或强化信号,智能体利用它通过一定的算法强化自己已经 学习到的经验,它的目标是最大化累积期望奖赏。st∈S表示智能体在时刻t的状 态,其中S是所有可能的状态集合。at∈A(st)表示智能体在时刻t所执行的动作, 其中A(st)是在状态st时所有可能执行的动作集合。当处于状态st的智能体执行动作at时,接收到奖励rt+1=R,同时转移到下一状态st+1
强化学习的目的是构造一个控制策略,使得智能体的行为性能达到最大。 控制策略定义了智能体的行为,并且是从环境状态到动作之间的一个映射: π:S→A。策略定义了在任意状态st可以执行的动作:at=π(st)。策略π的价值Vπ(st) 是从状态st开始,遵循该策略的智能体所获得的期望累积奖励。
在有限的阶段内,智能体试图最大化期望策略:
在无限阶段模型中,不存在序列长度的限制,但是未来的奖励将被打折扣:
其中:0≤γ≤1是折扣率,保证所返回的奖励是有限。对每个策略π,存在其 价值Vπ(st),确定最优策略π*,使得:
在控制中,希望处理成对的状态-动作值Q(st,at),而不是简单的V(st)。 Q(st,at)表示当处于状态st时执行动作at的价值;Q*(st,at)为处于st状态时执行动作 at,并在其后遵循最优策略的期望累积奖励。则
对于每一个可能的下一状态st+1,以概率p(st+1|st,at)转移到st+1,并自此遵循最优策略,所得的期望累积奖励是V(st+1)。类似的,还可以有
一旦获得了Q*(st,at)的值,就可以定义策略π为执行动作at,它在所有Q*(st,at)中具有最大值π*(st):选择其中从而得到最优策略的动作 序列。
本发明实施例中,通过对已知环境划分为可探测的若干区域,并进行标号, 机器人在已知环境中利用装有的摄像头逐个区域不断进行搜索,机器人通过摄 像头采集的信息,判断是否在该区域搜索到目标,未能搜索到目标的,则利用 传统导航算法去往下一个区域,这样一次一次不断地测试;经过强化学习,形 成一个最佳的路线规划,后续行驶按照已经学习的优化后路径进行。本发明实 施例提供的技术方法兼具合理性和实用性,主要用在已知环境中,目标是实现 目标搜索最优路径规划。
图2为本发明提供的基于强化学习的机器人多目标搜索路径规划方法的应 用实施例的示意图。参考图2所示,本实施例的方法包括如下步骤:
步骤1)导入机器人运行的地图环境区域信息,初始化模型参数,包括初始 机器人的位置、朝向等信息,对每个状态s、动作a,初始化动作值Q(s,a)为0;
在运行环境区域中分布着数量及位置均未知的障碍物和要搜索的目标对 象。根据占据栅格的地图构建法将运行环境平面区域划分为m×n个矩形单元, 假设传感器覆盖面积大致等于3×3个矩形单元的面积,记录每个单元的位置(x,y), 所有单元组成了机器人对环境的认知地图。每次机器人执行一个动作后其携带 的传感器能监测到的覆盖区域内的可能状态可表示为一个集合:
S={E,O,T,O∩T}
其中:E为空(不存在任何搜索目标和障碍物);O为只存在要搜索的目标;T 为只存在障碍物目标;O∩T为即存在要搜索的目标又存在障碍物。每个单元的可 能状态为集合{E,O,T},其真实状态(机器人对此未知)只能为{E,O,T}中的一种。
机器人从初始时刻开始运行,最初按照某一既定路径进行搜索,将搜索过 程在时间上进行离散化处理,每一个时刻,机器人均会对当前探测范围内的区 域进行一次搜索,根据传感器探测设备搜索结果确定当前环境状态以及要选取 的动作,移动到相邻单元。在每个单元中,机器人获取的信息有要搜索的目标、 障碍物的个数以及分布位置。
步骤2)“观测”当前环境:
a)机器人根据以下公式(1)选择一个动作执行;
其中,P(at|s)为对于状态s下选择动作ai的概率。
本发明利用Q学习算法提供智能系统在马尔科夫环境中利用经历的动作序 列选择最优动作的一种学习能力。Q学习的目标是寻找一个策略可以最大化将 来获得的报酬。Q学习的思想是学习每个状态一动作对的评价值Q(s,a)。Q(s, a)值是从状态s时执行动作a后获得的累积回报价值。在决策时,agent只需比 较状态s下每个动作a的Q值即Q(s,a),就可以明确状态下的最优策略。
Q学习的基本形式如式(2)所示:
其中:y为折扣因子,Q*Q+为智能体在状态s下执行动作a口所获得的回报 折扣和。由此可知,最优策略为在s状态下选择Q值最大的行为。
机器人在搜索过程中,环境状态s依据传感器范围内各单元的状态、目标及 障碍物的个数划分。传感器范围内共有九个单元,每个单元都有三种可能状态, 因此整个搜索过程中,一共有39个环境状态;机器人的动作集合A包含维持方 向前行、后退、左转弯、右转弯三个动作。立即回报值为:
其中:bj=1、0表示发现目标与否;Obs=1、0表示其他障碍物与否。
b)根据传感器探测信息及飞机状态,利用式(3)计算回报值r,判断新状态s’;
c)按照下式更新Q(s,a)表项:
d)δ←δ’。
步骤3)如果机器人搜索到目标的数目趋于稳定或是达到限定搜索时间算法 终止;否则转到b)。
Q学习算法是类似于动态规划算法的一种模型无关的强化学习算法,它提供 智能系统在马尔可夫环境中利用经历的动作序列选择最优动作的一种学习能 力。Q学习的目标是寻找一个策略可以最大化将来获得的报酬。Q学习的思想 是学习每个状态一动作对的评价值Q(s,a)。Q(s,a)值是从状态S时执行动作a后 获得的累积回报价值。在决策时,智能体只需比较状态s下每个动作a的Q值 即Q(s,a),就可以明确状态下的最优策略。
Q学习的基本形式如上式(2)所示。
智能体的每一次学习过程可以视作是从一个随机状态开始,采用一个策略 来选择动作,如占贪婪策略或博曼(Bohzamann)分布策略。智能体在执行完所 选的动作后,观察新的状态和回报,然后根据新状态的最大Q值和回报来更新 上一个状态和动作的Q值。智能体将不断根据新的状态选择动作,直至到达一 个终止状态。
图3为本发明实施例提供的基于强化学习的机器人多目标搜索路径规划装 置的结构示意图。参考图3所示,本实施例的基于强化学习的机器人多目标搜 索路径规划装置可以包括:初始化模块301、执行模块302、判断模块303。其 中,初始化模块301用于对机器人进行目标搜索的地图信息和状态信息进行初 始化;所述地图信息用于标识机器人进行目标搜索的环境区域,所述状态信息 包括机器人的位置信息和朝向信息;执行模块302用于指示机器人按照第一搜 索模式开始目标搜索,并同时启动搜索计时;所述第一搜索模式包括规则搜索 模式、随机搜索模式;判断模块303用于判断机器人是否在其当前探测范围区 域搜索到目标;若为否,则执行模块302还用于指示机器人继续按照第一搜索 模式执行目标搜索;若为是,则执行模块302还用于指示机器人按照第二搜索 模式执行目标搜索;所述第二搜索模式为:先根据机器人的环境状态,基于强 化学习算法获得机器人的状态-动作对的评价值再根据获得的机器人的状态-动 作对的评价值确定机器人执行的下一个动作。机器人的动作包括:保持当前方 向前行、后退、左转弯、右转弯。
如上所述的装置,其中,在机器人继续按照第一搜索模式执行目标搜索或 者机器人按照第二搜索模式执行目标搜索之后,判断模块303还用于根据搜索 计时器记录的搜索时间,判断是否达到限定的搜索时间;若为是,则终止搜索; 若为否,则继续判断机器人是否在其当前探测范围区域搜索到目标。
如上所述的装置,其中,在机器人继续按照第一搜索模式执行目标搜索或 者机器人按照第二搜索模式执行目标搜索之后,判断模块303还用于判断机器 人搜索出的目标数量是否趋于稳定;若为是,则终止搜索;若为否,则继续判 断机器人是否在其当前探测范围区域搜索到目标。
如上所述的装置,还可以包括处理模块304,处理模块304用于根据机器人 携带的传感器范围内各区域单元的状态、目标及障碍物的个数确定机器人的环 境状态;所述的区域单元是根据占据栅格的地图构建法将机器人运行环境区域的 平面区域划分成的多个矩形单元。处理模块304还用于将机器人的状态-动作对 的评价值中的最大值对应的动作确定为机器人执行的下一个动作。
本实施例的基于强化学习的机器人多目标搜索路径规划装置可以用于执行 图1所示方法实施例的方法,其实现原理和所要达到的技术效果类似,在此不 再赘述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限 制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其 中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的 本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于强化学习的机器人多目标搜索路径规划方法,其特征在于,包括:
对机器人进行目标搜索的地图信息和状态信息进行初始化;所述地图信息用于标识机器人进行目标搜索的环境区域,所述状态信息包括机器人的位置信息和朝向信息;
指示机器人按照第一搜索模式开始目标搜索,并同时启动搜索计时;所述第一搜索模式包括规则搜索模式、随机搜索模式;
判断机器人是否在其当前探测范围区域搜索到目标;
若为否,则指示机器人继续按照第一搜索模式执行目标搜索;
若为是,则指示机器人按照第二搜索模式执行目标搜索;所述第二搜索模式为:先根据机器人的环境状态,基于强化学习算法获得机器人的状态-动作对的评价值,再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作。
2.如权利要求1所述的方法,其特征在于,在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后,还包括:
根据搜索计时器记录的搜索时间,判断是否达到限定的搜索时间若为是,则终止搜索;
若为否,则继续判断机器人是否在其当前探测范围区域搜索到目标。
3.如权利要求1所述的方法,其特征在于,在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后,还包括:
判断机器人搜索出的目标数量是否趋于稳定;
若为是,则终止搜索;
若为否,则继续判断机器人是否在其当前探测范围区域搜索到目标。
4.如权利要求1所述的方法,其特征在于,机器人的环境状态根据机器人携带的传感器范围内各区域单元的状态、目标及障碍物的个数确定;
所述的区域单元是根据占据栅格的地图构建法将机器人运行环境区域的平面区域划分成的多个矩形单元。
5.如权利要求1-4任一项所述的方法,其特征在于,机器人的动作包括:保持当前方向前行、后退、左转弯、右转弯;
所述根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作,具体为:
将机器人的状态-动作对的评价值中的最大值对应的动作确定为机器人执行的下一个动作。
6.一种基于强化学习的机器人多目标搜索路径规划装置,其特征在于,包括:
初始化模块,用于对机器人进行目标搜索的地图信息和状态信息进行初始化;所述地图信息用于标识机器人进行目标搜索的环境区域,所述状态信息包括机器人的位置信息和朝向信息;
执行模块,用于指示机器人按照第一搜索模式开始目标搜索,并同时启动搜索计时;所述第一搜索模式包括规则搜索模式、随机搜索模式;
判断模块,用于判断机器人是否在其当前探测范围区域搜索到目标;
若为否,则所述执行模块还用于指示机器人继续按照第一搜索模式执行目标搜索;
若为是,则所述执行模块还用于指示机器人按照第二搜索模式执行目标搜索;所述第二搜索模式为:先根据机器人的环境状态,基于强化学习算法获得机器人的状态-动作对的评价值再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作。
7.如权利要求6所述的装置,其特征在于,在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后,所述判断模块还用于根据搜索计时器记录的搜索时间,判断是否达到限定的搜索时间;若为是,则终止搜索;若为否,则继续判断机器人是否在其当前探测范围区域搜索到目标。
8.如权利要求6所述的装置,其特征在于,在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后,所述判断模块还用于判断机器人搜索出的目标数量是否趋于稳定;若为是,则终止搜索;若为否,则继续判断机器人是否在其当前探测范围区域搜索到目标。
9.如权利要求6所述的装置,其特征在于,还包括:
处理模块,用于根据机器人携带的传感器范围内各区域单元的状态、目标及障碍物的个数确定机器人的环境状态;所述的区域单元是根据占据栅格的地图构建法将机器人运行环境区域的平面区域划分成的多个矩形单元。
10.如权利要求6-9任一项所述的装置,其特征在于,机器人的动作包括:保持当前方向前行、后退、左转弯、右转弯;
所述处理模块还用于将机器人的状态-动作对的评价值中的最大值对应的动作确定为机器人执行的下一个动作。
CN201910461717.9A 2019-05-29 2019-05-29 基于强化学习的机器人多目标搜索路径规划方法和装置 Pending CN110174118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910461717.9A CN110174118A (zh) 2019-05-29 2019-05-29 基于强化学习的机器人多目标搜索路径规划方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910461717.9A CN110174118A (zh) 2019-05-29 2019-05-29 基于强化学习的机器人多目标搜索路径规划方法和装置

Publications (1)

Publication Number Publication Date
CN110174118A true CN110174118A (zh) 2019-08-27

Family

ID=67696749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910461717.9A Pending CN110174118A (zh) 2019-05-29 2019-05-29 基于强化学习的机器人多目标搜索路径规划方法和装置

Country Status (1)

Country Link
CN (1) CN110174118A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750095A (zh) * 2019-09-04 2020-02-04 北京洛必德科技有限公司 一种基于5g通讯的机器人集群运动控制优化方法及系统
CN110955239A (zh) * 2019-11-12 2020-04-03 中国地质大学(武汉) 一种基于逆强化学习的无人船多目标轨迹规划方法及系统
CN111539574A (zh) * 2020-04-28 2020-08-14 北京洛必德科技有限公司 用于多机器人的订单派送方法及系统
CN112232350A (zh) * 2020-10-27 2021-01-15 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
WO2021248825A1 (en) * 2020-06-12 2021-12-16 Huawei Technologies Co., Ltd. Systems and methods for learning reusable options to transfer knowledge between tasks
CN114446121A (zh) * 2022-02-24 2022-05-06 汕头市快畅机器人科技有限公司 一种生命搜索集群教育机器人的控制方法
CN114488879A (zh) * 2021-12-30 2022-05-13 深圳鹏行智能研究有限公司 一种机器人控制方法以及机器人
CN115049688A (zh) * 2022-08-16 2022-09-13 之江实验室 基于强化学习思想的栅格地图区域划分方法及装置
CN115494844A (zh) * 2022-09-26 2022-12-20 成都朴为科技有限公司 一种多机器人搜索方法及系统
CN116673968A (zh) * 2023-08-03 2023-09-01 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统
CN117168468A (zh) * 2023-11-03 2023-12-05 安徽大学 基于近端策略优化的多无人艇深度强化学习协同导航方法
CN114488879B (zh) * 2021-12-30 2024-05-31 深圳鹏行智能研究有限公司 一种机器人控制方法以及机器人

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955930A (zh) * 2016-05-06 2016-09-21 天津科技大学 引导型策略搜索强化学习算法
CN108038538A (zh) * 2017-12-06 2018-05-15 西安电子科技大学 基于强化学习的多目标进化算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955930A (zh) * 2016-05-06 2016-09-21 天津科技大学 引导型策略搜索强化学习算法
CN108038538A (zh) * 2017-12-06 2018-05-15 西安电子科技大学 基于强化学习的多目标进化算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晶晶: ""一种基于强化学习的UAV目标搜索算法"", 《计算机应用研究》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750095A (zh) * 2019-09-04 2020-02-04 北京洛必德科技有限公司 一种基于5g通讯的机器人集群运动控制优化方法及系统
CN110955239A (zh) * 2019-11-12 2020-04-03 中国地质大学(武汉) 一种基于逆强化学习的无人船多目标轨迹规划方法及系统
CN110955239B (zh) * 2019-11-12 2021-03-02 中国地质大学(武汉) 一种基于逆强化学习的无人船多目标轨迹规划方法及系统
CN111539574A (zh) * 2020-04-28 2020-08-14 北京洛必德科技有限公司 用于多机器人的订单派送方法及系统
CN111539574B (zh) * 2020-04-28 2021-04-09 北京洛必德科技有限公司 用于多机器人的订单派送方法及系统
US11511413B2 (en) 2020-06-12 2022-11-29 Huawei Technologies Co. Ltd. Systems and methods for learning reusable options to transfer knowledge between tasks
WO2021248825A1 (en) * 2020-06-12 2021-12-16 Huawei Technologies Co., Ltd. Systems and methods for learning reusable options to transfer knowledge between tasks
CN112232350A (zh) * 2020-10-27 2021-01-15 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN112232350B (zh) * 2020-10-27 2022-04-19 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN114488879A (zh) * 2021-12-30 2022-05-13 深圳鹏行智能研究有限公司 一种机器人控制方法以及机器人
CN114488879B (zh) * 2021-12-30 2024-05-31 深圳鹏行智能研究有限公司 一种机器人控制方法以及机器人
CN114446121A (zh) * 2022-02-24 2022-05-06 汕头市快畅机器人科技有限公司 一种生命搜索集群教育机器人的控制方法
CN114446121B (zh) * 2022-02-24 2024-03-05 汕头市快畅机器人科技有限公司 一种生命搜索集群教育机器人的控制方法
CN115049688A (zh) * 2022-08-16 2022-09-13 之江实验室 基于强化学习思想的栅格地图区域划分方法及装置
CN115049688B (zh) * 2022-08-16 2022-11-18 之江实验室 基于强化学习思想的栅格地图区域划分方法及装置
CN115494844A (zh) * 2022-09-26 2022-12-20 成都朴为科技有限公司 一种多机器人搜索方法及系统
CN116673968A (zh) * 2023-08-03 2023-09-01 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统
CN116673968B (zh) * 2023-08-03 2023-10-10 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统
CN117168468A (zh) * 2023-11-03 2023-12-05 安徽大学 基于近端策略优化的多无人艇深度强化学习协同导航方法
CN117168468B (zh) * 2023-11-03 2024-02-06 安徽大学 基于近端策略优化的多无人艇深度强化学习协同导航方法

Similar Documents

Publication Publication Date Title
CN110174118A (zh) 基于强化学习的机器人多目标搜索路径规划方法和装置
Zhao et al. Tnt: Target-driven trajectory prediction
Deo et al. Trajectory forecasts in unknown environments conditioned on grid-based plans
CN110134140B (zh) 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN106949893B (zh) 一种三维避障的室内机器人导航方法和系统
CN106843235B (zh) 一种面向无人自行车的人工势场路径规划法
CN104571113B (zh) 移动机器人的路径规划方法
Xia et al. Neural inverse reinforcement learning in autonomous navigation
CN107402018B (zh) 一种基于连续帧的导盲仪组合路径规划方法
CN106873599A (zh) 基于蚁群算法和极坐标变换的无人自行车路径规划方法
CN107894773A (zh) 一种移动机器人的导航方法、系统及相关装置
CN107037812A (zh) 一种基于仓储无人车的车辆路径规划方法
CN108762264A (zh) 基于人工势场与滚动窗口的机器人的动态避障方法
CN110083165A (zh) 一种机器人在复杂狭窄环境下路径规划方法
Debnath et al. A review on graph search algorithms for optimal energy efficient path planning for an unmanned air vehicle
CN110231824A (zh) 基于直线偏离度方法的智能体路径规划方法
CN105911992A (zh) 一种移动机器人的自动规划路径方法及移动机器人
CN106444835A (zh) 基于Lazy Theta星和粒子群混合算法的水下潜器三维路径规划方法
CN113625716B (zh) 一种多智能体动态路径规划方法
Pal et al. Robot path planning using swarm intelligence: A survey
CN109445440A (zh) 基于传感器融合与改进q学习算法的动态避障方法
Baumann et al. Predicting ego-vehicle paths from environmental observations with a deep neural network
CN110032189A (zh) 一种不依赖地图的智能仓储移动机器人路径规划方法
Wang et al. Research on pursuit-evasion games with multiple heterogeneous pursuers and a high speed evader
Bayoumi et al. Speeding up person finding using hidden Markov models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190827

RJ01 Rejection of invention patent application after publication