CN110174118A

CN110174118A - 基于强化学习的机器人多目标搜索路径规划方法和装置

Info

Publication number: CN110174118A
Application number: CN201910461717.9A
Authority: CN
Inventors: 吴新开; 霍向; 马亚龙; 宋涛; 何山
Original assignee: Beijing Lobby Technology Co Ltd
Current assignee: Beijing Lobby Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-27

Abstract

本发明提供一种基于强化学习的机器人多目标搜索路径规划方法和装置。方法包括：对机器人进行目标搜索的地图信息和状态信息进行初始化；指示机器人按照第一搜索模式开始目标搜索，并同时启动搜索计时；第一搜索模式包括规则搜索模式、随机搜索模式；判断机器人是否在其当前探测范围区域搜索到目标；若为否，则指示机器人继续按照第一搜索模式执行目标搜索；若为是，则指示机器人按照第二搜索模式执行目标搜索；第二搜索模式为：先根据机器人的环境状态，基于强化学习算法获得机器人的状态‑动作对的评价值，再根据获得的机器人的状态‑动作对的评价值确定机器人执行的下一个动作。本发明提供的技术方案可以有效提高机器人对多目标搜索的速度和精度。

Description

基于强化学习的机器人多目标搜索路径规划方法和装置

技术领域

本发明涉及机器人控制技术领域，特别涉及一种基于强化学习的机器人多目标搜索路径规划方法和装置。

背景技术

目前，国内外对机器人进行区域目标搜索问题开展了较为广泛的研究，现有技术的搜索路径规划方法通常是采用规则搜索、随机搜索等搜索模型进行目标搜索。使用规则搜索模型进行目标搜索时，机器人的运动路径固定，对于移动同标搜索效率不高；使用随机搜索模型进行目标搜索时，需对环境具备一定的先验知识，而在实际应用中对待搜索区域的信息往往一无所知。因此，现有技术的搜索路径规划方法不具有普遍适用性。

发明内容

本发明的实施例提供一种基于强化学习的机器人多目标搜索路径规划方法和装置，用以提高机器人目标搜索的速度和精度。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供一种基于强化学习的机器人多目标搜索路径规划方法，包括：

对机器人进行目标搜索的地图信息和状态信息进行初始化；所述地图信息用于标识机器人进行目标搜索的环境区域，所述状态信息包括机器人的位置信息和朝向信息；

指示机器人按照第一搜索模式开始目标搜索，并同时启动搜索计时；所述第一搜索模式包括规则搜索模式、随机搜索模式；

判断机器人是否在其当前探测范围区域搜索到目标；

若为否，则指示机器人继续按照第一搜索模式执行目标搜索；

若为是，则指示机器人按照第二搜索模式执行目标搜索；所述第二搜索模式为：先根据机器人的环境状态，基于强化学习算法获得机器人的状态-动作对的评价值，再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作。

在第一方面的第一种可能的实现方式中，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，还包括：

根据搜索计时器记录的搜索时间，判断是否达到限定的搜索时间；

若为是，则终止搜索；

若为否，则继续判断机器人是否在其当前探测范围区域搜索到目标。

在第一方面的第二种可能的实现方式中，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，还包括：

判断机器人搜索出的目标数量是否趋于稳定；

若为是，则终止搜索；

在第一方面的第三种可能的实现方式中，机器人的环境状态根据机器人携带的传感器范围内各区域单元的状态、目标及障碍物的个数确定；

所述的区域单元是根据占据栅格的地图构建法将机器人运行环境区域的平面区域划分成的多个矩形单元。

结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式，在第四种可能的实现方式中，机器人的动作包括：保持当前方向前行、后退、左转弯、右转弯；

所述根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作，具体为：

将机器人的状态-动作对的评价值中的最大值对应的动作确定为机器人执行的下一个动作。

第二方面，本发明实施例提供一种基于强化学习的机器人多目标搜索路径规划装置，包括：

初始化模块，用于对机器人进行目标搜索的地图信息和状态信息进行初始化；所述地图信息用于标识机器人进行目标搜索的环境区域，所述状态信息包括机器人的位置信息和朝向信息；

执行模块，用于指示机器人按照第一搜索模式开始目标搜索，并同时启动搜索计时；所述第一搜索模式包括规则搜索模式、随机搜索模式；

判断模块，用于判断机器人是否在其当前探测范围区域搜索到目标；

若为否，则所述执行模块还用于指示机器人继续按照第一搜索模式执行目标搜索；

若为是，则所述执行模块还用于指示机器人按照第二搜索模式执行目标搜索；所述第二搜索模式为：先根据机器人的环境状态，基于强化学习算法获得机器人的状态-动作对的评价值，再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作。

在第二方面的第一种可能的实现方式中，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，所述判断模块还用于根据搜索计时器记录的搜索时间，判断是否达到限定的搜索时间；若为是，则终止搜索；若为否，则继续判断机器人是否在其当前探测范围区域搜索到目标。

在第二方面的第二种可能的实现方式中，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，所述判断模块还用于判断机器人搜索出的目标数量是否趋于稳定；若为是，则终止搜索；若为否，则继续判断机器人是否在其当前探测范围区域搜索到目标。

在第二方面的第三种可能的实现方式中，还包括：

处理模块，用于根据机器人携带的传感器范围内各区域单元的状态、目标及障碍物的个数确定机器人的环境状态；所述的区域单元是根据占据栅格的地图构建法将机器人运行环境区域的平面区域划分成的多个矩形单元。

结合第二方面或第二面的第一种可能的实现方式或第二方面的第二种可能的实现方式或第二方面的第三种可能的实现方式，在第四种可能的实现方式中，机器人的动作包括：保持当前方向前行、后退、左转弯、右转弯；

所述处理模块还用于将机器人的状态-动作对的评价值中的最大值对应的动作确定为机器人执行的下一个动作。

本发明实施例提供的技术方案，首先对机器人进行目标搜索的地图信息和状态信息进行初始化；然后指示机器人按照第一搜索模式开始目标搜索，并同时启动搜索计时；第一搜索模式包括规则搜索模式、随机搜索模式；再判断机器人是否在其当前探测范围区域搜索到目标；若为否，则指示机器人继续按照第一搜索模式执行目标搜索；若为是，则指示机器人按照第二搜索模式执行目标搜索；第二搜索模式为：先根据机器人的环境状态，基于强化学习算法获得机器人的状态-动作对的评价值，评价值的确定是根据之前机器人执行动作后获取的环境状态，包括执行动作后机器人状态是否搜索到目标以及搜索到目标的个数，以及是否搜索到了障碍物体及其个数，通过每搜索到一个目标给予系统一正奖励，搜索到一个障碍物体给予系统一负奖励。将综合获得的奖励转化为评价值。再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作。本发明提供的技术方案基于强化学习算法来改进搜索方式，提高强化学习的效率，从而最终提高值函数的搜索效率，效率的提高使得机器人能够快速地建立环境模型，从而优先选择搜索目标最多的地点，并计算出达到该地点的最优路径，有效提高了机器人目标搜索的速度和精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于强化学习的机器人多目标搜索路径规划方法的流程图；

图2为本发明提供的基于强化学习的机器人多目标搜索路径规划方法的应用实施例的示意图；

图3为本发明实施例提供的基于强化学习的机器人多目标搜索路径规划装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

强化学习(Reinforcement Learning，RL)是一种学习环境状态到动作映射的机器学习方法。图1为本发明提供的基于强化学习的机器人多目标搜索路径规划方法的流程图，该方法可以由机器人多目标搜索路径规划装置来执行，该规划装置可以通过软件方式实现，配置于机器人设备中。如图1所示，本实施例的方法可以包括以下内容。

S101、对机器人进行目标搜索的地图信息和状态信息进行初始化；地图信息用于标识机器人进行目标搜索的环境区域，状态信息包括机器人的位置信息和朝向信息。

S102、指示机器人按照第一搜索模式开始目标搜索，并同时启动搜索计时；第一搜索模式包括规则搜索模式、随机搜索模式。

S103、判断机器人是否在其当前探测范围区域搜索到目标。

若为否，则继续执行步骤S102，指示机器人继续按照第一搜索模式执行目标搜索。

若为是，则执行步骤S104。

S104、指示机器人按照第二搜索模式执行目标搜索；第二搜索模式为：先根据机器人的环境状态，基于强化学习算法获得机器人的状态-动作对的评价值，再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作。

机器人的环境状态根据机器人携带的传感器范围内各区域单元的状态、目标及障碍物的个数确定；所述的区域单元通常是根据占据栅格的地图构建法将机器人运行环境区域的平面区域划分成的多个矩形单元。评价值的确定是根据之前机器人执行动作后获取的环境状态，包括执行动作后机器人状态是否搜索到目标以及搜索到目标的个数，以及是否搜索到了障碍物体及其个数，通过每搜索到一个目标给予系统一正奖励，搜索到一个障碍物体给予系统一负奖励。将综合获得的奖励转化为评价值。机器人的动作包括：保持当前方向前行、后退、左转弯、右转弯。优选地，将机器人的状态-动作对的评价值中的最大值对应的动作确定为机器人执行的下一个动作。执行动作后将获取环境状态，包括执行该状态是否搜索到目标以及搜索到目标的个数，以及是否搜索到了障碍物体及其个数，通过每搜索到一个目标给予系统一正奖励，搜索到一个障碍物体给予系统一负奖励方式，使得机器人逐渐获取执行最优动作的规划路径。

本实施例提供的技术方案，对多样的环境(包括搜索目标对地点固定或随机的情况)有较强的适用性，在模型学习的效率上有很大提高，对机器人探索环境的速度和精度有显著改善，从而能够准确地优先处理搜索目标最多的地点。

如上所述的方法，其中，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，还包括：

若为是，则终止搜索；

判断机器人搜索出的目标数量是否趋于稳定(即已搜索完全部目标)；

若为是，则终止搜索；

本发明实施例提供的技术方案，可驱动机器人优先处理搜索目标可能最多的地点，以强化学习框架中Q学习算法为基础建立了路径规划算法，从而提高模型的学习效率，另外在有模型的情况下，使用动态规划算法更新值函数，以得到更精确的解，本发明实施例提供的技术方案，优点是模型学习效率较高，适用确定环境和随机环境，在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型，以规划出到达搜索目标最多地点的最优路径。

强化学习模型由三部分组成：智能体(agent)、策略(policy)和环境(environment)。智能体与环境之间进行交互。本申请中智能体为移动机器人。当智能体执行一个动作时，环境提供一个奖励(reward)。智能体选择动作作用于环境，改变环境的状态，迁移到新的环境状态，并得到环境的反馈信号，这个反馈信号通常称为奖赏或强化信号，智能体利用它通过一定的算法强化自己已经学习到的经验，它的目标是最大化累积期望奖赏。s_t∈S表示智能体在时刻t的状态，其中S是所有可能的状态集合。a_t∈A(s_t)表示智能体在时刻t所执行的动作，其中A(s_t)是在状态s_t时所有可能执行的动作集合。当处于状态s_t的智能体执行动作a_t时，接收到奖励r_t+1＝R，同时转移到下一状态s_t+1。

强化学习的目的是构造一个控制策略，使得智能体的行为性能达到最大。控制策略定义了智能体的行为，并且是从环境状态到动作之间的一个映射： π：S→A。策略定义了在任意状态s_t可以执行的动作：a_t＝π(s_t)。策略π的价值V^π(s_t) 是从状态s_t开始，遵循该策略的智能体所获得的期望累积奖励。

在有限的阶段内，智能体试图最大化期望策略：

在无限阶段模型中，不存在序列长度的限制，但是未来的奖励将被打折扣：

其中：0≤γ≤1是折扣率，保证所返回的奖励是有限。对每个策略π，存在其价值V^π(s_t)，确定最优策略π^*，使得：

在控制中，希望处理成对的状态-动作值Q(s_t，a_t)，而不是简单的V(s_t)。 Q(s_t，a_t)表示当处于状态s_t时执行动作a_t的价值；Q^*(s_t，a_t)为处于s_t状态时执行动作 a_t，并在其后遵循最优策略的期望累积奖励。则

对于每一个可能的下一状态s_t+1，以概率p(s_t+1|s_t，a_t)转移到s_t+1，并自此遵循最优策略，所得的期望累积奖励是V(s_t+1)。类似的，还可以有

一旦获得了Q^*(s_t，a_t)的值，就可以定义策略π为执行动作a_t，它在所有Q^*(s_t，a_t)中具有最大值π^*(s_t)：选择其中从而得到最优策略的动作序列。

本发明实施例中，通过对已知环境划分为可探测的若干区域，并进行标号，机器人在已知环境中利用装有的摄像头逐个区域不断进行搜索，机器人通过摄像头采集的信息，判断是否在该区域搜索到目标，未能搜索到目标的，则利用传统导航算法去往下一个区域，这样一次一次不断地测试；经过强化学习，形成一个最佳的路线规划，后续行驶按照已经学习的优化后路径进行。本发明实施例提供的技术方法兼具合理性和实用性，主要用在已知环境中，目标是实现目标搜索最优路径规划。

图2为本发明提供的基于强化学习的机器人多目标搜索路径规划方法的应用实施例的示意图。参考图2所示，本实施例的方法包括如下步骤：

步骤1)导入机器人运行的地图环境区域信息，初始化模型参数，包括初始机器人的位置、朝向等信息，对每个状态s、动作a，初始化动作值Q(s，a)为0；

在运行环境区域中分布着数量及位置均未知的障碍物和要搜索的目标对象。根据占据栅格的地图构建法将运行环境平面区域划分为m×n个矩形单元，假设传感器覆盖面积大致等于3×3个矩形单元的面积，记录每个单元的位置(x，y)，所有单元组成了机器人对环境的认知地图。每次机器人执行一个动作后其携带的传感器能监测到的覆盖区域内的可能状态可表示为一个集合：

S＝{E，O，T，O∩T}

其中：E为空(不存在任何搜索目标和障碍物)；O为只存在要搜索的目标；T 为只存在障碍物目标；O∩T为即存在要搜索的目标又存在障碍物。每个单元的可能状态为集合{E，O，T}，其真实状态(机器人对此未知)只能为{E，O，T}中的一种。

机器人从初始时刻开始运行，最初按照某一既定路径进行搜索，将搜索过程在时间上进行离散化处理，每一个时刻，机器人均会对当前探测范围内的区域进行一次搜索，根据传感器探测设备搜索结果确定当前环境状态以及要选取的动作，移动到相邻单元。在每个单元中，机器人获取的信息有要搜索的目标、障碍物的个数以及分布位置。

步骤2)“观测”当前环境：

a)机器人根据以下公式(1)选择一个动作执行；

其中，P(a_t|s)为对于状态s下选择动作a_i的概率。

本发明利用Q学习算法提供智能系统在马尔科夫环境中利用经历的动作序列选择最优动作的一种学习能力。Q学习的目标是寻找一个策略可以最大化将来获得的报酬。Q学习的思想是学习每个状态一动作对的评价值Q(s，a)。Q(s， a)值是从状态s时执行动作a后获得的累积回报价值。在决策时，agent只需比较状态s下每个动作a的Q值即Q(s，a)，就可以明确状态下的最优策略。

Q学习的基本形式如式(2)所示：

其中：y为折扣因子，Q^*Q+为智能体在状态s下执行动作a口所获得的回报折扣和。由此可知，最优策略为在s状态下选择Q值最大的行为。

机器人在搜索过程中，环境状态s依据传感器范围内各单元的状态、目标及障碍物的个数划分。传感器范围内共有九个单元，每个单元都有三种可能状态，因此整个搜索过程中，一共有3⁹个环境状态；机器人的动作集合A包含维持方向前行、后退、左转弯、右转弯三个动作。立即回报值为：

其中：bj＝1、0表示发现目标与否；Obs＝1、0表示其他障碍物与否。

b)根据传感器探测信息及飞机状态，利用式(3)计算回报值r，判断新状态s’；

c)按照下式更新Q(s，a)表项：

d)δ←δ’。

步骤3)如果机器人搜索到目标的数目趋于稳定或是达到限定搜索时间算法终止；否则转到b)。

Q学习算法是类似于动态规划算法的一种模型无关的强化学习算法，它提供智能系统在马尔可夫环境中利用经历的动作序列选择最优动作的一种学习能力。Q学习的目标是寻找一个策略可以最大化将来获得的报酬。Q学习的思想是学习每个状态一动作对的评价值Q(s，a)。Q(s，a)值是从状态S时执行动作a后获得的累积回报价值。在决策时，智能体只需比较状态s下每个动作a的Q值即Q(s，a)，就可以明确状态下的最优策略。

Q学习的基本形式如上式(2)所示。

智能体的每一次学习过程可以视作是从一个随机状态开始，采用一个策略来选择动作，如占贪婪策略或博曼(Bohzamann)分布策略。智能体在执行完所选的动作后，观察新的状态和回报，然后根据新状态的最大Q值和回报来更新上一个状态和动作的Q值。智能体将不断根据新的状态选择动作，直至到达一个终止状态。

图3为本发明实施例提供的基于强化学习的机器人多目标搜索路径规划装置的结构示意图。参考图3所示，本实施例的基于强化学习的机器人多目标搜索路径规划装置可以包括：初始化模块301、执行模块302、判断模块303。其中，初始化模块301用于对机器人进行目标搜索的地图信息和状态信息进行初始化；所述地图信息用于标识机器人进行目标搜索的环境区域，所述状态信息包括机器人的位置信息和朝向信息；执行模块302用于指示机器人按照第一搜索模式开始目标搜索，并同时启动搜索计时；所述第一搜索模式包括规则搜索模式、随机搜索模式；判断模块303用于判断机器人是否在其当前探测范围区域搜索到目标；若为否，则执行模块302还用于指示机器人继续按照第一搜索模式执行目标搜索；若为是，则执行模块302还用于指示机器人按照第二搜索模式执行目标搜索；所述第二搜索模式为：先根据机器人的环境状态，基于强化学习算法获得机器人的状态-动作对的评价值再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作。机器人的动作包括：保持当前方向前行、后退、左转弯、右转弯。

如上所述的装置，其中，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，判断模块303还用于根据搜索计时器记录的搜索时间，判断是否达到限定的搜索时间；若为是，则终止搜索；若为否，则继续判断机器人是否在其当前探测范围区域搜索到目标。

如上所述的装置，其中，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，判断模块303还用于判断机器人搜索出的目标数量是否趋于稳定；若为是，则终止搜索；若为否，则继续判断机器人是否在其当前探测范围区域搜索到目标。

如上所述的装置，还可以包括处理模块304，处理模块304用于根据机器人携带的传感器范围内各区域单元的状态、目标及障碍物的个数确定机器人的环境状态；所述的区域单元是根据占据栅格的地图构建法将机器人运行环境区域的平面区域划分成的多个矩形单元。处理模块304还用于将机器人的状态-动作对的评价值中的最大值对应的动作确定为机器人执行的下一个动作。

本实施例的基于强化学习的机器人多目标搜索路径规划装置可以用于执行图1所示方法实施例的方法，其实现原理和所要达到的技术效果类似，在此不再赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于强化学习的机器人多目标搜索路径规划方法，其特征在于，包括：

判断机器人是否在其当前探测范围区域搜索到目标；

2.如权利要求1所述的方法，其特征在于，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，还包括：

根据搜索计时器记录的搜索时间，判断是否达到限定的搜索时间若为是，则终止搜索；

3.如权利要求1所述的方法，其特征在于，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，还包括：

判断机器人搜索出的目标数量是否趋于稳定；

若为是，则终止搜索；

4.如权利要求1所述的方法，其特征在于，机器人的环境状态根据机器人携带的传感器范围内各区域单元的状态、目标及障碍物的个数确定；

5.如权利要求1-4任一项所述的方法，其特征在于，机器人的动作包括：保持当前方向前行、后退、左转弯、右转弯；

6.一种基于强化学习的机器人多目标搜索路径规划装置，其特征在于，包括：

若为是，则所述执行模块还用于指示机器人按照第二搜索模式执行目标搜索；所述第二搜索模式为：先根据机器人的环境状态，基于强化学习算法获得机器人的状态-动作对的评价值再根据获得的机器人的状态-动作对的评价值确定机器人执行的下一个动作。

7.如权利要求6所述的装置，其特征在于，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，所述判断模块还用于根据搜索计时器记录的搜索时间，判断是否达到限定的搜索时间；若为是，则终止搜索；若为否，则继续判断机器人是否在其当前探测范围区域搜索到目标。

8.如权利要求6所述的装置，其特征在于，在机器人继续按照第一搜索模式执行目标搜索或者机器人按照第二搜索模式执行目标搜索之后，所述判断模块还用于判断机器人搜索出的目标数量是否趋于稳定；若为是，则终止搜索；若为否，则继续判断机器人是否在其当前探测范围区域搜索到目标。

9.如权利要求6所述的装置，其特征在于，还包括：

10.如权利要求6-9任一项所述的装置，其特征在于，机器人的动作包括：保持当前方向前行、后退、左转弯、右转弯；