CN114089752A - 机器人的自主探索方法、机器人及计算机可读存储介质 - Google Patents

机器人的自主探索方法、机器人及计算机可读存储介质 Download PDF

Info

Publication number
CN114089752A
CN114089752A CN202111332418.9A CN202111332418A CN114089752A CN 114089752 A CN114089752 A CN 114089752A CN 202111332418 A CN202111332418 A CN 202111332418A CN 114089752 A CN114089752 A CN 114089752A
Authority
CN
China
Prior art keywords
robot
point
explored
exploration
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111332418.9A
Other languages
English (en)
Inventor
竺浩
吴泽晓
刘建平
宋昱慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen 3irobotix Co Ltd
Original Assignee
Shenzhen 3irobotix Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen 3irobotix Co Ltd filed Critical Shenzhen 3irobotix Co Ltd
Priority to CN202111332418.9A priority Critical patent/CN114089752A/zh
Publication of CN114089752A publication Critical patent/CN114089752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0234Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons
    • G05D1/0236Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0242Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using non-visible light signals, e.g. IR or UV signals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0248Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0255Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • G05D1/0285Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using signals transmitted via a public communication network, e.g. GSM network

Abstract

本发明提供了机器人的自主探索方法、机器人及计算机可读存储介质。该机器人的自主探索方法包括:以机器人当前位置作为待探索点,获取待探索点的状态数据;调用策略网络模型,根据策略网络模型对状态数据进行路径探索,以输出待探索点对应的目标信息;目标信息包括机器人下一步探索的目标点;基于目标点和待探索点,生成机器人的行走路径,并控制机器人按照行走路径进行探索。本发明的机器人的自主探索方法通过使用神经网络参数化表征的探索策略,有效提升了机器人的探索效率。

Description

机器人的自主探索方法、机器人及计算机可读存储介质
技术领域
本发明涉及机器人领域,尤其涉及一种机器人的自主探索方法、机器人 及计算机可读存储介质。
背景技术
机器人在一个环境中进行探索时,需要通过安装在机器人上的传感器感 知环境,通过感知到的数据进行建图与定位,进而规划下一步的探索路线。
传统的探索方法为基于边界的探索方法,即其将当前已知区域与未知区 域的交界定义为边界,进而在边界上根据采样策略采样得到下一步的探索目 标。然而,此类传统方法受噪声和位姿估计误差影响较大。与此同时,此类 传统方法无法利用环境的先验语义信息或特征进一步减少搜索空间,导致探 索效率较低。
有鉴于此,确有必要提出一种机器人的自主探索方法、机器人及计算机 可读存储介质,以解决上述问题。
发明内容
本发明的目的在于提供一种基于神经网络参数化表征方式的机器人的 自主探索方法、机器人及计算机可读存储介质,以提升机器人的探索效率。
为实现上述发明目的,本发明第一方面提供了一种机器人的自主探索方 法,该机器人的自主探索方法包括:
以机器人的当前位置作为待探索点,获取待探索点的状态数据;
调用策略网络模型,根据所述策略网络模型对状态数据进行路径探索,以 输出所述待探索点对应的目标信息;目标信息包括所述机器人下一步探索的目 标点;
基于目标点和待探索点,生成所述机器人的行走路径,并控制所述机器 人按照所述行走路径进行探索。
作为本发明的进一步改进,基于所述目标点和所述待探索点,生成所述机 器人的行走路径,并控制所述机器人按照所述行走路径进行探索之后,所述机 器人的自主探索方法还包括:
在所述机器人到达所述目标点的行进过程中不断计算预设信息对应的数据;
若所获取到的预设信息对应的数据满足预设特定条件,则控制所述机器 人执行所述预设特定条件对应的特定探索策略。
作为本发明的进一步改进,所述预设信息配置在机器人上,所述预设信 息至少包括已探索区域覆盖率值、第一预设时间内物理碰撞次数和待探索区 域的尺寸参数的一种或多种。
作为本发明的进一步改进,若所获取到的预设信息对应的数据满足预设 特定条件,则控制机器人执行所述预设特定条件对应的特定探索策略,所述 特定探索策略包括:
若所述机器人的已探索区域覆盖率值大于地图覆盖率阈值,则控制所述 机器人以预设路径执行探索操作;
若所述机器人在第一预设时间内物理碰撞次数大于碰撞次数阈值,则控 制所述机器人停止探索操作;
若所述机器人待探索区域的尺寸参数小于尺寸阈值时,则控制所述机器 人标记前方探索区域为障碍物。
作为本发明的进一步改进,基于所述目标点和所述待探索点,生成所述 机器人的行走路径,并控制所述机器人按照所述行走路径进行探索之后,所 述机器人的自主探索方法还包括:
若所述机器人在第二预设时间后仍未到达目标点,则基于所述机器人当 前所在位置重新更新目标点。
作为本发明的进一步改进,所述状态数据包括:当前时隙已建立的占据 栅格地图、表征机器人当前位置的图、表征机器人的历史运行路径的数据、 表征机器人已探知区域和未探知区域情况的数据和表征机器人一段时间内碰 撞位置和/或次数的数据中的一种或多种。
作为本发明的进一步改进,策略网络模型是经过训练的策略网络模型, 所述策略网络模型包括若干级联设置的卷积层、若干级联设置的全连接层以 及归一化层。
作为本发明的进一步改进,所述卷积层对状态数据进行映射变换或特征 提取,得到状态特征图,所述状态特征图经过所述全连接层及所述归一化层 处理后得到待探索目标图,所述待探索目标图包括所述目标点的坐标信息。
作为本发明的进一步改进,所述策略网络模型的训练中还配置有评价网 络,所述评价网络用于辅助所述策略网络模型的训练。
作为本发明的进一步改进,所述机器人的自主探索方法还包括:
根据所述待探索点对应的目标信息绘制所述机器人当前位置的局部地 图或全局地图。
为实现上述发明目的,本发明第二方面还提供了一种机器人,包括壳体、 收容在所述壳体内用于控制所述机器人运行的控制装置,所述机器人还包括 探索模块、数据处理模块、策略网络模型以及路径规划模块,所述探索模块 用于探索待探索点的信息;所述数据处理模块用于接收所述待探索点的信息, 并输出所述待探索点的状态数据;所述控制装置调用所述策略网络模型,将 状态数据输入所述策略网络模型,并通过所述策略网络模型输出所述待探索 点对应的目标信息;所述目标信息包括所述机器人下一步探索的目标点;所 述路径规划模块用于基于所述目标点和所述待探索点,生成所述机器人的行 走路径;所述控制装置用于控制所述机器人按照所述行走路径进行探索。
作为本发明的进一步改进,所述数据处理模块包括数据缓存、数据提取、 数据更新、数据预处理和数据合并的一种或多种处理程序。
作为本发明的进一步改进,所述机器人还包括定位建图模块,所述定位 建图模块用于根据所述待探索点对应的目标信息绘制所述机器人当前位置的 局部地图或全局地图。
作为本发明的进一步改进,所述策略网络模型包括若干层神经网络。
作为本发明的进一步改进,所述机器人还包括学习模块和评价模块,所 述学习模块用于训练策略网络模型,所述评价模块用于辅助策略网络模型的 训练。
为实现上述发明目的,本发明第三方面还提供了一种计算机可读存储介 质,所述计算机可读存储介质上存储有机器人的自主探索的程序,所述机器 人的自主探索的程序被控制装置执行时实现上述的机器人的自主探索方法。
本发明的有益效果是:本发明提供的一种机器人的自主探索方法、机器人 及计算机可读存储介质,主要应用于机器人在未知环境进行自主探索,通过获 取机器人当前位置的状态数据,使用策略网络模型对该状态数据进行路径探索, 并输出待探索点对应的目标信息,并基于该目标信息以及待探索点,生成机器 人的行走路径,根据该行走路径自主探索,并能根据预设信息,控制机器人执 行与预设信息对应的预设特定条件的特定探索策略,并且,该机器人在自主探 索过程中还能根据待探索点对应的目标信息绘制当前位置的局部地图或全局地 图。本发明通过使用神经网络参数化表征的探索策略,有效提升了机器人的探 索效率。
附图说明
图1是本发明机器人的自主探索方法的应用环境图。
图2是本发明机器人的自主探索方法的流程示意图。
图3是图2中机器人的自主探索方法的流程框图。
图4是策略网络模型执行第一映射变换的示意图。
图5是策略网络模型一较佳实施例的网络结构示意图。
图6是策略网络模型基于行动者-评价者框架的网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体 实施例对本发明进行详细描述。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附 图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与 本发明关系不大的其他细节。
另外,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设 备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、方法、物品或者设备所固有的要素。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本发明进行进一步详细说明。
本申请提供的机器人的自主探索方法,可以应用于如图1所示的扫地机 器人的应用环境中。其中,扫地机器人100可以包括但不限于传感器组件102、 控制装置104以及行走组件106等。该控制装置104部署有策略网络模型。 控制装置104可以执行该扫地机器人100的自主探索方法,控制扫地机器人 100的行走组件106执行对应的路径探索。具体地,传感器组件102采集扫 地机器人100当前位置的环境图像等状态数据,控制装置104调用扫地机器 人100上的策略网络模型,通过该策略网络模型对该环境图像的待探索点基 于探索策略处理,得到该扫地机器人100下一步探索的目标点,基于该目标 点生成扫地机器人100的行走路径,控制装置104控制扫地机器人100的行 走组件106按照行走路径进行移动。
传感器组件102具体可以包括但不限于激光测距装置、视觉传感器、红 外传感器、声波传感器、结构光、线激光器、摄像机以及深度相机等。控制 装置104具体可以包括但不限于中央处理器(CPU,Central processing unit) 和控制电路等处理器。行走组件106具体可以包括但不限于驱动轮和万向轮 等。
此外,扫地机器人100还可以通过网络与服务器或终端(未图示)进行 通信,以由服务器或终端对扫地机器人100进行控制。其中,终端可以但不 限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴 设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实 现。
在一实施例中,如图2-3所示,本发明提供了一种机器人100的自主探 索方法,用于控制机器人100完成待探索区域的自主探索,机器人100的自 主探索方法包括:
S201:以机器人100当前位置作为待探索点,获取待探索点的状态数据;
S202:调用策略网络模型,根据策略网络模型对状态数据进行路径探索, 以输出待探索点对应的目标信息;目标信息包括机器人100下一步探索的目标 点;
S203:基于目标点和待探索点,生成机器人100的行走路径,并控制机器 人100按照行走路径进行探索。
机器人100周期性地重复上述方法进行自主探索,当机器人100完成局 部探索任务或全局探索任务时,机器人100直接进入步骤S205:完成局部探 索任务或全局探索任务后停止自主探索。此时,机器人100也可以根据待探 索点对应的目标信息绘制机器人100当前位置的局部地图或全局地图。
需要知道的是,当机器人100在当前时隙结束时或机器人100在时隙结 束前抵达目标点时,控制装置104也可控制机器人100直接触发机器人100 自主探索方法的下一次迭代。
在一较佳实施例中,在机器人100自主探索前,将预设信息及其对应的 数据满足预设特定条件配置在机器人100上。当机器人100基于目标点和待探 索点,生成机器人100的行走路径,并控制机器人100按照行走路径进行探索 之后,机器人100会在自主探索的过程中,执行步骤S204:机器人100在到达 目标点的行进过程中不断计算预设信息对应的数据,并在机器人100到达目标 点的行进过程中不断计算预设信息对应的数据。
若机器人100所获取到的预设信息对应的数据不满足预设特定条件,此时, 机器人进入步骤S205,即,周期性重复上述方法进行自主探索,直至完成局 部探索任务或全局探索任务后停止自主探索。
若机器人100所获取到的预设信息对应的数据满足预设特定条件,则控制机 器人100进入步骤S206,即,机器人100进入或触发预设特定条件,控制机 器人100执行预设特定条件对应的特定探索策略的自主探索。
当预设特定条件对应的特定探索策略已经被机器人100执行完之后,机 器人100可以再次周期性的重复基于策略网络模型的自主探索方法,直至完 成局部探索任务或全局探索任务,或再次触发预设特定条件,控制机器人100 执行预设特定条件对应的特定探索策略的自主探索。
若机器人100在第二预设时间后仍未到达目标点,则控制机器人100进 入步骤S207:基于机器人100当前所在位置重新更新目标点。即以机器人 100当前的位置作为新的探索点,重新进入步骤S201,再次执行机器人100 的自主探索方法。
本发明的机器人100包含但不限于扫地机器人100、服务机器人100等 可以移动的机器人100,本发明的自主探索的周围环境包含但不限于室内场 景、室外场景、虚拟环境、仿真环境,在此不做详细描述,也不做任何限制。 为了描述清楚,以下说明书部分将以扫地机器人100在室内场景进行自主探 索为例,进行详细说明。
请参阅图2-3所示,当扫地机器人100在未知环境进行探索,该未知环 境可以是扫地机器人100在室内场景初次工作时,需要对室内场景进行全局 建图和/或探索。基于该未知环境下,为完成全局建图和/或探索,扫地机器 人100将连续时间轴分为多个时隙进行自主探索。在每个时隙开始时以扫地 机器人100当前位置作为待探索点,利用传感器或其他非传感模块感知周围环 境以获取所需数据,并根据定位建图模块生成地图与扫地机器人100位姿信 息等,再通过数据处理模块基于传感器所感知的环境信息、地图以及位姿信 息生成当前状态数据,即扫地机器人100待探索点的状态数据,从而基于该状 态数据预估扫地机器人100下一步待探索的目标点。
在一实施例中,传感器包含但不限于以下传感器中的一种或多种:激光 雷达、彩色相机、深度相机、红外传感器、超声波传感器、里程计、IMU(Inertial Measurement Unit,惯性测量单元或陀螺仪)、或可探知图像和/或距离数据的 其他类型传感器。从传感器获取的数据包括但不限于扫地机器人100处于当 前位置时通过传感器采集的数据:例如IMU、激光雷达和里程计采集的信息, 又如彩色相机和/或深度相机所采集到的RGB图像等;其中,扫地机器人100 配置的传感器的具体类型和具体数量可以根据扫地机器人100的具体应用场 景和具体需求进行配置,本发明实施例对扫地机器人100配置的传感器的具 体类型和数量不进行限定。
在一实施例中,步骤S201中的状态数据包括当前时隙已建立的占据栅格 地图,表征扫地机器人100当前位置的图,表征扫地机器人100的历史运行 路径的数据,表征扫地机器人100已探知区域和未探知区域情况的数据,表 征扫地机器人100一段时间内碰撞位置和/或次数的数据中一种或多种。
需要说明的是,当前时隙已建立的占据栅格地图指的是扫地机器人100 处于当前位置时由数据处理模块计算获取的当前位置的占据栅格地图,例如, 当占据栅格地图包含有表征地图坐标的像素位置、表征障碍物的几率像素值 时,像素值可为整数或0至1之间的小数。
表征扫地机器人100当前位置的图包括且不限于利用像素位置表示地图 坐标(像素值为二进制表示扫地机器人100当前是否处于该位置)、当前扫 地机器人100的姿势或角度、当前时隙相机所观察到的RGB图像。
表征扫地机器人100已探知区域和未探知区域情况的数据指的是扫地机 器人100利用像素位置表示地图坐标,像素值为二进制表示扫地机器人100 当前是否处于该位置来表征扫地机器人100已探知区域的数据,利用像素位 置表征地图坐标,像素值为二进制表示该位置是否已探知清楚,或像素值 为0至1之间的连续值表示该位置探索清楚的概率来表征扫地机器人100未 探知区域情况的数据。
表征扫地机器人100一段时间内碰撞位置和/或次数的图指的是扫地机器 人100利用像素位置表示地图坐标,其中,像素值表示扫地机器人100在一 段时间内碰撞该位置的和/或从邻区前往该位置产生的碰撞次数。
进一步地,在步骤S202中,扫地机器人100调用策略网络模型,该策略 网络模型使用策略算法使得扫地机器人100在面对新环境时能够自我学习,从 而使得扫地机器人100在任意未知环境中通过传感器感知和非传感器的硬件设 备采集等环境交互,使得扫地机器人100对下一步所要采取的行动作出决策, 进而获得扫地机器人100在不同环境下的探索策略,以使扫地机器人100能够 自主适应千家万户的环境以及同一个家庭环境随着时间而改变的环境。上述探 索策略可以是扫地机器人100下一步移动的目标点的移动策略,也可以是扫地 机器人100在达到目标点过程中进行的清洁策略。其中,该策略网络模型由若干层神经网络组成,输入为当前状态数据,输出为待探索点对应的目标信息。
扫地机器人100在每一时隙中通过传感器等设备不断采集环境信息,经过处 理后得到的状态数据输入到该策略网络模型,根据策略网络模型对状态数据进 行路径探索,用以通过合适策略,以输出待探索点对应的目标信息。其中,目 标信息包括扫地机器人100下一步探索的目标点。
在一种实施方式中,策略网络模型首先输出一个待探索栅格图,待探索栅 格图的像素位置表示地图坐标,像素值为该像素被选为待探索点对应的目标点 的概率。为了输出一个待探索点对应的目标点,扫地机器人100从待探索栅格 图中按像素值所表征的概率对该图中的像素进行采样,采样得到的像素所表征 的坐标即为选择的待探索点对应的目标点。
在本发明的一较佳实施例中,策略网络模型接收的占据栅格地图的尺寸 可以大于、等于或小于策略网络输出的待探索栅格图尺寸。策略网络模型包 含多种映射变换,以使得接收的占据栅格地图的尺寸与待探索栅格图尺寸, 具体地,当占据栅格地图的尺寸大于待探索栅格图的尺寸时,可执行用于将 大尺寸图映射为小尺寸图的第一映射变换。
可选地,第一映射变换包含但不限于以下操作的一个或多个:采样、池 化、卷积、编码、解码、编解码、编解码变换、Transformer、RNN、LSTM。
请参阅图4所示,第一映射变换的输入包含一个或多个大尺寸图,第一 映射的输出包含一个或多个小尺寸图。可选地,第一映射变换的输入包含以 下一个或多个尺寸为M*N的占据栅格地图(如图4中A部分),其中,图 a:为当前时隙已建立的占据栅格地图(例如,像素位置表征地图坐标,像素 值表征障碍物的几率,像素值可为整数或0至1之间的小数),图b:表征 扫地机器人100当前位置的图(例如,像素位置表示地图坐标,像素值为二 进制表示扫地机器人100当前是否处于该位置),图c:表征扫地机器人100 历史路线的图(例如,像素位置表示地图坐标,像素值为二进制表示扫地机 器人100当前是否处于该位置),图d:表征地图探索情况的图(例如,像 素位置表征地图坐标,像素值为二进制表示该位置是否已探知清楚,或像素 值为0至1之间的连续值表示该位置探索清楚的概率),图e:表征扫地机 器人100一段时间内碰撞位置和/或次数的图(例如,像素位置表示地图坐标, 像素值表示扫地机器人100在该位置的和/或从领区前往该位置产生的碰撞 次数)。其中,上述一段时间可以根据用户需求或环境需求进行设定,例如 5s,6.5s,也可以是一区域范围,例如7.5~10s。
此时,策略网络模型执行第一映射变换,且此时第一映射变换为下采样 和/或最大池化,以输出一个或多个X*Y的图,其中,X≤M,Y≤N,即待 探索栅格图如图4中B部分的图f和图g,完成大尺寸占据栅格地图到小尺 寸待探索栅格图的转换。
在本发明一种可选实施例中,策略网络模型是经过训练的策略网络模型, 策略网络模型包括级联的若干卷积层、若干全连接层以及归一化层。若干卷积 层对状态数据进行映射变换或特征提取,得到状态特征图,状态特征图经过若 干全连接层及归一化层处理后得到待探索目标图,待探索目标图包括目标点的 坐标信息。
当策略网络模型中输入的环境信息包含RGB图像时,策略网络模型包含 提取RGB图像特征的单层或多层卷积网络,用以获取RGB获取特征。可选 地,全连接层的输入包括且不限于扫地机器人100姿势(角度)、第一映射 变换输出的小尺寸图、策略网络其他网络层的输出。当全连接层的输出为一 个待探索栅格图,待探索栅格图的像素位置表示地图坐标,像素值为该像素 被选为待探索点对应的目标点的概率。
可选地,策略网络模型是经过训练的策略网络模型。策略网络模型的训练 是指在扫地机器人100正式工作或探索于工作场景中之前,策略网络模型可 以在与工作场景相同类型的一个或多个场景中进行训练,以获得合适的策略 网络参数进而保证扫地机器人100在工作场景中进行探索时的性能。
定义在策略网络模型训练过程中所使用的场景为训练场景,则策略网络 模型的训练过程包含以下一个或多个步骤。
步骤一、初始化策略网络模型,即将策略网络参数进行初始化设置,如 对策略网络参数进行随机取值。
步骤二、可选地,利用模仿学习对策略网络模型进行训练。
步骤三、依据策略网络模型所表征的策略在训练场景中运行扫地机器人 100,并收集训练数据。其中,训练数据包含各个时间步骤中的当前状态数据, 待探索点对应的目标点,奖励信息。在本实施例中,奖励包含表征新增探测 区域大小或栅格个数的正奖励,表征碰撞次数的负奖励,表征探索路长的负 奖励,表征地图不确定性减少的正奖励,表征重复探索的负奖励,表征真实 地图与估计地图的误差中的一个或多个。
步骤四、根据训练数据,利用深度强化学习算法对策略网络模型进行训 练,对策略网络参数进行更新。
可选的,深度强化学习算法还可包含评价者网络,用以辅助策略网络模 型进行训练。利用评价者网络可以加快策略网络模型的训练,使得策略网络 模型的训练更稳定,进而能够更快速做出更准确的行动选择,同时也减少计 算量。
步骤五、迭代重复步骤三和步骤四,直至满足训练结束条件。
其中,训练结束条件包括但不限于迭代次数超过一个迭代次数预设值, 迭代时间超过一个迭代时间预设值,策略网络的性能超过一个性能门限值中 的一个或多个。
需要说明的是,本实施例中的训练场景为虚拟训练场景和实际训练场景。 可选地,训练场景与工作场景是否属于同一类型与其它们是否是虚拟或实际 场景可以无关。
请参阅图5所示,为本发明一较佳实施例的策略网络模型的网络结构示 意图,在本实施例中,策略网络包含输入、一或多个卷积层、一或多个全连 接层以及输出。
可选地,所属输入包含输入1和输入2。输入1的尺寸为5*M*N,即表 示5个通道,每个通道的尺寸为M*N。第1个通道的输入数据为前时隙已 建立的占据栅格地图,其中,像素位置(m,n)表征地图坐标,像素值表征该坐 标上存在障碍物的概率,像素值可为整数或0至1之间的小数,像素值为1 代表该像素对应位置存在障碍物,像素值为0代表该像素位置不存在障碍物。 第2个通道的输入数据为表征扫地机器人100当前位置的图,其中,像素位 置(m,n)表征地图坐标,像素值可为0或1,像素值为0代表扫地机器人100 不在该像素对应的位置上,像素值为1代表扫地机器人100在该像素对应的 位置上。第3个通道的输入数据为表征扫地机器人100历史路线的图,其中, 像素位置(m,n)表征地图坐标,像素值可为0或1,像素值为1代表扫地机器 人100曾经经过该像素对应的位置,像素值为0代表扫地机器人100未曾经 过该像素对应的位置。第4个通道的输入数据为表征地图探索情况的图,像 素位置(m,n)表征地图坐标,像素值可为0或1,像素值为0代表该像素对应 的位置未探知清楚,像素值为1代表该像素对应的位置已探知清楚。第5个 通道上的输入数据为表征扫地机器人100一段时间内碰撞位置和/或次数的 图,像素位置(m,n)表征地图坐标,像素值可为0或1,像素值为1代表扫地 机器人100在该位置的和/或从邻区前往该位置发生了碰撞,否则,像素值为 0。
输入2为扫地机器人100的当前旋转角,表征扫地机器人100在占据栅 格地图中的朝向。
输入1的数据输入一个或多个卷积层进行处理,一个或多个卷积层的最 终输出的尺寸为X*Y,代表一个或多个卷积层从输入1提取出的第一隐藏特 征信息。
第一隐藏特征信息与输入2一起输入至一个或多个全连接层进行处理, 输出的尺寸为X*Y,经过逻辑回归(softmax)处理后的输出表征一个待探 索栅格图,待探索栅格图的像素位置(x,y)表示地图坐标,像素值为该像素对 应位置被选为待探索点对应的目标点的概率。
在正式工作时,扫地机器人100根据当前状态生成输入1和输入2的数 据,策略网络模型根据输入推导出相应输出,扫地机器人100对输出的待探 索栅格图按像素值所表示的概率进行采样得到相应的待探索点对应的目标点 的坐标。
在利用深度强化学习对策略网络进行训练时,策略网络又称为行动者网络。 在训练时,可引入一个评价者网络来增加训练稳定性。请参阅图6所示,为本 发明一较佳实施例的策略网络模型基于行动者-评价者框架的网络结构示意 图。评价者网络与行动者网络结构类似,区别在于评价者网络的输出与行动 者网络的输出不相同。评价者网络的输出为状态值函数,评价者网络的输 出的尺寸为一个实数。评价者网络中最后一个网络层,即图6中的靠近评价 者网络输出的全连接层将倒数第二个网络层所输出的数据线性映射为一个实数。
在一种可选实施例中,扫地机器人100在时隙t的状态,即输入由st表 示;扫地机器人100在时隙t采取的动作由at表示;扫地机器人100在时隙 t获得的奖励由rt表示,则rt=δF(t)+βL(t)+μC(t),其中,F(t)表示扫地机 器人100在时隙t内采取动作at后新增的探索区域大小,L(t)代表扫地机器 人100在时隙t内行驶过的路径长度,C(t)代表扫地机器人100在时隙t内 发生的碰撞次数,δ,β,μ为权重系数,行动者网络的网络参数由θ表示, 评价者网络的网络参数由θv表示,则行动者网络的输出由表示π(at/st;θ), 代表待探索栅格图中像素位置为at的像素被选为目标点的概率;评价者网络 的输出可由V(st;θv)表示,代表扫地机器人100在状态st时遵循策略所能获得 的回报期望值的估计值。其中,回报代表累积折扣奖励,折扣率为γ。
具体地,采用行动者-评价者强化学习算法框架对策略网络模型进行更新 的步骤如下所示:
步骤一、初始化神经网络,即将神经网络参数进行初始化设置,如对神 经网络参数进行随机取值。具体地,该初始化可以是扫地机器人100所处的 环境状态以及当前位姿信息。
步骤二、依据策略网络模型所表征的策略在训练场景中运行扫地机器人 100,并收集训练数据。训练数据包含各个时间步骤(例如,t=0,1,2,......, T)中的状态数据,选取的待探索点对应的目标点,奖励和下一时刻的状态 数据,即st、at、rt、st+1
步骤三、每间隔J个时隙对评价者网络的网络参数θv进行更新。更新时, 从步骤二收集到的数据中选取一个批次的数据作为训练数据,批次大小为 B1。训练评价者网络的目标是将估计值V(st;θv)与目标值rt+γV(st+1;θv)之间 的均方差最小化。换言之,训练评价者网络的损失函数为(rt+γV(st+1;θv)- V(st;θv))2
可选地,以梯度下降方法对θv进行更新,更新方程如下,其中a′为评价 者网络的学习率:
Figure BDA0003349281790000141
步骤四、每间隔I个时隙对行动者网络的网络参数θ进行更新。更新时, 从步骤二收集到的数据中选取一个批次的数据作为训练数据,批次大小为 B2。训练行动者网络的目标是最大化扫地机器人100获得的回报,即累积折 扣奖励或奖励的期望。
可选地,以策略梯度方法对θ进行更新,更新方程如下:
Figure RE-GDA0003396091340000142
其中a为行动者网络的学习率,A(st,at;θ,θv)代表在st下采取动作at相 比遵循策略π(at/st;α)所能带来的回报优势大小,由A(st,at;θ,θv)=rt+ γV(st+1;θv)-V(st;θv)进行估计。
步骤五、迭代重复步骤二~四,直至满足训练结束条件,符合训练结束 条件所得到的网络模型为策略网络模型。
其中,该训练结束条件包含以下一个或多个:迭代次数超过一定次数, 例如,100000次;时隙步数超过一定次数,例如,10000000次;评价者网 络的损失函数值在一定次迭代次数中不减反增;行动者网络训练的目标值在 一定迭代次数中不增反减。
进一步地,基于目标点和待探索点,路径规划模块生成扫地机器人100的 行走路径,通过控制装置控制扫地机器人100按照行走路径进行探索。
当然,扫地机器人100除了可以通过路径规划模块生成扫地机器人100 的行走路径外,也可以通过预存在扫地机器人100预设信息中的预设路径进 行探索。该预设路径可以为控制扫地机器人100沿当前位置的边界运行的沿 边路径或控制机器人100在当前位置的边界区域内运行的弓字形路径,当然 在本发明的其它实施例中,探索路径还可为区别于预设路径的其他路径形式, 此时策略网络模型可按照奖励最高原则从已规划的路径中筛选探索路径,保 证扫地机器人100可遵循探索路径完成当前位置的探索。
进一步地,扫地机器人100根据待探索点对应的目标信息绘制当前位置的 局部地图或全局地图。具体的,局部地图和全局地图中栅格地图数据的获取由 策略网络模型处理获得,控制装置104根据栅格地图数据和路径规划模块传递 的路径信息,建立自主探索对应的局部地图和/或全局地图。
扫地机器人100周期性重复上述方法进行自主探索,直至完成局部探索 任务或全局探索任务,停止探索,即进入步骤S205。当然,扫地机器人100 在在当前时隙结束时或扫地机器人100在时隙结束前抵达目标点时,控制装 置104可控制扫地机器人100也可直接触发扫地机器人100自主探索方法的 下一次迭代。
在一较佳实施例中,在机器人100自主探索前,将预设信息及其对应的 数据满足预设特定条件配置在机器人100上。扫地机器人100周期性重复上 述方法进行自主探索,基于目标点和待探索点,生成扫地机器人100的行走 路径,并控制扫地机器人100按照行走路径进行探索之后,进入步骤S204: 在扫地机器人100到达目标点的行进过程中不断计算预设信息对应的数据, 并根据计算结果,控制机器人100进入步骤S205或S206。
在自主探索过程中,若没有触发预设特定条件,则控制扫地机器人100 进入步骤S205:继续周期性重复上述方法进行自主探索,直至完成局部探索 任务或全局探索任务后停止自主探索。
在自主探索过程中,若触发预设特定条件,则控制扫地机器人100进入 步骤S206,即执行预设特定条件对应的特定探索策略的自主探索。
进一步地,预设信息及其对应的数据满足预设特定条件配置在扫地机器人 100上,具体地,预设信息及其对应的数据满足预设特定条件存储在扫地机器 人100的控制装置104中,通过数据处理模块比较当前状态的信息与预设信息, 并通过控制装置104控制扫地机器人100执行预设特定条件对应的特定探索 策略。
预设信息至少包括已探索区域覆盖率值、第一预设时间内物理碰撞次数和待 探索区域的尺寸参数的一种或多种,待探索区域的尺寸参数包括待探索区域的 面积值、长度值和高度值中的一种或多种。
在一实施例中,第一预设时间可以为数值阈值,也可以为区间阈值,其可根 据用户需要或环境需要进行设定。例如,第一预设时间为7s或2.2~5.5s,其也 可以设定为扫地机器人100的采集时隙对应的时间等。
若所获取到的预设信息对应的数据满足预设特定条件,则控制扫地机器 人100执行预设特定条件对应的特定探索策略,特定探索策略包括:
若扫地机器人100的已探索区域覆盖率值大于地图覆盖率阈值,则控制 扫地机器人100以预设路径执行探索操作。该预设路径可以为控制扫地机器 人100沿当前位置的边界运行的沿边路径或控制扫地机器人100在当前位置 的边界区域内运行的弓字形路径等预先设定在扫地机器人100控制装置104 中的路径。其中,该地图覆盖率阈值可以为百分比,如70%,80%等。若扫 地机器人100的已探索区域覆盖率值大于70%,则控制扫地机器人100以预 设路径进行探索操作。该预设路径可以是以原来路径如弓字型继续探索,也 可以是目标点与待探索点的随机路径或最优路径进行探索等。该预设路径是 预先设定在扫地机器人100上,并建立预设特定条件与预设路径的映射关系, 在一些实施例中,一个预设特定条件可选择多个预设路径进行探索,也可选 择对应一个预设路径进行探索。
若扫地机器人100在第一预设时间内物理碰撞次数大于碰撞次数阈值, 则控制扫地机器人100停止探索操作。即控制扫地机器人100放弃当前位置 的探索,回到初始位置,或者以预设路径探索当前位置,或者通过除策略网 络模型以外的其他探索算法对探索目标进行自主探索。其中,该碰撞次数阈 值可以为3次,也可以为5次等。
若扫地机器人100待探索区域的尺寸参数小于尺寸阈值时,则控制扫地 机器人100放弃前方区域的探索和/或标记前方探索区域为障碍物。其中,该 尺寸阈值与特定的障碍物的尺寸大小关联,特定的障碍物可以为墙、鞋子、 袜子、电线、桌子、凳子等,不同的障碍物对应的尺寸阈值也是不同的,尺 寸阈值与障碍物的类别相对应。
需要说明的是,上述不管是预设特定条件、特定探索策略都并非限定的。 在一种实施例中,当扫地机器人100当前位置所在的待探索区域为室内场景 时,预设信息对应的数据满足预设特定条件还包括单个房间建图覆盖率大于 一个单房间地图覆盖率阈值,整个房屋建图覆盖率大于一个全屋建图覆盖率 阈值,一段时间内碰撞次数大于一个碰撞次数阈值,前方障碍物小于一个面 积阈值或长度阈值。此时,扫地机器人100的特定探索策略包括但不限于以 下一种或多种:结束扫地机器人100当前房间的建图并/或移往下一个房间、 结束整屋的建图工作并/或回到初始位置(如扫地机器人100的充电桩)、放 弃前方区域的探索和/或标记前方区域为障碍物。
当预设特定条件对应的特定探索策略已经被扫地机器人100执行完之后, 扫地机器人100可以再次周期性的重复基于策略网络模型的自主探索方法, 直至完成局部探索任务或全局探索任务,或再次触发预设特定条件,控制扫 地机器人100执行预设特定条件对应的特定探索策略的自主探索。
需要说明的是,在当前时隙结束时扫地机器人100仍未抵达目标点时, 下一时隙规划的目标点可能发生变化。即扫地机器人100进入步骤S207:基 于目标点和待探索点,生成扫地机器人100的行走路径,并控制扫地机器人 100按照行走路径进行探索之后,若扫地机器人100在第二预设时间后仍未 到达目标点,则基于扫地机器人100当前所在位置重新更新目标点。然后路 径规划模块基于更新目标点和更新的探索点,再次生成扫地机器人100的行 走路径,并控制扫地机器人100按照行走路径进行探索。
本发明通过使用神经网络参数化表征的探索策略,有效提升了扫地机器 人100的探索效率,尤其是提升了扫地机器人100在未知区域的探索效率。
本发明另外提供了一种机器人100,包括壳体、收容在壳体内用于控制 机器人100运行的控制装置104、探索模块、数据处理模块、策略网络模型、 定位建图模块以及路径规划模块。
探索模块用于探索当前位置的周围环境,即待探索点的信息。探索模块 包括传感器或其他非传感器的模块。探索模块包括并不限于用于探索机器人 100当前位置的环境信息、位姿信息、地图的一种或多种。
数据处理模块分别与探索模块、路径规划模块以及定位建图模块连接。 数据处理模块用于接收探索模块探索到的待探索点的信息,并输出待探索点 的状态数据。数据处理模块包括数据缓存、数据提取、数据更新、数据预处 理和数据合并的一种或多种处理程序。该数据处理模块可以为传感器内的数 据处理模块,也可以为控制装置104内的数据处理模块。
控制装置104部署有策略网络模型,该策略网络模型运用基于深度学习 的机器人100自主探索策略,该策略可适应移动机器人100从随机起点到任 意终点自主导航探索,使用深度强化学习来训练机器人100在未知环境下的 探索行为,使其能适应未知环境,并且即使环境发生了变化,机器人100同样可 以执行对应的探索任务。该控制装置104可以为中央处理器与控制电路构成 的控制器,该控制装置104将数据处理模块处理后的状态数据输入该策略网 络模型,通过该策略网络模型输出待探索点对应的目标信息。其中,目标信 息包括目标点对应的坐标信息,通过该坐标信息即可获知该机器人100下一 步探索的目标点。
路径规划模块基于目标点和待探索点,生成机器人100的行走路径,控 制装置104控制机器人100按照行走路径进行探索。
当然,控制装置104也可以在机器人100遇到与预设信息对应的预设特 定条件后,控制机器人100执行与预设特定条件对应的特定探索策略,并在 特定探索策略检索完成后,再次以机器人100当前位置为待探索点,重新更 新目标点。
机器人100还包括定位建图模块,定位建图模块根据待探索点对应的目 标信息绘制机器人100当前位置的局部地图或全局地图。
策略网络模型包括若干层神经网络,输入为当前状态数据,输出为待探 索点对应的目标信息。进一步地,该策略网络模型包括级联的若干卷积层、 若干全连接层以及归一化层。若干卷积层对状态数据进行映射变换或特征提 取,得到状态特征图,状态特征图经过若干全连接层及归一化层处理后得到 待探索目标图,待探索目标图包括目标点的坐标信息。通过策略网络模型的 若干层神经网络,可以使得机器人100能够从大规模的原始数据中自动学习 环境或对象的抽象特征,进而提高机器人100的探索效率。
进一步地,机器人100还包括学习模块和评价模块,学习模块用于训练 策略网络模型,评价模块用于辅助策略网络模型的训练。通过学习模块和评 价模块,可以有效的训练策略网络模型和评价策略网络模型,以进一步地提 高策略网络模型的探索效率以及探索准确率,进而提高机器人100基于策略 网络模型的自主探索路径的探索效率以及探索准确率。
本发明提供的机器人100,可以通过控制装置104里的各种模块有效的 控制机器人100执行上述自主探索的方法,进而实现具有同上述机器人100 的自主探索方法同样的实际效果。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储 有机器人100的自主探索的程序,机器人100的自主探索的程序被控制装置 104执行时实现上述的机器人100的自主探索方法,故本计算机可读存储介 质具有同上述机器人100的自主探索方法同样的实际效果。
综上所述,本发明提供的一种机器人100的自主探索方法、机器人100 及计算机可读存储介质,主要应用于机器人100在未知环境进行自主探索,通 过获取机器人100当前位置的状态数据,使用策略网络模型对该状态数据进行 路径探索,并输出待探索点对应的目标信息,并基于该目标信息以及待探索点, 生成机器人100的行走路径,根据该行走路径自主探索,并能根据预设信息, 控制机器人100执行与预设信息对应的预设特定条件的特定探索策略,并且, 该机器人100在自主探索过程中还能根据待探索点对应的目标信息绘制当前位 置的局部地图或全局地图。本发明通过使用神经网络参数化表征的探索策略, 有效提升了机器人100的探索效率。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施 例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发 明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范 围。

Claims (16)

1.一种机器人的自主探索方法,其特征在于,所述机器人的自主探索方法包括:
以机器人的当前位置作为待探索点,获取所述待探索点的状态数据;
调用策略网络模型,根据所述策略网络模型对所述状态数据进行路径探索,以输出所述待探索点对应的目标信息;所述目标信息包括所述机器人下一步探索的目标点;
基于所述目标点和所述待探索点,生成所述机器人的行走路径,并控制所述机器人按照所述行走路径进行探索。
2.根据权利要求1所述的机器人的自主探索方法,其特征在于,基于所述目标点和所述待探索点,生成所述机器人的行走路径,并控制所述机器人按照所述行走路径进行探索之后,所述机器人的自主探索方法还包括:
在所述机器人到达所述目标点的行进过程中不断计算预设信息对应的数据;
若所获取到的预设信息对应的数据满足预设特定条件,则控制所述机器人执行所述预设特定条件对应的特定探索策略。
3.根据权利要求2所述的机器人的自主探索方法,其特征在于:所述预设信息配置在所述机器人上,所述预设信息至少包括已探索区域覆盖率值、第一预设时间内物理碰撞次数和待探索区域的尺寸参数的一种或多种。
4.根据权利要求3所述的机器人的自主探索方法,其特征在于,若所获取到的预设信息对应的数据满足预设特定条件,则控制所述机器人执行预设特定条件对应的特定探索策略,所述特定探索策略至少包括:
若所述机器人的已探索区域覆盖率值大于地图覆盖率阈值,则控制所述机器人以预设路径执行探索操作;
若所述机器人在第一预设时间内物理碰撞次数大于碰撞次数阈值,则控制所述机器人停止探索操作;
若所述机器人获取的待探索区域的尺寸参数小于尺寸阈值时,则控制所述机器人标记前方探索区域为障碍物。
5.根据权利要求1所述的机器人的自主探索方法,其特征在于,所述基于所述目标点和所述待探索点,生成所述机器人的行走路径,并控制所述机器人按照所述行走路径进行探索之后,所述机器人的自主探索方法还包括:
若所述机器人在第二预设时间后仍未到达所述目标点,则基于所述机器人当前所在位置重新更新所述目标点。
6.根据权利要求1所述的机器人的自主探索方法,其特征在于,所述状态数据包括:当前时隙已建立的占据栅格地图、表征机器人当前位置的图、表征机器人的历史运行路径的数据、表征机器人已探知区域和未探知区域情况的数据和表征机器人一段时间内碰撞位置和/或次数的数据中的一种或多种。
7.根据权利要求1所述的机器人的自主探索方法,其特征在于:所述策略网络模型是经过训练的策略网络模型,所述策略网络模型包括若干级联设置的卷积层、若干级联设置的全连接层以及归一化层。
8.根据权利要求7所述的机器人的自主探索方法,其特征在于:通过所述卷积层对所述状态数据进行映射变换或特征提取,得到状态特征图,所述状态特征图经过所述全连接层及所述归一化层处理后得到待探索目标图,所述待探索目标图包括所述目标点的坐标信息。
9.根据权利要求7所述的机器人的自主探索方法,其特征在于,所述策略网络模型的训练中还配置有评价网络,所述评价网络用于辅助所述策略网络模型的训练。
10.根据权利要求1所述的机器人的自主探索方法,其特征在于,所述机器人的自主探索方法还包括:
根据所述待探索点对应的目标信息绘制所述机器人当前位置的局部地图或全局地图。
11.一种机器人,包括壳体、收容在所述壳体内用于控制所述机器人运行的控制装置,其特征在于:所述机器人还包括探索模块、数据处理模块、策略网络模型以及路径规划模块,所述探索模块用于探索待探索点的信息;所述数据处理模块用于接收所述待探索点的信息,并输出所述待探索点的状态数据;所述控制装置调用所述策略网络模型,将状态数据输入所述策略网络模型,并通过所述策略网络模型输出所述待探索点对应的目标信息;所述目标信息包括所述机器人下一步探索的目标点;所述路径规划模块用于基于所述目标点和所述待探索点,生成所述机器人的行走路径;所述控制装置用于控制所述机器人按照所述行走路径进行探索。
12.根据权利要求11所述的机器人,其特征在于:所述数据处理模块包括数据缓存、数据提取、数据更新、数据预处理和数据合并的一种或多种处理程序。
13.根据权利要求11所述的机器人,其特征在于:所述机器人还包括定位建图模块,所述定位建图模块用于根据所述待探索点对应的目标信息绘制所述机器人当前位置的局部地图或全局地图。
14.根据权利要求11所述的机器人,其特征在于:所述策略网络模型包括若干层神经网络。
15.根据权利要求11所述的机器人,其特征在于:所述机器人还包括学习模块和评价模块,所述学习模块用于训练所述策略网络模型,所述评价模块用于辅助所述策略网络模型的训练。
16.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质上存储有机器人的自主探索的程序,所述机器人的自主探索的程序被控制装置执行时实现如权利要求1-10任一项所述机器人的自主探索方法。
CN202111332418.9A 2021-11-11 2021-11-11 机器人的自主探索方法、机器人及计算机可读存储介质 Pending CN114089752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111332418.9A CN114089752A (zh) 2021-11-11 2021-11-11 机器人的自主探索方法、机器人及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111332418.9A CN114089752A (zh) 2021-11-11 2021-11-11 机器人的自主探索方法、机器人及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114089752A true CN114089752A (zh) 2022-02-25

Family

ID=80299971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111332418.9A Pending CN114089752A (zh) 2021-11-11 2021-11-11 机器人的自主探索方法、机器人及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114089752A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114589708A (zh) * 2022-02-28 2022-06-07 华南师范大学 基于环境信息的室内自主探索方法、装置及机器人
CN115471731A (zh) * 2022-08-23 2022-12-13 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及设备
CN116429137A (zh) * 2023-03-22 2023-07-14 上海知而行科技有限公司 用于清扫装置的遍历路径生成方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111208820A (zh) * 2020-01-09 2020-05-29 哈尔滨工程大学 人工智能大数据下粒子化无人车组、控制方法及介质
JP2020135561A (ja) * 2019-02-21 2020-08-31 新東工業株式会社 自律移動ロボット
CN112148008A (zh) * 2020-09-18 2020-12-29 中国航空无线电电子研究所 一种基于深度强化学习的实时无人机路径预测方法
US20210109537A1 (en) * 2019-10-09 2021-04-15 Wuhan University Autonomous exploration framework for indoor mobile robotics using reduced approximated generalized voronoi graph
CN112987713A (zh) * 2019-12-17 2021-06-18 杭州海康威视数字技术股份有限公司 自动驾驶设备的控制方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135561A (ja) * 2019-02-21 2020-08-31 新東工業株式会社 自律移動ロボット
US20210109537A1 (en) * 2019-10-09 2021-04-15 Wuhan University Autonomous exploration framework for indoor mobile robotics using reduced approximated generalized voronoi graph
CN112987713A (zh) * 2019-12-17 2021-06-18 杭州海康威视数字技术股份有限公司 自动驾驶设备的控制方法、装置及存储介质
CN111208820A (zh) * 2020-01-09 2020-05-29 哈尔滨工程大学 人工智能大数据下粒子化无人车组、控制方法及介质
CN112148008A (zh) * 2020-09-18 2020-12-29 中国航空无线电电子研究所 一种基于深度强化学习的实时无人机路径预测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114589708A (zh) * 2022-02-28 2022-06-07 华南师范大学 基于环境信息的室内自主探索方法、装置及机器人
CN114589708B (zh) * 2022-02-28 2023-11-07 华南师范大学 基于环境信息的室内自主探索方法、装置及机器人
CN115471731A (zh) * 2022-08-23 2022-12-13 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及设备
CN115471731B (zh) * 2022-08-23 2024-04-09 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及设备
CN116429137A (zh) * 2023-03-22 2023-07-14 上海知而行科技有限公司 用于清扫装置的遍历路径生成方法及设备

Similar Documents

Publication Publication Date Title
Gupta et al. Cognitive mapping and planning for visual navigation
Krajník et al. Fremen: Frequency map enhancement for long-term mobile robot autonomy in changing environments
CN114089752A (zh) 机器人的自主探索方法、机器人及计算机可读存储介质
CN110531760B (zh) 基于曲线拟合和目标点邻域规划的边界探索自主建图方法
CN113110457B (zh) 在室内复杂动态环境中智能机器人的自主覆盖巡检方法
Thompson et al. A probabilistic model of human motion and navigation intent for mobile robot path planning
CN112000754A (zh) 地图构建方法、装置、存储介质及计算机设备
Wurm et al. Bridging the gap between feature-and grid-based SLAM
CN109163722B (zh) 一种仿人机器人路径规划方法及装置
CN106643721B (zh) 一种环境拓扑地图的构建方法
KR102303126B1 (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
CN110806211A (zh) 机器人自主探索建图的方法、设备及存储介质
CN110986945B (zh) 基于语义高度地图的局部导航方法和系统
Kojima et al. To learn or not to learn: Analyzing the role of learning for navigation in virtual environments
CN107728612A (zh) 识别不同人群进行广告推送的方法、存储装置及移动终端
CN114859932A (zh) 基于强化学习的探索方法、装置和智能设备
CN113781519A (zh) 目标跟踪方法和目标跟踪装置
CN113433937B (zh) 基于启发式探索的分层导航避障系统、分层导航避障方法
CN111739066B (zh) 一种基于高斯过程的视觉定位方法、系统及存储介质
Leung et al. Evaluating set measurement likelihoods in random-finite-set slam
Zhang et al. A laser-slam algorithm for indoor mobile mapping
Badalkhani et al. Multi-robot SLAM in dynamic environments with parallel maps
Kim et al. Active object tracking using context estimation: handling occlusions and detecting missing targets
Landi et al. Spot the difference: A novel task for embodied agents in changing environments
Wurm et al. Improved Simultaneous Localization and Mapping using a Dual Representation of the Environment.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination