CN114859940A

CN114859940A - 机器人移动控制方法、装置、设备以及存储介质

Info

Publication number: CN114859940A
Application number: CN202210780833.9A
Authority: CN
Inventors: 张雷; 孙传禹
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-08-05

Abstract

本申请提供了一种机器人移动控制方法、装置、设备及存储介质，其中，该方法包括：获取机器人视野前方的局部环境信息以及机器人的状态信息；根据局部环境信息，构建实时势能地图；根据机器人的状态信息、机器人的工作区域的全局环境信息以及实时势能地图，确定多个可选动作以及各可选动作的奖励值；根据各可选动作的奖励值，从多个可选动作中筛选出目标动作；控制所述机器人执行目标动作；重复执行上述步骤，直至机器人达到目标位置。机器人可以根据全局环境信息结合局部环境信息实时确定可选动作，并通过实时势能地图确定动作的奖励值，从而确定目标动作，提高了机器人对非结构化动态场景的适应性。

Description

机器人移动控制方法、装置、设备以及存储介质

技术领域

本申请涉及机器人动态路径规划技术领域，具体而言，涉及一种机器人移动控制方法、装置、设备及存储介质。

背景技术

目前，机器人已经大量应用于工业生产领域，如金属加工、汽车组装等。并开始在未知环境探测、抢险救灾、家庭服务等应用场景中，自主或与人协作完成复杂作业任务。在这些应用中，非结构化动态的环境给机器人带来了新的挑战，因此对机器人的智能化水平要求越来越高，机器人动态路径规划也成为机器人领域的热点。

现有技术中对机器人轨迹规划包括环境全局路径规划算法如人工势场法、快速探索随机树法、模糊逻辑法等，基于反应式的局部导航方法如神经网络、遗传算法、蚁群算法、强化学习算法等。

然而环境全局路径规划算法需要已知环境的全局信息，存在易陷入局部最小陷阱及无法适应动态应用场景等问题；基于反应式的局部导航方法存在随机探索能力弱等问题。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种机器人移动控制方法、装置、设备及存储介质，以解决现有技术中无法适应非结构化场景、随机探索能力弱的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请一实施例提供了一种机器人移动控制方法，所述方法包括：

获取所述机器人视野前方的局部环境信息以及机器人的状态信息，所述状态信息包括：所述机器人的位姿；

根据所述局部环境信息，构建实时势能地图；

根据所述机器人的状态信息、所述机器人的工作区域的全局环境信息以及所述实时势能地图，确定多个可选动作以及各可选动作的奖励值；

根据各可选动作的奖励值，从所述多个可选动作中筛选出目标动作；

控制所述机器人执行所述目标动作；

重复执行上述步骤，直至所述机器人达到目标位置。

可选的，所述根据所述当前环境信息，构建实时势能地图之前，还包括：

获取所述全局环境信息；

根据所述全局环境信息，构建初始全局势能地图。

可选的，所述根据所述局部环境信息，构建实时势能地图，包括：

根据所述局部环境信息，对所述初始全局势能地图中所述局部环境信息对应的位置进行更新，得到所述实时势能地图。

可选的，所述根据所述机器人的状态信息、所述机器人的工作区域的全局环境信息以及所述实时势能地图，确定多个可选动作以及各可选动作的奖励值，包括：

根据所述机器人的状态信息、所述全局环境信息以及所述局部环境信息，确定多个可选动作；

根据所述实时势能地图，确定各可选动作的奖励值。

可选的，所述根据所述机器人的状态信息、所述全局环境信息以及所述局部环境信息，确定多个可选动作，包括：

将所述机器人的状态信息、所述全局环境信息以及所述局部环境信息输入预先训练的神经网络模型中，由所述神经网络模型基于深度强化学习算法确定所述多个可选动作。

可选的，所述根据所述实时势能地图，确定各可选动作的奖励值，包括：

获取所述机器人当前所在位置在所述实时势能地图中的第一势能值；

分别获取机器人执行各可选动作后的后续位置在所述实时势能地图中的第二势能值；

分别计算所述第一势能值与各所述第二势能值的势能差值；

根据各势能差值，确定各可选动作的奖励值。

可选的，所述获取所述机器人视野前方的局部环境信息以及机器人的状态信息，包括：

基于广义状态相关探索获取所述局部环境信息；

基于视觉传感器获取所述机器人的状态信息。

第二方面，本申请另一实施例提供了一种机器人移动控制装置，所述装置包括：

获取模块，用于获取所述机器人视野前方的局部环境信息以及机器人的状态信息，所述状态信息包括：所述机器人的位姿；

构建模块，用于根据所述局部环境信息，构建实时势能地图；

确定模块，用于根据所述机器人的状态信息、所述机器人的工作区域的全局环境信息以及所述实时势能地图，确定多个可选动作以及各可选动作的奖励值；

筛选模块，用于根据各可选动作的奖励值，从所述多个可选动作中筛选出目标动作；

控制模块，用于控制所述机器人执行所述目标动作。

可选的，所述构建模块还用于获取所述全局环境信息；根据所述全局环境信息，构建初始全局势能地图；根据所述局部环境信息，对所述初始全局势能地图中所述局部环境信息对应的位置进行更新，得到所述实时势能地图。

可选的，所述确定模块还用于根据所述机器人的状态信息、所述全局环境信息以及所述局部环境信息，确定多个可选动作。

可选的，所述确定模块还用于根据所述实时势能地图，确定各可选动作的奖励值。

可选的，所述确定模块还用于将所述机器人的状态信息、所述全局环境信息以及所述局部环境信息输入预先训练的神经网络模型中，由所述神经网络模型基于深度强化学习算法确定所述多个可选动作。

可选的，所述确定模块还用于获取所述机器人当前所在位置在所述实时势能地图中的第一势能值；分别获取机器人执行各可选动作后的后续位置在所述实时势能地图中的第二势能值；分别计算所述第一势能值与各所述第二势能值的势能差值；根据各势能差值，确定各可选动作的奖励值。

可选的，所述获取模块还用于基于广义状态相关探索获取所述局部环境信息，基于视觉传感器获取所述机器人的状态信息。

第三方面，本申请另一实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述第一方面所述方法的步骤。

第四方面，本申请另一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面所述方法的步骤。

本申请的有益效果是：获取机器人视野前方的局部环境信息以及机器人的状态信息；根据局部环境信息，构建实时势能地图；根据机器人的状态信息、机器人的工作区域的全局环境信息以及实时势能地图，确定多个可选动作以及各可选动作的奖励值；根据各可选动作的奖励值，从多个可选动作中筛选出目标动作；控制所述机器人执行目标动作，重复执行上述步骤，直至机器人达到目标位置。机器人可以根据全局环境信息结合局部环境信息实时确定可选动作，提升了机器人的随机探索能力，通过实时势能地图确定动作的奖励值，从而确定目标动作，提高了机器人对非结构化动态场景的适应性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种机器人移动控制的工作场景图；

图2示出了本申请实施例提供的一种机器人移动控制方法的流程图；

图3示出了本申请实施例提供的一种对目标动作执行情况判断的示意图；

图4示出了本申请实施例提供的一种构建全局势能地图方法的流程图；

图5示出了本申请实施例提供的一种确定可选动作及可选动作奖励值方法的流程图；

图6示出了本申请实施例提供的一种确定可选动作奖励值方法的流程示意图；

图7示出了本申请实施例提供的又一种机器人移动控制方法示意图；

图8示出了本申请实施例提供的一种机器人移动控制装置的结构示意图；

图9示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

现有技术中对机器人进行动态轨迹规划和移动控制时，多为全局规划方法或局部导航方法，然而两种方法都存在缺陷，全局规划方法无法适应非结构化场景，局部导航方法随机探索能力弱。

因此，针对上述问题，本申请提出一种机器人移动控制方法，首先获取全局环境信息，执行过程中再实时获取局部环境信息，根据全局环境信息和局部环境信息，以及机器人的状态信息得到基于当前状态的最优执行动作，并重复此流程，直至到达目标位置。通过全局环境信息结合实时获取的局部环境信息，能够使机器人良好的适应非结构化场景，提升了随机探索能力，从而提高机器人的探索效率。

本申请的机器人移动控制方法可以应用于机器人轨迹规划的场景中，执行主体可以是带有信息处理功能的机器人或是与机器人通信连接的电子设备，本申请实施例的执行主体以与机器人通信连接的电子设备为例，如图1所示，该场景中可以包括机器人101、工作平台102、相机103、一个或多个障碍物104、目标位置105以及电子设备106，机器人101和相机103与电子设备106通信连接。相机103可以设置于机器人101与工作平台102正上方，用于获取环境状态信息及机器人101位姿状态，一个或多个障碍物104设置于工作平台上，可以包括静态障碍物和动态障碍物。实际环境中，机器人101末端的执行器和动态障碍物的位置是实时变化的，因此通过相机103可以精确的获取动态信息。

本申请中还可以首先获取初始的全局环境信息，初始全局环境信息的获取方法可以是相机拍摄图像，或使用激光雷达扫描实验场景，需要说明的是，通过相机或激光雷达获取到全局环境信息后，由于工作环境的坐标系和末端执行器的坐标系并不一致，且实际环境中机器人包括多个关节，各关节的坐标系也并不统一，因此获取的位置信息不能直接应用于末端执行器，需要先统一机器人各个关节的坐标系以及工作环境和末端执行器的坐标系，因此还可以在本申请实施例的方法开始前先对机器人建立运动学模型，以统一机器人各个部件和相机以及工作环境的坐标系，从而在后续执行中能实现对机器人更精确的控制。

接下来结合图2对本申请中的机器人移动控制方法进行说明，如图2所示，该方法包括：

S201：获取机器人视野前方的局部环境信息以及机器人的状态信息，状态信息包括：机器人的位姿。

可选的，局部环境信息可以是机器人前方预设大小的工作平台，示例性的，可以获取移动机器人前方60*60的工作平台的局部图片作为局部环境信息，局部环境信息可以是通过前文所述的机器人上方的相机拍摄得到。

可选的，机器人的状态信息可以是机器人在工作平台中的位置信息和机器人的姿态信息，机器人的位置信息可以是机器人末端执行器在工作平台上的二维位置坐标，机器人的姿态信息可以是机器人末端执行器在工作平台上的高度信息以及机器人各个关节的姿态信息，据此可以表征出机器人在三维工作平台中的状态信息，机器人的位置信息和机器人的姿态信息可以由进行过手眼标定和相机标定后的相机拍摄图像，再对图像计算得到机器人在工作场景中的三维位置描述。

S202：根据局部环境信息，构建实时势能地图。

可选的，可以先获取全局的环境信息的像素地图，将上述相机获取的视野前方的局部环境信息在相机获取的全局的环境信息的像素地图中的对应位置进行更新，得到实时的全局环境信息，全局环境信息可以是机器人所在工作平台的全局图片。

可选的，实时势能地图可以是对更新后的全局环境信息的像素地图转化得到的势能地图，势能地图中的每一个位置都可以对应一个二维坐标以及该位置对应的势能值，在全局环境信息中对局部环境信息进行更新后得到实时全局环境信息，实时势能地图可以是将实时全局环境信息进行转化得到的势能地图。

S203：根据机器人的状态信息、机器人的工作区域的全局环境信息以及实时势能地图，确定多个可选动作以及各可选动作的奖励值。

可选的，根据机器人的状态信息，工作区域的环境信息可以得到机器人的多个可选动作以及可选动作对应的相邻可选位置，其中，相邻可选位置可以是机器人从当前位置运动一个步长可到达的位置，可选动作可以是机器人移动到可到达位置的动作，示例性的，机器人对应的可选动作就包括从A到B、从A到C、从A到D三个动作，那么机器人当前位置为A点，相邻可到达的位置就包括B点、C点和D点。

可选的，根据机器人的可选动作可以确定机器人在全局环境中的像素位置，从而确定机器人在实时势能地图中的位置，根据势能地图中机器人当前位置的势能值和相邻可到达位置的势能值可以确定机器人各个可选动作的奖励值。

S204：根据各可选动作的奖励值，从多个可选动作中筛选出目标动作。

可选的，根据上述S203中确定的多个可选动作，电子设备可以根据预设的策略从多个可选动作中以奖励值为依据选择一个动作作为目标动作，示例性的，可以从多个可选动作中选择奖励值最高的动作作为目标动作，目标动作可以是机器人到达选定的相邻位置所需要执行的动作。

S205：控制机器人执行目标动作。

可选的，电子设备确定机器人需要执行的目标动作，并确定该动作对应的相邻位置后，还可以根据机器人当前的状态信息和需要执行的目标动作，计算出机器人末端执行器以及各个关节需要移动的角度，从而控制机器人根据计算的角度调整各个关节和末端执行器的姿态，以执行选定的目标动作。

可选的，实际环境中，目标动作与实际执行可能会存在偏差，因此可以在动作执行后进行判断，并将判断的结果作为反馈信息存入价值函数中，从而适当调整后续动作的奖励值。

示例性的，假设执行的机器人为六自由度机器人，对目标动作执行的判断方法还可以借鉴库仑定律，动态、静态障碍物及环境地图边界与机器人末端执行器端点之间的关系可以描述为同类型电荷相互排斥。同样地，目标物体与机器人末端执行器端点之间的关系可以描述为不同类型电荷的相互吸引。判断方法可以如下所示：

如图3所示，

是目标位置105吸引力的向量，

是各类障碍物及环境地图边界排斥力的向量。

和

向量的算术表达式如式（1）和式（2）所示：

（1）

：机器人101末端执行器端点与目标位置的相对距离；

：机器人101末端执行器端点所带的电荷；

：目标位置105所带的电荷。

（2）

：机器人101末端执行器端点与目标位置的相对距离；

：机器人101末端执行器端点所带的电荷；

：各类障碍物104及环境地图边界所带的电荷。

目标位置对机器人末端执行器的吸引力应该大于对各类障碍物的排斥力。否则，机器人可能无法到达目标以避开障碍物。

表示算法价值期望的相对运动方向，

表示算法价值期望的相对运动方向，

是机械臂实际运动的矢量。

和

两个运动矢量之间的夹角记为φ，该夹角可以衡量机器人当前运动矢量方向与机器人所需的期望运动矢量之间的差别或相似性。夹角的度数越小意味着两个向运动量之间的相似度越高，即目标动作与实际执行动作的误差越小，夹角φ可以通过下式（3）计算得出：

（3）

需要说明的是，上述只是对反馈信息的一种计算示例，实际执行时，本领域人员可以根据不同类型的机器人设置不同的反馈信息，本申请在此不作限制。

S206：重复执行上述步骤，直至机器人达到目标位置。

需要说明的是，在实际环境中，机器人需要进行多次移动才会到达目标位置，上述步骤S201-S205是对一次动作执行的描述，因此在执行完一次动作后，机器人需要判断是否到达目标位置，如果没有到达目标位置，则返回S201重新获取当前的局部环境信息以及机器人的状态信息，并确定下一个执行动作，直至电子设备判断机器人到达目标位置。

可选的，判断机器人是否到达目标位置，可以通过判断机器人所在位置的势能或计算机器人末端执行器与目标位置的距离确定，示例性的，作为一种可选的判断方式，如前文所述，势能地图中目标位置的势能可以确定为最小，因此，当机器人所在的位置势能最小时，可以认为机器人到达目标位置；作为另一种可选的判断方式，首先判断机器人末端执行器的位姿信息，然后计算机器人末端执行器与目标位置的距离，若该距离小于预设的距离值，则可以认为机器人到达目标位置。

需要说明的是，上述只是给出了判断机器人是否到达目标位置的两种可选方式，实际执行时，本领域人员也可以设置其他的判断方法，本申请在此不做限制，实际情况中，为了减少机器人损耗，本领域技术人员也可以设置机器人执行结束的条件为到达目标位置或与边界/障碍物发生碰撞。

本申请实施例中，首先获取全局环境信息、局部环境信息和机器人的状态信息，构建实时势能地图，确定多个可选动作以及各个可选动作对应的奖励值，并根据奖励值选出目标动作执行，直至机器人到达目标位置，通过全局环境信息和实时局部环境信息结合，使机器人确定的可选动作随机性更高，探索的广泛性更强，通过实时势能地图可以高效的识别障碍物，并确定奖励值，使机器人能够在多个可选动作中找到价值最大的动作来执行，提升了机器人路径探索的效率。

接下来对构建全局势能地图的方法进行说明，如图4所示，上述S202中构建实时势能地图之前，还包括：

S401：获取全局环境信息。

可选的，全局环境信息可以是机器人工作区域的全局地图，全局地图上可以清楚的表征障碍物位置以及工作平台的边界。示例性的，可以通过激光雷达扫描工作平台，并使用SLAM(simultaneous localization and mapping，即时定位与地图构建) 技术得到工作平台的像素地图，在像素地图中，就可以将每一个黑色像素点视为障碍物。

S402：根据全局环境信息，构建初始全局势能地图。

可选的，根据上述S401中得到的全局环境信息还可以构造初始全局势能地图，示例性的，假设根据上述步骤得到了全局像素地图，本步骤中还可以将全局像素地图转化为本方法所使用的势能地图，转化的方法可以是根据人工势场法得到，示例性的，可以先获取工作环境中的目标位置和障碍物以及边界的像素位置，然后根据目标位置建立引力势场模型，根据障碍物和边界建立斥力势场模型，最后将模型汇总，建立得到全局势能地图。

需要说明的是，在上述建立的势能地图中，可以设置目标位置的势能最小，机器人距离目标位置越远势能越大，障碍物及边界的势能最大，在障碍物及边界附近的势场中，距离障碍物越近势能越大，在实际执行中，就可以根据各个位置的势能值更清楚地确认机器人的移动策略。

在本申请实施例中，通过构建势能地图，可以更好地表征出障碍物以及边界的位置，根据势能地图还可以实现机器人的移动探索以目标为导向，从而大大减少机器人移动探索的复杂度。

接下来对上述过程中S204的方法进行说明，构建初始全局势能地图之后，可以根据局部环境信息构建实时势能地图，该方法包括：

根据局部环境信息，对初始全局势能地图中局部环境信息对应的位置进行更新，得到实时势能地图。

需要说明的是，由于本申请实施例的工作场景为非结构化场景，因此会存在动态的障碍物，初始全局势能地图不能很好的表征动态障碍物的位置和势能值，因此需要对局部环境进行更新，获取实时的环境信息和实时势能地图。

可选的，更新的方法可以是先对相机获取的图片进行处理，将局部环境信息与全局环境信息中的预设特征点一一对应，示例性的，预设特征点可以是在环境中预设的标记点，再将全局环境信息中的对应位置的图像进行替换，得到更新后的全局环境信息，实时势能地图可以是根据更新后的全局环境信息构建得到的全局势能地图。

本申请实施例中，通过根据局部环境信息对全局环境信息进行更新，能够实时更新环境中的动态障碍物信息，从而使机器人的移动更好地适应非结构化的场景。

接下来对上述S203中确定可选动作的奖励值的方法进行说明，如图5所示，该方法包括：

S501：根据机器人的状态信息、全局环境信息以及局部环境信息，确定多个可选动作。

可选的，根据机器人的当前状态信息、全局环境信息以及实时更新的局部环境信息，可以确定机器人在全局环境信息中的位姿，根据全局环境信息和局部环境信息可以确定机器人在当前位姿下可执行的多个动作，即为可选动作。

示例性的，可以采用SAC（Soft actor-critic）算法确定多个可选动作，以及多个可选动作对应的奖励值，SAC算法中用神经网络对价值函数和策略函数进行拟合，策略函数可以根据输入参数生成多个动作策略，价值函数可以生成多个动作策略的奖励值，并对多个动作进行价值判断，确定价值最高的动作。

例如，采用SAC算法确定多个可选动作，首先可以将机器人的状态信息、全局环境信息以及局部环境信息作为策略函数的输入参数，从而得到多个可选动作，根据价值函数可以得到多个可选动作对应的奖励值，在执行过程中每进行一次SAC算法流程，就将神经网络的经验池迭代更新一次，将执行本此步骤时输入的全局环境信息以及实时更新的局部环境信息作为数据样本存入经验池。

S502：根据实时势能地图，确定各可选动作的奖励值。

可选的，可以根据实时势能地图得到当前位置与执行可选动作后到达的下一位置的势能值，根据势能值可以确定机器人从当前位置移动到下一位置所执行动作的奖励值。

例如，机器人对应的可选动作包括从A到B、从A到C、从A到D三个动作，那么机器人当前位置为A点，相邻可到达的位置就包括B点、C点和D点，三个动作的奖励值可以分别根据A点和B点的势能值、A点和C点的势能值、A点和D点的势能值确定得到。

示例性的，电子设备可以将前述全局环境信息、局部环境信息以及奖励值作为参数，输入SAC算法的价值函数中，得到价值最优的执行动作，包括从A到B、从A到C、从A到D三个动作，SAC算法的价值函数可以将三个待执行动作获得的奖励和探索策略的熵值进行权衡，得到奖励值与熵的和最大的执行动作从A到B，将该执行动作作为目标动作，并将全局环境信息、局部环境信息以及奖励值作为参数对价值函数进行更新。

在本申请实施例中，将全局环境信息和实时局部环境信息结合能够使机器人的随机探索更适应非结构化的环境，结合奖励值确定更优的执行动作。

确定可选动作的奖励值之前，还可以确定可选动作，以下是对上述确定多个可选动作的方法说明，该方法包括：

将机器人的状态信息、全局环境信息以及局部环境信息输入预先训练的神经网络模型中，由神经网络模型基于深度强化学习算法确定所述多个可选动作。

可选的，在机器人进行路径探索时，为了使探索更全面，机器人确定可选动作时的策略应该是随机的，同时由于机器人的下一个动作的可能情况很多，因此需要从所有情况中先随机确定几个可选动作，以减小机器人执行的复杂度。

可选的，预先训练的神经网络模型可以是将环境状态信息作为输入，采用深度强化学习方法构建的卷积神经网络，模型的输出可以是以环境状态信息为依据确定的下一个或多个可执行动作。

示例性的，可以采用SAC算法构建神经网络模型，SAC算法中的策略函数可用于进行动作探索，将机器人的状态信息、全局环境信息以及局部环境信息作为策略函数的输入参数，得到策略函数确定的多个可选动作。

在本申请实施例中，SAC算法信息熵的最大化使得输出的各个动作都会趋于平均，在非结构化场景中可以找到更多的路径，不易陷入局部最优陷阱，因此可以保证机器人在初期进行更为广泛的探索。

以下是对上述过程中确定奖励值过程的具体说明，如图6所示，该方法包括：

S601：获取机器人当前所在位置在实时势能地图中的第一势能值。

可选的，根据机器人当前的位姿信息，可以首先确定机器人在实时势能地图中的位置，如前文所述，实时势能地图上每个点都对应一个势能值，因此可以根据机器人在实时势能地图中的位置确定当前位置的势能值，并将该势能值作为第一势能值。

S602：分别获取机器人执行各可选动作后的后续位置在实时势能地图中的第二势能值。

可选的，确定机器人的各可选动作后，电子设备还可以确定机器人执行该动作后所在的后续位置，并确定该后续位置在实时势能地图中相应的势能值，将该势能值作为第二势能值。

可选的，机器人的每一个可选动作都对应有一个势能值，所以第二势能值可以有一个或多个。

S603：分别计算第一势能值与各第二势能值的势能差值。

示例性的，势能差值的计算方法可以是：根据势能地图中每一个位置的势能值，分别计算当前位置与多个下一位置的势能差值，即可以分别用第一势能值减去多个第二势能值得到多个对应的势能差值。

需要说明的是，假设目标位置的势能为最小，靠近障碍物和边界的势能值大，那么靠近障碍物和边界的势能差值就可以是一个较大负值。

S604：根据各势能差值，确定各可选动作的奖励值。

示例性的，根据各势能差值确定各可选动作的奖励值的方法可以是，将上述第一势能值与第二势能值的势能差值作为奖励值，其中目标位置的奖励值可以为较大值，障碍物及地图边界的奖励值可以为较大负值。

需要说明的是，以上只是本申请示出的一种根据势能差值确定奖励值的实现方法，在实际执行中，若势能差值相差较大或较小，本领域人员还可以根据其他策略将势能差值转化为易于表示的奖励值。

以下是对上述S201中获取机器人视野前方的局部环境信息以及机器人的状态信息的方法说明，该方法包括：

基于广义状态相关探索获取局部环境信息。

可选的，可以通过前文所述的机器人末端执行器的相机或是机器人上方设置的相机获取机器人视野前方的图片或机器人所在区域的图片作为局部环境信息，在实际执行时，可以基于广义状态相关探索对局部环境信息进行获取。

示例性的，广义状态相关探索可以是gSDE(Generalized State-dependentExploration)算法，gSDE算法是在SDE算法上进行改良得到的一种广义状态相关探索方法，SDE算法是一种基于片段的探索方法，但是假设一个片段的长度很长，环境信息就不能及时得到更新，就会使机器人的探索受到限制，而改进后的gSDE算法可以每n步对局部环境信息进行一次采样而不是每个片段采样一次，使得机器人在探索时受到的限制减少，改进后的gSDE法实际上在执行时可以使用任何除状态信息之外的环境特征进行训练，提升了算法的探索能力。

基于视觉传感器获取机器人的状态信息。

可选的，可以基于视觉传感器获取机器人的状态信息，每执行一次动作就采集一次机器人的状态信息。

示例性的，可以通过机器人上方的相机获取当前机器人的位置和姿态，作为机器人的状态信息。

在本申请实施例中，通过基于广义状态相关探索获取局部环境信息和基于视觉传感器获取机器人的状态信息，可以使得机器人定期获取实时环境信息和机器人状态信息，使得机器人在探索时受到的限制减少，对于确定的多个动作也能及时更新奖励值，提高了机器人在非结构化动态环境的适应能力。

接下来结合图7对本申请实施例中的机器人移动控制方法进行进一步说明，如图7所示，可以首先获取初始的全局环境信息，并根据gSDE算法获取机器人的状态信息以及局部环境信息作为奖励函数和神经网络的输入，奖励函数可以是根据前述势能地图建立的计算奖励值的函数，奖励函数可以输出针对当前工作状态下的多个动作对应的奖励值，神经网络可以基于SAC算法根据输入的机器人的状态信息、全局环境信息以及局部环境信息进行随机探索，神经网络可以根据探索情况结合奖励函数反馈的奖励值确定多个可选动作，并从多个可选动作中确定一个价值最高的动作作为目标动作输出给机器人。

基于同一发明构思，本申请实施例中还提供了与机器人移动控制方法对应的机器人移动控制装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述机器人移动控制方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图8所示，为本申请实施例五提供的一种机器人移动控制装置的示意图，所述装置包括：获取模块801、构建模块802、确定模块803、筛选模块804、控制模块805；其中：

获取模块801，用于获取所述机器人视野前方的局部环境信息以及机器人的状态信息，所述状态信息包括：所述机器人的位姿；

构建模块802，用于根据所述局部环境信息，构建实时势能地图；

确定模块803，用于根据所述机器人的状态信息、所述机器人的工作区域的全局环境信息以及所述实时势能地图，确定多个可选动作以及各可选动作的奖励值；

筛选模块804，用于根据各可选动作的奖励值，从所述多个可选动作中筛选出目标动作；

控制模块805，用于控制所述机器人执行所述目标动作。

可选的，构建模块802还用于获取全局环境信息；根据全局环境信息，构建初始全局势能地图；根据局部环境信息，对初始全局势能地图中局部环境信息对应的位置进行更新，得到实时势能地图。

可选的，确定模块803还用于根据机器人的状态信息、全局环境信息以及局部环境信息，确定多个可选动作。

可选的，确定模块803还用于根据实时势能地图，确定各可选动作的奖励值。

可选的，确定模块803还用于将机器人的状态信息、全局环境信息以及局部环境信息输入预先训练的神经网络模型中，由神经网络模型基于SAC算法确定多个可选动作。

可选的，确定模块803还用于获取机器人当前所在位置在实时势能地图中的第一势能值；分别获取机器人执行各可选动作后的后续位置在实时势能地图中的第二势能值；分别计算第一势能值与各第二势能值的势能差值；根据各势能差值，确定各可选动作的奖励值。

可选的，获取模块801还用于基于广义状态相关探索获取局部环境信息和基于视觉传感器获取机器人的状态信息。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本申请实施例通过全局环境信息结合局部环境信息，使机器人能够获取到最新的环境信息，并根据环境信息确定多个可选动作，提升了机器人的随机探索能力，通过实时势能地图确定动作的奖励值，从而确定目标动作，提高了机器人对非结构化动态场景的适应性。

本申请实施例还提供了一种电子设备，如图9所示，为本申请实施例提供的电子设备结构示意图，包括：处理器91、存储器92、和总线。所述存储器92存储有所述处理器91可执行的机器可读指令（比如，图8中的装置中获取模块801、构建模块802、确定模块803、筛选模块804、控制模块805对应的执行指令等），当电子设备运行时，所述处理器91与所述存储器92之间通过总线通信，所述机器可读指令被所述处理器91执行时执行前述方法中的处理。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述机器人移动控制方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种机器人移动控制方法，其特征在于，包括：

根据所述局部环境信息，构建实时势能地图；

控制所述机器人执行所述目标动作；

重复执行上述步骤，直至所述机器人达到目标位置。

2.如权利要求1所述的方法，其特征在于，所述根据所述局部环境信息，构建实时势能地图之前，还包括：

获取所述全局环境信息；

根据所述全局环境信息，构建初始全局势能地图。

3.如权利要求2所述的方法，其特征在于，所述根据所述局部环境信息，构建实时势能地图，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述机器人的状态信息、所述机器人的工作区域的全局环境信息以及所述实时势能地图，确定多个可选动作以及各可选动作的奖励值，包括：

根据所述实时势能地图，确定各可选动作的奖励值。

5.如权利要求4所述的方法，其特征在于，所述根据所述机器人的状态信息、所述全局环境信息以及所述局部环境信息，确定多个可选动作，包括：

6.如权利要求4所述的方法，其特征在于，所述根据所述实时势能地图，确定各可选动作的奖励值，包括：

分别计算所述第一势能值与各所述第二势能值的势能差值；

根据各势能差值，确定各可选动作的奖励值。

7.如权利要求1-6任一项所述的方法，其特征在于，所述获取所述机器人视野前方的局部环境信息以及机器人的状态信息，包括：

基于广义状态相关探索获取所述局部环境信息；

基于视觉传感器获取所述机器人的状态信息。

8.一种机器人移动控制装置，其特征在于，所述装置包括：

控制模块，用于控制所述机器人执行所述目标动作。

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行时执行如权利要求1至7任一所述的机器人移动控制方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的机器人移动控制方法的步骤。