CN114625146A

CN114625146A - 机器人移动控制方法与装置、扫地机器人、存储介质

Info

Publication number: CN114625146A
Application number: CN202210283871.3A
Authority: CN
Inventors: 杨勇; 竺浩; 吴泽晓; 刘建平
Original assignee: Shenzhen 3irobotix Co Ltd
Current assignee: Shenzhen 3irobotix Co Ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-14

Abstract

本发明公开了一种机器人移动控制方法与装置、扫地机器人、存储介质，其中，机器人移动控制方法包括以下步骤：获取机器人当前时隙所处环境的环境信息；根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态；根据当前时隙的移动指令控制机器人移动；利用当前时隙的隐藏状态以及获取到的下一时隙的环境信息重复上述步骤，以持续控制机器人移动。该控制方法相对于相关技术中的机器人避障和越障方法，能够使机器人自适应复杂多变的环境并完成避障或越障操作，无需人工逐个情形的分析处理和编写相应的导航指令，提高了机器人的智能性和执行效率，节省了机器人移动控制的成本。

Description

机器人移动控制方法与装置、扫地机器人、存储介质

技术领域

本发明涉及机器智能控制技术领域，尤其涉及一种机器人移动控制方法、一种机器人移动控制装置、一种扫地机器人和一种计算机可读存储介质。

背景技术

机器人控制随着相关控制算法的发展变得越来越成熟，其中，机器人在移动过程中进行避障或越障是一个非常关键问题，能否妥善解决该问题直接影响到机器人能够正常运行。

在相关技术中，一般向对机器人上的传感器所感知到的环境信息进行处理，进而得到当前障碍物的特征信息，如高度、距离、类别、形状等，再通过为不同特征的障碍物设计相应的应对策略来完成避障或越障操作。

相关技术所采用的此种方法需要人工开发针对不同环境特征的导航策略，需要大量的人工分析/开发/测试/验证，而且难以囊括实际环境中的所有情形，在实际环境中运行时难以自适应千差万别的障碍物，泛化性较差，难以自适应未先验证设计的障碍情形，避障和越障性能存在缺陷。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的第一个目的在于提出一种机器人移动控制方法，能够使机器人自适应复杂多变的环境并完成避障或越障操作，无需人工逐个情形的分析处理和编写相应的导航指令，提高了机器人的智能性和执行效率，节省了机器人移动控制的成本。

本发明的第二个目的在于提出一种机器人移动控制装置。

本发明的第三个目的在于提出一种扫地机器人。

本发明的第四个目的在于提出一种计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种机器人移动控制方法，该方法包括以下步骤：获取所述机器人当前时隙所处环境的环境信息；根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态；根据所述当前时隙的移动指令控制所述机器人移动；利用所述当前时隙的隐藏状态以及获取到的下一时隙的环境信息重复上述步骤，以持续控制所述机器人移动。

本发明实施例的机器人移动控制方法首先获取当前时隙的环境信息，根据该环境信息和上一时隙的隐藏状态可以生成当前时隙的移动指令和当前时隙的隐藏状态，再根据该当前时隙的移动指令对机器人进行移动控制。该实施例的机器人移动控制方法相对于相关技术中的机器人避障和越障方法，能够使机器人自适应复杂多变的环境并完成避障或越障操作，无需人工逐个情形的分析处理和编写相应的导航指令，提高了机器人的智能性和执行效率，节省了机器人移动控制的成本。

在本发明的一些实施例中，所述获取所述机器人当前时隙所处环境的环境信息之后，还包括：根据所述当前时隙的环境信息对所述机器人的当前状态进行判断；确定所述机器人的当前状态为异常状态，则根据预设移动指令控制所述机器人退出所述异常状态。

在本发明的一些实施例中，所述环境信息包括RGB图和/或深度图、所述机器人相对终点的距离、所述机器人前进方向与终点方向之间的角度、以及所述机器人的占据栅格地图、所述机器人的历史路线图、所述机器人的当前位置图、所述机器人的碰撞地图和所述机器人的规划路线图中的至少一个。

在本发明的一些实施例中，所述根据所述当前时隙的环境信息和上一时隙的隐藏状态得到当前时隙的移动指令以及当前时隙的隐藏状态，包括：利用第一卷积神经网络对所述RGB(Red Green Blue)图和/或深度图进行处理得到图像特征向量；和/或，利用第一嵌入层对所述机器人相对终点的距离进行处理得到距离表征向量；和/或，利用第二嵌入层对所述机器人前进方向与终点方向之间的角度进行处理得到角度表征向量；和/或，利用第二卷积神经网络对所述机器人的占据栅格地图、所述机器人的历史路线图、所述机器人的当前位置图、所述机器人的碰撞地图和所述机器人的规划路线图中的至少一个进行处理得到2D地图特征向量；将所述图像特征向量、所述距离表征向量、所述角度表征向量和所述2D地图特征向量中的至少两个进行拼接聚合，以得到高维向量；将所述高维向量和所述上一时隙的隐藏状态输入循环神经网络进行处理，得到所述当前时隙的移动指令以及所述当前时隙的隐藏状态。

在本发明的一些实施例中，所述第一卷积神经网络包括不同层数的ResNet(Residual Network，残差网络)，所述第二卷积神经网络包括不同层数的CNN(Convolutional Neural Networks，卷积神经网络)，所述循环神经网络包括不同层数LSTM(Long Short-Term Memory，长短期记忆网络)或GRU(Gated Recurrent Unit，门控循环单元)。

在本发明的一些实施例中，所述移动指令包括线速度和角速度，在根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态之后，所述方法还包括：将所述当前时隙的隐藏状态输入至输出层网络进行处理，并输出所述线速度和所述角速度的各个离散值的概率分布。

在本发明的一些实施例中，在将所述高维向量和所述上一时隙的隐藏状态输入循环神经网络进行处理之前，还包括：初始化所述循环神经网络；收集训练场景中所述机器人的训练数据，并向所述循环神经网络输入各个时隙的训练数据；每隔预设个数时隙对所述循环神经网络进行更新；根据总损失函数的数值、或者所述循环神经网络的训练次数、或者所述时隙的步数确定所述循环神经网络是否完成训练；其中，所述总损失函数为所述当前时隙的移动指令对应的损失函数和所述当前时隙的移动指令估计值对应的损失函数之和。

在本发明的一些实施例中，所述训练数据包括多组数据，其中，每一组数据包括上一时隙的隐藏状态、当前时隙的隐藏状态、当前时隙的移动指令、当前时隙的奖励函数值、当前时隙的环境信息和下一时隙的环境信息，所述当前时隙的奖励函数值包括第一正奖励和第一负奖励，所述第一正奖励表示所述机器人执行所述当前时隙的移动指令后与终点之间的距离缩减值，所述第一负奖励表示所述机器人在当前时隙内发生碰撞的次数。

在本发明的一些实施例中，所述当前时隙的奖励函数还包括第二正奖励和第二负奖励，其中，所述第二正奖励表示所述机器人已抵达终点，所述第二负奖励表示设定完所述终点后所经过的时间。

在本发明的一些实施例中，所述根据总损失函数的数值、或者所述循环神经网络的训练次数、或者所述时隙的步数确定所述循环神经网络是否完成训练，包括：当所述总损失函数、所述当前时隙的移动指令对应的损失函数和所述当前时隙的移动指令估计值对应的损失函数中的一个或多个损失函数的函数值增大时，或者，当所述训练次数大于第一预设次数时，或者，当所述时隙的步数大于第二预设次数时，则确定所述循环神经网络完成训练，其中，所述第二预设次数大于所述第一预设次数。

为达上述目的，本发明第二方面实施例提出了一种机器人移动控制装置，该控制装置包括：获取模块，用于获取所述机器人当前时隙所处环境的环境信息；生成模块，用于根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态；控制模块，用于根据所述当前时隙的移动指令控制所述机器人移动，以及利用所述当前时隙的隐藏状态和所述获取模块获取到的下一时隙的环境信息重复上述步骤，以持续控制所述机器人移动。

本发明实施例的机器人移动控制装置包括获取模块、生成模块和控制模块，首先，获取模块获取当前时隙的环境信息，然后生成模块根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令，再利用控制模块根据该当前时隙的移动指令对机器人进行移动控制。该实施例的机器人移动控制装置相对于相关技术中的机器人避障和越障方法，能够使机器人自适应复杂多变的环境并完成避障或越障操作，无需人工逐个情形的分析处理和编写相应的导航指令，提高了机器人的智能性和执行效率，节省了机器人移动控制的成本。

为达上述目的，本发明第三方面实施例提出了一种扫地机器人，该扫地机器人包括存储器、处理器及存储在存储器上并可在处理器上运行的机器人移动控制程序，所述处理器执行所述机器人移动控制程序时，实现根据上述实施例所述的机器人移动控制方法。

本发明实施例的扫地机器人包括存储器和处理器，处理器执行存储在存储器上的机器人移动控制程序，能够使机器人自适应复杂多变的环境并完成避障或越障操作，无需人工逐个情形的分析处理和编写相应的导航指令，提高了机器人的智能性和执行效率，节省了机器人移动控制的成本。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有机器人移动控制程序，该机器人移动控制程序被处理器执行时实现根据上述实施例所述的机器人移动控制方法。

本发明实施例的计算机可读存储介质通过处理器执行存储在其上的机器人移动控制程序，能够使机器人自适应复杂多变的环境并完成避障或越障操作，无需人工逐个情形的分析处理和编写相应的导航指令，提高了机器人的智能性和执行效率，节省了机器人移动控制的成本。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据本发明一个实施例的机器人移动控制方法的流图；

图2是根据本发明一个实施例的机器人移动控制方法的流图；

图3是根据本发明一个实施例的机器人移动控制方法的流图；

图4是根据本发明一个实施例的神经网络数据处理示意图；

图5是根据本发明一个实施例的神经网络数据训练示意图；

图6是根据本发明一个实施例的机器人移动控制方法的流图；

图7是根据本发明实施例的机器人移动控制装置的结构框图；

图8是根据本发明实施例的扫地机器人的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的机器人移动控制方法与装置、扫地机器人、存储介质。

图1是根据本发明一个实施例的机器人移动控制方法的流程图。

如图1所示，本发明提出了一种机器人移动控制方法，包括以下步骤：

S10，获取机器人当前时隙所处环境的环境信息。

具体地，本实施例中的机器人可以是扫地机器人、服务机器人、轮式机器人等，在此不作具体限定，而机器人所处的环境包含但不限于室内场景、室外场景、虚拟环境、仿真环境。可以理解的是，该实施例中可以通过设置在机器人机身上的传感器来获取机器人所处环境的环境信息，该传感器包括但不限于激光雷达、相机、深度相机、红外传感、超声波、里程器、惯性传感器、可探知图像和/或距离数据的其他类型传感器。

在该实施例中，环境信息包括RGB图和/或深度图、机器人相对终点的距离、机器人前进方向与终点方向之间的角度、以及机器人的占据栅格地图、机器人的历史路线图、机器人的当前位置图、机器人的碰撞地图和机器人的规划路线图中的至少一个。

具体地，在该实施例中，可以从相机中获取原始RGB图，从深度相机中获取原始深度图，可以选择剪裁，当然也可以选择不剪裁，然后通过缩放操作得到RGB图和深度图；机器人相对终点的距离则可以表示为机器人当前位置与终点位置之间的距离；机器人前进方法相对终点方向之间的角度则可以表示为机器人当前方向与朝向终点方向的夹角。需要说明的是，本实施例中的RGB图和深度图的尺寸可以均为X*Y，而机器人的占据栅格地图、当前位置图、历史路线图、碰撞地图和规划路线图的尺寸则可以均为M*N。

更具体地，机器人的占据栅格地图中的像素位置(m，n)表征地图坐标，像素值表征该坐标上存在障碍物的概率，像素值可为0和1二进制数值或为0至1之间的连续数值，例如，在二进制数值中，像素值为1则代表该像素对应位置存在障碍物，像素值为0代表该像素位置不存在障碍物；在连续数值中，像素值直接表征该坐标上存在障碍物的概率，如0.7，则表示该坐标上存在障碍物的概率为70％。

机器人的当前位置图是用于表征机器人当前位置的图，其中，像素位置(m，n)表征地图坐标，像素值可为0或1，像素值为0代表机器人不在该像素对应的位置上，像素值为1代表机器人在该像素对应的位置上。

机器人的历史路线图为表征机器人在设定终点后已经行驶过的路线的图，其中，像素位置(m，n)表征地图坐标，像素值可为0或1，像素值为1代表机器人曾经经过该像素对应的位置，像素值为0代表机器人未曾经过该像素对应的位置。可以理解的是，当终点发生变更时，历史路线图将清零重置。

机器人的碰撞地图表征机器人在一段时间内碰撞位置和/或次数的图，像素位置(m，n)表征地图坐标，像素值可为0或1，像素值为1代表机器人在该位置的和/或从邻区前往该位置发生了碰撞，否则，像素值为0。在将像素值表示为机器人碰撞的次数时，则可以直接将像素值直接作为机器人碰撞的次数，需要说明的是，该像素值是取值范围可以为自然数。

机器人的规划路线图为机器人使用路径规划算法规划处的前往终点的路线图，像素位置(m，n)表征地图坐标，像素值可为0或1，像素值为1代表机器人规划路线需要经过该像素对应的位置，否则，像素值为0。

需要说明的是，在该实施例中，机器人每隔一个时隙t都可以进行环境信息的获取，在获取到机器人当前时隙所处环境的环境信息之后，则可以对应输出当前时隙的移动指令，以保证机器人在每个时隙中都有对应的移动指令对其进行移动控制，防止出现卡滞、控制出错等状况。

S20，根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态。

具体地，在获取到机器人当前时隙的环境信息之后，则可以将该当前时隙的环境信息和上一时隙的隐藏状态输入到对应的策略网络中进行处理，以得到当前时隙的移动指令和当前时隙的隐藏状态，可以理解的是，本实施例中的上一时隙的隐藏状态是伴随着上一时隙的移动指令产生的。需要说明的是，隐藏状态指的是本实施例中的策略网络的一个输出，如循环神经网络的一个输出，可以将其理解为循环神经网络对历史的记忆，即神经元输出的一些数值，具体可以根据循环神经网络中设定的隐藏状态的尺寸来决定其数据尺寸，该尺寸是可以通过人为进行设定的。

S30，根据当前时隙的移动指令控制机器人移动。

具体地，在通过当前时隙的环境信息和上一时隙的隐藏状态得到当前时隙的移动指令之后，则已经确定了机器人在当前时隙应该如何移动，由于环境信息中可以包括当前时隙中，机器人所可能面临的障碍物，所以，利用环境信息计算得到移动指令，可以将这些障碍都计算进去，从而避免机器人与障碍物发生碰撞。需要说明的是，本实施例中当前时隙的移动指令可以包括机器人当前时隙的角速度和线速度。

需要说明的是，线速度的取值空间可为机器人线速度可行区间中的连续值或离散值，角速度的取值空间可为机器人角速度可行区间中的连续值或离散值。当速度取值空间为离散值时，输出为各个离散值被选取的概率；当速度取值空间为连续值时，输出为一个确定的速度值。

S40，利用当前时隙的隐藏状态以及获取到的下一时隙的环境信息重复上述步骤，以持续控制机器人移动。

具体地，通过上述描述可知，当前时隙的环境信息需配合上一时隙的隐藏状态一起进行计算，以获得当前时隙的移动指令和当前时隙的隐藏状态，其中，当前时隙的移动指令用于控制机器人进行当前时隙的移动，而当前时隙的隐藏状态则可以用于计算下一时隙的移动指令，重复上述步骤S10～S30，则能够持续计算到机器人的移动指令，进而持续对机器人进行移动控制，以持续更新机器人的状态。

需要说明的是，如果机器人的移动终点发生改变的话，则时隙自动更新，并从步骤S10重新开始执行。

在本发明的一些实施例中，如图2所示，获取机器人当前时隙所处环境的环境信息之后，还包括以下步骤：S201，根据当前时隙的环境信息对机器人的当前状态进行判断。S202，确定机器人的当前状态为异常状态，则根据预设移动指令控制机器人退出异常状态。

具体地，在获取到当前时隙的环境信息之后，则还可以对该环境信息进行判断，以确定当前机器人是否处于异常状态，可以理解的是，可以设定如何机器人处于无法移动或者无效移动的状态下，则将其定义为异常状态，当然，还可以处于其他状态，只要不能正常移动，则都可以将其确定为异常状态，在此不进行一一列举。

更具体地，举例而言，如果根据当前时隙的环境信息确定当前机器人发生卡困，如被卡在椅脚无法移动，则可以判定其为异常状态，所以采用预设的移动指令对机器人进行控制，以使其能够退出当前异常状态。可以理解的是，在该示例中，预设移动指令可以是进行多方位移动，知道到往任何一个方向移动的距离超过了预设距离的情况下，才表示当前机器人已经退出了异常状态。在另一个示例中，如果机器人发生翻转以致其无法进行移动，那么可以采用预设移动指令先控制机器人回到正确的位置上，然后再进行正常移动，该示例中，预设移动指令可以是通过调整机器人的中心以使机器人处于正确的位姿，以表征机器人已退出异常状态。

需要说明的是，本实施例中的预设移动指令可以是开发人员预先进行设计并写成固定程序部署在机器人上的，当前，也可以是用户进行选择或设定得到的。

在本发明的一些实施例中，如图3所示，根据当前时隙的环境信息和上一时隙的隐藏状态得到当前时隙的移动指令以及当前时隙的隐藏状态，包括以下步骤：

S301，利用第一卷积神经网络对RGB图和/或深度图进行处理得到图像特征向量；和/或，利用第一嵌入层对机器人相对终点的距离进行处理得到距离表征向量；和/或，利用第二嵌入层对机器人前进方向与终点方向之间的角度进行处理得到角度表征向量；和/或，利用第二卷积神经网络对机器人的占据栅格地图、机器人的历史路线图、机器人的当前位置图、机器人的碰撞地图和机器人的规划路线图中的至少一个进行处理得到2D地图特征向量。

具体地，参见图4可知，本实施例中可以采用不同规格的卷积神经网络对RGB图和深度图，或者机器人的占据栅格地图、机器人的历史路线图、机器人的当前位置图、机器人的碰撞地图和机器人的规划路线图进行处理，其中，第一卷积神经网络包括不同层数的ResNet，第二卷积神经网络包括不同层数的CNN。

更具体地，RGB图和深度图属于相机产生的图像，可以将其当作第一视角图，利用神经网络可以从中提取出一些特征。而另一方面，还可以通过平面地图，如俯视图上的相关信息来提取一些特征，其中，以扫地机器人为例，用于扫地机导航的平面地图一般用占据栅格地图表征。除此之外，还可以在平面地图上规划路线图，记录历史路线图，机器人当前位置等信息。这些所有在平面地图上的信息均可以通过神经网络来提取特征，并且，本实施例将这些特征定义为2D地图特征。

另外需要说明的是，该实施例中的嵌入层是神经网络中常用的嵌入层，具体使用方式可以参见相关技术中对其的描述，在此不对其进行限定和赘述。

S302，将图像特征向量、距离表征向量、角度表征向量和2D地图特征向量中的至少两个进行拼接聚合，以得到高维向量。

在通过步骤S301进行处理，得到图像特征向量、距离表征向量、角度表征向量和2D地图特征向量之后，则可以将其进行拼接聚合，以将多个低维向量拼接为一个高维向量。需要说明的是，本实施例并不必须将图像特征向量、距离表征向量、角度表征向量和2D地图特征向量四个向量都进行拼接，而只需要将其中两个或两个以上的向量进行拼接处理也可以。

S303，将高维向量和上一时隙的隐藏状态输入循环神经网络进行处理，得到当前时隙的移动指令以及当前时隙的隐藏状态。

具体地，该实施例中的高维向量可以当成是当前时隙循环神经网络的输入参数x’t，同时，循环神经网络的输入参数还有上一时隙的隐藏状态ht-1，并且，本实施例中的循环神经网络可以为包括不同层LSTM或GRU的神经网络，将高维向量x’t和上一时隙的隐藏状态ht-1输入循环神经网络之后，可以得到当前时隙的移动指令yt和当前时隙的隐藏状态ht。需要说明的是，循环神经网络对高维向量x’t和上一时隙的隐藏状态ht-1进行处理，可以参见相关技术中对于循环神经网络的具体描述，在此不对其进行赘述。

在本发明的一些实施例中，移动指令包括线速度和角速度，在根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态之后，方法还包括：将当前时隙的隐藏状态输入至输出层网络进行处理，并输出线速度和角速度的各个离散值的概率分布。

具体地，本实施例中还包括有输出层网络，在计算得到移动指令之后，则可以将当前时隙的隐藏状态输入到该输出层网络中，通过该输出层网络对移动指令进行一步处理，能够输出对应的线速度和角速度的各个离散值的概率分布。举例而言，当循环神经网络为GRU，且线速度和角速度为离散值时，输出层网络的输入为循环神经网络输出的隐藏状态，该输出层网络的输出为线速度和角速度被选为各个离散值的概率分布，需要说明的是，输出层可以包含softmax处理操作。另外，如果线速度和角速度为连续值，则输出层网络可以直接输出对应的线速度具体值和角速度具体值。

在本发明的一些实施例中，可以先对循环神经网络进行训练，即先训练好循环神经网络之后，再将高维向量和上一时隙的隐藏状态输入到该已经完成训练的循环神经网络中进行处理。首先需要说明的是，在利用深度强化学习训练循环神经网络的过程中，为评价循环神经网络的好坏程度，需引入一个评价机制。该实施例中，如图5所示，利用参数化表征的值函数V来评价循环神经网络的好坏，训练时采用图5所示的网络结构进行训练，其中值函数V代表机器人在状态st(下述有解释)时遵循循环神经网络所表征的策略所能获得的回报期望值的估计值，其中，回报代表累积折扣奖励，折扣率为γ。

参见图6，循环神经网络具体的训练方式如下：

S601，初始化循环神经网络。

具体地，本实施例对循环神经网络进行初始化具体可以是对循环神经网络的相关参数进行初始化设置，如随机取值等。需要说明的是，第一卷积神经网络可以使用已预先训练好的用于目标检测的ResNet18中的卷积层。

S602，收集训练场景中机器人的训练数据，并向循环神经网络输入各个时隙的训练数据。

具体地，本实施例中训练场景可以包括虚拟的场景等，即通过虚拟场景进行训练之后，再应用到对应的实际场景中，以提高训练速度，同时还可以避免机器人在训练过程中发生故障。其中，训练数据中可以包括各个时隙的训练数据，以提高数据的普遍性。

在一些实施例中，训练数据包括多组数据，其中，每一组数据包括上一时隙的隐藏状态ht-1、当前时隙的隐藏状态ht、当前时隙的移动指令yt、当前时隙的奖励函数值rt、当前时隙的环境信息xt和下一时隙的环境信息xt+1，当前时隙的奖励函数值包括第一正奖励和第一负奖励，第一正奖励表示机器人执行当前时隙的移动指令后与终点之间的距离缩减值，第一负奖励表示机器人在当前时隙内发生碰撞的次数。

具体地，本实施例中可以将上一时隙的隐藏状态ht-1和当前时隙的环境信息xt表示机器人当前时隙的状态st，即st＝<xt，ht-1>，那么机器人下一时隙的状态则为st+1＝<xt+1，ht>，因此，上述训练数据可以表示为<st，yt，rt，st+1>。另外需要说明的是，本实施例中的循环神经网络可以使用深度强化学系训练算法，例如PPO算法，以进行训练，在训练过程中，需要将其中的奖励函数进行重新定义，具体地，将第一正奖励定义为机器人执行当前时隙的移动指令后与终点之间的距离缩减值，第一负奖励定义为机器人在当前时隙内发生碰撞的次数，在一些实施例中，当前时隙的奖励函数还包括第二正奖励和第二负奖励，其中，第二正奖励可以定义为机器人已抵达终点，第二负奖励可以定义为设定完终点后所经过的时间。需要说明的是，第一正奖励、第一负奖励、第二正奖励和第二负奖励都可以用一个常数值来表征对应的奖励函数，其中，由于第二正奖励表示机器人已经抵达终点，所以可以将第二正奖励的常数值设置为远大于其他三个奖励函数对应的常数值，以此来识别当前机器人是否已经抵达了终点。

可以理解的是，本实施例中的其他训练步骤与相关技术中的强化学习算法相同，在此不再赘述。

S603，每隔预设个数时隙对循环神经网络进行更新。

具体地，在收集完训练数据之后，可以每间隔预设个时隙对循环神经网络进行更新，其中，预设个时隙可以为5个、10个等。更具体地，在更新时，则可以先从训练数据中选取一个批次的数据，例如可以选取一段时间内的训练数据，也可以选取大小为1kb的训练数据等，然后将训练数据中的环境信息作为输入信息进行判断，使其经过训练后输出的数据与对应的训练数据组中的各参数接近。

S604，根据总损失函数的数值、或者循环神经网络的训练次数、或者时隙的步数确定循环神经网络是否完成训练，其中，总损失函数为当前时隙的移动指令对应的损失函数和当前时隙的移动指令估计值对应的损失函数之和。

在训练过程中，本实施例可以通过两个损失函数进行估计，其中，一方面，训练旨在选取的动作能够最大化机器人获得的回报(即累积折扣奖励或奖励的期望)，对应动作输出的损失函数为当前时隙的移动指令对应的损失函数action_loss＝-A(st，yt)，其中，A(st，yt)代表机器人在st下采取动作yt相比遵循循环神经网络所能带来的回报优势大小，可以由A(st，yt)＝rt+γV(st+1)-V(st)进行估计，或者由A(st，yt)＝rt+γ*rt+1+γ2*rt+2+…+γT-t+1*rT-1+γT-t*V(st+1)-V(st)进行估计。另一方面，训练旨在将值函数的估计值V(xt)与目标值rt+γV(st+1)之间的均方差最小化，对应评价者输出的损失函数为当前时隙的移动指令估计值对应的损失函数value_loss＝(rt+γV(st+1)-V(st))^2。综合以上情况，循环神经网络的总损失函数total_loss＝action_loss+value_loss。需要说明的是，总损失函数用于训练网络，其数值大小与环境设置相关，其数值大小用于确定网络参数更新的差值，与训练什么时候截至无关，网络参数更新时，以此损失函数进行反向传播来更新网络参数，其中，反向传播更新网络参数可以采用常用的方法，如梯度下降法。

在该实施例中，根据总损失函数的数值、或者循环神经网络的训练次数、或者时隙的步数确定循环神经网络是否完成训练，包括：当总损失函数、当前时隙的移动指令对应的损失函数和当前时隙的移动指令估计值对应的损失函数中的一个或多个损失函数的函数值增大时，或者，当训练次数大于第一预设次数时，或者，当时隙的步数大于第二预设次数时，则确定循环神经网络完成训练，其中，第二预设次数大于第一预设次数。

具体地，迭代重复上述步骤S601～S604，直至满足训练结束条件，其中，训练结束条件包括损失函数value_loss、action_loss和total_loss中的一个或多个在一定次迭代次数中不减反增时，则可以确定当前网络已经满足训练结束条件；或者，当训练次数超过十万次的时候，也可以确定当前网络已经满足训练结束条件；或者，当时隙的步数大于一千万次的时候，也可以确定当前网络已经满足训练结束条件。可以理解的是，本实施例中的第一预设次数和第二预设次数都可以根据实际要求进行更改，对此不做限定。

综上，本发明实施例的机器人移动控制方法能够使机器人自适应复杂多变的环境并完成避障或越障操作，无需人工逐个情形的分析处理和编写相应的导航指令，提高了机器人的智能性和执行效率，节省了机器人移动控制的成本。

图7是根据本发明实施例的机器人移动控制装置的结构框图。

进一步地，如图7所示，本发明提出了一种机器人移动控制装置100，该控制装置100包括获取模块101、生成模块102和控制模块103。

其中，获取模块101用于获取机器人当前时隙所处环境的环境信息；生成模块102用于根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态；控制模块103用于根据当前时隙的移动指令控制机器人移动，以及利用当前时隙的隐藏状态和获取模块获取到的下一时隙的环境信息重复上述步骤，以持续控制机器人移动。

在本发明的一些实施例中，机器人移动控制装置还包括：判断模块，用于在获取机器人当前时隙所处环境的环境信息之后，根据当前时隙的环境信息对机器人的当前状态进行判断；控制模块，还用于确定机器人的当前状态为异常状态，则根据预设移动指令控制机器人退出异常状态。

在本发明的一些实施例中，环境信息包括RGB图和/或深度图、机器人相对终点的距离、机器人前进方向与终点方向之间的角度、以及机器人的占据栅格地图、机器人的历史路线图、机器人的当前位置图、机器人的碰撞地图和机器人的规划路线图中的至少一个。

在本发明的一些实施例中，控制模块，具体用于利用第一卷积神经网络对RGB图和/或深度图进行处理得到图像特征向量；和/或，利用第一嵌入层对机器人相对终点的距离进行处理得到距离表征向量；和/或，利用第二嵌入层对机器人前进方向与终点方向之间的角度进行处理得到角度表征向量；和/或，利用第二卷积神经网络对机器人的占据栅格地图、机器人的历史路线图、机器人的当前位置图、机器人的碰撞地图和机器人的规划路线图中的至少一个进行处理得到2D地图特征向量；将图像特征向量、距离表征向量、角度表征向量和2D地图特征向量中的至少两个进行拼接聚合，以得到高维向量；将高维向量和上一时隙的隐藏状态输入循环神经网络进行处理，得到当前时隙的移动指令以及当前时隙的隐藏状态。

在本发明的一些实施例中，第一卷积神经网络包括不同层数的ResNet，第二卷积神经网络包括不同层数的CNN，循环神经网络包括不同层数LSTM或GRU。

在本发明的一些实施例中，移动指令包括线速度和角速度，控制模块，还用于在根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态之后，将当前时隙的隐藏状态输入至输出层网络进行处理，并输出线速度和角速度的各个离散值的概率分布。

在本发明的一些实施例中，机器人移动控制装置还包括训练模块，训练模块，用于在将高维向量和上一时隙的隐藏状态输入循环神经网络进行处理之前，初始化循环神经网络；收集训练场景中机器人的训练数据，并向循环神经网络输入各个时隙的训练数据；每隔预设个数时隙对循环神经网络进行更新；根据总损失函数的数值、或者循环神经网络的训练次数、或者时隙的步数确定循环神经网络是否完成训练，其中，总损失函数为当前时隙的移动指令对应的损失函数和当前时隙的移动指令估计值对应的损失函数之和。

在本发明的一些实施例中，训练数据包括多组数据，其中，每一组数据包括上一时隙的隐藏状态、当前时隙的隐藏状态、当前时隙的移动指令、当前时隙的奖励函数值、当前时隙的环境信息和下一时隙的环境信息，当前时隙的奖励函数值包括第一正奖励和第一负奖励，第一正奖励表示机器人执行当前时隙的移动指令后与终点之间的距离缩减值，第一负奖励表示机器人在当前时隙内发生碰撞的次数。

在本发明的一些实施例中，当前时隙的奖励函数还包括第二正奖励和第二负奖励，其中，第二正奖励表示机器人已抵达终点，第二负奖励表示设定完终点后所经过的时间。

在本发明的一些实施例中，训练模块，具体用于当总损失函数、当前时隙的移动指令对应的损失函数和当前时隙的移动指令估计值对应的损失函数中的一个或多个损失函数的函数值增大时，或者，当训练次数大于第一预设次数时，或者，当时隙的步数大于第二预设次数时，则确定循环神经网络完成训练，其中，第二预设次数大于第一预设次数。

需要说明的是，本发明实施例的机器人移动控制装置的具体实施方式，可以参见上述实施例中的机器人移动控制方法的具体实施方式，在此不再赘述。

综上，本发明实施例的机器人移动控制装置能够使机器人自适应复杂多变的环境并完成避障或越障操作，无需人工逐个情形的分析处理和编写相应的导航指令，提高了机器人的智能性和执行效率，节省了机器人移动控制的成本。

图8是根据本发明实施例的扫地机器人的结构框图。

进一步地，如图8所示，本发明提出了一种扫地机器人200，该扫地机器人200包括存储器201、处理器202及存储在存储器201上并可在处理器202上运行的机器人移动控制程序，处理器202执行机器人移动控制程序时，实现根据上述实施例的机器人移动控制方法。

进一步地，本发明提出了一种计算机可读存储介质，其上存储有机器人移动控制程序，该机器人移动控制程序被处理器执行时实现根据上述实施例的机器人移动控制方法。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，本发明实施例中所使用的“第一”、“第二”等术语，仅用于描述目的，而不可以理解为指示或者暗示相对重要性，或者隐含指明本实施例中所指示的技术特征数量。由此，本发明实施例中限定有“第一”、“第二”等术语的特征，可以明确或者隐含地表示该实施例中包括至少一个该特征。在本发明的描述中，词语“多个”的含义是至少两个或者两个及以上，例如两个、三个、四个等，除非实施例中另有明确具体的限定。

在本发明中，除非实施例中另有明确的相关规定或者限定，否则实施例中出现的术语“安装”、“相连”、“连接”和“固定”等应做广义理解，例如，连接可以是固定连接，也可以是可拆卸连接，或成一体，可以理解的，也可以是机械连接、电连接等；当然，还可以是直接相连，或者通过中间媒介进行间接连接，或者可以是两个元件内部的连通，或者两个元件的相互作用关系。对于本领域的普通技术人员而言，能够根据具体的实施情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种机器人移动控制方法，其特征在于，包括：

获取所述机器人当前时隙所处环境的环境信息；

根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态；

根据所述当前时隙的移动指令控制所述机器人移动；

利用所述当前时隙的隐藏状态以及获取到的下一时隙的环境信息重复上述步骤，以持续控制所述机器人移动。

2.根据权利要求1所述的控制方法，其特征在于，所述获取所述机器人当前时隙所处环境的环境信息之后，还包括：

根据所述当前时隙的环境信息对所述机器人的当前状态进行判断；

确定所述机器人的当前状态为异常状态，则根据预设移动指令控制所述机器人退出所述异常状态。

3.根据权利要求1所述的控制方法，其特征在于，所述环境信息包括RGB图和/或深度图、所述机器人相对终点的距离、所述机器人前进方向与终点方向之间的角度、以及所述机器人的占据栅格地图、所述机器人的历史路线图、所述机器人的当前位置图、所述机器人的碰撞地图和所述机器人的规划路线图中的至少一个。

4.根据权利要求3所述的控制方法，其特征在于，所述根据所述当前时隙的环境信息和上一时隙的隐藏状态得到当前时隙的移动指令以及当前时隙的隐藏状态，包括：

利用第一卷积神经网络对所述RGB图和/或深度图进行处理得到图像特征向量；和/或，

利用第一嵌入层对所述机器人相对终点的距离进行处理得到距离表征向量；和/或，

利用第二嵌入层对所述机器人前进方向与终点方向之间的角度进行处理得到角度表征向量；和/或，

利用第二卷积神经网络对所述机器人的占据栅格地图、所述机器人的历史路线图、所述机器人的当前位置图、所述机器人的碰撞地图和所述机器人的规划路线图中的至少一个进行处理得到2D地图特征向量；

将所述图像特征向量、所述距离表征向量、所述角度表征向量和所述2D地图特征向量中的至少两个进行拼接聚合，以得到高维向量；

将所述高维向量和所述上一时隙的隐藏状态输入循环神经网络进行处理，得到所述当前时隙的移动指令以及所述当前时隙的隐藏状态。

5.根据权利要求4所述的控制方法，其特征在于，所述第一卷积神经网络包括不同层数的ResNet，所述第二卷积神经网络包括不同层数的CNN，所述循环神经网络包括不同层数LSTM或GRU。

6.根据权利要求5所述的控制方法，其特征在于，所述移动指令包括线速度和角速度，所述根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态之后，所述方法还包括：

将所述当前时隙的隐藏状态输入至输出层网络进行处理，并输出所述线速度和所述角速度的各个离散值的概率分布。

7.根据权利要求4-6中任一项所述的控制方法，其特征在于，在将所述高维向量和所述上一时隙的隐藏状态输入循环神经网络进行处理之前，还包括：

初始化所述循环神经网络；

收集训练场景中所述机器人的训练数据，并向所述循环神经网络输入各个时隙的训练数据；

每隔预设个数时隙对所述循环神经网络进行更新；

根据总损失函数的数值、或者所述循环神经网络的训练次数、或者所述时隙的步数确定所述循环神经网络是否完成训练，其中，所述总损失函数为所述当前时隙的移动指令对应的损失函数和所述当前时隙的移动指令估计值对应的损失函数之和。

8.根据权利要求7所述的控制方法，其特征在于，所述训练数据包括多组数据，其中，每一组数据包括上一时隙的隐藏状态、当前时隙的隐藏状态、当前时隙的移动指令、当前时隙的奖励函数值、当前时隙的环境信息和下一时隙的环境信息，所述当前时隙的奖励函数值包括第一正奖励和第一负奖励，所述第一正奖励表示所述机器人执行所述当前时隙的移动指令后与终点之间的距离缩减值，所述第一负奖励表示所述机器人在当前时隙内发生碰撞的次数。

9.根据权利要求8所述的控制方法，其特征在于，所述当前时隙的奖励函数还包括第二正奖励和第二负奖励，其中，所述第二正奖励表示所述机器人已抵达终点，所述第二负奖励表示设定完所述终点后所经过的时间。

10.根据权利要求7所述的控制方法，其特征在于，所述根据总损失函数的数值、或者所述循环神经网络的训练次数、或者所述时隙的步数确定所述循环神经网络是否完成训练，包括：

当所述总损失函数、所述当前时隙的移动指令对应的损失函数和所述当前时隙的移动指令估计值对应的损失函数中的一个或多个损失函数的函数值增大时，或者，当所述训练次数大于第一预设次数时，或者，当所述时隙的步数大于第二预设次数时，则确定所述循环神经网络完成训练，其中，所述第二预设次数大于所述第一预设次数。

11.一种机器人移动控制装置，其特征在于，包括：

获取模块，用于获取所述机器人当前时隙所处环境的环境信息；

生成模块，用于根据当前时隙的环境信息和上一时隙的隐藏状态生成当前时隙的移动指令以及当前时隙的隐藏状态；

控制模块，用于根据所述当前时隙的移动指令控制所述机器人移动，以及利用所述当前时隙的隐藏状态和所述获取模块获取到的下一时隙的环境信息重复上述步骤，以持续控制所述机器人移动。

12.一种扫地机器人，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的机器人移动控制程序，所述处理器执行所述机器人移动控制程序时，实现根据权利要求1-10中任一项所述的机器人移动控制方法。

13.一种计算机可读存储介质，其特征在于，其上存储有机器人移动控制程序，该机器人移动控制程序被处理器执行时实现根据权利要求1-10中任一项所述的机器人移动控制方法。