CN116901110A

CN116901110A - 移动机器人控制方法、装置、电子设备及存储介质

Info

Publication number: CN116901110A
Application number: CN202310715979.XA
Authority: CN
Inventors: 周明才; 张伟; 马世奎
Original assignee: Cloudminds Shanghai Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-10-20

Abstract

本申请实施例提供一种移动机器人控制方法、装置、电子设备及存储介质。在本申请实施例中，将指示抓取目标物体的操作指令的文本信息、目标物体所在环境的RGB图像信息和深度图像信息输入到机器学习模型中，获取机器学习模型输出的控制指令，基于控制指令中的底盘控制参数、腰部控制参数、关节控制参数控制移动机器人的底盘、腰部或机械臂上各关节执行对应操作，以使机械臂上抓取部靠近所需抓取物体并根据控制指令中的开合角度控制所述抓取部张开以抓取物体。由此，有效地提高了物体抓取成功率和抓取效率。

Description

移动机器人控制方法、装置、电子设备及存储介质

技术领域

本申请涉及移动机器人技术领域，尤其涉及一种移动机器人控制方法、装置、电子设备及存储介质。

背景技术

随着计算机技术、传感器技术和仿生学技术的不断发展，移动机器人的应用越来越广泛，例如，应用在迎宾接待、引导讲解、群舞演绎、业务办理、养老陪伴、教学科研等多种应用场景。通常，移动机器人的底部会设置底盘，底盘通常承载移动机器人定位、导航及避障等基本功能，可帮助移动机器人实现智能行走，底盘例如包括但不限于：三轮全向轮底盘，四轮全向轮底盘。另外，移动机器人上会设置模仿人类肢体的机械臂，机械臂上设置模仿人类手部的抓取部(也可称作为夹爪、机械爪或机械手)，机械臂通常承载物体抓取和物体移动任务。

在物体抓取场景中，用户向移动机器人下发物体抓取指令，例如，物体抓取指令为“拿起一瓶牛奶”。移动机器人响应于物体抓取指令，利用RGB图像传感器采集待抓取物体周边环境的RGB图像信息；根据RGB图像信息分析抓取部靠近所需抓取的物体时位姿信息和抓取部的开合角度；根据抓取部靠近所需抓取的物体时位姿信息推算移动机器人的底盘控制参数、腰部控制参数和机械臂的关节控制参数；根据底盘控制参数、腰部控制参数和机械臂的关节控制参数控制底盘移动、腰部旋转和机械臂的各关节进行角度调整，以使抓取部靠近所需抓取物体；在抓取部靠近所需抓取的物体后，移动机器人根据抓取部的开合角度控制抓取部张开以抓取物体。然而，移动机器人采用上述方式执行物体抓取任务时的抓取成功率较低。

发明内容

本申请的多个方面提供一种移动机器人控制方法、装置、电子设备及存储介质，用以提高物体抓取成功率和抓取效率。

本申请实施例提供一种移动机器人控制方法，包括：响应于指示抓取目标物体的操作指令被触发，采集目标物体所在环境的RGB图像信息和深度图像信息；将操作指令的文本信息、RGB图像信息和深度图像信息输入至机器学习模型中，以得到机器学习模型输出的控制指令，控制指令包括底盘控制参数、腰部控制参数、关节控制参数和开合角度；将控制指令发送给移动机器人，以触发移动机器人执行对应的操作进而使得抓取部与目标物体之间的距离满足要求并根据开合角度控制抓取部张开以抓取目标物体。

本申请实施例还提供一种移动机器人控制装置，包括：采集模块，用于响应于指示抓取目标物体的操作指令被触发，采集目标物体所在环境的RGB图像信息和深度图像信息；处理模块，用于将操作指令的文本信息、RGB图像信息和深度图像信息输入至机器学习模型中，以得到机器学习模型输出的控制指令，控制指令包括底盘控制参数、腰部控制参数、关节控制参数和开合角度；发送模块，用于将控制指令发送给移动机器人，以触发移动机器人执行对应的操作进而使得抓取部与目标物体之间的距离满足要求并根据开合角度控制抓取部张开以抓取目标物体。

本申请实施例还提供一种电子设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器耦合至存储器，用于执行计算机程序以用于执行移动机器人控制方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器能够实现移动机器人控制方法中的步骤。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种应用场景图；

图2为本申请实施例提供的一种移动机器人控制方法的流程图；

图3为前融合示意图；

图4为后融合示意图；

图5为中融合示意图；

图6为本申请实施例提供的一种移动机器人控制装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的访问关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本申请的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。此外，在本申请实施例中，“第一”、“第二”、“第三”、等只是为了区分不同对象的内容而已，并无其它特殊含义。

为此，本申请实施例提供一种移动机器人控制方法、装置、电子设备及存储介质。在本申请实施例中，将指示抓取目标物体的操作指令的文本信息、目标物体所在环境的RGB图像信息和深度图像信息输入到机器学习模型中，获取机器学习模型输出的控制指令，基于控制指令中的底盘控制参数、腰部控制参数、关节控制参数控制移动机器人的底盘、腰部或机械臂上各关节执行对应操作，以使机械臂上抓取部靠近所需抓取物体并根据控制指令中的开合角度控制抓取部张开以抓取物体。由此，有效地提高了物体抓取成功率和抓取效率。

图1为本申请实施例提供的一种应用场景图。在图1所示的物体抓取场景中，移动机器人具有底盘和末端设置有抓取部的机械臂，另外，移动机器人还设置有多个传感器(图中未示出)，多个传感器例如包括但不限于：RGB图像传感器、深度图像传感器、RGB-D图像传感器、毫米波雷达、激光雷达、超声传感器、角度传感器等等，其中，RGB即是代表红、绿、蓝三个通道的颜色，RGB-D中的D是指深度值Depth。

参见图1中的①所示，当用户有物体抓取需求时，用户向移动机器人发出语音指令，语音指令例如为“拿起一瓶牛奶”。移动机器人响应于语音指令，利用语音转文本技术将语音指令转化为文本指令，根据文本指令触发RGB图像传感器和深度图像传感器进行信息采集，或者，触发RGB-D图像传感器进行信息采集，以获取移动机器人前方环境(所需抓取物体处在前方环境中)的RGB图像信息和深度图像信息。参见图1中的②所示，移动机器人将前方环境的RGB图像信息和深度图像信息以及语音指令的文本信息发送给云端的机器学习模型。云端的机器学习模型根据接收到的信息生成控制指令，控制指令包括底盘控制参数、腰部控制参数、关节控制参数和开合角度。底盘控制参数用于控制移动机器人的底盘移动，腰部控制参数用于控制移动机器人的腰部旋转，关节控制参数用于控制移动机器人的机械臂上各关节进行角度调整，开合角度用于控制机械臂上的抓取部的张开状态。参见图1中的③所示，云端将控制指令下发给移动机器人以触发移动机器人执行相应操作以抓取物体。具体而言，移动机器人根据底盘控制参数控制底盘是否移动，在需要移动的情况下，按照底盘控制参数中的移动方向和移动距离控制底盘按照对应的移动方向移动一定距离。移动机器人根据腰部控制参数控制移动机器人的腰部是否旋转，在需要旋转的情况下，按照腰部控制参数中的旋转角度控制移动机器人的腰部旋转。移动机器人根据关节控制参数控制移动机器人的机械臂上各关节是否转动，在需要转动的情况下，根据关节控制参数中的角度调整信息控制机械臂上各关节进行角度调整，角度调整信息例如指示关节转动后的角度信息或关节所需转动的角度信息等等。当移动机器人的底盘、腰部和机械臂各关节执行对应的操作之后，抓取部与所需抓取物体之间的距离满足要求，也即机械臂上的抓取部靠近所需抓取的物体，抓取部在当前位置成功抓取所需物体的概率较大。在抓取部靠近所需抓取的物体后，根据控制指令中的开合角度控制抓取部张开以抓取所需物体，至此，整个物体抓取流程结束。当然，若本次物体抓取失败，用户可以重新向移动机器人下发物体抓取指令，移动机器人重复上述操作，直至物体成功抓取。或者，可以自动判断物体抓取是否成功，并在失败的情况下，移动机器人获取所需抓取目标物体所在环境的当前RGB图像信息和当前深度图像信息输入至机器学习模型，获取机器学习模型输出的控制指令，并执行控制指令。重复上述步骤，直至抓取部靠近所需抓取的物体，并抓取物体成功或者接收到用户下发的放弃抓取物体的抓取结束指令为止。

需要说明的是，图1所示的应用场景仅仅为一种示例性的应用场景，本申请实施例并不限制应用场景。本申请实施例不对图1中包括的设备进行限定，也不对图1中设备之间的位置关系进行限定。

实际应用中，对机器学习模型的部署位置不做限制，例如，可以部署在云端、边缘端或移动机器人上等等。优先的，在移动机器人本地运行机器学习模型以获得更加实时的视觉反馈控制。在本申请实施例中，移动机器人可以通过有线网络或者无线网络与云端进行交互。例如，有线网络可以包括同轴电缆、双绞线和光纤等，无线网络可以是2G(2Generation，2代)网络、3G(3Generation，3代)网络、4G(4Generation，4代)网络或者5G(5Generation，5代)网络、无线保真(Wireless Fidelity，简称WIFI)网络等。本申请对交互的具体类型或者具体形式并不做限定，只要其能够实现移动机器人与云端交互的功能即可。云端可以是硬件也可以是软件。当云端为硬件时，该云端为单个服务器或多个服务器组成的分布式服务器集群。当云端为软件时，可以为多个软件模块或单个软件模块等，本申请实施例并不限制。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图2为本申请实施例提供的一种移动机器人控制方法的流程图。参见图2，该方法可以包括以下步骤：

201、响应于指示抓取目标物体的操作指令被触发，采集目标物体所在环境的RGB图像信息和深度图像信息。

202、将操作指令的文本信息、RGB图像信息和深度图像信息输入至机器学习模型中，以得到机器学习模型输出的控制指令，控制指令包括底盘控制参数、腰部控制参数、关节控制参数和开合角度。

203、将控制指令发送给移动机器人，以触发移动机器人执行对应的操作进而使得抓取部与目标物体之间的距离满足要求并根据开合角度控制抓取部张开以抓取目标物体。

在本实施例中，当用户有物体抓取需求时，可以通过语音交互、触控交互或手势交互等各种人机交互方式向移动机器人触发指示抓取目标物体的操作指令。其中，目标物体是指用户需要抓取的物体，例如为一瓶牛奶。语音交互例如为语音指令“拿起一瓶牛奶”；触控交互例如为用户在移动机器人的触控屏中以手写输入方式输入操作指令“拿起一瓶牛奶”；手势交互例如为用户对着所需抓取物体摆出预设的指示抓取的手势等等。

当移动机器人接收到用户触发的操作指令之后，对操作指令进行解析，获取操作指令的文本信息，文本信息可以指示所需抓取的物体以及指示执行抓取操作，但并不限于此。另外，移动机器人响应于指示抓取目标物体的操作指令被触发，采集目标物体所在环境的RGB图像信息和深度图像信息。例如，通过移动机器人设置的RGB图像传感器采集RGB图像信息，以及通过移动机器人设置的深度图像传感器采集深度图像信息；或者，通过移动机器人设置的RGB-D图像传感器采集RGB图像信息和深度图像信息。RGB-D图像传感器例如包括但不限于：双目相机、结构光相机和TOF(Time of Flight，飞行时间)相机。

当采集到目标物体所在环境的RGB图像信息和深度图像信息后，将操作指令的文本信息、RGB图像信息和深度图像信息输入至机器学习模型中，以得到机器学习模型输出的控制指令，控制指令例如包括但不限于：底盘控制参数、腰部控制参数、关节控制参数和开合角度。

其中，底盘控制参数用于控制移动机器人的底盘移动，底盘控制参数例如包括但不限于：指示底盘是否移动的控制参数、指示底盘的移动方向的控制参数或指示底盘的移动距离的控制参数。例如，底盘控制参数指示底盘移动、底盘移动方向为向左移动和底盘移动距离为10毫米等等。

腰部控制参数用于控制移动机器人的腰部旋转。腰部控制参数例如包括但不限于：指示移动机器人的腰部是否转动的控制参数、指示腰部的移旋转角度的控制参数。例如，腰部控制参数指示腰部旋转50°。

关节控制参数用于控制移动机器人的机械臂上各关节进行角度调整。关节控制参数例如包括但不限于：指示机械臂上各关节是否进行角度调整的控制参数、指示角度调整信息的控制参数，角度调整信息例如指示关节转动后的角度信息或关节所需转动的角度信息等等。

开合角度用于控制机械臂上的抓取部的张开状态，例如，抓取部张开50°。

在本实施例中，机器学习模型是提前训练好的。模型训练阶段，首先，获取训练数据集，训练数据集中的训练数据包括样本物体所在环境的RGB图像信息和深度图像信息、指示抓取样本物体的操作指令中的文本信息以及样本物体对应的控制指令；利用训练数据集进行模型训练，得到机器学习模型。其中，样本物体是指模型训练阶段所需抓取的物体，当样本物体所在环境的RGB图像信息和深度图像信息、指示抓取样本物体的操作指令中的文本信息输入至机器学习模型之后，获取机器学习模型输出的控制指令。根据机器学习模型输出的控制指令中各个控制参数和训练数据包括的控制指令中各个控制参数确定对应训练数据的损失值，根据各个训练数据的损失值调整机器学习模型的模型参数。值得注意的是，损失值越小，模型的鲁棒性越好。于是，在迭代模型训练过程中，以使损失值最小为目标，不断调整机器学习模型的模型参数，直至损失值最小或者达到最大迭代训练次数。关于模型训练更多介绍可以参见相关技术。

在本实施例中，可以使用任意的损失函数(loss function)确定训练数据的损失值。任意的损失函数(loss function)例如包括但不限于：均方误差损失函数、L2损失函数(又称为欧氏距离)、L1损失函数(曼哈顿距离)、交叉熵损失函数、softmax损失函数以及主要是为了解决难易样本不均衡的问题的Focal loss损失函数等等。

值得注意的是，在使用损失函数确定训练数据的损失值时，将机器学习模型输出的控制指令中各个控制参数作为各个真实值输入损失函数中，以及将训练数据包括的控制指令中各个控制参数为预测值输入损失函数中，损失函数基于所输入的真实值和预测值计算训练数据的损失值。关于损失函数计算损失值的更多介绍详见相关技术。举例来说，假设损失函数记为F＝f(x1，x2)+f(y1，y2)+f(z1，z2)+f(r1，r2)。f()可以是任意的损失函数，x1对应机器学习模型输出的底盘控制参数，x2对应训练数据中的底盘控制参数；y1对应机器学习模型输出的腰部控制参数，y2对应训练数据中的腰部控制参数；z1对应机器学习模型输出的关节控制参数，z2对应训练数据中的关节控制参数；r1对应机器学习模型输出的开合角度，r2对应训练数据中的开合角度。

在本实施例中，将机器学习模型输出的控制指令发送给移动机器人，以触发移动机器人执行对应的操作进而使得抓取部与目标物体之间的距离满足要求并根据开合角度控制抓取部张开以抓取目标物体。

例如，移动机器人根据底盘控制参数控制底盘是否移动，在需要移动的情况下，按照底盘控制参数中的移动方向和移动距离控制底盘按照对应的移动方向移动一定距离。移动机器人根据腰部控制参数控制移动机器人的腰部是否旋转，在需要旋转的情况下，按照腰部控制参数中的旋转角度控制移动机器人的腰部旋转。移动机器人根据关节控制参数控制移动机器人的机械臂上各关节是否转动，在需要转动的情况下，根据关节控制参数中的角度调整信息控制机械臂上各关节进行角度调整，角度调整信息例如指示关节转动后的角度信息或关节所需转动的角度信息等等。

当移动机器人的底盘、腰部和机械臂各关节执行对应的操作之后，抓取部与所需抓取物体之间的距离满足要求，也即机械臂上的抓取部靠近所需抓取的物体，抓取部在当前位置成功抓取所需物体的概率较大。在抓取部靠近所需抓取的物体后，根据控制指令中的开合角度控制抓取部张开以抓取所需物体，至此，整个物体抓取流程结束。当然，若本次物体抓取失败，用户可以重新向移动机器人下发操作指令，移动机器人重复上述操作，直至物体成功抓取。

本申请实施例提供的技术方案，将指示抓取目标物体的操作指令的文本信息、目标物体所在环境的RGB图像信息和深度图像信息输入到机器学习模型中，获取机器学习模型输出的控制指令，基于控制指令中的底盘控制参数、腰部控制参数、关节控制参数控制移动机器人的底盘、腰部或机械臂上各关节执行对应操作，以使机械臂上抓取部靠近所需抓取物体并根据控制指令中的开合角度控制抓取部张开以抓取物体。由此，有效地提高了物体抓取成功率和抓取效率。

本申请实施例对机器学习模型的网络结构不做限制。进一步可选的，为了提高机器学习模块的模型性能，机器学习模型包括依次连接的融合网络、Token序列生成网络、降维网络和解码网络。其中，融合网络、Token序列生成网络、降维网络和解码网络的网络结构不做限制，网络结构中的神经网络层的数量和种类不做限制，神经网络层例如包括但不限于：卷积层、全连接层、池化层、激活层。网络结构例如包括但不限于：卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Networks，RNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、DarkNet(匿名网络)、ResNet(残差网络)和AlexNet。其中，Alexnet共有8层神经网络层，前5层为卷积层，后3层为全连接层。

示例性的，将操作指令中的文本信息、RGB图像信息和深度图像信息输入至机器学习模型中，以得到机器学习模型输出的控制指令的一种实现方式为：通过融合网络对操作指令中的文本信息、RGB图像信息和深度图像信息进行融合处理，得到融合特征图；将融合特征图输入Token序列生成网络，以得到Token序列；通过降维网络对Token序列进行降维处理，以得到降维后的Token序列；通过解码网络对降维后的Token序列进行解码处理，以得到控制指令。

在本实施例中，在对操作指令中的文本信息、RGB图像信息和深度图像信息进行融合处理，得到融合特征图后，将融合特征图输入Token序列生成网络，以得到Token序列。具体而言，Token序列生成网络将融合特征图切分为多个图块，对每个图块进行tokenization(标识化处理)，得到每个图块对应的Token(可以理解为视觉语义特征)，多个图块对应的Token形成Token序列。

在本实施例中，为了提高模型处理效率，可以先通过降维网络对Token序列进行降维处理，以得到降维后的Token序列；再通过解码网络对降维后的Token序列进行解码处理，以得到控制指令。其中，解码网络是具有解码功能的解码器(decoder)。

在本实施例中，对融合网络的网络结构不做限制。下面举例几种融合网络。

示例1：融合网络包括第一编码器、第一特征提取模块和第一融合模块。其中，第一编码器是具有编码功能的编码器(encoder)，第一特征提取模块是具有特征提取功能的神经网络结构，第一融合模块是具有融合处理功能的神经网络结构。融合处理例如包括但不限于：特征拼接(concatenation)、特征按位乘(element-wise product)、特征按位加(element-wise sum)。

基于上述，通过融合网络对操作指令中的文本信息、RGB图像信息和深度图像信息进行融合处理，得到融合特征图的一种可选实现方式为：利用第一编码器对文本信息进行编码处理，得到第一特征图；利用第一特征提取模块对RGB图像信息和深度图像信息进行特征提取，得到第二特征图；利用第一融合模块对第一特征图和第二特征图进行融合处理，得到融合特征图。

值得注意的是，参见图3，上述方式将RGB图像信息和深度图像信息拼接在一起输入第一特征提取模块进行处理，该方式可以理解为前融合方式。

示例2：融合网络包括第二编码器、第二特征提取模块、第三特征提取模块和第二融合模块。其中，第二编码器是具有编码功能的编码器,第二特征提取模块、第三特征提取模块是具有特征提取功能的神经网络结构，第二融合模块是具有融合处理功能的神经网络结构。

基于上述，通过融合网络对操作指令中的文本信息、RGB图像信息和深度图像信息进行融合处理，得到融合特征图的一种可选实现方式为利用第二编码器对文本信息进行编码处理，得到第三特征图；利用第二特征提取模块对RGB图像信息进行特征提取，得到第四特征图；利用第三特征提取模块对深度图像信息进行特征提取，得到第五特征图；利用第二融合模块对第三特征图、第四特征图和经过零卷积层处理后的第五特征图进行融合处理，得到融合特征图。其中，零卷积(Zero Convolution)层指的是权重和偏置都是用0初始化的1x1卷积层。通过零卷积层将深度信息和RGB图像信息进行融合，既可保留对应彩色信息预训练模型的权重信息，又可以进行逐步无缝融合。

值得注意的是，参见图4，上述方式在RGB图像信息和深度图像信息经过各自对应的特征提取模块处理后再进行融合，该方式可以理解为后融合方式。

示例3：融合网络包括第三编码器、第四特征提取模块、第五特征提取模块和第三融合模块；其中，第三编码器是具有编码功能的编码器,第四特征提取模块、第五特征提取模块是具有特征提取功能的神经网络结构，第三融合模块是具有融合处理功能的神经网络结构。

基于上述，通过融合网络对操作指令中的文本信息、RGB图像信息和深度图像信息进行融合处理，得到融合特征图的一种可选实现方式为：利用第三编码器对文本信息进行编码处理，得到第六特征图；将RGB图像信息输入第四特征提取模块进行特征提取，第四特征提取模块包括依次连接的多个第一特征提取单元，至少部分第一特征提取单元输出的中间特征和经过零卷积层处理后的第二特征提取单元输出的中间特征进行融合处理，得到融合中间特征，融合中间特征作为下一个第一特征提取单元的输入数据，第一个第一特征提取单元的输入数据为RGB图像信息；将深度图像信息输入第五特征提取模块进行特征提取，第五特征提取模块包括依次连接的多个第二特征提取单元，任一个第二特征提取单元输出的中间特征作为其下一个第二特征提取单元的输入数据，第一个第二特征提取单元的输入数据为深度图像信息；利用第三融合模块对第六特征图和第四特征提取模块中最后一个第一特征提取单元输出的特征图进行融合处理，得到融合特征图。

值得注意的是，第四特征提取模块中的各个第一特征提取单元的网络结构可以相同或不同，第五特征提取模块中的各个第二特征提取单元的网络结构可以相同或不同。

可以理解的是，第五特征提取模块中一个或多个第二特征提取单元输出的中间特征经过零卷积层处理后输入至第四特征提取模块中对应的第一特征提取单元中。

值得注意的是，参见图5，上述方式在RGB图像信息和深度图像信息经过各自对应的特征提取模块的处理过程中融合，该方式可以理解为中融合方式。

值得注意的是，按照融合效果从高到低的顺序排序，依次为：示例性2的融合网络、示例3的融合网络和示例1的融合网络。

在一些实施例中，还可以通过注意力机制引入深度信息，比如将深度信息作为空间注意力引入到对RGB图像信息进行特征提取的特征提取网络中。

图6为本申请实施例提供的一种移动机器人控制装置的结构示意图。参见图6，该装置可以：

采集模块61，用于响应于指示抓取目标物体的操作指令被触发，采集目标物体所在环境的RGB图像信息和深度图像信息；

处理模块62，用于将操作指令的文本信息、RGB图像信息和深度图像信息输入至机器学习模型中，以得到机器学习模型输出的控制指令，控制指令包括底盘控制参数、腰部控制参数、关节控制参数和开合角度；

发送模块63，用于将控制指令发送给移动机器人，以触发移动机器人执行对应的操作进而使得抓取部与目标物体之间的距离满足要求并根据开合角度控制抓取部张开以抓取目标物体。

进一步可选的，机器学习模型包括依次连接的融合网络、Token序列生成网络、降维网络和解码网络；相应地，处理模块62具体用于：通过融合网络对操作指令中的文本信息、RGB图像信息和深度图像信息进行融合处理，得到融合特征图；将融合特征图输入Token序列生成网络，以得到Token序列；通过降维网络对Token序列进行降维处理，以得到降维后的Token序列；通过解码网络对降维后的Token序列进行解码处理，以得到控制指令。

进一步可选的，融合网络包括第一编码器、第一特征提取模块和第一融合模块；

相应地，处理模块62通过融合网络对操作指令中的文本信息、RGB图像信息和深度图像信息进行融合处理，得到融合特征图时，具体用于：

利用第一编码器对文本信息进行编码处理，得到第一特征图；

利用第一特征提取模块对RGB图像信息和深度图像信息进行特征提取，得到第二特征图；

利用第一融合模块对第一特征图和第二特征图进行融合处理，得到融合特征图。

进一步可选的，融合网络包括第二编码器、第二特征提取模块、第三特征提取模块和第二融合模块；相应地，处理模块62通过融合网络对操作指令中的文本信息、RGB图像信息和深度图像信息进行融合处理，得到融合特征图时，具体用于：利用第二编码器对文本信息进行编码处理，得到第三特征图；利用第二特征提取模块对RGB图像信息进行特征提取，得到第四特征图；利用第三特征提取模块对深度图像信息进行特征提取，得到第五特征图；利用第二融合模块对第三特征图、第四特征图和经过零卷积层处理后的第五特征图进行融合处理，得到融合特征图。

进一步可选的，融合网络包括第三编码器、第四特征提取模块、第五特征提取模块和第三融合模块；相应地，处理模块62通过融合网络对操作指令中的文本信息、RGB图像信息和深度图像信息进行融合处理，得到融合特征图时，具体用于：利用第三编码器对文本信息进行编码处理，得到第六特征图；将RGB图像信息输入第四特征提取模块进行特征提取，第四特征提取模块包括依次连接的多个第一特征提取单元，至少部分第一特征提取单元输出的中间特征和经过零卷积层处理后的第二特征提取单元输出的中间特征进行融合处理，得到融合中间特征，融合中间特征作为下一个第一特征提取单元的输入数据，第一个第一特征提取单元的输入数据为RGB图像信息；将深度图像信息输入第五特征提取模块进行特征提取，第五特征提取模块包括依次连接的多个第二特征提取单元，任一个第二特征提取单元输出的中间特征作为其下一个第二特征提取单元的输入数据，第一个第二特征提取单元的输入数据为深度图像信息；利用第三融合模块对第六特征图和第四特征提取模块中最后一个第一特征提取单元输出的特征图进行融合处理，得到融合特征图。

进一步可选的，上述装置还包括：训练模块，用于获取训练数据集，训练数据集中的训练数据包括样本物体所在环境的RGB图像信息和深度图像信息、指示抓取样本物体的操作指令中的文本信息以及样本物体对应的控制指令；利用训练数据集进行模型训练，得到机器学习模型。

图6所示的装置可以执行图2所示实施例所示的方法，其实现原理和技术效果不再赘述。对于上述实施例中的图6所示的装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤201至步骤203的执行主体可以为设备A；又比如，步骤201和202的执行主体可以为设备A，步骤203的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如201、202等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

图7为本申请实施例提供的一种电子设备的结构示意图。如图7所示，该电子设备包括：存储器71和处理器72；

存储器71，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random-AccessMemory，SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable read only memory，EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)，可编程只读存储器(Programmable read-only memory，PROM)，只读存储器(Read-Only Memory，ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器72，与存储器71耦合，用于执行存储器71中的计算机程序，以用于：移动机器人控制方法中的步骤。

进一步，如图7所示，该电子设备还包括：通信组件73、显示器74、电源组件75、音频组件76等其它组件。图7中仅示意性给出部分组件，并不意味着电子设备只包括图7所示组件。另外，图7中虚线框内的组件为可选组件，而非必选组件，具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或IOT(物联网，Internet of things)设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图7中虚线框内的组件；若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图7中虚线框内的组件。

关于处理器执行各动作的详细实施过程可参见前述方法实施例或设备实施例中的相关描述，在此不再赘述。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器能够实现上述方法实施例中可由电子设备执行的各步骤。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi(WirelessFidelity，无线保真)、2G(2Generation，2代)、3G(3Generation，3代)、4G(4Generation，4代)/LTE(long Term Evolution，长期演进)、5G(5Generation，5代)等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(Near FieldCommunication，NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RadioFrequency Identification，RFID)技术，红外数据协会(The Infrared DataAssociation，IrDA)技术，超宽带(Ultra Wide Band，UWB)技术，蓝牙(Bluetooth，BT)技术和其他技术来实现。

上述显示器包括屏幕，其屏幕可以包括液晶显示器(Liquid Crystal Display，LCD)和触摸面板(Touch Panel，TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(microphone，MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(Central ProcessingUnit，CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变化内存(Phase Change RAM，PRAM)、静态随机存取存储器(Static Random-Access Memory，SRAM)、动态随机存取存储器(DynamicRandom Access Memory，DRAM)、其他类型的随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(Digital versatile disc，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种移动机器人控制方法，其特征在于，包括：

响应于指示抓取目标物体的操作指令被触发，采集目标物体所在环境的RGB图像信息和深度图像信息；

将所述操作指令的文本信息、所述RGB图像信息和所述深度图像信息输入至机器学习模型中，以得到所述机器学习模型输出的控制指令，所述控制指令包括底盘控制参数、腰部控制参数、关节控制参数和开合角度；

将所述控制指令发送给所述移动机器人，以触发所述移动机器人执行对应的操作进而使得所述抓取部与所述目标物体之间的距离满足要求并根据所述开合角度控制所述抓取部张开以抓取所述目标物体。

2.根据权利要求1所述的方法，其特征在于，所述机器学习模型包括依次连接的融合网络、Token序列生成网络、降维网络和解码网络；

相应地，将所述操作指令中的文本信息、所述RGB图像信息和所述深度图像信息输入至机器学习模型中，以得到所述机器学习模型输出的控制指令，包括：

通过所述融合网络对所述操作指令中的文本信息、所述RGB图像信息和所述深度图像信息进行融合处理，得到融合特征图；

将所述融合特征图输入所述Token序列生成网络，以得到Token序列；

通过所述降维网络对所述Token序列进行降维处理，以得到降维后的Token序列；

通过所述解码网络对所述降维后的Token序列进行解码处理，以得到所述控制指令。

3.根据权利要求2所述的方法，其特征在于，所述融合网络包括第一编码器、第一特征提取模块和第一融合模块；

相应地，通过所述融合网络对所述操作指令中的文本信息、所述RGB图像信息和所述深度图像信息进行融合处理，得到融合特征图，包括：

利用所述第一编码器对所述文本信息进行编码处理，得到第一特征图；

利用所述第一特征提取模块对所述RGB图像信息和所述深度图像信息进行特征提取，得到第二特征图；

利用所述第一融合模块对所述第一特征图和所述第二特征图进行融合处理，得到所述融合特征图。

4.根据权利要求2所述的方法，其特征在于，所述融合网络包括第二编码器、第二特征提取模块、第三特征提取模块和第二融合模块；

利用所述第二编码器对所述文本信息进行编码处理，得到第三特征图；

利用所述第二特征提取模块对所述RGB图像信息进行特征提取，得到第四特征图；

利用所述第三特征提取模块对所述深度图像信息进行特征提取，得到第五特征图；

利用所述第二融合模块对所述第三特征图、所述第四特征图和经过零卷积层处理后的所述第五特征图进行融合处理，得到所述融合特征图。

5.根据权利要求2所述的方法，其特征在于，所述融合网络包括第三编码器、第四特征提取模块、第五特征提取模块和第三融合模块；

利用所述第三编码器对所述文本信息进行编码处理，得到第六特征图；

将所述RGB图像信息输入第四特征提取模块进行特征提取，所述第四特征提取模块包括依次连接的多个第一特征提取单元，至少部分第一特征提取单元输出的中间特征和经过零卷积层处理后的第二特征提取单元输出的中间特征进行融合处理，得到融合中间特征，融合中间特征作为下一个第一特征提取单元的输入数据，第一个第一特征提取单元的输入数据为所述RGB图像信息；

将所述深度图像信息输入第五特征提取模块进行特征提取，所述第五特征提取模块包括依次连接的多个第二特征提取单元，任一个第二特征提取单元输出的中间特征作为其下一个第二特征提取单元的输入数据，第一个第二特征提取单元的输入数据为所述深度图像信息；

利用所述第三融合模块对所述第六特征图和所述第四特征提取模块中最后一个第一特征提取单元输出的特征图进行融合处理，得到所述融合特征图。

6.根据权利要求1至5任一项所述的方法，其特征在于，还包括：

获取训练数据集，所述训练数据集中的训练数据包括样本物体所在环境的RGB图像信息和深度图像信息、指示抓取所述样本物体的操作指令中的文本信息以及所述样本物体对应的控制指令；

利用所述训练数据集进行模型训练，得到所述机器学习模型。

7.一种移动机器人控制装置，其特征在于，包括：

采集模块，用于响应于指示抓取目标物体的操作指令被触发，采集目标物体所在环境的RGB图像信息和深度图像信息；

处理模块，用于将所述操作指令的文本信息、所述RGB图像信息和所述深度图像信息输入至机器学习模型中，以得到所述机器学习模型输出的控制指令，所述控制指令包括底盘控制参数、腰部控制参数、关节控制参数和开合角度；

发送模块，用于将所述控制指令发送给所述移动机器人，以触发所述移动机器人执行对应的操作进而使得所述抓取部与所述目标物体之间的距离满足要求并根据所述开合角度控制所述抓取部张开以抓取所述目标物体。

8.根据权利要求7所述的装置，其特征在于，所述机器学习模型包括依次连接的融合网络、Token序列生成网络、降维网络和解码网络；

相应地，处理模块具体用于：通过所述融合网络对所述操作指令中的文本信息、所述RGB图像信息和所述深度图像信息进行融合处理，得到融合特征图；将所述融合特征图输入所述Token序列生成网络，以得到Token序列；通过所述降维网络对所述Token序列进行降维处理，以得到降维后的Token序列；通过所述解码网络对所述降维后的Token序列进行解码处理，以得到所述控制指令。

9.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求1-6任一项所述方法中的步骤。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器能够实现权利要求1-6任一项所述方法中的步骤。