CN113256716B

CN113256716B - 一种机器人的控制方法及机器人

Info

Publication number: CN113256716B
Application number: CN202110428814.5A
Authority: CN
Inventors: 程俊; 宋呈群; 曾驳; 吴福祥
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2023-11-21
Anticipated expiration: 2041-04-21
Also published as: CN113256716A; WO2022222490A1

Abstract

本申请适用于人工智能技术领域，提供了一种机器人控制方法及机器人，包括：采集多模态信息；根据所述多模态信息确定全语义地图；根据所述全语义地图进行语义理解和轨迹预测，得到预测轨迹；根据所述预测轨迹进行动态路径规划和避障控制，以控制所述机器人移动，通过多模态信息来确定全语义地图，进而通过全语义地图进行语义理解和轨迹预测，再根据预测轨迹控制机器人进行动态路径规划和避障控制，能够使得机器人在面对复杂场景时也能够有效地避开障碍物，提高机器人在复杂场景下的自适应能力，避免机器人因无法避开障碍物而翻倒，导致机器人损坏或物品损坏的情况。

Description

一种机器人的控制方法及机器人

技术领域

本申请属于人工智能技术领域，尤其涉及一种机器人的控制方法及机器人。

背景技术

自主移动机器人是指能够在没有人的操控下有目的的自主移动的机器人，自主移动机器人越来越多地应用于公共场所、工作场所以及家庭服务中。例如，自主移动机器人可用于安保巡查、物品运输、扫地清洁等。然而，目前的机器人存在对周围环境的理解能力不足，在面对复杂的周围环境难以自适应移动的问题，这容易造成机器人翻倒进而导致机器人或附近的物体受到损坏。

发明内容

有鉴于此，本申请实施例提供了一种控制方法、装置及机器人，以解决目前的机器人存在对周围环境的理解能力不足，在面对复杂的周围环境难以自适应移动的问题，这容易造成机器人翻倒进而导致机器人或附近的物体受到损坏的问题。

第一方面，本申请实施例提供一种控制方法，应用于机器人，包括：

采集多模态信息；

根据所述多模态信息确定全语义地图；

根据所述全语义地图进行语义理解和轨迹预测，得到预测轨迹；

根据所述预测轨迹进行动态路径规划和避障控制，以控制所述机器人移动。

在第一方面的一种实现方式中，所述根据多模态信息确定全语义地图，包括：

检测是否存在全语义地图；

若不存在所述全语义地图，则根据获取到的多模态信息构建所述全语义地图。

在第一方面的一种实现方式中，所述若不存在所述全语义地图，则根据获取到的多模态信息构建所述全语义地图，包括：

根据所述多模态信息构建局部场景物体模型；

根据所述局部场景物体模型得到全局语义地图。

在第一方面的一种实现方式中，所述多模态信息包括RGB图像，位姿信息、深度图像以及激光点云信息，所述根据所述多模态信息构建局部场景物体模型，包括：

通过所述RGB图像提取图像特征；

根据所述图像特征获取稀疏特征点云和相机姿态信息，得到一级模型；

基于所述一级模型将所述位姿信息和所述相机姿态信息进行加权融合；

将所述深度图像与所述稀疏特征点云进行匹配，得到二级模型；

将所述激光点云与所述二级模型进行融合，得到所述局部场景物体模型。

在第一方面的一种实现方式中，所述根据所述局部场景物体模型得到全局语义地图，包括：

将RGB图像中的物体实例进行分割，并进行语义识别；

通过融合后的相机姿态信息将实例分割的语音信息投射到局部场景物体模型中；

将带有语音信息的局部场景物体模型进行拼接，得到全局语义地图。

在第一方面的一种实现方式中，在检测是否存在全语义地图之后还包括：

若存在所述全语义地图，则读取所述全语义地图。

在第一方面的一种实现方式中，所述控制方法还包括：

基于所述全语义地图和所述多模态信息判断当前场景是否发生变化；

若当前场景发生变化，则根据获取到的多模态信息更新所述全语义地图。

第二方面，本申请实施例提供一种机器人，包括：

多模态信息采集模块，用于采集多模态信息；

地图确定模块，用于根据所述多模态信息确定全语义地图；

场景理解模块，用于根据所述全语义地图进行语义理解和轨迹预测，得到预测轨迹；

自适应模块，用于根据所述预测轨迹进行动态路径规划和避障控制，以控制所述机器人移动。

在第二方面的第一种实现方式中，上述地图确定模块可以包括多模态融合三维建模模块和地图构建模块。

上述多模态融合三维建模模块用于融合多模态信息，结合融合信息将点云拼接，并对拼接得到的点云模型的空洞进行填补优化，得到局部场景物体模型。

上述地图构建模块用于物体语义识别、动态物体识别和语义地图构建和更新。

第三方面，本申请实施例提供一种机器人，所述机器人包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任意可选方式所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任意可选方式所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在机器人上运行时，使得机器人执行上述第一方面或第一方面的任意可选方式所述的方法。

实施本申请实施例提供的一种机器人的控制方法及机器人、计算机可读存储介质及计算机程序产品具有以下有益效果：

本申请实施例提供的一种机器人的控制方法及机器人，通过多模态信息来确定全语义地图，进而通过全语义地图进行语义理解和轨迹预测，再根据预测轨迹控制机器人进行动态路径规划和避障控制，能够使得机器人在面对复杂场景时也能够有效地避开障碍物，提高机器人在复杂场景下的自适应能力，避免机器人因无法避开障碍物而翻倒，导致机器人损坏或物品损坏的情况。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种机器人的结构示意图；

图2是本申请实施例提供一种机器人的控制方法的示意性流程图；

图3是本申请另一实施例提供的一种机器人的控制方法的示意性流程图；

图4是本申请另一实施例提供的一种机器人的结构示意图；

图5是本申请实施例提供的一种计算机可读存储介质的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

还应当理解，在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

自主移动机器人大多配置有各种传感器，能够在没有人操纵的情况下有目的(往目标位置)的自主移动。

现有的自主移动机器人的控制方法通常基于二维码视觉并结合机器人实时定位与构图来实现引导控制。具体地，在构建的地图上用多个二维码标记引导目标位置，控制机器人移动至二维码区域完成粗定位；然后机器人识别二维码，根据识别到的二维码的姿态和二维码相对相机的空间位置调整机器人前进的速度与方向，使机器人移动到目标位置。

然而上述方式需要额外的二维码标签配合摄影头进行视觉引导，使用比较不便且配置困难。

为了降低配置难度，现有的另一种控制方法以机器人的当前位置为中心，通过扫描更新可通过区域，根据更新后的可通过区域的边界更新临界点集，当临界点集不为空时，对临界点集进行聚类，得到若干簇；从若干簇中选择一个簇，将其中心坐标作为目标点；自动导航到目标点，将该目标点作为新的机器人当前位置，并以新的机器人当前位置为中心，进行新一轮激光扫描，更新可通过区域，如此重复，直至所述临界点集为空，则完成目标区域的地图信息建立。

然而上述方式存在自适应能力差，程序复杂，容易积累误差，致使长时导航不准确的问题。

以上可以看出，随着机器人的使用环境变得越来越复杂，机器人由于不期望的外部环境影响的干扰下，无法对突发情况作出适当的反应，这容易造成机器人翻倒进而导致机器人或附近的物体受到损坏，甚至有可能在翻倒的时候砸伤人，存在一定的安全隐患。

为了解决上述缺陷，本申请实施例提供了一种机器人的控制方法，通过采集多模态信息来确定全局语义地图，再基于全局语义地图进行动态路径规划，使得机器人能够在复杂环境下自适应地进行避障和自主导航移动，有效地解决了目前的机器人控制方法存在的对周围环境的理解能力不足，在面对复杂的周围环境难以自适应移动的问题，避免机器人翻倒进而导致机器人或附近的物体受到损坏的情况。

以下将对本申请实施例提供的机器人的控制方法及机器人进行详细的说明：

请参阅图1，图1示出了本申请实施例提供的一种机器人的结构示意图。如图1所示，机器人可以包括多模态信息采集模块110、多模态融合三维建模模块120、地图构建模块130、场景理解模块140以及自主环境适应模块150。上述多模态信息采集模块110通过上述多模态融合单位建模模块120与地图构建模块130连接，上述地图构建模块130通过上述场景理解模块140与自主环境适应模块150连接。

在具体应用中，上述多模态采集模块110用于采集多模态信息，上述多模态信息可以包括但不限于RGB图像、激光点云、深度图像以及位姿信息。相应的，上述多模态采集模块110可以包括相机111、激光雷达112、深度相机113 和惯性测量单元114(InertialMeasurement Unit，IMU)。

在具体应用中，上述相机111用于采集RGB图像。RGB即是代表红、绿、蓝三个通道的颜色，RGB图像就是指每个像素点都用R/G/B的不同比例来表示的图像。

上述激光雷达112用于采集激光点云。激光点云是指利用激光雷达采集得到的物品外观表面特征的海量点集合。

上述深度相机113用于采集深度图像。深度图像(depth image)也称距离图像，是指将从图像采集器到场景中各点(各个物体)的距离(深度)作为像素点值的图像。

上述惯性测量单元114用于采集姿态信息。上述姿态信息可以是三轴姿态角(或角速率)以及加速度信息。上述惯性测量单元114可以包含三个单轴的加速度计和三个单轴的陀螺，加速度计检测物体在载体坐标系统独立三轴的加速度信号，而陀螺检测载体相对于导航坐标系的角速度信号，测量物体在三维空间中的角速度和加速度，并以此解算出物体的姿态。

上述多模态融合三维建模模块120用于融合多模态信息，结合融合信息将点云拼接，并对拼接得到的点云模型的空洞进行填补优化。

具体的，可以先通过三角网格针对封闭孔洞确定三角面片边界，检测孔洞；再在孔洞多边形处快速生成新三角面片，形成初始网格；在融合最小二乘网络与径向函数隐式曲面，利用最小二阶导数对曲面曲率径向最小化，并与原始网格曲率变化趋势保持相同，进行平滑融合，实现激光点云孔洞修补。

地图构建模块130用于物体语义识别、动态物体识别和语义地图构建和更新。

场景理解模块140用于地形状态识别和可通行区域只能识别，复杂环境下语义理解及机器人轨迹预测。

上述自主环境适应模块150用于实现动态路径规划及避障，并根据规划路径和避障功能控制机器人自主移动。

请参阅图2，图2示出了本申请实施例提供的一种控制方法的示意性流程图，示例性的，以图1所示的机器人为例对上述控制方法进行说明如下：

如图2所示，上述控制方法可以包括S11～S14，详述如下：

S11：采集多模态信息。

在本申请实施例中，上述多模态信息可以由上述机器人的多模态采集模块进行采集。

在本申请实施例中，上述多模态信息可以包括但不限于RGB图像、激光点云、深度图像以及位姿信息。具体地，可以由设置在机器人上的相机、激光雷达、深度相机以及惯性测量单元分别采集得到。

S12：根据所述多模态信息确定全语义地图。

在本申请实施例中，基于采集到的多模态信息就能够获取当前场景的全语义地图。具体的，如果检测到存在全语义地图，则可以直接读取全语义地图。如果检测到不存在全语义地图，则可以根据多模态信息构建出当前场景的全语义地图。

请参阅图3，在本申请一实施例中，上述根据所述多模态信息确定全语义地图可以包括以下步骤：

S21：检测是否存在全语义地图。

在具体应用中，可以预先确定存储全语义地图的位置，然后检测该存储位置是否存储有当前场景下的全语义地图，若该存储位置存储有当前场景下的全语义地图，则说明存在全语义地图，否则说明不存在全语义地图。

S22：若存在所述全语义地图，则读取所述全语义地图。

S23：若不存在所述全语义地图，则根据获取到的多模态信息构建所述全语义地图。

上述S23具体可以包括以下步骤：

根据所述多模态信息构建局部场景物体模型；

根据所述局部场景物体模型得到全局语义地图。

在具体应用中，可以通过上述多模态融合三维建模模块对局部场景物体建模，再通过地图构建模块构建全局语义地图。

具体地，上述根据所述多模态信息构建局部场景物体模型可以包括以下步骤：

通过所述RGB图像提取图像特征；

具体地，上述根据根据所述局部场景物体模型得到全局语义地图可以包括以下步骤：

将RGB图像中的物体实例进行分割，并进行语义识别；

S13：根据所述全语义地图进行语义理解和轨迹预测，得到预测轨迹。

在具体应用中，在确定了全语义地图后，就可以通过场景理解模块基于确定的全语义地图进行语义理解和轨迹预测。

具体地，以激光雷达和视频流为基础，选取高帧率激光雷达数据和视频流数据及低帧率激光雷达数据和视频流数据为双通道输入，并分别采用 Minkowski卷积提取差异性特征，采用二元注意力机制进行特征融合和增强，再采用单级多框预测(Single ShotMultiBox Detector，SSD)方法获取目标语义检测结果，最后采用长短时记忆神经网络(Long Short-Term Memory，LSTM) 方法获取细化后的语义信息和轨迹预测结果。需要说明的是，上述Minkowski 卷积、二元注意力机制、单级多框预测方法以及长短时记忆神经网络方法均为本领域常用的神经网络模型，本申请对此不在加以赘述。

请参阅图3，在本申请一实施例中，在根据全语义地图进行语义理解和轨迹预测，得到预测轨迹之前，还包括以下步骤：

S24：基于所述全语义地图和所述多模态信息判断当前场景是否发生变化。

通过相机，激光雷达，深度相机实时获取的信息与存储的全局语义地图比对，判断当前场景是否发生变化。若激光雷达，深度相机实时获取的信息与存储的全局语义地图不一致，则说明当前场景已经发送变化，否则说明当前场景没有发生变化。

S25：若当前场景发生变化，则根据获取到的多模态信息更新所述全语义地图。

如果判断当前场景发生了变化，则通过多模态融合三维建模模块对新增的局部场景物体建模，然后通过地图构建模块更新全局语义地图。

S14：根据所述预测轨迹进行动态路径规划和避障控制，以控制所述机器人移动。

在具体应用中，通过自主环境适应模块对得到的预测轨迹进行动态路径规划及避障，并根据规划路径和避障功能控制机器人自主移动。

以上可以看出，本申请实施例提供的机器人的控制方法，通过多模态信息来确定全语义地图，进而通过全语义地图进行语义理解和轨迹预测，再根据预测轨迹控制机器人进行动态路径规划和避障控制，能够使得机器人在面对复杂场景时也能够有效地避开障碍物，提高机器人在复杂场景下的自适应能力，避免机器人因无法避开障碍物而翻倒，导致机器人损坏或物品损坏的情况。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图4是本申请另一实施例提供的一种机器人的结构示意图。如图4所示，该实施例提供的机器人4包括：处理器40、存储器41以及存储在所述存储器 41中并可在所述处理器40上运行的计算机程序42，例如多智能体系统的协同控制的程序。处理器40执行所述计算机程序42时实现上述各个多智能体系统的网络参数更新方法实施例中的步骤，例如图1所示的S11～S14。或者，所述处理器40执行所述计算机程序42时实现上述各机器人实施例中各模块/单元的功能，例如图2所示单元21～24的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由处理器40执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述机器人4中的执行过程。例如，所述计算机程序42可以被分割成第一获取单元和第一处理单元，各单元具体功能请参阅图4对应地实施例中的相关描述，此处不赘述。

所述机器人可包括但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是机器人4的示例，并不构成对机器人4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述机器人还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述机器人4的内部存储单元，例如机器人4的硬盘或内存。所述存储器41也可以是所述机器人4的外部存储设备，例如所述机器人4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字 (Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41 还可以既包括所述机器人4的内部存储单元也包括外部存储设备。所述存储器 41用于存储所述计算机程序以及所述机器人所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质。请参阅图5，图5是本申请实施例提供的一种计算机可读存储介质的结构示意图，如图5所示，计算机可读存储介质5中存储有计算机程序51，计算机程序51被处理器执行时可实现上述机器人的控制方法。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在机器人上运行时，使得机器人执行时实现可实现上述多智能体系统的网络参数更新方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述机器人的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参照其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种控制方法，其特征在于，应用于机器人，所述控制方法包括：

采集多模态信息；所述多模态信息包括RGB图像，位姿信息、深度图像以及激光点云信息；

根据所述多模态信息确定全语义地图；

根据所述预测轨迹进行动态路径规划和避障控制，以控制所述机器人移动；

其中，所述根据所述多模态信息确定全语义地图，包括：在不存在全语义地图的情况下，根据以下步骤建立所述全语义地图：

通过所述RGB图像提取图像特征；

将所述激光点云与所述二级模型进行融合，得到局部场景物体模型；

根据所述局部场景物体模型得到全局语义地图。

2.根据权利要求1所述的方法，其特征在于，所述根据多模态信息确定全语义地图，还包括：

检测是否存在全语义地图。

3.根据权利要求1所述的方法，其特征在于，所述根据所述局部场景物体模型得到全局语义地图，包括：

将RGB图像中的物体实例进行分割，并进行语义识别；

4.根据权利要求2所述的方法，其特征在于，还包括：

若存在所述全语义地图，则读取所述全语义地图。

5.根据权利要求1至4任一项所述的方法，其特征在于，还包括：

6.一种机器人，其特征在于，包括：

多模态信息采集模块，用于采集多模态信息；所述多模态信息包括RGB图像，位姿信息、深度图像以及激光点云信息；

地图确定模块，用于根据所述多模态信息确定全语义地图；

自适应模块，用于根据所述预测轨迹进行动态路径规划和避障控制，以控制所述机器人移动；

通过所述RGB图像提取图像特征；

根据所述局部场景物体模型得到全局语义地图。

7.一种机器人，其特征在于，所述机器人包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。