CN112684704A

CN112684704A - 基于深度学习的端到端运动控制方法、系统、装置及介质

Info

Publication number: CN112684704A
Application number: CN202011505583.5A
Authority: CN
Inventors: 刘小慧; 魏武; 何帅
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-20

Abstract

本发明公开了一种基于深度学习的端到端运动控制方法、系统、装置及介质，其中方法包括以下步骤：构建端到端的视觉‑运动映射网络模型，以及设计多任务损失函数；采用迁移学习的方法对所述视觉‑运动映射网络模型进行联合训练，获得最优的视觉‑运动映射模型；采用所述最优的视觉‑运动映射模型对移动机器人进行实时运动控制。本发明通过形成视觉感知与运动控制之间的直接映射，将原有的开环系统转换为可控的闭环系统，改善了移动机器人运动控制过程中其控制过程滞后于视觉算法的问题，达到实时控制的效果，可广泛应用于机器人运动控制技术领域。

Description

基于深度学习的端到端运动控制方法、系统、装置及介质

技术领域

本发明涉及机器人运动控制技术领域，尤其涉及一种基于深度学习的端到端运动控制方法、系统、装置及介质。

背景技术

在传统的基于视觉的移动机器人运动问题中，视觉算法与运动控制环节互相独立，其本质为开环系统，无法形成反馈，导致视觉算法误差被放大，并传递给运动控制器，而控制器的误差也无法反馈给视觉提取模块形成自适应控制，两者的分离造成时延累积，使得控制过程滞后于视觉算法，造成“手跟不上眼”的现象，影响移动机器人的运动。

术语解释：

ASPP：Atrous Spatial Pyramid Pooling(ASPP)，即带有空洞卷积的空间金字塔结构。其操作是对于同一幅顶端feature map，使用不同dilation rate的空洞卷积去处理它，将得到的各个结果concat到一起，扩大通道数，最后再通过一个1*1的卷积层，将通道数降到我们想要的数值。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于一种基于深度学习的端到端运动控制方法、系统、装置及介质。

本发明所采用的技术方案是：

一种基于深度学习的端到端运动控制方法，包括以下步骤：

构建端到端的视觉-运动映射网络模型，以及设计多任务损失函数；

采用迁移学习的方法对所述视觉-运动映射网络模型进行联合训练，获得最优的视觉-运动映射模型；

采用所述最优的视觉-运动映射模型对移动机器人进行实时运动控制。

进一步，所述视觉-运动映射网络包括特征提取骨干网络、视觉-运动映射网络以及语义分割辅助分支网络；

所述特征提取骨干网络的输出作为所述视觉-运动映射网络的输入，所述视觉-运动映射网络输出控制移动机器人的指令；

所述视觉-运动映射网络和所述语义分割辅助分支网络共享所述特征提取骨干网络提取的特征。

进一步，所述视觉-运动映射网络通过以下方式输出指令：

以预设步长对连续的运动角度进行离散化处理；

构造笛卡尔坐标系将三维运动空间转化为二维平面空间；所述构造笛卡尔坐标系的坐标原点为移动机器人的质心，y轴为移动机器人运动方向，其正交方向为x轴；

根据所述视觉-运动映射网络输出的特征图，获取y轴的角度偏移量作为控制所述移动机器人前进的指令。

进一步，所述语义分割辅助分支网络以DeepLab V3框架为网络框架，利用改进的ASPP进行特征融合与强化；

所述改进的ASPP去除池化层，以此降低模型的复杂度；

将所述语义分割辅助分支网络的特征通道修剪为32×4。

进一步，所述采用迁移学习的方法对所述视觉-运动映射网络模型进行联合训练，获得最优的视觉-运动映射模型，包括：

采用ImageNet开源数据集中对VGG16网络进行预训练，训练之后保留VGG16网络与特征提取骨干网络相同的部分的权重；

利用经修改过的Cityscapes开源数据集训练所述语义分割辅助分支网络；

根据自采集数据集对整个模型进行调优，更新权重直至模型完全收敛，获得最优的视觉-运动映射模型。

进一步，所述采用所述最优的视觉-运动映射模型对移动机器人进行实时运动控制，包括：

设置小车以预设速度进行直线运动；

采集图像，将图像输入所述视觉-运动映射模型进行预测，获得运动角指令；

若运动角指令为0°，控制移动机器人进行直线运动；若运动角指令不为0°，控制移动机器人调整前进角度后，再进行直线运动。

进一步，所述多任务损失函数的表达式为：

l_{multi_task}＝l_cla+l_seg

其中，l_{multi_task}为总的损失函数，l_cla为视觉-运动映射网络的损失函数，l_seg为语义分割辅助分支网络的损失函数。

本发明所采用的另一技术方案是：

一种端到端运动控制系统，包括：

模块构建模块，用于构建端到端的视觉-运动映射网络模型，以及设计多任务损失函数；

模型训练模块，用于采用迁移学习的方法对所述视觉-运动映射网络模型进行联合训练，获得最优的视觉-运动映射模型；

运动控制模块，用于采用所述最优的视觉-运动映射模型对移动机器人进行实时运动控制。

本发明所采用的另一技术方案是：

一种端到端运动控制装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过形成视觉感知与运动控制之间的直接映射，将原有的开环系统转换为可控的闭环系统，改善了移动机器人运动控制过程中其控制过程滞后于视觉算法的问题，达到实时控制的效果。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种基于深度学习的端到端实时运动控制方法的流程图；

图2是本发明实施例中视觉-运动映射网络模型的结构图；

图3是本发明实施例中移动机器人的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供一种基于多任务神经网络的视觉定位导航方法，包括如下步骤：

S1、构建端到端的视觉-运动映射网络模型，并设计多任务损失函数。

S2、采用迁移学习的方法对模型进行联合训练，得到最优模型。

S3、利用训练好的模型对移动机器人进行实时运动控制。

其中，如图2所示，步骤S1中构建的端到端视觉-运动映射网络模型由特征提取骨干网络、视觉-运动映射网络以及语义分割辅助分支网络组成。增加语义分割辅助分支网络的目的在于视觉-映射网络的理解能力与输出能力，引导移动机器人形成内部的避障理解。两个子网络共享骨干网络提取的基础特征。模型设计的具体过程如下：

S11、基于VGG16卷积神经网络模型构建特征提取骨干网络，该模型由层叠的常规卷积层加池化层组成。共包含13层网络层，其中常规卷积层共计10层，其余层为最大池化层穿插在常规卷积层中间，常规卷积层采用3×3的卷积核，其构造简洁，便于可视化。

S12、构建视觉-运动映射网络用于提供控制指令。其模型主结构由3层常规卷积层，4层最大池化层组成，通过全连接层和末端的Softmax输出层完成分类，此外添加Dropout层以防止过拟合现象。

S13、构建语义分割辅助分支网络。该分支网络基于DeepLab V3框架，并利用改进的ASPP进行特征融合与强化。原ASPP采用5层并行空洞卷积层进行特征融合，每层卷积层后连接全局池化层，改进后的ASPP去除冗余的池化层，以此降低模型的复杂度。同时将该分支网络从原256×5的特征通道修剪为32×4，进一步降低模型复杂度和计算量。

S14、设计多任务损失函数，对模型进行联合训练，表示如下：

l_{multi_task}＝l_cla+l_seg

其中l_{multi_task}为总的损失函数，l_cla为视觉-运动映射网络的损失函数，l_seg为语义分割辅助分支网络的损失函数。

通过迭代训练，反向传播，对总的损失函数进行优化，最终可完成模型的收敛。

作为一种可能的实施方式，在步骤S2中，对上述构建的模型进行训练的过程如下：

S21、准备训练数据，包括开源数据和自采集数据。其中开源数据用于模型的预训练，使用Cityscapess图像分割数据集中20000张粗略标注的图像，将其按照m：1：1划分为训练集，测试集及验证集，同时选取其中的地面、路面、人行道、停车道与铁轨等六个类别场景作为可通达区域。自采集数据集使用手持相机模仿移动机器人运动进行视频的拍摄，将视频材料按一定的帧数间隔5s进行截取，并将其resize成n×n的大小，再使用标注工具LabelMe对其进行标注，该数据集包含800张图片。

具体地，修改过的Cityscapes数据集选取原数据集中符合情景的六个类别作为可通达区域，分别为地面、路面、人行道、停车道与铁轨等，将该数据集按照8：1：1的比例划分为训练集，测试集及验证集；其中，Cityscapes作为一个街景语义分割数据集，其中包含大量不同情况下的详细分割结果。在避障语义地图中，可通达道路一般为平行于视线的平面，而障碍物多为立体或者竖直的结构物体。因此本实施例采用Cityscapes中的粗糙分割数据集，将其中五个类别(地表、路、人行道、停车场、轨道)的像素作为可通达区域，其余为障碍物，同时进行数据扩充。自采集数据集指的是使用手持相机模仿移动机器人运动进行视频的拍摄，将视频材料按一定的帧数间隔k进行截取，并将其截取的图片resize成512×512的大小，并使用语义分割辅助网络对每张图片进行避障地图构建，输出构建后的图片，其中可通达区域由蓝色覆盖，不可通达区域由红色覆盖，再使用标注工具对其进行控制指令的标注，具体标注如下：

同样将该数据集按照8：1：1的比例划分为训练集，测试集及验证集。

S22、采用迁移学习方法训练模型。迁移学习方法训练模型指利用ImageNet开源数据集中对原VGG16网络进行预训练，保留与特征提取骨干网络结构相同部分的权重，即VGG16前10层的训练权重，相当于对其进行初始化，再利用经修改过的Cityscapes开源数据集训练语义分割辅助网络，此时网络的其余部分处于冷却状态，即不参与训练，最后在自采集的数据集中对整个模型进行调优训练，更新权重直至模型完全收敛，利用验证集对调优后的模型进行验证，准确率最高的模型定为最终模型，即得到所需的最优模型。

具体的，采用2块Titan Xp作为训练设备，并使用Tensorflow作为深度学习框架。使用SGD梯度下降方法，将学习率设置为0.0003,进行迭代训练，，每迭代10轮，就在验证集上进行一次验证，最后取在验证集上最好的模型。在调优阶段，整个模型的权重参与训练，在最初的迭代过程中，模型快速收敛，损失函数不断下降，最终在12k迭代步数时达到稳定状态，至此，模型训练完成。

S23、随机选取自采集数据集中的350张图片作为测试集对模型进行测试，如测试没有问题，即可将其作为最终模型。如需对模型进行压缩，则可对模型进一步压缩减小模型体积，降低硬件需求。

最后，将训练好的模型部署在移动机器人上，进行实时运动控制。在步骤S3中，作为一种可能的实施方式，具体的步骤如下：

S31、如图3所示，将搭载RGB摄像头的移动机器人作为实验机器人，其底部为四个麦克纳姆轮，能完成全向旋转。机器人上部署附带GPU的小型工程机作为计算设备。设置小车以固定速度v进行直线运动；比如1m/s。

S32、RGB摄像头实时采集前进过程中的图像信息，将其resize成512×512的大小作为模型的输入，利用训练好的模型进行预测，其输出为运动控制指令，并反馈给机器人，使机器人调整姿态，其中，预测结果通过CAN通信反馈给控制器控制机器人执行相应命令。具体的控制过程如下：

1)以45度为步长对连续的运动角度进行离散化处理；

2)构造笛卡尔坐标系将三维运动空间转化为二维平面空间。该坐标系的坐标原点为移动机器人的质心，y轴为移动机器人运动方向，其正交方向为x轴；

3)在每帧图像中估计y轴的角度偏移量，作为移动机器人的前进方向指令，表示为θ，θ∈{0°,-45°,45°,-90°,90°,180°}，其对应的指令为前进、左调整、右调整、左转、右转以及掉头等基本控制指令。

S33、当预测结果为0°时保持原本的直线运动状态，否则暂停前进，根据预测的结果调整前进角度，待调整完成同样通过CAN通信将调整结果反馈给控制器，若调整成功则继续前进，若调整失败则重新执行上述步骤直到成功，当多次反馈调整失败信息，则移动机器人会停止运动并报警。

综上所述，本实施例的方法相对于现有技术，有益效果是形成视觉感知与运动控制之间的直接映射，将原有的开环系统转换为可控的闭环系统，改善了移动机器人运动控制过程中其控制过程滞后于视觉算法的问题，达到实时控制的效果。

本实施例还提供一种端到端运动控制系统，包括：

本实施例的一种端到端运动控制系统，可执行本发明方法实施例所提供的一种基于深度学习的端到端运动控制方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种端到端运动控制装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种端到端运动控制装置，可执行本发明方法实施例所提供的一种基于深度学习的端到端运动控制方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于深度学习的端到端运动控制方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于深度学习的端到端运动控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的端到端运动控制方法，其特征在于，所述视觉-运动映射网络包括特征提取骨干网络、视觉-运动映射网络以及语义分割辅助分支网络；

3.根据权利要求2所述的一种基于深度学习的端到端运动控制方法，其特征在于，所述视觉-运动映射网络通过以下方式输出指令：

以预设步长对连续的运动角度进行离散化处理；

4.根据权利要求2所述的一种基于深度学习的端到端运动控制方法，其特征在于，所述语义分割辅助分支网络以DeepLab V3框架为网络框架，利用改进的ASPP进行特征融合与强化；

所述改进的ASPP去除池化层，以此降低模型的复杂度；

将所述语义分割辅助分支网络的特征通道修剪为32×4。

5.根据权利要求2所述的一种基于深度学习的端到端运动控制方法，其特征在于，所述采用迁移学习的方法对所述视觉-运动映射网络模型进行联合训练，获得最优的视觉-运动映射模型，包括：

6.根据权利要求1所述的一种基于深度学习的端到端运动控制方法，其特征在于，所述采用所述最优的视觉-运动映射模型对移动机器人进行实时运动控制，包括：

设置小车以预设速度进行直线运动；

7.根据权利要求1所述的一种基于深度学习的端到端运动控制方法，其特征在于，所述多任务损失函数的表达式为：

l_{multi_task}＝l_cla+l_seg

8.一种端到端运动控制系统，其特征在于，包括：

9.一种端到端运动控制装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-7任一项所述的一种基于深度学习的端到端运动控制方法。

10.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。