CN113156958A

CN113156958A - 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法

Info

Publication number: CN113156958A
Application number: CN202110460461.7A
Authority: CN
Inventors: 邹俊成; 乔红; 尹玲; 庞伟; 刘佳玲
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-23

Abstract

本发明属于机器人学习领域，涉及基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法。其过程是先设置机器人的动作训练次数K；然后机器人采集到环境的状态图像；再是机器人计算状态图像与上一时刻预测图像之间的损失函数，再以损失函数计算奖惩信号；然后更新预测网络权重；重复机器人采集图像到预测动作和执行动作之间这几个步骤，直至达到第K次；最后加权所有奖惩信号，再更新预测网络权重。这样既解决了机器人如何自主监督学习的问题又极大程度上减少了人工标记及人工干预的工作量。

Description

基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法

技术领域

本发明涉及机器人学习领域，具体涉及一种基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法。

背景技术

自主移动机器人广泛应用到生产、生活等多个领域，其所面临的场景越来越复杂。传统方法都需要大量人工标记图像数据，以让机器人的深度神经网络学习相关数据。SLAM(同步定位和绘图)方法需要不断测量机器人与目标的相对位置和相对角度，这些目标也需要人工标记和筛选，在很多实际任务中很难找到这样比较合适的目标；而且传统的卷积神经网络需要将数据集归一化，不同尺寸混合在一起难以训练，并且传统的卷积神经网络没有记忆功能。这样就使得机器人能够自主学习的难度大大增加，而且需要人工标记的工作量非常大。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的自主移动机器人自监督学习环境的不足和弥补人工标记工作量大的缺陷，从而提供一种基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法。其解决了自主移动机器人自主学习环境信息、自主导航和人工标记工作量大的问题。

为解决上述问题，本发明提供了一种基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法，其包括：S1：设置机器人的动作训练次数K；S2：机器人采集到环境的状态图像；S3：机器人计算状态图像与上一时刻预测图像之间的损失函数，再以损失函数计算奖惩信号；S4：更新预测网络权重；S5：预测动作和下一时刻图像，然后执行动作；S6：重复S2-S5，直至达到第K次；S7：加权所有奖惩信号，再更新预测网络权重。

作为本发明的进一步限定，其预测过程为：S5.1：在t1时刻，采集到了i1′图像；S5.2：将i1′图像输入视频预测网络NN1，预测得出t2时刻的图像i2及控制信号action；S5.3：动作执行完成后采集到t2时刻的图像i2′；S5.4：通过综合损失La和GDL损失Lgdl共同计算所预测出来的图像i2和采集到的图像i2′的损失loss；S5.5：再通过该loss计算奖惩信号rs；S5.6：再以rs更新NN1的网络权重。

作为本发明的进一步限定，其损失值计算公式为：

L_a＝λ₁*L₁+λ₂*L₂+λ_gdl*L_gdl (1)

λ₁，λ₂，λ_gdl，是对应的系数，根据经验及实际实验进行设置，p_i，j指的是图像i2的一个像素值，p′_i，j指的是i2′的像素值，下标i，j分别指的是图像中x，y的坐标位置，每执行一步需要更新NN1的权重，整个任务完成后需要求全部rs的和RS；

作为本发明的进一步限定，其控制信号action包括角度、速度、加速度及力矩。

作为本发明的进一步限定，其预测网络包括6层：其中，前3层为卷积长短期记忆网络层；从第4层开始分支为2条支网络层；其中一支网络层为3层反卷积长短期记忆网络层；另一支网络层依次为2维的卷积层Conv2D、压平层Flatten、全连接层Dense。

作为本发明的进一步限定，其ConvLSTM、ConvLSTMT和Conv2D的卷积核大小都是2*2，步长都为2，都做补零操作。

基于上述内容，由于视频预测网络的引入，能通过比较预测图像和实际图像的损失来计算奖惩激励信号，以校正预测动作的网络权重。这样能大大减少人工标记及人工干预的工作量同时也达到了自主预测图像和动作以及导航的能力。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施中基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法的一个具体示例的流程图；

图2为本发明实施中基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法的一个具体示例的原理框图；

图3为本发明实施中基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法的一个具体示例的预测过程图；

图4为本发明实施中基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法的一个具体示例的网络结构图；

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1为一个具体示例的流程图，根据图像添加数据后所得出的步骤为：

S1：设置机器人的动作训练次数10次；

S2：机器人采集到环境的状态图像；

S3：机器人计算状态图像与上一时刻预测图像之间的损失函数，再以损失函数计算奖惩信号；

S4：更新预测网络权重；

S5：预测动作和下一时刻图像，然后执行动作；

S6：重复S2-S5，直至达到第10次；

S7：加权所有奖惩信号，再更新预测网络权重。

图2为一个具体示例的原理框图，机器人采集到环境的状态信息，对环境执行动作，环境更新状态至状态′，然后机器人又采集新环境的状态信息如此反复。

图3为一个具体示例的预测过程图，假设在t1时刻，采集到了i1′图像。将i1′输入视频预测神经网络，预测得出t2时刻的图像i2及控制信号action。控制信号可以包括角度、速度、加速度及力矩等信息。动作执行完成后，采集到t2时刻的图像i2′，可以通过综合损失La和图像深度学习损失Lgdl共同计算所预测出来的图像i2和采集到的图像i2′的损失loss。再通过该loss计算奖惩信号rs。再以rs更新神经网络的网络权重。各个损失的计算见公式(1)-(4)

L_a＝λ₁*L₁+λ₂*L₂+λ_gdl*L_gdl (1)

λ₁，λ₂，λ_gdl是对应的系数，根据经验及实际实验进行设置。p_i，j指的是图像i2的一个像素值，p′_i，j指的是i2′的像素值。下标i，j分别指的是图像中x，y的坐标位置。每执行一步需要更新神经网络的权重，整个任务完成后需要求全部rs的和RS。

图4为一个具体示例的网络结构图，假设输入图像是I_t1，其尺寸是160*80。输出是图像I_t2和力矩torque，图像尺寸是160*80，力矩尺寸是1。整个网络包括6层，其中从第4层开始分支为2条支网络层，ConvLSTM指的是卷积长短期记忆网络层，ConvLSTMT指的是反卷积长短期记忆网络层，Conv2D是2维的卷积层，Flatten是压平层，Dense是全连接层。其中ConvLSTM、ConvLSTMT和Conv2D的卷积核大小都是2*2，步长都为2，都做补零操作。每层与每层之间右侧部分是经过该层处理后所输出的尺寸。

本说明书的实施例提供了一种基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法，通过结合视频预测技术和强化学习技术，提出了一种复杂场景自主移动机器人自监督学习及导航方法。机器人通过卷积记忆网络自动采集环境信息进行分析计算，而且由于视频预测网络的引入，能通过比较预测图像和实际图像的损失来计算奖惩激励信号，以校正预测动作的网络权重。这样能大大减少人工标记及人工干预的工作量。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法，其特征在于，具体包括如下步骤：

S1：设置机器人的动作训练次数K；

S2：机器人采集到环境的状态图像；

S4：更新预测网络权重；

S5：预测动作和下一时刻图像，然后执行动作；

S6：重复S2-S4，直至达到第K次；

S7：加权所有奖惩信号，再更新预测网络权重。

2.按照权利要求1所述的基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法，其特征在于预测的具体步骤如下：

S5.1：在t1时刻，采集到了i1＇图像；

S5.2：将i1＇图像输入视频预测网络NN1，预测得出t2时刻的图像i2及控制信号action；

S5.3：动作执行完成后采集到t2时刻的图像i2＇；

S5.4：通过综合损失La和GDL损失Lgdl共同计算所预测出来的图像i2和采集到的图像i2＇的损失loss；

S5.5：再通过该loss计算奖惩信号rs；

S5.6：再以rs更新NN1的网络权重。

3.按照权利要求2所述的基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法，其特征在于S5.4中：

L_a＝λ₁*L₁+λ₂*L₂+λ_gdl*L_gdl (1)

λ₁，λ₂，λ_gdl，是对应的系数，根据经验及实际实验进行设置，p_i，j指的是图像i2的一个像素值，p′_i，j指的是i2＇的像素值，下标i，j分别指的是图像中x，y的坐标位置，每执行一步需要更新NN1的权重，整个任务完成后需要求全部rs的和RS；

4.按照权利要求2所述的基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法，所述控制信号action包括角度、速度、加速度及力矩。

5.按照权利要求2所述的基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法，其特征在于：所述预测网络包括6层，其中，

前3层为卷积长短期记忆网络层；

从第4层开始分支为2条支网络层：

其中一支网络层为3层反卷积长短期记忆网络层；

另一支网络层依次为2维的卷积层Conv2D、压平层Flatten、全连接层Dense。

6.按照权利要求5所述的基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法，其特征在于：

ConvLSTM、ConvLSTMT和Conv2D的卷积核大小都是2*2，步长都为2，都做补零操作。