CN113156957B - 自主移动机器人自监督学习及导航方法 - Google Patents

自主移动机器人自监督学习及导航方法 Download PDF

Info

Publication number
CN113156957B
CN113156957B CN202110459188.6A CN202110459188A CN113156957B CN 113156957 B CN113156957 B CN 113156957B CN 202110459188 A CN202110459188 A CN 202110459188A CN 113156957 B CN113156957 B CN 113156957B
Authority
CN
China
Prior art keywords
image
network
robot
layer
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110459188.6A
Other languages
English (en)
Other versions
CN113156957A (zh
Inventor
邹俊成
尹玲
乔红
庞伟
刘佳玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN202110459188.6A priority Critical patent/CN113156957B/zh
Publication of CN113156957A publication Critical patent/CN113156957A/zh
Application granted granted Critical
Publication of CN113156957B publication Critical patent/CN113156957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明属于机器人学习领域,涉及自主移动机器人自监督学习及导航方法。其过程是先设置机器人的动作训练次数K;然后机器人采集到环境的状态图像;再是机器人计算状态图像与上一时刻预测图像之间的损失函数,再以损失函数计算奖惩信号;然后更新预测网络权重;重复机器人采集图像到预测动作和执行动作之间这几个步骤,直至达到第K次;最后加权所有奖惩信号,再更新预测网络权重。这样既解决了机器人如何自主监督学习的问题又极大程度上减少了人工标记及人工干预的工作量。

Description

自主移动机器人自监督学习及导航方法
技术领域
本发明涉及机器人学习领域,具体涉及一种自主移动机器人自监督学习及导航方法。
背景技术
自主移动机器人广泛应用到生产、生活等多个领域,其所面临的场景越来越复杂。传统方法都需要大量人工标记图像数据,以让机器人的深度神经网络学习相关数据。SLAM(同步定位和绘图)方法需要不断测量机器人与目标的相对位置和相对角度,这些目标也需要人工标记和筛选,在很多实际任务中很难找到这样比较合适的目标;而且传统的卷积神经网络需要将数据集归一化,不同尺寸混合在一起难以训练,并且传统的卷积神经网络没有记忆功能。这样就使得机器人能够自主学习的难度大大增加,而且需要人工标记的工作量非常大。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的自主移动机器人自监督学习环境的不足和弥补人工标记工作量大的缺陷,从而提供一种自主移动机器人自监督学习及导航方法。其解决了自主移动机器人自主学习环境信息、自主导航和人工标记工作量大的问题。
为解决上述问题,本发明提供了一种自主移动机器人自监督学习及导航方法,其包括:S1:设置机器人的动作训练次数K;S2:机器人采集到环境的状态图像;S3:机器人计算状态图像与上一时刻预测图像之间的损失函数,再以损失函数计算奖惩信号;S4:更新视频预测生成网络权重,所述视频预测生成网络NN1与判别网络NN2组成对抗生成网络;S5:预测动作和下一时刻图像,然后执行动作;S6:重复S2-S5,直至达到第K次;S7:加权所有奖惩信号,再更新预测网络权重。
作为本发明的进一步限定,其预测过程为:S5.1:在t1时刻,采集到了i1'图像;S5.2:将i1'图像输入视频预测网络NN1,预测得出t2时刻的图像i2及控制信号action;S5.3:动作执行完成后采集到t2时刻的图像i2';S5.4:通过综合损失La和GDL损失Lgdl共同计算所预测出来的图像i2和采集到的图像i2'的损失loss;S5.5:再通过该loss计算奖惩信号rs;S5.6:再以rs更新NN1的网络权重。
作为本发明的进一步限定,其损失值计算公式为:
La=λ1*L12*L2gdl*LgdlGANs*LGANs (1)
LGANs=fCE(NN2(i2),NN2(i2′)) (5)
λ1,λ2,λgdl,λGANs是对应的系数,根据经验及实际实验进行设置。pi,j指的是图像i2的一个像素值,p′i,j指的是i2'的像素值。下标i,j分别指的是图像中x,y的下标位置。每执行一步需要更新NN1的权重,整个任务完成后需要求出全部rs的和,记作RS。fCE指的是计算两个数的交叉熵。NN2指的是判别网络,判别时将图像i2和图像i2'都分别输入到判别网络中,再计算两个输出的交叉熵。
作为本发明的进一步限定,其控制信号action包括角度、速度、加速度及力矩。
作为本发明的进一步限定,视频预测生成网络包括6层,前3层为卷积长短期记忆网络层;从第4层开始分支为2条支网络层:其中一支网络层为3层反卷积长短期记忆网络层;另一支网络层依次为2维的卷积层Conv2D、压平层Flatten、全连接层Dense;判别网络包括5层,前4层都是2维的卷积层Conv2D,第5层是全连接层。
作为本发明的进一步限定,其ConvLSTM、ConvLSTMT和Conv2D的卷积核大小都是2*2,步长都为2,都做补零操作。
基于上述内容,由于视频预测网络的引入,能通过比较预测图像和实际图像的损失来计算奖惩激励信号,以校正预测动作的网络权重。这样能大大减少人工标记及人工干预的工作量同时也达到了自主预测图像和动作以及导航的能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中自主移动机器人自监督学习及导航方法的一个具体示例的流程图;
图2为本发明实施中自主移动机器人自监督学习及导航方法的一个具体示例的原理框图;
图3为本发明实施中自主移动机器人自监督学习及导航方法的一个具体示例的预测过程图;
图4为本发明实施中自主移动机器人自监督学习及导航方法的一个具体示例的生成网络图;
图5为本发明实施中自主移动机器人自监督学习及导航方法的一个具体示例的判别网络图;
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
图1为一个具体示例的流程图,根据图像添加数据后所得出的步骤为:
S1:设置机器人的动作训练次数10次;
S2:机器人采集到环境的状态图像;
S3:机器人计算状态图像与上一时刻预测图像之间的损失函数,再以损失函数计算奖惩信号;
S4:更新预测网络权重;
S5:预测动作和下一时刻图像,然后执行动作;
S6:重复S2-S5,直至达到第10次;
S7:加权所有奖惩信号,再更新预测网络权重。
图2为一个具体示例的原理框图,机器人采集到环境的状态信息,对环境执行动作,环境更新状态至状态’,然后机器人又采集新环境的状态信息如此反复。
图3为一个具体示例的预测过程图,假设在t1时刻,采集到了i1'图像。将i1'输入视频预测神经网络,预测得出t2时刻的图像i2及控制信号action。控制信号可以包括角度、速度、加速度及力矩等信息。动作执行完成后,采集到t2时刻的图像i2',可以通过综合损失La和图像深度学习损失Lgdl共同计算所预测出来的图像i2和采集到的图像i2'的损失loss。再通过该loss计算奖惩信号rs。再以rs更新神经网络的网络权重。各个损失的计算见公式(1)-(5)
La=λ1*L12*L2gdl*LgdlGANs*LGANs (1)
LGANs=fCE(NN2(i2),NN2(i2′)) (5)
λ1,λ2,λgdl,λGANs是对应的系数,根据经验及实际实验进行设置。pi,j指的是图像i2的一个像素值,p′i,j指的是i2'的像素值。下标i,j分别指的是图像中x,y的下标位置。每执行一步需要更新NN1的权重,整个任务完成后需要求出全部rs的和,记作RS。fCE指的是计算两个数的交叉熵。NN2指的是判别网络,判别时将图像i2和图像i2'分别输入到判别网络中,再计算两个输出的交叉熵。
图4为一个具体示例的生成网络图,假设输入图像是It1,其尺寸是160*80。输出是图像It2和力矩torque,图像尺寸是160*80,力矩尺寸是1。整个网络包括6层,其中从第4层开始分支为2条支,ConvLSTM指的是卷积长短期记忆网络层,ConvLSTMT指的是反卷积长短期记忆网络层,Conv2D是2维的卷积层,Flatten是压平层,Dense是全连接层。其中ConvLSTM、ConvLSTMT和Conv2D的卷积核大小都是2*2,步长都为2,都做补零操作。每层与每层之间右侧部分是经过该层处理后所输出的尺寸。
图5为一个具体示例的判别网络图,整个网络包括5层,其中前4层都是Conv2D的2维卷积层,Dense是全连接层。其中Conv2D的卷积核大小是2*2,判别时将两个像素值都分别输入到判别网络中,再计算两个输出的交叉熵。
本说明书的实施例提供了一种自主移动机器人自监督学习及导航方法,通过结合视频预测技术和强化学习技术,提出了一种复杂场景自主移动机器人自监督学习及导航方法。机器人通过卷积记忆网络自动采集环境信息进行分析计算,而且由于视频预测网络的引入,能通过比较预测图像和实际图像的损失来计算奖惩激励信号,以校正预测动作的网络权重。这样能大大减少人工标记及人工干预的工作量。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (3)

1.一种自主移动机器人自监督学习及导航方法,其特征在于,具体包括如下步骤:
S1:设置机器人的动作训练次数K;
S2:机器人采集到环境的状态图像;
S3:机器人计算状态图像与上一时刻预测图像之间的损失函数,再以损失函数计算奖惩信号;
S4:更新视频预测生成网络NN1权重,所述视频预测生成网络NN1与判别网络NN2组成对抗生成网络;
S5:预测动作和下一时刻图像,然后执行动作;
S6:重复S2-S5,直至达到第K次;
S7:加权所有奖惩信号,再更新视频预测生成网络权重;
S5中,预测的具体步骤如下:
S5.1:在t1时刻,采集到了i1'图像;
S5.2:将i1'图像输入视频预测生成网络NN1,预测得出t2时刻的图像i2及控制信号action;
S5.3:动作执行完成后采集到t2时刻的图像i2';
S5.4:通过综合损失La和GDL损失Lgdl共同计算所预测出来的图像i2和采集到的图像i2'的损失loss;
S5.5:再通过该loss计算奖惩信号rs;
S5.6:再以rs更新NN1的网络权重;
S5.4中:
La=λ1*L12*L2gdl*LgdlGANs*LGANs (1)
LGANs=fCE(NN2(i2),NN2(i2′)) (5)
λ1,λ2,λgdl,λGANs是对应的系数,根据经验及实际实验进行设置,pi,j指的是图像i2的一个像素值,p′i,j指的是i2'的像素值,下标i,j分别指的是图像中x,y的下标位置,每执行一步需要更新NN1的权重,整个任务完成后需要求出全部rs的和,记作RS,fCE指的是计算两个数的交叉熵,NN2指的是判别网络,判别时将图像i2和图像i2'的像素值分别输入到判别网络中,再计算两个输出的交叉熵;
视频预测生成网络包括6层;
前3层为卷积长短期记忆网络层;
从第4层开始分支为2条支网络层:
其中一支网络层为3层反卷积长短期记忆网络层;
另一支网络层依次为2维的卷积层Conv2D、压平层Flatten、全连接层Dense;
判别网络包括5层;
前4层都是2维的卷积层Conv2D,第5层是全连接层。
2.按照权利要求1所述自主移动机器人自监督学习及导航方法,所述控制信号action包括角度、速度、加速度及力矩。
3.按照权利要求1所述自主移动机器人自监督学习及导航方法,其特征在于:
ConvLSTM、ConvLSTMT和Conv2D的卷积核大小都是2*2,步长都为2,都做补零操作。
CN202110459188.6A 2021-04-27 2021-04-27 自主移动机器人自监督学习及导航方法 Active CN113156957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110459188.6A CN113156957B (zh) 2021-04-27 2021-04-27 自主移动机器人自监督学习及导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110459188.6A CN113156957B (zh) 2021-04-27 2021-04-27 自主移动机器人自监督学习及导航方法

Publications (2)

Publication Number Publication Date
CN113156957A CN113156957A (zh) 2021-07-23
CN113156957B true CN113156957B (zh) 2024-06-04

Family

ID=76871467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110459188.6A Active CN113156957B (zh) 2021-04-27 2021-04-27 自主移动机器人自监督学习及导航方法

Country Status (1)

Country Link
CN (1) CN113156957B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543165A (zh) * 2018-11-21 2019-03-29 中国人民解放军战略支援部队信息工程大学 基于循环卷积注意力模型的文本生成方法及装置
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110335344A (zh) * 2019-06-20 2019-10-15 中国科学院自动化研究所 基于2d-3d注意机制神经网络模型的三维重建方法
CN110335337A (zh) * 2019-04-28 2019-10-15 厦门大学 一种基于端到端半监督生成对抗网络的视觉里程计的方法
CN110532897A (zh) * 2019-08-07 2019-12-03 北京科技大学 零部件图像识别的方法和装置
CN111932527A (zh) * 2020-08-26 2020-11-13 江苏铨铨信息科技有限公司 基于长短期记忆与生成对抗网络的卫星云图预测的方法
CN112214626A (zh) * 2019-07-09 2021-01-12 北京地平线机器人技术研发有限公司 图像识别方法、装置、可读存储介质及电子设备
CN112347923A (zh) * 2020-11-06 2021-02-09 常州大学 一种基于对抗生成网络的路侧端行人轨迹预测算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766499A (zh) * 2021-02-02 2021-05-07 电子科技大学 一种通过强化学习技术实现无人机自主飞行的方法
CN112947081A (zh) * 2021-02-05 2021-06-11 浙江大学 基于图像隐变量概率模型的分布式强化学习社交导航方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543165A (zh) * 2018-11-21 2019-03-29 中国人民解放军战略支援部队信息工程大学 基于循环卷积注意力模型的文本生成方法及装置
CN110335337A (zh) * 2019-04-28 2019-10-15 厦门大学 一种基于端到端半监督生成对抗网络的视觉里程计的方法
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110335344A (zh) * 2019-06-20 2019-10-15 中国科学院自动化研究所 基于2d-3d注意机制神经网络模型的三维重建方法
CN112214626A (zh) * 2019-07-09 2021-01-12 北京地平线机器人技术研发有限公司 图像识别方法、装置、可读存储介质及电子设备
CN110532897A (zh) * 2019-08-07 2019-12-03 北京科技大学 零部件图像识别的方法和装置
CN111932527A (zh) * 2020-08-26 2020-11-13 江苏铨铨信息科技有限公司 基于长短期记忆与生成对抗网络的卫星云图预测的方法
CN112347923A (zh) * 2020-11-06 2021-02-09 常州大学 一种基于对抗生成网络的路侧端行人轨迹预测算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Human Action Recognition using ConvLSTM with GAN and transfer learning;Mohsin Raza Siyal 等;《IEEE》;全文 *
机器人动态神经网络导航算法的研究和实现;乔俊飞;樊瑞元;韩红桂;阮晓钢;;控制理论与应用(第01期);全文 *

Also Published As

Publication number Publication date
CN113156957A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN110849369B (zh) 机器人跟踪方法、装置、设备及计算机可读存储介质
CN109064514A (zh) 一种基于投影点坐标回归的六自由度位姿估计算法
CN109101966A (zh) 基于深度学习的工件识别定位和姿态估计系统和方法
CN111667535B (zh) 一种针对遮挡场景下的六自由度位姿估计方法
WO2022095278A1 (zh) 基于qmix强化学习算法的船舶多机械臂焊点协同焊接方法
CN110130987B (zh) 一种基于图像分析的隧道收敛变形监测方法
CN113033555B (zh) 基于度量学习的视觉slam闭环检测方法
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
CN113538620A (zh) 一种面向二维栅格地图的slam建图结果评价方法
CN115797297A (zh) 震后建筑结构健康诊断多任务学习方法
CN116460843A (zh) 一种基于元启发式算法的多机器人协作抓取方法及系统
CN113156957B (zh) 自主移动机器人自监督学习及导航方法
CN111812978A (zh) 一种多无人机协作slam方法与系统
CN114493975A (zh) 一种种苗旋转框目标检测方法及系统
CN114821154A (zh) 一种基于深度学习的粮库通风窗状态检测算法
CN113156958B (zh) 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法
CN117252928B (zh) 用于电子产品模块化智能组装的视觉图像定位系统
CN114355915A (zh) 一种基于深度强化学习的agv路径规划
CN116824303B (zh) 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法
CN115219492B (zh) 一种三维物体的外观图像采集方法及装置
CN117241215A (zh) 一种基于图神经网络的无线传感器网络分布式节点协作定位方法
CN113763447B (zh) 深度图的补全方法、电子设备及存储介质
CN113156959B (zh) 复杂场景自主移动机器人自监督学习及导航方法
Li et al. Multiobject real-time automatic detection method for production quality control of prefabricated laminated slabs
CN114897939A (zh) 基于深度路径聚合网络的多目标跟踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant