CN113156958A - 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法 - Google Patents
基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法 Download PDFInfo
- Publication number
- CN113156958A CN113156958A CN202110460461.7A CN202110460461A CN113156958A CN 113156958 A CN113156958 A CN 113156958A CN 202110460461 A CN202110460461 A CN 202110460461A CN 113156958 A CN113156958 A CN 113156958A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- term memory
- short term
- autonomous mobile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000015654 memory Effects 0.000 title claims description 17
- 230000006870 function Effects 0.000 claims abstract description 8
- 230000007787 long-term memory Effects 0.000 claims abstract description 7
- 230000006403 short-term memory Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明属于机器人学习领域,涉及基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法。其过程是先设置机器人的动作训练次数K;然后机器人采集到环境的状态图像;再是机器人计算状态图像与上一时刻预测图像之间的损失函数,再以损失函数计算奖惩信号;然后更新预测网络权重;重复机器人采集图像到预测动作和执行动作之间这几个步骤,直至达到第K次;最后加权所有奖惩信号,再更新预测网络权重。这样既解决了机器人如何自主监督学习的问题又极大程度上减少了人工标记及人工干预的工作量。
Description
技术领域
本发明涉及机器人学习领域,具体涉及一种基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法。
背景技术
自主移动机器人广泛应用到生产、生活等多个领域,其所面临的场景越来越复杂。传统方法都需要大量人工标记图像数据,以让机器人的深度神经网络学习相关数据。SLAM(同步定位和绘图)方法需要不断测量机器人与目标的相对位置和相对角度,这些目标也需要人工标记和筛选,在很多实际任务中很难找到这样比较合适的目标;而且传统的卷积神经网络需要将数据集归一化,不同尺寸混合在一起难以训练,并且传统的卷积神经网络没有记忆功能。这样就使得机器人能够自主学习的难度大大增加,而且需要人工标记的工作量非常大。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的自主移动机器人自监督学习环境的不足和弥补人工标记工作量大的缺陷,从而提供一种基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法。其解决了自主移动机器人自主学习环境信息、自主导航和人工标记工作量大的问题。
为解决上述问题,本发明提供了一种基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法,其包括:S1:设置机器人的动作训练次数K;S2:机器人采集到环境的状态图像;S3:机器人计算状态图像与上一时刻预测图像之间的损失函数,再以损失函数计算奖惩信号;S4:更新预测网络权重;S5:预测动作和下一时刻图像,然后执行动作;S6:重复S2-S5,直至达到第K次;S7:加权所有奖惩信号,再更新预测网络权重。
作为本发明的进一步限定,其预测过程为:S5.1:在t1时刻,采集到了i1′图像;S5.2:将i1′图像输入视频预测网络NN1,预测得出t2时刻的图像i2及控制信号action;S5.3:动作执行完成后采集到t2时刻的图像i2′;S5.4:通过综合损失La和GDL损失Lgdl共同计算所预测出来的图像i2和采集到的图像i2′的损失loss;S5.5:再通过该loss计算奖惩信号rs;S5.6:再以rs更新NN1的网络权重。
作为本发明的进一步限定,其损失值计算公式为:
La=λ1*L1+λ2*L2+λgdl*Lgdl (1)
λ1,λ2,λgdl,是对应的系数,根据经验及实际实验进行设置,pi,j指的是图像i2的一个像素值,p′i,j指的是i2′的像素值,下标i,j分别指的是图像中x,y的坐标位置,每执行一步需要更新NN1的权重,整个任务完成后需要求全部rs的和RS;
作为本发明的进一步限定,其控制信号action包括角度、速度、加速度及力矩。
作为本发明的进一步限定,其预测网络包括6层:其中,前3层为卷积长短期记忆网络层;从第4层开始分支为2条支网络层;其中一支网络层为3层反卷积长短期记忆网络层;另一支网络层依次为2维的卷积层Conv2D、压平层Flatten、全连接层Dense。
作为本发明的进一步限定,其ConvLSTM、ConvLSTMT和Conv2D的卷积核大小都是2*2,步长都为2,都做补零操作。
基于上述内容,由于视频预测网络的引入,能通过比较预测图像和实际图像的损失来计算奖惩激励信号,以校正预测动作的网络权重。这样能大大减少人工标记及人工干预的工作量同时也达到了自主预测图像和动作以及导航的能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法的一个具体示例的流程图;
图2为本发明实施中基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法的一个具体示例的原理框图;
图3为本发明实施中基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法的一个具体示例的预测过程图;
图4为本发明实施中基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法的一个具体示例的网络结构图;
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
图1为一个具体示例的流程图,根据图像添加数据后所得出的步骤为:
S1:设置机器人的动作训练次数10次;
S2:机器人采集到环境的状态图像;
S3:机器人计算状态图像与上一时刻预测图像之间的损失函数,再以损失函数计算奖惩信号;
S4:更新预测网络权重;
S5:预测动作和下一时刻图像,然后执行动作;
S6:重复S2-S5,直至达到第10次;
S7:加权所有奖惩信号,再更新预测网络权重。
图2为一个具体示例的原理框图,机器人采集到环境的状态信息,对环境执行动作,环境更新状态至状态′,然后机器人又采集新环境的状态信息如此反复。
图3为一个具体示例的预测过程图,假设在t1时刻,采集到了i1′图像。将i1′输入视频预测神经网络,预测得出t2时刻的图像i2及控制信号action。控制信号可以包括角度、速度、加速度及力矩等信息。动作执行完成后,采集到t2时刻的图像i2′,可以通过综合损失La和图像深度学习损失Lgdl共同计算所预测出来的图像i2和采集到的图像i2′的损失loss。再通过该loss计算奖惩信号rs。再以rs更新神经网络的网络权重。各个损失的计算见公式(1)-(4)
La=λ1*L1+λ2*L2+λgdl*Lgdl (1)
λ1,λ2,λgdl是对应的系数,根据经验及实际实验进行设置。pi,j指的是图像i2的一个像素值,p′i,j指的是i2′的像素值。下标i,j分别指的是图像中x,y的坐标位置。每执行一步需要更新神经网络的权重,整个任务完成后需要求全部rs的和RS。
图4为一个具体示例的网络结构图,假设输入图像是It1,其尺寸是160*80。输出是图像It2和力矩torque,图像尺寸是160*80,力矩尺寸是1。整个网络包括6层,其中从第4层开始分支为2条支网络层,ConvLSTM指的是卷积长短期记忆网络层,ConvLSTMT指的是反卷积长短期记忆网络层,Conv2D是2维的卷积层,Flatten是压平层,Dense是全连接层。其中ConvLSTM、ConvLSTMT和Conv2D的卷积核大小都是2*2,步长都为2,都做补零操作。每层与每层之间右侧部分是经过该层处理后所输出的尺寸。
本说明书的实施例提供了一种基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法,通过结合视频预测技术和强化学习技术,提出了一种复杂场景自主移动机器人自监督学习及导航方法。机器人通过卷积记忆网络自动采集环境信息进行分析计算,而且由于视频预测网络的引入,能通过比较预测图像和实际图像的损失来计算奖惩激励信号,以校正预测动作的网络权重。这样能大大减少人工标记及人工干预的工作量。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (6)
1.一种基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法,其特征在于,具体包括如下步骤:
S1:设置机器人的动作训练次数K;
S2:机器人采集到环境的状态图像;
S3:机器人计算状态图像与上一时刻预测图像之间的损失函数,再以损失函数计算奖惩信号;
S4:更新预测网络权重;
S5:预测动作和下一时刻图像,然后执行动作;
S6:重复S2-S4,直至达到第K次;
S7:加权所有奖惩信号,再更新预测网络权重。
2.按照权利要求1所述的基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法,其特征在于预测的具体步骤如下:
S5.1:在t1时刻,采集到了i1'图像;
S5.2:将i1'图像输入视频预测网络NN1,预测得出t2时刻的图像i2及控制信号action;
S5.3:动作执行完成后采集到t2时刻的图像i2';
S5.4:通过综合损失La和GDL损失Lgdl共同计算所预测出来的图像i2和采集到的图像i2'的损失loss;
S5.5:再通过该loss计算奖惩信号rs;
S5.6:再以rs更新NN1的网络权重。
4.按照权利要求2所述的基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法,所述控制信号action包括角度、速度、加速度及力矩。
5.按照权利要求2所述的基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法,其特征在于:所述预测网络包括6层,其中,
前3层为卷积长短期记忆网络层;
从第4层开始分支为2条支网络层:
其中一支网络层为3层反卷积长短期记忆网络层;
另一支网络层依次为2维的卷积层Conv2D、压平层Flatten、全连接层Dense。
6.按照权利要求5所述的基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法,其特征在于:
ConvLSTM、ConvLSTMT和Conv2D的卷积核大小都是2*2,步长都为2,都做补零操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110460461.7A CN113156958A (zh) | 2021-04-27 | 2021-04-27 | 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110460461.7A CN113156958A (zh) | 2021-04-27 | 2021-04-27 | 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113156958A true CN113156958A (zh) | 2021-07-23 |
Family
ID=76871618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110460461.7A Pending CN113156958A (zh) | 2021-04-27 | 2021-04-27 | 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113156958A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092254A (zh) * | 2017-04-27 | 2017-08-25 | 北京航空航天大学 | 一种基于深度增强学习的家用扫地机器人的设计方法 |
KR20180065498A (ko) * | 2016-12-08 | 2018-06-18 | 한국항공대학교산학협력단 | 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법 |
CN108615027A (zh) * | 2018-05-11 | 2018-10-02 | 常州大学 | 一种基于长短期记忆-加权神经网络对视频人群计数的方法 |
CN110114783A (zh) * | 2016-11-04 | 2019-08-09 | 渊慧科技有限公司 | 利用辅助任务的强化学习 |
WO2020065024A1 (en) * | 2018-09-27 | 2020-04-02 | Deepmind Technologies Limited | Stacked convolutional long short-term memory for model-free reinforcement learning |
US20200134445A1 (en) * | 2018-10-31 | 2020-04-30 | Advanced Micro Devices, Inc. | Architecture for deep q learning |
CN111208818A (zh) * | 2020-01-07 | 2020-05-29 | 电子科技大学 | 基于视觉时空特征的智能车预测控制方法 |
CN112325897A (zh) * | 2020-11-19 | 2021-02-05 | 东北大学 | 基于启发式深度强化学习的路径规划方法 |
CN112418409A (zh) * | 2020-12-14 | 2021-02-26 | 南京信息工程大学 | 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 |
-
2021
- 2021-04-27 CN CN202110460461.7A patent/CN113156958A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110114783A (zh) * | 2016-11-04 | 2019-08-09 | 渊慧科技有限公司 | 利用辅助任务的强化学习 |
KR20180065498A (ko) * | 2016-12-08 | 2018-06-18 | 한국항공대학교산학협력단 | 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법 |
CN107092254A (zh) * | 2017-04-27 | 2017-08-25 | 北京航空航天大学 | 一种基于深度增强学习的家用扫地机器人的设计方法 |
CN108615027A (zh) * | 2018-05-11 | 2018-10-02 | 常州大学 | 一种基于长短期记忆-加权神经网络对视频人群计数的方法 |
WO2020065024A1 (en) * | 2018-09-27 | 2020-04-02 | Deepmind Technologies Limited | Stacked convolutional long short-term memory for model-free reinforcement learning |
CN112313672A (zh) * | 2018-09-27 | 2021-02-02 | 渊慧科技有限公司 | 用于无模型强化学习的堆叠的卷积长短期记忆 |
US20200134445A1 (en) * | 2018-10-31 | 2020-04-30 | Advanced Micro Devices, Inc. | Architecture for deep q learning |
CN111208818A (zh) * | 2020-01-07 | 2020-05-29 | 电子科技大学 | 基于视觉时空特征的智能车预测控制方法 |
CN112325897A (zh) * | 2020-11-19 | 2021-02-05 | 东北大学 | 基于启发式深度强化学习的路径规划方法 |
CN112418409A (zh) * | 2020-12-14 | 2021-02-26 | 南京信息工程大学 | 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 |
Non-Patent Citations (2)
Title |
---|
SANDRA AIGNER: "The Importance of Loss Functions for Increasing the Generalization Abilities of a Deep Learning-Based Next Frame Prediction Model for Traffic Scenes", MAKE, vol. 2, no. 2, pages 78 - 98 * |
李想: "基于ConvLSTM双通道编码网络的夜间无人车场景预测", 红外技术, vol. 42, no. 8, pages 789 - 794 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111459166B (zh) | 一种灾后救援环境下含受困人员位置信息的情景地图构建方法 | |
CN107450593B (zh) | 一种无人机自主导航方法和系统 | |
CN112651437B (zh) | 一种基于深度学习的空间非合作目标位姿估计方法 | |
CN109145836B (zh) | 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法 | |
CN108759826B (zh) | 一种基于手机和无人机多传感参数融合的无人机运动跟踪方法 | |
CN109409327B (zh) | 基于端到端深度神经网络的rru模块物件位姿检测方法 | |
CN109829476B (zh) | 基于yolo的端到端三维物体检测方法 | |
CN110942484B (zh) | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 | |
CN114332385A (zh) | 一种基于三维虚拟地理场景的单目相机目标检测与空间定位方法 | |
CN111382686A (zh) | 一种基于半监督生成对抗网络的车道线检测方法 | |
CN114111818A (zh) | 一种通用视觉slam方法 | |
CN114580308A (zh) | 一种人员疏散时间预测方法、装置、存储介质及终端设备 | |
CN111812978A (zh) | 一种多无人机协作slam方法与系统 | |
CN114217303A (zh) | 目标定位跟踪方法及装置、水下机器人和存储介质 | |
CN112258565A (zh) | 图像处理方法以及装置 | |
AU2018208816B2 (en) | Determining the location of a mobile device | |
CN113156958A (zh) | 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法 | |
CN117372928A (zh) | 一种视频目标检测方法、装置及相关设备 | |
CN117011280A (zh) | 基于点云分割的3d打印混凝土墙质量监测方法及系统 | |
CN111553474A (zh) | 船只检测模型训练方法及基于无人机视频的船只跟踪方法 | |
CN113156957A (zh) | 基于对抗生成网络的自主移动机器人自监督学习及导航方法 | |
CN113658274B (zh) | 用于灵长类动物种群行为分析的个体间距自动计算方法 | |
CN113392884B (zh) | 基于lstm网络和注意力机制的坐标融合方法 | |
CN113485438B (zh) | 一种无人机空间监测路径智能规划方法及系统 | |
JP6962484B1 (ja) | 温度分布学習装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |