CN113156959B - 复杂场景自主移动机器人自监督学习及导航方法 - Google Patents

复杂场景自主移动机器人自监督学习及导航方法 Download PDF

Info

Publication number
CN113156959B
CN113156959B CN202110460536.1A CN202110460536A CN113156959B CN 113156959 B CN113156959 B CN 113156959B CN 202110460536 A CN202110460536 A CN 202110460536A CN 113156959 B CN113156959 B CN 113156959B
Authority
CN
China
Prior art keywords
state image
robot
training
reward
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110460536.1A
Other languages
English (en)
Other versions
CN113156959A (zh
Inventor
邹俊成
乔红
尹玲
庞伟
刘佳玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN202110460536.1A priority Critical patent/CN113156959B/zh
Publication of CN113156959A publication Critical patent/CN113156959A/zh
Application granted granted Critical
Publication of CN113156959B publication Critical patent/CN113156959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供一种复杂场景自主移动机器人自监督学习及导航方法,具体步骤包括:设置机器人的训练次数;采集机器人所在环境的实际状态图像;将采集的实际状态图像与机器人执行动作前所预测的预测状态图像比较,计算所述实际状态图像与所述预测状态图像之间的损失函数,根据所述的损失函数计算奖惩信号,根据奖惩信号更新网络权重,预测机器人的动作和预测状态图像;机器人执行动作,记录已完成训练次数;判断其是否达到预先设置的训练次数,若结果为否,则返回继续训练;若结果为是,则加权所有的奖惩信号,更新网络权重,结束训练。本发明结合视频预测技术和强化学习技术,解决了强化学习技术应用到机器人中时人工标记的工作量大的问题。

Description

复杂场景自主移动机器人自监督学习及导航方法
技术领域
本发明具体涉及复杂场景自主移动机器人自监督学习及导航方法。
背景技术
自主移动机器人广泛应用到生产、生活等多个领域,其所面临的场景越来越复杂。传统方法都需要大量人工标记图像数据,以让机器人的深度神经网络学习相关数据。SLAM(Simultaneous Localization And Mapping)方法需要不断测量机器人与目标的相对位置和相对角度,这些目标也需要人工标记和筛选,在很多实际任务中很难找到这样比较合适的目标。强化学习技术应用到机器人中解决现实场景中的问题需要标记大量数据,人工标记的工作量较大,且人工也不可能标记完所有数据。
所以,需要一种能够进行自监督学习且学习过程中不需要人工标记数据的方法,来弥补现有技术中的不足。
发明内容
因此,本发明提供一种复杂场景自主移动机器人自监督学习及导航方法,来解决现有技术中强化学习技术应用到机器人中解决现实场景中的问题时需要标记大量数据,人工标记的工作量大的问题。
一种复杂场景自主移动机器人自监督学习及导航方法,具体步骤如下:
步骤1,预先设置机器人的训练次数;
步骤2,采集机器人所在环境的实际状态图像;
步骤3,将步骤2中所采集的实际状态图像与机器人执行动作前一时刻所预测的预测状态图像相比较,并计算所述实际状态图像与所述预测状态图像之间的损失函数,然后根据所述的损失函数计算奖惩信号rs,然后根据奖惩信号rs更新网络权重;
步骤4,预测机器人的动作,并预测机器人执行该动作后相应的预测状态图像;
步骤5,机器人执行动作,记录已完成训练的次数;
步骤6,判断已完成训练的次数是否达到预先设置的训练次数,如果判断结果为否,则返回步骤2继续训练;如果判断结果为是,则加权所有的奖惩信号rs,并更新网络权重;然后结束训练。
本发明结合视频预测技术和强化学习技术,并将其应用到了复杂场景自主移动机器人之中。本发明利用视频预测网络来比较预测图像和实际图像的损失,并通过所述损失来计算奖惩激励信号,以校正预测动作的网络权重。采用这样的方法,大大地减少了人工标记及人工干预的工作量。提升了工作的效率。并且因为减少了人工标记,从而更大程度上避免了人工操作可能出现的错误,提升了准确性。
进一步的,所述步骤3具体包括如下步骤:
在t1时刻采集实际状态图像i1’,将所述实际状态图像i1’输入视频预测网络NN1;利用所述视频预测网络NN1计算出下一时刻t2的预测状态图像i2和动作,所述t2时刻指机器人执行动作后的时刻;
在t2时刻采集实际状态图像i2’,通过综合损失La和图像深度学习损失Lgd1共同计算预测状态图像i2和实际状态图像i2’的损失loss,然后通过所述损失loss计算奖惩信号rs,然后根据所述奖惩信号rs更新所述视频预测网络NN1的网络权重。
进一步的,所述机器人通过控制信号action来执行动作,所述控制信号action由视频预测网络NN1计算得出。
进一步的,所述控制信号action包括角度、速度、加速度以及力矩。
进一步的,所述综合损失La的计算公式如下:
La=λ1*L12*L2gdl*Lgdl (1)
其中:λ1为L1的系数,λ2为L2的系数,λgdl为Lgdl的系数,pi,j指是预测状态图像i2的一个像素值,p′i,j指的是实际状态图像i2’的像素值,坐标i,j分别指的是图像中x轴,y轴的坐标位置。
进一步的,所述图像深度学习损失Lgdl的计算公式如下:
进一步的,训练每一次执行,均更新视频预测网络NN1的权重;训练完成后求该训练中所有奖惩信号rs。
本发明的有益效果如下:
1.本发明结合视频预测技术和强化学习技术,大大地减少了人工标记及人工干预的工作量,提高了效率。
2..本发明减少了人工标记,避免了更容易出现错误的人工操作,提升了准确性。
附图说明
图1为现有技术中一般的强化学习的基本过程的流程图;
图2为本发明一种复杂场景自主移动机器人自监督学习及导航方法的流程图;
图3为本发明中视频预测技术具体预测过程的原理图。
具体实施方式
显然,下面所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
如图2所示,一种复杂场景自主移动机器人自监督学习及导航方法,具有如下步骤:
步骤1,预先设置机器人的训练次数;
步骤2,采集机器人所在环境的实际状态图像;
步骤3,将步骤2中所采集的实际状态图像与机器人执行动作前一时刻所预测的预测状态图像相比较,并计算所述实际状态图像与所述预测状态图像之间的损失函数,然后根据所述的损失函数计算奖惩信号rs,然后根据奖惩信号rs更新网络权重;
步骤4,预测机器人的动作,并预测机器人执行该动作后相应的预测状态图像;
步骤5,机器人执行动作,记录已完成训练的次数;
步骤6,判断已完成训练的次数是否达到预先设置的训练次数,如果判断结果为否,则返回步骤2继续训练;如果判断结果为是,则加权所有的奖惩信号rs,并更新网络权重;然后结束训练。
本发明结合视频预测技术和强化学习技术,并将其应用到了复杂场景自主移动机器人之中。本发明利用视频预测网络来比较预测图像和实际图像的损失,并通过所述损失来计算奖惩激励信号,以校正预测动作的网络权重。采用这样的方法,大大地减少了人工标记及人工干预的工作量。提升了工作的效率。并且因为减少了人工标记,从而更大程度上避免了人工操作可能出现的错误,提升了准确性。
所述步骤3具体包括如下步骤:
在t1时刻采集实际状态图像i1’,将所述实际状态图像i1’输入视频预测网络NN1;利用所述视频预测网络NN1计算出下一时刻t2的预测状态图像i2和动作,所述t2时刻指机器人执行动作后的时刻;
在t2时刻采集实际状态图像i2’,通过综合损失La和图像深度学习损失Lgd1共同计算预测状态图像i2和实际状态图像i2’的损失loss,然后通过所述损失loss计算奖惩信号rs,然后根据所述奖惩信号rs更新所述视频预测网络NN1的网络权重。
所述机器人通过控制信号action来执行动作,所述控制信号action由视频预测网络NN1计算得出。
所述控制信号action包括角度、速度、加速度以及力矩。
所述综合损失La的计算公式如下:
La=λ1*L12*L2gdl*Lgdl (1)
其中:λ1为L1的系数,λ2为L2的系数,λgdl为Lgdl的系数,pi,j指是预测状态图像i2的一个像素值,p′i,j指的是实际状态图像i2’的像素值,坐标i,j分别指的是图像中x轴,y轴的坐标位置。
所述图像深度学习损失Lgdl的计算公式如下:
训练每一次执行,均更新视频预测网络NN1的权重;训练完成后求该训练中所有奖惩信号rs。
本发明的有益效果如下:
1.本发明结合视频预测技术和强化学习技术,大大地减少了人工标记及人工干预的工作量,提高了效率。
2..本发明减少了人工标记,避免了更容易出现错误的人工操作,提升了准确性。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (4)

1.一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,具有如下步骤:
步骤1,预先设置机器人的训练次数;
步骤2,采集机器人所在环境的实际状态图像;
步骤3,将步骤2中所采集的实际状态图像与机器人执行动作前一时刻所预测的预测状态图像相比较,并计算所述实际状态图像与所述预测状态图像之间的损失函数,然后根据所述的损失函数计算奖惩信号rs,然后根据奖惩信号rs更新网络权重;
步骤4,预测机器人的动作,并预测机器人执行该动作后相应的预测状态图像;
步骤5,机器人执行动作,记录已完成训练的次数;
步骤6,判断已完成训练的次数是否达到预先设置的训练次数,如果判断结果为否,则返回步骤2继续训练;如果判断结果为是,则加权所有的奖惩信号rs,并更新网络权重;
然后结束训练;
所述步骤3具体包括如下步骤:
在t1时刻采集实际状态图像i1’,将所述实际状态图像i1’输入视频预测网络NN1;利用所述视频预测网络NN1计算出下一时刻t2的预测状态图像i2和动作,所述t2时刻指机器人执行动作后的时刻;
在t2时刻采集实际状态图像i2’,通过综合损失La和图像深度学习损失Lgd1共同计算预测状态图像i2和实际状态图像i2’的损失loss,然后通过所述损失loss计算奖惩信号rs,然后根据所述奖惩信号rs更新所述视频预测网络NN1的网络权重;
所述综合损失La的计算公式如下:
La=λ1*L12*L2gdl*Lgdl (1)
其中:λ1为L1的系数,λ2为L2的系数,λgdl为Lgdl的系数,pi,j指是预测状态图像i2的一个像素值,p′i,j指的是实际状态图像i2’的像素值,坐标i,j分别指的是图像中x轴,y轴的坐标位置;
所述图像深度学习损失Lgdl的计算公式如下:
2.根据权利要求1所述的一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,所述机器人通过控制信号action来执行动作,所述控制信号action由视频预测网络NN1计算得出。
3.根据权利要求2所述的一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,所述控制信号action包括包括角度、速度、加速度以及力矩。
4.根据权利要求1所述的一种复杂场景自主移动机器人自监督学习及导航方法,其特征在于,训练每一次执行,均更新视频预测网络NN1的权重;训练完成后求该训练中所有奖惩信号rs。
CN202110460536.1A 2021-04-27 2021-04-27 复杂场景自主移动机器人自监督学习及导航方法 Active CN113156959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110460536.1A CN113156959B (zh) 2021-04-27 2021-04-27 复杂场景自主移动机器人自监督学习及导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110460536.1A CN113156959B (zh) 2021-04-27 2021-04-27 复杂场景自主移动机器人自监督学习及导航方法

Publications (2)

Publication Number Publication Date
CN113156959A CN113156959A (zh) 2021-07-23
CN113156959B true CN113156959B (zh) 2024-06-04

Family

ID=76871534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110460536.1A Active CN113156959B (zh) 2021-04-27 2021-04-27 复杂场景自主移动机器人自监督学习及导航方法

Country Status (1)

Country Link
CN (1) CN113156959B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117635458A (zh) * 2023-12-05 2024-03-01 河南省科学院物理研究所 一种基于深度流解析网络的视频预测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084307A (zh) * 2019-04-30 2019-08-02 东北大学 一种基于深度强化学习的移动机器人视觉跟随方法
CN110334599A (zh) * 2019-05-31 2019-10-15 北京奇艺世纪科技有限公司 深度学习网络的训练方法、装置、设备和存储介质
CN110750096A (zh) * 2019-10-09 2020-02-04 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
DE102019203634A1 (de) * 2019-03-18 2020-09-24 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ansteuern eines Roboters
CN111880522A (zh) * 2020-06-01 2020-11-03 东莞理工学院 一种新型的自主装配机器人路径规划自主导航系统及方法
CN111897333A (zh) * 2020-07-31 2020-11-06 常州码库数据科技有限公司 一种机器人行走路径规划方法
WO2021073781A1 (en) * 2019-10-16 2021-04-22 Five AI Limited Prediction and planning for mobile robots

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11294387B2 (en) * 2019-06-17 2022-04-05 Toyota Research Institute, Inc. Systems and methods for training a vehicle to autonomously drive a route

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019203634A1 (de) * 2019-03-18 2020-09-24 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ansteuern eines Roboters
CN110084307A (zh) * 2019-04-30 2019-08-02 东北大学 一种基于深度强化学习的移动机器人视觉跟随方法
CN110334599A (zh) * 2019-05-31 2019-10-15 北京奇艺世纪科技有限公司 深度学习网络的训练方法、装置、设备和存储介质
CN110750096A (zh) * 2019-10-09 2020-02-04 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
WO2021073781A1 (en) * 2019-10-16 2021-04-22 Five AI Limited Prediction and planning for mobile robots
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN111880522A (zh) * 2020-06-01 2020-11-03 东莞理工学院 一种新型的自主装配机器人路径规划自主导航系统及方法
CN111897333A (zh) * 2020-07-31 2020-11-06 常州码库数据科技有限公司 一种机器人行走路径规划方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Predicting Head Movement in Panoramic Video: A Deep Reinforcement Learning Approach;Mai Xu;IEEE Transactions on Pattern Analysis and Machine Intelligence;全文 *
基于机器学习的室内定位与数据融合算法研究;程默;中国优秀硕士学位论文全文数据库 (基础科学辑)(第01期);全文 *
基于模型预测控制的车辆轨迹跟踪稳定性研究;宋晓华;邵毅明;屈治华;束海波;;重庆理工大学学报(自然科学)(第08期);全文 *
面向智能避障场景的深度强化学习研究;刘庆杰;林友勇;李少利;;智能物联技术(第02期);全文 *

Also Published As

Publication number Publication date
CN113156959A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN111948602A (zh) 基于改进Taylor级数的二维UWB室内定位方法
CN109213175A (zh) 一种基于原对偶神经网络的移动机器人视觉伺服轨迹跟踪预测控制方法
CN113156959B (zh) 复杂场景自主移动机器人自监督学习及导航方法
CN110516350B (zh) 一种基于各向异性加权的ers点误差修正方法
CN112097774B (zh) 基于自适应卡尔曼滤波与平均跟踪的分布式地图融合方法
CN111812978A (zh) 一种多无人机协作slam方法与系统
CN110276801B (zh) 一种物体定位方法、装置及存储介质
CN114916059A (zh) 基于区间随机对数阴影模型的WiFi指纹稀疏地图扩建方法
CN109352649A (zh) 一种基于深度学习的机械手控制方法及系统
CN114329855B (zh) 一种无线视觉传感网络的传感器布局优化与快速部署方法
CN114034290B (zh) 放样机器人系统的放样方法
CN113689501B (zh) 一种基于收敛点的双机协同目标机定位跟踪控制方法
CN116579989A (zh) 一种基于深度相机的隧道打孔倾角修正方法
CN113156958B (zh) 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法
CN109909989A (zh) 一种沙滩垃圾收集机器人
CN113484822B (zh) 一种无线信号补偿方法、系统、计算机设备及存储介质
CN113156957B (zh) 自主移动机器人自监督学习及导航方法
CN107024208A (zh) 一种定位方法及其定位装置
CN113503891A (zh) 一种sinsdvl对准校正方法、系统、介质及设备
CN117636251B (zh) 一种基于机器人的灾损检测方法和系统
CN114083545B (zh) 一种基于视觉感知的运动物体机器人抓取方法及装置
CN118357931B (zh) 一种双臂机器人的路径规划方法、装置、电子设备及存储介质
CN118456447B (zh) 基于视觉定位和编队预测的数据处理系统、方法及装置
CN114089746B (zh) 一种基于相对基准的跨无人平台协同定位方法
CN115388895A (zh) 一种基于孪生神经网络的室内移动机器人全景视觉快速导航方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant