CN107092254B - 一种基于深度增强学习的家用扫地机器人的设计方法 - Google Patents

一种基于深度增强学习的家用扫地机器人的设计方法 Download PDF

Info

Publication number
CN107092254B
CN107092254B CN201710285895.1A CN201710285895A CN107092254B CN 107092254 B CN107092254 B CN 107092254B CN 201710285895 A CN201710285895 A CN 201710285895A CN 107092254 B CN107092254 B CN 107092254B
Authority
CN
China
Prior art keywords
sweeping robot
neural network
sweeping
training
machine device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710285895.1A
Other languages
English (en)
Other versions
CN107092254A (zh
Inventor
王昊臣
孔祥龙
宋宇航
张玉玺
刘旭辉
张子璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Aeronautics and Astronautics
Original Assignee
Beijing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Aeronautics and Astronautics filed Critical Beijing University of Aeronautics and Astronautics
Priority to CN201710285895.1A priority Critical patent/CN107092254B/zh
Publication of CN107092254A publication Critical patent/CN107092254A/zh
Application granted granted Critical
Publication of CN107092254B publication Critical patent/CN107092254B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser

Abstract

一种基于深度增强学习的家用扫地机器人的设计方法,步骤如下:1,通过激光雷达采集扫地机器人周围的房间水平剖面的原始图像,将原始数据通过无线串口回传给计算机;2,对原始数据进行SLAM,完成对扫地机器人的实时定位与对房间的地图构图,之后进行处理,生成168×168的二维数组;3,建立CNN+LSTM神经网络;4,对扫地机器人进行训练,根据其运动是否满足预期要求,对神经网络给出相应的回报,以此来更改神经网络参数;经过训练后便能够进行自主决策;通过以上步骤,扫地机器人能够在陌生场景中,在较短的时间内找到目标物体,同时能躲避障碍,自行规划路径,以该方法设计的扫地机器人具有一定的通用性和任务迁移性。

Description

一种基于深度增强学习的家用扫地机器人的设计方法
技术领域
本发明提供一种基于深度增强学习的家用扫地机器人的设计方法,属于智能家居领域。
背景技术
目前,使用扫地机器人的家庭越来越多。现在市场上的扫地机器人进入一个新的环境工作时,首先要按照算法对整个房间进行遍历,完成建图和定位。然后构建语义地图,最后进行路径规划,然后再开始对房间的清洁。其中,遍历房间的方法往往是扫地机器人一直贴着一条墙壁走,形成一个闭合回路后,再逐渐填补中间空白位置,这种做法路程较长,会花费大量的时间。同样,路径规划算法不仅复杂、需要大量的计算和人力工程,而且不够完善,不能使扫地机器人以最优路径工作。
近年来,深度增强学习发展迅速,在棋类博弈和一些模拟游戏中取得了很好的表现。本发明构建扫地机器人智能体,通过给予智能体奖励和惩罚信息,使其知道自身行为的正确与否。智能体通过我们给予的奖励和惩罚信息进行长时间的学习,最终具有自主决策的能力,能自如的躲避障碍、规划路径,并对房间进行高效的清扫。
发明内容
1.目的:
本发明的目的是提供一种基于深度增强学习的家用扫地机器人的设计方法。该方法以激光雷达为传感器,对扫地机器人进行实时定位以及对扫地机器人周围的二维水平平面空间进行地图构件(即SLAM),以SLAM图像作为卷积循环神经网络(即CNN+LSTM神经网络)的输入,该网络产生控制扫地机器人动作的指令。通过一种通用深度增强学习算法(A3C算法)对神经网络进行训练,最终可以使扫地机器人以较短路径遍历房间,并能够自主躲避障碍、规划路径和清理垃圾。通过该方法设计的扫地机器人具有学习能力、自主决策能力和任务迁移能力。
2.技术方案:本发明是一种基于深度增强学习的家用扫地机器人的设计方法,该方法具体步骤包括:
步骤1,扫地机器人通过激光雷达采集扫地机器人周围的房间水平剖面的原始图像,并对该数据进行解码,将原始数据通过无线串口回传给计算机(即PC机);
步骤2,对步骤1中获得的原始数据进行SLAM,完成对扫地机器人的实时定位与对房间的地图构图,之后系统对房间的构图进行最大值池化(即MAX POOLING)处理,生成168×168的二维数组;
步骤3,建立CNN+LSTM神经网络,将步骤2中生成的二维数组作为神经网络的输入,CNN+LSTM神经网络输出控制扫地机器人运动的指令;
步骤4,通过A3C算法对扫地机器人进行训练,根据扫地机器人的运动是否满足设计预期要求,对神经网络给出相应的回报,以此来更改神经网络参数。经过一定时间的训练后,扫地机器人便能够进行自主决策;
其中,在步骤1中所述的“解码”是指根据激光雷达通信协议将串口数据转换成角度和距离信息。
其中,在步骤2中所述的“对扫地机器人的实时定位与对房间的地图构图”,构建过程如下:对原始数据进行特征提取,利用牛顿高斯方法计算变换矩阵,再进行滤波等处理,完成建图。
其中,步骤4中“对扫地机器人进行训练”中的训练包括模拟训练和真实训练,比例为10:1。模拟训练指的是:在PC端构建一个与真实环境高度一致的仿真环境,并在这个环境中训练神经网络;真实训练指的是:通过将扫地机器人放置在各种真实的场景中自主运动,对扫地机器人中的神经网络进行不断的训练,以使扫地机器人快速的适应周围的环境,及时完成清扫任务。经过一定时间的训练,扫地机器人便能够进行自主决策。
通过以上步骤,扫地机器人能够在陌生场景中,在较短的时间内找到目标物体,同时可以躲避障碍,自行规划路径,以该方法设计的扫地机器人具有一定的通用性和任务迁移性。
3、优点及效果:本发明是一种基于深度增强学习的家用扫地机器人的设计方法,具有以下几个优点:
(1)本发明减少了设计扫地机器人过程中的工程量,在本发明中,只需要将雷达采集到的图像输入系统,就可以使扫地机器人进行正常的工作,降低了算法的难度,同时省去了一定的人力工程。
(2)本发明提供的设计方法可以使扫地机器人具有自主决策能力,扫地机器人的整个运动过程都是由自身的学习实现的,扫地机器人的行为方式与人类的行为方式相仿。
(3)本发明中,由于神经网络具有一般性,当扫地机器人面对不同的任务要求时,系统只需相应地改变回报值,扫地机器人就可以完成不同的任务。因此,该方法设计的扫地机器人具有很高的通用性和任务迁移性。
(4)本发明能够使扫地机器人在陌生场景中,在较短的时间内找到目标物体,同时可以躲避障碍,记忆周围空间地图。
附图说明
图1是本发明所述方法工作流程框图。
图中序号,符号,代号所代表的意义如下:
1:家用扫地机器人
2:CNN+LSTM神经网络
3:原始数据
4:空间模型
具体实施方式
下面结合附图和实施例,对本发明的技术方案做进一步的说明。
本发明是一种基于深度增强学习的家用扫地机器人的设计方法,扫地机器人工作流程如
图1所示,具体包括如下步骤:
步骤1,扫地机器人通过激光雷达采集原始图像数据,该数据指的是在以激光雷达为原点、以水平面为平面建立的极坐标系上,每一个坐标角度上激光雷达到障碍物的距离。扫地机器人对该数据进行解码后,将原始数据通过无线串口回传给PC机;
步骤2,通过BREEZYSLAM算法库,系统对步骤1中的获得的原始数据进行特征提取,计算变换矩阵,滤波后,完成对扫地机器人的实时定位与对房间的构图。之后系统对构图进行max pooling,将房间的构图池化为168×168的二维数组;
步骤3,使用谷歌研发的第二代人工智能学习系统(即TensorFlow)建立CNN+LSTM神经网络。该神经网络中,卷积层的个数为5,卷积核的大小为8×8×32,LSTM网络的大小为256。将步骤2中生成的二维数组作为该神经网络的输入,该神经网络输出控制扫地机器人运动的指令。该指令包括向前移动、向后移动、向左移动、向右移动、左转、右转和清理。扫地机器人产生移动后,会采集新的数据,并再次将采集到的新的数据输入CNN+LSTM神经网络,神经网络会再输出新的控制指令,使扫地机器人产生新的移动。
步骤4,通过A3C算法对扫地机器人进行训练,根据扫地机器人的运动是否满足设计预期要求,对神经网络给出相应的回报,以此来修正神经网络参数。比如:当扫地机器人碰到了障碍物时,回报值为0;当其清理了一份垃圾时,回报值为1;当其运动到一块新的区域时,回报值为1。对扫地机器人的训练包括模拟训练和真实训练,比例为10:1。模拟训练指的是:在PC端构建一个与真实环境高度一致的仿真环境,并在这个环境中训练神经网络;真实训练指的是:通过将扫地机器人放置在各种真实的场景中自主运动,对扫地机器人中的神经网络进行不断的训练,以使扫地机器人快速的适应周围的环境,及时完成清扫任务。经过一定时间的训练,扫地机器人便能够进行自主决策。
综上所述,本发明提供一种基于深度增强学习的家用扫地机器人设计方法。本发明以SLAM图像作为神经网络的输入,施加一定的回报并进行一定时间的训练,可以使扫地机器人以较短路径遍历房间,并能够自主躲避障碍、规划路径和清理垃圾。

Claims (4)

1.一种基于深度增强学习的家用扫地机器人的设计方法,其特征在于:该方法具体步骤包括:
步骤1,扫地机器人通过激光雷达采集扫地机器人周围的房间水平剖面的原始图像,并对该原始图像进行解码,将解码后的原始数据通过无线串口回传给计算机即PC机;
步骤2,对步骤1中获得的原始数据进行SLAM,完成对扫地机器人的实时定位与对房间的地图构图,之后系统对房间的构图进行最大值池化即MAX POOLING处理,生成168×168的二维数组;
步骤3,建立CNN+LSTM神经网络,将步骤2中生成的二维数组作为神经网络的输入,CNN+LSTM神经网络输出控制扫地机器人运动的指令;
步骤4,通过A3C算法对扫地机器人进行训练,根据扫地机器人的运动是否满足设计预期要求,对神经网络给出相应的回报,以此来更改神经网络参数;经过一定时间的训练后,扫地机器人便能够进行自主决策;
通过以上步骤,扫地机器人能够在陌生场景中,在短的时间内找到目标物体,同时能躲避障碍,自行规划路径,以该方法设计的扫地机器人具有通用性和任务迁移性。
2.根据权利要求1所述的一种基于深度增强学习的家用扫地机器人的设计方法,其特征在于:在步骤1中所述的“解码”是指根据激光雷达通信协议将串口数据转换成角度和距离信息。
3.根据权利要求1所述的一种基于深度增强学习的家用扫地机器人的设计方法,其特征在于:在步骤2中所述的“对扫地机器人的实时定位与对房间的地图构图”,其构建过程如下:对原始数据进行特征提取,利用牛顿高斯方法计算变换矩阵,再进行滤波处理,完成建图。
4.根据权利要求1所述的一种基于深度增强学习的家用扫地机器人的设计方法,其特征在于:步骤4中“对扫地机器人进行训练”中的训练包括模拟训练和真实训练,比例为10:1;模拟训练指的是:在PC端构建一个与真实环境高度一致的仿真环境,并在这个环境中训练神经网络;真实训练指的是:通过将扫地机器人放置在各种真实的场景中自主运动,对扫地机器人中的神经网络进行不断的训练,以使扫地机器人快速的适应周围的环境,及时完成清扫任务;经过预定时间的训练,扫地机器人便能够进行自主决策。
CN201710285895.1A 2017-04-27 2017-04-27 一种基于深度增强学习的家用扫地机器人的设计方法 Expired - Fee Related CN107092254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710285895.1A CN107092254B (zh) 2017-04-27 2017-04-27 一种基于深度增强学习的家用扫地机器人的设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710285895.1A CN107092254B (zh) 2017-04-27 2017-04-27 一种基于深度增强学习的家用扫地机器人的设计方法

Publications (2)

Publication Number Publication Date
CN107092254A CN107092254A (zh) 2017-08-25
CN107092254B true CN107092254B (zh) 2019-11-29

Family

ID=59638306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710285895.1A Expired - Fee Related CN107092254B (zh) 2017-04-27 2017-04-27 一种基于深度增强学习的家用扫地机器人的设计方法

Country Status (1)

Country Link
CN (1) CN107092254B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017217412A1 (de) * 2017-09-29 2019-04-04 Robert Bosch Gmbh Verfahren, Vorrichtung und Computerprogramm zum Betreiben eines Robotersteuerungssystems
CN107818333B (zh) * 2017-09-29 2020-04-07 爱极智(苏州)机器人科技有限公司 基于深度信念网络的机器人避障行为学习和目标搜索方法
CN107992939B (zh) * 2017-12-06 2021-11-12 湖北工业大学 基于深度增强学习的等切削力齿轮加工方法
CN108245384B (zh) * 2017-12-12 2019-10-25 清华大学苏州汽车研究院(吴江) 基于增强学习的双目视觉导盲仪
CN108241322B (zh) * 2018-01-16 2020-08-04 电子科技大学 一种fpga互联资源的优化配置生成方法
CN108319293B (zh) * 2018-01-17 2021-01-12 哈尔滨工程大学 一种基于lstm网络的uuv实时避碰规划方法
CN108279692B (zh) * 2018-01-17 2020-12-22 哈尔滨工程大学 一种基于lstm-rnn的uuv动态规划方法
CN108255182B (zh) * 2018-01-30 2021-05-11 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN108594825A (zh) * 2018-05-31 2018-09-28 四川斐讯信息技术有限公司 基于深度相机的扫地机器人控制方法及系统
CN108852184B (zh) * 2018-09-14 2023-12-26 李子璐 一种基于深度学习算法的无盲区扫地机器人及其清扫控制方法
CN109452914A (zh) * 2018-11-01 2019-03-12 北京石头世纪科技有限公司 智能清洁设备,清洁模式选择方法,计算机存储介质
CN109682392B (zh) * 2018-12-28 2020-09-01 山东大学 基于深度强化学习的视觉导航方法及系统
CN110007366B (zh) * 2019-03-04 2020-08-25 中国科学院深圳先进技术研究院 一种基于多传感器融合的生命搜寻方法以及系统
CN110000781B (zh) * 2019-03-29 2021-06-08 郑州大学 基于发育网络的移动机器人运动方向预先决策方法
CN110063694A (zh) * 2019-04-28 2019-07-30 彭春生 一种双目扫地机器人及工作方法
CN110345959B (zh) * 2019-06-10 2023-11-03 同济人工智能研究院(苏州)有限公司 一种基于“门”点的路径规划方法
CN110488821B (zh) * 2019-08-12 2020-12-29 北京三快在线科技有限公司 一种确定无人车运动策略的方法及装置
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN110567077A (zh) * 2019-09-26 2019-12-13 珠海格力电器股份有限公司 一种加湿器及加湿方法
CN110705682B (zh) * 2019-09-30 2023-01-17 北京工业大学 一种基于多层神经网络进行机器人行为预判的系统及方法
CN110632931B (zh) * 2019-10-09 2022-06-21 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN110750096B (zh) * 2019-10-09 2022-08-02 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN111158378A (zh) * 2020-01-16 2020-05-15 珠海格力电器股份有限公司 一种扫地机器人的清扫方法及扫地机器人
CN111679688A (zh) * 2020-06-18 2020-09-18 小狗电器互联网科技(北京)股份有限公司 一种自走机器人的充电方法、装置、可读介质及电子设备
CN113156958A (zh) * 2021-04-27 2021-07-23 东莞理工学院 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法
CN113386133A (zh) * 2021-06-10 2021-09-14 贵州恰到科技有限公司 一种强化学习机器人控制方法
CN114415657A (zh) * 2021-12-09 2022-04-29 安克创新科技股份有限公司 基于深度强化学习的清洁机器人沿墙方法和清洁机器人
CN116400605B (zh) * 2023-06-08 2023-08-11 成都航空职业技术学院 一种机器人自动控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于CNN+LSTM的空间目标识别;张耀天 等;《第十二届全国信号和智能信息处理与应用学术会议论文集》;20181019;全文 *
基于深度学习的SAR目标识别及FPGA实现;刘寒颖 等;《计算机工程与应用》;20171026;全文 *
深度强化学习综述;刘全 等;《计算机学报》;20170119;全文 *

Also Published As

Publication number Publication date
CN107092254A (zh) 2017-08-25

Similar Documents

Publication Publication Date Title
CN107092254B (zh) 一种基于深度增强学习的家用扫地机器人的设计方法
Gupta et al. Cognitive mapping and planning for visual navigation
Funk et al. Learn2assemble with structured representations and search for robotic architectural construction
WO2017215044A1 (zh) 一种移动机器人的自动规划路径方法及移动机器人
CN103093453B (zh) 计算可改变实体的姿势和/或形状
CN110908377B (zh) 一种机器人导航空间约简方法
CN108564118A (zh) 基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法
CN107253195A (zh) 一种运载机器人手臂操控自适应混合学习映射智能控制方法及系统
CN109960880A (zh) 一种基于机器学习的工业机器人避障路径规划方法
Strudel et al. Learning to combine primitive skills: A step towards versatile robotic manipulation §
CN107992040B (zh) 基于地图栅格与qpso算法结合的机器人路径规划方法
CN112629542B (zh) 基于ddpg和lstm的无地图机器人路径导航方法及系统
CN109782600A (zh) 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN103170973A (zh) 基于Kinect摄像机的人机协作装置及方法
CN102467753A (zh) 基于骨架配准的时变点云重建方法及系统
CN110940341B (zh) 路径规划方法、机器人及计算机可读存储介质
CN110442129A (zh) 一种多智能体编队的控制方法和系统
CN104932534A (zh) 一种云机器人清扫物品的方法
CN104850120A (zh) 基于ihdr自主学习框架的轮式移动机器人导航方法
Zhai et al. Decentralized multi-robot collision avoidance in complex scenarios with selective communication
CN107728612A (zh) 识别不同人群进行广告推送的方法、存储装置及移动终端
Pirker et al. Fast and accurate environment modeling using three-dimensional occupancy grids
Malayjerdi et al. Mobile robot navigation based on fuzzy cognitive map optimized with grey wolf optimization algorithm used in augmented reality
Zhai et al. PEANUT: predicting and navigating to unseen targets
CN107016706A (zh) 一种应用Visual Graph算法提取障碍物边界的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191129

Termination date: 20210427

CF01 Termination of patent right due to non-payment of annual fee