CN107179077B - 一种基于elm-lrf的自适应视觉导航方法 - Google Patents

一种基于elm-lrf的自适应视觉导航方法 Download PDF

Info

Publication number
CN107179077B
CN107179077B CN201710337967.2A CN201710337967A CN107179077B CN 107179077 B CN107179077 B CN 107179077B CN 201710337967 A CN201710337967 A CN 201710337967A CN 107179077 B CN107179077 B CN 107179077B
Authority
CN
China
Prior art keywords
robot
lrf
elm
state
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710337967.2A
Other languages
English (en)
Other versions
CN107179077A (zh
Inventor
王磊
赵行
李婵颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710337967.2A priority Critical patent/CN107179077B/zh
Publication of CN107179077A publication Critical patent/CN107179077A/zh
Application granted granted Critical
Publication of CN107179077B publication Critical patent/CN107179077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)
  • Image Analysis (AREA)

Abstract

本发明基于ELM‑LRF神经网络模型设计了一种机器人的自适应视觉导航方法。该方法分配(st,at,rt,st+1,Qt)结构体数据存储空间;令机器人在选定环境中重复运动,获得所需结构体数据,将状态相同的数据通过删除Q值较小的数据进行预处理。然后以st作为输入,at作为输出完成对ELM‑LRF的训练,建立起当前状态和最优动作的映射关系。最后以机器人能否找到目标来测试机器人的导航能力。本发明在该数据空间下利用ELF‑LRF模型提出的方法大大提高了机器人的导航速度。其中,st是当前状态,在这里为拍摄到的照片,at是在st下机器人的动作(前后左右运动),rt是at的即时回报,st+1是机器人在at后的状态,Q为长远回报,Qt值为在状态st下执行at后得到的总的长远回报。

Description

一种基于ELM-LRF的自适应视觉导航方法
技术领域
本发明提供一种基于ELM-LRF(基于局部接收野的极限学习机)的自适应视觉导航方法,具体而言就是输入像素数据、输出决策(选择行走动作),直到找到想要的物体,停下。属于机器学习、神经网络算法、强化学习技术领域。
背景技术
视觉导航是在机器人上安装单目或双目照相机,获取环境中局部图像,实现自我位姿确定和路径识别,从而做出导航决策,与人类视觉反馈导航很类似。从输入图像到输出动作,机器学习是核心。随着计算机计算性能的不断提高和越来越多数据的产生,挖掘数据的价值为人们生活服务成为必然。在此趋势下,“大数据”和“人工智能”成为火热的名词,而机器学习又是其中的核心技术。机器学习主要包括监督学习、无监督学习和强化学习。
监督学习最火热的当属深度学习,深度学习简单说就是多层的神经网络,给定数据和相应标签,给定一个优化目标,采用BP(误差反向传播Error Back Propagation)训练算法来训练神经网络。深度学习算法中最著名是卷积神经网络(CNN),CNN受启发于人类的视觉皮层,输入至隐藏层采用局部连接。
极限学习机(ELM),可用于特征学习,聚类,回归和分类。传统观点认为神经网络的隐藏层神经元需要在训练阶段迭代调整,比如BP算法,涉及大量的梯度下降,容易陷入局部最优。ELM理论打破了这种信条,认为隐层神经元虽然很重要,但不需要迭代调整,解决了传统方法的缺陷[1.G.-B.Huang,Q.-Y.Zhu,and C.-K.Siew.Extreme learning machine:Anew learning scheme of feedforward neural networks,in Proc.Int.JointConf.Neural Networks,July 2004,vol.2,pp.985–990.][2.G.-B.Huang,Q.-Y.Zhu,andC.-K.Siew,.Extreme learning machine:Theory and applications,Neurocomputing,vol.70,pp.489–501,Dec.2006.]。隐藏层节点的所有参数(权重W和偏置b)都独立于训练样例,可以随机的(任意连续概率分布)生成,这样的ELM依然具有普适的逼近和分类能力。ELM理论表明,只要隐层神经元的激活函数是非线性分段连续的,神经网络就不需要通过迭代调整网络来获得学习能力。
ELM-LRF[3.G.-B Huang,Z Bai,LLC Kasun,CM Vong.Local Receptive FieldsBased Extreme Learning Machine.[J].IEEE Computational Intelligence Magazine,2015,10(2):18-29]是基于局部感受野的极限学习机,输入与隐藏层间的连接是稀疏的,且由相应的局部感受野(对连续概率分布采样得到)包围。ELM理论证明,隐藏层节点可以按照任意概率分布生成,这里的随机是指:输入与隐藏层节点间的连接密度是根据不同类型的概率分布随机采样得到的,输入与隐藏层节点间的连接权重也是随机生成的。
强化学习是一种重要的机器学习方法,在智能控制、机器人及分析预测等领域有许多应用。在人工智能领域,一般用智能体来表示一个具备行为能力的物体,比如机器人,无人车,人等等。那么强化学习考虑的问题就是智能体和环境之间交互的任务。比如一个机械臂要拿起一个手机,那么机械臂周围的物体包括手机就是环境,机械臂通过外部的比如摄像头来观察环境,然后机械臂需要输出动作来实现拿起手机这个任务。再举玩游戏的例子,比如玩赛车游戏,人们只看到屏幕,这就是环境,然后通过操作键盘来控制车的运动。不管是什么样的任务,都包含了一系列的动作,观察还有反馈值。所谓的反馈值就是智能体执行了动作与环境进行交互后,环境会发生变化,变化的好与坏就用反馈值来表示。如上面的例子,如果机械臂离手机变近了,那么回报值就应该是正的,如果玩赛车游戏赛车越来越偏离跑道,那么回报值就是负的。用了观察一词而不是环境那是因为智能体不一定能得到环境的所有信息,比如机械臂上的摄像头就只能得到某个特定角度的画面。因此,只能用观察来表示智能体获取的感知信息。人与环境的交互就是一个典型的强化学习过程。
深度强化学习(Deep Reinforcement Learning)将深度学习和强化学习结合,这个想法在几年前就有人尝试,但真正成功的开端就是DeepMind在NIPS 2013上发表的[4.VolodymyrMnih,KorayKavukcuoglu,David Silver,Alex Graves,IoannisAntonoglou,DaanWierstra,Martin Riedmiller.Playing Atari with Deep Reinforcement Learning[A].NIPS,2013.]一文,在该文中第一次提出深度强化学习这个名称,并且提出DQN(DeepQ-Network)算法,实现从纯图像输入完全通过学习来玩Atari游戏的成果。之后DeepMind在Nature上发表了改进版的DQN文章[5.Volodymyr Mnih,KorayKavukcuoglu,David Silver,Andrei A.Rusu,Joel Veness,Marc G.Bellemare,Alex Graves,MartinRiedmiller,Andreas K.Fidjeland,Georg Ostrovski,Stig Petersen,Charles Beattie,Amir Sadik,IoannisAntonoglou,Helen King,DharshanKumaran,DaanWierstra,Shane Legg&DemisHassabis,Human-level control through deep reinforcement learning.[J]nature.2015.518:529-541.],引起了广泛的关注,深度强化学习从此成为深度学习领域的前沿研究方向。2016年9月,Li Feifei组的最新文章[6.Yuke Zhu,RoozbehMottaghi,EricKolve,Joseph J.Lim,Abhinav Gupta,Li Fei-Fei,and Ali Farhadi.Target-drivenvisual navigation in indoor scenes using deep reinforcement learning.CoRR,abs/1609.05143,2016.]使用深度增强学习实现目标驱动的视觉导航。这篇文章中,作者构建了一个虚拟仿真环境,并且通过在高度仿真的环境中训练,然后迁移到真实场景中。这种方法被证明是有效的。深度强化学习可以用来做视觉导航,但有个缺陷就是训练速度非常慢。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于ELM-LRF的自适应视觉导航方法,大大提高了导航速度。
本发明技术解决方案:一种基于ELM-LRF的自适应视觉导航方法,。该方法分配(st,at,rt,st+1,Qt)结构体数据存储空间;令机器人在选定环境中重复运动,获得所需结构体数据,将状态相同的数据通过删除Q值较小的数据进行预处理。然后以st作为输入,at作为输出完成对ELM-LRF的训练,建立起当前状态和最优动作的映射关系。最后以机器人能否找到目标来测试机器人的导航能力。本发明在该数据空间下利用ELF-LRF模型提出的方法大大提高了机器人的导航速度。其中,st是当前状态,在这里为拍摄到的照片,at是在st下机器人的动作(前后左右运动),rt是at的即时回报,st+1是机器人在at后的状态,Q为长远回报,Qt值为在状态st下执行at后得到的总的长远回报
具体包含如下:
(1)分配存储(st,at,rt,st+1,Qt)的空间;(st,at,rt,st+1,Qt)是结构体存储,st是当前状态,在这里为拍摄到的照片,at是在st下的动作,rt是at的即时回报,st+1是at后的状态,Qt值为在状态st下执行at后得到的总的长远回报;
(2)机器人在环境中运动,得到一组从初始位置到发现目标物的(st,at,rt,st+1,Qt)数据;
(3)机器人重置到初始位置,当在某状态st′下得到的Qt′比之前同状态st得到的Qt大时,删除在st状态下得到的(st,at,rt,st+1,QW)数据,否则删除在st′下得到的(st′,at′,rt′,st+1′,Qt′);重复多次,从而得到较好的当前状态和最优动作的数据,即得到为训练所提供的更好的样本数据;
(4)在步骤(3)的基础上,完成对基于局部接收野的极限学习机神经网络的训练,即ELM-LRF的训练,建立起当前状态和最优动作的映射关系;
(5)根据步骤(4)的建立起当前状态和最优动作的映射关系,测试机器人导航能力,观察机器人是否能找到目标。
所述步骤(4)的具体实现过程如下:
(4.1)计算隐层输出矩阵H
给定的训练集(xi,ti),=1…L,xi为步骤(3)得到的st,ti为步骤(3)得到的at
Figure BDA0001294408650000041
其中,G(ai,bi,x)是一个非线性分段连续函数,实际上是将d维的输入空间映射到L维的隐层随机空间,是一个随机特征映射;ai,bi是第i个隐藏节点的参数,非线性分段连续函数的参数,非线性分段连续函数有很多种,比如sin(ax+b),R代表实数;
(4.2)根据步骤(4.1)中的H,求隐藏层至输出的权重β
ELM-LRF的输出函数
Figure BDA0001294408650000042
其中βL×m=[β1 … βL]T
通过求解
Figure BDA0001294408650000043
来求β,
其中σ1>0,σ2>0,p,q>0,C用于控制两项的重要性,T是训练样例的目标矩阵:
Figure BDA0001294408650000044
当σ1=σ2=p=q=2时,常用的闭式解为:
Figure BDA0001294408650000045
p,q是范数下标,N是矩阵T的行数,L是矩阵β的行数。
本发明与现有技术相比的优点在于:为了探索输入图像数据输出动作的端到端学习,其中在当前状态和最优动作建立联系时选择了ELM-LRF,而不是CNN。与DQN采用的CNN架构不同的是,CNN采用BP训练,这使得DQN面临BP中的琐碎问题,如:局部最优,慢的收敛速度。而ELM-LRF随机生成输入权重并解析地计算输出权重,也就是计算主要是输出权重的计算,从而ELM-LRF更为高效。
因此,传统方法需要设计特征提取器,而借助ELM-LRF神经网络能实现输入图像到输出动作的映射,并且相比于其他类型神经网络,比如卷积神经网络,ELM-LRF训练速度快,所需计算资源也少,本发明通过仿真试验测试大大提高了导航速度,从而很好的提高导航能力。
附图说明
图1为本发明方法的ELM-LRF神经网络架构;
图2为本发明方法的实现流程图。
具体实施方式
下面结合附图和实施例,对本发明的技术方案做进一步的说明。
如图1所示,ELM-LRF神经网络架构如图1所示,ELM-LRF分为ELM特征学习和ELM特征映射两个阶段,首先随机分配输入向量,局部接收野中的像素是随机选取,输入到隐藏层的权重也是随机给出,接下来进行下采样,最后输出。
如图2所示,本发明一种基于ELM-LRF的自适应视觉导航方法,具体实施例的流程如下:
步骤一:分配能存储(st,at,rt,st+1,Qt)结构体的空间。Qt初始化为0,根据当前所处状态st,随机选取运动at(机器人可以向前后左右四个方向运动),机器人在运动at下向相应方向走0.5m,得到新状态st+1与即时回报rt。找到目标物回报为1,其他为0。存储(st,at,rt,st+1,Qt),状态图像信息按64×64灰白图存储。
步骤二:重复步骤一,机器人在环境中不断运动,直到机器人找到目标物停止,这时将得到一组从初始位置到发现目标物的(st,at,rt,st+1,Qt)数据。每组最后的at的即时回报rt是1,Qt值也为1,其他状态下通过式(1)更新Qt的值。
Qt(st,at)=rt+γmaxQ(st+1,at+1) (1)
其中,rt是st即时回报,记找到目标物为1,未找到为0。st+1,at+1为下一个状态与动作,0<γ<1为折扣因子,影响决策时的远视程度。当前的动作会影响后续动作。
步骤三:机器人重置到初始位置,回到步骤一继续循环,当在某状态st′下得到的Qt′比之前同状态st得到的Qt大时,删除在st状态下得到的(st,at,rt,st+1,Qt)数据,否则删除在st′下得到的(st′,at′,rt',st+1′,Qt′),循环N0次来获得大量样本数据。
步骤四:将系统所处状态st做输入,对应Qt的动作at做输出构造样本,at四个方向1,2,3,4用[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1]取代。计算隐层输出矩阵H,根据式(2):计算输出权重β,完成对ELM-LRF的训练,建立起当前状态和最优动作的映射关系。
Figure BDA0001294408650000051
步骤五:将机器人放到新的出发点,测试其导航能力,观察其是否能找到目标。找不到目标可以增加训练次数,增加步骤三中的N0,获得更多样本数据,接着重新训练ELM-LRF神经网络。训练之后继续测试,直到测试结果显示能发现目标,则表示用于导航的ELM-LRF神经网络训练好了。

Claims (2)

1.一种基于ELM-LRF的自适应视觉导航方法,其特征在于:步骤如下:
(1)分配存储(st,at,rt,st+1,Qt)的空间;(st,at,rt,st+1,Qt)是结构体存储,st是当前状态,在这里为拍摄到的照片,at是在st下的动作,rt是at的即时回报,st+1是at后的状态,Qt值为在状态st下执行at后得到的总的长远回报;
(2)机器人在环境中运动,得到一组从初始位置到发现目标物的(st,at,rt,st+1,Qt)数据;
(3)机器人重置到初始位置,当在某状态st′下得到的Qt′比之前同状态st得到的Qt大时,删除在st状态下得到的(st,at,rt,st+1,Qt)数据,否则删除在st′下得到的(st′,at′,rt′,st+1′,Qt′);重复多次,从而得到较好的当前状态和最优动作的数据,即得到为训练ELM-LRF所提供的更好的样本数据;
(4)在步骤(3)的基础上,以st作为输入,at作为输出完成对基于局部接收野的极限学习机神经网络的训练,即ELM-LRF的训练,建立起当前状态和最优动作的映射关系;
(5)根据步骤(4)的建立起当前状态和最优动作的映射关系,测试机器人导航能力,观察机器人是否能找到目标。
2.根据权利要求1所述的基于ELM-LRF的自适应视觉导航方法,其特征在于:所述步骤(4)的具体实现过程如下:
(2.1)计算隐层输出矩阵H
给定的训练集(xi,ti),i=1…L,xi为步骤(3)得到的st,ti为步骤(3)得到的at
Figure FDA0002337193400000011
h1(x)=G(ai,bi,x),ai∈Rd,bi∈R,i=1…L
其中,G(ai,bi,x)是一个非线性分段连续函数,实际上是将d维的输入空间映射到L维的隐层随机空间,是一个随机特征映射;ai,bi是第i个隐藏节点的参数,非线性分段连续函数的参数,R代表实数;
(2.2)根据步骤(2.1)中的H,求隐藏层至输出的权重β,
ELM-LRF的输出函数
Figure FDA0002337193400000021
即映射关系,其中:
βL×m=[β1 … βL]T
通过求解
Figure FDA0002337193400000022
来求β,
其中σ1>0,σ2>0,p,q>0,C用于控制两项的重要性,T是训练样例的目标矩阵:
Figure FDA0002337193400000023
当σ1=σ2=p=q=2时,常用的闭式解为:
Figure FDA0002337193400000024
p,q是范数下标,N是矩阵T的行数,L是矩阵β的行数。
CN201710337967.2A 2017-05-15 2017-05-15 一种基于elm-lrf的自适应视觉导航方法 Active CN107179077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710337967.2A CN107179077B (zh) 2017-05-15 2017-05-15 一种基于elm-lrf的自适应视觉导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710337967.2A CN107179077B (zh) 2017-05-15 2017-05-15 一种基于elm-lrf的自适应视觉导航方法

Publications (2)

Publication Number Publication Date
CN107179077A CN107179077A (zh) 2017-09-19
CN107179077B true CN107179077B (zh) 2020-06-09

Family

ID=59832519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710337967.2A Active CN107179077B (zh) 2017-05-15 2017-05-15 一种基于elm-lrf的自适应视觉导航方法

Country Status (1)

Country Link
CN (1) CN107179077B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038507A (zh) * 2017-12-13 2018-05-15 太原理工大学 基于粒子群优化的局部感受野极限学习机图像分类方法
CN108629422B (zh) * 2018-05-10 2022-02-08 浙江大学 一种基于知识指导-战术感知的智能体学习方法
CN110945542B (zh) * 2018-06-29 2023-05-05 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
CN109190720B (zh) * 2018-07-28 2021-08-06 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN109190638A (zh) * 2018-08-09 2019-01-11 太原理工大学 基于多尺度局部感受野在线顺序极限学习机的分类方法
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN110745136B (zh) * 2019-09-20 2021-05-07 中国科学技术大学 一种驾驶自适应控制方法
CN112560571A (zh) * 2020-10-09 2021-03-26 天津大学 基于卷积神经网络的智能自主视觉导航方法
CN114460943B (zh) * 2022-02-10 2023-07-28 山东大学 服务机器人自适应目标导航方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419055B (zh) * 2008-10-30 2010-08-25 北京航空航天大学 基于视觉的空间目标位姿测量装置和方法
CN102819264B (zh) * 2012-07-30 2015-01-21 山东大学 移动机器人路径规划q学习初始化方法
CN105139072A (zh) * 2015-09-09 2015-12-09 东华大学 应用于非循迹智能小车避障系统的强化学习算法
CN105740644B (zh) * 2016-03-24 2018-04-13 苏州大学 一种基于模型学习的清洁机器人最优目标路径规划方法
CN106094813B (zh) * 2016-05-26 2019-01-18 华南理工大学 基于模型相关强化学习的仿人机器人步态控制方法
CN106548236A (zh) * 2016-10-31 2017-03-29 北京航空航天大学 一种基于多层分类网络的q函数自适应学习方法

Also Published As

Publication number Publication date
CN107179077A (zh) 2017-09-19

Similar Documents

Publication Publication Date Title
CN107179077B (zh) 一种基于elm-lrf的自适应视觉导航方法
US20210390653A1 (en) Learning robotic tasks using one or more neural networks
Oh et al. Control of memory, active perception, and action in minecraft
Yan et al. Learning 6-dof grasping interaction via deep geometry-aware 3d representations
CN106970615B (zh) 一种深度强化学习的实时在线路径规划方法
Liu et al. 3DCNN-DQN-RNN: A deep reinforcement learning framework for semantic parsing of large-scale 3D point clouds
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
CN111666919B (zh) 一种对象识别方法、装置、计算机设备和存储介质
Rao et al. Visual navigation with multiple goals based on deep reinforcement learning
JP2023502860A (ja) 情報処理方法、装置、コンピュータプログラム及び電子装置
Zadaianchuk et al. Self-supervised visual reinforcement learning with object-centric representations
Mo et al. The adobeindoornav dataset: Towards deep reinforcement learning based real-world indoor robot visual navigation
CN113919482A (zh) 智能体训练方法、装置、计算机设备和存储介质
Rao et al. Distributed deep reinforcement learning using tensorflow
Zhou et al. Deep reinforcement learning for autonomous driving by transferring visual features
Xia et al. Weighted densely connected convolutional networks for reinforcement learning
Song et al. Siamese-discriminant deep reinforcement learning for solving jigsaw puzzles with large eroded gaps
Wu et al. Learning and planning with a semantic model
Logacjov et al. Learning then, learning now, and every second in between: lifelong learning with a simulated humanoid robot
Aractingi et al. Improving the generalization of visual navigation policies using invariance regularization
US20220305647A1 (en) Future prediction, using stochastic adversarial based sampling, for robotic control and/or other purpose(s)
Jia et al. Deep learning for object detection and grasping: a survey
Nguyen et al. Vision memory for target object navigation using deep reinforcement learning: An empirical study
Ermolov et al. Temporal Alignment for History Representation in Reinforcement Learning
Gao Sensor fusion and stroke learning in robotic table tennis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant