CN112230649B - 机器学习方法及移动机器人 - Google Patents

机器学习方法及移动机器人 Download PDF

Info

Publication number
CN112230649B
CN112230649B CN202010585979.9A CN202010585979A CN112230649B CN 112230649 B CN112230649 B CN 112230649B CN 202010585979 A CN202010585979 A CN 202010585979A CN 112230649 B CN112230649 B CN 112230649B
Authority
CN
China
Prior art keywords
obstacle
mobile robot
path
learning
destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010585979.9A
Other languages
English (en)
Other versions
CN112230649A (zh
Inventor
高桥太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN112230649A publication Critical patent/CN112230649A/zh
Application granted granted Critical
Publication of CN112230649B publication Critical patent/CN112230649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0234Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons
    • G05D1/0236Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/28Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network with correlation of data from several navigational instruments
    • G01C21/30Map- or contour-matching
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0219Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory ensuring the processing of the whole working surface
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0259Control of position or course in two dimensions specially adapted to land vehicles using magnetic or electromagnetic means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • G05D1/0274Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Electromagnetism (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Optics & Photonics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Robotics (AREA)
  • Multimedia (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Instructional Devices (AREA)
  • Manipulator (AREA)

Abstract

本发明提供机器学习方法及移动机器人。用于使计算机发挥功能以基于被提供的地图信息和检测出的移动体信息而输出至目的地为止的移动机器人的路径的神经网络的机器学习方法使用通过重复执行以下步骤而积累的教师数据进行学习,上述步骤包括:第一配置步骤,在假想空间中配置静止的第一障碍物和进行动作的第二障碍物;第二配置步骤,在假想空间中配置移动机器人的当前所在地和目的地;动作步骤,使第二障碍物根据预先设定的条件而动作;及接受步骤,从使用者接受使上述移动机器人避开静止的第一障碍物和动作的第二障碍物而从当前所在地朝向目的地的移动路径的指定。

Description

机器学习方法及移动机器人
技术领域
本发明涉及机器学习方法及移动机器人。
背景技术
公知有自主移动至目标地点的移动机器人。移动机器人使用环境地图决定至目标地点为止的路径,并沿着该路径移动。例如,日本特开2009-291540号公报公开对在移动路径中与障碍物碰撞的可能性进行评价的技术。另外,日本特开2017-204145号公报公开一种技术,其生成表示本车辆避开环境信息所表示的障碍物而行驶的推斥力及表示本车辆以根据上述环境信息而被引导的方式行驶的感应力的力映射,并基于上述生成的力映射,计划本车辆的行驶路径。
在移动机器人自主移动至目的地的情况下,解析地图信息而生成移动路径的情况较多。但是,地图信息不包括例如人、其他移动机器人等在环境内进行动作的障碍物的信息,只不过描述有静止的障碍物的信息。因此,也需要在沿着所生成的移动路径移动的情况下每当检测出进行动作的障碍物时解析地生成避开该障碍物的避开路径。即,由于移动路径的生成和避开路径的生成均解析地进行,所以运算耗费时间,限制移动机器人的移动性能。
发明内容
本发明是为了解决这样的问题而完成的,提供用于实现移动机器人的平滑的自主移动的实用的神经网络的机器学习方法和利用通过该机器学习方法进行了学习的学习完毕神经网络而自主移动的移动机器人。
本发明的第一方式的机器学习方法是用于使计算机以基于被提供的地图信息和检测出的移动体信息而输出至目的地为止的移动机器人的路径的方式发挥功能的神经网络的机器学习方法,且使用通过重复执行以下步骤而积累的教师数据进行学习,上述步骤包括:第一配置步骤,在假想空间中配置静止的第一障碍物和进行动作的第二障碍物;第二配置步骤,在假想空间中配置移动机器人的当前所在地和目的地;动作步骤,使第二障碍物根据预先设定的条件而动作;及接受步骤,从使用者接受使上述移动机器人避开静止的第一障碍物和进行动作的第二障碍物而从当前所在地朝向目的地的移动路径的指定。
若像这样在仿真中通过使用者的指定给予移动路径,则与使用实际的移动机器人作成相比能够积累更多的教师数据。即,能够生成用于实现移动机器人的平滑的自主移动的实用的神经网络。
在上述的接受步骤中,当在使用者指定的移动路径行进的移动机器人与第一障碍物交叉的情况下,以使移动机器人不与第一障碍物交叉的方式修正移动路径。若这样构成,则使用者能够粗略地指定移动路径,因此能够以短期间积累教师数据。另外,当在使用者指定的移动路径行进的移动机器人与第二障碍物接触的情况下,再次接受由使用者进行的上述移动路径的指定。第二障碍物是进行动作的障碍物,因此由使用者给予恰当的避开路径更适于教师数据。
也可以是,在上述的第二配置步骤与动作步骤之间具有如下的生成步骤:生成从当前所在地至目的地为止避开了第一障碍物的临时移动路径,在动作步骤中,使第二障碍物动作,并且使移动机器人从当前所在地沿着临时移动路径根据预先设定的条件而移动。若从当前所在地避开静止的第一障碍物而到达至目的地的移动路径通过其他算法等生成,则进行避开进行动作的第二障碍物的路径生成的学习即可,因此能够通过更少的教师数据进行机器学习。
本发明的第二方式的移动机器人是安装有通过上述的机器学习方法进行了学习的学习完毕神经网络的移动机器人,且具备:获取部,获取描述有第一障碍物的地图信息及目的地;检测部,检测在周围进行动作的第二障碍物;运算部,将获取部获取到的地图信息及目的地和检测部检测出的第二障碍物的检测信息输入到学习完毕神经网络并运算到达至目的地的路径;及移动控制部,以沿着运算部运算出的路径移动的方式进行控制。这样控制的移动机器人能够迅速决定应该移动的路径,因此能够进行平滑的自主移动。
根据本发明,能够提供用于实现移动机器人的平滑的自主移动的实用的神经网络的机器学习方法和利用通过该机器学习方法进行了学习的学习完毕神经网络而进行自主移动的移动机器人。
根据下文给出的详细记载和附图,可更加充分地理解本公开内容的上述和其他目的、特征和优点,上述详细记载和附图仅通过说明的方式给出,因此不应视为限制本公开内容。
附图说明
图1是用于对进行本实施方式所涉及的机器学习方法的系统的整体进行说明的概念图。
图2是表示移动机器人的外观的立体图。
图3是移动机器人的控制框图。
图4是仿真PC的控制框图。
图5是对描述对象空间的数据结构进行说明的概念图。
图6是对第一学习步骤中的教师数据的生成进行说明的说明图。
图7是对第一学习步骤的学习的概念进行说明的概念图。
图8是表示第二学习步骤中的学习的状况的概念图。
图9A是对第二学习步骤中的教师数据的生成进行说明的说明图。
图9B是对第二学习步骤中的教师数据的生成进行说明的说明图。
图9C是对第二学习步骤中的教师数据的生成进行说明的说明图。
图10是对第二学习步骤的学习的概念进行说明的概念图。
图11是主要对本实施方式所涉及的机器学习方法中的第一学习步骤的处理进行说明的流程图。
图12是主要对本实施方式所涉及的机器学习方法中的第二学习步骤的处理进行说明的流程图。
图13是对安装有本实施方式所涉及的学习完毕神经网络的移动机器人的自主移动处理进行说明的流程图。
图14是对其他例子的教师数据的生成进行说明的说明图。
具体实施方式
以下,虽通过发明的实施方式对本发明进行说明,但权利要求书所涉及的发明不限定于以下的实施方式。另外,不局限于实施方式所说明的结构全部必需作为用于解决课题的单元。
图1是用于对进行本实施方式所涉及的机器学习方法的系统的整体进行说明的概念图。系统作为整体,作为进行神经网络的机器学习的机器学习装置发挥功能。本实施方式中进行机器学习的神经网络是以若输入被提供的地图信息和检测出的移动体信息等则输出直至移动机器人应该移动的目的地为止的路径的方式使计算机发挥功能的路径生成神经网络(以下,称为路径生成NN)。
系统包括进行直至路径生成NN的第一学习步骤为止的仿真PC300和进行其后的第二学习步骤的移动机器人100。移动机器人100经由无线单元700而与因特网600连接。另外,仿真PC300及系统服务器500也与因特网600连接。
此处,假定进行第一学习步骤的环境与进行第二学习步骤的环境是分离的场所且为可经由因特网600而相互连接的环境。具体而言,通过仿真PC学习至第一学习步骤为止的路径生成NN经由系统服务器500而向移动机器人100安装。此外,也可以构成为不经由因特网600而利用能够拆装的存储器将路径生成NN从仿真PC300向移动机器人100转移。另外,若进行第一学习步骤的环境与进行第二学习步骤的环境接近,则也能够利用近距离无线通信。
优选进行第二学习步骤的环境为移动机器人100实际运用的环境或者与其接近的环境。例如,在预定将多个移动机器人100分别在各个环境中运用的情况下,首先,通过仿真PC300一并使路径生成NN进行第一学习步骤的学习。而且,向各移动机器人100安装该路径生成NN,并在各自运用的环境中进行第二学习步骤的学习较佳。
图2是表示安装有路径生成NN的移动机器人的一个例子亦即移动机器人100的外观的立体图。移动机器人100大致分为由台车部110和主体部120构成。台车部110在圆筒形状的壳体内,分别支承接地于行驶面的两个驱动轮111和一个小轮112。两个驱动轮111配设为旋转轴芯相互一致。各个驱动轮111通过未图示的马达而独立地旋转驱动。小轮112是从动轮,且设置为从台车部110沿铅垂方向延伸的回旋轴离开车轮的旋转轴而轴支承车轮,并以跟随台车部110的移动方向的方式追随。
台车部110在上表面的周缘部具备激光扫描仪133。激光扫描仪133按每个步距角扫描水平面内的一定的范围,并输出在各个方向上是否存在障碍物。并且,当存在障碍物的情况下,输出直至该障碍物为止的距离。移动机器人100通过对激光扫描仪133的连续的输出进行解析,从而能够掌握障碍物是否正在动作,当正在动作的情况下能够掌握该动作方向及其速度。
主体部120主要具备搭载于台车部110的上表面的躯干部121、载置于躯干部121的上表面的头部122、被支承于躯干部121的侧面的臂123及设置于臂123的前端部的手124。臂123和手124经由未图示的马达而被驱动,并以被控制的姿势把持各种物体。躯干部121通过未图示的马达的驱动力,能够相对于台车部110绕铅垂轴旋转。在躯干部121的上部,沿圆周方向设置有按压单元143。按压单元143是多个按压开关沿着圆周方向整齐排列的圆环状的按压开关组。按压单元143检测从放射方向的哪个方向对躯干部121按压。
头部122主要具备立体相机131、麦克风132及显示面板141。立体相机131具备具有相同的视角的两个相机单元相互分离配置的结构,并输出通过各个相机单元拍摄到的拍摄信号。麦克风132将周边环境中产生的声音、使用者的声音转换为声音信号。显示面板141例如是液晶面板,通过动画显示所设定的人物的面部,或者通过文本、图标显示与移动机器人100相关的信息。
头部122通过未图示的马达的驱动力,能够相对于躯干部121绕铅垂轴旋转。因此,立体相机131能够拍摄任意方向的对象物,另外,显示面板141能够朝向任意方向示出显示内容。移动机器人100通过对由立体相机131拍摄到的拍摄信号进行解析,也能够掌握从移动机器人100至周围的障碍物为止的距离、周围的障碍物所存在的方向、障碍物进行动作的情况下的其动作方向及其速度。
图3是移动机器人100的控制框图。控制部150例如是CPU,例如存储于躯干部121所具备的控制单元。台车驱动单元145包括驱动轮111和用于驱动驱动轮111的驱动电路、马达。控制部150通过向台车驱动单元145发送驱动信号,从而执行驱动轮的旋转控制。另外,控制部150从台车驱动单元145接受编码器等的反馈信号而掌握台车部110的移动方向、移动速度。
上体驱动单元146包括包含臂123及手124的把持部、躯干部121及头部122、用于驱动这些的驱动电路、马达。控制部150通过向上体驱动单元146发送驱动信号,从而实现把持动作、姿势变更。另外,控制部150从上体驱动单元146接受编码器等的反馈信号而掌握臂123及手124的位置、移动速度、躯干部121及头部122的朝向、旋转速度。
显示面板141接收控制部150所生成的图像信号并进行显示。如上述那样,控制部150生成人物等的图像信号而向显示面板141显示。在显示面板141具备触摸面板的情况下,显示面板141将触摸信号向控制部150发送。
立体相机131根据来自控制部150的请求,拍摄周边环境,并将拍摄信号向控制部150交接。控制部150使用拍摄信号执行图像处理。麦克风132将周边环境所产生的声音、使用者的声音转换为声音信号而向控制部150交接。激光扫描仪133根据来自控制部150的请求检测在移动方向上是否存在障碍物,并将作为该结果的检测信号向控制部150交接。立体相机131及激光扫描仪133也承担作为对在移动机器人100的周围进行动作的障碍物进行检测的检测部的功能。
存储器180是非易失性的存储介质,例如使用固态硬盘。存储器180除了用于控制移动机器人100的控制程序、用于执行第二学习步骤的机器学习程序之外,还存储用于控制、运算的各种参数值、函数、检查表等。存储器180特别包括描述有预定进行自主移动的空间的地图信息的数据库亦即地图DB181和学习期间或学习完毕的路径生成NN200的存储区域。
地图DB181积累例如从系统服务器500发送来的地图信息。控制部150从地图DB181读出移动机器人100所存在的地图信息并进行参照。当开始第二学习步骤的机器学习时,如上述那样从系统服务器500发送路径生成NN200。或者,也可以是在移动机器人100的运用阶段中通过其他的移动机器人100在相同环境中进行了第二学习步骤的机器学习的学习完毕的路径生成NN的复制品。控制部150当在学习阶段中进行第二学习步骤的机器学习的情况下及当在运用阶段中决定直至目的地为止的路径的情况下,从存储器380读出路径生成NN200并进行后述的运算。
按压单元143输出表示按压了以圆环状配置的多个按压开关中的哪个开关的按压信号。控制部150根据接受到的按压信号,识别按压单元143从放射方向的哪个方向被按压。通信单元190例如是无线LAN单元,且在与无线单元700之间进行无线通信。通信单元190将从系统服务器500输送来的地图信息、路径生成NN200向控制部150交接。
控制部150通过执行从存储器180读出的控制程序、机器学习程序而执行移动机器人100整体的控制和处理。控制部150也承担作为执行与控制和处理相关的各种运算的功能运算部的作用。学习部151及运算部152是功能运算部的例子。学习部151从存储器380读出学习期间的路径生成NN200,执行第二学习步骤的机器学习。运算部152从存储器380读出学习完毕的路径生成NN200,运算到达至目的地为止的路径。
图4是仿真PC300的控制框图。运算部350例如是CPU,并对仿真PC300的整体进行控制。显示器341例如是液晶面板,且显示运算部350生成的图像信号。输入单元342例如是重叠于显示器341的触摸面板、键盘、鼠标,且将使用者的操作输入转换为电信号而向运算部350交接。
存储器380是非易失性的存储介质,例如使用固态硬盘。存储器380除了用于控制移动机器人100的控制程序、用于执行第一学习步骤的机器学习程序之外,还存储用于控制、运算的各种参数值、函数、检查表等。存储器380特别包括学习期间或学习前的路径生成NN200的存储区域。运算部350从存储器380读出学习期间或者学习前的路径生成NN200而执行第一学习步骤的机器学习。
通信单元390例如是有线LAN单元,且实现向因特网600的连接。通信单元390将结束了第一学习步骤的学习的路径生成NN200向系统服务器500交接。
接下来,对地图信息进行说明。地图信息包括描述对象空间的状况的数据结构。图5是对描述对象空间的数据结构进行说明的概念图。
移动机器人100所移动的对象空间作为移动机器人所移动的移动平面,区分为多个单元而二维地表现。在图的例子中,移动平面由横m个(m是2以上的自然数)、纵n个(n是2以上的自然数)正方单元来区分。各单元被单独地分配表示相对于移动平面的整体的位置的地址。
在图的例子中,由斜线表示的单元表示在对象空间中存在静止的障碍物(以下有时称为第一障碍物)。即,移动机器人100无法经过由斜线表示的单元。另外,在移动期间也不允许移动机器人100的一部分与由斜线表示的单元干涉。例如,放置于房间的中央附近的桌子、设置于墙边的架子、房间的四方的柱等作为第一障碍物,与其位置和大小匹配地对应的单元成为斜线。
相对于由这样的数据结构表现的对象空间的移动平面,给予移动机器人的出发地(菱形的标记)和目的地(星形的标记)。考虑移动机器人(在本实施方式中移动机器人100)所占有的移动平面上的面积,来决定表示出发地的菱形的标记的大小。即,能够将处于出发地的菱形的标记以不使其外形陷入斜线的单元的方式扫描至星形的标记的位置为止的所有路径成为移动路径的候选。这样的移动路径的候选中的哪个路径最佳由使用者决定并输入。此外,此处的使用者是利用使用了本机器学习的方法的系统而提供学习数据的人,可以是实际使用移动机器人100的人,也可以是不实际使用移动机器人100的辅助者。
每当使用者重复该作业时,生成用于路径生成NN200的第一学习步骤的教师数据。即,用于第一学习步骤的教师数据是将在区分为m×n个单元的移动平面配置的第一障碍物的布局和所设定的出发地及目的地作为输入值、并使由使用者决定的移动路径作为正解的输出值的数据。
图6是对第一学习步骤的教师数据的生成具体地进行说明的说明图,且表示仿真PC300的显示器341的状况。
运算部350相对于区分为m×n个单元的移动平面随机配置第一障碍物。此时,也可以是,配置的第一障碍物假定可现实存在的障碍物并预先限制其大小、个数。例如,在对象空间为办公室时,能够假定桌子、柜子等障碍物,在为工厂内时,能够假定机床、搬运装置等障碍物。运算部350在移动平面的框内通过斜线描绘并显示第一障碍物。
运算部350还随机决定出发地和目的地的位置而显示菱形的标记(出发地)和星形的标记(目的地)。出发地从没有配置有第一障碍物的单元选择而决定,目的地从没有配置有第一障碍物的单元及第一障碍物的周缘部的单元选择而决定。如上述那样,菱形的标记大小与安装有路径生成NN200的移动机器人的面积对应地决定。此外,移动平面的大小、第一障碍物的限制、移动机器人的大小等基础条件预先由使用者指定。
作为输入单元342,在显示器341重叠有触摸面板。使用者若如图示那样被催促“请输入从出发地至目的地为止的路径”等,则将菱形的标记在显示器341上拖动而移动至星形的标记。通过拖动而生成的轨迹作为线而显示。运算部350在决定按钮被触摸后,将该轨迹记录为由使用者决定的移动路径的正解。此外,运算部350当在拖动期间菱形的标记与由斜线表示的第一障碍物接触了的情况下,向使用者请求重试。
运算部350将这样生成的第一障碍物的布局、出发地、目的地及正解的移动路径的一套组合为一个教师数据并记录于存储器380。运算部350令使用者重复该作业,至预先决定的数量的教师数据齐备为止,或者至使用者指示终止为止。
图7是对第一学习步骤中的路径生成NN200使用教师数据进行学习的学习的概念进行说明的图。在重复图6所示的作业而备齐了教师数据后,使路径生成NN200通过有教师学习而学习。此处,给予路径生成NN200的输入值如上述那样是在被区分为m×n个单元的移动平面配置的第一障碍物的布局和所设定的出发地及目的地,且不存在进行动作的障碍物。运算部350对学习期间的路径生成NN200所输出的移动路径和正解的移动路径之间的误差进行评价,并使用误差反向传播法更新各边缘的权重,以减少该误差。误差的评价例如通过在出发地与目的地之间以等间隔设置的基准点彼此的距离的总和来进行,该总和越小则评价为越接近正解的移动路径。
在上述的例子中,备齐一定数量的教师数据后集中进行了路径生成NN200的学习,但运算部350也可以每当生成教师数据时进行路径生成NN200的学习。结束了第一学习步骤的路径生成NN200如上述那样经由因特网600而安装于移动机器人100。
图8是表示第二学习步骤中的学习的状况的概念图。进行第二学习步骤的环境优选如上述那样为移动机器人100实际运用的环境或者与其接近的环境。即,第二学习步骤是与移动机器人100的将来的运用匹配地学习针对在实际的环境或者类似的环境中可现实产生的进行动作的障碍物(以下有时称为第二障碍物)的处理的步骤。此外,进行第二学习步骤的使用者也可以与进行了第一学习步骤的使用者不同。另外,也可以由处于移动机器人100的附近的人进行,也可以由离开移动机器人100的人进行。
移动机器人100获取进行第二学习步骤的空间的地图信息。即,地图DB181具有在被区分为m×n个单元的移动平面描述有实际配置的桌子、柱等第一障碍物的地图信息。例如,图示的桌子900作为第一障碍物而描述于地图信息。
学习部151设定为将当前所在地作为出发地,将从没有配置有第一障碍物的单元及第一障碍物的周缘部的单元随机选择出的单元作为目的地。而且,使用路径生成NN200生成直至目的地为止的移动路径。在生成了移动路径后,向台车驱动单元145发送驱动信号,并使移动机器人100沿着该移动路径移动。
例如,在目的地是与图中的容器910的附近对应的单元的情况下,若没有描述于地图信息的第二障碍物不存在于环境中,则移动机器人100向沿着路径生成NN200所决定的移动路径的虚线的空心箭头方向行进。但是,在通过立体相机131或者激光扫描仪133检测出在移动方向上进行动作的共存者的情况下,学习部151将该主旨向作为指示者的使用者通知并请求应该行进的方向的指示。此外,共存者是可在移动机器人100移动的环境中并存的人物,且根据移动机器人100而为第二障碍物中的一个。
使用者在识别出状况后,为了防止移动机器人100与第二障碍物接触而向移动机器人100示出应该避开的方向。此处,使用者通过朝向应该避开的方向按压按压单元143,从而向移动机器人100示出该方向。学习部151获取按压单元143被按压的方向,例如实线的空心箭头所示那样,识别应该避开的方向。学习部151基于识别出的避开方向,计算避开第二障碍物而到达目的地的移动路径。
可以说使用者通过像这样将按压单元143向避开方向按压,从而示出直接或者间接地到达目的地为止的移动路径的至少一部分。由使用者进行的移动路径的至少一部分的示出方法不局限于按压单元143的按压,可采用各种方法。例如,学习部151也能够根据立体相机131的输出图像对使用者所示的动作进行解析并识别其方向。作为一个例子,学习部151将使用者手指所指的方向、手势所示的方向识别为避开方向。或者,学习部151也能够根据麦克风132所输出的语音信号对使用者发出的声音进行解析而识别其方向。作为一个例子,学习部151根据“向右转45度”等声音而识别避开方向。
另外,在移动机器人100具备能够检测按压力及其方向的把手那样的情况下,学习部151也能够对使用者把持该把手而施加于移动机器人100的力及其方向进行解析而识别避开方向。在具备这样的把手而持续检测使用者的按压方向的情况下、持续解析声音、手势的情况下,学习部151不仅只是识别避开方向,还能够识别出由使用者示出的避开路径。
第二障碍物不局限于可并存于环境中的人物,其他移动机器人、屋内移动体、机器人臂、根据环境而动物等也可成为对象。即,移动机器人100能够与将来运用的环境中应该识别的第二障碍物匹配地执行第二学习步骤。
图9是对第二学习步骤的教师数据的生成进行说明的说明图。图9A通过粗线表示从由结束了第一学习步骤的路径生成NN200生成的出发地至目的地为止的移动路径。如上述那样,出发地由菱形的标记表示,目的地由星形的标记表示。在该阶段中,不考虑第二障碍物。
图9B表示移动机器人100对由双圈标记示出的第二障碍物进行了识别的时刻的状况。虚线的路径是已经结束了移动的路径。双圈标记重叠于与第二障碍物所存在的位置对应的单元而描绘。黑箭头表示第二障碍物的动作矢量,并表现出移动机器人100识别出的时刻的第二障碍物的动作方向及其速度。即,学习部151在检测到第二障碍物的情况下,对与本机之间的相对位置、动作方向及动作速度进行识别。
空心箭头表示由使用者示出的避开方向。学习部151使用现有的算法生成与由使用者示出的避开方向一致的避开路径。避开路径是从发现了第二障碍物的发现地点使移动机器人100避开该第二障碍物而迅速且顺利地恢复至图9A的移动路径的路径。图9C是将这样生成的避开路径和恢复后的原来的移动路径连接的移动路径。
学习部151将从识别出图9C的粗线所示的第二障碍物的识别地点至目的地为止的移动路径作为在以图9B的粗线所示的原来的移动路径、机器人与第二障碍物的相对位置、动作方向及其动作速度作为输入值的情况下的正解而记录于存储器180。即,将相对于这样的输入值的正解的一套组合记录为一个教师数据。此外,图9B的粗线所示的原来的移动路径是从发现出第二障碍物的地点至目的地为止的移动路径。学习部151令使用者重复进行该作业直至预先决定的数量的教师数据齐备为止,或者使用者指示终止为止。
图10是对第二学习步骤中的路径生成NN200使用教师数据进行学习的学习的概念进行说明的概念图。重复图9所示的作业而准备好了教师数据后,使路径生成NN200通过有教师学习进行学习。
正解标签是如上述那样将避开第二障碍物的避开路径与恢复后的原来的移动路径连接的移动路径,但根据第二障碍物的状况,也可以是不恢复至原来的移动路径而到达目的地的移动路径。学习部151对学习期间的路径生成NN200所输出的移动路径与正解的移动路径之间的误差进行评价,以使该误差减少的方式使用误差反向传播法更新各边缘的权重。误差的评价例如通过在识别地点与目的地之间以等间隔设置的基准点彼此的距离的总和来进行,该总和越小则评价为越接近正解的移动路径。
在上述的例子中,备齐一定数量的教师数据后集中进行了路径生成NN200的学习,但学习部151也可以每当生成教师数据时进行路径生成NN200的学习。结束了第二学习步骤的路径生成NN200供当前执行了第二学习步骤的移动机器人100运用。或者,调用至在相同的环境中自主移动的移动机器人而运用。
接下来,使用流程对本实施方式所涉及的机器学习方法的处理进行说明。图11是对本实施方式所涉及的机器学习方法中的主要第一学习步骤的处理进行说明的流程图。第一学习步骤如上述那样通过仿真PC300进行。此处,对每当获得教师数据时进行路径生成NN200的学习的方法进行说明。
仿真PC300的运算部350在步骤S101中假定将要进行学习的路径生成NN200学习后安装的预定的移动机器人的移动空间,并进行与该空间相关的设定。具体而言,为了定义移动平面的大小而根据使用者的指定来设定一个单元的大小、m×n的单元的区分数。而且,生成未学习的路径生成NN200。另外,在该阶段中,运算部350也可以接受第一障碍物的大小、个数的限制、移动机器人的大小等基础条件。在接受了基础条件的情况下,用作后面的处理中的处理条件。
运算部350在步骤S102中相对于所设定的移动平面随机生成静止障碍物、出发地、目的地。而且,转换为图6所示那样的影像信号而显示于显示器341。进入步骤S103,运算部350接受使用者所指定的正解的移动路径。例如,将使用者操作输入单元342而将显示于出发地的菱形的标记拖动至目的地的星形的标记的轨迹获取为正解的移动路径。此时,运算部350也可以通过例如样条内插等处理而修正为平滑的曲线。另外,只要是相对于作为基础条件而输入的移动机器人的条件而无法移动的轨迹,则也可以催促再次的输入。
进入步骤S104,运算部350将通过步骤S102和步骤S104生成的教师数据给予学习期间的路径生成NN200而执行上述的学习运算。而且,进入步骤S105,对通过基于该教师数据的学习运算而目前为止执行的学习运算的次数是否实现了预定的重复次数进行确认。即,对是否结束了预先决定的教师数据数的学习进行确认。若没有结束,则返回步骤S102并重复一系列的处理。若结束则进入步骤S106。
运算部350在步骤S106中,将结束了第一学习步骤的路径生成NN200经由通信单元190而向移动机器人100交接。结束了第一学习步骤的路径生成NN200具有以下能力,即,若输入配置于移动平面的第一障碍物的布局和所设定的出发地及目的地,则输出避开了第一障碍物的移动路径。移动机器人100的控制部150将该路径生成NN200装入存储器180,并安装为能够由用于执行第二学习步骤的机器学习程序利用。
若结束了第一学习步骤的路径生成NN200的安装结束,则通过移动机器人100进行第二学习步骤。图12是对本实施方式所涉及的机器学习方法中的主要第二学习步骤的处理进行说明的流程图。此处,对每当获得教师数据时进行路径生成NN200的学习的方法进行说明。
学习部在步骤S107中获取移动机器人100将要进行第二学习步骤的空间的地图信息。此处获取的地图信息与步骤S101中设定的空间对应。即,进行第二学习步骤的空间的移动平面是与第一学习步骤中进行了学习的移动平面相同的大小,获取的地图信息具有使用图5进行了说明的数据结构。此外,在获取到采用其他表现形式的地图信息的情况下,控制部150进行数据转换而使数据结构一致。另外,在成为对象的移动平面的大小彼此不同的多个路径生成NN200存在于存储器180的情况下,选择与将要进行第二学习步骤的空间的移动平面对应的路径生成NN200。
学习部151在步骤S108中获取移动机器人100的当前所在地。即,学习部151相对于步骤S107中获取到的地图信息识别移动机器人100存在于何处。例如,将根据由立体相机131获取到的图像进行了解析后的周围的环境和地图信息进行比较而识别移动机器人100的当前所在地。
接着,学习部151在步骤S109中,相对于获取到的地图信息而将从没有配置有第一障碍物的单元及第一障碍物的周缘部的单元随机选择出的单元设定为目的地。然后,进入步骤S110,学习部151使用路径生成NN200生成至目的地为止的移动路径。此外,该阶段中的针对路径生成NN200的输入值是获取到的地图信息所示的第一障碍物的布局和出发地(当前所在地)及目的地,且不给予与第二障碍物相关的信息。在生成了移动路径后,向台车驱动单元145发送驱动信号,使移动机器人100沿着该移动路径移动。
学习部151在移动期间监视进行动作的障碍物亦即第二障碍物是否存在于周围。具体而言,周期性地解析立体相机131的图像、激光扫描仪133的输出信号而检测存在于周围的第二障碍物。在步骤S111中,若判断为没有检测出第二障碍物则进入步骤S115,若判断为检测出第二障碍物则进入步骤S112。
学习部151若进入步骤S112,则如使用图8说明的那样,从使用者接受作为相对于检测出的第二障碍物的正解的避开路径或者避开方向。而且,在步骤S113中,如使用图9进行了说明的那样,修正至目的地为止的移动路径。学习部151将这样修正后的移动路径作为在以原来的移动路径、第二障碍物的相对位置、动作方向及其动作速度作为输入值的情况下的正解,备齐教师数据。备齐了教师数据后进入步骤S114,使路径生成NN200通过有教师学习而进行学习。结束了基于该教师数据的学习后,进入步骤S115。
若进入步骤S115,则学习部151判断移动机器人100是否到达步骤S109中设定的目的地。若判断为没有到达,则返回步骤S111,继续至目的地为止的移动。若判断为到达,则进入步骤S116。若进入步骤S116,则学习部151对目前为止所执行的步骤S114的学习运算的次数是否实现了所预定的重复次数进行确认。即,对是否结束了预先决定的教师数据数的学习进行确认。若没有结束,则返回步骤S108而重复一系列的处理。若结束则结束第二学习步骤。
接下来,对这样学习后的学习完毕的路径生成NN200在移动机器人100中被怎样利用进行说明。图13是对安装有学习完毕的路径生成NN200的移动机器人100的自主移动处理进行说明的流程图。
移动机器人100的控制部150在步骤S201中获取将要进行自主移动的空间的地图信息。获取的地图信息与第二学习步骤的步骤S107中获取到的地图信息相同,是描述有第一障碍物的地图信息,若能够直接利用步骤S107中获取到的地图信息,则也可以跳过步骤S201。进入步骤S202,控制部150与第二学习步骤的步骤S108相同地获取当前所在地。进入步骤S203,控制部150获取目的地。具体而言,从使用者接受目的地的输入,或者为了执行被给予的任务而从该任务提取应该移动的地点而决定为目的地。此外,从服务器500向地图DB181装入地图信息时的通信单元190与控制部150配合地作为获取地图信息的获取部发挥功能。另外,使用者输入目的地的情况下、输入任务的情况下的输入单元与控制部150配合地作为获取目的地的获取部发挥功能。
若进入步骤S204,则控制部150从存储器180读出学习完毕的路径生成NN200。而且,运算部152使用所读出的路径生成NN200生成至目的地为止的移动路径。此外,该阶段中的向路径生成NN200的输入值是获取到的地图信息所示的第一障碍物的布局和出发地(当前所在地)及目的地,且不给予与第二障碍物相关的信息。但是,在移动开始前已经检测出第二障碍物的情况下,也可以将该第二障碍物的相对位置、动作方向及其动作速度加入到输入值。在运算部152生成了移动路径后,控制部150向台车驱动单元145发送驱动信号,并使移动机器人100沿着该移动路径移动。
控制部150在移动期间,监视进行动作的障碍物亦即第二障碍物是否存在于周围。具体而言,周期性地解析立体相机131的图像、激光扫描仪133的输出信号而检测存在于周围的第二障碍物。在步骤S205中,若判断为没有检测出第二障碍物则进入步骤S207,若判断为检测出第二障碍物则进入步骤S206。
若进入步骤S206,则运算部152再次使用路径生成NN200而更新至目的地为止的移动路径。此时的输入值是原来的移动路径、检测出的第二障碍物的相对位置、动作方向及其动作速度。在更新了移动路径后,控制部150向台车驱动单元145发送驱动信号,使移动机器人100沿着更新后的移动路径移动。
若进入步骤S207,则控制部150判断移动机器人100是否到达步骤S203中获取到的目的地。若判断为没有到达,则返回步骤S205,继续至目的地为止的移动。若判断为到达,则结束一系列的移动处理。
此外,在上述的流程中,每当在步骤S205中检测出第二障碍物时则在步骤S206中进行路径的更新,但在判断为检测出的第二障碍物不会对沿着原来的移动路径的移动给予影响的情况下,也可以不进行路径的更新。例如,在第二障碍物向远离移动机器人100的移动路径的方向进行动作的情况下,不进行路径的更新。
在以上说明的本实施方式中,在第二学习步骤中,通过对在现实的环境下进行动作的障碍物(第二障碍物)进行检测,从而生成相对于第二障碍物的教师数据,但也可以包含相对于假想的第二障碍物的教师数据。例如,学习部151使以与检测出现实的第二障碍物时获取到的该第二障碍物的动作速度相同的速度进行动作的假想的第二障碍物在各种相对位置沿各种动作方向产生。学习部151将这样的假想的第二障碍物作为与现实的第二障碍物相同地识别出的障碍物而进行处理。而且,学习部151通过CG使该假想的第二障碍物例如显示于显示面板141。使用者对显示于显示面板141的基于CG的第二障碍物进行确认,并将避开该障碍物的避开路径或者避开方向给予移动机器人100。这样,若相对于假想的第二障碍物也生成教师数据,则能够提高路径生成NN200的学习效果。
而且,第二学习步骤也能够通过与第一学习步骤统一地利用仿真执行整个行程,从而生成更多的教师数据。图14是对通过仿真执行整个行程的情况下的教师数据的生成进行说明的说明图。在这种情况下的仿真与使用图6进行了说明的第一学习步骤中的教师数据的生成相同,通过仿真PC300执行。
运算部350相对于区分为m×n个单元的假想空间的移动平面随机配置第一障碍物和第二障碍物(第一配置步骤)。图中,由斜线表示第一障碍物,由双圈标记表示第二障碍物。运算部350还随机决定出发地和目的地的位置而显示菱形的标记(出发地)和星形的标记(目的地)(第二配置步骤)。第一障碍物及第二障碍物的配置个数也可以是一个,也可以是多个。出发地是初始状态下的移动机器人的当前所在地。与使用图6进行了说明的第一学习步骤的情况相同,出发地从没有配置有第一障碍物的单元选择来决定,目的地从没有配置有第一障碍物的单元及第一障碍物的周缘部的单元选择来决定。这样,第一障碍物、第二障碍物、出发地、目的地也可以随机决定,也可以基于预先或者动态设定的概率、算法而决定。
运算部350与仿真的开始一起根据预先设定的条件而使第二障碍物动作(动作步骤)。假定可现实地存在于实际运用移动机器人的空间的障碍物而预先设定第二障碍物的动作方向、动作速度。图中示意性地利用箭头示出第二障碍物的动作方向,但在仿真中双圈标记以所设定的速度沿箭头方向移动。
运算部350从使用者接受移动机器人避开第一障碍物和第二障碍物而从出发地朝向目的地的移动路径的指定(接受步骤)。具体而言,若仿真开始而第二障碍物开始动作,则对使用者如图示那样催促“请输入从出发地至目的地为止的路径”等,以不与静止的第一障碍物及进行动作的第二障碍物接触的方式将菱形的标记在显示器341上拖动而移动至星形的标记。使用者在第二障碍物向菱形标记接近的情况下,通过暂时停止,或者在绕行路径行进而避开第二障碍物。由拖动生成的轨迹显示为线。若触摸了决定按钮,则运算部350将该轨迹记录为由使用者决定的移动路径的正解。
此外,在使用图6进行了说明的第一学习步骤中,仅将第一障碍物作为对象,因此生成的教师数据不包括时间要素。但是,在使第二障碍物移动并且避开它的本仿真中,教师数据作为第二障碍物的动作和避开它的移动机器人的路径而包括随时间变化的信息。即,具有包括与第一障碍物的相对关系在内而尽可能学习第二障碍物从哪个方向以怎样的速度接近的情况下应该如何避开的信息。
运算部350通过这样积累的教师数据,使路径生成NN200通过有教师学习进行学习。若这样学习后的学习完毕的路径生成NN200向移动机器人100安装,则也可以不进行使用图8进行了说明的学习作业。或者,能够减少使用图8进行了说明的学习作业的作业量。
此外,在接受步骤中,在指定了移动机器人与第一障碍物交叉那样的移动路径的情况下,运算部350也可以以不交叉的方式局部地修正移动路径。即便接受一定程度粗略的指定,也能够期待以短期间存储更多的教师数据。另一方面,在指定出移动机器人与第二障碍物接触那样的移动路径的情况下,再次接受使用者的路径指定。例如,返回至接触前的时刻而再次指定。第二障碍物是进行动作的障碍物,因此由使用者给予恰当的避开路径更适合作为教师数据。
另外,也可以包括得分示出步骤,在该步骤中,对于在接受步骤中从使用者接受到的移动路径,对以与第一障碍物及第二障碍物有无接触、产生了接触的情况下的从接触位置至目的地为止的路径距离、从第一障碍物及第二障碍物至路径为止的距离、移动路径的路径距离、移动路径的平滑度、在移动路径移动所需要的时间的至少任一个作为评价指标的得分进行计算并向使用者示出。若存在与第一障碍物及第二障碍物之间的接触则运算得分的运算部350根据该接触次数而减分。另外,从接触的位置至目的地为止的路径距离越短则得分越高。另外,在从第一障碍物及第二障碍物至路径为止的距离较近的情况下,根据安全性的观点而减分。从出发地至目的地为止的移动路径的路径距离越短则得分越高。另外,若从出发地至目的地为止的移动路径平滑则得分高。在移动路径移动所需要的时间越短则得分越高。通过示出这样的得分,从而使用者能够积极地享受操作,或者持有竞争心,因此能够持续进行仿真。即,能够积累较多教师数据。
另外,也可以在使用图6进行了说明的第一学习步骤后,执行此处说明的仿真。具体而言,首先通过第一学习步骤,能够生成在给予了第一障碍物的情况下从出发地至目的地为止的移动路径。然后,在第二配置步骤与动作步骤之间,加入生成从出发地至目的地为止避开第一障碍物的临时移动路径的生成步骤。在动作步骤中,使第二障碍物动作,并且使移动机器人从出发地沿着临时移动路径根据预先设定的条件而移动。在接受步骤中,在沿着临时移动路径行进的菱形标记要与双圈标记接触的情况下使两移动暂时停止,从使用者接受避开动作的指定。运算部350通过将局部指定的避开路径装入原来的临时移动路径,从而生成作为教师数据的移动路径。若这样构成,则能够集中进行避开进行动作的第二障碍物的路径生成的学习,因此作业效率提高。此外,临时移动路径的生成也可以不使用第一学习步骤的成果而利用其他算法等。
程序可使用各种类型的非临时性的计算机可读介质存储而提供给计算机。非临时性的计算机可读介质包括各种类型的实体记录介质(tangible storage medium)。非临时的计算机可读介质的例子包括磁记录介质(例如,软盘、磁带、硬盘驱动器)、光磁记录介质(例如,光磁盘)、CD-ROM(光盘只读存储器)、CD-R(可刻录光盘)、CD-R/W(可重写光盘)、半导体存储器(例如,掩模ROM、PROM(Programmable ROM,可编程只读存储器)、EPROM(ErasablePROM,可擦可编程序只读存储器)、闪存(flash ROM)、RAM(random access memory,随机存取存储器)。程序可以通过各种类型的临时性的计算机可读介质提供给计算机。临时性的计算机可读介质的示例包括电信号、光信号和电磁波。临时性的计算机可读介质经由电线及光纤等有线通信路或无线通信路将程序提供给计算机。
根据以上所述的发明,显而易见的是发明的实施例可以按照多种方式变化。这样的变化不应当被认为是对本发明的主旨和范围的偏离,并且对于本领域技术人员而言,显而易见的是所有的这样的修改包含在所附权利要求的范围中。

Claims (6)

1.一种机器学习方法,是神经网络的机器学习方法,所述神经网络用于使计算机发挥功能以基于被提供的地图信息和检测出的移动体信息而输出至目的地为止的移动机器人的路径,
所述机器学习方法使用通过重复执行以下步骤而积累的教师数据进行学习,
所述步骤包括:
第一配置步骤,在假想空间中配置静止的第一障碍物和进行动作的第二障碍物;
第二配置步骤,在所述假想空间中配置所述移动机器人的当前所在地和目的地;
动作步骤,使所述第二障碍物根据预先设定的条件而动作;及
接受步骤,从使用者接受使所述移动机器人避开静止的所述第一障碍物和进行动作的所述第二障碍物而从所述当前所在地向所述目的地移动的移动路径的指定。
2.根据权利要求1所述的机器学习方法,其中,
在所述接受步骤中,当在所述使用者指定的所述移动路径上行进的所述移动机器人与所述第一障碍物交叉的情况下,修正所述移动路径以使所述移动机器人不与所述第一障碍物交叉。
3.根据权利要求1或2所述的机器学习方法,其中,
在所述接受步骤中,当在所述使用者指定的所述移动路径上行进的所述移动机器人与所述第二障碍物接触的情况下,再次接受所述使用者的对于所述移动路径的指定。
4.根据权利要求1或2所述的机器学习方法,其中,
在所述第二配置步骤与所述动作步骤之间具有如下的生成步骤:生成从所述当前所在地至所述目的地为止避开了所述第一障碍物的临时移动路径,
在所述动作步骤中,使所述第二障碍物动作,并且使所述移动机器人从所述当前所在地沿着所述临时移动路径根据预先设定的条件而移动。
5.根据权利要求1或2所述的机器学习方法,其中,
所述机器学习方法具有如下的得分示出步骤:对于在所述接受步骤中从所述使用者所接受的所述移动路径,对以与所述第一障碍物及所述第二障碍物有无接触、发生了所述接触的情况下的从接触位置至所述目的地为止的路径距离、从所述第一障碍物及所述第二障碍物至路径为止的距离、所述移动路径的路径距离、所述移动路径的平滑度及在所述移动路径上进行移动所需要的时间中的至少任一个作为评价指标的得分进行计算并向所述使用者示出。
6.一种移动机器人,安装有通过权利要求1~5中任一项所述的机器学习方法进行了学习的学习完毕神经网络,
所述移动机器人具备:
获取部,获取描述有所述第一障碍物的地图信息及目的地;
检测部,检测在周围进行动作的所述第二障碍物;
运算部,将所述获取部获取到的所述地图信息及所述目的地和所述检测部检测出的所述第二障碍物的检测信息输入到所述学习完毕神经网络并运算到达至所述目的地的路径;及
移动控制部,以沿着所述运算部运算出的所述路径移动的方式进行控制。
CN202010585979.9A 2019-06-28 2020-06-24 机器学习方法及移动机器人 Active CN112230649B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019121762A JP7124797B2 (ja) 2019-06-28 2019-06-28 機械学習方法および移動ロボット
JP2019-121762 2019-06-28

Publications (2)

Publication Number Publication Date
CN112230649A CN112230649A (zh) 2021-01-15
CN112230649B true CN112230649B (zh) 2024-01-09

Family

ID=71170405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010585979.9A Active CN112230649B (zh) 2019-06-28 2020-06-24 机器学习方法及移动机器人

Country Status (4)

Country Link
US (1) US20200409379A1 (zh)
EP (1) EP3757714B1 (zh)
JP (1) JP7124797B2 (zh)
CN (1) CN112230649B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7221839B2 (ja) * 2019-10-08 2023-02-14 国立大学法人静岡大学 自律移動ロボットおよび自律移動ロボットの制御プログラム
JP2024508805A (ja) * 2021-02-25 2024-02-28 ナノトロニクス イメージング インコーポレイテッド 製造環境における模倣学習
WO2023037539A1 (ja) * 2021-09-13 2023-03-16 日本電気株式会社 制御システム、情報処理装置、制御方法、及び制御値生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015218522A1 (en) * 2010-12-30 2015-09-17 Irobot Corporation Mobile robot system
CN107272705A (zh) * 2017-07-31 2017-10-20 中南大学 一种智能环境下机器人路径的多神经网络控制规划方法
CN107703945A (zh) * 2017-10-30 2018-02-16 洛阳中科龙网创新科技有限公司 一种多目标融合的智能农用机械路径规划方法
KR20180059188A (ko) * 2016-11-25 2018-06-04 연세대학교 산학협력단 딥 러닝을 이용한 동적 장애물이 없는 배경 위주의 3차원 지도 생성 방법
CN108407805A (zh) * 2018-03-30 2018-08-17 中南大学 一种基于dqn的车辆自动泊车方法
JP2019005834A (ja) * 2017-06-22 2019-01-17 株式会社デンソー 学習システム及び学習方法
CN109782763A (zh) * 2019-01-18 2019-05-21 中国电子科技集团公司信息科学研究院 一种动态环境下的移动机器人路径规划方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071265A (ja) * 2003-08-27 2005-03-17 Matsushita Electric Ind Co Ltd 学習装置および方法、並びにロボットのカスタマイズ方法
JP4375320B2 (ja) * 2005-10-27 2009-12-02 株式会社日立製作所 移動ロボット
JP5142137B2 (ja) * 2007-12-10 2013-02-13 本田技研工業株式会社 リモコン
JP5215740B2 (ja) 2008-06-09 2013-06-19 株式会社日立製作所 移動ロボットシステム
JP6020326B2 (ja) * 2013-04-16 2016-11-02 富士ゼロックス株式会社 経路探索装置、自走式作業装置、プログラム及び記録媒体
US9463571B2 (en) * 2013-11-01 2016-10-11 Brian Corporation Apparatus and methods for online training of robots
US9562773B2 (en) * 2014-03-15 2017-02-07 Aurora Flight Sciences Corporation Autonomous vehicle navigation system and method
US10705528B2 (en) * 2015-12-15 2020-07-07 Qualcomm Incorporated Autonomous visual navigation
JP6747044B2 (ja) 2016-05-11 2020-08-26 株式会社豊田中央研究所 走行経路生成装置、モデル学習装置、及びプログラム
US20190004524A1 (en) * 2016-08-31 2019-01-03 Faraday&Future Inc. System and method for planning a vehicle path
JP6809705B2 (ja) * 2016-12-08 2021-01-06 株式会社国際電気通信基礎技術研究所 シミュレーションシステム
US10124798B2 (en) * 2017-03-16 2018-11-13 Michael Hall Performance of autonomous control
CN107677285B (zh) * 2017-04-11 2019-05-28 平安科技(深圳)有限公司 机器人的路径规划系统及方法
US20190286145A1 (en) * 2018-03-14 2019-09-19 Omron Adept Technologies, Inc. Method and Apparatus for Dynamic Obstacle Avoidance by Mobile Robots

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015218522A1 (en) * 2010-12-30 2015-09-17 Irobot Corporation Mobile robot system
KR20180059188A (ko) * 2016-11-25 2018-06-04 연세대학교 산학협력단 딥 러닝을 이용한 동적 장애물이 없는 배경 위주의 3차원 지도 생성 방법
JP2019005834A (ja) * 2017-06-22 2019-01-17 株式会社デンソー 学習システム及び学習方法
CN107272705A (zh) * 2017-07-31 2017-10-20 中南大学 一种智能环境下机器人路径的多神经网络控制规划方法
CN107703945A (zh) * 2017-10-30 2018-02-16 洛阳中科龙网创新科技有限公司 一种多目标融合的智能农用机械路径规划方法
CN108407805A (zh) * 2018-03-30 2018-08-17 中南大学 一种基于dqn的车辆自动泊车方法
CN109782763A (zh) * 2019-01-18 2019-05-21 中国电子科技集团公司信息科学研究院 一种动态环境下的移动机器人路径规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RL and ANN Based Modular Path Planning Controller for Resource-Constrained Robots in the Indoor Comlpex Dymanic Environment;ZAKIR ULLAH;《IEEE Access》;第第6卷卷;全文 *
一种动态未知环境下的机器人路径搜索方法;游维;李枚毅;吴琼;胡剑;;计算机工程与应用(第19期);全文 *
基于BP神经网络的移动机器人路径规划;朱云国;《煤矿机械》;第第28卷卷(第第8期期);全文 *

Also Published As

Publication number Publication date
US20200409379A1 (en) 2020-12-31
JP2021009466A (ja) 2021-01-28
JP7124797B2 (ja) 2022-08-24
EP3757714B1 (en) 2022-10-26
EP3757714A1 (en) 2020-12-30
CN112230649A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112230649B (zh) 机器学习方法及移动机器人
US11703872B2 (en) Machine learning method and mobile robot
US7353082B2 (en) Method and a system for programming an industrial robot
CN114502335A (zh) 用于具有几何约束的非线性机器人系统的轨迹优化的方法和系统
Frank et al. Toward mobile mixed-reality interaction with multi-robot systems
CN114102585B (zh) 一种物品抓取规划方法及系统
JP6902369B2 (ja) 提示装置、提示方法およびプログラム、ならびに作業システム
US20200016767A1 (en) Robot system and control method of the same
CN114800535B (zh) 机器人的控制方法、机械臂控制方法、机器人及控制终端
JP5776544B2 (ja) ロボットの制御方法、ロボットの制御装置、及びロボット
JP2020025992A (ja) 制御装置、制御方法、およびプログラム
CN112631269A (zh) 自主移动机器人及自主移动机器人的控制程序
JP6940204B2 (ja) 拡張現実を利用したコーディング教育方法
JP7179971B2 (ja) ロボット装置のための制御装置、ロボット装置、方法、コンピュータプログラム及び機械可読記憶媒体
JP7452657B2 (ja) 制御装置、制御方法及びプログラム
US20220314432A1 (en) Information processing system, information processing method, and nonvolatile storage medium capable of being read by computer that stores information processing program
US20230356389A1 (en) Control device, control method and storage medium
CN112975950B (zh) 远程操作系统及远程操作方法
WO2023286138A1 (ja) ロボット制御システム、ロボットシステム、ロボット制御方法、およびロボット制御プログラム
WO2022259600A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US20240075628A1 (en) Remote control system, remote control method, and control program
WO2022255206A1 (ja) 情報処理装置、情報処理方法、及び、コンピュータプログラム
US20230333550A1 (en) Remote operation system, remote operation method, and storage medium
US20230384788A1 (en) Information processing device, information processing system, information processing method, and recording medium storing program
CN117519469A (zh) 一种应用于人机交互的空间交互装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant