CN108202327A - 机器学习装置、机器人系统以及机器学习方法 - Google Patents

机器学习装置、机器人系统以及机器学习方法 Download PDF

Info

Publication number
CN108202327A
CN108202327A CN201711351403.0A CN201711351403A CN108202327A CN 108202327 A CN108202327 A CN 108202327A CN 201711351403 A CN201711351403 A CN 201711351403A CN 108202327 A CN108202327 A CN 108202327A
Authority
CN
China
Prior art keywords
robot
machine learning
laser scanner
laser
return
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711351403.0A
Other languages
English (en)
Other versions
CN108202327B (zh
Inventor
村上贵视
青木俊道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of CN108202327A publication Critical patent/CN108202327A/zh
Application granted granted Critical
Publication of CN108202327B publication Critical patent/CN108202327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/021Optical sensing devices
    • B25J19/022Optical sensing devices using lasers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/45Nc applications
    • G05B2219/45104Lasrobot, welding robot

Abstract

本发明提供机器学习装置、机器人系统以及机器学习方法。学习机器人以及激光扫描器的动作的机器学习装置具有:状态观测部,其将安装有所述激光扫描器的所述机器人末端的状态和所述激光扫描器中光学部件的状态作为状态数据来进行观测;判定数据取得部,其将以下信息中的至少一个作为判定数据来接收:安装有所述激光扫描器的所述机器人进行的加工时间、驱动所述机器人的驱动电流、所述激光扫描器的指令路径、所述激光扫描器进行处理的可处理范围的通过时间、以及所述机器人与所述激光扫描器进行处理的部位之间的距离;学习部,其根据所述状态观测部的输出以及所述判定数据取得部的输出,学习所述机器人以及激光扫描器的动作。

Description

机器学习装置、机器人系统以及机器学习方法
技术领域
本发明涉及学习机器人以及激光扫描器的动作的机器学习装置、机器人系统以及机器学习方法。
背景技术
近年来,为了焊接汽车的车体,而注意到在机器人的末端(机械手部分)安装激光扫描器(laser scanner)来进行激光焊接这样的远程激光焊接机器人(机器人系统),并将其实用化。这里,所谓激光扫描器是指在激光用光学系统中使一个以上的反射镜(mirror)(例如,XY方向上的2个反射镜:光学部件)或者透镜又或者玻璃板等光学部件动作而使激光进行扫描这样的装置。其中,一般情况下,将在激光用光学系统中使一个以上的反射镜(例如,XY方向上的2个反射镜)动作而使激光进行扫描的装置称为检流计式扫描器(galvanometer scanner,又称检流计式振镜)。另外,在本说明书中,主要对激光扫描器的一例即检流计式扫描器进行说明,但是本发明的应用不限于检流计式扫描器,例如可以广泛地应用于穿孔头(trepanning head)或多面扫描器(polygon scanner)等所有激光扫描器。
以往,例如日本专利第4922584号公报公开了如下内容:作为进行激光加工的机器人系统,安装具有驱动轴的工具,使得机器人沿着示教路径移动,并且控制工具的驱动轴而使激光光束在操作员所希望的加工路径上移动。该机器人系统具有:机器人轴运算部,其对设定于工具上的机器人控制点的位置、姿势进行运算;工具轴运算部,其通过运算从机器人轴运算部运算出的机器人控制点的位置、姿势以及预先设定的激光光束的焦点位置求出应该输出给工具的驱动轴的动作指令。
此外,以往例如日本专利第4792901号公报公开了可以将激光准确地照射到预先设定的激光照射位置的激光焊接装置。该激光焊接装置具有:机器人;安装于机器人的激光射出单元,其射出(放射)激光;测定单元,其测定机器人的当前位置;以及控制单元,其根据该计量出的机器人的当前位置控制从激光射出单元射出的激光的方向以使激光的照射位置为预先决定的照射位置。
如上所述,以往提出了使机器人沿着示教路径移动,并且控制工具的驱动轴而使激光光束在操作员所希望的加工路径上移动的机器人系统和可以将激光准确地照射到预先决定的激光照射位置的激光焊接装置。但是,这些机器人系统以及激光焊接装置并非根据机器人的动作特征与工具(激光射出单元)的动作特征而使机器人以及工具(激光射出单元)的动作最佳化。
还如上所述,近年来在机器人的末端安装检流计式扫描器(激光扫描器)来进行激光焊接的远程激光焊接机器人系统被实用化。这里,检流计式扫描器的动作例如可以高精度且高速地扫描射出的激光光线,但是激光能够扫描的区域(范围)不大。相反,机器人(机器人的末端)的动作比通过检流计式扫描器扫描激光的精度以及速度要差,但是能够移动的区域却十分宽广。
因此,在远程激光焊接机器人系统中,当设定焊接的加工路径(指令路径)时,例如考虑如下内容:由人(操作员、用户)酌量机器人以及检流计式扫描器的动作特征,从而使机器人以及检流计式扫描器的动作最佳化。但是,由人来进行该机器人以及检流计式扫描器的动作最佳化(动作的示教、或者程序的制作)是十分困难的。
另外,在本说明书中,以使激光光线按XY方向的二维(2D)方式进行扫描来进行焊接的远程激光焊接机器人系统为例进行说明,但是本发明涉及的机器人系统不只进行激光焊接,例如可以应用于进行激光切割、激光打孔、金属加工、激光树脂焊接、树脂加工、表面加工以及表面改性这样的各种作业的机器人系统。此外,检流计式扫描器不限于使激光光线按XY方向的二维方式进行扫描使激光进行扫描,例如也可以按增加了聚焦控制机构的Z方向的三维(3D)方式进行扫描,并且,使用的激光光线的种类以光纤激光(fiber laser)为首,也可以是二氧化碳(CO2)激光或YAG(Yttrium Aluminum Garnet,钇铝石榴石)激光等。
发明内容
鉴于上述现有技术的课题,本发明的目的在于提供可以使机器人以及激光扫描器的动作最佳化的机器学习装置、机器人系统以及机器学习方法。
根据本发明涉及的第一实施方式,提供一种学习机器人以及激光扫描器的动作的机器学习装置,具有:状态观测部,其将安装有所述激光扫描器的所述机器人的末端的状态和所述激光扫描器中光学部件的状态作为状态数据来进行观测;判定数据取得部,其将以下信息中的至少一个作为判定数据来接收:安装有所述激光扫描器的所述机器人进行的加工时间、驱动所述机器人的驱动电流、所述激光扫描器的指令路径、所述激光扫描器进行处理的可处理范围的通过时间、以及所述机器人与所述激光扫描器进行处理的部位之间的距离;以及学习部,其根据所述状态观测部的输出以及所述判定数据取得部的输出,学习所述机器人以及激光扫描器的动作。
可以是,所述状态观测部观测安装有所述激光扫描器的所述机器人的末端的位置、速度以及加速度。可以是,所述状态观测部观测所述激光扫描器中光学部件的位置、速度以及加速度。可以是,所述机器学习装置还具有:决策部,其根据所述学习部学习到的所述机器人以及激光扫描器的动作,决定输出给所述机器人以及所述激光扫描器的行为输出。
优选的是,所述学习部具有:回报计算部,其根据所述状态观测部的输出以及所述判定数据取得部的输出,计算回报;以及价值函数更新部,其根据所述状态观测部的输出、所述判定数据取得部的输出以及所述回报计算部的输出,更新价值函数,该价值函数用于决定所述机器人以及激光扫描器的动作的价值。可以是,所述回报计算部在所述激光扫描器的指令路径短时设定负回报,在所述激光扫描器的指令路径长时设定正回报,或者,所述回报计算部在驱动所述机器人的驱动电流多时设定负回报,在驱动所述机器人的驱动电流少时设定正回报。可以是,所述回报计算部在所述激光扫描器进行处理的可处理范围的通过时间短时设定负回报,在所述激光扫描器进行处理的可处理范围的通过时间长时设定正回报,或者,所述回报计算部在所述机器人与所述激光扫描器进行处理的部位之间的距离长时设定负回报,在所述机器人与所述激光扫描器进行处理的部位之间的距离短时设定正回报。
可以是,所述机器学习装置具有神经网络。可以是,所述机器学习装置被设置给各所述机器人,所述机器学习装置能够与至少一个其他机器学习装置相连接,并在所述机器学习装置与至少一个所述其他机器学习装置之间相互交换或共享机器学习的结果。可以是,所述机器学习装置存在于云服务器或者雾服务器上。
根据本发明涉及的第二实施方式,提供一种机器人系统,具有:机器人控制装置、由所述机器人控制装置控制的所述机器人、激光扫描器控制装置、由所述激光扫描器控制装置控制的所述激光扫描器、以及上述第一实施方式的机器学习装置。可以是,所述机器人是通过从所述激光扫描器射出的激光光线进行焊接的远程激光焊接机器人。
根据本发明涉及的第三实施方式,提供一种机器学习方法,用于学习机器人以及激光扫描器的动作,其中,将安装有所述激光扫描器的所述机器人的末端的状态和所述激光扫描器中光学部件的状态作为状态数据来进行观测,将以下信息中的至少一个作为判定数据来接收:安装有所述激光扫描器的所述机器人进行的加工时间、驱动所述机器人的驱动电流、所述激光扫描器的指令路径、所述激光扫描器进行处理的可处理范围的通过时间、以及所述机器人与所述激光扫描器进行处理的部位之间的距离,根据观测到的所述状态数据以及取得的所述判定数据,学习所述机器人以及激光扫描器的动作。可以是,学习所述机器人以及激光扫描器的动作包括:根据观测到的所述状态数据以及取得的所述判定数据,计算回报,根据观测到的所述状态数据、取得的所述判定数据以及计算出的所述回报,更新价值函数,该价值函数用于决定所述机器人以及激光扫描器的动作的价值。
附图说明
通过参照以下的附图,可以进一步明确本发明。
图1是示意性地表示本发明涉及的机器人系统以及机器学习装置的一实施方式的图,
图2是表示本发明涉及的机器学习装置的一实施方式的框图,
图3是示意性地表示神经元模型的图。
图4是示意性地表示将图3所示的神经元组合而构成的三层神经网络的图,
图5是表示图2所示的机器学习装置中的处理的第一实施例的流程图,
图6是表示图2所示的机器学习装置中的处理的第二实施例的流程图,
图7是表示图2所示的机器学习装置中的处理的第三实施例的流程图,
图8是表示图2所示的机器学习装置中的处理的第四实施例的流程图,
图9是表示图2所示的机器学习装置中的处理的第五实施例的流程图,
图10是表示图2所示的机器学习装置中的处理的第六实施例的流程图,
图11是示意性地表示机器人系统的一例的图,
图12A以及图12B是用于说明机器人系统中的检流计式扫描器的加工路径的图(之一),并且,
图13A以及图13B是用于说明机器人系统中的检流计式扫描器的加工路径的图(之二)。
具体实施方式
首先,在对本发明涉及的机器学习装置、机器人系统以及机器学习方法的实施方式进行详细叙述之前,参照图11~图13B对机器人系统的一例以及其问题点进行说明。图11是示意性地表示机器人系统的一例的图。另外,在以下的记载中,以检流计式扫描器为例进行说明,但是本发明的应用不限于检流计式扫描器,例如可以广泛地应用于穿孔头或多面扫描器等所有激光扫描器。
如图11所示,机器人系统(远程激光焊接机器人系统)1针对焊接对象WO进行激光焊接WL、WP1、WP2,作为一例表示包含机器人11、控制机器人11的控制装置(机器人控制装置)12、安装于机器人11的末端(机械手部分)的检流计式扫描器(激光扫描器)13在内的机器人系统。这里,控制检流计式扫描器13的检流计式扫描器控制装置(激光扫描器控制装置)内置于控制装置12中。
焊接对象WO例如是汽车的车体,在该汽车的车体WO中,例如控制机器人11以及检流计式扫描器13的动作,针对处于分离位置的焊接部位WP1、WP2、和预先设定的焊接线(加工路径)WL进行激光焊接。这里,检流计式扫描器13例如具有垂直的X轴方向以及Y轴方向上的两个反射镜(光学部件),通过控制这两个反射镜,能够使从检流计式扫描器13射出的激光光线在区域Rs的范围内进行扫描。此外,机器人11的末端例如能够在区域Rr的范围内移动。
另外,检流计式扫描器13例如使X以及Y轴方向上的反射镜的角度变化来使激光光线进行扫描,因此,从检流计式扫描器13射出的激光光线可以高精度地且高速地进行扫描。但是,由于检流计式扫描器13射出的激光光线能够扫描的区域Rs不大,因此例如在针对焊接部位WP1、WP2以及焊接线WL照射激光光线的过程中使机器人11动作。此外,机器人11(机器人的末端)通过对驱动机器人的各轴的电动机进行伺服控制而动作(移动),因此相比于检流计式扫描器13射出的激光光线的扫描,移动精度以及移动速度要差,但是由于能够移动的区域Rr十分宽广,因此能够将激光光线照射到焊接部位WP1、WP2以及焊接线WL整体。
图12A以及图12B和图13A以及图13B是用于说明机器人系统中的检流计式扫描器的加工路径的图。在图12A以及图12B和图13A以及图13B中,示出了如下情况:焊接对象(被焊接工件)WO是汽车的车体,针对汽车车体WO的焊接部位(例如,点焊部位)WP11~WP16进行焊接。这里,一般情况下,在对被焊接工件(WO)进行焊接时,在设计阶段已经决定了工件的焊接位置(WP11~WP16)。
如图12A所示,例如在设置于机器人(11)的末端的焊接工具(点焊枪、焊枪)上的固定位置进行焊接的点焊机器人或电弧焊接机器人进行的作业例如控制机器人的动作,以使焊接工具末端针对焊接位置WP11~WP16进行定位或者通过。因此,这些点焊机器人或电弧焊机器人末端的移动路径,要一笔勾画焊接位置WP11~WP16。
与之相对地,如图12B所示,在使用了检流计式扫描器13的远程激光焊接机器人系统1中,焊接位置WP11~WP16能够相对于机器人11的末端在可变位置进行焊接。因此,机器人11末端(检流计式扫描器13)的移动路径例如从焊接开始点S起存在移动路径ML1和ML2这样的多条路径。即,在使用了检流计式扫描器的远程焊接机器人中,由于焊接位置(WP11~WP16)相对于焊接工具(检流计式扫描器13)是可变位置,因此,远程焊接机器人末端的移动路径不需要一笔勾画焊接位置WP11~WP16,从而自由度高。但是,因为自由度高,所以需要通过试错来发现机器人的最佳路径,是很困难的作业。
在图13A以及图13B中,参照符号WA(WA11~WA16)表示能够针对各焊接位置WP11~WP16进行焊接的区域(能够焊接范围)。因此,为了对焊接位置WP11~WP16进行焊接,而求出检流计式扫描器13(机器人11的末端)通过能够焊接范围WA11~WA16。这里,能够焊接范围WA11~WA16与扫描器(激光光线)相对于各焊接位置WP11~WP16的照射范围对应。
如图13B所示,例如在实现检流计式扫描器13从焊接开始点S经由能够焊接范围WA11~WA16(焊接位置WP11~WP16)而到达焊接结束点G的情况下,例如可以是移动路径ML1和ML2这样的多条路径,而在通过各能够焊接范围WA11~WA16时,求出其通过时间(区间内时间)是检流计式扫描器13进行规定焊接的焊接动作时间(例如,焊接、气割以及前后焊接动作起的跳转时间)以上(区间内时间>焊接动作时间)。
这样,在远程激光焊接机器人系统(机器人系统)1中,在设定进行激光焊接的加工路径(指令路径)时,例如由人(操作员、用户)酌量机器人11以及检流计式扫描器13的动作特征,使机器人11以及检流计式扫描器13的动作最佳化。但是,如上所述,由于机器人11以及检流计式扫描器13的动作具有各不相同的特征,因此难以由人使机器人11以及检流计式扫描器13的动作最佳化,通常情况下,例如图11中的虚线ML所示,使机器人11的末端直线移动,在该直线的移动线ML的中途,控制检流计式扫描器13将激光光线照射到规定位置(WP1、WP2、WL)。
以下,参照附图对本发明涉及的机器学习装置、机器人系统以及机器学习方法的实施方式进行详细叙述。首先,优选的是,本实施方式涉及的机器学习装置、机器人系统以及机器学习方法通过以下的条件使机器人的动作(轨迹以及移动速度)最佳化。
·焊接位置是固定的。
·机器人的路径是机器人的可动范围内。
·机器人的移动速度是机器人的最高速度以下。
·移动中的机器人的加减速是机器人的加减速能力以下。
·机器人相对于焊接位置通过与扫描器的照射范围相当的能够焊接范围。
·机器人通过能够焊接范围的时间是扫描器的焊接动作时间以上。
此外,本实施方式涉及的机器学习装置、机器人系统以及机器学习方法根据上述的条件来机器学习机器人以及检流计式扫描器(激光扫描器)的动作而实现机器人动作的最佳化。另外,作为本实施方式涉及的机器学习的成果回报,例如考虑如下内容。
·机器人在路径上移动的时间短(生产性)。
·机器人的加减速小(没有摇摆,延长机器人寿命)。
·机器人通过能够焊接范围的时间长(可以确保加工条件的调整余量)。
·机器人(检流计式扫描器)接近焊接位置(透镜聚光误差小)。
·通过对各种成果回报加权,以用户希望的形式例如重视生产性等重视动作等,使动作最佳化。
图1是示意性地表示本发明涉及的机器人系统以及机器学习装置的一实施方式的图,图2是表示本发明涉及的机器学习装置的一实施例的框图。如图1所示,本实施方式的机器人系统(远程激光焊接机器人系统)1相当于参照图11进行了说明的机器人系统,针对机器学习装置2输出判定数据以及状态数据(状态变量、状态量),接收由机器学习装置2学习到的机器人以及检流计式扫描器(激光扫描器)的动作的行为输出(学习到的指令值、操作量)来进行动作。另外,机器学习装置2例如可以设置于控制机器人11的动作的机器人控制装置12中。此外,如上所述,也可以在机器人控制装置12中设置控制检流计式扫描器13的检流计式扫描器控制装置。
如图1所示,机器学习装置2包含:状态观测部21、判定数据取得部22、学习部23以及决策部24,学习部23包含回报计算部231以及价值函数更新部232。状态观测部21从机器人系统1接收状态数据,判定数据取得部22从机器人系统1接收判定数据。状态观测部21以及判定数据取得部22的输出被输入到学习部23,学习部23的输出经由决策部24作为控制机器人系统1(机器人11以及检流计式扫描器13)的动作的行为输出被输入到机器人系统1(控制装置12)。
这里,机器学习装置2例如设置于各机器人11(机器人系统1)中,能够与至少一个其他机器学习装置(2)相连接,可以在机器学习装置2与该至少一个其他机器学习装置之间相互交换或者共享机器学习的结果。或者,机器学习装置2也可以构成为:设置于云服务器或雾服务器上,经由网络在与各机器人11(机器人系统1)之间交换数据(状态数据、判定数据、行为输出)。
如图2所示,在机器学习装置2中,作为状态观测部21接收的状态数据,例如是机器人11末端的位置、速度、加速度、以及检流计式扫描器13(反射镜(光学部件))的位置(反射镜的角度)、速度、加速度,作为判定数据取得部22接收的判定数据,例如是机器人11(机器人系统1)进行的加工时间、驱动机器人11的驱动电流、检流计式扫描器13的指令路径、检流计式扫描器13进行处理的可处理范围的通过时间(能够焊接范围WA(WA11~WA16)的区间内时间)、以及机器人11与检流计式扫描器13进行处理的部位(焊接位置WP11~WP16)之间的距离。此外,作为机器学习装置2(决策部24)输出的行为输出,例如是各时刻的机器人11各轴的速度指令值。
另外,上述状态数据、判定数据以及行为输出只是示例,也可以应用其他样式的数据。此外,为了求出目标动作(行为输出),实际上并非局限于使机器人11以及检流计式扫描器13动作而使机器学习装置2进行学习,例如,也可以通过基于机器引导进行的模拟来使机器学习装置2进行学习。
如图2所示,状态观测部21将安装有检流计式扫描器13的机器人11末端的状态(机器人末端的位置、速度以及加速度)和检流计式扫描器13中光学部件的状态(反射镜的位置、速度以及加速度)作为状态数据来进行观测。判定数据取得部22作为判定数据接收以下信息中的至少一个:安装有检流计式扫描器13的机器人11进行的加工时间、驱动机器人11的驱动电流、检流计式扫描器13的指令路径、检流计式扫描器13进行处理的可处理范围的通过时间、以及机器人11与检流计式扫描器13进行处理的部位之间的距离。学习部23根据状态观测部21的输出以及判定数据取得部22的输出,学习机器人11以及检流计式扫描器13的动作。
这里,学习部23包含回报计算部231以及价值函数更新部232。回报计算部231根据状态观测部21的输出以及判定数据取得部22的输出计算回报,价值函数更新部232根据状态观测部21的输出、判定数据取得部22的输出以及回报计算部231的输出来更新价值函数,该价值函数用于决定机器人11以及检流计式扫描器13的动作的价值。另外,参照图5~图8,在后面进行详细叙述。回报计算部231例如可以在机器人11(机器人系统1)进行的加工时间长时设定负回报,在机器人11进行的加工时间短时设定正回报。
此外,回报计算部231例如可以在检流计式扫描器13的指令路径短时设定负回报,在检流计式扫描器13的指令路径长时设定正回报。并且,回报计算部231例如可以在驱动机器人11的驱动电流多时设定负回报,在驱动机器人11的驱动电流少时设定正回报。另外,这些回报计算部231中的回报也可以将上述多个数据适当组合来进行设定,对多个数据的回报进行累积计算。此外,上述状态数据只是示例,如上所述也可以应用其他样式的数据。并且,机器学习装置2的决策部24根据学习部23学习到的机器人11以及检流计式扫描器13的动作,决定输出给机器人11以及检流计式扫描器13(机器人系统1)的行为输出。
机器学习装置2具有如下功能:通过解析从输入到装置的数据集合中提取出其中有用的规则和知识表示、判断基准等,输出其判断结果,并且进行知识学习(机器学习)。机器学习的方法是多种多样的,但是大致分类为例如“监督学习”、“无监督学习”以及“强化学习”。并且,在实现这些方法的基础上,存在对特征量本身的提取进行学习的、称为“深度学习(Deep Learning)”的方法。
另外,图2所示的机器学习装置2应用了“强化学习(Q学习)”。该机器学习装置2可以使用广泛应用的计算机或者处理器,例如,在应用GPGPU(General-Purpose computingon Graphics Processing Units,通用图形处理器)或大规模PC集群等时,能够更高速地进行处理。这里,关于机器学习的整体进行概略说明。
首先,所谓监督学习是通过将教师数据即某种输入与结果(label标签)的数据组大量地给予到机器学习装置,学习这些数据集(data set)中的特征,能够归纳性地获得从输入推定结果的模型(误差模型)即其相关性。例如,能够使用后述的神经网络等算法来实现。
此外,所谓无监督学习是如下技术:通过只将输入数据大量地给予到机器学习装置,学习输入数据进行怎样的分布,即使不给予对应的教师输出数据,也能学习针对输入数据进行压缩、分类、整形等的装置。例如,可以将处于这些数据集之中的特征聚类于相似者之间等。使用其结果来进行设定某个基准而使其为最佳这样的输出分配,由此,可以实现预测输出。
另外,作为无监督学习和监督学习中间的问题设定而被称为半监督学习,其例如对应于如下情况:仅存在一部分输入和输出的数据组,除此之外仅有输入数据。
接下来,对强化学习进行说明。首先,作为强化学习的问题设定,考虑如下。
·机器人系统(即,机器人11、检流计式扫描器13以及控制装置(例如,包括机器人控制装置以及检流计式扫描器控制装置(激光扫描器控制装置))12)观测环境的状态,决定行为。
·环境按照某种规则进行变化,并且自身行为有时也对环境给予变化。
·每次进行行为时反馈回来回报信号。
·想要最大化的是到将来的(折扣)回报的总和。
·从完全不知道行为引起的结果或者从只是不完全知道的状态起,开始学习。即,以控制装置实际动作开始,能够将其结果获得为数据。也就是说,需要一边试错一边探索最佳的行为。
·可以将例如模仿人类动作这样事前学习(上述称为监督学习、逆强化学习这样的技术)了的状态设为初始状态,来从较好的开始点起开始学习。
这里,所谓强化学习是用于如下学习的方法:不单进行判定和分类,还通过学习行为而在行为给予环境的相互作用基础上学习适当的行为,即,使将来获得的回报最大化。以下,作为示例,以Q学习的情况继续说明,但是并非局限于Q学习。
Q学习是在某种环境状态s下学习选择行为a的价值Q(s、a)的方法。也就是说,在某种状态s时,将价值Q(s、a)最高的行为a选择为最佳行为。但是,最开始对于状态s与行为a的组合来说,完全不知道价值Q(s、a)的正确值。因此,智能体(行为主体)在某种状态s下选择各种各样的行为a,并针对当时的行为a给予回报。由此,智能体继续学习更好的行为选择,即学习正确的价值Q(s、a)。
并且,行为的结果是想要使到将来获得的回报的总和最大化,所以目标是最终成为Q(s、a)=E[Σ(γt)rt]。这里,按最佳行为改变状态时得到期望值,由于不知道期望值,因此不得不一边探索一边学习。这样的价值Q(s、a)的更新式例如可以通过如下数学式(1)来表示。
在上述的数学式(1)中,st表示时刻t的环境状态,at表示时刻t的行为。通过行为at,状态变化为st+1。rt+1表示通过该状态的变化而得到的回报。此外,带有max的项是:在状态st+1下,将γ乘以选择出当时知道的Q值最高的行为a时的Q值。这里,γ是0<γ≤1的参数,被称为折扣率。α是学习系数,设α的范围为0<α≤1。
上述的数学式(1)表示如下方法:根据试行at的结果而反馈回来的回报rt+1,更新状态st下的行为at的评价值Q(st、at)。即,表示了:若回报rt+1+行为a导致的下一状态下的最佳行为max a的评价值Q(st+1、max at+1)比状态s下的行为a的评价值Q(st、at)大,则增大Q(st、at),反之如果小,则减小Q(st、at)。也就是说,使某种状态下的某种行为价值,接近在作为结果即时反馈回来的回报和该行为导致的下一状态下的最佳的行为价值。
这里,Q(s、a)在计算机上的表现方法有以下方法:针对所有的状态行为对(s、a),将其值保持为表格的方法、以及准备近似Q(s、a)这样的函数的方法。在后者的方法中,可以通过随机梯度下降法(Stochastic gradient descent method)等方法来调整近似函数的参数来实现上述的数学式(1)。另外,作为近似函数,可以使用后述的神经网络。
此外,作为强化学习中的价值函数的近似算法,可以使用神经网络。图3是示意性地表示神经元模型的图,图4是示意性地表示将图3所示的神经元组合而构成的三层的神经网络的图。即,例如由模拟了图3所示那样的神经元模型的运算装置以及存储器等来构成神经网络。
如图3所示,神经元输出针对多个输入x(在图3中,作为一个示例,输入x1~x3)的输出(结果)y。对各输入x(x1、x2、x3)乘以与该输入x对应的权值w(w1、w2、w3)。由此,神经元输出由如下数学式(2)表现的结果y。另外,输入x、结果y以及权值w都是向量。此外,在下述的数学式(2)中,θ是偏置(bias),fk是激活函数(activation function)。
参照图4,对组合了图3所示的神经元而构成的三层的神经网络进行说明。如图4所示,从神经网络的左侧输入多个输入x(这里作为一例是输入x1~输入x3),从右侧输出结果y(这里作为一例,结果y1~结果y3)。具体来说,输入x1、x2、x3乘以对应的权值而被输入到三个神经元N11~N13的每一个。与这些输入相乘的权值统一标记为W1。
神经元N11~N13分别输出z11~z13。在图4中,这些z11~z13可以被统一标记为特征向量Z1,看作是提取出输入向量的特征量而得的向量。该特征向量Z1是权值W1与权值W2间的特征向量。z11~z13乘以对应的权值而被输入到两个神经元N21以及N22的每一个。与这些特征向量相乘的权值被统一标记为W2。
神经元N21、N22分别输出z21、z22。在图4中,这些z21、z22被统一标记为特征向量Z2。该特征向量Z2是权值W2与权值W3之间的特征向量。z21、z22乘以对应的权值而被输入到三个神经元N31~N33的每一个。与这些特征向量相乘的权值被统一标记为W3。
最后,神经元N31~N33分别输出结果y1~结果y3。在神经网络的动作中有学习模式和价值预测模式。例如,在学习模式中使用学习数据集来学习权值W,在预测模式中使用其参数进行机器人控制装置的行为判断。另外,为了方便而写为预测,但是也可以是检测、分类、推论等多种多样的任务。
这里,可以是在预测模式下对实际运行机器人控制装置而获得的数据进行即时学习,并反映到下一行为中(在线学习),也可以是使用预先收集好的数据组来进行汇总学习,以后一直用该参数进行检测模式(批量学习)。或者,每当积攒了其中间的某种程度数据时,就可以插入学习模式。
此外,能够通过误差反传播法(back propagation)来学习权值W1~W3。另外,误差信息从右侧进入流向左侧。误差反传播法是如下技术:针对各神经元调整(学习)各自的权值使得降低输入了输入x时的输出y与真的输出y(教师)之间的差量。这样的神经网络还可以在三层以上进一步增加层(称为深层学习)。此外,还能够阶段性地进行输入的特征提取,仅从教师数据自动地获得用于反馈结果的运算装置。
这里,通过参照图2进行说明可以明确,本实施例的机器学习装置2例如应该实施Q学习,具有:状态观测部21、判定数据取得部22、学习部23、以及决策部24。其中,应用于本发明的机器学习方法并非局限于Q学习,此外,机器学习装置2如上所述例如是通过应用GPGPU或大规模PC集群等能够实现的装置。
以下,参照图5~图8,对本实施方式的机器学习装置2的处理进行说明,本实施方式的机器学习装置2学习同步动作的机器人11和检流计式扫描器(激光扫描器)13的动作而使其最佳化。这里,机器学习装置2进行的学习如上所述,可以运转实际的机器人系统1(实际设备)来进行,也可以通过机器引导进行的模拟来进行学习。此外,例如可以考虑激光输出的最佳化等来进行本实施方式的机器学习装置2进行的学习。
图5是表示图2所示的机器学习装置中的处理的第一实施例的流程图。这里,例如作为初始条件(进行学习前的初始值),以满足预先决定的加工路径的方式预先制作机器人11与检流计式扫描器13的指令路径。此外,加工路径(例如,图11中的焊接线WL)通过机器人11与检流计式扫描器13的指令路径的组合来决定。另外,如上所述,机器人11的动作存在定位精度以及响应性低、但可动范围大这样的特征,而检流计式扫描器13的动作存在定位性以及响应性高、但是可动范围小这样的特征。
如图5所示,在开始机器学习(开始学习)时,在步骤ST11中,根据行为价值表生成机器人11与检流计式扫描器13的指令路径,向步骤ST12前进。在步骤ST12中,根据机器人11进行的加工时间来进行判定。另外,所谓加工时间例如表示通过从设置于机器人11末端(手臂的末端部)的检流计式扫描器13射出的激光光线,对加工对象(例如,汽车的车体)结束预先设定的规定焊接加工为止的一个周期时间。
在步骤ST12中,当判定为加工时间长时,向步骤ST13前进设定“-5”的回报,当判定为加工时间标准时,向步骤ST14前进设定“+5”的回报,并且当判定为加工时间短时,向步骤ST15前进设定“+10”的回报。并且,向步骤ST16前进对回报进行累积计算,即对步骤ST13~ST15设定的回报进行累积计算,向步骤ST17前进。在步骤ST17中,根据累积计算出的回报,更新行为价值表,再次返回到步骤ST11,重复同样的处理。由此,能够根据加工时间使机器人以及检流计式扫描器的动作最佳化。
另外,在步骤ST13、ST14以及ST15设定的回报的值“-5”、“+5”、“+10”只是示例,当然可以进行各种变更。即,在图5所示的示例中,由于优选的是加工时间(例如,进行针对汽车车体的预先设定的规定焊接加工的时间)短,因此例如将加工时间的长度分为“长”、“标准”以及“短”三个,针对它们设定“-5”、“+5”以及“+10”的回报,但这只是示例。
图6是表示图2所示的机器学习装置中的处理的第二实施例的流程图。从图6与上述图5的比较可以明确,在本第二实施例中,除了基于图5所示的第一实施例的加工时间的判定之外,还进行基于驱动机器人11的驱动电流(机器人的驱动电流)的判定。另外,图6中的步骤ST11~ST17对应于图5中的步骤ST11~ST17。但是,通过图5中的步骤ST15设定的回报“+10”在图6中的步骤ST15’中为“+20”的回报。
即,如图6所示,在开始机器学习时,在步骤ST11中,根据行为价值表生成机器人11与检流计式扫描器13的指令路径,向步骤ST12前进,根据机器人11进行的加工时间来进行判定。在步骤ST12中,当判定为加工时间长时,向步骤ST13前进设定“-5”的回报,当判定为加工时间标准时,向步骤ST14前进设定“+5”的回报,并且当判定为加工时间短时,向步骤ST15’前进设定“+20”的回报。
如上所述,在本第二实施例中,当判定为加工时间短时,在步骤ST15’中,设定第一实施例的步骤ST15中的回报(权值)“+10”两倍的回报“+20”。然后,向步骤ST16前进进行基于加工时间的回报的累积计算,即,对在步骤ST13~ST15’设定的回报进行累积计算。
此外,在步骤ST11中,在根据行为价值表生成机器人11与检流计式扫描器13的指令路径时,向步骤ST22前进根据机器人的驱动电流来进行判定。在步骤ST22中,当判定为机器人的驱动电流多时,向步骤ST23前进设定“-5”的回报,当判定为机器人的驱动电流标准时,向步骤ST24前进设定“0”的回报,然后当判定为机器人的驱动电流少时,向步骤ST25前进设定“+5”的回报。进而,向步骤ST26前进,对基于机器人的驱动电流的回报进行累积计算,即,对在步骤ST23~ST25设定的回报进行累积计算。
然后,向步骤ST27前进,进行步骤ST16的基于加工时间的回报的累积值与步骤ST26的基于机器人的驱动电流的回报的累积值的累积计算。进而,向步骤ST17前进,根据步骤ST27累积计算出的回报来更新行为价值表,再次返回到步骤ST11,重复同样的处理。由此,能够根据加工时间以及机器人的驱动电流来使机器人以及检流计式扫描器的动作最佳化。
图7是表示图2所示的机器学习装置中的处理的第三实施例的流程图。从图7与上述图6的比较可以明确,在本第三实施例中,不是图6所示的第二实施例的基于机器人的驱动电流的判定,而是进行基于检流计式扫描器13的指令路径的判定。即,除了图5所示的第一实施例的基于加工时间的判定之外,还进行基于检流计式扫描器的指令路径的判定。但是,在图5的步骤ST15设定的回报“+10”在图7中的步骤ST15’中与图6所示的第二实施例同样地为“+20”的回报。即,图7中的步骤ST11~ST17对应于图6的步骤ST11~ST7,省略其说明。
在本第三实施例中,在步骤ST11中,在根据行为价值表生成机器人11与检流计式扫描器13的指令路径时,向步骤ST32前进根据检流计式扫描器的指令路径来进行判定。在步骤ST32中,当判定为检流计式扫描器的指令路径短时,向步骤ST33前进设定“-5”的回报,当判定为检流计式扫描器的指令路径标准时,向步骤ST34前进设定“0”的回报,然后当判定为检流计式扫描器的指令路径长时,向步骤ST35前进设定“+5”的回报。进而,向步骤ST36前进,对基于检流计式扫描器的指令路径的回报进行累积计算,即,对在步骤ST33~ST35设定的回报进行累积计算。
然后,向步骤ST27前进,进行步骤ST16的基于加工时间的回报的累积值与步骤ST36的基于检流计式扫描器的指令路径的回报的累积值的累积计算。进而,向步骤ST17前进,根据步骤ST27累积计算出的回报,更新行为价值表,再次返回到步骤ST11,重复同样的处理。由此,能够根据加工时间以及检流计式扫描器的指令路径使机器人以及检流计式扫描器的动作最佳化。
图8是表示图2所示的机器学习装置中的处理的第四实施例的流程图。从图8与所述图6以及图7的比较可以明确,在本第四实施例中,除了图6所示的第二实施例的基于加工时间以及机器人的驱动电流的判定之外,还进行基于检流计式扫描器的指令路径的判定。即,图8中的步骤ST11~ST17以及ST22~ST27对应于图6中的步骤ST11~ST17以及ST22~ST27,图8的步骤(T11~ST17以及)ST32~ST36对应于图7的步骤(ST11~ST17以及)ST32~ST36。
另外,在本第四实施例中,在步骤ST27中,进行步骤ST16的基于加工时间的回报的累积值、步骤ST26的基于机器人的驱动电流的回报的累积值、步骤ST36的基于检流计式扫描器的指令路径的回报的累积值的累积计算。进而,向步骤ST17前进,根据在步骤ST27累积计算出的回报,更新行为价值表,再次返回到步骤ST11重复同样的处理。由此,能够根据加工时间、机器人的驱动电流以及检流计式扫描器的指令路径使机器人以及检流计式扫描器的动作最佳化。
图9是表示图2所示的机器学习装置中的处理的第五实施例的流程图。从图9与所述图7的比较可以明确,在本第五实施例中,不是图7所示的第三实施例的基于检流计式扫描器的指令路径的判定,而是进行基于检流计式扫描器13进行处理(焊接)的能够处理(焊接)范围的通过时间的判定。即,如果检流计式扫描器13进行焊接的能够焊接范围的通过时间(能够焊接范围WA11~WA16的区间内时间:参照图13B)长,则可以有富余地进行基于检流计式扫描器13的焊接处理(焊接动作时间),因此,进行基于能够焊接范围的通过时间的判定。另外,图9的步骤ST11~ST14、ST15’、ST16、ST17以及ST27与图7相同,省略其说明。
在本第五实施例中,在步骤ST11中,在根据行为价值表生成机器人11以及检流计式扫描器13的指令路径时,向步骤ST42前进,根据能够焊接范围的通过时间来进行判定。在步骤ST42中,当判定为能够焊接范围的通过时间短时,即当判定为不能有富余地进行基于检流计式扫描器13的焊接处理时,向步骤ST43前进设定“-5”的回报,当判定为能够焊接范围的通过时间标准时,向步骤ST44前进设定“0”的回报。此外,在步骤ST42中,当判定为能够焊接范围的通过时间长时,即当判定为能够有富余地进行基于检流计式扫描器13的焊接处理时,向步骤ST45前进设定“+5”的回报。进而,向步骤ST46前进,对基于能够焊接范围的通过时间的回报进行累积计算,即,对在步骤ST43~ST45设定的回报进行累积计算。
然后,向步骤ST27前进,进行步骤ST16的基于加工时间的回报的累积值与步骤ST46的基于能够焊接范围的通过时间的回报的累积值的累积计算。进而,向步骤ST17前进,根据在步骤ST27累积计算出的回报,更新行为价值表,再次返回到步骤ST11重复同样的处理。由此,能够根据加工时间以及能够焊接范围的通过时间使机器人以及检流计式扫描器的动作最佳化。
图10是表示图2所示的机器学习装置中的处理的第六实施例的流程图。从图10与所述图7的比较可以明确,在本第六实施例中,不是图7所示的第三实施例的基于检流计式扫描器的指令路径的判定,而是进行基于机器人11与检流计式扫描器13进行处理的部位之间的距离,即,机器人11(机器人系统1)与焊接位置WP11~WP16之间的距离的判定。这是因为,当机器人与焊接部位之间的距离短时,例如可以将来自检流计式扫描器13的激光光线垂直地照射到焊接位置WP11~WP16,而当机器人与焊接部位之间的距离长时,例如来自检流计式扫描器13的激光光线倾斜地照射于焊接部位,因此,焊接的质量相比于垂直照射的情况可能会降低,因此,进行基于机器人与焊接部位之间的距离的判定。另外,图9中的步骤ST11~ST14、ST15’、ST16、ST17以及ST27也与图7(9)相同,省略其说明。
在本第六实施例中,在步骤ST11中,在根据行为价值表生成机器人11与检流计式扫描器13的指令路径时,向步骤ST52前进,根据机器人与焊接部位之间的距离来进行判定。在步骤ST52中,当判定为机器人与焊接部位之间的距离长时,即当判定为来自检流计式扫描器13的激光光线可能倾斜地照射于焊接位置时,向步骤ST53前进设定“-5”的回报,当判定为机器人与焊接部位之间的距离标准时,向步骤ST54前进设定“0”的回报。此外,在步骤ST52中,当判定为机器人与焊接部位之间的距离短时,即,判定为来自检流计式扫描器13的激光光线大致垂直照射于焊接部位时,向步骤ST55前进设定“+5”的回报。进而,向步骤ST56前进,对基于机器人与焊接部位之间的距离的回报进行累积计算,即,对在步骤ST53~ST55设定的回报进行累积计算。
然后,向步骤ST27前进,进行步骤ST16的基于加工时间的回报的累积值与步骤ST56的基于机器人与焊接部位之间的距离的回报的累积值的累积计算。进而,向步骤ST17前进,根据在步骤ST27累积计算出的回报,更新行为价值表,再次返回到步骤ST11重复同样的处理。由此,能够根据加工时间以及机器人与焊接部位之间的距离使机器人和检流计式扫描器的动作最佳化。
以上,在回报计算部231中用于设定回报的判定数据并不局限于上述的加工时间、机器人的驱动电流、检流计式扫描器(激光扫描器)的指令路径、检流计式扫描器进行处理的可处理范围的通过时间、以及机器人与检流计式扫描器进行处理的部位之间的距离,这些判定条件可以任意组合。此外,本发明涉及的机器人系统的应用不限于进行激光焊接的远程激光焊接机器人系统,例如也可以是进行激光切割、激光打孔、金属加工、激光树脂焊接、树脂加工、表面加工以及表面改性这样的各种作业的机器人系统。并且,检流计式扫描器不限于使激光光线以XY方向的二维方式进行扫描,也可以是以三维方式进行扫描,此外,使用的激光光线的种类也可以是光纤激光、二氧化碳激光以及YAG激光等各种激光。并且,本发明的应用不限于上述实施例的检流计式扫描器,例如如上所述可以广泛地应用于穿孔头或多面扫描器等所有激光扫描器。
根据本发明涉及的机器学习装置、机器人系统以及机器学习方法,获得可以使机器人以及检流计式扫描器的动作最佳化这样的效果。
以上,对实施方式进行了说明,而这里所记载的所有示例和条件是以有助于理解应用于发明以及技术的发明概念为目的而记载的,特别记载的示例和条件并不意味着限制发明范围。此外,说明书的记载也不表示发明的优点和缺点。详细地记载了发明的实施方式,但是本领域人员应当理解在不脱离发明精神以及范围的情况下可以进行各种变更、置换、变形。

Claims (15)

1.一种学习机器人以及激光扫描器的动作的机器学习装置,其特征在于,该机器学习装置具有:
状态观测部,其将安装有所述激光扫描器的所述机器人的末端的状态和所述激光扫描器中光学部件的状态作为状态数据来进行观测;
判定数据取得部,其将以下信息中的至少一个作为判定数据来接收:安装有所述激光扫描器的所述机器人进行的加工时间、驱动所述机器人的驱动电流、所述激光扫描器的指令路径、所述激光扫描器进行处理的可处理范围的通过时间、以及所述机器人与所述激光扫描器进行处理的部位之间的距离;以及
学习部,其根据所述状态观测部的输出以及所述判定数据取得部的输出,学习所述机器人以及激光扫描器的动作。
2.根据权利要求1所述的机器学习装置,其特征在于,
所述状态观测部观测安装有所述激光扫描器的所述机器人的末端的位置、速度以及加速度。
3.根据权利要求1或2所述的机器学习装置,其特征在于,
所述状态观测部观测所述激光扫描器中光学部件的位置、速度以及加速度。
4.根据权利要求1~3中任一项所述的机器学习装置,其特征在于,
所述机器学习装置还具有:决策部,其根据所述学习部学习到的所述机器人以及激光扫描器的动作,决定输出给所述机器人以及所述激光扫描器的行为输出。
5.根据权利要求1~4中任一项所述的机器学习装置,其特征在于,
所述学习部具有:
回报计算部,其根据所述状态观测部的输出以及所述判定数据取得部的输出,计算回报;以及
价值函数更新部,其根据所述状态观测部的输出、所述判定数据取得部的输出以及所述回报计算部的输出,更新价值函数,该价值函数用于决定所述机器人以及激光扫描器的动作的价值。
6.根据权利要求5所述的机器学习装置,其特征在于,
所述回报计算部在所述机器人进行的加工时间长时设定负回报,在所述机器人进行的加工时间短时设定正回报。
7.根据权利要求5或6所述的机器学习装置,其特征在于,
所述回报计算部在所述激光扫描器的指令路径短时设定负回报,在所述激光扫描器的指令路径长时设定正回报,或者,
所述回报计算部在驱动所述机器人的驱动电流多时设定负回报,在驱动所述机器人的驱动电流少时设定正回报。
8.根据权利要求5~7中任一项所述的机器学习装置,其特征在于,
所述回报计算部在所述激光扫描器进行处理的可处理范围的通过时间短时设定负回报,在所述激光扫描器进行处理的可处理范围的通过时间长时设定正回报,或者,
所述回报计算部在所述机器人与所述激光扫描器进行处理的部位之间的距离长时设定负回报,在所述机器人与所述激光扫描器进行处理的部位之间的距离短时设定正回报。
9.根据权利要求1~8中任一项所述的机器学习装置,其特征在于,
所述机器学习装置具有神经网络。
10.根据权利要求1~9中任一项所述的机器学习装置,其特征在于,
所述机器学习装置被设置给各所述机器人,所述机器学习装置能够与至少一个其他机器学习装置相连接,并在所述机器学习装置与至少一个所述其他机器学习装置之间相互交换或共享机器学习的结果。
11.根据权利要求1~9中任一项所述的机器学习装置,其特征在于,
所述机器学习装置存在于云服务器或者雾服务器上。
12.一种机器人系统,其特征在于,具有:机器人控制装置、由所述机器人控制装置控制的所述机器人、激光扫描器控制装置、由所述激光扫描器控制装置控制的所述激光扫描器、以及权利要求1~11中任一项所述的机器学习装置。
13.根据权利要求12所述的机器人系统,其特征在于,
所述机器人是通过从所述激光扫描器射出的激光光线进行焊接的远程激光焊接机器人。
14.一种机器学习方法,用于学习机器人以及激光扫描器的动作,其特征在于,
将安装有所述激光扫描器的所述机器人的末端的状态和所述激光扫描器中光学部件的状态作为状态数据来进行观测,
将以下信息中的至少一个作为判定数据来接收:安装有所述激光扫描器的所述机器人进行的加工时间、驱动所述机器人的驱动电流、所述激光扫描器的指令路径、所述激光扫描器进行处理的可处理范围的通过时间、以及所述机器人与所述激光扫描器进行处理的部位之间的距离,
根据观测到的所述状态数据以及取得的所述判定数据,学习所述机器人以及激光扫描器的动作。
15.根据权利要求14所述的机器学习方法,其特征在于,
学习所述机器人以及激光扫描器的动作包括:
根据观测到的所述状态数据以及取得的所述判定数据,计算回报,
根据观测到的所述状态数据、取得的所述判定数据以及计算出的所述回报,更新价值函数,该价值函数用于决定所述机器人以及激光扫描器的动作的价值。
CN201711351403.0A 2016-12-16 2017-12-15 机器学习装置、机器人系统以及机器学习方法 Active CN108202327B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-244714 2016-12-16
JP2016244714A JP6457473B2 (ja) 2016-12-16 2016-12-16 ロボットおよびレーザスキャナの動作を学習する機械学習装置,ロボットシステムおよび機械学習方法

Publications (2)

Publication Number Publication Date
CN108202327A true CN108202327A (zh) 2018-06-26
CN108202327B CN108202327B (zh) 2020-03-13

Family

ID=62251184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711351403.0A Active CN108202327B (zh) 2016-12-16 2017-12-15 机器学习装置、机器人系统以及机器学习方法

Country Status (4)

Country Link
US (1) US10780577B2 (zh)
JP (1) JP6457473B2 (zh)
CN (1) CN108202327B (zh)
DE (1) DE102017011361B4 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108927806A (zh) * 2018-08-13 2018-12-04 哈尔滨工业大学(深圳) 一种应用于大批量重复性加工的工业机器人学习方法
CN110238855A (zh) * 2019-06-24 2019-09-17 浙江大学 一种基于深度逆向强化学习的机器人乱序工件抓取方法
CN110871433A (zh) * 2018-08-31 2020-03-10 发那科株式会社 示教装置、示教方法以及存储介质
CN111232884A (zh) * 2018-11-29 2020-06-05 株式会社日立制作所 自主体系统及其控制方法
CN111452020A (zh) * 2020-05-08 2020-07-28 深圳中科捷飞科技有限公司 一种无人值守的计量间、阀组间机器人及其控制方法
CN111604589A (zh) * 2019-02-25 2020-09-01 发那科株式会社 激光加工装置
CN112384867A (zh) * 2018-07-11 2021-02-19 三菱电机株式会社 机器学习装置、数控加工程序生成装置及机器学习方法
CN113032909A (zh) * 2021-04-06 2021-06-25 东北大学 一种分子动力学指导的机器学习的激光制孔结果预测方法
CN113412177A (zh) * 2018-12-27 2021-09-17 川崎重工业株式会社 机器人控制装置、机器人系统以及机器人控制方法
CN113950393A (zh) * 2019-06-06 2022-01-18 三菱电机株式会社 参数计算装置、机器人控制系统及机器人系统
CN114341754A (zh) * 2019-08-28 2022-04-12 百超激光有限公司 对切割处理中的激光切割头运动的控制
CN110871433B (zh) * 2018-08-31 2024-05-14 发那科株式会社 示教装置、示教方法以及存储介质

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6616170B2 (ja) * 2015-12-07 2019-12-04 ファナック株式会社 コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法
JP6382897B2 (ja) * 2016-09-08 2018-08-29 ファナック株式会社 レーザ溶接システム
JP6549644B2 (ja) * 2017-06-27 2019-07-24 ファナック株式会社 機械学習装置、ロボット制御システム及び機械学習方法
JP6519896B1 (ja) * 2018-03-15 2019-05-29 オムロン株式会社 学習装置、学習方法、及びそのプログラム
JP6810087B2 (ja) 2018-03-29 2021-01-06 ファナック株式会社 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
WO2020031948A1 (ja) * 2018-08-06 2020-02-13 国立大学法人東京大学 レーザ加工システムに用いられる機械学習方法、シミュレーション装置、レーザ加工システム並びにプログラム
JP7110884B2 (ja) 2018-10-01 2022-08-02 オムロン株式会社 学習装置、制御装置、学習方法、及び学習プログラム
JP6836571B2 (ja) 2018-11-14 2021-03-03 ファナック株式会社 ロボット装置
JP7247552B2 (ja) * 2018-11-29 2023-03-29 京セラドキュメントソリューションズ株式会社 学習装置、ロボット制御装置、及びロボット制御システム
IT201900000995A1 (it) * 2019-01-23 2020-07-23 Nuovo Pignone Tecnologie Srl Apparecchiatura robotica industriale con generazione di percorso di lavorazione migliorata e metodo per azionare un' apparecchiatura robotica industriale secondo un percorso di lavorazione migliorato
JP7133497B2 (ja) * 2019-03-05 2022-09-08 株式会社日立製作所 移動範囲設定システム及び移動範囲設定方法
EP3931649A1 (en) * 2019-04-03 2022-01-05 Siemens Industry Software Inc. System and method for design and manufacture using multi-axis machine tools
WO2020208826A1 (ja) * 2019-04-12 2020-10-15 株式会社ニコン ロボットシステム、エンドエフェクタシステム、エンドエフェクタユニット、及びアダプタ
US11474512B2 (en) 2019-06-13 2022-10-18 Mitsubishi Electric Corporation Machining failure detection device, laser cutting apparatus, and electric discharge machining apparatus
EP3786736A1 (en) 2019-08-28 2021-03-03 Bystronic Laser AG Control for a laser cutting head movement in a cutting process
JP7021158B2 (ja) * 2019-09-04 2022-02-16 株式会社東芝 ロボットシステムおよび駆動方法
DE102019213676B3 (de) * 2019-09-10 2020-09-17 Kuka Deutschland Gmbh Robotersteuerung
JP7339113B2 (ja) * 2019-10-09 2023-09-05 ファナック株式会社 ロボット制御装置及びロボット制御方法
DE102019216560B4 (de) 2019-10-28 2022-01-13 Robert Bosch Gmbh Verfahren und Vorrichtung zum Trainieren von Manipulationsfertigkeiten eines Robotersystems
DE102020200165B4 (de) * 2020-01-09 2022-05-19 Robert Bosch Gesellschaft mit beschränkter Haftung Robotersteuereinrichtung und Verfahren zum Steuern eines Roboters
DE102020204388A1 (de) 2020-04-03 2021-10-07 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Ansteuern eines Agenten
JP2022021462A (ja) * 2020-07-22 2022-02-03 セイコーエプソン株式会社 ロボットの教示制御方法、ロボットシステム、及び、コンピュータープログラム
CN112059407A (zh) * 2020-09-17 2020-12-11 苏州快光科技有限公司 一种基于深度学习的皮秒超快激光加工系统及方法
US20220134537A1 (en) * 2020-10-29 2022-05-05 Nvidia Corporation Transformation of joint space coordinates using machine learning
DE102021109336B4 (de) 2021-04-14 2023-06-01 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Trainieren eines Neuronalen Netzes zum Steuern eines Roboters für eine Einsetzaufgabe
DE102021109332B4 (de) 2021-04-14 2023-07-06 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Steuern eines Roboters zum Einsetzen eines Objekts in eine Einsetzstelle
DE102021109333B4 (de) 2021-04-14 2023-07-06 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Trainieren eines Neuronalen Netzes zum Steuern eines Roboters für eine Einsetzaufgabe
DE102021109334B4 (de) 2021-04-14 2023-05-25 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Trainieren eines Neuronalen Netzes zum Steuern eines Roboters für eine Einsetzaufgabe
CN113673782B (zh) * 2021-09-06 2024-02-23 中导光电设备股份有限公司 多显微镜扫描拍照路径优化方法和装置
DE102022124067A1 (de) 2022-09-20 2024-03-21 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Ermitteln eines von einem Roboter auszuführenden Arbeitsvorgangs, Verfahren zum Ermitteln und Prüfen eines von einer Anlage auszuführenden Arbeitsvorgangs, Vorrichtung zur Datenverarbeitung, Computerprogramm und computerlesbares Medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006247677A (ja) * 2005-03-09 2006-09-21 Fanuc Ltd レーザ溶接教示装置及び方法
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN105537821A (zh) * 2015-11-30 2016-05-04 马鞍山万普实业发展有限公司 一种具备学习控制功能的高自由度点焊机器人
CN105798923A (zh) * 2016-05-16 2016-07-27 苏州金建达智能科技有限公司 一种用于儿童的家用助教机器人系统

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4922584A (zh) 1972-06-28 1974-02-28
JPH10143218A (ja) * 1996-11-08 1998-05-29 Nissan Motor Co Ltd ロボットのサイクルタイム予測装置
DE10255037A1 (de) * 2002-11-26 2004-06-09 Kuka Roboter Gmbh Verfahren und Vorrichtung zum Bearbeiten eines Werkstücks
DE102005039582A1 (de) * 2004-09-15 2006-03-30 Daimlerchrysler Ag Verfahren zum Vorbehandeln eines mit einem Laserstrahl zu bearbeitenden Werkstückes und Vorrichtung zur Durchführung des Verfahrens
US20060060573A1 (en) * 2004-09-15 2006-03-23 Wolfgang Becker Process for preparing a workpiece to be worked with a laser beam, and device for carrying out the process
JP4922584B2 (ja) 2004-12-10 2012-04-25 株式会社安川電機 ロボットシステム
JP4792901B2 (ja) 2005-09-30 2011-10-12 日産自動車株式会社 レーザ溶接装置およびその方法、ならびに照射装置
JP2007098464A (ja) * 2005-10-07 2007-04-19 Nissan Motor Co Ltd レーザー加工ロボット制御装置、レーザー加工ロボット制御方法およびレーザー加工ロボット制御プログラム
JP4175422B2 (ja) * 2006-04-24 2008-11-05 日産自動車株式会社 加工用ビーム照射装置の照射可能領域認識方法および照射可能領域認識装置並びに加工用ビーム照射装置の移動経路設定方法
DE102006020680A1 (de) * 2006-04-27 2007-10-31 Carl Zeiss Industrielle Messtechnik Gmbh Verfahren und Vorrichtung zum positionsgenauen Triggern eines wahlweise aktivierbaren Maschinenteils
EP2062674B1 (de) * 2007-11-20 2016-11-02 TRUMPF Werkzeugmaschinen GmbH + Co. KG Verfahren zum Vorbereiten und zum Durchführen eines Laserschweissprozesses
US9311917B2 (en) * 2009-01-21 2016-04-12 International Business Machines Corporation Machine, system and method for user-guided teaching of deictic references and referent objects of deictic references to a conversational command and control system
JP5405252B2 (ja) * 2009-09-18 2014-02-05 本田技研工業株式会社 学習制御システム及び学習制御方法
JP5828539B2 (ja) * 2011-02-02 2015-12-09 国立大学法人金沢大学 ロボットの運動方法決定装置、ロボットの運動方法決定方法、及び、そのプログラム
US8947522B1 (en) * 2011-05-06 2015-02-03 Google Inc. Systems and methods to adjust actions based on latency levels
US8886359B2 (en) * 2011-05-17 2014-11-11 Fanuc Corporation Robot and spot welding robot with learning control function
US9533413B2 (en) * 2014-03-13 2017-01-03 Brain Corporation Trainable modular robotic apparatus and methods
JP5877867B2 (ja) * 2014-04-25 2016-03-08 ファナック株式会社 複数台のロボットのシミュレーション装置
DE102014212747A1 (de) * 2014-07-01 2016-01-07 Siemens Aktiengesellschaft Interaktives Assistenzsystem und Verfahren zur rechnergestützten Steuerungsoptimierung für ein technisches System
JP5890477B2 (ja) * 2014-07-09 2016-03-22 ファナック株式会社 ロボットプログラム修正システム
FI20155077A (fi) * 2015-02-06 2016-08-07 Lappeenrannan Teknillinen Yliopisto Hitsausjärjestelmä
JP6420683B2 (ja) * 2015-02-10 2018-11-07 株式会社アマダホールディングス オンザフライ経路生成装置及び方法
JP6242359B2 (ja) * 2015-03-19 2017-12-06 ヤフー株式会社 情報処理装置及び方法
EP3075496B1 (en) * 2015-04-02 2022-05-04 Honda Research Institute Europe GmbH Method for improving operation of a robot
DE112016001831B4 (de) * 2015-05-21 2019-09-19 Kastanienbaum GmbH Verfahren und Vorrichtung zur Steuerung/Regelung eines aktorisch angetriebenen Robotergelenks
US10114618B2 (en) * 2015-06-08 2018-10-30 Cisco Technology, Inc. Autonomous mobile sensor movement path simulation with an integrated developer environment
CA2993824A1 (en) * 2015-07-29 2017-02-02 Illinois Tool Works Inc. System and method to facilitate welding software as a service
PL3412399T3 (pl) * 2015-10-23 2021-10-25 Bystronic Laser Ag Sposób kontrolowania procesów cięcia laserowego w zakresie dużej mocy z przerywaniem procesu cięcia, odpowiednie urządzenie i produkt w postaci programu komputerowego
JP6339603B2 (ja) * 2016-01-28 2018-06-06 ファナック株式会社 レーザ加工開始条件を学習する機械学習装置、レーザ装置および機械学習方法
JP6114421B1 (ja) * 2016-02-19 2017-04-12 ファナック株式会社 複数の産業機械の作業分担を学習する機械学習装置,産業機械セル,製造システムおよび機械学習方法
JP6514166B2 (ja) * 2016-09-16 2019-05-15 ファナック株式会社 ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法
JP6470251B2 (ja) * 2016-12-26 2019-02-13 ファナック株式会社 数値制御装置及び機械学習装置
US10875125B2 (en) * 2017-06-20 2020-12-29 Lincoln Global, Inc. Machine learning for weldment classification and correlation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006247677A (ja) * 2005-03-09 2006-09-21 Fanuc Ltd レーザ溶接教示装置及び方法
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN105537821A (zh) * 2015-11-30 2016-05-04 马鞍山万普实业发展有限公司 一种具备学习控制功能的高自由度点焊机器人
CN105798923A (zh) * 2016-05-16 2016-07-27 苏州金建达智能科技有限公司 一种用于儿童的家用助教机器人系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112384867B (zh) * 2018-07-11 2021-10-29 三菱电机株式会社 机器学习装置、数控加工程序生成装置及机器学习方法
CN112384867A (zh) * 2018-07-11 2021-02-19 三菱电机株式会社 机器学习装置、数控加工程序生成装置及机器学习方法
CN108927806A (zh) * 2018-08-13 2018-12-04 哈尔滨工业大学(深圳) 一种应用于大批量重复性加工的工业机器人学习方法
CN110871433A (zh) * 2018-08-31 2020-03-10 发那科株式会社 示教装置、示教方法以及存储介质
CN110871433B (zh) * 2018-08-31 2024-05-14 发那科株式会社 示教装置、示教方法以及存储介质
CN111232884A (zh) * 2018-11-29 2020-06-05 株式会社日立制作所 自主体系统及其控制方法
CN111232884B (zh) * 2018-11-29 2022-01-04 株式会社日立制作所 自主体系统及其控制方法
CN113412177A (zh) * 2018-12-27 2021-09-17 川崎重工业株式会社 机器人控制装置、机器人系统以及机器人控制方法
CN111604589A (zh) * 2019-02-25 2020-09-01 发那科株式会社 激光加工装置
CN111604589B (zh) * 2019-02-25 2023-08-04 发那科株式会社 激光加工装置
CN113950393B (zh) * 2019-06-06 2023-11-17 三菱电机株式会社 参数计算装置、机器人控制系统及机器人系统
CN113950393A (zh) * 2019-06-06 2022-01-18 三菱电机株式会社 参数计算装置、机器人控制系统及机器人系统
CN110238855A (zh) * 2019-06-24 2019-09-17 浙江大学 一种基于深度逆向强化学习的机器人乱序工件抓取方法
CN114341754A (zh) * 2019-08-28 2022-04-12 百超激光有限公司 对切割处理中的激光切割头运动的控制
CN111452020A (zh) * 2020-05-08 2020-07-28 深圳中科捷飞科技有限公司 一种无人值守的计量间、阀组间机器人及其控制方法
CN113032909B (zh) * 2021-04-06 2023-09-05 东北大学 一种分子动力学指导的机器学习的激光制孔结果预测方法
CN113032909A (zh) * 2021-04-06 2021-06-25 东北大学 一种分子动力学指导的机器学习的激光制孔结果预测方法

Also Published As

Publication number Publication date
DE102017011361B4 (de) 2020-08-13
US10780577B2 (en) 2020-09-22
DE102017011361A1 (de) 2018-06-21
JP2018097810A (ja) 2018-06-21
CN108202327B (zh) 2020-03-13
US20180169856A1 (en) 2018-06-21
JP6457473B2 (ja) 2019-01-23

Similar Documents

Publication Publication Date Title
CN108202327A (zh) 机器学习装置、机器人系统以及机器学习方法
CN107825422A (zh) 机械学习装置、机器人系统以及机械学习方法
CN107390684B (zh) 一种多机器人协同的汽车零配件焊接最优路径规划方法
CN108115682A (zh) 机械学习装置、机器人系统以及机械学习方法
CN108393888A (zh) 控制装置、机器人以及机器人系统
CN108393889A (zh) 控制装置、机器人以及机器人系统
CN108393890A (zh) 控制装置、机器人以及机器人系统
CN108393891A (zh) 控制装置、机器人以及机器人系统
CN106312397A (zh) 一种激光视觉引导的焊接轨迹自动跟踪系统及方法
CN110434856B (zh) 一种焊接控制方法、装置、存储介质及焊接机器人
CN113329836A (zh) 借助深度卷积神经网络监测激光加工过程
Zhang et al. Adaptive intelligent welding manufacturing
CN113634964B (zh) 一种大型构件龙门式机器人焊接装备及焊接工艺
EP0149651A1 (en) Method and apparatus for outlining the environment of a multiarticular duty machine by means of a laser pointer
Kim et al. A robust visual seam tracking system for robotic arc welding
CN114633021A (zh) 一种实时视觉采集的激光焊接方法及其装置
CN116117373A (zh) 用于船舶中小组立构件的智能焊接方法及系统
CN115346413A (zh) 一种基于虚实融合的装配指导方法及系统
González-Galván et al. An optimal path-generation algorithm for manufacturing of arbitrarily curved surfaces using uncalibrated vision
CN110370276A (zh) 基于三维模型Morse分解的工业机器人加工轨迹自动规划方法
Cui et al. A multi-sensor next-best-view framework for geometric model-based robotics applications
CN104907343B (zh) 一种坯头自动导引系统及方法
Carruth et al. Integrating perception, cognition and action for digital human modeling
Chen et al. Toward Safe Distributed Multi-Robot Navigation Coupled With Variational Bayesian Model
Tian et al. Fruit Picking Robot Arm Training Solution Based on Reinforcement Learning in Digital Twin

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant