CN108732963B - 控制装置及机器学习装置 - Google Patents

控制装置及机器学习装置 Download PDF

Info

Publication number
CN108732963B
CN108732963B CN201810326649.0A CN201810326649A CN108732963B CN 108732963 B CN108732963 B CN 108732963B CN 201810326649 A CN201810326649 A CN 201810326649A CN 108732963 B CN108732963 B CN 108732963B
Authority
CN
China
Prior art keywords
state
learning
heat
unit
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810326649.0A
Other languages
English (en)
Other versions
CN108732963A (zh
Inventor
小林侑太
大槻秀树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of CN108732963A publication Critical patent/CN108732963A/zh
Application granted granted Critical
Publication of CN108732963B publication Critical patent/CN108732963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0423Input/output
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/005Manipulators for mechanical processing tasks
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L21/00Processes or apparatus adapted for the manufacture or treatment of semiconductor or solid state devices or of parts thereof
    • H01L21/02Manufacture or treatment of semiconductor devices or of parts thereof
    • H01L21/04Manufacture or treatment of semiconductor devices or of parts thereof the devices having at least one potential-jump barrier or surface barrier, e.g. PN junction, depletion layer or carrier concentration layer
    • H01L21/48Manufacture or treatment of parts, e.g. containers, prior to assembly of the devices, using processes not provided for in a single one of the subgroups H01L21/06 - H01L21/326
    • H01L21/4814Conductive parts
    • H01L21/4871Bases, plates or heatsinks
    • H01L21/4882Assembly of heatsink parts
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/25Pc structure of the system
    • G05B2219/25257Microcontroller
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L23/00Details of semiconductor or other solid state devices
    • H01L23/34Arrangements for cooling, heating, ventilating or temperature compensation ; Temperature sensing arrangements
    • H01L23/40Mountings or securing means for detachable cooling or heating arrangements ; fixed by friction, plugs or springs
    • H01L23/4006Mountings or securing means for detachable cooling or heating arrangements ; fixed by friction, plugs or springs with bolts or screws
    • H01L2023/4037Mountings or securing means for detachable cooling or heating arrangements ; fixed by friction, plugs or springs with bolts or screws characterised by thermal path or place of attachment of heatsink
    • H01L2023/4068Heatconductors between device and heatsink, e.g. compliant heat-spreaders, heat-conducting bands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S901/00Robots
    • Y10S901/02Arm motion controller
    • Y10S901/03Teaching system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S901/00Robots
    • Y10S901/30End effector
    • Y10S901/41Tool

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Manufacturing & Machinery (AREA)
  • Computer Hardware Design (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Power Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及控制装置及机器学习装置。控制装置具备学习基于机器人的放热板的粘接动作的动作参数的机器学习装置,该机器学习装置将动作参数数据和导热体状态数据作为表示环境的当前状态的状态变量来进行观测,另外,获取表示粘接动作的适当与否判定结果的判定数据,并使用这些状态变量和判定数据,将动作参数与导热体状态数据关联起来进行学习。

Description

控制装置及机器学习装置
技术领域
本发明涉及控制装置及机器学习装置,尤其涉及一种学习将放热板粘接于电子元件时的机器人的最优动作参数的控制装置及机器学习方法。
背景技术
过去,具有为了对基板实际安装电气部件等而利用机器人的技术(例如,参照日本特开平08-112788号公报)。在利用机器人的电气部件的实际安装中,在机器臂的前端安装用于把持部件的工具,并将通过该工具把持的电气部件等定位于基板上的预定的位置并进行实际安装。
在实际安装于基板的电气部件中,存在需要安装放热板的电气部件。在对电气部件安装放热板的情况下,如图8A~图8C所例示,在安装于机器臂1的前端的工具2上实际安装电气部件5的基础上,将在接触于该电气部件5的面涂覆了硅粘合剂等导热体的放热板3定位于该电气部件5的上方的预定位置后(图8A),以预定的速度将放热板3移动至与电子元件的粘接位置(图8B),并将向电气部件5按压放热板3(图8C),由此将放热板3粘接于电气部件5。
此处,使放热板3移动至与电气部件5的粘接位置的速度、对放热板3的电气部件5的按压压力和按压时间影响粘接后的放热板3与电气部件5之间的导热体的面积和膜厚。以往,在利用机器人对电气部件自动粘接放热板的情况下,作业者预先对机器人示教粘接放热板时的动作,一边管理放热板与电气部件之间的导热体的膜厚一边进行粘接作业。
当通过示教进行基于机器人的放热板对电气部件的自动粘接时,作业者进行示教,以使机器人的动作最优化并使工时变得更短,但是在图8A的时刻,若将放热板3定位于远离电子部件5的位置,则工时变长,另一方面,若将放热板3定位于靠近电气部件5的位置,则工时变短,但是当将放热板3移动至粘接位置时,有时无法达到预定速度。
另外,在为了缩短工时而将图8B的阶段中的、将放热板3移动至粘接位置的速度设定得较高的情况下,有时也会在导热体4与电气部件5碰撞时发生飞散,或者电气部件5因碰撞时的冲击而破损。
进一步地,在图8C的阶段中,若使将放热板向电气部件5按压的压力过高,则会成为电气部件5或基板破损的原因,另一方面,若降低将放热板3向电气部件5按压的压力或者缩短将放热板3向电气部件5按压的时间,则放热板3对电气部件5粘接不充分,或者无法维持适当的膜厚。
这样,对电气部件自动粘接放热板时的动作参数的决定关系到工时或产品的品质,但由于适当的动作参数的值将根据导热体的类别(与导热体的粘度相关)、导热体的涂覆量、温度或湿度(影响导热体的粘度)、或者基板或电子部件的类别(与基板或电子部件的强度相关)等而变化,因而作业者需要一遍重复试错一遍决定动作参数,从而存在对作业者形成较大负担的问题。
发明内容
因此,本发明的目的在于,提供能够决定将放热板粘接于电子元件时的机器人的最优动作参数的控制装置及机器学习装置。
在本发明的控制装置中,随机地改变机器人的动作参数(指令位置、臂速度、按压压力、按压时间)并收集进行放热板向电气部件的粘接动作时所获取的导热体的膜厚或粘接动作的工时等数据,并进行以这些数据为监督数据的机器学习,由此能够适应于任何状态并导出在较短的作业时间内获得导热体的膜厚为适当状态的产品的动作参数。
本发明的一实施方式的控制装置控制用于经由导热体对电气部件粘接放热板的机器人,该控制装置具备:机器学习装置,其学习基于所述机器人的所述放热板的粘接动作的动作参数。并且,所述机器学习装置具备:状态观测部,其将表示所述动作参数的动作参数数据和表示所述导热体所涉及的状态的导热体状态数据作为表示环境的当前状态的状态变量来进行观测;判定数据获取部,其获取表示所述粘接动作的适当与否判定结果的判定数据;以及学习部,其使用所述状态变量和所述判定数据,将所述动作参数与所述导热体状态数据关联起来进行学习。
所述状态观测部还可以将识别所述电气部件的类别的电气部件类别信息和识别组装有所述电气部件的基板的类别的基板类别信息中的至少任一个作为所述状态变量进行观测,除了所述导热体状态数据外,所述学习部将所述动作参数与所述电气部件类别信息和所述基板类别信息中的至少任一个关联起来进行学习。
所述学习部可以具备:回报计算部,其求出与所述适当与否判定结果相关的回报;以及价值函数更新部,其使用所述回报来更新表示针对所述导热体所涉及的状态的所述动作参数的价值的函数。
所述学习部可以以多层结构来运算所述状态变量和所述判定数据。
所述控制装置还可以具备:决策部,其基于所述学习部的学习结果,输出基于所述动作参数的指令值。
所述学习部可以使用对多个机器人分别获得的所述状态变量和所述判定数据,来学习该多个机器人各自的所述动作参数。
所述机器学习装置可以存在于云服务器或单元控制器。
本发明的另一实施方式的机器学习装置学习基于用于经由导热体对电气部件粘接放热板的机器人的所述放热板的粘接动作的动作参数,该机器学习装置具备:状态观测部,其将表示所述动作参数的动作参数数据和表示所述导热体所涉及的状态的导热体状态数据作为表示环境的当前状态的状态变量来进行观测;判定数据获取部,其获取表示所述粘接动作的适当与否判定结果的判定数据;以及学习部,其使用所述状态变量和所述判定数据,将所述动作参数与所述导热体状态数据关联起来进行学习。
根据本发明,无需人力介入且不被导热体的状态或环境所左右,即可维持适当的膜厚的同时缩短自动粘接的工时。
附图说明
图1是本发明的第一实施方式的控制装置的概略性的功能框图。
图2是表示控制装置的一实施方式的概略性的功能框图。
图3是表示机器学习方法的一实施方式的概略性的流程图。
图4A是说明神经元的图。
图4B是说明神经网络的图。
图5是本发明的第二实施方式的控制装置的概略性的功能框图。
图6是表示部件实际安装系统的一实施方式的概略性的功能框图。
图7是表示部件实际安装系统的另一实施方式的概略性的功能框图。
图8A-图8C是说明现有技术的基于机器人的放热板向电气部件的粘接动作的图。
具体实施方式
图1是第一实施方式的控制装置10的概略性的功能框图。
控制装置10例如可以被实际安装为控制在安装在基板上的电气部件上粘接放热板的机器人(未图示)的控制装置。控制装置10具备:机器学习装置20,其包括用于通过所谓的机器学习来自行学习基于机器人的放热板的粘接动作中的动作参数(指令位置、臂速度、按压压力、按压时间等)的软件(学习算法等)和硬件(计算机的CPU等)。控制装置10所具备的机器学习装置20所学习的动作参数相当于表示用于放热板的粘接的导热体所涉及的状态与基于该状态下的机器人的放热板的粘接动作中的动作参数的相关性的模型结构。
如图1中通过功能框所示,控制装置10所具备的机器学习装置20具备:状态观测部22,其观测表示环境的当前状态的状态变量S,所述表示环境的当前状态的状态变量S包括表示对用于放热板的粘接的导热体所涉及的状态设定的动作参数的参数数据S1和表示用于放热板的粘接的导热体所涉及的状态的导热体状态数据S2;判定数据获取部24,其获取表示在已设定的动作参数下的基于机器人的放热板的粘接动作的适当与否判定结果的判定数据D;以及学习部26,其使用状态变量S和判定数据D,将动作参数数据S1和导热体状态数据S2关联起来进行学习。
状态观测部22例如可以构成为计算机的CPU的一个功能,也可以构成为用于使计算机的CPU发挥功能的软件。在状态观测部22所观测的状态变量S中,动作参数数据S1例如可以使用被熟练的作业者申告而给予控制装置10的动作参数的申告数据,或者使用从机器人或该机器人的控制装置获取的基于该机器人的放热板的粘接动作的日志数据等。动作参数数据S1例如可以使用表示放热板的粘接动作的开始位置的指令位置、粘接动作时的臂速度、粘接动作时的放热板对电气部件的按压压力以及按压时间等。
另外,在状态变量S中,导热体状态数据S2例如可以使用附设于机器人的温度传感器或湿度传感器等各种传感器(未图示)所实测出的值、从用于进行对基板的电气部件等的实际安装的系统的各种机器人或机器人的控制装置获取的设定值等。导热体状态数据S2可以使用导热体的涂覆量(从在放热板上涂覆导热体的粘合剂装置的设定值等中获取)、导热体的类别(从在放热板上涂覆导热体的粘合剂装置的设定值等中获取)、对基板实际安装电气部件等的环境的温度(从温度传感器获取)或湿度(从湿度传感器获取)等。
判定数据获取部24例如可以构成为计算机的CPU的一个功能,另外,也可以构成为用于使计算机的CPU发挥功能的软件。可以使用在完成基于机器人的放热板的粘接动作后,例如由附设于该机器人的第一测量装置(未图示)实测出的值、从机器人或控制该机器人的控制装置获取的值等,由此获取判定数据获取部24所获取的判定数据D。判定数据D例如可以使用被粘接的放热板与电气部件之间的导热体的厚度、基于机器人的粘接动作所需的工时等。判定数据D是表示在状态变量S下执行基于机器人的放热板的粘接动作时的结果的指标,其间接地表示粘接动作的状态。
第一测量装置是用于测量被粘接的放热板与电气部件之间的导热体的厚度的测量装置。第一测量装置例如测量位于电气部件上的放热板的上端距离基准位置的高度等,在这种情况下,可以通过预先对在没有导热体的状态下置于电气部件上的放热板的高度作为基准值进行测量并存储,并在基于机器人的粘接动作后由第一测量装置测量的值减去该基准值来测量被粘接的放热板与电气部件之间的导热体的厚度。该运算例如也可以由控制装置10进行,或者由状态观测部22自身进行。第一测量装置可以固定于进行电气部件的实际安装的系统的任一位置,另外,也可以安装于机器人的臂。作为第一测量装置,可以采用光学摄像装置、红外线激光器、超声波测量仪等。
这样,在控制装置10所具备的机器学习装置20进行学习的期间、环境中,进行来自传感器等的导热体状态数据S2的获取、基于机器人的放热板的粘接作业的实施、以及来自第一测量装置等的判定数据D的获取。
学习部26例如可以构成为计算机的CPU的一个功能,或者,也可以构成为用于使计算机的CPU发挥功能的软件。学习部26按照统称为机器学习的任意的学习算法,来学习基于机器人的放热板的粘接动作的动作参数。学习部26可以针对基于机器人的多个放热板的粘接动作,重复执行基于包括上述状态变量S和判定数据D的数据集合的学习。在对基于机器人的多个放热板的粘接动作的学习周期的重复中,假定状态变量S中的动作参数数据S1为在截至上次的学习周期中获得的动作参数,另外,假定判定数据D为针对基于该已决定的动作参数的基于机器人的放热板的粘接动作的适当与否判定结果。
通过重复这样的学习周期,学习部26可以自动地识别对导热体所涉及的状态(导热体状态数据S2)与基于机器人的放热板的粘接动作的动作参数的相关性进行暗示的特征。在开始学习算法时,导热体状态数据S2与动作参数的相关性实质上是未知的,然而,随着进行学习,学习部26逐渐识别特征并解释相关性。若导热体状态数据S2与动作参数的相关性被解释至某种程度上能够信赖的水准,则学习部26所反复输出的学习结果可以用于进行行动的选择(即决策),所述行动的选择就是相对于当前状态(即导热体所涉及的状态)应在何种动作参数下进行放热板的收纳动作。即,随着学习算法的进行,学习部26可以使导热体所涉及的状态与相对于该状态应在何种动作参数下进行放热板的粘接动作的行动的相关性逐渐接近最优解。
如上所述,在控制装置10所具备的机器学习装置20中,学习部26使用状态观测部22所观测到的状态变量S和判定数据获取部24所获取到的判定数据D,按照机器学习算法,学习机器人将放热板粘接于电气部件时的动作参数。状态变量S由如参数数据S1和导热体状态数据S2这样的不易受干扰的影响的动作构成,另外,通过获取基于机器人的放热板的粘接动作所用的工时、粘接动作后的放热板与电气部件之间的导热体的膜厚,来唯一地求取判定数据D。对于导热体状态数据S2,例如依赖于作为温度传感器或湿度传感器的能力的机器各部的测量精度,但期待能够观测其自身高精度的导热体状态数据S2。另外,期待判定数据D能够依赖于第一测量装置的测量精度来获取高精度的判定数据D。因此,根据控制装置10所具备的机器学习装置20,通过使用学习部26的学习结果,从而不依靠运算或估算就可以自动且准确地求取对应于导热体所涉及的状态的、基于机器人的放热板的粘接动作的动作参数。
若不依靠运算或估算就可以自动地求取基于机器人的放热板的粘接动作的动作参数,则只要在开始基于机器人的放热板的粘接动作之前掌握导热体所涉及的状态(导热体状态数据S2),就可以迅速地决定机器人粘接放热板时的适当的动作参数。因此,可以高效地进行基于机器人的放热板的粘接动作。
作为控制装置10所具备的机器学习装置20的一个变形例,作为状态变量S,除了动作参数数据S1和导热体状态数据S2,状态观测部22还可以观测电气部件类别信息S3、基板类别信息S4。电气部件类别信息S3例如可以包括电气部件的形状或强度等。另外,基板类别信息S4可以包括基板的强度等。状态观测部22例如可以从预先设定于控制装置10等的电气部件或基板所涉及的信息中获取电气部件的类别信息S3、基板类别信息S4。在这种情况下,除了导热体状态数据S2外,还可以将动作参数与电气部件类别信息S3和基板类别信息S4中的至少任一个关联起来进行学习。
根据上述变形例,机器学习装置20可以学习针对安装于特定类别的基板的电气部件、特定类别的电气部件进行基于机器人的放热板的粘接动作时的动作参数。例如,针对成为两种粘接对象的电气部件,即使导热体所涉及的状态(导热体状态数据S2)大致相同,但若这些电气部件的强度或形状等(电气部件类别信息S3)不同,则有可能发生进行对这些电气部件的放热板的粘接动作时的动作参数略微不同的状况。然而,根据上述结构,即使在这种状况下,仍可以根据电气部件的强度或形状等(电气部件类别信息S3)使进行放热板的粘接动作时的动作参数最优化。或者,也有可以趁着进行学习而发现导热体所涉及的状态(导热体状态数据S2)与电气部件的类别(电气部件类别信息S3)或基板的类别(基板类别信息S4)的相关性的情况。在这种情况下,由于从电气部件类别信息S3或基板类别信息S4中能够某种程度上预测导热体状态数据S2,因而即使在导热体所涉及的状态的测量精度较低的情况下,也可以使适当收敛学习并容纳物品时的动作参数最优化。
作为控制装置10所具备的机器学习装置20的另一变形例,学习部26可以使用对具有相同结构的多个机器人分别获得的状态变量S和判定数据D,来学习基于这些机器人的放热板的粘接动作的动作参数。根据该结构,由于能够增加包括在一定时间内获得的状态变量S和判定数据D的数据集合的量,因此可以将更多样的数据集合作为输入,来提高基于机器人的放热板的粘接动作的动作参数的学习的速度或可靠性。
在具有上述结构的机器学习装置20中,对学习部26所执行的学习算法不作特殊限定,作为机器学习,可以采用公知的学习算法。图2是图1所示的控制装置10的一个实施方式,作为学习算法的一例,示出了具备执行强化学习的学习部26的结构。
强化学习是一种以试错的方式,对在观测学习对象所存在的环境的当前状态(即输入)的同时,在当前状态下执行预定的行动(即输出),并对该行动给予某种回报的周期进行重复,将使回报的总计最大化的对策(在本申请的机器学习装置的情况下,通过机器人的放热板的粘接动作的动作参数)作为最优解来进行学习的手法。
在图2所示的控制装置10所具备的机器学习装置20中,学习部26具备:回报计算部28,其基于状态变量S求出与基于机器人的放热板的粘接动作的适当与否判定结果(相当于用于下一个学习周期的判定数据D)相关的回报R;以及价值函数更新部30,其利用该求出的回报R,来更新表示基于机器人的放热板的粘接动作的动作参数的价值的函数Q。学习部26通过价值函数更新部30重复函数Q的更新,来学习针对导热体所涉及的状态的基于机器人的放热板的粘接动作的动作参数。
对学习部26所执行的强化学习的算法的一例进行说明。该例子中的算法是被熟知为Q学习(Q-learning)的算法,是一种将行动主体的状态s和在该状态s下行动主体能够选择的行动a作为独立变量,来对表示在状态s下选择行动a时的行动的价值的函数Q(s,a)进行学习的手法。在状态s下选择使价值函数Q最高的行动a即成为最优解。在状态s与行动a的相关性未知的状态下开始Q学习,并反复进行在任意的状态s下选择各种行动a的试错,由此反复更新价值函数Q,以接近最优解。此处,作为在状态s下选择了行动a的结果,当环境(即状态s)发生变化时,获得对应于该变化的回报(即行动a的权重)r,从而以选择获得更高回报R的行动a的方式来引导学习,由此能够在较短的时间内使价值函数Q接近最优解。
价值函数Q的更新式通常可以表示为下面的数学式(1)。在数学式(1)中,st和at分别为在时刻t上的状态和行动,通过行动at,状态变为st+1。rt+1是状态从st变为st+1而由此获得的回报。maxQ的项是指进行在时刻t+1成为最大的价值函数Q(被认为在时刻t)的行动a时的Q。α和γ分别为学习系数和折扣率,且在0<α≤1,0<γ≤1内任意设定。
Figure BDA0001626788650000091
在学习部26执行Q学习的情况下,状态观测部22所观测到的状态变量S和判定数据获取部24所获取到的判定数据D对应于更新式(上面的数学式(1))的状态s,像是应如何变更针对当前状态(即导热体所涉及的状态)的基于机器人的放热板的粘接动作的动作参数这样的行动对应于更新式的行动a,回报计算部28所求出的回报R对应于更新式的回报R。由此,价值函数更新部30通过使用了回报R的Q学习来对表示当前状态的基于机器人的放热板的粘接动作的动作参数的价值的函数Q进行重复更新。
就回报计算部28所求出的回报R而言,例如,当在决定基于机器人的放热板的粘接动作的动作参数后,基于该动作参数实施了通过机器人的放热板的粘接动作时,可以有以下两种情况:
(i)在放热板的粘接动作的状态为“适当”的情况(例如,使工时纳入能够容许的范围内的情况、使放热板与电气部件之间的导热体的膜厚纳入能够容许的范围内的情况等)下,设为正(plus)的回报R;
(ii)在放热板的粘接动作的状态被判定为“不适当”的情况(例如,工时在能够容许的范围外的情况、放热板与电气部件之间的导热体的膜厚在能够容许的范围外的情况等)下,设为负(minus)的回报R。
回报R的绝对值,在正的回报和负的回报中可以相同,也可以不相同。另外,作为判定的条件,也可以将判定数据D中包含的多个值组合来判定。
另外,不只是“适当”和“不适当”这两种阶段,也可以将基于机器人的放热板的粘接动作的状态的适当与否判定结果设定为多个阶段。例如,在放热板的粘接动作的时间的容许范围的最大值为Tmax的情况下,可以在放热板的粘接动作的时间T为0≤T<Tmax/5时,给予回报R=5,在Tmax/5≤T<Tmax/2时,给予回报R=2,在Tmax/2≤T≤Tmax时,给予回报R=1。进一步地,也可以是设为在学习的初始阶段较大地设定Tmax,并随着学习的进行而缩小Tmax的结构。
价值函数更新部30可以具有将状态变量S、判定数据D和回报R、与用函数Q表示的行动价值(例如,数值)关联起来并进行了整理的行动价值表。在这种情况下,像是价值函数更新部30更新函数Q这样的行为,与价值函数更新部30更新行动价值表的行为同义。由于在Q学习的开始时,环境的当前状态与基于机器人的放热板的粘接动作的动作参数的相关性是未知的,因而在行动价值表中,以与随机决定的行动价值的值(函数Q)关联起来的形式来备置各种状态变量S、判定数据D和回报R。此外,若已知判定数据D,则回报计算部28能够立刻计算与之对应的回报R,且该计算的值R被写入行动价值表。
若使用与基于机器人的放热板的粘接动作的状态的适当与否判定结果相对应的回报R来进行Q学习,则学习将被引导至选择能够获得更高的回报R的行动的方向,根据在当前状态下执行已选择的行动而由此变化的环境的状态(即状态变量S和判定数据D),重写针对在当前状态下进行的行动的行动价值的值(函数Q)并更新行动价值表。通过重复该更新,显示于行动价值表的行动价值的值(函数Q)以越是合适的行动值越大的形式而被重写。这样,原本未知的环境的当前状态(导热体所涉及的状态)和与其相对的行动(通过机器人的放热板的粘接动作的动作参数)的相关性逐渐变得清楚。即,通过行动价值表的更新,使导热体所涉及的状态与基于机器人的放热板的粘接动作的动作参数的关系逐渐接近最优解。
参照图3,进一步对学习部26所执行的上述Q学习的流程(即机器学习方法的一个实施方式)进行说明。
首先,在步骤SA01中,价值函数更新部30一边参照该时刻的行动价值表,一边随机地选择基于机器人的放热板的粘接动作的动作参数,作为在状态观测部22观测到的状态变量S所表示的当前状态下进行的行动。接下来,在步骤SA02中,价值函数更新部30导入状态观测部22观测到的当前状态的状态变量S,并在步骤SA03中导入判定数据获取部24所获取的当前状态的判定数据D。接着,在步骤SA04中,价值函数更新部30基于判定数据D判断机器人的放热板的粘接动作的动作参数是否适当,在判断为适当的情况下,在步骤SA05中,将回报计算部28所求出的正的回报R应用于函数Q的更新式,接着,在步骤SA06中,使用当前状态中的状态变量S、判定数据D、回报R和行动价值的值(更新后的函数Q)来更新行动价值表。另一方面,在步骤SA04中,在判断为基于机器人的放热板的粘接动作的动作参数不适当的情况下,在步骤SA07中,将回报计算部28所求出的负的回报R应用于函数Q的更新式,接着,在步骤SA06中,使用当前状态中的状态变量S、判定数据D、回报R和行动价值的值(更新后的函数Q)来更新行动价值表。
学习部26通过重复步骤SA01~SA07来反复更新行动价值表,并进行基于机器人的放热板的粘接动作的动作参数的学习。
当进行上述的强化学习时,例如可以使用神经网络来替代Q学习。图4A示意性地示出神经元的模型。图4B示意性示出对图4A所示的神经元进行组合而构成的三层的神经网络的模型。神经网络例如可以由模拟神经元的模型的运算装置或存储装置等构成。
图4A所示的神经元输出针对多个输入x(此处,作为一例,输入x1~x3)的结果y。各输入x1~x3分别被乘以对应于该输入x的权重w(w1~w3)。由此,神经元输出通过下面的数学式(2)表现的结果y。此外,在数学式(2)中,输入x、结果y以及权重w皆为向量。另外,θ为偏差,fk为激活函数。
Figure BDA0001626788650000111
在图4B所示的三层的神经网络,从左侧输入多个输入x(此处,作为一例为输入x1~x3),从右侧输出结果y(此处,作为一例为结果y1~y3)。在图示的例子中,对输入x1、x2、x3分别乘以对应的权重(统称表示为w1),且将各个输入x1、x2、x3均输入至三个神经元N11、N12、N13。
在图4B中,将神经元N11~N13的各自的输出统称表示为z1。z1可以被视作提取了输入向量的特征量的特征向量。在图示的例子中,对特征向量z1分别乘以对应的权重(统称表示为w2),且各个特征向量z1均被输入至两个神经元N21、N22。特征向量z1表示权重w1与权重w2之间的特征。
在图4B中,将神经元N21~N22各自的输出统称表示为z2。z2可以被视作提取了特征向量z1的特征量的特征向量。在图示的例子中,对特征向量z2分别乘以对应的权重(统称表示为w3),且各个特征向量z2均被输入至三个神经元N31、N32、N33。特征向量z2表示权重w2与权重w3之间的特征。最后,神经元N31~N33分别输出结果y1~y3。
此外,也可以采用使用了形成为三层以上的层的神经网络的所谓的深度学习的手法。
在控制装置10所具备的机器学习装置20中,通过将状态变量S和判定数据D作为输入x,并由学习部26进行按照上述神经网络的多层结构的运算,由此可以输出基于机器人的放热板的粘接动作的动作参数(结果y)。此外,在神经网络的动作模式中具有学习模式和价值预测模式,例如,可以在学习模式中使用学习数据组来学习权重w,并使用学习到的权重w在价值预测模式中进行行动的价值判断。此外,还可以在价值预测模式中进行检测、分类、推论等。
上述控制装置10的结构可以描述为计算机的CPU所执行的机器学习方法(或软件)。该机器学习方法是学习基于机器人的放热板的粘接动作的动作参数的机器学习方法,
计算机的CPU执行以下步骤:
·将表示基于机器人的放热板的粘接动作的动作参数的动作参数数据S1和表示导热体所涉及的状态的导热体状态数据S2作为表示进行基于机器人的放热板的粘接动作的环境的当前状态的状态变量S来进行观测的步骤;
·获取表示基于机器人的放热板的粘接动作的状态的适当与否判定结果的判定数据D的步骤;以及
·使用状态变量S和判定数据D,将基于机器人的放热板的粘接动作的动作参数与导热体状态数据S2关联起来进行学习的步骤。
图5表示根据第二实施方式的控制装置40。
控制装置40具备:机器学习装置50;以及状态数据获取部42,其获取状态观测部22所观测的状态变量S的动作参数数据S1和导热体状态数据S2作为状态数据S0。状态数据获取部42所获取的状态数据S0也可以包括电气部件类别信息S3或基板类别信息S4。状态数据获取部42能够由附设于机器的各种传感器或上述的第一测量装置、各装置的设定值、基于作业者的适宜的数据输入等中获取状态数据S0。
除了用于通过机器学习自行学习基于机器人的放热板的粘接动作的动作参数的软件(学习算法等)和硬件(计算机的CPU等)外,控制装置40所具有的机器学习装置50还包括用于将所学习到的基于机器人的放热板的粘接动作的动作参数作为对机器人(未图示)的指令来进行输出的软件(运算算法等)和硬件(计算机的CPU等)。控制装置40所包括的机器学习装置50也可以是由一个共通的CPU来执行学习算法、运算算法等所有软件的结构。
决策部52例如可以构成为计算机的CPU的一个功能,另外,也可以构成为用于使计算机的CPU发挥功能的软件。决策部52基于学习部26所学习到的机器人的放热板的粘接动作的动作参数来生成并输出对进行放热板的粘接动作的机器人的指令值C。在决策部52向机器人输出基于机器人的放热板的粘接动作的动作参数的指令值C的情况下,相应地,环境的状态(动作参数数据S1)发生变化。
状态观测部22在下一个学习周期中对包括基于决策部52的针对环境的机器人的放热板的粘接动作的动作参数的显示或输出后发生变化的动作参数数据S1的状态变量S进行观测。学习部26使用发生变化的状态变量S,例如更新价值函数Q(即行动价值表),来学习基于机器人的放热板的粘接动作的动作参数。决策部52在学习到的基于机器人的放热板的粘接动作的动作参数下,根据状态变量S向机器人输出基于机器人的放热板的粘接动作的动作参数的指令值C。通过重复该周期,机器学习装置50进行基于机器人的放热板的粘接动作的动作参数的学习,并逐渐提高机器学习装置50自身所决定的基于机器人的放热板的粘接动作的动作参数的可靠性。
具有上述结构的控制装置40所具备的机器学习装置50实现与上述的图1和图2所示的机器学习装置20等同的效果。特别是,图5所示的机器学习装置50能够根据决策部52的输出来改变环境的状态。另一方面,在机器学习装置20中,可以向外部装置(例如机器人的控制装置)请求相当于用于将学习部26的学习结果反映于环境的决策部的功能。
图6表示具备机器人60的一个实施方式的部件安装系统70。
部件安装系统70具备:多个机器人60、60’,其具有至少相同的机器结构;以及网络72,其使这些机器人60、60’相互连接。这些多个机器人60、60’中的至少一个构成为具备上述控制装置40的机器人60。另外,部件安装系统70可以包括不具备控制装置40的机器人60’。机器人60、60’具有为了在组装于基板上的电气部件上粘接放热板所需要的一般的结构。
在具有上述结构的部件安装系统70中,多个机器人60、60’中的具备控制装置40的机器人60使用学习部26的学习结果,不依赖于运算或估算就可以自动且准确地求出对应于导热体所涉及的状态的基于机器人60、60’的放热板的粘接动作的动作参数。另外,可以构成为由至少一个机器人60的控制装置40基于对其他多个机器人60、60’分别获得的状态变量S和判定数据D,学习在所有机器人60、60’中共通的基于机器人的放热板的粘接动作的动作参数,并由所有机器人60、60’共享该学习结果。从而,根据部件安装系统70,可以将更多样的数据集合(包括状态变量S和判定数据D)作为输入,来提高基于机器人的放热板的粘接动作的动作参数的学习的速度或可靠性。
图7表示根据具备机器人60’的另一实施方式的部件安装系统70’。
部件安装系统70’具备:机器学习装置50(或20);多个机器人60’,其具有相同的机器结构;以及网络72,其使这些机器人60’和机器学习装置50(或20)相互连接。
在具有上述结构的部件安装系统70’中,机器学习装置50(或20)基于对多个机器人60’分别获得的状态变量S和判定数据D,来学习在所有机器人60’中共通的基于机器人的放热板的粘接动作的动作参数,使用该学习结果,不依赖于运算或估算就能够自动且准确地求出对应于导热体所涉及的状态的基于机器人的放热板的粘接动作的动作参数。
在部件安装系统70’中,机器学习装置50(或20)可以具有备置于网络72的云服务器或单元控制器等的结构。根据该结构,无论多个机器人60’各自所存在的场所或时期如何,都可以在需要时使需要的数量的机器人60’连接至机器学习装置50(或20)。
从事于部件安装系统70、70’的作业者可以在机器学习装置50(或20)的学习开始后的适当的时期,执行对机器学习装置50(或20)的基于机器人的放热板的粘接动作的动作参数的学习的到达程度(即基于机器人的放热板的粘接动作的动作参数的可靠性)是否达到要求水准的判断。
尽管上面对本发明的实施方式进行了说明,但本发明不限于上述实施方式的例,可以通过追加适宜的变更以各种方式实施本发明。
例如,机器学习装置20、50所执行的学习算法、机器学习装置50所执行的运算算法、控制装置10、40所执行的控制算法等不限于以上所述,而是可以采用各种算法。
另外,在上述实施方式中示出了机器学习装置20、50在控制装置10、40上在线进行机器学习的例子,但也可以在控制装置10、40对机器人的控制时将状态变量S或判定数据D作为日志数据进行记录,收集所记录的日志数据,并基于从所收集的日志数据中获取的状态数据S或判定数据D,由机器学习装置20、50进行机器学习。

Claims (8)

1.一种控制装置,其控制用于经由导热体对电气部件粘接放热板的机器人,其特征在于,该控制装置具备:
机器学习装置,其学习基于所述机器人的所述放热板的粘接动作的动作参数,
所述机器学习装置具备:
状态观测部,其将表示所述动作参数的动作参数数据和表示所述导热体所涉及的状态的导热体状态数据作为表示环境的当前状态的状态变量来进行观测;
判定数据获取部,其获取表示所述粘接动作的适当与否判定结果的判定数据;以及
学习部,其使用所述状态变量和所述判定数据,将所述动作参数与所述导热体状态数据关联起来进行学习。
2.根据权利要求1所述的控制装置,其特征在于,
所述状态观测部还将识别所述电气部件的类别的电气部件类别信息和识别组装有所述电气部件的基板的类别的基板类别信息中的至少任一个作为所述状态变量进行观测,
除了所述导热体状态数据外,所述学习部将所述动作参数与所述电气部件类别信息和所述基板类别信息中的至少任一个关联起来进行学习。
3.根据权利要求1或2所述的控制装置,其特征在于,
所述学习部具备:
回报计算部,其求出与所述适当与否判定结果相关的回报;以及
价值函数更新部,其使用所述回报来更新表示针对所述导热体所涉及的状态的所述动作参数的价值的函数。
4.根据权利要求1或2所述的控制装置,其特征在于,
所述学习部以多层结构来运算所述状态变量和所述判定数据。
5.根据权利要求1或2所述的控制装置,其特征在于,该控制装置还具备:
决策部,其基于所述学习部的学习结果,输出基于所述动作参数的指令值。
6.根据权利要求1或2所述的控制装置,其特征在于,
所述学习部使用对多个机器人分别获得的所述状态变量和所述判定数据,来学习该多个机器人各自的所述动作参数。
7.根据权利要求1或2所述的控制装置,其特征在于,
所述机器学习装置存在于云服务器或单元控制器。
8.一种机器学习装置,其学习基于用于经由导热体对电气部件粘接放热板的机器人的所述放热板的粘接动作的动作参数,其特征在于,该机器学习装置具备:
状态观测部,其将表示所述动作参数的动作参数数据和表示所述导热体所涉及的状态的导热体状态数据作为表示环境的当前状态的状态变量来进行观测;
判定数据获取部,其获取表示所述粘接动作的适当与否判定结果的判定数据;以及
学习部,其使用所述状态变量和所述判定数据,将所述动作参数与所述导热体状态数据关联起来进行学习。
CN201810326649.0A 2017-04-13 2018-04-12 控制装置及机器学习装置 Active CN108732963B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-079844 2017-04-13
JP2017079844A JP6514260B2 (ja) 2017-04-13 2017-04-13 制御装置及び機械学習装置

Publications (2)

Publication Number Publication Date
CN108732963A CN108732963A (zh) 2018-11-02
CN108732963B true CN108732963B (zh) 2020-05-12

Family

ID=63679077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810326649.0A Active CN108732963B (zh) 2017-04-13 2018-04-12 控制装置及机器学习装置

Country Status (4)

Country Link
US (1) US10549423B2 (zh)
JP (1) JP6514260B2 (zh)
CN (1) CN108732963B (zh)
DE (1) DE102018002785B8 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11584016B2 (en) 2018-04-24 2023-02-21 Fanuc Corporation Robot controller and system
JP2020131353A (ja) * 2019-02-19 2020-08-31 パナソニックIpマネジメント株式会社 研磨加工システム、学習装置、学習装置の学習方法
DE102019205651B3 (de) * 2019-04-18 2020-08-20 Kuka Deutschland Gmbh Verfahren und System zum Ausführen von Roboterapplikationen
WO2020246005A1 (ja) * 2019-06-06 2020-12-10 三菱電機株式会社 パラメータ算出装置、ロボット制御システム、ロボットシステム
CN110682291B (zh) * 2019-10-16 2020-07-10 国网江苏省电力有限公司扬州供电分公司 一种基于vr的机器人遥操作系统及其遥操作方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981205A (ja) * 1995-09-11 1997-03-28 Fujitsu Ltd 学習システム
JPH10321653A (ja) * 1997-05-19 1998-12-04 Shibaura Eng Works Co Ltd チップ状部品ボンディング装置
JP2007019337A (ja) * 2005-07-08 2007-01-25 Sony Corp ボンディング装置、半導体チップの運搬装置、ボンディング方法及び半導体チップの運搬方法
CN101872173A (zh) * 2009-04-21 2010-10-27 台湾积体电路制造股份有限公司 半导体产品级别控制的方法与系统
CN105798930A (zh) * 2016-04-01 2016-07-27 浙江工业大学 基于龙伯格状态观测器的柔性机械臂系统饱和补偿控制方法
CN105917756A (zh) * 2014-01-30 2016-08-31 欧姆龙株式会社 质量管理装置和质量管理方法
CN105940354A (zh) * 2014-02-10 2016-09-14 欧姆龙株式会社 品质管理装置及其控制方法
CN106416455A (zh) * 2014-02-14 2017-02-15 欧姆龙株式会社 品质管理装置、品质管理方法以及程序
CN106557069A (zh) * 2015-09-29 2017-04-05 发那科株式会社 机械学习装置和方法以及具有该机械学习装置的机床

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07335795A (ja) * 1994-06-14 1995-12-22 Fujitsu Ltd 伝熱媒体塗布方法及び伝熱媒体塗布ローラ
JPH08112788A (ja) 1994-10-14 1996-05-07 Canon Inc 部品挿入装置及び部品挿入方法
JP2010135459A (ja) * 2008-12-03 2010-06-17 Nikon Corp 半導体パッケージおよび放熱器
US9036354B2 (en) * 2013-01-15 2015-05-19 Flextronics, Ap, Llc Heat sink thermal press for phase change heat sink material
JP2016092300A (ja) * 2014-11-07 2016-05-23 新光電気工業株式会社 半導体装置及び半導体装置の製造方法
DE102016009030B4 (de) * 2015-07-31 2019-05-09 Fanuc Corporation Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs
JP6148316B2 (ja) * 2015-07-31 2017-06-14 ファナック株式会社 故障条件を学習する機械学習方法及び機械学習装置、並びに該機械学習装置を備えた故障予知装置及び故障予知システム
JP6438366B2 (ja) 2015-08-28 2018-12-12 ファナック株式会社 電動機に対する動作指令を学習する機械学習方法および機械学習装置並びに該機械学習装置を備えた制御装置および電動機装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981205A (ja) * 1995-09-11 1997-03-28 Fujitsu Ltd 学習システム
JPH10321653A (ja) * 1997-05-19 1998-12-04 Shibaura Eng Works Co Ltd チップ状部品ボンディング装置
JP2007019337A (ja) * 2005-07-08 2007-01-25 Sony Corp ボンディング装置、半導体チップの運搬装置、ボンディング方法及び半導体チップの運搬方法
CN101872173A (zh) * 2009-04-21 2010-10-27 台湾积体电路制造股份有限公司 半导体产品级别控制的方法与系统
CN105917756A (zh) * 2014-01-30 2016-08-31 欧姆龙株式会社 质量管理装置和质量管理方法
CN105940354A (zh) * 2014-02-10 2016-09-14 欧姆龙株式会社 品质管理装置及其控制方法
CN106416455A (zh) * 2014-02-14 2017-02-15 欧姆龙株式会社 品质管理装置、品质管理方法以及程序
CN106557069A (zh) * 2015-09-29 2017-04-05 发那科株式会社 机械学习装置和方法以及具有该机械学习装置的机床
CN105798930A (zh) * 2016-04-01 2016-07-27 浙江工业大学 基于龙伯格状态观测器的柔性机械臂系统饱和补偿控制方法

Also Published As

Publication number Publication date
JP2018176356A (ja) 2018-11-15
DE102018002785B8 (de) 2022-06-02
US10549423B2 (en) 2020-02-04
US20180297199A1 (en) 2018-10-18
JP6514260B2 (ja) 2019-05-15
DE102018002785B4 (de) 2022-03-03
CN108732963A (zh) 2018-11-02
DE102018002785A1 (de) 2018-10-18

Similar Documents

Publication Publication Date Title
CN108732963B (zh) 控制装置及机器学习装置
US10754312B2 (en) Cleaning process optimization device and machine learning device
CN107305370B (zh) 设定与产品的异常相关的变量的判定值的生产系统
US10502253B2 (en) Machine learning device for learning assembly operation and component assembly system
CN108573310B (zh) 精加工量预测装置以及机器学习装置
US11253999B2 (en) Machine learning device, robot control device and robot vision system using machine learning device, and machine learning method
CN109002012B (zh) 控制装置以及机器学习装置
CN109955115B (zh) 切屑去除装置以及信息处理装置
CN108723889B (zh) 加减速控制装置
CN108803499B (zh) 控制装置以及机器学习装置
KR102224970B1 (ko) 제어 장치 및 기계 학습 장치
US10796226B2 (en) Laser processing apparatus and machine learning device
CN108994818B (zh) 控制装置以及机器学习装置
CN108687766B (zh) 机器人的控制装置、机器学习装置以及机器学习方法
US10807234B2 (en) Component supply device and machine learning device
CN110171159A (zh) 控制装置以及机器学习装置
CN109725597B (zh) 测试装置以及机器学习装置
US10802476B2 (en) Numerical controller with learned pressure estimation
CN110125955B (zh) 控制装置以及机器学习装置
Meyer et al. Reliable manufacturing of heavy copper wire bonds using online parameter adaptation
JP2018140471A (ja) 制御装置及び機械学習装置
JP6940425B2 (ja) 制御装置及び機械学習装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant