CN107866809A - 学习最优物品把持路径的机器学习装置以及机器学习方法 - Google Patents

学习最优物品把持路径的机器学习装置以及机器学习方法 Download PDF

Info

Publication number
CN107866809A
CN107866809A CN201710744542.3A CN201710744542A CN107866809A CN 107866809 A CN107866809 A CN 107866809A CN 201710744542 A CN201710744542 A CN 201710744542A CN 107866809 A CN107866809 A CN 107866809A
Authority
CN
China
Prior art keywords
mentioned
machine learning
robot
learning device
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710744542.3A
Other languages
English (en)
Other versions
CN107866809B (zh
Inventor
大场雅文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of CN107866809A publication Critical patent/CN107866809A/zh
Application granted granted Critical
Publication of CN107866809B publication Critical patent/CN107866809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • B25J13/087Controls for manipulators by means of sensing devices, e.g. viewing or touching devices for sensing other physical parameters, e.g. electrical or chemical properties
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • B25J13/088Controls for manipulators by means of sensing devices, e.g. viewing or touching devices with position, velocity or acceleration sensors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41815Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the cooperation between machine tools, manipulators and conveyor or other workpiece supply system, workcell
    • G05B19/4182Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the cooperation between machine tools, manipulators and conveyor or other workpiece supply system, workcell manipulators and conveyor only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39106Conveyor, pick up article, object from conveyor, bring to test unit, place it
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40007Optimize sequence of pick and place operations upon arrival of workpiece on conveyor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Manipulator (AREA)

Abstract

本发明提供一种学习最优物品把持路径的机器学习装置以及机器学习方法。本发明的机器学习装置学习用于使用把持多个物品的机械手将配置在输送装置上的多个物品收纳在容器中的机器人的运转条件,具备:状态观测部,其在机器人的动作中观测多个物品的位置姿势、以及包括将多个物品收纳在容器中为止的周期时间和机器人把持物品时产生的转矩以及振动中的至少一个的状态变量;判定数据取得部,其取得判定周期时间、转矩以及振动各自相对于容许值的余量的判定数据;以及学习部,其按照通过状态变量以及判定数据的组合而构成的训练数据集来学习机器人的运转条件。

Description

学习最优物品把持路径的机器学习装置以及机器学习方法
技术领域
本发明涉及一种机器学习装置以及机器学习方法,特别涉及学习在通过机器人把持配置在输送装置上的物品时的最优物品把持路径的机器学习装置以及机器学习方法。
背景技术
已知一种物品输送系统,其通过能够把持多个物品的机械手(多指机械手)一个一个连续地取出在作为输送装置的传送带上流动来的物品,并且收纳在同样在其他传送带上流动来的容器中。目前,在把持物品并取出时,基本从位于传送带下游侧的物品开始按顺序分配要把持的物品。
例如,提出一种方法,即沿着物品流动方向将传送带分为2部分,从其中位于下游侧的物品按顺序地把持并收纳在容器中(例如,日本特开2014-104524号公报。以下称为“专利文献1”)。
图1说明现有技术中,通过设置在机器人20上的机械手(未图示)来把持配置在传送带10上的多个物品(a1~a3、b1~b3),并且收纳在容器(未图示)中的方法。在传送带10的平面上配置物品,并且物品(a1~a3、b1~b3)具有如自身所示的箭头那样面向随机方向的(姿势)。
这里,机械手具有把持3个物品并收纳在容器中的功能。此时,如果传送带10从图1的左侧流向右侧,则接近传送带10的下游侧的物品为a1、a2、a3的顺序。因此,机械手按照该顺序把持物品a1、a2、a3并收纳到容器中后,将物品b1、b2、b3按照该顺序把持,并收纳到容器中。
目前,从下游按顺序进行分配,因此有时机械手如图1的箭头所示那样进行来去的分配。
另外,没有考虑物品的姿势,因此机器人20的机械手有时如图1那样大幅旋转。例如,物品a1和a3为大致相同的姿势,所以在物品a1之后把持a3,然后把持a2的话,以最小限度的旋转就够了。但是,如果从下游按顺序把持,则如图1所示,成为a1→a2→a3的顺序。其结果为,机器人20的机械手在把持了物品a1之后要把持物品a2,旋转大约180度,接着为了把持物品a3再次旋转大约180度。
这样,在专利文献1记载的方法中,从下游开始按顺序把持物品,不会考虑传送带10的宽度方向的物品位置和物品的方向。因此,机械手的移动时间的波动变大,有时向容器收纳物品会赶不上容器通过机器人之前的期间。
也考虑每次把持物品时,停止容器侧的传送带。但是,会有在预定期间内决定了生产量的情况或根据与后工序的关系而不能停止容器流动的情况存在,因此会产生在实际的现场难以适用的问题。
专利文献1中公开一种方法,即通过分割区域在更窄的范围进行把持,缩短输送距离。但是,当传送带的宽度宽时,即使分割也可能无法得到大的效果。另外,由于没有考虑物品的方向(姿势),因此即使是用于把持物品的目标姿势与当前姿势很大不同的物品,机器人也可能会去取。
进一步,在专利文献1记载的方法中,存在没有考虑到机器人固有的能力(例如机械强度等)和由于物品在传送带上的配置差异造成的输送能力的差别的问题。
发明内容
本发明的目的为提供机器学习装置以及机器学习方法,其能够将机器人在容器中收纳多个物品的周期时间最小化,并且能够抑制机器人的负荷,其中,该机器人具备了具有把持多个物品的功能的机械手。
本发明的一个实施例的机器学习装置,学习用于使用把持多个物品的机械手将配置在输送装置上的多个物品收纳到容器中的机器人的运转条件,该机器学习装置具备:状态观测部,其在机器人的动作中观测多个物品的位置姿势、以及包括将多个物品收纳到容器中为止的周期时间、机器人把持物品时产生的转矩以及振动中的至少一个的状态变量;判定数据取得部,其取得判定周期时间、转矩以及振动相对于各自的容许值的余量的判定数据;以及学习部,其按照通过状态变量以及判定数据的组合而构成的训练数据集来学习机器人的运转条件。
本发明的一个实施例的机器学习方法,学习用于使用把持多个物品的机械手将配置在输送装置上的多个物品收纳到容器中的机器人的运转条件,该机器学习方法在机器人的动作中观测多个物品的位置姿势、以及包括将多个物品收纳到容器中为止的周期时间、机器人把持物品时产生的转矩以及振动中的至少一个的状态变量;取得判定周期时间、转矩以及振动相对于容许值的余量的判定数据;按照通过状态变量以及判定数据的组合而构成的训练数据集来学习机器人的运转条件。
附图说明
通过参照附图说明以下的实施方式,能够进一步明确本发明的目的、特征以及优点。
图1是用于说明现有技术中通过设置在机器人上的机械手把持配置在传送带上的多个物品并收纳在容器中的方法的图。
图2是本发明实施例1的机器学习装置的结构图。
图3是用于说明通过本发明实施例1的机器学习装置,由设置在机器人上的机械手把持配置在传送带上的多个物品并收纳在容器中的方法的图。
图4是用于说明使用本发明实施例1的机器学习装置由机器人把持物品的步骤的流程图。
图5是用于说明在通过本发明实施例1的机器学习装置进行了学习后,由设置在机器人上的机械手把持配置在传送带上的多个物品并收纳在容器中的方法的图。
图6是用于说明通过本发明实施例1的机器学习装置来计算回报的方法的流程图。
图7是表示神经元的模型的示意图。
图8是表示3层神经网络模型的示意图。
图9是本发明实施例2的机器学习装置的结构图。
图10是本发明实施例3的机器学习装置的结构图。
图11是本发明实施例4的机器学习装置的结构图。
具体实施方式
以下,参照附图说明本发明的机器学习装置以及机器学习方法。
[实施例1]
首先,使用附图说明本发明实施例1的机器学习装置。图2表示本发明实施例1的机器学习装置101的结构图。另外,图3表示用于说明通过本发明实施例1的机器学习装置,由设置在机器人上的机械手把持配置在输送装置(传送带)上的多个物品并收纳在容器中的方法的图。本发明实施例1的机器学习装置101学习用于使用把持多个物品的机械手(未图示)将配置在输送装置10上的多个物品P1~P6收纳在容器(未图示)中的机器人20的运转条件。
机器学习装置101具备状态观测部11、判定数据取得部12以及学习部13。
状态观测部11在机器人20的动作中观测多个物品(P1~P6)的位置姿势、以及包括将多个物品收纳在容器中为止的周期时间、机器人20把持物品时产生的转矩以及振动中的至少一个的状态变量。多个物品的位置姿势可以根据通过照相机(未图示)拍摄到的图像来进行分析。此时,物品位置姿势的分析最好在机器人20开始把持物品(p1~p6)的时间点之前结束。因此,照相机最好设置在比机器人20更靠传送带10的上游侧。另外,在图3以及图5中,假定传送带10从左侧向右侧以固定的速度输送物品。
周期时间是指从机器人开始将向容器收纳多个物品到将预定数量的物品收纳到容器为止的时间。这里,预定数量的物品是指作为决定把持物品的顺序(路径)的对象的物品,即图3的预定区域30中包括的物品。机器人20最好具备用于测量周期时间的计时装置。
在使机械手移动到配置物品的位置时以及在根据物品的姿势使机械手旋转时产生转矩。转矩能够根据流过驱动机器人20的机械手以及臂(未图示)的电动机的电流来计算。机器人20最好具备用于测量流过电动机的电流的电流检测器。另外,在把持一个物品后为了把持其他物品而移动位置期间,机械手进行旋转。即,在把持了一个物品后,为了成为适于把持下一个物品的角度,使机械手边旋转边移动。
在使机械手移动到配置了物品的位置并停止时以及根据物品的姿势使机械手旋转并停止旋转时产生振动。为了测量振动,最好在机械手上设置加速度传感器。能够根据速度传感器检测出的加速度来计算振动。
判定数据取得部12取得判定周期时间、转矩以及振动各自相对于容许值的余量的判定数据。能够在存储部(未图示)中预先存储周期时间、转矩以及振动的各自的容许值。周期时间、转矩以及振动最好全部在容许值以下。
学习部13按照通过状态变量以及判定数据的组合而构成的训练数据集来学习机器人的运转条件。当周期时间、转矩以及振动全部在容许值以下时,最好按照周期时间成为最小的顺序来把持物品。
接着,使用图4所示的流程图来说明使用本发明实施例1的机器学习装置由机器人把持物品的步骤。首先,在步骤S101中,取得多个物品(p1~p6)的当前位置姿势。这里,决定把持的顺序的物品为通过图3的虚线表示的在传送带10上的预定区域30内所包括的物品。在图3所示的例子中,物品(p1~p6)相当于此。传送带10上的预定区域30,根据关于物品把持顺序的所有组合的周期时间、转矩以及振动的计算所需要的时间与物品移动的传送带的速度之间的平衡,最好设为包括最优数量的物品的范围。
接着,在步骤S102中,根据学习结果分配把持物品的顺序。接着,在步骤S103中,针对来自机器人20的请求,将要把持的物品的顺序从机器学习装置101发送给机器人20。
图5是用于说明在通过本发明实施例1的机器学习装置进行了学习后,由设置在机器人上的机械手把持配置在传送带上的多个物品并收纳在容器中的方法的图。进行学习的结果为,如箭头所示那样,可以首先把持物品p1,接着把持物品p3,最后把持物品p2。
通过按照这样的顺序把持物品,与作为现有技术的例子所示的图1的情况进行比较,为了把持物品而使机械手移动的距离缩短。其结果为缩短把持3个物品(p1~p3)的时间。因此,能够缩短用于将多个物品全部收纳在容器中的周期时间。
在本实施例中,以机械手把持的物品数量为3个的情况为例进行了说明,但是不限于这种情况,机械手把持的物品数量也可以是2个,也可以是4个以上。进一步,机械手的“把持”也包括“吸附”。
进一步,根据本发明,把持物品p1后,为了把持物品p3而使机械手旋转的角度可以变得比如现有技术(参照图1)那样把持物品a1后为了把持物品a2而使机械手旋转的角度要小。其结果为,能够缩小在把持3个物品(p1~p3)时产生的转矩以及振动。因此,能够缩小在将多个物品全部收纳在容器中时产生的转矩以及振动的合计值。
接着,说明学习部13的结构。如图2所示,学习部13具备:回报计算部14,其根据判定数据来计算回报;以及价值函数更新部15,其根据回报来更新用于推测把持物品的顺序的价值函数,该价值函数降低周期时间、转矩以及振动中的至少一个。
学习部13根据周期时间、转矩以及振动中的至少一个的状态变量和回报,更新与把持物品的顺序对应的行为价值表。
学习部13可以根据与机器人20相同结构的其他机器人的状态变量和回报,更新该其他机器人将其他多个物品收纳在容器中时的周期时间、转矩以及振动中的至少一个所对应的行为价值表。
回报计算部14根据周期时间、转矩以及振动中的至少一个来计算回报。进一步,在把持物品失败时,即在产生了把持错误时可以赋予负回报。
学习部13最好还具备:意图决定部16,其根据学习部13按照训练数据集进行了学习的结果,决定把持多个物品的顺序。
接着,说明回报的计算方法。图6是说明通过本发明实施例1的机器学习装置来计算回报的方法的流程图。首先,在步骤S201中,状态观测部11取得周期时间、转矩以及振动量的各个数据。
接着,在步骤S202,回报计算部14判断周期时间是否已比基准值缩短。当周期时间比基准值缩短时,在步骤S203赋予正回报。另一方面,当周期时间与基准值相同或周期时间没有比基准值缩短时,在步骤S205设为无回报。这里,周期时间的基准值将过去使机器人进行预定期间动作时的周期时间的平均值设为基准值。可以进一步根据学习结果将平均值设为初始值并调整基准值。
接着,在步骤S204中,回报计算部14判断转矩是否增加。当转矩与基准值相同或转矩比基准值减少时,在步骤S205设为无回报。另一方面,当转矩比基准值增加时,在步骤S207中设为负回报。这里,转矩的基准值将过去使机器人进行预定期间动作时的转矩的平均值设为基准值。可以进一步根据学习结果将平均值设为初始值并调整基准值。
接着,在步骤S206中,回报计算部14判断振动量是否增加。当振动量与基准值相同或振动量比基准值减少时,在步骤S205中设为无回报。另一方面,当振动量比基准值增加时,在步骤S207设为负回报。这里,振动量的基准值将过去使机器人进行预定期间动作时的振动量的平均值设为基准值。可以进一步根据学习结果将平均值设为初始值并调整基准值。
接着,在步骤S208中计算回报。这里,如果将基于周期时间、转矩以及振动的回报分别设为RC、RT、RV,则使用规定权重的预定系数,根据R=α×RC+β×RT+γ×RV能够计算出回报的合计值R。
接着,在步骤S209中,学习部13根据周期时间、转矩以及振动中的至少一个状态变量以及回报,更新与把持物品的顺序对应的行为价值表。
优选学习部13通过多层结构计算通过状态观测部11观测到的状态变量,实时地更新行为价值表。这里,作为通过多层结构计算状态变量的方法,例如能够使用图8所示的多层神经网络。
这里,详细说明图2所示的机器学习装置101。机器学习装置101具有以下功能,即根据被输入装置中的数据集合,通过分析来提取其中有用的规则和知识表现、判断基准等,输出其判断结果,并且进行知识的学习。该方法虽然各种各样,但是粗略地划分为“有教师学习”、“无教师学习”、“强化学习”。进一步,在实现这些的方法方面,有学习特征量自身的提取的被称为“深层学习”的方法。
“有教师学习”将某个输入和结果(水平)的数据的组合大量地赋予学习装置,由此学习这些数据集中的特征,能够归纳地获得根据输入推定结果的模型、即其关系性。能够使用后述的神经网络等的算法来实现。
“无教师学习”为以下的方法,即仅将输入数据大量地赋予机器学习装置,由此学习输入数据怎样分布,并且学习即使不赋予相应的教师输出数据也对输入数据进行压缩、分类、整形等的装置。能够将这些数据集中的特征在类似者之间进行聚类。使用该结果设置某个基准,进行使其为最优的输出的分配,由此能够实现输出的预测。另外,作为“有教师学习”和“无教师学习”的中间的问题设定,被称为“半有教师学习”,只存在一部分输入和输出的数据的组合,除此以外仅为输入数据的情况与此相当。在本实施例中,通过无教师学习使用即使不实际使机器人动作也能够取得的数据,并能够有效地进行学习。
如以下那样设定强化学习的问题。
·机器人观测环境的状态,并决定行为。
·环境按照某种规则发生变化,自己的行为也会进一步对环境赋予变化。
·每次进行行为时返回回报信号。
·要最大化的是将来的(折扣)回报的合计。
·从完全不知道行为引起的结果、或者不完全知道的状态开始学习。机器人开始实际动作,能够作为数据得到该结果。即,需要边尝试边搜索最优的行为。
·也可以将模仿人的动作那样进行了事先学习(上述的有教师学习或称为逆强化学习的方法)的状态设为初始状态,从良好的开始地点开始学习。
“强化学习”为不仅进行判定和分类,通过学习行为,考虑行为对环境的相互作用来学习适当的行为,即为了使将来得到的回报最大化而进行学习的方法。该情况在本实施例中表示能够获得对未来产生影响的行为的情况。例如在Q学习的情况下继续说明,但是也不限于此。
Q学习是学习在某个环境状态s之下选择行为a的价值Q(s,a)的方法。即,在某个状态s时,选择价值Q(s,a)最高的行为a作为最优的行为即可。但是,最初关于状态s与行为a的组合,完全不知道价值Q(s,a)的正确的值。因此,智能体(行为主体)在某个状态s下选择各种行为a,针对此时的行为a赋予回报。这样,智能体学习更优的行为选择、即正确的价值Q(s,a)。
行为的结果要把将来得到的回报的合计最大化,所以将最终成为Q(s,a)=E[Σγtrt]作为目标(状态根据最优的行为而变化时取期待值。当然,由于不知道该期待值,所以必须一边搜索一边学习)。例如通过下式能够表示这种价值Q(s,a)的更新式。
这里,st表示时刻t的环境的状态,at表示时刻t的行为。通过行为at,状态变化为st+1。rt+1表示通过该状态的变化得到的回报。另外,带max的项在状态st+1之下为对选择了当时知道的Q值最高的行为a时的Q值乘以γ而得。γ是0<γ≤1的参数,被称为折扣率。α是学习系数,为0<α≤1的范围。
该式表示以下方法,即以作为试行at的结果所返回的回报rt+1为基础,更新状态st下的行为at的评价值Q(st,at)。表示如果回报rt+1+行为a的下一个状态的最优行为max a的评价值Q(st+1,max at+1)比状态s下的行为a的评价值Q(st,at)大,则增大Q(st,at),相反,如果小,则缩小Q(st,at)。即,使某个状态下的某个行为的价值接近基于作为结果立刻返回的回报和该行为的下一个状态下的最优行为的价值。
作为Q(s,a)在计算机上的表现方法,有针对所有的状态行为对(s,a)保持该值作为表(行为价值表)的方法、准备近似Q(s,a)的函数的方法。在后者的方法中,可以通过随机梯度下降法等方法调整近似函数的参数来实现上述的更新式。作为近似函数,能够使用后述的神经网络。
作为有教师学习、无教师学习以及强化学习中的价值函数的近似算法,能够使用神经网络。神经网络例如由实现模仿了图7所示的神经元的模型的神经网络的计算装置以及存储器等构成。图7是表示神经元的模型的示意图。
如图7所示,神经元输出针对多个输入x(这里作为一例为输入x1~输入x3)的输出y。各个输入x1~x3乘以与该输入x对应的权重w(w1~w3)。这样,神经元输出通过下式表现的输出y。另外,输入x、输出y以及权重w都是向量。
这里,θ是偏置,fk是激活函数。
接着,参照图8说明组合了上述神经元的具有3层权重的神经网络。图8是表示D1~D3的具有3层权重的神经网络的示意图。
如图8所示,从神经网络的左侧输入多个输入x(这里作为一例为输入x1~输入x3),从右侧输出结果y(这里作为一例为结果y1~结果y3)。与这些输入相乘的权重被统一标记为w1。
神经元N11~N13分别输出Z11~Z13,这些Z11~Z13被统一标记为特征向量Z1,可以视为提取出了输入向量的特征量而得的向量。该特征向量Z1是权重W1与权重W2之间的特征向量。
Z11~Z13对2个神经元N21、N22分别乘以相应的权重并输入。与这些特征向量相乘的权重被统一标记为W2。
神经元N21、N22分别输出Z21、Z22。它们被统一标记为特征向量Z2。该特征向量Z2是权重W2与权重W3之间的特征向量。
特征向量Z21、Z22对3个神经元N31~N33分别乘以相应的权重并输入。与这些特征向量相乘的权重被统一标记为W3。
最后,神经元N31~N33分别输出结果y1~结果y3。
神经网络的动作中有学习模式和价值预测模式,在学习模式中使用学习数据集来学习权重W,使用该参数在预测模式中进行机器人的行为判断(为了方便,虽然写了预测,但是也可以是检测、分类、推论等各种任务)。
可以即时学习通过预测模式使机器人实际动作而得到的数据,并且反映到下一行为(在线学习),也可以使用预先收集到的数据群来进行统一的学习,以后也能够一直通过该参数进行检测模式(批学习)。也能够介于二者之间,每当数据累积某种程度时执行学习模式。
权重W1~W3能够通过误差反向传播法(Back Propagation)进行学习。误差信息从右侧进入,流到左侧。误差反向传播法是针对各个神经元,为了缩小输入了输入x时的输出y与真的输出y(教师)之间的差值而调整(学习)各自的权重的方法。
这种神经网络也能够在3层以上进一步增加层(称为深层学习)。能够阶段地进行输入的特征提取,只根据教师数据自动地获得返回结果的计算装置。
因此,实施例1的机器学习装置101为了实施上述Q学习,如图2所示那样具备状态观测部11、学习部13以及意图决定部16。但是,适用于本发明的机器学习方法不限定于Q学习。例如在适用有教师学习时,价值函数与学习模型对应,回报与误差对应。
如图2所示,机器人20的状态中有通过行为间接变化的状态和通过行为直接变化的状态。通过行为间接变化的状态中包括周期时间、转矩以及振动。通过行为直接变化的状态中包括电流值。
学习部13根据更新式以及回报,从行为价值表中更新与当前的状态变量以及取得的行为对应的行为价值。
另外,在图2所示的例子中,表示了使用通过自己的机器学习装置的学习部进行更新后的行为价值表来更新自己的行为价值表的例子,但是不限于这样的例子。即,也可以使用通过与自己的机器学习装置不同的其他机器学习装置的学习部进行更新后的行为价值表来更新自己的行为价值表。
[实施例2]
接着,说明本发明的实施例2的机器学习装置。图9表示本发明实施例2的机器学习装置的结构图。本发明实施例2的机器学习装置102与实施例1的机器学习装置101的不同点在于,机器学习装置102经由作为网络的通信部18与第一机器人21以及第二机器人22连接,状态观测部11经由网络取得当前的状态变量而构成。实施例2的机器学习装置102的其他结构与实施例1的机器学习装置101的结构同样,所以省略详细的说明。
另外,机器学习装置102最好存在于云服务器中。
机器人在高速动作中进行学习的情况会产生处理负荷大而困难的情况。因此,通过构成为本发明实施例2的机器学习装置,能够通过与机器人控制装置不同的其他装置进行学习,能够减轻机器人的负担。
[实施例3]
接着,说明本发明实施例3的机器学习装置。图10表示本发明实施例3的机器学习装置的结构图。本发明实施例3的机器学习装置103-1以及103-2与实施例1的机器学习装置101不同的点在于,在多个机器人控制装置中分别设置机器学习装置,通过集线器19进行连接。实施例3的机器学习装置103-1以及103-2的其他结构与实施例1的机器学习装置101中的结构同样,所以省略详细的说明。
第一机器学习装置103-1被设置在控制第一机器人21的第一机器人控制装置201上,第二机器学习装置103-2被设置在控制第二机器人22的第二机器人控制装置202上。
通过设为这样的结构,能够通过其他的机器学习装置共享通过一个机器学习装置生成的行为价值表,能够达到学习的效率化。
[实施例4]
接着,说明本发明实施例4的机器学习装置。图11表示本发明实施例4的机器学习装置的结构图。本发明实施例4的机器学习装置104与实施例1的机器学习装置101不同的点在于,记录收集传送带上的物品的位置姿势,并通过离线再现传送带10上的物品(p1~p6)的位置姿势,学习最优的物品把持顺序。实施例4的机器学习装置104的其他结构与实施例1的机器学习装置101中的结构相同,所以省略详细的说明。
第一机器人21由第一机器人控制装置201控制,第二机器人22由第二机器人控制装置202控制,但是机器学习装置104设置在第一机器人控制装置201以及第二机器人控制装置202的外部。另外,将从分别设置在第一机器人21以及第二机器人22的附近的照相机(未图示)拍摄到的图像得到的多个物品的位置姿势相关的数据(“Log”)发送给机器学习装置104,学习最优的物品把持顺序。学习的结果分别被发送给第一机器人控制装置201以及第二机器人控制装置202,第一机器人21以及第二机器人22能够按照最优的顺序把持物品。
根据本发明实施例的机器学习装置以及机器学习方法,能够将具备了具有把持多个物品的功能的机械手的机器人在容器中收纳多个物品的周期时间设为最小,并且能够抑制机器人的负荷。

Claims (12)

1.一种机器学习装置,学习用于使用把持多个物品的机械手将配置在输送装置上的多个物品收纳到容器中的机器人的运转条件,其特征在于,
该机器学习装置具备:
状态观测部,其在上述机器人的动作中观测上述多个物品的位置姿势、以及包括将上述多个物品收纳到容器中为止的周期时间、上述机器人把持物品时产生的转矩以及振动中的至少一个的状态变量;
判定数据取得部,其取得判定上述周期时间、转矩以及振动相对于各自的容许值的余量的判定数据;以及
学习部,其按照通过上述状态变量以及上述判定数据的组合而构成的训练数据集来学习上述机器人的运转条件。
2.根据权利要求1所述的机器学习装置,其特征在于,
上述周期时间是从上述机器人开始将上述多个物品收纳到容器中起直到将预定数量的物品收纳到容器中为止的时间。
3.根据权利要求1或2所述的机器学习装置,其特征在于,
根据流过驱动上述机器人的电动机的电流来计算上述转矩。
4.根据权利要求1~3中的任意一项所述的机器学习装置,其特征在于,
根据通过上述机械手所具备的加速度传感器检测出的加速度来计算上述振动。
5.根据权利要求1~4中的任意一项所述的机器学习装置,其特征在于,
上述学习部具备:
回报计算部,其根据上述判定数据来计算回报;以及
价值函数更新部,其根据上述回报来更新用于推测把持物品的顺序的价值函数,该价值函数降低上述周期时间、转矩以及振动中的至少一个。
6.根据权利要求5所述的机器学习装置,其特征在于,
上述学习部根据上述周期时间、转矩以及振动中的至少一个状态变量以及上述回报来更新与把持物品的顺序对应的行为价值表。
7.根据权利要求6所述的机器学习装置,其特征在于,
上述学习部根据与上述机器人相同结构的其他机器人的状态变量与上述回报,更新由该其他机器人将其他多个物品收纳到容器中时的周期时间、转矩以及振动中的至少一个所对应的行为价值表。
8.根据权利要求5~7中的任意一项所述的机器学习装置,其特征在于,
上述回报计算部根据上述周期时间、转矩以及振动中的至少一个来计算回报。
9.根据权利要求1~8中的任意一项所述的机器学习装置,其特征在于,
该机器学习装置还具备:意图决定部,其根据上述学习部按照上述训练数据集学习到的结果来决定把持上述多个物品的顺序。
10.根据权利要求1~9中的任意一项所述的机器学习装置,其特征在于,
上述机器学习装置经由网络与上述机器人连接,
上述状态观测部被构成为经由上述网络取得当前的状态变量。
11.根据权利要求1~10中的任意一项所述的机器学习装置,其特征在于,
上述机器学习装置存在于云服务器中。
12.一种机器学习方法,学习用于使用把持多个物品的机械手将配置在输送装置上的多个物品收纳到容器中的机器人的运转条件,该机器学习方法的特征在于,
在上述机器人的动作中观测上述多个物品的位置姿势、以及包括将上述多个物品收纳到容器中为止的周期时间、上述机器人把持物品时产生的转矩以及振动中的至少一个的状态变量,
取得判定上述周期时间、转矩以及振动相对于容许值的余量的判定数据,
按照通过上述状态变量以及上述判定数据的组合而构成的训练数据集来学习上述机器人的运转条件。
CN201710744542.3A 2016-09-27 2017-08-25 学习最优物品把持路径的机器学习装置以及机器学习方法 Active CN107866809B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-188857 2016-09-27
JP2016188857A JP6514171B2 (ja) 2016-09-27 2016-09-27 最適な物品把持経路を学習する機械学習装置、及び機械学習方法

Publications (2)

Publication Number Publication Date
CN107866809A true CN107866809A (zh) 2018-04-03
CN107866809B CN107866809B (zh) 2020-09-01

Family

ID=61564424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710744542.3A Active CN107866809B (zh) 2016-09-27 2017-08-25 学习最优物品把持路径的机器学习装置以及机器学习方法

Country Status (4)

Country Link
US (1) US10692018B2 (zh)
JP (1) JP6514171B2 (zh)
CN (1) CN107866809B (zh)
DE (1) DE102017008836B4 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109591012A (zh) * 2018-12-03 2019-04-09 深圳市越疆科技有限公司 加强学习方法、机器人和存储介质
CN110394797A (zh) * 2018-04-24 2019-11-01 发那科株式会社 机器人控制装置和系统
CN112135719A (zh) * 2018-06-14 2020-12-25 雅马哈发动机株式会社 机器学习装置以及具备该机器学习装置的机器人系统
CN113830472A (zh) * 2020-06-23 2021-12-24 细美事有限公司 物品存储装置、按其优先顺序计算设置值和其储物的方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
JP6484265B2 (ja) * 2017-02-15 2019-03-13 ファナック株式会社 学習制御機能を備えたロボットシステム及び学習制御方法
JP6983524B2 (ja) * 2017-03-24 2021-12-17 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP6676030B2 (ja) * 2017-11-20 2020-04-08 株式会社安川電機 把持システム、学習装置、把持方法、及び、モデルの製造方法
JP6810087B2 (ja) 2018-03-29 2021-01-06 ファナック株式会社 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
US20200039676A1 (en) * 2018-08-02 2020-02-06 The Recon Group LLP System and methods for automatic labeling of articles of arbitrary shape, size and orientation
JP6970078B2 (ja) * 2018-11-28 2021-11-24 株式会社東芝 ロボット動作計画装置、ロボットシステム、および方法
JP7247552B2 (ja) * 2018-11-29 2023-03-29 京セラドキュメントソリューションズ株式会社 学習装置、ロボット制御装置、及びロボット制御システム
CN113677485A (zh) * 2019-01-23 2021-11-19 谷歌有限责任公司 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应
JP7235533B2 (ja) * 2019-02-26 2023-03-08 ファナック株式会社 ロボットコントローラ及びロボットコントロールシステム
WO2020246005A1 (ja) * 2019-06-06 2020-12-10 三菱電機株式会社 パラメータ算出装置、ロボット制御システム、ロボットシステム
EP3747604B1 (en) * 2019-06-07 2022-01-26 Robert Bosch GmbH Robot device controller, robot device arrangement and method for controlling a robot device
JP7207207B2 (ja) 2019-07-09 2023-01-18 トヨタ自動車株式会社 演算装置、機械学習方法及び制御プログラム
JP7342491B2 (ja) 2019-07-25 2023-09-12 オムロン株式会社 推論装置、推論方法、及び推論プログラム
JP7351702B2 (ja) * 2019-10-04 2023-09-27 ファナック株式会社 ワーク搬送システム
DE102020113277A1 (de) 2020-05-15 2021-11-18 Gerhard Schubert Gesellschaft mit beschränkter Haftung Verfahren zum Erzeugen eines Trainingsdatensatzes zum Trainieren eines Industrieroboters
JP2022103968A (ja) * 2020-12-28 2022-07-08 東京ロボティクス株式会社 動作スケジュール生成装置、方法、プログラム及びシステム
DE102021103126B4 (de) 2021-02-10 2023-10-12 Gerhard Schubert Gesellschaft mit beschränkter Haftung Verfahren zum Beschleunigen einer Handhabungs-Maschine
JPWO2023276309A1 (zh) * 2021-06-29 2023-01-05
DE102021209867A1 (de) * 2021-09-07 2023-03-09 Kuka Deutschland Gmbh Bewerten und/oder Steuern eines Roboterarbeitsprozesses
CN114932546B (zh) * 2022-03-23 2023-10-03 燕山大学 一种基于未知机械臂模型的深度强化学习抑振系统及方法
CN116237935B (zh) * 2023-02-03 2023-09-15 兰州大学 一种机械臂协同抓取方法、系统、机械臂及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10249765A (ja) * 1997-03-07 1998-09-22 Yaskawa Electric Corp 移動物体のハンドリング方法
JP2002113678A (ja) * 2000-10-06 2002-04-16 Seiko Instruments Inc トラッキング方法、及びトラッキングシステム
EP1518648A2 (en) * 2003-09-29 2005-03-30 Fanuc Ltd Robot system capable of reproducing a situation of alarm
US20070288124A1 (en) * 2004-08-25 2007-12-13 Kabushiki Kaisha Yaskawa Denki Evaluating System And Evaluating Method Of Robot
US20100094786A1 (en) * 2008-10-14 2010-04-15 Honda Motor Co., Ltd. Smoothed Sarsa: Reinforcement Learning for Robot Delivery Tasks
US20110082586A1 (en) * 2008-06-05 2011-04-07 Toshiba Kikai Kabushiki Kaisha Handling apparatus, control device, control method, and program
CN102785046A (zh) * 2011-05-17 2012-11-21 发那科株式会社 具备学习控制功能的机器人和点焊机器人
JP2013052490A (ja) * 2011-09-06 2013-03-21 Mitsubishi Electric Corp ワーク取り出し装置
CN103764352A (zh) * 2011-09-20 2014-04-30 株式会社安川电机 机器人、处理系统和制作放入容器中的物品的方法
JP2014104524A (ja) * 2012-11-27 2014-06-09 Shibuya Kogyo Co Ltd 物品処理システム
CN105388879A (zh) * 2014-08-20 2016-03-09 库卡罗伯特有限公司 用于对工业机器人编程的方法和对应的工业机器人
US20160176043A1 (en) * 2014-12-22 2016-06-23 Qualcomm Incororated System and method for dynamic robot manipulator selection
US9393693B1 (en) * 2014-07-10 2016-07-19 Google Inc. Methods and systems for determining and modeling admissible gripper forces for robotic devices

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004243475A (ja) * 2003-02-14 2004-09-02 Seiko Epson Corp ロボットおよびロボットシステム
JP4864363B2 (ja) 2005-07-07 2012-02-01 東芝機械株式会社 ハンドリング装置、作業装置及びプログラム
JP5330138B2 (ja) * 2008-11-04 2013-10-30 本田技研工業株式会社 強化学習システム
JP5472214B2 (ja) 2011-06-20 2014-04-16 株式会社安川電機 ピッキングシステム
JP5911299B2 (ja) * 2011-12-27 2016-04-27 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム
JP5620445B2 (ja) * 2012-09-13 2014-11-05 ファナック株式会社 選択条件に基づいてロボットの保持位置姿勢を決定する物品取出装置
JP6009952B2 (ja) * 2013-01-25 2016-10-19 本田技研工業株式会社 作業方法及び作業装置
US9102055B1 (en) * 2013-03-15 2015-08-11 Industrial Perception, Inc. Detection and reconstruction of an environment to facilitate robotic interaction with the environment
US9384443B2 (en) * 2013-06-14 2016-07-05 Brain Corporation Robotic training apparatus and methods
JP5887383B2 (ja) 2014-07-04 2016-03-16 ファナック株式会社 物品をコンベヤに整列させる物品整列装置
US9272417B2 (en) * 2014-07-16 2016-03-01 Google Inc. Real-time determination of object metrics for trajectory planning
JP5908544B2 (ja) * 2014-08-11 2016-04-26 ファナック株式会社 駆動軸のジャークを低下させるロボットプログラムを生成するロボットプログラム生成装置
JP6715565B2 (ja) 2014-09-18 2020-07-01 株式会社安川電機 ロボットシステムおよびワークピッキング方法
JP5964488B1 (ja) * 2015-07-31 2016-08-03 ファナック株式会社 保護動作制御部を有するモータ制御装置、ならびに機械学習装置およびその方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10249765A (ja) * 1997-03-07 1998-09-22 Yaskawa Electric Corp 移動物体のハンドリング方法
JP2002113678A (ja) * 2000-10-06 2002-04-16 Seiko Instruments Inc トラッキング方法、及びトラッキングシステム
EP1518648A2 (en) * 2003-09-29 2005-03-30 Fanuc Ltd Robot system capable of reproducing a situation of alarm
US20070288124A1 (en) * 2004-08-25 2007-12-13 Kabushiki Kaisha Yaskawa Denki Evaluating System And Evaluating Method Of Robot
US20110082586A1 (en) * 2008-06-05 2011-04-07 Toshiba Kikai Kabushiki Kaisha Handling apparatus, control device, control method, and program
US20100094786A1 (en) * 2008-10-14 2010-04-15 Honda Motor Co., Ltd. Smoothed Sarsa: Reinforcement Learning for Robot Delivery Tasks
CN102785046A (zh) * 2011-05-17 2012-11-21 发那科株式会社 具备学习控制功能的机器人和点焊机器人
CN102785046B (zh) * 2011-05-17 2015-05-13 发那科株式会社 具备学习控制功能的机器人和点焊机器人
JP2013052490A (ja) * 2011-09-06 2013-03-21 Mitsubishi Electric Corp ワーク取り出し装置
CN103764352A (zh) * 2011-09-20 2014-04-30 株式会社安川电机 机器人、处理系统和制作放入容器中的物品的方法
JP2014104524A (ja) * 2012-11-27 2014-06-09 Shibuya Kogyo Co Ltd 物品処理システム
US9393693B1 (en) * 2014-07-10 2016-07-19 Google Inc. Methods and systems for determining and modeling admissible gripper forces for robotic devices
CN105388879A (zh) * 2014-08-20 2016-03-09 库卡罗伯特有限公司 用于对工业机器人编程的方法和对应的工业机器人
US20160176043A1 (en) * 2014-12-22 2016-06-23 Qualcomm Incororated System and method for dynamic robot manipulator selection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KUJALA ET AL.: "Picking a Conveyor Clean by an autonomously Learning robot", 《HTTPS://ARXIV.ORG/ABS/1511.07608》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110394797A (zh) * 2018-04-24 2019-11-01 发那科株式会社 机器人控制装置和系统
CN112135719A (zh) * 2018-06-14 2020-12-25 雅马哈发动机株式会社 机器学习装置以及具备该机器学习装置的机器人系统
CN112135719B (zh) * 2018-06-14 2023-08-22 雅马哈发动机株式会社 机器学习装置以及具备该机器学习装置的机器人系统
CN109591012A (zh) * 2018-12-03 2019-04-09 深圳市越疆科技有限公司 加强学习方法、机器人和存储介质
CN109591012B (zh) * 2018-12-03 2022-03-29 日照市越疆智能科技有限公司 加强学习方法、机器人和存储介质
CN113830472A (zh) * 2020-06-23 2021-12-24 细美事有限公司 物品存储装置、按其优先顺序计算设置值和其储物的方法
CN113830472B (zh) * 2020-06-23 2024-02-02 细美事有限公司 物品存储装置、按其优先顺序计算设置值和其储物的方法

Also Published As

Publication number Publication date
DE102017008836B4 (de) 2020-09-24
DE102017008836A1 (de) 2018-03-29
US20180089589A1 (en) 2018-03-29
JP6514171B2 (ja) 2019-05-15
CN107866809B (zh) 2020-09-01
JP2018051664A (ja) 2018-04-05
US10692018B2 (en) 2020-06-23

Similar Documents

Publication Publication Date Title
CN107866809A (zh) 学习最优物品把持路径的机器学习装置以及机器学习方法
CN106557069B (zh) 机械学习装置和方法以及具有该机械学习装置的机床
US20200254622A1 (en) Machine learning device, robot system, and machine learning method for learning workpiece picking operation
CN109421071A (zh) 物品堆放装置以及机器学习装置
CN109399122B (zh) 控制装置以及机器学习装置
US11904469B2 (en) Machine learning device, robot controller, robot system, and machine learning method for learning action pattern of human
US10500721B2 (en) Machine learning device, laminated core manufacturing apparatus, laminated core manufacturing system, and machine learning method for learning operation for stacking core sheets
CN107825422A (zh) 机械学习装置、机器人系统以及机械学习方法
JP6506245B2 (ja) 組付動作を学習する機械学習装置および部品組付システム
CN106552974B (zh) 具有移动轴异常负载警告功能的线放电加工机
US20180222046A1 (en) Workpiece picking device and workpiece picking method for improving picking operation of workpieces
CN108241342A (zh) 数值控制装置以及机器学习装置
CN110347120A (zh) 控制装置以及机器学习装置
CN109814615A (zh) 控制装置以及机器学习装置
US20190009407A1 (en) Component supply device and machine learning device
CN108687766B (zh) 机器人的控制装置、机器学习装置以及机器学习方法
JP2024023873A (ja) 作業員の作業を補助する機械学習装置、及び機械学習方法
Hildebrand et al. Deep reinforcement learning for robot batching optimization and flow control
JP7512231B2 (ja) 装置、モデル生成方法、モデル学習装置、プログラム、方法、およびシステム
KR20200050644A (ko) 무인세탁시스템을 이용한 상품정보 제공방법 및 상품정보 제공을 위한 무인세탁시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant