CN110125955B

CN110125955B - 控制装置以及机器学习装置

Info

Publication number: CN110125955B
Application number: CN201910108842.1A
Authority: CN
Inventors: 大槻秀树; 阿部宏志
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-02-09
Filing date: 2019-02-03
Publication date: 2021-09-24
Anticipated expiration: 2039-02-03
Also published as: CN110125955A; US20190314996A1; DE102019000749A1; DE102019000749B4; JP2019136818A; US11059180B2; JP6703020B2

Abstract

本发明提供控制装置以及机器学习装置。机器学习装置具有：状态观测部，其观测表示部件配备场所中的部件的配置的部件配置数据、表示部件的信息的部件数据、以及表示作业员的状态信息的作业员状态数据作为表示环境的当前状态的状态变量；判定数据取得部，其取得判定根据部件的配置来组装好的产品的质量的产品质量判定数据、以及判定产品的组装的间歇时间的间歇时间判定数据作为判定数据；以及学习部，其使用状态变量和判定数据，将用于组装产品的部件的信息和作业员的状态信息与部件配备场所中的部件的配置关联起来进行学习。

Description

控制装置以及机器学习装置

技术领域

本发明涉及控制装置以及机器学习装置，特别是涉及配备机器人的控制装置以及机器学习装置。

背景技术

配备机器人是在产品的组装工序之前工序中，从部件仓库等运出组装装置等所需的部件，并汇集到进行组装作业的作业员或组装机器人的附近来进行配备从而使组装作业易于进行的机器人。配备机器人通过预先编程的预定配置来配备各部件。

作为配备机器人相关的现有技术，例如在日本特开2001-047327号公报中公开了将用于组装车体的部件输送至预定的位置的部件供给机器人。

在工厂环境中通过作业员或组装机器人来进行产品的组装作业，但是一条生产线的组装作业未必由特定的作业员或特定的组装机器人来进行。可以认为在替换作业员或组装机器人时相对于部件的配备场所的最佳部件的配置发生变化。此外，即使在作业员没有改变的情况下，在进行长时间作业的过程中因疲劳而导致作业员的技能(感觉最适合的部件配置)发生变化。

发明内容

因此，本发明的目的在于，提供可以决定产品的组装作业中的部件配备场所的最佳部件的配置的控制装置和机器学习装置。

本发明的一方式为一种控制装置，其指示配备由机器人进行的部件配备场所中的部件配置，其中，该控制装置具有：机器学习装置，其学习由所述配备机器人进行的所述部件配备场所中的部件配置，所述机器学习装置具有：状态观测部，其观测表示所述部件配备场所中的所述部件的配置的部件配置数据、表示所述部件的信息的部件数据、以及表示由所述部件组装产品的作业员的状态信息的作业员状态数据，作为表示环境的当前状态的状态变量；判定数据取得部，其取得判定根据所述部件的配置来组装好的所述产品的质量的产品质量判定数据、以及判定所述产品的组装的间歇时间的间歇时间判定数据，作为表示由所述作业员所进行的产品组装的适当与否判定结果的判定数据；以及学习部，其使用所述状态变量和所述判定数据，将用于组装所述产品的所述部件的信息和所述作业员的状态信息与所述部件配备场所中的所述部件的配置关联起来进行学习。

本发明的其他方式为一种控制装置，指示由配备机器人进行的部件配备场所中的部件的配置，其中，所述控制装置具有：机器学习装置，其学习由所述配备机器人进行的所述部件配备场所中的部件配置，所述机器学习装置具有：状态观测部，其观测表示所述部件配备场所中的所述部件的配置的部件配置数据、表示所述部件的信息的部件数据、以及表示由所述部件组装产品的作业员的状态信息的作业员状态数据，作为表示环境的当前状态的状态变量；学习部，其将用于组装所述产品的所述部件的信息和所述作业员的状态信息与所述部件配备场所中的所述部件的配置关联起来进行学习；以及决策部，其根据所述状态观测部观测到的状态变量和所述学习部的学习结果，来决定所述部件配备场所中的所述部件的配置。

本发明的其他方式为一种机器学习装置，其学习由配备机器人所进行的部件配备场所中的部件配置，其中，所述机器学习装置具有：状态观测部，其观测表示所述部件配备场所中的所述部件的配置的部件配置数据、表示所述部件的信息的部件数据、以及表示由所述部件组装产品的作业员的状态信息的作业员状态数据，作为表示环境的当前状态的状态变量；判定数据取得部，其取得判定根据所述部件的配置来组装好的所述产品的质量的产品质量判定数据、以及判定所述产品的组装的间歇时间的间歇时间判定数据，作为表示由所述作业员进行的产品组装的适当与否判定结果的判定数据；以及学习部，其使用所述状态变量和所述判定数据，将用于组装所述产品的所述部件的信息和所述作业员的状态信息与所述部件配备场所中的所述部件的配置关联起来进行学习。

本发明的其他方式为一种机器学习装置，其学习由配备机器人所进行的部件配备场所中的部件配置，其中，所述机器学习装置具有：状态观测部，其观测表示所述部件配备场所中的所述部件的配置的部件配置数据、表示所述部件的信息的部件数据、以及表示由所述部件组装产品的作业员的状态信息的作业员状态数据，作为表示环境的当前状态的状态变量；学习部，其将用于所述产品的组装的所述部件的信息和所述作业员的状态信息与所述部件配备场所中的所述部件的配置关联起来进行学习；以及决策部，其根据所述状态观测部观测到的状态变量和所述学习部的学习结果，来决定所述部件配备场所中的所述部件的配置。

通过本发明，由于根据作业员的常态来进行适当配置的组装部件的配备，因此可以实现组装作业间歇时间的缩短和作业员负担的减轻。

附图说明

通过参照附图的以下实施例的说明可以明确本发明的所述和其他目的以及特征。这些图中：

图1是第一实施方式的控制装置的概略硬件结构图。

图2是第一实施方式的控制装置的概略功能框图。

图3是表示部件配置数据S1的示例的图。

图4是表示控制装置的一方式的概略功能框图。

图5是表示机器学习方法的一方式的概略流程图。

图6A是说明神经元的图。

图6B是说明神经网络的图。

图7是表示嵌入有控制装置的系统的一方式的概略功能框图。

具体实施方式

以下，与附图一起对本发明的实施方式进行说明。

图1是表示第一实施方式的控制装置的主要部分的概略硬件结构图。控制装置1例如可以安装为控制配备机器人的控制装置。

此外，控制装置1例如可以安装为与控制配备机器人2的控制装置并设的个人电脑、经由有线/无线网络与控制装置连接的单元计算机、主计算机、边缘服务器、云服务器等计算机。在本实施方式中，示出将控制装置1安装为控制配备机器人2的控制装置时的示例。

本实施方式的控制装置1具有的CPU11是对控制装置1进行整体控制的处理器。CPU11经由总线20读出存储于ROM12的系统程序，按照该系统程序来对控制装置1的整体进行控制。将临时的计算数据或显示数据、操作员经由未图示的输入部输入的各种数据等暂时存储于RAM13中。

非易失性存储器14构成为例如通过未图示的电池来备份等，即使断开控制装置1的电源也可保持存储状态的存储器。在非易失性存储器14中存储有从外部读入的程序或数据、从控制装置1的各部或配备机器人2、传感器3、输入装置4取得的各种数据(例如，配备机器人的位置、部件的配备场所的部件配置、作业员的动作、产品的质量信息、作业员的状态等)。存储于非易失性存储器14的程序或各种数据可以在执行时/利用时在RAM13中展开。此外，在ROM12中预先写入公知的解析程序等各种系统程序(包含用于控制与后述的机器学习装置100的交换的系统程序)。

配备机器人2经由接口17与控制装置1连接，根据来自控制装置1的指令来进行动作。控制装置1经由接口17取得配备机器人2的动作有关的各数据。

此外，控制装置1经由接口18取得传感器3检测出的检测值。控制装置1根据需要与多个传感器3连接。传感器3例如例示出对部件的配备场所或作业员的动作进行拍摄的拍摄装置等。

接口19受理来自键盘或定位设备等输入装置4的输入，将输入的数据转发给CPU11。从输入装置4输入作业员组装好的产品的质量信息、作业员的状态等。

接口21是用于将控制装置1与机器学习装置100连接的接口。机器学习装置100具有：统制机器学习装置100整体的处理器101、存储系统程序等的ROM102、用于进行机器学习有关的各处理中的临时存储的RAM103、以及用于存储学习模型等的非易失性存储器104。机器学习装置100可以经由接口21观测由控制装置1能够取得的各信息(例如，配备机器人的位置、部件的配备场所的部件配置、作业员的动作、产品的质量信息、作业员的状态等)。此外，控制装置1接收从机器学习装置100输出的部件配备场所中的部件配置，来控制配备机器人的动作。

图2是第一实施方式的控制装置1与机器学习装置100的概略功能框图。通过图1所示的控制装置1具有的CPU11、以及机器学习装置100的处理器101执行各系统程序，对控制装置1和机器学习装置100各部的动作进行控制，来实现图2所示的各功能块。

本实施方式的控制装置1具有：控制部34，其根据从机器学习装置100输出的部件配备场所中的部件配置来控制配备机器人2。控制部34一般情况下按照由程序等指示的配备机器人2的部件配备指令来控制机器人的动作，但是此时，若从机器学习装置100输出部件配备场所中的部件配置，则代替由所述程序等指示的部件配备场所处的部件配置，而控制配备机器人2，成为从机器学习装置100输出的部件配备场所处的部件配置。

另一方面，控制装置1具有的机器学习装置100包含用于通过所谓的机器学习来对针对用于组装产品的部件的信息和作业员的状态信息的部件配备场所中的部件配置进行自我学习的软件(学习算法等)和硬件(处理器101等)。控制装置1具有的机器学习装置100进行学习的结果相当于表示用于组装产品的部件的信息和作业员的状态信息、与部件配备场所中的部件配置的相关性的模型结构。

如图2的功能块所示，控制装置1具有的机器学习装置100具有：状态观测部106，其观测表示环境当前状态的状态变量S，所述状态变量S包含表示部件配备场所中的部件配置的部件配置数据S1、表示用于组装产品的部件的信息的部件数据S2、以及表示作业员的状态信息的作业员状态数据S3；判定数据取得部108，其取得包含产品质量判定数据D1和间歇时间判定数据D2在内的判定数据D，所述产品质量判定数据D1用于根据已决定的部件配备场所中的部件配置来判定作业员组装好的产品的质量，所述间歇时间判定数据D2用于判定作业员进行组装作业的间歇时间；以及学习部110，其使用状态变量S和判定数据D，将用于组装产品的部件的信息和作业员的状态信息与部件配备场所中的部件配置关联起来进行学习。

在状态观测部106观测的状态变量S中，部件配置数据S1可以取得为部件配备场所中的部件配置。部件配备场所中的部件配置例如可以从针对配备机器人2的部件配备指令中取得。此外，也可以通过对从传感器3取得的部件配备场所的图像进行解析而取得部件配备场所中的部件配置。

部件配置数据S1例如可以定义为部件配备场所中的部件配置的排列。图3是表示部件配置数据S1的示例的图。在图3的示例中，将部件配备场所分割成多个部分区域设定应该配置于各部分区域的部件，将该部分区域定义为二维排列数据，由此，使部件配备场所中的部件配置数据化。对各部件给予能够唯一识别该部件的识别号码来进行管理，关于跨过多个部分区域的较大的部件，只要以部件B-1、部件B-2等这样的方式在识别号码后给予连号来进行表现即可。

就部件配置数据S1而言，机器学习装置100可以根据学习部110的学习结果针对用于前一学习周期的产品的组装的部件的信息和作业员的状态信息，直接使用在该学习周期中所决定的部件配备场所中的部件配置。在取得这样的方法的情况下，机器学习装置100按学习周期将部件配备场所中的部件配置暂时存储于RAM103，状态观测部106可以从RAM103中取得前一个学习周期的部件配备场所中的部件配置作为本次学习周期的部件配置数据S1。

在状态观测部106观测的状态变量S中，部件数据S2可以取得为从用于控制配备机器人2的程序中取得的或从输入装置4输入的、配置于部件配备场所的各部件的形状或尺寸、重量、用于组装的顺序等的排列数据。对用于组装产品的部件的每一个给予能够唯一识别该部件的识别号码来进行管理。

在状态观测部106观测的状态变量S中，作业员状态数据S3可以取得为作业员的状态信息。作业员的状态信息可以用作排列了作业员的年龄、作业员的惯用手、作业员的体格、作业员的熟练度、作业员的性别等信息的数据。此外，根据需要作为作业员的状态信息也可以使用作业员的疲劳度(可以对作业员装配传感器来进行测定，也可以通过从作业开始起经过的时间来代替)。这些各信息可以针对预定范围标记一个数值，将该数值处理为输入数据。

例如，可以对作业员的体格进行数值化来进行处理，使得将身高140cm以上不足160cm设为1，将160cm以上不足170cm设为2，将身高170cm以上设为3等。

判定数据取得部108可以使用根据决定出的部件配备场所处的部件配置由作业员组装好的产品的质量判定结果，来作为产品质量判定数据D1。作为判定数据取得部108使用的产品质量判定数据D1，例如只要使用由作业员基于已决定的部件配备场所处的部件配置而实际组装好的产品是合格品(是)还是不合格品(否)这样的、适当设定好的判定基准判定的结果即可。在判定基准中例示有部件的安装偏差、部件的安装错误、忘记螺丝、部件的丢失等。

此外，判定数据取得部108可以使用根据已决定的部件配备场所中的部件配置进行的作业员进行组装作业的间歇时间的判定结果，来作为间歇时间判定数据D2。作为判定数据取得部108使用的间歇时间判定数据D2例如使用由作业员基于已决定的部件配备场所中的部件配置实际组装产品所花费的时间比预先设定的预定阈值短(是)还是长(否)这样的、适当设定的判定基准判定出的结果即可。

另外，判定数据取得部108在学习部110的学习阶段为必需的结构，但是在基于学习部110的将用于产品的组装的部件的信息和作业员的状态信息与部件配备场所中的部件配置相关联的学习结束之后未必为必需的结构。例如，在将已完成学习的机器学习装置100出货给顾客时等，可以拆除判定数据取得部108并出货。

在考虑到基于学习部110的学习周期的情况下，同时输入给学习部110的状态变量S为基于取得判定数据D的一学习周期前的数据的数据。这样，在控制装置1具有的机器学习装置100进行学习的期间、环境下，重复实施部件数据S2和作业员状态数据S3的取得、基于根据所取得的各数据而决定的部件配置数据S1的配备机器人2所涉及的部件的配备、判定数据D的取得。

学习部110按照统称为机器学习的任意学习算法，学习针对用于组装产品所使用的部件的信息和作业员的状态信息的、部件配备场所中的部件配置。学习部110可以反复执行基于包含所述的状态变量S和判定数据D的数据集合的学习。在针对用于组装产品的部件的信息和作业员的状态信息的、部件配备场所中的部件配置的学习周期的重复过程中，如上所述，根据从前一个学习周期的用于组装产品的部件的信息与作业员的状态信息、以及在前一学习周期中所决定的部件配备场所中的部件配置来取得状态变量S，此外，根据已决定的部件配备场所中的部件配置将判定数据D设为作业员组装好的产品的质量的适当与否判定结果。

通过重复这样的学习周期，学习部110可以识别对用于组装产品的部件的信息和作业员的状态信息、与部件配备场所中的部件配置的相关性进行暗示的特征。在开始学习算法时，用于组装产品的部件的信息和作业员的状态信息、与部件配备场所中的部件配置的相关性实际上是不知道的，但是学习部110随着学习进展而缓缓识别特征从而解释相关性。若将用于组装产品的部件的信息和作业员的状态信息、与部件配备场所中的部件配置的相关性解释为达到某种可以相信的水平，则学习部110反复输出的学习结果可以用于针对当前状态(也就是说，用于组装产品的部件的信息和作业员的状态信息)进行应该怎样决定部件配备场所中的部件配置这样的行为的选择(即决策)。也就是说，学习部110随着学习算法的进行，可以使与如下行为的相关性缓缓地接近最佳解，该行为是指针对用于组装产品的部件的信息和作业员的状态信息应该以怎样的方式设定部件配备场所中的部件配置。

决策部122根据学习部110学习到的结果，来决定部件配备场所中的部件配置，将已决定的部件配备场所处的部件配置输出给控制部34。

决策部122在学习部110所进行的学习结束的状态下，若向机器学习装置100输入用于组装产品的部件的信息和作业员的状态信息，则输出部件配备场所中的部件配置。决策部122根据状态变量S与学习部110学习到的结果，来决定适当的部件配备场所中的部件配置。

如上所述，控制装置1具有的机器学习装置100使用状态观测部106观测到的状态变量S与判定数据取得部108取得的判定数据D，学习部110按照机器学习算法，学习针对用于组装产品的部件的信息和作业员的状态信息的部件配备场所中的部件配置。状态变量S由部件配置数据S1、部件数据S2和作业员状态数据S3这样的数据构成，此外，判定数据D通过控制装置1解析从配备机器人2取得的信息而唯一求出。因此，根据控制装置1具有的机器学习装置100，通过使用学习部110的学习结果，能够自动且准确地进行与用于组装产品的部件的信息和作业员的状态信息相对应的部件配备场所中的部件配置。

并且，如果可以自动进行部件配备场所中的部件配置的决定，则仅通过掌握组装产品所使用的部件的信息(部件数据S2)和作业员的状态信息(作业员状态数据S3)，就可以迅速决定部件配备场所中的部件配置的适当值。因此，可以更高效地进行部件配备场所中的部件配置。

作为本实施方式的控制装置1具有的机器学习装置100的一变形例，判定数据取得部108除了产品质量判定数据D1和间歇时间判定数据D2之外，还可以取得表示作业员的动作的作业员动作判定数据D3来作为判定数据D。作业员动作判定数据D3只要根据作业员进行产品的组装作业过程中取得的作业员的动作(通过作为拍摄装置的传感器3等进行检测)，使用在取得部件时是否进行了(否)不合理的姿势等这样的适当设定的判定基准判定出的结果即可。此外，这时，是否是取得某个部件时的动作也被取得为判定数据之一也是合适的。

根据上述变形例，机器学习装置100通过作业员动作判定数据D3而对强迫作业员不合理的姿势的部件配置进行低的评价，由此，可以使学习部110以不取得那样的部件配置的方式来进行学习。此外，在掌握取得特定的部件时进行了不合理的姿势的情况下，可以期待通过优先试行局部的部件配置的变更来进行有效的学习编程，以便在下一学习周期中提出变更了该部件的配置之后的部件配置。

在具有上述结构的机器学习装置100中，学习部110执行的学习算法没有特别限定，作为机器学习可以采用公知的学习算法。图4是图2所示的控制装置1的一个方式，表示作为学习算法的一例而具有执行强化学习的学习部110的结构。强化学习是如下方法：观测学习对象所在的环境的当前状态(即输入)并且以当前状态来执行预定行为(即输出)，以试错的方式反复针对该行为给予任何回报这样的循环，并将使回报的总和为最大化的方法(在本申请的机器学习装置中部件配备场所中的部件配置)作为最佳解来进行学习。

在图3所示的控制装置1具有的机器学习装置100中，学习部110具有：回报计算部112，其根据状态变量S来决定部件配备场所中的部件配置，求出与完成基于已决定的部件配备场所中的部件配置的由配备机器人2所进行的部件配置时的作业员组装产品的适当与否判定结果(相当于取得状态变量S的下一学习周期所使用的判定数据D)关联的回报R；以及价值函数更新部114，其使用回报R来更新表示部件配备场所中的部件配置的价值的函数Q。学习部110通过价值函数更新部114重复更新函数Q，来学习针对用于组装产品的部件的信息和作业员的状态信息的部件配备场所中的部件配置。

对学习部110执行的强化学习的算法的一例进行说明。该示例的算法作为Q学习(Q-learning)而被知晓，是将行为主体的状态s和在该状态s下能够选择行为主体的行为a设为独立变量，并对表示在状态s下选择出行为a时的行为的价值的函数Q(s、a)进行学习的方法。在状态s下选择价值函数Q为最高的行为a是最佳解。状态s与行为a的相关性在未知的状态下开始Q学习，通过重复在任意状态s下选择各种行为a的试错，而反复更新价值函数Q，靠近最佳解。这里，作为在状态s下选择出行为a的结果，构成为当环境(即状态s)发生变化时，获得与该变化对应的回报(即行为a的权值)r，从而引导学习以选择获得更高的回报r的行为a，由此可以在比较短的时间内使价值函数Q接近最佳解。

价值函数Q的更新式一般情况下可以如下述的数学式1那样表示。在数学式1中，s_t和a_t分别是时刻t的状态和行为，状态因行为a_t而变化为s_t+1。r_t+1是状态从s_t变化为s_t+1而获得的回报。maxQ的项表示进行在时刻t+1为最大的价值Q的(在时刻t考虑的)行为a时的Q。α和γ分别是学习系数和折扣率，通过0＜α≤1、0＜γ≤1而任意设定。

[数学式1]

学习部110在执行Q学习时，状态观测部106观测到的状态变量S和判定数据取得部108取得的判定数据D与更新式的状态s相符，应该以怎样的方式来决定相对于当前状态(即，组装产品所使用的部件的信息和作业员的状态信息)的部件配备场所中的部件配置这样的行为与更新式的行为a相符，回报计算部112求出的回报R与更新式的回报r相符。因此价值函数更新部114通过使用了回报R的Q学习而重复更新表示针对当前状态的部件配备场所中的部件配置的价值的函数Q。

回报计算部112求出的回报R例如在决定了部件配备场所中的部件配置之后，在基于已决定的部件配备场所中的部件配置的作业员组装产品的适当与否判定结果判定为“适合”时(例如，作业员组装出的产品的质量是合格品时，作业员组装作业的间歇时间是预先设定的阈值、或比前一学习周期的间歇时间短时等)设为正(plus)回报R，在决定了部件配备场所中的部件配置之后，在基于已决定的部件配备场所中的部件配置的作业员组装产品的适当与否判定结果判定为“适合”时(例如，作业员组装出的产品的质量是不合格品时，作业员组装作业的间歇时间是预先设定的阈值、或比前一学习周期的间歇时间长时等)设为负(minus)回报R。正负回报R的绝对值既可以彼此相同也可以不同。此外，作为判定的条件可以将判定数据D所含的多个值组合判定。

此外，不只是“适合”和“否”这两者，还可以将基于设定好的部件配备场所中的部件配置的作业员组装产品的适当与否判定结果设定为多个阶段。

作为示例，可以构成为：在作业员的组装作业的间歇时间的阈值是T_max的情况下，当作业员的组装作业的间歇时间T为0≤T＜T_max/5时给予回报R＝5，在T_max/5≤T＜T_max/2时给予回报R＝3，在T_max/2≤T＜T_max时给予回报R＝1，在T_max≤T时给予回报R＝-3(负回报)。

并且，学习的初始阶段可以构成为：将用于判定的阈值设定得比较大，随着学习得以进行缩小用于判定的阈值。

价值函数更新部114可以具有将状态变量S、判定数据D、回报R与由函数Q表示的行为价值(例如数值)关联起来进行整理而得的行为价值表。该情况下，价值函数更新部114更新函数Q的行为与价值函数更新部114更新行为价值表的行为相同。由于在开始Q学习时环境的当前状态与部件配备场所处的部件配置的相关性未知，因此在行为价值表中，以与随机预定的行为价值的值(函数Q)关联起来的形式而准备各种状态变量S、判定数据D、回报R。另外，回报计算部112如果知晓判定数据D则可以立即计算与此对应的回报R，计算出的值R写入到行为价值表中。

在使用配备机器人2的动作的适当与否判定结果对应的回报R来进行Q学习时，向选择获得更高的回报R的行为的方向引导学习，作为在当前状态下执行了选择出的行为的结果，将根据变化的环境的状态(即状态变量S和判定数据D)，改写针对当前状态下进行的行为的行为价值的值(函数Q)并更新行为价值表。通过重复该更新，以越是适当的行为(本发明的情况下，就是决定部件配备场所中的部件配置而不在作业员进行产品的组装产生问题的行为)越是成为较大的值的方式来改写行为价值表所显示的行为价值的值(函数Q)。这样，逐渐明确未知环境的当前状态(组装产品所使用的部件的信息和作业员的状态信息)和与此相对的行为(部件配备场所中的部件配置)的相关性。即，通过行为价值表的更新，使用于组装产品的部件的信息和作业员的状态信息、与部件配备场所处的部件配置的关系逐渐接近最佳解。

参照图5，进一步说明学习部110执行的上述Q学习的流程(即机器学习方法的一方式)。首先，在步骤SA01中，价值函数更新部114一边参照该时间点的行为价值表，一边作为状态观测部106观测到的状态变量S表示的当前状态下进行的行为而随机选择部件配备场所中的部件配置。接下来，价值函数更新部114在步骤SA02中，提取状态观测部106观测的当前状态的状态变量S，在步骤SA03中，提取判定数据取得部108取得的当前状态的判定数据D。接着，价值函数更新部114在步骤SA04中，根据判定数据D，判断部件配备场所处的部件配置适当与否，在适合时，在步骤SA05中，将回报计算部112求出的正回报R应用于函数Q的更新式，接下来，在步骤SA06中，使用当前状态下的状态变量S、判定数据D、回报R、行为价值的值(更新后的函数Q)来更新行为价值表。在步骤SA04中，当判断为部件配备场所处的部件配置不适合时，在步骤SA07中，将回报计算部112求出的负回报R应用于函数Q的更新式，接着在步骤SA06中，使用当前状态下的状态变量S、判定数据D、回报R、行为价值的值(更新后的函数Q)来更新行为价值表。学习部110通过重复步骤SA01～SA07而反复更新行为价值表，使得部件配备场所中的部件配置的学习得以进行。另外，对于判定数据D所含的各数据执行从步骤SA04到步骤SA07的求出回报R的处理和价值函数的更新处理。

在进行所述强化学习时，例如可以应用神经网络。图6A示意性地表示神经元的模型。图6B示意性地表示将图6A所示的神经元组合而构成的三层神经网络的模型。例如可以由实现模拟了神经元模型的运算装置和存储装置等来构成神经网络。

图6A所示的神经元输出针对多个输入x(这里作为一个示例，为输入x₁～输入x₃)的结果y。对各输入x₁～x₃乘以与该输入x对应的权值w(w₁～w₃)。由此，神经元输出由如下数学式2表现的输出y。另外，在数学式2中，输入x、输出y以及权值w都是向量。此外，θ是偏置(bias)，f_k是激活函数。

[数学式2]

图6B所示的三层神经网络从左侧输入多个输入x(这里作为一例，输入x1～输入x3)，从右侧输出结果y(这里作为一例，结果y1～结果y3)。在图示的示例中，输入x1、x2、x3分别乘以对应的权值(统一标记为w1)，将各输入x1、x2、x3输入到三个神经元N11、N12、N13的每一个。

在图6B中，将神经元N11～N13的各自输出统一表示为z1。z1可以看作是提取出输入向量的特征量而得的特征向量。在图示的示例中，特征向量z1分别乘以对应的权值(统一表示为w2)，各特征向量z1输入到两个神经元N21、N22的每一个。特征向量z1表示权值W1与权值W2之间的特征。

在图6B中，将神经元N21～N22的各自输出统一表示为z2。z2可以看作是提取出特征向量z1的特征量而得的特征向量。在图示的示例中，特征向量z2分别乘以对应的权值(统一表示为w3)，将各特征向量z2输入到三个神经元N31、N32、N33的每一个。特征向量z2表示权值W2与权值W3之间的特征。最后，神经元N31～N33分别输出结果y1～y3。

另外，还能够使用所谓的深层学习的方法，该深层学习使用了构成三层以上的层的神经网络。

在控制装置1具有的机器学习装置100中，将神经网络用作Q学习中的价值函数，将状态变量S与行为a设为输入x，学习部110进行按照上述神经网络的多层构造的运算，由此可以输出该状态下的该行为的价值(结果y)。另外，在神经网络的动作模式中有学习模式和价值预测模式，例如可以在学习模式中使用学习数据集来学习权值w，在价值预测模式中使用学习到的权值w来进行行为的价值判断。另外，在价值预测模式中也可以进行检测、分类、推论等。

上述控制装置1的结构可以记述为处理器101执行的机器学习方法(或者软件)。该机器学习方法是学习部件配备场所中的部件配置的机器学习方法，具有由计算机的CPU进行的如下步骤：观测部件配置数据S1、部件数据S2、作业员状态数据S3，作为表示配备机器人2进行动作的环境的当前状态的状态变量S；取得表示基于已决定的部件配备场所中的部件配置的由作业员所进行的产品组装的适当与否判定结果的判定数据D；使用状态变量S和判定数据D，将部件数据S2、作业员状态数据S3、与部件配备场所中的部件配置关联起来进行学习。

图7表示具有控制装置1的第三实施方式的系统170。系统170具有安装为单元计算机、主计算机、云服务器等计算机的一部分的至少一台控制装置1、成为控制对象的多个配备机器人2、将控制装置1和配备机器人2相互连接的有线/无线网络172。

就具有上述结构的系统170而言，具有机器学习装置100的控制装置1可以使用学习部110的学习结果，按各配备机器人2自动且准确地求出针对用于组装产品的部件的信息和作业员的状态信息的、部件配备场所中的部件配置。此外，控制装置1的机器学习装置100可以构成为：根据针对多个配备机器人2中的每一个而获得的状态变量S和判定数据D，学习与所有配备机器人2共通的部件配备场所中的部件配置，在所有配备机器人2的动作中共享该学习结果。因此，根据系统170，可以将更多样的数据集合(包含状态变量S和判定数据D)作为输入，可以提升部件配备场所中的部件配置的学习速度和信赖性。

以上，对本发明的实施方式进行了说明，但是本发明不只限定于上述实施方式的示例，可以通过增加适当的变更而以各种方式来实施。

例如，机器学习装置100执行的学习算法、运算算法、控制装置1执行的控制算法等不限定于上述内容，可以采用各种算法。

此外，在上述实施方式中说明了控制装置1与机器学习装置100是具有不同的CPU的装置，但是机器学习装置100可以通过控制装置1具有的CPU、存储于ROM12的系统程序来实现。

并且，在上述的实施方式中以作业员将配置于部件配备场中的部件组装为产品的示例为基础进行了说明，但是作为组装产品的作业员还能够将组装机器人设为对象。该情况下，作为作业员状态可以使用机器人的种类等。此外，在考虑作为作业员的组装机器人的情况下，作为判定数据取得部108取得的判定数据，通过使用消耗电力数据D3，也能够设为学习消耗电力更少的部件配置的机器学习装置100。

以上，对本发明的实施方式进行了说明，但是本发明不限定于上述实施方式的示例，可以通过增加适当的变更，以其他方式来实施。

Claims

1.一种控制装置，其指示由配备机器人进行的部件配备场所中的部件的配置，其特征在于，

所述控制装置具有：机器学习装置，其学习由所述配备机器人进行的所述部件配备场所中的部件配置，

所述机器学习装置具有：

状态观测部，其观测表示环境的当前状态的状态变量，所述状态变量包含表示所述部件配备场所中的所述部件的配置的部件配置数据、表示所述部件的信息的部件数据、以及表示由所述部件组装产品的作业员的状态信息的作业员状态数据；

判定数据取得部，其取得判定根据所述部件的配置来组装好的所述产品的质量的产品质量判定数据以及判定所述产品的组装的间歇时间的间歇时间判定数据，作为表示由所述作业员进行的产品的组装的适当与否判定结果的判定数据，所述产品的质量的判定基准包括部件的安装偏差、部件的安装错误、忘记螺丝、部件的丢失；以及

学习部，其使用所述状态变量和所述判定数据，将用于组装所述产品的所述部件的信息和所述作业员的状态信息与所述部件配备场所中的所述部件的配置关联起来进行学习。

2.根据权利要求1所述的控制装置，其特征在于，

所述学习部具有：回报计算部，其求出与所述适当与否判定结果相关联的回报；以及

价值函数更新部，其使用所述回报，更新表示针对用于组装所述产品的所述部件的信息和所述作业员的状态信息的、所述部件配备场所中的所述部件的配置的价值的函数，

所述产品的质量越高和所述间歇时间越短，所述回报计算部越是给予高的回报。

3.根据权利要求1或2所述的控制装置，其特征在于，

所述学习部通过多层结构来运算所述状态变量和所述判定数据。

4.一种控制装置，其指示由配备机器人进行的部件配备场所中的部件的配置，其特征在于，

所述控制装置具有：机器学习装置，其学习基于所述配备机器人的所述部件配备场所中的部件配置，

所述机器学习装置具有：

学习部，其将用于组装所述产品的所述部件的信息和所述作业员的状态信息与所述部件配备场所中的所述部件的配置关联起来进行学习；以及

决策部，其根据所述状态观测部观测到的状态变量和所述学习部的学习结果，来决定所述部件配备场所中的所述部件的配置。

5.根据权利要求1、2、4中任一项所述的控制装置，其特征在于，

所述机器学习装置存在于云服务器。

6.一种机器学习装置，其学习由配备机器人所进行的部件配备场所中的部件配置，其特征在于，

所述机器学习装置具有：

判定数据取得部，其取得判定根据所述部件的配置来组装出的所述产品的质量的产品质量判定数据、以及判定所述产品的组装的间歇时间的间歇时间判定数据，作为表示由所述作业员所进行的产品的组装的适当与否判定结果的判定数据，所述产品的质量的判定基准包括部件的安装偏差、部件的安装错误、忘记螺丝、部件的丢失；以及

学习部，其使用所述状态变量与所述判定数据，将用于组装所述产品的所述部件的信息和所述作业员的状态信息与所述部件配备场所中的所述部件的配置关联起来进行学习。

7.一种机器学习装置，其学习由配备机器人所进行的部件配备场所中的部件配置，其特征在于，

所述机器学习装置具有：