CN109382825A

CN109382825A - 控制装置以及学习装置

Info

Publication number: CN109382825A
Application number: CN201810896937.XA
Authority: CN
Inventors: 松平哲郎; 井上周
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-08-08
Filing date: 2018-08-08
Publication date: 2019-02-26
Anticipated expiration: 2038-08-08
Also published as: JP2019030941A; DE102018006248A1; US20190047143A1; JP6680730B2; US10953538B2; CN109382825B

Abstract

本发明提供一种控制装置以及学习装置。输出对机器人的指令的控制装置具备学习对机器人的指令的机器学习装置。上述机器学习装置具备：状态观测部，其观测机器人的状态以及存在于上述机器人的周边区域的人的状态，作为表示环境的当前状态的状态变量；判定数据获取部，其获取表示机器人和人的干扰状态的判定数据；以及学习部，其使用状态变量和判定数据，将机器人的状态以及存在于机器人的周边区域的人的状态与对机器人的指令关联起来进行学习。

Description

控制装置以及学习装置

技术领域

本发明涉及控制装置以及学习装置，尤其涉及能够在人接近机器人的情况下将机器人的动作最佳化的控制装置以及学习装置。

背景技术

若人进入机器人的作业区域，则以往的控制装置进行停止机器人的动作、或者移至安全速度继续进行动作的控制，以免机器人撞上人。例如，在日本特开2012-040626号公报记载有由力传感器检测机器人和人接触，并进行防止产生过大的力的控制的技术。

然而，根据以往这样的控制，在人进入机器人的作业区域的情况下机器人的生产性降低。在这样的情况下，若例如变更机器人的轨道以不撞上人，或者若没有撞上人的危险则不使速度降低等，机器人能够安全并且高效地继续作业，则应该能够抑制生产性的降低。

发明内容

本发明是为了解决这样的问题点而完成的，其目的在于提供一种能够在人接近的情况下将机器人的动作最佳化的控制装置以及学习装置。

本发明的一个实施方式所涉及的控制装置是输出对机器人的指令的控制装置，其特征在于，该控制装置具备学习对上述机器人的指令的机器学习装置，上述机器学习装置具备：状态观测部，其观测上述机器人的状态以及存在于上述机器人的周边区域的人的状态，作为表示环境的当前状态的状态变量；判定数据获取部，其获取表示上述机器人和上述人的干扰状态的判定数据；以及学习部，其使用上述状态变量和上述判定数据，将上述机器人的状态以及存在于上述机器人的周边区域的人的状态与对上述机器人的指令关联起来进行学习。

本发明的一个实施方式所涉及的控制装置，其特征在于，上述状态变量包括上述机器人的机械手的姿势以及移动速度作为表示上述机器人的状态的数据，且包括上述人的侵入方向以及活动路线作为表示上述人的状态的数据。

本发明的一个实施方式所涉及的控制装置，其特征在于，上述判定数据包括机器人与人的碰撞的有无、机器人与人的相对距离、碰撞时的力的大小、吞吐量中的至少某一个。

本发明的一个实施方式所涉及的控制装置，其特征在于，上述学习部具备：回报计算部，其求出与上述机器人和上述人的干扰状态相关的回报；价值函数更新部，其使用上述回报更新表示针对上述机器人的状态以及存在于上述机器人的周边区域的上述人的状态的、对上述机器人的指令的价值的函数。

本发明的一个实施方式所涉及的控制装置，其特征在于，上述学习部利用多层结构运算上述状态变量和上述判定数据。

本发明的一个实施方式所涉及的控制装置，其特征在于，该控制装置还具备决策部，该决策部基于上述学习部的学习结果，输出表示对上述机器人的指令的指令值。

本发明的一个实施方式所涉及的控制装置，其特征在于，上述学习部使用从多个机器人得到的上述状态变量以及上述判定数据，来学习对上述机器人的指令。

本发明的一个实施方式所涉及的控制装置，其特征在于，上述机器学习装置存在于云服务器。

本发明的一个实施方式所涉及的学习装置是学习对机器人的指令的学习装置，其特征在于，该学习装置具备：状态观测部，其观测上述机器人的状态以及存在于上述机器人的周边区域的人的状态，作为表示环境的当前状态的状态变量；判定数据获取部，其获取表示上述机器人和上述人的干扰状态的判定数据；以及学习部，其使用上述状态变量和上述判定数据，将上述机器人的状态以及存在于上述机器人的周边区域的人的状态与对上述机器人的指令关联起来进行学习。

根据本发明，能够提供在人接近的情况下能够将机器人的动作最佳化的控制装置以及学习装置。

附图说明

根据参照附图的以下的实施例的说明，本发明的上述以及其他的目的和特征变得清楚。

图1是表示控制装置的一个方式的示意性的功能框图。

图2是表示控制装置的一个方式的示意性的功能框图。

图3是表示机器学习方法的一个方式的流程图。

图4A是表示机器学习方法的一个方式的流程图。

图4B是表示机器学习方法的一个方式的流程图。

图5A是对神经元进行说明的图。

图5B是对神经网络进行说明的图。

图6是表示控制装置的一个方式的示意性的功能框图。

图7是表示组装有控制装置的系统的一个方式的示意性的功能框图。

图8是表示组装有控制装置的系统的一个方式的示意性的功能框图。

具体实施方式

＜实施方式1＞

以下，使用附图对本发明的实施方式进行说明。本发明的实施方式所涉及的控制装置1的特征在于，使人接近正在进行作业的机器人时的对机器人的指令最佳化。对机器人的指令例如包含有与速度的选择有关的指令(速度继续、减速、停止)以及与轨道的选择有关的指令(到目的地的轨道、按右转或者左转区分)。本实施方式的控制装置1利用机器学习作为使对机器人的指令最佳化的手段。

此外，本实施方式所涉及的控制装置1在人撞上或者接近时，将能够减速或者停止的机器人作为控制对象。例如，包含有协作机器人(限制输出以不伤害人的机器人)。机器人既可以是移动机器人，也可以是自身不进行移动的机械手。

使用图1的框图对控制装置1的构成进行说明。控制装置1包括机器学习装置100。机器学习装置100包括用于通过所谓的机器学习自学针对机器人的状态以及存在于机器人的周边区域的人的状态的、对机器人的指令的软件(学习算法等)以及硬件(处理器等)。该情况下，控制装置1所具备的机器学习装置100学习的内容相当于表示机器人的状态以及存在于机器人的周边区域的人的状态与对机器人的指令的相关性的模型结构。

如图1中功能模块所示那样，控制装置1所具备的机器学习装置100具备：状态观测部106，其观测机器人的状态以及存在于机器人的周边区域的人的状态作为表示环境的当前状态的状态变量S；判定数据获取部108，其获取机器人与人的干扰状态作为判定数据D；以及学习部110，其使用状态变量S和判定数据D，将机器人的状态以及存在于机器人的周边区域的人的状态与对机器人的指令关联起来进行学习。

状态观测部106能够构成为例如控制装置1所具备的处理器的一个功能。或者，状态观测部106能够构成为例如用于使处理器发挥作用的软件。

状态变量S中的机器人的状态是表示动作中的机器人的状态的数据，包含有机器人的机械手的姿势(关节的角度的组合)、移动速度。另外，能够包含有机器人的位置、搬运工件的位置等。这些均是控制装置1通过机器人内部的传感器等能够直接观测的数据。控制装置1例如能够在每个控制周期获取这些数据，并输入到状态观测部106。或者，也可以在预定的时间每隔恒定时间获取这些数据，输入该时间序列数据的集合作为状态变量S。

状态变量S中的存在于机器人的周边区域的人的状态是表示在机器人的作业区域(或者包括机器人的作业区域的任意的区域)内存在的人的状态的数据，例如包含有侵入作业区域的人的侵入方向(从哪里侵入)、活动路线(以怎样的路径移动)。另外，能够包含有人的位置、速度、外观(衣服的类型(工作服或西装等)、帽子的颜色、配件类型、面部、ID的记载事项等)、携带物品(工具的种类、搬运中的工件的种类等)等。控制装置1能够使用例如未图示的视觉传感器拍摄作业区域内，基于拍摄图像跟踪人来确定出侵入方向、活动路线，或者识别外观、携带物品。此外，基于图像的识别处理是公知技术，所以这里省略详细的说明。或者，控制装置1也可以使用例如未图示的区域传感器、压电垫等，来检测人的侵入方向(从哪里侵入)、活动路线(以怎样的路径移动)、位置、速度。控制装置1例如能够在每个控制周期获取这些数据，并输入到状态观测部106。或者，也可以在预定的时间每隔恒定时间获取这些数据，输入该时间序列数据的集合作为状态变量S。

这里，使用与人的外观有关的数据是因为在人的外观与该人接近特定的机器的可能性之间有可能存在相关性。外观往往反映了该人的职位、作用、作业内容等的情况。例如线路的担当者、管理者、外来者能够通过外观来区别。而且，人的职位与该人的动作之间存在相关性，例如线路担当者接近特定的机器的可能性高等相关关系成立。

判定数据获取部108能够构成为例如控制装置1的处理器的一个功能。或者，判定数据获取部108能够构成为例如用于使处理器发挥作用的软件。

作为判定数据D的机器人与人的干扰状态是例如表示机器人与人是否碰撞、碰撞时的力的大小、机器人与人的相对距离的数据。碰撞的有无以及碰撞时的力的大小是控制装置1能够使用力传感器等观测的数据。机器人与人的相对距离能够通过控制装置1使用未图示的视觉传感器对作业区域内进行拍摄，并基于拍摄图像确定。此外，基于图像自动解析的物体识别以及物体间的距离推定处理是公知技术，所以这里省略详细的说明。控制装置1能够在每个控制周期获取这些数据，并输入到判定数据获取部108。或者，也可以在预定的时间每隔恒定时间获取这些数据，并输入该时间序列数据的集合作为判定数据D。

对学习部110输入的状态变量S在以学习部110的学习周期考虑的情况下，为基于获取到判定数据D的1个学习周期前的数据的状态变量。即，在控制装置1所具备的机器学习装置100推进学习的期间，在环境中，反复实施状态变量S的获取、对基于状态变量S调整后的机器人的指令(轨道、速度)的输出、判定数据D的获取。

学习部110能够构成为例如控制装置1的处理器的一个功能。或者，学习部110能够构成为例如用于使处理器发挥作用的软件。学习部110根据统称为机器学习的任意的学习算法，学习与机器人的状态以及存在于机器人的周边区域的人的状态对应的对机器人的指令。学习部110能够在每个控制周期、或者每个任意时间反复执行基于包括状态变量S和判定数据D的数据集合的学习。

通过反复进行这样的学习周期，学习部110能够自动地识别暗示表示机器人的状态以及存在于机器人的周边区域的人的状态的状态变量S与对机器人的指令的相关性的特征。在学习算法的开始时，状态变量S与对机器人的指令的相关性实质上是未知的，但学习部110随着推进学习而逐渐地识别特征来解释相关性。若状态变量S与对机器人的指令的相关性被解释到一定程度能够信赖的水准，则学习部110反复输出的学习结果能够使用于对于当前状态(换句话说机器人的状态以及存在于机器人的周边区域的人的状态)进行应该使对机器人的指令成为怎样的值这样的行动的选择(换句话说决策)。

如上所述，控制装置1所具备的机器学习装置100使用状态观测部106观测到的状态变量S和判定数据获取部108获取到的判定数据D，由学习部110根据机器学习算法，学习对机器人的指令。状态变量S由机器人的状态以及存在于机器人的周边区域的人的状态这样的难以受到干扰影响的数据构成，另外，判定数据D通过获取机器人与人的干扰状态而唯一地被求出。因此，根据控制装置1所具备的机器学习装置100，无论运算或估算都能够自动并且准确地求出与机器人的状态以及存在于机器人的周边区域的人的状态对应的对机器人的指令。

而且，若无论运算或估算等都能够自动地求出对机器人的指令，则能够仅通过掌握机器人的状态以及存在于机器人的周边区域的人的状态，迅速地决定对机器人的指令的恰当的值。因此，能够高效地决定对机器人的指令。

在具有上述构成的机器学习装置100中，学习部110执行的学习算法并不特别限定，作为机器学习，能够采用公知的学习算法。图2是图1所示的控制装置1的一个方式，示出了具备执行强化学习的学习部110的构成作为学习算法的一个例子。强化学习是观测学习对象所在的环境的当前状态(换句话说输入)并且在当前状态下执行预定的行动(换句话说输出)，试错地反复进行对该行动给予某种回报这样的循环，来学习最大化回报总计的方案(本申请的机器学习装置中决定对机器人的指令)作为最佳解的方法。

在图2所示的控制装置1所具备的机器学习装置100中，学习部110具备：回报计算部112，其求出与基于状态变量S决定对机器人的指令时的机器人与人的干扰状态(相当于在获取到状态变量S的下个学习周期中使用的判定数据D)相关的回报R；以及价值函数更新部114，其使用回报R更新表示对机器人的指令的价值的函数Q。学习部110通过价值函数更新部114反复更新函数Q来学习对机器人的指令的最佳解。

对学习部110执行的强化学习的算法的一个例子进行说明。该例的算法被称为Q学习(Q-learning)，是将行为主体的状态s和该状态s下行为主体能够选择的行为a作为独立变量，学习表示在状态s下选择行为a时的行为的价值的函数Q(s，a)的方法。在状态s下选择价值函数Q最高的行为a为最佳解。通过在状态s与行为a的相关性未知的状态下开始Q学习，反复进行在任意的状态s下选择各种行为a的试错，来反复更新价值函数Q，接近最佳解。这里，作为在状态s下选择行为a的结果，在环境(换句话说状态s)变化时，得到与该变化对应的回报(换句话说，行为a的加权)r，并通过引导学习以选择得到更高回报r的行为a，能够在比较短的时间内使价值函数Q接近最佳解。

价值函数Q的更新式一般能够如下述的公式1那样表示。在公式1中，s_t以及a_t分别是时刻t的状态以及行为，状态通过行为a_t变化为s_t+1。r_t+1是状态从s_t变化为s_t+1而得到的回报。maxQ的项是指在时刻t+1进行成为最大的价值Q的(在时刻t认为的)行为a时的Q。α以及γ分别是学习系数以及折扣率，在0＜α≤1、0＜γ≤1被任意设定。

【公式1】

在学习部110执行Q学习的情况下，状态观测部106观测到的状态变量S以及判定数据获取部108获取到的判定数据D相当于更新式的状态s，应该如何决定当前状态(换句话说，针对机器人的状态以及存在于机器人的周边区域的人的状态的对机器人的指令)这样的行为相当于更新式的行为a，回报计算部112求出的回报R相当于更新式的回报r。因此，价值函数更新部114通过使用回报R的Q学习反复更新表示针对当前状态的对机器人的指令的输出的价值的函数Q。

回报计算部112求出的回报R例如能够在决定了对机器人的指令的输出后，进行基于所决定的指令的机器人的控制时，在判定为机器人与人不干扰的情况下为正(+)的回报R，在判定为机器人与人干扰或者存在干扰的可能性的情况下为负(-)的回报R。

例如，在机器人与人碰撞的情况下能够设定－10的回报R，在机器人与人比预定距离近的情况下设定－5的回报R，在机器人与人远离了预定距离以上的情况下设定+5等的回报R。由此，越是机器人与人难以干扰的指令，函数Q评价为价值越大。另外，回报计算部112也可以给予碰撞时的力的大小越上升评价越低这样的回报R。由此，越是碰撞时的冲击小的指令，函数Q评价为价值越大。另外，回报计算部112也可以给予机器人的吞吐量越上升越大这样的回报R。由此，越是机器人与人难以干扰并且吞吐量高的指令，函数Q评价为价值越大(参照图4A、图4B)。

价值函数更新部114能够具有将状态变量S、判定数据D、以及回报R与由函数Q表示的行为价值(例如数值)关联起来整理成的行为价值表。该情况下，价值函数更新部114更新函数Q这样的行为与价值函数更新部114更新行为价值表这样的行为意思相同。在Q学习开始时，环境的当前状态与对机器人的指令的相关性是未知的，所以在行为价值表中，以与随机抽样规定的行为价值的值(函数Q)关联起来的方式准备各种的状态变量S、判定数据D、以及回报R。此外，若知道判定数据D，则回报计算部112能够立即计算与此对应的回报R，并将计算出的值R写入行为价值表。

若使用与机器人和人的干扰状态对应的回报R进行Q学习，则向选择得到更高的回报R的行为的方向引导学习，作为在当前状态下执行选择出的行为而得到的结果,根据变化的环境的状态(换句话说状态变量S以及判定数据D)，改写针对当前状态下进行的行为的行为价值的值(函数Q)并更新行为价值表。通过反复该更新，从而越是适当的行为，在行为价值表显示的行为价值的值(函数Q)被改写为越大的值。这样一来，未知的环境的当前状态(机器人的状态以及存在于机器人的周边区域的人的状态)与对于此的行为(对机器人的指令)的相关性逐渐清楚。换句话说，通过行为价值表的更新，机器人的状态以及存在于机器人的周边区域的人的状态与对机器人的指令的关系逐渐接近最佳解。

参照图3，进一步对学习部110执行的上述的Q学习的流程(换句话说机器学习方法的一个方式)进行说明。首先，在步骤SA01中，价值函数更新部114参照该时间点的行为价值表，随机抽样(随机)地选择对机器人的指令作为在状态观测部106观测到的状态变量S所表示的当前状态下进行的行为。接下来，价值函数更新部114在步骤SA02中得到状态观测部106观测的当前状态的状态变量S，在步骤SA03中，得到判定数据获取部108获取的当前状态的判定数据D。接下来，价值函数更新部114在步骤SA04中，基于判定数据D判定对机器人的指令是否适当，在适当的情况下，在步骤SA05中，将回报计算部112求出的正的回报R应用于函数Q的更新式，接下来，在步骤SA06中，使用当前状态下的状态变量S以及判定数据D、回报R、和行为价值的值(更新后的函数Q)来更新行为价值表。在步骤SA04中，判断为对机器人的指令不适当的情况下，在步骤SA07中，将回报计算部112求出的负的回报R应用于函数Q的更新式，接下来，在步骤SA06中，使用当前状态下的状态变量S以及判定数据D、回报R、和行为价值的值(更新后的函数Q)来更新行为价值表。学习部110通过反复进行步骤SA01～SA07来反复更新行为价值表，推进对机器人的指令的最佳解的学习。此外，针对判定数据D所包含的每个数据执行步骤SA04到步骤SA07的求出回报R的处理以及价值函数的更新处理。

在推进强化学习时，例如也能够代替Q学习，使用神经网络。图5A示意性地示出神经元的模型。图5B示意性地示出组合图5A所示的神经元而构成的三层的神经网络的模型。神经网络例如能够由模仿神经元的模型的运算装置、存储装置等构成。

图5A所示的神经元输出针对多个输入x(这里，作为一个例子，输入x₁～输入x₃)的结果y。各输入x₁～x₃被乘以与该输入x对应的权重w(w₁～w₃)。由此，神经元输出由以下的公式2表现的输出y。此外，在公式2中，输入x、输出y以及权重w全部是向量。另外，θ是偏差，f_k是激活函数。

【公式2】

图5B所示的三层的神经网络从左侧输入多个输入x(这里，作为一个例子，输入x1～输入x3)，从右侧输出结果y(这里，作为一个例子，结果y1～结果y3)。在图示的例子中，输入x1、x2、x3分别被乘以对应的权重(统称为w1)，各个输入x1、x2、x3均被输入到3个神经元N11、N12、N13。

在图5B中，将神经元N11～N13的各个的输出统称为z1。z1能够被视为提取出输入向量的特征量而得的特征向量。在图示的例子中，特征向量z1的每一个被乘以对应的权重(统称为w2)，各个特征向量z1均被输入到2个神经元N21、N22。特征向量z1表示权重w1与权重w2之间的特征。

在图5B中，将神经元N21～N22的各自的输出统称为z2。z2能够被视为提取出特征向量z1的特征量而得的特征向量。在图示的例子中，特征向量z2的每一个被乘以对应的权重(统称为w3)，各个特征向量z2均被输入到3个神经元N31、N32、N33。特征向量z2表示权重w2与权重w3之间的特征。最后，神经元N31～N33分别输出结果y1～y3。

此外，也能够使用形成三层以上的层的神经网络的所谓的深度学习的方法。

在控制装置1具备的机器学习装置100中，能够通过将状态变量S和判定数据D作为输入x，学习部110进行根据上述的神经网络的多层结构的运算，来输出对机器人的指令(结果y)。另外，在控制装置1具备的机器学习装置100中，也能够通过使用神经网络作为强化学习中的价值函数，将状态变量S和行为a作为输入x，学习部110进行根据上述的神经网络的多层结构的运算，来输出该状态下的该行为的价值(结果y)。此外，神经网络的动作模式有学习模式和价值预测模式，例如在学习模式下使用学习数据集来学习权重w，并能够使用学习到的权重w在价值预测模式下进行行为的价值判断。此外，在价值预测模式中，也能够进行检测、分类、推论等。

上述的控制装置1的构成能够描述为处理器执行的机器学习方法(或者软件)。该机器学习方法是学习对机器人的指令的机器学习方法，具有：计算机的CPU观测机器人的状态以及存在于机器人的周边区域的人的状态作为表示环境的当前状态的状态变量S的步骤；获取根据调整后的对机器人的指令而得到的表示机器人与人的干扰状态的判定数据D的步骤；以及使用状态变量S和判定数据D将机器人的状态以及存在于机器人的周边区域的人的状态与对机器人的指令关联起来进行学习的步骤。

＜实施方式2＞

图6示出了实施方式2所涉及的控制装置2。控制装置2具备机器学习装置120和状态数据获取部3，该状态数据获取部3获取状态观测部106观测的状态变量S亦即机器人的状态以及存在于机器人的周边区域的人的状态作为状态数据S0。

状态数据获取部3能够从控制装置2获取状态数据S0。

控制装置2具有的机器学习装置120除了用于通过机器学习自学对机器人的指令的软件(学习算法等)以及硬件(处理器等)以外，还包括用于将基于学习结果求出的对机器人的指令输出到控制装置2的软件(运算算法等)以及硬件(处理器等)。控制装置2所包含的机器学习装置120也能够具有一个共用的处理器执行学习算法、运算算法等全部软件的构成。

决策部122能够构成为例如控制装置2具备的处理器的一个功能。或者，决策部122能够构成为例如用于使处理器发挥作用的软件。决策部122基于学习部110学习到的结果，生成并输出包括针对机器人的状态以及存在于机器人的周边区域的人的状态的对机器人的指令的指令值C。在决策部122对于控制装置2输出指令值C的情况下，环境的状态与此对应地变化。

状态观测部106在下个学习周期中观测输出决策部122对环境的指令值C后变化的状态变量S。学习部110使用变化后的状态变量S，更新例如价值函数Q(即行为价值表)，来学习对机器人的指令。

决策部122将表示基于学习结果求出的对机器人的指令的指令值C输出到控制装置2。通过反复该学习周期，机器学习装置120推进对机器人的指令的学习，使自身决定的对机器人的指令的可靠性逐渐提高。

具有上述构成的控制装置2具备的机器学习装置120起到与上述的机器学习装置100相同的效果。特别是机器学习装置120能够使环境的状态根据决策部122的输出而变化。另一方面，在机器学习装置100中，能够对外部装置请求相当于用于使学习部110的学习结果反映到环境的决策部的功能。

＜其他的实施方式＞

图7示出了具备机器人160的一个实施方式所涉及的系统170。系统170具备具有同样的构成的多个机器人160、160’和将这些机器人160、160’相互连接的有线/无线的网络172，多个机器人160中的至少一个构成为具备上述的控制装置2的机器人160。另外，系统170能够包括不具备控制装置2的机器人160’。机器人160、160’具有相同目的的作业所需要的机构以及作业区域等周边环境。

具有上述构成的系统170中，由多个机器人160、160’中具备控制装置2的机器人160使用学习部110的学习结果，无论运算或估算都自动并且准确地求出针对机器人的状态以及存在于机器人的周边区域的人的状态的对机器人的指令。另外，系统170能够构成为，至少一个机器人160的控制装置2基于针对其他的多个机器人160、160’分别得到的状态变量S以及判定数据D，学习全部的机器人160、160’共用的对机器人的指令，全部的机器人160、160’共享该学习结果。因此，根据系统170，能够将更多样的数据集合(包括状态变量S以及判定数据D)作为输入，使对机器人的指令的学习的速度、可靠性提高。

图8示出了具备机器人160’的其他的实施方式的系统170’。系统170’具备机器学习装置120(或者100)、具有同样构成的多个机器人160’、以及将这些机器人160’和机器学习装置120(或者100)相互连接的有线/无线的网络172。

具有上述构成的系统170’中，机器学习装置120(或者100)基于多个机器人160’分别得到的状态变量S以及判定数据D，学习全部的机器人160’共用的针对机器人的状态以及存在于机器人的周边区域的人的状态的对机器人的指令，并使用该学习结果，无论运算或估算，都自动并且准确地求出针对机器人的状态以及存在于机器人的周边区域的人的状态的对机器人的指令。

系统170’能够具有机器学习装置120(或者100)存在于在网络172中准备的云服务器等的构成。根据该构成，不管多个机器人160’的每一个所在的场所、时期，能够在必要时将必要的数量的机器人160’连接到机器学习装置120(或者100)。

从事系统170、170’的作业者在机器学习装置120(或者100)的学习开始后的适当的时期，能够执行机器学习装置120(或者100)对机器人的指令的学习的到达度(即对机器人的指令的可靠性)是否达到要求等级的判断。

以上，对本发明的实施方式进行了说明，但本发明并不仅局限于上述的实施方式的例子，能够通过施加适当的变更来以各种方式实施。

例如，机器学习装置100、120执行的学习算法、机器学习装置120执行的运算算法、控制装置1、2执行的控制算法等并不限于上述的算法，能够采用各种算法。

另外，在上述的实施方式中，控制装置1(或者2)和机器学习装置100(或者120)作为具有不同的CPU的装置进行说明，但机器学习装置100(或者120)也可以通过控制装置1(或者2)具备的处理器和存储于存储装置的系统程序来实现。

以上，对本发明的实施方式进行了说明，但本发明并不局限于上述的实施方式的例子，能够通过施加适当的变更，来以其他的方式实施。

Claims

1.一种控制装置，输出对机器人的指令，其特征在于，

该控制装置具备学习对上述机器人的指令的机器学习装置，

上述机器学习装置具备：

状态观测部，其观测上述机器人的状态以及存在于上述机器人的周边区域的人的状态，作为表示环境的当前状态的状态变量；

判定数据获取部，其获取表示上述机器人和上述人的干扰状态的判定数据；以及

学习部，其使用上述状态变量和上述判定数据，将上述机器人的状态以及存在于上述机器人的周边区域的人的状态与对上述机器人的指令关联起来进行学习。

2.根据权利要求1所述的控制装置，其特征在于，

上述状态变量包括上述机器人的机械手的姿势以及移动速度作为表示上述机器人的状态的数据，且包括上述人的侵入方向以及活动路线作为表示上述人的状态的数据。

3.根据权利要求1所述的控制装置，其特征在于，

上述判定数据包括机器人与人的碰撞的有无、机器人与人的相对距离、碰撞时的力的大小、吞吐量中的至少某一个。

4.根据权利要求1所述的控制装置，其特征在于，

上述学习部具备：

回报计算部，其求出与上述机器人和上述人的干扰状态相关的回报；以及

价值函数更新部，其使用上述回报更新表示针对上述机器人的状态以及存在于上述机器人的周边区域的上述人的状态的、对上述机器人的指令的价值的函数。

5.根据权利要求1所述的控制装置，其特征在于，

上述学习部利用多层结构运算上述状态变量和上述判定数据。

6.根据权利要求1所述的控制装置，其特征在于，

该控制装置还具备决策部，该决策部基于上述学习部的学习结果，输出表示对上述机器人的指令的指令值。

7.根据权利要求1所述的控制装置，其特征在于，

上述学习部使用从多个机器人得到的上述状态变量以及上述判定数据，来学习对上述机器人的指令。

8.根据权利要求1所述的控制装置，其特征在于，

上述机器学习装置存在于云服务器。

9.一种学习装置，学习对机器人的指令，其特征在于，该学习装置具备：