CN108873768B

CN108873768B - 任务执行系统及方法、学习装置及方法、以及记录介质

Info

Publication number: CN108873768B
Application number: CN201810332305.0A
Authority: CN
Inventors: 柴田义也; 凑善久
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2017-05-09
Filing date: 2018-04-13
Publication date: 2021-08-06
Anticipated expiration: 2038-04-13
Also published as: US10706331B2; JP6951659B2; JP2018190241A; CN108873768A; EP3401847A1; US20180330200A1

Abstract

一种任务执行系统及方法、学习装置及方法、以及记录介质，在使用学习模块使系统执行预定的任务时，用户能够在作业执行时进行根据作业的条件而作的调整。任务执行系统是使用学习模块而使预定的任务执行的系统，具备：第一输入部，接收从一个或多个外部系统取得的信息，生成被输入至学习模块的信息的至少一部分；输出部，取得从学习模块输出的信息，生成从任务执行系统输出的信息，其中，预定的任务是基于从该任务执行系统输出的信息而执行的；以及第二输入部，接收来自用户的输入，其中，基于来自用户的输入的信息被输入至第一输入部、学习模块或输出部中的至少任一者，从输出部输出的信息基于来自用户的输入而变化。

Description

任务执行系统及方法、学习装置及方法、以及记录介质

技术领域

本发明涉及使任务执行的任务执行系统及方法、学习装置及方法、以及记录介质。

背景技术

一直以来，已知的是，使用包括神经网络的机器学习的技术来进行控制以使得系统执行预定的任务。例如，在专利文献1中记载有，对散装状态的把持对象物的拣取应用机器学习，学习把持成功率高的对象物来进行拣取。另外，例如，在专利文献2中记载有，对通过摄像图像来判断样品有无缺陷的分类处理应用机器学习(基于规则型的分类器)，在学习前用户设定分类器的结构。

现有技术文献

专利文献

专利文献1：日本特开2017－20135号公报

专利文献2：日本专利第3978098号公报

发明内容

发明所要解决的技术问题

可是，在作业的现场，有时根据作业执行时所要求的精度、执行速度、失败允许范围等而在执行作业时调整关于每个现场固有的作业的要求、约束条件等的条件。然而，在使用学习完毕模型来使预定的任务(以下也称为“作业”)执行的系统中，由于以来自传感器等设备的输入为依据来决定系统的动作并进行作业，因此为了进行根据作业条件而作的调整，需要使学习完毕模型进行再学习，在执行作业时不能够调整条件。

因此，本发明的目的在于，提供一种在使用包括学习完毕模型或与其同等的模型的学习模块来使系统执行预定的任务的情况下，用户能够在作业执行时进行根据作业条件而作的调整的技术。

用于解决技术问题的手段

一种任务执行系统，具备学习模块，该学习模块包括通过机器学习进行了预定的学习的学习完毕模型或输入输出关系与学习完毕模型相同同等的模型，该任务执行系统使预定的任务执行，其中，任务执行系统具备：第一输入部，接收从一个或多个外部系统取得的信息，生成被输入至学习模块的信息的至少一部分；输出部，取得从学习模块输出的信息，生成从任务执行系统输出的信息，其中，预定的任务基于从该任务执行系统输出的信息而被执行；以及第二输入部，接收自用户的输入，其中，基于来自用户的输入的信息被输入至第一输入部、学习模块和输出部中的至少任一者，从输出部输出的信息基于来自用户的输入而变化。

根据该方面，在使用包括学习完毕模型或与其同等的模型的学习模块来使系统执行预定的任务时，输出的信息除了基于从传感器等外部系统取得的信息之外、还基于由用户输入的信息而变化。由此，用户在作业执行时通过输入针对任务的条件，无需使学习模块进行再学习，能够得到根据条件而调整过的输出。其结果，用户能够使按照所期望的条件的任务高速地执行。

在本实施方式所涉及的任务执行系统中，可以是，第二输入部从用户接收针对预定的任务的条件，输出部输出基于条件的信息，由此预定的任务被执行。根据该方面，用户能够根据针对任务的条件而在作业时灵活地设定条件，因此能够调整对应于作业内容的输出。由此，例如在执行作业精度与处理速度存在权衡关系这样的任务时，能够根据作业内容而在不使学习模块进行再学习的情况下在作业时灵活地设定重视精度或重视处理速度这样的调整。

在本实施方式所涉及的任务执行系统中，可以是，在从输出部中输出的信息的一部分中包括对应于条件而向用户进行提示的信息。根据该方面，能够向用户提示对应于用户所输入的条件的输出，能够使对应于所输入的条件的输出可视化。

另外，在本发明的一方面所涉及的任务执行系统中，可以是，一个或多个外部系统包括照相机，由第二输入部接收的来自用户的输入包括关于检查基准的条件，针对由照相机拍摄的对象物的图像，输出部输出基于用户所输入的基准的对象物的检查结果。根据该方面，在使用学习模块来检查对象物的合格或不合格等时，能够执行考虑了用户的输入的检查。

另外，本发明的一方面所涉及的任务执行系统是基于从输出部输出的信息来控制机器人的动作的系统，可以是，一个或多个外部系统包括检测机器人的当前姿势的传感器，由第二输入部接收的来自用户的输入包括关于机器人的动作的约束的条件，输出部考虑机器人的当前姿势和条件而输出用于控制机器人的动作的信息。根据该方面，在使用学习模块来控制机器人的动作时，能够执行考虑了用户的输入的动作。

另外，本发明的一方面所涉及的任务执行系统是基于从输出部输出的信息来控制机器人的动作的系统，可以是，一个或多个外部系统包括检测机器人的当前位置和姿势中的至少任一方的传感器，由第二输入部接收的来自用户的输入包括关于机器人回避障碍物的安全性的条件，输出部考虑机器人的当前位置和条件而输出用于控制机器人的动作的信息。根据该方面，在使用学习模块来控制使机器人回避障碍物的动作时，能够执行考虑了用户的输入的回避动作。

另外，在本发明的一方面所涉及的任务执行系统中，可以是，一个或多个外部系统包括照相机，由第二输入部接收的来自用户的输入包括关于人的身体部位的条件，输出部基于用户所输入的条件而判断由照相机拍摄的任务的图像与特定的对象图像的一致度，并输出该判定结果。根据该方面，在使用学习模块来对监视照相机等中映有的人物进行时，能够进行考虑了用户的输入的检索。

本发明的一方面所涉及的学习装置是使上述系统中所包括的学习模块进行学习的装置，具备基于学习用数据使学习模块进行学习的学习控制部，学习用数据包括：第一学习用数据，从一个或多个外部系统取得；以及第二学习用数据，包括与在使预定的任务执行时用户输入的条件为相同形式的数据。根据该方面，能够进行在使用学习模块来使预定的任务执行的系统中所使用的学习模块的学习。

本发明的一方面所涉及的控制方法是在具备学习模块的系统中使预定的任务执行的方法，该学习模块包括通过机器学习进行了预定的学习的学习完毕模型或输入输出关系与学习完毕模型同等的模型，该控制方法具备：第一步骤，第一输入部接收从一个或多个外部系统取得的信息并生成被输入至学习模块的信息的至少一部分；第二步骤，学习模块至少基于在第一步骤中所生成的信息而输出预定的信息；第三步骤，输出部至少取得在第二步骤中所输出的信息并生成从系统输出的信息，其中，预定的任务是基于从该系统输出的信息而执行的；以及第四步骤，与第一步骤、第二步骤和第三步骤中的至少任一者大致并行地进行，第二输入部接收来自用户的输入，其中，基于来自用户的输入的信息被输入至第一输入部、学习模块或输出部中的至少任一者，从输出部输出的信息基于来自用户的输入而变化。根据该方面，在使用学习模块来使系统执行预定的任务的方法中，无需使学习模块进行再学习即可生成考虑了用户的输入的恰当的输出。

另外，本发明的一方面所涉及的学习方法是使上述系统中所包括的学习模块学习的方法，所述学习方法使所述学习模块基于学习用数据通过机器学习来进行学习，所述学习用数据包括：第一学习用数据，从一个或多个外部系统取得；以及第二学习用数据，包括与在使所述预定的任务执行时用户输入的条件为相同形式的数据。根据该方面，能够提供一种进行被用于使用学习模块来使预定的任务执行的系统中的学习模块的学习的方法。

本发明的一方面所涉及的记录介质存储有程序，该程序用于使包括学习模块的计算机执行如下步骤，其中，该学习模块由通过机器学习进行了用于使预定的任务执行的学习的学习完毕模型或输入输出关系与学习完毕模型同等的模型构成：第一步骤，接收从一个或多个外部系统取得的信息并生成被输入至学习模块的信息的至少一部分；第二步骤，学习模块至少基于在第一步骤中所生成的信息而输出预定的信息；第三步骤，至少取得在第二步骤中所输出的信息并生成从计算机输出的信息，其中，预定的任务基于从该计算机输出的信息而执行的；以及第四步骤，与第一步骤、第二步骤和第三步骤中的至少任一者大致并行地进行，接收来自用户的输入，其中，通过在第一步骤、第二步骤或第三步骤中的至少任一步骤中输入基于来自用户的输入的信息，使基于来自用户的输入而使预定的任务执行的信息变化。根据该方面，在使用学习模块来使系统执行预定的任务的程序中，无需使学习模块进行再学习即可生成考虑了用户的输入的恰当的输出。

另外，本发明的一方面所涉及的记录介质存储有程序，该程序使计算机实现如下功能：使学习模块基于学习用数据通过机器学习来进行学习，学习用数据包括：第一学习用数据，从一个或多个外部系统取得；以及第二学习用数据，包括与在使预定的任务执行时用户输入的条件为相同形式的数据。根据该方面，能够提供一种存储有如下程序的记录介质，该使在使用学习模块来使预定的任务执行的系统中所使用的学习模块进行学习。

需要注意的是，在本说明书中，所谓“部”并非单纯地意味着物理上的单元或部分，还包括通过硬件处理器执行存储装置中所存储的软件来实现该单元或部分具有的功能的情况。另外，一个“部”所具有的功能可以通过两个以上的物理单元来实现，两个以上的“部”的功能也可以通过一个物理单元来实现。

发明的效果

根据本发明的预定的实施方式，在使用包括学习完毕模型或与其同等的模型的学习模块来使系统执行预定的任务的情况下，用户能够在作业执行时进行对应于作业条件的调整。

附图说明

图1是示出包括本发明的一实施方式所涉及的控制系统10的整体系统1的概念的图。

图2是示出本实施方式所涉及的控制系统10的功能构成的一个例子的框图。

图3是示出本实施方式所涉及的任务执行系统10的硬件构成的一个例子的图。

图4是示出本实施方式所涉及的控制系统10中的处理流程的一个例子的图。

图5是示出在将控制系统10应用于图像检查装置的情况下的功能构成的一个例子的框图。

图6是示出训练数据的一个例子的图。

图7是示出在将控制系统10应用于把持系统的情况下的功能构成的一个例子的框图。

图8是示出动作候补与把持成功率及约束满足度的一个例子的图。

图9是动作决定规则的一个例子。

图10是示出把持系统200的其它实施例的图。

图11是示出把持成功率和约束满足度的一个例子的图。

图12是示出把持系统200的其它实施例的图。

图13的(a)、(b)是示出指定条件时的一个例子的图。

图14是示出在将控制系统10应用于多关节机器人中的障碍物回避系统的情况下的功能构成的一个例子的框图。

图15是示出本来的目标轨迹的候补与回避成功率及目标偏离率的一个例子的图。

图16是示出在将控制系统10应用于多智能体中的障碍物回避系统的情况下的功能构成的一个例子的框图。

图17是多智能体系统的概略图。

图18是示出在将控制系统10应用于人物检索系统的情况下的功能构成的一个例子的框图。

图19是示出每个部位的一致度和权重的一个例子的图。

图20是示出在将控制系统10应用于逆运动学模型的情况下的功能构成的一个例子的框图。

图21是示出在逆运动学中存在多个解的情况的一个例子的图。

附图标记说明：

1…整体系统；10…任务执行系统；12…第一输入部；121…状态识别部；122…信息生成部；14…第二输入部；16…学习模块；18…输出部；20…输入侧外部系统；30…传感器；40…外部设备；42…动作规划部；44…动作生成部；50…输出侧外部系统；70…学习器；100…图像检查装置；200…把持系统；300…障碍物回避系统；400…障碍物回避系统；500…人物检索系统；600…逆运动学控制系统。

具体实施方式

以下，参照附图来对本发明的实施方式进行详细说明。需要注意的是，对相同的要素标注相同的附图标记，并省略重复的说明。另外，以下的实施方式是用于说明本发明的例示，并非旨在将本发明仅限定于该实施方式。并且，本发明只要不脱离其宗旨，就能进行各种各样的变形。

图1是示出包括本发明的一实施方式所涉及的使预定的任务执行的系统10(以下也称为“任务执行系统10”)的整体系统1的概念的图。任务执行系统10是使用学习模块16来使预定的任务执行的系统。作为被执行的任务，例如，可想到判断产品合格或不合格并将检查结果输出至显示器、输出用于使机器人把持物体的动作指令的任务，但并不局限于这些。需要注意的是，如后所述，学习模块16是包括具备通过机器学习进行学习的能力的专用或通用的硬件或软件的一单位或将这些单位任意组合后的一单位的模块。即，学习模块16包括一种软件程序，而该程序包括具备通过机器学习进行学习的能力的学习模型和通过机器学习已获得预定的能力的学习完毕模型中的至少任一者。另外，学习模块16包括运算装置，该运算装置具有：保存有该软件程序的存储装置、读出并执行该软件的硬件处理器。另外，使预定的任务执行是指，除使外部系统50执行预定的任务以外，还可包括任务执行系统10本身执行预定的任务。另外，任务执行系统10不仅可以应用于使实际的系统执行任务的情况，还可以应用于使作为假想的系统的模拟器执行任务的情况。在这种情况下，假想传感器、假想机器人、假想系统等成为控制的对象。

如图1所示，任务执行系统10除了能够接收从传感器、外部设备等输入侧的外部系统20(以下也称为“输入侧外部系统20”)输入的信息I_s以外，还能够接收由用户(人)P输入的信息I_p。

作为从输入侧外部系统20输入的信息I_s的例子，可列举出位图等图像、点群(point cloud：点云)、力(力觉传感器的输出值)、距离(接近传感器的输出值)、机器人姿势(编码器的输出值)等，但并不局限于这些。作为由用户输入的信息I_p的例子，可列举出针对作业的要求、作业的约束条件等，但并不局限于这些。针对作业的要求包括例如精度与速度的平衡等权衡关系中的条件的选择，作业的约束条件包括例如指定对象物中的不能接触的部分等禁止事项的设定。以下有时将对该任务的要求、约束条件等信息I_p简称为“条件(constraint：约束)”。本发明的预定的实施方式所涉及的任务执行系统10基于由用户输入的条件而改变其举动。即，用户输入的条件是在使任务执行系统10执行预定的任务时的、使任务执行系统10的举动(例如所输出的判断结果、动作指令等)改变的信息。用户输入的条件在被输入至后述的第一输入部12的情况下用作使经由第一输入部12输入至学习模块16的信息改变的条件，在被输入至后述的学习模块16的情况下用作使学习模块16中所包括的学习完毕模型的内部参数改变的条件，在被输入至后述的输出部18的情况下用作使从输出部18中输出的信息改变的条件。在此，信息的改变也可以包括信息的删除。

任务执行系统10基于所接收到的信息I_s和信息I_p，使用学习模块16来执行预定的任务或者向输出侧的外部系统50(以下也称为“输出侧外部系统50”)输出用于使预定的任务执行的信息O_s。从任务执行系统10输出的信息O_s被传输至输出侧外部系统50，从而执行预定的任务。另外，从任务执行系统10输出的信息中的一部分可以包括对用户P进行提示的信息O_p。作为被输出至输出侧外部系统50的信息O_s的例子，可列举出向电机的指令值、向机械手的动作指令、最适的把持姿势、图像检查结果等，但并不局限于这些。对用户进行提示的信息O_p是例如与用户P输入的信息I_p中所包括的条件对应并被可视化的信息，具体而言，可列举出任务的达成率、中间结果等，但并不局限于这些。另外，输入信息I_p的用户和信息O_p进行提示的用户可以相同也可以不同。在此，信息O_p优选是与用户所输入的条件对应的数据。例如，能够使用与用户收益输入的条件对应且对用户示出所述条件的达成程度的数据。另外，例如在由用户输入的信息I_p是机器人的动作控制中的精度与速度的平衡的情况下，信息O_p能够作为提示关于机器人的动作控制的指令信息(指令值)、基于该指令信息(指令值)进行动作的机器人的预测精度(可取得的动作的误差范围)以及该动作的达成时间的信息O_p。

在本实施方式中，当任务执行系统10基于从输入侧外部系统20输入的信息I_s并使用学习完毕的学习模块16来执行预定的任务时，用户能够指定针对该任务的要求、约束条件等的信息I_p。任务执行系统10除了考虑从输入侧外部系统20输入的信息Is以外还考虑用户P所指定的信息I_p来确定输出。根据本实施方式，当针对现场、作业而期望改变所要执行的任务的精度、执行速度、失败允许范围等要求、约束条件时，无需使学习模块16再次学习，而是通过改变用户输入的信息I_p，能够得到与要求、约束条件等条件对应的期望的输出。

另外，若在任务执行系统10执行预定的任务时产生了不期望的动作，通过调整用户P输入的信息I_p(例如输入参数)，能够调整被执行的任务的举动。另外，在发生了问题时，通过使用信息O_p对用户P进行提示，有时确定原因变得容易。

需要注意的是，并非是每当从输入侧外部系统20输入信息I_s时用户P必须输入信息I_p。也可以设为，根据被执行的任务、成为任务的对象的对象物来应用预先设定的值，由此代替用户输入信息I_p。在这种情况下，当条件变化或者应用于特殊的现场时等，用户只要根据状况来对任务执行系统10输入条件即可。此时，如后所述，预先设定的值可以基于用于学习器70的学习的训练数据来确定。即，训练数据包括与在使用学习模块16来使预定的任务执行时用户P能够输入的条件为相同形式的数据。因此，能够根据训练数据中所包括的、与在执行任务时用户P输入的条件为相同形式的数据来设定值。

图2是示出本实施方式所涉及的任务执行系统10的功能构成的一个例子的框图。图3是示出本实施方式所涉及的任务执行系统10的硬件构成的一个例子的图。

如图2所示那样，任务执行系统10具备第一输入部12、第二输入部14、学习模块16以及输出部18。另外，如图3所示那样，为了实现图2所示的功能，任务执行系统10具备运算装置61、存储装置62、外部接口(外部I/F)63、输入装置64以及输出装置65。

运算装置61包括作为硬件处理器的CPU(Central Processing Unit：中央处理单元)611、RAM(Random Access Memory：随机存取存储器)612、ROM(Read Only Memory：只读存储器)613等，并根据信息处理来进行各构成要素的控制。存储装置62例如是硬盘驱动器、固态驱动器等辅助存储装置，存储图2所示的学习模块中所包括的学习完毕模型的参数、用于执行学习完毕模型的预定的处理的程序等。另外，存储装置62存储从输入侧外部系统20(例如传感器30)输入的信息I_s和由用户输入的信息I_p。另外，存储装置62存储用于使任务执行的程序。例如，在任务执行系统10控制使用了机械手的把持系统的事例中，在存储装置62中存储机械手的路径运算程序、关于由用户输入的姿势的条件的初始值等。

外部接口63是用于与输入侧外部系统20或输出侧外部系统50连接的接口，根据进行连接的输入侧外部系统20和输出侧外部系统50而适当构成。外部接口63可以是用于经由网络而与其它计算机连接的通信接口。图2所示的第一输入部12、第二输入部14以及输出部18包括作为硬件的外部接口63。在本实施方式中，任务执行系统10经由外部接口63而与输入侧外部系统20和输出侧外部系统50连接。任务执行系统10从辅助存储装置读出用于执行基于学习完毕模型的运算处理的程序，对所读出的程序在RAM612展开，并通过硬件处理器来解释、执行。

需要注意的是，任务执行系统10可以还具备例如鼠标、键盘等用于进行输入的输入装置64、以及例如显示器、扬声器等用于进行输出的输出装置65。

另外，任务执行系统10还可以具备例如CD驱动器、DVD驱动器等用于读取存储于存储介质的程序的驱动器装置66。

返回至图2，第一输入部12和第二输入部14具有作为用于对任务执行系统10输入信息的接口的功能。第一输入部12具有接收从传感器30、外部设备40等人以外的外部系统20输入的信息I_s的功能。另一方面，第二输入部14具有接收由人输入的信息、即由任务执行系统10的用户输入的信息I_p的功能。

第二输入部14将从用户上接收到的信息I_p传输至第一输入部12、学习模块16、输出部18中的至少任一者。此时，可以将从用户接收到的信息的一部分或全部保持原样地传输至各部分，也可以将基于从用户接收到的信息而生成或者转换后的信息传输至各部分。

另外，第二输入部14可以具备存储从用户接收到的信息I_p的存储器。由此，通过存储于存储器的信息传输至各部分，能够省去用户P每次输入信息的麻烦。此时，存储信息I_p的存储器优选除了信息I_p以外还保存有与输入至第一输入部12的信息I_s的对应关系。由此，能够根据从输入侧外部系统20取得的信息I_s的内容来选择恰当的信息I_p。需要注意的是，存储器可以位于第二输入部14的内部。即，任务执行系统10具备存储器即可。

第一输入部12基于从输入侧外部系统20接收到的信息，生成输入至学习模块16的信息。在从第二输入部14向第一输入部12传输了信息时，即在第一输入部取得了基于来自用户的输入的信息时，也考虑该基于来自用户的输入的信息来生成输入至学习模块16的信息。此时，第一输入部12可以将从输入侧外部系统20、第二输入部14接收到的信息的一部分或全部保持原样地传输至学习模块16，也可以将基于从输入侧外部系统20、第二输入部14接收到的信息而生成或者转换后的信息传输至学习模块16。

第一输入部12可以具备状态识别部121和信息生成部122。状态识别部121和信息生成部122通过任务执行系统10所具有的运算装置执行基于存储装置中所存储的状态识别程序的信息处理来实现。

状态识别部121根据从传感器30、外部设备40取得的观测信息对传感器30所观测的对象物的位置和/或者姿势状态、外部设备40的内部状态等进行识别，并将所识别的状态作为识别结果输出至学习模块16。

信息生成部122根据从传感器30、外部设备40、第二输入部14取得的信息而生成新的信息或者转换数据的形式。需要注意的是，在本说明书中，也有时将信息的生成或转换只称为信息的生成。

需要注意的是，状态识别部121和信息生成部122可以具有学习完毕模型。即，可以通过基于预定的机器学习而生成的学习完毕模型来进行基于从输入侧外部系统20取得的信息的状态识别、从输入侧外部系统20取得的信息的转换。此时，状态识别部121和信息生成部122作为用于实现由学习模块16执行的预定任务的子学习模块而发挥作用。

学习模块16包括具备通过机器学习进行学习的能力的专用或通用的硬件或软件的一单位、或者将这些单位任意组合后的一单位。另外，学习模块16包括学习完毕模型、其复制物或蒸馏物。在此，学习完毕模型的复制物不仅包括复制了模型的内部结构的内容，还包括对完成了学习的学习完毕的学习模块或该学习完毕的学习模块的复制物进行了追加学习的内容。蒸馏物是指通过所谓的蒸馏而得到的学习完毕模型。需要注意的是，蒸馏包括使构造与学习完毕模型不同的其它学习模型进行学习以保持学习完毕模型的功能而得到学习完毕的该其它学习完毕模型的内容。在此，该其它学习完毕模型(蒸馏物)优选是内部结构比成为其基础的学习完毕模型简单、更适于部署(deploy)的模型。需要注意的是，学习完毕模型的复制物、蒸馏物未必需要具备学习能力。学习模块16包括具有根据参数而将输入转换成输出的函数的功能的预定的结构。作为这样的结构的一例是神经网络，因此，在此设想学习模块16由神经网络构成的情况来进行说明。然而，学习模块16并不限定于神经网络。

在本实施方式中，学习模块16能够从第一输入部12和第二输入部输入信息。由此，在学习模块16中，执行基于从传感器30、外部设备40等输入侧外部系统20取得的信息和从用户(人)取得的信息的预定的运算，并以值、图形等形式输出运算结果。所输出的信息被传输至输出部18。

在学习模块由多层的神经网络构成时，从第一输入部12输入的信息即从输入侧外部系统20取得的信息被输入至神经网络的输入层。与此相对比，从第二输入部14输入的信息即从用户取得的信息虽然也可以被输入至神经网络的输入层，但不局限于此，还可以被输入至输入层以外的层即中间层、输出层。

作为学习模块16，能够应用通过机器学习被训练成能够执行预定的任务或者能够使外部系统50执行预定的任务的学习完毕模型。该学习完毕模型能够在学习器70中通过使用了包括从传感器30、外部设备40等输入侧外部系统20取得的信息和从用户(人)取得的信息的训练数据的机器学习来获得。另外，作为学习模块16，也可以应用学习完毕模型的复制物、蒸馏物等输入输出关系与学习完毕模型同等的模型。需要注意的是，在本说明书中，有时将它们统一起来而只称为学习完毕模型。并且，学习模块16可以是具有多个学习完毕模型的模块。

输出部18是用于从任务执行系统10中输出信息的接口。输出部18基于从学习模块16取得的信息来生成从任务执行系统10输出的信息O_s和O_p。需要注意的是，输出部18可以生成信息Os、信息O_p中的任一者。在从第二输入部14向输出部18传输了信息时、即在输出部18取得了基于来自用户的输入的信息时，也考虑该基于来自用户的输入的信息来生成从任务执行系统10输出的信息O_s和O_p。此时，输出部18既可以直接输出从学习模块16、第二输入部14接收到的信息的一部分或全部，也可以输出基于从学习模块16、第二输入部14接收到的信息而生成或者转换后的信息。

从输出部18输出的信息即从任务执行系统10输出的信息O_s被输入至输出侧外部系统50，在输出侧外部系统50中执行预定的任务。另外，从输出部18中输出的信息中的一部分信息O_P可以作为对用户P进行提示的信息。在此，在学习模块16由多层的神经网络构成的情况下，该神经网络优选具有向中间层和输出层中的任一者输出对用户P进行提示的信息的节点。

学习器70是具有获得用作学习模块16的学习完毕模型的功能的学习装置。学习器70能够生成构成任务执行系统10的学习模块16，但并非直接构成任务执行系统10。在学习器70中，使用包括从输入侧外部系统20输入的信息和由用户输入的信息的训练数据来进行用于使预定的任务执行的机器学习。在机器学习中使用训练数据，该训练数据包括输入变量和输出值，输入变量是对应于用户输入的条件的数据，输出值表示针对该输入变量的值的输出的期望。例如，能够采用对学习模块直接提供包括正解数据训练数据来使其进行学习的方法，其中，该正解数据表示针对输入变量的期望的输出值。另外，也可以采用对学习模块提供表示输出的期望的评价函数来使其进行学习的方法。例如，作为评价函数，使用能够确定针对输入输出组合的评价值的函数。能够基于通过学习器70获得的学习完毕模型或者其参数(在神经网络的情况下为结合的权重等)来生成学习模块16。

另外，如图2所示，任务执行系统10经由通信网络而与一个或多个传感器30、一个或多个外部设备40等的输入侧外部系统20连接。需要注意的是，既可以将各个传感器30和外部设备40分别视为一个输入侧外部系统20，也可以是将组合了任意的传感器30、外部设备40的装置视为一个输入侧外部系统20。后者的一个例子是机器人。此外，任务执行系统10经由通信网络而与输出侧外部系统50连接。并且，从输入侧外部系统20和用户向任务执行系统10输入信息，并从任务执行系统10向输出侧外部系统50输入信息，由此执行预定的任务。需要注意的是，可以将任务执行系统10作为用于执行预定的任务的子系统来看待，并将该子系统和使用该子系统输出的信息的输出侧外部系统50构成为一体的系统。

传感器30可以是检测物理量的物理量传感器、检测化学量的化学量传感器、检测信息的信息传感器中的任一种，但并不局限于这些，能够包括任意的传感器。物理量传感器包括例如检测光并输出图像数据或动画数据的照相机照相机、检测人的心率并输出心率数据的心率传感器、检测人的血压并输出血压数据的血压传感器以及检测人的体温并输出体温数据的体温传感器等生命传感器，包括检测其它任意的物理量并输出电信号的传感器。化学量传感器包括例如气体传感器、湿度传感器、离子传感器，包括检测其它任意的化学量并输出电信号的传感器。信息传感器包括例如从统计数据中检测特定的模式的传感器，包括检测其它任意的信息的传感器。

外部设备40由计算机系统、机器人、其它各种设备构成。需要说明的是，外部设备40和传感器30可以一体地构成。例如，作为外部设备40的工业用机器人具有多个电机(轴)和通过该电机(轴)驱动的多个连杆(结构体)。电机和被该电机驱动的连杆依次连接，构成多关节的工业用机器人。在此，电机可以与作为检测其旋转角度的传感器30的编码器一体地构成。外部设备40可以包括动作规划部42和动作生成部44。动作规划部42具有规划外部设备40所控制的对象物或外部设备40本身的动作，并创建作为原本的目标的动作轨迹的功能。动作生成部44具有生成动作的候补或者生成用于回避向障碍物冲撞等的回避行动的候补的功能。在此，动作的候补以及回避行动的候补通过表示外部设备40的移动方向的预定的数值和/或数值向量来表现。需要注意的是，动作规划部42和动作生成部44可以具有学习完毕模型。即，可以通过基于预定的机器学习生成的学习完毕模型来进行动作候补的生成、回避行动的候补的生成。另外，动作规划部42和动作生成部44可以设于任务执行系统10中。即，动作规划部42和动作生成部44设于任务执行系统10中，基于从传感器30和/或外部设备40取得的信息I_p进行动作候补的生成、回避行动的候补的生成，并将所生成的候补输入至学习模块16。此时，动作规划部42和动作生成部44作为用于实现由学习模块16执行的预定的任务的子学习模块而发挥作用。

需要注意的是，在图2中，虽然对输入侧外部系统20和输出侧外部系统50为不同的结构而进行了图示，但输入侧外部系统20和输出侧外部系统50可以是相同的结构。例如，在通过任务执行系统10进行具备机械手的机器人的控制的情况下，该机械手是输入侧外部系统20且也能够是输出侧外部系统50。例如，如果是带照相机的机器人，则照相机或设于机器人的关节上的编码器能够相当于传感器30。另外，在编码器的值经由机器人被输出的情况下，机器人能够相当于外部设备40。此外，在机器人基于从任务执行系统10输出的动作指令进行动作的情况下，机器人能够相当于输出侧外部系统50。需要注意的是，在本实施方式中，从传感器输出的感测数据可以从传感器30本身直接地输入至任务执行系统10，可以从传感器30经由外部设备40而间接地输入至任务执行系统10。因此，在本说明书中，有时将传感器30和外部设备40不特别区分而称为输入侧外部系统20。

需要注意的是，任务执行系统10的结构不限定于图示的结构，例如，既可以将各块中的任意的部分在物理上或逻辑上作为一体的部分来构成，也可以将各块在物理上或逻辑上分成两个以上的要素来构成。

图4是示出本实施方式所涉及的任务执行系统10中的处理流程的一个例子的图。首先，第一输入部12从传感器30、外部设备40等输入侧外部系统20取得信息(步骤S31)。第一输入部12也有时从第二输入部14取得信息。第一输入部12在根据需要而将所取得的信息以数据转换等方式转换成适于学习模块的处理的形式之后输出至学习模块16。

学习模块16基于从第一输入部12输入的信息，进行使用了学习完毕模型的运算处理(步骤S32)。学习模块16也有时从第二输入部14输入信息，在这种情况下，基于从第一输入部12输入的信息和从第二输入部14输入的信息来进行运算处理，运算结果被传输至输出部18。

输出部18基于从学习模块16输入的信息而生成用于使输出侧外部系统50执行预定的任务的信息，并将所生成的信息输出至输出侧外部系统50(S33)。输出部18也有时从第二输入部14输入信息，在这种情况下，基于从学习模块16输入的信息和从第二输入部14输入的信息生成用于使输出侧外部系统50执行预定的任务的信息。例如，在输出侧外部系统50为机器人装置、预定的任务是使机器人执行的预定动作的情况下，输出部18能够从学习模块16中取得多个动作候补，并基于从第二输入部14输入的信息而从多个动作候补中选择预定的动作候补并对输出侧外部系统50输出信息。

与步骤S31～S33的处理并行地，第二输入部14取得为用于执行预定的任务所必需的且用户所指定的任务的必要条件、约束条件等条件(步骤S34)。第二输入部14将所取得的信息传输至第一输入部12、学习模块16和输出部18中的至少任一者。信息被传输至第一输入部12、学习模块16和输出部18中的哪一者优选根据使输出侧外部系统50执行的任务等来设定，但并不局限于此。

下面，对将任务执行系统10应用于图像检查装置、把持系统、障碍物回避系统、人物检索系统以及逆运动学模型的实施例进行说明。

＜实施例1：图像检查装置＞

图5是示出在将任务执行系统10应用于图像检查装置的情况下的功能构成的一个例子的框图。作为预定的任务，本实施例中的图像检查装置100是使用由照相机拍摄的图像来进行制品等对象物的合格或不合格的判断的装置，在此将包括任务执行系统110、照相机130、显示器150的系统称为图像检查装置。任务执行系统110具备：第一输入部112、第二输入部114、判断部116以及输出部118。需要注意的是，本实施例中的任务执行系统110、第一输入部112、第二输入部114、判断部116、输出部118、照相机130以及显示器150分别是相当于图2中的任务执行系统10、第一输入部12、第二输入部14、学习模块16、输出部18、传感器30以及输出侧外部系统50的结构。即，对图像检查装置100的各结构标注的附图标记的最后两位等于在图2中与该结构相对应的结构的附图标记。对于其它实施例也是同样的。

在本实施例中，图像检查装置100将由照相机130拍摄而得到的检查对象物的图像经由第一输入部112而被输入至判断部116。除此以外，作为用户P输入的条件的检查基准经由第二输入部114而被输入至判断部116。

判断部116由学习完毕模型(例如学习完毕的神经网络)构成。检查基准以及映有产品外观的图像被输入后，判断部116考虑用户所指定的检查基准而输出产品的检查结果。例如，检查结果为“合格”或“不合格”中的任一者。判断部116所输出的检查结果经由输出部118而显示于显示器150。另外，除了检查结果以外，图像检查装置100还可以使显示器150现实基于用户所指定的检查基准的信息。作为检查基准，例如，能够输入关于进行检查的对象物的基准、关于进行检查的环境的基准、关于检查的判断的基准。作为进行检查的对象物的基准，例如，能够输入对象物的材质、大小、颜色、反射度、透明度等的至少任一个。另外，作为进行检查的环境的基准，例如，能够输入环境明亮的程度。另外，作为检查的判断基准，能够输入表示应输出的合格或不合格的严格性的基准。检查基准的例子并不局限于这些，另外，可以组合使用多个检查基准。

图6是示出在本实施例中在通过机器学习来获得构成判断部116的学习完毕模型时所提供的训练数据的一个例子的图。如该图所示，训练数据将图像与针对每个判断基准的检查结果的正解数据建立关联。在图6所示的例子中，被输入的各图像(图像1，图像2，···)是检查对象物的图像。在此，判断基准存在三个等级。图1是不论按基准1～3中的哪一个都将检查结果应判断为“合格”的图像。图像2是按基准1和2而将检查结果应判断为“合格”、按基准3而应判断为“不合格”的图像。图像3是按基准1而将检查结果应判断为“合格”、按基准2和3而应判断为“不合格”的图像。图像4和图像5是不论按基准1～3中的哪一个都将检查结果应判断为“不合格”的图像。

通过向学习器提供多个图6所示那样的、图像与针对每个判断基准的检查结果的正解数据建立关联的训练数据而进行有教师学习，能够获得用于图像检查装置100的学习完毕模型。

当用户选择基准1～3任一个判断基准时，作为基于图6所示的训练数据的学习结果的所得到的学习完毕模型能够输出按照所选择的判断基准的检查结果。在图6的例子中，基准1、2、3可以说分别是宽松基准、普通基准、严格基准。

在本实施例中，对用户P输入的基准为三个等级的情况进行了说明，但也可以设置两个等级或四个等级以上的基准，这一点毋庸讳言。另外，也可以是，用户P不是通过基准1、2、3这样的离散数值而是通过具有-1至1这样的范围的连续数值来指定基准。此外，也可以是，用户P不是从数值而是从预先准备好的标签(宽松、普通、严格等)选择基准。

这样，通过使用包括期望的检查基准的形式的训练数据进行机器学习，获得判断结果根据检查基准而改变的学习完毕模型，并通过使用具有已获得的学习完毕模型的学习模块16和由用户P对学习模块16任意输入的检查基准，从而能够实现在执行检查时用户可根据检查的内容而灵活指定该检查基准的图像检查装置。

＜实施例2-1：把持系统(1)＞

图7是示出在将任务执行系统10应用于把持系统的情况下的功能构成的一个例子的框图。本实施例中的把持系统200是通过机器人来把持物体的系统，具备：任务执行系统210、照相机和编码器等的传感器230以及机器人240、250。在图7中，虽然区分了机器人240和机器人250的附图标记，但实际上是指相同的机器人。另外，传感器230的一部分或全部可以搭载于机器人240上。

任务执行系统210具备第一输入部212、第二输入部214、预测器216以及动作决定部218。其分别是相当于图2中的第一输入部12、第二输入部14、学习模块16以及输出部18的结构。

在本实施例中，把持系统200构成为，将由照相机230拍摄到的包括机械手和把持对象物的图像以及根据搭载于机器人的关节上的编码器230的输出值得到的机器人240的当前姿势经由第一输入部212输入至预测器216。另外，任务执行系统210构成为，取得机器人240的动作生成部244所生成的多个动作候补，并将已取得的多个动作候补经由第一输入部212而输入至预测器216。此外，用户P所输入的条件经由第二输入部214而被输入至预测器216。需要说明的是，动作生成部244可以设于任务执行系统210，也可以与机器人230和把持系统210分开地设置。另外，动作生成部244也可以具有学习完毕模型。即，可以使用基于预定的机器学习而生成的学习完毕模型来进行动作候补的生成。此时，动作生成部244作为用于通过学习模块16来实现所执行的预定的任务的子学习模块而发挥作用。

作为用户P输入的条件，例如，可设想将把持对象物中“希望把持的部位”(把持推荐区域)、“不希望把持的部位”(把持禁止区域)等约束条件指定为作业时的约束。

预测器216以表示从机器人240取得的多个动作候补的移动方向向量、基于从作为传感器的照相机230输入的图像或从作为传感器的编码器230输入的值而算出的机器人的当前位置和/或者姿势以及用户所输入的约束条件为依据，预测在按照各个移动方向向量移动了的情况下的把持达成率、和与用户P输入的约束条件对应的约束满足度。动作决定部218基于从预测器输出的把持成功率和约束满足度而算出各动作候补的评价值，并以评价值为依据而从动作候补中决定下一个动作。然后，生成用于执行所决定的动作的动作指令并输出至机器人250。另外，虽省略了图示，但可以将基于由预测器216预测出的把持达成率和约束满足度的信息输出至显示器等而向用户P进行提示。

图8是示出在本实施例中输入至预测器216的多个动作候补(移动方向向量)和从预测器216输出的各动作候补的把持成功率及约束满足度的一个例子的图。在该图中，(0，0，0)、(0，1，0)、(0，-1，0)、···等移动方向向量成为下一个动作的候补。在移动方向向量(x，y，z)中，x表示手部的左右方向的移动量，y表示手部的上下方向的移动量，z表示手部的旋转量。例如(0，0，0)表示不移动手部作为下一个动作，(0，1，0)表示向上方移动手部一单位。

把持成功率表示在接着进行了该动作时最终成功把持的概率。约束满足度表示在接着进行了该动作时是否满足用户所指定的约束条件。约束满足度为“1”时满足约束条件，而为“0”时表示不满足约束条件。例如，当用户指定了把持禁止区域时，如果因进行动作候补的动作而导致手部接触对象物的把持禁止区域，则将该动作候补的约束满足度判断为“0”。

在图8所示的例子中，表示针对动作候补(0，0，0)，预测器216输出把持成功率“0.4”、约束满足度“1”，针对动作候补(0，1，0)，预测器216输出把持成功率“0.7”、约束满足度“0”。也就是说，表示如下内容：在不移动手部时，把持成功率只是0.4，而当不进入禁止区域、另一方面将手部向上方移动一单位时，把持成功率变为0.7，但是，在把持成功了的情况下，由于把持了禁止区域，因此约束满足度变为0。

需要注意的是，构成预测器216的学习完毕模型是以如下方式进行了机器学习的模型：当输入映有手部和作业对象的图像、根据机器人的关节的编码器值得到的机器人的当前姿势及移动方向向量时，输出按照该移动方向向量使手部移动了时的把持成功率和约束满足度。这样的学习完毕模型能够通过使用了训练数据的机器学习来获得，该训练数据将例如映有手部和作业对象的图像、根据机器人的关节的编码器值得到的机器人的当前姿势、作为动作候补的移动方向向量以及在按照该移动方向向量而使手部移动了时的把持成功率和约束满足度建立有关联。

动作决定部218基于从预测器216输出的每个动作候补的把持成功率和约束满足度而算出评价值。在图8中，虽然通过评价值＝把持成功率×约束满足度来算出，但评价值的算出方法并非局限于此。动作决定部218基于每个动作候补的评价值并按照预定的动作决定规则来决定接着进行哪个动作。

图9是本实施例中的动作决定规则的一个例子。在将图9的动作决定规则应用于图8的动作候补的情况下，由于在不移动的情况(0，0，0)下的评价值0.4＜0.9，所以条件1不成立，动作候补(0，0，0.5)的评价值0.6＞0.5，所以条件2也不成立，因此条件3成立，选择“向成功率最大的方向移动”这一动作。因此，选择移动方向向量(0，0，0.5)作为下一个动作。这样，动作决定部218将用于使手部旋转90度的动作指令输出至机器人250。

需要注意的是，在此，虽然对预测器216输出把持成功率和约束满足度，并在动作决定部218中基于把持成功率和约束满足度而算出评价值，再根据评价值决定动作的实施例进行了说明，但也可以是预测器216输出参考了用户的约束条件的评价值，动作决定部218根据从预测器216接收到的评价值来决定动作。在这种情况下，构成预测器216的学习完毕模型只要是以如下方式进行机器学习的模型即可：当输入映有手部和作业对象的图像、根据机器人的关节的编码器值得到的机器人的当前姿势及移动方向向量时，输出按照该移动方向向量而使手部移动了时的评价值。需要注意的是，在本实施例中，作为用户P输入的条件，输入了把持推荐区域和/或者把持禁止区域，但除此之外，还可以输入用于进行动作决定的评价值。此时，用户P所输入的评价值经由第二输入部214而被输入至动作决定部(输出部)218。由此，用户P能够任意设定是否进行用于把持物体的夹具的开闭动作的判断的基准。此时，把持系统200可以将基于所设定的基准、所判断的结果的信息输出至显示器等而向用户P进行提示。

＜实施例2-2：把持系统(2)＞

图10是示出把持系统200的其它实施例的图。在实施例2-1中，构成为一个预测器216输出把持成功率和约束满足度，但能够如图10所示那样设为将输出把持成功率和约束满足度的预测器分开的结构。

在该实施例中，预测器216a以基于从照相机230输入的图像、从编码器230输入的值而算出的机器人的当前位置和/或姿势为依据，对从机器人240取得的多个动作候补预测在当前的状态下向各个方向移动了的情况下的把持达成率。另外，预测器216b以基于从照相机230输入的图像、从编码器230输入的值而算出的机器人的当前位置和/或姿势以及用户所输入的约束条件为根据，对从机器人240取得的多个动作候补预测从当前的状态起向各个方向移动了的情况下的约束满足度。

图11是示出从预测器216a输出的把持成功率和从预测器216b输出的约束满足度的一个例子的图。图11的(A)是示出输入至预测器216a的多个移动方向向量(动作候补)和从预测器216a输出的各动作候补的把持成功率的一个例子的图。图11的(B)是示出输入至预测器216b的多个移动方向向量(动作候补)和从预测器216b输出的各动作候补的约束满足度的一个例子的图。

返回至图10，动作决定部218从预测器216a取得每个动作候补的把持成功率，从预测器216b取得每个动作候补的约束满足度，将它们合在一起而算出每个动作候补的评价值。其它处理是与图6的实施例相同，因此省略说明。

通过将预测把持成功率和约束满足度的预测器分成两个，能够使用于预测把持成功率的学习完毕模型和预测约束满足度的学习完毕模型各自分开地进行学习。例如，用于预测把持成功率的预测器216a可以使用现有技术中的预测器，而关于用于预测基于用户所输入的约束条件的约束满足度的预测器216b，进行机器学习而获得学习完毕模型即可。这样，通过将构成把持系统200的预测器216分成多个预测器来构成，例如由于在想要追加各种约束条件的情况下，不必从头开始重新作成预测器216，而根据各个约束条而分别进行机器学习即可，因此能够简化用于进行机器学习的训练数据。另外，由于只要追加根据各个约束条件而获得的学习完毕模型即可，因此能够灵活地构成预测器216。

如该把持系统200那样，在将任务执行系统10应用于预定的系统时，若该系统具有多个预测器216，则多个预测器216优选包括至少以下两个学习完毕模型。即，将从外部系统20取得的感测数据等信息作为输入数据而进行信息处理的第一学习模块，和将从外部系统20取得的信息以及将用户P输入的条件转换成适于学习模块中的运算的数据形式后的信息作为输入数据而进行信息处理的第二学习模块这两个。

在本实施例中，第一学习模块是将从传感器230取得的感测数据作为输入数据并输出把持成功率的学习模块216a。另外，第二学习模块是将从传感器230取得的感测数据以及表示作为用户P输入的条件的把持推荐区域和/或把持禁止区域的信息作为输入数据并输出条件的满足度的学习模块216b。根据像这样包括多个学习模块的结构，能够分别构成用于执行通过机器人来把持对象物的任务所必需的学习模块216a、以及输出表示考虑了在执行任务时的约束条件的约束满足度的信息的学习模块216b，因此，能够使根据强加于任务的约束条件而使恰当的学习模块的分开使用变得容易。

＜实施例2-3：把持系统(3)＞

图12是示出把持系统200的其它实施例的图。在实施例2-1中，虽然对用户P所输入的条件经由第二输入部214而被输入至预测部216的结构进行了说明，但也能够设为如图12所示那样用户P所输入的条件输入至第一输入部212的结构。

在该实施例中，第一输入部212接收机器人240的动作生成部244所创建的多个动作候补(最初的动作候补)。另一方面，第一输入部212经由第二输入部214接收用户P所输入的约束条件。第一输入部212的信息生成部2122判断从机器人240取得的各个最初的动作候补是否满足用户P所输入的约束条件，并将满足约束条件的动作候补传输至预测部216。预测部216对所输入的多个动作候补中的每个预测把持成功率，在动作决定部318中根据把持成功率而决定下一个动作。由此，对不满足用户P所输入的约束条件的动作候补，能够在输入至预测部216之前从候补中排除，因此能够缩短预测部216中的运算时间。

图13的(a)、(b)是示出在实施例2-1至2-3中记载的把持系统200中，用户P指定约束条件时的一个例子的图。例如，当在作为把持对象的物体中存在不可触摸的区域(把持禁止区域)和想把持的区域(把持推荐区域)时，用户P能够在显示于计算机的显示画面等上的把持对象物的3D模型上指定约束条件。在获得考虑了用户所指定的约束条件的学习完毕模型时，需要将用户所输入的约束条件转换成能够输入至学习模型的、即适于在学习模型中进行运算的形式。在图13所示的例子中，通过将用户所指定的约束条件转换成特征量向量而使其转换成能够输入至神经网络的形式。具体而言，在与第二输入部214已连接的预定的显示装置上显示把持对象的二维形状或三维形状。此时，保存以特定的大小的框(voxel：体素)将把持对象物的形状离散化的数据。根据用户经由与第二输入部214连接的预定的输入装置而指定的把持推荐区域和/或把持禁止区域，针对构成把持对象物的体素，将表示能够把持的数值向量与表示不能够把持的数值向量建立关联。由此，只要生成能够输入至神经网络的形式的向量即可，其中，该向量能够基于以体素将所生成的把持对象物离散化的数值向量和与各体素建立关联的表示能够把持或不能够把持的数值向量数据，识别能够把持的单元和不能够把持的单元。

＜实施例3：障碍物回避系统(多关节机器人)＞

图14是示出在将任务执行系统10应用于多关节机器人中的障碍物回避系统的情况下的功能构成的一个例子的框图。本实施例中的障碍物回避系统300是机器人在动态环境中既回避障碍物、又自律性地执行作业的系统。作为用户P输入的关于对作业的要求的条件，能够使用回避障碍物的实现性与作业效率的优先程度。即，任务执行系统10构成为，用户P能够将作为回避障碍物的实现性的回避障碍物的概率与作为作业效率的作业速度的平衡指定为条件。另外，作为用户P输入的条件，除了例如回避障碍物的实现性、作业速度之外，还能够指定针对包括“移动所涉及的能量消耗”等的多个指标的重要度、优先度。

障碍物回避系统300具备任务执行系统310、传感器330以及机器人340、350。传感器330的一部分或全部可以搭载于机器人340上。在图14中，虽然区分了机器人340和机器人350的附图标记，但实际上是指相同的机器人。

任务执行系统310具备第一输入部312、第二输入部314、预测部316以及动作决定部318。其分别是相当于图2中的第一输入部12、第二输入部14、学习模块16以及输出部18的结构。

在本实施例中，障碍物回避系统300构成为，作为关于传感器330感测到的存在于机器人周边的障碍物的信息的点组经由第一输入部312而被输入至预测部316。需要注意的是，作为关于障碍物的信息，优选通过多面体和点组将由传感器330感测到的障碍物的形状进行近似并作为数值向量来表达。另外，任务执行系统310取得机器人340的动作规划部342创建出的、作为不考虑障碍物的存在的动作路径的原本的目标轨迹，并经由第一输入部312而将其输入至预测部316。此外，取得机器人340的动作生成部344所生成的用于回避障碍物的回避行动的候补，并经由第一输入部312而将其输入至预测部316。除这些以外，作为用户P所输入的条件的安全系数经由第二输入部314而被输入至预测部316。需要注意的是，动作生成部344可以发送表示从机器人340的当前姿势应向哪一个方向移动的动作候补，以代替发送用于回避障碍物的回避行动的候补。

预测部316对多个回避行动的候补中的每个预测回避成功率和目标偏离率，并输出考虑了用户所指定的安全系数的评价值。动作决定部318基于评价值来决定回避行动，并向机器人350输出用于实现所决定的回避行动的动作指令。机器人350基于从任务执行系统310接收到的动作指令而执行回避行动。而且，障碍物回避系统300可以将基于用户所指定的安全系数的信息显示于显示器等而向用户进行提示。

另外，预测部316可以对多个回避行动的候补中的每个预测回避成功率和目标偏离率并将其输出至动作决定部318。此时，用户所指定的安全系数从第二输入部314被输入至动作决定部318(图14中的虚线箭头)。在动作决定部318中，可以以回避成功率和目标偏离率为依据而对多个回避行动的候补中的每个算出考虑了用户所指定的安全系数的评价值，并基于评价值来决定回避行动。

图15是示出在本实施例中输入至预测部316的原本的目标轨迹的候补和从预测器316输出的每个目标轨迹的候补的回避成功率和目标偏离率的一个例子的图。在该图中，轴1、2、···、6是构成六轴多关节机器人的各关节的电机的编号。v1、v2、···、vn是表示机器人的动作候补(目标轨迹)的类别的记号。在表达各动作的记号中，箭头表示电机的旋转方向，φ表示电机未启动。具体而言，“↑”使电机正向地旋转，“↓”使电机反向地旋转，“φ”未启动电机。另外，可以不是用箭头而是用数值向量(-1～+1)来表达电机的旋转方向，并与旋转方向配合地来连续地表示旋转量。另外，可以将数值向量不作为电机的旋转方向而是作为电机的加速度(角加速度)来表示。

回避成功率P表示在机器人进行了动作vn的情况下能够回避障碍物的概率。目标偏离率Q是表示在机器人进行了动作vn的情况下离没有障碍物时的通常路径(目标轨迹)多近的指标。例如是将与没有障碍物时的动作轨迹完全一致的情况设为1、将只有起点和终点一致而中间轨迹完全不一致的情况设为0的指标。

例如，在图15中，动作候补v1示出使轴1的关节正向地旋转、使剩余的轴2～6的关节不动这样的动作，并示出了在执行了动作候补v1后的回避成功率和目标偏离率分别为0.2和0.8。即，预测器316分别输出0.2和0.8作为在当前的状态下动作候补v1的回避成功率和目标偏离率。

在本实施例中，用户P输入安全系数α。根据安全系数而决定选择哪一个动作候补vn。例如，在通过评价式：K＝回避成功率×α(安全系数)+目标偏离率×(1－α)来算出动作的评价值K的情况下，用户通过调整安全系数α，能够调整重视回避成功率和目标偏离率中的哪一个。在图15的例子中，例如，如果将安全系数α设为1，则就选择回避成功率高的动作候补v2，如果将安全系数α设为0，则就选择目标偏离率高的动作候补v1。这样，在本实施例中，通过追加由人进行的输入，用户能够当场指定安全性与效率的权衡。

需要注意的是，预测部316由学习完毕模型构成。在学习器中，通过使用收益函数来进行训练，能够获得进行期望输出的学习完毕模型，其中，在收益函数中，执行了回避行动的候补的情况下的回避成功率与从原本的目标轨迹(作业目标动作)的偏离率之比越接近于人的输入值得到的收益越高。

＜实施例4：障碍物回避系统(multi-agent：多智能体)＞

图16是示出在将任务执行系统10应用于多智能体中的障碍物回避系统的情况下的功能构成的一个例子的框图。本实施例中的障碍物回避系统400是决定多个移动机器人(智能体)在工厂、仓库等共通的空间内不冲突地以最短时间到达各自的目的地的路径的系统，具备任务执行系统410和移动机器人440、450。在移动机器人440上搭载有照相机430。在图16中，虽然区分了移动机器人440和移动机器人450的附图标记，但实际上是指相同的移动机器人。

任务执行系统410具备第一输入部412、第二输入部414、预测部416以及动作决定部418。其分别是相当于图2中的第一输入部12、第二输入部14、学习模块16以及输出部18的结构。另外，在本实施例中，第一输入部412包括状态识别部4121。这是相当于图2中的状态识别部121的结构。

在本实施例中，障碍物回避系统400将照相机430拍摄到的移动机器人周边的图像输入至第一输入部412的状态识别部4121。状态识别部4121基于从照相机430取得的图像来识别移动机器人440的状态，并将状态向量输出至预测部416。另外，任务执行系统410取得机器人440的动作规划部442所创建的原本的目标轨迹(目标向量)，并经由第一输入部412而将其输入至预测部416。此外，取得机器人440的动作生成部444所创建的用于回避与其它移动机器人的冲突的回避行动的候补，并经由第一输入部412而将其输入至预测部416。

图17是本实施例中的多智能体系统的概略图。在该图所示的例子中，总共存在5台移动机器人，具有表示各个移动机器人的位置和速度的状态向量(p，v)。另外，移动机器人具有表示目标轨迹的目标向量{u₀}。

返回至图16，预测部416基于从第一输入部412输入的目标向量{u₀}、状态向量{p₀，v₀，p₁，v₁，p₂，v₂，p₃，v₃}以及多个回避动作的候补{↑，↓，←，→，φ}而对多个回避行动的候补中的每个算出评价值，并将所算出的评价值输出至动作决定部418。

除评价值以外，用户P所输入的安全系数经由第二输入部414而输入至动作决定部418。动作决定部418基于评价值和安全系数来决定回避动作，将动作指令输出至机器人450。另外，障碍物回避系统400可以将基于用户所输入的安全系数的信息显示于显示器等而向用户进行提示。

各移动机器人需要以自身的当前状态和周围的移动机器人的当前状态为依据来决定最适当的行动，并能够通过机器学习来获得这样的行动策略。

＜实施例5：人物检索系统＞

图18是示出在将任务执行系统10应用于人物检索系统的情况下的功能构成的一个例子的框图。本实施例中的人物检索系统500是从监视影像中提取由样本示出的特定的人物的系统。在本实施例中，用户P指定希望重视的身体部位，因此可以进行有效的锁定。

人物检索系统500具备：任务执行系统510、拍摄动画并取得帧图像的监视照相机530、存储有样本图像的外部系统540以及用于显示处理结果的显示器550。任务执行系统510包括第一输入部512、第二输入部514、判断部516以及输出部518。

在本实施例中，人物检索系统500将由监视照相机530拍摄到的动画帧图像经由第一输入部512输入至判断部516。另外，外部系统540中所存储的样本图像经由第一输入部512而被输入至判断部516。

判断部516根据所取得的动画帧图像和样本图像来判断是否出现有特定的人物。在本实施例中，判断部516由多个学习模块构成。各学习模块分别进行机器学习以使得能够通过比较身体的预定部位而判断一致度。在此，判断部由四个比较部构成，分别由用于比较眼、嘴、发型以及轮廓的神经网络构成。四个判断部通过比较在从照相机530输入的图像中出现的人物与样本图像的人物，针对各个部位(眼、嘴、发型、轮廓)判断一致度，并输出每个部位的一致度。

输出部518从判断部516取得每个部位的一致度。另一方面，输出部518从第二输入部514接收用户P所输入的每个部位的权重，算出考虑了每个部位的权重的综合的一致度，并将其输出至显示器550。另外，人物检索系统500可以将基于用户P所输入的每个部位的权重的信息输出至显示器550。

图19是示出本实施例中的、每个部位的一致度和权重的一个例子的图。各部位的权重是用户所输入的。输出部518基于从判断部输出的各部位的一致度和用户所输入的各部位的权重而按预定的逻辑算出综合的一致度。

＜实施例6：逆运动学模型＞

图20是示出在将任务执行系统10应用于逆运动学模型中的情况下的功能构成的一个例子的框图。图21是示出在逆运动学中存在多个解的情况的一个例子的图。

本实施例中的逆运动学控制系统600是在给出了手部、夹具等末端执行器的姿势时能够输出实现该姿势的关节角的系统。在给出了末端执行器的姿势时，如图21所示，有时存在多个实现该姿势的关节角。在本实施例中，基于从当前姿势开始的移动距离为最小等的用户所指定的条件而输出恰当的解。

如图20所示，本实施例中的逆运动学控制系统600具备任务执行系统610、传感器630、以及机器人640、650。传感器630的一部分或全部可以搭载于机器人640上。在图20中，虽然区分了机器人640和机器人650的附图标记，但实际上是指相同的机器人。任务执行系统610包括第一输入部612、第二输入部614、预测器616以及动作决定部618。

在本实施例中，任务执行系统610从编码器等的传感器630取得机器人640的当前姿势，并经由第一输入部612而将其输入至预测器616。另外，从机器人640的动作规划部(未图示)取得末端执行器的目标姿势，并经由第一输入部612而将其输入至预测器616。除这些以外，任务执行系统610还取得用户P所输入的条件，并经由第二输入部而将其输入至预测器616。

预测器616由学习完毕模型构成，并基于机器人的当前姿势和末端执行器的目标姿势而输出用于实现目标姿势的关节角。当存在多个解时，基于由用户P输入的条件来选择恰当的解，并输出所选择的解(关节角)。

动作决定部618基于从预测器616中接收到的关节角而生成动作指令，并将其输出至机器人650。机器人650通过基于所接收到的动作指令进行动作，能够以按照用户所指定的条件的方式控制末端执行器的姿势。另外，逆运动学控制系统600可以将基于由用户输入的条件的信息输出至显示器等而向用户P进行提示。

在本实施例中，构成预测器616的学习完毕模型是，通过将末端执行器的姿势和与其对应的关节角的集合作为训练数据提供给学习器而进行有教师学习，从而能够获得逆运动学的模型。具体而言，通过生成各种各样的关节角的组合，并利用正运动学来计算与该组合对应的末端执行器的姿势，从而能够生成作为正解的训练数据的集合。

此外，在针对末端执行器的姿势关节角的组合存在多个时，设定预定的评价指标，并生成将评价指标成为最大的关节角的组合作为正解的训练数据。通过使用了以这种方式生成的训练数据的有教师学习，能够得到输出使所指定的评价函数最大化的解的学习完毕模型。评价函数可通过例如定位精度与移动代价的组合等来表达。定位精度是所要求的末端执行器的姿势与关节角的姿势之差，移动代价能够作为从当前姿势起的移动量来计算。另外，除此以外，还可以将离奇点(singular point)的距离等作为评价指标。

需要注意的是，本发明并非限定于上述的实施方式，而能够在不脱离本发明的宗旨的范围内以其它各种各样的形式来实施。因此，上述实施方式在所有的方面上只不过是例示，并非限定性地进行解释。例如，上述的各处理步骤能够在处理内容不产生矛盾的范围内省略处理步骤的一部分、或者任意变更各处理步骤的顺序或并列执行。另外，各实施方式中的功能构成和硬件构成只不过是一个例子，并非限定于图示的构成。

在本说明书中所说明的实施各处理的程序可以存储于记录介质中。例如，通过在计算机上安装上述程序，能够使该计算机作为任务执行系统10而发挥作用。在此，存储有上述程序的记录介质可以是非瞬时性记录介质。非瞬时性记录介质不作特别限定，例如，可以是CD-ROM等记录介质。

上述的实施方式的一部分或全部也能够如以下的附记这样描述，但不局限于以下。

(附记1)

一种系统，具备至少一个存储器和与所述存储器连接的至少一个硬件处理器，使用学习模块来使预定的任务执行，该学习模块包括通过机器学习而进行了预定的学习的学习完毕模型或输入输出关系与所述学习完毕模型同等的模型，其中，

所述硬件处理器在第一输入部中接收从一个或多个外部系统中取得的信息并生成被输入至所述学习模块中的信息的至少一部分，

所述硬件处理器在输出部中取得从所述学习模块输出的信息并生成从所述系统输出的信息，且基于该信息生成使预定的任务执行的信息，

所述硬件处理器接收来自用户的输入，基于来自所述用户的输入的信息被输入至所述第一输入部、所述学习模块和所述输出部中的至少任一者，从所述输出部输出的信息基于来自用户的输入的信息而变化。

(附记2)

一种方法，对使用学习模块来使预定的任务执行的系统进行控制，该学习模块由通过机器学习进行了预定的学习的学习完毕模型或输入输出关系与所述学习完毕模型同等的模型构成，其中，

通过至少一个以上的硬件处理器来在第一输入部中接收从一个或多个外部系统取得的信息并生成被输入至所述学习模块中的第一信息的至少一部分，

通过所述硬件处理器来在所述学习模块中至少基于所生成的所述第一信息输出执行预定的任务的第二信息，

通过所述硬件处理器来在输出部中至少取得所输出的所述第二信息生成从所述系统输出的第三信息，

与所述第一信息的生成、所述第二信息的输出或者所述第三信息的生成中的至少任一者大致并行地，通过所述硬件处理器接收来自用户的输入并将基于来自所述用户的输入的信息输入至所述第一输入部、所述学习模块和所述输出部中的至少任一者，从所述输出部中输出的信息基于来自所述用户的输入而变化。

Claims

1.一种任务执行系统，使预定的任务执行，所述任务执行系统的特征在于，具备：

学习模块，包括通过机器学习进行了预定的学习的学习完毕模型或输入输出关系与所述学习完毕模型同等的模型；

第一输入部，接收从一个或多个外部系统取得的信息，生成被输入至所述学习模块的信息的至少一部分；

输出部，取得从所述学习模块输出的信息，生成从所述任务执行系统输出的信息，其中，所述预定的任务是基于从该任务执行系统输出的信息而执行的；以及

第二输入部，从用户接收针对所述预定的任务的条件的输入，其中，基于来自所述用户的输入的信息被输入至所述第一输入部、所述学习模块和所述输出部中的至少任一者，所述输出部输出基于所述条件的信息。

2.根据权利要求1所述的任务执行系统，其特征在于，

在从所述输出部输出的信息的一部分中包括对应于所述条件而向用户进行提示的信息。

3.根据权利要求1或2所述的任务执行系统，其特征在于，

所述学习模块由神经网络构成。

4.根据权利要求1或2所述的任务执行系统，其特征在于，

所述学习模块基于从所述第一输入部输入的信息和从所述第二输入部输入的信息，生成从所述学习模块输出的信息或从所述输出部输出的信息。

5.根据权利要求1或2所述的任务执行系统，其特征在于，

所述一个或多个外部系统包括照相机，

由所述第二输入部接收的来自所述用户的输入包括关于检查基准的条件，

所述输出部根据由所述照相机拍摄的对象物的图像，输出基于用户所输入的所述检查基准的所述对象物的检查结果。

6.根据权利要求1或2所述的任务执行系统，其特征在于，

所述任务执行系统基于从所述输出部输出的信息来控制机器人的动作，

所述一个或多个外部系统包括检测所述机器人的当前姿势的传感器，

由所述第二输入部接收的来自所述用户的输入包括关于所述机器人的动作的约束的条件，

所述输出部考虑所述机器人的当前姿势和所述关于所述机器人的动作的约束的条件而输出用于控制所述机器人的动作的信息。

7.根据权利要求1或2所述的任务执行系统，其特征在于，

所述一个或多个外部系统包括检测机器人的当前位置和姿势中的至少任一方的传感器，

由所述第二输入部接收的来自所述用户的输入包括关于所述机器人回避障碍物的安全性的条件，

所述输出部考虑所述机器人的当前位置和所述关于所述机器人回避障碍物的安全性的条件而输出用于控制所述机器人的动作的信息。

8.根据权利要求1或2所述的任务执行系统，其特征在于，

所述一个或多个外部系统包括照相机，

由所述第二输入部接收的来自所述用户的输入包括关于人的身体部位的条件，

所述输出部根据由所述照相机拍摄的人物的图像，基于用户所输入的所述条件判断所述图像与特定的对象图像的一致度，并输出该判断结果。

9.一种学习装置，使权利要求1至8中任一项所述的任务执行系统中所包括的学习模块进行学习，其特征在于，

所述学习装置具备基于学习用数据使所述学习模块进行学习的学习控制部，所述学习用数据包括：第一学习用数据，从一个或多个外部系统取得；以及第二学习用数据，包括与在使所述预定的任务执行时用户输入的条件为相同形式的数据。

10.一种任务执行方法，在具备学习模块的系统中使预定的任务执行，该学习模块包括通过机器学习进行了预定的学习的学习完毕模型或输入输出关系与所述学习完毕模型同等的模型，所述任务执行方法的特征在于，具备：

第一步骤，第一输入部接收从一个或多个外部系统取得的信息并生成被输入至所述学习模块的信息的至少一部分；

第二步骤，所述学习模块至少基于在所述第一步骤中所生成的信息而输出预定的信息；

第三步骤，输出部至少取得在所述第二步骤中所输出的信息并生成从所述系统输出的信息，其中，预定的任务是基于从该系统输出的信息而执行的；以及

第四步骤，与所述第一步骤、所述第二步骤和所述第三步骤中的至少任一步骤并行地进行，在所述第四步骤中，从用户接收针对所述预定的任务的条件的输入，其中，基于来自所述用户的输入的信息被输入至所述第一输入部、所述学习模块和所述输出部中的至少任一者，所述输出部输出基于所述条件的信息。

11.一种学习方法，使权利要求10所述的系统中所包括的学习模块进行学习，其特征在于，

所述学习方法使所述学习模块基于学习用数据通过机器学习来进行学习，所述学习用数据包括：第一学习用数据，从一个或多个外部系统取得；以及第二学习用数据，包括与在使所述预定的任务执行时用户输入的条件为相同形式的数据。

12.一种记录介质，存储有程序，其特征在于，所述程序用于使包括学习模块的计算机执行以下步骤，其中，该学习模块由通过机器学习进行了用于使预定的任务执行的学习的学习完毕模型或输入输出关系与所述学习完毕模型同等的模型构成：

第一步骤，接收从一个或多个外部系统取得的信息并生成被输入至所述学习模块的信息的至少一部分；

第三步骤，至少取得在所述第二步骤中所输出的信息并生成从所述计算机输出的信息，其中，预定的任务是基于从该计算机输出的信息而执行的；以及

第四步骤，与所述第一步骤、所述第二步骤和所述第三步骤中的至少任一步骤并行地进行，从用户接收针对所述预定的任务的条件的输入，其中，通过在所述第一步骤、所述第二步骤和所述第三步骤中的至少任一步骤中输入基于来自所述用户的输入的信息，输出基于所述条件的信息。

13.一种记录介质，存储有程序，所述程序使权利要求12所述的计算机中所包括的学习模块进行学习，其特征在于，

所述程序用于实现使所述学习模块基于学习用数据通过机器学习来进行学习的处理，所述学习用数据包括：第一学习用数据，从一个或多个外部系统取得；以及第二学习用数据，包括与在使所述预定的任务执行时用户输入的条件为相同形式的数据。