CN114340855A

CN114340855A - 机器人行动计划系统、机器人系统、机器人作业验证系统及机器人行动计划方法

Info

Publication number: CN114340855A
Application number: CN201980099875.2A
Authority: CN
Inventors: 松冈谅; 前川清石; 椹木哲夫
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2022-04-12
Anticipated expiration: 2039-09-05
Also published as: JP6685483B1; DE112019007691T5; WO2021044583A1; CN114340855B; JPWO2021044583A1

Abstract

机器人行动计划系统(7)具有：错误评价部(71)，其在第1机器人(2A)中发生了错误的情况下，基于表示第1机器人(2A)的动作的状态的信息，生成错误的主要原因、表示主要原因的似然度的评价值和表示针对主要原因可采取的解决方案的评价信息；对策决定部(72)，其基于评价值而决定针对错误的对策；规划部(73)，其在由对策决定部(72)决定的对策是上述的解决方案的情况下，按照上述的解决方案而生成表示第1机器人(2A)的动作顺序的规划步骤；以及调度器(74)，其在由规划部(73)生成规划步骤的情况下，按照规划步骤而生成用于使第1机器人(2A)重新开始动作的调度。

Description

机器人行动计划系统、机器人系统、机器人作业验证系统及机器人行动计划方法

技术领域

本发明涉及一种进行在机器人中发生了错误的情况下的处理的机器人行动计划系统、机器人系统、机器人作业验证系统及机器人行动计划方法。

背景技术

近年来，通过工业用机器人进行的作业变得多样化，为了使生产率提高而使机器人系统持续运转成为课题。在工业用机器人导入时，人将对象作业中的动作点示教给工业用机器人，并且创建使工业用机器人进行动作的一系列的动作程序。在工业用机器人按照动作程序执行动作的过程中，有时由于从作为操作对象的工件或作业环境这样的各种物体产生的主要原因，工业用机器人的动作无法正常地完成而发生错误。特别是在多个工业用机器人协同动作而执行动作的情况下，如果发生错误，则错误的影响会波及后续的动作，有时多个工业用机器人难以按照动作程序而执行动作。

为了使由于发生错误而停止的机器人系统恢复，提出了基于作业程序和从机械输出的信号，对停止的机械和错误的原因进行确定的技术(例如，参照专利文献1)。

专利文献1：日本特开2018－36713号公报

发明内容

但是，在专利文献1所公开的技术中，在确定出机器人的错误的主要原因后，由人进行恢复作业。在该技术中，机器人不自主地进行用于恢复的动作，因此在人无法立即进行将错误的主要原因去除的情况下，机器人系统的运转率降低。

本发明就是鉴于上述情况而提出的，其目的在于得到使在机器人中发生了错误的情况下的机器人系统的运转率提高的机器人行动计划系统。

为了解决上述的课题，并达到目的，本发明是一种机器人行动计划系统，其具有：错误评价部，其在机器人中发生错误而机器人的动作停止的情况下，基于表示机器人的动作的状态的信息，生成错误的主要原因、表示主要原因的似然度的评价值和表示针对主要原因可采取的解决方案的评价信息；以及对策决定部，其基于由错误评价部生成的评价信息所示的评价值，决定针对错误的对策。本发明还具有规划部，其在由对策决定部决定的对策是评价信息所示的解决方案的情况下，按照解决方案而生成表示机器人的动作顺序的规划步骤。本发明还具有调度器，其在由规划部生成规划步骤的情况下，按照规划步骤而生成用于使机器人重新开始动作的调度。在由对策决定部决定的对策是使用于对评价值进行精查的动作执行的对策或使机器人的动作停止的对策的情况下，按照由对策决定部决定的对策而生成与机器人的动作相关的调度。

发明的效果

根据本发明，具有下述效果，即，能够使在机器人中发生了错误的情况下的机器人系统的运转率提高。

附图说明

图1是表示实施方式1所涉及的机器人系统的结构的图。

图2是示意地表示由实施方式1中的第1机器人和第2机器人将部件组装的情形的图。

图3是表示实施方式1所涉及的机器人行动计划系统所具有的错误评价部的结构的图。

图4是表示实施方式1所涉及的机器人行动计划系统中的错误评价部所具有的语义网络匹配部的动作顺序的流程图。

图5是表示将某机器人在抓持有工件的状态下进行移动的动作表现出的概念图形的图。

图6是表示实施方式1所涉及的机器人行动计划系统所具有的对策决定部的动作顺序的第1流程图。

图7是表示实施方式1所涉及的机器人行动计划系统所具有的对策决定部的动作顺序的第2流程图。

图8是表示实施方式2所涉及的机器人系统的结构的图。

图9是表示实施方式3所涉及的机器人作业验证系统的结构的图。

图10是表示实施方式4所涉及的机器人行动计划系统的结构的图。

图11是表示实施方式1所涉及的机器人行动计划系统所具有的错误评价部、对策决定部、规划部及调度器的至少一部分的功能由处理器实现的情况下的处理器的图。

图12是表示实施方式1所涉及的机器人行动计划系统所具有的错误评价部、对策决定部、规划部及调度器的至少一部分由处理电路实现的情况下的处理电路的图。

具体实施方式

下面，基于附图对本发明的实施方式所涉及的机器人行动计划系统、机器人系统、机器人作业验证系统及机器人行动计划方法详细地进行说明。此外，本发明并不限定于本实施方式。

实施方式1.

＜机器人系统的结构＞

图1是表示实施方式1所涉及的机器人系统1的结构的图。机器人系统1具有执行动作的第1机器人2A及第2机器人2B。动作的例子是对部件进行组装的动作。机器人系统1还具有第1控制器3A，该第1控制器3A存储有用于使第1机器人2A动作的第1动作程序31A，基于第1动作程序31A，将与第1机器人2A的动作有关的指令输出至第1机器人2A。

机器人系统1还具有第2控制器3B，该第2控制器3B存储有用于使第2机器人2B动作的第2动作程序31B，基于第2动作程序31B，将与第2机器人2B的动作有关的指令输出至第2机器人2B。第1机器人2A按照从第1控制器3A输出的指令而执行动作，第2机器人2B按照从第2控制器3B输出的指令而执行动作。

图2是示意地表示由实施方式1中的第1机器人2A和第2机器人2B对部件进行组装的情形的图。换言之，图2是示意地表示第1机器人2A及第2机器人2B依次执行第1组装动作S1、第2组装动作S2及第3组装动作S3的情形的图。第1组装动作S1、第2组装动作S2及第3组装动作S3各自是组装部件的动作，且是由第1机器人2A及第2机器人2B执行的动作的例子。箭头示出第1组装动作S1、第2组装动作S2及第3组装动作S3依次被执行。在图2中还示出了第1控制器3A及第2控制器3B。

机器人系统1还具有：第1内界传感器4A，其配置于第1机器人2A的内部而对第1机器人2A的内部的状态进行观测；以及第2内界传感器4B，其配置于第2机器人2B的内部而对第2机器人2B的内部的状态进行观测。例如，第1内界传感器4A是用于对第1机器人2A的关节的角度及位置进行检测的编码器，或是用于对第1机器人2A的发热进行检测的温度传感器。例如，第2内界传感器4B是用于对第2机器人2B的关节的角度及位置进行检测的编码器，或是用于对第2机器人2B的发热进行检测的温度传感器。

机器人系统1还具有外界传感器5，该外界传感器5对第1机器人2A及第2机器人2B各自的外部的状态进行观测。例如，外界传感器5具有对与第1机器人2A的外部的物体和第1机器人2A之间的触点有关的状态、和与第2机器人2B的外部的物体和第2机器人2B之间的触点有关的状态进行观测的功能。换言之，例如外界传感器5是用于对在机器人抓持有工件时施加于该机器人的指尖的力进行检测的力觉传感器，或是用于对机器人与工件干涉的状态及多个机器人的干涉的状态进行检测的照相机。上述的机器人分别是第1机器人2A及第2机器人2B，上述的多个机器人是第1机器人2A及第2机器人2B，上述的工件是物体的例子。

机器人系统1还具有错误检测部6，该错误检测部6在第1机器人2A及第2机器人2B执行动作的情况下，在第1机器人2A及第2机器人2B各自中，基于由第1内界传感器4A、第2内界传感器4B及外界传感器5检测出的值对发生错误时的该错误进行检测。错误检测部6在第1机器人2A或第2机器人2B中检测出错误的情况下，使第1机器人2A及第2机器人2B的动作停止。

例如，错误检测部6在第1机器人2A或第2机器人2B所承受的负担超过预先设定的容许上限值的情况下，使第1机器人2A及第2机器人2B的动作停止。第1机器人2A或第2机器人2B所承受的负担超过容许上限值的情况是在第1机器人2A或第2机器人2B中发生了错误的情况下的例子。

错误检测部6可以使用公知的神经网络而事先学习神经网络，该神经网络能够基于由第1内界传感器4A、第2内界传感器4B及外界传感器5检测出的值对异常进行诊断。在该情况下，错误检测部6在第1机器人2A及第2机器人2B执行动作时，使用神经网络基于由第1内界传感器4A、第2内界传感器4B及外界传感器5检测出的值对错误进行检测。公知的神经网络的例子是递归神经网络(Recurrent Neural Network即RNN)或卷积神经网络(Convolutional Neural Network即CNN)。

错误检测部6配置于第1机器人2A及第2机器人2B中的一者或两者的内部。在错误检测部6配置于第1机器人2A及第2机器人2B各自的内部的情况下，错误检测部6进行以下的动作。即，在第1机器人2A的内部配置的错误检测部6基于由第1内界传感器4A及外界传感器5检测出的值，对在第1机器人2A中发生了错误的情况下的该错误进行检测。在第2机器人2B的内部配置的错误检测部6基于由第2内界传感器4B及外界传感器5检测出的值，对在第2机器人2B中发生了错误的情况下的该错误进行检测。在第1机器人2A及第2机器人2B各自的内部配置的错误检测部6在检测出错误的情况下，使第1机器人2A及第2机器人2B的动作停止。

机器人系统1还具有机器人行动计划系统7，该机器人行动计划系统7在由错误检测部6检测出错误而第1机器人2A及第2机器人2B的动作停止的情况下，决定针对该错误的对策。机器人行动计划系统7按照决定的对策而生成与第1机器人2A及第2机器人2B各自的动作相关的调度。

错误检测部6在检测出错误的情况下，将表示第1机器人2A的动作的状态的信息即第1动作信息和表示第2机器人2B的动作的状态的信息即第2动作信息输出至机器人行动计划系统7。第1动作信息是基于由第1内界传感器4A及外界传感器5检测出的值的信息。第2动作信息是基于由第2内界传感器4B及外界传感器5检测出的值的信息。

机器人行动计划系统7具有错误评价部71，该错误评价部71在第1机器人2A或第2机器人2B中发生错误而第1机器人2A及第2机器人2B的动作停止的情况下，基于表示第1机器人2A及第2机器人2B各自的动作的状态的信息，生成该错误的主要原因、表示该主要原因的似然度的评价值、和表示针对该主要原因可采取的解决方案的评价信息。

具体地说，错误评价部71对从错误检测部6输出的第1动作信息及第2动作信息进行接收，基于第1动作信息及第2动作信息的一者或两者，生成在第1机器人2A或第2机器人2B中发生的错误的主要原因、表示该主要原因的似然度的评价值和表示针对该主要原因可采取的解决方案的评价信息。关于错误评价部71的结构，使用图3之后再次进行说明。

机器人行动计划系统7还具有对策决定部72，该对策决定部72基于由错误评价部71生成的评价信息所示的评价值，决定针对错误的对策。例如，对策决定部72判断评价值是否大于预先设定的阈值，在判断为评价值大于阈值的情况下，决定为针对错误的对策是由评价信息表示的解决方案。

例如，对策决定部72在判断为评价信息所示的评价值小于或等于阈值的情况下，判断是否能够执行用于对评价值进行精查的动作。下面，有时将用于对评价值进行精查的动作记载为“探索动作”。在图6及7中，用于对评价值进行精查的动作记载为“探索动作”。精查包含再评价。关于探索动作的具体例在后面记述。

对策决定部72在判断为能够执行探索动作的情况下，决定为针对错误的对策是使探索动作执行的对策。对策决定部72在判断为无法执行探索动作的情况下，决定为针对错误的对策是使机器人的动作停止的对策。上述的机器人是第1机器人2A及第2机器人2B。关于探索动作的具体例在后面记述。

例如，对策决定部72在判断为评价信息所示的评价值小于或等于阈值的情况下，可以不判断是否能够执行探索动作，就决定为针对错误的对策是使第1机器人2A及第2机器人2B的动作停止的对策。

机器人行动计划系统7还具有规划部(planner)73，该规划部73在由对策决定部72决定的对策是由错误评价部71生成的评价信息所示的解决方案的情况下，按照该解决方案而生成表示第1机器人2A及第2机器人2B的动作顺序的规划步骤。由规划部73生成的规划步骤用于实现该解决方案，且用于使第1机器人2A及第2机器人2B的动作重新开始。

机器人行动计划系统7还具有调度器(Scheduler)74，该调度器74在由规划部73生成规划步骤的情况下，按照规划步骤而生成用于使第1机器人2A及第2机器人2B各自重新开始动作的调度。调度器74在由规划部73生成规划步骤的情况下，生成满足与预先决定出全部规划步骤的顺序有关的限制的调度。

在由对策决定部72决定的对策是使用于对评价值进行精查的动作执行的对策，或用于使第1机器人2A及第2机器人2B的动作停止的对策的情况下，调度器74按照由对策决定部72决定的对策而生成与第1机器人2A及第2机器人2B的动作相关的调度。

具体地说，在由对策决定部72决定为针对错误的对策是使探索动作执行的对策的情况下，调度器74生成用于使探索动作执行的调度。在由对策决定部72决定为针对错误的对策是使第1机器人2A及第2机器人2B的动作停止的对策的情况下，调度器74生成使第1机器人2A及第2机器人2B的动作停止的调度。

调度器74将与第1机器人2A的动作有关的调度输出至第1控制器3A，将与第2机器人2B的动作有关的调度输出至第2控制器3B。第1控制器3A按照从调度器74输出的调度对第1动作程序31A进行更新，基于更新后的调度，将与第1机器人2A的动作有关的指令输出至第1机器人2A。第2控制器3B按照从调度器74输出的调度对第2动作程序31B进行更新，基于更新后的调度，将与第2机器人2B的动作有关的指令输出至第2机器人2B。下面，对机器人行动计划系统7的详细内容进行说明。

＜使用语义网络的情况下的错误评价部71的结构＞

图3是表示实施方式1所涉及的机器人行动计划系统7所具有的错误评价部71的结构的图。换言之，图3是表示在实现错误评价部71时使用语义网络(Semantic Network)的情况下的错误评价部71的结构的图。公知的语义网络是用于仿形于人类的知识构造而通过计算机表现语言的语义的网络模型。一个语义网络通过表示语言中的概念的节点与表示概念的语义的关系的边缘的组合而构成的。

在使用语义网络的情况下，错误评价部71具有语义网络匹配部75，该语义网络匹配部75对从错误检测部6输出的第1动作信息及第2动作信息进行接收，构建能够记述与第1机器人2A及第2机器人2B各自的动作的种类相对应的错误的语义网络而提取错误的主要原因。

例如，语义网络匹配部75构建表现第1机器人2A及第2机器人2B各自的移动动作或工件的抓持动作这样的第1机器人2A及第2机器人2B各自的动作状态的语义网络，提取表示错误的主要原因的节点。语义网络匹配部75将针对提取出的主要原因可采取的解决方案输出至对策决定部72。在图3还示出了对策决定部72。

在使用语义网络的情况下，错误评价部71还具有评价值计算部76，该评价值计算部76对从错误检测部6输出的第1动作信息及第2动作信息进行接收，基于第1动作信息及第2动作信息和由语义网络匹配部75提取出的错误的主要原因，对表示该主要原因的似然度的评价值进行计算。第1动作信息及第2动作信息是观测信息的例子。

例如，评价值计算部76针对表示由语义网络匹配部75提取出的错误的主要原因的节点，基于第1动作信息及第2动作信息中的一者或两者，对语义网络表示实际的错误的主要原因的似然度的概率即评价值进行计算。评价值计算部76将表示计算出的评价值的信息输出至对策决定部72。

如上所述，在使用语义网络的情况下，错误评价部71与机器人的种类相匹配而推定相对于观测信息具有不可靠性的错误的主要原因，能够提供用于进行与对认为有效的解决方案进行选择有关的判断的信息。

＜语义网络匹配部75的动作＞

图4是表示实施方式1所涉及的机器人行动计划系统7中的错误评价部71所具有的语义网络匹配部75的动作顺序的流程图。语义网络匹配部75取得检测出错误时的第1动作信息及第2动作信息(S11)。即，在步骤S11中，语义网络匹配部75取得检测出错误时的第1机器人2A及第2机器人2B各自试图执行的动作的信息。

语义网络匹配部75取得对与在步骤S11中取得的信息所示的动作的种类相对应的错误的状态进行记述的语义网络的帧(S12)。例如，语义网络的帧是公知的概念图形(Conceptual Graph)的帧。概念图形是通过将对语言体系具有的多个格的关系进行了规定的关系节点(Relation Node)和表示概念的多个概念节点(Concept Node)连接而构成的一个有向图形。

图5是表示将某机器人在抓持有工件的状态下进行移动的动作表现出的概念图形的图。将表示动作的主体的格定义为“AGNT”，将表示动作的主体所具有的物体的格定义为“POSS”，将表示物体的当前的状态的格定义为“ATTR”，将表示受到动作的影响的物体的格定义为“EFCT”。在该情况下，构建出“normal←(ATTR)←workpiece Y←(POSS)←robot A←(AGNT)←move→(EFCT)→workpiece Z”这样的图形。该图形表现出“如果机器人A持有以正常的状态抓持的工件Y而移动，则会与工件Z发生干涉”这样的一个状态。

语义网络匹配部75基于第1机器人2A及第2机器人2B各自的动作程序和第1动作信息及第2动作信息而决定“robot A”、“workpiece Y”、“workpiece Z”、“move”及“normal”这样的具体的各概念节点的值(S13)。

与第1机器人2A及第2机器人2B各自的有限个种类的各个动作有关的概念图形的帧事先设定于语义网络匹配部75。例如，在相当于“move”的移动动作中检测出错误的情况下取得使用“AGNT”、“POSS”、“ATTR”及“EFCT”的格的帧(frame)，但事先设定于语义网络匹配部75。

语义网络匹配部75提取表示“无法正确地抓持工件”、“与其他机器人发生了干涉”或“其他工件成为障碍物”这样的错误的主要原因的节点(S14)。在图5的例子中，语义网络匹配部75作为表示机器人A无法如动作程序那样移动的错误的主要原因的节点而提取“move→(EFCT)→workpiece Z”。

语义网络匹配部75参照表示错误的主要原因的节点，例如对“通过将成为障碍物的工件Z去除而解决错误的状态”这样的解决方案进行选择(S15)。语义网络匹配部75可以如上述的例子那样在对工件进行操作的作业中从事先设定的多个通用解决方案中选择针对错误的主要原因的解决方案。语义网络匹配部75可以在特定的作业中对选择有效的迂回路径这样的没有事先设定的新的解决方案进行选择。

＜评价值计算部76的动作＞

由语义网络匹配部75提取出的节点所示的错误的主要原因，有可能由于基于第1内界传感器4A、第2内界传感器4B及外界传感器5各自的性能所导致的误检测、和对通过第1机器人2A及第2机器人2B实施的作业的成功与否进行判断的边界的模糊不清的一者或两者，以一定的概率不适合于实际的错误。由语义网络匹配部75选择的解决方案仅在适合于实际的错误的情况下有效，因此评价值计算部76对表示错误的主要原因的似然度的评价值进行计算。

评价值计算部76例如使用公知的贝叶斯推断对评价值进行计算。在贝叶斯推断中，使用某现象X发生的事前分布P(X)和得到某动作被执行的情况下的观测值D的似然P(D|X)，通过下式(1)对事后概率P(X|D)进行计算。

P(X|D)＝P(D|X)P(X)/Σ_XP(D|X)P(X) (1)

在实施方式1中，针对语义网络的每个帧的错误的主要原因的事前分布P(X)和在发生了错误的情况下得到的观测值D的似然P(D|X)设定于评价值计算部76。事前分布P(X)可以是根据经验设想的错误的概率，也可以是基于与错误的履历有关的数据的错误的概率。似然P(D|X)可以是事先取得针对第1机器人2A及第2机器人2B的可试行的动作故意地赋予错误的主要原因的情况下的数据而基于该数据确定的，也可以通过参照第1机器人2A及第2机器人2B试行动作时的数据而确定。

评价值计算部76基于取得的观测值D即第1动作信息及第2动作信息，使用上述的式(1)对事后概率P(X|D)进行计算，对表示由语义网络匹配部75提取出的节点所示的错误的主要原因的似然度的评价值进行计算。评价值计算部76在没有取得观测值D的情况下，将事前分布P(X)设为评价值。

例如，关于表示工件的抓持状态的节点表示异常的事前分布，假定P(X＝abnormal)＝0.80和P(X＝normal)＝0.20。准备进行机器人以一定的力将工件推压向抵接面的动作，将机器人推压工件的情况下的由力传感器检测出的值假定为观测值D。力传感器是外界传感器5的例子。关于观测到在抓持状态为正常的情况下超过容许值的力D_S的似然P(D＝D_S|X＝normal)，假定似然P(D＝D_S|X＝normal)＝0.30，并且关于观测到在抓持状态为异常的情况下超过容许值的力D_S的似然P(D＝D_S|X＝abnormal)，假定似然P(D＝D_S|X＝abnormal)＝0.90。

在该情况下，通过上述的式(1)，抓持状态为异常的事后概率成为P(X＝abnormal|D＝D_S)＝(0.90×0.80)÷(0.30×0.20+0.90×0.80)≒0.92。在上述的例子中，在探索动作被执行后得到观测值D，由此表示语义网络所示的抓持状态的异常的错误的主要原因的似然度的评价值从0.80更新为0.92。

＜对策决定部72的动作＞

图6是表示实施方式1所涉及的机器人行动计划系统7所具有的对策决定部72的动作顺序的第1流程图。对策决定部72取得由错误评价部71生成的评价信息所示的评价值(S21)。在实现错误评价部71时使用语义网络的情况下，在步骤S21中，对策决定部72取得由评价值计算部76计算出的评价值。评价值是表示错误的主要原因的似然度的值。

对策决定部72判断评价值是否大于预先决定的阈值(S22)。例如，对策决定部72具有接收由用户输入的阈值而存储的功能，判断评价值是否大于所存储的阈值。例如，用户使用编程工具将阈值输入至机器人行动计划系统7。阈值越大，对策决定部72相对于采用由错误评价部71生成的评价信息所示的解决方案变得越慎重。在对策决定部72使用由用户输入的阈值的情况下，用户能够决定对策决定部72是否采用解决方案时的基准。

对策决定部72在判断为评价值大于阈值的情况下(S22为Yes)，决定为针对错误的对策是由错误评价部71生成的评价信息所示的解决方案(S23)。即，在步骤S23中，对策决定部72采用评价信息所示的解决方案。对策决定部72确定用于从错误的状态恢复的目标，将解决方案和目标输出至规划部73(S24)。

对策决定部72在判断为评价值小于或等于阈值的情况下(S22为No)，判断是否能够执行用于对评价值进行精查的动作(S25)。如上所述，用于对评价值进行精查的动作是“探索动作”，在图6中使用“探索动作”这一用语。例如，在步骤S25中，对策决定部72在机器人系统1的1个周期的作业中执行探索动作的次数少于预先决定的试行次数的情况下，判断为能够执行探索动作。例如，在步骤S25中，对策决定部72在机器人系统1的1个周期的作业中执行探索动作的次数到达试行次数的情况下，判断为无法执行探索动作。

上述的试行次数是用于判断是否能够执行探索动作的数量。例如，对策决定部72具有对由用户输入的试行次数进行接收而存储的功能，使用所存储的试行次数，判断是否能够执行探索动作。具体地说，对策决定部72判断在机器人系统1的1个周期的作业中执行探索动作的次数是否达到所存储的试行次数。在对策决定部72使用由用户输入的试行次数的情况下，用户能够决定对策决定部72判断是否采用使探索动作执行的对策时的基准。

例如，探索动作是将工件以一定的力向抵接面推压而对抓持状态进行确认的动作，或通过照相机从与以前的视点不同的视点进行拍摄而确认干涉状态的动作。如对评价值计算部76进行说明时所述那样，通过探索动作被执行后的观测值，对表示错误的主要原因的似然度的评价值进行更新，对策决定部72再次执行步骤S22的动作时的判断的结果有时会改变。第1动作信息及第2动作信息是观测值的例子。

对策决定部72在判断为能够执行探索动作的情况下(S25为Yes)，决定为针对错误的对策是使探索动作执行的对策，将使探索动作执行的指示输出至调度器74(S26)。

在对策决定部72判断为无法执行探索动作的情况下(S25为No)，决定为针对错误的对策是使第1机器人2A及第2机器人2B的动作停止的对策，将使第1机器人2A及第2机器人2B的动作停止的指示输出至调度器74(S27)。步骤S27的动作是用于将作业中断的动作，且是在无法容许错误的主要原因的不可靠性、无法使第1机器人2A及第2机器人2B执行动作的状况下，直至由人介入而从错误的状态恢复为止用于使第1机器人2A及第2机器人2B在安全的状态停止的动作。例如，将第1动作程序31及第2动作程序31B返回初始状态的动作是用于将作业中断的动作。

如上所述，对策决定部72通过将评价信息所示的评价值和阈值进行比较，从而能够对不使错误的状态恶化的对策进行提示。如根据上述所能够理解那样，在图6的第1流程图所示的例子中，对策决定部72在关于实际上发生的错误的主要原因而不具有把握的情况下，在通过执行探索动作而得到追加的信息后，判断为对存在预见的错误的解决方案进行选择是合理的对策。对策决定部72在用于得到追加的信息的成本比较大的情况下，或在没有预见能够把握错误的主要原因的情况下，相比于胡乱地建立针对错误的行动计划，判断为将第1机器人2A及第2机器人2B重置为初始状态是合理的对策。

图7是表示实施方式1所涉及的机器人行动计划系统7所具有的对策决定部72的动作顺序的第2流程图。对策决定部72可以不执行对是否能够执行使用图6的第1流程图而说明的探索动作进行判断的步骤S25的动作。在该情况下，如图7的第2流程图所示那样，对策决定部72在判断为评价值小于或等于阈值的情况下(S22为No)，决定为针对错误的对策是使第1机器人2A及第2机器人2B的动作停止的对策，将使第1机器人2A及第2机器人2B的动作停止的指示输出至调度器74(S27)。

发生了错误的情况下的第1机器人2A及第2机器人2B的恢复动作有时针对特定的主要原因而有效，另一方面，即使针对其他主要原因而执行，错误也没有消除，或恢复成为更困难的状态。因此，如上所述，对策决定部72基于表示错误的主要原因的似然度的评价值，对后级的规划部73及调度器74的动作进行控制。由此，能够使考虑了自主的恢复动作的效果和风险后的行动计划反映于由第1机器人2A及第2机器人2B执行的动作的调度。

＜规划部73的动作＞

规划部73在接收到从对策决定部72输出的用于从错误的状态恢复的解决方案和目标的情况下，执行用于将为了从错误的状态恢复所需的规划步骤导出的规划。上述的目标是规划步骤的规划的目标。

机器人及人工智能中的规划在定义出成为动作的主体的机器人的状态和作为操作对象的工件的状态的环境中，将使状态从被赋予的初始状态转换至达到目标的状态为止的状态的操作件(Operator)的系列作为规划而生成。在实施方式1中，第1机器人2A及第2机器人2B可取得的动作相当于操作件。构成规划的各个操作件是规划步骤。

将由于发生错误而机器人停止的时刻作为新的初始状态而生成直至达到当初目标的状态为止的规划的方法的例子是公知的偏序规划(Partial Order Planning)的方法。在偏序规划中，在由多个副目标(Sub-Goals)构成的一个规划中，对达到独立的副目标的操作件的执行顺序的任意性进行保持。因此，能够对新导出的规划步骤和已有的规划步骤之间的因果关系进行监视及更新。规划部73生成将直至赋予给第1机器人2A及第2机器人2B的当初的作业的目标的状态被达成为止所需的多个副目标实现的规划步骤和对多个规划步骤的执行的顺序进行限制的信息。

具体地说，规划部73在接收到从对策决定部72输出的目标的情况下，将由于发生错误而第1机器人2A及第2机器人2B的动作停止的时刻设定为新的初始状态，生成表示直至达到当初的目标的状态为止所需的第1机器人2A及第2机器人2B的动作的规划步骤。在此基础上，规划部73生成包含规划步骤和执行规划步骤时的顺序的限制在内的规划。规划部73将生成的规划输出至调度器74。如上所述，规划部73生成用于从错误的状态恢复的规划步骤，由此直至第1机器人2A及第2机器人2B的动作达到当初的作业的目标的状态为止能够对规划进行管理。

＜调度器74的动作＞

调度器74在从规划部73输出规划的情况下，接收规划，满足执行的顺序的限制而生成包含用于恢复的全部规划步骤的调度。调度器74将生成的调度输出至第1控制器3A及第2控制器3B。该调度是第1机器人2A及第2机器人2B的新的动作程序。

调度器74在接收到从对策决定部72输出的使探索动作执行的指示或使第1机器人2A及第2机器人2B的动作停止的指示的情况下，生成包含按照指示的动作的步骤在内的调度，将生成的调度输出至第1控制器3A及第2控制器3B。该调度是第1机器人2A及第2机器人2B的新的动作程序。

从规划部73输出的规划步骤，只要满足执行的顺序的限制，也可以不指定由哪个机器人执行。例如，在需要为了从错误的状态恢复而使成为障碍物的工件移动的规划步骤的情况下，空手的任意的机器人使障碍物移动也能够达成目标。在该情况下，调度器74生成将规划步骤分配给第1机器人2A及第2机器人2B的调度，以使得直至经过恢复的过程而完成当初的目标即作业为止的成本变得最小。

例如，调度器74生成机器人系统1的总作业时间及总消耗能量变得最小的调度。例如，调度器74使用公知的A＊算法(A-star Algorithm)所涉及的最佳调度的方法，生成满足执行的顺序的限制并且与时间及能量有关的成本变得最小的调度。A＊算法是图形探索算法。在最佳调度的问题中，将多个规划步骤各自分配给任意的机器人作为状态节点的转换处理。

例如，将从出发时的节点至达到当前的节点为止所需的成本与从当前的节点至达到目标的节点为止所推定的成本之和作为启发式函数，将直至目标的节点为止的总成本变得最小的路径导出。在实施方式1中，例如能够将与规划步骤相对应的机器人的动作的执行时间定义为成本。

在某规划步骤被分配给第1机器人2A和第2机器人2B之中的能够动作的任意的机器人的情况下，将该规划步骤的动作完成的时刻定义为直至达到当前的节点为止所需的成本。在假设在该时刻仍没有分配的规划步骤在任意的机器人都没有发生等待时间而被分配的情况下，将全部规划步骤完成的时刻和在该时刻分配完成的规划步骤完成的时刻的差分定义为直至达到目标的节点为止所推定的成本。

实际上，由于特定的步骤的动作在直至其他的步骤的动作完成为止无法执行这一顺序的限制，可能产生机器人的等待时间。在上述的设定中，调度器74在探索动作的各步骤中使节点行进至上述的启发式函数变得最小的状态，由此能够生成将全部规划步骤的动作完成为止的时间设为最小的调度。

如上所述，调度器74在将所需的规划步骤分配给第1机器人2A及第2机器人2B的情况下，能够生成满足被执行的动作顺序的限制，并且直至第1机器人2A及第2机器人2B的动作完成为止的时间及能量的成本变得最小的调度。第1机器人2A及第2机器人2B是多个机器人的例子，第1机器人2A或第2机器人2B是发生错误的机器人。

此外，在进行作业的机器人仅1台的情况下，从规划部73输出的规划步骤分配给该1台机器人，因此其他机器人在直至特定的规划步骤的动作完成为止等待的等待时间没有产生。在该情况下，调度器74例如将向多个地点移动的顺序设为优化的对象，生成总移动时间或总移动距离变得最小的调度而作为最佳的调度。

用于生成满足执行的顺序的限制并且将特定的评价函数设为最大或最小的调度的方法并不限定于A＊算法。也可以取代A＊算法，而是使用公知的组合优化方法即遗传算法(Genetic Algorithm)、粒子群优化(Particle Swarm Optimization、PSO)或贝叶斯优化(Bayesian Optimization)。

例如，在使用遗传算法的情况下，调度器74将规划步骤随机地分配给第1机器人2A及第2机器人2B的调度生成多个而作为初始状态，在满足顺序的限制的调度中将评价值最好的作为母体而生成下一代的调度的候选这一步骤重复预先决定的次数。由此，调度器74能够对最好的调度进行探索。

＜错误评价部71的其他结构＞

在上述例子中，在考虑检测出的错误的主要原因的不可靠性而将用于从错误的状态恢复的调度导出时，对策决定部72基于由语义网络示出的表示错误的主要原因的似然度的评价值，进行用于决定针对错误的对策的判定。

对由对策决定部72用于进行判定所需的评价值进行计算的错误评价部71的结构，并不限定于具有上述的语义网络匹配部75和评价值计算部76的结构。错误评价部71在对评价值进行计算的情况下，可以使用将具有依存关系的现象通过图形构造表现并且通过带条件的概率对变量的关系进行评价的方法。例如，错误评价部71可以构建公知的贝叶斯网络(Bayesian Network)或决定树(Decision Tree)而基于观测信息对错误的主要原因进行评价。

错误评价部71在对评价值进行计算的情况下，可以对检测出错误时的状态从事先学习的正常系统发生何种乖离进行判断而对表示错误的主要原因的似然度的评价值进行计算。在该情况下，错误评价部71可以使用公知的高斯过程(Gaussian Process)或神经网络(Neural Network)。

如上所述，实施方式1所涉及的机器人行动计划系统7在第1机器人2A和第2机器人2B之中的一者或两者发生错误而第1机器人2A及第2机器人2B的动作停止的情况下，基于表示错误的主要原因的似然度的评价值而决定针对错误的对策。机器人行动计划系统7在决定为对策是表示评价值的评价信息所示的解决方案的情况下，按照该解决方案而生成表示第1机器人2A及第2机器人2B的动作顺序的规划步骤，按照规划步骤而生成用于使第1机器人2A及第2机器人2B重新开始动作的调度。机器人行动计划系统7在基于评价值而决定出的对策是使用于对评价值进行精查的动作执行的对策的情况下，按照使用于对评价值进行精查的动作执行的对策而生成与第1机器人2A及第2机器人2B的动作相关的调度。

在生成按照上述的解决方案的调度的情况下，错误被消除而第1机器人2A及第2机器人2B重新开始动作。在按照使用于对上述的评价值进行精查的动作执行的对策而生成调度的情况下，评价值被修正，由此有可能将错误消除。即，如果使用机器人行动计划系统7，则在第1机器人2A和第2机器人2B之中的一者或两者发生了错误的情况下，人不承受负担而错误有可能解决。即，机器人行动计划系统7能够使第1机器人2A和第2机器人2B之中的一者或两者发生了错误的情况下的机器人系统1的运转率提高。

在上述的实施方式1中，机器人系统1具有第1机器人2A及第2机器人2B这2台机器人。但是，机器人系统1也可以仅具有1台机器人。具体地说，机器人系统1可以仅具有第1机器人2A。机器人系统1在仅具有第1机器人2A的情况下，可以仅具有第1控制器3A，不具有第2控制器3B。机器人系统1在仅具有第1机器人2A的情况下，可以仅具有第1内界传感器4A，不具有第2内界传感器4B。

机器人系统1可以具有大于或等于3台机器人，也可以具有大于或等于3个控制器，也可以具有大于或等于3个内界传感器，也可以具有大于或等于2个外界传感器。

在机器人系统1仅具有第1机器人2A的情况下，在机器人行动计划系统7中，错误评价部71在第1机器人2A中发生错误而第1机器人2A的动作停止的情况下，基于表示第1机器人2A的动作的状态的信息，生成错误的主要原因、表示该主要原因的似然度的评价值和表示针对该主要原因可采取的解决方案的评价信息。对策决定部72关于第1机器人2A，基于由错误评价部71生成的评价信息所示的评价值而决定针对错误的对策。

规划部73在由对策决定部72决定的对策是评价信息所示的解决方案的情况下，按照该解决方案而生成表示第1机器人2A的动作顺序的规划步骤。调度器74在由规划部73生成规划步骤的情况下，按照规划步骤而生成用于使第1机器人2A重新开始动作的调度。调度器74在由对策决定部72决定的对策是使用于对评价值进行精查的动作执行的对策或使第1机器人2A的动作停止的对策的情况下，按照由对策决定部72决定的对策而生成与第1机器人2A的动作相关的调度。

语义网络匹配部75构建能够对与第1机器人2A的动作的种类相对应的错误进行记述的语义网络而提取错误的主要原因。评价值计算部76取得成为该主要原因的根据的观测信息，基于观测信息和由语义网络匹配部75提取出的主要原因对评价值进行计算。观测信息是表示第1机器人2A的动作的状态的信息。

对策决定部72在决定针对错误的对策的情况下，首先，判断评价值是否大于预先决定的阈值。对策决定部72在判断为评价值大于阈值的情况下，决定为对策是由评价信息表示的解决方案。对策决定部72在判断为评价值小于或等于阈值的情况下，判断是否能够执行用于对评价值进行精查的动作。

对策决定部72在判断为能够执行用于对评价值进行精查的动作的情况下，决定为对策是使用于对评价值进行精查的动作执行的对策。对策决定部72在判断为无法执行用于对评价值进行精查的动作的情况下，决定为对策是使第1机器人2A的动作停止的对策。

对策决定部72在判断为评价值大于阈值的情况下，不判断是否能够执行用于对评价值进行精查的动作，就可以决定为对策是使第1机器人2A的动作停止的对策。

对策决定部72具有接收上述的阈值和试行次数而存储的功能，该试行次数是用于判断是否能够执行用于对评价值进行精查的动作的试行次数，且是被第1机器人2A许可的动作的试行次数。在该情况下，对策决定部72判断评价值是否大于所存储的阈值，使用所存储的试行次数，判读是否能够执行用于对评价值进行精查的动作。

对策决定部72可以具有将规划步骤的规划的目标输出至规划部73的功能。在该情况下，规划部73在接收到从对策决定部72输出的目标时，将由于发生错误而第1机器人2A的动作停止的时刻设定为新的初始状态，生成表示直至达到当初的目标状态为止所需的第1机器人2A的动作的规划步骤，并且生成包含规划步骤和执行规划步骤时的顺序的限制在内的规划。

错误检测部6可以事先学习能够基于由第1内界传感器4A及外界传感器5检测出的值对异常进行诊断的神经网络。在该情况下，错误检测部6在第1机器人2A执行动作时，使用神经网络，基于由第1内界传感器4A及外界传感器5检测出的值，对在第1机器人2A中发生的错误进行检测。

实施方式2.

图8是表示实施方式2所涉及的机器人系统1A的结构的图。在实施方式2中，主要对与实施方式1的差异点进行说明。机器人系统1A取代实施方式1所涉及的机器人系统1所具有的第1控制器3A，而是具有第1控制器3C，取代机器人系统1所具有的第2控制器3B，而是具有第2控制器3D。第1控制器3C及第2控制器3D各自具有实施方式1所涉及的机器人系统1所具有的机器人行动计划系统7。

第1控制器3C具有第1通信部32A，该第1通信部32A对第1动作程序31A进行存储，并且与第2控制器3D进行通信。第2控制器3D具有第2通信部32B，该第2通信部32B对第2动作程序31B进行存储，并且与第1控制器3C进行通信。

在实施方式2中，错误检测部6在检测出第1机器人2A和第2机器人2B之中的一者的机器人中的错误的情况下，向对检测出错误的机器人输出指令的控制器输出第1动作信息及第2动作信息。例如，错误检测部6在检测出第1机器人2A中的错误的情况下，向第1控制器3C输出第1动作信息及第2动作信息。接收到第1动作信息及第2动作信息的控制器所具有的机器人行动计划系统7以实施方式1中说明的方式生成调度。

在第1机器人2A中发生了错误的情况下，第1控制器3C所具有的机器人行动计划系统7将生成的调度输出至第1通信部32A。第1通信部32A对从机器人行动计划系统7输出的调度进行接收，将接收到的调度输出至第2控制器3D所具有的第2通信部32B。在第2机器人2B中发生了错误的情况下，第2控制器3D所具有的机器人行动计划系统7将生成的调度输出至第2通信部32B。第2通信部32B对从机器人行动计划系统7输出的调度进行接收，将接收到的调度输出至第1控制器3C所具有的第1通信部32A。

由机器人行动计划系统7生成的调度有时对第1机器人2A及第2机器人2B各自的动作程序进行变更。因此，第1通信部32A将由第1控制器3C所具有的机器人行动计划系统7生成的调度输出至第2通信部32B。第2通信部32B将由第2控制器3D所具有的机器人行动计划系统7生成的调度输出至第1通信部32A。由此，第1控制器3C及第2控制器3D各自能够共享同一调度。其结果，第1动作程序31A及第2动作程序31B同步地变更。

即，在实施方式2中，仅向对由错误检测部6检测出第1机器人2A和第2机器人2B之中的错误的机器人输出指令的控制器输出第1动作信息及第2动作信息，但实施方式2所涉及的机器人系统1A能够将第1动作程序31A及第2动作程序31B同步地变更。

在上述的实施方式2中，如图8所示那样，第1控制器3C及第2控制器3D各自具有机器人行动计划系统7。但是，也可以是仅第1控制器3C和第2控制器3D之中的一者的控制器具有机器人行动计划系统7。在该情况下，第1通信部32A和第2通信部32B进行通信，由此由机器人行动计划系统7生成的调度也被第1控制器3C及第2控制器3D共享。其结果，第1动作程序31A及第2动作程序31B同步地变更。

此外，机器人系统1A可以具有大于或等于3台机器人和大于或等于3个控制器。在该情况下，大于或等于3台机器人各自与任意的1个控制器相对应，大于或等于3个控制器各自与任意的1台机器人相对应，各控制器控制对应的机器人。在此基础上，可以是大于或等于3个控制器各自具有通信部，大于或等于3个控制器之中的仅一个控制器具有机器人行动计划系统7。在上述的情况下，多个通信部各自进行由机器人行动计划系统7生成的调度的通信，该调度被全部控制器共享。即，各控制器所具有的动作程序同步地变更。

实施方式3.

图9是表示实施方式3所涉及的机器人作业验证系统8的结构的图。机器人作业验证系统8具有实施方式1所涉及的机器人行动计划系统7和机器人模拟器9。机器人模拟器9具有能够将实施方式1所涉及的机器人系统1所具有的第1机器人2A、第2机器人2B、第1控制器3A、第2控制器3B、第1内界传感器4A、第2内界传感器4B、外界传感器5及错误检测部6的功能模拟地实现的模块。机器人模拟器9将第1机器人2A及第2机器人2B的作业环境构建于假想空间。

机器人模拟器9取代由第1机器人2A及第2机器人2B实际上执行动作的情况下的动作信息，而是生成由第1机器人2A及第2机器人2B虚拟地执行动作的情况下的信息即假想动作信息，将生成的假想动作信息输出至机器人行动计划系统7。在实施方式3中，机器人行动计划系统7对从机器人模拟器9输出的假想动作信息进行接收，基于假想动作信息而生成调度。机器人模拟器9将由机器人行动计划系统7生成的调度在假想空间执行，对该调度进行验证。

机器人作业验证系统8具有从用户对假想动作信息进行接收的接收部10。在用户将假想动作信息输入至机器人作业验证系统8而由接收部10接收到输入的假想动作信息的情况下，机器人模拟器9将由接收部10接收到的假想动作信息输出至机器人行动计划系统7。机器人行动计划系统7基于假想动作信息而生成调度。机器人模拟器9对由机器人行动计划系统7生成的调度进行验证。即，机器人作业验证系统8能够对基于由用户输入的假想动作信息的调度进行验证。

机器人作业验证系统8具有显示部11，该显示部11对由机器人模拟器9进行验证而得到的结果进行显示。用户通过对由显示部11显示出的结果进行视觉识别，从而能够对由机器人模拟器9进行的验证的结果进行识别。显示部11的例子是液晶显示装置。

如上所述，实施方式3所涉及的机器人作业验证系统8验证针对假想的机器人中的错误而生成的调度。即，机器人作业验证系统8不使用实际的机器人，就能够验证针对假想的机器人中的错误而生成的调度。

实施方式4.

图10是表示实施方式4所涉及的机器人行动计划系统7A的结构的图。机器人行动计划系统7A具有实施方式1所涉及的机器人行动计划系统7所具有的错误评价部71和对策决定部72。机器人行动计划系统7A取代机器人行动计划系统7所具有的规划部73，而是还具有与机器人模拟器12进行通信的功能的规划部73A。规划部73A具有规划部73所具有的功能。在图10还示出了机器人模拟器12。机器人模拟器12是将为了从错误的状态恢复所需的动作虚拟地实现的装置。

机器人行动计划系统7A取代机器人行动计划系统7所具有的调度器74，而是还具有调度器74A，该调度器74A具有与机器人模拟器12进行通信的功能。调度器74A具有调度器74所具有的功能。在实施方式4中，主要对与在实施方式1中说明的机器人行动计划系统7的功能不同的功能进行说明。

机器人模拟器12是在假想空间使与执行动作的机器人相当的模型动作的装置。在图10没有示出实施方式1所涉及的机器人系统1所具有的第1控制器3A及第2控制器3B，但机器人模拟器12可以设置于第1控制器3A和第2控制器3B之中的一者或两者的控制器的内部，也可以设置于第1控制器3A及第2控制器3B的外部。同样地，机器人模拟器12可以设置于实施方式2中的第1控制器3C和第2控制器3D之中的一者或两者的控制器的内部，也可以设置于第1控制器3C及第2控制器3D的外部。机器人模拟器12可以是实施方式3所涉及的机器人作业验证系统8所具有的机器人模拟器9。

实施方式1中的规划部73通过将在规划部73预先定义出的操作件组合，从而示出达到目标的状态的规划步骤。实施方式4中的规划部73A进行经由机器人模拟器12的机器学习，由此新获得从对策决定部72输出的为了达到特定的规划的目标所需的操作件。例如，规划部73A使用公知的强化学习(Reinforcement Learning)而获得所需的操作件。

在使用模拟器的强化学习中，接收在机器人通过试行错误而在作业环境达到特定的状态的情况下预先定义出的回报，由此获得将希望的状态以最小的成本达成的动作。规划部73A直至达到预先决定的最大试行次数为止与机器人模拟器12进行通信而在假想空间使相当于机器人的模型动作，由此获得用于从当前的状态转换为从对策决定部72输出的目标的状态的操作件。

例如，规划部73A针对“将成为障碍物的工件Z去除”这一目标，获得达到将工件Z去除后的状态的机器人的各关节的动作方式，在此后接收到相同目标的情况下，使用已获得的操作件。如上所述，规划部73A经由机器人模拟器12而进行学习，在接收到从对策决定部72输出的目标的情况下，获得用于达到该目标的动作。规划部73A在发生了相同错误的情况下，能够使用已经获得的操作件。

调度器74在生成将某评价函数设为最大或最小的调度的过程中与机器人模拟器12进行通信。实施方式1中的调度器74使用在调度器74预先定义出的动作的成本而生成将评价函数设为最大或最小的调度。调度器74A基于由将为了从错误的状态恢复所需的动作虚拟地实现的机器人模拟器12计算出的表示作业时间及消耗能量的成本的值，生成将评价函数设为最大或最小的调度。

如上所述，实施方式4所涉及的机器人行动计划系统7A基于由机器人模拟器12得到的验证的结果，能够对新的动作的获得及动作的成本进行评价。

图11是表示实施方式1所涉及的机器人行动计划系统7所具有的错误评价部71、对策决定部72、规划部73及调度器74的至少一部分的功能由处理器91实现的情况下的处理器91的图。即，错误评价部71、对策决定部72、规划部73及调度器74的至少一部分的功能可以由执行在存储器92中储存的程序的处理器91实现。处理器91是CPU(Central ProcessingUnit)、处理装置、运算装置、微处理器或DSP(Digital Signal Processor)。在图11还示出了存储器92。

在错误评价部71、对策决定部72、规划部73及调度器74的至少一部分的功能由处理器91实现的情况下，该至少一部分的功能通过处理器91和软件、固件或软件及固件的组合而实现。软件或固件作为程序被记述，储存于存储器92。处理器91将在存储器92中存储的程序读出而执行，由此实现错误评价部71、对策决定部72、规划部73及调度器74的至少一部分的功能。

在错误评价部71、对策决定部72、规划部73及调度器74的至少一部分的功能由处理器91实现的情况下，机器人行动计划系统7具有存储器92，该存储器92用于对由错误评价部71、对策决定部72、规划部73及调度器74执行的步骤的至少一部分最终得以执行的程序进行储存。在存储器92储存的程序可以说是使计算机执行由错误评价部71、对策决定部72、规划部73及调度器74执行的顺序或方法的至少一部分。

存储器92例如是RAM(Random Access Memory)、ROM(Read Only Memory)、闪存、EPROM(Erasable Programmable Read Only Memory)、EEPROM(注册商标)(ElectricallyErasable Programmable Read-Only Memory)等非易失性或者易失性的半导体存储器、磁盘、软盘、光盘、压缩盘、迷你盘或DVD(Digital Versatile Disk)等。

图12是表示实施方式1所涉及的机器人行动计划系统7所具有的错误评价部71、对策决定部72、规划部73及调度器74的至少一部分由处理电路93实现的情况下的处理电路93的图。即，错误评价部71、对策决定部72、规划部73及调度器74的至少一部分可以由处理电路93实现。

处理电路93是专用的硬件。处理电路93例如是单一电路、复合电路、被程序化的处理器、被并行程序化的处理器、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)或它们的组合。

关于错误评价部71、对策决定部72、规划部73及调度器74所具有的多个功能，可以将该多个功能的一部分通过软件或固件实现，将该多个功能的剩余部通过专用的硬件实现。如上所述，错误评价部71、对策决定部72、规划部73及调度器74所具有的多个功能能够通过硬件、软件、固件或它们的组合而实现。

实施方式1所涉及的机器人系统1所具有的第1控制器3A、第2控制器3B、第1内界传感器4A、第2内界传感器4B、外界传感器5及错误检测部6的至少一部分的功能可以由执行在存储器中储存的程序的处理器实现。该存储器对由第1控制器3A、第2控制器3B、第1内界传感器4A、第2内界传感器4B、外界传感器5及错误检测部6执行的程序步的至少一部分最终得以执行的程序进行储存。

实施方式1所涉及的机器人系统1所具有的第1控制器3A、第2控制器3B、第1内界传感器4A、第2内界传感器4B、外界传感器5及错误检测部6的至少一部分可以由具有与上述的处理电路93同等的功能的处理电路实现。

实施方式2所涉及的机器人系统1A所具有的第1控制器3C及第2控制器3D的至少一部分的功能可以由执行在存储器中储存的程序的处理器实现。该存储器对由第1控制器3C及第2控制器3D执行的程序步的至少一部分最终得以执行的程序进行储存。第1控制器3C及第2控制器3D的至少一部分可以由具有与上述的处理电路93同等的功能的处理电路实现。

实施方式3所涉及的机器人作业验证系统8所具有的机器人模拟器9及接收部10的至少一部分的功能可以由执行在存储器中储存的程序的处理器实现。该存储器对由机器人模拟器9及接收部10执行的程序步的至少一部分最终得以执行的程序进行储存。机器人模拟器9及接收部10的至少一部分可以由具有与上述的处理电路93同等的功能的处理电路实现。

实施方式4所涉及的机器人行动计划系统7A所具有的规划部73A及调度器74A的至少一部分的功能可以由执行在存储器中储存的程序的处理器实现。该存储器对由规划部73A及调度器74A执行的程序步的至少一部分最终得以执行的程序进行储存。规划部73A及调度器74A的至少一部分可以由具有与上述的处理电路93同等的功能的处理电路实现。

实施方式4中的机器人模拟器12的至少一部分的功能可以由执行在存储器中储存的程序的处理器实现。该存储器对由机器人模拟器12执行的程序步的至少一部分最终得以执行的程序进行储存。机器人模拟器12的至少一部分可以由具有与上述的处理电路93同等的功能的处理电路实现。

以上的实施方式所示的结构，表示本发明的内容的一个例子，也能够与其他公知技术进行组合，在不脱离本发明的主旨的范围，也能够对结构的一部分进行省略、变更。

标号的说明

1、1A机器人系统，2A第1机器人，2B第2机器人，3A、3C第1控制器，3B、3D第2控制器，4A第1内界传感器，4B第2内界传感器，5外界传感器，6错误检测部，7、7A机器人行动计划系统，8机器人作业验证系统，9、12机器人模拟器，10接收部，11显示部，31A第1动作程序，31B第2动作程序，32A第1通信部，32B第2通信部，71错误评价部，72对策决定部，73、73A规划部，74、74A调度器，75语义网络匹配部，76评价值计算部，91处理器，92存储器，93处理电路。

Claims

1.一种机器人行动计划系统，其特征在于，具有：

错误评价部，其在机器人中发生错误而所述机器人的动作停止的情况下，基于表示所述机器人的动作的状态的信息，生成所述错误的主要原因、表示所述主要原因的似然度的评价值、和表示针对所述主要原因可采取的解决方案的评价信息；

对策决定部，其基于由所述错误评价部生成的所述评价信息所示的所述评价值，决定针对所述错误的对策；

规划部，其在由所述对策决定部决定的所述对策是所述评价信息所示的所述解决方案的情况下，按照所述解决方案而生成表示所述机器人的动作顺序的规划步骤；以及

调度器，其在由所述规划部生成所述规划步骤的情况下，按照所述规划步骤而生成用于使所述机器人重新开始动作的调度，在由所述对策决定部决定的所述对策是使用于对所述评价值进行精查的动作执行的对策或使所述机器人的动作停止的对策的情况下，按照由所述对策决定部决定的所述对策而生成与所述机器人的动作相关的调度。

2.根据权利要求1所述的机器人行动计划系统，其特征在于，

所述错误评价部具有：

语义网络匹配部，其构建能够对与所述机器人的动作的种类相对应的错误进行记述的语义网络而提取所述主要原因；以及

评价值计算部，其取得成为所述主要原因的根据的观测信息，基于所述观测信息和由所述语义网络匹配部提取出的所述主要原因，对所述评价值进行计算，

所述观测信息是表示所述机器人的动作的状态的信息。

3.根据权利要求1所述的机器人行动计划系统，其特征在于，

所述对策决定部，

判断所述评价值是否大于预先决定的阈值，

在判断为所述评价值大于所述阈值的情况下，决定为所述对策是所述评价信息所示的所述解决方案，

在判断为所述评价值小于或等于所述阈值的情况下，判断是否能够执行用于对所述评价值进行精查的动作，

在判断为能够执行用于对所述评价值进行精查的动作时，决定为所述对策是使用于对所述评价值进行精查的动作执行的对策，

在判断为无法执行用于对所述评价值进行精查的动作时，决定为所述对策是使所述机器人的动作停止的对策、或决定为所述对策是使所述机器人的动作停止的对策。

4.根据权利要求3所述的机器人行动计划系统，其特征在于，

所述对策决定部具有下述功能：接收所述阈值和试行次数而存储，该试行次数是用于判断是否能够执行用于对所述评价值进行精查的动作的试行次数且是被所述机器人许可的动作的试行次数，

判断所述评价值是否大于所存储的所述阈值，

使用所存储的所述试行次数，判断是否能够执行用于对所述评价值进行精查的动作。

5.根据权利要求1所述的机器人行动计划系统，其特征在于，

所述对策决定部具有下述功能：将所述规划步骤的规划的目标输出至所述规划部，

所述规划部在接收到从所述对策决定部输出的所述目标的情况下，将由于发生所述错误而所述机器人的动作停止的时刻设定为新的初始状态，生成表示直至达到当初的目标的状态为止所需的所述机器人的动作的所述规划步骤，并且生成包含所述规划步骤和执行所述规划步骤时的顺序的限制在内的规划。

6.根据权利要求5所述的机器人行动计划系统，其特征在于，

所述规划部经由通过假想空间使与执行动作的机器人相当的模型动作的机器人模拟器而进行学习，在接收到从所述对策决定部输出的所述目标的情况下，获得用于达到所述目标的动作。

7.根据权利要求1所述的机器人行动计划系统，其特征在于，

所述调度器在将所需的规划步骤分配给多个机器人的情况下，生成满足被执行的动作顺序的限制，并且直至所述多个机器人的动作完成为止的时间及能量的成本变得最小的调度，

所述多个机器人之中的一个机器人是发生错误的所述机器人。

8.一种机器人系统，其特征在于，具有：

权利要求1至7中任一项所述的机器人行动计划系统；

所述机器人，其执行动作；

控制器，其基于由所述机器人行动计划系统生成的所述调度，将与所述机器人的动作有关的指令输出至所述机器人；

内界传感器，其对所述机器人的内部的状态进行观测；

外界传感器，其对所述机器人的外部的状态进行观测；以及

错误检测部，其基于由所述内界传感器及所述外界传感器检测出的值，对在所述机器人中发生错误时的所述错误进行检测。

9.根据权利要求8所述的机器人系统，其特征在于，

所述错误检测部对神经网络进行学习，使用所述神经网络对所述错误进行检测，该神经网络基于由所述内界传感器及所述外界传感器检测出的值能够对异常进行诊断。

10.一种机器人作业验证系统，其特征在于，具有：

权利要求1至7中任一项所述的机器人行动计划系统；

机器人模拟器，其对由所述机器人行动计划系统生成的所述调度进行验证，

所述机器人是假想的机器人。

11.一种机器人行动计划方法，其特征在于，包含下述步骤：

在机器人中发生错误而所述机器人的动作停止的情况下，基于表示所述机器人的动作的状态的信息，生成所述错误的主要原因、表示所述主要原因的似然度的评价值、和表示针对所述主要原因可采取的解决方案的评价信息；

基于生成的所述评价信息所示的所述评价值，决定针对所述错误的对策；

在决定的所述对策是所述评价信息所示的所述解决方案的情况下，按照所述解决方案而生成表示所述机器人的动作顺序的规划步骤；以及

在生成所述规划步骤的情况下，按照所述规划步骤而生成用于使所述机器人重新开始动作的调度，在决定的所述对策是使用于对所述评价值进行精查的动作执行的对策或使所述机器人的动作停止的对策的情况下，按照决定的所述对策而生成与所述机器人的动作相关的调度。