CN109382825A - 控制装置以及学习装置 - Google Patents

控制装置以及学习装置 Download PDF

Info

Publication number
CN109382825A
CN109382825A CN201810896937.XA CN201810896937A CN109382825A CN 109382825 A CN109382825 A CN 109382825A CN 201810896937 A CN201810896937 A CN 201810896937A CN 109382825 A CN109382825 A CN 109382825A
Authority
CN
China
Prior art keywords
mentioned
robot
state
people
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810896937.XA
Other languages
English (en)
Other versions
CN109382825B (zh
Inventor
松平哲郎
井上周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of CN109382825A publication Critical patent/CN109382825A/zh
Application granted granted Critical
Publication of CN109382825B publication Critical patent/CN109382825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • B25J13/085Force or torque sensors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/06Safety devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1674Programme controls characterised by safety, monitoring, diagnostic
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1674Programme controls characterised by safety, monitoring, diagnostic
    • B25J9/1676Avoiding collision or forbidden zones
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40198Contact with human allowed if under pain tolerance limit

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种控制装置以及学习装置。输出对机器人的指令的控制装置具备学习对机器人的指令的机器学习装置。上述机器学习装置具备:状态观测部,其观测机器人的状态以及存在于上述机器人的周边区域的人的状态,作为表示环境的当前状态的状态变量;判定数据获取部,其获取表示机器人和人的干扰状态的判定数据;以及学习部,其使用状态变量和判定数据,将机器人的状态以及存在于机器人的周边区域的人的状态与对机器人的指令关联起来进行学习。

Description

控制装置以及学习装置
技术领域
本发明涉及控制装置以及学习装置,尤其涉及能够在人接近机器人的情况下将机器人的动作最佳化的控制装置以及学习装置。
背景技术
若人进入机器人的作业区域,则以往的控制装置进行停止机器人的动作、或者移至安全速度继续进行动作的控制,以免机器人撞上人。例如,在日本特开2012-040626号公报记载有由力传感器检测机器人和人接触,并进行防止产生过大的力的控制的技术。
然而,根据以往这样的控制,在人进入机器人的作业区域的情况下机器人的生产性降低。在这样的情况下,若例如变更机器人的轨道以不撞上人,或者若没有撞上人的危险则不使速度降低等,机器人能够安全并且高效地继续作业,则应该能够抑制生产性的降低。
发明内容
本发明是为了解决这样的问题点而完成的,其目的在于提供一种能够在人接近的情况下将机器人的动作最佳化的控制装置以及学习装置。
本发明的一个实施方式所涉及的控制装置是输出对机器人的指令的控制装置,其特征在于,该控制装置具备学习对上述机器人的指令的机器学习装置,上述机器学习装置具备:状态观测部,其观测上述机器人的状态以及存在于上述机器人的周边区域的人的状态,作为表示环境的当前状态的状态变量;判定数据获取部,其获取表示上述机器人和上述人的干扰状态的判定数据;以及学习部,其使用上述状态变量和上述判定数据,将上述机器人的状态以及存在于上述机器人的周边区域的人的状态与对上述机器人的指令关联起来进行学习。
本发明的一个实施方式所涉及的控制装置,其特征在于,上述状态变量包括上述机器人的机械手的姿势以及移动速度作为表示上述机器人的状态的数据,且包括上述人的侵入方向以及活动路线作为表示上述人的状态的数据。
本发明的一个实施方式所涉及的控制装置,其特征在于,上述判定数据包括机器人与人的碰撞的有无、机器人与人的相对距离、碰撞时的力的大小、吞吐量中的至少某一个。
本发明的一个实施方式所涉及的控制装置,其特征在于,上述学习部具备:回报计算部,其求出与上述机器人和上述人的干扰状态相关的回报;价值函数更新部,其使用上述回报更新表示针对上述机器人的状态以及存在于上述机器人的周边区域的上述人的状态的、对上述机器人的指令的价值的函数。
本发明的一个实施方式所涉及的控制装置,其特征在于,上述学习部利用多层结构运算上述状态变量和上述判定数据。
本发明的一个实施方式所涉及的控制装置,其特征在于,该控制装置还具备决策部,该决策部基于上述学习部的学习结果,输出表示对上述机器人的指令的指令值。
本发明的一个实施方式所涉及的控制装置,其特征在于,上述学习部使用从多个机器人得到的上述状态变量以及上述判定数据,来学习对上述机器人的指令。
本发明的一个实施方式所涉及的控制装置,其特征在于,上述机器学习装置存在于云服务器。
本发明的一个实施方式所涉及的学习装置是学习对机器人的指令的学习装置,其特征在于,该学习装置具备:状态观测部,其观测上述机器人的状态以及存在于上述机器人的周边区域的人的状态,作为表示环境的当前状态的状态变量;判定数据获取部,其获取表示上述机器人和上述人的干扰状态的判定数据;以及学习部,其使用上述状态变量和上述判定数据,将上述机器人的状态以及存在于上述机器人的周边区域的人的状态与对上述机器人的指令关联起来进行学习。
根据本发明,能够提供在人接近的情况下能够将机器人的动作最佳化的控制装置以及学习装置。
附图说明
根据参照附图的以下的实施例的说明,本发明的上述以及其他的目的和特征变得清楚。
图1是表示控制装置的一个方式的示意性的功能框图。
图2是表示控制装置的一个方式的示意性的功能框图。
图3是表示机器学习方法的一个方式的流程图。
图4A是表示机器学习方法的一个方式的流程图。
图4B是表示机器学习方法的一个方式的流程图。
图5A是对神经元进行说明的图。
图5B是对神经网络进行说明的图。
图6是表示控制装置的一个方式的示意性的功能框图。
图7是表示组装有控制装置的系统的一个方式的示意性的功能框图。
图8是表示组装有控制装置的系统的一个方式的示意性的功能框图。
具体实施方式
<实施方式1>
以下,使用附图对本发明的实施方式进行说明。本发明的实施方式所涉及的控制装置1的特征在于,使人接近正在进行作业的机器人时的对机器人的指令最佳化。对机器人的指令例如包含有与速度的选择有关的指令(速度继续、减速、停止)以及与轨道的选择有关的指令(到目的地的轨道、按右转或者左转区分)。本实施方式的控制装置1利用机器学习作为使对机器人的指令最佳化的手段。
此外,本实施方式所涉及的控制装置1在人撞上或者接近时,将能够减速或者停止的机器人作为控制对象。例如,包含有协作机器人(限制输出以不伤害人的机器人)。机器人既可以是移动机器人,也可以是自身不进行移动的机械手。
使用图1的框图对控制装置1的构成进行说明。控制装置1包括机器学习装置100。机器学习装置100包括用于通过所谓的机器学习自学针对机器人的状态以及存在于机器人的周边区域的人的状态的、对机器人的指令的软件(学习算法等)以及硬件(处理器等)。该情况下,控制装置1所具备的机器学习装置100学习的内容相当于表示机器人的状态以及存在于机器人的周边区域的人的状态与对机器人的指令的相关性的模型结构。
如图1中功能模块所示那样,控制装置1所具备的机器学习装置100具备:状态观测部106,其观测机器人的状态以及存在于机器人的周边区域的人的状态作为表示环境的当前状态的状态变量S;判定数据获取部108,其获取机器人与人的干扰状态作为判定数据D;以及学习部110,其使用状态变量S和判定数据D,将机器人的状态以及存在于机器人的周边区域的人的状态与对机器人的指令关联起来进行学习。
状态观测部106能够构成为例如控制装置1所具备的处理器的一个功能。或者,状态观测部106能够构成为例如用于使处理器发挥作用的软件。
状态变量S中的机器人的状态是表示动作中的机器人的状态的数据,包含有机器人的机械手的姿势(关节的角度的组合)、移动速度。另外,能够包含有机器人的位置、搬运工件的位置等。这些均是控制装置1通过机器人内部的传感器等能够直接观测的数据。控制装置1例如能够在每个控制周期获取这些数据,并输入到状态观测部106。或者,也可以在预定的时间每隔恒定时间获取这些数据,输入该时间序列数据的集合作为状态变量S。
状态变量S中的存在于机器人的周边区域的人的状态是表示在机器人的作业区域(或者包括机器人的作业区域的任意的区域)内存在的人的状态的数据,例如包含有侵入作业区域的人的侵入方向(从哪里侵入)、活动路线(以怎样的路径移动)。另外,能够包含有人的位置、速度、外观(衣服的类型(工作服或西装等)、帽子的颜色、配件类型、面部、ID的记载事项等)、携带物品(工具的种类、搬运中的工件的种类等)等。控制装置1能够使用例如未图示的视觉传感器拍摄作业区域内,基于拍摄图像跟踪人来确定出侵入方向、活动路线,或者识别外观、携带物品。此外,基于图像的识别处理是公知技术,所以这里省略详细的说明。或者,控制装置1也可以使用例如未图示的区域传感器、压电垫等,来检测人的侵入方向(从哪里侵入)、活动路线(以怎样的路径移动)、位置、速度。控制装置1例如能够在每个控制周期获取这些数据,并输入到状态观测部106。或者,也可以在预定的时间每隔恒定时间获取这些数据,输入该时间序列数据的集合作为状态变量S。
这里,使用与人的外观有关的数据是因为在人的外观与该人接近特定的机器的可能性之间有可能存在相关性。外观往往反映了该人的职位、作用、作业内容等的情况。例如线路的担当者、管理者、外来者能够通过外观来区别。而且,人的职位与该人的动作之间存在相关性,例如线路担当者接近特定的机器的可能性高等相关关系成立。
判定数据获取部108能够构成为例如控制装置1的处理器的一个功能。或者,判定数据获取部108能够构成为例如用于使处理器发挥作用的软件。
作为判定数据D的机器人与人的干扰状态是例如表示机器人与人是否碰撞、碰撞时的力的大小、机器人与人的相对距离的数据。碰撞的有无以及碰撞时的力的大小是控制装置1能够使用力传感器等观测的数据。机器人与人的相对距离能够通过控制装置1使用未图示的视觉传感器对作业区域内进行拍摄,并基于拍摄图像确定。此外,基于图像自动解析的物体识别以及物体间的距离推定处理是公知技术,所以这里省略详细的说明。控制装置1能够在每个控制周期获取这些数据,并输入到判定数据获取部108。或者,也可以在预定的时间每隔恒定时间获取这些数据,并输入该时间序列数据的集合作为判定数据D。
对学习部110输入的状态变量S在以学习部110的学习周期考虑的情况下,为基于获取到判定数据D的1个学习周期前的数据的状态变量。即,在控制装置1所具备的机器学习装置100推进学习的期间,在环境中,反复实施状态变量S的获取、对基于状态变量S调整后的机器人的指令(轨道、速度)的输出、判定数据D的获取。
学习部110能够构成为例如控制装置1的处理器的一个功能。或者,学习部110能够构成为例如用于使处理器发挥作用的软件。学习部110根据统称为机器学习的任意的学习算法,学习与机器人的状态以及存在于机器人的周边区域的人的状态对应的对机器人的指令。学习部110能够在每个控制周期、或者每个任意时间反复执行基于包括状态变量S和判定数据D的数据集合的学习。
通过反复进行这样的学习周期,学习部110能够自动地识别暗示表示机器人的状态以及存在于机器人的周边区域的人的状态的状态变量S与对机器人的指令的相关性的特征。在学习算法的开始时,状态变量S与对机器人的指令的相关性实质上是未知的,但学习部110随着推进学习而逐渐地识别特征来解释相关性。若状态变量S与对机器人的指令的相关性被解释到一定程度能够信赖的水准,则学习部110反复输出的学习结果能够使用于对于当前状态(换句话说机器人的状态以及存在于机器人的周边区域的人的状态)进行应该使对机器人的指令成为怎样的值这样的行动的选择(换句话说决策)。
如上所述,控制装置1所具备的机器学习装置100使用状态观测部106观测到的状态变量S和判定数据获取部108获取到的判定数据D,由学习部110根据机器学习算法,学习对机器人的指令。状态变量S由机器人的状态以及存在于机器人的周边区域的人的状态这样的难以受到干扰影响的数据构成,另外,判定数据D通过获取机器人与人的干扰状态而唯一地被求出。因此,根据控制装置1所具备的机器学习装置100,无论运算或估算都能够自动并且准确地求出与机器人的状态以及存在于机器人的周边区域的人的状态对应的对机器人的指令。
而且,若无论运算或估算等都能够自动地求出对机器人的指令,则能够仅通过掌握机器人的状态以及存在于机器人的周边区域的人的状态,迅速地决定对机器人的指令的恰当的值。因此,能够高效地决定对机器人的指令。
在具有上述构成的机器学习装置100中,学习部110执行的学习算法并不特别限定,作为机器学习,能够采用公知的学习算法。图2是图1所示的控制装置1的一个方式,示出了具备执行强化学习的学习部110的构成作为学习算法的一个例子。强化学习是观测学习对象所在的环境的当前状态(换句话说输入)并且在当前状态下执行预定的行动(换句话说输出),试错地反复进行对该行动给予某种回报这样的循环,来学习最大化回报总计的方案(本申请的机器学习装置中决定对机器人的指令)作为最佳解的方法。
在图2所示的控制装置1所具备的机器学习装置100中,学习部110具备:回报计算部112,其求出与基于状态变量S决定对机器人的指令时的机器人与人的干扰状态(相当于在获取到状态变量S的下个学习周期中使用的判定数据D)相关的回报R;以及价值函数更新部114,其使用回报R更新表示对机器人的指令的价值的函数Q。学习部110通过价值函数更新部114反复更新函数Q来学习对机器人的指令的最佳解。
对学习部110执行的强化学习的算法的一个例子进行说明。该例的算法被称为Q学习(Q-learning),是将行为主体的状态s和该状态s下行为主体能够选择的行为a作为独立变量,学习表示在状态s下选择行为a时的行为的价值的函数Q(s,a)的方法。在状态s下选择价值函数Q最高的行为a为最佳解。通过在状态s与行为a的相关性未知的状态下开始Q学习,反复进行在任意的状态s下选择各种行为a的试错,来反复更新价值函数Q,接近最佳解。这里,作为在状态s下选择行为a的结果,在环境(换句话说状态s)变化时,得到与该变化对应的回报(换句话说,行为a的加权)r,并通过引导学习以选择得到更高回报r的行为a,能够在比较短的时间内使价值函数Q接近最佳解。
价值函数Q的更新式一般能够如下述的公式1那样表示。在公式1中,st以及at分别是时刻t的状态以及行为,状态通过行为at变化为st+1。rt+1是状态从st变化为st+1而得到的回报。maxQ的项是指在时刻t+1进行成为最大的价值Q的(在时刻t认为的)行为a时的Q。α以及γ分别是学习系数以及折扣率,在0<α≤1、0<γ≤1被任意设定。
【公式1】
在学习部110执行Q学习的情况下,状态观测部106观测到的状态变量S以及判定数据获取部108获取到的判定数据D相当于更新式的状态s,应该如何决定当前状态(换句话说,针对机器人的状态以及存在于机器人的周边区域的人的状态的对机器人的指令)这样的行为相当于更新式的行为a,回报计算部112求出的回报R相当于更新式的回报r。因此,价值函数更新部114通过使用回报R的Q学习反复更新表示针对当前状态的对机器人的指令的输出的价值的函数Q。
回报计算部112求出的回报R例如能够在决定了对机器人的指令的输出后,进行基于所决定的指令的机器人的控制时,在判定为机器人与人不干扰的情况下为正(+)的回报R,在判定为机器人与人干扰或者存在干扰的可能性的情况下为负(-)的回报R。
例如,在机器人与人碰撞的情况下能够设定-10的回报R,在机器人与人比预定距离近的情况下设定-5的回报R,在机器人与人远离了预定距离以上的情况下设定+5等的回报R。由此,越是机器人与人难以干扰的指令,函数Q评价为价值越大。另外,回报计算部112也可以给予碰撞时的力的大小越上升评价越低这样的回报R。由此,越是碰撞时的冲击小的指令,函数Q评价为价值越大。另外,回报计算部112也可以给予机器人的吞吐量越上升越大这样的回报R。由此,越是机器人与人难以干扰并且吞吐量高的指令,函数Q评价为价值越大(参照图4A、图4B)。
价值函数更新部114能够具有将状态变量S、判定数据D、以及回报R与由函数Q表示的行为价值(例如数值)关联起来整理成的行为价值表。该情况下,价值函数更新部114更新函数Q这样的行为与价值函数更新部114更新行为价值表这样的行为意思相同。在Q学习开始时,环境的当前状态与对机器人的指令的相关性是未知的,所以在行为价值表中,以与随机抽样规定的行为价值的值(函数Q)关联起来的方式准备各种的状态变量S、判定数据D、以及回报R。此外,若知道判定数据D,则回报计算部112能够立即计算与此对应的回报R,并将计算出的值R写入行为价值表。
若使用与机器人和人的干扰状态对应的回报R进行Q学习,则向选择得到更高的回报R的行为的方向引导学习,作为在当前状态下执行选择出的行为而得到的结果,根据变化的环境的状态(换句话说状态变量S以及判定数据D),改写针对当前状态下进行的行为的行为价值的值(函数Q)并更新行为价值表。通过反复该更新,从而越是适当的行为,在行为价值表显示的行为价值的值(函数Q)被改写为越大的值。这样一来,未知的环境的当前状态(机器人的状态以及存在于机器人的周边区域的人的状态)与对于此的行为(对机器人的指令)的相关性逐渐清楚。换句话说,通过行为价值表的更新,机器人的状态以及存在于机器人的周边区域的人的状态与对机器人的指令的关系逐渐接近最佳解。
参照图3,进一步对学习部110执行的上述的Q学习的流程(换句话说机器学习方法的一个方式)进行说明。首先,在步骤SA01中,价值函数更新部114参照该时间点的行为价值表,随机抽样(随机)地选择对机器人的指令作为在状态观测部106观测到的状态变量S所表示的当前状态下进行的行为。接下来,价值函数更新部114在步骤SA02中得到状态观测部106观测的当前状态的状态变量S,在步骤SA03中,得到判定数据获取部108获取的当前状态的判定数据D。接下来,价值函数更新部114在步骤SA04中,基于判定数据D判定对机器人的指令是否适当,在适当的情况下,在步骤SA05中,将回报计算部112求出的正的回报R应用于函数Q的更新式,接下来,在步骤SA06中,使用当前状态下的状态变量S以及判定数据D、回报R、和行为价值的值(更新后的函数Q)来更新行为价值表。在步骤SA04中,判断为对机器人的指令不适当的情况下,在步骤SA07中,将回报计算部112求出的负的回报R应用于函数Q的更新式,接下来,在步骤SA06中,使用当前状态下的状态变量S以及判定数据D、回报R、和行为价值的值(更新后的函数Q)来更新行为价值表。学习部110通过反复进行步骤SA01~SA07来反复更新行为价值表,推进对机器人的指令的最佳解的学习。此外,针对判定数据D所包含的每个数据执行步骤SA04到步骤SA07的求出回报R的处理以及价值函数的更新处理。
在推进强化学习时,例如也能够代替Q学习,使用神经网络。图5A示意性地示出神经元的模型。图5B示意性地示出组合图5A所示的神经元而构成的三层的神经网络的模型。神经网络例如能够由模仿神经元的模型的运算装置、存储装置等构成。
图5A所示的神经元输出针对多个输入x(这里,作为一个例子,输入x1~输入x3)的结果y。各输入x1~x3被乘以与该输入x对应的权重w(w1~w3)。由此,神经元输出由以下的公式2表现的输出y。此外,在公式2中,输入x、输出y以及权重w全部是向量。另外,θ是偏差,fk是激活函数。
【公式2】
图5B所示的三层的神经网络从左侧输入多个输入x(这里,作为一个例子,输入x1~输入x3),从右侧输出结果y(这里,作为一个例子,结果y1~结果y3)。在图示的例子中,输入x1、x2、x3分别被乘以对应的权重(统称为w1),各个输入x1、x2、x3均被输入到3个神经元N11、N12、N13。
在图5B中,将神经元N11~N13的各个的输出统称为z1。z1能够被视为提取出输入向量的特征量而得的特征向量。在图示的例子中,特征向量z1的每一个被乘以对应的权重(统称为w2),各个特征向量z1均被输入到2个神经元N21、N22。特征向量z1表示权重w1与权重w2之间的特征。
在图5B中,将神经元N21~N22的各自的输出统称为z2。z2能够被视为提取出特征向量z1的特征量而得的特征向量。在图示的例子中,特征向量z2的每一个被乘以对应的权重(统称为w3),各个特征向量z2均被输入到3个神经元N31、N32、N33。特征向量z2表示权重w2与权重w3之间的特征。最后,神经元N31~N33分别输出结果y1~y3。
此外,也能够使用形成三层以上的层的神经网络的所谓的深度学习的方法。
在控制装置1具备的机器学习装置100中,能够通过将状态变量S和判定数据D作为输入x,学习部110进行根据上述的神经网络的多层结构的运算,来输出对机器人的指令(结果y)。另外,在控制装置1具备的机器学习装置100中,也能够通过使用神经网络作为强化学习中的价值函数,将状态变量S和行为a作为输入x,学习部110进行根据上述的神经网络的多层结构的运算,来输出该状态下的该行为的价值(结果y)。此外,神经网络的动作模式有学习模式和价值预测模式,例如在学习模式下使用学习数据集来学习权重w,并能够使用学习到的权重w在价值预测模式下进行行为的价值判断。此外,在价值预测模式中,也能够进行检测、分类、推论等。
上述的控制装置1的构成能够描述为处理器执行的机器学习方法(或者软件)。该机器学习方法是学习对机器人的指令的机器学习方法,具有:计算机的CPU观测机器人的状态以及存在于机器人的周边区域的人的状态作为表示环境的当前状态的状态变量S的步骤;获取根据调整后的对机器人的指令而得到的表示机器人与人的干扰状态的判定数据D的步骤;以及使用状态变量S和判定数据D将机器人的状态以及存在于机器人的周边区域的人的状态与对机器人的指令关联起来进行学习的步骤。
<实施方式2>
图6示出了实施方式2所涉及的控制装置2。控制装置2具备机器学习装置120和状态数据获取部3,该状态数据获取部3获取状态观测部106观测的状态变量S亦即机器人的状态以及存在于机器人的周边区域的人的状态作为状态数据S0。
状态数据获取部3能够从控制装置2获取状态数据S0。
控制装置2具有的机器学习装置120除了用于通过机器学习自学对机器人的指令的软件(学习算法等)以及硬件(处理器等)以外,还包括用于将基于学习结果求出的对机器人的指令输出到控制装置2的软件(运算算法等)以及硬件(处理器等)。控制装置2所包含的机器学习装置120也能够具有一个共用的处理器执行学习算法、运算算法等全部软件的构成。
决策部122能够构成为例如控制装置2具备的处理器的一个功能。或者,决策部122能够构成为例如用于使处理器发挥作用的软件。决策部122基于学习部110学习到的结果,生成并输出包括针对机器人的状态以及存在于机器人的周边区域的人的状态的对机器人的指令的指令值C。在决策部122对于控制装置2输出指令值C的情况下,环境的状态与此对应地变化。
状态观测部106在下个学习周期中观测输出决策部122对环境的指令值C后变化的状态变量S。学习部110使用变化后的状态变量S,更新例如价值函数Q(即行为价值表),来学习对机器人的指令。
决策部122将表示基于学习结果求出的对机器人的指令的指令值C输出到控制装置2。通过反复该学习周期,机器学习装置120推进对机器人的指令的学习,使自身决定的对机器人的指令的可靠性逐渐提高。
具有上述构成的控制装置2具备的机器学习装置120起到与上述的机器学习装置100相同的效果。特别是机器学习装置120能够使环境的状态根据决策部122的输出而变化。另一方面,在机器学习装置100中,能够对外部装置请求相当于用于使学习部110的学习结果反映到环境的决策部的功能。
<其他的实施方式>
图7示出了具备机器人160的一个实施方式所涉及的系统170。系统170具备具有同样的构成的多个机器人160、160’和将这些机器人160、160’相互连接的有线/无线的网络172,多个机器人160中的至少一个构成为具备上述的控制装置2的机器人160。另外,系统170能够包括不具备控制装置2的机器人160’。机器人160、160’具有相同目的的作业所需要的机构以及作业区域等周边环境。
具有上述构成的系统170中,由多个机器人160、160’中具备控制装置2的机器人160使用学习部110的学习结果,无论运算或估算都自动并且准确地求出针对机器人的状态以及存在于机器人的周边区域的人的状态的对机器人的指令。另外,系统170能够构成为,至少一个机器人160的控制装置2基于针对其他的多个机器人160、160’分别得到的状态变量S以及判定数据D,学习全部的机器人160、160’共用的对机器人的指令,全部的机器人160、160’共享该学习结果。因此,根据系统170,能够将更多样的数据集合(包括状态变量S以及判定数据D)作为输入,使对机器人的指令的学习的速度、可靠性提高。
图8示出了具备机器人160’的其他的实施方式的系统170’。系统170’具备机器学习装置120(或者100)、具有同样构成的多个机器人160’、以及将这些机器人160’和机器学习装置120(或者100)相互连接的有线/无线的网络172。
具有上述构成的系统170’中,机器学习装置120(或者100)基于多个机器人160’分别得到的状态变量S以及判定数据D,学习全部的机器人160’共用的针对机器人的状态以及存在于机器人的周边区域的人的状态的对机器人的指令,并使用该学习结果,无论运算或估算,都自动并且准确地求出针对机器人的状态以及存在于机器人的周边区域的人的状态的对机器人的指令。
系统170’能够具有机器学习装置120(或者100)存在于在网络172中准备的云服务器等的构成。根据该构成,不管多个机器人160’的每一个所在的场所、时期,能够在必要时将必要的数量的机器人160’连接到机器学习装置120(或者100)。
从事系统170、170’的作业者在机器学习装置120(或者100)的学习开始后的适当的时期,能够执行机器学习装置120(或者100)对机器人的指令的学习的到达度(即对机器人的指令的可靠性)是否达到要求等级的判断。
以上,对本发明的实施方式进行了说明,但本发明并不仅局限于上述的实施方式的例子,能够通过施加适当的变更来以各种方式实施。
例如,机器学习装置100、120执行的学习算法、机器学习装置120执行的运算算法、控制装置1、2执行的控制算法等并不限于上述的算法,能够采用各种算法。
另外,在上述的实施方式中,控制装置1(或者2)和机器学习装置100(或者120)作为具有不同的CPU的装置进行说明,但机器学习装置100(或者120)也可以通过控制装置1(或者2)具备的处理器和存储于存储装置的系统程序来实现。
以上,对本发明的实施方式进行了说明,但本发明并不局限于上述的实施方式的例子,能够通过施加适当的变更,来以其他的方式实施。

Claims (9)

1.一种控制装置,输出对机器人的指令,其特征在于,
该控制装置具备学习对上述机器人的指令的机器学习装置,
上述机器学习装置具备:
状态观测部,其观测上述机器人的状态以及存在于上述机器人的周边区域的人的状态,作为表示环境的当前状态的状态变量;
判定数据获取部,其获取表示上述机器人和上述人的干扰状态的判定数据;以及
学习部,其使用上述状态变量和上述判定数据,将上述机器人的状态以及存在于上述机器人的周边区域的人的状态与对上述机器人的指令关联起来进行学习。
2.根据权利要求1所述的控制装置,其特征在于,
上述状态变量包括上述机器人的机械手的姿势以及移动速度作为表示上述机器人的状态的数据,且包括上述人的侵入方向以及活动路线作为表示上述人的状态的数据。
3.根据权利要求1所述的控制装置,其特征在于,
上述判定数据包括机器人与人的碰撞的有无、机器人与人的相对距离、碰撞时的力的大小、吞吐量中的至少某一个。
4.根据权利要求1所述的控制装置,其特征在于,
上述学习部具备:
回报计算部,其求出与上述机器人和上述人的干扰状态相关的回报;以及
价值函数更新部,其使用上述回报更新表示针对上述机器人的状态以及存在于上述机器人的周边区域的上述人的状态的、对上述机器人的指令的价值的函数。
5.根据权利要求1所述的控制装置,其特征在于,
上述学习部利用多层结构运算上述状态变量和上述判定数据。
6.根据权利要求1所述的控制装置,其特征在于,
该控制装置还具备决策部,该决策部基于上述学习部的学习结果,输出表示对上述机器人的指令的指令值。
7.根据权利要求1所述的控制装置,其特征在于,
上述学习部使用从多个机器人得到的上述状态变量以及上述判定数据,来学习对上述机器人的指令。
8.根据权利要求1所述的控制装置,其特征在于,
上述机器学习装置存在于云服务器。
9.一种学习装置,学习对机器人的指令,其特征在于,该学习装置具备:
状态观测部,其观测上述机器人的状态以及存在于上述机器人的周边区域的人的状态,作为表示环境的当前状态的状态变量;
判定数据获取部,其获取表示上述机器人和上述人的干扰状态的判定数据;以及
学习部,其使用上述状态变量和上述判定数据,将上述机器人的状态以及存在于上述机器人的周边区域的人的状态与对上述机器人的指令关联起来进行学习。
CN201810896937.XA 2017-08-08 2018-08-08 控制装置以及学习装置 Active CN109382825B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-153684 2017-08-08
JP2017153684A JP6680730B2 (ja) 2017-08-08 2017-08-08 制御装置及び学習装置

Publications (2)

Publication Number Publication Date
CN109382825A true CN109382825A (zh) 2019-02-26
CN109382825B CN109382825B (zh) 2021-03-02

Family

ID=65084513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810896937.XA Active CN109382825B (zh) 2017-08-08 2018-08-08 控制装置以及学习装置

Country Status (4)

Country Link
US (1) US10953538B2 (zh)
JP (1) JP6680730B2 (zh)
CN (1) CN109382825B (zh)
DE (1) DE102018006248A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112207813A (zh) * 2019-07-09 2021-01-12 丰田自动车株式会社 运算装置、机器学习方法以及非暂时性存储介质
WO2023044676A1 (zh) * 2021-09-23 2023-03-30 西门子(中国)有限公司 一种多个机器人协同工作的控制方法、系统及机器人

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3738353A1 (en) * 2018-01-12 2020-11-18 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for roaming between wireless communications networks
DE102019001760A1 (de) * 2018-03-19 2019-09-19 Fanuc Corporation Informationsverarbeitungsgerät, maschinelle lernvorrichtungund system
WO2019241798A1 (en) * 2018-06-15 2019-12-19 Google Llc Self-supervised robotic object interaction
JP6647640B1 (ja) * 2019-04-15 2020-02-14 日本金銭機械株式会社 表示制御システム、表示制御方法、および、プログラム
US11676064B2 (en) * 2019-08-16 2023-06-13 Mitsubishi Electric Research Laboratories, Inc. Constraint adaptor for reinforcement learning control
WO2021033315A1 (ja) * 2019-08-22 2021-02-25 日本電気株式会社 ロボット制御システム、ロボット制御方法、及び、記録媒体
JP7295421B2 (ja) * 2019-08-22 2023-06-21 オムロン株式会社 制御装置及び制御方法
DE102020200165B4 (de) * 2020-01-09 2022-05-19 Robert Bosch Gesellschaft mit beschränkter Haftung Robotersteuereinrichtung und Verfahren zum Steuern eines Roboters
US20240123627A1 (en) * 2021-09-08 2024-04-18 Mitsubishi Electric Corporation Robot control device
CN115412105B (zh) * 2022-05-06 2024-03-12 南京邮电大学 基于usrp rio的强化学习通信干扰方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119823A (ja) * 1991-10-24 1993-05-18 Hitachi Ltd ロボツトの軌道計画方法及び制御装置
JP2005293154A (ja) * 2004-03-31 2005-10-20 Hiroshima Univ 障害物回避装置および移動体
JP2007316799A (ja) * 2006-05-24 2007-12-06 Tottori Univ 学習機能をもつ自律移動ロボット
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
JP2017030135A (ja) * 2015-07-31 2017-02-09 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
CN106393101A (zh) * 2015-07-31 2017-02-15 发那科株式会社 机械学习装置及方法、机器人控制装置、机器人系统
CN106409120A (zh) * 2015-07-31 2017-02-15 发那科株式会社 机械学习方法及机械学习装置、以及故障预知装置及系统
CN106557069A (zh) * 2015-09-29 2017-04-05 发那科株式会社 机械学习装置和方法以及具有该机械学习装置的机床

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10152543A1 (de) 2001-10-24 2003-05-08 Sick Ag Verfahren und Vorrichtung zum Steuern einer sicherheitsrelevanten Funktion einer Maschine
US20120185115A1 (en) * 2007-10-05 2012-07-19 Jason Dean Laserbot: programmable robotic apparatus with laser
JP2010120139A (ja) * 2008-11-21 2010-06-03 New Industry Research Organization 産業用ロボットの安全制御装置
JP4938118B2 (ja) 2010-08-17 2012-05-23 ファナック株式会社 人間協調ロボットシステム
US9092698B2 (en) * 2012-06-21 2015-07-28 Rethink Robotics, Inc. Vision-guided robots and methods of training them
US20150202770A1 (en) * 2014-01-17 2015-07-23 Anthony Patron Sidewalk messaging of an autonomous robot
US20150294496A1 (en) * 2014-04-14 2015-10-15 GM Global Technology Operations LLC Probabilistic person-tracking using multi-view fusion
US9251598B2 (en) * 2014-04-10 2016-02-02 GM Global Technology Operations LLC Vision-based multi-camera factory monitoring with dynamic integrity scoring
US20150339589A1 (en) * 2014-05-21 2015-11-26 Brain Corporation Apparatus and methods for training robots utilizing gaze-based saliency maps
JP6494331B2 (ja) * 2015-03-03 2019-04-03 キヤノン株式会社 ロボット制御装置およびロボット制御方法
US9840003B2 (en) * 2015-06-24 2017-12-12 Brain Corporation Apparatus and methods for safe navigation of robotic devices
DE102016008987B4 (de) 2015-07-31 2021-09-16 Fanuc Corporation Maschinenlernverfahren und Maschinenlernvorrichtung zum Lernen von Fehlerbedingungen, und Fehlervorhersagevorrichtung und Fehlervorhersagesystem, das die Maschinenlernvorrichtung einschließt
US10478973B2 (en) * 2016-02-09 2019-11-19 Cobalt Robotics Inc. Mobile robot security enforcement
JP2017177297A (ja) * 2016-03-31 2017-10-05 ソニー株式会社 制御装置及び制御方法
US9827678B1 (en) * 2016-05-16 2017-11-28 X Development Llc Kinematic design for robotic arm

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119823A (ja) * 1991-10-24 1993-05-18 Hitachi Ltd ロボツトの軌道計画方法及び制御装置
JP2005293154A (ja) * 2004-03-31 2005-10-20 Hiroshima Univ 障害物回避装置および移動体
JP2007316799A (ja) * 2006-05-24 2007-12-06 Tottori Univ 学習機能をもつ自律移動ロボット
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
JP2017030135A (ja) * 2015-07-31 2017-02-09 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
CN106393101A (zh) * 2015-07-31 2017-02-15 发那科株式会社 机械学习装置及方法、机器人控制装置、机器人系统
CN106409120A (zh) * 2015-07-31 2017-02-15 发那科株式会社 机械学习方法及机械学习装置、以及故障预知装置及系统
CN106557069A (zh) * 2015-09-29 2017-04-05 发那科株式会社 机械学习装置和方法以及具有该机械学习装置的机床

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112207813A (zh) * 2019-07-09 2021-01-12 丰田自动车株式会社 运算装置、机器学习方法以及非暂时性存储介质
CN112207813B (zh) * 2019-07-09 2024-05-14 丰田自动车株式会社 运算装置、机器学习方法以及非暂时性存储介质
WO2023044676A1 (zh) * 2021-09-23 2023-03-30 西门子(中国)有限公司 一种多个机器人协同工作的控制方法、系统及机器人

Also Published As

Publication number Publication date
JP2019030941A (ja) 2019-02-28
DE102018006248A1 (de) 2019-02-14
US20190047143A1 (en) 2019-02-14
JP6680730B2 (ja) 2020-04-15
US10953538B2 (en) 2021-03-23
CN109382825B (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN109382825A (zh) 控制装置以及学习装置
US11904469B2 (en) Machine learning device, robot controller, robot system, and machine learning method for learning action pattern of human
US11511420B2 (en) Machine learning device, robot system, and machine learning method for learning operation program of robot
JP6652549B2 (ja) 切粉除去装置及び情報処理装置
Balazinski et al. Tool condition monitoring using artificial intelligence methods
JP6619192B2 (ja) 移動軸異常負荷警告機能を有するワイヤ放電加工機
Mosavi et al. Classification of sonar data set using neural network trained by gray wolf optimization
TWI691913B (zh) 3次元空間監視裝置、3次元空間監視方法、及3次元空間監視程式
CN109382838A (zh) 控制装置以及机器学习装置
CN110315505A (zh) 机器学习装置及方法、机器人控制装置、机器人视觉系统
CN108621154A (zh) 清洗工序最优化装置以及机器学习装置
JP2017117180A (ja) ノイズの発生原因を検出する学習機能を有する制御装置
CN109254562A (zh) 控制装置以及学习装置
CN108994818A (zh) 控制装置以及机器学习装置
CN108687766B (zh) 机器人的控制装置、机器学习装置以及机器学习方法
CN108080751A (zh) 数值控制装置
CN110340884A (zh) 测定动作参数调整装置、机器学习装置以及系统
Lee Self-assessing and communicating manipulation proficiency through active uncertainty characterization
JP2019184575A (ja) 測定動作パラメータ調整装置、機械学習装置及びシステム
Bozcuoğlu et al. Traversability on a simple humanoid: What did i just trip over?
Wiering Model-based reinforcement learning in dynamic environments
Akhshik et al. Pressure Sensor Positioning for Accurate Human Interaction with a Robotic Hand
JP6993374B2 (ja) ロボット制御システム
Sulistijono et al. A comparison of particle swarm optimization and genetic algorithm for human head tracking
Mustafayeva et al. An innovativ approach in the study of mechatronic devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant