JP6240689B2 - 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 - Google Patents

人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 Download PDF

Info

Publication number
JP6240689B2
JP6240689B2 JP2016015538A JP2016015538A JP6240689B2 JP 6240689 B2 JP6240689 B2 JP 6240689B2 JP 2016015538 A JP2016015538 A JP 2016015538A JP 2016015538 A JP2016015538 A JP 2016015538A JP 6240689 B2 JP6240689 B2 JP 6240689B2
Authority
JP
Japan
Prior art keywords
robot
machine learning
unit
person
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016015538A
Other languages
English (en)
Other versions
JP2017030137A (ja
Inventor
丈嗣 津田
丈嗣 津田
大輔 岡野原
大輔 岡野原
遼介 奥田
遼介 奥田
叡一 松元
叡一 松元
圭悟 河合
圭悟 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Preferred Networks Inc
Original Assignee
Preferred Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Preferred Networks Inc filed Critical Preferred Networks Inc
Priority to JP2016015538A priority Critical patent/JP6240689B2/ja
Priority to DE102016009113.4A priority patent/DE102016009113B4/de
Priority to DE102016015866.2A priority patent/DE102016015866B3/de
Priority to DE102016015942.1A priority patent/DE102016015942B8/de
Priority to US15/222,947 priority patent/US20170028553A1/en
Priority to CN201811360279.9A priority patent/CN109434832B/zh
Priority to CN201610615047.8A priority patent/CN106393101B/zh
Publication of JP2017030137A publication Critical patent/JP2017030137A/ja
Application granted granted Critical
Publication of JP6240689B2 publication Critical patent/JP6240689B2/ja
Priority to US16/371,809 priority patent/US10807235B2/en
Priority to US17/023,376 priority patent/US11904469B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • B25J13/081Touching devices, e.g. pressure-sensitive
    • B25J13/084Tactile sensors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • B25J13/085Force or torque sensors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • B25J13/088Controls for manipulators by means of sensing devices, e.g. viewing or touching devices with position, velocity or acceleration sensors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/06Safety devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0084Programme-controlled manipulators comprising a plurality of manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1653Programme controls characterised by the control loop parameters identification, estimation, stiffness, accuracy, error analysis
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1674Programme controls characterised by safety, monitoring, diagnostic
    • B25J9/1676Avoiding collision or forbidden zones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39271Ann artificial neural network, ffw-nn, feedforward neural network
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40202Human robot coexistence
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40391Human to robot skill transfer
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Description

本発明は、人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法に関する。
従来の技術では、人の安全を確保する為に、ロボットが駆動している期間中には人がロボットの作業領域に入れないように安全対策が講じられていた。例えば、ロボットの周りには安全柵が設置されており、ロボットの駆動期間中には安全柵の内部に人が入ることが禁じられていた。近年では、人がロボットと協働して作業を行うロボットシステムが知られている。このロボットシステムでは、ロボットの周りに安全柵を設けない状態にて、ロボットおよび人が一つの作業を同時に行うことができる。
特開2015−123505号公報には、人と協働作業を行う産業用ロボットが開示されている。このロボットは、基部に支持された可動部と、可動部よりも剛性が低い材質から形成され、可動部の周囲を覆う保護部材と、可動部に設けられ、保護部材を介して入力された外力を検出する検出器とを備えることが開示されている。
特開2015−123505号公報
一般的な産業用のロボットは、予め作成された動作プログラムに従って駆動される。または、ティーチングペンダントなどにより予め教示された教示点を通るようにロボットが駆動される。すなわち、ロボットは、予め定められた軌道に沿って駆動する。
人がロボットと協働して作業を行うロボットシステムにおいても、予めロボットの軌道を設定しておいて、作成した軌道に沿ってロボットを駆動することができる。しかしながら、人がロボットと協働して作業を行う場合に、作業方法が一通りでない場合がある。例えば、製品を製造する工場等では、ワークを初期位置から目標位置まで搬送する場合がある。ワークを搬送するために、人とロボットが協働してワークを持ち上げて目標位置まで搬送する場合がある。ロボットは、搬送物を持ち上げて搬送することができる。この場合に、ワークを持ち上げる向きや速度等は数多くの選択肢が存在する。
ワークに対するロボットの制御方法に依存して、人の負担度は変化する。例えば、同一の作業を行った場合でも人の疲れ度合は変化し、人からの距離や速度によって負担度も変化する。従って、ロボットの制御方法は適切に設定することが好ましい。ところが、ロボットの制御方法は数多く存在する。また、作業の内容により人の行動パターンが異なる場合が有る。このために、作業内容に応じて最適なロボットの制御方法を設定することが難しいという問題がある。
本発明に係る第1実施形態によれば、人とロボットが協働して作業を行うロボットの機械学習装置であって、前記人と前記ロボットが協働して作業を行う期間中に、前記ロボットの状態を示す状態変数を観測する状態観測部と、前記人の負担度および作業効率のうち少なくとも一方に関する判定データを取得する判定データ取得部と、前記状態変数および前記判定データに基づいて、前記ロボットの行動を設定するための訓練データセットを学習する学習部と、を備え、前記訓練データセットは、前記ロボットの状態および前記ロボットの行動ごとに設定された前記ロボットの行動の価値を示す行動価値変数を含み、前記学習部は、前記判定データおよび前記状態変数に基づいて報酬を設定する報酬計算部と、前記報酬および前記状態変数に基づいて、前記行動価値変数を更新する関数更新部と、を含み、前記ロボットの行動および前記人が加えた力に基づいて、予め定められた移動点における前記ロボットの行動の価値を更新する機械学習装置が提供される。
前記状態変数は、前記ロボットの位置、姿勢、速度、および加速度のうち少なくとも一つを含むのが好ましい。前記判定データは、前記ロボットが感知する負荷の大きさや方向、前記ロボットの周囲が感知する負荷の大きさや方向、前記ロボットの周囲の負担度、および前記ロボットの移動時間のうち少なくとも一つを含むのが好ましい。
前記訓練データセットは、前記ロボットの状態および前記ロボットの行動ごとに設定された前記ロボットの行動の価値を示す行動価値変数を含み、前記学習部は、前記判定データおよび前記状態変数に基づいて報酬を設定する報酬計算部と、前記報酬および前記状態変数に基づいて、前記行動価値変数を更新する関数更新部と、を含むことができる。前記報酬計算部は、前記ロボットの加速度の絶対値が小さいほど大きな報酬を設定し、前記ロボットの移動時間が短いほど大きな報酬を設定するのが好ましい。
前記訓練データセットは、前記ロボットの状態および前記ロボットの行動ごとに設定された前記ロボットの学習モデルを含み、前記学習部は、前記判定データ、前記状態変数および入力された教師データに基づいて前記学習モデルの誤差を計算する誤差計算部と、前記誤差および前記状態変数に基づいて、前記学習モデルを更新する学習モデル更新部と、を含むことができる。前記機械学習装置は、さらに、前記ロボットと協働で作業する人を判別する人判別部を備え、前記訓練データセットは、人ごとに作成されており、前記学習部は、判別された人の前記訓練データセットを学習し、あるいは、前記機械学習装置は、ニューラルネットワークを備えるのが好ましい。前記ロボットは、産業用ロボット、フィールドロボット、またはサービスロボットであるのが好ましい。
本発明に係る第2実施形態によれば、上述した機械学習装置と、前記ロボットの行動を制御する行動制御部と、を備え、前記機械学習装置は、前記訓練データセットに基づいて前記ロボットの行動を設定する意思決定部を含み、前記行動制御部は、前記意思決定部からの指令に基づいて前記ロボットの行動を制御するロボット制御装置が提供される。
本発明に係る第3実施形態によれば、上述したロボット制御装置と、人の作業を補助するロボットと、前記ロボットに取り付けられたエンドエフェクタと、を備えるロボットシステムが提供される。前記ロボットは、前記人からの力に対応した信号を出力する力検出器と、ロボットの位置および姿勢を検出する状態検出器と、を含み、前記判定データ取得部は、前記力検出器の出力に基づいて前記判定データを取得し、前記状態観測部は、前記状態検出器の出力に基づいて前記状態変数を取得するのが好ましい。前記状態検出器は、カメラ、人感センサ、圧力センサ、モータのトルクセンサ、および接触センサの少なくとも一つを含むことができる。複数のロボットと、複数のロボット制御装置と、複数の前記ロボット制御装置を互いに接続する通信線と、を備え、複数の前記ロボット制御装置のそれぞれは、制御を行うロボットの前記訓練データセットを個別に学習し、学習した情報を通信線を介して送信することにより共有するように構成してもよい。
本発明に係る第4実施形態によれば、人とロボットが協働して作業を行うロボットの機械学習方法であって、前記人と前記ロボットが協働して作業を行う期間中に、前記ロボットの状態を示す状態変数を観測する工程と、前記人の負担度および作業効率のうち少なくとも一方に関する判定データを取得する工程と、前記状態変数および前記判定データに基づいて、前記ロボットの行動を設定するための訓練データセットを学習する工程と、を含む機械学習方法が提供される。
本発明によれば、人の行動パターンを学習し、人に対して適切な補助を行うロボットの制御方法を設定することができる機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法を提供することができる。
図1は、実施の形態におけるロボットと人が協働作業を行う様子を概略的に示す図である。 図2は、実施の形態における一例のロボットシステムのブロック図である。 図3は、ニューロンのモデルを模式的に示す図である。 図4は、図3に示すニューロンを組み合わせて構成した三層のニューラルネットワークを模式的に示す図である。 図5は、ワークを搬送する経路を説明する概略図である。 図6は、ロボット先端点の移動点を説明する図である。 図7は、ロボット先端点の移動点を説明する拡大図である。 図8は、実施の形態における他の例のロボットシステムのブロック図である。 図9は、図2に示すロボットシステムの変形例のブロック図である。
以下、添付図面を参照して、実施の形態における機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法について説明する。ロボットシステムは、人とロボットが協働して予め定められた作業を行う。本実施の形態では、人とロボットが協働してワークを搬送する例を示して説明する。
図1に、本実施の形態におけるロボットシステムの概略図を示す。図2に、本実施の形態における一例のロボットシステムのブロック図を示す。図1および図2を参照して、ロボットシステム3は、ワークWの搬送を補助するロボット1と、ロボット1を制御するロボット制御装置2とを備える。本実施の形態のロボット1は、アーム12と複数の関節部13とを含む多関節ロボットである。ロボットシステム3は、ロボット1に取り付けられたエンドエフェクタとしてのハンド6を備える。ハンド6は、ワークWを把持したり解放したりする機能を有する。エンドエフェクタはハンドに限られず、作業の内容に応じたエンドエフェクタを用いることができる。
ロボット1は、それぞれの関節部13を駆動するアーム駆動装置44を含む。アーム駆動装置44は、関節部13の内部に配置されているアーム駆動モータ14を含む。アーム駆動モータ14が駆動することにより、アーム12を関節部13にて所望の角度に曲げることができる。また、本実施の形態のロボット1は、アーム12の全体が鉛直方向に延びる回転軸の周りを回転可能に形成されている。アーム駆動モータ14には、アーム12を回転させるモータが含まれる。
ロボット1は、ハンド6を閉じたり開いたりするハンド駆動装置45を備える。本実施の形態のハンド駆動装置45は、ハンド6を駆動するハンド駆動シリンダ18と、ハンド駆動シリンダ18に圧縮空気を供給するための空気ポンプおよび電磁弁を含む。
ロボット1は、アーム12を支持するベース部11を備える。本実施の形態におけるロボット1は、ベース部11に作用する力を検出する力検出器19を備える。ベース部11に作用する力は、ロボット1に作用する力に相当する。力検出器19は、人からの力に対応した信号を出力する。本実施の形態の力検出器19は、床面20に固定されている。
力検出器19としては、ロボット1に作用する力の大きさおよび力の方向を検出可能な任意の検出器を採用することができる。本実施の形態の力検出器19は、ベース部11に連結されている金属の基材と基材の表面に取り付けられた歪みセンサとを含む。そして、力検出器19は、歪みセンサによって検出した変形量に基づいて、ロボット1に作用する力を算出することができる。
本実施の形態におけるロボット1は、ロボットの位置および姿勢を検出する状態検出器を含む。状態検出器は、ロボット先端点の位置およびロボット1の姿勢を検出する。本実施の形態における状態検出器は、それぞれのアーム駆動モータ14に取り付けられた回転角検出器15を含む。回転角検出器15は、アーム駆動モータ14が駆動するときの回転角を検出する。それぞれのアーム駆動モータ14の回転角に基づいて、ロボット1の位置、姿勢、速度、および加速度を検出することができる。
なお、状態検出器としては、回転角検出器15だけでなく、例えば、カメラ、人感センサ、圧力センサ、モータのトルクセンサ、および接触センサなどを使用することができる。すなわち、状態観測部51が観測する状態変数としては、回転角検出器15の出力だけでなく、カメラ、人感センサ、圧力センサ、モータのトルクセンサ、および接触センサなどから得られたデータ(状態量)であってもよい。これらのカメラ、人感センサ、圧力センサ、モータのトルクセンサ、および接触センサなどは、例えば、ロボット1(ハンド6)の所定個所に直接設け、あるいは、ロボット1の周辺の適切な個所に対して取り付けることができるのはいうまでもない。
ロボット1は、ロボット制御装置2の動作指令に基づいて駆動する。ロボット制御装置2は、バスを介して互いに接続されたCPU(Central Processing Unit)、RAM(Random Access Memory)、およびROM(Read Only Memory)等を有する演算処理装置を含む。ロボット制御装置2は、様々な情報を記憶する記憶部59を含む。ロボット制御装置2は、アーム駆動装置44およびハンド駆動装置45を制御する行動制御部43を含む。行動制御部43からの動作指令により、アーム駆動装置44およびハンド駆動装置45が駆動する。
本実施の形態のロボット制御装置2には、ロボット1の外側からロボット1に加えられる外力を推定する外力算出部46を含む。力検出器19にて検出される力には、ロボット1の質量およびロボットの動作により生じる内力と、ロボット1の外側からロボット1に加えられる外力とが含まれる。
外力算出部46は、ロボット1の外側から力が加えられていない状態で、ロボット1が動作した時に自重によりロボット1に作用する内力を算出する。内力は、回転角検出器15の出力により検出したロボットの位置、姿勢に加えて、ロボットの質量等に基づいて算出することができる。ロボット1の質量等は、予め記憶部59に記憶させておくことができる。外力算出部46は、力検出器19により検出された力から内力を減算することにより外力を算出する。外力は、人85がワークに加えた力に相当する。
ロボット制御装置2は、入力部41および表示部42を含む。表示部42は、ロボット1の運転に関する情報を表示可能に形成されている。表示部42としては、液晶表示装置を例示することができる。入力部41は、人がロボット制御装置2に所望の指令を入力可能に形成されている。入力部41としては、キーボード等を例示することができる。
図5は、本実施の形態におけるロボットシステムにおいて、ワークを搬送する経路を説明する概略図である。図1および図5を参照して、本実施の形態においては、床面20に配置されているワークWを作業台81の上面まで搬送する作業を行う。ワークWは、例えば、重量が大きいワークである。このようなワークを人85が搬送しようとすると、非常に疲れたり、搬送することが困難だったりする。本実施の形態におけるワークWは、自動車のタイヤである。
ワークWを搬送する場合には、矢印91〜93に示すように、ワークWを搬送する多くの経路が存在する。また、人85は大きな力を要する区間、または、小さな力で足りる区間等が存在する。また、ワークWの位置が同じでもロボット1の様々な姿勢が存在する。
図2を参照して、本実施の形態におけるロボット制御装置2は、人の行動パターンを学習し、人に対して適切な補助を行うようにロボットの制御方法を学習する機械学習装置5を備える。本実施の形態の機械学習装置5は、ロボット1が駆動している期間中の予め定められた移動点において、最適と判断されるロボット1の行動を選択する。すなわち、機械学習装置5は、最適と判断される駆動パターンでロボット1を駆動する指令を送出する。
機械学習装置5は、人85とロボット1が協働して作業を行う期間中に、ロボット1の状態を示す状態変数を取得する状態観測部51を備える。本実施の形態における状態変数は、ロボット1の位置、姿勢、速度、および加速度である。例えば、ロボット先端点における位置、速度、加速度を状態変数として用いることができる。ロボット1の位置、姿勢、速度、および加速度は、回転角検出器15の出力に基づいて検出することができる。回転角検出器15の出力信号は、状態観測部51に入力される。
状態変数としては、この形態に限られず、ロボットの状態を示す任意の変数を用いることができる。例えば、状態観測部51は、ロボット1の位置、姿勢、速度、加速度のうち少なくとも一つの変数を取得することができる。
機械学習装置5は、人85の負担に関する判定データを取得する判定データ取得部52を備える。本実施の形態における判定データは、ワークWを搬送するときに人85が加える力の大きさ、および人85が加える力の方向を含む。また、本実施の形態の判定データは、ワークWを移動するときの移動時間を含む。
本実施の形態の判定データ取得部52は、力検出器19の出力に基づいて判定データを取得する。外力算出部46にて算出した外力の大きさは、人85の力の大きさに相当する。外力算出部46にて算出した外力の方向は、人85がワークWに加えた力の方向に相当する。判定データ取得部52は、外力算出部46から人の力の大きさおよび人の力の方向を受信する。
ロボット制御装置2は、作業時間を測定する移動時間測定部47を備える。本実施の形態の移動時間測定部47は、後述する移動点同士の間を移動したときの移動時間を算出する。本実施の形態の移動時間測定部47は、行動制御部43の指令に基づいて移動時間を算出している。移動時間測定部47にて測定した移動時間は、判定データ取得部52に送出される。
判定データとしては、上記の形態に限られず、人の負担度および作業効率のうち少なくとも一方に関する任意のデータを採用することができる。例えば、判定データとしては、ロボットが感知する負荷の大きさやその方向、周囲の人や物が感知する負荷の大きさやその方向、周囲の人や物の負担度、および移動時間などのほか、カメラ、人感センサ、圧力センサなどからの情報も利用することが可能である。なお、本明細書において、人とは、実際にロボットと協働して処理(作業)を行う作業者だけでなく、例えば、ロボットを直接操作しないが、ロボットの周辺で処理を観察する人、あるいは、たまたまロボットの近くを通りすぎる人といった様々な人を含む。
本実施の形態における機械学習装置5は、状態変数および判定データに基づいて、ロボットの行動を設定するための訓練データセットを学習する学習部54を備える。学習部54は、状態観測部51から状態変数を取得する。また、学習部54は、判定データ取得部52から判定データを取得する。訓練データセットは、状態変数および判定データに基づいて定められた行動の価値情報の集合である。機械学習装置5は、訓練データセットの状態および行動に関する値を比べることにより、ロボットの駆動方法を設定することができる。なお、本実施の形態の適用は、産業用ロボットに限定されるものではなく、例えば、フィールドロボットやサービスロボットに対しても適用することが可能なのはいうまでもない。
ここで、機械学習装置について、説明する。機械学習装置は、装置に入力されるデータの集合から、その中にある有用な規則や知識表現、判断基準などを解析により抽出し、その判断結果を出力するとともに、知識の学習(機械学習)を行う機能を有する。機械学習の手法は様々であるが、大別すれば、例えば、「教師あり学習」、「教師なし学習」、および「強化学習」に分けられる。さらに、これらの手法を実現するうえで、特徴量そのものの抽出を学習する、「深層学習(ディープラーニング:Deep Learning)」と呼ばれる手法がある。
なお、図2に示す機械学習装置5は、「強化学習」を適用したものであり、また、図9を参照して後述する機械学習装置7は、「教師あり学習」を適用したものである。これらの機械学習(機械学習装置5,7)は、汎用の計算機若しくはプロセッサを用いることもできるが、例えば、GPGPU(General-Purpose computing on Graphics Processing Units)や大規模PCクラスター等を適用すると、より高速処理が可能になる。
まず、教師あり学習とは、教師データ、すなわち、ある入力と結果(ラベル)のデータの組を大量に機械学習装置に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル(学習モデル)、すなわち、その関係性を帰納的に獲得するものである。例えば、後述のニューラルネットワークなどのアルゴリズムを用いて実現することが可能である。
また、教師なし学習とは、入力データのみを大量に学習装置に与えることで、入力データがどのような分布をしているか学習し、対応する教師出力データを与えなくても、入力データに対して圧縮・分類・整形などを行う装置で学習する手法である。例えば、それらのデータセットにある特徴を、似た者どうしにクラスタリングすることなどができる。この結果を使って、何らかの基準を設けてそれを最適化するような出力の割り当てを行うことにより、出力の予測を実現することできる。
なお、教師なし学習と教師あり学習との中間的な問題設定として、半教師あり学習と呼ばれるものもあり、これは、例えば、一部のみ入力と出力のデータの組が存在し、それ以外は入力のみのデータである場合が対応する。本実施形態においては、実際にロボットを動かさなくても取得することができるデータ(画像データやシミュレーションのデータ等)を教師なし学習で利用することにより、学習を効率的に行うことが可能になる。
次に、強化学習について、説明する。まず、強化学習の問題設定として、次のように考える。
・ロボットは、環境の状態を観測し、行動を決定する。
・環境は、何らかの規則に従って変化し、さらに、自分の行動が、環境に変化を与えることもある。
・行動するたびに、報酬信号が帰ってくる。
・最大化したいのは、将来にわたっての(割引)報酬の合計である。
・行動が引き起こす結果を全く知らない、または、不完全にしか知らない状態から学習はスタートする。すなわち、ロボットは、実際に行動して初めて、その結果をデータとして得ることができる。つまり、試行錯誤しながら最適な行動を探索する必要がある。
・人間の動作を真似るように、事前学習(前述の教師あり学習や、逆強化学習といった手法)した状態を初期状態として、良いスタート地点から学習をスタートさせることもできる。
ここで、強化学習とは、判定や分類だけではなく、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち、将来的に得られる報酬を最大にするための学習する方法を学ぶものである。以下に、例として、Q学習の場合で説明を続けるが、Q学習に限定されるものではない。
Q学習は、或る環境状態sの下で、行動aを選択する価値Q(s,a)を学習する方法である。つまり、或る状態sのとき、価値Q(s,a)の最も高い行動aを最適な行動として選択すればよい。しかし、最初は、状態sと行動aとの組合せについて、価値Q(s,a)の正しい値は全く分かっていない。そこで、エージェント(行動主体)は、或る状態sの下で様々な行動aを選択し、その時の行動aに対して、報酬が与えられる。それにより、エージェントは、より良い行動の選択、すなわち、正しい価値Q(s,a)を学習していく。
さらに、行動の結果、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γt)rt]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rtは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化したときについてとるものとし、それは、分かっていないので、探索しながら学習することになる。このような価値Q(s,a)の更新式は、例えば、次の式(1)により表すことができる。
Figure 0006240689
上記の式(1)において、stは、時刻tにおける環境の状態を表し、atは、時刻tにおける行動を表す。行動atにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した式(1)は、試行atの結果、帰ってきた報酬rt+1を元に、状態stにおける行動atの評価値Q(st,at)を更新する方法を表している。すなわち、状態sにおける行動aの評価値Q(st,at)よりも、報酬rt+1と行動aによる次の状態における最良の行動max aの評価値Q(st+1,max at+1)の合計の方が大きければ、Q(st,at)を大きくし、反対に小さければ、Q(st,at)を小さくすることを示している。つまり、或る状態における或る行動の価値を、結果として即時帰ってくる報酬と、その行動による次の状態における最良の行動の価値に近付けるようにしている。
ここで、Q(s,a)の計算機上での表現方法は、すべての状態行動ペア(s,a)に対して、その値をテーブルとして保持しておく方法と、Q(s,a)を近似するような関数を用意する方法がある。後者の方法では、前述の式(1)は、確率勾配降下法などの手法で近似関数のパラメータを調整していくことにより、実現することができる。なお、近似関数としては、後述のニューラルネットワークを用いることができる。
また、教師あり学習、教師なし学習の学習モデル、あるいは、強化学習での価値関数の近似アルゴリズムとして、ニューラルネットワークを用いることができる。図3は、ニューロンのモデルを模式的に示す図であり、図4は、図3に示すニューロンを組み合わせて構成した三層のニューラルネットワークを模式的に示す図である。すなわち、ニューラルネットワークは、例えば、図3に示すようなニューロンのモデルを模した演算装置およびメモリ等で構成される。
図3に示されるように、ニューロンは、複数の入力x(図3では、一例として入力x1〜入力x3)に対する出力(結果)yを出力するものである。各入力x(x1,x2,x3)には、この入力xに対応する重みw(w1,w2,w3)が掛けられる。これにより、ニューロンは、次の式(2)により表現される結果yを出力する。なお、入力x、結果y、および重みwは、すべてベクトルである。また、下記の式(2)において、θは、バイアスであり、fkは、活性化関数である。
Figure 0006240689
図4を参照して、図3に示すニューロンを組み合わせて構成した三層のニューラルネットワークを説明する。図4に示されるように、ニューラルネットワークの左側から複数の入力x(ここでは、一例として、入力x1〜入力x3)が入力され、右側から結果y(ここでは、一例として、結果y1〜入力y3)が出力される。具体的に、入力x1,x2, x3は、3つのニューロンN11〜N13の各々に対して、対応する重みが掛けられて入力される。これらの入力に掛けられる重みは、まとめてW1と表記されている。
ニューロンN11〜N13は、それぞれ、z11〜z13を出力する。図4において、これらz11〜z13は、まとめて特徴ベクトルZ1と表記され、入力ベクトルの特徴量を抽出したベクトルとみなすことができる。この特徴ベクトルZ1は、重みW1と重みW2との間の特徴ベクトルである。z11〜z13は、2つのニューロンN21およびN22の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてW2と表記されている。
ニューロンN21,N22は、それぞれz21,z22を出力する。図4において、これらz21,z22は、まとめて特徴ベクトルZ2と表記されている。この特徴ベクトルZ2は、重みW2と重みW3との間の特徴ベクトルである。z21,z22は、3つのニューロンN31〜N33の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてW3と表記されている。
最後に、ニューロンN31〜N33は、それぞれ、結果y1〜結果y3を出力する。ニューラルネットワークの動作には、学習モードと価値予測モードとがある。例えば、学習モードにおいて、学習データセットを用いて重みWを学習し、そのパラメータを用いて予測モードにおいて、ロボットの行動判断を行う。なお、便宜上、予測と書いたが、検出・分類・推論など多様なタスクが可能なのはいうまでもない。
ここで、予測モードで実際にロボットを動かして得られたデータを即時学習し、次の行動に反映させる(オンライン学習)ことも、予め収集しておいたデータ群を用いてまとめた学習を行い、以降はずっとそのパラメータで検知モードを行う(バッチ学習)こともできる。あるいは、その中間的な、ある程度データが溜まるたびに学習モードを挟むということも可能である。
また、重みW1〜W3は、誤差逆伝搬法(誤差逆転伝播法:バックプロパゲーション:Backpropagation)により学習可能なものである。なお、誤差の情報は、右側から入り左側に流れる。誤差逆伝搬法は、各ニューロンについて、入力xが入力されたときの出力yと真の出力y(教師)との差分を小さくするように、それぞれの重みを調整(学習)する手法である。
このようなニューラルネットワークは、三層以上に、さらに層を増やすことも可能である(深層学習と称される)。また、入力の特徴抽出を段階的に行い、結果を回帰する演算装置を、教師データのみから自動的に獲得することも可能である。そこで、一実施形態の機械学習装置5は、上述のQ学習(強化学習)を実施すべく、図2に示されるように、例えば、状態観測部51、学習部54、および意思決定部58を備えている。ただし、本発明に適用される機械学習方法は、Q学習に限定されないのは前述した通りである。すなわち、機械学習装置で用いることができる手法である「教師あり学習」、「教師なし学習」、「半教師あり学習」、および「強化学習(Q学習以外の強化学習)」等の様々な手法が適用可能である。
図6は、本実施の形態における移動点を説明する概略図を示す。図6では、説明を簡略化するために2次元の平面上をロボット先端点が移動する例を示している。ワークWは、初期位置88から目標位置89まで搬送される。ロボット先端点が移動する可能性のある領域には、格子状に移動点Pが設定されている。移動点Pは、ロボット先端点が通過する点になる。ロボット先端点は、初期位置88に対応する移動点P00から目標位置89に対応する移動点Pnmまで移動する。
図7は、ロボット先端点の移動を説明する概略図を示す。本実施の形態では、それぞれの移動点Pにおいて、ロボット先端点の移動方向が予め定められている。矢印94〜97に示す方向は、ロボット先端点の移動方向になる。ロボット先端点が一つの移動点Pに位置していたときに、次の行動では隣接する他の移動点Pにロボット先端点が移動する。図7に示す例では、ロボット先端点が移動点P11に配置されていたときに、ロボット先端点は、移動点P12,P21,P10,P01のいずれかの点に移動する。
本実施の形態においては、様々な機械学習方法うち、上述したQ学習を採用した強化学習を行う。また、本実施の形態の訓練データセットは、複数の行動価値変数Qを含む。なお、本実施形態は、「教師あり学習」、「教師なし学習」、「半教師あり学習」および「強化学習(Q学習を含む)」等の様々な手法が適用可能なのは、前述した通りである。
本実施の形態では、状態stは、ロボット1の状態変数に対応する。すなわち、状態stには、ロボット1の位置、姿勢、速度、および加速度等が含まれる。行動atは、ロボット先端点の移動に関して、例えば、矢印94〜97に示す方向の移動が相当する。行動atには、例えば、矢印94〜97に示す方向の移動に関するロボット1の位置、姿勢、速度、および加速度等が含まれる。
本実施の形態の学習部54は、ワークWの搬送を行う毎に行動価値変数Qを更新する。学習部54は、報酬を設定する報酬計算部55と、行動価値変数Qを更新する関数更新部56とを含む。報酬計算部55は、判定データ取得部52が取得した判定データに基づいて報酬rtを設定する。また、報酬計算部55は、状態観測部51にて取得した状態変数に基づいて報酬rtを設定しても構わない。
報酬計算部55は、人の負担(負担度)が小さく、作業効率が良いほど大きな報酬rtを設定することができる。例えば、ワークWが大きく減速した場合や大きく加速した場合には、人への負担が大きくなり、作業効率が悪くなる。すなわち、ロボット1の加速度の絶対値(加速度の大きさ)が小さいほど人の負担が小さく、作業効率が良いと考えることができる。または、加速度の絶対値が大きいと、ロボット1が急激に動作しているために、好ましくない状態と判別することができる。このために、報酬計算部55は、ロボット1の加速度の絶対値が小さいほど大きな報酬を設定することができる。また、人が加える力の大きさは、小さいほど好ましい。そこで、報酬計算部55は、人が加える力の大きさ(ロボットに加わる外力の大きさ)が小さいほど大きな報酬を設定することができる。
更に、ワークWを初期位置88から目標位置89まで搬送する作業時間が短い方が人の負担は小さく、作業効率は良い。そこで、報酬計算部55は、移動点P同士の移動時間が短いほど大きな報酬を設定する。また、図5の形態では、ワークWが下向きに移動すると搬送経路が長くなる。このために、ロボット先端点の位置が下側に移動したり、人の加える力の方向が下側だったりした場合に、報酬計算部55は小さな報酬を設定する。ここで、人の負担度としては、人に対する負担の度合いを意味するだけでなく、様々な要因に基づく負荷、例えば、人に対する予期しない接触や押圧等も含み、さらに、人だけでなく、例えば、周囲の物に対する負担度も含まれ得る。
その他に、報酬計算部55は、任意の人の行動に基づいて、報酬を設定することができる。例えば、ワークWが作業台81に衝突した場合に、報酬計算部55は、小さな正の報酬または負の報酬を設定することができる。
報酬の設定においては、例えば、人が力の大きさ等の変数に対する報酬の値を予め定めておいて、記憶部59に記憶させておくことができる。報酬計算部55は、記憶部59に記憶された報酬を読み込んで設定することができる。または、人が報酬を算出するための計算式を予め記憶部59に記憶させておいて、報酬計算部55が計算式に基づいて報酬を算出しても構わない。
次に、関数更新部56は、上記の式(1)または式(2)を用いて、行動価値変数Qを更新する。すなわち、実際のロボットの行動および人が加えた力に基づいて、予め定められた移動点におけるロボットの行動の価値を更新する。
なお、それぞれの移動点Pにおける行動価値変数Qの初期値は、人が予め設定しておくことができる。または、人がランダムな初期値を予め設定しておいても構わない。
機械学習装置5は、訓練データセットに基づいてロボット1の行動を設定する意思決定部58を含む。本実施の形態の意思決定部58は、学習部54にて更新された行動価値変数Qに基づいてロボット1の行動を設定する。例えば、意思決定部58は、行動価値変数Qが最も大きな行動を選択することができる。本実施の形態の強化学習においては、ε−greedy法を用いている。ε−greedy法では、意思決定部58は、予め定められた確率εにてランダムな行動を設定する。また、意思決定部58は、確率(1−ε)にて行動価値変数Qが最大になる行動を設定する。すなわち、意思決定部58は、確率εの割合で最適と考えられる行動とは異なる行動を選択する。この方法により、最適と判定されていたロボットの行動よりも優れたロボットの行動を発見できる場合がある。
意思決定部58にて設定されたロボット1の行動の指令は、行動制御部43に送出される。行動制御部43は、意思決定部58からの指令に基づいてロボット1およびハンド6を制御する。
このように、本実施の形態の機械学習方法は、人とロボットが協働して作業を行う期間中にロボットの状態を示す状態変数を取得する工程と、人の負担度および作業効率のうち少なくとも一方に関する判定データを取得する工程とを含む。機械学習方法は、状態変数および判定データに基づいて、ロボットの行動を定めるための訓練データセットを学習する工程を含む。
本実施の形態の機械学習装置および機械学習方法は、ワークWの搬送を繰り返すことにより、人の行動パターンに基づいて、ロボットの制御方法を学習することができる。そして、人の負担が小さく、作業効率が良く、更に作業時間が短い最適なロボットの制御方法を設定することができる。
なお、機械学習装置および機械学習方法にて行う機械学習としては、上記の形態に限られず、任意の機械学習を行うことができる。例えば、機械学習装置は、深層学習(ディープラーニング)によりニューラルネットワークを用いて多層化して最適な行動を設定しても構わない。複数の行動および複数の状態を関数にする行動価値変数の表を用いる代わりに、所定の状態を与えたときのそれぞれの行動に対する行動価値変数を出力するニューラルネットワークを用いることができる。
上記の実施の形態では、移動点は格子状に配置されているが、この形態に限られず、任意の形態で移動点を設定することができる。また、移動点同士の間隔を小さくすることにより、ロボットの動作を滑らかにすることができる。上記の実施の形態では、平面上に移動点が設定されているためにロボットの移動は平面状になっているが、移動点を3次元の空間に配置することにより、ロボットを3次元にて移動させることができる。
ところで、図5を参照して、本実施の形態における機械学習装置5は、人を判別する人判別部57を含む。人ごとの訓練データセットが予め作成されている。記憶部59は、人ごとの訓練データセットを記憶している。本実施の形態においては、人85が入力部41に人ごとの番号を入力する。人判別部57は、入力された番号に基づいて人に対応をする訓練データセットを記憶部59から読み込む。そして、学習部54は、人に対応した訓練データセットを学習する。この制御を行うことにより、人の行動パターンに基づいたロボットの制御方法を、人ごとに設定することができる。すなわち、人ごとに最適なロボットの制御を実施することができる。例えば、人には、身長の高い人、身長の低い人、足腰が強い人、腕の力が強い人などの様々な人が存在する。それぞれの人に合わせて、最適なロボットの制御を実現することができる。
なお、人を判別する制御としては、上記の形態に限られず、任意の方法を採用することができる。例えば、機械学習装置に番号読取り装置を配置することができる。人が個別の番号が記載された札を持参する。そして、番号読取り装置は、番号を読取って結果を人判別部に送出する。人判別部は、読み取った番号に基づいて人を判別することができる。
図8は、本実施の形態における他のロボットシステムのブロック図を示す。他のロボットシステム(製造システム)4においては、分散学習を行う。図8に示されるように、他のロボットシステム4は、複数のロボットと複数のロボット制御装置とを備える。ロボットシステム4は、第1のロボット1aと第2のロボット1bとを備える。ロボットシステム4は、第1のロボット1aに取り付けられた第1のハンド6aと、第2のロボット1bに取り付けられた第2のハンド6bとを備える。このように、他のロボットシステム4は、2つのロボット1a,1bと2つのハンド6a,6bを備える。
ロボットシステム4は、第1のロボット1aを制御する第1のロボット制御装置2aと、第2のロボット1bを制御する第2のロボット制御装置2bとを備える。第1のロボット制御装置2aの構成および第2のロボット制御装置2bの構成は、前述のロボット制御装置2の構成と同様である。複数のロボット制御装置2a,2bは、通信線21を含む通信装置により互いに接続されている。通信装置は、例えばイーサネット(登録商標)にて通信を実施することができる。ロボット制御装置2a,2bは、通信により互いの情報を交換できるように形成されている。
ロボットシステム4においては、複数のロボット1a,1bおよび人が協働して作業を行う。図8に示す例では、2台のロボットで人の作業を補助する。第1のロボット制御装置2aは、第1のロボット1aの制御について個別に学習する。また、第2のロボット制御装置2bは、第2のロボット1bの制御について個別に学習する。そして、それぞれのロボット制御装置にて学習した情報は、通信線21を介して互いに送信する。
このように、それぞれのロボット制御装置2a,2bにて学習した情報を第1のロボット制御装置2aおよび第2のロボット制御装置2bで共有することができる。この制御を実施することにより、学習のための行動パターン等を共有して、学習の回数を増やすことができる。この結果、学習の精度を高めることができる。
上記の実施の形態においては、ワークWを搬送する協働作業について例示しているが、協働作業としては、この形態に限られず、任意の協働作業を採用することができる。例えば、ロボットと人が協働して、1つの部品を所定の装置に組み付ける作業などを例示することができる。
図9は、図2に示すロボットシステムの変形例のブロック図であり、教師あり学習を適用したロボットシステム3’を示すものである。図9に示されるように、ロボットシステム3’は、例えば、ロボット1、ハンド6、およびロボット制御装置2’を含む。ロボット制御装置2’は、機械学習装置7、入力部41、表示部42、行動制御部43、外力算出部46、および移動時間測定部47を含む。機械学習装置7は、態観測部71、判定データ取得部72、学習部74、人判別部77、意思決定部78、および記憶部79を含む。学習部74は、報酬計算部55および関数更新部56を含む。
すなわち、図9と、前述した図2の比較から明らかなように、図9に示す変形例のロボットシステム3’の学習部74において、図2の学習部54における報酬計算部55および関数更新部56は、誤差計算部75および学習モデル更新部76に置き換わっている。なお、他の構成は、実質的に、図2に示す機械学習装置5におけるものと同様であり、その説明は省略する。誤差計算部75には、外部から教師データが入力され、例えば、それまでの学習により得られたものとの誤差が小さくなるような計算が行われ、学習モデル更新部76により、学習モデル(誤差モデル)の更新が行われる。すなわち、誤差計算部75は、状態観測部71の出力および教師データ等を受け取って、例えば、結果(ラベル)付きデータと学習部74に実装されている学習モデルの出力との誤差を計算する。ここで、教師データは、例えば、ロボット制御装置2’に入力するプログラム(ロボットシステム3’が処理する動作)が同一の場合、ロボットシステム3’に処理を行わせる所定日の前日までに得られた結果(ラベル)付きデータを保持し、その所定日に、結果(ラベル)付きデータを誤差計算部75に提供することができる。
あるいは、ロボットシステム3’の外部で行われたシミュレーションなどにより得られたデータ、または、他のロボットシステムの結果(ラベル)付きデータを、メモリカードや通信回線により、そのロボットシステム3’の誤差計算部75に教師データとして提供することも可能である。さらに、結果(ラベル)付きデータを、例えば、学習部74に内蔵したフラッシュメモリ(Flash Memory)などの不揮発性メモリに保持し、その不揮発性メモリに保持された結果(ラベル)付きデータを、そのまま学習部74で使用することもできる。
以上において、ロボットシステム3’(3)を複数備えた製造システム(製造設備)を考えた場合、例えば、機械学習装置7(5)は、ロボットシステム3’(3)毎にそれぞれ設けられ、複数のロボットシステム3’(3)に設けられた複数の機械学習装置7(5)は、例えば、通信媒体を介して相互にデータを共有または交換することが可能である。また、機械学習装置7(5)は、例えば、クラウドサーバ上に存在させることも可能である。
以上、実施形態を説明したが、ここに記載したすべての例や条件は、発明および技術に適用する発明の概念の理解を助ける目的で記載されたものであり、特に記載された例や条件は発明の範囲を制限することを意図するものではない。また、明細書のそのような記載は、発明の利点および欠点を示すものでもない。発明の実施形態を詳細に記載したが、各種の変更、置き換え、変形が発明の精神および範囲を逸脱することなく行えることが理解されるべきである。
1,1a,1b ロボット
2,2’,2a,2b ロボット制御装置
3,3’,4 ロボットシステム
5,7 機械学習装置
15 回転角検出器
19 力検出器
43 行動制御部
46 外力算出部
47 移動時間測定部
51,71 状態観測部
52,72 判定データ取得部
54,74 学習部
55 報酬計算部
56 関数更新部
57,77 人判別部
58,78 意思決定部
59,79 記憶部
75 誤差計算部
76 学習モデル更新部
85 人
W ワーク

Claims (13)

  1. 人とロボットが協働して作業を行うロボットの機械学習装置であって、
    前記人と前記ロボットが協働して作業を行う期間中に、前記ロボットの状態を示す状態変数を観測する状態観測部と、
    前記人の負担度および作業効率のうち少なくとも一方に関する判定データを取得する判定データ取得部と、
    前記状態変数および前記判定データに基づいて、前記ロボットの行動を設定するための訓練データセットを学習する学習部と、を備え、
    前記訓練データセットは、
    前記ロボットの状態および前記ロボットの行動ごとに設定された前記ロボットの行動の価値を示す行動価値変数を含み、
    前記学習部は、
    前記判定データおよび前記状態変数に基づいて報酬を設定する報酬計算部と、
    前記報酬および前記状態変数に基づいて、前記行動価値変数を更新する関数更新部と、を含み、
    前記ロボットの行動および前記人が加えた力に基づいて、予め定められた移動点における前記ロボットの行動の価値を更新する、
    ことを特徴とする機械学習装置。
  2. 前記状態変数は、前記ロボットの位置、姿勢、速度、および加速度のうち少なくとも一つを含む、
    ことを特徴とする請求項1に記載の機械学習装置。
  3. 前記判定データは、前記ロボットが感知する負荷の大きさや方向、前記ロボットの周囲が感知する負荷の大きさや方向、前記ロボットの周囲の負担度、および前記ロボットの移動時間のうち少なくとも一つを含む、
    ことを特徴とする請求項1または請求項2に記載の機械学習装置。
  4. 前記報酬計算部は、前記ロボットの加速度の絶対値が小さいほど大きな報酬を設定し、前記ロボットの移動時間が短いほど大きな報酬を設定する、
    ことを特徴とする請求項に記載の機械学習装置。
  5. さらに、
    前記ロボットと協働で作業する人を判別する人判別部を備え、
    前記訓練データセットは、人ごとに作成されており、
    前記学習部は、判別された人の前記訓練データセットを学習する、
    ことを特徴とする請求項1乃至請求項のいずれか一項に記載の機械学習装置。
  6. 前記機械学習装置は、ニューラルネットワークを備える、
    ことを特徴とする請求項1乃至請求項のいずれか一項に記載の機械学習装置。
  7. 前記ロボットは、産業用ロボット、フィールドロボット、またはサービスロボットである、
    ことを特徴とする請求項1乃至請求項のいずれか一項に記載の機械学習装置。
  8. 請求項1乃至請求項のいずれか一項に記載の機械学習装置と、
    前記ロボットの行動を制御する行動制御部と、を備え、
    前記機械学習装置は、前記訓練データセットに基づいて前記ロボットの行動を設定する意思決定部を含み、
    前記行動制御部は、前記意思決定部からの指令に基づいて前記ロボットの行動を制御する、
    ことを特徴とするロボット制御装置。
  9. 請求項に記載のロボット制御装置と、
    人の作業を補助するロボットと、
    前記ロボットに取り付けられたエンドエフェクタと、を備える、
    ことを特徴とするロボットシステム。
  10. 前記ロボットは、前記人からの力に対応した信号を出力する力検出器と、
    前記ロボットの位置および姿勢を検出する状態検出器と、を含み、
    前記判定データ取得部は、前記力検出器の出力に基づいて前記判定データを取得し、
    前記状態観測部は、前記状態検出器の出力に基づいて前記状態変数を取得する、
    ことを特徴とする請求項に記載のロボットシステム。
  11. 前記状態検出器は、人感センサ、圧力センサ、モータのトルクセンサ、および接触センサの少なくとも一つを含む、
    ことを特徴とする請求項10に記載のロボットシステム。
  12. 複数のロボットと、
    複数のロボット制御装置と、
    複数の前記ロボット制御装置を互いに接続する通信線と、を備え、
    複数の前記ロボット制御装置のそれぞれは、制御を行うロボットの前記訓練データセットを個別に学習し、学習した情報を通信線を介して送信することにより共有する、
    ことを特徴とする請求項10または請求項11に記載のロボットシステム。
  13. 人とロボットが協働して作業を行うロボットの機械学習方法であって、
    前記人と前記ロボットが協働して作業を行う期間中に、前記ロボットの状態を示す状態変数を観測する工程と、
    前記人の負担度および作業効率のうち少なくとも一方に関する判定データを取得する工程と、
    前記状態変数および前記判定データに基づいて、前記ロボットの行動を設定するための訓練データセットを学習する工程と、を含み、
    前記訓練データセットは、
    前記ロボットの状態および前記ロボットの行動ごとに設定された前記ロボットの行動の価値を示す行動価値変数を含み、
    前記学習する工程は、
    前記判定データおよび前記状態変数に基づいて報酬を設定する工程と、
    前記報酬および前記状態変数に基づいて、前記行動価値変数を更新する工程と、を含み
    前記ロボットの行動および前記人が加えた力に基づいて、予め定められた移動点における前記ロボットの行動の価値を更新する、
    ことを特徴とする機械学習方法。
JP2016015538A 2015-07-31 2016-01-29 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 Active JP6240689B2 (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2016015538A JP6240689B2 (ja) 2015-07-31 2016-01-29 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
DE102016015866.2A DE102016015866B3 (de) 2015-07-31 2016-07-27 Maschinelle Lernvorrichtung, Robotercontroller, Robotersystem und maschinelles Lernverfahren zum Lernen des Handlungsmusters einer Person
DE102016015942.1A DE102016015942B8 (de) 2015-07-31 2016-07-27 Maschinelle Lernvorrichtung, Robotercontroller, Robotersystem und maschinelles Lernverfahren zum Lernen des Handlungsmusters einer Person
DE102016009113.4A DE102016009113B4 (de) 2015-07-31 2016-07-27 Maschinelle Lernvorrichtung, Robotercontroller, Robotersystem und maschinelles Lernverfahren zum Lernen des Handlungsmusters einer Person
US15/222,947 US20170028553A1 (en) 2015-07-31 2016-07-29 Machine learning device, robot controller, robot system, and machine learning method for learning action pattern of human
CN201811360279.9A CN109434832B (zh) 2015-07-31 2016-07-29 机械学习装置及方法、机器人系统
CN201610615047.8A CN106393101B (zh) 2015-07-31 2016-07-29 机械学习装置及方法、机器人控制装置、机器人系统
US16/371,809 US10807235B2 (en) 2015-07-31 2019-04-01 Machine learning device, robot controller, robot system, and machine learning method for learning action pattern of human
US17/023,376 US11904469B2 (en) 2015-07-31 2020-09-17 Machine learning device, robot controller, robot system, and machine learning method for learning action pattern of human

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015151561 2015-07-31
JP2015151561 2015-07-31
JP2016015538A JP6240689B2 (ja) 2015-07-31 2016-01-29 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法

Publications (2)

Publication Number Publication Date
JP2017030137A JP2017030137A (ja) 2017-02-09
JP6240689B2 true JP6240689B2 (ja) 2017-11-29

Family

ID=57795710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016015538A Active JP6240689B2 (ja) 2015-07-31 2016-01-29 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法

Country Status (4)

Country Link
US (3) US20170028553A1 (ja)
JP (1) JP6240689B2 (ja)
CN (2) CN109434832B (ja)
DE (3) DE102016009113B4 (ja)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10888996B2 (en) * 2015-04-03 2021-01-12 Think Surgical, Inc. Robotic system with intuitive motion control
US11112781B2 (en) * 2015-07-31 2021-09-07 Heinz Hemken Training an autonomous robot using previously captured data
US20170249561A1 (en) * 2016-02-29 2017-08-31 GM Global Technology Operations LLC Robot learning via human-demonstration of tasks with force and position objectives
JP6392910B2 (ja) * 2017-01-13 2018-09-19 ファナック株式会社 ロボットの安全確保動作機能を備えた人間協働ロボットシステム
JP6789848B2 (ja) * 2017-02-27 2020-11-25 株式会社東芝 アイソレーション管理システムおよびアイソレーション管理方法
JP2018156151A (ja) * 2017-03-15 2018-10-04 ファナック株式会社 異常検知装置及び機械学習装置
JP6603257B2 (ja) 2017-03-31 2019-11-06 ファナック株式会社 行動情報学習装置、管理装置、ロボット制御システム及び行動情報学習方法
JP6546618B2 (ja) 2017-05-31 2019-07-17 株式会社Preferred Networks 学習装置、学習方法、学習モデル、検出装置及び把持システム
JP6542839B2 (ja) * 2017-06-07 2019-07-10 ファナック株式会社 制御装置及び機械学習装置
JP6886869B2 (ja) * 2017-06-09 2021-06-16 川崎重工業株式会社 動作予測システム及び動作予測方法
WO2018229881A1 (ja) * 2017-06-13 2018-12-20 株式会社日本製鋼所 スクリュ形状推定装置、スクリュ形状推定方法、スクリュ形状推定プログラム
JP6577527B2 (ja) 2017-06-15 2019-09-18 ファナック株式会社 学習装置、制御装置及び制御システム
JP6680730B2 (ja) * 2017-08-08 2020-04-15 ファナック株式会社 制御装置及び学習装置
JP6691077B2 (ja) * 2017-08-18 2020-04-28 ファナック株式会社 制御装置及び機械学習装置
JP6695843B2 (ja) 2017-09-25 2020-05-20 ファナック株式会社 装置、及びロボットシステム
JP6659652B2 (ja) * 2017-10-31 2020-03-04 ファナック株式会社 加工条件調整装置及び機械学習装置
JP6680748B2 (ja) * 2017-11-17 2020-04-15 ファナック株式会社 制御装置及び機械学習装置
JP2019098407A (ja) 2017-11-28 2019-06-24 ファナック株式会社 ロボット
JP6571741B2 (ja) * 2017-11-29 2019-09-04 ファナック株式会社 作業者管理装置
JP6884685B2 (ja) 2017-12-08 2021-06-09 三菱重工業株式会社 制御装置、無人システム、制御方法及びプログラム
JP6662926B2 (ja) 2018-01-31 2020-03-11 ファナック株式会社 ロボットおよびロボットに関する保守時期の報知方法
JP6711854B2 (ja) 2018-02-22 2020-06-17 ファナック株式会社 故障予測装置及び機械学習装置
JP6955702B2 (ja) 2018-03-06 2021-10-27 オムロン株式会社 情報処理装置、情報処理方法、及びプログラム
KR102025412B1 (ko) * 2018-03-26 2019-11-04 (주)뉴텍오토메이션 머신러닝을 이용한 모듈형 포장기의 커터 교체 제어 시스템
JP6810087B2 (ja) * 2018-03-29 2021-01-06 ファナック株式会社 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
US10875176B2 (en) 2018-04-04 2020-12-29 Kuka Systems North America Llc Process control using deep learning training model
US11579000B2 (en) * 2018-04-05 2023-02-14 Fanuc Corporation Measurement operation parameter adjustment apparatus, machine learning device, and system
CN110390845A (zh) * 2018-04-18 2019-10-29 北京京东尚科信息技术有限公司 虚拟环境下机器人训练方法及装置、存储介质及计算机系统
KR102519064B1 (ko) 2018-04-25 2023-04-06 삼성전자주식회사 사용자에게 서비스를 제공하는 이동형 로봇 장치 및 방법
JP7039389B2 (ja) * 2018-05-25 2022-03-22 川崎重工業株式会社 ロボットシステム及びロボット制御方法
CN112135719B (zh) * 2018-06-14 2023-08-22 雅马哈发动机株式会社 机器学习装置以及具备该机器学习装置的机器人系统
WO2019243797A1 (en) 2018-06-19 2019-12-26 Bae Systems Plc Workbench system
EP3998139B1 (en) * 2018-06-19 2023-07-26 BAE SYSTEMS plc Workbench system
EP3584038A1 (en) * 2018-06-19 2019-12-25 BAE SYSTEMS plc Workbench system
WO2020009139A1 (ja) * 2018-07-04 2020-01-09 株式会社Preferred Networks 学習方法、学習装置、学習システム及びプログラム
WO2020008634A1 (ja) 2018-07-06 2020-01-09 三菱電機株式会社 機械学習装置、数値制御装置、工作機械および機械学習方法
JP7060546B2 (ja) * 2018-07-10 2022-04-26 ファナック株式会社 歯当たり位置調整量推定装置、機械学習装置、ロボットシステム及び歯当たり位置調整量推定システム
JP7401184B2 (ja) * 2018-08-10 2023-12-19 川崎重工業株式会社 ロボットシステム
KR102511814B1 (ko) * 2018-08-10 2023-03-20 카와사키 주코교 카부시키 카이샤 정보 처리 장치, 로봇 조작 시스템 및 로봇 조작 방법
JP7281348B2 (ja) * 2018-08-10 2023-05-25 川崎重工業株式会社 トレーニング処理装置、仲介装置、トレーニングシステム及びトレーニング処理方法
DE102019006725B4 (de) * 2018-10-02 2023-06-01 Fanuc Corporation Steuereinrichtung und Steuersystem
JP7211007B2 (ja) * 2018-10-30 2023-01-24 セイコーエプソン株式会社 制御装置、ロボットシステムおよび制御方法
WO2020105157A1 (ja) * 2018-11-21 2020-05-28 株式会社日立製作所 作業最適化システムおよび作業最適化装置
JP6839160B2 (ja) * 2018-11-21 2021-03-03 本田技研工業株式会社 ロボット装置、ロボットシステム、ロボット制御方法、およびプログラム
JP6644191B1 (ja) * 2018-12-26 2020-02-12 三菱電機株式会社 ロボット制御装置、ロボット制御学習装置、及びロボット制御方法
CN109784400A (zh) * 2019-01-12 2019-05-21 鲁班嫡系机器人(深圳)有限公司 智能体行为训练方法、装置、系统、存储介质及设备
US20200301510A1 (en) * 2019-03-19 2020-09-24 Nvidia Corporation Force estimation using deep learning
JP6816783B2 (ja) * 2019-03-20 2021-01-20 株式会社タダノ クレーン
JP6816784B2 (ja) * 2019-03-20 2021-01-20 株式会社タダノ クレーン
JP7263920B2 (ja) * 2019-05-23 2023-04-25 トヨタ自動車株式会社 演算装置、制御プログラム、機械学習器及び把持装置
JP7211280B2 (ja) * 2019-06-27 2023-01-24 トヨタ自動車株式会社 学習装置、歩行訓練システム、方法、プログラム、及び学習済みモデル
JP7207207B2 (ja) 2019-07-09 2023-01-18 トヨタ自動車株式会社 演算装置、機械学習方法及び制御プログラム
JP7432430B2 (ja) 2019-09-05 2024-02-16 株式会社国際電気通信基礎技術研究所 動作支援装置および動作支援方法
JP7221839B2 (ja) * 2019-10-08 2023-02-14 国立大学法人静岡大学 自律移動ロボットおよび自律移動ロボットの制御プログラム
US20210125052A1 (en) * 2019-10-24 2021-04-29 Nvidia Corporation Reinforcement learning of tactile grasp policies
CN110861089B (zh) * 2019-11-29 2020-11-06 北京理工大学 一种多机器人系统任务均衡分配协同工作控制方法
KR102279329B1 (ko) * 2020-01-30 2021-07-21 한국과학기술연구원 로봇 교시 시스템
CN111230873B (zh) * 2020-01-31 2022-02-01 武汉大学 一种基于示教学习的协作搬运控制系统及方法
US11685047B2 (en) 2020-05-21 2023-06-27 Intrinsic Innovation Llc Skill template distribution for robotic demonstration learning
US11534913B2 (en) 2020-05-21 2022-12-27 Intrinsic Innovation Llc Integrating sensor streams for robotic demonstration learning
US11472025B2 (en) 2020-05-21 2022-10-18 Intrinsic Innovation Llc Robotic demonstration learning device
US11524402B2 (en) 2020-05-21 2022-12-13 Intrinsic Innovation Llc User feedback for robotic demonstration learning
US11679497B2 (en) 2020-05-21 2023-06-20 Intrinsic Innovation Llc Distributed robotic demonstration learning
US11820014B2 (en) 2020-05-21 2023-11-21 Intrinsic Innovation Llc Simulated local demonstration data for robotic demonstration learning
US11554482B2 (en) 2020-07-16 2023-01-17 Hitachi, Ltd. Self-learning industrial robotic system
DE102021006546A1 (de) 2020-12-29 2022-07-28 B-Horizon GmbH Verfahren zum nutzerabhängigen Betreiben zumindest eines Datenverarbeitungssystems
JP2022122670A (ja) * 2021-02-10 2022-08-23 オムロン株式会社 ロボットモデルの学習装置、ロボットモデルの機械学習方法、ロボットモデルの機械学習プログラム、ロボット制御装置、ロボット制御方法、及びロボット制御プログラム
US20220402123A1 (en) * 2021-06-21 2022-12-22 X Development Llc State estimation for a robot execution system
CN114030008B (zh) * 2021-11-24 2023-08-22 浙江大学 一种基于数据驱动的工业机器人实训能耗测量方法
EP4252970A1 (en) * 2022-03-31 2023-10-04 Honda Research Institute Europe GmbH Controlling a robot based on an optimized cooperation with other agents
DE102022111781B4 (de) 2022-05-11 2023-11-30 Festo Se & Co. Kg Pneumatisches Aktorsystem

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3940110A (en) * 1974-04-12 1976-02-24 Kenro Motoda Lifting apparatus
US5172253A (en) * 1990-06-21 1992-12-15 Inernational Business Machines Corporation Neural network model for reaching a goal state
JPH0588721A (ja) 1991-09-30 1993-04-09 Fujitsu Ltd 関節型ロボツトの制御装置
US5333210A (en) 1992-07-02 1994-07-26 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Method and system for pattern analysis using a coarse-coded neural network
JPH06203166A (ja) 1993-01-06 1994-07-22 Fujitsu Ltd 多次元位置測定,制御装置,及び、学習方法
US5865426A (en) * 1996-03-27 1999-02-02 Kazerooni; Homayoon Human power amplifier for vertical maneuvers
DE69716018T2 (de) * 1996-12-16 2003-02-06 Sankyo Seiki Seisakusho Kk Verfahren und Steuerungsgerät zur Steuerung einer Krafthilfeeinrichtung
US6353814B1 (en) * 1997-10-08 2002-03-05 Michigan State University Developmental learning machine and method
JP3211186B2 (ja) 1997-12-15 2001-09-25 オムロン株式会社 ロボット、ロボットシステム、ロボットの学習方法、ロボットシステムの学習方法および記録媒体
US6272396B1 (en) * 1998-02-20 2001-08-07 Tairob Industrial Technology Ltd. Method for applying knowledge from a skilled worker via a master expert machine to a slave expert machine for repetitive tasks
JPH11272845A (ja) 1998-03-23 1999-10-08 Denso Corp 画像認識装置
JP3504507B2 (ja) * 1998-09-17 2004-03-08 トヨタ自動車株式会社 適切反力付与型作業補助装置
JP3859371B2 (ja) 1998-09-25 2006-12-20 松下電工株式会社 ピッキング装置
WO2004103651A1 (ja) * 1999-06-01 2004-12-02 Hirohiko Arai 物体協調運搬ロボットの制御方法及びその装置
US6204619B1 (en) 1999-10-04 2001-03-20 Daimlerchrysler Corporation Dynamic control algorithm and program for power-assisted lift device
JP3188953B2 (ja) * 1999-10-13 2001-07-16 経済産業省産業技術総合研究所長 パワーアシスト装置およびその制御方法
WO2001072478A1 (fr) 2000-03-31 2001-10-04 Sony Corporation Dispositif robotique, procede de commande de l'action du dispositif robotique, dispositif de detection de force exterieure, et procede de detection de force exterieure
US6925357B2 (en) 2002-07-25 2005-08-02 Intouch Health, Inc. Medical tele-robotic system
EP1484716A1 (en) * 2003-06-06 2004-12-08 Sony France S.A. An architecture for self-developing devices
JP3834307B2 (ja) 2003-09-29 2006-10-18 ファナック株式会社 ロボットシステム
JP2005118959A (ja) * 2003-10-17 2005-05-12 Toyoda Mach Works Ltd 作業支援装置、作業支援方法、位置決め作業支援装置およびパワーアシスト作業支援装置
JP4630553B2 (ja) 2004-01-15 2011-02-09 ソニー株式会社 動的制御装置および動的制御装置を用いた2足歩行移動体
US20060293617A1 (en) * 2004-02-05 2006-12-28 Reability Inc. Methods and apparatuses for rehabilitation and training
JP2006110702A (ja) * 2004-10-18 2006-04-27 Fanuc Ltd 学習制御機能を備えたロボット及びロボットの制御方法
JP5052013B2 (ja) * 2005-03-17 2012-10-17 ソニー株式会社 ロボット装置及びその制御方法
US7860609B2 (en) * 2005-05-06 2010-12-28 Fanuc Robotics America, Inc. Robot multi-arm control system
JP4746349B2 (ja) 2005-05-18 2011-08-10 日本電信電話株式会社 ロボット行動選択装置及びロボット行動選択方法
JP4153528B2 (ja) 2006-03-10 2008-09-24 ファナック株式会社 ロボットシミュレーションのための装置、プログラム、記録媒体及び方法
JP2007280054A (ja) 2006-04-06 2007-10-25 Sony Corp 学習装置および学習方法、並びにプログラム
JP4199264B2 (ja) 2006-05-29 2008-12-17 ファナック株式会社 ワーク取り出し装置及び方法
JP4238256B2 (ja) 2006-06-06 2009-03-18 ファナック株式会社 ロボットシミュレーション装置
CN101646534B (zh) * 2007-06-27 2012-03-21 松下电器产业株式会社 机器手控制装置及控制方法、机器人
WO2009004772A1 (ja) * 2007-07-05 2009-01-08 Panasonic Corporation ロボットアームの制御装置及び制御方法、ロボット、及び制御プログラム
US7957583B2 (en) 2007-08-02 2011-06-07 Roboticvisiontech Llc System and method of three-dimensional pose estimation
JP2009262279A (ja) 2008-04-25 2009-11-12 Nec Corp ロボット、ロボットプログラム共有システム、ロボットプログラム共有方法およびプログラム
JP4565023B2 (ja) 2008-07-04 2010-10-20 ファナック株式会社 物品取り出し装置
US8559699B2 (en) 2008-10-10 2013-10-15 Roboticvisiontech Llc Methods and apparatus to facilitate operations in image based systems
JP5330138B2 (ja) 2008-11-04 2013-10-30 本田技研工業株式会社 強化学習システム
JP4568795B2 (ja) * 2009-01-09 2010-10-27 パナソニック株式会社 ロボットアームの制御装置及び制御方法、ロボット、ロボットアームの制御プログラム、並びに、集積電子回路
EP2249292A1 (en) 2009-04-03 2010-11-10 Siemens Aktiengesellschaft Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot
JP5528214B2 (ja) * 2010-05-28 2014-06-25 本田技研工業株式会社 学習制御システム及び学習制御方法
FI20105732A0 (fi) 2010-06-24 2010-06-24 Zenrobotics Oy Menetelmä fyysisten kappaleiden valitsemiseksi robottijärjestelmässä
JP5767464B2 (ja) 2010-12-15 2015-08-19 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
JP5750657B2 (ja) 2011-03-30 2015-07-22 株式会社国際電気通信基礎技術研究所 強化学習装置、制御装置、および強化学習方法
US20150127154A1 (en) * 2011-06-02 2015-05-07 Brain Corporation Reduced degree of freedom robotic controller apparatus and methods
JP5623358B2 (ja) 2011-09-06 2014-11-12 三菱電機株式会社 ワーク取り出し装置
JP2013180369A (ja) * 2012-03-01 2013-09-12 Ihi Corp 適応性機械
US9308645B2 (en) * 2012-03-21 2016-04-12 GM Global Technology Operations LLC Method of inferring intentions of an operator to move a robotic system
US8965580B2 (en) * 2012-06-21 2015-02-24 Rethink Robotics, Inc. Training and operating industrial robots
JP5642738B2 (ja) 2012-07-26 2014-12-17 ファナック株式会社 バラ積みされた物品をロボットで取出す装置及び方法
JP6247296B2 (ja) * 2012-08-15 2017-12-13 インテュイティブ サージカル オペレーションズ, インコーポレイテッド 手術用装着プラットフォームの使用者起動のクラッチ離脱
JP5670397B2 (ja) 2012-08-29 2015-02-18 ファナック株式会社 バラ積みされた物品をロボットで取出す装置及び方法
JP2014081863A (ja) 2012-10-18 2014-05-08 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
JP5968259B2 (ja) 2013-04-11 2016-08-10 日本電信電話株式会社 線形モデルに基づく強化学習方法とその装置とプログラム
JP5929854B2 (ja) 2013-07-31 2016-06-08 株式会社安川電機 ロボットシステムおよび被加工物の製造方法
WO2015037165A1 (ja) * 2013-09-12 2015-03-19 日本電気株式会社 情報処理装置、予測制御方法及び記録媒体
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
JP5902664B2 (ja) 2013-12-25 2016-04-13 ファナック株式会社 保護部材を有する人協調型産業用ロボット
CN103753557B (zh) 2014-02-14 2015-06-17 上海创绘机器人科技有限公司 移动式倒立摆系统的自平衡控制方法及自平衡车智能控制系统
DE102016009030B4 (de) 2015-07-31 2019-05-09 Fanuc Corporation Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs

Also Published As

Publication number Publication date
DE102016009113A1 (de) 2017-02-02
CN106393101A (zh) 2017-02-15
US11904469B2 (en) 2024-02-20
US20190224844A1 (en) 2019-07-25
JP2017030137A (ja) 2017-02-09
DE102016015942B3 (de) 2022-08-11
CN106393101B (zh) 2018-11-27
DE102016009113B4 (de) 2019-04-25
US20210001482A1 (en) 2021-01-07
US10807235B2 (en) 2020-10-20
CN109434832B (zh) 2022-04-26
CN109434832A (zh) 2019-03-08
DE102016015866B3 (de) 2020-12-03
US20170028553A1 (en) 2017-02-02
DE102016015942B8 (de) 2022-10-06

Similar Documents

Publication Publication Date Title
JP6240689B2 (ja) 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
US11780095B2 (en) Machine learning device, robot system, and machine learning method for learning object picking operation
US11511420B2 (en) Machine learning device, robot system, and machine learning method for learning operation program of robot
JP6549545B2 (ja) 人の行動を学習してロボットを制御する制御装置およびロボットシステム
US10692018B2 (en) Machine learning device and machine learning method for learning optimal object grasp route
JP7100426B2 (ja) ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
JP6810087B2 (ja) 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
JP6616170B2 (ja) コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法
JP6506245B2 (ja) 組付動作を学習する機械学習装置および部品組付システム
US20180056520A1 (en) Machine learning device, robot system, and machine learning method for learning motion of robot engaged in task performed by human and robot in cooperate with each other
CN109382825B (zh) 控制装置以及学习装置
JP6940425B2 (ja) 制御装置及び機械学習装置
López García et al. A First CNN-based approach towards autonomous flight for object lifting
Nguyen et al. Evaluation of data-driven models in human-robot load-sharing

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171106

R150 Certificate of patent or registration of utility model

Ref document number: 6240689

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250