JP7102241B2

JP7102241B2 - 機械学習装置及びこれを備えたロボットシステム

Info

Publication number: JP7102241B2
Application number: JP2018113672A
Authority: JP
Inventors: 国宗駒池
Original assignee: Yamaha Motor Co Ltd
Current assignee: Yamaha Motor Co Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2022-07-19
Anticipated expiration: 2038-06-14
Also published as: JP2019214112A

Description

本発明は、バラ積みされた状態のワークを取り出すロボットの動作を学習する機械学習装置、及びこの機械学習装置を備えたロボットシステムに関する。

複数のワークをバラ積みされた状態で収容する容器からワークを取り出すシステムとして、ハンド部を備えたロボットによってワークを取り出すロボットシステムが知られている（特許文献１参照）。特許文献１に開示されるロボットシステムは、ロボットの取り出し動作を学習する機械学習装置を備えている。機械学習装置は、三次元計測器により計測されたワークの三次元マップに対応したロボットの動作と、ワークの取り出しの成否の判定結果とを関連付けた教師データに基づいて、容器からワークを取り出す際のロボットの動作を学習している。

容器からのワークの取り出し動作が繰り返されると、ハンド部による次の保持候補となるワークに対するハンド部の保持が不可能となる場合がある。例えば、容器の内面に近接した状態でワークが配置されている場合や、複数のワーク同士が互いに近接した状態で配置されている場合には、ハンド部による保持を可能とするための保持スペースが確保されていない状況となり、このような状況のワークはハンド部による保持が不可能となる。

保持スペースが確保されていないワークをハンド部によって保持可能とするための技術が、例えば特許文献２に開示されている。特許文献２に開示される技術では、容器内のワークをハンド部によって掻き乱す。しかしながら、容器内のワークをハンド部によって無作為に掻き乱すので、保持スペースが十分に確保されずにハンド部による保持が可能となるには至らない場合がある。

特開２０１７－６４９１０号公報特開２０１１－１１５９３０号公報

本発明は、このような事情に鑑みてなされたものであり、その目的とするところは、保持スペースが確保されずにハンド部による保持が不可能とされたワークの保持を可能とするロボットの動作を学習できる機械学習装置、及びこれを備えたロボットシステムを提供することにある。

本発明の一の局面に係る機械学習装置は、複数のワークをバラ積みされた状態で収容する容器から前記ワークを保持することによって取り出すハンド部を備えたロボットの動作を学習する装置である。この機械学習装置は、前記ハンド部が前記容器内の一のワークを保持する前又は保持したときに、前記容器内での各ワークの収容状況を認識し、前記ハンド部による次の保持候補となるワークが、前記ハンド部による保持を可能とするための保持スペースが周囲に確保されていない保持不可ワークであるかを判定する判定部と、前記判定部により次の保持候補となるワークが前記保持不可ワークであると判定され、所定の変位手法を用いて前記保持不可ワークを変位させる変位動作が前記ロボットによって実行されたときに、前記保持不可ワークのワーク変位量を観測する変位量観測部と、前記ロボットの行動パターンを前記ワーク変位量と対応付けて、前記保持スペースが確保されるように前記保持不可ワークを変位させることが可能な変位手法を学習するとともに、当該変位手法を用いた前記ロボットの行動パターンを学習する学習部と、前記学習部の学習結果に基づく前記ロボットの行動パターンを、前記保持不可ワークを前記ハンド部によって保持可能とするための行動パターンとして決定する行動決定部と、を備える。前記変位手法は、前記ハンド部が、保持した前記一のワークを前記保持不可ワークに当接させた状態で移動することにより、当該保持不可ワークを変位させる手法を含み、前記学習部が学習する前記ロボットの行動パターンを規定する行動要素には、前記一のワークの前記保持不可ワークに対する当接位置を決定付ける要素と、前記ハンド部の移動軌跡を決定付ける要素とが含まれる。
また、上記の機械学習装置において、前記学習部は、前記ロボットによる前記保持不可ワークを変位させる変位動作の行動パターンに対し、前記保持不可ワークの前記ワーク変位量に応じた報酬を設定する報酬設定部と、前記ロボットの行動パターンの価値を規定する価値関数を、前記報酬設定部により設定された報酬に応じて更新する価値関数更新部と、を含む。

この機械学習装置によれば、ハンド部による次の保持候補となるワークが保持不可ワークであることが判定部によって判定された場合、学習部は、保持スペースが確保されるように保持不可ワークを変位させることが可能な変位手法を学習し、当該変位手法を用いたロボットの行動パターンを学習する。これにより、学習部は、ハンド部による保持が不可能とされたワークの保持を可能とする、所定の変位手法を用いたロボットの行動パターンを学習することができる。そして、行動決定部は、学習部の学習結果に基づくロボットの行動パターンを、保持不可ワークをハンド部によって保持可能とするための行動パターンとして決定する。この行動パターンに従ってロボットが動作することにより、ハンド部による保持が不可能とされたワークの周囲に、ハンド部による保持を可能とするための保持スペースが確保され、当該ワークのハンド部による保持が可能となる。このため、保持不可ワークの存在に起因してロボットの動作を停止させることを可及的に回避することができ、ハンド部による容器からのワークの取り出し動作を継続させることができる。

上記の機械学習装置において、前記変位手法は、前記保持不可ワークを変位させる方式が異なる複数の手法を含み、前記学習部は、前記複数の手法が組み合わされた前記ロボットの行動パターンを学習する構成であってもよい。

また、上記の機械学習装置において、前記変位手法は、前記ハンド部が前記容器を保持した状態で移動することにより、前記保持不可ワークを変位させる手法であり、前記学習部が学習する前記ロボットの行動パターンを規定する行動要素には、前記ハンド部が前記容器を保持する保持位置を決定付ける要素と、前記ハンド部の移動軌跡を決定付ける要素と、前記ハンド部の移動速度を決定付ける要素とが含まれる構成であってもよい。

本発明の他の局面に係るロボットシステムは、複数のワークをバラ積みされた状態で収容する容器から前記ワークを保持することによって取り出すハンド部を備えたロボットと、前記ロボットの動作を学習する、上記の機械学習装置と、前記機械学習装置の学習結果に基づいて、前記ロボットの動作を制御する制御装置と、を備える。

このロボットシステムによれば、ハンド部による保持が不可能とされたワークの保持を可能とするロボットの行動パターンを学習できる上記の機械学習装置を備えている。このため、ロボットは、保持不可ワークの存在に起因して停止されることが可及的に回避され、ハンド部による容器からのワークの取り出し動作を継続することができる。

以上説明したように、本発明によれば、保持スペースが確保されずにハンド部による保持が不可能とされたワークの保持を可能とするロボットの動作を学習できる機械学習装置、及びこれを備えたロボットシステムを提供することができる。

本発明の一実施形態に係るロボットシステムの構成を示すブロック図である。ロボットシステムに備えられるロボットの一例を示す図である。ロボットシステムに備えられる機械学習装置の状態観測部の動作を説明するための図である。機械学習装置の行動観測部の動作を説明するための図である。ロボットの行動パターンを規定する行動要素を説明するための図である。保持不可ワークを変位させるための変位手法を説明するための図である。保持不可ワークを変位させる変位動作の第１例を説明するための図である。機械学習装置の変位量観測部の動作を説明するための図である。第１例の変位動作において学習部によって生成される学習結果情報を説明するための図である。第１例の変位動作に関する機械学習装置の動作を示すフローチャートである。第１例の変位動作におけるロボットの行動パターンの変形例を説明するための図である。保持不可ワークを変位させる変位動作の第２例を説明するための図である。第２例の変位動作において学習部によって生成される学習結果情報を説明するための図である。第２例の変位動作に関する機械学習装置の動作を示すフローチャートである。第３例の変位動作において学習部によって生成される学習結果情報を説明するための図である。第３例の変位動作に関する機械学習装置の動作を示すフローチャートである。

［ロボットシステムの全体構成］
図１は、本発明の一実施形態に係るロボットシステム１の構成を示すブロック図である。ロボットシステム１は、ロボット２と、撮像装置３と、制御装置４と、機械学習装置５とを備える。ロボットシステム１においては、撮像装置３から出力される画像データに基づき機械学習装置５がロボット２の動作を学習し、その学習結果に基づき制御装置４がロボット２の動作を制御する。

まず、図２を参照しながらロボット２について説明する。図２は、ロボットシステム１に備えられるロボット２の一例を示す図である。ロボット２は、複数のワークＷをバラ積みされた状態で収容する容器ＣＮから、当該ワークＷを取り出すためのロボットである。容器ＣＮは、上方側が開口した有底筒状に形成されている。ロボット２は、容器ＣＮの上方側の開口を介してワークＷを取り出す。

ロボット２は、容器ＣＮからワークＷを取り出すことが可能なハンド部を備えたロボットであれば特に限定されるものではなく、例えば、垂直多関節ロボットや水平多関節ロボット、或いは双腕型の多関節ロボットを採用することができる。以下では、図２に示す６軸垂直多関節ロボットを例として、ロボット２の構成について説明する。なお、垂直多関節ロボットにおいて軸の数は、６軸に限定されるものではなく、任意の軸数でよい。ロボット２は、ベース部２１と、胴部２２と、第１アーム２３と、第２アーム２４と、手首部２５と、ハンド部２６とを備える。

ベース部２１は、床や台等に固定設置され、内部に不図示の駆動モーター等を収容する箱体である。胴部２２は、ベース部２１の上面において、鉛直方向（上下方向）に延びる第１軸２Ａ回りに、正逆両方向に回転可能に配置される。第１アーム２３は、所定の長さを有するアーム部材であり、その長手方向の一端部が水平方向に延びる第２軸２Ｂを介して胴部２２に取り付けられている。第１アーム２３は、第２軸２Ｂ回りに、正逆両方向に回転可能である。

第２アーム２４は、アームベース２４１とアーム部２４２とを含む。アームベース２４１は、第２アーム２４のベース部分であり、第２軸２Ｂに対して平行且つ水平方向に延びる第３軸２Ｃを介して、第１アーム２３の長手方向他端部に取り付けられている。アームベース２４１は、第３軸２Ｃ回りに、正逆両方向に回転可能である。アーム部２４２は、所定の長さを有するアーム部材であり、その長手方向の一端部が第３軸２Ｃに対して垂直な第４軸２Ｄを介してアームベース２４１に取り付けられている。アーム部２４２は、第４軸２Ｄ回りに、正逆両方向に回転可能である。

手首部２５は、第２軸２Ｂ及び第３軸２Ｃに対して平行且つ水平方向に延びる第５軸２Ｅを介して、アーム部２４２の長手方向他端部に取り付けられている。手首部２５は、第５軸２Ｅ回りに、正逆両方向に回転可能である。

ハンド部２６は、ロボット２において容器ＣＮからワークＷを取り出す部分であり、第５軸２Ｅに対して垂直な第６軸２Ｆを介して手首部２５に取り付けられている。ハンド部２６は、第６軸２Ｆ回りに、正逆両方向に回転可能である。ハンド部２６は、容器ＣＮ内のワークＷを保持可能な構造であれば特に限定されるものではなく、例えば、ワークＷを把持して保持する複数の爪部を備えた構造であってもよいし、ワークＷに対して吸引力を発生する電磁石又は負圧発生装置を備えた構造であってもよい。本実施形態では、ハンド部２６は、複数の爪部２６１を備えた構造を有し、容器ＣＮ内のワークＷを爪部２６１によって保持（把持）することにより当該ワークＷを取り出す。

次に、撮像装置３は、容器ＣＮ内に収容される複数のワークＷの全てが視野内に収まるように容器ＣＮ内の全体を上方から撮像し、ワークＷの位置情報を含む画像データを出力する装置である。本実施形態では、撮像装置３は、図１に示すように、カメラ３１と画像処理部３２を備えた三次元視覚センサ等の三次元計測器である。カメラ３１は、容器ＣＮ内の全体を上方から撮像し、容器ＣＮ内に収容される複数のワークＷの各々の画像領域を含む画像を取得する。画像処理部３２は、カメラ３１が取得した画像を画像処理することによって、各ワークＷの三次元位置情報を含む画像データを生成する。各ワークの三次元位置情報は、例えば、ＸＹＺ直交座標系を用いた座標値（Ｘ，Ｙ，Ｚ）で表される。なお、ＸＹＺ直交座標系とは、Ｘ軸とＹ軸を含む平面（ＸＹ平面）が水平で、Ｚ軸がＸＹ平面に対して鉛直となるように各座標軸が配置された座標系である。撮像装置３から出力された画像データは、後述の機械学習装置５に備えられる変位量観測部６４及び判定部７に入力される。

次に、制御装置４は、ロボット２の動作を制御するとともに、撮像装置３の動作を制御する。制御装置４は、後述の機械学習装置５に備えられる行動決定部９によって生成される情報に基づいて、ロボット２の動作を制御する。

［機械学習装置の構成］
次に、機械学習装置５について説明する。機械学習装置５は、図１に示すように、ロボット２の動作を学習（機械学習）する学習処理を実行する学習処理部６と、判定部７と、記憶部８と、行動決定部９とを備える。機械学習装置５が実行する学習の手法としては、特に限定されるものではなく、例えば、「教師あり学習」、「教師なし学習」及び「強化学習」等を採用することができる。本実施形態では、機械学習装置５における学習の手法として、強化学習としてのＱ学習の手法が採用されている。Ｑ学習は、ロボット２の連続的な動作を複数の状態に区分し、状態が順次移行されるときのロボット２の行動について、報酬が得られるような価値の高い行動を学習する手法である。また、機械学習装置５が実行する強化学習としてのＱ学習は、例えば、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用して実現することが可能である。ニューラルネットワークは、人間の脳の構造を模した構成となっており、人間の脳におけるニューロン（神経細胞）の機能を模した論理回路を多層に積層して構成されたものである。

＜学習処理部について＞
学習処理部６は、ロボット２の動作を学習する学習処理を実行する部分である。学習処理部６は、ロボット２が生産動作を実行しているときに学習処理を実行してもよいし、ロボット２の生産動作とは切り離して学習処理を実行してもよい。ロボット２の生産動作とは、ハンド部２６によって容器ＣＮからワークＷを取り出し、その取り出したワークＷをパレットＰＬ（後記の図３参照）に載置するという、ロボット２の連続的な動作のことである。学習処理部６は、状態観測部６１と、行動観測部６２と、学習部６３と、変位量観測部６４とを含んで構成される。

（状態観測部について）
図３は、状態観測部６１の動作を説明するための図である。なお、図３においては、ロボット２及び容器ＣＮを上方から見た状態が示されており、容器ＣＮ内には３つのワークＷ１，Ｗ２，Ｗ３がバラ積みされている。ロボット２は、ハンド部２６によって容器ＣＮから一のワークＷ３を取り出し、その取り出したワークＷ３をパレットＰＬに載置するという、連続的な動作を実行する。状態観測部６１は、ロボット２の連続的な動作を複数の状態に区分し、そのロボット２の状態を観測する。

状態観測部６１が観測するロボット２の状態の数は、特に限定されるものではないが、図３では、状態Ｓ１、状態Ｓ２、状態Ｓ３及び状態Ｓ４の４つの状態が示されている。状態Ｓ１は、ロボット２のハンド部２６がパレットＰＬの上方における所定の位置に配置されるように、胴部２２、第１アーム２３、第２アーム２４、手首部２５及びハンド部２６の姿勢が調整されたロボット２の状態である。状態Ｓ２は、ハンド部２６の爪部２６１によって容器ＣＮ内の保持（把持）対象となるワークＷ３を保持する直前の状態であって、ワークＷ３の真上における所定の位置にハンド部２６が配置されるように、胴部２２、第１アーム２３、第２アーム２４、手首部２５及びハンド部２６の姿勢が調整されたロボット２の状態である。状態Ｓ３は、ハンド部２６の爪部２６１が容器ＣＮ内の保持対象となるワークＷ３を保持するように、胴部２２、第１アーム２３、第２アーム２４、手首部２５及びハンド部２６の姿勢が調整されたロボット２の状態である。状態Ｓ４は、ハンド部２６の爪部２６１によって保持したワークＷ３をパレットＰＬに載置するように、胴部２２、第１アーム２３、第２アーム２４、手首部２５及びハンド部２６の姿勢が調整されたロボット２の状態である。ロボット２は、状態Ｓ１、状態Ｓ２、状態Ｓ３、状態Ｓ４の順に状態を連続的に移行することにより、ハンド部２６によって容器ＣＮから一のワークＷ３を取り出し、その取り出したワークＷ３をパレットＰＬに載置する。

ロボット２の状態は、状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）によって規定される。状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）は、ロボット２の状態が移行されるごとに変化する変数である。

状態変数の「ΔＸ」は、ＸＹＺ直交座標系において、ハンド部２６の爪部２６１による保持対象となるワークＷ３の容器ＣＮ内における位置に関するＸ座標値を基準値（以下、「Ｘ基準値」と称する）とし、ハンド部２６の位置に関するＸ座標値（以下、「ハンドＸ値」と称する）の前記Ｘ基準値に対する差異を表す。状態変数の「ΔＹ」は、ＸＹＺ直交座標系において、ハンド部２６の爪部２６１による保持対象となるワークＷ３の容器ＣＮ内における位置に関するＹ座標値を基準値（以下、「Ｙ基準値」と称する）とし、ハンド部２６の位置に関するＹ座標値（以下、「ハンドＹ値」と称する）の前記Ｙ基準値に対する差異を表す。状態変数の「ΔＺ」は、ＸＹＺ直交座標系において、ハンド部２６の爪部２６１による保持対象となるワークＷ３の容器ＣＮ内における位置に関するＺ座標値を基準値（以下、「Ｚ基準値」と称する）とし、ハンド部２６の位置に関するＺ座標値（以下、「ハンドＺ値」と称する）の前記Ｚ基準値に対する差異を表す。状態変数の「ｐ」は、ハンド部２６の爪部２６１がワークＷ３を保持しているか否かを表す。状態変数の「ｐ」は、ハンド部２６の爪部２６１がワークＷ３を保持している場合には「１」とされ、ハンド部２６の爪部２６１がワークＷ３を保持していない場合には「０：ゼロ」とされる。状態変数の「ｄ」は、ハンド部２６の爪部２６１による一のワークＷ３に対して次の保持候補となるワークの周囲に、爪部２６１による保持を可能とするための保持スペースが確保されているか否かを表す。状態変数の「ｄ」は、次の保持候補となるワークの周囲に保持スペースが確保されている場合には「１」とされ、保持スペースが確保されていない場合には「０：ゼロ」とされる。

図３に示す例において、ロボット２の状態が状態Ｓ１である場合には、ハンド部２６は、容器ＣＮに対してＸ軸、Ｙ軸及びＺ軸の各座標軸の軸方向に離れており、爪部２６１によってワークＷ３を保持しておらず、ワークＷ１，Ｗ２の周囲には爪部２６１による保持スペースが確保されている。このため、ロボット２の状態Ｓ１を規定する状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）においては、「ΔＸ」、「ΔＹ」及び「ΔＺ」がそれぞれ所定の値「ＸＡ」、「ＹＡ」及び「ＺＡ」を示し、「ｐ」が「０：ゼロ」を示し、「ｄ」が「１」を示す。

図３に示す例において、ロボット２の状態が状態Ｓ２である場合には、ハンド部２６は、容器ＣＮに対してＸ軸及びＹ軸の各軸方向には離れていないけれどもＺ軸方向には離れており、爪部２６１によってワークＷ３を保持しておらず、ワークＷ１，Ｗ２の周囲には爪部２６１による保持スペースが確保されている。このため、ロボット２の状態Ｓ２を規定する状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）においては、「ΔＸ」及び「ΔＹ」がそれぞれ「０；ゼロ」を示し、「ΔＺ」が所定の値「ＺＡ」を示し、「ｐ」が「０；ゼロ」を示し、「ｄ」が「１」を示す。

図３に示す例において、ロボット２の状態が状態Ｓ３である場合には、ハンド部２６は、容器ＣＮに対してＸ軸、Ｙ軸及びＺ軸の各座標軸の軸方向には離れておらず、爪部２６１によってワークＷ３を保持しており、ワークＷ１，Ｗ２の周囲には爪部２６１による保持スペースが確保されている。このため、ロボット２の状態Ｓ３を規定する状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）においては、「ΔＸ」、「ΔＹ」及び「ΔＺ」がそれぞれ「０；ゼロ」を示し、「ｐ」が「１」を示し、「ｄ」が「１」を示す。

図３に示す例において、ロボット２の状態が状態Ｓ４である場合には、ハンド部２６は、容器ＣＮに対してＸ軸、Ｙ軸及びＺ軸の各座標軸の軸方向に離れており、爪部２６１によってワークＷ３を保持しており、ワークＷ１，Ｗ２の周囲には爪部２６１による保持スペースが確保されている。このため、ロボット２の状態Ｓ４を規定する状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）においては、「ΔＸ」、「ΔＹ」及び「ΔＺ」がそれぞれ所定の値「ＸＡ」、「ＹＡ」及び「ＺＡ」を示し、「ｐ」が「１」を示し、「ｄ」が「１」を示す。

状態観測部６１は、ロボット２の状態が移行されるごとに変化する状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）に基づいて、ロボット２の状態が状態Ｓ１、状態Ｓ２、状態Ｓ３及び状態Ｓ４の何れの状態であるかを認識することができる。なお、ロボット２の状態が状態Ｓ１、状態Ｓ２及び状態Ｓ３の何れかの状態である場合には、胴部２２、第１アーム２３、第２アーム２４、手首部２５及びハンド部２６の姿勢等の違いにより、複数のサブ状態が存在する。状態観測部６１は、ロボット２の状態が状態Ｓ１、状態Ｓ２及び状態Ｓ３の何れかの状態である場合には、サブ状態についても観測する。ハンド部２６の爪部２６１が保持したワークＷ３をパレットＰＬに載置するという、ロボット２の最終目標の状態を示す状態Ｓ４については、状態Ｓ１、状態Ｓ２及び状態Ｓ３のようなサブ状態は存在しない。

（行動観測部について）
図４は、行動観測部６２の動作を説明するための図である。なお、図４においては、ロボット２の状態について、状態Ｓ１には複数のサブ状態「Ｓ１－１、Ｓ１－２、・・・Ｓ１－ｎ」が存在することが示され、状態Ｓ２には複数のサブ状態「Ｓ２－１、Ｓ２－２、・・・Ｓ２－ｎ」が存在することが示され、状態Ｓ３には複数のサブ状態「Ｓ３－１、Ｓ３－２、・・・Ｓ３－ｎ」が存在することが示されている。

行動観測部６２は、ロボット２の状態が移行されるときのロボット２の行動パターンを観測する。より詳しくは、行動観測部６２は、ロボット２の行動パターンについて、ロボット２の状態が状態Ｓ１から状態Ｓ２へ移行されるときの行動パターン、状態Ｓ２から状態Ｓ３へ移行されるときの行動パターン、状態Ｓ３から状態Ｓ４へ移行されるときの行動パターンをそれぞれ観測する。状態が移行されるときにロボット２が取り得る行動パターンは、状態Ｓ１、状態Ｓ２及び状態Ｓ３の各々におけるサブ状態の存在数に応じて、複数存在する（行動Ａ１、行動Ａ２、・・・行動Ａｎ）。なお、ロボット２の状態が状態Ｓ３から状態Ｓ４へ移行されるときには、容器ＣＮ内の一のワークＷをハンド部２６の爪部２６１によって保持した状態で当該容器ＣＮから取り出す取り出し動作が実行されている。

行動観測部６２によって観測されるロボット２の行動パターンを規定する行動要素としては、図５に示される、把持角θ、把持位置ＨＰ、第１軸２Ａにおける回転角β１及び回転速度パターン、第２軸２Ｂにおける回転角β２及び回転速度パターン、第３軸２Ｃにおける回転角β３及び回転速度パターン、第４軸２Ｄにおける回転角β４及び回転速度パターン、第５軸２Ｅにおける回転角β５及び回転速度パターン、第６軸２Ｆにおける回転角β６及び回転速度パターンが含まれる。なお、前述したように、垂直多関節ロボットからなるロボット２において、その軸数は６軸に限定されるものではなく、任意である。このため、ロボット２の行動パターンを規定する行動要素に含まれる各軸における回転角及び回転速度パターンは、軸数に応じたものとなる。

把持角θは、ハンド部２６においてワークＷを保持（把持）するための２つの爪部２６１の成す角度である（図２参照）。把持位置ＨＰは、ハンド部２６が一のワークＷを取り出すときの、当該一のワークＷを爪部２６１によって保持（把持）する位置を表す。第１軸２Ａにおける回転角β１は、ロボット２の状態が移行されるときの胴部２２の第１軸２Ａ回りの回転角を表す。胴部２２は第１軸２Ａ回りに正逆両方向に回転可能であるので、回転角β１は、胴部２２が正方向に回転するときには「正；プラス」の回転角で示され、胴部２２が逆方向に回転するときには「負；マイナス」の回転角で示される。第２軸２Ｂにおける回転角β２は、ロボット２の状態が移行されるときの第１アーム２３の第２軸２Ｂ回りの回転角を表す。第１アーム２３は第２軸２Ｂ回りに正逆両方向に回転可能であるので、回転角β２は、第１アーム２３が正方向に回転するときには「正；プラス」の回転角で示され、第１アーム２３が逆方向に回転するときには「負；マイナス」の回転角で示される。第３軸２Ｃにおける回転角β３は、ロボット２の状態が移行されるときのアームベース２４１の第３軸２Ｃ回りの回転角を表す。アームベース２４１は第３軸２Ｃ回りに正逆両方向に回転可能であるので、回転角β３は、アームベース２４１が正方向に回転するときには「正；プラス」の回転角で示され、アームベース２４１が逆方向に回転するときには「負；マイナス」の回転角で示される。

第４軸２Ｄにおける回転角β４は、ロボット２の状態が移行されるときのアーム部２４２の第４軸２Ｄ回りの回転角を表す。アーム部２４２は第４軸２Ｄ回りに正逆両方向に回転可能であるので、回転角β４は、アーム部２４２が正方向に回転するときには「正；プラス」の回転角で示され、アーム部２４２が逆方向に回転するときには「負；マイナス」の回転角で示される。第５軸２Ｅにおける回転角β５は、ロボット２の状態が移行されるときの手首部２５の第５軸２Ｅ回りの回転角を表す。手首部２５は第５軸２Ｅ回りに正逆両方向に回転可能であるので、回転角β５は、手首部２５が正方向に回転するときには「正；プラス」の回転角で示され、手首部２５が逆方向に回転するときには「負；マイナス」の回転角で示される。第６軸２Ｆにおける回転角β６は、ロボット２の状態が移行されるときのハンド部２６の第６軸２Ｆ回りの回転角を表す。ハンド部２６は第６軸２Ｆ回りに正逆両方向に回転可能であるので、回転角β６は、ハンド部２６が正方向に回転するときには「正；プラス」の回転角で示され、ハンド部２６が逆方向に回転するときには「負；マイナス」の回転角で示される。

各軸２Ａ～２Ｆにおける回転速度パターンは、各軸回りの回転速度のパターンを表し、図５に示す第１パターン、第２パターン及び第３パターンに区分される。回転速度の第１パターンは、時間経過に伴って回転速度が直線的に上昇する上昇領域と、当該上昇領域の終端から時間経過に伴って回転速度が直線的に下降する下降領域との、２つの領域からなる。回転速度の第２パターンは、時間経過に伴って回転速度が直線的に上昇する上昇領域と、当該上昇領域の終端から一定時間の間で回転速度が等速となる等速領域と、等速領域の終端から時間経過に伴って回転速度が直線的に下降する下降領域との、３つの領域からなる。回転速度の第３パターンは、時間経過に伴って回転速度が曲線的に上昇する上昇領域と、当該上昇領域の終端から時間経過に伴って回転速度が曲線的に下降する下降領域との、２つの領域からなる。

行動観測部６２は、各行動要素に基づいて、ロボット２の状態が移行されるときの行動パターンを認識することができる。

ロボット２の状態が状態Ｓ１から状態Ｓ２へ移行されるときのロボット２の最適な行動パターンと、状態Ｓ２から状態Ｓ３へ移行されるときのロボット２の最適な行動パターンとは、後述の学習部６３によって既に学習済みである。また、状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，１）である場合の状態Ｓ３から状態Ｓ４へ移行されるときのロボット２の最適な行動パターンについても、後述の学習部６３によって既に学習済みである。つまり、ロボット２の状態が状態Ｓ３から状態Ｓ４へ移行されるときのロボット２の行動パターンについて、状態変数の「ｄ」が「１」であり、ハンド部２６の爪部２６１による次の保持候補となるワークの周囲に爪部２６１による保持スペースが確保されている場合の行動パターンについては既に学習済みである。このような、学習部６３によって既に学習済みのロボット２の行動パターンについては、記憶部８に記憶されている。

記憶部８に記憶されている既存の行動パターンは、後述の行動決定部９によって記憶部８から読み出されて、制御装置４に向けて出力される。既存の行動パターンが入力された制御装置４は、当該既存の行動パターンに基づいて、ロボット２の動作を制御することができる。制御装置４の制御によってロボット２は、ハンド部２６によって容器ＣＮからワークＷを取り出し、その取り出したワークＷをパレットＰＬに載置するという、連続的な生産動作を実行する。

一方、状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，０）である場合の状態Ｓ３から状態Ｓ４へ移行されるときのロボット２の最適な行動パターンについては、後述の学習部６３によって強化学習される。つまり、ロボット２の状態が状態Ｓ３から状態Ｓ４へ移行されるときのロボット２の行動パターンについて、状態変数の「ｄ」が「０」であり、ハンド部２６の爪部２６１による次の保持候補となるワークの周囲に爪部２６１による保持スペースが確保されていない場合の行動パターンについては、学習部６３によって強化学習される。

ハンド部２６の爪部２６１による次の保持候補となるワークが、保持スペースが周囲に確保されておらず爪部２６１による保持が不可能な保持不可ワークであるか否かは、判定部７によって判定される。判定部７は、ハンド部２６が爪部２６１によって容器ＣＮ内の一のワークＷを保持する前又は保持したときに、一のワークＷに対して次の保持候補となるワークが保持不可ワークであるか否かを判定する。ハンド部２６が爪部２６１によって容器ＣＮ内の一のワークＷを保持する前又は保持したときには、撮像装置３におけるカメラ３１の撮像動作によって基準画像が取得され、画像処理部３２の基準画像に対する画像処理によって基準画像データが生成されている。基準画像データは、次の保持候補となるワークに関する三次元位置情報を含む画像データとなる。判定部７は、撮像装置３から出力される基準画像データに基づいて、容器ＣＮ内での各ワークの収容状況を認識し、次の保持候補となるワークが保持不可ワークであるか否かを判定する。

判定部７は、ハンド部２６の爪部２６１が挿入不能となるように、次の保持候補となるワークが容器ＣＮの内面に近接した状態で配置されている場合や、複数のワーク同士が互いに近接した状態で配置されている場合に、爪部２６１による保持を可能とするための保持スペースが確保されていないと判断し、保持不可ワークであると判定する。判定部７によって次の保持候補となるワークが保持不可ワークであると判定された場合に、ロボット２の状態が状態Ｓ３であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，０）とされる。

ロボット２の状態が状態Ｓ３であるときに、判定部７によって次の保持候補となるワークが保持不可ワークであると判定された場合、状態Ｓ３から状態Ｓ４へ移行する前にロボット２は、所定の変位手法を用いて保持不可ワークを変位させる変位動作を実行する。ロボット２が変位動作を実行するときに用いる、保持不可ワークを変位させるための変位手法としては、例えば、図６に示す第１～第７手法が挙げられる。また、第１～第７手法から選択される複数の手法が組み合わされたものを変位手法としてもよい。なお、図６においては、ハンド部２６の爪部２６１によって容器ＣＮ内の一のワークＷ３を保持したときに、ワークＷ１，Ｗ２の周囲に保持スペースが確保されておらず、ワークＷ１，Ｗ２が保持不可ワークとされている。

第１手法は、爪部２６１によって保持した一のワークＷ３をパレットＰＬへ向けて移動させるときに、ハンド部２６が一のワークＷ３を保持不可ワークＷ２に当接させた状態で移動することにより、当該保持不可ワークＷ２を変位させる変位手法である。ロボット２による第１手法を用いた変位動作によって、ハンド部２６の爪部２６１による保持が不可能とされたワークＷ２の周囲に、爪部２６１による保持を可能とするための保持スペースが確保され、当該ワークＷ２の爪部２６１による保持が可能となる。

第２手法は、爪部２６１によって保持した一のワークＷ３をパレットＰＬに載置した後、ハンド部２６が爪部２６１によって容器ＣＮを保持した状態で移動することにより、容器ＣＮの移動に応じて保持不可ワークＷ２を変位させる変位手法である。ロボット２による第２手法を用いた変位動作によって、ハンド部２６の爪部２６１による保持が不可能とされたワークＷ２の周囲に、爪部２６１による保持を可能とするための保持スペースが確保され、当該ワークＷ２の爪部２６１による保持が可能となる。

第３手法は、爪部２６１によって保持した一のワークＷ３をパレットＰＬに載置した後、ハンド部２６が爪部２６１を保持不可ワークＷ２に当接させた状態で移動することにより、当該保持不可ワークＷ２を変位させる変位手法である。ロボット２による第３手法を用いた変位動作によって、ハンド部２６の爪部２６１による保持が不可能とされたワークＷ２の周囲に、爪部２６１による保持を可能とするための保持スペースが確保され、当該ワークＷ２の爪部２６１による保持が可能となる。

第４手法は、爪部２６１によって保持した一のワークＷ３をパレットＰＬに載置した後、ワークＷ１，Ｗ２，Ｗ３とは種類の異なる、他の容器から取り出したワークＷＳを爪部２６１によって保持させ、ハンド部２６がワークＷＳを保持不可ワークＷ２に当接させた状態で移動することにより、当該保持不可ワークＷ２を変位させる変位手法である。ロボット２による第４手法を用いた変位動作によって、ハンド部２６の爪部２６１による保持が不可能とされたワークＷ２の周囲に、爪部２６１による保持を可能とするための保持スペースが確保され、当該ワークＷ２の爪部２６１による保持が可能となる。

第５手法は、爪部２６１によって保持した一のワークＷ３をパレットＰＬに載置した後、専用治具ＪＧを爪部２６１によって保持させ、ハンド部２６が専用治具ＪＧを保持不可ワークＷ２に当接させた状態で移動することにより、当該保持不可ワークＷ２を変位させる変位手法である。ロボット２による第５手法を用いた変位動作によって、ハンド部２６の爪部２６１による保持が不可能とされたワークＷ２の周囲に、爪部２６１による保持を可能とするための保持スペースが確保され、当該ワークＷ２の爪部２６１による保持が可能となる。

第６手法は、爪部２６１によって保持した一のワークＷ３をパレットＰＬに載置した後、空気等の気体を噴射可能なノズルＮＺを爪部２６１によって保持させ、ノズルＮＺから気体を保持不可ワークＷ２に向けて噴射させた状態でハンド部２６が移動することにより、当該保持不可ワークＷ２を変位させる変位手法である。ロボット２による第６手法を用いた変位動作によって、ハンド部２６の爪部２６１による保持が不可能とされたワークＷ２の周囲に、爪部２６１による保持を可能とするための保持スペースが確保され、当該ワークＷ２の爪部２６１による保持が可能となる。

第７手法は、爪部２６１によって保持した一のワークＷ３を取り出す取り出し動作において、保持不可ワークＷ１，Ｗ２を崩すことによって、当該保持不可ワークＷ１，Ｗ２を変位させる変位手法である。この第７手法は、例えば、一のワークＷ３の上に保持不可ワークＷ１，Ｗ２が配置されている場合などに有効な手法である。ロボット２による第７手法を用いた変位動作によって、ハンド部２６の爪部２６１による保持が不可能とされたワークＷ１，Ｗ２の周囲に、爪部２６１による保持を可能とするための保持スペースが確保され、当該ワークＷ１，Ｗ２の爪部２６１による保持が可能となる。

行動観測部６２は、判定部７によって次の保持候補となるワークが保持不可ワークであると判定された場合、上記の変位手法を用いて保持不可ワークを変位させるロボット２の変位動作における行動パターンについても観測する。行動観測部６２は、上記の図５に示した各行動要素に基づいて、ロボット２の変位動作における行動パターンを認識することができる。

（変位量観測部について）
変位量観測部６４は、判定部７によって次の保持候補となるワークが保持不可ワークであると判定され、所定の変位手法を用いて保持不可ワークを変位させる変位動作がロボット２によって実行されたときに、保持不可ワークのワーク変位量を観測する。変位量観測部６４は、撮像装置３から出力される、ロボット２による変位動作の前後における各画像データに基づいて、保持不可ワークのワーク変位量を観測する。

より詳しくは、変位量観測部６４は、ロボット２による変位動作前における画像データであって、判定部７が保持不可ワークの存否を判定するときに参照する前述の基準画像データと、ロボット２による変位動作後における画像データとに基づいて、保持不可ワークのワーク変位量を観測する。変位量観測部６４は、基準画像データに含まれる保持不可ワークの三次元位置情報における各座標値と、ロボット２による変位動作後の画像データに含まれるワークの三次元位置情報における各座標値との差分を算出することにより、保持不可ワークのワーク変位量を観測する。変位量観測部６４の動作の詳細については、後述する。

（学習部について）
学習部６３は、ロボット２の状態が移行されるときのロボット２の最適な行動パターンを学習する。更に、学習部６３は、ハンド部２６による次の保持候補となるワークが保持不可ワークであることが判定部７によって判定された場合に、保持スペースが確保されるように保持不可ワークを変位させることが可能な最適な変位手法を学習するとともに、当該変位手法を用いたロボット２の行動パターンを学習する。

なお、前述したように、学習部６３は、ロボット２の状態が状態Ｓ１から状態Ｓ２へ移行されるときのロボット２の最適な行動パターンと、状態Ｓ２から状態Ｓ３へ移行されるときのロボット２の最適な行動パターンとについては、既に学習済みである。また、学習部６３は、ロボット２の状態が状態Ｓ３から状態Ｓ４へ移行されるときのロボット２の行動パターンについて、ハンド部２６の爪部２６１による次の保持候補となるワークの周囲に爪部２６１による保持スペースが確保されている場合の行動パターンについても、既に学習済みである。学習部６３によって既に学習済みのロボット２の行動パターンについては、記憶部８に記憶されている。以下では、ロボット２の状態が状態Ｓ３であるときに、所定の変位手法を用いて保持不可ワークを変位させる変位動作におけるロボット２の行動パターンの学習について、詳細に説明する。

学習部６３は、所定の変位手法を用いて保持不可ワークを変位させるときの、行動観測部６２により観測されたロボット２の行動パターンを、変位量観測部６４により観測された保持不可ワークのワーク変位量と対応付けて学習する。学習部６３は、ロボット２の行動パターンとワーク変位量とを関連付けた教師データに基づいて、保持スペースの確保が可能となるように保持不可ワークを変位させる最適な変位手法及びロボット２の行動パターンを学習する。

学習部６３は、図１に示すように、報酬設定部６３１と価値関数更新部６３２とを含んで構成される。

報酬設定部６３１は、行動観測部６２により観測されたロボット２の変位動作における行動パターンに対し、保持不可ワークのワーク変位量に応じた報酬Ｒ（後記の図９参照）を設定する。報酬設定部６３１は、保持不可ワークのワーク変位量に応じて段階的に報酬Ｒを設定してもよい。例えば、報酬設定部６３１は、保持不可ワークのワーク変位量が所定の閾値ＷＤＴ（後記の図９参照）以上となるロボット２の行動パターンに対しては、第１の値Ｒ１（例えば「１００」）の報酬Ｒを与える。また、報酬設定部６３１は、保持不可ワークのワーク変位量が（閾値ＷＤＴ×０．５）以上且つ閾値ＷＤＴ未満となるロボット２の行動パターンに対しては、第１の値Ｒ１よりも小さい第２の値Ｒ２（例えば「１０」）の報酬Ｒを与える。また、報酬設定部６３１は、保持不可ワークのワーク変位量が（閾値ＷＤＴ×０．５）未満となるロボット２の行動パターンに対しては、第２の値Ｒ２よりも小さい第３の値Ｒ３（例えば「０：ゼロ」）の報酬Ｒを与える。

なお、前記閾値ＷＤＴは、例えば、ハンド部２６の爪部２６１の厚みに「１」以上の係数（例えば「１．２」）を乗算した値である。つまり、前記閾値ＷＤＴは、ハンド部２６の爪部２６１の厚みに相当する、爪部２６１によるワークの保持を可能とするための保持スペースよりも、僅かに大きい値に設定されている。

価値関数更新部６３２は、ロボット２の行動パターンの価値Ｑ（ｓ，ａ）を規定する価値関数を、報酬設定部６３１により設定された報酬Ｒに応じて更新する。価値関数更新部６３２は、下記式（１）で示される価値Ｑ（ｓ，ａ）の更新式を用いて価値関数を更新する。

上記式（１）において、「ｓ」は、ロボット２の状態（状態Ｓ３）を表し、「ａ」は、行動パターンに従ったロボット２の行動を表す。行動「ａ」によってロボット２の状態が、状態「ｓ」（状態Ｓ３）から状態「ｓ’」（変位動作後の状態）へ移行する。Ｒ（ｓ，ａ）は、その状態の移行により得られた報酬Ｒを表している。

上記式（１）において、「ｍａｘ」が付された項は、状態「ｓ’」において最も価値の高い行動「ａ’」を選択した場合の価値Ｑ（ｓ’，ａ’）に「γ」を乗算したものになる。「γ」は、減衰率と呼ばれるパラメータであり、０＜γ≦１の範囲（例えば０．９）とされる。また、「α」は、学習率と呼ばれるパラメータであり、０＜α≦１の範囲（例えば０．１）とされる。また、「ε」は、修正係数と呼ばれるパラメータであり、０＜ε≦１の範囲とされる。修正係数εは、詳細については後述するが、学習部６３によって算出される。上記式（１）で示される価値Ｑ（ｓ，ａ）の更新式において、「ε」は、学習部６３によって修正係数εが算出されるまでは、「ε＝１」とされる。

上記式（１）は、行動「ａ」に対して報酬設定部６３１により設定された報酬Ｒ（ｓ，ａ）に基づいて、状態「ｓ」における行動「ａ」の価値Ｑ（ｓ，ａ）を更新する更新式を表している。すなわち、上記式（１）は、状態「ｓ」における行動「ａ」の価値Ｑ（ｓ，ａ）よりも、状態「ｓ’」における行動「ａ’」の価値Ｑ（ｓ’，ａ’）と報酬Ｒ（ｓ，ａ）との合計値の方が大きければ、価値Ｑ（ｓ，ａ）を大きくし、反対に小さければ、価値Ｑ（ｓ，ａ）を小さくすることを示している。つまり、価値関数更新部６３２は、上記式（１）で示される更新式を用いて価値関数を更新することによって、或る状態「ｓ」における或る行動「ａ」の価値Ｑ（ｓ，ａ）を、その行動「ａ」に対して設定される報酬Ｒと、その行動「ａ」による次の状態「ｓ’」における最良の行動「ａ’」の価値Ｑ（ｓ’，ａ’）に近付けるようにしている。

ここで、詳細については後述するが、図７～図１１に示される変位動作の第１例を参照して説明すると、ロボット２の行動「ａ」（図７の行動Ａ１）による変位動作によって、保持不可ワークが保持スペースの確保が可能に変位されると、ロボット２の状態が、状態「ｓ」（状態Ｓ３）から状態「ｓ’」（図７の状態Ｓ３１）へ移行する。この状態「ｓ’」（状態Ｓ３１）であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）は（０，０，０，１，１）とされる。つまり、状態変数の「ｄ」が「１」であり、ハンド部２６による次の保持候補となるワークの周囲に爪部２６１による保持スペースが確保された状態となるので、次に遷移するロボット２の状態は状態Ｓ４となる。よって、状態「ｓ’」（状態Ｓ３１）から状態Ｓ４へ移行する行動「ａ’」である行動Ａ１’（図７）を選択して、状態Ｓ４に移行したときの価値Ｑ（ｓ’，ａ’）が最も高いものとなる。

一方、ロボット２の行動「ａ」（図７の行動Ａ２）による変位動作によって、保持不可ワークが変位したけれども保持スペースの確保には至らなかった場合、ロボット２の状態が、状態「ｓ」（状態Ｓ３）から状態「ｓ’」（図７の状態Ｓ３２）へ移行する。この状態「ｓ’」（状態Ｓ３２）であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）は（０，０，０，１，０）とされる。この場合、状態変数の「ｄ」が「０」であり、ハンド部２６による次の保持候補となるワークの周囲には保持スペースが確保されていない状態となるので、次に遷移するロボット２の状態は再度状態Ｓ３となり、変位動作が再試行される。よって、状態「ｓ’」（状態Ｓ３２）から状態Ｓ３へ移行する行動「ａ’」である行動Ａ２’（図７）を選択して、状態Ｓ３に移行したときの価値Ｑ（ｓ’，ａ’）は、上記の状態Ｓ４に移行したときの価値に比べて低い。

また、ロボット２の行動「ａ」（図７の行動Ａ３）による変位動作によって、保持不可ワークが殆ど変位しなかった場合、ロボット２の状態が、状態「ｓ」（状態Ｓ３）から状態「ｓ’」（図７の状態Ｓ３３）へ移行する。この状態「ｓ’」（状態Ｓ３３）であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）は（０，０，０，１，０）とされる。この場合、状態変数の「ｄ」が「０」であり、ハンド部２６による次の保持候補となるワークの周囲には保持スペースが確保されていない状態となるので、次に遷移するロボット２の状態は再度状態Ｓ３となり、変位動作が再試行される。よって、状態「ｓ’」（状態Ｓ３３）から状態Ｓ３へ移行する行動「ａ’」である行動Ａ３’（図７）を選択して、状態Ｓ３に移行したときの価値Ｑ（ｓ’，ａ’）も、同様に低い。

なお、後記の図１２～図１４に示される変位動作の第２例、図１５及び図１６に示される変位動作の第３例についても、上記の変位動作の第１例の場合と同様に、上記式（１）で示される価値Ｑ（ｓ，ａ）の更新式が適用できる。

学習部６３は、所定の変位手法を用いて保持不可ワークを変位させる変位動作におけるロボット２の行動パターンの学習結果を表す学習結果情報を生成する。学習部６３によって生成された学習結果情報は、記憶部８に記憶される。なお、学習部６３は、保持不可ワークを変位させる変位動作におけるロボット２の行動パターンの学習について、ロボット２が生産動作を実行しているときに学習を実行してもよいし、ロボット２の生産動作とは切り離して学習を実行してもよい。

＜行動決定部について＞
行動決定部９は、記憶部８に記憶されているロボット２の行動パターンを記憶部８から読み出すことによって、状態移行時のロボット２の行動パターンを決定する。行動決定部９は、記憶部８から読み出したロボット２の行動パターンを制御装置４に向けて出力する。より詳しくは、行動決定部９は、前述した既存の行動パターンを記憶部８から読み出して制御装置４に向けて出力する。既存の行動パターンが入力された制御装置４は、当該既存の行動パターンに基づいて、ロボット２の動作を制御する。制御装置４の制御によってロボット２は、ハンド部２６によって容器ＣＮからワークＷを取り出し、その取り出したワークＷをパレットＰＬに載置するという、連続的な生産動作を実行する。

また、保持不可ワークを変位させる変位動作の実行時においては、行動決定部９は、学習部６３の学習結果を表す、記憶部８に記憶されている前記学習結果情報を参照する。例えば、前記学習結果情報に保持スペースの確保が可能な行動パターンが登録されている場合、行動決定部９は、当該行動パターンを、保持不可ワークを爪部２６１によって保持可能とするための行動パターンとして決定する。行動決定部９は、記憶部８に記憶されている前記学習結果情報に登録された、保持スペースの確保が可能な行動パターンを読み出すことによって、変位動作の実行時におけるロボット２の行動パターンを決定する。行動決定部９は、記憶部８から読み出したロボット２の変位動作時の行動パターンを制御装置４に向けて出力する。変位動作時の行動パターンが入力された制御装置４は、当該行動パターンに基づいて、ロボット２の動作を制御する。制御装置４の制御によってロボット２は、爪部２６１による保持スペースが周囲に確保されるように保持不可ワークを変位させる。

保持不可ワークの周囲に保持スペースが確保されると、当該ワークの爪部２６１による保持が可能となる。従って、保持不可ワークの周囲に保持スペースが確保された後、行動決定部９は、前述した既存の行動パターンを記憶部８から読み出して制御装置４に向けて出力する。これにより、制御装置４の制御によってロボット２は、ハンド部２６によって容器ＣＮからワークＷを取り出し、その取り出したワークＷをパレットＰＬに載置するという、連続的な生産動作を実行する。

［保持不可ワークを変位させる変位動作の具体例］
以上説明したように、ロボット２の状態が状態Ｓ３であって、ハンド部２６の爪部２６１によって一のワークを保持したときに、次の保持候補となるワークが保持不可ワークであることが判定部７によって判定された場合、保持スペースが確保されるように保持不可ワークを変位させる、所定の変位手法を用いた変位動作が実行される。以下では、具体例を挙げて、保持不可ワークを変位させる変位動作の詳細について説明する。

＜変位動作の第１例について＞
図７～図１０を参照して、変位動作の第１例について説明する。図７は、保持不可ワークを変位させる変位動作の第１例を説明するための図である。図８は、変位量観測部６４の動作を説明するための図である。図９は、第１例の変位動作において学習部６３によって生成される学習結果情報ＪＨ１を説明するための図である。図１０は、第１例の変位動作に関する機械学習装置５の動作を示すフローチャートである。

状態観測部６１は、ロボット２の状態が移行されるごとに変化する状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）に基づいて、ロボット２の状態が状態Ｓ２から状態Ｓ３へ移行されたことを観測する（図１０のステップａ１）。ロボット２の状態が状態Ｓ２から状態Ｓ３へ移行されたとき、すなわち、ハンド部２６の爪部２６１によって一のワークが保持されたときに、判定部７は、撮像装置３から出力された基準画像データを取得する（図１０のステップａ２）。基準画像データは、次の保持候補となるワークに関する三次元位置情報を含む画像データとなる。判定部７は、基準画像データに基づいて容器ＣＮ内での各ワークの収容状況を認識し、次の保持候補となるワークが保持不可ワークであるか否かを判定する（図１０のステップａ３）。

次の保持候補となるワークが保持不可ワークではないと判定部７によって判定された場合には、ロボット２の状態が状態Ｓ３であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，１）とされる。この場合、行動決定部９は、状態Ｓ３から状態Ｓ４へと移行させるための既存の行動パターンを記憶部８から読み出して制御装置４に向けて出力する。既存の行動パターンが入力された制御装置４は、当該既存の行動パターンに基づいて、ロボット２の動作を制御する。制御装置４の制御によってロボット２は、爪部２６１によって保持された一のワークを容器ＣＮから取り出す取り出し動作を実行する（図１０のステップａ５）。

一方、次の保持候補となるワークが保持不可ワークであると判定部７によって判定された場合には、図７に示すように、ロボット２の状態が状態Ｓ３であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，０）とされる。図７に示す例では、ハンド部２６の爪部２６１によって容器ＣＮ内の一のワークＷ３を保持したときに、ワークＷ１，Ｗ２の周囲に保持スペースが確保されておらず、ワークＷ１，Ｗ２が保持不可ワークとされている。このため、状態変数の「ｄ」が「０」であり、ハンド部２６の爪部２６１による次の保持候補となるワークＷ１，Ｗ２の周囲に爪部２６１による保持スペースが確保されていないことが示されている。なお、図７に示す例では、保持不可ワークＷ１は容器ＣＮの内面に近接して配置され、保持不可ワークＷ２は保持不可ワークＷ１の側方において当該保持不可ワークＷ１に近接して配置されている。このため、保持不可ワークＷ１，Ｗ２の周囲に保持スペースが確保されていない。

次の保持候補となるワークＷ１，Ｗ２が保持不可ワークであると判定部７によって判定された場合、保持不可ワークであるワークＷ１及びワークＷ２の少なくともいずれか一方のワークを、爪部２６１による保持スペースが周囲に確保されるように変位させる変位動作が実行される。変位動作の第１例においては、ロボット２は、図７に示すように、第１手法を用いた行動パターンに基づく変位動作によって保持不可ワークとしてのワークＷ２を変位させる。なお、第１手法は、前述したように、爪部２６１によって保持した一のワークＷ３をパレットＰＬへ向けて移動させるときに、ハンド部２６が一のワークＷ３を保持不可ワークＷ２に当接させた状態で移動することにより、当該保持不可ワークＷ２を変位させる変位手法である。

行動観測部６２は、第１手法を用いたロボット２の行動パターンを観測する（図１０のステップａ４）。図７に示す例では、第１手法を用いたロボット２の行動パターンとして、行動Ａ１、行動Ａ２及び行動Ａ３の３種の行動パターンが示されている。行動Ａ１は、爪部２６１によって保持した一のワークＷ３の先端が保持不可ワークＷ２の長手方向一端面に当接（当接位置ＣＰ）した状態でハンド部２６が、保持不可ワークＷ１，Ｗ２の並列方向に関して保持不可ワークＷ１から斜めに離れる方向に移動（移動軌跡ＭＴ）するような行動パターンである。行動Ａ２は、行動Ａ１に対して保持不可ワークＷ１，Ｗ２の並列方向に関する移動軌跡ＭＴの傾斜度合いが異なる以外は、行動Ａ１と同様の行動パターンである。行動Ａ３は、爪部２６１によって保持した一のワークＷ３の先端が保持不可ワークＷ２の側面に当接（当接位置ＣＰ）した状態でハンド部２６が、保持不可ワークＷ１，Ｗ２の並列方向と直交する方向、すなわち保持不可ワークＷ２の側面に沿った方向に移動（移動軌跡ＭＴ）するような行動パターンである。

行動観測部６２によって観測されるロボット２の行動パターンを規定する行動要素としては、前述の図５に示される、把持角θ、把持位置ＨＰ、第１軸２Ａにおける回転角β１及び回転速度パターン、第２軸２Ｂにおける回転角β２及び回転速度パターン、第３軸２Ｃにおける回転角β３及び回転速度パターン、第４軸２Ｄにおける回転角β４及び回転速度パターン、第５軸２Ｅにおける回転角β５及び回転速度パターン、第６軸２Ｆにおける回転角β６及び回転速度パターンが含まれる。図５に示される各行動要素は、第１手法を用いたロボット２の行動パターンにおいて、爪部２６１によって保持した一のワークＷ３の保持不可ワークＷ２に対する当接位置ＣＰを決定付ける要素となるとともに、ハンド部２６の移動軌跡ＭＴを決定付ける要素となる。

第１手法を用いた行動パターンに基づく変位動作が完了すると、変位量観測部６４は、撮像装置３から出力された、変位動作後の画像データを取得する（図１０のステップａ６）。変位動作後の画像データは、第１手法を用いたロボット２の行動パターンによって変位された後の保持不可ワークＷ１，Ｗ２に関する三次元位置情報を含む画像データとなる。変位量観測部６４は、ロボット２による変位動作前における画像データであって、判定部７が保持不可ワークＷ１，Ｗ２の存否を判定するときに参照する基準画像データと、ロボット２による変位動作後における画像データとに基づいて、保持不可ワークＷ１，Ｗ２のワーク変位量を観測する（図１０のステップａ７）。

図８に示す例では、ロボット２による変位動作前であって、ハンド部２６の爪部２６１によって一のワークＷ３が保持されたときに、撮像装置３におけるカメラ３１の撮像動作によって基準画像ＧＳが取得され、画像処理部３２の基準画像ＧＳに対する画像処理によって基準画像データＧＤＳが生成されている。基準画像ＧＳには、保持不可ワークＷ１に対応した画像領域ＧＷ１と、保持不可ワークＷ２に対応した画像領域ＧＷ２とが含まれている。また、基準画像データＧＤＳには、保持不可ワークＷ１の三次元位置情報としての座標値（Ｘ１，Ｙ１，Ｚ１）に関する情報と、保持不可ワークＷ２の三次元位置情報としての座標値（Ｘ２，Ｙ２，Ｚ２）に関する情報とが含まれている。

また、図８に示す例では、ロボット２による変位動作後において、撮像装置３におけるカメラ３１の撮像動作によって第１画像Ｇ１、第２画像Ｇ２及び第３画像Ｇ３が取得され、画像処理部３２の各画像Ｇ１，Ｇ２，Ｇ３に対する画像処理によって第１画像データＧＤ１、第２画像データＧＤ２及び第３画像データＧＤ３がそれぞれ生成されている。

第１画像Ｇ１及び第１画像データＧＤ１は、第１手法を用いた行動パターンＡ１（図７の行動Ａ１）に基づくロボット２の変位動作後の画像及び画像データを示している。第１画像Ｇ１には、行動パターンＡ１に基づくロボット２の変位動作後における保持不可ワークＷ１，Ｗ２について、保持不可ワークＷ１に対応した画像領域ＧＷ１と、保持不可ワークＷ２に対応した画像領域ＧＷ２とが含まれている。また、第１画像データＧＤ１には、保持不可ワークＷ１の三次元位置情報としての座標値（Ｘ１１，Ｙ１１，Ｚ１１）に関する情報と、保持不可ワークＷ２の三次元位置情報としての座標値（Ｘ２１，Ｙ２１，Ｚ２１）に関する情報とが含まれている。

第２画像Ｇ２及び第２画像データＧＤ２は、第１手法を用いた行動パターンＡ２（図７の行動Ａ２）に基づくロボット２の変位動作後の画像及び画像データを示している。第２画像Ｇ２には、行動パターンＡ２に基づくロボット２の変位動作後における保持不可ワークＷ１，Ｗ２について、保持不可ワークＷ１に対応した画像領域ＧＷ１と、保持不可ワークＷ２に対応した画像領域ＧＷ２とが含まれている。また、第２画像データＧＤ２には、保持不可ワークＷ１の三次元位置情報としての座標値（Ｘ１２，Ｙ１２，Ｚ１２）に関する情報と、保持不可ワークＷ２の三次元位置情報としての座標値（Ｘ２２，Ｙ２２，Ｚ２２）に関する情報とが含まれている。

第３画像Ｇ３及び第３画像データＧＤ３は、第１手法を用いた行動パターンＡ３（図７の行動Ａ３）に基づくロボット２の変位動作後の画像及び画像データを示している。第３画像Ｇ３には、行動パターンＡ３に基づくロボット２の変位動作後における保持不可ワークＷ１，Ｗ２について、保持不可ワークＷ１に対応した画像領域ＧＷ１と、保持不可ワークＷ２に対応した画像領域ＧＷ２とが含まれている。また、第３画像データＧＤ３には、保持不可ワークＷ１の三次元位置情報としての座標値（Ｘ１３，Ｙ１３，Ｚ１３）に関する情報と、保持不可ワークＷ２の三次元位置情報としての座標値（Ｘ２３，Ｙ２３，Ｚ２３）に関する情報とが含まれている。

変位量観測部６４は、基準画像データＧＤＳと第１画像データＧＤ１とに基づいて、第１手法を用いた行動パターンＡ１に基づくロボット２の変位動作が実行されたときの、保持不可ワークＷ１，Ｗ２の容器ＣＮ内での変位量を表す第１ワーク変位量ＷＤ１を観測する。第１ワーク変位量ＷＤ１は、保持不可ワークＷ１のワーク変位量（ＸＤ１１，ＹＤ１１，ＺＤ１１）と、保持不可ワークＷ２のワーク変位量（ＸＤ２１，ＹＤ２１，ＺＤ２１）とを含む。保持不可ワークＷ１のワーク変位量において「ＸＤ１１」は、基準画像データＧＤＳに含まれる保持不可ワークＷ１の三次元位置情報におけるＸ座標値「Ｘ１」と、第１画像データＧＤ１に含まれる保持不可ワークＷ１の三次元位置情報におけるＸ座標値「Ｘ１１」との差分を示す。また、保持不可ワークＷ１のワーク変位量において「ＹＤ１１」は、基準画像データＧＤＳに含まれる保持不可ワークＷ１の三次元位置情報におけるＹ座標値「Ｙ１」と、第１画像データＧＤ１に含まれる保持不可ワークＷ１の三次元位置情報におけるＹ座標値「Ｙ１１」との差分を示す。また、保持不可ワークＷ１のワーク変位量において「ＺＤ１１」は、基準画像データＧＤＳに含まれる保持不可ワークＷ１の三次元位置情報におけるＺ座標値「Ｚ１」と、第１画像データＧＤ１に含まれる保持不可ワークＷ１の三次元位置情報におけるＺ座標値「Ｚ１１」との差分を示す。

同様に、保持不可ワークＷ２のワーク変位量において「ＸＤ２１」は、基準画像データＧＤＳに含まれる保持不可ワークＷ２の三次元位置情報におけるＸ座標値「Ｘ２」と、第１画像データＧＤ１に含まれる保持不可ワークＷ２の三次元位置情報におけるＸ座標値「Ｘ２１」との差分を示す。また、保持不可ワークＷ２のワーク変位量において「ＹＤ２１」は、基準画像データＧＤＳに含まれる保持不可ワークＷ２の三次元位置情報におけるＹ座標値「Ｙ２」と、第１画像データＧＤ１に含まれる保持不可ワークＷ２の三次元位置情報におけるＹ座標値「Ｙ２１」との差分を示す。また、保持不可ワークＷ２のワーク変位量において「ＺＤ２１」は、基準画像データＧＤＳに含まれる保持不可ワークＷ２の三次元位置情報におけるＺ座標値「Ｚ２」と、第１画像データＧＤ１に含まれる保持不可ワークＷ２の三次元位置情報におけるＺ座標値「Ｚ２１」との差分を示す。

基準画像ＧＳと第１画像Ｇ１との比較から明らかなように、第１手法を用いた行動パターンＡ１に基づくロボット２の変位動作後において保持不可ワークＷ１の位置は、変位動作前の位置と比較して殆ど変化していないが、保持不可ワークＷ２の位置は爪部２６１による保持スペースが確保される程度に変化している。このため、変位量観測部６４によって観測された第１ワーク変位量ＷＤ１に含まれる保持不可ワークＷ１のワーク変位量（ＸＤ１１，ＹＤ１１，ＺＤ１１）の各値は「０；ゼロ」に近い値を示すが、保持不可ワークＷ２のワーク変位量（ＸＤ２１，ＹＤ２１，ＺＤ２１）の各値は保持不可ワークＷ２の変位に応じた値を示すことになる。

第１手法を用いた行動パターンＡ１に基づくロボット２の変位動作によって、保持不可ワークＷ２が保持スペースの確保が可能に変位されると、図７に示すように、ロボット２の状態が状態Ｓ３１（変位動作後の状態）であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，１）とされる。図７に示す例では、行動パターンＡ１に基づくロボット２の変位動作によって保持不可ワークＷ２の周囲に保持スペースが確保され、当該ワークＷ２が保持可能とされる。このため、状態変数の「ｄ」が「１」であり、ワークＷ２の周囲に爪部２６１による保持スペースが確保されたことが示されている。

また、変位量観測部６４は、基準画像データＧＤＳと第２画像データＧＤ２とに基づいて、第１手法を用いた行動パターンＡ２に基づくロボット２の変位動作が実行されたときの、保持不可ワークＷ１，Ｗ２の容器ＣＮ内での変位量を表す第２ワーク変位量ＷＤ２を観測する。第２ワーク変位量ＷＤ２は、保持不可ワークＷ１のワーク変位量（ＸＤ１２，ＹＤ１２，ＺＤ１２）と、保持不可ワークＷ２のワーク変位量（ＸＤ２２，ＹＤ２２，ＺＤ２２）とを含む。保持不可ワークＷ１のワーク変位量において「ＸＤ１２」は、基準画像データＧＤＳに含まれる保持不可ワークＷ１の三次元位置情報におけるＸ座標値「Ｘ１」と、第２画像データＧＤ２に含まれる保持不可ワークＷ１の三次元位置情報におけるＸ座標値「Ｘ１２」との差分を示す。また、保持不可ワークＷ１のワーク変位量において「ＹＤ１２」は、基準画像データＧＤＳに含まれる保持不可ワークＷ１の三次元位置情報におけるＹ座標値「Ｙ１」と、第２画像データＧＤ２に含まれる保持不可ワークＷ１の三次元位置情報におけるＹ座標値「Ｙ１２」との差分を示す。また、保持不可ワークＷ１のワーク変位量において「ＺＤ１２」は、基準画像データＧＤＳに含まれる保持不可ワークＷ１の三次元位置情報におけるＺ座標値「Ｚ１」と、第２画像データＧＤ２に含まれる保持不可ワークＷ１の三次元位置情報におけるＺ座標値「Ｚ１２」との差分を示す。

同様に、保持不可ワークＷ２のワーク変位量において「ＸＤ２２」は、基準画像データＧＤＳに含まれる保持不可ワークＷ２の三次元位置情報におけるＸ座標値「Ｘ２」と、第２画像データＧＤ２に含まれる保持不可ワークＷ２の三次元位置情報におけるＸ座標値「Ｘ２２」との差分を示す。また、保持不可ワークＷ２のワーク変位量において「ＹＤ２２」は、基準画像データＧＤＳに含まれる保持不可ワークＷ２の三次元位置情報におけるＹ座標値「Ｙ２」と、第２画像データＧＤ２に含まれる保持不可ワークＷ２の三次元位置情報におけるＹ座標値「Ｙ２２」との差分を示す。また、保持不可ワークＷ２のワーク変位量において「ＺＤ２２」は、基準画像データＧＤＳに含まれる保持不可ワークＷ２の三次元位置情報におけるＺ座標値「Ｚ２」と、第２画像データＧＤ２に含まれる保持不可ワークＷ２の三次元位置情報におけるＺ座標値「Ｚ２２」との差分を示す。

基準画像ＧＳと第２画像Ｇ２との比較から明らかなように、第１手法を用いた行動パターンＡ２に基づくロボット２の変位動作後において保持不可ワークＷ１の位置は、変位動作前の位置と比較して殆ど変化していないが、保持不可ワークＷ２の位置は保持スペースよりも小さい範囲で変化している。このため、変位量観測部６４によって観測された第２ワーク変位量ＷＤ２に含まれる保持不可ワークＷ１のワーク変位量（ＸＤ１２，ＹＤ１２，ＺＤ１２）の各値は「０；ゼロ」に近い値を示すが、保持不可ワークＷ２のワーク変位量（ＸＤ２２，ＹＤ２２，ＺＤ２２）の各値は保持不可ワークＷ２の変位に応じた値を示すことになる。

第１手法を用いた行動パターンＡ２に基づくロボット２の変位動作によって、保持不可ワークＷ２が保持スペースよりも小さい範囲で変位されると、図７に示すように、ロボット２の状態が状態Ｓ３２（変位動作後の状態）であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，０）とされる。図７に示す例では、行動パターンＡ２に基づくロボット２の変位動作によって保持不可ワークＷ２は変位されたけれども、その周囲に保持スペースが確保されておらず、当該ワークＷ２の保持が不可能である。このため、状態変数の「ｄ」が「０」であり、ワークＷ２の周囲に爪部２６１による保持スペースが確保されていないことが示されている。

また、変位量観測部６４は、基準画像データＧＤＳと第３画像データＧＤ３とに基づいて、第１手法を用いた行動パターンＡ３に基づくロボット２の変位動作が実行されたときの、保持不可ワークＷ１，Ｗ２の容器ＣＮ内での変位量を表す第３ワーク変位量ＷＤ３を観測する。第３ワーク変位量ＷＤ３は、保持不可ワークＷ１のワーク変位量（ＸＤ１３，ＹＤ１３，ＺＤ１３）と、保持不可ワークＷ２のワーク変位量（ＸＤ２３，ＹＤ２３，ＺＤ２３）とを含む。保持不可ワークＷ１のワーク変位量において「ＸＤ１３」は、基準画像データＧＤＳに含まれる保持不可ワークＷ１の三次元位置情報におけるＸ座標値「Ｘ１」と、第３画像データＧＤ３に含まれる保持不可ワークＷ１の三次元位置情報におけるＸ座標値「Ｘ１３」との差分を示す。また、保持不可ワークＷ１のワーク変位量において「ＹＤ１３」は、基準画像データＧＤＳに含まれる保持不可ワークＷ１の三次元位置情報におけるＹ座標値「Ｙ１」と、第３画像データＧＤ３に含まれる保持不可ワークＷ１の三次元位置情報におけるＹ座標値「Ｙ１３」との差分を示す。また、保持不可ワークＷ１のワーク変位量において「ＺＤ１３」は、基準画像データＧＤＳに含まれる保持不可ワークＷ１の三次元位置情報におけるＺ座標値「Ｚ１」と、第３画像データＧＤ３に含まれる保持不可ワークＷ１の三次元位置情報におけるＺ座標値「Ｚ１３」との差分を示す。

同様に、保持不可ワークＷ２のワーク変位量において「ＸＤ２３」は、基準画像データＧＤＳに含まれる保持不可ワークＷ２の三次元位置情報におけるＸ座標値「Ｘ２」と、第３画像データＧＤ３に含まれる保持不可ワークＷ２の三次元位置情報におけるＸ座標値「Ｘ２３」との差分を示す。また、保持不可ワークＷ２のワーク変位量において「ＹＤ２３」は、基準画像データＧＤＳに含まれる保持不可ワークＷ２の三次元位置情報におけるＹ座標値「Ｙ２」と、第３画像データＧＤ３に含まれる保持不可ワークＷ２の三次元位置情報におけるＹ座標値「Ｙ２３」との差分を示す。また、保持不可ワークＷ２のワーク変位量において「ＺＤ２３」は、基準画像データＧＤＳに含まれる保持不可ワークＷ２の三次元位置情報におけるＺ座標値「Ｚ２」と、第３画像データＧＤ３に含まれる保持不可ワークＷ２の三次元位置情報におけるＺ座標値「Ｚ２３」との差分を示す。

基準画像ＧＳと第３画像Ｇ３との比較から明らかなように、第１手法を用いた行動パターンＡ３に基づくロボット２の変位動作後において保持不可ワークＷ１，Ｗ２の位置は、変位動作前の位置と比較して殆ど変化していない。このため、変位量観測部６４によって観測された第３ワーク変位量ＷＤ３に含まれる保持不可ワークＷ１のワーク変位量（ＸＤ１３，ＹＤ１３，ＺＤ１３）の各値と、保持不可ワークＷ２のワーク変位量（ＸＤ２３，ＹＤ２３，ＺＤ２３）の各値とは、「０；ゼロ」に近い値を示すことになる。

第１手法を用いた行動パターンＡ３に基づくロボット２の変位動作が実行されると、図７に示すように、ロボット２の状態が状態Ｓ３３（変位動作後の状態）であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，０）とされる。図７に示す例では、行動パターンＡ３に基づくロボット２の変位動作によって保持不可ワークＷ２は殆ど変位されておらず、その周囲に保持スペースが確保されていないので、当該ワークＷ２の保持が不可能である。このため、状態変数の「ｄ」が「０」であり、ワークＷ２の周囲に爪部２６１による保持スペースが確保されていないことが示されている。

変位量観測部６４によって保持不可ワークＷ１，Ｗ２のワーク変位量が観測されると、学習部６３の報酬設定部６３１は、保持不可ワークＷ１，Ｗ２の少なくともいずれか一方のワーク（保持不可ワークＷ２）のワーク変位量が（閾値ＷＤＴ×０．５）以上であるか否かを判定する（図１０のステップａ８）。更に、報酬設定部６３１は、保持不可ワークＷ２のワーク変位量が閾値ＷＤＴ以上であるか否かを判定する（図１０のステップａ９）。報酬設定部６３１は、保持不可ワークＷ２のワーク変位量が所定の閾値ＷＤＴ以上となるロボット２の行動パターン（図７の行動Ａ１）に対しては、第１の値Ｒ１（例えば「１００」）の報酬Ｒを与える（図１０のステップａ１０）。報酬設定部６３１は、保持不可ワークＷ２のワーク変位量が（閾値ＷＤＴ×０．５）以上且つ閾値ＷＤＴ未満となるロボット２の行動パターン（図７の行動Ａ２）に対しては、第１の値Ｒ１よりも小さい第２の値Ｒ２（例えば「１０」）の報酬Ｒを与える（図１０のステップａ１５）。報酬設定部６３１は、保持不可ワークＷ２のワーク変位量が（閾値ＷＤＴ×０．５）未満となるロボット２の行動パターン（図７の行動Ａ３）に対しては、第２の値Ｒ２よりも小さい第３の値Ｒ３（例えば「０：ゼロ」）の報酬Ｒを与える（図１０のステップａ１４）。

次に、学習部６３の価値関数更新部６３２は、ロボット２の行動パターンの価値Ｑ（ｓ，ａ）を規定する価値関数を、上記式（１）の更新式を用いて更新する（図１０のステップａ１１，ａ１６）。

価値関数更新部６３２によって価値関数が更新されるごとに学習部６３は、第１手法を用いて保持不可ワークＷ２を変位させる変位動作におけるロボット２の行動パターンの学習結果を表す学習結果情報ＪＨ１（図９）を生成する。学習部６３によって生成された学習結果情報ＪＨ１は、記憶部８に記憶される。学習結果情報ＪＨ１は、例えば、変位手法情報Ｊ１１と、基準画像データ情報Ｊ１２と、行動パターン情報Ｊ１３と、ワーク変位量情報Ｊ１４と、報酬情報Ｊ１５とが関連付けられた情報である。変位手法情報Ｊ１１は、ロボット２の変位動作の際に用いられた変位手法を表す情報である。基準画像データ情報Ｊ１２は、判定部７が保持不可ワークの存否を判定する際に参照した基準画像データＧＤＳを表す情報である。行動パターン情報Ｊ１３は、ロボット２の変位動作の際に行動観測部６２により観測されたロボット２の行動パターンを表す情報であり、行動パターンを規定する行動要素が含まれる。ワーク変位量情報Ｊ１４は、ロボット２の変位動作の際に変位量観測部６４により観測された保持不可ワークのワーク変位量を表す情報である。報酬情報Ｊ１５は、行動観測部６２により観測されたロボット２の行動パターンに対して報酬設定部６３１が設定した報酬Ｒを表す情報である。

図９に例示される学習結果情報ＪＨ１においては、基準画像データ情報Ｊ１２にて表される基準画像データＧＤＳに対応した配置状況の保持不可ワークに対して、第１手法（変位手法情報Ｊ１１）を用いた行動パターンＡ１，Ａ２，Ａ３（行動パターン情報Ｊ１３）に基づくロボット２の変位動作が実行されたことが示されている。そして、第１手法を用いた行動パターンＡ１は、保持不可ワークのワーク変位量ＷＤ１が閾値ＷＤＴ以上となり（ワーク変位量情報Ｊ１４）、第１の値Ｒ１（＝１００）の報酬Ｒ（報酬情報Ｊ１５）が与えられている。つまり、学習部６３は、基準画像データＧＤＳに対応した配置状況の保持不可ワークを保持スペースの確保が可能に変位させるための最適なロボット２の行動パターンとして、第１手法を用いた行動パターンＡ１を学習したことになる。図７を参照して説明すると、学習部６３は、第１手法を用いた行動パターンＡ１を規定する各行動要素を解析することによって、爪部２６１によって保持した一のワークＷ３の先端を保持不可ワークＷ２のどの位置に当接させて（当接位置ＣＰ）、どの方向にハンド部２６が移動すれば（移動軌跡ＭＴ）、保持スペースの確保が可能に保持不可ワークＷ２を変位させることができるかを学習する。また、学習部６３は、第１手法を用いた行動パターンＡ２，Ａ３については、保持不可ワークの周囲に保持スペースを確保するには至らない行動パターンであることを学習したことになる。

学習部６３は、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた行動パターン、すなわち、保持スペースが確保されるように保持不可ワークを変位させた行動パターンを認識した時点で学習処理を終了する。図９に示す例では、学習部６３は、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた、第１手法を用いた行動パターンＡ１を認識した時点で学習処理を終了する。このように、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた行動パターンに基づくロボット２の変位動作が実行されたときには、保持不可ワークの周囲に保持スペースが確保され、当該ワークの爪部２６１による保持が可能となる。従って、保持不可ワークの周囲に保持スペースが確保された後、行動決定部９は、前述した既存の行動パターンを記憶部８から読み出すことによって、保持スペースが確保されたワークに対するロボット２の行動パターンを決定し（図１０のステップａ１２）、その決定した行動パターンを制御装置４に向けて出力する（図１０のステップａ１３）。これにより、制御装置４の制御によってロボット２は、ハンド部２６によって容器ＣＮから保持スペースが確保されたワークを取り出し、その取り出したワークをパレットＰＬに載置するという、連続的な生産動作を実行する。

一方、第２の値Ｒ２（＝１０）又は第３の値Ｒ３（＝０）の報酬Ｒが与えられた行動パターン、すなわち、保持不可ワークの周囲に保持スペースを確保するには至らない行動パターンを認識した場合、学習部６３は、学習処理の回数が所定の学習回数に達したか否かを判定する（図１０のステップａ１７）。第２の値Ｒ２（＝１０）又は第３の値Ｒ３（＝０）の報酬Ｒが与えられた行動パターンの学習部６３による認識が繰り返されて、所定の学習回数に達した場合、学習部６３は、保持不可ワークの周囲に保持スペースの確保ができないと判断し、ワーク保持不可情報を出力する（図１０のステップａ１８）。ワーク保持不可情報は、ハンド部２６の爪部２６１によるワークの保持が不可能であることを表す情報である。学習部６３によってワーク保持不可情報が出力された場合、第１手法を用いた行動パターンに基づくロボット２の変位動作の実行時において、爪部２６１に保持されていた一のワークをパレットＰＬに載置する動作が実行された後、ロボット２の生産動作が中断される。ロボット２の生産動作が中断されると、作業者は、容器ＣＮ内におけるワークの収容状況を確認し、ハンド部２６による保持が不可能であると想定されるワークを移動させる等の処置を行えばよい。

なお、学習部６３により生成された今回の学習結果を表す学習結果情報ＪＨ１は、次回以降のロボット２の変位動作の実行時に参照される。例えば、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた行動パターンが登録された学習結果情報ＪＨ１が記憶部８に記憶されていることを想定する。記憶部８に記憶された学習結果情報ＪＨ１に登録されている基準画像データＧＤＳにて表される配置状況と同一又は類似した配置状況の保持不可ワークの存在が判定部７によって判定された場合、学習部６３による変位動作に関する学習処理は省略される。この場合、行動決定部９は、記憶部８に記憶された学習結果情報ＪＨ１に登録されている、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた行動パターンを読み出すことによって、変位動作の実行時におけるロボット２の行動パターンを決定する。行動決定部９は、記憶部８から読み出したロボット２の変位動作時の行動パターンを制御装置４に向けて出力する。変位動作時の行動パターンが入力された制御装置４は、当該行動パターンに基づいて、ロボット２の動作を制御する。制御装置４の制御によってロボット２は、爪部２６１による保持スペースが周囲に確保されるように保持不可ワークを変位させる。

以上説明したように、ハンド部２６の爪部２６１による次の保持候補となるワークが保持不可ワークであることが判定部７によって判定された場合、学習部６３は、保持スペースが確保されるように保持不可ワークを変位させることが可能な、第１手法を用いたロボット２の行動パターンを学習する。これにより、学習部６３は、ハンド部２６の爪部２６１による保持が不可能とされたワークの保持を可能とする、第１手法を用いたロボット２の最適な行動パターンを学習することができる。そして、次回のロボット２の生産動作において、行動決定部９は、学習部６３により生成された学習結果情報ＪＨ１に登録された、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた行動パターンを、保持不可ワークをハンド部２６によって保持可能とするための行動パターンとして決定する。この行動パターンに従ってロボット２が変位動作を実行することにより、ハンド部２６の爪部２６１による保持が不可能とされたワークの周囲に、爪部２６１による保持を可能とするための保持スペースが確保され、当該ワークの爪部２６１による保持が可能となる。このため、保持不可ワークの存在に起因してロボット２の動作を停止させることを可及的に回避することができ、ハンド部２６による容器ＣＮからのワークの取り出し動作を継続させることができる。

なお、第１手法を用いた行動パターンに基づくロボット２の変位動作において、ロボット２の行動パターンは、図７に例示されるものに限定されるわけではなく、例えば図１１に示す行動パターンであってもよい。図１１は、第１例の変位動作におけるロボット２の行動パターンの変形例を説明するための図である。

図１１に示す例では、ハンド部２６の爪部２６１によって容器ＣＮ内の一のワークＷ３を保持したときに、ワークＷ１，Ｗ２の周囲に保持スペースが確保されておらず、ワークＷ１，Ｗ２が保持不可ワークとされている。このため、ロボット２の状態が状態Ｓ３であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，０）とされる。なお、図１１に示す例では、図７に示す例と同様に、保持不可ワークＷ１は容器ＣＮの内面に近接して配置され、保持不可ワークＷ２は保持不可ワークＷ１の側方において当該保持不可ワークＷ１に近接して配置されている。このため、保持不可ワークＷ１，Ｗ２の周囲に保持スペースが確保されていない。

第１手法を用いたロボット２の行動パターンとして、図１１に例示される行動Ａ４は、爪部２６１によって保持した一のワークＷ３の先端が容器ＣＮの内面に近接して配置された保持不可ワークＷ１の長手方向一端面に当接（当接位置ＣＰ）した状態で、ハンド部２６が移動（移動軌跡ＭＴ）するような行動パターンである。行動Ａ４では、ハンド部２６は、その移動途中において一のワークＷ３の先端の当接位置ＣＰが保持不可ワークＷ１から保持不可ワークＷ２へ遷移するように、保持不可ワークＷ１，Ｗ２の並列方向に関して保持不可ワークＷ１から斜めに離れる方向に移動（移動軌跡ＭＴ）する。

第１手法を用いた行動パターンＡ４（行動Ａ４）に基づくロボット２の変位動作が実行されると、保持不可ワークＷ１及び保持不可ワークＷ２の双方のワークを変位させることが可能であり、少なくとも保持不可ワークＷ２については保持スペースが確保される程度に変位させることが可能である。

報酬設定部６３１は、上記のような、複数の保持不可ワークＷ１，Ｗ２を変位させ、少なくとも１つの保持不可ワークＷ２を保持スペースが確保される程度に変位させる行動パターンＡ４については、第１の値Ｒ１（＝１００）よりも大きな値の報酬Ｒを与えるようにしてもよい。

＜変位動作の第２例について＞
図１２～図１４を参照して、変位動作の第２例について説明する。図１２は、保持不可ワークを変位させる変位動作の第２例を説明するための図である。図１３は、第２例の変位動作において学習部６３によって生成される学習結果情報ＪＨ２を説明するための図である。図１４は、第２例の変位動作に関する機械学習装置５の動作を示すフローチャートである。第２例の変位動作は、第２手法を用いた行動パターンに基づくロボット２の変位動作である。

状態観測部６１は、ロボット２の状態が移行されるごとに変化する状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）に基づいて、ロボット２の状態が状態Ｓ２から状態Ｓ３へ移行されたことを観測する（図１４のステップｂ１）。ロボット２の状態が状態Ｓ２から状態Ｓ３へ移行されたとき、判定部７は、撮像装置３から出力された基準画像データを取得する（図１４のステップｂ２）。判定部７は、基準画像データに基づいて容器ＣＮ内での各ワークの収容状況を認識し、次の保持候補となるワークが保持不可ワークであるか否かを判定する（図１４のステップｂ３）。

次の保持候補となるワークが保持不可ワークではないと判定部７によって判定された場合には、ロボット２の状態が状態Ｓ３であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，１）とされる。この場合、行動決定部９は、状態Ｓ３から状態Ｓ４へと移行させるための既存の行動パターンを記憶部８から読み出して制御装置４に向けて出力する。既存の行動パターンが入力された制御装置４は、当該既存の行動パターンに基づいて、ロボット２の動作を制御する。制御装置４の制御によってロボット２は、爪部２６１によって保持された一のワークを容器ＣＮから取り出す取り出し動作を実行する（図１４のステップｂ５）。

一方、次の保持候補となるワークが保持不可ワークであると判定部７によって判定された場合には、図１２に示すように、ロボット２の状態が状態Ｓ３であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，０）とされる。図１２に示す例では、ハンド部２６の爪部２６１によって容器ＣＮ内の一のワークＷ３を保持したときに、ワークＷ１，Ｗ２の周囲に保持スペースが確保されておらず、ワークＷ１，Ｗ２が保持不可ワークとされている。なお、図１２に示す例では、図７に示す例と同様に、保持不可ワークＷ１は容器ＣＮの内面に近接して配置され、保持不可ワークＷ２は保持不可ワークＷ１の側方において当該保持不可ワークＷ１に近接して配置されている。このため、保持不可ワークＷ１，Ｗ２の周囲に保持スペースが確保されていない。

次の保持候補となるワークＷ１，Ｗ２が保持不可ワークであると判定部７によって判定された場合、保持不可ワークであるワークＷ１及びワークＷ２の少なくともいずれか一方のワークを、爪部２６１による保持スペースが周囲に確保されるように変位させる変位動作が実行される。変位動作の第２例においては、ロボット２は、図１２に示すように、第２手法を用いた行動パターンに基づく変位動作によって保持不可ワークを変位させる。なお、第２手法は、前述したように、爪部２６１によって保持した一のワークＷ３をパレットＰＬに載置した後、ハンド部２６が爪部２６１によって容器ＣＮを保持した状態で移動することにより、容器ＣＮの移動に応じて保持不可ワークを変位させる変位手法である。

行動観測部６２は、第２手法を用いたロボット２の行動パターンを観測する（図１４のステップｂ４）。図１２に示す例では、第２手法を用いたロボット２の行動パターンとして、行動Ａ１、行動Ａ２及び行動Ａ３の３種の行動パターンが示されている。行動Ａ１は、ハンド部２６が爪部２６１によって容器ＣＮを保持した状態で、保持不可ワークＷ１，Ｗ２の並列方向に対して保持不可ワークＷ１，Ｗ２に近づくように傾斜する方向に、所定の移動速度パターンで移動（移動軌跡ＭＴ）するような行動パターンである。行動Ａ２は、ハンド部２６の移動時における加速度が行動Ａ１よりも遅く、移動速度パターンが異なる以外は、行動Ａ１と同様の行動パターンである。行動Ａ３は、ハンド部２６が爪部２６１によって容器ＣＮを保持した状態で、保持不可ワークＷ１，Ｗ２の並列方向に対して保持不可ワークＷ１，Ｗ２から離れるように傾斜する方向に、所定の移動速度パターンで移動（移動軌跡ＭＴ）するような行動パターンである。

行動観測部６２によって観測されるロボット２の行動パターンを規定する行動要素としては、前述の図５に示される、把持角θ、把持位置ＨＰ、第１軸２Ａにおける回転角β１及び回転速度パターン、第２軸２Ｂにおける回転角β２及び回転速度パターン、第３軸２Ｃにおける回転角β３及び回転速度パターン、第４軸２Ｄにおける回転角β４及び回転速度パターン、第５軸２Ｅにおける回転角β５及び回転速度パターン、第６軸２Ｆにおける回転角β６及び回転速度パターンが含まれる。図５に示される各行動要素は、第２手法を用いたロボット２の行動パターンにおいて、爪部２６１が容器ＣＮを保持する保持位置を決定付ける要素となり、ハンド部２６の移動軌跡ＭＴを決定付ける要素となり、ハンド部２６の移動速度パターンを決定付ける要素となる。

第２手法を用いた行動パターンに基づく変位動作が完了すると、変位量観測部６４は、撮像装置３から出力された、変位動作後の画像データを取得する（図１４のステップｂ６）。変位動作後の画像データは、第２手法を用いたロボット２の行動パターンによって変位された後の保持不可ワークＷ１，Ｗ２に関する三次元位置情報を含む画像データとなる。変位量観測部６４は、ロボット２による変位動作前における画像データであって、判定部７が保持不可ワークＷ１，Ｗ２の存否を判定するときに参照する基準画像データと、ロボット２による変位動作後における画像データとに基づいて、保持不可ワークＷ１，Ｗ２のワーク変位量を観測する（図１４のステップｂ７）。

図１２に示す例では、第２手法を用いた行動パターンＡ１に基づくロボット２の変位動作後において、保持不可ワークＷ１及び保持不可ワークＷ２の双方のワークが変位し、少なくとも保持不可ワークＷ２は保持スペースが確保される程度に変位している。第２手法を用いた行動パターンＡ１に基づくロボット２の変位動作によって、少なくとも保持不可ワークＷ２が保持スペースの確保が可能に変位されると、ロボット２の状態が状態Ｓ３１（変位動作後の状態）であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，１）とされる。

また、図１２に示す例では、第２手法を用いた行動パターンＡ２に基づくロボット２の変位動作後において、保持不可ワークＷ１は殆ど変位していないが、保持不可ワークＷ２は保持スペースよりも小さい範囲で変位している。第２手法を用いた行動パターンＡ２に基づくロボット２の変位動作によって、保持不可ワークＷ２は変位したけれども保持スペースよりも小さい範囲の変位であるので、ロボット２の状態が状態Ｓ３２（変位動作後の状態）であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，０）とされる。

また、図１２に示す例では、第２手法を用いた行動パターンＡ３に基づくロボット２の変位動作後において、保持不可ワークＷ１及び保持不可ワークＷ２の双方のワークが殆ど変位していない。第２手法を用いた行動パターンＡ３に基づくロボット２の変位動作によって、保持不可ワークＷ１及び保持不可ワークＷ２の双方のワークが殆ど変位しておらず、その周囲に保持スペースが確保されていないので、ロボット２の状態が状態Ｓ３３（変位動作後の状態）であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，０）とされる。

変位量観測部６４によって保持不可ワークＷ１，Ｗ２のワーク変位量が観測されると、学習部６３の報酬設定部６３１は、保持不可ワークＷ１，Ｗ２の少なくともいずれか一方のワーク（保持不可ワークＷ２）のワーク変位量が（閾値ＷＤＴ×０．５）以上であるか否かを判定する（図１４のステップｂ８）。更に、報酬設定部６３１は、保持不可ワークＷ２のワーク変位量が閾値ＷＤＴ以上であるか否かを判定する（図１４のステップｂ９）。報酬設定部６３１は、保持不可ワークＷ２のワーク変位量が所定の閾値ＷＤＴ以上となるロボット２の行動パターン（図１２の行動Ａ１）に対しては、第１の値Ｒ１（例えば「１００」）の報酬Ｒを与える（図１４のステップｂ１０）。報酬設定部６３１は、保持不可ワークＷ２のワーク変位量が（閾値ＷＤＴ×０．５）以上且つ閾値ＷＤＴ未満となるロボット２の行動パターン（図１２の行動Ａ２）に対しては、第１の値Ｒ１よりも小さい第２の値Ｒ２（例えば「１０」）の報酬Ｒを与える（図１４のステップｂ１５）。報酬設定部６３１は、保持不可ワークＷ２のワーク変位量が（閾値ＷＤＴ×０．５）未満となるロボット２の行動パターン（図１２の行動Ａ３）に対しては、第２の値Ｒ２よりも小さい第３の値Ｒ３（例えば「０：ゼロ」）の報酬Ｒを与える（図１４のステップｂ１４）。

次に、学習部６３の価値関数更新部６３２は、ロボット２の行動パターンの価値Ｑ（ｓ，ａ）を規定する価値関数を、上記式（１）の更新式を用いて更新する（図１４のステップｂ１１，ｂ１６）。

価値関数更新部６３２によって価値関数が更新されるごとに学習部６３は、第２手法を用いて保持不可ワークＷ２を変位させる変位動作におけるロボット２の行動パターンの学習結果を表す学習結果情報ＪＨ２（図１３）を生成する。学習部６３によって生成された学習結果情報ＪＨ２は、記憶部８に記憶される。学習結果情報ＪＨ２は、前述した図９に示す学習結果情報ＪＨ１と同様に、例えば、変位手法情報Ｊ２１と、基準画像データ情報Ｊ２２と、行動パターン情報Ｊ２３と、ワーク変位量情報Ｊ２４と、報酬情報Ｊ２５とが関連付けられた情報である。

図１３に例示される学習結果情報ＪＨ２においては、基準画像データ情報Ｊ２２にて表される基準画像データＧＤＳに対応した配置状況の保持不可ワークに対して、第２手法（変位手法情報Ｊ２１）を用いた行動パターンＡ１，Ａ２，Ａ３（行動パターン情報Ｊ２３）に基づくロボット２の変位動作が実行されたことが示されている。そして、第２手法を用いた行動パターンＡ１は、保持不可ワークのワーク変位量ＷＤ１が閾値ＷＤＴ以上となり（ワーク変位量情報Ｊ２４）、第１の値Ｒ１（＝１００）の報酬Ｒ（報酬情報Ｊ２５）が与えられている。つまり、学習部６３は、基準画像データＧＤＳに対応した配置状況の保持不可ワークを保持スペースの確保が可能に変位させるための最適なロボット２の行動パターンとして、第２手法を用いた行動パターンＡ１を学習したことになる。図１２を参照して説明すると、学習部６３は、第２手法を用いた行動パターンＡ１を規定する各行動要素を解析することによって、爪部２６１によって容器ＣＮのどの位置を保持し（保持位置）、ハンド部２６がどの方向に、どのような移動速度パターンで移動（移動軌跡ＭＴ）すれば、保持スペースの確保が可能に保持不可ワークＷ２を変位させることができるかを学習する。また、学習部６３は、第２手法を用いた行動パターンＡ２，Ａ３については、保持不可ワークの周囲に保持スペースを確保するには至らない行動パターンであることを学習したことになる。

学習部６３は、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた行動パターン、すなわち、保持スペースが確保されるように保持不可ワークを変位させた行動パターンを認識した時点で学習処理を終了する。図１３に示す例では、学習部６３は、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた、第２手法を用いた行動パターンＡ１を認識した時点で学習処理を終了する。このように、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた行動パターンに基づくロボット２の変位動作が実行されたときには、保持不可ワークの周囲に保持スペースが確保され、当該ワークの爪部２６１による保持が可能となる。従って、保持不可ワークの周囲に保持スペースが確保された後、行動決定部９は、前述した既存の行動パターンを記憶部８から読み出すことによって、保持スペースが確保されたワークに対するロボット２の行動パターンを決定し（図１４のステップｂ１２）、その決定した行動パターンを制御装置４に向けて出力する（図１４のステップｂ１３）。これにより、制御装置４の制御によってロボット２は、ハンド部２６によって容器ＣＮから保持スペースが確保されたワークを取り出し、その取り出したワークをパレットＰＬに載置するという、連続的な生産動作を実行する。

一方、第２の値Ｒ２（＝１０）又は第３の値Ｒ３（＝０）の報酬Ｒが与えられた行動パターン、すなわち、保持不可ワークの周囲に保持スペースを確保するには至らない行動パターンを認識した場合、学習部６３は、学習処理の回数が所定の学習回数に達したか否かを判定する（図１４のステップｂ１７）。第２の値Ｒ２（＝１０）又は第３の値Ｒ３（＝０）の報酬Ｒが与えられた行動パターンの学習部６３による認識が繰り返されて、所定の学習回数に達した場合、学習部６３は、保持不可ワークの周囲に保持スペースの確保ができないと判断し、ワーク保持不可情報を出力する（図１４のステップｂ１８）。学習部６３によってワーク保持不可情報が出力された場合、第２手法を用いた行動パターンに基づくロボット２の変位動作の実行時において、爪部２６１による容器ＣＮの保持を解除した後、ロボット２の生産動作が中断される。ロボット２の生産動作が中断されると、作業者は、容器ＣＮ内におけるワークの収容状況を確認し、ハンド部２６による保持が不可能であると想定されるワークを移動させる等の処置を行えばよい。

なお、学習部６３により生成された今回の学習結果を表す学習結果情報ＪＨ２は、次回以降のロボット２の変位動作の実行時に参照される。例えば、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた行動パターンが登録された学習結果情報ＪＨ２が記憶部８に記憶されていることを想定する。記憶部８に記憶された学習結果情報ＪＨ２に登録されている基準画像データＧＤＳにて表される配置状況と同一又は類似した配置状況の保持不可ワークの存在が判定部７によって判定された場合、学習部６３による変位動作に関する学習処理は省略される。この場合、行動決定部９は、記憶部８に記憶された学習結果情報ＪＨ２に登録されている、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた行動パターンを読み出すことによって、変位動作の実行時におけるロボット２の行動パターンを決定する。行動決定部９は、記憶部８から読み出したロボット２の変位動作時の行動パターンを制御装置４に向けて出力する。変位動作時の行動パターンが入力された制御装置４は、当該行動パターンに基づいて、ロボット２の動作を制御する。制御装置４の制御によってロボット２は、爪部２６１による保持スペースが周囲に確保されるように保持不可ワークを変位させる。

以上説明したように、ハンド部２６の爪部２６１による次の保持候補となるワークが保持不可ワークであることが判定部７によって判定された場合、学習部６３は、保持スペースが確保されるように保持不可ワークを変位させることが可能な、第２手法を用いたロボット２の行動パターンを学習する。これにより、学習部６３は、ハンド部２６の爪部２６１による保持が不可能とされたワークの保持を可能とする、第２手法を用いたロボット２の最適な行動パターンを学習することができる。そして、次回のロボット２の生産動作において、行動決定部９は、学習部６３により生成された学習結果情報ＪＨ２に登録された、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた行動パターンを、保持不可ワークをハンド部２６によって保持可能とするための行動パターンとして決定する。この行動パターンに従ってロボット２が変位動作を実行することにより、ハンド部２６の爪部２６１による保持が不可能とされたワークの周囲に、爪部２６１による保持を可能とするための保持スペースが確保され、当該ワークの爪部２６１による保持が可能となる。このため、保持不可ワークの存在に起因してロボット２の動作を停止させることを可及的に回避することができ、ハンド部２６による容器ＣＮからのワークの取り出し動作を継続させることができる。

＜変位動作の第３例について＞
図１５及び図１６を参照して、変位動作の第３例について説明する。図１５は、第３例の変位動作において学習部６３によって生成される学習結果情報ＪＨ３を説明するための図である。図１６は、第３例の変位動作に関する機械学習装置５の動作を示すフローチャートである。第３例では、機械学習装置５は、保持不可ワークを変位させる変位手法を切り替えながら、保持スペースの確保が可能に保持不可ワークを変位させる最適な行動パターンを学習する。

第３例によるロボット２の変位動作において試行される変位手法の種類、数、及び試行順位は、特に限定されるものではない。学習部６３は、変位手法の種類、数、及び試行順位を、予め設定する。以下では、ロボット２の変位動作において、変位手法の試行順位が、前述の図６に例示される第３手法、第４手法、第２手法、第５手法、第６手法の順位に設定されている場合について説明する。

状態観測部６１は、ロボット２の状態が移行されるごとに変化する状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）に基づいて、ロボット２の状態が状態Ｓ２から状態Ｓ３へ移行されたことを観測する（図１６のステップｃ１）。ロボット２の状態が状態Ｓ２から状態Ｓ３へ移行されたとき、判定部７は、撮像装置３から出力された基準画像データを取得する（図１６のステップｃ２）。判定部７は、基準画像データに基づいて容器ＣＮ内での各ワークの収容状況を認識し、次の保持候補となるワークが保持不可ワークであるか否かを判定する（図１６のステップｃ３）。

次の保持候補となるワークが保持不可ワークではないと判定部７によって判定された場合には、ロボット２の状態が状態Ｓ３であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，１）とされる。この場合、行動決定部９は、状態Ｓ３から状態Ｓ４へと移行させるための既存の行動パターンを記憶部８から読み出して制御装置４に向けて出力する。既存の行動パターンが入力された制御装置４は、当該既存の行動パターンに基づいて、ロボット２の動作を制御する。制御装置４の制御によってロボット２は、爪部２６１によって保持された一のワークを容器ＣＮから取り出す取り出し動作を実行する（図１６のステップｃ５）。

一方、次の保持候補となるワークが保持不可ワークであると判定部７によって判定された場合には、ロボット２の状態が状態Ｓ３であるときの状態変数（ΔＸ，ΔＹ，ΔＺ，ｐ，ｄ）が（０，０，０，１，０）とされる。

次の保持候補となるワークが保持不可ワークであると判定部７によって判定された場合、爪部２６１による保持スペースが周囲に確保されるように保持不可ワークを変位させる変位動作が実行される。変位動作の第３例においては、ロボット２は、まず、第３手法を用いた行動パターンに基づく変位動作によって保持不可ワークを変位させる試行を行う。なお、第３手法は、前述したように、爪部２６１によって保持した一のワークをパレットＰＬに載置した後、ハンド部２６が爪部２６１を保持不可ワークに当接させた状態で移動することにより、当該保持不可ワークを変位させる変位手法である。

行動観測部６２は、第３手法を用いたロボット２の行動パターンを観測する（図１６のステップｃ４）。第３手法を用いた行動パターンに基づく変位動作が完了すると、変位量観測部６４は、撮像装置３から出力された、変位動作後の画像データを取得する（図１６のステップｃ６）。変位動作後の画像データは、第３手法を用いたロボット２の行動パターンによって変位された後の保持不可ワークに関する三次元位置情報を含む画像データとなる。変位量観測部６４は、ロボット２による変位動作前における画像データであって、判定部７が保持不可ワークの存否を判定するときに参照する基準画像データと、ロボット２による変位動作後における画像データとに基づいて、保持不可ワークのワーク変位量を観測する（図１６のステップｃ７）。

変位量観測部６４によって保持不可ワークのワーク変位量が観測されると、学習部６３の報酬設定部６３１は、保持不可ワークのワーク変位量が（閾値ＷＤＴ×０．５）以上であるか否かを判定する（図１６のステップｃ８）。更に、報酬設定部６３１は、保持不可ワークのワーク変位量が閾値ＷＤＴ以上であるか否かを判定する（図１６のステップｃ９）。報酬設定部６３１は、保持不可ワークのワーク変位量が所定の閾値ＷＤＴ以上となるロボット２の行動パターンに対しては、第１の値Ｒ１（例えば「１００」）の報酬Ｒを与える（図１６のステップｃ１０）。報酬設定部６３１は、保持不可ワークのワーク変位量が（閾値ＷＤＴ×０．５）以上且つ閾値ＷＤＴ未満となるロボット２の行動パターンに対しては、第１の値Ｒ１よりも小さい第２の値Ｒ２（例えば「１０」）の報酬Ｒを与える（図１６のステップｃ１５）。報酬設定部６３１は、保持不可ワークのワーク変位量が（閾値ＷＤＴ×０．５）未満となるロボット２の行動パターンに対しては、第２の値Ｒ２よりも小さい第３の値Ｒ３（例えば「０：ゼロ」）の報酬Ｒを与える（図１６のステップｃ１４）。

次に、学習部６３の価値関数更新部６３２は、ロボット２の行動パターンの価値Ｑ（ｓ，ａ）を規定する価値関数を、上記式（１）の更新式を用いて更新する（図１６のステップｃ１１，ｃ１６）。

第３手法を用いた行動パターンに対して第３の値Ｒ３（＝０）の報酬Ｒが与えられた場合、学習部６３は、当該第３手法を用いた行動パターンに対して、基準回数（例えば「２０」）連続して第３の値Ｒ３（＝０）の報酬Ｒが与えられたか否かを判定する（図１６のステップｃ１７）。第３手法を用いた行動パターンに対して基準回数（＝２０）連続して第３の値Ｒ３（＝０）の報酬Ｒが与えられた場合、学習部６３は、この第３手法が保持不可ワークを変位させる適正度の低い変位手法であると判断し、変位手法を第３手法から次の試行順位の第４手法に切り替える（図１６のステップｃ１８）。なお、第４手法は、前述したように、爪部２６１によって保持した一のワークをパレットＰＬに載置した後、他の容器から取り出したワークＷＳを爪部２６１によって保持させ、ハンド部２６がワークＷＳを保持不可ワークに当接させた状態で移動することにより、当該保持不可ワークを変位させる変位手法である。

学習部６３は、学習処理の回数が所定の学習回数に達したか否かを判定し（図１６のステップｃ１９）、所定の学習回数に達していない場合にはステップｃ１８において切り替えられた第４手法を用いた行動パターンに関する学習処理を、ステップｃ４に戻って上記の第３手法の場合と同様に行う。一方、所定の学習回数に達した場合、学習部６３は、現時点までに試行してきた変位手法では保持不可ワークの周囲に保持スペースの確保ができないと判断し、ワーク保持不可情報を出力する（図１６のステップｃ２０）。学習部６３によってワーク保持不可情報が出力された場合、ロボット２の生産動作が中断される。ロボット２の生産動作が中断されると、作業者は、容器ＣＮ内におけるワークの収容状況を確認し、ハンド部２６による保持が不可能であると想定されるワークを移動させる等の処置を行えばよい。

以下では、所定の学習回数の範囲内で第３手法に続いて第４手法、第２手法、第５手法、第６手法の順番に、変位手法が試行されたものとして説明を続ける。

上記の第３手法を用いた行動パターンに対しては、基準回数（＝２０）連続して第３の値Ｒ３（＝０）の報酬Ｒが与えられた。このため、学習部６３は、第３手法が保持不可ワークを変位させる適正度の低い変位手法であると判断した。第３手法の次に試行された第４手法を用いた行動パターンに対しては、第３の値Ｒ３（＝０）の報酬Ｒが基準回数よりも少ない「１９」回連続して与えられ、第２の値Ｒ２（＝１０）の報酬Ｒが「１」回与えられたものとする。この場合、学習部６３は、第３手法よりも第４手法の方が保持不可ワークを変位させる適正度は僅かに高いけれども、第１の値Ｒ１（＝１００）の報酬Ｒが与えられていないのであるから、保持スペースの確保が可能に保持不可ワークを変位させるには至っていないと判断する。このため、学習部６３は、変位手法を第４手法から次の試行順位の第２手法に切り替える。なお、第２手法は、前述したように、爪部２６１によって保持した一のワークをパレットＰＬに載置した後、ハンド部２６が爪部２６１によって容器ＣＮを保持した状態で移動することにより、容器ＣＮの移動に応じて保持不可ワークを変位させる変位手法である。

第４手法の次に試行された第２手法を用いた行動パターンに対しては、第３の値Ｒ３（＝０）の報酬Ｒが基準回数よりも少ない「１５」回連続して与えられ、その後、第１の値Ｒ１（＝１００）の報酬Ｒが与えられたものとする。この場合、学習部６３は、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた時点で保持不可ワークの周囲に保持スペースが確保されたと判断し、学習処理を終了する。

第１の値Ｒ１（＝１００）の報酬Ｒが与えられた、第２手法を用いた行動パターンに基づくロボット２の変位動作が実行されたときには、保持不可ワークの周囲に保持スペースが確保され、当該ワークの爪部２６１による保持が可能となる。従って、保持不可ワークの周囲に保持スペースが確保された後、行動決定部９は、前述した既存の行動パターンを記憶部８から読み出すことによって、保持スペースが確保されたワークに対するロボット２の行動パターンを決定し（図１６のステップｃ１２）、その決定した行動パターンを制御装置４に向けて出力する（図１６のステップｃ１３）。これにより、制御装置４の制御によってロボット２は、ハンド部２６によって容器ＣＮから保持スペースが確保されたワークを取り出し、その取り出したワークをパレットＰＬに載置するという、連続的な生産動作を実行する。

上記のように、第２手法を用いた行動パターンに対しては第１の値Ｒ１（＝１００）の報酬Ｒが与えられたので、学習部６３は学習処理を終了した。しかしながら、第２手法を用いた行動パターンは、第３の値Ｒ３（＝０）の報酬Ｒが与えられた回数が「０；ゼロ」ではなく、基準回数よりは少ないものの「１５」回連続して第３の値Ｒ３（＝０）の報酬Ｒが与えられている。このため、学習部６３は、第２手法については、判定部７によって取得された基準画像データにて表される、今回試行した配置状況の保持不可ワークを変位させるための変位手法として、最適な手法ではないと判断する。従って、今回試行した配置状況と同一又は類似した配置状況の保持不可ワークの存在が判定部７によって判定された場合、学習部６３は、第２手法に対して次の試行順位の第５手法を用いた行動パターンに関する学習処理を実行する。なお、第５手法は、前述したように、爪部２６１によって保持した一のワークをパレットＰＬに載置した後、専用治具ＪＧを爪部２６１によって保持させ、ハンド部２６が専用治具ＪＧを保持不可ワークに当接させた状態で移動することにより、当該保持不可ワークを変位させる変位手法である。

第５手法を用いた行動パターンに対しては、第３の値Ｒ３（＝０）の報酬Ｒが与えられた回数が「０；ゼロ」であり、第１の値Ｒ１（＝１００）の報酬Ｒが与えられたものとする。この場合、学習部６３は、今回試行した配置状況の保持不可ワークを変位させるための変位手法として第５手法が最適な手法であると判断し、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた時点で学習処理を終了する。学習部６３は、今回試行した配置状況の保持不可ワークを変位させるための変位手法として第５手法が最適な手法であると判断したので、第５手法に対して次の試行順位に設定されていた第６手法については試行を未実施とする。

学習部６３は、変位手法を切り替えながら保持不可ワークを変位させる変位動作におけるロボット２の行動パターンの学習結果を表す学習結果情報ＪＨ３（図１５）を生成する。学習部６３によって生成された学習結果情報ＪＨ３は、記憶部８に記憶される。学習結果情報ＪＨ３は、例えば、基準画像データ情報Ｊ３１と、変位手法情報Ｊ３２と、報酬情報Ｊ３３と、報酬ゼロ連続回数情報Ｊ３４と、修正係数情報Ｊ３５とが関連付けられた情報である。

基準画像データ情報Ｊ３１は、判定部７が保持不可ワークの存否を判定する際に参照した基準画像データＧＤＳを表す情報である。変位手法情報Ｊ３２は、学習部６３によって設定された変位手法を表す情報である。図１５に示す例では、変位手法情報Ｊ３２として、試行順位の順に第３手法、第４手法、第２手法、第５手法及び第６手法が登録されている。報酬情報Ｊ３３は、行動観測部６２により観測されたロボット２の行動パターンに対して報酬設定部６３１が設定した報酬Ｒを表す情報である。図１５に示す例では、第３手法に対しては第３の値Ｒ３（＝０）の報酬Ｒが与えられ、第４手法に対しては第２の値Ｒ２（＝１０）の報酬Ｒが与えられ、第２手法及び第５手法に対しては第１の値Ｒ１（＝１００）の報酬Ｒが与えられたことが示されている。なお、第６手法については試行が未実施であるため、その旨を表す「未実施」が登録されている。

報酬ゼロ連続回数情報Ｊ３４は、変位手法情報Ｊ３２にて表される変位手法を用いた行動パターンに基づくロボット２の変位動作の試行において、第３の値Ｒ３（＝０）の報酬Ｒが与えられた連続回数を表す情報である。図１５に示す例では、第３の値Ｒ３（＝０）の報酬Ｒが与えられた連続回数は、第３手法が前記基準回数と同じ「２０」であり、第４手法が「１９」であり、第２手法が「１５」であり、第５手法が「０」であることが示されている。なお、第６手法については試行が未実施であることを表す「未実施」が登録されている。

修正係数情報Ｊ３５は、変位手法情報Ｊ３２にて表される変位手法の、保持不可ワークを変位させる適正度の指標となる修正係数εを表す情報である。修正係数情報Ｊ３５にて表される修正係数εは、各変位手法の試行回数の基準となる前記基準回数「Ｍ」と、報酬ゼロ連続回数情報Ｊ３４にて表される第３の値Ｒ３（＝０）の報酬Ｒが与えられた連続回数「Ｋ」とに基づいて、「修正係数ε＝（Ｍ－Ｋ）／Ｍ」の式に従って学習部６３によって算出される。修正係数εは、第３の値Ｒ３（＝０）の報酬Ｒが与えられた連続回数「Ｋ」が少ないほど大きくなる。つまり、修正係数εが大きくなるほど、保持不可ワークを変位させる適正度が高くなる。図１５に示す例では、修正係数εは、第３手法が「０」であり、第４手法が「０．０５」であり、第２手法が「０．２５」であり、第５手法が「１」であることが示されている。なお、第６手法については試行が未実施であることを表す「未実施」が登録されている。学習部６３によって算出された修正係数εは、上記式（１）で示される価値Ｑ（ｓ，ａ）の更新式の「ε」に反映される。なお、上記式（１）で示される価値Ｑ（ｓ，ａ）の更新式の「ε」は、学習部６３によって修正係数εが算出されるまでは、「ε＝１」とされる。

学習部６３により生成された学習結果情報ＪＨ３は、次回以降のロボット２の変位動作の実行時に参照される。記憶部８に記憶された学習結果情報ＪＨ３に登録されている基準画像データＧＤＳにて表される配置状況と同一又は類似した配置状況の保持不可ワークの存在が判定部７によって判定された場合、学習部６３は、報酬情報Ｊ３３及び修正係数情報Ｊ３５を参照し、新たな学習処理が必要であるか否かを判断する。具体的には、学習部６３は、変位手法情報Ｊ３２にて表される変位手法ごとに、修正係数情報Ｊ３５にて表される修正係数εを報酬情報Ｊ３３にて表される報酬Ｒに乗算し、修正された修正報酬値（上記式（１）の「εＲ（ｓ，ａ）」に相当する）を算出する。修正報酬値は、保持不可ワークを変位させる適正度の指標となる修正係数εを報酬Ｒに乗算した値であるので、変位手法ごとに与えられる適正度を加味した報酬であると言える。

学習部６３は、学習結果情報ＪＨ３に基づき、修正報酬値が第１の値Ｒ１（＝１００）の報酬Ｒと同値の変位手法を認識した場合、すなわち、第１の値Ｒ１（＝１００）の報酬Ｒが与えられ、且つ修正係数εが「１」の変位手法（図１５における第５手法が相当）を認識した場合、その変位手法が保持不可ワークを変位させるための最適な手法であると判断し、学習処理を省略する。この場合、行動決定部９は、記憶部８に記憶された学習結果情報ＪＨ３に登録されている第５手法を用いた行動パターンを、変位動作の実行時におけるロボット２の行動パターンとして決定する。行動決定部９は、決定した第５手法を用いた行動パターンを制御装置４に向けて出力する。変位動作時の行動パターンが入力された制御装置４は、当該行動パターンに基づいて、ロボット２の動作を制御する。制御装置４の制御によってロボット２は、爪部２６１による保持スペースが周囲に確保されるように保持不可ワークを変位させる。

また、第１の値Ｒ１（＝１００）の報酬Ｒが与えられ、且つ修正係数εが「１」の変位手法（図１５における第５手法が相当）を認識した場合、上記のように学習処理を省略してもよいが、その認識した手法の試行回数が少ない場合は、再度学習処理を始めることでロバスト性を高めることもできる。学習部６３は、認識した手法の試行回数が少ない場合には、その変位手法を、保持不可ワークを変位させるための最適な手法の候補（最適候補手法：図１５の例では第５手法）であると判断し、その最適候補手法について再度学習処理を実行する。学習部６３は、最適候補手法について再度学習処理を実行する際、その試行回数を予め設定しておき、設定された試行回数のうちの第１の値Ｒ１（＝１００）の報酬Ｒが与えられた回数の割合で評価して、修正係数εを算出するようにしてもよい。例えば、最適候補手法の試行回数を「３回」に設定し、基準画像データＧＤＳにて表される配置状況と同一又は類似した配置状況の保持不可ワークの存在が判定部７によって「３回」判定された場合、学習部６３は、その都度、保持不可ワークを変位させる変位手法として最適候補手法を選択し、第１の値Ｒ１（＝１００）の報酬Ｒが与えられた回数に応じて修正係数εを算出する。学習部６３は、最適候補手法を「３回」試行し、「３回」とも第１の値Ｒ１（＝１００）の報酬Ｒが与えられた場合には、修正係数εを「１」に設定し、その最適候補手法とされていた変位手法が保持不可ワークを変位させるための最適な手法であると判断する。

また、一旦例えば上述の図１５における第５手法のように、ある変位手法が保持不可ワークを変位させるための最適な手法であると判断された後、記憶部８に記憶された学習結果情報ＪＨ３に登録されている基準画像データＧＤＳにて表される配置状況と同一又は類似した配置状況の保持不可ワークの存在が判定部７によって判定された場合、学習部６３は、図１６に示す学習処理を繰り返して実行するようにしてもよい。この場合、図１６のステップｃ４において最初に試行する変位手法として、図１５における第５手法のように一旦最適な手法であると判断された手法を用いればよいが、その後、その手法に対して第１の値Ｒ１（＝１００）の報酬Ｒが与えられなかった場合には、例えば図１５における第６手法等の他の変位手法を試行するようにしてもよい。すなわち、学習部６３は、最適と判断する手法が変わることを許容してもよい。

なお、記憶部８に記憶された学習結果情報ＪＨ３に登録されている基準画像データＧＤＳにて表される配置状況とは大きく異なる配置状況の保持不可ワークの存在が判定部７によって判定された場合、学習部６３は、予め設定した試行順位に従って各変位手法を用いた行動パターンに基づくロボット２の変位動作を試行し、その行動パターンを学習する。

以上説明したように、ハンド部２６の爪部２６１による次の保持候補となるワークが保持不可ワークであることが判定部７によって判定された場合、学習部６３は、保持スペースが確保されるように保持不可ワークを変位させることが可能な、最適な変位手法を学習するとともに、当該変位手法を用いたロボット２の行動パターンを学習する。これにより、学習部６３は、ハンド部２６の爪部２６１による保持が不可能とされたワークの保持を可能とする、最適な変位手法を用いたロボット２の最適な行動パターンを学習することができる。そして、次回のロボット２の生産動作において、行動決定部９は、学習部６３により生成された学習結果情報ＪＨ３に基づいて最適な変位手法を用いた行動パターンを、保持不可ワークをハンド部２６によって保持可能とするための行動パターンとして決定する。この行動パターンに従ってロボット２が変位動作を実行することにより、ハンド部２６の爪部２６１による保持が不可能とされたワークの周囲に、爪部２６１による保持を可能とするための保持スペースが確保され、当該ワークの爪部２６１による保持が可能となる。このため、保持不可ワークの存在に起因してロボット２の動作を停止させることを可及的に回避することができ、ハンド部２６による容器ＣＮからのワークの取り出し動作を継続させることができる。

なお、上記では、１つの変位手法を用いた行動パターンに基づく変位動作によって保持不可ワークを変位させる試行を行っているが、複数の手法が組み合わされた行動パターンに基づく変位動作を試行するようにしてもよい。この場合、例えば、専用治具ＪＧを用いた第５手法と、容器ＣＮを移動させる第２手法とが組み合わされた行動パターンに基づく変位動作の試行が考えられる。

また、例えば、パレットＰＬに載置後のワークについて、ロボット２の変位動作に起因した傷等が発生しているかなどを検査し、その検査結果を加味した報酬Ｒを、ロボット２の変位動作に対応した行動パターンに与えるようにしてもよい。この場合、例えば、保持スペースの確保が可能に保持不可ワークを変位させ、且つ、傷等が発生しないような変位手法を用いた行動パターンに対しては、第１の値Ｒ１（＝１００）に所定値（例えば「１」）を加算した値の報酬Ｒを与えるようにすればよい。

１ロボットシステム
２ロボット
２６ハンド部
３撮像装置
４制御装置
５機械学習装置
６学習処理部
６１状態観測部
６２行動観測部
６３学習部
６４変位量観測部
７判定部
８記憶部
９行動決定部

Claims

複数のワークをバラ積みされた状態で収容する容器から前記ワークを保持することによって取り出すハンド部を備えたロボットの動作を学習する機械学習装置であって、
前記ハンド部が前記容器内の一のワークを保持する前又は保持したときに、前記容器内での各ワークの収容状況を認識し、前記ハンド部による次の保持候補となるワークが、前記ハンド部による保持を可能とするための保持スペースが周囲に確保されていない保持不可ワークであるかを判定する判定部と、
前記判定部により次の保持候補となるワークが前記保持不可ワークであると判定され、所定の変位手法を用いて前記保持不可ワークを変位させる変位動作が前記ロボットによって実行されたときに、前記保持不可ワークのワーク変位量を観測する変位量観測部と、
前記ロボットの行動パターンを前記ワーク変位量と対応付けて、前記保持スペースが確保されるように前記保持不可ワークを変位させることが可能な前記変位手法を学習するとともに、当該変位手法を用いた前記ロボットの行動パターンを学習する学習部と、
前記学習部の学習結果に基づく前記ロボットの行動パターンを、前記保持不可ワークを前記ハンド部によって保持可能とするための行動パターンとして決定する行動決定部と、を備え、
前記変位手法は、前記ハンド部が、保持した前記一のワークを前記保持不可ワークに当接させた状態で移動することにより、当該保持不可ワークを変位させる手法を含み、
前記学習部が学習する前記ロボットの行動パターンを規定する行動要素には、前記一のワークの前記保持不可ワークに対する当接位置を決定付ける要素と、前記ハンド部の移動軌跡を決定付ける要素とが含まれる、機械学習装置。
前記学習部は、
前記ロボットによる前記保持不可ワークを変位させる変位動作の行動パターンに対し、前記保持不可ワークの前記ワーク変位量に応じた報酬を設定する報酬設定部と、
前記ロボットの行動パターンの価値を規定する価値関数を、前記報酬設定部により設定された報酬に応じて更新する価値関数更新部と、を含む、請求項１に記載の機械学習装置。
前記変位手法は、前記保持不可ワークを変位させる方式が異なる複数の手法を含み、
前記学習部は、前記複数の手法が組み合わされた前記ロボットの行動パターンを学習する、請求項１又は２に記載の機械学習装置。
前記変位手法は、前記ハンド部が前記容器を保持した状態で移動することにより、前記保持不可ワークを変位させる手法を含み、
前記学習部が学習する前記ロボットの行動パターンを規定する行動要素には、前記ハンド部が前記容器を保持する保持位置を決定付ける要素と、前記ハンド部の移動軌跡を決定付ける要素と、前記ハンド部の移動速度を決定付ける要素とが含まれる、請求項１又は２に記載の機械学習装置。
複数のワークをバラ積みされた状態で収容する容器から前記ワークを保持することによって取り出すハンド部を備えたロボットと、
前記ロボットの動作を学習する、請求項１～４のいずれか１項に記載の機械学習装置と、
前記機械学習装置の学習結果に基づいて、前記ロボットの動作を制御する制御装置と、を備える、ロボットシステム。