JP2022162857A

JP2022162857A - 機械学習装置及びロボットシステム

Info

Publication number: JP2022162857A
Application number: JP2021067894A
Authority: JP
Inventors: 洋介山本; Yosuke Yamamoto
Original assignee: Denso Wave Inc
Current assignee: Denso Wave Inc
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2022-10-25
Also published as: US20220324103A1; CN115194756A

Abstract

【課題】低反力且つ不定形となる対象物を適切に把持可能なロボットシステムを実現すること。【解決手段】ロボットシステムは、一組の可動爪が設けられたハンド部を有し、ワークをそれら可動爪によって挟むことにより把持するロボット２０と、ロボット２０を制御する制御装置７０とを備えている。制御装置７０には、把持位置へハンド部を配置する配置動作及び当該把持位置にて可動爪を互いに近づく側に変位させる把持動作が実行されるようにロボット２０を制御する上位コントローラ８０と、ワークを把持する場合に設定された停止基準データ、把持位置に配置されたハンド部の各可動爪とワークとの距離を示す距離データ、把持動作前後でのワークの変形量を示す比較データを各々取得し、それら停止基準データ、距離データ及び比較データを用いた機械学習により把持動作の動作態様の設定に用いられるモデルを構築する機械学習装置９０とが設けられている。【選択図】図５

Description

本発明は、機械学習装置及びロボットシステムに関する。

ロボットシステムには、ロボットのアームの先端に設けられた一組の可動爪（把持部）によって対象物（ワーク）を挟み込むことにより当該対象物を把持可能としているものがある。この種のロボットシステムにおいては、例えば可動爪用のモータの電流値の変化や対象物からの反力等を検出し、検出した値が予め設定された基準値に達した場合に可動爪を停止させるように構成したものが提案されている（例えば、特許文献１参照）。

特開２０１４－２４１３４号公報

ここで、対象物としてシュークリーム、大福、パン等の食品を想定した場合には、対象物として金属や合成樹脂からなる工業製品を想定した場合よりも、対象物の形状のばらつきが大きく（不定形）且つ把持した際の対象物からの反力が小さくなる（低反力）。上述の如く一組の可動爪により対象物を挟み込むようにして把持する場合には、１の可動爪が他の可動爪よりも先に対象物に当たることで対象物に加わる圧力が局所的に高くなったり、１の可動爪に押された対象物が当該対象物の載置面上を摺動したりし得る。特にシュークリーム等の対象物については形状のばらつきが大きいため、画像等から特定した対象物の位置に応じて把持部を配置した際に、各可動爪と対象物との距離に差が生じやすくなると想定される。このような差が生じた場合には、各可動爪が対象物に当たるタイミングがずれることとなる。そして、シュークリーム等の対象物については軟らかいため、例えば可動爪に押されて変形を伴いながら載置面上を摺動することで損傷（過度の変形を含む）する可能性が高くなり得る。このようして対象物が損傷することは製造工程等における歩留まりを低下させる要因となり、ロボットシステムの適用によって製造効率の向上等を図る上で妨げになると懸念される。このように、低反力且つ不定形となる対象物を適切に把持する上でロボットシステムに係る構成に未だ改善の余地がある。

本発明は、上記事情に鑑みてなされたものであり、その主たる目的は、低反力且つ不定形となる対象物を適切に把持可能なロボットシステムを実現することにある。

以下、上記課題を解決するための手段について記載する。

第１の手段．一組の可動爪（可動爪３８ａ，３８ｂ）が設けられた把持部（ハンド部３８）を有し、対象物（ワークＷ）をそれら可動爪によって挟むことにより把持するロボット（ロボット２０）と、
前記一組の可動爪の間に前記対象物が位置することとなる所定位置（把持位置）へ前記把持部を配置する配置動作及び当該所定位置にてそれら可動爪を互いに近づく側に変位させる把持動作が実行されるように前記ロボットを制御する制御装置（制御装置７０）と
を備え、
前記制御装置は、前記把持動作中に前記対象物からの反力が基準値となった場合又は前記一組の可動爪の相対距離が基準値となった場合に前記一組の可動爪の前記変位を停止させるように構成されているロボットシステムであって、
前記所定位置に前記把持部が配置されている状況下にて、前記把持部を変位させることで前記対象物に対する前記一組の可動爪の位置を調整する調整動作を実行可能となっており、
前記把持動作を停止させる前記基準値は、可変値であり、
前記対象物を把持する場合に設定された前記基準値を示す停止基準データと、前記所定位置に配置された前記把持部の各可動爪と前記対象物との距離を示す距離データと、前記把持動作の実行前の前記対象物の状態と当該把持動作が行われた後と当該対象物の状態との違いを示す比較データ（例えばワークＷの変形量）とを取得し、それら停止基準データ、距離データ及び比較データを用いた機械学習により前記調整動作及び前記把持動作を含む所定動作の動作態様の設定に用いられるモデル（動作設定モデル）を構築するモデル構築部（機械学習装置９０）を備え、
前記制御装置は、
前記把持部が前記所定位置に配置された場合に、当該把持部の各可動爪と前記対象物との距離を示す前記距離データを取得する取得部（データ取得部８５）と、
前記ロボットの前記所定動作の動作態様を設定する設定部（制御部８４）と
を有し、
前記設定部は、前記取得部により取得された前記距離データと、前記モデル構築部により構築された前記モデルとに基づいて前記所定動作の動作態様を設定可能となっているロボットシステム。

一組の可動爪により対象物（シュークリーム、大福、パン等）を把持する構成においては、可動爪の間に対象物が位置するようにして把持部を配置した場合に、各可動爪と対象物との距離に差が生じ得る。このような差は形状のばらつきが大きい対象物（不定形の対象物）にて顕著となる。そして、このような差が生じた場合には、各可動爪が対象物に当たるタイミングがずれる。ここで、対象物が軟らかい場合、すなわち反力が小さい場合には、そのようなタイミングのずれによって対象物が損傷する可能性が高くなると懸念される。ここで、本手段においては、停止基準データと、距離データと、比較データとを用いた機械学習により調整動作及び把持動作を含む所定動作の動作態様の設定に用いられるモデルが構築される。このような構成とすれば、最適な基準値を設定可能となるだけでなく、把持部の配置状況に応じて可動爪の位置が適切に調整される構成を実現可能となる。つまり、上記タイミングのずれに起因した対象物の損傷を抑制し、低反力且つ不定形の対象物を適切に把持可能なロボットシステムの実現に寄与できる。なお、対象物の損傷については上述したタイミングのずれる場合以外に、基準値が適正に設定されていない場合等にも発生し得る一方、上記比較データから損傷の要因を特定することは困難であると想定される。そこで、停止基準データ、距離データ、比較データの各データを機械学習用の入力データとすることにより所定動作（調整動作、把持動作）の適正化に好適に寄与できる。

因みに、「比較データ」については、対象物の損傷の度合いを特定することができるのであれば任意であり、例えば形状の変化を示すデータや重量の変化を示すデータとするとよい。

また、本手段に示す「所定動作の動作態様」については、調整動作の可否の設定や調整時の可動爪の変位量の設定を含む。

第２の手段．前記モデル構築部は、前記把持動作が実行される前の前記対象物の形状と当該把持動作が行われた後と当該対象物の形状との違いを示すデータを前記比較データとして取得する。

低反力の対象物が損傷する場合には、重量の変化や形状の変化が生じる。このうち、重量の変化が生じる場合の多くは併せて形状も変化することとなるため、比較対象を形状とすることで対象物の損傷の度合いを機械学習に適切に反映させることができる。

第３の手段．前記モデル構築部は、前記把持動作が実行される前の前記対象物の形状を示す形状データと、前記対象物の基準方向（例えば対象物の画像にて最長となる２点を結ぶ方向：長手方向）と前記一組の可動爪が当該対象物を挟む方向との関係を示す方向データとを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記形状データと、前記方向データとを関連付けて前記機械学習を行う。

低反力且つ不定形の対象物を把持する場合には、どの方向から挟むかによって上記タイミングのずれや荷重の影響が異なる可能性がある。言い換えれば、挟み方向によって調整不要となる対象物と各可動爪との位置関係等に違いが生じる可能性がある。そこで、本手段に示すように、第１の手段等に示した各種データに形状データ及び方向データを加えて機械学習を行う構成とすれば、第１の手段に示した効果を一層好適に発揮させることができる。

第４の手段．前記一組の可動爪において前記対象物に当たる部分は面状をなしており、
前記モデル構築部は、前記把持動作が実行される前の前記対象物の形状を示す形状データと、前記対象物を把持している状態での前記一組の可動爪と前記対象物との接触面積を示す接触面積データとを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記形状データと、前記接触面積データとを関連付けて前記機械学習を行う。

低反力且つ不定形の対象物を把持する場合には、接触面積によって対象物への影響に差が生じる可能性がある。言い換えれば、接触面積によって調整不要となる対象物と各可動爪との位置関係等に違いが生じる可能性がある。そこで、本手段に示すように、第１の手段等に示した各種データに形状データ及び接触面積データを加えて機械学習を行う構成とすれば、第１の手段に示した効果を一層好適に発揮させることができる。

第５の手段．前記制御装置は、前記把持動作を実行する場合に、設定された速度となるようにして前記一組の可動爪を変位させる構成となっており、
前記速度は、可変値であり、
前記モデル構築部は、前記対象物に向けて各前記可動爪が変位する際の変位速度を示す速度データを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記速度データとを関連付けて前記機械学習を行う。

上述したタイミングのずれが発生する場合には、可動爪の変位速度によって対象物への影響に差が生じる可能性がある。言い換えれば、変位速度によって調整不要となる対象物と各可動爪との位置関係等に違いが生じる可能性がある。そこで、本手段に示すように、第１の手段等に示した各種データに速度データを加えて機械学習を行う構成とすれば、第１の手段に示した効果を一層好適に発揮させることができる。

第６の手段．前記モデル構築部は、前記把持動作が実行される前の前記対象物の位置を示す位置データを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記位置データとを関連付けて前記機械学習を行う。

ロボットシステムについては供給される対象物の位置についてある程度の許容範囲を設けることで当該システムの利便性を向上させることができる。但し、このような範囲を設けた場合には、当該範囲内のどの位置に対象物が供給されるかによって、当該対象物の把持動作を実行する場合の可動爪の当たり方等に違いが生じる可能性がある。そこで、本手段に示すように、第１の手段等に示した各種データに位置データを加えて機械学習を行う構成とすれば、第１の手段に示した効果を一層好適に発揮させることができる。

第７の手段．前記モデル構築部は、前記対象物を把持する際の前記ロボットの姿勢を示す姿勢データを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記姿勢データとを関連付けて前記機械学習を行う。

ロボットについては、対象物を把持する際の姿勢によって、対象物に対する可動爪の当たり方等に違いが生じる可能性がある。そこで、本手段に示すように、第１の手段等に示した各種データに姿勢データを加えて機械学習を行う構成とすれば、第１の手段に示した効果を一層好適に発揮させることができる。

第８の手段．前記モデル構築部は、前記ロボットの周辺の環境を示す環境データを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記環境データとを関連付けて前記機械学習を行う。

シュークリーム、大福、パン等の低反力且つ不定形の対象物については、温度や湿度等の環境条件に応じて固さが変化し得る。言い換えれば、環境条件によって調整不要となる対象物と各可動爪との位置関係等に違いが生じる可能性がある。そこで、本手段に示すように、第１の手段等に示した各種データに環境データを加えて機械学習を行う構成とすれば、第１の手段に示した効果を一層好適に発揮させることができる。

第９の手段．前記設定部は、前記取得部により取得された前記距離データが前記モデルにより規定されている範囲内の距離を示すデータである場合には、前記一組の可動爪と前記対象物との相対位置を調整することなく当該対象物を把持するように動作態様を設定し、前記取得部により取得された前記距離データが前記モデルにより規定されている範囲外の距離を示すデータである場合には、前記一組の可動爪と前記対象物との相対位置を調整した後に当該対象物を把持するように動作態様を設定する構成となっている。

機械学習によって位置調整の要否の見極めの適正化が期待できる。これは、対象物の損傷を抑制しつつ、ロボットシステムによる対象物の搬送効率等を向上させる上で好ましい。

第１０の手段．一組の可動爪（可動爪３８ａ，３８ｂ）が設けられた把持部（ハンド部３８）を有し、対象物（ワークＷ）をそれら可動爪によって挟むことにより把持するロボット（ロボット２０）と、
前記一組の可動爪の間に前記対象物が位置することとなる所定位置（把持位置）へ前記把持部を配置する配置動作及び当該所定位置にてそれら可動爪を互いに近づく側に変位させる把持動作が実行されるように前記ロボットを制御する制御装置（制御装置７０）と
を備えているロボットシステムであって、
前記所定位置に前記把持部が配置されている状況下にて、前記把持部を変位させることで前記対象物に対する前記一組の可動爪の位置を調整可能となっており、
前記所定位置に配置された前記把持部の各可動爪と前記対象物との距離を示す距離データと、前記把持動作の実行前の前記対象物の状態と当該把持動作が行われた後と当該対象物の状態との違いを示す比較データ（例えばワークＷの変形量）とを取得し、それら距離データ及び比較データを用いた機械学習により前記所定位置における前記把持部の位置調整の態様の設定に用いられるモデルを構築するモデル構築部（機械学習装置９０）を備え、
前記制御装置は、
前記把持部が前記所定位置に配置された場合に、当該把持部の各可動爪と前記対象物との距離を示す前記距離データを取得する取得部（データ取得部８５）と、
前記取得部により取得された前記距離データと、前記モデル構築部により構築された前記モデルとに基づいて前記位置調整の態様を設定する設定部と
を有しているロボットシステム。

一組の可動爪により対象物（シュークリーム、大福、パン等）を把持する構成においては、可動爪の間に対象物が位置するようにして把持部を配置した場合に、各可動爪と対象物との距離に差が生じ得る。このような差は形状のばらつきが大きい対象物（不定形の対象物）ほど顕著となる。このような差が生じた場合には、各可動爪が対象物に当たるタイミングがずれる。ここで、対象物が軟らかい場合、すなわち反力が小さい場合には、そのようなタイミングのずれによって対象物が損傷する可能性が高くなると懸念される。ここで、本手段においては、距離データ及び比較データを用いた機械学習により位置調整の態様の設定に用いられるモデルが構築される。このような構成とすれば、把持部の配置状況に応じて可動爪の位置が適切に調整される構成を実現可能となる。つまり、上記タイミングのずれに起因した対象物の損傷を抑制し、低反力且つ不定形の対象物を適切に把持可能なロボットシステムの実現に寄与できる。

第１１の手段．一組の可動爪（可動爪３８ａ，３８ｂ）が設けられた把持部（ハンド部３８）を有し、対象物（ワークＷ）をそれら可動爪によって挟むことにより把持するロボット（ロボット２０）と、前記一組の可動爪の間に前記対象物が位置することとなる所定位置（把持位置）へ前記把持部を配置する配置動作及び当該所定位置にてそれら可動爪を互いに近づく側に変位させる把持動作が実行されるように前記ロボットを制御する制御装置（制御装置７０）とを備え、前記制御装置は、前記把持動作中に前記対象物からの反力が基準値となった場合又は前記一組の可動爪の相対距離が基準値となった場合に前記一組の可動爪の前記変位を停止させるように構成され、前記所定位置に前記把持部が配置されている状況下にて、前記把持部を変位させることで前記対象物に対する前記一組の可動爪の位置を調整可する調整動作を実行可能なロボットシステムに適用される機械学習装置であって、
前記把持動作を停止させる前記基準値は、可変値であり、
前記対象物を把持する場合に設定された前記基準値を示す停止基準データと、前記所定位置に配置された前記把持部の各可動爪と前記対象物との距離を示す距離データと、前記把持動作の実行前の前記対象物の状態と当該把持動作が行われた後と当該対象物の状態との違いを示す比較データ（例えばワークＷの変形量）とを取得し、それら停止基準データ、距離データ及び比較データを用いた機械学習により前記調整動作及び前記把持動作を含む所定動作の動作態様の設定に用いられるモデルを構築するモデル構築部（機械学習装置９０）を備えている機械学習装置。

本手段に示す構成によれば、停止基準データと、距離データと、比較データとを用いた機械学習により所定動作（調整動作、把持動作）の動作態様の設定に用いられるモデルが構築される。このような構成とすれば、最適な基準値を設定可能となるだけでなく、把持部の配置状況に応じて可動爪の位置が適切に調整される構成を実現可能となる。つまり、各可動爪が対象物に当たるタイミングのずれに起因した対象物の損傷を抑制し、低反力且つ不定形の対象物を適切に把持可能な構成の実現に寄与できる。なお、対象物の損傷については上述したタイミングのずれ以外にも基準値が適正に設定されていない場合等にも発生し得る一方、上記比較データから損傷の要因を特定することは困難であると想定される。そこで、停止基準データ、距離データ、比較データの各データを機械学習用の入力データとすることにより把持動作の適正化に好適に寄与できる。

第１２の手段．一組の可動爪（可動爪３８ａ，３８ｂ）が設けられた把持部（ハンド部３８）を有し、対象物（ワークＷ）をそれら可動爪によって挟むことにより把持するロボット（ロボット２０）と、
前記一組の可動爪の間に前記対象物が位置することとなる所定位置（把持位置）へ前記把持部を配置する配置動作及び当該所定位置にてそれら可動爪を互いに近づく側に変位させる把持動作が実行されるように前記ロボットを制御する制御装置（制御装置７０）と
を備え、
前記制御装置は、前記把持動作中に前記対象物からの反力が基準値となった場合又は前記一組の可動爪の相対距離が基準値となった場合に前記一組の可動爪の前記変位を停止させるように構成されているロボットシステムであって、
前記把持動作にて前記一組の可動爪が変位する方向である挟み方向を調整可能となっており、
前記把持動作を停止させる前記基準値は、可変値であり、
前記対象物を把持する場合に設定された前記基準値を示す停止基準データと、前記把持動作を行う前の前記対象物の形状を示す形状データと、前記対象物の基準方向（例えば対象物の画像にて最長となる２点を結ぶ方向：長手方向）と前記挟み方向との関係を示す方向データと、前記把持動作の実行前の前記対象物の状態と当該把持動作が行われた後と当該対象物の状態との違いを示す比較データ（例えばワークＷの変形量）とを取得し、それら停止基準データ、形状データ、方向データ及び比較データを用いた機械学習により前記配置動作及び前記把持動作の各動作態様の設定に用いられるモデルを構築するモデル構築部（機械学習装置９０）を備え、
前記制御装置は、前記把持動作の実行前の前記対象物の前記形状データを取得する取得部を有し、前記取得部により取得された前記形状データと前記モデル構築部により構築された前記モデルとに基づいて前記配置動作及び前記把持動作の各動作態様を設定可能となっているロボットシステム。

本手段においては、停止基準データと、形状データと、方向データと、比較データとを用いた機械学習により挟み方向の設定に用いられるモデルが構築される。このような構成とすれば、最適な基準値を設定可能となるだけでなく、対象物の形状に応じて挟み方向が適切に調整される構成を実現可能となる。つまり、対象物の損傷を抑制し、低反力且つ不定形の対象物を適切に把持可能なロボットシステムの実現に寄与できる。なお、対象物の損傷については挟み方向が適正に設定されていない場合だけでなく基準値が適正に設定されていない場合等にも発生し得る一方、上記比較データから損傷の要因を特定することは困難であると想定される。そこで、停止基準データ、形状データ、方向データ、比較データの各データを機械学習用の入力データとすることにより配置動作及び把持動作の適正化に好適に寄与できる。

第１の実施形態におけるロボットを示す概略図。ロボットシステムの電気的構成を示すブロック図。ロボットの動作態様を示す概略図。ハンド部を把持位置へ配置する際の流れを示す概略図。メイン制御装置の機能ブロック図。インプットデータの種類を示す概略図。動作設定モデル構築用のニューラルネットワークを示す概略図。（ａ）上位コントローラのＣＰＵにて実行される動作態様設定処理を示すフローチャート、（ｂ）上位コントローラのＣＰＵにて実行される位置調整処理を示すフローチャート。機械学習装置のＣＰＵにて実行される学習処理を示すフローチャート。第４の実施形態におけるインプットデータを示す概略図。第５の実施形態におけるインプットデータを示す概略図。

＜第１の実施形態＞
以下、食品工場などで用いられるロボットシステムに具現化した第１の実施形態について図面を参照しつつ説明する。

図１に示すように、ロボットシステム１０は、垂直多関節型の産業用ロボットであるロボット２０と、当該ロボット２０を制御するモーションコントローラ６０とを備え、それらロボット２０及びモーションコントローラ６０が相互に通信可能となるように接続されてなる。ロボット２０は、ロボット本体３０と当該ロボット本体３０に付属するサーボアンプ５０とで構成されている。

ロボット本体３０は、床等に固定されるベース部３１と、ベース部３１により支持されているショルダ部３２と、ショルダ部３２により支持されている下アーム部３３と、下アーム部３３により支持されている第１上アーム部３４と、第１上アーム部３４により支持されている第２上アーム部３５と、第２上アーム部３５により支持されている手首部３６と、手首部３６により支持されているフランジ部３７とを有している。

ベース部３１及びショルダ部３２には、それらベース部３１及びショルダ部３２を連結する第１関節部Ｊ１が形成されており、ショルダ部３２は第１関節部Ｊ１の連結軸ＡＸ１を中心として水平方向に回動可能となっている。ショルダ部３２及び下アーム部３３には、それらショルダ部３２及び下アーム部３３を連結する第２関節部Ｊ２が形成されており、下アーム部３３は第２関節部Ｊ２の連結軸ＡＸ２を中心として上下方向に回動可能となっている。下アーム部３３及び第１上アーム部３４には、それら下アーム部３３及び第１上アーム部３４を連結する第３関節部Ｊ３が形成されており、第１上アーム部３４は第３関節部Ｊ３の連結軸ＡＸ３を中心として上下方向に回動可能となっている。第１上アーム部３４及び第２上アーム部３５には、それら第１上アーム部３４及び第２上アーム部３５を連結する第４関節部Ｊ４が形成されており、第２上アーム部３５は第４関節部Ｊ４の連結軸ＡＸ４を中心として捻り方向に回動可能となっている。第２上アーム部３５及び手首部３６には、それら第２上アーム部３５及び手首部３６を連結する第５関節部Ｊ５が形成されており、手首部３６は第５関節部Ｊ５の連結軸ＡＸ５を中心として上下方向に回動可能となっている。手首部３６及びフランジ部３７には、それら手首部３６及びフランジ部３７を連結する第６関節部Ｊ６が形成されており、フランジ部３７は第６関節部Ｊ６の連結軸ＡＸ６を中心として捻り方向に回動可能となっている。

ショルダ部３２、下アーム部３３、第１上アーム部３４、第２上アーム部３５、手首部３６、フランジ部３７は一連となるように配列されることでロボット本体３０におけるアームを構成しており、当該アームの先端部であるフランジ部３７にはエンドエフェクタであるハンド部３８が取り付けられている。なお、上記連結軸ＡＸ１，ＡＸ４，ＡＸ６はアームの長手方向に対して平行となっており、連結軸ＡＸ２，ＡＸ３，ＡＸ５は当該長手方向と直交している。

各関節部Ｊ１～Ｊ６にはそれら関節部Ｊ１～Ｊ６を回動させる駆動部としてモータ４１（具体的にはサーボモータ）が各々配設されている。モータ４１はサーボアンプ５０に接続されており、当該サーボアンプ５０は上述したモーションコントローラ６０から受信した指令に基づいてモータ４１の駆動制御を行う。

ここで、図２を参照して、ロボットシステム１０の電気的構成について補足説明する。ロボットシステム１０には、モーションコントローラ６０とともに「制御装置」又は「制御手段」を構成するメイン制御装置７０が含まれている。メイン制御装置７０は、モーションコントローラ６０に対して動作指示を行う上位コントローラ８０と、ワークＷの形状や配置等の各種条件に応じて適正な把持動作等を学習（所謂機械学習）する機械学習装置９０とで構成されている。上位コントローラ８０には、ＣＰＵ８１と、各種の制御プログラムや固定値データを記憶したＲＯＭ及び制御プログラムの実行に際して各種のデータ等を一時的に記憶可能なＲＡＭを有するメモリ８２とが設けられている。機械学習装置９０についても、上位コントローラ８０と同様にＣＰＵ９１やメモリ９２等のハードウェアが設けられている。メモリ９２には、学習用のソフトウェアである学習アルゴリズム等を記憶するＲＯＭと、学習用の各種インプットデータを記憶するＲＡＭとが含まれている。

モーションコントローラ６０は、メイン制御装置７０に設けられた上位コントローラ８０からの動作指示を受けてプログラム記憶部から当該動作指示に対応した動作プログラムを読み込み且つ読み込んだ動作プログラムから動作目標位置（以下、目標位置又は制御点という）を特定する。その後は、特定した目標位置とロボット２０のアーム（各可動部）の現在の位置とを滑らかに繋ぐ目標軌道を生成し、当該目標軌道を細分化した位置である補間位置をサーボアンプ５０に順次送信する。

サーボアンプ５０には、位置制御部、速度制御部、電流制御部及び各種情報を記憶する記憶部が設けられている。位置制御部にはモータ４１に付属のエンコーダ４２が接続されている。位置制御部ではエンコーダ値に基づいてモータ４１の回転位置（すなわちアームの姿勢）を検出する。位置制御部及び速度制御部においては、検出した回転位置とモーションコントローラ６０から受信した指令に含まれる補間位置との偏差に基づいて各モータ４１の目標トルク及び目標回転速度を算出する。電流制御部は、算出された目標トルク及び目標回転速度に基づいて各モータ４１に供給する電力（電流、電圧、パルス）を決定し、各モータ４１に電力供給を行う。

次に、図３を参照して、ロボット２０の基本動作について説明する。ロボット２０はコンベアＳ１とともに食品工場における製造ラインの一部を構成している。コンベアＳ１には、製造工程（加工工程）を通過した食品、具体的にはシュークリームやエクレア等の柔らかくて形のばらつきが大きい製品（以下、ワークＷという）が流れており、ロボット２０はそれらの製品を箱詰めする箱詰め工程を担っている。具体的には、コンベアＳ１にはテーブルＳ２が並設されており、このテーブルＳ２にはワークＷを収容可能なケースＣが配設されている。コンベアＳ１は、製造工程を通過したワークＷをロボット２０の正面の所定エリアに移動させ、当該ワークＷがロボット２０によってワークＷがケースＣに搬送された場合に、次のワークＷを当該所定エリアに送る構成となっている。本実施形態では、ワークＷが「対象物」又は「把持対象」に相当する。

ロボットシステム１０は、建物の天井部に固定されたカメラ６５（図１参照）を有してなり、カメラ６５によって撮影された画像は上位コントローラ８０に送信される。上位コントローラ８０では画像解析によって上記所定エリアに配置されたワークＷを特定した場合に、当該ワークＷを把持可能となる把持位置（「所定位置」に相当）にハンド部３８を配置すべくロボット２０の姿勢を変更する（「配置動作」に相当）。このようにしてハンド部３８が把持位置に配置されることで、当該ハンド部３８の可動爪３８ａ，３８ｂの間にワークＷが位置することとなる（図３（ａ）参照）。

図３（ａ）→図３（ｂ）に示すように、把持位置への配置後は、ハンド部３８の両可動爪３８ａ，３８ｂが互いに近づく側へ各々変位する。可動爪３８ａ，３８ｂにはワークＷからの反力を検出する力センサ４５（例えば圧力センサ）が配設されており（図１参照）、当該力センサ４５により検出された反力は上位コントローラ８０に送信される。力センサ４５によって検出された反力が基準（後述する停止基準反力）に達した場合に可動爪３８ａ，３８ｂの変位が停止し、ワークＷの挟み込みが完了する。ワークＷの挟み込みが完了した後は、図３（ｂ）→図３（ｃ）に示すように、ワークＷを把持したままロボット２０の姿勢が変更され当該ワークＷがケースＣへ搬送される。ケースＣにワークＷを収容した後は、図３（ｃ）→図３（ｄ）に示すように、各可動爪３８ａ，３８ｂを初期位置へ変位（復帰）させてワークＷをリリースし、ロボット２０が待機位置へ復帰する。

ここで、図４を参照して、ハンド部３８を把持位置に配置する場合の流れについて補足説明する。所定エリアに新たにワークＷが供給されたタイミングにて所定エリアが撮影される。この画像データは上位コントローラ８０に送信され、上位コントローラ８０は取得した画像データに基づいてワークＷの外形を抽出し、抽出した外形からワークＷの仮想中心（仮中心）を上記目標位置の１つである目標位置ＴＰとして設定する。そして、ハンド部３８を配置するためのロボット側の基準である基準点ＣＰが目標位置ＴＰと一致するようにロボット２０の動作態様（各種制御点）を設定する。この設定された動作態様はモーションコントローラ６０に送信され、モーションコントローラ６０ではこの動作態様及びロボット２０の現在の姿勢に基づいて当該ロボット２０の動作軌道を決定する。

なお、可動爪３８ａ，３８ｂにて相対向している対向面については何れも可動爪３８ａ，３８ｂの開閉方向に直交する平面状をなしており、基準点ＣＰについては両可動爪３８ａ，３８ｂ（対向面）からの距離が等距離となる位置となるように規定されている。

ここで、本実施形態にて想定しているワークＷは、シュークリームやエクレア等の食品であり、工業製品と比べて形状のばらつきが大きい。そして、基準点ＣＰから外周までの距離についても様々となり得る。このため、ロボット２０の姿勢を変更し基準点ＣＰと目標位置ＴＰとを一致させることで両可動爪３８ａ，３８ｂの間にワークＷが位置することとなる把持位置へハンド部３８を配置したとしても、一方の可動爪３８ａからワークＷまでの距離Ｘａと、他方の可動爪３８ｂからワークＷまでの距離Ｘｂとが一致するとは限らない。

図４（ｂ）に示す例では、可動爪３８ｂからワークＷまでの距離Ｘｂが可動爪３８ａからワークＷまでの距離Ｘａよりも短くなるようにしてハンド部３８が偏倚している。この状態から各可動爪３８ａ，３８ｂを互いに近づける側へ変位させた場合には、可動爪３８ａがワークＷに当たるタイミングと、可動爪３８ｂがワークＷに当たるタイミングとが相違する。具体的には、図４（ｃ）に示すように、可動爪３８ａがワークＷに当たる前に可動爪３８ｂがワークＷに当たる。

ワークＷについては反力が小さいため、可動爪３８ｂがワークＷに当たることで大きく変形したり、可動爪３８ｂに押されることでコンベアＳ１の載置面上を可動爪３８ａ側へ摺動したりすると想定される。このような事象については、ワークＷの損傷（過度な変形を含む）を招く要因となり得る。これは、製造工程における歩留まりの低下を招き、ロボットシステム１０によって製造効率の向上を図る上で妨げになると懸念される。本実施形態では、機械学習によってワークＷを適正に把持可能とすることでそのような懸念を払しょくしていることを特徴の１つとしている。以下、図５及び図６を参照して、本実施形態における特徴的な構成について説明する。図５はメイン制御装置７０の機能を示す機能ブロック図、図６は機械学習装置９０へ入力されるインプットデータを示す概略図である。

上位コントローラ８０には、メモリ８２に記憶されている制御用プログラムを実行する制御部８４と、ロボット２０やカメラ６５から各種データを取得するデータ取得部８５とが設けられている。データ取得部８５は、カメラ６５から上記所定エリアの画像を取得する画像データ取得部８６と、エンコーダ４２からロボット２０の姿勢（例えば把持動作前の姿勢やワークＷを把持する際の姿勢）を示す姿勢データを取得する姿勢データ取得部８７と、各可動爪３８ａ，３８ｂに設けられた距離センサ４６（図１参照）からハンド部３８が把持位置に配置された状態（後述する調整前）におけるワークＷと各可動爪３８ａ，３８ｂとの各距離を示す距離データを取得する距離データ取得部８８と、力センサ４５からハンド部３８によってワークＷを把持する際のワークＷからの反力を示す反力データを取得する反力データ取得部８９とを含む。

制御部８４は、画像データ取得部８６が取得した画像データから上記所定エリアにおいてワークＷが配置された位置（目標位置ＴＰ）を特定し、その位置をワーク位置データとしてメモリ８２に記憶する。また、把持動作前に取得された画像データからワークＷの把持動作前の形状を抽出して当該形状を形状データとしてメモリ８２に記憶し、把持動作後（リリース後）に取得した画像データからワークＷの把持動作後（リリース後）の形状を抽出して当該形状を形状データとしてメモリ８２に記憶する。把持動作後の画像データの取得タイミングについては、ワークＷをリリースしてから所定時間（例えばワークＷの自力での復元が期待できる時間）を経過したタイミングであるが、この所定時間についても機械学習によって推定可能としてもよい。

また、把持動作前の形状データからワークＷの種別（シュークリーム、エクレア等）を特定し、特定した種別を種別データとしてメモリ８２に記憶する。上位コントローラ８０では、これらのデータの一部を用いてロボット２０を制御し、それらのデータの一部をインプットデータとして機械学習装置９０へ提供する。機械学習装置９０へ提供されるインプットデータについては状態データとラベルデータとに大別される。

機械学習装置９０には、上位コントローラ８０から各種状態データとして、ワーク位置データと、ワークＷを把持する際（把持位置に配置された状態）の姿勢データと、把持前後の各形状データと、種別データとを取得する状態観測部９７が設けられている。これらのデータについては、学習部９４のデータ記憶部９５に記憶される。また、状態観測部９７では、把持動作前の形状データ及び把持動作後（リリース後）の形状データをテンプレートマッチングにより比較して把持動作を契機としたワークＷの変形量（ダメージ）を算出する。その変形量を示すデータ（比較データ）についても学習部９４のデータ記憶部９５に記憶される。なお、本実施形態では、機械学習装置９０が比較データを自身で算出→記憶する構成としたが、これに限定されるものではない。比較データについては、ユーザが機械学習装置９０に提供（入力）する構成とすることも可能である。また、機械学習装置９０には、上位コントローラ８０から各種ラベルデータを取得するラベルデータ取得部９８が設けられている。ラベルデータ取得部９８は、停止基準として設定された基準反力を示す停止基準データ及び上記距離データを取得し、データ記憶部９５に記憶する。

なお、機械学習装置９０に入力される各種インプットデータの入手先については上位コントローラ８０に限定されるものではない。例えば、上位コントローラ８０を経由することなくロボット２０やカメラ６５からインプットデータを直接入手する構成とすることも可能である。

機械学習装置９０の学習部９４は、上記各種状態データ及びラベルデータを関連付けて学習し、その学習によって状態データとラベルデータとの相関性を表すモデル（動作設定モデル）が構築される。この動作設定モデルについては学習部９４の学習モデル記憶部９６に記憶されており、新たに取得したインプットデータに基づいて更新される。動作設定モデルの更新を繰り返すことにより、把持（搬送）の成功確率が高く且つワークＷのダメージ（変形量）が小さくなる停止基準反力や位置調整基準距離が状況に応じて学習される。そして、学習が進みまとまった数のデータが動作設定モデルに反映された場合に当該動作設定モデルの使用が許可される構成となっている。

機械学習装置９０の結果出力部９９では、使用が許可された動作設定モデルとロボット２０の動作制御用のデータ（ワーク位置データ、把持動作前の姿勢データ、把持動作前の形状データ、種別データ）とに基づいて適正な停止基準反力の推定結果を上位コントローラ８０に提示したり、使用が許可された動作設定モデルとロボット２０の動作制御用のデータ（ワーク位置データ、ワークＷを把持する際の姿勢データ、把持動作前の形状データ、種別データ）とに基づいて適正な位置調整基準距離を上位コントローラ８０に提示したりする。ここで、本実施形態に示す適正な停止基準反力とは、ワークＷを把持可能であって且つ把持動作によるワークＷのダメージ（変形量）を最小限に抑えることができる最小の推定値であり、適正な位置調整基準距離とは、当たりタイミングのずれの影響（ダメージ）が０又はほぼ０になる各可動爪３８ａ，３８ｂからワークＷまでの距離の差の推定値である。

なお、本実施形態では、ワークＷの把持に成功した場合の各種インプットデータについてはデータ記憶部９５に蓄積される一方、ワークＷの把持に失敗した場合の各種インプットデータについてはデータ記憶部９５に記憶されることなく消去される。

以上詳述した機械学習装置９０については、学習部９４にて実行される学習のアルゴリズムとして所謂教師あり学習が適用されている。教師あり学習は、実行条件とそれに対応する実行結果との既知のデータセット（所謂教師データ）から実行条件と実行結果との相関性を暗示する特徴を識別することで、新たな実行条件に対する実行結果を推定するためのモデルを学習する手法である。

この教師あり学習においては、動作設定モデルの構築にニューラルネットワークが用いられる。以下、図７を参照してニューラルネットワークの概要について説明する。なお、図７においては便宜上、インプットデータの種類が４つ、アウトプットデータの種類が３つである三層のニューラルネットワークを例示しているが、インプットデータの数、アウトプットデータの数、中間層の数についてはこれに限定されるものではない。

ニューラルネットワークは、多数のノードＮの集合体である。各ノードＮは他の複数のノードＮと接続されており、接続されたノードＮ間には重みｗが設定されている。ノードの集合体は、各種インプットデータの入力を受ける入力層Ｄ１として機能する集合体（ノードＮ１１～Ｎ１４）、重みｗ２を用いて演算を実行する中間層Ｄ２として機能する集合体（ノードＮ２１～Ｎ２３）、アウトプットデータを出力する出力層Ｄ３として機能する集合体（ノードＮ３１～Ｎ３３）とに大別される。入力層Ｄ１のノード数は、インプットデータｘの種類に応じて設定され、出力層Ｄ３のノード数は、アウトプットデータｙの種類に応じて設定されている。

本実施形態に示す機械学習装置９０においては、ワーク位置データ、把持動作前の姿勢データ、ワークＷを把持する際の姿勢データ、把持動作前の形状データ、種別データ、比較データ、停止基準データ、距離データの各データをインプットデータｘとして、学習部９４が上記ニューラルネットワークに従う多層構造の演算を行うことで、適正なアウトプットデータｙとして適正な停止基準反力及び位置調整基準距離を推定する。なお、ニューラルネットワークの動作モードには、上述した学習を行う学習モードと、価値予測モードとがあり、例えば学習モードで重みｗを学習し、学習した重みｗを用いて価値予測モードで行動の価値を判断することができる。

次に、図８を参照して、上位コントローラ８０のＣＰＵ８１にて定期的に実行される動作態様設定処理及び位置調整用処理について説明する。

動作態様設定処理においては先ず、カメラ６５から画像データを取得し（ステップＳ１１）、取得した画像データから把持動作前のワークＷの形状データを作成（抽出）する（ステップＳ１２）。次に、形状データからワークＷの位置データ、すなわち目標位置ＴＰを設定する（ステップＳ１３）。その後は、待機中（配置動作前）のロボット２０の姿勢データを取得し（ステップＳ１４）、目標位置ＴＰ及び姿勢データに基づいて動作軌道生成用の制御点を設定する（ステップＳ１５）。その後は、画像データから識別したワークＷの種別を示す種別データを取得し（ステップＳ１６）、その種別データに基づいて上記停止基準反力を設定する（ステップＳ１７）。ステップＳ１７の処理では、動作設定モデルの使用が許可されている場合には当該動作設定モデルに基づいて停止基準反力を決定し、動作設定モデルの使用が許可されていない場合には予め設定されている候補範囲から停止基準反力を決定（選択）する。

位置調整用処理においては先ず、ハンド部３８が把持位置に配置されたタイミングであるか否かを判定する（ステップＳ２１）。把持位置に配置されたタイミングではない場合にはそのまま本位置調整用処理を終了する。ハンド部３８が把持位置に配置されている場合には、ロボット２０の姿勢を示す姿勢データと、ワークＷと各可動爪３８ａ，３８ｂとの各距離を示す距離データを取得する（ステップＳ２２）。その後は、動作設定モデルの使用が許可されているか否かを判定する（ステップＳ２３）。動作設定モデルの使用が許可されていない場合には、そのまま本位置調整用処理を終了する。つまり、動作設定モデルの使用が許可されていない場合には位置調整が回避される。動作設定モデルの使用が許可されている場合には、位置調整の要否を確認する（ステップＳ２４）。今回の距離の差が位置調整基準距離を超えていない場合には位置調整を行わない旨の判定をして（ステップＳ２５：ＮＯ）、そのまま本位置調整用処理を終了する。今回の距離の差が位置調整基準距離を超えている場合には位置調整を行う旨の判定をして（ステップＳ２５：ＹＥＳ）、位置調整の詳細を決定する（ステップＳ２６）。具体的には、ワークＷと各可動爪３８ａ，３８ｂとの各距離の差が０となるようにハンド部３８の位置を調整すべく、当該ハンド部３８を変位させる方向と、その変位量を決定する。この決定された方向及び変位量を踏まえて、動作軌道修正処理を実行する。具体的には、ロボット２０の動作軌道を位置調整を踏まえた動作軌道に修正すべく各制御点を再設定する。再設定された制御点はモーションコントローラ６０に送信される。

次に、図９のフローチャートを参照して、機械学習装置９０のＣＰＵ９１により定期的に実行される学習処理について説明する。

学習処理においては先ず、ワークＷのケースＣへの搬送動作の全工程が完了して待機姿勢に復帰したタイミングであるか否かを判定する（ステップＳ３１）。このタイミングではない場合には、そのまま本学習処理終了する。このタイミングである場合には、上位コントローラ８０から各種状態データを取得する（ステップＳ３２）。具体的には、ワーク位置データ、把持動作前の姿勢データ、ワークＷを把持する際の姿勢データ、把持動作前の形状データ、種別データ、把持動作後の所定エリアの画像データを取得する。次に、上位コントローラ８０から各種ラベルデータを取得する（ステップＳ３３）。具体的には、停止基準データ及び距離データを取得する。

その後は、把持動作後の所定エリアの画像を解析して、当該所定エリアにワークＷが残っているか否か、すなわちワークＷの運搬（把持）に成功したか否かを判定する（ステップＳ３４）。ワークＷの運搬に失敗した場合には、取得した各種インプットデータをデータ記憶部９５に記憶することなく、すなわち機械学習のインプットデータとして活用することなく消去して、本学習処理を終了する。

これに対して、ワークＷの運搬（把持）に成功した場合には、ワークＷの変形量を算出する。具体的には、把持動作前のワークＷの形状データと、把持動作後（リリース後）のワークＷの形状データとを比較して、ワークＷの変形量（ダメージ）を算出して比較データを作成する（ステップＳ３５）。その後、ワーク位置データ、姿勢データ、形状データ、種別データ、比較データ、停止基準データ、距離データをデータ記憶部９５に保存し、新たに取得したデータを踏まえて動作設定モデルを更新する。以降は、少なくとも上述した使用が許可されるまでデータを蓄積し、動作設定モデルの更新を繰り返す。なお、動作設定モデルの更新についてはデータを新たに取得する都度実行する必要は必ずしもなく、蓄積されたデータ量が基準量に達した場合に動作設定モデルを更新（構築）する構成としてもよい。

以上詳述した第１の実施形態によれば、以下の優れた効果が期待できる。

本実施形態においては、停止基準データ、距離データ、比較データを含む各種インプットデータを用いた機械学習によりロボット２０の動作（位置調整動作及び把持動作）の動作態様の設定に用いられる動作設定モデルが構築される。このような構成とすれば、可動爪３８ａ，３８ｂに係る適正な停止基準を設定可能となるだけでなく、ハンド部３８の配置状況に応じて当該ハンド部３８の位置が適正に調整される構成を実現可能となる。つまり、ワークＷに各可動爪３８ａ，３８ｂが当たるタイミングのずれに起因したワークＷの損傷を抑制し、低反力且つ不定形のワークＷを適切に把持可能なロボットシステムの実現に寄与できる。

低反力のワークＷが損傷する場合には、重量の変化や形状の変化が生じる。このうち、重量の変化が生じる場合の多くは併せて形状も変化することとなるため、把持動作の前後で比較する対象を形状とすることでワークＷの損傷の度合いを機械学習に適切に反映させることができる。

ロボットシステム１０については供給されるワークＷの位置についてある程度の許容範囲（上記所定エリア）を設けることで当該システムの利便性を向上させることができる。但し、このような範囲を設けた場合には、当該範囲内のどの位置にワークＷが供給されるかによって、当該ワークＷの把持動作を実行する場合の可動爪３８ａ，３８ｂの当たり方等に違いが生じる可能性がある。また、ロボット２０については、ワークＷを把持する際の姿勢によって、ワークＷに対する可動爪３８ａ，３８ｂの当たり方等に違いが生じる可能性がある。そこで、ワークＷの位置を示すワーク位置データやロボット２０の姿勢を示す姿勢データをインプットデータに加えて機械学習を行う構成とすれば、低反力且つ不定形のワークＷを適切に把持可能なロボットシステムの実現に寄与できる。

＜第２の実施形態＞
上記第１の実施形態では教師あり学習によって動作設定モデルを構築する構成について例示したが、動作設定モデルを構築するための学習方式を強化学習とすることも可能である。

強化学習によって動作設定モデルを構築する場合には、把持動作前のワークＷの形状と把持動作後（リリース後）のワークＷの形状との差が基準量（本実施形態では５％）以内であれば報酬を増やし、基準量を超えている場合には報酬を減らす構成とするとよい。また、上記第２の実施形態では、ワークＷの把持に成功した場合のデータのみを学習用のインプットデータとしたが、把持の成否についても報酬を設定し、失敗時のデータについてもインプットデータとする構成とすることも可能である。この場合、例えばワークＷの把持に成功した場合には報酬を増やし、ワークＷの把持に失敗した場合には報酬を減らす構成とするとよい。ワークＷの把持に成功した場合の報酬については、形状の差が基準量以内の場合に付与される報酬よりも多くすることで、把持の成功が優先される構成を実現できる。

上述した位置調整を行う場合には、位置調整を行わない場合と比べて僅かながら搬送効率が低下する。また、位置調整を行う場合にはハンド部３８の変位量が大きくなるほど搬送効率が低下する。そこで、強化学習の適用によって搬送効率に係る報酬を設定することで、ワークＷの保護と搬送効率の向上とを両立させることができる。例えば、位置調整を行う場合のハンド部３８の変位量が小さくなるほど報酬を増やし、大きくなるほど報酬を減らす構成とすることにより、位置調整が必要な場合であってもハンド部３８の変位量を必要最小限に抑えることが可能となる。なお、これに代えて、ロボット２０の動作開始から動作終了までの所要時間データをインプットデータとして追加し、所要時間が短くなるほど報酬を増やし、所要時間が長くなるほど報酬を減らす構成とすることも可能である。

＜第３の実施形態＞
上記第１の実施形態等では、力センサ４５により検出された反力が停止基準に達した場合に可動爪３８ａ，３８ｂを停止させる構成とした。ワークＷの反力が小さくなれば小さくなるほど、反力を上手く検出することが困難になり得る。そこで、極めて反力が小さいワークＷについては、可動爪３８ａ，３８ｂを停止させる基準を反力から両可動爪３８ａ，３８ｂの相対距離（間隔又は幅）、すなわち挟み方向への両可動爪３８ａ，３８ｂの変位量とするとよい。

このような構成とする場合には、動作設定モデルの使用が許可されている場合には各種データと当該動作設定モデルとを用いて停止基準となる基準相対距離を設定し、動作設定モデルの使用が許可されていない場合には予め設定されている候補範囲から停止基準反力を決定（選択）するとよい。そして、学習中は把持動作を行った際の相対距離を示すデータを上記停止基準データとし、当該相対距離を学習用のインプットデータとするとよい。

＜第４の実施形態＞
上記第１の実施形態等に示したワークＷ（特にシュークリームや大福）については、形状が不定形であり、当該ワークＷをどの方向から挟み込むかによって把持終了後のワークＷの復元力に差が生じる可能性がある。つまり、どの方向から挟むかによって上記タイミングのずれや荷重の影響が異なる可能性がある。言い換えれば、挟み方向によって調整不要となる対象物と各可動爪３８ａ，３８ｂとの位置関係等に違いが生じる可能性がある。また、ある方向にて挟み込んだ場合と比べて別の方向から挟み込んだ場合の方が変形量（ダメージ）が少なくなる可能性もある。本実施形態では、このような事情に配慮して、インプットデータに挟み方向を示す挟み方向データを追加していることを特徴の１つとしている。以下、図１０を参照して、当該インプットデータについて説明する。なお、挟み方向とは、把持動作において可動爪３８ａ，３８ｂが変位する方向である。

所定エリアに配置されたワークＷを撮影した画像については、カメラ６５から上位コントローラ８０に入力される。上位コントローラ８０では、この撮影した画像から作成（抽出）されたワークＷの外形を示す形状データを参照し、ワークＷにおける基準方向を設定する。具体的には、外形線上の２つの点のうち距離が最大となるものを決定し、それら２つの点を結んだ直線の方向を基準方向として設定する。学習中は、この基準方向に対して今回の挟み方向がどのような関係となっているかを示すデータとして挟み方向データを取得する。詳しくは、挟み方向データは、基準方向に対する挟み方向の角度を示すデータである。このようにして、インプットデータに挟み方向を加えることにより、構築される動作設定モデルには挟み方向の影響が反映されることとなる。故に、方向データ及び動作設定モデルに基づいて動作態様を決定した場合には、設定される停止基準反力や位置調整基準距離が挟み方向を加味したものとなる。

なお、本実施形態では、外形線上の２つの点のうち距離が最大となるものを決定し、それら２つの点を結んだ直線の方向を基準方向として設定したが、これに代えて、外形線上の２つの点のうち距離が最小となるものを決定し、それら２つの点を結んだ直線の方向を基準方向として設定することも可能である。

因みに、上記第４の実施形態では、挟み方向を加味して停止基準反力や位置調整基準距離が設定されることとなるが、これに代えて、動作設定モデルの使用が許可されている場合には各種データ（ワークＷの形状データ）と当該動作設定モデルとを用いて挟み方向を設定する構成としてもよい。つまり、停止基準反力が小さく且つ位置調整基準距離が大きくできる挟み方向となるようにハンド部３８の向きを設定する構成としてもよい。

＜第５の実施形態＞
上記第１の実施形態等に示したワークＷについては、形状のばらつきが大きく且つ反力が小さい。このようなワークＷを把持する場合には、ワークＷと可動爪３８ａ，３８ｂの接触面積によってワークＷへの影響に差が生じる可能性がある。言い換えれば、接触面積によって調整不要となるワークＷと各可動爪３８ａ，３８ｂとの位置関係等に違いが生じる可能性がある。また、接触面積の大小によってワークＷの変形量（ダメージ）が少なくなる可能性もある。本実施形態では、このような事情に配慮して、インプットデータに接触面積を示す接触面積データを追加していることを特徴の１つとしている。以下、図１１を参照して、当該インプットデータについて説明する。

可動爪３８ａ，３８ｂにおける対向面には、シート状の接触センサ４７ａ，４７ｂが各々配設されている。接触センサ４７ａ，４７ｂによる検出結果については上位コントローラ８０に送信され、上位コントローラ８０ではこの検出結果に基づいてワークＷと可動爪３８ａ，３８ｂとの接触面積を特定する。同じ強さでワークＷを挟み込んだ場合には、接触面積が大きくなるほど、ワークＷにおける局所負荷を軽減することができる。つまり、接触面積が大きいほどワークＷを好適に保護し得る。

接触面積を示す接触面積データは機械学習装置９０に提供され、機械学習装置９０はこの接触面積データをインプットデータとしてデータ記憶部９５に保存し、当該接触面積データを用いて動作設定モデルを構築する。ワークＷの形状と接触面積との関係が機械学習によって特定されることにより、動作設定モデル及びワークＷの形状から接触面積を推定し、その推定した接触面積に基づいて停止基準反力や位置調整基準距離を設定可能となる。

因みに、上記第５の実施形態では、推定される接触面積を加味して停止基準反力や位置調整基準距離が設定されることとなるが、これに代えて、動作設定モデルの使用が許可されている場合には各種データ（ワークＷの形状データ）と当該動作設定モデルとを用いて接触面積が適正となる挟み方向（第４の実施形態参照）を設定する構成としてもよい。つまり、停止基準反力が小さく且つ位置調整基準距離が大きくできる挟み方向となるようにハンド部３８の向きを設定する構成としてもよい。

＜その他の実施形態＞
なお、上述した各実施形態の記載内容に限定されず例えば次のように実施してもよい。ちなみに、以下の各構成を個別に上記各実施形態に対して適用してもよく、一部又は全部を組み合わせて上記各実施形態に対して適用してもよい。また、上記各実施形態に示した各種構成の全て又は一部を任意に組み合わせることも可能である。この場合、組み合わせの対象となる各構成の技術的意義（発揮される効果）が担保されることが好ましい。

・上記各実施形態に示した動作設定モデルを、位置調整用のモデル（位置調整モデル）と停止基準設定用のモデル（把持モデル）とに分けて個別に構築することも可能である。

なお、上記各実施形態では、ロボット２０の動作の一部である把持動作及び位置調整動作を「所定動作」として、当該所定動作を設定するためのモデルを機械学習によって構築する構成としたが、これを変更し、ハンド部３８の配置動作、ハンド部３８の位置調整動作、ワークＷの把持動作を含むロボット２０の動作の全体を設定するためのモデルを機械学習によって構築する構成とすることも可能である。

・上記各実施形態では、ワークＷの把持の成否や損傷度合いをロボットシステム１０に監視する構成としたが、これに限定されるものでは無い。例えば、作業者が把持の成否や損傷度合いを監視し、その監視結果を機械学習装置９０に入力する構成とすることも可能である。

・ロボット２０の周辺の環境を示す環境データ（温度データや湿度データ）を学習用のインプットデータに加えてもよい。シュークリーム等の低反力且つ不定形の把持対象については、温度や湿度等の環境条件に応じて固さが変化し得る。言い換えれば、環境条件によって調整不要となる把持対象と各可動爪３８ａ，３８ｂとの位置関係等に違いが生じる可能性がある。そこで、本変形例に示すように、各実施形態に示した各種インプットデータに環境データを加えて機械学習を行う構成とすれば、位置調整動作や把持動作の更なる適正化が期待できる。

・上記各実施形態では、把持動作を実行する際の可動爪３８ａ，３８ｂの変位速度を一定としたが、これに限定されるものではない。変位速度を可変パラメータとして、ワークＷを把持する際に変位速度を示す速度データを学習用のインプットデータに加えてもよい。上述したタイミングのずれが発生する場合には、可動爪３８ａ，３８ｂの変位速度によって把持対象への影響に差が生じる可能性がある。言い換えれば、変位速度によって調整不要となる対象物と各可動爪３８ａ，３８ｂとの位置関係等に違いが生じる可能性がある。そこで、本変形例に示すように、各実施形態に示した各種インプットデータに速度データを加えて機械学習を行う構成とすれば、把持動作の更なる適正化が期待できる。

・把持動作前のワークＷの形状を示す形状データと、設定した目標位置ＴＰを示すワーク位置データと、ハンド部３８を把持位置に配置した場合の各可動爪３８ａ，３８ｂとワークＷとの距離を示す距離データとに基づく機械学習によって目標位置ＴＰの設定に用いられる目標点設定モデルを構築する構成を付加してもよい。目標位置ＴＰの設定精度が高くなれば、上述した位置調整の機会を減らすことができ、搬送効率の向上に寄与できる。

・上記各実施形態では、位置調整を行う場合には把持部を移動させる構成としたが、これに限定されるものでは無い。例えば、ワークＷとの距離が大きい方の可動爪をワークＷに近づけて距離を揃える構成としたり、ワークＷとの距離が小さい方の可動爪をワークＷから遠ざけて距離を揃える構成としたりすることも可能である。但し、このような構成では、ワークＷが一方の可動爪側に偏倚した位置で把持された状態となり得る。これは、把持機能の安定化や、ケースＣへの配置作業の効率化を図る上で好ましくない。つまり、上記各実施形態に示したように、可動爪３８ａ，３８ｂではなくハンド部３８を移動させることで位置調整を行う構成とすることには技術的意義がある。

・上記各実施形態では、把持動作前のワークＷの形状データと把持動作後のワークＷの形データとの比較によりワークＷの形状の変化量（ダメージ）を特定する構成について例示したが、これに限定されるものではない。これに代えて又は加えて、重量センサ等を用いてワークＷの重量を監視し、把持動作前のワークＷの重量と把持動作後のワークＷの重量との比較によりワークＷの重量の変化量を特定する構成とすることも可能である。つまり、機械学習装置９０へのインプットデータである比較データについては、重量差を示すデータとすることをも可能である。

・上記各実施形態では、カメラ６５を工場の天井部に固定する構成としたが、当該カメラ６５をロボット本体３０（例えばアーム）に取り付ける構成とすることも可能である。

・上記各実施形態では、２つの可動爪３８ａ，３８ｂによってワークＷを把持する構成としたが、可動爪の数については任意である。例えば、３つとしてもよいし、４つ以上としてもよい。

・上記各実施形態では、上位コントローラ８０及び機械学習装置９０によってメイン制御装置７０を構成したが、これら上位コントローラ８０及び機械学習装置９０については個別に設けてもよい。また、機械学習装置９０に相当する構成をクラウド上に設けてもよい。

・上記各実施形態では、シュークリームやエクレアをロボット２０の把持対象として例示したが、これに限定されるものではない。反力が小さく且つ形状のばらつきの大きい他の食品、例えば大福やパンをロボット２０の把持対象とすることも可能である。また、把持対象については加工食品に限定されるものではなく、ミカンやトマト等の青果を把持対象とした場合であっても、それら把持対象を好適に保護できる。

１０…ロボットシステム、２０…ロボット、３８…ハンド部、３８ａ，３８ｂ…可動爪、４２…エンコーダ、４５…力センサ、４６…距離センサ、６５…カメラ、７０…制御装置、８０…上位コントローラ、８１…ＣＰＵ、９０…機械学習装置、９１…ＣＰＵ、９２…メモリ、ＣＰ…基準点、ＴＰ…目標位置、Ｘａ，Ｘｂ…距離、Ｗ…ワーク。

Claims

一組の可動爪が設けられた把持部を有し、対象物をそれら可動爪によって挟むことにより把持するロボットと、
前記一組の可動爪の間に前記対象物が位置することとなる所定位置へ前記把持部を配置する配置動作及び当該所定位置にてそれら可動爪を互いに近づく側に変位させる把持動作が実行されるように前記ロボットを制御する制御装置と
を備え、
前記制御装置は、前記把持動作中に前記対象物からの反力が基準値となった場合又は前記一組の可動爪の相対距離が基準値となった場合に前記一組の可動爪の前記変位を停止させるように構成されているロボットシステムであって、
前記所定位置に前記把持部が配置されている状況下にて、前記把持部を変位させることで前記対象物に対する前記一組の可動爪の位置を調整する調整動作を実行可能となっており、
前記把持動作を停止させる前記基準値は、可変値であり、
前記対象物を把持する場合に設定された前記基準値を示す停止基準データと、前記所定位置に配置された前記把持部の各可動爪と前記対象物との距離を示す距離データと、前記把持動作の実行前の前記対象物の状態と当該把持動作が行われた後と当該対象物の状態との違いを示す比較データとを取得し、それら停止基準データ、距離データ及び比較データを用いた機械学習により前記調整動作及び前記把持動作を含む所定動作の動作態様の設定に用いられるモデルを構築するモデル構築部を備え、
前記制御装置は、
前記把持部が前記所定位置に配置された場合に、当該把持部の各可動爪と前記対象物との距離を示す前記距離データを取得する取得部と、
前記ロボットの前記所定動作の動作態様を設定する設定部と
を有し、
前記設定部は、前記取得部により取得された前記距離データと、前記モデル構築部により構築された前記モデルとに基づいて前記所定動作の動作態様を設定可能となっているロボットシステム。
前記モデル構築部は、前記把持動作が実行される前の前記対象物の形状と当該把持動作が行われた後と当該対象物の形状との違いを示すデータを前記比較データとして取得する請求項１に記載のロボットシステム。
前記モデル構築部は、前記把持動作が実行される前の前記対象物の形状を示す形状データと、前記対象物の基準方向と前記一組の可動爪が当該対象物を挟む方向との関係を示す方向データとを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記形状データと、前記方向データとを関連付けて前記機械学習を行う請求項１又は請求項２に記載のロボットシステム。
前記一組の可動爪において前記対象物に当たる部分は面状をなしており、
前記モデル構築部は、前記把持動作が実行される前の前記対象物の形状を示す形状データと、前記対象物を把持している状態での前記一組の可動爪と前記対象物との接触面積を示す接触面積データとを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記形状データと、前記接触面積データとを関連付けて前記機械学習を行う請求項１乃至請求項３のいずれか１つに記載のロボットシステム。
前記制御装置は、前記把持動作を実行する場合に、設定された速度となるようにして前記一組の可動爪を変位させる構成となっており、
前記速度は、可変値であり、
前記モデル構築部は、前記対象物に向けて各前記可動爪が変位する際の変位速度を示す速度データを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記速度データとを関連付けて前記機械学習を行う請求項１乃至請求項４のいずれか１つに記載のロボットシステム。
前記モデル構築部は、前記把持動作が実行される前の前記対象物の位置を示す位置データを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記位置データとを関連付けて前記機械学習を行う請求項１乃至請求項５のいずれか１つに記載のロボットシステム。
前記モデル構築部は、前記対象物を把持する際の前記ロボットの姿勢を示す姿勢データを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記姿勢データとを関連付けて前記機械学習を行う請求項１乃至請求項６のいずれか１つに記載のロボットシステム。
前記モデル構築部は、前記ロボットの周辺の環境を示す環境データを取得し、前記停止基準データと、前記距離データと、前記比較データと、前記環境データとを関連付けて前記機械学習を行う請求項１乃至請求項７のいずれか１つに記載のロボットシステム。
前記設定部は、前記取得部により取得された前記距離データが前記モデルにより規定されている範囲内の距離を示すデータである場合には、前記一組の可動爪と前記対象物との相対位置を調整することなく当該対象物を把持するように動作態様を設定し、前記取得部により取得された前記距離データが前記モデルにより規定されている範囲外の距離を示すデータである場合には、前記一組の可動爪と前記対象物との相対位置を調整した後に当該対象物を把持するように動作態様を設定する構成となっている請求項１乃至請求項８のいずれか１つに記載のロボットシステム。
一組の可動爪が設けられた把持部を有し、対象物をそれら可動爪によって挟むことにより把持するロボットと、
前記一組の可動爪の間に前記対象物が位置することとなる所定位置へ前記把持部を配置する配置動作及び当該所定位置にてそれら可動爪を互いに近づく側に変位させる把持動作が実行されるように前記ロボットを制御する制御装置と
を備えているロボットシステムであって、
前記所定位置に前記把持部が配置されている状況下にて、前記把持部を変位させることで前記対象物に対する前記一組の可動爪の位置を調整可能となっており、
前記所定位置に配置された前記把持部の各可動爪と前記対象物との距離を示す距離データと、前記把持動作の実行前の前記対象物の状態と当該把持動作が行われた後と当該対象物の状態との違いを示す比較データとを取得し、それら距離データ及び比較データを用いた機械学習により前記所定位置における前記把持部の位置調整の態様の設定に用いられるモデルを構築するモデル構築部を備え、
前記制御装置は、
前記把持部が前記所定位置に配置された場合に、当該把持部の各可動爪と前記対象物との距離を示す前記距離データを取得する取得部と、
前記取得部により取得された前記距離データと、前記モデル構築部により構築された前記モデルとに基づいて前記位置調整の態様を設定する設定部と
を有しているロボットシステム。
一組の可動爪が設けられた把持部を有し、対象物をそれら可動爪によって挟むことにより把持するロボットと、前記一組の可動爪の間に前記対象物が位置することとなる所定位置へ前記把持部を配置する配置動作及び当該所定位置にてそれら可動爪を互いに近づく側に変位させる把持動作が実行されるように前記ロボットを制御する制御装置とを備え、前記制御装置は、前記把持動作中に前記対象物からの反力が基準値となった場合又は前記一組の可動爪の相対距離が基準値となった場合に前記一組の可動爪の前記変位を停止させるように構成され、前記所定位置に前記把持部が配置されている状況下にて、前記把持部を変位させることで前記対象物に対する前記一組の可動爪の位置を調整可する調整動作を実行可能なロボットシステムに適用される機械学習装置であって、
前記把持動作を停止させる前記基準値は、可変値であり、
前記対象物を把持する場合に設定された前記基準値を示す停止基準データと、前記所定位置に配置された前記把持部の各可動爪と前記対象物との距離を示す距離データと、前記把持動作の実行前の前記対象物の状態と当該把持動作が行われた後と当該対象物の状態との違いを示す比較データとを取得し、それら停止基準データ、距離データ及び比較データを用いた機械学習により前記調整動作及び前記把持動作を含む所定動作の動作態様の設定に用いられるモデルを構築するモデル構築部を備えている機械学習装置。