JP7344977B2

JP7344977B2 - 機械学習データ生成装置、機械学習装置、機械学習データ生成方法及びコンピュータプログラム

Info

Publication number: JP7344977B2
Application number: JP2021553585A
Authority: JP
Inventors: 浩貴太刀掛
Original assignee: Yaskawa Electric Corp
Current assignee: Yaskawa Electric Corp
Priority date: 2019-10-28
Filing date: 2020-10-23
Publication date: 2023-09-14
Anticipated expiration: 2040-10-23
Also published as: WO2021084587A1; EP4052869A1; JPWO2021085345A1; US20220234196A1; WO2021085345A1; CN114599488A; EP4052869A4

Description

本発明は、機械学習データ生成装置、機械学習装置、作業システム、コンピュータプログラム、機械学習データ生成方法及び作業機械の製造方法に関する。

特許文献１には、三次元計測機により撮影した深度画像に基づいて、機械学習装置が制御指令を出力し、当該制御指令に基づくシミュレーションの実行結果に問題がなければ、当該制御指令に基づいてロボットが作業を行い、問題があれば、ロボットに対する制御指令の入力を停止し、結果ラベルを訓練データとして機械学習器に与えてさらなる学習を行うように構成された機械学習装置が記載されている。

特開２０１７－１８５５７７号公報

対象物に反復・継続的に物理的作業を行う自動機械である作業機械において、機械学習を用いて対象物に応じた動作をさせるためには、対象物の種々の現実に起こり得る態様に即した機械学習データにより機械学習を行う必要がある。しかしながら、対象物と、対象物に対して想定される動作からは、その物理的作業の成否が自明でない場合には、種々の対象物を現実に用意し、実機を実際に動作させて機械学習をさせなければならず、多大な労力と時間を要する場合があった。

本発明は、かかる事情に鑑みてなされたものであり、その目的は、現実の物理的作業を要さずに、物理的作業の成否を反映した機械学習データを得ることである。

本発明の一側面に係る機械学習データ生成装置は、仮想空間において、ロボットのピックアップ作業の対象となる複数の対象物の仮想モデルである仮想対象物モデルをばら積みの状態で配置する仮想モデル生成部と、複数の前記対象物に対するセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、ばら積みの状態で配置された複数の前記仮想対象物モデルに基づいて生成する仮想センサ入力生成部と、前記対象物に対して与えられた前記ロボットの動作の目標値範囲及び、ばら積み状態で配置された複数の前記仮想対象物モデルの一又は複数に基づいて、前記ロボットに対する動作指令を仮想的に生成したものである、仮想動作指令の目標値範囲を生成する仮想動作指令生成部と、前記仮想空間において、前記仮想動作指令による前記ロボットのピックアップ作業の成否を評価する仮想動作成否評価部と、前記仮想センサ入力を問題データとし、前記仮想動作指令の目標値範囲に前記ロボットのピックアップ作業の成否を加味して得る解答データと対にすることにより、機械学習データを生成する機械学習データ生成部と、を有する。

本発明の一側面に係る機械学習データ生成装置では、さらに、前記対象物は、突出部を有する機械部品であってよい。

本発明の一側面に係る機械学習データ生成装置では、さらに、前記動作の目標値範囲には、前記ロボットのエンドエフェクタが成功裏に前記対象物をピックアップできる位置範囲が含まれてよい。

本発明の一側面に係る機械学習データ生成装置では、さらに、前記動作の目標値範囲には、前記ロボットのエンドエフェクタが成功裏に前記対象物をピックアップできる角度範囲が含まれてよい。

本発明の一側面に係る機械学習データ生成装置では、さらに、前記動作の目標値範囲を、ユーザが前記仮想対象物モデルに対する相対的な範囲として指定してよい。

本発明の一側面に係る機械学習データ生成装置では、さらに、前記仮想動作成否評価部は、前記仮想空間において、前記仮想動作指令の目標値範囲内の目標値により示された位置及び姿勢の前記ロボットのエンドエフェクタと、ばら積み状態で配置された複数の前記仮想対象物モデルとの干渉の有無を評価してよい。

本発明の一側面に係る機械学習データ生成装置では、さらに、前記機械学習データ生成部は、ばら積み状態で配置された複数の前記仮想対象物モデルそれぞれについて生成された前記仮想動作指令の目標値範囲から、前記干渉によって前記ロボットのピックアップ作業が実行不能である部分を削除することによって前記解答データを得てよい。

本発明の一側面に係る機械学習データ生成装置では、さらに、前記機械学習データ生成部は、ばら積み状態で配置された複数の前記仮想対象物モデルそれぞれについて得られた、前記仮想動作指令の目標値範囲から、前記ロボットのピックアップ作業が実行不能である部分を削除することによって得られた範囲の和集合として前記解答データを得てよい。

本発明の一側面に係る機械学習データ生成方法は、仮想空間において、ロボットのピックアップ作業の対象となる複数の対象物の仮想モデルである仮想対象物モデルをばら積みの状態で配置し、複数の前記対象物に対するセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、ばら積みの状態で配置された複数の前記仮想対象物モデルに基づいて生成し、前記対象物に対して与えられた前記ロボットの動作の目標値範囲及び、ばら積み状態で配置された複数の前記仮想対象物モデルの一又は複数に基づいて、前記ロボットに対する動作指令を仮想的に生成したものである、仮想動作指令の目標値範囲を生成し、前記仮想空間において、前記仮想動作指令による前記ロボットのピックアップ作業の成否を評価し、前記仮想センサ入力を問題データとし、前記仮想動作指令の目標値範囲に前記ロボットのピックアップ作業の成否を加味して得る解答データと対にすることにより、機械学習データを生成する。

本発明の一側面に係るコンピュータプログラムは、コンピュータを、仮想空間において、ロボットのピックアップ作業の対象となる複数の対象物の仮想モデルである仮想対象物モデルをばら積みの状態で配置する仮想モデル生成部と、複数の前記対象物に対するセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、ばら積みの状態で配置された複数の前記仮想対象物モデルに基づいて生成する仮想センサ入力生成部と、前記対象物に対して与えられた前記ロボットの動作の目標値範囲及び、ばら積み状態で配置された複数の前記仮想対象物モデルの一又は複数に基づいて、前記ロボットに対する動作指令を仮想的に生成したものである、仮想動作指令の目標値範囲を生成する仮想動作指令生成部と、前記仮想空間において、前記仮想動作指令による前記ロボットのピックアップ作業の成否を評価する仮想動作成否評価部と、前記仮想センサ入力を問題データとし、前記仮想動作指令の目標値範囲に前記ロボットのピックアップ作業の成否を加味して得る解答データと対にすることにより、機械学習データを生成する機械学習データ生成部と、を有する機械学習データ生成装置として動作させる。

本発明の各実施形態に共通する概念に係る機械学習データ生成装置を含む機械学習装置の全体の構成を示す機能ブロック図である。本発明の第１の実施形態に係る機械学習データ生成装置を含む機械学習装置の全体の構成を示す機能ブロック図である。機械学習データ生成装置及び機械学習装置のハードウェア構成の一例を示す図である。本実施形態に係る機械学習データ生成装置及び機械学習装置において想定される作業機械の例を示す外観図である。図４に示した作業機械の機能的構成を示す構成図である。本発明の第１の実施形態に係る仮想モデル生成部の一例の詳細な構成を示す構成図である。ＶＡＥを説明する図である。本発明の第１の実施形態に係る仮想センサ入力生成部の一例の構成を示す構成図である。ＧＡＮを説明する図である。機械学習データ生成装置により生成される機械学習データの構成の一例を示す図である。学習部の構成を示す構成図である。フィルタの種々の形状の例を示す図である。本発明の第１の実施形態に係る機械学習データ生成装置及び機械学習装置による、機械学習データ生成方法及び機械学習方法のフロー図である。本発明の第２の実施形態に係る機械学習データ生成装置を含む機械学習装置の全体の構成を示す機能ブロック図である。本発明の第３の実施形態に係る機械学習データ生成装置を含む機械学習装置の全体の構成を示す機能ブロック図である。本発明の第３の実施形態に係る機械学習データ生成装置を含む機械学習装置に係る物理的作業の具体を示す図である。仮想動作指令生成部に対して与える目標値の例である。生成された仮想動作指令である目標値の例を示す図である。仮想空間中における干渉の有無の評価を評価している様子を説明する図である。目標値に評価が加味されることにより得られた解答データの例を模式的に示す図である。干渉の有無を２つの断面を用いて評価する方法を示す図である。作業機械の製造工程を示すフロー図である。

本発明には種々の実施の態様が想定され、以下それらの態様に応じた実施形態を例示しつつ説明を行うが、まず、各実施形態に共通する概念についての大枠の説明を行う。

図１は、本発明の各実施形態に共通する概念に係る機械学習データ生成装置１を含む機械学習装置２の全体の構成を示す機能ブロック図である。

機械学習装置１は、作業機械のオペレーティングマシンによる物理的作業の対象となるばら積みの複数の対象物の仮想対象物モデルを生成する仮想モデル生成部１０１、作業機械のセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、仮想対象物モデルに基づいて生成する仮想センサ入力生成部１０２、産業機器のオペレーティングマシンに対する動作指令を仮想的に生成したものである、仮想動作指令を仮想対象物モデル及び仮想センサ入力の少なくともいずれかに応じて生成する仮想動作指令生成部１０３、仮想空間において、仮想動作指令による作業機械のオペレーティングマシンによる物理的作業の成否を評価する仮想動作成否評価部１１６及び、仮想センサ入力と、仮想動作指令と、仮想動作成否評価１１６の評価に基づいて機械学習データを生成する機械学習データ生成部１０６と、を有する。

また、機械学習装置２は、上述の機械学習データ生成装置１に加え、学習部２０１を有する。

以上機能ブロックにて示した機械学習装置２の各機能の詳細は、以下の各実施形態の説明にて明らかとなる。

続いて、本発明の第１の実施形態に係る機械学習データ生成装置、機械学習装置、コンピュータプログラム及び機械学習データ生成方法を、図２～１３を参照して説明する。

図２は、本発明の第１の実施形態に係る機械学習データ生成装置１を含む機械学習装置２の全体の構成を示す機能ブロック図である。ここで、「機械学習データ生成装置」とは、教師あり学習がなされる機械学習モデルにおける学習に用いられる教師データである、機械学習データを生成する装置を指し、「機械学習装置」とは、機械学習データを用いて、機械学習モデルの学習を実行する装置を指す。

機械学習データ生成装置１及び機械学習装置２は、物理的には、それぞれ単独の装置として用意されてもよいが、これに限られず、他の機械や装置の一部として組み込まれていてもよく、または必要に応じて他の機械や装置の物理的構成を用いて適宜構成されるものであってもよい。より具体的には、機械学習データ生成装置１及び機械学習装置２は、一般的なコンピュータを用いて、ソフトウェアにより実装されてよく、また、コンピュータを機械学習データ生成装置１及び機械学習装置２として動作させるコンピュータプログラムは、一体のものであってもよいし、それぞれ単独で実行されるものであってもよく、さらには、モジュールとして他のソフトウェアに組み込まれるものであってもよい。また、機械学習データ生成装置１及び機械学習装置２を、いわゆるサーバコンピュータ上に構築し、インターネットなどの公衆電気通信回線を経由してその機能のみを遠隔地に提供するようにしてもよい。

図３は、機械学習データ生成装置１及び機械学習装置２のハードウェア構成の一例を示す図である。同図に示されているのは、一般的なコンピュータ３であり、プロセッサであるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１、メモリであるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０２、外部記憶装置３０３、ＧＣ（ＧｒａｐｈｉｃｓＣｏｎｔｒｏｌｌｅｒ）３０４、入力デバイス３０５及びＩ／Ｏ（Ｉｎｐｕｒ／Ｏｕｔｐｕｔ）３０６がデータバス３０７により相互に電気信号のやり取りができるよう接続されている。なお、ここで示したコンピュータ３のハードウェア構成は一例であり、これ以外の構成のものであってもよい。

外部記憶装置３０３はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の静的に情報を記録できる装置である。またＧＣ３０４からの信号はＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）やいわゆるフラットパネルディスプレイ等の、使用者が視覚的に画像を認識するモニタ３０８に出力され、画像として表示される。入力デバイス３０５はキーボードやマウス、タッチパネル等の、ユーザが情報を入力するための一又は複数の機器であり、Ｉ／Ｏ３０６はコンピュータ３が外部の機器と情報をやり取りするための一又は複数のインタフェースである。Ｉ／Ｏ３０６には、有線接続するための各種ポート及び、無線接続のためのコントローラが含まれていてよい。

コンピュータ３を機械学習データ生成装置１及び機械学習装置２として機能させるためのコンピュータプログラムは外部記憶装置３０３に記憶され、必要に応じてＲＡＭ３０２に読みだされてＣＰＵ３０１により実行される。すなわち、ＲＡＭ３０２には、ＣＰＵ３０１により実行されることにより、図２に機能ブロックとして示した各種機能を実現させるためのコードが記憶されることとなる。かかるコンピュータプログラムは、適宜の光ディスク、光磁気ディスク、フラッシュメモリ等の適宜のコンピュータ可読情報記録媒体に記録されて提供されても、Ｉ／Ｏ３０６を介して外部のインターネット等の情報通信回線を介して提供されてもよい。

図２に戻り、機械学習データ生成装置１は、その機能的構成として、仮想モデル生成部１０１、仮想センサ入力生成部１０２、仮想動作指令生成部１０３、シミュレータ１０４、達成状況評価部１０５、及び、機械学習データ生成部１０６を有している。さらに、機械学習装置２は、機械学習データ生成装置１及び学習部２０１を有している。

機械学習データ生成装置１は、物理的作業を行う特定の作業機械に即して用意されるものであり、その有する各機能は、当該作業機械と密接に関連している。また、機械学習装置２は、かかる作業機械が使用する機械学習モデルへの学習を行うものである。

ここで、本明細書に言う「物理的作業」は、対象物に対し、何らかの物理的な作用を及ぼす作業を指す。例えば、部品やパーツのピックアップ、部品の取りつけ（例えば、ベアリングのハウジングへの嵌め込みや、ねじの締結など）、梱包（菓子などの食品の箱詰めなど）、各種加工（バリ取りや研磨などの金属加工、食品などの柔軟物の成型や切断、樹脂成型やレーザー加工など）、塗装及び洗浄といった様々な作業が物理的作業には含まれる。また、「作業機械」は、同等又は類似の物理的作業を反復・継続的に行う自動機械を指す。

本実施形態に係る機械学習データ生成装置１及び機械学習装置２は、ある特定の物理的作業を行う作業機械に具体的に即したものとして構築される。物理的作業がどのようなものであり、作業機械の用途がなんであるかは特段限定されるものではないが、以降の理解を容易とする目的で、本実施形態に係る機械学習データ生成装置１及び機械学習装置２において想定される作業機械の例を図４に示す。

図３は、本実施形態に係る機械学習データ生成装置１及び機械学習装置２において想定される作業機械４の例を示す外観図である。本例では、作業機械４は、トレイである架台４０１に入れられた調理済みの唐揚げである対象物４０２を、ロボットであるオペレーティングマシン４０３により把持し、図示しない別の工程（例えば、容器への梱包）に移送する機械設備である。対象物４０２の位置や形状は、映像撮影装置であるセンサ４０４により画像データとして取り込まれ、かかる画像データに基づいて、コントローラ４０５によりオペレーティングマシン４０３の動作が制御される。

本明細書において、「対象物」は、物理的作業の対象となる物理的実体を指す。また、対象物４０２が載置される架台４０１は、トレイに限らず、コンベアやホッパ、自動万力や自律走行車など、その物理的作業や対象物４０２に応じた任意のものであってよい。センサ４０４は、対象物４０２に対し何らかのセンシングを行い、オペレーティングマシン４０３が物理的作業を実行するために必要な情報であるセンサ入力を得るために設けられる。センサ４０４もまた、その物理的作業や対象物に応じた任意のものであってよく、必ずしも本例のように画像データをセンサ入力とするものではなくともよい。オペレーティングマシン４０３は、対象物４０２に物理的作業を行う際に、対象物に物理的作用を及ぼす作用端を持つ機械であり、物理的作業に応じたものが用意される。図３に示した例では、汎用の縦型多関節ロボットがオペレーティングマシン４０３として示されているが、オペレーティングマシン４０３は、必ずしもいわゆる産業用ロボットを使用するものでなくともよい。

図５は、図４に示した作業機械４の機能的構成を示す構成図である。同図では、対象物４０２は作業機械４を構成する要素ではないので破線で示している。図５に示されるように、センサ４０４は、架台４０１上の対象物４０２に対してセンシングを行い、その結果得られるセンサ入力をコントローラ４０５に入力する。また、オペレーティングマシン４０３は、対象物４０２に対して物理的作業を行う。

コントローラ４０５は、センサ入力に基づいて、オペレーティングマシン４０３に物理的作業を行わせるよう制御するために必要な種々の機能を有しており、図５では、それらの機能のうち、オペレーティングマシン４０３に対する動作指令を生成する機能を有する部分を動作指令生成部４０６、オペレーティングマシン４０３に適切な動力その他を供給して制御する機能を有する部分をオペレーティングマシン制御部４０８として示した。

動作指令は、センサ４０４により検出された対象物４０２の状態に応じて変化するオペレーティングマシン４０３への動作の指令を意味している。本例のように、対象物４０２が不定形でなおかつ柔軟な唐揚げであれば、動作指令は、オペレーティングマシン４０３による把持の目標座標（ロボットハンドの目標位置及び目標角度）、把持力（及び／又はロボットハンドの挟み込み量）であってよく、さらに、ロボットハンドの移動経路やその他の指令を含むものであってもよい。オペレーティングマシン制御部４０８は、本例では、いわゆるロボットコントローラに該当する機能を有する部分であり、動作指令に従ってオペレーティングマシン４０３を動作させるために必要な動力の供給や帰還制御を行う。

すなわち、ここでいう動作指令は、必ずしも、オペレーティングマシン制御部４０８がオペレーティングマシン４０３を動作させるために実行する命令そのものを指すものでなくともよく、かかる命令を生成するための間接的な指令であってよい。上に示した目標座標はその典型的な例である。

本例のように、対象物４０２が、架台４０１上でのその位置及び姿勢が不定であるだけでなく、その形状も不定形であり、さらに柔軟性も有する場合には、決定的アルゴリズムによっては適切な動作指令を得ることがむつかしい。一般に、決定的アルゴリズムにより適切な解を得ることが困難な問題に対しては、機械学習を用い、適切に設計された機械学習モデルに対し、適切な機械学習データにより学習をさせることにより、高い確度で適切な解が得られる場合があることが知られている。そこで、本例の動作指令生成部４０６は、機械学習モデルである、ニューラルネットワークモデル４０７を有しており、センサ入力を必要に応じて適切な前処理を施した上でニューラルネットワークモデル４０７に入力し、出力として、動作指令を得るものとなっている。ニューラルネットワークモデル４０７は、いわゆる深層学習の手法により学習されたものであってよい。

このように、作業機械４では、適切に学習されたニューラルネットワークモデル４０７を有する動作指令生成部４０６により動作指令を生成することで、決定的アルゴリズムによっては適切な動作指令を得ることがむつかしい対象物４０２に対して、物理的作業をするための動作指令を高い確度で得るようにしている。

ところが、本例に示す唐揚げの例でも容易に理解できるように、動作指令生成部４０６のニューラルネットワークモデル４０７を十分に学習させるための、十分な数の適切な機械学習データを現実に用意することは容易ではない。なぜなら、本例に即していえば、機械学習データを現実に用意することとは、機械学習のために種々の形状や大きさを持つ対象物４０２、すなわち、調理済みの唐揚げを十分な数用意することに他ならないからである。また、仮に対象物４０２を用意したとしても、その対象物４０２に対する適切な動作指令は決定的アルゴリズムによっては得られないか、得るのがむつかしいため、対象物４０２に対して逐一オペレーティングマシン４０３を動作させて、その結果を評価して機械学習データとしなければならないが、そのような機械学習データを十分な数得るには、あまりに多大な時間とコストを要するため、現実的ではない。

本実施形態に係る機械学習データ生成装置１は、上述した作業機械４による対象物４０２に対する物理的作業を仮想的に実行することで、ニューラルネットワークモデルに対する十分な数の機械学習データを現実的な時間及びコストで生成するものである。また、本実施形態に係る機械学習装置２は、そのようにして生成された機械学習データによりニューラルネットワークモデルを学習させるものである。

再度図２に戻り、機械学習データ生成装置１及び機械学習装置２の各機能ブロックを詳細に説明する。

まず、仮想モデル生成部１０１は、対象物４０２の複数のバリエーションについての仮想対象物モデルを生成する部分である。ここで、対象物４０２は、先に説明したとおりの想定される物理的作業の対象となる物理的実体であり、その形状や大きさ、物理的性状は必ずしも一定ではなく、ある程度のばらつきがある。仮想モデル生成部１０１は、そのようなばらつきにより生じる多数の対象物１０２のバリエーションを、現実に作成することなく、仮想モデルとして生成する。以降、生成された対象物４０２の仮想モデルを、仮想対象物モデルと称する。仮想対象物モデルは、後ほど説明するシミュレータ１０４におけるシミュレーションに使用されるため、かかるシミュレーションを行うために必要な情報を持つモデルである必要がある。本例では、仮想対象物モデルは、その形状や大きさが特定される三次元モデルであり、さらに、重量（比重）、弾性率、摩擦係数といった物理的性状が設定されている。

図６は、本実施形態に係る仮想モデル生成部１０１の一例の詳細な構成を示す構成図である。本例では、仮想モデル生成部１０１は、ＶＡＥ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ）として知られる技術を用いている。そのため、仮想モデル生成部１０１は、ＶＡＥにより得られるデコーダ１０７を備えている。

デコーダ１０７には、潜在変数生成部１０８により生成された潜在変数ｚが入力される。潜在変数ｚはベクトル量であり、その次元数は、対象物４０２の複雑さに依存するものの、数十～数百次元としてよい。本例の潜在変数生成部１０８は、正規分布Ｎに従って、潜在変数ｚを確率的に生成するものとなっている。

ここで、図７を参照して、ＶＡＥについて簡単に説明する。ＶＡＥ自体は既知のものであるから、説明は最小限のものにとどめる。

ＶＡＥ５は、図７に示した構成をしており、エンコーダ５０１及びデコーダ５０２と称される２つのニューラルネットワークを有している。エンコーダ５０１は、データＸの入力を受け、潜在変数ｚを出力する。換言すれば、情報量の多いデータＸを、その本質的な特徴に着目して、次元数の低い潜在変数ｚに圧縮しているといえる。そして、潜在変数ｚは、ＶＡＥでは、正規分布Ｎに従うように設計される。

図２に戻り、仮想センサ入力生成部１０２は、仮想対象物モデルに基づいて仮想センサ入力を生成する。ここで、センサ入力は、図４を参照して説明したとおり、対象物４０２をセンサ４０４によりセンシングして得られる情報であり、仮想センサ入力は、かかるセンサ入力に相当するものとして仮想的に生成された情報のことである。すなわち、仮想センサ入力とは、仮想対象物モデルが、現実に存在する対象物４０２であった場合に、センサ４０４により得られるであろうセンサ入力を、仮想的に実現したものということもできる。

図８は、本実施形態に係る仮想センサ入力生成部１０２の一例の構成を示す構成図である。本例では、仮想センサ入力生成部１０２は、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）として知られる技術を用いている。そのため、仮想センサ入力生成部１０２は、ＧＡＮにより得られるジェネレータ１１１を備えている。

また、背景画像生成部１１３により、背景画像が別途生成される。背景画像生成部１１３は、作業機械４において現実的に有り得る背景画像を生成するものであり、その方法の一例として、作業機械４の架台４０１の複数の実際の写真から一枚を確率的に選択することが挙げられる。得られた平面投影画像および合成画像は、合成部１１４により合成され、合成画像とされる。

合成画像は、ジェネレータ１１１に入力される。ジェネレータ１１１は、入力された合成画像から、あたかも本物のセンサ４０４により得られたセンサ入力であるかのごとき仮想センサ入力を出力するニューラルネットワークである。これにより、確率的に生成された仮想対象物モデルに基づいて、本物のセンサ入力と区別のつきがたい仮想センサ入力が得られることになる。

ここで、図９を参照して、ＧＡＮについて簡単に説明する。ＧＡＮ自体もまた既知のものであるから、説明は最小限のものにとどめる。

ＧＡＮ６は、図９に示した構成をしており、ジェネレータ６０１及びディスクリミネータ６０２と称される２つのニューラルネットワークを有している。ジェネレータ６０１は、上述したように、合成画像の入力を受け、仮想センサ入力を出力する。一方、ディスクリミネータ６０２には、ジェネレータ６０１により生成された仮想センサ入力と、現実のセンサ４０４により得られた実センサ入力の両方が入力される。この時、ディスクリミネータ６０２には、入力されたデータが仮想センサ入力と実センサ入力のいずれであるかは知らされない。

ディスクリミネータ６０２の出力は、入力データが仮想センサ入力と実センサ入力のいずれであるかを判別するものである。そして、ＧＡＮ６では、あらかじめ用意したいくつかの仮想センサ入力と実センサ入力について、ディスクリミネータ６０２ではこの両者を正しく判別するように、また、ジェネレータ６０１では、ディスクリミネータ６０２においてこの両者が判別できないように繰り返し強化学習を行う。

この結果、最終的にはディスクリミネータ６０２においてこの両者が判別できない（例えば、仮想センサ入力と実センサ入力を同数用意した場合には、正答率が５０％となるなど）状態となり、かかる状態においては、ジェネレータ６０１は、合成画像に基づいて、実センサ入力と区別のつかない、あたかも現実のセンサ入力であるかのごとき仮想センサ入力を出力するものと考えられる。したがって、図８に示した仮想センサ入力生成部１０２では、このようにして学習させたジェネレータ１１１を用い、仮想センサ入力が生成されることになる。

なお、以上説明した仮想モデル生成部１０１及び仮想センサ入力生成部１０２の構成は一例であり、機械学習データ生成装置１及び機械学習装置２が想定する作業機械４に応じた適宜の構成としてよい。例えば、仮想モデル生成部１０１は、ＶＡＥを使用したものでなく、単に乱数で定めたパラメータに基づいて、所定のアルゴリズムにより仮想対象物モデルを生成するものであってもよい。また、仮想センサ入力生成部１０２は、ＧＡＮを使用したものでなく、レイトレーシングやフォトリアリスティックレンダリングといった既知のコンピュータグラフィクスの手法を用いて仮想センサ入力を生成するものであってもよい。さらには、想定される対象物４０２やセンサ４０４が異なれば、当然にそれらに適した構成の仮想モデル生成部１０１及び仮想センサ入力生成部１０２の構成を採用すべきである。本実施形態で説明した仮想モデル生成部１０１及び仮想センサ入力生成部１０２の構成は、対象物４０２が不揃いな三次元プロファイルを有し、センサ４０４が映像撮影装置である場合に特に有効である。

図２に戻り、仮想動作指令生成部１０３は、仮想対象物モデル及び仮想センサ入力の少なくともいずれかに応じて仮想動作指令を生成する。ここで、動作指令は、すでに説明したとおり、作業機械４において、センサ４０４により検出された対象物４０２の状態に応じて変化するオペレーティングマシン４０３への動作の指令であり、仮想動作指令は、かかる動作指令を仮想的に生成したものである。

仮想動作指令生成部１０３において生成される仮想動作指令は、作業機械４の動作指令生成部４０６と異なり、決定的アルゴリズムによって生成されるものであってもよい。仮想動作指令に要求されるものは、仮想対象物モデルが現実の対象物４０２であったとしたならば、かかる対象物４０２に対して物理的作業を実行可能である蓋然性が高いことである。なお、仮想動作指令によって、実際に、あるいは後述するように、シミュレーション上で、物理的作業が成功裏に実行されることは必ずしも必要ではない。

本例では、仮想動作指令生成部１０３は、仮想対象物モデル及び仮想センサ入力の両方を用い、仮想対象物モデル１０１からその重心位置と単軸方向及び単軸方向長さを演算して求め、仮想センサ入力から、かかる重心位置、単軸方向をオペレーティングマシン４０３の座標に変換して目標位置とし、単軸方向長さからロボットハンドの把持力を算出する。このように、仮想対象物モデルを利用すると、成功裏に物理的作業を実行可能である蓋然性の高い仮想動作指令が、比較的容易にかつ一意に生成される。

もちろん、仮想動作指令を生成する方法は上述べた方法に限られず、他の方法であってもよい。他の方法は、例示したものと同様に、決定的アルゴリズムを用いるものであってもよいし、後ほど説明するように、非決定的アルゴリズムによるものであってもよい。

さらには、オペレータ（人）が補助するものであってもよい。例えば、仮想センサ入力が画像である場合、当該画像をオペレータに提示し、仮想動作指令を生成するうえで目標となるポイントをオペレータに指示させるなど、仮想動作指令生成部１０３が、仮想対象物モデル及び仮想センサ入力の少なくともいずれかに応じて仮想動作指令を生成する際に、オペレータが介在する方法も選択できる。かかる方法では、人であるオペレータの経験や判断が簡易な方法により、仮想動作指令に反映される。いずれにせよ、仮想動作指令を生成する方法は対象物４０２や、センサ４０４等の性質に応じて適切なものを選択すればよい。

本実施形態に係る機械学習データ生成装置１は、さらに、シミュレータ１０４及び達成状況評価部１０５を有している。このシミュレータ１０４及び達成状況評価部１０５が、図１に示した仮想動作成否評価部１１６に該当している。

シミュレータ１０４は、物理的作業の物理シミュレーションを実行する。すなわち、シミュレータ１０４には、現実の作業機械４のオペレーティングマシン４０３の仮想モデルである仮想オペレーティングマシンモデルがあらかじめ用意されており、シミュレータ１０４の仮想空間上にかかる仮想オペレーティングマシンモデルと、仮想対象物モデルを配置し、仮想オペレーティングマシンモデルを仮想動作指令に従って動作させることにより、作業機械４が行う物理的作業を仮想空間上でシミュレートする。仮想オペレーティングマシンモデルと仮想対象物モデルの仮想空間上における配置は、当然に、仮想センサ入力生成部１０２において仮想センサ入力が生成された際の状況を再現したものとする。

物理シミュレーションに使用される物理演算エンジンは、想定している物理的作業に応じたものを用いればよい。本例のように、対象物４０２の把持を想定している場合には、衝突判定及びダイナミックシミュレーションを実行可能な物理演算エンジンを選択もしくは構築すればよいし、物理的作業が異なれば、当然に、流体シミュレーションや破壊シミュレーション、その他あらゆる物理現象をシミュレートする物理演算エンジンを適宜選択するか、構築することになる。

シミュレータ１０４におけるシミュレーションが完了すると、シミュレーションの結果は、達成状況評価部１０５によりその達成状況が評価される。ここで、「達成状況」とは、物理的作業の目的が達成された度合いを評価する指標である。この指標は、２値のものであってもよいし、連続的評価、段階的評価であってもよい。本例の場合であれば、把持に成功したか、失敗したかの２値評価を行えばよい。それ以外では、例えば、対象物２が不定形の肉塊であり、物理的作業がこの肉塊をｎ等分に切断することであれば、切断後の各肉片の重量のばらつきを達成状況としてよく、あるいはそのばらつきの程度や目的の達成に応じた段階的評価としてもよい。段階的評価としては、肉片の重量のばらつきの大きさにより、達成状況を不可、可、良の３段階評価としたり、切断に失敗した、切断には成功したが各肉片のばらつきが許容範囲外、切断に成功しかつ各肉片のばらつきが許容範囲内、といった、質的に異なる多段階評価としたりしてもよい。

すでに述べたとおり、シミュレータ１０４におけるシミュレーションの際には、物理演算エンジンを使用するため、複数のバリエーションに係る仮想対象物モデル、例えば唐揚げ、が上で例示したようにばら積みにされているようなケースでは、物理的作業の対象として選択された仮想対象物モデルと仮想オペレーティングマシンモデルとの相互作用のみならず、物理的作業の対象として選択されなかった他の仮想対象物モデルと仮想オペレーティングマシンモデルとの相互作用、例えば衝突による干渉についても達成状況に反映される。すなわち、単独の仮想対象物モデルに対してはその物理的性状のバリエーションを加味してなお成功裏に物理的作業が遂行できたであろうと考えられる仮想動作指令であっても、複数の仮想対象物モデルがばら積みされていることによる影響によりその作業が不成功となるケースも考えられるところ、本実施形態に係る機械学習データ生成装置１では、あたかも現実の物理的作業であるかのように、仮想空間における物理的作業の達成状況が正しく評価される。

最後に、機械学習データ生成部１０６において、仮想センサ入力生成部１０２により生成された仮想センサ入力と、仮想動作指令生成部１０３により生成された仮想動作指令と、達成状況評価部１０５により評価された達成状況を互いに紐づけ、機械学習データとする。

機械学習データ生成装置１では、仮想モデル生成部１０１により生成された、対象物４０２の複数のバリエーションについての仮想対象物モデルごとに１又は複数の機械学習データを生成することができ、多数の互いに異なる機械学習データが容易に、かつ、実用的な時間及びコストの範囲で得られる。そして、対象物４０２と、対象物４０２に対して想定される動作、すなわち、動作指令からは、成否が自明でない物理的作業の場合であっても、シミュレータ１０４による物理シミュレーションによって、その物理的作業の成否が高い確度で推定され、その評価結果が機械学習データに反映されることとなる。

そして、機械学習装置２は、上述の機械学習データ生成装置１及び学習部２０１を備えており、機械学習データ生成装置１により生成された機械学習データを用いて、作業機械４の動作指令生成部４０６において用いられるべきニューラルネットワークモデル４０７の学習を行う。学習部２０１は、機械学習データに基づいて、センサ入力を入力とし、動作指令を出力とするニューラルネットワークである、ニューラルネットワークモデルを、前記達成状況に応じて学習させる。したがって、機械学習装置２では、現実の物理的作業を必ずしも要することなく、実用的な時間及びコストの範囲で、物理的作業の成否を反映した機械学習がなされる。

図１０は、機械学習データ生成装置１により生成される機械学習データの構成の一例を示す図である。同図に示す一つ一つのレコードが一個の機械学習データに相当しており、各レコードには、仮想センサ入力、仮想動作指令及び、達成状況がふくまれる。以降の説明では、必要に応じ、同一のレコードに属する仮想センサ入力及び仮想動作指令には、レコード番号を末尾につけて区別する。

図１１は、学習部２０１の構成を示す構成図である。学習部２０１には、ニューラルネットワークモデル２０２が記憶されている。ニューラルネットワークモデル２０２は、学習が完了したのち、将来的に作業機械４の動作指令生成部４０６におけるニューラルネットワークモデル４０７としての使用が予定されているモデルである。

学習部２０１には、機械学習データが入力される。図１１では、機械学習データとしてレコードｎが入力された状態を示しており、レコードｎのうち、仮想センサ入力ｎはニューラルネットワークモデル２０２への設問、仮想指令ｎは、かかる設問に対する解答として、ニューラルネットワークモデル２０２の学習が行われる。この時、レコードｎの達成状況は、フィルタ２０３により係数ｋへと変換され、ニューラルネットワークモデル２０２の学習に用いられる。

係数ｋは、レコードｎの機械学習データによるニューラルネットワークモデル２０２の学習の可否、学習の方向の正負あるいはその強度を示すものである。したがって、学習部２０１は、ニューラルネットワークモデル２０２を、達成状況に応じて学習させているといえる。

学習時における具体的なｋの利用方法は必ずしも限定されない。一例として、学習部２０１が正方向の学習と、負方向の学習の両方を行うものである場合、それぞれの方向の学習を行うコードを別々に用意しておき、ｋの値に応じて、例えばｋ＞０であれば正の方向の学習用コードを実行し、ｋ＜０であれば負の方向の学習用コードを実行することが考えられる。なおこのケースにおいて、ｋ＝０の場合には、正負いずれの学習を行うかを任意に定めておいてもよいし、当該レコードによっては学習を行わないものとしてもよい。

あるいは、ニューラルネットワークモデル２０２の学習の際の（確率的）勾配降下法における学習率をηとした際に、既定の学習率をη_０として、

としてもよい。この場合、ｋを正とすると正の方向の学習が、ｋを負とすると負の方向の学習が行われ、ｋ＝０の場合には学習が行われないことになる。このような方法を用いると、フィルタ２０３の形状を適切に設計することにより、中間的な強度の学習を含め、学習の有無、正負及びその強度が自由に設計できる。

図１２は、フィルタ２０３の種々の形状の例を示す図である。同図に示す、（Ａ）のフィルタは、達成状況が「良」を示す場合には、正の方向の学習を行い、達成状況が「負」を示す場合には、負の方向の学習を行うものである。このように、ｋが正となる領域と、負となる領域の両方が含まれている場合、フィルタ２０３は、達成状況に応じて、機械学習データによる学習を正の方向の学習とするか負の方向の学習とするかを定める学習方向決定部として機能しているということができる。

（Ｂ）のフィルタは、達成状況が「良」を示す場合に限り、正の方向の学習のみを行うというものである。このように、ｋ＝０となる領域が含まれている場合、フィルタ２０３は、達成状況に応じて、機械学習データによる学習の可否を決定する学習可否決定部として機能しているということができる。

（Ｃ）のフィルタは、達成状況に応じて、係数ｋが連続的に変化するというものである。このように、ｋの値が中間的な値（１、０、－１でない値）となる領域が含まれている場合、フィルタ２０３は、達成状況に応じて、機械学習データによる学習の強度を定める学習強度決定部として機能としているということができる。また、このフィルタは同時に、ｋが正となる領域と負となる領域の両方を含んでおり、かつ、ｋ＝０となる領域もまた含んでいるため、フィルタ２０３は、学習方向決定部及び学習可否決定部としても同時に機能しているということができる。

（Ｄ）のフィルタは、達成状況に応じて、係数ｋが段階的に変化するというものである。この場合においても、（Ｃ）のフィルタと同様に、フィルタ２０３は、学習強度決定部、学習方向決定部及び学習可否決定部として同時に機能しているということができる。

なお、（Ｃ）及び（Ｄ）のフィルタにみられるように、達成状況が「良」でも「不良」でもないかその区別が明確でない場合に、ｋの値を０か、その付近の絶対値の小さい値とすることにより、学習精度を高めることに寄与しないかその寄与が少ない機械学習データにより無駄な学習がなされ、かえってニューラルネットワークモデル２０２の学習の妨げとなる事態が防止される。

以上説明したように、フィルタ２０３を適切に設計し、機械学習データに含まれる達成状況に応じて、学習の可否、方向及び強度の少なくともいずれかを定めることにより、シミュレータ１０４におけるシミュレーションの結果をニューラルネットワークモデル２０２の学習に適切に反映することができ、学習の効率化・収束の高速化が期待される。また、フィルタ２０３を用いて学習の可否や方向を定めるようにすると、学習の可否や方向ごとにコードを用意する必要がなく、機械学習装置２の生産性がよい。

なお、フィルタ２０３は学習部２０１において必ずしも必須の構成ではなく、達成状況をそのままニューラルネットワークモデル２０２の学習に用いるようにしてもよい。その場合には、フィルタ２０３として「１」が設けられているとみなすことができる。

図１３は、本実施形態に係る機械学習データ生成装置１及び機械学習装置２による、機械学習データ生成方法及び機械学習方法のフロー図である。同図に示したフローのうち、（１）の部分（ＳＴ１１～ＳＴ１７）が機械学習データ生成方法に該当し、（２）の部分（ＳＴ１１～ＳＴ１８）が機械学習方法に該当する。

まず、ＳＴ１１にて、仮想モデル生成部１０１により、対象物４０２の複数のバリエーションについての仮想対象物モデルを生成する。続くＳＴ１２では、仮想センサ入力生成部１０２により、仮想対象物モデルに基づいて仮想センサ入力を生成する。さらに、ＳＴ１３では、仮想動作指令生成部１０３により、仮想対象物モデル及び仮想センサ入力の少なくともいずれかに基づいて仮想動作指令を生成する。

ＳＴ１４では、シミュレータ１０４により、仮想オペレーティングマシンモデルと、仮想対象物モデルを用いて、仮想動作指令に基づいて物理的作業のコンピュータシミュレーションを実行する。そしてＳＴ１５にて、達成状況評価部１０５により、コンピュータシミュレーションの結果による物理的作業の目的の達成状況を評価する。ＳＴ１６へと進み、機械学習データ生成部１０６により、仮想センサ入力と、仮想動作指令と、達成状況に基づいて機械学習データを生成する。

生成された機械学習データはレコードとして蓄積される。ＳＴ１７において、レコード数、すなわち、蓄積された機械学習データの数が十分であるか否かを判断し、十分でなければ（ＳＴ１７：Ｎ）、ＳＴ１１へと戻り、繰り返し機械学習データの生成を行う。レコード数が十分であれば（ＳＴ１７：Ｙ）、ＳＴ１８へと進む。必要なレコード数は、あらかじめ目標数を定めておいてよい。あるいは、ＳＴ１８での機械学習の結果を評価し、学習が十分でない場合には、ＳＴ１１～ＳＴ１７を改めて実行し、機械学習データを追加で生成するようにしてもよい。機械学習の結果の評価は、学習部２０１におけるニューラルネットワークモデル２０２の内部状態の収束を評価することにより行ってもよいし、かかるニューラルネットワークモデル２０２にテストデータを入力し、得られた出力の正解率により行ってもよい。

ＳＴ１８では、学習部２０１により、生成された機械学習データに基づいて、ニューラルネットワークモデル２０２を、達成状況に応じて学習させる。このようにして、本実施形態では、作業機械４に適した、学習済みのニューラルネットワークモデル２０２を得る。

以上説明した本発明の第１の実施形態に係る機械学習データ生成装置１及び機械学習装置２では、仮想動作指令生成部１０３による仮想動作指令の生成方法として、仮想対象物モデル及び仮想センサ入力の両方を用いる決定的アルゴリズムを使用する方法を説明した。以下では、本発明の第２の実施形態に係る機械学習データ生成装置１及び機械学習装置２として、仮想動作指令生成部１０３による仮想動作指令の生成方法として、非決定的アルゴリズムを用いた一例を説明する。

図１４は、本発明の第２の実施形態に係る機械学習データ生成装置１を含む機械学習装置２の全体の構成を示す機能ブロック図である。なお、本実施形態の説明を容易とするため、先の実施形態と同一又は対応する構成には同一の符号を付し、重複する説明についてはこれを省略するものとする。

本実施形態に係る仮想動作指令生成部１０３は、ニューラルネットワークモデル１１５を有している。このニューラルネットワークモデル１１５は、学習部２０１が有しており、学習の対象となるニューラルネットワークモデル２０２と同様に、センサ入力（又は仮想センサ入力）を入力とし、動作指令（又は仮想動作指令）を出力とするものである。ニューラルネットワークモデル１１５とニューラルネットワークモデル２０２との関係は後述する。

ニューラルネットワークモデル１１５は、あらかじめある程度の学習が進められている。すなわち、何らかのセンサ入力または仮想センサ入力を入力すると、それなりの動作指令又は仮想動作指定を出力することができる。ここで、「それなり」という語は、ニューラルネットワークモデル１１５から出力された動作指令により作業機械４のオペレーティングマシン４０３を動作させ、あるいはニューラルネットワークモデル１１５から出力された仮想動作指令によりシミュレータ１０４によるシミュレーションを実行すると、物理的作業の目的を達成するか、達成するに至らなくとも、達成に近いと考えられる程度の結果が得られることを意味するものとして使用されている。

ニューラルネットワークモデル１１５を用いた推論は非決定的アルゴリズムであるから、本例は、非決定的アルゴリズムを用いた仮想動作指令生成部１０３による仮想動作指令の生成方法の一例を示している。決定的アルゴリズムにより、学習に用い得る程度にそれなりの仮想動作指令を得ることが困難又は難しい場合には、このような方法が有効である。

そして、仮想動作指令生成部１０３において用いられるニューラルネットワークモデル１１５と、学習部２０１において学習対象となるニューラルネットワークモデル２０２とは、本実施形態における機械学習データの生成及び機械学習の当初においては、同じものを用いてよい。例えば、作業機械４の実機を用い、数は必ずしも多くないものの、いくばくかの実物の対象物４０２を用いて学習させたニューラルネットワークモデル（図４にて示したニューラルネットワークモデル４０７であってよい）を初期モデルとして用いてよい。または、全く未学習のニューラルネットワークモデルを初期モデルとしてもよく、さらに、人為的に作成した機械学習データにより学習をある程度進めたニューラルネットワークモデルをこれらの初期モデルとしてもよい。

このようなニューラルネットワークモデル１１５を含む仮想動作指令生成部１０３を有する機械学習データ生成装置１を用いて機械学習データを生成し、さらに機械学習装置２によりかかる機械学習データを用いて機械学習を進めると、学習部２０１において、ニューラルネットワークモデル２０２の学習が進み、ニューラルネットワークモデル２０２により得られる動作指令又は仮想動作指令の精度、すなわち、かかる動作指令又は仮想動作指令を用いた時の物理的作業の目的が達成される見込み、は向上していくと考えられる。

そのようにニューラルネットワークモデル２０２の学習が進んだ段階で、複写部２０４は、ニューラルネットワークモデル２０２によってニューラルネットワークモデル１１５を上書きして更新する。これにより、仮想動作指令生成部１０３により生成される仮想動作指令の精度が漸増していくため、ニューラルネットワークモデル２０２の学習がより効率的に進み、収束が早くなるものと期待される。

複写部２０４によるニューラルネットワークモデル１１５の更新は、適宜のタイミングで行われてよい。例えば、一定のレコード数の機械学習データによる学習が行われるごとのタイミングとしてもよいし、ニューラルネットワークモデル２０２の学習の進み具合をモニタしておき、何らかの指標、例えば、収束率に基づくタイミングとしてもよい。

あるいは、１レコードごと、すなわち、一件の機械学習データによる学習が学習部２０１により行われるごとに、ニューラルネットワークモデル１１５を更新してもよい。その場合には、図１３に示した構成でなく、複写部２０４を設けずに、仮想動作指令生成部１０３及び学習部２０１が、メモリ上の共通のニューラルネットワークモデル１１５，２０２を直接参照する構成としてもよい。

以上説明した第１及び第２の実施形態においては、物理的作業としてオペレーティングマシン４０３による把持を例として説明したため、仮想センサ入力生成部１０２は、仮想対象物モデルの平面投影画像から仮想センサ入力を生成するものであったが、仮想センサ入力は、仮想対象物モデルに基づく限り、その生成手法に限定はなく、対象物４０２や物理的作業に応じた適切なものを選択し又は設計してよい。

一例として、物理的作業が金属部品のバリ取りのための研磨作業であり、得るべき動作指令が、バリの形状に応じた砥石の押し付け力の時間プロファイルである場合には、仮想センサ入力生成部１０２は、シミュレータ１０４を用いて、仮の動作指令により仮想対象物モデルに対するシミュレーションを行い、得られた加工反力の時間プロファイルを仮想センサ入力とするものであってもよい。これは、この例における作業機械４の実機がバリ取りを行う際に、所定の押し付け力による仮研磨を行い、その際の反力に基づいて仕上げ研磨の押し付け力の時間プロファイルを設定するものであることに対応している。

図１５は、本発明の第３の実施形態に係る機械学習データ生成装置１を含む機械学習装置２の全体の構成を示す機能ブロック図である。なお、本実施形態においても、先の実施形態と同一又は対応する構成には同一の符号を付し、重複する説明についてはこれを省略するものとする。

本実施形態における機械学習データ生成装置１では、図１に示した仮想動作成否評価部１１６が、干渉評価部１１７となっている点が、先に説明した第１及び第２の実施形態と相違している。

干渉評価部１１７は、仮想動作指令生成部１０３により生成された仮想動作指令に基づいてなされるオペレーティングマシン４０３による物理的作業の動作の成否を、仮想空間において、物理的作業の実行時における、オペレーティングマシン４０３と、仮想対象物モデルとの干渉の有無を評価することによって行う。

すなわち、仮想対象物モデルの物理的性状のばらつきが、例えば、前述の唐揚げの例のように大きくないケースも考えられ、物理的作業の性質によっては、単独の仮想対象物モデルに対する指令が正しくなされていれば、その結果の予測可能性が高い場合も想定されるところ、かかる物理的作業については、物理シミュレーションを用いてその達成状況を評価する必要性は乏しいと考えられる。

しかしながら、複数の仮想対象物モデルがばら積みの状態にあると、単独の仮想対象物モデルに対してはその物理的作業が成功裏に実行されることが期待される仮想動作指令であっても、隣接する複数の仮想対象物モデルが存在することによって、物理的作業が失敗するケースが生じる。具体的には、オペレーティングマシン４０３と、その物理的作業の対象となっていない他の仮想対象物モデルが干渉して作業が失敗し得る。

物理的作業が上述のような性質を持っていると考えられる場合には、機械学習データを生成するにあたって、仮想動作指令による物理的作業の成否の評価は依然として必要である一方、オペレーティングマシン４０３による物理的作業全体の物理シミュレーションまでは必要でないと考えられる。したがって、仮想動作成否評価部１１６として、干渉評価部１１７を用い、必要な時点におけるオペレーティングマシン４０３と、仮想対象物モデルとの干渉の有無を評価することによって、現実の物理的作業を要さずに、成否が自明でない物理的作業の成否を反映した機械学習データが得られるとともに、物理シミュレーションを行う場合に比して、その計算負荷及び所要時間を大幅に削減することが期待できる。

そのため、干渉評価部１１７は、物理的作業の実行時における、オペレーティングマシン４０３と、仮想対象物モデルとの干渉の有無を評価する。ここでいう物理的作業の実行時とは、仮想空間において物理的作業が実行される期間を意味しており、この期間におけるいずれか一又は複数の時点における干渉の有無が評価されることとなる。この時点をどの時点とするかは、物理的作業の性質によって定めるべきものであり、例えば、この後例示するように、鉛直上方からのピックアップ作業であれば、仮想対象物モデルを把持しようとする時点であるし、干渉が生じやすいタイミングが複数存在する物理的作業に対しては、それぞれのタイミングを干渉の有無を評価する時点とすればよい。

本実施形態に係る機械学習データ生成装置１を含む機械学習装置２に係る物理的作業の具体例として、図１６に示すような、架台４０１上にばら積みにされた複数の部品４０９を対象物４０２として、平行グリッパをエンドエフェクタとして搭載した産業用ロボットをオペレーティングマシン４０３として用い、ピックアップを行う場合を考える。同図は、図１５の仮想モデル生成部１０１により生成された仮想対象物モデルを図示したものである。

部品４０９は機械部品などの剛性品を想定しており、ここでは、Ｔ字状の金属部材を例示している。そして、平行グリッパにより、Ｔ字の縦棒に相当する突出部を把持位置として、ピックアップ作業を行うものとする。このとき、部品４０９は架台４０１上に不規則に重なり合あって積まれているため、把持位置が他の部品４０９の下側に入り込んでいたり、下方向を向いていたり、隣接する部品４０９が邪魔となり、平行グリッパに干渉するため、ピックアップ作業を成功裏に実行できない態様で積まれている部品４０９が相当数存在することになる。

図１５の仮想動作指令生成部１０３に対しては、あらかじめ、単独の部品４０９の仮想対象物モデルに対して、物理的作業を実行できると考えられるオペレーティングマシン４０３の目標値を与えておく。図１７は、本例における、仮想動作指令生成部１０３に対して与える目標値の例である。同図に示すように、部品４０９に対して、オペレーティングマシン４０３の座標、すなわち、エンドエフェクタである平行グリッパの空間内での位置範囲４１０の中にあり、なおかつ、平行グリッパの姿勢、すなわち、空間内での角度が部品４０９に対して角度範囲４１１の中にあるならば、オペレーティングマシン４０３は、部品４０９を成功裏にピックアップできると考えられる。

なお、この目標値、すなわち、位置範囲４１０及び角度範囲４１１は本例では単純に、対象となる仮想対象物モデルに対する相対範囲として与えているが、この目標値の範囲の与え方は任意でよく、他の方式を用いてもよい。一例として、ユーザが適宜のＧＵＩ（グラフィカルユーザインタフェース）を用いて、図１７に示したような仮想対象物モデルに対する相対的な位置範囲４１０及び角度範囲４１１をあらかじめ指定するだけでなく、かかる位置範囲４１０及び角度範囲４１１からなる集合に対して、力学解析を行うことによって得られた位置及び角度の範囲からなる集合と、平行グリッパと単独のモデルが干渉しない把持位置及び姿勢の範囲からなる集合のいずれか又は両方との積集合を目標値とするなどしてもよい。

ただし、この位置範囲４１０及び角度範囲４１１は、対象となる部品４０９を単独のものと考えて設定されるものであるため、図１６のように複数の部品５０９がばら積みされている状況では、特定の部品４０９について得られる位置範囲４１０及び角度範囲４１１の一部または全てについて、物理的作業が実行できないものが含まれる。他の部品４０９との干渉を考慮しないとしても、平行グリッパの姿勢が、オペレーティングマシン４０３の機構上実現不能な場合、例えば、架台４０９の下から部品４０９にアプローチするような姿勢や、オペレーティングマシン４０３の可動範囲外となる姿勢は、その目標値を仮想動作指令から除外される。

その結果、仮想動作指令生成部１０３により、仮想モデル生成部１０１により生成された部品４０９の仮想対象物モデルそれぞれについて、図１８に示すように、一又は複数の、仮想動作指令である目標値Ａ_１・・・Ａ_ｎが生成される。

ここで、ｎは仮想モデル生成部１０１により生成された仮想対象物モデルの個数であり、目標値Ａに付された添字は、生成された仮想対象物モデルを識別する番号である。従って、目標値Ａ_１は、１番目の仮想対象物モデルについて生成された仮想動作指令を示しており、２番目以降ｎ番目まで以下同様である。

本実施形態では、目標値Ａは、オペレーティングマシン４０３に対する動作指令が取り得る値の範囲を示す動作指令値空間（ｘ，θ）における正解範囲を示すものとなっている。ここで、ｘ，θはオペレーティングマシン４０３によりエンドエフェクタが取り得る位置及び姿勢を示すベクトルであり、ｘはここでは三次元直交座標ｘ，ｙ，ｚを、θはオイラー角α，β，γを示すものとする。したがって、目標値Ａは、６次元空間において分布する値をマッピングする多次元行列である。

具体的には、図１８中の目標値Ａ_１、目標値Ａ_２、目標値Ａ_３について斜線を施した領域として模式的に示した動作指令値空間（ｘ，θ）の特定の領域４１２が正解範囲を示す。すなわち、オペレーティングマシン４０３の移動先位置及び姿勢として、この斜線で示した領域４１２に座標ｘ，ｙ，ｚ，α，β，γが入っていれば、目標となった仮想対象物モデルに対しては物理的作業が可能、すなわち、平行グリッパによるピックアップが可能と考えられる。

領域４１２は、仮想モデル生成部１０１により生成された仮想対象物モデルの仮想空間中の座標に基づいて、図１７に示した目標値の範囲を定めることにより得られる。そして、目標値Ａの具体的な構造は種々のものが考えられるが、ここでは、動作指令値空間（ｘ，θ）を所定の分解能で区分し、それぞれの区分が、領域４１２に該当する場合には「１」を、領域４１２の外である場合には「０」を与えるなどするとよい。領域４１２の境界に位置する区分は、「１」又は「０」のいずれかとするか、あるいは当該区分に含まれる領域４１２の体積に応じて、０～１の間の値を与える。

このようにして仮想動作指令生成部１０３により生成された特定の仮想対象物モデルについての目標値Ａは、他の仮想対象物モデルとの干渉による影響を考慮したものではない。そこで、本実施形態では、さらに、干渉評価部１１７によりオペレーティングマシン４０３と、仮想対象物モデルとの干渉の有無を評価する。

干渉の有無の評価は、仮想空間中の特定の仮想対象物モデルに対して、オペレーティングマシン４０３を配置した時点での、オブジェクト同士の重なりが生じるか否かを判別することにより行う。図１９は、仮想空間中における干渉の有無の評価を評価している様子を説明する図である。同図は、ある特定の仮想対象物モデルである部品４０９に対し、オペレーティングマシン４０３の３Ｄモデル、ここではその先端に設けられた平行グリッパであるエンドエフェクタ４１３が配置されている様子を模式的に示している。なお、部品４０９とエンドエフェクタ４１３との位置関係がわかりやすいように、同図ではエンドエフェクタ４１３はワイヤフレームモデルとして示されている。

ここで、エンドエフェクタ４１３は、特定の目標値Ａにより示された位置及び姿勢に配置される。そして、この状態において、エンドエフェクタ４１３を構成する３Ｄオブジェクトと、図示されていない他の部品４０９を含めた部品４０９の３Ｄオブジェクトとの積集合を求め、結果が空集合でないなら干渉が生じており、この目標値Ａに含まれる位置及び姿勢による物理的作業は実行できないことがわかる。

かかる干渉の有無の評価を得られた目標値Ａの全てに対して行う。その結果、評価を加味した仮想動作指令、すなわち、得ようとする機械学習データを構成する解答データが生成される。図２０は、目標値Ａに評価が加味されることにより得られた解答データの例を模式的に示す図である。

図２０に示した解答データは、図１８に示された目標値に干渉の有無の評価を加味したものである。より具体的には、仮想動作指令生成部１０３により生成された目標値Ａに含まれる目標値の範囲である領域４１２のうち、干渉によって物理的作業が実行不能である部分を削除することによって得られたものである。

図２０の例では、目標値Ａ_１については、干渉によって物理的作業が実行不能である部分が存在しないため、その領域４１２に変化はない。これに対し、目標値Ａ_２は、一部干渉が生じる部分が存在したため、領域４１２は部分的に削除されて小さくなっている。目標値Ａ_３は、その領域全てが干渉を生じるため、領域４１２は削除されもはや存在しない。同様に、得られた目標値Ａの全てに対して干渉を加味して領域４１２を修正する。

図１５に戻り、機械学習データ生成部１０６は、仮想センサ入力生成部１０２により生成された仮想センサ入力を問題データとし、干渉評価部１１７から得られた解答データと対にすることにより機械学習データを生成する。したがって、学習部２０１により学習を受ける機械学習モデルは、現実のセンサ入力を入力されると、図２０に示したと類似の目標値Ａを出力するように学習がなされるから、出力された目標値Ａに基づいて現実のオペレーティングマシン４０３を動作させることにより、干渉を生じることなく物理的作業、すなわち、物品４０９のピックアップが実行できるものと期待できる。

なお、上の説明では、ある特定の目標値Ａにおいて、その領域４１２に部分的に干渉が生じる部分があると評価された場合には、領域４１２から該当する部分を削除して解答データを作成しるものとしたが、一部分、又はある一定割合以上領域４１２に干渉が生じる部分がある場合には、領域４１２全てを削除する対応としてもよい。また、解答データとしては、少なくとも領域４１２が残存する目標値Ａのみを用い、領域４１２が存在しない目標値Ａ（例えば、図２０の目標値Ａ_３）は用いないものとしてもよい。あるいは、領域４１２が存在しない目標値Ａをも解答データとして用いてもよいし、目標値Ａ_１～Ａ_ｎの和集合を解答データとして用いてもよい。

また、上の説明では、３Ｄオブジェクト間の論理演算を用いて干渉の有無を評価していたが、これ以外の方法、例えば、より簡易な方法を用いてもよい。例えば、１又は複数の所定の断面における干渉の有無を評価する方法を用いてもよい。

一例として、図１９に示したＰ－Ｐ断面及びＱ－Ｑ断面の２つの断面を用いて評価する方法を図２１を参照して説明する。図２１に示したＰ－Ｐ断面において、部品４０９が存在する領域に対して、斜線を施して示した領域が、オペレーティングマシン４０３のエンドエフェクタ４１３が存在する領域である。

従って、この斜線を施した領域に、他の部品４０９が存在していなければ、Ｐ－Ｐ断面において干渉は生じていないと評価できる。同様に、Ｑ－Ｑ断面においても、斜線を施して示したエンドエフェクタ４１３が存在する領域に、他の部品４０９が存在していなければ、Ｑ－Ｑ断面において干渉は生じていないと評価できるから、Ｐ－Ｐ断面とＱ－Ｑ断面の双方において干渉が生じていなければ、干渉は生じないと評価する。

評価する断面の数およびその位置や向きは任意であり、部品４０９やオペレーティングマシン４０３の形状に応じて適宜定めてよい。このように、断面における干渉の有無を評価する方法は、２次元平面における干渉の有無の判別により全体の干渉の評価ができるため、３次元空間における干渉の有無の判別に比して情報処理の負荷を低く抑えることができる。一方で、複雑な形状をもつ部品４０９やオペレーティングマシン４０３に対しては、先に説明した３次元空間における干渉の有無の判別を行う方法の方が、正確に干渉の有無を評価できる。

以上本実施形態において説明したように、仮想動作指令として、オペレーティングマシン４０３の動作指令値空間における領域４１２を示す目標値を用いることで、仮想対象物モデル毎に目標値を生成でき、また干渉の有無の評価を加味して容易に機械学習データを構成する解答データが得られる。

以上説明した機械学習装置２により得られた学習済みのニューラルネットワークモデル２０２を搭載することにより、高い確度で目的を達成する作業機械４が得られる。図２２は、かかる作業機械４の製造工程を示すフロー図である。

まず、ＳＴ２１にて、架台４０１、オペレーティングマシン４０３、センサ４０４、コントローラ４０５と、その他、作業機械４を構成するにあたって必要な機器を用意する。この際、各機器の接続や接合、配線など作業機械４を物理的に構成する際に必要な作業を行う。

続いて、ＳＴ２２にて、図１３の（２）に示したフローに従い、機械学習データを生成し、かかる機械学習データに基づいて機械学習を行い、学習済みのニューラルネットワークモデル２０２を得る。

最後に、ＳＴ２３にて、得られたニューラルネットワークモデル２０２を作業機械４の動作指令部４０６に複写してニューラルネットワークモデル４０７とする。このような方法により、現実の物理的作業による学習を行うことなく、または現実の物理的作業による学習を低減して、対象物と、対象物に対して想定される動作からは、その物理的作業の成否が自明でない物理的作業を行う作業機械４が製造される。

そして、図２に示した機械学習装置２と、図４及び図５に示した作業機械４を含む作業システムを観念すると、かかる作業システムにおいては、機械学習装置２により、現実の物理的作業による学習を行うことなく、または現実の物理的作業による学習を低減して、物理的作業についての機械学習がなされ、作業機械４においては、かかる機械学習の成果を反映した物理的作業がなされる。したがって、かかる作業システムを用いることにより、現実的なコスト及び時間の範囲内において、対象物と、対象物に対して想定される動作からは、その物理的作業の成否が自明でない物理的作業が自動かつ高精度に実行される。

また、以上説明した第１～第３の各実施形態に係る機械学習装置２においては、機械学習データ生成装置１により生成された機械学習データに基づいて、学習部２０１においてセンサ入力を入力とし動作指令を出力とするニューラルネットワークの学習を行うものとして説明したが、機械学習データ生成装置１により生成される機械学習データの使用方法は必ずしも上述のものに限定されない。例えば、機械学習データ生成装置１により生成された機械学習データに含まれる仮想センサ入力から仮想動作指令を一又は複数生成し、生成された仮想動作指令を、同機械学習データに含まれる解答データに基づいて選択しあるいは評価するニューラルネットワークモデルの学習に用いてもよい。同様に、同機械学習データに含まれる解答データをそのままの形でニューラルネットワークモデルの学習に用いるのではなく、解答データを別の形に変換し若しくは解答データから別のデータを生成してニューラルネットワークモデルの学習に用いるなどしてもよい。

Claims

仮想空間において、ロボットのピックアップ作業の対象となる複数の対象物の仮想モデルである仮想対象物モデルをばら積みの状態で配置する仮想モデル生成部と、
複数の前記対象物に対するセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、ばら積みの状態で配置された複数の前記仮想対象物モデルに基づいて生成する仮想センサ入力生成部と、
前記対象物に対して与えられた前記ロボットの動作の目標値範囲及び、ばら積み状態で配置された複数の前記仮想対象物モデルの一又は複数に基づいて、前記ロボットに対する動作指令を仮想的に生成したものである、仮想動作指令の目標値範囲を生成する仮想動作指令生成部と、
前記仮想空間において、前記仮想動作指令による前記ロボットのピックアップ作業の成否を評価する仮想動作成否評価部と、
前記仮想センサ入力を問題データとし、前記仮想動作指令の目標値範囲に前記ロボットのピックアップ作業の成否を加味して得る解答データと対にすることにより、機械学習データを生成する機械学習データ生成部と、
を有する機械学習データ生成装置。
前記対象物は、突出部を有する機械部品である、
請求項１に記載の機械学習データ生成装置。
前記動作の目標値範囲には、前記ロボットのエンドエフェクタが成功裏に前記対象物をピックアップできる位置範囲が含まれる、
請求項１に記載の機械学習データ生成装置。
前記動作の目標値範囲には、前記ロボットのエンドエフェクタが成功裏に前記対象物をピックアップできる角度範囲が含まれる、
請求項１に記載の機械学習データ生成装置。
前記動作の目標値範囲を、ユーザが前記仮想対象物モデルに対する相対的な範囲として指定する、
請求項１に記載の機械学習データ生成装置。
前記仮想動作成否評価部は、前記仮想空間において、前記仮想動作指令の目標値範囲内の目標値により示された位置及び姿勢の前記ロボットのエンドエフェクタと、ばら積み状態で配置された複数の前記仮想対象物モデルとの干渉の有無を評価する、
請求項１に記載の機械学習データ生成装置。
前記機械学習データ生成部は、ばら積み状態で配置された複数の前記仮想対象物モデルそれぞれについて生成された前記仮想動作指令の目標値範囲から、前記干渉によって前記ロボットのピックアップ作業が実行不能である部分を削除することによって前記解答データを得る、
請求項６に記載の機械学習データ生成装置。
前記機械学習データ生成部は、さらに、ばら積み状態で配置された複数の前記仮想対象物モデルそれぞれについて得られた、前記仮想動作指令の目標値範囲から、前記ロボットのピックアップ作業が実行不能である部分を削除することによって得られた範囲の和集合として前記解答データを得る、
請求項７に記載の機会学習データ生成装置。
仮想空間において、ロボットのピックアップ作業の対象となる複数の対象物の仮想モデルである仮想対象物モデルをばら積みの状態で配置し、
複数の前記対象物に対するセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、ばら積みの状態で配置された複数の前記仮想対象物モデルに基づいて生成し、
前記対象物に対して与えられた前記ロボットの動作の目標値範囲及び、ばら積み状態で配置された複数の前記仮想対象物モデルの一又は複数に基づいて、前記ロボットに対する動作指令を仮想的に生成したものである、仮想動作指令の目標値範囲を生成し、
前記仮想空間において、前記仮想動作指令による前記ロボットのピックアップ作業の成否を評価し、
前記仮想センサ入力を問題データとし、前記仮想動作指令の目標値範囲に前記ロボットのピックアップ作業の成否を加味して得る解答データと対にすることにより、機械学習データを生成する、
機械学習データ生成方法。
コンピュータを、
仮想空間において、ロボットのピックアップ作業の対象となる複数の対象物の仮想モデルである仮想対象物モデルをばら積みの状態で配置する仮想モデル生成部と、
複数の前記対象物に対するセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、ばら積みの状態で配置された複数の前記仮想対象物モデルに基づいて生成する仮想センサ入力生成部と、
前記対象物に対して与えられた前記ロボットの動作の目標値範囲及び、ばら積み状態で配置された複数の前記仮想対象物モデルの一又は複数に基づいて、前記ロボットに対する動作指令を仮想的に生成したものである、仮想動作指令の目標値範囲を生成する仮想動作指令生成部と、
前記仮想空間において、前記仮想動作指令による前記ロボットのピックアップ作業の成否を評価する仮想動作成否評価部と、
前記仮想センサ入力を問題データとし、前記仮想動作指令の目標値範囲に前記ロボットのピックアップ作業の成否を加味して得る解答データと対にすることにより、機械学習データを生成する機械学習データ生成部と、
を有する機械学習データ生成装置として動作させるコンピュータプログラム。