JP2021070136A

JP2021070136A - 制御装置、制御方法およびプログラム

Info

Publication number: JP2021070136A
Application number: JP2019200061A
Authority: JP
Inventors: 金子　敏充; Toshimitsu Kaneko; 敏充金子; 田中　達也; Tatsuya Tanaka; 達也田中; 関根　真弘; Masahiro Sekine; 真弘関根
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2021-05-06
Anticipated expiration: 2039-11-01
Also published as: JP7273692B2; US20210129319A1

Abstract

【課題】物品などの対象物を移動させる処理をより効率的に実行可能とする。【解決手段】制御装置は、取得部と、推論部と、ロボット制御部と、を備える。取得部は、ロボットが把持する対象となる対象物の状態を示す第１状態情報と、対象物の移動先の状態を示す第２状態情報と、を取得する。推論部は、第１状態情報および第２状態情報を第１ニューラルネットワークに入力し、第１ニューラルネットワークの出力から、対象物を把持するときのロボットの位置および姿勢をそれぞれ示す第１位置および第１姿勢と、対象物の移動先でのロボットの位置および姿勢をそれぞれ示す第２位置および第２姿勢と、を含む第１出力情報を得る。ロボット制御部は、第１出力情報に基づいてロボットの動作を制御する。【選択図】図２

Description

本発明の実施形態は、制御装置、制御方法およびプログラムに関する。

ロボットによる物品の箱詰めおよび荷積み作業において、保管スペースおよび運搬を効率化するために、箱詰めおよび荷積み後の容器の充填率を増加させることが求められている。箱詰め対象物の種類および割合に応じて充填率の高い箱詰めを行えるようにする技術として、機械学習を用いて箱詰め位置を決定する技術が提案されている。

Haoyuan Hu, Xiaodong Zhang, Xiaowei Yan, Longfei Wang, Yinghui Xu, "Solving a new 3D bin packing problem with deep reinforcement learning method" arxiv:1708.05930, 2017. Alexandre Laterre, yunguan Fu, Mohamed Khalil Jabri, Alain-Sam Cohen, David Kas, Karl Hajjar, Torbjorn S. Dahl, Amine Kerkeni, Karim Beguir "Ranked reward: Enabling self-play reinforcement learning for combinatorial optimization" arxiv:1807.01672, 2018. Richard S. Sutton and Andrew G. Barto, "Reinforcement Learning: An Introduction" second edition, MIT Press, Cambridge, MA, 2018.

本発明が解決しようとする課題は、物品などの対象物を移動させる処理をより効率的に実行可能とすることである。

実施形態の制御装置は、取得部と、推論部と、ロボット制御部と、を備える。取得部は、ロボットが把持する対象となる対象物の状態を示す第１状態情報と、対象物の移動先の状態を示す第２状態情報と、を取得する。推論部は、第１状態情報および第２状態情報を第１ニューラルネットワークに入力し、第１ニューラルネットワークの出力から、対象物を把持するときのロボットの位置および姿勢をそれぞれ示す第１位置および第１姿勢と、対象物の移動先でのロボットの位置および姿勢をそれぞれ示す第２位置および第２姿勢と、を含む第１出力情報を得る。ロボット制御部は、第１出力情報に基づいてロボットの動作を制御する。

第１の実施形態にかかるロボットシステムの構成例を示す図。第１の実施形態にかかる制御装置の機能ブロック図。ニューラルネットワークの構成例を示す図。第１の実施形態における制御処理の一例を示すフローチャート。パラメータを学習する際のニューラルネットワークの構成例を示す図。第１の実施形態における学習処理の一例を示すフローチャート。表示部に表示される表示画面の一例を示す図。第２の実施形態にかかる制御装置の機能ブロック図。第２の実施形態における制御処理の一例を示すフローチャート。第２の実施形態における学習処理の一例を示すフローチャート。第１または第２の実施形態にかかる制御装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる制御装置の好適な実施形態を詳細に説明する。以下では、物品（対象物の一例）を把持し、把持した物品を移動して容器（移動先の一例）に詰める機能を有するロボットを制御するロボットシステムについて主に説明する。適用可能なシステムはこのようなロボットシステムに限られない。

上記のようなロボットシステムでは、ロボットは箱詰めの対象物をどのように把持したかにより、箱詰め可能な位置および姿勢に制限が生じることがある。従って、必ずしも計画した通りにロボットが箱詰めできるとは限らない。また、把持位置と箱詰め位置との組み合わせによっては、対象物を移動する動作を計画する際に特異点等の理由により効率的な動作が生成できず、ロボットの動作に時間がかかる場合がある。この結果、箱詰め作業の作業時間が長くなる場合がある。箱詰めの対象物を把持した後に、箱詰め可能な位置の中から最適な箱詰め位置を決定することは可能である。しかし、このような技術では、既に把持の仕方は決定されているため、あらゆる把持位置と箱詰め位置との組み合わせの中で最適な組み合わせを選択することはできない。

（第１の実施形態）
第１の実施形態にかかる制御装置は、箱詰めの対象物の把持の位置および姿勢（把持位置・姿勢）と、箱詰めの位置および姿勢（箱詰め位置・姿勢）とを併せて計画（推論）する。これにより、ロボットにより実行可能で、充填率の高い、または、箱詰め作業時間の短い効率的な箱詰めを計画可能となる。ロボットにより実行可能であるとは、例えば、容器および他の物体に干渉することなく対象物を箱詰め可能であることを意味する。

図１は、第１の実施形態にかかる制御装置１２０を含むロボットシステムの構成の一例を示す図である。図１に示すように、本実施形態のロボットシステムは、ロボット１００と、生成部１１０と、生成部１１１と、制御装置１２０と、ネットワーク１３０と、表示部１４０と、入力部１５０と、容器１６０と、容器１７０と、シミュレータ１８０と、を備える。

ロボット１００は、操作の対象物１６１を容器１６０から容器１７０へ移動させる機能を有するロボットである。ロボット１００は、多関節ロボット、直行ロボット、および、これらの組み合わせ等により構成することができる。以下では、ロボット１００が多関節アーム１０１、エンドエフェクタ１０２、および、複数のアクチュエータ１０３を備える多関節ロボットである場合を例に説明する。

エンドエフェクタ１０２は、対象物（例えば物品）を移動させるために、多関節アーム１０１の先端に取り付けられる。エンドエフェクタ１０２は、例えば対象物を把持可能なグリッパー、および、真空式ロボットハンドなどである。多関節アーム１０１およびエンドエフェクタ１０２は、アクチュエータ１０３による駆動に応じて制御される。より具体的には、多関節アーム１０１は、アクチュエータ１０３による駆動に応じて、移動、回転、および、伸縮（すなわち関節間の角度の変更）等を行う。エンドエフェクタ１０２は、アクチュエータ１０３による駆動に応じて、対象物の把持（グリップまたは吸着）、および、把持の解除（リリース）を行う。

制御装置１２０は、ロボット１００の動作を制御する。制御装置１２０は、コンピュータ、および、ロボット１００の動作を制御するための専用の制御装置等として実現され得る。制御装置１２０の機能の詳細は後述する。

ネットワーク１３０は、ロボット１００、生成部１１０、生成部１１１、および、制御装置１２０などの構成要素を接続する、例えば、ＬＡＮ（ローカルエリアネットワーク）およびインターネットなどのネットワークである。ネットワーク１３０は、有線ネットワークおよび無線ネットワークのいずれであってもよい。ロボット１００、生成部１１０、生成部１１１、および制御装置１２０は、ネットワーク１３０を介してデータ（信号）を送受信できる。なお、データの送受信は、ネットワーク１３０を介することなく、コンポーネント間の直接的な有線接続または無線接続を用いて行われてもよい。

表示部１４０は、制御装置１２０による各種処理で用いられる情報を表示するための装置である。表示部１４０は、例えば、液晶ディスプレイ（ＬＣＤ）等の表示装置により構成できる。表示部１４０は、ロボット１００に関する設定、ロボット１００の状態、および、ロボット１００による作業状況等を表示し得る。

入力部１５０は、キーボード、および、マウス等のポインティングデバイスを含む入力装置である。表示部１４０および入力部１５０は、制御装置１２０内に組み込まれていてもよい。

ロボット１００は、容器１６０（第１容器）に設置された対象物を把持し、容器１７０（第２容器）に詰め込む作業を行う。容器１７０は、空の場合もあるし、既に対象物１７１が詰め込まれている場合もある。容器１６０は、例えば倉庫内で物品を保存または移動するための容器（コンテナ）である。また、容器１７０は、例えば出荷等の用途に用いられる容器（コンテナ）である。容器１７０は、例えば段ボール箱、および、運送用のパレット等である。

容器１６０および容器１７０は、それぞれ作業台１６２および作業台１７２の上に配置されている。容器１６０および容器１７０は、それぞれを搬送可能なベルトコンベア上に配置されてもよい。その場合、容器１６０および容器１７０は、ベルトコンベアの動作によりロボット１００が動作可能な範囲に配置される。

また、容器１６０および容器１７０の少なくとも一方を使用せず、例えば、ベルトコンベアまたは台車などの作業領域（移動先の一例）に対象物１６１および／または対象物１７１を直接配置するように構成してもよい。

生成部１１０は、対象物１６１の状態を示す状態情報（第１状態情報）を生成する。生成部１１１は、対象物１６１の移動先の状態を示す状態情報（第２状態情報）を生成する。生成部１１０および生成部１１１は、例えば画像を生成するカメラ、および、デプス画像（デプスデータ）を生成する距離センサ等である。生成部１１０および生成部１１１は、ロボット１００を含む環境内（例えば室内の柱、および、天井等）に設置されていてもよいし、ロボット１００に取り付けられていてもよい。

作業台１６２と並行な平面をＸＹ平面とし、ＸＹ平面と垂直な方向をＺ軸とする３次元座標を用いる場合、画像は、例えばＺ軸と平行な方向を撮像方向とするカメラにより生成される。また、デプス画像は、例えばＺ軸と平行な方向を測距方向とする距離センサにより生成される。例えばデプス画像は、ＸＹ平面上の各位置（ｘ、ｙ）でのＺ軸方向のデプス値を表す情報である。

生成部１１０は、例えば、容器１６０内の対象物１６１の少なくとも一部の状態を観測することにより状態情報を生成する。状態情報は、例えば対象物１６１の画像およびデプス画像の少なくとも一方を含む。

生成部１１１は、例えば、容器１７０の少なくとも一部の状態を観測することにより状態情報を生成する。状態情報は、例えば容器１７０の画像およびデプス画像の少なくとも一方を含む。

生成部１１０および生成部１１１は、１つの生成部に統合してもよい。この場合１つの生成部が、対象物１６１の状態情報の生成、および、容器１７０の状態情報の生成を実行する。また、３個以上の生成部が備えられてもよい。

制御装置１２０は、生成部１１０および生成部１１１により生成された状態情報を用いて、少なくとも、対象物１６１の１つを把持し、移動し、容器１７０に詰め込むまでの動作計画を作成する。制御装置１２０は、作成された動作計画に基づく制御信号をロボット１００のアクチュエータ１０３に送出することにより、ロボット１００を動作させる。

シミュレータ１８０は、ロボット１００による動作を模擬するシミュレータである。シミュレータ１８０は、例えばコンピュータ等の情報処理装置として実現され、ロボット１００による動作の学習および評価に用いられる。なお、ロボットシステムは、シミュレータ１８０を備えなくてもよい。

図２は、制御装置１２０の機能構成の一例を示すブロック図である。図２に示すように、制御装置１２０は、取得部２０１と、推論部２０２と、ロボット制御部２０３と、出力制御部２０４と、報酬決定部２１１と、学習部２１２と、記憶部２２１と、を備える。

記憶部２２１は、制御装置１２０で実行される各種処理で用いられる各種情報を記憶する。例えば記憶部２２１は、取得部２０１により取得された状態情報、および、推論部２０２が推論に使用するモデル（ニューラルネットワーク）のパラメータなどを記憶する。記憶部２２１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

取得部２０１は、制御装置１２０で実行される各種処理で用いられる各種情報を取得する。例えば取得部２０１は、ネットワーク１３０を介して、生成部１１０および生成部１１１から状態情報を取得（受信）する。取得部２０１は、取得した状態情報を推論部２０２に出力するが、その際、取得した状態情報をそのまま出力してもよいし、解像度変換、フレームレート変換、クリッピング、および、トリミング等の処理を加えてから出力してもよい。以下では、生成部１１０から取得した状態情報をＳ_１とし、生成部１１１から取得した状態情報をＳ_２とする。

推論部２０２は、状態情報Ｓ_１および状態情報Ｓ_２を用いて、ロボット１００が容器１６０内で対象物１６１を把持する際の把持位置・姿勢、および、容器１７０内に対象物１６１を箱詰めする際の箱詰め位置・姿勢を計画する。例えば推論部２０２は、状態情報Ｓ_１および状態情報Ｓ_２をニューラルネットワーク（第１ニューラルネットワーク）に入力し、この入力に対するニューラルネットワークの出力から、把持位置・姿勢（第１位置および第１姿勢）および箱詰め位置・姿勢（第２位置および第２姿勢）を含む出力情報（第１出力情報）を得る。出力情報は、対象物を把持して容器１７０に詰め込むまでの動作計画を示す情報に相当する。

把持位置・姿勢は、対象物１６１を把持する際のエンドエフェクタ１０２の位置を決定する座標値、および、対象物１６１を把持する際のエンドエフェクタ１０２の向きまたは傾き等を表す。一方、箱詰め位置・姿勢は、対象物１６１を置く際のエンドエフェクタ１０２の位置を決定する座標値、および、対象物１６１を置く際のエンドエフェクタ１０２の向きまたは傾き等を表す。位置を決定する座標値は、例えば予め定められた３次元の座標系における座標値（ｘ、ｙ、ｚ）で表される。向きまたは傾きは、例えば、３次元の座標系の各軸回りの回転角度（θ_ｘ、θ_ｙ、θ_ｚ）で表される。

ロボット制御部２０３は、推論部２０２からの出力情報に基づいて、計画された位置および姿勢で対象物１６１を把持、箱詰めするように、ロボット１００を制御する。例えばロボット制御部２０３は、以下のような動作をそれぞれ実行させるためのアクチュエータ１０３の制御信号を生成する。
・ロボットの１００の現在の状態から推論部２０２によって計画された把持位置・姿勢で対象物１６１を把持するまでの動作
・対象物１６１の把持動作
・対象物１６１を推論部２０２によって計画された箱詰め位置・姿勢まで移動させる動作
・対象物１６１を置く動作
・箱詰め後にロボット１００を所望の状態にするための動作

ロボット制御部２０３は、生成した制御信号を例えばネットワーク１３０を介してロボット１００に送出する。制御信号に基づくアクチュエータ１０３の駆動に応じて、ロボット１００が対象物１６１の把持および箱詰め動作を行う。

出力制御部２０４は、制御装置１２０による各種処理で用いられる各種情報の出力を制御する。例えば出力制御部２０４は、ニューラルネットワークの出力を表示部１４０に表示する処理を制御する。

報酬決定部２１１および学習部２１２は、ニューラルネットワークの学習処理で用いられる構成部である。学習処理を制御装置１２０の外部（例えば制御装置１２０と異なる学習装置）で実行する場合は、制御装置１２０は、報酬決定部２１１および学習部２１２を備えなくてもよい。この場合、例えば、学習装置により学習されたニューラルネットワークのパラメータ（重み、バイアスなど）を記憶部２２１に記憶し、推論部２０２が参照できるようにしてもよい。以下では、学習部２１２が強化学習によりニューラルネットワークを学習する場合を例に説明する。

報酬決定部２１１は、学習部２１２によるニューラルネットワークの学習処理で用いられる報酬を決定する。例えば報酬決定部２１１は、ロボット１００の動作結果に基づいて強化学習に用いる報酬の値を決定する。報酬は、ロボット制御部２０３に入力された計画に従って対象物１６１を把持および箱詰めした結果に従って決定される。対象物１６１の把持および箱詰めに成功した場合、報酬決定部２１１は、報酬を正の値に決定する。このとき、報酬決定部２１１は、対象物１６１の体積および重量等に基づいて報酬の値を変えてもよい。また、報酬決定部２１１は、把持から箱詰めまでに要するロボットの作業時間が短いほど大きな報酬となるように決定してもよい。

一方、報酬決定部２１１は、以下のような場合は、報酬を負の値に決定する。
・対象物１６１の把持に失敗した場合
・対象物１６１の移動および箱詰め時に、容器１６０、容器１７０、または、対象物１７１などに衝突（接触）した場合
・計画された位置および姿勢とは異なる状態で対象物１６１を箱詰めした場合

学習部２１２は、ニューラルネットワークの学習処理（強化学習）を実行する。例えば学習部２１２は、状態情報Ｓ_１、状態情報Ｓ_２、報酬決定部２１１から入力された報酬、および、過去に学習部２１２が行った計画に基づき、ニューラルネットワークを学習する。

上記各部（取得部２０１、推論部２０２、ロボット制御部２０３、出力制御部２０４、報酬決定部２１１、および、学習部２１２）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

次に、推論部２０２による推論処理の詳細を説明する。上記のように、推論部２０２は、例えばニューラルネットワークを用いて把持位置・姿勢および箱詰め位置・姿勢を推論する。図３は、ニューラルネットワークの構成例を示す図である。図３は、中間層が３層の畳み込み層で構成されるニューラルネットワークの例を示す。なお、説明の便宜のため、図３では、配列３２０、３３０、３４０、３５０を３次元のデータの形状で表しているが、実際は５次元のデータである（図５も同様）。

以下では、状態情報としてデプス画像を用いる場合を例に説明するが、状態情報として画像を用いる場合、および、状態情報として画像とデプス画像との両方を用いる場合にも同様の方法を適用できる。

状態情報３００は、取得部２０１から入力された状態情報Ｓ_１であり、ここではＸ_１行Ｙ_１列のデプス画像であるものとする。Ｘ_１およびＹ_１は、例えば容器１６０のＸ軸方向の長さ（幅）、および、容器１６０のＹ軸方向の長さ（奥行き）に相当する値である。

状態情報３１０は、取得部２０１から入力された状態情報Ｓ_２であり、ここではＸ_２行Ｙ_２列のデプス画像であるものとする。Ｘ_２およびＹ_２は、例えば容器１７０のＸ軸方向の長さ（幅）、および、容器１７０のＹ軸方向の長さ（奥行き）に相当する値である。

また、状態情報３００の行列の（ｘ_１、ｙ_１）成分（０≦ｘ_１≦Ｘ_１−１、０≦ｙ_１≦Ｙ_１−１）をＳ_１（ｘ_１、ｙ_１）で表し、状態情報３１０の行列の（ｘ_２、ｙ_２）成分（０≦ｘ_２≦Ｘ_２−１、０≦ｙ_２≦Ｙ_２−１）をＳ_２（ｘ_２、ｙ_２）で表す。

まず、推論部２０２は、これら２つの行列（状態情報３００、状態情報３１０）から、ニューラルネットワークの入力となるＸ_１×Ｙ_１×Ｘ_２×Ｙ_２×Ｃ_０の配列３２０を算出する。例えば推論部２０２は、Ｃ_０＝２として、配列３２０の成分Ｈ_０を、Ｈ_０（ｘ_１、ｙ_１、ｘ_２、ｙ_２、０）＝Ｓ_１（ｘ_１、ｙ_１）、Ｈ_０（ｘ_１、ｙ_１、ｘ_２、ｙ_２、１）＝Ｓ_２（ｘ_２、ｙ_２）のように算出する。

取得部２０１から入力された状態情報Ｓ_１およびＳ_２がともに３チャンネルの画像である場合には、推論部２０２は、Ｃ_０＝６として、配列３２０の成分Ｈ_０を、０≦ｉ≦２のときＨ_０（ｘ_１、ｙ_１、ｘ_２、ｙ_２、ｉ）＝Ｓ_１（ｘ_１、ｙ_１、ｉ）、３≦ｉ≦５のときＨ_０（ｘ_１、ｙ_１、ｘ_２、ｙ_２、ｉ）＝Ｓ_２（ｘ_２、ｙ_２、ｉ−３）のように算出する。ここで、Ｓ_１（ｘ_１、ｙ_１、ｉ）およびＳ_２（ｘ_２、ｙ_２、ｉ）はそれぞれ画像Ｓ_１および画像Ｓ_２の第ｉチャンネルである。

ベルトコンベア等で容器１６０が順次入れ替わる場合には、入れ替わりで配置される予定の複数の容器１６０のデプス画像を状態情報３００に含めてもよいし、同様に複数の容器１７０のデプス画像を状態情報３１０に含めてもよい。

例えば、状態情報３００としてＭ個の容器１６０のデプス画像を、状態情報３１０としてＮ個の容器１７０のデプス画像を一度に処理する場合、推論部２０２は、Ｃ_０＝Ｍ×Ｎとして、Ｈ_０（ｘ_１、ｙ_１、ｘ_２、ｙ_２、ｃ）＝Ｓ_１ ^ｍ（ｘ_１、ｙ_１）×Ｓ_２ ^ｎ（ｘ_２、ｙ_２）のようにＨ_０を算出する。ここで、Ｓ_１ ^ｍ（ｘ_１、ｙ_１）はｍ番目（０≦ｍ≦Ｍ−１）の容器１６０のデプス画像の（ｘ_１、ｙ_１）成分であり、Ｓ_２ ^ｎ（ｘ_２、ｙ_２）はｎ番目（０≦ｎ≦Ｎ−１）の容器１７０のデプス画像の（ｘ_２、ｙ_２）成分である。ｃは、ｍとｎとが一意に定まるように（例えばｃ＝ｍ×Ｎ＋ｎ）対応付けられる。

推論部２０２は、この後、配列３２０に対して、状態情報３００および状態情報３１０の成分の分布から算出された統計値および定数を乗じる処理、並びに、上限および下限をクリッピングする処理を行ってもよい。

次に推論部２０２は、配列３２０に対する畳み込み計算によりＸ_１×Ｙ_１×Ｘ_２×Ｙ_２×Ｃ_１の配列３３０を算出する。この畳み込み計算は、３層の畳み込み層のうち１層目の畳み込み層の演算に相当する。畳み込みフィルタは、サイズがＦ_１×Ｆ_１×Ｆ_１×Ｆ_１の４次元フィルタであり、出力チャネル数はＣ_１である。ただし、フィルタの各次元のサイズは同じでなくてもよい。このフィルタの重みとバイアスは、後述の方法で予め学習された値を用いる。また、畳み込み計算の後に正規化線形関数、シグモイド関数等の活性化関数による変換処理が加えられてもよい。

次に推論部２０２は、配列３３０に対する畳み込み計算によりＸ_１×Ｙ_１×Ｘ_２×Ｙ_２×Ｃ_２の配列３４０を算出する。この畳み込み計算は、３層の畳み込み層のうち２層目の畳み込み層の演算に相当する。畳み込みフィルタはサイズがＦ_２×Ｆ_２×Ｆ_２×Ｆ_２の４次元フィルタで、出力チャネル数はＣ_２である。ただし、最初の畳み込み計算と同様に、フィルタの各次元のサイズは同じでなくてもよい。このフィルタの重みとバイアスも、後述の方法で予め学習された値を用いる。また、畳み込み計算の後に正規化線形関数、シグモイド関数等の活性化関数による変換処理が加えられてもよい。

次に推論部２０２は、３層目の畳み込み計算により、配列３４０からＸ_１×Ｙ_１×Ｘ_２×Ｙ_２×Ｒの配列３５０を算出する。ここで、Ｒは、把持の際のエンドエフェクタ１０２の角度と、箱詰めの際のエンドエフェクタ１０２の角度と、の組み合わせの総数である。把持の際のエンドエフェクタ１０２の角度と箱詰めの際のエンドエフェクタ１０２の角度との組み合わせは、予め有限の数に決められる。各組み合わせに対して、１からＲまでの整数が重複しないように割り当てられる。

配列３５０の（ｘ_１、ｙ_１、ｘ_２、ｙ_２、ｒ）成分（１≦ｒ≦Ｒ）は、把持位置が状態情報３００のデプス画像における（ｘ_１、ｙ_１）成分に相当する位置であり、箱詰め位置が状態情報３１０のデプス画像における（ｘ_２、ｙ_２）成分に相当する位置であり、把持の際のエンドエフェクタ１０２の角度と箱詰めの際のエンドエフェクタ１０２の角度とがｒで識別される組み合わせに対応する角度である場合の計画の良さ（評価値）に相当する。

従って、推論部２０２は、評価値が他の成分より大きい成分、例えば、配列３５０の最大値を与える成分を探索し、探索した成分に相当する計画を出力する。推論部２０２は、配列３５０をソフトマックス関数で変換して確率値を算出し、算出した確率に応じて各計画をサンプリングして出力するようにしてもよい。図３のπ（Ｓ_１，Ｓ_２，ａ）は、状態情報Ｓ_１、状態情報Ｓ_２のときに行動ａをとる確率値を表す。

図３のニューラルネットワークの中間層は、３層の畳み込み層のみで構成していたが、任意の数の畳み込み層で構成することができる。またニューラルネットワークの中間層は、畳み込み層だけでなく、プーリング層を加えてもよい。さらに、図３の例では、中間層が出力する配列（配列３３０、配列３４０）のサイズはチャネル数を除いて同一であったが、中間層ごとに異なるサイズの配列を出力するようにすることも可能である。

また、状態情報３００と状態情報３１０の複数の組をバッチ化して一度に処理を行うようにしてもよい。例えば、推論部２０２は、各組をそれぞれ並列に図３のようなニューラルネットワークに入力して推論処理を行うことができる。

次に、このように構成された第１の実施形態にかかる制御装置１２０による制御処理について説明する。図４は、第１の実施形態における制御処理の一例を示すフローチャートである。

取得部２０１は、生成部１１０から、対象物１６１の状態情報Ｓ_１を取得する（ステップＳ１０１）。取得部２０１は、生成部１１１から、移動先の容器１７０の状態情報Ｓ_２を取得する（ステップＳ１０２）。

推論部２０２は、取得された状態情報Ｓ_１およびＳ_２をニューラルネットワークに入力し、ニューラルネットワークの出力から、ロボット１００の把持位置・姿勢および箱詰め位置・姿勢を決定する（ステップＳ１０３）。

ロボット制御部２０３は、決定された把持位置・姿勢および箱詰め位置・姿勢となるようにロボット１００の動作を制御する（ステップＳ１０４）。

次に、学習部２１２による学習処理の詳細を説明する。図５は、図３のニューラルネットワークのパラメータを学習する際のニューラルネットワークの構成例を示す図である。学習部２１２は、Ｑ−Ｌｅａｒｎｉｎｇ、Ｓａｒｓａ、ＲＥＩＮＦＯＲＣＥ、および、Ａｃｔｏｒ−Ｃｒｉｔｉｃなど様々な強化学習手法を用いることができる。以下ではＡｃｔｏｒ−Ｃｒｉｔｉｃを用いる場合について説明する。

状態情報５００は、取得部２０１から入力された状態情報Ｓ′_１であり、Ｘ′_１行Ｙ′_１列のデプス画像である。ニューラルネットワークの中間層は畳み込み層のみで構成しているため、学習時のデプス画像のサイズであるＸ′_１およびＹ′_１は、図３における推論時のデプス画像のサイズＸ_１およびＹ_１とそれぞれ同じ値でもよいし、異なっていてもよい。特に、Ｘ′_１＜Ｘ_１かつＹ′_１＜Ｙ_１とすることにより、学習時の入力パターンの数を推論時の入力パターンの数よりも減らすことができるため、学習を効率化することができる。

状態情報５１０は、取得部２０１から入力された状態情報Ｓ′_２であり、Ｘ′_２行Ｙ′_２列のデプス画像である。Ｘ′_２およびＹ′_２は、図３におけるＸ_２およびＹ_２とそれぞれ同じ値でもよいし、異なっていてもよい。特に、Ｘ′_２＜Ｘ_２かつＹ′_２＜Ｙ_２とすることにより、学習を効率化することができる。

学習部２１２は、これら２つの行列（状態情報５００、状態情報５１０）から、図３の配列３２０を算出する演算と同様の演算により、ニューラルネットワークの入力となるＸ′_１×Ｙ′_１×Ｘ′_２×Ｙ′_２×Ｃ_０の配列５２０を算出する。

次に学習部２１２は、配列５２０に対する畳み込み計算によりＸ′_１×Ｙ′_１×Ｘ′_２×Ｙ′_２×Ｃ_１の配列５３０を算出する。畳み込みフィルタのサイズは、図３における配列３２０を算出する際の畳み込みフィルタと同じである。ただし、学習部２１２は、学習開始時にはフィルタの重みとバイアスにランダムな値を設定し、学習過程でバックプロパゲーションにより重みとバイアスの値を更新する。畳み込み計算後に活性化関数を用いる場合は、学習部２１２は、図３の配列３２０を算出するときの同じ活性化関数を用いる。

学習部２１２は、同様の畳み込み計算を繰り返すことにより、Ｘ′_１×Ｙ′_１×Ｘ′_２×Ｙ′_２×Ｃ_１の配列５４０、および、Ｘ′_１×Ｙ′_１×Ｘ′_２×Ｙ′_２×Ｒの配列５５０を算出する。

最後に学習部２１２は、図３で配列３５０から把持位置・姿勢および箱詰め位置・姿勢を計画する処理と同様の方法で、配列５５０から把持位置・姿勢および箱詰め位置・姿勢を計画する。

ベクトル５６０は、配列５４０を１次元化したベクトルである。学習部２１２は、ベクトル５６０に対して全結合層の演算を行ってスカラー５７０を算出する。スカラー５７０は、強化学習において価値関数（図５では、Ｖ（Ｓ′_１，Ｓ′_２））と呼ばれる値である。

学習部２１２は、学習開始時には、全結合層の演算に用いる重みとバイアスにランダムな値を設定し、学習過程でバックプロパゲーションにより重みとバイアスの値を更新する。この全結合層の処理は、学習時のみ必要となる。

ロボット制御部２０３は、配列５５０から計画された把持位置・姿勢および箱詰め位置・姿勢に基づき、対象物１６１を把持し、移動し、箱詰めするようにロボット１００の動作を制御する。

報酬決定部２１１は、この動作の結果に基づいて報酬の値を決定し、学習部２１２に送る。学習部２１２は、報酬決定部２１１から送られた報酬と、スカラー５７０の算出結果と、に基づき、バックプロパゲーションにより全結合層の重みとバイアス、および畳み込み層の重みとバイアスを更新する。さらに、学習部２１２は、報酬決定部２１１から送られた報酬と、スカラー５７０の算出結果と、配列５５０の算出結果と、に基づき、バックプロパゲーションにより畳み込み層の重みとバイアスの更新処理を行う。重みとバイアスの更新量は、例えば非特許文献３に記載された方法で算出することができる。

学習部２１２は、状態情報５００のサイズ、および、状態情報５１０のサイズを、学習中に変更してもよい。例えば、学習部２１２は、学習開始時にはＸ′_１、Ｙ′_１、Ｘ′_２、Ｙ′_２それぞれの値を小さく設定し、学習が進むにつれて段階的に大きな値となるようにこれらの値を変更する。このような制御により、学習効率をさらに高めることができる。

学習部２１２は、実際にロボット１００を動作させてニューラルネットワークを学習してもよいし、シミュレータ１８０による模擬動作によりニューラルネットワークを学習してもよい。また、ニューラルネットワークは必ずしも強化学習で学習する必要はなく、教示データを与えて教師あり学習を行ってもよい。

次に、このように構成された第１の実施形態にかかる制御装置１２０による学習処理について説明する。図６は、第１の実施形態における学習処理の一例を示すフローチャートである。

取得部２０１は、生成部１１０から、対象物１６１の状態情報Ｓ′_１を取得する（ステップＳ２０１）。取得部２０１は、生成部１１１から、移動先の容器１７０の状態情報Ｓ′_２を取得する（ステップＳ２０２）。

学習部２１２は、取得された状態情報Ｓ′_１およびＳ′_２をニューラルネットワークに入力し、ニューラルネットワークの出力から、ロボット１００の把持位置・姿勢および箱詰め位置・姿勢を決定する（ステップＳ２０３）。

ロボット制御部２０３は、決定された把持位置・姿勢および箱詰め位置・姿勢となるようにロボット１００の動作を制御する（ステップＳ２０４）。

報酬決定部２１１は、ロボット１００の動作の結果に基づいて報酬の値を決定する（ステップＳ２０５）。学習部２１２は、報酬の値、および、ニューラルネットワークの出力（スカラー５７０の算出結果、配列５５０の算出結果）を用いて、バックプロパゲーションにより畳み込み層の重みとバイアスを更新する（ステップＳ２０６）。

学習部２１２は、学習を終了するか否かを判定する（ステップＳ２０７）。学習部２１２は、例えば、価値関数の値が収束したか、または、学習の繰り返しの回数が上限値に達したかなどにより、学習の終了を判定する。学習を継続する場合は（ステップＳ２０７：Ｎｏ）、ステップＳ２０１に戻り、処理が繰り返される。学習が終了したと判定された場合（ステップＳ２０７：Ｙｅｓ）、学習処理を終了する。

次に、出力制御部２０４による出力制御処理の詳細を説明する。図７は、表示部１４０に表示される表示画面７００の一例を示す図である。表示画面７００は、容器１６０の各位置における把持位置の評価結果（評価値）を表した画像６１０、および、容器１７０の各位置における箱詰め位置の評価結果（評価値）を表す画像６２０を含む。画像６１０および画像６２０では、把持位置および箱詰め位置の評価が高い位置ほど明るく表示される。把持位置の評価および箱詰め位置の評価は、配列５５０から算出された値である。

出力制御部２０４は、例えば、ロボット１００を動作させながら画像６１０および画像６２０を表示させる。これにより、把持位置および箱詰め位置が適正に算出されているかを確認することができる。出力制御部２０４は、ロボット１００を動作させる前に画像６１０と画像６２０を表示させてもよい。これにより、ロボット動作前に推論部２０２の処理に不具合がないかを確認することができる。

図７では把持位置および箱詰め位置の評価結果のみを表示しているが、出力制御部２０４は、把持位置および箱詰め位置ごと、および、最適な姿勢（向き）ごとに色を変えて表示するなど、姿勢に関する評価結果もわかるように表示してもよい。例えば出力制御部２０４は、把持の際のエンドエフェクタ１０２の角度と、箱詰めの際のエンドエフェクタ１０２の角度と、の組み合わせごとに色を定め、把持位置および箱詰め位置に対応する画素を最適な角度に対応する色としてもよい。また出力制御部２０４は、容器１６０および容器１７０のデプス画像を、評価結果を示す画像と重畳して表示してもよい。

このように、第１の実施形態にかかる制御装置では、移動前の対象物の状態情報と、移動先の状態情報とを用いて、把持位置・姿勢および箱詰め位置・姿勢を併せて計画（推論）する。これにより、ロボットにより実行可能で、充填率の高い、または、箱詰め作業時間の短い効率的な箱詰めを計画可能となる。この結果、物品などの対象物を移動させる処理をより効率的に実行可能となる。

（第２の実施形態）
第２の実施形態にかかる制御装置は、推論部により得られた結果（計画）をさらに修正する機能を備える。

図８は、第２の実施形態にかかる制御装置１２０−２の構成の一例を示すブロック図である。図８に示すように、制御装置１２０−２は、取得部２０１と、推論部２０２と、ロボット制御部２０３−２と、出力制御部２０４と、修正部２０５−２と、報酬決定部２１１と、学習部２１２−２と、記憶部２２１と、を備える。

第２の実施形態では、修正部２０５−２を追加したこと、並びに、ロボット制御部２０３−２および学習部２１２−２の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる制御装置１２０のブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。

修正部２０５−２は、取得部２０１から入力された状態情報Ｓ_１と取得部２０１から入力された状態情報Ｓ_２とを用いて、推論部２０２が計画する把持位置・姿勢および箱詰め位置・姿勢の修正値を算出する。例えば修正部２０５−２は、状態情報Ｓ_１および状態情報Ｓ_２をニューラルネットワーク（第２ニューラルネットワーク）に入力し、この入力に対するニューラルネットワークの出力から、把持位置・姿勢（第１位置および第１姿勢）および箱詰め位置・姿勢（第２位置および第２姿勢）を修正するための修正値を含む出力情報（第２出力情報）を得る。修正部２０５−２が用いるニューラルネットワークは、畳み込み層、プーリング層、および、全結合層を含むように構成することができる。

把持位置・姿勢の修正値は、推論部２０２によって算出された、対象物１６１を把持する際のエンドエフェクタ１０２の位置を決定する座標値に対する修正値である。把持位置・姿勢の修正値は、さらに対象物１６１を把持する際のエンドエフェクタ１０２の向きまたは傾きに対する修正値を含んでいてもよい。

箱詰め位置・姿勢の修正値は、推論部２０２によって算出された、対象物１６１を置く際のエンドエフェクタ１０２の位置を決定する座標値に対する修正値である。箱詰め位置・姿勢の修正値は、さらに対象物１６１を置く際のエンドエフェクタ１０２の向きまたは傾きに対する修正値を含んでいてもよい。

ロボット制御部２０３−２は、推論部２０２からの出力情報を、修正部２０５−２により得られた修正値により修正し、修正した出力情報に基づいて、計画された位置および姿勢で対象物１６１を把持、箱詰めするように、ロボット１００を制御する。

学習部２１２−２は、修正部２０５−２が使用するニューラルネットワーク（第２ニューラルネットワーク）を学習する機能をさらに備える点が、第１の実施形態の学習部２１２と異なっている。推論部２０２が使用するニューラルネットワーク（第１ニューラルネットワーク）が既に学習されている場合は、学習部２１２−２は、修正部２０５−２が使用するニューラルネットワーク（第２ニューラルネットワーク）を学習する機能のみを備えてもよい。

学習部２１２−２は、例えば、状態情報Ｓ_１、状態情報Ｓ_２、報酬決定部２１１から入力された報酬、過去に学習部２１２−２が算出した修正値に基づき、ニューラルネットワークを学習する。学習部２１２−２は、例えば、バックプロパゲーションによりニューラルネットワークを学習する。ニューラルネットワークの重みおよびバイアス等のパラメータの更新量は、例えば非特許文献３に記載された方法で算出することができる。

次に、このように構成された第２の実施形態にかかる制御装置１２０−２による制御処理について図９を用いて説明する。図９は、第２の実施形態における制御処理の一例を示すフローチャートである。

ステップＳ３０１からステップＳ３０３までは、第１の実施形態にかかる制御処理（図４）におけるステップＳ１０１からステップＳ１０３までと同様の処理なので、その説明を省略する。

本実施形態では、修正部２０５−２は、取得された状態情報Ｓ_１およびＳ_２をニューラルネットワーク（第２ニューラルネットワーク）に入力し、ニューラルネットワークの出力から、ロボット１００の把持位置・姿勢および箱詰め位置・姿勢を修正するための修正値を含む出力情報（第２出力情報）を決定する（ステップＳ３０４）。

ロボット制御部２０３−２は、決定された修正値により修正した把持位置・姿勢および箱詰め位置・姿勢となるようにロボット１００の動作を制御する（ステップＳ３０５）。

次に、このように構成された第２の実施形態にかかる制御装置１２０−２による学習処理について図１０を用いて説明する。図１０は、第２の実施形態における学習処理の一例を示すフローチャートである。図１０は、修正部２０５−２が用いるニューラルネットワーク（第２ニューラルネットワーク）を学習する処理の例を示す。

取得部２０１は、生成部１１０から、対象物１６１の状態情報Ｓ_１を取得する（ステップＳ４０１）。取得部２０１は、生成部１１１から、移動先の容器１７０の状態情報Ｓ_２を取得する（ステップＳ４０２）。

学習部２１２−２は、取得された状態情報Ｓ_１およびＳ_２を、推論部２０２が用いるニューラルネットワーク（第１ニューラルネットワーク）に入力し、ニューラルネットワークの出力から、ロボット１００の把持位置・姿勢および箱詰め位置・姿勢を決定する（ステップＳ４０３）。

学習部２１２−２は、取得された状態情報Ｓ_１およびＳ_２を、修正部２０５−２が用いるニューラルネットワーク（第２ニューラルネットワーク）に入力し、ニューラルネットワークの出力から、把持位置・姿勢および箱詰め位置・姿勢の修正値を決定する（ステップＳ４０４）。

ロボット制御部２０３は、ステップＳ４０４で決定された修正値を用いて、ステップＳ４０３で決定された把持位置・姿勢および箱詰め位置・姿勢を修正し、修正された把持位置・姿勢および箱詰め位置・姿勢となるようにロボット１００の動作を制御する（ステップＳ４０５）。

報酬決定部２１１は、ロボット１００の動作の結果に基づいて報酬の値を決定する（ステップＳ４０６）。学習部２１２−２は、報酬の値、および、ニューラルネットワーク（第２ニューラルネットワーク）の出力を用いて、バックプロパゲーションによりニューラルネットワークの重みとバイアスを更新する（ステップＳ４０７）。

学習部２１２−２は、学習を終了するか否かを判定する（ステップＳ４０８）。学習を継続する場合は（ステップＳ４０８：Ｎｏ）、ステップＳ４０１に戻り、処理が繰り返される。学習が終了したと判定された場合（ステップＳ４０８：Ｙｅｓ）、学習処理を終了する。

修正部２０５−２を備えた構成は、以下のように、ロボット１００の動きが場所（位置）により制限されるような場合に有効である。
・ロボット１００から遠い位置にエンドエフェクタ１０２を移動させる際の入射角の範囲が、ロボット１００から近い位置にエンドエフェクタ１０２を移動させる際の範囲よりも狭くなる場合
・対象物１６１を水平に把持したままエンドエフェクタ１０２を回転できる角度が箱詰め位置によって変わるような場合

上記のように、推論部２０２が用いるニューラルネットワーク（第１ニューラルネットワーク）は、中間層を畳み込み層のみとする構成、または、中間層を畳み込み層およびプーリング層のみとする構成である。このような構成では、学習が効率的に行えるものの、位置ごとの制限の違いを考慮することができない。そこで、修正部２０５−２により位置ごとの修正値のみをニューラルネットワーク（第２ニューラルネットワーク）に学習させ、学習したニューラルネットネットワークを用いて推論部２０２の出力した計画を修正する。これにより、位置ごとの制限の違いを考慮できるようになる。

以上説明したとおり、第１から第２の実施形態によれば、物品などの対象物を移動させる処理をより効率的に実行可能となる。

次に、第１または第２の実施形態にかかる制御装置のハードウェア構成について図１１を用いて説明する。図１１は、第１または第２の実施形態にかかる制御装置のハードウェア構成例を示す説明図である。

第１または第２の実施形態にかかる制御装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１または第２の実施形態にかかる制御装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１または第２の実施形態にかかる制御装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１または第２の実施形態にかかる制御装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施形態にかかる制御装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１または第２の実施形態にかかる制御装置で実行されるプログラムは、コンピュータを上述した制御装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００ロボット
１１０、１１１生成部
１２０、１２０−２制御装置
１３０ネットワーク
１４０表示部
１５０入力部
２０１取得部
２０２推論部
２０３、２０３−２ロボット制御部
２０４出力制御部
２０５−２修正部
２１１報酬決定部
２１２、２１２−２学習部
２２１記憶部

Claims

ロボットが把持する対象となる対象物の状態を示す第１状態情報と、前記対象物の移動先の状態を示す第２状態情報と、を取得する取得部と、
前記第１状態情報および前記第２状態情報を第１ニューラルネットワークに入力し、前記第１ニューラルネットワークの出力から、前記対象物を把持するときの前記ロボットの位置および姿勢をそれぞれ示す第１位置および第１姿勢と、前記対象物の移動先での前記ロボットの位置および姿勢をそれぞれ示す第２位置および第２姿勢と、を含む第１出力情報を得る推論部と、
前記第１出力情報に基づいて前記ロボットの動作を制御するロボット制御部と、
を備える制御装置。
前記第１出力情報は、前記第１位置、前記第１姿勢、前記第２位置、および、前記第２姿勢の組み合わせごとの評価値を含み、
前記ロボット制御部は、前記評価値が他の組み合わせより大きい組み合わせに含まれる、前記第１位置、前記第１姿勢、前記第２位置、および、前記第２姿勢に基づいて前記ロボットの動作を制御する、
請求項１に記載の制御装置。
前記評価値を出力する出力制御部をさらに備える、
請求項２に記載の制御装置。
前記推論部は、学習時に入力した前記第１状態情報および前記第２状態情報と異なるサイズの前記第１状態情報および前記第２状態情報を前記第１ニューラルネットワークに入力し、前記第１出力情報を得る、
請求項１に記載の制御装置。
前記第１ニューラルネットワークを学習する学習部をさらに備え、
前記学習部は、学習の経過とともにサイズを大きくした前記第１状態情報および前記第２状態情報を用いて前記第１ニューラルネットワークを学習する、
請求項４に記載の制御装置。
前記第１状態情報および前記第２状態情報を第２ニューラルネットワークに入力し、前記第２ニューラルネットワークの出力から、前記第１位置、第１姿勢、前記第２位置、および、前記第２姿勢の修正値を含む第２出力情報を得る修正部をさらに備え、
前記ロボット制御部は、前記第２出力情報により前記第１出力情報を修正し、修正した前記第１出力情報に基づいて前記ロボットの動作を制御する、
請求項１に記載の制御装置。
前記第２ニューラルネットワークを学習する学習部をさらに備える、
請求項６に記載の制御装置。
前記第１ニューラルネットワークは、畳み込み層、または、畳み込み層とプーリング層と、を含む、
請求項１に記載の制御装置。
ロボットが把持する対象となる対象物の状態を示す第１状態情報と、前記対象物の移動先の状態を示す第２状態情報と、を取得する取得ステップと、
前記第１状態情報および前記第２状態情報を第１ニューラルネットワークに入力し、前記第１ニューラルネットワークの出力から、前記対象物を把持するときの前記ロボットの位置および姿勢をそれぞれ示す第１位置および第１姿勢と、前記対象物の移動先での前記ロボットの位置および姿勢をそれぞれ示す第２位置および第２姿勢と、を含む第１出力情報を得る推論ステップと、
前記第１出力情報に基づいて前記ロボットの動作を制御するロボット制御ステップと、
を含む制御方法。
コンピュータを、
ロボットが把持する対象となる対象物の状態を示す第１状態情報と、前記対象物の移動先の状態を示す第２状態情報と、を取得する取得部と、
前記第１状態情報および前記第２状態情報を第１ニューラルネットワークに入力し、前記第１ニューラルネットワークの出力から、前記対象物を把持するときの前記ロボットの位置および姿勢をそれぞれ示す第１位置および第１姿勢と、前記対象物の移動先での前記ロボットの位置および姿勢をそれぞれ示す第２位置および第２姿勢と、を含む第１出力情報を得る推論部と、
前記第１出力情報に基づいて前記ロボットの動作を制御するロボット制御部と、
として機能させるためのプログラム。