JP7416199B2

JP7416199B2 - 制御装置、制御方法及びプログラム

Info

Publication number: JP7416199B2
Application number: JP2022502778A
Authority: JP
Inventors: 博之大山
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2024-01-17
Anticipated expiration: 2040-02-28
Also published as: WO2021171558A1; EP4112243A1; US20230099683A1; JPWO2021171558A1; EP4112243A4

Description

本発明は、ロボットの動作を制御する制御装置、制御方法及び記録媒体の技術分野に関する。

ロボットに作業させるタスクが与えられた場合に、当該タスクを実行するために必要なロボットの制御を行う制御手法が提案されている。例えば、特許文献１には、ハンドを有するロボットにより複数の物品を把持して容器に収容する場合に、ハンドが物品を把持する順序の組み合わせを決定し、組み合わせ毎に算出した指標に基づき、収容する物品の順序を決定するロボット制御装置が開示されている。

特開２０１８－５１６８４号公報

ロボットがタスクを実行する場合、与えられたタスクによっては、タスクの完了までのタイムステップが長くなり、最適なロボットの動作シーケンスを計算するための計算量が膨大となる場合がある。

本発明の目的の１つは、上述した課題を鑑み、ロボットの動作シーケンスを好適に生成することが可能な制御装置、制御方法及び記録媒体を提供することである。

制御装置の一の態様は、制御装置であって、ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、を有し、前記最終目標及び前記サブゴールは、論理式であり、前記動作シーケンス生成手段は、前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する。

制御方法の一の態様は、コンピュータにより、ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定し、前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する場合に、前記最終目標及び前記サブゴールは、論理式であり、前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する、制御方法である。

プログラムの一の態様は、ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段としてコンピュータを機能させ、前記最終目標及び前記サブゴールは、論理式であり、前記動作シーケンス生成手段は、前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する、プログラムである。

本発明によれば、ロボットの動作シーケンスを好適に生成することができる。

ロボット制御システムの構成を示す。制御装置のハードウェア構成を示す。アプリケーション情報のデータ構造の一例を示す。第１実施形態における制御装置の機能ブロックの一例である。作業空間の俯瞰図を示す。第１実施形態における学習装置の概略構成を示す。第１実施形態における動作シーケンス生成部の機能的な構成を示す機能ブロックの一例である。第１実施形態において制御装置が実行するロボット制御処理の概要を示すフローチャートの一例である。第２実施形態における制御装置の概略構成図である。第２実施形態における学習装置の概略構成を示す。第２実施形態における動作シーケンス生成部の機能ブロックの一例である。第２実施形態における制御装置の処理手順を示すフローチャートの一例である。第３実施形態における制御装置の概略構成図である。第３実施形態における制御装置の処理手順を示すフローチャートの一例である。

以下、図面を参照しながら、制御装置、制御方法及び記録媒体の実施形態について説明する。

＜第１実施形態＞
（１）システム構成
図１は、第１実施形態に係るロボット制御システム１００の構成を示す。ロボット制御システム１００は、主に、制御装置１と、入力装置２と、表示装置３と、記憶装置４と、ロボット５と、検出装置７と、を備える。

制御装置１は、ロボット５に実行させるタスク（「目的タスク」とも呼ぶ。）が指定された場合に、ロボット５が受付可能な単純なタスクのタイムステップ（時間刻み）毎のシーケンスに目的タスクを変換し、当該シーケンスをロボット５に供給する。以後では、ロボット５が受付可能な単位により目的タスクを分解したタスク（コマンド）を、「サブタスク」とも呼び、目的タスクを達成するためにロボット５が実行すべきサブタスクのシーケンスを「サブタスクシーケンス」とも呼ぶ。サブタスクシーケンスは、ロボット５の一連の動作を規定する動作シーケンスに相当する。

制御装置１は、入力装置２、表示装置３、記憶装置４、ロボット５及び検出装置７と、通信網を介し、又は、有線若しくは無線による直接通信により、データ通信を行う。例えば、制御装置１は、入力装置２から、目的タスクを指定するための入力信号「Ｓ１」を受信する。また、制御装置１は、表示装置３に対し、ロボット５に実行させるタスクに関する表示を行うための表示信号「Ｓ２」を送信する。制御装置１は、ロボット５の制御に関する制御信号「Ｓ３」をロボット５に送信する。制御装置１は、検出装置７から検出信号「Ｓ４」を受信する。

入力装置２は、ユーザの入力を受け付けるインターフェースであり、例えば、タッチパネル、ボタン、キーボード、音声入力装置などが該当する。入力装置２は、ユーザの入力に基づき生成した入力信号Ｓ１を制御装置１へ供給する。表示装置３は、例えば、ディスプレイ、プロジェクタ等であり、制御装置１から供給される表示信号Ｓ２に基づき、所定の表示を行う。

記憶装置４は、アプリケーション情報記憶部４１を有する。アプリケーション情報記憶部４１は、目的タスクからサブタスクシーケンスを生成するために必要なアプリケーション情報を記憶する。アプリケーション情報の詳細は、図３を参照しながら後述する。記憶装置４は、制御装置１に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記録媒体であってもよい。また、記憶装置４は、制御装置１とデータ通信を行うサーバ装置であってもよい。この場合、記憶装置４は、複数のサーバ装置から構成されてもよい。

ロボット５は、制御装置１の制御に基づき、目的タスクを実行するための動作を行う。図１に示すロボット５は、一例として、物を把持可能な複数（２つ）のロボットアーム５２を制御対象として有し、作業空間６内に存在する対象物６１のピックアンドプレイス（摘み上げて移動させる処理）を行う。ロボット５は、ロボット制御部５１を有する。ロボット制御部５１は、制御信号Ｓ３によりロボットアーム５２毎に指定されたサブタスクシーケンスに基づき、各ロボットアーム５２の動作制御を行う。

作業空間６は、ロボット５が作業を行う作業空間である。図１では、作業空間６には、ロボット５による作業対象となる複数の対象物６１と、ロボット５の作業において障害となる障害物６２と、ロボットアーム５２と、が存在している。

検出装置７は、作業空間６内の状態を検出するカメラ、測域センサ、ソナーまたはこれらの組み合わせとなる１又は複数のセンサである。検出装置７は、生成した検出信号Ｓ４を制御装置１に供給する。検出信号Ｓ４は、作業空間６内を撮影した画像データであってもよく、作業空間６内の物体の位置を示す点群データであってもよい。検出装置７は、作業空間６内で移動する自走式又は飛行式のセンサ（ドローンを含む）であってもよい。また、検出装置７は、ロボット５に設けられたセンサ、作業空間６内に存在するベルトコンベアなどの他の工作機器に設けられたセンサなどを含んでもよい。また、検出装置７は、作業空間６内の音を検出するセンサを含んでもよい。このように、検出装置７は、作業空間６内の状態を検出する種々のセンサであって、任意の場所に設けられたセンサであってもよい。

なお、図１に示すロボット制御システム１００の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、ロボット５は複数台存在してもよい。また、ロボット５は、ロボットアーム５２を１つのみ又は３つ以上備えてもよい。これらの場合であっても、制御装置１は、目的タスクに基づき、ロボット５毎又はロボットアーム５２毎に実行すべきサブタスクシーケンスを生成し、当該サブタスクシーケンスを示す制御信号Ｓ３を、対象のロボット５に送信する。検出装置７は、ロボット５の一部であってもよい。ロボット制御部５１は、ロボット５とは別体に構成されてもよく、制御装置１に含まれてもよい。入力装置２及び表示装置３は、夫々、制御装置１に内蔵されるなどの態様により、制御装置１と同一の装置（例えばタブレット端末）として構成されてもよい。制御装置１は、複数の装置から構成されてもよい。この場合、制御装置１を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、これらの複数の装置間において行う。ロボット５には、制御装置１の機能が組み込まれていてもよい。

（２）制御装置のハードウェア構成
図２は、制御装置１のハードウェア構成を示す。制御装置１は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３とを含む。プロセッサ１１、メモリ１２及びインターフェース１３は、データバス１９を介して接続されている。

プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサである。

メモリ１２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの各種のメモリにより構成される。また、メモリ１２には、制御装置１が所定の処理を実行するためのプログラムが記憶される。また、メモリ１２は、作業メモリとして使用され、記憶装置４から取得した情報等を一時的に記憶する。なお、メモリ１２は、記憶装置４として機能してもよい。同様に、記憶装置４は、制御装置１のメモリ１２として機能してもよい。なお、制御装置１が実行するプログラムは、メモリ１２以外の記録媒体に記憶されてもよい。

インターフェース１３は、制御装置１と外部装置とを電気的に接続するためのインターフェースである。例えば、インターフェース１３は、制御装置１と入力装置２とを接続するためのインターフェース、制御装置１と表示装置３とを接続するためのインターフェース、及び制御装置１と記憶装置４とを接続するためのインターフェースを含む。また、インターフェース１３は、制御装置１とロボット５とを接続するためのインターフェース、及び制御装置１と検出装置７とを接続するためのインターフェースを含む。これらの接続は、有線接続であってもよく、無線接続であってもよい。例えば、制御装置１と外部装置とを接続するためのインターフェースは、プロセッサ１１の制御に基づき他の装置とデータの送受信を有線又は無線により行うための通信インターフェースであってもよい。他の例では、制御装置１と外部装置とは、ケーブル等により接続されてもよい。この場合、インターフェース１３は、外部装置とデータの授受を行うためのＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ＳＡＴＡ（ＳｅｒｉａｌＡＴＡｔｔａｃｈｍｅｎｔ）などに準拠したインターフェースを含む。

なお、制御装置１のハードウェア構成は、図２に示す構成に限定されない。例えば、制御装置１は、入力装置２、表示装置３及び記憶装置４の少なくとも一方を含んでもよい。また、制御装置１は、スピーカなどの音出力装置と接続又は内蔵してもよい。これらの場合、制御装置１は、入力機能及び出力機能が本体と一体となったタブレット端末等であってもよい。

（３）アプリケーション情報
次に、アプリケーション情報記憶部４１が記憶するアプリケーション情報のデータ構造について説明する。

図３は、アプリケーション情報記憶部４１に記憶されるアプリケーション情報のデータ構造の一例を示す。図３に示すように、アプリケーション情報記憶部４１は、抽象状態指定情報Ｉ１と、制約条件情報Ｉ２と、動作限界情報Ｉ３と、サブタスク情報Ｉ４と、抽象モデル情報Ｉ５と、物体モデル情報Ｉ６と、サブゴール推論情報Ｉ７とを含む。

抽象状態指定情報Ｉ１は、サブタスクシーケンスの生成にあたり定義する必要がある抽象状態を指定する情報である。この抽象状態は、作業空間６内における物体の抽象的な状態であって、後述する目標論理式において使用する命題として定められる。例えば、抽象状態指定情報Ｉ１は、目的タスクの種類毎に、定義する必要がある抽象状態を指定する。なお、目的タスクは、例えば、ピックアンドプレイス、移動物体の捕獲、ねじ回しなどの種々の種類のタスクであってもよい。

制約条件情報Ｉ２は、目的タスクを実行する際の制約条件を示す情報である。制約条件情報Ｉ２は、例えば、目的タスクがピックアンドプレイスの場合、障害物にロボット５（ロボットアーム５２）が接触してはいけないという制約条件、ロボットアーム５２同士が接触してはいけないという制約条件などを示す。なお、制約条件情報Ｉ２は、目的タスクの種類毎に夫々適した制約条件を記録した情報であってもよい。

動作限界情報Ｉ３は、制御装置１により制御が行われるロボット５の動作限界に関する情報を示す。動作限界情報Ｉ３は、例えば、ロボット５の速度、加速度、又は角速度の上限（例えば、図１に示すロボット５の場合には、ロボットアーム５２のリーチングの最高速度等）を規定する情報である。なお、動作限界情報Ｉ３は、ロボット５の可動部位又は関節ごとに動作限界を規定する情報であってもよい。

サブタスク情報Ｉ４は、ロボット５が受付可能なサブタスクの情報を示す。例えば、目的タスクがピックアンドプレイスの場合には、サブタスク情報Ｉ４は、ロボットアーム５２の移動であるリーチングと、ロボットアーム５２による把持であるグラスピングとをサブタスクとして規定する。サブタスク情報Ｉ４は、目的タスクの種類毎に使用可能なサブタスクの情報を示すものであってもよい。

抽象モデル情報Ｉ５は、作業空間６におけるダイナミクスを抽象化した抽象モデルに関する情報である。抽象モデルは、ロボット５に関する現実のダイナミクスをハイブリッドシステムにより抽象化したモデルにより表されている。抽象モデル情報Ｉ５は、上述のハイブリッドシステムにおけるダイナミクスの切り替わりの条件を示す情報を含む。切り替わりの条件は、例えば、図１に示すピックアンドプレイスの場合、対象物６１はロボットアーム５２の手先により把持されなければ移動できないという条件などが該当する。抽象モデル情報Ｉ５は、目的タスクの種類毎に適した抽象モデルに関する情報を有している。

物体モデル情報Ｉ６は、検出装置７が生成した検出信号Ｓ４から認識すべき各物体（図１の例では、ロボットアーム５２、対象物６１、及び障害物６２など）の物体モデルに関する情報である。物体モデル情報Ｉ６は、例えば、上述した各物体の種類、位置、又は／及び姿勢を制御装置１が認識するために必要な情報と、各物体の３次元形状を認識するためのＣＡＤ（ＣｏｍｐｕｔｅｒＡｉｄｅｄＤｅｓｉｇｎ）データなどの３次元形状情報とを含んでいる。前者の情報は、ニューラルネットワークなどの機械学習における学習モデルを学習することで得られた推論器のパラメータを含む。この推論器は、例えば、画像が入力された場合に、当該画像において被写体となる物体の種類、位置、姿勢等を出力するように予め学習される。

サブゴール推論情報Ｉ７は、ロボット５が目的タスクを達成するための中間の目標（「サブゴールＳｇ」とも呼ぶ。）を決定するために必要な情報である。本実施形態では、サブゴール推論情報Ｉ７は、機械学習により生成された推論器（「サブゴール推論器」とも呼ぶ。）のパラメータの情報を含んでいる。サブゴール推論器は、作業空間６における状態を抽象化した抽象状態と、目的タスクの達成状態を表す最終目標とが入力された場合に、当該抽象状態において最終目標を達成するために必要な１又は複数のサブゴールＳｇを出力するように学習される。サブゴール推論器に用いる学習モデルは、ニューラルネットワーク、サポートベクターマシーン、ガウス過程、変分オートエンコーダなどに基づく種々の機械学習の学習モデルであってもよく、これらの組み合わせであってもよい。例えば、上述の学習モデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、サブゴール推論情報Ｉ７は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを記憶する。なお、サブゴール推論器は、サブゴールＳｇを規定するためのパラメータを出力するものであってもよく、予め用意された複数のサブゴールＳｇのうち適切なサブゴールＳｇを出力するものであってもよい。

なお、アプリケーション情報記憶部４１は、上述した情報の他、サブタスクシーケンスの生成処理に関する種々の情報を記憶してもよい。

（４）制御装置の処理概要
図４は、制御装置１の処理の概要を示す機能ブロックの一例である。制御装置１のプロセッサ１１は、機能的には、抽象状態設定部１５と、最終目標設定部１６と、サブゴール設定部１７と、動作シーケンス生成部１８とを有する。なお、図４では、各ブロック間で授受が行われるデータの一例が示されているが、これに限定されない。後述する他の機能ブロックの図においても同様である。

抽象状態設定部１５は、検出装置７から供給される検出信号Ｓ４及び物体モデル情報Ｉ６等に基づき、ロボット５の作業空間の状態の認識を行い、認識したロボット５の作業空間の状態に関する情報（「状態情報Ｉｍ」とも呼ぶ。）を生成する。また、抽象状態設定部１５は、状態情報Ｉｍと抽象状態指定情報Ｉ１とに基づき、ロボット５が作業を行う作業空間６における状態を抽象化した抽象状態を設定する。この場合、抽象状態設定部１５は、設定すべき各抽象状態に対し、論理式で表すための命題を定義する。抽象状態設定部１５は、設定した抽象状態を示す情報（「抽象状態設定情報ＩＳ」とも呼ぶ。）を、最終目標設定部１６、サブゴール設定部１７及び動作シーケンス生成部１８に夫々供給する。なお、抽象状態設定部１５が状態情報Ｉｍを生成する代わりに、検出装置７が状態情報Ｉｍの生成を行ってもよい。この場合、抽象状態設定部１５は、検出装置７から供給される状態情報Ｉｍに基づき抽象状態設定情報ＩＳを生成する。

最終目標設定部１６は、目的タスクを指定する入力信号Ｓ１を入力装置２から受信した場合に、抽象状態設定情報ＩＳに基づき、入力信号Ｓ１が示す目的タスクを、最終的な達成状態（即ち最終目標）を表す時相論理の論理式（「最終目標論理式Ｌｔａｇ」とも呼ぶ。）に変換する。また、最終目標設定部１６は、アプリケーション情報記憶部４１から制約条件情報Ｉ２を参照することで、目的タスクの実行において満たすべき制約条件を、最終目標論理式Ｌｔａｇに付加する。そして、最終目標設定部１６は、生成した最終目標論理式Ｌｔａｇを、サブゴール設定部１７及び動作シーケンス生成部１８に供給する。また、最終目標設定部１６は、目的タスクに関する入力を受け付ける画面を表示するための表示信号Ｓ２を生成し、当該表示信号Ｓ２を表示装置３に供給する。

なお、最終目標設定部１６は、入力信号Ｓ１に基づき目的タスクを認識する代わりに、アプリケーション情報記憶部４１を参照することで目的タスクを認識してもよい。この場合、例えば、アプリケーション情報記憶部４１には、所定のジェスチャ、音声指示、又はその他の所定のイベントに関連付けられた目的タスクが登録されている。そして、最終目標設定部１６は、検出信号Ｓ４に基づき、所定のジェスチャ、音声指示、又はその他の所定のイベントを検知した場合に、対応する目的タスクを実行すべきと判定する。

サブゴール設定部１７は、抽象状態設定部１５から供給される抽象状態設定情報ＩＳと、最終目標設定部１６から供給される最終目標論理式Ｌｔａｇとに基づき、指定された目的タスクに対して１又は複数のサブゴールＳｇを設定する。この場合、サブゴール設定部１７は、サブゴール推論情報Ｉ７を参照することでサブゴール推論器を構成し、抽象状態設定情報ＩＳと最終目標論理式Ｌｔａｇを当該サブゴール推論器に入力することで得られる推論結果に基づき、設定すべきサブゴールＳｇを認識する。そして、サブゴール設定部１７は、設定すべきサブゴールＳｇを、動作シーケンス生成部１８に供給する。

動作シーケンス生成部１８は、最終目標論理式Ｌｔａｇと、状態情報Ｉｍと、抽象状態設定情報ＩＳと、サブゴールＳｇと、アプリケーション情報とに基づき、ロボット５に実行させるサブタスクシーケンスを生成する。この場合、動作シーケンス生成部１８は、サブゴール設定部１７から供給されるサブゴールＳｇを達成し、かつ、最終目標論理式Ｌｔａｇを達成するためのサブタスクシーケンスを評価関数（目的関数）の最適化により決定する。この場合、動作シーケンス生成部１８は、サブゴールＳｇが設定されない場合と比較して、最適化の計算量を好適に削減することが可能となる。

なお、図４において説明した抽象状態設定部１５、最終目標設定部１６、サブゴール設定部１７及び動作シーケンス生成部１８の各構成要素は、例えば、プロセッサ１１がプログラムを実行することによって実現できる。より具体的には、各構成要素は、メモリ１２又は記憶装置４に格納されたプログラムを、プロセッサ１１が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばＦＰＧＡ（field-programmable gate array）又はマイコン(microcomputer)等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。

（５）抽象状態設定部の詳細
抽象状態設定部１５は、検出装置７から検出信号Ｓ４を受信した場合に、物体モデル情報Ｉ６等を参照し、作業空間の状態を認識する技術（画像処理技術、画像認識技術、音声認識技術、ＲＦＩＤ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｅｒ）を用いる技術等）により検出信号Ｓ４を解析する。これにより、抽象状態設定部１５は、タスクの実行に関連する作業空間内の各物体の種類毎の数、位置及び姿勢等を認識し、当該認識結果を含む状態情報Ｉｍを生成する。また、抽象状態設定部１５は、抽象状態指定情報Ｉ１を参照し、作業空間６内において設定すべき抽象状態を認識し、状態情報Ｉｍに基づき、作業空間６内の抽象状態を設定する。なお、作業空間６内において設定すべき抽象状態は、目的タスクの種類によって異なる。よって、目的タスクの種類毎に設定すべき抽象状態が抽象状態指定情報Ｉ１に規定されている場合には、抽象状態設定部１５は、入力信号Ｓ１により指定された目的タスクに対応する抽象状態指定情報Ｉ１を参照し、設定すべき抽象状態を認識する。

図５は、作業空間６の俯瞰図を示す。図５に示す作業空間６には、２つのロボットアーム５２ａ、５２ｂと、４つの対象物６１ａ～６１ｄと、障害物６２とが存在している。

この場合、抽象状態設定部１５は、まず、検出装置７から受信した検出信号Ｓ４を、物体モデル情報Ｉ６等を用いて解析することで、対象物６１の状態、障害物６２の存在範囲、ゴール地点として設定される領域Ｇの存在範囲等を認識する。ここでは、抽象状態設定部１５は、対象物６１ａ～６１ｄの各々の中心の位置ベクトル「ｘ_１」～「ｘ_４」を、対象物６１ａ～６１ｄの位置として認識する。また、抽象状態設定部１５は、対象物を把持するロボットハンド５３ａの位置ベクトル「ｘ_ｒ１」と、ロボットハンド５３ｂの位置ベクトル「ｘ_ｒ２」とを、ロボットアーム５２ａとロボットアーム５２ｂの位置として認識する。同様に、抽象状態設定部１５は、対象物６１ａ～６１ｄの姿勢（図５の例では対象物が球状のため不要）等、障害物６２の存在範囲、領域Ｇの存在範囲等を認識する。なお、抽象状態設定部１５は、例えば、障害物６２を直方体とみなし、領域Ｇを矩形とみなす場合には、障害物６２及び領域Ｇの各頂点の位置ベクトルを認識する。そして、抽象状態設定部１５は、検出信号Ｓ４に基づくこれらの認識結果を、状態情報Ｉｍとして生成する。

また、抽象状態設定部１５は、抽象状態指定情報Ｉ１を参照することで、目的タスクにおいて定義すべき抽象状態を決定する。この場合、抽象状態設定部１５は、状態情報Ｉｍに基づき、作業空間６内に存在する物体及び領域を認識し、当該物体及び領域に関する認識結果（例えば物体及び領域の種類毎の個数）と抽象状態指定情報Ｉ１とに基づき、抽象状態を示す命題を定める。

図５の例では、抽象状態設定部１５は、状態情報Ｉｍにより特定される対象物６１ａ～６１ｄに対し、夫々識別ラベル「１」～「４」を付す。また、抽象状態設定部１５は、「対象物「ｉ」（ｉ＝１～４）が最終的に載置されるべき目標地点である領域Ｇ（実線枠６３参照）内に存在する」という命題「ｇ_ｉ」を定義する。また、抽象状態設定部１５は、状態情報Ｉｍにより特定される障害物６２に対して識別ラベル「Ｏ」を付し、「対象物ｉが障害物Ｏに干渉している」という命題「ｏ_ｉ」を定義する。さらに、抽象状態設定部１５は、「ロボットアーム５２同士が干渉する」という命題「ｈ」を定義する。

このように、抽象状態設定部１５は、抽象状態指定情報Ｉ１を参照することで、定義すべき抽象状態を認識し、当該抽象状態を表す命題（上述の例ではｇ_ｉ、ｏ_ｉ、ｈ）を、対象物６１の数、ロボットアーム５２の数、障害物６２の数等に応じてそれぞれ定義する。そして、抽象状態設定部１５は、抽象状態を表す命題を示す情報を、抽象状態設定情報ＩＳとして生成する。

（６）最終目標設定部の詳細
まず、最終目標設定部１６は、入力信号Ｓ１により指定された目的タスクを、時相論理を用いた論理式に変換する。入力信号Ｓ１は、自然言語を用いて表されていてもよい。なお、自然言語で表されたタスクを論理式に変換する方法は、種々の技術が存在するため、本実施形態では説明を省略する。例えば、図５の例において、「最終的に対象物（ｉ＝２）が領域Ｇに存在する」という目的タスクが与えられたとする。この場合、最終目標設定部１６は、目的タスクを線形論理式（ＬＴＬ：ＬｉｎｅａｒＴｅｍｐｏｒａｌＬｏｇｉｃ）の「eventually」に相当する演算子「◇」と、抽象状態設定部１５により定義された命題「ｇ_ｉ」と用いて、論理式「◇ｇ_２」を生成する。なお、最終目標設定部１６は、演算子「◇」以外の任意の時相論理の演算子（論理積「∧」、論理和「∨」、否定「￢」、論理包含「⇒」、always「□」、next「○」、until「Ｕ」等）を用いて論理式を表現してもよい。また、線形時相論理に限らず、ＭＴＬ（ＭｅｔｒｉｃＴｅｍｐｏｒａｌＬｏｇｉｃ）やＳＴＬ（ＳｉｇｎａｌＴｅｍｐｏｒａｌＬｏｇｉｃ）などの任意の時相論理を用いて論理式を表現してもよい。

次に、最終目標設定部１６は、制約条件情報Ｉ２が示す制約条件を、目的タスクを示す論理式に付加することで、最終目標論理式Ｌｔａｇを生成する。

例えば、ピックアンドプレイスに対応する制約条件として、「ロボット５同士が干渉しない」、「対象物ｉは障害物Ｏに干渉しない」の２つが制約条件情報Ｉ２に含まれている場合、最終目標設定部１６は、これらの制約条件を論理式に変換する。具体的には、最終目標設定部１６は、図５の説明において抽象状態設定部１５により定義された命題「ｏ_ｉ」及び命題「ｈ」を用いて、上述の２つの制約条件を、夫々以下の論理式に変換する。
□￢ｈ
∧_ｉ□￢ｏ_ｉ

よって、この場合、最終目標設定部１６は、「最終的に対象物（ｉ＝２）が領域Ｇに存在する」という目的タスクに対応する論理式「◇ｇ_２」に、これらの制約条件の論理式を付加することで、以下の最終目標論理式Ｌｔａｇを生成する。
（◇ｇ_２）∧（□￢ｈ）∧（∧_ｉ□￢ｏ_ｉ）

なお、実際には、ピックアンドプレイスに対応する制約条件は、上述した２つに限られず、「ロボットアーム５２が障害物Ｏに干渉しない」、「複数のロボットアーム５２が同じ対象物を掴まない」、「対象物同士が接触しない」などの制約条件が存在する。このような制約条件についても同様に、制約条件情報Ｉ２に記憶され、最終目標論理式Ｌｔａｇに反映される。

（７）サブゴール推論情報の学習
次に、サブゴール設定部１７が用いるサブゴール推論情報Ｉ７の学習について説明する。

図６は、アプリケーション情報記憶部４１にサブゴール推論情報Ｉ７として記憶するサブゴール推論器のパラメータを生成する学習装置８の概略構成を示す。

学習装置８は、アプリケーション情報記憶部４１及び学習データ記憶部４２を参照可能な装置であって、図２に示した制御装置１の構成と同様、プロセッサとメモリとインターフェースなどを有する。学習装置８は、制御装置１であってもよく、制御装置１以外のパーソナルコンピュータ等の任意の装置（例えばシミュレータ）であってもよい。学習装置８は、制御装置１がロボット５の動作シーケンスを生成する前段階（例えばロボット制御システム１００の実用化前）において、学習データ記憶部４２を参照し、サブゴール推論情報Ｉ７としてアプリケーション情報記憶部４１に記憶するサブゴール推論器のパラメータを生成するための学習を行う。

学習データ記憶部４２は、サブゴール推論器の教師有り学習に用いる学習データを記憶する。学習データ記憶部４２は、任意の作業空間の抽象状態を示す抽象状態設定情報ＩＳと、最終目標を示す最終目標論理式Ｌｔａｇと、当該抽象状態及び最終目標の組合せに対して適した１又は複数のサブゴールとの組み合わせを複数組記憶する。なお、学習データ記憶部４２が記憶する学習データは、過去に実機である制御装置１が実際に計画した結果に基づくデータであってもよく、環境乱択化（Domain Randomization）、実験計画法又は強化学習などの手法に基づき、擬似生成されたデータを含んでもよい。

学習装置８は、学習データ記憶部４２から取得した学習データのうち、抽象状態と最終目標論理式Ｌｔａｇとを入力サンプルとし、サブゴールＳｇを正解データとする教師有り学習により、サブゴール推論器となる学習モデルの学習を行う。この場合、学習装置８は、例えば、上記の入力サンプルがサブゴール推論器に入力された場合に、サブゴール推論器の推論結果と、上記の正解データとの誤差（損失）が最小となるように、サブゴール推論器のパラメータを決定する。損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。そして、学習装置８は、学習後のサブゴール推論器のパラメータを、サブゴール推論情報Ｉ７としてアプリケーション情報記憶部４１に記憶する。なお、サブゴール推論器は、目的タスクの種類毎に学習が行われてもよい。この場合、学習データ記憶部４２に記憶される学習データには、目的タスクの種類に関する情報が含まれ、サブゴール推論情報Ｉ７は、目的タスクの種類毎のサブゴール推論器のパラメータを記憶する。

このように、学習装置８は、学習データ記憶部４２が記憶する学習データに基づきサブゴール推論器のパラメータを事前に学習することでサブゴール推論情報Ｉ７を生成する。これにより、サブゴール設定部１７は、生成されたサブゴール推論情報Ｉ７を参照してサブゴール推論器を構成し、設定すべきサブゴールＳｇを的確に決定することができる。

（８）動作シーケンス生成部の詳細
次に、動作シーケンス生成部１８の詳細な処理について説明する。

（８－１）機能ブロック
図７は、動作シーケンス生成部１８の機能的な構成を示す機能ブロックの一例である。動作シーケンス生成部１８は、機能的には、統合部３２と、タイムステップ論理式生成部３３と、抽象モデル生成部３４と、制御入力生成部３５と、サブタスクシーケンス生成部３６とを有する。

統合部３２は、最終目標設定部１６から供給される最終目標論理式Ｌｔａｇに、サブゴール設定部１７から供給されるサブゴールＳｇを統合することで、統合論理式「Ｌｉｇ」を生成する。統合部３２の処理の具体例については「（８－２）統合部」のセクションにおいて後述する。

タイムステップ論理式生成部３３は、統合部３２から供給された統合論理式Ｌｉｇを、各タイムステップでの状態を表した論理式（「タイムステップ論理式Ｌｔｓ」とも呼ぶ。）に変換する。そして、タイムステップ論理式生成部３３は、生成したタイムステップ論理式Ｌｔｓを、制御入力生成部３５に供給する。

抽象モデル生成部３４は、抽象状態設定部１５から供給される状態情報Ｉｍと、アプリケーション情報記憶部４１が記憶する抽象モデル情報Ｉ５とに基づき、作業空間６における現実のダイナミクスを抽象化した抽象モデル「Σ」を生成する。この場合、抽象モデル生成部３４は、対象のダイナミクスを連続ダイナミクスと離散ダイナミクスとが混在したハイブリッドシステムとみなし、ハイブリッドシステムに基づく抽象モデルΣを生成する。抽象モデルΣの生成方法については後述する。抽象モデル生成部３４は、生成した抽象モデルΣを、制御入力生成部３５へ供給する。

制御入力生成部３５は、タイムステップ論理式生成部３３から供給されるタイムステップ論理式Ｌｔｓと、抽象モデル生成部３４から供給される抽象モデルΣとを満たし、評価関数を最適化するタイムステップ毎のロボット５への制御入力を決定する。評価関数は、例えば、ロボット５が費やすエネルギーを最小化するように設計される。そして、制御入力生成部３５は、ロボット５へのタイムステップ毎の制御入力を示す情報（「制御入力情報Ｉｃ」とも呼ぶ。）を、サブタスクシーケンス生成部３６へ供給する。

サブタスクシーケンス生成部３６は、制御入力生成部３５から供給される制御入力情報Ｉｃと、アプリケーション情報記憶部４１が記憶するサブタスク情報Ｉ４とに基づき、サブタスクシーケンスを生成し、サブタスクシーケンスを示す制御信号Ｓ３を、ロボット５へ供給する。

（８－２）統合部及びタイムステップ論理式生成部
統合部３２は、最終目標設定部１６から供給される最終目標論理式Ｌｔａｇに、サブゴール設定部１７から供給されるサブゴールＳｇを統合することで、統合論理式Ｌｉｇを生成する。この場合、統合部３２は、最終目標論理式Ｌｔａｇに対し、論理式であるサブゴールＳｇを論理積により結合した統合論理式Ｌｉｇを生成する。

タイムステップ論理式生成部３３は、目的タスクを完了するタイムステップ数（「目標タイムステップ数」とも呼ぶ。）を定め、目標タイムステップ数で統合論理式Ｌｉｇを満たすような各タイムステップでの状態を表す命題の組み合わせを定める。この組み合わせは、通常複数存在するため、タイムステップ論理式生成部３３は、これらの組み合わせを論理和により結合した論理式を、タイムステップ論理式Ｌｔｓとして生成する。上述の組み合わせは、ロボット５に命令する動作のシーケンスを表す論理式の候補となり、以後では「候補φ」とも呼ぶ。

ここで、図５の説明において例示した、「最終的に対象物（ｉ＝２）が領域Ｇに存在する」という目的タスクが設定された場合の統合部３２及びタイムステップ論理式生成部３３の処理の具体例について説明する。以後では、命題「ｇ_ｉ」をタイムステップの概念を含むように拡張した命題「ｇ_ｉ，ｋ」を用いる。ここで、命題「ｇ_ｉ，ｋ」は、「タイムステップｋで対象物ｉが領域Ｇに存在する」という命題である。

ここで、目標タイムステップ数を「３」とした場合、最終目標設定部１６は、最終目標論理式Ｌｔａｇとして、以下に示される論理式を統合部３２に供給する。
（◇ｇ_２,３）∧（∧_{ｋ＝１,２,３}□￢ｈ_ｋ）∧（∧_{ｉ,ｋ＝１,２,３}□￢ｏ_ｉ）

また、サブゴール設定部１７は、「２ステップ後に対象物（ｉ＝２）が領域Ｇに存在する」に相当するサブゴールＳｇを設定し、上記のサブゴールＳｇを表す論理式「ｇ_２、２」を統合部３２に供給する。

この場合、統合部３２は、最終目標論理式Ｌｔａｇに対し、サブゴールＳｇを論理積により結合した以下の統合論理式Ｌｉｇを生成する。
（◇ｇ_２、３）∧ｇ_２、２∧（∧_{ｋ＝１,２,３}□￢ｈ_ｋ）∧（∧_{ｉ,ｋ＝１,２,３}□￢ｏ_ｉ）

ここで、目的タスクに相当する「◇ｇ_２,３」は、以下の式に示すように書き換えることが可能である。

このとき、サブゴールＳｇが統合されていない最終目標論理式Ｌｔａｇは、以下に示す４つの候補「φ_１」～「φ_４」の論理和（φ_１∨φ_２∨φ_３∨φ_４）により表される。

一方、「◇ｇ_２,３」にサブゴールＳｇを加えた「（◇ｇ_２、３）∧ｇ_２、２」は、以下の式に示すように書き換えることが可能である。

従って、最終目標論理式ＬｔａｇとサブゴールＳｇとが統合された統合論理式Ｌｉｇは、上述した候補φ_２と候補φ_４の２つの論理和（φ_２∨φ_４）により表される。よって、タイムステップ論理式生成部３３は、論理和（φ_２∨φ_４）を、タイムステップ論理式Ｌｔｓとして定める。この場合、タイムステップ論理式Ｌｔｓは、２つの候補φ_２又は候補φ_４の少なくともいずれかが真となる場合に真となる。

このように、統合部３２は、最終目標論理式ＬｔａｇにサブゴールＳｇを統合することで、ロボット５に命令する動作のシーケンスを表す論理式の候補である候補φの数を好適に削減することができる。これにより、制御入力生成部３５が実行する最適化処理における計算量を好適に削減することができる。

次に、目標タイムステップ数の設定方法について補足説明する。

タイムステップ論理式生成部３３は、例えば、ユーザ入力により指定された作業の見込み時間に基づき、目標タイムステップ数を決定する。この場合、タイムステップ論理式生成部３３は、メモリ１２又は記憶装置４に記憶された、１タイムステップ当たりの時間幅の情報に基づき、上述の見込み時間から目標タイムステップ数を算出する。他の例では、タイムステップ論理式生成部３３は、目的タスクの種類毎に適した目標タイムステップ数を対応付けた情報を予めメモリ１２又は記憶装置４に記憶しておき、当該情報を参照することで、実行すべき目的タスクの種類に応じた目標タイムステップ数を決定する。

好適には、タイムステップ論理式生成部３３は、目標タイムステップ数を所定の初期値に設定する。そして、タイムステップ論理式生成部３３は、制御入力生成部３５が制御入力を決定できるタイムステップ論理式Ｌｔｓが生成されるまで、目標タイムステップ数を徐々に増加させる。この場合、タイムステップ論理式生成部３３は、設定した目標タイムステップ数により制御入力生成部３５が最適化処理を行った結果、最適解を導くことができなかった場合、目標タイムステップ数を所定数（１以上の整数）だけ加算する。

このとき、タイムステップ論理式生成部３３は、目標タイムステップ数の初期値を、ユーザが見込む目的タスクの作業時間に相当するタイムステップ数よりも小さい値に設定するとよい。これにより、タイムステップ論理式生成部３３は、不必要に大きな目標タイムステップ数を設定することを好適に抑制する。

（８－３）抽象モデル生成部
抽象モデル生成部３４は、抽象モデル情報Ｉ５と、状態情報Ｉｍとに基づき、抽象モデルΣを生成する。ここで、抽象モデル情報Ｉ５には、目的タスクの種類毎に、抽象モデルΣの生成に必要な情報が記録されている。例えば、目的タスクがピックアンドプレイスの場合には、対象物の位置や数、対象物を置く領域の位置、ロボット５の台数（又はロボットアーム５２の数）等を特定しない汎用的な形式の抽象モデルが抽象モデル情報Ｉ５に記録されている。そして、抽象モデル生成部３４は、抽象モデル情報Ｉ５に記録された、ロボット５のダイナミクスを含む汎用的な形式の抽象モデルに対し、状態情報Ｉｍを反映することで、抽象モデルΣを生成する。これにより、抽象モデルΣは、作業空間６内の物体の状態と、ロボット５のダイナミクスが抽象的に表されたモデルとなる。なお、作業空間６内の物体の状態は、ピックアンドプレイスの場合には、対象物の位置及び数、対象物を置く領域の位置、ロボット５の台数等を示す。

ここで、ロボット５による目的タスクの作業時においては、作業空間６内のダイナミクスが頻繁に切り替わる。例えば、ピックアンドプレイスでは、ロボットアーム５２が対象物ｉを掴んでいる場合には、当該対象物ｉを動かすことができるが、ロボットアーム５２が対象物ｉを掴んでない場合には、当該対象物ｉを動かすことができない。

以上を勘案し、本実施形態においては、ピックアンドプレイスの場合、対象物ｉを掴むという動作を論理変数「δ_ｉ」により抽象表現する。この場合、例えば、抽象モデル生成部３４は、図７に示す作業空間６に対して設定すべき抽象モデルΣを、以下の式（１）により定めることができる。

ここで、「ｕ_ｊ」は、ロボットハンドｊ（「ｊ＝１」はロボットハンド５３ａ、「ｊ＝２」はロボットハンド５３ｂ）を制御するための制御入力を示す。「Ｉ」は単位行列を示す。「０」は零行例を示す。なお、制御入力は、ここでは、一例として速度を想定しているが、加速度であってもよい。また、「δ_ｊ,ｉ」は、ロボットハンドｊが対象物ｉを掴んでいる場合に「１」であり、その他の場合に「０」である論理変数である。また、「ｘ_ｒ１」、「ｘ_ｒ２」は、ロボットハンドｊの位置ベクトル、「ｘ_１」～「ｘ_４」は、対象物ｉの位置ベクトルを示す。また、「ｈ（ｘ）」は、対象物を掴める程度に対象物の近傍にロボットハンドが存在する場合に「ｈ（ｘ）≧０」となる変数であり、論理変数δとの間で以下の関係を満たす。
δ＝１ ⇔ ｈ（ｘ）≧０
この式では、対象物を掴める程度に対象物の近傍にロボットハンドが存在する場合には、ロボットハンドが対象物を掴んでいるとみなし、論理変数δを１に設定している。

ここで、式（１）は、タイムステップｋでの物体の状態とタイムステップ（ｋ＋１）での物体の状態との関係を示した差分方程式である。そして、上記の式（１）では、把持の状態が離散値である論理変数により表わされ、物体の移動は連続値により表わされているため、式（１）はハイブリッドシステムを示している。

式（１）では、ロボット５全体の詳細なダイナミクスではなく、対象物を実際に把持するロボット５の手先であるロボットハンドのダイナミクスのみを考慮している。これにより、制御入力生成部３５による最適化処理の計算量を好適に削減することができる。

また、抽象モデル情報Ｉ５には、ダイナミクスが切り替わる動作（ピックアンドプレイスの場合には対象物ｉを掴むという動作）に対応する論理変数、及び、状態情報Ｉｍから式（１）の差分方程式を導出するための情報が記録されている。よって、抽象モデル生成部３４は、対象物の位置や数、対象物を置く領域（図５では領域Ｇ）、ロボット５の台数等が変動する場合であっても、抽象モデル情報Ｉ５と状態情報Ｉｍとに基づき、対象の作業空間６の環境に即した抽象モデルΣを決定することができる。

なお、抽象モデル生成部３４は、式（１）に示されるモデルに代えて、混合論理動的（ＭＬＤ：ＭｉｘｅｄＬｏｇｉｃａｌＤｙｎａｍｉｃａｌ）システムまたはペトリネットやオートマトンなどを組み合わせたハイブリッドシステムのモデルを生成してもよい。

（８－４）制御入力生成部
制御入力生成部３５は、タイムステップ論理式生成部３３から供給されるタイムステップ論理式Ｌｔｓと、抽象モデル生成部３４から供給される抽象モデルΣと、評価関数とに基づき、ロボット５に対するタイムステップ毎の最適な制御入力を決定する。この場合、制御入力生成部３５は、抽象モデルΣ及びタイムステップ論理式Ｌｔｓを制約条件として、評価関数を最小化する最適化問題を解く。評価関数は、例えば、目的タスクの種類毎に予め定められ、メモリ１２又は記憶装置４に記憶されている。

例えば、ピックアンドプレイスを目的タスクとした場合、制御入力生成部３５は、運ぶ対象となる対象物と当該対象物を運ぶ目標地点との距離「ｄ_ｋ」と制御入力「ｕ_ｋ」とが最小となる（即ちロボット５が費やすエネルギーを最小化する）ように評価関数を定める。上述の距離ｄ_ｋは、「最終的に対象物（ｉ＝２）が領域Ｇに存在する」という目的タスクの場合には、対象物（ｉ＝２）と領域Ｇとのタイムステップｋでの距離に相当する。

例えば、制御入力生成部３５は、全タイムステップにおける距離ｄ_ｋのノルムの２乗と制御入力ｕ_ｋのノルムの２乗との和を評価関数として定める。そして、制御入力生成部３５は、抽象モデルΣ及びタイムステップ論理式Ｌｔｓ（即ち候補φ_ｉの論理和）を制約条件とする以下の式（２）に示す制約付き混合整数最適化問題を解く。

ここで、「Ｔ」は、最適化の対象となるタイムステップ数であり、目標タイムステップ数であってもよく、後述するように、目標タイムステップ数よりも小さい所定数であってもよい。この場合、好適には、制御入力生成部３５は、論理変数を連続値に近似する（連続緩和問題とする）。これにより、制御入力生成部３５は、計算量を好適に低減することができる。なお、線形論理式（ＬＴＬ）に代えてＳＴＬを採用した場合には、非線形最適化問題として記述することが可能である。

また、制御入力生成部３５は、目標タイムステップ数が長い場合（例えば所定の閾値より大きい場合）、最適化に用いる式（２）のタイムステップ数Ｔを、目標タイムステップ数より小さい値（例えば上述の閾値）に設定してもよい。この場合、制御入力生成部３５は、例えば、所定のタイムステップ数が経過する毎に、式（２）に基づく最適化問題を解くことで、逐次的に制御入力ｕ_ｋを決定する。

好適には、制御入力生成部３５は、目的タスクの達成状態に対する中間状態であるサブゴールＳｇ毎に、式（２）に基づく最適化問題を解き、使用すべき制御入力ｕ_ｋを決定してもよい。この場合、制御入力生成部３５は、次に達成すべきサブゴールＳｇ（全てのサブゴールＳｇが達成された場合には目的タスクの達成状態）までのタイムステップ数を、式（２）におけるタイムステップ数Ｔに設定する。これにより、制御入力生成部３５は、一回あたりの最適化におけるタイムステップ数Ｔを削減し、最適化の計算量を好適に削減することができる。

（６－７）サブタスクシーケンス生成部
サブタスクシーケンス生成部３６は、制御入力生成部３５から供給される制御入力情報Ｉｃと、アプリケーション情報記憶部４１が記憶するサブタスク情報Ｉ４とに基づき、サブタスクシーケンスを生成する。この場合、サブタスクシーケンス生成部３６は、サブタスク情報Ｉ４を参照することで、ロボット５が受け付け可能なサブタスクを認識し、制御入力情報Ｉｃが示すタイムステップ毎の制御入力をサブタスクに変換する。

例えば、サブタスク情報Ｉ４には、ピックアンドプレイスを目的タスクとする場合にロボット５が受け付け可能なサブタスクとして、ロボットハンドの移動（リーチング）とロボットハンドの把持（グラスピング）の２つのサブタスクを示す関数が定義されている。この場合、リーチングを表す関数「Ｍｏｖｅ」は、例えば、当該関数実行前のロボット５の初期状態、当該関数実行後のロボット５の最終状態、及び当該関数の実行に要する所要時間をそれぞれ引数とする関数である。また、グラスピングを表す関数「Ｇｒａｓｐ」は、例えば、当該関数実行前のロボット５の状態、及び当該関数実行前の把持対象の対象物の状態, 論理変数δをそれぞれ引数とする関数である。ここで、関数「Ｇｒａｓｐ」は、論理変数δが「１」のときに掴む動作を行うこと表し、論理変数δが「０」のときに放す動作を行うこと表す。この場合、サブタスクシーケンス生成部３６は、関数「Ｍｏｖｅ」を、制御入力情報Ｉｃが示すタイムステップ毎の制御入力により定まるロボットハンドの軌道に基づき決定し、関数「Ｇｒａｓｐ」を、制御入力情報Ｉｃが示すタイムステップ毎の論理変数δの遷移に基づき決定する。

そして、サブタスクシーケンス生成部３６は、関数「Ｍｏｖｅ」と関数「Ｇｒａｓｐ」とにより構成されるサブタスクシーケンスを生成し、当該サブタスクシーケンスを示す制御信号Ｓ３をロボット５に供給する。例えば、目的タスクが「最終的に対象物（ｉ＝２）が領域Ｇに存在する」の場合、サブタスクシーケンス生成部３６は、対象物（ｉ＝２）に最も近いロボットハンドに対し、関数「Ｍｏｖｅ」、関数「Ｇｒａｓｐ」、関数「Ｍｏｖｅ」、関数「Ｇｒａｓｐ」のサブタスクシーケンスを生成する。この場合、対象物（ｉ＝２）に最も近いロボットハンドは、１つめの関数「Ｍｏｖｅ」により対象物（ｉ＝２）の位置まで移動し、１つめの関数「Ｇｒａｓｐ」により対象物（ｉ＝２）を把持し、２つめの関数「Ｍｏｖｅ」により領域Ｇまで移動し、２つめの関数「Ｇｒａｓｐ」により対象物（ｉ＝２）を領域Ｇに載置する。

（９）処理フロー
図８は、第１実施形態において制御装置１が実行するロボット制御処理の概要を示すフローチャートの一例である。

まず、制御装置１の抽象状態設定部１５は、検出装置７からインターフェース１３を介して供給される検出信号Ｓ４と物体モデル情報Ｉ６とに基づき、作業空間６の状態認識を行い、状態情報Ｉｍを生成する（ステップＳ１０）。また、抽象状態設定部１５は、状態情報Ｉｍと抽象状態指定情報Ｉ１とに基づき、作業空間６における抽象状態を設定し、設定した抽象状態を示す抽象状態設定情報ＩＳを生成する（ステップＳ１１）。

そして、最終目標設定部１６は、入力信号Ｓ１等により指定された目的タスクから、最終目標を示す最終目標論理式Ｌｔａｇを設定する（ステップＳ１２）。この場合、最終目標設定部１６は、制約条件情報Ｉ２を参照することで、目的タスクの実行における制約条件を、最終目標論理式Ｌｔａｇに付加する。なお、ステップＳ１２の処理は、ステップＳ１１よりも前に実行されてもよい。

次に、サブゴール設定部１７は、ステップＳ１１で設定された抽象状態と、ステップＳ１２で設定された最終目標を示す最終目標論理式Ｌｔａｇとに基づき、サブゴールＳｇを設定する（ステップＳ１３）。この場合、サブゴール設定部１７は、サブゴール推論情報Ｉ７を参照することで構成したサブゴール推論器に対し、当該サブゴール推論器に上述の抽象状態と最終目標論理式Ｌｔａｇとを入力し、その推論結果に基づき、サブゴールＳｇを設定する。

次に、動作シーケンス生成部１８は、最終目標である最終目標論理式ＬｔａｇとサブゴールＳｇとを統合する（ステップＳ１４）。これにより、動作シーケンス生成部１８は、統合論理式Ｌｉｇを生成する。そして、動作シーケンス生成部１８は、統合論理式Ｌｉｇと状態情報Ｉｍとアプリケーション情報とに基づき、最適化処理などを行うことで、ロボット５の動作シーケンスであるサブタスクシーケンスを決定する（ステップＳ１５）。そして、動作シーケンス生成部１８は、インターフェース１３を介し、サブタスクシーケンスを示す制御信号Ｓ３をロボット５へ出力する。

（１０）変形例
サブゴール設定部１７は、学習されたサブゴール推論器に基づき、サブゴールＳｇを決定する代わりに、サブゴール推論情報Ｉ７を用いたテンプレートマッチングを行うことで、サブゴールＳｇを決定してもよい。

この場合、サブゴール推論情報Ｉ７は、想定可能な抽象状態及び最終目標論理式Ｌｔａｇの組合せの各々に対して設定すべきサブゴールＳｇが関連付けられたレコードから構成されるテーブル（データベース）となる。そして、目的タスクが指定された場合、サブゴール設定部１７は、抽象状態設定部１５が生成した抽象状態設定情報ＩＳが示す抽象状態と、最終目標設定部１６が生成した最終目標論理式Ｌｔａｇとに一致するレコードを、上述のテーブルから検索する。そして、サブゴール設定部１７は、検索したレコードに記されたサブゴールＳｇを、設定すべきサブゴールＳｇとして認識する。

ここで、抽象状態設定部１５が生成した抽象状態設定情報ＩＳが示す抽象状態と、最終目標設定部１６が生成した最終目標論理式Ｌｔａｇとに完全一致するレコードが存在しない場合について補足説明する。この場合、サブゴール設定部１７は、対象の抽象状態及び最終目標論理式Ｌｔａｇの組合せに最も類似する抽象状態及び最終目標論理式Ｌｔａｇに対応するレコードのサブゴールを、設定すべきサブゴールＳｇとして認識する。例えば、サブゴール設定部１７は、対象の抽象状態及び最終目標論理式Ｌｔａｇの組合せに対し、任意の類似度（特徴空間における距離を含む）をレコード毎に算出し、当該類似度が最も高いレコードのサブゴールを、設定すべきサブゴールＳｇとして認識する。

このように、サブゴール設定部１７は、学習を伴わずに生成されたサブゴール推論情報Ｉ７に基づき、サブゴールＳｇを決定してもよい。

＜第２実施形態＞
図９は、第２実施形態における制御装置１Ａの概略構成図である。第２実施形態における制御装置１Ａは、サブゴールＳｇを最終目標論理式Ｌｔａｇに基づくことなく生成し、かつ、サブゴールＳｇを最適化における制約条件として定める点について、第１実施形態における制御装置１と異なる。以後では、第１実施形態と同様となる第２実施形態の構成要素については、適宜同一の符号を付し、その説明を省略する。

制御装置１Ａは、第１実施形態において説明した図２に示すハードウェア構成を有する。そして、図９に示すように、制御装置１Ａのプロセッサ１１は、機能的には、抽象状態設定部１５と、最終目標設定部１６と、サブゴール設定部１７Ａと、動作シーケンス生成部１８Ａとを有する。抽象状態設定部１５は、第１実施形態の抽象状態設定部１５と同一処理を行うことで、状態情報Ｉｍ及び抽象状態設定情報ＩＳを生成する。また、最終目標設定部１６は、第１実施形態の最終目標設定部１６と同一処理を行うことで、最終目標論理式Ｌｔａｇを生成する。

サブゴール設定部１７Ａは、抽象状態設定部１５から供給される抽象状態設定情報ＩＳと、サブゴール推論情報Ｉ７とに基づき、サブゴールＳｇを設定する。この場合、サブゴール推論情報Ｉ７は、サブゴール推論器のパラメータの情報を含んでいる。サブゴール推論器は、作業空間６における状態を抽象化した抽象状態が入力された場合に、当該抽象状態においてロボット５が制約される条件となる１又は複数のサブゴールＳｇを出力するように学習される。サブゴール設定部１７Ａは、サブゴール推論情報Ｉ７を参照することでサブゴール推論器を構成し、当該サブゴール推論器に抽象状態設定情報ＩＳが示す抽象状態を入力することで、サブゴール推論器の推論結果から設定すべきサブゴールＳｇを取得する。

ここで、第１実施形態のサブゴールＳｇが最終目標を達成するための中間の目標（即ち最終目標に依存したサブゴール）であるのに対し、第２実施形態のサブゴールＳｇは、最終目標に依存しない、より一般的な制約（ルール）を示す。例えば、第２実施形態のサブゴールＳｇは、ロボット５の移動可能範囲を示すものであってもよく、作業空間６に扉が存在する場合には扉を開ける動作をしなければ当該扉を通過できないといった制約であってもよい。なお、第２実施形態のサブゴールＳｇは、目的タスクの種類に依存してもよい。この場合、第２実施形態のサブゴールＳｇは、目的タスクの種類と、与えられた作業空間６の抽象状態とに基づき定まる制約であってもよい。

動作シーケンス生成部１８Ａは、最終目標論理式Ｌｔａｇと、状態情報Ｉｍと、抽象状態設定情報ＩＳと、サブゴールＳｇと、アプリケーション情報とに基づき、ロボット５に実行させるサブタスクシーケンスを生成する。この場合、動作シーケンス生成部１８は、サブゴール設定部１７から供給されるサブゴールＳｇを制約条件とする評価関数の最適化を行うことで、サブタスクシーケンスを決定する。

図１０は、第２実施形態において、アプリケーション情報記憶部４１にサブゴール推論情報Ｉ７として記憶するサブゴール推論器のパラメータを生成する学習装置８Ａの概略構成を示す。学習装置８Ａは、第１実施形態の学習装置８と同様、アプリケーション情報記憶部４１及び学習データ記憶部４２Ａを参照可能な装置であって、プロセッサとメモリとインターフェースなどを有する。学習データ記憶部４２Ａは、作業空間６における抽象状態を示す抽象状態設定情報ＩＳと、当該抽象状態においてロボット５が制約される条件となる１又は複数のサブゴールＳｇとの組み合わせを、学習データとして複数組記憶する。学習装置８Ａは、学習データ記憶部４２Ａから取得した学習データのうち、抽象状態を入力サンプルとし、サブゴールＳｇを正解データとする教師有り学習により、サブゴール推論器となる学習モデルの学習を行うことで、サブゴール推論情報Ｉ７を生成する。なお、サブゴール推論器は、目的タスクの種類毎に学習が行われてもよい。この場合、学習データ記憶部４２Ａに記憶される学習データには、目的タスクの種類に関する情報が含まれ、サブゴール推論情報Ｉ７は、目的タスクの種類毎のサブゴール推論器のパラメータを記憶する。

図１１は、第２実施形態における動作シーケンス生成部１８Ａの機能ブロックの一例である。動作シーケンス生成部１８Ａは、機能的には、タイムステップ論理式生成部３３Ａと、抽象モデル生成部３４と、制御入力生成部３５Ａと、サブタスクシーケンス生成部３６とを有する。タイムステップ論理式生成部３３Ａは、最終目標設定部１６から供給される最終目標論理式Ｌｔａｇを、各タイムステップでの状態を表した論理式であるタイムステップ論理式Ｌｔｓに変換する。抽象モデル生成部３４は、第１実施形態の抽象モデル生成部３４と同一処理を行うことで、抽象モデルΣを生成する。

制御入力生成部３５Ａは、タイムステップ論理式Ｌｔｓと、抽象モデルΣと、サブゴールＳｇとを満たし、評価関数を最適化するタイムステップ毎のロボット５への制御入力を決定する。この場合、制御入力生成部３５は、抽象モデルΣと、タイムステップ論理式Ｌｔｓと、サブゴールＳｇとを制約条件として、評価関数を最小化する最適化問題を解くことで、制御入力情報Ｉｃを生成する。この評価関数は、例えば、第１実施形態において設定される評価関数と同一である。サブタスクシーケンス生成部３６は、第１実施形態のサブタスクシーケンス生成部３６と同一処理を行うことで、制御入力生成部３５Ａが生成した制御入力情報Ｉｃとサブタスク情報Ｉ４とに基づき、サブタスクシーケンスを生成する。

図１２は、第２実施形態において制御装置１Ａが実行するロボット制御処理の概要を示すフローチャートの一例である。

まず、制御装置１Ａの抽象状態設定部１５は、検出装置７からインターフェース１３を介して供給される検出信号Ｓ４と物体モデル情報Ｉ６とに基づき、作業空間６の状態認識を行い、状態情報Ｉｍを生成する（ステップＳ２０）。また、抽象状態設定部１５は、状態情報Ｉｍと抽象状態指定情報Ｉ１とに基づき、作業空間６における抽象状態を設定し、設定した抽象状態を示す抽象状態設定情報ＩＳを生成する（ステップＳ２１）。そして、最終目標設定部１６は、入力信号Ｓ１等により指定された目的タスクから、最終目標論理式Ｌｔａｇを設定する（ステップＳ２２）。なお、ステップＳ２０～ステップＳ２２の処理は、図８のステップＳ１０～ステップＳ１２の処理と同一である。

次に、サブゴール設定部１７Ａは、ステップＳ２１で設定された抽象状態に基づき、サブゴールＳｇを設定する（ステップＳ２３）。この場合、サブゴール設定部１７Ａは、サブゴール推論情報Ｉ７を参照することで構成したサブゴール推論器に対し、当該サブゴール推論器に上述の抽象状態を入力し、その推論結果に基づき、サブゴールＳｇを設定する。なお、サブゴール設定部１７Ａは、第１実施形態の「（１０）変形例」のセクションで述べたように、学習に基づかずに生成されたサブゴール推論情報Ｉ７に基づき、抽象状態設定情報ＩＳからサブゴールＳｇを決定してもよい。

次に、動作シーケンス生成部１８Ａは、サブゴール設定部１７Ａが設定したサブゴールＳｇを制約条件として、ロボット５の動作シーケンスであるサブタスクシーケンスを決定する（ステップＳ２４）。そして、動作シーケンス生成部１８は、インターフェース１３を介し、サブタスクシーケンスを示す制御信号Ｓ３をロボット５へ出力する。

このように、第２実施形態に係る制御装置１Ａは、抽象状態設定情報ＩＳから導出されたサブゴールＳｇを制約条件とする最適化により、目的タスクの実施に実質的に必要な制約を好適に勘案したサブタスクシーケンスを生成する。これにより、制御装置１Ａは、ロボット５に目的タスクを好適に実行させることができる。

＜第３実施形態＞
図１３は、第３実施形態における制御装置１Ｂの概略構成図である。図１３に示すように、制御装置１Ｂは、主に、サブゴール設定手段１７Ｂと、動作シーケンス生成手段１８Ｂとを有する。

サブゴール設定手段１７Ｂは、ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴール「Ｓｇ」を設定する。ここで、ロボットは、制御装置１Ｂと別体に構成されてもよく、制御装置１Ｂを内蔵してもよい。サブゴール設定手段１７Ｂは、第１実施形態におけるサブゴール設定部１７又は第２実施形態におけるサブゴール設定部１７Ａとすることができる。後者の場合、サブゴール設定手段１７Ｂは、上記抽象状態に加えて、さらに最終目標に基づいてサブゴールＳｇを設定する。最終目標は、第１及び第２実施形態における最終目標論理式Ｌｔａｇとすることができる。

動作シーケンス生成手段１８Ｂは、サブゴールに基づき、ロボットに実行させる動作シーケンスを生成する。動作シーケンス生成手段１８Ｂは、第１実施形態における動作シーケンス生成部１８又は第２実施形態における動作シーケンス生成部１８Ａとすることができる。

図１４は、第３実施形態において制御装置１Ｂが実行するフローチャートの一例である。サブゴール設定手段１７Ｂは、ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールＳｇを設定する。（ステップＳ３０）。そして、動作シーケンス生成手段１８Ｂは、サブゴールに基づき、ロボットに実行させる動作シーケンスを生成する（ステップＳ３１）。

第３実施形態の構成によれば、制御装置１Ｂは、サブゴールを達成するような動作シーケンスを好適に生成し、目的タスクを好適にロボットに実行させることができる。

なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

１、１Ａ、１Ｂ制御装置
２入力装置
３表示装置
４記憶装置
５ロボット
６作業空間
７検出装置
８、８Ａ学習装置
４１アプリケーション情報記憶部
４２、４２Ａ学習データ記憶部
１００ロボット制御システム

Claims

ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、
前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、
を有し、
前記最終目標及び前記サブゴールは、論理式であり、
前記動作シーケンス生成手段は、前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する、
制御装置。
ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、
前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、
を有し、
前記最終目標及び前記サブゴールは、論理式であり、
前記動作シーケンス生成手段は、前記最終目標の論理式に前記サブゴールの論理式を統合した統合論理式から、タイムステップ毎の状態を表す論理式であるタイムステップ論理式を生成し、当該タイムステップ論理式に基づき、前記動作シーケンスを生成する、
制御装置。
前記サブゴール設定手段は、ロボットが作業を行う作業空間における抽象状態と最終目標とが少なくとも入力された場合に当該抽象状態及び当該最終目標に応じたサブゴールを出力するように学習された推論器に基づき、前記サブゴールを設定する、請求項１または２に記載の制御装置。
前記動作シーケンス生成手段は、前記サブゴールを少なくとも制約条件とする最適化により、前記動作シーケンスを生成する、請求項１に記載の制御装置。
ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、
前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、
を有し、
前記動作シーケンス生成手段は、前記サブゴールを少なくとも制約条件とする最適化により、前記動作シーケンスを生成し、
前記サブゴール設定手段は、ロボットが作業を行う作業空間における抽象状態が少なくとも入力された場合に、当該抽象状態に応じたサブゴールを出力するように学習された推論器に基づき、前記サブゴールを設定する、制御装置。
ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、
前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、
を有し、
前記動作シーケンス生成手段は、前記サブゴールを少なくとも制約条件とする最適化により、前記動作シーケンスを生成し、
前記動作シーケンス生成手段は、
前記ロボットが動作する作業空間におけるダイナミクスを抽象化した抽象モデルを生成し、
当該抽象モデルと、前記最終目標に基づき算出されたタイムステップ毎の状態を表す論理式であるタイムステップ論理式と、前記サブゴールとを少なくとも制約条件とする最適化により、前記動作シーケンスを生成する、制御装置。
コンピュータにより、
ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定し、
前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する場合に、
前記最終目標及び前記サブゴールは、論理式であり、
前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する、
制御方法。
ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、
前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段
としてコンピュータを機能させ、
前記最終目標及び前記サブゴールは、論理式であり、
前記動作シーケンス生成手段は、前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する、
プログラム。