JP7364032B2

JP7364032B2 - 制御装置、制御方法及びプログラム

Info

Publication number: JP7364032B2
Application number: JP2022502363A
Authority: JP
Inventors: 博之大山; 伸治加美; 雅嗣小川; 永哉若山; 峰斗佐藤; 岳大伊藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2023-10-18
Anticipated expiration: 2040-02-25
Also published as: JPWO2021171358A1; WO2021171358A1; US20230104802A1

Description

本発明は、ロボットに作業させるタスクに関する処理を行う制御装置、制御方法及び記録媒体の技術分野に関する。

ロボットに作業させるタスクが与えられた場合に、当該タスクを実行するために必要なロボットの制御を行う制御手法が提案されている。例えば、特許文献１には、ハンドを有するロボットにより複数の物品を把持して容器に収容する場合に、ハンドが物品を把持する順序の組み合わせを決定し、組み合わせ毎に算出した指標に基づき、収容する物品の順序を決定するロボット制御装置が開示されている。

特開２０１８－５１６８４号公報

ロボットがタスクを実行する場合、与えられたタスクによっては、他のロボット又は他の作業者と同一の作業空間にて作業を行う必要がある。この場合のロボットの動作の決定について、特許文献１には何ら開示されていない。

本発明の目的の１つは、上述した課題を鑑み、ロボットの動作シーケンスを好適に生成することが可能な制御装置、制御方法及び記録媒体を提供することである。

制御装置の一の態様は、制御装置であって、タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の状態を検出する検出装置が出力する検出信号を取得する取得手段と、前記検出信号に基づき認識された前記作業空間内の物体の種類及び状態に関する認識結果に基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、を有し、前記物体には、前記他作業体と、前記ロボットの作業対象となる対象物とが含まれ、前記動作シーケンス生成手段は、前記他作業体の状態と、前記対象物の状態とに関する前記認識結果に基づき、前記動作シーケンスを生成する。

制御方法の一の態様は、コンピュータにより、タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の状態を検出する検出装置が出力する検出信号を取得し、前記検出信号に基づき認識された前記作業空間内の物体の種類及び状態に関する認識結果に基づき、前記ロボットに実行させる動作シーケンスを生成し、前記物体には、前記他作業体と、前記ロボットの作業対象となる対象物とが含まれ、前記他作業体の状態と、前記対象物の状態とに関する前記認識結果に基づき、前記動作シーケンスを生成する、制御方法である。

プログラムの一の態様は、タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の状態を検出する検出装置が出力する検出信号を取得する取得手段と、前記検出信号に基づき認識された前記作業空間内の物体の種類及び状態に関する認識結果に基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段としてコンピュータを機能させ、前記物体には、前記他作業体と、前記ロボットの作業対象となる対象物とが含まれ、前記動作シーケンス生成手段は、前記他作業体の状態と、前記対象物の状態とに関する前記認識結果に基づき、前記動作シーケンスを生成する、プログラムである。

本発明によれば、ロボットと他作業体とが協働作業を行う場合に、ロボットの動作シーケンスを好適に生成することができる。

ロボット制御システムの構成を示す。制御装置のハードウェア構成を示す。アプリケーション情報のデータ構造の一例を示す。制御装置の機能ブロックの一例である。認識部の機能ブロックの一例である。動作シーケンス生成部の機能ブロックの一例である。作業空間の俯瞰図を示す。第１実施形態において制御装置が実行するロボット制御処理の概要を示すフローチャートの一例である。（Ａ）第１応用例における作業空間の俯瞰図の一例である。（Ｂ）第２応用例における作業空間の俯瞰図の一例である。（Ｃ）第３応用例における作業空間の俯瞰図の一例である。変形例におけるロボット制御処理の概要を示すフローチャートの一例である。第２実施形態における制御装置の概略構成図である。第２実施形態における制御装置の処理手順を示すフローチャートの一例である。

以下、図面を参照しながら、制御装置、制御方法及び記録媒体の実施形態について説明する。

＜第１実施形態＞
（１）システム構成
図１は、第１実施形態に係るロボット制御システム１００の構成を示す。ロボット制御システム１００は、主に、制御装置１と、入力装置２と、表示装置３と、記憶装置４と、ロボット５と、検出装置７と、を備える。

制御装置１は、ロボット５に実行させるタスク（「目的タスク」とも呼ぶ。）が指定された場合に、ロボット５が受付可能な単純なタスクのタイムステップ（時間刻み）毎のシーケンスに目的タスクを変換し、当該シーケンスをロボット５に供給する。以後では、ロボット５が受付可能な単位により目的タスクを分解したタスク（コマンド）を、「サブタスク」と呼び、目的タスクを達成するためにロボット５が実行すべきサブタスクのシーケンスを「サブタスクシーケンス」とも呼ぶ。サブタスクシーケンスは、ロボット５の一連の動作を規定する動作シーケンスに相当する。

制御装置１は、入力装置２、表示装置３、記憶装置４、ロボット５及び検出装置７と、通信網を介し、又は、有線若しくは無線による直接通信により、データ通信を行う。例えば、制御装置１は、入力装置２から、目的タスクを指定するための入力信号「Ｓ１」を受信する。また、制御装置１は、表示装置３に対し、ロボット５に実行させるタスクに関する表示を行うための表示信号「Ｓ２」を送信する。また、制御装置１は、ロボット５の制御に関する制御信号「Ｓ３」をロボット５に送信する。制御装置１は、検出装置７から検出信号「Ｓ４」を受信する。

入力装置２は、ユーザの入力を受け付けるインターフェースであり、例えば、タッチパネル、ボタン、キーボード、音声入力装置などが該当する。入力装置２は、ユーザの入力に基づき生成した入力信号Ｓ１を制御装置１へ供給する。表示装置３は、例えば、ディスプレイ、プロジェクタ等であり、制御装置１から供給される表示信号Ｓ２に基づき、所定の表示を行う。

記憶装置４は、アプリケーション情報記憶部４１を有する。アプリケーション情報記憶部４１は、目的タスクからサブタスクシーケンスを生成するために必要なアプリケーション情報を記憶する。アプリケーション情報の詳細は、図３を参照しながら後述する。記憶装置４は、制御装置１に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記録媒体であってもよい。また、記憶装置４は、制御装置１とデータ通信を行うサーバ装置であってもよい。この場合、記憶装置４は、複数のサーバ装置から構成されてもよい。

ロボット５は、制御装置１の制御に基づき、他作業体８と協働作業を行う。図１に示すロボット５は、一例として、物を把持可能な複数（２つ）のロボットアーム５２を制御対象として有し、作業空間６内に存在する対象物６１のピックアンドプレイス（摘み上げて移動させる処理）を行う。ロボット５は、ロボット制御部５１を有する。ロボット制御部５１は、制御信号Ｓ３によりロボットアーム５２毎に指定されたサブタスクシーケンスに基づき、各ロボットアーム５２の動作制御を行う。

作業空間６は、ロボット５が他作業体８と協働作業を行う作業空間である。図１では、作業空間６には、ロボット５による作業対象となる複数の対象物６１と、ロボット５の作業において障害となる障害物６２と、ロボットアーム５２と、ロボット５と協働して作業を行う他作業体８と、が存在している。他作業体８は、作業空間６内でロボット５と共に作業を行う作業者であってもよく、作業空間６内でロボット５と共に作業を行う作業ロボットであってもよい。

検出装置７は、作業空間６内の状態を検出するカメラ、測域センサ、ソナーまたはこれらの組み合わせとなる１又は複数のセンサである。検出装置７は、生成した検出信号Ｓ４を制御装置１に供給する。検出信号Ｓ４は、作業空間６内を撮影した画像データであってもよく、作業空間６内の物体の位置を示す点群データであってもよい。検出装置７は、作業空間６内で移動する自走式又は飛行式のセンサ（ドローンを含む）であってもよい。また、検出装置７は、ロボット５に設けられたセンサ、他作業体８又は作業空間６内に存在するベルトコンベアなどの他の工作機器に設けられたセンサなどを含んでもよい。また、検出装置７は、作業空間６内の音を検出するセンサを含んでもよい。このように、検出装置７は、作業空間６内の状態を検出する種々のセンサであって、任意の場所に設けられたセンサであってもよい。

なお、他作業体８には、他作業体８の動作認識（モーションキャプチャ）を行うためのマーカ又はセンサが設けられてもよい。この場合、他作業体８の関節、手先などの他作業体８の動作認識において特徴的な箇所である特徴点に、上述のマーカ又はセンサが設けられる。特徴点に設けられたマーカの位置を検出するセンサ又は特徴点に設けられたセンサは、検出装置７の一例である。

なお、図１に示すロボット制御システム１００の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、ロボット５は複数台存在してもよい。また、ロボット５は、ロボットアーム５２を１つのみ又は３つ以上備えてもよい。これらの場合であっても、制御装置１は、目的タスクに基づき、ロボット５毎又はロボットアーム５２毎に実行すべきサブタスクシーケンスを生成し、当該サブタスクシーケンスを示す制御信号Ｓ３を、対象のロボット５に送信する。また、検出装置７は、ロボット５の一部であってもよい。また、ロボット制御部５１は、ロボット５とは別体に構成されてもよく、制御装置１に含まれてもよい。また、入力装置２及び表示装置３は、夫々、制御装置１に内蔵されるなどの態様により、制御装置１と同一の装置（例えばタブレット型端末）として構成されてもよい。また、制御装置１は、複数の装置から構成されてもよい。この場合、制御装置１を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、これらの複数の装置間において行う。また、ロボット５には、制御装置１の機能が組み込まれていてもよい。

（２）制御装置のハードウェア構成
図２は、制御装置１のハードウェア構成を示す。制御装置１は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３とを含む。プロセッサ１１、メモリ１２及びインターフェース１３は、データバス１９を介して接続されている。

プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサである。

メモリ１２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの各種のメモリにより構成される。また、メモリ１２には、制御装置１が所定の処理を実行するためのプログラムが記憶される。また、メモリ１２は、作業メモリとして使用され、記憶装置４から取得した情報等を一時的に記憶する。なお、メモリ１２は、記憶装置４として機能してもよい。同様に、記憶装置４は、制御装置１のメモリ１２として機能してもよい。なお、制御装置１が実行するプログラムは、メモリ１２以外の記録媒体に記憶されてもよい。

インターフェース１３は、制御装置１と外部装置とを電気的に接続するためのインターフェースである。例えば、インターフェース１３は、制御装置１と入力装置２とを接続するためのインターフェース、制御装置１と表示装置３とを接続するためのインターフェース、及び制御装置１と記憶装置４とを接続するためのインターフェースを含む。また、インターフェース１３は、制御装置１とロボット５とを接続するためのインターフェース、及び制御装置１と検出装置７とを接続するためのインターフェースを含む。これらの接続は、有線接続であってもよく、無線接続であってもよい。例えば、制御装置１と外部装置とを接続するためのインターフェースは、プロセッサ１１の制御に基づき他の装置とデータの送受信を有線又は無線により行うための通信インターフェースであってもよい。他の例では、制御装置１と外部装置とは、ケーブル等により接続されてもよい。この場合、インターフェース１３は、外部装置とデータの授受を行うためのＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ＳＡＴＡ（ＳｅｒｉａｌＡＴＡｔｔａｃｈｍｅｎｔ）などに準拠したインターフェースを含む。

なお、制御装置１のハードウェア構成は、図２に示す構成に限定されない。例えば、制御装置１は、入力装置２、表示装置３及び記憶装置４の少なくとも一方を含んでもよい。また、制御装置１は、スピーカなどの音出力装置と接続又は内蔵してもよい。これらの場合、制御装置１は、入力機能及び出力機能が本体と一体となったタブレット型端末等であってもよい。

（３）アプリケーション情報
次に、アプリケーション情報記憶部４１が記憶するアプリケーション情報のデータ構造について説明する。

図３は、アプリケーション情報記憶部４１に記憶されるアプリケーション情報のデータ構造の一例を示す。図３に示すように、アプリケーション情報記憶部４１は、抽象状態指定情報Ｉ１と、制約条件情報Ｉ２と、動作限界情報Ｉ３と、サブタスク情報Ｉ４と、抽象モデル情報Ｉ５と、物体モデル情報Ｉ６と、他作業体動作モデル情報Ｉ７と、動作認識情報Ｉ８と、動作予測情報Ｉ９と、作業効率情報Ｉ１０とを含む。

抽象状態指定情報Ｉ１は、サブタスクシーケンスの生成にあたり定義する必要がある抽象状態を指定する情報である。この抽象状態は、作業空間６内における物体の抽象的な状態であって、後述する目標論理式において使用する命題として定められる。例えば、抽象状態指定情報Ｉ１は、目的タスクの種類毎に、定義する必要がある抽象状態を指定する。なお、目的タスクは、例えば、ピックアンドプレイス、移動物体の捕獲、ねじ回しなどの種々の種類のタスクであってもよい。

制約条件情報Ｉ２は、目的タスクを実行する際の制約条件を示す情報である。制約条件情報Ｉ２は、例えば、目的タスクがピックアンドプレイスの場合、障害物にロボット５（ロボットアーム５２）が接触してはいけないという制約条件、ロボットアーム５２同士が接触してはいけないという制約条件などを示す。なお、制約条件情報Ｉ２は、目的タスクの種類毎に夫々適した制約条件を記録した情報であってもよい。

動作限界情報Ｉ３は、制御装置１により制御が行われるロボット５の動作限界に関する情報を示す。動作限界情報Ｉ３は、例えば、図１に示すロボット５の場合には、ロボットアーム５２のリーチングの最高速度等を規定する情報である。

サブタスク情報Ｉ４は、ロボット５が受付可能なサブタスクの情報を示す。例えば、目的タスクがピックアンドプレイスの場合には、サブタスク情報Ｉ４は、ロボットアーム５２の移動であるリーチングと、ロボットアーム５２による把持であるグラスピングとをサブタスクとして規定する。サブタスク情報Ｉ４は、目的タスクの種類毎に使用可能なサブタスクの情報を示すものであってもよい。

抽象モデル情報Ｉ５は、作業空間６におけるダイナミクスを抽象化した抽象モデルに関する情報である。抽象モデルは、ロボット５に関する現実のダイナミクスをハイブリッドシステムにより抽象化したモデルにより表されている。抽象モデル情報Ｉ５は、上述のハイブリッドシステムにおけるダイナミクスの切り替わりの条件を示す情報を含む。切り替わりの条件は、例えば、図１に示すピックアンドプレイスの場合、対象物６１はロボットアーム５２の手先により把持されなければ移動できないという条件などが該当する。抽象モデル情報Ｉ５は、目的タスクの種類毎に適した抽象モデルに関する情報を有している。なお、他作業体８のダイナミクスを抽象化した動的モデルに関する情報は、後述する他作業体動作モデル情報Ｉ７として、抽象モデル情報Ｉ５とは別に記憶されている。

物体モデル情報Ｉ６は、検出装置７が生成した検出信号Ｓ４から認識すべき各物体（図１の例では、ロボットアーム５２、対象物６１、他作業体８及び障害物６２など）の物体モデルに関する情報である。物体モデル情報Ｉ６は、例えば、上述した各物体の種類、位置、又は／及び姿勢を制御装置１が認識するために必要な情報と、各物体の３次元形状を認識するためのＣＡＤ（ＣｏｍｐｕｔｅｒＡｉｄｅｄＤｅｓｉｇｎ）データなどの３次元形状情報とを含んでいる。前者の情報は、ニューラルネットワークなどの機械学習における学習モデルを学習することで得られた推論器のパラメータを含む。この推論器は、例えば、画像が入力された場合に、当該画像において被写体となる物体の種類、位置、姿勢等を出力するように予め学習される。

他作業体動作モデル情報Ｉ７は、他作業体８のダイナミクスを抽象化した動的モデルに関する情報である。本実施形態では、他作業体動作モデル情報Ｉ７は、対象とする他作業体８の想定される動作毎に、当該動作におけるダイナミクスの抽象的なモデル（「他作業体動作モデルＭｏ１」とも呼ぶ。）を示す情報を含む。例えば、他作業体８が人（作業者）である場合には、走る、歩く、物を掴む、作業位置を変える、などの人が作業中になし得る動作毎の他作業体動作モデルＭｏ１が他作業体動作モデル情報Ｉ７に含まれる。他作業体８がロボットである場合も同様に、ロボットが作業中になし得る動作毎の他作業体動作モデルＭｏ１が他作業体動作モデル情報Ｉ７に含まれる。また、各他作業体動作モデルは、動作速度などの動作の態様を定めるパラメータを有する。このパラメータは、初期値を夫々有し、後述する制御装置１の学習処理により更新される。他作業体動作モデル情報Ｉ７は、他作業体８の動作毎に他作業体動作モデルＭｏ１を記録したデータベースであってもよい。

動作認識情報Ｉ８は、他作業体８の動作を認識するために必要な情報を記憶する。動作認識情報Ｉ８は、例えば、他作業体８が被写体となる所定フレーム数の時系列の画像が入力された場合に当該被写体の動作を推論するように学習された推論器のパラメータであってもよい。他の例では、動作認識情報Ｉ８は、他作業体８の予め定められた複数個の特徴点の座標位置を示す時系列データが入力された場合に、当該被写体の動作を推論するように学習された推論器のパラメータであってもよい。これらの場合の推論器のパラメータは、例えば、深層学習に基づく学習モデル、サポートベクターマシーンなどの他の機械学習に基づく学習モデル、又はこれらの組合せの学習モデルを学習することで得られる。なお、上述の推論器は、他作業体８の種類毎又は／及び目的タスクの種類毎に学習されてもよい。この場合、動作認識情報Ｉ８は、他作業体８の種類毎又は／及び目的タスクの種類毎に予め学習された推論器のパラメータの情報を含む。

動作予測情報Ｉ９は、他作業体８の動作を予測するために必要な情報である。具体的には、動作予測情報Ｉ９は、他作業体８の現在の動作または現在の動作を含む過去の動作シーケンスから、次に他作業体８が実行する動作又は動作シーケンスを特定するための情報である。動作予測情報Ｉ９は、ルックアップテーブルであってもよく、機械学習により得られた推論器のパラメータであってもよい。他の例では、動作予測情報Ｉ９は、他作業体８が繰り返し動作を行うロボットである場合に、繰り返される動作及びその周期を示す情報であってもよい。動作予測情報Ｉ９は、目的タスクの種類毎又は／及び他作業体８の種類毎にアプリケーション情報記憶部４１に記憶されてもよい。また、動作予測情報Ｉ９は、予めアプリケーション情報記憶部４１に記憶される代わりに、制御装置１が実行する後述の学習処理により生成されてもよい。

作業効率情報Ｉ１０は、作業空間６に存在する他作業体８の作業効率を示す情報である。この作業効率は、所定の値域を有する数値により表される。作業効率情報Ｉ１０は、予めアプリケーション情報記憶部４１に記憶されてもよく、制御装置１が実行する後述の学習処理により生成されてもよい。この作業効率情報Ｉ１０は、好適には、他作業体８が複数存在し、かつ、他作業体８間の作業が関連することにより、他作業体８の作業の進捗度合を揃える必要がある目的タスクにおいて用いられる。よって、他作業体８が単数の場合、及び、他作業体８の作業の進捗度合を揃える必要がない目的タスクの場合には、アプリケーション情報記憶部４１は、作業効率情報Ｉ１０を記憶しなくともよい。

なお、アプリケーション情報記憶部４１は、上述した情報の他、サブタスクシーケンスの生成処理に関する種々の情報を記憶してもよい。

（４）制御装置の処理概要
図４は、制御装置１の処理の概要を示す機能ブロックの一例である。制御装置１のプロセッサ１１は、機能的には、認識部１５と、学習部１６と、動作シーケンス生成部１７とを有する。なお、図４では、各ブロック間で授受が行われるデータの一例が示されているが、これに限定されない。後述する他の機能ブロックの図においても同様である。

認識部１５は、物体モデル情報Ｉ６、動作認識情報Ｉ８及び動作予測情報Ｉ９を参照し、検出信号Ｓ４を解析することで、作業空間６内の物体（他作業体８及び障害物などを含む）の状態及び他作業体８の動作を認識する。また、認識部１５は、作業効率情報Ｉ１０を参照し、他作業体８の作業効率の認識を行う。そして、認識部１５は、認識部１５が認識したこれらの認識結果「Ｒ」を、学習部１６及び動作シーケンス生成部１７に夫々供給する。なお、認識部１５に相当する機能を、検出装置７が備えてもよい。この場合、検出装置７は、認識結果Ｒを、制御装置１に供給する

学習部１６は、認識部１５から供給される認識結果Ｒに基づき、他作業体８の動作を学習することで、他作業体動作モデル情報Ｉ７、動作予測情報Ｉ９及び作業効率情報Ｉ１０の更新を行う。

まず、他作業体動作モデル情報Ｉ７の更新について説明する。学習部１６は、認識部１５から時系列により送信される認識結果Ｒに基づき、認識部１５が認識した他作業体８の動作に関するパラメータを学習する。このパラメータは、動作を規定する任意のパラメータであって、例えば、動作の速度、加速度、又は角速度などの情報である。この場合、学習部１６は、複数回分の動作を表す認識結果Ｒに基づき、当該動作のパラメータを統計処理により学習してもよい。この場合、学習部１６は、認識部１５が認識した他作業体８の動作に関するパラメータを所定回数だけ算出し、算出した所定回数分の算出値の平均などの代表値を算出することで、当該パラメータを学習する。そして、学習部１６は、学習結果に基づき、動作シーケンス生成部１７が後に参照する他作業体動作モデル情報Ｉ７を更新する。これにより、他作業体動作モデルＭｏ１のパラメータが好適に学習される。

次に、動作予測情報Ｉ９の更新について説明する。学習部１６は、認識部１５から時系列により送信される認識結果Ｒに基づき、他作業体８が一連の動作シーケンスを周期的に実行していることを認識した場合、周期的に実行される動作シーケンスに関する情報を、対象の他作業体８に対する動作予測情報Ｉ９として、アプリケーション情報記憶部４１に記憶する。

作業効率情報Ｉ１０の更新について説明する。学習部１６は、他作業体８が複数存在する場合に、認識部１５から時系列により送信される認識結果Ｒに基づき、各他作業体８の作業の捗り具合（進捗の度合）を示す作業効率を決定する。ここで、学習部１６は、各他作業体８が１又は複数の動作を繰り返し実行する場合には、１又は複数の動作を１周期分実行するのに要する時間を計測する。そして、学習部１６は、上述の時間が短い他作業体８ほど、対応する作業効率を高く設定する。

動作シーケンス生成部１７は、入力信号Ｓ１により特定される目的タスクと、認識部１５から供給される認識結果Ｒと、アプリケーション情報記憶部４１が記憶する各種のアプリケーション情報とに基づき、ロボット５に実行させるサブタスクシーケンスを生成する。この場合、後述するように、動作シーケンス生成部１７は、認識結果Ｒに基づき他作業体８のダイナミクスの抽象モデルを決定し、他作業体８及びロボット５を含む作業空間６内の全体の抽象モデルを生成する。これにより、動作シーケンス生成部１７は、他作業体８と協働作業をロボット５に実行させるためのサブタスクシーケンスを好適に生成する。そして、動作シーケンス生成部１７は、生成したサブタスクシーケンスを少なくとも示した制御信号Ｓ３を、ロボット５へ送信する。ここで、制御信号Ｓ３は、サブタスクシーケンスを構成する各サブタスクの実行順序及び実行タイミングを示す情報を含んでいる。また、動作シーケンス生成部１７は、目的タスクを受け付ける場合に、目的タスクを入力する画面を表示するための表示信号Ｓ２を表示装置３に送信することで、表示装置３に上述の画面を表示させる。

なお、図４において説明した認識部１５、学習部１６及び動作シーケンス生成部１７の各構成要素は、例えば、プロセッサ１１がプログラムを実行することによって実現できる。より具体的には、各構成要素は、メモリ１２又は記憶装置４に格納されたプログラムを、プロセッサ１１が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばＦＰＧＡ（field-programmable gate array）又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。

（５）認識部の詳細
図５は、認識部１５の機能的な構成を示すブロック図である。認識部１５は、機能的には、物体識別部２１と、状態認識部２２と、動作認識部２３と、動作予測部２４と、作業効率認識部２５とを有する。

物体識別部２１は、検出装置７から供給される検出信号Ｓ４と、物体モデル情報Ｉ６とに基づき、作業空間６内の物体の識別を行う。そして、物体識別部２１は、状態認識部２２及び動作認識部２３に対し、物体識別結果「Ｒ０」及び検出信号Ｓ４を供給し、作業効率認識部２５に対し、物体識別結果Ｒ０を供給する。また、物体識別部２１は、物体識別結果Ｒ０を、認識結果Ｒの一部として動作シーケンス生成部１７に供給する。

ここで、物体識別部２１による物体の識別について補足説明する。物体識別部２１は、ロボット５（図１ではロボットアーム５２）、他作業体８、ロボット５及び他作業体８が取り扱う道具、部品などの対象物、障害物などの作業空間６内の種々の物体の存在を認識する。ここで、作業空間６の各物体にマーカが付されている場合には、物体識別部２１は、検出信号Ｓ４に基づきマーカを特定することで、作業空間６内の物体の識別を行ってもよい。この場合、マーカは、付される物体ごとに異なる属性（例えば、色又は反射率）を有してもよい。この場合、物体識別部２１は、各マーカが付された物体を、検出信号Ｓ４から特定される反射率又は色等に基づき識別する。なお、物体識別部２１は、上述のマーカを用いることなく、公知の画像認識処理などを用いて作業空間６内の物体の識別を行ってもよい。例えば、入力された画像の被写体となる物体の種類を出力するように学習された推論器のパラメータが物体モデル情報Ｉ６に記憶されている場合、物体識別部２１は、当該推論器に検出信号Ｓ４を入力することで、作業空間６内の物体の識別を行う。

状態認識部２２は、時系列により得られる検出信号Ｓ４に基づき、作業空間６内の物体の状態を認識する。例えば、状態認識部２２は、ロボット５による作業対象となる対象物及び障害となる障害物等の位置、姿勢、速度（例えば並進速度、角速度ベクトル）などを認識する。また、状態認識部２２は、他作業体８の関節などの特徴点の位置、姿勢及び速度を認識する。

ここで、他作業体８の特徴点毎にマーカが付されている場合には、状態認識部２２は、検出信号Ｓ４に基づきマーカを特定することで、他作業体８の各特徴点の検出を行う。この場合、状態認識部２２は、特徴点間の位置関係を示す物体モデル情報Ｉ６を参照し、検出信号Ｓ４により特定される複数のマーカ位置から、他作業体８の各特徴点を識別する。なお、状態認識部２２は、画像認識処理などを用いて、上述のマーカが付されていない他作業体８の各特徴点の検出を行ってもよい。この場合、状態認識部２２は、物体モデル情報Ｉ６を参照して構成した推論器に画像である検出信号Ｓ４を入力し、当該推論器の出力に基づき各特徴点の位置及び姿勢を特定してもよい。この場合、推論器は、画像である検出信号Ｓ４が入力されたときに、検出信号Ｓ４の被写体となる他作業体８の特徴点の位置及び姿勢を出力するように学習される。さらに、状態認識部２２は、このように特定した特徴点の位置の推移を示す時系列データに基づき、特徴点の速度を算出する。

状態認識部２２は、状態認識部２２による作業空間６内の物体の状態の認識結果である状態認識結果「Ｒ１」を、認識結果Ｒの一部として動作シーケンス生成部１７に供給する。

動作認識部２３は、動作認識情報Ｉ８と、検出信号Ｓ４とに基づき、他作業体８の動作を認識する。例えば、動作認識部２３は、他作業体８を被写体とする時系列の画像が検出信号Ｓ４に含まれる場合、動作認識情報Ｉ８に基づき構成した推論器に当該画像を入力することで、他作業体８の動作の推論を行う。他の例では、動作認識部２３は、状態認識部２２が出力する状態認識結果Ｒ１に基づき、他作業体８の動作を認識してもよい。この場合、動作認識部２３は、状態認識結果Ｒ１に基づき、他作業体８の所定個数の特徴点の座標位置を示す時系列データを取得する。そして、動作認識部２３は、動作認識情報Ｉ８に基づき構成した推論器にこの時系列データを入力することで、他作業体８の動作の推論を行う。そして、動作認識部２３は、認識した他作業体８の動作を示す動作認識結果「Ｒ２」を、動作予測部２４に供給すると共に、認識結果Ｒの一部として動作シーケンス生成部１７に供給する。なお、動作認識部２３は、他作業体８が両手により作業を行う場合には、手毎の動作を認識してもよい。

動作予測部２４は、動作予測情報Ｉ９と、動作認識結果Ｒ２とに基づき、他作業体８の動作を予測する。この場合、動作予測部２４は、ルックアップテーブル、推論器、又はナレッジベース等を示す動作予測情報Ｉ９を用いて、動作認識結果Ｒ２が示す直近の１以上の所定個数の動作から、他作業体８の予測される動作又は動作シーケンスを決定する。なお、動作認識部２３は、他作業体８が両手により作業を行う場合には、手毎の動作を予測してもよい。そして、動作予測部２４は、認識した他作業体８の予測される動作（動作シーケンス）を示す予測動作認識結果「Ｒ３」を、認識結果Ｒの一部として動作シーケンス生成部１７に供給する。なお、動作予測部２４は、動作が予測できなかった場合には、予測動作認識結果Ｒ３を動作シーケンス生成部１７に供給しなくともよく、動作が予測できなかった旨を示す予測動作認識結果Ｒ３を、動作シーケンス生成部１７に供給してもよい。

作業効率認識部２５は、物体識別部２１から供給される物体識別結果Ｒ０に基づき他作業体８が複数存在すると判定した場合に、作業効率情報Ｉ１０を参照することで、各他作業体８の作業効率を認識する。そして、作業効率認識部２５は、他作業体８の作業効率を示す作業効率認識結果「Ｒ４」を、認識結果Ｒの一部として動作シーケンス生成部１７に供給する。

（６）動作シーケンス生成部の詳細
次に、動作シーケンス生成部１７の詳細な処理について説明する。

（６－１）機能ブロック
図６は、動作シーケンス生成部１７の機能的な構成を示す機能ブロックの一例である。動作シーケンス生成部１７は、機能的には、抽象状態設定部３１と、目標論理式生成部３２と、タイムステップ論理式生成部３３と、他作業体抽象モデル決定部３４と、全体抽象モデル生成部３５と、効用関数設計部３６と、制御入力生成部３７と、サブタスクシーケンス生成部３８とを有する。

抽象状態設定部３１は、認識部１５から供給される物体識別結果Ｒ０及び状態認識結果Ｒ１と、アプリケーション情報記憶部４１から取得した抽象状態指定情報Ｉ１とに基づき、目的タスクを実行する際に考慮する必要がある作業空間６内の抽象状態を設定する。この場合、抽象状態設定部３１は、各抽象状態に対し、論理式で表すための命題を定義する。抽象状態設定部３１は、設定した抽象状態を示す情報（「抽象状態設定情報ＩＳ」とも呼ぶ。）を目標論理式生成部３２に供給する。

目標論理式生成部３２は、目的タスクに関する入力信号Ｓ１を入力装置２から受信した場合に、抽象状態設定情報ＩＳに基づき、入力信号Ｓ１が示す目的タスクを、最終的な達成状態を表す時相論理の論理式（「目標論理式Ｌｔａｇ」とも呼ぶ。）に変換する。この場合、目標論理式生成部３２は、アプリケーション情報記憶部４１から制約条件情報Ｉ２を参照することで、目的タスクの実行において満たすべき制約条件を、目標論理式Ｌｔａｇに付加する。そして、目標論理式生成部３２は、生成した目標論理式Ｌｔａｇを、タイムステップ論理式生成部３３に供給する。また、目標論理式生成部３２は、目的タスクに関する入力を受け付ける画面を表示するための表示信号Ｓ２を生成し、当該表示信号Ｓ２を表示装置３に供給する。

タイムステップ論理式生成部３３は、目標論理式生成部３２から供給された目標論理式Ｌｔａｇを、各タイムステップでの状態を表した論理式（「タイムステップ論理式Ｌｔｓ」とも呼ぶ。）に変換する。そして、タイムステップ論理式生成部３３は、生成したタイムステップ論理式Ｌｔｓを、制御入力生成部３７に供給する。

他作業体抽象モデル決定部３４は、認識部１５から供給される動作認識結果Ｒ２及び予測動作認識結果Ｒ３と、他作業体動作モデル情報Ｉ７とに基づき、他作業体８のダイナミクスを抽象的に表したモデル（「他作業体抽象モデルＭｏ２」とも呼ぶ。）を決定する。

ここで、他作業体抽象モデルＭｏ２の決定方法について説明する。まず、他作業体抽象モデル決定部３４は、動作認識結果Ｒ２及び予測動作認識結果Ｒ３が示す各動作に対応する他作業体動作モデルＭｏ１を、他作業体動作モデル情報Ｉ７から抽出する。そして、他作業体抽象モデル決定部３４は、抽出した他作業体動作モデルＭｏ１に基づき、他作業体抽象モデルＭｏ２を決定する。ここで、抽出した他作業体動作モデルＭｏ１が１つの場合（即ち認識部１５により１つの動作のみが認識された場合）、他作業体抽象モデル決定部３４は、当該動作に対応する他作業体動作モデルＭｏ１を、他作業体抽象モデルＭｏ２として定める。また、抽出した他作業体動作モデルＭｏ１が複数の場合（即ち認識部１５により現在の動作及び予測動作が認識された場合）、他作業体抽象モデル決定部３４は、抽出した他作業体動作モデルＭｏ１を時系列に組み合わせたモデルを、他作業体抽象モデルＭｏ２として定める。この場合、他作業体抽象モデル決定部３４は、他作業体８の各動作が行われると予測される各期間において各動作に対応する他作業体動作モデルＭｏ１が適用されるように、他作業体抽象モデルＭｏ２を定める。

全体抽象モデル生成部３５は、認識部１５から供給される物体識別結果Ｒ０、状態認識結果Ｒ１及び予測動作認識結果Ｒ３と、アプリケーション情報記憶部４１が記憶する抽象モデル情報Ｉ５と、他作業体抽象モデルＭｏ２とに基づき、作業空間６における現実のダイナミクスを抽象化した全体抽象モデル「Σ」を生成する。この場合、全体抽象モデル生成部３５は、対象のダイナミクスを連続ダイナミクスと離散ダイナミクスとが混在したハイブリッドシステムとみなし、ハイブリッドシステムに基づく全体抽象モデルΣを生成する。全体抽象モデルΣの生成方法については後述する。全体抽象モデル生成部３５は、生成した全体抽象モデルΣを、制御入力生成部３７へ供給する。

効用関数設計部３６は、認識部１５から供給される作業効率認識結果Ｒ４に基づき、制御入力生成部３７が実行する最適化処理に用いる効用関数の設計を行う。具体的には、効用関数設計部３６は、他作業体８が複数存在する場合に、他作業体８の各々の作業効率に基づき他作業体８の各々の作業に対する効用を重み付けするように、効用関数のパラメータを設定する。

制御入力生成部３７は、タイムステップ論理式生成部３３から供給されるタイムステップ論理式Ｌｔｓと、全体抽象モデル生成部３５から供給される全体抽象モデルΣとを満たし、効用関数設計部３６が設計した効用関数を最適化するタイムステップ毎のロボット５への制御入力を決定する。そして、制御入力生成部３７は、ロボット５へのタイムステップ毎の制御入力を示す情報（「制御入力情報Ｉｃ」とも呼ぶ。）を、サブタスクシーケンス生成部３８へ供給する。

サブタスクシーケンス生成部３８は、制御入力生成部３７から供給される制御入力情報Ｉｃと、アプリケーション情報記憶部４１が記憶するサブタスク情報Ｉ４とに基づき、サブタスクシーケンスを生成し、サブタスクシーケンスを示す制御信号Ｓ３を、ロボット５へ供給する。

（６－２）抽象状態設定部の詳細
抽象状態設定部３１は、認識部１５から供給される物体識別結果Ｒ０及び状態認識結果Ｒ１と、アプリケーション情報記憶部４１から取得した抽象状態指定情報Ｉ１とに基づき、作業空間６内の抽象状態を設定する。この場合、まず、抽象状態設定部３１は、抽象状態指定情報Ｉ１を参照し、作業空間６内において設定すべき抽象状態を認識する。なお、作業空間６内において設定すべき抽象状態は、目的タスクの種類によって異なる。よって、目的タスクの種類毎に設定すべき抽象状態が抽象状態指定情報Ｉ１に規定されている場合には、抽象状態設定部３１は、入力信号Ｓ１により指定された目的タスクに対応する抽象状態指定情報Ｉ１を参照し、設定すべき抽象状態を認識する。

図７は、作業空間６の俯瞰図を示す。図７に示す作業空間６には、２つのロボットアーム５２ａ、５２ｂと、４つの対象物６１（６１ａ～６１ｄ）と、障害物６２と、他作業体ハンド８１（８１ａ、８１ｂ）を有する他作業体８と、が存在している。

この場合、検出装置７が出力する検出信号Ｓ４に対する認識部１５の認識結果である物体識別結果Ｒ０及び状態認識結果Ｒ１に基づき、抽象状態設定部３１は、対象物６１の状態、障害物６２の存在範囲、他作業体８の状態、ゴール地点として設定される領域Ｇの存在範囲等を認識する。

ここでは、抽象状態設定部３１は、対象物６１ａ～６１ｄの各々の中心の位置ベクトル「ｘ_１」～「ｘ_４」を、対象物６１ａ～６１ｄの位置として認識する。また、抽象状態設定部３１は、対象物を把持するロボットハンド５３ａの位置ベクトル「ｘ_ｒ１」と、ロボットハンド５３ｂの位置ベクトル「ｘ_ｒ２」とを、ロボットアーム５２ａとロボットアーム５２ｂの位置として認識する。

また、抽象状態設定部３１は、他作業体８の一方の手である他作業体ハンド８１ａの位置ベクトル「ｘ_ｈ１」と、他作業体８の他方の手である他作業体ハンド８１ｂの位置ベクトル「ｘ_ｈ２」とを、他作業体８が物を掴む、離す、動かすなどの各種動作が行われる特徴点の位置として認識する。なお、抽象状態設定部３１は、他作業体ハンド８１ａ及び他作業体ハンド８１ｂを夫々異なる他作業体８とみなしてもよい。この場合、抽象状態設定部３１は、他作業体ハンド８１ａ及び他作業体ハンド８１ｂの各位置を、他作業体８の位置として認識する。

同様に、抽象状態設定部３１は、対象物６１ａ～６１ｄの姿勢（図７の例では対象物が球状のため不要）等、障害物６２の存在範囲、領域Ｇの存在範囲等を認識する。なお、抽象状態設定部３１は、例えば、障害物６２を直方体とみなし、領域Ｇを矩形とみなす場合には、障害物６２及び領域Ｇの各頂点の位置ベクトルを認識する。

また、抽象状態設定部３１は、抽象状態指定情報Ｉ１を参照することで、目的タスクにおいて定義すべき抽象状態を決定する。この場合、抽象状態設定部３１は、物体識別結果Ｒ０及び状態認識結果Ｒ１が示す、作業空間６内に存在する物体及び領域に関する認識結果（例えば物体及び領域の種類毎の個数）と、制約条件情報Ｉ２とに基づき、抽象状態を示す命題を定める。

図７の例では、抽象状態設定部３１は、物体識別結果Ｒ０により特定される対象物６１ａ～６１ｄに対し、夫々識別ラベル「１」～「４」を付す。また、抽象状態設定部３１は、対象物「ｉ」（ｉ＝１～４）が最終的に載置されるべき目標地点である領域Ｇ（破線枠６３参照）内に存在するという命題「ｇ_ｉ」を定義する。また、抽象状態設定部３１は、障害物６２に対して識別ラベル「Ｏ」を付し、対象物ｉが障害物Ｏに干渉しているという命題「ｏ_ｉ」を定義する。さらに、抽象状態設定部３１は、ロボットアーム５２同士が干渉するという命題「ｈ」を定義する。同様に、抽象状態設定部３１は、ロボットアーム５２と他作業体ハンド８１ａ、８１ｂとが干渉するという命題などを定義する。

このように、抽象状態設定部３１は、抽象状態指定情報Ｉ１を参照することで、定義すべき抽象状態を認識し、当該抽象状態を表す命題（上述の例ではｇ_ｉ、ｏ_ｉ、ｈ）を、対象物６１の数、ロボットアーム５２の数、障害物６２の数、他作業体８の数等に応じてそれぞれ定義する。そして、抽象状態設定部３１は、抽象状態を表す命題を示す情報を、抽象状態設定情報ＩＳとして目標論理式生成部３２に供給する。

（６－３）目標論理式生成部
まず、目標論理式生成部３２は、入力信号Ｓ１により指定された目的タスクを、時相論理を用いた論理式に変換する。なお、自然言語で表されたタスクを論理式に変換する方法は、種々の技術が存在する。例えば、図７の例において、「最終的に対象物（ｉ＝２）が領域Ｇに存在する」という目的タスクが与えられたとする。この場合、目標論理式生成部３２は、目的タスクを線形論理式（ＬＴＬ：ＬｉｎｅａｒＴｅｍｐｏｒａｌＬｏｇｉｃ）の「eventually」に相当する演算子「◇」と、抽象状態設定部３１により定義された命題「ｇ_ｉ」と用いて、論理式「◇ｇ_２」を生成する。なお、目標論理式生成部３２は、演算子「◇」以外の任意の時相論理の演算子（論理積「∧」、論理和「∨」、否定「￢」、論理包含「⇒」、always「□」、next「○」、until「Ｕ」等）を用いて論理式を表現してもよい。また、線形時相論理に限らず、ＭＴＬ（ＭｅｔｒｉｃＴｅｍｐｏｒａｌＬｏｇｉｃ）やＳＴＬ（ＳｉｇｎａｌＴｅｍｐｏｒａｌＬｏｇｉｃ）などの任意の時相論理を用いて論理式を表現してもよい。

次に、目標論理式生成部３２は、制約条件情報Ｉ２が示す制約条件を、目的タスクを示す論理式に付加することで、目標論理式Ｌｔａｇを生成する。

例えば、ピックアンドプレイスに対応する制約条件として、「ロボット５同士が干渉しない」、「対象物ｉは障害物Ｏに干渉しない」の２つが制約条件情報Ｉ２に含まれている場合、目標論理式生成部３２は、これらの制約条件を論理式に変換する。具体的には、目標論理式生成部３２は、図７の説明において抽象状態設定部３１により定義された命題「ｏ_ｉ」及び命題「ｈ」を用いて、上述の２つの制約条件を、夫々以下の論理式に変換する。
□￢ｈ
∧_ｉ□￢ｏ_ｉ

よって、この場合、目標論理式生成部３２は、「最終的に対象物（ｉ＝２）が領域Ｇに存在する」という目的タスクに対応する論理式「◇ｇ_２」に、これらの制約条件の論理式を付加することで、以下の目標論理式Ｌｔａｇを生成する。
（◇ｇ_２）∧（□￢ｈ）∧（∧_ｉ□￢ｏ_ｉ）

なお、実際には、ピックアンドプレイスに対応する制約条件は、上述した２つに限られず、「ロボットアーム５２が障害物Ｏに干渉しない」、「複数のロボットアーム５２が同じ対象物を掴まない」、「対象物同士が接触しない」、「ロボットアーム５２が他作業体ハンド８１ａ、８１ｂに干渉しない」などの制約条件が存在する。このような制約条件についても同様に、制約条件情報Ｉ２に記憶され、目標論理式Ｌｔａｇに反映される。

（６－４）目標論理式生成部
タイムステップ論理式生成部３３は、目的タスクを完了するタイムステップ数（「目標タイムステップ数」とも呼ぶ。）を定め、目標タイムステップ数で目標論理式Ｌｔａｇを満たすような各タイムステップでの状態を表す命題の組み合わせを定める。この組み合わせは、通常複数存在するため、タイムステップ論理式生成部３３は、これらの組み合わせを論理和により結合した論理式を、タイムステップ論理式Ｌｔｓとして生成する。上述の組み合わせは、ロボット５に命令する動作のシーケンスを表す論理式の候補となり、以後では「候補φ」とも呼ぶ。

ここで、図７の説明において例示した「最終的に対象物（ｉ＝２）が領域Ｇに存在する」という目的タスクが設定された場合のタイムステップ論理式生成部３３の処理の具体例について説明する。

この場合、タイムステップ論理式生成部３３は、目標論理式Ｌｔａｇとして、「（◇ｇ_２）∧（□￢ｈ）∧（∧_ｉ□￢ｏ_ｉ）」が目標論理式生成部３２から供給される。この場合、タイムステップ論理式生成部３３は、命題「ｇ_ｉ」をタイムステップの概念を含むように拡張した命題「ｇ_ｉ，ｋ」を用いる。ここで、命題「ｇ_ｉ，ｋ」は、「タイムステップｋで対象物ｉが領域Ｇに存在する」という命題である。ここで、目標タイムステップ数を「３」とした場合、目標論理式Ｌｔａｇは、以下のように書き換えられる。
（◇ｇ_２,３）∧（∧_{ｋ＝１,２,３}□￢ｈ_ｋ）∧（∧_{ｉ,ｋ＝１,２,３}□￢ｏ_ｉ）

また、◇ｇ_２,３は、以下の式に示すように書き換えることが可能である。

このとき、上述した目標論理式Ｌｔａｇは、以下に示す４つの候補「φ_１」～「φ_４」の論理和（φ_１∨φ_２∨φ_３∨φ_４）により表される。

よって、タイムステップ論理式生成部３３は、４つの候補φ_１～φ_４の論理和をタイムステップ論理式Ｌｔｓとして定める。この場合、タイムステップ論理式Ｌｔｓは、４つの候補φ_１～φ_４の少なくともいずれかが真となる場合に真となる。

次に、目標タイムステップ数の設定方法について補足説明する。

タイムステップ論理式生成部３３は、例えば、ユーザ入力により指定された作業の見込み時間に基づき、目標タイムステップ数を決定する。この場合、タイムステップ論理式生成部３３は、メモリ１２又は記憶装置４に記憶された、１タイムステップ当たりの時間幅の情報に基づき、上述の見込み時間から目標タイムステップ数を算出する。他の例では、タイムステップ論理式生成部３３は、目的タスクの種類毎に適した目標タイムステップ数を対応付けた情報を予めメモリ１２又は記憶装置４に記憶しておき、当該情報を参照することで、実行すべき目的タスクの種類に応じた目標タイムステップ数を決定する。

好適には、タイムステップ論理式生成部３３は、目標タイムステップ数を所定の初期値に設定する。そして、タイムステップ論理式生成部３３は、制御入力生成部３７が制御入力を決定できるタイムステップ論理式Ｌｔｓが生成されるまで、目標タイムステップ数を徐々に増加させる。この場合、タイムステップ論理式生成部３３は、設定した目標タイムステップ数により制御入力生成部３７が最適化処理を行った結果、最適解を導くことができなかった場合、目標タイムステップ数を所定数（１以上の整数）だけ加算する。

このとき、タイムステップ論理式生成部３３は、目標タイムステップ数の初期値を、ユーザが見込む目的タスクの作業時間に相当するタイムステップ数よりも小さい値に設定するとよい。これにより、タイムステップ論理式生成部３３は、不必要に大きな目標タイムステップ数を設定することを好適に抑制する。

（６－５）他作業体抽象モデル決定部及び全体抽象モデル生成部
全体抽象モデル生成部３５は、他作業体抽象モデルＭｏ２と、抽象モデル情報Ｉ５と、物体識別結果Ｒ０と、状態認識結果Ｒ１とに基づき、全体抽象モデルΣを生成する。ここで、抽象モデル情報Ｉ５には、目的タスクの種類毎に、全体抽象モデルΣの生成に必要な情報が記録されている。例えば、目的タスクがピックアンドプレイスの場合には、対象物の位置や数、対象物を置く領域の位置、ロボット５の台数（又はロボットアーム５２の数）等を特定しない汎用的な形式の抽象モデルが抽象モデル情報Ｉ５に記録されている。そして、全体抽象モデル生成部３５は、抽象モデル情報Ｉ５に記録された、ロボット５のダイナミクスを含む汎用的な形式の抽象モデルに対し、物体識別結果Ｒ０、状態認識結果Ｒ１及び他作業体抽象モデルＭｏ２を反映することで、全体抽象モデルΣを生成する。これにより、全体抽象モデルΣは、作業空間６内の物体の状態と、ロボット５のダイナミクスと、他作業体８のダイナミクスとが抽象的に表されたモデルとなる。なお、作業空間６内の物体の状態は、ピックアンドプレイスの場合には、対象物の位置及び数、対象物を置く領域の位置、ロボット５の台数等を示す。

ここで、ロボット５による目的タスクの作業時においては、作業空間６内のダイナミクスが頻繁に切り替わる。例えば、ピックアンドプレイスでは、ロボットアーム５２が対象物ｉを掴んでいる場合には、当該対象物ｉを動かすことができるが、ロボットアーム５２が対象物ｉを掴んでない場合には、当該対象物ｉを動かすことができない。

以上を勘案し、本実施形態においては、ピックアンドプレイスの場合、対象物ｉを掴むという動作を論理変数「δ_ｉ」により抽象表現する。この場合、例えば、全体抽象モデル生成部３５は、図７に示す作業空間６に対して設定すべき全体抽象モデルΣを、以下の式（１）により定めることができる。

ここで、「ｕ_ｊ」は、ロボットハンドｊ（「ｊ＝１」はロボットハンド５３ａ、「ｊ＝２」はロボットハンド５３ｂ）を制御するための制御入力を示す。「Ｉ」は単位行列を示す。「０」は零行例を示す。「Ａ」は、他作業体８の他作業体ハンド８１のダイナミクスを表すドリフト項であり、詳細は後述する。なお、制御入力は、ここでは、一例として速度を想定しているが、加速度であってもよい。また、「δ_ｊ,ｉ」は、ロボットハンドｊが対象物ｉを掴んでいる場合に「１」であり、その他の場合に「０」である論理変数である。また、「ｘ_ｒ１」、「ｘ_ｒ２」は、ロボットハンドｊの位置ベクトル、「ｘ_１」～「ｘ_４」は、対象物ｉの位置ベクトル、「ｘ_ｈ１」、「ｘ_ｈ２」は、他作業体ハンド８１の位置ベクトルを示す。また、「ｈ（ｘ）」は、対象物を掴める程度に対象物の近傍にロボットハンドが存在する場合に「ｈ（ｘ）≧０」となる変数であり、論理変数δとの間で以下の関係を満たす。
δ＝１ ⇔ ｈ（ｘ）≧０
この式では、対象物を掴める程度に対象物の近傍にロボットハンドが存在する場合には、ロボットハンドが対象物を掴んでいるとみなし、論理変数δを１に設定している。

また、「Ａ」は、他作業体８の他作業体ハンド８１のダイナミクスを表すドリフト項であり、以下の式（２）又は式（３）により定めることができる。

ここで、式（２）における「Δｔ」は、タイムステップ幅を示し、「∂ｘ_ｈ１／∂ｔ」及び「∂ｘ_ｈ２／∂ｔ」は、タイムステップについての他作業体ハンド８１の偏微分を示す。この場合、他作業体抽象モデル決定部３４は、他作業体８の現在の動作及び予測動作からなる動作シーケンスと、他作業体動作モデル情報Ｉ７とに基づき、「∂ｘ_ｈ１／∂ｔ」及び「∂ｘ_ｈ２／∂ｔ」に相当する他作業体抽象モデルＭｏ２を決定する。そして、全体抽象モデル生成部３５は、他作業体抽象モデル決定部３４が決定した他作業体抽象モデルＭｏ２に基づき、式（２）を設定する。

また、式（３）に示すように、全体抽象モデル生成部３５は、１タイムステップあたりの他作業体ハンド８１の位置の変位を示す「Δｘ_ｈ１」及び「Δｘ_ｈ１」を用いて、他作業体８のダイナミクスを抽象的に表してもよい。この場合、他作業体抽象モデル決定部３４は、他作業体８の現在の動作及び予測動作からなる動作シーケンスと、他作業体動作モデル情報Ｉ７と、に基づき、「Δｘ_ｈ１」及び「Δｘ_ｈ１」に相当する他作業体抽象モデルＭｏ２を決定する。そして、全体抽象モデル生成部３５は、他作業体抽象モデル決定部３４が決定した他作業体抽象モデルＭｏ２に基づき、式（３）を設定する。

ここで、式（１）は、タイムステップｋでの物体の状態とタイムステップ（ｋ＋１）での物体の状態との関係を示した差分方程式である。そして、上記の式（１）では、把持の状態が離散値である論理変数により表わされ、物体の移動は連続値により表わされているため、式（１）はハイブリッドシステムを示している。

式（１）では、ロボット５全体及び他作業体８全体の詳細なダイナミクスではなく、対象物を実際に把持するロボット５の手先であるロボットハンドのダイナミクス及び他作業体ハンド８１のダイナミクスのみを考慮している。これにより、制御入力生成部３７により最適化処理の計算量を好適に削減することができる。

また、抽象モデル情報Ｉ５には、ダイナミクスが切り替わる動作（ピックアンドプレイスの場合には対象物ｉを掴むという動作）に対応する論理変数、及び、物体識別結果Ｒ０及び状態認識結果Ｒ１から式（１）の差分方程式を導出するための情報が記録されている。よって、全体抽象モデル生成部３５は、対象物の位置や数、対象物を置く領域（図７では領域Ｇ）、ロボット５の台数等が変動する場合であっても、抽象モデル情報Ｉ５と物体識別結果Ｒ０及び状態認識結果Ｒ１とに基づき、対象の作業空間６の環境に即した全体抽象モデルΣを決定することができる。同様に、全体抽象モデル生成部３５は、他作業体抽象モデル決定部３４が動作認識結果Ｒ２及び予測動作認識結果Ｒ３に基づき決定した他作業体抽象モデルＭｏ２を用いることで、他作業体８のダイナミクスについても好適に考慮した全体抽象モデルΣを生成することができる。

なお、全体抽象モデル生成部３５は、式（１）に示されるモデルに代えて、混合論理動的（ＭＬＤ：ＭｉｘｅｄＬｏｇｉｃａｌＤｙｎａｍｉｃａｌ）システムまたはペトリネットやオートマトンなどを組み合わせたハイブリッドシステムのモデルを生成してもよい。

（６－６）効用関数設計部及び制御入力生成部
制御入力生成部３７は、タイムステップ論理式生成部３３から供給されるタイムステップ論理式Ｌｔｓと、全体抽象モデル生成部３５から供給される全体抽象モデルΣと、効用関数設計部３６から供給される効用関数とに基づき、最適となるタイムステップ毎のロボット５に対するタイムステップ毎の制御入力を決定する。この場合、制御入力生成部３７は、全体抽象モデルΣ及びタイムステップ論理式Ｌｔｓを制約条件として、効用関数設計部３６が設計した効用関数を最小化する最適化問題を解く。

効用関数設計部３６は、他作業体８が複数存在する場合に、他作業体の各々の作業に対する効用を、各他作業体８の作業効率に基づき重み付けした効用関数を設計する。なお、他作業体８が複数存在しない場合の効用関数は、例えば目的タスクの種類毎に予め定められ、メモリ１２又は記憶装置４に記憶されている。また、他作業体８が複数存在する場合の効用関数は、各他作業体８の作業効率を示すパラメータを含む効用関数であって、例えば目的タスクの種類及び他作業体８の数毎に予め定められ、メモリ１２又は記憶装置４に記憶されている。

まず、他作業体８の作業効率を考慮しない場合の効用関数の具体例について説明する。ピックアンドプレイスを目的タスクとした場合、効用関数設計部３６は、運ぶ対象となる対象物と当該対象物を運ぶ目標地点との距離「ｄ_ｋ」と制御入力「ｕ_ｋ」とが最小となる（即ちロボット５が費やすエネルギーを最小化する）ように効用関数を定める。上述の距離ｄ_ｋは、「最終的に対象物（ｉ＝２）が領域Ｇに存在する」という目的タスクの場合には、対象物（ｉ＝２）と領域Ｇとのタイムステップｋでの距離に相当する。

この場合、効用関数設計部３６は、たとえば、全タイムステップにおける距離ｄ_ｋのノルムの２乗と制御入力ｕ_ｋのノルムの２乗との和を効用関数として定める。そして、制御入力生成部３７は、全体抽象モデルΣ及びタイムステップ論理式Ｌｔｓ（即ち候補φ_ｉの論理和）を制約条件とする以下の式（４）に示す制約付き混合整数最適化問題を解く。

ここで、「Ｔ」は、最適化の対象となるタイムステップ数であり、目標タイムステップ数であってもよく、後述するように、目標タイムステップ数よりも小さい所定数であってもよい。この場合、好適には、制御入力生成部３７は、論理変数を連続値に近似する（連続緩和問題とする）。これにより、制御入力生成部３７は、計算量を好適に低減することができる。なお、線形論理式（ＬＴＬ）に代えてＳＴＬを採用した場合には、非線形最適化問題として記述することが可能である。

次に、他作業体８の作業効率を考慮する場合の効用関数の具体例について説明する。この場合、効用関数設計部３６は、複数の他作業体８の作業バランスを効用関数により調整するための作業効率を示すパラメータを効用関数に設ける。例えば、他作業体８である作業者Ａと作業者Ｂのピックアンドプレイスを目的タスクとした場合、制御入力生成部３７は、全体抽象モデルΣ及びタイムステップ論理式Ｌｔｓを制約条件とする以下の式（５）に示す制約付き混合整数最適化問題を解く。

式（５）では、効用関数設計部３６は、作業者Ａの作業における対象物ｉと作業者Ａとの距離ベクトル「ｄ_Ａｉｋ」のノルムの２乗和、作業者Ｂの作業における対象物ｊと作業者Ｂとの距離ベクトル「ｄ_Ｂｊｋ」のノルムの２乗和、及び制御入力「ｕ_ｋ」のノルムの２乗和の全タイムステップにおける重み付け合計値を、効用関数として設計している。ここで、「ａ」は作業者Ａの作業効率を示し、「ｂ」は作業者Ｂの作業効率を示す。ここで、「ａ」、「ｂ」は、スカラー値であり、「０＜ａ，ｂ＜１」を満たすように正規化されている。ここで、「ａ」、「ｂ」が大きいほど、対応する作業者の作業効率が高いことを示している。

そして、式（５）によれば、作業者Ａの作業に関する距離ベクトル「ｄ_Ａｉｋ」のノルムの２乗和と、作業者Ｂの作業に関する距離ベクトル「ｄ_Ｂｊｋ」のノルムの２乗和とは、夫々、対応する作業者の作業効率が高いほど、低い重み付けが設定される。このように、効用関数設計部３６は、作業効率の悪い（即ち作業効率の低い）作業者を優先的に助けるようなロボット５の制御入力を決定するように、効用関数を好適に設計することができる。

（６－７）サブタスクシーケンス生成部
サブタスクシーケンス生成部３８は、制御入力生成部３７から供給される制御入力情報Ｉｃと、アプリケーション情報記憶部４１が記憶するサブタスク情報Ｉ４とに基づき、サブタスクシーケンスを生成する。この場合、サブタスクシーケンス生成部３８は、サブタスク情報Ｉ４を参照することで、ロボット５が受け付け可能なサブタスクを認識し、制御入力情報Ｉｃが示すタイムステップ毎の制御入力をサブタスクに変換する。

例えば、サブタスク情報Ｉ４には、ピックアンドプレイスを目的タスクとする場合にロボット５が受け付け可能なサブタスクとして、ロボットハンドの移動（リーチング）とロボットハンドの把持（グラスピング）の２つのサブタスクを示す関数が定義されている。この場合、リーチングを表す関数「Ｍｏｖｅ」は、例えば、当該関数実行前のロボット５の初期状態、当該関数実行後のロボット５の最終状態、及び当該関数の実行に要する所要時間をそれぞれ引数とする関数である。また、グラスピングを表す関数「Ｇｒａｓｐ」は、例えば、当該関数実行前のロボット５の状態、及び当該関数実行前の把持対象の対象物の状態, 論理変数δをそれぞれ引数とする関数である。ここで、関数「Ｇｒａｓｐ」は、論理変数δが「１」のときに掴む動作を行うこと表し、論理変数δが「０」のときに放す動作を行うこと表す。この場合、サブタスクシーケンス生成部３８は、関数「Ｍｏｖｅ」を、制御入力情報Ｉｃが示すタイムステップ毎の制御入力により定まるロボットハンドの軌道に基づき決定し、関数「Ｇｒａｓｐ」を、制御入力情報Ｉｃが示すタイムステップ毎の論理変数δの遷移に基づき決定する。

そして、サブタスクシーケンス生成部３８は、関数「Ｍｏｖｅ」と関数「Ｇｒａｓｐ」とにより構成されるサブタスクシーケンスを生成し、当該サブタスクシーケンスを示す制御信号Ｓ３をロボット５に供給する。例えば、目的タスクが「最終的に対象物（ｉ＝２）が領域Ｇに存在する」の場合、サブタスクシーケンス生成部３８は、対象物（ｉ＝２）に最も近いロボットハンドに対し、関数「Ｍｏｖｅ」、関数「Ｇｒａｓｐ」、関数「Ｍｏｖｅ」、関数「Ｇｒａｓｐ」のサブタスクシーケンスを生成する。この場合、対象物（ｉ＝２）に最も近いロボットハンドは、１つめの関数「Ｍｏｖｅ」により対象物（ｉ＝２）の位置まで移動し、１つめの関数「Ｇｒａｓｐ」により対象物（ｉ＝２）を把持し、２つめの関数「Ｍｏｖｅ」により領域Ｇまで移動し、２つめの関数「Ｇｒａｓｐ」により対象物（ｉ＝２）を領域Ｇに載置する。

（７）処理フロー
図８は、第１実施形態において制御装置１が実行するロボット制御処理の概要を示すフローチャートの一例である。

まず、制御装置１は、検出装置７から供給される検出信号Ｓ４を取得する（ステップＳ１０）。そして、制御装置１の認識部１５は、検出信号Ｓ４及び物体モデル情報Ｉ６に基づき、作業空間６における物体の識別及び物体の状態認識を行う（ステップＳ１１）。これにより、認識部１５は、物体識別結果Ｒ０及び状態認識結果Ｒ１を生成する。

次に、制御装置１は、物体識別結果Ｒ０に基づき、他作業体８が存在するか否か判定する（ステップＳ１２）。そして、制御装置１は、他作業体８が存在すると判定した場合（ステップＳ１２；Ｙｅｓ）、ステップＳ１３～Ｓ１６の処理を実行する。一方、制御装置１は、他作業体８が存在しないと判定した場合（ステップＳ１２；Ｎｏ）、ステップＳ１７へ処理を進める。

他作業体８が存在すると判定後（ステップＳ１２；Ｙｅｓ）、認識部１５は、動作認識情報Ｉ８に基づき、作業空間６に存在する他作業体８の動作を認識する（ステップＳ１３）。これにより、認識部１５は、動作認識結果Ｒ２を生成する。さらに、認識部１５は、動作予測情報Ｉ９及び動作認識結果Ｒ２に基づき、他作業体８の動作を予測する（ステップＳ１４）。これにより、認識部１５は、予測動作認識結果Ｒ３を生成する。さらに、認識部１５は、物体識別結果Ｒ０と、作業効率情報Ｉ１０とに基づき、他作業体８の作業効率を認識し、動作シーケンス生成部１７は、他作業体８の作業効率に応じた効用関数の設計を行う（ステップＳ１５）。なお、認識部１５及び動作シーケンス生成部１７は、ステップＳ１５の処理を、複数の他作業体８が検出された場合に限り実行するとよい。さらに、動作シーケンス生成部１７は、動作認識結果Ｒ２及び予測動作認識結果Ｒ３と、他作業体動作モデル情報Ｉ７とに基づき、作業空間６内に存在する他作業体８の抽象的なダイナミクスを表す他作業体抽象モデルＭｏ２を決定する（ステップＳ１６）。

そして、ステップＳ１７の後、又は、他作業体８が存在しないと判定後（ステップＳ１２；Ｎｏ）、動作シーケンス生成部１７は、ロボット５の動作シーケンスであるサブタスクシーケンスを決定し、サブタスクシーケンスを示す制御信号Ｓ３をロボット５へ出力する（ステップＳ１７）。このとき、動作シーケンス生成部１７は、ステップＳ２５で決定した他作業体抽象モデルＭｏ２が反映された全体抽象モデルΣに基づき、サブタスクシーケンスを生成する。これにより、動作シーケンス生成部１７は、他作業体８と協調するロボット５の動作シーケンスとなるサブタスクシーケンスを、好適に生成することができる。そして、ロボット５は、制御信号Ｓ３に基づき、目的タスクを完了するための動作を開始する。

次に、制御装置１は、ロボット５の動作シーケンスであるサブタスクシーケンスの再生成の要否判定を行う（ステップＳ１８）。この場合、例えば、制御装置１は、直前のサブタスクシーケンスの生成から所定時間経過した場合、又は、指示したサブタスクをロボット５が実行できない等の所定のイベントを検知した場合、サブタスクシーケンスの再生成が必要と判定する。そして、制御装置１は、サブタスクシーケンスの再生成が必要な場合（ステップＳ１８；Ｙｅｓ）、ステップＳ１０へ処理を戻し、サブタスクシーケンスの生成に必要な処理を開始する。

一方、サブタスクシーケンスの再生成が不要であると判定した場合（ステップＳ１８；Ｎｏ）、学習部１６は、学習によるアプリケーション情報の更新を行う（ステップＳ１９）。具体的には、学習部１６は、認識部１５による認識結果Ｒに基づき、アプリケーション情報記憶部４１に記憶された他作業体動作モデル情報Ｉ７、動作予測情報Ｉ９、及び作業効率情報Ｉ１０の更新を行う。なお、学習部１６は、ロボット５によるサブタスクシーケンスの実行中に限らず、ロボット５によるサブタスクシーケンスの実行前及び実行完了後においても、ステップＳ１９の処理を実行してもよい。

そして、制御装置１は、目的タスクが完了したか否か判定する（ステップＳ２０）。この場合、制御装置１は、例えば、検出信号Ｓ４に対する認識結果Ｒ又はロボット５から供給される目的タスクの完了を通知する信号に基づき、目的タスクの完了の有無を判定する。そして、制御装置１は、目的タスクが完了したと判定した場合（ステップＳ２０；Ｙｅｓ）、フローチャートの処理を終了する。一方、制御装置１は、目的タスクが完了していないと判定した場合（ステップＳ２０；Ｎｏ）、ステップＳ１８へ処理を戻し、引き続きサブタスクシーケンスの再生成の要否判定を行う。

（８）応用例
次に、第１実施形態の応用例（第１応用例～第３応用例）について説明する。

第１応用例では、食品工場、組立工場、物流での作業場等において、ロボット５は、同一の作業空間６内で作業する他作業体８である作業者８Ａの作業に合わせて協調動作を行う。図９（Ａ）は、第１応用例における作業空間６の俯瞰図の一例である。図９（Ａ）では、弁当箱９０に複数の具材９１を夫々所定位置に詰める作業が目的タスクとして与えられており、目的タスクを実行するために必要な事前知識の情報が予めアプリケーション情報記憶部４１に記憶されている。この事前知識は、弁当箱９０に詰めるべき具材９１及び各具材９１の配置を示す情報（所謂完成図の情報）及び目的タスクを実行する際のルールなどを含む。

この場合、制御装置１の認識部１５は、検出信号Ｓ４に基づき、作業空間６内の弁当箱９０などの各物体の識別及び状態認識を行う。また、認識部１５は、作業者８Ａが具材９１を詰める動作をしていることを認識すると共に、詰める動作の後に次の具材９１を取りにいく動作が行われることを予測する。そして、動作シーケンス生成部１７の他作業体抽象モデル決定部３４は、認識部１５が認識した動作認識結果Ｒ２及び予測動作認識結果Ｒ３と、他作業体動作モデル情報Ｉ７と、に基づき、作業者８Ａに対応する他作業体抽象モデルＭｏ２を決定する。その後、動作シーケンス生成部１７の全体抽象モデル生成部３５は、各具材９１及び弁当箱９０の位置姿勢を示す状態認識結果Ｒ１、ロボット５の抽象化したダイナミクス、及び他作業体抽象モデルＭｏ２に基づき、作業空間６全体を対象とする全体抽象モデルΣを生成する。そして、動作シーケンス生成部１７のサブタスクシーケンス生成部３８は、生成した全体抽象モデルΣを用いて制御入力生成部３７が生成した制御入力情報Ｉｃに基づき、ロボット５が実行する動作シーケンスであるサブタスクシーケンスを生成する。この場合、動作シーケンス生成部１７は、作業者８Ａの具材９１を詰める動作に干渉しないように、目的タスクを達成するためのサブタスクシーケンスを生成する。

第２応用例では、各種工場、医療現場、リテール業務が行われる現場等において、ロボット５は、同一の作業空間６で作業する他作業体８である作業者８Ｂと物の受け渡しを行う。ここで、作業者８Ｂとロボット５とで受け渡しが行われる物は、工具、医療機器、釣り銭、レジ袋などが該当する。図９（Ｂ）は、第２応用例における作業空間６の俯瞰図の一例である。図９（Ｂ）では、製品の組み立てを目的タスクとして与えられており、製品の組み立てに必要な部品及び道具等に関する事前知識がアプリケーション情報記憶部４１に記憶されている。この事前知識には、ネジを回すには工具９２が必要であるという事前知識を含む。

この場合、認識部１５は、作業空間６内の物体の識別及び状態認識後、作業者８Ｂが「ネジを外す」という動作をしていることを認識すると共に、当該動作の後に「ネジを回す」という動作を行うことを予測する。そして、他作業体抽象モデル決定部３４は、認識部１５による動作認識結果Ｒ２及び予測動作認識結果Ｒ３に基づき、他作業体動作モデル情報Ｉ７から、作業者８Ａによる「ネジを外す」及び「ネジを回す」の各動作に対応する他作業体動作モデルＭｏ１を選択する。その後、全体抽象モデル生成部３５は、選択された各他作業体動作モデルＭｏ１が組み合わされた他作業体抽象モデルＭｏ２を用いて、作業空間６全体を対象とする全体抽象モデルΣを生成する。そして、サブタスクシーケンス生成部３８は、生成した全体抽象モデルΣを用いて制御入力生成部３７が生成した制御入力情報Ｉｃに基づき、ロボット５が実行する動作シーケンスであるサブタスクシーケンスを生成する。

第２応用例において制御装置１が生成したサブタスクシーケンスは、ネジを回すために必要な工具９２をピックアップするサブタスク及び作業者８Ｂにピックアップした工具９２を受け渡すサブタスクを含んでいる。制御装置１は、このサブタスクシーケンスを指示する制御信号Ｓ３をロボット５に送信することで、作業者８Ｂの作業をロボット５により好適に支援することができる。このように、ロボット５は、他作業体８との物の受け渡しを含むサブタスクシーケンスを実行してもよい。

第３応用例では、食品工場、組み立て工場などの各種工場において、ロボット５は、同一のライン又はセルとなる作業空間６で作業する他作業体８である他ロボット８Ｃと共に作業を行う。図９（Ｃ）は、第３応用例における作業空間６の俯瞰図の一例である。ここでは、複数の対象物９３のピックアンドプレイスが目的タスクとして与えられており、目的タスクの実行に必要な事前知識がアプリケーション情報記憶部４１に記憶されている。

この場合、学習部１６は、制御装置１によるサブタスクシーケンスの生成前又は生成後において、認識部１５から供給される認識結果Ｒの時系列データに基づき、他ロボット８Ｃが周期的に実行している動作シーケンス、及び、当該動作シーケンスのパラメータを学習する。そして学習部１６は、学習した動作シーケンス及び動作シーケンスのパラメータに基づき、他作業体動作モデル情報Ｉ７及び動作予測情報Ｉ９を更新する。そして、他作業体動作モデル情報Ｉ７及び動作予測情報Ｉ９の更新後、制御装置１は、更新された他作業体動作モデル情報Ｉ７及び動作予測情報Ｉ９を用いて、ロボット５に実行させるサブタスクシーケンスの生成を行い、当該サブタスクシーケンスを指示する制御信号Ｓ３をロボット５に送信する。

このように、第３応用例では、制御装置１は、他ロボット８Ｃが実行する動作シーケンスを学習することで、他ロボット８Ｃの動きを的確に勘案したサブタスクシーケンスをロボット５に実行させることができる。

（９）変形例
動作予測部２４による他作業体８の動作予測処理、作業効率認識部２５による作業効率の認識処理及び作業効率に基づく効用関数設計部３６の効用関数の設計処理、及び、学習部１６による学習処理は、必須の処理ではない。よって、制御装置１は、これらの処理の少なくともいずれかを実行しなくともよい。

図１０は、変形例における制御装置１のロボット制御処理の概要を示すフローチャートの一例である。図１０に示すフローチャートは、上述の動作予測処理、効用関数の設計処理、学習処理を全て実行しない場合のロボット制御処理の手順を示す。以後では、図８のステップＳ１０～Ｓ１３と同一処理を行う図９のステップＳ２１～Ｓ２４については説明を省略する。

ステップＳ２４での認識部１５による他作業体８の動作の認識後、動作シーケンス生成部１７は、動作認識結果Ｒ２と、他作業体動作モデル情報Ｉ７とに基づき、他作業体抽象モデルＭｏ２を決定する（ステップＳ２５）。この場合、動作シーケンス生成部１７の他作業体抽象モデル決定部３４は、動作認識結果Ｒ２が示す動作に対応する他作業体動作モデルＭｏ１を他作業体動作モデル情報Ｉ７から選択し、当該他作業体動作モデルＭｏ１を他作業体抽象モデルＭｏ２として決定する。

そして、ステップＳ２５の後、又は、他作業体８が存在しないと判定後（ステップＳ２３；Ｎｏ）、動作シーケンス生成部１７は、ロボット５の動作シーケンスであるサブタスクシーケンスを決定し、サブタスクシーケンスを示す制御信号Ｓ３をロボット５へ出力する（ステップＳ２６）。このとき、動作シーケンス生成部１７は、ステップＳ２５で決定した他作業体抽象モデルＭｏ２に基づき全体抽象モデルΣを生成してサブタスクシーケンスを生成する。これにより、動作シーケンス生成部１７は、他作業体８と協調するロボット５の動作シーケンスとなるサブタスクシーケンスを、好適に生成することができる。

次に、制御装置１は、ロボット５の動作シーケンスであるサブタスクシーケンスの再生成の要否判定を行う（ステップＳ２７）。そして、制御装置１は、サブタスクシーケンスの再生成が必要な場合（ステップＳ２７；Ｙｅｓ）、ステップＳ２１へ処理を戻し、サブタスクシーケンスの生成に必要な処理を開始する。一方、サブタスクシーケンスの再生成が不要であると判定した場合（ステップＳ２７；Ｎｏ）、制御装置１は、目的タスクが完了したか否か判定する（ステップＳ２８）。そして、制御装置１は、目的タスクが完了したと判定した場合（ステップＳ２８；Ｙｅｓ）、フローチャートの処理を終了する。一方、制御装置１は、目的タスクが完了していないと判定した場合（ステップＳ２８；Ｎｏ）、ステップＳ２７へ処理を戻し、引き続きサブタスクシーケンスの再生成の要否判定を行う。

このように、本変形例によっても、制御装置１は、他作業体８と協調するロボット５の動作シーケンスとなるサブタスクシーケンスに基づきロボット５を動作するようにロボット５を制御することができる。

＜第２実施形態＞
図１１は、第２実施形態における制御装置１Ａの概略構成図である。図１１に示すように、制御装置１Ａは、主に、動作シーケンス生成手段１７Ａを有する。

動作シーケンス生成手段１７Ａは、タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の物体の種類及び状態に関する認識結果「Ｒａ」に基づき、ロボットに実行させる動作シーケンス「Ｓａ」を生成する。

ここで、ロボットは、制御装置１Ａと別体に構成されてもよく、制御装置１Ａを内蔵してもよい。また、動作シーケンス生成手段１７Ａは、第１実施形態において認識部１５が出力する認識結果Ｒに基づきサブタスクシーケンスを生成する動作シーケンス生成部１７とすることができる。この場合、認識部１５は、制御装置１Ａの一部であってもよく、制御装置１Ａとは別体であってもよい。また、認識部１５は、物体識別部２１及び状態認識部２２のみから構成されてもよい。また、動作シーケンス生成手段１７Ａは、動作シーケンスの生成において、他作業体のダイナミクスを考慮しなくともよい。この場合、動作シーケンス生成手段１７Ａは、他作業体を障害物とみなし、認識結果Ｒに基づき、他作業体とロボットが干渉しないような動作シーケンスを生成してもよい。

図１２は、第２実施形態において制御装置１Ａが実行するフローチャートの一例である。動作シーケンス生成手段１７Ａは、タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の物体の種類及び状態に関する認識結果Ｒａに基づき、ロボットに実行させる動作シーケンスＳａを生成する（ステップＳ３１）。

第２実施形態の構成によれば、制御装置１Ａは、ロボットと他作業体とが協働作業を行う場合に、ロボットに実行させる動作シーケンスを好適に生成することができる。

なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

［付記１］
タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の物体の種類及び状態に関する認識結果に基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段を有する制御装置。

［付記２］
前記動作シーケンス生成手段は、
前記他作業体の動作に関する認識結果に基づき、前記他作業体のダイナミクスを抽象化した他作業体抽象モデルを決定し、
当該他作業体抽象モデルと、前記物体の種類及び状態に関する認識結果とに基づき、前記動作シーケンスを生成する、付記１に記載の制御装置。

［付記３］
前記動作シーケンス生成手段は、前記他作業体のダイナミクスを動作毎に抽象化したモデルに関する他作業体動作モデル情報に基づき、前記他作業体抽象モデルを決定する、付記２に記載の制御装置。

［付記４］
前記他作業体の動作に関する認識結果に基づき、前記他作業体抽象モデルのパラメータを学習する学習手段をさらに有する、付記２または３に記載の制御装置。

［付記５］
前記他作業体の動作に関する認識結果には、前記他作業体が実行中の動作及び予測される動作に関する認識結果が含まれ、
前記動作シーケンス生成手段は、前記他作業体が実行中の動作及び予測される動作に関する認識結果に基づき、前記動作シーケンスを生成する、付記２～４のいずれか一項に記載の制御装置。

［付記６］
前記動作シーケンス生成手段は、複数存在する前記他作業体の各々の作業効率に基づき、前記動作シーケンスを生成する、付記１～５のいずれか一項に記載の制御装置。

［付記７］
前記動作シーケンス生成手段は、前記他作業体の各々の作業効率に基づき前記他作業体の各々の作業に対する効用を重み付けした効用関数を設計し、当該効用関数を最適化することで、前記動作シーケンスを生成する、付記６に記載の制御装置。

［付記８］
前記作業空間を検出対象範囲とする検出装置が出力する検出信号に基づき、前記物体の種類及び状態の認識を行う認識手段をさらに有し、
前記動作シーケンス生成手段は、前記認識手段の認識結果に基づき、前記動作シーケンスを生成する、付記１～７のいずれか一項に記載の制御装置。
［付記９］
前記動作シーケンス生成手段は、
前記ロボットに作業させるタスクである目的タスクを時相論理に基づく論理式に変換する論理式変換手段と、
前記論理式から、前記目的タスクを実行するためタイムステップ毎の状態を表す論理式であるタイムステップ論理式を生成するタイムステップ論理式生成手段と、
前記タイムステップ論理式に基づき、前記ロボットに実行させるサブタスクのシーケンスを、前記動作シーケンスとして生成するサブタスクシーケンス生成手段と、
を有する、付記１～８のいずれか一項に記載の制御装置。

［付記１０］
前記動作シーケンス生成手段は、
前記作業空間におけるダイナミクスを抽象化した抽象モデルを生成する抽象モデル生成手段と、
前記目的タスクに対する効用関数を設計する効用関数設計手段と、
前記抽象モデルと、前記タイムステップ論理式と、前記効用関数とに基づき、前記ロボットを制御するためのタイムステップ毎の制御入力を決定する制御入力生成手段と、をさらに有し、
前記サブタスクシーケンス生成手段は、前記制御入力に基づき、前記サブタスクのシーケンスを生成する、付記９に記載の制御装置。

［付記１１］
前記動作シーケンス生成手段は、
前記認識結果に基づき、前記作業空間における物体の抽象的な状態である抽象状態を、前記論理式において使用する命題として定める抽象状態設定手段をさらに有する、付記９または１０に記載の制御装置。

［付記１２］
コンピュータにより、
タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の物体の種類及び状態に関する認識結果に基づき、前記ロボットに実行させる動作シーケンスを生成する、制御方法。

［付記１３］
タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の物体の種類及び状態に関する認識結果に基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段
としてコンピュータを機能させるプログラムが格納された記録媒体。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

１、１Ａ制御装置
２入力装置
３表示装置
４記憶装置
５ロボット
６作業空間
７検出装置
８、８Ａ～８Ｃ他作業体
４１アプリケーション情報記憶部
１００ロボット制御システム

Claims

タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の状態を検出する検出装置が出力する検出信号を取得する取得手段と、
前記検出信号に基づき認識された前記作業空間内の物体の種類及び状態に関する認識結果に基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、
を有し、
前記物体には、前記他作業体と、前記ロボットの作業対象となる対象物とが含まれ、
前記動作シーケンス生成手段は、前記他作業体の状態と、前記対象物の状態とに関する前記認識結果に基づき、前記動作シーケンスを生成する、
制御装置。
前記動作シーケンス生成手段は、
前記他作業体の動作に関する認識結果に基づき、前記他作業体のダイナミクスを抽象化した他作業体抽象モデルを決定し、
当該他作業体抽象モデルと、前記物体の種類及び状態に関する認識結果とに基づき、前記動作シーケンスを生成する、請求項１に記載の制御装置。
前記動作シーケンス生成手段は、前記他作業体のダイナミクスを動作毎に抽象化したモデルに関する他作業体動作モデル情報に基づき、前記他作業体抽象モデルを決定する、請求項２に記載の制御装置。
前記他作業体の動作に関する認識結果に基づき、前記他作業体抽象モデルのパラメータを学習する学習手段をさらに有する、請求項２または３に記載の制御装置。
前記他作業体の動作に関する認識結果には、前記他作業体が実行中の動作及び予測される動作に関する認識結果が含まれ、
前記動作シーケンス生成手段は、前記他作業体が実行中の動作及び予測される動作に関する認識結果に基づき、前記動作シーケンスを生成する、請求項２～４のいずれか一項に記載の制御装置。
前記動作シーケンス生成手段は、複数存在する前記他作業体の各々の作業効率に基づき、前記動作シーケンスを生成する、請求項１～５のいずれか一項に記載の制御装置。
前記動作シーケンス生成手段は、前記他作業体の各々の作業効率に基づき前記他作業体の各々の作業に対する効用を重み付けした効用関数を設計し、当該効用関数を最適化することで、前記動作シーケンスを生成する、請求項６に記載の制御装置。
前記検出信号に基づき、前記物体の種類及び状態の認識を行う認識手段をさらに有し、
前記動作シーケンス生成手段は、前記認識手段の認識結果に基づき、前記動作シーケンスを生成する、請求項１～７のいずれか一項に記載の制御装置。
コンピュータにより、
タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の状態を検出する検出装置が出力する検出信号を取得し、
前記検出信号に基づき認識された前記作業空間内の物体の種類及び状態に関する認識結果に基づき、前記ロボットに実行させる動作シーケンスを生成し、
前記物体には、前記他作業体と、前記ロボットの作業対象となる対象物とが含まれ、
前記他作業体の状態と、前記対象物の状態とに関する前記認識結果に基づき、前記動作シーケンスを生成する、
制御方法。
タスクを実行するロボットと他作業体とが協働作業を行う作業空間内の状態を検出する検出装置が出力する検出信号を取得する取得手段と、
前記検出信号に基づき認識された前記作業空間内の物体の種類及び状態に関する認識結果に基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段
としてコンピュータを機能させ、
前記物体には、前記他作業体と、前記ロボットの作業対象となる対象物とが含まれ、
前記動作シーケンス生成手段は、前記他作業体の状態と、前記対象物の状態とに関する前記認識結果に基づき、前記動作シーケンスを生成するプログラム。