JP7416199B2 - 制御装置、制御方法及びプログラム - Google Patents

制御装置、制御方法及びプログラム Download PDF

Info

Publication number
JP7416199B2
JP7416199B2 JP2022502778A JP2022502778A JP7416199B2 JP 7416199 B2 JP7416199 B2 JP 7416199B2 JP 2022502778 A JP2022502778 A JP 2022502778A JP 2022502778 A JP2022502778 A JP 2022502778A JP 7416199 B2 JP7416199 B2 JP 7416199B2
Authority
JP
Japan
Prior art keywords
subgoal
final goal
robot
state
goal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022502778A
Other languages
English (en)
Other versions
JPWO2021171558A5 (ja
JPWO2021171558A1 (ja
Inventor
博之 大山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021171558A1 publication Critical patent/JPWO2021171558A1/ja
Publication of JPWO2021171558A5 publication Critical patent/JPWO2021171558A5/ja
Application granted granted Critical
Publication of JP7416199B2 publication Critical patent/JP7416199B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Numerical Control (AREA)
  • Manipulator (AREA)

Description

本発明は、ロボットの動作を制御する制御装置、制御方法及び記録媒体の技術分野に関する。
ロボットに作業させるタスクが与えられた場合に、当該タスクを実行するために必要なロボットの制御を行う制御手法が提案されている。例えば、特許文献1には、ハンドを有するロボットにより複数の物品を把持して容器に収容する場合に、ハンドが物品を把持する順序の組み合わせを決定し、組み合わせ毎に算出した指標に基づき、収容する物品の順序を決定するロボット制御装置が開示されている。
特開2018-51684号公報
ロボットがタスクを実行する場合、与えられたタスクによっては、タスクの完了までのタイムステップが長くなり、最適なロボットの動作シーケンスを計算するための計算量が膨大となる場合がある。
本発明の目的の1つは、上述した課題を鑑み、ロボットの動作シーケンスを好適に生成することが可能な制御装置、制御方法及び記録媒体を提供することである。
制御装置の一の態様は、制御装置であって、ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、を有し、前記最終目標及び前記サブゴールは、論理式であり、前記動作シーケンス生成手段は、前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する。
制御方法の一の態様は、コンピュータにより、ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定し、前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する場合に、前記最終目標及び前記サブゴールは、論理式であり、前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する、制御方法である。
プログラムの一の態様は、ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段としてコンピュータを機能させ、前記最終目標及び前記サブゴールは、論理式であり、前記動作シーケンス生成手段は、前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する、プログラムである。
本発明によれば、ロボットの動作シーケンスを好適に生成することができる。
ロボット制御システムの構成を示す。 制御装置のハードウェア構成を示す。 アプリケーション情報のデータ構造の一例を示す。 第1実施形態における制御装置の機能ブロックの一例である。 作業空間の俯瞰図を示す。 第1実施形態における学習装置の概略構成を示す。 第1実施形態における動作シーケンス生成部の機能的な構成を示す機能ブロックの一例である。 第1実施形態において制御装置が実行するロボット制御処理の概要を示すフローチャートの一例である。 第2実施形態における制御装置の概略構成図である。 第2実施形態における学習装置の概略構成を示す。 第2実施形態における動作シーケンス生成部の機能ブロックの一例である。 第2実施形態における制御装置の処理手順を示すフローチャートの一例である。 第3実施形態における制御装置の概略構成図である。 第3実施形態における制御装置の処理手順を示すフローチャートの一例である。
以下、図面を参照しながら、制御装置、制御方法及び記録媒体の実施形態について説明する。
<第1実施形態>
(1)システム構成
図1は、第1実施形態に係るロボット制御システム100の構成を示す。ロボット制御システム100は、主に、制御装置1と、入力装置2と、表示装置3と、記憶装置4と、ロボット5と、検出装置7と、を備える。
制御装置1は、ロボット5に実行させるタスク(「目的タスク」とも呼ぶ。)が指定された場合に、ロボット5が受付可能な単純なタスクのタイムステップ(時間刻み)毎のシーケンスに目的タスクを変換し、当該シーケンスをロボット5に供給する。以後では、ロボット5が受付可能な単位により目的タスクを分解したタスク(コマンド)を、「サブタスク」とも呼び、目的タスクを達成するためにロボット5が実行すべきサブタスクのシーケンスを「サブタスクシーケンス」とも呼ぶ。サブタスクシーケンスは、ロボット5の一連の動作を規定する動作シーケンスに相当する。
制御装置1は、入力装置2、表示装置3、記憶装置4、ロボット5及び検出装置7と、通信網を介し、又は、有線若しくは無線による直接通信により、データ通信を行う。例えば、制御装置1は、入力装置2から、目的タスクを指定するための入力信号「S1」を受信する。また、制御装置1は、表示装置3に対し、ロボット5に実行させるタスクに関する表示を行うための表示信号「S2」を送信する。制御装置1は、ロボット5の制御に関する制御信号「S3」をロボット5に送信する。制御装置1は、検出装置7から検出信号「S4」を受信する。
入力装置2は、ユーザの入力を受け付けるインターフェースであり、例えば、タッチパネル、ボタン、キーボード、音声入力装置などが該当する。入力装置2は、ユーザの入力に基づき生成した入力信号S1を制御装置1へ供給する。表示装置3は、例えば、ディスプレイ、プロジェクタ等であり、制御装置1から供給される表示信号S2に基づき、所定の表示を行う。
記憶装置4は、アプリケーション情報記憶部41を有する。アプリケーション情報記憶部41は、目的タスクからサブタスクシーケンスを生成するために必要なアプリケーション情報を記憶する。アプリケーション情報の詳細は、図3を参照しながら後述する。記憶装置4は、制御装置1に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記録媒体であってもよい。また、記憶装置4は、制御装置1とデータ通信を行うサーバ装置であってもよい。この場合、記憶装置4は、複数のサーバ装置から構成されてもよい。
ロボット5は、制御装置1の制御に基づき、目的タスクを実行するための動作を行う。図1に示すロボット5は、一例として、物を把持可能な複数(2つ)のロボットアーム52を制御対象として有し、作業空間6内に存在する対象物61のピックアンドプレイス(摘み上げて移動させる処理)を行う。ロボット5は、ロボット制御部51を有する。ロボット制御部51は、制御信号S3によりロボットアーム52毎に指定されたサブタスクシーケンスに基づき、各ロボットアーム52の動作制御を行う。
作業空間6は、ロボット5が作業を行う作業空間である。図1では、作業空間6には、ロボット5による作業対象となる複数の対象物61と、ロボット5の作業において障害となる障害物62と、ロボットアーム52と、が存在している。
検出装置7は、作業空間6内の状態を検出するカメラ、測域センサ、ソナーまたはこれらの組み合わせとなる1又は複数のセンサである。検出装置7は、生成した検出信号S4を制御装置1に供給する。検出信号S4は、作業空間6内を撮影した画像データであってもよく、作業空間6内の物体の位置を示す点群データであってもよい。検出装置7は、作業空間6内で移動する自走式又は飛行式のセンサ(ドローンを含む)であってもよい。また、検出装置7は、ロボット5に設けられたセンサ、作業空間6内に存在するベルトコンベアなどの他の工作機器に設けられたセンサなどを含んでもよい。また、検出装置7は、作業空間6内の音を検出するセンサを含んでもよい。このように、検出装置7は、作業空間6内の状態を検出する種々のセンサであって、任意の場所に設けられたセンサであってもよい。
なお、図1に示すロボット制御システム100の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、ロボット5は複数台存在してもよい。また、ロボット5は、ロボットアーム52を1つのみ又は3つ以上備えてもよい。これらの場合であっても、制御装置1は、目的タスクに基づき、ロボット5毎又はロボットアーム52毎に実行すべきサブタスクシーケンスを生成し、当該サブタスクシーケンスを示す制御信号S3を、対象のロボット5に送信する。検出装置7は、ロボット5の一部であってもよい。ロボット制御部51は、ロボット5とは別体に構成されてもよく、制御装置1に含まれてもよい。入力装置2及び表示装置3は、夫々、制御装置1に内蔵されるなどの態様により、制御装置1と同一の装置(例えばタブレット端末)として構成されてもよい。制御装置1は、複数の装置から構成されてもよい。この場合、制御装置1を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、これらの複数の装置間において行う。ロボット5には、制御装置1の機能が組み込まれていてもよい。
(2)制御装置のハードウェア構成
図2は、制御装置1のハードウェア構成を示す。制御装置1は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13とを含む。プロセッサ11、メモリ12及びインターフェース13は、データバス19を介して接続されている。
プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などのプロセッサである。
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)などの各種のメモリにより構成される。また、メモリ12には、制御装置1が所定の処理を実行するためのプログラムが記憶される。また、メモリ12は、作業メモリとして使用され、記憶装置4から取得した情報等を一時的に記憶する。なお、メモリ12は、記憶装置4として機能してもよい。同様に、記憶装置4は、制御装置1のメモリ12として機能してもよい。なお、制御装置1が実行するプログラムは、メモリ12以外の記録媒体に記憶されてもよい。
インターフェース13は、制御装置1と外部装置とを電気的に接続するためのインターフェースである。例えば、インターフェース13は、制御装置1と入力装置2とを接続するためのインターフェース、制御装置1と表示装置3とを接続するためのインターフェース、及び制御装置1と記憶装置4とを接続するためのインターフェースを含む。また、インターフェース13は、制御装置1とロボット5とを接続するためのインターフェース、及び制御装置1と検出装置7とを接続するためのインターフェースを含む。これらの接続は、有線接続であってもよく、無線接続であってもよい。例えば、制御装置1と外部装置とを接続するためのインターフェースは、プロセッサ11の制御に基づき他の装置とデータの送受信を有線又は無線により行うための通信インターフェースであってもよい。他の例では、制御装置1と外部装置とは、ケーブル等により接続されてもよい。この場合、インターフェース13は、外部装置とデータの授受を行うためのUSB(Universal Serial Bus)、SATA(Serial AT Attachment)などに準拠したインターフェースを含む。
なお、制御装置1のハードウェア構成は、図2に示す構成に限定されない。例えば、制御装置1は、入力装置2、表示装置3及び記憶装置4の少なくとも一方を含んでもよい。また、制御装置1は、スピーカなどの音出力装置と接続又は内蔵してもよい。これらの場合、制御装置1は、入力機能及び出力機能が本体と一体となったタブレット端末等であってもよい。
(3)アプリケーション情報
次に、アプリケーション情報記憶部41が記憶するアプリケーション情報のデータ構造について説明する。
図3は、アプリケーション情報記憶部41に記憶されるアプリケーション情報のデータ構造の一例を示す。図3に示すように、アプリケーション情報記憶部41は、抽象状態指定情報I1と、制約条件情報I2と、動作限界情報I3と、サブタスク情報I4と、抽象モデル情報I5と、物体モデル情報I6と、サブゴール推論情報I7とを含む。
抽象状態指定情報I1は、サブタスクシーケンスの生成にあたり定義する必要がある抽象状態を指定する情報である。この抽象状態は、作業空間6内における物体の抽象的な状態であって、後述する目標論理式において使用する命題として定められる。例えば、抽象状態指定情報I1は、目的タスクの種類毎に、定義する必要がある抽象状態を指定する。なお、目的タスクは、例えば、ピックアンドプレイス、移動物体の捕獲、ねじ回しなどの種々の種類のタスクであってもよい。
制約条件情報I2は、目的タスクを実行する際の制約条件を示す情報である。制約条件情報I2は、例えば、目的タスクがピックアンドプレイスの場合、障害物にロボット5(ロボットアーム52)が接触してはいけないという制約条件、ロボットアーム52同士が接触してはいけないという制約条件などを示す。なお、制約条件情報I2は、目的タスクの種類毎に夫々適した制約条件を記録した情報であってもよい。
動作限界情報I3は、制御装置1により制御が行われるロボット5の動作限界に関する情報を示す。動作限界情報I3は、例えば、ロボット5の速度、加速度、又は角速度の上限(例えば、図1に示すロボット5の場合には、ロボットアーム52のリーチングの最高速度等)を規定する情報である。なお、動作限界情報I3は、ロボット5の可動部位又は関節ごとに動作限界を規定する情報であってもよい。
サブタスク情報I4は、ロボット5が受付可能なサブタスクの情報を示す。例えば、目的タスクがピックアンドプレイスの場合には、サブタスク情報I4は、ロボットアーム52の移動であるリーチングと、ロボットアーム52による把持であるグラスピングとをサブタスクとして規定する。サブタスク情報I4は、目的タスクの種類毎に使用可能なサブタスクの情報を示すものであってもよい。
抽象モデル情報I5は、作業空間6におけるダイナミクスを抽象化した抽象モデルに関する情報である。抽象モデルは、ロボット5に関する現実のダイナミクスをハイブリッドシステムにより抽象化したモデルにより表されている。抽象モデル情報I5は、上述のハイブリッドシステムにおけるダイナミクスの切り替わりの条件を示す情報を含む。切り替わりの条件は、例えば、図1に示すピックアンドプレイスの場合、対象物61はロボットアーム52の手先により把持されなければ移動できないという条件などが該当する。抽象モデル情報I5は、目的タスクの種類毎に適した抽象モデルに関する情報を有している。
物体モデル情報I6は、検出装置7が生成した検出信号S4から認識すべき各物体(図1の例では、ロボットアーム52、対象物61、及び障害物62など)の物体モデルに関する情報である。物体モデル情報I6は、例えば、上述した各物体の種類、位置、又は/及び姿勢を制御装置1が認識するために必要な情報と、各物体の3次元形状を認識するためのCAD(Computer Aided Design)データなどの3次元形状情報とを含んでいる。前者の情報は、ニューラルネットワークなどの機械学習における学習モデルを学習することで得られた推論器のパラメータを含む。この推論器は、例えば、画像が入力された場合に、当該画像において被写体となる物体の種類、位置、姿勢等を出力するように予め学習される。
サブゴール推論情報I7は、ロボット5が目的タスクを達成するための中間の目標(「サブゴールSg」とも呼ぶ。)を決定するために必要な情報である。本実施形態では、サブゴール推論情報I7は、機械学習により生成された推論器(「サブゴール推論器」とも呼ぶ。)のパラメータの情報を含んでいる。サブゴール推論器は、作業空間6における状態を抽象化した抽象状態と、目的タスクの達成状態を表す最終目標とが入力された場合に、当該抽象状態において最終目標を達成するために必要な1又は複数のサブゴールSgを出力するように学習される。サブゴール推論器に用いる学習モデルは、ニューラルネットワーク、サポートベクターマシーン、ガウス過程、変分オートエンコーダなどに基づく種々の機械学習の学習モデルであってもよく、これらの組み合わせであってもよい。例えば、上述の学習モデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、サブゴール推論情報I7は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを記憶する。なお、サブゴール推論器は、サブゴールSgを規定するためのパラメータを出力するものであってもよく、予め用意された複数のサブゴールSgのうち適切なサブゴールSgを出力するものであってもよい。
なお、アプリケーション情報記憶部41は、上述した情報の他、サブタスクシーケンスの生成処理に関する種々の情報を記憶してもよい。
(4)制御装置の処理概要
図4は、制御装置1の処理の概要を示す機能ブロックの一例である。制御装置1のプロセッサ11は、機能的には、抽象状態設定部15と、最終目標設定部16と、サブゴール設定部17と、動作シーケンス生成部18とを有する。なお、図4では、各ブロック間で授受が行われるデータの一例が示されているが、これに限定されない。後述する他の機能ブロックの図においても同様である。
抽象状態設定部15は、検出装置7から供給される検出信号S4及び物体モデル情報I6等に基づき、ロボット5の作業空間の状態の認識を行い、認識したロボット5の作業空間の状態に関する情報(「状態情報Im」とも呼ぶ。)を生成する。また、抽象状態設定部15は、状態情報Imと抽象状態指定情報I1とに基づき、ロボット5が作業を行う作業空間6における状態を抽象化した抽象状態を設定する。この場合、抽象状態設定部15は、設定すべき各抽象状態に対し、論理式で表すための命題を定義する。抽象状態設定部15は、設定した抽象状態を示す情報(「抽象状態設定情報IS」とも呼ぶ。)を、最終目標設定部16、サブゴール設定部17及び動作シーケンス生成部18に夫々供給する。なお、抽象状態設定部15が状態情報Imを生成する代わりに、検出装置7が状態情報Imの生成を行ってもよい。この場合、抽象状態設定部15は、検出装置7から供給される状態情報Imに基づき抽象状態設定情報ISを生成する。
最終目標設定部16は、目的タスクを指定する入力信号S1を入力装置2から受信した場合に、抽象状態設定情報ISに基づき、入力信号S1が示す目的タスクを、最終的な達成状態(即ち最終目標)を表す時相論理の論理式(「最終目標論理式Ltag」とも呼ぶ。)に変換する。また、最終目標設定部16は、アプリケーション情報記憶部41から制約条件情報I2を参照することで、目的タスクの実行において満たすべき制約条件を、最終目標論理式Ltagに付加する。そして、最終目標設定部16は、生成した最終目標論理式Ltagを、サブゴール設定部17及び動作シーケンス生成部18に供給する。また、最終目標設定部16は、目的タスクに関する入力を受け付ける画面を表示するための表示信号S2を生成し、当該表示信号S2を表示装置3に供給する。
なお、最終目標設定部16は、入力信号S1に基づき目的タスクを認識する代わりに、アプリケーション情報記憶部41を参照することで目的タスクを認識してもよい。この場合、例えば、アプリケーション情報記憶部41には、所定のジェスチャ、音声指示、又はその他の所定のイベントに関連付けられた目的タスクが登録されている。そして、最終目標設定部16は、検出信号S4に基づき、所定のジェスチャ、音声指示、又はその他の所定のイベントを検知した場合に、対応する目的タスクを実行すべきと判定する。
サブゴール設定部17は、抽象状態設定部15から供給される抽象状態設定情報ISと、最終目標設定部16から供給される最終目標論理式Ltagとに基づき、指定された目的タスクに対して1又は複数のサブゴールSgを設定する。この場合、サブゴール設定部17は、サブゴール推論情報I7を参照することでサブゴール推論器を構成し、抽象状態設定情報ISと最終目標論理式Ltagを当該サブゴール推論器に入力することで得られる推論結果に基づき、設定すべきサブゴールSgを認識する。そして、サブゴール設定部17は、設定すべきサブゴールSgを、動作シーケンス生成部18に供給する。
動作シーケンス生成部18は、最終目標論理式Ltagと、状態情報Imと、抽象状態設定情報ISと、サブゴールSgと、アプリケーション情報とに基づき、ロボット5に実行させるサブタスクシーケンスを生成する。この場合、動作シーケンス生成部18は、サブゴール設定部17から供給されるサブゴールSgを達成し、かつ、最終目標論理式Ltagを達成するためのサブタスクシーケンスを評価関数(目的関数)の最適化により決定する。この場合、動作シーケンス生成部18は、サブゴールSgが設定されない場合と比較して、最適化の計算量を好適に削減することが可能となる。
なお、図4において説明した抽象状態設定部15、最終目標設定部16、サブゴール設定部17及び動作シーケンス生成部18の各構成要素は、例えば、プロセッサ11がプログラムを実行することによって実現できる。より具体的には、各構成要素は、メモリ12又は記憶装置4に格納されたプログラムを、プロセッサ11が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばFPGA(field-programmable gate array)又はマイコン(microcomputer)等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。
(5)抽象状態設定部の詳細
抽象状態設定部15は、検出装置7から検出信号S4を受信した場合に、物体モデル情報I6等を参照し、作業空間の状態を認識する技術(画像処理技術、画像認識技術、音声認識技術、RFID(Radio Frequency Identifier)を用いる技術等)により検出信号S4を解析する。これにより、抽象状態設定部15は、タスクの実行に関連する作業空間内の各物体の種類毎の数、位置及び姿勢等を認識し、当該認識結果を含む状態情報Imを生成する。また、抽象状態設定部15は、抽象状態指定情報I1を参照し、作業空間6内において設定すべき抽象状態を認識し、状態情報Imに基づき、作業空間6内の抽象状態を設定する。なお、作業空間6内において設定すべき抽象状態は、目的タスクの種類によって異なる。よって、目的タスクの種類毎に設定すべき抽象状態が抽象状態指定情報I1に規定されている場合には、抽象状態設定部15は、入力信号S1により指定された目的タスクに対応する抽象状態指定情報I1を参照し、設定すべき抽象状態を認識する。
図5は、作業空間6の俯瞰図を示す。図5に示す作業空間6には、2つのロボットアーム52a、52bと、4つの対象物61a~61dと、障害物62とが存在している。
この場合、抽象状態設定部15は、まず、検出装置7から受信した検出信号S4を、物体モデル情報I6等を用いて解析することで、対象物61の状態、障害物62の存在範囲、ゴール地点として設定される領域Gの存在範囲等を認識する。ここでは、抽象状態設定部15は、対象物61a~61dの各々の中心の位置ベクトル「x」~「x」を、対象物61a~61dの位置として認識する。また、抽象状態設定部15は、対象物を把持するロボットハンド53aの位置ベクトル「xr1」と、ロボットハンド53bの位置ベクトル「xr2」とを、ロボットアーム52aとロボットアーム52bの位置として認識する。同様に、抽象状態設定部15は、対象物61a~61dの姿勢(図5の例では対象物が球状のため不要)等、障害物62の存在範囲、領域Gの存在範囲等を認識する。なお、抽象状態設定部15は、例えば、障害物62を直方体とみなし、領域Gを矩形とみなす場合には、障害物62及び領域Gの各頂点の位置ベクトルを認識する。そして、抽象状態設定部15は、検出信号S4に基づくこれらの認識結果を、状態情報Imとして生成する。
また、抽象状態設定部15は、抽象状態指定情報I1を参照することで、目的タスクにおいて定義すべき抽象状態を決定する。この場合、抽象状態設定部15は、状態情報Imに基づき、作業空間6内に存在する物体及び領域を認識し、当該物体及び領域に関する認識結果(例えば物体及び領域の種類毎の個数)と抽象状態指定情報I1とに基づき、抽象状態を示す命題を定める。
図5の例では、抽象状態設定部15は、状態情報Imにより特定される対象物61a~61dに対し、夫々識別ラベル「1」~「4」を付す。また、抽象状態設定部15は、「対象物「i」(i=1~4)が最終的に載置されるべき目標地点である領域G(実線枠63参照)内に存在する」という命題「g」を定義する。また、抽象状態設定部15は、状態情報Imにより特定される障害物62に対して識別ラベル「O」を付し、「対象物iが障害物Oに干渉している」という命題「o」を定義する。さらに、抽象状態設定部15は、「ロボットアーム52同士が干渉する」という命題「h」を定義する。
このように、抽象状態設定部15は、抽象状態指定情報I1を参照することで、定義すべき抽象状態を認識し、当該抽象状態を表す命題(上述の例ではg、o、h)を、対象物61の数、ロボットアーム52の数、障害物62の数等に応じてそれぞれ定義する。そして、抽象状態設定部15は、抽象状態を表す命題を示す情報を、抽象状態設定情報ISとして生成する。
(6)最終目標設定部の詳細
まず、最終目標設定部16は、入力信号S1により指定された目的タスクを、時相論理を用いた論理式に変換する。入力信号S1は、自然言語を用いて表されていてもよい。なお、自然言語で表されたタスクを論理式に変換する方法は、種々の技術が存在するため、本実施形態では説明を省略する。例えば、図5の例において、「最終的に対象物(i=2)が領域Gに存在する」という目的タスクが与えられたとする。この場合、最終目標設定部16は、目的タスクを線形論理式(LTL:Linear Temporal Logic)の「eventually」に相当する演算子「◇」と、抽象状態設定部15により定義された命題「g」と用いて、論理式「◇g」を生成する。なお、最終目標設定部16は、演算子「◇」以外の任意の時相論理の演算子(論理積「∧」、論理和「∨」、否定「¬」、論理包含「⇒」、always「□」、next「○」、until「U」等)を用いて論理式を表現してもよい。また、線形時相論理に限らず、MTL(Metric Temporal Logic)やSTL(Signal Temporal Logic)などの任意の時相論理を用いて論理式を表現してもよい。
次に、最終目標設定部16は、制約条件情報I2が示す制約条件を、目的タスクを示す論理式に付加することで、最終目標論理式Ltagを生成する。
例えば、ピックアンドプレイスに対応する制約条件として、「ロボット5同士が干渉しない」、「対象物iは障害物Oに干渉しない」の2つが制約条件情報I2に含まれている場合、最終目標設定部16は、これらの制約条件を論理式に変換する。具体的には、最終目標設定部16は、図5の説明において抽象状態設定部15により定義された命題「o」及び命題「h」を用いて、上述の2つの制約条件を、夫々以下の論理式に変換する。
□¬h
□¬o
よって、この場合、最終目標設定部16は、「最終的に対象物(i=2)が領域Gに存在する」という目的タスクに対応する論理式「◇g」に、これらの制約条件の論理式を付加することで、以下の最終目標論理式Ltagを生成する。
(◇g)∧(□¬h)∧(∧□¬o
なお、実際には、ピックアンドプレイスに対応する制約条件は、上述した2つに限られず、「ロボットアーム52が障害物Oに干渉しない」、「複数のロボットアーム52が同じ対象物を掴まない」、「対象物同士が接触しない」などの制約条件が存在する。このような制約条件についても同様に、制約条件情報I2に記憶され、最終目標論理式Ltagに反映される。
(7)サブゴール推論情報の学習
次に、サブゴール設定部17が用いるサブゴール推論情報I7の学習について説明する。
図6は、アプリケーション情報記憶部41にサブゴール推論情報I7として記憶するサブゴール推論器のパラメータを生成する学習装置8の概略構成を示す。
学習装置8は、アプリケーション情報記憶部41及び学習データ記憶部42を参照可能な装置であって、図2に示した制御装置1の構成と同様、プロセッサとメモリとインターフェースなどを有する。学習装置8は、制御装置1であってもよく、制御装置1以外のパーソナルコンピュータ等の任意の装置(例えばシミュレータ)であってもよい。学習装置8は、制御装置1がロボット5の動作シーケンスを生成する前段階(例えばロボット制御システム100の実用化前)において、学習データ記憶部42を参照し、サブゴール推論情報I7としてアプリケーション情報記憶部41に記憶するサブゴール推論器のパラメータを生成するための学習を行う。
学習データ記憶部42は、サブゴール推論器の教師有り学習に用いる学習データを記憶する。学習データ記憶部42は、任意の作業空間の抽象状態を示す抽象状態設定情報ISと、最終目標を示す最終目標論理式Ltagと、当該抽象状態及び最終目標の組合せに対して適した1又は複数のサブゴールとの組み合わせを複数組記憶する。なお、学習データ記憶部42が記憶する学習データは、過去に実機である制御装置1が実際に計画した結果に基づくデータであってもよく、環境乱択化(Domain Randomization)、実験計画法又は強化学習などの手法に基づき、擬似生成されたデータを含んでもよい。
学習装置8は、学習データ記憶部42から取得した学習データのうち、抽象状態と最終目標論理式Ltagとを入力サンプルとし、サブゴールSgを正解データとする教師有り学習により、サブゴール推論器となる学習モデルの学習を行う。この場合、学習装置8は、例えば、上記の入力サンプルがサブゴール推論器に入力された場合に、サブゴール推論器の推論結果と、上記の正解データとの誤差(損失)が最小となるように、サブゴール推論器のパラメータを決定する。損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。そして、学習装置8は、学習後のサブゴール推論器のパラメータを、サブゴール推論情報I7としてアプリケーション情報記憶部41に記憶する。なお、サブゴール推論器は、目的タスクの種類毎に学習が行われてもよい。この場合、学習データ記憶部42に記憶される学習データには、目的タスクの種類に関する情報が含まれ、サブゴール推論情報I7は、目的タスクの種類毎のサブゴール推論器のパラメータを記憶する。
このように、学習装置8は、学習データ記憶部42が記憶する学習データに基づきサブゴール推論器のパラメータを事前に学習することでサブゴール推論情報I7を生成する。これにより、サブゴール設定部17は、生成されたサブゴール推論情報I7を参照してサブゴール推論器を構成し、設定すべきサブゴールSgを的確に決定することができる。
(8)動作シーケンス生成部の詳細
次に、動作シーケンス生成部18の詳細な処理について説明する。
(8-1)機能ブロック
図7は、動作シーケンス生成部18の機能的な構成を示す機能ブロックの一例である。動作シーケンス生成部18は、機能的には、統合部32と、タイムステップ論理式生成部33と、抽象モデル生成部34と、制御入力生成部35と、サブタスクシーケンス生成部36とを有する。
統合部32は、最終目標設定部16から供給される最終目標論理式Ltagに、サブゴール設定部17から供給されるサブゴールSgを統合することで、統合論理式「Lig」を生成する。統合部32の処理の具体例については「(8-2)統合部」のセクションにおいて後述する。
タイムステップ論理式生成部33は、統合部32から供給された統合論理式Ligを、各タイムステップでの状態を表した論理式(「タイムステップ論理式Lts」とも呼ぶ。)に変換する。そして、タイムステップ論理式生成部33は、生成したタイムステップ論理式Ltsを、制御入力生成部35に供給する。
抽象モデル生成部34は、抽象状態設定部15から供給される状態情報Imと、アプリケーション情報記憶部41が記憶する抽象モデル情報I5とに基づき、作業空間6における現実のダイナミクスを抽象化した抽象モデル「Σ」を生成する。この場合、抽象モデル生成部34は、対象のダイナミクスを連続ダイナミクスと離散ダイナミクスとが混在したハイブリッドシステムとみなし、ハイブリッドシステムに基づく抽象モデルΣを生成する。抽象モデルΣの生成方法については後述する。抽象モデル生成部34は、生成した抽象モデルΣを、制御入力生成部35へ供給する。
制御入力生成部35は、タイムステップ論理式生成部33から供給されるタイムステップ論理式Ltsと、抽象モデル生成部34から供給される抽象モデルΣとを満たし、評価関数を最適化するタイムステップ毎のロボット5への制御入力を決定する。評価関数は、例えば、ロボット5が費やすエネルギーを最小化するように設計される。そして、制御入力生成部35は、ロボット5へのタイムステップ毎の制御入力を示す情報(「制御入力情報Ic」とも呼ぶ。)を、サブタスクシーケンス生成部36へ供給する。
サブタスクシーケンス生成部36は、制御入力生成部35から供給される制御入力情報Icと、アプリケーション情報記憶部41が記憶するサブタスク情報I4とに基づき、サブタスクシーケンスを生成し、サブタスクシーケンスを示す制御信号S3を、ロボット5へ供給する。
(8-2)統合部及びタイムステップ論理式生成部
統合部32は、最終目標設定部16から供給される最終目標論理式Ltagに、サブゴール設定部17から供給されるサブゴールSgを統合することで、統合論理式Ligを生成する。この場合、統合部32は、最終目標論理式Ltagに対し、論理式であるサブゴールSgを論理積により結合した統合論理式Ligを生成する。
タイムステップ論理式生成部33は、目的タスクを完了するタイムステップ数(「目標タイムステップ数」とも呼ぶ。)を定め、目標タイムステップ数で統合論理式Ligを満たすような各タイムステップでの状態を表す命題の組み合わせを定める。この組み合わせは、通常複数存在するため、タイムステップ論理式生成部33は、これらの組み合わせを論理和により結合した論理式を、タイムステップ論理式Ltsとして生成する。上述の組み合わせは、ロボット5に命令する動作のシーケンスを表す論理式の候補となり、以後では「候補φ」とも呼ぶ。
ここで、図5の説明において例示した、「最終的に対象物(i=2)が領域Gに存在する」という目的タスクが設定された場合の統合部32及びタイムステップ論理式生成部33の処理の具体例について説明する。以後では、命題「g」をタイムステップの概念を含むように拡張した命題「gi,k」を用いる。ここで、命題「gi,k」は、「タイムステップkで対象物iが領域Gに存在する」という命題である。
ここで、目標タイムステップ数を「3」とした場合、最終目標設定部16は、最終目標論理式Ltagとして、以下に示される論理式を統合部32に供給する。
(◇g2,3)∧(∧k=1,2,3□¬h)∧(∧i,k=1,2,3□¬o
また、サブゴール設定部17は、「2ステップ後に対象物(i=2)が領域Gに存在する」に相当するサブゴールSgを設定し、上記のサブゴールSgを表す論理式「g2、2」を統合部32に供給する。
この場合、統合部32は、最終目標論理式Ltagに対し、サブゴールSgを論理積により結合した以下の統合論理式Ligを生成する。
(◇g2、3)∧g2、2∧(∧k=1,2,3□¬h)∧(∧i,k=1,2,3□¬o
ここで、目的タスクに相当する「◇g2,3」は、以下の式に示すように書き換えることが可能である。
Figure 0007416199000001
このとき、サブゴールSgが統合されていない最終目標論理式Ltagは、以下に示す4つの候補「φ」~「φ」の論理和(φ∨φ∨φ∨φ)により表される。
Figure 0007416199000002
一方、「◇g2,3」にサブゴールSgを加えた「(◇g2、3)∧g2、2」は、以下の式に示すように書き換えることが可能である。
Figure 0007416199000003
従って、最終目標論理式LtagとサブゴールSgとが統合された統合論理式Ligは、上述した候補φと候補φの2つの論理和(φ∨φ)により表される。よって、タイムステップ論理式生成部33は、論理和(φ∨φ)を、タイムステップ論理式Ltsとして定める。この場合、タイムステップ論理式Ltsは、2つの候補φ又は候補φの少なくともいずれかが真となる場合に真となる。
このように、統合部32は、最終目標論理式LtagにサブゴールSgを統合することで、ロボット5に命令する動作のシーケンスを表す論理式の候補である候補φの数を好適に削減することができる。これにより、制御入力生成部35が実行する最適化処理における計算量を好適に削減することができる。
次に、目標タイムステップ数の設定方法について補足説明する。
タイムステップ論理式生成部33は、例えば、ユーザ入力により指定された作業の見込み時間に基づき、目標タイムステップ数を決定する。この場合、タイムステップ論理式生成部33は、メモリ12又は記憶装置4に記憶された、1タイムステップ当たりの時間幅の情報に基づき、上述の見込み時間から目標タイムステップ数を算出する。他の例では、タイムステップ論理式生成部33は、目的タスクの種類毎に適した目標タイムステップ数を対応付けた情報を予めメモリ12又は記憶装置4に記憶しておき、当該情報を参照することで、実行すべき目的タスクの種類に応じた目標タイムステップ数を決定する。
好適には、タイムステップ論理式生成部33は、目標タイムステップ数を所定の初期値に設定する。そして、タイムステップ論理式生成部33は、制御入力生成部35が制御入力を決定できるタイムステップ論理式Ltsが生成されるまで、目標タイムステップ数を徐々に増加させる。この場合、タイムステップ論理式生成部33は、設定した目標タイムステップ数により制御入力生成部35が最適化処理を行った結果、最適解を導くことができなかった場合、目標タイムステップ数を所定数(1以上の整数)だけ加算する。
このとき、タイムステップ論理式生成部33は、目標タイムステップ数の初期値を、ユーザが見込む目的タスクの作業時間に相当するタイムステップ数よりも小さい値に設定するとよい。これにより、タイムステップ論理式生成部33は、不必要に大きな目標タイムステップ数を設定することを好適に抑制する。
(8-3)抽象モデル生成部
抽象モデル生成部34は、抽象モデル情報I5と、状態情報Imとに基づき、抽象モデルΣを生成する。ここで、抽象モデル情報I5には、目的タスクの種類毎に、抽象モデルΣの生成に必要な情報が記録されている。例えば、目的タスクがピックアンドプレイスの場合には、対象物の位置や数、対象物を置く領域の位置、ロボット5の台数(又はロボットアーム52の数)等を特定しない汎用的な形式の抽象モデルが抽象モデル情報I5に記録されている。そして、抽象モデル生成部34は、抽象モデル情報I5に記録された、ロボット5のダイナミクスを含む汎用的な形式の抽象モデルに対し、状態情報Imを反映することで、抽象モデルΣを生成する。これにより、抽象モデルΣは、作業空間6内の物体の状態と、ロボット5のダイナミクスが抽象的に表されたモデルとなる。なお、作業空間6内の物体の状態は、ピックアンドプレイスの場合には、対象物の位置及び数、対象物を置く領域の位置、ロボット5の台数等を示す。
ここで、ロボット5による目的タスクの作業時においては、作業空間6内のダイナミクスが頻繁に切り替わる。例えば、ピックアンドプレイスでは、ロボットアーム52が対象物iを掴んでいる場合には、当該対象物iを動かすことができるが、ロボットアーム52が対象物iを掴んでない場合には、当該対象物iを動かすことができない。
以上を勘案し、本実施形態においては、ピックアンドプレイスの場合、対象物iを掴むという動作を論理変数「δ」により抽象表現する。この場合、例えば、抽象モデル生成部34は、図7に示す作業空間6に対して設定すべき抽象モデルΣを、以下の式(1)により定めることができる。
Figure 0007416199000004
ここで、「u」は、ロボットハンドj(「j=1」はロボットハンド53a、「j=2」はロボットハンド53b)を制御するための制御入力を示す。「I」は単位行列を示す。「0」は零行例を示す。なお、制御入力は、ここでは、一例として速度を想定しているが、加速度であってもよい。また、「δj,i」は、ロボットハンドjが対象物iを掴んでいる場合に「1」であり、その他の場合に「0」である論理変数である。また、「xr1」、「xr2」は、ロボットハンドjの位置ベクトル、「x」~「x」は、対象物iの位置ベクトルを示す。また、「h(x)」は、対象物を掴める程度に対象物の近傍にロボットハンドが存在する場合に「h(x)≧0」となる変数であり、論理変数δとの間で以下の関係を満たす。
δ=1 ⇔ h(x)≧0
この式では、対象物を掴める程度に対象物の近傍にロボットハンドが存在する場合には、ロボットハンドが対象物を掴んでいるとみなし、論理変数δを1に設定している。
ここで、式(1)は、タイムステップkでの物体の状態とタイムステップ(k+1)での物体の状態との関係を示した差分方程式である。そして、上記の式(1)では、把持の状態が離散値である論理変数により表わされ、物体の移動は連続値により表わされているため、式(1)はハイブリッドシステムを示している。
式(1)では、ロボット5全体の詳細なダイナミクスではなく、対象物を実際に把持するロボット5の手先であるロボットハンドのダイナミクスのみを考慮している。これにより、制御入力生成部35による最適化処理の計算量を好適に削減することができる。
また、抽象モデル情報I5には、ダイナミクスが切り替わる動作(ピックアンドプレイスの場合には対象物iを掴むという動作)に対応する論理変数、及び、状態情報Imから式(1)の差分方程式を導出するための情報が記録されている。よって、抽象モデル生成部34は、対象物の位置や数、対象物を置く領域(図5では領域G)、ロボット5の台数等が変動する場合であっても、抽象モデル情報I5と状態情報Imとに基づき、対象の作業空間6の環境に即した抽象モデルΣを決定することができる。
なお、抽象モデル生成部34は、式(1)に示されるモデルに代えて、混合論理動的(MLD:Mixed Logical Dynamical)システムまたはペトリネットやオートマトンなどを組み合わせたハイブリッドシステムのモデルを生成してもよい。
(8-4)制御入力生成部
制御入力生成部35は、タイムステップ論理式生成部33から供給されるタイムステップ論理式Ltsと、抽象モデル生成部34から供給される抽象モデルΣと、評価関数とに基づき、ロボット5に対するタイムステップ毎の最適な制御入力を決定する。この場合、制御入力生成部35は、抽象モデルΣ及びタイムステップ論理式Ltsを制約条件として、評価関数を最小化する最適化問題を解く。評価関数は、例えば、目的タスクの種類毎に予め定められ、メモリ12又は記憶装置4に記憶されている。
例えば、ピックアンドプレイスを目的タスクとした場合、制御入力生成部35は、運ぶ対象となる対象物と当該対象物を運ぶ目標地点との距離「d」と制御入力「u」とが最小となる(即ちロボット5が費やすエネルギーを最小化する)ように評価関数を定める。上述の距離dは、「最終的に対象物(i=2)が領域Gに存在する」という目的タスクの場合には、対象物(i=2)と領域Gとのタイムステップkでの距離に相当する。
例えば、制御入力生成部35は、全タイムステップにおける距離dのノルムの2乗と制御入力uのノルムの2乗との和を評価関数として定める。そして、制御入力生成部35は、抽象モデルΣ及びタイムステップ論理式Lts(即ち候補φの論理和)を制約条件とする以下の式(2)に示す制約付き混合整数最適化問題を解く。
Figure 0007416199000005
ここで、「T」は、最適化の対象となるタイムステップ数であり、目標タイムステップ数であってもよく、後述するように、目標タイムステップ数よりも小さい所定数であってもよい。この場合、好適には、制御入力生成部35は、論理変数を連続値に近似する(連続緩和問題とする)。これにより、制御入力生成部35は、計算量を好適に低減することができる。なお、線形論理式(LTL)に代えてSTLを採用した場合には、非線形最適化問題として記述することが可能である。
また、制御入力生成部35は、目標タイムステップ数が長い場合(例えば所定の閾値より大きい場合)、最適化に用いる式(2)のタイムステップ数Tを、目標タイムステップ数より小さい値(例えば上述の閾値)に設定してもよい。この場合、制御入力生成部35は、例えば、所定のタイムステップ数が経過する毎に、式(2)に基づく最適化問題を解くことで、逐次的に制御入力uを決定する。
好適には、制御入力生成部35は、目的タスクの達成状態に対する中間状態であるサブゴールSg毎に、式(2)に基づく最適化問題を解き、使用すべき制御入力uを決定してもよい。この場合、制御入力生成部35は、次に達成すべきサブゴールSg(全てのサブゴールSgが達成された場合には目的タスクの達成状態)までのタイムステップ数を、式(2)におけるタイムステップ数Tに設定する。これにより、制御入力生成部35は、一回あたりの最適化におけるタイムステップ数Tを削減し、最適化の計算量を好適に削減することができる。
(6-7)サブタスクシーケンス生成部
サブタスクシーケンス生成部36は、制御入力生成部35から供給される制御入力情報Icと、アプリケーション情報記憶部41が記憶するサブタスク情報I4とに基づき、サブタスクシーケンスを生成する。この場合、サブタスクシーケンス生成部36は、サブタスク情報I4を参照することで、ロボット5が受け付け可能なサブタスクを認識し、制御入力情報Icが示すタイムステップ毎の制御入力をサブタスクに変換する。
例えば、サブタスク情報I4には、ピックアンドプレイスを目的タスクとする場合にロボット5が受け付け可能なサブタスクとして、ロボットハンドの移動(リーチング)とロボットハンドの把持(グラスピング)の2つのサブタスクを示す関数が定義されている。この場合、リーチングを表す関数「Move」は、例えば、当該関数実行前のロボット5の初期状態、当該関数実行後のロボット5の最終状態、及び当該関数の実行に要する所要時間をそれぞれ引数とする関数である。また、グラスピングを表す関数「Grasp」は、例えば、当該関数実行前のロボット5の状態、及び当該関数実行前の把持対象の対象物の状態, 論理変数δをそれぞれ引数とする関数である。ここで、関数「Grasp」は、論理変数δが「1」のときに掴む動作を行うこと表し、論理変数δが「0」のときに放す動作を行うこと表す。この場合、サブタスクシーケンス生成部36は、関数「Move」を、制御入力情報Icが示すタイムステップ毎の制御入力により定まるロボットハンドの軌道に基づき決定し、関数「Grasp」を、制御入力情報Icが示すタイムステップ毎の論理変数δの遷移に基づき決定する。
そして、サブタスクシーケンス生成部36は、関数「Move」と関数「Grasp」とにより構成されるサブタスクシーケンスを生成し、当該サブタスクシーケンスを示す制御信号S3をロボット5に供給する。例えば、目的タスクが「最終的に対象物(i=2)が領域Gに存在する」の場合、サブタスクシーケンス生成部36は、対象物(i=2)に最も近いロボットハンドに対し、関数「Move」、関数「Grasp」、関数「Move」、関数「Grasp」のサブタスクシーケンスを生成する。この場合、対象物(i=2)に最も近いロボットハンドは、1つめの関数「Move」により対象物(i=2)の位置まで移動し、1つめの関数「Grasp」により対象物(i=2)を把持し、2つめの関数「Move」により領域Gまで移動し、2つめの関数「Grasp」により対象物(i=2)を領域Gに載置する。
(9)処理フロー
図8は、第1実施形態において制御装置1が実行するロボット制御処理の概要を示すフローチャートの一例である。
まず、制御装置1の抽象状態設定部15は、検出装置7からインターフェース13を介して供給される検出信号S4と物体モデル情報I6とに基づき、作業空間6の状態認識を行い、状態情報Imを生成する(ステップS10)。また、抽象状態設定部15は、状態情報Imと抽象状態指定情報I1とに基づき、作業空間6における抽象状態を設定し、設定した抽象状態を示す抽象状態設定情報ISを生成する(ステップS11)。
そして、最終目標設定部16は、入力信号S1等により指定された目的タスクから、最終目標を示す最終目標論理式Ltagを設定する(ステップS12)。この場合、最終目標設定部16は、制約条件情報I2を参照することで、目的タスクの実行における制約条件を、最終目標論理式Ltagに付加する。なお、ステップS12の処理は、ステップS11よりも前に実行されてもよい。
次に、サブゴール設定部17は、ステップS11で設定された抽象状態と、ステップS12で設定された最終目標を示す最終目標論理式Ltagとに基づき、サブゴールSgを設定する(ステップS13)。この場合、サブゴール設定部17は、サブゴール推論情報I7を参照することで構成したサブゴール推論器に対し、当該サブゴール推論器に上述の抽象状態と最終目標論理式Ltagとを入力し、その推論結果に基づき、サブゴールSgを設定する。
次に、動作シーケンス生成部18は、最終目標である最終目標論理式LtagとサブゴールSgとを統合する(ステップS14)。これにより、動作シーケンス生成部18は、統合論理式Ligを生成する。そして、動作シーケンス生成部18は、統合論理式Ligと状態情報Imとアプリケーション情報とに基づき、最適化処理などを行うことで、ロボット5の動作シーケンスであるサブタスクシーケンスを決定する(ステップS15)。そして、動作シーケンス生成部18は、インターフェース13を介し、サブタスクシーケンスを示す制御信号S3をロボット5へ出力する。
(10)変形例
サブゴール設定部17は、学習されたサブゴール推論器に基づき、サブゴールSgを決定する代わりに、サブゴール推論情報I7を用いたテンプレートマッチングを行うことで、サブゴールSgを決定してもよい。
この場合、サブゴール推論情報I7は、想定可能な抽象状態及び最終目標論理式Ltagの組合せの各々に対して設定すべきサブゴールSgが関連付けられたレコードから構成されるテーブル(データベース)となる。そして、目的タスクが指定された場合、サブゴール設定部17は、抽象状態設定部15が生成した抽象状態設定情報ISが示す抽象状態と、最終目標設定部16が生成した最終目標論理式Ltagとに一致するレコードを、上述のテーブルから検索する。そして、サブゴール設定部17は、検索したレコードに記されたサブゴールSgを、設定すべきサブゴールSgとして認識する。
ここで、抽象状態設定部15が生成した抽象状態設定情報ISが示す抽象状態と、最終目標設定部16が生成した最終目標論理式Ltagとに完全一致するレコードが存在しない場合について補足説明する。この場合、サブゴール設定部17は、対象の抽象状態及び最終目標論理式Ltagの組合せに最も類似する抽象状態及び最終目標論理式Ltagに対応するレコードのサブゴールを、設定すべきサブゴールSgとして認識する。例えば、サブゴール設定部17は、対象の抽象状態及び最終目標論理式Ltagの組合せに対し、任意の類似度(特徴空間における距離を含む)をレコード毎に算出し、当該類似度が最も高いレコードのサブゴールを、設定すべきサブゴールSgとして認識する。
このように、サブゴール設定部17は、学習を伴わずに生成されたサブゴール推論情報I7に基づき、サブゴールSgを決定してもよい。
<第2実施形態>
図9は、第2実施形態における制御装置1Aの概略構成図である。第2実施形態における制御装置1Aは、サブゴールSgを最終目標論理式Ltagに基づくことなく生成し、かつ、サブゴールSgを最適化における制約条件として定める点について、第1実施形態における制御装置1と異なる。以後では、第1実施形態と同様となる第2実施形態の構成要素については、適宜同一の符号を付し、その説明を省略する。
制御装置1Aは、第1実施形態において説明した図2に示すハードウェア構成を有する。そして、図9に示すように、制御装置1Aのプロセッサ11は、機能的には、抽象状態設定部15と、最終目標設定部16と、サブゴール設定部17Aと、動作シーケンス生成部18Aとを有する。抽象状態設定部15は、第1実施形態の抽象状態設定部15と同一処理を行うことで、状態情報Im及び抽象状態設定情報ISを生成する。また、最終目標設定部16は、第1実施形態の最終目標設定部16と同一処理を行うことで、最終目標論理式Ltagを生成する。
サブゴール設定部17Aは、抽象状態設定部15から供給される抽象状態設定情報ISと、サブゴール推論情報I7とに基づき、サブゴールSgを設定する。この場合、サブゴール推論情報I7は、サブゴール推論器のパラメータの情報を含んでいる。サブゴール推論器は、作業空間6における状態を抽象化した抽象状態が入力された場合に、当該抽象状態においてロボット5が制約される条件となる1又は複数のサブゴールSgを出力するように学習される。サブゴール設定部17Aは、サブゴール推論情報I7を参照することでサブゴール推論器を構成し、当該サブゴール推論器に抽象状態設定情報ISが示す抽象状態を入力することで、サブゴール推論器の推論結果から設定すべきサブゴールSgを取得する。
ここで、第1実施形態のサブゴールSgが最終目標を達成するための中間の目標(即ち最終目標に依存したサブゴール)であるのに対し、第2実施形態のサブゴールSgは、最終目標に依存しない、より一般的な制約(ルール)を示す。例えば、第2実施形態のサブゴールSgは、ロボット5の移動可能範囲を示すものであってもよく、作業空間6に扉が存在する場合には扉を開ける動作をしなければ当該扉を通過できないといった制約であってもよい。なお、第2実施形態のサブゴールSgは、目的タスクの種類に依存してもよい。この場合、第2実施形態のサブゴールSgは、目的タスクの種類と、与えられた作業空間6の抽象状態とに基づき定まる制約であってもよい。
動作シーケンス生成部18Aは、最終目標論理式Ltagと、状態情報Imと、抽象状態設定情報ISと、サブゴールSgと、アプリケーション情報とに基づき、ロボット5に実行させるサブタスクシーケンスを生成する。この場合、動作シーケンス生成部18は、サブゴール設定部17から供給されるサブゴールSgを制約条件とする評価関数の最適化を行うことで、サブタスクシーケンスを決定する。
図10は、第2実施形態において、アプリケーション情報記憶部41にサブゴール推論情報I7として記憶するサブゴール推論器のパラメータを生成する学習装置8Aの概略構成を示す。学習装置8Aは、第1実施形態の学習装置8と同様、アプリケーション情報記憶部41及び学習データ記憶部42Aを参照可能な装置であって、プロセッサとメモリとインターフェースなどを有する。学習データ記憶部42Aは、作業空間6における抽象状態を示す抽象状態設定情報ISと、当該抽象状態においてロボット5が制約される条件となる1又は複数のサブゴールSgとの組み合わせを、学習データとして複数組記憶する。学習装置8Aは、学習データ記憶部42Aから取得した学習データのうち、抽象状態を入力サンプルとし、サブゴールSgを正解データとする教師有り学習により、サブゴール推論器となる学習モデルの学習を行うことで、サブゴール推論情報I7を生成する。なお、サブゴール推論器は、目的タスクの種類毎に学習が行われてもよい。この場合、学習データ記憶部42Aに記憶される学習データには、目的タスクの種類に関する情報が含まれ、サブゴール推論情報I7は、目的タスクの種類毎のサブゴール推論器のパラメータを記憶する。
図11は、第2実施形態における動作シーケンス生成部18Aの機能ブロックの一例である。動作シーケンス生成部18Aは、機能的には、タイムステップ論理式生成部33Aと、抽象モデル生成部34と、制御入力生成部35Aと、サブタスクシーケンス生成部36とを有する。タイムステップ論理式生成部33Aは、最終目標設定部16から供給される最終目標論理式Ltagを、各タイムステップでの状態を表した論理式であるタイムステップ論理式Ltsに変換する。抽象モデル生成部34は、第1実施形態の抽象モデル生成部34と同一処理を行うことで、抽象モデルΣを生成する。
制御入力生成部35Aは、タイムステップ論理式Ltsと、抽象モデルΣと、サブゴールSgとを満たし、評価関数を最適化するタイムステップ毎のロボット5への制御入力を決定する。この場合、制御入力生成部35は、抽象モデルΣと、タイムステップ論理式Ltsと、サブゴールSgとを制約条件として、評価関数を最小化する最適化問題を解くことで、制御入力情報Icを生成する。この評価関数は、例えば、第1実施形態において設定される評価関数と同一である。サブタスクシーケンス生成部36は、第1実施形態のサブタスクシーケンス生成部36と同一処理を行うことで、制御入力生成部35Aが生成した制御入力情報Icとサブタスク情報I4とに基づき、サブタスクシーケンスを生成する。
図12は、第2実施形態において制御装置1Aが実行するロボット制御処理の概要を示すフローチャートの一例である。
まず、制御装置1Aの抽象状態設定部15は、検出装置7からインターフェース13を介して供給される検出信号S4と物体モデル情報I6とに基づき、作業空間6の状態認識を行い、状態情報Imを生成する(ステップS20)。また、抽象状態設定部15は、状態情報Imと抽象状態指定情報I1とに基づき、作業空間6における抽象状態を設定し、設定した抽象状態を示す抽象状態設定情報ISを生成する(ステップS21)。そして、最終目標設定部16は、入力信号S1等により指定された目的タスクから、最終目標論理式Ltagを設定する(ステップS22)。なお、ステップS20~ステップS22の処理は、図8のステップS10~ステップS12の処理と同一である。
次に、サブゴール設定部17Aは、ステップS21で設定された抽象状態に基づき、サブゴールSgを設定する(ステップS23)。この場合、サブゴール設定部17Aは、サブゴール推論情報I7を参照することで構成したサブゴール推論器に対し、当該サブゴール推論器に上述の抽象状態を入力し、その推論結果に基づき、サブゴールSgを設定する。なお、サブゴール設定部17Aは、第1実施形態の「(10)変形例」のセクションで述べたように、学習に基づかずに生成されたサブゴール推論情報I7に基づき、抽象状態設定情報ISからサブゴールSgを決定してもよい。
次に、動作シーケンス生成部18Aは、サブゴール設定部17Aが設定したサブゴールSgを制約条件として、ロボット5の動作シーケンスであるサブタスクシーケンスを決定する(ステップS24)。そして、動作シーケンス生成部18は、インターフェース13を介し、サブタスクシーケンスを示す制御信号S3をロボット5へ出力する。
このように、第2実施形態に係る制御装置1Aは、抽象状態設定情報ISから導出されたサブゴールSgを制約条件とする最適化により、目的タスクの実施に実質的に必要な制約を好適に勘案したサブタスクシーケンスを生成する。これにより、制御装置1Aは、ロボット5に目的タスクを好適に実行させることができる。
<第3実施形態>
図13は、第3実施形態における制御装置1Bの概略構成図である。図13に示すように、制御装置1Bは、主に、サブゴール設定手段17Bと、動作シーケンス生成手段18Bとを有する。
サブゴール設定手段17Bは、ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴール「Sg」を設定する。ここで、ロボットは、制御装置1Bと別体に構成されてもよく、制御装置1Bを内蔵してもよい。サブゴール設定手段17Bは、第1実施形態におけるサブゴール設定部17又は第2実施形態におけるサブゴール設定部17Aとすることができる。後者の場合、サブゴール設定手段17Bは、上記抽象状態に加えて、さらに最終目標に基づいてサブゴールSgを設定する。最終目標は、第1及び第2実施形態における最終目標論理式Ltagとすることができる。
動作シーケンス生成手段18Bは、サブゴールに基づき、ロボットに実行させる動作シーケンスを生成する。動作シーケンス生成手段18Bは、第1実施形態における動作シーケンス生成部18又は第2実施形態における動作シーケンス生成部18Aとすることができる。
図14は、第3実施形態において制御装置1Bが実行するフローチャートの一例である。サブゴール設定手段17Bは、ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールSgを設定する。(ステップS30)。そして、動作シーケンス生成手段18Bは、サブゴールに基づき、ロボットに実行させる動作シーケンスを生成する(ステップS31)。
第3実施形態の構成によれば、制御装置1Bは、サブゴールを達成するような動作シーケンスを好適に生成し、目的タスクを好適にロボットに実行させることができる。
なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
1、1A、1B 制御装置
2 入力装置
3 表示装置
4 記憶装置
5 ロボット
6 作業空間
7 検出装置
8、8A 学習装置
41 アプリケーション情報記憶部
42、42A 学習データ記憶部
100 ロボット制御システム

Claims (8)

  1. ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、
    前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、
    を有し、
    前記最終目標及び前記サブゴールは、論理式であり、
    前記動作シーケンス生成手段は、前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する、
    制御装置。
  2. ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、
    前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、
    を有し、
    前記最終目標及び前記サブゴールは、論理式であり、
    前記動作シーケンス生成手段は、前記最終目標の論理式に前記サブゴールの論理式を統合した統合論理式から、タイムステップ毎の状態を表す論理式であるタイムステップ論理式を生成し、当該タイムステップ論理式に基づき、前記動作シーケンスを生成する、
    制御装置。
  3. 前記サブゴール設定手段は、ロボットが作業を行う作業空間における抽象状態と最終目標とが少なくとも入力された場合に当該抽象状態及び当該最終目標に応じたサブゴールを出力するように学習された推論器に基づき、前記サブゴールを設定する、請求項1または2に記載の制御装置。
  4. 前記動作シーケンス生成手段は、前記サブゴールを少なくとも制約条件とする最適化により、前記動作シーケンスを生成する、請求項1に記載の制御装置。
  5. ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、
    前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、
    を有し、
    前記動作シーケンス生成手段は、前記サブゴールを少なくとも制約条件とする最適化により、前記動作シーケンスを生成し、
    前記サブゴール設定手段は、ロボットが作業を行う作業空間における抽象状態が少なくとも入力された場合に、当該抽象状態に応じたサブゴールを出力するように学習された推論器に基づき、前記サブゴールを設定する、制御装置。
  6. ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、
    前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段と、
    を有し、
    前記動作シーケンス生成手段は、前記サブゴールを少なくとも制約条件とする最適化により、前記動作シーケンスを生成し、
    前記動作シーケンス生成手段は、
    前記ロボットが動作する作業空間におけるダイナミクスを抽象化した抽象モデルを生成し、
    当該抽象モデルと、前記最終目標に基づき算出されたタイムステップ毎の状態を表す論理式であるタイムステップ論理式と、前記サブゴールとを少なくとも制約条件とする最適化により、前記動作シーケンスを生成する、制御装置。
  7. コンピュータにより、
    ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定し、
    前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する場合に、
    前記最終目標及び前記サブゴールは、論理式であり、
    前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する、
    制御方法。
  8. ロボットが作業を行う作業空間における状態を抽象化した抽象状態に基づき、最終目標を達成するための中間の目標又は最終目標を達成するために必要な制約を示すサブゴールを設定するサブゴール設定手段と、
    前記サブゴールに基づき、前記ロボットに実行させる動作シーケンスを生成する動作シーケンス生成手段
    としてコンピュータを機能させ、
    前記最終目標及び前記サブゴールは、論理式であり、
    前記動作シーケンス生成手段は、前記最終目標の論理式に前記サブゴールの論理式を統合し、前記最終目標の論理式に前記サブゴールの論理式が統合された統合論理式に基づき、前記動作シーケンスを生成する、
    プログラム。
JP2022502778A 2020-02-28 2020-02-28 制御装置、制御方法及びプログラム Active JP7416199B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/008331 WO2021171558A1 (ja) 2020-02-28 2020-02-28 制御装置、制御方法及び記録媒体

Publications (3)

Publication Number Publication Date
JPWO2021171558A1 JPWO2021171558A1 (ja) 2021-09-02
JPWO2021171558A5 JPWO2021171558A5 (ja) 2022-10-14
JP7416199B2 true JP7416199B2 (ja) 2024-01-17

Family

ID=77491141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022502778A Active JP7416199B2 (ja) 2020-02-28 2020-02-28 制御装置、制御方法及びプログラム

Country Status (4)

Country Link
US (1) US20230099683A1 (ja)
EP (1) EP4112243A4 (ja)
JP (1) JP7416199B2 (ja)
WO (1) WO2021171558A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003029803A (ja) 2001-04-06 2003-01-31 Xerox Corp 実行ユニットの大規模アセンブリのための分散されたアクチュエーション割当て
JP2003175480A (ja) 2001-12-13 2003-06-24 Sony Corp ロボット装置及びその行動制御方法、連想記憶装置及び連想記憶方法
JP2009140348A (ja) 2007-12-07 2009-06-25 Toyota Motor Corp 行動決定装置、行動学習装置、及びロボット装置
WO2019138458A1 (ja) 2018-01-10 2019-07-18 日本電気株式会社 決定装置、決定方法、及び、決定プログラムが記録された記録媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04123231A (ja) * 1990-09-14 1992-04-23 Csk Corp 人工知能における推論制御方式
JPH06337709A (ja) * 1993-05-31 1994-12-06 Nippon Telegr & Teleph Corp <Ntt> ロボット作業計画生成遂行方法
US6681383B1 (en) * 2000-04-04 2004-01-20 Sosy, Inc. Automatic software production system
JP6553568B2 (ja) 2016-09-28 2019-07-31 ファナック株式会社 複数個の物品をひとつずつ最適な経路で取り出す搬送装置
US10671076B1 (en) * 2017-03-01 2020-06-02 Zoox, Inc. Trajectory prediction of third-party objects using temporal logic and tree search
JP6970078B2 (ja) * 2018-11-28 2021-11-24 株式会社東芝 ロボット動作計画装置、ロボットシステム、および方法
JP6904327B2 (ja) * 2018-11-30 2021-07-14 オムロン株式会社 制御装置、制御方法、及び制御プログラム
EP3753684B1 (en) * 2019-06-21 2022-08-10 Robert Bosch GmbH Method and system for robot manipulation planning
JP7295421B2 (ja) * 2019-08-22 2023-06-21 オムロン株式会社 制御装置及び制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003029803A (ja) 2001-04-06 2003-01-31 Xerox Corp 実行ユニットの大規模アセンブリのための分散されたアクチュエーション割当て
JP2003175480A (ja) 2001-12-13 2003-06-24 Sony Corp ロボット装置及びその行動制御方法、連想記憶装置及び連想記憶方法
JP2009140348A (ja) 2007-12-07 2009-06-25 Toyota Motor Corp 行動決定装置、行動学習装置、及びロボット装置
WO2019138458A1 (ja) 2018-01-10 2019-07-18 日本電気株式会社 決定装置、決定方法、及び、決定プログラムが記録された記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
幅 敏明 ほか,作業時操作手順自動作成システム,電気学会論文誌B Vol.113-B No.2 The Transactions of The Institute of Electrical Engi,日本,社団法人電気学会,1993年,pp.159-167
野村 拓己 ほか,POMDP環境下でのサブゴール創発による強化学習の動的階層化,第77回(平成27年)全国大会講演論文集(2) 人工知能と認知科学,日本,2015年,pp.2-399 - 2-340

Also Published As

Publication number Publication date
WO2021171558A1 (ja) 2021-09-02
EP4112243A1 (en) 2023-01-04
US20230099683A1 (en) 2023-03-30
JPWO2021171558A1 (ja) 2021-09-02
EP4112243A4 (en) 2023-03-29

Similar Documents

Publication Publication Date Title
CN108873768B (zh) 任务执行系统及方法、学习装置及方法、以及记录介质
Mukherjee et al. A survey of robot learning strategies for human-robot collaboration in industrial settings
WO2022074823A1 (ja) 制御装置、制御方法及び記憶媒体
EP4023396A1 (en) Information processing device, control method, and storage medium
Manitsaris et al. Human movement representation on multivariate time series for recognition of professional gestures and forecasting their trajectories
JP7452619B2 (ja) 制御装置、制御方法及びプログラム
US20230241770A1 (en) Control device, control method and storage medium
JP7416199B2 (ja) 制御装置、制御方法及びプログラム
Zahedi et al. Gesture-based adaptive haptic guidance: a comparison of discriminative and generative modeling approaches
Vanc et al. Context-aware robot control using gesture episodes
JP7435815B2 (ja) 動作指令生成装置、動作指令生成方法及びプログラム
JP7416197B2 (ja) 制御装置、制御方法及びプログラム
JP7448024B2 (ja) 制御装置、制御方法及びプログラム
JP7364032B2 (ja) 制御装置、制御方法及びプログラム
Nambiar et al. Automation of unstructured production environment by applying reinforcement learning
Naughton et al. Structured action prediction for teleoperation in open worlds
JP7485058B2 (ja) 判定装置、判定方法及びプログラム
JP7456552B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2022074827A1 (ja) 命題設定装置、命題設定方法及び記憶媒体
JP7276466B2 (ja) 情報処理装置、制御方法及びプログラム
JP7435814B2 (ja) 時相論理式生成装置、時相論理式生成方法及びプログラム
JP7468694B2 (ja) 情報収集装置、情報収集方法及びプログラム
JP7323045B2 (ja) 制御装置、制御方法及びプログラム
JP7409474B2 (ja) 制御装置、制御方法及びプログラム
WO2022224449A1 (ja) 制御装置、制御方法及び記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220816

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231218

R151 Written notification of patent or utility model registration

Ref document number: 7416199

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151