JP2024035150A

JP2024035150A - エンティティを制御するためのシステムおよび方法

Info

Publication number: JP2024035150A
Application number: JP2023137896A
Authority: JP
Inventors: チェリアン，アノープ; ポール，スディプタ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2022-08-30
Filing date: 2023-08-28
Publication date: 2024-03-13
Also published as: US20240069501A1

Abstract

【課題】エンティティを制御するためのコントローラを提供する。【解決手段】探索環境１２０において、コントローラは、階層型マルチモーダル強化学習（ＲＬ）ニューラルネットワークを記憶するためのメモリとプロセッサとを備える。階層型マルチモーダルＲＬニューラルネットワークは、第１のレベルコントローラと２つの第２のレベルコントローラとを含む。第２のレベルコントローラの各々は、第１のモダリティに関連する第１のサブレベルコントローラと、第２のモダリティに関連する第２のサブレベルコントローラとを含む。プロセッサは、入力データ及び階層型マルチモーダルＲＬニューラルネットワークの状態に基づいて、第１のレベルコントローラを使用して、２つの第２のレベルコントローラのうちの１つを選択する。選択された第２のレベルコントローラは、制御アクションのセットを決定し、制御アクションのセットに基づいてエンティティを制御する。【選択図】図２

Description

本発明は、概してエンティティ制御に関し、より詳細には、特定のタスクを実行するようにエンティティを訓練および制御することに関する。

人間を支援するロボットエージェントは、ロボット工学および人工知能（ＡＩ）の見込みを達成することの中心である。ロボット工学およびＡＩにおける最近の開発は、事前定義されたタスクを解決するために現実的な仮想世界を自律的にナビゲートすることができるエンティティ（エージェントまたはロボットなど）を設計することにある。例えば、視覚および言語ナビゲーション（ＶＬＮ）では、エンティティまたはエージェントは、自然言語で提供される命令に従って目標場所にナビゲートするか、または所与の自然言語への回答を求めて視覚世界を探索してもよい。

しかしながら、ＶＬＮエンティティまたはエージェントは、聴力がなく、すなわち、環境において、いかなる音声イベントも聴取することはできない、または音声的手掛かりを受信することはできない、と仮定される。したがって、現実的な仮想世界において展開および動作するＶＬＮエンティティは、そのような環境を確実にナビゲートすることができない場合がある。この欠点に対処するために、ナビゲーションタスクは、仮想シーンにおいて音声源の位置を特定するために再定式化されてもよい。しかしながら、ナビゲーションタスクの再定式化は、エンティティまたはエージェントが従うべき自然言語命令がない。したがって、エンティティまたはエージェントは、依然として、現実的な仮想世界において確実に動作することができない場合がある。

現実的な仮想世界におけるナビゲーションは、視聴覚的であるだけでなく、複雑で確率論的であることが多い。特に、現実的な仮想世界でナビゲートするエンティティまたはエージェントは、ナビゲーションの成功のために、音声入力、視覚入力、および言語入力等の異なる入力モダリティ間の相乗効果を求めなければならない場合がある。例えば、高齢者介護施設では、ロボットエージェントは、倒れる人の音がどこから聞こえるかを見つける必要があり得る。一方で、そのような音は散発的であり、したがって、エンティティまたはエージェントは、目標に到達するために視聴覚的モダリティのセマンティックな知識を使用しなければならない。他方では、そのようなイベントは、適時に対応される必要があり、エンティティまたはエージェントは、それが行うナビゲーションミスの数を最小限にしなければならない場合がある。ミスを最小限に抑えるために、エンティティまたはエージェントは、目標に到達するために、自身のナビゲーションアクションが不確実であるときに、人間の助けを必要としてもよい。

ナビゲーションタスクについて複数のモダリティを有するそのような入力の重要な課題は、エンティティまたはエージェントが、いつクエリを問い合わせるべきか、およびいつ視聴覚的手掛かりに従って目標に到達するべきかを決定することができないことである。

そのために、絶対正しい導き手に多くの回数問い合わせることは、エージェントの自律性を損なう可能性があり、導き手が人間である場合、あまり好ましくない可能性がある。他方、より少ない回数で導き手に問い合わせることは、エンティティまたはエージェントに、目標に到達することなく無限に環境を探索させるかもしれない。さらに、自然言語でエンティティまたはエージェントに提供される命令は、自然言語のノイズおよび複雑さのために、ナビゲート可能な命令に変換することが困難である場合がある。したがって、エンティティまたはエージェントは、ナビゲーションタスクの完了時間の増加、ナビゲーションタスクの完了の失敗、ナビゲーションタスクの不正確な実行、ナビゲーションタスクを完了するための経路計画の実現可能性の喪失、および特に現実的な仮想世界においてタスクを完了するための入力のモダリティの数の制限による経路品質の低下（余分な操作、コストの増加、および精度の低下など）などの様々な制限に悩まされる。

いくつかの実施形態の目的は、現実的な視覚世界における音声源の位置特定を可能にする視聴覚原語（ＡＶＬ）実施ナビゲーション技術を開示することである。いくつかの実施形態の別の目的は、音声源が現実的な視覚世界において位置を特定される視聴覚言語（ＡＶＬ）実施ナビゲーション方法を開示することである。いくつかの実施形態の別の目的は、エンティティが視聴覚言語手掛かりを使用して音声源にナビゲートすることを開示することである。いくつかの実施形態の別の目的は、エンティティがナビゲーションステップを決定する際にその不確実性を暗黙的にモデル化し、ナビゲーション命令のために導き手からの支援を求めるように、音声源に到達するためのナビゲーションステップを生成するための新たなタイプのパラメータ化を開示することである。いくつかの実施形態の別の目的は、例えば、音声、視覚、または短い自然言語文からモダリティを選択することによって、受信されるべき入力される手掛かりのタイプを決定する、そのようなシステムおよび方法を提供することである。

いくつかの実施形態は、エンティティが、ナビゲーション命令についていつクエリを尋ねるか、または導き手から支援を求めるか、およびいつ視聴覚的手掛かりに従って目標または音声源に到達するかを決定する必要があってもよい、という認識に基づく。視聴覚的手掛かりに基づいていつ導き手に問い合わせるかまたはナビゲートするかの決定は、極めて重要であり、なぜならば、あまりにも多くのクエリを尋ねることはエージェントの自律性を損ない得、導き手が人間である場合、あまり好ましくなく、また、問い合わせの回数があまりにも少ないと、エンティティが目標に到達することなくシーンを無限に探索し得るからである。

エンティティに提供される命令は自然言語であるが、そのような命令はしばしばノイズが多く、ナビゲート可能な命令に正しく翻訳することが困難である。いつ導き手に問い合わせるかの決定を考慮する必要があり、その結果、自然言語命令を翻訳して目標に到達するまでの時間が短くなり得る。

いくつかの実施形態は、いつ問い合わせるべきかを決定するために上位ポリシー（第１のレベルコントローラと呼ばれる）を学習することと、ナビゲートするために複数の下位ポリシー（第２のレベルコントローラと呼ばれる）を学習することとからなる、階層型強化学習フレームワークが、ナビゲーション中のエラーまたはミスを低減し、エンティティの無限の操縦を防止し得る、という理解に基づく。これにより、目標に到達する時間がさらに短縮され得る。しかしながら、いつ導き手に問い合わせるべきかを決定するために不確実性をモデル化することは、不確実性がアクション予測確率に関して定量化されるか、またはエンティティがナビゲートするのにいつ紛失されるかをチェックするためにヒューリスティックスを使用するかのいずれかであり、目標に到達するためにナビゲーションタスクを完了する時間を短縮することができない場合がある。さらに、エンティティがいつミスを起こしているかを識別すること、およびこの情報を組み込んで、いつ問い合わせるかを識別することは、エンティティの将来のアクションの完全な分析を必要とし得る。これはまた、エンティティのミスまたは不必要な操作を防止することに失敗し、それによって、ナビゲーションタスクを完了するための時間を低減することに失敗し得る。したがって、いくつかの実施形態の目的は、環境と対話し、環境を探索し、報酬を収集することによって、現在の観測および履歴情報に基づいていつ問い合わせるべきかを学習して、操縦におけるミスがより少なく、目標へのより速いナビゲーションを達成する、そのような方法を提供することである。

いくつかの実施形態の目的は、音声源が散発的であり、曖昧であり、注意をそらす音（またはノイズ）が音声源と並んで存在する場合のセマンティックな視聴覚言語ナビゲーションを提供することである。加えて、いくつかの実施形態の目的は、目標に到達する際のエンティティの成功率が改善されるように、支援を求めるかまたは導き手に問い合わせるように備えられたエンティティを提供することである。具体的には、いくつかの実施形態の目的は、エンティティが特定の数の質問またはクエリを尋ねることを許可されるとき、成功率を増加させ、経路長を減少させることである。

視聴覚言語ナビゲーションは、視聴覚的手掛かりを使用して音声源にナビゲートすることを学習することを目的とし、また、ナビゲーションステップを決定する際にその不確実性を暗黙的にモデル化することも学習し、短い自然言語文で提供されるナビゲーション命令について導き手からの支援を求める。

本開示のいくつかの実施形態は、視聴覚的ナビゲーションを自然言語命令と統合および一般化して、完全な視聴覚言語で具現化されたＡＩナビゲーションエンティティを構築することに基づく。

本開示のいくつかの実施形態は、エンティティがいつ導き手に問い合わせるか、音声目標を使用してどのようにナビゲートするか、および提供された自然言語命令をどのように使用するかを決定するためのポリシーを併せて学習する、新たなタイプの階層型強化学習フレームワークに基づく。

本開示のいくつかの実施形態は、さまざまなセマンティックオブジェクトおよびそれらの音を伴う大規模実世界環境を伴うデータセット上のセマンティックな視聴覚的ナビゲーションに基づく。

したがって、一実施形態は、エンティティを制御するためのコントローラを開示する。コントローラは、階層型マルチモーダル強化学習（ＲＬ）ニューラルネットワークを記憶するメモリを備える。階層型マルチモーダルＲＬニューラルネットワークは、第１のレベルコントローラと、少なくとも２つの第２のレベルコントローラとを含む。少なくとも２つの第２のレベルコントローラは、少なくとも第１のモダリティに関連する第１のサブレベルコントローラと、第２のモダリティに関連する第２のサブレベルコントローラとを備える。第１のモダリティは、第２のモダリティとは異なる。コントローラは、第１のレベルコントローラを使用して、タスクに関連する第１のサブタスクを実行するために、少なくとも２つの第２のレベルコントローラのうちの１つを選択するよう構成されるプロセッサを備える。選択は、少なくとも入力データと、階層型マルチモーダルＲＬニューラルネットワークの状態とに基づく。プロセッサは、少なくとも２つの第２のレベルコントローラから選択された第２のレベルコントローラに、第１のサブタスクを実行するために、制御アクションのセットを決定させるよう構成される。プロセッサは、選択された第２のレベルコントローラによって決定された制御アクションのセットに基づいてエンティティを制御するよう構成される。プロセッサは、さらに、選択された第２のレベルコントローラを使用して、第１のサブタスクの実行で階層型マルチモーダルＲＬニューラルネットワークの状態を更新するよう構成される。プロセッサは、さらに、第１のレベルコントローラを使用して、少なくとも、入力データ、階層型マルチモーダルＲＬニューラルネットワークの以前の状態、および階層型マルチモーダルＲＬニューラルネットワークの更新された状態に基づいて、タスクに関連する第２のサブタスクを実行するために、少なくとも２つの第２のレベルコントローラのうちの１つを選択するよう構成される。第２のサブタスクは、タスクを完了するために第１のサブタスクの後に実行される。

プロセッサは、さらに、少なくとも２つの第２のレベルコントローラの各々の選択に関連付けられるリソース制約を決定するよう構成される。プロセッサは、第１のレベルコントローラを使用して、リソース制約に基づいて、少なくとも２つの第２のレベルコントローラのうちの１つを選択するよう構成される。

第１のモダリティに関連する第１のサブレベルコントローラおよび第２のモダリティに関連する第２のサブレベルコントローラによって使用される、入力データまたは階層型マルチモーダルＲＬニューラルネットワークの状態は異なる。

第１のサブレベルコントローラは、映像情報に基づいて制御アクションのセットを決定するよう構成され、第２のサブレベルコントローラは、音声情報に基づいて制御アクションのセットを決定するよう構成される。

第１のサブレベルコントローラに関連する第１のモダリティは音声または映像ベースのモダリティであり、第２のサブレベルコントローラに関連する第２のモダリティは自然言語ベースのモダリティである。

第１のレベルコントローラは、第１のサブレベルコントローラの選択に向けてバイアスされる。

第１のサブレベルコントローラは、制御アクションのセットを、センサベースの音声情報またはセンサベースの映像情報のうちの少なくとも１つに基づいて決定するよう構成される。第２のサブレベルコントローラは、制御アクションのセットを自然言語命令に基づいて決定するよう構成される。

選択された第２のレベルコントローラが第１のモダリティに関連する第１のサブレベルコントローラである場合、プロセッサは、さらに、音声または映像ベースのモダリティを含む第１のモダリティに関連する第１のサブレベルコントローラを使用して、階層型マルチモーダルＲＬニューラルネットワークの状態に関連付けられる状態変数の第１のセットおよび入力データに少なくとも基づいて制御アクションのセットを決定するよう構成される。入力データは、センサベースの音声情報またはセンサベースの映像情報のうちの少なくとも１つを含む。プロセッサは、第１のサブレベルコントローラを使用して、第１のサブタスクの実行に基づいて状態変数の第１のセットを更新するよう構成される。

選択された第２のレベルコントローラが自然言語ベースのモダリティを含む第２のモダリティに関連する第２のサブレベルコントローラである場合、プロセッサは、さらに、第２のサブレベルコントローラを使用して、階層型マルチモーダルＲＬニューラルネットワークの状態に関連付けられる状態変数の第２のセットおよび入力データに少なくとも基づいて制御アクションのセットを決定するよう構成される。入力データは、自然言語命令を含む。状態変数の第１のセットは、状態変数の第２のセットとは異なる。プロセッサは、さらに、第２のサブレベルコントローラを使用して、第１のサブタスクの実行に基づいて状態変数の第２のセットを更新するよう構成される。

プロセッサは、階層型マルチモーダルＲＬニューラルネットワークに関連付けられる信念状態を判断するよう構成される。プロセッサは、選択された第２のレベルコントローラを使用して、階層型マルチモーダルＲＬニューラルネットワークの更新された状態および第１のサブタスクの実行に基づいて、階層型マルチモーダルＲＬニューラルネットワークの信念状態を修正するよう構成される。

選択された第２のレベルコントローラが第２のモダリティに関連する第２のサブレベルコントローラであり、第２のモダリティが自然言語ベースのモダリティである場合、プロセッサは、第２のサブレベルコントローラを使用して、第１のサブタスクに関連付けられる制御アクションのセットの実行に基づいて新たな信念状態を生成するよう構成される。プロセッサは、第２のサブレベルコントローラを使用して、現在の信念状態をクリアするよう構成される。

第１のレベルコントローラは、強化学習ネットワークを有する学習されたポリシーを使用して、少なくとも２つの第２のレベルコントローラのうちの１つをいつ選択すべきかを決定する。

いくつかの実施形態では、タスクは、初期状態からターゲット状態までのエンティティのナビゲーションのためのナビゲーションタスクである。第１のサブレベルコントローラに関連する第１のモダリティは音声または映像ベースのモダリティであり、第２のサブレベルコントローラに関連する第２のモダリティは自然言語ベースのモダリティである。第１のレベルコントローラが、第１のサブレベルコントローラを選択すると、第１のサブレベルコントローラは、センサベースの情報に基づいてエンティティのナビゲーションを制御する。第１のレベルコントローラが、第２のサブレベルコントローラを選択すると、第２のサブレベルコントローラは、自然言語で具現化されたナビゲーション命令についてエンティティに問い合わせさせ、第２のサブレベルコントローラは、自然言語命令に基づいてエンティティのナビゲーションを制御する。

別の実施形態は、階層型マルチモーダル強化学習（ＲＬ）ニューラルネットワークを有するコントローラを使用してエンティティを制御するための方法を開示する。階層型マルチモーダルＲＬニューラルネットワークは、第１のレベルコントローラと、少なくとも２つの第２のレベルコントローラとを含む。少なくとも２つの第２のレベルコントローラは、少なくとも、第１のモダリティに関連する第１のサブレベルコントローラと、第２のモダリティに関連する第２のサブレベルコントローラとを備える。第１のモダリティは、第２のモダリティとは異なる。本方法は、第１のレベルのコントローラを使用して、タスクに関連する第１のサブタスクを実行するために、少なくとも２つの第２のレベルコントローラのうちの１つを選択することを含む。選択は、少なくとも入力データと、階層型マルチモーダルＲＬニューラルネットワークの状態とに基づいて行われる。本方法は、少なくとも２つの第２のレベルコントローラから選択された第２のレベルコントローラに、第１のサブタスクを実行するために、制御アクションのセットを決定させることを含む。本方法は、選択された第２のレベルコントローラによって決定された制御アクションのセットに基づいてエンティティを制御することを含む。

さらに別の実施形態は、階層型マルチモーダル強化学習（ＲＬ）ニューラルネットワークを有するコントローラを使用してエンティティを制御するための方法を実行するためにプロセッサによって実行可能なプログラムを具現化したコンピュータ可読記憶媒体を開示する。階層型マルチモーダルＲＬニューラルネットワークは、第１のレベルコントローラと、少なくとも２つの第２のレベルコントローラとを含む。少なくとも２つの第２のレベルコントローラは、少なくとも、第１のモダリティに関連する第１のサブレベルコントローラと、第２のモダリティに関連する第２のサブレベルコントローラとを備える。第１のモダリティは、第２のモダリティとは異なる。本方法は、第１のレベルのコントローラを使用して、タスクに関連する第１のサブタスクを実行するために、少なくとも２つの第２のレベルコントローラのうちの１つを選択することを含む。選択は、少なくとも入力データと、階層型マルチモーダルＲＬニューラルネットワークの状態とに基づいて行われる。本方法は、少なくとも２つの第２のレベルコントローラから選択された第２のレベルコントローラに、第１のサブタスクを実行するために、制御アクションのセットを決定させることを含む。本方法は、選択された第２のレベルコントローラによって決定された制御アクションのセットに基づいてエンティティを制御することを含む。

いくつかの実施形態は、エンティティが、導き手または異なるエンティティもしくはエージェントと対話し、フィードバックを受信し、この情報をナビゲーションのために利用することを可能にされる、という理解に基づく。しかしながら、既存のアプローチからの導き手命令は、グラウンドトゥルースアクションおよび特定の数のアクションの連続するフレーズへの直接マッピングに限定される。ある場合には、固定された自然言語命令のセットが、導き手フィードバックとして使用されてもよい。そのような場合、そのような自然言語命令は、タスクの完了後にエンティティが直面するかまたは見るであろう、ターゲット画像（または目標画像）と結合されてもよい。しかしながら、エンティティは、問い合わせるべき特定の場所に到達することが要求される場合があり、これは、人間の導き手の観点からは非実用的である。したがって、本開示の目的は、エンティティが自由形式自然言語命令をフィードバックとして受信することを可能にすることである。フィードバックは、環境内の任意のナビゲート可能なポイントから取得されてもよい。このようにして、エンティティは、入力またはフィードバックを自然にかつ柔軟に受信してもよい。

添付の図面を参照して、ここに開示される実施形態についてさらに説明する。示される図面は必ずしも縮尺通りではなく、概して、本開示の実施形態の原理を説明することに重点が置かれる。

いくつかの実施形態による、エンティティのエンティティ構成を示す図である。一実施形態による例示的な探索動作を示す図である。別の実施形態による例示的な探索動作を示す図である。いくつかの実施形態による、探索動作を実行するためのエンティティのブロック図である。一実施形態による、サブ目標を有する軌道およびサブ目標なしで軌道データ点のみからなる軌道を示す図である。一実施形態による、階層型マルチモーダル強化学習（ＲＬ）ニューラルネットワークフレームワークを使用してタスクを実行するための例示的な方法のフローチャートを示す図である。ある実施形態による、コントローラを使用してエンティティを制御するための例示的方法のフローチャートを示す図である。一実施形態による、階層型マルチモーダルＲＬニューラルネットワークを更新するための例示的な方法のフローチャートを示す図である。一実施形態による、第１のポリシーを使用してサブタスクを実行するための例示的な方法のフローチャートを示す図である。一実施形態による、第２のポリシーを使用してサブタスクを実行するための例示的な方法のフローチャートを示す図である。一実施形態による、いつ導き手に問い合わせるべきかを決定するための方法のフローチャートを示す図である。一実施形態による、自然言語命令に基づいてナビゲーション命令を生成するための方法のフローチャートを示す図である。ある実施形態に係る、強化学習（ＲＬ）によって訓練された階層型マルチモーダルニューラルネットワークを得るための例示的なシステムのブロック図である。一実施形態による、環境内でナビゲートするためにエンティティを制御するためのコントローラの使用事例を示す。

以下の説明では、説明の目的で、本開示の完全な理解を促すために、多数の具体的な詳細が述べられる。しかしながら、本開示は、これらの具体的な詳細なしに実施されてもよいことは、当業者には明白であろう。他の例では、本開示を不明瞭にすることを回避するために、装置および方法がブロック図の形式でのみ示される。企図されるのは、特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更である。

本明細書および特許請求の範囲で用いられる場合、文言「例えば」、「例として」、「等」、ならびに動詞「備える」、「有する」、「含む」、およびそれらの他の動詞形は、１つ以上の構成要素または他の項目のリストとともに用いられる場合、各々オープンエンドと解釈されるべきであり、そのリストは、他の追加の構成要素または項目を排除するものと見なすべきではないことを意味する。「～に基づく」という文言は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される表現および用語は、説明の目的のためであり、限定と見なされるべきではないことを理解されたい。この記載内で利用されるいかなる見出しも、便宜上のものにすぎず、法的または限定的な効果を有さない。

以下の説明では、実施形態の完全な理解のために、具体的な詳細が与えられる。しかしながら、当業者によって理解されることは、実施形態がこれらの具体的な詳細なしで実施されてもよいことであり得る。たとえば、開示される主題におけるシステム、プロセス、および他の要素は、不必要な詳細で実施形態を不明瞭にしないように、ブロック図の形態の構成要素として示される場合がある。他の例では、周知のプロセス、構造、および技術は、実施形態を不明瞭にすることを回避するために、不必要な詳細を伴わずに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示した。

いくつかの実施形態の目的は、現実的な視覚世界において音声源の位置特定を可能にする視聴覚原語（ＡＶＬ）実施ナビゲーション技術を開示することである。いくつかの実施形態の別の目的は、音声源が現実的な視覚世界において位置特定されるＡＶＬ実施ナビゲーション方法を開示することである。いくつかの実施形態の別の目的は、エンティティがいつ導き手に問い合わせるか、音声目標を使用してどのようにナビゲートするか、および提供された自然言語命令をどのように使用するかを決定するためのポリシーを併せて学習する、新たなタイプの階層型マルチモーダル強化学習（ＲＬ）ニューラルネットワークフレームワークを開示することである。目的を明らかにするだけのために、いくつかの実施形態が、探索動作に関連して説明される。しかしながら、散発的音声源を用いた探索動作に関連して説明される原理は、他のエンティティナビゲーションアプリケーションにおける代替実施形態によって使用される。

図１Ａは、いくつかの実施形態によるエンティティ１５０のエンティティ構成１００を示す。エンティティ１５０は、エンティティ１５０において移動を提供するための移動装置１０１を含む。一例では、移動装置１０１は、移動を提供するために１つ以上のモータを含んでもよい。例えば、１つ以上のモータは、電気モータ、油圧モータ、および空気圧モータを含んでもよいが、それらに限定されない。移動装置１０１は、アーム１０２およびエンティティ１５０の足１０４の運動または移動のための電力を提供してもよい。例えば、アーム１０２および足１０４は、物体またはエンティティ１５０を移動させるための複数の自由度を有してもよい。いくつかの実現例では、アーム１０２は、物体を保持するため、および／または探索動作などの任意の他のロボット動作を実行するためのエンドツール１０６を備える。エンドツール１０６は、例えばグリッパであってもよい。以下、「エンドツール」および「グリッパ」は、互換的に使用され得る。

実施形態によれば、探索動作の目的は、例えば、身動きのとれない人間を探して見つけ出すために瓦礫をナビゲートしながら、音声源を判断することである。例えば、瓦礫は地震によって発生することがある。エンティティ１５０は、視聴覚的手掛かりを使用して、瓦礫をナビゲートし、音声源、または身動きできない被害者からの自然言語での助けを求める呼び声を聞いて、瓦礫をナビゲートしてもよい。そのような音声源は、散発的または非反復的であってもよい。

この目的のため、エンティティ１５０の表現は、限定として解釈されるべきではない。本開示の他の実施形態では、エンティティ１５０は、本体、１つ以上のコントローラ、１つ以上のセンサ、エンドエフェクタ、フィードバックデバイス、マニピュレータ等の他の構成要素を含んでもよい。

図１Ｂは、一実施形態による、エンティティによって実行される例示的な探索動作を示す。図１Ｂは、図１Ａに示されるエンティティ１５０に関連して説明される。エンティティ１５０は、探索動作を実行するように、例えば、瓦礫１０３をナビゲートして、例えば、音声源に基づいて、任意の身動きのとれない被害者を発見し、救助するよう構成される。本明細書で使用される場合、音声源は、音を発する源に対応する。例えば、音声源は、瓦礫１０３に閉じ込められた被害者であってもよい。単純なシナリオでは、音声源は、連続的または反復的であってもよく、すなわち、被害者は、助けを求めて叫ぶといった可聴音を発し続けてもよい。しかしながら、ある場合には、音声源は、散発的または非反復的であってもよく、すなわち、被害者は、助けを求めて１回叫ぶといった可聴音を発するだけである場合がある。エンティティ１５０の移動装置１０１は複数の自由度を含むので、エンティティ１５０の運動は、多次元空間にわたるモーションプロファイルを含んでもよい。

エンティティ１５０は、最初は初期位置にあってもよく、開始姿勢１１１において移動可能である。初期位置に対応するエンティティ１５０の位置は、エンティティ１５０の初期状態と呼ばれる。一実施形態によれば、探索動作の目的は、瓦礫１０３の内部に閉じ込められた１人以上の被害者を識別することであり、１人以上の被害者は、可聴音を生成してもよいし、生成しなくてもよい。例えば、エンティティ１５０は、軌道１１３に沿ってアーム１０２および足１０４を移動させて、瓦礫１０３を通ってナビゲートするよう構成される。

エンティティ１５０の目標は、閉じ込められた被害者からの呼び声などの音声源の位置に基づいて決定される。探索動作の成功裏な実行の終わりで、エンティティ１５０の状態は、エンティティ１５０の目標状態に到達したと考えられる。したがって、エンティティ１５０の目標状態を達成することは、探索動作の成功裏な実行と等価である。ある実施形態によれば、軌道１１３は、エンティティ１５０の開始状態および目標状態に従って定義される。さらに、そのような探索動作は、エンティティ１５０によって繰り返し実行されてもよい。

本実施形態を考慮すると、エンティティ１５０は、閉じ込められた人間を探し、見つけ出すために、（例えば、地震後に）未知の瓦礫１０３をナビゲートする必要がある場合がある。エンティティ１５０は、視覚的手掛かりを使用して、瓦礫１０３をナビゲートする必要がある場合がある。さらに、エンティティ１５０はまた、閉じ込められた被害者からの苦しんでいる声または助けを求める呼び声を聴取する必要があり得る。エンティティ１５０はさらに、救助努力を誘導するために、それが発見した被害者に関して通信し、制御ステーションを更新しなければならない場合がある。場合によっては、エンティティ１５０はまた、音源を視覚的／聴覚的に探し出すことができないとき、被害者を探し出すための助けを他のエージェントまたは人間のオペレータから求めてもよい。したがって、本開示のいくつかの実施形態は、エンティティ１５０は、具現化された自律性およびマルチモーダル対話のための能力を必要とする、という認識に基づく。ある局面では、本開示の実施形態は、異なるモダリティに関連する情報について複数のセマンティックレベルに関連する問題に対処しようとし、そのため、エンティティ１５０は、そのミッションを効率的に解決するために、どの時点でどのような情報を求める必要があるかを知る必要がある。例えば、音が明確に聞こえない場合、エンティティ１５０は、遠隔オペレータから、どこにまたはどの方向に探索の焦点を合わせるかについての提案の支援を求めてもよい。しかしながら、与えられるオペレータ命令は、自然言語であるかもしれず、したがって、エンティティ１５０は、これらの命令からナビゲーションコマンドを作成するために、それを明確に解読する必要がある。次いで、自然言語命令を解読するために、より高いセマンティックレベルでの推論を伴うタスクが実行されなければならない場合がある。

いくつかの実施形態は、探索動作に関与するエンティティ１５０の目標状態が探索動作の反復の間で変動してもよい、という認識に基づく。たとえば、エンティティ１５０が、被害者などからの音声源からの音を聴取または感知する場合、エンティティ１５０は、音声源を識別し、被害者を識別するよう、探索動作を開始してもよい。たとえば、可聴音は、散発的および非反復的な自然言語であってもよい。

いくつかの実施形態は、エンティティ１５０は、軌道１１３を部分部分に分けて生成して瓦礫１０３をナビゲートしてもよい、という認識に基づく。例えば、エンティティ１５０は、瓦礫１０３をナビゲートするタスクを分解して、被害者を１つ以上のサブタスクに発見してもよい。この点に関して、１つ以上のサブタスクからの第１のサブタスクの完了は、軌道１１３の第１の部分の生成および第１の部分上でのエンティティ１５０のナビゲーションに対応してもよい。第１のサブタスクが実行されると、エンティティ１５０は、軌道１１３の第２の部分を生成するよう第２のサブタスクを実行してもよい。

そのために、図１Ａに戻って参照すると、エンティティ１５０は、１つ以上のセンサ１０７から受信されたセンサデータに基づいて、（図１Ｂに示される）軌道１１３、具体的には、軌道の部分を生成してもよい。一例では、エンティティ１５０は、１つ以上の視覚センサ１０８と、１つ以上の音声センサ１０９と、１つ以上の言語センサ１１０とを含んでもよい。例えば、視覚センサ１０８はカメラであってもよく、音声センサ１０９はマイクロフォンであってもよい。例えば、エンティティ１５０は、第１のサブタスクを定式化するために、その周囲の視覚および可聴情報を知覚してもよい。しかしながら、場合によっては、エンティティ１５０は、目標推定値に対応するセンサデータ、すなわちエンティティ１５０の環境に関連するセンサデータのみに基づいて、瓦礫１０３をナビゲートできないことがある。その後、エンティティ１５０は、他のサブタスクを定式化し、軌道１１３を完全に生成するために、自然言語音声または視覚入力等の別のモダリティにおける入力を要求してもよい。

この目的のために、いくつかの実施形態は、エンティティ１５０が、自然言語入力を受信するために、瓦礫１０３等の環境内で導き手にいつ問い合わせるかを知らない場合がある、という認識に基づく。いくつかの実施形態はまた、エンティティ１５０が、音声センサ１０９および視覚センサ１０８に基づいて、瓦礫１０３を通してナビゲートする方法を知らない場合がある、という認識に基づく。いくつかの実施形態はまた、エンティティ１５０が、自然言語命令、すなわち、自然言語モダリティを、他のセンサベースの命令、すなわち、音声および視覚モダリティとともにどのように使用するかを知らない場合がある、という認識に基づく。

図１Ｃは、一実施形態による、異なるモダリティに基づいてエンティティ１５０によって実行される例示的な探索動作を示す。図１Ｂは、図１Ａに示されるエンティティ１５０に関連して説明される。エンティティ１５０は、意味を持った音を発する物体１２２を見つけるために、未見の３Ｄ部屋環境１２０においてナビゲートすることが要求される。意味を持った音を発する物体１２２によって発せられる音は散発的であってもよく、または持続時間が短くてもよいことに留意されたい。

いくつかの実施形態は、人間間のコミュニケーションが、周囲の物体およびイベントについての異なる情報モダリティの情報（視覚情報および音声情報など）と密接に伝達される、という認識に基づく。エンティティ１５０などの機械が、人間などの導き手と探索動作について対話するためには、マルチモーダル推論が必要である。マルチモーダル推論は、動的視聴覚的シーンの効果的なモデルを生成するために利用される。エンティティ１５０は、モーダルに基づいて探索動作について推論し、導き手からのクエリに対する応答を生成してもよい。ある例では、そのようなマルチモーダルクエリは、視聴覚的シーンを意識したダイアログ（ＡＶＳＤ）システムを介して形式化されてもよい。ＡＶＳＤシステムのいくつかのアプリケーションは、エンドツーエンドダイアログ、視覚的質問応答（ＶＱＡ）、および映像キャプショニングを含む。ＡＶＳＤシステムは、導き手とエンティティ１５０との間の会話をサポートするために使用されてもよい。会話をサポートするために、ＡＶＳＤシステムは、マルチモダリティ（例えば、音声、映像、クエリ、およびマルチターンダイアログ履歴）を併せて使用して視聴覚的シーンおよび以前のダイアログコンテキストをモデル化し、応答を自由形式自然言語で生成する能力を必要とする。この目的のため、自然言語においてクエリをモデル化するために、計算リソースが必要とされてもよい。例えば、エンティティ１５０は、設定された予算を有してもよく、したがって、エンティティ１５０は、予算に基づいて導き手にいつ問い合わせるかを決定するようポリシーを必要としてもよい。さらに、自然言語および映像（または音声）情報のようなモダリティがＡＶＳＤタスクに必要とされる。映像は自然言語とは無関係であってもよく、時には、自然言語情報および音声情報は同様の情報を含んでもよい。いくつかの実施形態は、エンティティ１５０は、自然言語からの情報を使用するために、自然言語から関連情報を抽出する必要がある、という認識に基づく。

図２は、いくつかの実施形態による、探索動作などのＡＶＳＤタスクを実行するためのエンティティ１５０のブロック図を示す。エンティティ１５０は、エンティティ１５０の運動を示す入力データを受信するよう構成される入力インターフェース２００を含む。入力データは、タスクを実行するために、エンティティ１５０の姿勢を開始姿勢から目標姿勢に遷移させるために使用されてもよい。入力インターフェース２００は、さらに、終了姿勢修正を受け付けるように構成されてもよい。終了姿勢修正は、エンティティ１５０の新たな開始姿勢およびエンティティ１５０の新たな目標姿勢のうちの少なくとも１つまたは組み合わせを含む。いくつかの実施形態では、入力インターフェース２００は、エンティティ１５０によってタスクの実行中に経験される視覚信号および音声信号を示す入力データを受信するよう構成される。例えば、入力データは、音声、映像、テキスト、自然言語などのマルチモーダル情報に対応する。そのような入力データは、視覚センサ１０８によって受信もしくは感知されるセンサベースの映像情報、音声センサ１０９によって受信もしくは感知されるセンサベースの音声情報、または言語センサ１１０によって受信もしくは感知される自然言語命令を含んでもよい。入力データは、センサ１０７から受信される生の測定値、または音声および／もしくは映像情報ならびに信号を表す、該測定値の任意の派生物であってもよい。

一実施形態では、エンティティ１５０は、関節によって連結されたアーム１０２、足１０４、およびエンドツール１０６などの構成要素のセットである。ある例において、関節は、回転関節、摺動関節、または他のタイプの関節であってもよい。関節の集合は、対応する構成要素の自由度を決定する。一例では、アーム１０２は、５～６の自由度を可能にする５～６個の関節を有してもよい。ある例では、エンドツール１０６は、平行グリッパであってもよい。例えば、平行グリッパは、２つの平行フィンガを有し、それらの距離は、相互に対して調節されることができる。代わりに、多くの他のエンドツール、例えば、溶接用先端を有するエンドツールが使用されてもよい。関節は、構成要素の所望の構成を達成するよう調整されてもよい。ある所望の構成は、ユークリッド空間における所望の位置、または関節空間における所望の値に関連してもよい。関節はまた、所望の（角）速度および／または（角）加速度を達成するよう、時間領域において命令されてもよい。関節は、関節の対応する状態を報告してもよい埋め込みセンサを有してもよい。報告される状態は、たとえば、角度の値、電流の値、速度の値、トルクの値、加速度の値、またはそれらの任意の組合せであってもよい。報告される関節状態の集合は、状態と呼ばれる。

エンティティ１５０は、エンティティ１５０を他のシステムおよびデバイスに接続するいくつかのインターフェースを有してもよい。例えば、エンティティ１５０は、入力インターフェース２００を介して新たな開始姿勢および目標姿勢を受信するために、バス２０１を介してセンサ１０７（図１Ａに示される）に接続される。追加または代替として、いくつかの実現例では、エンティティ１５０は、プロセッサ２０５をキーボード２０３およびポインティングデバイス２０４に接続するヒューマンマシンインターフェース２０２を含み、ポインティングデバイス２０４は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、またはタッチスクリーンを含んでもよい。いくつかの実施形態では、エンティティ１５０は、制御法則またはポリシーに従って生成されるコマンドに従って、関節を動かしてアーム１０２および／または足１０４の運動を変化させるよう構成される、モータ２１０または複数のモータを含んでもよい。さらに、エンティティ１５０は、コントローラ２０９を含む。コントローラ２０９は、ポリシーに従ってモータ２１０を動作させてアーム１０２および／または足１０４の配置を変更するよう構成される。エンティティ１５０に対するコマンドは、バス２０１を介してコントローラ２０９から受信される。例えば、状態は、センサ１０７からバス２０１を介してコントローラ２０９によって受信される。ある例では、バス２０１は専用のデータケーブルである。別の例では、バス２０１はイーサネットケーブルである。たとえば、エンティティ１５０は、図１Ｃに示す意味を持った音を発する物体１２２を探索しなければならないことがある。たとえば、ナビゲートし、意味を持った音を発する物体１２２に到達するための命令は、タスク記述の一部であってもよい。

本例によれば、コントローラ２０９は、階層型マルチモーダル強化学習（ＲＬ）ニューラルネットワーク２０９ａを含み、これは、第１のレベルコントローラ２１２および少なくとも２つの第２のレベルコントローラ２１４をさらに含む。例えば、少なくとも２つの第２のレベルコントローラ２１４は、第１のサブレベルコントローラ２１４ａおよび第２のサブレベルコントローラ２１４ｂを含む。例えば、第１のレベルコントローラ２１２は、ナビゲーションサブタスクを実行するために、２つの第２のレベルコントローラ２１４のうちの１つ、すなわち、第１のサブレベルコントローラ２１４ａおよび第２のサブレベルコントローラ２１４ｂのうちの１つを選択してもよい。第１のレベルコントローラ２１２が第１のサブレベルコントローラ２１４ａおよび第２のサブレベルコントローラ２１４ｂのうちの１つを選択する方法は、以下の図に関連して詳細に説明される。

第１のレベルコントローラ２１２は、強化学習ネットワークを有する学習されたポリシーを使用して、少なくとも２つの第２のレベルコントローラ、すなわち第１のサブレベルコントローラ２１４ａおよび第２のサブレベルコントローラ２１４ｂのうちの１つをいつ選択すべきかを決定する。一例では、学習されたポリシーは、エンティティ１５０がどのようなアクションを取るべきかを決定するための指令を表す。学習されたポリシーは、エンティティ１５０のアクションまたは状態のシーケンスであってもよい。より複雑なポリシーは、ロボット状態を入力とし、ロボットに取るべきアクションを与える関数である。アクションは、エンティティ１５０をある場所から別の場所に移動させるために関節およびパーツに適用されるべき値を表してもよい。例えば、学習されたポリシーは、決定論的であってもよく、これは、ポリシーがエンティティ１５０の１つ以上のパーツの運動ごとに単一の値を提供することを意味する。学習されたポリシーは確率論的でもあり得、ポリシーは、運動についての値にわたる確率分布を提供する。ある実施形態では、学習されたポリシーは、入力として状態をとり、強化学習ネットワークなどのニューラルネットワークによって表される。別の実施形態では、ポリシーは、入力として状態をとる解析関数によって表されてもよい。ポリシーは、連続数の時間ステップに対して実行されてもよく、これは、なんらかの初期時間ステップt₀における状態に対して、ポリシーが、エンティティ１５０にアクションを与え、次いで、そのアクションが、エンティティ１５０によって実行されることを意味する。次いで、エンティティ１５０は、時間ステップt₁において新たな状態に到着する。次いで、時間ステップt₁において、その新たな状態でポリシーが実行される。これは、所望の数の時間ステップに対して繰り返され、そうでなければ、エンティティ１５０は、サブタスク（探索動作等）が完了したという指示を受信する。ポリシーのこの反復実行は、軌道をもたらすことになる。

ある実施形態では、第２のレベルコントローラ２１４は、異なるモダリティで構成されてもよい。たとえば、第１のサブレベルコントローラ２１４ａは第１のモダリティに関連してもよく、第２のサブレベルコントローラ２１４ｂは第２のモダリティに関連してもよい。ある例では、第１のサブレベルコントローラ２１４ａに関連する第１のモダリティは音声または映像ベースのモダリティであり、第２のサブレベルコントローラ２１４ｂに関連する第２のモダリティは自然言語ベースのモダリティである。この目的のため、第１のサブレベルコントローラ２１４ａおよび第２のサブレベルコントローラ２１４ｂは、対応するモダリティに基づく異なるポリシーとともに構成されてもよい。したがって、第１のモダリティは、第２のモダリティとは異なる。

「物理的」、「現実的」、または「実世界」という分類を伴わないエンティティへの言及は、物理的エンティティもしくは物理的ロボット、または物理的エンティティもしくは物理的ロボットの挙動を忠実にシミュレートすることを目的とするロボットシミュレータを意味してもよいことに留意されたい。ロボットシミュレータは、現実世界のロボットの運動特性および動力特性をシミュレートするための数式に基づくアルゴリズムの集合からなるプログラムである。好ましい実施形態では、ロボットシミュレータは、コントローラ２０９もシミュレートする。ロボットシミュレータは、エンティティ１５０の２Ｄまたは３Ｄ視覚化のためのデータを生成してもよい。

エンティティ１５０は、記憶された命令を実行するよう構成されるプロセッサ２０５と、プロセッサ２０５によって実行可能な命令を記憶するメモリ２０６とを含む。プロセッサ２０５は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であってもよい。

メモリ２０６は、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、フラッシュメモリ、または任意の他の好適なメモリシステムを含んでもよい。プロセッサ２０５は、バス２０１を介して１つ以上の入力インターフェースおよび他のデバイスに接続される。ある実施形態では、メモリ２０６は、コントローラ２０９内で具現化され、階層型マルチモーダルＲＬニューラルネットワーク２０９ａをさらに記憶してもよい。階層型マルチモーダルＲＬニューラルネットワークは、次いで、例示的な実現例において、第１のコントローラ２１２および第２のレベルコントローラ２１４を具現化してもよい。

エンティティ１５０はまた、プロセッサ２０５のために実行可能命令を記憶する異なるモジュールを記憶するように適合される記憶装置２０７を含んでもよい。記憶装置２０７はまた、エンティティ１５０がナビゲートしなければならない環境の空間を示す訓練データを生成するための自己探索プログラム２０８を記憶してもよい。記憶装置２０７は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、またはそれらの任意の組み合わせを使用して実現されてもよい。プロセッサ２０５は、ポリシーに従ってアーム１０２および／または足１０４を移動させるように複数のモータを制御するための制御法則を決定し、学習されたポリシーに従って複数のモータを制御することによって環境を探索する自己探索プログラム２０８を実行するよう構成される。

エンティティ１５０は、軌道をたどることによってエンティティ１５０の初期状態からターゲット状態（意味を持った音を発する物体１２２の位置など）にエンティティ１５０をナビゲーションするためのナビゲーションタスクなどのタスクを実行するよう構成されてもよい。軌道は、エンティティ１５０についての様々なサブタスクを表す様々なサブ軌道に分解されてもよい。

図３Ｂは、一実施形態による、サブ目標のない軌道３０２を示し、軌道データ点３１０のみからなる。軌道３０２は、人間のオペレータ、ソフトウェア、ロボットコントローラ、またはポリシーによって生成されてもよい。軌道３０２を生成する他の機構が存在し得ることが理解される。

再び図３Ａを参照すると、サブ目標３２０は、サブ目標を伴うソースポリシーおよび／またはサブ目標を伴うターゲットポリシーの一部としてエンティティ１５０上に記憶されてもよい。ある例では、サブ目標３２０は、学習されたポリシーから生成された軌道３０２を入力としてとるニューラルネットワークによって生成される。ある実施形態では、サブ目標３２０の数は、人間のオペレータによって予め決定される。別の実施形態では、サブ目標３２０の数は、意味を持った音を発する物体１２２などから軌道３０２または可聴音を分析することによって学習されてもよい。軌道を分析する一例は、軌道における２つの後続の時間ステップの間の値が何らかの閾値を超えて変化するかどうかを判定することであり、その場合、時間ステップのうちの１つがサブ目標と見なされる。例えば、サブ目標は、エンティティ１５０によって受信される入力データに基づいて設定されてもよい。上述のように、入力データは、音声、映像、自然言語などのいくつかのモダリティからのものであってもよい。エンティティ１５０は、サブ目標を完了すると、新たな入力データを受信してもよい。新たな入力データおよび以前のサブ目標に基づいて、エンティティ１５０は、次のサブ目標を決定してもよい。この点に関して、サブ目標の各々は、エンティティ１５０が、たとえば、意味を持った音を発する物体１２２に到達するために探索動作などのタスクを完了するべくナビゲートしなければならなくてもよい軌道のセグメントに対応してもよい。サブ目標に到達するために、エンティティ１５０は、対応するサブタスクを実行しなければならなくてもよい。一例では、エンティティ１５０は、１つ以上のサブタスクを階層的に実行する。サブタスクが実行される階層的態様は、図４で説明される。

図４は、一実施形態による、階層型マルチモーダルＲＬニューラルネットワーク２０９ａフレームワークを使用してタスクを実行するための例示的な方法のフローチャートを示す。ある例では、タスクは、初期状態からターゲット状態までのエンティティ１５０のナビゲーションのためのナビゲーションタスクである。たとえば、探索環境１２０に関して、初期状態は、エンティティ１５０の開始姿勢および開始状態に対応してもよく、ターゲット状態は、音を発する物体１２２の位置に対応する。

エンティティ１５０は、環境１２０内で導き手と対話し、自然言語フィードバックを受信する能力を備えていることに留意されたい。次いで、エンティティ１５０は、タスクを複数のサブタスクに分解するように要求される。エンティティ１５０は、複数のサブタスクを実行し、例えば、目標推定値または目標記述子に基づいてナビゲートし、いつ導き手に問い合わせるべきかを決定し、命令に基づいて問い合わせられる場合、連続的制御アクションのセットを予測する。ある例では、エンティティ１５０は、階層型マルチモーダルＲＬニューラルネットワーク２０９ａを利用して、複数のサブタスクを実行してもよい。本方法は、階層型マルチモーダルＲＬニューラルネットワークを使用して、エンティティ１５０などのロボットを訓練して、タスクまたはタスクのサブタスクを効果的な方法でどのように実行するかを学習することを説明する。

強化学習（ＲＬ）は、累積報酬の何らかの概念を最大化するために、ソフトウェアエージェント、エンティティまたはコントローラが環境においてどのようにアクションを取るべきかに関する機械学習の領域である。ＲＬエージェントは、離散的な時間ステップでその環境と対話する。各時間ｔにおいて、ＲＬエージェントは、典型的には報酬r_tを含む観測値o_tを受信する。次いで、ＲＬコントローラは、利用可能なアクションのセットからアクションa_tを選択して報酬を増加させ、この報酬はその後環境に送信される。

エンドツーエンド階層型マルチモーダルＲＬニューラルネットワーク２０９ａフレームワークを設計することに対して、いくつかの可能性が存在し得ることに留意されたい。例えば、目標推定値に基づくか、もしくは受信された命令に基づいて、導き手に問い合わせるか、またはナビゲーションステップを行うか、を決定する単一のポリシーを使用してもよい。しかしながら、メインタスクを成功裏かつ効率的に完了するために解決される必要があるサブタスク間には明確な違いがある。単一の状態空間および単一のポリシーを使用してこれらの多様なサブタスクを解決することは、達成するのが困難であり、最適状態に及ばない性能をもたらすことになる。上記の課題を軽減するために、ナビゲーションタスク全体を３つの単純なサブタスクに分解し、サブタスクごとに独立して抽象化された状態空間を使用してもよい。上位タスクをサブタスクに分割し、次いでＲＬベースのニューラルネットワークを使用してタスクを実行することは、本開示で説明する階層型マルチモーダルＲＬニューラルネットワーク２０９ａの核心である。そのために、ナビゲーションタスクを解決するための階層的態様が図４に示され、目標推定値に基づくか、または導き手から受信された命令に基づいて、いつ導き手に問い合わせるべきか、およびどのようにナビゲーションステップを行うべきかを決定する。

４０２において、タスクのためにナビゲーションステップを決定するために使用される、２つの下位ポリシーが取り出される。ある例では、２つのポリシーは、第１のポリシーおよび第２のポリシーを含む。たとえば、第１のポリシーは第１のモダリティに関連してもよく、第２のポリシーは第２のモダリティに関連してもよい。ある例では、第１のポリシーは、第１のサブレベルコントローラ２１４ａ上で構成されてもよく、第２のポリシーは、第２のサブレベルコントローラ２１４ｂ上で構成されてもよい。

ある例では、第１のポリシーは、音声モダリティ、映像モダリティ、テキストモダリティ、他の目標情報ベースのモダリティ、または自然言語ベースのモダリティに関連してもよい。同様に、第２のポリシーは、音声モダリティ、映像モダリティ、テキストモダリティ、他の目標情報ベースのモダリティ、または自然言語ベースのモダリティに関連してもよい。本開示の実施形態の例示的実現例によれば、第１のポリシーは、音声ベースのポリシーであってもよく、第２のポリシーは、視覚および言語ベースのポリシーであってもよい。この点に関して、第１のポリシーとともに構成される第１のサブレベルコントローラ２１４ａは、音声目標ポリシーに関連する、すなわち、音声センサベースの入力データに基づくタスクを実行するよう構成されてもよい。さらに、第２のポリシーとともに構成される第２のサブレベルコントローラ２１４ｂは、視覚および言語ポリシーに関連する、すなわち、視覚または自然言語ベースの入力データに基づくタスクを実行するよう構成されてもよい。第１のポリシーが音声目標ポリシーであり、第２のポリシーが視覚および言語ポリシーであるそのような例は、単なる例示であり、限定として解釈されるべきではないことに留意されたい。したがって、２つの下位ポリシーのいずれかを取り出すことは、コントローラ２０９が第１のレベルコントローラ２１２を使用して２つの第２のレベルコントローラ２１４のうちの１つを選択することと等価である。

しかしながら、エンティティ１５０は、どのポリシー、すなわち、どのサブコントローラをいつ使用するかを決定するのに、ある課題に直面する。

４０６において、選択された下位ポリシーは、タスクに関連付けられるサブタスクを実行する。この点に関して、選択された下位ポリシーは、入力データおよび階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態を取得してもよい。たとえば、入力データは、音声信号、映像信号、もしくは視覚ベースの自然言語命令、音声ベースの自然言語命令など、探索環境１２０からキャプチャされたセンサ測定値または信号を含んでもよい。ここで、第１のモダリティに関連する第１のサブレベルコントローラ２１４ａおよび第２のモダリティに関連する第２のサブレベルコントローラ２１４ｂによって使用されるような、入力データまたは階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態は、異なる。言い換えれば、第１のモダリティに関連する第１のサブレベルコントローラ２１４ａは、あるタイプの入力データ、たとえば、音声信号と、あるタイプの入力データ、たとえば、自然言語命令とは異なる階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態のパラメータの第１のセットと、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態のパラメータの第２のセットとを取得してもよい。

サブタスクを実行するために、対応するサブレベルコントローラにおいて構成される選択された下位ポリシーは、エンティティ１５０の開始状態から新たな状態へのナビゲーションのための制御命令のセットを生成してもよい。開始状態は、初期状態または前のサブタスクからの目標状態に対応してもよい。同様に、新たな状態は、初期状態と目標状態との間の断続的な状態、または目標状態自体に対応してもよい。タスクは、目標状態において完了されると考えられてもよいことに留意されたい。

ある例では、第１のサブレベルコントローラ２１４ａは、映像ベースのモダリティに関連してもよい。そのような場合、第１のサブレベルコントローラ２１４ａは、選択されると、映像情報に基づいて制御アクションのセットを決定するよう構成される。さらに、第２のサブレベルコントローラ２１４ｂは、音声ベースのモダリティに関連してもよい。そのような場合、第２のサブレベルコントローラ２１４ｂは、選択されると、音声情報に基づいて制御アクションのセットを決定するよう構成される。制御アクションのセットに基づいて、第１のサブレベルコントローラ２１４ａまたは第２のサブレベルコントローラ２１４ｂは、エンティティ１５０のナビゲーションを制御する。別の例では、第１のサブレベルコントローラ２１４ａに関連する第１のモダリティは音声または映像ベースのモダリティであり、第２のサブレベルコントローラ２１４ｂに関連する第２のモダリティは自然言語ベースのモダリティである。そのような場合、第１のレベルコントローラ２１２が第１のサブレベルコントローラ２１４ａを選択すると、第１のサブレベルコントローラ２１４ａは、センサベースの音声または映像情報に基づいてエンティティ１５０のナビゲーションを制御する。代替的に、第１のレベルコントローラ２１２が第２のサブレベルコントローラ２１４ｂを選択すると、第２のサブレベルコントローラ２１４ｂは、自然言語で具現化されたナビゲーション命令についてエンティティ１５０に問い合わせさせる。第２のサブレベルコントローラ２１４ｂは、自然言語命令に基づいてエンティティ１５０のナビゲーションを制御する。

図５Ａは、一実施形態による、コントローラを使用してエンティティ１５０を制御するための例示的な方法のフローチャートを示す。一例では、エンティティ１５０は、１つ以上の関節を介して互いに接続された複数のパーツを有するロボットであってもよい。例えば、エンティティ１５０は、足、腕、本体、頭部、または任意の他のパーツを有してもよい。さらに、エンティティは、その上にインストールされたソフトウェアエージェントを有してもよい。ソフトウェアエージェントは、エンティティ１５０の１つ以上のコントローラ２０９上で動作して、エンティティ１５０に割り当てられたタスクを実行してもよい。一例では、目標記述は、音声源からの可聴音に基づいてもよい。この点に関して、目標は、音声源に対して探索動作を実行することであってもよい。その後、目標は、探索動作を完了するよう音声源へのエンティティ１５０のナビゲーションを含んでもよい。

この方法は、複数のサブタスクを実行し、コントローラ２０９を制御するための、マルチモーダル階層ＲＬニューラルネットワーク２０９ａフレームワークを開示する。コントローラ２０９は、第１のレベルコントローラ２１２および第２のレベルコントローラ２１４を含んでもよい。第２のレベルコントローラ２１４は、第１のサブレベルコントローラ２１４ａおよび第２のサブレベルコントローラ２１４ｂを含む。たとえば、第１のサブレベルコントローラ２１４ａは第１のモダリティに関連してもよく、第２のサブレベルコントローラ２１４ｂは第２のモダリティに関連してもよい。この点に関して、第１のモダリティは、第２のモダリティとは異なってもよい。その後、第１のモダリティに関連する第１のポリシーは、第２のモダリティに関連する第２のポリシーとは異なってもよい。ある例では、第１のサブレベルコントローラ２１４ａに関連する第１のモダリティは、音声または映像ベースのモダリティ、例えば、目標推定値に到達するための音声モダリティ、または目標推定値に到達するための映像モダリティであり、第２のサブレベルコントローラ２１４ｂに関連する第２のモダリティは、自然言語ベースのモダリティである。第２のレベルコントローラ２１４の数が２つであるのは単なる例示であり、本発明の他の実施形態では、任意の数の第２のレベルコントローラが存在してもよいことに留意されたい。例えば、第２のレベルコントローラの数は、エンティティ１５０によって解釈され得るモダリティの数に基づいてもよい。その後、別の例示的な実施形態では、音声ベースのモダリティ、映像ベースのモダリティ、ならびに視覚および言語モダリティに対応する３つの第２のレベルコントローラが存在してもよい。

本実施形態を続けると、本開示は、エンティティ１５０と導き手を有する探索環境との間のマルチモーダル対話を開示する。一例では、導き手は人間であってもよい。この目的のため、エンティティ１５０は、環境と対話して、センサ読取値などの目標ベースの測定値を取得するか、または自然言語を使用して環境内の導き手と対話するよう構成されてもよい。対話に基づいて、自然言語命令またはセンサ測定値を取得してもよい。

理解され得るように、マルチモーダル対話は、自然な伝達モードを通じた仮想的および物理的環境との対話を指す。言い換えれば、マルチモーダル対話は、より自由で自然な伝達を可能にし、入力および出力の両方においてユーザと自動化されたシステムとのインターフェースをとる。具体的には、マルチモーダルシステムは、導き手等のユーザが、発話、手書き、手振り等の入力モダリティを通して対話することを可能にする、柔軟で効率的かつ使用可能な環境を提供してもよい。特定の場合において、導き手が環境１２０に存在しない場合、他の目標ベースのセンサデータが環境から取得されてもよい。次いで、マルチモーダルシステム、すなわちエンティティ１５０は、異なるモダリティからの入力を認識し、それらの解釈を可能にするために時間的制約および文脈的制約に従ってそれらを組み合わせなければならない。入力は、探索動作または任意の他のナビゲーションタスクを実行するためにエンティティ１５０によって処理および解釈される。本開示によれば、ニューラルネットワーク２０９ａは、強化学習に基づいて訓練される。

理解され得るように、異なるモダリティは、異なるレベルのセマンティック粒度に存在する。具体的には、エンティティ１５０がタスクをナビゲートまたは実行するために、そのアクチュエータにコマンドが提供される必要がある。しかしながら、これらのコマンドは、そのセンサ入力を直接マッピングすることによって生成され得るか、またはナビゲーションコマンドに変換される必要がある口頭の自然言語命令からであり得る。入力データが自然言語命令を含む場合、１つの言語命令は、いくつかのナビゲーション制御コマンドに対応するかもしれない。そのようなセマンティックレベルは、エンティティ１５０が導き手に尋ねることができるいくつかのクエリに対する予算がある場合、エンティティ１５０が自然言語クエリをいつ呼び出すかを決定するための良好な基準は何であるか、入力（言語およびセンサ）が異なるセマンティックレベルにある場合にロボットを誘導してそのナビゲーションを改善するために、モダリティが協調的なポリシーを提供するよう、モダリティ間で同期をとるのに、なにが良好な方法であるか、ならびに実行時に部分的に観測可能な設定でエンティティ１５０のメモリまたは信念をどのように更新するか、といったいくつかの課題を提起する。理解され得るように、異なるモダリティは、様々な長さの軌道を有する異なるナビゲーション経路をもたらしてもよい（例えば、視聴覚的ナビゲーションは、１ステップナビゲーションであるかもしれず、一方、自然言語命令は、エンティティ１５０に１つのクエリ／命令で複数ステップを行わせてもよい）。

本開示の目的は、上記の問題に対処することである。この点に関して、階層型マルチモーダルＲＬニューラルネットワーク２０９ａは、探索動作などの動作に関連付けられるタスクを実行するためにエンティティ１５０を誘導するために、第１のレベルコントローラ２１２によって実現される。

５０２において、第１のレベルコントローラ２１２は、少なくとも入力データおよび階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態に基づいて、タスクに関連する第１のサブタスクを実行するために第２のレベルコントローラ２１４のうちの１つを選択する。ある例では、入力データは、探索環境１２０などの環境から取得されたセンサベースの観測データを含んでもよい。別の例では、入力データは、環境内の導き手からの自然言語命令を含んでもよい。さらに別の例では、入力データは、視覚センサデータ、音声センサデータ、および自然言語命令の任意の組合せを含んでもよい。さらに、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態は、タスクの完了に対するアクションの影響を予測するために必要な情報のすべてを含んでもよい。状態は、それが目標状態、すなわち目的地状態であるかどうかを判定もしてもよい。この目的のため、状態は、エンティティ１５０に対する以前のアクションの影響、および以前のアクションの影響と目標状態との間の比較を示してもよい。

ある例では、異なる第２のレベルコントローラ２１４は、異なるモダリティに関連してもよい。その後、異なる第２のレベルコントローラ２１４は、エンティティ１５０のアクションを遂行するために異なる方程式またはパラメータを利用してもよい。さらに、異なる第２のレベルコントローラ２１４は、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態または階層型マルチモーダルＲＬニューラルネットワークの状態の変化を判断するために異なるパラメータを用いてもよい。

５０４において、第２のレベルコントローラ２１４から選択された第２のレベルコントローラは、第１のサブタスクを実行するために制御アクションのセットを決定するよう構成される。選択された第２のレベルコントローラは、その対応するポリシーを利用して、制御アクションのセットを決定してもよい。例えば、制御アクションのセットは、エンティティ１５０のパーツのアクチュエータに提供されてもよい。

ある例では、選択された第２のレベルコントローラが第１のモダリティに関連する第１のサブレベルコントローラ２１４ａである場合、第１のサブレベルコントローラ２１４ａは、制御アクションのセットを決定してもよい。例えば、第１のモダリティは、音声または映像ベースのモダリティであってもよい。第１のサブレベルコントローラ２１４ａは、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態に関連付けられる状態変数の第１のセットおよび入力データに少なくとも基づいて、制御アクションのセットを決定してもよい。例えば、入力データは、センサベースの音声情報またはセンサベースの映像情報のうちの少なくとも１つを含む。さらに、第２のサブレベルコントローラ２１４ｂに関連付けられる第２のモダリティは、自然言語ベースのモダリティであってもよい。選択された第２のレベルコントローラが第２のモダリティに関連する第２のサブレベルコントローラである場合、第２の第１のレベルコントローラ２１２は、階層型マルチモーダルＲＬニューラルネットワークの状態に関連付けられる状態変数の第２のセットと入力データとに少なくとも基づいて制御アクションのセットを決定する。この場合、入力データは自然言語命令語を含んでもよい。ある場合には、１つ以上の第２のレベルコントローラは、音声センサ測定値および自然言語命令等の、異なるタイプまたはモダリティの入力データを処理および解釈するように選択されてもよい。この目的のため、状態変数の第１のセットは、状態変数の第２のセットとは異なってもよい。

５０６において、エンティティ１５０は、選択された第２のレベルコントローラによって決定された制御アクションのセットに基づいて制御される。制御命令のセットに基づいて、エンティティ１５０またはエンティティ１５０のパーツは動いてもよい。たとえば、第１のサブタスクを完了することによって、エンティティ１５０は、第１の姿勢から第２の姿勢に動いてもよく、第１の姿勢および第２の姿勢は、互いに異なり、互いから離れていてもよい。したがって、エンティティは、開始状態から別の状態に移ってもよい。

ここで図５Ｂを参照すると、ある実施形態に係る、階層型マルチモーダルＲＬニューラルネットワーク２０９ａを更新するための例示的な方法のフローチャートが示されている。たとえば、階層型マルチモーダルＲＬニューラルネットワークの状態は、サブタスクを実行する選択された第２のレベルコントローラによって、第１のサブタスクの実行に基づいて、更新されてもよい。５０８において、選択された第２のレベルコントローラは、第１のサブタスクの実行に基づいて、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態を更新する。第１のサブタスクが完了または実行されると、第１のサブタスクの実行を可能にする選択された第２のレベルコントローラは、階層型マルチモーダルＲＬニューラルネットワークの状態に関連付けられた状態変数のセットを更新してもよい。ある例では、第１のサブレベルコントローラ２１４ａは、第１のサブタスクの実行に基づいて状態変数の第１のセットを更新してもよい。代替的に、第２のサブレベルコントローラ２１４ｂは、第１のサブタスクの実行に基づいて、状態変数の第２のセットを更新してもよい。

ある実施形態に従うと、選択された第２のレベルコントローラは、階層型マルチモーダルＲＬニューラルネットワークに関連付けられる現在の信念状態を判断してもよい。さらに、選択された第２のレベルコントローラは、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの更新された状態および第１のサブタスクの実行に基づいて、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの信念状態を修正してもよい。特に、信念状態は、エンティティ１５０の、その現在の状態に関する信念を含む。信念状態は、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの現在の状態に対応する、位置、目標状態からの推定される距離、目標状態の推定される方向などの様々な変数の分布を示してもよい。ある例では、信念は、エンティティ１５０に関連付けられた、またはニューラル埋め込みとして階層型マルチモーダルＲＬニューラルネットワーク２０９ａに関連付けられたメモリに記憶されてもよい。

一例では、第１のレベルコントローラ２１２は、ナビゲーションのために第２のレベルコントローラ２１４のうちの１つを呼び出すかまたは選択し、選択された第２のレベルコントローラは、単一のステップポリシー、すなわち、音声または映像ベースのモダリティに関連する。この点に関して、選択された第２のレベルコントローラは、視聴覚ベースのモダリティに関連する第１のモダリティを有する第１のサブレベルコントローラ２１４ａであってもよい。そのような場合、選択された第２のレベルコントローラまたは第１のサブレベルコントローラ２１４ａは、ステップごとに、すなわち、第１のサブタスクなどのすべてのサブタスクを実行した後、メモリ内の信念状態を更新する。

別の例では、第１のレベルコントローラ２１２は、ナビゲーションのために第２のレベルコントローラ２１４のうちの１つを呼び出すかまたは選択し、選択された第２のレベルコントローラは、マルチステップポリシー、すなわち自然言語ベースのモダリティに関連する。この点に関して、選択された第２のレベルコントローラは、自然言語ベースのモダリティに関連する第２のモダリティを有する第２のサブレベルコントローラ２１４ｂであってもよい。そのような場合、選択された第２のレベルコントローラ、または第２のサブレベルコントローラ２１４ｂは、第１のサブタスクに関連付けられる制御アクションのセットの実行に基づいて新たな信念状態を生成する。新たな信念状態は、エンティティ１５０が探索動作を実行するためにナビゲートしている環境に関連する。例えば、第２のサブレベルコントローラ２１４ｂは、既存のメモリおよび受信された言語命令を使用して、環境の新たな信念を生成する。このために、自然言語モダリティは、音声または映像ベースのモダリティと比較して意味的に優れたモダリティであると仮定される。新たな信念状態は、次いで、現在の信念状態または信念履歴を置換するために使用されてもよい。この点に関して、第２のサブレベルコントローラ２１４ｂは、任意の以前の信念状態をクリアし、それを新たな信念状態で置換してもよい。

５１０において、第１のレベルコントローラ２１２は、少なくとも、入力データ、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの以前の状態、および階層型マルチモーダルＲＬニューラルネットワーク２０９ａの更新された状態に基づいて、タスクに関連する第２のサブタスクを実行するために、第２のレベルコントローラ２１４のうちの１つを選択する。第２のサブタスクは、意味を持った音を発する物体１２２にナビゲートするなど、メインタスクを完了するために、第１のサブタスクの後に実行される。この点に関して、第１のレベルコントローラ２１２は、環境１２０から新たな入力データを取得してもよい。たとえば、新たな入力データは、第１のサブタスクに基づくエンティティのナビゲーションによる、エンティティ１５０の周囲における変化を示してもよい。その後、第１のレベルコントローラ２１２は、新たな入力データ、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの以前の状態、および階層型マルチモーダルＲＬニューラルネットワーク２０９ａの更新された状態に基づいて、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態の更新を評価してもよい。例えば、第１のレベルコントローラ２１２は、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態が、エンティティ１５０が目標状態により近いかまたは目標状態からより遠いことを示すかどうかをチェックしてもよい。したがって、第１のレベルコントローラ２１２は、エンティティ１５０を目標状態に向かってナビゲートするために実行されるよう第２のサブタスクを識別してもよい。

ある例では、第１のレベルコントローラ２１２は、たとえば、新たな入力データに基づいて、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態が目標状態からより近いかまたはより遠いかをチェックしてもよい。たとえば、新たな入力データは、エンティティ１５０の更新された姿勢で受信された、探索環境１２０において意味を持った音を発する物体１２２によって発せられる可聴音の強度を示してもよい。このようにして、第１のレベルコントローラ２１２は、エンティティ１５０が目標状態に近づいたか、または目標状態から遠ざかったかを判定してもよい。

一例では、第２のサブタスクおよび新たな入力データに基づいて、第１のレベルコントローラ２１２は、第２のサブタスクを実行するために、第２のレベルコントローラ２１４のうちの１つを選択してもよい。ある例では、第１のレベルコントローラ２１２が、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの更新された状態が、エンティティ１５０が目標状態からより遠くに移動していること、またはエンティティ１５０が目標状態に向かうナビゲーションについてもはや確かではないことを示す、と判断する場合、第１のレベルコントローラ２１２は、自然言語モダリティに関連する第２のサブレベルコントローラ２１４ｂを選択して、エンティティ１５０のナビゲーションについて環境内の導き手に効果的な方法で問い合わせてもよい。代替的に、第１のレベルコントローラ２１２が、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの更新された状態が、エンティティ１５０が目標状態により近くに移動していることを示す、と判断する場合、第１のレベルコントローラ２１２は、エンティティ１５０の新たな位置に対応するセンサ測定値に基づいて制御アクションのセットを生成するために、音声または映像ベースのモダリティに関連する第１のサブレベルコントローラ２１４ａを選択してもよい。

ある例では、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの状態の更新に基づいて、第１のレベルコントローラ２１２に報酬を与えるか、またはそれを罰してもよい。たとえば、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの更新された状態がエンティティ１５０を目標状態に近づける場合、第１のレベルコントローラ２１２に報酬を与えてもよい。しかしながら、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの更新された状態が、エンティティ１５０を目標状態から遠ざける場合、第１のレベルコントローラ２１２は罰せられてもよい。第２のレベルコントローラ２１４上に構成された２つの下位ポリシーの動作は、図６Ａおよび図６Ｂに関連してさらに説明される。

６０２において、第１のレベルコントローラ２１２は、第１のモダリティを使用してサブタスクを実行するために、第１のサブレベルコントローラ２１４ａを選択する。例えば、第１のサブレベルコントローラ２１４ａは、第１のモダリティに関連する第１のポリシーとともに構成されてもよい。ある例では、第１のモダリティは、映像ベースのモダリティに関連してもよい。別の実施形態では、第１のモダリティは、音声ベースのモダリティに関連してもよい。さらに別の例では、第１のモダリティは、テキストベースのモダリティに関連してもよい。この目的のため、本開示の例によれば、第１のモダリティは自然言語入力がないモダリティに関連してもよい、と仮定される。例えば、第１のモダリティに関連付けられる入力データは、自然言語発話などの自然言語情報、または映像情報を含まなくてもよい。

６１０において、目標記述子がtransformerモデルのデコーダに入力される。デコーダは、すべての符号化された時間ステップからの情報に注目し、現在のステップ表現s_tを生成する。次いで、デコーダは、行動器－評価器ネットワークを使用して、現在の状態のアクション分布および値を予測する。たとえば、行動器－評価器ネットワークは、単一の線形層ニューラルネットワークを使用してモデル化されてもよい。

ある例に従うと、目標記述子（目標推定値とも呼ばれる）は、意味を持った音を発する物体１２２に関連付けられるオブジェクトクラスのセマンティックニューラル埋め込みを含んでもよい。たとえば、セマンティックニューラル埋め込みは、意味を持った音を発する物体１２２によって発せられる音を入力として取り込み、その音を生成するオブジェクト、すなわち意味を持った音を発する物体１２２のクラスラベルを生成する分類器モデルからのニューラル特徴ベクトルを含んでもよい。たとえば、あるニューラルネットワークは、ニューラル特徴ベクトルおよびセマンティックニューラル埋め込みを生成するために教師付き方式で事前訓練されてもよい。加えて、目標記述子は推定される向首ベクトルも含んでもよい。たとえば、推定される向首ベクトルは、エンティティ１５０が音または音声を受信しているかまたは受信したおおよその空間方向、すなわち、意味を持った音を発する物体１２２のおおよその方向を推定する。ある例では、受信された音に関連付けられる絶対径方向、ならびに受信された音に関連付けられる向首角の正弦および余弦が、向首ベクトルを推定するために使用されてもよい。

６１２において、第１のサブレベルコントローラ２１４ａは、エンティティ１５０のナビゲーションのために制御アクションのセットを生成する。この点に関して、第１のポリシーは、アクションサンプラを使用して、分布からアクションをサンプリングし、制御アクションのセットを生成する。制御アクションのセットに基づいて、エンティティ１５０は、環境１２０などの環境においてステップを取り、新たな観測を受信する。この目的のため、第１のサブレベルコントローラ２１４ａは、センサベースの音声情報またはセンサベースの映像情報のうちの少なくとも１つに基づいて制御アクションのセットを決定するよう構成される。

６２０において、第１のレベルコントローラ２１２は、第２のモダリティを使用してサブタスクを実行するために第２のサブレベルコントローラ２１４ｂを選択する。例えば、第２のサブレベルコントローラ２１４ｂは、第２のモダリティに関連する第２のポリシーとともに構成されてもよい。ある例では、第２のモダリティは自然言語ベースのモダリティに対応してもよい。

６２８において、第２のポリシーは、文命令Ｘを符号化するために、Contrastive Language-Image Pre-Training（対照的言語画像事前学習）（ＣＬＩＰ）モデルを使用する。ＣＬＩＰモデルは、異なる画像およびテキストの対で訓練されたニューラルネットワークを含む。ＣＬＩＰモデルは、テキストエンコーダおよび画像エンコーダを含む、エンコーダと呼ばれる２つのサブモデルを含む。テキストエンコーダはテキストを数学的空間に埋め込む一方、画像エンコーダは画像を数学的空間に埋め込む。例えば、ＣＬＩＰモデルを使用して、文命令Ｘは、単純なフィードフォワードネットワークを使用して現在の信念状態とともに注入されてもよい。次いで、融合された信念状態および言語命令Ｘは、別のtransformerベースのフレームワークで処理されて、状態の最終信念が取得され、それは、次いで、アクション分布を計算するために使用される。

図７は、一実施形態による、いつ導き手に問い合わせるべきかを決定するためのセットアップの図を示す。

７０２において、第１のレベルコントローラ２１２は、入力を受信する。入力は、現在の観測符号化（または現在の観測に関連するセンサ測定）、これまでに収集されたエピソードまたは状態のメモリ、および目標状態の目標記述子を含んでもよい。

７０６において、第１のレベルコントローラ２１２は、少なくとも２つの第２のレベルコントローラ２１４の各々の選択に関連付けられるリソース制約を決定する。特に、第１のレベルコントローラ２１２は、２つの第２のレベルコントローラからの選択に関連付けられる報酬およびタスクに関連付けられる予算を予測する。第１のポリシーまたは第２のポリシーのどちらが選択されるかにかかわらず、エンティティ１５０は、環境内でナビゲートするためにエンティティ１５０によって取られるアクションに基づいて報酬またはペナルティを収集することに留意されたい。したがって、導き手にいつ問い合わせるかを正確に決定するために、強化学習フレームワーク、すなわち、予算、または第２のレベルコントローラ２１４の選択に関連付けられる負の報酬を判断してもよい。

ある例では、リソース制約は、２つの第２のレベルコントローラ２１４からの特定の第２のレベルコントローラが呼び出されてもよい回数の最大数を示す制限を含んでもよい。本例によれば、リソース制約は、エンティティ１５０の第１のレベルコントローラ２１２が、自然言語命令に関連付けられる第２のレベルコントローラ、例えば、第２のポリシーで構成される第２のサブレベルコントローラ２１４ｂを呼び出すことができる最大回数に対する制限を含む。このようにして、第１のコントローラ２１２が自然言語ベースの第２のサブレベルコントローラ２１４ｂを呼び出すことができる回数は、リソース制約に基づいて制限される。ある例では、リソース制約、すなわち、第２のサブレベルコントローラ２１４ｂに問い合わせるための最大回数は、ｎとして設定されてもよい。そのような場合、第１のレベルコントローラ２１２がｎ回後に第２のサブレベルコントローラ２１４ｂを呼び出す場合には、第１のレベルコントローラ２１２にペナルティが課されてもよい。例えば、第２のサブレベルコントローラ２１４ｂに問い合わせるための最大回数についてのリソース制約は、第１のレベルコントローラ２１２によって収集された報酬に基づいて、第１のレベルコントローラ２１２に課されてもよい。

一例によれば、目標または目標状態に向かう幾何学的距離の低減をもたらすアクションを実行するために「＋１」の報酬が割り当てられてもよく、エピソードまたはタスクの完了を成功裏にもたらすアクションを実行するために「＋１０」の報酬が割り当てられてもよい。さらに、効率を促進するために、（すなわち、より速く目標に到達することを促進するために、）時間ステップごとに「－０．０１」のペナルティが加えられる。加えて、エンティティ１５０が導き手から問い合わせを行うたびに、負の報酬が設定されてもよい。最初に、クエリの最大数ｎが設定されてもよく、ｉ番目のクエリに対する負の報酬は、以下のように定義されてもよい：

７０８において、第１のレベルコントローラ２１２は、いつ自然言語を使用して導き手と直接対話すべきかを学習する。特に、第１のレベルコントローラ２１２は、その現在の観測および履歴情報に基づいて、いつ導き手に問い合わせるべきかを学習する。さらに、階層型マルチモーダルＲＬニューラルネットワーク２０９ａのＲＬフレームワークにより、導き手の問い合わせに関連付けられるリソース制約または予算が、ネットワークに割り当てられた報酬またはペナルティに基づいて予測される。具体的には、行動器－評価器モデルは、階層型マルチモーダルＲＬニューラルネットワークの各状態の価値関数を予測する。さらに、最上位ポリシーπ_queryのポリシー訓練が、decentralized distributed proximal policy optimization（ＤＤ－ＰＰＯ）を使用して行われ、自然言語命令について導き手にいつ問い合わせるかを学習する。続いて、第１のレベルコントローラ２１２は、リソース制約または予算、現在の観測、および他の履歴情報に基づいて、少なくとも２つの第２のレベルコントローラ２１４のうちの１つを選択する。この目的のため、第１のレベルコントローラは、音声または映像ベースの第１モダリティに関連する第１ポリシーの選択に向けてバイアスされる。ある例では、第１のレベルコントローラ２１２は、たとえば、エンティティが目標から離れているとき、エンティティが現在の観測に基づいて目標状態に向かう方向を識別できないとき、エンティティを紛失したとき、またはエンティティが長い時間を浪費しているときなど、エンティティが正しい方向に動いていないことを確認するまで、自然言語ベースのモダリティに関連する第２のサブレベルコントローラを選択しないように試みてもよい。したがって、第１のレベルコントローラ２１２は、より多くの報酬を収集し、より少ないペナルティを被るように、第１のサブレベルコントローラを選択しようと試みてもよい。

図８は、一実施形態による、自然言語命令に基づいてナビゲーション命令を生成するための方法のフローチャートを示す。視覚および言語タスクのためのデータセットは、固定数のルートおよびナビゲーション命令の対を含まないことに留意されたい。さらに、エンティティ１５０は、ナビゲーショングラフの任意の点において、フィードバックについて、導き手に問い合わせてもよい。したがって、階層型マルチモーダルＲＬニューラルネットワーク２０９ａは、ナビゲーショングラフ上の任意の点から自然言語フィードバックを提供することができる導き手がそのナビゲート点またはエンティティ１５０の現在の姿勢から目標に向かう最短経路軌道を知っていることを前提として、導き手をモデル化することが要求される。この点に関して、選択された第２のレベルコントローラが自然言語ベースのモダリティに関連する第２のサブレベルコントローラである場合、固定された命令のセットを使用することは失敗する場合がある。具体的には、自然言語命令から生成されてもよいエンティティ１５０のためのナビゲーション命令の数は、固定されていない場合がある。この課題に対処するために、自然言語命令の単語は、エンティティ１５０のためのナビゲーション命令を生成するために、意味的に理解されなければならない場合がある。ここでは、話者モデルを用いる。

８０４において、ナビゲーション命令が、自然言語命令に基づいて生成される。ある例では、命令生成モデルが、視覚および言語データセットからの利用可能な（命令、軌道）対を使用してナビゲーション命令を生成するように訓練される。たとえば、命令生成モデルの訓練中に、クロスエントロピー損失および教師強制が使用されてもよい。

８０６において、ナビゲーション命令に基づいて制御アクションのセットが生成される。たとえば、制御アクションのセットは、識別されたナビゲーション命令に基づいてエンティティ１５０がナビゲートすることを可能にする、エンティティ１５０の構成要素のアクチュエータのための命令を含んでもよい。

図９Ａは、ある実施形態に係る、補強学習（ＲＬ）によって訓練された階層型マルチモーダルニューラルネットワーク２０９ａを得るための例示的なシステムのブロック図９００を示す。階層型マルチモーダルＲＬニューラルネットワーク２０９ａは、目標状態に到達するかまたはタスクを完了するために環境１２０などの環境内でナビゲートするためにエンティティ１５０を制御するよう構成される。ある例では、階層型マルチモーダルニューラルネットワーク２０９ａは、状態空間内においてノードを有するツリーグラフを構築する。ツリーグラフは、エンティティ１５０の有限数の構成を有してもよく、ツリーグラフは、エンティティ１５０によって実行されるタスクの各々について生成されてもよい。ある例では、階層型マルチモーダルＲＬニューラルネットワーク２０９ａは、エンティティ１５０を効果的に制御するためにツリーグラフを生成するよう学習する。

この例によれば、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの訓練は、訓練環境９０２に基づいて実行される。訓練中、訓練環境９０２内のセンサは、階層型マルチモーダルＲＬニューラルネットワーク２０９ａへの入力として提供されてもよいセンサデータを獲得してもよい。訓練環境９０２に関連付けられる階層型マルチモーダルＲＬニューラルネットワーク２０９ａの訓練のための入力データは、たとえば、姿勢センサによって測定された姿勢データ９１０、エンティティ１５０によって実行された以前のアクション９１２、視覚データ９１４（ＲＧＢまたは深度画像または映像など）、および音声データ９１６を含んでもよい。たとえば、階層型マルチモーダルＲＬニューラルネットワーク２０９ａの訓練は、強化学習を使用して実行されてもよく、階層型マルチモーダルＲＬニューラルネットワーク２０９ａによって実行される各正しい動作または所望の動作は報酬を与えられてもよいが、各不正確な動作または望ましくない動作についてはペナルティが課されてもよい。

階層型マルチモーダルＲＬニューラルネットワーク２０９ａは、入力データを受信すると、階層型マルチモーダルＲＬニューラルネットワーク２０９ａは、画像エンコーダ９１８を使用して視覚データ９１４を符号化し、音声エンコーダ９２０を使用して音声データ９１６を符号化するよう構成される。例えば、視覚データ９１４は、訓練環境９０２内でナビゲートするための視覚的手掛かりなど、訓練環境９０２に関連付けられる画像または映像関連情報を含んでもよい。音声データ９１６は、訓練環境９０２内でナビゲートするための音声または音の手掛かりなど、訓練環境９０２に関連付けられる音声関連情報を含んでもよい。

観測値および目標状態記述子を含む入力データが与えられると、第２のポリシー９０８、π_vlnは、self-attentionを使用して入力データシーケンスから情報をキャプチャし、それに対応する信念状態を符号化するように訓練される。例えば、transformerベースのフレームワーク９０８ａは、任意の時間ステップでtransformerベースのフレームワーク９０８ａのための入力データとして観測値およびメモリ情報を取得し、それを目標状態とともに符号化する。さらに、第２のポリシー９０８は、文命令Ｘを符号化するために、Contrastive Language-Image Pre-Training（対照的言語画像事前学習）（ＣＬＩＰ）モデル９０８ｂを使用する。ＣＬＩＰモデル９０８ｂは、ニューラルネットワークを含む。ＣＬＩＰモデル９０８ｂニューラルネットワークは、異なる画像およびテキスト対上で訓練される。ＣＬＩＰモデル９０８ｂは、テキストエンコーダおよび画像エンコーダを含む、エンコーダと呼ばれる２つのサブモデルを含む。テキストエンコーダはテキストを数学的空間に埋め込む一方、画像エンコーダは画像を数学的空間に埋め込む。たとえば、ＣＬＩＰモデル９０８ｂを使用して、文命令Ｘは、単純なフィードフォワードネットワークを使用して、現在の信念状態（入力データおよび目標状態に基づいて決定される）と融合されてもよい。次いで、融合された信念状態および言語命令Ｘは、状態の最終信念を取得するために、別のtransformerベースのフレームワーク９０８ｃで処理され、次いで、状態の最終信念は、アクション予測モジュール９０８ｄを使用して、アクション分布を計算するために使用される。第２のポリシー９０８は、アクション予測モジュール９０８ｄを用いて、アクション分布から制御アクションのセットをサンプリングし、ナビゲーションのための制御アクションのセットを生成する。

下位ポリシーの選択および／または下位ポリシーのうちの１つによる制御アクションのセットの生成に基づいて、エンティティ１５０が目標状態に対して移動する場合に報酬が与えられてもよい。各エピソードは、以下の条件、すなわち：１）エピソードあたりの最大ステップMaxStepsに到達するとき；２）エンティティ１５０が目標を中心とするウィンドウから出るとき、のいずれかが満たされる場合に終結する。ネットワーク内のパラメータは、得られた報酬に従って、いくつかのエピソードごとに更新されることになる。報酬関数の設計および訓練プロセスは、訓練されたポリシーの性能にとって重要である。報酬関数の２つの目的は：エンティティができるだけ迅速に目標状態に移行するように促すこと；および複雑なエンティティ１５０の運動特性および制御ポリシーの探索を妨げないことである。

ある例に従うと、目標または目標状態に向かう幾何学的距離の低減をもたらすアクションを実行するために「＋１」の報酬が割り当てられてもよく、エピソードまたはタスクの完了を成功裏にもたらすアクションを実行するために「＋１０」の報酬が割り当てられてもよい。さらに、効率を促進するために、（すなわち、より速く目標に到達することを促進するために、）時間ステップごとに「－０．０１」のペナルティが加えられる。加えて、エンティティ１５０が導き手から問い合わせを行うたびに、負の報酬が設定されてもよい。最初に、クエリの最大数ｎが設定されてもよく、ｉ番目のクエリに対する負の報酬は、以下のように定義されてもよい：

本開示の上記の実施形態は、多数の方法のいずれかで実現することができる。たとえば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組合せを使用して実現されてもよい。ソフトウェアで実現される場合、ソフトウェアコードは、単一のコンピュータで提供されるか、複数のコンピュータに分散されるかに関係なく、任意の好適なプロセッサまたはプロセッサの集まりにおいて実行され得る。そのようなプロセッサは、集積回路コンポーネント内に１つ以上のプロセッサを備えた集積回路として実現されてもよい。ただし、プロセッサは、任意の好適な形式の回路系を用いて実現されてもよい。

また、本開示の実施形態は、例が提供された方法として具現化されてもよい。方法の一部として実行される行為は、任意の好適な方法で順序付けされてもよい。したがって、例示的な実施形態において連続的な行為として示されているが、いくつかの行為を同時に実行することを含んでもよい、例示とは異なる順序で行為が実行される実施形態を構築してもよい。

特許請求の範囲において請求項要素を修飾する「第１の」、「第２の」などの序数詞の使用は、それ自体は、ある請求項要素の優先順位、先行性、順序が他の請求項要素を上回ること、または方法の動作が実行される時間的順序を暗示せず、特定の名称を有するある請求項要素を（序数詞の使用が無ければ）同じ名称の別の要素と区別してそれら請求項要素を区別するためのラベルとして用いられるにすぎない。

本開示を好ましい実施形態の例によって説明してきたが、本開示の精神および範囲内で様々な他の適応および変更を行い得ることを理解されたい。

したがって、特許請求の範囲の目的は、本開示の真の精神および範囲内にあるような変形および修正をすべて網羅することである。

Claims

エンティティを制御するためのコントローラであって、
階層型マルチモーダル強化学習（ＲＬ）ニューラルネットワークを記憶するためのメモリを備え、前記階層型マルチモーダルＲＬニューラルネットワークは、第１のレベルコントローラと、少なくとも２つの第２のレベルコントローラとを含み、前記少なくとも２つの第２のレベルコントローラは、少なくとも、第１のモダリティに関連する第１のサブレベルコントローラと、第２のモダリティに関連する第２のサブレベルコントローラとを含み、前記第１のモダリティは、前記第２のモダリティとは異なり、前記コントローラはさらに、
プロセッサを備え、前記プロセッサは、
前記第１のレベルコントローラを使用して、少なくとも入力データおよび前記階層型マルチモーダルＲＬニューラルネットワークの状態に基づいて、タスクに関連する第１のサブタスクを実行するために、前記少なくとも２つの第２のレベルコントローラのうちの１つを選択するよう構成され、
前記少なくとも２つの第２のレベルコントローラからの前記選択された第２のレベルコントローラに、前記第１のサブタスクを実行するために、制御アクションのセットを決定させるよう構成され、
前記選択された第２のレベルコントローラによって決定された前記制御アクションのセットに基づいて前記エンティティを制御するよう構成される、コントローラ。
前記プロセッサは、さらに、
前記選択された第２のレベルコントローラを使用して、前記第１のサブタスクの前記実行で、前記階層型マルチモーダルＲＬニューラルネットワークの前記状態を更新するよう構成され、
前記第１のレベルコントローラを使用して、少なくとも、前記入力データ、前記階層型マルチモーダルＲＬニューラルネットワークの以前の状態、および前記階層型マルチモーダルＲＬニューラルネットワークの前記更新された状態に基づいて、前記タスクに関連する第２のサブタスクを実行するために、前記少なくとも２つの第２のレベルコントローラのうちの１つを選択するよう構成され、前記第２のサブタスクは、前記タスクを完了するために前記第１のサブタスクの後に実行される、請求項１に記載のコントローラ。
前記プロセッサは、
前記少なくとも２つの第２のレベルコントローラの各々の選択に関連付けられるリソース制約を決定するよう構成され、
前記第１のレベルコントローラを使用して、前記リソース制約に基づいて、前記少なくとも２つの第２のレベルコントローラのうちの１つを選択するよう構成される、請求項１に記載のコントローラ。
前記第１のモダリティに関連する前記第１のサブレベルコントローラおよび前記第２のモダリティに関連する前記第２のサブレベルコントローラによって使用される、前記入力データまたは前記階層型マルチモーダルＲＬニューラルネットワークの前記状態のうちの少なくとも１つは、異なる、請求項１に記載のコントローラ。
前記第１のサブレベルコントローラは、映像情報に基づいて前記制御アクションのセットを決定するよう構成され、前記第２のサブレベルコントローラは、音声情報に基づいて前記制御アクションのセットを決定するよう構成される、請求項１に記載のコントローラ。
前記第１のサブレベルコントローラに関連する前記第１のモダリティは音声または映像ベースのモダリティであり、前記第２のサブレベルコントローラに関連する前記第２のモダリティは自然言語ベースのモダリティである、請求項１に記載のコントローラ。
前記第１のレベルコントローラは、前記第１のサブレベルコントローラの選択に向けてバイアスされる、請求項６に記載のコントローラ。
前記第１のサブレベルコントローラは、前記制御アクションのセットを、センサベースの音声情報またはセンサベースの映像情報のうちの少なくとも１つに基づいて決定するよう構成され、
前記第２のサブレベルコントローラは、前記制御アクションのセットを自然言語命令に基づいて決定するよう構成される、請求項６に記載のコントローラ。
前記選択された第２のレベルコントローラが前記第１のモダリティに関連する前記第１のサブレベルコントローラである場合、前記プロセッサは、さらに、
目標推定値ベースのモダリティを含む前記第１のモダリティに関連する前記第１のサブレベルコントローラを使用して、前記階層型マルチモーダルＲＬニューラルネットワークの前記状態に関連付けられる状態変数の第１のセットと前記入力データとに少なくとも基づいて前記制御アクションのセットを決定するよう構成され、前記入力データは、前記センサベースの音声情報または前記センサベースの映像情報のうちの少なくとも１つを含み、前記プロセッサは、さらに、
前記第１のサブレベルコントローラを使用して、前記第１のサブタスクの前記実行に基づいて前記状態変数の第１のセットを更新するよう構成される、請求項８に記載のコントローラ。
前記選択された第２のレベルコントローラが、自然言語ベースのモダリティを含む前記第２のモダリティに関連する前記第２のサブレベルコントローラである場合、前記プロセッサは、さらに、
前記第２のサブレベルコントローラを使用して、前記階層型マルチモーダルＲＬニューラルネットワークの前記状態に関連付けられる状態変数の第２のセットと前記入力データとに少なくとも基づいて前記制御アクションのセットを決定するよう構成され、前記入力データは前記自然言語命令を含み、前記状態変数の第１のセットは、前記状態変数の第２のセットとは異なり、前記プロセッサは、さらに、
前記第２のサブレベルコントローラを使用して、前記第１のサブタスクの前記実行に基づいて前記状態変数の第２のセットを更新するよう構成される、請求項９に記載のコントローラ。
前記プロセッサは、
前記階層型マルチモーダルＲＬニューラルネットワークに関連付けられる信念状態を判断するよう構成され、
前記選択された第２のレベルコントローラを使用して、前記階層型マルチモーダルＲＬニューラルネットワークの前記更新された状態および前記第１のサブタスクの前記実行に基づいて、前記階層型マルチモーダルＲＬニューラルネットワークの前記信念状態を修正するよう構成される、請求項２に記載のコントローラ。
前記選択された第２のレベルコントローラが前記第２のモダリティに関連する前記第２のサブレベルコントローラであり、前記第２のモダリティが自然言語ベースのモダリティであるとき、前記プロセッサは、
前記第２のサブレベルコントローラを使用して、前記第１のサブタスクに関連付けられる前記制御アクションのセットの実行に基づいて新たな信念状態を生成するよう構成され、
前記第２のサブレベルコントローラを使用して、現在の信念状態をクリアするよう構成される、請求項１１に記載のコントローラ。
前記第１のレベルコントローラは、強化学習ネットワークを有する学習されたポリシーを使用して、前記少なくとも２つの第２のレベルコントローラのうちの１つをいつ選択すべきかを決定する、請求項１に記載のコントローラ。
前記タスクは、前記エンティティの初期状態からターゲット状態へのナビゲーションのためのナビゲーションタスクである、請求項１に記載のコントローラ。
前記第１のサブレベルコントローラに関連する前記第１のモダリティは音声または映像ベースのモダリティであり、前記第２のサブレベルコントローラに関連する前記第２のモダリティは自然言語ベースのモダリティであり、
前記第１のレベルコントローラが、前記第１のサブレベルコントローラを選択すると、前記第１のサブレベルコントローラは、センサベースの情報に基づいて前記エンティティのナビゲーションを制御するよう構成され、
前記第１のレベルコントローラが、前記第２のサブレベルコントローラを選択すると、前記第２のサブレベルコントローラは、自然言語で具現化されたナビゲーション命令について前記エンティティに問い合わせさせ、前記第２のサブレベルコントローラは、自然言語命令に基づいて前記エンティティのナビゲーションを制御するよう構成される、請求項１４に記載のコントローラ。
エンティティを制御するための方法であって、
第１のレベルコントローラを使用して、少なくとも入力データと、階層型マルチモーダル強化学習ニューラルネットワークの状態とに基づいて、タスクに関連する第１のサブタスクを実行するために少なくとも２つの第２のレベルコントローラのうちの１つを選択することを含み、前記階層型マルチモーダル強化学習ニューラルネットワークは、第１のレベルコントローラと少なくとも２つの第２のレベルコントローラとを含み、前記少なくとも２つの第２のレベルコントローラは、少なくとも、第１のモダリティに関連する第１のサブレベルコントローラと、第２のモダリティに関連する第２のサブレベルコントローラとを含み、前記第１のモダリティは、前記第２のモダリティとは異なり、前記方法はさらに、
前記少なくとも２つの第２のレベルコントローラからの前記選択された第２のレベルコントローラに、前記第１のサブタスクを実行するために、制御アクションのセットを決定させることと、
前記選択された第２のレベルコントローラによって決定された前記制御アクションのセットに基づいて前記エンティティを制御することとを含む、方法。
前記少なくとも２つの第２のレベルコントローラの各々の選択に関連付けられるリソース制約を決定することと、
前記第１のレベルコントローラを使用して、前記リソース制約に基づいて、前記少なくとも２つの第２のレベルコントローラのうちの１つを選択して前記第１のサブタスクを実行することと、
前記第１のサブタスクの前記実行で前記階層型マルチモーダル強化学習ニューラルネットワークの状態を更新することとをさらに含む、請求項１６に記載の方法。
前記第１のサブレベルコントローラに関連する前記第１のモダリティは、目標推定値ベースのモダリティであり、前記第２のサブレベルコントローラに関連する前記第２のモダリティは、自然言語ベースのモダリティであり、前記方法はさらに、
前記第１のサブレベルコントローラを使用して、前記制御アクションのセットを、センサベースの音声情報またはセンサベースの映像情報のうちの少なくとも１つに基づいて決定することと、
前記第２のサブレベルコントローラを使用して、前記制御アクションのセットを自然言語命令に基づいて決定することとを含む、請求項１６に記載の方法。
前記第１のサブレベルコントローラおよび前記第２のサブレベルコントローラによって使用される入力データまたは前記階層型マルチモーダル強化学習ニューラルネットワークの前記状態のうちの少なくとも１つは異なり、前記方法はさらに、
前記制御アクションのセットを決定することを、第１のサブレベルコントローラを使用して、前記階層型マルチモーダル強化学習ニューラルネットワークの前記状態に関連付けられる状態変数の第１のセット、または第２のサブレベルコントローラを使用して、前記階層型マルチモーダル強化学習ニューラルネットワークの前記状態に関連付けられる状態変数の第２のセット、のうちの１つに基づいて行うことを含み、前記状態変数の第１のセットは、前記状態変数の第２のセットとは異なる、請求項１６に記載の方法。
方法を実行するためにプロセッサによって実行可能なプログラムが具現化された非一時的なコンピュータ可読記憶媒体であって、前記方法は、
第１のレベルコントローラを使用して、少なくとも入力データと、階層型マルチモーダル強化学習ニューラルネットワークの状態とに基づいて、タスクに関連する第１のサブタスクを実行するために少なくとも２つの第２のレベルコントローラのうちの１つを選択することを含み、前記階層型マルチモーダル強化学習ニューラルネットワークは、第１のレベルコントローラと少なくとも２つの第２のレベルコントローラとを含み、前記少なくとも２つの第２のレベルコントローラは、少なくとも、第１のモダリティに関連する第１のサブレベルコントローラと、第２のモダリティに関連する第２のサブレベルコントローラとを含み、前記第１のモダリティは、前記第２のモダリティとは異なり、前記方法はさらに、
前記少なくとも２つの第２のレベルコントローラからの前記選択された第２のレベルコントローラに、前記第１のサブタスクを実行するために、制御アクションのセットを決定させることと、
前記選択された第２のレベルコントローラによって決定された前記制御アクションのセットに基づいてエンティティを制御することとを含む、非一時的なコンピュータ可読記憶媒体。