JP2021077326A

JP2021077326A - ビジュアルナビゲーションのための訓練システム、方法およびナビゲーションロボット

Info

Publication number: JP2021077326A
Application number: JP2020080879A
Authority: JP
Inventors: サイランダートミ; Silander Tomi; アラクティンギミシェル; Aractingi Michel; ダンスクリストファー; Dance Christopher; ペレスジュリエン; Perez Julien
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-11-07
Filing date: 2020-05-01
Publication date: 2021-05-20
Anticipated expiration: 2040-05-01
Also published as: JP7105825B2; US11454978B2; KR20210055570A; US20210141383A1

Abstract

【課題】ビジュアルナビゲーションを実行するナビゲーティングロボットによる使用のために訓練モデルを訓練させるための訓練システムを提供する。【解決手段】訓練システムは、Ｎ個のベース仮想訓練環境を含むメモリを含む。Ｎ個のベース仮想訓練環境のそれぞれは、室内空間内の位置における視野を含む。Ｎは１より大きい整数である。ランダム化モジュールは、Ｎ個のベース仮想訓練環境各自の少なくとも１つの特性を変化させることにより、Ｎ個のベース仮想訓練環境に基づいてＮ個の変化した仮想訓練環境を生成する。訓練モジュールは、Ｎ個のベース仮想訓練環境およびＮ個の変化した仮想訓練環境を含む訓練セットに基づいてビジュアルナビゲーションを実行するナビゲーティングロボットによる使用のために訓練モデルを訓練させる。【選択図】図２

Description

本開示は、ロボットのビジュアルナビゲーションに関し、より詳細には、ビジュアルナビゲーションのためにモバイルロボットによる使用のためのモデルを訓練させるためのシステムおよび方法等に関する。

ここで提供される背景技術の説明は、本開示の背景を一般的に提示するためのものである。出願時の先行技術に該当しない技術の説明だけでなく、本背景技術で説明される内容に対し、本開示の発明者は、本開示の先行技術として明示的にも暗示的にも認めていない。

ナビゲーティングロボットとは、オブジェクトと衝突せずに環境を走行しながら探索をなすように訓練されたモバイルロボットである。ナビゲーティングロボットは、それ自体が動作する環境内で訓練される。

ナビゲーティングロボットは、多様な産業で利用されている。ナビゲーティングロボットの一例としては、内部空間（例えば、倉庫）を探索しながら１つ以上のパッケージを目的地に移動させるパッケージハンドラロボットが挙げられる。ナビゲーティングロボットの他の例としては、室外空間（例えば、道路）を探索しながら１人以上の乗客をピックアップして目的地に移動させる自律走行車が挙げられる。

一特徴として、ビジュアルナビゲーションを実行するナビゲーティングロボットによる使用のために訓練モデルを訓練させるための訓練システムを開示する。メモリは、Ｎ個のベース仮想訓練環境を含み、前記Ｎ個のベース仮想訓練環境のそれぞれは、室内空間内の位置における視野（ｆｉｅｌｄｏｆｖｉｅｗ）を含み、Ｎは１よりも大きい整数である。ランダム化モジュールは、前記Ｎ個のベース仮想訓練環境各自の少なくとも１つの特性（ｃｈａｒａｃｔｅｒｉｓｔｉｃ）を変化させることにより、前記Ｎ個のベース仮想訓練環境に基づいてＮ個の変化した仮想訓練環境を生成するように構成される。訓練モジュールは、前記Ｎ個のベース仮想訓練環境および前記Ｎ個の変化した仮想訓練環境を含む訓練セットに基づいてビジュアルナビゲーションを実行する前記ナビゲーティングロボットによる使用のために訓練モデルを訓練させるように構成される。

追加の特徴として、前記少なくとも１つの特性は、壁（ｗａｌｌ）のテクスチャ（ｔｅｘｔｕｒｅ）を含む。

追加の特徴として、前記少なくとも１つの特性は、壁の色を含む。

追加の特徴として、前記少なくとも１つの特性は、照明（ｌｉｇｈｔｉｎｇ）特性を含む。

追加の特徴として、前記少なくとも１つの特性は、オブジェクトの位置を含む。

追加の特徴として、前記訓練モジュールは、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔ：ＣＮＮ）を使用して前記訓練モデルを訓練させるように構成される。

追加の特徴として、前記訓練モジュールは、不変性正規化（ＩｎｖａｒｉａｎｃｅＲｅｇｕｌａｒｉｚａｔｉｏｎ：ＩＲ）を使用して前記訓練モデルを訓練させるように構成される。

追加の特徴として、前記訓練モデルは、カメラからの入力イメージに基づき、所定の距離だけ前記ナビゲーティングロボットを前方に（ｆｏｒｗａｒｄ）移動させること、所定の第１角度だけ前記ナビゲーティングロボットを右側に回転させること、所定の第２角度だけ前記ナビゲーティングロボットを左側に回転させること、および前記ナビゲーティングロボットを移動させないことのうちの１つに対する命令（ｉｎｓｔｒｕｃｔｉｏｎ）を示す出力を生成するように構成される。

追加の特徴として、前記訓練モデルは、前記カメラからのＲＧＢ（ＲｅｄＧｒｅｅｎＢｌｕｅ）入力イメージに基づいて前記出力を生成するように構成される。

追加の特徴として、前記訓練モデルは、前記カメラからのＲＧＢ深度（ＲＧＢ−Ｄｅｐｔｈ：ＲＧＢ−Ｄ）入力イメージに基づいて前記出力を生成するように構成される。

追加の特徴として、前記訓練モデルは、前記カメラからのグレースケール（ｇｒａｙｓｃａｌｅ）入力イメージに基づいて前記出力を生成するように構成される。

追加の特徴として、前記訓練モデルは、前記カメラからのグレースケール深度（ｇｒａｙｓｃａｌｅ−Ｄ）入力イメージに基づいて前記出力を生成するように構成される。

追加の特徴として、前記室内空間は、ビル内である。

一特徴として、ビジュアルナビゲーションを実行するナビゲーティングロボットによる使用のために訓練モデルを訓練させる方法を開示する。前記方法は、１つ以上のプロセッサにより、Ｎ個のベース仮想訓練環境各自の少なくとも１つの特性（ｃｈａｒａｃｔｅｒｉｓｔｉｃ）を変化させることにより、前記Ｎ個のベース仮想訓練環境に基づいてＮ個の変化した仮想訓練環境を生成する段階であって、前記Ｎ個のベース仮想訓練環境のそれぞれと前記Ｎ個の変化した仮想訓練環境のそれぞれは、室内空間内の位置における視野（ｆｉｅｌｄｏｆｖｉｅｗ）を含み、Ｎは１よりも大きい整数である、段階、および前記１つ以上のプロセッサにより、前記Ｎ個のベース仮想訓練環境および前記Ｎ個の変化した仮想訓練環境を含む訓練セットに基づいてビジュアルナビゲーションを実行する前記ナビゲーティングロボットによる使用のために訓練モデルを訓練させる段階を含む。

追加の特徴として、前記少なくとも１つの特性は、壁（ｗａｌｌ）のテクスチャ（ｔｅｘｔｕｒｅ）、壁の色、照明（ｌｉｇｈｔｉｎｇ）特性、およびオブジェクトの位置のうちの１つを含む。

追加の特徴として、前記訓練させる段階は、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔ：ＣＮＮ）を使用して前記訓練モデルを訓練させる段階を含む。

追加の特徴として、前記訓練させる段階は、不変性正規化（ＩｎｖａｒｉａｎｃｅＲｅｇｕｌａｒｉｚａｔｉｏｎ：ＩＲ）を使用して前記訓練モデルを訓練させる段階を含む。

追加の特徴として、前記訓練モデルは、前記カメラからのＲＧＢ（ＲｅｄＧｒｅｅｎＢｌｕｅ）入力イメージ、前記カメラからのＲＧＢ深度（ＲＧＢ−Ｄｅｐｔｈ：ＲＧＢ−Ｄ）入力イメージ、前記カメラからのグレースケール（ｇｒａｙｓｃａｌｅ）入力イメージ、および前記カメラからのグレースケール深度（ｇｒａｙｓｃａｌｅ−Ｄ）入力イメージのうちの１つに基づいて前記出力を生成するように構成される。

一特徴として、ナビゲーティングロボットを開示し、ナビゲーティングロボットは、前記ナビゲーティングロボットの前方の（ｉｎｆｒｏｎｔｏｆ）視野内からイメージをキャプチャするように構成されたカメラであって、前記視野は、前記ナビゲーティングロボットの周りの３６０度よりも狭い、カメラ、室内空間内の位置におけるＮ個のベース仮想訓練環境、および前記Ｎ個のベース仮想訓練環境各自の少なくとも１つの特性（ｃｈａｒａｃｔｅｒｉｓｔｉｃ）を変化させることによって生成されたＮ個の変化した仮想訓練環境に基づいて訓練され、Ｎは１よりも大きい整数であり、前記カメラからのイメージのうちの１つに基づいて出力を生成するように構成されるモデル、前記ナビゲーティングロボットを推進させるように構成された１つ以上の推進デバイス、および前記モデルの出力に基づいて前記１つ以上の推進デバイスのうちの１つ以上を選択的に作動させるように構成された制御モジュールを含む。

追加の特徴として、前記モデルは、前記カメラからのイメージのうちの１つに基づき、第１状態、第２状態、第３状態、および第４状態で構成されたグループのうちの１つで前記出力を設定するように構成され、前記制御モジュールは、前記出力が第１状態であるとき、前記１つ以上の推進デバイスのうちの１つ以上を所定の距離だけ前記ナビゲーティングロボットを前方に移動させるように作動させ、前記出力が第２状態であるとき、前記１つ以上の推進デバイスのうちの１つ以上を所定の第１角度だけ前記ナビゲーティングロボットを右側に回転させるように作動させ、前記出力が第３状態であるとき、前記１つ以上の推進デバイスのうちの１つ以上を所定の第２角度だけ前記ナビゲーティングロボットを左側に回転させるように作動させ、前記出力が第４状態であるとき、前記１つ以上の推進デバイスのうちのいずれも作動させないように構成される。

追加の特徴として、前記ナビゲーティングロボットは、自律走行車（ａｕｔｏｎｏｍｏｕｓｖｅｈｉｃｌｅ）である。

本開示が適用される追加の領域は、詳細な説明、特許請求の範囲、および図面によって明らかになるであろう。詳細な説明および具体的な例次は、説明の目的だけを意図するものであり、本開示の範囲を制限することを意図したものではない。

特許または出願のファイルは、カラーで作成された少なくとも１つの図面を含む。カラーの図面を含む特許または特許出願公報の写しは、要求されるか必要な手数料の納付時に提供されるであろう。

本開示は、詳細な説明および添付の図面に基づいてより完全に理解されるであろう。

ナビゲーティングロボットの例を示したブロック図である。ナビゲーティングロボットのビジュアルナビゲーションのために訓練モデルを訓練および生成するための例を示した訓練システムのブロック図である。図２の訓練モジュールの例を示したブロック図である。ベース仮想環境から生成された変化（ｖａｒｉａｔｉｏｎ）の例を示した図である。ベース仮想環境から生成された変化（ｖａｒｉａｔｉｏｎ）の例を示した図である。ベース仮想環境から生成された変化（ｖａｒｉａｔｉｏｎ）の例を示した図である。ベース仮想環境から生成された変化（ｖａｒｉａｔｉｏｎ）の例を示した図である。（深度のない）ＲＧＢ入力を使用する異なるタイプの正規化を伴う訓練のための訓練イベントの数に対する平均成功率である左側グラフと、（深度のない）ＲＧＢ入力を使用する異なるタイプの正規化を伴う訓練のための訓練イベントの数に対する最短経路の長さ（ＳｈｏｒｔｅｓｔＰａｔｈＬｅｎｇｔｈ：ＳＰＬ）である右側グラフを示している。（深度のない）ＲＧＢ入力を使用する異なるタイプの正規化（ＩＲ、ＩＲ−Ｓｐｌｉｔ、およびＰＰＯ＋ＤＲ）を伴う訓練のための訓練イベントの数に対する平均成功率である左側グラフと、（深度のある）ＲＧＢ−Ｄ入力を使用する異なるタイプの正規化を伴う訓練のための訓練イベントの数に対する平均成功率である中間グラフと、（深度のない）グレースケール入力を使用する異なるタイプの正規化を伴う訓練のための訓練イベントの数に対する平均成功率である右側グラフを示している。ビジュアルナビゲーションのためのナビゲーティングロボットによって使用されるモデルを訓練させる方法の例を示したフローチャートである。

図面において、参照符号は、類似および／または同一の要素を識別するために再使用されてよい。

モバイルロボットのビジュアルナビゲーションは、ビジョンと制御のドメインとを結合する。ナビゲーションは、出発位置から到着位置までの間に適切かつ妨害のない（ｎｏｎ−ｏｂｓｔｒｕｃｔｅｄ）経路を見つけ出すものとして説明されてよい。出発位置から到着位置までのナビゲーションは、マップ構築、ローカリゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）、計画（ｐｌａｎｎｉｎｇ）、および経路追従（ｐａｔｈｆｏｌｌｏｗｉｎｇ）のようなサブタスクのシーケンスに分割されてよい。各サブタスクは、環境および作業に対して特定されるエンジニアリングを要求する。ナビゲーションは、追加の訓練／チューニングが行われない場合、異なるシナリオや環境に適応させることは困難である。

ナビゲーティングロボットは、１つ以上のセンサからの入力に基づいて訓練モデルを使用してナビゲーティングロボットを移動させるように構成される制御モジュールを含む。１つの環境を使用して訓練モデルを訓練させることは、訓練モデルが過剰適合（ｏｖｅｒｆｉｔ）し、１つの環境における変更またはその実世界の環境における変更に対して一般化できない可能性がある。実世界では、ナビゲーティングロボットが実行できることを妨げるような、多くの変化が起こり得る。

本出願は、強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＲＬ）によって訓練モデルを訓練させることに関する。深層（ｄｅｅｐ）ＲＬ訓練によって訓練モデルは、複数の（ｍｕｌｔｉｐｌｅ）異なる環境を同時に使用して訓練される場合に過剰適合する可能性がある。本出願によると、起こり得る行動（ａｃｔｉｏｎ）に影響を及ぼしてはならない観察（ｏｂｓｅｒｖａｔｉｏｎｓ）における変化に対するポリシー（ｐｏｌｉｃｙ）の不変性を促す（ｅｎｃｏｕｒａｇｅ）ＲＬ目標（ｏｂｊｅｃｔｉｖｅ）に対してターム（ｔｅｒｍ）を追加することによって教師あり学習とＲＬとを結合する正規化が使用される。本出願によると、これは、不変性正規化（ｉｎｖａｒｉａｎｃｅｒｅｇｕｌａｒｉｚａｔｉｏｎ）として参照されてよい。不変性正規化は、訓練中には現れなかった環境に対するポリシーの一般化における改善を意味する。

図１は、ナビゲーティングロボット１００の例を示したブロック図である。ナビゲーティングロボット１００は、ナビゲーティングロボット１００の前方の（ｉｎｆｒｏｎｔｏｆ）所定の視野（ＦｉｅｌｄＯｆＶｉｅｗ：ＦＯＶ）からイメージをキャプチャするカメラ１０４を含む。所定のＦＯＶとは、ナビゲーティングロボット１００の周りの３６０度未満である。ナビゲーティングロボット１００は、ナビゲーティングロボット１００の周りの完全な３６０度よりも狭いＦＯＶを有してよい。ナビゲーティングロボット１００は、その動作環境が記録されたマップを含まない可能性がある。ナビゲーティングロボット１００の動作環境は、室内空間、すなわち、建物、駐車場、洞窟、または他のエンクロージャ内であってよい。

カメラ１０４は、例えば、グレースケールカメラ、グレースケール−Ｄカメラ、ＲＧＢ（Ｒｅｄ、Ｇｒｅｅｎ、Ｂｌｕｅ）カメラ、ＲＧＢ−Ｄカメラ、または他の適したタイプのカメラであってよい。グレースケール−Ｄカメラは深度（Ｄ）成分を含む。ＲＧＢ−Ｄカメラも深度（Ｄ）成分を含む。多様な実施形態において、ナビゲーティングロボット１００は、（１つの）カメラ１０４だけを含んでよく、任意の他のビジュアルイメージングカメラおよび／またはセンサを含まなくてもよい。

ナビゲーティングロボット１００は、１つ以上のタイヤ、１つ以上のトレッド（ｔｒｅａｄ）、１つ以上の移動脚、および／またはナビゲーティングロボット１００を前方、右側、左側、上方、および／または下方に推進させるように構成された１つ以上の他のタイプのデバイスのような１つ以上の推進デバイス１０８を含む。推進デバイス１０８の２つ以上の組み合わせがナビゲーティングロボット１００を前方に推進させ、ナビゲーティングロボット１００を右側に回転させ、ナビゲーティングロボット１００を左側に回転させ、または／追加でナビゲーティングロボット１００を垂直に上方または下方に昇降させるために使用されてよい。

ナビゲーティングロボット１００は、カメラ１０４からの入力に基づいて任意のオブジェクトと衝突しないように訓練モデル１１６により、出発位置から目標位置までの動作環境を探索するように推進デバイス１０８を制御するように構成された制御モジュール１１２を含む。訓練モデル１１６は、ナビゲーティングロボット１００のメモリに格納される。訓練モデル１１６の訓練については、以下で説明する。

訓練モデル１１６は、カメラ１０４からの入力に基づいてナビゲーティングロボット１００の行動を示す出力を生成してよい。カメラ１０４は、６０Ｈｚ、１２０Ｈｚ、または他の適した頻度でアップデートされてよい。訓練モデル１１６は、カメラ１０４からの入力がアップデートされるたびに出力を生成してよい。訓練モデル１１６は、与えられた時間内に、（１フィートまたは１メートルの１／３のような所定の距離だけ前方に移動することに対応する）第１状態、（４５度または９０度などの所定の角度だけ右側に回転することに対応する）第２状態、（４５度または９０度などの所定の角度だけ左側に回転することに対応する）第３状態、および（移動しないことに対応する）第４状態で構成されたグループのうちの１つで出力を設定するように構成されてよい。

制御モジュール１１２は、訓練モデル１１６の出力に基づいて推進デバイス１０８を制御するように構成される。例えば、制御モジュール１１２は、訓練モデル１１６の出力が第１状態であることに応答し、ナビゲーティングロボット１００を所定の距離だけ前方に移動させるために推進デバイス１０８を作動させてよい。制御モジュール１１２は、訓練モデル１１６の出力が第２状態であることに応答し、ナビゲーティングロボット１００を所定の角度だけ右側に回転させるために推進デバイス１０８を作動させてよい。制御モジュール１１２は、訓練モデル１１６の出力が第３状態であることに応答し、ナビゲーティングロボット１００を所定の角度だけ左側に回転させるために推進デバイス１０８を作動させてよい。制御モジュール１１２は、訓練モデル１１６の出力が第４状態であることに応答し、ナビゲーティングロボット１００が移動しないようにし、推進デバイス１０８は作動させなくてよい。

図２は、ナビゲーティングロボット１００のような、ナビゲーティングロボットによるビジュアルナビゲーションのために訓練モデル１１６を訓練および生成するための訓練システム２００の例を示したブロック図である。訓練モジュール２０４は、メモリに格納された訓練用仮想環境のセットを使用して実行することにより、訓練モデル１１６を生成する。訓練用仮想環境のセットは、複数の（ベース）仮想環境２０８（すなわち、ベース仮想訓練環境）を含む。訓練用仮想環境のセットはまた、ベース仮想環境２０８の１つ以上の特性を変更することによって生成または変更された仮想環境（すなわち、変更された仮想訓練環境）も含む可能性がある。仮想環境２０８は、例えば、１つ以上のルーム（または部屋）を含んでよい。例えば、ベース仮想環境２０８は、１つ以上のＶｉｚＤｏｏｍマップ内における１つ以上の位置における１つ以上のＦＯＶ（または、時点（ｐｏｉｎｔｓｏｆｖｉｅｗ）：ＰＯＶ）を含んでよい。ＶｉｚＤｏｏｍマップは、訓練システム２００のメモリに格納されてよい。

ランダム化モジュール２１２は、訓練のために使用される変化した仮想環境を生成するために、ベース仮想環境２０８の１つ以上の特性を（例えば、ランダムに）変化させる。例えば、ランダム化モジュール２１２は、（ベース）仮想環境で１つ以上の表面上のテクスチャ、（ベース）仮想環境で１つ以上の表面上の１つ以上のオブジェクトの位置、（ベース）仮想環境の照明（例えば、明るさまたは照明角度）、および／または（ベース）仮想環境の１つ以上の他の特性を変化させてよい。図４〜７はそれぞれ、ランダム化モジュール２１２を使用してベース仮想環境２０８のうちの１つから生成された変化の例を示した図である。

訓練モジュール２０４は、訓練モデル１１６を訓練および生成するための訓練用仮想環境のセットを使用する。

ビジュアルナビゲーションは、部分観察マルコフ決定過程（ＰａｒｔｉａｌｌｙＯｂｓｅｒｖｅｄＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ：ＰＯＭＤＰ）として、次のタプル（ｔｕｐｌｅ）のようにモデリングされてよい。

Ｓは状態のセットであり、Ａは行動のセットであり、Ωは観察のセットであり、これらすべては有限集合（ｆｉｎｉｔｅｓｅｔ）である。Ｒは補償関数であり、次のとおりとなる。

Ｔは条件付き遷移確率質量関数（ｃｏｎｄｉｔｉｏｎａｌｔｒａｎｓｉｔｉｏｎｐｒｏｂａｂｉｌｉｔｙｍａｓｓｆｕｎｃｔｉｏｎ）であり、次のとおりとなる。

その解釈は、次のとおりとなる。

これは、現在の状態がｓであり、行動ａが起これば、次の状態がｓ’になる確率を示す。Ｏは条件付き観察確率質量関数（ｃｏｎｄｉｔｉｏｎａｌｏｂｓｅｒｖａｔｉｏｎｐｒｏｂａｂｉｌｉｔｙｍａｓｓｆｕｎｃｔｉｏｎ）であり、次のとおりとなる。

その解釈は、次のとおりとなる。

これは、起こった最後の行動がａであった場合、状態ｓでｏを観察する確率を示し、初期状態ｓでいかなる行動も起こっていないとき、次の特殊観察確率を許容する。

Ｐ_０は初期状態確率分布関数であり、したがって、

は、初期状態がｓである確率を示す。

訓練モジュール２０４は、次に記載されるパラメータ化されたポリシーを生成する。

パラメータとして、

を有し、以下の与えられた履歴ｈ_ｔに対して行動を取る確率が与えられる。

目標は、以下の差し引かれた補償（ｄｉｓｃｏｕｎｔｅｄｒｅｗａｒｄ）の高い値を得るためにパラメータθを調節するものである。

差引ゲイン因子（ｄｉｓｃｏｕｎｔｅｄｇａｉｎｆａｃｔｏｒ）は、次のとおりとなる。

期待値は、以下の状態−観察−行動シーケンス（ｓｔａｔｅ−ｏｂｓｅｒｖａｔｉｏｎ−ａｃｔｉｏｎｓｅｑｕｅｎｃｅ）に基づく。

初期状態ｓ_０はＰ_０から誘導され、シーケンスの他の要素はＴ、Ｏ、およびπ_θから誘導される。

訓練モジュール２０４は、近傍ポリシー最適化（ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎ：ＰＰＯ）または、例えば、予測される差し引かれた補償の推定値に対する勾配上昇（ｇｒａｄｉｅｎｔａｓｃｅｎｔ）と関連するポリシー勾配方法のような他の適したタイプの最適化アルゴリズムにより、訓練モデル１１６を訓練させる。

訓練モジュール２０４は、複数の環境またはタスク（ｔａｓｋ）を示すＰＯＭＤＰに対する分布Ｄを活用する。訓練モジュールは、分布Ｄからｎ^{ｔｒａｉｎ}（＞０）ＰＯＭＤＰ（Ｐ_１、Ｐ_２、・・・、Ｐ_ｎ ^{ｔｒａｉｎ}）をサンプリングする。

ＰＯＭＤＰは、例えば、日時または年度などの異なる時間において同じ環境がビューを示すような、観察分布において、異なるジオメトリを有するマップを示すもののような、転移（ｔｒａｎｓｉｔｉｏｎ）分布において、または、異なる目標状態の明細に対応するもののような、補償分布において、相違してよい。

このようなサンプルセットが与えられると、訓練モジュール２０４は、ＰＯＭＤＰからの状態（観察−行動シーケンスの有限集合（ｆｉｎｉｔｅｃｏｌｌｅｃｔｉｏｎ）からポリシーπ_θを学習する。多様な実施形態において、訓練モジュール２０４は、ＰＯＭＤＰが共通状態、観察、および観察空間（Ｓ、Ａ、およびΩ）を有するように要求してよい。ポリシーπ_θは、ポリシーが、差し引かれた一般化補償

として参照されてよく、ＰＯＭＤＰの完全分布を越え、差し引かれた補償の期待値に対して所定の値以上が得られれば、適切に一般化したと言える。

所定の値は、期待値に対して最大で得られることのできる値と関連して（それ未満で）設定されるか、最高値

とさらに一般的に関連して（それ未満で）設定されてよい。

訓練用仮想（合成）環境のセットを使用する訓練は、短期間に大量の経験が学習されるようにする。しかし、（ナビゲーティングロボットが動作する）実世界と（訓練が実行される）訓練用仮想環境との間には現実格差（ｒｅａｌｉｔｙｇａｐ）が存在する。これは、例えば、（仮想環境の）シミューレータが実世界の動力学およびビジュアル外観を描写する方式に起因する。仮想環境は、低い正確度（ｆｉｄｅｌｉｔｙ）で実世界の豊かさおよびノイズをキャプチャする。

ランダム化モジュール２１２によって実行されるランダム化は、現実格差の解消に貢献する。ランダム化は、ドメインランダム化を指す場合があり、訓練モデル１１６を使用していったん配置されると、ナビゲーティングロボットは実世界の小さな変更の処理をサポートする。

ドメインランダム化は、観察において現れる変化に対して不変的なポリシーを提供するために効果的である。観察に対して追加されたランダムノイズが存在する状態で目標位置（または状態）に向かって探索させるにあたり、ナビゲーティングロボット１００がＰＯＭＤＰＰ１によって定義された環境で目標を探索することができれば、今後、ナビゲーティングロボット１００は、ＰＯＭＤＰＰ２によって定義された他の環境の目標位置でも、後者の環境が環境Ｐ１と同じ関連フィーチャｆ（Ｐ２）を有していれば、すなわち、ｉｆ（Ｐ１）＝ｆ（Ｐ２）であれば、探索がなされるはずである。ドメインランダム化は、観察における変化およびノイズに対して一般化するようにポリシーを訓練させる。ドメインランダム化は、等しいＳ、Ａ、およびΩ空間を共有する複数のＰＯＭＤＰ（仮想環境）（ただし、各ＰＯＭＤＰは、状態を変更する各自の固有の識別子を有し、したがって、等しい状態の観察の変化を現わす）を訓練することによって実行される。

適切な一般化のために、訓練モジュール２０４の訓練目標は、一般化を促進させる（ｅｎｃｏｕｒａｇｅ）ターム（ｔｅｒｍ）を含む。これは、目的関数自体で一般化の問題の加重値を付与する。

一般的に、変数ｚの関数ｈは、ｈ（ｘ）＝ｈ（Φ（ｘ））であれば、ｘの変換（ｔｒａｎｓｆｏｒｍａｔｉｏｎ）Φに対して不変となる。変換Ｔによって与えられた観察における変更に対するポリシーΠの不変性は、Π（ｏ）＝Π（Ｔ（ｏ））で算出される。訓練モジュール２０４は、ＲＬ目標において適切に一般化するためにペナルティタームを実現する。例えば、訓練モジュール２０４は、次を使用して訓練モデル１１６を訓練させる。

Ｌ_ＰＰＯはＰＰＯ目標であり、θはポリシーπ_θを定義するパラメータのセットであり、ｄは２つの条件付き分布（ｃｏｎｄｉｔｉｏｎａｌｄｉｓｔｒｉｂｕｔｉｏｎ）の距離関数であり、λはペナルティの加重係数（ｗｅｉｇｈｔｉｎｇｃｏｅｆｆｉｃｉｅｎｔ）である。ｏは観察であり、Ｔは該当の観察の変換であり、変換は基本的な状態（ｕｎｄｅｒｌｙｉｎｇｓｔａｔｅ）の意味的コンテクストを依然として保有するが、ランダム化モジュール２１２によって提供されたビジュアル変化を含む。一例では、観察ｏを有するルームを観察し、壁色において差のある観察Ｔ（ｏ）を有する等しいルームを観察する。その次に、ｏがＰＯＭＤＰＰで観察され、Ｔ（ｉ）がＰＯＭＤＰＰ^Ｔで観察されるとｆ（Ｐ）＝ｆ（Ｐ^Ｔ）となる。ここで、ｆ（Ｐ）は、ＰＯＭＤＰＰによって定義された環境の不変の特徴のセットとなる。

数式において、ペナルティタームｄは、ＰＰＯ目標に対する制約として作用し、ここで、新たな目標は、観察ｏおよびＴ（ｏ）に対して同じように行動しながら、ポリシーが同時に高い補償を得なければならないということを指示する。これは、各ポリシーアップデートで平均リターン（ａｖｅｒａｇｅｒｅｔｕｒｎ）の単調な改善を保障するために信頼−領域制約を割り当てることから始まることと同じような、ペナルティタームが追加される信頼領域ポリシーの最適化と類似する。

訓練モジュール２０４は、訓練中に不変性正規化（ＩｎｖａｒｉａｎｃｅＲｅｇｕｌａｔｉｏｎ：ＩＲ）を実行し、このような正規化タームは、与えられた観察の変換に対して学習されたポリシーの不変性を示す。訓練モジュール２０４によって実行されたＩＲは、以下の疑似コード（ｐｓｅｕｄｏ−ｃｏｄｅ）によって説明されてよい。
[疑似コード]

疑似コードにおいて、ｅｎｖは、（訓練用）仮想環境である。上記は繰り返し実行されてよく、次のループの始まりに戻ることが可能である。

トレーニングモジュール２０４は、ＩＲ−ｓｐｌｉｔ（スプリット）またはＩＲ−ｆｕｌｌ（フル）を実行してよい。ＩＲ−ｓｐｌｉｔは、訓練モジュール２０４がＲＬ目標を最大化することとペナルティタームｄを最小化することの間で、訓練を繰り返し切り換えることと関連する。ＩＲ（ｆｕｌｌ）は、先立って提供されたＩＲ数式の全体目標を最適化する訓練モジュール２０４を含む。

訓練モジュール２０４によって実行される訓練は、２つの段階を含んでよい。最初の段階は、上述したＲＬを実行する段階を含んでよく、２つ目の段階は、ｄ（Π（ｏ），Π（Ｔ（ｏ））からの信号に対して教師あり学習を行う段階を含んでよい。訓練は、アクタークリティックスタイルエージェント（ａｃｔｏｒ−ｃｒｉｔｉｃｓｔｙｌｅａｇｅｎｔ）を含んでよい。訓練モジュール２０４は、図３に示すような畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）または他の適したタイプのニューラルネットワークを使用して訓練を実行してよい。図３は、図２に示した訓練モジュール２０４のＣＮＮの例を示したブロック図である。一実施形態において、ＣＮＮは、例えば、３１０において３つの畳み込み層と、３１２において２つの全結合層を含んでよく、ポリシーおよび機能推定器層３１４が連結してよい。ポリシー出力は４次元の全結合層であってよく、４次元は４つの行動（前方に移動、右側に回転、左側に回転、何もしない）に対応してよい。多様な実施形態において、ポリシー出力は、４次元の全結合層よりも大きくてよく、４つの行動よりも多くの行動に対応してよい。例えば、上昇（ｒａｉｓｅ）、下降（ｌｏｗｅｒ）、および垂直高さの維持が提供されてもよい。ポリシー層の出力は、各行動の対数確率であってよい。値層は、値関数を予測する単一ユニットであってよい。正規化線形ユニット（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔｓ：ＲｅＬＵｓ）が１つ、１つ超過、またはすべての層における非線形の動作として使用されてよい。訓練モジュール２０４は、バイナリ補償関数を使用してＰＰＯ目標を最適化してよく、ここで、目標位置に到達すると＋１のリワードが与えられ、そうではなければ０が与えられる。

図３の訓練環境３０８は、ベース仮想環境２０８（すなわち、ベース仮想訓練環境）およびランダム化モジュール２１２から出力される変化した訓練環境（すなわち、変化した仮想訓練環境）を含む。より具体的に、ランダム化モジュール２１２は、ベース仮想訓練環境２０８の変化を、例えば、ＶｉｚＤｏｏｍ環境によって提供された所定のテクスチャを使用して表面上のテクスチャを変更することによって生成してよい。訓練のために使用される上述した仮想環境（例えば、ルーム）の数は、例えば、１、１０、５０、１００、または５００個のルームであってよい。

いったん完全に訓練された、訓練モデル１１６のテストは、例えば、訓練環境を生成するために使用されたものとは異なるホールドアウト（ｈｅｌｄ−ｏｕｔ）セットからのテクスチャを有する５０個のルームを使用して実行されてよい。テストのために異なる数のホールドアウトセットのルームが使用されてもよい。

訓練モジュール２０４は、複数の環境において観察−行動−補償データをより迅速に補正するために、訓練中に並列で複数の（ｍｕｌｔｉｐｌｅ）エージェントを実行してよい。各並列エージェントは、仮想（訓練）環境の変化に対して実行されてよい。各エージェントは、環境の訓練セットから１つの環境をサンプリングするはずであり、他の環境をサンプリングする前にｎ個のエピソード（ｎは０よりも大きい整数）が１つの環境上で実行されてよい。訓練モジュール２０４は、並列エージェントのうちの１つ以上がサンプリングすることのできる既に目にした（ａｌｒｅａｄｙ−ｓｅｅｎ）環境のセットを格納してよい。これは、エージェントが、すべての環境が訓練のために十分にサンプリングされることを保障するように、新たな環境および既にサンプリングされた環境の混合（ｍｉｘｔｕｒｅ）に対して訓練されることができることを保障する。

訓練中の深度チャンネルの使用は、一般化をサポートする。深度は、観察のビジュアルスペクトラムの一部の変更に対して不変である。これは、訓練エージェントがその閾下知覚モデル（ｉｍｐｌｉｃｉｔｐｅｒｃｅｐｔｉｏｎｍｏｄｅｌ）内で訓練エージェントの観察における不変性を少なくとも部分的に発見できるように誘導する。以下の表に示すように、エージェントとして、深度チャンネル（ＲＧＢ−Ｄおよびグレースケール（ｇｒａｙｓｃａｌｅ）−Ｄ）を含むエージェントは、深度情報がないエージェントよりも適切に一般化する。

表の上部分は、ＰＰＯだけ（ＩＲなし）を使用したものからの結果を示しており、表の下部分は、ＰＰＯの使用後にＩＲが繋がることによる結果を示している。表の値は、異なる数の仮想環境に対して訓練され、訓練後、訓練中に見えない５０個のテスト仮想環境に対してテストされたエージェントの平均成功率および標準偏差である。太字の（ｂｏｌｄ）値は、使用された訓練用仮想環境の数および入力タイプに対して最高の成功率を生成した訓練モデルを示している。

ＰＰＯの次にＩＲが繋がる例が訓練モデル１１６を訓練させるために提供されているが、訓練モジュール２０４は、ドロップアウト（ｄｒｏｐｏｕｔ）、バッチノルム（ｂａｔｃｈｎｏｒｍ）、および／またはＬ２のような他の形態の正規化を使用して他の訓練を実行してよい。ドロップアウトの例において、ドロップアウト層は、上述したように、それぞれの畳み込み層以降に付加されてよい。バッチノルムの例において、バッチノルム層は、それぞれの畳み込み層以降に付加されてよい。Ｌ２の例において、Ｌ２正規化が実行されてよい。一例として、ドロップアウト確率は、ドロップアウトの例において０．１であってよい。Ｌ２の例において、Ｌ２加重値は、１０^−４または他の適した値であってよい。

図８は、（深度のない）ＲＧＢ入力を使用する異なるタイプの正規化を伴う訓練のための訓練イベントなどの数に対する平均成功率である左側グラフを含む。さらに、図８は、（深度のない）ＲＧＢ入力を使用する異なるタイプの正規化を伴う訓練のための訓練イベントなどの数に対する最短経路の長さ（ＳｈｏｒｔｅｓｔＰａｔｈＬｅｎｇｔｈ：ＳＰＬ）である右側グラフを含む。左側グラフは、ＰＰＯ＋ＩＲが使用された訓練環境の数が増加するほど一般的に改善されることを示す。（右側グラフにおいて）ＳＰＬは、成功するエージェントに対して時間をさらに考慮した成功率の測定値を示す。右側グラフは、ＰＰＯ＋ＩＲが、ドロップアウト、Ｌ２、およびバッチノルム正規化よりも優れたＳＰＬ測定値を提供することを示す。

図９は、（深度のない）ＲＧＢ入力を使用する異なるタイプの正規化（ＩＲ、ＩＲ−Ｓｐｌｉｔ、およびＰＰＯ＋ＤＲ）のための訓練のための訓練イベントの数に対する平均成功率である左側グラフを含む。また、図９は、（深度のある）ＲＧＢ−Ｄ入力を使用する異なるタイプの正規化を伴う訓練のための訓練イベントの数に対する平均成功率である中間グラフを含む。さらに、図９は、（深度のない）グレースケール入力を使用する異なるタイプの正規化を伴う訓練のための訓練イベントなどの数に対する平均成功率である右側グラフを含む。

ＩＲ−Ｓｐｌｉｔは、ＲＬ目標を最大化することと、ペナルティタームｄを最小化することとの間で、訓練を繰り返し切り換えることに関連する。ＩＲ（ｆｕｌｌ）は、先立って提供されたＩＲ数式の全体目標を最適化することを含む。

図９は、ＤＲエージェントを有するＰＰＯが過剰適合する可能性があり、平均成功率において高い分散を有する可能性があることを示す。ＩＲは、（フル（ｆｕｌｌ）およびスプリット（ｓｐｌｉｔ）の両方で）安定的な平均成功率を示し、ロバストな（ｒｏｂｕｓｔ）ポリシーを生成する。ＩＲペナルティは、モデルが訓練環境の不変性特徴を学習することをサポートする。

図１０は、訓練モデル１１６を訓練させる方法の例を示したフローチャートである。制御は、訓練モジュール２０４が、メモリのような手段から、（ベース）仮想環境２０８を取得する段階１００４から始まる。段階１００８で、ランダム化モジュール２１２は、仮想環境２０８を取得し、各自の仮想環境２０８の１つ以上の特性を変化させることによって変化した仮想環境を生成する。

段階１０１２で、訓練モジュール２０５は、上述したような仮想環境２０８および変化した仮想環境を使用して訓練モデル１１６を訓練および生成する。段階１０１６で、訓練モジュール２０４は、メモリのような手段に、訓練モデル１１６を格納する。いったん訓練がなされれば、訓練モデル１１６は、ナビゲーティングロボット１００上で、メモリのような手段に、カメラ１０４からの入力に基づくビジュアルナビゲーションにおける使用のために格納されてよい。

上述した説明は本質的に例示的なものに過ぎず、本開示、その適用、または使用を制限するように意図したものではない。本開始の広範囲な教示は、多様な形態で実現されてよい。したがって、本開示は特定の例示を含んでいるが、本開示の真正なる範囲は、図面、明細書、および添付の特許請求の範囲の研究によって他の変更が明らかになるはずであるため、これに制限されてはならない。方法内の１つ以上の段階は、本開示の原理を変更せずに異なる順序で（または同時に）実行されてもよいことが理解されなければならない。また、実施形態のそれぞれは、特定の特徴を有するものと説明されているが、本開示の任意の実施形態と関連して説明された特徴のうちのいずれか１つ以上は、他の実施形態の特徴として実現されてよく、および／またはこれらとその組み合わせが明らかに説明されていなくとも、組み合わされてよい。言い換えれば、上述した実施形態は、相互排他的でなく、１つ以上の実施形態の互いの置換（ｐｅｒｍｕｔａｔｉｏｎ）は、本開示の範囲内にある。

要素間の（例えば、モジュール、回路素子、半導体層など）空間的および機能的関係は、「連結した」、「締結した」、「カップリングされた」、「隣接する」、「横の」、「上端の」、「上の」、「下の」、および「配置された」を含んだ多様な用語によって説明される。「直接」と明らかに説明されていない限り、第１要素と第２要素との関係が上述したような開示で説明されているとき、該当の関係は、他に介入する要素が第１要素と第２要素との間に存在しない直接的な関係であってよい。ただし、１つ以上の介入する要素が第１要素と第２要素の間に（空間的にまたは機能的に）存在する間接的な関係であってもよい。ここで使用されるように、Ａ、Ｂ、およびＣのうちの少なくとも１つという説明は、非排他的な論理ＯＲを使用して論理的な（ＡＯＲＢＯＲＣ）を意味するように理解されなければならず、「Ａのうちの少なくとも１つ、Ｂのうちの少なくとも１つ、およびＣのうちの少なくとも１つ」を意味するように理解されてはならない。

図面において、矢印で表示された方向は、一般的に図解において関心のある（データまたは命令のような）情報の流れを示す。例えば、要素Ａと要素Ｂが多様な情報を交換するが、要素Ａから要素Ｂに送信される情報が図解と関連する場合、矢印は要素Ａから要素Ｂを指してよい。このような単方向の矢印は、他の情報が要素Ｂから要素Ａに送信されないということは含まない。また、要素Ａから要素Ｂに送信された情報に対し、要素Ｂは、情報の要求または受信確認を要素Ａに送信してよい。

本出願において、以下の定義を含み、用語「モジュール」または用語「コントローラ」は用語「回路」に代替されてよい。用語「モジュール」は、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、デジタル、アナログ、または混合アナログ／デジタル離散回路、デジタル、アナログ、または混合アナログ／デジタル集積回路、組み合わせ論理回路、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）、コードを実行する（共有された、専用のまたはグループ）プロセッサ回路、プロセッサ回路によって実行されるコードを格納する（共有された、専用のまたはグループ）メモリ回路、説明された機能を提供する他の適したハードウェア構成要素、またはシステムオンチップ（ｓｙｓｔｅｍ−ｏｎ−ｃｈｉｐ）のように上述した一部またはすべての組み合わせの一部であるか、これを含むものを参照してよい。

モジュールは、１つ以上のインタフェース回路を含んでよい。一部の例において、インタフェース回路は、近距離通信網（ＬＡＮ）、インターネット、広域通信網（ＷＡＮ）、またはこれらの組み合わせに接続する有線または無線インタフェースを含んでよい。本開始の任意の与えられたモジュールの機能は、インタフェース回路を介して接続する複数のモジュールに分散されてよい。例えば、複数のモジュールは、ロードバランシングを許容してよい。他の例において、サーバ（遠隔またはクラウドとして知られた）モジュールは、クライアントモジュールの代りに一部の機能を達成してよい。

上述された用語であるコードは、ソフトウェア、ファームウェア、および／またはマイクロコードを含んでよく、プログラム、ルーチン、関数（ｆｕｎｃｔｉｏｎ）、クラス、データ構造、および／またはオブジェクトを参照してよい。共有された用語であるプロセッサ回路は、複数のモジュールから一部またはすべてのコードを実行する単一プロセッサ回路を包括する。グループプロセッサ回路という用語は、追加のプロセッサ回路と結合し、１つ以上のモジュールからの一部またはすべてのコードを実行するプロセッサ回路を包括する。マルチ（ｍｕｌｔｉｐｌｅ）プロセッサ回路に対する参照は、個別のダイ上のマルチプロセッサ回路、単一のダイ上のマルチプロセッサ回路、単一なプロセッサ回路のマルチコア、単一なプロセッサ回路のマルチスレッド、またはこれらの組み合わせを包括する。共有された用語であるメモリ回路は、複数のモジュールからの一部またはすべてのコードを格納する単一メモリ回路を包括する。グループメモリ回路という用語は、追加のメモリと結合し、１つ以上のモジュールからの一部またはすべてのコードを格納するメモリ回路を包括する。

メモリ回路という用語は、コンピュータ読み取り可能な媒体のサブセットを意味する。ここで使用される、コンピュータ読み取り可能な媒体という用語は、媒体を介して（搬送波のようなもの）伝播される一時的な電気的または電磁気的信号は包括せず、したがって、コンピュータ読み取り可能な媒体という用語は、類型的かつ非一時的なものと見なされてよい。非一時的なコンピュータ読み取り可能な媒体の非制限的な例としては、非揮発性メモリ回路（フラッシュメモリ回路、消去可能なプログラム可能な読み取り専用メモリ回路、またはマスク読み取り専用メモリ回路など）、揮発性メモリ回路（スタティックＲＡＭ回路またはダイナミックＲＡＭ回路など）、磁気記録媒体（アナログまたはデジタル磁気テープ、またはハードディスクドライブなど）、および光学記録媒体（ＣＤ、ＤＶＤ、またはブルーレイ（Ｂｌｕ−ｒａｙ）ディスクなど）が挙げられる。

本出願で説明された装置および方法は、コンピュータプログラムによって実現された１つ以上の特定の機能を実行するように汎用コンピュータを構成することによって生成された特殊目的コンピュータにより、部分的または完全に実現されてよい。上述した機能ブロック、フローチャートの構成要素、および他の要素は、熟練された技術者またはプログラマーの通常的な作業によってコンピュータプログラムに変換されることのできるソフトウェア仕様としての役割を行う。

コンピュータプログラムは、少なくとも１つの非一時的なコンピュータ読み取り可能媒体に記録されたプロセッサ実行可能な命令語を含む。コンピュータプログラムは、記録されたデータを含むか、依存してよい。コンピュータプログラムは、特殊目的コンピュータのハードウェアと相互作用する基本の入力／出力システム（ＢＩＯＳ）、特殊目的コンピュータの特定のデバイスと相互作用するデバイスドライバ、１つ以上のオペレーティングシステム、ユーザアプリケーション、バックグラウンドサービス、バックグラウンドアプリケーションなどを含んでもよい。

コンピュータプログラムは、（ｉ）ＨＴＭＬ（ハイパーテキストマークアップ言語）、ＸＭＬ（拡張可能なマークアップ言語）、またはＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）のようなパースされる技術的な（ｄｅｓｃｒｉｐｔｉｖｅ）テキスト、（ｉｉ）アセンブリコード、（ｉｉｉ）コンパイラによってソースコードから生成されたオブジェクト（ｏｂｊｅｃｔ）コード、（ｉｖ）インタプリタによる実行のためのソースコード、（ｖ）ジャストインタイム（Ｊｕｓｔ−Ｉｎ−Ｔｉｍｅ：ＪＩＴ）コンパイラによるコンパイル、および実行のためのソースコードなどを含んでよい。一例として、ソースコードは、Ｃ、Ｃ＋＋、Ｃ＃、ＯｂｊｅｃｔｉｖｅＣ、Ｓｗｉｆｔ、Ｈａｓｋｅｌｌ、Ｇｏ、ＳＱＬ、Ｒ、Ｌｉｓｐ、ＪａｖａＲ、Ｆｏｒｔｒａｎ、Ｐｅｒｌ、Ｐａｓｃａｌ、Ｃｕｒｌ、ＯＣａｍｌ、ＪａｖａｓｃｒｉｐｔＲ、ＨＴＭＬ５（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ５ｔｈ改訂版）、Ａｄａ、ＡＳＰ（ＡｃｔｉｖｅＳｅｒｖｅｒＰａｇｅｓ）、ＰＨＰ（ハイパーテキストプリプロセッサ）、Ｓｃａｌａ、Ｅｉｆｆｅｌ、Ｓｍａｌｌｔａｌｋ、Ｅｒｌａｎｇ、Ｒｕｂｙ、ＦｌａｓｈＲ、ＶｉｓｕａｌＢａｓｉｃＲ、Ｌｕａ、ＭＡＴＬＡＢ、ＳＩＭＵＬＩＮＫ、およびＰｙｔｈｏｎＲを含む言語からの文法（ｓｙｎｔａｘ）を使用して作成されてよい。

１００：ナビゲーティングロボット
１０４：カメラ
１０８：推進デバイス
１１２：制御モジュール
１１６：訓練モデル

Claims

ビジュアルナビゲーションを実行するナビゲーティングロボットによる使用のために訓練モデルを訓練させるための訓練システムであって、
Ｎ個のベース仮想訓練環境を含むメモリであって、前記Ｎ個のベース仮想訓練環境のそれぞれは、室内空間内の位置における視野を含み、Ｎは１よりも大きい整数である、メモリ、
前記Ｎ個のベース仮想訓練環境各自の少なくとも１つの特性を変化させることにより、前記Ｎ個のベース仮想訓練環境に基づいてＮ個の変化した仮想訓練環境を生成するように構成されたランダム化モジュール、および
前記Ｎ個のベース仮想訓練環境および前記Ｎ個の変化した仮想訓練環境を含む訓練セットに基づいてビジュアルナビゲーションを実行する前記ナビゲーティングロボットによる使用のために訓練モデルを訓練させるように構成された訓練モジュール
を含む、訓練システム。
前記少なくとも１つの特性は、壁のテクスチャを含む、請求項１に記載の訓練システム。
前記少なくとも１つの特性は、壁の色を含む、請求項１に記載の訓練システム。
前記少なくとも１つの特性は、照明特性を含む、請求項１に記載の訓練システム。
前記少なくとも１つの特性は、オブジェクトの位置を含む、請求項１に記載の訓練システム。
前記訓練モジュールは、畳み込みニューラルネットワーク（ＣＮＮ）を使用して前記訓練モデルを訓練させるように構成される、請求項１に記載の訓練システム。
前記訓練モジュールは、不変性正規化（ＩＲ）を使用して前記訓練モデルを訓練させるように構成される、請求項１に記載の訓練システム。
前記訓練モデルは、カメラからの入力イメージに基づき、
所定の距離だけ前記ナビゲーティングロボットを前方に移動させること、
所定の第１角度だけ前記ナビゲーティングロボットを右側に回転させること、
所定の第２角度だけ前記ナビゲーティングロボットを左側に回転させること、および
前記ナビゲーティングロボットを移動させないこと
のうちの１つに対する命令を示す出力を生成するように構成される、請求項１に記載の訓練システム。
前記訓練モデルは、前記カメラからのＲＧＢ入力イメージに基づいて前記出力を生成するように構成される、請求項８に記載の訓練システム。
前記訓練モデルは、前記カメラからのＲＧＢ深度（ＲＧＢ−Ｄ）入力イメージに基づいて前記出力を生成するように構成される、請求項８に記載の訓練システム。
前記訓練モデルは、前記カメラからのグレースケール入力イメージに基づいて前記出力を生成するように構成される、請求項８に記載の訓練システム。
前記訓練モデルは、前記カメラからのグレースケール深度入力イメージに基づいて前記出力を生成するように構成される、請求項８に記載の訓練システム。
前記室内空間は、ビル内である、請求項１に記載の訓練システム。
ビジュアルナビゲーションを実行するナビゲーティングロボットによる使用のために訓練モデルを訓練させる方法であって
１つ以上のプロセッサにより、Ｎ個のベース仮想訓練環境各自の少なくとも１つの特性を変化させることにより、前記Ｎ個のベース仮想訓練環境に基づいてＮ個の変化した仮想訓練環境を生成する段階であって、前記Ｎ個のベース仮想訓練環境のそれぞれと前記Ｎ個の変化した仮想訓練環境のそれぞれは、室内空間内の位置における視野を含み、Ｎは１よりも大きい整数である、段階、および
前記１つ以上のプロセッサにより、前記Ｎ個のベース仮想訓練環境および前記Ｎ個の変化した仮想訓練環境を含む訓練セットに基づいてビジュアルナビゲーションを実行する前記ナビゲーティングロボットによる使用のために訓練モデルを訓練させる段階
を含む、方法。
前記少なくとも１つの特性は、
壁のテクスチャ、
壁の色、
照明特性、および
オブジェクトの位置
のうちの１つを含む、請求項１４に記載の方法。
前記訓練させる段階は、畳み込みニューラルネットワーク（ＣＮＮ）を使用して前記訓練モデルを訓練させる段階を含む、請求項１４に記載の方法。
前記訓練させる段階は、不変性正規化（ＩＲ）を使用して前記訓練モデルを訓練させる段階を含む、請求項１４に記載の方法。
前記訓練モデルは、カメラからの入力イメージに基づき、
所定の距離だけ前記ナビゲーティングロボットを前方に移動させること、
所定の第１角度だけ前記ナビゲーティングロボットを右側に回転させること、
所定の第２角度だけ前記ナビゲーティングロボットを左側に回転させること、および
前記ナビゲーティングロボットを移動させないこと
のうちの１つに対する命令を示す出力を生成するように構成される、請求項１４に記載の方法。
前記訓練モデルは、
前記カメラからのＲＧＢ入力イメージ、
前記カメラからのＲＧＢ深度（ＲＧＢ−Ｄ）入力イメージ、
前記カメラからのグレースケール入力イメージ、および
前記カメラからのグレースケール深度入力イメージ
のうちの１つに基づいて前記出力を生成するように構成される、請求項１８に記載の方法。
ナビゲーティングロボットであって、
前記ナビゲーティングロボットの前の視野内からイメージをキャプチャするように構成されたカメラであって、前記視野は、前記ナビゲーティングロボットの周りの３６０度よりも狭い、カメラ、
室内空間内の位置におけるＮ個のベース仮想訓練環境および前記Ｎ個のベース仮想訓練環境各自の少なくとも１つの特性を変化させることによって生成されたＮ個の変化した仮想訓練環境に基づいて訓練され、Ｎは１よりも大きい整数であり、前記カメラからのイメージのうちの１つに基づいて出力を生成するように構成されるモデル、
前記ナビゲーティングロボットを推進させるように構成された１つ以上の推進デバイス、および
前記モデルの出力に基づき、前記１つ以上の推進デバイスのうちの１つ以上を選択的に作動させるように構成された制御モジュール
を含む、ナビゲーティングロボット。
前記モデルは、前記カメラからのイメージのうちの１つに基づき、第１状態、第２状態、第３状態、および第４状態で構成されたグループのうちの１つで前記出力を設定するように構成され、
前記制御モジュールは、
前記出力が第１状態であるとき、前記１つ以上の推進デバイスのうちの１つ以上を所定の距離だけ前記ナビゲーティングロボットを前方に移動させるように作動させ、
前記出力が第２状態であるとき、前記１つ以上の推進デバイスのうちの１つ以上を所定の第１角度だけ前記ナビゲーティングロボットを右側に回転させるように作動させ、
前記出力が第３状態であるとき、前記１つ以上の推進デバイスのうちの１つ以上を所定の第２角度だけ前記ナビゲーティングロボットを左側に回転させるように作動させ、
前記出力が第４状態であるとき、前記１つ以上の推進デバイスのうちのいずれも作動させないように構成される、請求項２０に記載のナビゲーティングロボット。
前記ナビゲーティングロボットは、自律走行車である、請求項２０に記載のナビゲーティングロボット。