JP7324248B2

JP7324248B2 - 自然言語に基づく屋内自律ナビゲーション

Info

Publication number: JP7324248B2
Application number: JP2021106992A
Authority: JP
Inventors: ジンシンハオ、; リャンジュンツァン、
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2020-12-22
Filing date: 2021-06-28
Publication date: 2023-08-09
Anticipated expiration: 2041-06-28
Also published as: JP2022023794A; KR20210087903A; EP3879371A2; EP3879371B1; KR102565438B1; US20220197288A1; CN114721366A; US11720108B2; EP3879371A3

Description

本開示は、コンピュータの技術分野に関し、特に屋内自律ナビゲーションに関し、より具体的には、タスク環境におけるロボットナビゲーション方法に関する。

現在、ほとんどの移動ロボットに使用されている自律ナビゲーションシステムは走査により予め作成されているタスク環境の細粒度地図に依存する。ナビゲーション中、ロボットは、座標を受信したことに応答して、探索アルゴリズムを通じてグローバル経路を探索し、次に、局所観測値に基づいてグローバル経路を最適化して最終的な計画経路を取得する。しかしながら、新環境にある場合、目的地の座標が未知であったり、細粒度の地図が利用不能であったりする可能性があるため、従来の移動ロボットは直ちに自律ナビゲーションを実行することができない。

本開示の実施形態は、タスク環境におけるロボットナビゲーション方法、機器、及び非一時的な媒体を提供する。

第１の態様では、本開示のいくつかの実施形態は、タスク環境におけるロボットナビゲーション方法を提供する。該方法は、事前訓練されたシーケンス予測モデルによってタスク環境のナビゲーショングラフ、自然言語命令及びロボットのナビゲーショングラフ内での初期位置を受信するステップであって、ナビゲーショングラフはタスク環境における位置を示すノード、ノードの座標及び位置の間の接続性を示す辺を含むステップと、事前訓練されたシーケンス予測モデルによって、ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、ロボットを初期位置から目的地にナビゲーションするステップとを含む。

第２の態様では、本開示のいくつかの実施形態は電子装置を提供し、該電子装置は、少なくとも１つのプロセッサとメモリとを含み、該メモリには、第１の態様に係る実施形態のいずれかのタスク環境におけるロボットナビゲーション方法を少なくとも１つのプロセッサに実行させる実行可能な命令が記憶されている。

第３の態様では、本開示のいくつかの実施形態は、コンピュータプログラムを記憶する一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータプログラムは、実行されて、第１の態様の実施形態のいずれかのタスク環境におけるロボットナビゲーション方法をプロセッサに実行させ得る。

第４の態様では、本開示の幾つかの実施形態は、コンピュータプログラムであって、プロセッサにより実行されると、第１の態様の実施形態の何れか一項に記載の方法を実現するコンピュータプログラムを提供する。

以下の図面を参照して非限定的な実施形態の詳細な説明を閲覧することにより、本開示の他の特徴、目的及び利点はより明らかになる。
本開示の実施形態に係るタスク環境におけるロボットナビゲーション方法のフローチャートである。実施形態に係る例示的なタスク環境の模式図である。図２Ａに示すタスク環境の例示的なナビゲーショングラフの模式図である。本開示の実施形態に係る一連の単一ステップ行動を予測するための方法の模式図である。３ステップ動作伝播の模式図である。本開示の実施形態に係るナビゲーションエージェントの模式図である。本開示の実施形態に係る一連の単一ステップ行動を予測するための機器の模式的な構造図である。本開示の実施形態に係る電子装置のブロック図である。

以下、図面を参照して本開示の実施形態を詳細に説明する。理解すべきものとして、本明細書で説明される特定実施形態は関連する開示内容を解釈するために過ぎず、限定的な内容ではない。また、なお、説明の便宜上、図面には関連開示に関する部材だけが示されている。

さらに、なお、本開示におけるいくつかの実施形態及び本開示のいくつかの特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面を参照して実施形態と組み合わせて、本開示の特徴を詳細に説明する。

図１は本開示の実施形態に係るタスク環境におけるロボットナビゲーション方法のフローチャートである。本開示の実施形態において開示された方法は、タスク環境におけるロボットナビゲーション機器によって実行されてもよく、該機器は、ソフトウェア及び／又はハードウェアで実現されてもよく、そして、計算能力を有する任意の電子装置（例えばサーバ又は端末）に集積されてもよい。

図１に示すように、本開示の実施形態において開示されたタスク環境におけるロボットナビゲーション方法は、ステップＳ１０１及びステップＳ１０２を含んでもよい。ステップＳ１０１では、事前訓練されたシーケンス予測モデルによってタスク環境のナビゲーショングラフ、自然言語命令及びロボットのナビゲーショングラフ内での初期位置を受信し、ステップＳ１０２では、事前訓練されたシーケンス予測モデルによって、ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、ロボットを初期位置から目的地にナビゲーションする。以下、この２つのステップを参照して詳細に説明する。

ステップＳ１０１：
ロボットは環境に配置され、環境にわたってナビゲーションされる。ロボットがナビゲーションされる環境はタスク環境と呼ばれる。タスク環境は、ＧＰＳ測位が不可能な環境、屋内空間などとしてもよい。例示的なタスク環境は図２Ａに示される。

ロボットは、廊下に沿って走行する場合、正確なセマンティクスを有する空間に沿って移動することを知るだけでよく、該空間は何らかの幾何学的仕様（例えば経路の幅や曲率）を有する必要がない。したがって、タスク環境全体におけるロボットのナビゲーションは、タスク環境をトポロジーマップとして示すことにより実現され得る。トポロジーマップにおけるノードは、セマンティクス的に意味がある位置（例えば部屋や廊下）を示し、辺は接続性を示してもよい。トポロジー地図はタスク環境全体でロボットをナビゲーションするナビゲーショングラフとして利用可能である。図２Ａのタスク環境に対応する例示的なナビゲーショングラフは図２Ｂに示される。

いくつかの実施形態では、ナビゲーショングラフが無向辺及びノード座標の両方を用いて符号化される。ナビゲーショングラフでは、無向辺は無方向又は双方向の辺として示されてもよい。一例として、図２Ｂには、無向辺が双方向辺として示される。

ナビゲーショングラフに実際の幾何学的情報を表示することにより、実際のオンラインナビゲーション進捗状況に基づいて環境知識を適応的に解釈することが可能となる。特定のナビゲーションプロセスにおける不要な情報をフィルタリングすることによって、よりコンパクトでより方向性を持つルーティング表現を生成させ得る。

例示的なシナリオでは、図２Ａに示すように、ロボットが事務室－３にあり、事務室－０へナビゲーションする必要がある場合、自然言語の各種の命令シーケンスを使用して期待のパスに沿って事務室－０に移動するようにロボットをガイドすることができる。一例として、図２Ａには期待のパスが示されている。各種の命令シーケンスとしては、「部屋から離れると左折する。前に移動してから、再度左折して廊下に沿って走行する。行きつくところまで行くと左折して左側の二番目の部屋に入る」、又は「部屋から離れる。左折して廊下の行きつくところまで行く。左折して終点まで行く。左折する。前に移動して左側の二番目の部屋に至る」が含まれてもよい。同じナビゲーションセマンティクス（即ち、「離れる」、「左折」、「移動」、「左折」など）が含まれるにも関わらず、この２つの命令シーケンスはパスの異なるセクション及び重要な行動の順番に依存する。事務室－３から事務室－０へロボットをナビゲーションする期待のパスも図２Ｂに示されている。図２Ｂに示すノードシーケンス４－３－５－…は図２Ａに示す期待のパスに相当する。

いくつかの実施形態では、ノード、ノードの座標及びノードの間の辺を含むナビゲーショングラフ、自然言語命令、及びロボットの初期位置又は初期ノードを事前訓練されたシーケンス予測モデルに入力し、シーケンス予測モデルに基づいて一連の単一ステップ行動を生成することに用い、ロボットは一連の単一ステップ行動を実行して、初期位置（例えば、事務室－３）から目的地（例えば、事務室－０）にナビゲーションされてもよい。

ステップＳ１０２：
シーケンス予測モデルは、注釈されたサンプルナビゲーショングラフと対応する自然言語サンプル命令を利用して事前訓練され得るニューラルネットワークモデルである。

いくつかの実施形態では、シーケンス予測モデルは、ロボットが実行可能な一連の単一ステップ行動を順次予測する。

図３は本開示の実施形態に係る一連の単一ステップ行動を予測するための方法の模式図を示す。図３に示すように、一連の単一ステップ行動を予測するための方法は、（１）無向辺Ｅ、ノードＮ及びノード座標Ｘを有するナビゲーショングラフＧ；（２）自然ナビゲーション命令Ｉ；及び（３）初期位置Ｓ∈Ｎの３つの入力を採用する。シーケンス予測モデルは行動シーケンスｕ_{０：Ｔ－１}：＝（ｕ_０,…,ｕ_Ｔ－１）を生成することができ、ロボットは行動シーケンスｕ_{０：Ｔ－１}を実行して、自然ナビゲーション命令Ｉに記載のようにｓから目標状態ｇにナビゲーションされ得る。

モデルの訓練中、訓練サンプル
が与えられ、目標は以下の式の解を求めることで新しいナビゲーションクエリを考慮した命令を反映する行動シーケンスを推定することである。

目標がハイレベルの行動計画であるため、命令で記述される目標状態は目標位置だけを指定し、期待の進行方向を指定しなくてもよい。したがって、ナビゲーション能力が失われない場合、本開示の実施形態は簡単な行動セットＢ：＝｛ｂ_ｅ（即ち、「離れること」）、ｂ_ｒ（即ち、「右折して移動すること」）、ｂ_ｌ（即ち、「左折して移動すること」）、及びｂ_ｆ（即ち、「前に移動すること」）｝を保持する。提案されている解決手段は、様々な状況（例えば「Ｔジャンクションで直進する」や「廊下を直進する」）で同じ移動に個別の行動を割り当てることと異なる。このコンパクトな行動セットにより、命令を特定の環境にマッチングするのではなく、命令をナビゲーション移動にマッチングすることを学習することに集中することができ、それにより、汎用性を効果的に向上させる。

動作シーケンスｕ_{０：Ｔ－１}：＝（ｕ_０、…、ｕ_Ｔ－１）が与えられると、ロボットは時間ｔに動作ｕ_ｔを実行し、ノードｎ_ｔからｎ_ｔ＋１に移転し得る。予想されたナビゲーション全体はｎ_０＝ｓから始まり、目標状態ｎ_Ｔ＝ｇで終了する。いくつかの実施形態では、ロボットが常に移動方向に向かって走行すると仮定して、移動前後のロボットの進行方向を比較することによって、各動作ｕ_ｔをｕ_ｔ＝ｂ∈Ｂに分類することができる。時間ｔに、ロボットがノードｎ_ｔにあるとする。次に、進行方向φ_ｔ＝ｘ（ｎ_ｔ）－ｘ（ｎ_ｔ－１）とφ_ｔ＋１＝ｘ（ｎ_ｔ＋１）－ｘ（ｎ_ｔ）との外積を計算することによって、動作ｕ_ｔを次のように分類することができる。
式中、ｎ_ｔ＋１は常にｎ_ｔ－１と異なってもよい。特に、ｔ＝０の場合、ロボットが部屋ノードｓにあり、１つの有効行動「離れる」だけを有すると仮定する。このようにして、ｎ_ｔからｎ_ｔ＋１への有効遷移はタプル＜ｎ_ｔ、ｕ_ｔ、ｎ_ｔ＋１＞として表すことができ、ここで、ｕ_ｔは以上の等式（２）より推定されるものである。また、特殊行動ｂ_ｓ（即ち、「停止」）を符号化してもよく、該行動は、ナビゲーションの終了を示すために、ロボットによって任意の時間ｔ≧Ｔに採用されてもよい。

図３に提案されているシーケンス予測モデルは、隠れ状態ｈ_ｔの形式でナビゲーションの進捗状況を追跡するゲート付き回帰型ユニット（ＧＲＵ）セルと、次の動作ｕ_ｔを選択するナビゲーションエージェントとの２つの部分として構成されている。各ステップでは、ＧＲＵセルは、前の動作ｕ_ｔ－１を入力として、隠れ状態ｈ_ｔを更新する。ナビゲーションエージェントは、ナビゲーション進捗状況ｈ_ｔ、ナビゲーショングラフＧ及び命令Ｉを組み合わせて、次の動作ｕ_ｔを選択する。次に、ロボットは、ｕ_ｔとグラフＧにより定義された遷移モデルに従って、ｎ_ｔからｎ_ｔ＋１に移動する。同じプロセスを繰り返して、ナビゲーションエージェントが目標に到達したことを示す動作ｂ_ｓ（即ち、「停止」）を選択する。言い換えれば、提案されているモデルは、一連の単一ステップ動作予測の問題を解決し、各単一ステップ動作予測の問題は前のステップにおける解に依存する。

いくつかの実施形態では、予測中の各単一ステップについて、単一ステップに対応する現在の予測プロセスにナビゲーショングラフを適用させることによって適応コンテキストを生成し、少なくとも生成した適応コンテキストと自然言語命令に基づいて現在の単一ステップ用の単一ステップ行動を予測する。現在の単一ステップに対応する実際予測プロセスにナビゲーショングラフを適応させることによって、ナビゲーション命令に従うときに、常に地図マップに均等に注意を払うのではなく、人間が通常ローカルホライズンで関連情報を探索するという観察に従う。現在の単一ステップに対応する実際予測プロセスにナビゲーショングラフを適応させるとともに、適応させるコンテキストに基づいて現在の単一ステップ用の単一ステップ行動を予測することによって、命令セマンティクスとナビゲーション計画の間の柔軟な対応関係が直面する課題は新しい大きな地図への限られた拡張で解決される。

いくつかの実施形態では、知識ベースの適応は、いわゆるｄ－ステップ動作伝播によって実現され得る。知識ベースの適用を実現するための他の方法も採用され得る。

グラフＧの接続性情報Ｇ：＝＜Ｅ，Ｎ，Ｘ＞は、１グループのタプル｛＜ｎ，ｂ，ｎ’＞_ｉ｝として表され、各タプルは、タイプｂを有するノードｎからタイプｂを有するノードｎ’へ移動する有効ナビゲーション行動を表す。前述部分に記載のように、有向辺＜ｎ，ｎ’＞用の有効行動がタイプｂであることは、ｎに到達する前のロボットの可能な前の位置ｎ_ｐｒｅｖに依存する。したがって、遷移＜ｎ，ｂ，ｎ’＞は、代替的に「前－現在－次」のフォーマット＜ｎ_ｐｒｅｖ，ｎ，ｎ’＞で表されてもよく、それにより、上記等式（２）に従ってｂを推定できる。知識ベースＧに適応させるために、次のｄ個のステップにおいて実行し得る有効行動を探索する。言い換えれば、即時履歴＜ｎ_ｔ－１，ｎ_ｔ＞から続くロボットの移動をシミュレートし、任意の有効なノード遷移及びその行動タイプを記憶する。以下、このようなプロセスをｄ－ステップ動作伝播と呼ぶ。このようなプロセスは、＜ｎ_ｔ－１，ｎ_ｔ＞を初期元素として、Ｇにおける有向辺に対して有界の幅優先探索を行うものとして実現される。キューから有向辺＜ｎ_ｐｒｅｖ，ｎ＞がポップされるたびに、ｎにおけるｎ_ｐｒｅｖではない全ての隣接ｎ’を収集する。ｎ’ごとに、＜ｎ，ｎ’＞をキューに追加し、タプル＜ｎ_ｐｒｅｖ，ｎ，ｎ’＞を作成する。続いて、該タプルをグラフフォーマット＜ｎ，ｂ，ｎ’＞に変換し、ここで、行動タイプｂは、上記の等式（２）に従って座標ｘ（ｎ_ｐｒｅｖ）、ｘ（ｎ）及びｘ（ｎ’）より推定される。ｎ’と現在ノードｎ_ｔの間の距離がｄ以内にある全ての有効遷移を収集できる。

図５は本開示の実施形態に係るナビゲーションエージェントの模式図である。ナビゲーションエージェントの構築には、主に、コンテキストと命令の埋め込み、特徴抽出、及びコンテキスト命令注意が含まれる。

コンテキスト命令注意：注意メカニズムを介して、ナビゲーションコンテキストと命令との間で対応関係を探す。いくつかの実施形態では、コンテキスト特徴のみが命令特徴に関わる一方向の注意が使用される。なお、適応コンテキストの設定では、注意メカニズムは、人々が地図上で経路を探索する方式だけではなく、人々が次の移動を决定するときに付近の環境に主に注意を支払うという事実にも似ている。これは、命令がグローバルなランドマークではなく、ローカル環境に基づいている場合に特に当てはまる。

行動予測：最終的に、プロセス意識コンテキストＳ_ｔと隠れ状態ｈ_ｔが組み合わせられて、時間ｔでポリシーを生成する。Ｓ_ｔとｈ_ｔとを連結して完全接続層にフィードすることにより生の動作確率特徴

いくつかの実施形態では、マスク関数への入力は、ナビゲーショングラフＧ全体と現在のステップｔまでのナビゲーション軌跡ｎ_０：ｔを含む。該関数は、サイズが
と同じゼロベクトルを生成し、ここで、－∞は無効行動を代える。ある行動ｂが有効であるか否かを決定するために、以下の条件を満たすｎ_ｔの隣接ノードｎ’が存在するか否かをチェックする。

いくつかの実施形態では、ｎ_ｔ＝ｎ_ｔ－１（又はｕ_ｔ－＝ｂ_ｓ）の場合、ナビゲーションがすでに終了しているため、時間ｔで停止動作が強制的に実行される。なお、各ステップｔでの有効動作空間は位置ｎ_ｔだけでなく、履歴位置ｎ_ｔ－１によって決定される。このような設定により、行動セマンティクスを位置にバインドするという要件が解除され、それにより、コンパクトな知識表現及び行動セマンティクスの柔軟な推定が可能になる。

さらに、図６を参照して、一連の単一ステップ行動を予測するための方法の実現形態として、本開示の実施形態は一連の単一ステップ行動を予測するための機器を提供し、該機器の実施形態は上記の各種の方法実施形態に対応し、且つ、該機器は具体的には、各種の電子装置に適用できる。

図６に示すように、本実施形態の一連の単一ステップ行動を予測するための機器６００は、受信ユニット６０１と予測ユニット６０２を含む。受信ユニット６０１はタスク環境のナビゲーショングラフ、ロボットの自然言語命令及びナビゲーショングラフでの初期位置を受信するように構成され、ここで、ナビゲーショングラフは、タスク環境における位置を示すノード、ノードの座標及び位置の間の接続性を示す辺を含む。予測ユニット６０２は、ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、ロボットを初期位置から目的地にナビゲーションするように構成される。

いくつかの実施形態では、予測ユニットは、適応コンテキスト生成サブユニットと予測サブユニットをさらに含む。適応コンテキスト生成サブユニットは、予測中の各単一ステップについて、単一ステップに対応する現在の予測プロセスにナビゲーショングラフを適応させることによって、適応コンテキストを生成するように構成される。予測サブユニットは、少なくとも生成した適応コンテキストと自然言語命令に基づいて、単一ステップ用の単一ステップ行動を予測するように構成される。

いくつかの実施形態では、適応コンテキスト生成サブユニットは、さらに、ナビゲーショングラフにおいて単一ステップに対応する現在ノードと現在ノードの前のノード以外の隣接ノードの間の有効ノード遷移を探索し、現在ノードの座標、現在ノードの前のノードの座標及び現在ノードの前のノード以外の隣接ノードの座標に基づいて、有効ノード遷移の行動を予測し、隣接ノードを新たな現在ノードとして、新たな現在ノードであるノードと現在の単一ステップの現在ノードとの間の距離が予め設定された値以下となるまで探索と予測ステップを繰り返し、探索した有効ノード遷移及びその予測行動を全てグラフィックスフォーマットに変換して、各単一ステップ用の適応コンテキストを生成するように構成される。

いくつかの実施形態では、有効ノード遷移の行動は、離れること、右折して移動すること、左折して移動すること、及び前に移動することからなる行動セットによって予測される。

いくつかの実施形態では、適応コンテキスト生成サブユニットは、さらに、現在ノードの座標から前のノードの座標を減算することによって、ロボットの現在ノードでの進行方向を決定し、隣接ノードの座標から現在ノードの座標を減算することによって、ロボットの隣接ノードでの進行方向を決定し、ロボットの現在ノードでの進行方向とロボットの隣接ノードでの進行方向との外積を計算し、計算した外積に基づいて、有効ノード遷移の単一ステップ行動を予測するように構成される。

いくつかの実施形態では、予測サブユニットは、さらに、生成した適応コンテキスト、自然言語命令及びゲート付き回帰型ユニット（ＧＲＵ）によって更新された現在の隠れ状態に基づいて、単一ステップ用の単一ステップ行動を予測するように構成され、ここで、ＧＲＵは、前の単一ステップの前の単一ステップ行動を入力として、更新を行って現在の隠れ状態を取得する。

いくつかの実施形態では、一連の単一ステップ行動を予測する機器はナビゲーショングラフ作成ユニットをさらに含み、該ナビゲーショングラフ作成ユニットは、タスク環境のトポロジーマップを作成し、作成したトポロジーマップをタスク環境のナビゲーショングラフとして決定するように構成され、ここで、タスク環境における位置はトポロジーマップのノードとして機能し、位置の間の接続性はトポロジーマップの辺として機能する。

機器６００は、前述の方法実施形態におけるステップに対応する。したがって、上記の一連の単一ステップ行動を予測するための方法において実現し得る操作、特徴及び技術的効果は機器６００及びそれに含まれるユニットにおいても同様であり、これらについての詳細な説明を省略する。
本開示の実施形態によれば、電子装置及び読み取り可能な記憶媒体を提供する。

図７に示すように、本開示の実施形態に係る一連の単一ステップ行動を予測する方法の電子装置のブロック図が示されている。電子装置は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを指すことを意図している。電子装置は、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置、及びその他の類似のコンピューティング装置など、様々な形式の移動機器を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び／又は要求される本開示の実現を制限する意図はしない。

図７に示すように、電子装置は、１つ又は複数のプロセッサ７０１、メモリ７０２及び各部材を接続するインターフェース（高速インターフェースと低速インターフェースを含む）を含む。各種の部材は異なるバスを用いて互いに接続されており、必要に応じてユニバーサルマザーボードに取り付けられたり、他の方法で取り付けられたりすることができる。プロセッサは、電子装置内で実行する命令、例えばメモリ内又はメモリ上に記憶された命令を処理することで、外部入力／出力装置（例えばインターフェースに接続される表示装置）上にＧＵＩのグラフィカル情報を表示することができる。別の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスは複数のメモリとともに使用され得る。同様に、複数の電子装置が接続されてもよく、且つこれらの装置は一部の必須な操作を提供し、例えば、サーバアレイ、１グループのブレードサーバ又はマルチプロセッサシステムとして機能する。図７において、一例として、１つのプロセッサ７０１が使用されている。

メモリ７０２は、本開示の実施形態による一時的なコンピュータ読み取り可能な記憶媒体である。メモリは少なくとも１つのプロセッサにより実行可能な命令を記憶し、本開示の実施形態による一連の単一ステップ行動を予測するための方法を少なくとも１つのプロセッサに実行させる。本開示の一時的なコンピュータ読み取り可能な記憶媒体は、本開示の実施形態による一連の単一ステップ行動を予測する方法をコンピュータに実行させるコンピュータ命令を記憶している。

一時的なコンピュータ読み取り可能な記憶媒体であるメモリ７０２は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば本開示の実施形態における一連の単一ステップ行動を予測するための方法に対応するプログラム命令／モジュール（例えば、図６に示す受信ユニット６０１及び予測ユニット６０２）を記憶することに用いられ得る。プロセッサ７０１は、メモリ７０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの各種の機能的アプリケーション及びデータ処理を実行し、即ち、前述方法実施形態における一連の単一ステップ行動を予測する方法を実現する。

メモリ７０２は、プログラム記憶エリアとデータ記憶エリアを含むことができ、これらのうち、プログラム記憶エリアは、オペレーティングシステムと少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは電子装置を使用して作成される一連の単一ステップ行動を予測するためのデータを記憶することができる。また、メモリ７０２は、高速ランダムアクセスメモリを含んでもよく、且つ非一時的なメモリ、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュ装置又は他の非一時的な固体記憶装置をさらに含んでもよい。いくつかの実施形態では、メモリ７０２は、任意に、プロセッサ７０１に対して遠隔的に配置されたメモリを含み、且つこれらの遠隔メモリは電子装置に接続されてネットワークを介して一連の単一ステップ行動を予測することができる。上記ネットワークの例として、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びこれらの組み合わせが含まれるが、これらに制限されない。

一連の単一ステップ行動を予測するための方法の電子装置は、入力装置７０３と出力装置７０４をさらに含んでもよい。プロセッサ７０１、メモリ７０２、入力装置７０３、及び出力装置７０４は、バス７０５又は他の方法を通じて接続されてもよい。図７において、一例として、バス７０５を介する接続が使用される。

入力装置７０３は、入力したデジタル又は文字情報を受信し、ユーザ設定及び一連の単一ステップ行動を予測するための方法の電子装置の機能制御に関連するキー信号入力を生成することができ、入力装置７０３は、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、１つ又は複数のマウスボタン、トラックボール、ジョイスティックや他の入力装置である。出力装置７０４は、表示装置、補助照明機器（例えば、ＬＥＤ）、触覚フィードバック機器（例えば、振動モータ）などを含んでもよい。表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイやプラズマディスプレイを含んでもよいが、これらに制限されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

本明細書に記載のシステム及び技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路（ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア及び／又はこれらの組み合わせにおいて実現されてもよい。これらの各種の実施形態は、１つ又は複数のコンピュータプログラムで実現されてもよいことを含んでもよく、コンピュータプログラムは、少なくとも１つのプログラム可能プロセッサを含むプログラム可能システム上で実行及び／又は解釈されてもよい。プログラム可能プロセッサは、専用又は汎用プログラム可能プロセッサを含み、メモリシステム、少なくとも１つの入力装置及び少なくとも１つの出力装置からデータと命令を受信し、データと命令を記憶システム、少なくとも１つの入力装置と少なくとも１つの出力装置に伝送してもよい。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェア開示又はコードとも呼ばれる）は、プログラム可能プロセッサの機械命令を含み、且つ高度なプロセス及び／又はオブジェクト指向プログラミング言語及び／又はアセンブリ／機械言語を使用して実現されてもよい。本明細書で使用される場合、用語「機械読み取り可能な媒体」と「コンピュータ読み取り可能な媒体」は、プログラム可能プロセッサに機械命令及び／又はデータを提供する任意のコンピュータプログラム製品、装置及び／又は機器（例えば、磁気ディスク、光ディスク、メモリ、プログラム可能ロジック機器（ＰＬＤ））を示し、機械命令を機械読み取り可能な信号として受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、プログラム可能プロセッサに機械命令及び／又はデータを提供する任意の信号を示す。

ユーザと対話するために、本明細書で記載のシステム及び技術はコンピュータ上で実現されてもよく、該コンピュータは、例えば陰極線管（ＣＲＴ）又は液晶ディスプレイ（ＬＣＤ）モニタなどの表示機器、及び例えばマウス又はトラックボールのキーボードやポインティング機器を含み、ここで、表示機器は、ユーザに情報を表示することに用いられ、ユーザはキーボードやポインティング機器を使用してコンピュータに入力を提供できる。他のタイプの機器もユーザとの対話を提供することに用いられ得る。例えば、ユーザに提供するフィードバックは任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバック又は触覚フィードバックであってもよく、且つ任意の形態（声音入力、ボイス入力又は触覚入力を含む）でユーザからの入力が受信されてもよい。

本明細書に記載のシステム及び技術は、バックエンド部材（例えば、データサーバとして）を含む計算システムにて実現されてもよく、又はミドルウェア部材（例えば、アプリケーションサーバ）を含む計算システムにおいて実現されてもよく、又はフロントエンド部材を含む計算システムにおいて実現されてもよく（例えば、グラフィカルユーザインターフェース又はｗｅｂブラウザを有するユーザコンピュータ、ユーザはグラフィカルユーザインターフェース又はｗｅｂブラウザを通じて本明細書に記載のシステム及び技術の実施形態によって対話可能である）、又はこのようなバックエンド部材、ミドルウェア部材又はフロントエンド部材の任意の組み合わせを含む計算システムにおいて実現されてもよい。システムの部材は、任意のデジタルデータ通信の形式又は媒体（例えば、通信ネットワーク）を介して互いに接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、及びブロックチェーンネットワークが含まれる。

コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介して会話する。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント－サーバの関係を持つコンピュータプログラムによって生成される。

以上の記述は、本開示の好適な実施形態及び本明細書において使用される技術的原理に対する解釈を提供するものに過ぎない。当業者が理解できるように、本開示の発明範囲は、上記技術的特徴の特定の組み合わせによる技術案に制限されない。本開示の概念を逸脱することなく、本発明の範囲は上記技術的特徴又はそれに等価する特徴の任意の組み合わせによる他の技術案をカバーし、例えば、本開示の実施形態において開示された類似の機能を有する技術的特徴と上記特徴を交換してなる技術案が挙げられるが、それに制限されない。

Claims

タスク環境におけるロボットナビゲーション方法であって、
事前訓練されたシーケンス予測モデルによって前記タスク環境のナビゲーショングラフ、自然言語命令及び前記ロボットの前記ナビゲーショングラフ内での初期位置を受信するステップであって、前記ナビゲーショングラフは前記タスク環境における位置を示すノード、前記ノードの座標及び前記位置の間の接続性を示す辺を含むステップと、
前記事前訓練されたシーケンス予測モデルによって、前記ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、前記ロボットを前記初期位置から目的地にナビゲーションするステップとを含み、
前記順次予測は、
前記予測中の各単一ステップについて、
前記単一ステップに対応する現在の予測プロセスに前記ナビゲーショングラフを適応させることによって、適応コンテキストを生成するステップであって、前記適応コンテキストは、現時点の実際ナビゲーション進捗状況に応じた、有界の先読み視野中の有効ナビゲーション移動のみを含む、前記ナビゲーショングラフのサブセットである、ステップと、
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップとを含み、
前記予測中の各単一ステップについて、前記適応コンテキストを生成するステップは、
前記ナビゲーショングラフにおいて、前記単一ステップに対応する現在ノードと前記現在ノードの前のノード以外の隣接ノードとの間の有効ノード遷移を探索するステップと、
前記現在ノードの座標、前記現在ノードの前のノードの座標、及び前記現在ノードの前のノード以外の前記隣接ノードの座標に基づいて、有効ノード遷移の行動を予測するステップと、
前記隣接ノードを新たな現在ノードとして、前記新たな現在ノードであるノードと前記現在の単一ステップの現在ノードとの間の距離が予め設定された値以下となるまで探索と予測のステップを繰り返すステップと、
探索した有効ノード遷移及び予測した有効ノード遷移の行動を全てグラフィックスフォーマットに変換して、前記各単一ステップ用の前記適応コンテキストを生成するステップとを含む、方法。
前記有効ノード遷移の行動は、離れること、右折して移動すること、左折して移動すること、及び前に移動することからなる行動セットに従って予測される、請求項１に記載の方法。
前記現在ノードの座標、前記現在ノードの前のノードの座標、及び前記前のノード以外の前記隣接ノードの座標に基づいて、前記有効ノード遷移の行動を予測するステップは、
前記現在ノードの座標から前記前のノードの座標を減算することによって、前記ロボットの前記現在ノードでの進行方向を決定するステップと、
前記隣接ノードの座標から前記現在ノードの座標を減算することによって、前記ロボットの前記隣接ノードでの進行方向を決定するステップと、
前記ロボットの前記現在ノードでの進行方向と前記ロボットの前記隣接ノードでの進行方向との外積を計算するステップと、
計算した外積に基づいて、前記有効ノード遷移の前記単一ステップ行動を予測するステップとを含む、請求項１に記載の方法。
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップは、
生成した適応コンテキスト、前記自然言語命令、及びゲート付き回帰型ユニットによって更新された現在の隠れ状態に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップであって、前記ゲート付き回帰型ユニットは前の単一ステップの前の単一ステップ行動を入力として、かつ更新して前記現在の隠れ状態を取得するステップを含む、請求項１に記載の方法。
前記タスク環境のトポロジーマップを作成するステップであって、前記タスク環境における位置は前記トポロジーマップのノードであり、前記位置の間の接続性は前記トポロジーマップの辺であるステップと、
作成したトポロジーマップを前記タスク環境の前記ナビゲーショングラフとして決定するステップとをさらに含む、請求項１に記載の方法。
電子装置であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに操作を実行させる実行可能な命令が記憶されているメモリとを含み、前記操作は、
事前訓練されたシーケンス予測モデルによってタスク環境のナビゲーショングラフ、自然言語命令及びロボットの前記ナビゲーショングラフ内での初期位置を受信することであって、前記ナビゲーショングラフは前記タスク環境における位置を示すノード、前記ノードの座標及び前記位置の間の接続性を示す辺を含むことと、
前記事前訓練されたシーケンス予測モデルによって、前記ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、前記ロボットを前記初期位置から目的地にナビゲーションすることとを含み、
前記順次予測は、
前記予測中の各単一ステップについて、
前記単一ステップに対応する現在の予測プロセスに前記ナビゲーショングラフを適応させることによって、適応コンテキストを生成するステップであって、前記適応コンテキストは、現時点の実際ナビゲーション進捗状況に応じた、有界の先読み視野中の有効ナビゲーション移動のみを含む、前記ナビゲーショングラフのサブセットである、ステップと、
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップとを含み、
前記予測中の各単一ステップについて、前記適応コンテキストを生成するステップは、
前記ナビゲーショングラフにおいて、前記単一ステップに対応する現在ノードと前記現在ノードの前のノード以外の隣接ノードとの間の有効ノード遷移を探索するステップと、
前記現在ノードの座標、前記現在ノードの前のノードの座標及び前記現在ノードの前のノード以外の前記隣接ノードの座標に基づいて、有効ノード遷移の行動を予測するステップと、
前記隣接ノードを新たな現在ノードとして、前記新たな現在ノードであるノードと前記現在の単一ステップの前記現在ノードとの間の距離が予め設定された値以下となるまで探索と予測のステップを繰り返するステップと、
探索した有効ノード遷移及び予測した有効ノード遷移の行動を全てグラフィックスフォーマットに変換して、前記各単一ステップ用の前記適応コンテキストを生成するステップとを含む、装置。
前記有効ノード遷移の行動は、離れること、右折して移動すること、左折して移動すること、及び前に移動することからなる行動セットに従って予測される、請求項６に記載の装置。
前記現在ノードの座標、前記現在ノードの前のノードの座標、及び前記前のノード以外の前記隣接ノードの座標に基づいて、前記有効ノード遷移の行動を予測するステップは、
前記現在ノードの座標から前記前のノードの座標を減算することによって、前記ロボットの前記現在ノードでの進行方向を決定するステップと、
前記隣接ノードの座標から前記現在ノードの座標を減算することによって、前記ロボットの前記隣接ノードでの進行方向を決定するステップと、
前記ロボットの前記現在ノードでの進行方向と前記ロボットの前記隣接ノードでの進行方向との外積を計算するステップと、
計算した外積に基づいて、前記有効ノード遷移の前記単一ステップ行動を予測するステップとを含む、請求項６に記載の装置。
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップは、
生成した適応コンテキスト、前記自然言語命令及びゲート付き回帰型ユニットによって更新された現在の隠れ状態に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップであって、前記ゲート付き回帰型ユニットは、前の単一ステップの前の単一ステップ行動を入力として、かつ更新して前記現在の隠れ状態を取得するステップを含む、請求項６に記載の装置。
前記操作は、
前記タスク環境のトポロジーマップを作成することであって、前記タスク環境における位置は前記トポロジーマップのノードであり、前記位置の間の接続性は前記トポロジーマップの辺であることと、
作成したトポロジーマップを前記タスク環境の前記ナビゲーショングラフとして決定することとをさらに含む、請求項６に記載の装置。
一時的なコンピュータ読み取り可能な記憶媒体であって、
プロセッサに操作を実行させる実行可能なコンピュータプログラムが記憶されており、前記操作は、
事前訓練されたシーケンス予測モデルによってタスク環境のナビゲーショングラフ、自然言語命令及びロボットの前記ナビゲーショングラフ内での初期位置を受信することであって、前記ナビゲーショングラフは前記タスク環境における位置を示すノード、前記ノードの座標及び前記位置の間の接続性を示す辺を含むことと、
前記事前訓練されたシーケンス予測モデルによって、前記ロボットが実行可能な一連の単一ステップ行動を順次予測することにより、前記ロボットを前記初期位置から目的地にナビゲーションすることとを含み、
前記順次予測は、
前記予測中の各単一ステップについて、
前記単一ステップに対応する現在の予測プロセスに前記ナビゲーショングラフを適応させることによって、適応コンテキストを生成するステップであって、前記適応コンテキストは、現時点の実際ナビゲーション進捗状況に応じた、有界の先読み視野中の有効ナビゲーション移動のみを含む、前記ナビゲーショングラフのサブセットである、ステップと、
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップとを含み、
前記予測中の各単一ステップについて、前記適応コンテキストを生成するステップは、
前記ナビゲーショングラフにおいて、前記単一ステップに対応する現在ノードと前記現在ノードの前のノード以外の隣接ノードとの間の有効ノード遷移を探索するステップと、
前記現在ノードの座標、前記現在ノードの前のノードの座標、及び前記現在ノードの前のノード以外の前記隣接ノードの座標に基づいて、有効ノード遷移の行動を予測するステップと、
前記隣接ノードを新たな現在ノードとして、前記新たな現在ノードであるノードと前記現在の単一ステップの前記現在ノードとの間の距離が予め設定された値以下となるまで探索と予測のステップを繰り返すステップと、
探索した有効ノード遷移及び予測した有効ノード遷移の行動を全てグラフィックスフォーマットに変換して、前記各単一ステップ用の前記適応コンテキストを生成するステップとを含む、一時的なコンピュータ読み取り可能な記憶媒体。
前記有効ノード遷移の行動は、離れること、右折して移動すること、左折して移動すること、及び前に移動することからなる行動セットに従って予測される、請求項１１に記載の媒体。
前記現在ノードの座標、前記現在ノードの前のノードの座標、及び前記前のノード以外の前記隣接ノードの座標に基づいて、前記有効ノード遷移の行動を予測するステップは、
前記現在ノードの座標から前記前のノードの座標を減算することによって、前記ロボットの前記現在ノードでの進行方向を決定するステップと、
前記隣接ノードの座標から前記現在ノードの座標を減算することによって、前記ロボットの前記隣接ノードでの進行方向を決定するステップと、
前記ロボットの前記現在ノードでの進行方向と前記ロボットの前記隣接ノードでの進行方向との外積を計算するステップと、
計算した外積に基づいて、前記有効ノード遷移の前記単一ステップ行動を予測するステップとを含む、請求項１１に記載の媒体。
少なくとも生成した適応コンテキストと前記自然言語命令に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップは、
生成した適応コンテキスト、前記自然言語命令及びゲート付き回帰型ユニットによって更新された現在の隠れ状態に基づいて、前記単一ステップ用の単一ステップ行動を予測するステップであって、前記ゲート付き回帰型ユニットは、前の単一ステップの前の単一ステップ行動を入力として、かつ更新して前記現在の隠れ状態を取得するステップを含む、請求項１１に記載の媒体。
コンピュータプログラムであって、
プロセッサにより実行されると、請求項１～５の何れか一項に記載の方法を実現するコンピュータプログラム。