JP2022006166A

JP2022006166A - 地図上の目的地の決定方法、機器、及び記憶媒体

Info

Publication number: JP2022006166A
Application number: JP2021106993A
Authority: JP
Inventors: ジンシンハオ、; Jinxin Zhao; リャンジュンツァン、; Liangjun Zhang
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2020-12-30
Filing date: 2021-06-28
Publication date: 2022-01-12
Anticipated expiration: 2041-06-28
Also published as: KR20210089604A; EP3872677A2; EP3872677A3; US20220207235A1; CN113535869A; JP7198312B2

Abstract

【課題】地図上の目的地の決定方法、機器及び記憶媒体を提供する。
【解決手段】方法は、テキストのＮ個のセグメントを取得し、テキストのＮ個のセグメントの間の文法的な関係に基づいて、Ｎ個のセグメントの再帰的順序を決定し、Ｎ個のセグメントのそれぞれについて、該セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択し、再帰的順序に従って、各セグメントを、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とともに該セグメントのマッチングモデルに入力し、マッチングモデルによって再帰的順序における最後のセグメントについて出力される更新領域を地図中の目的地として使用する。
【選択図】図１

Description

本開示の実施例は、全体的には、コンピュータの技術分野に関し、且つより具体的には、地図上の目的地の決定方法、機器、及びコンピュータ読み取り可能な記憶媒体に関する。

ヒューマンコンピュータインタラクションにおいて、自然言語は、ユーザとロボットの間の最も望ましいコミュニケーション形態の１つである。しかしながら、自然言語の解釈は、ロボットにとって依然として非常に難しい問題である。大きな問題の１つは、音声からテキストへの変換が成功したとしても、テキストとその適切な解釈との間にかなりのギャップがあることである。

第１の態様では、地図上の目的地の決定方法を提供する。該方法は、テキストのＮ個のセグメントを取得するステップであって、Ｎは１よりも大きい整数であるステップと、テキストのＮ個のセグメントの間の文法的な関係に基づいて、Ｎ個のセグメントの再帰的順序を決定するステップと、Ｎ個のセグメントのそれぞれについて、各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択するステップであって、各セグメントのマッチングモデルは、全て入力テキストと地図の入力領域を入力として、入力テキストの意味と入力領域に基づいて地図の更新領域を出力するように構成されるステップと、再帰的順序に従って、各セグメントを、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とともに該セグメントのマッチングモデルに入力するステップと、マッチングモデルによって再帰的順序における最後のセグメントについて出力される更新領域を地図中の目的地として使用するステップとを含む。

第２の態様では、地図上の目的地の決定機器を提供する。該機器は、１つの又は複数のプロセッサと、メモリとを含む。該メモリは、１つの又は複数のプロセッサによって実行可能な命令を記憶することで機器に以下の操作を実行させることに用いられ、該操作は、テキストのＮ個のセグメントを取得することであって、Ｎは１よりも大きい整数であることと、テキストのＮ個のセグメントの間の文法的な関係に基づいて、Ｎ個のセグメントの再帰的順序を決定することと、Ｎ個のセグメントのそれぞれについて、各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択することであって、各セグメントのマッチングモデルは、全て入力テキストと地図の入力領域を入力として、入力テキストの意味と入力領域に基づいて地図の更新領域を出力するように構成されることと、再帰的順序に従って、各セグメントを、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とともに該セグメントのマッチングモデルに入力することと、マッチングモデルによって再帰的順序における最後のセグメントについて出力される更新領域を地図中の目的地として使用することとを含む。

第３の態様では、命令を記憶する一時的なコンピュータ読み取り可能な記憶媒体を提供し、該命令はプロセッサによって実行されることで操作を実行し、該操作は、テキストのＮ個のセグメントを取得することであって、Ｎは１よりも大きい整数であることと、テキストのＮ個のセグメントの間の文法的な関係に基づいて、Ｎ個のセグメントの再帰的順序を決定することと、Ｎ個のセグメントのそれぞれについて、セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択することであって、各セグメントのマッチングモデルは全て入力テキストと地図の入力領域を入力として、入力テキストの意味と入力領域に基づいて地図の更新領域を出力するように構成されることと、再帰的順序に従って、各セグメントを、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とともに該セグメントのマッチングモデルに入力することと、マッチングモデルによって再帰的順序における最後のセグメントについて出力される更新領域を地図中の目的地として使用することとを含む。

以下、図面を参照した詳細な説明において、本開示の実施形態の上記及び他の特徴、利点及び態様はより明らかになる。図面において、同一又は類似の図面の符号は同一又は類似の素子を表す。
本開示のいくつかの実施形態に係る地図上の目的地の決定方法のフローチャートである。本開示のいくつかの実施形態に係るセグメントの再帰的順序を決定する実現形態の模式図である。テキストセグメントのそれぞれのマッチングモデルへの入力の実現形態の模式図である。テキストセグメントのそれぞれのマッチングモデルへの入力の適用例の模式図である。本開示のいくつかの他の実施形態に係る地図上の目的地の決定方法のフローチャートである。本開示のいくつかの実施形態に係る複数のモデルの更新関数のセマンティクス説明の模式図である。本開示のいくつかの実施形態に係るテキストセグメントに対する計算実行の模式図である。地図上の目的地の決定方法の適用シナリオである。本開示のいくつかの実施形態に係る地図上の目的地の決定機器の模式図である。

以下、図面及び実施形態を参照しながら本開示をさらに詳細に説明する。理解すべきものとして、本明細書で説明される特定実施形態は関連する開示内容を解釈するために過ぎず、限定的な内容ではない。また、なお、説明の便宜上、図面には関連開示に関する部材だけが示されている。

さらに、なお、本開示における実施形態及び実施形態の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面を参照して実施形態と組み合わせて、本開示の特徴を詳細に説明する。

現在、ロボット言語アドレッシングアルゴリズムはほとんど固定シナリオに対して限られたストラテジーセットを維持し、大量のデータ訓練を通じて画像又は地理情報と自然言語の間のマッチングを確立する。従来の技術のほとんどは、ニューラルネットワークの学習能力を利用して、大量のデータから言語と目標位置の間のマッチング関係を記憶する。このような方法は、言語の構造を十分に活用しておらず、自然言語での目的地記述の推論の性質を無視している。その欠点は、データに対する需要が膨大であること、記録されていない言語構造に汎用性がないこと、及び推論を必要とする位置の記述を理解しにくいことといったロボット制御の不便を引き起こす。

図１は本開示のいくつかの実施形態に係る地図上の目的地の決定方法のフローチャートである。該方法は、ステップ１０１～１０５を含む。

ステップ１０１：テキストのＮ個のセグメントを取得し、Ｎは１よりも大きい整数である。

いくつかの実施形態では、ユーザ入力に基づいてテキストを取得する。ユーザ入力は機械又はコンピュータにより受信可能な任意の入力であってもよい。いくつかの実施形態では、ユーザ入力は音声、キーボードによる入力、センサによる入力又はタッチスクリーンによる入力のうちの少なくとも１つを含む。

いくつかの実施形態では、Ｎ個のセグメントは位置を示すセグメントと位置関係を示すセグメントを含む。

いくつかの実施形態では、ユーザが「北出口近くの会議室に行く」というと、ロボットは音声を受信して、音声からテキスト「北出口近くの会議室に行く」を取得する。いくつかの実施形態では、テキストに対してセマンティクス分析を実行して位置記述に関するテキスト、例えば「北出口近くの会議室」を取得する。次に、テキストの複数のセグメント、即ち名詞セグメント（例えば、「会議室」と「北出口」）と前置詞セグメント（例えば、「近く」）を取得する。
ステップ１０２：テキストのＮ個のセグメントの間の文法的な関係に基づいて、Ｎ個のセグメントの再帰的順序を決定する。

いくつかの実施形態では、ステップ１０２は、図２に示すステップ１０２１と１０２２を含む。ステップ１０２１は、Ｎ個のセグメントの中から前置詞セグメントの前の名詞主語セグメント、前置詞セグメント、及び前置詞セグメントの目的語セグメントを決定するステップを含む。

いくつかの実施形態では、自然言語処理（ＮＬＰ）ツールを使用してテキストを解析して主語ｕｈ、前置詞ｕｐｒｅｐ、及び前置詞の目的語ｕｐｏｂｊを有する従属構造とする。

ステップ１０２２：前置詞セグメントの前の名詞主語セグメントを再帰的順序における第１のセグメントとして決定し、前置詞セグメントを再帰的順序における第２のセグメントとして決定し、目的語セグメントを再帰的順序における第３のセグメントとして決定する。

ステップ１０３：Ｎ個のセグメントのそれぞれについて、各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択し、各セグメントのマッチングモデルは、全て入力テキストと地図の入力領域を入力として、入力テキストの意味と入力領域に基づいて地図の更新領域を出力するように構成される。

いくつかの実施形態では、複数のモデルは第１のタイプモデルと第２のタイプモデルを含み、ここで、第１のタイプモデルは、第１の地図領域と位置を示す第１のタイプテキストとを入力として、第１の地図領域内の第１の更新領域を出力するように構成され、第２のタイプモデルは、第２の地図領域と前記位置関係を示す第２のタイプテキストを入力として、第２の地図領域と位置関係に基づいて第２の更新領域を出力するように構成される。

いくつかの実施形態では、位置関係は近接関係を含み、且つ第２のタイプモデルは近接度モデルを含み、該近接度モデルは、第２の地図領域と近接関係を示す第２のタイプテキストを入力として、第２の地図領域に近接する第２の更新領域を出力するように構成される。

いくつかの実施形態では、位置関係は方向関係を含み、且つ第２のタイプモデルは方向モデルを含み、該方向モデルは、第２の地図領域と方向関係を示す第２のタイプテキストとを入力として、第２の地図領域の方向での第２の更新領域を出力するように構成される。

いくつかの実施形態では、前置詞セグメントの前の名詞セグメント、前置詞セグメント、及び目的語名詞セグメントとマッチングするモデルは、それぞれ以下の等式を使用してもよい。

ここで、fθ*はθをパラメータとする基盤関数を示し、ｂ０はダミー信頼度又は地図ｍ全体にまたがる初期分布を示す。いくつかの実施形態では、等式（１）と等式（３）は同一関数を共用する。

ステップ１０４：再帰的順序に従って、各セグメントを、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とともに各セグメントのマッチングモデルに入力する。

いくつかの実施形態では、ステップ１０４は図３に示すステップ１０４１とステップ１０４２を含む。

ステップ１０４１：再帰的順序における第１のセグメントと地図の初期領域を第１のセグメントのマッチングモデルに入力することにより、第１の更新領域を取得する。

ステップ１０４２：再帰的順序における第２のセグメント～第Ｎのセグメントのそれぞれについて、該セグメントとマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域とを該セグメントのマッチングモデルに入力することにより、該セグメント用の更新領域を取得する。

図４はステップ１０４の適用例を示す。図４において、等式（１）で定義したとおり、第１のセグメント「北出口」を地図の初期領域とともに第１のモデルに入力する。次に、等式（２）で定義したとおり、第２のセグメント「近く」を第１のモデルの出力とともに第２のモデルに入力する。最後に、等式（３）で定義したとおり、第３のセグメント「会議室」を第２のモデルの出力とともに第３のモデルに入力する。

ステップ１０５：再帰的順序に従う最後のセグメントのマッチングモデルによって出力される更新領域を地図中の目的地として使用する。

いくつかの実施形態では、図４における第３のモデルの出力は目的地として使用される。いくつかの実施形態では、地図の座標はロボットが地図上の目的地に基づいて決定し、次にロボットはロボットの現在の位置から地図での座標への経路を計画して、計画した経路に沿って移動する。

本開示のいくつかの実施形態に係る方法は、自然言語の構造の特徴を最大限に利用し、命令構造に従って完全なアドレッシングタスクを複数の独立した言語理解タスクに分割し、確率分布の形で抽出した情報を送信する。初期状態では、目標確率は地図の全範囲にわたり均等に分布している。確率分布は、独立した言語によって１つずつ理解されて更新され、最終的な目標位置を目指す。

本開示のいくつかの実施形態に係る方法は、解釈可能で、最適化が容易であり、且つ必要なデータがより少ないという特徴を有する。本開示のいくつかの実施形態に係る方法を利用すると、地図中の目的地の座標は、ロボットによってユーザの入力に基づいて容易に決定されてもよく、それにより、ユーザによるロボット制御を支援する。

図５は、本開示のいくつかの他の実施形態に係る地図上の目的地の決定方法のフローチャートである。該方法は、ステップ５０１～５０５を含む。

ステップ５０１は、テキストのＮ個のセグメントを取得するステップを含み、該Ｎ個のセグメントは、位置を示すセグメント、方向を示すセグメント、近接度を示すセグメント、及びいずれの位置又はいずれの位置関係も示さないセグメントを含む。

ステップ５０２は、テキストのＮ個のセグメントの間の文法的な関係に基づいて、Ｎ個のセグメントの再帰的順序を決定するステップを含む。ステップ５０２はステップ１０２と同じであり、関連記述についてはステップ１０２の記述を参照すればよい。

ステップ５０３は、Ｎ個のセグメントのそれぞれについてマッチングモデルを選択するステップであって、該選択は、位置を示すセグメントのマッチングモデルとして第１のタイプモデルを選択し、方向を示すセグメントのマッチングモデルとして方向モデルを選択し、近接度を示すセグメントのマッチングモデルとして近接度モデルを選択し、いずれの位置又はいずれの位置関係も示さないセグメントのマッチングモデルとして第３のタイプモデルを選択することを含むステップを含む。

本開示の以下の記述において、テキストのセグメントは修飾語とも呼ばれ、且つモデルの入力と出力はそれぞれ先験及び後験とも呼ばれる。表Ｉには、いくつかの実施形態に係る第１のタイプモデル（即ち、正確なモデル）、近接度モデル、方向モデル、及び第３のタイプモデル（即ち、ダミーモデル）とその利用可能な力、出力及び規則の例が示されている。
表Ｉ
更新タイプ

いくつかの実施形態では、等式（１）～（３）は統一され、以下のような一般的な信頼度の更新チェーンとみなす。

ここで、ｋはｕｐｏｂｊとｕｐｒｅｐの総数を示す。いくつかの実施形態では、テキストは文法に関連するセグメント（ｕｋ）のシーケンスに分解され、且つシーケンスのそれぞれは再帰的に適用されて、信頼度ｂの概念を更新する。

いくつかの実施形態では、１グループの学習可能な関数

と分類器

が構築される。等式（４）の更新関数は次のように表現できる。

ここで、II（α）はインジケータ関数である。分類器ｃはニューラルネットワークを示し、次のように定義される。

ここで、Φｃはゲート付き回帰ユニット（ＧＲＵ）層により抽出された隠れ状態を示し、且つＷｃはＧＲＵの隠れ状態を生の分類重みにマッチングさせる線形層の重みを指す。図６は本開示のいくつかの実施形態に係る複数のモデルの更新関数のセマンティクス図示を示す。正確なモデル、方向モデル、近接度モデル及びダミーモデルの更新関数は次のように記述される。

正確なモデル
いくつかの実施形態では、地図ｍ∈Ｍは１グループの関心のある領域

に分けられ、各領域は地図境界Ｂ_０内に境界Ｂ_ｉを有する。各領域ａ_ｉは一般的に言及される文字列のタプル（例えば、一意の領域ｉｄ、領域カテゴリ及び領域名称（適用の場合））に関連付けられ、且つ各関心のあるの領域には多くともＮ個の単語が割り当てられる。

いくつかの実施形態では、領域情報内の各単語が固定長さの埋め込みに変換され、次に長さの埋め込みが連結される。結果は、

で示される地図情報の行列表現である。Ｓは関心のある領域の数である。Ｎは領域記述子内のトークンの数を指す。Ｈは単語の埋め込みの次元である。いくつかの実施形態では、修飾語ｕ_ｋは埋め込み行列

として符号化される。いくつかの実施形態では、正確なモデルはＳレベルの分類問題として形成され、地図中内の全ての領域で定義された離散分布ｗ_ｋを生成する。各領域ａ_ｉの計算は次のとおりである。

ここで、γ_ｋ、

及びｗ_ｋ－１は次のように解釈する方向スケーリング係数、修飾語－地図注意、及び先験重みを示し、ηは正規化係数を指す。次に、ｗ_ｋ（ｉ）を境界Ｂ_ｉにより示される地図上の領域に割り当て、次に地図全体にわたり正規化を行うことで完全信頼度ｂ_ｋを回復することができる。

γ_ｋの使用は、主語の形容詞としての方向の一般的な使用によりトリガーされる（表１参照）。等式は以下のとおりである。

ここで、σはシグモイド関数であり、ｘ_ｉは領域ａ_ｉの重心であり、Ｂ_０は地図の境界であり、ｅ_αｋは予測される方向α_ｋ∈［－π，π］の単位方向ベクトルであり、κ_ｋ∈［０，１］はｕ_ｋに方向が使用されているか否かを示す訓練可能な変数であり、β_ｋはγ_ｋのスケーリングファクターを調整する整形係数であり、εは正の定数である。方向形容詞が使用されている場合、κ_ｋは１としてラベル付けられ、γ_ｋは指数形式で表示され、該指数形式のγ_ｋは、各領域ａ_ｉの重心の予測方向に沿った投影に従って各領域ａ_ｉを加重する。柔軟性を高めるために、β_ｋはオフセットして追加される。方向形容詞が含まれていない場合、κ_ｋは０としてラベル付けられ、且つ全てのａ_ｉについてγ_ｋ（ｉ）はεにプッシュされ、それにより、この判別項をキャンセルする。等式中、（９）のｘ_ｉ及びｂ_ｉ以外の全ての項は全ての領域重みにより共有され、学習可能な関数により次のように計算され得る。

ここで、ф＊はＧＲＵ層により抽出された隠れ状態を示し、且つＷ＊はスカラー出力を生成する線形層の重みである。
等式（８）中の注意項

は次のように示される。

ここで、

は正規化係数であり、

は領域ａ_ｉに割り当てられた第ｊ単語の埋め込みを指し、

は修飾語

における第ｌ単語の埋め込みを示す、該項は、予め定義された領域情報と修飾語ｕ_ｋの間のマッチング単語ペアをカウントすることにより、各領域ａ_ｉを加重する。正規化された埋め込みドット積を閾値λでフィルタリングすることで単語のマッチングをチェックする。

最後に、先験信頼度から各領域ａ_ｉの重みを収集することにより、次のように領域先験ｗ_ｋ－１（ｉ）を計算する。

ここでｕ、ｖは地図座標を指し、且つη_ｋ－１は正規化係数である。

近接度モデル
近接関係に関する前置詞が存在する場合、後験は先験を中心とするガウス分布として表され、先験の領域サイズに比例する分散が割り当てられる。次に更新関数は次のように表現される。

ここで、ｘ_ｋ－１と｜Ｂ_ｋ－１｜は先験ｂ_ｋ－１により示される領域の重心座標とサイズであり、且つρはスケーリング定数である。

方向モデル
形容詞として使用されることに加えて、方向詞（例えば、「北」）、例えば、「会議室２０２の北」は主語として直接使用可能である。いくつかの実施形態では、先験はガウス分布で表わされるが、該分布は信頼度のみをｕ_ｋと一致に維持する追加のマスクが設定されている。図６の図示の説明を参照する。更新関数は次のように表現され得る。

ここで、ｅ_αｋは有効方向α_ｋの単位方向ベクトルである。Ｎ_ｋ－１は等式（１３）と同じ形式を採用する。Ｃｏｓ（・,・）は余弦相似度である。いくつかの実施形態では、α_ｋは、次のように、等式（１０）と類似した学習可能な変数として示される。

ダミーモデル
いくつかの実施形態では、ダミーモデル関数は同一のマッチングである。
いくつかの実施形態では、バックプロパゲーションによる特定タイプの損失を最小化させることによって、学習可能な関数を訓練することができる。いくつかの実施形態では、訓練用の地図は一般的な作業領域、会議室や、例えば娯楽領域などの指定領域からなる事務室の間取り図である。いくつかの実施形態では、部屋や指定領域などの既存の空間構造を再利用することに加えて、廊下などの一般的な公共空間も分割される。いくつかの実施形態では、地図全体は指定属性を有する８０個の領域に分割される。まとめられた領域属性は表ＩＩに示す。
表ＩＩ
領域属性及び修飾語辞書

更新タイプｔごとに、Ｋ＝１０個の修飾語ｕは、予め定義された辞書に従ってランダムに生成され（表ＩＩ参照）、各領域ａ_ｉはキー領域として使用される。
いくつかの実施形態では、３２００個の更新サンプルは訓練に用いられる。各更新関数に基本訓練サンプルを生成するプロセスは前記のとおりである。

ダミーモデルの場合、先験信頼度と後験信頼度が省略され、且つ各訓練サンプルはタイプラベルｔ＊＝０の単項（ｕ_ｋ，）を有する。

近接度モデルの場合、先験ｂ_０はキー領域内に均一に分布し、且つ後験ｂ_１はキー領域を中心とするガウス分布であり、その標準偏差がキー領域のサイズに比例する。各訓練サンプルはタイプラベルｔ＊＝１を有するタプル（ｂ_０，ｂ_１，ｕ_ｋ）である。

方向モデルの場合、先験ｂ_０はキー領域内に均一に分布し、方向角α_ｋは均一な［－π，π）からサンプリングされ、且つ近接度更新と類似したガウス分布を使用して後験ｂ_１を生成するが、その半分はα_ｋで示される方向に垂直な分割線でマスクされる。最後に、α_ｋに基づいて修飾語ｕ_ｋを決定する。各訓練サンプルはタイプラベルｔ＊＝２を有するタプル（ｂ_０，ｂ_１，ｕ_ｋ，α_ｋ）である。

正確なモデルの場合、まず、先験ｂ_０を生成して、キー字領域に基づく近接度更新又は方向更新の出力とする。次に、ｂ_０から地図位置をサンプリングし、ほとんどのサンプリング位置を選択して上位の２つの領域ａ_１、ａ_２に入れる。次に、最小規則セットに基づいてａ_１を一意に位置決めする修飾語ｕｋ（表ＩＩＩ参照、括弧は利用可能な方法を示す）を生成する。また、方向詞が形容詞として使用される場合、κ_ｋは１としてラベル付けられ、それ以外の場合、０としてラベル付けられる。後験ｂ_１はα_ｉ内に均一に分布している。各訓練サンプルは、タイプラベルｔ＊＝３を有するタプル（ｂ_０，ｂ_１，ｕ_ｋ，α_ｋ，κ_ｋ）である。
表ＩＩＩ
修飾語生成規則

等式（６）において設定された更新関数セットは、各種の更新関数タイプに適用可能な全ての教師あり項の合計損失を最小化することにより訓練される。全ての教師あり項の損失について次のように定義される。分類器ｃについて、クロスエントロピー損失Ｌ_ｃは次のように使用される。

方向α_ｋについて、限界ｌ２損失は次のように使用される。

インジケータκ_ｋについて、クロスエントロピー損失κ_ｋは次のように使用される。

いくつかの実施形態では、訓練段階において、１０％のデータはテストセットとして保持され、残りのサンプルについては訓練が実行される。各単語についてＢｅｒｔ埋め込みだけを使用してテキスト命令を符号化し、長さＨ＝７６８の単語埋め込みを生成する。いくつかの実施形態では、ＧＲＵの隠れサイズは８に設定され、１ｅ－４学習速度を有するＡｄａｍは１０個の時期について最適化を実行することに使用される。

いくつかの実施形態では、各信頼度更新には、入力は先験－修飾語タプル（ｂ_０、ｕ）であり、前記のように、各入力タプルは基盤真更新タイプｔ＊及び必要な出力項とペアをなす。

ステップ５０４は、再帰的順序に従って、Ｎ個のセグメントのうちのそれぞれを各セグメントのマッチングモデルに入力するステップであって、Ｎ個のセグメントのうちのそれぞれは、地図の初期領域又はマッチングモデルによって再帰的順序における該セグメントの前のセグメントについて出力される更新領域を有するステップを含む。

図７はテキストセグメントに計算を実行する模式図を示す。

ステップ５０５は、マッチングモデルによって再帰的順序における最後のセグメントについて出力される更新領域を地図中の目的地として使用するステップを含む。

ステップ５０５はステップ１０５と同じであり、関連記述についてはステップ１０５の記述を参照すればよい。

図８は、地図上の目的地の決定方法の適用シナリオを示す。ロボットのスピカーによりナビゲーション命令を説明するようにユーザに要求する。応答として、ユーザは「娯楽領域近くの北の電話室にいく」という。ロボットはマイクロフォンを介してユーザの音声を受信し、音声をテキストに変換し、次に本開示のいくつかの実施形態に係る方法を使用してテキストに基づいて地図上の目的地を決定する。目的地を決定すると、ロボットは現在の位置から目的地までの経路を計画し、カメラ及びセンサを使用して計画した経路に沿って移動する。

図９に示すように、機器は、１つ又は複数のプロセッサ９０１、メモリ９０２及び各部材を接続するインターフェース（高速インターフェースと低速インターフェースを含む）を含む。各種の部材は異なるバスを用いて互いに接続されており、必要に応じてユニバーサルマザーボードに取り付けられたり、他の方法で取り付けられたりすることができる。プロセッサは、機器内で実行する命令、例えばメモリ内又はメモリ上に記憶された命令を処理することで、外部入力／出力機器（例えばインターフェースに接続される表示装置）上にＧＵＩのグラフィカル情報を表示することができる。別の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスは複数のメモリとともに使用され得る。同様に、複数の電子機器が接続されてもよく、且つこれらの機器は一部の必須な操作を提供し、例えば、サーバアレイ、１グループのブレードサーバ又はマルチプロセッサシステムとして機能する。図９において、一例として、１つのプロセッサ９０１が使用されている。

メモリ９０２は、本開示による一時的なコンピュータ読み取り可能な記憶媒体である。メモリは少なくとも１つのプロセッサにより実行可能な命令を記憶し、該命令は、本開示の実施形態に係る地図上の目的地の決定方法を少なくとも１つのプロセッサに実行させる。本開示の一時的なコンピュータ読み取り可能な記憶媒体は、本開示の実施形態に係る地図上の目的地の決定方法をコンピュータに実行させるコンピュータ命令を記憶している。

一時的なコンピュータ読み取り可能な記憶媒体であるメモリ９０２は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば本開示の実施形態に係る地図上の目的地の決定方法に対応するプログラム命令／モジュールを記憶することに用いられ得る。プロセッサ９０１は、メモリ９０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの各種の機能的アプリケーション及びデータ処理を実行し、即ち、本開示の実施形態に係る地図上の目的地の決定方法を実現する。

メモリ９０２は、プログラム記憶エリアとデータ記憶エリアを含むことができ、これらのうち、プログラム記憶エリアは、オペレーティングシステムと少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは本開示の実施形態に係る地図上の目的の決定方法の機器を使用して作成されるデータを記憶することができる。また、メモリ９０２は、高速ランダムアクセスメモリを含んでもよく、且つ非一時的なメモリ、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュ装置又は他の非一時的な固体記憶装置をさらに含んでもよい。いくつかの実施形態では、メモリ９０２は、任意に、プロセッサ９０１に対して遠隔的に配置されたメモリを含み、且つこれらの遠隔メモリは本開示の実施形態に係る地図上の目的の決定方法の機器に接続されてもよい。上記ネットワークの例として、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びこれらの組み合わせが含まれるが、これらに制限されない。

本開示のいくつかの実施形態に係る地図上の目的地の決定方法を実行する機器は、入力機器９０３と出力機器９０４をさらに含んでもよい。プロセッサ９０１、メモリ９０２、入力機器９０３、及び出力機器９０４は、バス又は他の方法を通じて接続されてもよい。図９において、一例として、バスを介する接続が使用される。

入力機器９０３は、入力したデジタル又は文字情報を受信し、ユーザ設定及び知識表現を学習する方法用の機器の機能制御に関連するキー信号入力を生成することができ、入力機器９０３は、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、１つ又は複数のマウスボタン、トラックボール、ジョイスティックや他の入力機器である。出力機器９０４は、表示装置、補助照明機器（例えば、ＬＥＤ）、触覚フィードバック機器（例えば、振動モータ）などを含んでもよい。表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイやプラズマディスプレイを含んでもよいが、これらに制限されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。例えば、本開示に記載のステップは、並行して実施しても、順次実施しても、異なる順次で実施してもよい。本開示で開示された技術案の所望の結果が達成できる限り、本明細書ではそれについて限定しない。

上記特定実施形態は、本開示の特許範囲に対する制限を構成するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができる。本開示の精神及び原則の範囲内で行われた修正、同等の置換、及び改良であれば、本開示の特許範囲に含まれるものとする。

Claims

地図上の目的地の決定方法であって、
テキストのＮ個のセグメントを取得するステップであって、Ｎは１よりも大きい整数であるステップと、
前記テキストのＮ個のセグメントの間の文法的な関係に基づいて、前記Ｎ個のセグメントの再帰的順序を決定するステップと、
前記Ｎ個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択するステップであって、前記各セグメントのマッチングモデルは全て入力テキストと前記地図の入力領域を入力として、前記入力テキストの意味と前記入力領域に基づいて前記地図の更新領域を出力するように構成されるステップと、
前記再帰的順序に従って、前記各セグメントを、前記地図の初期領域又は前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される更新領域とともに前記各セグメントのマッチングモデルに入力するステップと、
前記マッチングモデルによって前記再帰的順序における最後のセグメントについて出力される前記更新領域を前記地図中の目的地として使用するステップとを含む方法。
前記文法的な関係に基づいて前記Ｎ個のセグメントの再帰的順序を決定するステップは、
前記Ｎ個のセグメントの中から前置詞セグメントの前の名詞主語セグメント、前記前置詞セグメント及び前記前置詞セグメントの目的語セグメントを決定するステップと、
前記名詞主語セグメントを前記再帰的順序における第１のセグメントとして決定し、前記前置詞セグメントを前記再帰的順序における前記第２のセグメントとして決定し、前記目的語セグメントを前記再帰的順序における前記第３のセグメントとして決定するステップとを含む、請求項１に記載の方法。
前記Ｎ個のセグメントは位置を示すセグメントと位置関係を示すセグメントを含み、
前記複数のモデルは第１のタイプモデルと第２のタイプモデルを含み、
前記第１のタイプモデルは、第１の地図領域と前記位置を示す第１のタイプテキストを入力として、前記第１の地図領域内の第１の更新領域を出力するように構成され、
前記第２のタイプモデルは、第２の地図領域と前記位置関係を示す第２のタイプテキストを入力として、前記第２の地図領域と前記位置関係に基づいて第２の更新領域を出力するように構成され、
前記再帰的順序に従って、前記各セグメントを、前記地図の初期領域又は前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される更新領域とともに前記各セグメントのマッチングモデルに入力するステップは、
前記再帰的順序における第１のセグメントと前記地図の初期領域を前記第１のセグメントのマッチングモデルに入力することにより、前記第１の更新領域を取得するステップと、
前記再帰的順序における第２のセグメント～第Ｎのセグメントのうちの前記各セグメントについて、前記各セグメントと前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される前記更新領域とを前記各セグメントのマッチングモデルに入力することにより、前記各セグメントの更新領域を取得するステップとを含む、請求項１に記載の方法。
前記位置関係は近接関係を含み、且つ前記第２のタイプモデルは近接度モデルを含み、前記近接度モデルは、前記第２の地図領域と前記近接関係を示す前記第２のタイプテキストとを入力として、前記第２の地図領域に近接する前記第２の更新領域を出力するように構成される、請求項３に記載の方法。
前記位置関係は方向関係を含み、且つ前記第２のタイプモデルは方向モデルを含み、前記方向モデルは、前記第２の地図領域と前記方向関係を示す前記第２のタイプテキストとを入力として、前記第２の地図領域の方向での前記第２の更新領域を出力するように構成される、請求項４に記載の方法。
前記複数のモデルは第３のタイプモデルを含み、前記第３のタイプモデルは第３の地図領域と第３のタイプテキストを入力として、前記第３の地図領域を出力するように構成され、前記第３のタイプテキストはいずれの位置又はいずれの位置関係も示さない、請求項５に記載の方法。
前記テキストのＮ個のセグメントを取得するステップは、前記位置を示す前記セグメント、方向を示すセグメント、近接度を示すセグメント、及びいずれの位置又はいずれの位置関係も示さないセグメントを取得することを含み、
前記Ｎ個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて前記第１のタイプモデルと前記第２のタイプモデルを含む複数のモデルの中からマッチングモデルを選択するステップは、
前記位置を示す前記セグメントのマッチングモデルとして前記第１のタイプモデルを選択し、前記方向を示す前記セグメントのマッチングモデルとして前記方向モデルを選択し、前記位置を示す前記セグメントのマッチングモデルとして前記第１のタイプモデルを選択し、いずれの位置又はいずれの位置関係も示さない前記セグメントのマッチングモデルとして前記第３のタイプモデルを選択するステップを含む、請求項６に記載の方法。
前記位置関係は方向関係を含み、且つ前記第２のタイプモデルは前記方向モデルを含み、前記方向モデルは前記第２の地図領域と前記方向関係を示す前記第２のタイプテキストとを入力として、前記第２の地図領域の方向での前記第２の更新領域を出力するように構成される、請求項３に記載の方法。
前記Ｎ個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて前記第１のタイプモデルと前記第２のタイプモデルを含む複数のモデルの中から前記マッチングモデルを選択するステップは、
前記各セグメントの前記意味に基づいて、分類器によって前記Ｎ個のセグメントのうちのそれぞれのセグメントのタイプを決定するステップと、
前記各セグメントのタイプと前記モデルのタイプに基づいて、前記各セグメントのマッチングモデルを決定するステップとを含む、請求項３に記載の方法。
前記地図中の目的地に基づいてロボットを移動制御するステップをさらに含む、請求項１に記載の方法。
ユーザ入力に基づいて前記テキストを取得し、前記ユーザ入力は音声、キーボードによる入力、センサによる入力又はタッチスクリーンによる入力のうちの少なくとも１つを含む、請求項１に記載の方法。
地図上の目的地の決定機器であって、
１つの又は複数のプロセッサと、
前記１つの又は複数のプロセッサによって実行可能な命令を記憶することで前記機器に以下の操作を実行させるメモリとを含み、前記操作は、
テキストのＮ個のセグメントを取得することであって、Ｎは１よりも大きい整数であることと、
前記テキストの前記Ｎ個のセグメントの間の文法的な関係に基づいて、前記Ｎ個のセグメントの再帰的順序を決定することと、
前記Ｎ個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択することであって、前記各セグメントのマッチングモデルは全て入力テキストと前記地図の入力領域を入力として、前記入力テキストの意味と前記入力領域に基づいて前記地図の更新領域を出力するように構成されることと、
前記再帰的順序に従って、前記各セグメントを、前記地図の初期領域又は前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される更新領域とともに前記各セグメントのマッチングモデルに入力することと、
前記マッチングモデルによって前記再帰的順序における最後のセグメントについて出力される前記更新領域を前記地図中の目的地として使用することとを含む、機器。
前記文法的な関係に基づいて前記Ｎ個のセグメントの再帰的順序を決定するステップは、
前記Ｎ個のセグメントの中から前置詞セグメントの前の名詞主語セグメント、前記前置詞セグメント及び前記前置詞セグメントの目的語セグメントを決定するステップと、
前記名詞主語セグメントを前記再帰的順序における第１のセグメントとして決定し、前記前置詞セグメントを前記再帰的順序における前記第２のセグメントとして決定し、前記目的語セグメントを前記再帰的順序における前記第３のセグメントとして決定するステップとを含む、請求項１２に記載の機器。
前記Ｎ個のセグメントは位置を示すセグメントと位置関係を示すセグメントを含み、
前記複数のモデルは第１のタイプモデルと第２のタイプモデルを含み、前記第１のタイプモデルは、第１の地図領域と前記位置を示す第１のタイプテキストを入力として、前記第１の地図領域内の第１の更新領域を出力するように構成され、前記第２のタイプモデルは、第２の地図領域と前記位置関係を示す第２のタイプテキストを入力として、前記第２の地図領域と前記位置関係に基づいて第２の更新領域を出力するように構成され、
前記再帰的順序に従って、前記各セグメントを、前記地図の初期領域又は前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される更新領域とともに前記各セグメントのマッチングモデルに入力するステップは、
前記再帰的順序における第１のセグメントと前記地図の初期領域を前記第１のセグメントのマッチングモデルに入力することにより、第１の更新領域を取得するステップと、
前記再帰的順序における第２のセグメント～第Ｎのセグメントのうちの前記各セグメントについて、前記各セグメントと前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される前記更新領域とを前記各セグメントのマッチングモデルに入力することにより、前記各セグメントの更新領域を取得するステップとを含む、請求項１２に記載の機器。
前記位置関係は近接関係を含み、且つ前記第２のタイプモデルは近接度モデルを含み、前記近接度モデルは、前記第２の地図領域と前記近接関係を示す前記第２のタイプテキストとを入力として、前記第２の地図領域に近接する前記第２の更新領域を出力するように構成される、請求項１４に記載の機器。
前記位置関係は方向関係を含み、且つ前記第２のタイプモデルは方向モデルを含み、前記方向モデルは、前記第２の地図領域と前記方向関係を示す前記第２のタイプテキストとを入力として、前記第２の地図領域の方向での前記第２の更新領域を出力するように構成される、請求項１４に記載の機器。
前記複数のモデルは第３のタイプモデルを含み、前記第３のタイプモデルは、第３の地図領域と第３のタイプテキストを入力として、前記第３の地図領域を出力するように構成され、前記第３のタイプテキストはいずれの位置又はいずれの位置関係も示さない、請求項１６に記載の機器。
前記テキストのＮ個のセグメントを取得するステップは、前記位置を示す前記セグメント、方向を示すセグメント、近接度を示すセグメント、及びいずれの位置又はいずれの位置関係も示さないセグメントを取得することを含み、
前記Ｎ個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて前記第１のタイプモデルと前記第２のタイプモデルを含む複数のモデルの中からマッチングモデルを選択するステップは、
前記位置を示す前記セグメントのマッチングモデルとして前記第１のタイプモデルを選択し、前記方向を示す前記セグメントのマッチングモデルとして前記方向モデルを選択し、前記位置を示す前記セグメントのマッチングモデルとして前記第１のタイプモデルを選択し、いずれの位置又はいずれの位置関係も示さない前記セグメントのマッチングモデルとして前記第３のタイプモデルを選択するステップを含む、請求項１７に記載の機器。
前記操作は、前記地図中の目的地に基づいてロボットを移動制御することをさらに含む、請求項１２に記載の機器。
命令を記憶する一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令はプロセッサによって実行されることで前記プロセッサに操作を実行させ、前記操作は、
テキストのＮ個のセグメントを取得することであって、Ｎは１よりも大きい整数であることと、
前記テキストの前記Ｎ個のセグメントの間の文法的な関係に基づいて、前記Ｎ個のセグメントの再帰的順序を決定することと、
前記Ｎ個のセグメントのうちのそれぞれのセグメントについて、前記各セグメントの意味に基づいて複数のモデルの中からマッチングモデルを選択することであって、前記各セグメントのマッチングモデルは全て入力テキストと前記地図の入力領域を入力として、前記入力テキストの意味と前記入力領域に基づいて前記地図の更新領域を出力するように構成されることと、
前記再帰的順序に従って、前記各セグメントを、前記地図の初期領域又は前記マッチングモデルによって前記再帰的順序における前記各セグメントの前のセグメントについて出力される更新領域とともに前記各セグメントのマッチングモデルに入力することと、
前記マッチングモデルによって前記再帰的順序における最後のセグメントについて出力される前記更新領域を前記地図中の目的地として使用することとを含む、一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、プロセッサにより実行されると、請求項１～１１の何れか一項に記載の方法を実行するコンピュータプログラム。