JP2023508778A

JP2023508778A - シーン認識対話を行うためのシステム

Info

Publication number: JP2023508778A
Application number: JP2022565025A
Authority: JP
Inventors: 智織堀; チェリアン，アノープ; チェン，スーホン; マークス，ティム; ル・ルー，ジョナタン; 貴明堀; ハルシャム，ブレット; ベトロ，アンソニー; スリバン，アラン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-02-06
Filing date: 2020-12-17
Publication date: 2023-03-03
Anticipated expiration: 2040-12-17
Also published as: CN115038936A; WO2021157243A1; JP7345683B2; EP3994426A1; EP3994426B1; US11635299B2; US20210247201A1

Abstract

車両の運転に関連するシーン内の物体のリアルタイム記述に基づいて、車両を運転している運転者に運転指示を提供するように構成されたナビゲーションシステムが提供される。このナビゲーションシステムは、車両を運転するための経路と、現在の時点において経路上の車両の状態と、現在の時点において車両の経路に関連する一組の顕著物体の動的マップとを受け入れるように構成された入力インターフェイスを含む。少なくとも１つの顕著物体は、現在の時点における現在位置と将来の時点における将来位置との間の経路上に移動している車両の測定システムによって検知された物体であり、一組の顕著物体は、１つ以上の静的物体と、１つ以上の動的物体とを含む。このナビゲーションシステムは、車両の状態によって特定される運転者視点から得られた動的マップ内の顕著物体の記述に基づいて、運転指示を生成するように構成されたプロセッサと、車両の運転者に運転指示を出力するように構成された出力インターフェイスとを含む。

Description

本発明は、一般的には、シーン認識対話システムを提供するための方法およびシステムに関し、より詳しくは、車両の周辺の静的物体および動的物体に関するリアルタイムのユニモーダル情報またはマルチモーダル情報に基づいて、車両の運転者に経路案内を提供するためのシーン認識対話ナビゲーションシステムに関する。

車両を運転する運転者へのナビゲーション支援は、通常、運転者に経路案内発話を提供することができるシステム、例えばＧＰＳ受信機によって提供される。経路案内は、最も一般的には、曲がる地点までの距離、曲がる方向、および曲がる場所を明確にするためのいくつかの可能な追加情報、例えば「１００フィート先にさらに右折して、ジョンソン通りにお入りください」を示す曲がり指示である。しかしながら、運転者に経路案内を提供するこの手法は、特定の状況において、例えば、運転者が曲がるべき道路の名称「ジョンソン通り」を知らないまたは容易に認識できない場合、または複数の街路および経路が近接している場合、運転者を混乱させる可能性がある。したがって、運転者は、曲がるべき道路を正しく識別できず、曲がれなくなり、混乱に陥り、危険な状況につながる可能性がある。

代替的な経路案内システムは、マップ上の特定地点に関連する記憶情報を用いて、「１００フィート先の郵便局で曲がってください」などの曲がる地点を示すことができる。しかしながら、特定の状況において、例えば、郵便局が樹木または車両によって隠されているまたは識別し難い場合に、または記憶情報が古くなり、その曲がる地点に郵便局が既に存在していない場合に、この手法は、運転者を混乱させる可能性がある。

代替的に、実験的な経路案内システムは、運転者がカメラを用いて撮影したリアルタイム画像を受け入れ、リアルタイム画像上に運転すべき特定の経路を示すグラフィカル要素、例えば矢印などをオーバーレイすることができる。しかしながら、この手法は、音声で記述文を提供しないため、運転者が道路から目を離して経路案内を見る必要がある。

シーン認識対話システムは、車載インフォテイメント、家電製品、構築システム内のサービスロボットとの対話、および測量システムなどのいくつかの用途に適用することができる。ＧＰＳは、単にナビゲーションシステムの１つの定位（localization）方法であり、他の用途に他の定位方法を適用することができる。以下、シーン認識対話の１つの適用例として、ナビゲーションシステムを説明する。

本開示の少なくとも１つの実現例は、曲がる地点を知る仮想乗客が運転者に案内を提供することで、既存の手法とは異なる。経路を知っている乗客は、経路を知らない運転者に案内を提供する場合、通常、運転者が意図した経路に従って安全に運転することを支援するために、静的物体および動的物体の両方を考慮して、最も直感的な、自然な、適切な、容易に理解可能な、明瞭的な運転指示を策定する。

本開示の少なくとも１つの他の実現例は、他の車両などの車両の周辺の動的物体のリアルタイム情報を利用して基準点を識別することによって経路案内を提供することで、既存の手法とは異なる。本開示の少なくとも１つの他の実現例は、リアルタイム情報を利用して、運転者が容易に識別できるように、車両の周辺の静的物体を適切に記述することを変更するまたは影響する可能性がある現在の状況、例えば車両または樹木などの他の物体が視界を遮ること、例えば建設または改修によって静的物体の外観が静的物体データベースに記憶された静的物体の外観とは異なること、または静的物体が既に存在せず、経路案内を提供するための基準点ではないことを考慮することで、既存の手法とは異なる。

いくつかの実施形態の目的は、車両の周辺の静的物体および動的物体に関するリアルタイムのユニモーダル情報またはマルチモーダル情報に基づいて、車両の運転者に経路案内を提供することである。例えば、いくつかの実施形態の目的は、「１００フィート先にさらに右折して、ジョンソン通りにお入りください」などのＧＰＳベースの運転指示に加えてまたはその代わりに、「茶色煉瓦の建物の前で右折してください」または「白い車に追従してください」などのコンテキストベースの運転指示を提供することである。このようなコンテキストベースの運転指示は、車両の周辺のシーンのリアルタイム認識に基づいて生成されてもよい。したがって、コンテキストベースのナビゲーションは、本明細書においてシーン認識ナビゲーションと呼ばれる。

いくつかの実施形態は、異なる時点において、異なる数または種類の物体が車両を運転するための経路に関連し得るという理解に基づく。これらの関連オブジェクトの全ては、シーン認識ナビゲーションにとって潜在的に有用である。しかしながら、コンピュータが運転判断を行う自律運転とは対照的に、あまりにも多くの異なる物体または人間の運転者が容易に識別できない物体に対して運転指示を生成する場合、人間の運転者は、混乱してしまうおよび／または迷ってしまう可能性がある。異なる物体がコンテキスト運転指示に関連する度合いが異なるため、いくつかの実施形態の目的は、運転者の経路に関連する一組の顕著物体から１つの顕著物体を選択し、選択された顕著物体の記述に基づいて運転指示を生成することである。

本発明の経路案内システムは、例えば、静的マップ、計画経路、ＧＰＳまたは他の方法によって決定された車両の現在位置、および１つ以上のカメラ、１つ以上のマイクロフォン、および１つ以上の距離検出装置、例えばレーダおよびＬＩＤＡＲを含むがこれらに限定しない多くのセンサからのリアルタイムセンサ情報を含む複数のソースからの情報を受信することができる。リアルタイムセンサ情報は、プロセッサによって処理される。このプロセッサは、リアルタイムセンサ情報から、車両の周辺に存在する一組の顕著な静的物体および動的物体と、乗用車、トラック、建物などの各物体の種類、物体の色、サイズおよび位置を含み得る一組の物体属性とを検出することができる。また、動的物体の場合、プロセッサは、動的物体の軌道を決定することができる。マイクロフォンによって取得された音声情報の場合、プロセッサは、音声の種類を識別することによって物体の種類を検出することができ、物体の属性は、物体の方向および車両からの距離、物体の運動軌道、および音声の強度を含むことができる。一組の顕著物体と対応する一組の属性とは、以下、動的マップと呼ばれる。

経路案内システムは、いくつかの方法、例えば、ルールベースの方法または機械学習ベースの方法を用いて動的マップを処理することによって、経路に基づいて一組の顕著物体から１つの顕著物体を特定し、特定した顕著物体を使用して経路案内を提供する。

経路案内情報の伝達は、境界矩形または他のグラフィカル要素を用いて、ディスプレイ上で、例えば計器板または中央コンソール内のＬＣＤディスプレイ上で顕著物体を強調表示することを含んでもよい。代替的に、伝達方法は、例えば、ルールベースの方法または機械学習ベースの方法を用いて、顕著物体の一組の記述属性を含む文を生成することを含んでもよい。生成された文は、ディスプレイ上で運転者に表示されてもよい。代替的に、生成された文は、音声合成によって、運転者が聞くことができる発話に変換されてもよい。

本発明のさらなる目的は、車両と経路上の曲がる地点との距離を考慮することによって、顕著物体を決定することができることである。特に、様々な距離範囲で複数の異なる顕著物体を選択することができる。各距離範囲で選択された顕著物体は、計画経路に関する最大の情報を運転者に提供する。例えば、曲がる地点からの距離が長い場合、曲がる地点がまだはっきり見えないため、曲がる地点の近くの建物などの大きな静的物体は、顕著物体として決定されてもよい。一方、曲がる地点からの距離が短い場合、計画経路に沿って運転している他の車両などの動的物体は、はっきり見えるようになり、経路案内に充分に使用できるため、顕著物体として決定されてもよい。

本発明のさらなる目的は、本発明の経路案内システムが、計画経路に基づいて、何らかの形で車両の周辺の他の物体の記述的な警告を提供することができることである。例えば、次に計画経路から曲がる場合、経路案内システムは、計画経路上に存在する障害物を検出すると、物体の存在を運転者に警告するように、記述的な警告メッセージを運転者に伝達することができる。より具体的には、計画経路に沿って運転する車両の近くの地点で人が道路を横断しているまたは横断しようとする場合、経路案内システムは、記述的な警告メッセージを提供することができる。例えば、経路案内システムは、「警告：左側の横断歩道に人がいます」という警告文を生成し、放送することができる。

本発明のさらなる目的は、運転者と本発明の経路案内システムとの間の双方向対話を提供することである。これによって、運転者は、顕著物体に関する明確な位置、属性または他の情報を求めることができ、異なる顕著物体を要求することができる。双方向対話は、発話を含む１つ以上の対話機構を含んでもよい。この対話機構の自動音声認識装置によって、経路案内システムは、運転者の発話の内容を取得することができ、運転者の発話を処理して、システムへの運転者の応答を理解し、適応することができる。また、対話は、運転者の画像を撮影する１つ以上のカメラによって捕捉され、コンピュータ視覚サブシステムに入力される情報を含んでもよい。このコンピュータ視覚サブシステムには、運転者の指差しまたは運転者の視線方向などの運転者のジェスチャを含むがこれらに限定されない運転者に関する情報を抽出することができる。対話は、運転者からの手動入力、例えば操舵ハンドル、計器板または中央コンソール上で配置された運転者が利用可能な１つ以上の制御ボタンの押下を含むことができる。

いくつかの実施形態によれば、ナビゲーションシステムは、車両の運転に関連するシーン内の物体のリアルタイム記述に基づいて、車両の運転者に運転指示を提供するように構成される。ナビゲーションシステムは、車両を運転するための経路と、現在の時点において経路上の車両の状態と、現在の時点において車両の経路に関連する一組の顕著物体の動的マップとを受け入れるように構成された入力インターフェイスを含み、少なくとも１つの顕著物体は、現在の時点における現在位置と将来の時点における将来位置との間の経路上に移動している車両の測定システムによって検知された物体であり、一組の顕著物体は、１つ以上の静的物体と、１つ以上の動的物体とを含む。ナビゲーションシステムは、車両の状態によって特定された運転者視点から得られた動的マップ内の顕著物体の記述に基づいて、運転指示を生成するように構成されたプロセッサと、車両の運転者に運転指示を出力するように構成された出力インターフェイスとを含む。

本開示のいくつかの実施形態は、ユーザ（運転者）とのシーン認識対話が、マルチモーダル検知情報を分析し、コンテキストベースの自然言語生成を介して人間とのより自然で直感的な対話を提供する注目マルチモーダル融合に基づいて行われ得るという認識に基づく。

場合によって、マルチモーダル検知情報は、カメラによって捕捉された画像／映像、マイクロフォンによって取得された音声情報、およびＬｉＤＡＲまたはレーダなどの距離センサによって決定された定位情報であってもよい。

シーン理解技術およびコンテキストベースの自然言語生成を用いた注目マルチモーダル融合は、シーン内の物体およびイベントに基づいて、ユーザとより直感的に対話する強力なシーン認識対話システムを実現する。シーン認識対話技術は、車載インフォテイメントおよび家電製品のヒューマンマシンインターフェイス（ＨＭＩ）、構築システム内のサービスロボットとの対話、および測量システムを含むいくつかの用途に広く適用することができる。

以下、添付の図面を参照して本開示の実施形態をさらに説明する。図面は、必ずしも一定の縮尺で描かれていない。その代わりに、本開示の実施形態の原理を示すために、図面を強調する場合がある。

本開示のいくつかの実施形態に従って、ナビゲーションシステムを示すブロック図である。本開示のいくつかの実施形態に従って、ナビゲーションシステムを示すブロック図である。本開示のいくつかの実施形態に従って、ナビゲーションシステムを示すブロック図である。本開示のいくつかの実施形態に従って、ナビゲーションシステムを示すブロック図である。本開示のいくつかの実施形態に従って、車両周辺の外部シーンから運転指示の出力までの情報の流れを示す経路案内システムの概略図である。本開示のいくつかの実施形態に従って、複数のソースおよびセンサから入力を受信し、ディスプレイまたはスピーカに情報を出力するコンピュータを示すブロック図である。本開示の実施形態に従って、マルチモーダル注目方法を示すブロック図である。本開示の実施形態に従って、文を生成するためのマルチモーダル融合方法（マルチモーダル特徴融合手法）の一例を示すブロック図である。本開示の実施形態に従って、車両の状態および動的マップに基づいて運転指示を生成するように構成されたナビゲーションシステムのパラメトリック関数の訓練を示すフロー図である。本開示の実施形態に従って、ナビゲーションシステムのパラメトリック関数の訓練を示すフロー図である（第１のパラメトリック関数は、車両の状態に基づいて動的マップ内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップを取得するように構成され、第２のパラメトリック関数は、変換後動的マップに基づいて運転指示を生成するように構成される）。本開示の実施形態に従って、ナビゲーションシステムのパラメトリック関数の訓練を示すフロー図である（第１のパラメトリック関数は、シーンからの測定値に基づいて車両の状態および動的マップを決定するように構成され、第２のパラメトリック関数は、車両の状態および動的マップに基づいて運転指示を生成するように構成される）。本開示の実施形態に従って、シーンからの測定値に基づいて運転指示を生成するように構成されたナビゲーションシステムのパラメトリック関数のエンドツーエンド訓練を示すフロー図である。本開示の実施形態に従って、ナビゲーションシステムのパラメトリック関数の訓練を示すフロー図である（第１のパラメトリック関数は、シーンからの測定値に基づいて車両の状態および動的マップを決定するように構成され、第２のパラメトリック関数は、車両の状態に基づいて動的マップ内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップを取得するように構成され、第３のパラメトリック関数は、変換後動的マップから一部の顕著物体を選択するように構成され、第４のパラメトリック関数は、選択された顕著物体に基づいて運転指示を生成するように構成される）。本開示の実施形態に従って、ナビゲーションシステムのパラメトリック関数のマルチタスク訓練を示すフロー図である（第１のパラメトリック関数は、シーンからの測定値に基づいて車両の状態および動的マップを決定するように構成され、第２のパラメトリック関数は、車両の状態に基づいて動的マップ内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップを取得するように構成され、第３のパラメトリック関数は、変換後動的マップから一部の顕著物体を選択するように構成され、第４のパラメトリック関数は、選択された顕著物体に基づいて運転指示を生成するように構成される）。本開示のいくつかの実施形態に従って、動的マップ内の例示的な顕著物体と、これらの物体の属性と、これらの属性値とを示す図である。本開示のいくつかの実施形態に従って、一組の顕著物体およびそれらの相対的な空間関係を示す図である。本開示のいくつかの実施形態に従って、異なる時点で経路案内文を生成するための一組の顕著物体および各々の関連性スコアを示す図である。本開示のいくつかの実施形態に従って、異なる時点で経路案内文を生成するための一組の顕著物体および各々の関連性スコアを示す図である。本開示のいくつかの実施形態に従って、経路案内システムと運転者との間の例示的な会話を示す図である。本開示のいくつかの実施形態に従って、文生成器内のルールベースの物体ランキング装置を使用する経路案内システムの特定の実施形態を示すフローチャートである。

上記の特定の図面は、本開示の実施形態を図示しているが、上記で議論したように、他の実施形態も考えられる。本開示は、限定ではなく例示として、例示的な実施形態を提供する。当業者は、本開示の実施形態の原理の範囲および精神に含まれる多くの他の変形例および実施例を考案することができる。

以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用または構成を制限することを意図していない。むしろ、以下の例示的な実施形態の説明は、１つ以上の例示的な実施形態の実施を可能にするための説明を当業者に与える。添付の特許請求の範囲に記載された主題の精神および範囲から逸脱することなく、要素の機能および配置に対する様々な変更が考えられる。

実施形態に対する完全な理解を提供するために、以下の説明において具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても、実施形態を実施できることを理解することができる。例えば、不必要な詳細で実施形態を不明瞭にしないように、開示された主題におけるシステム、プロセス、および他の要素は、ブロック図の構成要素として示されてもよい。また、実施形態を不明瞭にしないように、周知のプロセス、構造、および技術は、不必要な詳細なしで示されてもよい。さらに、様々な図面において、同様の参照番号および名称は、同様の要素を示す。

また、各々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明されることがある。フローチャートが動作を順次のプロセスとして説明しても、多くの動作は、並列にまたは同時に実行されてもよい。また、動作の順序は、変更されてもよい。プロセスの動作が完了したときに、プロセスを終了することができるが、このプロセスは、討論されていないまたは図示されていない追加のステップを含むことができる。さらに、具体的に記載されたプロセス内の全ての動作は、全ての実施形態に含まれる必要がない。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどであってもよい。プロセスが関数である場合、関数の終了は、当該関数を呼び出し関数または主関数に復帰させることに対応する。

さらに、開示された主題の実施形態は、手動でまたは自動で、少なくとも部分的に実装されてもよい。手動または自動の実装は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせで実装されてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械可読媒体に記憶されてもよい。プロセッサは、必要なタスクを実行することができる。

図１Ａ～１Ｄは、本開示のいくつかの実施形態に従って、ナビゲーションシステムを示すブロック図である。場合によって、ナビゲーションシステムは、経路案内システムとも呼ばれてもよく、経路案内システムは、ナビゲーションシステムとも呼ばれてもよい。

図１Ａは、いくつかの実施形態の特徴を示すナビゲーションシステムのブロック図である。動的マップ内の一組の顕著物体は、車両の測定システム１６０によって検知された検知情報に基づいて、識別および記述されてもよい。この検知情報は、１つ以上のモダリティからの情報、例えば、マイクロフォン１６１からの音声情報、カメラ１６２からの視覚情報、ＬｉＤＡＲ１６３などの距離センサ（すなわち、深度センサ）からの深度情報、および全地球測位システム（ＧＰＳ）１６４からの定位情報を含む。システムは、一組の顕著物体のうち、１つ以上の顕著物体の記述に基づいて、運転指示１０５を出力する。いくつかの実施形態において、プロセッサは、測定システム１６０からの測定値を、測定値から運転指示を生成するように訓練されたパラメトリック関数１７０に提出することによって、運転指示１０５を生成する。他の実施形態において、測定システムによって取得されたマルチモーダル検知情報は、車両の状態（本明細書において車両状態とも称される）および動的マップの決定に使用される。プロセッサは、車両の状態および動的マップを、車両の状態によって特定される運転者視点から得られた動的マップ内の顕著物体の記述に基づいて運転指示１０５を生成するように構成されたパラメトリック関数１７０に提出するように構成される。

図１Ｂ、１Ｃおよび１Ｄは、本発明のいくつかの実施形態に従って、ナビゲーションシステムを示す図である。ナビゲーションシステムは、車両を運転するための経路を取得しており、現在の時点で運転経路１１０上の車両の状態に関する情報を有する。なお、経路は、一連のセグメントおよび曲がりからなり、各セグメントは、所定の長さおよび位置を有し、各曲がりは、特定の方向で１つのセグメントまたは曲がりを別のセグメントまたは曲がりに接続する。いくつかの実施形態において、セグメントおよび曲がりは、車両が１つの場所から別の場所に移動するための経路を提供するように接続される道路の部分である。経路は、道路上にオーバーレイされたた矢印によって示され、車両がこれから走行する運転経路１１０の一部として表される。いくつかの実施形態において、車両の状態は、経路上の車両の運転に関連する一組の顕著物体を含む動的マップに対する車両の位置および向きを含む。顕著物体は、建物１３０、標識１４０、または郵便ポスト１０２などの１つ以上の静的物体（すなわち、常に静止している物体）と、他の車両１２０、１２５または歩行者１０６などの１つ以上の動的物体（すなわち、移動する能力を有する物体）とを含む。いくつかの実施形態において、現在移動していないが移動する能力を有する動的物体、例えば、駐車している車または現在では止まっている歩行者は、（移動速度がゼロに等しいにもかかわらず）動的物体として考えられる。ナビゲーションシステムは、運転指示１０５を生成するように構成されたプロセッサを含み、運転指示１０５は、音声合成システム１５０などの出力インターフェイスを介して、車両の運転者に出力される。

いくつかの実施形態において、運転指示は、車両の状態によって特定された運転者視点から得られた動的マップ内の顕著物体（１０２、１２５、１２６）を含む。例えば、図１Ｂにおいて、運転指示１０５は、運転者視点に基づいて動的マップ内の一組の顕著物体から選択された顕著物体１０２の記述「赤い郵便ポスト」に基づく。いくつかの実施形態において、運転者視点は、動的マップに対する車両の現在位置と、車両の現在位置および向きに関連する経路１１０の一部とを含む。例えば、「赤い郵便ポスト」を選択した１つの理由は、赤い郵便ポストが経路１１０の次の曲がりの方向に位置しているためである。（図１Ｂに示されていない）次の曲がり１１０が左折である代替的な状況において、運転指示は、別の物体１３０に基づく。この場合、左折しようとしている運転者の観点から、別の物体１３０が赤い郵便ポスト１０２よりも高い関連性を有するため、その記述「青い建物」は、運転指示「青い建物の前で左折してください」に使用される。

図１Ｃにおいて、運転指示１０５は、動的マップ内の顕著物体１２５の記述「右折している銀色車」に基づく。図１Ｄにおいて、運転指示１０５は、動的マップ内の一組の顕著物体、すなわち、歩行者１０６および横断歩道の記述「横断歩道には歩行者がいます」に基づいた警告である。これらの物体は、車両の運転者に可視であり、車両の経路１１０の次の部分に位置するため、運転者視点から重要である。

図２は、車両周辺の外部シーン２０１から運転指示２１３の出力までの情報の流れを示す、提案された経路案内システムの概略図である。車両は、リアルタイムセンサ情報２０３を経路案内システムに提供する複数のリアルタイムセンサモダリティを備える。物体検出および分類モジュール２０４は、パラメータ化された関数を用いてリアルタイムセンサ情報２０３を処理することによって、車両に対する物体の位置と物体の種類との両方を含む車両の周辺の物体に関する情報を抽出する。物体の種類は、少なくとも建物、車、トラック、および歩行者を含む。物体属性抽出モジュール２０５は、追加の操作を実行することによって、検出された各物体の一組の物体属性を抽出する。一組の物体属性は、少なくとも色、車両からの距離、およびサイズを含み、一部の特定種類の物体の属性は、運動速度および運動方向などの軌道情報を含むことができる。当業者なら理解するように、異なる種類の物体は、異なる属性を有してもよい。例えば、トラックは、トラックの属性を有してもよく、トラックの属性は、例えば、文生成器２１２が経路案内を行うための高度な記述的な運転指示文２１３を生成する必要に応じて、箱型、セミ型、ダンプ型などのいずれかの値を有してもよい。動的マップ２０６は、物体検出および分類モジュール２０４からの情報、物体属性抽出モジュール２０５からの情報、計画運転経路２０２、および車両状態２０９から決定された視体積２１１を受信する。動的マップ２０６は、運転経路情報２０２を用いて、計画経路から検出された顕著物体のうちの一部を識別する。顕著物体とは、運転経路に関連する物体、例えば経路の曲がる地点と同じコーナーに存在する、または曲がる地点の直後の計画経路上に存在する物体を指す。動的マップは、運転者に経路案内を提供するために使用される候補物体である、種類および属性を含む一組の静的顕著物体および動的顕著物体からなる。

車両状態２０９は、車両の位置、速度および向きの１つまたは組み合わせを含む。いくつかの実施形態において、運転者の座席の高さと、運転者が激しく頭部を動かさなくても合理的に見える角度範囲、例えば、自動車の正面方向の±６０°とが一定である場合、運転者視点２１０は、運転者の視界位置である。運転者視点２１０を用いて、運転者が見ることができる空間の一部である視界体積２１１を決定することができる。１つ以上のリアルタイムセンサを車両に搭載することによって、運転者が見えない物体を見ることができるため、この視界体積は、有用である。例えば、車両の屋根に搭載されたＬＩＤＡＲは、より近い第２の物体の後方の第１の物体を検出することができるが、運転者視点２１０から見る場合、第１の物体は、第２の物体によって遮蔽されている。第１の物体は、見えないため、その時の顕著物体に適さない。したがって、動的マップ２０６は、視界体積２１１を用いて、一組の顕著物体を決定することができる。代替的に、運転者視点２１０から見えない顕著物体は、運転指示文２１３を生成するために重要である可能性がある。例えば、救急車は、車両の後方から接近している場合に、運転者の視界から直接に見えない可能性がある。文生成モジュール２１２は、接近している救急車に関する警告を運転者に与える運転指示文２１３を生成することができる。なお、動的マップは、リアルタイムセンサ情報２０３に基づいて連続的に更新されてもよく、視界体積２１１の状態は、常に変化してもよい。

文生成モジュール２１２は、運転経路２０２、視界体積２１１および動的マップ２０６に基づいて、運転指示文２１３を生成する動作を行う。文生成モジュール２１２は、パラメトリック関数を用いて、動的マップ２０６内の一組の静的顕著物体２０７および動的顕著物体２０８から、運転指示文２１３を生成するために最も顕著である一部の物体を選択する。概括的に言えば、最も顕著な物体は、運転者が迅速に認識できるように、より大きく、色または場所でより独特なものである。

文生成モジュール２１２は、複数の異なるパラメトリック関数によって実装されてもよい。文生成モジュール２１２を実装するための１つの可能なパラメトリック関数は、単に運転指令としても知られているテンプレートベースの運転指令を使用する。テンプレートベースの運転指示の例は、「＜方向＞に曲がっている前方の＜属性＞＜顕著物体＞に追従してください」である。この例において、＜属性＞、＜顕著物体＞および＜方向＞は、文生成モジュール２１２が運転指示文２１３を生成する時に埋めるテンプレートスロットである。この場合、＜属性＞は、顕著物体の１つ以上の属性であり、＜方向＞は、運転経路２０２上の次の曲がる方向である。このようなテンプレートベースの運転指令の具体例は、「左折している前方の大型茶色の箱型トラックに追従してください」である。この具体例において、「大型」、「茶色」および「箱型」は、運転経路２０２上の次の曲がる方向と同じ方向に「左折」した「トラック」の属性である。多くの可能なテンプレートベースの運転指示は、例えば、「＜属性＞＜顕著物体＞の前で＜方向＞に曲がってください」、「＜属性＞＜顕著物体＞の後で＜方向＞に曲がってください」、「＜方向＞に合流してください」、「＜属性＞＜顕著物体＞に向かって運転してください」、「＜属性＞＜顕著物体＞で停車してください」、および「＜属性＞＜顕著物体＞の近くに駐車してください」などを含む。「前」、「後」および「近く」という用語を用いて、顕著物体と経路との間の相対的な空間関係を示している。例えば、「大きな緑色彫像の前で右に曲がってください」。理解すべきことは、前述したリストは、包括的なものではなく、２つの顕著物体を含む運転指示文２１３を提供するための運転指令を含む、テンプレートベースの運転指令の多くの追加変形が可能であることである。

図３は、本発明の経路案内システム３００を示すブロック図である。経路案内システムは、必要な機能に応じて、１つ以上の周辺装置と接続することができるコンピュータ３０５において実装される。運転者コントロールインターフェイス３１０は、コンピュータ３０５を運転者コントロール３１１に接続する。１つ以上の運転者コントロール３１１は、例えば車両のステアリングホイール上のボタンを含み、運転者が１つの入力を経路案内システム３００に提供することを可能にする。ディスプレイインターフェイス３５０は、コンピュータ３０５を１つ以上のディスプレイ装置３５５に接続する。１つ以上のディスプレイ装置３５５は、例えば、計器板に搭載されたディスプレイまたはセンターコンソールに搭載されたディスプレイを含み、経路案内システムが視覚出力を運転者に表示することを可能にする。カメラインターフェイス３６０は、コンピュータ３０５を１つ以上のカメラ３６５に接続する。１つのカメラ３６５は、車両の周辺の前方からの光を受光するように配置される。別のカメラ３６５は、経路案内システム３００が別の形の入力をするために運転者の顔および動作を観察することを可能にするように、車両の内部からの光を受光するように配置されてもよい。距離センサインターフェイス３７０は、コンピュータ３０５を１つ以上の距離センサ３７５に接続する。１つ以上の距離センサ３７５は、例えば、外部向き正面、側面または背面レーダおよびＬｉｄａｒを含み、経路案内システムが車両の周辺に関する３Ｄ情報、例えば、近くの物体までの距離を含む３Ｄ情報を取得することを可能にする。また、距離センサ３７５は、１つ以上の内部向きレーダセンサおよびＬｉｄａｒを含んでもよい。これらの内部向きレーダセンサおよびＬｉｄａｒは、経路案内システムがシステム３００へのさらに別の形の入力をするために運転者の動作に関する３Ｄ情報を取得することを可能にする。ＧＰＳインターフェイス３７６は、コンピュータ３０５をＧＰＳ受信機３７７に接続する。ＧＰＳ受信機３７７は、車両の現在のリアルタイム位置を提供するＧＰＳ信号を受信することができる。マイクロフォンインターフェイス３８０は、コンピュータ３０５を１つ以上のマイクロフォン３８５に接続する。１つ以上のマイクロフォン３８５は、例えば、車両の外部からの音声信号を受信することを可能にするために、車両の外部に配置された１つのマイクロフォン３８５と、運転者の発話を含む車両の内部からの音声信号を受信することを可能にするために、車両の内部に配置された１つ以上のマイクロフォン３８５とを含んでもよい。スピーカインターフェイス３９０は、コンピュータ３０５を１つ以上のスピーカ３９５に接続する。１つ以上のスピーカ３９５は、システム３００が、例えば、音声合成器によって可聴形式に変換された運転指示２１３を含み得る可聴出力を運転者に出力することを可能にする。まとめると、運転者制御３１１、カメラ３６５、距離センサ３７５、ＧＰＳ受信機３７７、およびマイクロフォン３８５は、前述したリアルタイム情報２０３を提供するリアルタイムセンサを構成する。

コンピュータ３０５は、ネットワークインターフェイスコントローラ（ＮＩＣ）３１２を含むことができる。システム３００は、ＮＩＣ３１２を介して、例えば、インターネットを含み得るネットワーク３１３と情報を交換することができる。交換される情報は、ネットワークベースのマップと、車両の周辺の静的物体の位置および属性などの他のデータ３１４とを含むことができる。コンピュータは、経路案内システム３００を実装するために必要な実際のアルゴリズムを実行するプロセッサ３２０と、何らかの形のコンピュータメモリ、例えばダイナミックランダムアクセスメモリ（ＤＲＡＭ）、ハードディスクドライブ（ＨＤＤ）、またはソリッドステートドライブ（ＳＳＤ）である記憶装置３３０とを含む。記憶装置３３０は、物体検出および分類モジュール３３１、物体属性抽出モジュール３３２、動的マップ３３３、経路３３４、経路案内モジュール３３５、および文生成モジュール３３６を記憶することを含むがこれに限定されない多くの目的のために使用されてもよい。また、コンピュータ３０５は、様々なモジュールおよびインターフェイスによって使用される一時的なデータを記憶するために使用される作業メモリ３４０を有する。
マルチモーダル注目方法

マルチモーダル融合モデルを含む文生成器は、マルチモーダル注目方法に基づいて構築されてもよい。図４は、本開示の実施形態に従って、マルチモーダル注目方法を示すブロック図である。マルチモーダル注目方法は、特徴抽出器１～Ｋ、注目推定器１～Ｋ、加重和プロセッサ１～Ｌ、特徴変換モジュール１～Ｋ、およびシーケンス生成器４５０に加えて、モーダル注目推定器４５５と、単純和プロセッサ（図示せず）の代わりに加重和プロセッサ４４５とをさらに含む。マルチモーダル注目方法は、シーケンス生成モデル（図示せず）、特徴抽出モデル（図示せず）、およびマルチモーダル融合モデル（図示せず）の組み合わせて実行される。両方の方法において、シーケンス生成モデルは、シーケンス生成器４５０を形成することができ、特徴抽出モデルは、特徴抽出器１～Ｋ（４１１、４２１、４３１）を形成することができる。また、特徴変換モジュール１～Ｋ（４１４、４２４、４３４）、モーダル注目推定器４５５、加重和プロセッサ１～Ｋ（４１３、４２３、４３３）および加重和プロセッサ４４５は、マルチモーダル融合モデルによって形成されてもよい。

マルチモーダル映像データがＫ個のモダリティ（Ｋ≧２、一部のモダリティが同じものである）を含む場合、モダル－１データを処理するための特徴抽出器４１１、注目推定器４１２および加重和プロセッサ４１３は、モダル－１データを固定次元のコンテンツベクトルに変換する。この場合、特徴抽出器４１１は、データから複数の特徴ベクトルを抽出し、注目推定器４１２は、抽出された各特徴ベクトルの重みを推定し、加重和プロセッサ４１３は、抽出された特徴ベクトルと推定された重みとの加重和として算出されたコンテンツベクトルを出力（生成）する。モーダル－２データを処理するための特徴量抽出器４２１、注目推定器４２２および加重和プロセッサ４２３は、モーダル－２データを固定次元のコンテンツベクトルに変換する。モーダル－Ｋデータを処理するための特徴抽出器４３１、注目推定器４３２および加重和プロセッサ４３３は、モーダル－Ｋデータを固定次元のコンテンツベクトルに変換する。これによって、Ｋ個の固定次元のコンテンツベクトルが得られる。モーダル－１データ、モーダル－２データ、．．．、モーダル－Ｋデータの各々は、一定の間隔を有する時間順序または所定の時間間隔を有する他の所定の順序を有する系列データであってもよい。

次いで、特徴変換モジュール４１４、４２４および４３４は、Ｋ個のコンテンツベクトルをＮ次元ベクトルにそれぞれ変換（変形）することによって、Ｋ個の変換されたＮ次元ベクトルを生成する。Ｎは、予め定義された正の整数である。

図４の単純なマルチモーダル方法の場合、Ｋ個の変換されたＮ次元ベクトルは、単一のＮ次元コンテンツベクトルに加算されるが、マルチモーダル注目方法の場合、Ｋ個の変換されたＮ次元ベクトルは、モーダル注目推定器４５５および加重和プロセッサ４４５によって単一のＮ次元コンテンツベクトルに変換される。このときに、モーダル注目推定器４５５は、各変換されたＮ次元ベクトルの重みを推定し、加重和プロセッサ４４５は、Ｋ個の変換されたＮ次元ベクトルと推定重みとの加重和として算出されたＮ次元コンテンツベクトルを出力（生成）する。

シーケンス生成器４５０は、単一のＮ次元コンテンツベクトルを受信し、映像データを記述する文中のワードに対応する１つのラベルを予測する。

次のワードを予測するために、シーケンス生成器４５０は、文のコンテキスト情報、例えば以前に生成されたワードを表すベクトルを、適切なコンテンツベクトルを取得するために注目重みを推定する注目推定器４１２、４２２、４３２およびモーダル注目推定器４５５に提供する。このベクトルは、プレステップ（pre-step）コンテキストベクトルとも呼ばれる。

シーケンス生成器４５０は、文の開始（start of sentence）トークン＜ｓｏｓ＞から始まる次のワードを予測し、「文の終了」（end of sentence）に対応する特定のシンボル＜ｅｏｓ＞が予測されるまで、次のワード（予測ワード）を反復的に予測することによって、（１つまたは複数の）記述文を生成する。すなわち、シーケンス生成器４５０は、マルチモーダル入力ベクトルからワードシーケンスを生成する。場合によって、マルチモーダル入力ベクトルは、異なる入力／出力インターフェイス、例えば、ＨＭＩおよびＩ／Ｏインターフェイス（図示せず）または１つ以上のＩ／Ｏインターフェイス（図示せず）を介して受信されてもよい。

各生成プロセスにおいて、予測ワードは、加重コンテンツベクトルおよびプレステップコンテキストベクトルに基づいて、全ての可能なワードの中で最も高い確率を有するように生成される。また、予測ワードをメモリ３４０、記憶装置３３０、またはより多くの記憶装置（図示せず）に蓄積することによって、ワードシーケンスを生成することができる。この蓄積処理は、特定のシンボル（シーケンス終了シンボル）を受信するまで継続的に実行されてもよい。システム３００は、ＮＩＣおよびネットワーク、ＨＭＩおよびＩ／Ｏインターフェイスまたは１つ以上のＩ／Ｏインターフェイスを介して、シーケンス生成器４５０から生成された予測ワードを送信することができる。これによって、他のコンピュータ（図示せず）または他の出力装置（図示せず）は、予測ワードのデータを使用することができる。

Ｋ個のコンテンツベクトルの各々が別個のモダリティデータおよび／または別個の特徴抽出器から得られた場合、Ｋ個の変換されたベクトルの加重和とのモダリティまたは特徴融合は、文のコンテキスト情報に従って、異なるモダリティおよび／または異なる特徴に注意を払うことによって、各ワードをより良好に予測するができる。したがって、このマルチモーダル注目方法は、異なるモダリティまたは特徴に対する注目重みを包括的または選択的に使用する異なる特徴を利用して、各ワードの記述を推測することができる。

また、システム３００のマルチモーダル融合モデルは、データ分配モジュール（図示せず）を含むことができる。データ分配モジュールは、Ｉ／Ｏインターフェイスを介して複数の時系列データを受信し、受信したデータをモーダル－１データ、モーダル－２データ、．．．、モーダル－Ｋデータに分配し、マイニング間隔に従って、分配された各時系列データを分割し、その後、モーダル－１データ、モーダル－２データ、．．．、モーダル－Ｋデータを特徴抽出器１～Ｋにそれぞれ提供する。

場合によって、複数の時系列データは、カメラを用いて捕捉された映像信号およびマイクロフォンを用いて記録された音声信号であってもよい。距離センサによって取得された時系列深度画像がモダルデータとして使用される場合、システム３００は、図中の特徴抽出器４１１、４２１および４３１（Ｋ＝３）を使用する。少なくとも１つのカメラからの画像（フレーム）、測定システムからの信号、少なくとも１つの隣接車両からの通信データ、または車両に配置された少なくとも１つのマイクロフォンからの音声信号を含むことができるリアルタイムマルチモーダル情報は、カメラインターフェイス３６０、距離センサインターフェイス３７０またはマイクロフォンインターフェイス３８０を介して、システム３００内の特徴抽出器４１１、４２１および４３１に提供される。特徴抽出器４１１、４２１および４３１は、画像データ、音声データおよび深度データを、モーダル－１データ、モーダル－２データ、およびモーダル－３（例えば、Ｋ＝３）としてそれぞれ抽出することができる。この場合、特徴抽出器４１１、４２１および４３１は、第１の間隔、第２の間隔および第３の間隔に従って、リアルタイム画像（フレーム）のデータストリームから、モーダル－１データ、モーダル－２データおよびモーダル－３をそれぞれ受信する。

場合によって、画像特徴、運動特徴、または音声特徴が異なる時間間隔で捕捉された場合、データ分配モジュールは、所定の異なる時間間隔で、複数の時系列データをそれぞれ分割することができる。

場合によって、物体検出器、物体分類器、運動軌道推定器および物体属性抽出器の１つまたは組み合わせは、カメラインターフェイス３６０、距離センサインターフェイス３７０またはマイクロフォンインターフェイス３８０を介して、所定の時間間隔で時系列データを受信し、検出された物体の情報、例えば物体位置、物体種類、物体属性、物体運動、および交差点位置を含む特徴ベクトルシーケンスを生成するための特徴抽出器の１つとして、使用されてもよい。
例示的なマルチモーダル融合モデル

文を生成する手法は、マルチモーダルシーケンスツーシーケンス（sequence-to-sequence）学習に基づくことができる。本開示の実施形態は、各々が各自の特徴ベクトルシーケンスを有する複数のモダリティの融合を処理するための注目モデルを提供する。画像特徴、運動特徴、および音声特徴などのマルチモーダル入力を利用して、文を生成することができる。また、異なる特徴抽出方法からの複数の特徴を組み合わせることによって、一般的に、文の質を効果的に向上させることができる。

図５は、Ｋ＝２と仮定する場合、文を生成するためのマルチモーダル融合方法（マルチモーダル特徴融合手法）の一例を示すブロック図である。入力画像／音声シーケンス５６０は、所定の時間間隔を有する時系列データであってもよい。特徴ベクトルの入力シーケンスは、１つ以上の特徴抽出器５６１を用いて取得される。

一方が画像シーケンスＸ_１＝ｘ_１１、ｘ_１２、．．．、ｘ_１Ｌであり、他方が音声信号シーケンスＸ_２＝ｘ_２１、ｘ_２２、．．．、ｘ_２Ｌ′である入力画像／音声シーケンス５６０の場合、各画像または音声信号は、まず、画像または音声信号を処理するための特徴抽出器５６１に供給される。画像の場合、特徴抽出器は、予め訓練された畳み込みニューラルネットワーク（ＣＮＮ）、例えば、ＧｏｏｇＬｅＮｅｔ、ＶＧＧＮｅｔ、またはＣ３Ｄであってもよい。この場合、各入力画像の各特徴ベクトルは、ＣＮＮの完全接続層の活性化ベクトルを抽出することによって取得することができる。図５において、画像特徴ベクトルシーケンスＸ′_１は、ｘ′_１１、ｘ′_１２、．．．、ｘ′_１Ｌとして示されている。音声信号の場合、特徴抽出器は、メル周波数ケプストラム係数（ＭＦＣＣ）を特徴ベクトルとして生成するたｍのメル周波数分析方法であってもよい。図５において、音声特徴ベクトルシーケンスＸ′_２は、ｘ′_２１、ｘ′_２２、・・・、ｘ′_２Ｌ′として示される。

マルチモーダル融合方法は、双方向長短期メモリ（ＢＬＳＴＭ）またはゲート付き回帰型ユニット（ＧＲＵ）に基づくエンコーダを利用して、各ベクトルが各自のコンテキスト情報を含むように特徴ベクトルシーケンスをさらに変換することができる。しかしながら、リアルタイム画像記述タスクの場合、次元を低減するために、ＣＮＮベースの特徴を直接に使用してもよく、または１つ以上のフィードフォワード層を追加してもよい。

したがって、試験段階において、ビーム探索方法を用いて、各ｉ番目ステップの複数の状態および仮説が最も高い累積確率を有するように保持し、文の終了トークンに到達したものから最良の仮説を選択することができる。
シーン認識対話ナビゲーションシステムの文生成の例示的な説明

本発明のいくつかの実施形態に従ったシーン認識対話ナビゲーションシステムを設計するために、車両のカメラによって捕捉されたリアルタイム画像を用いて、車両の人間の運転者にナビゲーション文を生成することができる。この場合、物体検出および分類モジュール３３１、物体属性抽出モジュール３３２、および運動軌道推定モジュール（図示せず）は、文生成器の特徴抽出器として使用されてもよい。

物体検出および分類モジュール３１１は、各画像から複数の顕著物体を検出し、各物体の境界ボックスおよび物体種類を予測することができる。境界ボックスは、画像内の物体の位置を示し、４次元ベクトル（ｘ_１，ｙ_１，ｘ_２，ｙ_２）として示される。ｘ_１およびｙ_１は、画像内の物体の左上角の座標を表し、ｘ_２およびｙ_２は、画像内の物体の右下角の座標を表す。

物体種類識別子は、建物、看板、ポール、交通信号灯、樹木、人間、自転車、バス、車などの所定の物体種類を示す整数である。物体種類識別子は、ワンホットベクトル（one-hot vector）として示されてもよい。物体属性抽出モジュール３３２は、各物体の属性を推定することができる。属性は、物体の形状、色および状態、例えば、高さ、広さ、大きさ、赤色、青色、白色、黒色、歩行中、および立ち留まりであってもよい。属性は、各属性を示す所定の整数である属性識別子として予測される。属性識別子は、ワンホットベクトルとして示されてもよい。運動軌道推定モジュール（図示せず）は、以前に受信した画像を用いて、各物体の運動ベクトルを推定することができる。この運動ベクトルは、２Ｄ画像内の物体の方向および速度を含んでもよく、２次元ベクトルとして表されてもよい。運動ベクトルは、以前に受信した画像内の同じ物体の位置の差を用いて推定されてもよい。また、物体検出および分類モジュール３３１は、道路交差点を検出し、道路交差点の境界ボックスを表す４次元ベクトルを形成することができる。これらのモジュールを用いて、物体および道路交差点の境界ボックスのベクトルと、物体種類識別子および属性識別子のワンホットベクトルと、物体の運動ベクトルとを連結することによって、検出された各物体の特徴ベクトルを構築することができる。

例えば、高速Ｒ－ＣＮＮ（Ren, Shaoqingら, "Faster R-CNN: Towards real-time object detection with region proposal networks", Advances in neural information processing systems, 2015）は、物体検出および分類モジュール３３１および物体属性抽出モジュール３３２に使用され得る既知の従来方法である。

特定の経路が、車両が次の交差点で右折することを示す場合、システムは、「黒い建物の前の交差点で右折してください」などの文を生成することができる。このような文を生成するために、曲がる方向に関する情報を特徴ベクトルに追加する必要がある。この場合、曲がる方向を３次元ワンホットベクトルとして表すことができる。したがって、（１，０，０）＝左折すること、（０，１，０）＝真っ直ぐ運転すること、（０，０，１）＝右折すること、（０，０，０）＝交差点がないことである。

この方向ベクトルは、各物体から抽出された各特徴ベクトルに連結されてもよい。

また、運転者からの音声要求を受け入れ、運転者に音声応答を出力する音声対話システムを構成するために、このシステムは、音声認識システムおよびテキスト音声合成システムを含んでもよい。この場合、運転者の要求の音声認識の結果として得られたテキスト文は、文生成モジュール３３６に供給されてもよい。このテキスト文は、図４のマルチモーダル融合方法に使用されたマルチモーダル入力（すなわち、モーダル－ｋデータであり、ｋは、１＜ｋ＜Ｋの整数である）のうち、１つであってもよい。テキスト文中の各ワードは、固定次元のワード埋め込みベクトルに変換されてもよい。したがって、テキスト文は、特徴ベクトルシーケンスとして表されてもよい。マルチモーダル融合方法は、運転者の要求から抽出された特徴ベクトルシーケンスおよび検出された物体を用いて、運転者への応答として妥当な文を生成することができる。テキスト音声合成システムは、生成された文を音声信号にさらに変換し、いくつかの音声スピーカを介して当該音声信号を出力することができる。
文生成モデルを訓練するための構成

マルチモーダル融合モデルを用いて注目ベースの文生成器を学習させるために、シーン認識対話データを作成した。このシーン認識対話データは、車のダッシュボードに取り付けられたカメラから取得された２１５６７個の画像を含む。次いで、これらの画像は、人間によって注釈された。車の運転者をナビゲートするために、３６９３５個の物体－交差点の対は、対応する物体名、属性、境界ボックス、および文で標記された。データは、２６５８個の固有の物体および８９７０個の固有の文を含んでいた。

文生成モデル、すなわち、デコーダネットワークは、訓練セットを用いて交差エントロピー基準を最小化するように訓練される。画像特徴は、ＢＬＳＴＭエンコーダに供給され、続いてデコーダネットワークに供給される。エンコーダネットワークは、１００個のセルからなる２つのＢＬＳＴＭ層を含む。デコーダネットワークは、１００個のセルからなる１つのＬＳＴＭ層を含む。各ワードは、ＬＳＴＭ層に供給されるときに５０次元ベクトルに埋め込まれる。我々は、ＡｄａＤｅｌｔａオプティマイザ（M. D. Zeiler. ADADELTA: An adaptive learning rate method. CoRR, abs/1212.5701, 2012）を適用することによって、パラメータを更新する。更新されたパラメータは、注目モデルを最適化するために広く使用される。ＬＳＴＭおよび注目モデルは、PyTorch（Paszke, Adamら, "PyTorch: An imperative style, high-performance deep learning library". Advances in Neural Information Processing Systems. 2019）を用いて実装された。

図６Ａは、本開示の実施形態に従って、車両状態６１０および動的マップ６１１に基づいて運転指示６４０を生成するように構成されたナビゲーションシステム６００Ａのパラメトリック関数６３５の訓練を示すフロー図である。例えば、パラメトリック関数６３５は、パラメータセット６５０内のパラメータを含むニューラルネットワークとして、またはパラメータセット６５０内のパラメータを含むルールベースのシステムとして実装されてもよい。訓練は、観測された車両状態６１０、観測された動的マップ６１１、および対応する運転指示６０２の組み合わせを含む訓練データ例の訓練セット６０１に基づいて実行されてもよい。訓練データ例は、様々な条件で車両を運転し、観察された車両状態６１０および観察された動的マップ６１１を記録し、現在の車両状態および動的マップに対応する状況において運転者を案内することに関連する運転指示の例示を提供するように人間に依頼することによって、対応する運転指示６０２をラベルとして収集することによって収集されてもよい。ナビゲーションシステムが運転者を案内しようとしている経路に沿って安全に運転することを支援するために、運転指示の直感性、自然性、関連性、容易に理解可能性、明瞭性に基づいて、現在の状況において仮定的な運転指示として特に適切であると考えられる１つ以上の運転指示を提供するように、複数の人間に依頼してもよい。対応する運転指示は、車両が運転されているときに乗客によって収集されてもよく、または車両状態および動的マップの例を、対応する運転指示で車両状態および動的マップを注釈する人間のラベラに示すことによってオフラインで収集されてもよい。例えば、訓練データを収集している車両が、交差点で、ナビゲーションシステムが運転者を案内しようとしている経路上で車両の前方に右折している黒い車に遭遇した場合、人間のラベラに見せられた車両のダッシュボードカメラからの映像クリップが、黒い車が右折していることおよび意図した経路がその交差点で右折していることを暗示する場合、人間のラベラは、「右折している黒い車に追従してください」などの対応する運転指示をこの瞬間にラベル付ける。例えば、人間のラベラは、安全に右折することに影響を及ぼし得る潜在的な危険、例えば車両の将来の経路上の道路を横断しようとしている歩行者に気付いた場合、「道路を横断しようとしている歩行者に注意してください」などの対応する運転指示をその瞬間にラベル付けてもよい。目的関数計算モジュール６４５は、生成された運転指示６４０と訓練運転指示６０２との間の誤差関数を計算することによって、目的関数を計算する。誤差関数は、類似度、交差エントロピー基準などに基づいてもよい。訓練モジュール６５５は、目的関数を用いてパラメータ６５０を更新することができる。パラメトリック関数６３５がニューラルネットワークとして実装された場合、訓練モジュール６５５は、ネットワーク訓練モジュールであり、パラメータ６５０は、ネットワークパラメータを含む。パラメトリック関数６３５がルールベースのシステムとして実装された場合、パラメータ６５０は、目的関数６４５を最小化または減少するために、訓練モジュール６５５を用いて、訓練セット６０１に基づいて修正され得るルールベースのシステムのパラメータ、例えば、重みおよび閾値を含む。

図６Ｂは、本開示の実施形態に従って、ナビゲーションシステム６００Ｂのパラメトリック関数の訓練を示すフロー図である。第１のパラメトリック関数６１５は、車両６１０の状態に基づいて動的マップ６１１内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップ６２０を取得するように構成され、第２のパラメトリック関数６３５は、変換後動的マップ６２０に基づいて運転指示６４０を生成するように構成される。例えば、第１のパラメトリック関数６１５は、パラメータセット６５０内のパラメータを含むニューラルネットワークとして、またはパラメータセット６５０内のパラメータを含むルールベースのシステムとして実装されてもよく、第２のパラメトリック関数６３５は、パラメータセット６５０内のパラメータを含むニューラルネットワークとして、またはパラメータセット６５０内のパラメータを含むルールベースのシステムとして実装されてもよい。訓練は、図６Ａのシステムと同様の方法で実行されてもよい。この場合、パラメータ６５０は、第１のパラメトリック関数６１５のパラメータを含むことができる。同様に、第１のパラメトリック関数６１５は、訓練モジュール６５５を用いて、生成された運転指示６４０と訓練運転指示６０２とを比較することによって得られた目的関数６４５に基づいて訓練されてもよい。

図６Ｃは、本開示の実施形態に従って、ナビゲーションシステム６００Ｃのパラメトリック関数の訓練を示すフロー図である。第１のパラメトリック関数６０５は、シーンからの測定６０３に基づいて車両状態６１０および動的マップ６１１を決定するように構成され、第２のパラメトリック関数６３５は、車両状態６１０および動的マップ６１１に基づいて運転指示６４０を生成するように構成される。例えば、第１のパラメトリック関数６０５は、パラメータセット６５０内のパラメータを含むニューラルネットワークとして、またはパラメータセット６５０内のパラメータを含むルールベースのシステムとして実装されてもよい。訓練は、観測された測定値６０３と対応する運転指示６０２との組み合わせを含む収集された訓練データ例の訓練セット６０１に基づいて実行されてもよい。訓練データ例は、図６Ａのシステムと同様に、様々な条件で車両を運転し、シーンの観測された測定値６０３を記録し、対応する運転指示６０２を収集することによって収集されてもよい。訓練は、図６Ａのシステムと同様に、訓練セット６０１を用いて実行されてもよい。この場合、パラメータ６５０は、第１のパラメトリック関数６０５のパラメータを含むことができる。同様に、第１のパラメトリック関数６０５は、訓練モジュール６５５を用いて、生成された運転指示６４０と訓練運転指示６０２とを比較することによって得られた目的関数６４５に基づいて訓練されてもよい。

図６Ｄは、本開示の実施形態に従って、シーンからの測定値６０３に基づいて運転指示６４０を生成するように構成されたナビゲーションシステム６００Ｄのパラメトリック関数６３５のエンドツーエンド訓練を示すフロー図である。訓練は、観測された測定値６０３と対応する運転指示６０２との組み合わせを含む収集された訓練データ例の訓練セット６０１に基づいて実行されてもよい。目的関数計算モジュール６４５は、生成された運転指示６４０と訓練運転指示６０２との間の誤差関数を計算することによって、目的関数を計算する。訓練モジュール６５５は、目的関数を用いてパラメータ６５０を更新することができる。

図６Ｅは、本開示の実施形態に従って、ナビゲーションシステム６００Ｅのパラメトリック関数の訓練を示すフロー図である。第１のパラメトリック関数６０５は、シーンからの測定６０３に基づいて車両状態６１０および動的マップ６１１を決定するように構成され、第２のパラメトリック関数６１５は、車両状態６１０に基づいて動的マップ６１１内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップ６２０を取得するように構成され、第３のパラメトリック関数６２５は、変換後動的マップ６２０から一部の顕著物体６３０を選択するように構成され、第４のパラメトリック関数６３５は、選択された顕著物体６３０に基づいて運転指示６４０を生成するように構成される。例えば、各パラメトリック関数は、パラメータセット６５０内のパラメータを含むニューラルネットワークとして、またはパラメータセット６５０内のパラメータを含むルールベースのシステムとして実装されてもよい。訓練は、観測された測定値６０３と対応する運転指示６０２との組み合わせを含む収集された訓練データ例の訓練セット６０１に基づいて実行されてもよい。目的関数計算モジュール６４５は、生成された運転指示６４０と訓練運転指示６０２との間の誤差関数を計算することによって、目的関数を計算する。訓練モジュール６５５は、目的関数を用いてパラメータ６５０を更新することができる。

図６Ｆは、本開示の実施形態に従って、ナビゲーションシステム６００Ｅのパラメトリック関数のマルチタスク訓練を示すフロー図である。第１のパラメトリック関数６０５は、シーンからの測定６０３に基づいて車両状態６１０および動的マップ６１１を決定するように構成され、第２のパラメトリック関数６１５は、車両状態６１０に基づいて動的マップ６１１内の一組の顕著物体の属性および空間関係を決定することによって、変換後動的マップ６２０を取得するように構成され、第３のパラメトリック関数６２５は、変換後動的マップ６２０から一部の顕著物体６３０を選択するように構成され、第４のパラメトリック関数６３５は、選択された顕著物体６３０に基づいて運転指示６４０を生成するように構成される。例えば、これらのパラメトリック関数は、パラメータセット６５０内のパラメータを含むニューラルネットワークとして実装されてもよい。訓練は、観測された測定値６０３の組み合わせを含む収集された訓練データ例の訓練セット６０１と、車両状態ラベル、動的マップラベル、変換後動的マップラベル、選択された顕著物体、および運転指示の１つまたは組み合わせを含む対応するラベル付きデータ６０２とに基づいて実行されてもよい。目的関数計算モジュール６４５は、決定された車両状態６１０とラベル付きデータ６０２からの訓練車両状態との間の誤差関数、決定された動的マップ６１１とラベル付きデータ６０２からの訓練動的マップとの間の誤差関数、選択された顕著物体６３０とラベル付きデータ６０２からの訓練顕著物体との間の誤差関数、および生成された運転指示６４０とラベル付きデータ６０２からの訓練運転指示との間の誤差関数の１つまたは組み合わせの加重和を計算することによって、目的関数を計算する。訓練モジュール６５５は、目的関数を用いてパラメータ６５０を更新することができる。

図７は、本開示のいくつかの実施形態に従って、動的マップ内の例示的な顕著物体７１０、７２０、７３０、７４０、７５０、７６０、および各物体の属性および値７１１、７２１、７３１、７４１、７５１、７６１を示している。

動的マップ内の顕著物体が有し得る属性は、種類、色、動的状態（すなわち、運動）、形状、サイズ、位置、外観、および深度を含む。属性の種類は、物体の種類を指す。例えば、顕著物体７６０の場合、属性７６１の種類は、当該物体が２つの道路の間の交差点であることを示す値を有する交差点である。属性の種類の他の可能な値は、車７１１、建物７２１、歩行者７４１、およびサイレン音７５１などの様々な音声を含む。他の属性色は、物体の色を指し、茶色７２１、白色７３１、または黒色７１１などの値を有することができる。いくつかの実施形態において使用される別の属性は、物体の動的状態、すなわち、物体の運動に関する情報である。物体の動的状態は、物体の移動方向、例えば右折している７１１、７１１の速度、例えば１５キロの時速、または運動していない状態（例えば、物体は、現在静止している自動車または歩行者などの動的物体である）などの値を有することができる。いくつかの実施形態において使用される他の属性は、形状７２１および７３１、車両７０１に対する深度７１１または動的マップの基準フレームに対する位置、顕著物体全体のサイズ、およびプロセッサが運転者視点から物体の一部しか見えると判定した場合に、顕著物体の可視部分のサイズを含む。

なお、本開示のいくつかの実施形態において、運転者の観点から関連性がある顕著物体は、運転者が現在では可視または感知できる必要がない。例えば、車両の現在位置または将来位置に接近している救急車は、たとえ車両の運転者が現在では見えないまたは聞こえないとしても、関連性があるものとして、「警告：救急車は、後方から接近している」または「警告：救急車は、左側の青い建物の後方から接近している」などの運転指示に含まれてもよい。

動的マップ内の顕著物体間の空間関係も、運転指示の生成に使用される。空間関係は、別の物体または一組の物体に対する１つ以上の物体の相対的な３Ｄ位置を示することができる。相対位置は、左側、右側、前方、後方、上方、下方に位置するものとして表現される。カメラから推定された深度または距離情報、または距離センサ（すなわち、深度センサ）、例えばＬｉｄａｒまたはレーダセンサから直接に取得された深度または距離情報は、相対的な３Ｄ位置の決定に使用される。

図８は、動的マップ内の例示的な顕著物体８０１、８０２、８０３、８０４、および各物体対の空間関係８１２、８３４を示す。この例において、顕著物体８０１は、顕著物体８０２に対して空間関係８１２を有する。すなわち、顕著物体８０１は、顕著物体８０２の左側５メートルにある。同様に、顕著物体８０３は、顕著物体８０４に対して空間関係８３４を有する。すなわち、顕著物体８０４は、顕著物体８０３の前方２０メートル且つ左側１５メートルにある。

また、顕著物体から得られた運動軌道および音声も、運転指示の生成に使用されてもよい。動作軌道は、各顕著物体について決定され、所定の時間における顕著物体の移動を示す。顕著物体に関連する音声は、マイクロフォンを用いて直接に取得される。

図９および１０に示すように、運動軌道９１６は、所定の時間にいて、顕著物体９０６の運動に基づいて推定され、運動軌道９１４は、所定の時間において、顕著物体９０４の運動に基づいて推定される。また、シーンは、静止物体９０２、９０３と、車両９０１の測定システムによって検知され得る特定の音声を発する閉鎖物体９０５とを含む。

特定の時点において、ナビゲーションシステムは、運転者視点から検知された顕著物体の属性を比較ことによって、生成された運転指示に含まれる顕著物体の関連性を示す各顕著物体の関連性スコアを推定することができる。次いで、ナビゲーションシステムは、関連性スコアに基づいて、一組の顕著物体から、生成された運転指示に含まれる顕著物体を選択する。ナビゲーションシステムは、顕著物体から車両までの距離の関数、顕著物体から経路上の次の曲がる地点までの距離の関数、および車両から経路上の次の曲がる地点までの距離の関数の１つまたは組み合わせに基づいて、各顕著物体の関連性スコアを推定する。

図９および１０に示す例において、車両９０１の経路は、車両が次の交差点で右折すること９５０を示している。図９に示すように、車両９０１が交差点から１００メートル離れている時に、最も高い関連性スコア９３０を有する顕著物体は、運動軌道９１６を有する顕著物体９０６であり、生成された運転指示は、「右折している黒い車に追従してください」である。図１０に示されるように、車両９０１が交差点から５０メートル離れている時に、最も高い関連性スコア１０３０を有する顕著物体は、運動軌道９１４を有する顕著物体９０４および顕著物体９０５を含む。この場合、生成された運転指示１０４０は、「左側から道路を横断しようとしている歩行者および左側から接近している救急車に注意してください」である。

これらの例は、現在の時点において車両の経路に関連する一組の顕著物体およびそれらの属性、ならびに車両の状態に基づいたナビゲーションシステムの適応性を示す。

ナビゲーションシステムは、言語規則に従った言語文の形の運転指示を生成し、出力インターフェイスは、言語文を放送するように構成されたスピーカに接続される。また、ナビゲーションシステムは、運転者からの音声要求を受け入れ、運転者に音声応答を出力するように構成された音声対話システムをサポートする。従って、言語文は、音声対話システムの動作履歴を使用する。音声対話システムは、生成された運転指示を明確にするために、または運転者とシーンとの間の他の対話手段および運転指示を提供するために使用される。

図１１は、動的マップ内の車両１１０１および一組の顕著物体１１０２、１１０３、１１０４を有するシーンを示す。生成された第１の運転指示１１０５は、「右折している黒い車に追従してください」である。シーン内に２つの黒い車１１０２、１１０４がある場合、運転者は、「どの黒い車？」という説明を求める。生成された第２の運転指示１１０７は、「黒い低層建物の前の黒い車」である。

図１２は、本発明の経路案内システムの特定の実施形態を示すフローチャートである。この実施形態において、システムは、１つ以上の音声センサ１２１１、１つ以上のカメラ１２１２および１つ以上のＬＩＤＡＲ距離センサ１２１４からのリアルタイムセンサ情報、ＧＰＳ位置１２０１、および経路方向１２１０を受信する。物体検出器および分類器１２２０は、物体の属性を含む全ての検出された物体を出力する。前述したように、顕著物体検出器１２２２は、経路方向１２１０を用いて動的マップ１２２４を決定する。この実施形態において、顕著物体は、建物などの静的物体であるかまたは車などの動的物体であるかに応じて、２つの異なる経路に従って処理される。動的物体に関する情報は、物体の移動速度および方向からなる物体の軌道を推定する動的顕著物体軌道推定器１２４０によって処理される。動的顕著物体軌道推定器１２４０は、多くの方法で実装されてもよい。例えば、動的顕著物体軌道推定器１２４０は、第１のカメラ画像内の物体の位置と第２のカメラ画像内の物体の位置とを比較することによって、物体の軌道を推定することができる。

その後、動的顕著物体属性抽出器１２４１は、動的顕著物体の属性を抽出することによって、属性を有する一組の動的顕著物体１２４２を生成する。静的顕著物体属性抽出器１２３１は、静的顕著物体のセットの属性を抽出することによって、属性を有する一組の静的顕著物体１２３２を生成する。また、静的顕著物体属性抽出器１２３１は、車両ＧＰＳ位置１２０１を用いてマップサーバ１２０２から取得されたローカルマップデータ１２０３を入力として受信する。これによって、静的顕著物体属性抽出器１２３１は、物体の名前などの静的顕著物体の追加の属性を含むことができる。例えば、静的顕著物体が店舗である場合、その物体の属性は、店舗名を含むことができる。

文生成モジュール１２４３は、多くの方法で実装されてもよい。非常に強力なものは、人間のラベラによって提供された顕著物体および対応文のデータセットを用いて訓練されたニューラルネットワークとして実装されたパラメトリック関数である。

図１２に示された文生成モジュール１２４３の特定の実施形態は、ルールベースの物体ランキング装置１２４５を採用する。この物体ランキング装置は、選択された顕著物体１２５０を出力するために、手動で生成されたルールセットを用いて顕著物体をランキングする。これらのルールを用いて、一組の顕著物体のデータおよび属性に基づいて一組の顕著物体を比較およびランキングすることによって、選択された顕著物体１２５０を特定することができる。例えば、ルールは、車両と同じ方向に移動している動的物体を優先してもよい。ルールは、小さいものよりも大きな物体を優先してもよく、または茶色もしくは黒色などのより暗い色よりも赤色もしくは緑色などの明るい色を優先してもよい。

また、この実施形態において、文生成器１２４３の物体ランキング装置１２４５は、自動音声認識モジュール１２６０によって音声入力１２１１から検出された運転者音声１２６１を入力として受信する。対話システム１２６２は、物体ランキング装置１２４５の機能を調整するために使用される出力を提供する。例えば、第１の顕著物体を使用する以前の運転指示が運転者に出力されたが、運転者は、参照物としての顕著物体を見えなかった。その結果、運転者は、顕著物体を見えなかったことを発話する。したがって、物体ランキング装置は、以前の顕著物体のスコアを低減ことによって、代替的な顕著物体を顕著物体１２５０として選択する。

また、本発明の別の態様は、マルチモーダル情報を取得し、取得されたマルチモーダル情報を解析し、経路に基づいて１つ以上の顕著物体を特定し、１つ以上の顕著物体に基づいて経路案内を提供する文を生成することによって、経路案内を車両の運転者に提供するための方法を実現することができるという認識に基づいている。この方法は、音声合成モジュールまたはディスプレイのうちの１つ以上を用いて、生成文を出力するステップを含んでもよい。この場合、経路は、現在地および目的地に基づいて決定され、文は、取得されたマルチモーダル情報および顕著物体に基づいて生成され、マルチモーダル情報は、１つ以上の撮像装置からの情報を含む。解析は、複数の物体を検出および分類するステップと、検出された物体に複数の属性を関連付けるステップと、経路に基づいて車両の進行方向の交差点の位置を検出するステップと、一部の物体の運動軌道を推定するステップと、検出された一部の物体間の空間関係を決定するステップとのうちの１つまたは組み合わせを含むことによって達成されてもよい。空間関係は、物体間の相対位置および向きを示す。場合によって、複数の物体を検出および分類するステップは、機械学習に基づいたシステムを用いて実行されてもよい。また、属性は、主な色、および車両の現在位置に対する深度の１つまたは組み合わせを含むことができ、物体の種類は、歩行者、車両、自転車、建物、および交通標識の１つ以上を含むことができる。さらに、生成文は、顕著物体に関連する運転指示を含む経路案内を提供することができ、生成文は、解析の結果に基づく警告を示す。

場合によって、撮像装置は、１つ以上のカメラ、１つ以上の距離センサ、または１つ以上のカメラと１つ以上の距離センサとの組み合わせであってもよい。場合によって、少なくとも１つの距離センサは、ＬＩＤＡＲ（Light Detection and Ranging）またはレーダなどであってもよく、１つ以上の撮像装置は、車両の周囲から情報を捕捉することができる。また、マルチモーダル情報は、車両が運転されている間にリアルタイムで取得された信号および／または１つ以上のマイクロフォンによって捕捉された音声信号を含むことができ、場合によって、音声信号は、ユーザの発話であってもよい。これによって、本方法を使用するナビゲーションシステムは、ユーザ（運転者）と対話することができ、ユーザにより有益な情報を生成することができる。マルチモーダル情報は、ユーザとシステムとの間の対話の履歴であってもよく、マップ情報を含んでもよい。対話は、１つ以上のユーザ発話入力および以前に生成された文を含むことができる。また、解析ステップは、マップ上で車両の位置を特定するステップを含むことができる。この場合、マップ情報は、複数の注目地を含み、１つ以上の顕著物体は、解析結果に基づいて、注目地から選択されてもよい。

以上、シーン認識対話システムの１つの応用例として、ナビゲーションシステムを説明した。しかしながら、本発明は、ナビゲーションシステムに限定されない。例えば、本発明のいくつかの実施形態は、車載インフォテイメント、家電製品、構築システム内のサービスロボットとの対話、および測量システムに適用することができる。ＧＰＳは、単にナビゲーションシステムの１つの定位方法であり、他の用途に他の定位方法を適用することができる。

本開示の別の実施形態によれば、運転者コントロールインターフェイス３１０および運転者コントロール３１１をロボットコントロールインターフェイス（図示せず）およびロボットコントロールインターフェイスに変更することによって、シーン認識対話システムを実現することができる。この場合、サービスロボットのシステム設計に応じてＧＰＳ／定位インターフェイス３７６およびＧＰＳ／定位装置３７７を使用することができ、訓練データセットを変更することができる。

さらに、本開示の実施形態は、マルチモーダル融合モデルを実行するための有効な方法を提供する。したがって、マルチモーダル融合モデルを使用する方法およびシステムによって、中央処理ユニット（ＣＰＵ）の使用、電力消費、および／またはネットワーク帯域幅の使用を低減することができる。

上述した本開示の実施形態は、多くの方法で実装されてもよい。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。ソフトウェアで実装される場合、ソフトウェアコードは、単一のコンピュータに設けられたまたは複数のコンピュータに分散されたことにも拘らず、任意の適切なプロセッサまたは一群のプロセッサで実行されてもよい。このようなプロセッサは、集積回路として実装されてもよい。１つの集積回路要素は、１つ以上のプロセッサを含むことができる。しかしながら、プロセッサは、任意の適切な回路で実装されてもよい。

また、本明細書において概説した様々な方法または工程は、様々なオペレーティングシステムまたはプラットフォームのいずれか１つを採用する１つ以上のプロセッサ上で実行可能なソフトウェアとしてコーディングされてもよい。さらに、このようなソフトウェアは、いくつかの適切なプログラミング言語および／またはプログラミングツールもしくはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能な機械言語コードもしくは中間コードとしてコンパイルされてもよい。通常、プログラムモジュールの機能は、所望に応じて様々な実施形態に組み合わせられてもよく、分散させられてもよい。

また、本開示の実施形態は、一例として提供された方法として具現化されてもよい。本方法の一部として実行される動作は、任意の適切な方法で順序付けられてもよい。したがって、例示的な実施形態において順次に実行される動作とは異なる順序で動作を実行すること、一部の動作を同時に実行することを含み得る実施形態を構築することができる。さらに、請求項において請求項要素を修飾するための順序用語、例えば第１、第２などの使用は、別の請求項要素に対する１つの請求項要素の優先順位、前後順位もしくは順序、または方法の動作を実行する時間順序を意味しておらず、単に請求項要素を区別するためのラベルとして使用され、（順序用語を使用することによって）特定の名前を有する１つの請求項要素と同じ名前を有する別の要素とを区別させる。

いくつかの好ましい実施形態を参照して本開示を説明したが、理解すべきことは、本開示の精神および範囲内で、様々な他の改造および修正を行うことができることである。したがって、添付の特許請求の範囲は、本開示の真の精神および範囲内にある全ての変形および修正を網羅する。

本発明は、一般的には、シーン認識対話システムを提供するためのシステムに関し、より詳しくは、車両の周辺の静的物体および動的物体に関するリアルタイムのユニモーダル情報またはマルチモーダル情報に基づいて、車両の運転者に経路案内を提供するためのシーン認識対話ナビゲーションシステムに関する。

上記の課題は、独立請求項に記載の主題によって解決される。いくつかの実施形態によれば、ナビゲーションシステムは、車両の運転に関連するシーン内の物体のリアルタイム記述に基づいて、車両の運転者に運転指示を提供するように構成される。ナビゲーションシステムは、車両を運転するための経路と、現在の時点において経路上の車両の状態と、現在の時点において車両の経路に関連する一組の顕著物体の動的マップとを受け入れるように構成された入力インターフェイスを含み、少なくとも１つの顕著物体は、現在の時点における現在位置と将来の時点における将来位置との間の経路上に移動している車両の測定システムによって検知された物体であり、一組の顕著物体は、１つ以上の静的物体と、１つ以上の動的物体とを含む。ナビゲーションシステムは、車両の状態によって特定された運転者視点から得られた動的マップ内の顕著物体の記述に基づいて、運転指示を生成するように構成されたプロセッサと、車両の運転者に運転指示を出力するように構成された出力インターフェイスとを含む。

いくつかの実施形態において、運転指示は、車両の状態によって特定された運転者視点から得られた動的マップ内の顕著物体（１０２、１２５、１２６）を含む。例えば、図１Ｂにおいて、運転指示１０５は、運転者視点に基づいて動的マップ内の一組の顕著物体から選択された顕著物体１０２の記述「赤い郵便ポスト」に基づく。いくつかの実施形態において、運転者視点は、動的マップに対する車両の現在位置と、車両の現在位置および向きに関連する経路１１０の一部とを含む。例えば、「赤い郵便ポスト」を選択した１つの理由は、赤い郵便ポストが経路１１０の次の曲がりの方向に位置しているためである。（図１Ｂに示されていない）次の経路１１０が左折である代替的な状況において、運転指示は、別の物体１３０に基づく。この場合、左折しようとしている運転者の観点から、別の物体１３０が赤い郵便ポスト１０２よりも高い関連性を有するため、その記述「青い建物」は、運転指示「青い建物の前で左折してください」に使用される。

単純なマルチモーダル方法の場合、Ｋ個の変換されたＮ次元ベクトルは、単一のＮ次元コンテンツベクトルに加算されるが、図４のマルチモーダル注目方法の場合、Ｋ個の変換されたＮ次元ベクトルは、モーダル注目推定器４５５および加重和プロセッサ４４５によって単一のＮ次元コンテンツベクトルに変換される。このときに、モーダル注目推定器４５５は、各変換されたＮ次元ベクトルの重みを推定し、加重和プロセッサ４４５は、Ｋ個の変換されたＮ次元ベクトルと推定重みとの加重和として算出されたＮ次元コンテンツベクトルを出力（生成）する。

場合によって、複数の時系列データは、カメラを用いて捕捉された映像信号およびマイクロフォンを用いて記録された音声信号であってもよい。距離センサによって取得された時系列深度画像がモダルデータとして使用される場合、システム３００は、図中の特徴抽出器４１１、４２１および４３１（Ｋ＝３）を使用する。少なくとも１つのカメラからの画像（フレーム）、測定システムからの信号、少なくとも１つの隣接車両からの通信データ、または車両に配置された少なくとも１つのマイクロフォンからの音声信号を含むことができるリアルタイムマルチモーダル情報は、カメラインターフェイス３６０、距離センサインターフェイス３７０またはマイクロフォンインターフェイス３８０を介して、システム３００内の特徴抽出器４１１、４２１および４３１に提供される。特徴抽出器４１１、４２１および４３１は、画像データ、音声データおよび深度データを、モーダル－１データ、モーダル－２データ、およびモーダル－３データ（例えば、Ｋ＝３）としてそれぞれ抽出することができる。この場合、特徴抽出器４１１、４２１および４３１は、第１の間隔、第２の間隔および第３の間隔に従って、リアルタイム画像（フレーム）のデータストリームから、モーダル－１データ、モーダル－２データおよびモーダル－３データをそれぞれ受信する。

物体検出および分類モジュール３３１は、各画像から複数の顕著物体を検出し、各物体の境界ボックスおよび物体種類を予測することができる。境界ボックスは、画像内の物体の位置を示し、４次元ベクトル（ｘ１，ｙ１，ｘ２，ｙ２）として示される。ｘ１およびｙ１は、画像内の物体の左上角の座標を表し、ｘ２およびｙ２は、画像内の物体の右下角の座標を表す。

動的マップ内の顕著物体が有し得る属性は、種類、色、動的状態（すなわち、運動）、形状、サイズ、位置、外観、および深度を含む。属性の種類は、物体の種類を指す。例えば、顕著物体７６０の場合、属性７６１の種類は、当該物体が２つの道路の間の交差点であることを示す値を有する交差点である。属性の種類の他の可能な値は、車７１１、建物７２１、歩行者７４１、およびサイレン音７５１などの様々な音声を含む。他の属性色は、物体の色を指し、建物７２１の茶色、建物７３１の白色、または車７１１の黒色などの値を有することができる。いくつかの実施形態において使用される別の属性は、物体の動的状態、すなわち、物体の運動に関する情報である。物体の動的状態は、物体の移動方向、例えば右折している車７１１、車７１１の速度、例えば１５キロの時速、または運動していない状態（例えば、物体は、現在静止している自動車または歩行者などの動的物体である）などの値を有することができる。いくつかの実施形態において使用される他の属性は、建物７２１および７３１の形状、車両７０１に対する車７１１の深度または動的マップの基準フレームに対する位置、顕著物体全体のサイズ、およびプロセッサが運転者視点から物体の一部しか見えると判定した場合に、顕著物体の可視部分のサイズを含む。

Claims

車両の運転に関連するシーン内の物体のリアルタイム記述に基づいて、前記車両の運転者に運転指示を提供するように構成されたナビゲーションシステムであって、
前記車両を運転するための経路と、現在の時点において前記経路上の前記車両の状態と、前記現在の時点において前記車両の前記経路に関連する一組の顕著物体の動的マップとを受け入れるように構成された入力インターフェイスを含み、少なくとも１つの顕著物体は、前記現在の時点における現在位置と将来の時点における将来位置との間の前記経路上に移動している前記車両の測定システムによって検知された物体であり、前記一組の顕著物体は、１つ以上の静的物体と、１つ以上の動的物体とを含み、
前記ナビゲーションシステムは、
前記車両の前記状態によって特定された運転者視点から得られた前記動的マップ内の顕著物体の記述に基づいて、運転指示を生成するように構成されたプロセッサと、
前記運転指示を前記車両の前記運転者に出力するように構成された出力インターフェイスとを含む、ナビゲーションシステム。
前記プロセッサは、前記車両の前記状態および前記動的マップを、前記運転指示を生成するように構成されたパラメトリック関数に提出するように構成される、請求項１に記載のナビゲーションシステム。
前記パラメトリック関数は、車両状態、動的マップ、および前記運転者視点に関連する運転指示の組み合わせを含む訓練データを用いて訓練される、請求項２に記載のナビゲーションシステム。
前記動的マップは、前記顕著物体の属性の値および前記顕著物体の間の空間関係を示す特徴を含み、
前記プロセッサは、前記顕著物体の属性および前記顕著物体の間の空間関係を決定し、前記属性および前記空間関係を更新し、更新された前記属性および前記空間関係を前記パラメトリック関数に提出することによって、前記運転指示を生成する、請求項２に記載のナビゲーションシステム。
前記顕著物体の前記属性は、前記顕著物体の種類、前記顕著物体の動的状態、前記顕著物体の形状、前記顕著物体のサイズ、前記顕著物体の可視部分のサイズ、前記顕著物体の位置、および前記顕著物体の色の１つまたは組み合わせを含み、
前記空間関係は、相対位置、標高、距離、角度、および閉鎖の１つまたは組み合わせを含み、
前記プロセッサは、前記車両の状態に基づいて、前記属性および前記空間関係を更新する、請求項４に記載のナビゲーションシステム。
前記測定システムから、前記現在の時点における前記シーンの測定値を受信するように構成された通信インターフェイスをさらに含み、
前記測定値は、カメラ、深度センサ、マイクロフォン、前記車両のＧＰＳ、近隣車両のＧＰＳ、距離センサ、および路側機（ＲＳＵ）のセンサの１つまたは組み合わせを含む少なくとも１つのセンサから受信される、請求項１に記載のナビゲーションシステム。
前記プロセッサは、前記測定値から特徴を抽出することによって、前記車両の前記状態および前記動的マップを決定するように訓練された第１のパラメトリック関数を実行する、請求項６に記載のナビゲーションシステム。
前記プロセッサは、前記第１のパラメトリック関数によって抽出された前記特徴から前記運転指示を生成するように訓練された第２のパラメトリック関数を実行し、
前記第１のパラメトリック関数と前記第２のパラメトリック関数とは、共同で訓練される、請求項７に記載のナビゲーションシステム。
前記プロセッサは、前記測定値から前記運転指示を生成するように訓練されたパラメトリック関数を実行する、請求項６に記載のナビゲーションシステム。
前記運転指示は、一組の所定の運転指令から選択された運転指令を含み、
前記所定の運転指令の各々は、１つ以上の顕著物体に基づいて修正され、前記修正後運転指令が前記運転者に対する清澄度を示すスコアに関連付けられ、
前記パラメトリック関数は、より高いスコアを有する前記修正後運転指令を含む前記運転指示を生成するように訓練される、請求項４に記載のナビゲーションシステム。
前記一組の所定の運転指令は、追従運転指令、後曲がり運転指令、および前曲がり運転指令を含む、請求項１０に記載のナビゲーションシステム。
前記プロセッサは、
前記測定値から特徴を抽出することによって、前記車両の前記状態および前記動的マップを決定するように訓練された第１のパラメトリック関数を実行し、
前記車両の前記状態に基づいて前記動的マップを変換することによって、前記運転者視点から前記顕著物体の前記属性および前記空間関係を特定するための変換後動的マップを生成するように訓練された第２のパラメトリック関数を実行し、
前記変換後動的マップ内の前記顕著物体の前記属性および前記空間関係に基づいて、前記一組の顕著物体から１つ以上の顕著物体を選択するように訓練された第３のパラメトリック関数を実行し、
選択された前記顕著物体の前記属性および前記空間関係に基づいて、前記運転指示を生成するように訓練された第４のパラメトリック関数を実行するように構成される、請求項６に記載のナビゲーションシステム。
前記運転指示は、言語規則に従った言語文の形で生成され、
前記出力インターフェイスは、前記言語文を放送するように構成されたスピーカに接続される、請求項１に記載のナビゲーションシステム。
前記運転者からの音声要求を受け入れ、前記運転者に音声応答を出力するように構成された音声対話システムをさらに含み、
前記プロセッサは、前記音声対話システムの動作履歴を用いて、前記言語文を生成する、請求項１３に記載のナビゲーションシステム。
前記プロセッサは、
前記運転者視点から検知された前記顕著物体の属性を比較することによって、前記生成された運転指示に含まれる前記顕著物体の関連性を示す各顕著物体の関連性スコアを推定し、
前記関連性スコアに基づいて、前記一組の顕著物体から、前記生成された運転指示に含まれる顕著物体を選択するように構成される、請求項１に記載のナビゲーションシステム。
各顕著物体の前記関連性スコアの前記推定は、前記顕著物体から前記車両までの距離の関数、前記顕著物体から前記経路上の次の曲がる地点までの距離の関数、および前記車両から前記経路上の前記次の曲がる地点までの距離の関数の１つまたは組み合わせに基づいて行われる、請求項１５に記載のナビゲーションシステム。
前記顕著物体の前記記述は、運転指令と、前記顕著物体の属性の値と、前記顕著物体の種類のラベルとを含む、請求項１に記載のナビゲーションシステム。