JP7340046B2

JP7340046B2 - 緊急車両の音声および視覚の検出を融合した機械学習モデル

Info

Publication number: JP7340046B2
Application number: JP2022004009A
Authority: JP
Inventors: カイチェンシュー; ホンギソン; チールオ; ウェイワン; ゼジュンリン; ウェスレーレイノルズ; フォンリュウ; ジャントウフウ; ジンホーミアオ
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2021-01-14
Filing date: 2022-01-13
Publication date: 2023-09-06
Anticipated expiration: 2042-01-13
Also published as: EP3965066A2; EP3965066A3; CN113799789A; US11620903B2; KR20220058492A; US20220223037A1; JP2022048199A; EP3965066B1

Description

本開示の実施形態は、全体的に、自律走行車の操作に関する。
より具体的に、本開示の実施形態は、緊急車両の検出のための複数のソースからのセンサーデータの融合に関する。

自律走行モード（例えば、無人運転）で動作する車両は、乗員、特にドライバーをいくつかの運転関連の義務から解放することができる。

自律走行モードで動作する場合、車両は、オンボードセンサーを使用して様々な場所に移動することができるため、人と機械との相互作用を最小限に抑える状況または乗客なしのいくつかの状況で車両を走行させることができる。

緊急車両（例えば、パトカー、消防車および救急車）が道路上にあることを検出した場合、ＡＤＶは、ローカルトラフィックルールに準拠するために適切な措置を講じる必要がある。
従って、ＡＤＶが走行する際には、ＡＤＶ周囲環境で緊急車両を正確に検出することが不可欠であり、ＡＤＶを不必要に停止する必要はない。

検出制度を向上させる方法は、複数のソースからの情報（例えば、ＡＤＶのセンサーからの画像および音声）を使用して、単一のソースの不安定性を排除することである。
このような方法は、複数のソースからの情報を融合させる必要がある。

本出願の一つの態様は、自律走行車を操作するコンピューター実装の方法を提供し、
前記方法は、前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信し、
前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされ、
前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、
前記自律走行車の周囲環境からキャプチャされるステップと、
前記自律走行システムによって、キャプチャされた音声信号ストリームから第１の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第２の特徴ベクトルを抽出するステップと、
前記自律走行システムによって、
前記第１の特徴ベクトルと前記第２の特徴ベクトルとを連結して、連結特徴ベクトルを構築するステップと、及び前記連結特徴ベクトルに基づいて、第１のニューラルネットワークモデルを使用する前記自律走行システムによって、
前記自律走行車の周囲環境に緊急車両が存在することを決定するステップ、とを含み、
前記第１の特徴ベクトルを抽出するステップは、
第２のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第３の特徴ベクトルを抽出する、ステップであって、前記第３の特徴ベクトルは、基本的な音声特徴ベクトルである、ステップと、
第３のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第４の特徴ベクトルを抽出する、ステップであって、前記第４の特徴ベクトルは、Ｍｅｌ周波数ケプストラム係数（ＭＦＣＣ）の特徴ベクトルである、ステップと、及び
前記第３の特徴ベクトルと前記第４の特徴ベクトルとを連結して単一の特徴ベクトルを形成するステップを含む。

本出願のもう一つの態様は、命令が格納された非一時的な機械可読媒体であって、
前記命令がプロセッサによって実行される場合、
前記プロセッサが自律走行車（ＡＤＶ）を操作させる操作を実行し、
前記操作は、前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信する、ことであって、
前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされたものであり、
前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、前記自律走行車の周囲環境からキャプチャされるものである、ことと、
前記自律走行システムがキャプチャされた音声信号ストリームから第１の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第２の特徴ベクトルを抽出する、ことと、
前記自律走行システムが前記第１の特徴ベクトルと前記第２の特徴ベクトルとを連結して、連結特徴ベクトルを構築することと、
前記連結特徴ベクトルに基づいて、前記自律走行システムによって第１のニューラルネットワークモデルを使用して、前記自律走行車の周囲環境に緊急車両が存在することを決定することを含み、
前記第１の特徴ベクトルを抽出することは、
第２のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第３の特徴ベクトルを抽出する、ことであって、前記第３の特徴ベクトルは、基本的な音声特徴ベクトルである、ことと、
第３のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第４の特徴ベクトルを抽出する、ことであって、前記第４の特徴ベクトルは、Ｍｅｌ周波数ケプストラム係数（ＭＦＣＣ）の特徴ベクトルである、ことと、及び
前記第３の特徴ベクトルと前記第４の特徴ベクトルとを連結して単一の特徴ベクトルを形成することを含む、非一時的な機械可読媒体を提供する。

本出願のもう一つの態様は、プロセッサと、命令を格納するために前記プロセッサに接続され、
前記命令が前記プロセッサによって実行される場合、
前記プロセッサが自律走行車（ＡＤＶ）を操作させる操作を実行するメモリと、を備えるデータ処理システムであって、
前記操作は、前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信する、ことであって、
前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされたものであり、
前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、前記自律走行車の周囲環境からキャプチャされるものである、ことと、
前記自律走行システムがキャプチャされた音声信号ストリームから第１の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第２の特徴ベクトルを抽出することと、
前記自律走行システムが前記第１の特徴ベクトルと前記第２の特徴ベクトルとを連結して、連結特徴ベクトルを構築することと、及び前記連結特徴ベクトルに基づいて、
前記自律走行システムによって第１のニューラルネットワークモデルを使用して、
前記自律走行車の周囲環境に緊急車両が存在することを決定することを含み、
前記第１の特徴ベクトルを抽出することは、
第２のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第３の特徴ベクトルを抽出する、ことであって、前記第３の特徴ベクトルは、基本的な音声特徴ベクトルである、ことと、
第３のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第４の特徴ベクトルを抽出する、ことであって、前記第４の特徴ベクトルは、Ｍｅｌ周波数ケプストラム係数（ＭＦＣＣ）の特徴ベクトルである、ことと、及び
前記第３の特徴ベクトルと前記第４の特徴ベクトルとを連結して単一の特徴ベクトルを形成することを含む、データ処理システムを提供する。

本出願の一つの態様は、コンピュータープログラムであって、前記コンピュータープログラムがプロセッサにより実行されると、上記一つの態様の方法を実現させるコンピュータープログラムを提供する。

本開示の実施形態は、図面の各図に限定されるものではなく、例示として示され、図面の同じ参照番号は、同様の要素を示す。
一実施形態によるネットワーク化されたシステムを示すブロック図である。一実施形態による自律走行車の例を示すブロック図である。一実施形態による自律走行車で一緒に使用される感知および計画システムの例を示すブロック図である。一実施形態による自律走行車で一緒に使用される感知および計画システムの例を示すブロック図である。一実施形態による緊急車両検出システムの例を示す。一実施形態による緊急車両検出システムをさらに示す。一実施形態による緊急車両を検出するプロセスを示す。

以下で論じられる詳細を参照して、本開示の様々な実施形態および態様を説明し、添付の図面は、前記様々な実施形態を例示する。
以下の説明および図面は、本開示の説明であり、本開示を限定するものとして解釈されるべきでない。

多くの特定の詳細を説明して、本開示の様々な実施形態の全面的な理解を提供する。
しかしながら、場合によっては、本開示の実施形態の簡潔な議論を提供するために、周知のまたは従来の詳細を説明していない。

本明細書における「一実施形態」または「実施形態」への言及は、当該実施形態と組み合わせて説明される特定の特徴、構造または特性が、本開示の少なくとも一つの実施形態に含まれることを指す。

本明細書の様々な場所での「一実施形態において」という句の出現は、必ずしもすべてが同じ実施形態を指すとは限らない。
様々な実施形態によれば、自律走行車（ＡＤＶ）を操作するシステム、方法および媒体を説明する。

実施形態は、複数の機械学習モデルを使用して、それぞれ、ＡＤＶに取り付けられるセンサーによってキャプチャされた音声データおよび視覚データから特徴を抽出し、次にこれらの抽出された特徴を融合して、連結特徴ベクトルを構築する。

連結特徴ベクトルは、入力として多層パーセプトロン（ＭＬＰ）に提供されて、周囲環境における緊急車両の存在に関連する検出結果を生成する。

ＡＤＶは、当該検出結果を使用して、ローカルトラフィックルールに準拠するための適切なアクションを実行することができる。

音声データおよび視覚データの決定レベルの融合（ポスト融合）と比較して、本開示の実施形態は、緊急車両をより正確に検出することができる。

一実施形態において、自律走行車（ＡＤＶ）を操作する方法は、ＡＤＶの自律走行システム（ＡＤＳ）で音声信号ストリームおよび画像フレームシーケンスを受信する。

ここで、音声信号ストリームは、ＡＤＶに取り付けられた一つまたは複数の音声キャプチャデバイスを使用して、ＡＤＶの周囲環境からキャプチャされ、画像フレームシーケンスは、ＡＤＶに取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、周囲環境からキャプチャされるステップと、ＡＤＳによって、キャプチャされた音声信号ストリームから第１の特徴ベクトルを抽出し、およびキャプチャされた画像フレームシーケンスから第２の特徴ベクトルを抽出するステップを含む。

当該方法は、ＡＤＳによって、第１の特徴ベクトルと第２の特徴ベクトルとを結合して、連結特徴ベクトルを構築するステップと、及び連結特徴ベクトルに基づいて、第１のニューラルネットワークモデルを使用するＡＤＳによって、ＡＤＶの周囲環境に緊急車両が存在することを決定するステップをさらに含む。

一実施形態において、第１のニューラルネットワークモデルは、多層パーセプトロン（ＭＬＰ）ネットワークであり、緊急車両の位置をさらに出力し、緊急車両の移動方向を出力することができる。

ＡＤＶの位置を決定することに応答して、ＡＤＳは、緊急車両の位置および移動方向に基づいて、現在の走行車線からＡＤＶを操舵するか、またはＡＤＶをブレーキして減速することの少なくとも一つを含むＡＤＶを制御するステップをさらに含む。

一実施形態において、第１の特徴ベクトルを抽出するステップは、三つの異なるニューラルネットワークを使用して、キャプチャされた音声信号ストリームから三つの異なる特徴ベクトルを抽出することをさらに含む。

この三つの異なる特徴ベクトルは、基本的な音声特徴ベクトル、Ｍｅｌ周波数ケプストラム係数（ＭＦＣＣ）の特徴ベクトルおよびＭｅｌヒストグラム特徴ベクトルである。

次に、この三つの異なる特徴ベクトルは、単一の音声特徴ベクトルに連結されることができ、当該音声特徴ベクトルは、処理するためにＭＬＰに送ることができる。

本明細書に記載の実施形態は、実行可能なコンピュータープログラム命令が格納される非一時的な機械可読媒体を含むことができ、コンピュータープログラム命令が一つまたは複数のデータ処理システムによって実行される場合、当該実行可能なコンピュータープログラム命令は、一つまたは複数のデータ処理システムが、本明細書に記載の一つまたは複数の方法を実行することができるようにする。

当該命令は、フラッシュメモリまたは他の形式のメモリ等の不揮発性メモリに格納されることができる。
これらの実施形態は、システムの請求項として実行されることもできる。

上記の要約は、本開示におけるすべての実施形態の網羅的なリストを含まない。

すべてのシステムおよび方法は、本開示に説明される様々な態様および実施形態のすべての適切な組み合わせに従って実施されることができる。

自律走行車
図１は、本開示の一実施形態による自律走行ネットワーク構成を示すブロック図である。

図１を参照して、ネットワーク構成１００は、ネットワーク１０２を介して、一つまたは複数のサーバー１０３～１０４に通信可能に接続されることができる自律走行車（ＡＤＶ）１０１を含む。

一つのＡＤＶを示しているが、複数のＡＤＶは、ネットワーク１０２を介して互いに接続され、および／またはサーバー１０３～１０４に接続されることができる。

ネットワーク１０２は、任意のタイプのネットワーク、例えば、有線または無線のローカルエリアネットワーク（ＬＡＮ）、インターネット等のワイドエリアネットワーク（ＷＡＮ）、セルラーネットワーク、衛星ネットワークまたはその組み合わせであり得る。

サーバー１０３～１０４は、任意のタイプのサーバーまたはサーバークラスター、例えば、ネットワークまたはクラウドサーバー、アプリケーションサーバー、バックエンドサーバーまたはその組み合わせであり得る。

サーバー１０３～１０４は、データ分析サーバー、コンテンツサーバー、交通情報サーバー、地図および関心のあるポイント（ＭＰＯＩ）サーバーまたはロケーションサーバー等であり得る。

ＡＤＶとは、自律走行モードになるように構成できる車両を指し、当該自律走行モード下で、車両は、ドライバーからの入力がほとんどまたは全くない状態で環境内を移動する。
このようなＡＤＶは、センサーシステムを含むことができ、当該センサーシステムは、車両の動作環境に関連する情報を検出するように構成された一つまたは複数のセンサーを含むことができる。

当該車両およびそれに関連するコントローラーは、検出された情報を使用して当該環境内を移動する。

ＡＤＶ１０１は、手動モード下で、全自律走行モード下でまたは部分的自律走行モード下で動作することができる。

一実施形態において、ＡＤＶ１０１は、自律走行システム（ＡＤＳ）１１０、車両制御システム１１１、無線通信システム１１２、ユーザインターフェースシステム１１３、およびセンサーシステム１１５を含むが、これらに限定されない。

ＡＤＶ１０１は、エンジン、ホイール、ステアリングホイール、トランスミッション等の、普通の車両に含まれるいくつかの一般的なコンポーネントをさらに含むことができ、当該コンポーネントは、加速信号またはコマンド、減速信号またはコマンド、ステアリング信号またはコマンド、ブレーキ信号またはコマンド等の様々な通信信号および／またはコマンドを使用して、車両制御システム１１１および／またはＡＤＳ１１０によって制御されることができる。

コンポーネント１１０～１１５は、相互接続、バス、ネットワークまたはその組み合わせを介して互いに通信可能に接続される。

例えば、コンポーネント１１０～１１５は、コントローラーローカルエリアネットワーク（ＣＡＮ）バスを介して互いに通信可能に接続されることができる。

ＣＡＮバスは、ホストなしのアプリケーションでマイクロコントローラーおよびデバイスが相互に通信できるように設計された車両バス規格である。
これは、元々自動車の電気配線を多重化するために設計されたメッセージベースのプロトコルであるが、他の多くの環境でも使用される。

ここで図２を参照すると、一実施形態において、センサーシステム１１５は、一つまたは複数のカメラ２１１、全地球測位システム（ＧＰＳ）ユニット２１２、慣性測定ユニット（ＩＭＵ）２１３、レーダーユニット２１４および光検出および測距（ＬＩＤＡＲ）ユニット２１５を含むが、これらに限定されない。

ＧＰＳシステム２１２は、ＡＤＶの位置に関する情報を提供するように操作可能なトランシーバを含むことができる。

ＩＭＵユニット２１３は、慣性加速度に基づいて、ＡＤＶの位置および向きの変化を感知することができる。

レーダーユニット２１４は、無線信号を使用して、ＡＤＶのローカル環境内のオブジェクトを感知するシステムを表すことができる。

いくつかの実施形態において、オブジェクトを感知することに加えて、レーダーユニット２１４は、オブジェクトの速度および／または進行方向をさらに感知することができる。

ＬＩＤＡＲユニット２１５は、レーザーを使用して、ＡＤＶが配置される環境内のオブジェクトを感知することができる。
他のシステムコンポーネントに加えて、ＬＩＤＡＲユニット２１５は、一つまたは複数のレーザーソース、レーザースキャナーおよび一つまたは複数の検出器を含むことができる。

カメラ２１１は、ＡＤＶ周囲環境の画像をキャプチャするための一つまたは複数のデバイスを含むことができる、スチルカメラおよび／またはビデオカメラである。

カメラは、例えば、カメラを回転および／または傾斜プラットフォームに取り付けることによって、機械的に移動可能であり得る。

センサーシステム１１５は、ソナーセンサー、赤外線センサー、ステアリングセンサー、スロットルセンサー、ブレーキセンサーおよび音声センサー（例えば、マイクロフォン）等の他のセンサーをさらに含むことができる。

音声センサーは、ＡＤＶ周囲環境から音を収集するように構成されることができる。

ステアリングセンサーは、ステアリングホイール、車両のホイールまたはその組み合わせのステアリング角度を感知するように構成されることができる。

スロットルセンサーおよびブレーキセンサーは、それぞれ車両のスロットル位置およびブレーキ位置を感知する。
場合によっては、スロットルセンサーおよびブレーキセンサーは、統合されたスロットル／ブレーキセンサーとして統合されることができる。

一実施形態において、車両制御システム１１１は、ステアリングユニット２０１、スロットルユニット２０２（加速ユニットとも呼ばれる）およびブレーキユニット２０３を含むが、これらに限定されない。

ステアリングユニット２０１は、車両の方向または進行方向を調製するために使用される。スロットルユニット２０２は、モーターまたはエンジンの速度を制御するために使用され、モーターまたはエンジンの速度は、車両の速度および加速度を制御する。

ブレーキユニット２０３は、車両のホイールまたはタイヤを減速させるための摩擦を提供することによって車両を減速させる。

図２に示されるコンポーネントは、ハードウェア、ソフトウェアまたはその組み合わせで実装されることができることに留意したい。

図１に戻ると、無線通信システム１１２は、ＡＤＶ１０１と例えばデバイス、センサー、他の車両等の外部システムとの間の通信を可能にする。

例えば、無線通信システム１１２は、一つまたは複数のデバイスと直接無線通信することができるか、またはネットワーク１０２を介してサーバー１０３～１０４と通信する等の通信ネットワークを介して無線通信を実行することができる。

無線通信システム１１２は、例えば、ＷｉＦｉを使用して、任意のセルラー通信ネットワークまたは無線ローカルエリアネットワーク（ＷＬＡＮ）を使用して、別のコンポーネントまたはシステムと通信することができる。

無線通信システム１１２は、例えば、赤外線リンク、ブルートゥース（登録商標）等を使用して、デバイス（例えば、乗客のモバイルデバイス、ディスプレイデバイス、車両１０１内のスピーカー）と直接通信することができる。

ユーザインターフェースシステム１１３は、例えば、キーボード、タッチスクリーンディスプレイデバイス、マイクロフォンおよびスピーカー等を含む、車両１０１内に実装された周辺デバイスの一部であり得る。

ＡＤＶ１０１の機能の一部または全部は、特に自律走行モード下で操作される場合、ＡＤＳ１１０によって制御または管理されることができる。

ＡＤＳ１１０は、必要なハードウェア（例えば、プロセッサ、メモリ、記憶装置）およびソフトウェア（例えば、オペレーティングシステム、計画およびルーティングプログラム）を含んで、センサーシステム１１５、制御システム１１１、無線通信システム１１２および／またはユーザインターフェースシステム１１３から情報を受信し、受信した情報を処理し、出発点から目的地までのルートまたはパス（ｐａｔｈ）を計画し、次に計画および制御情報に基づいて車両１０１を運転する。

代わりに、ＡＤＳ１１０は、車両制御システム１１１と統合されることができる。

例えば、乗客としてのユーザは、例えば、ユーザインターフェースを介して、移動の開始場所および目的地を指定することができる。

ＡＤＳ１１０は、移動関連データを取得する。

例えば、ＡＤＳ１１０は、サーバー１０３～１０４の一部であり得るＭＰＯＩサーバーから位置およびルートデータを取得することができる。

ロケーションサーバーは、位置サービスを提供し、ＭＰＯＩサーバーは、地図サービスおよび特定の位置のＰＯＩを提供する。

代わりに、このような位置およびＭＰＯＩ情報は、ＡＤＳ１１０の永続記憶装置にローカルにキャッシュされることができる。

ＡＤＶ１０１がルートに沿って移動する場合、ＡＤＳ１１０も、交通情報システムまたはサーバー（ＴＩＳ）からリアルタイムの交通情報を取得することができる。

サーバー１０３～１０４は、第三者のエンティティによって操作されることに留意されたい。

代わりに、サーバー１０３～１０４の機能は、ＡＤＳ１１０と統合されることができる。

リアルタイムの交通情報、ＭＰＯＩ情報および位置情報ならびにセンサーシステム１１５によって検出または感知されたリアルタイムのローカル環境データ（例えば、障害物、オブジェクト、感知の車両）に基づいて、ＡＤＳ１１０は、最適なルートを計画し、かつ計画されたルートに従って、例えば、制御システム１１１を介して車両１０１を運転して、指定された目的地に安全かつ効率的に到達することができる。

サーバー１０３は、様々なクライアントのためにデータ分析サービスを実行するためのデータ分析システムであり得る。

一実施形態において、データ分析システム１０３は、データコレクタ１２１および機械学習エンジン１２２を含む。

データコレクタ１２１は、様々な車両（ＡＤＶまたは人間ドライバーによって運転される従来の車両）から走行統計データ１２３を収集する。

走行統計データ１２３は、発光された運転指示（例えば、スロットル、ブレーキ、ステアリングコマンド）および異なる時点での車両のセンサーによってキャッチャされた車両の応答（例えば、速度、加速、減速、方向）を示す情報を含む。

走行統計データ１２３は、異なる時点での運転環境を説明する情報、例えば、ルート（開始場所および目的位置を含む）、ＭＰＯＩ、道路状況、気象状況等をさらに含むことができる。

走行統計データ１２３に基づいて、機械学習エンジン１２２は、様々な目的のために、一組の規則、アルゴリズムおよび／または予測モデル１２４を生成または訓練する。

次に、アルゴリズム１２４にＡＤＶにロードして、自律走行プロセス中にリアルタイムで使用することができる。

図３Ａおよび図３Ｂは、一実施形態によるＡＤＶと一緒に使用される自律走行システムの例を示すブロック図である。

システム３００は、図１のＡＤＶ１０１の一部として実装することができ、ＡＤＳ１１０、制御システム１１１およびセンサーシステム１１５を含むが、これらに限定されない。

図３Ａ～図３Ｂを参照すると、ＡＤＳ１１０は、測位モジュール３０１、感知モジュール３０２、予測モジュール３０３、決定モジュール３０４、計画モジュール３０５、制御モジュール３０６、およびルーティングモジュール３０７を含むが、これらに限定されない。

モジュール３０１～３０７の一部または全部は、ソフトウェア、ハードウェアまたはその組み合わせで実装されることができる。

例えば、これらのモジュールは、永続記憶装置３５２にインストールされ、メモリ３５１にロードされ、一つまたは複数のプロセッサ（図示せず）によって実行されることができる。

これらのモジュールの一部または全部は、図２の車両制御システム１１１の一部または全部のモジュールに通信可能に結合または統合されることができることに留意したい。

モジュール３０１～３０７のいくつかは、統合モジュールとして一緒に統合されることができる。

測位モジュール３０１は、ＡＤＶ３００の現在位置を決定し（例えば、ＧＰＳユニット２１２を使用して）、ユーザの移動またはルートに関連する任意のデータを管理する。

測位モジュール３０１（地図およびルートモジュールとも呼ばれる）は、ユーザの移動またはルートに関連する任意のデータを管理する。

ユーザは、例えば、ユーザインターフェースを介してログインし、かつ移動の開始場所および目的地を指定することができる。

測位モジュール３０１は、地図およびルートデータ３１１等のＡＤＶ３００の他のコンポーネントと通信して、移動関連データを取得する。

例えば、測位モジュール３０１は、ロケーションサーバーおよび地図ならびにＰＯＩ（ＭＰＯＩ）サーバーから位置およびルートデータを取得することができる。

ロケーションサーバーは、位置サービスを提供し、ＭＰＯＩサーバーは、地図サービスおよび特定の位置のＰＯＩを提供することにより、地図およびルートデータ３１１の一部としてキャッシュされることができる。

ＡＤＶ３００がルートを沿って移動する場合、測位モジュール３０１も、交通情報システムまたはサーバーからリアルタイムの交通情報を取得することができる。

センサーシステム１１５によって提供されるセンサーデータおよび測位モジュール３０１によって取得される定位情報に基づいて、感知モジュール３０２は、周囲環境に関する感知を決定する。

感知情報は、ドライバーが運転している車両の周囲で通常のドライバーが感知するであろうものを表すことができる。
感知は、車線構成、信号機、別の車両の相対位置、歩行者、建物、横断歩道またはその他の交通関連標識（例えば、一時停止標識、降伏標識）等を、例えばオブジェクトの形態で含むことができる。

車線構成は、例えば、車線の形状（例えば、直線または曲線）、車線の幅、道路の車線数、一方向または双方向の車線、結合または分割された車線、出口車線等の、一つまたは複数の車線を説明する情報が含む。

感知モジュール３０２は、コンピューター視覚システムまたはコンピューター視覚システムの機能を含んで、一つまたは複数のカメラによって収集された画像を処理および分析することにより、ＡＤＶ環境内のオブジェクトおよび／または特徴を識別することができる。

オブジェクトは、信号機、道路の境界、他の車両、歩行者および／または障害物等を含むことができる。

コンピューター視覚システムは、オブジェクト認識アルゴリズム、ビデオトラッキングおよび他のコンピューター視覚技術を使用することができる。

いくつかの実施形態において、コンピューター視覚システムは、地図をマッピングし、オブジェクトを追跡し、オブジェクトの速度等をステイすることができる。

感知モジュール３０２も、レーダーおよび／またはＬＩＤＡＲ等の他のセンサーによって提供される他のセンサーデータに基づいて、オブジェクトを検出することができる。

感知モジュール３０２は、緊急車両検出モジュール３０８を含むことができ、緊急車両検出モジュール３０８は、音声データおよび視覚データの両方を使用して、ＡＤＶの周囲環境における緊急車両の存在を検出することができる。

各オブジェクトについて、予測モジュール３０３は、このような状況でオブジェクトがどのように動作するかを予測する。

予測は、感知データに基づいて実行され、当該感知データは、一組の地図／ルートデータ３１１およびトラフィックルール３１２が考慮される時点での運転環境を感知する。

例えば、オブジェクトが反対方向の車両であり、かつ現在の運転環境が交差点を含む場合、予測モジュール３０３は、車両が直進するか方向転換するかを予測する。

感知データが交差点に信号機がないことを示す場合、予測モジュール３０３は、車両が交差点に入る前に完全に停止する必要があるかもしれないと予測することができる。

感知データが、車両が現在左折または右折の唯一の車線にあることを示す場合、予測モジュール３０３は、車両がそれぞれ左または右に曲がる可能性が高いと予測することができる。

各オブジェクトについて、決定モジュール３０４は、オブジェクトをどのように処分するかについて决定を下す。

例えば、特定のオブジェクト（例えば、横断ルートないの別の車両）およびオブジェクトを説明するメタデータ（例えば、速度、方向、回転角度）に基づいて、決定モジュール３０４は、当該オブジェクトをどのように遭遇させるか（例えば、追い越し、降伏、停止、通過）を決定する。

決定モジュール３０４は、永続記憶装置３５２に格納されることができるトラフィックルールまたは運転規則３１２等の一連の規則に従ってそのような決定を行うことができる。
永続記憶装置３５２は、プロファイルテーブル３１３を含んでもよい。

ルーティングモジュール３０７は、出発点から目的地までの一つまたは複数のルートまたはパス（ｐａｔｈ）を提供するように構成される。

開始場所から目的位置までの所定の移動、例えば、ユーザから受信した所定の移動について、ルーティングモジュール３０７は、ルートおよび地図データ３１１を取得し、かつ開始場所から目的位置までのすべての可能なルートまたはパス（ｐａｔｈ）を決定する。

ルーティングモジュール３０７は、開始場所から目的位置までの各ルートを決定する地形図の形で基準線を生成することができる。

基準線とは、他の車両、障害物または交通状況からの干渉のない理想的なルートまたはパス（ｐａｔｈ）を指す。

即ち、道路上に他の車両、歩行者または障害物がない場合、ＡＤＶは、基準線に正確にまたは厳密に従う必要がある。

次に、地形図が決定モジュール３０４および／または計画モジュール３０５に提供される。

決定モジュール３０４および／または計画モジュール３０５は、すべての可能なルートをチェックして、他のモジュールによって提供される他のデータに基づいて最良のルートの一つを選択および変更し、ここで、他のデータは、例えば、測位モジュール３０１の交通状況、感知モジュール３０２によって感知された運転環境および予測モジュール３０３によって予測された交通状況である。

その時点での特定の運転環境に応じて、制御ＡＤＶを制御するために使用される実際のパス（ｐａｔｈ）またはルートは、ルーティングモジュール３０７によって提供される基準線に近いか、または異なる可能性がある。

感知されたオブジェクトのそれぞれの決定に基づいて、計画モジュール３０５は、ルーティングモジュール３０７によって提供される基準線を基礎として使用して、ＡＤＶをためにパス（ｐａｔｈ）またはルートまたは軌跡、および運転パラメーター（例えば、距離、速度および／または回転角度）を計画する。

言い換えれば、所定のオブジェクトについて、決定モジュール３０４は、当該オブジェクトをどうするかを決定し、計画モジュール３０５は、それをどのように行うことを決定する。

例えば、所定のオブジェクトについて、決定モジュール３０４は、当該オブジェクトを超えることを決定することができ、計画モジュール３０５は、当該オブジェクトの左側または右側のどちらを越えるかを決定することができる。

計画および制御データは、計画モジュール３０５によって生成され、車両３００が次の移動サイクル（例えば、次のルート／パス（ｐａｔｈ）区間）でどのように移動するかを説明する情報を含む。

例えば、計画および制御データは、車両３００に時速３０マイル（ｍｐｈ）で１０メートルを移動し、次に時速２５マイルで右車線に変更するように指示することができる。

計画および制御データに基づいて、制御モジュール３０６は、計画および制御データによって限定された軌道（ルートまたはパス（ｐａｔｈ）とも呼ばれる）に従って、適切なコマンドまたは信号をＣＡＮバスモジュール３２１を介して車両制御システム１１１に送信することによって、ＡＤＶを制御および運転する。

計画および制御データは、十分な情報を含む。

パス（ｐａｔｈ）またはルートに沿ったまま様々な時点で適切な車両設定または運転パラメーター（例えば、スロットル、ブレーキ、ステアリングコマンド）を使用して、車両をルートまたはパス（ｐａｔｈ）の第１のポイントから第２のポイントまで運転する。

一実施形態において、計画フェーズは、複数の計画サイクル（運転サイクルとも呼ばれる）、例えば、１００ミリ秒（ｍｓ）の時間間隔のサイクルで実行される。

計画サイクルまたは運転サイクルごとに、計画および制御データに基づいて一つまたは複数の制御コマンドが発行される。

即ち、１００ｍｓごとに、計画モジュール３０５は、例えば、ターゲット位置およびＡＤＶがターゲット位置に到達するのに必要な時間を含む、次の一つのルート区間またはパス（ｐａｔｈ）区間を計画する。
代わりに、計画モジュール３０５は、具体的な速度、方向および／またはステアリング角等を指定することができる。

一実施形態において、計画モジュール３０５は、次の所定の期間（例えば、５秒）の間、ルート区間またはパス（ｐａｔｈ）区間を計画する。
各計画期間について、計画モジュール３０５は、前のサイクルに計画されたターゲット位置に基づいて、現在の期間（例えば、次の５秒）のターゲット位置を計画する。

次に、制御モジュール３０６は、現在のサイクルの計画および制御データに基づいて、一つまたは複数の制御コマンド（例えば、スロットル、ブレーキ、ステアリング制御コマンド）を生成する。

決定モジュール３０４および計画モジュール３０５は、統合されたモジュールに統合されることができることに留意したい。
決定モジュール３０４／計画モジュール３０５は、ナビゲーションシステムまたはナビゲーションシステムの機能を含んで、ＡＤＶの運転パス（ｐａｔｈ）を確定することができる。

例えば、ナビゲーションシステムは、次のパス（ｐａｔｈ）に沿ったＡＤＶの動きに影響を与えるために使用される一連の速度および進行方向を決定することができる。

当該パス（ｐａｔｈ）により、ＡＤＶは、基本的に感知される障害物を回避しながら、道路ベースのパス（ｐａｔｈ）に沿って最終目的地まで進むことができ、目的地は、ユーザインターフェースシステム１１３を介したユーザ入力に従って認定することができる。

ナビゲーションシステムは、ＡＤＶの実行中に運転パス（ｐａｔｈ）を動的に更新されることができ、ＡＤＶ１０１の運転パス（ｐａｔｈ）を決定するために、ＧＰＳシステムからのデータと一つまたは複数の地図を組み込むことができる。

緊急車両の検出
図４は、一実施形態による緊急車両検出システム４００の例を示す。

緊急車両検出モジュール３０８は、機能レベルで音声データおよび視覚データを融合することができる。

緊急車両検出モジュール３０８は、音声サブモジュール４０７および視覚サブモジュール４０９を含む。

音声サブモジュール４０７は、ＡＤＶ１０１に取り付けられた音声センサー４０３によってＡＤＶの周囲環境からキャプチャされた音声データ４０４を受信し、音声データから音声特徴ベクトル４１１を抽出することができる。

視覚サブモジュール４０９は、視覚センサー４０５によってキャプチャされた視覚データ４０６を受信し、訓練されたニューラルネットワークモデル（例えば、畳み込みネットワーク（ＣＮＮ））をキャプチャされた視覚データに適用して、視覚特徴ベクトル４１７を抽出することができる。

音声特徴ベクトル４１１および視覚特徴ベクトル４１７は、音声－視覚特徴ベクトル４１０に連結されることができ、音声－視覚特徴ベクトル４１０は、入力として多層パーセプトロン（ＭＬＰ）４１９に供給することができる。

一実施形態において、音声センサー４０３（音声キャプチャデバイスとも呼ばれる）は、ＡＤＶ１０１の異なる位置に取り付けられる複数のマイクロフォンを含むことができる。
マイクロフォンは、ＡＤＶ上の固定された既知の位置でマイクロフォンアレイを形成することができ、マイクロフォンアレイは、ＡＤＶ１０１の周囲の様々な方向の音を感知するように配置される。

視覚センサーまたは画像センサー４０５（画像キャプチャデバイスとも呼ばれる）は、ＡＤＶ１０１上の異なる位置に取り付けられる複数のカメラを含むことができる。

音声センサー４０３および視覚センサー４０５は、それらが同期される同じオブジェクト（例えば、緊急車両）から音声信号および画像をキャプチャできるように校正することができる。

従って、任意の指定された運転サイクルにおいて、周囲環境からキャプチャされた音声信号ストリームおよび周囲環境からキャプチャされた画像フレームシーケンスを同期させることができる。

一実施形態において、音声サブモジュール４０７は、一つまたは複数の所定のアルゴリズムまたは一つまたは複数のニューラルネットワークモデルを実装するソフトウェアモジュールであり得る。

視覚サブモジュール４０９は、訓練されたニューラルネットワークモデル（例えば、畳み込みネットワーク（ＣＮＮ））であり得る。

一実施形態において、音声サブモジュール４０７は、周囲環境からキャプチャされた音声信号ストリームを数値表現（即ち、数値アレイ）に変換することができる。

次に、音声サブモジュール４０７は、数値アレイを複数のブロックに分割して、画像フレームシーケンス内の画像フレームの数に一致させることができる。
異なる中小レベルの特徴を数値アレイのブロックから抽出して、音声特徴ベクトル４１１を形成することができる。

図５では、数値アレイから特徴を抽出する詳細について説明した。

一実施形態において、視覚サブモジュール４０９は、緊急車両識別のために訓練されたＣＮＮモデルを使用して、視覚特徴を抽出することができる。

画像フレームシーケンスによって現れる視覚データは、入力として訓練されたＣＮＮに供給されることができる。

各画像フレームは、ＣＮＮを介して順方向に伝播することができる。
しかしながら、画像フレームをＣＮＮの各層を介して順方向に伝播して出力層に到達させる代わりに、ＣＮＮは、事前に指定された層（例えば、活性化またはプーリング層）で伝播を停止し、視覚特徴ベクトル４１７として事前に指定された層で値を抽出することができる。

ＣＮＮは、ＡＤＶが現在走行している特定の道路区間を走行した複数の緊急車両から收集されたか、または異なる道路区間を走行した緊急車両から収集された視覚データを使用して、訓練することができる。

一実施形態において、緊急車両検出モジュール３０８は、音声特徴ベクトル４１１と視覚特徴ベクトル４１７とを音声－視覚特徴ベクトル４１０に連結することができる。

二つの特徴ベクトル４１１と４１７とを連結するプロセスは、音声データと視覚データとの特徴レベルの融合を実行するプロセスである。

一実施形態において、二つの特徴ベクトル４１１と４１７とは、任意の変更を加えることなく、単一のベクトルに直接的に連結されることができる。

このような方法を介して、各ブロックからの音声特徴を、対応する画像フレームからの視覚特徴と連結することができる。

別の実装形態において、重み付き特徴レベル融合法が使用され、ここで、重み付き係数に従って、各特徴ベクトル４１１および４１７から特徴を選択することができる。

重み付き係数は、経験的に決定された信号対雑音比であり、様々な気象条件下で１日中の異なる時間に特定の道路区間の騒音レベルを測定するために使用されることができる。

当該比率は、ＡＤＶ１０１が道路区間を走行している際の時間および天候に基づいてＡＤＶ１０１によって自動的に調整されることができる。

一実施形態において、周囲環境が騒がしいほど、より多くの音声特徴を選択して、音声データからの低品質の情報を補償する必要がある。

別の方法は、訓練されたニューラルネットワークを使用して、この二つの特徴ベクトル４１１と４１７とを融合することであり、当該ニューラルネットワークは、どの特徴が音声特徴ベクトル４１１および視覚特徴ベクトル４１７から取得されて、連結された音声－視覚特徴ベクトル４１０を形成するかを決定することができる。

図４にさらに示されるように、ＭＬＰ４１９は、連結された音声－視覚特徴ベクトル４１０を入力として受け取り、周囲環境における緊急車両の可能性を示す確率４２１、緊急車両の位置４２３および緊急車両の移動方向４２５を出力する。

一実施形態において、ＭＬＰ４１９は、入力層と出力層との間に一つまたは複数の層を有するフィードフォワードニューラルネットワークであり得る。

ＭＬＰ４１９において、データは、入力層から出力層に一方向に流れる。

ＭＬＰ４１９は、バックプロパゲーション学習アルゴリズムを使用して訓練されることができる。

当該バックプロパゲーション学習アルゴリズムは、音声データおよび視覚データから抽出された連結視聴覚特徴を使用し、当該音声データおよび視覚データは、当該特定の道路区間またはまたは任意の道路区間を走行する複数の緊急車両から収集される。

一実施形態において、緊急車両の位置４２３は、緊急車両の方向および緊急車両からＡＤＶ１０１までの距離によって測定される。

緊急車両の方向は、ＡＤＶ１０１を表す線とＡＤＶ１０１から緊急車両まで伸びる線との間の角度によって表すことができる。
ＡＤＶ１０１を表す線は、ＡＤＶ１０１の走行方向に沿ってＡＤＶ１０１を通過する線であり得る。

緊急車両の移動方向４２５は、緊急車両がＡＤＶ１０１に向かって移動しているか、またはＡＤＶ１０１から離れて移動しているかを示す。

一実施形態において、緊急車両検出モジュール３０８からの出力情報は、自律走行システム１１０によって使用されて、ＣＡＮバスモジュール３２１を介して車両制御システム１１１に送信されるコマンドまたは信号を生成することができる。

当該コマンドまたは信号に基づいて、車両制御システム１１１は、適切なアクションを取るようにＡＤＶ１０１を制御することができる。

一実施形態において、緊急車両がＡＤＶ１０１に向かって移動していることに応答して、ＡＤＶ１０１は、現在の走行車線またはブレーキを誘導して減速するか、または道路の脇に誘導することができる。

緊急車両がＡＤＶ１０１から離れると、ＡＤＶ１０１は、邪魔されることなく、現在のパス（ｐａｔｈ）に沿って移動し続けることができる。

図５は、一実施形態による緊急車両検出システム４００をさらに示す。
より具体的には、図５は、音声サブモジュール４０７を詳細に示す。

一実施形態において、音声サブモジュール４０７は、異なるレベルの音声特徴を抽出するための複数の機械学習モデルを含むことができる。

ニューラルネットワークモデル（例えば、ＣＮＮ）５０３は、音声センサー４０３によってキャプチャされた生の音声データから音声信号５０９を抽出することに使用されることができる。

上記のように、音声センサー４０３によってキャプチャされた音声信号ストリームは、数値アレイに変換されることができ、次に、視覚センサー４０５によってキャプチャされた画像フレームシーケンスにおける画像フレームの数に等しいブロック（ウィンドウ）に分割されることができる。

抽出された音声信号５０９は、特徴（例えば、音声信号の各ウィンドウ（ブロック）の周波数、振幅およびフレーズ）を含むベクトルであり得る。

一実施形態において、Ｍｅｌ周波数ケプストラム係数（ＭＦＣＣ）特徴抽出器５０５は、音声センサー４０３によってキャプチャされた生の音声データからＭＦＣＣ特徴５１１を抽出することができる。

抽出されたＭＦＣＣ特徴５１１は、特徴ベクトルである。

ＭＦＣＣ特徴抽出器５０５は、訓練されたニューラルネットワークモデルまたはＭＦＣＣ抽出アルゴリズムを実装するソフトウェアアプリケーションであり得る。

一実施形態において、当該アルゴリズムは、音声データ内の音声信号のウィンドウ処理、離散フーリエ変換（ＤＦＴ）の適用、マグニチュードの対数の取得、およびＭｅｌ尺度での周波数の変換等の、音声データからＭＦＣＣ特徴を抽出する操作を実行することができ、続いて逆ＤＣＴを適用する。

Ｍｅｌスペクトログラム抽出器５０７は、音声センサー４０３によってキャプチャされた生の音声データからＭｅｌスペクトログラム特徴５１５を抽出することができる。

Ｍｅｌスペクトログラムは、周波数をＭｅｌ尺度に変換されたスペクトログラムである。
スペクトログラムは、時間の経過に伴う信号周波数の周波数スペクトルを直感的に表したものである。

Ｍｅｌスペクトログラム抽出器５０７は、訓練されたニューラルネットワークモデルまたはＭｅｌスペクトログラム特徴抽出アルゴリズムを実装するソフトウェアアプリケーションであり得る。

抽出されたＭｅｌスペクトログラム特徴５１１は、特徴ベクトルであり得る。

一実施形態において、音声信号特徴ベクトル５０９、ＭＦＣＣ特徴ベクトル５１１およびＭｅｌスペクトログラム特徴ベクトル５１５は、一緒に連結されて、音声特徴ベクトル４１１を形成することができ、音声特徴ベクトル４１１は、視覚特徴ベクトル４１７とさらに連結されて、音声－視覚特徴ベクトル４１０を形成する。

一実施形態において、三つの特徴ベクトル５０９、５１１および５１５は、フレーム／ブロックレベルで同期され、これらのベクトルの連結は、特徴ベクトルを単一の特徴ベクトルに簡単に組み合わせることによって実行されることができる。

図６は、一実施形態による緊急車両を検出するプロセス６００を示す。

プロセス６００は、ソフトウェア、ハードウェアまたはその組み合わせを含み得る処理ロジックによって実行されることができる。

例えば、プロセス６００は、図４に説明された自律走行システムによって実行されることができる。

図６に示されるように、操作６０１において、処理ロジックは、音声信号ストリームおよび画像フレームシーケンスを受信し、音声信号ストリームは、ＡＤＶの周囲環境からＡＤＶに取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされ、画像フレームシーケンスは、ＡＤＶに取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、周囲環境からキャプチャされる。

操作６０２において、処理ロジックは、キャプチャされた音声信号ストリームから第１の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第２の特徴ベクトルを抽出する。

操作６０３において、処理ロジックは、第１の特徴ベクトルと第２のベクトルとを連結して、連結特徴ベクトル（concatenated feature vector）を構築する。

操作６０４において、処理ロジックは、連結特徴ベクトルに基づいて、第１のニューラルネットワークモデルを使用して、ＡＤＶの周囲環境に緊急車両が存在することを決定する。
上記に示され、説明されたコンポーネントの一部または全部は、ソフトウェア、ハードウェアまたはその組み合わせで実装されることができることに留意したい。

例えば、このようなコンポーネントは、永続記憶装置にインストールおよび保存されるソフトウェアとして実装されることができ、当該ソフトウェアは、プロセッサ（図示せず）によってメモリにロードされ、メモリ内で実行されて、本発明に記載のプロセスまたは操作を実装することができる。

代わりに、このようなコンポーネントは、専用ハードウェア（例えば、集積回路（例えば、特定用途向け集積回路またはＡＳＩＣ）、デジタルシグナルプロセッサ（ＤＳＰ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ））にプログラムまたは埋め込まれた実行可能なコードとして実装されルことができ、当該実行可能なコードは、アプリケーションから対応するドライバーおよび／またはオペレーティングシステムを介してアクセスすることができる。

さらに、このようなコンポーネントは、一つまたは複数の特定の命令を介してソフトウェアコンポーネントによってアクセス可能な命令セットの一部として、プロセッサまたはプロセッサコア内の特定のハードウェアロジックとして実装されることができる。
前述の詳細な説明の一部は、コンピューターメモリ内のデータビットに対する操作のアルゴリズムおよび記号表現に基づいて提示される。

これらのアルゴリズムの説明および表現は、データ処理の分野の技術者が自分の仕事の本質をその分野の他の技術者に最も効果的につた出るために使用される方法である。

本明細書において、アルゴリズムは、通常、望ましい結果につながる自己無撞着な一連の操作であるとみなされる。

これらの操作は、物理量の物理的な操作を必要とする操作である。
しかしながら、これらおよび類似の用語のすべては、適切な物理量に関連付けられるべきであり、これらの量に適用される単なる便利なラベルであることに留意したい。

上記の議論から明らかな様に、特に別段の記載がない限り明細書全体において、用語（例えば、添付の特許請求の範囲に記載された用語）を使用する議論は、コンピューターシステムまたは同様の男子コンピューティングデバイスのアクションおよび処理を指す。

前記コンピューターシステムまたは電子コンピューティングデバイスは、コンピューターシステムのレジスタおよびメモリ内の物理的（電子的）量としてあらわされるデータを操作し、コンピューターシステムメモリまたはレジスタまたは他のそのような情報記憶装置、送信またはディスプレイデバイス内の物理量として同様に表される他のデータに変換する。

本開示の実施形態は、本明細書の操作を実行するための装置にさらに関する。

このようなコンピュータープログラムは、非一時的なコンピューター可読媒体に保存される。

機械可読媒体は、機械（例えば、コンピューター）によって可読可能な形式で情報を格納するための任意のメカニズムを含む。

例えば、機械可読（例えば、コンピューター可読）媒体は、機械（例えば、コンピューター）可読記憶媒体（例えば、読み取り専用メモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス）を含む。

前述の図に説明されるプロセスまたは方法は、ハードウェア（例えば、回路、専用ロジック等）、ソフトウェア（例えば、非一時的なコンピューター可読媒体上に具現化される）または両方の組み合わせを含む、処理ロジックによって実行されることができる。

前記プロセスまたは方法は、いくつかの順次操作に関して上記で説明されたが、前記操作中のいくつかは、異なる順序で実行されることができ、さらにいくつかの操作は、順次ではなく並行して実行されることができる。

本開示の実施形態は、特定のプログラミング言語を参照して説明されていない。

本明細書に記載されるように、本開示の実施形態の教示を実施するために、様々なプログラミング言語を使用できる。

上記の明細書において、本開示の実施形態は、その特定の例示的な実施形態を参照して説明される。

以下の特許請求の範囲に記載されるように、本開示のより広い精神および範囲から逸脱することなく、それに様々な修正を加えることができることは明らかであろう。
従って、本明細書および図面は、限定的な意味ではなく例示的な意味で見なされるべきである。

Claims

自律走行車を操作するためのコンピューター実装方法であって、
前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信する、ステップであって、前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされたものであり、前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、前記自律走行車の周囲環境からキャプチャされるものである、ステップと、
前記自律走行システムがキャプチャされた音声信号ストリームから第１の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第２の特徴ベクトルを抽出するステップと、
前記自律走行システムが前記第１の特徴ベクトルと前記第２の特徴ベクトルとを連結して、連結特徴ベクトルを構築するステップと、及び
前記連結特徴ベクトルに基づいて、前記自律走行システムによって第１のニューラルネットワークモデルを使用して、前記自律走行車の周囲環境に緊急車両が存在することを決定するステップ、とを含み、
前記第１の特徴ベクトルを抽出するステップは、
第２のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第３の特徴ベクトルを抽出する、ステップであって、前記第３の特徴ベクトルは、基本的な音声特徴ベクトルである、ステップと、
第３のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第４の特徴ベクトルを抽出する、ステップであって、前記第４の特徴ベクトルは、Ｍｅｌ周波数ケプストラム係数（ＭＦＣＣ）の特徴ベクトルである、ステップと、及び
前記第３の特徴ベクトルと前記第４の特徴ベクトルとを連結して単一の特徴ベクトルを形成するステップを含む、コンピューター実装方法。
前記第１のニューラルネットワークモデルは、多層パーセプトロン（ＭＬＰ）ネットワークである
請求項１に記載のコンピューター実装方法。
前記第１のニューラルネットワークモデルを使用して、前記緊急車両の位置および前記緊急車両の移動方向を決定するステップをさらに含む
請求項１に記載のコンピューター実装方法。
前記自律走行車の周囲環境に緊急車両が存在するとの前記決定に応答して、前記緊急車両の前記位置および前記移動方向に基づいて、現在の走行車線から前記自律走行車を操舵するか、または前記自律走行車をブレーキして減速させることの少なくとも一つを含むように前記自律走行車を制御するステップをさらに含む
請求項３に記載のコンピューター実装方法。
第４のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第５の特徴ベクトルを抽出する、ステップであって、前記第５の特徴ベクトルは、Ｍｅｌヒストグラムの特徴ベクトルである、ステップと、及び
前記第３の特徴ベクトル、前記第４の特徴ベクトルおよび前記第５の特徴ベクトルを連結して前記単一の特徴ベクトルを形成するステップをさらに含む
請求項１に記載のコンピューター実装方法。
前記自律走行システムは、畳み込みニューラルネットワークを使用して前記第２の特徴ベクトルを抽出する
請求項１に記載のコンピューター実装方法。
前記一つまたは複数の音声キャプチャデバイスは、一つまたは複数のマイクロフォンを含み、前記一つまたは複数の画像キャプチャデバイスは、一つまたは複数のカメラを含む
請求項１に記載のコンピューター実装方法。
命令が格納された非一時的な機械可読媒体であって、
前記命令がプロセッサによって実行される場合、前記プロセッサが自律走行車（ＡＤＶ）を操作させる操作を実行し、
前記操作は、
前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信する、ことであって、前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされたものであり、前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、前記自律走行車の周囲環境からキャプチャされるものである、ことと、
前記自律走行システムがキャプチャされた音声信号ストリームから第１の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第２の特徴ベクトルを抽出することと、
前記自律走行システムが前記第１の特徴ベクトルと前記第２の特徴ベクトルとを連結して、連結特徴ベクトルを構築することと、及び
前記連結特徴ベクトルに基づいて、前記自律走行システムによって第１のニューラルネットワークモデルを使用して、前記自律走行車の周囲環境に緊急車両が存在することを決定することを含み、
前記第１の特徴ベクトルを抽出することは、
第２のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第３の特徴ベクトルを抽出する、ことであって、前記第３の特徴ベクトルは、基本的な音声特徴ベクトルである、ことと、
第３のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第４の特徴ベクトルを抽出する、ことであって、前記第４の特徴ベクトルは、Ｍｅｌ周波数ケプストラム係数（ＭＦＣＣ）の特徴ベクトルである、ことと、及び
前記第３の特徴ベクトルと前記第４の特徴ベクトルとを連結して単一の特徴ベクトルを形成することを含む、非一時的な機械可読媒体。
前記第１のニューラルネットワークモデルは、多層パーセプトロン（ＭＬＰ）ネットワークである
請求項８に記載の非一時的な機械可読媒体。
前記操作は、
前記第１のニューラルネットワークモデルを使用して、前記緊急車両の位置および前記緊急車両の移動方向を決定することをさらに含む
請求項８に記載の非一時的な機械可読媒体。
前記操作は、
前記自律走行車の周囲環境に緊急車両が存在するとの前記決定に応答して、前記緊急車両の前記位置および前記移動方向に基づいて、現在の走行車線から前記自律走行車を操舵するか、または前記自律走行車をブレーキして減速させることの少なくとも一つを含むように前記自律走行車を制御することをさらに含む
請求項１０に記載の非一時的な機械可読媒体。
前記操作は、
第４のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第５の特徴ベクトルを抽出する、ことであって、前記第５の特徴ベクトルは、Ｍｅｌヒストグラムの特徴ベクトルである、ことと、及び
前記第３の特徴ベクトル、前記第４の特徴ベクトルおよび前記第５の特徴ベクトルを連結して前記単一の特徴ベクトルを形成することをさらに含む
請求項８に記載の非一時的な機械可読媒体。
前記自律走行システムは、畳み込みニューラルネットワークを使用して前記第２の特徴ベクトルを抽出する
請求項８に記載の非一時的な機械可読媒体。
前記一つまたは複数の音声キャプチャデバイスは、一つまたは複数のマイクロフォンを含み、前記一つまたは複数の画像キャプチャデバイスは、一つまたは複数のカメラを含む
請求項８に記載の非一時的な機械可読媒体。
プロセッサと、
命令を格納するために前記プロセッサに接続され、前記命令が前記プロセッサによって実行される場合、前記プロセッサが自律走行車（ＡＤＶ）を操作させる操作を実行するメモリと、を備えるデータ処理システムであって、
前記操作は、
前記自律走行車の自律走行システムで音声信号ストリームおよび画像フレームシーケンスを受信する、ことであって、前記音声信号ストリームは、前記自律走行車の周囲環境から前記自律走行車に取り付けられた一つまたは複数の音声キャプチャデバイスによってキャプチャされたものであり、前記画像フレームシーケンスは、前記自律走行車に取り付けられた一つまたは複数の画像キャプチャデバイスを使用して、前記自律走行車の周囲環境からキャプチャされるものである、ことと、
前記自律走行システムがキャプチャされた音声信号ストリームから第１の特徴ベクトルを抽出し、キャプチャされた画像フレームシーケンスから第２の特徴ベクトルを抽出することと、
前記自律走行システムが前記第１の特徴ベクトルと前記第２の特徴ベクトルとを連結して、連結特徴ベクトルを構築することと、及び
前記連結特徴ベクトルに基づいて、前記自律走行システムによって第１のニューラルネットワークモデルを使用して、前記自律走行車の周囲環境に緊急車両が存在することを決定することを含み、
前記第１の特徴ベクトルを抽出することは、
第２のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第３の特徴ベクトルを抽出する、ことであって、前記第３の特徴ベクトルは、基本的な音声特徴ベクトルである、ことと、
第３のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第４の特徴ベクトルを抽出する、ことであって、前記第４の特徴ベクトルは、Ｍｅｌ周波数ケプストラム係数（ＭＦＣＣ）の特徴ベクトルである、ことと、及び
前記第３の特徴ベクトルと前記第４の特徴ベクトルとを連結して単一の特徴ベクトルを形成することを含む、データ処理システム。
前記第１のニューラルネットワークモデルは、多層パーセプトロン（ＭＬＰ）ネットワークである
請求項１５に記載のデータ処理システム。
前記操作は、
前記第１のニューラルネットワークモデルを使用して、前記緊急車両の位置および前記緊急車両の移動方向を決定することをさらに含む
請求項１５に記載のデータ処理システム。
前記操作は、
前記自律走行車の周囲環境に緊急車両が存在するとの前記決定に応答して、前記緊急車両の前記位置および前記移動方向に基づいて、現在の走行車線から前記自律走行車を操舵するか、または前記自律走行車をブレーキして減速させることの少なくとも一つを含むように前記自律走行車を制御することをさらに含む
請求項１７に記載のデータ処理システム。
前記操作は、
第４のニューラルネットワークモデルを使用して、キャプチャされた音声信号ストリームから第５の特徴ベクトルを抽出する、ことであって、前記第５の特徴ベクトルは、Ｍｅｌヒストグラムの特徴ベクトルである、ことと、及び
前前記第３の特徴ベクトル、前記第４の特徴ベクトルおよび前記第５の特徴ベクトルを連結して前記単一の特徴ベクトルを形成することをさらに含む
請求項１５に記載のデータ処理システム。
コンピュータープログラムであって、
前記コンピュータープログラムがプロセッサにより実行されると、請求項１ないし請求項７のいずれか一項に記載のコンピューター実装方法を実現させるコンピュータープログラム。