JP2015537237A

JP2015537237A - リアルタイム交通検出

Info

Publication number: JP2015537237A
Application number: JP2015536285A
Authority: JP
Inventors: ローハン・バネルジー; アニルッダ・シンハ
Original assignee: タタ・コンサルタンシー・サーヴィシズ・リミテッド
Priority date: 2012-10-12
Filing date: 2013-10-10
Publication date: 2015-12-24
Anticipated expiration: 2033-10-10
Also published as: EP2907121B1; EP2907121A1; JP6466334B2; US9424743B2; US20150248834A1; CN104781862B; CN104781862A; WO2014057501A1

Abstract

リアルタイム交通検出のためのシステムおよび方法が説明される。一実装形態では、本方法は、ユーザデバイス(102-1、102-2、102-3、102-4)内で周囲の音をオーディオサンプルとしてキャプチャして、オーディオサンプルを複数のオーディオフレームに分割するステップを備える。さらに、本方法は、複数のオーディオフレームの中から周期的フレームを識別するステップを備える。識別された周期的フレームのスペクトル特性が抽出されて、スペクトル特性に基づいてクラクション音が識別される。次いで、識別されたクラクション音がリアルタイム交通検出のために使用される。

Description

本主題は、一般的に交通検出に関し、特に、リアルタイム交通検出のためのシステムおよび方法に関する。

交通渋滞は、特に都市部で増加し続けている問題である。通常、都市部は人口が多いので、交通渋滞、事故、および他の問題に起因する遅延を被ることなしに移動することが困難になっている。問題を回避するべく旅行者に正確でリアルタイムな交通情報を提供するために、交通渋滞を監視することが必要となってきている。

過去数年間に、交通渋滞を検出するためのいくつかの交通検出システムが開発されている。そのような交通検出システムには、様々な地理的位置における交通渋滞を検出するためのネットワークを通じてバックエンドサーバなどの中央サーバと通信しているモバイル電話およびスマートフォンなどの複数のユーザデバイスを備えるシステムがある。ユーザデバイスは、周囲の音、すなわちユーザデバイスを取り巻く環境内に存在する音をキャプチャして、その音が交通検出のために処理される。交通検出システムのうちのいくつかでは、処理は完全にユーザデバイスで実行されて、処理されたデータは交通検出のために中央サーバに送信される。一方、他の交通検出システムでは、処理は交通検出のために完全に中央サーバによって実行される。したがって、単一のエンティティ、すなわちユーザデバイスまたは中央サーバのいずれかの上で処理オーバヘッドが増加して、それによって遅い応答時間、および交通情報をユーザに提供する際の遅延につながる。

この概要は、リアルタイム交通検出に関する概念を紹介するために提供される。これらの概念は、以下の詳細な説明においてさらに説明される。この概要は、特許請求される主題の主要な特徴を特定することを意図するものではなく、また、特許請求される主題の範囲を決定または限定する際に使用することを意図するものでもない。

リアルタイム交通検出のためのシステムおよび方法が説明される。一実施形態では、本方法は、周囲の音をオーディオサンプルとしてキャプチャして、オーディオサンプルを複数のオーディオフレームに分割するステップを備える。さらに、本方法は、複数のオーディオフレームの中から周期的フレームを識別するステップを備える。識別された周期的フレームのスペクトル特性が抽出されて、スペクトル特性に基づいてクラクション音が識別される。次いで、識別されたクラクション音がリアルタイム交通検出のために使用される。

添付の図面を参照して、詳細な説明が提供される。図面において、参照番号の左端の数字は、参照番号が最初に現れる図面を識別する。同じ数字は、同様の特徴およびコンポーネントを参照するために図面を通じて使用される。

本主題の実施形態による、交通検出システムを示す図である。本主題の実施形態による、交通検出システムの詳細を示す図である。本交通検出システムによって交通渋滞を検出するためにかかる合計時間と、従来の交通検出システムによって交通渋滞を検出するためにかかる合計時間との比較を示す、例示的な表形式の表現を示す図である。本主題の別の実施形態による、リアルタイム交通検出のための方法を示す図である。本主題の別の実施形態による、リアルタイム交通検出のための方法を示す図である。

従来、様々な地理的位置における交通渋滞を検出して、交通渋滞に起因する問題を回避するべくユーザに交通情報を提供するために、様々な音声ベースの交通検出システムが利用可能である。そのような音声ベースの交通検出システムは、周囲の音をキャプチャして、その音が交通検出のために処理される。周囲の音の処理は、一般的に、周囲の音のスペクトル特性を抽出するステップと、スペクトル特性に基づいて周囲の音のレベル、すなわちピッチまたは音量を決定するステップと、交通渋滞を検出するために、検出されたレベルをあらかじめ定義されたしきい値と比較するステップとを含む。たとえば、比較が、周囲の音の検出されたレベルがあらかじめ定義されたしきい値を上回ることを示す場合、ユーザデバイスの地理的位置の交通渋滞が検出されて、旅行者などのユーザに交通情報が提供される。

しかしながら、そのような従来の交通検出システムには多数の欠点がある。従来の交通検出システムにおける周囲の音の処理は、一般的に、ユーザデバイスか中央サーバのいずれかによって実行される。どちらの場合でも、単一のエンティティ、すなわちユーザデバイスまたは中央サーバ上で処理オーバヘッドが増加して、それによって遅い応答時間につながる。遅い応答時間のために、交通情報をユーザに提供する際に時間遅延がある。したがって、従来のシステムは、ユーザにリアルタイム交通情報を提供することができない。さらに、処理全体がユーザデバイスで実行される場合、ユーザデバイスのバッテリ消費が途方もなく増加して、ユーザに困難をもたらす。

さらに、従来の交通検出システムは、交通渋滞を検出するために周囲の音のピッチまたは音量に依存している。しかしながら、周囲の音は、通常は、人間の話し声、環境騒音、車両のエンジン騒音、車内で再生されている音楽、クラクション音などを含む、異なるタイプの音の混合である。人間の話し声と車内で再生されている音楽のピッチが高すぎる場合、車内に配置されたユーザデバイスが、ボリュームの大きい人間の話し声と音楽を含むこれらの周囲の音を、他の音とともにキャプチャする。そのような場合、これらの周囲の音のレベルがあらかじめ定義されたしきい値よりも高いと識別され、誤って交通渋滞が検出されて、誤った交通情報がユーザに提供されてしまう。したがって、これらの従来の交通検出システムは、信頼できる交通情報を提供することができない。

本主題によれば、リアルタイム交通渋滞を検出するためのシステムおよび方法が説明される。一実施形態では、交通検出システムは、複数のユーザデバイスと、中央サーバ(以下ではサーバと呼ばれる)とを備える。ユーザデバイスは、リアルタイム交通検出のためにネットワークを通じてサーバと通信する。本明細書で言及されるユーザデバイスは、これに限定されないが、モバイル電話およびスマートフォンなどの通信デバイス、あるいは携帯情報端末(PDA)およびラップトップなどのコンピューティングデバイスを含み得る。

一実装形態では、ユーザデバイスは、周囲の音、すなわちユーザデバイスを取り巻く環境内に存在する音をキャプチャする。周囲の音は、たとえば、タイヤ騒音、車内で再生されている音楽、人間の話し声、クラクション音、およびエンジン騒音を含み得る。加えて、周囲の音は、環境騒音を含む背景騒音、および背景交通騒音を含み得る。周囲の音は、短い持続時間、たとえば数分のオーディオサンプルとしてキャプチャされる。したがって、ユーザデバイスによってキャプチャされたオーディオサンプルは、ユーザデバイスのローカルメモリに格納することができる。

次いで、交通渋滞を検出するために、オーディオサンプルが部分的にユーザデバイスによって、および部分的にサーバによって処理される。ユーザデバイス側で、オーディオサンプルが複数のオーディオフレームに分割される。分割に続いて、背景騒音が複数のオーディオフレームからフィルタリングされる。背景騒音は、高周波数のピークを生成する音に影響を与える場合がある。したがって、背景騒音は、複数のフィルタリングされたオーディオフレームを生成するために、複数のオーディオフレームからフィルタリングされる。複数のフィルタリングされたオーディオフレームは、ユーザデバイスのローカルメモリに格納することができる。

一旦複数のオーディオフレームがフィルタリングされると、オーディオフレームが3つのタイプのフレーム、すなわち周期的フレーム、非周期的フレーム、および無音フレームに分けられる。周期的フレームはクラクション音と人間の話し声の混合を含むことができ、非周期的フレームはタイヤ騒音、車内で再生されている音楽、およびエンジン騒音の混合を含むことができる。無音フレームは、いかなる種類の音も含まない。

次いで、上記で言及した3つのタイプのフレームから、さらなる処理のために周期的フレームが選択される。周期的フレームを選択または識別するために、非周期的フレームおよび無音フレームは、それぞれオーディオフレームのパワースペクトル密度(PSD)および短期エネルギーレベル(En)に基づいて拒否される。

一実装形態では、識別された周期的フレームのスペクトル特性がユーザデバイスによって抽出される。本出願で使用されるスペクトル特性は、参照により本明細書に組み込まれる、同時係属のインド特許出願第462/MUM/2012号において開示される。本明細書で言及されるスペクトル特性は、これに限定されないが、メル周波数ケプストラム係数(MFCC)、逆メル周波数ケプストラム係数(inverse MFCC)、および修正メル周波数ケプストラム係数(modified MFCC)のうちの1つまたは複数を含み得る。周期的フレームはクラクション音と人間の話し声の混合を含むので、抽出されたスペクトル特性は、クラクション音と人間の話し声の両方の特性に対応する。次いで、抽出されたスペクトル特性は、交通検出のために、ネットワークを介してサーバに送信される。

サーバ側では、特定の地理的位置における複数のユーザデバイスからスペクトル特性が受信される。スペクトル特性に基づいて、1つまたは複数の知られている音声モデルを使用してクラクション音と人間の話し声が分離される。一実装形態では、音声モデルは、クラクション音モデルと交通音モデルを含む。クラクション音モデルは、クラクション音だけを検出するように構成されており、交通音モデルは、クラクション音以外の異なるタイプの交通音を検出するように構成されている。分離に基づいて、地理的位置における交通渋滞を検出するために、クラクション音のレベルまたはレートがあらかじめ定義されたしきい値と比較されて、続いてリアルタイム交通情報がネットワークを介してユーザに提供される。

一実装形態では、ユーザデバイスは、オンラインモードならびにオフラインモードで動作することができる。たとえば、オンラインモードでは、ユーザデバイスは、完全な処理の間にネットワークを介してサーバに接続することができる。一方、オフラインモードでは、ユーザデバイスは、サーバに接続せずに一部の処理を実行することができる。さらなる処理のためにサーバと通信するべくユーザデバイスをオンラインモードに切り替えることができ、サーバが交通を検出するための残りの処理を実行する。

本主題のシステムおよび方法によれば、ユーザデバイスおよびサーバへの処理負荷が分離される。したがって、リアルタイム交通検出が達成される。さらに、誤った交通検出、およびユーザへの誤った交通情報の流布につながる場合がある追加の騒音を含むオーディオフレーム全体が処理される従来技術とは異なり、必要なオーディオフレーム、すなわち、周期的フレームだけが処理のために取り込まれる。したがって、本主題のシステムおよび方法は、信頼性の高い交通情報をユーザに提供する。また、ユーザデバイスによって必要なオーディオフレームだけを処理することによって、処理負荷および処理時間をさらに低減し、それによってバッテリ消費を低減する。

以下の開示は、リアルタイム交通検出のシステムおよび方法を説明する。説明されるシステムおよび方法の態様は任意の数の異なるコンピューティングシステム、環境、および/または構成に実装され得るが、実施形態は以下の例示的システムアーキテクチャの文脈で説明される。

図1は、本主題の実施形態による、交通検出システム100を示している。一実装形態では、交通検出システム100(以下では、システム100と呼ばれる)は、ネットワーク104を通じてサーバ106に接続された複数のユーザデバイス102-1、102-2、102-3、…102-Nを備える。ユーザデバイス102-1、102-2、102-3、…102-Nは、集合的にユーザデバイス102と呼ばれ、また個別にユーザデバイス102と呼ばれる。ユーザデバイス102は、たとえばモバイル電話およびスマートフォンを含む任意の様々な従来の通信デバイス、ならびに/または携帯端末(PDA)およびラップトップなどの従来のコンピューティングデバイスとして実装され得る。

ユーザデバイス102は、1つまたは複数の通信リンクを通じてネットワーク104を介してサーバ106に接続されている。ユーザデバイス102とサーバ106との間の通信リンクは、たとえば、ダイヤルアップモデム接続、ケーブルリンク、デジタル加入者回線(DSL)、ワイヤレスまたは衛星リンク、あるいは他の任意の適切な形式の通信を介するものなどの、所望の形式の通信を通じて可能になる。

ネットワーク104は、ワイヤレスネットワークでよい。一実装形態では、ネットワーク104は個々のネットワークでもよく、互いに相互接続され、単一の大きなネットワーク、たとえばインターネットまたはイントラネットとして機能する、多くのそのような個々のネットワークの集合でもよい。個々のネットワークの例には、これに限定されないが、グローバルシステムフォーモバイルコミュニケーション(GSM(登録商標))ネットワーク、ユニバーサルモバイルテレコミュニケーションシステム(UMTS)ネットワーク、パーソナル通信サービス(PCS)ネットワーク、時分割多元接続(TDMA)ネットワーク、符号分割多元接続(CDMA)ネットワーク、次世代ネットワーク(NGN)、およびサービス総合デジタル網(ISDN)がある。技術に応じて、ネットワーク104は、ゲートウェイ、ルータ、ネットワークスイッチ、およびハブなどの様々なネットワークエンティティを含むことができるが、そのような詳細は、理解を容易にするために省略される。

ある実装形態では、ユーザデバイス102のそれぞれは、フレーム分離モジュール108および抽出モジュール110を含む。たとえば、ユーザデバイス102-1はフレーム分離モジュール108-1と抽出モジュール110-1を含み、ユーザデバイス102-2はフレーム分離モジュール108-2と抽出モジュール110-2を含み、以下同様である。サーバ106は、交通検出モジュール112を含む。

一実装形態では、ユーザデバイス102は、周囲の音をキャプチャする。周囲の音は、タイヤ騒音、車内で再生されている音楽、人間の話し声、クラクション音、およびエンジン騒音を含み得る。また、周囲の音は、環境騒音を含む背景騒音、および背景交通騒音を含む。周囲の音は、短い持続時間、たとえば数分のオーディオサンプルとしてキャプチャされる。オーディオサンプルは、ユーザデバイス102のローカルメモリ内に格納することができる。

ユーザデバイス102は、オーディオサンプルを複数のオーディオフレームに分割して、次いで複数のオーディオフレームから背景騒音をフィルタリングする。一実装形態では、フィルタリングされたオーディオフレームを、ユーザデバイス102のローカルメモリ内に格納することができる。

フィルタリングに続いて、フレーム分離モジュール108が、フィルタリングされたオーディオフレームを周期的フレーム、非周期的フレーム、および無音フレームに分離する。周期的フレームはクラクション音と人間の話し声の混合を含むことができ、非周期的フレームはタイヤ騒音、車内で再生されている音楽、およびエンジン騒音の混合を含むことができる。無音フレームは、いかなる種類の音も含まない。分離に基づいて、フレーム分離モジュール108は周期的フレームを識別する。

次いで、ユーザデバイス102内の抽出モジュール110が、メル周波数ケプストラム係数(MFCC)、逆メル周波数ケプストラム係数(inverse MFCC)、および修正メル周波数ケプストラム係数(modified MFCC)のうちの1つまたは複数などの周期的フレームのスペクトル特性を抽出して、抽出されたスペクトル特性をサーバ106に送信する。上に示したように、周期的フレームはクラクション音と人間の話し声の混合を含むので、抽出されたスペクトル特性は、クラクション音と人間の話し声の両方の特性に対応する。一実装形態では、抽出されたスペクトル特性を、ユーザデバイス102のローカルメモリ内に格納することができる。複数のユーザデバイス102から抽出されたスペクトル特性をある地理的位置において受信すると、サーバ106は、知られている音声モデルに基づいて、クラクション音と人間の話し声を分離する。クラクション音に基づいて、サーバ106内の交通検出モジュール112が、ある地理的位置におけるリアルタイム交通を検出する。

図2は、本主題の実施形態による、交通検出システム100の詳細を示している。

前記実施形態では、交通検出システム100は、ユーザデバイス102とサーバ106を含み得る。ユーザデバイス102は、1つまたは複数のデバイスプロセッサ202、デバイスプロセッサ202に結合されたデバイスメモリ204、およびデバイスインターフェース206を含む。サーバ106は、1つまたは複数のサーバプロセッサ230、サーバプロセッサ230に結合されたサーバメモリ232、およびサーバインターフェース234を含む。

デバイスプロセッサ202およびサーバプロセッサ230は、単一の処理ユニットでもいくつかのユニットでもよく、そのすべては複数のコンピューティングユニットを含み得る。デバイスプロセッサ202およびサーバプロセッサ230は、1つまたは複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理装置、ステートマシン、論理回路、および/または動作命令に基づいて信号を操作する任意のデバイスとして実装され得る。他の機能の中で、デバイスプロセッサ202およびサーバプロセッサ230は、デバイスメモリ204に格納されたコンピュータ可読命令、およびサーバメモリ232に格納されたデータをフェッチして実行するように構成されている。

デバイスインターフェース206およびサーバインターフェース234は、たとえば、キーボード、マウス、外部メモリ、プリンタ等の周辺デバイス用のインターフェースなどの様々なソフトウェアおよびハードウェアを含み得る。さらに、デバイスインターフェース206およびサーバインターフェース234は、ユーザデバイス102およびサーバ106が、ウェブサーバおよび外部データベースなどの他のコンピューティングデバイスと通信することを可能にすることができる。デバイスインターフェース206およびサーバインターフェース234は、たとえばWLAN、セルラー、衛星等のワイヤレスネットワークを含むネットワークなどの、多種多様なプロトコルおよびネットワーク内の複数の通信を容易にすることができる。デバイスインターフェース206およびサーバインターフェース234は、ユーザデバイス102とサーバ106との間の通信を可能にするために1つまたは複数のポートを含み得る。

デバイスメモリ204およびサーバメモリ232は、たとえば、静的ランダムアクセスメモリ(SRAM)および動的ランダムアクセスメモリ(DRAM)などの揮発性メモリ、ならびに/または読出し専用メモリ(ROM)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスク、および磁気テープなどの不揮発性メモリを含む、当分野で知られている任意のコンピュータ可読媒体を含み得る。デバイスメモリ204はデバイスモジュール208およびデバイスデータ210をさらに含み、サーバメモリ232はサーバモジュール236およびサーバデータ238をさらに含む。

デバイスモジュール208およびサーバモジュール236は、特定のタスクを実行する、または特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。一実装形態では、デバイスモジュール208は、オーディオキャプチャモジュール212、分割モジュール214、フィルタリングモジュール216、フレーム分離モジュール108、抽出モジュール110、およびデバイスその他モジュール(device other module)218を含む。前記実装形態では、サーバモジュール236は、音声検出モジュール240、交通検出モジュール112、およびサーバその他モジュール(the server other module)242を含む。デバイスその他モジュール218およびサーバその他モジュール242は、たとえば、それぞれユーザデバイス102およびサーバ106のオペレーティングシステム内のプログラムなどの、アプリケーションおよび機能を補完するプログラムまたはコード命令を含み得る。

デバイスデータ210およびサーバデータ238は、とりわけ、デバイスモジュール208およびサーバモジュール236のうちの1つまたは複数によって処理、受信、および生成されたデータを格納するためのリポジトリの役割を果たす。デバイスデータ210は、オーディオデータ220、フレームデータ222、特徴データ224、およびデバイスその他データ226を含む。サーバデータ238は、音声データ244およびサーバその他データ248を含む。デバイスその他データ226およびサーバその他データ248は、デバイスその他モジュール218およびサーバその他モジュール242内の1つまたは複数のモジュールの実行の結果として生成されたデータを含む。

動作中、ユーザデバイス102のオーディオキャプチャモジュール212は、周囲の音、すなわちユーザデバイス102を取り巻く環境内に存在する音をキャプチャする。そのような周囲の音は、タイヤ騒音、車内で再生されている音楽、人間の話し声、クラクション音、エンジン騒音を含み得る。加えて、周囲の音は、環境騒音を含む背景騒音、および背景交通騒音を含む。周囲の音は、連続的に、またはあらかじめ定義された時間間隔で、たとえば10分おきに、オーディオサンプルとしてキャプチャされ得る。ユーザデバイス102によってキャプチャされたオーディオサンプルの持続時間は短くてよく、たとえば数分でよい。一実装形態では、キャプチャされるオーディオサンプルを、必要な時に取り出すことができるオーディオデータ220としてユーザデバイス102のローカルメモリ内に格納することができる。

一実装形態では、ユーザデバイス102の分割モジュール214がオーディオサンプルを取り出し、オーディオサンプルを複数のオーディオフレームに分割する。一例では、分割モジュール214は、従来知られているハミング窓分割技法を使用してオーディオサンプルを分割する。ハミング窓分割技法では、あらかじめ定義された期間、たとえば100ミリ秒のハミング窓が定義される。一例として、約12分の持続時間のオーディオサンプルが100ミリ秒のハミング窓で分割されると、次いで、オーディオサンプルが約7315個のオーディオフレームに分割される。

したがって、一実装形態では、取得された、分割されたオーディオフレームは、背景騒音が高周波数のピークを生成する音声に影響を与える場合があるので、複数のオーディオフレームから背景騒音をフィルタリングするように構成されたフィルタリングモジュール216に入力として提供される。たとえば、高周波数のピークを生成すると考えられるクラクション音は、背景騒音の影響を受けやすい。したがって、フィルタリングモジュール216は、背景騒音をフィルタリングして、そのような種類の音を強くする。したがって、フィルタリングの結果として生成されたオーディオフレームは、以下ではフィルタリングされたオーディオフレームと呼ばれる。一実装形態では、フィルタリングモジュール216は、フィルタリングされたオーディオフレームをフレームデータ222としてユーザデバイス102のローカルメモリに格納することができる。

ユーザデバイス102のフレーム分離モジュール108は、オーディオフレーム、またはフィルタリングされたオーディオフレームを、周期的フレーム、非周期的フレーム、および無音フレームに分離するように構成されている。周期的フレームはクラクション音と人間の話し声の混合でよく、非周期的フレームは、タイヤ騒音、車内で再生されている音楽、およびエンジン騒音の混合でよい。無音フレームは、どのような音声もないフレーム、すなわち音声なしフレームである。分離のために、フレーム分離モジュール108は、それぞれのオーディオフレームまたはフィルタリングされたオーディオフレームの短期エネルギーレベル(En)を計算して、計算された短期エネルギーレベル(En)をあらかじめ定義されたエネルギーしきい値(En_Th)と比較する。エネルギーしきい値(En_Th)未満の短期エネルギーレベル(En)を有するオーディオフレームは無音フレームとして拒否されて、残りのオーディオフレームは、それらの中から周期的フレームを識別するためにさらに検査される。たとえば、フィルタリングされたオーディオフレームの総数が約7315の場合、エネルギーしきい値(En_Th)は1.2であり、1.2未満の短期エネルギーレベル(En)を有するフィルタリングされたオーディオフレームの数は700である。前記の例では、700個のフィルタリングされたオーディオフレームが無音フレームとして拒否されて、残りの6615個のフィルタリングされたオーディオフレームは、それらの中から周期的フレームを識別するためにさらに検査される。

フレーム分離モジュール108は、残りのオーディオフレームの合計パワースペクトル密度(PSD)、およびフィルタリングされたオーディオフレームの最大PSDを計算する。複数のフィルタリングされたオーディオフレームの中から周期的フレームを識別するために、残りのフィルタリングされたオーディオフレーム総PSDは総合してPSD_Totalと表わされ、フィルタリングされたオーディオフレームの最大PSDはPSD_Maxと表される。一実装形態によれば、フレーム分離モジュール108は、以下に提供される式(1)を使用して周期的フレームを識別する。

上式で、PSD_Maxはフィルタリングされたオーディオフレームの最大PSDを表し、PSD_Totalはフィルタリングされたオーディオフレームの総PSDを表し、rはPSD_Totalに対するPSD_Maxの比率を表す。

次いで、周期的フレームを識別するために、フレーム分離モジュール108によって、上記の式によって取得された比率があらかじめ定義された密度しきい値(PSD_Th)と比較される。たとえば、比率が密度しきい値(PSD_Th)よりも大きい場合、オーディオフレームが周期的であると識別される。一方、比率が密度しきい値(PSD_Th)よりも小さい場合、オーディオフレームが拒否される。そのような比較は、すべての周期的フレームを識別するために、フィルタリングされたフレームごとに別々に実行される。

一旦周期的フレームが識別されると、ユーザデバイス102の抽出モジュール110が、識別された周期的フレームのスペクトル特性を抽出するように構成される。抽出されたスペクトル特性は、メル周波数ケプストラム係数(MFCC)、逆メル周波数ケプストラム係数(inverse MFCC)、および修正メル周波数ケプストラム係数(modified MFCC)のうちの1つまたは複数を含み得る。一実装形態では、抽出モジュール110は、従来知られている特性抽出技法に基づいてスペクトル特性を抽出する。上記で示したように、周期的フレームはクラクション音と人間の話し声の混合を含み、したがって、抽出されたスペクトル特性はクラクション音および人間の話し声に対応する。

スペクトル特性の抽出に続いて、抽出モジュール110は、さらなる処理のために抽出されたスペクトル特性をサーバ106に送信する。抽出モジュール110は、周期的フレームの抽出されたスペクトル特性を、特性データ224としてユーザデバイス102のローカルメモリに格納することができる。

サーバ側では、サーバ106の音声検出モジュール240が、抽出されたスペクトル特性を共通の地理的位置に該当する複数のユーザデバイス102から受信して、照合されたスペクトルの特徴をクラクション音と人間の話し声に分離する。音声検出モジュール240は、クラクション音モデルと交通音モデルを含む、従来利用可能な音声モデルに基づいて分離を実行する。クラクション音モデルはクラクション音を識別するように構成され、交通音モデルはクラクション音以外の交通音、たとえば、人間の話し声、タイヤ騒音、および車内で再生されている音楽を識別するように構成されている。クラクション音および人間の話し声は、異なるスペクトル特性を有する。たとえば、人間の話し声は500〜1500KHz(キロヘルツ)の範囲のピークを生成し、クラクション音は2000KHz(キロヘルツ)を上回るピークを生成する。スペクトル特性がこれらの音声モデルに入力として供給されると、クラクション音が識別される。音声検出モジュール240は、識別されたクラクション音を音声データ244としてサーバ106に格納することができる。

次いで、サーバ106の交通検出モジュール112は、クラクション音の識別に基づいてリアルタイム交通を検出するように構成される。クラクション音は路上のクラクションを鳴らすレートを表すので、交通渋滞がある場合はより多くなる。識別されたクラクション音は、地理的位置の交通を検出するために、交通検出モジュール112によって、あらかじめ定義されたしきい値と比較される。

したがって、リアルタイム交通渋滞を検出するための本主題によれば、周期的フレームがオーディオサンプルから分離され、その周期的フレームについてのみスペクトル特性が抽出され、それによって、ユーザデバイス102による全体的な処理時間およびバッテリ消費を低減する。また、周期的フレームだけの抽出された特性がユーザデバイス102によってサーバ106に送信されるので、サーバへの負荷も低減され、したがって、交通を検出するためにサーバ106によってかかる時間が著しく低減する。

図3は、本交通検出システムによって交通渋滞を検出するためにかかる合計時間と、従来の交通検出システムによって交通渋滞を検出するためにかかる合計時間との比較を示す、例示的な表形式の表現を示している。

図3に示されるように、表300は従来の交通検出システムに対応し、表302は本交通検出システム100に対応する。表300に示されるように、3つのオーディオサンプル、すなわち、第1のオーディオサンプル、第2のオーディオサンプル、および第3のオーディオサンプルは、交通渋滞を検出するために従来の交通検出システムによって処理される。そのようなオーディオサンプルは、各オーディオフレームの持続時間が100ミリ秒になるように、複数のオーディオフレームに分割される。たとえば、第1のオーディオサンプルは、持続時間100ミリ秒の7315個のオーディオフレームに分割される。同様に、第2のオーディオサンプルは7927個のオーディオフレームに分割され、第3のオーディオサンプルは24515個のオーディオフレームに分割される。さらに、3つのすべてのオーディオフレームについてスペクトル特性が抽出される。処理のために、特に3つのオーディオサンプルのスペクトル特性抽出のために、従来の交通検出システムによってかかる合計処理時間は、それぞれ710秒、793秒、および2431秒であり、抽出されたスペクトル特性の対応する大きさは、それぞれ1141キロバイト、1236キロバイト、および3824キロバイトである。

一方、本交通検出システム100も、表302に示されるように、同じ3つのオーディオサンプルを処理する。オーディオサンプルは、周期的フレーム、非周期的フレーム、および無音フレームなどの複数のオーディオフレームに分割される。しかしながら、本交通検出システム100は、処理のために周期的フレームだけを選択する。第1のオーディオサンプル、第2のオーディオサンプル、および第3のオーディオサンプルから周期的フレームを識別するためにかかる時間は、それぞれ27秒、29秒、および62秒である。次いで、識別された周期的フレームのスペクトル特性が抽出される。周期的フレームのスペクトル特性を抽出するために本交通検出システム100によってかかる時間は、それぞれ第1のオーディオサンプルでは351秒、第2のオーディオサンプルでは362秒、および第3のオーディオサンプルでは1829秒であり、抽出されたスペクトル特性の対応する大きさは544キロバイト、548キロバイト、および2776KBキロバイトである。したがって、第1のオーディオサンプル、第2のオーディオサンプル、および第3のオーディオサンプルの処理のために本交通検出システム100によってかかる合計処理時間は、378秒、391秒、および1891秒である。

表300および表302から、オーディオサンプルの処理のために本交通検出システム100によってかかる合計時間が、従来の交通検出システムによってかかる合計処理時間よりも著しく少ないことが明らかである。処理時間のそのような低減は、フレームを周期的フレーム、非周期的フレーム、および無音フレームに分離して、すべてのフレームが考慮される従来の交通検出システムとは異なりスペクトル特性抽出のために周期的フレームだけを処理することによって達成される。

図4aおよび図4bは、本主題の実施形態による、リアルタイム交通検出のための方法400を示している。特に、図4aはオーディオサンプルからスペクトル特性を抽出するための方法400-1を示しており、図4bはスペクトル特性に基づいてリアルタイム交通渋滞を検出するための方法400-2を示している。方法400-1および400-2は、集合的に方法400と呼ばれる。

方法400は、コンピュータ実行可能命令の一般的な文脈で説明することができる。一般的に、コンピュータ実行可能命令は、特定の機能を実行する、または特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、プロシージャ、モジュール、機能等を含み得る。方法400は、通信ネットワークを通じてリンクされた遠隔処理デバイスによって機能が実行される、分散コンピュータ環境で実践することもできる。分散コンピューティング環境では、コンピュータ実行可能命令は、メモリ記憶デバイスを含む、ローカルコンピュータ記憶媒体と遠隔コンピュータ記憶媒体の両方に配置され得る。

方法400が説明される順序は、限定と解釈されることを意図するものではなく、説明される方法ブロックのいくつかは、方法400または代替の方法を実装するために任意の順序で結合されてよい。加えて、個々のブロックは、本明細書に記載の主題の趣旨および範囲から逸脱することなしに、方法から削除されてよい。さらに、方法400は、任意の適切なハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せに実装され得る。

図4aを参照すると、ブロック402で、方法400-1は周囲の音をキャプチャするステップを含む。周囲の音は、タイヤ騒音、車内で再生されている音楽、人間の話し声、クラクション音、およびエンジン騒音を含む。さらに、周囲の音は、環境騒音を含む背景騒音、および背景交通騒音を含み得る。一実装形態では、ユーザデバイス102のオーディオキャプチャモジュール212は、周囲の音をオーディオサンプルとしてキャプチャする。

ブロック404で、方法400-1は、オーディオサンプルを複数のオーディオフレームに分割するステップを含む。オーディオサンプルは、ハミング窓分割技法を使用して、複数のオーディオフレームに分割される。ハミング窓は、あらかじめ定義された持続時間窓である。一実装形態では、ユーザデバイス102の分割モジュール214は、オーディオサンプルを複数のオーディオフレームに分割する。

ブロック406で、方法400-1は、複数のオーディオフレームから背景騒音をフィルタリングするステップを含む。背景騒音は、高周波数のピークを生成する音に影響を与えるので、背景騒音はオーディオフレームからフィルタリングされる。一実装形態では、フィルタリングモジュール216は、複数のオーディオフレームから背景騒音をフィルタリングする。フィルタリングの結果として取得されたオーディオフレームは、フィルタリングされたオーディオフレームと呼ばれる。

ブロック408で、方法400-1は、複数のフィルタリングされたオーディオフレームの中から周期的フレームを識別するステップを含む。一実装形態では、ユーザデバイス102のフレーム分離モジュール108は、複数のオーディオフレームを周期的フレーム、非周期的フレーム、および無音フレームに分離するように構成されている。周期的フレームはクラクション音と人間の話し声の混合を含むことができ、非周期的フレームは、タイヤ騒音、車内で再生されている音楽、およびエンジン騒音の混合を含むことができる。無音フレームは、いかなる種類の音も含まない。分離に基づいて、フレーム分離モジュール108は、さらなる処理のために周期的フレームを識別する。

ブロック410で、方法400-1は、周期的フレームのスペクトル特性を抽出するステップを含む。抽出されたスペクトル特性は、メル周波数ケプストラム係数(MFCC)、逆メル周波数ケプストラム係数(inverse MFCC)、および修正メル周波数ケプストラム係数(modified MFCC)のうちの1つまたは複数を含み得る。上記で示したように、周期的フレームはクラクション音と人間の話し声の混合を含み、したがって、抽出されたスペクトル特性はクラクション音および人間の話し声に対応する。一実装形態では、抽出モジュール110は、識別された周期的フレームのスペクトル特性を抽出するように構成されている。

ブロック412で、方法400-1は、リアルタイム交通渋滞を検出するために、抽出されたスペクトル特性をサーバ106に送信するステップを含む。一実装形態では、抽出モジュール110は、抽出されたスペクトル特性をサーバ106に送信する。

図4bを参照すると、ブロック414で、方法400-2は、ネットワーク104を介して、地理的位置にある複数のユーザデバイス102からスペクトル特性を受信するステップを含む。一実装形態では、サーバ106の音声検出モジュール240がスペクトル特性を受信する。

ブロック416で、方法400-2は、受信したスペクトル特性からクラクション音を識別するステップを含む。クラクション音は、たとえば、クラクション音モデルおよび交通音モデルを含む従来利用可能な音声モデルに基づいて識別される。これらの音声モデルに基づいて、クラクション音と人間の話し声との間の区別が行われ、したがってクラクション音が識別される。一実装形態では、サーバ106の音声検出モジュール240がクラクション音を識別する。

ブロック418で、方法400-2は、前のブロックで識別されたクラクション音に基づいてリアルタイム交通渋滞を検出するステップを含む。クラクション音は路上のクラクションを鳴らすレートを示しており、本説明において交通渋滞を正確に検出するためのパラメータとして考えられる。クラクションを鳴らすレートまたはクラクション音のレベルを、あらかじめ定義されたしきい値と比較するステップに基づいて、交通検出モジュール112は地理的位置における交通渋滞を検出する。

交通検出システムの実施形態を構造的特徴および/または方法に特有の言語で説明してきたが、本発明は記載された特定の特徴および方法に必ずしも限定されないことが理解されるべきである。むしろ、特定の特徴および方法は、交通検出システムのための例示的実装形態として開示されている。

100 交通検出システム
102 ユーザデバイス
102-1 ユーザデバイス
102-2 ユーザデバイス
102-3 ユーザデバイス
102-N ユーザデバイス
104 ネットワーク
106 サーバ
108 フレーム分離モジュール
108-1 フレーム分離モジュール
108-2 フレーム分離モジュール
110 抽出モジュール
110-1 抽出モジュール
110-2 抽出モジュール
112 交通検出モジュール
202 デバイスプロセッサ
204 デバイスメモリ
206 デバイスインターフェース
208 デバイスモジュール
210 デバイスデータ
212 オーディオキャプチャモジュール
214 分割モジュール
216 フィルタリングモジュール
218 デバイスその他モジュール
220 オーディオデータ
222 フレームデータ
224 特徴データ
226 デバイスその他データ
230 サーバプロセッサ
232 サーバメモリ
234 サーバインターフェース
236 サーバモジュール
238 サーバデータ
240 音声検出モジュール
242 サーバその他モジュール
244 音声データ
248 サーバその他データ
300 表
302 表
400 方法
400-1 方法
400-2 方法

Claims

リアルタイム交通検出のための方法であって、
ユーザデバイス(102)内で、周囲の音をオーディオサンプルとしてキャプチャするステップと、
前記オーディオサンプルを複数のオーディオフレームに分割するステップと、
前記複数のオーディオフレームの中から周期的フレームを識別するステップと、
リアルタイム交通検出のために、前記周期的フレームのスペクトル特性を抽出するステップとを備える、方法。
前記周囲の音が、タイヤ騒音、クラクション音、エンジン騒音、人間の話し声、および背景騒音のうちの1つまたは複数を含む、請求項1に記載の方法。
前記識別するステップが、前記複数のオーディオフレームを前記周期的フレーム、非周期的フレーム、および無音フレームに分離するステップを備える、請求項1に記載の方法。
前記分離するステップが、
前記複数のオーディオフレームの短期エネルギーレベルを計算するステップと、
前記複数のオーディオフレームの中から前記無音フレームを識別するために、前記複数のオーディオフレームのそれぞれの前記短期エネルギーレベルを、あらかじめ定義されたエネルギーしきい値と比較するステップと、
残りのオーディオフレームの最大パワースペクトル密度と合計パワースペクトル密度の比率を計算するステップであって、前記残りのオーディオフレームが、前記無音フレームを除外するステップと、
前記最大パワースペクトル密度と前記合計パワースペクトル密度の前記比率を、あらかじめ定義された密度しきい値と比較するステップに基づいて、前記残りのオーディオフレームの中から前記周期的フレームを識別するステップとを備える、請求項3に記載の方法。
前記複数のオーディオフレームから背景騒音をフィルタリングするステップをさらに備える、請求項1に記載の方法。
前記スペクトル特性が、メル周波数ケプストラム係数(MFCC)、逆MFCC、および修正MFCCのうちの1つまたは複数を含む、請求項1に記載の方法。
リアルタイム交通検出のための方法であって、
地理的位置にある複数のユーザデバイス(102)から周期的フレームのスペクトル特性を受信するステップと、
前記スペクトル特性に基づいてクラクション音を識別するステップと、
前記クラクション音に基づいて前記地理的位置におけるリアルタイム交通渋滞を検出するステップとを備える、方法。
前記スペクトル特性が、メル周波数ケプストラム係数(MFCC)、逆MFCC、および修正MFCCのうちの1つまたは複数を含む、請求項7に記載の方法。
前記識別するステップが少なくとも1つの音声モデルに基づき、前記少なくとも1つの音声モデルが、クラクション音モデルおよび交通音モデルのうちのいずれかである、請求項7に記載の方法。
リアルタイム交通検出のためのユーザデバイス(102)であって、
デバイスプロセッサ(202)と、
前記デバイスプロセッサ(202)に結合されたデバイスメモリ(204)とを備え、前記デバイスメモリ(204)が、
前記ユーザデバイス(102)でキャプチャされたオーディオサンプルを複数のオーディオフレームに分割するように構成された分割モジュール(214)と、
前記複数のオーディオフレームを少なくとも周期的フレームと非周期的フレームとに分離するように構成されたフレーム分離モジュール(108)と、
前記周期的フレームのスペクトル特性を抽出するように構成された抽出モジュール(110)であって、前記スペクトル特性が、リアルタイム交通検出のためにサーバ(106)に送信される抽出モジュール(110)とを備える、ユーザデバイス(102)。
前記ユーザデバイス(102)が、前記複数のオーディオフレームから背景騒音をフィルタリングするように構成されたフィルタリングモジュール(216)をさらに備える、請求項10に記載のユーザデバイス(102)。
前記フレーム分離モジュール(108)が、前記複数のオーディオフレームの短期エネルギーレベル(En)およびパワースペクトル密度(PSD)に基づいて前記複数のオーディオフレームを分離するように構成される、請求項10に記載のユーザデバイス(102)。
サーバプロセッサ(230)と、
前記サーバプロセッサ(230)に結合されたサーバメモリ(232)とを備え、前記サーバメモリ(232)が、
地理的位置にある複数のユーザデバイス(102)から周期的フレームのスペクトル特性を受信して、
前記スペクトル特性に基づいてクラクション音を識別するように構成された音声検出モジュール(240)と、
前記クラクション音に基づいて前記地理的位置におけるリアルタイム交通渋滞を検出するように構成された交通検出モジュール(112)とを備える、リアルタイム交通検出のためのサーバ(106)。
前記音声検出モジュール(240)が、クラクション音モデルおよび交通音モデルのうちの少なくとも1つに基づいて前記クラクション音を識別するように構成される、請求項13に記載のサーバ(106)。
周囲の音をオーディオサンプルとしてキャプチャするステップと、
前記オーディオサンプルを複数のオーディオフレームに分割するステップと、
前記複数のオーディオフレームの中から周期的フレームを識別するステップと、
前記周期的フレームのスペクトル特性を抽出するステップと、
前記スペクトル特性に基づいてクラクション音を識別するステップと、
前記クラクション音に基づいてリアルタイム交通渋滞を検出するステップとを備える方法を実行するためのコンピュータプログラムを具現化した、コンピュータ可読媒体。