JP2021536596A

JP2021536596A - 正規化を介して音響信号をフィンガープリンティングするための方法及び装置

Info

Publication number: JP2021536596A
Application number: JP2021512712A
Authority: JP
Inventors: ロバートクーバー，; ザファールラフィイ，
Original assignee: グレースノートインコーポレイテッド
Priority date: 2018-09-07
Filing date: 2019-09-06
Publication date: 2021-12-27
Anticipated expiration: 2039-09-06
Also published as: CA3111800A1; JP7346552B2; CN113614828A; EP3847642B1; FR3085785B1; EP3847642A1; FR3085785A1; KR20210082439A; WO2020051451A1; AU2022275486A1; EP4372748A2; EP3847642A4; US20200082835A1; AU2019335404B2; AU2019335404A1

Abstract

平均正規化を介して音響をフィンガープリンティングするための方法、装置、システム、及び製造品が開示される。音響フィンガープリンティングのための例示的な装置は、音響信号を周波数ドメインに変換するための周波数範囲分離手段であって、変換された音響信号が、第１の時間周波数ビンを含む複数の時間周波数ビンを含む、周波数範囲分離手段と、複数の時間周波数ビンのうちの第１のグループの時間周波数ビンの第１の特性を特定するための音響特性特定手段であって、第１のグループの時間周波数ビンが、第１の時間周波数ビンを囲む、音響特性特定手段と、音響信号を正規化することにより、正規化エネルギー値を生成するための信号正規化手段であって、音響信号の正規化が、第１の特性によって第１の時間周波数ビンを正規化することを含む、信号正規化手段とを含む。例示的な装置は、正規化エネルギー値のうちの１つを選択するための点選択手段と、正規化エネルギー値のうちの選択された１つを使用して音響信号のフィンガープリントを生成するためのフィンガープリント生成手段とをさらに含む。【選択図】図２

Description

関連出願

[0001]本特許は、２０１８年９月７日付で出願されたフランス特許出願第１８５８０４１号の優先権及び利益を主張する。フランス特許出願第１８５８０４１号は、参照によりその全体が本明細書に組み込まれる。

開示の分野

[0002]本開示は、概して音響（audio、オーディオ）信号に関し、より詳細には、正規化を介して音響信号をフィンガープリンティングするための方法及び装置に関する。

背景

[0003]音響情報（例えば、音声、発話、音楽など）は、デジタルデータ（例えば、電子、光など）として表現することができきる。捕捉された音響（例えば、マイクロフォンを介して）は、デジタル化し、電子的に記憶し、処理及び／又は分類することができる。音響情報を分類する１つの方法は、音響フィンガープリントを生成することによる。音響フィンガープリントは、音響信号の一部分をサンプリングすることによって作成される音響情報のデジタル要約である。音響フィンガープリントは、歴史的に、音響を識別し、及び／又は、音響真正性を検証するために使用されてきた。

[0004]図１は、本開示の教示を実施することができる例示的なシステムの図である。

[0005]図２は、図１の音響プロセッサの例示的な実施態様の図である。

[0006]図３Ａは、図２の例示的な周波数範囲分離手段によって生成される例示的な未処理のスペクトログラムを示す図である。 [0006]図３Ｂは、図２の例示的な周波数範囲分離手段によって生成される例示的な未処理のスペクトログラムを示す図である。

[0007]図３Ｃは、図３Ａ及び図３Ｂの未処理のスペクトログラムから図２の信号正規化手段によって生成される正規化スペクトログラムの一例を示す図である。

[0008]図４は、固定音響信号周波数成分に分割されている図３Ａ及び図３Ｂの例示的な未処理のスペクトログラムの図である。

[0009]図５は、図４の固定音響信号周波数成分から図２の信号正規化手段によって生成される正規化スペクトログラムの一例の図である。

[0010]図６は、図５の正規化スペクトログラムから図２の点選択手段によって生成される正規化重み付けスペクトログラムの一例の図である。

[0011]図７は、図２の音響プロセッサを実装するために実行することができる機械可読命令を表す流れ図である。

[0012]図９は、図２の音響プロセッサを実装するための図７及び図８の命令を実行するように構成されている例示的な処理プラットフォームのブロック図である。

[0013]図面は原寸に比例しない。概して、同じ又は同様の部分を指すために、同じ参照符号が、図面及び付随する本明細書全体を通じて使用される。

詳細な説明

[0014]フィンガープリント又は署名に基づくメディア監視技法は、概して、メディアの実質的に一意のプロキシを生成するために、監視時間間隔中に監視されるメディアの１つ又は複数の固有の特性を利用する。当該プロキシは、署名又はフィンガープリントとして参照され、メディア信号（複数可）（例えば、監視されているメディア提示を形成する音響及び／又はビデオ信号）の任意の態様を表す任意の形態（複数可）（例えば、一連のデジタル値、波形など）をとることができる。署名は、一定の時間間隔にわたって順次収集される一連の署名であり得る。「フィンガープリント」及び「署名」という用語は、本明細書において交換可能に使用され、本明細書においては、メディアの１つ又は複数の固有の特性から生成される、メディアを識別するためのプロキシを意味するものとして定義される。

[0015]署名に基づくメディア監視は、一般的に、監視されているメディアデバイスによって出力されるメディア信号（例えば、音響信号及び／又はビデオ信号）を表す署名（複数可）を特定（例えば、生成及び／又は収集）することと、監視されている署名（複数可）を、既知の（例えば、基準）メディアソースに対応する１つ又は複数の基準署名と比較することとを含む。相互相関値、ハミング距離などのような様々な比較基準を評価して、監視されている署名が特定の基準署名と一致するか否かを判定することができる。

[0016]監視されている署名と基準署名のうちの１つとの間に一致が見つかった場合、監視されているメディアは、監視されている署名と一致した基準署名によって表される特定の基準メディアに対応するものとして識別することができる。メディアの識別子、提示時間、ブロードキャストチャネルなどのような属性が基準署名について収集されるため、当該属性は、次いで、監視されている署名が基準署名と一致した、監視されているメディアと関連付けることができる。コード及び／又は署名に基づいてメディアを識別するための例示的なシステムは長らく知られており、参照によりその全体が本明細書に組み込まれる、Ｔｈｏｍａｓの米国特許第５，４８１，２９４号に最初に開示された。

[0017]歴史的に、音響フィンガープリンティング技術は、ある時間区間におけるフィンガープリントを作成するために、音響信号の最も音量の大きい部分（例えば、最もエネルギーの多い部分など）を使用してきた。しかしながら、場合によっては、当該方法にはいくつかの深刻な制限がある。いくつかの例において、音響信号の最も音量の大きい部分は、雑音（例えば、望ましくない音響）と関連付けられる可能性があり、対象の音響に由来するものでない可能性がある。例えば、ユーザが騒がしいレストランにおいて歌曲をフィンガープリンティングするように試行している場合、捕捉される音響信号の最も音量の大きい部分は、レストランの常連客の間の会話である可能性があり、識別されるべき歌曲又はメディアでない可能性がある。当該例において、音響信号のサンプリングされる部分の多くは背景雑音のものであり、音楽のものではなく、生成されるフィンガープリントの有用性を減じる。

[0018]以前のフィンガープリンティング技術の別の潜在的な制限は、特に音楽において、低音周波数範囲内の音響が、最も音量の大きい部分である傾向があることである。いくつかの例において、低音周波数エネルギーが支配的になる結果として、音響信号のサンプリングされる部分が主に低音周波数範囲内になる。したがって、既存の方法を使用して生成されるフィンガープリントは通常、特により高い周波数範囲（例えば、高音範囲など）において、署名照合に使用することができる音響スペクトルのすべての部分からのサンプルを含むとは限らない。

[0019]本明細書において開示されている例示的な方法及び装置は、平均正規化を使用して音響信号からフィンガープリントを生成することによって、上記課題を克服する。例示的な方法は、周囲音響領域の音響特性によって、音響信号の時間周波数ビンのうちの１つ又は複数を正規化するステップを含む。本明細書において使用される場合、「時間周波数ビン」は、特定の時間（例えば、音響信号に入る３秒）における特定の周波数ビン（例えば、ＦＦＴビン）に対応する音響信号の一部分である。いくつかの例において、正規化は、音響信号の音響分類によって重み付けされる。いくつかの例において、フィンガープリントは、正規化時間周波数ビンから点を選択することによって生成される。

[0020]本明細書において開示されている別の例示的な方法は、音響信号を２つ以上の音響信号周波数成分に分割するステップを含む。本明細書において使用される場合、「音響信号周波数成分」は、ある周波数範囲及び時間期間に対応する音響信号の一部分である。いくつかの例において、音響信号周波数成分は、複数の時間周波数ビンから構成することができる。いくつかの例において、音響信号周波数成分のいくつかについて、音響特性が特定される。この例において、音響信号周波数成分の各々は、関連する音響特性（例えば、音響平均など）によって正規化される。いくつかの例において、フィンガープリントは、正規化音響信号周波数成分から点を選択することによって生成される。

[0021]図１は、本開示の教示を実施することができる例示的なシステム１００である。例示的なシステム１００は、例示的な音響源１０２と、音響源１０２から音声を捕捉し、捕捉された音声を例示的な音響信号１０６に変換する例示的なマイクロフォン１０４とを含む。例示的な音響プロセッサ１０８が、音響信号１０６を受信し、例示的なフィンガープリント１１０を生成する。

[0022]例示的な音響源１０２は、可聴音を放出する。例示的な音響源は、スピーカ（例えば、電気音響変換器など）、実演、会話及び／又は任意の他の適切な音響源であってもよい。例示的な音響源１０２は、所望の音響（例えば、フィンガープリンティングされるべき音響など）を含み得、また、望ましくない音響（例えば、背景雑音など）も含み得る。図示されている例において、音響源１０２はスピーカである。他の例において、音響源１０２は、任意の他の適切な音響源（例えば、人間など）であってもよい。

[0023]例示的なマイクロフォン１０４は、音響源１０２によって放出される音声を音響信号１０６に変換する変換器である。いくつかの例において、マイクロフォン１０４は、コンピュータ、モバイルデバイス（スマートフォン、タブレットなど）、ナビゲーションデバイス又はウェアラブルデバイス（例えば、スマートウォッチ）の構成要素であってもよい。いくつかの例において、マイクロフォンは、音響信号１０６をデジタル化するための音響−デジタル変換を含むことができる。他の例においては、音響プロセッサ１０８が音響信号１０６をデジタル化することができる。

[0024]例示的な音響信号１０６は、音響源１０２によって放出される音声のデジタル化表現である。いくつかの例において、音響信号１０６は、音響プロセッサ１０８によって処理される前にコンピュータに保存することができる。いくつかの例において、音響信号１０６は、ネットワークを介して例示的な音響プロセッサ１０８に転送することができる。付加的に又は代替的に、任意の他の適切な方法を使用して、音響を生成することができる（例えば、デジタル合成など）。

[0025]例示的な音響プロセッサ１０８は、例示的な音響信号１０６を例示的なフィンガープリント１１０に変換する。いくつかの例において、音響プロセッサ１０８は、音響信号１０６を周波数ビン及び／又は時間期間に分割し、次いで、作成された音響信号周波数成分のうちの１つ又は複数の平均エネルギーを特定する。いくつかの例において、音響プロセッサ１０８は、各時間周波数ビンの周囲の音響領域の関連付けられる平均エネルギーを使用して、音響信号周波数成分を正規化することができる。他の例において、任意の他の適切な音響特性を特定して、各時間周波数ビンを正規化するために使用することができる。いくつかの例において、フィンガープリント１１０は、正規化音響信号周波数成分の中から最も高いエネルギーを選択することによって生成することができる。付加的に又は代替的に、任意の適切な方法を使用して、フィンガープリント１１０を生成することができる。音響プロセッサ１０８の例示的な実施態様が、図２に関連して下記に説明される。

[0026]例示的なフィンガープリント１１０は、音響信号１０６を識別及び／又は検証するために使用することができる音響信号１０６の縮約されたデジタル要約である。例えば、フィンガープリント１１０は、音響信号１０６の部分をサンプリングし、当該部分を処理することによって生成することができる。いくつかの例において、フィンガープリント１１０は、音響信号１０６の最もエネルギーの高い部分のサンプルを含むことができる。いくつかの例において、フィンガープリント１１０は、他のフィンガープリントとの比較に使用することができるデータベース内でインデックス付けすることができる。いくつかの例において、フィンガープリント１１０は、音響信号１０６を識別する（例えば、いずれの歌曲が再生されているかを特定する）ために使用することができる。いくつかの例において、フィンガープリント１１０は、音響の真正性を検証するために使用することができる。

[0027]図２は、図１の音響プロセッサ１０８の例示的な実施態様である。例示的な音響プロセッサ１０８は、例示的な周波数範囲分離手段２０２と、例示的な音響特性特定手段２０４と、例示的な信号正規化手段２０６と、例示的な点選択手段２０８と、例示的なフィンガープリント生成手段２１０とを含む。

[0028]例示的な周波数範囲分離手段２０２は、音響信号（例えば、図１のデジタル化音響信号１０６）を時間周波数ビン及び／又は音響信号周波数成分に分割する。例えば、周波数範囲分離手段２０２は、高速フーリエ変換（ＦＦＴ）を音響信号１０６に対して実施して、音響信号１０６を周波数ドメインに変換することができる。付加的に、例示的な周波数範囲分離手段２０２は、変換された音響信号１０６を２つ以上の周波数ビンに（例えば、ハミング関数、ハン関数などを使用して）分割することができる。当該例において、各音響信号周波数成分は、２つ以上の周波数ビンのうちの１つの周波数ビンと関連付けられる。付加的に又は代替的に、周波数範囲分離手段２０２は、音響信号１０６を１つ又は複数の時間期間（例えば、音響の持続時間、６秒区間、１秒区間など）に集約することができる。他の例において、周波数範囲分離手段２０２は、任意の適切な技法を使用して、音響信号１０６を変換することができる（例えば、離散フーリエ変換、スライド時間窓フーリエ変換、ウェーブレット変換、離散アダマール変換、離散ウォルシュ・アダマール、離散コサイン変換など）。いくつかの例において、周波数範囲分離手段２０２は、１つ又は複数のバンドパスフィルタ（ＢＰＦ）によって実装することができる。いくつかの例において、例示的な周波数範囲分離手段２０２の出力は、スペクトログラムによって表すことができる。周波数範囲分離手段２０２の例示的な出力は、図３Ａ〜図３Ｂ及び図４に関連して下記に論じられる。

[0029]例示的な音響特性特定手段２０４は、音響信号１０６の一部分（例えば、音響信号周波数成分、時間周波数ビンの周囲の音響領域など）の音響特性を特定する。例えば、音響特性特定手段２０４は、音響信号周波数成分（複数可）のうちの１つ又は複数の平均エネルギー（例えば、平均パワーなど）を特定することができる。付加的に又は代替的に、音響特性特定手段２０４は、音響信号の一部分の他の特性（例えば、モードエネルギー、メジアンエネルギー、モードパワー、メジアンエネルギー、平均エネルギー、平均振幅など）を特定してもよい。

[0030]例示的な信号正規化手段２０６は、周囲音響領域の関連付けられる音響特性によって、１つ又は複数の時間周波数ビンを正規化する。例えば、信号正規化手段２０６は、周囲音響領域の平均エネルギーによって時間周波数ビンを正規化することができる。他の例において、信号正規化手段２０６は、関連付けられる音響特性によって音響信号周波数成分の一部を正規化する。例えば、信号正規化手段２０６は、音響信号周波数成分の各時間周波数ビンを、当該音響信号成分と関連付けられる平均エネルギーを使用して正規化することができる。いくつかの例において、信号正規化手段２０６の出力（例えば、正規化時間周波数ビン、正規化音響信号周波数成分など）は、スペクトログラムとして表すことができる。信号正規化手段２０６の例示的な出力は、図３Ｃ及び図５に関連して下記に論じられる。

[0031]例示的な点選択手段２０８は、正規化音響信号から、フィンガープリント１１０を生成するのに使用される１つ又は複数の点を選択する。例えば、例示的な点選択手段２０８は、正規化音響信号の複数のエネルギー最大値を選択することができる。他の例において、点選択手段２０８は、正規化音響の任意の他の適切な点を選択することができる。

[0032]付加的に又は代替的に、点選択手段２０８は、音響信号１０６の分類に基づいて点の選択を重み付けすることができる。例えば、点選択手段２０８は、音響信号の分類が音楽である場合、音楽の共通の周波数範囲（例えば、低音、高音など）に、点の選択を重み付けすることができる。いくつかの例において、点選択手段２０８は、音響信号の分類（例えば、音楽、発話、音響効果、広告など）を特定することができる。例示的なフィンガープリント生成手段２１０は、例示的な点選択手段２０８によって選択されている点を使用してフィンガープリント（例えば、フィンガープリント１１０）を生成する。例示的なフィンガープリント生成手段２１０は、任意の適切な方法を使用して、選択されている点からフィンガープリントを生成することができる。

[0033]図１の音響プロセッサ１０８を実施する例示的な方法が図２に示されているが、図２に示す要素、プロセス、及び／又はデバイスのうちの１つ又は複数は、組合せ、分割、再構成、省略、排除、及び／又は任意の他の方法において実施されてもよい。さらに、例示的な周波数範囲分離手段２０２、例示的な音響特性特定手段２０４、例示的な信号正規化手段２０６、例示的な点選択手段２０８、例示的なフィンガープリント生成手段２１０、及び／又は、より一般的に、図１及び図２の例示的な音響プロセッサ１０８は、ハードウェア、ソフトウェア、ファームウェア、並びに／又は、ハードウェア、ソフトウェア、及び／若しくはファームウェアの任意の組合せによって実装されてもよい。したがって、例えば、例示的な周波数範囲分離手段２０２、例示的な音響特性特定手段２０４、例示的な信号正規化手段２０６、例示的な点選択手段２０８、例示的なフィンガープリント生成手段２１０、及び／又は、より一般的に、例示的な音響プロセッサ１０８のいずれかは、１つ若しくは複数のアナログ若しくはデジタル回路（複数可）、論理回路、プログラム可能プロセッサ（複数可）、プログラム可能コントローラ（複数可）、グラフィックスプロセッシングユニット（複数可）（ＧＰＵ（複数可））、デジタル信号プロセッサ（複数可）（ＤＳＰ（複数可））、特定用途向け集積回路（複数可）（ＡＳＩＣ（複数可））、プログラム可能論理デバイス（複数可）（ＰＬＤ（複数可））、及び／又は、フィールドプログラマブル論理デバイス（複数可）（ＦＰＬＤ（複数可））によって実装することができる。純粋にソフトウェア及び／又はファームウェアの実施態様をカバーするように本特許の装置又はシステムの請求項のいずれかを読解するとき、例示的な周波数範囲分離手段２０２、例示的な音響特性特定手段２０４、例示的な信号正規化手段２０６、例示的な点選択手段２０８、及び例示的なフィンガープリント生成手段２１０の少なくとも１つは、本明細書によって、ソフトウェア及び／又はファームウェアを含む、メモリ、デジタル多用途ディスク（ＤＶＤ）、コンパクトディスク（ＣＤ）、Ｂｌｕ−ｒａｙ（登録商標）ディスクなどのような非一時的（non-transitory、ノントランジトリ）コンピュータ可読記憶デバイス又は記憶ディスクを含むものとして明示的に定義される。またさらに、図１及び図２の例示的な音響プロセッサ１０６は、図２に示すものに加えて、若しくは代わりに、１つ若しくは複数の要素、プロセス、及び／若しくはデバイスを含んでもよく、並びに／又は、示されている要素、プロセス、及びデバイスのいずれかのうちの２つ以上若しくはすべてを含んでもよい。本明細書において使用される場合、変化形を含む「通信している（ｉｎｃｏｍｍｕｎｉｃａｔｉｏｎ）」という語句は、直接的な通信、及び／又は、１つ若しくは複数の中間構成要素を通じた間接的な通信を包含し、直接的な物理的（例えば、有線）通信及び／又は常時通信を必要とせず、むしろ付加的に、周期的な間隔、スケジュールされた間隔、非周期的な間隔、及び／又は１回限りのイベントにおける選択的な通信を含む。

[0034]図３Ａ〜図３Ｂは、図２の例示的な周波数範囲分離手段によって生成される例示的な未処理のスペクトログラム３００を示す。図３Ａの図示されている例において、例示的な未処理のスペクトログラム３００は、例示的な第１の音響領域３０６Ａによって囲まれている例示的な第１の時間周波数ビン３０４Ａを含む。図３Ｂの図示されている例において、例示的な未処理のスペクトログラムは、例示的な音響領域３０６Ｂによって囲まれている例示的な第２の時間周波数ビン３０４Ｂを含む。図３Ａ及び図３Ｂの例示的な未処理のスペクトログラム３００並びに正規化スペクトログラム３０２は各々、周波数ビンを示す例示的な垂直軸３０８と、時間ビンを示す例示的な水平軸３１０とを含む。図３Ａ及び図３Ｂは、例示的な音響領域３０６Ａ及び３０６Ｂを示しており、当該領域から、正規化音響特性が、音響特性特定手段２０４によって導出され、信号正規化手段２０６によって、それぞれ第１の時間周波数ビン３０４Ａ及び第２の時間周波数ビン３０４Ｂを正規化するために使用される。図示されている例において、未処理のスペクトログラム３００の各時間周波数ビンが正規化されて、正規化スペクトログラム３０２が生成される。他の例において、未処理のスペクトログラム３００の任意の適切な数の時間周波数ビンを正規化して、図３Ｃの正規化スペクトログラム３０２を生成することができる。

[0035]例示的な垂直軸３０８は、高速フーリエ変換（ＦＦＴ）によって生成される周波数ビン単位を有し、１０２４ＦＦＴビンの長さを有する。他の例において、例示的な垂直軸３０８は、任意の他の適切な周波数測定技法（例えば、ヘルツ、別の変換アルゴリズムなど）によって測定されてもよい。いくつかの例において、垂直軸３０８は、音響信号１０６の周波数範囲全体を包含する。他の例において、垂直軸３０８は、音響信号１０６の一部分を包含し得る。

[0036]図示されている例において、例示的な水平軸３１０は、未処理のスペクトログラム３００の、合計１１．５秒の長さを有する時間期間を表す。図示されている例において、水平軸３１０は、６４ミリ秒（ｍｓ）の間隔を単位として有する。他の例において、水平軸３１０は、任意の他の適切な単位（例えば、１秒など）で測定されてもよい。例えば、水平軸３１０は、音響の持続時間全体を包含する。他の例において、水平軸３１０は、音響信号１０６の持続時間の一部分を包含し得る。図示されている例において、スペクトログラム３００、３０２の各時間周波数ビンは、６４ｍｓ×１ＦＦＴビンのサイズを有する。

[0037]図３Ａの図示されている例において、第１の時間周波数ビン３０４Ａは、未処理のスペクトログラム３００の周波数ビンと時間ビンとの交差点、及び、音響信号１０６の、交差点と関連付けられる部分と関連付けられる。例示的な第１の音響領域３０６Ａは、例示的な第１の時間周波数ビン３０４Ａから外方への所定の距離以内の時間周波数ビンを含む。例えば、音響特性特定手段２０４は、ＦＦＴビンの設定数（例えば、５ビン、１１ビンなど）に基づいて第１の音響領域３０６Ａの垂直長さ（例えば、垂直軸３０８に沿った第１の音響領域３０６Ａの長さ）を特定することができる。同様に、音響特性特定手段２０４は、第１の音響領域３０６Ａの水平長さ（例えば、水平軸３１０に沿った第１の音響領域３０６Ａの長さ）を特定することができる。図示されている例において、第１の音響領域３０６Ａは正方形である。代替的に、第１の音響領域３０６Ａは、任意の適切なサイズ及び形状であってもよく、未処理のスペクトログラム３００内の時間周波数ビンの任意の適切な組合せ（例えば、時間周波数ビンの任意の適切なグループなど）を含んでもよい。次いで、例示的な音響特性特定手段２０４は、第１の音響領域３０６Ａ内に含まれる時間周波数ビンの音響特性（例えば、平均エネルギーなど）を特定することができる。特定された音響特性を使用して、図２の例示的な信号正規化手段２０６は、第１の時間周波数ビン３０４Ａの関連付けられる値を正規化することができる（例えば、第１の時間周波数ビン３０４Ａのエネルギーを、第１の音響領域３０６Ａ内の各時間周波数ビンの平均エネルギーによって正規化することができる）。

[0038]図３Ｂの図示されている例において、第２の時間周波数ビン３０４Ｂは、未処理のスペクトログラム３００の周波数ビンと時間ビンとの交差点、及び、音響信号１０６の、交差点と関連付けられる部分と関連付けられる。例示的な第２の音響領域３０６Ｂは、例示的な第２の時間周波数ビン３０４Ｂから外方への所定の距離以内の時間周波数ビンを含む。同様に、音響特性特定手段２０４は、第２の音響領域３０６Ｂの水平長さ（例えば、水平軸３１０に沿った第２の音響領域３０６Ｂの長さ）を特定することができる。図示されている例において、第２の音響領域３０６Ｂは正方形である。代替的に、第２の音響領域３０６Ｂは、任意の適切なサイズ及び形状であってもよく、未処理のスペクトログラム３００内の時間周波数ビンの任意の適切な組合せ（例えば、時間周波数ビンの任意の適切なグループなど）を含んでもよい。いくつかの例において、第２の音響領域３０６Ｂは、第１の音響領域３０６Ａと重なり合うことができる（例えば、同じ時間周波数ビンの一部を含むことができる、水平軸３１０上に配置することができる、垂直軸３０８上に配置することができる、など）。いくつかの例において、第２の音響領域３０６Ｂは、第１の音響領域３０６Ａと同じサイズ及び形状にすることができる。他の例において、第２の音響領域３０６Ｂは、第１の音響領域３０６Ａと異なるサイズ及び形状にすることができる。次いで、例示的な音響特性特定手段２０４は、第２の音響領域３０６Ｂとともに含まれる時間周波数ビンの音響特性（例えば、平均エネルギーなど）を特定することができる。特定された音響特性を使用して、図２の例示的な信号正規化手段２０６は、第２の時間周波数ビン３０４Ｂの関連付けられる値を正規化することができる（例えば、第２の時間周波数ビン３０４Ｂのエネルギーを、第２の音響領域３０６Ｂ内に位置するビンの平均エネルギーによって正規化することができる）。

[0039]図３Ｃは、図３Ａ〜図３Ｂの未処理のスペクトログラム３００の複数の時間周波数ビンを正規化することによって、図２の信号正規化手段によって生成される正規化スペクトログラム３０２の一例を示す。例えば、未処理のスペクトログラム３００の時間周波数ビンの一部又はすべてを、時間周波数ビン３０４Ａ及び３０４Ｂが正規化された方法と同様の様式で正規化することができる。正規化スペクトログラムを生成するための例示的なプロセス７００が、図７に関連して説明される。図３Ｃの結果もたらされる周波数ビンは、この時点において、当該領域の周りの局所領域内の局所平均エネルギーによって正規化されている。結果として、より暗い領域は、それぞれの局所領域内で最もエネルギーの高い領域である。上記によって、フィンガープリントが、通常のより音量の大きい低音周波数範囲に対してエネルギーが低い領域においてさえも、関連する音響特徴を組み込むことが可能になる。

[0040]図４は、固定音響信号周波数成分に分割されている図３の例示的な未処理のスペクトログラム３００を示す。例示的な未処理のスペクトログラム３００は、高速フーリエ変換（ＦＦＴ）を用いて音響信号１０６を処理することによって生成される。他の例において、任意の他の適切な方法を使用して、未処理のスペクトログラム３００を生成することができる。当該例において、未処理のスペクトログラム３００は、例示的な音響信号周波数成分４０２に分割される。例示的な未処理のスペクトログラム４００は、図３の例示的な垂直軸３０８と、図３の例示的な水平軸３１０とを含む。図示されている例において、例示的な音響信号周波数成分４０２は各々、例示的な周波数範囲４０８と、例示的な時間期間４１０とを有する。例示的な音響信号周波数成分４０２は、例示的な第１の音響信号周波数成分４１２Ａ及び例示的な第２の音響信号周波数成分４１２Ｂを含む。図示されている例において、未処理のスペクトログラム３００のより暗い部分は、音響信号１０６の、エネルギーのより高い部分を表す。

[0041]例示的な音響信号周波数成分４０２は各々、連続する周波数範囲（例えば、周波数ビンなど）と連続する時間期間の固有の組合せと関連付けられる。図示されている例において、音響信号周波数成分４０２の各々は、等しいサイズの周波数ビン（例えば、周波数範囲４０８）を有する。他の例において、音響信号周波数成分４０２の一部又はすべては、異なるサイズの周波数ビンを有してもよい。図示されている例において、音響信号周波数成分４０２の各々は、等しい持続時間の時間期間（例えば、時間期間４１０）を有する。他の例において、音響信号周波数成分４０２の一部又はすべては、異なる持続時間の時間期間を有してもよい。図示されている例において、音響信号周波数成分４０２は、音響信号１０６の全体を構成する。他の例において、音響信号周波数成４０２は、音響信号１０６の一部分を含んでもよい。

[0042]図示されている例において、第１の音響信号周波数成分４１２Ａは、音響信号１０６の高音範囲内にあり、可視エネルギー点を有しない。例示的な第１の音響信号周波数成分４１２Ａは、７６８ＦＦＴビンと８９６ＦＦＴビンとの間の周波数ビン、及び、１０，０２４ｍｓと１１，５２０ｍｓとの間の時間期間と関連付けられる。いくつかの例において、音響信号１０６の、第１の音響信号周波数成分４１２Ａ内の部分が存在する。当該例において、音響信号１０６の音響信号周波数成分４１２Ａ内の部分は、音響信号１０６の低音スペクトル内の音響（例えば、第２の音響信号周波数成分４１２Ｂ内の音響など）のエネルギーが相当に高いことに起因して、見えない。第２の音響信号周波数成分４１２Ｂは、音響信号１０６の低音範囲内にあり、可視エネルギー点である。例示的な第２の音響信号周波数成分４１２Ｂは、１２８ＦＦＴビンと２５６ＦＦＴビンとの間の周波数ビン、及び、１０，０２４ｍｓと１１，５２０ｍｓとの間の時間期間と関連付けられる。いくつかの例において、音響信号１０６の、低音スペクトル内の部分（例えば、第２の音響信号周波数成分４１２Ｂなど）は、相当に高いエネルギーを有するため、未処理のスペクトログラム３００から生成されるフィンガープリントは、低音スペクトルからの不釣り合いな数のサンプルを含む。

[0043]図５は、図４の固定音響信号周波数成分から図２の信号正規化手段によって生成される正規化スペクトログラム５００の一例である。例示的な正規化スペクトログラム５００は、図３の例示的な垂直軸３０８と、図３の例示的な水平軸３１０とを含む。例示的な正規化スペクトログラム５００は、例示的な音響信号周波数成分５０２に分割される。図示されている例において、音響信号周波数成分５０２は各々、例示的な周波数範囲４０８と、例示的な時間期間４１０とを有する。例示的な音響信号周波数成分５０２は、例示的な第１の音響信号周波数成分５０４Ａ及び例示的な第２の音響信号周波数成分５０４Ｂを含む。いくつかの例において、第１の音響信号周波数成分５０４Ａ及び第２の音響信号周波数成分５０４Ｂは、図３の第１の音響信号周波数成分４１２Ａ及び第２の音響信号周波数成分４１２Ｂと同じ周波数ビン及び時間期間に対応する。図示されている例において、正規化スペクトログラム５００のより暗い部分は音響スペクトルの、エネルギーのより高い領域を表す。

[0044]例示的な正規化スペクトログラム５００は、関連付けられる音響特性によって図４の各音響信号周波数成分４０２を正規化することによって未処理のスペクトログラム３００を正規化することによって生成される。例えば、音響特性特定手段２０４は、第１の音響信号周波数成分４１２Ａ音響特性（例えば、平均エネルギーなど）を特定することができる。当該例において、信号正規化手段２０６は、次いで、特定された音響特性によって第１の音響信号周波数成分４１２Ａを正規化して、例示的な音響信号周波数成分４０２Ａを生成することができる。同様に、例示的な第２の音響信号周波数成分４０２Ｂは、第２の音響信号周波数成分４１２Ｂと関連付けられる音響特性によって図４の第２の音響信号周波数成分４１２Ｂを正規化することによって生成することができる。他の例において、正規化スペクトログラム５００は、音響信号成４０２の一部分を正規化することによって生成することができる。他の例において、任意の他の適切な方法を使用して、例示的な正規化スペクトログラム５００を生成することができる。

[0045]図５の図示されている例において、第１の音響信号周波数成分５０４Ａ（例えば、信号正規化手段２０６によって処理された後の図４の第１の音響信号周波数成分４１２Ａなど）は、正規化スペクトログラム５００上の可視エネルギー点を有する。例えば、第１の音響信号周波数成分５０４Ａは、第１の音響信号周波数成分４１２Ａのエネルギーによって正規化されているため、音響信号１０６の以前は隠れていた部分（例えば、第１の音響信号周波数成分４１２Ａと比較したときに）が、正規化スペクトログラム５００上では見える。第２の音響信号周波数成分５０４Ｂ（例えば、信号正規化手段２０６によって処理された後の図４の第２の音響信号周波数成分４１２Ｂなど）は、音響信号１０６の低音範囲に対応する。例えば、第２の音響信号周波数成分５０４Ｂは、第２の音響信号周波数成分４１２Ｂのエネルギーによって正規化されているため、可視エネルギー点の量は低減されている（例えば、第２の音響信号周波数成分４１２Ｂと比較したときに）。いくつかの例において、正規化スペクトログラム５００から生成されるフィンガープリント（例えば、図１のフィンガープリント１１０）は、音響スペクトルから、図４の未処理のスペクトログラム３００から生成されるフィンガープリントよりもさらに分散されているサンプルを含む。

[0046]図６は、図５の正規化スペクトログラム５００から図２の点選択手段によって生成される正規化重み付けスペクトログラム６００の一例である。例示的なスペクトログラム６００は、図３の例示的な垂直軸３０８と、図３の例示的な水平軸３１０とを含む。例示的な正規化重み付けスペクトログラム６００は、例示的な音響信号周波数成分５０２に分割される。図示されている例において、例示的な音響信号周波数成分５０２は各々、例示的な周波数範囲４０８と、例示的な時間期間４１０とを有する。例示的な音響信号周波数成分５０２は、例示的な第１の音響信号周波数成分６０４Ａ及び例示的な第２の音響信号周波数成分６０４Ｂを含む。いくつかの例において、第１の音響信号周波数成分６０４Ａ及び第２の音響信号周波数成分６０４Ｂは、それぞれ図３の第１の音響信号周波数成分４１２Ａ及び第２の音響信号周波数成分４１２Ｂと同じ周波数ビン及び時間期間に対応する。図示されている例において、正規化重み付けスペクトログラム６００のより暗い部分は音響スペクトルの、エネルギーのより高い領域を表す。

[0047]例示的な正規化重み付けスペクトログラム６００は、正規化スペクトログラム６００を、音響信号１０６の分類に基づいて０〜１の範囲の値を用いて重み付けすることによって生成される。例えば、音響信号１０６が音楽である場合、音響スペクトルの、音楽と関連付けられる領域が、図２の点選択手段２０８によって各列に沿って重み付けされる。他の例において、重み付けは、複数の列に適用することができ、０〜１の異なる範囲を呈することができる。

[0048]図２の音響プロセッサ１０８を実装するために実行することができる例示的なハードウェア論理、機械可読命令、ハードウェア実装状態機械、及び／又は、上記の任意の組合せを表す流れ図が、図７及び図８に示されている。機械可読命令は、図９に関連して後述する例示的なプロセッサプラットフォーム９００に示すプロセッサ９１２などのコンピュータプロセッサによって実行するための実行可能プログラム又は実行可能プログラムの一部分であってもよい。プログラムは、ＣＤ−ＲＯＭ、フロッピーディスク、ハードドライブ、ＤＶＤ、Ｂｌｕ−ｒａｙディスク、又はプロセッサ９１２と関連付けられるメモリなどの非一時的コンピュータ可読記憶媒体に記憶されているソフトウェアにおいて具現化されてもよいが、プログラム全体及び／又はプログラムの部分は、代替的に、プロセッサ９１２以外のデバイスによって実行されてもよく、及び／又は、ファームウェア若しくは専用ハードウェアにおいて具現化されてもよい。さらに、例示的なプログラムが図７及び図８に示す流れ図を参照して説明されているが、代替的に、例示的なオーディオプロセッサ１０８を実施する多くの他の方法が使用されてもよい。例えば、ブロックを実行する順序は変更されてもよく、及び／又は、説明されているブロックの一部が、変更、排除、若しくは組み合わされてもよい。付加的に又は代替的に、ブロックのいずれか又はすべては、ソフトウェア又はファームウェアを実行することなく対応する動作を実施するように構造化されている１つ又は複数のハードウェア回路（例えば、個別の及び／又は集積アナログ及び／又はデジタル回路、ＦＰＧＡ、ＡＳＩＣ、比較器、演算増幅器（オペアンプ）、論理回路など）によって実施されてもよい。

[0049]上記で言及したように、図７及び図８の例示的なプロセスは、任意の持続時間にわたって（例えば、長い時間期間にわたって、持続的に、短い瞬間にわたって、一時的なバッファリングにわたって、及び／又は、情報のキャッシングにわたって）情報が記憶されている、ハードディスクドライブ、フラッシュメモリ、読み出し専用メモリ、コンパクトディスク、デジタル多用途ディスク、キャッシュ、ランダムアクセスメモリ、及び／又は、任意の他の記憶デバイス若しくは記憶ディスクなどの、非一時的コンピュータ及び／又は機械可読媒体に記憶されている実行可能命令（例えば、コンピュータ及び／又は機械可読命令）を使用して実施することができる。本明細書において使用される場合、非一時的コンピュータ可読媒体という用語は、任意のタイプのコンピュータ可読記憶デバイス及び／又は記憶ディスクを含み、伝播信号を除外し、伝送媒体を除外するものとして明示的に定義される。

[0050]「ｉｎｃｌｕｄｉｎｇ（含む）」及び「ｃｏｍｐｒｉｓｉｎｇ（備える）」（並びにそのすべての形態及び時制）は本明細書において、非限定的な用語であるものとして使用される。したがって、請求項が、プリアンブルとして又は任意の種類の請求項表記内で任意の形態の「ｉｎｃｌｕｄｅ」又は「ｃｏｍｐｒｉｓｅ」（例えば、ｃｏｍｐｒｉｓｅｓ、ｉｎｃｌｕｄｅｓ、ｃｏｍｐｒｉｓｉｎｇ、ｉｎｃｌｕｄｉｎｇ、ｈａｖｉｎｇなど）を利用するときはいつでも、対応する請求項又は表記の範囲から外れることなく、追加の要素、用語などが存在してもよいことは理解されたい。本明細書において使用される場合、「少なくとも」という語句は、例えば、請求項のプリアンブルなどにおいて移行語として使用されるとき、「ｃｏｍｐｒｉｓｉｎｇ」及び「ｉｎｃｌｕｄｉｎｇ」という用語などが非限定的であるのと同様に、非限定的である。「及び／又は」という用語は、例えば、Ａ、Ｂ、及び／又はＣなどの形態で使用されるとき、（１）Ａのみ、（２）Ｂのみ、（３）Ｃのみ、（４）Ｂを伴うＡ、（５）、Ｃを伴うＡ、（６）Ｃを伴うＢ、並びに（７）Ｂ及びＣを伴うＡなどの、Ａ、Ｂ、Ｃの任意の組合せ又は部分集合を参照する。本明細書において構造、構成要素、物品、物体及び／又は物事を説明する文脈において使用される場合、「Ａ及びＢの少なくとも１つ」という語句は、（１）少なくとも１つのＡ、（２）少なくとも１つのＢ、並びに（３）少なくとも１つのＡ及び少なくとも１つのＢのうちのいずれかを含む実施態様を参照するように意図されている。同様に、本明細書において構造、構成要素、物品、物体及び／又は物事を説明する文脈において使用される場合、「Ａ又はＢの少なくとも１つ」という語句は、（１）少なくとも１つのＡ、（２）少なくとも１つのＢ、並びに（３）少なくとも１つのＡ及び少なくとも１つのＢのうちのいずれかを含む実施態様を参照するように意図されている。本明細書においてプロセス、命令、動作、活動及び／又はステップの実施又は実行を説明する文脈において使用される場合、「Ａ及びＢの少なくとも１つ」という語句は、（１）少なくとも１つのＡ、（２）少なくとも１つのＢ、並びに（３）少なくとも１つのＡ及び少なくとも１つのＢのうちのいずれかを含む実施態様を参照するように意図されている。同様に、本明細書においてプロセス、命令、動作、活動及び／又はステップの実施又は実行を説明する文脈において使用される場合、「Ａ又はＢの少なくとも１つ」という語句は、（１）少なくとも１つのＡ、（２）少なくとも１つのＢ、並びに（３）少なくとも１つのＡ及び少なくとも１つのＢのうちのいずれかを含む実施態様を参照するように意図されている。

[0051]図７のプロセスは、ブロック７０２において開始する。ブロック７０２において、音響プロセッサ１０８が、デジタル化音響信号１０６を受信する。例えば、音響プロセッサ１０８は、マイクロフォン１０４によって捕捉されている音響（例えば、図１の音響源１０２などによって放出されている）を受信することができる。当該例において、マイクロフォンは、音響をデジタル化音響信号１０６に変換するためのアナログ−デジタル変換器を含むことができる。他の例において、音響プロセッサ１０８は、データベース（例えば、図９の揮発性メモリ９１４、図９の不揮発性メモリ９１６、図９の大容量記憶装置９２８など）に記憶されている音響を受信することができる。他の例においては、デジタル化音響信号１０６は、ネットワーク（例えば、インターネットなど）を介して音響プロセッサ１０８に送信することができる。付加的に又は代替的に、音響プロセッサ１０８は、任意の他の適切な手段によって音響信号１０６を受信することができる。

[0052]ブロック７０４において、周波数範囲分離手段２０２が、音響信号１０６をウィンドウイングし、音響信号１０６を周波数ドメインに変換する。例えば、周波数範囲分離手段２０２は、高速フーリエ変換を実施して、音響信号１０６を周波数ドメインに変換することができ、ウィンドウイング関数（例えば、ハミング関数、ハン関数など）を実施することができる。付加的に又は代替的に、周波数範囲分離手段２０２は、音響信号１０６を２つ以上の時間ビンに集約することができる。上記例において、時間周波数ビンは、周波数ビンと時間ビンとの交差点に対応し、音響信号１０６の一部分を含む。

[0053]ブロック７０６において、音響特性特定手段２０４が、正規化するための時間周波数ビンを選択する。例えば、音響特性特定手段２０４は、図３Ａの第１の時間周波数ビン３０４Ａを選択することができる。いくつかの例において、音響特性特定手段２０４は、以前に選択されている第１の時間周波数ビンに隣接する時間周波数ビンを選択することができる。

[0054]ブロック７０８において、音響特性特定手段２０４は、周囲の音響領域の音響特性を特定する。例えば、音響特性特定手段２０４が第１の時間周波数ビン３０４Ａを選択した場合、音響特性特定手段２０４は、第１の音響領域３０６Ａの音響特性を特定することができる。いくつかの例において、音響特性特定手段２０４は、音響領域の平均エネルギーを特定することができる。他の例において、音響特性特定手段２０４は、任意の他の適切な音響特性（複数可）（例えば、平均振幅など）を特定することができる。

[0055]ブロック７１０において、音響特性特定手段２０４は、別の時間周波数ビンが選択されるべきであるか否かを判定し、プロセス７００はブロック７０６に戻る。別の時間周波数ビンが選択されるべきでない場合、プロセス７００はブロック７１２に進む。いくつかの例において、ブロック７０６〜７１０は、未処理のスペクトログラム３００のすべての時間周波数ビンが選択されるまで繰り返される。他の例において、ブロック７０６〜７１０は、任意の適切な回数の反復だけ繰り返すことができる。

[0056]ブロック７１２において、信号正規化手段２０６が、関連付けられる音響特性に基づいて、各時間周波数ビンを正規化する。例えば、信号正規化手段２０６は、ブロック７０８において特定されている関連付けられる音響特性を用いて、ブロック７０６において選択されている時間周波数ビンの各々を正規化することができる。例えば、信号正規化手段は、それぞれ第１の音響領域３０６Ａ及び第２の音響領域３０６Ｂの音響特性（例えば、平均エネルギー）によって、第１の時間周波数ビン３０４Ａ及び第２の時間周波数ビン３０４Ｂを正規化することができる。いくつかの例において、信号正規化手段２０６は、時間周波数ビンの正規化に基づいて正規化スペクトログラム（例えば、図３Ｃの正規化スペクトログラム３０２）を生成する。

[0057]ブロック７１４において、点選択手段２０８が、フィンガープリント生成が音響分類に基づいて重み付けされるべきであるか否かを特定し、プロセス７００はブロック７１６に進む。フィンガープリント生成が音響分類に基づいて重み付けされるべきでない場合、プロセス７００はブロック７２０に進む。ブロック７１６において、点選択手段２０８は、音響信号１０６の音響分類を特定する。例えば、点選択手段２０８は、ユーザに、音響の分類（例えば、音楽、発話、音響効果、広告など）を示すためのプロンプトを提示することができる。他の例においては、音響プロセッサ１０８は、音響分類特定アルゴリズムを使用して、音響分類を特定することができる。いくつかの例において、音響分類は、特定の人間の音声、一般的にヒトの発話、音楽、音響効果及び／又は広告であってもよい。

[0058]ブロック７１８において、点選択手段２０８は、特定された音響分類に基づいて時間周波数ビンを重み付けする。例えば、音響分類が音楽である場合、点選択手段２０８は、共通して音楽と関連付けられる高音及び低音範囲と関連付けられる音響信号周波数成分を重み付けすることができる。いくつかの例において、音響分類が特定の人間の音声である場合、点選択手段２０８は、当該人間の音声と関連付けられる音響信号周波数成分を重み付けすることができる。いくつかの例において、信号正規化手段２０６の出力は、スペクトログラムとして表すことができる。

[0059]ブロック７２０において、フィンガープリント生成手段２１０が、正規化音響信号のエネルギー極値を選択することによって、音響信号１０６のフィンガープリント（例えば、図１のフィンガープリント１１０）を生成する。例えば、フィンガープリント生成手段２１０は、１つ又は複数のエネルギー極値（例えば、１つの極値、２０の極値など）と関連付けられる周波数、時間ビン及びエネルギーを使用することができる。いくつかの例において、フィンガープリント生成手段２１０は、正規化音響信号１０６のエネルギー最大値を選択することができる。他の例において、フィンガープリント生成手段２１０は、正規化音響信号周波数成分の任意の他の適切な特徴を選択することができる。いくつかの例において、フィンガープリント生成手段２１０は、音響信号１０６を表すフィンガープリント１１０を生成するための任意の適切な手段（例えば、アルゴリズムなど）を利用することができる。フィンガープリント１１０が生成されると、プロセス７００は終了する。

[0060]図８のプロセス８００は、ブロック８０２において開始する。ブロック８０２において、音響プロセッサ１０８が、デジタル化音響信号を受信する。例えば、音響プロセッサ１０８は、音響（例えば、図１の音響源１０２などによって放出されている）を受信することができ、マイクロフォン１０４によって捕捉された。当該例において、マイクロフォンは、音響をデジタル化音響信号１０６に変換するためのアナログ−デジタル変換器を含むことができる。他の例において、音響プロセッサ１０８は、データベース（例えば、図９の揮発性メモリ９１４、図９の不揮発性メモリ９１６、図９の大容量記憶装置９２８など）に記憶されている音響を受信することができる。他の例においては、デジタル化音響信号１０６は、ネットワーク（例えば、インターネットなど）を介して音響プロセッサ１０８に送信することができる。付加的に又は代替的に、音響プロセッサ１０８は、任意の適切な手段によって音響信号１０６を受信することができる。

[0061]ブロック８０４において、周波数範囲分離手段２０２が、音響信号を２つ以上の音響信号周波数成分（例えば、図３の音響信号周波数成分４０２など）に分割する。例えば、周波数範囲分離手段２０２は、高速フーリエ変換を実施して、音響信号１０６を周波数ドメインに変換することができ、ウィンドウイング関数（例えば、ハミング関数、ハン関数など）を実施して、周波数ビンを作成することができる。当該例において、各音響信号周波数成分は、上記周波数ビンのうちの１つ又は複数の周波数ビン（複数可）と関連付けられる。付加的に又は代替的に、周波数範囲分離手段２０２は、音響信号１０６を２つ以上の時間期間にさらに分割することができる。当該例において、各音響信号周波数成分は、２つ以上の時間期間のうちの１つの時間期間と、２つ以上の周波数ビンのうちの１つの周波数ビンとの固有の組合せに対応する。例えば、周波数範囲分離手段２０２は、音響信号１０６を第１の周波数ビン、第２の周波数ビン、第１の時間期間及び第２の時間期間に分割することができる。当該例において、第１の音響信号周波数成分は音響信号１０６の、第１の周波数ビン及び第１の時間期間内の部分に対応し、第２の音響信号周波数成分は音響信号１０６の、第１の周波数ビン及び第２の時間期間内の部分に対応し、第３の音響信号周波数成分は音響信号１０６の、第２の周波数ビン及び第１の時間期間内の部分に対応し、第４の音響信号周波数成分は音響信号１０６の、第２の周波数ビン及び第２の時間期間内の成分に部分する。いくつかの例において、周波数範囲分離手段２０２の出力は、スペクトルグラフ（例えば、図３の未処理のスペクトログラム３００）として表すことができる。

[0062]ブロック８０６において、音響特性特定手段２０４が、各音響信号周波数成分の音響特性を特定する。例えば、音響特性特定手段２０４は、各音響信号周波数成分の平均エネルギーを特定することができる。他の例において、音響特性特定手段２０４は、任意の他の適切な音響特性（複数可）（例えば、平均振幅など）を特定することができる。

[0063]ブロック８０８において、信号正規化手段２０６が、音響信号周波数成分と関連付けられる、特定された音響特性に基づいて、各音響信号周波数成分を正規化する。例えば、信号正規化手段２０６は、各音響信号周波数成分を、当該音響信号周波数成分と関連付けられる平均エネルギーによって正規化することができる。他の例において、信号正規化手段２０６は、任意の他の適切な音響特性を使用して音響信号周波数成分を正規化することができる。いくつかの例において、信号正規化手段２０６の出力は、スペクトルグラフ（例えば、図５の正規化スペクトログラム５００）として表すことができる。

[0064]ブロック８１０において、音響特性特定手段２０４が、フィンガープリント生成が音響分類に基づいて重み付けされるべきであるか否かを特定し、プロセス８００はブロック８１２に進む。フィンガープリント生成が音響分類に基づいて重み付けされるべきでない場合、プロセス８００はブロック８１６に進む。ブロック８１２において、音響プロセッサ１０８が、音響信号１０６の音響分類を特定する。例えば、音響プロセッサ１０８は、ユーザに、音響の分類（例えば、音楽、発話など）を示すためのプロンプトを提示することができる。他の例においては、音響プロセッサ１０８は、音響分類特定アルゴリズムを使用して、音響分類を特定することができる。いくつかの例において、音響分類は、特定の人間の音声、一般的にヒトの発話、音楽、音響効果及び／又は広告であってもよい。

[0065]ブロック８１４において、信号正規化手段２０６が、特定された音響分類に基づいて音響信号周波数成分を重み付けする。例えば、音響分類が音楽である場合、信号正規化手段２０６は、音楽の平均スペクトルエンベロープと関連付けられる高音〜低音の各周波数位置について、０〜１の異なるスケーラ値を用いて各列に沿った音響信号周波数成分を重み付けすることができる。いくつかの例において、音響分類がヒトの音声である場合、信号正規化手段２０６は、ヒトの音声のスペクトルエンベロープと関連付けられる音響信号周波数成分を重み付けすることができる。いくつかの例において、信号正規化手段２０６の出力は、スペクトルグラフ（例えば、図６のスペクトログラム６００）として表すことができる。

[0066]ブロック８１６において、フィンガープリント生成手段２１０が、正規化音響信号周波数成分のエネルギー極値を選択することによって、音響信号１０６のフィンガープリント（例えば、図１のフィンガープリント１１０）を生成する。いくつかの例において、フィンガープリント生成手段２１０は、１つ又は複数のエネルギー極値（例えば、２０の極値など）と関連付けられる周波数、時間ビン及びエネルギーを使用することができる。例えば、フィンガープリント生成手段２１０は、正規化音響信号のエネルギー最大値を選択することができる。他の例において、フィンガープリント生成手段２１０は、正規化音響信号周波数成分の任意の他の適切な特徴を選択することができる。いくつかの例において、フィンガープリント生成手段２１０は、音響信号１０６を表すフィンガープリント１１０を生成するための別の適切な手段（例えば、アルゴリズムなど）を利用することができる。フィンガープリント１１０が生成されると、プロセス８００は終了する。

[0067]図９は、図２の音響プロセッサ１０８を実装するための図７及び／又は図８の命令を実行するように構成されている例示的なプロセッサプラットフォーム９００のブロック図である。プロセッサプラットフォーム９００は、例えば、サーバ、パーソナルコンピュータ、ワークステーション、自己学習マシン（例えば、ニューラルネットワーク）、モバイルデバイス（例えば、携帯電話、スマートフォン、ｉＰａｄ（登録商標）などのタブレット）、個人情報端末（ＰＤＡ）、インターネット家電、ＤＶＤプレーヤ、ＣＤプレーヤ、デジタルビデオレコーダ、Ｂｌｕ−ｒａｙプレーヤ、ゲーミングコンソール、パーソナルビデオレコーダ、セットトップボックス、ヘッドセット若しくは他のウェアラブルデバイス、又は任意の他のタイプのコンピューティングデバイスであってもよい。

[0068]図示されている例のプロセッサプラットフォーム９００は、プロセッサ９１２を含む。図示されている例のプロセッサプラットフォーム９１２は、ハードウェアである。例えば、プロセッサ９１２は、１つ又は複数の集積回路、論理回路、マイクロプロセッサ、ＧＰＵ、ＤＳＰ、又は任意の所望のファミリ若しくは製造元からのコントローラによって実装されてもよい。ハードウェアプロセッサは、半導体に基づく（例えば、シリコンに基づく）デバイスであってもよい。当該例において、プロセッサ９１２は、例示的な周波数範囲分離手段２０２と、例示的な音響特性特定手段２０４と、例示的な信号正規化手段２０６と、例示的な点選択手段２０８と、例示的なフィンガープリント生成手段２１０とを実装する。

[0069]図示されている例のプロセッサ９１２は、ローカルメモリ９１３（例えば、キャッシュ）を含む。図示されている例のプロセッサ９１２は、バス９１８を介して、揮発性メモリ９１４及び不揮発性メモリ９１６を含む主記憶装置と通信する。揮発性メモリ９１４は、同期型ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、ＲＡＭＢＵＳ（登録商標）ダイナミックランダムアクセスメモリ（ＲＤＲＡＭ（登録商標））、及び／又は任意の他のタイプのランダムアクセスメモリデバイスによって実装されてもよい。不揮発性メモリ９１６は、フラッシュメモリ及び／又は任意の他の所望のタイプのメモリデバイスによって実装されてもよい。主記憶装置９１４、９１６へのアクセスは、メモリコントローラによって制御される。

[0070]図示されている例のプロセッサプラットフォーム９００はまた、インターフェース回路９２０をも含む。インターフェース回路９２０は、Ｅｔｈｅｒｎｅｔ（登録商標）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）インターフェース、近距離場通信（ＮＦＣ）インターフェース、及び／又はＰＣＩｅｘｐｒｅｓｓインターフェースなどの、任意のタイプのインターフェース規格によって実装されてもよい。

[0071]図示されている例において、１つ又は複数の入力デバイス９２２が、インターフェース回路９２０に接続されている。入力デバイス９２２（複数可）は、ユーザがプロセッサ９１２にデータ及び／又はコマンドを入力することを可能にする。入力デバイス９２２（複数可）は、例えば、音響センサ、マイクロフォン、カメラ（静止又はビデオ）、及び／又は音声認識システムによって実装されてもよい。

[0072]１つ又は複数の出力デバイス９２４はまた、図示されている例のインターフェース回路９２０にも接続されている。出力デバイス９２４は、例えば、ディスプレイデバイス（例えば、発光ダイオード（ＬＥＤ）、有機発光ダイオード（ＯＬＥＤ）、液晶ディスプレイ（ＬＣＤ）、陰極線管ディスプレイ（ＣＲＴ）、面内切替型（ＩＰＳ）ディスプレイ、タッチスクリーンなど）、触覚出力デバイス、プリンタ、及び／又はスピーカによって実装されてもよい。したがって、図示されている例のインターフェース回路９２０は、典型的には、グラフィックスドライバカード、グラフィックスドライバチップ、及び／又はグラフィックスドライバプロセッサを含む。

[0073]図示されている例のインターフェース回路９２０はまた、送信手段、受信手段、送受信手段、モデム、住居用ゲートウェイ、ワイヤレスアクセスポイント、及び／又は、ネットワーク９２６を介して外部マシン（例えば、任意の種類のコンピューティングデバイス）とのデータの交換を促進するネットワークインターフェースなどの通信デバイスも含む。通信は、例えば、Ｅｔｈｅｒｎｅｔ接続、デジタル加入者線（ＤＳＬ）接続、電話回線接続、同軸ケーブルシステム、衛星システム、見通し線ワイヤレスシステム、携帯電話システムなどを介するものであってもよい。

[0074]図示されている例のプロセッサプラットフォーム９００はまた、ソフトウェア及び／又はデータを記憶するための１つ又は複数の大容量記憶装置９２８をも含む。そのような大容量記憶装置９２８の例は、フロッピーディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、Ｂｌｕ−ｒａｙディスクドライブ、独立ディスク冗長アレイ（ＲＡＩＤ）システム、及びデジタル多用途ディスク（ＤＶＤ）ドライブを含む。

[0075]図６の方法を実施するためのマシン実行可能命令９３２を、大容量記憶装置９２８、揮発性メモリ９１４、不揮発性メモリ９１６、及び／又は、ＣＤ若しくはＤＶＤなどの取り外し可能非一時的コンピュータ可読記憶媒体に記憶することができる。

[0076]上記から、フィンガープリントにおいて捕捉される雑音の量を低減する、音響信号のフィンガープリントが作成されることを可能にする例示的な方法及び装置が開示されていることが諒解されよう。付加的に、音響信号のエネルギーのより低い領域から音響をサンプリングすることによって、以前から使用されている音響フィンガープリンティング方法と比較したときに、よりロバストな音響フィンガープリンティングがもたらされる。

[0077]特定の例示的な方法、装置、及び製造品が本明細書において開示されているが、本特許がカバーする範囲は上記に限定されない。逆に、本特許は、本特許の特許請求の範囲内に適正に入るすべての方法、装置、及び製造品をカバーする。

Claims

音響フィンガープリンティングのための装置
音響信号を周波数ドメインに変換するための周波数範囲分離手段であって、変換された前記音響信号が、第１の時間周波数ビンを含む複数の時間周波数ビンを含む、周波数範囲分離手段と、
前記複数の時間周波数ビンのうちの第１のグループの時間周波数ビンの第１の特性を特定するための音響特性特定手段であって、前記第１のグループの時間周波数ビンが、前記第１の時間周波数ビンを囲む、音響特性特定手段と、
前記音響信号を正規化することにより、正規化エネルギー値を生成するための信号正規化手段であって、前記音響信号の前記正規化が、前記第１の特性によって前記第１の時間周波数ビンを正規化することを含む、信号正規化手段と、
前記正規化エネルギー値のうちの１つを選択するための点選択手段と、
前記正規化エネルギー値のうちの選択された前記１つを使用して前記音響信号のフィンガープリントを生成するためのフィンガープリント生成手段と、
を備える、装置。
前記周波数範囲分離手段がさらに、前記音響信号に高速フーリエ変換を実施するためのものである、請求項１に記載の装置。
前記点選択手段がさらに、
前記音響信号の分類を特定し、
前記音響信号の前記分類によって前記正規化エネルギー値のうちの前記１つの前記選択を重み付けする、
ためのものである、請求項１に記載の装置。
前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも１つを含む、請求項３に記載の装置。
前記音響特性特定手段がさらに、前記複数の時間周波数ビンのうちの第２のグループの時間周波数ビンの第２の特性を特定するためのものであり、
前記第２のグループの時間周波数ビンが、前記複数の時間周波数ビンのうちの第２の時間周波数ビンを囲み、
前記信号正規化手段がさらに、前記第１の特性によって前記第１の時間周波数ビンを正規化するためのものである、請求項１に記載の装置。
前記点選択手段が、正規化された前記音響信号のエネルギー極値に基づいて前記正規化エネルギー値のうちの前記１つを選択する、請求項１に記載の装置。
前記複数の時間周波数ビンの各時間周波数ビンが、（１）前記音響信号の時間期間と、（２）変換された前記音響信号の周波数ビンと、の固有の組合せである、請求項１に記載の装置。
音響フィンガープリンティングのための方法であって、
音響信号を周波数ドメインに変換するステップであって、変換された前記音響信号が、第１の時間周波数ビンを含む複数の時間周波数ビンを含む、変換するステップと、
前記複数の時間周波数ビンのうちの第１のグループの時間周波数ビンの第１の特性を特定するステップであって、前記第１のグループの時間周波数ビンが、前記第１の時間周波数ビンを囲む、特定するステップと、
前記音響信号を正規化することにより、正規化エネルギー値を生成するステップであって、前記音響信号の前記正規化が、前記第１の特性によって前記第１の時間周波数ビンを正規化することを含む、正規化するステップと、
前記正規化エネルギー値のうちの１つを選択するステップと、
前記正規化エネルギー値のうちの選択された前記１つを使用して前記音響信号のフィンガープリントを生成するステップと、
を含む、方法。
前記音響信号を前記周波数ドメインに変換する前記ステップが、前記音響信号に高速フーリエ変換を実施することを含む、請求項８に記載の方法。
前記正規化エネルギー値のうちの前記１つを選択する前記ステップが、
前記音響信号の分類を特定することと、
前記音響信号の前記分類によって前記正規化エネルギー値のうちの前記１つの前記選択を重み付けすることと、
を含む、請求項８に記載の方法。
前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも１つを含む、請求項１０に記載の方法。
前記複数の時間周波数ビンのうちの第２のグループの時間周波数ビンの第２の特性を特定するステップであって、前記第２のグループの時間周波数ビンが、前記複数の時間周波数ビンのうちの第２の時間周波数ビンを囲む、特定するステップと、
前記第１の特性によって前記第１の時間周波数ビンを正規化するステップと、
をさらに含む、請求項８に記載の方法。
前記正規化エネルギー値のうちの前記１つを選択する前記ステップが、正規化された前記音響信号のエネルギー極値に基づく、請求項８に記載の方法。
前記複数の時間周波数ビンの各時間周波数ビンが、（１）前記音響信号の時間期間と、（２）変換された前記音響信号の周波数ビンと、の固有の組合せである、請求項８に記載の方法。
命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令は、実行されると、プロセッサに少なくとも、
音響信号を周波数ドメインに変換することであって、変換された前記音響信号が、第１の時間周波数ビンを含む複数の時間周波数ビンを含む、変換することと、
前記複数の時間周波数ビンのうちの第１のグループの時間周波数ビンの第１の特性を特定することであって、前記第１のグループの時間周波数ビンが、前記第１の時間周波数ビンを囲む、特定することと、
前記音響信号を正規化することにより、正規化エネルギー値を生成することであって、前記音響信号の前記正規化が、前記第１の特性によって前記第１の時間周波数ビンを正規化することを含む、正規化することと、
前記正規化エネルギー値のうちの１つを選択することと、
前記正規化エネルギー値のうちの選択された前記１つを使用して前記音響信号のフィンガープリントを生成することと、
を行わせる、非一時的コンピュータ可読記憶媒体。
前記音響信号を前記周波数ドメインに前記変換することが、前記音響信号に高速フーリエ変換を実施することを含む、請求項１５に記載の非一時的コンピュータ可読記憶媒体。
前記命令は、実行されると、前記プロセッサに、
前記音響信号の分類を特定することと、
前記音響信号の前記分類によって前記正規化エネルギー値のうちの前記１つの前記選択を重み付けすることと、
を行わせる、請求項１５に記載の非一時的コンピュータ可読記憶媒体。
前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも１つを含む、請求項１７に記載の非一時的コンピュータ可読記憶媒体。
前記命令は、実行されると、前記プロセッサに、
前記複数の時間周波数ビンのうちの第２のグループの時間周波数ビンの第２の特性を特定することであって、前記第２のグループの時間周波数ビンが、前記複数の時間周波数ビンのうちの第２の時間周波数ビンを囲む、特定することと、
前記第１の特性によって前記第１の時間周波数ビンを正規化することと、
を行わせる、請求項１５に記載の非一時的コンピュータ可読記憶媒体。
前記複数の時間周波数ビンの各時間周波数ビンが、（１）前記音響信号の時間期間と、（２）変換された前記音響信号の周波数ビンと、の固有の組合せである、請求項１５に記載の非一時的コンピュータ可読記憶媒体。