JP2021536596A - 正規化を介して音響信号をフィンガープリンティングするための方法及び装置 - Google Patents

正規化を介して音響信号をフィンガープリンティングするための方法及び装置 Download PDF

Info

Publication number
JP2021536596A
JP2021536596A JP2021512712A JP2021512712A JP2021536596A JP 2021536596 A JP2021536596 A JP 2021536596A JP 2021512712 A JP2021512712 A JP 2021512712A JP 2021512712 A JP2021512712 A JP 2021512712A JP 2021536596 A JP2021536596 A JP 2021536596A
Authority
JP
Japan
Prior art keywords
acoustic signal
time frequency
acoustic
frequency bin
bin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021512712A
Other languages
English (en)
Other versions
JP7346552B2 (ja
Inventor
ロバート クーバー,
ザファール ラフィイ,
Original Assignee
グレースノート インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グレースノート インコーポレイテッド filed Critical グレースノート インコーポレイテッド
Publication of JP2021536596A publication Critical patent/JP2021536596A/ja
Application granted granted Critical
Publication of JP7346552B2 publication Critical patent/JP7346552B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

平均正規化を介して音響をフィンガープリンティングするための方法、装置、システム、及び製造品が開示される。音響フィンガープリンティングのための例示的な装置は、音響信号を周波数ドメインに変換するための周波数範囲分離手段であって、変換された音響信号が、第1の時間周波数ビンを含む複数の時間周波数ビンを含む、周波数範囲分離手段と、複数の時間周波数ビンのうちの第1のグループの時間周波数ビンの第1の特性を特定するための音響特性特定手段であって、第1のグループの時間周波数ビンが、第1の時間周波数ビンを囲む、音響特性特定手段と、音響信号を正規化することにより、正規化エネルギー値を生成するための信号正規化手段であって、音響信号の正規化が、第1の特性によって第1の時間周波数ビンを正規化することを含む、信号正規化手段とを含む。例示的な装置は、正規化エネルギー値のうちの1つを選択するための点選択手段と、正規化エネルギー値のうちの選択された1つを使用して音響信号のフィンガープリントを生成するためのフィンガープリント生成手段とをさらに含む。【選択図】 図2

Description

関連出願
[0001]本特許は、2018年9月7日付で出願されたフランス特許出願第1858041号の優先権及び利益を主張する。フランス特許出願第1858041号は、参照によりその全体が本明細書に組み込まれる。
開示の分野
[0002]本開示は、概して音響(audio、オーディオ)信号に関し、より詳細には、正規化を介して音響信号をフィンガープリンティングするための方法及び装置に関する。
背景
[0003]音響情報(例えば、音声、発話、音楽など)は、デジタルデータ(例えば、電子、光など)として表現することができきる。捕捉された音響(例えば、マイクロフォンを介して)は、デジタル化し、電子的に記憶し、処理及び/又は分類することができる。音響情報を分類する1つの方法は、音響フィンガープリントを生成することによる。音響フィンガープリントは、音響信号の一部分をサンプリングすることによって作成される音響情報のデジタル要約である。音響フィンガープリントは、歴史的に、音響を識別し、及び/又は、音響真正性を検証するために使用されてきた。
[0004]図1は、本開示の教示を実施することができる例示的なシステムの図である。
[0005]図2は、図1の音響プロセッサの例示的な実施態様の図である。
[0006]図3Aは、図2の例示的な周波数範囲分離手段によって生成される例示的な未処理のスペクトログラムを示す図である。 [0006]図3Bは、図2の例示的な周波数範囲分離手段によって生成される例示的な未処理のスペクトログラムを示す図である。
[0007]図3Cは、図3A及び図3Bの未処理のスペクトログラムから図2の信号正規化手段によって生成される正規化スペクトログラムの一例を示す図である。
[0008]図4は、固定音響信号周波数成分に分割されている図3A及び図3Bの例示的な未処理のスペクトログラムの図である。
[0009]図5は、図4の固定音響信号周波数成分から図2の信号正規化手段によって生成される正規化スペクトログラムの一例の図である。
[0010]図6は、図5の正規化スペクトログラムから図2の点選択手段によって生成される正規化重み付けスペクトログラムの一例の図である。
[0011]図7は、図2の音響プロセッサを実装するために実行することができる機械可読命令を表す流れ図である。
[0012]図9は、図2の音響プロセッサを実装するための図7及び図8の命令を実行するように構成されている例示的な処理プラットフォームのブロック図である。
[0013]図面は原寸に比例しない。概して、同じ又は同様の部分を指すために、同じ参照符号が、図面及び付随する本明細書全体を通じて使用される。
詳細な説明
[0014]フィンガープリント又は署名に基づくメディア監視技法は、概して、メディアの実質的に一意のプロキシを生成するために、監視時間間隔中に監視されるメディアの1つ又は複数の固有の特性を利用する。当該プロキシは、署名又はフィンガープリントとして参照され、メディア信号(複数可)(例えば、監視されているメディア提示を形成する音響及び/又はビデオ信号)の任意の態様を表す任意の形態(複数可)(例えば、一連のデジタル値、波形など)をとることができる。署名は、一定の時間間隔にわたって順次収集される一連の署名であり得る。「フィンガープリント」及び「署名」という用語は、本明細書において交換可能に使用され、本明細書においては、メディアの1つ又は複数の固有の特性から生成される、メディアを識別するためのプロキシを意味するものとして定義される。
[0015]署名に基づくメディア監視は、一般的に、監視されているメディアデバイスによって出力されるメディア信号(例えば、音響信号及び/又はビデオ信号)を表す署名(複数可)を特定(例えば、生成及び/又は収集)することと、監視されている署名(複数可)を、既知の(例えば、基準)メディアソースに対応する1つ又は複数の基準署名と比較することとを含む。相互相関値、ハミング距離などのような様々な比較基準を評価して、監視されている署名が特定の基準署名と一致するか否かを判定することができる。
[0016]監視されている署名と基準署名のうちの1つとの間に一致が見つかった場合、監視されているメディアは、監視されている署名と一致した基準署名によって表される特定の基準メディアに対応するものとして識別することができる。メディアの識別子、提示時間、ブロードキャストチャネルなどのような属性が基準署名について収集されるため、当該属性は、次いで、監視されている署名が基準署名と一致した、監視されているメディアと関連付けることができる。コード及び/又は署名に基づいてメディアを識別するための例示的なシステムは長らく知られており、参照によりその全体が本明細書に組み込まれる、Thomasの米国特許第5,481,294号に最初に開示された。
[0017]歴史的に、音響フィンガープリンティング技術は、ある時間区間におけるフィンガープリントを作成するために、音響信号の最も音量の大きい部分(例えば、最もエネルギーの多い部分など)を使用してきた。しかしながら、場合によっては、当該方法にはいくつかの深刻な制限がある。いくつかの例において、音響信号の最も音量の大きい部分は、雑音(例えば、望ましくない音響)と関連付けられる可能性があり、対象の音響に由来するものでない可能性がある。例えば、ユーザが騒がしいレストランにおいて歌曲をフィンガープリンティングするように試行している場合、捕捉される音響信号の最も音量の大きい部分は、レストランの常連客の間の会話である可能性があり、識別されるべき歌曲又はメディアでない可能性がある。当該例において、音響信号のサンプリングされる部分の多くは背景雑音のものであり、音楽のものではなく、生成されるフィンガープリントの有用性を減じる。
[0018]以前のフィンガープリンティング技術の別の潜在的な制限は、特に音楽において、低音周波数範囲内の音響が、最も音量の大きい部分である傾向があることである。いくつかの例において、低音周波数エネルギーが支配的になる結果として、音響信号のサンプリングされる部分が主に低音周波数範囲内になる。したがって、既存の方法を使用して生成されるフィンガープリントは通常、特により高い周波数範囲(例えば、高音範囲など)において、署名照合に使用することができる音響スペクトルのすべての部分からのサンプルを含むとは限らない。
[0019]本明細書において開示されている例示的な方法及び装置は、平均正規化を使用して音響信号からフィンガープリントを生成することによって、上記課題を克服する。例示的な方法は、周囲音響領域の音響特性によって、音響信号の時間周波数ビンのうちの1つ又は複数を正規化するステップを含む。本明細書において使用される場合、「時間周波数ビン」は、特定の時間(例えば、音響信号に入る3秒)における特定の周波数ビン(例えば、FFTビン)に対応する音響信号の一部分である。いくつかの例において、正規化は、音響信号の音響分類によって重み付けされる。いくつかの例において、フィンガープリントは、正規化時間周波数ビンから点を選択することによって生成される。
[0020]本明細書において開示されている別の例示的な方法は、音響信号を2つ以上の音響信号周波数成分に分割するステップを含む。本明細書において使用される場合、「音響信号周波数成分」は、ある周波数範囲及び時間期間に対応する音響信号の一部分である。いくつかの例において、音響信号周波数成分は、複数の時間周波数ビンから構成することができる。いくつかの例において、音響信号周波数成分のいくつかについて、音響特性が特定される。この例において、音響信号周波数成分の各々は、関連する音響特性(例えば、音響平均など)によって正規化される。いくつかの例において、フィンガープリントは、正規化音響信号周波数成分から点を選択することによって生成される。
[0021]図1は、本開示の教示を実施することができる例示的なシステム100である。例示的なシステム100は、例示的な音響源102と、音響源102から音声を捕捉し、捕捉された音声を例示的な音響信号106に変換する例示的なマイクロフォン104とを含む。例示的な音響プロセッサ108が、音響信号106を受信し、例示的なフィンガープリント110を生成する。
[0022]例示的な音響源102は、可聴音を放出する。例示的な音響源は、スピーカ(例えば、電気音響変換器など)、実演、会話及び/又は任意の他の適切な音響源であってもよい。例示的な音響源102は、所望の音響(例えば、フィンガープリンティングされるべき音響など)を含み得、また、望ましくない音響(例えば、背景雑音など)も含み得る。図示されている例において、音響源102はスピーカである。他の例において、音響源102は、任意の他の適切な音響源(例えば、人間など)であってもよい。
[0023]例示的なマイクロフォン104は、音響源102によって放出される音声を音響信号106に変換する変換器である。いくつかの例において、マイクロフォン104は、コンピュータ、モバイルデバイス(スマートフォン、タブレットなど)、ナビゲーションデバイス又はウェアラブルデバイス(例えば、スマートウォッチ)の構成要素であってもよい。いくつかの例において、マイクロフォンは、音響信号106をデジタル化するための音響−デジタル変換を含むことができる。他の例においては、音響プロセッサ108が音響信号106をデジタル化することができる。
[0024]例示的な音響信号106は、音響源102によって放出される音声のデジタル化表現である。いくつかの例において、音響信号106は、音響プロセッサ108によって処理される前にコンピュータに保存することができる。いくつかの例において、音響信号106は、ネットワークを介して例示的な音響プロセッサ108に転送することができる。付加的に又は代替的に、任意の他の適切な方法を使用して、音響を生成することができる(例えば、デジタル合成など)。
[0025]例示的な音響プロセッサ108は、例示的な音響信号106を例示的なフィンガープリント110に変換する。いくつかの例において、音響プロセッサ108は、音響信号106を周波数ビン及び/又は時間期間に分割し、次いで、作成された音響信号周波数成分のうちの1つ又は複数の平均エネルギーを特定する。いくつかの例において、音響プロセッサ108は、各時間周波数ビンの周囲の音響領域の関連付けられる平均エネルギーを使用して、音響信号周波数成分を正規化することができる。他の例において、任意の他の適切な音響特性を特定して、各時間周波数ビンを正規化するために使用することができる。いくつかの例において、フィンガープリント110は、正規化音響信号周波数成分の中から最も高いエネルギーを選択することによって生成することができる。付加的に又は代替的に、任意の適切な方法を使用して、フィンガープリント110を生成することができる。音響プロセッサ108の例示的な実施態様が、図2に関連して下記に説明される。
[0026]例示的なフィンガープリント110は、音響信号106を識別及び/又は検証するために使用することができる音響信号106の縮約されたデジタル要約である。例えば、フィンガープリント110は、音響信号106の部分をサンプリングし、当該部分を処理することによって生成することができる。いくつかの例において、フィンガープリント110は、音響信号106の最もエネルギーの高い部分のサンプルを含むことができる。いくつかの例において、フィンガープリント110は、他のフィンガープリントとの比較に使用することができるデータベース内でインデックス付けすることができる。いくつかの例において、フィンガープリント110は、音響信号106を識別する(例えば、いずれの歌曲が再生されているかを特定する)ために使用することができる。いくつかの例において、フィンガープリント110は、音響の真正性を検証するために使用することができる。
[0027]図2は、図1の音響プロセッサ108の例示的な実施態様である。例示的な音響プロセッサ108は、例示的な周波数範囲分離手段202と、例示的な音響特性特定手段204と、例示的な信号正規化手段206と、例示的な点選択手段208と、例示的なフィンガープリント生成手段210とを含む。
[0028]例示的な周波数範囲分離手段202は、音響信号(例えば、図1のデジタル化音響信号106)を時間周波数ビン及び/又は音響信号周波数成分に分割する。例えば、周波数範囲分離手段202は、高速フーリエ変換(FFT)を音響信号106に対して実施して、音響信号106を周波数ドメインに変換することができる。付加的に、例示的な周波数範囲分離手段202は、変換された音響信号106を2つ以上の周波数ビンに(例えば、ハミング関数、ハン関数などを使用して)分割することができる。当該例において、各音響信号周波数成分は、2つ以上の周波数ビンのうちの1つの周波数ビンと関連付けられる。付加的に又は代替的に、周波数範囲分離手段202は、音響信号106を1つ又は複数の時間期間(例えば、音響の持続時間、6秒区間、1秒区間など)に集約することができる。他の例において、周波数範囲分離手段202は、任意の適切な技法を使用して、音響信号106を変換することができる(例えば、離散フーリエ変換、スライド時間窓フーリエ変換、ウェーブレット変換、離散アダマール変換、離散ウォルシュ・アダマール、離散コサイン変換など)。いくつかの例において、周波数範囲分離手段202は、1つ又は複数のバンドパスフィルタ(BPF)によって実装することができる。いくつかの例において、例示的な周波数範囲分離手段202の出力は、スペクトログラムによって表すことができる。周波数範囲分離手段202の例示的な出力は、図3A〜図3B及び図4に関連して下記に論じられる。
[0029]例示的な音響特性特定手段204は、音響信号106の一部分(例えば、音響信号周波数成分、時間周波数ビンの周囲の音響領域など)の音響特性を特定する。例えば、音響特性特定手段204は、音響信号周波数成分(複数可)のうちの1つ又は複数の平均エネルギー(例えば、平均パワーなど)を特定することができる。付加的に又は代替的に、音響特性特定手段204は、音響信号の一部分の他の特性(例えば、モードエネルギー、メジアンエネルギー、モードパワー、メジアンエネルギー、平均エネルギー、平均振幅など)を特定してもよい。
[0030]例示的な信号正規化手段206は、周囲音響領域の関連付けられる音響特性によって、1つ又は複数の時間周波数ビンを正規化する。例えば、信号正規化手段206は、周囲音響領域の平均エネルギーによって時間周波数ビンを正規化することができる。他の例において、信号正規化手段206は、関連付けられる音響特性によって音響信号周波数成分の一部を正規化する。例えば、信号正規化手段206は、音響信号周波数成分の各時間周波数ビンを、当該音響信号成分と関連付けられる平均エネルギーを使用して正規化することができる。いくつかの例において、信号正規化手段206の出力(例えば、正規化時間周波数ビン、正規化音響信号周波数成分など)は、スペクトログラムとして表すことができる。信号正規化手段206の例示的な出力は、図3C及び図5に関連して下記に論じられる。
[0031]例示的な点選択手段208は、正規化音響信号から、フィンガープリント110を生成するのに使用される1つ又は複数の点を選択する。例えば、例示的な点選択手段208は、正規化音響信号の複数のエネルギー最大値を選択することができる。他の例において、点選択手段208は、正規化音響の任意の他の適切な点を選択することができる。
[0032]付加的に又は代替的に、点選択手段208は、音響信号106の分類に基づいて点の選択を重み付けすることができる。例えば、点選択手段208は、音響信号の分類が音楽である場合、音楽の共通の周波数範囲(例えば、低音、高音など)に、点の選択を重み付けすることができる。いくつかの例において、点選択手段208は、音響信号の分類(例えば、音楽、発話、音響効果、広告など)を特定することができる。例示的なフィンガープリント生成手段210は、例示的な点選択手段208によって選択されている点を使用してフィンガープリント(例えば、フィンガープリント110)を生成する。例示的なフィンガープリント生成手段210は、任意の適切な方法を使用して、選択されている点からフィンガープリントを生成することができる。
[0033]図1の音響プロセッサ108を実施する例示的な方法が図2に示されているが、図2に示す要素、プロセス、及び/又はデバイスのうちの1つ又は複数は、組合せ、分割、再構成、省略、排除、及び/又は任意の他の方法において実施されてもよい。さらに、例示的な周波数範囲分離手段202、例示的な音響特性特定手段204、例示的な信号正規化手段206、例示的な点選択手段208、例示的なフィンガープリント生成手段210、及び/又は、より一般的に、図1及び図2の例示的な音響プロセッサ108は、ハードウェア、ソフトウェア、ファームウェア、並びに/又は、ハードウェア、ソフトウェア、及び/若しくはファームウェアの任意の組合せによって実装されてもよい。したがって、例えば、例示的な周波数範囲分離手段202、例示的な音響特性特定手段204、例示的な信号正規化手段206、例示的な点選択手段208、例示的なフィンガープリント生成手段210、及び/又は、より一般的に、例示的な音響プロセッサ108のいずれかは、1つ若しくは複数のアナログ若しくはデジタル回路(複数可)、論理回路、プログラム可能プロセッサ(複数可)、プログラム可能コントローラ(複数可)、グラフィックスプロセッシングユニット(複数可)(GPU(複数可))、デジタル信号プロセッサ(複数可)(DSP(複数可))、特定用途向け集積回路(複数可)(ASIC(複数可))、プログラム可能論理デバイス(複数可)(PLD(複数可))、及び/又は、フィールドプログラマブル論理デバイス(複数可)(FPLD(複数可))によって実装することができる。純粋にソフトウェア及び/又はファームウェアの実施態様をカバーするように本特許の装置又はシステムの請求項のいずれかを読解するとき、例示的な周波数範囲分離手段202、例示的な音響特性特定手段204、例示的な信号正規化手段206、例示的な点選択手段208、及び例示的なフィンガープリント生成手段210の少なくとも1つは、本明細書によって、ソフトウェア及び/又はファームウェアを含む、メモリ、デジタル多用途ディスク(DVD)、コンパクトディスク(CD)、Blu−ray(登録商標)ディスクなどのような非一時的(non-transitory、ノントランジトリ)コンピュータ可読記憶デバイス又は記憶ディスクを含むものとして明示的に定義される。またさらに、図1及び図2の例示的な音響プロセッサ106は、図2に示すものに加えて、若しくは代わりに、1つ若しくは複数の要素、プロセス、及び/若しくはデバイスを含んでもよく、並びに/又は、示されている要素、プロセス、及びデバイスのいずれかのうちの2つ以上若しくはすべてを含んでもよい。本明細書において使用される場合、変化形を含む「通信している(in communication)」という語句は、直接的な通信、及び/又は、1つ若しくは複数の中間構成要素を通じた間接的な通信を包含し、直接的な物理的(例えば、有線)通信及び/又は常時通信を必要とせず、むしろ付加的に、周期的な間隔、スケジュールされた間隔、非周期的な間隔、及び/又は1回限りのイベントにおける選択的な通信を含む。
[0034]図3A〜図3Bは、図2の例示的な周波数範囲分離手段によって生成される例示的な未処理のスペクトログラム300を示す。図3Aの図示されている例において、例示的な未処理のスペクトログラム300は、例示的な第1の音響領域306Aによって囲まれている例示的な第1の時間周波数ビン304Aを含む。図3Bの図示されている例において、例示的な未処理のスペクトログラムは、例示的な音響領域306Bによって囲まれている例示的な第2の時間周波数ビン304Bを含む。図3A及び図3Bの例示的な未処理のスペクトログラム300並びに正規化スペクトログラム302は各々、周波数ビンを示す例示的な垂直軸308と、時間ビンを示す例示的な水平軸310とを含む。図3A及び図3Bは、例示的な音響領域306A及び306Bを示しており、当該領域から、正規化音響特性が、音響特性特定手段204によって導出され、信号正規化手段206によって、それぞれ第1の時間周波数ビン304A及び第2の時間周波数ビン304Bを正規化するために使用される。図示されている例において、未処理のスペクトログラム300の各時間周波数ビンが正規化されて、正規化スペクトログラム302が生成される。他の例において、未処理のスペクトログラム300の任意の適切な数の時間周波数ビンを正規化して、図3Cの正規化スペクトログラム302を生成することができる。
[0035]例示的な垂直軸308は、高速フーリエ変換(FFT)によって生成される周波数ビン単位を有し、1024FFTビンの長さを有する。他の例において、例示的な垂直軸308は、任意の他の適切な周波数測定技法(例えば、ヘルツ、別の変換アルゴリズムなど)によって測定されてもよい。いくつかの例において、垂直軸308は、音響信号106の周波数範囲全体を包含する。他の例において、垂直軸308は、音響信号106の一部分を包含し得る。
[0036]図示されている例において、例示的な水平軸310は、未処理のスペクトログラム300の、合計11.5秒の長さを有する時間期間を表す。図示されている例において、水平軸310は、64ミリ秒(ms)の間隔を単位として有する。他の例において、水平軸310は、任意の他の適切な単位(例えば、1秒など)で測定されてもよい。例えば、水平軸310は、音響の持続時間全体を包含する。他の例において、水平軸310は、音響信号106の持続時間の一部分を包含し得る。図示されている例において、スペクトログラム300、302の各時間周波数ビンは、64ms×1FFTビンのサイズを有する。
[0037]図3Aの図示されている例において、第1の時間周波数ビン304Aは、未処理のスペクトログラム300の周波数ビンと時間ビンとの交差点、及び、音響信号106の、交差点と関連付けられる部分と関連付けられる。例示的な第1の音響領域306Aは、例示的な第1の時間周波数ビン304Aから外方への所定の距離以内の時間周波数ビンを含む。例えば、音響特性特定手段204は、FFTビンの設定数(例えば、5ビン、11ビンなど)に基づいて第1の音響領域306Aの垂直長さ(例えば、垂直軸308に沿った第1の音響領域306Aの長さ)を特定することができる。同様に、音響特性特定手段204は、第1の音響領域306Aの水平長さ(例えば、水平軸310に沿った第1の音響領域306Aの長さ)を特定することができる。図示されている例において、第1の音響領域306Aは正方形である。代替的に、第1の音響領域306Aは、任意の適切なサイズ及び形状であってもよく、未処理のスペクトログラム300内の時間周波数ビンの任意の適切な組合せ(例えば、時間周波数ビンの任意の適切なグループなど)を含んでもよい。次いで、例示的な音響特性特定手段204は、第1の音響領域306A内に含まれる時間周波数ビンの音響特性(例えば、平均エネルギーなど)を特定することができる。特定された音響特性を使用して、図2の例示的な信号正規化手段206は、第1の時間周波数ビン304Aの関連付けられる値を正規化することができる(例えば、第1の時間周波数ビン304Aのエネルギーを、第1の音響領域306A内の各時間周波数ビンの平均エネルギーによって正規化することができる)。
[0038]図3Bの図示されている例において、第2の時間周波数ビン304Bは、未処理のスペクトログラム300の周波数ビンと時間ビンとの交差点、及び、音響信号106の、交差点と関連付けられる部分と関連付けられる。例示的な第2の音響領域306Bは、例示的な第2の時間周波数ビン304Bから外方への所定の距離以内の時間周波数ビンを含む。同様に、音響特性特定手段204は、第2の音響領域306Bの水平長さ(例えば、水平軸310に沿った第2の音響領域306Bの長さ)を特定することができる。図示されている例において、第2の音響領域306Bは正方形である。代替的に、第2の音響領域306Bは、任意の適切なサイズ及び形状であってもよく、未処理のスペクトログラム300内の時間周波数ビンの任意の適切な組合せ(例えば、時間周波数ビンの任意の適切なグループなど)を含んでもよい。いくつかの例において、第2の音響領域306Bは、第1の音響領域306Aと重なり合うことができる(例えば、同じ時間周波数ビンの一部を含むことができる、水平軸310上に配置することができる、垂直軸308上に配置することができる、など)。いくつかの例において、第2の音響領域306Bは、第1の音響領域306Aと同じサイズ及び形状にすることができる。他の例において、第2の音響領域306Bは、第1の音響領域306Aと異なるサイズ及び形状にすることができる。次いで、例示的な音響特性特定手段204は、第2の音響領域306Bとともに含まれる時間周波数ビンの音響特性(例えば、平均エネルギーなど)を特定することができる。特定された音響特性を使用して、図2の例示的な信号正規化手段206は、第2の時間周波数ビン304Bの関連付けられる値を正規化することができる(例えば、第2の時間周波数ビン304Bのエネルギーを、第2の音響領域306B内に位置するビンの平均エネルギーによって正規化することができる)。
[0039]図3Cは、図3A〜図3Bの未処理のスペクトログラム300の複数の時間周波数ビンを正規化することによって、図2の信号正規化手段によって生成される正規化スペクトログラム302の一例を示す。例えば、未処理のスペクトログラム300の時間周波数ビンの一部又はすべてを、時間周波数ビン304A及び304Bが正規化された方法と同様の様式で正規化することができる。正規化スペクトログラムを生成するための例示的なプロセス700が、図7に関連して説明される。図3Cの結果もたらされる周波数ビンは、この時点において、当該領域の周りの局所領域内の局所平均エネルギーによって正規化されている。結果として、より暗い領域は、それぞれの局所領域内で最もエネルギーの高い領域である。上記によって、フィンガープリントが、通常のより音量の大きい低音周波数範囲に対してエネルギーが低い領域においてさえも、関連する音響特徴を組み込むことが可能になる。
[0040]図4は、固定音響信号周波数成分に分割されている図3の例示的な未処理のスペクトログラム300を示す。例示的な未処理のスペクトログラム300は、高速フーリエ変換(FFT)を用いて音響信号106を処理することによって生成される。他の例において、任意の他の適切な方法を使用して、未処理のスペクトログラム300を生成することができる。当該例において、未処理のスペクトログラム300は、例示的な音響信号周波数成分402に分割される。例示的な未処理のスペクトログラム400は、図3の例示的な垂直軸308と、図3の例示的な水平軸310とを含む。図示されている例において、例示的な音響信号周波数成分402は各々、例示的な周波数範囲408と、例示的な時間期間410とを有する。例示的な音響信号周波数成分402は、例示的な第1の音響信号周波数成分412A及び例示的な第2の音響信号周波数成分412Bを含む。図示されている例において、未処理のスペクトログラム300のより暗い部分は、音響信号106の、エネルギーのより高い部分を表す。
[0041]例示的な音響信号周波数成分402は各々、連続する周波数範囲(例えば、周波数ビンなど)と連続する時間期間の固有の組合せと関連付けられる。図示されている例において、音響信号周波数成分402の各々は、等しいサイズの周波数ビン(例えば、周波数範囲408)を有する。他の例において、音響信号周波数成分402の一部又はすべては、異なるサイズの周波数ビンを有してもよい。図示されている例において、音響信号周波数成分402の各々は、等しい持続時間の時間期間(例えば、時間期間410)を有する。他の例において、音響信号周波数成分402の一部又はすべては、異なる持続時間の時間期間を有してもよい。図示されている例において、音響信号周波数成分402は、音響信号106の全体を構成する。他の例において、音響信号周波数成402は、音響信号106の一部分を含んでもよい。
[0042]図示されている例において、第1の音響信号周波数成分412Aは、音響信号106の高音範囲内にあり、可視エネルギー点を有しない。例示的な第1の音響信号周波数成分412Aは、768FFTビンと896FFTビンとの間の周波数ビン、及び、10,024msと11,520msとの間の時間期間と関連付けられる。いくつかの例において、音響信号106の、第1の音響信号周波数成分412A内の部分が存在する。当該例において、音響信号106の音響信号周波数成分412A内の部分は、音響信号106の低音スペクトル内の音響(例えば、第2の音響信号周波数成分412B内の音響など)のエネルギーが相当に高いことに起因して、見えない。第2の音響信号周波数成分412Bは、音響信号106の低音範囲内にあり、可視エネルギー点である。例示的な第2の音響信号周波数成分412Bは、128FFTビンと256FFTビンとの間の周波数ビン、及び、10,024msと11,520msとの間の時間期間と関連付けられる。いくつかの例において、音響信号106の、低音スペクトル内の部分(例えば、第2の音響信号周波数成分412Bなど)は、相当に高いエネルギーを有するため、未処理のスペクトログラム300から生成されるフィンガープリントは、低音スペクトルからの不釣り合いな数のサンプルを含む。
[0043]図5は、図4の固定音響信号周波数成分から図2の信号正規化手段によって生成される正規化スペクトログラム500の一例である。例示的な正規化スペクトログラム500は、図3の例示的な垂直軸308と、図3の例示的な水平軸310とを含む。例示的な正規化スペクトログラム500は、例示的な音響信号周波数成分502に分割される。図示されている例において、音響信号周波数成分502は各々、例示的な周波数範囲408と、例示的な時間期間410とを有する。例示的な音響信号周波数成分502は、例示的な第1の音響信号周波数成分504A及び例示的な第2の音響信号周波数成分504Bを含む。いくつかの例において、第1の音響信号周波数成分504A及び第2の音響信号周波数成分504Bは、図3の第1の音響信号周波数成分412A及び第2の音響信号周波数成分412Bと同じ周波数ビン及び時間期間に対応する。図示されている例において、正規化スペクトログラム500のより暗い部分は音響スペクトルの、エネルギーのより高い領域を表す。
[0044]例示的な正規化スペクトログラム500は、関連付けられる音響特性によって図4の各音響信号周波数成分402を正規化することによって未処理のスペクトログラム300を正規化することによって生成される。例えば、音響特性特定手段204は、第1の音響信号周波数成分412A音響特性(例えば、平均エネルギーなど)を特定することができる。当該例において、信号正規化手段206は、次いで、特定された音響特性によって第1の音響信号周波数成分412Aを正規化して、例示的な音響信号周波数成分402Aを生成することができる。同様に、例示的な第2の音響信号周波数成分402Bは、第2の音響信号周波数成分412Bと関連付けられる音響特性によって図4の第2の音響信号周波数成分412Bを正規化することによって生成することができる。他の例において、正規化スペクトログラム500は、音響信号成402の一部分を正規化することによって生成することができる。他の例において、任意の他の適切な方法を使用して、例示的な正規化スペクトログラム500を生成することができる。
[0045]図5の図示されている例において、第1の音響信号周波数成分504A(例えば、信号正規化手段206によって処理された後の図4の第1の音響信号周波数成分412Aなど)は、正規化スペクトログラム500上の可視エネルギー点を有する。例えば、第1の音響信号周波数成分504Aは、第1の音響信号周波数成分412Aのエネルギーによって正規化されているため、音響信号106の以前は隠れていた部分(例えば、第1の音響信号周波数成分412Aと比較したときに)が、正規化スペクトログラム500上では見える。第2の音響信号周波数成分504B(例えば、信号正規化手段206によって処理された後の図4の第2の音響信号周波数成分412Bなど)は、音響信号106の低音範囲に対応する。例えば、第2の音響信号周波数成分504Bは、第2の音響信号周波数成分412Bのエネルギーによって正規化されているため、可視エネルギー点の量は低減されている(例えば、第2の音響信号周波数成分412Bと比較したときに)。いくつかの例において、正規化スペクトログラム500から生成されるフィンガープリント(例えば、図1のフィンガープリント110)は、音響スペクトルから、図4の未処理のスペクトログラム300から生成されるフィンガープリントよりもさらに分散されているサンプルを含む。
[0046]図6は、図5の正規化スペクトログラム500から図2の点選択手段によって生成される正規化重み付けスペクトログラム600の一例である。例示的なスペクトログラム600は、図3の例示的な垂直軸308と、図3の例示的な水平軸310とを含む。例示的な正規化重み付けスペクトログラム600は、例示的な音響信号周波数成分502に分割される。図示されている例において、例示的な音響信号周波数成分502は各々、例示的な周波数範囲408と、例示的な時間期間410とを有する。例示的な音響信号周波数成分502は、例示的な第1の音響信号周波数成分604A及び例示的な第2の音響信号周波数成分604Bを含む。いくつかの例において、第1の音響信号周波数成分604A及び第2の音響信号周波数成分604Bは、それぞれ図3の第1の音響信号周波数成分412A及び第2の音響信号周波数成分412Bと同じ周波数ビン及び時間期間に対応する。図示されている例において、正規化重み付けスペクトログラム600のより暗い部分は音響スペクトルの、エネルギーのより高い領域を表す。
[0047]例示的な正規化重み付けスペクトログラム600は、正規化スペクトログラム600を、音響信号106の分類に基づいて0〜1の範囲の値を用いて重み付けすることによって生成される。例えば、音響信号106が音楽である場合、音響スペクトルの、音楽と関連付けられる領域が、図2の点選択手段208によって各列に沿って重み付けされる。他の例において、重み付けは、複数の列に適用することができ、0〜1の異なる範囲を呈することができる。
[0048]図2の音響プロセッサ108を実装するために実行することができる例示的なハードウェア論理、機械可読命令、ハードウェア実装状態機械、及び/又は、上記の任意の組合せを表す流れ図が、図7及び図8に示されている。機械可読命令は、図9に関連して後述する例示的なプロセッサプラットフォーム900に示すプロセッサ912などのコンピュータプロセッサによって実行するための実行可能プログラム又は実行可能プログラムの一部分であってもよい。プログラムは、CD−ROM、フロッピーディスク、ハードドライブ、DVD、Blu−rayディスク、又はプロセッサ912と関連付けられるメモリなどの非一時的コンピュータ可読記憶媒体に記憶されているソフトウェアにおいて具現化されてもよいが、プログラム全体及び/又はプログラムの部分は、代替的に、プロセッサ912以外のデバイスによって実行されてもよく、及び/又は、ファームウェア若しくは専用ハードウェアにおいて具現化されてもよい。さらに、例示的なプログラムが図7及び図8に示す流れ図を参照して説明されているが、代替的に、例示的なオーディオプロセッサ108を実施する多くの他の方法が使用されてもよい。例えば、ブロックを実行する順序は変更されてもよく、及び/又は、説明されているブロックの一部が、変更、排除、若しくは組み合わされてもよい。付加的に又は代替的に、ブロックのいずれか又はすべては、ソフトウェア又はファームウェアを実行することなく対応する動作を実施するように構造化されている1つ又は複数のハードウェア回路(例えば、個別の及び/又は集積アナログ及び/又はデジタル回路、FPGA、ASIC、比較器、演算増幅器(オペアンプ)、論理回路など)によって実施されてもよい。
[0049]上記で言及したように、図7及び図8の例示的なプロセスは、任意の持続時間にわたって(例えば、長い時間期間にわたって、持続的に、短い瞬間にわたって、一時的なバッファリングにわたって、及び/又は、情報のキャッシングにわたって)情報が記憶されている、ハードディスクドライブ、フラッシュメモリ、読み出し専用メモリ、コンパクトディスク、デジタル多用途ディスク、キャッシュ、ランダムアクセスメモリ、及び/又は、任意の他の記憶デバイス若しくは記憶ディスクなどの、非一時的コンピュータ及び/又は機械可読媒体に記憶されている実行可能命令(例えば、コンピュータ及び/又は機械可読命令)を使用して実施することができる。本明細書において使用される場合、非一時的コンピュータ可読媒体という用語は、任意のタイプのコンピュータ可読記憶デバイス及び/又は記憶ディスクを含み、伝播信号を除外し、伝送媒体を除外するものとして明示的に定義される。
[0050]「including(含む)」及び「comprising(備える)」(並びにそのすべての形態及び時制)は本明細書において、非限定的な用語であるものとして使用される。したがって、請求項が、プリアンブルとして又は任意の種類の請求項表記内で任意の形態の「include」又は「comprise」(例えば、comprises、includes、comprising、including、havingなど)を利用するときはいつでも、対応する請求項又は表記の範囲から外れることなく、追加の要素、用語などが存在してもよいことは理解されたい。本明細書において使用される場合、「少なくとも」という語句は、例えば、請求項のプリアンブルなどにおいて移行語として使用されるとき、「comprising」及び「including」という用語などが非限定的であるのと同様に、非限定的である。「及び/又は」という用語は、例えば、A、B、及び/又はCなどの形態で使用されるとき、(1)Aのみ、(2)Bのみ、(3)Cのみ、(4)Bを伴うA、(5)、Cを伴うA、(6)Cを伴うB、並びに(7)B及びCを伴うAなどの、A、B、Cの任意の組合せ又は部分集合を参照する。本明細書において構造、構成要素、物品、物体及び/又は物事を説明する文脈において使用される場合、「A及びBの少なくとも1つ」という語句は、(1)少なくとも1つのA、(2)少なくとも1つのB、並びに(3)少なくとも1つのA及び少なくとも1つのBのうちのいずれかを含む実施態様を参照するように意図されている。同様に、本明細書において構造、構成要素、物品、物体及び/又は物事を説明する文脈において使用される場合、「A又はBの少なくとも1つ」という語句は、(1)少なくとも1つのA、(2)少なくとも1つのB、並びに(3)少なくとも1つのA及び少なくとも1つのBのうちのいずれかを含む実施態様を参照するように意図されている。本明細書においてプロセス、命令、動作、活動及び/又はステップの実施又は実行を説明する文脈において使用される場合、「A及びBの少なくとも1つ」という語句は、(1)少なくとも1つのA、(2)少なくとも1つのB、並びに(3)少なくとも1つのA及び少なくとも1つのBのうちのいずれかを含む実施態様を参照するように意図されている。同様に、本明細書においてプロセス、命令、動作、活動及び/又はステップの実施又は実行を説明する文脈において使用される場合、「A又はBの少なくとも1つ」という語句は、(1)少なくとも1つのA、(2)少なくとも1つのB、並びに(3)少なくとも1つのA及び少なくとも1つのBのうちのいずれかを含む実施態様を参照するように意図されている。
[0051]図7のプロセスは、ブロック702において開始する。ブロック702において、音響プロセッサ108が、デジタル化音響信号106を受信する。例えば、音響プロセッサ108は、マイクロフォン104によって捕捉されている音響(例えば、図1の音響源102などによって放出されている)を受信することができる。当該例において、マイクロフォンは、音響をデジタル化音響信号106に変換するためのアナログ−デジタル変換器を含むことができる。他の例において、音響プロセッサ108は、データベース(例えば、図9の揮発性メモリ914、図9の不揮発性メモリ916、図9の大容量記憶装置928など)に記憶されている音響を受信することができる。他の例においては、デジタル化音響信号106は、ネットワーク(例えば、インターネットなど)を介して音響プロセッサ108に送信することができる。付加的に又は代替的に、音響プロセッサ108は、任意の他の適切な手段によって音響信号106を受信することができる。
[0052]ブロック704において、周波数範囲分離手段202が、音響信号106をウィンドウイングし、音響信号106を周波数ドメインに変換する。例えば、周波数範囲分離手段202は、高速フーリエ変換を実施して、音響信号106を周波数ドメインに変換することができ、ウィンドウイング関数(例えば、ハミング関数、ハン関数など)を実施することができる。付加的に又は代替的に、周波数範囲分離手段202は、音響信号106を2つ以上の時間ビンに集約することができる。上記例において、時間周波数ビンは、周波数ビンと時間ビンとの交差点に対応し、音響信号106の一部分を含む。
[0053]ブロック706において、音響特性特定手段204が、正規化するための時間周波数ビンを選択する。例えば、音響特性特定手段204は、図3Aの第1の時間周波数ビン304Aを選択することができる。いくつかの例において、音響特性特定手段204は、以前に選択されている第1の時間周波数ビンに隣接する時間周波数ビンを選択することができる。
[0054]ブロック708において、音響特性特定手段204は、周囲の音響領域の音響特性を特定する。例えば、音響特性特定手段204が第1の時間周波数ビン304Aを選択した場合、音響特性特定手段204は、第1の音響領域306Aの音響特性を特定することができる。いくつかの例において、音響特性特定手段204は、音響領域の平均エネルギーを特定することができる。他の例において、音響特性特定手段204は、任意の他の適切な音響特性(複数可)(例えば、平均振幅など)を特定することができる。
[0055]ブロック710において、音響特性特定手段204は、別の時間周波数ビンが選択されるべきであるか否かを判定し、プロセス700はブロック706に戻る。別の時間周波数ビンが選択されるべきでない場合、プロセス700はブロック712に進む。いくつかの例において、ブロック706〜710は、未処理のスペクトログラム300のすべての時間周波数ビンが選択されるまで繰り返される。他の例において、ブロック706〜710は、任意の適切な回数の反復だけ繰り返すことができる。
[0056]ブロック712において、信号正規化手段206が、関連付けられる音響特性に基づいて、各時間周波数ビンを正規化する。例えば、信号正規化手段206は、ブロック708において特定されている関連付けられる音響特性を用いて、ブロック706において選択されている時間周波数ビンの各々を正規化することができる。例えば、信号正規化手段は、それぞれ第1の音響領域306A及び第2の音響領域306Bの音響特性(例えば、平均エネルギー)によって、第1の時間周波数ビン304A及び第2の時間周波数ビン304Bを正規化することができる。いくつかの例において、信号正規化手段206は、時間周波数ビンの正規化に基づいて正規化スペクトログラム(例えば、図3Cの正規化スペクトログラム302)を生成する。
[0057]ブロック714において、点選択手段208が、フィンガープリント生成が音響分類に基づいて重み付けされるべきであるか否かを特定し、プロセス700はブロック716に進む。フィンガープリント生成が音響分類に基づいて重み付けされるべきでない場合、プロセス700はブロック720に進む。ブロック716において、点選択手段208は、音響信号106の音響分類を特定する。例えば、点選択手段208は、ユーザに、音響の分類(例えば、音楽、発話、音響効果、広告など)を示すためのプロンプトを提示することができる。他の例においては、音響プロセッサ108は、音響分類特定アルゴリズムを使用して、音響分類を特定することができる。いくつかの例において、音響分類は、特定の人間の音声、一般的にヒトの発話、音楽、音響効果及び/又は広告であってもよい。
[0058]ブロック718において、点選択手段208は、特定された音響分類に基づいて時間周波数ビンを重み付けする。例えば、音響分類が音楽である場合、点選択手段208は、共通して音楽と関連付けられる高音及び低音範囲と関連付けられる音響信号周波数成分を重み付けすることができる。いくつかの例において、音響分類が特定の人間の音声である場合、点選択手段208は、当該人間の音声と関連付けられる音響信号周波数成分を重み付けすることができる。いくつかの例において、信号正規化手段206の出力は、スペクトログラムとして表すことができる。
[0059]ブロック720において、フィンガープリント生成手段210が、正規化音響信号のエネルギー極値を選択することによって、音響信号106のフィンガープリント(例えば、図1のフィンガープリント110)を生成する。例えば、フィンガープリント生成手段210は、1つ又は複数のエネルギー極値(例えば、1つの極値、20の極値など)と関連付けられる周波数、時間ビン及びエネルギーを使用することができる。いくつかの例において、フィンガープリント生成手段210は、正規化音響信号106のエネルギー最大値を選択することができる。他の例において、フィンガープリント生成手段210は、正規化音響信号周波数成分の任意の他の適切な特徴を選択することができる。いくつかの例において、フィンガープリント生成手段210は、音響信号106を表すフィンガープリント110を生成するための任意の適切な手段(例えば、アルゴリズムなど)を利用することができる。フィンガープリント110が生成されると、プロセス700は終了する。
[0060]図8のプロセス800は、ブロック802において開始する。ブロック802において、音響プロセッサ108が、デジタル化音響信号を受信する。例えば、音響プロセッサ108は、音響(例えば、図1の音響源102などによって放出されている)を受信することができ、マイクロフォン104によって捕捉された。当該例において、マイクロフォンは、音響をデジタル化音響信号106に変換するためのアナログ−デジタル変換器を含むことができる。他の例において、音響プロセッサ108は、データベース(例えば、図9の揮発性メモリ914、図9の不揮発性メモリ916、図9の大容量記憶装置928など)に記憶されている音響を受信することができる。他の例においては、デジタル化音響信号106は、ネットワーク(例えば、インターネットなど)を介して音響プロセッサ108に送信することができる。付加的に又は代替的に、音響プロセッサ108は、任意の適切な手段によって音響信号106を受信することができる。
[0061]ブロック804において、周波数範囲分離手段202が、音響信号を2つ以上の音響信号周波数成分(例えば、図3の音響信号周波数成分402など)に分割する。例えば、周波数範囲分離手段202は、高速フーリエ変換を実施して、音響信号106を周波数ドメインに変換することができ、ウィンドウイング関数(例えば、ハミング関数、ハン関数など)を実施して、周波数ビンを作成することができる。当該例において、各音響信号周波数成分は、上記周波数ビンのうちの1つ又は複数の周波数ビン(複数可)と関連付けられる。付加的に又は代替的に、周波数範囲分離手段202は、音響信号106を2つ以上の時間期間にさらに分割することができる。当該例において、各音響信号周波数成分は、2つ以上の時間期間のうちの1つの時間期間と、2つ以上の周波数ビンのうちの1つの周波数ビンとの固有の組合せに対応する。例えば、周波数範囲分離手段202は、音響信号106を第1の周波数ビン、第2の周波数ビン、第1の時間期間及び第2の時間期間に分割することができる。当該例において、第1の音響信号周波数成分は音響信号106の、第1の周波数ビン及び第1の時間期間内の部分に対応し、第2の音響信号周波数成分は音響信号106の、第1の周波数ビン及び第2の時間期間内の部分に対応し、第3の音響信号周波数成分は音響信号106の、第2の周波数ビン及び第1の時間期間内の部分に対応し、第4の音響信号周波数成分は音響信号106の、第2の周波数ビン及び第2の時間期間内の成分に部分する。いくつかの例において、周波数範囲分離手段202の出力は、スペクトルグラフ(例えば、図3の未処理のスペクトログラム300)として表すことができる。
[0062]ブロック806において、音響特性特定手段204が、各音響信号周波数成分の音響特性を特定する。例えば、音響特性特定手段204は、各音響信号周波数成分の平均エネルギーを特定することができる。他の例において、音響特性特定手段204は、任意の他の適切な音響特性(複数可)(例えば、平均振幅など)を特定することができる。
[0063]ブロック808において、信号正規化手段206が、音響信号周波数成分と関連付けられる、特定された音響特性に基づいて、各音響信号周波数成分を正規化する。例えば、信号正規化手段206は、各音響信号周波数成分を、当該音響信号周波数成分と関連付けられる平均エネルギーによって正規化することができる。他の例において、信号正規化手段206は、任意の他の適切な音響特性を使用して音響信号周波数成分を正規化することができる。いくつかの例において、信号正規化手段206の出力は、スペクトルグラフ(例えば、図5の正規化スペクトログラム500)として表すことができる。
[0064]ブロック810において、音響特性特定手段204が、フィンガープリント生成が音響分類に基づいて重み付けされるべきであるか否かを特定し、プロセス800はブロック812に進む。フィンガープリント生成が音響分類に基づいて重み付けされるべきでない場合、プロセス800はブロック816に進む。ブロック812において、音響プロセッサ108が、音響信号106の音響分類を特定する。例えば、音響プロセッサ108は、ユーザに、音響の分類(例えば、音楽、発話など)を示すためのプロンプトを提示することができる。他の例においては、音響プロセッサ108は、音響分類特定アルゴリズムを使用して、音響分類を特定することができる。いくつかの例において、音響分類は、特定の人間の音声、一般的にヒトの発話、音楽、音響効果及び/又は広告であってもよい。
[0065]ブロック814において、信号正規化手段206が、特定された音響分類に基づいて音響信号周波数成分を重み付けする。例えば、音響分類が音楽である場合、信号正規化手段206は、音楽の平均スペクトルエンベロープと関連付けられる高音〜低音の各周波数位置について、0〜1の異なるスケーラ値を用いて各列に沿った音響信号周波数成分を重み付けすることができる。いくつかの例において、音響分類がヒトの音声である場合、信号正規化手段206は、ヒトの音声のスペクトルエンベロープと関連付けられる音響信号周波数成分を重み付けすることができる。いくつかの例において、信号正規化手段206の出力は、スペクトルグラフ(例えば、図6のスペクトログラム600)として表すことができる。
[0066]ブロック816において、フィンガープリント生成手段210が、正規化音響信号周波数成分のエネルギー極値を選択することによって、音響信号106のフィンガープリント(例えば、図1のフィンガープリント110)を生成する。いくつかの例において、フィンガープリント生成手段210は、1つ又は複数のエネルギー極値(例えば、20の極値など)と関連付けられる周波数、時間ビン及びエネルギーを使用することができる。例えば、フィンガープリント生成手段210は、正規化音響信号のエネルギー最大値を選択することができる。他の例において、フィンガープリント生成手段210は、正規化音響信号周波数成分の任意の他の適切な特徴を選択することができる。いくつかの例において、フィンガープリント生成手段210は、音響信号106を表すフィンガープリント110を生成するための別の適切な手段(例えば、アルゴリズムなど)を利用することができる。フィンガープリント110が生成されると、プロセス800は終了する。
[0067]図9は、図2の音響プロセッサ108を実装するための図7及び/又は図8の命令を実行するように構成されている例示的なプロセッサプラットフォーム900のブロック図である。プロセッサプラットフォーム900は、例えば、サーバ、パーソナルコンピュータ、ワークステーション、自己学習マシン(例えば、ニューラルネットワーク)、モバイルデバイス(例えば、携帯電話、スマートフォン、iPad(登録商標)などのタブレット)、個人情報端末(PDA)、インターネット家電、DVDプレーヤ、CDプレーヤ、デジタルビデオレコーダ、Blu−rayプレーヤ、ゲーミングコンソール、パーソナルビデオレコーダ、セットトップボックス、ヘッドセット若しくは他のウェアラブルデバイス、又は任意の他のタイプのコンピューティングデバイスであってもよい。
[0068]図示されている例のプロセッサプラットフォーム900は、プロセッサ912を含む。図示されている例のプロセッサプラットフォーム912は、ハードウェアである。例えば、プロセッサ912は、1つ又は複数の集積回路、論理回路、マイクロプロセッサ、GPU、DSP、又は任意の所望のファミリ若しくは製造元からのコントローラによって実装されてもよい。ハードウェアプロセッサは、半導体に基づく(例えば、シリコンに基づく)デバイスであってもよい。当該例において、プロセッサ912は、例示的な周波数範囲分離手段202と、例示的な音響特性特定手段204と、例示的な信号正規化手段206と、例示的な点選択手段208と、例示的なフィンガープリント生成手段210とを実装する。
[0069]図示されている例のプロセッサ912は、ローカルメモリ913(例えば、キャッシュ)を含む。図示されている例のプロセッサ912は、バス918を介して、揮発性メモリ914及び不揮発性メモリ916を含む主記憶装置と通信する。揮発性メモリ914は、同期型ダイナミックランダムアクセスメモリ(SDRAM)、ダイナミックランダムアクセスメモリ(DRAM)、RAMBUS(登録商標)ダイナミックランダムアクセスメモリ(RDRAM(登録商標))、及び/又は任意の他のタイプのランダムアクセスメモリデバイスによって実装されてもよい。不揮発性メモリ916は、フラッシュメモリ及び/又は任意の他の所望のタイプのメモリデバイスによって実装されてもよい。主記憶装置914、916へのアクセスは、メモリコントローラによって制御される。
[0070]図示されている例のプロセッサプラットフォーム900はまた、インターフェース回路920をも含む。インターフェース回路920は、Ethernet(登録商標)インターフェース、ユニバーサルシリアルバス(USB)、Bluetooth(登録商標)インターフェース、近距離場通信(NFC)インターフェース、及び/又はPCI expressインターフェースなどの、任意のタイプのインターフェース規格によって実装されてもよい。
[0071]図示されている例において、1つ又は複数の入力デバイス922が、インターフェース回路920に接続されている。入力デバイス922(複数可)は、ユーザがプロセッサ912にデータ及び/又はコマンドを入力することを可能にする。入力デバイス922(複数可)は、例えば、音響センサ、マイクロフォン、カメラ(静止又はビデオ)、及び/又は音声認識システムによって実装されてもよい。
[0072]1つ又は複数の出力デバイス924はまた、図示されている例のインターフェース回路920にも接続されている。出力デバイス924は、例えば、ディスプレイデバイス(例えば、発光ダイオード(LED)、有機発光ダイオード(OLED)、液晶ディスプレイ(LCD)、陰極線管ディスプレイ(CRT)、面内切替型(IPS)ディスプレイ、タッチスクリーンなど)、触覚出力デバイス、プリンタ、及び/又はスピーカによって実装されてもよい。したがって、図示されている例のインターフェース回路920は、典型的には、グラフィックスドライバカード、グラフィックスドライバチップ、及び/又はグラフィックスドライバプロセッサを含む。
[0073]図示されている例のインターフェース回路920はまた、送信手段、受信手段、送受信手段、モデム、住居用ゲートウェイ、ワイヤレスアクセスポイント、及び/又は、ネットワーク926を介して外部マシン(例えば、任意の種類のコンピューティングデバイス)とのデータの交換を促進するネットワークインターフェースなどの通信デバイスも含む。通信は、例えば、Ethernet接続、デジタル加入者線(DSL)接続、電話回線接続、同軸ケーブルシステム、衛星システム、見通し線ワイヤレスシステム、携帯電話システムなどを介するものであってもよい。
[0074]図示されている例のプロセッサプラットフォーム900はまた、ソフトウェア及び/又はデータを記憶するための1つ又は複数の大容量記憶装置928をも含む。そのような大容量記憶装置928の例は、フロッピーディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、Blu−rayディスクドライブ、独立ディスク冗長アレイ(RAID)システム、及びデジタル多用途ディスク(DVD)ドライブを含む。
[0075]図6の方法を実施するためのマシン実行可能命令932を、大容量記憶装置928、揮発性メモリ914、不揮発性メモリ916、及び/又は、CD若しくはDVDなどの取り外し可能非一時的コンピュータ可読記憶媒体に記憶することができる。
[0076]上記から、フィンガープリントにおいて捕捉される雑音の量を低減する、音響信号のフィンガープリントが作成されることを可能にする例示的な方法及び装置が開示されていることが諒解されよう。付加的に、音響信号のエネルギーのより低い領域から音響をサンプリングすることによって、以前から使用されている音響フィンガープリンティング方法と比較したときに、よりロバストな音響フィンガープリンティングがもたらされる。
[0077]特定の例示的な方法、装置、及び製造品が本明細書において開示されているが、本特許がカバーする範囲は上記に限定されない。逆に、本特許は、本特許の特許請求の範囲内に適正に入るすべての方法、装置、及び製造品をカバーする。

Claims (20)

  1. 音響フィンガープリンティングのための装置
    音響信号を周波数ドメインに変換するための周波数範囲分離手段であって、変換された前記音響信号が、第1の時間周波数ビンを含む複数の時間周波数ビンを含む、周波数範囲分離手段と、
    前記複数の時間周波数ビンのうちの第1のグループの時間周波数ビンの第1の特性を特定するための音響特性特定手段であって、前記第1のグループの時間周波数ビンが、前記第1の時間周波数ビンを囲む、音響特性特定手段と、
    前記音響信号を正規化することにより、正規化エネルギー値を生成するための信号正規化手段であって、前記音響信号の前記正規化が、前記第1の特性によって前記第1の時間周波数ビンを正規化することを含む、信号正規化手段と、
    前記正規化エネルギー値のうちの1つを選択するための点選択手段と、
    前記正規化エネルギー値のうちの選択された前記1つを使用して前記音響信号のフィンガープリントを生成するためのフィンガープリント生成手段と、
    を備える、装置。
  2. 前記周波数範囲分離手段がさらに、前記音響信号に高速フーリエ変換を実施するためのものである、請求項1に記載の装置。
  3. 前記点選択手段がさらに、
    前記音響信号の分類を特定し、
    前記音響信号の前記分類によって前記正規化エネルギー値のうちの前記1つの前記選択を重み付けする、
    ためのものである、請求項1に記載の装置。
  4. 前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも1つを含む、請求項3に記載の装置。
  5. 前記音響特性特定手段がさらに、前記複数の時間周波数ビンのうちの第2のグループの時間周波数ビンの第2の特性を特定するためのものであり、
    前記第2のグループの時間周波数ビンが、前記複数の時間周波数ビンのうちの第2の時間周波数ビンを囲み、
    前記信号正規化手段がさらに、前記第1の特性によって前記第1の時間周波数ビンを正規化するためのものである、請求項1に記載の装置。
  6. 前記点選択手段が、正規化された前記音響信号のエネルギー極値に基づいて前記正規化エネルギー値のうちの前記1つを選択する、請求項1に記載の装置。
  7. 前記複数の時間周波数ビンの各時間周波数ビンが、(1)前記音響信号の時間期間と、(2)変換された前記音響信号の周波数ビンと、の固有の組合せである、請求項1に記載の装置。
  8. 音響フィンガープリンティングのための方法であって、
    音響信号を周波数ドメインに変換するステップであって、変換された前記音響信号が、第1の時間周波数ビンを含む複数の時間周波数ビンを含む、変換するステップと、
    前記複数の時間周波数ビンのうちの第1のグループの時間周波数ビンの第1の特性を特定するステップであって、前記第1のグループの時間周波数ビンが、前記第1の時間周波数ビンを囲む、特定するステップと、
    前記音響信号を正規化することにより、正規化エネルギー値を生成するステップであって、前記音響信号の前記正規化が、前記第1の特性によって前記第1の時間周波数ビンを正規化することを含む、正規化するステップと、
    前記正規化エネルギー値のうちの1つを選択するステップと、
    前記正規化エネルギー値のうちの選択された前記1つを使用して前記音響信号のフィンガープリントを生成するステップと、
    を含む、方法。
  9. 前記音響信号を前記周波数ドメインに変換する前記ステップが、前記音響信号に高速フーリエ変換を実施することを含む、請求項8に記載の方法。
  10. 前記正規化エネルギー値のうちの前記1つを選択する前記ステップが、
    前記音響信号の分類を特定することと、
    前記音響信号の前記分類によって前記正規化エネルギー値のうちの前記1つの前記選択を重み付けすることと、
    を含む、請求項8に記載の方法。
  11. 前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも1つを含む、請求項10に記載の方法。
  12. 前記複数の時間周波数ビンのうちの第2のグループの時間周波数ビンの第2の特性を特定するステップであって、前記第2のグループの時間周波数ビンが、前記複数の時間周波数ビンのうちの第2の時間周波数ビンを囲む、特定するステップと、
    前記第1の特性によって前記第1の時間周波数ビンを正規化するステップと、
    をさらに含む、請求項8に記載の方法。
  13. 前記正規化エネルギー値のうちの前記1つを選択する前記ステップが、正規化された前記音響信号のエネルギー極値に基づく、請求項8に記載の方法。
  14. 前記複数の時間周波数ビンの各時間周波数ビンが、(1)前記音響信号の時間期間と、(2)変換された前記音響信号の周波数ビンと、の固有の組合せである、請求項8に記載の方法。
  15. 命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令は、実行されると、プロセッサに少なくとも、
    音響信号を周波数ドメインに変換することであって、変換された前記音響信号が、第1の時間周波数ビンを含む複数の時間周波数ビンを含む、変換することと、
    前記複数の時間周波数ビンのうちの第1のグループの時間周波数ビンの第1の特性を特定することであって、前記第1のグループの時間周波数ビンが、前記第1の時間周波数ビンを囲む、特定することと、
    前記音響信号を正規化することにより、正規化エネルギー値を生成することであって、前記音響信号の前記正規化が、前記第1の特性によって前記第1の時間周波数ビンを正規化することを含む、正規化することと、
    前記正規化エネルギー値のうちの1つを選択することと、
    前記正規化エネルギー値のうちの選択された前記1つを使用して前記音響信号のフィンガープリントを生成することと、
    を行わせる、非一時的コンピュータ可読記憶媒体。
  16. 前記音響信号を前記周波数ドメインに前記変換することが、前記音響信号に高速フーリエ変換を実施することを含む、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  17. 前記命令は、実行されると、前記プロセッサに、
    前記音響信号の分類を特定することと、
    前記音響信号の前記分類によって前記正規化エネルギー値のうちの前記1つの前記選択を重み付けすることと、
    を行わせる、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  18. 前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも1つを含む、請求項17に記載の非一時的コンピュータ可読記憶媒体。
  19. 前記命令は、実行されると、前記プロセッサに、
    前記複数の時間周波数ビンのうちの第2のグループの時間周波数ビンの第2の特性を特定することであって、前記第2のグループの時間周波数ビンが、前記複数の時間周波数ビンのうちの第2の時間周波数ビンを囲む、特定することと、
    前記第1の特性によって前記第1の時間周波数ビンを正規化することと、
    を行わせる、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  20. 前記複数の時間周波数ビンの各時間周波数ビンが、(1)前記音響信号の時間期間と、(2)変換された前記音響信号の周波数ビンと、の固有の組合せである、請求項15に記載の非一時的コンピュータ可読記憶媒体。
JP2021512712A 2018-09-07 2019-09-06 正規化を介して音響信号をフィンガープリンティングするための方法、記憶媒体及び装置 Active JP7346552B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
FR1858041 2018-09-07
FR1858041A FR3085785B1 (fr) 2018-09-07 2018-09-07 Procedes et appareil pour generer une empreinte numerique d'un signal audio par voie de normalisation
US16/453,654 US20200082835A1 (en) 2018-09-07 2019-06-26 Methods and apparatus to fingerprint an audio signal via normalization
US16/453,654 2019-06-26
PCT/US2019/049953 WO2020051451A1 (en) 2018-09-07 2019-09-06 Methods and apparatus to fingerprint an audio signal via normalization

Publications (2)

Publication Number Publication Date
JP2021536596A true JP2021536596A (ja) 2021-12-27
JP7346552B2 JP7346552B2 (ja) 2023-09-19

Family

ID=65861336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021512712A Active JP7346552B2 (ja) 2018-09-07 2019-09-06 正規化を介して音響信号をフィンガープリンティングするための方法、記憶媒体及び装置

Country Status (9)

Country Link
US (1) US20200082835A1 (ja)
EP (2) EP4372748A2 (ja)
JP (1) JP7346552B2 (ja)
KR (1) KR20210082439A (ja)
CN (1) CN113614828A (ja)
AU (2) AU2019335404B2 (ja)
CA (1) CA3111800A1 (ja)
FR (1) FR3085785B1 (ja)
WO (1) WO2020051451A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11727953B2 (en) 2020-12-31 2023-08-15 Gracenote, Inc. Audio content recognition method and system
US11798577B2 (en) 2021-03-04 2023-10-24 Gracenote, Inc. Methods and apparatus to fingerprint an audio signal
US11804231B2 (en) * 2021-07-02 2023-10-31 Capital One Services, Llc Information exchange on mobile devices using audio

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020958A1 (en) * 2004-07-26 2006-01-26 Eric Allamanche Apparatus and method for robust classification of audio signals, and method for establishing and operating an audio-signal database, as well as computer program
JP2006505821A (ja) * 2002-11-12 2006-02-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 指紋情報付マルチメディアコンテンツ
JP2011513788A (ja) * 2008-03-03 2011-04-28 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US20110261257A1 (en) * 2008-08-21 2011-10-27 Dolby Laboratories Licensing Corporation Feature Optimization and Reliability for Audio and Video Signature Generation and Detection
US20140310006A1 (en) * 2011-08-29 2014-10-16 Telefonica, S.A. Method to generate audio fingerprints
JP2016518663A (ja) * 2013-04-28 2016-06-23 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 番組識別のためのシステムおよび方法
US9390719B1 (en) * 2012-10-09 2016-07-12 Google Inc. Interest points density control for audio matching

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5481294A (en) 1993-10-27 1996-01-02 A. C. Nielsen Company Audience measurement system utilizing ancillary codes and passive signatures
WO2003009277A2 (en) * 2001-07-20 2003-01-30 Gracenote, Inc. Automatic identification of sound recordings
JP4406428B2 (ja) * 2005-02-08 2010-01-27 日本電信電話株式会社 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
US9313359B1 (en) * 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
US8831760B2 (en) * 2009-10-01 2014-09-09 (CRIM) Centre de Recherche Informatique de Montreal Content based audio copy detection
JP5728888B2 (ja) * 2010-10-29 2015-06-03 ソニー株式会社 信号処理装置および方法、並びにプログラム
US9098576B1 (en) * 2011-10-17 2015-08-04 Google Inc. Ensemble interest point detection for audio matching
KR101286862B1 (ko) * 2011-11-18 2013-07-17 (주)이스트소프트 블록별 가중치 부여를 이용한 오디오 핑거프린트 검색방법
US9202472B1 (en) * 2012-03-29 2015-12-01 Google Inc. Magnitude ratio descriptors for pitch-resistant audio matching
US9183849B2 (en) * 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
CN104023247B (zh) * 2014-05-29 2015-07-29 腾讯科技(深圳)有限公司 获取、推送信息的方法和装置以及信息交互系统
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
US9837101B2 (en) * 2014-11-25 2017-12-05 Facebook, Inc. Indexing based on time-variant transforms of an audio signal's spectrogram
US10713296B2 (en) * 2016-09-09 2020-07-14 Gracenote, Inc. Audio identification based on data structure

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006505821A (ja) * 2002-11-12 2006-02-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 指紋情報付マルチメディアコンテンツ
US20060020958A1 (en) * 2004-07-26 2006-01-26 Eric Allamanche Apparatus and method for robust classification of audio signals, and method for establishing and operating an audio-signal database, as well as computer program
JP2011513788A (ja) * 2008-03-03 2011-04-28 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US20110261257A1 (en) * 2008-08-21 2011-10-27 Dolby Laboratories Licensing Corporation Feature Optimization and Reliability for Audio and Video Signature Generation and Detection
US20140310006A1 (en) * 2011-08-29 2014-10-16 Telefonica, S.A. Method to generate audio fingerprints
US9390719B1 (en) * 2012-10-09 2016-07-12 Google Inc. Interest points density control for audio matching
JP2016518663A (ja) * 2013-04-28 2016-06-23 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 番組識別のためのシステムおよび方法

Also Published As

Publication number Publication date
CA3111800A1 (en) 2020-03-12
JP7346552B2 (ja) 2023-09-19
CN113614828A (zh) 2021-11-05
EP3847642B1 (en) 2024-04-10
FR3085785B1 (fr) 2021-05-14
EP3847642A1 (en) 2021-07-14
FR3085785A1 (fr) 2020-03-13
KR20210082439A (ko) 2021-07-05
WO2020051451A1 (en) 2020-03-12
AU2022275486A1 (en) 2023-01-05
EP4372748A2 (en) 2024-05-22
EP3847642A4 (en) 2022-07-06
US20200082835A1 (en) 2020-03-12
AU2019335404B2 (en) 2022-08-25
AU2019335404A1 (en) 2021-04-22

Similar Documents

Publication Publication Date Title
US20210089967A1 (en) Data training in multi-sensor setups
JP5998603B2 (ja) 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
JP7346552B2 (ja) 正規化を介して音響信号をフィンガープリンティングするための方法、記憶媒体及び装置
CN104768049B (zh) 一种用于同步音频数据和视频数据的方法、系统及计算机可读存储介质
Pillos et al. A Real-Time Environmental Sound Recognition System for the Android OS.
US11847998B2 (en) Methods and apparatus for harmonic source enhancement
AU2024200622A1 (en) Methods and apparatus to fingerprint an audio signal via exponential normalization
JP6367691B2 (ja) 報知音感知・識別装置、報知音感知・識別方法、報知音感知・識別プログラム
CN112017639A (zh) 语音信号的检测方法、终端设备及存储介质
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
US9445210B1 (en) Waveform display control of visual characteristics
CN115223584B (zh) 音频数据处理方法、装置、设备及存储介质
US20220350839A1 (en) Methods and apparatus to identify media that has been pitch shifted, time shifted, and/or resampled
US11798577B2 (en) Methods and apparatus to fingerprint an audio signal
JP2021517267A (ja) 音高に依存しない音色属性をメディア信号から抽出する方法及び装置
CN114678038A (zh) 音频噪声检测方法、计算机设备和计算机程序产品
CN113593604A (zh) 检测音频质量方法、装置及存储介质
CN117714960A (zh) 麦克风模组的检测方法、检测装置、车辆及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230906

R150 Certificate of patent or registration of utility model

Ref document number: 7346552

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150