JP2008511844A - 音声信号を安定して分類する装置および方法、音声信号データベースを構築して動作させる方法、およびコンピュータプログラム - Google Patents

音声信号を安定して分類する装置および方法、音声信号データベースを構築して動作させる方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP2008511844A
JP2008511844A JP2007522991A JP2007522991A JP2008511844A JP 2008511844 A JP2008511844 A JP 2008511844A JP 2007522991 A JP2007522991 A JP 2007522991A JP 2007522991 A JP2007522991 A JP 2007522991A JP 2008511844 A JP2008511844 A JP 2008511844A
Authority
JP
Japan
Prior art keywords
signal
fingerprint
audio signal
energy
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007522991A
Other languages
English (en)
Other versions
JP4478183B2 (ja
Inventor
エリック アラマンヒェ
ユールゲン ヘレ
オリヴァー ヘルムート
トルステン カストナー
マルクス クレーマー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
M2any GmbH
Original Assignee
M2any GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by M2any GmbH filed Critical M2any GmbH
Publication of JP2008511844A publication Critical patent/JP2008511844A/ja
Application granted granted Critical
Publication of JP4478183B2 publication Critical patent/JP4478183B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Abstract

音声信号からフィンガープリント信号を生成する装置であって、時間的に連続する音声信号のセグメントの周波数帯域に対してエネルギー値を算出する手段(14)と、スケールされたベクトルのシーケンスを得るために、エネルギー値をスケールする手段(18)と、フィンガープリントを表すフィルタされたシーケンス、または、フィンガープリントを導出することからフィルタされたシーケンスを得るために、スケールされたベクトルを時間的にフィルタする手段(22)を備える。従って、符号化または伝送チャネルに対応付けられた問題に起因する外乱に対して安定性のあるフィンガープリントを生成する。このフィンガープリントは、モバイル無線のアプリケーションに特に適している。
【選択図】図1

Description

本発明は一般に、音声信号を安定して分類する装置および方法とともに、音声信号データベースを構築して動作させる方法に関し、特に、音声信号のフィンガープリントを生成して評価を行う、音声信号を分類する装置および方法に関する。
近年、マルチメディアデータ素材の利用可能性がますます高まっている。高性能コンピュータ、ブロードバンドデータネットワークの利用可能性が非常に高くなっていること、高性能圧縮方法、および大容量記憶媒体が、この開発に大きく貢献している。特に、利用できるオーディオコンテンツの数が非常に多くなっている。MP3と省略して呼ばれるMPEG1/2レイヤ3規格により符号化した音声ファイルが、特に幅広く用いられている。
多くの場合楽曲を表す大量の音声データにより、音声データを分類して特定の音声データを検索可能にする装置および方法を開発することが必要となっている。例えば、損失が大きい圧縮や、歪みが発生してしまう伝送チャネルを経由して伝送することにより、いずれの場合でもオーディオコンテンツの正確な再生を行えない様々なフォーマットで音声データが存在しているので、数値による表現に基づくのではなく、コンテンツに基づく特徴付けに基づいて、音声信号の評価および/または比較を行う方法が必要となっている。
コンテンツに基づいて音声信号の特徴付けを行う手段の一応用分野は、例えば、音声信号にメタデータを生成することである。これは、特に楽曲に関して適している。ここで、タイトルおよび演奏者について、楽曲の与えられた部分に対して決定することもできる。従って、例えば、音楽タイトルを含むアルバムの情報とともに著作権情報についてもさらに決定することもできる。
コンテンツに基づく特徴付けを行うには、音声信号の特徴が音声信号の存在している表現から抽出する必要がある。音声信号をデータセットと対応付けるのに利点があることがわかっており、そのデータセットは音声信号のオーディオコンテンツに基づいて得られるもので、音声信号の分類、検索または音声信号の比較に用いることもできる。このようなデータセットについて、フィンガープリントとも呼ぶ。
近年、コンテンツに基づいて音声信号の指標付けを行う多くの方法が公開されている。このような装置により、音楽信号、つまり一般に、音響信号を事前に設定した傾向により、特定のクラスまたはパターンと対応付けることもできる。従って、音響信号を、特定の類似性により分類することもできる。
音声信号のフィンガープリントにおける主要な要件について、以下により詳細に説明する。非常に数多くの音声信号を利用できるので、程々の計算経費でフィンガープリントを生成する必要がある。これにより、フィンガープリントを生成するのに必要な時間を低減する。そうしないと、広範囲にわたってフィンガープリントを適用することが不可能になる。また、フィンガープリントに非常に多額の費用をかける必要はない。多くの場合、大多数のフィンガープリントを1つのデータベースに記憶する必要がある。特に、コンピュータの主記億装置に大多数のフィンガープリントを保存する必要がある場合もある。このことにより、フィンガープリントのデータ量は、実際の音声信号のデータ量よりも明らかに小さい量でなければならないことがはっきりとわかる。一方では、フィンガープリントはある音声部分に対して特徴的である必要がある。このことは、異なるコンテンツを持つ2つの音声信号は、必ず異なるフィンガープリントを持たないことを意味している。また、フィンガープリントについての重要な要件の1つは、同じオーディオコンテンツを表しているが、例えば歪みにより互いに異なっている2つの音声信号のフィンガープリントが、比較を行うことによって同じものに属すると特定されるように、十分類似していることである。この特性を通常、フィンガープリントの安定性と呼ぶ。異なる方法を用いて圧縮および/または符号化した2つの音声信号を比較する場合に、これは特に重要である。さらに、歪みが発生してしまうチャネルを介して送信した音声信号は、元のフィンガープリントに非常によく似ているフィンガープリントを有することになる。
特徴および/またはフィンガープリントを音声信号から抽出することができる多くの方法が周知である。米国特許第5,918,223号(特許文献1)には、音声情報のコンテンツに基づいて分析、記憶、検索およびセグメント化を行う方法が開示されている。音声データの分析を行うことにより、特徴ベクトルとも呼ばれる数値セットを生成する。これを用いて、個別の音声部分の類似性を分類してランク付けすることもできる。それらのコンテンツに対して、音声部分の特性化および/または分類に用いられる特徴は、音の大きさ、ピッチ、サウンドの透明感、および音声部分のいわゆるメル周波数ケプストラム係数(MFCC)である。ブロックまたはフレーム毎に値を保存して、第1回目の導出を行う。これにより、第1回目の導出を含む、これらの特徴それぞれに対して算出される統計量、すなわち平均値または標準偏差等の統計量を算出するので、経時変化によるばらつきを記述できる。この統計量セットが特徴ベクトルを形成する。従って、特徴ベクトルが音声部分のフィンガープリントであり、データベースに記憶可能になる。
専門誌“マルチメディアコンテンツ分析(Multimedia Content Analysis)”、(ヤオ・ワン(Yao Wang)ら、IEEE信号処理誌、2000年11月、12〜36頁)には、マルチメディア部分の索引付けと特徴付けを行う同じ考えが開示されている。確実に音声信号を特定のクラスと効率的に対応付けるために、多くの特徴およびクラシファイアが開発されている。マルチメディア部分のコンテンツを分類するための特徴は、時間領域の特徴または周波数領域の特徴である。これらは、音量、ピッチおよび音声信号形式のベース周波数、全エネルギーの内容に対する帯域のエネルギーの内容等のスペクトル特徴、スペクトル曲線のカットオフ周波数その他を含む。いわゆる音声信号のサンプルのブロック毎の量に関する短期間の特徴の他に、音声部分の比較的長い時間に関する長期間の量についても提案されている。個々の特徴の時間差を生成することにより、さらに典型的な特徴が構成される。それらのデータ速度がまだ速すぎるので、ブロック毎に得られる特徴は単に直接送って分類が行われる。さらに処理を行う一般的な形態は、短期間の統計値の算出からなる。これは、例えば、平均値の生成、分散、および時間に関連した相関係数の生成を含む。これにより、データ速度および結果を低減し、一方では、音声信号の認識を向上させる。
国際公開第02/065782号は、フィンガープリントをマルチメディア信号に形成する方法が開示されている。この方法は、音声信号から1つまたはいくつかの特徴を抽出することに基づいている。この目的のために、音声信号はセグメントに分割され、ブロックおよび周波数帯域により、各セグメントの処理を行う。エネルギー、純音性およびスペクトル出力密度の標準偏差を帯域毎に算出することについて、例として述べる。
また、独国特許発明第101 34 471号および独国特許発明第101 09 648号は、音声信号の分類を行う装置および方法が開示されている。音声信号の純音性の測定値に基づいて、フィンガープリントが得られる。ここで、フィンガープリントにより、安定した、コンテンツに基づくやり方で、音声信号を分類することができる。上記の文献は、音声信号に渡って純音性測定値を生成するいくつかの可能性を与える。いずれの場合でも、純音性の算出は、音声信号セグメントをスペクトル領域へ変換することに基づいている。そして、純音性を、周波数帯域または全周波数帯域に対して並列で算出することができる。このような方法の欠点は、音声信号の歪みが増加するにつれて、フィンガープリントがもはや十分役に立たなくなることで、そして、満足な信頼性で音声信号を認識することができなくなることである。しかしながら、特に、伝送品質が低いシステムを経由して音声信号が送信される場合に、非常に多くの場合で歪みが発生する。現在、特に、モバイルシステムの場合および/またはデータ圧縮が大きい場合である。携帯電話等のこのようなシステムは、主として音声信号の双方向伝送を行うために構成され、非常に品質が劣った音楽信号を頻繁に送信する。このことに、例えば、品質が劣るマイク、チャネル干渉およびトランスコーディング作用といった、さらに他の要因により、送信する信号品質にマイナスの影響を与えることになる。信号品質の劣化の結果が認識性能となり、信号特定・分類装置によって、非常に低下する。特に独国特許発明第101 34 471号および独国特許発明第101 09 648号の装置および/または方法を用いる場合、システムを変更して純音性認識基準(スペクトル平坦性測定値)を維持していても、さらに認識性能を大きく向上させることはできないことが、研究によりわかっている。
周知の音声信号分類方法および/または音声信号のフィンガープリント生成方法は大抵、それらの方法に求められる要求を満たしていないとも言える。音声信号の歪みに対する安定性に関する問題と、音声信号に重畳する干渉に対する問題とがやはり存在する。
音声信号を記憶・送信する複数の現状のシステムにおいて、大きい信号歪みと外乱とが発生する。特に、損失が大きいデータ圧縮方法または擾乱された伝送チャネルを用いる場合である。損失が大きい圧縮を用いると、音声信号の記憶または送信に必要なデータ速度が必ず低下することになる。例としては、MP3規格によるデータ圧縮およびデジタルモバイル送受信装置を用いる方法である。どちらの場合も、できるだけ粗く信号の量子化を行って伝送するという点で、低データ速度が得られる。音声帯域幅は部分的に、非常に制限される。また、人間の耳にはまったく感知できない信号部分、または、例えば、他の信号部分でマスクされているので、ごくわずかにしか感知できない信号部分を抑制する。
今日、一般的に用いられているモバイル音声伝送に応用する場合に、伝送チャネルに対する外乱、または干渉が頻繁に発生する。たいていの場合、特に、受信品質が非常に劣り、このことが、送信した音声信号で増加したノイズにより顕著になる。また、伝送が一時的に完全に中断することがあるので、送信する音声信号の短い区間が完全に失われてしまう。このような中断の間、携帯電話がノイズ信号を生成し、そのノイズ信号は人間のユーザにとっては、音声信号が全く途絶えることよりも小さい外乱として感知される。最後に、モバイル無線セルから別のものへのハンドオーバを行う間にもやはり外乱、すなわち干渉が発生する。これらの干渉作用は全て、フィンガープリントの大きすぎる破損を表す必要はないので、擾乱音声信号の識別はやはり高レベルの信頼性で可能である。
最後に、音声信号の伝送も、やはり音声部分の周波数応答特性の影響を受ける。特に、モバイル装置によく使われている小型の安価な部品は、顕著な周波数特性を有しているので、特定する音声信号を歪ませることになる。
上記の干渉および歪みが発生した場合であっても、人間の聴取者は高レベルの信頼性で音声信号を特定できるので、従来の音声信号のフィンガープリントを用いる音声信号認識手段により、擾乱が発生した際に、音声信号の認識性能が大幅に低下することになる。
米国特許第5918223号 国際公開第02/065782号 独国特許発明第10134471号 独国特許発明第10109648号 ヤオ・ワン著「マルチメディアコンテンツ分析」IEEE信号処理誌、2000年11月、12〜36頁
本発明の目的は、音声信号に基づいて、より安定したフィンガープリントを算出する概念を提供することである。
この目的は、請求項1または請求項25に記載のフィンガープリント信号を音声信号から生成する装置および方法、請求項26または請求項27に記載の音声信号の特性化を行う装置および方法、請求項28に記載の音声データベースを構築する方法、請求項29に記載の音声信号データベースに基づいて情報を得る方法、および請求項31に記載のコンピュータプログラムにより達成される。
本発明は、音声信号に対応付けられたフィンガープリント信号が干渉に対して安定性があるという知見に基づいている。信号の様々な歪みの影響をほとんど受けない信号の特徴を用いる場合である。この信号は、同様の形態で、人間の音響知覚について利用できる信号、すなわち、帯域エネルギー、特に、スケールされた帯域エネルギーを含む信号で、例えば、スケールされ帯域エネルギーを時間的過程でフィルタすることにより無線チャネルの干渉に対する安定性の度合いが得られる。
人間の聴覚は、個別の周波数帯域に細分して音声信号知覚する。従って、音声信号エネルギーを帯域毎に求めることは利点がある。従って、本発明の装置は、いくつかの周波数帯域に対してエネルギー値を算出する手段を含む。この手段により、技術的、心理音響学的に有益な近似として、音声信号のスペクトル包絡線を描く。
また、本発明は、いくつかの周波数帯域内のエネルギー値のスケーリングを行うことにより、いずれも人間の音響知覚と同期して、エネルギー値を技術的にさらに処理することを簡素化して、伝送チャネルの最適状態には及ばない周波数特性によるスペクトル信号の歪みを補償可能にするという知見に基づいている。それらの性能に関して個別の周波数帯域が上がったり、減衰したりする場合であっても、人間の音響知覚は音声信号を特定することが可能である。また、人間の聴取者は、音量と無関係に信号を特定可能である。人間の聴取者のこの能力は、スケーリング手段によりコピーされる。帯域毎のエネルギー値の再スケーリングは、技術的に応用する際にも有益である。
帯域毎のエネルギー値に対してフィルタ動作を行うことにより、人間の聴覚の知覚により行われるのと同様に、干渉を最終的に抑制することが可能である。帯域毎のエネルギー値を時間的にフィルタリングすることは、音声信号自体を従来のようにフィルタリングするよりも、ここでは効率的で、従来装置に共通する信号干渉に対してより安定したフィンガープリントの生成が可能になる。
いくつかの周波数帯域内のエネルギー値を帯域毎に求めることと、エネルギー値をスケーリングしてフィルタリングすることとを組み合わせた本発明の装置により、高レベルの妥当性を有する音声信号の安定したフィンガープリント信号を生成することが可能である。
本装置の利点は、ここでの音声信号のフィンガープリントが人間の聴覚に対して調整される点である。純粋に物理的であるばかりでなく、フィンガープリントに影響する特徴に、基本的に心理音響学的に基づくものである。本発明の装置を適用する場合は、次に、音声信号は、人間の聴取者が似ていると判断する類似のフィンガープリントを有することになる。フィンガープリントの類似性は、人間の聴取者が判断するような、音声信号の類似性を主観的に知覚することと相関がある。
上述の考察結果は、音声信号に基づいてフィンガープリント信号を生成する装置となる。音声信号が信号干渉および歪みを示していても、特定および分類を行うことができる装置である。フィンガープリントは特に、ノイズ、チャネルで発生する干渉、量子化作用および損失が大きいデータ圧縮に起因するアーティファクトに対して安定している。周波数特性に対して発生する歪みであっても、本発明の装置により生成したフィンガープリントに大きな影響を全く与えることはない。従って、音声信号に対応付けられたフィンガープリントを生成する本発明の装置は、例えば、GSM、UMTSまたはDECT規格に基づく携帯電話等のモバイル通信手段に関連して用いるのに十分適している。
好適な一実施の形態では、毎分約1キロバイトのデータ速度で、音声素材からコンパクトなフィンガープリントを生成することが可能である。このコンパクトさは、電子データ処理装置で非常に効率的にさらにフィンガープリントを処理することを許容する。
音声信号のフィンガープリントを生成する本方法の詳細をさらに向上させることにより、さらに利点が得られる。
好適な一実施の形態では、高速フーリエ変換の手段により、音声信号のセグメントに対して離散フーリエ変換を行う。続いて、フーリエ係数の量を帯域毎に二乗して合計して、周波数帯域のエネルギー値を得る。このような方法の利点は、周波数帯域に存在するエネルギーを低コストで算出する点である。また、対応する動作はすでにMPEG7規格に含まれているので、別に実行する必要はない。これにより、開発コストを低減する。
さらに好適な一実施の形態では、周波数帯域が可変帯域幅を有し、帯域幅は高周波数で大きくなっている。このような手順は、人間の聴覚および心理音響学上の知見に組み込まれている。
さらに好適な一実施の形態では、スケーリング手段は、対数を求める手段と、対数を求める手段の下流側に配置された、定常成分を抑制する手段とを含む。対数正規化と、周波数帯域内の信号レベルの影響の排除とを低コストで実行できるので、このような構成は非常に利点がある。時間的に一定である信号レベルが変化することは、アルゴリズムを行う際に定常成分を伴う。適した構成により、相対的に簡単な方法で、この定常成分を抑制することが可能である。ところで、対数正規化は、人間の音の大きさの知覚に対して非常に良く適応する。
添付の図面を参照して、本発明の好適な実施の形態について、より詳細に以下に説明する。
図1は、フィンガープリント信号を音声信号から生成する本発明の装置を示すブロック図である。
図2は、フィンガープリント信号を音声信号から生成する本発明の装置の別の実施の形態を示す詳細なブロック図である。
図3は、音声データベースを構築する方法の一実施の形態を示すフローチャートである。
図4は、音声信号データベースに基づいて情報を得る方法の一実施の形態を示すフローチャートである。
図1は、フィンガープリント信号を音声信号から生成する本発明の装置を示すブロック図である。その全体を10としている。この装置は、入力信号として音声信号12が供給される。第1の段14では、周波数帯域に対してエネルギー値が算出されて、次に、エネルギー値のベクトル16の形態でこれを利用できる。第2の段18では、エネルギー値がスケールされる。次に、いくつかの周波数帯域に対してスケールされたエネルギー値のベクトル20が利用される。第3の段22で、このベクトルが時間フィルタされる。装置の出力信号として、いくつかの周波数帯域に対して、スケールされフィルタされたエネルギー値のベクトル24が存在する。
図2は、フィンガープリント信号を音声信号から生成するための本発明の装置の一実施の形態を示す詳細なブロック図である。その全体を30としている。パルス符号変調音声信号32が、装置の入力に存在している。この信号は、MPEG−7フロントエンド34に供給される。MPEG−7フロントエンドの出力には、ベクトル36のシーケンスが存在する。それらの成分は、個々の帯域のエネルギーを表す。このベクトルのシーケンスは、音声スペクトル包絡線の処理を行うために第2の段38に供給される。その出力には、それらの全体で音声信号のフィンガープリントを表すベクトル40のシーケンスが存在する。MPEG−7フロントエンド34はMPEG−7音声規格の一部で、PCM符号化音声信号32のウインドウ処理を行う手段50を含む。ウインドウ処理手段50の出力には、30ミリ秒の長さを持つ音声信号のセグメント52のシーケンスが存在する。これらは、離散フーリエ変換によりセグメントのスペクトルを算出する手段54に供給される。その出力にフーリエ係数56が存在する。ラスト/ファイナル手段58が、音声スペクトル包絡線(ASE)を生成する。ここで、フーリエ係数の量56は、帯域毎に二乗して合計される。これは、帯域エネルギーの算出に対応する。帯域の幅は周波数(対数帯域分類)の増加に伴って大きくなり、別のパラメータで求めることが可能である。従って、ベクトル36が各セグメントとなり、そのエントリが、セグメントの長さが30ミリ秒の周波数帯域内のエネルギーを表す。音声セグメントの帯域毎のスペクトル包絡線を算出するMPEG−7フロントエンドは、MPEG−7音声規格の一部である(ISO/IECJTC1/SC29/WG11(MPEG):“マルチメディアコンテンツ記述インターフェース−パート4:音声”、国際規格15938−4、ISO/IEC、2001年)。
MPEG−7フロントエンドで得たベクトルのシーケンスは、音声信号を安定して分類することには適していない。従って、特徴として作用するベクトルのシーケンスを変更するために、音声スペクトル包絡線を処理する別の段が必要となる。この特徴は、高い安定性と低データ速度を得る。
音声スペクトル包絡線を処理する手段38は、第1の段として、帯域毎のエネルギー値36の対数を求める手段70を備える。その対数を求めたエネルギー値72は次に、ローパスフィルタ74に供給される。ローパスフィルタ74の下流には、エネルギー値の数を削減する手段76が存在する。エネルギー値の削減されたシーケンス78は、ハイパスフィルタ80に供給される。スペクトルエネルギー値のハイパスフィルタされたシーケンス82は、最終的に信号適応量子化器84に渡される。その出力には、最後に、それら全体でフィンガープリントを表す、処理を行ったスペクトル値40のシーケンスが存在する。
フィンガープリント信号を音声信号から生成する装置の構造の説明に基づいて、これから動作モードが詳細に説明される。フィンガープリント信号を音声信号から生成する本発明の装置は、音声信号セグメントのいくつかの周波数帯域内の帯域エネルギーを算出することに基づいている。このことは、音声スペクトル包絡線を求めることに対応している。図示の実施の形態では、これは、MPEG−7フロントエンド34により行われる。この実施の形態では、周波数が増加するにつれて大きくなる帯域の幅と、MPEG−7フロントエンド34の出力での帯域エネルギー値のベクトル36として利用できる周波数帯域のエネルギー値とに対して好適である。このような信号処理は、人間の聴覚に対応している。知覚はいくつかの周波数帯域に分割される。その帯域の幅は、周波数が増加するに従って大きくなる。従って、この点で、MPEG−7フロントエンド34により人間の可聴感覚がコピーされる。
別の処理ステップにおいて、エネルギー値は帯域毎に正規化される。正規化装置は、2つの段、エネルギー値の対数を求める手段70と、ハイパスフィルタ80とを含む。ここで、対数を求めることは、2つのタスクを実行する。一方では、対数を求めることは、人間の音の大きさ知覚をコピーする。特に音量が大きいと、つまり、音の大きさが高レベルだと、音声性能が2倍になるだけで、人間による主観的な知覚がある分量増加する。対数を求める手段70は、正確に同じ挙動を示す。また、対数を求める手段70は、ある帯域内のエネルギー値に対する値の範囲が低減するという利点がある。これにより、技術的な観点から明らかに有利である数値表記が可能になる。特に、浮動小数点表記法を用いる必要はないが、固定小数点表示法を用いることが可能である。
また、ここでの“対数を求めること”とは、厳密に数学的な意味で理解する必要はないことを述べておく必要がある。特に、周波数帯域内のエネルギーが小さいと、対数を求めることにより、値の量が非常に大きくなってしまうことがある。このことは、技術的な観点から有益でないし、人間の可聴感覚にも対応しない。一方では、小さなエネルギー値に対してほぼ直線特性を用いることができたり、または少なくとも値の範囲に下限を設定することができたりするので、有益である。そして、このことは、人間の知覚に対応する。聴取閾値は小さな音量で存在するが、音響パワーのおおまかな対数知覚は大きな音量で発生する。従って、経験的に値の範囲が非常に大きいエネルギー値のダイナミクスを、対数を求めることにより、非常に小さな値に圧縮することが可能になる。従って、上述の対数を求める動作は、特定の音の大きさを生成することにおおよそ対応する。特に最終的な量子化により、さらに信号処理を行うことにより補償される、乗法定数にだけ対応するので、対数ベースの選択は無関係である。
ダイナミックレンジを圧縮して人間の聴覚に適応することに加えて、スケーリングは、音声信号レベルと独立して、音声信号からフィンガープリントの生成を行うことも実行する。理解しやすいように、元の利用できる破損していない信号からと、伝送チャネルを経由して送信された信号からとの両方から、フィンガープリントを生成することが可能であることを考慮に入れる必要がある。ここで、音の大きさの変化、すなわちレベルの変化が発生することがある。また、一定でない周波数特性を持つ伝送路を経由した伝送では、個別の周波数成分が減衰したり、増幅したりする。従って、同じコンテンツを有する2つの信号は、スペクトルエネルギー分布の変化することを示すことがある。以下では、2つの信号の間の周波数特性の歪みが時間に関係がないと仮定する。さらに、周波数帯域内の歪みがほぼ一定であると仮定する。この場合、所定の周波数帯域内のエネルギーが、全く同じオーディオコンテンツを有する2つの信号に対して時間的に一定である乗法定数だけが異なっていると仮定する。対数を求める演算により、時間的に一定であるという追加の条件である、乗法定数のマッピングを行う。従って、エネルギーの対数を求めた後で、これにより2つの信号が異なる増幅および/または減衰定数が、特徴値の定数追加条件として現れる。特に定常成分を抑制するハイパスフィルタ80を適用することにより、この条件は、信号からフィルタされる。定常成分を抑制する他のフィルタを用いることもできる。本構成では、周波数帯域毎に別々にこのような適応が行われることを、特に指摘しておく。従って、周波数帯域毎のレベルの正規化は独立していて、信号のスペクトル歪みを補償できることになる。ところで、このことは、スペクトルが歪んだ音声信号を特定するために人間の聴覚能力に対応する。
また、本実施の形態では、フィンガープリント信号を音声信号から生成する装置は、ローパスフィルタ74を含む。時間領域で後者は、周波数帯域のエネルギー値のシーケンスをフィルタする。もう一度、周波数帯域に対して別々にフィルタを行う。対数を求めた値の時間的結果が特定する信号の2つの成分および干渉を含むので、ローパスフィルタリングは有益である。ローパスフィルタリングは、エネルギー値の時間的過程を平滑化する。従って、急速に変化可能で、多くが干渉により発生する成分が、一連の周波数帯域のエネルギー値のシーケンスから除去される。これにより、疑似信号の抑制が向上することになる。
同時に、ローパスフィルタ74の手段でローパスフィルタリングを行うことにより、処理を行った情報量を低減する。特に、除去は、高周波数成分に注目される。信号のローパス特性のために、ローパスフィルタ74の下流に接続したデシメーション手段76により、情報を失うことなくある係数Dで信号を削減することが可能になる(“サンプリング定理”)。このことは、サンプルのより少ない数が、周波数帯域内のエネルギーに用いられることを意味している。ここで係数Dによりデータ速度が低減される。
従って、ローパスフィルタ74とデシメーション手段76とを組み合わせることは、ローパスフィルタリングの手段により干渉を抑制できるばかりでなく、特に、冗長な情報を除去することができるので、フィンガープリント信号のデータ量も低減することができる。従って、人間の可聴感覚に直接影響を与えない情報を全て除去する。フィルタのローパス周波数を用いて、デシメーション係数が求められる。
最後に、信号を適応するやり方において、量子化手段84で処理を行ったエネルギー値を量子化することは好ましい。この処理では、有限の整数値が実値のエネルギー値に対応付けられている。量子化の間隔は、ケースバイケースで不均一であってもよいし、信号統計値により求めることもできる。また、小さい値には小さい量子化の間隔を用い、大きい値には大きい量子化の間隔を用いると利点がある。特に、ハイパスフィルタ80と量子化手段84とを相互に接続することは、利点を得る。ハイパスフィルタ80は、信号の値の範囲を低減する。これにより、低い分解能で量子化が可能になる。同様に、多くの値を少ない数の量子化ステップにマッピングすることにより、量子化信号をエントロピーコード手段により符号化することができるので、データ量が低減することになる。
また、前処理手段で信号に対して振幅の統計値を生成することにより、信号適応量子化を行うこともできる。従って、どの振幅値が信号の最も高い周波数になるかがわかる。個々の値の相対周波数に基づいて、量子化器の特性が求められる。頻繁に発生する振幅値に対して良い量子化レベルは選択され、振幅値および/または信号に滅多に発生しない対応付けられた振幅間隔は、大きい量子化レベルで量子化される。これにより、所定の振幅統計値を有する任意の信号に対して、最も小さい考えられ得る誤差を持つ量子化(通常これは、誤差挙動または誤差エネルギーとして測定される)を行うことが可能になるという利点が得られる。量子化レベルの大きさが基本的に対応付けられた信号値に対して比例する、上述の非線形量子化とは逆に、信号適応量子化を行う際に、いくつかの信号の振幅の統計値が非常によく似ていると仮定する場合を除いて、量子化器を各信号に対して再調整する必要がある。
特徴ベクトルの信号適応量子化を行うことは、調整したベクトル量子化器でベクトル成分の量子化を行うことも可能にする。従って、成分間の既存の相関についても暗黙的に考慮に入れる。
直接ベクトル量子化を行う代わりに、量子化を行う前に、ベクトルに対して線形変換を行うことも可能である。好ましくは、この変換は、変換ベクトル成分が確実に最大非相関となるように構成する。このような変換を主軸変換として算出することも可能である。この演算では、信号エネルギーは通常、第1の変換成分に集中するので、最後の値を無視しても良い。これは、大きさの低減に対応する。続いて、変換ベクトルに対してスカラ量子化を行う。これを好ましくは、全成分に対して信号適応を行うように実行する。
従って、フィンガープリント信号を音声信号から生成することを支援する装置の一実施の形態について説明してきた。本装置の主要な利点は、1つにはGSM符号化音声信号を特定する機能の高い安定性であり、一方では、署名のサイズが小さいことである。音声素材の毎分約1キロバイトの速度で署名を生成することが可能である。平均的な曲の長さが約4分とすると、これにより、署名のサイズは一曲あたり4キロバイトとなる。このコンパクトさにより、中でも、個別のコンピュータの主記億装置内の参照署名の数を低減することが可能になる。従って、100万の参照署名を、より新しいコンピュータの主記億装置に容易に保存することが可能である。
図2を参照して説明した実施の形態は、本発明の好適な実施の形態を示している。しかしながら、本発明の基本概念から逸脱することなく、様々に大きく変更することが可能である。
周波数帯域内のエネルギーを求めるのに、多くの異なる手段を用いることが可能である。音声信号セグメントのいくつかの周波数帯域内のそれらの出力で確実にエネルギー値を利用できるのならば、MPEG−7フロントエンド34を、任意の他の装置と置換することもできる。ここで、特に周波数帯域の分類を変更してもよい。対数帯域分類の代わりに、任意の帯域分類を用いてもよい。人間の聴覚に適応する帯域分類を用いることが好ましい。音声信号を分割するセグメントの長さについても変更可能である。データ速度を小さく保つために、セグメント長さが少なくとも10ミリ秒であると好適である。
様々な方法は、周波数帯域内のエネルギー値のスケーリングを行うのに利用される。スペクトル帯域エネルギーの対数を求める代わりに、上記の実施の形態で述べたように、例えば近似対数を求めて、続いてハイパスフィルタリングを行ってもよい。また、対数を求める手段の初期値の範囲を制限してもよい。これにより、特に非常に小さいエネルギー値の場合は、対数を求めることの結果が、制限した値の範囲内になるという利点がある。特に、人間の音の大きさの知覚に対してより良好に適応する手段で、対数を求める手段70を置換してもよい。特に、このように改良した手段は、人間の聴取閾値とともに主観的な音の大きさの知覚についても考慮に入れることが可能になる。
また、スペクトル帯域エネルギーを、全体的なエネルギーで正規化することもできる。このような一実施の形態では、個別の周波数帯域内のエネルギー値が正規化係数で分割される。正規化係数は、スペクトルの全エネルギーの測定値または帯域の全エネルギーの測定値のいずれかを考慮している。この正規化の形態では、さらにハイパスフィルタリングを行う必要はなく、対数を求める必要はない。反対に、各セグメントの全エネルギーが一定である。特に、個別の周波数帯域に非常に小さな平均エネルギーがありさえすれば、このようなアプローチには利点がある。このような正規化方法は、異なる帯域内のエネルギー比率を得る。音声信号がいくつかあると、これが重要な特徴を表すこともあり、特徴を得る利点となる。正規化の種類が妥当であるという決定を行うことにより、破損していない音声信号、すなわち、周波数特性が歪んでいない音声信号の結果となる。例えば、Y.ワン(Wang)、Z.リュー(Liu)およびJ.C.ハン(Huang)、“マルチメディアコンテンツ分析(Multimedia Content Analysis)”、(IEEE信号処理誌、2000年)に、全エネルギーでスペクトル帯域エネルギーの正規化を行うことが提案されている。
ローカルスペクトル正規化を行うことも可能である。この種類の正規化について、J.ソー・セオ(Soo Seo)、J.ハチスマ(Haitsma)およびT.カルカー(Kalker)、“線形変更弾性音声フィンガープリント化(Linear Speed−change Resilient Audio Fingerprinting)”(音声のモデルに基づく処理および符号化第1回IEEEベネルクスワークショップ予稿集、2002年ベルギー、ルーヴァン)に記載されている。
連続セグメント内のエネルギー値を時間的に平滑化するために、様々な方法を用いることができる。上述の実施の形態では、デジタルローパスフィルタが用いられる。また、エネルギー値に対して変調スペクトルを算出することも可能である。ここで、低周波数変調係数は、平滑化した一連のスペクトルエネルギー値を記述する。音声認識に変調スペクトルを用いることは、例えば、S.スキッタナノン(Sukittanon)およびL.アトラス(Atlas)、“音声フィンガープリント化のための変調周波数特徴(Modulation Frequency Features for Audio Fingerprinting)”(IEEEICASSP2002年、1773−1776頁、2002年フロリダ州オーランド)に記載されている。相対的に、連続セグメントでのエネルギー値の時間的過程の平滑化を行うことが、スライディング平均値を算出することにより可能になる。従って、特定の数の連続特徴から平均値が算出される。MPEG−7規格では、例えば、これは、“スケーラブルな系列記述”により可能である。しかしながら、この種類の平滑化は、信号理論上の脈絡において、エイリアシングを伴うという欠点がある。しかしながら、この作用を、適切に配列を行ったローパスフィルタにより、大部分除去することが可能である。
また、デシメーション段を省略することが可能である。これは特に、処理を行った音声信号セグメントが非常に長い場合に有益である。この場合、データ速度自体がすでに十分に小さいので、さらに削減する必要はない。このような構成の利点は、装置全体で、スペクトルエネルギー値からフィンガープリントを抽出するために同じデータ速度を適用する点である。これにより、技術的な実施が、特にコンピュータプログラムの形態で容易になる。
ハイパスフィルタ80は、幅広く変更することもできる。非常に単純な実施の形態は、2つの連続する値の差をそれぞれ用いることからなる。このような一実施の形態には、技術的な観点から、実施することが非常に簡単であるという利点がある。
量子化手段84は、幅広く変更することもできる。一実施の形態では絶対に必要なものではなく、省略することもできる。これにより、本発明の装置を実施する際に発生するコストを低減する。一方では、別の実施の形態では、量子化手段を用いて信号に適用されて、量子化の間隔が信号の振幅の統計値に適用される。従って、信号の量子化誤差が最小限になる。ベクトル量子化を信号に適応することもできるし、および/または線形変換と組み合わせることもできる。
また、量子化手段を、ハイパスフィルタリングおよび/または差を生成する装置と組み合わせることが可能である。多くの場合、差を生成することは、量子化する信号の値の範囲を低減する。エネルギー値の変化が強調され、時間的に一定である信号がゼロにされる。十分に非常に数多くの時間的に連続するセグメントで信号の値がほとんど変化を示さない場合は、差はほぼゼロである。従って、量子化器の出力信号もゼロである。短い符号が頻繁に発生する信号値に対応付けられているエントロピーコードを用いて、量子化信号の符号化を行う場合は、記憶空間に対する最小限のコストで波形を記憶することもできる。
別の実施の形態では、周波数帯域毎に処理を行ったエネルギー値を個別に量子化するスカラ量子化器を、ベクトル量子化器と置換することもできる。このようなベクトル量子化器は、整数インデックス値を、周波数帯域内で用いた、処理を行ったエネルギー値(例えば、4つの周波数帯域内)を含むベクトルに対応付ける。エネルギー値の各ベクトルの結果が、いまではスカラ値だけになっている。従って、ベクトル間の相関が考慮に入られるので、周波数帯域内のエネルギー値を個別に量子化するよりも、すぐに使えるデータ量が小さくなっている。
また、量子化の形態を用いることができるので、量子化レベルの幅が、小さいエネルギー値に対するものよりも、大きなエネルギー値に対して大きくなっている。結果としては、小さい信号であっても満足のいく分解能で、量子化を行うことが可能である。特に、小さなエネルギー値と大きなエネルギー値とに対して、最大相対量子化誤差がほぼ同じ大きさとなるように、量子化手段を設計することが可能である。
また、別の実施の形態では、処理手段の順序を変更することもできる。特に、エネルギー値の線形処理を行う手段を交換することもできる。しかしながら、ローパスフィルタのすぐ下流に配置しているデシメーション手段に対して有益である。標本間隔以下での標本化に起因する擾乱の影響を最も効果的に回避することが可能なので、ローパスフィルタリングとデシメーションとのこのような組み合わせは有益である。さらに、対数を求める際に生成される定常成分を抑制可能にするために、ハイパスフィルタは、対数を求める手段の下流側に配置されなければならない。
音声信号からフィンガープリント信号を生成する本発明の装置を、音声データベースを構築して実行するために、有利に用いることもできる。
図3は、データベースを構築する方法の一実施の形態を示すフローチャートである。ここで図示しているのは、音声信号に基づいて、新規のデータセットを生成するアプローチである。一旦処理を開始すると、はじめに第1のフリーデータセットが検索される。続いて、処理を行う音声信号があるかどうか検索が行われる。ある場合は、音声信号に対応付けられたフィンガープリント信号が生成されて、データベースに記憶される。音声信号の情報(いわゆるメタデータ)がさらに存在する場合は、その情報は、データベースに記憶されて、フィンガープリントに対する相互参照が行われる。ここで、データセットの記憶が完了する。データベースに適用する際には、次に、ポインタが最も近いフリーデータセットに設定される。さらに音声信号の処理が行われる場合は、上記に記載された処理が何回か繰り返される。処理を行う音声信号がない場合は、処理を終了する。
図4は、音声信号データベースに基づいて情報を得るための処理の一実施の形態を示すフローチャートである。データベースから所定の検索の音声信号に関する情報を得ることが、この処理の目的である。第1のステップでは、検索音声信号から検索フィンガープリントが生成される。このために、本発明による装置および/または方法が用いられる。続いて、データベースのデータセットポインタが、参照する第1のデータセットに向けられる。次に、信号がデータベースに記憶されている、データベースエントリのフィンガープリント信号が、データベースから読み出される。検索フィンガープリント信号および読み出したデータベースエントリのフィンガープリント信号に基づいて、ここで音声信号の類似性に関するステートメントが行われる。さらにデータセットの処理を行う場合は、フィンガープリント信号の読み出しと、検索フィンガープリント信号との比較が、別のデータセットに対して繰り返される。参照するデータセット全てに処理を行った場合は、検索結果に関するステートメントが行われる。参照するデータセットそれぞれに対して行ったステートメントが、考慮に入れられる。
好適な一実施の形態では、音声信号に属するメタ情報を出力することを含むようにするために、音声信号データベースを参照する本発明の方法を拡張される。これは、たとえば、楽曲について有益である。音楽タイトルの任意の部分により、説明した方法を用いてデータベースを参照することもできる。一旦、データベースで得られた音楽タイトルを有する未知の音楽タイトルの類似性を十分認識したならば、データベースに記憶したメタデータを出力することが可能である。このデータには、例えば、楽曲のタイトルおよび演奏者、タイトルを含むアルバムの情報とともに、供給源および著作権に関する情報が含まれていてもよい。従って、その一部分に基づいて、楽曲に必要な全情報を得ることが可能である。
上記の方法を拡張する際に、データベースは、実際の音楽データを含んでいてもよい。従って、一部分の音楽の知識から開始して、全楽曲を返送することもできる。
もちろん、音声データベースを実行する上述の方法は、楽曲に限られるものではない。反対に、全ての種類の自然のサウンドまたは人為的なサウンドを相応に分類することが可能である。従って、本発明の方法に基づく音声データベースは、対応するメタデータを返送し、様々な音響信号を認識することができる。
図3および図4を参照して説明した、音声信号データベースを構築して動作させる方法は、フィンガープリント信号が生成されるやり方において、基本的に従来のデータベースと異なっている。本発明のフィンガープリント信号を生成する方法は、音声信号の内容に基づいて、擾乱の影響に対して非常に安定したフィンガープリント信号を生成することができる。従って、比較に用いられる音声信号に重畳した外乱があるとしても、あるいはその周波数特性が歪んでいるとしてもデータベースに前もって記憶した音声信号の認識を、高レベルの信頼性で行うことが可能である。また、本発明のフィンガープリント信号の大きさは、1曲当たり4キロバイトである。このコンパクトさは、1台のコンピュータの主記億装置内の参照署名の数が、他の方法と比較して増加するという利点を提供する。最新のコンピュータの主記億装置に、100万のフィンガープリント信号を保存することができる。従って、音声信号の検索は、非常に確実に行われるばかりでなく、非常に高速にリソースが効率的なやり方で実行することが可能である。
図3および図4を参照して説明した処理を、幅広く変更することもできる。特に、本発明のフィンガープリント信号を確実に用いることができる限り、データベースを構築して動作させるのに適した任意の方法を用いることができる。例えば、個々の解決方法で、実際に必要になってから、データベースからフィンガープリント信号を生成することが可能である。このことは、音声データベースがいくつかのタスクを一度に実行する場合や、例外として2つの音声信号の比較を行う必要がある場合に、利点がある。さらに、別の検索基準をさらに簡単に含むこともできる。また、フィンガープリント信号に基づいて、類似の音声信号のクラスにデータベースのエントリを対応付けて、データベースにクラスに対する対応付けに関する情報を記憶することが可能である。
従って、本発明は、音声信号からフィンガープリント信号を生成する装置および方法とともに、音声信号の特性化が行える装置および方法、および/またはこのフィンガープリントに基づいて、構築して動作させるデータベースを提供する。ここで、フィンガープリント信号を生成するにあたって、技術的実現性および実施コストが低いことの2点が妥当であることと、フィンガープリント信号の大きさが小さいことと、外乱とともに心理音響学的現象に対する安定性とを考慮に入れている。結果として、データ量が非常に小さく、音声信号の内容を特徴付けて、高レベルの信頼性で音声信号を認識できるフィンガープリント信号となる。フィンガープリント信号を用いることは、音声信号の分類と、データベースへの応用の両方に適している。
状況によるが、本発明の音声信号からフィンガープリント信号を生成する方法を、ハードウェアまたはソフトウェアで実行することもできる。対応する処理が実行されるように、プログラム可能コンピュータシステムと協働する、デジタル記憶媒体、特に、電気的に読み取り可能な制御信号を格納したディスクまたはCDを用いることにより、実施することができる。従って、一般に、本発明は、機械読み取り可能キャリアに格納したプログラムコードを有するコンピュータプログラム製品である。コンピュータプログラム製品をコンピュータ上で実行する場合は、プログラムコードにより本発明の方法を実行する。換言すれば、従って、本発明の方法は、コンピュータプログラムをコンピュータ上で実行する場合は、本発明の方法を実行するプログラムコードを有するコンピュータプログラムからなる。
また、本発明を、さらに詳細な多くの改良を行うことにより開発することもできる。
一実施の形態では、音声信号のセグメントが、少なくとも10ミリ秒の時間的長さを有している。このような構成は、より短いセグメント長さを用いる方法と比較して、個別の周波数帯域に生成するために、エネルギー値の数を低減する。すぐに使えるデータ量が小さく、続くデータ処理の低いコストを要求する。しかしながら、約20ミリ秒のセグメント長さは、人間の知覚にとって十分に小さいことがわかっている。典型的な音声信号では、周波数帯域内により短い音声成分は発生せず、音声信号の内容を人間が知覚するのにほとんど寄与しない。
一実施の形態では、圧縮したエネルギー値の範囲が圧縮しないエネルギー値の範囲よりも小さくなるように、スケーリング手段は、設計してエネルギー値の範囲を圧縮するように設計される。このような一実施の形態は、エネルギー値のダイナミックレンジが低減するという利点を得る。これにより、いわゆる数値表現が可能になる。これにより、特に、浮動小数点式の表現を用いる必要性が回避される。また、このようなアプローチは、人間の耳で発生するダイナミックな圧縮を考慮に入れている。
別の実施の形態では、エネルギー値の正規化と協力してスケーリングは行うこともできる。正規化が行われる場合は、音声信号の制御記録レベルに依存するエネルギー値が除去される。これは、基本的に、類似した大きな音の信号やソフトな音の信号に適応して、現在の再生音量とは無関係に、2つの音声信号の内容の対応を確認する人間の聴覚能力に対応している。
一実施の形態によれば、下限と上限との間の間隔に値の範囲を制限したり、エネルギー値の対数を求めたりすることが可能である。2つのアプローチにより、音声信号のフィンガープリントが安定することになる。ここで、対数を求めることは、人間の聴覚による知覚特性に密接に関連している。
一実施の形態では、スケーリング手段は、人間の音の大きさの知覚に基づいて、エネルギー値をスケールするように構成される。このようなアプローチは、人間の知覚能力に基づいて、ソフトな信号および大きな音の信号の両方が非常に正確に評価されるという利点を提供する。
好適な実施の形態によれば、エネルギー値のスケーリング手段は、帯域毎にエネルギー値をスケールするように構成される。ここで、人間の帯域毎のスケーリングは、周波数特性が歪んでいるとしても、音声信号を認識するための能力に対応する。
一実施の形態では、定常成分は、対数を求める手段の下流側に接続したハイパスフィルタにより抑制される。これにより、所定の許容範囲内で、全周波数帯域で制御記録レベルを全く同じにすることが可能になる。ここでは、スペクトルエネルギー値を評価するのに認められる許容範囲は、約3dbである。
別の実施の形態では、スケーリング手段は、全エネルギーによりエネルギー値の正規化を行うように構成される。このような構成により、帯域毎の正規化のように、信号レベルの依存性を解消することができる。
別の実施の形態では、スケールされたベクトルのシーケンスを時間的にフィルタする手段は、スケールされたベクトルのシーケンスを時間的に平滑化することを実現するために設定する手段を含む。音声信号の外乱が大抵の場合、個別の周波数帯域でエネルギー値が急速に変化することになるので、これにより、利点が得られる。それと比較すると、情報を持つ成分の多くが低い速度で変化する。これは特に、楽曲に存在する音声信号の特性に起因するものである。
一実施の形態では、スケールされたベクトルのシーケンスを時間的に平滑化する手段は、10Hz未満のカットオフ周波数を有するローパスフィルタである。このような配列は、音声または音楽信号の情報を持つ特徴が、比較的低い速度、すなわち、100ミリ秒を超える時間スケールで変化するという知見に基づいている。
別の実施の形態では、スケールベクトルのシーケンスを時間的にフィルタする手段は、時間的に連続する2つのエネルギー値の間の差を生成する手段を含む。このことは、ハイパスフィルタを実行する際に効率的である。
別の実施の形態では、音声信号からフィンガープリント信号を生成する装置は、ローパスフィルタとともにローパスフィルタの出力に接続したデシメーション手段を備える。デシメーション手段を、ナイキスト基準を満たすように、音声信号から抽出したベクトルの数を低減するように構成される。次に、このような一実施の形態はまた、個別の周波数帯域内でエネルギー値が時間的にゆっくりと変化すると、分類する音声信号に関する情報の内容が大きいという知見に基づいている。従って、エネルギー値の急速な変化をローパスフィルタにより抑制することができる。従って、エネルギー値のシーケンスは、周波数帯域の低周波数成分しか持っていないことになる。従って、サンプリング定理に従って、サンプリングレートの低減が可能である。デシメーションした後で、元はセグメント毎に1つのベクトルであったのに、スケールされフィルタされたベクトルのシーケンスはDセグメント毎に1つのベクトルしか持っていないことになる。ここで、Dはデシメーション係数である。このようなアプローチの結果は、フィンガープリント信号のデータ速度を低減する。従って、同時に、冗長情報の削除と、データ量の削減とを組み合わせることが可能になる。このようなアプローチは、任意の音声信号の得られるフィンガープリントの大きさが低減するので、本発明の装置を効率的に利用するのに寄与することになる。
別の実施の形態では、本発明の装置は、量子化手段を含む。従って、スケーリングに加えて、エネルギー値の範囲の第2の変換を行うことが可能になる。
別の実施の形態では、ハイパスフィルタは、量子化手段の上流に接続される。ハイパスフィルタは、量子化する値の量を低減するように構成されている。これにより、非信号適応量子化器におけるこれらの値を表すために必要なビット数を低減することが可能になる。従って、データ速度が低減する。信号適応量子化器では、ビット数は量子化する値の量に依存しない。
また、エントロピー符号化は好適である。これには、短い符号語を頻繁に発生する値に対応付ける必要があり、長い符号語はほとんど発生しない値に対応付けられている。結果は、データ量がさらに低減することになる。
別の実施の形態では、量子化手段を、小さいエネルギー値に対するよりも、大きいエネルギー値に対して量子化レベルの幅が大きくなるように構成することができる。これにより、エネルギー値を表すのに必要なビット数をやはり低減することができ、十分な精度で連続する非常に小さい信号を表すことができる。
一実施の形態では、特に、量子化手段を、許容範囲内で、大きいエネルギー値および小さいエネルギー値に対して最大相対量子化誤差が同じになるように構成することができる。例えば、エネルギー値および非量子化エネルギー値に対する絶対量子化誤差の比率として、相対量子化誤差を定義する。最大は、量子化間隔に形成されている。所定値についても、+/−3dbの間隔を、許容範囲として用いることができる。最大相対量子化誤差も、量子化器のビット幅に依存する。
説明した実施の形態は、信号適応量子化の例を示している。しかしながら、信号処理分野では、信号適応される量子化の様々な付加的な形態は、周知である。本発明の装置では、フィルタされたエネルギー値の統計的特性に対して確実に適応できる限り、いずれの実施の形態も用いることができる。
一実施の形態では、量子化手段を、頻繁に発生するエネルギー値よりもあまり発生しないエネルギー値に対して量子化レベルの幅が大きくなるように構成することができる。これにより、やはり、エネルギー値および/またはより小さい量子化誤差を表すのに必要なビット数を低減することができる。
別の実施の形態では、量子化手段は、処理を行ったエネルギー値のベクトルに符号を対応付けるように構成する。この符号は、ベクトル量子化器を表す。このようなベクトル量子化器を用いて、データ量のさらに低減することが可能になる。
最後に、本発明の装置および/または本発明の方法は、非常に広い範囲に応用できることを述べておく。特に、フィンガープリントを生成する上述の概念を、信号の特定または特性化を行うために、パターン認識システムに用いることもできる。また、この概念を、類似性および/またはデータセット間の距離を求める方法に関連して用いることもできる。例えば、データベースに応用することができる。
音声信号からフィンガープリント信号を生成する本発明の装置を示すブロック図である。 音声信号からフィンガープリント信号を生成する本発明の装置の別の実施の形態を示す詳細なブロック図である。 音声データベースを構築する方法の一実施の形態を示すフローチャートである。 音声信号データベースに基づいて情報を得る方法の一実施の形態を示すフローチャートである。

Claims (31)

  1. 音声信号(12)からフィンガープリント信号(24)を生成する装置であって、
    周波数帯域に対するエネルギー値が帯域内の前記音声信号のエネルギーに依存し、ベクトル成分が前記周波数帯域内のエネルギー値である、エネルギー値のベクトル(16)のシーケンスを前記音声信号から得るために、時間的に連続する前記音声信号のセグメントの周波数帯域に対してエネルギー値を算出する手段(14)と、
    スケールされたベクトル(20)のシーケンスを得るために、前記エネルギー値をスケーリング手段(18)と、
    前記フィンガープリント信号を表すフィルタされたシーケンス(24)、または前記フィンガープリント信号を抽出するフィルタされたシーケンス(24)を得るために、前記スケールされたベクトル(20)のシーケンスを時間的にフィルタリングする手段(22)とを備える装置。
  2. 前記音声信号の1つのセグメントが、少なくとも10ミリ秒の時間的長さである、請求項1に記載の装置。
  3. 高速フーリエ変換(FFT)の手段により前記音声信号(52)セグメントに対して離散フーリエ変換(DFT)を行って、フーリエ係数(56)を得て、前記フーリエ係数の量を二乗して、前記フーリエ係数の二乗量を得て、周波数帯域に対するエネルギー値(16)を得るために、帯域毎に前記フーリエ係数の前記二乗量を合計して、周波数帯域に対してエネルギー値を算出する前記手段(14)を構成する、請求項1または請求項2に記載の装置。
  4. 前記周波数帯域が可変帯域幅を有し、より高い周波数の周波数帯域を持つ帯域幅が、より低い周波数の周波数帯域を持つ帯域幅よりも大きい、請求項1ないし請求項3のいずれかに記載の装置。
  5. 圧縮されたエネルギー値の範囲が圧縮されないエネルギー値の範囲より小さくなるように、前記エネルギー値(36)の範囲を圧縮するために、前記スケーリング手段(18)が構成される、請求項1ないし請求項4のいずれかに記載の装置。
  6. 前記エネルギー値(36)を正規化するために、前記スケーリング手段(18)が構成される、請求項1ないし請求項5のいずれかに記載の装置。
  7. 下限と上限との間の値の範囲に対して前記エネルギー値(36)がスケールする、または前記エネルギー値の対数を求めるために、前記スケーリング手段(18)が構成される、請求項1ないし請求項6のいずれかに記載の装置。
  8. 人間の音の大きさの知覚に対応するように、前記エネルギー値(36)をスケールするために、前記スケーリング手段(18)が構成される、請求項1ないし請求項6のいずれかに記載の装置。
  9. 前記スケーリング手段が、前記対数を求める手段(70)と、前記対数を求める前記手段(70)の下流に接続された定常成分を抑制する手段とを含む、請求項1ないし請求項8のいずれかに記載の装置。
  10. 前記定常成分を抑制する手段がハイパスフィルタ(80)を含む、請求項9に記載の装置。
  11. 前記スケーリング手段(18)は、いくつかのエネルギー値を合計することによって生成した全エネルギーを用いて、前記エネルギー値の正規化を行うために構成され、前記全エネルギーと全く同じ正規化係数で、帯域毎に前記エネルギー値を分割して、前記正規化を行う、請求項1ないし請求項8のいずれかに記載の装置。
  12. 前記スケールされたベクトルのシーケンスの時間的平滑化を行うように構成するために、スケールされたベクトルの前記シーケンス(20)を時間的にフィルタリングする前記手段(22)である、請求項1ないし請求項11のいずれかに記載の装置。
  13. 時間的にフィルタリングする前記手段(22)が、50Hz未満のカットオフ周波数を有するローパスフィルタ(74)を含む、請求項22に記載の装置。
  14. スケールされたベクトルの前記シーケンス(20)を時間的にフィルタリングする前記手段(22)が、10Hz未満のカットオフ周波数を有するハイパスフィルタ(80)を含む、請求項1ないし請求項13のいずれかに記載の装置。
  15. スケールされたベクトルの前記シーケンス(20)を時間的にフィルタリングする前記手段(22)が、時間的に連続する同じ周波数帯域内の2つのエネルギー値の間の差を生成する手段を含む、請求項1ないし請求項14のいずれかに記載の装置。
  16. 時間的にフィルタリングする前記手段が、ローパスフィルタ(74)とともに、前記ローパスフィルタ(74)の出力に接続して、前記音声信号から導出した前記ベクトルの数を低減するためのデシメーション手段(76)を含む、請求項1ないし請求項15のいずれかに記載の装置。
  17. 時間的にフィルタリングする前記手段の下流に接続し、前記フィンガープリント信号を前記フィルタされたシーケンスから導出するように、前記フィルタされたシーケンスを量子化するように構成された量子化手段(84)をさらに含む、請求項1ないし請求項16のいずれかに記載の装置。
  18. 時間的にフィルタリングする前記手段(22)が、量子化する前記値(82)の値の範囲を低減するために構成されたハイパスフィルタ(80)を備える、請求項17に記載の装置。
  19. 前記量子化手段(84)は、大きいエネルギー値に対する量子化レベルの幅が、小さいエネルギー値に対する量子化レベルの幅よりも大きくなるように構成される、請求項17または請求項18に記載の装置。
  20. 前記量子化手段(84)は、最大相対量子化誤差が、許容範囲内の大きいエネルギー値および小さいエネルギー値に対して全く同じであるように、前記量子化レベルの分類を行うことを含む、請求項17または請求項18に記載の装置。
  21. 前記許容範囲が±3dbである、請求項20に記載の装置。
  22. 振幅統計値に基づいて量子化レベルを用い、量子化する前記信号の前記振幅統計値に基づいて前記量子化レベルを適用し、統計値が量子化する前記信号の値の相対周波数に関するステートメントを含み、相対発生量が大きい量子化する前記信号の値で値の範囲に対して前記量子化ステップを細かく分類し、相対発生量が少ない量子化する前記信号の値で値の範囲に対して前記量子化レベルを粗く分類するように、前記量子化手段(84)を構成する、請求項17または請求項18に記載の装置。
  23. 前記フィルタされたシーケンスのベクトルに符号を対応付けるように、前記量子化手段(84)が構成される、請求項17または請求項18に記載の装置。
  24. 前記フィルタされたシーケンスのベクトルに対して線形変換を行うように、前記量子化手段(84)が構成される、請求項17ないし請求項23のいずれかに記載の装置。
  25. 音声信号からフィンガープリント信号を生成する方法であって、
    周波数帯域のエネルギー値が周波数帯域内の前記音声信号のエネルギーに依存し、ベクトル成分が前記周波数帯域内のエネルギー値である、エネルギー値のベクトル(16)のシーケンスを前記音声信号から得るために、時間的に連続する前記音声信号のセグメントの周波数帯域に対してエネルギー値を算出するステップと、
    スケールされたベクトルのシーケンスを得るために、前記エネルギー値のスケーリングするステップと、
    前記フィンガープリント信号を表すフィルタされたシーケンス(24)、または前記フィンガープリント信号を導出するフィルタされたシーケンス(24)を得るために、前記スケールされたベクトルのシーケンスを時間的にフィルタリングするステップとを含む方法。
  26. 音声信号の特性化を行う装置であって、
    請求項1ないし請求項24のいずれかに記載のフィンガープリント信号を生成する装置と、
    前記フィンガープリント信号に基づいて、前記音声信号のオーディオコンテンツに関するステートメントを生成する手段とを備える装置。
  27. 音声信号の特性化を行う方法であって、
    請求項25に記載の方法を用いてフィンガープリント信号を生成するステップと、
    前記フィンガープリント信号に基づいて、前記音声信号のオーディオコンテンツに関するステートメントを生成するステップとを含む方法。
  28. 音声データベースを構築する方法であって、
    請求項25に記載の方法を用いて、前記音声データベースに取り込むために、音声信号毎にフィンガープリントを生成するステップと、
    取り込む音声信号毎に、フィンガープリントと対応する情報とを対応付けるように、前記フィンガープリントとともに前記音声信号に属する情報をさらに前記音声データベースに記憶するステップとを含む方法。
  29. 請求項25に記載の方法により生成された、対応付けられたフィンガープリント信号がいくつかの音声信号に対して記憶して、所定の検索音声信号を得るための音声信号データベースに基づいて情報を得る方法であって、
    請求項25に記載の方法を用いて前記検索音声信号に属するフィンガープリント信号の検索を行うステップと、
    前記データベースに記憶された少なくとも1つの前記検索のフィンガープリント信号を比較するステップと、
    その類似性に関するステートメントを生成するステップとを含む方法。
  30. 前記検索フィンガープリント信号と前記データベースに記憶された前記フィンガープリント信号との前記類似性に関する前記ステートメントにより、前記データベースに記憶された前記フィンガープリント信号に基づく前記音声信号にメタデータを出力するステップをさらに含む、請求項29に記載の方法。
  31. コンピュータ上で動作する場合は、請求項25、請求項27、請求項28、請求項29または請求項30に記載の方法を実行するプログラムコードを有するコンピュータプログラム。
JP2007522991A 2004-07-26 2005-07-21 音声信号を安定して分類する装置および方法、音声信号データベースを構築して動作させる方法、およびコンピュータプログラム Expired - Fee Related JP4478183B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004036154A DE102004036154B3 (de) 2004-07-26 2004-07-26 Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
PCT/EP2005/007971 WO2006010561A1 (de) 2004-07-26 2005-07-21 Vorrichtung und verfahren zur robusten klassifizierung von audiosignalen sowie verfahren zu einrichtung und betrieb einer audiosignal-datenbank sowie computer-programm

Publications (2)

Publication Number Publication Date
JP2008511844A true JP2008511844A (ja) 2008-04-17
JP4478183B2 JP4478183B2 (ja) 2010-06-09

Family

ID=35311729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007522991A Expired - Fee Related JP4478183B2 (ja) 2004-07-26 2005-07-21 音声信号を安定して分類する装置および方法、音声信号データベースを構築して動作させる方法、およびコンピュータプログラム

Country Status (17)

Country Link
US (1) US7580832B2 (ja)
EP (1) EP1787284B1 (ja)
JP (1) JP4478183B2 (ja)
KR (1) KR100896737B1 (ja)
CN (1) CN101002254B (ja)
AT (1) ATE381754T1 (ja)
AU (1) AU2005266546B2 (ja)
CA (1) CA2573364C (ja)
CY (1) CY1107233T1 (ja)
DE (2) DE102004036154B3 (ja)
DK (1) DK1787284T3 (ja)
ES (1) ES2299067T3 (ja)
HK (1) HK1106863A1 (ja)
PL (1) PL1787284T3 (ja)
PT (1) PT1787284E (ja)
SI (1) SI1787284T1 (ja)
WO (1) WO2006010561A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523832A (ja) * 2008-06-04 2011-08-18 アルカテル−ルーセント ユーエスエー インコーポレーテッド 伝送装置を識別する方法
JP2014505393A (ja) * 2010-12-07 2014-02-27 エンパイア テクノロジー ディベロップメント エルエルシー 端末間の体感品質を測定するためのオーディオフィンガープリントの差分
JP2014506686A (ja) * 2011-02-10 2014-03-17 ヤフー! インコーポレイテッド 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
JP2014092677A (ja) * 2012-11-02 2014-05-19 Animo:Kk データ埋め込みプログラム、方法及び装置、検出プログラム及び方法、並びに携帯端末
JP2017518715A (ja) * 2014-04-04 2017-07-06 テレトラックス べスローテン フェンノートシャップ 情報信号の指紋を生成するための方法及び装置
JP2019518248A (ja) * 2016-04-08 2019-06-27 ソース ディジタル インコーポレイテッド オーディオを含むコンテンツに対する補助データの同期化
US11948588B2 (en) 2009-05-01 2024-04-02 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2310769C (en) 1999-10-27 2013-05-28 Nielsen Media Research, Inc. Audio signature extraction and correlation
US7974495B2 (en) 2002-06-10 2011-07-05 Digimarc Corporation Identification and protection of video
JP2006505821A (ja) * 2002-11-12 2006-02-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 指紋情報付マルチメディアコンテンツ
DE102004023436B4 (de) * 2004-05-10 2006-06-14 M2Any Gmbh Vorrichtung und Verfahren zum Analysieren eines Informationssignals
DE102004028693B4 (de) * 2004-06-14 2009-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE602004024318D1 (de) * 2004-12-06 2010-01-07 Sony Deutschland Gmbh Verfahren zur Erstellung einer Audiosignatur
US7634405B2 (en) * 2005-01-24 2009-12-15 Microsoft Corporation Palette-based classifying and synthesizing of auditory information
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US10387914B2 (en) 2005-10-26 2019-08-20 Cortica, Ltd. Method for identification of multimedia content elements and adding advertising content respective thereof
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US10380164B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for using on-image gestures and multimedia content elements as search queries
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US8266185B2 (en) 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US9953032B2 (en) 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US9384196B2 (en) 2005-10-26 2016-07-05 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US9191626B2 (en) 2005-10-26 2015-11-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US10776585B2 (en) 2005-10-26 2020-09-15 Cortica, Ltd. System and method for recognizing characters in multimedia content
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US8818916B2 (en) 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US10607355B2 (en) 2005-10-26 2020-03-31 Cortica, Ltd. Method and system for determining the dimensions of an object shown in a multimedia content item
US10372746B2 (en) 2005-10-26 2019-08-06 Cortica, Ltd. System and method for searching applications using multimedia content elements
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
DE102006032543A1 (de) * 2006-07-13 2008-01-17 Nokia Siemens Networks Gmbh & Co.Kg Verfahren und System zur Reduzierung des Empfangs unerwünschter Nachrichten
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
CN101669308B (zh) 2007-02-20 2013-03-20 尼尔森(美国)有限公司 表征媒体的方法和装置
KR101355376B1 (ko) * 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
EP2156583B1 (en) 2007-05-02 2018-06-06 The Nielsen Company (US), LLC Methods and apparatus for generating signatures
US8019150B2 (en) 2007-10-11 2011-09-13 Kwe International, Inc. Color quantization based on desired upper bound for relative quantization step
EP2210252B1 (en) 2007-11-12 2017-05-24 The Nielsen Company (US), LLC Methods and apparatus to perform audio watermarking and watermark detection and extraction
EP2088518A1 (en) 2007-12-17 2009-08-12 Sony Corporation Method for music structure analysis
US9177209B2 (en) * 2007-12-17 2015-11-03 Sinoeast Concept Limited Temporal segment based extraction and robust matching of video fingerprints
US8457951B2 (en) 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
JP5266343B2 (ja) * 2008-03-05 2013-08-21 ザ ニールセン カンパニー (ユー エス) エルエルシー 署名を生成する方法及び装置
WO2010065673A2 (en) * 2008-12-02 2010-06-10 Melodis Corporation System and method for identifying original music
US8433431B1 (en) 2008-12-02 2013-04-30 Soundhound, Inc. Displaying text to end users in coordination with audio playback
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
WO2010135623A1 (en) 2009-05-21 2010-11-25 Digimarc Corporation Robust signatures derived from local nonlinear filters
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
KR101615262B1 (ko) * 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
US20110052087A1 (en) * 2009-08-27 2011-03-03 Debargha Mukherjee Method and system for coding images
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
US10026407B1 (en) 2010-12-17 2018-07-17 Arrowhead Center, Inc. Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients
WO2012120531A2 (en) 2011-02-02 2012-09-13 Makarand Prabhakar Karanjkar A method for fast and accurate audio content match detection
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
CN102982804B (zh) * 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
US10169339B2 (en) 2011-10-31 2019-01-01 Elwha Llc Context-sensitive query enrichment
US10559380B2 (en) 2011-12-30 2020-02-11 Elwha Llc Evidence-based healthcare information management protocols
US10552581B2 (en) 2011-12-30 2020-02-04 Elwha Llc Evidence-based healthcare information management protocols
US10402927B2 (en) 2011-12-30 2019-09-03 Elwha Llc Evidence-based healthcare information management protocols
US10679309B2 (en) 2011-12-30 2020-06-09 Elwha Llc Evidence-based healthcare information management protocols
US10340034B2 (en) 2011-12-30 2019-07-02 Elwha Llc Evidence-based healthcare information management protocols
US10475142B2 (en) 2011-12-30 2019-11-12 Elwha Llc Evidence-based healthcare information management protocols
US10528913B2 (en) 2011-12-30 2020-01-07 Elwha Llc Evidence-based healthcare information management protocols
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US10971191B2 (en) * 2012-12-12 2021-04-06 Smule, Inc. Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline
FR3002713B1 (fr) 2013-02-27 2015-02-27 Inst Mines Telecom Generation d'une signature d'un signal audio musical
CN104184697B (zh) * 2013-05-20 2018-11-09 北京音之邦文化科技有限公司 一种音频指纹的提取方法及系统
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US9965685B2 (en) * 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
CA2990888A1 (en) 2015-06-30 2017-01-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and device for generating a database
US9743138B2 (en) 2015-07-31 2017-08-22 Mutr Llc Method for sound recognition task trigger
US11195043B2 (en) 2015-12-15 2021-12-07 Cortica, Ltd. System and method for determining common patterns in multimedia content elements based on key points
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
US10402696B2 (en) * 2016-01-04 2019-09-03 Texas Instruments Incorporated Scene obstruction detection using high pass filters
KR20170090177A (ko) * 2016-01-28 2017-08-07 에스케이하이닉스 주식회사 메모리 시스템, 반도체 메모리 장치 및 그의 동작 방법
US10600431B2 (en) * 2016-10-21 2020-03-24 Dts, Inc. Distortion sensing, prevention, and distortion-aware bass enhancement
US10225031B2 (en) 2016-11-02 2019-03-05 The Nielsen Company (US) Methods and apparatus for increasing the robustness of media signatures
WO2019008581A1 (en) 2017-07-05 2019-01-10 Cortica Ltd. DETERMINATION OF DRIVING POLICIES
US11899707B2 (en) 2017-07-09 2024-02-13 Cortica Ltd. Driving policies determination
CN111567065B (zh) 2018-01-09 2022-07-12 杜比实验室特许公司 降低不需要的声音传输
US10846544B2 (en) 2018-07-16 2020-11-24 Cartica Ai Ltd. Transportation prediction system and method
FR3085785B1 (fr) * 2018-09-07 2021-05-14 Gracenote Inc Procedes et appareil pour generer une empreinte numerique d'un signal audio par voie de normalisation
US11126870B2 (en) 2018-10-18 2021-09-21 Cartica Ai Ltd. Method and system for obstacle detection
US11181911B2 (en) 2018-10-18 2021-11-23 Cartica Ai Ltd Control transfer of a vehicle
US10839694B2 (en) 2018-10-18 2020-11-17 Cartica Ai Ltd Blind spot alert
US20200133308A1 (en) 2018-10-18 2020-04-30 Cartica Ai Ltd Vehicle to vehicle (v2v) communication less truck platooning
US11270132B2 (en) 2018-10-26 2022-03-08 Cartica Ai Ltd Vehicle to vehicle communication and signatures
US10789535B2 (en) 2018-11-26 2020-09-29 Cartica Ai Ltd Detection of road elements
US11643005B2 (en) 2019-02-27 2023-05-09 Autobrains Technologies Ltd Adjusting adjustable headlights of a vehicle
US11285963B2 (en) 2019-03-10 2022-03-29 Cartica Ai Ltd. Driver-based prediction of dangerous events
US11694088B2 (en) 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
US11132548B2 (en) 2019-03-20 2021-09-28 Cortica Ltd. Determining object information that does not explicitly appear in a media unit signature
US10789527B1 (en) 2019-03-31 2020-09-29 Cortica Ltd. Method for object detection using shallow neural networks
US10776669B1 (en) 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
US11488290B2 (en) 2019-03-31 2022-11-01 Cortica Ltd. Hybrid representation of a media unit
US11222069B2 (en) 2019-03-31 2022-01-11 Cortica Ltd. Low-power calculation of a signature of a media unit
US10796444B1 (en) 2019-03-31 2020-10-06 Cortica Ltd Configuring spanning elements of a signature generator
US10748022B1 (en) 2019-12-12 2020-08-18 Cartica Ai Ltd Crowd separation
US11593662B2 (en) 2019-12-12 2023-02-28 Autobrains Technologies Ltd Unsupervised cluster generation
US11590988B2 (en) 2020-03-19 2023-02-28 Autobrains Technologies Ltd Predictive turning assistant
US11827215B2 (en) 2020-03-31 2023-11-28 AutoBrains Technologies Ltd. Method for training a driving related object detector
US11756424B2 (en) 2020-07-24 2023-09-12 AutoBrains Technologies Ltd. Parking assist
US11798577B2 (en) 2021-03-04 2023-10-24 Gracenote, Inc. Methods and apparatus to fingerprint an audio signal
CN113778523B (zh) * 2021-09-14 2024-04-09 北京升哲科技有限公司 一种数据处理方法、装置、电子设备及存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH542552A (de) * 1972-02-01 1973-09-30 Europ Handelsges Anst Einrichtung mit einer Sende- und einer Empfangsstation zum Erzeugen, Umformen und Übertragen von Signalen
US4912758A (en) * 1988-10-26 1990-03-27 International Business Machines Corporation Full-duplex digital speakerphone
EP0386418B1 (de) * 1989-03-06 1994-12-21 Robert Bosch Gmbh Verfahren zur Datenreduktion bei digitalen Tonsignalen und zur genäherten Rückgewinnung der digitalen Tonsignale
US5365553A (en) * 1990-11-30 1994-11-15 U.S. Philips Corporation Transmitter, encoding system and method employing use of a bit need determiner for subband coding a digital signal
US5317672A (en) * 1991-03-05 1994-05-31 Picturetel Corporation Variable bit rate speech encoder
US5510785A (en) * 1993-03-19 1996-04-23 Sony Corporation Method of coding a digital signal, method of generating a coding table, coding apparatus and coding method
JP2655063B2 (ja) * 1993-12-24 1997-09-17 日本電気株式会社 音声符号化装置
JP3013876B2 (ja) * 1995-01-31 2000-02-28 日本ビクター株式会社 変換符号化装置
SE504397C2 (sv) * 1995-05-03 1997-01-27 Ericsson Telefon Ab L M Metod för förstärkningskvantisering vid linjärprediktiv talkodning med kodboksexcitering
US6029129A (en) * 1996-05-24 2000-02-22 Narrative Communications Corporation Quantizing audio data using amplitude histogram
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US6246345B1 (en) * 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
DE10000934C1 (de) * 2000-01-12 2001-09-27 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals
DE10017646A1 (de) * 2000-04-08 2001-10-11 Alcatel Sa Geräuschunterdrückung im Zeitbereich
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
JP4454109B2 (ja) * 2000-06-14 2010-04-21 日本テキサス・インスツルメンツ株式会社 パルス密度変調信号(pdm)のデジタル−アナログ変換処理におけるsn比改善の方法および装置
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties
KR100893671B1 (ko) * 2001-02-12 2009-04-20 그레이스노트, 인크. 멀티미디어 콘텐트의 해시들의 생성 및 매칭
DE10109648C2 (de) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
WO2003009277A2 (en) * 2001-07-20 2003-01-30 Gracenote, Inc. Automatic identification of sound recordings
KR100401135B1 (ko) 2001-09-13 2003-10-10 주식회사 한국전산개발 데이터 보안 시스템
US7979273B2 (en) * 2003-07-25 2011-07-12 Sennheiser Electronic Gmbh & Co. Kg Method and apparatus for the digitization of and for the data compression of analog signals

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523832A (ja) * 2008-06-04 2011-08-18 アルカテル−ルーセント ユーエスエー インコーポレーテッド 伝送装置を識別する方法
US11948588B2 (en) 2009-05-01 2024-04-02 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
JP2014505393A (ja) * 2010-12-07 2014-02-27 エンパイア テクノロジー ディベロップメント エルエルシー 端末間の体感品質を測定するためのオーディオフィンガープリントの差分
US8989395B2 (en) 2010-12-07 2015-03-24 Empire Technology Development Llc Audio fingerprint differences for end-to-end quality of experience measurement
US9218820B2 (en) 2010-12-07 2015-12-22 Empire Technology Development Llc Audio fingerprint differences for end-to-end quality of experience measurement
JP2014506686A (ja) * 2011-02-10 2014-03-17 ヤフー! インコーポレイテッド 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
JP2014092677A (ja) * 2012-11-02 2014-05-19 Animo:Kk データ埋め込みプログラム、方法及び装置、検出プログラム及び方法、並びに携帯端末
JP2017518715A (ja) * 2014-04-04 2017-07-06 テレトラックス べスローテン フェンノートシャップ 情報信号の指紋を生成するための方法及び装置
JP2019518248A (ja) * 2016-04-08 2019-06-27 ソース ディジタル インコーポレイテッド オーディオを含むコンテンツに対する補助データの同期化
JP2019519869A (ja) * 2016-04-08 2019-07-11 ソース ディジタル インコーポレイテッド オーディオエネルギー特性に基づくオーディオフィンガープリンティング
JP2022095945A (ja) * 2016-04-08 2022-06-28 ソース ディジタル インコーポレイテッド オーディオを含むコンテンツに対する補助データの同期化
JP7442211B2 (ja) 2016-04-08 2024-03-04 ソース ディジタル インコーポレイテッド オーディオを含むコンテンツに対する補助データの同期化

Also Published As

Publication number Publication date
PT1787284E (pt) 2008-03-31
AU2005266546B2 (en) 2008-09-25
CA2573364A1 (en) 2006-02-02
DE102004036154B3 (de) 2005-12-22
EP1787284A1 (de) 2007-05-23
ES2299067T3 (es) 2008-05-16
AU2005266546A1 (en) 2006-02-02
DK1787284T3 (da) 2008-05-05
SI1787284T1 (sl) 2008-06-30
KR20070038118A (ko) 2007-04-09
DE502005002319D1 (de) 2008-01-31
JP4478183B2 (ja) 2010-06-09
CA2573364C (en) 2010-11-02
US20060020958A1 (en) 2006-01-26
KR100896737B1 (ko) 2009-05-11
CN101002254A (zh) 2007-07-18
HK1106863A1 (en) 2008-03-20
ATE381754T1 (de) 2008-01-15
US7580832B2 (en) 2009-08-25
PL1787284T3 (pl) 2008-07-31
EP1787284B1 (de) 2007-12-19
CY1107233T1 (el) 2012-11-21
CN101002254B (zh) 2010-12-22
WO2006010561A1 (de) 2006-02-02

Similar Documents

Publication Publication Date Title
JP4478183B2 (ja) 音声信号を安定して分類する装置および方法、音声信号データベースを構築して動作させる方法、およびコンピュータプログラム
JP4067969B2 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
CN109979472B (zh) 用于各种回放环境的动态范围控制
JP5695677B2 (ja) 単一再生モードにおいてラウドネス測定値を合成するシステム
US20050270195A1 (en) Method and apparatus for encoding/decoding digital signal
KR20090110244A (ko) 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP2006011456A (ja) 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
JP2000101439A (ja) 情報処理装置および方法、情報記録装置および方法、記録媒体、並びに提供媒体
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
US8149927B2 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
TWI438770B (zh) 使用通道間及時間冗餘減少之音訊信號編碼
Ibarrola et al. A robust entropy-based audio-fingerprint
JP2000151413A (ja) オーディオ符号化における適応ダイナミック可変ビット割り当て方法
CN1265354C (zh) 音频处理方法和音频处理装置
JPH1173726A (ja) 信号処理装置
CN112771610A (zh) 用压扩对密集瞬态事件进行译码
CN103258552A (zh) 调整播放速度的方法
JP4556866B2 (ja) 高能率符号化プログラム及び高能率符号化装置
JP2001337699A (ja) 符号化装置および符号化方法並びに復号化装置および復号化方法
JP2005003912A (ja) オーディオ信号符号化装置、オーディオ信号符号化方法及びプログラム
JP2000250569A (ja) 圧縮オーディオ信号補正器、および圧縮オーディオ信号再生装置
JPH11177435A (ja) 量子化装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100302

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100312

R150 Certificate of patent or registration of utility model

Ref document number: 4478183

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees