JP4900960B2 - 情報信号を分析する装置および方法 - Google Patents

情報信号を分析する装置および方法 Download PDF

Info

Publication number
JP4900960B2
JP4900960B2 JP2007512056A JP2007512056A JP4900960B2 JP 4900960 B2 JP4900960 B2 JP 4900960B2 JP 2007512056 A JP2007512056 A JP 2007512056A JP 2007512056 A JP2007512056 A JP 2007512056A JP 4900960 B2 JP4900960 B2 JP 4900960B2
Authority
JP
Japan
Prior art keywords
assumption
information
sequence
fingerprint
identification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007512056A
Other languages
English (en)
Other versions
JP2007536588A (ja
Inventor
ユールゲン ヘレ
エリック アラマンヒェ
オリヴァー ヘルムート
トルステン カストナー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
M2any GmbH
Original Assignee
M2any GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by M2any GmbH filed Critical M2any GmbH
Publication of JP2007536588A publication Critical patent/JP2007536588A/ja
Application granted granted Critical
Publication of JP4900960B2 publication Critical patent/JP4900960B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/043Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means using propagating acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Description

本発明は、信号分析に関し、特に、信号の内容を識別するための信号分析に関する。
ますます増大するオーディオ・映像素材をアーカイブしたり、容易に検索できるデータベースを構築したり、様々な配信方法を介して素材を配信したりするために、オーディオ・映像素材を特定したり、より一般には、コンテンツに基づいて明確に情報素材を特定したりすることを支援する自動情報認識システムが必要である。
このことに対する適用例の1つは、いわゆる“ブロードキャスト・モニタリング”である。このようなオーディオ映像監視システムの力を借りて、例えば、法的コンテンツを配信したり、オーディオ・映像素材の権利所有者に対して著作権使用料を個別に正確に支払ったりすることを確実に行うようにすることができる。
別の適用例の1つは、例えば、ピアツーピアネットワークを介して相手方と交換するオーディオ素材を認識することである。
別の適用例の1つは、予定した広告時間が実際に放送されたのか、予定した広告シェア部分だけが放送されたのか、コマーシャル部分が伝送中に配信されたのか、広告業界がテレビ局またはラジオ局を監視するために、可能性を監視することである。このことは、例えば、テレビ局またはラジオ局の責任であるともいえる。この点で、特に、放送時間で人気のある番組でのテレビコマーシャルコストは非常に高いので、広告業界は、特に高いコストの視点から、可能性の監視に重大利益があり、よって、放送局の言質を単純に信用したりしないことに留意されたい。現在、可能性を監視することは、“テスト聴取者”または“テスト視聴者”への支払いに基づいている。彼らは、連続してあるテレビ番組を試聴して、例えば、コマーシャルを送信した正確な時間を記録して、さらに、伝送中に外乱がなかったかどうか、全コマーシャルが正確に送信されたかどうか、すなわち、画像歪み等がなかったかどうか、監視する。
この概念の欠点は明白である。一方では、コストが膨大であることと、他方では、特に、立証能力についてはテスト聴取者にもっぱら依存する、かなりの支払いが要求された場合には、テスト聴取者および/またはテスト視聴者のコメントの信頼性または証拠能力が問題となることとである。
様々な周知のシステムを、自動化ブロードキャスト・モニタリングに用いることもできる。例えば、国際公開第02/11123号または専門誌:“インバイテッド・トーク:きわめて強力なオーディオ検索アルゴリズム(Invited Talk: An Industrial− Strength Audio Search Algorithm)”、エーブリー・ワング(Avery Wang)(ISMIR2003年、2003年10月ボルチモア)に、ノイズが強く歪みが大きい環境でオーディオ信号および音楽信号を認識するシステムおよび方法が開示されている。第1のステップは、参照オーディオオブジェクトのハッシュ値と、まだ特定していないオーディオオブジェクトの現在求めたハッシュ値との間に一致があるかどうか検証することである。この場合、対応付けられた時間オフセット、すなわち、オーディオオブジェクトの開始から、まだ特定していないオーディオオブジェクトにおけるハッシュ値の開始からと、参照オーディオオブジェクト内のハッシュ値の時間オフセットとの間の相対距離が、参照オーディオオブジェクトの個別に識別して格納される。全入力ハッシュ値が処理された場合は、いわゆる走査位相を開始する。この位相の間は、参照オーディオオブジェクト時間毎にいくつの時間オフセット対が連続して一致しているか検証する。いくつかの数を検出した場合は、対応する参照オーディオオブジェクトIDが想定される。時間オフセット対は、時間的に連続すると考えられている。すなわち、一方の時間オフセットをX座標として、もう一方をY座標とする2次元散布で直線を形成する場合は、時間的に互いに対応付けられていると考えられる。
専門誌“コンテンツ識別を行うための確実なオーディオハッシング法(Robust Audio Hashing for Content Identification)”J.ハイツマ(Haitsma)、T.カルカー(Kalker)、J.オーストフェーン(Oostveen)、(コンテンツベースマルチメディア指数予稿集2001年、url:citeseer.ist.psu.edu/haitsma01robust.html)には、コンテンツ識別を行う確実なオーディオハッシングシステムが記載されている。コンテンツベースの音楽認識を行うために、ビットシーケンスをオーディオ信号からの部分に対応付ける、ハッシュ関数が用いられる。すなわち、人間のオーディオ認知と音響的に同じオーディオ信号が、同じビットシーケンスについても生成するようになっている。ハッシュ値を計算するには、はじめにオーディオ信号をウインドウ化して変換して、最終的に、変換結果を、対数帯域幅を有する周波数帯域に分割する。これらの周波数帯域には、時間差および周波数方向の異なる符号が求められる。符号から得られるビットシーケンスは、ハッシュ値を構成する。3秒間のオーディオ信号に対し、1つのハッシュ値が必ず計算される。このような部分に対して検証する参照ハッシュ値とテストハッシュ値との間のハミング距離が閾値sを下回る場合は、一致を想定して、テスト部分が参照成分に対応付けられる。
オーディオ素材の認識を行うには、通常、オーディオ信号を小さな長さ単位Δtに分割する。これらの個別の単位は、少なくとも特定の時間分解能を有するために、それぞれ別々に分析される。
これにより、問題がいくつか生じる。
認識したオーディオ信号の明白な正確なステートメントをより長い時間区分にすることができるように、オーディオ信号の小さな分析時間区分の認識結果をまとめる必要がある。
連続オーディオデータストリームを分析するには、あるオーディオ成分から別のオーディオ成分への遷移、すなわち、楽曲Aから楽曲Bへの遷移を、正確に検出する必要がある。
楽曲にいくつかのバージョンがあるというような、別の状況がある。例えば、始まりが同じだが、ある時間が経つと違ってくるというものである。例えば、歌の短いバージョンまたは長いバージョンについて考えられる。あるいは、このような状況もある。例えば、同じ歌に基づく楽曲がはじめは異なっているが、中程では全く同じになり、2つの楽曲のうちの少なくとも1つの終わりに向かって、それぞれ違っていくというものである。権利所有者への著作権使用料の支払いについては、例えば、歌の長いバージョンには高く課金するかどうか、通常のバージョンには中くらいの課金を行うかどうか、すでに歌の短いバージョンが再生されている場合は、少なく課金するかどうかが重要である場合もある。この場合は、いくつかの歌のバージョンを確実に区別するために考える必要がある。
上記の従来技術が不十分であるのは、個別の認識結果を単純にまとめた場合に、検出エラーとなる点である。特に、いくつかの異なるオーディオオブジェクトから連続オーディオデータストリームを分析するのかどうか、どのように分析するのか、様々なオーディオオブジェクト間の対応する遷移をどのように検出するのかについて、情報が全く与えられていない場合である。また、特に、参照ハッシュ値に関して後者の従来技術の曖昧さが述べられているが、明白な候補を決定する問題に対して、明確な答えが与えられていない。オーディオオブジェクトがハッシュ値に対して特定したと考えられる場合、特定したオーディオオブジェクトに適応するかどうか、直接に次のハッシュ値に対して検証しているだけである。特定しなかった場合は、全参照オーディオオブジェクトを含む新規の検索がある。
特に、ある歌と同じ歌との間の異なるバージョンを区別するために、周知の従来技術では答えが与えられていない。
国際公開第02/11123号 "インバイテッド・トーク:きわめて強力なオーディオ検索アルゴリズム(Invited Talk: An Industrial− Strength Audio Search Algorithm)"、エーブリー・ワング(Avery Wang)(ISMIR2003年、2003年10月ボルチモア) "コンテンツ識別を行うための確実なオーディオハッシング法(Robust Audio Hashing for Content Identification)"J.ハイツマ(Haitsma)、T.カルカー(Kalker)、J.オーストフェーン(Oostveen)、(コンテンツベースマルチメディア指数予稿集2001年、url:citeseer.ist.psu.edu/haitsma01robust.html)
本発明の目的は、確実に情報信号を分析する概念を提供することである。
この目的は、請求項1に記載の情報記号を分析する装置、請求項19に記載の情報信号を分析する方法、または請求項2に記載のコンピュータプログラムにより、達成される。
本発明は、個別の認識結果自体について考えるばかりでなく、時間の特定の期間について考えることにより、信頼できるコンテンツ識別を達成できるという知見に基づいている。例えば、フィンガープリントのシーケンスに対して、個別の認識結果シーケンスにおいて認識するために用いることができる、多量の情報がある。本発明によれば、情報信号のブロックのシーケンスを表すフィンガープリントのシーケンスに基づいて、少なくとも2つの異なる仮定(hypothesis)を行う。第1の仮定がブロックのシーケンスと第1の情報エンティティとの関連付けに対する想定で、第2の仮定がブロックのシーケンスと第2の情報エンティティとの関連付けに対する想定である。検証結果に基づいて、情報信号に関するステートメントを生成するように、少なくとも2つの仮定は検証され評価される。例えば、ステートメントは、ブロックのシーケンスが、最も見込みのある仮定を有する情報エンティティを表すことを判定することにより表すこともできる。あるいはまたさらに、情報単位が、フィンガープリントのシーケンスの時間的に最後のフィンガープリントとして、最も見込みのある仮定を与えるフィンガープリントで終わるというステートメントにすることもできる。
好ましくは、フィンガープリントに対して少なくとも2つの異なる識別結果が存在するように、そして、2つの異なる識別結果それぞれに対して信頼性測定値が存在するように、仮定が検証される。この信頼性測定値は、名数により表すこともできる。しかしながら、例えば、2つの識別結果を提供する事実により、信頼性の1/2が通知され、この数字を明示的に与えないというように、この信頼性測定値を、自動的に与えることもできる。
ある仮定が他の仮定よりも可能性があるかどうか評価するために、個別の数の時間的に連続するブロックに対して個別の認識信頼性測定値が合成されることは都合がよい。好ましくはこの合成は、加算からなる。次に、最も高い合成信頼性測定値を提供する仮定が、最も見込みのある仮定として評価される。
本発明の好適な実施の形態では、多くの参照フィンガープリントが識別結果と関連付けて個別にファイルされるフィンガープリントデータベースは、連続識別結果を提供する手段として用いられる。次に、情報信号ブロックから生成したフィンガープリントを用いて、データベース検索を行って分析して、データベース内のテストフィンガープリントと一致する参照フィンガープリントを探す。データベース設計によるが、一番良いヒットだけが、すなわち、最小距離測定値のヒットだけが、データベース検索結果としての識別結果として出力される。また、好適には、データベースは、定性的なヒット結果ばかりでなく、定量的なヒット結果についても提供するので、関連付けられた信頼性測定値を有する、多数の考えられるヒットが出力される。例えば、20%等の、ある閾値以上の信頼性測定値を有する全ヒットが、データベースから出力される。
本発明の好適な実施の形態では、まだ仮定が立てられていない新規の識別結果が存在する場合は、新規の仮定が開始される。この手順は、次に、信頼できるとわかったある仮定がすでに終了しているかどうか、過去に向けて検証し、次に、この仮定を最も見込みのある仮定として特定するために、ある数のブロックに対して行われる。
本発明の利点は、確実に動作して、特に伝送エラーに関してエラーが発生しない概念である点である。例えば、1つのブロックに基づいて決定を行うことはないが、仮定を立てることにより、連続ブロックのシーケンスをそのまま検討され評価されるので、短い時間の伝送外乱および/または通常発生するノイズにより、全認識プロセスが無駄になることがない。
また、本発明の概念は、始めから終わりまで、例えばコマーシャル等の、伝送品質の記録を自動的に生成する。ある仮定を最も見込みのある仮定として特定した場合でも、すなわち、あるコマーシャルについて判定した場合でも、信頼性測定値に基づいて、コマーシャル内の品質むらを追跡することができる。さらに、特に、情報エンティティの例としてのコマーシャルの全時間の連続性を追跡できて、記録できるようなやり方である。特に、コマーシャルの一部を連続して繰り返さなかったけれども、全コマーシャルを、コマーシャルの開始からコマーシャルの終了まで、連続して送信したという点についてである。
本発明の別の利点は、仮定を立てることにより、情報エンティティの終了と、情報エンティティの開始とを、自動的に検出することである。これは、一般に、情報エンティティとの関連付けが明白であるという事実に基づいている。このことは、ある時点でいくつかの情報エンティティを一緒に再生することは考えられないが、少なくとも膨大な数のプログラムコンテンツに対して、ある時点では、情報エンティティが1つだけ情報信号に含まれていることを意味している。前の情報エンティティが終了して、新規の情報エンティティが開始するある時点で、仮定検証と、仮定検証に基づく仮定の評価とが自動的に生成される。これは、仮定で保たれているブロック関連付けに基づいている。従って、フィンガープリントのシーケンスはやはりブロックのシーケンスと対応しており、識別結果のシーケンスはフィンガープリントのシーケンスと対応しているので、時間に対して、仮定は、元の情報信号と明白に関連付けられている。
本発明の概念の別の利点は、情報エンティティが、同じ歌の短いバージョンまたは長いバージョンといった、部分的に全く同じオーディオ素材を有している場合でも、2つの仮定が“ドロー”となる状況が発生しないことである。
以下に、添付の図面を参照にして、本発明の好適な実施の形態について詳細に説明する。
図1は、本発明の装置のブロック回路図である。
図2は、図1に示す実施の形態に使用可能なデータベースのブロック回路図である。
図3は、時間間隔のシーケンスと、関連付けられた仮定とに対するフィンガープリントシーケンスの出力結果を概略表現で示す。
図4aないし図4cは、次の適用例の一例のシナリオを示す。
図5aないし図5dは、様々な間違った評価を概略で示す。
図6は、本発明の好適な実施の形態のブロック回路図である。
図7aないし図7cは、図4aないし図4cに示す出力シナリオに対する本発明の概念の機能を示す。
図8は、複数のブロックの情報単位、情報単位ブロックおよび情報エンティティを有する情報信号を概略で示す。
図9は、フィンガープリントデータベースを蓄積する周知のシナリオである。
図10は、図9に基づいてロードしたフィンガープリントデータベースにより、オーディオ識別を行う周知のシナリオである。
図1は、本発明の好適な実施の形態に基づく、情報信号を分析する装置のブロック回路図を示す。典型的な情報信号を、図8に800で示す。情報信号800は、時間的に連続する情報単位のブロックのシーケンス802からなる。個別の情報単位804は、例えば、オーディオサンプル、映像画素または映像変換係数等である。
複数のブロックのシーケンス802は常に、まとまって情報エンティティ806を生成する。図8に示す実施の形態では、第1の6つのブロックは第1の情報エンティティを形成し、ブロック7、8、9、10は第2の情報エンティティを形成している。例えば、ブロック11からnの第3の情報エンティティは、図8に示す。情報エンティティは、例えば、楽曲、会話、映像画像、または例えば、映像画像の一部とすることができる。しかしながら、情報信号がテキストデータも含む場合は、情報エンティティは、テキスト、または例えば、テキストのページであってもよい。
図1に示す装置は、フィンガープリントのシーケンスFA1、FA2、FA3、...、FAiを用いて動作するように設計される。実施例によるが分析の前にフィンガープリントを生成していたり、情報信号で供給されている場合は、フィンガープリントは、連続するブロック802のシーケンスから生成したり、または、例えばメモリから検索したりする。例えば、周知のオーディオ符号化から、ブロック生成のためのブロック重複技術についても用いることもできることに留意されたい。
いずれの場合でも、情報信号を分析するための装置は、ブロックのシーケンスに対するフィンガープリントのシーケンスを用いて動作するので、ブロックのシーケンス802は、フィンガープリントのシーケンスFA1、FA2、FA3、FA4、...、FAiにより表される。フィンガープリントのシーケンスは、連続するフィンガープリントに識別結果を提供する手段12におけるフィンガープリント入力に供給される。連続識別結果を提供する手段12は、連続識別結果を連続するフィンガープリントに供給する。識別結果は、情報単位のブロックを所定の情報エンティティと関連付けを表す。例えば、歌が約6つのブロックに対応する時間長を有すると仮定すると、6つのブロックは、異なるフィンガープリントを提供するが、全これらの6つのブロックは、提供する手段12において、所定の情報エンティティの一部、すなわち上述の歌を通知される。
実施例によるが、供給手段12は、1つのフィンガープリントに対し、1つ以上の識別結果を供給する。1つ以上の識別結果を、識別結果から連続するフィンガープリントに対し、少なくとも2つの仮定を立てる手段14に供給する。特に、第1の仮定はブロックのシーケンスと第1の情報エンティティとの関連付けに対する想定を表し、第2の仮定は、ブロックのシーケンスと第2の情報エンティティとの関連付けに対する想定である。様々な仮定H1、H2、...は、仮定を検証する手段16に供給される。手段16を、調整可能な検証アルゴリズムにより動作して、検証結果出力18で最終的に検証結果を提供するために設計される。
次に、ライン18のこの検証結果は、情報信号に関するステートメントを生成する手段20に供給される。情報信号に関するステートメントを生成する手段20は、検証結果に基づいて情報信号に関する情報を出力するために設計され、そして、様々な設定を有している。
検証結果18に基づいて、情報信号に関するステートメントを生成することは、全設定で共通である。情報信号に関する様々なステートメントの例は、最も見込みのある仮定を有する情報エンティティを表すブロックのシーケンスを確定することにより表される。別のステートメントは、時間的に最後のフィンガープリントとして、最も見込みのある仮定を与えるフィンガープリントで終わっている情報エンティティである。手段20が生成する別のステートメントは、情報エンティティそれ自体が、情報信号内にあるかどうかを判定することにより表される。
特に、手段14、16および20により行う本発明の後処理、すなわち少なくとも2つの仮定を立てて、仮定を検証して、検証結果に基づいてステートメントを生成することにより、従って、未知の、すなわち分析される、情報信号における楽曲を特定できるばかりでなく、楽曲自体の特定とは別に、第1の楽曲の終わりの検出、すなわち第1の情報エンティティの終わりを検出して、第1の情報エンティティに続く、第2の情報エンティティの開始を検出することも可能になる。
しかしながら、コマーシャル監視について、本発明の後処理概念は、ある情報が情報信号内にあるかどうか、検出する可能性を提供することもできる。ここで、情報信号から取得したフィンガープリントが、1つのフィンガープリントセットだけと比較される。すなわち、所定の情報エンティティを表すフィンガープリントセット、すなわち特定のコマーシャルを表すフィンガープリントセットである。従って、情報エンティティの特定、または情報エンティティの終わりの検出および続く情報エンティティの開始の検出という意味では、このステートメントを第1に考えないが、特定の情報エンティティが、分析する未知の情報信号内にあるかどうか検出することにより表される。
図2は、連続するフィンガープリントに対する識別結果を提供する手段12の特別な好適な実施例を示す。好適な実施の形態では、手段12は、データベースを含む。図2に示すように、様々な参照フィンガープリントFArjを、識別結果、すなわちIDkに関連付けて全て格納している。好適な実施の形態では、フィンガープリントFAiが次々に処理される。すなわち、時間に連続して処理される。従ってフィンガープリントFAiは、入力ライン24を介してデータベースに格納される。次に、データベースでは、格納したフィンガープリントFAiが全参照フィンガープリントFArjと比較される。好適な実施の形態では、データベースは、入力フィンガープリントが格納した参照フィンガープリントかどうかを判定する定性的なデータベースではないが、データベースは、出力結果の距離測定値および/または信頼性測定値を生成することができる定量データベースである。図2に示す好適な実施の形態では、従って、データベース22は、例えば、結果表28に示す結果をその出力26で供給する。従って、データベースは、例えば、フィンガープリントFAiが識別結果IDxを示すこと、すなわち例えば、60%の信頼性ZV1を有する楽曲xを示すことを表す。しかしながら、同時に、データベースは、フィンガープリントFAiが、50%の信頼性を有する識別結果IDyを有する楽曲を示していることを表す。最終的に、データベースは、フィンガープリントFAiが、例えば、40%の信頼性測定値ZV3を有する識別IDzのさらに別の楽曲を示していることを出力こともできる。
実施例によるが、全結果表28を、図1の少なくとも2つの仮定を立てる手段14に供給することもできる。あるいは、しかしながら、データベース22自体がすでに決定を行い、最も見込みのある値だけを必ず供給することもできる。すなわちこの場合では、結果IDxを、少なくとも2つの仮定を立てる手段14に供給する。この場合は、信頼性測定値ZV1は、必ずしも、少なくとも2つの仮定を立てる手段14に供給しなくても良い。その代わりに、さらに、信頼性測定値ZV1の通信が省かれても良い。あるいは、しかしながら、信頼性測定値も同時に提供する、識別結果を供給手段12が、信頼性測定値ZV1を対応する順序でブロックと関連付けて、少なくとも2つの仮定を立てる手段14ばかりでなく、仮定を検証する手段16にも供給するように設計される。それは、この手段16は、信頼性測定値だけを、例えば、最も見込みのある仮定を求める必要があるからである。
ID1等の識別結果は、いくつかの関連付けられたフィンガープリントFAr11、FAr12、FAr13を有し、ID1により特定した楽曲がいくつかのブロックを有していることを示していることが、図2のデータベース22から解る。しかしながら、実施例によるが、識別ID1を有する楽曲の1つの長いフィンガープリントも格納しているけれども、これは、個別のフィンガープリントFAr11、FAr12、FAr13等から構成される。次にデータベースは、長い格納した参照フィンガープリントの一部が、ライン24で供給された参照フィンガープリントFAiと一致するかどうか判定するために、ブロック長に依存し、通常長いフィンガープリントよりもずっと短い、供給されたフィンガープリントFAiにデータベースの各行の長いフィンガープリントと相関をとる。ここで、いわゆる、すなわち単純な相関結果の定量評価値により、自動的に信頼性測定値となる。
さらに、図2に基づいて、最後の2つの列についてすでに参照が行われている。識別結果ID108およびID109を示している。図4aで説明するように、ID108は楽曲の長いバージョンを示し、図4bで説明するように、ID109は同じ楽曲の短いバージョンを特定する。
すでに述べたように、データベース22、すなわち、連続するフィンガープリントに識別結果を提供する手段12のこの実施例が、最も見込みのある識別結果を常に供給するように設計される。あるいは、しかしながら、データベース22を、例えば、5%の閾値等の最小閾値よりも高い可能性を有する識別結果だけを必ず供給するように構成することもできる。これにより、表の列数は、フィンガープリントとフィンガープリントとの間で異なるようになる。しかしながら、またあるいは、データベース22を、各入力フィンガープリントFAiに対して、“トップテン”等の、特定の数の最も見込みのある候補、すなわち最も見込みのある候補の10個を、少なくとも2つの仮定を立てる手段14に供給するために実施することもできる。
次に、図3に基づいて、データベース22の実施例について説明する。データベースは、3つの最も見込みのある識別結果を関連付けられた信頼性値とともに必ず手段14に供給して、仮定を立てる。すなわち、いわゆる、“トップスリー”の実施例を含んでいる。図3は、フィンガープリントFA1に対して、実際には、40%、60%または30%の個別の信頼性測定値の識別結果ID1、ID2、ID3が提供される。時間間隔Δt2に対して、すなわち、フィンガープリントFA2に対して、今度は異なる個別の可能性、すなわち、異なる個別の信頼性測定値を有する識別結果ID1、ID2、ID3を供給する。これは、図3に一例として示されている。この手順は、全入力フィンガープリントFA1〜FA8に対して行われる。図1に示す、少なくとも2つの仮定を立てる手段14が、これらの識別結果に供給される。少なくとも2つの仮定を立てる手段14が、識別結果供給手段12から新規の識別結果に供給された場合はいつも、新規の仮定から開始するために設計される。図3からわかるように、仮定H1、H2、H3は、時間Δt1で、ID1、ID2およびID3からそれぞれ開始され、時間間隔Δt7で、新規の仮定はID108、ID109、ID4から開始され、さらに、仮定H4は、時間間隔Δt8でID8から開始される。それは、ID8はこの例では初めて現れたものであるという事実による。
従って、少なくとも2つの仮定を立てる手段14は、各新規のフィンガープリントそれぞれに対して新規の識別結果があるかどうか確認し、新規の仮定を開始して、時間区分Δtiに、その前に開始した仮定に対して“トップスリー”または“トップx”に成分が含まれている場合は、可能性は少ないが、開始したばかりの仮定に識別結果を供給しているが、その前に開始した仮定を継続するようにする。この手順は、特定の時間継続される。次に、例えば、所定の時間で、またはユーザによるトリガなどで、図3に示す場合は、仮定を検証する手段16は、今まで作成した仮定を検証して、例えば、仮定H1、H2、H3の信頼性測定値時間区分Δt1〜Δt6の間に加える。少なくとも2つの仮定を検証する手段16は次に、楽曲が最も見込みのあるID1であると判定する。すなわち、仮定時間区分Δt1〜Δt6の間では、仮定H1が最も見込みがある仮定と判定する。なぜなら信頼性測定値は420の値に達し、第2の仮定は230の信頼性測定値で、第3の仮定は、135の信頼性測定値にしかなっていないからである。
図3に図示する場合、3つの仮定はすべて同時に開始して、3つの仮定はすべて同時に終了する。しかしながら、必ずしもこのようにする必要はない。例えば、すなわち、仮定H1を、例えば時間Δt5で早めに終了することもできる。この場合は、ID1の信頼性測定値が90低減されるので、330の値になる。この場合は、それにもかかわらず、仮定H1が最も見込みのある仮定となる。仮定H2はより長い時間区分の間存在するが、全体としては可能性が低い。さらに、図3に示す例では、仮定H2よりもΔt1だけ可能性が低いという事実にもかかわらず、最終的には仮定H1が“獲得”する。
さらに、図3は、例えば、伝送チャネルの外乱等の何らかの理由で、ID1ではなく、ID2およびID3だけが、時間間隔Δt4で妥当な可能性のあることにより供給されるというように、仮定に“穴”があることも示している。その場合は、ID1の信頼性が値を60低減される必要がある。これにより、その代わり、420に代わって全信頼性が360になるので、この場合もはやはり、仮定H1が最も見込みのある仮定となる。
従って、後処理に基づく仮定を処理し、一方ではシーケンスを考え、他方では個別のフィンガープリント識別の信頼性測定値を処理する本発明の概念は、伝送エラーについて、データベースの問題が多い機能に対しても、または、楽曲、映像画像、テキスト等の、ある情報エンティティにとってはあまり差がないフィンガープリントに対しても、格段に確実に動作することが、上記のシナリオからわかる。
好適な実施の形態では、仮定は格納したプロトコル(図3のH1、H2、H3、...)で、好ましくは格納したリスト形式である。一方では仮定を立てる情報エンティティ表示を含み、他方ではフィンガープリントの表示および/または仮定を立てた情報単位のブロックを含む。好ましくは、プロトコルはまた、ブロックおよび/またはフィンガープリントの信頼性測定値を含む。
さらに、図3は、第1の情報エンティティが時間区分Δt1〜Δt6に渡っていて、新規のエンティティがΔt7から開始することを示している。これは特に、3つの仮定はすべて同時に終了すること、および/または、仮定H3が、例えば、Δt7を含んでいて、可能性が非常に高い全く異なる識別値を有している場合は、すなわち、ID108およびID109が90および85の可能性を有するので、前の時間区分から、“明らかに可能性があるもの”と“置換”するという事実から解る。
図3の終わりには、一例としての様々なステートメントが示されている。すなわち、時間区分Δt1〜Δt6の情報エンティティがID1で特定した楽曲である。あるいは、Δt6とΔt7との間で情報エンティティ変更があったというステートメントとすることもできる。あるいは、しかしながら、ID1で特定した楽曲が情報信号に含まれているというステートメントとすることもできる。
次に、はじめに、本発明との関連で、どのように有利に利用できるか、図9および10に基づいて、データベースシステムの概要についてさらに説明する。従って、本発明は、音楽等のオーディオ素材を識別するシステムに基づいている。システムは、2つの動作段階について解っている。図9に基づいて説明するトレーニング段階では、認識システムは、後ほど特定する楽曲を学習する。図10で説明する識別段階では、前に学習したオーディオ楽曲が認識される。
楽曲、または任意の他のオーディオ信号についても特定するために、フィンガープリントまたは署名とも呼ぶ、コンパクトで一意のデータセットが抽出される。この抽出は、ブロック特徴抽出900で行われる。トレーニングまたは学習段階では、このようなフィンガープリントが、フィンガープリントデータベース902に格納した周知のオーディオオブジェクトのセットから等生成される。好ましくは、特徴抽出手段900が、SFMの特徴を特徴として用いるように設計する。SFMは、“スペクトル平坦性測定(Spectral Flatness Measure)”を意味する。もちろん、他のフィンガープリント生成システムおよび/または特徴抽出結果を用いることもできる。しかしながら、純音性に関連する特徴と、特にSFMの特徴とは、特に一方では区別性が特に良好で、特に他方では非常にコンパクトであることが解っている。このために、各ブロックははじめに時間/周波数変換に支配され、次に、次の式に基づいて、時間/周波数変換から生成した値を用いて、ブロックごとにSFMを計算する。
Figure 0004900960
この式では、X(n)は、インデックスnのスペクトル成分の絶対値の2乗を表している。Nは、スペクトルのスペクトル係数の総数である。式からわかるように、SFM測定値は、スペクトル成分の幾何平均とスペクトル成分の算術平均との商に等しい。幾何平均は常に、算術平均より少ないか、最大でも等しいことが周知であるので、SFMは0から1の範囲の値である。この意味で、0に近い値は、音色信号を示し、1に近い値は、平坦なスペクトル曲線を有するノイズ状信号を示している。X(n)がすべて全く同じで、完全な無調、すなわちノイズ状またはパルス状信号に対応する場合は、算術平均および幾何平均が等しいことに留意されたい。しかしながら、極端な場合において、1つのスペクトル成分だけが非常に高い値を有するが、他のスペクトル成分X(n)は非常に小さな値で、SFM測定値は0に近い値で、まさに音色の信号を示している。
SFMの概念とともにフィンガープリントを生成する他の特徴抽出概念については、例えば、国際公開第03/007185号に開示されている。
図10に示す識別段階において、通常はトレーニング段階にあるような同じ特徴抽出900がある。特に、時間区分Δtの間にオーディオ入力でオーディオオブジェクトから抽出したフィンガープリントが、比較器904により、フィンガープリントデータベース902の参照フィンガープリントと比較される。図1で説明したように、比較器は通常、識別結果供給手段12に含まれている。次に、特定の基準に基づいて一致を検出した場合において、時間区分Δtの認識結果が得られる。従って、特定の基準に基づいて一致が検出された場合は、未知のオーディオオブジェクトからの未知のフィンガープリントと部分とが、データベースの参照素材、すなわち、様々な信頼性値を有する識別結果IDi、IDi+1、...、のリストと関連付けられていることになる。
本発明によれば、これで、入力での未知のオーディオオブジェクトが、参照データベースの参照オーディオオブジェクトの1つ、すなわち、時間Δtだけに正確に関連付けられているばかりでなく、入力でデータストリームの割り込みが発生せずに、連続動作が行える。本発明によれば、参照データベースからの正確なオーディオオブジェクトを伴ったオーディオオブジェクトからの様々な部分は、実行される。従って、切れ目のないシーケンス、すなわち、特定したオーディオオブジェクトプロトコルが入力で得られる。
次に、図4aないし図5dに基づいて、連続オーディオデータストリームの連続分析に関する特定の問題が説明される。オーディオオブジェクトを、長さ部分Δtx、すなわち、個別のブロックに分割して、オーディオデータストリーム部分に対して、データベースの参照成分を関連付けできるようにする。オーディオデータストリームの個別の部分のこの関連付けが、前後の関連付けに対して必ずしも明白になるとは限らないし、前後の関連付けに対してだけ明白になるということもあることが考えられる。個別の関連付けを行って、次の段階でこれらを合成する場合は、障害のある認識プロトコルとなる。
図4aは、図4aに示す長いフィンガープリントにより示されている、楽曲XYの長いバージョンを示す。識別結果ID108は、このフィンガープリントと関連付けられる。図4bは、同じ楽曲XYの短いバージョンに対するものを示す。従って、ID109は、楽曲XYの短いバージョンを示し、ID108は、この楽曲の長いバージョンを示す。短いバージョンは長いバージョンよりも短いので、図4bのフィンガープリントも、図4aのフィンガープリントよりも短い。2つのブロックを上下に示しているので、楽曲、つまりフィンガープリントID108およびID109は、全く同じオーディオ素材および/または全く同じフィンガープリントデータを含んでいる。従って、ID109は、ID108のサブセットである。従って、図4cは、時間区分Δt0に開始部分がある長いバージョンを示している。これは、短いバージョンには存在しない。t1からt5の間の中央の部分では、長いバージョンと短いバージョンとは全く同じであるが、長いバージョンは、時間5tからt7の間のID109によって特定した短いバージョンにはない音楽部分をやはり有している。
次に、図5aないし図5dに基づいて、単純な組み合わせの場合、すなわち仮定を立てることがない場合に、個別のIDを用いて障害のある認識プロトコルがどのように発生するか説明する。楽曲ID108が、時間t0にシステムの入力で受信されると仮定する。さらに、時間区分Δtxに対して図5aの成分を特定するためにデータベースを動作させる。2つのID108およびID109を時間区分Δt1〜Δt4で出力することができるが、図5aにおける識別は基本的に正確であることに留意されたい。最終的に、これらの領域における識別結果の判定が曖昧であるのは、データベースが、外乱のない状態で、2つのID109およびID108を出力して、計算差に基づいて、例えば、最も見込みのある値を必ず選択するので、特定のノイズのために、2つの識別結果ID108またはID109の一方が、いつも若干高い信頼性測定値を有する。従って、図5bの認識プロトコルでは、ID109で特定した楽曲が全く再生されず、ID108で特定した楽曲だけが再生されるという点で、間違った特定が行われる。
次に、図5cおよび図5dは、さらに別の例を示す。データベースが、図5cに示す状況を出力すると仮定する。認識プロトコルにおいては、やはり間違った組み合わせが与えられている。すなわち、ID109は、T1およびT5の間に存在したが、もちろん、これが真実ではない。その代わりに、楽曲の長いバージョン、すなわちID108が、t0〜t7に再生された場合である。
また、別の間違った認識プロトコルが考えられる。時間区分Δtxのオーディオデータストリーム部分に対する個別の認識の曖昧さにより、これが生成される。
本発明によれば、図6に示す全体的な概念を説明する。実施例によるが、手段900、904、902をまとめて、時間区分Δtxに対して得た認識結果、すなわち、図1の手段12の出力信号に対して得た認識結果に対して、図1の少なくとも2つの仮定を立てる手段と、仮定を検証する手段とに基本的に対応する後処理を行う。次に、後処理を用いて、すなわち、後処理で得た検証結果を用いて、認識シーケンスおよび/または認識プロトコルの形式において、情報信号に関するステートメントが生成される。
後処理段では、時間区分Δtxに対して特定した参照オーディオオブジェクトから、時間区分Δtx+iに対する任意の他の参照オーディオオブジェクトへの遷移の可能性が等しいと仮定する。この仮定から、はじめは並行であると考えられる様々な仮定が、個別の認識から隣接するオーディオ部分に対して立てられる。個別の認識があるものと同じ参照オーディオ信号に関連していて、時間的に連続して接続している場合には、仮定を立てるために個別の認識を合成されることに留意されたい。認識プロトコルは、時間的な進行を考慮する、個別の最も見込みのある仮定の組み合わせから生じる。次に、好適なアルゴリズムについて詳細に説明する。
はじめに、認識した参照オーディオオブジェクトそれぞれに対して、時間区分Δtxに対する個別の認識から(x=N、N+1、N+2、...、tNは、個別の仮定に対する開始時間である)、隣接するオーディオ部分に対する様々な仮定が立てられる。
個別の認識が時間的に連続する場合は、仮定を立てるために、個別の認識が合成される。
時間連続性は、既存の仮定を継続するのかどうか、または新規の仮定を開始するのかどうかを判定する別の要素である。例えば、楽曲のあるギターのソロ演奏が、例えば、楽曲の短いバージョンのはじめの方に位置し、楽曲の長いバージョンでは中程に位置するというシナリオについて考える。
好適な実施の形態では、データベース、すなわち、識別結果を提供する手段が、フィンガープリント識別ばかりでなく、長さと、データベースの(長い)フィンガープリントの一部と一致する入力(短い)フィンガープリントとを有するデータベースの識別フィンガープリントから得た時間値も出力する。
上記のシナリオでは、データベースが、ギターのソロ演奏(短いバージョンおよび長いバージョン)に対して、2つの異なる時間インデックスを有する2つのID結果を提供することになる。短いバージョンのID結果の時間インデックスは、長いバージョンの時間インデックスよりも短い。時間インデックスに基づいて、仮定を立てる手段は、(仮定において、時間インデックスと最後の時間インデックスとの間に時間連続性がある場合は、)、仮定を継続することができ、あるいは現在得た時間指数と仮定の最後の時間インデックスとに連続性がない場合は、新規の仮定を開始することができる。
次の成分が、設定する時間距離Taよりも時間的に長い距離を有する場合は、または次の成分が時間的に前のものである場合は、参照オーディオオブジェクトに対する各時間の非連続性により、新規の仮定を立てる。
仮定を検証するために、確信測定値の加算、すなわち、個別の認識の信頼性値および/または妥当性の測定値を、各仮定に対して立てる。
次に、時間区分Δt0で開始する、最も高い確信測定値を有する仮定が正しいかどうか評価され、認識プロトコルに採用される。第1の仮定に続く次の時間区分に対して、最も高い確信測定値を有する仮定が正しいかどうかもう一度評価され、認識プロトコル等に採用される。
従って、上記の例に対し、結果は、図7aないし図7cに基づいて示す処理となる。時間区分Δt0に対して、例えば、図2に示すデータベースでは、1つの識別結果、すなわち、閾値を超える可能性および/または信頼性測定値を有するID108だけを提供する。時間間隔Δt1においては、すなわち、時間間隔Δt1に渡る情報単位のブロックに対して、データベースは、閾値を超える信頼性測定値を有する2つの結果を提供する。時間t2から時間t5の間のブロックに対しては、2つの結果が得られる。時間区分t5からt7に対しては、データベースは次に、やはり閾値を超える信頼性測定値有する1つの識別結果だけを提供する。
少なくとも2つの仮定を立てる手段14(図1)を、識別結果ID108に基づいて、時間t0で第1の仮定を開始して、新規の識別結果ID109に基づいて、時間t1で新規の仮定、すなわち仮定H2を開始するように設計する。
次に、時間t7の後の時間では、個別の認識の確信測定値に対して関数を計算するために、次に、仮定H1およびH2を有する図7aに示す仮定状況が考えられる。すなわち、各仮定について、xH1およびxH2に対して計算する。仮定の検証に基づいて、図7bに示すように行う。
t1からt5の間で、識別結果ID108およびID109が同じ可能性で発生すると仮定すると、図7aに示す実施の形態では、第1の仮定H1だけが得られる。なぜなら、これは、仮定は、t1とt5との間の仮定H2と同じ可能性があるが、仮定H1は、時間区分Δt0と、時間区分Δt5と時間区分Δt6に適用するからである。すなわち、仮定H2には与えられない個別の認識に対する信頼性測定値を提供することになるからである。認識プロトコルには、このことは、図7cに示す正確な場合、すなわち、ID108で指定される楽曲が、時間t0から時間t7まで再生されたことを意味する。
従って、t0から開始し、仮定H1が選択される。なぜなら、t7まで、確信測定値を超える仮定がないからである。仮定H2は捨てられる。原則として、最も見込みのあるものとして選択した別の仮定と並行して存在する仮定を全て捨てることができる。
従って、本発明によれば、オーディオ入力で実際に再生したシーケンス、この例での成分、すなわち、ID108を、正確に記録する。
仮定の終了を判定するための様々な可能性があることに留意されたい。例えば、仮定状況とは無関係に、例えば、ある最小の長さの一時停止がある場合は、例えば、オーディオ信号自体から、情報エンティティの終わりを判定することもできる。しかしながら、2つの情報エンティティの間にフェーディングがあったり、2つの楽曲が短時間で続いているので認識可能な一時停止を見つけられなかったりする場合は、この基準はうまく働かない。これは、以前に立てた仮定に基づいて、情報エンティティの終わりを判定する好適な例である。例えば、ある最小閾値を超える信頼性値をまったく持たない2つ以上のブロックを手段14に供給して、仮定を立てる場合に、仮定は終了すると考えるように、このことを行うこともできる。あるいは、例えば、図3に示す場合では、あるブロックの終わりで、最も高い値を有する仮定があるかどうか確認するために、すなわち、ある数、例えば、20ブロック過ぎて、仮定が残っていて、他の仮定より“引けをとっている”かどうか、確認するために、過去に向かうある時間で、仮定の値を所定の数のブロックに加算するために単に開始される。図3に示す例では、このことは、情報エンティティがID1またはID2またはID3である仮定を、時間区分Δt7およびΔt8で連続することを意味している。しかしながら、これが、ID1の認識を何ら変更するものではないのは、新規の仮定、すなわち、ID108、ID109、ID4およびID8の仮定が、基本的に後から開始するからで、すなわち、Δt7およびΔt8それ以降のブロックに対して開始するので、もっと後でこのような高い合成信頼性値をとるか、あるいはとらないことになる。
上述の説明から、仮定の終了は、必ずしも能動的に判定する必要がないことが解る。しかし、この終了を過去の分析から、すなわち開始した仮定から、自動的に得ても良い。好ましくは、有意の閾値を超える信頼性測定値を有する新規の識別結果が得られた場合はいつも、新規の仮定が開始される。次に、ある時間区分の間に仮定が残っているかどうか確認するために、ある時間からさかのぼって検証が行われる。このために、仮定の終了を明示的に判定する必要がないのは、自動に結果が出るからである。
条件によるが、本発明の方法を、ハードウェアまたはソフトウェアで実施することができる。本発明の方法を実行するプログラム可能コンピュータシステムと協働する、デジタル記憶媒体、特に、電気的に読み取り可能な制御信号を格納したフロッピー(登録商標)ディスクまたはCDを用いることにより、実施することができる。一般に、本発明は、機械読み取り可能キャリアに格納したプログラムコードを有するコンピュータプログラム製品である。コンピュータプログラム製品をコンピュータ上で実行する場合は、プログラムコードにより本発明の方法を実行する。換言すれば、従って、本発明の方法は、コンピュータプログラムをコンピュータ上で実行する場合は、少なくとも1つの本発明の方法を実行するプログラムコードを有するコンピュータプログラムである。
本発明の装置のブロック回路図である。 図1に示す実施の形態に使用可能なデータベースのブロック回路図である。 連続する時間間隔と、関連付けられた仮定とに対するフィンガープリントシーケンスの出力結果を概略表現で示す。 図4aないし図4cは、次の適用例の一例のシナリオを示す。 図5aないし図5dは、様々な間違った評価を概略で示す。 本発明の好適な実施の形態のブロック回路図である。 図7aないし図7cは、図4aないし図4cに示す出力シナリオに対する本発明の概念の機能を示す。 複数のブロックの情報単位、情報単位ブロックおよび情報エンティティを有する情報信号を概略で示す。 フィンガープリントデータベースを蓄積する周知のシナリオである。 図9に基づいてロードしたフィンガープリントデータベースにより、オーディオ識別を行う周知のシナリオである。

Claims (20)

  1. 情報単位のブロック(804)のシーケンス(802)を有する情報信号を、前記ブロックのシーケンスに対するフィンガープリントのシーケンス(FAi)を用いて分析する装置であって、前記情報信号は、オーディオ情報単位を構成し、前記ブロックのシーケンスの複数の連続するブロックが情報エンティティ(806)を表し、そして、前記ブロックのシーケンスが各ブロックに対する前記フィンガープリントのシーケンスにより表される、装置であって、
    識別結果と関連して保存される様々な参照フィンガープリントを有する定量データベースを用いて、連続するフィンガープリントに対する連続する識別結果(IDi)を供給する手段(12)であって、識別結果は、情報単位のブロックと所定の情報エンティティとの関連付けを表し、および各識別結果に対する前記情報単位のブロックと所定の情報エンティティとの関連付けの信頼性を定量的に表している数値の信頼性測定値を供給する手段であって、前記供給する手段は、情報単位の第1のブロックに対して第1の識別結果を生成して、そして、情報単位の前記第1のブロックの後の情報単位のブロックに対して、前記第1の識別結果と異なる第2の識別結果を生成するように設計された、前記供給する手段(12)と、
    前記連続するフィンガープリントに対して、前記連続する識別結果から少なくとも2つの仮定を立てる手段(14)であって、第1の仮定は、前記ブロックのシーケンスを第1の情報エンティティに関連付けた想定で、第2の仮定は、前記ブロックのシーケンスを第2の情報エンティティに関連付けた想定で、ここで、前記立てる手段(14)は、前記供給する手段(12)によって供給された前記第1の識別結果に応答して、前記第1の仮定を開始し、または前記フィンガープリントのシーケンスにおける前のフィンガープリントに対する第1の識別結果に応答して前記立てる手段(14)によって開始された既存の第1の仮定を継続し、そして、前記供給する手段(12)によって供給された前記第2の識別結果に応答して、前記第2の仮定を開始し、または前記フィンガープリントのシーケンスにおける前のフィンガープリントに対する第2の識別結果に応答して前記仮定を立てる手段(14)によって開始された既存の第2の仮定を継続するように設計された、前記仮定を立てる手段(14)と、
    前記仮定の前記数値の信頼性測定値を数値的に合成することにより、検証結果(18)を得るために、前記少なくとも2つの仮定を検証する手段(16)と、
    前記検証結果に基づいて、前記情報信号に関するステートメントを生成する手段(20)とを備える装置。
  2. ステートメント生成する前記手段(20)が、前記ブロックのシーケンスが最も見込みのある仮定を有する情報エンティティを表しているか、または、情報エンティティが、時間的に最後のものとしての前記最も見込みのある仮定を与える前記フィンガープリントで終わっているか、または、前記情報信号に情報エンティティが存在するかしないか、を判定するように設計される、請求項1に記載の装置。
  3. 前記供給する手段(12)は、1つのフィンガープリントに対して2つの異なる識別結果を生成するように設計される、請求項1または請求項2のいずれかに記載の装置。
  4. 前記供給する手段(12)は、前記2つの異なる識別結果のそれぞれに対して前記数値の信頼性測定値を生成するように設計される、請求項3に記載の装置。
  5. 前記仮定を立てる手段(14)は、前記2つの識別結果のうちの第1の識別結果を前記第1の仮定と関連付けて、前記2つの識別結果のうちの第2の識別結果を前記第2の仮定と関連付けるように設計される、請求項3または請求項4に記載の装置。
  6. 前記検証する手段(16)は、前記検証結果として、数値的により高い合成信頼性測定値を有する前記仮定を求めるように設計される、請求項2ないし請求項5のいずれかに記載の装置。
  7. 前記仮定を立てる手段(14)は、所定の数のブロックに対して、前記供給する手段(12)が、所定の数の前記情報単位のブロックと前記第1の情報エンティティ、または前記第2の情報エンティティとの関連付けを表す識別結果のいずれも得られない場合には、前記第1の仮定を終了するか、または第2の仮定を終了するように設計される、請求項1ないし請求項6のいずれかに記載の装置。
  8. 前記仮定を立てる手段(14)は、前記情報信号において検出したイベントが発生した場合は、前記第1の仮定または第2の仮定を終了するように設計される、請求項1ないし請求項7のいずれかに記載の装置。
  9. イベント検出器が備えられ、前記イベントとして閾値レベルを下回る情報単位のブロック内のエネルギレベルを検出する、請求項8に記載の装置。
  10. 前記供給する手段(12)は、
    前記フィンガープリントのシーケンスの各フィンガープリントに対して、最も信頼できる識別結果に関連付けられた数値の信頼性測定値を有さないか、もしくは有する前記最も高い信頼性を示す前記数値の信頼性測定値を有する前記識別結果だけを出力し、または、
    前記フィンガープリントのシーケンスの各フィンガープリントに対して、各識別結果に対して関連付けられた数値の信頼性測定値を有する所定の数の最も高い信頼性を示す数値の信頼性測定値を有する前記所定の数の識別結果を出力し、または、
    前記フィンガープリントのシーケンスの各フィンガープリントに対して、各識別結果に対して関連付けられた前記数値の信頼性測定値を有するか、もしくは有さない、閾値を超える数値の信頼性測定値を有する前記識別結果だけを出力するように設計される、請求項1ないし請求項9のいずれかに記載の装置。
  11. 前記検証する手段(16)は、合成された数値の信頼性測定値を得るために仮定に属する明確なまたは潜在する数値の信頼性測定値を加算するように設計される、請求項1ないし請求項10のいずれかに記載の装置。
  12. 前記供給する手段(12)は、
    前記定量データベースの検索を行って、そのような場合、参照情報エンティティのフィンガープリントが前記フィンガープリントのシーケンスの前記フィンガープリントを用いて格納され、
    距離測定値は、各識別結果に対する前記数値の信頼性測定値の表示であり、各識別結果に対する多数の識別結果および前記距離測定値を供給するように設計される、請求項1ないし請求項11のいずれかに記載の装置。
  13. 前記識別結果に対する距離測定値が閾値距離よりも短い距離を示す閾値と関係を有する場合は、前記供給する手段(12)は、仮定がまだ立てられていない各識別結果に対して新規の仮定を開始するように設計される、請求項12に記載の装置。
  14. 前記検証する手段(16)は、判定に応答して、前記最も見込みのある仮定を立てられる前記フィンガープリントに対して立てた、前記連続するフィンガープリントに対する全仮定を終了するように設計される、請求項1ないし請求項13のいずれかに記載の装置。
  15. 前記情報信号がオーディオ信号を含み、前記情報単位が前記時間または周波数領域内のオーディオサンプルで、情報エンティティが楽曲、オーディオシーケンスまたはノイズ部分を含む、請求項1ないし請求項14のいずれかに記載の装置。
  16. ブロックに対するフィンガープリントは、時間/周波数変換により、および/または前記時間/周波数変換の結果に対するスペクトル平坦性測定値の計算により求められる、請求項1ないし請求項15のいずれかに記載の装置。
  17. フィンガープリントが、前記ブロックのデータ量よりも小さいデータ量を有するように、ブロックに対する前記フィンガープリントが生成される、請求項1ないし請求項16のいずれかに記載の装置。
  18. 前記供給する手段(12)は、識別結果の他に、前記識別結果に対する次の時間インデックスも供給するように識別結果が設計され、
    前記仮定を立てる手段(14)を、前記仮定の現在の時間インデックスと前記次の時間インデックスとの間に連続性がある場合は仮定を継続して、または、前記仮定の現在の時間インデックスと前記次の時間インデックスとの間に連続性がない場合は仮定を開始するように設計される、請求項1ないし請求項17のいずれかに記載の装置。
  19. 情報単位のブロック(804)のシーケンス(802)を有する情報信号を、前記ブロックのシーケンスにフィンガープリントのシーケンス(FAi)を用いて分析する方法であって、前記情報信号は、オーディオ情報単位を構成し、前記ブロックのシーケンスの複数の連続するブロックが情報エンティティ(806)を表し、そして、前記ブロックのシーケンスが各ブロックに対する前記フィンガープリントのシーケンスにより表される、方法であって、
    識別結果と関連して保存される様々な参照フィンガープリントを有する定量データベースを用いて、連続するフィンガープリントに対する連続する識別結果(IDi)を供給する(12)ステップであって、識別結果は、情報単位のブロックと所定の情報エンティティとの関連付けを表し、および、各識別結果に対する数値の信頼性測定値を供給するステップであって、前記数値の信頼性測定値は、前記情報単位のブロックと前記所定の情報エンティティとの関連付けの信頼性を定量的に表し、情報単位の第1のブロックに対して第1の識別結果を生成して、そして、情報単位の前記第1のブロックの後の情報単位のブロックに対して、前記第1の識別結果と異なる第2の識別結果を生成する、供給する(12)ステップと、
    前記連続するフィンガープリントに対して、前記識別結果から少なくとも2つの仮定を立てる(14)ステップであって、第1の仮定は、前記ブロックのシーケンスを第1の情報エンティティに関連付けた想定で、第2の仮定は、前記ブロックのシーケンスを第2の情報エンティティに関連付けた想定で、ここで、前記仮定を立てるステップは、
    前記第1の識別結果に応答して、前記第1の仮定を開始し、または前記フィンガープリントのシーケンスにおける前のファインがープリントに対する第1の識別結果に応答して開始された前記既存の第1の仮定を継続し、前記第2の識別結果に応答して、前記第2の仮定を開始し、または前記フィンガープリントのシーケンスにおける前のフィンガープリントに対する第2の識別結果に応答して、前記既存の第2の仮定を継続するステップを含む、前記仮定を立てるステップ(14)と、
    前記仮定の前記数値の信頼性測定値を数値的に合成することにより、前記少なくとも2つの仮定を検証して、検証結果(18)を得るステップ(16)と、
    前記検証結果に基づいて、前記情報信号に関するステートメントを生成するステップ(20)とを含む方法。
  20. コンピュータ上で動作する場合は、請求項19に記載の方法を実施する機械読み取り可能命令を有するコンピュータプログラム。
JP2007512056A 2004-05-10 2005-05-09 情報信号を分析する装置および方法 Expired - Fee Related JP4900960B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102004023436.1 2004-05-10
DE102004023436A DE102004023436B4 (de) 2004-05-10 2004-05-10 Vorrichtung und Verfahren zum Analysieren eines Informationssignals
PCT/EP2005/005004 WO2005111998A1 (de) 2004-05-10 2005-05-09 Vorrichtung und verfahren zum analysieren eines informationssignals

Publications (2)

Publication Number Publication Date
JP2007536588A JP2007536588A (ja) 2007-12-13
JP4900960B2 true JP4900960B2 (ja) 2012-03-21

Family

ID=34968676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007512056A Expired - Fee Related JP4900960B2 (ja) 2004-05-10 2005-05-09 情報信号を分析する装置および方法

Country Status (15)

Country Link
US (1) US8065260B2 (ja)
EP (1) EP1745464B1 (ja)
JP (1) JP4900960B2 (ja)
KR (1) KR100838622B1 (ja)
CN (1) CN1957396B (ja)
AT (1) ATE375588T1 (ja)
CA (1) CA2566540C (ja)
CY (1) CY1107130T1 (ja)
DE (2) DE102004023436B4 (ja)
DK (1) DK1745464T3 (ja)
ES (1) ES2296176T3 (ja)
PL (1) PL1745464T3 (ja)
PT (1) PT1745464E (ja)
SI (1) SI1745464T1 (ja)
WO (1) WO2005111998A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7362775B1 (en) * 1996-07-02 2008-04-22 Wistaria Trading, Inc. Exchange mechanisms for digital information packages with bandwidth securitization, multichannel digital watermarks, and key management
US5613004A (en) 1995-06-07 1997-03-18 The Dice Company Steganographic method and device
US7664263B2 (en) 1998-03-24 2010-02-16 Moskowitz Scott A Method for combining transfer functions with predetermined key creation
US6205249B1 (en) 1998-04-02 2001-03-20 Scott A. Moskowitz Multiple transform utilization and applications for secure digital watermarking
US7177429B2 (en) 2000-12-07 2007-02-13 Blue Spike, Inc. System and methods for permitting open access to data objects and for securing data within the data objects
US5889868A (en) 1996-07-02 1999-03-30 The Dice Company Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7346472B1 (en) 2000-09-07 2008-03-18 Blue Spike, Inc. Method and device for monitoring and analyzing signals
US7457962B2 (en) 1996-07-02 2008-11-25 Wistaria Trading, Inc Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7159116B2 (en) 1999-12-07 2007-01-02 Blue Spike, Inc. Systems, methods and devices for trusted transactions
US7095874B2 (en) 1996-07-02 2006-08-22 Wistaria Trading, Inc. Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7730317B2 (en) 1996-12-20 2010-06-01 Wistaria Trading, Inc. Linear predictive coding implementation of digital watermarks
US7664264B2 (en) 1999-03-24 2010-02-16 Blue Spike, Inc. Utilizing data reduction in steganographic and cryptographic systems
US7475246B1 (en) 1999-08-04 2009-01-06 Blue Spike, Inc. Secure personal content server
US7127615B2 (en) 2000-09-20 2006-10-24 Blue Spike, Inc. Security based on subliminal and supraliminal channels for data objects
US7287275B2 (en) 2002-04-17 2007-10-23 Moskowitz Scott A Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth
US7239981B2 (en) 2002-07-26 2007-07-03 Arbitron Inc. Systems and methods for gathering audience measurement data
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
US8959016B2 (en) 2002-09-27 2015-02-17 The Nielsen Company (Us), Llc Activating functions in processing devices using start codes embedded in audio
CN1745374A (zh) 2002-12-27 2006-03-08 尼尔逊媒介研究股份有限公司 用于对元数据进行译码的方法和装置
JP5090523B2 (ja) * 2007-06-06 2012-12-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置
WO2010022303A1 (en) 2008-08-22 2010-02-25 Dolby Laboratories Licensing Corporation Content identification and quality monitoring
US8121830B2 (en) 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8508357B2 (en) 2008-11-26 2013-08-13 The Nielsen Company (Us), Llc Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking
US8666528B2 (en) 2009-05-01 2014-03-04 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
US8549897B2 (en) * 2009-07-24 2013-10-08 Chevron Oronite S.A. System and method for screening liquid compositions
US9380356B2 (en) 2011-04-12 2016-06-28 The Nielsen Company (Us), Llc Methods and apparatus to generate a tag for media content
US9515904B2 (en) 2011-06-21 2016-12-06 The Nielsen Company (Us), Llc Monitoring streaming media content
US9209978B2 (en) 2012-05-15 2015-12-08 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9282366B2 (en) 2012-08-13 2016-03-08 The Nielsen Company (Us), Llc Methods and apparatus to communicate audience measurement information
US9313544B2 (en) 2013-02-14 2016-04-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US20150039321A1 (en) 2013-07-31 2015-02-05 Arbitron Inc. Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device
US9711152B2 (en) 2013-07-31 2017-07-18 The Nielsen Company (Us), Llc Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio
US9420349B2 (en) 2014-02-19 2016-08-16 Ensequence, Inc. Methods and systems for monitoring a media stream and selecting an action
US9699499B2 (en) 2014-04-30 2017-07-04 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
DE102014211899A1 (de) * 2014-06-20 2015-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Kopiergeschützten Erzeugen und Abspielen einer Wellenfeldsynthese-Audiodarstellung
US9704507B2 (en) 2014-10-31 2017-07-11 Ensequence, Inc. Methods and systems for decreasing latency of content recognition
US9762965B2 (en) 2015-05-29 2017-09-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
CN106910494B (zh) * 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1125262A1 (en) * 1998-10-27 2001-08-22 Visa International Service Association Delegated management of smart card applications
GR1003625B (el) * 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
US6597802B1 (en) * 1999-08-13 2003-07-22 International Business Machines Corp. System and method for generating a rolled surface representation from a set of partial images
US7617509B1 (en) * 2000-06-23 2009-11-10 International Business Machines Corporation Method and system for automated monitoring of quality of service of digital video material distribution and play-out
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6880084B1 (en) * 2000-09-27 2005-04-12 International Business Machines Corporation Methods, systems and computer program products for smart card product management
US20030005465A1 (en) * 2001-06-15 2003-01-02 Connelly Jay H. Method and apparatus to send feedback from clients to a server in a content distribution broadcast system
DE10133333C1 (de) * 2001-07-10 2002-12-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
US8155498B2 (en) * 2002-04-26 2012-04-10 The Directv Group, Inc. System and method for indexing commercials in a video presentation
DE102004021404B4 (de) * 2004-04-30 2007-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wasserzeicheneinbettung
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm

Also Published As

Publication number Publication date
ES2296176T3 (es) 2008-04-16
DE102004023436B4 (de) 2006-06-14
SI1745464T1 (sl) 2008-04-30
PT1745464E (pt) 2008-01-22
DE102004023436A1 (de) 2005-12-08
CY1107130T1 (el) 2012-10-24
KR100838622B1 (ko) 2008-06-16
DE502005001685D1 (de) 2007-11-22
US8065260B2 (en) 2011-11-22
EP1745464B1 (de) 2007-10-10
CA2566540A1 (en) 2005-11-24
DK1745464T3 (da) 2008-02-11
US20070127717A1 (en) 2007-06-07
PL1745464T3 (pl) 2008-03-31
CA2566540C (en) 2011-04-19
EP1745464A1 (de) 2007-01-24
CN1957396A (zh) 2007-05-02
KR20070015194A (ko) 2007-02-01
JP2007536588A (ja) 2007-12-13
CN1957396B (zh) 2010-12-08
ATE375588T1 (de) 2007-10-15
WO2005111998A1 (de) 2005-11-24

Similar Documents

Publication Publication Date Title
JP4900960B2 (ja) 情報信号を分析する装置および方法
US7085613B2 (en) System for monitoring audio content in a video broadcast
EP1774348B1 (en) Method of characterizing the overlap of two media segments
JP5362178B2 (ja) オーディオ信号からの特徴的な指紋の抽出とマッチング
US9336794B2 (en) Content identification system
US6574594B2 (en) System for monitoring broadcast audio content
CN1998168B (zh) 用于广播源辨识的方法与装置
US20070220265A1 (en) Searching for a scaling factor for watermark detection
WO2008050718A1 (fr) Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme
CN114596878A (zh) 一种音频检测方法、装置、存储介质及电子设备
WO2007072394A2 (en) Audio structure analysis
CA2439596C (en) Method and apparatus for identifying electronic files
Le Coz et al. Audio indexing including frequency tracking of simultaneous multiple sources in speech and music
Organiściak et al. Single-ended quality measurement of a music content via convolutional recurrent neural networks
Yesiler et al. Investigating the efficacy of music version retrieval systems for setlist identification
Ramona et al. Automatic alignment of audio occurrences: application to the verification and synchronization of audio fingerprinting annotation
Kim et al. Background music monitoring framework and dataset for TV broadcast audio
AU2002249371B2 (en) Method and apparatus for identifying electronic files
AU2002249371A1 (en) Method and apparatus for identifying electronic files

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100319

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110721

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111226

R150 Certificate of patent or registration of utility model

Ref document number: 4900960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees