JP4900960B2

JP4900960B2 - 情報信号を分析する装置および方法

Info

Publication number: JP4900960B2
Application number: JP2007512056A
Authority: JP
Inventors: ユールゲンヘレ; エリックアラマンヒェ; オリヴァーヘルムート; トルステンカストナー
Original assignee: M2any GmbH
Current assignee: M2any GmbH
Priority date: 2004-05-10
Filing date: 2005-05-09
Publication date: 2012-03-21
Anticipated expiration: 2025-05-09
Also published as: ES2296176T3; DE102004023436B4; SI1745464T1; PT1745464E; DE102004023436A1; CY1107130T1; KR100838622B1; DE502005001685D1; US8065260B2; EP1745464B1; CA2566540A1; DK1745464T3; US20070127717A1; PL1745464T3; CA2566540C; EP1745464A1; CN1957396A; KR20070015194A; JP2007536588A; CN1957396B

Description

本発明は、信号分析に関し、特に、信号の内容を識別するための信号分析に関する。

ますます増大するオーディオ・映像素材をアーカイブしたり、容易に検索できるデータベースを構築したり、様々な配信方法を介して素材を配信したりするために、オーディオ・映像素材を特定したり、より一般には、コンテンツに基づいて明確に情報素材を特定したりすることを支援する自動情報認識システムが必要である。

このことに対する適用例の１つは、いわゆる“ブロードキャスト・モニタリング”である。このようなオーディオ映像監視システムの力を借りて、例えば、法的コンテンツを配信したり、オーディオ・映像素材の権利所有者に対して著作権使用料を個別に正確に支払ったりすることを確実に行うようにすることができる。

別の適用例の１つは、例えば、ピアツーピアネットワークを介して相手方と交換するオーディオ素材を認識することである。

別の適用例の１つは、予定した広告時間が実際に放送されたのか、予定した広告シェア部分だけが放送されたのか、コマーシャル部分が伝送中に配信されたのか、広告業界がテレビ局またはラジオ局を監視するために、可能性を監視することである。このことは、例えば、テレビ局またはラジオ局の責任であるともいえる。この点で、特に、放送時間で人気のある番組でのテレビコマーシャルコストは非常に高いので、広告業界は、特に高いコストの視点から、可能性の監視に重大利益があり、よって、放送局の言質を単純に信用したりしないことに留意されたい。現在、可能性を監視することは、“テスト聴取者”または“テスト視聴者”への支払いに基づいている。彼らは、連続してあるテレビ番組を試聴して、例えば、コマーシャルを送信した正確な時間を記録して、さらに、伝送中に外乱がなかったかどうか、全コマーシャルが正確に送信されたかどうか、すなわち、画像歪み等がなかったかどうか、監視する。

この概念の欠点は明白である。一方では、コストが膨大であることと、他方では、特に、立証能力についてはテスト聴取者にもっぱら依存する、かなりの支払いが要求された場合には、テスト聴取者および／またはテスト視聴者のコメントの信頼性または証拠能力が問題となることとである。

様々な周知のシステムを、自動化ブロードキャスト・モニタリングに用いることもできる。例えば、国際公開第０２／１１１２３号または専門誌：“インバイテッド・トーク：きわめて強力なオーディオ検索アルゴリズム（ＩｎｖｉｔｅｄＴａｌｋ：ＡｎＩｎｄｕｓｔｒｉａｌ− ＳｔｒｅｎｇｔｈＡｕｄｉｏＳｅａｒｃｈＡｌｇｏｒｉｔｈｍ）”、エーブリー・ワング（ＡｖｅｒｙＷａｎｇ）（ＩＳＭＩＲ２００３年、２００３年１０月ボルチモア）に、ノイズが強く歪みが大きい環境でオーディオ信号および音楽信号を認識するシステムおよび方法が開示されている。第１のステップは、参照オーディオオブジェクトのハッシュ値と、まだ特定していないオーディオオブジェクトの現在求めたハッシュ値との間に一致があるかどうか検証することである。この場合、対応付けられた時間オフセット、すなわち、オーディオオブジェクトの開始から、まだ特定していないオーディオオブジェクトにおけるハッシュ値の開始からと、参照オーディオオブジェクト内のハッシュ値の時間オフセットとの間の相対距離が、参照オーディオオブジェクトの個別に識別して格納される。全入力ハッシュ値が処理された場合は、いわゆる走査位相を開始する。この位相の間は、参照オーディオオブジェクト時間毎にいくつの時間オフセット対が連続して一致しているか検証する。いくつかの数を検出した場合は、対応する参照オーディオオブジェクトＩＤが想定される。時間オフセット対は、時間的に連続すると考えられている。すなわち、一方の時間オフセットをＸ座標として、もう一方をＹ座標とする２次元散布で直線を形成する場合は、時間的に互いに対応付けられていると考えられる。

専門誌“コンテンツ識別を行うための確実なオーディオハッシング法（ＲｏｂｕｓｔＡｕｄｉｏＨａｓｈｉｎｇｆｏｒＣｏｎｔｅｎｔＩｄｅｎｔｉｆｉｃａｔｉｏｎ）”Ｊ．ハイツマ（Ｈａｉｔｓｍａ）、Ｔ．カルカー（Ｋａｌｋｅｒ）、Ｊ．オーストフェーン（Ｏｏｓｔｖｅｅｎ）、（コンテンツベースマルチメディア指数予稿集２００１年、ｕｒｌ：ｃｉｔｅｓｅｅｒ．ｉｓｔ．ｐｓｕ．ｅｄｕ／ｈａｉｔｓｍａ０１ｒｏｂｕｓｔ．ｈｔｍｌ）には、コンテンツ識別を行う確実なオーディオハッシングシステムが記載されている。コンテンツベースの音楽認識を行うために、ビットシーケンスをオーディオ信号からの部分に対応付ける、ハッシュ関数が用いられる。すなわち、人間のオーディオ認知と音響的に同じオーディオ信号が、同じビットシーケンスについても生成するようになっている。ハッシュ値を計算するには、はじめにオーディオ信号をウインドウ化して変換して、最終的に、変換結果を、対数帯域幅を有する周波数帯域に分割する。これらの周波数帯域には、時間差および周波数方向の異なる符号が求められる。符号から得られるビットシーケンスは、ハッシュ値を構成する。３秒間のオーディオ信号に対し、１つのハッシュ値が必ず計算される。このような部分に対して検証する参照ハッシュ値とテストハッシュ値との間のハミング距離が閾値ｓを下回る場合は、一致を想定して、テスト部分が参照成分に対応付けられる。

オーディオ素材の認識を行うには、通常、オーディオ信号を小さな長さ単位Δｔに分割する。これらの個別の単位は、少なくとも特定の時間分解能を有するために、それぞれ別々に分析される。

これにより、問題がいくつか生じる。

認識したオーディオ信号の明白な正確なステートメントをより長い時間区分にすることができるように、オーディオ信号の小さな分析時間区分の認識結果をまとめる必要がある。

連続オーディオデータストリームを分析するには、あるオーディオ成分から別のオーディオ成分への遷移、すなわち、楽曲Ａから楽曲Ｂへの遷移を、正確に検出する必要がある。

楽曲にいくつかのバージョンがあるというような、別の状況がある。例えば、始まりが同じだが、ある時間が経つと違ってくるというものである。例えば、歌の短いバージョンまたは長いバージョンについて考えられる。あるいは、このような状況もある。例えば、同じ歌に基づく楽曲がはじめは異なっているが、中程では全く同じになり、２つの楽曲のうちの少なくとも１つの終わりに向かって、それぞれ違っていくというものである。権利所有者への著作権使用料の支払いについては、例えば、歌の長いバージョンには高く課金するかどうか、通常のバージョンには中くらいの課金を行うかどうか、すでに歌の短いバージョンが再生されている場合は、少なく課金するかどうかが重要である場合もある。この場合は、いくつかの歌のバージョンを確実に区別するために考える必要がある。

上記の従来技術が不十分であるのは、個別の認識結果を単純にまとめた場合に、検出エラーとなる点である。特に、いくつかの異なるオーディオオブジェクトから連続オーディオデータストリームを分析するのかどうか、どのように分析するのか、様々なオーディオオブジェクト間の対応する遷移をどのように検出するのかについて、情報が全く与えられていない場合である。また、特に、参照ハッシュ値に関して後者の従来技術の曖昧さが述べられているが、明白な候補を決定する問題に対して、明確な答えが与えられていない。オーディオオブジェクトがハッシュ値に対して特定したと考えられる場合、特定したオーディオオブジェクトに適応するかどうか、直接に次のハッシュ値に対して検証しているだけである。特定しなかった場合は、全参照オーディオオブジェクトを含む新規の検索がある。

特に、ある歌と同じ歌との間の異なるバージョンを区別するために、周知の従来技術では答えが与えられていない。

国際公開第０２／１１１２３号 "インバイテッド・トーク：きわめて強力なオーディオ検索アルゴリズム（ＩｎｖｉｔｅｄＴａｌｋ：ＡｎＩｎｄｕｓｔｒｉａｌ− ＳｔｒｅｎｇｔｈＡｕｄｉｏＳｅａｒｃｈＡｌｇｏｒｉｔｈｍ）"、エーブリー・ワング（ＡｖｅｒｙＷａｎｇ）（ＩＳＭＩＲ２００３年、２００３年１０月ボルチモア） "コンテンツ識別を行うための確実なオーディオハッシング法（ＲｏｂｕｓｔＡｕｄｉｏＨａｓｈｉｎｇｆｏｒＣｏｎｔｅｎｔＩｄｅｎｔｉｆｉｃａｔｉｏｎ）"Ｊ．ハイツマ（Ｈａｉｔｓｍａ）、Ｔ．カルカー（Ｋａｌｋｅｒ）、Ｊ．オーストフェーン（Ｏｏｓｔｖｅｅｎ）、（コンテンツベースマルチメディア指数予稿集２００１年、ｕｒｌ：ｃｉｔｅｓｅｅｒ．ｉｓｔ．ｐｓｕ．ｅｄｕ／ｈａｉｔｓｍａ０１ｒｏｂｕｓｔ．ｈｔｍｌ）

本発明の目的は、確実に情報信号を分析する概念を提供することである。

この目的は、請求項１に記載の情報記号を分析する装置、請求項１９に記載の情報信号を分析する方法、または請求項２０に記載のコンピュータプログラムにより、達成される。

本発明は、個別の認識結果自体について考えるばかりでなく、時間の特定の期間について考えることにより、信頼できるコンテンツ識別を達成できるという知見に基づいている。例えば、フィンガープリントのシーケンスに対して、個別の認識結果シーケンスにおいて認識するために用いることができる、多量の情報がある。本発明によれば、情報信号のブロックのシーケンスを表すフィンガープリントのシーケンスに基づいて、少なくとも２つの異なる仮定（ｈｙｐｏｔｈｅｓｉｓ）を行う。第１の仮定がブロックのシーケンスと第１の情報エンティティとの関連付けに対する想定で、第２の仮定がブロックのシーケンスと第２の情報エンティティとの関連付けに対する想定である。検証結果に基づいて、情報信号に関するステートメントを生成するように、少なくとも２つの仮定は検証され評価される。例えば、ステートメントは、ブロックのシーケンスが、最も見込みのある仮定を有する情報エンティティを表すことを判定することにより表すこともできる。あるいはまたさらに、情報単位が、フィンガープリントのシーケンスの時間的に最後のフィンガープリントとして、最も見込みのある仮定を与えるフィンガープリントで終わるというステートメントにすることもできる。

好ましくは、フィンガープリントに対して少なくとも２つの異なる識別結果が存在するように、そして、２つの異なる識別結果それぞれに対して信頼性測定値が存在するように、仮定が検証される。この信頼性測定値は、名数により表すこともできる。しかしながら、例えば、２つの識別結果を提供する事実により、信頼性の１／２が通知され、この数字を明示的に与えないというように、この信頼性測定値を、自動的に与えることもできる。

ある仮定が他の仮定よりも可能性があるかどうか評価するために、個別の数の時間的に連続するブロックに対して個別の認識信頼性測定値が合成されることは都合がよい。好ましくはこの合成は、加算からなる。次に、最も高い合成信頼性測定値を提供する仮定が、最も見込みのある仮定として評価される。

本発明の好適な実施の形態では、多くの参照フィンガープリントが識別結果と関連付けて個別にファイルされるフィンガープリントデータベースは、連続識別結果を提供する手段として用いられる。次に、情報信号ブロックから生成したフィンガープリントを用いて、データベース検索を行って分析して、データベース内のテストフィンガープリントと一致する参照フィンガープリントを探す。データベース設計によるが、一番良いヒットだけが、すなわち、最小距離測定値のヒットだけが、データベース検索結果としての識別結果として出力される。また、好適には、データベースは、定性的なヒット結果ばかりでなく、定量的なヒット結果についても提供するので、関連付けられた信頼性測定値を有する、多数の考えられるヒットが出力される。例えば、２０％等の、ある閾値以上の信頼性測定値を有する全ヒットが、データベースから出力される。

本発明の好適な実施の形態では、まだ仮定が立てられていない新規の識別結果が存在する場合は、新規の仮定が開始される。この手順は、次に、信頼できるとわかったある仮定がすでに終了しているかどうか、過去に向けて検証し、次に、この仮定を最も見込みのある仮定として特定するために、ある数のブロックに対して行われる。

本発明の利点は、確実に動作して、特に伝送エラーに関してエラーが発生しない概念である点である。例えば、１つのブロックに基づいて決定を行うことはないが、仮定を立てることにより、連続ブロックのシーケンスをそのまま検討され評価されるので、短い時間の伝送外乱および／または通常発生するノイズにより、全認識プロセスが無駄になることがない。

また、本発明の概念は、始めから終わりまで、例えばコマーシャル等の、伝送品質の記録を自動的に生成する。ある仮定を最も見込みのある仮定として特定した場合でも、すなわち、あるコマーシャルについて判定した場合でも、信頼性測定値に基づいて、コマーシャル内の品質むらを追跡することができる。さらに、特に、情報エンティティの例としてのコマーシャルの全時間の連続性を追跡できて、記録できるようなやり方である。特に、コマーシャルの一部を連続して繰り返さなかったけれども、全コマーシャルを、コマーシャルの開始からコマーシャルの終了まで、連続して送信したという点についてである。

本発明の別の利点は、仮定を立てることにより、情報エンティティの終了と、情報エンティティの開始とを、自動的に検出することである。これは、一般に、情報エンティティとの関連付けが明白であるという事実に基づいている。このことは、ある時点でいくつかの情報エンティティを一緒に再生することは考えられないが、少なくとも膨大な数のプログラムコンテンツに対して、ある時点では、情報エンティティが１つだけ情報信号に含まれていることを意味している。前の情報エンティティが終了して、新規の情報エンティティが開始するある時点で、仮定検証と、仮定検証に基づく仮定の評価とが自動的に生成される。これは、仮定で保たれているブロック関連付けに基づいている。従って、フィンガープリントのシーケンスはやはりブロックのシーケンスと対応しており、識別結果のシーケンスはフィンガープリントのシーケンスと対応しているので、時間に対して、仮定は、元の情報信号と明白に関連付けられている。

本発明の概念の別の利点は、情報エンティティが、同じ歌の短いバージョンまたは長いバージョンといった、部分的に全く同じオーディオ素材を有している場合でも、２つの仮定が“ドロー”となる状況が発生しないことである。

以下に、添付の図面を参照にして、本発明の好適な実施の形態について詳細に説明する。
図１は、本発明の装置のブロック回路図である。
図２は、図１に示す実施の形態に使用可能なデータベースのブロック回路図である。
図３は、時間間隔のシーケンスと、関連付けられた仮定とに対するフィンガープリントシーケンスの出力結果を概略表現で示す。
図４ａないし図４ｃは、次の適用例の一例のシナリオを示す。
図５ａないし図５ｄは、様々な間違った評価を概略で示す。
図６は、本発明の好適な実施の形態のブロック回路図である。
図７ａないし図７ｃは、図４ａないし図４ｃに示す出力シナリオに対する本発明の概念の機能を示す。
図８は、複数のブロックの情報単位、情報単位ブロックおよび情報エンティティを有する情報信号を概略で示す。
図９は、フィンガープリントデータベースを蓄積する周知のシナリオである。
図１０は、図９に基づいてロードしたフィンガープリントデータベースにより、オーディオ識別を行う周知のシナリオである。

図１は、本発明の好適な実施の形態に基づく、情報信号を分析する装置のブロック回路図を示す。典型的な情報信号を、図８に８００で示す。情報信号８００は、時間的に連続する情報単位のブロックのシーケンス８０２からなる。個別の情報単位８０４は、例えば、オーディオサンプル、映像画素または映像変換係数等である。

複数のブロックのシーケンス８０２は常に、まとまって情報エンティティ８０６を生成する。図８に示す実施の形態では、第１の６つのブロックは第１の情報エンティティを形成し、ブロック７、８、９、１０は第２の情報エンティティを形成している。例えば、ブロック１１からｎの第３の情報エンティティは、図８に示す。情報エンティティは、例えば、楽曲、会話、映像画像、または例えば、映像画像の一部とすることができる。しかしながら、情報信号がテキストデータも含む場合は、情報エンティティは、テキスト、または例えば、テキストのページであってもよい。

図１に示す装置は、フィンガープリントのシーケンスＦＡ１、ＦＡ２、ＦＡ３、．．．、ＦＡｉを用いて動作するように設計される。実施例によるが分析の前にフィンガープリントを生成していたり、情報信号で供給されている場合は、フィンガープリントは、連続するブロック８０２のシーケンスから生成したり、または、例えばメモリから検索したりする。例えば、周知のオーディオ符号化から、ブロック生成のためのブロック重複技術についても用いることもできることに留意されたい。

いずれの場合でも、情報信号を分析するための装置は、ブロックのシーケンスに対するフィンガープリントのシーケンスを用いて動作するので、ブロックのシーケンス８０２は、フィンガープリントのシーケンスＦＡ１、ＦＡ２、ＦＡ３、ＦＡ４、．．．、ＦＡｉにより表される。フィンガープリントのシーケンスは、連続するフィンガープリントに識別結果を提供する手段１２におけるフィンガープリント入力に供給される。連続識別結果を提供する手段１２は、連続識別結果を連続するフィンガープリントに供給する。識別結果は、情報単位のブロックを所定の情報エンティティと関連付けを表す。例えば、歌が約６つのブロックに対応する時間長を有すると仮定すると、６つのブロックは、異なるフィンガープリントを提供するが、全これらの６つのブロックは、提供する手段１２において、所定の情報エンティティの一部、すなわち上述の歌を通知される。

実施例によるが、供給手段１２は、１つのフィンガープリントに対し、１つ以上の識別結果を供給する。１つ以上の識別結果を、識別結果から連続するフィンガープリントに対し、少なくとも２つの仮定を立てる手段１４に供給する。特に、第１の仮定はブロックのシーケンスと第１の情報エンティティとの関連付けに対する想定を表し、第２の仮定は、ブロックのシーケンスと第２の情報エンティティとの関連付けに対する想定である。様々な仮定Ｈ１、Ｈ２、．．．は、仮定を検証する手段１６に供給される。手段１６を、調整可能な検証アルゴリズムにより動作して、検証結果出力１８で最終的に検証結果を提供するために設計される。

次に、ライン１８のこの検証結果は、情報信号に関するステートメントを生成する手段２０に供給される。情報信号に関するステートメントを生成する手段２０は、検証結果に基づいて情報信号に関する情報を出力するために設計され、そして、様々な設定を有している。

検証結果１８に基づいて、情報信号に関するステートメントを生成することは、全設定で共通である。情報信号に関する様々なステートメントの例は、最も見込みのある仮定を有する情報エンティティを表すブロックのシーケンスを確定することにより表される。別のステートメントは、時間的に最後のフィンガープリントとして、最も見込みのある仮定を与えるフィンガープリントで終わっている情報エンティティである。手段２０が生成する別のステートメントは、情報エンティティそれ自体が、情報信号内にあるかどうかを判定することにより表される。

特に、手段１４、１６および２０により行う本発明の後処理、すなわち少なくとも２つの仮定を立てて、仮定を検証して、検証結果に基づいてステートメントを生成することにより、従って、未知の、すなわち分析される、情報信号における楽曲を特定できるばかりでなく、楽曲自体の特定とは別に、第１の楽曲の終わりの検出、すなわち第１の情報エンティティの終わりを検出して、第１の情報エンティティに続く、第２の情報エンティティの開始を検出することも可能になる。

しかしながら、コマーシャル監視について、本発明の後処理概念は、ある情報が情報信号内にあるかどうか、検出する可能性を提供することもできる。ここで、情報信号から取得したフィンガープリントが、１つのフィンガープリントセットだけと比較される。すなわち、所定の情報エンティティを表すフィンガープリントセット、すなわち特定のコマーシャルを表すフィンガープリントセットである。従って、情報エンティティの特定、または情報エンティティの終わりの検出および続く情報エンティティの開始の検出という意味では、このステートメントを第１に考えないが、特定の情報エンティティが、分析する未知の情報信号内にあるかどうか検出することにより表される。

図２は、連続するフィンガープリントに対する識別結果を提供する手段１２の特別な好適な実施例を示す。好適な実施の形態では、手段１２は、データベースを含む。図２に示すように、様々な参照フィンガープリントＦＡｒｊを、識別結果、すなわちＩＤｋに関連付けて全て格納している。好適な実施の形態では、フィンガープリントＦＡｉが次々に処理される。すなわち、時間に連続して処理される。従ってフィンガープリントＦＡｉは、入力ライン２４を介してデータベースに格納される。次に、データベースでは、格納したフィンガープリントＦＡｉが全参照フィンガープリントＦＡｒｊと比較される。好適な実施の形態では、データベースは、入力フィンガープリントが格納した参照フィンガープリントかどうかを判定する定性的なデータベースではないが、データベースは、出力結果の距離測定値および／または信頼性測定値を生成することができる定量データベースである。図２に示す好適な実施の形態では、従って、データベース２２は、例えば、結果表２８に示す結果をその出力２６で供給する。従って、データベースは、例えば、フィンガープリントＦＡｉが識別結果ＩＤｘを示すこと、すなわち例えば、６０％の信頼性ＺＶ１を有する楽曲ｘを示すことを表す。しかしながら、同時に、データベースは、フィンガープリントＦＡｉが、５０％の信頼性を有する識別結果ＩＤｙを有する楽曲を示していることを表す。最終的に、データベースは、フィンガープリントＦＡｉが、例えば、４０％の信頼性測定値ＺＶ３を有する識別ＩＤｚのさらに別の楽曲を示していることを出力こともできる。

実施例によるが、全結果表２８を、図１の少なくとも２つの仮定を立てる手段１４に供給することもできる。あるいは、しかしながら、データベース２２自体がすでに決定を行い、最も見込みのある値だけを必ず供給することもできる。すなわちこの場合では、結果ＩＤｘを、少なくとも２つの仮定を立てる手段１４に供給する。この場合は、信頼性測定値ＺＶ１は、必ずしも、少なくとも２つの仮定を立てる手段１４に供給しなくても良い。その代わりに、さらに、信頼性測定値ＺＶ１の通信が省かれても良い。あるいは、しかしながら、信頼性測定値も同時に提供する、識別結果を供給手段１２が、信頼性測定値ＺＶ１を対応する順序でブロックと関連付けて、少なくとも２つの仮定を立てる手段１４ばかりでなく、仮定を検証する手段１６にも供給するように設計される。それは、この手段１６は、信頼性測定値だけを、例えば、最も見込みのある仮定を求める必要があるからである。

ＩＤ１等の識別結果は、いくつかの関連付けられたフィンガープリントＦＡｒ１１、ＦＡｒ１２、ＦＡｒ１３を有し、ＩＤ１により特定した楽曲がいくつかのブロックを有していることを示していることが、図２のデータベース２２から解る。しかしながら、実施例によるが、識別ＩＤ１を有する楽曲の１つの長いフィンガープリントも格納しているけれども、これは、個別のフィンガープリントＦＡｒ１１、ＦＡｒ１２、ＦＡｒ１３等から構成される。次にデータベースは、長い格納した参照フィンガープリントの一部が、ライン２４で供給された参照フィンガープリントＦＡｉと一致するかどうか判定するために、ブロック長に依存し、通常長いフィンガープリントよりもずっと短い、供給されたフィンガープリントＦＡｉにデータベースの各行の長いフィンガープリントと相関をとる。ここで、いわゆる、すなわち単純な相関結果の定量評価値により、自動的に信頼性測定値となる。

さらに、図２に基づいて、最後の２つの列についてすでに参照が行われている。識別結果ＩＤ１０８およびＩＤ１０９を示している。図４ａで説明するように、ＩＤ１０８は楽曲の長いバージョンを示し、図４ｂで説明するように、ＩＤ１０９は同じ楽曲の短いバージョンを特定する。

すでに述べたように、データベース２２、すなわち、連続するフィンガープリントに識別結果を提供する手段１２のこの実施例が、最も見込みのある識別結果を常に供給するように設計される。あるいは、しかしながら、データベース２２を、例えば、５％の閾値等の最小閾値よりも高い可能性を有する識別結果だけを必ず供給するように構成することもできる。これにより、表の列数は、フィンガープリントとフィンガープリントとの間で異なるようになる。しかしながら、またあるいは、データベース２２を、各入力フィンガープリントＦＡｉに対して、“トップテン”等の、特定の数の最も見込みのある候補、すなわち最も見込みのある候補の１０個を、少なくとも２つの仮定を立てる手段１４に供給するために実施することもできる。

次に、図３に基づいて、データベース２２の実施例について説明する。データベースは、３つの最も見込みのある識別結果を関連付けられた信頼性値とともに必ず手段１４に供給して、仮定を立てる。すなわち、いわゆる、“トップスリー”の実施例を含んでいる。図３は、フィンガープリントＦＡ１に対して、実際には、４０％、６０％または３０％の個別の信頼性測定値の識別結果ＩＤ１、ＩＤ２、ＩＤ３が提供される。時間間隔Δｔ２に対して、すなわち、フィンガープリントＦＡ２に対して、今度は異なる個別の可能性、すなわち、異なる個別の信頼性測定値を有する識別結果ＩＤ１、ＩＤ２、ＩＤ３を供給する。これは、図３に一例として示されている。この手順は、全入力フィンガープリントＦＡ１〜ＦＡ８に対して行われる。図１に示す、少なくとも２つの仮定を立てる手段１４が、これらの識別結果に供給される。少なくとも２つの仮定を立てる手段１４が、識別結果供給手段１２から新規の識別結果に供給された場合はいつも、新規の仮定から開始するために設計される。図３からわかるように、仮定Ｈ１、Ｈ２、Ｈ３は、時間Δｔ１で、ＩＤ１、ＩＤ２およびＩＤ３からそれぞれ開始され、時間間隔Δｔ７で、新規の仮定はＩＤ１０８、ＩＤ１０９、ＩＤ４から開始され、さらに、仮定Ｈ４は、時間間隔Δｔ８でＩＤ８から開始される。それは、ＩＤ８はこの例では初めて現れたものであるという事実による。

従って、少なくとも２つの仮定を立てる手段１４は、各新規のフィンガープリントそれぞれに対して新規の識別結果があるかどうか確認し、新規の仮定を開始して、時間区分Δｔｉに、その前に開始した仮定に対して“トップスリー”または“トップｘ”に成分が含まれている場合は、可能性は少ないが、開始したばかりの仮定に識別結果を供給しているが、その前に開始した仮定を継続するようにする。この手順は、特定の時間継続される。次に、例えば、所定の時間で、またはユーザによるトリガなどで、図３に示す場合は、仮定を検証する手段１６は、今まで作成した仮定を検証して、例えば、仮定Ｈ１、Ｈ２、Ｈ３の信頼性測定値時間区分Δｔ１〜Δｔ６の間に加える。少なくとも２つの仮定を検証する手段１６は次に、楽曲が最も見込みのあるＩＤ１であると判定する。すなわち、仮定時間区分Δｔ１〜Δｔ６の間では、仮定Ｈ１が最も見込みがある仮定と判定する。なぜなら信頼性測定値は４２０の値に達し、第２の仮定は２３０の信頼性測定値で、第３の仮定は、１３５の信頼性測定値にしかなっていないからである。

図３に図示する場合、３つの仮定はすべて同時に開始して、３つの仮定はすべて同時に終了する。しかしながら、必ずしもこのようにする必要はない。例えば、すなわち、仮定Ｈ１を、例えば時間Δｔ５で早めに終了することもできる。この場合は、ＩＤ１の信頼性測定値が９０低減されるので、３３０の値になる。この場合は、それにもかかわらず、仮定Ｈ１が最も見込みのある仮定となる。仮定Ｈ２はより長い時間区分の間存在するが、全体としては可能性が低い。さらに、図３に示す例では、仮定Ｈ２よりもΔｔ１だけ可能性が低いという事実にもかかわらず、最終的には仮定Ｈ１が“獲得”する。

さらに、図３は、例えば、伝送チャネルの外乱等の何らかの理由で、ＩＤ１ではなく、ＩＤ２およびＩＤ３だけが、時間間隔Δｔ４で妥当な可能性のあることにより供給されるというように、仮定に“穴”があることも示している。その場合は、ＩＤ１の信頼性が値を６０低減される必要がある。これにより、その代わり、４２０に代わって全信頼性が３６０になるので、この場合もはやはり、仮定Ｈ１が最も見込みのある仮定となる。

従って、後処理に基づく仮定を処理し、一方ではシーケンスを考え、他方では個別のフィンガープリント識別の信頼性測定値を処理する本発明の概念は、伝送エラーについて、データベースの問題が多い機能に対しても、または、楽曲、映像画像、テキスト等の、ある情報エンティティにとってはあまり差がないフィンガープリントに対しても、格段に確実に動作することが、上記のシナリオからわかる。

好適な実施の形態では、仮定は格納したプロトコル（図３のＨ１、Ｈ２、Ｈ３、．．．）で、好ましくは格納したリスト形式である。一方では仮定を立てる情報エンティティ表示を含み、他方ではフィンガープリントの表示および／または仮定を立てた情報単位のブロックを含む。好ましくは、プロトコルはまた、ブロックおよび／またはフィンガープリントの信頼性測定値を含む。

さらに、図３は、第１の情報エンティティが時間区分Δｔ１〜Δｔ６に渡っていて、新規のエンティティがΔｔ７から開始することを示している。これは特に、３つの仮定はすべて同時に終了すること、および／または、仮定Ｈ３が、例えば、Δｔ７を含んでいて、可能性が非常に高い全く異なる識別値を有している場合は、すなわち、ＩＤ１０８およびＩＤ１０９が９０および８５の可能性を有するので、前の時間区分から、“明らかに可能性があるもの”と“置換”するという事実から解る。

図３の終わりには、一例としての様々なステートメントが示されている。すなわち、時間区分Δｔ１〜Δｔ６の情報エンティティがＩＤ１で特定した楽曲である。あるいは、Δｔ６とΔｔ７との間で情報エンティティ変更があったというステートメントとすることもできる。あるいは、しかしながら、ＩＤ１で特定した楽曲が情報信号に含まれているというステートメントとすることもできる。

次に、はじめに、本発明との関連で、どのように有利に利用できるか、図９および１０に基づいて、データベースシステムの概要についてさらに説明する。従って、本発明は、音楽等のオーディオ素材を識別するシステムに基づいている。システムは、２つの動作段階について解っている。図９に基づいて説明するトレーニング段階では、認識システムは、後ほど特定する楽曲を学習する。図１０で説明する識別段階では、前に学習したオーディオ楽曲が認識される。

楽曲、または任意の他のオーディオ信号についても特定するために、フィンガープリントまたは署名とも呼ぶ、コンパクトで一意のデータセットが抽出される。この抽出は、ブロック特徴抽出９００で行われる。トレーニングまたは学習段階では、このようなフィンガープリントが、フィンガープリントデータベース９０２に格納した周知のオーディオオブジェクトのセットから等生成される。好ましくは、特徴抽出手段９００が、ＳＦＭの特徴を特徴として用いるように設計する。ＳＦＭは、“スペクトル平坦性測定（ＳｐｅｃｔｒａｌＦｌａｔｎｅｓｓＭｅａｓｕｒｅ）”を意味する。もちろん、他のフィンガープリント生成システムおよび／または特徴抽出結果を用いることもできる。しかしながら、純音性に関連する特徴と、特にＳＦＭの特徴とは、特に一方では区別性が特に良好で、特に他方では非常にコンパクトであることが解っている。このために、各ブロックははじめに時間／周波数変換に支配され、次に、次の式に基づいて、時間／周波数変換から生成した値を用いて、ブロックごとにＳＦＭを計算する。

この式では、Ｘ（ｎ）は、インデックスｎのスペクトル成分の絶対値の２乗を表している。Ｎは、スペクトルのスペクトル係数の総数である。式からわかるように、ＳＦＭ測定値は、スペクトル成分の幾何平均とスペクトル成分の算術平均との商に等しい。幾何平均は常に、算術平均より少ないか、最大でも等しいことが周知であるので、ＳＦＭは０から１の範囲の値である。この意味で、０に近い値は、音色信号を示し、１に近い値は、平坦なスペクトル曲線を有するノイズ状信号を示している。Ｘ（ｎ）がすべて全く同じで、完全な無調、すなわちノイズ状またはパルス状信号に対応する場合は、算術平均および幾何平均が等しいことに留意されたい。しかしながら、極端な場合において、１つのスペクトル成分だけが非常に高い値を有するが、他のスペクトル成分Ｘ（ｎ）は非常に小さな値で、ＳＦＭ測定値は０に近い値で、まさに音色の信号を示している。

ＳＦＭの概念とともにフィンガープリントを生成する他の特徴抽出概念については、例えば、国際公開第０３／００７１８５号に開示されている。

図１０に示す識別段階において、通常はトレーニング段階にあるような同じ特徴抽出９００がある。特に、時間区分Δｔの間にオーディオ入力でオーディオオブジェクトから抽出したフィンガープリントが、比較器９０４により、フィンガープリントデータベース９０２の参照フィンガープリントと比較される。図１で説明したように、比較器は通常、識別結果供給手段１２に含まれている。次に、特定の基準に基づいて一致を検出した場合において、時間区分Δｔの認識結果が得られる。従って、特定の基準に基づいて一致が検出された場合は、未知のオーディオオブジェクトからの未知のフィンガープリントと部分とが、データベースの参照素材、すなわち、様々な信頼性値を有する識別結果ＩＤｉ、ＩＤｉ＋１、．．．、のリストと関連付けられていることになる。

本発明によれば、これで、入力での未知のオーディオオブジェクトが、参照データベースの参照オーディオオブジェクトの１つ、すなわち、時間Δｔだけに正確に関連付けられているばかりでなく、入力でデータストリームの割り込みが発生せずに、連続動作が行える。本発明によれば、参照データベースからの正確なオーディオオブジェクトを伴ったオーディオオブジェクトからの様々な部分は、実行される。従って、切れ目のないシーケンス、すなわち、特定したオーディオオブジェクトプロトコルが入力で得られる。

次に、図４ａないし図５ｄに基づいて、連続オーディオデータストリームの連続分析に関する特定の問題が説明される。オーディオオブジェクトを、長さ部分Δｔｘ、すなわち、個別のブロックに分割して、オーディオデータストリーム部分に対して、データベースの参照成分を関連付けできるようにする。オーディオデータストリームの個別の部分のこの関連付けが、前後の関連付けに対して必ずしも明白になるとは限らないし、前後の関連付けに対してだけ明白になるということもあることが考えられる。個別の関連付けを行って、次の段階でこれらを合成する場合は、障害のある認識プロトコルとなる。

図４ａは、図４ａに示す長いフィンガープリントにより示されている、楽曲ＸＹの長いバージョンを示す。識別結果ＩＤ１０８は、このフィンガープリントと関連付けられる。図４ｂは、同じ楽曲ＸＹの短いバージョンに対するものを示す。従って、ＩＤ１０９は、楽曲ＸＹの短いバージョンを示し、ＩＤ１０８は、この楽曲の長いバージョンを示す。短いバージョンは長いバージョンよりも短いので、図４ｂのフィンガープリントも、図４ａのフィンガープリントよりも短い。２つのブロックを上下に示しているので、楽曲、つまりフィンガープリントＩＤ１０８およびＩＤ１０９は、全く同じオーディオ素材および／または全く同じフィンガープリントデータを含んでいる。従って、ＩＤ１０９は、ＩＤ１０８のサブセットである。従って、図４ｃは、時間区分Δｔ０に開始部分がある長いバージョンを示している。これは、短いバージョンには存在しない。ｔ１からｔ５の間の中央の部分では、長いバージョンと短いバージョンとは全く同じであるが、長いバージョンは、時間５ｔからｔ７の間のＩＤ１０９によって特定した短いバージョンにはない音楽部分をやはり有している。

次に、図５ａないし図５ｄに基づいて、単純な組み合わせの場合、すなわち仮定を立てることがない場合に、個別のＩＤを用いて障害のある認識プロトコルがどのように発生するか説明する。楽曲ＩＤ１０８が、時間ｔ０にシステムの入力で受信されると仮定する。さらに、時間区分Δｔｘに対して図５ａの成分を特定するためにデータベースを動作させる。２つのＩＤ１０８およびＩＤ１０９を時間区分Δｔ１〜Δｔ４で出力することができるが、図５ａにおける識別は基本的に正確であることに留意されたい。最終的に、これらの領域における識別結果の判定が曖昧であるのは、データベースが、外乱のない状態で、２つのＩＤ１０９およびＩＤ１０８を出力して、計算差に基づいて、例えば、最も見込みのある値を必ず選択するので、特定のノイズのために、２つの識別結果ＩＤ１０８またはＩＤ１０９の一方が、いつも若干高い信頼性測定値を有する。従って、図５ｂの認識プロトコルでは、ＩＤ１０９で特定した楽曲が全く再生されず、ＩＤ１０８で特定した楽曲だけが再生されるという点で、間違った特定が行われる。

次に、図５ｃおよび図５ｄは、さらに別の例を示す。データベースが、図５ｃに示す状況を出力すると仮定する。認識プロトコルにおいては、やはり間違った組み合わせが与えられている。すなわち、ＩＤ１０９は、Ｔ１およびＴ５の間に存在したが、もちろん、これが真実ではない。その代わりに、楽曲の長いバージョン、すなわちＩＤ１０８が、ｔ０〜ｔ７に再生された場合である。

また、別の間違った認識プロトコルが考えられる。時間区分Δｔｘのオーディオデータストリーム部分に対する個別の認識の曖昧さにより、これが生成される。

本発明によれば、図６に示す全体的な概念を説明する。実施例によるが、手段９００、９０４、９０２をまとめて、時間区分Δｔｘに対して得た認識結果、すなわち、図１の手段１２の出力信号に対して得た認識結果に対して、図１の少なくとも２つの仮定を立てる手段と、仮定を検証する手段とに基本的に対応する後処理を行う。次に、後処理を用いて、すなわち、後処理で得た検証結果を用いて、認識シーケンスおよび／または認識プロトコルの形式において、情報信号に関するステートメントが生成される。

後処理段では、時間区分Δｔｘに対して特定した参照オーディオオブジェクトから、時間区分Δｔｘ＋ｉに対する任意の他の参照オーディオオブジェクトへの遷移の可能性が等しいと仮定する。この仮定から、はじめは並行であると考えられる様々な仮定が、個別の認識から隣接するオーディオ部分に対して立てられる。個別の認識があるものと同じ参照オーディオ信号に関連していて、時間的に連続して接続している場合には、仮定を立てるために個別の認識を合成されることに留意されたい。認識プロトコルは、時間的な進行を考慮する、個別の最も見込みのある仮定の組み合わせから生じる。次に、好適なアルゴリズムについて詳細に説明する。

はじめに、認識した参照オーディオオブジェクトそれぞれに対して、時間区分Δｔｘに対する個別の認識から（ｘ＝Ｎ、Ｎ＋１、Ｎ＋２、．．．、ｔＮは、個別の仮定に対する開始時間である）、隣接するオーディオ部分に対する様々な仮定が立てられる。

個別の認識が時間的に連続する場合は、仮定を立てるために、個別の認識が合成される。

時間連続性は、既存の仮定を継続するのかどうか、または新規の仮定を開始するのかどうかを判定する別の要素である。例えば、楽曲のあるギターのソロ演奏が、例えば、楽曲の短いバージョンのはじめの方に位置し、楽曲の長いバージョンでは中程に位置するというシナリオについて考える。

好適な実施の形態では、データベース、すなわち、識別結果を提供する手段が、フィンガープリント識別ばかりでなく、長さと、データベースの（長い）フィンガープリントの一部と一致する入力（短い）フィンガープリントとを有するデータベースの識別フィンガープリントから得た時間値も出力する。

上記のシナリオでは、データベースが、ギターのソロ演奏（短いバージョンおよび長いバージョン）に対して、２つの異なる時間インデックスを有する２つのＩＤ結果を提供することになる。短いバージョンのＩＤ結果の時間インデックスは、長いバージョンの時間インデックスよりも短い。時間インデックスに基づいて、仮定を立てる手段は、（仮定において、時間インデックスと最後の時間インデックスとの間に時間連続性がある場合は、）、仮定を継続することができ、あるいは現在得た時間指数と仮定の最後の時間インデックスとに連続性がない場合は、新規の仮定を開始することができる。

次の成分が、設定する時間距離Ｔａよりも時間的に長い距離を有する場合は、または次の成分が時間的に前のものである場合は、参照オーディオオブジェクトに対する各時間の非連続性により、新規の仮定を立てる。

仮定を検証するために、確信測定値の加算、すなわち、個別の認識の信頼性値および／または妥当性の測定値を、各仮定に対して立てる。

次に、時間区分Δｔ０で開始する、最も高い確信測定値を有する仮定が正しいかどうか評価され、認識プロトコルに採用される。第１の仮定に続く次の時間区分に対して、最も高い確信測定値を有する仮定が正しいかどうかもう一度評価され、認識プロトコル等に採用される。

従って、上記の例に対し、結果は、図７ａないし図７ｃに基づいて示す処理となる。時間区分Δｔ０に対して、例えば、図２に示すデータベースでは、１つの識別結果、すなわち、閾値を超える可能性および／または信頼性測定値を有するＩＤ１０８だけを提供する。時間間隔Δｔ１においては、すなわち、時間間隔Δｔ１に渡る情報単位のブロックに対して、データベースは、閾値を超える信頼性測定値を有する２つの結果を提供する。時間ｔ２から時間ｔ５の間のブロックに対しては、２つの結果が得られる。時間区分ｔ５からｔ７に対しては、データベースは次に、やはり閾値を超える信頼性測定値有する１つの識別結果だけを提供する。

少なくとも２つの仮定を立てる手段１４（図１）を、識別結果ＩＤ１０８に基づいて、時間ｔ０で第１の仮定を開始して、新規の識別結果ＩＤ１０９に基づいて、時間ｔ１で新規の仮定、すなわち仮定Ｈ２を開始するように設計する。

次に、時間ｔ７の後の時間では、個別の認識の確信測定値に対して関数を計算するために、次に、仮定Ｈ１およびＨ２を有する図７ａに示す仮定状況が考えられる。すなわち、各仮定について、ｘＨ１およびｘＨ２に対して計算する。仮定の検証に基づいて、図７ｂに示すように行う。

ｔ１からｔ５の間で、識別結果ＩＤ１０８およびＩＤ１０９が同じ可能性で発生すると仮定すると、図７ａに示す実施の形態では、第１の仮定Ｈ１だけが得られる。なぜなら、これは、仮定は、ｔ１とｔ５との間の仮定Ｈ２と同じ可能性があるが、仮定Ｈ１は、時間区分Δｔ０と、時間区分Δｔ５と時間区分Δｔ６に適用するからである。すなわち、仮定Ｈ２には与えられない個別の認識に対する信頼性測定値を提供することになるからである。認識プロトコルには、このことは、図７ｃに示す正確な場合、すなわち、ＩＤ１０８で指定される楽曲が、時間ｔ０から時間ｔ７まで再生されたことを意味する。

従って、ｔ０から開始し、仮定Ｈ１が選択される。なぜなら、ｔ７まで、確信測定値を超える仮定がないからである。仮定Ｈ２は捨てられる。原則として、最も見込みのあるものとして選択した別の仮定と並行して存在する仮定を全て捨てることができる。

従って、本発明によれば、オーディオ入力で実際に再生したシーケンス、この例での成分、すなわち、ＩＤ１０８を、正確に記録する。

仮定の終了を判定するための様々な可能性があることに留意されたい。例えば、仮定状況とは無関係に、例えば、ある最小の長さの一時停止がある場合は、例えば、オーディオ信号自体から、情報エンティティの終わりを判定することもできる。しかしながら、２つの情報エンティティの間にフェーディングがあったり、２つの楽曲が短時間で続いているので認識可能な一時停止を見つけられなかったりする場合は、この基準はうまく働かない。これは、以前に立てた仮定に基づいて、情報エンティティの終わりを判定する好適な例である。例えば、ある最小閾値を超える信頼性値をまったく持たない２つ以上のブロックを手段１４に供給して、仮定を立てる場合に、仮定は終了すると考えるように、このことを行うこともできる。あるいは、例えば、図３に示す場合では、あるブロックの終わりで、最も高い値を有する仮定があるかどうか確認するために、すなわち、ある数、例えば、２０ブロック過ぎて、仮定が残っていて、他の仮定より“引けをとっている”かどうか、確認するために、過去に向かうある時間で、仮定の値を所定の数のブロックに加算するために単に開始される。図３に示す例では、このことは、情報エンティティがＩＤ１またはＩＤ２またはＩＤ３である仮定を、時間区分Δｔ７およびΔｔ８で連続することを意味している。しかしながら、これが、ＩＤ１の認識を何ら変更するものではないのは、新規の仮定、すなわち、ＩＤ１０８、ＩＤ１０９、ＩＤ４およびＩＤ８の仮定が、基本的に後から開始するからで、すなわち、Δｔ７およびΔｔ８それ以降のブロックに対して開始するので、もっと後でこのような高い合成信頼性値をとるか、あるいはとらないことになる。

上述の説明から、仮定の終了は、必ずしも能動的に判定する必要がないことが解る。しかし、この終了を過去の分析から、すなわち開始した仮定から、自動的に得ても良い。好ましくは、有意の閾値を超える信頼性測定値を有する新規の識別結果が得られた場合はいつも、新規の仮定が開始される。次に、ある時間区分の間に仮定が残っているかどうか確認するために、ある時間からさかのぼって検証が行われる。このために、仮定の終了を明示的に判定する必要がないのは、自動に結果が出るからである。

条件によるが、本発明の方法を、ハードウェアまたはソフトウェアで実施することができる。本発明の方法を実行するプログラム可能コンピュータシステムと協働する、デジタル記憶媒体、特に、電気的に読み取り可能な制御信号を格納したフロッピー（登録商標）ディスクまたはＣＤを用いることにより、実施することができる。一般に、本発明は、機械読み取り可能キャリアに格納したプログラムコードを有するコンピュータプログラム製品である。コンピュータプログラム製品をコンピュータ上で実行する場合は、プログラムコードにより本発明の方法を実行する。換言すれば、従って、本発明の方法は、コンピュータプログラムをコンピュータ上で実行する場合は、少なくとも１つの本発明の方法を実行するプログラムコードを有するコンピュータプログラムである。

本発明の装置のブロック回路図である。図１に示す実施の形態に使用可能なデータベースのブロック回路図である。連続する時間間隔と、関連付けられた仮定とに対するフィンガープリントシーケンスの出力結果を概略表現で示す。図４ａないし図４ｃは、次の適用例の一例のシナリオを示す。図５ａないし図５ｄは、様々な間違った評価を概略で示す。本発明の好適な実施の形態のブロック回路図である。図７ａないし図７ｃは、図４ａないし図４ｃに示す出力シナリオに対する本発明の概念の機能を示す。複数のブロックの情報単位、情報単位ブロックおよび情報エンティティを有する情報信号を概略で示す。フィンガープリントデータベースを蓄積する周知のシナリオである。図９に基づいてロードしたフィンガープリントデータベースにより、オーディオ識別を行う周知のシナリオである。

Claims

情報単位のブロック（８０４）のシーケンス（８０２）を有する情報信号を、前記ブロックのシーケンスに対するフィンガープリントのシーケンス（ＦＡｉ）を用いて分析する装置であって、前記情報信号は、オーディオ情報単位を構成し、前記ブロックのシーケンスの複数の連続するブロックが情報エンティティ（８０６）を表し、そして、前記ブロックのシーケンスが各ブロックに対する前記フィンガープリントのシーケンスにより表される、装置であって、
識別結果と関連して保存される様々な参照フィンガープリントを有する定量データベースを用いて、連続するフィンガープリントに対する連続する識別結果（ＩＤｉ）を供給する手段（１２）であって、識別結果は、情報単位のブロックと所定の情報エンティティとの関連付けを表し、および各識別結果に対する前記情報単位のブロックと所定の情報エンティティとの関連付けの信頼性を定量的に表している数値の信頼性測定値を供給する手段であって、前記供給する手段は、情報単位の第１のブロックに対して第１の識別結果を生成して、そして、情報単位の前記第１のブロックの後の情報単位のブロックに対して、前記第１の識別結果と異なる第２の識別結果を生成するように設計された、前記供給する手段（１２）と、
前記連続するフィンガープリントに対して、前記連続する識別結果から少なくとも２つの仮定を立てる手段（１４）であって、第１の仮定は、前記ブロックのシーケンスを第１の情報エンティティに関連付けた想定で、第２の仮定は、前記ブロックのシーケンスを第２の情報エンティティに関連付けた想定で、ここで、前記立てる手段（１４）は、前記供給する手段（１２）によって供給された前記第１の識別結果に応答して、前記第１の仮定を開始し、または前記フィンガープリントのシーケンスにおける前のフィンガープリントに対する第１の識別結果に応答して前記立てる手段（１４）によって開始された既存の第１の仮定を継続し、そして、前記供給する手段（１２）によって供給された前記第２の識別結果に応答して、前記第２の仮定を開始し、または前記フィンガープリントのシーケンスにおける前のフィンガープリントに対する第２の識別結果に応答して前記仮定を立てる手段（１４）によって開始された既存の第２の仮定を継続するように設計された、前記仮定を立てる手段（１４）と、
前記仮定の前記数値の信頼性測定値を数値的に合成することにより、検証結果（１８）を得るために、前記少なくとも２つの仮定を検証する手段（１６）と、
前記検証結果に基づいて、前記情報信号に関するステートメントを生成する手段（２０）とを備える装置。
ステートメント生成する前記手段（２０）が、前記ブロックのシーケンスが最も見込みのある仮定を有する情報エンティティを表しているか、または、情報エンティティが、時間的に最後のものとしての前記最も見込みのある仮定を与える前記フィンガープリントで終わっているか、または、前記情報信号に情報エンティティが存在するかしないか、を判定するように設計される、請求項１に記載の装置。
前記供給する手段（１２）は、１つのフィンガープリントに対して２つの異なる識別結果を生成するように設計される、請求項１または請求項２のいずれかに記載の装置。
前記供給する手段（１２）は、前記２つの異なる識別結果のそれぞれに対して前記数値の信頼性測定値を生成するように設計される、請求項３に記載の装置。
前記仮定を立てる手段（１４）は、前記２つの識別結果のうちの第１の識別結果を前記第１の仮定と関連付けて、前記２つの識別結果のうちの第２の識別結果を前記第２の仮定と関連付けるように設計される、請求項３または請求項４に記載の装置。
前記検証する手段（１６）は、前記検証結果として、数値的により高い合成信頼性測定値を有する前記仮定を求めるように設計される、請求項２ないし請求項５のいずれかに記載の装置。
前記仮定を立てる手段（１４）は、所定の数のブロックに対して、前記供給する手段（１２）が、所定の数の前記情報単位のブロックと前記第１の情報エンティティ、または前記第２の情報エンティティとの関連付けを表す識別結果のいずれも得られない場合には、前記第１の仮定を終了するか、または第２の仮定を終了するように設計される、請求項１ないし請求項６のいずれかに記載の装置。
前記仮定を立てる手段（１４）は、前記情報信号において検出したイベントが発生した場合は、前記第１の仮定または第２の仮定を終了するように設計される、請求項１ないし請求項７のいずれかに記載の装置。
イベント検出器が備えられ、前記イベントとして閾値レベルを下回る情報単位のブロック内のエネルギレベルを検出する、請求項８に記載の装置。
前記供給する手段（１２）は、
前記フィンガープリントのシーケンスの各フィンガープリントに対して、最も信頼できる識別結果に関連付けられた数値の信頼性測定値を有さないか、もしくは有する前記最も高い信頼性を示す前記数値の信頼性測定値を有する前記識別結果だけを出力し、または、
前記フィンガープリントのシーケンスの各フィンガープリントに対して、各識別結果に対して関連付けられた数値の信頼性測定値を有する所定の数の最も高い信頼性を示す数値の信頼性測定値を有する前記所定の数の識別結果を出力し、または、
前記フィンガープリントのシーケンスの各フィンガープリントに対して、各識別結果に対して関連付けられた前記数値の信頼性測定値を有するか、もしくは有さない、閾値を超える数値の信頼性測定値を有する前記識別結果だけを出力するように設計される、請求項１ないし請求項９のいずれかに記載の装置。
前記検証する手段（１６）は、合成された数値の信頼性測定値を得るために仮定に属する明確なまたは潜在する数値の信頼性測定値を加算するように設計される、請求項１ないし請求項１０のいずれかに記載の装置。
前記供給する手段（１２）は、
前記定量データベースの検索を行って、そのような場合、参照情報エンティティのフィンガープリントが前記フィンガープリントのシーケンスの前記フィンガープリントを用いて格納され、
距離測定値は、各識別結果に対する前記数値の信頼性測定値の表示であり、各識別結果に対する多数の識別結果および前記距離測定値を供給するように設計される、請求項１ないし請求項１１のいずれかに記載の装置。
前記識別結果に対する距離測定値が閾値距離よりも短い距離を示す閾値と関係を有する場合は、前記供給する手段（１２）は、仮定がまだ立てられていない各識別結果に対して新規の仮定を開始するように設計される、請求項１２に記載の装置。
前記検証する手段（１６）は、判定に応答して、前記最も見込みのある仮定を立てられる前記フィンガープリントに対して立てた、前記連続するフィンガープリントに対する全仮定を終了するように設計される、請求項１ないし請求項１３のいずれかに記載の装置。
前記情報信号がオーディオ信号を含み、前記情報単位が前記時間または周波数領域内のオーディオサンプルで、情報エンティティが楽曲、オーディオシーケンスまたはノイズ部分を含む、請求項１ないし請求項１４のいずれかに記載の装置。
ブロックに対するフィンガープリントは、時間／周波数変換により、および／または前記時間／周波数変換の結果に対するスペクトル平坦性測定値の計算により求められる、請求項１ないし請求項１５のいずれかに記載の装置。
フィンガープリントが、前記ブロックのデータ量よりも小さいデータ量を有するように、ブロックに対する前記フィンガープリントが生成される、請求項１ないし請求項１６のいずれかに記載の装置。
前記供給する手段（１２）は、識別結果の他に、前記識別結果に対する次の時間インデックスも供給するように識別結果が設計され、
前記仮定を立てる手段（１４）を、前記仮定の現在の時間インデックスと前記次の時間インデックスとの間に連続性がある場合は仮定を継続して、または、前記仮定の現在の時間インデックスと前記次の時間インデックスとの間に連続性がない場合は仮定を開始するように設計される、請求項１ないし請求項１７のいずれかに記載の装置。
情報単位のブロック（８０４）のシーケンス（８０２）を有する情報信号を、前記ブロックのシーケンスにフィンガープリントのシーケンス（ＦＡｉ）を用いて分析する方法であって、前記情報信号は、オーディオ情報単位を構成し、前記ブロックのシーケンスの複数の連続するブロックが情報エンティティ（８０６）を表し、そして、前記ブロックのシーケンスが各ブロックに対する前記フィンガープリントのシーケンスにより表される、方法であって、
識別結果と関連して保存される様々な参照フィンガープリントを有する定量データベースを用いて、連続するフィンガープリントに対する連続する識別結果（ＩＤｉ）を供給する（１２）ステップであって、識別結果は、情報単位のブロックと所定の情報エンティティとの関連付けを表し、および、各識別結果に対する数値の信頼性測定値を供給するステップであって、前記数値の信頼性測定値は、前記情報単位のブロックと前記所定の情報エンティティとの関連付けの信頼性を定量的に表し、情報単位の第１のブロックに対して第１の識別結果を生成して、そして、情報単位の前記第１のブロックの後の情報単位のブロックに対して、前記第１の識別結果と異なる第２の識別結果を生成する、供給する（１２）ステップと、
前記連続するフィンガープリントに対して、前記識別結果から少なくとも２つの仮定を立てる（１４）ステップであって、第１の仮定は、前記ブロックのシーケンスを第１の情報エンティティに関連付けた想定で、第２の仮定は、前記ブロックのシーケンスを第２の情報エンティティに関連付けた想定で、ここで、前記仮定を立てるステップは、
前記第１の識別結果に応答して、前記第１の仮定を開始し、または前記フィンガープリントのシーケンスにおける前のファインがープリントに対する第１の識別結果に応答して開始された前記既存の第１の仮定を継続し、前記第２の識別結果に応答して、前記第２の仮定を開始し、または前記フィンガープリントのシーケンスにおける前のフィンガープリントに対する第２の識別結果に応答して、前記既存の第２の仮定を継続するステップを含む、前記仮定を立てるステップ（１４）と、
前記仮定の前記数値の信頼性測定値を数値的に合成することにより、前記少なくとも２つの仮定を検証して、検証結果（１８）を得るステップ（１６）と、
前記検証結果に基づいて、前記情報信号に関するステートメントを生成するステップ（２０）とを含む方法。
コンピュータ上で動作する場合は、請求項１９に記載の方法を実施する機械読み取り可能命令を有するコンピュータプログラム。