JP4989480B2

JP4989480B2 - 付加データとベースデータとを同期させるための装置及び方法

Info

Publication number: JP4989480B2
Application number: JP2007532848A
Authority: JP
Inventors: ユールゲンヘレ; オリヴァーヘルムート; アンドレーアスヘルツァー; シュテファンガヤーズベアガー
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2004-09-27
Filing date: 2005-09-23
Publication date: 2012-08-01
Anticipated expiration: 2025-09-23
Also published as: HK1106824A1; US20110282471A1; US20070285815A1; JP2008514972A; CA2778889C; CA2778889A1; EP1794564A1; CA2581094A1; WO2006034825A1; CN101027543A; EP1794564B1; CA2581094C; US8332059B2; DE102004046746B4; CN100498259C; DE102004046746A1; ES2537302T3

Description

本発明は、マルチメディアデータ処理に関し、特に、音声ベースデータに付加音声情報を時間同期させて追加することに関する。

現在開発されている、また今後開発される技術によって、音声信号または映像信号のますます効率的な保存が可能になるだけでなく、マルチチャネル技術の採用といった機能拡張による音声的、または映像的な楽しみ方の充実も可能となっている。このような拡張部を、新しいファイルフォーマットにファイルし、例えば、モノラル、またはステレオ信号などの音声ベースデータと一緒に使えるようにユーザに提供することができる。拡張データは、例えば、付加マルチチャネル情報とすることができる。すなわち、音声ベースデータ及び拡張データの双方を共通のデータストリームまたはファイルに包含するのである。

また一方では、音声信号のステレオバージョンを既に所有しているユーザが、拡張部、すなわちマルチチャネル構成音だけを得て、それを後で自分の持つ音声信号、またはその対応ファイルに加えるということに関心が持たれている。このような変形版には、特に、利点がある。少なくとも、ユーザが既に持っているデータは、不必要に送信する必要はない。特に、サービスプロバイダが、ネットワークを介して送信したデータの量に基づいてサービス料金を請求するような状況では、ユーザは、ネットワーク経由で受信するデータをできるだけ少なくすることで、大きなコストダウンができる。

例えば、あるユーザが、ある音楽作品のステレオＣＤ、つまり左及び右のチャネルを所有している。５．１技術のようなマルチチャネル技術の出現とともに、そのユーザは、自分のステレオＣＤを、新しいサラウンドシステムで再生するだけでなく、そのステレオＣＤの５チャネルバージョンを持ち、それを再生したいと望むこともあるだろう。このような場合、既に左及び右チャネルを持っているユーザには、左サラウンドチャネル、右サラウンドチャネル及びセンタチャネルだけを送信してもらえば足りるということになる。前記のような送信されたデータ量の分が請求される状況では、５チャネルの代わりに３チャネルだけを送信することで、ユーザはそれだけで、４０％のデータ量を節約できることになる。

加えて、拡張データの追加購入は、おそらく、ユーザにとってさらに経済的に魅力がある、というのは、既に持っている音声ベースデータに対しては、再度支払う必要がないからである。そのため、今までにステレオＣＤを販売したレコード会社は、自社の顧客に対し追加サービス、音楽作品の全５チャネルバージョンより低価格の「サラウンド」拡張版を提供することができよう。

また一方、既存のデータに対し付加データを用いることは、他のさまざまな用途において非常に関心を持たれることになるだろう。特に、拡張可能な音声／映像データの分野では、付加データをより高次の拡張レイヤに置くことができる。技術的に知られた拡張性の概念では、例えば８ｋＨｚまでといった、音楽作品の特定の帯域の音声信号を包含する基本レイヤがある。こういったデータに対しては、例えば、８ｋＨｚの最高帯域までだけを再生できる再生装置を全面的に活用する。こういった再生装置は、例えば、特にブロードバンド用のスピーカを備えていない再生装置を使うことができよう。同様に、この信号を下方にも帯域制限された信号とし、その再生装置も、例えば、５００Ｈｚを下回る音を再生できないものにすることができよう。次に、高次の拡張レイヤを、２０Ｈｚ〜５００Ｈｚの帯域及び８ｋＨｚ〜１６ｋＨｚといった下方向に欠けている帯域及び／または上方向に欠けている帯域とすることができよう。次いで、ブロードバンドの音声信号を得るためには、この第一拡張レイヤは、５００Ｈｚから８ｋＨｚの間の帯域を持つ元の音声信号と組み合わされる必要があり、これをブロードバンド用の再生装置で再生することができる。また、プロバイダによって、この特別版である拡張レイヤを十分良好に提供し、ユーザにとって、その第一拡張レイヤが、ブロードバンド版音声信号よりも安いコストになるようにすることができよう、というのも、ユーザは、「狭バンド」音声信号は、既に以前に購入済みだからである。

映像データにおいては、更なる拡張データが構成され、基本レイヤは、特定の解像度の映像シーケンスを提供し、次の拡張レイヤは、より高い解像度自体を既に持った映像データを提供するか、あるいは、元の映像データと組み合わせられてより高い解像度の映像シーケンスを生成する。こういった状況は、低解像度の映像再生装置しか持たなかったユーザが、後に解像度の高い映像再生装置を取得し、「以前の」ビデオを自分の新しい装置が備える高解像度で見たいと欲した場合に生じる。

さらなる拡張データには、いわゆるＳＢＲ（スペクトル帯域複製（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ））データもある。公知のＳＢＲ技術では、低い出力データ速度に起因して、エンコーダは、バンド制限された信号しか生成せず、せいぜい、例えば、４または６ｋＨｚが最大カットオフ周波数である。欠損した高い周波数帯のデータは、音声サンプルまたは音声スペクトル値として符号化はされず、パラメトリックデータとして符号化されるだけである。ＳＢＲ技術では、これは、スペクトルエンベロープ上のパラメトリックデータ情報である。そこで、ＳＢＲデコーダは、使えるバンドからより高いバンド中にスペクトル値をコピーして、その高バンドの緻密なスペクトル構成を設定し、一方、スペクトルエンベロープである粗なスペクトル構成は、パラメトリック付加データによって設定される。従って、実施態様いかんによって、ユーザは、送信されたＳＢＲパラメータによるか、あるいは高帯域だけを含む時間的音声サンプルによるかして、自分が既に持っている帯域の限定された、符号化または符号化されていないデータを、ブロードバンドに増補することができよう。

左、右、及びセンタといった少なくとも３つの再生チャネルを持つマルチチャネル音声再生技術において、ＢＣＣの呼び名としても知られるパラメトリック技術は、ますます多く採用されている。ＢＣＣ技術では、パラメトリック追加データを使って、原理的には、サラウンド再生技術における５チャネルのような任意の数の再生チャネルを生成するために、一つまたは二つのベースチャネルが用いられる。ここで、パラメトリックデータとは、チャネル間レベル差（ＩＣＬＤ）、チャネル間時間差、またはチャネル間コヒーレンス（ＩＣＣ）情報である。

これらパラメトリックデータは、これら２つのベースチャネルのさまざまな重み付け／組み合わせにより、再生チャネルを生成するために、送信されるステレオのベースチャネルに適用される。

また、こういった状況において、ステレオ２チャネルの音楽作品を既に所有しているユーザは、これは当然ながら非常に低いデータ率しか必要としないパラメータデータを「追加購入」することに関心を持つことであろう。だがこの場合、受信者は、ＢＣＣパラメトリックデータを取り扱うためのデコーダを備えなければならない。但し、これに代えて、サービスプロバイダは、このようなパラメトリックデータから左サラウンド、右サラウンド、及びセンタチャネルの３つのチャネル、ならびに、パラメトリックデータによって同時に使う２つのステレオベースチャネルの（理想的）バージョンを生成し、これらを「復号化」された形式、すなわち、パラメトリックデータではない音声データとして、受信者に送信することもできよう。

パラメトリックデータを用いる類似の符号化技法には、「インテンシティステレオ符号化」の呼び名でも知られるものがある。

特に、既にパラメトリックデータから生成済みの時間連続的拡張データを、時間連続的な音声ベースデータに時間同期させて加える場合、例えば、一連の実際的問題が生じ、アプリケーションを成功させるためにこれを解決する必要がある。

全ての拡張データに対し、さまざまな大量の音声ベースデータのうち、既に設計され、生成され、または計算された相手データとともに正確に進行することを確実にすべきである。特に、これは、固有の相手方を識別しまたは関連付けることのできるベースとなる固有の標識をベースデータそれ自体が持たないという事実があるため、難しくなっている。一例として、音楽作品Ｘのマルチチャネル付加データＤＸは、この音楽作品Ｘにだけ付加されるべきで、別の音楽作品Ｙ、または同じ音楽作品Ｙのリミックス「ＸＲ」に付加されるべきではない。参考までに、特にポップロック音楽の分野では、ある作品に対し必ずいくつかのバージョンがあり、これらは、ＣＤに対してはロングバージョン、シングルに対してはショートバージョン、ライブバージョン、またはいわゆる再版もしくはリミックスバージョンなどである。また、クラシック音楽の分野でも、作品がさまざまなオーケストラによりレコードされたという事実だけが理由で、同一の作品に対し多数の演奏がある。このように、言うまでもないが、オーケストラＸによるクラシック作品のレコーディングのマルチチャネル付加データは、当然、オーケストラＹによる同じクラッシク作品のレコーディングとマッチさせないようにする。

別の問題は、拡張データを、音声ベースデータに対し、正確に時間連続的に照合した形式で提供する必要があり、その逆も必要だということである。これができていなければ、ほとんどの場合、ユーザにとって拡張データは無用なものとなる。音楽作品のマルチチャネル付加情報が、ステレオベースデータに対し少しでもオフセットを持っていれば、明らかに可聴なアーティファクトが、すぐに音楽印象において生じ、そして、ユーザは、その音楽作品の不完全なマルチチャネルバージョンを持っただけのことになり、極端な場合には、そのバージョンは使いものにならない。

また、短縮された形式における音声データもあり得る。例えば、サービスプロバイダが既存のステレオ信号のマルチチャネル拡張を提供することになっている場合、すなわち、マルチチャネル付加データを生成することになっている場合、音楽作品のマルチチャネルバージョンにアクセスができることになるだろう。また、マルチチャネル付加情報を求めているそのサービスのユーザは、音楽作品のバージョン、すなわち、ステレオバージョンを所有する。そのエンドユーザが、例えば、ＣＤに読み込みを行った際、創作中または処理中に、音声データの開始部または終端部を、意図的または無意識に削除してしまった場合、サービスプロバイダのマルチチャネルバージョンと、エンドユーザのステレオバージョンとは、もはや同じ範囲をカバーしていない。マルチチャネル付加データを加える場合には、このような状況を、それが生ずる範囲において考慮に入れる必要がある。

また、音声データが時間的に引き伸ばされるかまたは縮められている、すなわち、より速くまたはより遅く録音／再生された場合、これも付加の際の問題につながる。この場合、正確な縮小／延長ファクタを算定し、拡張データに対しても同じようなやり方を適用しなければならないことになるだろう。例えば、エンドユーザが、ラジオから自分のステレオバージョンを録音した場合、それを元より３％まで速くまたは遅く再生するようなことがあろう。同様に、エンドユーザが、音楽作品の延長／伸長または縮小／短縮バージョンを有する場合、これもマルチチャネル付加データに関連する。

さらにまた、前記すべてのデータが、音声ベース信号がその原型のままで残っているのかどうか、あるいは、例えば、送信での音声符号化によって、ある程度の範囲内で変形されてしまっているのかを判断することもできなければならない。エンドユーザのステレオバージョンが、アナログカセットレコーダからダビングされている場合、これによって音楽作品の品質は変化（劣化）している。マルチチャネル付加データの追加は、これらの（より困難な）条件下においても、原則として機能する必要がある。

なお、例えば、音楽作品の開始部または終端部のデータの削除は、「短縮（ｓｈｏｒｔｅｎｉｎｇ）」と理解される。これに対する英語の用語は、「クロッピング」である。一方、「縮小」は、例えば、より高速な再生による時間軸のリニアな変形とも理解され、これはデジタル技術の「リサンプリング」すなわち変更されたサンプリング周期への変換に相当する。同様に、「伸長（ｌｅｎｇｔｈｅｎｉｎｇ）」はデータの追加をいい、「延長（ｓｔｒｅｔｃｈｉｎｇ）」は、逆方向への時間軸のリニアな変形、すなわち、よりスローな再生を意味する。

技術の点から、特に、シネマ映像技術の点から、時間同期法が知られており、ここでは、通常、タイムスタンプとも言われる時間コード標準が使われる。映像構成要素及び音声構成要素双方の中の時間コードを正確に照合させることによって、画像の流れに照合した音の再生が確実になる。このような時間コードによって、音声及び映像データ、ならびにマルチメディアデータの同期化が可能になる。しかし、通常、こういったものは消費者用の音声フォーマットでは存在しない。作品のステレオバージョンを包含するＣＤは、一意的に標準化された、または一般に認められたどんな時間コードも内蔵していない。また、通常の映像シーケンスを付加情報で「増強」して、より高い解像度の映像シーケンスを得るための、一般に認められた時間同期技法もない。

従って、音声及び映像双方の領域におけるベース情報への付加情報の追加は、ＢＣＣエンコーダが、マルチチャネルバージョンに沿ってＢＣＣパラメータを生成する場合のように、ベースデータと付加データとの双方が、「一体成型」で生成される場合であって、任意のベースチャネルを使うのでなく、このマルチチャネルバージョンから導き出されたベースチャネルだけに基づいてＢＣＣ復号化が可能な場合にだけ、うまく追加を実施できる。こういった状況は、拡張可能エンコーダまたはＳＢＲシステムについても同様である。これらについても「一体成型から」作成される、というのは、ＳＢＲ付加データまたはより高次の拡張レイヤは、正確に一つの基本レイヤまたは一つの低帯域信号だけに照合し、それがデータ生成において既に利用可能となっていなければならないからである。任意のベースデータについては、そういったものをユーザが保有し、既にユーザによって意識的にまたは無意識に操作されている（音質劣化）ことがあるが、「一体成型」の原則に従う考え方では既に定義上からもうまくいかない。
たとえば、“時間スケール音声の確固たる識別（ＲｏｂｕｓｔＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＴｉｍｅ−ＳｃａｌｅＡｕｄｉｏ）”、ＡＥＳ第２５回カンファレンス、ロンドン／イギリス、２００４年７月において、ロルフバルデリおよびフランククルスらは、ブロードキャストトランスミッターによって音声信号の確固たる識別の方法を示している。
たとえば、同じ音楽作品が異なるスピードで再生されるという事実によって、そのような信号の識別が困難にさせる。著者らは、スケールされた音声信号の識別、すなわち、たとえば、異なるスピードで再生された音楽作品の識別も考慮する識別方法を提案する。

本発明の目的は、付加データとベースデータとを同期させるための実際的で確固たる構想を提供することである。

この目的は、請求項１の同期化のための装置、請求項１２のサーバ装置、請求項１３のクライアント装置、請求項１６の同期化の方法、請求項１７のサーバの方法、請求項１８のクライアントの方法、または請求項１９のコンピュータプログラムによって達成される。

本発明は、付加データ及びベースデータの同期化は、既に音声識別に採用されているフィンガープリント技術を使えばうまく実施できるという発見に基づいている。ユーザが、拡張データが欲しい自分のベースデータのフィンガープリントを提示すれば、その付加情報を提供するプロバイダは、それがどのような音声ベースデータの作品か、すなわちアーティストは誰で、レコードされたのは何年かなどを一意的に識別することができる。

特に、現在のフィンガープリント技術は十分に発展していて、音質劣化または欠損符号によるひずみに対して強固であり、また、スタジオバージョンのフィンガープリントから、または、例えば短縮されたシングルバージョンのフィンガープリントから、ライブバージョンのフィンガープリントを独自に区別できる機能を有する。

作品の識別を行った後、これはユーザとプロバイダとの間での明瞭なテキストの交信でも実施できるが、多くの場合この手続きは面倒である、検証データの検証フィンガープリントが得られ、これはその検証データの検証時刻を表している。ここで、現代のフィンガープリント技術の特性、通常、作品の識別を提供するばかりでなく作品に関する特定の時刻をも示すという特性を利用する。技術的には、検証データのフィンガープリントが時間データの検証時刻を表している場合、こういったフィンガープリントを「内部時間スケール付きフィンガープリント」ともいう。

参照データを、例えばユーザが持っているベースデータとすることができ、参照データの中の参照時刻による参照時刻情報が特定され、この特定は、通常のフィンガープリント処理技法による検証フィンガープリントを使って行われる。通常、このような「フィンガープリント照合システム」は、検証フィンガープリントを、なんらかの方法で、望ましくは検証フィンガープリントと参照データからの参照フィンガープリントとの間で最大限の照合が得られるまで、時系列的参照データを通して検証フィンガープリントをシフトさせる。次いで、検証フィンガープリントに対し最適な照合が得られた参照データの時刻は、検証フィンガープリントが参照した検証時刻と照合する。このようにして、検証データとベースデータとが同期する箇所に到達する。

この参照時刻情報と、検証時刻による検証時刻情報とに基づいて、付加データまたはベースデータの、だが望ましくは付加データだけの操作が、操作済みデータが得るために、最終的に行われて、この操作は、その操作済みデータに従ってデータ情報の同期された再生が可能となるように付加データまたはベースデータが操作されて行われる。

その操作の一つの形は、望ましくは、ベースデータの短縮を可能にする開始部オフセットまたは終端部オフセットを設定することにある。別の操作は、ベースデータまたは付加データ、だが望ましくは付加データを縮小／延長するための縮小／延長ファクタを取り入れて、これを正確に（延長／縮小されている）ベースデータに照合させることにある。

これによって、付加データ及びベースデータによる単一の音声ファイルが作成されているか、あるいは、例えば、操作済み付加データは独自単独のファイル中にファイルされ、ベースデータに対する固有の時間参照値とともに備えられ、ベースデータに合わせ「調整されている」かどうかに関係なく、すべての情報、すなわち付加データ中の情報及びベースデータ中の情報両方の時間同期された再生が達成される。

前者のケースでは、操作済みデータには、完全に新しく作成された音声ファイルが含まれる一方、後者のケースの操作済みデータは、例えば、操作された付加データだけであり、ユーザ側のベースデータは特にサンプルされていない。この第二の方式は、ユーザが、自分にとって貴重なものであり、愛着を深めてきた自分のベースデータを確保したいと欲している場合、それがまったく手付かずのまま残るという利点がある。但し、この状況では、ユーザは、再生、すなわちスピーカからの出力に先立って、２つのデータストリームを融合させる再生装置を必要とするという不利点がある。

ベースデータと付加データとを単一のファイルに直接的に融合させるユーザには、この必要はなく、そのまま通常の再生装置で再生することができる。

また、当然ながら、第一のケースでも、ユーザは自分の音声ベースデータのコピーを保持しながら、さらにベースデータと付加データとを単一のファイルに融合し、ステレオバージョンと５．１バージョンを共に利用することができる。

なお、付加データは必ずしも時間的サンプルである必要はなく、パラメータデータであってもよい。付加データがパラメータデータである場合、付加データの操作は、ベースデータを参照する固有の同期化情報に関連する付加データに対するものとなり、この同期化情報を、例えば、時間コードまたは前記のようなフィンガープリントとして、マルチチャネルデコーダが、同期化情報とともに提供されるＢＣＣパラメータ、またはパラメータから導き出された時間離散的デジタル音声信号を使って、対象ベースデータに正確に連関するマルチチャネルの再形成を行えるようにすることができる。特に、例えば、ブロックの中に存在するパラメータの操作についても、ユーザが意図的にまたは無意識に行うことのあるベースデータの開始部または終端部の短縮を説明するために、付加データの開始部または終端部のパラメータ情報を切り取りすることにある。

なお、こういった操作は、ユーザが自分で音声／映像をレコーディングしていたり、自分のＣＤ／ＤＶＤからコピーしていたりする場合、特に多く行われる、というのは、この両方のケースでは、不可能とまで言わないまでも、スタジオが発行したままの作品の開始部と終端部を正確に「把握する」のは困難だからである。特に、作品がフェードアウトしている場合に、こういったことはその作品の終端部で問題になる。また、特にラジオからのレコーディングでは、作品の開始部を見つけるのが難しい。このような場合、作品が休符で開始されたのかその休符がどのくらいの長さかを一意的に判断することができず、また、作品が実際は最初のドラムビートで開始されたかどうかの判断もユーザには難しい、というのは、ユーザは、このドラムビートと同時点でレコードボタンを正確に押さなければならないことになるからである。

また、現実状況として、縮小／延長の問題は非常に多い、というのは、完全に同一な速度で作動するアナログの再生装置／レコーディング装置は、ほとんど存在しないからである。また、デジタル再生装置／レコーディング装置では、同期された再生は、究極的には再生装置のクロック発振器に依存するので、多かれ少なかれ正確さに、特に市販品の低価格エンドに近くなるほどその品質は低くなる。一方で、経済的にもっとも関心を持たれているマーケットセグメントは、まさに市販品の低価格エンドである、というのは、もともとこの価格帯で販売される装置の数が一番多いからである。

以下に、添付の図面を参照しながら、本発明の好適な実施形態を詳しく説明する。
図１は、付加データ及びベースデータを同期させるための本発明の概念のブロック回路図である。
図２は、好適な応用事例のフローチャートで、クライアントがサーバと交信している。
図３は、フィンガープリントシステムの概略図で、フィンガープリントは、フィンガープリントの元となったデータの時刻を参照する。
図４は、検証フィンガープリントを使った参照時刻情報の算定の概略図である。
図５は、本発明の好適な実施形態による、２つの検証フィンガープリントを使った、縮小／延長の判定の略図である。
図６は、本発明の好適な実施形態による、付加データを操作するステップの概観図である。
図７は、本発明の好適な実施形態において必要なサーバデータベースの概略図である。
図８は、本発明の好適な実施形態による、サーバとクライアントとの間の交信のシステム図である。

図１に基づいて、付加データとベースデータとを同期させるための本発明の装置を参照する前に、まず、フィンガープリントが導き出されたデータの、ある時刻またはいくつかの時刻を参照するそのフィンガープリント、すなわち、図３に基づいて、内部時間スケールを持つフィンガープリントについて説明する。言い換えれば、図３中のフィンガープリント３０は、それが導き出された図３中の音声信号３１の時間スケールを備えている。それゆえ、音声信号３１の時間構造は、フィンガープリント３０の時間構造と一致する。そこでフィンガープリント３０の時間的進行は、音声信号３１の時間的進行に合致する。

図３に示す例において、音声信号３１は、一連の時間セグメント１，２，３、…、７を含む。各時間セグメントから、知られたフィンガープリント法によって個別のサブフィンガープリントＳＦＰｉが算出される。このように、サブフィンガープリントＳＦＴ１は、音声信号のセグメント１に対応し、例えば、ＳＦＴ６は、音声信号のセグメント６に対応する。一般に、サブフィンガープリントＳＦＰｉは、音声信号のセグメントｉに結びついている。

典型的フィンガープリント計算方式は、音声信号の窓処理に基づいて、例えば、音声信号のセグメント１を「切り出す」ようになっており、これは、例えば、２０４８の数の時間サンプルで構成されている。そこで、例えば、２０４８のスペクトル係数を含むスペクトル表現を得るために、音声信号の第一セグメントを表す時間サンプルブロックの、スペクトル領域への変換が行われる。データを削減するために、次いで、各スペクトルバンドからさまざまな特性を抽出するために、スペクトル係数のいろいろなバンドへの分類が行われる。こういった特性は、例えば、音調指標、音の強さの指標、いわゆるＭｅｌ周波数スペクトル係数、音声スペクトルエンベロープ、または、バンド内のスペクトル係数の平均値や分散といった他の統計的数値、もしくはより高次の統計的モーメントである。フィンガープリント技術によっては、次いで、最後に音声信号の第一セグメントのサブフィンガープリントＳＦＰ１を得るために、これら「生特性」のさらなる処理が行われる。

このとき、音声信号の第一セグメントのサブフィンガープリントＳＦＰ１は、第一セグメント自体がもたらすデータの量と比べて低減された量のデータを有する。その一方で、サブフィンガープリントＳＦＰ１は、第一セグメントの特徴である。また、ＳＥＰ１には、このセグメントの識別のために必要なセグメント情報が包含されている。これに関して、識別とは、このサブフィンガープリントＳＦＰ１に基づいて、音声信号の第一セグメントを、その音声信号の別のセグメントまたは別の音声信号のセグメントから高い確率で区別できることを意味する。

音声信号３１全体に対しこの手順が実施された後に、個別サブフィンガープリントの連なりで構成された音声信号のフィンガープリントが得られる。

なお、図３は、音声信号の時間的進行に対応して時間的に進行する内部時間スケールを持つフィンガープリントを例示しただけの典型例である。それゆえ、図３に示すように、これらセグメントを互いに分離する必要はないが、音声符号化技術で知られているように、例えば、これらを５０％ずつオーバーラップさせることもできる。さらに、得られたフィンガープリント３０が、音声信号との時間的つながりを有している限り、すなわち、フィンガープリントが、データ中の時刻を参照している限り、例えば、平均することによって、個々のＳＦＰｉを、再び、相互にオフセットすることができる。図３に示す実施形態において、サブフィンガープリントＳＦＰ１は、第一セグメントの開始点の時刻を参照し、サブフィンガープリントＳＦＰ６は、第６セグメントの開始点の時刻を参照する。なお、この関連付けは単なる例示である。対応して合わせてあれば、サブフィンガープリントは、セグメントの終端、またはセグメント内の任意の所定値、例えばセグメントの中間を参照することもできる。

引き続き、図４に基づいて、参照時刻情報を算定するための好適な技法を提示する。図４に示す実施形態において、図４において４０で示されている、例えば、ベース信号の参照フィンガープリントは、図３のフィンガープリント３０について説明したような形で存在する。図４に示す例において、ベース信号の参照フィンガープリントは、Ｔ_rの長さを持つベース信号を参照している。さらに、図４には、検証フィンガープリント４１が示され、これも、個別のサブフィンガープリントで構成されており、原理的には、図３のフィンガープリント３０のように構築することができる。図４に示すように、検証フィンガープリントは、Ｔ_tの長さを持つ検証信号を参照している。さらに、検証フィンガープリント４１は、検証信号の検証時刻または検証オフセットｔ₀を参照することによって、時間情報を有している。図４の機能性を例示するため、検証フィンガープリントを導き出した検証信号は、図４における４２でデザインされたベース信号部分の抽出であるとする。参照フィンガープリントにとともに検証フィンガープリントの時間相関を行う場合、検証フィンガープリントと参照フィンガープリントとの間の相関を時間ステップごとに行う。例えば、参照フィンガープリントの最初の５つのサブフィンガープリントを、検証フィンガープリントの５つのサブフィンガープリントと対比することから始めることができよう。この対比により、特定の照合指標が得られる。そこで、次のステップにおいて、参照フィンガープリントの２番目から６番目までのサブフィンガープリントが、検証フィンガープリントの５つのサブフィンガープリントと対比され、同様な照合指標が得られる。これは、図４に描かれた参照時刻から始まる参照信号の５つの検証フィンガープリントが、検証フィンガープリントの５つのサブフィンガープリントと対比されるまで実施される。検証信号が、ベース信号からの抽出であるこの例示のケースでは、非常に高い照合性、すなわち、１００％の照合性が得られることになろう。このように、フィンガープリント点検アルゴリズムによって、絶対参照時刻あるいは相対参照時刻を含む参照時刻情報が出力され、これも、図４中に参照オフセットＴ_X４２として示されている。

説明した例において、フィンガープリントアルゴリズムは、このように照合指標及びＴ_Xを出力する。本発明によれば、フィンガープリント点検アルゴリズムのこの特質を使って、さらに、検証オフセットｔ₀、または広く言えば検証時刻情報を、参照オフセット、または参照時刻情報と対比することができる。検証オフセットｔ₀は先験的に分かっている、というのは、特定の時刻のベース信号の部分４２から得られたものだからである。

図４に示すケース区分の第一ケース４４、前記に挙げた例はこれに当たるが、このケースでは、検証オフセットｔ₀は、参照オフセットｔ_Xに等しくなっている。このことは、ベース信号は、参照信号として同じ開始点を持つという点で合っていることを意味する。次に、さらにケース４５及び４６を見ると、検証信号は参照信号またはベース信号と照合していない、すなわち、ベース信号中に、検証フィンガープリントが導き出された検証信号と比較して信号の伸長または短縮が存在する。

検証信号が、参照信号からの直接抽出であるような単純なケースでは、状況は次のようになる。例えば、参照信号Ｓｒは、２００秒の長さを持つ。検証信号Ｓｔとして、参照信号の抽出４２が選定され、これは４２秒目（参照時刻）から始まり１０秒の長さ（Ｔ_t）を持つ。ここで、この双方の信号から、図３により説明した方法によってフィンガープリントが計算される。但し、一般に、フィンガープリントが、それが計算された信号の時間進行と合致する時間進行を有する限りにおいて、既知の任意のやり方でフィンガープリントを計算することもできる。このフィンガープリント、及び、例えば、おそらくオプションとして参照フィンガープリントデータベースに格納された別のフィンガープリントの助力によって、音声フィンガープリント法システムは、前記の参照信号Ｓｒとの関連とは別に、図４により示すように、処理中の追加情報として約８２秒の時間オフセットＴ_offを提供することになる。

図８は、エンドユーザ８０とサービスプロバイダ８１との間の相互のやり取りを示す。例えばサービスプロバイダ８１は、図７に示すような、データベースを持つサーバであり、これについては後記でさらに説明する。一方で、エンドユーザ８０はステレオ音楽作品８２を持っており、サービスプロバイダ８１のサービスを使って、これからマルチチャネル５．１の音楽作品８３を生成したいと望んでいる。この目的達成ため、エンドユーザ８０は、クライアントプログラム８４を入手し、最初に、特定のステレオ音楽作品の参照フィンガープリント８５を、図８に示す実施形態のサービスプロバイダ８１に送信することになる。

サービスプロバイダ８１は、図７に示すデータベースを持っており、これにはいくつかの列／入力項目が含まれる。第一列７１には、さまざまな識別情報ＩＤ_i、ＩＤ_i+1、ＩＤ_i-1があり、これらの識別情報を、前もって図７のデータベースの中に格納されたステレオ音楽作品の参照フィンガープリントとすることができる。次いで、サーバ８１は、十分な照合性が得られたならば、参照フィンガープリント８５の元となったステレオ音楽作品が、データベース中の識別情報ＩＤ_iによって既に分かっている音楽作品であることを提示するために、参照フィンガープリント８５を受信し、それを列７１の入力項目と比較する。

ユーザが、マルチチャネル拡張データの保有を望む本発明の用途の例では、照合の後、次いで、データベースは、識別情報ＩＤ_iと関連するマルチチャネル拡張データにアクセスすることになり、図７に示すケースでは、データベースの列７２の中にこのデータを置くことができる。さらに、例えば、列７２中のマルチチャネル拡張データが属するベースデータに由来する、列７３中の少なくとも一つのベースデータフィンガープリントにアクセスすることもできる。

その実施形態において、列７２中のマルチチャネル拡張データが属するベースデータは、理想的な、もしくは、少なくとも正確に規定された参照フィンガープリント８５の元となったステレオ音楽作品のバージョンであるとよい。参照フィンガープリント８５の要請に対応して、サーバは、図８の８６に示すように、列７２からマルチチャネル拡張データ、及び、そのマルチチャネル拡張データに関する一つの、望ましくは少なくとも２つの検証フィンガープリントを提供する。

エンドユーザのクライアントプログラム８４は、マルチチャネル拡張データ及び検証フィンガープリント８６を受信し、次いで、参照データ中の参照時刻によって参照時刻情報を算定する。このケースでは、参照データはベースデータと同じ、すなわち、クライアントプログラムが、当初に送信した参照フィンガープリント８５の元のステレオ音楽作品と同じである。この目的達成のため、クライアントプログラム８４は、一つまたは複数の検証フィンガープリントを使って、図４によって既に説明したような方法を実行する。次いで、クライアントプログラム８４は、参照時刻情報の算定結果いかんによって、望ましくは、操作済みデータを得るために、付加データを操作する。この操作済みマルチチャネル拡張データは、対象のステレオ音楽作品８２に正確に合わして調整される。これにより、ベースデータ８２及び拡張データ７２双方のデータ情報を、最終的に同期させて再生することができる。

図８によって示したように、本発明の用途の一つのシナリオは、音楽愛好者に対し、これらの人々が既に持っているステレオ音声のマルチチャネルフォーマット５．１への拡張を、インターネットを介して提供するサービスを行うことにある。この目的のため、サービスプロバイダは、音楽作品のマルチチャネルバージョンから、対応するステレオバージョンのためのマルチチャネル付加データ（図７の列７２）を生成し、それらを、エンドユーザが取得できるように用意して図７に示したデータベース中に保持する。

これを受け、音楽愛好者（エンドユーザ８０）は、マルチチャネル技術への拡張が実施できるように、これら付加データを、例えば、パソコン中に取り入れる。このように、サービスプロバイダのサーバからマルチチャネル付加データをロードしたエンドユーザのプログラムは、既存の音楽データを開きマルチチャネル付加データを加え、双方をファイルに格納する、これら音楽データは、これによりステレオアンプだけでなく５．１アンプにも適合する。かくて、音楽愛好者は、特定の音楽作品の自分のステレオバージョンに加えて、マルチチャネルバージョンを手に入れ、サービスプロバイダは、エンドユーザが既に所有しているデータの、エンドユーザからサーバへの往復といった不必要な送信を行うことなく、サービスの対価を受け取る。

引き続いて、図１により、付加データとベースデータとを同期させるための本発明の装置に進むが、これは、例えば、図８に示したシナリオによって、エンドユーザのパソコン上のクライアントプログラムの範囲内で完全に実行することができる。本発明の装置は、付加データとベースデータとを同期させるよう機能し、付加データ及びベースデータは、規定された時間進行を有し、一緒に同期して再生できるデータ情報を包含する。第一に、その装置は、検証データの検証フィンガープリントを提供するための手段１０を含み、そのフィンガープリントは、検証データの検証時刻を参照する。

手段１０の機能性は、交信８５またはマルチチャネル拡張データを望むエンドユーザの作品の一般的なプレーンテキストにより実施可能な識別手順によって、先行して行われる。ここで、ユーザは、図７によって示すような、列７１中の正確な識別情報を見出すためのデータベースへのアクセスについては、明確な信号伝達で行い、自分の作品を正確に識別するようにする。

望ましくは、一方では、エンドユーザに最大の便宜を供与するため、クライアントプログラムは、フィンガープリントプロセッサを備え、ユーザが、最終的に欲するマルチチャネル音楽作品のステレオ版音楽作品の参照フィンガープリントを自分で処理しなくてもよいようにする。手段１０が備える機能を実施する前に、望ましくは、音声フィンガープリント法システムの助けを借りて音声ベースデータの識別が行われる。これにより、音声ベースデータの拡張データへの関連付けが可能になる。この関連付けによって、音声ベースデータと拡張データとが、一意的に関連付けられることは達成されたが、まだ、音声ベースデータのセットと拡張データのセットとを、正確に時間同期させる仕事が残っている。

検証フィンガープリントが参照する検証データは、提供するための手段１０から、参照時刻情報を算定するための手段１１に提供され、その検証データを、付加データそれ自体とすることも、ベースデータとすることも、あるいは、付加データまたはベースデータから導き出したデータとすることもできる。望ましくは、検証データは、図７のデータベースの列７２の中のマルチチャネル拡張版を作成するために使われたような、理想的バージョンのベースデータであろう。付加データを使ってユーザがアップデートしたいベースデータは、理想的ベースデータの現実バージョン、すなわち、検証フィンガープリントを導き出した理想的バージョンに対して変更が加えられているユーザの既存バージョンである。

このような変更には、欠損のある符号化、または、例えば、カセットレコーダのようなアナログ再生装置からのレコーディング、また、スピーカからのレコーディングによる音質劣化などがあるだろう。他の操作には、ベースデータの開始部または終端部の短縮、あるいはベースデータの延長／縮小などがある。

また一方、検証データを付加データそれ自体とすることもできる。これは、例えば、ベースデータとしてステレオ信号に対し、センタチャネルを付加データとして送る場合などには利点がある。こうして、センタチャネルは、元のステレオ信号の左右のチャネルと非常に高い類似性を持つことになる。また、こういったように、手段１１が、検証フィンガープリントとして拡張データのフィンガープリントを包含している場合、高い確率で正確な参照時刻情報を算定することができることになろう。しかし、検証データを付加データまたはベースデータから導き出すこともできる。この場合、検証データを、ベースデータまたは付加データの符号化されたバージョンとすることができる。さらに、例えば、ＢＣＣパラメータまたはＩＳパラメータ形式のパラメータデータを使う場合、一つのデータ表現から他のデータ表現に変換するため簡単なパラメータ復号化を行う必要はあるが、この限りにおいて、検証データを、後の処置において実際の音声データと比較可能なパラメータ表現とすることができよう。

ここで、以降の説明の意味を明確にするために、検証フィンガープリントは、ベースデータの理想的バージョン、すなわち、図７の列７２に記載したようなマルチチャネルデータが実際に属し、その元となったベースデータのフィンガープリントであると想定する。

図７に示すデータベースを保持するために、ベースデータそれ自体ではなく、小さな、理想的ベースデータのフィンガープリントだけを、データベースに格納する。当然、図７のデータベースに、ベースデータ全体を含め、要請があった場合のみ、データベースに入っている理想的なベースデータからフィンガープリントを計算し、それをエンドユーザに送信することもできよう。しかしながら、データベースが、マルチチャネル拡張データとベースデータの検証フィンガープリントだけを含める実施方法は、メモリ節約的なデータベースにつながり、また、別途フィンガープリントを計算する必要がないので、ユーザ要求に対するより速い対応が可能になる。

参照時刻情報を算定する手段１１は、この情報を提供し、これは参照データ中の参照時刻に依存し、一般的に言えば、その参照データは、検証フィンガープリントの元となったデータではない。参照時刻情報を算定するため、手段１１は、手段１０から提供された検証フィンガープリントを用いる。また、この目的達成ため、手段１１は、図１に示すように、実際のステレオ信号、すなわちマルチチャネルデータで「充実」される対象のベースデータをも取得する。図１の参照データは一般的にこのデータをいう。

本発明の好適な実施形態において、参照時刻情報及び検証時刻情報の双方、またはマルチチャネル拡張データ、または一般に言う付加データが、手段１２に供給される。手段１２は、参照時刻情報と、検証フィンガープリントが参照する検証時刻に依存する検証時刻情報とを使って付加データを操作するよう機能する。付加データはもとよりベースデータも操作する手段１２は、出力側から操作済みデータを提供し、例えば、次いで、再生手段１３がこれを用いて、出力側に５．１サウンドを生成する。

なお、付加データに換えて、ベースデータ、すなわち実際の参照信号を、短縮したり、伸長したり、延長／縮小したりなど操作することもできることを指摘する。この場合、操作済みデータは操作されたベースデータ（参照データ）となり、付加データは手付かずのままとなる。当然ながら、操作手段１２が付加データ及びベースデータの操作を実施し、操作されたデータによってデータ情報の同期した再生ができるということであれば、混成操作、すなわちベースデータ及び付加データ双方の操作も可能である。

先に述べたように、操作済みのデータを新規の５．１ファイルとすることができ、または、同期されたデータは、操作済みベースデータだけをあるファイル中に含め未操作の付加データを別ファイル中に含める、または、未操作ベースデータを一つのファイルに、操作済み付加データ別ファイル中に含める、または、操作済みベースデータ及び操作済み付加データの両方をそれぞれのファイル中に含めることができる。別ファイルの場合、手段１３は、対応するアンプからの制御に先立って、これら２つのファイルを融合するように形成される。

本発明の好適な実施形態において、ここでは付加データだけが操作され、操作を終えた手段によって完全に新しいファイルが形成され、その中では全データ情報が一緒に、すなわち同期化された状態で包含されている。

図２は、クライアントプログラム８４とサーバプログラム８１との間の交信の好適な実施形態を示す。

最初のステップ２０において、クライアントプログラムは、最終的にマルチチャネル信号にする予定の、実際のステレオ信号から参照フィンガープリントを生成する。

ステップ２１において、この参照フィンガープリントは、クライアントからサーバに送信される。ステップ２２において、サーバは参照フィンガープリントを受信し、理想的なステレオ信号を、図７に関連して説明したように、例えば、データベース検索によって識別する。

ステップ２３に至って、サーバはそのデータベースにアクセスし、最終的にクライアントプログラムに送信することになる拡張データを準備する。

ステップ２４において、サーバは、その拡張データが属している理想的音声信号の、一つまたは望ましくは２つのフィンガープリントを生成する。ステップ２４におけるこの生成は、サーバ自体による実際のフィンガープリント計算によって行うことも、望ましくは、完成した検証フィンガープリントが既に存在するデータベースの列７３にアクセスすることによって行うこともできる。

ステップ２５において、望ましくは、これら２つの検証フィンガープリントは、次いで、クライアントに供給される。ステップ２６において、図１の手段１１は、参照データ中の参照時刻によって参照時刻情報を算定するために、このときアクティブになる。望ましくは、その参照時刻情報は、縮小／延長ファクタ（ＳＳファクタ）及び参照オフセットである。

次いで、ステップ２７において、ＳＳファクタに従って拡張データを延長または縮小し、また、必要に応じその開始部または終端部の付加データの切り取りを行うために、クライアントはその操作手段をアクティブにする。

本発明の好適な実施形態のステップ２８において、クライアントは、次いで、例えば、５．１サラウンド形式におけるマルチチャネルファイルを生成し、それを図１の再生手段１３によって再生する。

以下に、図４に基づいて、図１の操作手段１２の第一機能について説明する。その機能は、拡張データに対する音声ベースデータの短縮度合い及びその音声ベースデータの関連時間オフセットの算定にある。この短縮度合いが算定されたならば、その短縮を行うことによって拡張データを操作することができる。図４に示す検証オフセットｔ₀は、ベースデータの理想的バージョン、すなわち、図７の列７２中のマルチチャネル拡張データに関連するステレオデータの理想的バージョンに対する検証フィンガープリントのオフセットをいう。

既に図４のケース４４で説明し図示したように、検証オフセットｔ₀が、参照オフセットｔ_Xに等しい場合には拡張データの操作をする必要はなく、これは手段１１により判定される。しかしながら、検証オフセットｔ₀が、参照オフセットｔ_Xより小さいと判定された場合は、ベース信号が長すぎることが分かる。実際上の運用シナリオでは、このことは、ユーザが自分の実際のベース信号を長くしすぎた、すなわち開始部分に、理想的なベースデータには含まれていない休符を加えたことを意味する。このケースでは、図４の４５に示すように、追加のデータで埋めてやる必要がある。この埋め入れをさまざまな方法、例えば、ゼロの挿入または補間法、予測法によって行うことができる。

手段１１が、参照オフセットｔ_Xは検証オフセットｔ₀よりも小さいと判定した場合、すなわち、図４のケース４６であると判定した場合、このことは、ベースデータが短すぎる、すなわち、そのベースデータのレコーディング中にユーザによって意図的にまたは無意識に短縮してしまったことを意味する。このケースでは、２つのオフセットの間の差に応じて付加データの開始部を切り取ることによって、同様に付加データをこの状況に合わせる必要がある。

これを、以下の例によって説明する。音声ベースデータを（一つの）参照信号（長さＴ_r）と見なし、これと時間同期されて存在する拡張データまたは対応する音声データは（一つの）検証信号（長さＴ_r）と見なす。具体的には、検証信号のフィンガープリントを取り上げると、これは時刻ｔ_Xから始まり、ｙ秒の長さをカバーしている。ここで、音声フィンガープリント法システムの連関技法を使って検証フィンガープリントと参照フィンガープリントとを比較すると、検証フィンガープリントがもつ参照フィンガープリントに対するオフセットにおいて得られた計算値から、音声信号の開始部におけるデータの欠損に関する個別の計算値を得ることができる。そのオフセットがｔ_Xに等しい場合には、音声ベース信号は短縮も伸長もされていない。オフセットがｔ_Xより小であれば、音声ベース信号はｔ_X−Ｔ_offだけ短縮されている。オフセットがｔ_Xより大であれば、音声ベース信号はＴ_off−ｔ_Xだけ伸長されている。

この手段を使って、前記で定義したような「短縮」及び「伸長」の意味で、音声ベース信号の開始部の長さの変化が認知される。但し、時間オフセットの算定だけで、拡張データの音声ベースデータへの時間同期の接続点は既に算定されている。

検証及び参照信号の全体的長さは、例えば、個別のデータに内在するサンプリング周波数にアクセスすることによって、既存の音声データから分かっているか、または計算することができる。また、相互の相対的時間オフセットに関する情報と併せ、検証信号に対し、理想的検証信号と比較して、参照信号が、実際のベース信号の終端部で短縮／伸長されているかどうかが分かる。操作手段１２は、こういった状況にも対応し処置するよう形成されている、すなわち、拡張データの終端部をゼロで埋めるか、補間するか、または予測値によって埋めるか、あるいは、拡張データの終端部の特定の時間的長さの特定のセグメントを切り取りまたは削除してこれを短縮するように形成されている。

なお、開始部または終端部の短縮／伸長は、必ずしも、対応する値の削除によって対処する必要はなく、これに関し、短縮または伸長は、付加データ中の削除対象のデータ値は、一般的に、付加データをベースデータに照合させる際、すなわち再生において取り入れられないという事実面からも考察することになる。

以下に、図５を参照して、音声ベースデータの縮小／延長ファクタ（ＳＳファクタ）の算定に進む。図５は、５０に、参照信号または音声ベースデータの例として、実際のステレオ信号を示す。図５において、対応する理想的ステレオ信号または検証信号は５２で示す箇所に描かれ、その信号から、図７の列２７中のマルチチャネル拡張データのような付加データが導き出される。本発明の好適な実施形態において、縮小／延長ファクタを計算するため、縮小／延長ファクタを含む参照時刻情報の算定手段は、第一検証フィンガープリント及び第二検証フィンガープリントを取得する。理想的ステレオ信号の中の第一検証フィンガープリントによりスイープされる時間範囲は、図５１中の５１ａでデザインされる。同様に、第二検証信号に含まれる理想的ステレオ信号の時間部分は、５１ｂでデザインされている。さらに、第一検証フィンガープリントは、検証時刻ｔ_aに関連付けられており、第二検証フィンガープリントは、検証時刻ｔ_bに関連付けられている。ｔ_aとｔ_bとの時間間隔をΔＴ_testと称する。

図１の、参照時刻情報を算定するための手段１１は、参照時刻情報として、第一検証フィンガープリントを使って第一参照オフセットＴａ_off、及び第二検証フィンガープリントに対する第二参照オフセットを算定し、第二参照オフセットをＴｂ_offと呼ぶ。ΔＴ_refが、ΔＴ_testの実際のステレオ信号中の２つのオフセットの時間差と等しければ、ケース５３に該当し、縮小／延長ファクタＳＳは１に等しい。従って、実際のステレオ信号、すなわち参照信号またはベースデータの延長／縮小は行われていない。しかし、縮小／延長ファクタが１より大きな場合には、ケース５４に該当し、実際のステレオ信号は延長されていることになる。これにより、付加データも同じファクタＳＳによって延長する必要がある。一方、縮小／延長ファクタが１より小さな場合には、ケース５５に該当し、実際のステレオ信号は縮小されていることが示される。従って、このケースでは、操作手段１２は、実際のステレオ信号の縮小判定への対処として、これも、マルチチャネル拡張データなどの付加データの縮小を行うことになる。

時刻ｔ_aから始まる検証信号のフィンガープリントによって時間オフセットＴａ_offの算定がされる。次いで、時刻ｔ_bから始まる検証信号のフィンガープリントによって時間オフセットＴｂ_offの算定が行われる。実際上の適用において、フィンガープリントの時間長さをｔ_b−ｔ_aより短くすることができる。しかし、必ずそうする必要があるわけではない（＝フィンガープリントのオーバーラップ）。検証信号において、双方の検証点の間の時間差は、ΔＴ_test＝ｔ_b−ｔ_aとして知ることができ、または与えられる。参照信号については、時間オフセットからΔＴ_ref＝Ｔｂ_off−Ｔａ_offとしてこれを計算することができる。これから、ＳＳ＝ΔＴ_ref／ΔＴ_testとして、縮小／延長ファクタＳＳを得ることができる。

ＳＳ＝１の場合、音声ベースデータの縮小／延長はなく、この点では、拡張データを変更しないで取り入れることができる。ＳＳ＜１の場合には、音声ベースデータに縮小があるので、拡張データを同じＳＳに合わせる必要がある。ＳＳ＞１の場合には、音声データベースに延長があるので、拡張データを同じＳＳに合わせる必要がある。

なお、最後に、一貫した音声フィンガープリント方法の使用が望ましいことを指摘する、というのは、こうすることによって、欠損した符号化／復号化、または、例えば、アナログ再生装置からのレコーディングなどによる意図的または無意識の音質劣化のような、特定の範囲内で信号処理に関し音声ベース信号の変化が生じたとしても、その方法によった、すべての参照時刻情報計算及び付加データの操作が確実に機能するからである。

図６に基づいて、図１の手段１１及び図１の手段１２の望ましい機能順序を、再度、以下に説明する。手段１１は、最初に、参照時刻としてベースデータの延長／縮小についての情報を算定し、算定した縮小／延長ファクタＳＳを乗算することによって付加データＡＤの縮小／延長を行う。これにより、最初に操作された付加データＡＤ’が得られる。ここで、最初に操作された付加データＡＤ’の開始部の部分Ａが（図６の）２に示すようにして算定され、その部分Ａは切り取られる。これにより、さらに操作された付加データＡＤ’’が得られる。

ここで、付加データＡＤ’’は、図６の２．３．）に示すように計算された終端部の部分Ｅによって切り取られる。これにより、最終的に、操作された付加データＡＤ’’’が得られる。次いで、好適な実施形態のこのシーケンスの最後において、ベースデータと操作済み付加データＡＤ’’’とがファイル中に融合され、従来型のマルチチャネル再生装置でこれを再生することができる。

いくつかの例によって、以下にこのシーケンスを説明する。クライアントプログラムは、ステレオ音楽作品の参照フィンガープリントを計算し、それをインターネット経由でサービスプロバイダのサーバに送信する。これは音楽作品を識別し、そのステレオ音楽作品のマルチチャネル拡張データ一式と６０秒点及び１２０秒点の２つの検証フィンガープリント（それぞれ１５秒の長さ）をクライアントプログラムに送信する。クライアントプログラムは、音声フィンガープリント法のアルゴリズムを適用することによって、両方の検証フィンガープリントに対する時間オフセットを算定する。時間オフセット値の差から、縮小／延長ファクタは１．０３と算定される。これを対応するマルチチャネル拡張データに適用する。６０秒点における検証フィンガープリントに対する時間オフセットの計算から５７．３秒が得られる。これにより、マルチチャネル拡張データは、開始部で（６０×１．０３−５７．３）秒短縮することが必要になる。また、必要な場合、終端部も短縮する。これらのマルチチャネル拡張データの変更の後、ステレオベースデータにも同様な変更を加え、新規のマルチチャネル音声ファイルとして格納することができる。

本発明の好適な応用は、ＭＰ３データのような既存の音声データを、ＭＰ３サラウンドのようなマルチチャネルフォーマットに後々に拡張することにある。しかしながら、本発明の概念は、ベースデータが、既に存在し、後で付加データを同期させるのかどうかに関係なく、付加データを時間同期的な方法でベースデータに加えるどのような場合にも適用することができる。また、本発明の概念は、本発明の同期化方法によって、ある場所でベースデータから付加データを生成し、ベースデータと付加データとを別々に処理し、別の場所でそのベースデータと付加データとを融合することを可能にする。

条件によっては、本発明の方法をハードウエアまたはソフトウエアに搭載することができる。デジタル記憶媒体、特に、プログラム可能なコンピュータシステムと相互作用でき、電子的に読取り可能な制御信号を備えたフロッピー（登録商標）ディスクまたはＣＤに、その方法を搭載して実行することができる。このように、一般的に、本発明は、マシン可読のキャリヤに格納されたプログラムコードを備え、コンピュータで作動して本方法を実施する、コンピュータプログラム製品でもある。すなわち、このようにコンピュータ上で実行されると、本方法を実施するプログラムコードを備えたコンピュータプログラムとして本発明を認識することもできる。

付加データ及びベースデータを同期させるための本発明の概念のブロック回路図である。好適な応用事例のフローチャートで、クライアントがサーバと交信している。フィンガープリントシステムの概略図で、フィンガープリントは、フィンガープリントの元となったデータの時刻を参照する。検証フィンガープリントを使った参照時刻情報の算定の概略図である。本発明の好適な実施形態による、２つの検証フィンガープリントを使った、縮小／延長の判定の略図である。本発明の好適な実施形態による、付加データを操作するステップの概観図である。本発明の好適な実施形態において必要なサーバデータベースの概略図である。本発明の好適な実施形態による、サーバとクライアントとの間の交信のシステム図である。

Claims

付加データとベースデータとを同期させるための装置であって、前記付加データと前記ベースデータとは定められた時間進行を有し、一緒に再生することができるデータ情報を包含しており、前記装置は、
検証データは、前記付加データまたは前記ベースデータであるか、あるいは、前記検証データは、前記付加データまたは前記ベースデータに依存する、前記検証データの検証時刻に関する前記検証データの検証フィンガープリントを提供する手段（１０）と、
参照データは、前記検証時刻フィンガープリントが由来するデータではなく、前記検証フィンガープリントを使って、前記参照データ中の参照時刻によって参照時刻情報（ｔｘ、ＳＳ）を算定するための手段（１１）と、
操作済みデータを得るために、前記参照時刻情報と、前記検証時刻に依存する検証時刻情報（ｔ₀）とを使って、前記付加データまたは前記ベースデータを操作する手段（１２）であって、前記付加データまたは前記ベースデータを操作し、前記操作済みデータによって、前記データ情報の同期された再生が行えるように形成されている、前記操作手段（１２）とを含み、
前記操作手段（１２）は、前記操作済みデータを得るために、時間的縮小／延長を実施するか、データの時間的開始部または時間的終端部を切り取るか、または、データの時間的開始部または時間的終端部におけるデータ生成である、装置。
前記検証フィンガープリントは、前記検証フィンガープリントが導き出された前記データの時間進行に結びつく前記時間進行を有するように形成され、
前記算定手段（１１）は、前記参照データから参照フィンガープリントを得るように形成され、前記参照フィンガープリントは、前記参照データの前記時間進行に従った時間進行を有し、
前記算定手段（１１）は、前記検証フィンガープリント及び前記参照フィンガープリントのさまざまな時間オフセットに対し、前記検証フィンガープリントを前記参照フィンガープリントに関連付けて、そして、前記参照フィンガープリントと前記検証フィンガープリントとの最大照合点における関連時間オフセットを参照時刻情報として算定するようにさらに形成されている、請求項１に記載の装置。
前記検証フィンガープリントは、前記参照フィンガープリントに含まれる前記参照信号の時間長さより短い前記検証信号のある時間長さを含む、請求項２に記載の装置。
前記ベースデータは音声データであり、前記付加データは、前記ベースデータに関連する、時間的音声データまたはパラメトリック音声データであり、
前記提供手段（１０）は、前記付加データから導き出された前記検証フィンガープリントを提供するよう形成されており、
前記算定手段（１１）は、参照フィンガープリント及び前記ベースデータを使って、前記参照時刻情報を算定するよう形成されており、
前記操作手段（１２）は、前記操作済みデータを得るために、前記付加データを操作するように形成されている、請求項１ないし請求項３のいずれかに記載の装置。
前記付加データは、ＢＣＣパラメータ、ＩＣＬＤ、ＩＣＴＤ、またはＩＣＣパラメータデータ、前記ベースデータ中では低減されるかまたは存在しない周波数バンドに関するバンドデータ、前記ベースデータの拡張レイヤ次元よりも高次の拡張レイヤ、または、前記ベースデータの選択された部分を強化する品質増強データといった時間的サンプルまたはパラメトリック情報の形で、前記ベースデータに包含されていない付加チャネルを、含む、請求項１ないし請求項４のいずれかに記載の装置。
前記ベースデータは、音声信号の実際のバージョンを表し、
前記算定手段（１１）は、前記付加データが関連する前記音声信号の理想的バージョンの検証フィンガープリントを得るために形成されており、
前記操作手段（１２）は、これを前記実際のベースデータ（１０）により表された前記音声信号の前記実際のバージョンと関連付けするように、前記付加データを操作するために、形成されている、請求項１ないし請求項５のいずれかに記載の装置。
前記提供手段（１０）は、前記一つの検証時刻から所定の時間距離離れた追加の検証時刻に関連する追加検証フィンガープリントを提供するよう形成されており、
前記算定手段（１１）は、前記追加検証フィンガープリントを使って、追加の参照時刻情報を算定するように形成され、追加参照時刻は、前記一つの参照時刻から、ある時間参照距離を有しており、
前記操作手段（１２）は、前記検証距離と前記参照距離とによって延長／縮小ファクタを計算し、この延長／縮小ファクタを使って前記付加データまたは前記ベースデータを時間的に延長または縮小するよう形成されている、請求項１ないし請求項６のいずれかに記載の装置。
前記操作手段（１２）は、
ＳＳ＝ΔＴ_ref／ΔＴ_test
により縮小／延長ファクタを計算するよう形成されており、
ΔＴ_testは、前記一つの検証時刻と前記追加検証時刻との間の時間差であり、ΔＴ_refは、第一参照オフセットＴａ_offと第二参照オフセットＴｂ_offとの間の時間差であって、前記第一参照オフセットＴａ_offは、前記第一検証フィンガープリントを前記参照信号と関連付けるときに得られるものであり、前記第二参照オフセットＴｂ_offは、前記追加検証フィンガープリントを前記参照信号と関連付けるときに得られるものである、請求項７に記載の装置。
前記算定手段（１１）は、参照時刻情報として前記参照データの時間的開始部に対する前記参照時刻の時間的参照オフセットを、算定するように形成されており、
前記操作手段は、前記検証時刻と前記検証データの時間的開始部との間の検証オフセット、及び前記参照オフセットにより、前記付加データまたは前記ベースデータから前記付加データまたは前記ベースデータの前記開始部における導入部分（Ａ）を削除するよう形成されている、請求項１ないし請求項８のいずれかに記載の装置。
前記算定手段（１１）は、延長／縮小ファクタを算定するよう形成されており、前記参照信号は、前記ファクタによって、前記検証フィンガープリントが導き出された信号に合わせて延長または縮小され、
前記操作手段（１２）は、前記導入部分も前記延長／縮小ファクタに依存するように、前記延長／縮小ファクタによって、前記検証オフセットを重み付けするために形成されている、請求項９に記載の装置。
前記操作手段（１２）は、前記ベースデータまたは前記付加データの終端部の削除部分（Ｅ）を、前記開始部において短縮または延長されたベースデータまたは付加データの時間長さによって除去するよう形成されている、請求項１ないし請求項１０のいずれかに記載の装置。
サーバ装置であって、
ベースデータの参照フィンガープリント（８５）を受信するための手段（８１）であって、前記ベースデータは音声データである、前記受信するための手段（８１）と、
前記参照フィンガープリントに基づいて前記ベースデータを識別するための手段（７１）と、
前記サーバ装置がアクセス可能な前記ベースデータのバージョンの検証フィンガープリントを送信するための手段（２５）と、
クライアント装置に前記ベースデータに関連する付加データを送信するための手段（２３）であって、前記付加データは、前記ベースデータに関連する、時間的音声データまたはパラメトリック音声データである、前記送信するための手段（２３）とを含むサーバ装置。
クライアント装置（８４）であって、
ベースデータの参照フィンガープリントを送信するための手段（２１）と、
検証データは、前記付加データまたは前記ベースデータであるか、あるいは、前記検証データは、前記付加データまたは前記ベースデータに依存する、前記検証データの検証時刻に関連する前記検証データの検証フィンガープリントを受信する手段と、
参照データは、前記検証時刻フィンガープリントが由来するデータではない、前記検証フィンガープリントを使って、前記参照データ中の参照時刻によって参照時刻情報（ｔｘ、ＳＳ）を算定するための手段（１１）と、
操作済みデータを得るために、前記参照時刻情報、及び前記検証時刻に依存する検証時刻情報（ｔ₀）を使って、前記付加データまたは前記ベースデータを操作する手段（１２）であって、前記付加データまたは前記ベースデータを操作し、前記操作済みデータによって、前記データ情報の同期された再生が行えるように形成されている前記操作手段（１２）とを含み、
前記操作手段（１２）は、前記操作済みデータを得るために、時間的縮小／延長を実施するか、データの時間的開始部または時間的終端部を切り取るか、または、データの時間的開始部または時間的終端部におけるデータ生成である、クライアント装置。
前記操作手段（１２）は、前記操作済みデータを得るために、前記付加データだけを操作し、前記データ情報を含むデータセット結果を得るために前記操作済みデータを前記ベースデータに追加するように形成されている、請求項１３に記載のクライアント装置。
前記操作済みデータを使って、前記データ情報を再生する再生装置（１３）をさらに含む、請求項１３または請求項１４に記載のクライアント装置。
付加データ及びベースデータは、定められた時間進行を有し、一緒に再生することができるデータ情報を含む、前記付加データと前記ベースデータとを同期させる方法であって、前記方法は、
検証データは、前記付加データまたは前記ベースデータであるか、あるいは、前記検証データは、前記付加データまたは前記ベースデータに依存する、検証データの検証時刻に関連する前記検証データの検証フィンガープリントを提供する（１０）ステップと、
前記検証データを使って、参照データは、前記検証時刻フィンガープリントが由来するデータではない、前記参照データ中の参照時刻によって参照時刻情報（ｔｘ、ＳＳ）を算定する（１１）ステップと、
操作済みデータによって、前記データ情報の同期された再生が行えるように操作された前記操作済みデータを得るために、前記参照時刻情報と、前記検証時刻に依存する検証時刻情報（ｔ₀）とを使って、前記付加データまたは前記ベースデータを操作する（１２）ステップとを含み、
前記操作する（１２）ステップは、前記操作済みデータを得るために、時間的縮小／延長を実施するか、データの時間的開始部または時間的終端部を切り取るか、または、データの時間的開始部または時間的終端部におけるデータ生成である、方法。
サーバ装置を作動する方法であって、
ベースデータの参照フィンガープリント（８５）を受信する（８１）ステップであって、前記データベースは音声データである、前記受信する（８１）ステップと、
前記参照フィンガープリントに基づいて前記ベースデータを識別する（７１）ステップと、
前記サーバ装置がアクセス可能な、前記ベースデータのバージョンの検証フィンガープリントを送信する（２５）ステップと、
クライアント装置に前記ベースデータに関連する付加データを送信する（２３）ステップであって、前記付加データは、前記ベースデータに関連する、時間的音声データまたはパラメトリック音声データである、前記送信する（２３）ステップとを含む方法。
クライアント装置（８４）を作動する方法であって、
ベースデータの参照フィンガープリントを送信する（２１）ステップと、
検証データは、前記付加データまたは前記ベースデータであるか、あるいは、前記付加データまたは前記ベースデータと、前記ベースデータに関連する前記付加データとに依存する、前記検証データの検証時刻に関連する前記検証データの検証フィンガープリントを受信するステップと、
参照データは、前記検証時刻フィンガープリントが由来するデータではない、前記フィンガープリントを使って、前記参照データ中の参照時刻によって参照時刻情報（ｔｘ、ＳＳ）を算定する（１１）ステップと、
操作済みデータによって、前記データ情報の同期された再生が行えるように操作された前記操作済みデータを得るために、前記参照時刻情報と、前記検証時刻に依存する検証時刻情報（ｔ₀）とを使って、前記付加データまたは前記ベースデータを操作する（１２）ステップとを含み、
前記操作する（１２）ステップは、前記操作済みデータを得るために、時間的縮小／延長を実施するか、データの時間的開始部または時間的終端部を切り取るか、または、データの時間的開始部または時間的終端部におけるデータ生成である、方法。
コンピュータに、請求項１６、請求項１７、または請求項１８に記載の方法を実行させるためのプログラム。