JP4989480B2 - 付加データとベースデータとを同期させるための装置及び方法 - Google Patents

付加データとベースデータとを同期させるための装置及び方法

Info

Publication number
JP4989480B2
JP4989480B2 JP2007532848A JP2007532848A JP4989480B2 JP 4989480 B2 JP4989480 B2 JP 4989480B2 JP 2007532848 A JP2007532848 A JP 2007532848A JP 2007532848 A JP2007532848 A JP 2007532848A JP 4989480 B2 JP4989480 B2 JP 4989480B2
Authority
JP
Japan
Prior art keywords
data
verification
time
fingerprint
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007532848A
Other languages
English (en)
Other versions
JP2008514972A (ja
Inventor
ユールゲン ヘレ
オリヴァー ヘルムート
アンドレーアス ヘルツァー
シュテファン ガヤーズベアガー
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2008514972A publication Critical patent/JP2008514972A/ja
Application granted granted Critical
Publication of JP4989480B2 publication Critical patent/JP4989480B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/28Arrangements for simultaneous broadcast of plural pieces of information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems
    • H04H20/89Stereophonic broadcast systems using three or more audio channels, e.g. triphonic or quadraphonic
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2545CDs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

本発明は、マルチメディアデータ処理に関し、特に、音声ベースデータに付加音声情報を時間同期させて追加することに関する。
現在開発されている、また今後開発される技術によって、音声信号または映像信号のますます効率的な保存が可能になるだけでなく、マルチチャネル技術の採用といった機能拡張による音声的、または映像的な楽しみ方の充実も可能となっている。このような拡張部を、新しいファイルフォーマットにファイルし、例えば、モノラル、またはステレオ信号などの音声ベースデータと一緒に使えるようにユーザに提供することができる。拡張データは、例えば、付加マルチチャネル情報とすることができる。すなわち、音声ベースデータ及び拡張データの双方を共通のデータストリームまたはファイルに包含するのである。
また一方では、音声信号のステレオバージョンを既に所有しているユーザが、拡張部、すなわちマルチチャネル構成音だけを得て、それを後で自分の持つ音声信号、またはその対応ファイルに加えるということに関心が持たれている。このような変形版には、特に、利点がある。少なくとも、ユーザが既に持っているデータは、不必要に送信する必要はない。特に、サービスプロバイダが、ネットワークを介して送信したデータの量に基づいてサービス料金を請求するような状況では、ユーザは、ネットワーク経由で受信するデータをできるだけ少なくすることで、大きなコストダウンができる。
例えば、あるユーザが、ある音楽作品のステレオCD、つまり左及び右のチャネルを所有している。5.1技術のようなマルチチャネル技術の出現とともに、そのユーザは、自分のステレオCDを、新しいサラウンドシステムで再生するだけでなく、そのステレオCDの5チャネルバージョンを持ち、それを再生したいと望むこともあるだろう。このような場合、既に左及び右チャネルを持っているユーザには、左サラウンドチャネル、右サラウンドチャネル及びセンタチャネルだけを送信してもらえば足りるということになる。前記のような送信されたデータ量の分が請求される状況では、5チャネルの代わりに3チャネルだけを送信することで、ユーザはそれだけで、40%のデータ量を節約できることになる。
加えて、拡張データの追加購入は、おそらく、ユーザにとってさらに経済的に魅力がある、というのは、既に持っている音声ベースデータに対しては、再度支払う必要がないからである。そのため、今までにステレオCDを販売したレコード会社は、自社の顧客に対し追加サービス、音楽作品の全5チャネルバージョンより低価格の「サラウンド」拡張版を提供することができよう。
また一方、既存のデータに対し付加データを用いることは、他のさまざまな用途において非常に関心を持たれることになるだろう。特に、拡張可能な音声/映像データの分野では、付加データをより高次の拡張レイヤに置くことができる。技術的に知られた拡張性の概念では、例えば8kHzまでといった、音楽作品の特定の帯域の音声信号を包含する基本レイヤがある。こういったデータに対しては、例えば、8kHzの最高帯域までだけを再生できる再生装置を全面的に活用する。こういった再生装置は、例えば、特にブロードバンド用のスピーカを備えていない再生装置を使うことができよう。同様に、この信号を下方にも帯域制限された信号とし、その再生装置も、例えば、500Hzを下回る音を再生できないものにすることができよう。次に、高次の拡張レイヤを、20Hz〜500Hzの帯域及び8kHz〜16kHzといった下方向に欠けている帯域及び/または上方向に欠けている帯域とすることができよう。次いで、ブロードバンドの音声信号を得るためには、この第一拡張レイヤは、500Hzから8kHzの間の帯域を持つ元の音声信号と組み合わされる必要があり、これをブロードバンド用の再生装置で再生することができる。また、プロバイダによって、この特別版である拡張レイヤを十分良好に提供し、ユーザにとって、その第一拡張レイヤが、ブロードバンド版音声信号よりも安いコストになるようにすることができよう、というのも、ユーザは、「狭バンド」音声信号は、既に以前に購入済みだからである。
映像データにおいては、更なる拡張データが構成され、基本レイヤは、特定の解像度の映像シーケンスを提供し、次の拡張レイヤは、より高い解像度自体を既に持った映像データを提供するか、あるいは、元の映像データと組み合わせられてより高い解像度の映像シーケンスを生成する。こういった状況は、低解像度の映像再生装置しか持たなかったユーザが、後に解像度の高い映像再生装置を取得し、「以前の」ビデオを自分の新しい装置が備える高解像度で見たいと欲した場合に生じる。
さらなる拡張データには、いわゆるSBR(スペクトル帯域複製(Spectral Band Replication))データもある。公知のSBR技術では、低い出力データ速度に起因して、エンコーダは、バンド制限された信号しか生成せず、せいぜい、例えば、4または6kHzが最大カットオフ周波数である。欠損した高い周波数帯のデータは、音声サンプルまたは音声スペクトル値として符号化はされず、パラメトリックデータとして符号化されるだけである。SBR技術では、これは、スペクトルエンベロープ上のパラメトリックデータ情報である。そこで、SBRデコーダは、使えるバンドからより高いバンド中にスペクトル値をコピーして、その高バンドの緻密なスペクトル構成を設定し、一方、スペクトルエンベロープである粗なスペクトル構成は、パラメトリック付加データによって設定される。従って、実施態様いかんによって、ユーザは、送信されたSBRパラメータによるか、あるいは高帯域だけを含む時間的音声サンプルによるかして、自分が既に持っている帯域の限定された、符号化または符号化されていないデータを、ブロードバンドに増補することができよう。
左、右、及びセンタといった少なくとも3つの再生チャネルを持つマルチチャネル音声再生技術において、BCCの呼び名としても知られるパラメトリック技術は、ますます多く採用されている。BCC技術では、パラメトリック追加データを使って、原理的には、サラウンド再生技術における5チャネルのような任意の数の再生チャネルを生成するために、一つまたは二つのベースチャネルが用いられる。ここで、パラメトリックデータとは、チャネル間レベル差(ICLD)、チャネル間時間差、またはチャネル間コヒーレンス(ICC)情報である。
これらパラメトリックデータは、これら2つのベースチャネルのさまざまな重み付け/組み合わせにより、再生チャネルを生成するために、送信されるステレオのベースチャネルに適用される。
また、こういった状況において、ステレオ2チャネルの音楽作品を既に所有しているユーザは、これは当然ながら非常に低いデータ率しか必要としないパラメータデータを「追加購入」することに関心を持つことであろう。だがこの場合、受信者は、BCCパラメトリックデータを取り扱うためのデコーダを備えなければならない。但し、これに代えて、サービスプロバイダは、このようなパラメトリックデータから左サラウンド、右サラウンド、及びセンタチャネルの3つのチャネル、ならびに、パラメトリックデータによって同時に使う2つのステレオベースチャネルの(理想的)バージョンを生成し、これらを「復号化」された形式、すなわち、パラメトリックデータではない音声データとして、受信者に送信することもできよう。
パラメトリックデータを用いる類似の符号化技法には、「インテンシティステレオ符号化」の呼び名でも知られるものがある。
特に、既にパラメトリックデータから生成済みの時間連続的拡張データを、時間連続的な音声ベースデータに時間同期させて加える場合、例えば、一連の実際的問題が生じ、アプリケーションを成功させるためにこれを解決する必要がある。
全ての拡張データに対し、さまざまな大量の音声ベースデータのうち、既に設計され、生成され、または計算された相手データとともに正確に進行することを確実にすべきである。特に、これは、固有の相手方を識別しまたは関連付けることのできるベースとなる固有の標識をベースデータそれ自体が持たないという事実があるため、難しくなっている。一例として、音楽作品Xのマルチチャネル付加データDXは、この音楽作品Xにだけ付加されるべきで、別の音楽作品Y、または同じ音楽作品Yのリミックス「XR」に付加されるべきではない。参考までに、特にポップロック音楽の分野では、ある作品に対し必ずいくつかのバージョンがあり、これらは、CDに対してはロングバージョン、シングルに対してはショートバージョン、ライブバージョン、またはいわゆる再版もしくはリミックスバージョンなどである。また、クラシック音楽の分野でも、作品がさまざまなオーケストラによりレコードされたという事実だけが理由で、同一の作品に対し多数の演奏がある。このように、言うまでもないが、オーケストラXによるクラシック作品のレコーディングのマルチチャネル付加データは、当然、オーケストラYによる同じクラッシク作品のレコーディングとマッチさせないようにする。
別の問題は、拡張データを、音声ベースデータに対し、正確に時間連続的に照合した形式で提供する必要があり、その逆も必要だということである。これができていなければ、ほとんどの場合、ユーザにとって拡張データは無用なものとなる。音楽作品のマルチチャネル付加情報が、ステレオベースデータに対し少しでもオフセットを持っていれば、明らかに可聴なアーティファクトが、すぐに音楽印象において生じ、そして、ユーザは、その音楽作品の不完全なマルチチャネルバージョンを持っただけのことになり、極端な場合には、そのバージョンは使いものにならない。
また、短縮された形式における音声データもあり得る。例えば、サービスプロバイダが既存のステレオ信号のマルチチャネル拡張を提供することになっている場合、すなわち、マルチチャネル付加データを生成することになっている場合、音楽作品のマルチチャネルバージョンにアクセスができることになるだろう。また、マルチチャネル付加情報を求めているそのサービスのユーザは、音楽作品のバージョン、すなわち、ステレオバージョンを所有する。そのエンドユーザが、例えば、CDに読み込みを行った際、創作中または処理中に、音声データの開始部または終端部を、意図的または無意識に削除してしまった場合、サービスプロバイダのマルチチャネルバージョンと、エンドユーザのステレオバージョンとは、もはや同じ範囲をカバーしていない。マルチチャネル付加データを加える場合には、このような状況を、それが生ずる範囲において考慮に入れる必要がある。
また、音声データが時間的に引き伸ばされるかまたは縮められている、すなわち、より速くまたはより遅く録音/再生された場合、これも付加の際の問題につながる。この場合、正確な縮小/延長ファクタを算定し、拡張データに対しても同じようなやり方を適用しなければならないことになるだろう。例えば、エンドユーザが、ラジオから自分のステレオバージョンを録音した場合、それを元より3%まで速くまたは遅く再生するようなことがあろう。同様に、エンドユーザが、音楽作品の延長/伸長または縮小/短縮バージョンを有する場合、これもマルチチャネル付加データに関連する。
さらにまた、前記すべてのデータが、音声ベース信号がその原型のままで残っているのかどうか、あるいは、例えば、送信での音声符号化によって、ある程度の範囲内で変形されてしまっているのかを判断することもできなければならない。エンドユーザのステレオバージョンが、アナログカセットレコーダからダビングされている場合、これによって音楽作品の品質は変化(劣化)している。マルチチャネル付加データの追加は、これらの(より困難な)条件下においても、原則として機能する必要がある。
なお、例えば、音楽作品の開始部または終端部のデータの削除は、「短縮(shortening)」と理解される。これに対する英語の用語は、「クロッピング」である。一方、「縮小」は、例えば、より高速な再生による時間軸のリニアな変形とも理解され、これはデジタル技術の「リサンプリング」すなわち変更されたサンプリング周期への変換に相当する。同様に、「伸長(lengthening)」はデータの追加をいい、「延長(stretching)」は、逆方向への時間軸のリニアな変形、すなわち、よりスローな再生を意味する。
技術の点から、特に、シネマ映像技術の点から、時間同期法が知られており、ここでは、通常、タイムスタンプとも言われる時間コード標準が使われる。映像構成要素及び音声構成要素双方の中の時間コードを正確に照合させることによって、画像の流れに照合した音の再生が確実になる。このような時間コードによって、音声及び映像データ、ならびにマルチメディアデータの同期化が可能になる。しかし、通常、こういったものは消費者用の音声フォーマットでは存在しない。作品のステレオバージョンを包含するCDは、一意的に標準化された、または一般に認められたどんな時間コードも内蔵していない。また、通常の映像シーケンスを付加情報で「増強」して、より高い解像度の映像シーケンスを得るための、一般に認められた時間同期技法もない。
従って、音声及び映像双方の領域におけるベース情報への付加情報の追加は、BCCエンコーダが、マルチチャネルバージョンに沿ってBCCパラメータを生成する場合のように、ベースデータと付加データとの双方が、「一体成型」で生成される場合であって、任意のベースチャネルを使うのでなく、このマルチチャネルバージョンから導き出されたベースチャネルだけに基づいてBCC復号化が可能な場合にだけ、うまく追加を実施できる。こういった状況は、拡張可能エンコーダまたはSBRシステムについても同様である。これらについても「一体成型から」作成される、というのは、SBR付加データまたはより高次の拡張レイヤは、正確に一つの基本レイヤまたは一つの低帯域信号だけに照合し、それがデータ生成において既に利用可能となっていなければならないからである。任意のベースデータについては、そういったものをユーザが保有し、既にユーザによって意識的にまたは無意識に操作されている(音質劣化)ことがあるが、「一体成型」の原則に従う考え方では既に定義上からもうまくいかない。
たとえば、“時間スケール音声の確固たる識別(Robust Identification of Time−Scale Audio)”、AES第25回カンファレンス、ロンドン/イギリス、2004年7月において、ロルフ バルデリおよびフランク クルスらは、ブロードキャストトランスミッターによって音声信号の確固たる識別の方法を示している。
たとえば、同じ音楽作品が異なるスピードで再生されるという事実によって、そのような信号の識別が困難にさせる。著者らは、スケールされた音声信号の識別、すなわち、たとえば、異なるスピードで再生された音楽作品の識別も考慮する識別方法を提案する。
本発明の目的は、付加データとベースデータとを同期させるための実際的で確固たる構想を提供することである。
この目的は、請求項1の同期化のための装置、請求項1のサーバ装置、請求項1のクライアント装置、請求項1の同期化の方法、請求項1のサーバの方法、請求項18のクライアントの方法、または請求項19のコンピュータプログラムによって達成される。
本発明は、付加データ及びベースデータの同期化は、既に音声識別に採用されているフィンガープリント技術を使えばうまく実施できるという発見に基づいている。ユーザが、拡張データが欲しい自分のベースデータのフィンガープリントを提示すれば、その付加情報を提供するプロバイダは、それがどのような音声ベースデータの作品か、すなわちアーティストは誰で、レコードされたのは何年かなどを一意的に識別することができる。
特に、現在のフィンガープリント技術は十分に発展していて、音質劣化または欠損符号によるひずみに対して強固であり、また、スタジオバージョンのフィンガープリントから、または、例えば短縮されたシングルバージョンのフィンガープリントから、ライブバージョンのフィンガープリントを独自に区別できる機能を有する。
作品の識別を行った後、これはユーザとプロバイダとの間での明瞭なテキストの交信でも実施できるが、多くの場合この手続きは面倒である、検証データの検証フィンガープリントが得られ、これはその検証データの検証時刻を表している。ここで、現代のフィンガープリント技術の特性、通常、作品の識別を提供するばかりでなく作品に関する特定の時刻をも示すという特性を利用する。技術的には、検証データのフィンガープリントが時間データの検証時刻を表している場合、こういったフィンガープリントを「内部時間スケール付きフィンガープリント」ともいう。
参照データを、例えばユーザが持っているベースデータとすることができ、参照データの中の参照時刻による参照時刻情報が特定され、この特定は、通常のフィンガープリント処理技法による検証フィンガープリントを使って行われる。通常、このような「フィンガープリント照合システム」は、検証フィンガープリントを、なんらかの方法で、望ましくは検証フィンガープリントと参照データからの参照フィンガープリントとの間で最大限の照合が得られるまで、時系列的参照データを通して検証フィンガープリントをシフトさせる。次いで、検証フィンガープリントに対し最適な照合が得られた参照データの時刻は、検証フィンガープリントが参照した検証時刻と照合する。このようにして、検証データとベースデータとが同期する箇所に到達する。
この参照時刻情報と、検証時刻による検証時刻情報とに基づいて、付加データまたはベースデータの、だが望ましくは付加データだけの操作が、操作済みデータが得るために、最終的に行われて、この操作は、その操作済みデータに従ってデータ情報の同期された再生が可能となるように付加データまたはベースデータが操作されて行われる。
その操作の一つの形は、望ましくは、ベースデータの短縮を可能にする開始部オフセットまたは終端部オフセットを設定することにある。別の操作は、ベースデータまたは付加データ、だが望ましくは付加データを縮小/延長するための縮小/延長ファクタを取り入れて、これを正確に(延長/縮小されている)ベースデータに照合させることにある。
これによって、付加データ及びベースデータによる単一の音声ファイルが作成されているか、あるいは、例えば、操作済み付加データは独自単独のファイル中にファイルされ、ベースデータに対する固有の時間参照値とともに備えられ、ベースデータに合わせ「調整されている」かどうかに関係なく、すべての情報、すなわち付加データ中の情報及びベースデータ中の情報両方の時間同期された再生が達成される。
前者のケースでは、操作済みデータには、完全に新しく作成された音声ファイルが含まれる一方、後者のケースの操作済みデータは、例えば、操作された付加データだけであり、ユーザ側のベースデータは特にサンプルされていない。この第二の方式は、ユーザが、自分にとって貴重なものであり、愛着を深めてきた自分のベースデータを確保したいと欲している場合、それがまったく手付かずのまま残るという利点がある。但し、この状況では、ユーザは、再生、すなわちスピーカからの出力に先立って、2つのデータストリームを融合させる再生装置を必要とするという不利点がある。
ベースデータと付加データとを単一のファイルに直接的に融合させるユーザには、この必要はなく、そのまま通常の再生装置で再生することができる。
また、当然ながら、第一のケースでも、ユーザは自分の音声ベースデータのコピーを保持しながら、さらにベースデータと付加データとを単一のファイルに融合し、ステレオバージョンと5.1バージョンを共に利用することができる。
なお、付加データは必ずしも時間的サンプルである必要はなく、パラメータデータであってもよい。付加データがパラメータデータである場合、付加データの操作は、ベースデータを参照する固有の同期化情報に関連する付加データに対するものとなり、この同期化情報を、例えば、時間コードまたは前記のようなフィンガープリントとして、マルチチャネルデコーダが、同期化情報とともに提供されるBCCパラメータ、またはパラメータから導き出された時間離散的デジタル音声信号を使って、対象ベースデータに正確に連関するマルチチャネルの再形成を行えるようにすることができる。特に、例えば、ブロックの中に存在するパラメータの操作についても、ユーザが意図的にまたは無意識に行うことのあるベースデータの開始部または終端部の短縮を説明するために、付加データの開始部または終端部のパラメータ情報を切り取りすることにある。
なお、こういった操作は、ユーザが自分で音声/映像をレコーディングしていたり、自分のCD/DVDからコピーしていたりする場合、特に多く行われる、というのは、この両方のケースでは、不可能とまで言わないまでも、スタジオが発行したままの作品の開始部と終端部を正確に「把握する」のは困難だからである。特に、作品がフェードアウトしている場合に、こういったことはその作品の終端部で問題になる。また、特にラジオからのレコーディングでは、作品の開始部を見つけるのが難しい。このような場合、作品が休符で開始されたのかその休符がどのくらいの長さかを一意的に判断することができず、また、作品が実際は最初のドラムビートで開始されたかどうかの判断もユーザには難しい、というのは、ユーザは、このドラムビートと同時点でレコードボタンを正確に押さなければならないことになるからである。
また、現実状況として、縮小/延長の問題は非常に多い、というのは、完全に同一な速度で作動するアナログの再生装置/レコーディング装置は、ほとんど存在しないからである。また、デジタル再生装置/レコーディング装置では、同期された再生は、究極的には再生装置のクロック発振器に依存するので、多かれ少なかれ正確さに、特に市販品の低価格エンドに近くなるほどその品質は低くなる。一方で、経済的にもっとも関心を持たれているマーケットセグメントは、まさに市販品の低価格エンドである、というのは、もともとこの価格帯で販売される装置の数が一番多いからである。
以下に、添付の図面を参照しながら、本発明の好適な実施形態を詳しく説明する。
図1は、付加データ及びベースデータを同期させるための本発明の概念のブロック回路図である。
図2は、好適な応用事例のフローチャートで、クライアントがサーバと交信している。
図3は、フィンガープリントシステムの概略図で、フィンガープリントは、フィンガープリントの元となったデータの時刻を参照する。
図4は、検証フィンガープリントを使った参照時刻情報の算定の概略図である。
図5は、本発明の好適な実施形態による、2つの検証フィンガープリントを使った、縮小/延長の判定の略図である。
図6は、本発明の好適な実施形態による、付加データを操作するステップの概観図である。
図7は、本発明の好適な実施形態において必要なサーバデータベースの概略図である。
図8は、本発明の好適な実施形態による、サーバとクライアントとの間の交信のシステム図である。
図1に基づいて、付加データとベースデータとを同期させるための本発明の装置を参照する前に、まず、フィンガープリントが導き出されたデータの、ある時刻またはいくつかの時刻を参照するそのフィンガープリント、すなわち、図3に基づいて、内部時間スケールを持つフィンガープリントについて説明する。言い換えれば、図3中のフィンガープリント30は、それが導き出された図3中の音声信号31の時間スケールを備えている。それゆえ、音声信号31の時間構造は、フィンガープリント30の時間構造と一致する。そこでフィンガープリント30の時間的進行は、音声信号31の時間的進行に合致する。
図3に示す例において、音声信号31は、一連の時間セグメント1,2,3、…、7を含む。各時間セグメントから、知られたフィンガープリント法によって個別のサブフィンガープリントSFPiが算出される。このように、サブフィンガープリントSFT1は、音声信号のセグメント1に対応し、例えば、SFT6は、音声信号のセグメント6に対応する。一般に、サブフィンガープリントSFPiは、音声信号のセグメントiに結びついている。
典型的フィンガープリント計算方式は、音声信号の窓処理に基づいて、例えば、音声信号のセグメント1を「切り出す」ようになっており、これは、例えば、2048の数の時間サンプルで構成されている。そこで、例えば、2048のスペクトル係数を含むスペクトル表現を得るために、音声信号の第一セグメントを表す時間サンプルブロックの、スペクトル領域への変換が行われる。データを削減するために、次いで、各スペクトルバンドからさまざまな特性を抽出するために、スペクトル係数のいろいろなバンドへの分類が行われる。こういった特性は、例えば、音調指標、音の強さの指標、いわゆるMel周波数スペクトル係数、音声スペクトルエンベロープ、または、バンド内のスペクトル係数の平均値や分散といった他の統計的数値、もしくはより高次の統計的モーメントである。フィンガープリント技術によっては、次いで、最後に音声信号の第一セグメントのサブフィンガープリントSFP1を得るために、これら「生特性」のさらなる処理が行われる。
このとき、音声信号の第一セグメントのサブフィンガープリントSFP1は、第一セグメント自体がもたらすデータの量と比べて低減された量のデータを有する。その一方で、サブフィンガープリントSFP1は、第一セグメントの特徴である。また、SEP1には、このセグメントの識別のために必要なセグメント情報が包含されている。これに関して、識別とは、このサブフィンガープリントSFP1に基づいて、音声信号の第一セグメントを、その音声信号の別のセグメントまたは別の音声信号のセグメントから高い確率で区別できることを意味する。
音声信号31全体に対しこの手順が実施された後に、個別サブフィンガープリントの連なりで構成された音声信号のフィンガープリントが得られる。
なお、図3は、音声信号の時間的進行に対応して時間的に進行する内部時間スケールを持つフィンガープリントを例示しただけの典型例である。それゆえ、図3に示すように、これらセグメントを互いに分離する必要はないが、音声符号化技術で知られているように、例えば、これらを50%ずつオーバーラップさせることもできる。さらに、得られたフィンガープリント30が、音声信号との時間的つながりを有している限り、すなわち、フィンガープリントが、データ中の時刻を参照している限り、例えば、平均することによって、個々のSFPiを、再び、相互にオフセットすることができる。図3に示す実施形態において、サブフィンガープリントSFP1は、第一セグメントの開始点の時刻を参照し、サブフィンガープリントSFP6は、第6セグメントの開始点の時刻を参照する。なお、この関連付けは単なる例示である。対応して合わせてあれば、サブフィンガープリントは、セグメントの終端、またはセグメント内の任意の所定値、例えばセグメントの中間を参照することもできる。
引き続き、図4に基づいて、参照時刻情報を算定するための好適な技法を提示する。図4に示す実施形態において、図4において40で示されている、例えば、ベース信号の参照フィンガープリントは、図3のフィンガープリント30について説明したような形で存在する。図4に示す例において、ベース信号の参照フィンガープリントは、Trの長さを持つベース信号を参照している。さらに、図4には、検証フィンガープリント41が示され、これも、個別のサブフィンガープリントで構成されており、原理的には、図3のフィンガープリント30のように構築することができる。図4に示すように、検証フィンガープリントは、Ttの長さを持つ検証信号を参照している。さらに、検証フィンガープリント41は、検証信号の検証時刻または検証オフセットt0を参照することによって、時間情報を有している。図4の機能性を例示するため、検証フィンガープリントを導き出した検証信号は、図4における42でデザインされたベース信号部分の抽出であるとする。参照フィンガープリントにとともに検証フィンガープリントの時間相関を行う場合、検証フィンガープリントと参照フィンガープリントとの間の相関を時間ステップごとに行う。例えば、参照フィンガープリントの最初の5つのサブフィンガープリントを、検証フィンガープリントの5つのサブフィンガープリントと対比することから始めることができよう。この対比により、特定の照合指標が得られる。そこで、次のステップにおいて、参照フィンガープリントの2番目から6番目までのサブフィンガープリントが、検証フィンガープリントの5つのサブフィンガープリントと対比され、同様な照合指標が得られる。これは、図4に描かれた参照時刻から始まる参照信号の5つの検証フィンガープリントが、検証フィンガープリントの5つのサブフィンガープリントと対比されるまで実施される。検証信号が、ベース信号からの抽出であるこの例示のケースでは、非常に高い照合性、すなわち、100%の照合性が得られることになろう。このように、フィンガープリント点検アルゴリズムによって、絶対参照時刻あるいは相対参照時刻を含む参照時刻情報が出力され、これも、図4中に参照オフセットTX42として示されている。
説明した例において、フィンガープリントアルゴリズムは、このように照合指標及びTXを出力する。本発明によれば、フィンガープリント点検アルゴリズムのこの特質を使って、さらに、検証オフセットt0、または広く言えば検証時刻情報を、参照オフセット、または参照時刻情報と対比することができる。検証オフセットt0は先験的に分かっている、というのは、特定の時刻のベース信号の部分42から得られたものだからである。
図4に示すケース区分の第一ケース44、前記に挙げた例はこれに当たるが、このケースでは、検証オフセットt0は、参照オフセットtXに等しくなっている。このことは、ベース信号は、参照信号として同じ開始点を持つという点で合っていることを意味する。次に、さらにケース45及び46を見ると、検証信号は参照信号またはベース信号と照合していない、すなわち、ベース信号中に、検証フィンガープリントが導き出された検証信号と比較して信号の伸長または短縮が存在する。
検証信号が、参照信号からの直接抽出であるような単純なケースでは、状況は次のようになる。例えば、参照信号Srは、200秒の長さを持つ。検証信号Stとして、参照信号の抽出42が選定され、これは42秒目(参照時刻)から始まり10秒の長さ(Tt)を持つ。ここで、この双方の信号から、図3により説明した方法によってフィンガープリントが計算される。但し、一般に、フィンガープリントが、それが計算された信号の時間進行と合致する時間進行を有する限りにおいて、既知の任意のやり方でフィンガープリントを計算することもできる。このフィンガープリント、及び、例えば、おそらくオプションとして参照フィンガープリントデータベースに格納された別のフィンガープリントの助力によって、音声フィンガープリント法システムは、前記の参照信号Srとの関連とは別に、図4により示すように、処理中の追加情報として約82秒の時間オフセットToffを提供することになる。
図8は、エンドユーザ80とサービスプロバイダ81との間の相互のやり取りを示す。例えばサービスプロバイダ81は、図7に示すような、データベースを持つサーバであり、これについては後記でさらに説明する。一方で、エンドユーザ80はステレオ音楽作品82を持っており、サービスプロバイダ81のサービスを使って、これからマルチチャネル5.1の音楽作品83を生成したいと望んでいる。この目的達成ため、エンドユーザ80は、クライアントプログラム84を入手し、最初に、特定のステレオ音楽作品の参照フィンガープリント85を、図8に示す実施形態のサービスプロバイダ81に送信することになる。
サービスプロバイダ81は、図7に示すデータベースを持っており、これにはいくつかの列/入力項目が含まれる。第一列71には、さまざまな識別情報IDi、IDi+1、IDi-1があり、これらの識別情報を、前もって図7のデータベースの中に格納されたステレオ音楽作品の参照フィンガープリントとすることができる。次いで、サーバ81は、十分な照合性が得られたならば、参照フィンガープリント85の元となったステレオ音楽作品が、データベース中の識別情報IDiによって既に分かっている音楽作品であることを提示するために、参照フィンガープリント85を受信し、それを列71の入力項目と比較する。
ユーザが、マルチチャネル拡張データの保有を望む本発明の用途の例では、照合の後、次いで、データベースは、識別情報IDiと関連するマルチチャネル拡張データにアクセスすることになり、図7に示すケースでは、データベースの列72の中にこのデータを置くことができる。さらに、例えば、列72中のマルチチャネル拡張データが属するベースデータに由来する、列73中の少なくとも一つのベースデータフィンガープリントにアクセスすることもできる。
その実施形態において、列72中のマルチチャネル拡張データが属するベースデータは、理想的な、もしくは、少なくとも正確に規定された参照フィンガープリント85の元となったステレオ音楽作品のバージョンであるとよい。参照フィンガープリント85の要請に対応して、サーバは、図8の86に示すように、列72からマルチチャネル拡張データ、及び、そのマルチチャネル拡張データに関する一つの、望ましくは少なくとも2つの検証フィンガープリントを提供する。
エンドユーザのクライアントプログラム84は、マルチチャネル拡張データ及び検証フィンガープリント86を受信し、次いで、参照データ中の参照時刻によって参照時刻情報を算定する。このケースでは、参照データはベースデータと同じ、すなわち、クライアントプログラムが、当初に送信した参照フィンガープリント85の元のステレオ音楽作品と同じである。この目的達成のため、クライアントプログラム84は、一つまたは複数の検証フィンガープリントを使って、図4によって既に説明したような方法を実行する。次いで、クライアントプログラム84は、参照時刻情報の算定結果いかんによって、望ましくは、操作済みデータを得るために、付加データを操作する。この操作済みマルチチャネル拡張データは、対象のステレオ音楽作品82に正確に合わして調整される。これにより、ベースデータ82及び拡張データ72双方のデータ情報を、最終的に同期させて再生することができる。
図8によって示したように、本発明の用途の一つのシナリオは、音楽愛好者に対し、これらの人々が既に持っているステレオ音声のマルチチャネルフォーマット5.1への拡張を、インターネットを介して提供するサービスを行うことにある。この目的のため、サービスプロバイダは、音楽作品のマルチチャネルバージョンから、対応するステレオバージョンのためのマルチチャネル付加データ(図7の列72)を生成し、それらを、エンドユーザが取得できるように用意して図7に示したデータベース中に保持する。
これを受け、音楽愛好者(エンドユーザ80)は、マルチチャネル技術への拡張が実施できるように、これら付加データを、例えば、パソコン中に取り入れる。このように、サービスプロバイダのサーバからマルチチャネル付加データをロードしたエンドユーザのプログラムは、既存の音楽データを開きマルチチャネル付加データを加え、双方をファイルに格納する、これら音楽データは、これによりステレオアンプだけでなく5.1アンプにも適合する。かくて、音楽愛好者は、特定の音楽作品の自分のステレオバージョンに加えて、マルチチャネルバージョンを手に入れ、サービスプロバイダは、エンドユーザが既に所有しているデータの、エンドユーザからサーバへの往復といった不必要な送信を行うことなく、サービスの対価を受け取る。
引き続いて、図1により、付加データとベースデータとを同期させるための本発明の装置に進むが、これは、例えば、図8に示したシナリオによって、エンドユーザのパソコン上のクライアントプログラムの範囲内で完全に実行することができる。本発明の装置は、付加データとベースデータとを同期させるよう機能し、付加データ及びベースデータは、規定された時間進行を有し、一緒に同期して再生できるデータ情報を包含する。第一に、その装置は、検証データの検証フィンガープリントを提供するための手段10を含み、そのフィンガープリントは、検証データの検証時刻を参照する。
手段10の機能性は、交信85またはマルチチャネル拡張データを望むエンドユーザの作品の一般的なプレーンテキストにより実施可能な識別手順によって、先行して行われる。ここで、ユーザは、図7によって示すような、列71中の正確な識別情報を見出すためのデータベースへのアクセスについては、明確な信号伝達で行い、自分の作品を正確に識別するようにする。
望ましくは、一方では、エンドユーザに最大の便宜を供与するため、クライアントプログラムは、フィンガープリントプロセッサを備え、ユーザが、最終的に欲するマルチチャネル音楽作品のステレオ版音楽作品の参照フィンガープリントを自分で処理しなくてもよいようにする。手段10が備える機能を実施する前に、望ましくは、音声フィンガープリント法システムの助けを借りて音声ベースデータの識別が行われる。これにより、音声ベースデータの拡張データへの関連付けが可能になる。この関連付けによって、音声ベースデータと拡張データとが、一意的に関連付けられることは達成されたが、まだ、音声ベースデータのセットと拡張データのセットとを、正確に時間同期させる仕事が残っている。
検証フィンガープリントが参照する検証データは、提供するための手段10から、参照時刻情報を算定するための手段11に提供され、その検証データを、付加データそれ自体とすることも、ベースデータとすることも、あるいは、付加データまたはベースデータから導き出したデータとすることもできる。望ましくは、検証データは、図7のデータベースの列72の中のマルチチャネル拡張版を作成するために使われたような、理想的バージョンのベースデータであろう。付加データを使ってユーザがアップデートしたいベースデータは、理想的ベースデータの現実バージョン、すなわち、検証フィンガープリントを導き出した理想的バージョンに対して変更が加えられているユーザの既存バージョンである。
このような変更には、欠損のある符号化、または、例えば、カセットレコーダのようなアナログ再生装置からのレコーディング、また、スピーカからのレコーディングによる音質劣化などがあるだろう。他の操作には、ベースデータの開始部または終端部の短縮、あるいはベースデータの延長/縮小などがある。
また一方、検証データを付加データそれ自体とすることもできる。これは、例えば、ベースデータとしてステレオ信号に対し、センタチャネルを付加データとして送る場合などには利点がある。こうして、センタチャネルは、元のステレオ信号の左右のチャネルと非常に高い類似性を持つことになる。また、こういったように、手段11が、検証フィンガープリントとして拡張データのフィンガープリントを包含している場合、高い確率で正確な参照時刻情報を算定することができることになろう。しかし、検証データを付加データまたはベースデータから導き出すこともできる。この場合、検証データを、ベースデータまたは付加データの符号化されたバージョンとすることができる。さらに、例えば、BCCパラメータまたはISパラメータ形式のパラメータデータを使う場合、一つのデータ表現から他のデータ表現に変換するため簡単なパラメータ復号化を行う必要はあるが、この限りにおいて、検証データを、後の処置において実際の音声データと比較可能なパラメータ表現とすることができよう。
ここで、以降の説明の意味を明確にするために、検証フィンガープリントは、ベースデータの理想的バージョン、すなわち、図7の列72に記載したようなマルチチャネルデータが実際に属し、その元となったベースデータのフィンガープリントであると想定する。
図7に示すデータベースを保持するために、ベースデータそれ自体ではなく、小さな、理想的ベースデータのフィンガープリントだけを、データベースに格納する。当然、図7のデータベースに、ベースデータ全体を含め、要請があった場合のみ、データベースに入っている理想的なベースデータからフィンガープリントを計算し、それをエンドユーザに送信することもできよう。しかしながら、データベースが、マルチチャネル拡張データとベースデータの検証フィンガープリントだけを含める実施方法は、メモリ節約的なデータベースにつながり、また、別途フィンガープリントを計算する必要がないので、ユーザ要求に対するより速い対応が可能になる。
参照時刻情報を算定する手段11は、この情報を提供し、これは参照データ中の参照時刻に依存し、一般的に言えば、その参照データは、検証フィンガープリントの元となったデータではない。参照時刻情報を算定するため、手段11は、手段10から提供された検証フィンガープリントを用いる。また、この目的達成ため、手段11は、図1に示すように、実際のステレオ信号、すなわちマルチチャネルデータで「充実」される対象のベースデータをも取得する。図1の参照データは一般的にこのデータをいう。
本発明の好適な実施形態において、参照時刻情報及び検証時刻情報の双方、またはマルチチャネル拡張データ、または一般に言う付加データが、手段12に供給される。手段12は、参照時刻情報と、検証フィンガープリントが参照する検証時刻に依存する検証時刻情報とを使って付加データを操作するよう機能する。付加データはもとよりベースデータも操作する手段12は、出力側から操作済みデータを提供し、例えば、次いで、再生手段13がこれを用いて、出力側に5.1サウンドを生成する。
なお、付加データに換えて、ベースデータ、すなわち実際の参照信号を、短縮したり、伸長したり、延長/縮小したりなど操作することもできることを指摘する。この場合、操作済みデータは操作されたベースデータ(参照データ)となり、付加データは手付かずのままとなる。当然ながら、操作手段12が付加データ及びベースデータの操作を実施し、操作されたデータによってデータ情報の同期した再生ができるということであれば、混成操作、すなわちベースデータ及び付加データ双方の操作も可能である。
先に述べたように、操作済みのデータを新規の5.1ファイルとすることができ、または、同期されたデータは、操作済みベースデータだけをあるファイル中に含め未操作の付加データを別ファイル中に含める、または、未操作ベースデータを一つのファイルに、操作済み付加データ別ファイル中に含める、または、操作済みベースデータ及び操作済み付加データの両方をそれぞれのファイル中に含めることができる。別ファイルの場合、手段13は、対応するアンプからの制御に先立って、これら2つのファイルを融合するように形成される。
本発明の好適な実施形態において、ここでは付加データだけが操作され、操作を終えた手段によって完全に新しいファイルが形成され、その中では全データ情報が一緒に、すなわち同期化された状態で包含されている。
図2は、クライアントプログラム84とサーバプログラム81との間の交信の好適な実施形態を示す。
最初のステップ20において、クライアントプログラムは、最終的にマルチチャネル信号にする予定の、実際のステレオ信号から参照フィンガープリントを生成する。
ステップ21において、この参照フィンガープリントは、クライアントからサーバに送信される。ステップ22において、サーバは参照フィンガープリントを受信し、理想的なステレオ信号を、図7に関連して説明したように、例えば、データベース検索によって識別する。
ステップ23に至って、サーバはそのデータベースにアクセスし、最終的にクライアントプログラムに送信することになる拡張データを準備する。
ステップ24において、サーバは、その拡張データが属している理想的音声信号の、一つまたは望ましくは2つのフィンガープリントを生成する。ステップ24におけるこの生成は、サーバ自体による実際のフィンガープリント計算によって行うことも、望ましくは、完成した検証フィンガープリントが既に存在するデータベースの列73にアクセスすることによって行うこともできる。
ステップ25において、望ましくは、これら2つの検証フィンガープリントは、次いで、クライアントに供給される。ステップ26において、図1の手段11は、参照データ中の参照時刻によって参照時刻情報を算定するために、このときアクティブになる。望ましくは、その参照時刻情報は、縮小/延長ファクタ(SSファクタ)及び参照オフセットである。
次いで、ステップ27において、SSファクタに従って拡張データを延長または縮小し、また、必要に応じその開始部または終端部の付加データの切り取りを行うために、クライアントはその操作手段をアクティブにする。
本発明の好適な実施形態のステップ28において、クライアントは、次いで、例えば、5.1サラウンド形式におけるマルチチャネルファイルを生成し、それを図1の再生手段13によって再生する。
以下に、図4に基づいて、図1の操作手段12の第一機能について説明する。その機能は、拡張データに対する音声ベースデータの短縮度合い及びその音声ベースデータの関連時間オフセットの算定にある。この短縮度合いが算定されたならば、その短縮を行うことによって拡張データを操作することができる。図4に示す検証オフセットt0は、ベースデータの理想的バージョン、すなわち、図7の列72中のマルチチャネル拡張データに関連するステレオデータの理想的バージョンに対する検証フィンガープリントのオフセットをいう。
既に図4のケース44で説明し図示したように、検証オフセットt0が、参照オフセットtXに等しい場合には拡張データの操作をする必要はなく、これは手段11により判定される。しかしながら、検証オフセットt0が、参照オフセットtXより小さいと判定された場合は、ベース信号が長すぎることが分かる。実際上の運用シナリオでは、このことは、ユーザが自分の実際のベース信号を長くしすぎた、すなわち開始部分に、理想的なベースデータには含まれていない休符を加えたことを意味する。このケースでは、図4の45に示すように、追加のデータで埋めてやる必要がある。この埋め入れをさまざまな方法、例えば、ゼロの挿入または補間法、予測法によって行うことができる。
手段11が、参照オフセットtXは検証オフセットt0よりも小さいと判定した場合、すなわち、図4のケース46であると判定した場合、このことは、ベースデータが短すぎる、すなわち、そのベースデータのレコーディング中にユーザによって意図的にまたは無意識に短縮してしまったことを意味する。このケースでは、2つのオフセットの間の差に応じて付加データの開始部を切り取ることによって、同様に付加データをこの状況に合わせる必要がある。
これを、以下の例によって説明する。音声ベースデータを(一つの)参照信号(長さTr)と見なし、これと時間同期されて存在する拡張データまたは対応する音声データは(一つの)検証信号(長さTr)と見なす。具体的には、検証信号のフィンガープリントを取り上げると、これは時刻tXから始まり、y秒の長さをカバーしている。ここで、音声フィンガープリント法システムの連関技法を使って検証フィンガープリントと参照フィンガープリントとを比較すると、検証フィンガープリントがもつ参照フィンガープリントに対するオフセットにおいて得られた計算値から、音声信号の開始部におけるデータの欠損に関する個別の計算値を得ることができる。そのオフセットがtXに等しい場合には、音声ベース信号は短縮も伸長もされていない。オフセットがtXより小であれば、音声ベース信号はtX−Toffだけ短縮されている。オフセットがtXより大であれば、音声ベース信号はToff−tXだけ伸長されている。
この手段を使って、前記で定義したような「短縮」及び「伸長」の意味で、音声ベース信号の開始部の長さの変化が認知される。但し、時間オフセットの算定だけで、拡張データの音声ベースデータへの時間同期の接続点は既に算定されている。
検証及び参照信号の全体的長さは、例えば、個別のデータに内在するサンプリング周波数にアクセスすることによって、既存の音声データから分かっているか、または計算することができる。また、相互の相対的時間オフセットに関する情報と併せ、検証信号に対し、理想的検証信号と比較して、参照信号が、実際のベース信号の終端部で短縮/伸長されているかどうかが分かる。操作手段12は、こういった状況にも対応し処置するよう形成されている、すなわち、拡張データの終端部をゼロで埋めるか、補間するか、または予測値によって埋めるか、あるいは、拡張データの終端部の特定の時間的長さの特定のセグメントを切り取りまたは削除してこれを短縮するように形成されている。
なお、開始部または終端部の短縮/伸長は、必ずしも、対応する値の削除によって対処する必要はなく、これに関し、短縮または伸長は、付加データ中の削除対象のデータ値は、一般的に、付加データをベースデータに照合させる際、すなわち再生において取り入れられないという事実面からも考察することになる。
以下に、図5を参照して、音声ベースデータの縮小/延長ファクタ(SSファクタ)の算定に進む。図5は、50に、参照信号または音声ベースデータの例として、実際のステレオ信号を示す。図5において、対応する理想的ステレオ信号または検証信号は52で示す箇所に描かれ、その信号から、図7の列27中のマルチチャネル拡張データのような付加データが導き出される。本発明の好適な実施形態において、縮小/延長ファクタを計算するため、縮小/延長ファクタを含む参照時刻情報の算定手段は、第一検証フィンガープリント及び第二検証フィンガープリントを取得する。理想的ステレオ信号の中の第一検証フィンガープリントによりスイープされる時間範囲は、図51中の51aでデザインされる。同様に、第二検証信号に含まれる理想的ステレオ信号の時間部分は、51bでデザインされている。さらに、第一検証フィンガープリントは、検証時刻taに関連付けられており、第二検証フィンガープリントは、検証時刻tbに関連付けられている。taとtbとの時間間隔をΔTtestと称する。
図1の、参照時刻情報を算定するための手段11は、参照時刻情報として、第一検証フィンガープリントを使って第一参照オフセットTaoff、及び第二検証フィンガープリントに対する第二参照オフセットを算定し、第二参照オフセットをTboffと呼ぶ。ΔTrefが、ΔTtestの実際のステレオ信号中の2つのオフセットの時間差と等しければ、ケース53に該当し、縮小/延長ファクタSSは1に等しい。従って、実際のステレオ信号、すなわち参照信号またはベースデータの延長/縮小は行われていない。しかし、縮小/延長ファクタが1より大きな場合には、ケース54に該当し、実際のステレオ信号は延長されていることになる。これにより、付加データも同じファクタSSによって延長する必要がある。一方、縮小/延長ファクタが1より小さな場合には、ケース55に該当し、実際のステレオ信号は縮小されていることが示される。従って、このケースでは、操作手段12は、実際のステレオ信号の縮小判定への対処として、これも、マルチチャネル拡張データなどの付加データの縮小を行うことになる。
時刻taから始まる検証信号のフィンガープリントによって時間オフセットTaoffの算定がされる。次いで、時刻tbから始まる検証信号のフィンガープリントによって時間オフセットTboffの算定が行われる。実際上の適用において、フィンガープリントの時間長さをtb−taより短くすることができる。しかし、必ずそうする必要があるわけではない(=フィンガープリントのオーバーラップ)。検証信号において、双方の検証点の間の時間差は、ΔTtest=tb−taとして知ることができ、または与えられる。参照信号については、時間オフセットからΔTref=Tboff−Taoffとしてこれを計算することができる。これから、SS=ΔTref/ΔTtestとして、縮小/延長ファクタSSを得ることができる。
SS=1の場合、音声ベースデータの縮小/延長はなく、この点では、拡張データを変更しないで取り入れることができる。SS<1の場合には、音声ベースデータに縮小があるので、拡張データを同じSSに合わせる必要がある。SS>1の場合には、音声データベースに延長があるので、拡張データを同じSSに合わせる必要がある。
なお、最後に、一貫した音声フィンガープリント方法の使用が望ましいことを指摘する、というのは、こうすることによって、欠損した符号化/復号化、または、例えば、アナログ再生装置からのレコーディングなどによる意図的または無意識の音質劣化のような、特定の範囲内で信号処理に関し音声ベース信号の変化が生じたとしても、その方法によった、すべての参照時刻情報計算及び付加データの操作が確実に機能するからである。
図6に基づいて、図1の手段11及び図1の手段12の望ましい機能順序を、再度、以下に説明する。手段11は、最初に、参照時刻としてベースデータの延長/縮小についての情報を算定し、算定した縮小/延長ファクタSSを乗算することによって付加データADの縮小/延長を行う。これにより、最初に操作された付加データAD’が得られる。ここで、最初に操作された付加データAD’の開始部の部分Aが(図6の)2に示すようにして算定され、その部分Aは切り取られる。これにより、さらに操作された付加データAD’’が得られる。
ここで、付加データAD’’は、図6の2.3.)に示すように計算された終端部の部分Eによって切り取られる。これにより、最終的に、操作された付加データAD’’’が得られる。次いで、好適な実施形態のこのシーケンスの最後において、ベースデータと操作済み付加データAD’’’とがファイル中に融合され、従来型のマルチチャネル再生装置でこれを再生することができる。
いくつかの例によって、以下にこのシーケンスを説明する。クライアントプログラムは、ステレオ音楽作品の参照フィンガープリントを計算し、それをインターネット経由でサービスプロバイダのサーバに送信する。これは音楽作品を識別し、そのステレオ音楽作品のマルチチャネル拡張データ一式と60秒点及び120秒点の2つの検証フィンガープリント(それぞれ15秒の長さ)をクライアントプログラムに送信する。クライアントプログラムは、音声フィンガープリント法のアルゴリズムを適用することによって、両方の検証フィンガープリントに対する時間オフセットを算定する。時間オフセット値の差から、縮小/延長ファクタは1.03と算定される。これを対応するマルチチャネル拡張データに適用する。60秒点における検証フィンガープリントに対する時間オフセットの計算から57.3秒が得られる。これにより、マルチチャネル拡張データは、開始部で(60×1.03−57.3)秒短縮することが必要になる。また、必要な場合、終端部も短縮する。これらのマルチチャネル拡張データの変更の後、ステレオベースデータにも同様な変更を加え、新規のマルチチャネル音声ファイルとして格納することができる。
本発明の好適な応用は、MP3データのような既存の音声データを、MP3サラウンドのようなマルチチャネルフォーマットに後々に拡張することにある。しかしながら、本発明の概念は、ベースデータが、既に存在し、後で付加データを同期させるのかどうかに関係なく、付加データを時間同期的な方法でベースデータに加えるどのような場合にも適用することができる。また、本発明の概念は、本発明の同期化方法によって、ある場所でベースデータから付加データを生成し、ベースデータと付加データとを別々に処理し、別の場所でそのベースデータと付加データとを融合することを可能にする。
条件によっては、本発明の方法をハードウエアまたはソフトウエアに搭載することができる。デジタル記憶媒体、特に、プログラム可能なコンピュータシステムと相互作用でき、電子的に読取り可能な制御信号を備えたフロッピー(登録商標)ディスクまたはCDに、その方法を搭載して実行することができる。このように、一般的に、本発明は、マシン可読のキャリヤに格納されたプログラムコードを備え、コンピュータで作動して本方法を実施する、コンピュータプログラム製品でもある。すなわち、このようにコンピュータ上で実行されると、本方法を実施するプログラムコードを備えたコンピュータプログラムとして本発明を認識することもできる。
付加データ及びベースデータを同期させるための本発明の概念のブロック回路図である。 好適な応用事例のフローチャートで、クライアントがサーバと交信している。 フィンガープリントシステムの概略図で、フィンガープリントは、フィンガープリントの元となったデータの時刻を参照する。 検証フィンガープリントを使った参照時刻情報の算定の概略図である。 本発明の好適な実施形態による、2つの検証フィンガープリントを使った、縮小/延長の判定の略図である。 本発明の好適な実施形態による、付加データを操作するステップの概観図である。 本発明の好適な実施形態において必要なサーバデータベースの概略図である。 本発明の好適な実施形態による、サーバとクライアントとの間の交信のシステム図である。

Claims (19)

  1. 付加データとベースデータとを同期させるための装置であって、前記付加データと前記ベースデータとは定められた時間進行を有し、一緒に再生することができるデータ情報を包含しており、前記装置は、
    検証データは、前記付加データまたは前記ベースデータであるか、あるいは、前記検証データは、前記付加データまたは前記ベースデータに依存する、前記検証データの検証時刻に関する前記検証データの検証フィンガープリントを提供する手段(10)と、
    参照データは、前記検証時刻フィンガープリントが由来するデータではなく、前記検証フィンガープリントを使って、前記参照データ中の参照時刻によって参照時刻情報(tx、SS)を算定するための手段(11)と、
    操作済みデータを得るために、前記参照時刻情報と、前記検証時刻に依存する検証時刻情報(t0)とを使って、前記付加データまたは前記ベースデータを操作する手段(12)であって、前記付加データまたは前記ベースデータを操作し、前記操作済みデータによって、前記データ情報の同期された再生が行えるように形成されている、前記操作手段(12)とを含み、
    前記操作手段(12)は、前記操作済みデータを得るために、時間的縮小/延長を実施するか、データの時間的開始部または時間的終端部を切り取るか、または、データの時間的開始部または時間的終端部におけるデータ生成である、装置。
  2. 前記検証フィンガープリントは、前記検証フィンガープリントが導き出された前記データの時間進行に結びつく前記時間進行を有するように形成され、
    前記算定手段(11)は、前記参照データから参照フィンガープリントを得るように形成され、前記参照フィンガープリントは、前記参照データの前記時間進行に従った時間進行を有し、
    前記算定手段(11)は、前記検証フィンガープリント及び前記参照フィンガープリントのさまざまな時間オフセットに対し、前記検証フィンガープリントを前記参照フィンガープリントに関連付けて、そして、前記参照フィンガープリントと前記検証フィンガープリントとの最大照合点における関連時間オフセットを参照時刻情報として算定するようにさらに形成されている、請求項1に記載の装置。
  3. 前記検証フィンガープリントは、前記参照フィンガープリントに含まれる前記参照信号の時間長さより短い前記検証信号のある時間長さを含む、請求項2に記載の装置。
  4. 前記ベースデータは音声データであり、前記付加データは、前記ベースデータに関連する、時間的音声データまたはパラメトリック音声データであり、
    前記提供手段(10)は、前記付加データから導き出された前記検証フィンガープリントを提供するよう形成されており、
    前記算定手段(11)は、参照フィンガープリント及び前記ベースデータを使って、前記参照時刻情報を算定するよう形成されており、
    前記操作手段(12)は、前記操作済みデータを得るために、前記付加データを操作するように形成されている、請求項1ないし請求項3のいずれかに記載の装置。
  5. 前記付加データは、BCCパラメータ、ICLD、ICTD、またはICCパラメータデータ、前記ベースデータ中では低減されるかまたは存在しない周波数バンドに関するバンドデータ、前記ベースデータの拡張レイヤ次元よりも高次の拡張レイヤ、または、前記ベースデータの選択された部分を強化する品質増強データといった時間的サンプルまたはパラメトリック情報の形で、前記ベースデータに包含されていない付加チャネルを、含む、請求項1ないし請求項4のいずれかに記載の装置。
  6. 前記ベースデータは、音声信号の実際のバージョンを表し、
    前記算定手段(11)は、前記付加データが関連する前記音声信号の理想的バージョンの検証フィンガープリントを得るために形成されており、
    前記操作手段(12)は、これを前記実際のベースデータ(10)により表された前記音声信号の前記実際のバージョンと関連付けするように、前記付加データを操作するために、形成されている、請求項1ないし請求項5のいずれかに記載の装置。
  7. 前記提供手段(10)は、前記一つの検証時刻から所定の時間距離離れた追加の検証時刻に関連する追加検証フィンガープリントを提供するよう形成されており、
    前記算定手段(11)は、前記追加検証フィンガープリントを使って、追加の参照時刻情報を算定するように形成され、追加参照時刻は、前記一つの参照時刻から、ある時間参照距離を有しており、
    前記操作手段(12)は、前記検証距離と前記参照距離とによって延長/縮小ファクタを計算し、この延長/縮小ファクタを使って前記付加データまたは前記ベースデータを時間的に延長または縮小するよう形成されている、請求項1ないし請求項6のいずれかに記載の装置。
  8. 前記操作手段(12)は、
    SS=ΔTref/ΔTtest
    により縮小/延長ファクタを計算するよう形成されており、
    ΔTtestは、前記一つの検証時刻と前記追加検証時刻との間の時間差であり、ΔTrefは、第一参照オフセットTaoffと第二参照オフセットTboffとの間の時間差であって、前記第一参照オフセットTaoffは、前記第一検証フィンガープリントを前記参照信号と関連付けるときに得られるものであり、前記第二参照オフセットTboffは、前記追加検証フィンガープリントを前記参照信号と関連付けるときに得られるものである、請求項7に記載の装置。
  9. 前記算定手段(11)は、参照時刻情報として前記参照データの時間的開始部に対する前記参照時刻の時間的参照オフセットを、算定するように形成されており、
    前記操作手段は、前記検証時刻と前記検証データの時間的開始部との間の検証オフセット、及び前記参照オフセットにより、前記付加データまたは前記ベースデータから前記付加データまたは前記ベースデータの前記開始部における導入部分(A)を削除するよう形成されている、請求項1ないし請求項8のいずれかに記載の装置。
  10. 前記算定手段(11)は、延長/縮小ファクタを算定するよう形成されており、前記参照信号は、前記ファクタによって、前記検証フィンガープリントが導き出された信号に合わせて延長または縮小され、
    前記操作手段(12)は、前記導入部分も前記延長/縮小ファクタに依存するように、前記延長/縮小ファクタによって、前記検証オフセットを重み付けするために形成されている、請求項9に記載の装置。
  11. 前記操作手段(12)は、前記ベースデータまたは前記付加データの終端部の削除部分(E)を、前記開始部において短縮または延長されたベースデータまたは付加データの時間長さによって除去するよう形成されている、請求項1ないし請求項10のいずれかに記載の装置。
  12. サーバ装置であって、
    ベースデータの参照フィンガープリント(85)を受信するための手段(81)であって、前記ベースデータは音声データである、前記受信するための手段(81)と、
    前記参照フィンガープリントに基づいて前記ベースデータを識別するための手段(71)と、
    前記サーバ装置がアクセス可能な前記ベースデータのバージョンの検証フィンガープリントを送信するための手段(25)と、
    クライアント装置に前記ベースデータに関連する付加データを送信するための手段(23)であって、前記付加データは、前記ベースデータに関連する、時間的音声データまたはパラメトリック音声データである、前記送信するための手段(23)とを含むサーバ装置。
  13. クライアント装置(84)であって、
    ベースデータの参照フィンガープリントを送信するための手段(21)と、
    検証データは、前記付加データまたは前記ベースデータであるか、あるいは、前記検証データは、前記付加データまたは前記ベースデータに依存する、前記検証データの検証時刻に関連する前記検証データの検証フィンガープリントを受信する手段と、
    参照データは、前記検証時刻フィンガープリントが由来するデータではない、前記検証フィンガープリントを使って、前記参照データ中の参照時刻によって参照時刻情報(tx、SS)を算定するための手段(11)と、
    操作済みデータを得るために、前記参照時刻情報、及び前記検証時刻に依存する検証時刻情報(t0)を使って、前記付加データまたは前記ベースデータを操作する手段(12)であって、前記付加データまたは前記ベースデータを操作し、前記操作済みデータによって、前記データ情報の同期された再生が行えるように形成されている前記操作手段(12)とを含み、
    前記操作手段(12)は、前記操作済みデータを得るために、時間的縮小/延長を実施するか、データの時間的開始部または時間的終端部を切り取るか、または、データの時間的開始部または時間的終端部におけるデータ生成である、クライアント装置。
  14. 前記操作手段(12)は、前記操作済みデータを得るために、前記付加データだけを操作し、前記データ情報を含むデータセット結果を得るために前記操作済みデータを前記ベースデータに追加するように形成されている、請求項13に記載のクライアント装置。
  15. 前記操作済みデータを使って、前記データ情報を再生する再生装置(13)をさらに含む、請求項13または請求項14に記載のクライアント装置。
  16. 付加データ及びベースデータは、定められた時間進行を有し、一緒に再生することができるデータ情報を含む、前記付加データと前記ベースデータとを同期させる方法であって、前記方法は、
    検証データは、前記付加データまたは前記ベースデータであるか、あるいは、前記検証データは、前記付加データまたは前記ベースデータに依存する、検証データの検証時刻に関連する前記検証データの検証フィンガープリントを提供する(10)ステップと、
    前記検証データを使って、参照データは、前記検証時刻フィンガープリントが由来するデータではない、前記参照データ中の参照時刻によって参照時刻情報(tx、SS)を算定する(11)ステップと、
    操作済みデータによって、前記データ情報の同期された再生が行えるように操作された前記操作済みデータを得るために、前記参照時刻情報と、前記検証時刻に依存する検証時刻情報(t0)とを使って、前記付加データまたは前記ベースデータを操作する(12)ステップとを含み、
    前記操作する(12)ステップは、前記操作済みデータを得るために、時間的縮小/延長を実施するか、データの時間的開始部または時間的終端部を切り取るか、または、データの時間的開始部または時間的終端部におけるデータ生成である、方法。
  17. サーバ装置を作動する方法であって、
    ベースデータの参照フィンガープリント(85)を受信する(81)ステップであって、前記データベースは音声データである、前記受信する(81)ステップと、
    前記参照フィンガープリントに基づいて前記ベースデータを識別する(71)ステップと、
    前記サーバ装置がアクセス可能な、前記ベースデータのバージョンの検証フィンガープリントを送信する(25)ステップと、
    クライアント装置に前記ベースデータに関連する付加データを送信する(23)ステップであって、前記付加データは、前記ベースデータに関連する、時間的音声データまたはパラメトリック音声データである、前記送信する(23)ステップとを含む方法。
  18. クライアント装置(84)を作動する方法であって、
    ベースデータの参照フィンガープリントを送信する(21)ステップと、
    検証データは、前記付加データまたは前記ベースデータであるか、あるいは、前記付加データまたは前記ベースデータと、前記ベースデータに関連する前記付加データとに依存する、前記検証データの検証時刻に関連する前記検証データの検証フィンガープリントを受信するステップと、
    参照データは、前記検証時刻フィンガープリントが由来するデータではない、前記フィンガープリントを使って、前記参照データ中の参照時刻によって参照時刻情報(tx、SS)を算定する(11)ステップと、
    操作済みデータによって、前記データ情報の同期された再生が行えるように操作された前記操作済みデータを得るために、前記参照時刻情報と、前記検証時刻に依存する検証時刻情報(t0)とを使って、前記付加データまたは前記ベースデータを操作する(12)ステップとを含み、
    前記操作する(12)ステップは、前記操作済みデータを得るために、時間的縮小/延長を実施するか、データの時間的開始部または時間的終端部を切り取るか、または、データの時間的開始部または時間的終端部におけるデータ生成である、方法。
  19. コンピュータに、請求項16、請求項17、または請求項18に記載の方法を実行させためのプログラム。
JP2007532848A 2004-09-27 2005-09-23 付加データとベースデータとを同期させるための装置及び方法 Active JP4989480B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102004046746.3 2004-09-27
DE102004046746A DE102004046746B4 (de) 2004-09-27 2004-09-27 Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
PCT/EP2005/010329 WO2006034825A1 (de) 2004-09-27 2005-09-23 Vorrichtung und verfahren zum synchronisieren von zusatzdaten und basisdaten

Publications (2)

Publication Number Publication Date
JP2008514972A JP2008514972A (ja) 2008-05-08
JP4989480B2 true JP4989480B2 (ja) 2012-08-01

Family

ID=35429332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007532848A Active JP4989480B2 (ja) 2004-09-27 2005-09-23 付加データとベースデータとを同期させるための装置及び方法

Country Status (9)

Country Link
US (2) US8332059B2 (ja)
EP (1) EP1794564B1 (ja)
JP (1) JP4989480B2 (ja)
CN (1) CN100498259C (ja)
CA (2) CA2581094C (ja)
DE (1) DE102004046746B4 (ja)
ES (1) ES2537302T3 (ja)
HK (1) HK1106824A1 (ja)
WO (1) WO2006034825A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7110525B1 (en) 2001-06-25 2006-09-19 Toby Heller Agent training sensitive call routing system
DE102005014477A1 (de) 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
JP5259083B2 (ja) * 2006-12-04 2013-08-07 ソニー株式会社 マッシュアップ用データの配布方法、マッシュアップ方法、マッシュアップ用データのサーバ装置およびマッシュアップ装置
CN101494658B (zh) * 2008-01-24 2013-04-17 华为技术有限公司 指纹技术的实现方法、装置及系统
DE102008009025A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
DE102008009024A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals
EP3364414B1 (en) * 2008-12-15 2022-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder, corresponding method and computer program
US20110311063A1 (en) * 2009-03-13 2011-12-22 Fransiscus Marinus Jozephus De Bont Embedding and extracting ancillary data
MY154204A (en) 2010-03-09 2015-05-15 Fraunhofer Ges Forschung Apparatus and method for processing an imput audio signal using cascaded filterbanks
PL2545551T3 (pl) * 2010-03-09 2018-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Poprawiona charakterystyka amplitudowa i zrównanie czasowe w powiększaniu szerokości pasma na bazie wokodera fazowego dla sygnałów audio
CA2792368C (en) * 2010-03-09 2016-04-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for handling transient sound events in audio signals when changing the replay speed or pitch
US9201571B2 (en) 2011-01-06 2015-12-01 It's Relevant, LLC Logging, editing and production system for activities of local interest and related video
US20130227416A1 (en) * 2011-01-06 2013-08-29 Edward Massena Device for logging, editing and production of video programs for activities of local interest
US9142220B2 (en) 2011-03-25 2015-09-22 The Intellisis Corporation Systems and methods for reconstructing an audio signal from transformed audio information
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US20130041489A1 (en) * 2011-08-08 2013-02-14 The Intellisis Corporation System And Method For Analyzing Audio Information To Determine Pitch And/Or Fractional Chirp Rate
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US9292894B2 (en) 2012-03-14 2016-03-22 Digimarc Corporation Content recognition and synchronization using local caching
EP2648418A1 (en) * 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
US20140114456A1 (en) * 2012-10-22 2014-04-24 Arbitron Inc. Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems
EP2876890A1 (en) * 2013-11-21 2015-05-27 Thomson Licensing Method and apparatus for frame accurate synchronization of video streams
US11670306B2 (en) * 2014-09-04 2023-06-06 Sony Corporation Transmission device, transmission method, reception device and reception method
US9805099B2 (en) * 2014-10-30 2017-10-31 The Johns Hopkins University Apparatus and method for efficient identification of code similarity
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
TWI771266B (zh) 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN108205550B (zh) * 2016-12-16 2021-03-12 北京酷我科技有限公司 音频指纹的生成方法及装置
CN108242071A (zh) * 2016-12-27 2018-07-03 方正国际软件(北京)有限公司 一种动画插值方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0920013B1 (en) * 1997-11-25 2001-03-28 N.V. dZine A combined set for digital audio distribution
DE19754296A1 (de) * 1997-12-08 1999-06-10 Thomson Brandt Gmbh Synchronisationseinrichtung
JP2000155598A (ja) * 1998-11-19 2000-06-06 Matsushita Electric Ind Co Ltd 多チャンネル・オーディオ信号の符号化/復号化方法と装置
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
GB0113571D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Audio-form presentation of text messages
DE10133333C1 (de) * 2001-07-10 2002-12-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
US20030014755A1 (en) * 2001-07-13 2003-01-16 Williams Marvin Lynn Method and system for processing correlated audio-video segments with digital signatures within a broadcast system
CA2459941C (en) * 2001-09-06 2013-09-17 Qiuzhen Zou Generating and implementing a communication protocol and interface for high data rate signal transfer
JP4425126B2 (ja) * 2002-04-25 2010-03-03 ランドマーク・デジタル・サービシーズ・エルエルシー ロバストかつインバリアントな音声パターンマッチング
US7280133B2 (en) * 2002-06-21 2007-10-09 Koninklijke Philips Electronics, N.V. System and method for queuing and presenting audio messages
RU2363116C2 (ru) * 2002-07-12 2009-07-27 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
US9628851B2 (en) 2003-02-14 2017-04-18 Thomson Licensing Automatic synchronization of audio and video based media services of media content
US20040249859A1 (en) * 2003-03-14 2004-12-09 Relatable, Llc System and method for fingerprint based media recognition
US7631119B2 (en) * 2004-06-25 2009-12-08 Apple Inc. Techniques for providing audio for synchronized playback by multiple devices
JP2006041886A (ja) * 2004-07-27 2006-02-09 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US7640410B2 (en) * 2005-09-29 2009-12-29 International Business Machines Corporation Instant copy of data through pointers interchanging

Also Published As

Publication number Publication date
HK1106824A1 (en) 2008-03-20
US20110282471A1 (en) 2011-11-17
US20070285815A1 (en) 2007-12-13
JP2008514972A (ja) 2008-05-08
CA2778889C (en) 2017-09-19
CA2778889A1 (en) 2006-04-06
EP1794564A1 (de) 2007-06-13
CA2581094A1 (en) 2006-04-06
WO2006034825A1 (de) 2006-04-06
CN101027543A (zh) 2007-08-29
EP1794564B1 (de) 2015-03-25
CA2581094C (en) 2014-08-26
US8332059B2 (en) 2012-12-11
DE102004046746B4 (de) 2007-03-01
CN100498259C (zh) 2009-06-10
DE102004046746A1 (de) 2006-03-30
ES2537302T3 (es) 2015-06-05

Similar Documents

Publication Publication Date Title
JP4989480B2 (ja) 付加データとベースデータとを同期させるための装置及び方法
JP4321518B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
CN102959544B (zh) 用于同步媒体的方法和系统
KR101363534B1 (ko) 비트 추출 장치 및 비트 추출 방법
JP5302977B2 (ja) オーディオ信号のフィンガープリントを計算するための装置及び方法、同期のための装置及び方法、並びに試験オーディオ信号の特徴付けのための装置及び方法
JP5461437B2 (ja) マルチチャネル拡張データのオーディオ信号との同期及びオーディオ信号の処理のための装置並びに方法
JP2005157390A (ja) 付加情報の挿入されたmpeg−4bsacオーディオビットストリームの符号化方法および復号化方法ならびに符号化装置および復号化装置
JP2006195385A (ja) 音楽再生装置および音楽再生プログラム
WO2006027957A1 (ja) 記録媒体、記録装置、記録方法、データ出力装置、データ出力方法およびデータ配布・流通システム
JP5034599B2 (ja) 楽曲紹介文生成装置、ナレーション付加装置およびプログラム
JPWO2005096270A1 (ja) 音楽を再生するためのコンテンツフレームを配信するコンテンツ配信サーバ及び端末
JP2006195061A (ja) 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置および音響信号再生装置
JP2004334160A (ja) 特徴量抽出装置
US10819884B2 (en) Method and device for processing multimedia data
CN1934640B (zh) 用于写入到音频cd的设备和方法以及音频cd
JP3403717B2 (ja) ネットワークを介したコンテンツ提供方法及び装置
JP5338312B2 (ja) 自動演奏同期装置、自動演奏鍵盤楽器およびプログラム
JP7197688B2 (ja) 再生制御装置、プログラムおよび再生制御方法
JP2023091483A (ja) 格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラム
JP3262121B1 (ja) 音楽コンテンツから試用コンテンツを作成する方法
KR100891672B1 (ko) 믹스 신호의 처리 방법 및 장치
JP2003241770A (ja) ネットワークを介したコンテンツ提供方法及び装置並びにコンテンツ取得方法及び装置
KR20020074665A (ko) 데이터 기록 및 재생 방법 및 그 장치
KR20080096611A (ko) 멀티채널 음원파일 제공서버 및 이의 멀티채널 음원파일서비스 제공방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100823

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111215

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120427

R150 Certificate of patent or registration of utility model

Ref document number: 4989480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250