JP2008538239A

JP2008538239A - データストリームおよびマルチチャネル表現を生成するための装置および方法

Info

Publication number: JP2008538239A
Application number: JP2008503398A
Authority: JP
Inventors: フィーゼルヴォルフガング; ノイジンガーマティアス; ポップハーラルト; ガイヤースベルガーシュテファン
Original assignee: フラウンホーファーゲゼルシャフトツールフォルデルングデルアンゲヴァンテンフォルシユングエー．フアー．
Priority date: 2005-03-30
Filing date: 2006-03-15
Publication date: 2008-10-16
Anticipated expiration: 2026-03-15
Also published as: JP5273858B2; HK1111259A1; DE102005014477A1; CA2603027C; US7903751B2; AU2006228821B2; WO2006102991A1; ATE434253T1; MY139836A; TW200644704A; AU2006228821A1; TWI318845B; DE502006003997D1; EP1864279B1; US20080013614A1; EP1864279A1; CN101189661A; CA2603027A1; CN101189661B

Abstract

マルチチャネル補助データを含むデータストリームおよび１以上の基本チャネル（３）に関するデータを含むデータストリームを時刻同期するために、前記１以上の基本チャネルに対するフィンガープリント情報の計算（２）をエンコーダで行い、前記フィンガープリント情報を前記マルチチャネル補助データと時間的に対応付けてデータストリームに挿入（４）する。デコーダでは、フィンガープリント情報を前記１以上の基本チャネルから計算し、データストリームから抽出したフィンガープリント情報と組合わせて、前記マルチチャネル補助情報を含むデータストリームおよび前記１以上の基本チャネルを含むデータストリームとの間のタイムオフセットを、例えば相関処理により計算し補間し、同期マルチチャネル表現を生成する。

Description

本発明は音声信号の処理に関し、特に、１以上の基本チャネルおよび／またはダウンミックスチャネルおよびマルチチャネル補助情報に基づいて、元のマルチチャネル信号をマルチチャネル再生するマルチチャネル処理技術に関する。

近年、データ量の減少により音声信号をこれまでになくより効率的に送信したり、また、マルチチャネル技術等を利用した改良により、聴く楽しみをより向上するような技術が開発されている。このような、公知の送信技術の改良例が、バイノーラルキュー符号化（ＢＣＣ）および「空間音声符号化」として近年知られており、ジェイ・ヘレ、シー・ファーラー、エス・ディッシュ、シー・エーテル、ジェイ・ヒルバート、エイ・ホールツァー、ケイ・リンツメイアー、シー・シュプレンガー、ピー・クルーンによる「空間音声符号化：効率的で互換性のある次世代マルチチャネル音声符号化」と題するＡＥＳ予稿６１８６、第１１７回ＡＥＳ大会、２００４年、サンフランシスコ（J. Herre, C. Faller, S. Disch, C. Ertel, J. Hilbert, A. Hoelzer, K. Linzmeier, C. Sprenger, P. Kroon: “Spatial Audio Coding: Next Generation Efficient and Compatible Coding of Multi-Channel Audio”, 117th AES Convention, San Francisco 2004, Preprint 6186）に記載されている。

マルチチャネル音声信号の送信時に必要なデータ量を減少するための様々な技術について以下に詳細に述べる。

これらの技術はジョイントステレオ技術と呼ばれる。この目的で、図３に示すジョイントステレオ装置６０を参照する。この装置は、例えばインテンシティステレオ（ＩＳ）技術、もしくはバイノーラルキュー符号化技術（ＢＣＣ）を実行する装置である。この装置は、一般に２つ以上のチャネルＣＨ１、ＣＨ２、．．．、ＣＨｎを入力信号として受信し、単一の搬送波チャネルおよびパラメトリックマルチチャネル情報を出力する。パラメトリックデータは、元のチャネル（ＣＨ１、ＣＨ２、．．．、ＣＨｎ）の近似値をデコーダで計算できるように規定される。

通常、搬送波チャネルは、基底信号を比較的良好に表すサブバンドサンプル、スペクトル係数、時間領域サンプル等を含む。一方、パラメトリックデータは、これらのサンプルやスペクトル係数を含まないが、乗法、時間シフティング、周波数シフティングによる重み付け等の所定の再生アルゴリズムを制御するための制御パラメータを含む。このように、パラメトリックマルチチャネル情報は信号または関連するチャネルの比較的大雑把な表現を含む。数値で表すと、搬送波チャネルが必要とするデータ量は約６０〜７０ｋｂｉｔ／ｓの範囲にあり、一方、パラメトリック補助情報がチャネルに対し必要とするデータ量は１．５〜２．５ｋｂｉｔ／ｓの範囲にある。なお、上記の数値は圧縮データに対するものである。当然のことながら、非圧縮ＣＤチャネルはおよそ１０倍程度のデータ量を必要とする。パラメトリックデータの例としては、後述のとおり、既知のスケールファクタ、インテンシティステレオ情報またはＢＣＣパラメータがある。

インテンシティステレオ符号化技術については、ジェイ・ヘレ、ケイ・エイチ・ブランデンブルグ、ディー・レデラーによる「インテンシティ・ステレオ符号化」と題するＡＥＳ予稿３７９９、１９９４年２月、アムステルダム（AES Preprint 3799 "Intensity Stereo Coding", J. Herre, K.H. Brandenburg, D. Lederer, February 1994, Amsterdam）に記載されている。一般には、インテンシティステレオの概念は、両方のステレオ音声チャネルのデータに適用される主軸変換に基づく。データポイントのほとんどが第１の主軸の周りに集中している場合、符号化利得は、符号化の前にある角度だけ両方の信号を回転させることにより達成できる。しかしながら、この方法は、実際のステレオ再生技術では必ずしもうまくいかない。したがって、この方法を改善し、第２の直交成分をビットストリームでの送信から除外する。その結果、左右のチャネルについて再生された信号は、同じ伝送信号を様々に重み付けもしくはスケーリングしたバージョンからなる。にもかかわらず、これら再生された信号は、振幅が異なるものの位相情報については同一である。しかしながら、元の音声チャネルのエネルギ時間エンベロープは、一般に周波数選択的に作用する選択的スケーリング動作により維持される。このことは、支配的な空間情報がエネルギエンベロープにより決まる、人間の高周波での音声知覚と同じである。

また、実際の信号送信、つまり搬送波チャネルは、両方の成分を回転させるのではなく、左右チャネルの和信号から生成される。さらに、この処理、すなわちスケーリングを行うためにインテンシティステレオパラメータを生成する処理は、周波数選択的に行われる。つまり、スケール係数帯ごと、エンコーダ周波数区分ごとに独立して行われる。好ましくは、両方のチャネルを結合して、１つの結合したチャネルもしくは「搬送波」チャネルを形成し、結合されたチャネルに追加してインテンシティステレオ情報を形成する。インテンシティステレオ情報は、第１のチャネルのエネルギ、第２のチャネルのエネルギ、もしくは結合チャネルのエネルギに基づく。

ＢＣＣ技術については、ティー・ファーラー、エフ・バウムガルトの「ステレオおよびマルチチャネル音声圧縮に適用するバイノーラルキュー符号化」と題するＡＥＳ大会論文５５７４、２００２年５月、ミュンヘン（AES convention paper 5574 “Binaural Cue Coding applied to stereo and multi-channel audio compression”, T. Faller, F. Baumgarte, May 2002, Munich）に記載されている。ＢＢＣ符号化においては、ＤＦＴ変換に基づいて、複数の音声入力チャネルをオーバーラッピング窓を用いてスペクトラム表現に変換する。その結果得られるスペクトルは、重ならない部分に分割され、それぞれがインデックスを有する。各区分は、等価直角帯域幅（ＥＲＢ）に比例するバンド幅を有する。各区分および各フレームｋについて、チャネル間レベル差（ＩＣＬＤ）およびチャネル間時間差（ＩＣＴＤ）が決定される。ＩＣＬＤおよびＩＣＴＤは量子化され符号化されて、最終的には補助情報としてのＢＢＣビットストリームに到達する。チャネル間レベル差およびチャネル間時間差は、各チャネルごとに参照チャネル対して与えられる。そして、処理をする信号の特定の区分に基づく所定の方式に従って、パラメータを計算する。

デコーダ側では、デコーダは通常、モノ信号およびＢＢＣビットストリームを受信する。モノ信号は周波数領域に変換され、空間合成ブロックへ入力される。空間合成ブロックは同様に、復号化ＩＣＬＤ値およびＩＣＴＤ値も受信する。空間合成ブロックでは、ＢＣＣパラメータ（ＩＣＬＤおよびＩＣＴＤ）を用いてモノ信号を重み付けし、マルチチャネル信号を合成する。このマルチチャネル信号は、周波数／時間変換を経て、元のマルチチャネル音声信号の再生を表す。

ＢＣＣの場合、ジョイントステレオモジュール６０は、パラメトリックチャネルデータが量子化および符号化ＩＣＬＤまたはＩＣＴＤパラメータになるようチャネル補助情報を出力するよう作用し、元のチャネルのうち１つがチャネル補助情報を符号化するための参照チャネルとして使用される。

通常、搬送波信号は、関与する元のチャネルの和からなる。

上記の技術は当然、搬送波チャネルのみを処理できるデコーダのためのモノ表現を与えるに過ぎず、複数の入力チャネルに対し１つまたは複数の近似値を生成するためにパラメトリックデータを処理することはできない。

このＢＢＣ技術については、米国特許公開ＵＳ２００３／０２１９１３０Ａ１、ＵＳ２００３／００２６４４１Ａ１およびＵＳ２００３／００３５５５３Ａ１にも記載されている。また、ティー・ファーラーおよびエフ・バウムガルトの「バイノーラル・キュー符号化、パートＩＩ：構成および応用」、音声および音声処理に関するＩＥＥＥ論文誌、第１１巻、第６号、２００３年１１月（"Binaural Cue Coding. Part II: Schemes and Applications", T. Faller and F. Baumgarte, IEEE Trans. On Audio and Speech Proc., Vol. 11, No. 6, November 2003）という専門家による出版物も引用する。

次に、マルチチャネル音声符号化のための典型的なＢＣＣ方式について、図４〜図６を参照して詳細に述べる。

図５は、そのような、マルチチャネル音声信号を符号化／送信するためのＢＣＣ方式を示す。ＢＣＣエンコーダ１１２の入力１１０におけるマルチチャネル音声入力信号は、所謂ダウンミックスブロック１１４においてミックスダウンされる。この例では、入力１１０の元のマルチチャネル信号は、前方左チャネル、前方右チャネル、左サラウンドチャネル、右サラウンドチャネル、および中央チャネルを有する５チャネルのサラウンド信号である。本発明の好ましい実施例では、ダウンミックスブロック１１４が、これら５つのチャネルを単純に加算して１つのモノ信号にすることで、和信号を生成する。

先行技術では、他のダウンミックス方法が知られており、マルチチャネル入力信号を用いて、単一のチャネルを有するダウンミックスチャネルが得られる。

この単一のチャネルは、和信号ライン１１５上に出力される。ＢＣＣ分析ブロック１１６から得られた補助情報を補助情報ライン１１７上に出力する。

上記のとおり、チャネル間レベル差（ＩＣＬＤ）およびチャネル間時間差（ＩＣＴＤ）をＢＣＣ分析ブロックで計算する。ここで、ＢＣＣ分析ブロック１１６は、チャネル間相関値（ＩＣＣ値）も計算することができる。和信号と補助情報とを量子化および符号化された形式で、ＢＣＣデコーダ１２０へ送信する。ＢＣＣデコーダは、送信された和信号をいくつかのサブバンドに分割し、スケーリングを行い、遅延を行い、かつ他の処理ステップを行って、出力するマルチチャネル音声チャネルのサブバンドを与える。この処理は、出力１２１における再生マルチチャネル信号のＩＣＬＤ、ＩＣＴＤおよびＩＣＣパラメータ（キュー）が、ＢＣＣエンコーダ１１２の入力１１０における元のマルチチャネル信号に対応するキューと一致するように行われる。この目的で、ＢＣＣデコーダ１２０は、ＢＣＣ合成ブロック１２２および補助情報処理ブロック１２３を備える。

次に、ＢＣＣ合成ブロック１２２の内部設定について図６を参照して説明する。ライン１１５上の和信号が、時間／周波数変換ユニットまたはフィルタバンクＦＢ１２５へ供給される。ブロック１２５の出力では、Ｎ個のサブバンド信号か、または極端な場合、音声フィルタバンク１２５が１：１の変換、すなわちＮ個の時間領域サンプルからＮ個のスペクトル係数を生成する変換を行った場合には、スペクトル係数のブロックが得られる。

ＢＣＣ合成ブロック１２２は、遅延ステージ１２６、レベル変更ステージ１２７、相関処理ステージ１２８および逆フィルタバンクステージＩＦＢ１２９をさらに備える。ステージ１２９の出力では、たとえば、５チャネルサラウンドシステムの場合、５つのチャネルを有する再生マルチチャネル音声信号が、図５または図４に示すようなラウドスピーカ１２４のセットへ出力されてもよい。

入力信号ｓｎを、素子１２５により、周波数領域またはフィルタバンク領域へ変換する。素子１２５により出力される信号を、コピーノード１３０により示すとおり、同信号のいくつかのバージョンが得られるようコピーする。元の信号のバージョンの数は、出力信号における出力チャネルの数に等しい。そして、ノード１３０の元の信号の各バージョンに、ある遅延ｄ_ｌ、ｄ_２、．．．、ｄ_ｉ、．．．、ｄ_Nを与える。遅延パラメータは、図５の補助情報処理ブロック１２３により計算され、図５のＢＣＣ分析ブロック１１６により計算されたチャネル間時間差から生成される。

同じことが、乗算パラメータａ₁、ａ₂、．．．ａ_ｉ、．．．、ａ_Ｎに当てはまり、これらもＢＣＣ分析ブロック１１６により計算されたチャネル間レベル差に基づき、補助情報処理ブロック１２３により計算される。

ＢＣＣ分析ブロック１１６により計算されるＩＣＣパラメータは、ブロック１２８の出力に、遅延され、かつ、レベルを操作された信号間に所定の相関が得られるように、ブロック１２８の機能性を制御するために使用される。なお、ステージ１２６、１２７および１２８の順序は、図６に示す順序と異なってもよい。

また、音声信号のフレームによる処理において、ＢＣＣ分析をフレーム的に、すなわち時間的可変的に行い、図６のフィルタバンク分割により明らかなように、周波数によるＢＣＣ分析をさらに得てもよい。これは、ＢＣＣパラメータがスペクトル帯ごとに得られることを意味する。また、これは、音声フィルタバンク１２６が入力信号をたとえば３２のバンドパス信号に分ける場合、ＢＣＣ分析ブロックが３２のバンドの各々についてＢＣＣパラメータのセットを取得することも意味する。図６でより詳細に示す、図５のＢＣＣ合成ブロック１２２も、例として上に述べた３２のバンドに基づく再生を行う。

次に、個々のＢＣＣパラメータを決定するためのシナリオについて、図４を参照して説明する。通常、ＩＣＬＤ、ＩＣＴＤおよびＩＣＣパラメータは、チャネル対の間で規定され得る。しかしながら、ＩＣＬＤおよびＩＣＴＤパラメータは、参照チャネルおよび他の各チャネルとの間で決定することが好ましい。これについては、図４Ａに示す。

ＩＣＣパラメータは、異なる方法で規定してもよい。図４Ｂに示すとおり、一般に、ＩＣＣパラメータは、エンコーダにおいて可能な全てのチャネル対の間で決定され得る。しかしながら、図４Ｃに示すように、随時２つの最も強いチャネルの間でのみＩＣＣパラメータを計算するという提案がなされている。図４Ｃの例では、随時にチャネル１および２の間のＩＣＣパラメータが計算され、別の時に、チャネル１および５の間のＩＣＣパラメータが計算される。そして、デコーダは、デコーダにおける最強チャネルの間のチャネル間相関を合成し、残りのチャネル対については、ある種の発見的ルールを用いて、チャネル間コヒーレンスを計算かつ合成する。

たとえば、送信されたＩＣＬＤパラメータに基づく乗算パラメータａ₁、ａ_Ｎの計算に関しては、ＡＥＳ大会論文、第５５７４を引用する。ＩＣＬＤパラメータは、元のマルチチャネル信号のエネルギ分布を表す。普遍性を失わず、図４Ａに示すように、それぞれのチャネルと前方左チャネルとの間のエネルギ差分を表す４つのＩＣＬＤパラメータをとるのが好ましい。補助情報処理ブロック１２２においては、乗算パラメータａ₁、．．．、ａ_Ｎは、再生出力チャネル全ての合計エネルギーが同じである（または送信された和信号のエネルギに比例する）ように、ＩＣＬＤパラメータから生成される。

図５から明らかなように、一般に、１以上の基本チャネルおよび補助情報は、このような特定のパラメトリックマルチチャネル符号化方式において生成される。また、同様に図５から明らかなように、ブロックに基づく方式においては、通常、各ブロックのダウンミックス信号および／または和信号および／または１以上の基本チャネルが例えば１１５２のサンプルからなる１つのブロックを構成するように、入力１１０における元のマルチチャネル信号をブロックステージ１１１によりブロック処理する。同時に、各ブロックにおいて、対応するマルチチャネルパラメータをＢＣＣ分析により生成する。通常、和信号はダウンミックスチャネルを経て、ＭＰ３エンコーダやＡＡＣエンコーダなどのブロック処理エンコーダにより再び符号化され、さらにデータ量を減少させる。同様に、パラメータデータも差分符号化、スケーリング／量子化、エントロピ符号化等により符号化される。

そして、ＢＣＣエンコーダ１１２およびダウンストリーム基本チャネルエンコーダなどのエンコーダ全体の出力において、共通のデータストリームを導出する。このデータストリームでは、１以上の基本チャネルからなるブロックが、１以上の基本チャネルからなる先行のブロックに連続し、また、符号化されたマルチチャネル補助情報が例えばビットストリームマルチプレクサにより挿入される。

マルチチャネル補助情報を挿入する際には、基本チャネルデータおよびマルチチャネル補助情報を含むデータストリームが必ず基本チャネルデータからなるブロックおよびそれに対応するマルチチャネル補助データからなるブロックを含むようにする。これらのブロックは、例えば、送信フレームを構成する。その後、この送信フレームは送信経路を経てデコーダへ送信される。

入力側では、デコーダはデータストリームからなるフレームを基本チャネルデータのブロックと、それに対応するマルチチャネル補助情報のブロックとに再び分離するデータストリームデマルチプレクサを含む。そして、基本データのブロックを例えばＭＰ３デコーダやＡＡＣデコーダにより復号化する。復号化した基本データのブロックをマルチチャネル補助情報のブロックと共にＢＣＣデコーダ１０２へ送信する。この時、マルチチャネル補助情報のブロックを復号化してもよい。

このようにして、補助情報と基本チャネルデータの時間的対応関係は基本チャネルデータおよび補助情報を共に送信することで自動的に決定され、フレーム方式のデコーダにより容易に再生できる。つまり、基本チャネルデータからなるブロックおよび関連する補助情報という２種類のデータを１つのデータストリームに含めて共に送信することにより、デコーダはその関連する補助情報を自動的に検出する。これにより、マルチチャネルを高品質に再生することが可能となる。したがって、マルチチャネル補助情報が基本チャネルデータに対しタイムオフセットを受けるという問題は起こらない。しかしながら、タイムオフセットが発生した場合、基本チャネルデータからなるブロックは自身ではなく、例えばその前後のブロックに対応するマルチチャネル補助情報と共に処理されるため、マルチチャネルの再生において大幅な品質劣化の原因となる。

このように、基本チャネルデータおよびマルチチャネル補助情報が１つの共通のデータストリームではなく、それぞれ別のデータストリームを構成した場合、マルチチャネル補助情報と基本チャネルデータが対応しなくなってしまう。そのような状況は、例えば、無線やインターネットのように逐次的に動作する送信システムにおいて発生する可能性がある。これらの環境では、送信される音声プログラムは音声基本データ（モノもしくはステレオのダウンミックス音声信号）と拡張データ（マルチチャネル補助情報）に分離され、別々に、もしくは結合して送信される。これら２つのデータストリームが送信装置により同時に送信されたとしても、受信装置までの通信経路において数多くの「予想外のこと」が発生する可能性があり、その結果、ビット数においてかなり軽量なマルチチャネル補助情報のデータストリームが、基本チャネルデータのデータストリームより早く受信装置に到達するというようなことが発生する。

さらに、大幅に効率的なビット数を実現するためには、出力データ量が可変的なエンコーダ／デコーダを使うことが好ましい。ある基本チャネルデータのブロックを復号化するのに、どれくらいの時間がかかるか予測不可能である。さらに、この処理は、例えばパソコンやデジタル受信装置内の、実際に使用される復号化ハードウエアに依存する。さらに、システムおよび／またはアルゴリズムに由来するデータの歪みも発生する。なぜなら、特にビット格納技術においては、平均してある一定の出力データ量が得られるが、現実的な観点からすると、かなり符号化しやすいブロックにおいて使用されないビットは、ビット格納装置にキープされ、含まれる音声信号が大容量などの理由から符号化しにくい別のブロックに使われるからである。

一方で、上述した結合データストリームを２つの別々のデータストリームに分離する方法には、優れた利点がある。例えば、単純なモノあるいはステレオ受信装置などの古いタイプの受信装置は、マルチチャネル補助情報の内容やバージョンに関係なく、いつでも音声基本データを受信および再生できる。このように、個々のデータストリームに分離する方法は、この方法における下位互換性を保障する。

対照的に、新世代の受信装置は、このようなマルチチャネル補助情報を分析し音声基本データと結合することによって、データ全体の拡がり、つまりマルチチャネルサウンドをユーザに提供していると言える。

音声基本データと拡張データを分離して送信する方法としては、デジタル無線が特に興味深い。デジタル無線においては、更なる送信処理をほとんど加えることなく、これまでのステレオ音声信号を５．１などのマルチチャネル形式に拡張するためにマルチチャネル補助情報を利用することができる。この場合、プログラムプロバイダは、送信装置側で、音声／ビデオＤＶＤ等に含まれるようなマルチチャネル音源からマルチチャネル補助情報を生成する。そして、このマルチチャネル補助情報は従来どおりステレオ音声信号と平行して送信されるが、この時点で、ステレオ音声信号は単なるステレオ信号ではなく、ダウンミックスによりマルチチャネル信号から生成された２つの基本チャネルを含む。しかし、２つの基本チャネルからなるステレオ信号も、ユーザには従来のステレオ信号と同じように聞こえる。なぜなら、マルチチャネル分析においても、複数のトラックをミキシングして１つのステレオ信号を取り出すという従来行われている音源加工処理に似た処理が、最終的には行われるからである。

分離処理のすばらしい利点は、既存のデジタル無線送信システムと互換性があるということである。補助情報を分析することのできない従来の受信装置でも、品質の制限を受けることなく、従来どおり２チャネルの音声信号を受信し再生することができる。一方、新しいタイプの受信装置では、マルチチャネル情報を既に受信したステレオ音声信号と併せて分析し、復号化し、それに基づいて元の５．１マルチチャネル信号を再生する。

デジタル無線システムにおいて、従来使われていたステレオ信号に変わるものとしてマルチチャネル補助情報を同時に送信するためには、上記で述べたようにマルチチャネル補助情報を符号化したダウンミックス音声信号と結合する方法が考えられる。つまり、必要があればスケーリングでき、かつ従来の受信装置でも読み出すことが可能な１つのデータストリームが考えられる。しかしながら、この時、従来の受信装置はマルチチャネル補助情報に関する補助データを検知しない。

また、受信装置は（有効な）音声データストリームのみ検知し、新しいタイプの受信装置の場合はさらにマルチチャネル音声補助情報を、対応するアップストリームデータ配信装置を介してデータストリームから抽出し、復号化し、５．１マルチチャネル音声として出力する。この時、マルチチャネル補助情報の抽出は、関連する音声データブロックに同期して行われる。

しかしながら、このアプローチの欠点は、従来のようにステレオ音声信号のみ送信するのではなく、ダウンミックス信号および拡張を結合したデータ信号を送信できるように、従来の構造および／または従来のデータ経路を改良する必要がある点である。そうすれば、標準の送信形式をステレオデータに適応した場合、無線送信においても、同期性は結合データストリームにより保障される。

しかしながら、従来の無線システムを変更しなければならない、つまりデコーダのみならず無線送信装置および標準化された送信プロトコルも改良しなければならないとすれば、市場の発展の面からかなり大きな問題である。従って、この方法は、一旦標準として実施されているシステムを変更しなければならないという点でかなりの不利益がある。

別の選択肢としては、マルチチャネル補助情報を従来の音声符号化システムに適用せず、実際の音声データストリームにも挿入しない方法がある。この場合、送信は異なるデジタル補助チャネルを介して行われるが、必ずしも同期する必要がない。そのような例としては、スタジオ内の従来の音声配信システムによって、例えばＡＥＳ／ＥＢＵデータ形式によるＰＣＭデータのような、非圧縮形式でダウンミックスデータを送信する場合が考えられる。そのようなシステムは音声信号を様々な発信元間でデジタル配信することを目的としており、通常、「クロスレール」として知られている機能ユニットが使われている。この方法に変えて、もしくは追加して、音声調節と動的圧縮を目的としてＰＣＭ形式で音声信号を処理する方法もある。いずれの方法においても、送信装置と受信装置の間の通信経路において、予測不能な遅延が発生する。

一方で、基本チャネルデータとマルチチャネル補助情報を分離して送信する方法は、既存のステレオシステムを変更する必要がないという点から特に興味深い。つまり、最初の対応策で述べた、標準に適合しないという不利益は発生しないということである。無線システムは補助チャネルのみを送信すればよく、既存のステレオチャネルシステムを変更する必要がない。受信装置のみ下位互換性を持つよう改良する努力をすればよく、ユーザは新しいタイプの受信装置で古いタイプの受信装置より高品質の音声を得られる。

既に述べたとおり、時間シフトの幅は受信した音声信号および補助情報では決定できない。したがって、受信装置において、正しく同期するマルチチャネル信号を再生および対応付けできるかどうか保証がない。このような遅延の更なる例として、例えばデジタル無線の受信装置のような既存の２チャネル送信システムをマルチチャネル送信に改良する場合が考えられる。この場合、ダウンミックス信号を従来の受信装置内の２チャネル音声デコーダで復号化する際、遅延時間が予測できず補正できないということが良く起こる。極端なケースでは、ダウンミックス音声信号は、アナログ部分を持つ送信システムを介してマルチチャネル再生音声デコーダへ送信されることすらある。つまり、ある時点でデジタル／アナログ変換が行われ、その後記憶処理／送信処理を経て、再度アナログ／デジタル変換が行われる。無線通信では、このようなことが常に発生する。しかも、マルチチャネル補助情報に対するダウンミックス信号の遅延をいかに適切に補正するかを前もって予測することができない。また、Ａ／Ｄ変換のサンプル周波数とＤ／Ａ変換のサンプル周波数が互いに少しでも違えば、２つのサンプルレート同士の比率に応じて、必然的に遅延による時間のずれが発生する。

補助データを基本データに同期させるために使われる技術として、「時刻同期方法」として知られる様々な技術がある。これらの技術は、時間スタンプを両方のデータストリームに挿入し、その時間スタンプに基づいて、受信装置において正しくデータを対応させることを基本とする。しかしながら、時間スタンプを挿入するということは、従来のステレオシステムを変更することを意味する。

本発明の目的は、基本チャネルデータおよびマルチチャネル補助情報の同期を可能にする、データストリームおよび／またはマルチチャネル表現の生成概念を提供することである。

この目的は、請求項１に記載のデータストリーム生成装置、請求項１７に記載のマルチチャネル表現生成装置、請求項２６に記載のデータストリーム生成方法、請求項２７に記載のマルチチャネル表現生成方法、請求項２８に記載のコンピュータプログラム、または請求項２９に記載のデータストリーム表現により達成される。

本発明は、マルチチャネルデータストリームを「送信側」で修正することにより、基本チャネルデータストリームおよびマルチチャネル補助情報データストリームを別々に送信し、時刻同期して結合することができるとする知見に基づく。この時、１以上の基本チャネルに時間経過を付与するフィンガープリント情報を、マルチチャネル補助情報を含むデータストリームに挿入する。それにより、マルチチャネル補助情報とフィンガープリント情報の対応関係をデータストリームから生成できる。したがって、導出されたマルチチャネル補助情報は導出された基本チャネルデータに対応する。データストリームを別々に送信する際にも保障しなければならないのは、まさにこの対応関係である。

本発明によれば、マルチチャネル補助情報と基本チャネルデータの対応関係は、フィンガープリント情報を基本チャネルデータから決定することによって送信装置側で信号化される。この時、それぞれの基本チャネルデータに対応するマルチチャネル補助情報はマークされる。このマルチチャネル補助情報およびフィンガープリント情報の対応関係のマーキングおよび／または信号化は、ブロックに基づくデータ処理、つまり、それぞれの基本チャネルデータブロックに対応するマルチチャネル補助情報ブロック、そのマルチチャネル補助情報に対応する基本チャネルデータブロックのフィンガープリントを関連付けることで達成される。

つまり、再生の際に、マルチチャネル補助情報と一緒に処理されるべき基本チャネルデータブロックのフィンガープリントがマルチチャネル補助情報と関連付けられる。ブロックに基づく送信処理では、各マルチチャネル補助情報ブロックが、対応する基本データのブロックフィンガープリントを含むように、マルチチャネル補助情報データストリームのブロック構造の中に基本チャネルデータブロックのブロックフィンガープリントを挿入してもよい。マルチチャネル再生の際に、ブロックフィンガープリントを同期化の目的で読み出すことができるように、ブロックフィンガープリントを先行のマルチチャネル補助情報の後に直接書き込んでも良いし、既に存在するブロックの前に書き込んでも良いし、ブロック内であればいつの時点で書き込んでも良い。データストリームには、適宜挿入されるブロックフィンガープリントと併せて、通常のマルチチャネル補助データも存在する。

別な選択肢として、データストリームを、例えばブロックカウンターのような補助情報を与えられたブロックフィンガープリントの全てが、本発明によって生成されたデータストリームの最初に位置するような形式で生成してもよい。それにより、データストリームの第一の部分はブロックフィンガープリントのみを含み、第二の部分は、ブロック処理で書き込まれた、ブロックフィンガープリント情報に対応するマルチチャネル補助情報を含む。この方法には、参照情報が必要であるという欠点があるが、しかしながら、ブロック処理によって書き込まれたブロックフィンガープリントとマルチチャネル補助情報の対応関係はその順番から暗黙的であり、更なる情報は必要ない。

この場合、マルチチャネル再生において、同期化の目的で多数のブロックフィンガープリントを予め読み込み、参照フィンガープリント情報を生成してもよい。そして、相関処理に必要な最低限の数のテストフィンガープリントが得られるまで、テストフィンガープリントを段階的に生成する。その間に、マルチチャネル再生における相関処理が差分を用いて行われる場合は、参照フィンガープリントを例えば差分符号化により処理してもよい。この時、データストリームには差分ブロックフィンガープリントではなく、絶対ブロックフィンガープリントが含まれる。

一般的に、基本チャネルデータを含むデータストリームは受信装置側で処理される。すなわち、基本チャネルデータを含むデータストリームはまず復号化され、それから例えばマルチチャネル再生装置へ送信される。好ましくは、このマルチチャネル再生装置は、補助情報を受信しなかった場合には、単にスルースイッチだけを行い、好ましくは２つの基本チャネルをステレオ信号として出力するように構成される。同様に、マルチチャネル補助データに対する基本チャネルデータのオフセットを計算するための相関処理を行うために、復号化した基本チャネルデータから参照フィンガープリント情報を抽出し、テストフィンガープリント情報を計算する。実施例によっては、さらに相関計測して、そのオフセットが本当に正しいかどうか検証してもよい。この場合、２回目の相関処理により得られたオフセットと、１回目の相関処理により得られたオフセットとの差は、所定の閾値以下である。

この場合、得られたオフセットは正しいと考えられる。したがって、同期されたマルチチャネル補助情報を受信した後、ステレオ出力からマルチチャネル出力へ変換される。

この処理は、ユーザに同期に要する時間に気づいて欲しくない場合に望ましい。この場合、基本チャネルデータは受信された瞬間に処理され、同期化が行われる際、つまりオフセットが計算される際に、当然ステレオデータのみが出力される。これは、その時点ではまだ同期されたマルチチャネル補助情報が検知されていないためである。

オフセットの計算に必要な「最初の遅延」が問題とならない他の実施例では、基本チャネルデータの第１のブロックから順番に同期マルチチャネル補助情報を生成するのと平行して、ステレオデータを予め出力することなく同期処理全体を行い、再生処理してもよい。これにより、ユーザはブロックの最初から同期した５．１を体感できる。

本発明の好ましい実施例では、理想的にオフセットを計算するために参照フィンガープリント情報としての参照フィンガープリントが約２００必要なため、同期に要する時間は通常５秒である。例えば一方向の送信信号の場合のように、この約５秒の遅延が問題にならない場合、オフセット計算に要した時間が経過してからではあるが、５．１再生は最初から行われる。例えば会話等の対話型アプリケーションでは、この遅延は望ましくなく、その場合は同期処理が終了した後、随時ステレオ再生をマルチチャネル再生へと切り替える。同期されないマルチチャネル補助情報に基づいてマルチチャネル再生を行うより、ステレオ再生のみを行うほうが良いことが分かっている。

本発明によれば、基本チャネルデータとマルチチャネル補助情報を時間的に関連付ける際に発生する問題は、送信装置、受信装置双方を改良することによって解決できる。

送信装置においては、時間可変的で適切なフィンガープリント情報を、対応するモノあるいはステレオのダウンミックス音声信号から計算する。好ましくは、このフィンガープリント情報は、送信されたマルチチャネル補助情報データストリームにおいて同期化補助として定期的に挿入される。この処理は、好ましくは、例えばブロック処理された空間音声符号化補助情報の中間におけるデータフィールドとして行われる。もしくは、フィンガープリント信号は、容易に追加したり削除できるようにデータブロックにおける最初あるいは最後の情報として送信される。

受信装置側においては、時間可変的で適切なフィンガープリント情報を、対応するステレオ音声信号、すなわち基本チャネルデータから計算する。この基本チャネルデータは、本発明によれば、好ましくは２つの基本チャネルの複数対からなる。さらに、フィンガープリントをマルチチャネル補助情報から抽出する。その後、マルチチャネル補助情報および受信した音声信号との間のタイムオフセットを、例えばテストフィンガープリント情報および参照フィンガープリント情報の相互相関を計算するような相関処理方法により計算する。また、試行錯誤法により、様々なブロックラスタに基づいて基本チャネルデータから計算した様々な種類のフィンガープリント情報を参照フィンガープリント情報と比較し、対応するテストフィンガープリント情報が参照フィンガープリント情報と最も良く適合するブロックラスタに基づいてタイムオフセットを決定してもよい。

最後に、マルチチャネル補助情報を伴う基本チャネルからなる音声信号は、ダウンストリーム遅延補正ステージにより、後のマルチチャネル再生のために同期される。実施例によっては、最初の遅延のみ補正してもよい。しかしながら、好ましくは、オフセット計算は、オフセットを必要に応じて再調整できるように、再生と平行して行われる。また、最初の遅延を補正したにも関わらず、送信した基本チャネルデータおよびマルチチャネル補助情報の間に時間的ずれがある場合には、オフセットの計算は相関処理の結果に基づいて行われる。この遅延補正ステージは、能動的に制御してもよい。

本発明は、基本チャネルデータおよび／または基本チャネルデータの処理経路において、一切変更を必要としない点で効果的である。受信装置に送信された基本チャネルデータストリームは、従来の基本チャネルデータストリームと一切変わらない。変更されるのはマルチチャネルデータストリームのみである。フィンガープリント情報が挿入されるという点が改良点であるが、現時点では、マルチチャネルデータストリームに関しては標準化された方式がないため、マルチチャネル補助データストリームに変更を加えても、基本チャネルデータストリームを改良した場合には発生すると思われる、既に標準として実施され確立された方式に反するという不利益は発生しない。

本発明の概念によれば、マルチチャネル補助情報をかなり柔軟に配信することができる。特に、マルチチャネル補助情報がかなり少ないデータ量または／および記憶容量しか必要としない軽量なパラメータ情報である場合、デジタル受信装置は、そのデータをステレオ信号と完全に分離して受信してもよい。例えば、ユーザはステレオ録音のためのマルチチャネル補助情報を、既に手持ちのソリッドステートプレーヤあるいは別の供給者のＣＤから獲得し、それらをユーザの再生装置に記録することもできる。このような記録処理においては、特にパラメトリックマルチチャネル補助情報の記録に必要な記録条件はそんなに大きくないため、問題は一切発生しない。ユーザがＣＤを挿入もしくはステレオ機器を選択すると、対応するマルチチャネル補助データストリームをマルチチャネル補助データメモリからフェッチし、マルチチャネル補助データストリームのフィンガープリント情報に基づいてステレオ信号と同期して、マルチチャネル再生を実施する。本発明による解決法によれば、全く異なる送信元から送信される場合もあり得るマルチチャネル補助データを、ステレオ信号の種類に関わらずステレオ信号と同期できる。すなわち、ステレオ信号はデジタル無線受信装置から受信しようとも、ＣＤから受信しようとも、ＤＶＤから受信しようとも構わない。また、例えばインターネットを介して受信しようとも構わず、この場合、ステレオ信号は基本チャネルデータとなり、マルチチャネル再生はそれに基づいて行われる。

発明の好ましい実施例について、添付の図面を参照しながら詳細に説明する。

図１は、元のマルチチャネル信号をマルチチャネル再生するためのデータストリームを生成する装置を示す。この場合、本発明の好ましい実施例によれば、マルチチャネル信号は少なくとも２つのチャネルからなる。データストリーム生成装置はフィンガープリント生成装置２を含み、元のマルチチャネル信号から生成された１以上の基本チャネルを入力ライン３を通じて、フィンガープリント生成装置２に送信してもよい。基本チャネルの数は、１以上且つ元のマルチチャネル信号のチャネル数より少ない。元のマルチチャネル信号が、２つのチャネルからなる１つのステレオ信号であれば、２つのステレオチャネルからなる１つの基本チャネルのみ生成されることになる。しかしながら、元のマルチチャネル信号が３つ以上のチャネルからなる信号であれば、基本チャネルの数は２となる。従来のステレオ再生と同様に、マルチチャネル補助データなしで音声を再生できるため、このような実施形態が好ましい。本発明の好ましい実施例では、元のマルチチャネル信号は５つのチャネルと、１つのＬＦＥ（ＬｏｗＦｒｅｑｕｅｎｃｙＥｎｈａｎｃｅｍｅｎｔ＝低音増強）チャネルからなるサラウンド信号である。ＬＦＥチャネルはサブウーファともよばれる。５つのチャネルは、左サラウンドチャネルＬｓ、左チャネルＬ、中央チャネルＣ、右チャネルＲ、後方右および／または右サラウンドチャネルＲｓからなる。２つの基本チャネルは左基本チャネルおよび右基本チャネルからなる。当業者は、１つおよび／または複数の基本チャネルをダウンミックスチャネルと呼ぶこともある。

フィンガープリント生成装置２は１以上の基本チャネルからフィンガープリント情報を生成するための装置である。フィンガープリント情報は１以上の基本チャネルに時間経過を付与する。実施例によって、フィンガープリント情報の計算に要する作業量は変わる。例えば、「音声ＩＤ」で知られる統計的方法に基づいてフィンガープリントを計算する際には、大きな作業量を要する。しかしながら、これ以外のどんな数値で１以上の基本チャネルに時間経過を与えても構わない。

本発明によれば、ブロックに基づく処理が望ましい。この場合、フィンガープリント情報は一連のブロックフィンガープリントからなり、各ブロックフィンガープリントは各ブロック内の１つおよび／または複数のチャネルのエネルギを示す値となる。別の方法としては、例えば所定のサンプルブロック１個もしくは複数のサンプルブロックの組合せをブロックフィンガープリントとして利用することもできる。この場合、フィンガープリント情報であるフィンガープリントブロックの数が十分に多ければ、粗いものであったとしても、１以上の基本チャネルの時間特性を再生できるからである。一般的に、フィンガープリント情報は１以上の基本チャネルのサンプルデータから生成され、多少のエラーを伴って１以上の基本チャネルに時間経過を付与する。これにより、後で述べるように、マルチチャネル補助情報のデータストリームおよび基本チャネルの間のオフセットを最終決定するために、デコーダ／受信装置側で基本チャネルからテストフィンガープリント情報との相関を計算できる。

出力側では、フィンガープリント生成装置２はデータストリーム生成装置４に送信するフィンガープリント情報を生成する。データストリーム生成装置４はフィンガープリント情報からデータストリームと、通常、時間可変的なマルチチャネル補助情報を生成する。マルチチャネル補助情報と１以上の基本チャネルを組合わせることにより元のマルチチャネル信号をマルチチャネル再生できる。データストリーム生成装置は出力５においてデータストリームを生成し、マルチチャネル補助情報とフィンガープリント情報の対応関係をデータストリームから生成する。本発明によれば、１以上の基本チャネルから生成されたフィンガープリント情報によりマルチチャネル補助情報のデータストリームをマーキングし、マルチチャネル補助情報と基本チャネルデータの対応関係をフィンガープリント情報により決定する。この時、フィンガープリント情報とマルチチャネル補助情報とはデータストリーム生成装置４において対応付けられる。

図２は、本発明による、１以上の基本チャネルとデータストリームから元のマルチチャネル信号のマルチチャネル表現を生成する装置を示す。この時、データストリームは１以上の基本チャネルに時間経過を付与するフィンガープリント情報およびマルチチャネル補助情報を含み、１以上の基本チャネルと組合わせることにより、元のマルチチャネル信号をマルチチャネル再生できる。マルチチャネル補助情報およびフィンガープリント情報の対応関係はデータストリームから生成してもよい。受信装置および／またはデコーダにおいて、１以上の基本チャネルは入力１０を介してフィンガープリント生成装置１１に送信される。出力側では、フィンガープリント生成装置１１は出力１２を介してテストフィンガープリント情報を同期装置１３に送信する。好ましくは、図１に示すブロック２で実行されるものと全く同じアルゴリズムにより、１以上の基本チャネルからテストフィンガープリント情報を生成する。しかしながら、実施例によっては、このアルゴリズムは全く同一でなくてもよい。

例えば、フィンガープリント生成装置２は絶対符号化によりブロックフィンガープリントを生成し、デコーダのフィンガープリント生成装置１１は差分に基づきフィンガープリントを決定してもよい。この時、ブロックに対応するテストブロックフィンガープリントは２つの絶対フィンガープリントの差分となる。この場合、すなわち、絶対ブロックフィンガープリントがフィンガープリント情報を含むデータストリームによって送信される場合、フィンガープリント抽出装置１４はデータストリームからフィンガープリント情報を抽出し、同時に差分を形成し、そのデータを参照フィンガープリント情報として出力１５を介して同期装置１３に送信する。このデータはテストフィンガープリント情報に相当する。

一般的に、デコーダにおけるテストフィンガープリント情報の計算アルゴリズムと、エンコーダにおけるフィンガープリント情報の計算アルゴリズムは少なくとも、同期装置１３において、これら２種類のフィンガープリント情報を使って、入力１６を介して受信するデータストリームに含まれるマルチチャネル補助データと１以上の基本チャネルに含まれるデータを同期できる程度には、類似していることが望ましい。この時、エンコーダにおけるフィンガープリント情報は、図２に示すように、参照フィンガープリント情報とも呼ばれる。同期装置の出力におけるマルチチャネル表現として、基本チャネルデータおよび同期するマルチチャネル補助データを含む、同期マルチチャネル表現が生成される。

この観点から、好ましくは、同期装置１３は基本チャネルデータおよびマルチチャネル補助データ間のタイムオフセットを決定し、決定したタイムオフセットに基づいてマルチチャネル補助データを遅延させる。通常、マルチチャネル補助データの方が到達するのが早い、すなわち早すぎることが明らかになっている。これは、通常、基本チャネルデータのデータ量に比べてマルチチャネル補助情報に対応するデータ量がかなり少ないことに起因するであろう。したがって、マルチチャネル補助データが遅延すれば、１以上の基本チャネルに含まれるデータは基本チャネルデータライン１７を介して入力１０から同期装置１３へ送信され、文字通り同期装置１３をただ「通過」し、出力１８から再び出力される。入力１６から受信したマルチチャネル補助データはマルチチャネル補助データライン１９を介して同期装置へ送信され、そこで、決定されたタイムオフセットに基づき遅延され、基本チャネルデータと共に同期装置の出力２０からマルチチャネル再生装置２１に送信される。再生装置は、例えば５つの音声チャネルおよび１つのウーファチャネル（図２には示さない）を生成するために、出力側で音声再生処理を行う。

ライン１８および２０におけるデータは同期したマルチチャネル表現を構成し、ライン２０上のデータストリームは、フィンガープリント情報がデータストリームから分離されている点を除き、恐らく行われるマルチチャネル補助データの符号化から離れて、入力１６におけるデータストリームに対応している。実施例によっては、フィンガープリント情報をデータストリームから分離する処理は、同期装置１３、もしくはそれ以前の段階で行われる。もしくは、フィンガープリントを分離する処理は、予めフィンガープリント抽出装置１４で行ってもよい。この場合、ライン１９は存在せず、ライン１９’が直接フィンガープリント抽出装置９から同期装置１３に接続される。この場合、マルチチャネル補助データおよび参照フィンガープリント情報の両方が、フィンガープリント抽出装置により同期装置１３へ並列に送信される。

同期装置は、テストフィンガープリント情報および参照フィンガープリント情報に基づいて、また、マルチチャネル情報およびデータストリームから生成され、かつ、データストリームに含まれるフィンガープリント情報との相関に基づいて、マルチチャネル補助情報および１以上の基本チャネルを同期する。後で述べるように、好ましくは、マルチチャネル補助情報とフィンガープリント情報の時間的対応関係は、単純にフィンガープリント情報が、マルチチャネル補助情報の前に位置するか、後ろに位置するか、もしくは、中に位置するかによって決定される。フィンガープリントがマルチチャネル補助情報の前に位置するか、後ろに位置するか、中に位置するかによって、そのマルチチャネル補助情報が間違いなくそのフィンガープリント情報に対応するものかどうか、エンコーダで決定される。

好ましくは、ブロックに基づく処理が行われる。好ましくは、フィンガープリントを挿入する際に、マルチチャネル補助データのブロックは必ずブロックフィンガープリントの後に続く。すなわち、マルチチャネル補助情報は、ブロックフィンガープリントと交互になっている。しかし、またこれとは別に、全てのフィンガープリント情報がデータストリームの最初の分離した部分に書かれ、その後にデータストリーム全体が続くようなデータストリームの形式が使われてもよい。この場合は、ブロックフィンガープリントと、マルチチャネル補助情報のブロックは交互にならない。フィンガープリントとマルチチャネル補助情報を関連付ける他の方法は、当業者には公知である。本発明によれば、マルチチャネル補助情報とフィンガープリント情報の関連付けは、フィンガープリント情報を使ってマルチチャネル補助情報および基本チャネルデータを同期できるように、デコーダにおいてデータストリームに基づいて行われればよい。

次に、図７ａ〜図７ｄを参照して、ブロック処理の好ましい実施例について述べる。図７ａは、一連のブロックＢ１〜Ｂ８からなる、例えば５．１信号等の元のマルチチャネル信号を示し、図７ａの例によれば各ブロックはマルチチャネル情報ＭＫｉを含む。５チャネル信号の場合を考えると、ブロックＢ１など各ブロックはそれぞれのチャネルに対応する、例えば１１５２個の第一の音声サンプルを含む。このブロックサイズは、例えば、図５に示すＢＣＣエンコーダ１１２において好ましい。この場合、連続する信号から一連のブロックを生成するためのブロック生成処理、すなわち切出し処理は、図５において「ブロック」として示す構成要素１１１によって実行される。

１以上の基本チャネルを、図５において参照符号１１５で示す「和信号」としてダウンミックスブロック１１４で出力する。基本チャネルデータは、再び、一連のブロックＢ１〜Ｂ８として示す。ここで、図７ｂに示すブロックＢ１〜Ｂ８は図７ａに示すブロックＢ１〜Ｂ８に対応する。しかし、時間領域表現に基づけば、この時点ではブロックは元の５．１信号は含まず、モノ信号もしくは２つのステレオ基本チャネルからなるステレオ信号のみ含む。従って、ブロックＢ１は、第１のステレオ基本チャネルおよび第２のステレオ基本チャネルの両方の、１１５２個の時間サンプルを含む。この左右両方のステレオ基本チャネルの１１５２個のサンプルは、サンプル加減および重み付けにより計算され、該当する場合には、例えば図５に示すダウンミックスブロック１１４における実施例により計算される。同様に、マルチチャネル情報を含むデータストリームはブロックＢ１〜Ｂ８を含む。図７ｃに示す各ブロックは図７ａに示す元のマルチチャネル信号のブロックおよび／または図７ｂに示す１つまたは複数の基本チャネルのブロックに対応する。例えば、元のマルチチャネル信号ＭＫ１のブロックＢ１を再生するためには、基本チャネルデータストリームのブロックＢ１に含まれる基本チャネルデータＢＫ１を、図７ｃに示すブロックＢ１に含まれるマルチチャネル情報Ｐ１と結合させなければならない。図６に示す実施例においては、この結合処理はＢＣＣ合成ブロックにおいて行われる。この場合、基本チャネルデータをブロック処理するために、入力においてブロック生成ステージを含む。

したがって、図７ｃに示すようにＰ３はマルチチャネル情報を表し、マルチチャネル情報と、基本チャネルに含まれるＢＫ３のブロックとを組み合わせることにより、元のマルチチャネル信号に含まれるブロック値ＭＫ３を再生することができる。

本発明によれば、図７ｃに示すデータストリームの各ブロックＢｉはブロックフィンガープリントを含む。すなわち、好ましくは、ブロックＢ３においてブロックフィンガープリントＦ３はマルチチャネル情報のブロックＰ３の後ろに書かれている。このブロックフィンガープリントは、この時点で、ブロック値ＢＫ３を含むブロックＢ３から生成される。もしくは、ブロックフィンガープリントＦ３は差分符号化により処理してもよい。この時、フィンガープリントＦ３は、基本チャネルにおけるブロックＢＫ３のブロックフィンガープリントと、基本チャネルにおけるブロック値ＢＫ２を含むブロックのブロックフィンガープリントとの差分である。本発明の好ましい実施例においては、エネルギ値および／または差分エネルギ値をブロックフィンガープリントとして利用する。

初めに述べた方式では、図７ｂに示す１以上の基本チャネルを含むデータストリームを、図７ｃに示すマルチチャネル情報およびフィンガープリント情報を含むデータストリームから分離してマルチチャネル再生装置へ送信する。他の処理を何も行わなければ、例えば図５に示すＢＣＣ合成ブロック１２２のようなマルチチャネル再生装置において、次に処理されるべきブロックがＢＫ５という場合が考えられる。しかしながら、マルチチャネル情報における時間のずれから、ブロックＢ５の変わりにブロックＢ７が次に処理される、ということが起こり得る。そのままいくと、基本チャネルデータのブロックＢＫ５はマルチチャネル情報Ｐ７と共に再生され、アーチファクトとなる。本発明によれば、後で詳細に述べるように、２つのブロック間のオフセットを計算して図７ｃに示すデータストリームを２ブロック分遅延し、互いに同期した図７ｂに示すデータストリームと図７ｃに示すデータストリームからマルチチャネル表現を再生する。

実施例により、またフィンガープリント情報の構成／正確性により、本発明おけるオフセットの決定は、ブロックの倍数（整数）として計算することに限らず、ブロックの分数として正確なオフセットを決定してもよい。もしくは、計算された相関が十分に正確で、十分な数のブロックフィンガープリントがあれば、あるサンプルを導出してもよい。（当然、相関を計算するための時間を要する。）しかしながら、そんなに高い正確性は必ずしも必要としないことが明らかになっており、プラスマイナスブロック半分の誤差の同期精度（１１５２個のサンプルからなるブロック長）があれば、ユーザが欠陥データを感じないと思われる程度のマルチチャネル再生が達成される。

図７ｄはブロックＢｉ、例えば図７ｃに示すデータストリームに含まれるブロックＢ３の好ましい実施例を示す。このブロックは、例えば１バイトの長さをもつ同期語で始まり、次には長さ情報が来る。なぜなら、当業者には明らかなように、このブロックは好ましくは計算処理の後、マルチチャネル情報Ｐ３をスケーリングし、量子化し、エントロピ符号化するためである。例えばパラメータ情報やサイドチャネルの波形信号などのマルチチャネル情報の長さを最初から知ることはできず、そのため、データストリームの中で信号化しなければならない。

そこで、本発明においては、ブロックフィンガープリントをマルチチャネル情報Ｐ３の最後部に挿入する。図７ｄに示す実施例において、１バイト、つまり８ビットがブロックフィンガープリントに使われる。１ブロックあたり１つのエネルギ尺度のみ使われるため、量子化のみ行われて、エントロピ符号化は行われない実施例においては、８ビットの量子化出力長による量子化では、量子化装置が使われる。したがって、量子化エネルギ値が図７ｄに示す８ビットのフィールド、「ブロックＦＡ」に、更なる処理を経ずに入力される。図７ｄには示さないが同様に、次のデータストリームブロックのための同期化バイト、長さのバイト、そしてさらにＢＫ４に対応するマルチチャネル情報Ｐ４と続く。この場合、基本チャネルデータブロックＢＫ４に対応するマルチチャネル情報Ｐ４のブロックの後には、同様に、基本チャネルデータＢＫ４に基づくブロックフィンガープリントが続く。

図７ｄに示すように、絶対エネルギ尺度もしくは差分エネルギ尺度をエネルギ尺度として採用してもよい。この場合、基本チャネルデータＢＫ３のエネルギ尺度と基本チャネルデータＢＫ２の差分がデータストリームのブロックＢ３にブロックフィンガープリントエネルギ値として追加される。

図８は、図２に示す同期装置、フィンガープリント生成装置１１、およびフィンガープリント抽出装置９をマルチチャネル再生装置２１と共に更に詳細に示す。基本チャネルデータを基本チャネルデータバッファ２５へ送信し、中間でバッファリングする。同様に、補助情報および／または、補助情報およびフィンガープリント情報を含むデータストリームを補助情報バッファ２６に送信する。通常、両方のバッファはＦＩＦＯバッファの構造になっているが、バッファ２６は更にフィンガープリント情報を参照フィンガープリント抽出装置９により抽出し、さらにデータストリームから分離できる容量を備える。これにより、挿入されたフィンガープリントを含まずに、マルチチャネル補助情報のみをバッファ出力ライン２７を介して出力する。フィンガープリントをデータストリームから分離する処理は、タイムシフタ２８やその他の構成要素により行われてもよく、その場合、マルチチャネル再生時に、マルチチャネル再生装置２１はフィンガープリントバイトの影響を受けない。絶対フィンガープリントが参照用およびテスト用両方に使われた場合、フィンガープリント生成装置１１により計算されたフィンガープリント情報は、フィンガープリント抽出装置９により決定されたフィンガープリント情報同様に、図２に示す同期装置１３内の相関器２９に直接送信されてもよい。そして、相関器はオフセット値を計算し、その計算したオフセット値をオフセットライン３０を介してタイムシフタ２８へ送信する。有効なオフセット値が生成され、タイムシフタ２８へ送信されると、同期装置１３は更に、実行装置３１を制御する。これにより、実行装置３１はスイッチ３２を閉鎖し、バッファ２６からのマルチチャネル補助データのストリームは、タイムシフタ２８およびスイッチ３２を介してマルチチャネル再生装置２１へ送信される。

本発明の好ましい実施例では、マルチチャネル補助情報のタイムシフト（遅延）のみ行われる。同時に、正確なオフセット値の計算と平行してマルチチャネル再生も行われるため、ユーザはマルチチャネル再生装置２１の出力において、オフセット値を正確に計算するために発生する時間の遅延に気づかない。しかしながら、このようなマルチチャネル再生は、「簡単な」マルチチャネル再生に過ぎない。なぜなら、好ましくは、単に２つのステレオ基本チャネルがマルチチャネル再生装置２１から出力されるだけだからである。したがって、スイッチ３２が開放されている場合、ステレオ出力のみ行われる。しかし、スイッチ３２が閉鎖されている場合、マルチチャネル再生装置２１は、ステレオ基本チャネルと併せてマルチチャネル補助情報も受信し、マルチチャネル出力を行う。しかしながら、この時、このマルチチャネル出力は既に同期されている。ユーザは、ステレオ品質がマルチチャネル品質に変換されていることにしか気づかない。

しかしながら、時間の最初の遅延が主な問題ではないケースの場合、マルチチャネル再生装置２１における出力は、有効なオフセットが得られるまで保留してもよい。一番最初のブロック（図７ｂに示すＢＫ１）を、正確に遅延させたマルチチャネル補助データＰ１（図７ｃ）と共にマルチチャネル再生装置２１へ送信してもよい。この場合、マルチチャネルデータが得られた時のみ、出力が開始されることになる。この実施例では、スイッチが開放している時にはマルチチャネル再生装置２１での出力は行われない。

次に、図９を参照して、図８に示す相関器２９の機能について説明する。図９の最上部の図に示すように、テストフィンガープリント計算装置１１の出力において、一連のテストフィンガープリント情報が送信される。従って、１、２、３、４、ｉの参照符号で示す基本チャネルの各ブロックに対して、ブロックフィンガープリントが得られる。相関アルゴリズムによっては、一連の離散値のみ相関に必要とする場合もある。しかしながら、図９に示すように、他の相関アルゴリズムでは離散値の間を補間する曲線を入力値として求めてもよい。同様に、参照フィンガープリント決定装置９は、一連の離散参照フィンガープリントをデータストリームから抽出し生成する。例えば、データストリームが差分符号化処理されたフィンガープリント情報を含み、相関器が絶対フィンガープリントに基づいて動作する場合、図８に示す差分デコーダ３５が作動する。しかしながら、好ましくは、データストリームはエネルギ尺度としての絶対フィンガープリントを含む。なぜなら、このようなブロックごとの総エネルギに関する情報は、マルチチャネル再生装置２１におけるレベル補正にも有効活用できるからである。更に、好ましくは、相関処理は、差分フィンガープリントに基づいて行われる。この場合、既に述べたように、ブロック９は相関器より前の段階で差分処理を行い、ブロック１１も相関器より前の段階で差分処理を行う。

図９の上部２つの図に示すように、相関器２９は曲線および／または一連の離散値を示し、また、図９の最下部の図に示すような相関結果を得る。この相関結果では、オフセット成分は２つのフィンガープリント情報曲線の間のオフセットを示す。更に、オフセットは正であるため、マルチチャネル補助情報を正の時間方向へシフト、つまり遅延しなければならない。なお、マルチチャネル再生装置における２つの情報の入力時に同期マルチチャネル表現を含んでさえいれば、当然、基本チャネルデータを負の時間方向へシフトしてもよい。あるいは、マルチチャネル補助情報を正の方向へいくらかシフトし、且つ基本チャネル補助データをオフセットのうちいくらか分、負の方向へシフトしてもよい。

次に、図１０を参照して、音声出力と平行してオフセットを計算する際の好ましい実施例について説明する。基本チャネルデータが常に１つのフィンガープリントを計算するようにバッファリングし、マルチチャネル再生のために、既に計算したテストブロックフィンガープリントをマルチチャネル再生装置へ送信する。次に、同様に基本チャネルデータの次のブロックをバッファ２５へ送信し、このブロックからテストブロックフィンガープリントを計算する。例えば、２００個のブロックについて、この処理を実行する。しかしながら、この２００個のブロックは、「簡単な」マルチチャネル再生として、単にステレオ出力データとしてマルチチャネル再生装置からステレオ出力される。この場合、ユーザは遅延には気づかない。

実施例によっては、２００個より少ない、もしくは２００個より多い数のブロックを使用してもよい。本発明によれば、１００個から３００個の間の数のブロック、好ましくは２００個のブロックから、計算時間・相関計算作業量・オフセットの正確性の間に妥当な妥協点を得られることが分かっている。

ブロック３６の処理が完了すると、ブロック３７の処理を実行する。ここでは、計算した２００個のテストブロックフィンガープリントと計算した２００個の参照ブロックフィンガープリントを相関器２９により相関処理し、得られるオフセット結果を記憶する。そして、次の例えば２００個の基本チャネルデータブロックを、ブロック３６の処理に相当するブロック３８の処理に基づき計算する。同様に、２００個のブロックをマルチチャネル補助情報を含むデータストリームから抽出する。続いて、ブロック３９で同様に相関処理を行い、得られるオフセット結果を記憶する。そして、ブロック４０の処理で、第１の２００個のブロック群に基づくオフセット結果と、第２の２００個のブロック郡に基づくオフセット結果の偏差値を決定する。ブロック４１の処理では、この偏差値が所定の閾値より小さい場合、オフセットを図８に示すタイムシフタ２８へオフセットライン３０を介して送信し、スイッチ３２を閉鎖する。それにより、この時点でマルチチャネル出力のスイッチを構成する。偏差値に対する所定の閾値は、例えば、１つもしくは２つブロック分である。これは、オフセットが最初の計算と次の計算の間で、１つもしくは２つブロック分以上違わなければ、相関計算処理において誤りは発生しないからである。

上記の実施例とは違い、例えば２００個のブロック分の窓の長さに基づくスライドウインドウを利用してもよい。例えば、２００個のブロックの計算を行い、結果を得る。そして、１個先のブロックを処理し、相関計算処理に使ったブロックからブロックを１個削除し、変わりに新しいブロックを使う。先に得られた結果同様に、計算した結果をヒストグラムに記録する。この処理を、相関計算処理の回数分だけ、つまり、例えば１００個か２００個行い、段階的にヒストグラムを埋める。ヒストグラムの頂点をオフセットとして計算し、最初のオフセットを算出し、もしくは動的再調整を行う。

オフセット計算は出力と同時に行われ、ブロック４２の処理と平行して行われる。必要であれば、マルチチャネル情報を含むデータストリームおよび基本チャネルデータを含むデータストリームが正しく対応付けされていないのが発見された場合、更新したオフセット値を図８に示すタイムシフタ２８にライン３０を介して送信し、適応および／または動的オフセットトラッキングを実行する。なお、適応トラッキングを行う際は、実施例に応じてオフセット変化を平滑化し、例えば２つのブロックの偏差値を求めた時に、必要に応じてオフセットを１つずつ増加し続け、曲線が急激に変化しないようにしてもよい。

次に、図１１を参照して、図１に示すエンコーダ側のフィンガープリント生成装置２および図２に示すデコーダ側のフィンガープリント生成装置１１の好ましい実施例について述べる。

通常、マルチチャネル音声信号は、マルチチャネル補助データを取得するために、所定のサイズのブロックに分割される。この時、マルチチャネル補助データの取得と同時に、ブロックごとのフィンガープリントを計算する。この方法は、信号の時間構造を出来るだけ一意的に特徴付けるのに有効である。この考えに基づく実施例では、音声ブロックの現在のダウンミックス音声信号におけるエネルギ容量を例えばデシベル表現のような対数形式で利用する。この場合、フィンガープリントは音声信号の時間エンベロープを表す。送信する情報量を減少し、測定値の正確性を向上させるために、このような同期情報を先行するブロックのエネルギ値との差分として表現してもよく、その後に適宜、例えばハフマン符号化などのエントロピ符号化、適応スケーリング、および量子化を実行してもよい。時間エンベロープのフィンガープリントは以下ように求める。

まず、図１１の１に示すように、現在のブロックにおけるダウンミックス音声信号のエネルギを、通常、ステレオ信号について計算する。例えば、左右両方のダウンミックスチャネルの１１５２個の音声サンプルをそれぞれ二乗し、合計する。Ｓ_ｌｅｆｔ（ｉ）は左基本チャネルの時間ｉにおける時間サンプルを表し、Ｓ_{ｒｉｇｈｔ}（ｉ）は右基本チャネルの時間ｉにおける時間サンプルを表す。モノラルのダウンミックス信号では、合計処理は行われない。更に、好ましくは、ダウンミックス音声信号において、本発明に重要ではない直接の構成要素を計算処理の前の段階で削除する。

次に行われる対数表現のために、ステップ２においてエネルギの最小化を行う。エネルギをデシベル分析するために、好ましくは最小エネルギオフセットを使い、ゼロエネルギの場合には、妥当な対数計算が行われるようにする。このエネルギ尺度をｄＢで表すと、１６ビットの音声信号解像度では、０〜９０（ｄＢ）の範囲になる。

図１１の３に示すように、マルチチャネル補助情報および受信した信号の間のタイムオフセットを正確に決定する際には、絶対エネルギエンベロープではなく、信号エンベロープの傾き（傾斜度）を使用するのが好ましい。したがって、エネルギエンベロープの傾きのみを相関計算処理に使用する。技術的な面から言うと、この信号導出は、先行するブロックのエネルギ値との間の差分処理により計算する。この処理は、例えばエンコーダなどで実行され、フィンガープリントは差分符号化された値からなる。また、この処理は、デコーダのみで実行してもよい。この場合、送信されたフィンガープリントは非差分符号化の値からなる。この時、差分の計算はデコーダのみで行われる。後者の解決法においては、フィンガープリントがダウンミックス信号の絶対エネルギに関する情報を含むという利点がある。しかしながら、典型的には、フィンガープリントにおいて、いくらか長いワード長を必要とする。

さらに、最適制御のために、エネルギ（信号のエンベロープ）をスケーリングするのが好ましい。次に行うこのフィンガープリントの量子化において、数値的な幅を最大まで活用し、さらに低いエネルギ値に対する解像度を向上するために、さらにスケーリング（利得）するのが有効である。スケーリングは所定の統計的重み付けにより実行してもよいし、あるいはエンベロープ信号に適応された動的利得制御により実行してもよい。

さらに、図１１の５に示すように、フィンガープリントを量子化する。このフィンガープリントをマルチチャネル補助情報に挿入するために８ビットに量子化する。実際、この減少したフィンガープリント解像度は、必要となるビット数や遅延の検出における信頼度の面から有効な妥協点であることが分かっている。２５５を超える数のオーバーフローについては、特性飽和曲線により２５５が最大値となるよう制限されている。

図１１の６に示すように、この時点でフィンガープリントを最適エントロピ符号化してもよい。フィンガープリントの統計的特性を求めることにより、量子化フィンガープリントが必要とするビット数を更に減少できる。有効なエントロピ方法は、例えばハフマン符号化や算術符号化である。フィンガープリントごとの統計的に異なる周波数は、異なる符号長により表し、フィンガープリント表現において平均的に必要なビット数を減少してもよい。
マルチチャネル補助データの計算は、マルチチャネル音声信号を利用して、音声ブロックごとに行われる。計算されたマルチチャネル補助情報は続いて同期情報により拡張され、適当な埋込み処理によりビットストリームに追加される。

本発明の解決策によれば、受信装置はダウンミックス信号と補助情報のタイムオフセットを検出し、時間にずれのない適応化、つまり、ステレオ音声信号とマルチチャネル補助情報の間の遅延を、プラスマイナス音声ブロック半分分の範囲で補間する。したがって、受信装置において、マルチチャネル構造はほぼ完全に、つまりプラスマイナス音声フレーム半分分のほとんど知覚されない時間のずれを除いて、再生される。この場合、再生されたマルチチャネル音声信号の品質に、特筆するほどの影響は与えない。

環境に応じて、本発明による生成方法および／または復号化方法はハードウエアまたはソフトウエアのいずれで実現してもよい。これは、デジタル記憶媒体、特に電子的に読出し可能な制御信号を備えるフロッピーディスクやＣＤ上で実現され、フロッピーディスクやＣＤは、本発明による方法が実行されるように、プログラム可能なコンピュータシステムと連動できる。一般に、本発明は、コンピュータで実行し、本発明の方法を実現するための機械で読取り可能な担体上に記憶されたプログラム符号を有するコンピュータプログラム製品においても実現される。すなわち、本発明は、コンピュータ上で実行すれば、本発明による方法を実現するためのプログラム符号を有するコンピュータプログラムとして、実現することもできる。

本発明のデータストリーム生成装置の回路ブロック図である。本発明のマルチチャネル表現生成装置の回路ブロック図である。チャネルデータおよびパラメトリックマルチチャネル情報を生成するための公知のジョイントステレオエンコーダの図である。ＢＣＣ符号化／復号化のためのＩＣＬＤ、ＩＣＴＤおよびＩＣＣパラメータを決定するための図式である。 BCCエンコーダ／デコーダ列のブロック図である。図５に示すＢＣＣ合成ブロックの実現例である。元のマルチチャネル信号を一連のブロックとして表した概略図である。１つまたは複数の基本チャネルを一連のブロックとして表した概略図である。本発明による、マルチチャネル情報および関連するブロックフィンガープリントを含むデータストリームの概略図である。図７ｃに示すデータストリームのブロックの典型例を示す図である。本発明の好ましい実施例による、マルチチャネル表現生成装置の詳細図である。テストフィンガープリント情報および参照フィンガープリント情報間の相関に基づくオフセット決定処理の概略図である。データ出力と平行して行うオフセット決定処理の好ましい実施例を示すフローチャートである。エンコーダおよびデコーダにおける、フィンガープリント情報および／または符号化フィンガープリント情報の計算処理の概略図である。

Claims

２以上のチャネルを有する元のマルチチャネル信号をマルチチャネル再生するためのデータストリームを生成する装置であって、
前記元のマルチチャネル信号から生成した１以上かつ前記元のマルチチャネル信号のチャネル数より少ない数の１以上の基本チャネルから、前記１以上の基本チャネルに時間経過を付与するフィンガープリント情報を生成するフィンガープリント生成装置（２）および、
前記１以上の基本チャネルと組合わせることにより前記元のマルチチャネル信号のマルチチャネル再生を可能にする時間可変的マルチチャネル補助情報のデータストリームを前記フィンガープリント情報から生成するデータストリーム生成装置（４）を備え、
前記データストリーム生成装置（４）は前記マルチチャネル補助情報および前記フィンガープリント情報の間の時間的対応関係を前記データストリームから生成するための前記データストリームを生成する、装置。
前記フィンガープリント生成装置（２）は前記１以上の基本チャネルをブロック処理して前記フィンガープリント情報を生成し、
マルチチャネル再生のために前記１以上の基本チャネルのブロックと組合わせるために前記マルチチャネル補助情報をブロック処理により計算し、
前記データストリーム生成装置（４）は前記マルチチャネル補助情報および前記フィンガープリント情報をブロック処理により前記データストリームに書き込む、請求項１に記載の装置。
前記フィンガープリント生成装置（２）は、前記１以上の基本チャネルのブロックに関するフィンガープリント情報として、前記ブロック内の前記基本チャネルに時間経過を付与するブロックフィンガープリントを生成し、
前記マルチチャネル補助情報のブロックはマルチチャネル再生のために前記基本チャネルのブロックと組合わされ、
前記マルチチャネル補助情報のブロックおよび前記フィンガープリントのブロックが互いに所定の対応関係を形成するように、前記データストリーム生成装置（４）はブロック処理にて前記データストリームを生成する、請求項２に記載の装置。
前記フィンガープリント生成装置（２）は、時間的に連続する前記１以上の基本チャネルのブロックに対し一連のブロックフィンガープリントをフィンガープリント情報として計算し、
前記マルチチャネル補助情報を、時間的に連続する前記１以上の基本チャネルのブロックに対しブロック処理にて生成し、
前記データストリーム生成装置は、前記一連のマルチチャネル補助情報のブロックに対し所定の関係で前記一連のブロックフィンガープリントを書き込む、請求項２に記載の装置。
前記フィンガープリント生成装置（２）は、前記１以上の基本チャネルのブロック２個における２種類のフィンガープリント値間の差分をブロックフィンガープリントとして計算する、請求項４に記載の装置。
前記フィンガープリント生成装置（２）は、フィンガープリント値の量子化およびエントロピ符号化を行い、前記フィンガープリント情報を生成する、請求項１から請求項５のいずれかに記載の装置。
前記フィンガープリント生成装置（２）はフィンガープリント値をスケーリング情報によりスケーリングし、更に前記フィンガープリント情報に基づき前記スケーリング情報を前記データストリームに書き込む、請求項６に記載の装置。
前記フィンガープリント生成装置（２）はブロック処理にて前記フィンガープリント情報を計算し、
前記データストリーム生成装置（４）は、データストリームのブロックが、マルチチャネル補助情報のブロックおよびそれに対応するフィンガープリント情報のブロックおよび前記１以上の基本チャネルのブロックからなるようにブロック処理にて前記データストリームを生成する、請求項１から請求項７のいずれかに記載の装置。
２以上の基本チャネルがあり、
前記フィンガープリント生成装置（２）は前記２以上の基本チャネルをサンプル処理もしくはスペクトル処理により加算、もしくは二乗し加算する、請求項１から請求項８のいずれかに記載の装置。
前記フィンガープリント生成装置（２）は、前記１以上の基本チャネルのエネルギエンベロープに関するデータをフィンガープリント情報として利用する、請求項１から請求項９のいずれかに記載の装置。
前記フィンガープリント生成装置（２）は、前記１以上の基本チャネルのエネルギエンベロープに関するデータをフィンガープリント情報として利用し、
前記フィンガープリント生成装置（２）は更に、前記エネルギの最小化を利用し、最小エネルギを対数表現する、請求項１０に記載の装置。
前記１以上の基本チャネルが符号化形式でマルチチャネル再生装置に送信され、
前記符号化形式は非可逆エンコーダにより生成され、
更に、前記１以上の基本チャネルを前記フィンガープリント生成装置（２）に対する入力信号として復号化するための基本チャネルデコーダを備える、請求項１１に記載の装置。
前記マルチチャネル補助データが、それぞれ対応する前記１以上の基本チャネルのブロックとブロック的に対応するマルチチャネルパラメータデータである、請求項１から請求項１２のいずれかに記載の装置。
前記１以上の基本チャネルの一連のブロックおよび前記マルチチャネル補助情報の一連のブロックをブロック処理にて生成するマルチチャネル分析装置（１１２）を更に備え、
前記フィンガープリント生成装置（２）はブロックフィンガープリント値を前記１以上の基本チャネルの各ブロック値から計算する、請求項１３に記載の装置。
前記データストリーム生成装置（４）は、前記１以上の基本チャネルをマルチチャネル再生手段に送信するための標準データチャネルとは別のデータチャネルに前記データストリームを生成する、請求項１４に記載の装置。
前記標準データチャネルは、デジタルステレオ無線信号のための標準チャネルまたはインターネットを介する送信のための標準チャネルである、請求項１５に記載の装置。
１以上の基本チャネルおよび、前記１以上の基本チャネルに時間経過を付与するフィンガープリント情報および前記１以上の基本チャネルと組合わせることにより前記元のマルチチャネル信号の前記マルチチャネル再生を可能にするマルチチャネル補助情報を含むデータストリームから元のマルチチャネル信号のマルチチャネル表現（１８、２０）を生成する装置であって、前記マルチチャネル補助情報よび前記フィンガープリント情報の対応関係は前記データストリームから生成され、
テストフィンガープリント情報を前記１以上の基本チャネルから生成するためのフィンガープリント生成装置（１１）、
前記データストリームからフィンガープリント情報を抽出し、参照フィンガープリント情報を生成するためのフィンガープリント抽出装置（９）および、
前記テストフィンガープリント情報、前記参照フィンガープリント情報および、前記データストリームに含まれ且つ前記データストリームから生成される前記マルチチャネル情報および前記フィンガープリント情報の対応関係を利用して、前記マルチチャネル補助情報および前記１以上の基本チャネルを時間的に同期し、同期マルチチャネル表現を生成する同期装置（１３）を備える、装置。
前記同期マルチチャネル表現を利用して前記マルチチャネル表現を再生し、前記元のマルチチャネル信号を再生するためのマルチチャネル再生装置（２１）を更に備える、請求項１７に記載の装置。
前記データストリームは、参照フィンガープリント情報としての一連の参照フィンガープリント値に時間的に対応する、一連のマルチチャネル補助データのブロックからなり、
前記抽出装置（９）は、マルチチャネル補助データのブロックに対し、時間的対応関係に基づき対応するフィンガープリント値を決定し、
前記フィンガープリント生成装置（１１）は、一連の前記１以上の基本チャネルのブロックに対し、一連のテストフィンガープリント値をテストフィンガープリント情報として決定し、
前記同期装置（１３）は前記マルチチャネル補助データのブロックおよび前記１以上の基本チャネルのブロックとの間のオフセットを、前記一連のテストフィンガープリント値および前記一連の参照フィンガープリント値の間のオフセット（３０）に基づき計算し、前記一連のマルチチャネル補助情報のブロックを計算したオフセットに基づき遅延（２８）することにより前記オフセットを補間する、請求項１７または請求項１８に記載の装置。
前記フィンガープリント生成装置（１１）はフィンガープリント値を量子化し、前記テストフィンガープリント情報を生成する、請求項１７から請求項１９のいずれかに記載の装置。
前記フィンガープリント生成装置（１１）は、前記データストリームに含まれるスケーリング情報に基づき、フィンガープリント値をスケーリングする、請求項１７から請求項２０のいずれかに記載の装置。
２以上の基本チャネルがあり、
前記フィンガープリント生成装置（１１）は前記２以上の基本チャネルをサンプル処理またはスペクトラム処理により加算、または二乗し加算する、請求項１７から請求項２１のいずれかに記載の装置。
前記フィンガープリント生成装置（１１）は、前記１以上の基本チャネルのエネルギエンベロープに関するデータをフィンガープリント情報として利用する、請求項１７から請求項２２のいずれかに記載の装置。
前記フィンガープリント生成装置（１１）は、前記１以上の基本チャネルのエネルギエンベロープに関するデータをフィンガープリント情報として利用し、
前記フィンガープリント生成装置（１１）は更に、前記エネルギの最小化を利用し、最小エネルギを対数表現する、請求項１７から請求項２３のいずれかに記載の装置。
マルチチャネル補助情報のブロックおよびブロックフィンガープリントは、ブロック構成された前記データストリームのブロックに含まれ、
前記フィンガープリント生成装置（１１）は、前記１以上の基本チャネルの２つのブロックフィンガープリント間の差分をテストフィンガープリント情報として計算し、
前記フィンガープリント抽出装置（９）は更に前記データストリームに含まれる２つのブロックフィンガープリント間の差分を計算し、参照フィンガープリントとして前記同期装置（１３）に送信する、請求項１７から請求項２４のいずれかに記載の装置。
前記同期装置（１３）は、オーディオ出力と平行して前記マルチチャネル補助データおよび前記１以上の基本チャネルとの間のオフセットを計算し、前記オフセットを適応的に補間する、請求項１７から請求項２５のいずれかに記載の装置。
更に、同期マルチチャネル補助データが得られない時は前記１以上の基本チャネルを再生し、同期マルチチャネル補助データが得られた時は前記１以上の基本チャネルのモノラルまたはステレオ再生からマルチチャネル再生に変換（３２）する、請求項１８に記載の装置。
互いに異なる２つの論理チャネルまたは物理チャネルを介して、もしくは異なるタイミングで動作する同一の送信チャネルを介して受信されるビットストリームから、前記データストリームおよび前記１以上の基本チャネルを別々に生成する、請求項１７から請求項２７のいずれかに記載の装置。
２以上のチャネルを有する元のマルチチャネル信号をマルチチャネル再生するためのデータストリーム生成方法であって、
前記元のマルチチャネル信号から生成した、１以上且つ前記元のマルチチャネル信号のチャネル数よりも少ない数の１以上の基本チャネルから、前記１以上の基本チャネルに時間経過を付与するフィンガープリント情報を生成（２）し、
フィンガープリント情報から時間可変的なマルチチャネル補助情報のデータストリームを生成（４）し、前記１以上の基本チャネルと組み合わさって前記元のマルチチャネル信号のマルチチャネル再生を可能にし、前記マルチチャネル補助情報および前記フィンガープリント情報の時間的対応関係を前記データストリームから生成できるように前記データストリームを生成する、方法。
元のマルチチャネル信号のマルチチャネル表現（１８、２０）を１以上の基本チャネルおよび、前記１以上の基本チャネルに時間経過を付与するフィンガープリント情報および前記１以上の基本チャネルと組合わさって前記元のマルチチャネル信号のマルチチャネル再生を可能にするマルチチャネル補助情報を含むデータストリームから生成する方法であって、前記マルチチャネル補助情報および前記フィンガープリント情報の対応関係は前記データストリームから生成され、
テストフィンガープリント情報を前記１以上の基本チャネルから生成（１１）し、
前記フィンガープリント情報を前記データストリームから抽出（９）し、参照フィンガープリント情報を生成し、および
前記テストフィンガープリント情報、前記参照フィンガープリント情報、および前記マルチチャネル補助情報および前記データストリームに含まれ且つ前記データストリームから生成される前記フィンガープリント情報の対応関係に基づき、前記マルチチャネル補助情報および前記１以上の基本チャネルを同期（１３）し、同期マルチチャネル表現を生成する、方法。
請求項２９または請求項３０に記載の方法をコンピュータ上で実行するためのプログラム符合を含むコンピュータプログラム。
元のマルチチャネル信号から生成された、１以上且つ前記元のマルチチャネル信号のチャネル数より少ない数の１以上の基本チャネルに時間経過を付与するフィンガープリント情報および前記１以上の基本チャネルと組合わさって前記元のマルチチャネル信号のマルチチャネル再生を可能にするマルチチャネル補助情報含むデータストリームであって、前記マルチチャネル補助情報および前記フィンガープリント情報の対応関係は前記データストリームから生成される、データストリーム。
前記データストリームが請求項１７に記載の装置に送信される時に前記元のマルチチャネル信号の同期マルチチャネル表現を生成するための制御信号を含む、請求項３２に記載のデータストリーム。