JP4917039B2

JP4917039B2 - 音響空間環境エンジン

Info

Publication number: JP4917039B2
Application number: JP2007539174A
Authority: JP
Inventors: ダブリュ．リームズ，ロバート; ケイ．トンプソン，ジェフリー; ワーナー，アーロン
Original assignee: DTS Washington LLC
Current assignee: DTS Washington LLC
Priority date: 2004-10-28
Filing date: 2005-10-28
Publication date: 2012-04-18
Anticipated expiration: 2025-10-28
Also published as: KR101283741B1; JP2008519491A; HK1158805A1; KR20120062027A; CN102117617A; WO2006050112A8; KR20120064134A; EP1810280A2; WO2006050112A9; WO2006050112A3; KR101210797B1; KR101177677B1; US20070297519A1; CN102833665B; CN102833665A; PL1810280T3; EP1810280B1; CN102117617B; CN101065797A; KR20070084552A

Description

関連出願：本出願は、米国特許に関係している。本出願は、２００４年の１０月２８日に出願された米国仮出願第６０/６２２,９２２号「２−Ｎレンダリング」、２００４年の１０月２８日に出願された米国特許第１０/９７５,８４１号「音響空間環境エンジン」、同時に出願された米国特許出願１１/２６１,１００号「音響空間環境ダウンミキサ」(代理人整理番号１３６４６.００１４)、同時に出願された米国特許出願１１/２６２,０２９号「音響空間環境アップミキサ」(代理人整理番号１３６４６.００１２)の優先権を主張する。これら出願は共通して所有されており、あらゆる目的について、引用を以て本明細書の一部となる。

本発明は、オーディオデータ処理の分野に関しており、より詳細には、フォーマットが異なるオーディオデータの間で変換を行うシステム及び方法に関する。

オーディオデータを処理するシステム及び方法は、当該技術分野において公知である。このようなシステム及び方法の大半は、２チャンネルステレオ環境、４チャンネル方式の環境、５チャンネルサラウンドサウンド環境(５.１チャンネル環境としても知られている)、又は、その他の適当なフォーマット若しくは環境のような、公知のオーディオ環境についてオーディオデータを処理する。

フォーマット又は環境の数が増えることで起こる問題は、第１環境で最適な音質のために処理されたオーディオデータを、大抵の場合、異なるオーディオ環境では、容易に使用できないことである。この問題の一例としては、ステレオサウンドデータ用に設計されたネットワーク又はインフラストラクチャに渡って、サラウンドサウンドデータを伝送又は格納することがある。ステレオの２チャンネル伝送又は格納用のインフラストラクチャは、サラウンドサウンドフォーマットにおけるオーディオデータの増加したチャンネルをサポートしなくてよいので、現存するインフラストラクチャを用いてサラウンドサウンドフォーマットデータを伝送又は使用することは、困難又は不可能であった。

本発明によれば、異なる音響空間環境の間で変換を行うことで従来の問題を解決する音響空間環境エンジンのシステム及び方法が与えられる。

特に、本発明により与えられる音響空間環境エンジンのシステム及び方法は、Ｎ−チャンネルデータとＭ−チャンネルデータの間の変換と、Ｍ−チャンネルデータからＮ'−チャンネルデータに戻す変換とを可能にする。ここで、Ｎ、Ｍ、及びＮ'は、整数であってＮは、Ｎ'と必ずしも等しくなくともよい。

本発明の典型的な実施例では、ＮチャンネルオーディオシステムからＭチャンネルオーディオシステムに変換し、Ｎ'チャンネルオーディオシステムに戻す音響空間環境エンジンが与えられる。ここで、Ｎ、Ｍ、及びＮ'は整数であって、Ｎは、Ｎ'と必ずしも等しくなくともよい。その音響空間環境エンジンは、Ｎ個のオーディオデータのチャンネルを受信して、それらＮ個のオーディオデータのチャンネルをＭ個のオーディオデータのチャンネルに変換する動的ダウンミキサを含んでいる。音響空間環境エンジンはまた、Ｍ個のオーディオデータのチャンネルを受信して、それらＭ個のオーディオデータのチャンネルをＮ'個のオーディオデータのチャンネルに変換するアップミキサを含んでいる。ここで、Ｎは、Ｎ'と必ずしも等しくなくともよい。このシステムの典型的な用途の１つは、ステレオサウンドデータ向けに設計されたネットワーク又はインフラストラクチャに渡って、サラウンドサウンドデータを伝送又は格納することである。動的ダウンミキシングユニットは、サラウンドサウンドデータを、伝送又は格納するステレオサウンドデータに変換し、アップミキシングユニットは、ステレオサウンドデータを、再生、処理、又はその他のある適切な用途のためにサラウンドサウンドデータに戻す。

本発明は、多くの重要な技術的利点を与える。本発明の重要な技術的利点の１つは、進化した動的ダウンミキシングユニットと、高分解能周波数帯域アップミキシングユニットとによって、異なる空間環境間で改善された柔軟な変換を与えるシステムである。動的ダウンミキシングユニットは、多くのダウンミキシング方法に共通するスペクトルの誤り、時間的誤り及び空間的誤りを補正するインテリジェント解析・補正ループを含んでいる。アップミキシングユニットは、高分解能周波数帯域に渡って重要なチャンネル間空間キュー(inter-channel spatial cues)の抽出及び解析を利用して、様々な周波数要素の空間的な配置を導く。ダウンミキシンクユニット及びアップミキシングユニットは、別個に又は１つのシステムとして使用される場合、音質と空間的な差(spatial distinction)の改善をもたらす。

当該技術分野における通常の知識を有する者は、図面と共に以下の詳細な説明を読むことで、その他の重要な特徴と共に本発明の利点と優れた特徴とをさらに理解するであろう。

以下の説明では、明細書及び図面を通じて、類似した部分について、同じ参照符号を付する。作図の縮尺は一定ではなく、幾つかの構成要素は、一般化されて、若しくは模式的な形態で示されており、明瞭性と簡潔さを目的として、商業的な表示で特定される。

図１は、本発明の典型的な実施例であって、解析・補正ループを伴っており、Ｎ−チャンネルオーディオフォーマットからＭ−チャンネルオーディオフォーマットに動的なダウンミキシングをするシステム(100)の図である。システム(100)は、５.１チャンネルサウンド(即ち、Ｎ＝５)を用いており、５.１チャンネルサウンドをステレオサウンド(即ち、Ｍ＝２)に変換するが、その他の適当な数の入出力チャンネルが、さらに又は代わりに使用される。

システム(100)の動的ダウンミックスプロセスは、リファレンスダウンミックス(102)、リファレンスアップミックス(104)、サブバンドベクトル計算システム(106)(108)、及びサブバンド補正システム(110)を用いて実施されている。解析・補正ループは、アップミックスプロセスをシミュレートするリファレンスアップミックス(104)と、シミュレートされたアップミックス信号とオリジナル信号について周波数帯域ごとにエネルギと位置ベクトルを計算するサブバンドベクトル計算システム(106)(108)と、シミュレートされたアップミックス信号とオリジナル信号のエネルギと位置ベクトルを比較して、ダウンミックス信号のチャンネル間空間キューを変更し、任意の不一致(inconsistencies)を補正するサブバンド補正システム(110)とを用いて実現される。

システム(100)は、受信したＮ−チャンネルオーディオをＭ−チャンネルオーディオに変換する静的リファレンスダウンミックス(102)を含んでいる。静的リファレンスダウンミックス(102)は、５.１サウンドチャンネルであるレフトＬ(Ｔ)、ライトＲ(Ｔ)、センターＣ(Ｔ)、レフトサラウンドＬＳ(Ｔ)及びライトサラウンドＲＳ(Ｔ)を受信し、ステレオチャンネル信号であるレフトウォーターマーク(left watermark)ＬＷ'(Ｔ)及びライトウォーターマーク(right watermark)ＲＷ'(Ｔ)に変換する。

レフトウォーターマークＬＷ'(Ｔ)及びライトウォーターマークＲＷ'(Ｔ)のステレオチャンネル信号は、その後、リファレンスアップミックス(104)に与えられる。リファレンスアップミックス(104)は、ステレオサウンドチャンネルを５.１サウンドチャンネルに変換する。リファレンスアップミックス(104)は、５.１サウンドチャンネルであるレフトＬ'(Ｔ)、ライトＲ'(Ｔ)、センターＣ'(Ｔ)、レフトサラウンドＬＳ'(Ｔ)及びライトサラウンドＲＳ'(Ｔ)を出力する。

アップミックスされた５.１チャンネルサウンド信号は、リファレンスアップミックス(104)から出力されて、その後、サブバンドベクトル計算システム(106)に与えられる。サブバンドベクトル計算システム(106)の出力は、アップミックスされた５.１チャンネル信号であるレフトＬ'(Ｔ)、ライトＲ'(Ｔ)、センターＣ'(Ｔ)、レフトサラウンドＬＳ'(Ｔ)及びライトサラウンドＲＳ'(Ｔ)に関した複数の周波数帯のアップミックスされたエネルギ・像位置データである。同様に、オリジナルの５.１チャンネルサウンド信号が、サブバンドベクトル計算システム(108)に与えられる。サブバンドベクトル計算システム(108)の出力は、オリジナルの５.１サウンドチャンネルであるレフトＬ(Ｔ)、ライトＲ(Ｔ)、センターＣ(Ｔ)、レフトサラウンドＬＳ(Ｔ)及びライトサラウンドＲＳ(Ｔ)に関した複数の周波数帯のソースエネルギ・像位置データである。サブバンドベクトル計算システム(106)(108)で計算されるエネルギ及び位置ベクトルは、周波数帯ごとの全エネルギ測定値及び２次元ベクトルとからなり、理想的な聴取状態下における聴取者に関して、所定の周波数要素の感知強度及びソース位置示す。例えば、オーディオ信号は、適切なフィルタバンクを用いて、タイムドメインから周波数ドメインに変換される。このようなフィルタバンクには、有限インパルス応答(ＦＩＲ)フィルタバンク、直交ミラーフィルタ(ＱＭＦ)バンク、離散フーリエ変換(ＤＦＴ)、タイムドメインエリアシングキャンセル(ＴＤＡＣ)フィルタバンク、又はその他の適当なフィルタバンクがある。フィルタバンクの出力はさらに処理されて、周波数帯当たりの全エネルギと、周波数帯当たりの規格化された像位置ベクトルとを決定する。

サブバンドベクトル計算システム(106)(108)から出力されたエネルギ及び位置ベクトルの値は、サブバンド補正システム(110)に与えられる。サブバンド補正システム(110)は、５.１チャンネルサウンドがレフトウォーターマークＬＷ'(Ｔ)及びライトウォーターマークＲＷ'(Ｔ)のステレオチャンネル信号から生成されると、その５.１チャンネルサウンドのアップミックスされたエネルギ及び位置を用いて、オリジナルの５.１チャンネルサウンドについてソースのエネルギ及び位置を解析する。ソースとアップミックスについてエネルギ及び位置ベクトルの差が特定され、レフトウォーターマークＬＷ'(Ｔ)及びライトウォーターマークＲＷ'(Ｔ)がサブバンドごとに補正されて、ＬＷ(Ｔ)及びＲＷ(Ｔ)が生成される。これにより、より正確にダウンミックスされたステレオチャンネル信号が得られ、ステレオチャンネル信号がその後アップミックスされる場合に、より正確な５.１表現が得られる。補正されたレフトウォーターマークＬＷ信号(Ｔ)及びライトウォーターマークＲＷ信号(Ｔ)が出力されて、転送され、ステレオ受信機で受信され、アップミックス機能を有する受信機で受信され、又は、その他の適切な利用がなされる。

動作中、システム(100)は、ダウンミックス/アップミックスシステム全体のシミュレーション、解析及び補正をするインテリジェント解析・補正ループを用いて、５.１チャンネルサウンドをステレオサウンドに動的にダウンミックスする。この手法は、静的なレフトウォーターマーク信号ＬＷ'(Ｔ)及びライトウォーターマーク信号ＲＷ'(Ｔ)を生成し、その後にアップミックスされた信号Ｌ'(Ｔ)、Ｒ'(Ｔ)、Ｃ'(Ｔ)、ＬＳ'(Ｔ)及びＲＳ'(Ｔ)をシミュレートし、それら信号を、オリジナルの５.１チャンネル信号を用いて解析して、サブバンド単位でエネルギ又は位置ベクトルの任意の差異を特定及び補正することで達成される。差異は、レフトウォーターマークステレオ信号ＬＷ'(Ｔ)及びライトウォーターマークステレオ信号ＲＷ'(Ｔ)に、又は、その後のアップミックスされたサラウンドチャンネル信号に影響を与え得る。サブバンド補正処理は、レフトウォーターマークステレオ信号ＬＷ(Ｔ)及びライトウォーターマークステレオ信号ＲＷ(Ｔ)を生成し、ＬＷ(Ｔ)及びＲＷ(Ｔ)がアップミックスされる場合に、結果として生じる５.１チャンネルサウンドがオリジナルの入力された５.１チャンネルサウンドと整合する精度が、改善されるように実行される。同様に、更なる処理が実行されて、任意の適当な数の入力チャンネルが、適当な数のウォーターマークされた出力信号に変換されてよい。例えば、７.１チャンネルステレオがウォーターマークされたステレオに、７.１チャンネルサウンドがウォーターマークされた５.１チャンネルステレオに、(車両用サウンドシステム又はシアターのような)カスタムサウンドチャンネルがステレオに変換され、又はその他の適当な変換がなされてもよい。

図２は、本発明の典型的な実施例である、静的なリファレンスダウンミックス(200)の図である。静的なリファレンスダウンミックス(200)は、図１のリファレンスダウンミックス(102)として、又はその他の適当な方法で使用される。リファレンスダウンミックス(200)は、ＮチャンネルオーディオをＭチャンネルオーディオに変換する。ここで、Ｎ及びＭは整数であって、ＮはＭよりも大きい。リファレンスダウンミックス(200)は、入力信号Ｘ₁(Ｔ)、Ｘ₂(Ｔ)乃至Ｘ_N(Ｔ)を受信する。各入力チャンネルｉについて、入力信号Ｘ_i(Ｔ)は、信号の位相を９０度シフトさせるヒルベルト変換ユニット(202)乃至(206)に与えられる。９０度の位相シフトが得られるヒルベルトフィルタやオールパスフィルタネットワークのようなその他の処理が、そのヒルベルト変換ユニットに加えて、又はその代わりに使用され得る。各入力チャンネルｉについて、ヒルベルト変換された信号とオリジナルの信号とには、その後、所定のスケーリング定数Ｃ_il1とＣ_il2とが夫々、第１ステージの乗算器(208)乃至(218)にて掛け合わされる。ここで、第１の添字は、入力チャンネル番号ｉであり、第２の添字は、加算器の第１ステージを示し、第３の添字は、ステージ当たりの乗算器の数を示す。乗算器(208)乃至(218)の出力は、その後、加算器(220)乃至(224)で足し合わされ、加算器(220)乃至(224)から出力される分数次(fractional)ヒルベルト信号Ｘ'_i(Ｔ)は、対応する入力信号Ｘ_i(Ｔ)に対して可変な位相シフトを受けている。位相のシフト量は、スケーリング定数Ｃ_il1及びＣ_il2に依存する。０度の位相シフトは、Ｃ_il1＝０及びＣ_il2＝１で可能であり、±９０度の位相シフトは、Ｃ_il1＝±１及びＣ_il2＝１で可能である。それらの中間の位相シフトは、Ｃ_il1及びＣ_il2の適切な値を用いて可能である。

各入力チャンネルｉに関する各信号Ｘ'_i(Ｔ)について、その後、所定のスケーリング定数Ｃ_i2jが、第２ステージの乗算器(226)乃至(242)で掛けられる。ここで、第１の添字は、入力チャンネル番号ｉであり、第２の添字は、加算器の第２ステージを示し、第３の添字は、出力チャンネル番号ｊを示す。乗算器(226)乃至(242)の出力は、その後、加算器(244)乃至(248)で適切に足し合わされて、各出力チャンネルｊについて、対応する出力信号Ｙ_j(Ｔ)が生成される。各入力チャンネルｉと各出力チャンネルｊのスケーリング定数Ｃ_i2jは、各入力チャンネルｉと各出力チャンネルｊの空間的配置によって決定される。例えば、レフト入力チャンネルｉとライト出力チャンネルｊのスケーリング定数Ｃ_i2jがゼロ近くに設定されると、空間的な差異が保たれる。同様に、フロント入力チャンネルｉとフロント出力チャンネルｊのスケーリング定数Ｃ_i2jが１近くに設定されると、空間的な配置が保たれる。

動作中、リファレンスダウンミックス(200)は、出力信号が受信機で受信される場合に、入力信号間の空間的な関係が適宜に管理及び抽出されるような方法で、Ｎ個のサウンドチャンネルをＭ個のサウンドチャンネルに合成する。さらに、開示したようなＮチャンネルサウンドの組合せにより、Ｍチャンネルオーディオ環境にて聴取する聴取者が許容できる音質のＭチャンネルサウンドが生成される。従って、リファレンスダウンミックス(200)を用いることで、Ｎチャンネルサウンドが、Ｍチャンネル受信機で、適当なアップミキサを有するＮチャンネル受信機で、又はその他の適当な受信機で使用されるＭチャンネルサウンドに変換される。

図３は、本発明の典型的な実施例である、静的なリファレンスダウンミックス(300)の図である。図３に示すように、静的なリファレンスダウンミックス(300)は、図２の静的なリファレンスダウンミックス(200)の具体例であって、５.１チャンネルの時間ドメインデータを、ステレオチャンネルの時間ドメインデータに変換する。静的リファレンスダウンミックス(300)は、図１のリファレンスダウンミックス(102)として、又はその他の適当な方法で使用される。

リファレンスダウンミックス(300)は、ソースの５.１チャンネルサウンドのレフトチャンネル信号Ｌ(Ｔ)を受信するヒルベルト変換部(302)含んでおり、その時間信号にヒルベルト変換を施す。ヒルベルト変換は、信号の９０度の位相シフトをもたらし、その後、所定のスケーリング定数Ｃ_L1が乗算器(310)にて掛けられる。９０度の位相シフトが得られるヒルベルトフィルタやオールパスフィルタネットワークのようなその他の処理が、このヒルベルト変換ユニットに加えて、又はその代わりに使用され得る。オリジナルのレフトチャンネル信号Ｌ(Ｔ)には、所定のスケーリング定数Ｃ_L2が乗算器(312)にて掛けられる。乗算器(310)(312)の出力は、加算器(320)で足し合わされて、分数次ヒルベルト信号Ｌ'(Ｔ)が生成される。同様にして、ソースの５.１チャンネルサウンドのライトチャンネル信号Ｒ(Ｔ)がヒルベルト変換部(304)で処理されて、所定のスケーリング定数Ｃ_R1が乗算器(314)にて掛けられる。オリジナルのライトチャンネル信号Ｒ(Ｔ)には、所定のスケーリング定数Ｃ_L2が乗算器(316)にて掛けられる。乗算器(320)(322)の出力は、加算器(322)で足し合わされて、分数次ヒルベルト信号Ｒ'(Ｔ)が生成される。加算器(320)(322)から出力された分数次ヒルベルト信号Ｌ'(Ｔ)及びＲ'(Ｔ)の位相は、対応する入力信号Ｌ(Ｔ)及びＲ(Ｔ)の位相に対して夫々可変量でシフトしている。位相のシフト量は、Ｃ_L1、Ｃ_L2、Ｃ_R1及びＣ_R2のスケーリング定数に依存しており、０度の位相シフトは、Ｃ_L1＝０、Ｃ_L2＝１、Ｃ_R1＝０及びＣ_R2＝１で可能となる。±９０度の位相シフトは、Ｃ_L1＝±１、Ｃ_L2＝１、Ｃ_R1＝±１及びＣ_R2＝１で可能となる。それらの中間の位相シフトは、Ｃ_L1、Ｃ_L2、Ｃ_R1及びＣ_R2の適切な値で可能である。５.１チャンネルサウンドのセンターチャンネル入力は、分数次ヒルベルト信号Ｃ'(Ｔ)として乗算器(318)に与えられる。位相シフトは、センターチャンネル入力信号には施されない。乗算器(318)は、３デジベルで減衰するように、所定のスケーリング定数Ｃ３をＣ'(Ｔ)に掛ける。加算器(320)(322)と乗算器(318)の出力は、適切に足し合わされて、レフトウォーターマークチャンネルＬＷ'(Ｔ)及びライトウォーターマークチャンネルＲＷ'(Ｔ)になる。

ソースの５.１チャンネルサウンドのレフトサラウンドチャンネルＬＳ(Ｔ)は、ヒルベルト変換部(306)に与えられ、ソースの５.１チャンネルサウンドのライトサラウンドチャンネルＲＳ(Ｔ)は、ヒルベルト変換部(308)に与えられる。ヒルベルト変換部(306)(308)の出力は、分数次ヒルベルト信号ＬＳ'(Ｔ)及びＲＳ'(Ｔ)であって、ＬＳ(Ｔ)とＬＳ'(Ｔ)の信号対の間と、ＲＳ(Ｔ)とＲＳ'(Ｔ)の信号対の間とには、全９０度の位相シフトがある。そして、ＬＳ'(Ｔ)には、所定のスケーリング定数Ｃ_LS1及びＣ_LS2が乗算器(324)及び乗算器(326)にて夫々掛けられる。同様に、ＲＳ'(Ｔ)には、所定のスケーリング定数Ｃ_RS1及びＣ_RS2が乗算器(328)及び乗算器(330)にて夫々掛けられる。乗算器(324)乃至(330)の出力は、レフトウォーターマークチャンネルＬＷ'(Ｔ)及びライトウォーターマークチャンネルＲＷ'(Ｔ)に適切に与えられる。

加算器(332)は、加算器(320)のレフトチャンネル出力と、乗算器(318)のセンターチャンネル出力と、乗算器(324)のレフトサラウンドチャンネル出力と、乗算器(328)のライトサラウンドチャンネル出力とを受信し、これら信号を足し合わせて、レフトウォーターマークチャンネルＬＷ'(Ｔ)を作る。同様に、加算器(334)は、加算器(318)のセンターチャンネル出力と、乗算器(322)のライトチャンネル出力と、乗算器(326)のレフトサラウンドチャンネル出力と、乗算器(330)のライトサラウンドチャンネル出力とを受信し、これら信号を足し合わせて、ライトウォーターマークチャンネルＲＷ'(Ｔ)を作る。

動作中、リファレンスダウンミックス(300)は、ライトウォーターマークチャンネル及びレフトウォーターマークチャンネルのステレオ信号が受信機で受信される場合に、５.１入力チャンネル間の空間的な関係が管理及び抽出されるような方法で、ソースの５.１サウンドチャンネルを合成する。さらに、開示したような５.１チャンネルサウンドの組合せにより、サラウンドサウンドのアップミックスを行えないステレオ受信機を用いる聴取者が許容できる音質のステレオサウンドが生成される。従って、リファレンスダウンミックス(300)を用いることで、５.１チャンネルサウンドが、ステレオ受信機、適当なアップミキサを有する５.１チャンネル受信機、適当なアップミキサを有する７.１チャンネル受信機、又はその他の適当な受信機で使用されるステレオサウンドに変換される。

図４は、本発明の典型的な実施例であるサブバンドベクトル計算システム(400)の図である。サブバンドベクトル計算システム(400)によって、複数の周波数帯について、エネルギ及び位置ベクトルのデータが得られる。サブバンドベクトル計算システム(400)は、図１のサブバンドベクトル計算システム(106)(108)として使用され得る。

サブバンドベクトル計算システム(400)は、時間−周波数解析ユニット(402)乃至(410)を含んでいる。５.１時間ドメインサウンドチャンネルであるＬ(Ｔ)、Ｒ(Ｔ)、Ｃ(Ｔ)、ＬＳ(Ｔ)及びＲＳ(Ｔ)が、時間−周波数解析ユニット(402)乃至(410)に夫々与えられて、時間ドメイン信号から周波数ドメイン信号に変換される。これら時間−周波数解析ユニットとしては、有限インパルス応答(ＦＩＲ)フィルタバンク、直交ミラーフィルタ(ＱＭＦ)バンク、離散フーリエ変換(ＤＦＴ)、タイムドメインエリアシングキャンセル(ＴＤＡＣ)フィルタバンク、又はその他の適当なフィルタバンクを使用できる。Ｌ(Ｔ)、Ｒ(Ｔ)、Ｃ(Ｔ)、ＬＳ(Ｔ)及びＲＳ(Ｔ)について、周波数帯ごとの大きさ又はエネルギ値が、時間−周波数解析ユニット(402)乃至(410)から出力される。これらの大きさ/エネルギ値は、対応する各チャンネルの各周波数帯成分に関した大きさ/エネルギの測定値である。大きさ/エネルギの測定値は、加算器(412)で足し合わされる。加算器(412)は、周波数帯当たりの入力信号の全エネルギであるＴ(Ｆ)を出力する。この値は、チャンネルの大きさ/エネルギの各々に分けられて、除算ユニット(414)乃至(422)によって、対応する規格化されたチャンネル間レベル差(ＩＣＬＤ)信号であるＭ_L(Ｆ)、Ｍ_R(Ｆ)、Ｍ_C(Ｆ)、Ｍ_LS(Ｆ)及びＭ_RS(Ｆ)が生成される。これらＩＣＬＤ信号は、各チャンネルに関するサブバンドエネルキの規格化された推定値(estimates)と考えられる。

５.１チャンネルサウンドは、横軸と深さ軸とで構成された２次元面上の典型的な場所として示されるような、規格化された位置ベクトルにマップされる。図示したように、(Ｘ_LS，Ｙ_LS)に関する場所の値は、原点に割り当てられ、(Ｘ_RS，Ｙ_RS)に関する場所の値は、(０、１)に割り当てられ、(Ｘ_L，Ｙ_L)に関する場所の値は、(０、１−Ｃ)に割り当てられる。ここで、Ｃは、１と０の間の値であって、部屋の後部からレフト及びライトスピーカまでの後退距離(setback distance)を表す。同様に、(Ｘ_R，Ｙ_R)の値は、(１、１−Ｃ)である。最後に、(Ｘ_C，Ｙ_C)の値は、(０.５、１)である。これらの座標は典型的なものであって、お互いに対する規格化された実際のスピーカ配置又は構成を反映するように変更され得る。スピーカ座標は、部屋の大きさ、部屋の形状又はその他の因子に応じて異なる。例えば、７.１サウンド又はその他の適当なサウンドチャンネル構成が使用される場合、さらなる座標値が与えられて、部屋の周囲のスピーカの配置を反映する。同様に、このようなスピーカ配置は、自動車、部屋、講堂、体育館又は適当なその他におけるスピーカの実際の分布に応じてカスタマイズされる。

推定された像位置ベクトルＰ(Ｆ)は、ベクトル式：Ｐ(Ｆ)＝Ｍ_L(Ｆ)＊(Ｘ_L，Ｙ_L)＋Ｍ_R(Ｆ)＊(Ｘ_R，Ｙ_R)＋Ｍ_C(Ｆ)＊(Ｘ_C，Ｙ_C)＋ｉ．Ｍ_LS(Ｆ)＊(Ｘ_LS，Ｙ_LS)＋Ｍ_RS(Ｆ)＊(Ｘ_RS，Ｙ_RS)に基づいて、サブバンド毎に計算される。

このように、各周波数帯について、全エネルギＴ(Ｆ)及び位置ベクトルＰ(Ｆ)が得られて、その周波数帯に関して、見掛けの(apparent)周波数ソースの検知強度及び位置を定義するのに使用される。この方法によって、サブバンド補正システム(110)での使用、又はその他の適当な目的の使用において、周波数成分の空間像が限定される(localized)。

図５は、本発明の典型的な実施例であるサブバンド補正システムの図である。サブバンド補正システムは、図１のサブバンド補正システム(110)として、又はその他の適当な用途に使用できる。サブバンド補正システムは、レフトウォーターマークステレオチャンネル信号ＬＷ'(Ｔ)及びライトウォーターマークステレオチャンネル信号ＲＷ'(Ｔ)を受信して、これらウォーターマークステレオ信号についてエネルギ及び像の補正を実行し、リファレンスダウンミキシング又はその他の適当な方法の結果として生じ得る各周波数帯の信号の誤りを補正する。サブバンド補正システムは、各サブバンドについて、ソースの全エネルギ信号Ｔ_SOURCE(Ｆ)と、生じたアップミックス信号の全エネルギ信号Ｔ_UMIX(Ｆ)と、ソースの位置ベクトルＰ_SOURCE(Ｆ)と、生じたアップミックス信号の位置ベクトルＰ_UMIX(Ｆ)とを受信して、使用する。これら信号は、図１のサブバンドベクトル計算システム(106)(108)で生成される。全エネルギ信号及び位置ベクトルが用いられて、実行される適切な補正及び補償が決定される。

サブバンド補正システムは、位置補正システム(500)と、スペクトルエネルギ補正システム(502)と含んでいる。位置補正システム(500)は、レフトウォーターマークステレオチャンネルＬＷ'(Ｔ)及びライトウォーターマークステレオチャンネルＲＷ'(Ｔ)の時間ドメイン信号を受信し、それらステレオチャンネルは、夫々、時間−周波数解析ユニット(504)(506)にて、時間ドメインから周波数ドメインに変換される。これら時間−周波数解析ユニットとしては、適当なフィルタバンク、例えば、有限インパルス応答(ＦＩＲ)フィルタバンク、直交ミラーフィルタ(ＱＭＦ)バンク、離散フーリエ変換(ＤＦＴ)、タイムドメインエリアシングキャンセル(ＴＤＡＣ)フィルタバンク、又はその他の適当なフィルタバンクを使用できる。

時間−周波数解析ユニット(504)(506)の出力は、周波数ドメインサブバンド信号ＬＷ'(Ｆ)及びＲＷ'(Ｆ)である。チャンネル間レベル差(ＩＣＬＤ)及びチャンネル間コヒーレンス(ＩＣＣ)の関連する空間キューは、信号ＬＷ'(Ｆ)及びＲＷ'(Ｆ)においてサブバンドごとに修正される。例えば、これらキューは、ＬＷ'(Ｆ)及びＲＷ'(Ｆ)の絶対値のような、ＬＷ'(Ｆ)及びＲＷ'(Ｆ)の大きさ又はエネルギと、ＬＷ'(Ｆ)及びＲＷ'(Ｆ)の位相とを操作することで変更され得る。ＩＣＬＤの補正は、式：[Ｘ_MAX−Ｐ_x,SOURCE(Ｆ)]/[Ｘ_MAX−Ｐ_x,UMIX(Ｆ)]による値を、乗算器(508)にて、ＬＷ'(Ｆ)の大きさ/エネルギ値に掛けることで実行される。ここで、Ｘ_MAX＝Ｘ座標境界の最大値、Ｐ_x,SOURCE(Ｆ)＝ソースベクトルからのサブバンドＸ位置座標の推定値、Ｐ_x,UMIX(Ｆ)＝生じたアップミックスベクトルからのサブバンドＸ位置座標の推定値である。同様に、式：[Ｐ_x,SOURCE(Ｆ)−Ｘ_MIN]/[Ｐ_x,UMIX(Ｆ)−Ｘ_MIN]による値が、乗算器(510)にて、ＲＷ'(Ｆ)の大きさ/エネルギ値に掛けられる。ここで、Ｘ_MIN＝Ｘ座標境界の最小値である。

ＩＣＣの補正は、加算器(512)を用いて、式：＋/−Π＊[Ｐ_Y,SOURCE(Ｆ)−Ｐ_Y,UMIX(Ｆ)]/[Ｙ_MAX−Ｙ_MIN]で生成される値をＬＷ'(Ｆ)の位相に加えることで実行される。ここで、Ｐ_Y,SOURCE(Ｆ)＝ソースベクトルからのサブバンドＹ位置座標の推定値、Ｐ_Y,UMIX(Ｆ)＝生じたアップミックスベクトルからのサブバンドＹ位置座標の推定値、Ｙ_MAX＝Ｙ座標境界の最大値、Ｙ_MIN＝Ｙ座標境界の最小値である。

同様に、ＲＷ'(Ｆ)の位相には、加算器(514)を用いて、式：−/＋Π＊[Ｐ_Y,SOURCE(Ｆ)−Ｐ_Y,UMIX(Ｆ)]/[Ｙ_MAX−Ｙ_MIN]で生成される値が加えられる。ＬＷ'(Ｆ)及びＲＷ'(Ｆ)に加えられる角度要素の値は等しいが、それらの極性は逆である。得られた極性は、ＬＷ'(Ｆ)とＲＷ'(Ｆ)の間の進み位相角度(leading phase angle)によって決定される。

補正されたＬＷ'(Ｆ)の大きさ/エネルギと補正されたＬＷ'(Ｆ)の位相は、加算器(516)で再結合されて、各サブバンドについて複素数のＬＷ(Ｆ)が生成され、その後、周波数−時間シンセシス(synthesis)ユニット(520)によって、レフトウォータマークの時間ドメイン信号ＬＷ(Ｔ)に変換される。同様に、補正されたＲＷ'(Ｆ)の大きさ/エネルギと補正されたＲＷ'(Ｆ)の位相は、加算器(518)にて再結合されて、各サブバンドについて複素数のＲＷ(Ｆ)が生成され、その後、周波数−時間シンセシスユニット(522)によって、ライトウォータマークの時間ドメイン信号ＲＷ(Ｔ)に変換される。周波数−時間シンセシスユニット(520)(522)には、周波数ドメイン信号を時間ドメイン信号に戻すことができる適当なシンセシスフィルタバンクが使用される。

この典型的な実施例に示されるように、レフト及びライトのウォータマークチャンネル信号の各スペクトル要素のチャンネル間空間キューは、位置補正部(500)を用いて補正される。位置補正部(500)は、ＩＣＬＤ及びＩＣＣ空間キューを適切に変更する。

スペクトルエネルギ補正システム(502)が用いられることで、ダウンミックス信号の全スペクトルバランスが、オリジナルの５.１信号の全スペクトルバランスと一致することが確実になり、その結果、例えば、合成フィルタリング(comb filtering)で起こるスペクトルのずれが補償される。レフトウォーターマーク時間ドメイン信号ＬＷ'(Ｔ)は、時間−周波数解析ユニット(524)を用いて、ライトウォーターマーク時間ドメイン信号ＲＷ'(Ｔ)は、時間−周波数解析ユニット(526)を用いて、時間ドメインから周波数ドメインに変換される。これらの時間−周波数解析ユニットには、適当なフィルタバンクが使用でき、例えば、有限インパルス応答(ＦＩＲ)フィルタバンク、直交ミラーフィルタ(ＱＭＦ)バンク、離散フーリエ変換(ＤＦＴ)、タイムドメインエリアシングキャンセル(ＴＤＡＣ)フィルタバンク、又はその他の適当なフィルタバンクが使用され得る。時間−周波数解析ユニット(524)及び同ユニット(526)の出力は、ＬＷ'(Ｆ)及びＲＷ'(Ｆ)の周波数サブバンド信号であって、それらには、乗算器(528)及び乗算器(530)にて、Ｔ_SOURCE(Ｆ)/Ｔ_UMIX(Ｆ)が掛けられる。ここで、Ｔ_SOURCE(Ｆ)＝｜Ｌ(Ｆ)｜＋｜Ｒ(Ｆ)｜＋｜Ｃ(Ｆ)｜＋｜ＬＳ(Ｆ)｜＋｜ＬＲ(Ｆ)｜であり、Ｔ_UMIX(Ｆ)＝｜Ｌ_UMIX(Ｆ)｜＋｜Ｒ_UMIX(Ｆ)｜＋｜Ｃ_UMIX(Ｆ)｜＋｜ＬＳ_UMIX(Ｆ)｜＋｜ＬＲ_UMIX(Ｆ)｜である。

乗算器(528)及び乗算器(530)の出力は、その後、周波数−時間シンセシスユニット(532)及び同ユニット(534)で、周波数ドメインから時間ドメインに変換されて、ＬＷ(Ｔ)及びＲＷ(Ｔ)が生成される。周波数−時間シンセシスユニットには、周波数ドメイン信号を時間ドメイン信号に戻すことができる適当なシンセシスフィルタバンクが使用される。この方法では、位置及びエネルギの補正が、ダウンミックスされたステレオチャンネル信号ＬＷ'(Ｔ)及びＲＷ'(Ｔ)に与えられて、オリジナルの５.１信号に忠実なレフトウォーターマークステレオチャンネル信号ＬＷ(Ｔ)及びＲＷ(Ｔ)が生成される。ＬＷ(Ｔ)及びＲＷ(Ｔ)は、オリジナルの５.１チャンネルサウンドにある任意の内容要素(content elements)のスペクトル成分の位置又はエネルギを大きく変化させることなく、ステレオで再生され、又は、アップミックスされて５.１チャンネル又は適当な数のチャンネルに戻される。

図６は、本発明の典型的な実施例であって、ＭチャンネルからＮチャンネルにデータをアップミキシングするシステム(600)の図である。システム(600)は、ステレオ時間ドメインデータをＮチャンネル時間ドメインデータに変換する。

システム(600)は、時間−周波数解析ユニット(602)、同ユニット(604)、フィルタ生成ユニット(606)、平滑化ユニット(608)、周波数−時間シンセシスユニット(634)乃至(638)を含んでいる。システム(600)によって、スケーラブル周波数ドメインアーキテクチャとフィルタ生成方法とを用いて、アップミックスプロセスにて空間的差異及び安定性が改善される。スケーラブル周波数ドメインアーキテクチャは、高分解能の周波数帯処理を可能とし、フィルタ生成方法は、主要なチャンネル間キューを周波数帯ごとに抽出及び解析し、アップミックスされたＮチャンネル信号における周波数要素の空間配置を導出する。

システム(600)は、時間−周波数解析ユニット(602)(604)で、レフトチャンネルステレオ信号Ｌ(Ｔ)とライトチャンネルステレオ信号Ｒ(Ｔ)を受信する。これら時間−周波数解析ユニット(602)(604)は、時間ドメイン信号を周波数ドメイン信号に変換する。これら時間−周波数解析ユニット(602)(604)には、適当なフィルタバンクが使用でき、例えば、有限インパルス応答(ＦＩＲ)フィルタバンク、直交ミラーフィルタ(ＱＭＦ)バンク、離散フーリエ変換(ＤＦＴ)、タイムドメインエリアシングキャンセル(ＴＤＡＣ)フィルタバンク、又はその他の適当なフィルタバンクが使用される。時間−周波数解析ユニット(602)(604)の出力は、例えば、０乃至２０ｋＨｚの周波数範囲のような、人間の聴覚システムの周波数範囲を十分にカバーする一組の周波数ドメイン値である。解析フィルタバンクのサブバンド帯域幅は、ほぼ心理音響臨界帯域(psycho-acoustic critical band)へと、等価矩形帯域幅へと、又はその他の知覚的特徴へと処理される。同様に、その他の適切な数の周波数帯及び範囲も採用できる。

時間−周波数解析ユニット(602)(604)の出力は、フィルタ生成ユニット(606)に与えられる。典型的なある実施例では、フィルタ生成ユニット(606)は、所定の環境に出力されるべきチャンネルの数について、外部からの選択を受信する。例えば、２個のフロントスピーカ及び２個のリアスピーカがある４.１サウンドチャンネルが選択でき、２個のフロントスピーカ、２個のリアスピーカ及び１個のフロントセンタースピーカがある５.１サウンドチャンネルが選択でき、２個のフロントスピーカ、２個のサイドスピーカ、２個のリアスピーカ及び１個のフロントセンタースピーカがある７.１サウンドチャンネルが選択でき、又はその他の適当なサウンドシステムが選択できる。フィルタ生成ユニット(606)は、周波数帯毎に、チャンネル間レベル差(ＩＣＬＤ)及びチャンネル間コヒーレンス(ＩＣＣ)のようなチャンネル間空間キューを抽出及び解析する。その後、それら関連空間キューがパラメータとして使用されて、アップミックスされたサウンドフィールドにおいて周波数帯要素の空間配置を制御する適応チャンネルフィルタが生成される。チャンネルフィルタが非常に急激に変動すると、フィルタの変動性が迷惑な変動効果を起こすが、チャンネルフィルタは、時間及び周波数の両方に渡って、平滑化ユニット(608)で平滑化されて、フィルタの変動性は制限される。図６に示す典型的実施例では、レフトチャンネルの周波数ドメイン信号Ｌ(Ｆ)とライトチャンネルの周波数ドメイン信号Ｒ(Ｆ)が、フィルタ生成ユニット(606)に与えられて、平滑化ユニット(608)に与えられるＮチャンネルフィルタ信号Ｈ₁(Ｆ)、Ｈ₂(Ｆ)乃至Ｈ_N(Ｆ)が生成される。

平滑化ユニット(608)は、時間次元及び周波数次元の両方に渡って、Ｎチャンネルフィルタの各チャンネルについて、周波数ドメイン成分を平均化する。時間及び周波数に渡る平滑化は、チャンネルフィルタ信号における急激な変動の制御に役立ち、その結果として、聴取者に迷惑になり得るジッターの影響(artifacts)や不安定性が低減される。典型的なある実施例では、時間の平滑化は、現在のフレームの周波数帯と過去のフレームの対応する周波数帯の各々について、一次のローパスフィルタを適用することで実現される。これは、フレームからフレームへの各周波数帯の変動を低減する効果がある。典型的な別の実施例では、空間の平滑化は、人間の聴覚システムの臨界帯域間隔(critical band spacing)を近似するようにモデル化された周波数ビン(bins)のグループに渡って実行される。例えば、均一に配置された周波数ビンを伴う解析フィルタバンクが用いられる場合、様々な数の周波数ビンが、周波数スペクトルの様々な区分について、グループ化及び平均化される。例えば、０から５ｋＨｚについて５つの周波数ビンが平均化され、５から１０ｋＨｚについて７つの周波数ビンが平均化され、１０ｋＨｚから２０ｋＨｚについて９つの周波数ビンが平均化される。又は、その他の適切な数の周波数ビンと帯域幅領域とが選択されてもよい。Ｈ₁(Ｆ)、Ｈ₂(Ｆ)乃至Ｈ_N(Ｆ)の平滑化された値は、平滑化ユニット(608)から出力される。

Ｎ個の出力チャンネルの各々に関するソース信号Ｘ₁(Ｆ)、Ｘ₂(Ｆ)乃至Ｘ_N(Ｆ)が、Ｍ個の入力チャンネルの適応的組合せ(adaptive combination)として生成される。図６に示す典型的な例では、特定の出力チャンネルｉについて、加算器(614)(620)(626)から出力されるチャンネルソース信号Ｘ_i(Ｆ)は、適応スケーリング信号Ｇ_i(Ｆ)が掛けられたＬ(Ｆ)と、適応スケーリング信号１−Ｇ_i(Ｆ)が掛けられたＲ(Ｆ)との和として生成される。乗算器(610)(612)(616)(618)(622)(624)で用いられる適応スケーリング信号Ｇ_i(Ｆ)は、出力チャンネルｉの予定の空間位置(intended spatial position)と、周波数帯当たりのＬ(Ｆ)及びＲ(Ｆ)の動的なチャンネル間コヒーレンスの推定値とで決定される。同様に、加算器(614)(620)(626)に与えられる信号の極性は、出力チャンネルｉの予定の空間位置で決定される。例えば、加算器(614)(620)(626)における適合スケーリング信号Ｇ_i(Ｆ)とそれらの極性とは、従来のマトリックスアップミキシング方法において良く知られているように、フロントセンターチャンネルのＬ(Ｆ)+Ｒ(Ｆ)の組合せ、レフトチャンネルのＬ(Ｆ)、ライトチャンネルのＲ(Ｆ)、リアチャンネルのＬ(Ｆ)−Ｒ(Ｆ)の組合せを与えるように決められる。さらに、適応スケーリング信号Ｇ_i(Ｆ)は、出力チャンネル対の間の相関を、出力チャンネル対が横又は深さ方向の(depth-wise)チャンネル対であろうと、動的に調整する方法を与える。

チャンネルソース信号Ｘ₁(Ｆ)、Ｘ₂(Ｆ)乃至Ｘ_N(Ｆ)は夫々、乗算器(628)乃至乗算器(632)によって、平滑化されたチャンネルフィルタＨ₁(Ｆ)、Ｈ₂(Ｆ)乃至Ｈ_N(Ｆ)と掛けられる。

乗算器(628)乃(632)の出力は、その後、周波数−時間シンセシスユニット(634)乃至(638)によって、周波数ドメインから時間ドメインに変換され、出力チャンネルＹ₁(Ｔ)、Ｙ₂(Ｔ)乃至Ｙ_N(Ｔ)が生成される。この方法では、レフト及びライトのステレオ信号がＮチャンネル信号にアップミックスされる。もともと存在しているチャンネル間空間キューを、又は、例えば、図１のダウンミキシングウォータマーク処理、若しくはその他の適当な処理によって、レフト及びライトのステレオ信号に意図的にエンコードされるチャンネル間空間キューを用いて、システム(600)で生成されるＮチャンネルサウンドフィールド内の周波数要素の空間配置が制御される。同様に、例えば、ステレオから７.１サウンド、５.１サウンドから７.１サウンド、又はその他の適当な組合せのような、入力及び出力のその他の適当な組合せも採用できる。

図７は、本発明の典型的な実施例であって、ＭチャンネルからＮチャンネルにデータをアップミキシングするシステム(700)の図である。システム(700)は、ステレオの時間ドメインデータを５.１チャンネルの時間ドメインデータに変換する。

システム(700)は、時間−周波数解析ユニット(702)、同ユニット(704)、フィルタ生成ユニット(706)、平滑化ユニット(708)、周波数−時間シンセシスユニット(738)乃至(746)を含んでいる。システム(700)は、スケーラブル周波数ドメインアーキテクチャとフィルタ生成方法とを用いて、アップミックスプロセスにて空間的差異及び安定性を改善する。スケーラブル周波数ドメインアーキテクチャは、高分解能の周波数帯処理を可能とし、フィルタ生成方法は、主要なチャンネル間キューを周波数帯ごとに抽出及び解析することで、アップミックスされた５.１チャンネル信号における周波数要素の空間配置を導出する。

システム(700)は、時間−周波数解析ユニット(702)(704)で、レフトチャンネルステレオ信号Ｌ(Ｔ)及びライトチャンネルステレオ信号Ｒ(Ｔ)を受信する。これら時間−周波数解析ユニット(702)(704)は、時間ドメイン信号を周波数ドメイン信号に変換する。これら時間−周波数解析ユニット(702)(704)には、適当なフィルタバンクが使用でき、例えば、有限インパルス応答(ＦＩＲ)フィルタバンク、直交ミラーフィルタ(ＱＭＦ)バンク、離散フーリエ変換(ＤＦＴ)、タイムドメインエリアシングキャンセル(ＴＤＡＣ)フィルタバンク、又はその他の適当なフィルタバンクが使用される。時間−周波数解析ユニット(702)(704)の出力は、例えば、０乃至２０ｋＨｚの周波数範囲のような、人間の聴覚システムの周波数範囲を十分にカバーする一組の周波数ドメインの値である。解析フィルタバンクのサブバンド帯域幅は、ほぼ心理音響臨界帯域へと、等価矩形帯域幅へと、又はその他のある知覚的特徴へと処理される。同様に、その他の適切な数の周波数帯及び範囲も採用できる。

時間−周波数解析ユニット(702)(704)の出力は、フィルタ生成ユニット(706)に与えられる。典型的なある実施例では、フィルタ生成ユニット(706)は、所定の環境に出力されるチャンネルの数について、外部からの選択を受信する。例えば、２個のフロントスピーカ及び２個のリアスピーカがある４.１サウンドチャンネルが選択でき、２個のフロントスピーカ、２個のリアスピーカ及び１個のフロントセンタースピーカがある５.１サウンドシステムが選択でき、２個のフロントスピーカ、２個のフロントスピーカ及び１個のフロントセンタースピーカがある３.１サウンドシステムが選択でき、又はその他の適当なサウンドシステムが選択できる。フィルタ生成ユニット(706)は、周波数帯ごとに、チャンネル間レベル差(ＩＣＬＤ)及びチャンネル間コヒーレンス(ＩＣＣ)のようなチャンネル間空間キューを抽出及び解析する。それら関連空間キューをパラメータとして使用して、その後、アップミックスされたサウンドフィールドにおける周波数帯要素の空間配置を制御する適応チャンネルフィルタが生成される。チャンネルフィルタが非常に急激に変動すると、フィルタの変動性が迷惑な変動効果を起こすが、チャンネルフィルタは、時間及び周波数の両方に渡って平滑化ユニット(708)で平滑化されて、フィルタの変動性は制限される。図７に示す典型的実施例では、レフトチャンネルの周波数ドメイン信号Ｌ(Ｆ)とライトチャンネルの周波数ドメイン信号Ｒ(Ｆ)がフィルタ生成ユニット(706)に与えられて、平滑化ユニット(708)に与えられる５.１チャンネルフィルタ信号Ｈ_L(Ｆ)、Ｈ_R(Ｆ)、Ｈ_C(Ｆ)、Ｈ_LS(Ｆ)及びＨ_RS(Ｆ)が生成される。

平滑化ユニット(708)は、時間次元及び周波数次元の両方に渡って、５.１チャンネルフィルタの各チャンネルについて、周波数ドメイン成分を平均化する。時間及び周波数に渡る平滑化は、チャンネルフィルタ信号における急激な変動の制御に役立ち、その結果として、聴取者に迷惑になり得るジッターの影響や不安定性が低減される。典型的なある実施例では、時間の平滑化は、現在のフレームの周波数帯と過去のフレームの対応する周波数帯の各々について、一次のローパスフィルタを適用することで実現される。これは、フレームからフレームへの各周波数帯の変動を低減する効果がある。典型的な別の実施例では、空間の平滑化は、人間の聴覚システムの臨界帯域間隔を近似するようにモデル化された周波数ビンのグループに渡って実行される。例えば、均一に配置された周波数ビンを伴った解析フィルタバンクが用いられる場合、様々な数の周波数ビンが、周波数スペクトルの様々な区分について、グループ化及び平均化される。この実施例では、例えば、０から５ｋＨｚについて５つの周波数ビンが平均化され、５から７ｋＨｚについて７つの周波数ビンが平均化され、１０ｋＨｚから２０ｋＨｚについて９つの周波数ビンが平均化される。又は、その他の適切な数の周波数ビンと帯域幅領域が選択されてもよい。Ｈ_L(Ｆ)、Ｈ_R(Ｆ)、Ｈ_C(Ｆ)、Ｈ_LS(Ｆ)及びＨ_RS(Ｆ)の平滑化された値は、平滑化ユニット(708)から出力される。

５.１出力チャンネルの各々に関するソース信号Ｘ_L(Ｆ)、Ｘ_R(Ｆ)、Ｘ_C(Ｆ)、Ｘ_LS(Ｆ)及びＸ_RS(Ｆ)が、ステレオ入力チャンネルの適応的組合せとして生成される。図７に示す典型的な例では、Ｘ_L(Ｆ)は、単にＬ(Ｆ)で与えられており、全ての周波数帯についてＧ_L(Ｆ)＝１である。同様に、Ｘ_R(Ｆ)は、単にＲ(Ｆ)で与えられており、全ての周波数帯についてＧ_R(Ｆ)＝０である。加算器(714)の出力であるＸｃ(Ｆ)は、適応スケーリング信号Ｇ_C(Ｆ)が掛けられたＬ(Ｆ)と、適応スケーリング信号１−Ｇ_C(Ｆ)が掛けられたＲ(Ｆ)との和として計算される。加算器(720)の出力であるＸ_LS(Ｆ)は、適応スケーリング信号Ｇ_LS(Ｆ)が掛けられたＬ(Ｆ)と、適応スケーリング信号１−Ｇ_LS(Ｆ)が掛けられたＲ(Ｆ)との和として計算される。同様に、加算器(726)の出力であるＸ_RS(Ｆ)は、適応スケーリング信号Ｇ_RS(Ｆ)が掛けられたＬ(Ｆ)と、適応スケーリング信号１−Ｇ_RS(Ｆ)が掛けられたＲ(Ｆ)との和として計算される。全ての周波数帯についてＧ_C(Ｆ)＝０.５、Ｇ_LS(Ｆ)＝０.５、及びＧ_RS(Ｆ)＝０.５である場合、従来のマトリックスアップミキシング方法において良く知られているようにフロントセンターチャンネルは、Ｌ(Ｆ)＋Ｒ(Ｆ)の組合せから供給され、サラウンドチャンネルは、スケーリングされたＬ(Ｆ)−Ｒ(Ｆ)の組合せから供給されることに留意のこと。適応スケーリング信号Ｇ_C(Ｆ)、Ｇ_LS(Ｆ)及びＧ_RS(Ｆ)は、さらに、隣接する出力チャンネル対の間の相関を、出力チャンネル対が横又は深さ方向のチャンネル対であろうと、動的に調整する方法を与える。チャンネルソース信号Ｘ_L(Ｆ)、Ｘ_R(Ｆ)、Ｘ_C(Ｆ)、Ｘ_LS(Ｆ)及びＸ_RS(Ｆ)には、乗算器(728)乃(736)によって、平滑化されたチャンネルフィルタＨ_L(Ｆ)、Ｈ_R(Ｆ)、Ｈ_C(Ｆ)、Ｈ_LS(Ｆ)及びＨ_RS(Ｆ)が夫々掛けられる。

乗算器(728)乃至乗算器(736)の出力は、その後、周波数−時間シンセシスユニット(738)乃至(746)によって、周波数ドメインから時間ドメインに変換され、出力チャンネルＹ_L(Ｔ)、Ｙ_R(Ｔ)、Ｙ_C(Ｔ)、Ｙ_LS(Ｔ)及びＹ_RS(Ｔ)が生成される。この方法では、レフト及びライトのステレオ信号が５.１チャンネル信号にアップミックスされる。もともと存在しているチャンネル間空間キューを、又は、例えば、図１のダウンミキシングウォータマーク処理、若しくはその他の適当な処理によって、レフト及びライトのステレオ信号に意図的にエンコードされるチャンネル間空間キューを用いて、システム(700)で生成される５.１チャンネルサウンドフィールド内の周波数要素の空間配置が制御される。同様に、例えば、ステレオから４.１サウンド、４.１サウンドから５.１サウンド、又はその他の適当な組合せのような、入力及び出力のその他の適当な組合せも採用できる。

図８は、ＭチャンネルからＮチャンネルにデータをアップミキシングするシステム(800)の図である。システム(800)は、ステレオの時間ドメインデータを７.１チャンネルの時間ドメインデータに変換する。

システム(800)は、時間−周波数解析ユニット(802)、同ユニット(804)、フィルタ生成ユニット(806)、平滑化ユニット(808)、周波数−時間シンセシスユニット(854)乃至(866)を含んでいる。システム(800)によって、スケーラブル周波数ドメインアーキテクチャとフィルタ生成方法を用いて、アップミックスプロセスにて空間的差異と安定性とが改善される。スケーラブル周波数ドメインアーキテクチャは、高分解能の周波数帯処理を可能とし、フィルタ生成方法は、主要なチャンネル間キューを周波数帯ごとに抽出及び解析して、アップミックスされた７.１チャンネル信号における周波数要素の空間配置を導出する。

システム(800)は、時間−周波数解析ユニット(802)(804)で、レフトチャンネルステレオ信号Ｌ(Ｔ)とライトチャンネルステレオ信号Ｒ(Ｔ)を受信する。これら時間−周波数解析ユニット(802)(804)は、時間ドメイン信号を周波数ドメイン信号に変換する。これら時間−周波数解析ユニット(802)(804)には、適当なフィルタバンクが使用でき、例えば、有限インパルス応答(ＦＩＲ)フィルタバンク、直交ミラーフィルタ(ＱＭＦ)バンク、離散フーリエ変換(ＤＦＴ)、タイムドメインエリアシングキャンセル(ＴＤＡＣ)フィルタバンク、又はその他の適当なフィルタバンクが使用される。時間−周波数解析ユニット(802)(804)の出力は、例えば、０乃至２０ｋＨｚの周波数範囲のような、人間の聴覚システムの周波数範囲を十分にカバーする一組の周波数ドメイン値である。解析フィルタバンクのサブバンド帯域幅は、ほぼ心理音響臨界帯域へと、等価矩形帯域幅へと、又はその他の知覚的特徴へと処理される。同様に、その他の適切な数の周波数帯及び範囲も採用できる。

時間−周波数解析ユニット(802)(804)の出力は、フィルタ生成ユニット(806)に与えられる。典型的なある実施例では、フィルタ生成ユニット(806)は、所定の環境に出力されるチャンネルの数について、外部からの選択を受信する。例えば、２個のフロントスピーカ及び２個のリアスピーカがある４.１サウンドチャンネルが選択でき、２個のフロントスピーカ、２個のリアスピーカ及び１個のフロントセンタースピーカがある５.１サウンドシステムが選択でき、２個のフロントスピーカ、２個のサイドスピーカ、２個のリアスピーカ及び１個のフロントセンタースピーカがある７.１サウンドチャンネルが選択でき、又はその他の適当なサウンドシステムが選択できる。フィルタ生成ユニット(806)は、周波数帯ごとに、チャンネル間レベル差(ＩＣＬＤ)及びチャンネル間コヒーレンス(ＩＣＣ)のようなチャンネル間空間キューを抽出及び解析する。その後、それら関連空間キューがパラメータとして使用されて、アップミックスされたサウンドフィールドにおける周波数帯要素の空間配置を制御する適応チャンネルフィルタが生成される。チャンネルフィルタが非常に急激に変動すると、フィルタの変動性が迷惑な変動効果を起こすが、チャンネルフィルタは、時間及び周波数の両方に渡って平滑化ユニット(808)で平滑化されて、フィルタの変動性は制限される。図８に示す典型的実施例では、レフトチャンネルの周波数ドメイン信号Ｌ(Ｆ)とライトチャンネルの周波数ドメイン信号Ｒ(Ｆ)が、フィルタ生成ユニット(806)に与えられて、平滑化ユニット(808)に与えられる７.１チャンネルフィルタ信号Ｈ_L(Ｆ)、Ｈ_R(Ｆ)、Ｈ_C(Ｆ)、Ｈ_LS(Ｆ)、Ｈ_RS(Ｆ)、Ｈ_LB(Ｆ)及びＨ_RB(Ｆ)が生成される。

平滑化ユニット(808)は、時間次元及び周波数次元の両方に渡って、７.１チャンネルフィルタの各チャンネルについて、周波数ドメイン成分を平均化する。時間及び周波数に渡る平滑化は、チャンネルフィルタ信号における急激な変動の制御に役立ち、その結果として、聴取者に迷惑になり得るジッターの影響や不安定性が低減される。典型的なある実施例では、時間の平滑化は、現在のフレームの周波数帯と過去のフレームの対応する周波数帯の各々について、一次のローパスフィルタを適用することで実現される。これは、フレームからフレームへの各周波数帯の変動を低減する効果がある。典型的なある実施例では、空間の平滑化は、人間の聴覚システムの臨界帯域間隔を近似するようにモデル化された周波数ビンのグループに渡って実行される。例えば、均一に配置された周波数ビンを伴った解析フィルタバンクが用いられる場合、様々数の周波数ビンが、周波数スペクトルの様々な区分について、グループ化及び平均化される。この実施例では、例えば、０から５ｋＨｚについて５つの周波数ビンが平均化され、５から１０ｋＨｚについて７つの周波数ビンが平均化され、１０ｋＨｚから２０ｋＨｚについて９つの５つの周波数ビンが平均化される。又は、その他の適切な数の周波数ビンと帯域幅領域が選択されてもよい。Ｈ_L(Ｆ)、Ｈ_R(Ｆ)、Ｈ_C(Ｆ)、Ｈ_LS(Ｆ)、Ｈ_RS(Ｆ)、Ｈ_LB(Ｆ)及びＨ_RB(Ｆ)の平滑化された値は、平滑化ユニット(808)から出力される。

７.１出力チャンネルの各々に関するソース信号Ｘ_L(Ｆ)、Ｘ_R(Ｆ)、Ｘ_C(Ｆ)、Ｘ_LS(Ｆ)、Ｘ_RS(Ｆ)、Ｘ_LB(Ｆ)及びＸ_RB(Ｆ)が、ステレオ入力チャンネルの適応的組合せとして生成される。図８に示す典型的な例では、Ｘ_L(Ｆ)は、単にＬ(Ｆ)で与えられており、全ての周波数帯についてＧ_L(Ｆ)＝１である。同様に、Ｘ_R(Ｆ)は、単にＲ(Ｆ)で与えられており、全ての周波数帯についてＧ_R(Ｆ)＝０である。加算器(814)の出力であるＸｃ(Ｆ)は、適応スケーリング信号Ｇ_C(Ｆ)が掛けられたＬ(Ｆ)と、適応スケーリング信号１−Ｇ_C(Ｆ)が掛けられたＲ(Ｆ)との和として計算される。加算器(820)の出力であるＸ_LS(Ｆ)は、適応スケーリング信号Ｇ_LS(Ｆ)が掛けられたＬ(Ｆ)と、適応スケーリング信号１−Ｇ_LS(Ｆ)が掛けられたＲ(Ｆ)との和として計算される。同様に、加算器(826)の出力であるＸ_RS(Ｆ)は、適応スケーリング信号Ｇ_RS(Ｆ)が掛けられたＬ(Ｆ)と、適応スケーリング信号１−Ｇ_RS(Ｆ)が掛けられたＲ(Ｆ)との和として計算される。同様に、加算器(832)の出力であるＸ_LB(Ｆ)は、適応スケーリング信号Ｇ_LB(Ｆ)が掛けられたＬ(Ｆ)と、適応スケーリング信号１−Ｇ_LB(Ｆ)が掛けられたＲ(Ｆ)との和として計算される。同様に、加算器(838)の出力であるＸ_RB(Ｆ)は、適応スケーリング信号Ｇ_RB(Ｆ)が掛けられたＬ(Ｆ)と、適応スケーリング信号１−Ｇ_RB(Ｆ)が掛けられたＲ(Ｆ)との和として計算される。全ての周波数帯についてＧ_C(Ｆ)＝０.５、Ｇ_LS(Ｆ)＝０.５、Ｇ_RS(Ｆ)＝０.５，Ｇ_LB(Ｆ)＝０.５及びＧ_RB(Ｆ)＝０.５である場合、従来のマトリックスアップミキシング方法において良く知られているように、フロントセンターチャンネルは、Ｌ(Ｆ)＋Ｒ(Ｆ)の組合せから供給され、サイドチャンネル及びバックチャンネルは、スケーリングされたＬ(Ｆ)−Ｒ(Ｆ)の組合せから供給されることに留意のこと。更に、適応スケーリング信号Ｇ_C(Ｆ)、Ｇ_LS(Ｆ)、Ｇ_RS(Ｆ)、Ｇ_LB(Ｆ)及びＧ_RB(Ｆ)は、隣接する出力チャンネル対の間の相関を、出力チャンネル対が横又は深さ方向のチャンネル対であろうと、動的に調整する方法を与える。チャンネルソース信号Ｘ_L(Ｆ)、Ｘ_R(Ｆ)、Ｘ_C(Ｆ)、Ｘ_LS(Ｆ)、Ｘ_RS(Ｆ)、Ｘ_LB(Ｆ)及びＸ_RB(Ｆ)には、乗算器(840)乃至乗算器(852)によって、平滑化されたチャンネルフィルタＨ_L(Ｆ)、Ｈ_R(Ｆ)、Ｈ_C(Ｆ)、Ｈ_LS(Ｆ)、Ｈ_RS(Ｆ)、Ｈ_LB(Ｆ)及びＨ_RB(Ｆ)が夫々掛けられる。

乗算器(840)乃至乗算器(852)の出力は、その後、周波数−時間シンセシスユニット(854)乃至(852)によって、周波数ドメインから時間ドメインに変換され、出力チャンネルＹ_L(Ｔ)、Ｙ_R(Ｔ)、Ｙ_C(Ｔ)、Ｙ_LS(Ｔ)、Ｙ_RS(Ｔ)、Ｙ_LB(Ｔ)及びＹ_RB(Ｔ)が生成される。この方法では、レフト及びライトのステレオ信号が７.１チャンネル信号にアップミックスされる。もともと存在しているチャンネル間空間キューを、又は、例えば、図１のダウンミキシングウォータマーク処理、若しくはその他の適当な処理によって、レフト及びライトのステレオ信号に意図的にエンコードされるチャンネル間空間キューを用いて、システム(800)で生成される７.１チャンネルサウンドフィールド内の周波数要素の空間配置が制御される。同様に、例えば、ステレオから５.１サウンド、５.１サウンドから７.１サウンド、又はその他の適当な組合せのような、入力及び出力のその他の適当な組合せも採用できる。

図９は、本発明の典型的な実施例であって、周波数ドメイン用途のフィルタを生成するシステム(900)である。フィルタの生成プロセスとしては、Ｍチャンネル入力信号の周波数ドメイン解析及び処理がなされる。関連チャンネル間空間キューが、Ｍチャンネル入力信号の各周波数帯について抽出されて、空間位置ベクトルが、各周波数帯について生成される。この空間位置ベクトルは、その周波数帯について、理想的な聴取条件下の聴取者が感知した場所と解釈される。そして、アップミックスされたＮチャンネルアウトプット信号におけるその周波数要素の最終的な空間位置が、チャンネル間キューで常に再現されるように、各チャンネルフィルタが生成される。チャンネル間のレベル差(ＩＣＬＤ'ｓ)とチャンネル間コヒーレンス(ＩＣＣ)の推定値が、チャンネル間キューとして使用されて、空間位置ベクトルが生成される。

システム(900)に示す典型的な実施例では、サブバンドの大きさ又はエネルギ成分を用いて、チャンネル間レベル差が推定され、サブバンドの位相の角度を用いて、チャンネル間コヒーレンスが推定される。レフトの周波数ドメイン入力Ｌ(Ｆ)と、ライトの周波数ドメイン入力Ｒ(Ｆ)は、大きさ又はエネルギ成分と位相角度成分に変換される。大きさ/エネルギ成分は、加算器(902)に与えられる。加算器(902)により、全エネルギ信号Ｔ(Ｆ)が計算される。その後、全エネルギ信号Ｔ(Ｆ)が用いられて、除算器(904)及び除算器(906)にて、各周波数帯についてレフトチャンネルＭ_L(Ｆ)及びライトチャンネルＭ_R(Ｆ)の規格化が夫々行われる。その後、規格化された横座標信号ＬＡＴ(Ｆ)が、Ｍ_L(Ｆ)及びＭ_R(Ｆ)から計算される。ここで、周波数帯の規格化された横座標は、ＬＡＴ(Ｆ)＝Ｍ_L(Ｆ)＊Ｘ_MIN＋Ｍ_R(Ｆ)＊Ｘ_MAXで計算される。

同様に、規格化された深さ座標は、入力の位相角度成分を用いて、ＤＥＦ(Ｆ)＝Ｙ_MAX−０.５＊(Ｙ_MAX−Ｙ_MIN)*ｓｑｒｔ([ＣＯＳ(∠Ｌ(Ｆ))−ＣＯＳ(∠Ｒ(Ｆ))]＾２＋[ＳＩＮ(∠Ｌ(Ｆ))−ＳＩＮ(∠Ｒ(Ｆ))]＾２)として計算される。

規格化された深さ座標は、位相角度成分∠Ｌ(Ｆ)と∠Ｒ(Ｆ)の間のスケーリング及びシフトされた間隔の測定値から基本的に計算される。位相角度∠Ｌ(Ｆ)と∠Ｒ(Ｆ)が単位円上で一方に近づくにつれて、ＤＥＦ(Ｆ)の値は１に近づく。位相角度∠Ｌ(Ｆ)と∠Ｒ(Ｆ)が単位円上で反対側になるにつれて、ＤＥＦ(Ｆ)の値は０に近づく。各周波数帯について、規格化された横座標と深さ座標は、２次元ベクトル(ＬＡＦ(Ｆ)、ＤＥＦ(Ｆ))を構成する。このベクトルは、図１０Ａ乃至図１０Ｅに示すような２次元チャンネルマップに入力されて、各チャンネルｉについてフィルタ値Ｈｉ(Ｆ)を生成する。各チャンネルｉに関ｓしたこれらチャンネルフィルタＨｉ(Ｆ)は、図６のフィルタ生成ユニット(606)、図７のフィルタ生成ユニット(706)及び図８のフィルタ生成ユニット(806)のようなフィルタ生成ユニットから出力される。

図１０Ａは、本発明の典型的な実施例におけるレフトフロント信号のフィルタマップの図である。図１０Ａでは、フィルタマップ(1000)は、０から１までの範囲の規格化された横座標と、０から１までの範囲の規格化された深さ座標と受け入れて、０から１までの範囲の規格化されたフィルタ値を出力する。最大値１から最小値０までの大きさの変化を示すためにグレーの陰影が使用されており、フィルタマップ(1000)の右側にスケールが示されている。典型的なこのレフトフロントフィルタマップ(1000)において、規格化された横座標及び深さ座標が(０、１)に至ると、１.０に至った最も大きなフィルタ値が出力される。約(０.６、Ｙ)から(１.０、Ｙ)までの範囲の座標(Ｙは、０と１の間の値)は、基本的に０であるフィルタ値を出力する。

図１０Ｂは、典型的なライトフロントフィルタマップ(1002)の図である。フィルタマップ(1002)は、フィルタマップ(1000)と同様に規格化された横座標と深さ座標と受け入れるが、出力されるフィルタの値は、規格化されたレイアウトの右上部分を好む。

図１０Ｃは、典型的なセンターフィルタマップ(1004)の図である。この実施例では、センターフィルタマップ(1004)の最大フィルタ値は、規格化されたレイアウトの中央で起こり、レイアウトの上中央から下に座標が動くにつれて、フィルタ値は顕著に低下する。

図１０Ｄは、典型的なレフトサラウンドフィルタマップ(1006)の図である。この実施例では、レフトサラウンドフィルタマップ(1006)の最大フィルタ値は、規格化されたレイアウトの左下の座標近くで起こり、レイアウトの右上に座標が動くにつれて、フィルタ値は顕著に低下する。

図１０Ｅは、典型的なライトサラウンドフィルタマップ(1008)の図である。この実施例では、ライトサラウンドフィルタマップ(1008)の最大フィルタ値は、規格化されたレイアウトの右下の座標近くで起こり、レイアウトの左上に座標が動くにつれて、フィルタ値は顕著に低下する。

同様にして、その他のスピーカ配置又は構成が採用される場合には、現行のフィルタマップは変更され、新たなスピーカ配置に対応した新たなフィルタマップが生成されて、新たな聴取環境における変化を反映する。典型的なある実施例では、７.１システムが、２つのフィルタマップを更に含んでおり、レフトサラウンドとライトサラウンドは、深さ座標次元で上方に移動し、レフトバックロケーションとライトバックロケーションは、夫々、フィルタマップ(1006)とフィルタマップ(1008)と似たフィルタマップを有している。フィルタファクタが下がるレートは、様々なスピーカ数に対処するために変更されてよい。

本発明のシステム及び方法の典型的な実施例が、本明細書において詳細に説明されたが、当該技術分野における通常の技術を有する者は、添付の特許請求の範囲の技術的範囲と製品から逸脱することなく、様々な置換と変更が本発明のシステム及び方法に行えることを認めることができる。

本発明の典型的な実施例であって、解析・補正ループを伴った動的ダウンミキングをするシステムの図である。本発明の典型的な実施例であって、Ｎ個のチャンネルからＭ個のチャンネルにデータをダウンミキシングするシステムの図である。本発明の典型的な実施例であって、５個のチャンネルから２個のチャンネルにデータをダウンミキシングするシステムの図である。本発明の典型的な実施例であって、サブバンドベクトル計算システムの図である。本発明の典型的な実施例であって、サブバンド補正システムの図である。本発明の典型的な実施例であって、Ｍ個のチャンネルからＮ個のチャンネルにデータをアップミキシングするシステムの図である。本発明の典型的な実施例であって、２個のチャンネルから５個のチャンネルにデータをアップミキシングするシステムの図である。本発明の典型的な実施例であって、２個のチャンネルから７個のチャンネルにデータをアップミキシングするシステムの図である。本発明の典型的な実施例であって、チャンネル間空間キューを抽出して、周波数ドメイン用途に空間チャンネルフィルタを生成するシステムの図である。本発明の典型的な実施例であって、典型的なレフトフロントチャンネルフィルタマップの図である。典型的なライトフロントチャンネルフィルタマップの図である。典型的なセンターチャンネルフィルタマップの図である。典型的なレフトサラウンドチャンネルフィルタマップの図である。典型的なライトサラウンドチャンネルフィルタマップの図である。

Claims

ＮチャンネルオーディオシステムをＭチャンネルオーディオシステムに変換するシステムにおいて、
Ｍ及びＮは整数であって、ＮはＭより大きく、
オーディオデータのＮ個のチャンネルの１又は複数個を受信して、オーディオデータの前記Ｎ個のチャンネルの前記１又は複数個をオーディオデータのＭ個のチャンネルの１又は複数個に変換するリファレンスダウンミキサと、
オーディオデータの前記Ｍ個のチャンネルの前記１又は複数個を受信して、オーディオデータの前記Ｍ個のチャンネルの前記１又は複数個をオーディオデータのＮ'個のチャンネルの１又は複数個に変換するリファレンスアップミキサと、
オーディオデータの前記Ｍ個のチャンネルの前記１又は複数個、オーディオデータの前記Ｎ個のチャンネルの前記１又は複数個、及びオーディオデータの前記Ｎ'個のチャンネルの前記１又は複数個を受信して、オーディオデータの前記Ｎ個のチャンネルの前記１又は複数個とオーディオデータの前記Ｎ'個のチャンネルの前記１又は複数個の間の差に基づいて、オーディオデータの前記Ｍ個のチャンネルの前記１又は複数個を補正する補正システムとを備えるシステム。
前記補正システムは、
オーディオデータの前記Ｎ個のチャンネルの前記１又は複数個を受信して、オーディオデータの１又は複数の第１のサブバンドを生成する第１サブバンドベクトル計算ステージと、
オーディオデータの前記Ｎ'個のチャンネルの前記１又は複数個を受信して、オーディオデータの１又は複数の第２のサブバンドを生成する第２サブバンドベクトル計算ステージとを更に備えており、
オーディオデータの前記１又は複数の第１のサブバンドと、オーディオデータの前記１又は複数の第２のサブバンドとを受信して、オーディオデータの前記１又は複数の第１のサブバンドとオーディオデータの前記１又は複数の第２のサブバンドの間の差に基づいて、オーディオデータの前記Ｍ個のチャンネルの前記１又は複数個を補正する、請求項１に記載のシステム。
オーディオデータの前記１又は複数の第１のサブバンドの１又は複数個とオーディオデータの前記１又は複数の第２のサブバンドの１又は複数個の各々は、関連するエネルギの値及び位置の値を有する、請求項２に記載のシステム。
前記位置の値は、オーディオデータのサブバンドの場所を示し、
前記場所の座標は、Ｎ個のサウンドソースの１又は複数に関するエネルギの値と、前記Ｎ個のサウンドソースの１又は複数に関する座標とのベクトル和で決定される、請求項３に記載のシステム。
前記リファレンスダウンミキサは、２以上の位相シフトステージを更に備えており、
前記２以上の位相シフトステージの各々は、オーディオデータの前記Ｎ個のチャンネルの１つを受信して、オーディオデータの関連するチャンネルに、所定の位相シフトを施す、請求項１に記載のシステム。
前記リファレンスダウンミキサは、前記２以上の位相シフトステージの２個以上と結合すると共に、前記２以上の位相シフトステージの前記２個以上の出力を所定の方法で組み合わせる１又は複数の加算ステージを更に備えている、請求項５に記載のシステム。
前記リファレンスアップミキサは、
オーディオデータの前記Ｍ個のチャンネルの１又は複数個を受信して、オーディオデータの１又は複数のサブバンドを生成する時間ドメイン−周波数ドメイン変換ステージと、
オーディオデータの前記１又は複数のサブバンドの前記Ｍ個のチャンネルの１又は複数個を受信して、１又は複数のフィルタを生成するフィルタジェネレータとを備える、請求項１に記載のシステム。
前記１又は複数のフィルタを受信して、前記１又は複数のフィルタの各々を平均化する平滑化ステージと、
前記平滑化ステージと結合すると共に、オーディオデータの前記１又は複数のサブバンドの前記Ｍ個のチャンネルの前記１又は複数個と、平滑化された前記１又は複数のフィルタとを受信し、オーディオデータの前記１又は複数のサブバンドのスケーリングされた前記Ｎ'個のチャンネルの１又は複数個を生成する乗算ステージと、
オーディオデータの前記１又は複数のサブバンドのスケーリングされた前記Ｎ'個のチャンネルの前記１又は複数個を受信して、オーディオデータの前記Ｎ'個のチャンネルの前記１又は複数個を生成する周波数ドメイン−時間ドメイン変換ステージとを備える、請求項７に記載のシステム。
前記補正システムは、第１サブバンドベクトル計算ステージを備えており、
前記第１サブバンドベクトル計算ステージは、
オーディオデータの前記Ｎ個のチャンネルの１又は複数を受信して、オーディオデータの１又は複数の第３のサブバンドを生成する時間ドメイン−周波数ドメイン変換ステージと、
オーディオデータの前記１又は複数の第３のサブバンドの１又は複数個を受信して、受信した各サブバンドについてエネルギの値を生成するサブバンドエネルギステージと、
オーディオデータの前記１又は複数の第３のサブバンドの１又は複数個を受信して、受信した各サブバンドについて位置ベクトルを生成するサブバンド位置ステージとを備える、請求項１に記載のシステム。
前記補正システムは、第２サブバンドベクトル計算ステージを更に備えており、
前記第２サブバンドベクトル計算ステージは、
オーディオデータの前記Ｎ'個のチャンネルの１又は複数個を受信して、オーディオデータの１又は複数の第４のサブバンドを生成する時間ドメイン−周波数ドメイン変換ステージと、
オーディオデータの前記１又は複数の第４のサブバンドの１又は複数個を受信して、受信した各サブバンドについてエネルギの値を生成する第２サブバンドエネルギステージと、
オーディオデータの前記１又は複数の第４のサブバンドの１又は複数個を受信して、受信した各サブバンドについて位置ベクトルを生成する第２サブバンド位置ステージとを備える、請求項９に記載のシステム。
ＮチャンネルオーディオシステムからＭチャンネルオーディオシステムに変換する方法において、
Ｎ及びＭは整数であって、ＮはＭよりも大きく、
オーディオデータのＮ個のチャンネルの１又は複数個をオーディオデータのＭ個のチャンネルの１又は複数個に変換する工程と、
オーディオデータの前記Ｍ個のチャンネルの前記１又は複数個をオーディオデータのＮ'個のチャンネルの１又は複数個に変換する工程と、
オーディオデータの前記Ｍ個のチャンネルの前記１又は複数個をオーディオデータのＮ'個のチャンネルの前記１又は複数個に変換した後に、オーディオデータの前記Ｍ個のチャンネルの前記１又は複数個を伝送する工程と、
オーディオデータの前記Ｍ個のチャンネルの前記１又は複数個を伝送する前に、オーディオデータの前記Ｎ個のチャンネルの１又は複数個とオーディオデータの前記Ｎ'個のチャンネルの１又は複数個の間の差に基づいて、オーディオデータの前記Ｍ個のチャンネルの前記１又は複数個を補正する工程とを含む方法。
オーディオデータの前記Ｎ個のチャンネルの１又は複数個をオーディオデータの前記Ｍ個のチャンネルの１又は複数個に変換する工程は、オーディオデータの前記Ｎ個のチャンネルの１又は複数個を位相シフト関数を用いて処理し、オーディオデータの関連するチャンネルに所定の位相シフトを与える工程を含む、請求項１１に記載の方法。
オーディオデータの前記Ｍ個のチャンネルの１又は複数個をオーディオデータの前記Ｎ'個のチャンネルの１又は複数個に変換する工程は、
オーディオデータの前記Ｍ個のチャンネルの１又は複数個を、時間ドメインから周波数ドメインに変換する工程と、
周波数ドメインのオーディオデータである前記Ｍ個のチャンネルの１又は複数個を用いて、１又は複数のフィルタを生成する工程と、
前記１又は複数のフィルタの１又は複数個を平滑化する工程と、
平滑化された１又は複数のフィルタの１又は複数個に、周波数ドメインのデータの前記Ｍチャンネルの１又は複数個を掛けて、周波数のデータの前記Ｎ'個のチャンネルの１又は複数個を生成する工程と、
周波数のデータの前記Ｎ'個のチャンネルの１又は複数個を、周波数ドメインから時間ドメインに変換する工程とを含む、請求項１１に記載の方法。
オーディオデータの前記Ｎ個のチャンネルの１又は複数個とオーディオデータの前記Ｎ'個の１又は複数個のチャンネルの間の差に基づいて、オーディオデータの前記Ｍ個のチャンネルの１又は複数個を補正する工程は、オーディオデータの前記Ｎ個のチャンネルの１又は複数個について、エネルギ及び位置ベクトルを決定する工程を含む、請求項１１に記載の方法。
オーディオデータの前記Ｍ個のチャンネルの１又は複数個について、エネルギ及び位置ベクトルを調整する工程を含んでおり、
オーディオデータの調整された前記Ｍ個のチャンネルは、１又は複数のエネルギ及び位置ベクトルを有するオーディオデータのＮ''個のチャンネルの１又は複数個に変換され、
前記１又は複数のエネルギ及び位置ベクトルは、オーディオデータの前記Ｎ'個のチャンネルの１又は複数個の対応するエネルギ及び位置ベクトルよりも、オーディオデータの前記Ｎ個のチャンネルの１又は複数個のエネルギ及び位置ベクトルに近い、請求項１１に記載の方法。
位相シフト関数を用いて処理した後に、オーディオデータの前記Ｎ個のチャンネルの２個以上を組み合わせて、オーディオデータの前記Ｍ個のチャンネルの１又は複数においてオーディオデータの前記Ｎ個のチャンネルの２個以上が所定の位相関係を有するようにオーディオデータの前記Ｍ個のチャンネルの１又は複数個を生成する工程を更に含む、請求項１１に記載の方法。