JP2016522909A

JP2016522909A - マルチチャネル・オーディオのハイブリッド・エンコード

Info

Publication number: JP2016522909A
Application number: JP2016510737A
Authority: JP
Inventors: ウイリアムズ，フィリップ; シュフーグ，ミヒャエル; テシン，ロビン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2013-04-30
Filing date: 2014-04-22
Publication date: 2016-08-04
Anticipated expiration: 2034-04-22
Also published as: JP6181854B2; KR101750732B1; TW201513096A; EP2992528A1; EP2992528A4; HK1215490A1; BR112015026963A2; EP2992528B1; CN105164749B; TWI521502B; RU2581782C1; CN105164749A; KR20150138328A; WO2014179119A1; US8804971B1; BR112015026963B1

Abstract

マルチチャネル・オーディオ入力信号をエンコードする方法であって、入力信号のチャネルの部分集合の低周波数成分のダウンミックスを生成する段階と、前記ダウンミックスの各チャネルを波形符号化して、それにより、波形符号化された、ダウンミックスされたデータを生成する段階と、入力信号の各チャネルの少なくともいくつかのより高い周波数成分に対してパラメトリック符号化を実行し、それによりパラメトリック符号化されたデータを生成する段階と、前記波形符号化された、ダウンミックスされたデータおよび前記パラメトリック符号化されたデータを示すエンコードされたオーディオ信号（たとえばE-AC-3エンコードされた信号）を生成する段階とを含む、方法ならびに本発明の方法の任意の実施形態を実行するよう構成されたシステム。

Description

関連出願への相互参照
本願は2013年4月30日に出願された米国仮特許出願第61/817,729号の優先権を主張するものである。同出願の内容はここに参照によりその全体において組み込まれる。

発明の分野
本発明はオーディオ信号処理に関し、より詳細にはマルチチャネル・オーディオのエンコード（たとえば、マルチチャネル・オーディオ信号を示すデータのエンコード）およびデコードに関する。典型的な実施形態では、マルチチャネル入力オーディオの個々のチャネルの低周波数成分のダウンミックスが波形符号化を受け、入力オーディオの残りの（高周波数の）周波数成分がパラメトリック符号化を受ける。いくつかの実施形態は、AC-3およびE-AC-3（Enhanced AC-3［向上AC-3］）として知られるフォーマットの一つに従って、あるいは他のエンコード・フォーマットに従ってマルチチャネル・オーディオ・データをエンコードする。

ドルビー・ラボラトリーズは、それぞれドルビー・デジタルおよびドルビー・デジタル・プラスとして知られる、AC-3およびE-AC-3の独自の実装を提供している。ドルビー、ドルビー・デジタルおよびドルビー・デジタル・プラスはドルビー・ラボラトリーズ・ライセンシング・コーポレイションの商標である。

本発明はE-AC-3（またはAC-3）フォーマットに従ってオーディオ・データをエンコードすることにおける使用に限定されないが、便宜上、E-AC-3フォーマットに従ってオーディオ・ビットストリームをエンコードする実施形態において記述される。

AC-3またはE-AC-3エンコードされたビットストリームはメタデータおよび一ないし六個のチャネルのオーディオ・コンテンツを含む。オーディオ・コンテンツは、知覚的オーディオ符号化を使って圧縮されたオーディオ・データである。AC-3符号化の詳細はよく知られており、非特許文献１、特許文献１、２、３、４、５を含む多くの刊行物で記述されている。

ドルビー・デジタル・プラス（E-AC-3）の詳細は、たとえば非特許文献２に記載されている。

AC-3エンコードされたオーディオ・ビットストリームの各フレームは、デジタル・オーディオの1536サンプルについてのオーディオ・コンテンツおよびメタデータを含む。48kHzのサンプリング・レートについては、これは32ミリ秒のデジタル・オーディオまたはオーディオの31.25フレーム毎秒のレートを表わす。

E-AC-3エンコードされたオーディオ・ビットストリームの各フレームは、フレームに含まれるオーディオ・データが一、二、三または六ブロックのいずれであるかに依存して、それぞれデジタル・オーディオの256、512、768または1536サンプルについてのオーディオ・コンテンツおよびメタデータを含む。

オーディオ入力信号の波形エンコード（典型的には、エンコードされた信号が入力信号より少数のビットを有するように信号を圧縮するために実行される）は、入力信号を、入力信号の波形を、該当する制約条件の下で、できるだけ保存するような仕方でエンコードする（たとえば、エンコードされた信号の波形が入力信号の波形に可能な限り一致するようにする）。たとえば、通常のE-AC-3エンコードでは、波形エンコードは、マルチチャネル入力信号の各チャネルの低周波数成分（典型的には3.5kHzまたは4.6kHzまで）に対して実行される。それは、入力信号の各チャネルの各低周波数帯域の各サンプル（これが周波数成分である）の量子化された表現（量子化された仮数および指数）を（周波数領域において）生成することによる。

より具体的には、E-AC-3エンコーダ（および他の何らかの通常のオーディオ・エンコーダ）の典型的な実装は、それぞれの仮数へのビットの最適な割り当てを決定するために、帯域化ベース（すなわち、典型的にはバーク・スケールとして知られる周知の音響心理学的スケールの周波数帯域を近似する50個の非一様な帯域）で入力信号を示す周波数領域データを解析するための音響心理学的モデルを実装する。入力信号の低周波数成分に対して波形エンコードを実行するために、（低周波数成分を示す）仮数データは決定されたビット割り当てに対応する数のビットに量子化される。量子化された仮数データは（対応する指数データおよび典型的には対応するメタデータも）次いで、エンコードされた出力ビットストリームにフォーマットされる。

もう一つのよく知られた型のオーディオ信号エンコードであるパラメトリック・エンコードは、入力オーディオ信号の特徴パラメータを抽出し、エンコードする。それにより、（エンコードおよびその後のデコード後の）再構成された信号は（該当する制約条件のもとで）できるだけ高い了解性をもつが、エンコードされた信号の波形は入力信号の波形とは非常に異なることがある。

たとえば、特許文献６、７はスペクトル拡張符号化として知られるパラメトリック符号化の型を記述している。スペクトル拡張符号化（spectral extension coding）では、全周波数範囲のオーディオ入力信号の周波数成分は、限られた周波数範囲の信号（ベースバンド信号）のシーケンスおよび（ベースバンド信号とともに）全周波数範囲の入力信号の近似バージョンを決定する（残差信号を示す）エンコード・パラメータの対応するシーケンスとしてエンコードされる。

パラメトリック・エンコードのもう一つのよく知られた型はチャネル結合符号化（channel coupling coding）である。チャネル結合符号化では、オーディオ入力信号のチャネルのモノフォニック・ダウンミックスが構築される。入力信号はこのダウンミックス（周波数成分のシーケンス）および結合パラメータの対応するシーケンスとしてエンコードされる。結合パラメータは、（前記ダウンミックスとともに）入力信号の各チャネルの近似されたバージョンを決定するレベル・パラメータである。結合パラメータは、モノフォニック・ダウンミックスのエネルギーを入力信号の各チャネルのエネルギーにマッチさせる周波数帯域化されたメタデータである。

たとえば、5.1チャネル入力信号の（エンコードされた信号の送達のための利用可能なビットレート192kbpsでの）通常のE-AC-3エンコードは典型的には、入力信号の各チャネルの中間周波数成分（F1＜f≦F2の範囲内、ここでF1は典型的には3.5kHzまたは4.6kHzに等しく、F2は典型的には10kHzまたは10.2kHzに等しい）をエンコードするためにチャネル結合符号化を実装し、入力信号の各チャネルの高周波数成分（F2＜f≦F3の範囲内、ここで、F2は典型的には10kHzまたは10.2kHzに等しく、F3は典型的には14.8kHzまたは16kHzに等しい）をエンコードするためにスペクトル拡張符号化を実装する。チャネル結合エンコードの実行中に決定されたモノフォニック・ダウンミックスは波形符号化され、波形符号化されたダウンミックスは結合パラメータとともに（エンコードされた出力信号において）送達される。チャネル結合エンコードの実行中に決定されたダウンミックスは、スペクトル拡張符号化のためのベースバンド信号として用いられる。スペクトル拡張符号化は（入力信号の各チャネルのベースバンド信号および高周波数成分から）、別の一組のエンコード・パラメータ（SPXパラメータ）を決定する。SPXパラメータは、エンコードされた出力信号中に含められ、該エンコードされた出力信号とともに送達される。

時に空間的オーディオ符号化（spatial audio coding）と称されるパラメトリック符号化のもう一つの型では、マルチチャネル・オーディオ入力信号のチャネルのダウンミックス（たとえばモノまたはステレオのダウンミックス）が生成される。入力信号は、このダウンミックス（周波数成分のシーケンス）および空間的パラメータの対応するシーケンスを含む出力信号として（または前記ダウンミックスの各チャネルの波形符号化されたバージョンと空間的パラメータの対応するシーケンスとして）エンコードされる。空間的パラメータは、入力信号の前記ダウンミックスから、オーディオ入力信号の各チャネルの振幅包絡〔エンベロープ〕およびオーディオ入力信号のチャネルどうしの間のチャネル間相関の両方を復元することを許容する。この型のパラメトリック符号化は、入力信号の全周波数範囲の部分範囲内の周波数成分だけに対してではなく、入力信号のすべての周波数成分に対して（すなわち、入力信号の全周波数範囲に対して）実行されてもよい（すなわち、入力信号のエンコードされたバージョンは、入力信号の部分集合ではなく全周波数範囲のすべての周波数についてのダウンミックスおよび空間的パラメータを含む）。

オーディオ・ビットストリームのE-AC-3またはAC-3エンコードでは、エンコードされるべき入力オーディオ・サンプルのブロックは、時間‐周波数領域変換を受け、その結果、一様に離間した周波数ビン内に位置する一般に変換係数（または周波数係数または周波数成分）と称される周波数領域データのブロックを生じる。次いで各ビン内の周波数係数が指数および仮数を含む浮動小数点フォーマットに変換される（たとえば、図１のシステムのBFPE段７において）。

典型的には、仮数ビット割り当ては、粒度の細かい信号スペクトル（各周波数ビンについてのパワースペクトル密度（「PSD」値によって表わされる））と粒度の粗いマスキング曲線（各周波数帯域についてのマスク値によって表わされる）との間の差に基づく。

図１は、時間領域入力オーディオ・データ１に対して通常のE-AC-3エンコードを実行するよう構成されたエンコーダである。エンコーダの分解フィルタバンク２は時間領域入力オーディオ・データ１を周波数領域オーディオ・データ３に変換し、ブロック浮動小数点エンコード（BFPE: block floating point encoding）段７が、データ３の各周波数成分の、各周波数ビンについて指数および仮数を含む浮動小数点表現を生成する。段７から出力される周波数領域データは本稿では時に周波数領域オーディオ・データ３と称される。段７から出力される周波数領域オーディオ・データは次いでエンコードされる。それは、段７から出力される周波数領域データの低周波数成分（「F1」以下の周波数をもつ、ここで、F1は典型的には3.5kHzまたは4.6kHzに等しい）に対して波形符号化を（図１のシステムの要素４、６、１０および１１において）実行することにより、かつ段７から出力される周波数領域データの残りの周波数成分（F1より高い周波数をもつ成分）に対してはパラメトリック符号化を（パラメトリック・エンコード段１２において）実行することによることを含む。

波形エンコードは、量子化器６における（段７から出力される低周波数成分の）仮数の量子化と、テンティング（tenting）段１０における（段７から出力される低周波数成分の）指数のテンティングと、段１０において生成されたテンティングされた指数の（指数符号化段１１における）エンコードとを含む。量子化器６から出力される量子化されたデータ、段１１から出力される符号化された差分指数データおよび段１２から出力されるパラメトリック・エンコードされたデータに応答して、フォーマット器８が、E-AC-3エンコードされたビットストリーム９を生成する。

量子化器６は、コントローラ４によって生成される（マスキング・データを含む）制御データに基づくビット割り当ておよび量子化を実行する。（マスキング曲線を決定する）マスキング・データは、周波数領域データ３から、人間の聴覚および聴覚知覚の（コントローラ４によって実装される）音響心理学モデルに基づいて生成される。音響心理学モデリングは、人間の聴覚の周波数依存の閾値と、一つまたは複数のより弱い周波数成分に近い強い周波数成分が該より弱い成分をマスクし、人間の聴取者に聞こえなくするという、マスキングと称される音響心理学的現象とを考慮に入れる。これにより、エンコードされたオーディオ・データ（ビットストリーム９）の知覚される品質に悪影響を与えることなく、オーディオ・データをエンコードするときに前記より弱い周波数成分を省略し、それにより、より高い圧縮率を達成することが可能になる。マスキング・データは、周波数領域オーディオ・データ３の各周波数帯域についてマスキング曲線値を含む。これらマスキング曲線値は、各周波数帯域において人間の耳によってマスクされる信号のレベルを表わす。量子化器６はこの情報を使って、入力オーディオ信号の各周波数帯域の周波数領域データを表わすために、利用可能な数のデータ・ビットをどのように使うのが最もよいかを決定する。

通常のE-AC-3エンコードにおいて、絶対的な指数ではなく差分指数（すなわち、相続く指数の間の差）が符号化されることが知られている。差分指数は、五つの値2、1、0、−1および−2のうちの一つを取ることができるだけである。この範囲外の差分指数が見出される場合には、減算される指数の一つが修正されて、（修正後の）差分指数が上記の範囲内になるようにする（この通常の方法は、「指数テンティング（exponent tenting）」または「テンティング（tenting）」として知られている）。図１のエンコーダのテンティング段１０は、そのようなテンティング動作を実行することにより、それに加えられる生の指数に応答してテンティングされた指数を生成する。

米国特許第5,583,962号米国特許第5,632,005号米国特許第5,633,981号米国特許第5,727,119号米国特許第6,021,386号国際公開第03/083834号、2003年10月9日公開国際公開第2004/102532号、2004年11月25日公開

ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 Aug. 2001 Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System, AES Convention Paper 6196, 117th AES Convention, October 28, 2004

E-AC-3符号化の典型的な実施形態では、5または5.1チャネル・オーディオ信号が約96kbpsないし約192kbpsの範囲内のビットレートにおいてエンコードされる。現在のところ、192kbpsでは典型的なE-AC-3エンコーダは5チャネル（または5.1チャネル）の入力信号を、信号の各チャネルの低周波数成分（たとえば3.5kHzまたは4.6kHzまで）についての離散的な波形符号化と、信号の各チャネルの中間周波数成分（たとえば3.5kHzから約10kHzまでまたは4.6kHzから約10kHzまで）についてのチャネル結合と、信号の各チャネルのより高い周波数成分（たとえば約10kHzから16kHzまでまたは約10kHzから14.8kHzまで）についてのスペクトル拡張との組み合わせを使って、エンコードする。これは受け入れ可能な品質を与えるものの、エンコードされた出力信号を送達するために利用可能な最大ビットレートが192kbps未満に低下すると、（エンコードされた出力信号のデコードされたバージョンの）品質が急速に劣化する。たとえば、ストリーミングのための5.1チャネル・オーディオをエンコードするためにE-AC-3を使うとき、一時的なデータ帯域幅制限が192kbpsより低いデータ・レート（たとえば64kbpsまで）を要求することがありうる。しかしながら、192kbpsより低いビットレートでの送達のために5.1チャネル信号をエンコードするためにE-AC-3を使うことは、「放送品質」のエンコードされたオーディオを生成しない。192kbpsより実質的に低いビットレート（たとえば96kbpsまたは128kbpsまたは160kbps）での送達のために信号を（E-AC-3エンコードを使って）符号化するために、（エンコードされたオーディオ信号を送達するために利用可能な）オーディオ帯域幅、符号化アーチファクトおよび空間的つぶれ（spatial collapse）の間の最善の利用可能なトレードオフを見出す必要がある。より一般には、本発明者らは、低い（または典型的ビットレートより低い）ビットレートでの送達のためにマルチチャネル入力オーディオをエンコードするために、オーディオ帯域幅、符号化アーチファクトおよび空間的つぶれの間の最善のトレードオフが見出される必要があることを認識するに至った。

一つの素朴な解決策は、利用可能なビットレートについて十分な品質（たとえばこれが最低限の十分な品質であれば「放送品質」）で生成されることのできるチャネル数までマルチチャネル入力オーディオをダウンミックスし、次いでダウンミックスの各チャネルの通常のエンコードを実行するというものである。たとえば、五チャネル入力信号を（利用可能なビットレートが128kbpsである場合）三チャネル・ダウンミックスに、あるいは（利用可能なビットレートが96kbpsである場合）二チャネルのダウンミックスにダウンミックスしてもよい。しかしながら、この解決策は、深刻な空間的つぶれという代償を払って符号化品質およびオーディオ帯域幅を維持する。

もう一つの素朴な解決策は、ダウンミックスを避け（たとえば、5.1チャネル入力信号に応答して完全な5.1チャネルのエンコードされた出力信号を生成し）、その代わりコーデックをその限界まで押しやるということである。しかしながら、この解決策は、空間性をできるだけ維持するものの、より多くの符号化アーチファクトを導入し、オーディオ帯域幅を犠牲にする。

典型的な実施形態では、本発明は、マルチチャネル・オーディオ入力信号のハイブリッド・エンコードのための方法（たとえば、E-AC-3規格に準拠するエンコード方法）である。本方法は、入力信号の個々のチャネルの低周波数成分（たとえば約1.2kHzから約4.6kHzまたは約3.5kHzから約4.6kHzの範囲内の最大値までの周波数をもつ）を生成する段階と、前記ダウンミックスの各チャネルに対して波形符号化を実行する段階と、前記入力信号の各チャネルの残りの周波数成分（少なくともいくつかの中間周波数および／または高周波数成分）のパラメトリック・エンコードを（入力信号のどのチャネルの前記残りの周波数成分の予備的なダウンミックスも実行することなく）実行する段階とを含む。

典型的な実施形態では、本発明のエンコード方法は、エンコードされた出力信号が入力信号より少数のビットを含み、かつエンコードされた信号が低ビットレート（たとえばE-AC-3準拠の実施形態について約96kbpsから約160kbpsの範囲内；ここで、「kbps」はキロビット毎秒を表わす）で良好な品質をもって伝送されることができるよう、入力信号を圧縮する。このコンテキストにおいて、伝送ビットレートは、通常にエンコードされたオーディオの伝送のために典型的に利用可能なビットレート（たとえば、通常にE-AC-3エンコードされたオーディオについての192kbpsの典型的なビットレート）よりは実質的に低いが、（伝送されたエンコードされた信号のデコードされたバージョンの）十分な品質を達成するために入力信号の完全なパラメトリック符号化が必要とされるという最低限のビットレートよりは高いという意味において「低い」。（たとえば低ビットレートでのエンコードされた信号の伝送後のエンコードされた信号のデコードされたバージョンの）十分な品質を提供するために、マルチチャネル入力信号は、入力信号のもとのチャネルの低周波数内容の波形符号化されたダウンミックスと、入力信号の各もとのチャネルの高周波数（低周波数より高い）内容のパラメトリック符号化されたバージョンとの組み合わせとしてエンコードされる。各もとの入力チャネルの低周波数内容の離散的な波形符号化ではなく、低周波数内容のダウンミックスを波形符号化することによって、有意なビットレート節約が達成される。各入力チャネルの高周波数をパラメトリック符号化するために必要とされる（エンコードされた信号に含められるべき）データの量は比較的少ないので、エンコードされた信号が送達されることのできるビットレートを有意に増すことなく、各入力チャネルの高周波数をパラメトリック符号化することが可能である。その結果、比較的低い「ビットレート」コストで改善された空間的な像形成が得られる。本発明のハイブリッド（波形およびパラメトリック）符号化方法の典型的な実施形態は、空間的な像のつぶれ（ダウンミックスに起因）および符号化ノイズから帰結するアーチファクト間のバランスに対するさらなる制御を許容し、一般に、通常の方法によって達成できるよりも（エンコードされた信号のデコードされたバージョンの）知覚される品質における全体的な改善につながる。

いくつかの実施形態では、本発明は、極端に帯域幅が制限された環境におけるストリーミング・コンテンツとしての送達のために特に、エンコードされたオーディオを生成するE-AC-3エンコード方法またはシステムである。他の実施形態では、本発明のエンコード方法およびシステムは、より一般的な用途のためにより高いビットレートでの送達のためのエンコードされたオーディオを生成する。

あるクラスの実施形態では、マルチチャネル入力オーディオの各チャネルの低周波数帯域だけのダウンミックス（それに、低周波数成分の、結果として得られたダウンミックスの波形符号化が続く）は、オーディオ・コンテンツの低周波数帯域についての波形符号化されたビットを（エンコードされた出力信号に）含める必要をなくすことにより、多大なビット数を節約し（すなわち、エンコードされる出力信号のビット数を減らし）、また、もとの入力オーディオの全部のチャネルのパラメトリック符号化された内容（たとえばチャネル結合されたおよびスペクトル拡張された内容）を（エンコードされた信号に）含める結果として、送達されるエンコードされた信号のデコードされたバージョンのレンダリング中の空間的なつぶれを最小にする（または低減する）。そのような実施形態によって生成されたエンコードされた信号は、通常のエンコード方法（たとえば上述した素朴なエンコード方法の一つ）によって生成された場合よりも、空間的、帯域幅および符号化アーチファクトの、よりバランスの取れたトレードオフをもつ。

いくつかの実施形態では、本発明は、マルチチャネル・オーディオ入力信号をエンコードする方法であって、入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成する段階と；前記ダウンミックスの各チャネルを波形符号化して、それにより、前記ダウンミックスのオーディオ内容を示す、波形符号化された、ダウンミックスされたデータを生成する段階と；前記入力信号の各チャネルの少なくともいくつかの、より高い周波数成分（たとえば、中間周波数成分および／または高周波数成分）に対してパラメトリック・エンコードを実行し（たとえば、中間周波数成分のチャネル結合符号化および高周波数成分のスペクトル拡張符号化を実行し）、それにより前記入力信号の前記各チャネルの前記少なくともいくつかの、より高い周波数成分を示すパラメトリック符号化されたデータを生成する段階と；前記波形符号化された、ダウンミックスされたデータおよび前記パラメトリック符号化されたデータを示すエンコードされたオーディオ信号を生成する段階とを含む、方法である。いくつかのそのような実施形態では、エンコードされたオーディオ信号はE-AC-3エンコードされたオーディオ信号である。

本発明のもう一つの側面は、エンコードされたオーディオ・データをデコードする方法であって、エンコードされたオーディオ・データを示す信号を受領する段階であって、前記エンコードされたオーディオ・データは、本発明のエンコード方法の任意の実施形態に従ってオーディオ・データをエンコードすることによって生成されたものである、段階と；前記エンコードされたオーディオ・データをデコードして前記オーディオ・データを示す信号を生成する段階とを含む、方法である。

たとえば、いくつかの実施形態では、本発明は、波形符号化されたデータおよびパラメトリック符号化されたデータを示す、エンコードされたオーディオ信号をデコードする方法であり、前記エンコードされたオーディオ信号は、マルチチャネル・オーディオ入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化して、それにより、前記ダウンミックスのオーディオ内容を示すよう波形符号化された、ダウンミックスされたデータを生成し、前記入力信号の各チャネルの少なくともいくつかの、より高い周波数成分に対してパラメトリック・エンコードを実行し、それにより前記入力信号の前記各チャネルの前記少なくともいくつかの、より高い周波数成分を示すパラメトリック符号化されたデータを生成し、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータに応答して前記エンコードされたオーディオ信号を生成することによって生成されたものである。本デコードする方法は、前記エンコードされたオーディオ信号から、前記波形エンコードされたデータおよび前記パラメトリック・エンコードされたデータを抽出する段階と；抽出された波形エンコードされたデータに対して波形デコードを実行して、前記ダウンミックスの各チャネルの低周波数オーディオ内容を示す復元された周波数成分の第一の集合を生成する段階と；抽出されたパラメトリック・エンコードされたデータに対してパラメトリック・デコードを実行して、前記マルチチャネル・オーディオ入力信号の各チャネルの、より高い周波数（たとえば中間周波数および高周波数）オーディオ内容を示す復元された周波数成分の第二の集合を生成する段階とを含む。いくつかのそのような実施形態では、前記マルチチャネル・オーディオ入力信号はNチャネルをもち、Nは整数であり、前記デコード方法は、復元された周波数成分の前記第一の集合および復元された周波数成分の前記第二の集合を組み合わせることによることを含め、Nチャネルのデコードされた周波数領域データを生成し、デコードされた周波数領域データの各チャネルが、前記マルチチャネル・オーディオ入力信号のチャネルのうちの異なるチャネルの中間周波数および高周波数オーディオ内容を示し、デコードされた周波数領域データのチャネルの少なくとも部分集合の各チャネルが前記マルチチャネル・オーディオ入力信号の低周波数オーディオ内容を示すようにする、段階をも含む。

本発明のもう一つの側面は、オーディオ・データに応答して、エンコードされたオーディオ・データを生成するよう本発明のエンコード方法の任意の実施形態を実行するよう構成された（たとえばプログラムされた）エンコーダと、前記エンコードされたオーディオ・データをデコードして前記オーディオ・データを復元するよう構成されたデコーダとを含むシステムである。

本発明の他の諸側面は、本発明の方法の任意の実施形態を実行するよう構成された（たとえばプログラムされた）システムまたは装置（たとえばエンコーダ、デコーダまたはプロセッサ）および本発明の方法の任意の実施形態またはその段階を実装するためのコードを記憶しているコンピュータ可読媒体（たとえばディスク）を含む。たとえば、本発明のシステムは、本発明の方法の実施形態またはその段階を含む多様な動作の任意のものをデータに対して実行するようソフトウェアもしくはファームウェアでプログラムされたおよび／または他の仕方で構成された、プログラム可能な汎用プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサであることができるまたはそれを含むことができる。そのような汎用プロセッサは、入力装置と、メモリと、呈されたデータに応答して本発明の方法の実施形態（またはその段階）を実行するようプログラムされた（および／または他の仕方で構成された）処理回路とを含むコンピュータ・システムであってもよく、あるいはそれを含んでいてもよい。

通常のエンコード・システムのブロック図である。本発明のエンコード方法のある実施形態を実行するよう構成されたエンコード・システムのブロック図である。本発明のデコード方法のある実施形態を実行するよう構成されたデコード・システムのブロック図である。オーディオ・データに応答して、エンコードされたオーディオ・データを生成するために、本発明のエンコード方法の任意の実施形態を実行するよう構成されたエンコーダと、前記エンコードされたオーディオ・データをデコードして前記オーディオ・データを復元するよう構成されたデコーダとを含む、システムのブロック図である。

本発明の符号化方法および該方法を実装するよう構成されたシステムのある実施形態について図２を参照して述べる。図２のシステムは、マルチチャネル・オーディオ入力信号（２１）に応答してE-AC-3エンコードされたオーディオ・ビットストリーム（３１）を生成するよう構成されたE-AC-3エンコーダである。信号２１は、オーディオ・コンテンツの五つの全範囲〔フル・レンジ〕チャネルを含む「5.0チャネル」の時間領域信号であってもよい。

図２のシステムは、五つの全範囲チャネルおよび一つの低域効果（LFE）チャネルを含む5.1チャネルのオーディオ入力信号２１に応答してE-AC-3エンコードされたオーディオ・ビットストリーム３１を生成するようにも構成される。図２に示される要素は、五つの全範囲入力チャネルをエンコードし、エンコードされた全範囲チャネルを示すビットを、出力ビットストリーム３１に含めるためにフォーマット段３０に提供することができる。（通常の仕方で）LFEチャネルをエンコードし、エンコードされたLFEチャネルを示すビットを、出力ビットストリーム３１に含めるためにフォーマット段３０に提供するための本システムの通常の要素は、図２には示していない。

図２の時間領域から周波数領域への変換段２２は、時間領域入力信号２１の各チャネルを周波数領域オーディオ・データのチャネルに変換するよう構成されている。図２のシステムがE-AC-3エンコーダであるので、各チャネルの周波数成分は、バーク・スケールとして知られる周知の音響心理学スケールの周波数帯域を近似する50個の非一様な帯域に周波数帯域化される。（エンコードされた出力オーディオ３１がE-AC-3準拠フォーマットをもたないような）図２の実施形態に対する諸変形では、入力信号の各チャネルの周波数成分は別の仕方で（すなわち、一様または非一様な周波数帯域の任意の集合に基づいて）周波数帯域化される。

段２２から出力されるチャネルの全部または一部の低周波数成分がダウンミックス段２３においてダウンミックスを受ける。低周波数成分は、最大周波数「F1」以下の周波数をもつ。ここで、F1は典型的には約1.2kHzから約4.6kHzの範囲内である。

段２２から出力される全チャネルの中間周波数成分は、段２６においてチャネル結合符号化を受ける。中間周波数成分は範囲F1＜f≦F2内の周波数fをもつ。ここで、F1は典型的には約1.2kHzから約4.6kHzの範囲内であり、F2は典型的には約8kHzから約12.5kHzの範囲内である（たとえば、F2は8kHzまたは10kHzまたは10.2kHzに等しい）。

段２２から出力される全チャネルの高周波数成分は、段２８においてスペクトル拡張符号化を受ける。高周波数成分は範囲F2＜f≦F3内の周波数fをもつ。ここで、F2は典型的には約8kHzから約12.5kHzの範囲内であり、F3は典型的には約10.2kHzか約18kHzの範囲内である。

本発明者らは、マルチチャネル入力信号の一部または全部のチャネルのオーディオ内容の低周波数成分のダウンミックス（たとえば五つの全範囲チャネルをもつ入力信号の三チャネル・ダウンミックス）を波形符号化し（五つの全範囲入力チャネル全部のオーディオ内容の低周波数成分を離散的に波形符号化するのではなく）、入力信号の各チャネルの残りの周波数成分をパラメトリック・エンコードすることが、低下したビットレートにおいて、標準的なE-AC-3符号化を使って得られる品質に比べて改善された品質をもつエンコードされた出力信号を与え、好ましくない空間的つぶれを回避するということを判別した。図２のシステムは、本発明のエンコード方法のそのような実施形態を実行するよう構成されたシステムである。たとえば、図２のシステムは、マルチチャネル入力信号２１が五つの全範囲チャネルをもち（すなわち、5チャネルまたは5.1チャネル・オーディオ信号である）、低下したビットレート（たとえば160kbps、あるいは約96kbpsより高く192kbpsより実質的に低い別のビットレート；ここで、「kbps」はキロビット毎秒を表わす）でエンコードされる場合に、改善された品質をもって（かつ好ましくない空間的つぶれを回避する仕方で）、エンコードされた出力信号３１を生成するために、本発明の方法のそのような実施形態を実行することができる。ここで、「低下した」ビットレートは、そのビットレートが、同じ入力信号のエンコードの際に標準的なE-AC-3エンコーダが典型的に動作するビットレートより低いことを示す。本発明の方法の上記の実施形態および通常のE-AC-3エンコード方法はいずれも入力信号のオーディオ内容の中間およびより高い周波数成分をパラメトリック技法（すなわち、図２のシステムの段２６で実行されるようなチャネル結合符号化および図２のシステムの段２８で実行されるようなスペクトル拡張符号化）を使ってエンコードするが、本発明の方法は、入力オーディオ信号の五つすべての離散的なチャネルではなく、低下した数の（たとえば三つの）ダウンミックス・チャネルのみの内容の低周波数成分の波形符号化を実行する。これは、空間的情報の損失（チャネルのうちのいくつか、典型的にはサラウンド・チャネルの低周波数データが他のチャネル、典型的には前方チャネル中に混合されるため）を代償としての、ダウンミックス・チャネルにおける符号化ノイズが低減される（たとえば波形符号化が五つではなく五つより少ないチャネルの低周波数成分に対して実行されるため）有益なトレードオフにつながる。本発明者らは、このトレードオフが典型的には、低下したビットレートで入力信号に対して標準的なE-AC-3符号化を実行することによって生成されるよりも、よい品質の出力信号を与える（該出力信号がエンコードされた出力信号の送達、デコードおよびレンダリング後のよりよい音質を提供する）ことを判別した。

典型的な実施形態では、図２のシステムのダウンミックス段２３は、入力信号のチャネルの第一の部分集合（典型的には、左右のサラウンド・チャネルLsおよびRs）の各チャネルの低周波数成分を値0で置き換え、入力信号の残りのチャネル（たとえば、図２に示されるように左前方チャネルL、中央チャネルCおよび右前方チャネルR）の低周波数成分を不変のまま、入力信号の低周波数成分のダウンミックスとして、（波形エンコード段２４に）通過させる。あるいはまた、別の仕方で低周波数内容のダウンミックスが生成されてもよい。たとえば、ある代替的な実装では、ダウンミックスを生成する動作は、前記第一の部分集合の少なくとも一つのチャネルの低周波数成分を、前記入力信号の残りのチャネルの少なくとも一つのチャネルの低周波数成分と混合する段階を含む（たとえば、段２３は、それに呈された右サラウンド・チャネルRsと右前方チャネルRを混合してダウンミックスの右チャネルを生成し、それに呈された左サラウンド・チャネルLsと左前方チャネルLを混合してダウンミックスの左チャネルを生成するよう実装されることができる）。

段２３において生成されたダウンミックスの各チャネルは、波形エンコード段２４において（通常の仕方の）波形符号化を受ける。ダウンミックス段２３が前記入力信号のチャネルの第一の部分集合（たとえば、図２に示される左右のサラウンド・チャネルLsおよびRs）の各チャネルの低周波数成分を、値0を含む低周波数成分チャネルで置き換える典型的な実装では、値0を含むそのような各チャネル（本稿では時に「無音」チャネルと称される）が段２３から、ダウンミックスの0でない（非無音の）各チャネルと一緒に、出力される。（段２３において生成された）ダウンミックスの0でない各チャネルが段２４において波形符号化を受けるとき、段２３から段２４に呈示される各「無音」チャネルも典型的には波形符号化される（非常に低い処理およびビット・コストで）。段２４において生成された波形エンコードされたチャネルすべては（波形エンコードされた無音チャネルがあればそれも含め）、エンコードされた出力信号３１に適切なフォーマットで含めるために、段２４からフォーマット段３０に出力される。

典型的な実施形態では、エンコードされた出力信号３１がデコーダ（たとえば図３を参照して記述されるデコーダ）に送達される（たとえば伝送される）とき、デコーダは、低周波数オーディオ内容の全数の波形符号化されたチャネル（たとえば五つの波形符号化されたチャネル）を見るが、そのうちの部分集合（たとえば、三チャネル・ダウンミックスの場合はそのうちの二つ、あるいは二チャネル・ダウンミックスの場合はそのうちの三つ）は、完全に0からなる「無音」チャネルである。

低周波数内容のダウンミックスを生成するために、本発明の異なる実施形態（たとえば図２の段２３の異なる実装）は異なる方法を用いる。入力信号が五つの全範囲チャネル（左前方、左サラウンド、右前方、右サラウンドおよび中央）をもち三チャネルのダウンミックスが生成されるいくつかの実施形態では、入力信号の左サラウンド・チャネル信号の低周波数成分が入力信号の左前方チャネルの低周波数成分に混合されてダウンミックスの左前方チャネルを生成し、入力信号の右サラウンド信号の低周波数成分は入力信号の右前方チャネルの低周波数成分に混合されてダウンミックスの右前方チャネルを生成する。入力信号の中央チャネルは、波形およびパラメトリック符号化の前には、不変であり（すなわち、混合を受けない）、ダウンミックスの左右のサラウンド・チャネルの低周波数成分は0に設定される。

あるいはまた、二チャネルのダウンミックスが生成される（すなわち、一層低いビットレートのために）場合には、入力信号の左サラウンド・チャネルの低周波数成分を入力信号の左前方チャネルの低周波数成分に混合するのに加えて、入力信号の中央チャネルの低周波数成分も入力信号の左前方チャネルの低周波数成分に混合され、入力信号の右サラウンド・チャネルおよび中央チャネルの低周波数成分は、入力信号の右前方チャネルの低周波数成分と混合される。これは典型的には入力チャネルの中央チャネルの低周波数成分のレベルを3dB下げた後で行なわれる（中央チャネルのパワーを左右のチャネルの間で分割することを考慮に入れるため）。

他の代替的な実施形態では、モノフォニック（一チャネル）ダウンミックスが生成される、あるいは二チャネルまたは三チャネル以外の何らかの数（たとえば四つ）のチャネルをもつダウンミックスが生成される。

再び図２を参照するに、段２２から出力されるすべてのチャネルの中間周波数成分（すなわち、五つの全範囲チャネルをもつ入力信号２１に応答して生成される中間周波数成分の五つすべてのチャネル）は、チャネル結合符号化段２６において通常のチャネル結合符号化を受ける。段２６の出力は、中間周波数成分のモノフォニック・ダウンミックス（図２では「モノ・オーディオ」とラベル付けされている）および結合パラメータの対応するシーケンスである。

モノフォニック・ダウンミックスは、波形符号化段２７において（通常の仕方で）波形符号化され、段２７から出力される波形符号化されたダウンミックスおよび段２６から出力される結合パラメータの対応するシーケンスが、エンコードされた出力信号３１に適切なフォーマットで含めるために、フォーマット段３０に呈される。

チャネル結合エンコードの結果として段２６によって生成されたモノフォニック・ダウンミックスはスペクトル符号化段２８にも呈される。このモノフォニック・ダウンミックスは段２８によって、段２２から出力されたすべてのチャネルの高周波数成分のスペクトル拡張符号化のためのベースバンド信号として用いられる。段２８は、段２６からのモノフォニック・ダウンミックスを使って、段２２から出力されたすべてのチャネルの高周波数成分（すなわち、五つの全範囲チャネルをもつ入力信号２１に応答して生成された高周波数成分の五つのチャネルすべて）のスペクトル拡張符号化を実行するよう構成される。スペクトル拡張符号化は、高周波数成分に対応するエンコード・パラメータ（SPXパラメータ）の集合を決定することを含む。

SPXパラメータは、入力信号２１の各チャネルのオーディオ・コンテンツの高周波数成分の良好な近似を再構築するために、（段２６から出力される）ベースバンド信号とともにデコーダ（たとえば図３のデコーダ）によって処理されることができる。SPXパラメータは、エンコードされた出力信号３１に適切なフォーマットで含めるために、符号化段２８からフォーマット段３０に呈される。

次に、図３を参照して、図２のエンコーダによって生成されたエンコードされた出力信号３１をデコードするための本発明の方法およびシステムの実施形態について述べる。

図３のシステムは、本発明のデコード・システムおよび方法の実施形態を実装し、E-AC-3エンコードされたオーディオ・ビットストリーム（たとえば、図２のエンコーダによって生成され、次いで図３のデコーダに送信されたまたは他の仕方で送達されたE-AC-3エンコードされた信号３１）に応答してマルチチャネル・オーディオ出力信号４１を復元するよう構成されているE-AC-3デコーダである。信号４１は、オーディオ・コンテンツの五つの全範囲〔フル・レンジ〕チャネルを含む5.0チャネルの時間領域信号であってもよい。信号３１は、そのような5.0チャネル信号のオーディオ内容を示す。

あるいはまた、信号４１は、五つの全範囲チャネルおよび一つの低域効果（LFE）チャネルを含む5.1チャネルの時間領域オーディオ信号であってもよい。これは、信号３１がそのような5.1チャネル信号のオーディオ内容を示す場合である。図３に示される要素は、そのような信号３１によって示される五つの全範囲チャネルをデコードする（およびデコードされた全範囲チャネルを示すビットを、出力信号４１の生成において使うために段４０に提供する）ことができる。5.1チャネル信号のオーディオ内容を示す信号３１をデコードするためには、図３のシステムは、（通常の仕方で）そのような5.1チャネル信号のLFEチャネルをデコードし、デコードされたLFEチャネルを示すビットを、出力信号４１の生成において使うために段４０に提供するための要素を含むことになる（図３には示していない）。

図３のデコーダのフォーマット解除段３２は、信号３１から、信号２１のもとのチャネルの全部または一部の低周波数成分のダウンミックスの（図２のエンコーダの段２４によって生成された）波形エンコードされた低周波数成分と、（図２のエンコーダの段２７によって生成された）信号２１の中間周波数成分の波形エンコードされたモノフォニック・ダウンミックスと、図２のエンコーダのチャネル結合符号化段２６によって生成された結合パラメータのシーケンスと、図２のエンコーダのスペクトル拡張符号化段２８によって生成されたSPXパラメータのシーケンスとを抽出するよう構成される。

段３２は、波形エンコードされた低周波数成分の抽出された各ダウンミックス・チャネルを、波形デコード段３４に呈するよう結合され、構成されている。段３４は、波形エンコードされた低周波数成分のそのような各ダウンミックス・チャネルに対して波形デコードを実行して、図２のエンコーダのダウンミックス段２３から出力された低周波数成分の各ダウンミックス・チャネルを復元するよう構成されている。典型的には、低周波数成分のこれらの復元されたダウンミックス・チャネルは、無音チャネル（たとえば、図３に示される無音の左サラウンド・チャネルLs＝0および図３に示される無音の右サラウンド・チャネルRs＝0）と、図２のエンコーダの段２３によって生成されるダウンミックスの低周波数成分の無音でない各チャネル（たとえば、図３において示される左前方チャネルL、中央チャネルCおよび右前方チャネルR）とを含む。段３４から出力される各ダウンミックス・チャネルの低周波数成分は、「F1」以下の周波数をもつ。ここで、F1は典型的には約1.2kHzから約4.6kHzの範囲内である。

低周波数成分の復元されたダウンミックス・チャネルは、段３４から、周波数領域組み合わせおよび周波数領域から時間領域への変換段４０に呈される。

段３２によって抽出された中間周波数成分の波形エンコードされたモノフォニック・ダウンミックスに応答して、図３のデコーダの波形デコード段３６は、それに対して波形デコードを実行して、図２のエンコーダのチャネル結合エンコード段２６から出力された中間周波数成分のモノフォニック・ダウンミックスを復元するよう構成されている。段３６によって復元された中間周波数成分のモノフォニック・ダウンミックスおよび段３２によって抽出された結合パラメータのシーケンスに応答して、図３のチャネル結合デコード段３７は、チャネル結合デコードを実行して、信号２１のもとのチャネルの中間周波数成分（図２のエンコーダの段２６の入力に呈されたもの）を復元するよう構成されている。これらの中間周波数成分は、範囲F1＜f≦F2内の周波数をもつ。ここで、F1は典型的には約1.2kHzから約4.6kHzの範囲内であり、F2は典型的には約8kHzから約12.5kHzの範囲内である（たとえば、F2は8kHzまたは10kHzまたは10.2kHzに等しい）。

復元された中間周波数成分は、段３７から、周波数領域組み合わせおよび周波数領域から時間領域への変換段４０に呈される。

波形デコード段３６によって生成された中間周波数成分のモノフォニック・ダウンミックスは、スペクトル拡張デコード段３８にも呈される。中間周波数成分のモノフォニック・ダウンミックスおよび段３２によって抽出されたSPXパラメータのシーケンスに応答して、スペクトル拡張デコード段３８は、スペクトル拡張デコードを実行して、信号２１のもとのチャネルの高周波数成分（図２のエンコーダの段２８の入力に呈されたもの）を復元するよう構成されている。これらの高周波数成分は範囲F2＜f≦F3内の周波数をもつ。ここで、F2は典型的には約8kHzから約12.5kHzの範囲内であり、F3は典型的には約10.2kHzか約18kHzの範囲内（たとえば約14.8kHzから約16kHz）である。

復元された高周波数成分は、段３８から、周波数領域組み合わせおよび周波数領域から時間領域への変換段４０に呈される。

段４０は、もとのマルチチャネル信号２１の左前方チャネルに対応する復元された中間周波数成分、高周波数成分および低周波数成分を組み合わせて（たとえば、加算して）、左前方チャネルの全周波数範囲の周波数領域の復元バージョンを生成するよう構成されている。

同様に、段４０は、もとのマルチチャネル信号２１の右前方チャネルに対応する復元された中間周波数成分、高周波数成分および低周波数成分を組み合わせて（たとえば、加算して）、右前方チャネルの全周波数範囲の周波数領域の復元バージョンを生成し、もとのマルチチャネル信号２１の中央に対応する復元された中間周波数成分、高周波数成分および低周波数成分を組み合わせて（たとえば、加算して）、中央チャネルの全周波数範囲の周波数領域の復元バージョンを生成するよう構成されている。

段４０はまた、もとのマルチチャネル信号２１の左サラウンド・チャネルの復元された低周波数成分（低周波数成分ダウンミックスの左サラウンド・チャネルは無音チャネルなので、これは値0をもつ）をもとのマルチチャネル信号２１の左サラウンド・チャネルに対応する復元された中間周波数成分および高周波数成分と組み合わせて（たとえば、加算して）、（図２のエンコーダの段２３において実行されたダウンミックスのため低周波数内容を欠いているものの）全周波数範囲をもつ、左サラウンド前方チャネルの周波数領域の復元バージョンを生成するよう構成されている。

段４０は、周波数成分のそれぞれの復元された（周波数領域の）全周波数範囲のチャネルに対して周波数領域から時間領域への変換をも実行して、デコードされた出力信号４１の各チャネルを生成するよう構成されている。信号４１は時間領域のマルチチャネル・オーディオ信号であり、そのチャネルはもとのマルチチャネル信号２１のチャネルの復元されたバージョンである。

より一般には、本発明のデコード方法およびシステムの典型的な実施形態は、（本発明のある実施形態に従って生成されたエンコードされたオーディオ信号から）、もとのマルチチャネル入力信号のチャネル（一部または全部のチャネル）のオーディオ・コンテンツの低周波数成分の波形エンコードされたダウンミックスの各チャネルを復元するとともに、もとのマルチチャネル入力信号の各チャネルの内容の、パラメトリックにエンコードされた中間周波数および高周波数成分の各チャネルをも復元する。該デコードを実行するために、ダウンミックスの復元された低周波数成分は波形デコードを受け、次いで、復元された中間周波数および高周波数成分のパラメトリック・デコードされたバージョンと、いくつかの異なる仕方の任意のもので組み合わされることができる。第一のクラスの実施形態では、各ダウンミックス・チャネルの低周波数成分は対応するパラメトリック符号化されたチャネルの中間周波数および高周波数成分と組み合わされる。たとえば、エンコードされた信号が、五チャネル入力信号の低周波数成分の三チャネル・ダウンミックス（左前方、中央および右前方チャネル）を含み、エンコーダが入力信号の左サラウンドおよび右サラウンド・チャネルの低周波数成分の代わりに（低周波数成分ダウンミックスの生成に関連して）値0を出力した場合を考える。デコーダの左出力は、パラメトリック・デコードされた左チャネル信号（中間周波数および高周波数成分を含む）と組み合わされた波形デコードされた左前方ダウンミックス・チャネル（低周波数成分を含む）となる。デコーダから出力される中央チャネルは、パラメトリック・デコードされた中央チャネルと組み合わされた波形デコードされた中央ダウンミックス・チャネルとなる。デコーダの右出力は、パラメトリック・デコードされた右チャネルと組み合わされた波形デコードされた右前方ダウンミックス・チャネルとなる。デコーダの左サラウンド・チャネル出力は、単に左サラウンドのパラメトリック・デコードされた信号となる（すなわち、0でない低周波数の左サラウンド・チャネル内容はない）。同様に、デコーダの右サラウンド・チャネル出力は、単に右サラウンドのパラメトリック・デコードされた信号となる（すなわち、0でない低周波数の右サラウンド・チャネル内容はない）。

いくつかの代替的な実施形態では、本発明のデコード方法は、もとのマルチチャネル入力信号のチャネル（一部または全部のチャネル）のオーディオ内容の低周波数成分の波形エンコードされたダウンミックスの各チャネルの復元と、ダウンミックスの低周波数成分の各ダウンミックス・チャネルの波形デコードされたバージョンに対して盲目的なアップミックス（すなわち、エンコーダから受領される何らかのパラメトリック・データに応答してではなく実行されるという意味で「盲目的」）と、それに続く、アップミックスされた低周波数成分の各チャネルを、エンコードされた信号から復元されたパラメトリック・デコードされた中間周波数および高周波数内容の対応するチャネルと再結合することとの段階を含む（そして、本発明のデコード・システムはそれを実行するよう構成される）。盲目的アップミックス器〔アップミキサー〕は当技術分野においてよく知られており、盲目的アップミックスの例は、2011年11月10日に公開された米国特許出願公開第2011/0274280号において記述されている。本発明では特定の盲目的アップミックス器が必要とされることはなく、種々の盲目的アップミックス方法が本発明の種々の実施形態を実装するために用いられてもよい。たとえば、五チャネル入力信号（左前方、左サラウンド、中央、右サラウンドおよび右前方チャネルを含む）の低周波数成分の三チャネル・ダウンミックス（左前方、中央および右前方チャネル）を含むエンコードされたオーディオ信号を受領し、デコードする実施形態を考える。この実施形態では、デコーダは、三チャネル・ダウンミックスの低周波数成分の各ダウンミックス・チャネル（左前方、中央および右前方）の波形デコードされたバージョンに対して盲目的アップミックスを実行するよう構成されている盲目的アップミックス器（図３の段４０によって周波数領域で実装される）を含む。デコーダはまた、デコーダの盲目的アップミックス器の左前方出力チャネル（低周波数成分を含む）を、デコーダによって受領されたエンコードされたオーディオ信号のパラメトリック・デコードされた左前方チャネル（中間周波数および高周波数成分を含む）と組み合わせ、盲目的アップミックス器の左サラウンド出力チャネル（低周波数成分を含む）を、デコーダによって受領されたオーディオ信号のパラメトリック・デコードされた左サラウンド・チャネル（中間周波数および高周波数成分を含む）と組み合わせ、盲目的アップミックス器の中央出力チャネル（低周波数成分を含む）を、デコーダによって受領されたオーディオ信号のパラメトリック・デコードされた中央チャネル（中間周波数および高周波数成分を含む）と組み合わせ、盲目的アップミックス器の右前方出力チャネル（低周波数成分を含む）を、前記オーディオ信号のパラメトリック・デコードされた右前方チャネル（中間周波数および高周波数成分を含む）と組み合わせ、盲目的アップミックス器の右サラウンド出力チャネルを、デコーダによって受領されたエンコードされたオーディオ信号のパラメトリック・デコードされた右サラウンド・チャネルと組み合わせるよう構成されている（たとえば、図３の段４０がそのような組み合わせを実行するよう構成される）。

本発明のデコーダの典型的な実施形態では、エンコードされたオーディオ信号のデコードされた低周波数内容の、当該信号のパラメトリック・デコードされた中間周波数および高周波数内容との再結合は、周波数領域で（たとえば図３のデコーダの段４０において）実行され、次いで、単一の周波数領域から時間領域への変換が（たとえば図３のデコーダの段４０において）各再結合チャネルに適用されて、完全にデコードされた時間領域信号を生成する。あるいはまた、本発明のデコーダは、そのような再結合を時間領域で実行するよう構成される。それは、波形デコードされた低周波数成分を第一の変換を使って逆変換し、パラメトリック・デコードされた中間周波数および高周波数成分を第二の変換を使って逆変換し、次いでそれらの結果を加算することによる。

本発明のある例示的実施形態では、図２のシステムは、192kbpsから192kbpsより実質的に低いビットレート（たとえば96kbps）までの範囲内の（エンコードされた出力信号の伝送のために）利用可能なビットレートを想定する仕方で、聴衆の喝采を示す5.1チャネル・オーディオ入力信号のE-AC-3エンコードを実行するよう動作可能である。次の例示的なビット・コスト計算は、そのようなシステムが、聴衆の喝采を示し、五つの全範囲チャネルをもつマルチチャネル入力信号をエンコードするよう動作させられること、入力信号の各全範囲チャネルの周波数成分が周波数の関数として少なくとも実質的に同じ分布をもつことを想定する。例示的なビット・コスト計算は、本システムが入力信号をE-AC-3エンコードすることを実行することをも想定する。それは、入力信号の各全範囲チャネルの4.6kHzまでの周波数をもつ周波数成分に対して波形エンコードを実行し、入力信号の各全範囲チャネルの4.6kHzから10.2kHzの周波数成分に対してチャネル結合符号化を実行し、入力信号の各全範囲チャネルの10.2kHzから14.8kHzの周波数成分に対してスペクトル拡張符号化を実行することによることを含む。エンコードされた出力信号に含まれる結合パラメータ（結合サイドチェーン（sidechain）・メタデータ）は、全範囲チャネル当たり約1.5kbpsを消費し、結合チャネルの仮数および指数は約25kbps（すなわち、エンコードされた出力信号の192kbpsのビットレートでの伝送を想定すると、個々の全範囲チャネルの伝送が消費する場合の約1/5の数のビット）を消費すると想定される。チャネル結合を実行することから帰結するビット節約は、（関連する範囲内の周波数成分について）仮数および指数の五つのチャネルではなく、仮数および指数の単一のチャネル（結合チャネル）の伝送のためである。

このように、システムが5.1からステレオにすべてのオーディオ内容をダウンミックスしてから、ダウンミックスのすべての周波数成分を（4.6kHzまでの周波数成分に対して波形エンコードを使い、4.6kHzから10.2kHzの周波数成分に対してチャネル結合符号化を使い、ダウンミックスの各全範囲チャネルの10.2kHzから14.8kHzの周波数成分に対してスペクトル拡張符号化を使って）エンコードするとしたら、結合されたチャネルは、放送品質を達成するためには、これでも約25kbpsを消費する必要があることになる。このように、ダウンミックスから帰結する（チャネル混合を実装するための）ビット節約は、もはや結合パラメータを必要としない三つのチャネルについての結合パラメータの省略に起因するものだけとなる。これは三つのチャネルのそれぞれ毎に約1.5kbpsになり、合計で約4.5kbpsとなる。このように、ステレオ・ダウンミックスに対してチャネル結合を実行するコストは、入力信号のもとの五つの全範囲チャネルに対してチャネル結合を実行するのとほとんど同じである（約4.5kbps少ないだけ）。

例示的な入力信号の五つの全範囲チャネル全てに対してスペクトル拡張符号化を実行することは、エンコードされた出力信号にスペクトル拡張（「SPX」）パラメータ（SPX再度チェーン・メタデータ）を含めることを必要とすることになる。これは、引き続き192kbpsのビットレートでのエンコードされた出力信号の伝送を想定すると、エンコードされた出力信号に、全範囲チャネル当たり約3kbpsのSPXメタデータ（五つすべての全範囲チャネルについて合計約15kbps）を含めることを必要とする。

このように、システムが入力信号の五つの全範囲チャネルを二つのチャネルにダウンミックスして（ステレオ・ダウンミックス）から、該ダウンミックスのすべての周波数成分を（4.6kHzまでの周波数成分に対して波形エンコードを使い、4.6kHzから10.2kHzの周波数成分に対してチャネル結合符号化を使い、ダウンミックスの各全範囲チャネルの10.2kHzから14.8kHzの周波数成分に対してスペクトル拡張符号化を使って）エンコードするとしたら、ダウンミックスから帰結する（スペクトル拡張結合を実装するための）ビット節約は、もはやSPXパラメータを必要としない三つのチャネルについてのSPXパラメータの省略に起因するものだけとなる。これは三つのチャネルのそれぞれ毎に約3kbpsになり、合計で約9kbpsとなる。

この例における結合およびSPX符号化のコストは下記の表１にまとめられる。

表１から、結合およびスペクトル拡張周波数帯域において、エンコードの前に5.1チャネル入力信号入力を3/0ダウンミックス（三つの全範囲チャネル）にするフル・ダウンミックスは9kbpsの節約にしかならず、エンコードの前に5.1チャネル入力信号入力を2/0ダウンミックス（二つの全範囲チャネル）にするフル・ダウンミックスは13.5kbpsの節約にしかならないことが明白である。もちろん、そのようなダウンミックスはダウンミックスの低周波数成分（チャネル符号化の最低周波数より下の周波数をもつ）の波形エンコードのために必要とされるビット数をも減らすが、空間的つぶれの代償を伴う。

本発明者らは、複数チャネル（たとえば、上記の例のようにいつつ、三つまたは二つのチャネル）の結合符号化およびスペクトル拡張符号化を実行するビット・コストがそれほど似通っているなら、マルチチャネル・オーディオ信号のできるだけ多くのチャネルをパラメトリック符号化（たとえば上記の例における結合符号化およびスペクトル拡張符号化）を用いて符号化することが望ましいことを認識するに至った。よって、本発明の典型的な実施形態は、エンコードされるべきマルチチャネル入力信号のチャネル（すなわち一部または全部のチャネル）の（チャネル符号化のための最低周波数より下の）低周波数成分のみをダウンミックスし、ダウンミックスの各チャネルに対して波形エンコードを実行し、入力信号の各もとの信号の、（パラメトリック符号化のための最低周波数より上の）より高い周波数成分に対してパラメトリック符号化（たとえば結合符号化およびスペクトル拡張符号化）をも実行する。これは、エンコードされる出力信号から離散的なチャネル指数および仮数を除去することにより、多数のビットを節約する一方、入力信号のすべてのもとのチャネルの高周波数内容のパラメトリック符号化されたバージョンを含めるおかげで、空間的つぶれを最小にする。

本発明の二つの実施形態から帰結するビット・コストおよび節約の、上記の例を参照して述べた5.1チャネル信号のE-AC-3エンコードを実行する通常の方法に対する比較は次の通りである。

5.1チャネル信号の通常のE-AC-3エンコードの全コストは172.5kbpsである。これは、表１の左の列においてまとめられている（入力信号の4.6kHzより上の高周波数内容のパラメトリック符号化のための）47.5kbpsに、五つのチャネルの指数についての25kbps（入力信号の各チャネルの4.6kHzより下の低周波数内容を波形エンコードすることから帰結する）を加え、五つのチャネルの仮数についての100kbps（入力信号の各チャネルの低周波数内容を波形エンコードすることから帰結する）を加えたものである。

入力信号の五つの全範囲チャネルの低周波数成分（4.6kHz未満）の三チャネル・ダウンミックスが生成され、E-AC-3準拠のエンコードされた出力信号が生成される（ダウンミックスを波数エンコードし、入力信号の各もとの全範囲チャネルの高周波数成分をパラメトリック・エンコードすることによることを含む）本発明のある実施形態に従って5.1チャネル入力信号をエンコードする全コストは、122.5kbpsである。これは、表１の左の列においてまとめられている（入力信号の各チャネルの4.6kHzより上の高周波数内容のパラメトリック符号化のための）47.5kbpsに、三つのチャネルの指数についての15kbps（ダウンミックスの各チャネルの低周波数内容を波形エンコードすることから帰結する）を加え、三つのチャネルの仮数についての60kbps（ダウンミックスの各チャネルの低周波数内容を波形エンコードすることから帰結する）を加えたものである。これは、通常の方法に対する50kbpsの節約を表わす。この節約は、通常にエンコードされた出力信号の伝送のために必要とされる192kbpsではなく、（通常のエンコードされた出力信号と等価な品質で）142kbpsのビットレートで、エンコードされた出力信号の伝送を許容する。

前段落で述べた本発明の方法の実際の実装では、入力信号の高周波数（4.6kHzより上）内容のパラメトリック・エンコードが要求するのは、結合パラメータ・メタデータのための表１に示した7.5kbpsおよびSPXパラメータ・メタデータのための表１に示した15kbpsよりいくらか少ない。これは、無音チャネルにおける値0のデータの最大限のタイムシェアリングのためである。よって、そのような実際の実装は、通常の方法に比べて50kbpsよりいくらか多い節約を提供することになる。

同様に、入力信号の五つの全範囲チャネルの低周波数成分（4.6kHz未満）の二チャネル・ダウンミックスが生成され、E-AC-3準拠のエンコードされた出力信号が次いで生成される（ダウンミックスを波数エンコードし、入力信号の各もとの全範囲チャネルの高周波数成分をパラメトリック・エンコードすることによることを含む）本発明のある実施形態に従って5.1チャネル入力信号をエンコードする全コストは、102.5kbpsである。これは、表１の左の列においてまとめられている（入力信号の各チャネルの4.6kHzより上の高周波数内容のパラメトリック符号化のための）47.5kbpsに、二つのチャネルの指数についての10kbps（ダウンミックスの各チャネルの低周波数内容を波形エンコードすることから帰結する）を加え、二つのチャネルの仮数についての45kbps（ダウンミックスの各チャネルの低周波数内容を波形エンコードすることから帰結する）を加えたものである。これは、通常の方法に対する70kbpsの節約を表わす。この節約は、通常にエンコードされた出力信号の伝送のために必要とされる192kbpsではなく、（通常のエンコードされた出力信号と等価な品質で）122kbpsのビットレートで、エンコードされた出力信号の伝送を許容する。

前段落で述べた本発明の方法の実際の実装では、入力信号の高周波数（4.6kHzより上）内容のパラメトリック・エンコードが要求するのは、結合パラメータ・メタデータのための表１に示した7.5kbpsおよびSPXパラメータ・メタデータのための表１に示した15kbpsよりいくらか少ない。これは、無音チャネルにおける値0のデータの最大限のタイムシェアリングのためである。よって、そのような実際の実装は、通常の方法に比べて70kbpsよりいくらか多い節約を提供することになる。

いくつかの実施形態では、本発明のエンコード方法は、ダウンミックスされ、次いで波形符号化を受ける低周波数成分が、典型的な最小周波数（通常のE-AC-3エンコーダでは3.5kHzまたは4.6kHz）ではなく低下した（典型より低い）最大周波数（たとえば1.2kHz）をもつという意味で「向上された結合」符号化を実装する。入力オーディオ・コンテンツに対して、その周波数より上ではチャネル結合が実行され、下では波形エンコードが実行される。そのような実施形態では、典型より広い周波数範囲（たとえば、1.2kHzから10kHzまたは1.2kHzから10.2kHz）内の入力オーディオの周波数成分がチャネル結合符号化を受ける。また、そのような実施形態では、チャネル・エンコードから帰結するエンコードされたオーディオ・コンテンツとともにエンコードされた出力信号に含められる結合パラメータ（レベル・パラメータ）が、典型的な（より狭い）範囲内の周波数成分のみがチャネル結合符号化を受けるとした場合とは異なる仕方で（当業者には明白であろう仕方で）量子化されてもよい。

向上された結合符号化を実装する本発明の実施形態は、典型的には、チャネル結合符号化のための最小周波数より低い周波数をもつ周波数成分について値0の指数を（エンコードされた出力信号において）送達するので、望ましいことがありうる。（向上された結合符号化を実装することによって）この最小周波数を低下させることは、このように、エンコードされた出力信号に含められる無駄にされる余剰ビット（wasted bits）（0のビット）の全体的な数を減らし、ビットレート・コストのわずかな増大だけで（エンコードされた信号がデコードされてレンダリングされるときに）向上された空間的広がりを提供する。

上記のように、本発明のいくつかの実施形態では、入力信号のチャネルの第一の部分集合（たとえば、図２に示されるようなL、CおよびRチャネル）の低周波数成分が波形エンコードを受けるダウンミックスとして選択され、入力信号のチャネルの第二の部分集合（典型的にはサラウンド・チャネル、たとえば図２に示されるようなLsおよびRsチャネル）の各チャネルの低周波数成分が0に設定される（そしてやはり波形エンコードを受けてもよい）。本発明に従って生成されたエンコードされたオーディオ信号がE-AC-3規格に準拠するいくつかのそのような実施形態では、たとえE-AC-3エンコードされた信号のチャネルの第一の部分集合の低周波数オーディオ内容だけが有用な、波形エンコードされた低周波数オーディオ内容であっても（そしてE-AC-3エンコードされた信号のチャネルの第二の部分集合の低周波数オーディオ内容が無用な、波形エンコードされた「無音」オーディオ・コンテンツであっても）、チャネルの完全な集合（第一および第二の部分集合両方）がE-AC-3信号としてフォーマットされ、送達される必要がある。たとえば、E-AC-3エンコードされた信号に左右のサラウンド・チャネルが存在するが、その低周波数内容は無音であり、それは伝送のためのいくらかのオーバーヘッドを必要とする。（チャネルの上記の第二の部分集合に対応する）「無音」チャネルは、そのようなオーバーヘッドを最小化するために以下のガイドラインに従って構成されてもよい。

過渡信号を示すE-AC-3エンコードされた信号のチャネルには通常、ブロック・スイッチが現われる。これらのブロック・スイッチは、そのようなチャネルの波形エンコードされたコンテンツのMDCTブロックの（E-AC-3エンコーダにおける）より多数のより小さなブロック（これらはその後波形デコードを受ける）への分割につながり、そのようなチャネルの高周波数内容のパラメトリック（チャネル結合およびスペクトル拡張）デコードを無効にする。無音チャネル（「無音」の低周波数内容を含むチャネル）におけるブロック・スイッチの信号伝達はより多くのオーバーヘッドを必要とし、無音チャネルの高周波数内容（最小「チャネル結合デコード」周波数より上の周波数をもつ）のパラメトリック・デコードを防止もする。このように、本発明の典型的な実施形態に従って生成されたE-AC-3エンコードされた信号の各無音チャネルについてのブロック・スイッチは無効にされるべきである。

同様に、通常のAHTおよびTPNP処理（通常のE-AC-3エンコーダの動作において時に実行される）は、本発明の実施形態に従って生成されたE-AC-3エンコードされた信号の無音チャネルのデコードの際には何の恩恵ももたらさない。よって、AHTおよびTPNP処理は好ましくは、そのようなE-AC-3エンコードされた信号の各無音チャネルのデコードの間は無効にされる。

E-AC-3エンコードされた信号のチャネルに通常含まれるdithflagパラメータは、エンコーダによって0のビットを割り当てられた（チャネル内の）仮数をランダム・ノイズを用いて再構成するかどうかをE-AC-3デコーダに示す。ある実施形態に従って生成されたE-AC-3エンコードされた信号の各無音チャネルは真に無音であることが意図されているので、そのような各無音チャネルについてのdithflagは、E-AC-3エンコードされた信号の生成の際に0に設定されるべきである。結果として、（そのような各無音チャネルにおける）0のビットを割り当てられる仮数は、デコードの際にノイズを使って再構成されない。

E-AC-3エンコードされた信号のチャネルに通常含まれる指数戦略パラメータは、E-AC-3デコーダによって、そのチャネルの指数の時間および周波数分解能を制御するために使われる。ある実施形態に従って生成されたE-AC-3エンコードされた信号の各無音チャネルについて、指数のための伝送コストを最小にする指数戦略が選択されることが好ましい。これを達成する指数戦略は「D45」戦略として知られており、エンコードされたフレームの最初のブロックについて四つの周波数ビン当たり一つの指数を含む（そのフレームの残りのブロックは直前のブロックについての指数を再利用する）。

本発明のエンコード方法の、周波数領域で実装されるいくつかの実施形態に伴う一つの問題は、（入力信号チャネルの低周波数成分の）ダウンミックスが、時間領域に変換し戻されるときに飽和することがあり、純粋に周波数領域の解析を使ってこれがいつ起こるかを予測するすべがないということである。この問題は、いくつかのそのような実施形態（たとえば、E-AC-3エンコードを実装するいくつか）において、（周波数領域において実際に生成する前に）時間領域においてダウンミックスをシミュレートしてクリッピングが発生するかどうかを評価することによって、対処される。伝統的なピーク制限器を使ってスケール因子を計算することができ、該スケール因子は次いでダウンミックスにおけるすべての目的チャネルに適用される。ダウンミックスされたチャネルのみが、クリッピング防止スケール因子によって減衰させられる。たとえば、入力信号の左および左サラウンド・チャネルの内容が左ダウンミックス・チャネルにダウンミックスされ、入力信号の右および右サラウンド・チャネルの内容が右ダウンミックス・チャネルにダウンミックスされるダウンミックスでは、中央チャネルは、ダウンミックスにおける源チャネルでも目的チャネルでもないので、スケーリングされない。そのようなダウンミックス・クリッピング保護が適用された後、その効果は、通常のE-AC-3 DRC／ダウンミックス保護を適用することによって補償されることができる。

本発明の他の諸側面は、マルチチャネル・オーディオ入力信号に応答して（たとえば、マルチチャネル・オーディオ入力信号を示すオーディオ・データに応答して）、エンコードされたオーディオ信号を生成する本発明のエンコード方法の任意の実施形態を実行するよう構成されたエンコーダ、そのようなエンコードされた信号をデコードするよう構成されたデコーダおよびそのようなエンコーダおよびそのようなデコーダを含むシステムを含む。図４のシステムは、そのようなシステムの例である。図４のシステムは、本発明のエンコード方法の任意の実施形態を実行して、（マルチチャネル・オーディオ入力信号を示す）オーディオ・データに応答して、エンコードされたオーディオ信号を生成するよう構成された（たとえばプログラムされた）エンコーダ９０と、送達サブシステム９１と、デコーダ９２とを含む。送達サブシステム９１は、エンコーダ９０によって生成されたエンコードされたオーディオ信号を記憶する（たとえば、エンコードされたオーディオ信号を示すデータを記憶する）および／またはエンコードされたオーディオ信号を送信するよう構成されている。デコーダ９２は、サブシステム９１からエンコードされたオーディオ信号（またはエンコードされたオーディオ信号を示すデータ）を（たとえば、そのようなデータをサブシステム９１内の記憶部から読むもしくは取り出すまたはサブシステム９１によって送信されたそのようなエンコードされたオーディオ信号を受け取ることによって）受領し、エンコードされたオーディオ信号（またはそれを示すデータ）をデコードするよう結合され、構成されている（たとえばプログラムされている）。デコーダ９２は典型的には、もとのマルチチャネル入力信号のオーディオ内容を示すデコードされたオーディオ信号を生成し、（たとえばレンダリング・システムに）出力するよう構成されている。

いくつかの実施形態では、本発明は、マルチチャネル・オーディオ入力信号をエンコードすることによって、エンコードされたオーディオ信号を生成するよう構成されたオーディオ・エンコーダである。本エンコーダは：
入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、ダウンミックスの各チャネルを波形符号化して該ダウンミックスのオーディオ内容を示す波形符号化されたダウンミックスされたデータを生成し、入力信号の各チャネルの中間周波数成分および高周波数成分に対してパラメトリック・エンコードを実行してそれにより入力信号の前記各チャネルの中間周波数成分および高周波数成分を示すパラメトリック符号化されたデータを生成するよう構成されたエンコード・サブシステム（たとえば、図２の要素２２、２３、２４、２６、２７、２８）と；
波形符号化されたダウンミックスされたデータおよびパラメトリック符号化されたデータに応答して、前記エンコードされたオーディオ信号が前記波形符号化されたダウンミックスされたデータおよび前記パラメトリック符号化されたデータを示すよう、前記エンコードされたオーディオ信号を生成するよう結合され、構成されたフォーマット・サブシステム（たとえば図２の要素３０）とを含む。

いくつかのそのような実施形態では、エンコード・サブシステムは、入力信号に対して時間領域から周波数領域への変換を（たとえば図２の要素２２において）実行して、入力信号の少なくともいくつかのチャネルの低周波数成分および入力信号の前記各チャネルの中間周波数成分および高周波数成分を含む周波数領域データを生成するよう構成されている。

いくつかの実施形態では、本発明は、波形符号化データおよびパラメトリック符号化データを示すエンコードされたオーディオ信号（たとえば図２または図３の信号３１）をデコードするよう構成されたオーディオ・デコーダである。エンコードされたオーディオ信号は、Nが整数であるとしてN個のチャネルをもつマルチチャネル・オーディオ入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化して、それにより、前記ダウンミックスのオーディオ内容を示すよう波形符号化されたデータを生成し、前記入力信号の各チャネルの中間周波数成分および高周波数成分に対してパラメトリック・エンコードを実行し、それにより前記入力信号の前記各チャネルの前記中間周波数成分および高周波数成分を示すようパラメトリック符号化されたデータを生成し、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータに応答して前記エンコードされたオーディオ信号を生成することによって生成されたものである。これらの実施形態において、本デコーダは：
前記エンコードされたオーディオ信号から、前記波形エンコードされたデータおよび前記パラメトリック・エンコードされたデータを抽出するよう構成された第一のサブシステム（たとえば図３の要素３２）と；
前記第一のサブシステムによって抽出された波形エンコードされたデータに対して波形デコードを実行して、前記ダウンミックスの各チャネルの低周波数オーディオ内容を示す復元された周波数成分の第一の集合を生成し、前記第一のサブシステムによって抽出されたパラメトリック・エンコードされたデータに対してパラメトリック・デコードを実行して、前記マルチチャネル・オーディオ入力信号の各チャネルの、中間周波数および高周波数オーディオ内容を示す復元された周波数成分の第二の集合を生成するよう結合され、構成された第二のサブシステム（たとえば図３の要素３４、３６、３７、３８、４０）とを含む。

いくつかのそのような実施形態では、デコーダの第二のサブシステムは、復元された周波数成分の前記第一の集合および復元された周波数成分の前記第二の集合を（たとえば図３の要素４０において）組み合わせることを含め、Nチャネルのデコードされた周波数領域データを生成し、デコードされた周波数領域データの各チャネルが、前記マルチチャネル・オーディオ入力信号のチャネルのうちの異なるチャネルの中間周波数および高周波数オーディオ内容を示し、デコードされた周波数領域データのチャネルの少なくとも部分集合の各チャネルが前記マルチチャネル・オーディオ入力信号の低周波数オーディオ内容を示すようにする。

いくつかの実施形態では、デコーダの第二のサブシステムは、デコードされた周波数領域データの各チャネルに対して周波数領域から時間領域への変換を（たとえば図３の要素４０において）実行して、Nチャネルの時間領域のデコードされたオーディオ信号を生成するよう構成されている。

本発明のもう一つの側面は、本発明のエンコード方法のある実施形態に基づいて生成されたエンコードされたオーディオ信号をデコードする方法（たとえば、図４のデコーダ９２または図３のデコーダによって実行される方法）である。

本発明は、ハードウェア、ファームウェアまたはソフトウェアまたは両者の組み合わせにおいて（たとえばプログラム可能な論理アレイとして）実装されてもよい。特に断わりのない限り、本発明の一部として含まれるアルゴリズムまたはプロセスは、いかなる特定のコンピュータまたは他の装置にも本来的に関係していない。特に、さまざまな汎用機械が、本願の教示に従って書かれたプログラムとともに使用されてもよく、あるいは必要とされる方法ステップを実行するためにより特化した装置（たとえば集積回路）を構築することがより便利であることがある。このように、本発明は、一つまたは複数のプログラム可能なコンピュータ・システム（たとえば、図２のエンコーダまたは図３のデコーダを実装するコンピュータ・システム）上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。各コンピュータ・システムは、少なくとも一つのプロセッサ、少なくとも一つのデータ記憶システム（揮発性および不揮発性メモリおよび／または記憶要素を含む）、少なくとも一つの入力装置またはポートおよび少なくとも一つの出力装置またはポートを有する。本稿に記載される機能を実行し、出力情報を生成するようプログラム・コードが入力データに適用される。出力情報は、既知の仕方で一つまたは複数の出力装置に適用される。

そのような各プログラムは、コンピュータ・システムと通信するためにいかなる所望されるコンピュータ言語（機械、アセンブリーまたは高水準手続き型、論理的またはオブジェクト指向のプログラミング言語を含む）において実装されてもよい。いずれの場合にも、言語はコンパイルされる言語でもインタープリットされる言語でもよい。

たとえば、コンピュータ・ソフトウェア命令のシーケンスによって実装されるとき、本発明の実施形態のさまざまな機能および段階は、好適なデジタル信号処理ハードウェアにおいて実行されるマルチスレッド式のソフトウェア命令シーケンスによって実装されてもよく、その場合、実施形態のさまざまな装置、段階および機能は、ソフトウェア命令の諸部分に対応してもよい。

そのような各コンピュータ・プログラムは好ましくは、汎用または専用のプログラム可能なコンピュータによって読み取り可能な記憶媒体またはデバイス（たとえば半導体メモリまたはメディアまたは磁気式もしくは光学式メディア）に記憶されるまたはダウンロードされ、記憶媒体またはデバイスがコンピュータ・システムによって読まれたときに、本稿に記載される手順を実行するようコンピュータを構成するまたは動作させる。本発明のシステムは、コンピュータ・プログラムをもって構成された（すなわちコンピュータ・プログラムを記憶している）コンピュータ可読記憶媒体として実装されてもよく、そのように構成された記憶媒体はコンピュータ・システムに、本稿に記載される機能を実行するよう特定のあらかじめ定義された仕方で動作させる。

本発明のいくつかの実施形態を記述してきたが、本発明の精神および範囲から外れることなくさまざまな修正がなしうることは理解されるであろう。上記の教示に照らして、本発明の数多くの修正および変形が可能である。付属の請求項の範囲内で、本発明が、本稿で具体的に記載される以外の仕方で実施されてもよいことは理解される。

Claims

低周波数成分およびより高い周波数成分をもつマルチチャネル・オーディオ入力信号をエンコードする方法であって：
（ａ）前記入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成する段階と；
（ｂ）前記ダウンミックスの各チャネルを波形符号化して、それにより、前記ダウンミックスのオーディオ内容を示す、波形符号化された、ダウンミックスされたデータを生成する段階と；
（ｃ）前記入力信号の各チャネルの前記より高い周波数成分のうちの少なくともいくつかに対してパラメトリック符号化を実行し、それにより前記入力信号の前記各チャネルの前記より高い周波数成分のうちの前記少なくともいくつかを示すパラメトリック符号化されたデータを生成する段階と；
（ｄ）前記波形符号化された、ダウンミックスされたデータおよび前記パラメトリック符号化されたデータを示すエンコードされたオーディオ信号を生成する段階とを含む、
方法。
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、請求項１記載の方法。
前記より高い周波数成分が中間周波数成分および高周波数成分を含み、段階（ｃ）が：
前記中間周波数成分のチャネル結合符号化を実行する段階と；
前記高周波数成分のスペクトル拡張符号化を実行する段階とを含む、
請求項１記載の方法。
前記低周波数成分が、約1.2kHzから約4.6kHzの範囲内の最大値F1より大きくない周波数をもち、前記中間周波数成分が範囲F1＜f≦F2内の周波数fをもち、F2は約8kHzから約12.5kHzの範囲内であり、前記高周波数成分が範囲F2＜f≦F3内の周波数fをもち、F3は約10.2kHzから約18kHzの範囲内である、請求項３記載の方法。
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、請求項４記載の方法。
前記入力信号がN個の全範囲オーディオ・チャネルを含み、前記ダウンミックスはN個より少ない非無音チャネルをもち、段階（ａ）は、前記入力信号の前記全範囲オーディオ・チャネルのうちの少なくとも一つのチャネルの低周波数成分を値0で置き換える、請求項１記載の方法。
前記入力信号が五つの全範囲オーディオ・チャネルを含み、前記ダウンミックスは三つの非無音チャネルをもち、段階（ａ）は、前記入力信号の前記全範囲オーディオ・チャネルのうちの二つのチャネルの低周波数成分を値0で置き換える、請求項１記載の方法。
前記エンコードが、前記エンコードされたオーディオ信号が前記入力信号より少数のビットを有するように前記入力信号を圧縮する、請求項１記載の方法。
低周波数成分およびより高い周波数成分をもつマルチチャネル・オーディオ入力信号をエンコードすることによって、エンコードされたオーディオ信号を生成するよう構成されたオーディオ・エンコーダであって：
前記入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化してそれにより前記ダウンミックスのオーディオ内容を示す波形符号化されたダウンミックスされたデータを生成し、前記入力信号の各チャネルの前記より高い周波数成分の少なくともいくつかに対してパラメトリック符号化を実行してそれにより前記入力信号の前記各チャネルの前記より高い周波数成分の前記少なくともいくつかを示すパラメトリック符号化されたデータを生成するよう構成されたエンコード・サブシステムと；
前記波形符号化されたダウンミックスされたデータおよび前記パラメトリック符号化されたデータに応答して、前記エンコードされたオーディオ信号が前記波形符号化されたダウンミックスされたデータおよび前記パラメトリック符号化されたデータを示すよう、前記エンコードされたオーディオ信号を生成するよう結合され、構成されたフォーマット・サブシステムとを含む、
エンコーダ。
前記エンコード・サブシステムは、前記入力信号に対して時間領域から周波数領域への変換を実行して、前記入力信号の少なくともいくつかのチャネルの低周波数成分および前記入力信号の前記各チャネルの前記より高い周波数成分を含む周波数領域データを生成するよう構成されている、請求項９記載のエンコーダ。
前記より高い周波数成分が中間周波数成分および高周波数成分を含み、前記エンコード・サブシステムが、前記中間周波数成分のチャネル結合符号化および前記高周波数成分のスペクトル拡張符号化を実行することによって前記パラメトリック符号化されたデータを生成するよう構成されている、請求項９記載のエンコーダ。
前記低周波数成分が、約1.2kHzから約4.6kHzの範囲内の最大値F1より大きくない周波数をもち、前記中間周波数成分が範囲F1＜f≦F2内の周波数fをもち、F2は約8kHzから約12.5kHzの範囲内であり、前記高周波数成分が範囲F2＜f≦F3内の周波数fをもち、F3は約10.2kHzから約18kHzの範囲内である、請求項１１記載のエンコーダ。
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、請求項１２記載のエンコーダ。
前記入力信号が少なくとも二つの全範囲オーディオ・チャネルを含み、エンコード・サブシステムは、前記入力信号の前記全範囲オーディオ・チャネルのうちの少なくとも一つのチャネルの低周波数成分を値0で置き換えることによって前記ダウンミックスを生成するよう構成されている、請求項９記載のエンコーダ。
当該エンコーダが、前記エンコードされたオーディオ信号が前記入力信号より少数のビットを有するように前記エンコードされた入力信号を生成するよう構成されている、請求項９記載のエンコーダ。
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、請求項９記載のエンコーダ。
当該エンコーダがデジタル信号プロセッサである、請求項９記載のエンコーダ。
波形符号化されたデータおよびパラメトリック符号化されたデータを示すエンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は、マルチチャネル・オーディオ入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化して、それにより、前記波形符号化されたデータが前記ダウンミックスのオーディオ内容を示すよう前記波形符号化されたデータを生成し、前記入力信号の各チャネルの少なくともいくつかのより高い周波数成分に対してパラメトリック符号化を実行し、前記パラメトリック符号化されたデータが前記入力信号の前記各チャネルの前記少なくともいくつかのより高い周波数成分を示すよう前記パラメトリック符号化されたデータを生成し、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータに応答して前記エンコードされたオーディオ信号を生成することによって生成されたものであり、当該方法は：
（ａ）前記エンコードされたオーディオ信号から、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータを抽出する段階と；
（ｂ）段階（ａ）において抽出された前記波形符号化されたデータに対して波形デコードを実行して、前記ダウンミックスの各チャネルの低周波数オーディオ内容を示す復元された周波数成分の第一の集合を生成する段階と；
（ｃ）段階（ａ）において抽出された前記パラメトリック符号化されたデータに対してパラメトリック・デコードを実行して、前記マルチチャネル・オーディオ入力信号の各チャネルの、少なくともいくつかのより高い周波数のオーディオ内容を示す復元された周波数成分の第二の集合を生成する段階とを含む、
方法。
前記マルチチャネル・オーディオ入力信号がN個のチャネルをもち、Nは整数であり、当該方法はさらに：
（ｄ）復元された周波数成分の前記第一の集合および復元された周波数成分の前記第二の集合を組み合わせることによることを含め、Nチャネルのデコードされた周波数領域データを生成し、前記デコードされた周波数領域データの各チャネルが、前記マルチチャネル・オーディオ入力信号のチャネルのうちの異なるチャネルの中間周波数および高周波数オーディオ内容を示し、前記デコードされた周波数領域データのチャネルの少なくとも部分集合の各チャネルが前記マルチチャネル・オーディオ入力信号の低周波数オーディオ内容を示すようにする、段階を含む、
請求項１８記載の方法。
デコードされた周波数領域データの各チャネルに対して周波数領域から時間領域への変換を実行して、Nチャネルの時間領域のデコードされたオーディオ信号を生成する段階をさらに含む、請求項１９記載の方法。
段階（ｄ）が：
復元された周波数成分の前記第一の集合に対して盲目的なアップミックスを実行してアップミックスされた周波数成分を生成する段階と；
前記アップミックスされた周波数成分と復元された周波数成分の前記第二の集合とを組み合わせて前記Nチャネルのデコードされた周波数領域データを生成する段階とを含む、
請求項１９記載の方法。
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、請求項１８記載の方法。
段階（ｃ）が：
段階（ａ）において抽出された前記パラメトリック符号化されたデータの少なくとも一部に対してチャネル結合デコードを実行する段階と；
段階（ａ）において抽出された前記パラメトリック符号化されたデータの少なくとも一部に対してスペクトル拡張デコードを実行する段階とを含む、
請求項１８記載の方法。
復元された周波数成分の前記第一の集合が、約1.2kHzから約4.6kHzの範囲内の最大値F1以下の周波数をもつ、請求項１８記載の方法。
波形符号化されたデータおよびパラメトリック符号化されたデータを示すエンコードされたオーディオ信号をデコードするよう構成されたオーディオ・デコーダであって、前記エンコードされたオーディオ信号は、Nが整数であるとしてN個のチャネルをもつマルチチャネル・オーディオ入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化して、それにより、前記波形符号化されたデータが前記ダウンミックスのオーディオ内容を示すよう前記波形符号化されたデータを生成し、前記入力信号の各チャネルの少なくともいくつかのより高い周波数成分に対してパラメトリック符号化を実行し、それにより前記パラメトリック符号化されたデータが前記入力信号の前記各チャネルの前記少なくともいくつかのより高い周波数成分を示すよう前記パラメトリック符号化されたデータを生成し、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータに応答して前記エンコードされたオーディオ信号を生成することによって生成されたものであり、当該デコーダは：
前記エンコードされたオーディオ信号から、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータを抽出するよう構成された第一のサブシステムと；
前記第一のサブシステムによって抽出された前記波形符号化されたデータに対して波形デコードを実行して、前記ダウンミックスの各チャネルの低周波数オーディオ内容を示す復元された周波数成分の第一の集合を生成し、前記第一のサブシステムによって抽出された前記パラメトリック符号化されたデータに対してパラメトリック・デコードを実行して、前記マルチチャネル・オーディオ入力信号の各チャネルの、少なくともいくつかのより高い周波数のオーディオ内容を示す復元された周波数成分の第二の集合を生成するよう結合され、構成された第二のサブシステムとを含む、
デコーダ。
前記第二のサブシステムはさらに、復元された周波数成分の前記第一の集合および復元された周波数成分の前記第二の集合を組み合わせることによることを含め、Nチャネルのデコードされた周波数領域データを生成し、前記デコードされた周波数領域データの各チャネルが、前記マルチチャネル・オーディオ入力信号のチャネルのうちの異なるチャネルの中間周波数および高周波数オーディオ内容を示し、前記デコードされた周波数領域データのチャネルの少なくとも部分集合の各チャネルが前記マルチチャネル・オーディオ入力信号の低周波数オーディオ内容を示すようにするよう構成されている、請求項２５記載のデコーダ。
前記第二のサブシステムが、デコードされた周波数領域データの各チャネルに対して周波数領域から時間領域への変換を実行して、Nチャネルの時間領域のデコードされたオーディオ信号を生成するよう構成されている、請求項２６記載のデコーダ。
前記第二のサブシステムが、復元された周波数成分の前記第一の集合に対して盲目的なアップミックスを実行してアップミックスされた周波数成分を生成し、前記アップミックスされた周波数成分と復元された周波数成分の前記第二の集合とを組み合わせて前記Nチャネルのデコードされた周波数領域データを生成するよう構成されている、請求項２６記載のデコーダ。
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、請求項２５記載のデコーダ。
前記第二のサブシステムが、前記第一のサブシステムによって抽出された前記パラメトリック符号化されたデータの少なくとも一部に対してチャネル結合デコードを実行し、前記第一のサブシステムによって抽出された前記パラメトリック符号化されたデータの少なくとも一部に対してスペクトル拡張デコードを実行するよう構成されている、請求項２５記載のデコーダ。
復元された周波数成分の前記第一の集合が、約1.2kHzから約4.6kHzの範囲内の最大値F1以下の周波数をもつ、請求項２５記載のデコーダ。
前記デコーダがデジタル信号プロセッサである、請求項２５記載のデコーダ。