JP6133408B2

JP6133408B2 - 複数サブストリームをもつマルチチャネル・オーディオ信号の効率的なエンコードおよびデコード

Info

Publication number: JP6133408B2
Application number: JP2015511810A
Authority: JP
Inventors: ミュント，ハーラルト; リードミラー，ジェフリー; イーローエデン，カール; ワード，マイケル; ウイリアムズ，フィリップ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2012-05-15
Filing date: 2013-05-14
Publication date: 2017-05-24
Anticipated expiration: 2033-05-14
Also published as: CN104285253A; EP2850613A1; ES2641390T3; US9779738B2; HK1201371A1; WO2013173314A1; AR091042A1; EP2850613B1; CN104285253B; TWI505262B; JP2015520872A; TW201405548A; US20150131800A1

Description

関連出願への相互参照
本願は2012年5月15日に出願された米国仮特許出願第61/647,226号の優先権の利益を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。

発明の技術分野
本稿はオーディオ・エンコード／デコードに関する。詳細には、本稿はエンコードされたマルチチャネル・オーディオ信号の品質を改善するための方法およびシステムに関する。

5.1、7.1または9.1マルチチャネル・オーディオ・レンダリング・システムのようなさまざまなマルチチャネル・オーディオ・レンダリング・システムが現在使われている。マルチチャネル・オーディオ・レンダリング・システムは、5＋1、7＋1または9＋1スピーカー位置から発するサラウンドサウンドの生成を許容する。対応するマルチチャネル・オーディオ信号の効率的な伝送または効率的な記憶のために、ドルビー・デジタルまたはドルビー・デジタル・プラスのようなマルチチャネル・オーディオ・コーデック（エンコーダ／デコーダ）システムが使われている。これらマルチチャネル・オーディオ・コーデック・システムは典型的には、MがNより大きいとして、N.1マルチチャネル・オーディオ・デコーダ（たとえばN＝5）がM.1マルチチャネル・オーディオ信号（たとえばM＝7）の少なくとも一部をデコードおよびレンダリングできるようにするために、下方互換となっている。より具体的には、マルチチャネル・オーディオ・コーデック・システムによって生成されるビットストリームは典型的には、N.1マルチチャネル・オーディオ・デコーダ（たとえばN＝5）がM.1マルチチャネル・オーディオ信号（たとえばM＝7）の少なくとも一部をデコードおよびレンダリングできるようにするために、下方互換となっている。例として、7.1マルチチャネル・オーディオ信号のエンコードされたビットストリームは、5.1マルチチャネル・オーディオ・デコーダによってデコード可能であるべきである。そのような下方互換性を実装する一つの可能な方法は、M.1マルチチャネル・オーディオ信号を複数のサブストリーム（たとえば、独立サブストリーム（以下「IS」と称する）および一つまたは複数の従属サブストリーム（以下「DS」と称する））にエンコードすることである。ISは基本的なエンコードされたN.1マルチチャネル・オーディオ信号（たとえばエンコードされた5.1オーディオ信号）を含んでいてもよく、前記一つまたは複数のDSは完全なM.1マルチチャネル・オーディオ信号をレンダリングするための置換および／または拡張チャネル（下記でより詳細に概説する）を含んでいてもよい。さらに、ビットストリームは、それぞれが一つまたは複数の関連付けられたDSをもつ複数のIS（すなわち、複数の独立サブストリーム）を有していてもよい。複数のISおよび関連付けられたDSはたとえば、それぞれ複数の異なる放送番組または複数の関連付けられたオーディオ・トラック（たとえば異なる言語のためのものまたは監督コメントのためのものなど）を担持するために使われてもよい。

Fielder, L.D. et al.、"Introduction to Dolby Digital Plus, and Enhancement to the Dolby Digital Coding System"、AEC Convention, 28-31 October 2004

本稿は、マルチチャネル・オーディオ信号の複数のサブストリーム（たとえば、一つのISおよび一つまたは複数の関連付けられたDSまたは複数のISおよびそれぞれの一つまたは複数の関連付けられたDS）の効率的なエンコードの側面を扱う。

ある側面によれば、全利用可能データレートに従ってマルチチャネル・オーディオ信号をエンコードするよう構成されたオーディオ・エンコーダが記述される。マルチチャネル・オーディオ信号はたとえば、9.1、7.1または5.1マルチチャネル・オーディオ信号であってもよい。オーディオ・エンコーダは、マルチチャネル・オーディオ信号のフレームのシーケンスをエンコードし、それによりエンコードされたフレームの対応するシーケンスを与えるよう構成された、フレーム・ベースのオーディオ・エンコーダであってもよい。特に、エンコーダは、ドルビー・デジタル・プラス規格に従ってエンコードを実行するよう構成されていてもよい。

マルチチャネル・オーディオ信号は、基本チャネル構成に従ってマルチチャネル・オーディオ信号をレンダリングするための基本チャネル群および拡張チャネル群として表現可能である。拡張チャネル群は――基本群と組み合わせて――拡張チャネル構成に従ってマルチチャネル・オーディオ信号をレンダリングするためである。典型的には、基本チャネル構成および拡張チャネル構成は互いに異なる。特に、拡張チャネル構成は典型的には、基本チャネル構成より多数のチャネルを有する。例として、基本チャネル構成および基本チャネル群はN個のチャネルを有していてもよい。拡張チャネル構成はM個のチャネルを有していてもよく、MはNより大きい。そのような場合、拡張チャネル群は、基本チャネル構成を拡張チャネル構成に拡張するための一つまたは複数の拡張チャネルを有していてもよい。さらに、拡張チャネル群は、拡張チャネル構成においてレンダリングされるときに基本チャネル群の一つまたは複数のチャネルを置き換える一つまたは複数の置換チャネルを有していてもよい。

ある実施形態では、マルチチャネル・オーディオ信号は、中央、左前方、右前方、左サラウンド、右サラウンド、左サラウンド後方、右サラウンド後方チャネルおよび低域効果チャネルを含む7.1オーディオ信号である。そのような場合、基本チャネル群は中央、左前方および右前方チャネルならびに下方混合〔ダウンミックス〕された左サラウンド・チャネルおよび下方混合された右サラウンド・チャネルを含んでいてもよく、それにより5.1チャネル構成（基本構成）におけるマルチチャネル・オーディオ信号のレンダリングを可能にする。下方混合された左サラウンド・チャネルおよび下方混合された右サラウンド・チャネルは、左サラウンド、右サラウンド、左サラウンド後方および右サラウンド後方チャネルから（たとえば、左サラウンド、右サラウンド、左サラウンド後方および右サラウンド後方チャネルの一部または全部の和として）導出されてもよい。拡張チャネル群は、左サラウンド、右サラウンド、左後方および右後方チャネルを含んでいてもよく、それにより7.1チャネル構成（拡張チャネル構成）における基本チャネルおよび拡張チャネルのレンダリングを可能にする。上述した7.1チャネル構成は単に可能な7.1チャネル構成の一例であることを注意しておくべきである。例として、左サラウンドおよび右サラウンド・チャネルは、左および右サイド・チャネル（聴取者の頭の正面中央線に対して±90度のところに位置される）とラベル付けされてもよい。同様に、後方チャネルは左および右後方サラウンド・チャネルと称されてもよい。

オーディオ・エンコーダは、IS（独立サブストリーム）データレートに従って基本チャネル群をエンコードし、それにより独立サブストリームを与えるよう構成された基本エンコーダを有する。独立サブストリームは、基本チャネル群を表わすエンコードされたデータを含むISフレームのシーケンスを含んでいてもよい。さらに、オーディオ・エンコーダは、DS（従属サブストリーム）データレートに従って拡張チャネル群をエンコードし、それにより従属サブストリームを与えるよう構成された拡張エンコーダを有する。従属サブストリームは、拡張チャネル群を表わすエンコードされたデータを含むDSフレームのシーケンスを含んでいてもよい。ある実施形態では、基本エンコーダおよび／または拡張エンコーダはドルビー・デジタル・プラス・エンコードを実行するよう構成される。

さらに、オーディオ・エンコーダは、基本チャネル群についての瞬時IS符号化品質指標および／または拡張チャネル群についての瞬時DS符号化品質指標に基づいてISデータレートおよびDSデータレートを定期的に適応させるよう構成されたレート制御ユニットを有する。ISデータレートおよびDSデータレートは、ISデータレートとDSデータレートの和が実質的に全利用可能データレートに対応する（たとえば等しくなる）よう適応されてもよい。特に、レート制御ユニットは、瞬時IS符号化品質指標と瞬時DS符号化品質指標の差が低下するようISデータレートおよびDSデータレートを決定するよう構成されていてもよい。これは、利用可能な全ビットレートの制約条件のもとで、基本チャネル群と拡張チャネル群の組み合わせについての改善されたオーディオ品質につながりうる。

瞬時IS符号化品質指標および／または瞬時DS符号化品質指標は、特定の時点におけるマルチチャネル・オーディオ信号の符号化複雑さを示しうる。例として、マルチチャネル・オーディオ信号はオーディオ・フレームのシーケンスとして表現されてもよい。そのような場合、瞬時IS符号化品質指標および／または瞬時DS符号化品質指標は、マルチチャネル・オーディオ信号の一つまたは複数のオーディオ・フレームをエンコードするための複雑さを示してもよい。よって、瞬時IS符号化品質指標および／または瞬時DS符号化品質指標はフレームによって変わりうる。よって、レート制御ユニットは、（変化する瞬時IS符号化品質指標および／または瞬時DS符号化品質指標に依存して）フレームによってISデータレートおよびDSデータレートを適応させるよう構成されていてもよい。換言すれば、レート制御ユニットは、マルチチャネル・オーディオ信号のフレームのシーケンスの各フレームについてISデータレートおよびDSデータレートを適応させるよう構成されていてもよい。

瞬時IS符号化品質指標および／または瞬時DS符号化品質指標は、それぞれ基本エンコーダおよび／または拡張エンコーダのエンコード・パラメータを含んでいてもよい。例として、ドルビー・デジタル・プラス・エンコードの場合、瞬時IS符号化品質指標および／または瞬時DS符号化品質指標は、それぞれ基本エンコーダおよび／または拡張エンコーダの瞬時SNRオフセットを含んでいてもよい。代替的または追加的に、IS符号化品質指標は：基本群の現在の（第一の）フレームの知覚的エントロピー；基本群の第一のフレームのトーン性；基本群の第一のフレームの過渡特性；基本群の第一のフレームのスペクトル帯域幅；基本群の第一のフレームにおける過渡成分の存在；基本群のチャネル間の相関の度合い；および基本群の第一のフレームのエネルギーのうちの一つまたは複数を含んでいてもよい。同様に、DS符号化品質指標は：拡張群の第一のフレームの知覚的エントロピー；拡張群の第一のフレームのトーン性；拡張群の第一のフレームの過渡特性；拡張群の第一のフレームのスペクトル帯域幅；拡張群の第一のフレームにおける過渡成分の存在；拡張群のチャネル間の相関の度合い；および拡張群の第一のフレームのエネルギーのうちの一つまたは複数を含んでいてもよい。

フレーム・ベースのステレオ・エンコーダの場合、基本エンコーダは、マルチチャネル信号のフレームのシーケンスについてISフレームのシーケンスを決定するよう構成されていてもよい。同様に、拡張エンコーダは、マルチチャネル信号のフレームのシーケンスについてDSフレームのシーケンスを決定するよう構成されていてもよい。そのような場合、IS符号化品質指標は、ISフレームの対応するシーケンスについてのIS符号化品質指標のシーケンスを含んでいてもよい。同様に、DS符号化品質指標は、DSフレームの対応するシーケンスについてのDS符号化品質指標のシーケンスを含んでいてもよい。その際、レート制御ユニットは、ISフレームのシーケンスのISフレームのためのISデータレートおよびDSフレームのシーケンスのDSフレームのためのDSデータレートを、IS符号化品質指標のシーケンスの少なくとも一つおよび／またはDS符号化品質指標のシーケンスの少なくとも一つに基づいて、決定してもよい。ISフレームについてのISデータレートおよび対応するDSフレームについてのDSデータレートは、ISフレームについてのISデータレートと対応するDSフレームについてのDSデータレートとの和が実質的に、マルチチャネル・オーディオ信号のオーディオ・フレームについての全利用可能データレートとなるよう適応されてもよい。

エンコーダは、基本チャネル群の第一のフレームに基づいてIS符号化品質指標を決定するおよび／または拡張チャネル群の対応する第一のフレームに基づいてDS符号化品質指標を決定するよう構成された符号化困難さ決定ユニットを有していてもよい。第一のフレームは、ISデータレートおよびDSデータレートが決定されるべきフレームであってもよい。よって、符号化困難さ決定ユニットは、基本チャネル群および／または拡張チャネル群のエンコードされるべきフレームを解析して、エンコードされるべきフレームのためのISデータレートおよびDSデータレートを適応させるためにレート制御ユニットによって使用されうるIS/DS符号化品質指標を決定するよう構成されていてもよい。

基本エンコーダは、基本群の第一のフレームから変換係数の基本ブロックを決定するよう構成された変換ユニットを有していてもよい。同様に、拡張エンコーダは、拡張群の対応する第一のフレームから変換係数の拡張ブロックを決定するよう構成された変換ユニットを有していてもよい。それらの変換ユニットは、時間から周波数への変換、たとえば修正離散コサイン変換（MDCT）を適用するよう構成されていてもよい。第一のフレームは、（たとえば重なりをもつ）複数のブロックに細分されてもよく、変換ユニットは、それぞれの第一のフレームから導出されるサンプルのブロックを変換するよう構成されていてもよい。

さらに、基本エンコーダは、変換係数の基本ブロックから指数の基本ブロックおよび仮数の基本ブロックを決定するよう構成された浮動小数点エンコード・ユニットを有していてもよい。同様に、拡張エンコーダは、変換係数の拡張ブロックから指数の拡張ブロックおよび仮数の拡張ブロックを決定するよう構成された浮動小数点エンコード・ユニットを有していてもよい。レート制御ユニットは、全利用可能データレートに基づいて、仮数の基本ブロックおよび仮数の拡張ブロックをエンコードするための利用可能な仮数ビットの総数を決定するよう構成されていてもよい。この目的のために、レート制御ユニットは、全利用可能データレートから導出される利用可能なビットの総数を考えて、該利用可能なビットの総数から、指数のエンコードおよび／または仮数に関係しない他のエンコード・パラメータのエンコードのために使用されるビット数を減算してもよい。残りのビットは、利用可能な仮数ビットの総数となりうる。さらに、レート制御ユニットは、利用可能な仮数ビットの該総数を、瞬時IS符号化品質指標および瞬時DS符号化品質指標に基づいて仮数の基本ブロックおよび仮数の拡張ブロックに分配し、それによりISデータレートおよびDSデータレートを適応させるよう構成されていてもよい。

特に、レート制御ユニットは、変換係数の基本ブロックについての基本パワースペクトル密度（PSD: power spectral density）分布を決定するよう構成されていてもよい。同様に、レート制御ユニットは、変換係数の拡張ブロックについての拡張PSD分布を決定してもよい。さらに、レート制御ユニットは、変換係数の基本ブロックについての基本マスキング曲線および変換係数の拡張ブロックについての拡張マスキング曲線を決定してもよい。レート制御ユニットは、基本PSD分布、拡張PSD分布、基本マスキング曲線および拡張マスキング曲線を、利用可能な仮数ビットの総数を仮数の基本ブロックおよび仮数の拡張ブロックに分配するために使ってもよい。

より具体的には、レート制御ユニットは、ISオフセット（「IS SNRオフセット」とも称される）を使って基本マスキング曲線をオフセットすることによってオフセット基本マスキング曲線を決定するよう構成されていてもよい。同様に、レート制御ユニットは、DSオフセット（「DS SNRオフセット」とも称される）を使って拡張マスキング曲線をオフセットすることによってオフセット拡張マスキング曲線を決定するよう構成されていてもよい。さらに、レート制御ユニットは、基本PSD分布とオフセット基本マスキング曲線を比較し、比較の結果に基づいて仮数ビットの基本数を仮数の基本ブロックに割り当てるよう構成されていてもよい。さらに、レート制御ユニットは、拡張PSD分布とオフセット拡張マスキング曲線を比較し、比較の結果に基づいて仮数ビットの拡張数を仮数の拡張ブロックに割り当てるよう構成されていてもよい。

割り当てられた仮数ビットの総数は、仮数ビットの基本数と仮数ビットの拡張数との和として決定されてもよい。その際、レート制御ユニットは、割り当てられた仮数ビットの総数と利用可能な仮数ビットの総数との差があらかじめ決定されたビット閾値未満であるよう、ISオフセットおよびDSオフセットを調整するよう構成されていてもよい。この目的のために、レート制御ユニットは、上述した条件を満たすISオフセットおよびDSオフセットを決定するために、逐次反復式探索方式を利用してもよい。具体的には、レート制御ユニットは、ISオフセットとDSオフセットがマルチチャネル・オーディオ信号のフレームのシーケンスについて等しいよう、ISオフセットおよびDSオフセットを調整し、それによりマルチチャネル・オーディオ信号のフレームのシーケンスの各フレームについてのISデータレートおよびDSデータレートを適応させるよう構成されていてもよい。すでに示したように、瞬時IS符号化品質指標はISオフセットを含んでいてもよく、瞬時DS符号化品質指標はDSオフセットを含んでいてもよい。

このように、オーディオ・エンコーダは、基本チャネル群および拡張チャネル群について統合ビット割り当てプロセスを実行するよう構成されていてもよい。換言すれば、基本エンコーダおよび拡張エンコーダは、組み合わされたビット割り当てプロセスを利用し、それにより定期的に（たとえばフレーム毎に）ISデータレートおよびDSデータレートを適応させてもよい。

レート制御ユニットは、マルチチャネル・オーディオ信号の第一のフレームについてISオフセットおよびDSオフセットを決定するよう構成されていてもよい。例として、ISオフセットおよびDSオフセットは、それぞれ基本エンコーダおよび拡張エンコーダの出力において、それぞれISフレームおよびDSフレームから抽出されてもよい。さらに、レート制御ユニットは、マルチチャネル・オーディオ信号の第二のフレームをエンコードするためのISデータレートおよびDSデータレートを、第一のフレームについてのISオフセットおよびDSオフセットに基づいて適応させるよう構成されていてもよい。典型的には、第一のフレームが第二のフレームに先行する。特に、第一のフレームと第二のフレームの間にいかなる中間フレームもなく、第二のフレームは第一のフレームの直後であってもよい。換言すれば、先行する、可能性としては直前の第一のフレームについて使用されたISオフセットおよびDSオフセットが、現在の第二のフレームをエンコードするためのISデータレートおよびDSデータレートを決定するために使用されてもよい。さらに換言すれば、現在の第二のフレームをエンコードするためのISデータレートおよびDSデータレートを調整するために、先行する第一のフレームの符号化品質の指示を使うことが提案される。

具体的には、レート制御ユニットは、ISオフセットとDSオフセットとの間の差が低下する（たとえば、複数のオーディオ・フレームを通じた平均において低下する）ようマルチチャネル・オーディオ信号の第二のフレームをエンコードするためのISデータレートおよびDSデータレートを調整するよう構成されていてもよい。この目的のために、ISオフセットとDSオフセットとの間の差を統制するよう適応されている統制（regulation）ループが使用されてもよい。例として、レート制御ユニットは、第一のフレームについてのISオフセットとDSオフセットとの間の差を決定するよう構成されていてもよい。さらに、レート制御ユニットは、第二のフレームについてのISデータレートを、第一のフレームについてのISデータレートと比べてあるレート・オフセットだけ変化させ、第二のフレームについてのDSデータレートを、第一のフレームについてのDSデータレートと比べて前記レート・オフセットに負号を付けたものだけ変化させるよう構成されていてもよい。レート・オフセット（特に、レート・オフセットの符号）は、決定された差に依存してもよい。

オーディオ・エンコーダは、複数の（関連した）マルチチャネル・オーディオ信号をエンコードするよう構成されていてもよい。該複数の信号の各マルチチャネル・オーディオ信号はたとえば、異なるブロードキャスト・プログラムまたは異なる言語に対応してもよい。これは、映画ついて複数の異なるマルチチャネル・オーディオ信号（たとえば異なる言語）を提供するデジタル・ビデオ・ディスク（DVD）にとって有益でありうる。複数の（関連した）マルチチャネル・オーディオ信号は（該複数の関連したマルチチャネル・オーディオ信号の対応する時間区間を表わす）対応するフレームを有していてもよい。複数のマルチチャネル・オーディオ信号のそれぞれは、基本チャネル構成に従ってそれぞれのマルチチャネル・オーディオ信号をレンダリングするための基本チャネル群として表現されてもよく、それにより複数の基本群が与えられる。さらに、複数のマルチチャネル・オーディオ信号のそれぞれは、（基本群と組み合わせて）拡張チャネル構成に従ってそれぞれのマルチチャネル・オーディオ信号をレンダリングするための拡張チャネル群として表現されてもよく、それにより複数の拡張群が与えられる。

オーディオ・エンコーダは、複数のISデータレートに従って複数の基本群をエンコードし、それによりそれぞれの複数のISを与える複数の基本エンコーダを有していてもよい。組み合わされた基本エンコーダが複数の基本群をエンコードしてそれぞれの複数のISを与えるよう構成されていてもよいことを注意しておくべきである。同様に、オーディオ・エンコーダは、複数のDSデータレートに従って複数の拡張群をエンコードし、それによりそれぞれの複数のDSを与える複数の拡張エンコーダを有していてもよい。組み合わされた拡張エンコーダが複数の拡張群をエンコードしてそれぞれの複数のDSを与えるよう構成されていてもよいことを注意しておくべきである。

その際、レート制御ユニットは、複数のISデータレートと複数のDSデータレートとの和が実質的に全利用可能データレートに対応するよう、複数の基本チャネル群についての一つまたは複数の瞬時IS符号化品質指標および／または複数の拡張チャネル群についての一つまたは複数の瞬時DS符号化品質指標に基づいて複数のISデータレートおよび複数のDSデータレートを定期的に適応させるよう構成されうる。瞬時符号化品質指標はたとえば、複数の基本群／拡張群をエンコードするためのSNRオフセットであってもよい。具体的には、レート制御ユニットは、本稿で記載されるレート割り当て／ビット割り当て方式を、複数のISおよび対応する複数のDSに適用するよう構成されていてもよい。よって、複数のエンコードされたマルチチャネル／オーディオ信号についての（すなわち、複数のISおよびDSについての）全体的なビットレートは一定のままでありつつ、各ISおよび各DSは、変化する（たとえばフレームからフレームへと変化する）データレートを有しうる。

もう一つの側面によれば、全利用可能データレートに従ってマルチチャネル・オーディオ信号をエンコードする方法が記述される。マルチチャネル・オーディオ信号は、基本チャネル構成に従ってマルチチャネル・オーディオ信号をレンダリングするための基本チャネル群および拡張チャネル群として表現可能である。拡張チャネル群は――基本群と組み合わせて――拡張チャネル構成に従ってマルチチャネル・オーディオ信号をレンダリングするためである。基本チャネル構成および拡張チャネル構成は互いに異なっていてもよい。

本方法は、ISデータレートに従って基本チャネル群をエンコードし、それにより独立サブストリームを与えることを含んでいてもよい。本方法はさらに、DSデータレートに従って拡張チャネル群をエンコードし、それにより従属サブストリームを与えることを含んでいてもよい。さらに、本方法は、ISデータレートとDSデータレートの和が実質的に全利用可能データレートに対応するよう、基本チャネル群についての瞬時IS符号化品質指標および／または拡張チャネル群についての瞬時DS符号化品質指標に基づいてISデータレートおよびDSデータレートを定期的に適応させることを含んでいてもよい。

本発明はさらに、基本チャネル群の抜粋に基づいてIS符号化品質指標を決定するおよび／または拡張チャネル群の対応する抜粋に基づいてDS符号化品質指標を決定することを含んでいてもよい。基本群／拡張群の抜粋は、たとえば、基本群／拡張群の一つまたは複数のフレームであってもよい。よって、IS符号化品質指標および／またはDS符号化品質指標は、オーディオ・エンコーダへの入力信号に基づいて決定されてもよい。例として、符号化品質指標は、基本／拡張群の抜粋の知覚的エントロピーに基づいて；基本／拡張群の抜粋のトーン性に基づいて；基本／拡張群の抜粋の過渡特性に基づいて；基本／拡張群の抜粋のスペクトル帯域幅に基づいて；基本群／拡張の抜粋における過渡成分の存在；基本／拡張群のチャネル間の相関の度合い；および／または基本／拡張群の抜粋のエネルギーに基づいて、決定されてもよい。

代替的または追加的に、IS符号化品質指標は、独立サブストリームの抜粋の知覚的品質（すなわち、エンコードされた信号の知覚的品質）を示してもよい。同様に、DS符号化品質指標は、従属サブストリームの抜粋の知覚的品質（すなわち、エンコードされた信号の知覚的品質）を示してもよい。

そのような場合、ISデータレートおよびDSデータレートを適応させることは、IS符号化品質指標とDS符号化品質指標との間の差が差閾値未満となるよう、独立サブストリームの抜粋および従属サブストリームの抜粋をエンコードするためのISデータレートおよびDSデータレートを適応させることを含んでいてもよい。たとえば、差閾値は実質的に0であってもよい。上記で概説したように、ISデータレートおよびDSデータレートを適応させることは、独立サブストリームの抜粋および従属サブストリームの抜粋をエンコードするときに統合ビット割り当てを使うことによって達成されてもよい。

あるいはまた、ISデータレートおよびDSデータレートを適応させることは、IS符号化品質指標とDS符号化品質指標との間の差に基づいて、独立サブストリームのさらなる抜粋および従属サブストリームの対応するさらなる抜粋をエンコードするためのISデータレートおよびDSデータレートを適応させることを含んでいてもよい。基本群および拡張群の上記さらなる抜粋は、基本群および拡張群の上記抜粋よりあとのものであってもよい。例として、基本群および拡張群の上記さらなる抜粋は、中間の抜粋なしに、基本群および拡張群の上記抜粋の直後のものであってもよい。よって、ISデータレートおよびDSデータレートは、抜粋から抜粋へと、フィードバックされたIS/DS符号化品質指標（単数または複数）に基づいて適応されてもよい。

さらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムはプロセッサ上での実行のためおよび該プロセッサ上で実行されたときに本稿で概説する方法段階を実行するために適応されていてもよい。

もう一つの側面によれば、記憶媒体が記述される。記憶媒体は、プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに本稿で概説する方法段階を実行するために適応されているソフトウェア・プログラムを有していてもよい。

さらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説する方法段階を実行するための実行可能命令を有していてもよい。

本特許出願において概説されるその好ましい実施形態を含む方法およびシステムは単独で、あるいは本稿で開示される他の方法およびシステムとの組み合わせにおいて使用されうることを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのあらゆる側面は、任意に組み合わされてもよい。特に、請求項の特徴は、互いに任意の仕方で組み合わされてもよい。さらに、方法の段階は特定の順序で与えられることがあるが、それらの段階は組み合わされたり、与えられた順序から外れて実行されたりしてもよい。

本発明について、下記で付属の図面を参照しつつ例示的な仕方で説明する。
Ａは例示的なマルチチャネル・オーディオ・エンコーダの高レベルのブロック図であり、Ｂはエンコードされたフレームの例示的なシーケンスを示す図である。Ａは例示的なマルチチャネル・オーディオ・デコーダの高レベルのブロック図であり、Ｂは7.1マルチチャネル・オーディオ信号についての例示的なラウドスピーカー配置を示す図である。マルチチャネル・オーディオ・エンコーダの例示的なコンポーネントのブロック図である。例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。統合的なレート制御を有する例示的なマルチチャネル・オーディオ・エンコーダのブロック図である。例示的なマルチチャネル・エンコード方式のフローチャートである。統合的なレート制御を有するさらなる例示的なマルチチャネル・オーディオ・エンコーダのブロック図である。統合的なレート制御を有するもう一つの例示的なマルチチャネル・オーディオ・エンコーダのブロック図である。

導入部で概説したように、特定のマルチチャネル・オーディオ・デコーダによってデコードされるチャネルの数に関して下方互換なビットストリームを生成するマルチチャネル・オーディオ・コーデック・システムを提供することが望ましい。特に、N＜Mとして、N.1マルチチャネル・オーディオ・デコーダによってデコードできるようM.1マルチチャネル・オーディオ信号をエンコードすることが望ましい。例として、5.1オーディオ・デコーダによってデコードできるよう7.1オーディオ信号をエンコードすることが望ましい。下方互換性を許容するために、マルチチャネル・オーディオ・コーデック・システムは典型的には、M.1マルチチャネル・オーディオ信号を、低下した数のチャネル（たとえばN.1チャネル）を有する独立（サブ）ストリーム（「IS」）および完全なM.1オーディオ信号をデコードしてレンダリングするための置換および／または拡張チャネルを含む一つまたは複数の従属（サブ）ストリーム（「DS」）にエンコードする。

このコンテキストにおいて、ISおよび一つまたは複数のDSの効率的なエンコードを許容することが望ましい。本稿は、同時にマルチチャネル・オーディオ・コーデック・システムの下方互換性を維持するためにISおよび一つまたは複数のDSの独立性を維持しつつ、ISおよび一つまたは複数のDSの効率的なエンコードを可能にする方法およびシステムを記述する。方法およびシステムは、ドルビー・デジタル・プラス（DD+）コーデック・システム（向上AC-3とも称される）に基づいて記述される。DD+コーデック・システムは、先進テレビジョン・システム委員会（ATSC）の「Digital Audio Compression Standard (AC-3,E-AC-3)」,Document A/52:2010、2010年11月22日において規定されており、その内容は参照によって組み込まれる。しかしながら、本稿に記載される方法およびシステムは一般に適用可能であり、マルチチャネル・オーディオ信号を複数のサブストリームにエンコードする他のオーディオ・コーデック・システムに適用されてもよい。

よく使われるマルチチャネル構成（およびマルチチャネル・オーディオ信号）は7.1構成および5.1構成である。5.1マルチチャネル構成は典型的には、L（左前方）、C（中央前方）、R（右前方）、Ls（左サラウンド）、Rs（右サラウンド）およびLFE（低域効果）チャネルを含む。7.1マルチチャネル構成はさらにLb（左サラウンド後方）およびRb（右サラウンド後方）チャネルを含む。例示的な7.1マルチチャネル構成が図２のｂに示されている。DD+において7.1チャネルを送信するために、二つのサブストリームが使用される。第一のサブストリーム（独立サブストリーム「IS」と称される）は5.1チャネル・ミックスを含み、第二のサブストリーム（従属サブストリーム「DS」と称される）は拡張チャネルおよび置換チャネルを含む。たとえば、7.1マルチチャネル・オーディオ信号をサラウンド後方チャネルLbおよびRbと一緒にエンコードして送信するために、独立サブストリームはチャネルL（左前方）、C（中央前方）、R（右前方）、Lst（左サラウンド下方混合）、Rst（ミグサラウンド下方混合）、LFE（低域効果）を担持し、従属チャネルは拡張チャネルLb（左サラウンド後方）、Rb（右サラウンド後方）および置換チャネルLs（左サラウンド）、Rs（右サラウンド）を担持する。完全な7.1信号デコードが実行されるときには、従属サブストリームからのLsおよびRsチャネルが独立サブストリームからのLstおよびRstチャネルを置き換える。

図１のＡは、5.1チャネルと7.1チャネルの間の関係を示す例示的なDD+ 7.1マルチチャネル・オーディオ・エンコーダ１００の高レベルのブロック図である。マルチチャネル・オーディオ信号の７プラス１のオーディオ・チャネル１０１（L、C、R、Ls、Lb、RsおよびRbプラスLFE）は二つのグループのオーディオ・チャネルに分離される。基本群１２１のチャネルはオーディオ・チャネルL、C、RおよびLFEおよび下方混合されたサラウンド・チャネルLst １０２およびRst １０３を含む。該下方混合されたサラウンド・チャネルは典型的には7.1サラウンド・チャネルLs、Rsおよび7.1後方チャネルLb、Rbから導出される。例として、下方混合されたサラウンド・チャネル１０２、１０３は、LbおよびRbチャネルおよび7.1サラウンド・チャネルLs、Rsの一部または全部を下方混合ユニット１０９において加算することによって導出される。下方混合されたサラウンド・チャネルLst １０２およびRst １０３は他の仕方で決定されてもよいことを注意しておくべきである。例として、下方混合されたサラウンド・チャネルLst １０２およびRst １０３は、7.1チャネルの二つ、たとえば7.1サラウンド・チャネルLs、Rsから直接決定されてもよい。

基本群１２１のチャネルはDD+ 5.1オーディオ・エンコーダ１０５においてエンコードされ、それによりDD+コア・フレーム１５１（図１のＢ参照）において伝送される独立サブストリーム（「IS」）１１０を与える。コア・フレーム１５１はISフレームとも称される。第二群１２２のオーディオ・チャネルは7.1サラウンド・チャネルLs、Rsおよび7.1サラウンド後方チャネルLb、Rbを含む。第二群１２２のチャネルはDD+ 4.0オーディオ・エンコーダ１０６においてエンコードされ、それにより一つまたは複数のDD+拡張フレーム１５２、１５３（図１のＢ参照）において伝送される従属サブストリーム（「DS」）１２０を与える。チャネルの第二群１２２は本稿ではチャネルの拡張群１２２と称され、拡張フレーム１５２、１５３はDSフレーム１５２、１５３と称される。

図１のＢは、エンコードされたオーディオ・フレーム１５１、１５２、１５３、１６１、１６２の例示的なシーケンス１５０を示している。図示した例は、それぞれISフレーム１５１および１６１を含む二つの独立サブストリームIS0およびIS1を含んでいる。複数のIS（およびそれぞれのDS）が（たとえば映画の異なる言語のためのまたは異なるプログラムのための）複数の関連したオーディオ信号を提供するために使用されてもよい。各独立サブストリームは、それぞれ一つまたは複数の従属サブストリームDS0、DS1を含む。各従属サブストリームはそれぞれのDSフレーム１５２、１５３および１６２を含む。さらに、図１のＢは、マルチチャネル・オーディオ信号の完全なオーディオ・フレームの時間的長さ１７０を示している。オーディオ・フレームの時間的長さ１７０は、（たとえばサンプリング・レートfs＝48kHzにおける）32msであってもよい。換言すれば、図１のＢは、一つまたは複数のISフレーム１５１、１６１およびそれぞれのDSフレーム１５２、１５３、１６２にエンコードされるオーディオ・フレームの時間的な長さを示している。

図２のＡは、例示的なマルチチャネル・デコーダ・システム２００の高レベルのブロック図を示している。特に、図２のＡは、エンコードされた基本群１２１のチャネルを含むエンコードされたIS ２０１を受領する例示的な5.1マルチチャネル・デコーダ・システム２００を示している。エンコードされたIS ２０１は受領されたビットストリームのISフレーム１５１から（たとえば図示しないデマルチプレクサを使って）取られる。ISフレーム１５１は、エンコードされた基本群１２１のチャネルを含み、5.1マルチチャネル・デコーダを使ってデコードされ、それにより、デコードされた基本群２２１のチャネルを含むデコードされた5.1マルチチャネル・オーディオ信号を与える。さらに、図２のＡは、エンコードされた基本群１２１のチャネルを含むエンコードされたIS ２０１およびエンコードされた拡張群１２２のチャネルを含むエンコードされたDS ２０２を受領する例示的な7.1マルチチャネル・デコーダ・システム２１０を示している。上記で概説したように、エンコードされたIS ２０１はISフレーム１５１から取られてもよく、エンコードされたDS ２０２は受領されたビットストリームのDSフレーム１５２、１５３から（たとえば図示しないデマルチプレクサを使って）取られてもよい。デコード後、デコードされた基本群２２１のチャネルおよびデコードされた拡張群２２２のチャネルを含むデコードされた7.1マルチチャネル・オーディオ信号が得られる。下方混合されたサラウンド・チャネルLst、Rst ２１１は落とされてもよいことを注意しておくべきである。7.1マルチチャネル・デコーダ２１５はその代わりにデコードされた拡張群２２２のチャネルを利用するからである。7.1マルチチャネル・オーディオ信号の典型的なレンダリング位置２３２が図２のＢのマルチチャネル構成２３０に示されている。図２のＢは、聴取者の例示的な位置２３１およびビデオ・レンダリングのための画面の例示的な位置２３３も示している。

現在のところ、DD+での7.1チャネル・オーディオ信号のエンコードは、第一のコア5.1チャネルDD+エンコーダ１０５および第二のDD+エンコーダ１０６によって実行される。第一のDD+エンコーダ１０５は基本群１２１の5.1チャネルをエンコードし（よって5.1チャネル・エンコーダと称されてもよい）、第二のDD+エンコーダ１０６は拡張群１２２の4.0チャネルをエンコードする（よって、4.0チャネル・エンコーダと称されてもよい）。基本群１２１および拡張群１２２のチャネルのためのエンコーダ１０５、１０６は典型的には、互いについて何も知らない。二つのエンコーダ１０５、１０６のそれぞれは、全利用可能データレートの固定された部分に対応するデータレートを与えられる。換言すれば、ISのためのエンコーダ１０５およびDSのためのエンコーダ１０６は、全利用可能データレートのある固定割合を与えられる（たとえば、ISエンコーダ１０５のための全利用可能データレートのX%（「ISデータレート」と称される）およびDSエンコーダ１０６のための全利用可能データレートの100%−X%（「DSデータレート」と称される）、たとえばX＝50）。それぞれ割り当てられたデータレート（たとえばISデータレートおよびDSデータレート）を使って、ISエンコーダ１０５およびDSエンコーダ１０６は基本群１２１のチャネルおよび拡張群１２２のチャネルの独立なエンコードをそれぞれ実行する。

本稿では、ISエンコーダ１０５とDSエンコーダ１０６の間の依存性を作り出し、それにより全体的なマルチチャネル・エンコーダ１００の効率を向上させることが提案される。具体的には、基本群１２１のチャネルおよび拡張群１２２のチャネルの特性または条件に基づいてISデータレートおよびDSデータレートの適応的な割り当てを提供することが提案される。

以下では、ISエンコーダ１０５およびDSエンコーダ１０６のコンポーネントに関するさらなる詳細が図３のコンテキストにおいて記述される。図３は、例示的なDD+マルチチャネル・エンコーダ３００のブロック図を示している。ISエンコーダ１０５および／またはDSエンコーダ１０６は図３のDD+マルチチャネル・エンコーダ３００によって具現されうる。エンコーダ３００のコンポーネントを記述するのに続いて、ISデータレートおよびDSデータレートの上述した適応的な割り当てを許容するために、マルチチャネル・エンコーダ３００がどのように適応されうるかが記述される。

マルチチャネル・エンコーダ３００は、（たとえば5.1入力信号の）マルチチャネル入力信号の種々のチャネルに対応するPCMサンプルのストリーム３１１を受領する。PCMサンプルのストリーム３１１はPCMサンプルの諸フレームに配置されてもよい。各フレームは、マルチチャネル・オーディオ信号の特定のチャネルの所定数のPCMサンプル（たとえば1536個のサンプル）を含んでいてもよい。よって、マルチチャネル・オーディオ信号の各時間セグメントについて、マルチチャネル・オーディオ信号の異なるチャネルのそれぞれについて、異なるオーディオ・フレームが与えられる。マルチチャネル・オーディオ・エンコーダ３００は、マルチチャネル・オーディオ信号の特定のチャネルについて、下記で記述される。しかしながら、結果として得られるAC-3フレーム３１８は典型的には、マルチチャネル・オーディオ信号のすべてのチャネルのエンコードされたデータを含む。

PCMサンプル３１１を含むオーディオ・フレームは、入力信号整形（conditioning）ユニット３０１においてフィルタリングされてもよい。その後、（フィルタリングされた）サンプル３１１は、時間から周波数への変換ユニット３０２において、時間領域から周波数領域に変換されてもよい。この目的のために、オーディオ・フレームは、サンプルの複数のブロックに細分されてもよい。それらのブロックは、所定の長さL（たとえばブロック当たり256個のサンプル）を有していてもよい。さらに、隣り合うブロックがある程度の重なり（たとえば50%の重なり）をもっていてもよい。オーディオ・フレーム当たりのブロック数は、そのオーディオ・フレームの特性（たとえば過渡成分の存在）に依存してもよい。典型的には、時間から周波数への変換ユニット３０２は、時間から周波数への変換（たとえばMDCT（修正離散コサイン変換）変換）を、オーディオ・フレームから導出されたPCMサンプルの各ブロックに適用する。よって、サンプルの各ブロックについて、時間から周波数への変換ユニット３０２の出力において、変換係数３１２のブロックが得られる。

マルチチャネル入力信号の各チャネルは別個に処理されて、それによりマルチチャネル入力信号の異なるチャネルについて変換係数３１２のブロックの別個のシーケンスを提供してもよい。マルチチャネル入力信号のチャネルのいくつかの間の相関（たとえばサラウンド信号LsとRsの間の相関）に鑑み、統合チャネル処理ユニット３０３において統合的なチャネル処理が実行されてもよい。ある例示的な実施形態では、統合チャネル処理ユニット３０３はチャネル結合を実行し、それにより結合されたチャネルの群を単一の合成チャネルおよび結合サイド情報に変換する。該結合サイド情報は、単一の合成チャネルから個々のチャネルを再構成するために、対応するデコーダ・システム２０２、２１０によって使用されうる。例として、5.1オーディオ信号のLsおよびRsチャネルが結合されてもよく、あるいはL、C、R、LsおよびRsが結合されてもよい。ユニット３０３において結合が使われる場合、単一の合成チャネルのみが、図３に示されるさらなる処理ユニットに提出される。そうでない場合には、個々のチャネル（すなわち、変換係数３１２のブロックの個々のシーケンス）が、エンコーダ３００のさらなる処理ユニットに渡される。

以下では、エンコーダのさらなる処理ユニットが、変換係数３１２のブロックの例示的なシーケンスについて記述される。該記述は、エンコードされるべきチャネルのそれぞれに（たとえば、マルチチャネル入力信号の個々のチャネルに、あるいはチャネル結合から帰結する一つまたは複数の合成チャネルに）当てはまる。

ブロック浮動小数点エンコード・ユニット３０４は、あるチャネル（フル帯域幅チャネル（たとえばL、CおよびRチャネル）、LFE（低域効果）チャネルおよび結合チャネルを含むすべてのチャネルに適用可能）の変換係数３１２を指数／仮数フォーマットに変換するよう構成されている。変換係数３１２を指数／仮数フォーマットに変換することによって、変換係数３１２の量子化から帰結する量子化ノイズが、絶対的な入力信号レベルから独立にされることができる。

典型的には、ユニット３０４において実行されるブロック浮動小数点エンコードは、変換係数３１２のそれぞれを指数および仮数に変換しうる。指数は、エンコードされた指数３１３を伝送するために必要とされるデータレート・オーバーヘッドを減らすために、できるだけ効率的にエンコードされるべきものである。同時に、指数は、変換係数３１２のスペクトル分解能を失うのを避けるために、できるだけ精確にエンコードされるべきである。以下では、DD+において上述した目的を達成するために使われる例示的なブロック浮動小数点エンコード方式について簡単に述べる。DD+エンコード方式（および特にDD+において使用されるブロック浮動小数点エンコード方式）に関するさらなる詳細については、非特許文献１が参照される。その内容は参照によって組み込まれる。

ブロック浮動小数点エンコードの第一段階では、変換係数３１２のブロックについて生の指数が決定されうる。これは図４Ａにおいて示されている。ここでは、例示的な変換係数４０２のブロックについて、生の指数４０１のブロックが示されている。変換係数４０２は値Xをもち、変換係数４０２はXが1以下であるよう正規化されうることが想定される。値Xは仮数／指数フォーマットX＝m*2(−e)で表現されうる。ここで、mが仮数（m≦1）であり、eは指数である。ある実施形態では、生の指数４０１は0から24までの間の値を取ってもよく、それにより144dB（すなわち、2(-0)から2(-24)）にわたるダイナミックレンジをカバーする。

（生の）指数４０１をエンコードするために必要とされるビット数をさらに減らすために、完全なオーディオ・フレーム（典型的にはオーディオ・フレーム当たり6個のブロック）の変換係数３１２のブロックを横断しての指数の時間共有（time sharing）など、さまざまな方式が適用されうる。さらに、指数は周波数を横断して（すなわち、変換／周波数領域における隣り合う周波数ビンを横断して）共有されてもよい。例として、指数は、二つまたは四つの周波数ビンを横断して共有されてもよい。さらに、変換係数３１２のあるブロックの諸指数は、隣り合う指数の間の差があらかじめ決定された最大値、たとえば±2を超えないことを保証するために、テンティングされ（tented）てもよい。これは、変換係数３１２のブロックの指数の効率的な差分エンコードを許容する（たとえば五つの差分を使う）。指数をエンコードするために必要とされるデータレートを低下させるための上述した諸方式（すなわち、時間共有、周波数共有（frequency sharing）、テンティングおよび差分エンコード）は、種々の仕方で組み合わされてもよく、そうして定義される種々の指数符号化モードの結果として指数をエンコードするために使われる種々のデータレートが得られる。上述した指数符号化の結果として、オーディオ・フレーム（たとえばオーディオ・フレーム当たり6個のブロック）の変換係数３１２のブロックについて、エンコードされた指数３１３のシーケンスが得られる。

ユニット３０４において実行される浮動小数点エンコード方式のさらなる段階として、もとの変換係数４０２の仮数m'は、対応する、結果として得られるエンコードされた指数e'によって正規化される。結果として得られるエンコードされた指数e'は、上述した生の指数eとは異なることがある（時間共有、周波数共有および／またはテンティング段階のため）。図４Ａの各変換係数４０２について、正規化された仮数m'が、X＝m'*2(-e')として決定されてもよい。ここで、Xはもとの変換係数４０２の値である。オーディオ・フレームのブロックについての正規化された仮数m' ３１４は、仮数３１４の量子化のために量子化ユニット３０６に渡される。仮数３１４の量子化、すなわち量子化された仮数３１７の精度は、仮数量子化のために利用可能なデータレートに依存する。利用可能なデータレートは、ビット割り当てユニット３０５において決定される。

ユニット３０５において実行されるビット割り当てプロセスは、音響心理学的原理に基づいて、正規化された仮数３１４のそれぞれに割り当てられることのできるビット数を決定する。ビット割り当てプロセスは、オーディオ・フレームの正規化された仮数を量子化するための利用可能なビット・カウントを決定する段階を含む。さらに、ビット割り当てプロセスは、パワースペクトル密度（PSD）分布および周波数領域マスキング曲線を（音響心理学的モデルに基づいて）、各チャネルについて決定する。PSD分布および周波数領域マスキング曲線は、オーディオ・フレームの種々の正規化された仮数３１４に利用可能なビットの実質的に最適な分配を決定するために使われる。

ビット割り当てプロセスにおける第一段階は、正規化された仮数３１４をエンコードするために利用可能な仮数ビットが何ビットあるかを決定することである。目標データレートは、現在のオーディオ・フレームをエンコードするために利用可能な全ビット数に変換される。特に、目標データレートは、エンコードされたマルチチャネル・オーディオ信号についてkビット毎秒を指定する。T秒のフレーム長を考えると、総ビット数はT*kとして決定されてもよい。利用可能な仮数ビット数は、総ビット数から、メタデータ、ブロック切り換えフラグ（検出された過渡成分および選択されたブロック長を信号伝達するため）、結合スケール因子、指数などといったオーディオ・フレームをエンコードするためにすでに使用済みのビットを引き去ることによって決定されてもよい。ビット割り当てプロセスは、ビット割り当てパラメータ３１５（後述）のような他の側面にまだ割り当てられる必要がありうるビットをも引き去ってもよい。結果として、利用可能な仮数ビットの総数が決定されうる。次いで、利用可能な仮数ビットの総数が、オーディオ・フレームのすべての（たとえば1個、2個、3個または6個の）ブロックにわたってすべてのチャネル（たとえば、諸メイン・チャネル、LFEチャネルおよび結合チャネル）の間で分配されてもよい。

さらなる段階として、変換係数３１２のブロックのパワースペクトル密度（「PSD」）分布が決定されてもよい。PSDは、入力信号の各変換係数周波数ビン内の信号エネルギーの尺度である。PSDは、エンコードされた指数３１３に基づいて決定されてもよく、それにより対応するマルチチャネル・オーディオ・デコーダ・システム２００、２１０がマルチチャネル・オーディオ・エンコーダ３００と同じ仕方でPSDを決定できるようにする。図４Ｂは、エンコードされた指数３１３から導出された変換係数３１２のブロックのPSD分布４１０を示す。PSD分布４１０は、変換係数３１２のそのブロックについて周波数領域マスキング曲線４３１（図４Ｄ参照）を計算するために使用されてもよい。周波数領域マスキング曲線４３１は、マスカー周波数が該マスカー周波数の直近の周波数をマスクするという現象を記述する音響心理学的なマスキング効果を考慮に入れ、それによりマスカー周波数の直近の周波数を、そのエネルギーがあるマスキング閾値未満であれば、聞こえないようにする。図４Ｃは、マスカー周波数４２１および近隣の周波数についてのマスキング閾値曲線４２２を示している。実際のマスキング閾値曲線４２２は、DD+エンコーダにおいて使用される（二セグメント）（区分線形）マスキング・テンプレート４２３によってモデル化されてもよい。

マスキング閾値曲線４２２の形が（および結果としてマスキング・テンプレート４２３も）、たとえばZwickerによって定義されるような臨界帯域スケール上で（または対数スケール上で）種々のマスカー周波数について実質的に不変のままであることが観察された。この観察に基づいて、DD+エンコーダはマスキング・テンプレート４２３を帯域分割された（banded）PSD分布に適用する（ここで、帯域分割されたPSD分布は、諸帯域がほぼ臨界帯域の半分の幅である臨界帯域スケール上のPSD分布に対応する）。帯域分割されたPSD分布の場合、単一のPSD値が臨界帯域スケール上の（または対数スケール上の）複数の帯域のそれぞれについて決定される。図４Ｄは、図４Ｂの線形離間された（linear-spaced）PSD分布４１０についての例示的な帯域分割されたPSD分布４３０を示している。帯域分割されたPSD分布４３０は、線形離間されたPSD分布４１０からの、臨界帯域スケール上で（または対数スケール上で）同じ帯域内にはいるPSD値を（たとえば対数‐加算演算を使って）組み合わせることによって、線形離間されたPSD分布４１０から決定されてもよい。マスキング・テンプレート４２３は、帯域分割されたPSD分布４３０の各PSD値に適用されてもよい。それにより、臨界帯域スケール上で（または対数スケール上で）変換係数４０２のブロックについて全体的な周波数領域マスキング曲線４３１が与えられる（図４Ｄ参照）。

図４Ｄの全体的な周波数領域マスキング曲線４３１は、線形周波数分解能に展開し戻されてもよく、図４Ｂに示した変換係数４０２のブロックの線形PSD分布４１０と比較されてもよい。これは図４Ｅに示されている。この図は、線形分解能上での周波数領域マスキング曲線４４１とともに線形分解能上でのPSD分布４１０を示している。周波数領域マスキング曲線４４１は聴力曲線の絶対的な閾値をも考慮に入れてもよいことを注意しておくべきである。特定の周波数ビンの変換係数４０２の仮数をエンコードするためのビット数は、PSD分布４１０に基づいて、かつマスキング曲線４４１に基づいて決定されてもよい。特に、PSD分布４１０のうちマスキング曲線４４１を下回るPSD値は、知覚的に有意でない仮数に対応する（そのような周波数ビンにおけるオーディオ信号の周波数成分はその近傍におけるマスカー周波数によってマスクされるから）。結果として、そのような変換係数４０２の仮数は全くビットを割り当てられる必要がない。他方、PSD分布４１０のうちマスキング曲線４４１より上のPSD値は、これらの周波数ビンにおける変換係数４０２の仮数がエンコードのためのビットを割り当てられるべきであることを示す。そのような仮数に割り当てられるビット数は、PSD分布４１０のPSD値とマスキング曲線４４１の値との間の差が増すにつれて増えるべきである。上述したビット割り当てプロセスの結果として、図４Ｅに示されるような種々の変換係数４０２へのビットの割り当て４４２が得られる。

上述したビット割り当てプロセスは、すべてのチャネル（たとえば直接チャネル、LFEチャネルおよび結合チャネル）について、かつ当該オーディオ・フレームのすべてのブロックについて実行され、それにより全体的な（予備的な）割り当てられたビット数を与える。この全体的な予備的な割り当てられたビット数が利用可能な仮数ビットの総数に一致する（たとえば等しくなる）可能性は低い。いくつかの場合には（たとえば複雑なオーディオ信号について）、全体的な予備的な割り当てられたビット数は、利用可能な仮数ビットの数を超えることがありうる（ビット飢餓）。他の場合には（たとえば、単純なオーディオ信号の場合）、全体的な予備的な割り当てられたビット数は利用可能な仮数ビット数より少ないことがありうる（ビット余剰）。エンコーダ３００は典型的には、全体的な（最終的な）割り当てられるビット数をできるだけ利用可能な仮数ビット数に近く一致させようとする。この目的のために、エンコーダ３００は、いわゆるSNRオフセット・パラメータを利用してもよい。SNRオフセットは、マスキング曲線４４１をPSD分布４１０に対して上または下に移動させることによって、マスキング曲線４４１の調整を許容する。マスキング曲線を上または下に移動させることによって、割り当てられるビットの（予備的な）数はそれぞれ減少または増加させられることができる。よって、SNRオフセットは、終了基準（たとえば、予備的な割り当てられるビット数が利用可能なビット数に可能な限り近い（ただし利用可能なビット数より少ない）という基準；または所定の最大の逐次反復回数が実行されたという基準）が満たされるまで逐次反復的な仕方で調整されてもよい。

上記で示したように、割り当てられるビットの最終的な数と利用可能なビット数との間の最良一致を許容するSNRオフセットの逐次反復的な探索は、二分探索を利用してもよい。各反復工程において、予備的な割り当てられるビット数が利用可能なビット数を超えるか否かが判定される。この判定段階に基づいて、SNRオフセットが修正され、さらなる反復工程が実行される。二分探索は、(log₂(K)＋1)回の反復工程を使って最良一致（および対応するSNRオフセット）を決定するよう構成される。ここで、Kは可能なSNRオフセットの数である。逐次反復的な探索の終了後、最終的な割り当てられるビット数が得られる（これは典型的には、以前に決定された予備的な割り当てられるビット数の一つに対応する）。最終的な割り当てられるビット数は利用可能なビット数より（やや）少なくてもよいことを注意しておくべきである。そのような場合、最終的な割り当てられるビット数を利用可能なビット数と完全に整列させるためにスキップ・ビットが使用されてもよい。

SNRオフセットは、SNRオフセット0が、もとのオーディオ信号とエンコードされた信号との間の「最小可知差異（just-noticeable difference）」として知られるエンコード条件につながるエンコードされた仮数につながるよう、定義されてもよい。換言すれば、SNRオフセット0では、エンコーダ３００は知覚的モデルに従って動作する。SNRオフセットの正の値はマスキング曲線４４１を下に動かして、それにより（典型的には気づかれるほどの品質改善なしに）割り当てられるビット数を増やしてもよい。SNRオフセットの負の値はマスキング曲線４４１を上に動かして、それにより割り当てられるビット数を減らし（それにより典型的には耳に聞こえる量子化ノイズを増大させ）てもよい。SNRオフセットはたとえば、−48ないし＋144dBの有効範囲をもつ10ビットのパラメータであってもよい。最適なSNRオフセットを見出すために、エンコーダ３００は逐次反復的な二分探索を実行してもよい。逐次反復的な二分探索は、PSD分布４１０／マスキング曲線４４１比較の（10ビット・パラメータの場合）最大11回の逐次反復を必要とすることがありうる。実際に使われるSNRオフセット値は、ビット割り当てパラメータ３１５として対応するデコーダに伝送されてもよい。さらに、仮数は、（最終的な）割り当てられるビットに従ってエンコードされ、それによりエンコードされた仮数３１７の集合を与える。

このように、SNR（信号対雑音比）オフセット・パラメータは、エンコードされたマルチチャネル・オーディオ信号の符号化品質の指標として使われてもよい。SNRオフセットの上述した取り決めによれば、SNRオフセット0は、もとのマルチチャネル・オーディオ信号に対する「最小可知差異」を有するエンコードされたマルチチャネル・オーディオ信号を示す。正のSNRオフセットは、もとのマルチチャネル・オーディオ信号に対する、少なくとも「最小可知差異」の品質を有するエンコードされたマルチチャネル・オーディオ信号を示す。負のSNRオフセットは、もとのマルチチャネル・オーディオ信号に対する「最小可知差異」より低い品質を有するエンコードされたマルチチャネル・オーディオ信号を示す。SNRオフセット・パラメータの他の取り決めも可能でありうることを注意しておくべきである（たとえば逆の取り決め）。

エンコーダ３００はさらに、エンコードされた指数３１３、エンコードされた仮数３１７、ビット割り当てパラメータ３１５および他のエンコード・データ（たとえば、ブロック切り換えフラグ、仮数、結合スケール因子など）を所定のフレーム構造（たとえばAC3フレーム構造）中に配列し、それによりマルチチャネル・オーディオ信号のオーディオ・フレームについてのエンコードされたフレーム３１８を与えるよう構成されているビットストリーム・パッキング・ユニット３０７を有する。

すでに上記で概説し、図１Ａにおいて示したように、7.1 D++ストリームは典型的には、ISエンコーダ１０５を使って基本群１２１のチャネルをエンコードしてそれによりIS １１０を与え、DSエンコーダ１０６を使って拡張群１２２のチャネルをエンコードしてそれによりDS １２０を与えることを独立に行なうことによってエンコードされる。ISエンコーダ１０５およびDSエンコーダ１０６は典型的には、全データレートの固定した割合を与えられる。すなわち、各エンコーダ１０５、１０６は、二つのエンコーダ１０５、１０６の間のいかなる相互作用もなしに独立したビット割り当てプロセスを実行する。典型的には、ISエンコーダ１０５は全データレートのX%を割り当てられ、DSエンコーダ１０６は全データレートの100−X%を与えられる。ここで、Xは固定した値、たとえばX＝50である。

上記のように、マルチチャネル・エンコーダ３００は、（最終的な）割り当てられるビット数の合計が利用可能な全ビット数に（できるだけ近く）一致するよう、SNRオフセットを調整する。このビット割り当てプロセスのコンテキストにおいて、SNRオフセットは、割り当てられるビット数が増加／減少させられるよう調整（たとえば増加／減少）されてもよい。しかしながら、エンコーダ３００が「最小可知差異」を達成するために必要とされるより多くのビットを割り当てる場合、追加的に割り当てられたビットは実際には無駄になる。追加的に割り当てられたビットは典型的にはエンコードされたオーディオ信号の知覚される品質の改善につながらないからである。これに鑑み、ISエンコーダ１０５およびDSエンコーダ１０６のための柔軟な、組み合わされたビット割り当てプロセスを提供し、それにより二つのエンコーダ１０５、１０６が、全データレートのうちISエンコーダ１０５のための割合（「ISデータレート」と称される）および全データレートのうちDSエンコーダ１０６のための割合（「DSデータレート」と称される）を（マルチチャネル・オーディオ信号の要求に従って）タイムラインに沿って動的に調整することが提案される。ISデータレートおよびDSデータレートは、それらの合計があらゆる時点において好ましくは全データレートに対応するよう調整される。組み合わされたビット割り当てプロセスは図５Ａに示されている。図５Ａは、ISエンコーダ１０５およびDSエンコーダ１０６を示している。さらに、図５Ａは、ISエンコーダ１０５からフィードバックされる出力データ５０５に基づいてかつDSエンコーダ１０６からフィードバックされる出力データ５０６に基づいてISデータレートおよびDSデータレートを決定するよう構成されているレート制御ユニット５０１を示している。出力データ５０５、５０６はたとえば、それぞれエンコードされたIS １１０およびエンコードされたDS １２０；および／またはそれぞれのエンコーダ１０５、１０６のSNRオフセットであってもよい。このように、レート制御ユニット５０１は、ISデータレートおよびDSデータレートを動的に決定するために二つのエンコーダ１０５、１０６からの出力データ５０５、５０６を考慮に入れてもよい。ある好ましい実施形態では、ISデータレートおよびDSデータレートの可変な割り当ては、対応するマルチチャネル・オーディオ・デコーダ・システム２００、２１０に対する影響をもたない。換言すれば、上記の可変な割り当ては、対応するマルチチャネル・オーディオ・デコーダ・システム２００、２１０に対して透明であるべきである。

IS／DSデータレートの可変な割り当てを実装する一つの可能な方法は、仮数ビットを割り当てるための共有されるビット割り当てプロセスを実装することである。ISエンコーダ１０５およびDSエンコーダ１０６は、（ビット割り当てユニット３０５において実行される）仮数ビット割り当てプロセスに先行するエンコード段階を独立に実行してもよい。特に、ブロック切り換えフラグ、結合スケール因子、指数、スペクトル拡張などのエンコードは、ISエンコーダ１０５およびDSエンコーダ１０６において独立した仕方で実行されてもよい。他方、ISエンコーダ１０５およびDSエンコーダ１０６のそれぞれのユニット３０５において実行されるビット割り当てプロセスは統合して実行されてもよい。典型的には、ISおよびDSのビットの約80%が仮数のエンコードのために使用される。結果として、ISおよびDSエンコーダ１０５、１０６が仮数ビット割り当て以外のエンコードについては独立して機能するとしても、エンコードのかなりの部分（すなわち仮数ビット割り当て）は統合して実行される。

換言すれば、チャネルの各群の「固定された」データを独立してエンコードすることが提案される（たとえば、指数、結合座標、スペクトル拡張など）。その後、単一のビット割り当てプロセスが、残りのビットの合計を使って基本群１２１および拡張群１２２について実行される。次いで、両方のストリームの仮数が量子化され、パッキングされて、ISのエンコードされたフレーム１５１（ISフレーム１５１と称される）およびDSのエンコードされたフレーム１５２（DSフレーム１５２と称される）を与える。組み合わされたビット割り当てプロセスの結果として、ISフレーム１５１は、タイムラインに沿ってサイズにおいて変化しうる（変化するISデータレートのため）。同様に、DSフレーム１５２は、タイムラインに沿ってサイズにおいて変化しうる（変化するDSデータレートのため）。しかしながら、各時間スライス１７０について（すなわち、マルチチャネル・オーディオ信号の各オーディオ・フレームについて）、ISフレーム（単数または複数）１５１およびDSフレーム（単数または複数）１５２のサイズの合計は実質的に一定であるべきである（一定の全データレートのため）。さらに、組み合わされたビット割り当てプロセスの結果として、ISおよびDSのSNRオフセットは同一であるべきである。統合ビット割り当てユニット３０５において実行される統合ビット割り当てプロセスは、（ISおよびDSについて統合的に）割り当てられた仮数ビットの数を（ISおよびDSについて統合的に）利用可能な仮数ビット数と一致させるために、統合SNRオフセットを調整するからである。ISおよびDSについて同一のSNRオフセットをもつという事実は、最もビットに飢えているサブストリーム（たとえばIS）が、他のビットストリーム（たとえばDS）で余裕がある場合に超過ビットを使うことを許容することによって、全体的な品質を改善するはずである。

図５Ｂは、例示的な組み合わされたIS/DSエンコード方法５１０のフローチャートを示している。本方法は、それぞれ基本群１２１および拡張群１２２の信号フレームのための別個の信号整形段階５２１、５３１を有している。方法５１０は、基本群１２１からのブロックおよび拡張群１２２からのブロックについてそれぞれ、別個の時間から周波数への変換段階５２２、５３２を進める。その後、基本群１２１および拡張群１２２それぞれについて、統合チャネル処理段階５２３、５３３が実行されてもよい。例として、基本群１２１の場合、LstおよびRstチャネルまたは（LFEチャネル以外の）全チャネルが結合されてもよい（段階５２３）。ここで、拡張群１２２については、LsおよびRsおよび／またはLbおよびRbチャネルが結合されてもよい（段階５３３）。それにより、それぞれの結合されたチャネルおよび結合パラメータが与えられる。さらに、基本群１２１からのブロックおよび拡張群１２２からのブロックについてそれぞれ、ブロック浮動小数点エンコード５２４、５３４が実行されてもよい。結果として、基本群１２１および拡張群１２２についてそれぞれ、エンコードされた指数３１３が得られる。上述した処理段階は、図３のコンテキストにおいて概説されているように実行されてもよい。

方法５１０は、統合ビット割り当て段階５４０を有する。統合ビット割り当て５４０は、利用可能な仮数ビットを決定するための、すなわち基本群１２１および拡張群１２２の仮数をエンコードするために利用可能な全ビット数を判別する統合的な段階５４１を有する。さらに、方法５１０は、基本群１２１からのブロックおよび拡張群１２２からのブロックについてそれぞれPSD分布決定段階５２５、５３５を有する。さらに、方法５１０は、基本群１２１および拡張群１２２についてそれぞれマスキング曲線決定段階５２６、５３６を有する。上記で概説したように、PSD分布およびマスキング曲線がマルチチャネル信号の各チャネルについておよび信号フレームの各ブロックについて決定される。（基本群１２１および拡張群１２２についてそれぞれ）PSD／マスキング比較段階５２７、５３７のコンテキストにおいて、PSD分布およびマスキング曲線が比較され、基本群１２１および拡張群１２２の仮数にそれぞれビットが割り当てられる。これらの段階は各チャネルについておよび各ブロックについて実行される。さらに、これらの段階は、所与のSNRオフセット（これはPSD／マスキング比較段階５２７および５３７について等しい）について実行される。

所与のSNRオフセットを使って仮数にビットを割り当てたのち、方法５１０は、割り当てられた仮数ビットの総数を決定する統合的なマッチング段階５４２を進める。さらに、段階５４２のコンテキストにおいて、割り当てられた仮数ビットの総数が（段階５４１で決定された）利用可能な仮数ビットの総数に一致するかどうかが判定される。最適な一致が判別されたら、方法５１０は、基本群１２１および拡張群１２２の仮数の量子化５２８、５３８を、それぞれ段階５２７、５３７において決定された仮数ビットの割り当てに基づいて進める。さらに、ISフレーム１５１およびDSフレーム１５２はそれぞれビットストリーム・パッキング段階５２９、５３９において決定される。他方、最適な一致がまだ判別されていない場合には、SNRオフセットは修正されて、PSD／マスキング比較段階５２７、５３７およびマッチング段階５４２が繰り返される。段階５２７、５３７および５４２は、最適な一致が判別されるまでおよび／または終了条件に達する（たとえば最大逐次反復回数）まで逐次反復される。

PSD判別段階５２５、５３５、マスキング曲線決定段階５２６、５３６およびPSD／マスキング比較段階５２７、５３７は、マルチチャネル信号の各チャネルについておよび信号フレームの各ブロックについて実行されることを注意しておくべきである。結果として、これらの段階は、（定義により）基本群１２１および拡張群１２２について別個に実行される。実のところ、これらの段階は、マルチチャネル信号の各チャネルについて別個に実行される。

全体として、エンコード方法５１０は、ISおよびDSに対するデータレートの、（別個のビット割り当てプロセスに比較して）改善された割り当てにつながる。結果として、エンコードされたマルチチャネル信号（ISおよび少なくとも一つのDSを含む）の知覚される品質が、（別個のISおよびDSエンコーダ１０５、１０６を使ってエンコードされる、エンコードされたマルチチャネル信号に比べて）改善される。

方法５１０によって生成されるISフレーム１５１およびDSフレーム１５２は、それぞれ別個のISおよびDSエンコーダ１０５、１０６によって生成されるISフレームおよびDSフレームと互換な仕方で配置されうる。特に、ISおよびDSフレーム１５１，１５２はそれぞれ、通常のマルチチャネル・デコーダ・システム２００、２１０がISおよびDSフレーム１５１、１５２を別個にデコードすることを許容するビット割り当てパラメータを含んでいてもよい。特に、（同じ）SNRオフセット値がISフレーム１５１中におよびDSフレーム１５２中に挿入されてもよい。よって、５１０の方法に基づくマルチチャネル・エンコーダは、通常のマルチチャネル・デコーダ・システム２００、２１０との関連で使用されてもよい。

基本群１２１および拡張群１２２をそれぞれエンコードするために標準的なISエンコーダ１０５および標準的なDSエンコーダ１０６を使うことが望ましいことがありうる。これはコスト上の理由により有益でありうる。さらに、ある種の状況では、図５Ｂのコンテキストで述べたような統合ビット割り当てプロセス５４０を実装することが可能でないことがある。にもかかわらず、それは、ISデータレートおよびDSデータレートをマルチチャネル・オーディオ信号に適応させることを許容し、それによりエンコードされたマルチチャネル・オーディオ信号の全体的な品質を改善するためには、望ましい。

ISエンコーダ１０５およびDSエンコーダ１０６を修正することなくISデータレートおよびDSデータレートの適応を許容するために、ISデータレートおよびDSデータレートは、IS/DSエンコーダ１０５、１０６に対して外部で、たとえば特定のフレームについての推定される相対ストリーム符号化困難さに基づいて制御されてもよい。特定のフレームについての相対符号化困難さは、たとえば、知覚的エントロピーに基づいて、トーン性に基づいてまたはエネルギーに基づいて推定されてもよい。符号化困難さは、エンコードされるべき現在フレームにとって有意なエンコーダ入力PCMサンプルに基づいて計算されてもよい。これは、（たとえばLFEフィルタ、HPフィルタ、左右サラウンド・チャネルの90°位相シフトおよび／または時間的プレノイズ処理（TPNP: Temporal Pre Noise Processing）によって引き起こされる）任意のその後のエンコード時間遅延に従ってPCMサンプルの正しい時間整列を要求してもよい。符号化困難さの指標についての例は、信号パワー、スペクトル平坦性、トーン性推定値、過渡推定値および／または知覚的エントロピーであってもよい。知覚的エントロピーは、ちょうどマスキング閾値を下回る量子化ノイズをもって信号スペクトルをエンコードするための必要とされるビットの数を測る。知覚的エントロピーの値が高いほど、符号化困難さが高いことを示す。トーン性をもつ音（すなわち、高いトーン性推定値をもつ音）は典型的にはエンコードするのがより困難であり、そのことはたとえばISO/IEC11172-3 MPEG-1音響心理学的モデルのマスキング曲線計算において反映されている。よって、高いトーン性推定値は高い符号化困難さを示しうる（逆もまたしかり）。符号化困難さについての単純な指標は、基本群のチャネルおよび／または拡張群のチャネルの平均信号パワーに基づいていてもよい。

基本群の現在フレームおよび拡張群の対応する現在フレームの推定された符号化困難さが比較されてもよく、ISデータレート／DSデータレート（およびそれぞれの仮数ビット）がしかるべく分配されてもよい。DSデータレート／ISデータレートを決定するための一つの可能な公式は、

であってもよい。ここで、R_DSはDSデータレート、R_Tは全データレート、R_ISはISデータレート、D_ISは基本群のチャネルの符号化困難さ（たとえば、基本群の諸チャネルの平均符号化困難さ）、D_DSは拡張群のチャネルの符号化困難さ（たとえば、拡張群の諸チャネルの平均符号化困難さ）、N_ISは基本群のチャネルの数、N_DSは拡張群のチャネルの数である。

決定されるDSおよびISデータレートは、ISおよび／またはDSのためのビット数がISフレームおよび／またはDSフレームのための固定された最小ビット数を下回らないよう決定されてもよい。よって、ISおよび／またはDSについて最低限の品質が保証されうる。特に、ISフレームおよび／またはDSフレームについての固定された最小ビット数は、仮数とは別の全データ（たとえば指数など）をエンコードするために必要とされるビット数によって制限されてもよい。

もう一つのアプローチでは、メジアン（または平均）符号化困難さの差（IS対DS）が、関連するマルチチャネル・コンテンツの大きな集合に対して決定されてもよい。データレート分配の制御は、典型的なフレーム（たとえば、メジアン符号化困難さの差の所定の範囲内の符号化困難さの差をもつフレーム）については、デフォルトのデータレート分配が使用される（たとえばX%と100%−X%）ようなものであってもよい。それ以外については、データレート分配は、メジアン符号化困難さの差からの実際の符号化困難さの差の偏差に従って、デフォルトから逸脱してもよい。

ISデータレートおよびDSデータレートを符号化困難さに基づいて適応させるエンコーダ５５０が図５Ｃに示されている。エンコーダ５５０は、マルチチャネル・オーディオ信号５５２（および／または基本群１２１のチャネルおよび拡張群１２２のチャネル）を受け取る符号化困難さ決定ユニット５５１を有する。符号化困難さ決定ユニット５５１は、基本群１２１および拡張群１２２のそれぞれの信号フレームを解析し、基本群１２１および拡張群１２２のフレームの相対的な符号化困難さを決定する。相対符号化困難さは、相対符号化困難さに基づいてISデータレート５６１およびDSデータレート５６２を決定するよう構成されているレート制御ユニット５５３に渡される。例として、相対符号化困難さが拡張群１２２に比べて基本群１２１についてより高い符号化困難さを示す場合には、ISデータレート５６１は増大させられ、DSデータレート５６２は減少させられる（逆に、相対符号化困難さが拡張群１２２に比べて基本群１２１についてより低い符号化困難さを示す場合には、ISデータレート５６１は減少させられ、DSデータレート５６２は増大させられる）。

ISエンコーダ１０５およびDSエンコーダ１０６を修正しないISデータレートおよびDSデータレートの適応のためのもう一つのアプローチは、IS/DSフレーム１５１、１５２から一つまたは複数のエンコーダ・パラメータを抽出し、該一つまたは複数のエンコーダ・パラメータをISデータレートおよびDSデータレートを修正するために使うことである。例として、信号フレーム（n−1）のIS/DSフレーム１５１、１５２の抽出される一つまたは複数のエンコーダ・パラメータが、後続信号フレーム（n）をエンコードするためのIS/DSデータレートを決定するために考慮に入れられてもよい。一つまたは複数のエンコーダ・パラメータは、エンコードされたIS １１０およびエンコードされたDS １２０の知覚的な品質に関係していてもよい。例として、前記一つまたは複数のエンコーダ・パラメータは、ISエンコーダ１０５において使用されるDD/DD+ SNRオフセット（IS SNRオフセットと称される）およびDSエンコーダ１０６において使用されるSNRオフセット（DS SNRオフセットと称される）であってもよい。このように、（時点（n−1）における）前のIS/DSフレーム１５１、１５２から取られたIS/DS SNRオフセットが、マルチチャネル・オーディオ信号ストリームを横断してIS/DS SNRオフセットが等化されるよう、（時点（n）における）後続信号フレームについてのIS/DSデータレートを適応的に制御するために使用されてもよい。より一般的な言い方では、（時点（n−1）における）IS/DSフレーム１５１、１５２から取られた一つまたは複数のエンコーダ・パラメータが、マルチチャネル・オーディオ信号ストリームを横断して該一つまたは複数のエンコーダ・パラメータが等化されるよう、（時点（n）における）後続信号フレームについてのIS/DSデータレートを適応的に制御するために使用されてもよいといえる。このように、目標は、エンコードされたマルチチャネル信号の種々の群について同じ品質を与えることである。換言すれば、目標は、エンコードされたサブストリームの品質がマルチチャネル・オーディオ信号ストリームのすべてのサブストリームについてできるだけ近いことを保証することである。この目標は、オーディオ信号の各フレームについて、すなわちすべての時点について、あるいは信号のすべてのフレームについて、達成されるべきである。

図６は、外部IS/DSデータレート適応方式を有する例示的なエンコーダ６００のブロック図を示している。エンコーダ６００は、図３に示されるエンコーダ３００に従って構成されていてもよいISエンコーダ１０５およびDSエンコーダ１０６を有する。信号フレーム（n−1）および時点もしくはフレーム番号（n−1）における割り当てられたISデータレート（n−1）およびDSデータレート（n−1）について、IS/DSエンコーダ１０５、１０６はエンコードされたISフレーム（n−1）およびエンコードされたDSフレーム（n−1）をそれぞれ提供する。それぞれISデータレート（n−1）およびDSデータレート（n−1）を仮数に割り当てるために、ISエンコーダ１０５はIS SNRオフセット（n−1）を使用し、DSエンコーダ１０６はDS SNRオフセット（n−1）を使用する。IS SNRオフセット（n−1）およびDS SNRオフセット（n−1）はそれぞれISフレーム（n−1）およびDSフレーム（n−1）から抽出されてもよい。ストリームを通じて（すなわち、フレーム番号（n）に沿って）IS SNRオフセットとDS SNRオフセットとの間の整列を保証するために、後続信号フレーム（n）をエンコードするためのISデータレート（n）およびDSデータレート（n）を適応させるために、IS SNRオフセット（n−1）およびDS SNRオフセット（n−1）はIS/DSエンコーダ１０５、１０６の入力にフィードバックされてもよい。

特に、エンコーダ６００は、IS SNRオフセット（n−1）とDS SNRオフセット（n−1）との間の差を決定するよう構成されたSNRオフセット偏差ユニット６０１を有する。この差は、（後続信号フレームについての）IS/DSデータレート（n）を制御するために使用されうる。ある実施形態では、DS SNRオフセット（n−1）より小さいIS SNRオフセット（n−1）（すなわち、負の差）は、ISの知覚的品質がDSの知覚的品質より低い可能性が非常に高いことを示す。結果として、後続信号フレーム（n）においてISの知覚的品質を減少させる（または可能性としては影響されないままにしておく）ために、DSデータレート（n）はDSデータレート（n−1）に対して減少させられるべきである。同時に、後続信号フレーム（n）においてISの知覚的品質を増大させ、全データレート要件をも満たすために、ISデータレート（n）はISデータレート（n−1）に対して増大させられるべきである。IS SNRオフセット（n−1）に基づくISデータレート（n）の修正は、IS SNRオフセット（n−1）パラメータによって反映される符号化困難さが二つの相続くフレームの間で有意に変化しないという想定に基づいている。同様に、DS SNRオフセット（n−1）より大きいIS SNRオフセット（n−1）（すなわち、正の差）は、ISの知覚的品質がDSの知覚的品質より高いことを示しうる。ISの知覚的品質が低下し（または影響されないままにされ）、DSの知覚的品質が増大するよう、ISデータレート（n）およびDSデータレート（n）はISデータレート（n−1）およびDSデータレート（n−1）に対して修正されうる。

上述した制御機構は、さまざまな仕方で実装されうる。エンコーダ６００は、IS SNRオフセット（n−1）とDS SNRオフセット（n−1）との間の差の符号を判別するよう構成されている符号判別ユニット６０２を有する。さらに、エンコーダ６００は、あらかじめ決定されたデータレート・オフセット６０３（たとえば、全利用可能データレートのある割合、たとえば約0.5%、1%、2%、3%、4%、5%または10%）を利用する。このデータレート・オフセットは、ISレート修正ユニット６０５およびDSレート修正ユニット６０６において、ISデータレート（n−1）およびDSデータレート（n−1）に対してISデータレート（n）およびDSデータレート（n）を修正するために適用されてもよい。例として、上記の差が負であれば、ISレート修正ユニット６０５は、ISデータレート（n）＝ISデータレート（n−1）＋データレート・オフセットを決定し、DSレート修正ユニット６０６は、DSデータレート（n）＝DSデータレート（n−1）＋データレート・オフセットを決定する（正の差の場合はこの逆）。

全データレートの割り当てをISデータレートおよびDSデータレートに適応させる上述した外部制御方式は、IS SNRオフセットとDS SNRオフセットとの間の差を減らすことに向けられている。換言すれば、上述した制御方式は、IS SNRオフセットおよびDS SNRオフセットを揃え、それによりエンコードされたISおよびエンコードされたDSの知覚される品質を揃えようとする。結果として、エンコードされたマルチチャネル信号（エンコードされたISおよびエンコードされたDSを含む）の全体的な知覚される品質が（固定されたIS/DSデータレートを使うエンコーダ１００に比べて）改善される。

本稿では、マルチチャネル・オーディオ信号をエンコードする方法およびシステムを記述してきた。本方法およびシステムは、マルチチャネル・オーディオ信号を複数のサブストリームにエンコードする。該複数のサブストリームは、マルチチャネル・オーディオ信号のチャネルの種々の組み合わせの効率的なデコードを可能にする。さらに、本方法およびシステムは、複数のサブストリームを横断した仮数ビットの統合的な割り当てを許容し、それにより、エンコードされた（そしてその後デコードされた）マルチチャネル・オーディオ信号の知覚される品質を高める。本方法およびシステムは、エンコードされたサブストリームがレガシーのマルチチャネル・オーディオ・デコーダと互換であるよう構成されてもよい。

特に、本稿は、DD+にける7.1チャネルの、二つのサブストリーム内での伝送を記述している。ここで、第一の「独立」サブストリームは5.1チャネル・ミックスを含み、第二の「従属」サブストリームは「拡張」および／または「置換」チャネルを含む。現在のところ、7.1ストリームのエンコードは典型的には、互いについて何も知らない二つのコア5.1エンコーダによって実行される。二つのコア5.1エンコーダはあるデータレート――全利用可能データレートのある固定された部分――を与えられ、該二つのサブストリームのエンコードを独立に実行する。本稿では、上記の（少なくとも）二つのサブストリームの間で仮数ビットを共有することが提案された。ある実施形態では、各ストリームの「固定した」データは独立にエンコードされる（指数、結合座標など）。その後、単一のビット割り当てプロセスが、残りのビットをもつ両方のストリームについて実行される。最後に、両方のストリームの仮数が量子化され、パッキングされうる。こうすると、エンコードされた信号の各時間スライスは、サイズにおいて同一であるが、個々のエンコードされたフレーム（たとえばISフレームおよび／またはDSフレーム）は変わりうる。また、独立および従属ストリームのSNRオフセットは同一であってもよい（あるいはそれらの差が縮小されてもよい）。そうすることによって、最もビットに飢えているサブストリームが、他方のサブストリームに余裕がある場合／ときに過剰なビットを使うことを許容することにより、全体的なエンコード品質が改善されうる。

本方法およびシステムは7.1DD+オーディオ・エンコーダのコンテキストで記述してきたが、本方法およびシステムは、複数のサブストリームを含むDD+ビットストリームを生成する他のエンコーダにも適用可能であることに注意しておくべきである。さらに、本方法およびシステムは、ビット・プール、複数サブストリームの概念を利用し、全体的なデータレートに対する制約のある（たとえば一定のデータレートを要求する）他のオーディオ／ビデオ・コーデックにも適用可能である。関係したサブストリームに対して作用するオーディオ／ビデオ・コーデックは、該関係したサブストリームに必要に応じてビットを割り当てるよう、共有されるビット・プールを適用し、全データレートを一定に保ちつつサブストリーム・データレートを変えてもよい。

本稿で記載した方法、およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されてもよい。ある種のコンポーネントは、たとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアとしておよびまたは特定用途向け集積回路として実装されてもよい。記載された方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体に記憶されてもよい。該信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたはインターネットのような有線ネットワークのようなネットワークを介して転送されてもよい。本稿で記述された方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および／またはレンダリングするために使用されるポータブル電子装置または他の消費者設備である。
いくつかの態様を記載しておく。
〔態様１〕
全利用可能データレートに従ってマルチチャネル・オーディオ信号をエンコードするよう構成されたオーディオ・エンコーダであって、前記マルチチャネル・オーディオ信号は、基本チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための基本群のチャネルおよび――前記基本群と組み合わせて――拡張チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための拡張群のチャネルとして表現可能であり；前記基本チャネル構成および前記拡張チャネル構成は互いに異なり、当該オーディオ・エンコーダは、
・ISデータレートに従って前記基本群のチャネルをエンコードし、それによりISと称される独立サブストリームを与えるよう構成された基本エンコーダと；
・DSデータレートに従って前記拡張群のチャネルをエンコードし、それによりDSと称される従属サブストリームを与えるよう構成された拡張エンコーダと；
・前記基本群のチャネルについての瞬時IS符号化品質指標および／または前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを、前記ISデータレートと前記DSデータレートの和が実質的に前記全利用可能データレートに対応するよう、定期的に適応させるよう構成されたレート制御ユニットとを有する、
エンコーダ。
〔態様２〕
前記レート制御ユニットは、前記瞬時IS符号化品質指標と前記瞬時DS符号化品質指標の差が低下するよう前記ISデータレートおよび前記DSデータレートを決定するよう構成されている、態様１記載のエンコーダ。
〔態様３〕
前記基本エンコーダおよび前記拡張エンコーダが、前記マルチチャネル・オーディオ信号のフレームのシーケンスをエンコードしてそれによりそれぞれ前記独立サブストリームおよび前記従属サブストリームのISフレームおよびDSフレームの対応するシーケンスを与えるよう構成されたフレーム・ベースのオーディオ・エンコーダである、態様１または２記載のエンコーダ。
〔態様４〕
前記レート制御ユニットは、前記マルチチャネル・オーディオ信号のフレームの前記シーケンスの各フレームについて前記ISデータレートおよび前記DSデータレートを適応させるよう構成されている、態様３記載のエンコーダ。
〔態様５〕
・前記IS符号化品質指標は、ISフレームの前記対応するシーケンスについてのIS符号化品質指標のシーケンスを含み；
・前記DS符号化品質指標は、DSフレームの前記対応するシーケンスについてのDS符号化品質指標のシーケンスを含み；
・前記レート制御ユニットは、ISフレームの前記シーケンスのISフレームのための前記ISデータレートおよびDSフレームの前記シーケンスのDSフレームのための前記DSデータレートを、IS符号化品質指標の前記シーケンスおよびDS符号化品質指標の前記シーケンスに基づいて、前記ISフレームについての前記ISデータレートと前記DSフレームについての前記DSデータレートとの和が実質的に前記全利用可能データレートとなるよう決定するよう構成されている、
態様３または４記載のエンコーダ。
〔態様６〕
・前記基本群のチャネルの第一のフレームに基づいて前記IS符号化品質指標を決定するおよび／または前記拡張群のチャネルの対応する第一のフレームに基づいて前記DS符号化品質指標を決定するよう構成された符号化困難さ決定ユニットをさらに有する、
態様５記載のエンコーダ。
〔態様７〕
・前記IS符号化品質指標は：前記基本群の前記第一のフレームの知覚的エントロピー；前記基本群の前記第一のフレームのトーン性；前記基本群の前記第一のフレームのスペクトル帯域幅；前記基本群の前記第一のフレームにおける過渡成分の存在；前記基本群のチャネル間の相関の度合い；および前記基本群の前記第一のフレームのエネルギーのうちの一つまたは複数であり；
・前記DS符号化品質指標は：前記拡張群の前記第一のフレームの知覚的エントロピー；前記拡張群の前記第一のフレームのトーン性；前記拡張群の前記第一のフレームのスペクトル帯域幅；前記拡張群の前記第一のフレームにおける過渡成分の存在；前記拡張群のチャネル間の相関の度合い；および前記拡張群の前記第一のフレームのエネルギーのうちの一つまたは複数である、
態様６記載のエンコーダ。
〔態様８〕
・前記基本エンコーダは、前記基本群の第一のフレームから変換係数の基本ブロックを決定するよう構成された変換ユニットを有し；
・前記拡張エンコーダは、前記拡張群の対応する第一のフレームから変換係数の拡張ブロックを決定するよう構成された変換ユニットを有し；
・前記基本エンコーダは、変換係数の前記基本ブロックから指数の基本ブロックおよび仮数の基本ブロックを決定するよう構成された浮動小数点エンコード・ユニットを有し；
・前記拡張エンコーダは、変換係数の前記拡張ブロックから指数の拡張ブロックおよび仮数の拡張ブロックを決定するよう構成された浮動小数点エンコード・ユニットを有し；
・前記レート制御ユニットは、
・前記全利用可能データレートに基づいて、仮数の前記基本ブロックおよび仮数の前記拡張ブロックをエンコードするための利用可能な仮数ビットの総数を決定し;
・利用可能な仮数ビットの前記総数を、前記瞬時IS符号化品質指標および前記瞬時DS符号化品質指標に基づいて仮数の前記基本ブロックおよび仮数の前記拡張ブロックに分配し、それにより前記ISデータレートおよび前記DSデータレートを適応させる、
よう構成されている、
態様５記載のエンコーダ。
〔態様９〕
前記レート制御ユニットは、
・変換係数の前記基本ブロックについての基本パワースペクトル密度（PSDと称される）分布を決定し；
・変換係数の前記拡張ブロックについての拡張PSD分布を決定し；
・変換係数の前記基本ブロックについての基本マスキング曲線を決定し；
・変換係数の前記拡張ブロックについての拡張マスキング曲線を決定し；
・前記基本PSD分布、前記拡張PSD分布、前記基本マスキング曲線および前記拡張マスキング曲線に基づいて、利用可能な仮数ビットの前記総数を仮数の前記基本ブロックおよび仮数の前記拡張ブロックに分配する、
よう構成されている、
態様８記載のエンコーダ。
〔態様１０〕
前記レート制御ユニットは、
・ISオフセットを使って前記基本マスキング曲線をオフセットすることによってオフセット基本マスキング曲線を決定し；
・前記基本PSD分布と前記オフセット基本マスキング曲線の比較に基づいて仮数ビットの基本数を仮数の前記基本ブロックに割り当て；
・DSオフセットを使って前記拡張マスキング曲線をオフセットすることによってオフセット拡張マスキング曲線を決定し；
・前記拡張PSD分布と前記オフセット拡張マスキング曲線の比較に基づいて仮数ビットの拡張数を仮数の前記拡張ブロックに割り当て；
・割り当てられた仮数ビットの総数を、仮数ビットの前記基本数と仮数ビットの前記拡張数との和として決定し；
・前記割り当てられた仮数ビットの総数と利用可能な仮数ビットの前記総数との差が所定のビット閾値未満となるよう、前記ISオフセットおよび前記DSオフセットを調整する、
よう構成されている、
態様９記載のエンコーダ。
〔態様１１〕
前記瞬時IS符号化品質指標が前記ISオフセットを含み；
前記瞬時DS符号化品質指標が前記DSオフセットを含む、
態様１０記載のエンコーダ。
〔態様１２〕
前記レート制御ユニットは、
・前記ISオフセットと前記DSオフセットが前記マルチチャネル・オーディオ信号のフレームの前記シーケンスについて等しいよう、前記ISオフセットおよび前記DSオフセットを調整し、それにより前記マルチチャネル・オーディオ信号のフレームの前記シーケンスの各フレームについての前記ISデータレートおよび前記DSデータレートを適応させるよう構成されている、
態様１１記載のエンコーダ。
〔態様１３〕
前記レート制御ユニットは、
・前記マルチチャネル・オーディオ信号の前記第一のフレームについて前記ISオフセットおよび前記DSオフセットを決定し；
・前記マルチチャネル・オーディオ信号の第二のフレームをエンコードするための前記ISデータレートおよび前記DSデータレートを、前記第一のフレームについての前記ISオフセットおよび前記DSオフセットに基づいて調整する、
よう構成されており、前記第一のフレームは前記第二のフレームに先行する、
態様１０記載のエンコーダ。
〔態様１４〕
前記レート制御ユニットは、
・前記ISオフセットと前記DSオフセットとの間の差が低下するよう、前記マルチチャネル・オーディオ信号の前記第二のフレームをエンコードするための前記ISデータレートおよび前記DSデータレートを調整するよう構成されている、
態様１３記載のエンコーダ。
〔態様１５〕
前記レート制御ユニットは、
・前記第一のフレームについての前記ISオフセットと前記DSオフセットとの間の差を決定し；
・前記第二のフレームについての前記ISデータレートを、前記第一のフレームについての前記ISデータレートと比べてあるレート・オフセットだけ変化させ、前記第二のフレームについての前記DSデータレートを、前記第一のフレームについての前記DSデータレートと比べて前記レート・オフセットに負号を付けたものだけ変化させるよう構成されており、
前記レート・オフセットは、決定された前記差に依存する、
態様１３または１４記載のエンコーダ。
〔態様１６〕
前記基本エンコーダおよび前記拡張エンコーダが、ドルビー・デジタル・プラスのエンコードを実行するよう構成されている、
態様１ないし１５のうちいずれか一項記載のエンコーダ。
〔態様１７〕
・前記基本チャネル構成およびチャネルの前記基本群はN個のチャネルを有しており；
・前記拡張チャネル構成はM個のチャネルを有しており、MはNより大きく；
・チャネルの前記拡張群は、前記基本チャネル構成を前記拡張チャネル構成に拡張するための一つまたは複数の拡張チャネルを有している、
態様１ないし１６のうちいずれか一項記載のエンコーダ。
〔態様１８〕
チャネルの前記拡張群は、前記拡張チャネル構成においてレンダリングされるときに前記基本群のチャネルのうちの一つまたは複数のチャネルを置き換える一つまたは複数の置換チャネルを有する、態様１７記載のエンコーダ。
〔態様１９〕
・前記マルチチャネル・オーディオ信号は、中央、左、右、左サラウンド、右サラウンド、左サラウンド後方、右サラウンド後方チャネルおよび低域効果チャネルを含む7.1オーディオ信号であり；
・前記基本群のチャネルは中央、左および右チャネルならびに下方混合された左サラウンド・チャネルおよび下方混合された右サラウンド・チャネルを含み；
・前記下方混合された左サラウンド・チャネルおよび前記下方混合された右サラウンド・チャネルは、左サラウンド、右サラウンド、左サラウンド後方、右サラウンド後方チャネルから導出され；
・拡張群のチャネルは、左サラウンド、右サラウンド、左後方および右後方チャネルを含み；
・前記基本チャネル構成は5.1チャネル構成であり；
・前記拡張チャネル構成は7.1チャネル構成である、
態様１ないし１８のうちいずれか一項記載のエンコーダ。
〔態様２０〕
複数のマルチチャネル・オーディオ信号を全利用可能データレートに従ってエンコードするよう構成されている、態様１ないし１９のうちいずれか一項記載のエンコーダであって、前記複数のマルチチャネル・オーディオ信号のそれぞれは、前記基本チャネル構成に従ってそれぞれのマルチチャネル・オーディオ信号をレンダリングするための基本群のチャネルおよび――それぞれの前記基本群と組み合わせて――前記拡張チャネル構成に従ってそれぞれのマルチチャネル・オーディオ信号をレンダリングするための拡張群のチャネルとして表現可能であり、
・前記基本エンコーダは、前記複数のマルチチャネル・オーディオ信号の前記複数の基本群を対応する複数のISデータレートに従ってエンコードし、それにより対応する複数の独立サブストリームを与えるよう構成されており；
・前記拡張エンコーダは、前記複数のマルチチャネル・オーディオ信号の前記複数の拡張群を対応する複数のDSデータレートに従ってエンコードし、それにより対応する複数の従属サブストリームを与えるよう構成されており；
・前記レート制御ユニットは、前記複数のISデータレートと前記複数のDSデータレートとの和が実質的に前記全利用可能データレートに対応するよう、複数の複数の基本群についての一つまたは複数の瞬時IS符号化品質指標および／または前記複数の拡張群についての一つまたは複数の瞬時DS符号化品質指標に基づいて前記複数のISデータレートおよび前記複数のDSデータレートを定期的に適応させるよう構成されている、
態様１ないし１９のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様２１〕
全利用可能データレートに従ってマルチチャネル・オーディオ信号をエンコードする方法であって、前記マルチチャネル・オーディオ信号は、基本チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための基本群のチャネルおよび――前記基本群と組み合わせて――拡張チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための拡張群のチャネルとして表現可能であり、前記基本チャネル構成および前記拡張チャネル構成は互いに異なり、当該方法は：
・ISデータレートに従って前記基本群のチャネルをエンコードし、それによりISと称される独立サブストリームを与える段階と；
・DSデータレートに従って前記拡張群のチャネルをエンコードし、それによりDSと称される従属サブストリームを与える段階と；
・前記ISデータレートと前記DSデータレートの和が実質的に前記全利用可能データレートに対応するよう、前記基本群のチャネルについての瞬時IS符号化品質指標および／または前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを定期的に適応させる段階とを含む、
方法。
〔態様２２〕
・前記基本群のチャネルの抜粋に基づいて前記IS符号化品質指標を決定するおよび／または前記拡張群のチャネルの対応する抜粋に基づいて前記DS符号化品質指標を決定する段階をさらに含む、
態様２１記載の方法。
〔態様２３〕
・前記IS符号化品質指標は、前記独立サブストリームの抜粋の知覚的品質を示し；
・前記DS符号化品質指標は、前記従属サブストリームの抜粋の知覚的品質を示す、
態様２１または２２記載の方法。
〔態様２４〕
前記ISデータレートおよび前記DSデータレートを適応させる段階が、
・前記IS符号化品質指標と前記DS符号化品質指標との間の絶対的な差が差閾値未満となるよう、前記独立サブストリームの前記抜粋および前記従属サブストリームの前記抜粋をエンコードするための前記ISデータレートおよび前記DSデータレートを適応させることを含む、
態様２３記載の方法。
〔態様２５〕
前記ISデータレートおよび前記DSデータレートを適応させる段階が、
・前記IS符号化品質指標と前記DS符号化品質指標との間の差が差閾値未満であることに基づいて、前記独立サブストリームのさらなる抜粋および前記従属サブストリームの対応するさらなる抜粋をエンコードするための前記ISデータレートおよび前記DSデータレートを適応させることを含み、前記さらなる抜粋は前記抜粋よりあとのものである、
態様２３記載の方法。
〔態様２６〕
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに態様２１ないし２５のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラム。
〔態様２７〕
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに態様２１ないし２５のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する記憶媒体。
〔態様２８〕
コンピュータ上で実行されたときに態様２１ないし２５のうちいずれか一項記載の方法段階を実行するための実行可能命令を有するコンピュータ・プログラム・プロダクト。
〔態様２９〕
エンコードされたオーディオ・データをデコードする方法であって：
前記エンコードされたオーディオ・データを示す信号を受領する段階と；
前記エンコードされたオーディオ・データをデコードして前記オーディオ・データを示す信号を生成する段階とを含み、前記エンコードされたオーディオ・データは：
（ａ）ISデータレートに従って基本群のチャネルをエンコードし、それにより独立サブストリームを与え；
（ｂ）DSデータレートに従って拡張群のチャネルをエンコードし、それにより従属サブストリームを与え；
（ｃ）前記基本群のチャネルについての瞬時IS符号化品質指標および／または前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを、前記ISデータレートと前記DSデータレートの和が実質的に全利用可能データレートに対応するよう、定期的に適応させることによって生成されたものである、
方法。
〔態様３０〕
前記エンコードされたオーディオ・データが、さらに前記基本群のチャネルの抜粋に基づいて前記IS符号化品質指標を決定するおよび／または前記拡張群のチャネルの対応する抜粋に基づいて前記DS符号化品質指標を決定することによって生成されたものである、態様２９記載の方法。
〔態様３１〕
前記瞬時IS符号化品質指標は、前記独立サブストリームの抜粋の知覚的品質を示し；前記瞬時DS符号化品質指標は、前記従属サブストリームの抜粋の知覚的品質を示す、態様２９または３０記載の方法。
〔態様３２〕
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに態様２９ないし３１のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラム。
〔態様３３〕
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに態様２９ないし３１のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する記憶媒体。
〔態様３４〕
コンピュータ上で実行されたときに態様２９ないし３１のうちいずれか一項記載の方法段階に従ってオーディオ・データをデコードするよう構成されたオーディオ・デコーダ。

Claims

全利用可能データレートに従ってマルチチャネル・オーディオ信号をエンコードするよう構成されたオーディオ・エンコーダであって、前記マルチチャネル・オーディオ信号は、基本チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための基本群のチャネルおよび――前記基本群と組み合わせて――拡張チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための拡張群のチャネルとして表現可能であり；前記基本チャネル構成および前記拡張チャネル構成は互いに異なり、当該オーディオ・エンコーダは、
・ISデータレートに従って前記基本群のチャネルをエンコードし、それによりISと称される独立サブストリームを与えるよう構成された基本エンコーダと；
・DSデータレートに従って前記拡張群のチャネルをエンコードし、それによりDSと称される従属サブストリームを与えるよう構成された拡張エンコーダと；
・前記基本群のチャネルについての瞬時IS符号化品質指標および前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを、前記ISデータレートと前記DSデータレートの和が実質的に前記全利用可能データレートに対応するよう、定期的に適応させるよう構成されたレート制御ユニットとを有する、
エンコーダ。
前記レート制御ユニットは、前記瞬時IS符号化品質指標と前記瞬時DS符号化品質指標の差が低下するよう前記ISデータレートおよび前記DSデータレートを決定するよう構成されている、請求項１記載のエンコーダ。
前記基本エンコーダおよび前記拡張エンコーダが、前記マルチチャネル・オーディオ信号のフレームのシーケンスをエンコードしてそれによりそれぞれ前記独立サブストリームおよび前記従属サブストリームのISフレームおよびDSフレームの対応するシーケンスを与えるよう構成されたフレーム・ベースのオーディオ・エンコーダである、請求項１記載のエンコーダ。
前記レート制御ユニットは、前記マルチチャネル・オーディオ信号のフレームの前記シーケンスの各フレームについて前記ISデータレートおよび前記DSデータレートを適応させるよう構成されている、請求項３記載のエンコーダ。
・前記瞬時IS符号化品質指標は、ISフレームの前記対応するシーケンスについての瞬時IS符号化品質指標のシーケンスをなし；
・前記瞬時DS符号化品質指標は、DSフレームの前記対応するシーケンスについての瞬時DS符号化品質指標のシーケンスをなし；
・前記レート制御ユニットは、ISフレームの前記シーケンスのISフレームのための前記ISデータレートおよびDSフレームの前記シーケンスのDSフレームのための前記DSデータレートを、瞬時IS符号化品質指標の前記シーケンスおよび瞬時DS符号化品質指標の前記シーケンスに基づいて、前記ISフレームについての前記ISデータレートと前記DSフレームについての前記DSデータレートとの和が実質的に前記全利用可能データレートとなるよう決定するよう構成されている、
請求項３記載のエンコーダ。
・前記基本群のチャネルの第一のフレームに基づいて前記瞬時IS符号化品質指標を決定するおよび前記拡張群のチャネルの対応する第一のフレームに基づいて前記瞬時DS符号化品質指標を決定するよう構成された符号化困難さ決定ユニットをさらに有する、
請求項５記載のエンコーダ。
・前記瞬時IS符号化品質指標は：前記基本群の前記第一のフレームの知覚的エントロピー；前記基本群の前記第一のフレームのトーン性；前記基本群の前記第一のフレームのスペクトル帯域幅；前記基本群の前記第一のフレームにおける過渡成分の存在；前記基本群のチャネル間の相関の度合い；および前記基本群の前記第一のフレームのエネルギーのうちの一つまたは複数であり；
・前記瞬時DS符号化品質指標は：前記拡張群の前記第一のフレームの知覚的エントロピー；前記拡張群の前記第一のフレームのトーン性；前記拡張群の前記第一のフレームのスペクトル帯域幅；前記拡張群の前記第一のフレームにおける過渡成分の存在；前記拡張群のチャネル間の相関の度合い；および前記拡張群の前記第一のフレームのエネルギーのうちの一つまたは複数である、
請求項６記載のエンコーダ。
全利用可能データレートに従ってマルチチャネル・オーディオ信号をエンコードする方法であって、前記マルチチャネル・オーディオ信号は、基本チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための基本群のチャネルおよび――前記基本群と組み合わせて――拡張チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための拡張群のチャネルとして表現可能であり、前記基本チャネル構成および前記拡張チャネル構成は互いに異なり、当該方法は：
・ISデータレートに従って前記基本群のチャネルをエンコードし、それによりISと称される独立サブストリームを与える段階と；
・DSデータレートに従って前記拡張群のチャネルをエンコードし、それによりDSと称される従属サブストリームを与える段階と；
・前記ISデータレートと前記DSデータレートの和が実質的に前記全利用可能データレートに対応するよう、前記基本群のチャネルについての瞬時IS符号化品質指標および前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを定期的に適応させる段階とを含む、
方法。
・前記基本群のチャネルの一つまたは複数のフレームに基づいて前記瞬時IS符号化品質指標を決定するおよび前記拡張群のチャネルの一つまたは複数の対応するフレームに基づいて前記瞬時DS符号化品質指標を決定する段階をさらに含む、
請求項８記載の方法。
・前記瞬時IS符号化品質指標は、前記独立サブストリームの一つまたは複数のフレームの知覚的品質を示し；
・前記瞬時DS符号化品質指標は、前記従属サブストリームの一つまたは複数のフレームの知覚的品質を示す、
請求項８記載の方法。
前記ISデータレートおよび前記DSデータレートを適応させる段階が、
・前記瞬時IS符号化品質指標と前記瞬時DS符号化品質指標との間の絶対的な差が差閾値未満となるよう、前記独立サブストリームの前記一つまたは複数のフレームおよび前記従属サブストリームの前記一つまたは複数のフレームをエンコードするための前記ISデータレートおよび前記DSデータレートを適応させることを含む、
請求項１０記載の方法。
前記ISデータレートおよび前記DSデータレートを適応させる段階が、
・前記瞬時IS符号化品質指標と前記瞬時DS符号化品質指標との間の差が差閾値未満であることに基づいて、前記独立サブストリームの一つまたは複数のさらなるフレームおよび前記従属サブストリームの一つまたは複数の対応するさらなるフレームをエンコードするための前記ISデータレートおよび前記DSデータレートを適応させることを含み、前記一つまたは複数のさらなるフレームは前記一つまたは複数のフレームよりあとのものである、
請求項１０記載の方法。
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに請求項８記載の方法段階を実行するために適応されているソフトウェア・プログラム。
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに請求項８記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する記憶媒体。
エンコードされたオーディオ・データをデコードする方法であって：
前記エンコードされたオーディオ・データを示す信号を受領する段階と；
前記エンコードされたオーディオ・データをデコードして前記オーディオ・データを示す信号を生成する段階とを含み、前記エンコードされたオーディオ・データは：
（ａ）ISデータレートに従って基本群のチャネルをエンコードし、それにより独立サブストリームを与え；
（ｂ）DSデータレートに従って拡張群のチャネルをエンコードし、それにより従属サブストリームを与え；
（ｃ）前記基本群のチャネルについての瞬時IS符号化品質指標および前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを、前記ISデータレートと前記DSデータレートの和が実質的に全利用可能データレートに対応するよう、定期的に適応させることによって生成されたものである、
方法。
前記エンコードされたオーディオ・データが、さらに前記基本群のチャネルの抜粋に基づいて前記瞬時IS符号化品質指標を決定するおよび前記拡張群のチャネルの対応する抜粋に基づいて前記瞬時DS符号化品質指標を決定することによって生成されたものである、請求項１５記載の方法。
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに請求項１５記載の方法段階を実行するために適応されているソフトウェア・プログラム。
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに請求項１５記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する記憶媒体。
コンピュータ上で実行されたときに請求項１５記載の方法段階に従ってオーディオ・データをデコードするよう構成されたオーディオ・デコーダ。