JP5193397B2

JP5193397B2 - 選択的チャネル復号による効率的な多チャネル信号処理

Info

Publication number: JP5193397B2
Application number: JP2012531290A
Authority: JP
Inventors: テシング，ロビン
Original assignee: ドルビーインターナショナルアーベー
Priority date: 2009-10-06
Filing date: 2010-10-05
Publication date: 2013-05-08
Anticipated expiration: 2030-10-05
Also published as: TWI413110B; EP2486563B1; JP2013506860A; AR079287A1; EP2486563A1; US20120209615A1; US8738386B2; CN102549656B; WO2011042149A1; CN102549656A; TW201140560A

Description

本発明は概括的にはオーディオおよびビデオ符号化システムに関し、より詳細にはオーディオおよびビデオ情報を表すデータを処理および復号する改善された方法に関する。

いくつかの国際規格は、聴覚的および視覚的刺激を表す情報が記録および伝送のためにいかにしてエンコードされ、フォーマットされることができるか、およびエンコードされた情報が再生のためにいかにして受信および復号されることができるかを定義している。議論の簡単のため、聴覚および視覚的刺激を表す情報は本稿ではそれぞれオーディオおよびビデオ情報と称される。

これらの規格に準拠する多くのアプリケーションはエンコードされたオーディオおよびビデオ情報をバイナリー・データとしてシリアル式に伝送する。結果として、エンコードされたデータはしばしばビットストリームと称されるが、データの他の構成も許容可能である。議論の簡単のため、本稿では、使用されるデータ・フォーマットまたは記録もしくは伝送技法に関わりなく、エンコードされたデータを指すのに用語「ビットストリーム」を用いる。

国際標準機関（ISO）によって公開されているこれらの規格の二つの例は、ISO/IEC13818-7、先進オーディオ符号化（AAC: Advanced Audio Coding）、別称MPEG-2 AACと、ISO/IEC14496-3、サブパート4、別称MPEG-4オーディオである。これら二つの規格には、本開示の目的について両者を互いに類似したものとする共通の技術的特徴がある。

MPEG-2 AACおよびMPEG-4オーディオ規格のような規格は、一つまたは複数のオーディオ・チャネルを表すエンコードされたデータを伝送することのできるビットストリームを定義する。オーディオ・チャネルの概念はよく知られている。二つのスピーカーをもつ通常のステレオ再生システムは、しばしば左（L）および右（R）チャネルと称される二つのオーディオ・チャネルを再生することのできる再生システムのよく知られた例である。いわゆるホーム・シアター用途のための多チャネル再生システムは、中央（C）、後方左サラウンド（BL）、後方右サラウンド（BR）および低周波数効果（LFE: low-frequency-effects）チャネルのような追加的チャネルを再生することができる。

エンコードされたビットストリームからオーディオを再生することのできるシステムは、エンコードされたデータをビットストリームから抽出し、抽出されたデータを個々のオーディオ・チャネルを表す信号に復号することのできる装置を含む必要がある。データを復号し、合成フィルタを適用して出力信号を得るために必要とされるメモリおよび処理のためのハードウェア資源のコストは、復号装置の全製造コストのかなりの部分である。結果として、デコーダの電力要求および購入価格は、該デコーダが復号できるチャネルの数によって有意に影響される。電力要求および購入価格を下げる努力において、オーディオ・システム製造業者は、ビットストリーム規格において定義されている全チャネルのうち所望されるサブセットのみを復号することができるデコーダを構築する。例としてMPEG-2 AACおよびMPEG-4オーディオ規格を参照するに、ビットストリームは、1ないし48個のオーディオ・チャネルを表すエンコードされたデータを伝達できるが、全部ではないまでもたいていの実際上のデコーダは、最大数のチャネルのうちの小さな割合しか復号できない。

典型的なデコーダが特定のビットストリームを処理するのは、該ビットストリームにおいて伝達されるエンコードされたチャネルのすべてをデコードする機能をもつ場合にのみである。典型的なデコーダが、自分が復号できるより多くのオーディオ・チャネルを表すデータを伝達するビットストリームを受け取った場合、該デコーダは本質的にはビットストリーム中のエンコードされたデータを破棄し、どのチャネルも復号しない。この残念な状況が存在するのは、デコーダがビットストリームによって伝達されるチャネルのサブセットをインテリジェントな仕方で選択および処理するために必要な論理を有さないからである。

デコーダが復号できるチャネル数を超える数のチャネルを表すデータを伝達するビットストリームを処理および復号することのできるデコーダを提供することが本発明の一つの目的である。

この機能を、効率的であり、ビットストリームを処理するために必要とされる計算資源を最小にする仕方で提供することが本発明のさらなる目的である。

これらの目的は、本発明によって達成される。本発明のある側面によれば、デコーダが、一つまたは複数のオーディオ・チャネルを表すエンコードされた情報を伝達する入力信号を受信し、前記エンコードされた情報によって表される前記一つまたは複数のオーディオ・チャネルについてチャネル構成マップ（channel configuration map）を決定し、前記チャネル構成マップを使って、前記一つまたは複数のオーディオ・チャネルのうちのどれが復号されるべきかを指定するチャネル選択マスク（channel selection mask）を取得し、前記チャネル選択マスクに従って、前記入力信号からエンコードされた情報を抽出して抽出されたエンコードされた情報を復号する。

本発明のさまざまな特徴およびその好ましい実施形態は、以下の議論および付属の図面を参照することによってよりよく理解されうる。図面において、同様の参照符号は各図の同様の要素を指す。以下の議論および図面の内容は例として記載されている。本発明の範囲内に含まれる代替的な実装および等価な特徴は、当業者にはすぐ明白となるはずである。US2007/0233296はスケーラブルなチャネル復号をもつ方法を記載している。WO2005/101905は多チャネル・オーディオ信号のパラメトリック表現を生成する方式を記載している。US2008/0221907は多チャネル・オーディオ信号を復号する方法を記載している。US2007/0011004は損失のないオーディオ・エンコードおよびデコードのための方法を記載している。

オーディオ・デコーダの概略的なブロック図である。図１のオーディオ・デコーダにおいて使うためのチャネル選択コンポーネントのブロック概略図である。チャネル選択コンポーネントの例示的な実装の動作を例解する概略的なブロック図である。チャネル選択コンポーネントの例示的な実装の動作を例解する概略的なブロック図である。本発明のさまざまな側面を実装するために使用されうる装置の概略的なブロック図である。

〈Ａ．序〉
図１は、エンコードされたオーディオ情報の一つまたは複数のチャネルを表すビットストリームを伝達する入力信号を通信経路１１から受け取り、復号されたオーディオ情報の一つまたは複数のチャネルを表す出力信号を通信経路１９に沿って生成するオーディオ・デコーダ１０の概略的なブロック図である。デコーダ１０は、入力信号ビットストリームから、エンコードされたデータの一連のブロックまたはシンタックス要素を抽出し、経路１３に沿って選択コンポーネント１４に渡すパース（parse）・コンポーネント１２を有する。選択コンポーネント１４は、エンコードされたデータのどのシンタックス要素が経路１５に沿って復号コンポーネント１６に渡されるかを決定する。復号コンポーネント１６は、エンコードされたデータのブロックに復号プロセスを適用して、経路１７に沿って復号されたデータを生成する。フィルタ・コンポーネント１８は復号されたデータに一つまたは複数の合成フィルタを適用し、経路１９に沿って復号されたオーディオ情報を生成する。

デコーダ１０の通常の実装では、選択コンポーネント１４は経路１３から受け取ったシンタックス要素の内容を調べて、入力信号において伝達されるエンコードされたオーディオ情報の入力チャネルの数を決定し、この数をデコーダ１０が復号できるオーディオ・チャネルの数と比較する。入力信号において伝達される入力チャネルの数がデコーダ１０が復号できるチャネルの数以下であれば、選択コンポーネント１４はすべてのチャネルについてのシンタックス要素を経路１５に沿って復号コンポーネント１６に渡す；そうでなければ、選択コンポーネント１４はどのシンタックス要素も復号コンポーネント１６に渡さない、あるいは復号されるべきチャネルがないことを示す何らかの信号を復号コンポーネント１６に与える。

復号コンポーネント１６は、経路１５に沿って渡されたシンタックス要素に含まれるデータに対して適切な復号プロセスを適用する。復号プロセスは、シンタックス要素において伝達されるエンコードされたデータを生成するのに使われたエンコード・プロセスと相補的なものであるべきである。たとえば入力信号がMPEG-2 AACまたはMPEG-4オーディオ規格に準拠する場合、復号コンポーネント１６は、それぞれISO/IEC13818-7またはISO・IEC14496-3、サブパート4規格に準拠するプロセスを適用する。

シンタックス要素によって伝達されたデータから導出された復号されたデータは、経路１７に沿ってフィルタ・コンポーネント１８に渡される。フィルタ・コンポーネント１８は、復号されたシンタックス要素内のデータに、シンタックス要素内のデータをエンコードしたエンコーダによって使われた分解（analysis）フィルタの逆である合成（synthesis）フィルタを適用する。合成フィルタは、修正離散コサイン変換（Modified Discrete Cosine Transform）のような変換または直交ミラー・フィルタ（QMF: quadrature mirror filter）のようなフィルタを含む多様な仕方で実装されうる。

〈Ｂ．向上されたチャネル選択〉
本発明の諸側面を組み込むデコーダは、再生のために選択および処理されるべき入力ビットストリーム中のオーディオ・チャネルを定義するチャネル選択マスクを定義するために向上された選択コンポーネント１４を使う。一つまたは複数のチャネル選択マップのセットを使うプロセスからチャネル選択マスクを構築する一つの実装を以下に述べる。これらのマップは、入力ビットストリーム中のチャネルの数に対していかなる制限を課すこともなく、復号されることのできる出力チャネルの数および型の構成を定義する。代替的な実装も可能である。

このチャネル選択プロセスは、本質的には、復号のために選択されないチャネルについてのデータを、計算集約的な復号アルゴリズムが呼び出される前に、受信／復号プロセスの早い段階で破棄するので、効率的である。別の言い方をすれば、全体的な受信／復号プロセスの計算集約的な部分は、復号のために選択されるチャネルにのみ適用される。

これらの側面は、MPEG-2 AACおよびMPEG-4オーディオ規格の現在定義されているあらゆる変形および同様のデータ構造物をもつ他の規格に準拠するビットストリームとともに使ってもよい。本発明は、任意の数のチャネルをもつ入力ビットストリームを受け入れ、そのビットストリームを処理して、そのビットストリーム中のチャネルの一部または全部を復号することによって得られる出力チャネルの最適構成を得ることを必要とする本質的にいかなる復号装置においても用いることができる。

〈１．パース・コンポーネント〉
パース・コンポーネント１２は入力信号ビットストリームからエンコードされたデータの一連のブロックまたはシンタックス要素を抽出する。パース・コンポーネント１２は、当技術分野においてよく知られている通常の技法を使ってこれらのシンタックス要素を抽出してもよい。

上述したMPEG-2 AACおよびMPEG-4オーディオ規格を含む多くの異なる規格に準拠するビットストリームは、論理的に、フレームと称される区画に分割される。たとえばAAC準拠ビットストリーム中のデータは一連の可変長フレームを定義し、該可変長フレームは今度は、論理的に、一連の、種々の型のブロックまたはシンタックス要素に分割される。各シンタックス要素における最初の3ビットは要素型を指定する。要素の8個の異なる型がある。そうした型のいくつかについてここで述べる。

単一チャネル要素（SCE: single-channel element）は単一のオーディオ・チャネルのためのデータを伝達する。チャネル対要素（CPE: channel-pair element）はオーディオ・チャネルの対についてのデータを伝達する。プログラム構成要素（PCE: program-configuration element）は、ビットストリームによって伝達されるデータのチャネルを記述する。低周波数効果要素（low-frequency-effects element）（本開示ではLFEEと称される）はLFEチャネルまたは特殊効果チャネルのためのデータを伝達する。終了要素（termination element）（TERM）はフレーム中の最後のシンタックス要素を示す。

個々のAAC準拠ビットストリームは、すべての型のシンタックス要素を含まなくてもよい。たとえば、単一のオーディオ・チャネルのみのためのデータを伝達するビットストリームはいかなるCPEももたないであろうし、特殊効果またはLFEチャネルのためのデータチャネルについてのデータを伝達しないビットストリームはLFEEを全くもたないであろう。

〈２．選択コンポーネント〉
図２は、本発明を実行するために選択コンポーネント１４が実装されうる一つの仕方の概略図である。この実装では、コンポーネント３２がビットストリームのチャネル構成を決定する。これについて以下でより詳細に述べる。

コンポーネント３４がこの構成を、チャネル構成マップ（channel configuration map）を生成するために使う。ある実装では、このマップは、入力ビットストリーム中の各オーディオ・チャネルとそのチャネルを再生するよう意図されたスピーカー位置との間の関係を定義する。

コンポーネント３８は、どのスピーカー位置が復号されることができるかを指定する一つまたは複数のチャネル選択マップ（channel selection map）のセットを与える。ある実装では、チャネル選択マップのフォーマットおよび配置は、チャネル構成マップのフォーマットおよび配置と同じである。これは、入力ビットストリームのチャネル構成に対する最良一致を与えるチャネル選択マップを選ぶコンポーネント３６によって実行される処理を容易にしうる。

コンポーネント４２は、入力ビットストリームのどのオーディオ・チャネルが復号されるかおよびそれらがどのようにしてデコーダ１０の出力チャネルに向けるかを定義するチャネル選択マスク（channel selection mask）を構築するためにチャネル選択マップを使う。

これらのコンポーネントについては以下でより詳細に論じる。

二つ以上のチャネル選択マップのそれぞれについてチャネル選択マスクを構築し、復号のために最良の選択マスクを選ぶ代替的な実装が可能である。この実装についてはこれ以上は論じない。

ａ）チャネル構成の抽出
コンポーネント３２が、特定のMPEG-2 AACまたはMPEG-4オーディオ準拠ビットストリームによって表されるオーディオ・チャネルの構成を決定するのは、三つの方法のうち一つにおいてでありうる。二つの方法は、MPEG-2 AACまたはMPEG-4オーディオ規格のいずれかに準拠するビットストリームに関する。第三の方法は、MPEG-2 AAC規格に準拠するビットストリームのみに関する。

MPEG-2 AACまたはMPEG-4オーディオ準拠ビットストリームは、表１に挙げられるいくつかのあらかじめ定義されたチャネル構成の一つを示す、一般にチャネル構成インデックス（channel configuration index）と呼ばれるインデックス値を使ってチャネル構成を信号伝達しうる。MPEG-2 AAC準拠ビットストリームについては、インデックス値は3ビットを有し、表１の最初の8個だけのエントリーのうちの一つを示しうる。MPEG-4オーディオ準拠ビットストリームについては、インデックス値は4ビットであり、表１の16個のエントリーのうちの任意の一つを示しうる。この構成における各チャネルは、そのチャネルを再生するために聴取者に対してスピーカーが配置されるべき位置を用いて記述される。MPEG-4オーディオ準拠ビットストリームにおける0のインデックス値は、そのチャネル構成がPCEによって指定されることを示す。MPEG-2 AAC準拠ビットストリームにおける0のインデックス値は、そのチャネル構成がPCEによって指定されるか、暗黙的に指定されることを示す。いずれかの型のビットストリームにおいてPCEが存在する場合、それは構成プロセスにおいて優先される。

以下のチャネル記法が使用される：
（C）中央前方チャネル；（L）左前方チャネル；（R）右前方チャネル
（BC）後方中央チャネル；（BL）後方左チャネル；（BR）後方右チャネル
（SL）側方左チャネル；（SR）側方右チャネル；（LFE）低周波数効果チャネル
前方チャネルと側方チャネルの間にある他所で言及される追加的チャネルは、「ワイド」チャネルと称される。ワイド左チャネル（WL）はL位置とSL位置の間であり、ワイド右チャネルはR位置とSR位置の間である。

MPEG-2 AACおよびMPEG-4オーディオ準拠ビットストリームは、ビットストリーム中の一つのオーディオ・プログラム専用の構成情報を担持するPCEを使ってチャネル構成を信号伝達してもよい。この方法を使ってチャネル構成を信号伝達するには、チャネル構成インデックスは0に設定される必要がある。さらなる詳細は、ISO/IEC14496-3のセクション4.5.1.2から得られうる。これらの詳細は、本発明を理解するためには必要とされない。

MPEG-2 AAC準拠ビットストリームについては、先述したチャネル信号伝達方法のいずれも使われ得ないことも可能である。この場合、チャネル構成インデックスは0に設定されるが、構成を定義するためのPCEは存在しない。MPEG-2準拠デコーダは、ISO/IEC13818-7のセクション8.5.3.3において定義される規則を使ってオーディオ・チャネル・シンタックス要素によって指定されるオーディオ・チャネルの数および配置からチャネル構成を推定しなければならない。そうした規則の詳細は、本発明を理解するためには必要とされない。

ｂ）チャネル構成マップ
コンポーネント３４は、入力ビットストリーム中のオーディオ・チャネルと、それらのチャネルを再生するよう意図されているスピーカーの位置との間の関係を定義するチャネル構成マップを生成する。コンポーネント３８は、どのスピーカー位置が復号されることができるかを指定する一つまたは複数のチャネル選択マップのセットを提供する。好ましくは、チャネル構成マップおよびチャネル選択マップは、同じフォーマットおよびチャネル配置をもつ。

チャネル構成マップ中の項目は、マスター・チャネル選択マップにおけるチャネルの順序に対して定義される。マスター・チャネル選択マップは、デコーダ１０が処理および復号できるすべての可能なチャネルを定義する。

MPEG-2 AACおよびMPEG-4オーディオ準拠ビットストリームは、48個ものチャネルを伝達しうる。この数は、典型的なデコーダが処理できるチャネルの最大数よりずっと多い。デコーダのための典型的な最大は、約10チャネルまたはそれ未満である。好ましい諸実装では、マスター・チャネル選択マップは、48チャネルすべてを定義するエントリーは含まない。そうしたマップにおけるスペースは一般に未使用となるからである。10エントリー程度のより小さなマップが通例十分である。マスター・チャネル選択マップにおいて定義されていない一つまたは複数のチャネルを伝達するビットストリームに遭遇した場合、それらの追加的チャネルのそれぞれは破棄されうる。

11個のチャネルを定義する仮想的なマスター・チャネル選択マップが表２に示されている。たいていの実装では、マスター・チャネル選択マップにおけるチャネルのすべてが同時に復号できるわけではない。たとえば、5チャネル・デコーダは、所与のビットストリームについて表２のマスター選択マップの11個のチャネルすべてを復号できるのではなく、それらのチャネルのうち5個までのさまざまな組み合わせを復号できる。

表２はまた、種々のビットストリーム構成についていくつかの例示的なチャネル構成マップをも示している。各チャネル構成マップは、ビットストリーム中のチャネルと、マスター・チャネル選択マップにおけるチャネルとの間の関係を定義しうる。

MPEG-2 AACおよびMPEG-4オーディオ準拠ビットストリームについては、デコーダ１０はビットストリーム中のチャネルの位置を、チャネル構成マップへのインデックスとして使用してもよい。チャネル構成マップにおける対応するエントリーは、マスター・チャネル選択マップ中へのインデックスを表す。マスター・チャネル選択マップにおけるエントリーは最終的に、ビットストリーム中の所与のチャネルに関連付けられているスピーカー位置を指定しうる。

5つの異なるビットストリーム構成についてのチャネル構成マップが示されている。ステレオ・ビットストリームについてのチャネル構成マップは、「ステレオ」という見出しの下の列に示されている。ビットストリームの二つのチャネルはLおよびRチャネルにマッピングされる。いわゆる5.0ビットストリームについてのチャネル構成マップは「5.0」という見出しの下の列に示されている。このビットストリームの5つのチャネルはC、L、R、BLおよびBRチャネルにマッピングされる。いわゆる7.1ビットストリームについてのチャネル構成マップは「7.1」という見出しの下の列に示されている。このビットストリームの8つのチャネルはC、L、R、SL、SR、BL、BRおよびLFEチャネルにマッピングされる。

ｃ）チャネル選択マップ
コンポーネント３８によって与えられるチャネル選択マップは、デコーダ１０が処理および復号できる、マスター・チャネル選択マップにおけるチャネルの組み合わせを定義する。ビットストリーム中のどのチャネルが復号されるかを指定するために、これらのマップの一つがコンポーネント３６によって選ばれる。

図３を参照するに、コンポーネント３８によって与えられる4つのチャネル選択マップが、図の右上隅に示されている。各マップは、マスター・チャネル選択マップにおける各チャネルについての項目をもつ。シンボル「1」によって表される項目は、対応するチャネルが処理および復号されることができることを示す。シンボル「0」によって表される項目は、対応するチャネルが復号されないことを示す。左から右の順において最初の三つのチャネル選択マップは、それぞれ５個の「1」の項目をもつ。これらのマップのうちの一つが処理のために選ばれる場合、5個までのチャネルが復号されることができる。右端にあるチャネル選択マップは4個の「1」項目をもつ。このマップが処理のために選ばれる場合、4個までのチャネルが復号されることができる。

ｄ）チャネル選択マップを選ぶ
コンポーネント３６は、コンポーネント３８によって与えられたチャネル選択マップのすべてを調べ、コンポーネント３４によって生成されたチャネル構成マップに対する最良一致を与えるチャネル選択マップを選ぶ。ある実装では、最良一致は、最大数のチャネルが復号されることを許容するチャネル選択マップを同定することによって決定される。これは、図３および図４において概略的に例解される。

図３を参照するに、コンポーネント３４は、表２に示されるマップと整合する、8チャネルのビットストリームについてのチャネル構成マップを生成する。ビットストリーム中に存在する、該構成マップ中のチャネルはボールド体で示されている。ビットストリーム中に存在しないチャネルはイタリック体で示されている。この例示的な実装では、コンポーネント３８は、上で論じたような4つのチャネル選択マップを提供する。コンポーネント３６は、チャネル構成マップ中のチャネルに対応する各チャネル選択マップ中の「1」項目の数を数え、その計数値を同定する。各チャネル選択マップについての計数値は、左から右へ、5、5、3および3である。

コンポーネント３６は、最大数のチャネルを復号できるチャネル選択マップを選ぶ。この例では、最大数は5であり、マップのうちの二つが5個のチャネルを復号できる。ある好ましい実装では、チャネル選択マップは優先度を割り当てられており、同順の場合、より高い優先度のチャネル選択マップが選ばれる。この例では、チャネル選択マップは、左から右へと優先度の順に示されている。結果として、最初のチャネル選択マップがビットストリームを処理するために選ばれる。

図４にはもう一つの例が示されている。この例では、コンポーネント３４は、4チャネル・ビットストリームのためのチャネル構成マップを生成する。ビットストリーム中に存在するチャネルおよび存在しないチャネルはそれぞれボールド体、イタリック体で示されている。コンポーネント３８は上で論じたのと同じ4つのチャネル選択マップを与える。コンポーネント３６は、チャネル構成マップにおけるチャネルに対応する各チャネル選択マップ中の「1」項目の数を数える。各チャネル選択マップ中の計数値は、左から右に、3、3、3および4である。コンポーネント３６は、4個のチャネルを復号することを提供するチャネル選択マスクを選ぶ。

ｅ）チャネル選択マスク
コンポーネント４２は、入力ビットストリームのどのオーディオ・チャネルが復号されるかおよびそれらがデコーダ１０の出力チャネルにどのように導かれるかを定義するチャネル選択マスクを構築するために、選ばれたチャネル選択マップを使う。このマスクは、ある種のチャネルの復号を禁止し、他のチャネルの復号を許可する。図３および図４に示される実装では、マスクは「O」および「X」の記号で表される項目を含む。マスク中の「O」の項目はチャネルが復号されることを許容する。マスク中の「X」の項目はチャネルが復号されることを禁止する。

チャネル選択マスクは、ビットストリーム中の各チャネルについての項目をもつ。チャネル選択マップ中の項目が「1」であれば、チャネル選択マスクは、対応する項目について「O」をもつよう構築される。チャネル選択マップ中の項目が「0」であれば、チャネル選択マスクは、対応する項目について「X」をもつよう構築される。

図３を参照するに、チャネル選択マスクは、ビットストリーム中の各チャネルについて一つで、8個の項目をもち、マスク中の5個の「O」項目が選ばれたチャネル選択マップ中の5個の「1」項目に対応する。図４を参照するに、チャネル選択マップは、ビットストリーム中の各チャネルについて一つで、4個の項目をもち、マスク中の4個の「O」項目が選ばれたチャネル選択マップ中の4個の「1」項目に対応する。

ｆ）チャネル要素の抽出および選択
コンポーネント４４および４６は、チャネル選択マスクに従ってビットストリームを処理する。コンポーネント４４は、ビットストリームからオーディオ・チャネル・シンタックス要素を抽出し、それらをコンポーネント４６に渡す。コンポーネント４６は各オーディオ・チャネル・シンタックス要素をチャネル選択マスクと突き合わせて検査する。対応するマスク項目が有効にされている、あるいは図に示したような「O」項目である場合、そのシンタックス要素は復号のために経路１５に沿って渡される。対応するマスク項目が無効にされている、あるいは図に示したような「X」項目である場合、そのシンタックス要素は破棄される。

フレーム中の、またはシンタックス要素中のデータがハフマン符号化または算術符号化のような可変長シンボルを生成する符号化プロセスによってエンコードされた場合、各シンタックス要素およびフレームの末尾が正しく判別できるよう、エンコードされたデータのすべてに対して適切な復号が適用される必要がある。復号のために選択されたチャネルについてのデータは、通常の仕方で処理される。さらなる復号を禁止されているチャネルについてのデータは、破棄されるまたは一時的に記憶されて所望に応じて上書きされることができる。

エンコードされたデータにおいて訂正できない誤りが検出された場合、デコーダの出力をミュートするまたは誤りを隠蔽するための他の行動を取ることが望ましいことがありうる。これは、誤りが検出されたのが破棄されるチャネルに対応するデータにおいてであったとしても、必要であることがありうる。そうした誤りのため、デコーダが、フレームとの同期を失うことがありうるからである。通常の誤り回復技法が使用されてもよい。

チャネル構成マップが暗黙的に決定される場合、チャネル構成が決定できる前に、ビットストリームのフレーム全体が調べられる必要がある。結果として、最初のフレームにおけるオーディオ・チャネル・シンタックス要素は、上記のように復号されることができない。それらは、チャネル選択マスクが構築できる前に処理済みとなるはずだからである。この状況は、ビットストリームの最初に受領されたフレームについてのみ生じる。ビットストリームのその後のいかなるフレームについても、暗黙的にチャネル構成マップを決定する必要はない。というのも、ISO/IEC13818-7規格のセクション8.5.3.3によれば、「暗黙的再構成は許容されない」からである。チャネル構成が変化する場合、これはPCEを使うことによって示される必要がある。

ビットストリームの最初に受領されたフレームにおけるオーディオ・チャネル・シンタックス要素は、以下に論じるような多様な方法において、暗黙的に決定されたチャネル構成に従って処理されることができる。

一つの方法は、最初に受領されたフレームからのオーディオの復号を禁止する。チャネル選択マスクは、上記のようにして最初に受領されたフレームから決定され、そのマスクが第二およびその後のフレームを復号するために使われる。

もう一つの方法は、処理に先立って各フレームについてのシンタックス要素をバッファリングすることである。このアプローチは、追加的なメモリを、可能性としては従来技術のデコーダと同じくらい多くのメモリを要求するが、上記のような、ビットストリーム中の明示的な情報からチャネル構成を構築するデコーダによって達成されるのと実質的に同じ計算量の削減を提供する。

さらにもう一つの方法は、「平坦」なチャネル選択マスクを使って最初のフレーム中のオーディオ・チャネル・シンタックス要素を処理する。平坦なチャネル選択マスクは、最初のN個チャネルのための復号を可能にする。ここで、Nは、コンポーネント３８によって与えられるチャネル選択マップのいずれかによって許容される最大チャネル数である。このアプローチは、最初の受領されたフレームについて、出力チャネルの数が事実上、デコーダが復号できる最大数に制限されることを保証できるだけである。このアプローチは、復号された各チャネルが、コンポーネント３８によって与えられるチャネル選択マップの一つにおいて存在するチャネルに対応することを保証することはできない。

一般に、スピーカー位置を、暗黙的に構成されたチャネルに関連付ける試みは、推測であると考えられるべきである。というのも、意図されるスピーカー位置に関する情報は全くビットストリームにおいて明示的に伝達されないからである。にもかかわらず、これらの推測は多くの場合、良好な結果を生じる。というのも、暗黙的に信号伝達されチャネルを分配するための、ISO/IEC13818-7セクション8.5.3.3に概説された手順が一定のガイダンスを与えるからである。

〈Ｃ．実装〉
本発明のさまざまな側面を組み込む装置は、コンピュータまたは汎用コンピュータにおいて見出されるのと同様のコンポーネントに結合されたデジタル信号プロセッサ（DSP）回路のようなより特化したコンポーネントを含む他の何らかの装置による実行のためのソフトウェアを含む、多様な仕方で実装されうる。図５は、本発明の諸側面を実装するために使用されうる装置７０の概略的なブロック図である。プロセッサ７２は、計算資源を提供する。RAM ７３は、処理のためにプロセッサ７２によって使用されるランダム・アクセス・メモリ（RAM）である。ROM ７４は、装置７０を動作させるために必要とされるプログラムを記憶するため、および可能性としては本発明のさまざまな側面を実行するための読み出し専用メモリ（ROM）のような持続性記憶装置の何らかの形を表す。I/O制御７６は、通信経路１１、１９によって信号を送受信するインターフェース回路を表す。図示した実施形態では、すべての主要なシステム・コンポーネントはバス７１に接続されている。バス７１は二つ以上の物理的または論理的バスを表していてもよい。ただし、バス・アーキテクチャは本発明を実装するために必須ではない。

本発明のさまざまな側面を実施するのに要求される機能は、離散的な論理コンポーネント、集積回路、一つまたは複数のASICおよび／またはプログラム制御されたプロセッサを含む幅広い多様な仕方で実装されるコンポーネントによって実行されることができる。これらのコンポーネントが実装される仕方は、本発明にとって重要ではない。

本発明のソフトウェア実装は、超音波（supersonic）から紫外（ultraviolet）周波数までを含むスペクトルを通じた、ベースバンドまたは変調された通信経路のような多様な機械可読媒体によって、あるいは磁気テープ、カードまたはディスク、光学式カードまたはディスクおよび紙を含む媒体上の検出可能なマークを含む本質的に任意の記録技術を使って情報を伝達する記憶媒体によって伝達されてもよい。

Claims

エンコードされたオーディオ情報を復号する方法であって：
一つまたは複数のオーディオ・チャネルを表すエンコードされた情報を伝達する入力信号をデコーダにおいて受信し、
前記デコーダが処理および復号できるすべての可能なチャネルを定義するマスター・チャネル選択マップを提供し、
前記エンコードされた情報によって表される前記一つまたは複数のオーディオ・チャネルについてチャネル構成マップを決定し、ここで、前記チャネル構成マップは、前記入力信号中の各オーディオ・チャネルと、前記マスター・チャネル選択マップ中のチャネルとの間の関係を定義し、前記マスター・チャネル選択マップ内のエントリーは、前記入力信号中の対応するチャネルに関連付けられているスピーカー位置を指定し、
前記マスター・チャネル選択マップ内の、前記デコーダが処理および復号できるチャネルの組み合わせを定義するチャネル選択マップを複数提供し、
前記複数のチャネル選択マップから、前記チャネル構成マップへの最良一致を与えるチャネル選択マップを選び、
前記チャネル構成マップ中の、選ばれたチャネル選択マップにおいて対応するスピーカー位置を有する各チャネルを指定するよう、チャネル選択マスクを構築し、
前記入力信号からエンコードされた情報を抽出し、
前記チャネル選択マスクにおいて指定されているオーディオ・チャネルについて、前記抽出されたエンコードされた情報を復号する、
ことを含む方法。
請求項１記載の方法であって：
前記複数のチャネル選択マップから、前記チャネル構成マップ中に存在するスピーカー位置を最大数もつチャネル選択マップを選択し、
選択されたチャネル選択マップを、前記チャネル構成マップへの最良一致を与える前記チャネル選択マップとして選ぶことを含む、
方法。
請求項２記載の方法であって：
前記複数のチャネル選択マップのうちからの各チャネル選択マップがそれぞれの優先度を有しており、
前記複数のチャネル選択マップのうちからの二つ以上のチャネル選択マップが、前記チャネル構成マップ中に存在するスピーカー位置を前記最大数に等しい数だけもち、
当該方法は、前記二つ以上のチャネル選択マップから、最も高い優先度をもつチャネル選択マップを選択することを含む、
方法。
前記エンコードされたオーディオ情報は第一の数のオーディオ・チャネルを表し、前記チャネル選択マスクは第二の数の復号されるべきオーディオ・チャネルを指定し、前記第一の数は前記第二の数より大きい、請求項１ないし３のうちいずれか一項記載の方法。
前記入力信号において伝達されるデータを調べることによって前記チャネル構成マップを決定する、請求項１ないし４のうちいずれか一項記載の方法。
一組のあらかじめ定義されたチャネル構成のうちからの一つのチャネル構成を指定する前記入力信号中のデータから、前記チャネル構成マップを決定する、請求項５記載の方法。
前記入力信号において表されている各オーディオ・チャネルを明示的に指定する前記入力信号中のデータから、前記チャネル構成マップを決定する、請求項５記載の方法。
前記入力信号において表されているオーディオ・チャネルの数および配置を判別することによって前記チャネル構成マップを決定する、請求項７記載の方法。
請求項８記載の方法であって：
前記入力信号において伝達される前記エンコードされたオーディオ情報が複数のフレームに配置されており、
前記チャネル構成マップが、最初の受領されたフレームからオーディオ・チャネルの数および配置を判別することによって決定され、
当該方法が：
平坦なチャネル選択マスクにおいて指定されているオーディオ・チャネルに従って、前記最初の受領されたフレームから、抽出されたエンコードされた情報を復号し、ここで、前記平坦なチャネル選択マスクは復号されることのできるオーディオ・チャネルの最大数を指定し、
前記チャネル選択マスクにおいて指定されているオーディオ・チャネルについて最初の受領されたフレームに続く諸フレームから、抽出されたエンコードされた情報を復号することを含む、
方法。
請求項１ないし９のうちいずれか一項記載の方法のすべてのステップを実行する手段を有する、エンコードされたオーディオ情報を復号する装置。
請求項１ないし９のうちいずれか一項記載の方法のすべてのステップを実行するよう、装置によって実行可能な命令のプログラムを記録した記憶媒体。