JP5193397B2 - 選択的チャネル復号による効率的な多チャネル信号処理 - Google Patents

選択的チャネル復号による効率的な多チャネル信号処理 Download PDF

Info

Publication number
JP5193397B2
JP5193397B2 JP2012531290A JP2012531290A JP5193397B2 JP 5193397 B2 JP5193397 B2 JP 5193397B2 JP 2012531290 A JP2012531290 A JP 2012531290A JP 2012531290 A JP2012531290 A JP 2012531290A JP 5193397 B2 JP5193397 B2 JP 5193397B2
Authority
JP
Japan
Prior art keywords
channel
map
channel selection
audio
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012531290A
Other languages
English (en)
Other versions
JP2013506860A (ja
Inventor
テシング,ロビン
Original Assignee
ドルビー インターナショナル アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー インターナショナル アーベー filed Critical ドルビー インターナショナル アーベー
Publication of JP2013506860A publication Critical patent/JP2013506860A/ja
Application granted granted Critical
Publication of JP5193397B2 publication Critical patent/JP5193397B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は概括的にはオーディオおよびビデオ符号化システムに関し、より詳細にはオーディオおよびビデオ情報を表すデータを処理および復号する改善された方法に関する。
いくつかの国際規格は、聴覚的および視覚的刺激を表す情報が記録および伝送のためにいかにしてエンコードされ、フォーマットされることができるか、およびエンコードされた情報が再生のためにいかにして受信および復号されることができるかを定義している。議論の簡単のため、聴覚および視覚的刺激を表す情報は本稿ではそれぞれオーディオおよびビデオ情報と称される。
これらの規格に準拠する多くのアプリケーションはエンコードされたオーディオおよびビデオ情報をバイナリー・データとしてシリアル式に伝送する。結果として、エンコードされたデータはしばしばビットストリームと称されるが、データの他の構成も許容可能である。議論の簡単のため、本稿では、使用されるデータ・フォーマットまたは記録もしくは伝送技法に関わりなく、エンコードされたデータを指すのに用語「ビットストリーム」を用いる。
国際標準機関(ISO)によって公開されているこれらの規格の二つの例は、ISO/IEC13818-7、先進オーディオ符号化(AAC: Advanced Audio Coding)、別称MPEG-2 AACと、ISO/IEC14496-3、サブパート4、別称MPEG-4オーディオである。これら二つの規格には、本開示の目的について両者を互いに類似したものとする共通の技術的特徴がある。
MPEG-2 AACおよびMPEG-4オーディオ規格のような規格は、一つまたは複数のオーディオ・チャネルを表すエンコードされたデータを伝送することのできるビットストリームを定義する。オーディオ・チャネルの概念はよく知られている。二つのスピーカーをもつ通常のステレオ再生システムは、しばしば左(L)および右(R)チャネルと称される二つのオーディオ・チャネルを再生することのできる再生システムのよく知られた例である。いわゆるホーム・シアター用途のための多チャネル再生システムは、中央(C)、後方左サラウンド(BL)、後方右サラウンド(BR)および低周波数効果(LFE: low-frequency-effects)チャネルのような追加的チャネルを再生することができる。
エンコードされたビットストリームからオーディオを再生することのできるシステムは、エンコードされたデータをビットストリームから抽出し、抽出されたデータを個々のオーディオ・チャネルを表す信号に復号することのできる装置を含む必要がある。データを復号し、合成フィルタを適用して出力信号を得るために必要とされるメモリおよび処理のためのハードウェア資源のコストは、復号装置の全製造コストのかなりの部分である。結果として、デコーダの電力要求および購入価格は、該デコーダが復号できるチャネルの数によって有意に影響される。電力要求および購入価格を下げる努力において、オーディオ・システム製造業者は、ビットストリーム規格において定義されている全チャネルのうち所望されるサブセットのみを復号することができるデコーダを構築する。例としてMPEG-2 AACおよびMPEG-4オーディオ規格を参照するに、ビットストリームは、1ないし48個のオーディオ・チャネルを表すエンコードされたデータを伝達できるが、全部ではないまでもたいていの実際上のデコーダは、最大数のチャネルのうちの小さな割合しか復号できない。
典型的なデコーダが特定のビットストリームを処理するのは、該ビットストリームにおいて伝達されるエンコードされたチャネルのすべてをデコードする機能をもつ場合にのみである。典型的なデコーダが、自分が復号できるより多くのオーディオ・チャネルを表すデータを伝達するビットストリームを受け取った場合、該デコーダは本質的にはビットストリーム中のエンコードされたデータを破棄し、どのチャネルも復号しない。この残念な状況が存在するのは、デコーダがビットストリームによって伝達されるチャネルのサブセットをインテリジェントな仕方で選択および処理するために必要な論理を有さないからである。
デコーダが復号できるチャネル数を超える数のチャネルを表すデータを伝達するビットストリームを処理および復号することのできるデコーダを提供することが本発明の一つの目的である。
この機能を、効率的であり、ビットストリームを処理するために必要とされる計算資源を最小にする仕方で提供することが本発明のさらなる目的である。
これらの目的は、本発明によって達成される。本発明のある側面によれば、デコーダが、一つまたは複数のオーディオ・チャネルを表すエンコードされた情報を伝達する入力信号を受信し、前記エンコードされた情報によって表される前記一つまたは複数のオーディオ・チャネルについてチャネル構成マップ(channel configuration map)を決定し、前記チャネル構成マップを使って、前記一つまたは複数のオーディオ・チャネルのうちのどれが復号されるべきかを指定するチャネル選択マスク(channel selection mask)を取得し、前記チャネル選択マスクに従って、前記入力信号からエンコードされた情報を抽出して抽出されたエンコードされた情報を復号する。
本発明のさまざまな特徴およびその好ましい実施形態は、以下の議論および付属の図面を参照することによってよりよく理解されうる。図面において、同様の参照符号は各図の同様の要素を指す。以下の議論および図面の内容は例として記載されている。本発明の範囲内に含まれる代替的な実装および等価な特徴は、当業者にはすぐ明白となるはずである。US2007/0233296はスケーラブルなチャネル復号をもつ方法を記載している。WO2005/101905は多チャネル・オーディオ信号のパラメトリック表現を生成する方式を記載している。US2008/0221907は多チャネル・オーディオ信号を復号する方法を記載している。US2007/0011004は損失のないオーディオ・エンコードおよびデコードのための方法を記載している。
オーディオ・デコーダの概略的なブロック図である。 図1のオーディオ・デコーダにおいて使うためのチャネル選択コンポーネントのブロック概略図である。 チャネル選択コンポーネントの例示的な実装の動作を例解する概略的なブロック図である。 チャネル選択コンポーネントの例示的な実装の動作を例解する概略的なブロック図である。 本発明のさまざまな側面を実装するために使用されうる装置の概略的なブロック図である。
〈A.序〉
図1は、エンコードされたオーディオ情報の一つまたは複数のチャネルを表すビットストリームを伝達する入力信号を通信経路11から受け取り、復号されたオーディオ情報の一つまたは複数のチャネルを表す出力信号を通信経路19に沿って生成するオーディオ・デコーダ10の概略的なブロック図である。デコーダ10は、入力信号ビットストリームから、エンコードされたデータの一連のブロックまたはシンタックス要素を抽出し、経路13に沿って選択コンポーネント14に渡すパース(parse)・コンポーネント12を有する。選択コンポーネント14は、エンコードされたデータのどのシンタックス要素が経路15に沿って復号コンポーネント16に渡されるかを決定する。復号コンポーネント16は、エンコードされたデータのブロックに復号プロセスを適用して、経路17に沿って復号されたデータを生成する。フィルタ・コンポーネント18は復号されたデータに一つまたは複数の合成フィルタを適用し、経路19に沿って復号されたオーディオ情報を生成する。
デコーダ10の通常の実装では、選択コンポーネント14は経路13から受け取ったシンタックス要素の内容を調べて、入力信号において伝達されるエンコードされたオーディオ情報の入力チャネルの数を決定し、この数をデコーダ10が復号できるオーディオ・チャネルの数と比較する。入力信号において伝達される入力チャネルの数がデコーダ10が復号できるチャネルの数以下であれば、選択コンポーネント14はすべてのチャネルについてのシンタックス要素を経路15に沿って復号コンポーネント16に渡す;そうでなければ、選択コンポーネント14はどのシンタックス要素も復号コンポーネント16に渡さない、あるいは復号されるべきチャネルがないことを示す何らかの信号を復号コンポーネント16に与える。
復号コンポーネント16は、経路15に沿って渡されたシンタックス要素に含まれるデータに対して適切な復号プロセスを適用する。復号プロセスは、シンタックス要素において伝達されるエンコードされたデータを生成するのに使われたエンコード・プロセスと相補的なものであるべきである。たとえば入力信号がMPEG-2 AACまたはMPEG-4オーディオ規格に準拠する場合、復号コンポーネント16は、それぞれISO/IEC13818-7またはISO・IEC14496-3、サブパート4規格に準拠するプロセスを適用する。
シンタックス要素によって伝達されたデータから導出された復号されたデータは、経路17に沿ってフィルタ・コンポーネント18に渡される。フィルタ・コンポーネント18は、復号されたシンタックス要素内のデータに、シンタックス要素内のデータをエンコードしたエンコーダによって使われた分解(analysis)フィルタの逆である合成(synthesis)フィルタを適用する。合成フィルタは、修正離散コサイン変換(Modified Discrete Cosine Transform)のような変換または直交ミラー・フィルタ(QMF: quadrature mirror filter)のようなフィルタを含む多様な仕方で実装されうる。
〈B.向上されたチャネル選択〉
本発明の諸側面を組み込むデコーダは、再生のために選択および処理されるべき入力ビットストリーム中のオーディオ・チャネルを定義するチャネル選択マスクを定義するために向上された選択コンポーネント14を使う。一つまたは複数のチャネル選択マップのセットを使うプロセスからチャネル選択マスクを構築する一つの実装を以下に述べる。これらのマップは、入力ビットストリーム中のチャネルの数に対していかなる制限を課すこともなく、復号されることのできる出力チャネルの数および型の構成を定義する。代替的な実装も可能である。
このチャネル選択プロセスは、本質的には、復号のために選択されないチャネルについてのデータを、計算集約的な復号アルゴリズムが呼び出される前に、受信/復号プロセスの早い段階で破棄するので、効率的である。別の言い方をすれば、全体的な受信/復号プロセスの計算集約的な部分は、復号のために選択されるチャネルにのみ適用される。
これらの側面は、MPEG-2 AACおよびMPEG-4オーディオ規格の現在定義されているあらゆる変形および同様のデータ構造物をもつ他の規格に準拠するビットストリームとともに使ってもよい。本発明は、任意の数のチャネルをもつ入力ビットストリームを受け入れ、そのビットストリームを処理して、そのビットストリーム中のチャネルの一部または全部を復号することによって得られる出力チャネルの最適構成を得ることを必要とする本質的にいかなる復号装置においても用いることができる。
〈1.パース・コンポーネント〉
パース・コンポーネント12は入力信号ビットストリームからエンコードされたデータの一連のブロックまたはシンタックス要素を抽出する。パース・コンポーネント12は、当技術分野においてよく知られている通常の技法を使ってこれらのシンタックス要素を抽出してもよい。
上述したMPEG-2 AACおよびMPEG-4オーディオ規格を含む多くの異なる規格に準拠するビットストリームは、論理的に、フレームと称される区画に分割される。たとえばAAC準拠ビットストリーム中のデータは一連の可変長フレームを定義し、該可変長フレームは今度は、論理的に、一連の、種々の型のブロックまたはシンタックス要素に分割される。各シンタックス要素における最初の3ビットは要素型を指定する。要素の8個の異なる型がある。そうした型のいくつかについてここで述べる。
単一チャネル要素(SCE: single-channel element)は単一のオーディオ・チャネルのためのデータを伝達する。チャネル対要素(CPE: channel-pair element)はオーディオ・チャネルの対についてのデータを伝達する。プログラム構成要素(PCE: program-configuration element)は、ビットストリームによって伝達されるデータのチャネルを記述する。低周波数効果要素(low-frequency-effects element)(本開示ではLFEEと称される)はLFEチャネルまたは特殊効果チャネルのためのデータを伝達する。終了要素(termination element)(TERM)はフレーム中の最後のシンタックス要素を示す。
個々のAAC準拠ビットストリームは、すべての型のシンタックス要素を含まなくてもよい。たとえば、単一のオーディオ・チャネルのみのためのデータを伝達するビットストリームはいかなるCPEももたないであろうし、特殊効果またはLFEチャネルのためのデータチャネルについてのデータを伝達しないビットストリームはLFEEを全くもたないであろう。
〈2.選択コンポーネント〉
図2は、本発明を実行するために選択コンポーネント14が実装されうる一つの仕方の概略図である。この実装では、コンポーネント32がビットストリームのチャネル構成を決定する。これについて以下でより詳細に述べる。
コンポーネント34がこの構成を、チャネル構成マップ(channel configuration map)を生成するために使う。ある実装では、このマップは、入力ビットストリーム中の各オーディオ・チャネルとそのチャネルを再生するよう意図されたスピーカー位置との間の関係を定義する。
コンポーネント38は、どのスピーカー位置が復号されることができるかを指定する一つまたは複数のチャネル選択マップ(channel selection map)のセットを与える。ある実装では、チャネル選択マップのフォーマットおよび配置は、チャネル構成マップのフォーマットおよび配置と同じである。これは、入力ビットストリームのチャネル構成に対する最良一致を与えるチャネル選択マップを選ぶコンポーネント36によって実行される処理を容易にしうる。
コンポーネント42は、入力ビットストリームのどのオーディオ・チャネルが復号されるかおよびそれらがどのようにしてデコーダ10の出力チャネルに向けるかを定義するチャネル選択マスク(channel selection mask)を構築するためにチャネル選択マップを使う。
これらのコンポーネントについては以下でより詳細に論じる。
二つ以上のチャネル選択マップのそれぞれについてチャネル選択マスクを構築し、復号のために最良の選択マスクを選ぶ代替的な実装が可能である。この実装についてはこれ以上は論じない。
a)チャネル構成の抽出
コンポーネント32が、特定のMPEG-2 AACまたはMPEG-4オーディオ準拠ビットストリームによって表されるオーディオ・チャネルの構成を決定するのは、三つの方法のうち一つにおいてでありうる。二つの方法は、MPEG-2 AACまたはMPEG-4オーディオ規格のいずれかに準拠するビットストリームに関する。第三の方法は、MPEG-2 AAC規格に準拠するビットストリームのみに関する。
MPEG-2 AACまたはMPEG-4オーディオ準拠ビットストリームは、表1に挙げられるいくつかのあらかじめ定義されたチャネル構成の一つを示す、一般にチャネル構成インデックス(channel configuration index)と呼ばれるインデックス値を使ってチャネル構成を信号伝達しうる。MPEG-2 AAC準拠ビットストリームについては、インデックス値は3ビットを有し、表1の最初の8個だけのエントリーのうちの一つを示しうる。MPEG-4オーディオ準拠ビットストリームについては、インデックス値は4ビットであり、表1の16個のエントリーのうちの任意の一つを示しうる。この構成における各チャネルは、そのチャネルを再生するために聴取者に対してスピーカーが配置されるべき位置を用いて記述される。MPEG-4オーディオ準拠ビットストリームにおける0のインデックス値は、そのチャネル構成がPCEによって指定されることを示す。MPEG-2 AAC準拠ビットストリームにおける0のインデックス値は、そのチャネル構成がPCEによって指定されるか、暗黙的に指定されることを示す。いずれかの型のビットストリームにおいてPCEが存在する場合、それは構成プロセスにおいて優先される。
Figure 0005193397
以下のチャネル記法が使用される:
(C)中央前方チャネル;(L)左前方チャネル;(R)右前方チャネル
(BC)後方中央チャネル;(BL)後方左チャネル;(BR)後方右チャネル
(SL)側方左チャネル;(SR)側方右チャネル;(LFE)低周波数効果チャネル
前方チャネルと側方チャネルの間にある他所で言及される追加的チャネルは、「ワイド」チャネルと称される。ワイド左チャネル(WL)はL位置とSL位置の間であり、ワイド右チャネルはR位置とSR位置の間である。
MPEG-2 AACおよびMPEG-4オーディオ準拠ビットストリームは、ビットストリーム中の一つのオーディオ・プログラム専用の構成情報を担持するPCEを使ってチャネル構成を信号伝達してもよい。この方法を使ってチャネル構成を信号伝達するには、チャネル構成インデックスは0に設定される必要がある。さらなる詳細は、ISO/IEC14496-3のセクション4.5.1.2から得られうる。これらの詳細は、本発明を理解するためには必要とされない。
MPEG-2 AAC準拠ビットストリームについては、先述したチャネル信号伝達方法のいずれも使われ得ないことも可能である。この場合、チャネル構成インデックスは0に設定されるが、構成を定義するためのPCEは存在しない。MPEG-2準拠デコーダは、ISO/IEC13818-7のセクション8.5.3.3において定義される規則を使ってオーディオ・チャネル・シンタックス要素によって指定されるオーディオ・チャネルの数および配置からチャネル構成を推定しなければならない。そうした規則の詳細は、本発明を理解するためには必要とされない。
b)チャネル構成マップ
コンポーネント34は、入力ビットストリーム中のオーディオ・チャネルと、それらのチャネルを再生するよう意図されているスピーカーの位置との間の関係を定義するチャネル構成マップを生成する。コンポーネント38は、どのスピーカー位置が復号されることができるかを指定する一つまたは複数のチャネル選択マップのセットを提供する。好ましくは、チャネル構成マップおよびチャネル選択マップは、同じフォーマットおよびチャネル配置をもつ。
チャネル構成マップ中の項目は、マスター・チャネル選択マップにおけるチャネルの順序に対して定義される。マスター・チャネル選択マップは、デコーダ10が処理および復号できるすべての可能なチャネルを定義する。
MPEG-2 AACおよびMPEG-4オーディオ準拠ビットストリームは、48個ものチャネルを伝達しうる。この数は、典型的なデコーダが処理できるチャネルの最大数よりずっと多い。デコーダのための典型的な最大は、約10チャネルまたはそれ未満である。好ましい諸実装では、マスター・チャネル選択マップは、48チャネルすべてを定義するエントリーは含まない。そうしたマップにおけるスペースは一般に未使用となるからである。10エントリー程度のより小さなマップが通例十分である。マスター・チャネル選択マップにおいて定義されていない一つまたは複数のチャネルを伝達するビットストリームに遭遇した場合、それらの追加的チャネルのそれぞれは破棄されうる。
11個のチャネルを定義する仮想的なマスター・チャネル選択マップが表2に示されている。たいていの実装では、マスター・チャネル選択マップにおけるチャネルのすべてが同時に復号できるわけではない。たとえば、5チャネル・デコーダは、所与のビットストリームについて表2のマスター選択マップの11個のチャネルすべてを復号できるのではなく、それらのチャネルのうち5個までのさまざまな組み合わせを復号できる。
表2はまた、種々のビットストリーム構成についていくつかの例示的なチャネル構成マップをも示している。各チャネル構成マップは、ビットストリーム中のチャネルと、マスター・チャネル選択マップにおけるチャネルとの間の関係を定義しうる。
MPEG-2 AACおよびMPEG-4オーディオ準拠ビットストリームについては、デコーダ10はビットストリーム中のチャネルの位置を、チャネル構成マップへのインデックスとして使用してもよい。チャネル構成マップにおける対応するエントリーは、マスター・チャネル選択マップ中へのインデックスを表す。マスター・チャネル選択マップにおけるエントリーは最終的に、ビットストリーム中の所与のチャネルに関連付けられているスピーカー位置を指定しうる。
Figure 0005193397
5つの異なるビットストリーム構成についてのチャネル構成マップが示されている。ステレオ・ビットストリームについてのチャネル構成マップは、「ステレオ」という見出しの下の列に示されている。ビットストリームの二つのチャネルはLおよびRチャネルにマッピングされる。いわゆる5.0ビットストリームについてのチャネル構成マップは「5.0」という見出しの下の列に示されている。このビットストリームの5つのチャネルはC、L、R、BLおよびBRチャネルにマッピングされる。いわゆる7.1ビットストリームについてのチャネル構成マップは「7.1」という見出しの下の列に示されている。このビットストリームの8つのチャネルはC、L、R、SL、SR、BL、BRおよびLFEチャネルにマッピングされる。
c)チャネル選択マップ
コンポーネント38によって与えられるチャネル選択マップは、デコーダ10が処理および復号できる、マスター・チャネル選択マップにおけるチャネルの組み合わせを定義する。ビットストリーム中のどのチャネルが復号されるかを指定するために、これらのマップの一つがコンポーネント36によって選ばれる。
図3を参照するに、コンポーネント38によって与えられる4つのチャネル選択マップが、図の右上隅に示されている。各マップは、マスター・チャネル選択マップにおける各チャネルについての項目をもつ。シンボル「1」によって表される項目は、対応するチャネルが処理および復号されることができることを示す。シンボル「0」によって表される項目は、対応するチャネルが復号されないことを示す。左から右の順において最初の三つのチャネル選択マップは、それぞれ5個の「1」の項目をもつ。これらのマップのうちの一つが処理のために選ばれる場合、5個までのチャネルが復号されることができる。右端にあるチャネル選択マップは4個の「1」項目をもつ。このマップが処理のために選ばれる場合、4個までのチャネルが復号されることができる。
d)チャネル選択マップを選ぶ
コンポーネント36は、コンポーネント38によって与えられたチャネル選択マップのすべてを調べ、コンポーネント34によって生成されたチャネル構成マップに対する最良一致を与えるチャネル選択マップを選ぶ。ある実装では、最良一致は、最大数のチャネルが復号されることを許容するチャネル選択マップを同定することによって決定される。これは、図3および図4において概略的に例解される。
図3を参照するに、コンポーネント34は、表2に示されるマップと整合する、8チャネルのビットストリームについてのチャネル構成マップを生成する。ビットストリーム中に存在する、該構成マップ中のチャネルはボールド体で示されている。ビットストリーム中に存在しないチャネルはイタリック体で示されている。この例示的な実装では、コンポーネント38は、上で論じたような4つのチャネル選択マップを提供する。コンポーネント36は、チャネル構成マップ中のチャネルに対応する各チャネル選択マップ中の「1」項目の数を数え、その計数値を同定する。各チャネル選択マップについての計数値は、左から右へ、5、5、3および3である。
コンポーネント36は、最大数のチャネルを復号できるチャネル選択マップを選ぶ。この例では、最大数は5であり、マップのうちの二つが5個のチャネルを復号できる。ある好ましい実装では、チャネル選択マップは優先度を割り当てられており、同順の場合、より高い優先度のチャネル選択マップが選ばれる。この例では、チャネル選択マップは、左から右へと優先度の順に示されている。結果として、最初のチャネル選択マップがビットストリームを処理するために選ばれる。
図4にはもう一つの例が示されている。この例では、コンポーネント34は、4チャネル・ビットストリームのためのチャネル構成マップを生成する。ビットストリーム中に存在するチャネルおよび存在しないチャネルはそれぞれボールド体、イタリック体で示されている。コンポーネント38は上で論じたのと同じ4つのチャネル選択マップを与える。コンポーネント36は、チャネル構成マップにおけるチャネルに対応する各チャネル選択マップ中の「1」項目の数を数える。各チャネル選択マップ中の計数値は、左から右に、3、3、3および4である。コンポーネント36は、4個のチャネルを復号することを提供するチャネル選択マスクを選ぶ。
e)チャネル選択マスク
コンポーネント42は、入力ビットストリームのどのオーディオ・チャネルが復号されるかおよびそれらがデコーダ10の出力チャネルにどのように導かれるかを定義するチャネル選択マスクを構築するために、選ばれたチャネル選択マップを使う。このマスクは、ある種のチャネルの復号を禁止し、他のチャネルの復号を許可する。図3および図4に示される実装では、マスクは「O」および「X」の記号で表される項目を含む。マスク中の「O」の項目はチャネルが復号されることを許容する。マスク中の「X」の項目はチャネルが復号されることを禁止する。
チャネル選択マスクは、ビットストリーム中の各チャネルについての項目をもつ。チャネル選択マップ中の項目が「1」であれば、チャネル選択マスクは、対応する項目について「O」をもつよう構築される。チャネル選択マップ中の項目が「0」であれば、チャネル選択マスクは、対応する項目について「X」をもつよう構築される。
図3を参照するに、チャネル選択マスクは、ビットストリーム中の各チャネルについて一つで、8個の項目をもち、マスク中の5個の「O」項目が選ばれたチャネル選択マップ中の5個の「1」項目に対応する。図4を参照するに、チャネル選択マップは、ビットストリーム中の各チャネルについて一つで、4個の項目をもち、マスク中の4個の「O」項目が選ばれたチャネル選択マップ中の4個の「1」項目に対応する。
f)チャネル要素の抽出および選択
コンポーネント44および46は、チャネル選択マスクに従ってビットストリームを処理する。コンポーネント44は、ビットストリームからオーディオ・チャネル・シンタックス要素を抽出し、それらをコンポーネント46に渡す。コンポーネント46は各オーディオ・チャネル・シンタックス要素をチャネル選択マスクと突き合わせて検査する。対応するマスク項目が有効にされている、あるいは図に示したような「O」項目である場合、そのシンタックス要素は復号のために経路15に沿って渡される。対応するマスク項目が無効にされている、あるいは図に示したような「X」項目である場合、そのシンタックス要素は破棄される。
フレーム中の、またはシンタックス要素中のデータがハフマン符号化または算術符号化のような可変長シンボルを生成する符号化プロセスによってエンコードされた場合、各シンタックス要素およびフレームの末尾が正しく判別できるよう、エンコードされたデータのすべてに対して適切な復号が適用される必要がある。復号のために選択されたチャネルについてのデータは、通常の仕方で処理される。さらなる復号を禁止されているチャネルについてのデータは、破棄されるまたは一時的に記憶されて所望に応じて上書きされることができる。
エンコードされたデータにおいて訂正できない誤りが検出された場合、デコーダの出力をミュートするまたは誤りを隠蔽するための他の行動を取ることが望ましいことがありうる。これは、誤りが検出されたのが破棄されるチャネルに対応するデータにおいてであったとしても、必要であることがありうる。そうした誤りのため、デコーダが、フレームとの同期を失うことがありうるからである。通常の誤り回復技法が使用されてもよい。
チャネル構成マップが暗黙的に決定される場合、チャネル構成が決定できる前に、ビットストリームのフレーム全体が調べられる必要がある。結果として、最初のフレームにおけるオーディオ・チャネル・シンタックス要素は、上記のように復号されることができない。それらは、チャネル選択マスクが構築できる前に処理済みとなるはずだからである。この状況は、ビットストリームの最初に受領されたフレームについてのみ生じる。ビットストリームのその後のいかなるフレームについても、暗黙的にチャネル構成マップを決定する必要はない。というのも、ISO/IEC13818-7規格のセクション8.5.3.3によれば、「暗黙的再構成は許容されない」からである。チャネル構成が変化する場合、これはPCEを使うことによって示される必要がある。
ビットストリームの最初に受領されたフレームにおけるオーディオ・チャネル・シンタックス要素は、以下に論じるような多様な方法において、暗黙的に決定されたチャネル構成に従って処理されることができる。
一つの方法は、最初に受領されたフレームからのオーディオの復号を禁止する。チャネル選択マスクは、上記のようにして最初に受領されたフレームから決定され、そのマスクが第二およびその後のフレームを復号するために使われる。
もう一つの方法は、処理に先立って各フレームについてのシンタックス要素をバッファリングすることである。このアプローチは、追加的なメモリを、可能性としては従来技術のデコーダと同じくらい多くのメモリを要求するが、上記のような、ビットストリーム中の明示的な情報からチャネル構成を構築するデコーダによって達成されるのと実質的に同じ計算量の削減を提供する。
さらにもう一つの方法は、「平坦」なチャネル選択マスクを使って最初のフレーム中のオーディオ・チャネル・シンタックス要素を処理する。平坦なチャネル選択マスクは、最初のN個チャネルのための復号を可能にする。ここで、Nは、コンポーネント38によって与えられるチャネル選択マップのいずれかによって許容される最大チャネル数である。このアプローチは、最初の受領されたフレームについて、出力チャネルの数が事実上、デコーダが復号できる最大数に制限されることを保証できるだけである。このアプローチは、復号された各チャネルが、コンポーネント38によって与えられるチャネル選択マップの一つにおいて存在するチャネルに対応することを保証することはできない。
一般に、スピーカー位置を、暗黙的に構成されたチャネルに関連付ける試みは、推測であると考えられるべきである。というのも、意図されるスピーカー位置に関する情報は全くビットストリームにおいて明示的に伝達されないからである。にもかかわらず、これらの推測は多くの場合、良好な結果を生じる。というのも、暗黙的に信号伝達されチャネルを分配するための、ISO/IEC13818-7セクション8.5.3.3に概説された手順が一定のガイダンスを与えるからである。
〈C.実装〉
本発明のさまざまな側面を組み込む装置は、コンピュータまたは汎用コンピュータにおいて見出されるのと同様のコンポーネントに結合されたデジタル信号プロセッサ(DSP)回路のようなより特化したコンポーネントを含む他の何らかの装置による実行のためのソフトウェアを含む、多様な仕方で実装されうる。図5は、本発明の諸側面を実装するために使用されうる装置70の概略的なブロック図である。プロセッサ72は、計算資源を提供する。RAM 73は、処理のためにプロセッサ72によって使用されるランダム・アクセス・メモリ(RAM)である。ROM 74は、装置70を動作させるために必要とされるプログラムを記憶するため、および可能性としては本発明のさまざまな側面を実行するための読み出し専用メモリ(ROM)のような持続性記憶装置の何らかの形を表す。I/O制御76は、通信経路11、19によって信号を送受信するインターフェース回路を表す。図示した実施形態では、すべての主要なシステム・コンポーネントはバス71に接続されている。バス71は二つ以上の物理的または論理的バスを表していてもよい。ただし、バス・アーキテクチャは本発明を実装するために必須ではない。
本発明のさまざまな側面を実施するのに要求される機能は、離散的な論理コンポーネント、集積回路、一つまたは複数のASICおよび/またはプログラム制御されたプロセッサを含む幅広い多様な仕方で実装されるコンポーネントによって実行されることができる。これらのコンポーネントが実装される仕方は、本発明にとって重要ではない。
本発明のソフトウェア実装は、超音波(supersonic)から紫外(ultraviolet)周波数までを含むスペクトルを通じた、ベースバンドまたは変調された通信経路のような多様な機械可読媒体によって、あるいは磁気テープ、カードまたはディスク、光学式カードまたはディスクおよび紙を含む媒体上の検出可能なマークを含む本質的に任意の記録技術を使って情報を伝達する記憶媒体によって伝達されてもよい。

Claims (11)

  1. エンコードされたオーディオ情報を復号する方法であって:
    一つまたは複数のオーディオ・チャネルを表すエンコードされた情報を伝達する入力信号をデコーダにおいて受信し、
    前記デコーダが処理および復号できるすべての可能なチャネルを定義するマスター・チャネル選択マップを提供し、
    前記エンコードされた情報によって表される前記一つまたは複数のオーディオ・チャネルについてチャネル構成マップを決定し、ここで、前記チャネル構成マップは、前記入力信号中の各オーディオ・チャネルと、前記マスター・チャネル選択マップ中のチャネルとの間の関係を定義し、前記マスター・チャネル選択マップ内のエントリーは、前記入力信号中の対応するチャネルに関連付けられているスピーカー位置を指定し、
    前記マスター・チャネル選択マップ内の、前記デコーダが処理および復号できるチャネルの組み合わせを定義するチャネル選択マップを複数提供し、
    前記複数のチャネル選択マップから、前記チャネル構成マップへの最良一致を与えるチャネル選択マップを選び、
    前記チャネル構成マップ中の、選ばれたチャネル選択マップにおいて対応するスピーカー位置を有する各チャネルを指定するよう、チャネル選択マスクを構築し、
    前記入力信号からエンコードされた情報を抽出し、
    前記チャネル選択マスクにおいて指定されているオーディオ・チャネルについて、前記抽出されたエンコードされた情報を復号する、
    ことを含む方法。
  2. 請求項記載の方法であって:
    前記複数のチャネル選択マップから、前記チャネル構成マップ中に存在するスピーカー位置を最大数もつチャネル選択マップを選択し、
    選択されたチャネル選択マップを、前記チャネル構成マップへの最良一致を与える前記チャネル選択マップとして選ぶことを含む、
    方法。
  3. 請求項記載の方法であって:
    前記複数のチャネル選択マップのうちからの各チャネル選択マップがそれぞれの優先度を有しており、
    前記複数のチャネル選択マップのうちからの二つ以上のチャネル選択マップが、前記チャネル構成マップ中に存在するスピーカー位置を前記最大数に等しい数だけもち、
    当該方法は、前記二つ以上のチャネル選択マップから、最も高い優先度をもつチャネル選択マップを選択することを含む、
    方法。
  4. 前記エンコードされたオーディオ情報は第一の数のオーディオ・チャネルを表し、前記チャネル選択マスクは第二の数の復号されるべきオーディオ・チャネルを指定し、前記第一の数は前記第二の数より大きい、請求項1ないしのうちいずれか一項記載の方法。
  5. 前記入力信号において伝達されるデータを調べることによって前記チャネル構成マップを決定する、請求項1ないしのうちいずれか一項記載の方法。
  6. 一組のあらかじめ定義されたチャネル構成のうちからの一つのチャネル構成を指定する前記入力信号中のデータから、前記チャネル構成マップを決定する、請求項記載の方法。
  7. 前記入力信号において表されている各オーディオ・チャネルを明示的に指定する前記入力信号中のデータから、前記チャネル構成マップを決定する、請求項記載の方法。
  8. 前記入力信号において表されているオーディオ・チャネルの数および配置を判別することによって前記チャネル構成マップを決定する、請求項7記載の方法。
  9. 請求項記載の方法であって:
    前記入力信号において伝達される前記エンコードされたオーディオ情報が複数のフレームに配置されており、
    前記チャネル構成マップが、最初の受領されたフレームからオーディオ・チャネルの数および配置を判別することによって決定され、
    当該方法が:
    平坦なチャネル選択マスクにおいて指定されているオーディオ・チャネルに従って、前記最初の受領されたフレームから、抽出されたエンコードされた情報を復号し、ここで、前記平坦なチャネル選択マスクは復号されることのできるオーディオ・チャネルの最大数を指定し、
    前記チャネル選択マスクにおいて指定されているオーディオ・チャネルについて最初の受領されたフレームに続く諸フレームから、抽出されたエンコードされた情報を復号することを含む、
    方法。
  10. 請求項1ないしのうちいずれか一項記載の方法のすべてのステップを実行する手段を有する、エンコードされたオーディオ情報を復号する装置。
  11. 請求項1ないしのうちいずれか一項記載の方法のすべてのステップを実行するよう、装置によって実行可能な命令のプログラムを記録した記憶媒体。
JP2012531290A 2009-10-06 2010-10-05 選択的チャネル復号による効率的な多チャネル信号処理 Active JP5193397B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US24918509P 2009-10-06 2009-10-06
US61/249,185 2009-10-06
PCT/EP2010/006059 WO2011042149A1 (en) 2009-10-06 2010-10-05 Efficient multichannel signal processing by selective channel decoding

Publications (2)

Publication Number Publication Date
JP2013506860A JP2013506860A (ja) 2013-02-28
JP5193397B2 true JP5193397B2 (ja) 2013-05-08

Family

ID=43428208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012531290A Active JP5193397B2 (ja) 2009-10-06 2010-10-05 選択的チャネル復号による効率的な多チャネル信号処理

Country Status (7)

Country Link
US (1) US8738386B2 (ja)
EP (1) EP2486563B1 (ja)
JP (1) JP5193397B2 (ja)
CN (1) CN102549656B (ja)
AR (1) AR079287A1 (ja)
TW (1) TWI413110B (ja)
WO (1) WO2011042149A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9105300B2 (en) 2009-10-19 2015-08-11 Dolby International Ab Metadata time marking information for indicating a section of an audio object
EP2830335A3 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
US10356759B2 (en) * 2016-03-11 2019-07-16 Intel Corporation Parameter encoding techniques for wireless communication networks
GB2568274A (en) * 2017-11-10 2019-05-15 Nokia Technologies Oy Audio stream dependency information
US20200388292A1 (en) * 2019-06-10 2020-12-10 Google Llc Audio channel mixing

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128597A (en) 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
JP2004194100A (ja) * 2002-12-12 2004-07-08 Renesas Technology Corp オーディオ復号再生装置
KR100512943B1 (ko) * 2003-10-14 2005-09-07 삼성전자주식회사 위성 방송 수신기 및 그의 위성 방송 수신 방법
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US7991272B2 (en) * 2005-07-11 2011-08-02 Lg Electronics Inc. Apparatus and method of processing an audio signal
US20080221907A1 (en) * 2005-09-14 2008-09-11 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
US7536299B2 (en) * 2005-12-19 2009-05-19 Dolby Laboratories Licensing Corporation Correlating and decorrelating transforms for multiple description coding systems
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
US7876904B2 (en) 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
CN102203854B (zh) 2008-10-29 2013-01-02 杜比国际公司 使用预先存在的音频增益元数据的信号削波保护
TWI501580B (zh) 2009-08-07 2015-09-21 Dolby Int Ab 資料串流的鑑別
UA101291C2 (ru) 2009-12-16 2013-03-11 Долби Интернешнл Аб Сводка параметров последовательности бит sbr
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法

Also Published As

Publication number Publication date
TWI413110B (zh) 2013-10-21
EP2486563B1 (en) 2020-02-26
JP2013506860A (ja) 2013-02-28
AR079287A1 (es) 2012-01-18
EP2486563A1 (en) 2012-08-15
US20120209615A1 (en) 2012-08-16
US8738386B2 (en) 2014-05-27
CN102549656B (zh) 2013-04-17
WO2011042149A1 (en) 2011-04-14
CN102549656A (zh) 2012-07-04
TW201140560A (en) 2011-11-16

Similar Documents

Publication Publication Date Title
US10425757B2 (en) Compatible multi-channel coding/decoding
US8145498B2 (en) Device and method for generating a coded multi-channel signal and device and method for decoding a coded multi-channel signal
KR100946688B1 (ko) 멀티 채널 오디오 디코더, 멀티 채널 인코더, 오디오 신호 처리 방법 및 상기 처리 방법을 수행하는 프로그램을 기록한 기록매체
KR100955361B1 (ko) 적응 잔류 오디오 코딩
US9479871B2 (en) Method, medium, and system synthesizing a stereo signal
US8078475B2 (en) Audio signal encoder and audio signal decoder
JP5490143B2 (ja) ダウンミックスオーディオ信号をアップミックスするためのアップミキサー、方法、および、コンピュータ・プログラム
JP5193397B2 (ja) 選択的チャネル復号による効率的な多チャネル信号処理
US20070206690A1 (en) Device and method for generating a multi-channel signal or a parameter data set
EP1999744A1 (en) Reduced number of channels decoding
KR20120084278A (ko) 스케일러블 채널 복호화 방법 및 장치
CN101479786A (zh) 用于编码和解码基于对象的音频信号的方法和装置
JP2022031955A (ja) バイノーラル・ダイアログ向上
EP3238465A1 (en) Projection-based audio object extraction from audio content
KR100829560B1 (ko) 멀티채널 오디오 신호의 부호화/복호화 방법 및 장치,멀티채널이 다운믹스된 신호를 2 채널로 출력하는 복호화방법 및 장치
US8447618B2 (en) Method and apparatus for encoding and decoding residual signal
JP5629429B2 (ja) オーディオ再生装置及びオーディオ再生方法
JP5113151B2 (ja) メディア信号処理装置及びその方法
KR101464977B1 (ko) 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
US8781134B2 (en) Method and apparatus for encoding and decoding stereo audio
RU2406262C2 (ru) Декодирование уменьшенного количества каналов

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130201

R150 Certificate of patent or registration of utility model

Ref document number: 5193397

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160208

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250