JP2016523377A

JP2016523377A - オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置

Info

Publication number: JP2016523377A
Application number: JP2016517237A
Authority: JP
Inventors: ヤクス，ペーター; クルーガー，アレクサンダー
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-06-05
Filing date: 2014-05-27
Publication date: 2016-08-08
Anticipated expiration: 2034-05-27
Also published as: CN105264595B; KR20160015245A; KR102228994B1; US20160125890A1; JP6377730B2; EP3503096B1; EP3503096A1; EP3923279B1; EP3005354B1; EP3923279A1; WO2014195190A1; CN105264595A; EP3005354A1; JP2018165841A; US9691406B2

Abstract

本発明は、ＨＯＡコンテンツの階層的な符号化のための新しい概念を導入する。階層的なオーディオビットストリームを符号化する方法は、ＨＯＡ入力信号をサラウンドサウンドへとレンダリングするステップと、ベースレイヤ出力信号についてサラウンドサウンドを符号化するステップと、符号化されたサラウンドサウンドを復号して、再構成されたサラウンドサウンド信号を得るステップと、ＨＯＡ入力信号に対して次元削減を実行するステップと、次元削減されたＨＯＡ信号と再構成されたサラウンドサウンド信号との間の残差を計算するステップと、残差を符号化するステップと、ＨＯＡ入力信号に関する構造情報、符号化された残差、及び符号化されたサラウンドサウンドをビットストリームへと多重化して、階層的なオーディオビットストリームを得るステップとを有する。

Description

本発明は、オーディオ信号を符号化する方法、オーディオ信号を符号化する装置、オーディオ信号を復号する方法、及びオーディオ信号を復号する装置に関する。

高次アンビソニックス（ＨＯＡ；Higher-Order Ambisonics）の圧縮は、科学文献において深く探求されていない。従って、本項目は、ＨＯＡコンテンツの自己完結型圧縮のための例となる最新のモノリシック・アーキテクチャを紹介する。このアーキテクチャは、中間レベル（例えば、２５６ｋｂｉｔ／ｓ）にある高分解能の空間音響シーンの高レベル（例えば、１．５Ｍｂｉｔ／ｓ）データレートへの高品質の符号化を可能にすることが、広範囲にわたる試験によって確認されている。本項目で与えられる背景情報は、このアーキテクチャを踏まえて階層的な概念を理解するのに必要である。

図１は、符号器側から見た自己完結型ＨＯＡ圧縮についての概念を表す。図において与えられる数及びパラメータは例である点に留意されたい。例えば、コーデック・アーキテクチャは、ここでは、４次ＨＯＡコンテンツ（Ｎ＝４）の符号化のために示されており、完全な３Ｄ表現のために（Ｎ＋１）^２＝２５に等しいオーディオチャンネルを必要とする。同じ概念は、Ｎ＝１以上のあらゆるＨＯＡ次数の符号化のために利用できる。同様に、次元削減（dimensionality reduction）の後の取り出された“オーディオチャンネル”の数８は、大きさの程度を明らかにするであろう例となる数である。なお、この８という数（平均して）は、次数Ｎ＝４のＨＯＡコンテンツを符号化する際に適切であることが分かっている。

符号化プロセスは、互いからある程度独立している２つの段に分けられる。第１の段１０は、次元削減段である。それは、入力されたＨＯＡコンテンツを解析し、それをより少ない数のドミナントサウンド成分へと分解することによって信号の次元を減らす。いささか抽象的な用語“サウンド成分（sound components）”は、結果として得られる信号が必ずしもサウンドオブジェクト、特定の空間方向又はアンビエンスに対応しないために使用される（なお、それらは、実際には、特別の場合にはそうすることができる。）。

情報理論から、少なくとも複雑なオーディオシーンについて、この段１０の出力で提供される情報は、入力された情報よりも体系的に少ないことが知られている。次元削減段１０は、（１）入力されたオーディオシーンの固有の冗長性を可能な限り利用することによって、情報損失が最小限にされるように、且つ、（２）無関連性が低減されるように、動作する。すなわち、出力信号は、入力されたコンテンツに対する再構成されたオーディオシーンの知覚的な差が最小限にされるほど十分な情報を依然として運ぶ。この段１０は、時間により変化し且つ信号に適応した信号処理を利用する。その出力信号の数は、パラメータ化及び信号特性に応じて、同じく適応的であることができる。

第２の符号化段１１は、モノラルオーディオ信号のための複数（この場合は、８つ）の並列な知覚符号器のバンクを有する。それらの符号器は、個々のドミナントサウンド成分を符号化し、時間−周波数符号化の原理（これは、１９９０年代以降に確立された。）を用いて動作する。例えば、ＭＰＥＧ−４アドバンスド・オーディオ・コーディング（ＡＡＣ；Advanced Audio Coding）符号器のバンクが、第２の符号化段１１で利用されてよい。符号器の実装は、全体的な符号器制御ブロックがそれらのコア・コーデックの特定のパラメータ（例えば、平均ビットレート、ウィンドウ切替動作、ビットリザーバ（bit reservoir）のサイズ、スペクトル帯域複製の挙動、等）に作用することを可能にするために、わずかに変更される必要がある。このアーキテクチャは、既存のコーデックの実装及び対応する最適化の再利用を最大限に促すことによって、ＨＯＡコーデックを実装するのに必要な設計労力を最小限とすることから、選択されてきた。

完全な符号器の動作は、符号器制御段１２によって制御される。ここで、知覚オーディオシーン解析が実行され、他の信号処理段を駆動及び制御するために必要とされるパラメータを決定する。特に、この制御インスタンスは、データレートリソースの大域的最適化に関与し、そして、それは、全体として優れたレート歪み性能を達成するのに欠かせない。最後に、第２の符号化段１１の結果として得られるビットストリーム、及び符号器制御段１２からのサイド情報は、マルチプレクサ（ＭＵＸ）１３で単一の出力ビットストリームへと多重化される。

他／サラウンドサウンドフォーマットとの少なくとも基本的な互換性を可能にする方法でＨＯＡコンテンツを符号化することが望ましい。図１に示されているアーキテクチャの１つの問題は、それがＨＯＡフォーマット信号にしか適用可能でないことである。本発明は、サラウンドサウンドフォーマットと後方互換性があるビットストリームをもたらす、ＨＯＡコンテンツの階層的な符号化のための新しい概念、方法及び装置を導入する。

特に、本発明は、他の既存のサラウンドサウンド復号器と後方互換性がある階層的なビットストリームに含まれる高分解能の空間オーディオコンテンツを符号化する解決法を開示する。結果として得られるビットストリームは、従来のサラウンドサウンド復号器が利用される場合は従来のサラウンドサウンドへと復号し、一方、本発明の一実施形態に従う新しい高度な復号器は、その全く同じビットストリームを完全な３Ｄオーディオ（すなわち、サラウンドサウンドを超えるもの）へと復号することができる。原理上は、ビットストリームは、ベースレイヤ及びエンハンスメントレイヤを有する。符号化及び復号化の両方の間、サラウンドサウンド表現からの情報は、エンハンスメントレイヤの高品位オーディオ信号を符号化／復号するために利用される。

階層的なオーディオビットストリームを復号する方法は、請求項１において開示される。階層的なオーディオビットストリームを符号化する方法は、請求項４において開示される。階層的なオーディオビットストリームを復号する装置は、請求項７において開示される。階層的なオーディオビットストリームを符号化する装置は、請求項１１において開示される。

一実施形態において、本発明は、コンピュータで実行される場合に、該コンピュータに、請求項１に記載の復号化方法を実行させる実行可能命令を記憶したコンピュータ可読記憶媒体に関する。一実施形態において、本発明は、コンピュータで実行される場合に、該コンピュータに、請求項４に記載の符号化方法を実行させる実行可能命令を記憶したコンピュータ可読記憶媒体に関する。

一実施形態において、本発明は、プロセッサ及びメモリを有し、前記メモリが、前記プロセッサで実行される場合に、該プロセッサに、請求項１に記載の復号化方法を実行させる実行可能命令を記憶しているデバイスに関する。一実施形態において、本発明は、プロセッサ及びメモリを有し、前記メモリが、前記プロセッサで実行される場合に、該プロセッサに、請求項４に記載の符号化方法を実行させる実行可能命令を記憶しているデバイスに関する。

一実施形態において、階層的なオーディオビットストリームを復号する方法は、埋込サラウンドサウンドビットストリーム及びセカンドレイヤＨＯＡビットストリームを得るよう前記階層的なオーディオビットストリームを復調するステップであって、前記セカンドレイヤＨＯＡビットストリームは第１及び第２のサイド情報並びに符号化された残差信号を含む、ステップと、復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するステップと、前記セカンドレイヤＨＯＡビットストリームを復号するステップとを有する。前記セカンドレイヤＨＯＡビットストリームを復号するステップにおいて、再構成されたＨＯＡ信号は、前記復号されたサラウンドサウンドビットストリーム及び前記第１のサイド情報を用いてサウンド成分を予測するステップと、再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせるステップと、前記再構成されたサウンド成分及び前記第２のサイド情報を組み立て直すことによってＨＯＡコンテンツを再構成するステップとによって得られる。

本発明の利点は、サラウンドサウンドフォーマットを含む他のフォーマットとの少なくとも基本的な互換性を可能にする方法でＨＯＡコンテンツを符号化することを可能にする点である。

本発明に従う階層コーデックの完全な実装は、コア・コーデックのバンクのためのあらゆる利用可能な、変更可能な符号器及び復号器ブロックに依存してよく、後述されるものとは異なったコア・コーデックを使用してよいことが留意されるべきである。

本発明の有利な実施形態は、従属請求項、以下の説明及び図において開示される。

本発明の例となる実施形態は、添付の図面を参照して記載される。
ＨＯＡ圧縮のための既知の符号器アーキテクチャの構造を示す。埋込サラウンドサウンド・コーデック・ストリームを使用する階層的なＨＯＡ符号化のための例となるアーキテクチャを示す。予測及び残差符号化による階層的なＨＯＡ符号化を示す。知覚コア・コーデックのサイコ・アコースティック制御の変形を示す。例となるＨＯＡ信号（“バンブルビー（Bumblebee）”）についての予測利得の時間依存挙動を示す。様々な種類のＨＯＡコンテンツについての大域的予測利得のヒストグラムを示す。サラウンドサウンドデータが予め利用可能である階層的なＨＯＡ符号化の例となるアーキテクチャを示す。階層的なＨＯＡ復号化のための例となる復号器アーキテクチャを示す。符号化方法のフローチャートを示す。復号化方法のフローチャートを示す。

本発明は、高次アンビソニックス（ＨＯＡ）のための埋込符号化スキームのアプローチを提供する。かかるスキームの非常に魅力的な用途は、既存のサラウンドサウンド復号器と後方互換性があるビットストリームによる高分解能の空間オーディオコンテンツの分配／ブロードキャスティングである。このようなビットストリームは、既存のサラウンドサウンド復号器が利用される場合は従来のサラウンドサウンドへと復号し、一方、新しい高度な復号器は、その全く同じビットストリームから完全な３Ｄオーディオを復号することができる。それによって、新しいモノリシック（すなわち、自己完結）のコンテンツフォーマット及び対応する復号器の実装の大規模な展開を通常は大幅に減速させる“因果関係の分からない問題（chicken-egg problem）”は、回避され得る。コンテンツプロバイダは、現場で、すなわち、潜在的な顧客において設置された多数の復号器による下支えを有利なことに依然として享受する新しい品質のコンテンツを分配し始めることができる。

上記の用途は、階層的な符号化技術によって有効に対処される。埋込サラウンドサウンドビットストリームは、概して自己完結しているが、完全な３Ｄオーディオシーンに必要とされる“追加的な情報”も運ぶビットストリーム・コンテナとなる。そのような条件下での完全なオーディオシーンの高効率圧縮のための鍵は、完全な３Ｄオーディオシーンを所与の品質レベルで運ぶのに必要とされる総ビットレートを最小限とするために、最大量の情報が既存のサラウンドサウンド表現から利用されることである。

本発明は、ＨＯＡコンテンツの圧縮に特に注目しながら、かかる圧縮技術が如何にして働くことができるのかに関する概念及び評価を導入する。ＨＯＡ表現は、費用効率が高い生産ワークフローが必要とされる用途において特に魅力的である。更には、ＨＯＡ技術は、その固有のスケーラビリティと、記録又はラウドスピーカ構成への非依存性とにより、家庭への高効率配信と、顧客の家に存在し得る全ての種類の現実のラウドスピーカ構成へのフレキシブルなレンダリングとへの門戸を開く。

具体例として、１つには、ビットストリームのオーディオ部分のための総ビットレートが約１２８ｋｂｉｔ／ｓ（ステレオ）から３８４ｋｂｉｔ／ｓ（サラウンド）の範囲にあるＴＶ放送が考えられ得る。かかるビットレートは、複雑な空間オーディオシーンが圧縮及び搬送されるべき場合に（例えば、４次のＨＯＡコンテンツ）、早くも困難である。それらは、実際上同じ総データレートが、適当な品質においてサラウンドバージョンに加えて完全な空間オーディオシーンを運ぶために使用されるべき場合に、当然により一層困難である。本発明は、この課題を解決するために適用可能である概念を導入する。

先に簡単に紹介された自己完結型ＨＯＡ圧縮のための例となる最新のアプローチは、本発明の新しい階層的概念を理解するためのシーンを設定する。

本明細書は、ＨＯＡフォーマットでそもそも記録されたコンテンツ（“原ＨＯＡコンテンツ”）の、効率的な圧縮及びレンダリングに対するその適合性に関する有利な特性のために、かかるコンテンツに注目する。とは言え、後述されるものと極めて類似した階層的な圧縮技術は、原の３Ｄオーディオシーン表現がチャンネル指向及び／又はオブジェクト指向のパラダイムを使用する用途のために同様に適用可能である。

以下で、ＨＯＡコンテンツの階層的な符号化についての概念が記載される。任意に、原のサウンドオブジェクトが更に入力されてよい。

提案される埋込符号化原理の実例が、図２に示されている。符号器は、２つの並列な信号経路、すなわち、入来するＨＯＡ信号からのサラウンド信号の生成及び符号化のための１つの信号経路と、ＨＯＡコンテンツの条件付き符号化のための他の信号経路とを使用する。下側の信号経路では、入来するＨＯＡ信号は、埋込サラウンド符号器（ＥＮＣ；Embedded Surround Coder）２１のラウドスピーカフォーマットへとレンダリング（２０）される。このレンダリングは、非常にフレキシブルな様態において実施及び制御され得る。例えば、入来するＨＯＡコンテンツの全自動レンダリングが実行されてよく、あるいは、サウンドミキサがアーティスティック・レンダリングを生成してよい。レンダリングは、時間によって変化しなくても、あるいは、時間によって変化してもよい。原理上は、サラウンド信号は、ＨＯＡコンテンツの当初のミキシングのために使用されるのとは全く異なったミキシングワークフローによっても生成され得る。なお、一般に、階層的圧縮スキームは、サラウンドサウンドビットストリームとＨＯＡビットストリームとの間に少なくともある程度の相関関係が得られ、条件付き符号化ブロック２２によって使用され得る場合にのみ、サラウンドサウンドビットストリーム及びＨＯＡコンテンツの同時送信に対する幾らかのレート歪みの利点をもたらすことができる。これは、大半の場合に当てはまり、サラウンドサウンドビットストリームが入力されたＨＯＡビットストリームから得られる場合に自明である。

サラウンドサウンド符号器２１が埋込ビットストリームのために使用するサラウンドサウンドラウドスピーカフォーマットは、あらゆる既存の（又は新しい将来の）サラウンドフォーマット（例えば、従来の５．１サラウンド）、又は“適当な”スピーカ構成によるあらゆる雰囲気のサラウンドサウンド（例えば、異なった角度を使用する改良された５．１サラウンドサウンドフォーマット、又はあらゆる７．１フォーマット、等）に従うことができる。一般に、より独立したサウンド成分が埋込サラウンド信号に含まれことが期待され得るので、更なる効率性が、以下で紹介される条件付き符号化ブロック２２から得られる。実現可能性の検討において、従来の５チャンネルサラウンド構成（チャンネル：レフト、センター、ライト、レフトサラウンド、ライトサラウンド）が使用された。

符号化されたサラウンドチャンネルは、それらがＨＯＡコンテンツの条件付き符号化のためのサイド情報となることができるように、完全に又は部分的に復号される。簡単のために、このサラウンドチャンネル復号化は、図２には明示的に示されていない（なお、図３において以下で示される。）。条件付き符号化２２は、ＨＯＡコンテンツの圧縮をより効率的にするために、サラウンドチャンネルとＨＯＡコンテンツの間の可能な限り多くの相関関係を特定し利用する。具体的な課題及び如何にしてそれらが解決され得るかに関する更なる詳細は、以下で記載される。

条件付き符号化ブロック２２によって供給される符号化されたサラウンドチャンネル及びセカンドレイヤ（エンハンスメントレイヤ）ビットストリームは、マルチプレクサ（ＭＵＸ）２３で多重化され、最終の出力ビットストリーム２３ｑは、２つの符号化ブロック２１及び２２からの多重化されたサブビットストリームをスケーラブルな構成において有する。その中心には、埋込サラウンドサウンド符号器２１のビットストリームがある。ビットストリームのこの部分は、後方互換可能な様態においてパッケージ化され、それにより、サラウンド・コーデックフォーマットに従う範囲内の如何なる既存の復号器も、ＨＯＡコーデックの余分のビットストリームを無視しながら、ビットストリームのこの部分を理解し復号することができる。加えて、出力ビットストリーム２３ｑは、条件付きＨＯＡ符号器２２によって生成されたビットストリームを含む。真に階層的な構成において、ビットストリームのこの部分は、完全なビットストリーム／コーデック・フォーマットを知っている本発明に従う復号器の実施によってのみ復号化可能である。

上記のスケーラブルな（単一）ビットストリームの定義の前提条件は、既存のサラウンド復号器によって無視されるべき新しいサブビットストリームを加えるために、改良されるサラウンド・コーデック・ビットストリームのフォーマット仕様がオープンであることである。すなわち、本発明は、そのような付加を可能にするサラウンドサウンドフォーマットに適用可能である。一般的な５．１サラウンドサウンド又は７．１サラウンドサウンドのような大部分のサラウンドフォーマットは、この条件を満たす。

図３は、埋込サラウンド信号から導出され得る情報を使用するＨＯＡ信号の符号化のための条件付き符号化スキームの一実施形態の略ブロック図を示す。図１に示されたスタンドアローンのＨＯＡ符号器に対する最も明白な変更は、サラウンドサウンド復号器３７が経路間に加えられており、残差信号の予測及び計算のための新しいサブシステム３５が次元削減ブロック３４と後続のコア・コーデック（モノラルのコア符号器）３６のバンクとの間に加えられていることである。このサブシステムは、この簡略図では、有意な性能向上を得るための鍵である。

原理上は、残差信号の予測及び計算のための新しいサブシステム３５は、次元削減ブロック３４によって生成されるドミナントサウンド成分を予測するために、埋込サラウンド信号からの情報を使用する予測器として働く。原ドミナントサウンド成分と予測された信号との間の差信号（以後、“残差”又は“残差信号”と称される。）は、次いで、並列なコア符号器３６のバンクへ転送される。それらの符号器は、残差信号をサラウンドフォーマット（例えば、ドルビーデジタル又は５．１サラウンドサウンド）へと符号化する。あらゆる種類の線形又は非線型予測が利用されてよく、それによって、アルゴリズムの複雑性と信号の品質との間のフレキシブルなトレードオフを可能にする。予測がより良く働く場合に、残差信号は、信号エネルギが小さく、所与の品質レベルでの優れた圧縮のためにそれほど大きなデータレートを必要としない。上述されたように、ドミナントサウンド成分は、必ずしもサウンドオブジェクト、特定の空間方向又はアンビエンスに対応しない。

先に紹介された単なる予測の原理は、サラウンド信号の特性に関するサイド情報もコア符号器３６のバンク内で条件付き符号化を介して（追加的に又は排他的に）利用されることから簡単にされ、このサイド情報は、ビット割り当てのために個々のコア・コーデック及び全体の符号器制御においても使用されるべきである。上記の予測のみのアプローチは、それがコア符号器の最小限の変更しか必要としないという利点を有する。

上記の予測及び残差符号化原理には、次のような善処すべき２、３の基本的な課題が存在する：
第１に、サラウンドサウンドチャンネルの次元は、通常は、ＨＯＡコンテンツの次元よりも低い。従って、情報理論の観点から、サラウンドチャンネルからのドミナントサウンド成分の完ぺきな予測は、両表現の固有の次元が、例えば、純粋に合成的にミックスされたコンテンツのために、制限される場合を除いて、実現可能であるように思われない。実際に得られる予測利得の量は、コンテンツの２つの典型的なシーケンスについて以下で評価される。

第２に、サラウンドサウンド・コーデック３１、３７は、ＨＯＡコンテンツの予測のために予測ブロック３５へ入力されるサイド情報の基となる符号化ノイズを導入する。サラウンドチャンネルと対照的に、しかし、符号化ノイズは、サラウンドチャンネル間と同様に有用な信号と無相関であると考えられ得る。従って、符号化ノイズは、結局のところ残差信号になり、一方、残差の全体のレベルは、原のＨＯＡコンテンツの全体のレベル以下である。それによって、残差のＳＮＲは、サラウンドサウンド・コーデックの符号化ノイズに相当に悩まされ得る。

一例として、最新の知覚オーディオ符号化の典型的なＳＮＲは、１０〜２０ｄＢの範囲にあり、スペクトル帯域複製（ＳＢＲ；Spectral Band Replication）のようなパラメトリック符号化スキームが適用されている場合には、より一層悪いということを考える。ノイズ付加の上記のメカニズムに従って、残差信号のＳＮＲは、上記の範囲よりも相当に低い可能性がある。結果として、残差符号器は、有用な信号のためよりむしろ、サラウンドレイヤの符号化ノイズを符号化するためにデータレートを浪費する相当なリスクがある。

第３に、残差信号の知覚圧縮において、符号化された信号とマスキング信号との間の不一致が考慮されるべきである。残差信号は、次元削減によって供給される原のサウンド成分よりも低い信号レベルを有し、一方、それらのサウンド成分は、マスキング閾のサイコ・アコースティック・モデリングのための入力に依然としてなるべきである。このアーキテクチャの原理は、以下で更に説明されるように、図４で示されている。

更には、２種類の量子化ノイズ（１つは、上述されたように埋込サラウンド・コーデック３１、３７によって生成され、もう１つは、残差符号器の実際のバンク内の符号化動作の結果である。）は、コア・コーデック３６のバンクによって最適化されるべきである。そのため、先に紹介された階層的概念は、コア・コーデックが、同じ知覚オーディオ符号化アルゴリズムのスタンドアローン適用に対して変更されることを必要とする。

後述される実現可能性の検討は、残差信号のフレーム単位でのエネルギレベルの最小化が予測ステップを適応させるための最適化基準であることにより得られた結果を示す。これは、データレートが十分に高く、且つ、電力分配が異なった周波数範囲にわたって実質的に一様であるという条件で、適切に働くむしろ率直な最適化基準である。特定の用途においてより良い代替の最適化戦略は、周波数又は変換領域において定式化された微分又は知覚エントロピーメトリックの最小化を含む。どのメトリックが成り立つかは、組み込まれたコア・コーデックのアーキテクチャに大いに依存する。

図４は、知覚コア・コーデックのサイコ・アコースティック制御の変形を示す。残差信号は、次元削減によって供給される原のサウンド成分よりも低い信号レベルを有し得るが、依然としてサウンド成分は、マスキング閾のサイコ・アコースティック・モデリングのための入力になるべきである。よって、夫々のドミナントサウンド成分についての個別的な知覚マスキング閾は、４１で計算され、残差信号の知覚符号化４２において使用される。このスキームは、知覚符号化において残差信号のエネルギ削減を利用するために、コア符号器３６のバンクの全符号器エントリ内で実行されるべきである。

当然、予測スキームは、フレーム単位で適応され得るが、周波数依存のスキームも、残差信号の知覚オーディオ符号化のための予測の影響を最適化するために用いられ得る。かかる周波数依存のスキームは、異なった周波数バンドごとの異なったマトリクスによるフレーム単位でのマトリクス演算（時間領域における。）を使用するものである。このようにして、アルゴリズムの複雑性と、一方ではサイド情報（復号器における予測制御のため。）の量及び、他方では品質のレベルとの間のトレードオフは、調整され得る。

サイド情報に関して、次のことが考えられるべきである。

予測の概念により直接に得ることができる潜在的なビットレート節約に加えて、予測ブロックのパラメータは、復号器が圧縮されていないサウンド成分の回復のために全く同じ予測ステップを実行することができるように、ビットストリーム内でサイド情報として送信されるべきである。必要とされるデータレートの最悪の場合の評価は、次のとおりである：
図３に表されている例となる階層的なＨＯＡ符号化システムについて、予測システムは、予測を実行するために、例えば、５×８の係数マトリクスを使用してよい。マトリクスの係数は、４８ｋＨｚのサンプルレートで１０２４個のサンプルのフレームごとに更新されている。すなわち、毎秒５×８×５０＝２０００個の総数のパラメータが符号化され送信されるべきである。パラメータごとに８ビットによる量子化を考えると、結果として得られるサイド情報のデータレートは約１６ｋｂｉｔ／ｓとなり得る。

埋込サラウンドサウンドビットストリームを使用する階層的なＨＯＡ符号化の上記概念の実現可能性は、一連の実験を行うことによって確かめられてきた。以下では、根底にある制約及び前提が説明され、主たる結果は、２、３の代表的な例により明らかにされる。この目的のために、図３に表されている符号化システムのコアブロックは、実装及び／又はシミュレーションされている。５チャンネルサラウンドサウンド（レフト、センター、ライト、レフトサラウンド、ライトサラウンド）への入来するＨＯＡコンテンツのレンダリングのために、不変のレンダリングマトリクスが利用された。それは、ＨＯＡコンテンツを直接にラウドスピーカへとレンダリングするためにも使用される。

サラウンドサウンドの符号化及び復号化の影響は、１０ｄＢの平均信号対ノイズ比（ＳＮＲ）で無相関ノイズを付加することによりシミュレーションされた。このようにシミュレーションされた“符号化ノイズ”は、原のサラウンドサウンドチャンネルの周波数成分に従って適応されている線形予測フィルタによりフィルタをかけられた。結果として、符号化ノイズの周波数分布は、指定されたＳＮＲに従って、より低い電力レベルであっても、サラウンド信号の電力スペクトラムに大まかに追随する。

予測スキームのために、線形ブロック予測が使用されている。それは、既知の信号（サラウンドサウンド）と未知の信号（ドミナントサウンド成分）との間の結合ベクトルの共分散マトリクスから求められ得る。この適応は、比較的簡単であり、平均二乗予測誤差の最小化のために調整されている。適応は、４８ｋＨｚのサンプルレートでの１０２４個のサンプルのフレームアドバンスによりフレームごとに実行される。

客観的評価のメトリックとして、デシベルで表される成分単位での予測利得が特定された。このメトリックは、たとえ高データレート（以下参照）による適用についてのみであっても、よく知られている６ｄＢ／ｂｉｔの経験則（rule-of-thumb）による対応するレート歪み改善を示すことができるという利点を備える。例えば、サウンド成分ごとに６ｄＢの予測利得で、所与の品質によりその成分の残差を送信するために必要とされるデータレートは、原のサウンド成分の送信のためよりも１ｂｉｔ／ｓａｍｐｌｅ低いことが期待され得る。この規則は、（例となる）８つの関連するサウンド成分の全てについて得られる平均予測利得に基づき現在の場合へと変換され得る。１ｄＢの夫々の予測利得改善は、おおよそ６４ｋｂｉｔ／ｓまでの理論上のデータレート節約をもたらす。

結果は、代表的なシーケンスの組に基づきモンテカルロ法により決定された。予測利得は、種々の後処理ワークフローと組み合わせてアイゲンマイク（ＥｉｇｅｎＭｉｋｅ）のようなマイクロホンアレイを用いて実施されている様々な記録とともに、異なる数のサウンドオブジェクトによる合成ミックスを有する２、３の典型的な種類のＨＯＡ信号について決定された。

たとえ上記の前提が妥当であるとしても、それらは、実際には、ある程度しか適用され得ないことが知られる。上記の前提が実際の実施において満足される可能性は、サラウンドサウンド・コーデック及びモノラル・コア・コーデックの両方の特性に大いに依存する。特定の適用のためのより正確な評価は、関与する実際のコーデックを用いて実行されてよい。

ＨＯＡシーケンス“バンブルビー”のための例となる評価結果は、図５において表されている。図５は、例となるＨＯＡ信号（“バンブルビー”）のための予測利得の時間依存挙動を示す。上の図は、夫々のフレーム（横軸）について得られる平均予測利得ｇ_ｍｅｄ、最小予測利得ｇ_ｍｉｎ及び最大予測利得ｇ_ｍａｘに対応する３つの曲線を示す。下の図は、夫々のフレーム（横軸）について、８つのドミナントサウンドオブジェクト（夫々、縦軸上の１つの行に対応する。）の夫々についてのフレーム依存の予測利得を示す。低い利得（０ｄＢ）は暗く（すなわち、青色）、高い利得（２０ｄＢ）は赤色である。マークを付された領域５０ａ、５０ｂ、５０ｃ、５０ｄ、５０ｅは主に赤色であり、すなわち、高い利得を示し、一方、暗い（青色）部分は低い利得を有する。他の領域では、中間の利得値が優位を占める。

それらの結果から明らかなように、予測利得は、時間により大いに変化し（しかし、常に正）、それは、符号化されるコンテンツ及び／又はドミナントサウンド成分のタイプに依存する。後者の所見は、図５の下側の図において異なるドミナントサウンド成分について観測され得る予測の根本的に異なった挙動において反映されている。

完全な“バンブルビー”シーケンスにわたって計算される全体平均の予測利得は、９．２２ｄＢである。面白いことには、９．２２ｄＢの絶対値は、埋込サラウンドサウンド・コーデックについて仮定された１０ｄＢのＳＮＲに近い。

幾つかのＨＯＡ信号についての予測利得の統計的評価は、図６において集められている。７つのテストシーケンスの夫々について、得られた予測利得のヒストグラムは、０．５ｄＢ刻みで示されている。この評価は、異なるタイプのコンテンツごとに予測利得の異なる特性を明らかにする。例えば、コンテンツの非常に興味深い区間は、予測利得の３様のヒストグラムを示すシーケンス“Ｓｔａｄｉｕｍ２”である。利得が全く達成され得ないも同然の多くのフレーム及び／又はドミナントサウンド成分が存在する一方で、２つの他のモードは、約３．５ｄＢ及び１１．５ｄＢの平均値を有して存在する。このヒストグラムは、このシーケンスのために使用される特定の記録及び後処理技術の結果である。それは、スポーツのスタジアムにおいて記録されたシーケンスであり、極めて拡散的である。すなわち、それは、多数の無相関の音源を有する。

実現可能性の検討の結果は、様々な種類の信号（マイクロホンアレイ記録、合成ミックス及びハイブリッド信号）について観測される５〜９ｄＢの一貫した予測利得を示す。単一信号フレームの予測利得は、サラウンドサウンド・コーデックについてシミュレーションされたＳＮＲよりも良い一方で、平均値のどれもが１０ｄＢの値を超えない。明らかに、サラウンドサウンド・コーデックのＳＮＲは、達成され得る最大予測利得に対して制約を課す。この所見は、サラウンドサウンド・コーデックのシミュレーションされたＳＮＲが同様の観測により変化したという経験によって支持される。

平均予測利得に加えて、評価結果から、予測利得は時間により大いに変化すること、及び予測の統計値は試験下の信号の種類に大いに依存することが明らかになった。実際の適用において、強力なビットリザーバ技術及びスマートな大域的ビットレート制御は、激しい時間変化に対処するのを助けるように思われる。語「ビットリザーバ技術」は、符号化される信号に応じて、利用可能なビットを時間にわたって分配する技術である。それは、信号の将来の部分のための予備にビットを取っておくことを必要とする。

高レートの想定の下で（すなわち、上記の６ｄＢの前提が有効であるように、高ビットレートが利用可能であるとする。）、且つ、上記の経験則（予測利得のｄＢごとの６４ｋｂｉｔ／ｓのビットレート節約）によれば、特定されたレベルの予測利得は、予測なしの同時送信と比較して、最大で３２０〜５７６ｋｂｉｔ／ｓまでの節約につながる。この結果は、その場合に高レートの想定が大体において有効であることから、順可逆圧縮用途にとって少なくとも有意義である。全てのＨＯＡ係数の可逆圧縮の評価については、“次元削減”ステップがこの場合には必要とされないので、別の検討が行われるべきである点に留意されたい。

低レートオーディオ圧縮は、高レート圧縮とは別なふうに働き、そのような要件の下で、同量のビットレート節約が上述されたように実現され得るとは考えられない。そのような低レートのシステムは、より正確な評価のために構築され得る。そのような低ビットレートの評価のために、特に、コア・コーデックのバンクにおいて２、３の変更を含めることが必須である。

とは言え、上記の結果は、階層的な符号化がサラウンドサウンド及びＨＯＡコンテンツの同時送信に対して有意な利点を有すると考えることが妥当に思われることを示す。上記の予測利得及び関連する潜在的なデータレート低減は、総ビットレートがおおよそ５００ｋｂｉｔ／ｓの中間範囲内にある用途にとって特に有意義であると思われる。そのような用途では、潜在的なデータレート節約の量はとても重要であるが、依然として、我々は、極めて低いビットレートの用途についてよりも、高レートの想定に近い。

図７は、サラウンドサウンドデータが予め利用可能である階層的なＨＯＡ符号化の例となるアーキテクチャを示す。よって、ＨＯＡ信号からサラウンドデータを導出することは起こり得ないか、あるいは、必要とされない。代わりに、芸術的な処理７１が、利用可能なサラウンドサウンドデータに対して実行されてよい。例えば、付加音声、環境音、観客の拍手、等が加えられてよい。アップミックス７２、７３は、芸術的な処理７１の前又は後のいずれかで、そのＨＯＡ表現（あるいは、二重のアップミックスが実行される場合には両方）を得るために実行されてよい。サラウンドサウンドは、サラウンドサウンド符号器７４において符号化される。サラウンドサウンド符号器７４は、サラウンドサウンドコンテンツから得られるサイド情報も供給する。ＨＯＡ表現は、残差ＨＯＡコンテンツのセカンドレイヤビットストリームを得るよう、サイド情報に応じて、条件付きＨＯＡ符号器７５において条件付き符号化される。最後に、符号化されたサラウンドサウンド７６及び残差ＨＯＡコンテンツのセカンドレイヤビットストリーム７７は、階層ビットストリームに、例えば、マルチプレクサ（ＭＵＸ）７８を用いて多重化された様態において、含められる。更なる詳細は、図３に示されたのと同様である。

図８は、階層的なＨＯＡ復号化のための例となる復号器アーキテクチャを示す。受け取られた階層ビットストリームは、デマルチプレクサ８１へ入力される。デマルチプレクサは、２つのサブストリームに分ける。１つの出力８１ｑ１では、デマルチプレクサは、埋込サラウンドサウンドビットストリーム８１１を供給する。埋込サラウンドサウンドビットストリーム８１１は、従来の埋込サラウンドサウンドビットストリームである。他の出力８１ｑ２では、デマルチプレクサは、ＨＯＡコーデックのセカンドレイヤビットストリームについての残差８１２を供給する。セカンドレイヤビットストリームは、ＨＯＡ復号化ブロック８３を有さない従来の復号器では無視される。かかるＨＯＡ復号化ブロック８３は、本発明に従う復号器において利用可能であり、セカンドレイヤＨＯＡビットストリームを扱うことができる。ＨＯＡ復号化ブロック８３は、条件付きＨＯＡ復号器８４を有する。条件付きＨＯＡ復号器８４は、一実施形態では、予測のための第１のサイド情報８４１と、ＨＯＡ再構成のための第２のサイド情報８４２と、復号された残差信号８４３とを供給する。符号化されたサラウンドサウンドビットストリームは、サラウンドサウンド復号器８２へ入力される。サラウンドサウンド復号器８２は、従来のサラウンドサウンド信号８２１を出力部へ供給する。

ＨＯＡ復号化ブロック８３において、従来のサラウンドサウンド信号８２１は、予測ブロック８５においてサウンド成分を予測するために、第１のサイド情報８４１とともに使用される。予測ブロック８５は、予測されたサウンド成分８５１を重ね合わせブロック８６へ供給する。重ね合わせブロック８６は、予測されたサウンド成分８５１と、条件付きＨＯＡ復号器８４から伝来する復号された残差信号８４３との重ね合わせを実行し、再構成されたサウンド成分８６１をＨＯＡコンテンツ再構成ブロック８７へ供給する。ＨＯＡコンテンツ再構成ブロック８７は、再構成されたサウンド成分８６１及び第２のサイド情報８４２から再構成されたＨＯＡ信号８３ｑを生成し、再構成されたＨＯＡ信号８３ｑをその出力部で出力する。この再構成されたＨＯＡ信号８３ｑは、次いで、例えば、所与のラウドスピーカ配置に従って、送信され、記憶され、処理され、あるいは、ＨＯＡ復号され得る。

図９は、一実施形態において、階層的なオーディオビットストリームを符号化するための方法９０を示す。方法９０は、ＨＯＡ入力信号を受け取るステップ９１と、ＨＯＡ入力信号をサラウンドサウンドフォーマットへとレンダリングするステップ９２であって、サラウンドサウンドミックスが得られるステップ９２と、サラウンドサウンド符号器においてサラウンドサウンドミックスを符号化するステップ９３であって、符号化されたサラウンドサウンドが得られるステップ９３と、再構成されたサラウンドサウンド信号を得るよう、符号化されたサラウンドサウンドを復号するステップ９４と、受け取られたＨＯＡ入力信号に対して次元削減９５を実行するステップであって、ドミナントサウンド成分を有する次元削減されたＨＯＡ信号が得られるステップと、次元削減されたＨＯＡ信号と再構成されたサラウンドサウンド信号との間の差を計算するステップ９６であって、残差信号が得られるステップ９６と、モノラル符号器（すなわち、夫々の符号器がドミナントサウンド成分を符号化する複数の単一チャンネル符号器）のバンクにおいて残差信号を符号化するステップ９７であって、符号化された残差が得られるステップ９７と、符号器制御ブロックにおいてＨＯＡ入力信号に関する構造情報を得るステップ９８と、階層的なオーディオビットストリームを得るよう、構造情報、符号化された残差、及び符号化されたサラウンドサウンドを多重化するステップ９９とを有する。

図１０は、一実施形態において、階層的なオーディオビットストリームを復号するための方法１００を示す。方法１００は、階層的なオーディオビットストリームを受け取って復調するステップ１０１であって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤＨＯＡビットストリームが得られ、セカンドレイヤＨＯＡビットストリームは第１及び第２のサイド情報並びに符号化された残差信号を有するステップ１０１と、復号されたサラウンドサウンドビットストリームを得るよう埋込サラウンドサウンドビットストリームを復号するステップ１０２と、セカンドレイヤＨＯＡビットストリームを復号するステップ１０３とを有する。ステップ１０３において、再構成されたＨＯＡ信号は、復号されたサラウンドサウンドビットストリーム及び第１のサイド情報を用いてサウンド成分を予測するステップ１０５と、再構成されたサウンド成分を得るよう、予測されたサウンド成分を、復号された残差信号とを重ね合わせるステップ１０６（すなわち、原理上は、基本信号、すなわち、予測されたサウンド成分と、復号された残差信号を重ね合わせる又は足し合わせることによって、サウンド成分を再構成するステップ）と、再構成されたサウンド成分及び第２のサイド情報を組み立て直すことによってＨＯＡコンテンツを再構成するステップ１０７であって、再構成されたＨＯＡコンテンツが得られるステップ１０７とを有する。再構成されたＨＯＡコンテンツは、エンハンスド・オーディオ信号を得るのに適しており、一方、サラウンド信号８２ｑは、基本オーディオ信号である。原理上は、復号化は、図３の符号器又は図７の符号器のいずれかによって生成された如何なる階層ビットストリームにも適する。

図３、図７及び図８に示されている構造ブロック並びに上記の方法のステップは、ハードウェアユニットとして、ソフトウェアユニットとして、又はその複合体として実装されてよい。更に、図示されている構造ブロックのうちの２つ以上は、複数の機能を実行する単一の構造ブロックにまとめられてよい。

埋込サラウンドビットストリームを有するＨＯＡコンテンツの階層圧縮の使用ケースが実施されており、適切な信号処理概念が更なる最適化に期待する。

旧来のサラウンド・コーデックとともにＨＯＡ圧縮を使用することにおける特定の利点は、その効率的な、後方互換可能な圧縮にある（固有のスケーラビリティ、フルサウンド場のコヒーレント表現、スキームが同様にサウンドオブジェクトを組み込むことができること）。おおよそ５００ｋｂｉｔ／ｓまでのデータレートの低減は、ある中間乃至高ビットレート用途及び特定の信号について期待され得る。

本発明は、単に一例として記載されてきたことが理解され、詳細の変更は、本発明の適用範囲から逸脱することなしに行われ得る。明細書並びに（必要に応じて）特許請求の範囲及び図面において記載される夫々の特徴は、独立して、又は如何なる適切な組み合わせにおいても、提供されてよい。特徴は、必要に応じて、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実装されてよい。接続は、適用可能である場合に、無線接続又は有線（必ずしも直接的又は専用でない）接続として実装されてよい。特許請求の範囲において現れる参照符号は、単に例示にすぎず、特許請求の範囲の適用範囲を制限するものとして解釈されるべきではない。

本発明は、単に一例として記載されてきたことが理解され、詳細の変更は、本発明の適用範囲から逸脱することなしに行われ得る。明細書並びに（必要に応じて）特許請求の範囲及び図面において記載される夫々の特徴は、独立して、又は如何なる適切な組み合わせにおいても、提供されてよい。特徴は、必要に応じて、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実装されてよい。接続は、適用可能である場合に、無線接続又は有線（必ずしも直接的又は専用でない）接続として実装されてよい。特許請求の範囲において現れる参照符号は、単に例示にすぎず、特許請求の範囲の適用範囲を制限するものとして解釈されるべきではない。
上記の実施形態に加えて、以下の付記を開示する。
（付記１）
階層的なオーディオビットストリームを復号する方法であって、
前記階層的なオーディオビットストリームを受け取って復調するステップであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤＨＯＡビットストリームが得られ、前記セカンドレイヤＨＯＡビットストリームは第１及び第２のサイド情報並びに符号化された残差信号を含む、ステップと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するステップと、
前記セカンドレイヤＨＯＡビットストリームを復号するステップであって、再構成されたＨＯＡ信号が、
前記復号されたサラウンドサウンドビットストリーム及び前記第１のサイド情報を用いてサウンド成分を予測するステップと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせるステップと、
前記再構成されたサウンド成分及び前記第２のサイド情報を組み立て直すことによってＨＯＡコンテンツを再構成するステップであって、再構成されたＨＯＡコンテンツが得られるステップと
によって得られるステップと
を有する方法。
（付記２）
前記予測するステップは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
付記１に記載の方法。
（付記３）
前記予測するステップは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
付記１又は２に記載の方法。
（付記４）
階層的なオーディオビットストリームを符号化する方法であって、
ＨＯＡ入力信号を受け取るステップと、
前記ＨＯＡ入力信号をサラウンドサウンドフォーマットへとレンダリングするステップであって、サラウンドサウンドミックスが得られるステップと、
サラウンドサウンド符号器において前記サラウンドサウンドミックスを符号化するステップであって、符号化されたサラウンドサウンドが得られるステップと、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するステップと、
前記受け取られたＨＯＡ入力信号に対して次元削減を実行するステップであって、次元削減されたＨＯＡ信号が得られるステップと、
前記次元削減されたＨＯＡ信号と前記再構成されたサラウンドサウンド信号との間の差を計算するステップであって、残差信号が得られるステップと、
複数のモノラル知覚符号器において前記残差信号を符号化するステップであって、符号化された残差が得られるステップと、
符号器制御ブロックにおいて前記ＨＯＡ入力信号に関する構造情報を得るステップと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するステップと
を有する方法。
（付記５）
前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について個別的な知覚マスキング閾を計算する、
付記４に記載の方法。
（付記６）
更なるサウンドオブジェクトが、前記ＨＯＡ入力をサラウンドサウンドフォーマットへとレンダリングするステップに入力される、
付記４又は５に記載の方法。
（付記７）
階層的なオーディオビットストリームを復号する装置であって、
前記階層的なオーディオビットストリームを逆多重化するデマルチプレクサであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤＨＯＡビットストリームが得られ、前記セカンドレイヤＨＯＡビットストリームは第１及び第２のサイド情報並びに符号化された残差信号を含む、前記デマルチプレクサと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するサラウンドサウンド復号器と、
前記セカンドレイヤＨＯＡビットストリームを復号する階層ＨＯＡ復号器と
を有し、
前記階層ＨＯＡ復号器は、
前記復号されたサラウンドサウンドビットストリーム及び前記第１のサイド情報を用いてサウンド成分を予測する予測ユニットと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせる重ね合わせユニットと、
前記再構成されたサウンド成分及び前記第２のサイド情報を組み立て直すことによってＨＯＡコンテンツを再構成するＨＯＡコンテンツ再構成ユニットであって、再構成されたＨＯＡコンテンツが得られる前記ＨＯＡコンテンツ再構成ユニットと
を有する、装置。
（付記８）
前記セカンドレイヤＨＯＡビットストリームから第１のサイド情報、第２のサイド情報及び復号された残差信号を取り出す条件付きＨＯＡ復号器
を更に有する付記７に記載の装置。
（付記９）
前記予測ユニットは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
付記７又は８に記載の装置。
（付記１０）
前記予測ユニットは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
付記７乃至９のうちいずれか一つに記載の装置。
（付記１１）
階層的なオーディオビットストリームを符号化する装置であって、
ＨＯＡ入力信号をサラウンドサウンドフォーマットへとレンダリングするサラウンドサウンドレンダラブロックであって、サラウンドサウンドミックスが得られる前記サラウンドサウンドレンダラブロックと、
前記サラウンドサウンドミックスを符号化するサラウンドサウンド符号器であって、符号化されたサラウンドサウンドが得られる前記サラウンドサウンド符号器と、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するサラウンドサウンド復号器と、
前記ＨＯＡ入力信号に対して次元削減を実行する次元削減ユニットであって、次元削減されたＨＯＡ信号が得られる前記次元削減ユニットと、
前記次元削減されたＨＯＡ信号と前記再構成されたサラウンドサウンド信号との間の差を計算する予測ユニットであって、残差信号が得られる前記予測ユニットと、
前記残差信号を符号化する複数のモノラル知覚符号器であって、該複数のモノラル知覚符号器の夫々は、前記次元削減により得られる特定のドミナント信号についての残差信号を符号化し、符号化された残差が得られる前記複数のモノラル知覚符号器と、
前記ＨＯＡ入力信号に関する構造情報を得る符号器制御ブロックと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するマルチプレクサと
を有する装置。
（付記１２）
前記残差信号を符号化する前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について、個別的に計算された知覚マスキング閾を使用する、
付記１１に記載の装置。
（付記１３）
１つ以上の更なるサウンドオブジェクトが、前記サラウンドサウンドレンダラブロックへ入力され、該サラウンドサウンドレンダラブロックは、前記ＨＯＡ入力信号及び前記１つ以上の更なるサウンドオブジェクトをサラウンドサウンドフォーマットへとレンダリングする、
付記１１又は１２に記載の装置。
（付記１４）
サラウンドサウンド符号器は、５．１サラウンドフォーマット、改良された５．１サラウンドサウンドフォーマット、ドルビーデジタル又は７．１サラウンドサウンドフォーマットを使用する、
付記７乃至１３のうちいずれか一つに記載の装置。

Claims

階層的なオーディオビットストリームを復号する方法であって、
前記階層的なオーディオビットストリームを受け取って復調するステップであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤＨＯＡビットストリームが得られ、前記セカンドレイヤＨＯＡビットストリームは第１及び第２のサイド情報並びに符号化された残差信号を含む、ステップと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するステップと、
前記セカンドレイヤＨＯＡビットストリームを復号するステップであって、再構成されたＨＯＡ信号が、
前記復号されたサラウンドサウンドビットストリーム及び前記第１のサイド情報を用いてサウンド成分を予測するステップと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせるステップと、
前記再構成されたサウンド成分及び前記第２のサイド情報を組み立て直すことによってＨＯＡコンテンツを再構成するステップであって、再構成されたＨＯＡコンテンツが得られるステップと
によって得られるステップと
を有する方法。
前記予測するステップは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
請求項１に記載の方法。
前記予測するステップは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
請求項１又は２に記載の方法。
階層的なオーディオビットストリームを符号化する方法であって、
ＨＯＡ入力信号を受け取るステップと、
前記ＨＯＡ入力信号をサラウンドサウンドフォーマットへとレンダリングするステップであって、サラウンドサウンドミックスが得られるステップと、
サラウンドサウンド符号器において前記サラウンドサウンドミックスを符号化するステップであって、符号化されたサラウンドサウンドが得られるステップと、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するステップと、
前記受け取られたＨＯＡ入力信号に対して次元削減を実行するステップであって、次元削減されたＨＯＡ信号が得られるステップと、
前記次元削減されたＨＯＡ信号と前記再構成されたサラウンドサウンド信号との間の差を計算するステップであって、残差信号が得られるステップと、
複数のモノラル知覚符号器において前記残差信号を符号化するステップであって、符号化された残差が得られるステップと、
符号器制御ブロックにおいて前記ＨＯＡ入力信号に関する構造情報を得るステップと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するステップと
を有する方法。
前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について個別的な知覚マスキング閾を計算する、
請求項４に記載の方法。
更なるサウンドオブジェクトが、前記ＨＯＡ入力をサラウンドサウンドフォーマットへとレンダリングするステップに入力される、
請求項４又は５に記載の方法。
階層的なオーディオビットストリームを復号する装置であって、
前記階層的なオーディオビットストリームを逆多重化するデマルチプレクサであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤＨＯＡビットストリームが得られ、前記セカンドレイヤＨＯＡビットストリームは第１及び第２のサイド情報並びに符号化された残差信号を含む、前記デマルチプレクサと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するサラウンドサウンド復号器と、
前記セカンドレイヤＨＯＡビットストリームを復号する階層ＨＯＡ復号器と
を有し、
前記階層ＨＯＡ復号器は、
前記復号されたサラウンドサウンドビットストリーム及び前記第１のサイド情報を用いてサウンド成分を予測する予測ユニットと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせる重ね合わせユニットと、
前記再構成されたサウンド成分及び前記第２のサイド情報を組み立て直すことによってＨＯＡコンテンツを再構成するＨＯＡコンテンツ再構成ユニットであって、再構成されたＨＯＡコンテンツが得られる前記ＨＯＡコンテンツ再構成ユニットと
を有する、装置。
前記セカンドレイヤＨＯＡビットストリームから第１のサイド情報、第２のサイド情報及び復号された残差信号を取り出す条件付きＨＯＡ復号器
を更に有する請求項７に記載の装置。
前記予測ユニットは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
請求項７又は８に記載の装置。
前記予測ユニットは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
請求項７乃至９のうちいずれか一項に記載の装置。
階層的なオーディオビットストリームを符号化する装置であって、
ＨＯＡ入力信号をサラウンドサウンドフォーマットへとレンダリングするサラウンドサウンドレンダラブロックであって、サラウンドサウンドミックスが得られる前記サラウンドサウンドレンダラブロックと、
前記サラウンドサウンドミックスを符号化するサラウンドサウンド符号器であって、符号化されたサラウンドサウンドが得られる前記サラウンドサウンド符号器と、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するサラウンドサウンド復号器と、
前記ＨＯＡ入力信号に対して次元削減を実行する次元削減ユニットであって、次元削減されたＨＯＡ信号が得られる前記次元削減ユニットと、
前記次元削減されたＨＯＡ信号と前記再構成されたサラウンドサウンド信号との間の差を計算する予測ユニットであって、残差信号が得られる前記予測ユニットと、
前記残差信号を符号化する複数のモノラル知覚符号器であって、該複数のモノラル知覚符号器の夫々は、前記次元削減により得られる特定のドミナント信号についての残差信号を符号化し、符号化された残差が得られる前記複数のモノラル知覚符号器と、
前記ＨＯＡ入力信号に関する構造情報を得る符号器制御ブロックと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するマルチプレクサと
を有する装置。
前記残差信号を符号化する前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について、個別的に計算された知覚マスキング閾を使用する、
請求項１１に記載の装置。
１つ以上の更なるサウンドオブジェクトが、前記サラウンドサウンドレンダラブロックへ入力され、該サラウンドサウンドレンダラブロックは、前記ＨＯＡ入力信号及び前記１つ以上の更なるサウンドオブジェクトをサラウンドサウンドフォーマットへとレンダリングする、
請求項１１又は１２に記載の装置。
サラウンドサウンド符号器は、５．１サラウンドフォーマット、改良された５．１サラウンドサウンドフォーマット、ドルビーデジタル又は７．１サラウンドサウンドフォーマットを使用する、
請求項７乃至１３のうちいずれか一項に記載の装置。