JP2012530952A

JP2012530952A - カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム

Info

Publication number: JP2012530952A
Application number: JP2012516716A
Authority: JP
Inventors: オリバーヘルムート; コルネリアファルヒ; ユールゲンヘレ; ジョーハンヒルペアト; レオニードテレンチエフ; ファルコリッダーブッシュ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2009-06-24
Filing date: 2010-06-23
Publication date: 2012-12-06
Anticipated expiration: 2030-06-23
Also published as: CA2766727A1; ES2426677T3; EP2535892B1; BRPI1009648A2; SG177277A1; CA2855479C; ES2524428T3; MX2011013829A; AR077226A1; CN103489449A; BRPI1009648B1; PL2535892T3; CN103489449B; EP2535892A1; AU2010264736B2; US20120177204A1; CN102460573A; RU2012101652A; PL2446435T3; WO2010149700A1

Abstract

ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供するオーディオ信号デコーダは、ダウンミックス信号表現を分解し、ダウンミックス信号表現に基づき、オブジェクト関連パラメータ情報の少なくとも一部を用いて、第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第１のセットを記述する第１のオーディオ情報と第２のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第２のセットを記述する第２のオーディオ情報を提供するように構成されたオブジェクトセパレータを備える。オーディオ信号デコーダは、第２のオーディオ情報を受信し、オブジェクト関連パラメータ情報に基づいて第２のオーディオ情報を処理し、第２のオーディオ情報の処理されたバージョンを取得するように構成されたオーディオ信号プロセッサを備える。オーディオ信号デコーダは、第１のオーディオ情報を第２のオーディオ情報の処理されたバージョンと結合し、アップミックス信号表現を取得するように構成されたオーディオ信号コンバイナを備える。
【選択図】図１

Description

本発明に係る実施形態は、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供するオーディオ信号デコーダに関する。

本発明に係る更なる実施形態は、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供する方法に関する。

本発明に係る更なる実施形態は、コンピュータプログラムに関する。

本発明に係るいくつかの実施形態は、拡張されたカラオケ／ソロ‐ＳＡＯＣシステムに関する。

現代のオーディオシステムにおいて、効率的なビットレートでオーディオ情報を転送し、記憶することが要求される。加えて、部屋において空間的に配置された２つまたはそれ以上の複数個のスピーカを用いてオーディオコンテンツを再生することがしばしば要求される。そのような場合、ユーザが異なるオーディオコンテンツまたは単一のオーディオコンテンツの異なるアイテムを空間的に識別することを可能とするようなマルチスピーカ構成の機能を利用することが要求される。これは、異なるオーディオコンテンツを異なるスピーカに個別に分配することによって成し遂げることができる。

言い換えれば、オーディオ処理と、オーディオ伝送と、オーディオ記憶の技術において、聴覚インプレッションを改善するためにマルチチャンネルコンテンツを取り扱うという要望が増大している。マルチチャンネルオーディオコンテンツの使用は、ユーザに対して有意の改善をもたらす。例えば、娯楽アプリケーションにおいて改善されたユーザ満足度をもたらす三次元の聴覚インプレッションを得ることができる。しかしながら、話し手の了解度はマルチチャンネルオーディオ再生を用いることで改善することができるので、マルチチャンネルオーディオコンテンツは、専門的な環境、例えば電話会議アプリケーションにおいても有用である。

しかしながら、マルチチャンネルアプリケーションによって生じる過剰なリソースの負荷を回避するため、オーディオ品質とビットレート要求条件の間の良好なトレードオフを有することが望ましい。

近年、多数のオーディオオブジェクトを含んでいるオーディオシーンの効率的なビットレートの伝送および／または記憶に対するパラメータ技術、例えば、バイノーラルキュー符号化（タイプＩ）（例えば、参考資料［ＢＣＣ］を参照）、ジョイントソース符号化（例えば、参考資料［ＪＳＣ］を参照）、およびＭＰＥＧ空間オーディオオブジェクト符号化（ＳＡＯＣ）（例えば、参考資料［ＳＡＯＣ１］、［ＳＡＯＣ２］を参照）が提唱されている。

これらの技術は、波形マッチングによるよりも、むしろ所望の出力オーディオシーンを知覚的に再構築することを目標とする。

図８は、このようなシステム（ここではＭＰＥＧ−ＳＡＯＣ）の概要を示す。図８に示されるＭＰＥＧ‐ＳＡＯＣシステム８００は、ＳＡＯＣエンコーダ８１０とＳＡＯＣデコーダ８２０を備える。ＳＡＯＣエンコーダ８１０は、例えば、時間領域信号または時間−周波数領域信号（例えば、フーリエタイプの変換の変換係数のセットの形の、またはＱＭＦサブバンド信号の形の）として表すことができる複数のオブジェクト信号ｘ₁〜ｘ_Nを受信する。ＳＡＯＣエンコーダ８１０は、通常は、オブジェクト信号ｘ₁〜ｘ_Nに関するダウンミックス係数ｄ₁〜ｄ_Nも受信する。ダウンミックス係数の分離したセットは、ダウンミックス信号の各チャンネルに対して利用することができる。ＳＡＯＣエンコーダ８１０は、通常は、オブジェクト信号ｘ₁〜ｘ_Nを関連するダウンミックス係数ｄ₁〜ｄ_Nに従って結合することによって、ダウンミックス信号のチャンネルを取得するように構成される。通常は、オブジェクト信号ｘ₁〜ｘ_Nよりも少ないダウンミックスチャンネルが存在する。ＳＡＯＣエンコーダ８１０は、ＳＡＯＣデコーダ８２０側において、オブジェクト信号の分離（または分離処理）を可能に（少なくとも近似的に）するため、１つ以上のダウンミックス信号（ダウンミックスチャンネルとして指定された）８１２とサイド情報８１４の両方を提供する。サイド情報８１４は、デコーダ側のオブジェクト特有の処理を可能とするために、オブジェクト信号ｘ₁〜ｘ_Nの特性を記述する。

ＳＡＯＣデコーダ８２０は、１つ以上のダウンミックス信号８１２とサイド情報８１４の両方を受信するように構成される。また、ＳＡＯＣデコーダ８２０は、通常は、所望のレンダリングセットアップを記述するユーザ対話情報および／またはユーザ制御情報８２２を受信するように構成される。例えば、ユーザ対話情報／ユーザ制御情報８２２は、オブジェクト信号ｘ₁〜ｘ_Nによって提供されるオブジェクトのスピーカセットアップと所望の空間配置を記述することができる。

次に図９ａ、９ｂ、９ｃを参照して、ダウンミックス信号表現とオブジェクト関連サイド情報に基づいてアップミックス信号表現を取得する異なる装置が記載される。図９ａは、ＳＡＯＣデコーダ９２０を備えるＭＰＥＧ‐ＳＡＯＣシステム９００の概略ブロック図を示す。ＳＡＯＣデコーダ９２０は、分離した機能ブロックとして、オブジェクトデコーダ９２２とミキサー／レンダラー９２６を備える。オブジェクトデコーダ９２２は、ダウンミックス信号表現（例えば、時間ドメインまたは時間−周波数ドメインにおいて表された１つ以上のダウンミックス信号の形の）と、オブジェクト関連サイド情報（例えば、オブジェクトメタデータの形の）に基づいて、複数の復元されたオブジェクト信号９２４を提供する。ミキサー／レンダラー９２６は、複数のＮ個のオブジェクトに関する復元されたオブジェクト信号９２４を受信し、それに基づいて１つ以上のアップミックスチャンネル信号９２８を提供する。ＳＡＯＣデコーダ９２０において、オブジェクト信号９２４の抽出は、オブジェクト復号化機能の混合／レンダリング機能からの分離を可能にする混合／レンダリングにより個別に実行されるが、比較的高い演算量をもたらす。

次に図９ｂを参照して、ＳＡＯＣデコーダ９５０を備える他のＭＰＥＧ‐ＳＡＯＣシステム９３０が簡単に述べられる。ＳＡＯＣデコーダ９５０は、ダウンミックス信号表現（例えば、１つ以上のダウンミックス信号の形の）と、オブジェクト関連サイド情報（例えば、オブジェクトメタデータの形の）に基づいて、複数のアップミックスチャンネル信号９５８を提供する。ＳＡＯＣデコーダ９５０は、ジョイント混合プロセスにおいてオブジェクト復号化と混合／レンダリングの分離なしにアップミックスチャンネル信号９５８を取得するように構成され、前記ジョイントアップミックスプロセスに対するパラメータがオブジェクト関連サイド情報とレンダリング情報の両方に依存する、複合化されたオブジェクトデコーダとミキサー／レンダラーを備える。ジョイントアップミックスプロセスは、オブジェクト関連サイド情報の一部であると考えられるダウンミックス情報にも依存する。

上記を要約すると、アップミックスチャンネル信号９２８、９５８の提供は、１ステップのプロセスまたは２ステップのプロセスにおいて実行することができる。

次に図９ｃを参照して、ＭＰＥＧ‐ＳＡＯＣシステム９６０が記載される。ＳＡＯＣシステム９６０は、ＳＡＯＣデコーダでなく、ＳＯＡＣからＭＰＥＧサラウンドへのトランスコーダ９８０を備える。

ＳＯＡＣからＭＰＥＧサラウンドへのトランスコーダは、オブジェクト関連サイド情報（例えば、オブジェクトメタデータの形の）と、オプションとして１つ以上のダウンミックス信号とレンダリング情報に関する情報を受信するように構成されたサイド情報トランスコーダ９８２を備える。サイド情報トランスコーダは、受信データに基づいて、ＭＰＥＧサラウンドサイド情報９８４（例えば、ＭＰＥＧサラウンドビットストリームの形の）を提供するようにも構成される。したがって、サイド情報トランスコーダ９８２は、オブジェクトエンコーダから受信されるオブジェクト関連（パラメータ）サイド情報を、レンダリング情報とオプションとして１つ以上のダウンミックス信号のコンテンツに関する情報を考慮に入れて、チャンネル関連（パラメータ）サイド情報９８４に変換するように構成される。

オプションとして、ＳＯＡＣからＭＰＥＧサラウンドへのトランスコーダ９８０は、例えば、ダウンミックス信号表現によって記述された１つ以上のダウンミックス信号を操作し、操作されたダウンミックス信号表現９８８を取得するように構成することができる。しかしながら、ダウンミックス信号マニピュレータ９８６は、ＳＯＡＣからＭＰＥＧサラウンドへのトランスコーダ９８０の出力ダウンミックス信号表現９８８がＳＯＡＣからＭＰＥＧサラウンドへのトランスコーダの入力ダウンミックス信号表現と同一であるように、省略することができる。ダウンミックス信号マニピュレータ９８６は、例えば、いくつかのレンダリング配列においてあてはまる可能性がある、チャンネル関連ＭＰＥＧサラウンドサイド情報９８４がＳＯＡＣからＭＰＥＧサラウンドへのトランスコーダ９８０の入力ダウンミックス信号表現に基づいて所望の聴覚インプレッションを提供することができない場合に、用いることができる。

したがって、ＳＯＡＣからＭＰＥＧサラウンドへのトランスコーダ９８０は、ＳＯＡＣからＭＰＥＧサラウンドへのトランスコーダ９８０のレンダリング情報入力に従ってオーディオオブジェクトを表す複数のアップミックスチャンネル信号を、ＭＰＥＧサラウンドビットストリーム９８４とダウンミックス信号表現９８８を受信するＭＰＥＧサラウンドデコーダを用いて生成することができるように、ダウンミックス信号表現９８８とＭＰＥＧサラウンドビットストリーム９８４を提供する。

上記を要約すると、ＳＡＯＣ符号化されたオーディオ信号を復号化する異なるコンセプトを用いることができる。場合によっては、ダウンミックス信号表現とオブジェクト関連パラメータサイド情報に基づいてアップミックスチャンネル信号（例えば、アップミックスチャンネル信号９２８、９５８）を提供するＳＡＯＣデコーダが用いられる。このコンセプトの実施例は、図９ａと９ｂに見ることができる。あるいは、ＳＡＯＣ符号化されたオーディオ情報は、所望のアップミックスチャンネル信号を提供するＭＰＥＧサラウンドデコーダによって用いることができる、ダウンミックス信号表現（例えば、ダウンミックス信号表現９８８）とチャンネル関連サイド情報（例えば、チャンネル関連ＭＰＥＧサラウンドビットストリーム９８４）を取得するために変換符号化することができる。

図８にシステム概要が示されるＭＰＥＧ‐ＳＡＯＣシステム８００において、一般的な処理が、周波数選択的方法で遂行され、各周波数バンドの中で以下のように記述することができる。
・Ｎ個の入力オーディオオブジェクト信号ｘ₁〜ｘ_Nは、ＳＡＯＣエンコーダ処理の一部としてダウンミックスされる。モノラルダウンミックスに対しては、ダウンミックス係数は、ｄ₁〜ｄ_Nで示される。加えて、ＳＡＯＣエンコーダ８１０は、入力オーディオオブジェクトの特性を記述するサイド情報８１４を抽出する。ＭＰＥＧ‐ＳＡＯＣに対しては、お互いに関するオブジェクトパワーの関係は、このようなサイド情報の最も基本的な形である。
・ダウンミックス信号８１２とサイド情報８１４は、送信および／または記憶される。
このために、ダウンミックスオーディオ信号は、ＭＰＥＧ‐１レイヤーIIまたはIII（「.mp3」としても知られる）のような周知の知覚的オーディオコーダ、ＭＰＥＧアドバーンストオーディオ符号化（ＡＡＣ）、または他のいかなるオーディオコーダを用いても圧縮することができる。

・実際上、オブジェクト信号の分離は、分離ステップ（オブジェクトセパレータ８２０ａによって示される）と混合ステップ（ミキサー８２０ｃによって示される）の両方は、単一の変換符号化ステップに複合化されるので、めったに実行されず（または決して実行されず）、結果としてしばしば計算量の莫大な減少になる。

このようなスキームは、伝送ビットレート（それは、Ｎ個のディスクリートのオブジェクトオーディオ信号またはディスクリートシステムの代わりに、少数のダウンミックスチャンネルに加えていくつかのサイド情報を送信する必要があるだけである）と、計算量（処理の複雑度は、オーディオオブジェクトの数よりもむしろ出力チャンネル数に主に関係する）の両方に関して、極めて効率的であることが分かっている。受信端のユーザに対する更なる利益は、ユーザの選択（モノラル、ステレオ、サラウンド、仮想化されたヘッドホン再生、その他）のレンダリングセットアップを選ぶ自由度とユーザの対話性の特徴を含む。レンダリングマトリックスと、従って出力シーンは、ユーザによって、意志、個人的好みまたは他の基準に従って対話的にセットし、変更することができる。例えば、共に１つの空間エリアにいる１つのグループから話し手を位置決めし、他の残りの話し手からの弁別を最大にすることができる。この対話性は、デコーダのユーザインターフェースを提供することによって達成される。

各送信されたサウンドオブジェクトに対して、その相対的レベルと（非モノラルレンダリングに対する）レンダリングの空間位置は、調整することができる。これは、ユーザが関連するグラフィカルユーザインターフェース（ＧＵＩ）のスライダの位置を変えるにつれてリアルタイムに生ずる可能性がある（例えば：オブジェクトレベル＝＋５ｄＢ、オブジェクト位置＝−３０度）。

しかしながら、このようなシステムにおいて、異なるオーディオオブジェクトタイプのオーディオオブジェクトを取り扱うことは難しいことが分かっている。特に、処理されるオーディオオブジェクトの合計数が予め定められていない場合、異なるオーディオオブジェクトタイプのオーディオオブジェクト、例えば異なるサイド情報が関連づけられたオーディオオブジェクトを処理することは難しいことが分かっている。

この状況を鑑みて、本発明の目的は、ダウンミックス信号表現と、２つ以上の異なるオーディオオブジェクトタイプのオーディオオブジェクトを記述するオブジェクト関連パラメータ情報を備えるオーディオ信号の、計算上効率的でフレキシブルな復号化を可能にするコンセプトを構築することである。

ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）、文書Ｎ８８５３、空間オーディオオブジェクトコーディングに関する提案の召集、第７９回ＭＰＥＧミーティング、マラケシュ、２００７年１月ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）、文書Ｎ９０９９、最終的な空間オーディオオブジェクト符号化評価手順と評価基準、第８０回ＭＰＥＧミーティング、サンノゼ、２００７年４月ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）、文書Ｎ９２５０、空間オーディオオブジェクト符号化ＲＭ０セクションの報告、第８１回ＭＰＥＧミーティング、ローザンヌ、２００７年７月ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）、文書Ｍ１５１２３、ＭＰＥＧＳＡＯＣＲＭ０のパフォーマンスを改善するカラオケ／ソロシステムに関するＣＥの情報と検証結果」、第８３回ＭＰＥＧミーティング、アンタルヤ、トルコ、２００８年１月ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）、文書Ｎ１０６５９、ＩＳＯ／ＩＥＣ２３００３−２：２００Ｘ空間オーディオオブジェクト符号化（ＳＡＯＣ）に関する研究、第８８回ＭＰＥＧミーティング、マウイ、アメリカ合衆国、２００９年４月ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）、文書Ｍ１０６６０、ＳＡＯＣコア実験に関する状況と作業計画、第８８回ＭＰＥＧミーティング、マウイ、アメリカ合衆国、２００９年４月ＥＢＵ技術勧告、中間オーディオ品質の主観的リスニングテストのためのＭＵＳＨＲＡ-ＥＢＵ法」、文書Ｂ／ＡＩＭ０２２、１９９９年１０月ＩＳＯ／ＩＥＣ２３００３−１：２００７、情報技術−ＭＰＥＧオーディオ技術 − パート１：ＭＰＥＧサラウンド

上記目的は、独立クレームに定義されたような、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供するオーディオ信号デコーダ、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供する方法、およびコンピュータプログラムによって達成される。

本発明に係る実施形態は、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供するオーディオ信号デコーダを構築する。オーディオ信号デコーダは、ダウンミックス信号表現を分解し、ダウンミックス信号表現に基づき、オブジェクト関連パラメータ情報の少なくとも一部を用いて、第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第１のセットを記述する第１のオーディオ情報と、第２のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第２のセットを記述する第２のオーディオ情報を提供するように構成された、オブジェクトセパレータを備える。オーディオ信号デコーダは、また、第２のオーディオ情報を受信し、オブジェクト関連パラメータ情報に基づいて第２のオーディオ情報を処理し、第２のオーディオ情報の処理されたバージョンを取得するように構成された、オーディオ信号プロセッサを備える。オーディオ信号デコーダは、また、第１のオーディオ情報を第２のオーディオ情報の処理されたバージョンと結合し、アップミックス信号表現を取得するように構成された、オーディオ信号コンバイナを備える。

オブジェクトセパレータによって実行される第１の処理ステップにおいて、オブジェクト関連パラメータ情報の少なくとも一部を用いて異なるタイプのオーディオオブジェクトの分離を可能とし、オーディオ信号プロセッサによるオブジェクト関連パラメータ情報の少なくとも一部に基づいて実行される第２の処理ステップにおいて、付加的な空間処理を可能とするカスケード構造において、異なるタイプのオーディオオブジェクトの効率的処理を得ることができることが、本発明の基本的思想である。より大きい数の第２のオーディオオブジェクトタイプのオーディオオブジェクトが存在する場合であっても、ダウンミックス信号表現から、第２のオーディオオブジェクトタイプのオーディオオブジェクトを備える第２のオーディオ情報を抽出することを、適度な複雑度で実行できることが分かっている。加えて、一旦第２のオーディオ情報が第１のオーディオオブジェクトタイプのオーディオオブジェクトを記述する第１のオーディオ情報から分離されれば、第２のオーディオタイプのオーディオオブジェクトの空間処理を効率的に実行できることが分かっている。

加えて、第１のオーディオ情報と第２のオーディオ情報を分離するオブジェクトセパレータによって実行される処理アルゴリズムは、第２のオーディオオブジェクトタイプのオーディオオブジェクトのオブジェクト個々の処理が、オーディオ信号プロセッサの下位に置かれ、第１のオーディオ情報と第２のオーディオ情報の分離のように同時に実行されない場合に、比較的小さい複雑度で実行できることが分かっている。

好ましい実施形態において、オーディオ信号デコーダは、ダウンミックス信号表現と、オブジェクト関連パラメータ情報と、ダウンミックス信号表現によって表されたオーディオオブジェクトのサブセットに関する残余情報に基づいてアップミックス信号表現を提供するように構成される。この場合、オブジェクトセパレータは、ダウンミックス信号表現を分解し、ダウンミックス信号表現に基づき、オブジェクト関連パラメータ情報と残余情報の少なくとも一部を用いて、残余情報が関連する第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクト（例えばフォアグラウンドオブジェクトＦＧＯ）の第１のセットを記述する第１のオーディオ情報と、残余情報が関連しない第２のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクト（例えばバックグラウンドオブジェクトＢＧＯ）の第２のセットを記述する第２のオーディオ情報を提供するように構成される。

この実施形態は、第１のオーディオオブジェクトタイプのオーディオオブジェクトの第１のセットを記述する第１のオーディオ情報と、第２のオーディオオブジェクトタイプのオーディオオブジェクトの第２のセットを記述する第２のオーディオ情報のとりわけ正確な分離が、オブジェクト関連パラメータ情報に加えて残余情報を用いることによって得ることができるという発見に基づいている。オブジェクト関連パラメータ情報の単なる使用が多くの場合において歪に結果としてなり、それは残余情報の使用によって、有意に減少させることができる、または完全に除去することさえできることが分っている。残余情報は、例えば、第１のオーディオオブジェクトタイプのオーディオオブジェクトが単にオブジェクト関連パラメータ情報を用いて分離された場合に残ると予想される残余の歪を記述する。残余情報は、通常はオーディオ信号エンコーダによって推定される。残余情報を適用することによって、第１のオーディオオブジェクトタイプのオーディオオブジェクトと、第２のオーディオオブジェクトタイプのオーディオオブジェクトの分離は、改善することができる。

これは、第１のオーディオオブジェクトタイプのオーディオオブジェクトと第２のオーディオオブジェクトタイプのオーディオオブジェクトのとりわけ良好な分離によって第１のオーディオ情報と第２のオーディオ情報を取得することを可能にし、これにより次に、オーディオ信号プロセッサにおいて第２のオーディオ情報を処理するときに、第２のオーディオオブジェクトタイプのオーディオオブジェクトの高品質な空間処理を得ることを可能にする。

好ましい実施形態において、オブジェクトセパレータは、それ故、第１のオーディオ情報において、第１のオーディオオブジェクトタイプのオーディオオブジェクトが第２のオーディオオブジェクトタイプのオーディオオブジェクトを超えて強調されるように、第１のオーディオ情報を提供するように構成される。オブジェクトセパレータは、また、第２のオーディオ情報において、第２のオーディオオブジェクトタイプのオーディオオブジェクトが第１のオーディオオブジェクトタイプのオーディオオブジェクトを超えて強調されるように、第２のオーディオ情報を提供するように構成される。

好ましい実施形態において、オーディオ信号デコーダは、オーディオ信号プロセッサにおける第２のオーディオ情報の処理が、第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第１のセットを記述する第１のオーディオ情報と第２のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第２のセットを記述する第２のオーディオ情報の分離の後に実行されるように、２ステップ処理を実行するように構成される。

好ましい実施形態において、オーディオ信号プロセッサは、第２のオーディオ情報を、第２のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクト関連パラメータ情報に基づき、第１のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクト関連パラメータ情報から独立して処理するように構成される。したがって、第１のオーディオオブジェクトタイプのオーディオオブジェクトと第２のオーディオオブジェクトタイプのオーディオオブジェクトの分離した処理を得ることができる。

好ましい実施形態において、オブジェクトセパレータは、１つ以上のダウンミックスチャンネルと１つ以上の残余チャンネルの線形結合を用いて第１のオーディオ情報と第２のオーディオ情報を取得するように構成される。この場合、オブジェクトセパレータは、第１のオーディオオブジェクトタイプのオーディオオブジェクトに関するダウンミックスパラメータに基づいて、そして第１のオーディオオブジェクトタイプのオーディオオブジェクトのチャンネル予測係数に基づいて、線形結合を実行する結合パラメータを取得するように構成される。第１のオーディオオブジェクトタイプのオーディオオブジェクトのチャンネル予測係数の演算は、例えば、単一の共通オーディオオブジェクトとして第２のオーディオオブジェクトタイプのオーディオオブジェクトを考慮することができる。したがって、分離プロセスは、十分に小さい計算量によって実行することができ、例えば、第２のオーディオオブジェクトタイプのオーディオオブジェクトの数からほぼ独立したものとすることができる。

好ましい実施形態において、オブジェクトセパレータは、第１のオーディオ情報にレンダリングマトリックスを適用し、第１のオーディオ情報のオブジェクト信号をアップミックスオーディオ信号表現のオーディオチャンネルにマッピングするように構成される。これは、オブジェクトセパレータが第１のオーディオオブジェクトタイプのオーディオオブジェクトを個々に表す分離したオーディオ信号を抽出する能力があるので、実行することができる。したがって、第１のオーディオ情報のオブジェクト信号をアップミックスオーディオ信号表現のオーディオチャンネルに直接マッピングすることが可能である。

好ましい実施形態において、オーディオプロセッサは、レンダリング情報と、オブジェクト関連共分散情報と、ダウンミックス情報に基づいて第２のオーディオ情報のステレオ処理を実行し、アップミックスオーディオ信号表現のオーディオチャンネルを取得するように構成される。

したがって、第２のオーディオオブジェクトタイプのオーディオオブジェクトのステレオ処理は、第１のオーディオオブジェクトタイプのオーディオオブジェクトと第２のオーディオオブジェクトタイプのオーディオオブジェクトの分離から分離される。このように、第１のオーディオオブジェクトタイプのオーディオオブジェクトと第２のオーディオオブジェクトタイプのオーディオオブジェクトの効率的な分離は、通常、オブジェクトセパレータにおいて、例えば残余情報を用いて得ることができる高度のオブジェクト分離の提供なしにオーディオオブジェクトの複数のオーディオチャンネルへの分配に導くステレオ処理によって影響されない（すなわち劣化しない）。

他の好ましい実施形態において、オーディオプロセッサは、レンダリング情報と、オブジェクト関連共分散情報と、ダウンミックス情報に基づいて第２のオーディオ情報の後処理を実行するように構成される。この形式の後処理は、第２のオーディオオブジェクトタイプのオーディオオブジェクトのオーディオシーン内の空間配置を可能にする。しかも、カスケードコンセプトによって、オーディオプロセッサは第１のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクト関連パラメータ情報を考慮する必要がないので、オーディオプロセッサの計算量は十分に小さく保つことができる。

加えて、例えば、モノラルからバイノーラルへの処理、モノラルからステレオへの処理、ステレオからバイノーラルへの処理、またはステレオからステレオへの処理のような異なるタイプの処理を、オーディオプロセッサによって実行することができる。

好ましい実施形態において、オブジェクトセパレータは、残余情報が関連しない第２のオーディオオブジェクトタイプのオーディオオブジェクトを、単一のオーディオオブジェクトとして取り扱うように構成される。加えて、オーディオ信号プロセッサは、オブジェクト特有のレンダリングパラメータを考慮し、第２のオーディオオブジェクトタイプのオブジェクトの貢献度をアップミックス信号表現に合わせるように構成される。このように、第２のオーディオオブジェクトタイプのオーディオオブジェクトは、オブジェクトセパレータによって単一のオーディオオブジェクトとみなされ、オブジェクトセパレータの複雑度を有意に低減し、更に、第２のオーディオオブジェクトタイプのオーディオオブジェクトに関するレンダリングパラメータから独立しているユニークな残余情報を持つことを可能にする。

好ましい実施形態において、オブジェクトセパレータは、第２のオーディオオブジェクトタイプの複数のオーディオオブジェクトに対する共通のオブジェクトレベル差値を取得するように構成される。オブジェクトセパレータは、チャンネル予測係数の演算に対して共通のオブジェクトレベル差値を用いるように構成される。加えて、オブジェクトセパレータは、チャンネル予測係数を用い、第２のオーディオ情報を表す１つまたは２つのオーディオチャンネルを取得するように構成される。共通のオブジェクトレベル差値の取得に対して、第２のオーディオオブジェクトタイプのオーディオオブジェクトは、オブジェクトセパレータによって単一のオーディオオブジェクトとして効率的に取り扱うことができる。

好ましい実施形態において、オブジェクトセパレータは、第２のオーディオオブジェクトタイプの複数のオーディオオブジェクトに対して共通のオブジェクトレベル差値を取得するように構成され、オブジェクトセパレータは、エネルギーモードマッピングマトリックスのエントリーの演算に対して共通のオブジェクトレベル差値を用いるように構成される。オブジェクトセパレータは、エネルギーモードマッピングマトリックスを用い、第２のオーディオ情報を表す１つ以上のオーディオチャンネルを取得するように構成される。また、共通のオブジェクトレベル差値は、オブジェクトセパレータによる第２のオーディオオブジェクトタイプのオーディオオブジェクトの計算上効率的な共通の取り扱いを可能にする。

好ましい実施形態において、オブジェクトセパレータは、第２のオーディオオブジェクトタイプのオーディオオブジェクトが２つあることが分った場合に、オブジェクト関連パラメータ情報に基づいて第２のオーディオオブジェクトタイプのオーディオオブジェクトに関する共通のオブジェクト間相関値を選択的に取得し、第２のオーディオオブジェクトタイプのオーディオオブジェクトが２つを超えるまたは２つ未満であることが分った場合に、第２のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクト間相関値をゼロにセットするように構成される。オブジェクトセパレータは、第２のオーディオオブジェクトタイプのオーディオオブジェクトに関する共通のオブジェクト間相関値を用い、第２のオーディオ情報を表す１つ以上のオーディオチャンネルを取得するように構成される。このアプローチを用いて、オブジェクト間相関値は、高い計算効率で得ることができる場合、すなわち、第２のオーディオオブジェクトタイプのオーディオオブジェクトが２つある場合に、利用される。さもないと、オブジェクト間相関値を取得するために計算上大変な労力を要する。したがって、第２のオブジェクトタイプのオーディオオブジェクトが２つを超えるまたは２つ未満である場合は、第２のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクト間相関値をゼロにセットすることが聴覚インプレッションと計算量の観点から良好な妥協であると分った。

好ましい実施形態において、オーディオ信号プロセッサは、オブジェクト関連パラメータ情報（少なくともその一部）に基づいて第２のオーディオ情報をレンダリングし、第２のオーディオ情報の処理されたバージョンとして、第２のオーディオオブジェクトタイプのオーディオオブジェクトのレンダリングされた表現を取得するように構成される。この場合、レンダリングは、第１のオーディオオブジェクトタイプのオーディオオブジェクトから独立しているようになすことができる。

好ましい実施形態において、オブジェクトセパレータは、第２のオーディオ情報が第２のオーディオオブジェクトタイプの２つを超えるオーディオオブジェクトを記述するように、第２のオーディオ情報を提供するように構成される。本発明に係る実施形態は、第２のオーディオオブジェクトタイプのオーディオオブジェクトの数のフレキシブルな調整を可能とし、それは処理のカスケード化構造によって有意に促進される。

好ましい実施形態において、オブジェクトセパレータは、第２のオーディオ情報として、第２のオーディオオブジェクトタイプの２つを超えるオーディオオブジェクトを表す１チャンネルのオーディオ信号表現または２チャンネルのオーディオ信号表現を取得するように構成される。１つまたは２つのオーディオ信号チャンネルを抽出することは、オブジェクトセパレータによって低い計算量で実行することができる。特に、オブジェクトセパレータの複雑度は、オブジェクトセパレータが第２のオーディオオブジェクトタイプの２つを超えるオーディオオブジェクトを取扱うことを必要とするケースと比較したとき、有意に小さく保つことができる。しかも、１つまたは２つのチャンネルのオーディオ信号を用いることは、第２のオーディオオブジェクトタイプのオーディオオブジェクトの計算上効率的な表現であることが分かっている。

好ましい実施形態において、オーディオ信号プロセッサは、第２のオーディオ情報を受信し、第２のオーディオオブジェクトタイプの２つを超えるオーディオオブジェクトに関するオブジェクト関連パラメータ情報を考慮して、オブジェクト関連パラメータ情報（少なくともその一部）に基づいて第２のオーディオ情報を処理するように構成される。したがって、オブジェクト個々の処理は、オーディオプロセッサによって実行される一方、そのようなオブジェクト個々の処理は第２のオーディオオブジェクトタイプのオーディオオブジェクトに対して実行されない。

好ましい実施形態において、オーディオデコーダは、オブジェクト関連パラメータ情報に関する構成情報から、トータルのオブジェクト数の情報とフォアグラウンドのオブジェクト数の情報を抽出するように構成される。オーディオデコーダは、また、トータルのオブジェクト数の情報とフォアグラウンドのオブジェクト数の情報の差を形成することによって、第２のオーディオオブジェクトタイプのオーディオオブジェクトの数を決定するように構成される。したがって、第２のオーディオオブジェクトタイプのオーディオオブジェクトの数の効率的なシグナリングが達成される。加えて、このコンセプトは、第２のオーディオオブジェクトタイプのオーディオオブジェクトの数に関して高度なフレキシビリティを提供する。

好ましい実施形態において、オブジェクトセパレータは、第１のオーディオオブジェクトタイプのＮ_eao個のオーディオオブジェクトに関するオブジェクト関連パラメータ情報を用い、第１のオーディオ情報として、第１のオーディオオブジェクトタイプのＮ_eao個のオーディオオブジェクトを表す（好ましくは、個々に）Ｎ_eao個のオーディオ信号を取得し、第２のオーディオオブジェクトタイプのＮ−Ｎ_eao個のオーディオオブジェクトを単一の１チャンネルまたは２チャンネルのオーディオオブジェクトとして取り扱い、第２のオーディオ情報として、第２のオーディオオブジェクトタイプのＮ−Ｎ_eao個のオーディオオブジェクトを表す１つまたは２つのオーディオ信号を取得するように構成される。オーディオ信号プロセッサは、第２のオーディオオブジェクトタイプのＮ−Ｎ_eao個のオーディオオブジェクトに関するオブジェクト関連パラメータ情報を用いて、第２のオーディオ情報の１つまたは２つのオーディオ信号によって表されたＮ−Ｎ_eao個のオーディオオブジェクトを個々にレンダリングするように構成される。したがって、第１のオーディオオブジェクトタイプのオーディオオブジェクトと第２のオーディオオブジェクトタイプのオーディオオブジェクトの間のオーディオオブジェクトの分離は、第２のオーディオオブジェクトタイプのオーディオオブジェクトのその後の処理から分離される。

本発明に係る実施形態は、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供する方法を構築する。

本発明に係る他の実施形態は、前記方法を実行するコンピュータプログラムを構築する。

本発明に係る実施形態は、以下の図面を参照して、引き続いて記載される。
本発明の一実施形態に係るオーディオ信号デコーダの概略ブロック図を示す。本発明の一実施形態に係る他のオーディオ信号デコーダの概略ブロック図を示す。本発明の一実施形態においてオブジェクトセパレータとして用いることができる残余プロセッサの概略ブロック図を示す。本発明の一実施形態においてオブジェクトセパレータとして用いることができる残余プロセッサの概略ブロック図を示す。本発明の一実施形態に係るオーディオ信号デコーダにおいて用いることができるオーディオ信号プロセッサの概略ブロック図を示す。本発明の一実施形態に係るオーディオ信号デコーダにおいて用いることができるオーディオ信号プロセッサの概略ブロック図を示す。本発明の一実施形態に係るオーディオ信号デコーダにおいて用いることができるオーディオ信号プロセッサの概略ブロック図を示す。本発明の一実施形態に係るオーディオ信号デコーダにおいて用いることができるオーディオ信号プロセッサの概略ブロック図を示す。本発明の一実施形態に係るオーディオ信号デコーダにおいて用いることができるオーディオ信号プロセッサの概略ブロック図を示す。ＳＡＯＣトランスコーダ処理モードのブロック図である。ＳＡＯＣデコーダ処理モードのブロック図である。本発明の一実施形態に係るオーディオ信号デコーダの概略ブロック図を示す。本発明の一実施形態に係る他のオーディオ信号デコーダの概略ブロック図を示す。リスニングテスト計画説明書を表す表である。テスト中のシステムを表す表である。リスニングテスト項目とレンダリングマトリックスを表す表である。カラオケ／ソロタイプのレンダリングのリスニングテストに対する平均ＭＵＳＨＲＡスコアのグラフィック表現である。クラシックのレンダリングのリスニングテストに対する平均ＭＵＳＨＲＡスコアのグラフィック表現である。本発明の一実施形態に係るアップミックス信号表現を提供する方法のフローチャートである。引用例のＭＰＥＧ‐ＳＡＯＣシステムの概略ブロック図である。分離したデコーダとミキサーを用いた引用例のＳＡＯＣシステムの概略ブロック図である。統合化されたデコーダとミキサーを用いた引用例のＳＡＯＣシステムの概略ブロック図を示す。ＳＯＡＣからＭＰＥＧへのトランスコーダを用いた引用例のＳＡＯＣシステムの概略ブロック図である。カスケード化されたエンコーダの概略ブロック図である。

１．図１に係るオーディオ信号デコーダ

図１は、本発明の一実施形態に係るオーディオ信号デコーダ１００の概略ブロック図を示す。

オーディオ信号デコーダ１００は、オブジェクト関連パラメータ情報１１０とダウンミックス信号表現１１２を受信するように構成される。オーディオ信号デコーダ１００は、ダウンミックス信号表現とオブジェクト関連パラメータ情報１１０に基づいてアップミックス信号表現１２０を提供するように構成される。オーディオ信号デコーダ１００は、ダウンミックス信号表現１１２を分解し、ダウンミックス信号表現１１２に基づき、オブジェクト関連パラメータ情報１１０の少なくとも一部を用いて、第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第１のセットを記述する第１のオーディオ情報１３２と、第２のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第２のセットを記述する第２のオーディオ情報１３４を提供するように構成された、オブジェクトセパレータ１３０備える。オーディオ信号デコーダ１００は、また、第２のオーディオ情報１３４を受信し、第２のオーディオ情報を、オブジェクト関連パラメータ情報１１２の少なくとも一部に基づいて処理し、第２のオーディオ情報１３４の処理されたバージョン１４２を取得するように構成された、オーディオ信号プロセッサ１４０を備える。オーディオ信号デコーダ１００は、また、第１のオーディオ情報１３２を第２のオーディオ情報１３４の処理されたバージョン１４２と結合し、アップミックス信号表現１２０を取得するように構成された、オーディオ信号コンバイナ１５０を備える。

オーディオ信号デコーダ１００は、第１のオーディオオブジェクトタイプのオーディオオブジェクトと第２のオーディオオブジェクトタイプのオーディオオブジェクトを結合された方法で表すダウンミックス信号表現のカスケード化された処理を実行する。

オブジェクトセパレータ１３０によって実行される第１の処理ステップにおいて、第２のオーディオオブジェクトタイプのオーディオオブジェクトの第２のセットを記述する第２のオーディオ情報は、オブジェクト関連パラメータ情報１１０を用いて、第１のオーディオオブジェクトタイプのオーディオオブジェクトの第１のセットを記述する第１のオーディオ情報１３２から分離される。しかしながら、第２のオーディオ情報１３４は、通常は、第２のオーディオオブジェクトタイプのオーディオオブジェクトを結合された方法で記述するオーディオ情報（例えば、１チャンネルのオーディオ信号または２チャンネルのオーディオ信号）である。

第２の処理ステップにおいて、オーディオ信号プロセッサ１４０は、オブジェクト関連パラメータ情報に基づいて第２のオーディオ情報１３４を処理する。したがって、オーディオ信号プロセッサ１４０は、第２のオーディオ情報１３４によって記述され、オブジェクトセパレータ１３０によって通常は実行されないオブジェクト個々の処理、または第２のオーディオオブジェクトタイプのオーディオオブジェクトのレンダリングを実行することができる。

このように、第２のオーディオオブジェクトタイプのオーディオオブジェクトは、好ましくはオブジェクトセパレータ１３０によってオブジェクト個々の方法では処理されないが、第２のオーディオオブジェクトタイプのオーディオオブジェクトは、実際、オーディオ信号プロセッサ１４０によって実行される第２の処理ステップにおいて、オブジェクト個々の方法で処理される（例えば、オブジェクト個々の方法でレンダリングされる）。このように、オブジェクトセパレータ１３０によって実行される第１のオーディオオブジェクトタイプのオーディオオブジェクトと第２のオーディオオブジェクトタイプのオーディオオブジェクトの分離は、第２のオーディオオブジェクトタイプのオーディオオブジェクトのオブジェクト個々の処理から分離され、オーディオ信号プロセッサ１４０によってその後実行される。したがって、オブジェクトセパレータ１３０によって実行される処理は、第２のオーディオオブジェクトタイプのオーディオオブジェクトの数から実質的に独立している。加えて、第２のオーディオ情報１３４のフォーマット（例えば、１チャンネルのオーディオ信号または２チャンネルのオーディオ信号）は、第２のオーディオオブジェクトタイプのオーディオオブジェクトの数から通常は独立している。このように、第２のオーディオオブジェクトタイプのオーディオオブジェクトの数は、オブジェクトセパレータ１３０の構造を修正する必要なしに変化させることができる。言い換えれば、第２のオーディオオブジェクトタイプのオーディオオブジェクトは、オブジェクトセパレータ１４０によって共通のオブジェクト関連パラメータ情報（例えば、１つまたは２つのオーディオチャンネルに関する共通のオブジェクトレベル差値）が取得される単一の（例えば、１チャンネルまたは２チャンネルの）オーディオオブジェクトとして取り扱われる。

したがって、図１に係るオーディオ信号デコーダ１００は、オブジェクトセパレータ１３０の構造の修正なしに、第２のオーディオオブジェクトタイプのオーディオオブジェクトのいろいろな数を取扱うことができる。加えて、オブジェクトセパレータ１３０とオーディオ信号プロセッサ１４０によって、異なるオーディオオブジェクト処理アルゴリズムを適用することができる。したがって、例えば、オブジェクトセパレータ１３０によって残余情報を用いてオーディオオブジェクトの分離を実行することが可能であり、それは、オブジェクトの分離品質の改善に対するサイド情報を構成する残余情報を利用して、異なるオーディオオブジェクトの特に良好な分離を可能にする。対照的に、オーディオ信号プロセッサ１４０は、残余情報を用いることなしにオブジェクト個々の処理を実行することができる。例えば、オーディオ信号プロセッサ１４０は、従来の空間オーディオオブジェクト符号化（ＳＡＯＣ）タイプのオーディオ信号処理を実行し、異なるオーディオオブジェクトをレンダリングするように構成することができる。

２．図２に係るオーディオ信号デコーダ

以下に、本発明の一実施形態に係るオーディオ信号デコーダ２００が記載される。このオーディオ信号デコーダ２００の概略ブロック図が図２に示される。

オーディオデコーダ２００は、ダウンミックス信号２１０と、いわゆるＳＡＯＣビットストリーム２１２と、レンダリングマトリックス情報２１４と、オプションとして頭部に関する伝達関数（ＨＲＴＦ）パラメータ２１６を受信するように構成される。オーディオ信号デコーダ２００は、また、出力／ＭＰＳダウンミックス信号２２０と、（オプションとして）ＭＰＳビットストリーム２２２を提供するように構成される。

２.１オーディオ信号デコーダ２００の入力信号と出力信号

以下に、オーディオデコーダ２００の入力信号と出力信号に関するさまざまな詳細が記載される。

ダウンミックス信号２００は、例えば、１チャンネルのオーディオ信号または２チャンネルのオーディオ信号とすることができる。ダウンミックス信号２１０は、例えば、ダウンミックス信号の符号化された表現から導き出すことができる。

空間オーディオオブジェクト符号化ビットストリーム（ＳＡＯＣビットストリーム）２１２は、例えば、オブジェクト関連パラメータ情報を備えることができる。例えば、ＳＡＯＣビットストリーム２１２は、オブジェクトレベル差情報を例えばオブジェクトレベル差パラメータＯＬＤ（オブジェクト間相関情報）の形で、オブジェクト間相関情報を例えばオブジェクト間相関パラメータＩＯＣの形で、備えることができる。

加えて、ＳＡＯＣビットストリーム２１２は、ダウンミックス信号がダウンミックスプロセスを用いて複数のオーディオオブジェクト信号に基づいてどのように提供されたかを記述するダウンミックス情報を備えることができる。例えば、ＳＡＯＣビットストリームは、ダウンミックスゲインパラメータＤＭＧと、（オプションとして）ダウンミックスチャンネルレベル差パラメータＤＣＬＤを備えることができる。

レンダリングマトリックス情報２１４は、例えば、異なるオーディオオブジェクトがオーディオデコーダによってどのようにレンダリングされるかについて記述することができる。例えば、レンダリングマトリックス情報２１４は、オーディオオブジェクトの出力／ＭＰＳダウンミックス信号２２０の１つ以上のチャンネルへの割当てを記述することができる。

オプションの頭部に関する伝達関数（ＨＲＴＦ）パラメータ情報２１６は、更に、バイノーラルヘッドホン信号を導き出す伝達関数を記述することができる。

出力／ＭＰＥＧサラウンドダウンミックス信号（簡単に「出力／ＭＰＳダウンミックス信号」でも示される）２２０は、１つ以上のオーディオチャンネルを例えば時間領域オーディオ信号表現または周波数領域オーディオ信号表現の形で表す。単独で、または出力／ＭＰＳダウンミックス信号２２０の複数のオーディオチャンネル上へのマッピングを記述するＭＰＥＧサラウンドパラメータを備えるオプションのＭＰＥＧサラウンドビットストリーム（ＭＰＳビットストリーム）２２２とともに、アップミックス信号表現が形成される。

２.２オーディオ信号デコーダ２００の構成と機能

以下に、ＳＡＯＣトランスコーダの機能またはＳＡＯＣデコーダの機能を果たすことができるオーディオ信号デコーダ２００の構成が更に詳細に記載される。

オーディオ信号デコーダ２００は、ダウンミックス信号２１０を受信し、それに基づいて出力／ＭＰＳダウンミックス信号２２０を提供するように構成された、ダウンミックスプロセッサ２３０を備える。ダウンミックスプロセッサ２３０は、また、ＳＡＯＣビットストリーム情報２１２の少なくとも一部と、レンダリングマトリックス情報２１４の少なくとも一部を受信するように構成される。加えて、ダウンミックスプロセッサ２３０は、また、パラメータプロセッサ２５０から処理されたＳＡＯＣパラメータ情報２４０を受信することができる。

パラメータプロセッサ２５０は、ＳＡＯＣビットストリーム情報２１２と、レンダリングマトリックス情報２１４と、オプションとして頭部に関する伝達関数パラメータ情報２６０を受信し、それに基づいて、ＭＰＥＧサラウンドパラメータを担持しているＭＰＥＧサラウンドビットストリーム２２２を（ＭＰＥＧサラウンドパラメータが必要とされ、それが、例えば変換符号化動作モードにおいて真である場合に）提供するように構成される。加えて、パラメータプロセッサ２５０は、処理されたＳＡＯＣ情報２４０を（この処理されたＳＡＯＣ情報が必要とされる場合に）提供する。

以下に、ダウンミックスプロセッサ２３０の構造と機能が更に詳細に記載される。

ダウンミックスプロセッサ２３０は、ダウンミックス信号２１０を受信し、それに基づいて、第１のオーディオオブジェクトタイプのオーディオオブジェクトとみなすことができるいわゆる拡張オーディオオブジェクト（ＥＡＯ）を記述する第１のオーディオオブジェクト信号２６２を提供するように構成された、残余プロセッサ２６０を備える。第１のオーディオオブジェクト信号は、１つ以上のオーディオチャンネルを備えることができ、第１のオーディオ情報とみなすことができる。残余プロセッサ２６０は、また、第２のオーディオオブジェクトタイプのオーディオオブジェクトを記述し、第２のオーディオ情報とみなすことができる第２のオーディオオブジェクト信号２６４を提供するように構成される。第２のオーディオオブジェクト信号２６４は、１つ以上のチャンネルを備えることができ、通常は複数のオーディオオブジェクトを記述する１つまたは２つのオーディオチャンネルを備えることができる。通常は、第２のオーディオオブジェクト信号は、第２のオーディオオブジェクトタイプの２つを超えるオーディオオブジェクトでさえ記述することができる。

ダウンミックスプロセッサ２３０は、また、第２のオーディオオブジェクト信号２６４を受信し、それに基づいて、第２のオーディオ情報の処理されたバージョンとみなすことができる第２のオーディオオブジェクト信号２６４の処理されたバージョン２７２を提供するように構成された、ＳＡＯＣダウンミックスプリプロセッサ２７０を備える。

ダウンミックスプロセッサ２３０は、また、第１のオーディオオブジェクト信号２６２と、第２のオーディオオブジェクト信号２６４の処理されたバージョン２７２を受信し、それに基づいて、単独で、または（オプションの）対応するＭＰＥＧサラウンドビットストリーム２２２とともに、アップミックス信号表現とみなすことができる出力／ＭＰＳダウンミックス信号２２０を提供するように構成された、オーディオ信号コンバイナ２８０を備える。

以下に、ダウンミックスプロセッサ２３０の個々のユニットの機能が更に詳細に述べられる。

残余プロセッサ２６０は、第１のオーディオオブジェクト信号２６２と第２のオーディオオブジェクト信号２６４を分離して提供するように構成される。このため、残余プロセッサ２６０は、ＳＡＯＣビットストリーム情報２１２の少なくとも一部を適用するように構成することができる。例えば、残余プロセッサ２６０は、第１のオーディオオブジェクトタイプのオーディオオブジェクト、すなわち、いわゆる「拡張オーディオオブジェクト」ＥＡＯに関するオブジェクト関連パラメータ情報を評価するように構成することができる。加えて、残余プロセッサ２６０は、共通に第２のオーディオオブジェクトタイプのオーディオオブジェクト、例えば、いわゆる「非拡張オーディオオブジェクト」を共通に記述する総括情報を取得するように構成することができる。残余プロセッサ２６０は、また、ＳＡＯＣビットストリーム情報２１２において、拡張オーディオオブジェクト（第１のオーディオオブジェクトタイプのオーディオオブジェクト）と非拡張オーディオオブジェクト（第２のオーディオオブジェクトタイプのオーディオオブジェクト）の分離のために提供される残余情報を評価するように構成することができる。残余情報は、例えば、拡張オーディオオブジェクトと非拡張オーディオオブジェクトの特にきれいな分離を得るために適用される時間領域残余信号を符号化することができる。加えて、残余プロセッサ２６０は、オプションとして、例えば、拡張オーディオオブジェクトの第１のオーディオオブジェクト信号２６２のオーディオチャンネルへの分配を決定するために、レンダリングマトリックス情報２１４の少なくとも一部を評価することができる。

ＳＡＯＣダウンミックスプリプロセッサ２７０は、第２のオーディオオブジェクト信号２６４の１つ以上のオーディオチャンネルを受信し、それに基づいて、処理された第２のオーディオオブジェクト信号２７２の１つ以上（通常は２つ）のオーディオチャンネルを提供するように構成された、チャンネル再分配器２７４を備える。加えて、ＳＡＯＣダウンミックスプリプロセッサ２７０は、第２のオーディオオブジェクト信号２６４の１つ以上のオーディオチャンネルを受信し、それに基づいて、第２のオーディオオブジェクト信号２６４の処理されたバージョン２７２を取得するためにチャンネル再分配器２７４によって提供された信号に加えられる1つ以上の非相関化信号２７８ａ、２７８ｂを提供する、非相関化信号プロバイダ２７６を備える。

ＳＡＯＣダウンミックスプロセッサに関する更なる詳細が、以下で述べられる。

オーディオ信号コンバイナ２８０は、第１のオーディオオブジェクト信号２６２を第２のオーディオオブジェクト信号の処理されたバージョン２７２と結合する。このため、チャンネルワイズの結合を実行することができる。それゆえに、出力／ＭＰＳダウンミックス信号２２０が取得される。

パラメータプロセッサ２５０は、（オプションとして）ＳＡＯＣビットストリームに基づいて、レンダリングマトリックス情報２１４とオプションとしてＨＲＴＦパラメータ情報２１６を考慮して、アップミックス信号表現のＭＰＥＧサラウンドビットストリーム２２２を形成するＭＰＥＧサラウンドパラメータを取得するように構成される。言い換えれば、ＳＡＯＣパラメータプロセッサ２５２は、ＳＡＯＣビットストリーム情報２１２によって記述されるオブジェクト関連パラメータ情報を、ＭＰＥＧサラウンドビットストリーム２２２によって記述されるチャンネル関連パラメータ情報に変換するように構成される。

以下に、図２に示されるＳＡＯＣトランスコーダ／デコーダのアーキテクチャの簡単な概要が与えられる。空間オーディオオブジェクト符号化（ＳＡＯＣ）は、パラメトリック多重オブジェクト符号化技法である。それは、Ｍチャンネルを備えるオーディオ信号（例えば、ダウンミックスオーディオ信号２１０）におけるオーディオオブジェクトの数を送信するように設計される。この下位互換性を持つダウンミックス信号とともに、オリジナルのオブジェクト信号の再現と操作を可能にするオブジェクトパラメータが（例えば、ＳＡＯＣビットストリーム情報２１２を用いて）送信される。ＳＡＯＣエンコーダ（ここでは示されていない）は、その入力においてオブジェクト信号のダウンミックスを産出し、これらのオブジェクトパラメータを抽出する。取扱うことができるオブジェクトの数は、原則として制限されない。オブジェクトパラメータは、量子化され、ＳＡＯＣビットストリーム２１２に能率的に符号化される。ダウンミックス信号２１０は、存在するコーダとインフラを更新する必要なしに圧縮し、送信することができる。オブジェクトパラメータ、あるいはＳＡＯＣサイド情報は、低ビットレートのサイドチャンネル、例えば、ダウンミックスビットストリームの補助的データ部分において送信される。

デコーダ側において、入力オブジェクトは、復元され、再生チャンネルの一定数にレンダリングされる。各オブジェクトに対する再生レベルとパニング位置を含むレンダリング情報は、ユーザから供給されるかまたはＳＡＯＣビットストリームから（例えば、プリセット情報として）抽出することができる。レンダリング情報は、時間変化することができる。出力シナリオは、モノラルからマルチチャンネル（例えば、５．１）にわたることができ、入力オブジェクトの数とダウンミックスチャンネルの数の両方から独立している。オブジェクトのバイノーラルレンダリングは、仮想オブジェクト位置の方位角と仰角を含むことが可能である。オプションのイフェクトインターフェイスは、レベルとパニングの修正の他に、オブジェクト信号の高度な操作を可能にする。

オブジェクトは、それ自身モノラル信号、ステレオ信号、並びにマルチチャンネル信号（例えば５．１チャンネル）とすることができる。通常のダウンミックスの構成は、モノラルとステレオである。

以下に、図２に示されるＳＡＯＣトランスコーダ／デコーダの基本構成が説明される。ここで記載されたＳＡＯＣトランスコーダ／デコーダモジュールは、意図された出力チャンネルの配置に依存して、スタンドアロンのデコーダまたはＳＡＯＣからＭＰＥＧサラウンドビットストリームへのトランスコーダのいずれとしても機能することができる。第１の動作モードにおいて、出力信号の構成はモノラル、ステレオまたはバイノーラルであり、２つの出力チャンネルが用いられる。この第１のケースにおいて、ＳＡＯＣモジュールは、デコーダモードで動作することができ、ＳＡＯＣモジュールの出力はパルス符号化変調された出力（ＰＣＭ出力）である。第１のケースにおいて、ＭＰＥＧサラウンドデコーダは必要でない。むしろ、アップミックス信号表現は、出力信号２２０を備えるだけでよく、ＭＰＥＧサラウンドビットストリーム２２２の供給は省略することができる。第２のケースにおいて、出力信号の構成は、２つを超える出力チャンネルを有するマルチチャンネル構成である。ＳＡＯＣモジュールは、変換符号化モードで動作することができる。図２に示すように、ＳＡＯＣモジュール出力は、この場合、ダウンミックス信号２２０とＭＰＥＧサラウンドビットストリーム２２２の両方を備えることができる。したがって、ＭＰＥＧサラウンドデコーダは、スピーカによる出力に対して最終的なオーディオ信号表現を取得するために、必要とされる。

図２は、ＳＡＯＣトランスコーダ／デコーダのアーキテクチャの基本構成を示す。残余プロセッサ２１６は、ＳＡＯＣビットストリーム２１２に含まれる残余情報を用いて、入来するダウンミックス信号２１０から拡張オーディオオブジェクトを抽出する。ダウンミックスプリプロセッサ２７０は、定型のオーディオオブジェクト（それは、例えば、非拡張オーディオオブジェクト、すなわちＳＡＯＣビットストリーム２１２において残余情報が送信されないオーディオオブジェクト）を処理する。拡張オーディオオブジェクト（第１のオーディオオブジェクト信号２６２によって表された）と、処理された定型のオーディオオブジェクト（例えば、第２のオーディオオブジェクト信号２６４の処理されたバージョン２７２によって表された）は、ＳＡＯＣ復号化モードに対する出力信号２２０またはＳＡＯＣ変換符号化モードに対するＭＰＥＧサラウンドダウンミックス信号２２０に結合される。処理ブロックの詳細な説明は以下に与えられる。

３．残余プロセッサとエネルギーモードプロセッサの構成と機能

以下に、例えば、オーディオ信号デコーダ１００のオブジェクトセパレータ１３０のまたはオーディオ信号デコーダ２００の残余プロセッサ２６０の機能を引き継ぐことができる残余プロセッサに関する詳細が記載される。このため、図３ａ、３ｂは、オブジェクトセパレータ１３０または残余プロセッサ２６０の代わりをすることができるそのような残余プロセッサ３００の概略ブロック図を示す。図３ａは、図３ｂより簡略化したものを示す。しかしながら、以下の記述は、図３ａに係る残余プロセッサ３００と、また図３ｂに係る残余プロセッサ３８０に適用される。

残余プロセッサ３００は、図１のダウンミックス信号表現１１２または図２のダウンミックス信号表現２１０に相当することができるＳＡＯＣダウンミックス信号３１０を受信するように構成される。残余プロセッサ３００は、それに基づいて、例えば、第１のオーディオ情報１３２または第１のオーディオオブジェクト信号２６２に相当することができる１つ以上の拡張オーディオオブジェクトを記述する第１のオーディオ情報３２０を提供するように構成される。また、残余プロセッサ３００は、第２のオーディオ情報３２２は第２のオーディオ情報１３４または第２のオーディオオブジェクト信号２６４に相当することができる１つ以上の他のオーディオオブジェクト（例えば、残余情報を利用できない非拡張オーディオオブジェクト）を記述する第２のオーディオ情報３２２を提供することができる。

残余プロセッサ３００は、ＳＡＯＣダウンミックス信号３１０を受信し、かつＳＡＯＣデータと残余３３２を受信する１‐Ｎ／２‐Ｎユニット（ＯＴＮ／ＴＴＮユニット）３３０を備える。１‐Ｎ／２‐Ｎユニット３３０は、また、ＳＡＯＣダウンミックス信号３１０に含まれる拡張オーディオオブジェクト（ＥＡＯ）を記述する拡張オーディオオブジェクト信号３３４を提供する。また、１‐Ｎ／２‐Ｎユニット３３０は、第２のオーディオ情報３２２を提供する。残余プロセッサ３００は、また、拡張オーディオオブジェクト信号３３４とレンダリングマトリックス情報３４２を受信し、それに基づいて第１のオーディオ情報３２０を提供するレンダリングユニット３４０を備える。

以下に、残余プロセッサ３００によって実行される拡張オーディオオブジェクト処理（ＥＡＯ処理）が更に詳細に記載される。

３.１残余プロセッサ３００の動作の序論

残余プロセッサ３００の機能に関して、ＳＡＯＣ技術は、オーディオオブジェクトの数の個々の操作を、それらのレベルの増幅／減衰に関して、結果として生じる音質の有意の減少なしに、非常に限られた方法においてのみ可能にすることに留意すべきである。特別な「カラオケタイプ」のアプリケーションシナリオは、背景音響シーンの知覚品質を損なわずに、特定のオブジェクト、通常はリードボーカルの全部（またはほぼ全部）を抑制することを必要とする。

通常のアプリケーションのケースは、例えば、２つの独立したステレオオブジェクト（例えば、デコーダ側で取り除かれる準備ができている２つの独立したステレオオブジェクト）を表すことができる最大４つの拡張オーディオオブジェクト（ＥＡＯ）信号を含む。

（１つ以上の）品質拡張オーディオオブジェクト（あるいは、より正確に言うと、拡張オーディオオブジェクトに関するオーディオ信号貢献度）がＳＡＯＣダウンミックス信号３１０に含まれることに留意すべきである。通常は、（１つ以上の）拡張オーディオオブジェクトに関するオーディオ信号貢献度は、オーディオ信号エンコーダによって実行されるダウンミックス処理によって、拡張オーディオオブジェクトでない他のオーディオオブジェクトのオーディオ信号貢献度と混合される。また、複数の拡張オーディオオブジェクトのオーディオ信号貢献度が、オーディオ信号エンコーダによって実行されるダウンミックス処理によって、通常はオーバーラップされるかまたは混合されることに留意すべきである。

３.２拡張オーディオオブジェクトをサポートするＳＯＡＣアーキテクチャ

以下に、残余プロセッサ３００に関する詳細が記載される。拡張オーディオオブジェクト処理は、ＳＡＯＣダウンミックスモードに従って、１‐Ｎまたは２‐Ｎユニットを組み込む。１‐Ｎ処理ユニットは、モノラルのダウンミックス信号の専用であり、２‐Ｎ処理ユニットはステレオダウンミックス信号３１０の専用である。これらの両方のユニットは、ＩＳＯ／ＩＥＣ２３００３‐１：２００７で公知の２−２ボックス（ＴＴＴボックス）の一般的かつ拡張された修正を表す。エンコーダにおいて、定型のおよびＥＡＯ信号は、ダウンミックスに結合される。ＯＴＮ−１／ＴＴＮ−１処理ユニット（逆１‐Ｎ処理ユニットまたは逆２‐Ｎ処理ユニット）は、対応する残余信号を産出し、符号化するために使用される。

ＥＡＯおよび定型の信号は、ＯＴＮ／ＴＴＮユニット３３０によって、ＳＡＯＣサイド情報と組み込まれた残余信号を用いてダウンミックス３１０から復元される。復元されたＥＡＯ（それは、拡張オーディオオブジェクト信号３３４によって記述される）は、対応するレンダリングマトリックスの生成物（レンダリングマトリックス情報３４２によって記述される）とＯＴＮ／ＴＴＮユニットの結果として生じる出力を表す（あるいは提供する）レンダリングユニット３４０に供給される。定型のオーディオオブジェクト（それは、第２のオーディオ情報３２２によって記述される）は、更なる処理のために、ＳＡＯＣダウンミックスプリプロセッサ、例えば、ＳＡＯＣダウンミックスプリプロセッサ２７０に引き渡される。図３ａ、３ｂは、残余プロセッサの一般的な構造、すなわち、残余プロセッサのアーキテクチャを表す。

いくつかの実施形態では、１つ以上のマルチチャンネルバックグラウンドオブジェクト（ＭＢＯ）は、残余プロセッサ３００によって同じように取り扱うことができる。

マルチチャンネルバックグラウンドオブジェクト（ＭＢＯ）は、ＳＡＯＣダウンミックスの一部であるＭＰＳモノラルまたはステレオのダウンミックスである。マルチチャンネル信号の各チャンネルに対して個々のＳＡＯＣオブジェクトを用いることと対照的に、ＭＢＯは、ＳＯＡＣがマルチチャンネルオブジェクトをより効率的に取り扱うことを可能にするように用いることができる。ＭＢＯのケースにおいて、ＭＢＯのＳＡＯＣパラメータは、全てのアップミックスチャンネルよりもむしろダウンミックスチャンネルにのみ関係するので、ＳＯＡＣのオーバーヘッドはより低くなる。

３.３更なる定義

３.３.１信号とパラメータの次元数

以下に、異なる計算がどのくらいしばしば実行されるかについての理解を提供するために、信号とパラメータの次元数が簡潔に述べられる。

オーディオ信号は、すべてのタイムスロットｎとすべてのハイブリッドサブバンド（それは、周波数サブバンドとすることができる）ｋに対して定められる。対応するＳＡＯＣパラメータは、各パラメータタイムスロットｌと処理バンドｍに対して定められる。ハイブリッドとパラメータ領域間のその後のマッピングは、表Ａ.３１ＩＳＯ／ＩＥＣ２３００３−１：２００７で特定される。それ故、全ての計算は、特定の時間／バンドのインデックスに関して実行され、対応する次元数は、各導入された変数を意味する。

しかしながら、以下で、時間と周波数バンドのインデックスは、表記法を簡明に保つために、時々省略される。

３.４残余モードにおけるＯＴＮ／ＴＴＮ要素の計算

以下に、通常は１つまたは２つのオーディオチャンネルを備えるＳＡＯＣダウンミックス信号３１０が、通常は１つ以上の拡張オーディオオブジェクトチャンネルと通常は１つまたは２つの定型のオーディオオブジェクトチャンネルを備える第２のオーディオ情報３２２を備える拡張オーディオオブジェクト信号３３４にどのようにマッピングされるかが議論される。

エネルギーベースの符合化／復号化手順は、ダウンミックス信号の非波形保持符号化に対して設計される。このように、対応するエネルギーモードに対するＯＴＮ／ＴＴＮアップミックスマトリックスは、特定の波形に依存せず、後で詳しく述べるように、入力オーディオオブジェクトの相対的なエネルギー分布を記述するだけである。

３.４.１予測モード

３.４.１.１ステレオダウンミックスモード（ＴＴＮ）

３.４.１.２モノラルダウンミックスモード（ＯＴＮ）

以下に、拡張オーディオオブジェクト信号３２０（あるいは、代りに拡張オーディオオブジェクト信号３３４）と定型のオーディオオブジェクト信号３２２の導出が、ＳＡＯＣダウンミックス信号３１０が信号チャンネルのみを備えるケースに対して記載される。

３.４.１.３逆拡張ダウンミックスマトリックスの計算

ここで、非量子化ダウンミックスパラメータＤＭＧ_j、ＤＣＬＤ_jは、例えば、パラメータサイド情報１１０またはＳＡＯＣビットストリーム２１２から取得される。

マトリックスのエントリーｃ_j,1（また、それに基づいてマトリックスのエントリーｃ_j,1が計算される中間量）は、通常はダウンミックス信号がステレオダウンミックス信号である場合にのみ必要とされることに留意すべきである。

ここで、非量子化オブジェクトパラメータＯＬＤ_i、ＩＯＣ_i,jは、例えば、パラメータサイド情報１１０またはＳＡＯＣビットストリーム２１２から取得される。

これからわかるように、２つの共通のオブジェクトレベル差値ＯＬＤ_L、ＯＬＤ_Rは、ステレオダウンミックス信号（それは、好ましくは２チャンネルの定型のオーディオオブジェクト信号を意味する）の場合に、定型のオーディオオブジェクトに対して演算される。対照的に、１つの共通のオブジェクトレベル差値ＯＬＤ_Lのみは、１チャンネルの（モノラル）ダウンミックス信号（それは、好ましくは１チャンネルの定型のオーディオオブジェクト信号を意味する）の場合に、定型のオーディオオブジェクトに対して演算される。

これからわかるように、第１の（２チャンネルのダウンミックス信号の場合）または単独の（１チャンネルのダウンミックス信号の場合）共通のオブジェクトレベル差値ＯＬＤ_Lは、オーディオオブジェクトインデックスｉを有する定型のオーディオオブジェクトの貢献度を、ＳＡＯＣダウンミックス信号３１０の左チャンネル（または単独のチャンネル）に合計することによって取得される。

第２の共通のオブジェクトレベル差値ＯＬＤ_R（それは、２チャンネルのダウンミックス信号の場合に用いられる）は、オーディオオブジェクトインデックスｉを有する定型のオーディオオブジェクトの貢献度を、ＳＡＯＣダウンミックス信号３１０の右チャンネルに合計することによって取得される。

定型のオーディオオブジェクト（オーディオオブジェクトインデックスｉ＝０〜ｉ＝Ｎ−Ｎ_EAO-1を有する）のＳＡＯＣダウンミックス信号７１０の左チャンネル信号（または単独のチャンネル信号）への貢献度ＯＬＤ_Lは、例えば、ＳＡＯＣダウンミックス信号３１０の左チャンネル信号を取得するときにオーディオオブジェクトインデックスｉを有する定型のオーディオオブジェクトに適用されるダウンミックスゲインを記述するダウンミックスゲインｄ_o,iと、値ＯＬＤ_iによって表されたオーディオオブジェクトｉを有する定型のオーディオオブジェクトのオブジェクトレベルをも考慮に入れて演算される。

同様に、共通のオブジェクトレベル差値ＯＬＤ_Rは、ＳＡＯＣダウンミックス信号３１０の右チャンネル信号を形成するときにオーディオオブジェクトインデックスｉを有する定型のオーディオオブジェクトに適用されるダウンミックスゲインを記述するダウンミックス係数ｄ_1,iと、オーディオオブジェクトインデックスｉを有する定型のオーディオオブジェクトに関するレベル情報ＯＬＤ_iを用いて取得される。

これからわかるように、量Ｐ_Lo、Ｐ_Ro、Ｐ_LoRo、Ｐ_LoCo,j、Ｐ_RoCo,jの計算式は、個々の定型のオーディオオブジェクトを区別せず、単に共通のオブジェクトレベル差値ＯＬＤ_L、ＯＬＤ_Rを用いるだけであり、それにより、定型のオーディオオブジェクト（オーディオオブジェクトインデックスｉを有する）を単一のオーディオオブジェクトとみなす。

また、定型のオーディオオブジェクトに関するオブジェクト間相関値ＩＯＣ_L,Rは、２つの定型のオーディオオブジェクトがある場合を除き、０にセットされる。

共分散マトリックスｅ_i,j（そして、ｅ_L,R）は、次のように定められる。

３.４.２エネルギーモード

以下において、拡張オーディオオブジェクト信号３２０と定型のオーディオオブジェクト（非拡張オーディオオブジェクト）信号３２２を分離するために用いることができ、ＳＡＯＣダウンミックスチャンネル３１０の非波形保持オーディオ符号化と結合して用いることができる他のコンセプトが記載される。

言い換えれば、エネルギーベースの符合化／復号化手順は、ダウンミックス信号の非波形保存符号化に対して設計される。このように、対応するエネルギーモードに対するＯＴＮ／ＴＴＮアップミックスマトリックスは、特定の波形に依存せず、入力オーディオオブジェクトの相対的なエネルギー分布を記述するだけである。

また、「エネルギーモード」コンセプトとして示されるここで述べるコンセプトは、残余の信号情報の送信なしに用いることができる。
また、定型のオーディオオブジェクト（非拡張オーディオオブジェクト）は、１つまたは２つの共通のオブジェクトレベル差値ＯＬＤ_L、ＯＬＤ_Rを有する単一の１チャンネルまたは２チャンネルのオーディオオブジェクトとして取り扱われる。

３.４.２.１ステレオダウンミックスモードに対するエネルギーモード

３.４.２.２モノラルダウンミックスモード（ＯＴＮ）に対するエネルギーモード

４．ＳＡＯＣダウンミックスプリプロセッサのアーキテクチャと動作

以下に、ＳＡＯＣダウンミックスプリプロセッサ２７０の動作が、いくつかの復号化モードといくつかの変換符号化モードに対して記載される。

４.１復号化モードの動作

４.１.１序論

以下に、各オーディオオブジェクトに関するＳＡＯＣパラメータとパニング情報（あるいはレンダリング情報）を用いて出力信号を取得する方法が記載される。ＳＡＯＣデコーダ４９５は、図４ｇに示され、ＳＡＯＣパラメータプロセッサ４９６とダウンミックスプロセッサ４９７から構成される。

ＳＡＯＣデコーダ４９４は、定型のオーディオオブジェクトを処理するために用いることができ、それ故、ダウンミックス信号４９７ａとして、第２のオーディオオブジェクト信号２６４または定型のオーディオオブジェクト信号３２２または第２のオーディオ情報１３４を受信することができることに留意すべきである。したがって、ダウンミックスプロセッサ４９７は、その出力信号４９７ｂとして、第２のオーディオオブジェクト信号２６４の処理されたバージョン２７２または第２のオーディオ情報１３４の処理されたバージョン１４２を提供することができる。したがって、ダウンミックスプロセッサ４９７は、ＳＡＯＣダウンミックスプリプロセッサ２７０の役割またはオーディオ信号プロセッサ１４０の役割をすることができる。

ＳＡＯＣパラメータプロセッサ４９６は、ＳＡＯＣパラメータプロセッサ２５２の役割をすることができ、結果的にダウンミックス情報４９６ａを提供する。

４.１.２ダウンミックスプロセッサ

以下に、オーディオ信号プロセッサ１４０の一部であり、図２の実施形態において「ＳＡＯＣダウンミックス・プレプロセッサ」２７０として示され、ＳＡＯＣデコーダ４９５において４９７で示される、ダウンミックスプロセッサがより詳細に記載される。

ＳＡＯＣシステムのデコーダモードに対して、ダウンミックスプロセッサ（ハイブリッドＱＭＦ領域において表された）の出力信号１４２、２７２、４９７ｂは、ＩＳＯ／ＩＥＣ２３００３−１：２００７に記載されたように、最終出力のＰＣＭ信号を与える対応する合成フィルタバンク（図１と２に示されない）に供給される。しかも、ダウンミックスプロセッサの出力信号１４２、２７２、４９７ｂは、通常は拡張オーディオオブジェクトを表す１つ以上のオーディオ信号１３２、２６２と結合される。この結合は、対応する合成フィルタバンク（ダウンミックスプロセッサの出力と拡張オーディオオブジェクトを表す１つ以上の信号を結合する結合信号が合成フィルタバンクへの入力であるように）の前に実行することができる。あるいは、ダウンミックスプロセッサの出力信号は、拡張オーディオオブジェクトを表す１つ以上のオーディオ信号と、合成フィルタバンク処理の後で結合することができる。したがって、アップミックス信号表現１２０、２２０は、ＱＭＦ領域表現またはＰＣＭ領域表現（または他のいかなる適合する表現）のいずれかとすることができる。ダウンミックス処理は、例えば、モノラル処理、ステレオ処理、必要であればその後のバイノーラル処理を組み入れる。

４.１.２.１概要

以下に、ダウンミックス処理の概要が、図４ａ、４ｂを参照して与えられる。それはダウンミックス処理のブロック表現を示し、オーディオ信号プロセッサ１４０によって、またはＳＡＯＣパラメータプロセッサ２５２とＳＡＯＣダウンミックスプリプロセッサ２７０の組み合わせによって、あるいはＳＡＯＣパラメータプロセッサ４９６とウンミックスプロセッサ４９７の組合せによって実行することができる。

４.１.２.２モノラルからバイノーラル「ｘ‐１‐ｂ」の処理モード

以下に、定型のオーディオオブジェクトが単一のチャンネルダウンミックス信号１３４、２６４、３２２、４９７ａによって表され、バイノーラルレンダリングが要求される処理モードが記載される。

４.１.２.３モノラルからステレオ「ｘ‐１‐２」の処理モード

以下に、定型のオーディオオブジェクトが単一のチャンネル信号１３４、２６４、２２２によって表され、ステレオレンダリングが要求される処理モードが記載される。

４.１.２.４モノラルからモノラル「ｘ‐１‐１」の処理モード

以下に、定型のオーディオオブジェクトが信号チャンネル１３４、２６４、３２２、４９７ａよって表され、定型のオーディオオブジェクトの２チャンネルのレンダリングが要求される処理モードが記載される。

４.１.２.５ステレオからバイノーラル「ｘ‐２‐ｂ」の処理モード

以下に、定型のオーディオオブジェクトが２チャンネル信号１３４、２６４、３２２、４９７ａによって表され、定型のオーディオオブジェクトのバイノーラルレンダリングが要求される処理モードが記載される。

４.１.２.６ステレオからステレオ「ｘ‐２‐２」の処理モード

以下に、定型のオーディオオブジェクトが２チャンネル（ステレオの）の信号１３４、２６４、３２２、４９７ａによって記述され、２チャンネル（ステレオの）レンダリングが要求される処理モードが記載される。

ステレオ出力のケースでは、４.２.２.３章で後述されるステレオ前処理が直接適用される。

４.１.２.７ステレオからモノラル「ｘ−２−１」の処理モード

以下に、定型のオーディオオブジェクトが２チャンネル（ステレオ）の信号１３４、２６４、３２２、４９７ａによって表され、１チャンネルの（モノラル）レンダリングが要求される処理モードが記載される。

モノラル出力のケースでは、ステレオ前処理は、４.２.２.３章で後述されるように、単一の作動中のレンダリングマトリックスエントリーによって適用される。

４.１.２.８結論

再び図４ａ、４ｂを参照して、拡張オーディオオブジェクトと定型のオーディオオブジェクトの分離の後の定型のオーディオオブジェクトを表す１チャンネルまたは２チャンネル信号１３４、２６４、３２２、４９７ａに適用することができる処理が記載される。図４ａと４ｂは、処理を図解説明するものであって、図４ａと４ｂの処理は、オプションのパラメータ調整が異なる処理ステージで導入されるという点で異なる。

４.２変換符号化モードの動作

４.２.１序論

以下に、標準の対応するＭＰＥＧサラウンドビットストリーム（ＭＰＳビットストリーム）における各オーディオオブジェクト（あるいは、好ましくは、各定型のオーディオオブジェクト）に関するＳＡＯＣパラメータとパニング情報（あるいはレンダリング情報）の結合の方法が説明される。

ＳＡＯＣトランスコーダ４９０は、図４ｆに示され、ＳＡＯＣパラメータプロセッサ４９１とステレオダウンミックスに適用されるダウンミックスプロセッサ４９２から構成される。

ＳＡＯＣトランスコーダ４９０は、例えば、オーディオ信号プロセッサ１４０の機能を引き継ぐことができる。あるいは、ＳＡＯＣトランスコーダ４９０は、ＳＡＯＣパラメータプロセッサ２５２と結合されるときに、ＳＡＯＣダウンミックスプリプロセッサ２７０の機能を引き継ぐことができる。

例えば、ＳＡＯＣパラメータプロセッサ４９１は、オブジェクト関連パラメータ情報１１０またはＳＡＯＣビットストリーム２１２に相当するＳＡＯＣビットストリーム４９１ａを受信することができる。また、ＳＡＯＣパラメータプロセッサ４９１は、オブジェクト関連パラメータ情報１１０に含めることができる、あるいはレンダリングマトリックス情報２１４に相当することができるレンダリングマトリックス情報４９１ｂを受信することができる。ＳＡＯＣパラメータプロセッサ４９１は、また、情報２４０に相当することができるダウンミックス処理情報４９１ｃをダウンミックスプロセッサ４９２に提供することができる。さらに、ＳＡＯＣパラメータプロセッサ４９１は、ＭＰＥＧサラウンド標準と互換性があるパラメータサラウンド情報を備える、ＭＰＥＧサラウンドビットストリーム（あるいはＭＰＥＧサラウンドパラメータビットストリーム）４９１ｄを提供することができる。ＭＰＥＧサラウンドビットストリーム４９１ｄは、例えば、第２のオーディオ情報の処理されたバージョン１４２の一部とすることができる、あるいは、例えば、ＭＰＳビットストリーム２２２の一部または代わりをすることができる。

ダウンミックスプロセッサ４９２は、好ましくは１チャンネルのダウンミックス信号または２チャンネルのダウンミックス信号であり、好ましくは第２のオーディオ情報１３４または第２のオーディオオブジェクト信号２６４、３２２に相当する、ダウンミックス信号４９２ａを受信するように構成される。ダウンミックスプロセッサ４９２は、また、第２のオーディオ情報１３４の処理されたバージョンに相当する、あるいは１４２に等しいか、第２のオーディオオブジェクト信号２６４の処理されたバージョン２７２（またはその一部）に相当する、ＭＰＥＧサラウンドダウンミックス信号４９２ｂを提供することができる。

しかしながら、ＭＰＥＧサラウンドダウンミックス信号４９２ｂを拡張オーディオオブジェクト信号１３２、２６２と結合する異なる方法がある。結合は、ＭＰＥＧサラウンド領域において実行することができる。

代替として、しかしながら、定型のオーディオオブジェクトの、ＭＰＥＧサラウンドパラメータビットストリーム４９１ｄとＭＰＥＧサラウンドダウンミックス信号４９２ｂを備えるＭＰＥＧサラウンド表現は、ＭＰＥＧサラウンドデコーダによって、マルチチャンネル時間領域表現またはマルチチャンネル周波数領域表現（個々に異なるオーディオチャンネルを表す）に逆変換することができ、その後拡張オーディオオブジェクト信号と結合することができる。

変換符号化モードは、１つ以上のモノラルダウンミックス処理モードと１つ以上のステレオダウンミックス処理モードの両方を備えることに留意すべきである。しかしながら、定型のオーディオオブジェクト信号の処理は、ステレオダウンミックス処理モードにおいてより精巧であるので、以下で、ステレオダウンミックス処理モードのみが記載される。

４.２.２ステレオダウンミックス（「ｘ‐２‐５」）の処理モードにおけるダウンミックス処理

４.２.２.１序論

以下のセクションにおいて、ステレオダウンミックスケースに対するＳＡＯＣ変換符号化モードの記述が与えられる。

ＳＡＯＣビットストリームからのオブジェクトパラメータ（オブジェクトレベル差ＯＬＤと、オブジェクト間相関ＩＯＣと、ダウンミックスゲインＤＭＧと、ダウンミックスチャンネルレベル差ＤＣＭＤ）は、レンダリング情報に従って、ＭＰＥＧサラウンドビットストリームに対する空間（好ましくはチャンネル関連）パラメータ（チャンネルレベル差ＣＬＤ、チャンネル間相関ＩＣＣ、チャンネル予測係数ＣＰＣ）に変換符号化される。ダウンミックスは、オブジェクトパラメータとレンダリングマトリックスに従って修正される。

ここで図４ｃ、４ｄ、４ｅを参照して、特にダウンミックス修正における処理の概要が与えられる。

以下に、ＭＰＥＧサラウンドパラメータを取得するために実行されるオブジェクトエネルギーのレンダリングが述べられる。また、定型のオーディオオブジェクトを表す第２のオーディオ情報１３４、２６４、４９２ａの処理されたバージョン１４２、２７２、４９２ｂを取得するために実行されるステレオ処理が記載される。

４.２.２.２オブジェクトエネルギーのレンダリング

変換符号化プロセスは、概念的に２つの部分に分けることができる。１つの部分において、３チャンネルのレンダリングが、左側と、右側と、中心チャンネルに対して実行される。このステージにおいて、ＭＰＳデコーダに対するダウンミックス修正のためのパラメータ並びにＴＴＴボックスのための予測パラメータが取得される。他の部分において、正面とサラウンドチャンネルの間（ＯＴＴパラメータ、左側正面−左側サラウンド、右側正面−右側サラウンド）のレンダリングに対するＣＬＤとＩＣＣパラメータが決定される。

４.２.２.２.１左側、右側、中心のチャンネルへのレンダリング

４.２.２.２.２正面とサラウンドチャンネル間のレンダリング

４.２.２.３ステレオ処理

以下に、定型のオーディオオブジェクト信号１３４から６４、３２２のステレオ処理が記載される。ステレオ処理は、定型のオーディオオブジェクトの２チャンネル表現に基づいて、一般的な表現１４２、２７２に対するプロセスを導き出すために用いられる。

４.２.２.４デュアルモード

５．複合ＥＫＳ‐ＳＡＯＣ復号化／変換符号化モード、図１０に係るエンコーダ、および図５ａ、５ｂに係るシステム

以下に、複合ＥＫＳ‐ＳＡＯＣ処理スキームの簡単な説明が与えられる。ＥＫＳ処理が、カスケード化されたスキームによって、定型のＳＡＯＣ復号化／変換符号化チェーンに統合された、好ましい「複合ＥＫＳ‐ＳＡＯＣ」処理スキームが提案される。

５.１図５に係るオーディオ信号エンコーダ

第１ステップにおいて、ＥＫＳ処理（拡張カラオケ／ソロ処理）にささげられたオブジェクトは、フォアグラウンドオブジェクト（ＦＧＯ）として識別され、それらの数Ｎ_FGO（Ｎ_EAOとしても表される）は、ビットストリーム変数「bsNumGroupsFGO」によって決定される。前記ビットストリーム変数は、上述のように、例えば、ＳＡＯＣビットストリームに含めることができる。

ビットストリームの生成（オーディオ信号エンコーダにおける）に対して、全ての入力オブジェクトのパラメータＮ_objは、フォアグラウンドオブジェクトＦＧＯが、いずれの場合においても、最後のＮ_FGO（あるいは代替として、Ｎ_EAO）個のパラメータ、例えば、[Ｎ_obj−Ｎ_FGO≦ｉ≦Ｎ_obj−１]に対するＯＬＤ_iを備えるように、リオーダーされる。

例えば、バックグラウンドオブジェクトＢＧＯまたは非拡張オーディオオブジェクトである残留オブジェクトから、同時にバックグラウンドオブジェクトＢＧＯとして供される「定型のＳＡＯＣスタイル」のダウンミックス信号が生成される。次に、バックグラウンドオブジェクトとフォアグラウンドオブジェクトは「ＥＫＳ処理スタイル」においてダウンミックスされ、残余情報は各フォアグラウンドオブジェクトから抽出される。このように、余分の処理ステップが導入される必要はない。従って、ビットストリーム構文の変更は、要求されない。

言い換えれば、非拡張オーディオオブジェクトは、エンコーダ側で拡張オーディオオブジェクトから区別される。定型のオーディオオブジェクト（非拡張オーディオオブジェクト）を表す１チャンネルまたは２チャンネルの定型のオーディオオブジェクトダウンミックス信号が提供され、１つ、２つまたはそれ以上の定型のオーディオオブジェクト（非拡張オーディオオブジェクト）が存在することができる。１チャンネルまたは２チャンネルの定型のオーディオオブジェクトダウンミックス信号は、次に、１つ以上の拡張オーディオオブジェクト信号（例えば、１チャンネルの信号または２チャンネルの信号とすることができる）と結合され、拡張オーディオオブジェクトのオーディオ信号と定型のオーディオオブジェクトダウンミックス信号を結合して共通のダウンミックス信号（例えば、１チャンネルのダウンミックス信号または２チャンネルのダウンミックス信号とすることができる）を取得する。

以下に、このようなカスケード化されたエンコーダの基本構成が、本発明の一実施形態に係るＳＡＯＣエンコーダ１０００の概略ブロック図を示す図１０を参照して簡潔に述べられる。ＳＡＯＣエンコーダ１０００は、通常は残余情報を提供しない第１のＳＡＯＣダウンミキサー１０１０を備える。ＳＡＯＣダウンミキサー１０１０は、定型の（非拡張の）オーディオオブジェクトから複数のＮ_BGO個のオーディオオブジェクト信号１０１２を受信するように構成される。また、ＳＡＯＣダウンミキサー１０１０は、定型のオーディオオブジェクト１０１２に基づいて、定型のオーディオオブジェクトダウンミックス信号１０１４がダウンミックスパラメータに従って定型のオーディオオブジェクト信号１０１２を結合するように、定型のオーディオオブジェクトダウンミックス信号１０１４を提供するように構成される。ＳＡＯＣダウンミキサー１０１０は、また、定型のオーディオオブジェクト信号とダウンミックスを記述する定型のオーディオオブジェクトＳＡＯＣ情報１０１６を提供する。例えば、定型のオーディオオブジェクトＳＡＯＣ情報１０１６は、ＳＡＯＣダウンミキサー１０１０によって実行されるダウンミックスを記述する、ダウンミックスゲイン情報ＤＭＧとダウンミックスチャンネルレベル差情報ＤＣＬＤを備えることができる。加えて、定型のオーディオオブジェクトＳＡＯＣ情報１０１６は、定型のオーディオオブジェクト信号１０１２によって記述された定型のオーディオオブジェクト間の関係を記述する、オブジェクトレベル差情報とオブジェクト間相関情報を備えることができる。

エンコーダ１０００は、また、通常は残余情報を提供するように構成される第２のＳＡＯＣダウンミキサー１０２０を備える。第２のＳＡＯＣダウンミキサー１０２０は、好ましくは、１つ以上の拡張オーディオオブジェクト信号１０２２を受信し、また定型のオーディオオブジェクトダウンミックス信号１０１４を受信するように構成される。

第２のＳＡＯＣダウンミキサー１０２０は、また、拡張オーディオオブジェクト信号１０２２と定型のオーディオオブジェクトダウンミックス信号１０１４に基づいて共通のＳＡＯＣダウンミックス信号１０２４を提供0するように構成される。共通のＳＡＯＣダウンミックス信号を提供するときに、第２のＳＡＯＣダウンミキサー１０２０は、通常は、定型のオーディオオブジェクトダウンミックス信号１０１４を単一の１チャンネルまたは２チャンネルのオブジェクト信号として取り扱う。

第２のＳＡＯＣダウンミキサー１０２０は、また、例えば、拡張オーディオオブジェクトに関するダウンミックスチャンネルレベル差値ＤＣＬＤと、拡張オーディオオブジェクトに関するオブジェクトレベル差値ＯＬＤと、拡張オーディオオブジェクトに関するオブジェクト間相関値ＩＯＣを記述する拡張オーディオオブジェクトＳＡＯＣ情報を提供するように構成される。加えて、第２のＳＡＯＣ１０２０は、好ましくは、拡張オーディオオブジェクトに関する残余情報が、オリジナルの個々の拡張オーディオオブジェクト信号と、ダウンミックス情報ＤＭＧ、ＤＣＬＤおよびオブジェクト情報ＯＬＤ、ＩＯＣを用いてダウンミックス信号から抽出することができる予測される個々の拡張オーディオオブジェクト信号との差を記述するように、拡張オーディオオブジェクトの各々に関する残余情報を提供するように構成される。

オーディオエンコーダ１０００は、本願明細書に記載されたオーディオデコーダとの協調に対して適切である。

５.２図５ａに係るオーディオ信号デコーダ

以下に、図５ａに概略ブロック図が示される複合ＥＫＳ‐ＳＡＯＣデコーダ５００の基本構成が記載される。

図５ａに係るオーディオデコーダ５００は、ダウンミックス信号５１０と、ＳＡＯＣビットストリーム情報５１２と、レンダリングマトリックス情報５１４を受信するように構成される。オーディオデコーダ５００は、レンダリングされたフォアグラウンドオブジェクトを記述する第１のオーディオオブジェクト信号５６２と、バックグラウンドオブジェクトを記述する第２のオーディオオブジェクト信号５６４を提供するように構成された、拡張カラオケ／ソロ処理とフォアグラウンドオブジェクトレンダリング５２０を備える。フォアグラウンドオブジェクトは、例えば、いわゆる「拡張オーディオオブジェクト」とすることができ、バックグラウンドオブジェクトは、例えば、いわゆる「定型のオーディオオブジェクト」または「非拡張オーディオオブジェクト」とすることができる。オーディオデコーダ５００は、また、第２のオーディオオブジェクト信号５６２を受信し、それに基づいて第２のオーディオオブジェクト信号５６４の処理されたバージョン５７２を提供するように構成された、定型のＳＡＯＣ復号化５７０を備える。オーディオデコーダ５００は、また、第１のオーディオオブジェクト信号５６２と第２のオーディオオブジェクト信号５６４の処理されたバージョン５７２を結合し、出力信号５２０を取得するように構成された、コンバイナ５８０を備える。

以下に、オーディオデコーダ５００の機能がより詳細に述べられる。ＳＡＯＣ復号化／変換符号化サイドで、アップミックスプロセスは、ダウンミックス信号をバックグラウンドオブジェクト（ＢＧＯ）とフォアグラウンドオブジェクト（ＦＧＯ）を分解する、拡張カラオケ‐ソロ処理（ＥＫＳ処理）を最初に備えるカスケード化されたスキームに結果としてなる。バックグラウンドオブジェクトに対する必要なオブジェクトレベル差（ＯＬＤ）とオブジェクト間相関（ＩＯＣ）は、次のようにオブジェクトとダウンミックス情報（それは、両方ともオブジェクト関連パラメータ情報であり、両方とも通常はＳＡＯＣビットストリームに含まれる）から導き出される。

加えて、このステップ（通常はＥＫＳ処理とフォアグラウンドオブジェクトレンダリング５２０によって実行される）は、フォアグラウンドオブジェクトを最終出力にマッピングする（例えば、第１のオーディオオブジェクト信号５６２が、フォアグラウンドオブジェクトが１つ以上のチャンネルのそれぞれにマッピングされるマルチチャンネル信号であるように）ことを含む。バックグラウンドオブジェクト（通常は、複数のいわゆる「定型のオーディオオブジェクト」を備える）は、定型のＳＡＯＣ復号化プロセスによって（あるいは、代替として、いくつかのケースにおいて、ＳＡＯＣ変換符号化プロセスによって）対応する出力チャンネルにレンダリングされる。このプロセスは、例えば、定型のＳＡＯＣ復号化５７０によって実行することができる。最終の混合するステージ（例えばコンバイナ５８０）は、レンダリングされたフォアグラウンドオブジェクトとバックグラウンドオブジェクト信号の出力での所望の結合を提供する。

この複合ＥＫＳ‐ＳＡＯＣシステムは、定型のＳＡＯＣシステムとそのＥＫＳモードの全ての有益な属性の組み合わせを表す。このアプローチは、クラシック（適度なレンダリング）とカラオケ／ソロ同様（極度のレンダリング）の再生シナリオに対して、同じビットストリームによって、提案システムを用いて対応するパフォーマンスを成し遂げることを可能にする。

５.３図５ｂに係る一般化構成

以下に、複合ＥＫＳ‐ＳＡＯＣシステム５９０の一般化された構成が、このような一般化された複合ＥＫＳ‐ＳＡＯＣシステムの概略ブロック図を示す図５ｂを参照して記載される。図５ｂの複合ＥＫＳ‐ＳＡＯＣシステム５９０は、オーディオデコーダとみなすこともできる。

複合ＥＫＳ‐ＳＡＯＣシステム５９０は、ダウンミックス信号５１０ａと、ＳＡＯＣビットストリーム情報５１２ａと、レンダリングマトリックス情報５１４ａを受信するように構成される。また、複合ＥＫＳ‐ＳＡＯＣシステム５９０は、それらに基づいて、出力信号５２０ａを提供するように構成される。

複合ＥＫＳ‐ＳＡＯＣシステム５９０は、ダウンミックス信号５１０ａと、ＳＡＯＣビットストリーム情報５１２ａ（または少なくともその一部）と、レンダリングマトリックス情報５１４ａ（または少なくともその一部）を受信するＳＡＯＣタイプの処理ステージＩ５２０ａを備える。特に、ＳＡＯＣタイプの処理ステージＩ５２０ａは、第１ステージのオブジェクトレベル差値（ＯＬＤ）を受信する。ＳＡＯＣタイプの処理ステージＩ５２０ａは、オブジェクトの第１のセット（例えば、第１のオーディオオブジェクトタイプのオーディオオブジェクト）を記述する１つ以上の信号５６２ａを提供する。
ＳＡＯＣタイプの処理ステージＩ５２０ａは、また、オブジェクトの第２のセットを記述する１つ以上の信号５６４ａを提供する。

複合ＥＫＳ‐ＳＡＯＣシステムは、また、オブジェクトの第２のセットを記述する１つ以上の信号５６４ａを受信し、それに基づいて、ＳＡＯＣビットストリーム情報５１２ａに含まれる第２ステージのオブジェクトレベル差と、更にはレンダリングマトリックス情報５１４の少なくとも一部を用いて、オブジェクトの第３のセットを記述する１つ以上の信号５７２ａを提供するように構成された、ＳＡＯＣタイプの処理ステージII ５７０ａを備える。複合ＥＫＳ‐ＳＡＯＣシステムは、また、例えば、加算器であって、オブジェクトの第１のセットを記述する１つ以上の信号５６２ａとオブジェクトの第３のセット（オブジェクトの第２のセットの処理されたバージョンとすることができる）を記述する１つ以上の信号５７０ａの信号を結合することによって出力信号５２０ａを提供する、コンバイナ５８０ａを備える。

上記を要約すると、図５ｂは、上記図５ａを参照して記載された基本構成の、本発明の更なる実施形態における一般化された形を示す。

６．複合ＥＫＳ‐ＳＡＯＣ処理スキームの知覚的評価

６.１試験の手順、計画、項目

この主観的なリスニング試験は、高品質のリスニングを可能とするように設計された音響的に隔離されたリスニングルームにおいて行われた。再生は、ヘッドホン（Lake-people1のＤ／ＡコンバータとSTAXのSRMモニタを有するSTAXのSRM Lambda Pro）を用いてなされた。試験方法は、中間品質のオーディオの主観的評価のための「隠されたレファレンスとアンカーによる多数の刺激」（ＭＵＳＨＲＡ）法（引用文献７を参照）に基づいて、空間オーディオ検証試験において用いられる標準手順に従った。

合計８人のリスナーが、実施された試験に参加した。
全ての被検者は、経験豊かなリスナーと考えられることができる。ＭＵＳＨＲＡ法に従って、リスナーは、レファレンスに対する全ての試験条件を比較するように指示された。試験条件は、各試験項目に対して、かつ各リスナーに対して、自動的にランダム化された。
主観的な反応は、コンピュータベースのＭＵＳＨＲＡプログラムによって０から１００の範囲のスケールで記録された。試験中の項目間の瞬間的なスイッチングは可能にされた。ＭＵＳＨＲＡ試験は、考慮されるＳＡＯＣモードの知覚的パフォーマンスと、リスニング試験計画書を提供する図６ａの表に記載された提案システムを評価するために行われた。

対応するダウンミックス信号は、１２８ｋｂｐｓのビットレートを有するＡＡＣコアコーダーを用いて符号化された。提案された複合ＥＫＳ−ＳＡＯＣシステムの知覚的品質を評価するために、それは定型のＳＡＯＣ‐ＲＭシステム（ＳＡＯＣ参照モデルシステム）、および試験中のシステムを記述する図６ｂの表に記載された２つの異なるレンダリング試験シナリオに対する現在のＥＫＳモード（拡張カラオケソロモード）と比較される。

２０ｋｂｐｓのビットレートを有する残余の符号化が、現在のＥＫＳモードと提案された複合ＥＫＳ‐ＳＡＯＣシステムに対して適用された。現在のＥＫＳモードに対して、このモードは入力オブジェクトの数とタイプに関する制限を有するので、実際の符号化／復号化手順の前にステレオバックグラウンドオブジェクト（ＢＧＯ）を生成する必要があることに留意すべきである。

実施された試験において用いられたリスニング試験の素材と、対応するダウンミックスと、レンダリングパラメータは、引用文献２に記載されたコールフォープロポーザル（ＣｆＰ）のセットから選択された。「カラオケ」と「クラシック」のレンダリングアプリケーションシナリオに対する対応データは、リスニング試験項目とレンダリングマトリックスを記載する図６ｃの表に見ることができる。

６.２リスニング試験結果

取得されたリスニング試験結果を示す図に関する簡単な概要は、図６ｄと６ｅに見ることができ、図６ｄは、カラオケ／ソロタイプのレンダリングリスニング試験に対する平均ＭＵＳＨＲＡスコアを示し、図６ｅは、クラシックのレンダリングリスニング試験に対する平均ＭＵＳＨＲＡスコアを示す。プロットは、全てのリスナーにわたる項目毎の平均ＭＵＳＨＲＡの評定と、全ての評価された項目にわたる統計的平均値を関連する９５％の信頼区間とともに示す。

以下の結論は、行われたリスニング試験の結果に基づいて出すことができる。
・図６ｄは、現在のＥＫＳモードに対する、カラオケ-タイプのアプリケーションのための複合ＥＫＳ−ＳＡＯＣシステムとの比較を表す。全ての試験された項目に対して、これらの２つのシステム間のパフォーマンスにおける有意の差（統計的センスにおいて）はない。この観測から、複合ＥＫＳ−ＳＡＯＣシステムは、が能率的に、ＥＫＳモードのパフォーマンスに達する残余情報を効率的に利用することが可能であると結論づけることができる。定型のＳＡＯＣシステム（残余なし）のパフォーマンスは、他のシステムの両方より下回ることにも注目することができる。
・図６ｅは、現在の定型のＳＡＯＣの、クラシックのレンダリングシナリオに対する複合ＥＫＳ‐ＳＡＯＣシステムとの比較を表す。全ての試験された項目に対して、これらの２つのシステムのパフォーマンスは統計学的に同じである。これは、クラシックのレンダリングシナリオに対する複合ＥＫＳ‐ＳＡＯＣシステムの固有の機能を示す。

それ故、ＥＫＳモードを定型のＳＡＯＣと結合する提案された統合システムがレンダリングの対応するタイプに対する主観的オーディオ品質における効果を保持すると結論づけることができる。

提案された複合ＥＫＳ‐ＳＡＯＣシステムが、もはやＢＧＯオブジェクトの制限を有さず、定型のＳＡＯＣモードの完全にフレキシブルなレンダリングの可能性を有し、全てのタイプのレンダリングに対して同じビットストリームを用いることができるという事実を考慮して、それをＭＰＥＧ‐ＳＡＯＣ標準に組み込むことは有益であるように見える。

７．図７に係る方法

以下に、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供する方法が、このような方法のフローチャートを示す図７を参照して記載される。

方法７００は、ダウンミックス信号表現を分解し、ダウンミックス信号表現とオブジェクト関連パラメータ情報の少なくとも一部に基づいて、第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第１のセットを記述する第１のオーディオ情報と、第２のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第２のセットを記述する第２のオーディオ情報を提供する、ステップ７１０を備える。方法７００は、また、オブジェクト関連パラメータ情報に基づいて第２のオーディオ情報を処理し、第２のオーディオ情報の処理されたバージョンを取得する、ステップ７２０を備える。

方法７００は、また、第１のオーディオ情報を第２のオーディオの処理されたバージョンと結合し、アップミックス信号表現を取得する、ステップ７３０を備える。

図７に係る方法７００は、本願明細書において発明の装置に関して述べられた機能と関数のいずれかによって補充することができる。また、方法７００は、発明の装置に関して述べられた効果をもたらす。

８．実施態様の変形例

装置の局面においていくつかの側面が記載されたが、これらの側面は対応する方法の記述をも表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの局面において記載された側面は、対応する装置の対応するブロックまたは項目または特徴の記述をも表す。いくつかのまたは全ての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって（あるいは用いて）実行することができる。いくつかの実施形態において、いくつかの１つ以上の最も重要な方法ステップは、このような装置によって実行することができる。

発明の符号化されたオーディオ信号は、デジタル記憶媒体に記憶することができ、または無線伝送媒体のような伝送媒体またはインターネットのような有線伝送媒体上を伝送することができる。

特定の実施要求に依存して、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に記憶される電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピューターシステムと協働する（または協働することができる、デジタル記憶媒体、例えばフロッピー（登録商標）、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを用いて実行することができる。それ故、デジタル記憶媒体は、計算機読取可能とすることができる。

本発明に係るいくつかの実施形態は、本願明細書に記載された方法の１つが実行されるように、プログラム可能なコンピューターシステムと協働することができる、電子的に読取可能な制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本方法の１つを実行するために働くプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば機械読取可能なキャリアに記憶することもできる。

他の実施形態は、機械読取可能なキャリアに記憶された、本願明細書に記載された方法の１つを実行するコンピュータプログラムを備える。

言い換えれば、発明の方法の実施形態は、それ故、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の１つを実行するプログラムコードを有するコンピュータプログラムである。

発明の方法の更なる実施形態は、それ故、その上に記録された、本願明細書に記載された方法の１つを実行するコンピュータプログラムを備えるデータキャリア（またはデジタル記憶媒体、あるいはコンピュータ読取可能媒体）である。データキャリア、デジタル記憶媒体または記録された媒体は、通常は有形でありおよび／または伝送されない。

発明の方法の更なる実施形態は、それ故、本願明細書に記載された方法の１つを実行するコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。

更なる実施形態は、本願明細書に記載された方法の１つを実行するように構成されたまたは適合された処理手段、例えばコンピュータ、あるいはプログラマブルロジックデバイスを備える。

更なる実施形態は、本願明細書に記載された方法の１つを実行するコンピュータプログラムがその上にインストールされたコンピュータを備える。

いくつかの実施形態では、本願明細書に記載された方法の機能のいくつかまたは全てを実行するために、プログラマブルロジックデバイス（例えばフィールドプログラマブルゲートアレイ）を用いることができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の１つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。

上述した実施形態は、単に本発明の原理に対して例証を示すものである。本願明細書に記載された構成と詳細の修正と変更は、他の当業者にとって明らかであると理解される。それ故、本発明は、特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述と説明の方法によって表された特定の詳細によって制限されないことを意図する。

９．結論

以下に、本発明に係る複合ＥＫＳ−ＳＡＯＣシステムのいくつかの側面と効果が簡単に要約される。カラオケとソロの再生シナリオに対して、ＳＡＯＣ−ＥＫＳ処理モードは、バックグラウンドオブジェクト／フォアグラウンドオブジェクトの排他的な再生とこれらのオブジェクトグループの任意の混合（レンダリングマトリックスによって定められる）の両方をサポートする。

また、最初のモードは、ＥＫＳ処理の主たる目的であると考えられ、後者は、付加的なフレキシビリティを提供する。

ＥＫＳ機能の一般化は、ために、ＥＫＳを定型のＳＡＯＣ処理モードと結合し、１つの一体化システムを取得する労力を含むことが分かっている。このような一体化システムのポテンシャルは、次の通りである。
・１つの単一のクリアなＳＡＯＣ復号化／変換符号化構造である
・ＥＫＳと定型のＳＡＯＣモードの両方に対する１つのビットストリームである
・ＳＯＡＣ符号化ステージの前にバックグラウンドオブジェクトを生成する必要がないように、バックグラウンドオブジェクト（ＢＧＯ）を備える入力オブジェクトの数への制限がない
・カラオケ／ソロ再生状況の要求において拡張された知覚的品質を与えるフォアグラウンドオブジェクトに対する残余符号化をサポートする

これらの効果は、本願明細書に記載された一体化システムによって得ることができる。

Claims

ダウンミックス信号表現（１１２；２１０；５１０；５１０ａ）とオブジェクト関連パラメータ情報（１１０；２１２；５１２；５１２ａ））に基づいてアップミックス信号表現を提供するオーディオ信号デコーダ（１００；２００；５００；５９０）であって、
前記ダウンミックス信号表現を分解し、前記ダウンミックス信号表現に基づいて、第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第１のセットを記述する第１のオーディオ情報（１３２；２６２；５６２；５６２ａ）と、第２のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第２のセットを記述する第２のオーディオ情報（１３４；２６４；５６４；５６４ａ）を提供するように構成された、オブジェクトセパレータ（１３０；２６０；５２０；５２０ａ）と、
前記第２のオーディオ情報（１３４；２６４；５６４；５６４ａ）を受信し、前記オブジェクト関連パラメータ情報に基づいて前記第２のオーディオ情報を処理し、前記第２のオーディオ情報の処理されたバージョン（１４２；２７２；５７２；５７２ａ）を取得するように構成された、オーディオ信号プロセッサと、
前記第１のオーディオ情報を前記第２のオーディオ情報の処理されたバージョンと結合し、前記アップミックス信号表現を取得するように構成された、オーディオ信号コンバイナ（１５０；２８０；５８０；５８０ａ）とを備えた、
オーディオ信号デコーダ。
前記ダウンミックス信号表現によって表されたオーディオオブジェクトのサブセットに関する残余情報に基づいて前記アップミックス信号表現を提供するように構成され、
前記オブジェクトセパレータは、前記ダウンミックス信号表現を分解し、前記ダウンミックス信号表現に基づき、前記残余情報を用いて、残余情報が関連する第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第１のセットを記述する前記第１のオーディオ情報と、残余情報が関連しない第２のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第２のセットを記述する前記第２のオーディオ情報を提供するように構成された、
請求項１に記載のオーディオ信号デコーダ。
前記オブジェクトセパレータは、前記第１のオーディオ情報において、前記第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトが、前記第２のオーディオオブジェクトタイプのオーディオオブジェクトを超えて強調されるように、前記第１のオーディオ情報を提供するように構成され、
前記オブジェクトセパレータは、前記第２のオーディオ情報において、前記第２のオーディオオブジェクトタイプのオーディオオブジェクトが、前記第１のオーディオオブジェクトタイプのオーディオオブジェクトを超えて強調されるように、前記第２のオーディオ情報を提供するように構成された、
請求項１または２に記載のオーディオ信号デコーダ。
前記オーディオ信号プロセッサ（１４０；２７０；５７０；５７０ａ）における前記第２のオーディオ情報の処理が、前記第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第１のセットを記述する前記第１のオーディオ情報と前記第２のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第２のセットを記述する前記第２のオーディオ情報の分離の後に実行されるように、２ステップ処理を実行するように構成された、請求項１〜３のいずれかに記載のオーディオ信号デコーダ。
前記オーディオ信号プロセッサは、前記第２のオーディオオブジェクトタイプのオーディオオブジェクトに関する前記オブジェクト関連パラメータ情報（１１０；２１２；５１２；５１２ａ）に基づき、前記第１のオーディオオブジェクトタイプのオーディオオブジェクトに関する前記オブジェクト関連パラメータ情報（１１０；２１２；５１２；５１２ａ）から独立して、前記第２のオーディオ情報（１３４；２６４；５６４；５６４ａ）を処理するように構成された、請求項１〜４のいずれかに記載のオーディオ信号デコーダ。
請求項１〜６に記載のオーディオ信号デコーダ。
前記オブジェクトセパレータは、前記第１のオーディオ情報（１３２；２６２；５６２；５６２ａ）にレンダリングマトリックスを適用し、前記第１のオーディオ情報のオブジェクト信号を前記アップミックスオーディオ信号表現（１２０；２２０、２２２；５６２；５６２ａ）のオーディオチャンネルにマッピングするように構成された、請求項１〜１３のいずれかに記載のオーディオ信号デコーダ。
前記オーディオ信号プロセッサ（１４０；２７０；５７０；５７０ａ）は、前記ステレオ処理を実行し、レンダリング情報と共分散情報に基づいて、前記第２のオーディオ情報（１３４；２６４；５６４；５６４ａ）の推定されたオーディオオブジェクト貢献度（ＥＤ^*ＪＸ）を、前記アップミックスオーディオ信号表現の複数のチャンネルにマッピングするように構成された、請求項１５に記載のオーディオ信号デコーダ。
前記オーディオ信号プロセッサは、前記第２のオーディオ情報のモノラルからバイノーラルへの処理を実行し、頭部に関する伝達関数を考慮に入れて、前記第２のオーディオ情報の単一のチャンネルを前記アップミックス信号表現の２つのチャンネルにマッピングするように構成された、請求項１８に記載のオーディオ信号デコーダ。
前記オーディオ信号プロセッサは、前記第２のオーディオ情報のモノラルからステレオへの処理を実行し、前記第２のオーディオ情報の単一のチャンネルを前記アップミックス信号表現の２つのチャンネルにマッピングするように構成された、請求項１８に記載のオーディオ信号デコーダ。
前記オーディオ信号プロセッサは、前記第２のオーディオ情報のステレオからバイノーラルへの処理を実行し、頭部に関する伝達関数を考慮に入れて、前記第２のオーディオ情報の２つのチャンネルを前記アップミックス信号表現の２つのチャンネルにマッピングするように構成された、請求項１８に記載のオーディオ信号デコーダ。
前記オーディオ信号プロセッサは、前記第２のオーディオ情報のステレオからステレオへの処理を実行し、前記第２のオーディオ情報の２つのチャンネルを前記アップミックス信号表現の２つのチャンネルにマッピングするように構成された、請求項１８に記載のオーディオ信号デコーダ。
前記オブジェクトセパレータは、残余情報が関連しない前記第２のオーディオオブジェクトタイプのオーディオオブジェクトを、単一のオーディオオブジェクトとして取り扱うように構成され、
前記オーディオ信号プロセッサは、前記第２のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクトに特有のレンダリングパラメータを考慮し、前記第２のオーディオオブジェクトタイプのオーディオオブジェクトの貢献度を前記アップミックス信号表現に合わせるように構成された、請求項１〜２２のいずれかに記載のオーディオ信号デコーダ。
前記オブジェクトセパレータは、前記第２のオーディオオブジェクトタイプの複数のオーディオオブジェクトに対して、１つまたは２つの共通のオブジェクトレベル差値（ＯＬＤ_L、ＯＬＤ_R）を取得するように構成され、
前記オブジェクトセパレータは、チャンネル予測係数（ＣＰＣ）の演算に対して、前記共通のオブジェクトレベル差値を用いるように構成され、
前記オブジェクトセパレータは、前記チャンネル予測係数を用い、前記第２のオーディオ情報を表す１つまたは２つのオーディオチャンネルを取得するように構成された、請求項１〜２３のいずれかに記載のオーディオ信号デコーダ。
前記オーディオ信号プロセッサは、前記オブジェクト関連パラメータ情報に基づいて前記第２のオーディオ情報をレンダリングし、前記第２のオーディオ情報の処理されたバージョンとして、前記第２のオーディオオブジェクトタイプのオーディオオブジェクトのレンダリングされた表現を取得するように構成された、請求項１〜２６のいずれかに記載のオーディオ信号デコーダ。
前記オブジェクトセパレータは、前記第２のオーディオ情報が第２のオーディオオブジェクトタイプの２つを超えるオーディオオブジェクトを記述するように、前記第２のオーディオ情報を提供するように構成された、請求項１〜２７のいずれかに記載のオーディオ信号デコーダ。
前記オブジェクトセパレータは、前記第２のオーディオ情報として、前記第２のオーディオオブジェクトタイプの２つを超えるオーディオオブジェクトを表す１チャンネルのオーディオ信号表現または２チャンネルのオーディオ信号表現を取得するように構成された、請求項２８に記載のオーディオ信号デコーダ。
前記オーディオ信号プロセッサは、前記第２のオーディオ情報を受信し、前記第２のオーディオオブジェクトタイプの２つを超えるオーディオオブジェクトに関するオブジェクト関連パラメータ情報を考慮に入れて、前記オブジェクト関連パラメータ情報に基づいて前記第２のオーディオ情報を処理するように構成された、請求項１〜２９のいずれかに記載のオーディオ信号デコーダ。
前記オブジェクト関連パラメータ情報の構成情報（SAOCSpecificConfig）から、トータルのオブジェクト数情報（bsNumObjects）とフォアグラウンドのオブジェクト数情報（bsNumGroupsFGO）を抽出し、前記トータルのオブジェクト数情報と前記フォアグラウンドのオブジェクト数情報の差を形成することによって、前記第２のオーディオオブジェクトタイプのオーディオオブジェクトの数を決定するように構成された、請求項１〜３０のいずれかに記載のオーディオ信号デコーダ。
ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供する方法であって、
前記ダウンミックス信号表現を分解し、前記ダウンミックス信号表現に基づき、前記オブジェクト関連パラメータ情報の少なくとも一部を用いて、第１のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第１のセットを記述する第１のオーディ情報と、第２のオーディオオブジェクトタイプの１つ以上のオーディオオブジェクトの第２のセットを記述する第２のオーディオ情報を取得するステップと、
前記オブジェクト関連パラメータ情報に基づいて前記第２のオーディオ情報を処理し、前記第２のオーディオ情報の処理されたバージョンを取得するステップと、
前記第１のオーディオ情報を前記第２のオーディオ情報の処理されたバージョンと結合するステップとを備えた、
アップミックス信号表現を提供する方法。
コンピュータプログラムがコンピュータ上で動作するときに、請求項３３に記載された方法を実行する、コンピュータプログラム。