JP2016524721A

JP2016524721A - オブジェクト特有時間／周波数分解能を使用する混合信号からのオーディオオブジェクト分離

Info

Publication number: JP2016524721A
Application number: JP2016513308A
Authority: JP
Inventors: デッシュ，サッシャ; パウルス，ユーニ; カストネル，トルステン
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-05-13
Filing date: 2014-05-09
Publication date: 2016-08-18
Anticipated expiration: 2034-05-09
Also published as: EP2997572B1; ZA201509007B; US20160064006A1; MX2015015690A; HK1222253A1; CA2910506A1; WO2014184115A1; AU2017208310B2; MX353859B; EP2997572A1; MY176556A; EP2804176A1; JP6289613B2; KR101785187B1; CN105378832B; US10089990B2; RU2646375C2; AU2017208310A1; AU2014267408A1; SG11201509327XA

Abstract

ダウンミックス信号Ｘとサイド情報PSIとからなるマルチオブジェクト・オーディオ信号を復号化するためのオーディオ復号器を提案する。サイド情報は、時間／周波数領域Ｒ(tR,fR)におけるオーディオオブジェクトsiについてのオブジェクト特有サイド情報PSIiと、時間／周波数領域Ｒ(tR,fR)におけるオーディオオブジェクトsiについてのオブジェクト特有サイド情報のオブジェクト特有時間／周波数分解能ＴＦＲhを示すオブジェクト特有時間／周波数分解能情報TFRIiとを含む。オーディオ復号器は、オーディオオブジェクトsiについて、サイド情報PSIからオブジェクト特有時間／周波数分解能情報TFRIiを決定するオブジェクト特有時間／周波数分解能決定部110と、オブジェクト特有時間／周波数分解能に従ってオブジェクト特有サイド情報を使用してダウンミックス信号Ｘからオーディオオブジェクトsiを分離するオブジェクト分離部120とを含む。【選択図】図８

Description

本発明はオーディオ信号処理に関し、特に、オーディオオブジェクト適応型の個別の時間−周波数分解能を使用する、オーディオオブジェクト・コーディング（符／復号化）のための復号器、符号器、システム、方法及びコンピュータプログラムに関する。

本発明の実施形態は、ダウンミックス信号と、オブジェクトに関連したパラメトリックサイド情報（ＰＳＩ）と、を含むマルチオブジェクト・オーディオ信号を復号化するオーディオ復号器に関する。本発明の他の実施形態は、ダウンミックス信号表現とオブジェクト関連のＰＳＩとに依存してアップミックス信号表現を提供するオーディオ復号器に関する。本発明の更なる実施形態は、ダウンミックス信号と関連のＰＳＩとを含むマルチオブジェクト・オーディオ信号を復号化する方法に関する。本発明の更に他の実施形態は、ダウンミックス信号表現とオブジェクト関連のＰＳＩとに依存してアップミックス信号表現を提供する方法に関する。

本発明の別の実施形態は、複数のオーディオオブジェクト信号を１つのダウンミックス信号及び１つのＰＳＩへと符号化するオーディオ符号器に関する。本発明の更に別の実施形態は、複数のオーディオオブジェクト信号を１つのダウンミックス及び１つのＰＳＩへと符号化する方法に関する。

本発明の更なる実施形態は、復号化、符号化、及び／又はアップミックス信号の提供のための方法に対応するコンピュータプログラムに関する。

本発明の更なる実施形態は、信号混合(signal mixture)の操作のための、オーディオオブジェクト適応型の個別の時間−周波数分解能の切替えに関する。

現代のデジタルオーディオシステムにおいては、送信されたコンテンツのオーディオオブジェクトに関連した修正を受信器側で実行できるようにすることが主流となっている。これらの修正には、空間的に分散されたスピーカを介したマルチチャネル再生の場合におけるオーディオ信号の選択されたパーツのゲイン修正、及び／又は特定のオーディオオブジェクトの空間的な再位置決めが含まれる。このような修正は、オーディオコンテンツの異なるパーツを異なるスピーカに対して個別に配信することで、達成され得る。

換言すれば、オーディオ処理、オーディオ伝送、及びオーディオストレージの技術において、オブジェクト指向のオーディオコンテンツ再生に対するユーザー相互作用を可能にすることがますます求められており、また、ヒヤリングの印象を向上させる目的で、マルチチャネル再生の拡張された可能性を活用してオーディオコンテンツ又はそのパーツを個別にレンダリングすることが求められている。これらの技術により、マルチチャネル・オーディオコンテンツを使用することが、ユーザーにとって有意な改善をもたらすことになる。例えば、三次元のヒヤリング印象が取得可能となり、これがエンターテイメント・アプリケーションにおけるユーザーの満足度を向上させることになる。しかしながら、マルチチャネル・オーディオコンテンツはまた、プロ的環境、例えば電話会議のアプリケーションなどにおいても有益である。なぜなら、マルチチャネル・オーディオ再生を使用することで、話者了解度が向上し得るからである。可能性のある他のアプリケーションは、楽曲の聴取者に対し、（「オーディオオブジェクト」とも称される）異なるパーツ又はトラック、例えばヴォーカルパート又は種々の楽器などの再生レベル及び／又は空間位置を、個別に調整することを提供する。ユーザーはそのような調整を、個人的嗜好、楽曲から１つ又は複数のパーツをより容易に聞き取るため、教育目的、カラオケ、リハーサルなどのために実行することができる。

例えばパルス符号変調（ＰＣＭ）データ又は圧縮済みオーディオフォーマットの形態を有する、全てのデジタルマルチチャネル又はマルチオブジェクト・オーディオコンテンツをそのまま離散伝送することは、非常に高いビットレートを必要とする。しかしまた、オーディオデータをビットレート高効率で伝送し記憶することが望ましい。そのため、オーディオ品質とビットレート要件との間の合理的な妥協点を受け入れ、マルチチャネル／マルチオブジェクトのアプリケーションに起因する過剰な資源負荷を防止しようと試みられている。

近年、オーディオコーディングの分野において、マルチチャネル／マルチオブジェクト・オーディオ信号のビットレート効率的な伝送／記憶のためのパラメトリック技術が、例えば動画専門家グループ（ＭＰＥＧ）やその他によって紹介されてきた。一例として、チャネル指向の手法としてのＭＰＥＧサラウンド（ＭＰＳ）［非特許文献１、非特許文献２］、オブジェクト指向の手法としてのＭＰＥＧ空間オーディオオブジェクト・コーディング（ＳＡＯＣ）［非特許文献３、非特許文献４、非特許文献５、非特許文献６］が挙げられる。他のオブジェクト指向の手法は、「事前情報付きソース分離(informed source separation)」として称される［非特許文献７、非特許文献８、非特許文献９、非特許文献１０、非特許文献１１、非特許文献１２］。これらの技術は、チャネル／オブジェクトのダウンミックスと、その伝送／記憶されたオーディオシーン及び／又はオーディオシーンにおけるオーディオソース・オブジェクトを記述している追加的サイド情報と、に基づいて、所望の出力オーディオシーン又は所望のオーディオソース・オブジェクトを再構築することを目的としている。

上述したシステムにおけるチャネル／オブジェクト関連のサイド情報の推定及び適用は、時間−周波数選択的な方法で実行される。つまり、そのようなシステムは、離散フーリエ変換（ＤＦＴ）、短時間フーリエ変換（ＳＴ／ＦＴ）、又は直交ミラーフィルタ（ＱＭＦ）バンクのようなフィルタバンクなどのような時間／周波数変換を使用する。ＭＰＥＧＳＡＯＣの例を用いたそのようなシステムの基本原理を、図１に示す。

ＳＴ／ＦＴの場合には、時間次元は時間ブロック数によって表され、スペクトル次元はスペクトル係数（「bin」）の数で捕捉される。ＱＭＦの場合には、時間次元は時間スロット数によって表され、スペクトル次元はサブバンド数で捕捉される。ＱＭＦのスペクトル分解能が後続の第２フィルタステージの適用によって改善される場合には、全体的なフィルタバンクはハイブリッドＱＭＦと称され、微細な分解能のサブバンドはハイブリッドサブバンドと称される。

上述したように、ＳＡＯＣにおいては、全体的な処理は時間−周波数選択的な方法で行われ、各周波数帯域内では以下のように説明され得る。
・符号器処理の一部として、要素d_1,1…d_N,Pから成るダウンミックス行列を使用して、Ｎ個の入力オーディオオブジェクト信号s₁…s_NがＰ個のチャネルx₁・x_pへとミックスダウンされる。加えて、符号器は、入力オーディオオブジェクトの特徴を記述するサイド情報を抽出する（サイド情報推定部（ＳＩＥ）モジュール）。ＭＰＥＧＳＡＯＣにとって、オーディオパワー同士の相互関係は、そのようなサイド情報の最も基本的な形態である。
・ダウンミックス信号（単数又は複数）とサイド情報とが伝送／記憶される。この目的で、ダウンミックスオーディオ信号（単数又は複数）は、例えば、ＭＰＥＧ−１／２レイヤＩＩ又はＩＩＩ（通称ｍｐ３）、ＭＰＥＧ−２／４先進オーディオコーディング（ＡＡＣ）などの公知の知覚的オーディオコーダを使用して、圧縮されてもよい。
・受信端において、概念的には、伝送されたサイド情報を使用して、（復号化された）ダウンミックス信号からオリジナル・オブジェクト信号を回復しようと試みる（「オブジェクト分離」）。これら近似されたオブジェクト信号

は次に、図１内では係数ｒ_1,1…ｒ_N,Mによって示されるレンダリング行列を使用して、Ｍ個のオーディオ出力チャネル

により表現される目標シーンへとミキシングされる。所望の目標シーンは、極端な場合、混合信号からのただ１つのソース信号のレンダリング（ソース分離シナリオ）にもなり得るが、しかしまた、伝送された複数のオブジェクトを含む他の任意の音響シーンにもなり得る。

時間−周波数に基づくシステムは、静的な時間及び周波数分解能を有する１つの時間−周波数（t/f）変換を使用してもよい。ある所定の固定的なt/f分解能格子を選択することは、典型的には時間分解能と周波数分解能との間の妥協を含む。

オーディオ混合信号内における典型的なオブジェクト信号の実例について、固定のt/f分解能の効果を証明することができる。例えば、調性音(tonal sound)のスペクトルは、１つの基本的周波数及び複数のオーバートーンとハーモニクス的に関連した構造を示す。そのような信号のエネルギーは、ある周波数領域に集中している。そのような信号にとって、使用されたt/f表現の高い周波数分解能は、混合信号から狭帯域の調性スペクトル領域を分離するために有利である。他方、ドラム音のような過渡信号は、明瞭な時間的構造を有することが多い。即ち、相当なエネルギーが時間的に短い期間にだけ存在し、周波数の広い領域にわたって拡散している。これらの信号にとって、使用されたt/f表現の高い時間分解能は、混合信号から過渡信号部分を分離するために有利である。

[MPS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part 1: MPEG Surround, 2007. [BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003 [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006 [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2. [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007 [SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", l24th AES Convention, Amsterdam 2008 [ISS1] M. Parvaix and L. Girin: "lnformed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010 [ISS2] M. Parvaix, L. Girin, J.-M. Brassier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010 [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011 [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011 [ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011 [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011

符号器側又は復号器側においてそれぞれオブジェクト特有(object-specific)サイド情報を生成及び／又は評価するときに、時間−周波数ドメインにおけるそれらの表現に関するオーディオオブジェクトの異なるタイプの異なる必要項目を考慮に入れることは、望ましいであろう。

この望ましい点及び／又は更なる望ましい点は、独立請求項に定義されたような、マルチオブジェクト・オーディオ信号を復号化するオーディオ復号器、複数のオーディオオブジェクト信号を１つのダウンミックス信号及びサイド情報へと符号化するオーディオ符号器、マルチオブジェクト・オーディオ信号を復号化する方法、複数のオーディオオブジェクト信号を符号化する方法、又は対応するコンピュータプログラムによって実現され得る。

少なくとも幾つかの実施形態によれば、マルチオブジェクト信号を復号化するオーディオ復号器が提供される。マルチオブジェクト・オーディオ信号は、１つのダウンミックス信号とサイド情報とを含む。このサイド情報は、少なくとも１つの時間／周波数領域における少なくとも１つのオーディオオブジェクトについてのオブジェクト特有サイド情報を含む。このサイド情報は、少なくとも１つの時間／周波数領域における少なくとも１つのオーディオオブジェクトについてのオブジェクト特有サイド情報のオブジェクト特有時間／周波数分解能を示す、オブジェクト特有時間／周波数分解能情報を更に含む。オーディオ復号器は、少なくとも１つのオーディオオブジェクトのためのサイド情報からオブジェクト特有時間／周波数分解能情報を決定する、オブジェクト特有時間／周波数分解能決定部を含む。オーディオ復号器は、オブジェクト特有時間／周波数分解能に従うオブジェクト特有サイド情報を使用して、ダウンミックス信号から少なくとも１つのオーディオオブジェクトを分離する、オブジェクト分離部を更に含む。

更なる実施形態は、複数のオーディオオブジェクトを１つのダウンミックス信号及びサイド情報へと符号化するオーディオ符号器を提供する。そのオーディオ符号器は、複数のオーディオオブジェクトを少なくとも第１の時間／周波数分解能を使用して第１の複数の対応する変換形態(transformations)へと変換し、かつ、第２の時間／周波数分解能を使用して第２の複数の対応する変換形態へと変換するよう構成された、時間から周波数への変換器を含む。オーディオ符号器は、少なくとも第１の複数の対応する変換形態のための第１のサイド情報と、第２の複数の対応する変換形態のための第２のサイド情報と、を決定するよう構成されたサイド情報決定部を更に含む。第１及び第２のサイド情報は、ある時間／周波数領域における複数のオーディオオブジェクトの相互関係を第１及び第２の時間／周波数分解能においてそれぞれ示している。オーディオ符号器は、複数のオーディオオブジェクトの少なくとも１つのオーディオオブジェクトのために、少なくとも第１及び第２のサイド情報からある適性基準に基づいて１つのオブジェクト特有サイド情報を選択するよう構成された、サイド情報選択部をさらに含む。この適性基準は、オーディオオブジェクトを時間／周波数ドメインで表現するための少なくとも第１又は第２の時間／周波数分解能のある適性を示している。選択されたオブジェクト特有サイド情報は、オーディオ符号器によって出力されるサイド情報の中に導入される。

本発明の更なる実施形態は、１つのダウンミックス信号及びサイド情報を含むマルチオブジェクト・オーディオ信号を復号化する方法を提供する。そのサイド情報は、少なくとも１つの時間／周波数領域における少なくとも１つのオーディオオブジェクトについてのオブジェクト特有サイド情報と、少なくとも１つの時間／周波数領域における少なくとも１つのオーディオオブジェクトについてのオブジェクト特有サイド情報のオブジェクト特有時間／周波数分解能を示す、オブジェクト特有時間／周波数分解能情報とを含む。この方法は、少なくとも１つのオーディオオブジェクトについてのサイド情報からオブジェクト特有時間／周波数分解能情報を決定するステップを含む。この方法は、オブジェクト特有時間／周波数分解能に従うオブジェクト特有サイド情報を使用して、ダウンミックス信号から少なくとも１つのオーディオオブジェクトを分離するステップをさらに含む。

本発明の更なる実施形態は、複数のオーディオオブジェクトを１つのダウンミックス信号及びサイド情報へと符号化する方法を提供する。この方法は、複数のオーディオオブジェクトを少なくとも、第１の時間／周波数分解能を使用して第１の複数の対応する変換形態へと変換し、かつ第２の時間／周波数分解能を使用して第２の複数の対応する変換形態へと変換するステップを含む。この方法は、少なくとも第１の複数の対応する変換形態のための第１のサイド情報と、第２の複数の対応する変換形態のための第２のサイド情報とを決定するステップを更に含む。第１及び第２のサイド情報は、ある時間／周波数領域における複数のオーディオオブジェクトの相互関係を第１及び第２の時間／周波数分解能においてそれぞれ示している。この方法は、複数のオーディオオブジェクトの少なくとも１つのオーディオオブジェクトのために、少なくとも第１及び第２のサイド情報からある適性基準に基づいて１つのオブジェクト特有サイド情報を選択するステップをさらに含む。この適性基準は、オーディオオブジェクトを時間／周波数ドメインで表現するための少なくとも第１又は第２の時間／周波数分解能のある適性を示している。オブジェクト特有サイド情報は、オーディオ符号器によって出力されるサイド情報の中に導入される。

使用されるt/f表現が、混合信号から分離されるべきオーディオオブジェクトの時間的及び／又はスペクトル的特徴と合致しない場合に、オーディオオブジェクト分離の性能は、典型的に低減してしまう。不十分な性能は、分離されたオブジェクト間のクロストークに繋がるおそれもある。そのようなクロストークは、プリエコー又はポストエコー、音色の変更、又は人間の声音の場合には、所謂ダブルトークとして知覚される。本発明の実施形態は、複数の代替的なt/f表現を提供し、その中から符号器側においてサイド情報を決定する際に、又は復号器側においてサイド情報を使用する際に、所与のオーディオオブジェクト及び所与の時間／周波数領域のために最適なt/f表現が選択され得る。その結果、現状技術と比較して、オーディオオブジェクトの分離のための改善された分離性能と、レンダリングされた出力信号の改善された主観的品質とがもたらされる。

空間オーディオオブジェクトを符号化／復号化する他のスキームと比較して、サイド情報の量は、ほぼ同じか又は僅かに多くなる可能性がある。本発明の実施形態によれば、サイド情報は効率的な方法で使用される。なぜなら、サイド情報は、所与のオーディオオブジェクトの時間的及びスペクトル的構造についてのオブジェクト特有の特徴を考慮に入れるオブジェクト特有の方法で適用されるからである。換言すれば、サイド情報のt/f表現が様々なオーディオオブジェクトに対して個別誂えされる。

本発明に従う実施形態について、添付の図面を参照しながら、以下において説明する。

あるＳＡＯＣシステムの概念的な全体図の概略的ブロック図を示す。単一チャネル・オーディオ信号の時間／周波数表現の概略図である。ＳＡＯＣ符号器内のサイド情報の時間／周波数選択的計算の概略ブロック図を示す。幾つかの実施形態にかかる、強化されたサイド情報推定部の原理を概略的に示す。種々のt/f表現によって表現される１つのt/f領域Ｒ(t_R,f_R)を概略的に示す。一実施形態にかかる、サイド情報計算及び選択モジュールの概略的ブロック図である。強化された（仮想の）オブジェクト分離（ＥＯＳ）モジュールを含むＳＡＯＣ復号化を概略的に示す。強化されたオブジェクト分離モジュール（ＥＯＳモジュール）の概略的ブロック図を示す。一実施形態にかかる、オーディオ復号器の概略的ブロック図である。Ｈ個の代替的なt/f表現を復号化し、次にオブジェクト特有のt/f表現を選択するような、比較的簡素な一実施形態にかかるオーディオ復号器の概略的ブロック図である。種々のt/f表現において表現される１つのt/f領域Ｒ(t_R,f_R)と、t/f領域内で推定される共分散行列Ｅの決定に対する結果的な影響を概略的に示す。ズームされた時間／周波数表現においてオーディオオブジェクト分離を実行するためのズーム変換を使用する、オーディオオブジェクト分離の概念を概略的に示す。関連するサイド情報を有するダウンミックス信号を復号化する方法の概略的なフローチャートを示す。複数のオーディオオブジェクトをダウンミックス信号及び関連するサイド情報へと符号化する方法の概略的なフローチャートを示す。

図１は、あるＳＡＯＣ符号器１０及びＳＡＯＣ復号器１２の全体的な構成を示す。ＳＡＯＣ符号器１０はＮ個の入力オブジェクト、即ちオーディオ信号s₁〜s_Nを受信する。具体的には、符号化１０は、オーディオ信号s₁〜s_Nを受信してそれらをダウンミックス信号１８へとダウンミックスするダウンミキサ１６を含む。代替的に、そのダウンミックスは外部的に提供されてもよく（「アーティスティック・ダウンミックス」）、そのシステムは、その提供されたダウンミックスが計算されたダウンミックスと一致するように、追加的サイド情報を推定してもよい。図１において、ダウンミックス信号はＰ−チャネルの信号として示されている。従って、モノラル（Ｐ＝１）、ステレオ（Ｐ＝２）又はマルチチャネル（Ｐ＞＝２）の如何なるダウンミックス信号構成も考慮対象となる。

ステレオダウンミックスの場合、ダウンミックス信号１８のチャネルはＬ０及びＲ０と記載され、モノラルダウンミックスの場合、ダウンミックスは単にＬ０と記載される。ＳＡＯＣ復号器１２が個別のオブジェクトs₁〜s_Nを復元できるようにするため、サイド情報推定部１７は、ＳＡＯＣ復号器１２に対してＳＡＯＣパラメータを含むサイド情報を提供する。例えば、ステレオダウンミックスの場合、ＳＡＯＣパラメータは、オブジェクトレベル差（ＯＬＤ）、オブジェクト間クロス相関パラメータ（ＩＯＣ）、ダウンミックスゲイン値（ＤＭＧ）、及びダウンミックスチャネル・レベル差（ＤＣＬＤ）を含む。ＳＡＯＣパラメータを含むサイド情報２０は、ダウンミックス信号１８と共に、ＳＡＯＣ復号器１２によって受信されるべきＳＡＯＣ出力データストリームを形成する。

ＳＡＯＣ復号器１２はアップミキサを含み、そのアップミキサはダウンミックス信号１８及びサイド情報２０を受信して、任意のユーザー選択されたチャネルのセット

に対してオーディオ信号s₁〜s_Nを復元しかつレンダリングするが、このときレンダリングはＳＡＯＣ復号器１２に入力されるレンダリング情報２６によって規定されている。

オーディオ信号s₁〜s_Nは、符号器１０に対し、例えば時間ドメイン又はスペクトルドメインなど、如何なる符号化ドメインにおいて入力されてもよい。オーディオ信号s₁〜s_Nが符号器１０に対して時間ドメインで、例えばＰＣＭ符号化された状態で入力される場合、符号器１０は、例えばハイブリッドＱＭＦバンクのようなフィルタバンクを使用してそれら信号をスペクトルドメインへと変換してもよく、そのスペクトルドメインにおいては、オーディオ信号は、異なるスペクトル部分に関連する複数のサブバンドの中に特定のフィルタバンク分解能で表現される。既にオーディオ信号s₁〜s_Nが符号器１０によって求められる表現で存在している場合には、符号器１０はスペクトル分解を実行する必要がない。

図２は、上述したスペクトルドメインにおけるオーディオ信号を示す。図から分かるように、オーディオ信号は複数のサブバンド信号として表現されている。各サブバンド信号３０₁〜３０_Kは、小さなボックス３２で示されたサブバンド値のシーケンスを含む。図から分かるように、連続的なフィルタバンク時間スロット３４の各々について、各サブバンド３０₁〜３０_Kが正に１つのサブバンド値３２を含むように、サブバンド信号３０₁〜３０_Kのサブバンド値３２は、時間的に互いに同期している。周波数軸３６によって示されるように、サブバンド信号３０₁〜３０_Kは異なる周波数領域と関連付けられており、時間軸３８によって示されるように、フィルタバンク時間スロット３４は時間的に連続して配置されている。

上述したように、サイド情報抽出部１７は、入力オーディオ信号s₁〜s_NからＳＡＯＣパラメータを計算する。現在構築されているＳＡＯＣ標準によれば、符号器１０はこの計算をある時間／周波数分解能で実行するが、その分解能は、フィルタバンク時間スロット３４及びサブバンド分解によって決定されたオリジナルの時間／周波数分解能と比較してある量だけ低減されてもよく、このある量はサイド情報２０の中で復号器側へと信号伝達されている。連続的なフィルタバンク時間スロット３４のグループは、ＳＡＯＣフレーム４１を形成してもよい。また、ＳＡＯＣフレーム４１内のパラメータ帯域の数は、サイド情報２０の中で伝達される。その結果、時間／周波数ドメインは、図２で破線４２により例示するような時間／周波数タイルへと分割される。図２において、パラメータ帯域は同様に、時間／周波数タイルの規則的な配列が得られるように、様々に示されたＳＡＯＣフレーム４１内に分散される。しかし、一般的に、パラメータ帯域は、それぞれのＳＡＯＣフレーム４１内のスペクトル分解能に係る異なる必要事項に依存して、１つのＳＡＯＣフレーム４１から後続のフレームへと変化し得る。さらに、ＳＡＯＣフレーム４１の長さもまた変化し得る。結果的に、時間／周波数タイルの配列は、不規則ともなり得る。しかしながら、特定のＳＡＯＣフレーム４１内の時間／周波数タイルは、典型的には同一の持続時間を有し、時間方向においては整列されている。即ち、ＳＡＯＣフレーム４１内の全てのt/fタイルは、所与のＳＡＯＣフレーム４１の開始時において開始し、ＳＡＯＣフレーム４１の終了時において終了する。

サイド情報抽出部１７は、以下の数式に従ってＳＡＯＣパラメータを計算する。特に、サイド情報抽出部１７は、各オブジェクトｉについてのオブジェクトレベル差を次式で計算する。
［数１］

ここで、合計とインデックスｎ及びｋとはそれぞれ、ある時間／周波数タイル４２に帰属する全ての時間的インデックス３４と全てのスペクトルインデックス３０を表すものであり、ＳＡＯＣフレーム（又は処理しつつある時間スロット）についてのインデックスｌとパラメータ帯域についてのインデックスｍとによって参照される。これにより、１つのオーディオ信号又はオブジェクトｉの全てのサブバンド値ｘ_iのエネルギーが合計され、かつ全てのオブジェクト又はオーディオ信号の間のそのタイルの最高エネルギー値へと正規化される。

更に、ＳＡＯＣサイド情報抽出部１７は、異なる入力オブジェクトs₁〜s_Nのペアの対応する時間／周波数タイルの類似性尺度を計算することができる。ＳＡＯＣダウンミキサ１６が入力オブジェクトs₁〜s_Nの全てのペア間の類似性尺度を計算してもよいが、ダウンミキサ１６はまた、通常のステレオチャネルの左又は右のチャネルを形成するオーディオオブジェクトs₁〜s_Nに対して、その類似性尺度の信号伝達を抑制し又はその類似性尺度の計算を制限してもよい。いずれの場合でも、その類似性尺度はオブジェクト間クロス相関パラメータ

と称される。その計算は以下の通りである。
［数２］

ここでも、インデックスｎ及びｋは、ある時間／周波数タイル４２に帰属する全てのサブバンド値を代表するものであり、ｉとｊとはオーディオオブジェクトs₁〜s_Nのあるペアを示している。

オブジェクトs₁〜s_Nの各々に適用されるゲインファクタを使用して、ダウンミキサ１６がオブジェクトs₁〜s_Nをダウンミックスする。つまり、ゲインファクタＤ_iがオブジェクトｉに適用され、次に、そのように重み付けられたオブジェクトs₁〜s_Nの全てが合計されて、モノラルダウンミックス信号が得られる。これは図１内ではＰ＝１の場合として例示されている。２チャネルダウンミックス信号の場合の他の実例として、図１内のＰ＝２の場合となるが、ゲインファクタＤ_1,iがオブジェクトｉに対して適用され、次に、そのようにゲイン増幅されたオブジェクトの全てが合計されて、左ダウンミックスチャネルＬ０が得られ、また、ゲインファクタＤ_2,iがオブジェクトｉに対して適用され、次に、そのようにゲイン増幅されたオブジェクトが合計されて、右ダウンミックスチャネルＲ０が得られる。マルチチャネル・ダウンミックス（Ｐ＞＝２）の場合にも、これと同様の処理が適用されることになる。

このダウンミックス規定は、ダウンミックスゲインＤＭＧ_iによって、またステレオダウンミックス信号の場合には、ダウンミックスレベル差ＤＣＬＤ_iによって、復号器側に信号伝達される。

ダウンミックスゲインは以下のように計算される。
［数３］

ここで、εは１０^-9のような小さな数である。

ＤＣＬＤ_sについては、以下の数式が適用される。
［数４］

標準的モードにおいて、ダウンミキサ１６は、モノラルダウンミックスに関しては次式
［数５］

により、ステレオダウンミックスに関しては次式
［数６］

により、それぞれダウンミックス信号を生成する。

このように、上述の数式において、パラメータＯＬＤ及びＩＯＣはオーディオ信号の関数であり、パラメータＤＭＧ及びＤＣＬＤはＤの関数である。ここで、Ｄは時間的に可変であり得ることにも注意されたい。

このように、標準的モードにおいて、ダウンミキサ１６は、全てのオブジェクトs₁〜s_Nを優先順位なしで、即ち全てのオブジェクトs₁〜s_Nを平等に、ミキシングする。

復号器側において、アップミキサは、ダウンミックス処理の逆と、行列Ｒ（文字的には時にはＡとも称される）により表現される「レンダリング情報」２６の実行とを、１つの計算ステップにおいて実行する。即ち、２チャネルダウンミックスの場合には、次式
［数７］

を実行するが、ここで、行列ＥはパラメータＯＬＤ及びＩＯＣの関数である。行列Ｅはオーディオオブジェクトs₁〜s_Nの推定された共分散行列である。現状のＳＡＯＣの構成において、推定された共分散行列Ｅの計算は、典型的にはＳＡＯＣパラメータの時間／周波数分解能において、即ち、各（ｌ，ｍ）について実行される。そのため、推定された共分散行列はＥ^l,mと記述され得る。推定された共分散行列はＥ^l,mは、サイズＮ×Ｎの大きさであり、その係数は次式で定義される。
［数８］

このように、次式のような行列Ｅ^l,mは、
［数９］

その対角線に沿って、オブジェクトレベル差を有する。即ちｉ＝ｊのとき

となる。なぜなら、ｉ＝ｊのとき

となるからである。その対角線の外側には、推定された共分散行列Ｅは、オブジェクト間クロス相関尺度

を用いて重み付けられたオブジェクトｉ及びｊのそれぞれのオブジェクトレベル差の幾何平均をそれぞれ表現する行列係数を有する。

図３は、ＳＡＯＣ符号器１０の一部としてのサイド情報推定部（ＳＩＥ）の実例について、１つの可能な構成の原理を示す。ＳＡＯＣ符号器１０は、ミキサ１６とサイド情報推定部ＳＩＥとを含む。ＳＩＥは、概念的には２つのモジュールから構成される。つまり、各信号の短時間ベースのt/f表現（例えばＳＴＦＴ又はＱＭＦ）を計算するための１つのモジュールがあり、その計算された短時間t/f表現は、第２のモジュール、即ちt/f選択的サイド情報推定モジュール（t/f−ＳＩＥ）へと入力される。t/f−ＳＩＥは、各t/fタイルについてサイド情報を計算する。現状のＳＡＯＣ構成においては、時間／周波数変換は固定的であり、全てのオーディオオブジェクトs₁〜s_Nについて同一である。さらに、ＳＡＯＣパラメータは、全てのオーディオオブジェクトについて同一でありかつ全てのオーディオオブジェクトs₁〜s_Nについて同一の時間／周波数分解能を有する、ＳＡＯＣフレームにわたって決定されている。従って、ある場合には細密な時間分解能であり、他の場合には細密なスペクトル分解能であるオブジェクト特有の必要項目を無視している。

現状のＳＡＯＣ概念の幾つかの制限を以下に説明する。サイド情報に関連するデータの量を比較的小さくするために、異なるオーディオオブジェクトのためのサイド情報が、それらオーディオオブジェクトに対応している入力信号の複数の時間スロット及び複数の（ハイブリッド）サブバンドにわたって伸びる時間／周波数領域について、好ましくは粗い方法で決定される。上述したように、使用されるt/f表現が、混合信号（ダウンミックス信号）から分離されるべきオブジェクト信号の時間的又はスペクトル的特徴に対し、各処理ブロック（即ちt/f領域又はt/fタイル）において適応されていない場合には、復号器側で観測される分離性能が最適になり得ないことがある。オーディオオブジェクトの調性部分とオーディオオブジェクトの過渡部分とについてのサイド情報が、現時点のオブジェクト特性に関係なく、同じ時間／周波数タイリングに対して決定されかつ適用される。その結果、典型的には、主に調性のオーディオオブジェクト部分についてのサイド情報が幾分粗すぎるスペクトル分解能で決定されることになり、また、主に過渡オーディオオブジェクト部分についてのサイド情報が幾分粗すぎる時間分解能で決定されることになる。同様に、復号器内でこのような非適応型のサイド情報を適用することは、最適とは言えないオブジェクト分離の結果であって、例えばスペクトル的粗さ及び／又は可聴のプリエコーやポストエコーの形態を有するようなオブジェクトクロストークによる、障害を受けた結果をもたらす。

復号器側における分離性能を向上させる目的で、復号器又は復号器に対応する方法が、復号器入力信号（サイド情報及びダウンミックス）を処理するために使用されるt/f表現を、分離されるべき所望の目標信号の特徴に従って個別に適応させ得るようにすることは、望ましいことである。各目標信号（オブジェクト）のために、例えば使用可能な表現の所与のセットから、処理及び分離に関して最適なt/f表現が個別に選択される。そのため復号器は、所与のタイムスパン及び所与のスペクトル領域において、各個別のオブジェクトのために使用されるべきt/f表現を信号伝達する、サイド情報によって駆動されることになる。この情報は符号器において計算され、ＳＡＯＣ内で既に伝送されているサイド情報に追加して伝達される。

本発明は、オブジェクト信号の各々について最適な個別のt/f表現を示す情報によって補強されたサイド情報を計算する、符号器における強化されたサイド情報推定部(Enhanced Side Information Estimator)（Ｅ−ＳＩＥ）に関するものである。

本発明は更に、受信端における（仮想の）強化されたオブジェクト分離部（Ｅ−ＯＳ）に関する。そのＥ−ＯＳは、次に各オブジェクトの推定のために使用される実際のt/f表現を信号伝達する、追加的な情報を使用する。

Ｅ−ＳＩＥは、２つのモジュールを含み得る。１つのモジュールは、各オブジェクト信号についてＨ個までのt/f表現を計算し、それら表現は時間及びスペクトル分解能において異なり、且つ次の要件を満たす。即ち、これら領域内の信号コンテンツが、Ｈ個のt/f表現の何れによっても記述され得るように、時間／周波数−領域Ｒ(t_R,f_R)が定義され得る。図５は、Ｈ個のt/f表現の実例についての概念を示し、また、２つの異なるt/f表現によって表現される１つのt/f領域Ｒ(t_R,f_R)を示す。t/f領域Ｒ(t_R,f_R)内の信号コンテンツは、高いスペクトル分解能と低い時間分解能（t/f表現＃１）を用いるか、高い時間分解能と低いスペクトル分解能（t/f表現＃２）を用いるか、又は、時間分解能とスペクトル分解能の他の何れかの組合せ（t/f表現＃Ｈ）を用いるかして表現されることができる。可能なt/f表現の個数は制限されていない。

このように、複数のオーディオオブジェクト信号s_iをダウンミックスＸ及びサイド情報ＰＳＩへと符号化するオーディオ符号器が提供される。オーディオ符号器は、図４に概略的に示す強化されたサイド情報推定部Ｅ−ＳＩＥを含む。強化されたサイド情報推定部Ｅ−ＳＩＥは複数のオーディオオブジェクト信号s_iを、少なくとも第１の時間／周波数分解能ＴＦＲ₁（第１の時間／周波数離散化）を使用して第１の複数の対応する変換済み信号s_1,1(t/f)…s_N,1(t/f)へと変換し、かつ少なくとも第２の時間／周波数分解能ＴＦＲ₂（第２の時間／周波数離散化）を使用して第２の複数の対応する変換済み信号s_1,2(t/f)…s_N,2(t/f)へと変換するよう構成された、時間／周波数変換器５２を含む。幾つかの実施形態において、時間／周波数変換器５２は３つ以上の時間／周波数分解能ＴＦＲ₁〜ＴＦＲ_Hを使用するよう構成されてもよい。強化されたサイド情報推定部（Ｅ−ＳＩＥ）は、サイド情報計算及び選択モジュール（ＳＩ−ＣＳ）５４を更に含む。そのサイド情報計算及び選択モジュール（図６参照）は、１つのサイド情報決定部（t/f−ＳＩＥ）又は複数のサイド情報決定部５５−１…５５−Ｈであって、第１の複数の対応する変換形態s_1,1…s_N,1(t/f)のための第１のサイド情報と、第２の複数の対応する変換形態s_1,2…s_N,2(t/f)のための第２のサイド情報と、を少なくとも決定するよう構成されたサイド情報決定部を更に含み、第１及び第２のサイド情報は、ある時間／周波数領域Ｒ(t_R,f_R)における複数のオーディオオブジェクト信号ｓ_iの相互関係を、第１及び第２の時間／周波数分解能ＴＦＲ₁，ＴＦＲ₂においてそれぞれ示している。複数のオーディオオブジェクト信号s_iの相互関係は、例えば異なる周波数帯域におけるオーディオ信号の相対的エネルギー及び／又はオーディオ信号間の相関度に関連してもよい。サイド情報計算及び選択モジュール５４は、各オーディオオブジェクト信号s_iについて、少なくとも第１及び第２のサイド情報からある適性基準に基づいて１つのオブジェクト特有サイド情報を選択するよう構成された、サイド情報選択部（ＳＩ−ＡＳ）５６をさらに含み、この適性基準は、オーディオオブジェクト信号s_iを時間／周波数ドメインで表現するための少なくとも第１又は第２の時間／周波数分解能のある適性を示している。次に、オブジェクト特有サイド情報は、オーディオ符号器によって出力されるサイド情報ＰＳＩの中に導入される。

t/f面のt/f領域Ｒ(t_R,f_R)内へのグルーピングは、図５に示すように必ずしも等距離間隔で行われる必要がない点に注意されたい。領域Ｒ(t_R,f_R)内へのグルーピングは、例えば知覚的に適応されるべく非均一であり得る。そのグルーピングはまた、ＳＡＯＣのような現存するオーディオオブジェクト・コーディングスキームと協調することができ、強化されたオブジェクト推定能力との後方互換性を持つコーディングスキームを可能にすることができる。

t/f分解能の適応は、異なるオブジェクトに対して異なるパラメータ・タイリングを特定することに限らない。ＳＡＯＣスキームが基礎とする変換（即ち、典型的には現状技術のシステムにおいてＳＡＯＣ処理のために使用される通常の時間／周波数分解能により提供される）はまた、個別の目標オブジェクトに対してより良好に適合するよう修正され得る。この点は、例えばＳＡＯＣスキームが基礎としている通常の変換によって提供されるものよりも高いスペクトル分解能が必要される場合、特に有益である。ＭＰＥＧＳＡＯＣの実例の場合、ｒａｗ分解能は（ハイブリッド）ＱＭＦバンクの（通常の）分解能に限られる。本発明の処理によれば、スペクトル分解能を増大させることができるが、しかしその代償として幾分かの時間分解能が処理の中で失われる。これは、第１フィルタバンクの出力に対して適用される所謂（スペクトル的）ズーム変換を使用して達成される。概念的には、幾つかの連続的なフィルタバンク出力サンプルが１つの時間ドメイン信号として扱われ、それに対して第２の変換が適用されて（ただ１つの時間スロットを有する）対応する個数のスペクトルサンプルが取得される。ズーム変換は、（ＭＰＥＧＳＡＯＣにおけるハイブリッド・フィルタステージと同様の）フィルタバンク、又はＤＦＴ若しくはComplex修正離散コサイン変換（ＣＭＤＣＴ）のようなブロックベースの変換に基づくことができる。同様に、スペクトル分解能を犠牲にして時間分解能を増大させることもできる（時間的ズーム変換）。即ち、（ハイブリッド）ＱＭＦバンクの複数のフィルタの幾つかの同時発生的出力が１つの周波数ドメイン信号としてサンプリングされ、それに対して第２の変換が適用されて、（複数のフィルタのスペクトル領域をカバーするただ１つの大きなスペクトル帯域を有する）対応する個数の時間的サンプルが取得される。

各オブジェクトについて、Ｈ個のt/f表現はミキシングパラメータと一緒に第２のモジュール、即ちサイド情報計算及び選択モジュールＳＩ−ＣＳ内へと入力される。ＳＩ−ＣＳモジュールは、オブジェクト信号の各々について、復号器においてオブジェクト信号を推定するために、Ｈ個のt/f表現のうちのどの表現がどのt/f領域Ｒ(t_R,f_R)に使用されるべきかを決定する。図６はＳＩ−ＣＳモジュールの原理を詳細に示す。

Ｈ個の異なるt/f表現の各々について、対応するサイド情報（ＳＩ）が計算される。例えば、ＳＡＯＣ内のt/f−ＳＩＥモジュールが利用され得る。計算されたＨ個のサイド情報データは、サイド情報査定及び選択モジュール（ＳＩ−ＡＳ）内へと入力される。各オブジェクト信号に関し、ＳＩ−ＡＳモジュールは、信号混合からオブジェクト信号を推定する際の各t/f領域についての最適なt/f表現を決定する。

通常のミキシングシーンパラメータの他に、ＳＩ−ＡＳは、各オブジェクト信号及び各t/f領域について個別に選択されたt/f表現について言及するサイド情報を出力する。対応するt/f表現を示す追加的パラメータもまた出力されてもよい。

各オブジェクト信号に対して最適なt/f表現を選択する２つの方法を以下に説明する。

１．ソース推定に基づくＳＩ−ＡＳ：各オブジェクト信号は、Ｈ個のt/f表現に基づいて計算されたサイド情報データを用いて混合信号から推定され、各オブジェクト信号についてＨ個のソース推定がもたらされる。各オブジェクトに対し、各t/f領域Ｒ(t_R,f_R)内の推定品質がＨ個のt/f表現の各々についてソース推定性能尺度を用いて査定される。そのような尺度の簡易な実例は、達成された信号対歪み比（ＳＤＲ）である。更に精緻な知覚的尺度もまた利用され得る。ＳＤＲは、オリジナル・オブジェクト信号又は混合信号が既知でなくても、ＳＡＯＣ内で定義されたパラメトリックサイド情報だけに基づいて効率的に実現可能である点に注意されたい。ＳＡＯＣベースのオブジェクト推定の場合におけるＳＤＲのパラメトリック推定の概念について、以下に説明する。各t/f領域Ｒ(t_R,f_R)に関し、最高のＳＤＲをもたらすt/f表現がサイド情報の推定及び伝送と復号器側におけるオブジェクト信号の推定のために選択される。

２．Ｈ個のt/f表現の分析に基づくＳＩ−ＡＳ：各オブジェクトのために別々にＨ個のオブジェクト信号表現の各々のスパースネスが決定される。換言すれば、異なる表現の各々の中のオブジェクト信号のエネルギーが少数の値にどれだけよく集中しているか、又は全ての値にわたって拡散しているかが査定される。オブジェクト信号を最も粗く表現するt/f表現が選択される。信号表現のスパースネスは、例えば信号表現の平坦度又はピークネスを特徴付ける尺度を用いて査定され得る。そのような尺度の実例として、スペクトル平坦度（ＳＦＭ）、クレストファクタ（ＣＦ）及びＬ０−ノルムが挙げられる。この実施形態によれば、適性基準は、所与のオーディオオブジェクトの少なくとも第１の時間／周波数表現と第２の時間／周波数表現（及び更なる時間／周波数表現もあり得る）のスパースネスに基づいてもよい。サイド情報選択部（ＳＩ−ＡＳ）は、オーディオオブジェクト信号s_iを最も粗く表現する時間／周波数表現に対応する少なくとも第１及び第２のサイド情報の中から前記サイド情報を選択するよう構成されている。

ＳＡＯＣベースのオブジェクト推定の場合のＳＤＲのパラメトリック推定について、以下に説明する。

記号の説明
ＳＮ個のオリジナル・オーディオオブジェクト信号の行列
ＸＭ個の混合信号の行列
Ｄ∈^{o M×N} ダウンミックス行列
Ｘ＝ＤＳダウンミックスシーンの計算
Ｓ_est Ｎ個の推定されたオーディオオブジェクト信号の行列

ＳＡＯＣの中で、オブジェクト信号は概念的には次式を用いて混合信号から概念的に推定される：
［数１０］

ＸをＤＳで置き換えると、次式が得られる。
［数１１］

推定されたオブジェクト信号内のオリジナル・オブジェクト信号部分のエネルギーは、次式のように演算され得る。
［数１２］

推定された信号内の歪み項目は、次式により演算され得る。
［数１３］

ここで、diag(Ｅ)はオリジナル・オブジェクト信号のエネルギーを含む対角行列を示している。次に、diag(Ｅ)をＥ_distに関連付けることで、ＳＤＲが計算され得る。あるt/f領域Ｒ(t_R,f_R)において目標ソースエネルギーに対して相対的なＳＤＲを推定するために、歪みエネルギーの計算が領域Ｒ(t_R,f_R)内の各処理済みt/fタイルに対して実行され、目標エネルギー及び歪みエネルギーがそのt/f領域Ｒ(t_R,f_R)内の全てのt/fタイルにわたって集積される。

従って、適性基準はソース推定に基づいてもよい。その場合、サイド情報選択部（ＳＩ−ＡＳ）５６は、ダウンミックス信号Ｘと、第１及び第２の時間／周波数分解能ＴＦＲ₁，ＴＦＲ₂にそれぞれ対応する少なくとも第１情報及び第２情報とを使用して、複数のオーディオオブジェクト信号s_iの少なくとも選択されたオーディオオブジェクト信号を推定するソース推定部を更に含んでもよい。そのようにして、ソース推定部は、少なくとも第１の推定されたオーディオオブジェクト信号s_i,estm1と第２の推定されたオーディオオブジェクト信号s_i,estm2と（可能性としてＨ個のオーディオオブジェクト信号s_i,estmHまで)を提供する。サイド情報選択部５６はまた、少なくとも第１の推定されたオーディオオブジェクト信号s_i,estm1と第２の推定されたオーディオオブジェクト信号s_i,estm2との品質を査定する、品質査定部を含む。更に、品質査定部は、少なくとも第１の推定されたオーディオオブジェクト信号s_i,estm1と第２の推定されたオーディオオブジェクト信号s_i,estm2との品質を、ソース推定性能尺度としての信号対歪み比ＳＤＲに基づいて査定してもよく、その信号対歪み比ＳＤＲは、サイド情報ＰＳＩ、特に推定された共分散行列Ｅ_estだけに基づいて決定されてもよい。

幾つかの実施形態に係るオーディオ符号器は、ダウンミックス信号Ｘを時間／周波数ドメインで複数の時間スロット及び複数の（ハイブリッド）サブバンドへとサンプリングされるある表現へと変換する、ダウンミックス信号処理部を更に含んでもよい。時間／周波数領域Ｒ(t_R,f_R)は、ダウンミックス信号Ｘの少なくとも２つのサンプルにわたって延びてもよい。少なくとも１つのオーディオオブジェクトについて特定されたオブジェクト特有時間／周波数分解能ＴＦＲ_hは、時間／周波数領域Ｒ(t_R,f_R)よりも微細であってもよい。上述したように、時間／周波数表現の不確実性原理との関係から、信号のスペクトル分解能は時間分解能を犠牲にして増大させることができ、その逆もまた可能である。オーディオ符号器からオーディオ復号器へと送信されたダウンミックス信号は、典型的には復号器内で固定的な所定の時間／周波数分解能を有する時間−周波数変換によって分析されるが、オーディオ復号器は更に、当該時間／周波数領域Ｒ(t_R,f_R)内の分析済みダウンミックス信号を、所与のオーディオオブジェクトs_iをダウンミックス信号から抽出するのにより適切な他の時間／周波数分解能へと、オブジェクト個別的に変換してもよい。復号器におけるダウンミックス信号のそのような変換は、この明細書の中ではズーム変換と称される。そのズーム変換は時間的ズーム変換であってもよく、又はスペクトル的ズーム変換であってもよい。

サイド情報の量の削減
原理的に、本発明のシステムの簡易な実例において、Ｈ個までのt/f表現についてのサイド情報が全てのオブジェクト及び全てのt/f領域Ｒ(t_R,f_R)について伝送される必要がある。なぜなら、復号器側における分離は、Ｈ個までのt/f表現からの選択によって実行されるからである。この多量のデータは、知覚的品質を有意に失うことなく劇的に低減させることができる。各オブジェクトのために、各t/f領域Ｒ(t_R,f_R)について以下の情報を伝送するだけで十分である。
・t/f領域Ｒ(t_R,f_R)内のオーディオオブジェクトの信号コンテンツをグローバル的に／粗く記述する１つのパラメータ、例えば領域Ｒ(t_R,f_R)内のオブジェクトの平均信号エネルギー
・オーディオオブジェクトの微細構造の記述。この記述は、混合信号からオーディオオブジェクトを最適に推定するために選択された個別のt/f表現から取得される。微細構造に関する情報は、粗い信号表現と微細構造との差をパラメータ化することによって、効率的に記述され得ることに留意されたい。
・オーディオオブジェクトを推定するために使用されるべきt/f表現を示す情報信号

復号器においては、混合信号から所望のオーディオオブジェクトを復号器で推定することが、各t/f領域Ｒ(t_R,f_R)について下記のように実行され得る。
・このオーディオオブジェクトのための追加的サイド情報によって示される個々のt/f表現が計算される。
・所望のオーディオオブジェクトを分離するために、対応する（微細構造の）オブジェクト信号情報が使用される。
・残りの全てのオーディオオブジェクト、即ち抑制されるべき干渉するオーディオオブジェクトについて、微細構造のオブジェクト信号情報は、もしその情報が選択されたt/f表現のために利用可能であれば、使用される。その他の場合には、粗い信号記述が使用される。他の選択肢は、特定の残りのオーディオオブジェクトについて、利用可能な微細構造のオブジェクト信号情報を使用すること、及び、例えばt/f領域Ｒ(t_R,f_R)のサブ領域内の利用可能な微細構造のオーディオオブジェクト信号情報を平均化することによって、選択されたt/f表現を近似することである。このような方法で、そのt/f分解能は選択されたt/f表現ほど微細ではないが、粗いt/f表現よりは微細となる。

強化されたオーディオオブジェクト推定を有するＳＡＯＣ復号器
図７は、強化された（仮想の）オブジェクト分離（Ｅ−ＯＳ）モジュールを含むＳＡＯＣ復号化を概略的に示し、（仮想の）強化されたオブジェクト分離部（Ｅ−ＯＳ）を含む改善されたＳＡＯＣ復号器のこの実例の原理を具象化して示す。ＳＡＯＣ復号器には、信号混合が強化されたパラメトリックサイド情報（Ｅ−ＰＳＩ）と一緒に入力される。Ｅ−ＰＳＩは、オーディオオブジェクトに係る情報と、ミキシングパラメータと、追加的情報とを含む。この追加的サイド情報によって、各オブジェクトs₁…s_Nに対し、また各t/f領域Ｒ(t_R,f_R)に対し、どのt/f表現が使用されるべきかが仮想のＥ−ＯＳへと信号伝達される。所与のt/f領域Ｒ(t_R,f_R)について、オブジェクト分離部は、サイド情報の中で各オブジェクトのために信号伝達された個々のt/f表現を使用して、オブジェクトの各々を推定する。

図８は、Ｅ−ＯＳモジュールの概念を詳細に示す。所与のt/f領域Ｒ(t_R,f_R)に関し、Ｐ個のダウンミックス信号について計算するための個々のt/f表現＃ｈがt/f表現信号伝達モジュール１１０によってマルチt/f変換モジュールへと信号伝達される。（仮想の）オブジェクト分離部１２０は、概念的には、追加的サイド情報によって指示されたt/f変換＃ｈに基づいてソースs_nを推定しようと試みる。（仮想の）オブジェクト分離部は、オブジェクトの微細構造についての情報が指示されたt/f変換＃ｈに関して伝送された場合にはそれを利用し、その他の場合には、ソース信号の伝送された粗い記述を使用する。各t/f領域Ｒ(t_R,f_R)に関して計算されるべき異なるt/f表現の可能な最大の個数は、Ｈであることに留意されたい。マルチ時間／周波数変換モジュールは、Ｐ個のダウンミックス信号（単数又は複数）の上述したズーム変換を実行するよう構成されてもよい。

図９は、ダウンミックス信号Ｘとサイド情報ＰＳＩを含むマルチオブジェクト・オーディオ信号を復号化するオーディオ復号器の概略的なブロック図を示す。サイド情報ＰＳＩは、少なくとも１つの時間／周波数領域Ｒ(t_R,f_R)における少なくとも１つのオーディオオブジェクトs_iについてのオブジェクト特有サイド情報ＰＳＩ_iを含み、ｉ＝１…Ｎである。サイド情報ＰＳＩはまた、オブジェクト特有時間／周波数分解能情報ＴＦＲＩ_iを含み、ｉ＝１…ＮＴＦである。変数ＮＴＦは、オブジェクト特有時間／周波数分解能情報が提供されるオーディオオブジェクトの個数を示し、ＮＴＦ≦Ｎである。オブジェクト特有時間／周波数分解能情報ＴＦＲＩ_iはまた、オブジェクト特有時間／周波数表現情報と称されてもよい。特に、「時間／周波数分解能」という用語は、時間／周波数ドメインの均一な離散を必ずしも意味するものではなく、１つの時間／周波数タイル内又は全帯域スペクトルの全てのt/fタイルにわたる不均一な離散を意味してもよい点を理解すべきである。典型的かつ好適には、時間／周波数分解能は、所与のt/fタイルの両方の次元の１つは微細な分解能を有し、他の次元は低い分解能を有するように選択される。例えば、過渡信号については、時間次元が微細な分解能を有し、スペクトル分解能が粗くなる一方で、静的な信号については、スペクトル分解能が微細で、時間次元が粗い分解能を持つように選択される。時間／周波数分解能情報ＴＦＲＩ_iは、少なくとも１つの時間／周波数領域Ｒ(t_R,f_R)における、少なくとも１つのオーディオオブジェクトs_iについての、オブジェクト特有サイド情報ＰＳＩ_iの１つのオブジェクト特有時間／周波数分解能ＴＦＲ_h（ｈ＝１…Ｈ）を示している。オーディオ復号器は、少なくとも１つのオーディオオブジェクトs_iについて、サイド情報ＰＳＩからオブジェクト特有時間／周波数分解能情報ＴＦＲＩ_iを決定するよう構成された、オブジェクト特有時間／周波数分解能決定部１１０を含む。オーディオ復号器は、オブジェクト特有時間／周波数分解能ＴＦＲ_iに従ってオブジェクト特有サイド情報ＰＳＩ_iを使用して、ダウンミックス信号Ｘから少なくとも１つのオーディオオブジェクトs_iを分離するよう構成された、オブジェクト分離部１２０を更に含む。これは、オブジェクト特有サイド情報ＰＳＩ_iがオブジェクト特有時間／周波数分解能情報ＴＦＲＩ_iによって特定されたオブジェクト特有時間／周波数分解能ＴＦＲ_iを有することを意味しており、更に、オブジェクト分離部１２０によりオブジェクト分離を実行するときに、このオブジェクト特有時間／周波数分解能が考慮されることを意味している。

オブジェクト特有サイド情報（ＰＳＩ_i）は、少なくとも１つの時間／周波数領域Ｒ(t_R,f_R)における、少なくとも１つのオーディオオブジェクトs_iについての微細構造のオブジェクト特有サイド情報

を含んでもよい。微細構造のオブジェクト特有サイド情報

は、時間／周波数領域Ｒ(t_R,f_R)の中で、レベル（例えばオーディオオブジェクトの信号エネルギー、信号パワー、振幅など）がどのように変化するかを記述している微細構造のレベル情報であってもよい。微細構造のオブジェクト特有サイド情報

は、オーディオオブジェクトｉとｊそれぞれのオブジェクト間相関情報であってもよい。ここで、微細構造のオブジェクト特有サイド情報

は、オブジェクト特有時間／周波数分解能ＴＦＲ_iに応じて、微細構造の時間スロットηと微細構造の（ハイブリッド）サブバンドκを用いて、ある時間／周波数グリッド上で定義される。この点については以下に図１２の文脈の中で説明する。ここでは、少なくとも３つの基本的な場合が識別され得る。
（ａ）オブジェクト特有時間／周波数分解能ＴＦＲ_iは、ＱＭＦ時間スロット及び（ハイブリッド）サブバンドの粒度に対応する。この場合、η＝ｎであり、κ＝ｋである。
（ｂ）オブジェクト特有時間／周波数分解能情報ＴＦＲＩ_iは、スペクトルズーム変換が時間／周波数領域Ｒ(t_R,f_R)又はその一部分の中で実行されるべきであると示している。この場合、各（ハイブリッド）サブバンドｋは、２つ以上の微細構造の（ハイブリッド）サブバンドκ_k,κ_k+1,…へとサブ分割され、そのためスペクトル分解能が増大する。換言すれば、微細構造の（ハイブリッド）サブバンドκ_k,κ_k+1,…は、オリジナル（ハイブリッド）サブバンドの小数部(fractions)である。その代わり、時間分解能は時間／周波数不確実性のために低下する。そのため、微細構造の時間スロットηは、２つ以上の時間スロットｎ，ｎ＋１，…を含む。
（ｃ）オブジェクト特有時間／周波数分解能情報ＴＦＲＩ_iは、時間的ズーム変換が時間／周波数領域Ｒ(t_R,f_R)又はその一部分の中で実行されるべきであると示している。この場合、各時間スロットｎは、２つ以上の更に微細構造の時間スロットη_n,η_n+1…へとサブ分割されて、その時間分解能が増大する。換言すれば、微細構造の時間スロットη_n,η_n+1…は時間スロットｎの小数部である。その代わり、スペクトル分解能は時間／周波数不確実性のために低下する。そのため、微細構造の（ハイブリッド）サブバンドκは２つ以上の（ハイブリッド）サブバンドｋ，ｋ＋１，…を含む。

サイド情報は、考慮対象の時間／周波数領域Ｒ(t_R,f_R)内の少なくとも１つのオーディオオブジェクトs_iについて、粗いオブジェクト特有サイド情報ＯＬＤ_i，ＩＯＣ_ij及び／又は絶対エネルギーレベルＮＲＧ_iを更に含んでもよい。その粗いオブジェクト特有サイド情報ＯＬＤ_i，ＩＯＣ_ij及び／又はＮＲＧ_iは、少なくとも１つの時間／周波数領域Ｒ(t_R,f_R)内において一定である。

図１０は、１つの時間／周波数タイルＲ(t_R,f_R)内におけるＨ個の全てのt/f表現内のＮ個の全てのオーディオオブジェクトについてのサイド情報を受信しかつ処理するよう構成された、オーディオ復号器の概略的ブロック図を示す。オーディオオブジェクトの個数Ｎとt/f表現の個数Ｈとに依存して、t/f領域Ｒ(t_R,f_R)当りの伝送され又は記憶されるべきサイド情報の量は非常に大きくなる可能性がある。そのため、図１０に示す概念は、少数のオーディオオブジェクトと異なるt/f表現とを有するシナリオのために使用されると想定される。とは言え、図１０に示す実例は、異なるオーディオオブジェクトについて異なるオブジェクト特有t/f表現を使用する原理の幾つかに係る示唆を提供している。

要約すると、図１０に示す実施形態に従えば、関係するＨ個の全てのt/f表現について、パラメータ（特にＯＬＤ及びＩＯＣ）の全セットが決定され且つ伝送／記憶される。加えて、サイド情報は、各オーディオオブジェクトについて、どの特定のt/f表現の中でこのオーディオオブジェクトが抽出／合成されるべきかを指示する。オーディオ復号器の中では、全てのt/f表現ｈ内におけるオブジェクト再構築

が実行される。次に、オーディオオブジェクト及び関係するタイルに関してサイド情報内で信号伝達された特有t/f表現（単数又は複数）を使用して生成されていた、それらオブジェクト特有のタイル又はt/f表現から、時間及び周波数にわたって最終的なオーディオオブジェクトが組み立てられる。

ダウンミックス信号Ｘは、複数のオブジェクト分離部１２０₁〜１２０_Hに対して供給される。オブジェクト分離部１２０₁〜１２０_Hの各々は、１つの特有t/f表現のための分離作業を実行するよう構成されている。この目的で、各オブジェクト分離部１２０₁〜１２０_Hは、そのオブジェクト分離部が関連する特有t/f表現におけるＮ個の異なるオーディオオブジェクトs₁〜s_Nのサイド情報を更に受信する。図１０は、図示する目的だけのために複数のＨ個のオブジェクト分離部を示していることに注意されたい。代替的な実例において、t/f領域Ｒ(t_R,f_R)当りのＨ個の分離作業は、より少数のオブジェクト分離部により又は単一のオブジェクト分離部によっても実行され得る。更なる可能な実施形態によれば、その分離作業は、多目的プロセッサ又はマルチコアプロセッサ上で異なる手順として実行されてもよい。その分離作業の幾つかは、対応するt/f表現がどれだけ細密かに依存して、他よりも演算的に集中的となる。各t/f領域Ｒ(t_R,f_R)について、サイド情報のＮ×Ｈ個のセットがオーディオ復号器に対して提供される。

オブジェクト分離部１２０₁〜１２０_Hは、Ｎ×Ｈ個の推定された分離済みオーディオオブジェクト

を提供する。これらオブジェクトは、推定された分離済みオーディオオブジェクト

を通常のt/f表現にするために（既にそうでない場合）、任意選択的なt/f分解能変換器１３０へと入力されてもよい。典型的には、通常のt/f分解能又は表現とは、フィルタバンク又はオーディオ信号の全般的な処理が基礎とする変換の真のt/f分解能であってもよく、即ち、ＭＰＥＧＳＡＯＣの場合、通常の分解能はＱＭＦ時間スロット及び（ハイブリッド）サブバンドの粒度である。説明を目的として、推定されたオーディオオブジェクトは行列１４０内に一時的に記憶されると想定されてもよい。実際の構成においては、後に使用されないであろう推定された分離済みオーディオオブジェクトは、即座に廃棄されてもよく、又は最初から計算されなくてもよい。行列１４０の各行は、同じオーディオオブジェクトのＨ個の異なる推定、即ち、Ｈ個の異なるt/f表現に基づいて決定された推定された分離済みオーディオオブジェクトを含む。行列１４０の中央部分がグリッドを用いて概略的に示されている。各行列要素

は、推定された分離済みオーディオオブジェクトのオーディオ信号に対応する。換言すれば、各行列要素は、目標t/f領域Ｒ(t_R,f_R)内の複数の時間スロット／サブバンドのサンプル（例えば図１１の実施例においては、７個の時間スロット×３個のサブバンド＝２１個の時間スロット／サブバンドのサンプル）を含む。

オーディオ復号器は更に、異なるオーディオオブジェクト及び現時点のt/f領域Ｒ(t_R,f_R)に関するオブジェクト特有時間／周波数分解能情報ＴＦＲＩ₁〜ＴＦＲＩ_Nを受信するよう構成されている。各オーディオオブジェクトｉについて、オブジェクト特有時間／周波数分解能情報ＴＦＲＩ_iは、オリジナル・オーディオオブジェクトを近似的に復元するために、推定された分離済みオーディオオブジェクト

のうちのどれが使用されるべきかを示している。オブジェクト特有時間／周波数分解能情報は、典型的には符号器によって決定されており、サイド情報の一部として復号器へと供給されている。図１０において、行列１４０内の破線のボックスと×印とは、各オーディオオブジェクトについてどのt/f表現が選択されたのかを示している。その選択は、オブジェクト特有時間／周波数分解能情報ＴＦＲＩ₁…ＴＦＲＩ_Nを受信する選択部１１２によって行われる。

選択部１１２は、Ｎ個の選択されたオーディオオブジェクト信号を出力し、これら信号は更なる処理を受けてもよい。例えば、Ｎ個の選択されたオーディオオブジェクト信号はレンダラー１５０へと供給されてもよく、そのレンダラー１５０は、選択されたオーディオオブジェクト信号を利用可能なラウドスピーカ設定、例えばステレオ又は５．１ラウドスピーカ設定へとレンダリングするよう構成されている。この目的で、レンダラー１５０は、推定された分離済みオーディオオブジェクトのオーディオ信号が利用可能なラウドスピーカへとどのように分配されるべきかを記述する、プリセットレンダリング情報及び／又はユーザーレンダリング情報を受信してもよい。レンダラー１５０は任意選択的であり、選択部１１２の出力における推定された分離済みオーディオオブジェクト

は、直接的に使用されかつ処理されてもよい。他の実施形態では、レンダラー１５０は、「ソロモード」又は「カラオケモード」のような特殊な設定へとセットされてもよい。ソロモードにおいては、出力信号へとレンダリングされるべく単一の推定されたオーディオオブジェクトが選択される。カラオケモードにおいては、１つの推定されたオーディオオブジェクトを除く全てが出力信号へとレンダリングされるべく選択される。典型的には、リードボーカルのパートがレンダリングされず、伴奏のパートがレンダリングされる。両方のモードでは、小さなクロストークでさえ知覚可能であるため、高い分離性能が求められる。

図１１は、オーディオオブジェクトｉに関する微細構造のサイド情報

及び粗いサイド情報がどのように編成されるかを概略的に示す。図１１の上部分は、時間スロット（典型的には表記上、及び特にオーディオコーディング関連のＩＳＯ／ＩＥＣ標準において、インデックスｎにより示される）と、（ハイブリッド）サブバンド（典型的には表記上、インデックスｋにより示される）と、に応じてサンプリングされた時間／周波数ドメインの一部を示している。その時間／周波数ドメインはまた、異なる時間／周波数領域へと分割される（図１１内では太い破線によって図示されている）。典型的には、１つのt/f領域は、複数の時間スロット／サブバンドのサンプルを含む。１つのt/f領域Ｒ(t_R,f_R)は、他のt/f領域のための代表例としての役割を果たすであろう。例示した考慮対象のt/f領域Ｒ(t_R,f_R)は、７個の時間スロットｎ〜ｎ＋６と３個の（ハイブリッド）サブバンドｋ〜ｋ＋２にわたって延びており、従って２１個の時間スロット／サブバンドのサンプルを含む。次に、２つの異なるオーディオオブジェクトｉ及びｊを想定する。オーディオオブジェクトｉは、t/f領域Ｒ(t_R,f_R)内において実質的に調性の特徴を持っていてもよく、他方、オーディオオブジェクトｊは、t/f領域Ｒ(t_R,f_R)内において実質的に過渡の特徴を持っていてもよい。オーディオオブジェクトｉ及びｊのこれらの異なる特徴をより適切に表現するために、t/f領域Ｒ(t_R,f_R)は、オーディオオブジェクトｉについてはスペクトル方向に、オーディオオブジェクトｊについては時間方向に、サブ分割されてもよい。t/f領域は、t/f表現ドメインの中で必ずしも同一又は均一に分布している必要はないが、オーディオオブジェクトの必要項目に応じてサイズ、位置及び分布において適応され得るという点に注意されたい。換言すれば、ダウンミックス信号Ｘは、時間／周波数ドメインにおいて複数の時間スロット及び複数の（ハイブリッド）サブバンドへとサンプリングされる。t/f領域Ｒ(t_R,f_R)は、ダウンミックス信号Ｘの少なくとも２つのサンプルにわたって延びている。オブジェクト特有時間／周波数分解能ＴＦＲ_hは、時間／周波数領域Ｒ(t_R,f_R)よりも細密である。

オーディオ符号器側でオーディオオブジェクトｉについてのサイド情報を決定する際に、オーディオ符号器はそのオーディオオブジェクトｉをt/f領域Ｒ(t_R,f_R)内で分析し、粗いサイド情報と微細構造のサイド情報とを決定する。粗いサイド情報は、とりわけＳＡＯＣ標準ＩＳＯ／ＩＥＣ２３００３−２の中で定義されている、オブジェクトレベル差情報ＯＬＤ_i、オブジェクト間共分散ＩＯＣ_ij及び／又は絶対エネルギーレベルＮＲＧ_iであってもよい。粗いサイド情報は、t/f領域ベースで定義されており、現存のＳＡＯＣ復号器がこの種のサイド情報を使用することから、典型的には後方互換性を提供する。オブジェクトｉについての微細構造のオブジェクト特有サイド情報

は、オーディオオブジェクトｉのエネルギーがどのように３つのスペクトルサブ領域間に配分されるかを示す３個の更なる値を提供する。図示されたケースでは、３つのスペクトルサブ領域の各々が１つの（ハイブリッド）サブバンドに対応しているが、他の配分もまた可能である。１つのスペクトルサブ領域を他のスペクトルサブ領域よりも小さくして、より小さなスペクトルサブバンドにおいて使用可能な特に細密なスペクトル分解能を得ることさえも、視野に入り得る。同様に、オーディオオブジェクトｊのコンテンツをt/f領域Ｒ(t_R,f_R)内でより適切に表現するために、同じt/f領域Ｒ(t_R,f_R)が複数の時間サブ領域へとサブ分割されてもよい。

微細構造のオブジェクト特有サイド情報

は、粗いオブジェクト特有サイド情報（例えばＯＬＤ_i、ＩＯＣ_ij及び／又はＮＲＧ_i）と少なくとも１つのオーディオオブジェクトs_iとの差を記述してもよい。

図１１の下部分は、オーディオオブジェクトｉ及びｊについての微細構造のサイド情報に起因して、推定された共分散行列Ｅがt/f領域Ｒ(t_R,f_R)にわたって変化することを示している。オブジェクト分離作業において使用される他の行列又は値もまた、t/f領域Ｒ(t_R,f_R)内での変化の影響を受ける。共分散行列Ｅ（及び他の行列又は値）の変化は、オブジェクト分離部１２０によって考慮されなければならない。図示されたケースでは、t/f領域Ｒ(t_R,f_R)の各時間スロット／サブバンドのサンプルについて、異なる共分散行列Ｅが決定される。複数のオーディオオブジェクトの内のただ１つだけがそれ（例えばオブジェクトｉ）に関連付けられた細密なスペクトル構造を有する場合、共分散行列Ｅは、３つのスペクトルサブ領域の各１つの中では一定となるであろう（ここでは３個の（ハイブリッド）サブバンドの各１つの中では一定となるが、一般的に他のスペクトルサブ領域でも同様に可能である）。

オブジェクト分離部１２０は、少なくとも１つのオーディオオブジェクトs_i及び少なくとも１つの更なるオーディオオブジェクトs_jの要素

を有する推定された共分散行列Ｅ^n,kを、次式に従って決定するよう構成されてもよい。
［数１３］

ここで、

は時間スロットｎ及び（ハイブリッド）サブバンドｋに関するオーディオオブジェクトｉ及びｊの推定された共分散であり、

は時間スロットｎ及び（ハイブリッド）サブバンドｋに関するオーディオオブジェクトｉ及びｊのオブジェクト特有サイド情報であり、

は時間スロットｎ及び（ハイブリッド）サブバンドｋに関するオーディオオブジェクトｉ及びｊのオブジェクト間相関情報である。

の少なくとも１つは、オブジェクト特有時間／周波数分解能情報ＴＦＲＩ_i，ＴＦＲＩ_jによってそれぞれ示されたオーディオオブジェクトｉ又はｊについてのオブジェクト特有時間／周波数分解能ＴＦＲ_hに応じて、時間／周波数領域Ｒ(t_R,f_R)内で変化する。オブジェクト分離部１２０は更に、上述した方法で、推定された共分散行列Ｅ^n,kを使用して、ダウンミックス信号Ｘから少なくとも１つのオーディオオブジェクトｓ_iを分離するよう構成されてもよい。

例えば後続のズーム変換を用いて、スペクトル又は時間的分解能が基礎となる変換の分解能から増大させられる場合、上述した手法に対する代替的手法が考慮されなければならない。そのような場合、オブジェクト共分散行列の推定は、ズームされたドメインで実行される必要があり、オブジェクト再構築もまたズームされたドメインで実行される。次に、再構築結果はオリジナル変換のドメイン、例えば（ハイブリッド）ＱＭＦへと逆変換されることができ、最終的再構築へのタイルのインターリービングはこのドメインで行われる。原理的にその計算は、追加的変換を除いて、異なるパラメータ・タイリングを利用する場合と同様に行われる。

図１２は、スペクトル軸におけるズームの例を用いたズーム変換、ズームされたドメインでの処理、及び逆ズーム変換を示している。ここでは、時間スロットｎと（ハイブリッド）サブバンドｋとによって定義されたダウンミックス信号のt/f分解能における、ある時間／周波数領域Ｒ(t_R,f_R)内のダウンミックスについて考察する。図１２に示された実例において、時間／周波数領域Ｒ(t_R,f_R)は４個の時間スロットｎ〜ｎ＋３と１つのサブバンドｋとを有する。ズーム変換は、信号時間／周波数変換ユニット１１５によって実行されてもよい。ズーム変換は、時間ズーム変換でもよく、又は図１２に示すように、スペクトルズーム変換でもよい。スペクトルズーム変換は、ＤＦＴ，ＳＴＦＴ，ＱＭＦベースの分析フィルタバンクなどによって実行されてもよい。時間ズーム変換は、逆ＤＦＴ，逆ＳＴＦＴ，逆ＱＭＦベースの合成フィルタバンクなどによって実行されてもよい。図１２の実例において、ダウンミックス信号Ｘは、時間スロットｎと（ハイブリッド）サブバンドｋとによって定義されるダウンミックス信号時間／周波数表現から、ただ１つのオブジェクト特有時間スロットηと４個のオブジェクト特有（ハイブリッド）サブバンドκ〜κ＋３とにわたるスペクトル的にズームされたt/f表現へと変換される。従って、時間／周波数領域Ｒ(t_R,f_R)内のダウンミックス信号のスペクトル分解能は、時間分解能を犠牲にして、４倍に増大されている。

この処理は、オブジェクト分離部１２１によってオブジェクト特有時間／周波数分解能ＴＦＲ_hで実行され、このオブジェクト分離部１２１はまた、少なくとも１つのオーディオオブジェクトのサイド情報をオブジェクト特有時間／周波数分解能ＴＦＲ_hで受信する。図１２の実例において、オーディオオブジェクトｉは、オブジェクト特有時間／周波数分解能ＴＦＲ_hに合致する、即ち１つのオブジェクト特有時間スロットη及び４個のオブジェクト特有（ハイブリッド）サブバンドη〜η＋３に合致する時間／周波数領域Ｒ(t_R,f_R)内で、サイド情報により定義されている。説明上、２つの更なるオーディオオブジェクトｉ＋１及びｉ＋２についてのサイド情報も、また図１２内に概略的に示されている。オーディオオブジェクトｉ＋１は、ダウンミックス信号の時間／周波数分解能を有するサイド情報により定義される。オーディオオブジェクトｉ＋２は、時間／周波数領域Ｒ(t_R,f_R)内に２個のオブジェクト特有時間スロット及び２個のオブジェクト特有（ハイブリッド）サブバンドを有するサイド情報により定義される。オーディオオブジェクトｉ＋１のために、オブジェクト分離部１２１は、時間／周波数領域Ｒ(t_R,f_R)内の粗いサイド情報を考慮してもよい。オーディオオブジェクトｉ＋２のために、オブジェクト分離部１２１は、２つの異なるハッチングにより示すように、時間／周波数領域Ｒ(t_R,f_R)内での２つのスペクトル平均値を考慮してもよい。一般的なケースでは、対応するオーディオオブジェクトのためのサイド情報は、現時点でオブジェクト分離部１２１により処理されつつある厳密なオブジェクト特有時間／周波数分解能ＴＦＲ_h内では使用できないが、時間及び／又はスペクトル次元において時間／周波数領域Ｒ(t_R,f_R)よりも微細に離散化されている場合には、複数のスペクトル平均値及び／又は複数の時間平均値がオブジェクト分離部１２１によって考慮されてもよい。このようにして、オブジェクト分離部１２１は、現時点でオブジェクト分離部１２１により処理されているオブジェクト特有時間／周波数分解能ＴＦＲ_hと必ずしも同等に微細とは言えなくても、粗いサイド情報（例えばＯＬＤ、ＩＯＣ及び／又はＮＲＧ）と比べてより微細に離散化されている、オブジェクト特有サイド情報の有用性から利益を得る。

オブジェクト分離部１２１は、時間／周波数領域Ｒ(t_R,f_R)について少なくとも１つの抽出されたオーディオオブジェクト

を、オブジェクト特有時間／周波数分解能（ズームt/f分解能）で出力する。次に、少なくとも１つの抽出されたオーディオオブジェクト

は逆ズーム変換器１３２により逆ズーム変換され、Ｒ(t_R,f_R)において抽出されたオーディオオブジェクト

を、ダウンミックス信号の時間／周波数分解能で、又は他の所望の時間／周波数分解能で取得する。Ｒ(t_R,f_R)において抽出されたオーディオオブジェクト

は次に他の時間／周波数領域、例えばＲ(t_R-1,f_R-1),Ｒ(t_R-1,f_R),…Ｒ(t_R+1,f_R+1)で抽出されたオーディオオブジェクト

と結合され、抽出されたオーディオオブジェクト

が組み立てられる。

対応する実施形態によれば、オーディオ復号器は、時間／周波数領域Ｒ(t_R,f_R)内のダウンミックス信号Ｘを、ダウンミックス信号の時間／周波数分解能から少なくとも１つのオーディオオブジェクトs_iの少なくともオブジェクト特有時間／周波数分解能ＴＦＲ_hへと変換して、再変換されたダウンミックス信号Ｘ^η,κを取得する、ダウンミックス信号時間／周波数変換器１１５を含んでもよい。ダウンミックス信号時間／周波数分解能は、ダウンミックス時間スロットｎ及びダウンミックス（ハイブリッド）サブバンドｋに関連している。オブジェクト特有時間／周波数分解能ＴＦＲ_hは、オブジェクト特有時間スロットηとオブジェクト特有（ハイブリッド）サブバンドκとに関連している。オブジェクト特有時間スロットηは、ダウンミックス時間／周波数分解能のダウンミックス時間スロットｎと比べてより微細か又はより粗くてもよい。同様に、オブジェクト特有（ハイブリッド）サブバンドκは、ダウンミックス時間／周波数分解能のダウンミックス（ハイブリッド）サブバンドと比べてより微細か又はより粗くてもよい。時間／周波数表現の不確実性原理に関連して上述したように、信号のスペクトル分解能は時間分解能を犠牲にして増大させることができ、その逆もまた真である。オーディオ復号器は、時間／周波数領域Ｒ(t_R,f_R)内の少なくとも１つのオーディオオブジェクトs_iを、オブジェクト特有時間／周波数分解能ＴＦＲ_hからダウンミックス信号時間／周波数分解能へと時間／周波数変換し戻す、逆時間／周波数変換器１３２を更に含んでもよい。オブジェクト分離部１２１は、ダウンミックス信号Ｘから少なくとも１つのオーディオオブジェクトs_iを、オブジェクト特有時間／周波数分解能ＴＦＲ_hにおいて分離するよう構成されている。

ズームされたドメインにおいて、推定された共分散行列Ｅ^η,κは、オブジェクト特有時間スロットηとオブジェクト特有（ハイブリッド）サブバンドκとに関して定義されている。少なくとも１つのオーディオオブジェクトs_iと少なくとも１つの更なるオーディオオブジェクトs_jとの推定された共分散行列の要素について上述した式は、ズームされたドメインにおいて次式で表すことができる。
[数１４]

ここで、

は、オブジェクト特有時間スロットηとオブジェクト特有（ハイブリッド）サブバンドκとに関するオーディオオブジェクトｉ及びｊの推定された共分散行列であり、

は、オブジェクト特有時間スロットηとオブジェクト特有（ハイブリッド）サブバンドκとに関するオーディオオブジェクトｉ及びｊのオブジェクト特有サイド情報であり、

は、オブジェクト特有時間スロットηとオブジェクト特有（ハイブリッド）サブバンドκとに関するオーディオオブジェクトｉ及びｊのそれぞれのオブジェクト間相関情報である。

上述したように、更なるオーディオオブジェクトｊは、オーディオオブジェクトｉのオブジェクト特有時間／周波数分解能ＴＦＲ_hを有するサイド情報によっては定義されない可能性があり、そのため、パラメータ

がオブジェクト特有時間／周波数分解能ＴＦＲ_hにおいて利用可能でない又は決定できない場合もあり得る。この場合、Ｒ(t_R,f_R)内のオーディオオブジェクトｊの粗いサイド情報、時間的に平均化された値、又はスペクトル的に平均化された値が、パラメータ

を時間／周波数領域Ｒ(t_R,f_R)内又はそのサブ領域内において近似するために、使用されてもよい。

符号器側においても、微細構造のサイド情報が典型的に考慮されるべきである。実施形態に係るオーディオ符号器において、サイド情報決定部（t/f−ＳＩＥ）５５−１…５５−Ｈは、微細構造のオブジェクト特有サイド情報

と粗いオブジェクト特有サイド情報ＯＬＤ_iとを、第１サイド情報及び第２サイド情報の少なくとも１つの一部として提供するよう更に構成されてもよい。粗いオブジェクト特有サイド情報ＯＬＤ_iは、少なくとも１つの時間／周波数領域Ｒ(t_R,f_R)内で一定である。微細構造のオブジェクト特有サイド情報

は、粗いオブジェクト特有サイド情報ＯＬＤ_iと少なくとも１つのオーディオオブジェクトs_iとの差を記述してもよい。オブジェクト間相関関係ＩＯＣ_i,j及び

は、他のパラメトリックサイド情報と同様に、アナログ方式で処理されてもよい。

図１３は、ダウンミックス信号Ｘとサイド情報ＰＳＩとからなるマルチオブジェクト・オーディオ信号を復号化する方法の概略的なフロー図を示す。サイド情報は、少なくとも１つの時間／周波数領域Ｒ(t_R,f_R)における少なくとも１つのオーディオオブジェクトs_iについてのオブジェクト特有サイド情報ＰＳＩ_iと、その少なくとも１つの時間／周波数領域Ｒ(t_R,f_R)における少なくとも１つのオーディオオブジェクトs_iについてのオブジェクト特有サイド情報のオブジェクト特有時間／周波数分解能ＴＦＲ_hを示すオブジェクト特有時間／周波数分解能情報ＴＦＲＩ_iと、を含む。この方法は、少なくとも１つのオーディオオブジェクトs_iについて、サイド情報ＰＳＩからオブジェクト特有時間／周波数分解能情報ＴＦＲＩ_iを決定するステップ１３０２を含む。この方法はさらに、オブジェクト特有時間／周波数分解能ＴＦＲＩ_iに応じたオブジェクト特有サイド情報を使用して、ダウンミックス信号Ｘから少なくとも１つのオーディオオブジェクトs_iを分離するステップ１３０４を含む。

図１４は、複数のオーディオオブジェクト信号s_iを１つのダウンミックスＸ及びサイド情報ＰＳＩへと符号化する方法の更なる実施形態に係る概略的なフロー図を示す。そのオーディオ符号器は、ステップ１４０２において、複数のオーディオオブジェクト信号s_iを少なくとも第１の複数の対応する変換形態s_1,1(t/f)…s_N,1(t/f)へと変換することを含む。この目的で、第１の時間／周波数分解能ＴＦＲ₁が使用される。複数のオーディオオブジェクト信号s_iはまた、第２の時間／周波数離散化ＴＦＲ₂を使用して、少なくとも第２の複数の対応する変換形態s_1,2(t/f)…s_N,2(t/f)へと変換される。ステップ１４０４において、少なくとも、第１の複数の対応する変換形態s_1,1(t/f)…s_N,1(t/f)についての第１サイド情報と、第２の複数の対応する変換形態s_1,2(t/f)…s_N,2(t/f)についての第２サイド情報と、が決定される。第１及び第２のサイド情報は、第１及び第２の時間／周波数分解能ＴＦＲ₁及びＴＦＲ₂のそれぞれにおける複数のオーディオオブジェクト信号s_iの互いの関係を、１つの時間／周波数領域Ｒ(t_R,f_R)において示している。この方法は更に、各オーディオオブジェクト信号s_iについて、第１及び第２のサイド情報からある適性基準に基づいて各１つのオブジェクト特有サイド情報を選択するステップ１４０６を含み、その適性基準は、オーディオオブジェクト信号s_iを時間／周波数ドメインで表現するための少なくとも第１又は第２の時間／周波数分解能のある適性を示しており、そのオブジェクト特有サイド情報はオーディオ符号器によって出力されるサイド情報ＰＳＩの中に導入される。

ＳＡＯＣとの後方互換性
提案された解決策は知覚的オーディオ品質を良好に改善するが、これは可能性としては、完全に復号器−互換性を持つ方法で実現できる。t/f領域Ｒ(t_R,f_R)を現状のＳＡＯＣ内のt/fグルーピングに対して調和するように定義することで、現存する標準ＳＡＯＣ復号器は、ＰＳＩの後方互換性のある部分を復号化でき、粗いt/f分解能レベルでオブジェクトの再構築を生成できる。追加された情報が強化されたＳＡＯＣ復号器によって使用される場合、再構築の知覚的品質はかなり向上する。各オーディオオブジェクトについて、この追加的サイド情報は、オブジェクトを推定するためにどの個別のt/f表現が使用されるべきかという情報と、選択されたt/f表現に基づくオブジェクトの微細構造の記述と、を含んでいる。

加えて、強化されたＳＡＯＣ復号器が制限された資源上で操作している場合、その強化された部分は無視されることができ、低い演算量だけを必要としながら基本的な品質の再構築を得ることもできる。

本発明の処理に係るアプリケーションの分野
オブジェクト特有t/f表現とそれに関連する復号器への信号伝達は、如何なるＳＡＯＣスキームに対しても適用できる。それは、現在及び将来の、如何なるオーディオフォーマットとも組み合わせることができる。その概念は、ＳＡＯＣアプリケーションにおいて、オーディオオブジェクトのパラメトリック推定のための個別的なt/f分解能のオーディオオブジェクト適応型の選択がもたらす、強化された知覚的オーディオオブジェクト推定を可能にする。

これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全てが、例えばマイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路のようなハードウエア装置によって（又は使用して）実行されてもよい。幾つかの実施形態では、最も重要な方法ステップの１つ又は複数がそれら装置によって実行されてもよい。

本発明の符号化されたオーディオ信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。

所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働可能な）、デジタル記憶媒体、例えばフレキシブルディスク，ＤＶＤ，ブルーレイ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータ読み取り可能であってもよい。

本発明に従う幾つかの実施形態は、上述した方法の１つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。

本発明の他の実施形態は、上述した方法の１つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。

換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の他の実施形態は、上述した方法の１つを実行するために記録されたコンピュータプログラムを含む、データキャリア（又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体）である。そのデータキャリア、デジタル記憶媒体、又は記録された媒体は、典型的に有形及び／又は非一時的である。

本発明の他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるよう構成されても良い。

他の実施形態は、上述した方法の１つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

幾つかの実施形態においては、（例えば書換え可能ゲートアレイのような）プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の１つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。

この処理は、オブジェクト分離部１２１によってオブジェクト特有時間／周波数分解能ＴＦＲ_hで実行され、このオブジェクト分離部１２１はまた、少なくとも１つのオーディオオブジェクトのサイド情報をオブジェクト特有時間／周波数分解能ＴＦＲ_hで受信する。図１２の実例において、オーディオオブジェクトｉは、オブジェクト特有時間／周波数分解能ＴＦＲ_hに合致する、即ち１つのオブジェクト特有時間スロットη及び４個のオブジェクト特有（ハイブリッド）サブバンドκ〜κ＋３に合致する時間／周波数領域Ｒ(t_R,f_R)内で、サイド情報により定義されている。説明上、２つの更なるオーディオオブジェクトｉ＋１及びｉ＋２についてのサイド情報も、また図１２内に概略的に示されている。オーディオオブジェクトｉ＋１は、ダウンミックス信号の時間／周波数分解能を有するサイド情報により定義される。オーディオオブジェクトｉ＋２は、時間／周波数領域Ｒ(t_R,f_R)内に２個のオブジェクト特有時間スロット及び２個のオブジェクト特有（ハイブリッド）サブバンドを有するサイド情報により定義される。オーディオオブジェクトｉ＋１のために、オブジェクト分離部１２１は、時間／周波数領域Ｒ(t_R,f_R)内の粗いサイド情報を考慮してもよい。オーディオオブジェクトｉ＋２のために、オブジェクト分離部１２１は、２つの異なるハッチングにより示すように、時間／周波数領域Ｒ(t_R,f_R)内での２つのスペクトル平均値を考慮してもよい。一般的なケースでは、対応するオーディオオブジェクトのためのサイド情報は、現時点でオブジェクト分離部１２１により処理されつつある厳密なオブジェクト特有時間／周波数分解能ＴＦＲ_h内では使用できないが、時間及び／又はスペクトル次元において時間／周波数領域Ｒ(t_R,f_R)よりも微細に離散化されている場合には、複数のスペクトル平均値及び／又は複数の時間平均値がオブジェクト分離部１２１によって考慮されてもよい。このようにして、オブジェクト分離部１２１は、現時点でオブジェクト分離部１２１により処理されているオブジェクト特有時間／周波数分解能ＴＦＲ_hと必ずしも同等に微細とは言えなくても、粗いサイド情報（例えばＯＬＤ、ＩＯＣ及び／又はＮＲＧ）と比べてより微細に離散化されている、オブジェクト特有サイド情報の有用性から利益を得る。

対応する実施形態によれば、オーディオ復号器は、時間／周波数領域Ｒ(t_R,f_R)内のダウンミックス信号Ｘを、ダウンミックス信号の時間／周波数分解能から少なくとも１つのオーディオオブジェクトs_iの少なくともオブジェクト特有時間／周波数分解能ＴＦＲ_hへと変換して、再変換されたダウンミックス信号Ｘ^η,κを取得する、ダウンミックス信号時間／周波数変換器１１５を含んでもよい。ダウンミックス信号時間／周波数分解能は、ダウンミックス時間スロットｎ及びダウンミックス（ハイブリッド）サブバンドｋに関連している。オブジェクト特有時間／周波数分解能ＴＦＲ_hは、オブジェクト特有時間スロットηとオブジェクト特有（ハイブリッド）サブバンドκとに関連している。オブジェクト特有時間スロットηは、ダウンミックス時間／周波数分解能のダウンミックス時間スロットｎと比べてより微細か又はより粗くてもよい。同様に、オブジェクト特有（ハイブリッド）サブバンドκは、ダウンミックス時間／周波数分解能のダウンミックス（ハイブリッド）サブバンドと比べてより微細か又はより粗くてもよい。時間／周波数表現の不確実性原理に関連して上述したように、信号のスペクトル分解能は時間分解能を犠牲にして増大させることができ、その逆もまた真である。オーディオ復号器は、時間／周波数領域Ｒ(t_R,f_R)内の少なくとも１つのオーディオオブジェクトs_iを、オブジェクト特有時間／周波数分解能ＴＦＲ_hからダウンミックス信号時間／周波数分解能へと時間／周波数変換し戻す、逆時間／周波数変換器１３２を更に含んでもよい。オブジェクト分離部１２１は、ダウンミックス信号Ｘ ^η,κから少なくとも１つのオーディオオブジェクトs_iを、オブジェクト特有時間／周波数分解能ＴＦＲ_hにおいて分離するよう構成されている。

図１４は、複数のオーディオオブジェクト信号s_iを１つのダウンミックスＸ及びサイド情報ＰＳＩへと符号化する方法の更なる実施形態に係る概略的なフロー図を示す。その符号化の方法は、ステップ１４０２において、複数のオーディオオブジェクト信号s_iを少なくとも第１の複数の対応する変換形態s_1,1(t/f)…s_N,1(t/f)へと変換することを含む。この目的で、第１の時間／周波数分解能ＴＦＲ₁が使用される。複数のオーディオオブジェクト信号s_iはまた、第２の時間／周波数離散化ＴＦＲ₂を使用して、少なくとも第２の複数の対応する変換形態s_1,2(t/f)…s_N,2(t/f)へと変換される。ステップ１４０４において、少なくとも、第１の複数の対応する変換形態s_1,1(t/f)…s_N,1(t/f)についての第１サイド情報と、第２の複数の対応する変換形態s_1,2(t/f)…s_N,2(t/f)についての第２サイド情報と、が決定される。第１及び第２のサイド情報は、第１及び第２の時間／周波数分解能ＴＦＲ₁及びＴＦＲ₂のそれぞれにおける複数のオーディオオブジェクト信号s_iの互いの関係を、１つの時間／周波数領域Ｒ(t_R,f_R)において示している。この方法は更に、各オーディオオブジェクト信号s_iについて、第１及び第２のサイド情報からある適性基準に基づいて各１つのオブジェクト特有サイド情報を選択するステップ１４０６を含み、その適性基準は、オーディオオブジェクト信号s_iを時間／周波数ドメインで表現するための少なくとも第１又は第２の時間／周波数分解能のある適性を示しており、そのオブジェクト特有サイド情報はサイド情報ＰＳＩの中に導入される。

Claims

ダウンミックス信号（Ｘ）とサイド情報（ＰＳＩ）とからなるマルチオブジェクト・オーディオ信号を復号化するオーディオ復号器であって、前記サイド情報は、少なくとも１つの時間／周波数領域（Ｒ（ｔ_R,ｆ_R））における少なくとも１つのオーディオオブジェクト（ｓ_i）についてのオブジェクト特有サイド情報（ＰＳＩ_i）と、前記少なくとも１つの時間／周波数領域（Ｒ（ｔ_R,ｆ_R））における少なくとも１つのオーディオオブジェクト（ｓ_i）についての前記オブジェクト特有サイド情報のオブジェクト特有時間／周波数分解能（ＴＦＲ_h）を示すオブジェクト特有時間／周波数分解能情報（ＴＦＲＩ_i）と、を含み、
前記少なくとも１つのオーディオオブジェクト（ｓ_i）について、前記サイド情報（ＰＳＩ）から前記オブジェクト特有時間／周波数分解能情報（ＴＦＲＩ_i）を決定するよう構成されたオブジェクト特有時間／周波数分解能決定部（１１０）と、
前記オブジェクト特有時間／周波数分解能（ＴＦＲＩ_i）に従って前記オブジェクト特有サイド情報を使用して、前記ダウンミックス信号（Ｘ）から前記少なくとも１つのオーディオオブジェクト（ｓ_i）を分離するよう構成されたオブジェクト分離部（１２０）と、
を含むオーディオ復号器。
請求項１に記載のオーディオ復号器であって、
前記オブジェクト特有サイド情報は、前記少なくとも１つの時間／周波数領域（Ｒ（ｔ_R,ｆ_R））における前記少なくとも１つのオーディオオブジェクト（ｓ_i）についての微細構造のオブジェクト特有サイド情報（ｆｓｌ_i ^n,k, ｆｓｌ_j ^n,k)であり、
前記サイド情報（ＰＳＩ）は、前記少なくとも１つの時間／周波数領域（Ｒ（ｔ_R,ｆ_R））における少なくとも１つのオーディオオブジェクト（ｓ_i）についての粗いオブジェクト特有サイド情報をさらに含み、
前記粗いオブジェクト特有サイド情報は前記少なくとも１つの時間／周波数領域（Ｒ（ｔ_R,ｆ_R））内では一定である、オーディオ復号器。
請求項１に記載のオーディオ復号器であって、
前記微細構造のオブジェクト特有サイド情報(ｆｓｌ_i ^n,k)は、前記粗いオブジェクト特有サイド情報と前記少なくとも１つのオーディオオブジェクト（ｓ_i）との差を記述している、オーディオ復号器。
請求項１〜３のいずれか１項に記載のオーディオ復号器であって、
前記ダウンミックス信号（Ｘ）は時間／周波数ドメインで複数の時間スロット及び複数の（ハイブリッド）サブバンドへとサンプリングされ、前記時間／周波数領域（Ｒ（ｔ_R,ｆ_R））は前記ダウンミックス信号（Ｘ）の少なくとも２つのサンプルに亘って延びており、前記オブジェクト特有時間／周波数分解能（ＴＦＲ_h）は両方の次元の少なくとも一方において前記時間／周波数領域（Ｒ（ｔ_R,ｆ_R））より微細である、オーディオ復号器。
請求項１〜４のいずれか１項に記載のオーディオ復号器であって、
前記オブジェクト分離部（１２０）は、次式にしたがって前記少なくとも１つのオーディオオブジェクト（ｓ_i）と少なくとも１つの追加のオーディオオブジェクト（ｓ_j）の要素ｅ_i,j ^η,κを持つ推定された共分散行列（Ｅ^η,κ）を決定するよう構成され、

ここで、ｅ_i,j ^η,κは微細構造の時間スロットηと微細構造の（ハイブリッド）サブバンドκとについてオーディオオブジェクトｉとｊの推定された共分散であり、
ｆｓｌ_i ^η,κ及びｆｓｌ_j ^η,κは微細構造の時間スロットηと微細構造の（ハイブリッド）サブバンドκとについて前記オーディオオブジェクトｉとｊのオブジェクト特有サイド情報であり、
ｆｓｃ_i,j ^η,κは、それぞれ微細構造の時間スロットηと微細構造の（ハイブリッド）サブバンドκとについて前記オーディオオブジェクトｉとｊのオブジェクト間相関情報であり、
ｆｓｌ_i ^η,κ、ｆｓｌ_j ^η,κ及びｆｓｃ_i,j ^η,κの少なくとも１つは、前記オブジェクト特有時間／周波数分解能情報（ＴＦＲＩ_i, ＴＦＲＩ_j）によって示された前記オーディオオブジェクトｉ及びｊについてのオブジェクト特有時間／周波数分解能（ＴＦＲ_h）に従って、前記時間/周波数領域（Ｒ（ｔ_R,ｆ_R））内で変化し、
前記オブジェクト分離部（１２０）はさらに、前記推定された共分散行列（Ｅ^η,κ）を使用して、前記ダウンミックス信号（Ｘ）から前記少なくとも１つのオーディオオブジェクト（ｓ_i）を分離するよう構成されている、オーディオ復号器。
請求項１〜５のいずれか１項に記載のオーディオ復号器であって、
前記時間/周波数領域（Ｒ（ｔ_R,ｆ_R））内の前記ダウンミックス信号（Ｘ）を、ダウンミックス信号時間/周波数分解能から前記少なくとも１つのオーディオオブジェクト（ｓ_i）の少なくとも前記オブジェクト特有時間／周波数分解能（ＴＦＲ_h）へと変換して、再変換されたダウンミックス信号（Ｘ^η,κ）を取得するよう構成された、ダウンミックス信号時間／周波数変換部と、
前記時間/周波数領域（Ｒ（ｔ_R,ｆ_R））内の前記少なくとも１つのオーディオオブジェクト（ｓ_i）を、前記オブジェクト特有時間／周波数分解能（ＴＦＲ_h）から通常のt/f-分解能又は前記ダウンミックス信号時間/周波数分解能へと時間/周波数変換するよう構成された、逆時間/周波数変換部と、をさらに含み、
前記オブジェクト分離部（１２０）は、前記オブジェクト特有時間／周波数分解能（ＴＦＲ_h）において、前記ダウンミックス信号（Ｘ）から前記少なくとも１つのオーディオオブジェクト（ｓ_i）を分離するよう構成されている、オーディオ復号器。
複数のオーディオオブジェクト（ｓ_i）をダウンミックス信号（Ｘ）及びサイド情報（ＰＳＩ）へと符号化するオーディオ符号器であって、
前記複数のオーディオオブジェクト（ｓ_i）を少なくとも、第１の時間/周波数分解能（ＴＦＲ₁）を使用して第１の複数の対応する変換形態(s_1,1(t,f)…s_N,1(t,f))へと変換し、かつ第２の時間/周波数分解能（ＴＦＲ₂）を使用して第２の複数の対応する変換形態(s_1,2(t,f)…s_N,2(t,f))へと変換するよう構成された、時間−周波数変換部と、
少なくとも、前記第１の複数の対応する変換形態(s_1,1(t,f)…s_N,1(t,f))についての第１のサイド情報と、前記第２の複数の対応する変換形態(s_1,2(t,f)…s_N,2(t,f))についての第２のサイド情報とを、決定するよう構成されたサイド情報決定部(t/f−ＳＩＥ)であって、前記第１と第２のサイド情報は、ある時間/周波数領域（Ｒ(t_R,f_R)）における前記複数のオーディオオブジェクト（ｓ_i）の相互関係を前記第１と第２の時間/周波数分解能（ＴＦＲ₁, ＴＦＲ₂）においてそれぞれ示している、サイド情報決定部(t/f−ＳＩＥ)と、
前記複数のオーディオオブジェクトの少なくとも１つのオーディオオブジェクト（ｓ_i）について、少なくとも前記第１と第２のサイド情報からある適性基準に基づいて１つのオブジェクト特有サイド情報を選択するよう構成されたサイド情報選択部（ＳＩ−ＡＳ）であって、前記適性基準は、前記オーディオオブジェクト（s_i）を時間／周波数ドメインで表現するための少なくとも前記第１又は第２の時間／周波数分解能の適性を示しており、前記オブジェクト特有サイド情報は前記オーディオ符号器によって出力される前記サイド情報（ＰＳＩ）の中に導入される、サイド情報選択部と、
を含むオーディオ符号器。
請求項７に記載のオーディオ符号器であって、前記適性基準はソース推定に基づいており、前記サイド情報選択部（ＳＩ−ＡＳ）は、
前記ダウンミックス信号（Ｘ）と、前記第１と第２の時間／周波数分解能（ＴＦＲ₁，ＴＦＲ₂）にそれぞれ対応する少なくとも前記第１情報と前記第２情報とを使用して、前記複数のオーディオオブジェクト（s_i）の少なくとも１つの選択されたオーディオオブジェクトを推定するよう構成されたソース推定部であって、少なくとも第１の推定されたオーディオオブジェクト（s_i,estm1）と第２の推定されたオーディオオブジェクト（s_i,estm2）とを提供する、ソース推定部と、
少なくとも前記第１の推定されたオーディオオブジェクト（s_i,estm1）と前記第２の推定されたオーディオオブジェクト（s_i,estm2）との品質を査定するよう構成された品質査定部と、
を含む、オーディオ符号器。
請求項８に記載のオーディオ符号器であって、前記品質査定部は、少なくとも前記第１の推定されたオーディオオブジェクト（s_i,estm1）と前記第２の推定されたオーディオオブジェクト（s_i,estm2）との品質を、ソース推定性能尺度としての信号対歪み比（ＳＤＲ）に基づいて査定するよう構成されており、前記信号対歪み比（ＳＤＲ）は前記サイド情報（ＰＳＩ）だけに基づいて決定される、オーディオ符号器。
請求項７乃至９のいずれか一項に記載のオーディオ符号器であって、前記複数のオーディオオブジェクトの中の前記少なくとも１つのオーディオオブジェクト（s_i）についての前記適性基準は、少なくとも前記第１の時間／周波数分解能（ＴＦＲ₁）と前記第２の時間／周波数分解能（ＴＦＲ₂）とに応じた前記少なくとも１つのオーディオオブジェクトの２つ以上のt/f分解能表現のスパースネス度に基づいており、前記サイド情報選択部（ＳＩ−ＡＳ）は、前記少なくとも１つのオーディオオブジェクト（s_i）の最も粗いt/f表現に関連する少なくとも前記第１と第２のサイド情報の中から前記サイド情報を選択するよう構成されている、オーディオ符号器。
請求項７乃至１０のいずれか一項に記載のオーディオ符号器であって、前記サイド情報決定部（t/f−ＳＩＥ）はさらに、微細構造のオブジェクト特有サイド情報（ｆｓｌ_i ^n,k)と粗いオブジェクト特有サイド情報とを、前記第１のサイド情報及び第２のサイド情報の少なくとも１つの一部として提供するよう構成されており、前記粗いオブジェクト特有サイド情報は前記少なくとも１つの時間／周波数領域（Ｒ(t_R,f_R)）内で一定である、オーディオ符号器。
請求項１１に記載のオーディオ符号器であって、前記微細構造のオブジェクト特有サイド情報（ｆｓｌ_i ^n,k)は、前記粗いオブジェクト特有サイド情報と前記少なくとも１つのオーディオオブジェクト（s_i）との差を記述している、オーディオ符号器。
請求項７乃至１２のいずれか一項に記載のオーディオ符号器であって、前記ダウンミックス信号（Ｘ）を複数の時間スロット及び複数の（ハイブリッド）サブバンドへと時間／周波数ドメイン内でサンプリングされる表現へと変換するよう構成された、ダウンミックス信号処理部を更に含み、前記時間／周波数領域（Ｒ(t_R,f_R)）は前記ダウンミックス信号（Ｘ）の少なくとも２つのサンプルにわたって延びており、少なくとも１つのオーディオオブジェクトについて特定されたオブジェクト特有時間／周波数分解能（ＴＦＲ_h）は、前記時間／周波数領域（Ｒ(t_R,f_R)）と比べ、両方の次元の少なくとも１つにおいてより微細である、オーディオ符号器。
ダウンミックス信号（Ｘ）とサイド情報（ＰＳＩ）とからなるマルチオブジェクト・オーディオ信号を復号化する方法であって、前記サイド情報は、少なくとも１つの時間／周波数領域（Ｒ(t_R,f_R)）における少なくとも１つのオーディオオブジェクト（s_i）についてのオブジェクト特有サイド情報（ＰＳＩ_i）と、前記少なくとも１つの時間／周波数領域（Ｒ(t_R,f_R)）における前記少なくとも１つのオーディオオブジェクト（s_i）についての前記オブジェクト特有サイド情報のオブジェクト特有時間／周波数分解能（ＴＦＲ_h）を示すオブジェクト特有時間／周波数分解能情報（ＴＦＲＩ_i）と、を含み、
前記方法は、
前記少なくとも１つのオーディオオブジェクト（s_i）について、前記サイド情報（ＰＳＩ）から前記オブジェクト特有時間／周波数分解能情報（ＴＦＲＩ_i）を決定するステップと、
前記オブジェクト特有時間／周波数分解能（ＴＦＲＩ_i）に従って前記オブジェクト特有サイド情報を使用して、前記ダウンミックス信号（Ｘ）から前記少なくとも１つのオーディオオブジェクト（s_i）を分離するステップと、
を含む方法。
複数のオーディオオブジェクト（s_i）をダウンミックス信号（Ｘ）及びサイド情報（ＰＳＩ）へと符号化する方法であって、
前記方法は、
前記複数のオーディオオブジェクト（s_i）を少なくとも、第１の時間／周波数分解能（ＴＦＲ₁）を使用して第１の複数の対応する変換形態（s_1,1(t,f)…s_N,1(t,f)）へと変換し、かつ第２の時間／周波数分解能（ＴＦＲ₂）を使用して第２の複数の対応する変換形態（s_1,2(t,f)…s_N,2(t,f)）へと変換するステップと、
少なくとも、前記第１の複数の対応する変換形態(s_1,1(t,f)…s_N,1(t,f))についての第１のサイド情報と、前記第２の複数の対応する変換形態(s_1,2(t,f)…s_N,2(t,f))についての第２のサイド情報と、を決定するステップであって、前記第１と第２のサイド情報は、ある時間/周波数領域（Ｒ(t_R,f_R)）における前記複数のオーディオオブジェクト（ｓ_i）の相互関係を前記第１と第２の時間/周波数分解能（ＴＦＲ₁, ＴＦＲ₂）においてそれぞれ示している、ステップと、
前記複数のオーディオオブジェクトの少なくとも１つのオーディオオブジェクト（s_i）について、少なくとも前記第１と第２のサイド情報からある適性基準に基づいて１つのオブジェクト特有サイド情報を選択するステップであって、前記適性基準は、前記オーディオオブジェクト（s_i）を時間／周波数ドメインで表現するための少なくとも前記第１又は第２の時間／周波数分解能の適性を示しており、前記オブジェクト特有サイド情報は前記オーディオ符号器によって出力される前記サイド情報（ＰＳＩ）の中に導入される、ステップと、
を含む方法。
ダウンミックス信号（Ｘ）とサイド情報（ＰＳＩ）とからなるマルチオブジェクト・オーディオ信号を復号化するオーディオ復号器であって、前記サイド情報は、少なくとも１つの時間／周波数領域（Ｒ(t_R,f_R)）における少なくとも１つのオーディオオブジェクト（s_i）についてのオブジェクト特有サイド情報（ＰＳＩ_i）と、前記少なくとも１つの時間／周波数領域（Ｒ(t_R,f_R)）における少なくとも１つのオーディオオブジェクト（s_i）についての前記オブジェクト特有サイド情報のオブジェクト特有時間／周波数分解能（ＴＦＲ_h）を示すオブジェクト特有時間／周波数分解能情報（ＴＦＲＩ_i）と、を含み、
前記少なくとも１つのオーディオオブジェクト（s_i）について、前記サイド情報（ＰＳＩ）から前記オブジェクト特有時間／周波数分解能情報（ＴＦＲＩ_i）を決定するよう構成されたオブジェクト特有時間／周波数分解能決定部（１１０）と、
前記オブジェクト特有時間／周波数分解能（ＴＦＲＩ_i）に従って前記オブジェクト特有サイド情報を使用して、前記ダウンミックス信号（Ｘ）から前記少なくとも１つのオーディオオブジェクト（s_i）を分離するよう構成されたオブジェクト分離部（１２０）であって、前記ダウンミックス信号内の少なくとも１つの他のオーディオオブジェクト（s_j）についてのオブジェクト特有サイド情報は異なるオブジェクト特有時間／周波数分解能（ＴＦＲ）を有する、オブジェクト分離部（１２０）と、
を含むオーディオ復号器。
ダウンミックス信号（Ｘ）とサイド情報（ＰＳＩ）とからなるマルチオブジェクト・オーディオ信号を復号化する方法であって、前記サイド情報は、少なくとも１つの時間／周波数領域（Ｒ(t_R,f_R)）における少なくとも１つのオーディオオブジェクト（s_i）についてのオブジェクト特有サイド情報（ＰＳＩ_i）と、前記少なくとも１つの時間／周波数領域（Ｒ(t_R,f_R)）における少なくとも１つのオーディオオブジェクト（s_i）についての前記オブジェクト特有サイド情報のオブジェクト特有時間／周波数分解能（ＴＦＲ_h）を示すオブジェクト特有時間／周波数分解能情報（ＴＦＲＩ_i）と、を含み、
前記方法は、
前記少なくとも１つのオーディオオブジェクト（s_i）について、前記サイド情報（ＰＳＩ）から前記オブジェクト特有時間／周波数分解能情報（ＴＦＲＩ_i）を決定するステップと、
前記オブジェクト特有時間／周波数分解能（ＴＦＲＩ_i）に従って前記オブジェクト特有サイド情報を使用して、前記ダウンミックス信号（Ｘ）から前記少なくとも１つのオーディオオブジェクト（s_i）を分離するステップであって、前記ダウンミックス信号内の少なくとも１つの他のオーディオオブジェクト（s_j）についてのオブジェクト特有サイド情報は異なるオブジェクト特有時間／周波数分解能（ＴＦＲ）を有する、ステップと、
を含む方法。
コンピュータ上で作動したとき請求項１４、１５又は１７に記載の方法を実行する、コンピュータプログラム。