JP6285939B2

JP6285939B2 - 後方互換性のある多重分解能空間オーディオオブジェクト符号化のためのエンコーダ、デコーダおよび方法

Info

Publication number: JP6285939B2
Application number: JP2015535004A
Authority: JP
Inventors: ザーシャ・ディシュ; ハラルド・フッハス; ヨウニ・パウルス; レオン・テレンティフ; オリベル・ヘルムス; ユルゲン・ヘルレ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2018-02-28
Anticipated expiration: 2033-10-02
Also published as: AR092927A1; AU2013326516B2; WO2014053537A1; PT2904609T; KR101798117B1; TWI545559B; US11074920B2; CA2887228C; TW201423728A; JP2015535958A; BR112015007532A8; CA2887228A1; PL2904609T3; BR112015007532B1; MX2015004205A; EP2904609B1; RU2015116434A; KR20150073180A; BR112015007532A2; US20150213806A1

Description

本発明は、オーディオ信号符号化、オーディオ信号復号化およびオーディオ信号処理に関し、具体的には、後方互換性（backward compatible）のある多重分解能の空間オーディオオブジェクト符号化（ＳＡＯＣ：Spatial Audio Object Coding）のためのエンコーダ、デコーダおよび方法に関する。

最新のデジタル・オーディオ・システムにおいては、受信機側における、送信コンテンツのオーディオ−オブジェクト関連の修正を見込むことが主たる傾向である。これらの修正には、オーディオ信号の選択部分のゲイン修正、および／または空間的に分散されたスピーカを介する多チャネル再生の場合の専用オーディオオブジェクトの空間的再ポジショニングが含まれる。これは、オーディオ・コンテンツの異なる部分を異なるスピーカへ個々に送出することによって達成できる。

言い替えれば、オーディオ処理、オーディオ送信およびオーディオ蓄積の分野では、オブジェクト指向のオーディオ・コンテンツ再生に対するユーザ相互作用を見込む願望が高まり、また、聴覚印象を向上させるために、多チャネル再生の拡張された可能性を利用してオーディオ・コンテンツまたはその一部を個々に演出するという要望も高まっている。これにより、ユーザにとって、多チャネル・オーディオ・コンテンツの使用が大幅に向上する。例えば、三次元的聴覚印象の達成が可能であり、これにより、娯楽アプリケーションにおけるユーザの満足感は高まる。しかしながら、多チャネルオーディオ再生の使用により話者の了解度を高めることができるので、多チャネル・オーディオ・コンテンツは、職業環境、例えばテレビ会議のアプリケーションにおいても有益である。別の可能なアプリケーションは、楽曲の聴取者に、ボーカル部分または異なる楽器等の、異なる部分（「オーディオオブジェクト」とも称する）もしくはトラックの再生レベルおよび／または空間位置を個々に調整することを提案する。ユーザは、このような調整を、個人的な嗜好、楽曲の一部または複数部分のより容易な転写、教育上の目的、カラオケ、リハーサル、他の理由で実行することができる。

全てのデジタル多チャネルまたは多オブジェクト・オーディオ・コンテンツの、例えばパルス符号変調（ＰＣＭ）データ形式またはさらには圧縮されたオーディオフォーマット形式での直接的な離散送信は、極めて高いビットレートを要求する。しかしながら、同時に、オーディオデータをビットレート効率的な方法で送信しかつ蓄積することも望ましい。したがって、多チャネル／多オブジェクトアプリケーションに起因する過度なリソース負荷を回避するために、オーディオ品質とビットレート要件との間の妥当なトレードオフ（tradeoff）が歓迎される。

最近では、オーディオコーディングの分野において、多チャネル／多オブジェクトオーディオ信号のビットレート効率的な送信／蓄積のためのパラメトリック手法が、例えば、動画専門家グループ（ＭＰＥＧ：Moving Picture Experts Group）他によって導入されている。一例は、チャネル指向的手法［ＭＰＳ、ＢＣＣ］としてのＭＰＥＧ Surround（ＭＰＳ）、またはオブジェクト指向的手法［ＪＳＣ、ＳＡＯＣ、ＳＡＯＣ１、ＳＡＯＣ２］としてのＭＰＥＧ空間オーディオオブジェクト符号化（ＳＡＯＣ）である。別のオブジェクト指向的な手法は、「インフォームド・ソース分離（informed source separation）」［ＩＳＳ１、ＩＳＳ２、ＩＳＳ３、ＩＳＳ４、ＩＳＳ５、ＩＳＳ６］と称される。これらの技法の目的は、チャネル／オブジェクトのダウンミックスと、送信／蓄積されたオーディオシーンおよび／またはオーディオシーンにおけるオーディオ・ソース・オブジェクトについて記述する追加的なサイド情報とに基づいて、望ましい出力オーディオシーンまたは望ましいオーディオ・ソース・オブジェクトを再構成することにある。

このようなシステムにおけるチャネル／オブジェクト関連サイド情報の推定および適用は、時間−周波数選択式に行われる。したがって、このようなシステムは、離散フーリエ変換（ＤＦＴ：Discrete Fourier Transform）、短時間フーリエ変換（ＳＴＦＴ：Short Time Fourier Transform）または直交ミラーフィルタ（ＱＭＦ：Quadrature Mirror Filter）バンクのようなフィルタバンク、他等の時間−周波数変換を用いる。このようなシステムの基本原理は、図４に、ＭＰＥＧＳＡＯＣを例に用いて描かれている。

ＳＴＦＴの場合、時間次元は時間−ブロック番号で表され、スペクトル次元は分光係数（「ビン」）数字によって捕捉される。ＱＭＦの場合、時間次元は時間−スロット番号で表され、スペクトル次元はサブバンド番号によって捕捉される。ＱＭＦのスペクトル分解能が続く第２のフィルタ段の適用によって増大される場合は、フィルタバンク全体がハイブリッドＱＭＦと称され、精密分解能サブバンドはハイブリッドサブバンドと称される。

既に述べたように、ＳＡＯＣでは全体の処理は時間−周波数選択式に行われ、各周波数帯域内では下記のように記述することができる。

・Ｎ個の入力オーディオオブジェクト信号ｓ₁・・・ｓ_Nが、要素ｄ_1,1・・・ｄ_N,Pより成るダウンミックス行列を用いてエンコーダ処理の一部としてＰ個のチャネルｘ₁・・・ｘ_Pへダウンミックスされる。さらに、エンコーダは、入力されるオーディオオブジェクトの特徴を記述するサイド情報を抽出する（サイド情報推定器（ＳＩＥ）モジュール）。ＭＰＥＧＳＡＯＣの場合、オブジェクト電力の相対的な関係がこのようなサイド情報の最も基本的な形式である。

・ダウンミックス信号とサイド情報が送信／蓄積される。この目的のために、ダウンミックスオーディオ信号は、例えば、ＭＰＥＧ−１／２レイヤＩＩまたはＩＩＩ（ａｋａ．ｍｐ３）、ＭＰＥＧ−２／４アドバンスト・オーディオ・コーディング（ＡＡＣ：Advanced Audio Coding）等の周知の知覚オーディオコーダを用いて圧縮することができる。

・受信側において、デコーダは、概念的には、送信されたサイド情報を用いて（復号された）ダウンミックス信号からオリジナルのオブジェクト信号を復元（「オブジェクト分離」）しようとする。これの近似されたオブジェクト信号

は、次に、図４において係数ｒ_1,1・・・ｒ_N,Mにより記述されるレンダリング行列を用いて、Ｍ個のオーディオ出力チャネル

により表されるターゲットシーンにミックスされる。望ましいターゲットシーンは、極端な事例では混合物の中の１つだけのソース信号を実現するもの（ソース分離シナリオ）であってもよいが、送信された複数のオブジェクトより成る他の任意の音響シーンであってもよい。例えば、その出力は、単チャネル、２チャネルステレオまたは５．１多チャネルターゲットシーンであることができる。

時間−周波数ベースのシステムは、静的な時間および周波数分解能を有する時間−周波数（ｔ／ｆ）変換を利用することができる。所定の固定ｔ／ｆ分解能グリッドの選択は、典型的には、時間分解能と周波数分解能の間のトレードオフを包含する。

固定ｔ／ｆ分解能の効果は、オーディオ信号混合物における典型的なオブジェクト信号の例で説明することができる。例えば、トーン音のスペクトルは基本周波数と幾つかのオーバートーンをもつ調和関係のある構造を示す。このような信号のエネルギーは、所定の周波数領域に集中している。このような信号の場合、利用されるｔ／ｆ表現の高周波数分解能は、信号混合物から狭帯域トーンスペクトル領域を分離するために有益である。反対に、過渡信号は、ドラム音のように、明確な時間構成を有する場合が多く、即ち、実質的エネルギーは短時間でしか存在せず、かつ広範囲の周波数に渡って広がっている。これらの信号の場合、利用されるｔ／ｆ表現の高い時間分解能は、信号混合物から過渡信号部分を分離する際に効果的である。

標準ＳＡＯＣ表現から得られる周波数分解能は、標準ＳＡＯＣにおいて最大値２８を有するパラメトリック帯域数に限定される。それらは、６４バンドＱＭＦ分析より成るハイブリッドＱＭＦバンクであって、最も低い帯域にこれらの帯域をさらに４つまでの複合サブバンドに分割する追加的なハイブリッドフィルタリング段をもつものとから得られる。得られる周波数帯域は、ヒト聴覚系の臨界帯域分解能を模倣するパラメトリック帯域にグルーピングされる。そのグルーピングにより、要求されるサイド情報データレートを実際の適用において効率的に処理され得るサイズまで低減できる。

現行のオーディオオブジェクト符号化スキームは、ＳＡＯＣ処理の時間−周波数選択性における多様性が限られている。例えば、ＭＰＥＧＳＡＯＣ［ＳＡＯＣ］［ＳＡＯＣ１］［ＳＡＯＣ２］は、所謂ハイブリッド直交ミラーフィルタバンク（ハイブリッド−ＱＭＦ）およびこれに続くパラメトリック帯域へのグルーピングの使用によって取得され得る時間−周波数分解能に限定される。したがって、標準ＳＡＯＣにおけるオブジェクト復元は、他のオーディオオブジェクトからの可聴変調クロストーク（例えば、音声におけるダブルトークアーティファクト、または音楽における聴覚粗さアーティファクト）に繋がるハイブリッド−ＱＭＦの粗な周波数分解能に煩わされる場合が多い。

既存のシステムは、適度に低いデータレートであれば適度な分離品質をもたらす。主たる問題点は、トーン音をきれいに分離するには周波数分解能が不十分な点にある。これは、オブジェクトのトーン成分を取り巻く他のオブジェクトの「ハロ（halo）」として表れる。知覚的には、これは、粗さまたはボコーダ状アーティファクトとして観測される。このハロの有害な影響は、パラメトリック周波数分解能を増大させることによって減らすことができる。（４４．１ｋＨｚのサンプリング速度で）５１２バンド以上の分解能は、試験信号において知覚的に著しく向上した分離をもたらすに足ることが示された。このような高いパラメトリック分解能の場合の問題点は、必要とされるサイド情報の量が非実際的な量にまで著しく増大することにある。さらに、既存の標準ＳＡＯＣシステムとの互換性も失われることになる。

したがって、こうした従来技術に関わる上述の制約を克服する方法について教示する概念を提供することができれば有益である。

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003. [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006. [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007. [SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008. [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010. [AAC] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, "ISO/IEC MPEG-2 Advanced Audio Coding", J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997. [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixture using Source Index Embedding", IEEE ICASSP, 2010. [ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010. [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011. [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011. [ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011. [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011. [ISS7] A. Nesbit, E. Vincent, and M. D. Plumbley: "Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation", IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.

本発明の目的は、オーディオオブジェクト符号化のためのこのような改良された概念を提供することにある。

本発明のこの目的は、請求項１に記載のデコーダ、請求項９に記載のエンコーダ、請求項１４に記載の符号化されたオーディオ信号、請求項１５に記載のシステム、請求項１６に記載の復号方法、請求項１７に記載の符号化方法および請求項１８に記載のコンピュータプログラムによって解決される。

従来技術によるＳＡＯＣとは対照的に、本発明の実施形態は、次のようなスペクトルパラメータ化を提供する。
標準ＳＡＯＣエンコーダから発生するＳＡＯＣパラメータ・ビット・ストリームを、強化デコーダによっても、標準デコーダで得ることのできるものに匹敵する知覚品質で復号することができ、
強化ＳＡＯＣパラメータ・ビット・ストリームを、標準ＳＡＯＣデコーダで、標準ＳＡＯＣビットストリームで得ることのできるものに匹敵する品質で復号することができ、
強化ＳＡＯＣパラメータ・ビット・ストリームを、強化デコーダにより最適品質で復号することができ、
強化ＳＡＯＣデコーダが、エンハンスメントレベルを、例えば利用可能な計算リソースに依存して動的に調整することができ、
標準および強化ＳＡＯＣパラメータ・ビット・ストリームを、例えば多地点制御装置（ＭＣＵ：multi-point control unit）シナリオにおいて、デコーダにより提供される品質で、標準または強化デコーダによって復号され得る１つの共通ビットストリームに混合することができ、かつ、
追加的なパラメータ化がコンパクトである。

上述の特性に関して言えば、標準ＳＡＯＣデコーダによって理解されるが、より高い周波数分解能における情報の効率的送達をも見込むパラメータ化を有することが好ましい。基礎を成す時間−周波数表現の分解能は、強化の最大効率を決定する。本発明は、ここに、強化された高周波数情報をコンパクトでありかつ後方互換性のある復号を許容する方法で送達するための方法を定義する。

強化されたＳＡＯＣ知覚品質は、例えば、オーディオ・オブジェクト・キューの推定に採用される、またはオーディオ・オブジェクト・キューの合成に使用されるフィルタバンクまたは変換の時間−周波数分解能を入力オーディオオブジェクトの固有の特性に動的に適合化することによって得ることができる。例えば、オーディオオブジェクトが所定の時間スパンの間、準定常であれば、パラメータ推定と合成は、粗い時間分解能と密な周波数分解能で効果的に実行される。オーディオオブジェクトが所定の時間スパンの間、過渡または非定常性を包含すれば、パラメータ推定と合成は、密な時間分解能と粗い周波数分解能を用いて効果的に行われる。これにより、フィルタバンクまたは変換の動的な適合は、下記を可能にする。すなわち、
オブジェクト間クロストークを回避するために、準定常信号のスペクトル分離では周波数選択性を高くすること、および、
プレエコーおよびポストエコーを最小限に抑えるために、オブジェクト開始または過渡事象に対しては時間精度を高くすること。

同時に、伝統的なＳＡＯＣ品質は、標準ＳＡＯＣデータを、オブジェクト信号特性を記述するサイド情報に依存する発明的な後方互換性信号適応変換により提供される時間／周波数グリッド上へマッピングすることによって得ることができる。

標準ＳＡＯＣデータと強化ＳＡＯＣデータの双方を、１つの共通変換を用いて復号可能であることは、標準ＳＡＯＣデータと新規な強化ＳＡＯＣデータのミキシングを包含するアプリケーションに対する直接的な後方互換性を可能にする。また、これは、標準品質を凌ぐ時間−周波数選択的強化を可能にする。

提供する実施形態は、特定の時間−周波数変換に限定されるものではなく、十分に高い周波数分解能を提供するあらゆる変換に適用することができる。明細書では、切換式時間−周波数分解能を有する離散フーリエ変換（ＤＦＴ：Discrete Fourier Transform）ベースのフィルタバンクへの適用について記述する。この手法では、時間領域信号がより短いブロックに細分され、それらのブロックは重なり合うこともある。それらのより短い各ブロックにおける信号は、ウインドウイング（windowing）関数（通常、真ん中に大きい値を有し、漸減して両端でゼロになる）によって重み付けされる。最後に、重み付けされた信号は、選択された変換によって、この場合はＤＦＴの適用によって、周波数領域へ変換される。

複数の非混合オーディオチャネル（un-mixed audio channel）を含む非混合オーディオ信号（un-mixed audio signal）を生成するためのデコーダを提供する。本デコーダは、少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報および少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を受信することによって、非混合情報（un-mixing-information）を決定するための非混合情報決定器を備えている。その際、第２のパラメトリックサイド情報の周波数分解能は、第１のパラメトリックサイド情報の周波数分解能より高い。さらに、本デコーダは、複数の非混合オーディオチャネル（un-mixed audio channel）を含む非混合オーディオ信号（un-mixed audio signal）を得るために、少なくとも１つのオーディオオブジェクト信号のダウンミックスを示すダウンミックス信号に非混合情報を適用するための非混合モジュール（un-mix module）を備えている。非混合情報決定器は、修正されたパラメトリック情報が第１の周波数分解能より高い周波数分解能を有するように、第１のパラメトリック情報および第２のパラメトリック情報を修正して修正されたパラメトリック情報を得ることにより、非混合情報を決定するように構成されている。

さらに、１つまたは複数の入力されるオーディオオブジェクト信号を符号化するためのエンコーダを提供する。本エンコーダは、１つまたは複数のダウンミックス信号を得るために、入力された１つまたは複数のオーディオオブジェクト信号をダウンミックスするためのダウンミックスユニットを備えている。さらに、本エンコーダは、第２のパラメトリックサイド情報の周波数分解能が第１のパラメトリックサイド情報の周波数分解能より高くなるように、少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報および少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を発生するためのパラメトリックサイド情報発生器を備えている。

さらに、符号化されたオーディオ信号を提供する。本符号化されたオーディオ信号は、１つまたは複数の入力されたオーディオオブジェクト信号のダウンミックスを示すダウンミックス部分と、少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報および少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を含むパラメトリックサイド情報部分とを含んでいる。第２のパラメトリックサイド情報の周波数分解能は、第１のパラメトリックサイド情報の周波数分解能より高い。

さらに、システムを提供する。本システムは、先に述べたようなエンコーダと、先に述べたようなデコーダとを備えている。そのエンコーダは、１つまたは複数の入力されたオーディオオブジェクト信号のダウンミックスを示す１つまたは複数のダウンミックス信号を得ることと、少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報を入手することと、少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を入手することによって、１つまたは複数の入力されたオーディオオブジェクト信号を符号化するように構成され、第２のパラメトリックサイド情報の周波数分解能は、第１のパラメトリックサイド情報の周波数分解能より高い。そのデコーダは、非混合オーディオ信号を、１つまたは複数のダウンミックス信号に基づいて、かつ第１のパラメトリックサイド情報および第２のパラメトリックサイド情報に基づいて発生するように構成されている。

そのエンコーダは、１つまたは複数の入力されたオーディオオブジェクト信号のダウンミックスを示す１つまたは複数のダウンミックス信号を得ることと、少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報を得ることと、少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を得ることによって、１つまたは複数の入力されたオーディオオブジェクト信号を符号化するように構成され、第２のパラメトリックサイド情報の周波数分解能は、第１のパラメトリックサイド情報の周波数分解能より高い。そのデコーダは、オーディオ出力信号を、１つまたは複数のダウンミックス信号に基づいて、かつ第１のパラメトリックサイド情報および第２のパラメトリックサイド情報に基づいて発生するように構成されている。

さらに、複数の非混合オーディオチャネルを含む非混合オーディオ信号を発生するための方法を提供する。本方法は、
少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報および少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を受信することによって非混合情報を決定することであって、第２のパラメトリックサイド情報の周波数分解能は第１のパラメトリックサイド情報の周波数分解能より高いことと、
複数の非混合オーディオチャネルを含む非混合オーディオ信号を得るために、少なくとも１つのオーディオオブジェクト信号のダウンミックスを示すダウンミックス信号に非混合情報を適用すること、を含む。

非混合情報を決定することは、修正されたパラメトリック情報が第１の周波数分解能より高い周波数分解能を有するように、第１のパラメトリック情報および第２のパラメトリック情報を修正して修正されたパラメトリック情報を得ることを含む。

さらに、１つまたは複数の入力されたオーディオオブジェクト信号を符号化するための方法を提供する。本方法は、
１つまたは複数のダウンミックス信号を得るために、入力された１つまたは複数のオーディオオブジェクト信号をダウンミックスすることと、
第２のパラメトリックサイド情報の周波数分解能が第１のパラメトリックサイド情報の周波数分解能より高くなるように、少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報および少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を発生すること、を含む。

さらに、コンピュータまたは信号プロセッサ上で実行される場合に、上述の方法のうちの１つを実装するためのコンピュータプログラムを提供する。

好適な実施形態については、従属請求項において提示する。

以下、図面を参照して、本発明の実施形態をより詳細に説明する。

図１Ａは一実施形態によるデコーダを示す。図１Ｂは別の実施形態によるデコーダを示す。図２Ａは一実施形態によるエンコーダを示す。図２Ｂは別の実施形態によるエンコーダを示す。図２Ｃは一実施形態による符号化されたオーディオ信号を示す。図３は一実施形態によるシステムを示す。図４はＳＡＯＣシステムの概念的概観を示す概略ブロック図である。図５は単チャネルオーディオ信号の時間−スペクトル表現を示す例示的な略図である。図６はＳＡＯＣエンコーダ内のサイド情報の時間−周波数選択的計算を示す略ブロック図である。図７は実施形態による後方互換性表現を示す。図８は一実施形態による真のパラメータ値と低分解能平均値との間の差曲線を示す。図９は、一実施形態による、エンハンスメントをもった後方互換性のあるビットストリームを提供する強化エンコーダを描いた高レベル図解である。図１０はエンコーダのパラメトリック経路を実装する特定の一実施形態によるエンコーダを示すブロック図である。図１１は、標準ビットストリームと強化ビットストリームの双方を復号することができる、一実施形態による強化デコーダを描いた高レベルブロック図である。図１２は強化ＰＳＩ復号ユニットの一実施形態を示すブロック図である。図１３は、一実施形態による、強化ＳＡＯＣデコーダによる標準ＳＡＯＣビットストリームの復号を描いたブロック図である。図１４は、一実施形態による、デコーダの主要な機能ブロックを描いたものである。図１５は、トーン信号およびノイズ信号を特に高分解能電力スペクトルで示したものと、対応する粗な復元を示す。図１６は、双方の信号例の修正、具体的には、信号例の補正係数を示す。図１７は双方の信号例のオリジナル補正係数および低次元線形予測ベースの近似を示す。図１８はモデリングされた補正係数を粗な復元に適用した結果を示す。

本発明の実施形態について述べる前に、従来技術であるＳＡＯＣシステムの背景をさらに詳述する。

図４はＳＡＯＣエンコーダ１０およびＳＡＯＣデコーダ１２の全体の配置を示す。ＳＡＯＣエンコーダ１０は、入力としてＮ個のオブジェクト、即ちオーディオ信号ｓ₁−ｓ_Nを受信する。具体的には、エンコーダ１０は、オーディオ信号ｓ₁−ｓ_Nを受信しかつこれをダウンミックス信号１８へダウンミックスするダウンミキサ１６を備えている。あるいは、ダウンミックスは外部から提供されてもよく（「アーティスティックダウンミックス」）、その場合、システムは提供されたダウンミックスを計算されたダウンミックスに一致させるために追加的なサイド情報を推定する。図４において、ダウンミックス信号はＰチャネル信号であるものとして示されている。したがって、モノ（Ｐ＝１）、ステレオ（Ｐ＝２）または多チャネル（Ｐ＞２）ダウンミックス信号構成の何れもが考えられる。

ステレオダウンミックスの場合、ダウンミックス信号１８のチャネルはＬ０とＲ０で示され、モノダウンミックスの場合は単にＬ０で示される。ＳＡＯＣデコーダ１２が個々のオブジェクトｓ₁−ｓ_Nを回復できるようにするために、サイド情報推定器１７はＳＡＯＣデコーダ１２にＳＡＯＣパラメータを含むサイド情報を提供する。例えば、ステレオダウンミックスの場合、ＳＡＯＣパラメータは、オブジェクトレベル差（ＯＬＤ：object level difference）、オブジェクト間相関（ＩＯＣ：inter-object correlation）（オブジェクト間相互相関パラメータ）、ダウンミックス利得値（ＤＭＧ：downmix gain value）およびダウンミックス・チャネル・レベル差（ＤＣＬＤ：downmix channel level difference）を含む。ＳＡＯＣパラメータを含むサイド情報２０は、ダウンミックス信号１８と共に、ＳＡＯＣデコーダ１２により受信されるＳＡＯＣ出力データストリームを形成する。

ＳＡＯＣデコーダ１２は、オーディオ信号

および

を復元してユーザが選択する任意のチャネルセット

上へレンダリングするために、サイド情報２０だけでなくダウンミックス信号１８も受信するアップミキサを備えている。そのレンダリングは、ＳＡＯＣデコーダ１２へ入力されるレンダリング情報２６によって規定される。

オーディオ信号ｓ₁−ｓ_Nは、時間領域またはスペクトル領域のような任意の符号化領域でエンコーダ１０へ入力することができる。オーディオ信号ｓ₁−ｓ_NがＰＣＭ符号化のような時間領域でエンコーダ１０へ供給される場合は、エンコーダ１０はその信号をスペクトル領域へ伝達するためにハイブリッドＱＭＦバンクのようなフィルタバンクを用いることができ、スペクトル領域において、オーディオ信号は異なるスペクトル部分に関連づけられる幾つかのサブバンドにおいて固有のフィルタバンク分解能で表現される。オーディオ信号ｓ₁−ｓ_Nが既にエンコーダ１０により予期される表現になっている場合は、エンコーダ１０はスペクトル分解を実行する必要がない。

図５は直前で述べたスペクトル領域におけるオーディオ信号を示す。図から分かるように、オーディオ信号は複数のサブバンド信号として表されている。各サブバンド信号３０₁−３０_Kは、小さいボックス３２により示されるサブバンド値の時間シーケンスより成る。図から分かるように、サブバンド信号３０₁−３０_Kのサブバンド値３２は、連続するフィルタバンク時間スロット３４の各々について、各サブバンド３０₁−３０_Kが正確に１つのサブバンド値３２を含むように、互いに時間的に同期している。周波数軸３６により示されるように、サブバンド信号３０₁−３０_Kは異なる周波数領域に関連づけられ、かつ時間軸３８によって示されるように、フィルタバンク時間スロット３４は時間的に連続して配置されている。

先に概説したように、図４のサイド情報抽出器１７は、入力されたオーディオ信号ｓ₁−ｓ_NからＳＡＯＣパラメータを計算する。現時点で実装されるＳＡＯＣ標準によれば、エンコーダ１０は、この計算を、フィルタバンク時間スロット３４およびサブバンド分解により決定されるオリジナルの時間／周波数分解能より所定量だけ低減される場合のある時間／周波数分解能で実行し、この低減された所定量はサイド情報２０内の情報としてデコーダ側へ知らされる。連続するフィルタバンク時間スロット３４群はＳＡＯＣフレーム４１を形成することができる。ＳＡＯＣフレーム４１内のパラメータ帯域の数も、同じくサイド情報２０内の情報として伝達される。このように、時間／周波数領域は、図５において破線４２により例示される時間／周波数タイルに分割される。図５において、パラメータ帯域は、時間／周波数タイルの規則的配列が得られるように、図示されている様々なＳＡＯＣフレーム４１において同様に配分される。しかしながら、一般的には、パラメータ帯域は、個々のＳＡＯＣフレーム４１におけるスペクトル分解能に対する異なる必要性に応じてＳＡＯＣフレーム４１間で変わってもよい。さらに、ＳＡＯＣフレーム４１の長さも変わってもよい。結果として、時間／周波数タイルの配列は不規則であってもよい。それにもかかわらず、ある特定のＳＡＯＣフレーム４１内の時間／周波数タイルは、典型的には同じ持続時間をもって時間方向に配列され、即ち、そのＳＡＯＣフレーム４１内の全てのｔ／ｆタイルは、そのＳＡＯＣフレーム４１の始まりにおいて始まり、かつそのＳＡＯＣフレーム４１の終わりで終わる。

図４に描かれているサイド情報抽出器１７は次の式に従ってＳＡＯＣパラメータを計算する。具体的には、サイド情報抽出器１７は、各オブジェクトｉのオブジェクトレベル差を、

として計算する。ここで、和および指数ｎ、ｋは各々、ＳＡＯＣフレーム（または処理用時間スロット）の指数ｌとパラメータ帯域のｍで表わされる所定の時間／周波数タイル４２に属する全ての時間指数３４および全てのスペクトル指数３０に及び、χ_i ^n,k*はχ_i ^n,kの複素共役である。これにより、あるオーディオ信号またはオブジェクトｉの全てのサブバンド値χ_iのエネルギーが合計され、かつ全てのオブジェクトまたはオーディオ信号のうちのそのタイルの最高エネルギー値に対して正規化される。

さらに、ＳＡＯＣサイド情報抽出器１７は、異なる入力オブジェクトｓ₁−ｓ_Nのペアの対応する時間／周波数タイルの相似度（similarity measure）を計算することができる。ＳＡＯＣサイド情報抽出器１７は、入力オブジェクトｓ₁−ｓ_Nの全ペア間の相似度を計算してもよいが、計算した相似度を伝えることを抑えてもよく、または共通ステレオチャネルの右または左のチャネルを形成するオーディオオブジェクトｓ₁−ｓ_Nに対する相似度の計算を制限してもよい。いずれの場合も、相似度はオブジェクト間相互相関パラメータ（inter-object cross-correlation parameter）

と呼ばれる。計算式は、次の通りである。

ここで、同じく、指数ｎおよびｋは所定の時間／周波数タイル４２に属する全てのサブバンド値に及び、ｉおよびｊはオーディオオブジェクトｓ₁−ｓ_Nの所定のペアを示し、かつＲe{ ｝は複素数値引数の実数部のみを保持する（即ち、虚数部を放棄する）演算を示す。

図４のダウンミキサ１６は、オブジェクトｓ₁−ｓ_Nの各々へ適用される利得係数を用いてオブジェクトｓ₁−ｓ_Nをダウンミックスする。即ち、利得係数ｄ_iがオブジェクトｉへ適用され、次に、こうして重み付けされた全てのオブジェクトｓ₁−ｓ_Nが合計されてモノダウンミックス信号が得られる。これは、図４においてＰ＝１の場合の例として示される。図４においてＰ＝２として示される２チャネルダウンミックス信号の別の事例では、利得係数ｄ_1,iがオブジェクトｉへ適用され、次にこうして利得増幅された全てのオブジェクトが合計されて左のダウンミックスチャネルＬ０が得られ、かつ利得係数ｄ_2,iがオブジェクトｉへ適用され、次にこうして利得増幅された全てのオブジェクトが合計されて右のダウンミックスチャネルＲ０が得られる。多チャネルダウンミックス（Ｐ＞２）の場合にも、上記と同様の処理が適用される。

このダウンミックス処理は、ダウンミックス利得ＤＭＧ_iによってデコーダ側へ伝えられ、ステレオダウンミックス信号の場合はダウンミックス・チャネル・レベル差ＤＣＬＤ_iによってデコーダ側へ伝えられる。

ダウンミックス利得は、次式、
ＤＭＧ_i＝２０ｌｏｇ₁₀（ｄ_i＋ε）（モノダウンミックス）、
ＤＭＧ_i＝１０ｌｏｇ₁₀（ｄ_1,i ²＋ｄ_2,i ²＋ε）（ステレオダウンミックス）
に従って計算される。但し、εは１０^-9のような小値である。

ＤＣＬＤの場合、次の式が適用される。

正規モードにおいて、ダウンミキサ１６は、ダウンミックス信号を、モノダウンミックスの場合、

に従って、または、ステレオダウンミックスの場合、

に従って生成する。

したがって、上述の式において、変数ＯＬＤとＩＯＣはオーディオ信号の関数であり、変数ＤＭＧとＤＣＬＤはダウンミックス係数ｄの関数である。ただし、ｄは時間に関しても周波数に関しても変わりうる。

したがって、正規モードにおいて、ダウンミキサ１６は全てのオブジェクトｓ₁−ｓ_Nを優先順位をつけることなく、即ち全てのオブジェクトｓ₁−ｓ_Nを均等に扱ってミックスする。

デコーダ側において、アップミキサは、ダウンミックス手順の逆、および行列Ｒ（本明細書ではＡと称する場合もある）で表される「レンダリング情報」２６の実装を１つの計算ステップにおいて、即ち、２チャネルダウンミックスの場合、

において実行する。但し、行列Ｅは変数ＯＬＤおよびＩＯＣの関数であり、行列Ｄは

のようにダウンミックス係数を含み、かつＤ^*はＤの複素転置を示す。行列Ｅは、オーディオオブジェクトｓ₁−ｓ_Nの推定される共分散行列である。現行のＳＡＯＣ実装において、推定される共分散行列Ｅの計算は、典型的には、ＳＡＯＣパラメータのスペクトル／時間分解能で実行され、即ち、各（ｌ，ｍ）について実行され、よって、推定される共分散行列をＥ^l,mと書くことができる。推定される共分散行列Ｅ^l,mのサイズはＮ×Ｎであり、その係数は、次式のように定義される。

したがって、

である行列Ｅ^l,mは、ｉ＝ｊの場合、

および

であるので、その対角線沿いにオブジェクトレベル差、即ちｉ＝ｊの場合の

を有する。その対角線の外側において、推定される共分散行列Ｅは、オブジェクト間相互相関度（inter-object cross correlation measure）

で重み付けされたオブジェクトｉおよびｊ各々のオブジェクトレベル差の幾何学的平均を表す行列係数を有する。

図６は、ＳＡＯＣエンコーダ１０の一部としてのサイド情報推定器（ＳＩＥ：Side Information Estimator）の例に関する可能な１つの実装原理を表示したものである。ＳＡＯＣエンコーダ１０は、ミキサ１６とサイド情報推定器（ＳＩＥ）１７とを備えている。サイド情報推定器は、概念的には２つのモジュールからなる。一方のモジュール４５は各信号の短時間ベースのｔ／ｆ表現（例えば、ＳＴＦＴまたはＱＭＦ）を計算する。計算された短時間ｔ／ｆ表現は、第２のモジュール４６、即ちｔ／ｆ選択性サイド情報推定モジュール（ｔ／ｆ−ＳＩＥ：t/f-selective Side Information Estimation module）へ供給される。ｔ／ｆ−ＳＩＥモジュール４６は各ｔ／ｆ−タイル毎にサイド情報を計算する。現行のＳＡＯＣ実装においては、時間／周波数変換は固定されており、オーディオオブジェクトｓ₁−ｓ_Nの全てについて同一である。さらに、ＳＡＯＣパラメータは、全てのオーディオオブジェクトで同一でありかつ全てのオーディオオブジェクトｓ₁−ｓ_Nで同じ時間／周波数分解能を有するＳＡＯＣフレームに渡って決定され、かくして、幾つかの事例における精密な時間分解能、または他の事例における精密なスペクトル分解能に対するオブジェクト固有のニーズは無視されている。

以下、本発明の実施形態について説明する。

図１Ａは、一実施形態による、複数の非混合オーディオチャネルを含む非混合オーディオ信号を生成するためのデコーダを示す。

本デコーダは、少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報および少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を受信することによって、非混合情報を決定するための非混合情報決定器１１２を備え、第２のパラメトリックサイド情報の周波数分解能は、第１のパラメトリックサイド情報の周波数分解能より高い。

さらに、本デコーダは、複数の非混合オーディオチャネルを含む非混合オーディオ信号を得るために、少なくとも１つのオーディオオブジェクト信号のダウンミックスを示すダウンミックス信号に非混合情報を適用するための非混合モジュール１１３を備えている。

非混合情報決定器１１２は、修正されたパラメトリック情報が第１の周波数分解能より高い周波数分解能を有するように、第１のパラメトリック情報および第２のパラメトリック情報を修正して修正されたパラメトリック情報を得ることにより、非混合情報を決定するように構成されている。

図１Ｂは、別の実施形態による、複数の非混合オーディオチャネルを含む非混合オーディオ信号を生成するためのデコーダを示す。図１Ｂのデコーダは、さらに、時間−周波数領域において表現されるダウンミックス信号を得るべく時間領域において表現されたダウンミックス入力を変換するための第１の変換ユニット１１１を備えている。さらに、図１Ｂのデコーダは、非混合オーディオ信号を時間−周波数領域から時間領域へ変換するための第２の変換ユニット１１４を備えている。

図２Ａは、一実施形態による、１つまたは複数の入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。

本エンコーダは、１つまたは複数のダウンミックス信号を得るために、入力された１つまたは複数のオーディオオブジェクト信号をダウンミックスするためのダウンミックスユニット９１を備えている。

さらに、本エンコーダは、第２のパラメトリックサイド情報の周波数分解能が第１のパラメトリックサイド情報の周波数分解能より高くなるように、少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報および少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を発生するためのパラメトリックサイド情報発生器９３を備えている。

図２Ｂは、別の実施形態による、１つまたは複数の入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。図２Ｂのエンコーダは、さらに、１つまたは複数の変換されたオーディオオブジェクト信号を得るために、１つまたは複数の入力されたオーディオオブジェクト信号を時間領域から時間−周波数領域へ変換するための変換ユニット９２を備えている。図２Ｂの実施形態において、パラメトリックサイド情報発生器９３は、１つまたは複数の変換されたオーディオオブジェクト信号に基づいて第１のパラメトリックサイド情報および第２のパラメトリックサイド情報を発生するように構成されている。

図２Ｃは、一実施形態による符号化されたオーディオ信号を示す。この符号化されたオーディオ信号は、１つまたは複数の入力されたオーディオオブジェクト信号のダウンミックスを示すダウンミックス部分５１と、少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報および少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を備えるパラメトリックサイド情報部分５２とを含む。第２のパラメトリックサイド情報の周波数分解能は、第１のパラメトリックサイド情報の周波数分解能より高い。

図３は、一実施形態によるシステムを示す。本システムは、先に述べたようなエンコーダ６１と、先に述べたようなデコーダ６２とを備えている。

エンコーダ６１は、１つまたは複数の入力されたオーディオオブジェクト信号のダウンミックスを示す１つまたは複数のダウンミックス信号を得ることと、少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報を得ることと、少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報を得ることによって、１つまたは複数の入力されたオーディオオブジェクト信号を符号化するように構成され、第２のパラメトリックサイド情報の周波数分解能は第１のパラメトリックサイド情報の周波数分解能より高い。

デコーダ６２は、非混合オーディオ信号を、１つまたは複数のダウンミックス信号に基づいて、かつ第１のパラメトリックサイド情報および第２のパラメトリックサイド情報に基づいて発生するように構成されている。

以下、後方互換性のある周波数分解能の改良を用いる強化ＳＡＯＣについて説明する。

図７は実施形態による後方互換性表現を示す。表現されるべき信号特性、例えばパワースペクトル包絡線７１は、周波数に渡って変わる。周波数軸はパラメータ帯域に分割され、かつサブバンド毎に単一セットの信号記述子が割り当てられている。各周波数ビンに個々に記述子を割り当てる代わりにサブバンド毎の信号記述子を使用すれば、知覚品質を著しく失うことなく必要なサイド情報の量を節約することができる。標準ＳＡＯＣにおいて、各帯域の単一記述子は、そのビン関連記述子の平均値７２、７３、７４である。これはその大きさが信号特性に依存する情報の損失を招く場合がある、ということがわかる。図７において、帯域Ｋ−１とＫは極めて大きいエラーを有するが、帯域Ｋ＋１はエラーが遙かに少ない。

図８は、一実施形態による、真のパラメータ値と低分解能平均値との間の差曲線８１、例えば、標準ＳＡＯＣパラメータ化において失われる微細構造情報を示す。本明細書では、平均値７２、７３、７４（例えば、標準ＳＡＯＣ記述子）と真の精密分解能値との間の差曲線８１を、デコーダにおける精密分解能構成の近似を可能にする効率的な方式でパラメータ化しかつ送信するための方法について述べる。

混合体における単一オブジェクトへエンハンスメント情報を追加することが、その特有のオブジェクトの結果的な品質を向上させるだけでなく、近似空間ロケーションを共有しかつ幾分かのスペクトルの重なりを有する全オブジェクトの品質をも向上させることに留意すべきである。

以下、強化エンコーダを用いた後方互換性のある強化ＳＡＯＣ符号化、具体的には、後方互換性サイド情報部分および追加的なエンハンスメントを含むビットストリームを生成する強化ＳＡＯＣエンコーダについて述べる。古い規格準拠のデコーダは単に追加データを無視するが、強化デコーダはこれを利用するような方法で追加される情報を標準ＳＡＯＣビットストリームへ挿入することができる。既存の標準ＳＡＯＣデコーダは、パラメトリックサイド情報（ＰＳＩ：parametric side information）の後方互換性部分を復号してオブジェクトの復元を生成することはできるが、強化ＳＡＯＣデコーダにより使用される追加情報はほとんどの場合に復元の知覚品質を向上させるものである。また、強化ＳＡＯＣデコーダが限定的なリソース上で実行される場合、エンハンスメントは無視される可能性があっても、基本的な品質の復元は達成される。留意すべきことは、標準ＳＡＯＣデコーダからの復元と、標準ＳＡＯＣ準拠のＰＳＩのみを用いる強化ＳＡＯＣデコーダからの復元とは異なるが、知覚的には極めて似ていると判断されることである（その相違は、標準ＳＡＯＣビットストリームを強化ＳＡＯＣデコーダで復号する場合と同類のものである。）。

図９は、一実施形態による、エンハンスメントをもった後方互換性のあるビットストリームを提供する強化エンコーダを描いた高レベル図解である。

本エンコーダは、１つまたは複数のダウンミックス信号を得るために、複数のオーディオオブジェクト信号をダウンミックスするためのダウンミックスユニット９１を備えている。例えば、オーディオオブジェクト信号（例えば、個々の（オーディオ）オブジェクト）は、ダウンミックス信号を生成するために、ダウンミックスユニット９１により使用される。ダウンミックス信号は、時間領域、周波数領域において発生してもよいが、外部から提供されるダウンミックスも使用することができる。

ＰＳＩ経路において、（オーディオ）オブジェクト信号は、変換ユニット９２（例えば、１つまたは複数のｔ／ｆ変換サブユニット９２１、９２２を備えた変換ユニット９２）により、時間領域から周波数領域、時間−周波数領域またはスペクトル領域へ変換される。

さらに、このエンコーダは、パラメトリックサイド情報を発生するためのパラメトリックサイド情報発生器９３を備えている。図９の実施形態において、パラメトリックサイド情報発生器９３は、例えば、ＰＳＩ抽出ユニット９４とＰＳＩスプリッタ９５とを備えることができる。このような実施形態によれば、周波数領域において、ＰＳＩはＰＳＩ抽出ユニット９４によって抽出される。次に、ＰＳＩスプリッタ９５が、ＰＳＩを２つの部分、即ち任意の規格準拠ＳＡＯＣデコーダで復号できる標準周波数分解能部分と、強化された周波数分解能部分とに分割する。強化された周波数分解能部分は、標準デコーダでは無視され、強化デコーダでは利用されるように、ビット・ストリーム・エレメント内に「隠されて」いてもよい。

図１０は、上述のエンコーダのパラメトリック経路を実装する、特定の一実施形態によるエンコーダを示すブロック図である。太黒字の機能ブロック（１０２、１０５、１０６、１０７、１０８、１０９）は、本発明による処理の主たるコンポーネントを示す。具体的には、図１０は、より有能なデコーダのための、エンハンスメントをもった後方互換性のあるビットストリームを生成する２段符号化を示すブロック図である。このエンコーダは、双方のデコーダバージョンで復号可能なＰＳＩを生成するように構成されている。図９の変換ユニット９２は、図１０における過渡検出ユニット１０１、ウインドウシーケンス生成ユニット１０２およびｔ／ｆ分析ユニット１０３によって実装されている。図１０における他のユニット１０４、１０５、１０６、１０７、１０８、１０９は、パラメトリックサイド情報発生器９３を実装するものである（例えば、ユニット１０４、１０５、１０６、１０７、１０８、１０９は、ＰＳＩ抽出ユニット９４およびＰＳＩスプリッタ９５を組み合わせた機能を実装することができる）。

まず、信号は分析フレームに細分され、分析フレームは次に周波数領域へ変換される。複数の分析フレームが固定長のパラメータフレームにグルーピングされる。固定長のパラメータフレームは、例えば、標準ＳＡＯＣでは、１６および３２分析フレームの長さが一般的である。そのパラメータフレームの間は、信号特性は準定常に留まり、よって唯一のパラメータセットで特徴づけることができると想定される。信号特性がパラメータフレーム内で変わればモデリングエラーを被るので、より長いパラメータフレームは準定常の想定が満たされるようになる部分に細分することが有益であろう。このために、過渡検出が必要とされる。

一実施形態において、変換ユニット９２は１つまたは複数の入力されたオーディオオブジェクト信号を時間領域から時間−周波数領域へ変換するように構成されており、その変換は１つまたは複数の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号値を含む信号変換ブロックのウインドウ長さに依存する。変換ユニット９２は、少なくとも１つのオーディオオブジェクト信号のうちの１つまたはそれ以上に過渡が存在するかどうかを示す過渡検出結果を決定するための過渡検出ユニット１０１を備えている。過渡は、少なくとも１つのオーディオオブジェクト信号のうちの１つまたはそれ以上における信号変化を示す。また、変換ユニット９２は、さらに、ウインドウ長さを過渡検出結果に依存して決定するためのウインドウシーケンスユニット１０２を備えている。

例えば、過渡は、入力される全てのオブジェクトから過渡検出ユニット１０１によって別々に検出することができ、それらのオブジェクトのうちの唯一のオブジェクトにおいて過渡事象が存在すれば、その位置がグローバルな過渡位置とされる。過渡位置の情報は適切なウインドウイングシーケンスを構成するために使用される。その構成は、例えば、次の論理に基づくことができる。
・デフォルトウインドウ長さ、即ちデフォルトの信号変換ブロックの長さを、例えば２０４８サンプルに設定する。
・パラメータフレームの長さを、例えば、５０％の重なりをもった４つのデフォルトウインドウに対応する４０９６サンプルに設定する。パラメータフレームは、複数のウインドウを纏めてグルーピングし、ウインドウ毎に記述子を別々に有する代わりに、ブロック全体に単一の信号記述子セットが使用される。これにより、ＰＳＩの量を減らすことができる。
・過渡が検出されていなければ、デフォルトウインドウおよびパラメータフレーム全長を用いる。
・過渡が検出されれば、過渡の位置においてより優れた時間分解能を与えるようにウインドウイングを適合化する。

ウインドウシーケンス生成ユニット１０２はウインドウイングシーケンスを構成する。同時に、ウインドウシーケンス生成ユニット１０２は１つまたは複数の分析ウインドウからパラメータサブフレームを生成することも行う。各サブセットが構成要素として分析され、サブブロック毎に唯一のＰＳＩパラメータセットが送信される。標準ＳＡＯＣと互換性のあるＰＳＩを生成するために、規定のパラメータブロック長さが主たるパラメータブロック長さとして使用され、そのブロック内に位置決めされる可能な過渡がパラメータサブセットを規定する。

構成されたウインドウシーケンスは、ｔ／ｆ分析ユニット１０３が実行する入力オーディオ信号の時間−周波数分析のために出力され、ＰＳＩの強化ＳＡＯＣエンハンスメント部分において送信される。

ＰＳＩは、オブジェクトレベル差（ＯＬＤ）、オブジェクト間相関（ＩＯＣ）およびエンコーダにおける個々のオブジェクトからダウンミックス信号を生成するために使用されるダウンミックス行列Ｄの情報の集合より成る。各パラメータセットは、パラメータが関連する時間領域を規定するパラメータ境界に関連づけられている。

各分析ウインドウのスペクトルデータは、ＰＳＩ推定ユニット１０４によって、標準ＳＡＯＣ部分のＰＳＩを推定するために使用される。このＰＳＩの推定は、複数個のスペクトルビンを標準ＳＡＯＣのパラメトリック帯域へグルーピングし、かつこれらの帯域内のＩＯＣ、ＯＬＤおよび絶対オブジェクトエネルギー（ＮＲＧ）を推定することによって行われる。標準ＳＡＯＣの表記法におおまかに従えば、パラメータ化タイルにおける２つのオブジェクトスペクトルＳ_i（ｆ，ｎ）とＳ_j（ｆ，ｎ）の正規化積は、

と定義される。但し、行列

は、次式によって、フレームｎにおけるＦ_nｔ／ｆ表現ビンからＢパラメトリック帯域へのマッピングを定義する。

スペクトル分解能は、１つのパラメータブロック内のフレーム間で変わる可能性があり、よって、マッピング行列はデータを共通の分解能ベースに変換する。このパラメータ化タイルにおける最大オブジェクトエネルギーは、最大オブジェクトエネルギー

であるものとして定義される。この値を得れば、ＯＬＤは、次式のような正規化されたオブジェクトエネルギーであるものと定義される。

最後に、ＩＯＣはクロスパワーから次式のように得ることができる。

これにより、ビットストリームの標準ＳＡＯＣ互換部分の推定が完結する。

粗パワースペクトル復元ユニット１０５は、ＯＬＤおよびＮＲＧを用いてパラメータ分析ブロックにおけるスペクトル包絡線の概算を復元するように構成されている。包絡線は、そのブロックにおいて使用される最も高い周波数分解能で構成される。

各分析ウインドウのオリジナルのスペクトルは、パワースペクトル推定ユニット１０６によって、そのウインドウにおけるパワースペクトルを計算するために使用される。

得られたパワースペクトルは、周波数分解能適合化ユニット１０７によって、共通の高周波数分解能表現へ変換される。これは、例えば、パワースペクトル値の補間によって行うことができる。次に、パラメータブロック内のスペクトルを平均することにより、パワースペクトルの平均プロファイルが計算される。これは、パラメトリック帯域集計を省略するＯＬＤ推定にほぼ一致する。得られたスペクトルプロファイルは、精密分解能ＯＬＤとして考慮される。

このエンコーダは、さらに、第２のパラメトリックサイド情報を得るべく、少なくとも１つのオーディオオブジェクト信号のうちの１つの複数のＯＬＤの各々を前記少なくとも１つのオーディオオブジェクト信号のうちの１つのパワースペクトル復元の値で除することによって、複数の補正係数を推定するためのデルタ推定ユニット１０８を備えている。前記複数のＯＬＤは、前記パワースペクトル復元より高い周波数分解能を有する。

一実施形態において、デルタ推定ユニット１０８は、第２のパラメトリックサイド情報を得るために、複数の補正係数を、少なくとも１つのオーディオオブジェクト信号に依存する複数のパラメトリック値に基づいて推定するように構成されている。例えば、デルタ推定ユニット１０８は、補正係数「デルタ」を、例えば精密分解能ＯＬＤを粗いパワースペクトル復元で除することによって推定するように構成することができる。その結果、これは、各周波数ビンに対し、粗なスペクトルが与えられたとすると精密分解能ＯＬＤを近似するのに使用することのできる１つの（倍数的な）補正係数を与えるものである。

最後に、デルタモデリングユニット１０９は、推定された補正係数を送信用に効率的にモデリングするように構成されている。このモデリングに関しては、線形予測係数（ＬＰＣ：Linear Prediction Coefficient）を用いる１つの可能性について後述する。

効果的には、強化されたＳＡＯＣ修正は、ウインドウイングシーケンス情報と「デルタ」を送信するためパラメータとをビットストリームへ追加することからなる。

以下、強化デコーダについて述べる。

図１１は、標準ビットストリームと強化ビットストリームの双方を復号することができる、一実施形態による強化デコーダを描いた高レベルブロック図である。具体的には、図１１は、周波数分解能エンハンスメントを含むビットストリームだけでなく標準ビットストリームも復号することのできる強化デコーダを示す動作ブロック図である。

入力されたダウンミックス信号は、ｔ／ｆ変換ユニット１１１によって周波数領域に変換される。

推定された非混合行列（un-mixing matrix）は、非混合出力（un-mixing output）を生成するために、非混合ユニット（un-mixing unit）１１０により、変換されたダウンミックス信号へ適用される。

さらに、非混合におけるオブジェクトのより優れた空間制御を可能にするために、非相関経路が含まれている。非相関ユニット１１９は変換されたダウンミックス信号に対して非相関を実行し、非相関の結果が非混合ユニット１１０へ供給される。非混合ユニット１１０は非相関結果を用いて非混合出力を生成する。

非混合出力は、次に、ｆ／ｔ変換ユニット１１４によって時間領域に変換し戻される。

パラメトリック処理経路は入力として標準分解能ＰＳＩを受け取ることができ、その場合、標準ＰＳＩ復号ユニット１１５により生成される復号されたＰＳＩは、周波数分解能変換ユニット１１６によって、ｔ／ｆ変換で使用される周波数分解能に適合化される。

別の入力はＰＳＩの標準周波数分解能部分を強化周波数分解能部分と結合させ、その計算には強化周波数分解能情報が含まれる。より詳細には、強化ＰＳＩ復号ユニット１１７が、強化された周波数分解能を示す復号されたＰＳＩを生成する。

非混合行列発生器１１８が、周波数分解能変換ユニット１１６から受信した復号されたＰＳＩに基づいて、または強化ＰＳＩ復号ユニット１１７から受信した復号されたＰＳＩに基づいて、非混合行列を生成する。非混合行列発生器１１８はレンダリング情報に基づいて非混合行列を生成することもできる。そのレンダリング情報は、例えばレンダリング行列に基づくものである。非混合ユニット１１０は、非混合行列発生器１１８により生成されるこの非混合行列を、変換されたダウンミックス信号に適用することによって非混合出力を生成するように構成されている。

図１２は図１１の強化ＰＳＩ復号ユニット１１７の一実施形態を示すブロック図である。

第１のパラメトリック情報は複数の第１のパラメータ値を含み、第２のパラメトリック情報は複数の第２のパラメータ値を含む。非混合情報決定器１１２は、周波数分解能変換サブユニット１２２と、コンバイナ１２４とを備えている。周波数分解能変換ユニット１１２は、追加的なパラメータ値を、例えば第１のパラメータ値を複製することによって生成するように構成され、第１のパラメータ値と追加的なパラメータ値はいっしょになって複数の第１の処理されたパラメータ値を形成する。コンバイナ１２４は、修正されたパラメトリック情報として複数の修正されたパラメータ値を得るために、第１の処理されたパラメータ値と第２のパラメータ値とを結合するように構成されている。

一実施形態によれば、標準周波数分解能部分は復号サブユニット１２１によって復号され、周波数分解能変換サブユニット１２２によって、エンハンスメント部分により使用される周波数分解能に変換される。強化ＰＳＩ復号サブユニット１２３により生成される復号されたエンハンスメント部分は、コンバイナ１２４によって変換された標準分解能部分と結合される。

以下、可能な実装を有する２つの復号モードについてさらに詳述する。

まず、強化デコーダによる標準ＳＡＯＣビットストリームの復号について述べる。

強化ＳＡＯＣデコーダは、標準ＳＡＯＣエンコーダからのビットストリームを高品質で復号できるように設計されている。復号はパラメトリック復元のみに限定され、残余ストリームの可能性は無視される。

図１３は、一実施形態による、復号プロセスを例示する強化ＳＡＯＣデコーダによる標準ＳＡＯＣビットストリームの復号を描いたブロック図である。太黒字の機能ブロック（１３１、１３２、１３３、１３５）が本発明による処理の主要部分を示す。

非混合行列計算器１３１、時間補間器１３２およびウインドウ周波数分解能適合化ユニット１３３は、図１１の標準ＰＳＩ復号ユニット１１５、周波数分解能変換ユニット１１６および非混合行列発生器１１８の各機能を実装したものである。ウインドウシーケンス発生器１３４およびｔ／ｆ分析モジュール１３５は、図１１のｔ／ｆ変換ユニット１１１を実装したものである。

通常、基礎を成す時間−周波数表現の周波数ビンは、パラメトリック帯域にグルーピングされる。帯域の間隔はヒト聴覚系における臨界帯域のそれに似ている。さらに、複数のｔ／ｆ表現フレームは、パラメータフレームにグルーピングすることができる。これらの動作は共に、モデリングの不正確さという犠牲を伴うが、必要とされるサイド情報の量を低減させる。

ＳＡＯＣ標準において述べたように、ＯＬＤおよびＩＯＣは、非混合行列Ｇ＝ＥＤ^*Ｊを計算するために使用される。ここで、Ｅの要素は、

として定義され、オブジェクト相互相関行列に近似し、ｉとｊはオブジェクト指数であり、Ｊ≒（ＤＥＤ^*）^-1である。非混合行列計算器１３１は非混合行列を計算するために使用することができる。

非混合行列は、次に、時間補間器１３２によって、標準ＳＡＯＣのように、先行フレームの非混合行列からパラメータフレームを経て推定値が到達するパラメータ境界まで線形補間される。これにより、結果的に、各時間／周波数分析ウインドウおよびパラメトリック帯域毎に非混合行列が生じる。

非混合行列のパラメトリック帯域周波数分解能は、ウインドウ周波数分解能適合化ユニット１３３によって、その分析ウインドウにおける時間／周波数表現の分解能まで拡張される。時間フレームにおけるパラメトリック帯域ｂの補間された非混合行列がＧ（ｂ）として定義される場合は、そのパラメトリック帯域内部の全ての周波数ビンに同じ非混合係数（un-mixing coefficient）が使用される。

ウインドウシーケンス発生器１３４は、ＰＳＩからのパラメータセット領域情報を用いて、入力されたダウンミックスオーディオ信号を分析するための適切なウインドウイングシーケンスを決定するように構成されている。主たる要件は、そのＰＳＩにパラメータセット境界が存在すれば、連続する分析ウインドウ間のクロスオーバーポイントがこれに一致しなければならないことである。ウインドウイングは各ウインドウ内のデータの周波数分解能（先に述べたように、非混合データ（un-mixing data）拡張に使用される）も決定する。

ウインドウイングされたデータは、次に、ｔ／ｆ分析モジュール１３５により、適切な時間−周波数変換、例えば離散フーリエ変換（ＤＦＴ：Discrete Fourier Transform）、複素修正離散コサイン変換（ＣＭＤＣＴ：Complex Modified Discrete Cosine Transform）または奇積層離散フーリエ変換（ＯＤＦＴ：Oddly stacked Discrete Fourier Transform）を用いて周波数領域表現に変換される。

最後に、非混合ユニット１３６は、ダウンミックス信号Ｘのスペクトル表現に、フレーム当たり周波数ビン当たりの非混合行列を適用して、パラメトリックレンダリングＹを取得する。出力チャネルｊは、ダウンミックスチャネルの線形結合

である。

このプロセスによって達成できる品質は、ほとんどの目的に関して、標準ＳＡＯＣデコーダによって達成される結果とは知覚的に区別不可能である。

なお、これまでの記述は、個々のオブジェクトの復元に関するものであるが、標準ＳＡＯＣにおいては、レンダリングは、非混合行列に含まれ、即ち、パラメトリック補間に含まれている。線形演算としては、演算の順序は問題ではないが、差分には注目すべきである。

以下、強化デコーダによる強化ＳＡＯＣビットストリームの復号について述べる。

強化ＳＡＯＣデコーダの主要な機能については、標準ＳＡＯＣビットストリームの復号において既に述べた。本項では、ＰＳＩに導入される強化されたＳＡＯＣエンハンスメントを如何に用いれば、より高い知覚品質を達成できるか、について詳述する。

図１４は、一実施形態によるデコーダの主要な機能ブロックを描いたものであり、周波数分解能エンハンスメントの復号を示している。太黒字の機能ブロック（１４１、１４２、１４３）が本発明による処理の主要部分を示す。帯域上値拡張ユニット１４１、デルタ関数回復ユニット１４２、デルタ適用ユニット１４３、非混合行列計算器１３１、時間補間器１３２およびウインドウ周波数分解能適合化ユニット１３３は、図１１の強化ＰＳＩ復号ユニット１１７および非混合行列発生器１１８の機能を実装する。

図１４のデコーダは非混合情報決定器１１２を備えている。とりわけ、非混合情報決定器１１２は、デルタ関数回復ユニット１４２と、デルタ適用ユニット１４３とを備えている。第１のパラメトリック情報は、少なくとも１つのオーディオオブジェクト信号、例えばオブジェクトレベル差値、に依存して、複数のパラメトリック値を含む。第２のパラメトリック情報は補正係数パラメータ化を含む。デルタ関数回復ユニット１４２は、補正係数パラメータ化を反転してデルタ関数を得るように構成されている。デルタ適用ユニット１４３は、非混合情報を決定するために、パラメトリック値、例えばオブジェクトレベル差値へデルタ関数を適用するように構成されている。一実施形態において、補正係数パラメータ化は複数の線形予測係数を含み、かつデルタ関数回復ユニット１４２は、複数の線形予測係数に依存して複数の補正係数を生成することにより、補正係数パラメータ化を反転するように構成され、かつ複数の補正係数に基づいてデルタ関数を生成するように構成されている。

例えば、まず、帯域上値拡張ユニット１４１は、各パラメトリック帯域のＯＬＤおよびＩＯＣ値を、エンハンスメントにおいて使用される周波数分解能、例えば１０２４ビンへ適合させる。これは、パラメトリック帯域に対応する周波数ビン上の値を複製することによって行われる。これにより、新しいＯＬＤ

およびＩＯＣ

が生じる。Ｋ（ｆ，ｂ）は、周波数ビンｆのパラメトリック帯域ｂへの割当てを定義するカーネル行列である。

これと並行して、デルタ関数回復ユニット１４２は、補正係数パラメータ化を反転して、拡張されたＯＬＤおよびＩＯＣと同じサイズのデルタ関数

を得る。

次に、デルタ適用ユニット１４３が拡張されたＯＬＤ値にデルタを適用し、精密分解能ＯＬＤ値が、

によって得られる。

ある特定の実施形態において、非混合行列の計算は、例えば、非混合行列計算器１３１によって、標準ＳＡＯＣビットストリームの復号と同様に、即ち、Ｇ（ｆ）＝Ｅ（ｆ）Ｄ^*（ｆ）Ｊ（ｆ）により行うことができる。ここで、

およびＪ（ｆ）≒（Ｄ（ｆ）Ｅ（ｆ）Ｄ^*（ｆ））^-1である。望むなら、レンダリング行列は、非混合行列Ｇ（ｆ）へ乗算することができる。続いて、標準ＳＡＯＣのように、時間補間器１３２による時間補間が行われる。

各ウインドウ内の周波数分解能は、公称高周波数分解能とは異なる（低い）場合があることから、ウインドウ周波数分解能適合化ユニット１３３は、非混合行列をオーディオからのスペクトルデータの分解能に整合させ、これを適用可能にすべく適合化する必要がある。これは、例えば、周波数軸上の係数を適正な分解能へリサンプリングすることによって行なうことができる。あるいは、分解能が整数倍であれば、単に、高分解能データから、より低い分解能における１つの周波数ビンに対応する指数を平均することによって行なうことができる。

ビットストリームからのウインドウイングシーケンス情報は、エンコーダにおいて使用されるものに対して完全に相補的な時間−周波数分析を達成するために使用することができ、または、ウインドウイングシーケンスは、標準ＳＡＯＣビットストリームの復号において行われるように、パラメータ境界に基づいて構成することができる。そのためにウインドウシーケンス発生器１３４を使用することができる。

次に、ダウンミックスオーディオの時間−周波数分析が、ｔ／ｆ分析モジュール１３５により、所定のウインドウを用いて実行される。

最後に、時間補間されかつ（おそらくは）スペクトル的に適合化された非混合行列が、非混合ユニット１３６によって、入力オーディオの時間−周波数表現に適用され、出力チャネルｊを次式のように入力チャネルの線形結合として得ることができる。

以下、実施形態の特定の態様について述べる。

一実施形態において、図１０のデルタモデリングユニット１０９は、複数の補正係数（デルタ）から、線形予測を実行することによって線形予測係数を決定するように構成されている。

次に、このような実施形態による、線形予測係数（ＬＰＣ：linear prediction coefficient）を用いる補正係数、デルタ、および可能なモデリング代替物の推定プロセスについて述べる。

まず、一実施形態によるデルタ推定について述べる。

推定への入力は、パラメータブロック上の推定された精密分解能パワー・スペクトル・プロファイル、およびＯＬＤおよびＮＲＧパラメータに基づくパワー・スペクトル・プロファイルの粗な復元より成る。精密パワー・スペクトル・プロファイルは、次のようにして計算される。Ｓ_i（ｆ，ｎ）をｉ番目のオブジェクトの複素スペクトルとし、ｆは周波数ビン指数、ｎ（０≦ｎ≦Ｎ−１）は長さＮのモデリングブロックにおける時間ウインドウ指数とすると、精密分解能パワースペクトルは次式になる。

粗な復元は（逆量子化された）ＯＬＤおよびＮＲＧから、

によって計算される。但し、Ｋ（ｆ，ｂ）は周波数ビンｆのパラメトリック帯域ｂへの割当てを規定するカーネル行列である。

本項では、例として、異なるスペクトル特性を有する２つの信号を用いる。第１の信号は事実上平坦なスペクトル（スペクトル傾斜を無視）を有する（ピンク）ノイズであり、第２の信号は高い調性をもつ楽器グロッケンシュピールからのトーン、即ち尖ったスペクトルである。

図１５はトーン信号とノイズ信号のパワースペクトルを示す。即ちそれらの高分解能パワースペクトル（「オリジナル」）と、ＯＬＤおよびＮＲＧに基づく対応する粗な復元（「復元」）である。具体的には、図１５は双方の信号の精密および粗なパワースペクトルを示す。より具体的には、オリジナルのトーン信号のパワースペクトル１５１、オリジナルのノイズ信号のパワースペクトル１５２、トーン信号の復元されたパワースペクトル１５３およびノイズ信号の復元されたパワースペクトル１５４が示されている。なお、下記の図において、信号１５３と５４に関しては、完全に復元された信号ではなく、スケール因子（復元されたパワー・スペクトル・パラメータ）が略示されている。

精密値と粗な値との間の平均差は、ノイズ信号の場合には比較的小さいが、トーン信号ではかなり大きいことがすぐに分かる。これらの差は、全てのオブジェクトのパラメトリック復元を知覚的に劣化させる。

補正係数は、次式のように、精密分解能曲線を粗な復元曲線で除することによって得られる。

これにより、精密分解能曲線を得るために粗な復元に適用することのできる倍数因子を回復することができる。

図１６は、双方の信号例の修正、具体的には、信号例の補正係数を示す。具体的には、トーン信号１５１の補正係数とノイズ信号１５２の補正係数が示されている。

以下、デルタモデリングについて述べる。

補正曲線Ｃは周波数軸上の１つまたは複数のモデリングブロックへ割り当てられる。自然な代替方法は、標準ＳＡＯＣＰＳＩに使用されるものと同じパラメータ帯域定義を用いることである。次に、モデリングは以下のステップによってブロック毎に行われる。

１．スペクトル補正係数Ｃが、逆離散フーリエ変換（ＩＤＦＴ：Inverse Discrete Fourier Transform）によって時間領域自己相関シーケンスに変換される。
モデリングブロックの長さが奇数である場合、変換されるべき擬似スペクトルは次式のように定義される。

モデリングブロックが偶数である場合、擬似スペクトルは次式のように定義される。

よって、変換結果は、ｒ（ｔ）＝ＩＤＦＴ（Ｒ（ｌ））となる。

２．結果は前半部分へ切り詰め（truncate）られる。

３．自己相関シーケンスｒ（ｔ）にレビンソン−ダービン再帰法（Levinson-Durbin recursion）が適用され、増加するモデル順に反射係数ｋおよびモデリング残差分散ｅが取得される。

４．オプション：モデリング残差分散ｅに基づいて、モデリング全体を省略するか（利得が得られなかったため）、適切な順序を選択する。

５．モデルパラメータが送信用に量子化される。

各ｔ−ｆタイル毎にデルタを送信すべきかどうかについては、ｔ−ｆタイル毎に決定することができる（標準パラメトリック帯域は周波数領域を画定し、パラメータブロックは時間領域を画定する）。決定は、例えば、下記に基づいて行うことができる。
・デルタモデリングの残余エネルギーを調べる。モデリングの残余エネルギーが所定のしきい値を超えていなければ、エンハンスメント情報は送信されない。
・オーディオオブジェクト信号の精密分解能モデルパラメトリック記述、デルタモデリングまたはパワースペクトル包絡線の「尖り度（spikiness）」／非平坦性を測定する。測定値に依存して、精密なスペクトル分解能を記述するデルタ・モデリング・パラメータは、オーディオオブジェクト信号のパワースペクトル包絡線の非平坦性次第で送信され、もしくは送信されず、またはとりあえず計算される。適切な目安は、例えば、スペクトル波高率、スペクトル平坦性度（spectral flatness measure）または最小−最大比である。
・復元の知覚品質を得る。エンコーダは複数のエンハンスメントについてそれらがある場合とない場合とでレンダリング復元を計算し、各エンハンスメントの品質利得を決定する。次に、モデリングの複雑さと品質利得との間の適切な均衡点を決め、示されたエンハンスメントを送信する。例えば、決定には、信号に対して知覚的に重み付けされた歪の比または強化された知覚度（perceptual measure）を用いることができる。決定は、（粗な）パラメトリック帯域毎に別々に（即ち、局部的な品質最適化）行うことができるが、隣接する帯域が時間−周波数係数の時間変動操作および周波数変動操作に起因する信号歪の原因になることを考慮して（即ち、グローバルな品質最適化）行うこともできる。

次に、デルタ復元および適用について述べる。

補正曲線の復元は、下記のステップを辿る。

１．受信した反射係数ｋ（長さＬ−１のベクトル）が、擬似コード構文（但し、関数Ｘ＝ｄｉａｇ（ｘ）は行列Ｘを出力し、Ｘの対角線要素はｘであり、かつＸの非対角線要素は全てゼロである）において、逆量子化され、かつ長さＬのＩＩＲフィルタ係数ａに変換される。

２．結果的なフィルタａの周波数応答ｈ（ｎ）が、

によって計算される。但し、ｉは、虚数単位

である。

３．これから、補正関数復元が

によって得られる。

４．応答が、単一平均を有するように正規化され、よって、モデリングされたブロックの全体エネルギーは変わらない。

５．補正関数が、精密分解能

へ拡張されているＯＬＤに適用される。ただし、絶対エネルギーの場合、後の計算においてキャンセルされることから、これは無視できる。

図１７は、双方の信号例のオリジナルの補正係数と低次元ＬＰＣベースの近似（モデリング後）を示す。具体的には、トーン信号のオリジナルの補正係数１５１、オリジナルのノイズ信号１５２、トーン信号の復元された補正係数推定１５３およびノイズ信号の復元された補正係数推定１５４が示されている。

図１８は、モデリングされた補正係数を図１５に示す粗な復元に適用した結果を示す。具体的には、オリジナルのトーン信号のパワースペクトル１５１、オリジナルのノイズ信号のパワースペクトル１５２、トーン信号の復元されたパワースペクトル推定１５３およびノイズ信号の復元されたパワースペクトル推定１５４が示されている。これらの曲線、特に、モデリングされた補正係数を適用した後の復元された精密分解能パワースペクトルは、ＯＬＤの代わりに後続計算に用いることができる。ここでは、比較をより明らかにするために、絶対エネルギー情報を含んでいるが、この情報なしでも同じ原理が働く。

本発明による方法および装置は従来技術のＳＡＯＣ処理における前述の欠点を軽減するものであって、フィルタバンクまたは時間−周波数変換を高い周波数分解能で用い、かつ追加情報の効率的なパラメータ化を提供する。さらに、標準ＳＡＯＣデコーダが情報の後方互換性部分を整合的な標準ＳＡＯＣエンコーダを用いて達成されるものに比肩し得る達成可能な品質で復号することができ、しかも強化されたデコーダでもより良い知覚品質のために追加情報を利用できるような方法で、この追加情報を送信することができる。最も重要なことには、追加情報は、送信または蓄積を効率的にするために極めてコンパクトに表現できるということである。

提示した本発明方法は、あらゆるＳＡＯＣスキームに適用することができる。本方法は、現在および未来のあらゆるオーディオフォーマットと組み合わせることができる。本発明方法は、スペクトルサイド情報の２レベル表現によって、ＳＡＯＣアプリケーションにおける強化された知覚的オーディオ品質を可能にする。

この考えは、ＯＬＤの概念をチャネルレベル差（ＣＬＤ：channel-level difference）で置換する場合のＭＰＥＧサラウンドに関連しても使用できる。

これまでに述べたように、オーディオエンコーダ、オーディオ符号化方法または関連のコンピュータプログラムが提供される。さらに、これまでに述べたように、オーディオエンコーダ、オーディオ復号方法または関連のコンピュータプログラムが提供される。さらに、これまでに述べたように、符号化されたオーディオ信号、または符号化されたオーディオ信号を格納している記憶媒体が提供される。

幾つかの態様は装置について記述されているが、これらの態様が対応する方法に関する記述でもあることは明らかであり、その場合、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップについて記述されている態様は、対応するブロック、アイテム、または対応する装置の特徴を記述するものでもある。

本発明による分解された信号は、デジタル記憶媒体に格納することができ、または伝送媒体上、例えば無線伝送媒体上もしくはインターネット等の有線伝送媒体上で送信することができる。

所定の実装要件に依存して、本発明の実施形態は、ハードウェアまたはソフトウェアに実装することができる。その実装は、個々の方法が実行されるようにプログラム可能コンピュータシステムと協働する（または、協働することができる）電子的に読取り可能な制御信号を格納しているデジタル記憶媒体、例えば、フロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリ、を用いて実行することができる。

本発明による幾つかの実施形態は、本明細書に記述されている方法のうちの１つが実行されるように、プログラム可能コンピュータシステムと協働することができる電子的に読取り可能な制御信号を有する非一時的データキャリアを含む。

概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとして実装することができる。そのプログラムコードは、そのコンピュータ・プログラム・プロダクトがコンピュータ上で実行されると本発明の方法のうちの１つを実行するように動作可能なものである。そのプログラムコードは、例えば、機械読取り可能キャリア上へ格納することができる。

他の実施形態は、機械読取り可能キャリアに格納され、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを含む。

したがって、言い替えれば、本発明方法の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述されている方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明方法のさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを記録して備えるデータキャリア（または、デジタル記憶媒体もしくはコンピュータ読取り可能媒体）である。

したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するように構成され、または適合化された処理手段、例えばコンピュータ、またはプログラマブル論理デバイスを含む。

さらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。

実施形態によっては、本明細書に記述されている方法の機能のうちの幾つか、または全てを実行するために、プログラマブル論理デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を使用することができる。実施形態によっては、フィールド・プログラマブル・ゲート・アレイが、本明細書に記述されている方法のうちの１つを実行するために、マイクロプロセッサと協働することができる。概して、本方法は、好ましくは、あらゆるハードウェア装置によって実行される。

これまでに述べた実施形態は、本発明の原理を単に例示したものである。いうまでもなく、当業者である他の者には、本明細書に記述されている配置および詳細の修正および変形は明らかである。したがって、本発明は、添付の特許請求の範囲によってのみ限定されるものであり、本明細書において実施形態を記述しかつ説明するために提示された特有の詳細によって限定されるものではない。

Claims

複数の非混合オーディオチャネルを含む非混合オーディオ信号を生成するためのデコーダであって、
少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報、および前記少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報であって周波数分解能が前記第１のパラメトリックサイド情報の周波数分解能よりも高い第２のパラメトリックサイド情報を受信することによって、非混合情報を決定するための非混合情報決定器（１１２）と、
前記複数の非混合オーディオチャネルを含む非混合オーディオ信号を得るために、少なくとも１つのオーディオオブジェクト信号のダウンミックスを示すダウンミックス信号に前記非混合情報を適用するための非混合モジュール（１１３）と、を備え、
前記非混合情報決定器（１１２）は、修正されたパラメトリック情報が前記第１のパラメトリックサイド情報の周波数分解能より高い周波数分解能を有するように、前記第１のパラメトリックサイド情報および前記第２のパラメトリックサイド情報を修正して前記修正されたパラメトリック情報を得ることにより、前記非混合情報を決定するように構成されているデコーダ。
該デコーダは、時間−周波数領域において表現されるダウンミックス信号を得るべく時間領域において表現されるダウンミックス入力を変換するための第１の変換ユニット（１１１）をさらに備え、
該デコーダは、前記非混合オーディオ信号を前記時間−周波数領域から前記時間領域へ変換するための第２の変換ユニット（１１４）を備えている請求項１に記載のデコーダ。
前記非混合情報決定器（１１２）は、前記修正されたパラメトリック情報が前記第２のパラメトリックサイド情報の周波数分解能に等しい周波数分解能を有するように、前記第１のパラメトリックサイド情報および前記第２のパラメトリックサイド情報を結合して前記修正されたパラメトリック情報を得ることにより、前記非混合情報を決定するように構成されている請求項１または２に記載のデコーダ。
前記第１のパラメトリックサイド情報は複数の第１のパラメータ値を含み、前記第２のパラメトリックサイド情報は複数の第２のパラメータ値を含み、
前記非混合情報決定器（１１２）は周波数分解能変換サブユニット（１２２）とコンバイナ（１２４）とを備え、
前記周波数分解能変換サブユニット（１２２）は、前記第１のパラメータ値に基づく追加的なパラメータ値を生成するように構成され、前記第１のパラメータ値と前記追加的なパラメータ値とで複数の処理された第１のパラメータ値を形成し、かつ、
前記コンバイナ（１２４）は、前記処理された第１のパラメータ値と前記第２のパラメータ値に基づいて、前記修正されたパラメトリック情報として複数の修正されたパラメータ値を得るように構成されている請求項１から３のいずれか一項に記載のデコーダ。
前記非混合情報決定器（１１２）はデルタ関数回復ユニット（１４２）とデルタ適用ユニット（１４３）とを備え、
前記第１のパラメトリックサイド情報は前記少なくとも１つのオーディオオブジェクト信号に依存する複数のパラメトリック値を含み、かつ前記第２のパラメトリックサイド情報は複数の係数を含み、
前記デルタ関数回復ユニット（１４２）は前記複数の係数からデルタ関数を得るように構成され、かつ、
前記デルタ適用ユニット（１４３）は、前記非混合情報を決定するために、前記パラメトリック値へ前記デルタ関数を適用するように構成されている請求項１から４のいずれか一項に記載のデコーダ。
前記複数の係数は複数の線形予測係数を含み、
前記デルタ関数回復ユニット（１４２）は、前記複数の線形予測係数を使用して複数の補正係数を生成することにより前記デルタ関数を生成するように構成されている請求項５に記載のデコーダ。
該デコーダは、前記第１のパラメトリックサイド情報、前記第２のパラメトリックサイド情報およびレンダリング情報に依存して非混合行列を生成するための非混合行列発生器（１１８）をさらに備え、かつ、
前記非混合モジュール（１１３）は、前記ダウンミックス信号に前記非混合行列を適用して前記非混合オーディオ信号を得るように構成されている請求項１から６のいずれか一項に記載のデコーダ。
前記非混合モジュール（１１３）は非相関ユニット（１１９）と非混合ユニット（１１０）とを備え、
前記非相関ユニット（１１９）は前記ダウンミックス信号に非相関を実行して非相関結果を得るように構成され、
前記非混合ユニット（１１０）は前記非相関結果を用いて前記非混合オーディオ信号を得るように構成されている請求項１から７のいずれか一項に記載のデコーダ。
１つまたは複数の入力されたオーディオオブジェクト信号を符号化するためのエンコーダであって、
前記１つまたは複数の入力されたオーディオオブジェクト信号をダウンミックスして１つまたは複数のダウンミックス信号を得るためのダウンミックスユニット（９１）と、
第２のパラメトリックサイド情報の周波数分解能が第１のパラメトリックサイド情報の周波数分解能より高くなるように、少なくとも１つのオーディオオブジェクト信号に関する前記第１のパラメトリックサイド情報と、前記少なくとも１つのオーディオオブジェクト信号に関する前記第２のパラメトリックサイド情報とを生成するためのパラメトリックサイド情報発生器（９３）と、を備えているエンコーダ。
前記エンコーダは、１つまたは複数の変換されたオーディオオブジェクト信号を得るために、前記１つまたは複数の入力されたオーディオオブジェクト信号を時間領域から時間−周波数領域へ変換するための変換ユニット（９２）をさらに備え、かつ、
前記パラメトリックサイド情報発生器（９３）は、前記１つまたは複数の変換されたオーディオオブジェクト信号に基づいて前記第１のパラメトリックサイド情報および前記第２のパラメトリックサイド情報を生成するように構成されている請求項９に記載のエンコーダ。
前記変換ユニット（９２）は、前記１つまたは複数の入力されたオーディオオブジェクト信号を、前記１つまたは複数の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号値を含む信号変換ブロックのウインドウ長さに依存して、前記時間領域から前記時間−周波数領域へ変換するように構成され、
前記変換ユニット（９２）は、前記少なくとも１つのオーディオオブジェクト信号のうちの１つまたはそれ以上に過渡が存在するかどうかを示す過渡検出結果を決定するための過渡検出ユニット（１０１）を備え、過渡は前記少なくとも１つのオーディオオブジェクト信号のうちの１つまたはそれ以上における信号変化を示し、かつ、
前記変換ユニット（９２）は前記ウインドウ長さを前記過渡検出結果に依存して決定するためのウインドウシーケンス・ユニット（１０２）をさらに備えている請求項１０に記載のエンコーダ。
該エンコーダは、複数の補正係数を複数のパラメータ値に基づいて推定するためのデルタ推定ユニット（１０８）をさらに備え、前記複数のパラメータ値は少なくとも１つの前記オーディオオブジェクト信号に依存し、前記第２のパラメトリックサイド情報は前記複数の補正係数に依存する請求項９から１１のいずれか一項に記載のエンコーダ。
該エンコーダは、前記複数の補正係数から、線形予測を実行することによって線形予測係数を決定するためのデルタモデリングユニット（１０９）をさらに備え、前記第２のパラメトリックサイド情報は前記線形予測係数を含む請求項１２に記載のエンコーダ。
１つまたは複数の入力されたオーディオオブジェクト信号のダウンミックスを示す１つまたは複数のダウンミックス信号を得ることと、前記少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報を入手することと、前記少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報であって周波数分解能が前記第１のパラメトリックサイド情報の周波数分解能よりも高い第２のパラメトリックサイド情報を入手することによって、１つまたは複数の入力されたオーディオオブジェクト信号を符号化するための請求項９から１３のいずれか一項に記載のエンコーダ（６１）と、
前記１つまたは複数のダウンミックス信号に基づき、かつ前記第１のパラメトリックサイド情報および前記第２のパラメトリックサイド情報に基づいて非混合オーディオ信号を生成するための請求項１から８のいずれか一項に記載のデコーダ（６２）と、を備えているシステム。
複数の非混合オーディオチャネルを含む非混合オーディオ信号を生成するための方法であって、
少なくとも１つのオーディオオブジェクト信号に関する第１のパラメトリックサイド情報、および前記少なくとも１つのオーディオオブジェクト信号に関する第２のパラメトリックサイド情報であって周波数分解能が前記第１のパラメトリックサイド情報の周波数分解能よりも高い第２のパラメトリックサイド情報を受信することによって、非混合情報を決定することと、
前記複数の非混合オーディオチャネルを含む非混合オーディオ信号を得るために、少なくとも１つのオーディオオブジェクト信号のダウンミックスを示すダウンミックス信号に前記非混合情報を適用すること、を含み、
前記非混合情報を決定することは、前記第１のパラメトリックサイド情報および前記第２のパラメトリックサイド情報を修正して、修正されたパラメトリック情報が前記第１のパラメトリックサイド情報の周波数分解能より高い周波数分解能を有するように、前記修正されたパラメトリック情報を得ることを含む、方法。
１つまたは複数の入力されたオーディオオブジェクト信号を符号化するための方法であって、
前記１つまたは複数の入力されたオーディオオブジェクト信号をダウンミックスして１つまたは複数のダウンミックス信号を得ることと、
第２のパラメトリックサイド情報の周波数分解能が第１のパラメトリックサイド情報の周波数分解能より高くなるように、少なくとも１つのオーディオオブジェクト信号に関する前記第１のパラメトリックサイド情報および前記少なくとも１つのオーディオオブジェクト信号に関する前記第２のパラメトリックサイド情報を生成すること、を含む方法。
コンピュータまたは信号プロセッサ上で実行されると、請求項１５に記載の方法を実装するためのコンピュータプログラム。
コンピュータまたは信号プロセッサ上で実行されると、請求項１６に記載の方法を実装するためのコンピュータプログラム。