JP6268180B2

JP6268180B2 - 空間オーディオオブジェクト符号化における時間／周波数分解能の後方互換性のある動的適応のためのエンコーダ、デコーダおよび方法

Info

Publication number: JP6268180B2
Application number: JP2015535006A
Authority: JP
Inventors: ザーシャ・ディシュ; ヨウニ・パウルス; ベルンド・エドレル; オリベル・ヘルムス; ユルゲン・ヘルレ; トルシュテン・カストネル
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2018-01-24
Anticipated expiration: 2033-10-02
Also published as: RU2625939C2; JP2015535959A; US20150279377A1; HK1213361A1; EP2717262A1; TWI541795B; US20150221314A1; CA2886999C; BR112015007649B1; RU2015116645A; BR112015007650A2; MX350691B; TW201423729A; EP2904611B1; CA2887028A1; JP6185592B2; WO2014053548A1; CN105190747A; RU2015116287A; US9734833B2

Description

本発明は、オーディオ信号符号化、オーディオ信号復号化およびオーディオ信号処理に関し、具体的には、空間オーディオオブジェクト符号化（ＳＡＯＣ:spatial-audio-object-coding）における後方互換性（backward compatible）のある動的な時間−周波数分解能適合化のためのエンコーダ、デコーダおよび方法に関する。

従来のデジタル・オーディオ・システムにおいては、受信機側における、送信コンテンツのオーディオ−オブジェクト関連の修正を見込むことが主たる傾向である。これらの修正には、オーディオ信号の選択部分のゲイン修正、および/または空間的に分散されたスピーカを介する多チャネル再生の場合の専用オーディオオブジェクトの空間的再ポジショニングが含まれる。これは、オーディオ・コンテンツの異なる部分を異なるスピーカへ個々に送出することによって達成される場合がある。

言い替えれば、オーディオ処理、オーディオ送信およびオーディオ蓄積の分野では、オブジェクト指向のオーディオ・コンテンツ再生に対するユーザ相互作用を見込む願望が高まり、また、聴覚印象を向上させるために、多チャネル再生の拡張された可能性を利用してオーディオ・コンテンツまたはその一部を個々に演出するという要望も高まっている。これにより、ユーザにとって、多チャネル・オーディオ・コンテンツの使用が大幅に向上する。例えば、三次元的聴覚印象の達成が可能であり、これにより、娯楽アプリケーションにおけるユーザの満足感は高まる。しかしながら、多チャネルオーディオ再生の使用により話者の了解度を高めることができるので、多チャネル・オーディオ・コンテンツは、職業環境、例えばテレビ会議のアプリケーションにおいても有益である。別の可能なアプリケーションは、楽曲の聴取者に、ボーカル部分または異なる楽器等の、異なる部分（「オーディオオブジェクト」とも称する）またはトラックの再生レベルおよび/または空間位置を個々に調整することを提案する。ユーザは、このような調整を、個人的な嗜好、楽曲の一部または複数部分のより容易な転写、教育上の目的、カラオケ、リハーサル、他の理由で実行することができる。

全てのデジタル多チャネルまたは多オブジェクト・オーディオ・コンテンツの、例えばパルス符号変調（ＰＣＭ）データ形式またはさらには圧縮されたオーディオフォーマット形式での直接的な離散送信は、極めて高いビットレートを要求する。しかしながら、同時に、オーディオデータをビットレート効率的な方法で送信しかつ蓄積することも望ましい。したがって、多チャネル/多オブジェクトアプリケーションに起因する過度なリソース負荷を回避するために、オーディオ品質とビットレート要件との間の妥当なトレードオフ（tradeoff）が歓迎される。

最近では、オーディオ符号化の分野において、多チャネル/多オブジェクトオーディオ信号のビットレート効率的な送信/蓄積のためのパラメトリック手法が、例えば、動画専門家グループ（ＭＰＥＧ:Moving Picture Experts Group）他によって導入されている。一例は、チャネル指向的手法［ＭＰＳ、ＢＣＣ］としてのＭＰＥＧ Surruond（ＭＰＳ）、またはオブジェクト指向的手法［ＪＳＣ、ＳＡＯＣ、ＳＡＯＣ１、ＳＡＯＣ２］としてのＭＰＥＧ空間オーディオオブジェクト符号化（ＳＡＯＣ）である。別のオブジェクト指向的な手法は、「インフォームド・ソース分離（informed source separation）」［ＩＳＳ１、ＩＳＳ２、ＩＳＳ３、ＩＳＳ４、ＩＳＳ５、ＩＳＳ６］と称される。これらの技法の目的は、チャネル/オブジェクトのダウンミックスと、送信/蓄積されたオーディオシーンおよび/またはオーディオシーンにおけるオーディオ・ソース・オブジェクトについて記述する追加的なサイド情報とに基づいて、望ましい出力オーディオシーンまたは望ましいオーディオ・ソース・オブジェクトを再構成することにある。

このようなシステムにおけるチャネル/オブジェクト関連サイド情報の推定および適用は、時間−周波数選択式に行われる。したがって、このようなシステムは、離散フーリエ変換（ＤＦＴ:Discrete Fourier Transform）、短時間フーリエ変換（ＳＴＦＴ:Short Time Fourier Transform）または直交ミラーフィルタ（ＱＭＦ:Quadrature Mirror Filter）バンクのようなフィルタバンク、他等の時間/周波数変換を用いる。このようなシステムの基本原理は、図３に、ＭＰＥＧＳＡＯＣを例に用いて描かれている。

ＳＴＦＴの場合、時間次元は時間−ブロック番号で表され、スペクトル次元はスペクトル係数（「ビン」）の数字によって捕捉される。ＱＭＦの場合、時間次元は時間−スロット番号で表され、スペクトル次元はサブバンド番号によって捕捉される。ＱＭＦのスペクトル分解能が続く第２のフィルタ段の適用によって増大される場合は、フィルタバンク全体がハイブリッドＱＭＦと称され、精密分解能サブバンドはハイブリッドサブバンドと称される。

既に述べたように、ＳＡＯＣでは全体の処理は時間−周波数選択式に行われ、図３に描かれているように、各周波数帯域内では下記のように記述することができる。
− Ｎ個の入力オーディオオブジェクト信号ｓ₁…ｓ_Nが、要素ｄ_1,1…ｄ_N,Pより成るダウンミックス行列を用いてエンコーダ処理の一部としてＰ個のチャネルｘ₁…ｘ_Pへダウンミックスされる。さらに、エンコーダは、入力されるオーディオオブジェクトの特徴を記述するサイド情報を抽出する（サイド情報推定器（ＳＩＥ）モジュール）。ＭＰＥＧＳＡＯＣの場合、オブジェクト電力の相対的な関係がこのようなサイド情報の最も基本的な形式である。
− ダウンミックス信号とサイド情報が送信/蓄積される。この目的のために、ダウンミックスオーディオ信号は、例えば、ＭＰＥＧ−１/２レイヤＩＩまたはＩＩＩ（ａｋａ.ｍｐ３）、ＭＰＥＧ−２/４アドバンスト・オーディオ・コーディング（ＡＡＣ:Advanced Audio Coding）等の周知の知覚オーディオコーダを用いて圧縮することができる。
− 受信側において、デコーダは、概念的には、送信されるサイド情報を用いて（復号された）ダウンミックス信号からオリジナルのオブジェクト信号を復元（「オブジェクト分離」）するようとする。これの近似されたオブジェクト信号

は、次に、図３において係数ｒ_1,1…ｒ_N,Mにより記述されるレンダリング行列を用いて、Ｍ個のオーディオ出力チャネル

により表されるターゲットシーンにミックスされる。望ましいターゲットシーンは、極端な事例では混合物の中の１つだけのソース信号を実現するもの（ソース分離シナリオ）であってもよいが、送信された複数のオブジェクトより成る他の任意の音響シーンであってもよい。例えば、その出力は、単チャネル、２チャネルステレオまたは５.１多チャネルターゲットシーンであることができる。

時間−周波数ベースのシステムは、静的な時間および周波数分解能を有する時間−周波数（ｔ/ｆ）変換を利用することができる。所定の固定ｔ/ｆ分解能グリッドの選択は、典型的には、時間分解能と周波数分解能の間のトレードオフを包含する。

固定ｔ/ｆ分解能の効果は、オーディオ信号混合物における典型的なオブジェクト信号の例で説明することができる。例えば、トーン音のスペクトルは基本周波数と幾つかのオーバートーンをもつ調和関係のある構造を示す。このような信号のエネルギーは、所定の周波数領域に集中している。このような信号の場合、利用されるｔ/ｆ表現の高周波数分解能は、信号混合物から狭帯域トーンスペクトル領域を分離するために有益である。反対に、過渡信号は、ドラム音のように、明確な時間構成を有する場合が多く、即ち、実質的エネルギーは短時間でしか存在せず、かつ広範囲の周波数に渡って広がっている。これらの信号の場合、利用されるｔ/ｆ表現の高い時間分解能は、信号混合物から過渡信号部分を分離する際に効果的である。

現行のオーディオオブジェクト符号化スキームは、ＳＡＯＣ処理の時間−周波数選択性における多様性が限られている。例えば、ＭＰＥＧＳＡＯＣ［ＳＡＯＣ］［ＳＡＯＣ１］［ＳＡＯＣ２］は、所謂ハイブリッド直交ミラーフィルタバンク（ハイブリッド−ＱＭＦ）およびこれに続くパラメトリック帯域へのグルーピング(grouping)の使用によって取得され得る時間−周波数分解能に限定される。したがって、標準ＳＡＯＣ（［ＳＡＯＣ］において標準化されるようなＭＰＥＧＳＡＯＣ）におけるオブジェクト復元は、他のオーディオオブジェクトからの可聴変調クロストーク（例えば、音声におけるダブルトークアーティファクト、または音楽における聴覚粗さアーティファクト）に繋がるハイブリッド−ＱＭＦの粗な周波数分解能に煩わされる場合が多い。

オーディオソースのバイノーラルキュー符号化（ＢＣＣ:Binaural Cue Coding）［ＢＣＣ］およびオーディオソースのパラメトリックジョイント符号化［ＪＳＣ］のようなオーディオオブジェクト符号化スキームも、１つの固定分解能フィルタバンクの使用に限定される。固定分解能のフィルタバンクまたは変換を実際に選択する際には、最適性に関して、符号化スキームの時間的特性とスペクトル特性との間の予め規定されたトレードオフを常に伴う。

インフォームド・ソース分離（ＩＳＳ:informed source separation）の分野では、知覚オーディオ符号化スキーム、例えばアドバンスト・オーディオ・コーディング（ＡＡＣ:Advanced Audio Coding）［ＡＡＣ］、から周知であるように、時間周波数変換の長さを信号［ＩＳＳ７］の特性に動的に適合化させることが勧められている。

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003. [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006. [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007. [SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008. [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010. [AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin, "ISO/IEC MPEG-2 Advanced Audio Coding", J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997. [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixture using Source Index Embedding", IEEE ICASSP, 2010. [ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010. [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011. [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011. [ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011. [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011. [ISS7] Andrew Nesbit, Emmanuel Vincent, and Mark D. Plumbley: "Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation", IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009. [FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992. [MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s,1993.

本発明の目的は、オーディオオブジェクト符号化の改良された概念を提供することにある。

本発明のこの目的は、請求項１に記載のデコーダ、請求項５に記載のデコーダ、請求項６に記載のエンコーダ、請求項１２に記載のエンコーダ、請求項１３に記載の復号方法、請求項１４に記載の符号化方法、請求項１５に記載の復号方法、請求項１６に記載の符号化方法、および請求項１７に記載のコンピュータプログラムによって解決される。

従来技術ＳＡＯＣとは対照的に、時間−周波数分解能を後方互換性のある方法で信号に動的に適合化させるための実施形態が提供され、その結果、
標準ＳＡＯＣエンコーダ（［ＳＡＯＣ］で標準化されているようなＭＰＥＧＳＡＯＣ）から発生するＳＡＯＣパラメータ・ビット・ストリームを、強化デコーダによっても標準デコーダで取得されるものに匹敵する知覚品質で復号することができ、
強化ＳＡＯＣパラメータ・ビット・ストリームを、強化デコーダにより最適品質で復号することができ、かつ、
標準ＳＡＯＣパラメータ・ビット・ストリームと強化ＳＡＯＣパラメータ・ビット・ストリームを、例えば多地点制御装置（ＭＣＵ:multi-point control unit）シナリオにおいて、標準デコーダまたは強化デコーダによって復号され得る１つの共通ビットストリームに混合することができる。

上述の特性に関して、新規強化ＳＡＯＣデータの複合と伝統的な標準ＳＡＯＣデータの後方互換性マッピングの何れも同時にサポートするために、時間−周波数分解能で動的に適合化できる共通のフィルタバンク/変換表現を用意することが有益である。そのような共通表現があれば、強化ＳＡＯＣデータと標準ＳＡＯＣデータの合体が可能である。

強化されたＳＡＯＣ知覚品質は、オーディオ・オブジェクト・キューの推定に採用される、またはオーディオ・オブジェクト・キューの合成に使用されるフィルタバンクまたは変換の時間−周波数分解能を入力オーディオオブジェクトの固有の特性に動的に適合化することによって得ることができる。例えば、オーディオオブジェクトが所定の時間スパンの間、準定常であれば、パラメータ推定と合成は、粗い時間分解能と密な周波数分解能で効果的に実行される。オーディオオブジェクトが所定の時間スパンの間、過渡または非定常性を包含すれば、パラメータ推定と合成は、密な時間分解能と粗い周波数分解能を用いて効果的に行われる。これにより、フィルタバンクまたは変換の動的な適合は、下記を可能にする。すなわち、
オブジェクト間クロストークを回避するために、準定常信号のスペクトル分離では周波数選択性を高くすること、および、
プレエコーおよびポストエコーを最小限に抑えるために、オブジェクト開始または過渡事象に対しては時間精度を高くすること。

同時に、伝統的なＳＡＯＣ品質は、標準ＳＡＯＣデータを、オブジェクト信号特性を記述するサイド情報に依存する発明的な後方互換性信号適応変換により提供される時間−周波数グリッド上へマッピングすることによって得ることができる。

標準ＳＡＯＣデータと強化ＳＡＯＣデータの双方を、１つの共通変換を用いて復号可能であることは、標準ＳＡＯＣデータと新規な強化ＳＡＯＣデータのミキシングを包含するアプリケーションに対する直接的な後方互換性を可能にする。

複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダが提供される。そのダウンミックス信号は、２つ以上のオーディオオブジェクト信号を符号化する。

このデコーダは、ウインドウシーケンス発生器を備えているか、または、複数の分析ウインドウを決定するものであり、各分析ウインドウはダウンミックス信号の複数の時間領域ダウンミックスサンプルを含む。複数の分析ウインドウの各々は、その分析ウインドウの時間領域ダウンミックスサンプルの数を示すウインドウ長さを有する。そのウインドウシーケンス発生器は、各分析ウインドウのウインドウ長さが２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。

さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数の時間領域ダウンミックスサンプルを、その分析ウインドウのウインドウ長さに依存して時間領域から時間−周波数領域へ変換するためのｔ/ｆ分析モジュールを備えている。

さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、２つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックス（un-mix）するための非混合ユニット（un-mixing unit）を備えている。

一実施形態によれば、ウインドウシーケンス発生器は、２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号変化がダウンミックス信号によって符号化されつつあることを示す過渡が複数の分析ウインドウのうちの第１の分析ウインドウと第２の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置ｔによって、第１の分析ウインドウの中心ｃ_kはｃ_k＝ｔ−ｌ_bと画定され、第１の分析ウインドウの中心ｃ_k+1はｃ_k+1＝ｔ＋ｌ_aと画定される。ｌ_aとｌ_bは数字である。

一実施形態では、ウインドウシーケンス発生器は、２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号変化がダウンミックス信号によって符号化されつつあることを示す過渡が複数の分析ウインドウのうちの第１の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置ｔによって、第１の分析ウインドウの中心ｃ_kはｃ_k＝ｔと画定され、複数の分析ウインドウのうちの第２の分析ウインドウの中心ｃ_k-1はｃ_k-1＝ｔ−ｌ_bと画定され、複数の分析ウインドウのうちの第３の分析ウインドウの中心ｃ_k+1はｃ_k+1＝ｔ＋ｌ_aと画定される。ｌ_aとｌ_bは数字である。

一実施形態によれば、ウインドウシーケンス発生器は、複数の分析ウインドウの各々が第１の数の時間領域信号サンプルまたは第２の数の時間領域信号サンプルの何れかを含むように、複数の分析ウインドウを決定すべく構成することができる。その場合、第２の数の時間領域信号サンプルは第１の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号変化がダウンミックス信号によって符号化されつつあることを示す過渡を含むときに第１の数の時間領域信号サンプルを含む。

一実施形態では、ｔ/ｆ分析モジュールは、各分析ウインドウの時間領域ダウンミックスサンプルを、ＱＭＦフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成することができる。その場合、ｔ/ｆ分析モジュール（１３５）は、各分析ウインドウの複数の時間領域信号サンプルを、その分析ウインドウのウインドウ長さに依存して変換するように構成されている。

さらに、２つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダが提供される。それらの２つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含んでいる。このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニットを備えている。各分析ウインドウは入力されたオーディオオブジェクト信号のうちの１つの信号の複数の時間領域信号サンプルを含み、各分析ウインドウはその分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有する。ウインドウシーケンス・ユニットは、各分析ウインドウのウインドウ長さが２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。

さらに、このエンコーダは、変換された信号サンプルを得るために、各分析ウインドウの時間領域信号サンプルを時間領域から時間−周波数領域へ変換するためのｔ/ｆ分析ユニットを備えている。ｔ/ｆ分析ユニットは、各分析ウインドウの複数の時間領域信号サンプルを、その分析ウインドウのウインドウ長さに依存して変換するように構成することができる。

さらに、このエンコーダは、変換された信号サンプルに依存してパラメトリックサイド情報を決定するためのＰＳＩ推定ユニットを備えている。

一実施形態において、このエンコーダは、さらに、各分析ウインドウについてその分析ウインドウが２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号変化を示す過渡を含むかどうかを決定するために、２つ以上の入力されたオーディオオブジェクト信号の複数のオブジェクトレベル差を決定するように構成され、かつオブジェクトレベル差のうちの第１の差と第２の差との差がしきい値を超えているかどうかを決定するように構成された過渡検出ユニットを備えることができる。

一実施形態によれば、その過渡検出ユニットは、オブジェクトレベル差のうちの第１の差と第２の差との差がしきい値を超えているかどうかを決定するために、次のように定義される検出関数ｄ（ｎ）を使用するように構成することができる。

但し、ｎは指数、ｉは第１のオブジェクト、ｊは第２のオブジェクト、ｂはパラメトリック帯域を示す。ＯＬＤ（object level difference）は、例えば、オブジェクトレベル差を示す。

一実施形態において、ウインドウシーケンス・ユニットは、２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号変化を示す過渡が複数の分析ウインドウのうちの第１の分析ウインドウと第２の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置をｔとすると、第１の分析ウインドウの中心ｃ_kはｃ_k＝ｔ−ｌ_bと画定され、第１の分析ウインドウの中心ｃ_k+1はｃ_k+1＝ｔ＋ｌ_aと画定される。ｌ_aとｌ_bは数字である。

一実施形態によれば、ウインドウシーケンス・ユニットは、２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡が複数の分析ウインドウのうちの第１の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成さすることができる。その場合、過渡の位置ｔによって、第１の分析ウインドウの中心ｃ_kはｃ_k＝ｔと画定され、複数の分析ウインドウのうちの第２の分析ウインドウの中心ｃ_k-1はｃ_k-1＝ｔ−ｌ_bと画定され、複数の分析ウインドウのうちの第３の分析ウインドウの中心ｃ_k+1はｃ_k+1＝ｔ＋ｌ_aと画定される。ｌ_aとｌ_bは数字である。

一実施形態において、ウインドウシーケンス・ユニットは、複数の分析ウインドウの各々が第１の数の時間領域信号サンプルまたは第２の数の時間領域信号サンプルの何れかを備えるように、複数の分析ウインドウを決定すべく構成することができる。その場合、第２の数の時間領域信号サンプルは第１の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含む場合に第１の数の時間領域信号サンプルを含むものとする。

一実施形態によれば、ｔ/ｆ分析ユニットは、各分析ウインドウの時間領域信号サンプルを、ＱＭＦフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成することができ、その場合、ｔ/ｆ分析ユニットは、各分析ウインドウの複数の時間領域信号サンプルをその分析ウインドウのウインドウ長さに依存して変換するように構成することができる。

さらに、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダが提供される。そのダウンミックス信号は２つ以上のオーディオオブジェクト信号を符号化する。このデコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域ダウンミックスサンプルを変換するための第１の分析サブモジュールを備えている。さらに、このデコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス発生器を備え、その分析ウインドウは各々、複数のサブバンドのうちの１つのサブバンドの複数のサブバンドサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、ウインドウシーケンス発生器は各分析ウインドウのウインドウ長さが２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように複数の分析ウインドウを決定すべく構成されている。さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第２の分析モジュールを備えている。さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、２つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニットを備えている。

さらに、２つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダを提供される。それらの２つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含んでいる。このエンコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域信号サンプルを変換するための第１の分析サブモジュールを備えている。さらに、このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニットを備え、各分析ウインドウは複数のサブバンドのうちの１つのサブバンドの複数のサブバンドサンプルを含み、各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、ウインドウシーケンス・ユニットは、各分析ウインドウのウインドウ長さが２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。さらに、このエンコーダは、変換された信号サンプルを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第２の分析モジュールを備えている。さらに、このエンコーダは、パラメトリックサイド情報を、変換された信号サンプルに依存して決定するためのＰＳＩ推定ユニットを備えている。

さらに、ダウンミックス信号から、１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダが提供される。そのダウンミックス信号は１つまたは複数のオーディオオブジェクト信号を符号化する。このデコーダは、１つまたは複数のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニットを備えている。さらに、このデコーダは、複数の第１のサブバンドチャネルを含む第１の変換されたダウンミックスを得るために、ダウンミックス信号を変換するための第１の分析モジュールを備えている。さらに、このデコーダは、複数の第２のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、第１のサブバンドチャネルのうちの少なくとも１つを変換することによって第２の変換されたダウンミックスを生成するための第２の分析モジュールを備え、その第２の変換されたダウンミックスは、第２の分析モジュールによって変換されていない第１のサブバンドチャネルと、第２のサブバンドチャネルとを含む。さらに、このデコーダは非混合ユニットを備え、その非混合ユニットは、起動指示が起動状態に設定されていれば、１つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第２の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得るように、かつ起動指示が起動状態に設定されていなければ、１つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第１の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得るように構成されている。

さらに、１つの入力されたオーディオオブジェクト信号を符号化するためのエンコーダが提供される。このエンコーダは、入力されたオーディオオブジェクト信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニットを備えている。さらに、このエンコーダは、第１の変換されたオーディオオブジェクト信号を得るために入力されたオーディオオブジェクト信号を変換するための第１の分析モジュールを備え、その第１の変換されたオーディオオブジェクト信号は複数の第１のサブバンドチャネルを含む。さらに、このエンコーダは、複数の第２のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、複数の第１のサブバンドチャネルのうちの少なくとも１つを変換することによって第２の変換されたオーディオオブジェクト信号を生成するための第２の分析モジュールを備え、その第２の変換されたオーディオオブジェクト信号は、第２の分析モジュールによって変換されていない第１のサブバンドチャネルと第２のサブバンドチャネルとを含む。さらに、このエンコーダは、ＰＳＩ推定ユニットを備え、そのＰＳＩ推定ユニットは、起動指示が起動状態に設定されていれば第２の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ起動指示が起動状態に設定されていなければ第１の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定するように構成されている。

さらに、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するための復号方法が提供される。そのダウンミックス信号は２つ以上のオーディオオブジェクト信号を符号化する。本方法は、
複数の分析ウインドウを決定することであって、各分析ウインドウはダウンミックス信号の複数の時間領域ダウンミックスサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウの時間領域ダウンミックスサンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように実行されることと、
変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数の時間領域ダウンミックスサンプルを、前記分析ウインドウのウインドウ長さに依存して時間領域から時間−周波数領域へ変換することと、
オーディオ出力信号を得るために、変換されたダウンミックスを、２つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスすること、を含む。

さらに、２つ以上の入力されたオーディオオブジェクト信号を符号化するための方法が提供される。それらの２つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含んでいる。本方法は、
複数の分析ウインドウを決定することであって、各分析ウインドウは入力されたオーディオオブジェクト信号のうちの１つの信号の複数の時間領域信号サンプルを含み、各分析ウインドウはその分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように実行されることと、
変換された信号サンプルを得るために、各分析ウインドウの時間領域信号サンプルを時間領域から時間−周波数領域へ変換することであって、各分析ウインドウの複数の時間領域信号サンプルの変換はその分析ウインドウのウインドウ長さに依存することと、
変換された信号サンプルに依存してパラメトリックサイド情報を決定すること、を含む。

さらに、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成することによる復号方法であって、そのダウンミックス信号は２つ以上のオーディオオブジェクト信号を符号化する、方法が提供される。本方法は、
複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域ダウンミックスサンプルを変換することと、
複数の分析ウインドウを決定することであって、各分析ウインドウは複数のサブバンドのうちの１つのサブバンドの複数のサブバンドサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように実行されることと、
変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルをその分析ウインドウのウインドウ長さに依存して変換することと、
オーディオ出力信号を得るために、変換されたダウンミックスを、２つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスすること、を含む。

さらに、２つ以上の入力されたオーディオオブジェクト信号を符号化するための方法であって、２つ以上の入力されたオーディオオブジェクト信号の各々が複数の時間領域信号サンプルを含む、方法が提供される。本方法は、
複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域信号サンプルを変換することと、
複数の分析ウインドウを決定することであって、各分析ウインドウは複数のサブバンドのうちの１つのサブバンドの複数のサブバンドサンプルを含み、各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように実行されることと、
変換された信号サンプルを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルをその分析ウインドウのウインドウ長さに依存して変換することと、
変換された信号サンプルに依存してパラメトリックサイド情報を決定すること、を含む。

さらに、ダウンミックス信号から、１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成することによる復号方法であって、そのダウンミックス信号は２つ以上のオーディオオブジェクト信号を符号化する、方法が提供される。本方法は、
２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存して起動指示を起動状態に設定することと、
複数の第１のサブバンドチャネルを含む第１の変換されたダウンミックスを得るために、ダウンミックス信号を変換することと、
複数の第２のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、第１のサブバンドチャネルのうちの少なくとも１つを変換することによって第２の変換されたダウンミックスを生成することであって、第２の変換されたダウンミックスは、第２の分析モジュールによって変換されていない第１のサブバンドチャネルと、第２のサブバンドチャネルとを含むことと、
起動指示が起動状態に設定されていれば、オーディオ出力信号を得るために２つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第２の変換されたダウンミックスをアンミックスし、かつ起動指示が起動状態に設定されていなければ、オーディオ出力信号を得るために２つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第１の変換されたダウンミックスをアンミックスすること、を含む。

さらに、２つ以上の入力されたオーディオオブジェクト信号を符号化するための方法が提供される。本方法は、
２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存して起動指示を起動状態に設定することと、
前記入力されたオーディオオブジェクト信号の第１の変換されたオーディオオブジェクト信号を得るために、入力されたオーディオオブジェクト信号の各々を変換することであって、前記第１の変換されたオーディオオブジェクト信号は複数の第１のサブバンドチャネルを含むことと、
複数の第２のサブバンドチャネルを得るために、入力されたオーディオオブジェクト信号の各々について、起動指示が起動状態に設定されていると、前記入力されたオーディオオブジェクト信号の第１の変換されたオーディオオブジェクト信号の第１のサブバンドチャネルのうちの少なくとも１つを変換することによって第２の変換されたオーディオオブジェクト信号を生成することであって、前記第２の変換されたダウンミックスは、第２の分析モジュールによって変換されていない前記第１のサブバンドチャネルと、前記第２のサブバンドチャネルとを含むことと、
起動指示が起動状態に設定されていれば、入力されたオーディオオブジェクト信号の各々の第２の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ起動指示が起動状態に設定されていなければ、入力されたオーディオオブジェクト信号の各々の第１の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定すること、を含む。

さらに、コンピュータまたは信号プロセッサ上で実行される場合に、上述の方法のうちの１つを実装するためのコンピュータプログラムが提供される。

好適な実施形態については、従属請求項において提示される。

以下、図面を参照して、本発明の実施形態をより詳細に説明する。

図１Ａは一実施形態によるデコーダを示す。図１Ｂは別の実施形態によるデコーダを示す。図１Ｃはさらなる実施形態によるデコーダを示す。図２Ａは一実施形態による、入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。図２Ｂは、別の実施形態による、入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。図２Ｃは、さらなる実施形態による、入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。図３はＳＡＯＣシステムの概念的概観を示す略ブロック図である。図４は単チャネルオーディオ信号の時間−スペクトル表現を示す例示的な略図である。図５はＳＡＯＣエンコーダ内のサイド情報の時間−周波数選択的計算を示す略ブロック図である。図６は、標準ＳＡＯＣビットストリームの復号を示す、一実施形態による強化ＳＡＯＣデコーダを描いたブロック図である。図７は一実施形態によるデコーダを描いたブロック図である。図８は、エンコーダのパラメトリック経路を実装する、特定の一実施形態によるエンコーダを示すブロック図である。図９は過渡におけるウインドウ・クロスオーバ・ポイントに対応するための正規ウインドウイング（windowing）シーケンスの適合化を示す。図１０は、一実施形態による、過渡分離ブロックのスイッチングスキームを示す。図１１は、一実施形態による、過渡を有する信号と結果として生じるＡＡＣ状ウインドウイングシーケンスを示す。図１２は拡張されたＱＭＦハイブリッドフィルタリングを示す。図１３は変換にショートウインドウが使用される一例を示す。図１４は、変換に、図１３の例よりも長いウインドウが使用される一例を示す。図１５は高周波数分解能および低時間分解能が実現される一例を示す。図１６は高時間分解能および低周波数分解能が実現される一例を示す。図１７は中間時間分解能および中間周波数分解能が実現される第１の例を示す。図１８は中間時間分解能および中間周波数分解能が実現される第１の例を示す。

本発明の実施形態について述べる前に、従来技術であるＳＡＯＣシステムの背景をさらに詳述する。

図３はＳＡＯＣエンコーダ１０およびＳＡＯＣデコーダ１２の全体の配置を示す。ＳＡＯＣエンコーダ１０は、入力としてＮ個のオブジェクト、即ちオーディオ信号ｓ₁−ｓ_Nを受信する。具体的には、エンコーダ１０は、オーディオ信号ｓ₁−ｓ_Nを受信しかつこれをダウンミックス信号１８へダウンミックスするダウンミキサ１６を備えている。あるいは、ダウンミックスは外部から提供されてもよく（「アーティスティックダウンミックス」）、その場合、システムは提供されたダウンミックスを計算されたダウンミックスに一致させるために追加的なサイド情報を推定する。図３において、ダウンミックス信号はＰチャネル信号であるものとして示されている。したがって、モノラル（Ｐ＝１）、ステレオ（Ｐ＝２）または多チャネル（Ｐ＞２）ダウンミックス信号構成の何れもが考えられる。

ステレオダウンミックスの場合、ダウンミックス信号１８のチャネルはＬ０とＲ０で示され、モノラルダウンミックスの場合は単にＬ０で示される。ＳＡＯＣデコーダ１２が個々のオブジェクトｓ₁−ｓ_Nを回復できるようにするために、サイド情報推定器１７はＳＡＯＣデコーダ１２にＳＡＯＣパラメータを含むサイド情報を提供する。例えば、ステレオダウンミックスの場合、ＳＡＯＣパラメータは、オブジェクトレベル差（ＯＬＤ）、オブジェクト間相関（ＩＯＣ:inter-object correlation）（オブジェクト間相互相関パラメータ）、ダウンミックス利得値（ＤＭＧ:downmix gain value）およびダウンミックス・チャネル・レベル差（ＤＣＬＤ:downmix channel level difference）を含む。ＳＡＯＣパラメータを含むサイド情報２０は、ダウンミックス信号１８と共に、ＳＡＯＣデコーダ１２により受信されるＳＡＯＣ出力データストリームを形成する。

ＳＡＯＣデコーダ１２は、オーディオ信号

および

を回復してユーザが選択する任意のチャネルセット

上へレンダリングするために、サイド情報２０だけでなくダウンミックス信号１８も受信するアップミキサを備えている。そのレンダリングは、ＳＡＯＣデコーダ１２へ入力されるレンダリング情報２６によって規定される。

オーディオ信号ｓ₁−ｓ_Nは、時間領域またはスペクトル領域のような任意の符号化領域でエンコーダ１０へ入力することができる。オーディオ信号ｓ₁−ｓ_NがＰＣＭ符号化のような時間領域でエンコーダ１０へ供給される場合は、エンコーダ１０はその信号をスペクトル領域へ伝達するためにハイブリッドＱＭＦバンクのようなフィルタバンクを用いることができ、スペクトル領域において、オーディオ信号は異なるスペクトル部分に関連づけられる幾つかのサブバンドにおいて固有のフィルタバンク分解能で表現される。オーディオ信号ｓ₁−ｓ_Nが既にエンコーダ１０により予期される表現になっている場合は、エンコーダ１０はスペクトル分解を実行する必要がない。

図４は直前で述べたスペクトル領域におけるオーディオ信号を示す。図から分かるように、オーディオ信号は複数のサブバンド信号として表されている。各サブバンド信号３０₁−３０_Kは、小さいボックス３２により示されるサブバンド値の時間シーケンスより成る。図から分かるように、サブバンド信号３０₁−３０_Kのサブバンド値３２は、連続するフィルタバンク時間スロット３４の各々について、各サブバンド３０₁−３０_Kが正確に１つのサブバンド値３２を含むように、互いに時間的に同期している。周波数軸３６により示されるように、サブバンド信号３０₁−３０_Kは異なる周波数領域に関連づけられ、かつ時間軸３８によって示されるように、フィルタバンク時間スロット３４は時間的に連続して配置されている。

先に概説したように、図３のサイド情報抽出器１７は、入力されるオーディオ信号ｓ₁−ｓ_NからＳＡＯＣパラメータを計算する。現時点で実装されるＳＡＯＣ標準によれば、エンコーダ１０は、この計算を、フィルタバンク時間スロット３４およびサブバンド分解により決定されるオリジナルの時間/周波数分解能より所定量だけ低減される場合のある時間/周波数分解能で実行し、この低減された所定量はサイド情報２０内の情報としてデコーダ側へ知らされる。連続するフィルタバンク時間スロット３４群はＳＡＯＣフレーム４１を形成することができる。ＳＡＯＣフレーム４１内のパラメータ帯域の数も、同じくサイド情報２０内の情報として伝達される。このように、時間/周波数領域は、図４において破線４２により例示される時間/周波数タイルに分割される。図４において、パラメータ帯域は、時間/周波数タイルの規則的配列が得られるように、図示されている様々なＳＡＯＣフレーム４１において同様に配分される。しかしながら、一般的には、パラメータ帯域は、個々のＳＡＯＣフレーム４１におけるスペクトル分解能に対する異なる必要性に応じてＳＡＯＣフレーム４１間で変わってもよい。さらに、ＳＡＯＣフレーム４１の長さも変わってもよい。結果として、時間/周波数タイルの配列は不規則であってもよい。それにもかかわらず、ある特定のＳＡＯＣフレーム４１内の時間/周波数タイルは、典型的には同じ持続時間をもって時間方向に配列され、即ち、そのＳＡＯＣフレーム４１内の全てのｔ/ｆタイルは、そのＳＡＯＣフレーム４１の始まりにおいて始まり、かつそのＳＡＯＣフレーム４１の終わりで終わる。

図３に描かれているサイド情報抽出器１７は次の式に従ってＳＡＯＣパラメータを計算する。具体的には、サイド情報抽出器１７は、各オブジェクトｉのオブジェクトレベル差を、

として計算する。ここで、和および指数ｎ、ｋは各々、ＳＡＯＣフレーム（または処理用時間スロット）の指数ｌとパラメータ帯域のｍで表わされる所定の時間/周波数タイル４２に属する全ての時間指数３４および全てのスペクトル指数３０に及ぶ。これにより、あるオーディオ信号またはオブジェクトｉの全てのサブバンド値χ_iのエネルギーが合計され、かつ全てのオブジェクトまたはオーディオ信号のうちのそのタイルの最高エネルギー値に対して正規化される。ｘ_i ^n,k*はｘ_i ^n,kの複素共役を示す。

さらに、ＳＡＯＣサイド情報抽出器１７は、異なる入力オブジェクトｓ₁−ｓ_Nのペアの対応する時間/周波数タイルの相似度（similarity measure）を計算することができる。ＳＡＯＣサイド情報抽出器１７は、入力オブジェクトｓ₁−ｓ_Nの全ペア間の相似度を計算してもよいが、計算した相似度を伝えることを抑えてもよく、または共通ステレオチャネルの右または左のチャネルを形成するオーディオオブジェクトｓ₁−ｓ_Nに対する相似度の計算を制限してもよい。いずれの場合も、相似度はオブジェクト間相互相関パラメータ（inter-object cross-correlation parameter）

と呼ばれる。計算式は、次の通りである。

ここで、同じく、指数ｎおよびｋは所定の時間/周波数タイル４２に属する全てのサブバンド値に及び、ｉおよびｊはオーディオオブジェクトｓ₁−ｓ_Nの所定のペアを示し、かつＲｅ｛｝は複素引数の虚数部を放棄する演算を示す。

図３のダウンミキサ１６は、オブジェクトｓ₁−ｓ_Nの各々へ適用される利得係数を用いてオブジェクトｓ₁−ｓ_Nをダウンミックスする。即ち、利得係数ｄ_iがオブジェクトｉへ適用され、次に、こうして重み付けされた全てのオブジェクトｓ₁−ｓ_Nが合計されてモノラルダウンミックス信号が得られる。これは、図３においてＰ＝１の場合の例として示される。図３においてＰ＝２として示される２チャネルダウンミックス信号の別の事例では、利得係数ｄ_1,iがオブジェクトｉへ適用され、次にこうして利得増幅された全てのオブジェクトが合計されて左のダウンミックスチャネルＬ０が得られ、かつ利得係数ｄ_2,iがオブジェクトｉへ適用され、次にこうして利得増幅された全てのオブジェクトが合計されて右のダウンミックスチャネルＲ０が得られる。多チャネルダウンミックス（Ｐ＞２）の場合にも、上記と同様の処理が適用される。

このダウンミックス処方は、ダウンミックス利得ＤＭＧ_iによってデコーダ側へ伝えられ、ステレオダウンミックス信号の場合はダウンミックス・チャネル・レベル差ＤＣＬＤ_iによってデコーダ側へ伝えられる。

ダウンミックス利得は、次式、
ＤＭＧ_i＝２０ｌｏｇ₁₀（ｄ_i＋ε）（モノラルダウンミックス）、
ＤＭＧ_i＝１０ｌｏｇ₁₀（ｄ１_1,i ²＋ｄ１_2,i ²＋ε）（ステレオダウンミックス）、
に従って計算される。但し、εは１０^-9のような小値である。

ＤＣＬＤの場合、次の公式が適用される。

正規モードにおいて、ダウンミキサ１６は、ダウンミックス信号を、モノラルダウンミックスの場合、

に従って、または、ステレオダウンミックスの場合、

に従って各々生成する。

したがって、上述の式において、変数ＯＬＤとＩＯＣはオーディオ信号の関数であり、変数ＤＭＧとＤＣＬＤはｄの関数である。ただし、ｄは時間に関しても周波数に関しても変わりうる。

したがって、正規モードにおいて、ダウンミキサ１６は全てのオブジェクトｓ₁−ｓ_Nを優先順位をつけることなく、即ち全てのオブジェクトｓ₁−ｓ_Nを均等に扱ってミックスする。

デコーダ側において、アップミキサは、ダウンミックス手順の逆、および行列Ｒ（本明細書ではＡと称する場合もある）で表される「レンダリング情報」２６の実装を１つの計算ステップにおいて、即ち、２チャネルダウンミックスの場合、

において実行する。但し、行列Ｅは変数ＯＬＤおよびＩＯＣの関数であり、行列Ｄは、次式のようなダウンミックス係数を含む。

行列Ｅは、オーディオオブジェクトｓ₁−ｓ_Nの推定される共分散行列である。現行のＳＡＯＣ実装において、推定される共分散行列Ｅの計算は、典型的には、ＳＡＯＣパラメータのスペクトル/時間分解能で実行され、即ち、各（ｌ,ｍ）について実行され、よって、推定される共分散行列をＥ^l,mと書くことができる。推定される共分散行列Ｅ^l,mのサイズはＮ×Ｎであり、その係数は、次式のように定義される。

したがって、

である行列Ｅ^l,mは、ｉ＝ｊの場合、

および

であるので、その対角線沿いにオブジェクトレベル差、即ちｉ＝ｊの場合の

を有する。その対角線の外側において、推定される共分散行列Ｅは、オブジェクト間相互相関度（inter-object cross-correlation measure）

で重み付けされたオブジェクトｉおよびｊ各々のオブジェクトレベル差の幾何学的平均を表す行列係数を有する。

図５は、ＳＡＯＣエンコーダ１０の一部としてのサイド情報推定器（ＳＩＥ:Side Information Estimator）の例に関する可能な１つの実装原理を表示したものである。ＳＡＯＣエンコーダ１０は、ミキサ１６と、サイド情報推定器（ＳＩＥ）１７とを備えている。サイド情報推定器は、概念的には２つのモジュールより成る。一方のモジュール４５は各信号の短時間ベースのｔ/ｆ表現（例えば、ＳＴＦＴまたはＱＭＦ）を計算する。計算された短時間ｔ/ｆ表現は、第２のモジュール４６、即ちｔ/ｆ選択性サイド情報推定モジュール（ｔ/ｆ−ＳＩＥ:t/f-selective Side Information Estimation module）へ供給される。ｔ/ｆ−ＳＩＥモジュール４６は各ｔ/ｆ−タイル毎にサイド情報を計算する。現行のＳＡＯＣ実装においては、時間/周波数変換は固定されており、オーディオオブジェクトｓ₁−ｓ_Nの全てについて同一である。さらに、ＳＡＯＣパラメータは、全てのオーディオオブジェクトで同一でありかつ全てのオーディオオブジェクトｓ₁−ｓ_Nで同じ時間/周波数分解能を有するＳＡＯＣフレームに渡って決定され、かくして、幾つかの事例における精密な時間分解能、または他の事例における精密なスペクトル分解能に対するオブジェクト固有のニーズは無視されている。

以下、本発明の実施形態について説明する。

図１Ａは、一実施形態による、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダを示す。そのダウンミックス信号は、２つ以上のオーディオオブジェクト信号を符号化する。

このデコーダは、（例えば、パラメトリックサイド情報、例えばオブジェクトレベル差、に基づいて）複数の分析ウインドウを決定するためのウインドウシーケンス発生器１３４を備えており、各分析ウインドウはダウンミックス信号の複数の時間領域ダウンミックスサンプルを含む。複数の分析ウインドウの各分析ウインドウは、その分析ウインドウの時間領域ダウンミックスサンプルの数を示すウインドウ長さを有する。ウインドウシーケンス発生器１３４は、各分析ウインドウのウインドウ長さが２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。例えば、ウインドウ長さは、その分析ウインドウが、ダウンミックス信号によって符号化されつつある２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存することができる。

複数の分析ウインドウの決定に際して、ウインドウシーケンス発生器１３４は、各分析ウインドウのウインドウ長さが２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように、例えば、パラメトリックサイド情報、例えば２つ以上のオーディオオブジェクト信号に関連する送信されたオブジェクトレベル差、を分析して分析ウインドウのウインドウ長さを決定することができる。あるいは、例えば、複数の分析ウインドウの決定に際して、ウインドウシーケンス発生器１３４は、ウインドウの形状または分析ウインドウ自体を分析してもよく、その場合、ウインドウ形状または分析ウインドウは、例えば、ビットストリームにおいてエンコーダからデコーダへ送信することができ、各分析ウインドウのウインドウ長さは、２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存する。

さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数の時間領域ダウンミックスサンプルを、その分析ウインドウのウインドウ長さに依存して時間領域から時間−周波数領域へ変換するためのｔ/ｆ分析モジュール１３５を備えている。

さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、２つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニット１３６を備えている。

下記の実施形態は特別なウインドウシーケンス構成機構を用いる。ウインドウ長さＮ_wについて、指数範囲０≦ｎ≦Ｎ_w−１のプロトタイプウインドウ関数ｆ（ｎ,Ｎ_w）が定義される。単一のウインドウＷ_k（ｎ）を設計すると、３つの制御ポイント、即ち先行ウインドウ、現行ウインドウおよび次のウインドウの中心ｃ_k-1、ｃ_kおよびｃ_k+1が必要とされる。

これらを用いると、ウインドウイング関数は、次式のように定義される。

よって、実際のウインドウの位置は、

但し

である（

は、次の整数への引数の切り上げ演算を示し、かつ

は、同様に次の整数への引数の切り捨て演算を示す）。本例示において使用されるプロトタイプウインドウ関数は、

として定義される正弦波ウインドウであるが、他の形式を用いることもできる。過渡の位置ｔは、３つのウインドウの中心ｃ_k-1＝ｔ−ｌ_b、ｃ_k＝ｔおよびｃ_k+1＝ｔ＋ｌ_aを画定し、数字ｌ_bおよびｌ_aは過渡前後の所望されるウインドウ範囲を画定する。

後に、図９に関連して説明するように、ウインドウシーケンス発生器１３４は、例えば、過渡が複数の分析ウインドウのうちの第１の分析ウインドウと第２の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置ｔによって、第１の分析ウインドウの中心ｃ_kはｃ_k-1＝ｔ−ｌ_bと画定され、第１の分析ウインドウの中心ｃ_k+1はｃ_k+1＝ｔ＋ｌ_aと画定される。ｌ_aとｌ_bは数字である。

後に、図１０に関連して説明するように、ウインドウシーケンス発生器１３４は、例えば、過渡が複数の分析ウインドウのうちの第１の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成してもよい。その場合、過渡の位置ｔによって、第１の分析ウインドウの中心ｃ_kはｃ_k＝ｔと画定され、複数の分析ウインドウのうちの第２の分析ウインドウの中心ｃ_k-1はｃ_k-1＝ｔ−ｌ_bと画定され、かつ複数の分析ウインドウのうちの第３の分析ウインドウの中心ｃ_k+1はｃ_k+1＝ｔ＋ｌ_aと画定される。ｌ_aとｌ_bは数字である。

後に、図１１に関連して説明するように、ウインドウシーケンス発生器１３４は、例えば、複数の分析ウインドウの各々が第１の数の時間領域信号サンプルまたは第２の数の時間領域信号サンプルの何れかを含むように複数の分析ウインドウを決定すべく構成してもよい。その場合、第２の数の時間領域信号サンプルは第１の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが過渡を含む場合に第１の数の時間領域信号サンプルを含む。

一実施形態において、ｔ/ｆ分析モジュール１３５は、各分析ウインドウの時間領域ダウンミックスサンプルを、ＱＭＦフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成されており、ｔ/ｆ分析ユニット１３５は、各分析ウインドウの複数の時間領域信号サンプルをその分析ウインドウのウインドウ長さに依存して変換するように構成されている。

図２Ａは２つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。２つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含む。

このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニット１０２を備えている。各分析ウインドウは入力されたオーディオオブジェクト信号のうちの１つの信号の複数の時間領域信号サンプルを含み、各分析ウインドウはその分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有する。ウインドウシーケンス・ユニット１０２は、各分析ウインドウのウインドウ長さが２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。例えば、ウインドウ長さは、その分析ウインドウが、２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存することができる。

さらに、このエンコーダは、変換された信号サンプルを得るために、各分析ウインドウの時間領域信号サンプルを時間領域から時間−周波数領域へ変換するためのｔ/ｆ分析ユニット１０３を備えている。ｔ/ｆ分析ユニット１０３は、各分析ウインドウの複数の時間領域信号サンプルを、その分析ウインドウのウインドウ長さに依存して変換するように構成することができる。

さらに、このエンコーダは、パラメトリックサイド情報を変換された信号サンプルに依存して決定するためのＰＳＩ推定ユニット１０４を備えている。

一実施形態において、このエンコーダは、例えば、分析ウインドウの各々について、その分析ウインドウが２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかを決定するために、２つ以上の入力されたオーディオオブジェクト信号の複数のオブジェクトレベル差を決定するように構成され、かつオブジェクトレベル差のうちの第１の差と第２の差との差がしきい値を超えているかどうかを決定するように構成された過渡検出ユニット１０１をさらに備えることができる。

一実施形態によれば、過渡検出ユニット１０１は、オブジェクトレベル差のうちの第１の差と第２の差との差がしきい値を超えているかどうかを決定するために、検出関数ｄ（ｎ）を使用するように構成され、その検出関数ｄ（ｎ）は、

として定義される。但し、ｎは時間指数を示し、ｉは第１のオブジェクトを示し、ｊは第２のオブジェクトを示し、ｂはパラメトリック帯域を示す。ＯＬＤは、例えば、オブジェクトレベル差を示すことができる。

後に、図９に関連して説明するように、ウインドウシーケンス・ユニット１０２は、例えば、２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡が複数の分析ウインドウのうちの第１の分析ウインドウと第２の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置ｔによって、第１の分析ウインドウの中心ｃ_kはｃ_k＝ｔ−ｌ_bと画定され、第１の分析ウインドウの中心ｃ_k+1はｃ_k+1＝ｔ＋ｌ_aと画定される。ｌ_aとｌ_bは数字である。

後に、図１０に関連して説明するように、ウインドウシーケンス・ユニット１０２は、例えば、２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡が複数の分析ウインドウのうちの第１の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成してもよい。その場合、過渡の位置ｔによって、第１の分析ウインドウの中心ｃ_kはｃ_k＝ｔと画定され、複数の分析ウインドウのうちの第２の分析ウインドウの中心ｃ_k-1はｃ_k-1＝ｔ−ｌ_bと画定され、かつ複数の分析ウインドウのうちの第３の分析ウインドウの中心ｃ_k+1はｃ_k+1＝ｔ＋ｌ_aと画定される。ｌ_aとｌ_bは数字である。

後に、図１１に関連して説明するように、ウインドウシーケンス・ユニット１０２は、例えば、複数の分析ウインドウの各々が第１の数の時間領域信号サンプルまたは第２の数の時間領域信号サンプルの何れかを含むように、複数の分析ウインドウを決定すべく構成してもよい。その場合、第２の数の時間領域信号サンプルは、第１の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含む場合に第１の数の時間領域信号サンプルを含む。

一実施形態によれば、ｔ/ｆ分析ユニット１０３は、各分析ウインドウの時間領域信号サンプルを、ＱＭＦフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成されており、ｔ/ｆ分析ユニット１０３は、各分析ウインドウの複数の時間領域信号サンプルをその分析ウインドウのウインドウ長さに依存して変換するように構成されている。

以下、実施形態による、後方互換性のある適応フィルタバンクを用いる強化されたＳＡＯＣについて述べる。

まず、強化されたＳＡＯＣデコーダによる標準ＳＡＯＣビットストリームの復号について説明する。

この強化ＳＡＯＣデコーダは、標準ＳＡＯＣエンコーダからのビットストリームを高品質で復号することができるように設計されている。その復号は、パラメトリック復元のみに限定され、残余ストリームの可能性は無視される。

図６は一実施形態による強化ＳＡＯＣデコーダを描いたブロック図であり、標準ＳＡＯＣビットストリームの復号を示している。太黒字の機能ブロック（１３２、１３３、１３４、１３５）は本発明による処理を示す。パラメトリックサイド情報（ＰＳＩ:parametric side information）は、オブジェクトレベル差（ＯＬＤ）、オブジェクト間相関（ＩＯＣ）、およびデコーダにおける個々のオブジェクトからダウンミックス信号（ＤＭＸオーディオ）を生成するために使用されるダウンミックス行列Ｄの集合より成る。各パラメータセットは、パラメータが関連する時間領域を画定するパラメータ境界に関連づけられる。標準ＳＡＯＣにおいて、基礎を成す時間/周波数表現の周波数ビンは、パラメトリック帯域にグルーピングされる。帯域の間隔はヒト聴覚系における臨界帯域のそれに似ている。さらに、複数のｔ/ｆ表現フレームは、パラメータフレームにグルーピングすることができる。これらの動作は共に、モデリングの不正確さという犠牲を伴うが、必要とされるサイド情報の量を低減させる。

ＳＡＯＣ標準において述べたように、ＯＬＤおよびＩＯＣは、非混合行列（un-mixing matrix）Ｇ＝ＥＤ^TＪを計算するために使用され、ここで、Ｅの要素は、

であってオブジェクト相互相関行列に近似し、ｉとｊはオブジェクト指数であり、Ｊ≒（ＤＥＤ^T）^-1であり、かつＤ^TはＤの転置行列である。非混合行列計算器１３１は、適宜、非混合行列を計算するように構成することができる。

非混合行列は、次に、時間補間器１３２によって、標準ＳＡＯＣのように、先行フレームの非混合行列からパラメータフレームを経て推定値が到達するパラメータ境界まで線形補間される。これにより、結果的に、各時間/周波数分析ウインドウおよびパラメトリック帯域毎に非混合行列が生じる。

非混合行列のパラメトリック帯域周波数分解能は、ウインドウ周波数分解能適合化ユニット１３３によって、その分析ウインドウにおける時間−周波数表現の分解能まで拡張される。時間フレームにおけるパラメトリック帯域ｂの補間された非混合行列がＧ（ｂ）として定義される場合は、そのパラメトリック帯域内部の全ての周波数ビンに同じ非混合係数（un-mixing coefficient）が使用される。

ウインドウシーケンス発生器１３４は、ＰＳＩからのパラメータセット範囲情報を用いて、入力されたダウンミックスオーディオ信号を分析するための適切なウインドウイングシーケンスを決定するように構成されている。主たる要件は、そのＰＳＩにパラメータセット境界が存在すれば、連続する分析ウインドウ間のクロスオーバーポイントがこれに一致しなければならないことである。ウインドウイングは、各ウインドウ内のデータの周波数分解能（先に述べたように、非混合データ（un-mixing data）拡張に使用される）も決定する。

ウインドウイングされたデータは、次に、ｔ/ｆ分析モジュール１３５により、適切な時間−周波数変換、例えば離散フーリエ変換（ＤＦＴ:Discrete Fourier Transform）、複素修正離散コサイン変換（ＣＭＤＣＴ:Complex Modified Discrete Cosine Transform）または奇積層離散フーリエ変換（ＯＤＦＴOddly stacked Discrete Fourier Transform）を用いて、周波数領域表現に変換される。

最後に、非混合ユニット１３６は、ダウンミックス信号Ｘのスペクトル表現に、フレーム当たり周波数ビン当たりの非混合行列を適用して、パラメトリック復元Ｙを取得する。出力チャネルｊは、ダウンミックスチャネルの線形結合

である。

このプロセスによって達成できる品質は、ほとんどの目的に関して、標準ＳＡＯＣデコーダによって達成される結果とは知覚的に区別不可能である。

なお、これまでの記述は、個々のオブジェクトの復元に関するものであるが、標準ＳＡＯＣにおいてｆ、レンダリングは、非混合行列に含まれ、即ち、パラメトリック補間に含まれている。線形演算としては、演算の順序は問題ではないが、差分には注目すべきである。

以下、強化ＳＡＯＣデコーダによる強化ＳＡＯＣビットストリームの復号について述べる。

強化ＳＡＯＣデコーダの主要な機能については、標準ＳＡＯＣビットストリームの復号において既に述べた。本項では、ＰＳＩに導入される強化されたＳＡＯＣエンハンスメントを如何に用いれば、より高い知覚品質を達成できるか、について詳述する。

図７は、一実施形態によるデコーダの主要な機能ブロックを描いたものであり、周波数分解能エンハンスメントの復号を示している。太黒字の機能ブロック（１３２、１３３、１３４、１３５）は本発明による処理を示す。

まず、帯域上値拡張ユニット１４１は、各パラメトリック帯域のＯＬＤおよびＩＯＣ値を、エンハンスメントにおいて使用される周波数分解能、例えば１０２４ビンへ適合させる。これは、パラメトリック帯域に対応する周波数ビン上の値を複製することによって行われる。これにより、新しいＯＬＤ

およびＩＯＣ

が生じる。Ｋ（ｆ,ｂ）は、次式によって、周波数ビンｆのパラメトリック帯域ｂへの割当てを定義するカーネル行列である。

これと並行して、デルタ関数回復ユニット１４２は、補正係数パラメータ化を反転して、拡張されたＯＬＤおよびＩＯＣと同じサイズのデルタ関数

を得る。

次に、デルタ適用ユニット１４３が拡張されたＯＬＤ値にデルタを適用し、精密分解能ＯＬＤ値が、

によって得られる。

ある特定の実施形態において、非混合行列の計算は、例えば、非混合行列計算器１３１によって、標準ＳＡＯＣビットストリームの復号と同様に、即ち、Ｇ（ｆ）＝Ｅ（ｆ）Ｄ^T（ｆ）Ｊ（ｆ）により行うことができる。ここで、

およびＪ（ｆ）≒（Ｄ（ｆ）Ｅ（ｆ）Ｄ^T（ｆ））^-1である。望むなら、レンダリング行列は、非混合行列Ｇ（ｆ）へ乗算することができる。続いて、標準ＳＡＯＣのように、時間補間器１３２による時間補間が行われる。

各ウインドウ内の周波数分解能は、公称高周波数分解能とは異なる（通常は低い）場合があることから、ウインドウ周波数分解能適合化ユニット１３３は、非混合行列をオーディオからのスペクトルデータの分解能に整合させ、これを適用可能にすべく適合化する必要がある。これは、例えば、周波数軸上の係数を適正な分解能へリサンプリングすることによって行なうことができる。あるいは、分解能が整数倍であれば、単に、高分解能データから、より低い分解能における１つの周波数ビンに対応する指数を平均することによって行なうことができる。

ビットストリームからのウインドウイングシーケンス情報は、エンコーダにおいて使用されるものに対して完全に相補的な時間−周波数分析を達成するために使用することができ、または、ウインドウイングシーケンスは、標準ＳＡＯＣビットストリームの復号において行われるように、パラメータ境界に基づいて構成することができる。そのためにウインドウシーケンス発生器１３４を使用することができる。

次に、ダウンミックスオーディオの時間−周波数分析が、ｔ/ｆ分析モジュール１３５により、所定のウインドウを用いて実行される。

最後に、時間補間されかつ（おそらくは）スペクトル的に適合化された非混合行列が、非混合ユニット１３６によって、入力オーディオの時間−周波数表現に適用され、出力チャネルｊを入力チャネルの線形結合として得ることができる。

以下、後方互換性のある強化されたＳＡＯＣ符号化について述べる。

それでは、後方互換性サイド情報部分および追加的なエンハンスメントを含むビットストリームを生成する強化されたＳＡＯＣエンコーダについて述べる。既存の標準ＳＡＯＣデコーダは、ＰＳＩの後方互換性部分を復号し、かつオブジェクトの復元を生成することができる。強化ＳＡＯＣデータにより使用される追加情報は、ほとんどの場合で、復元の知覚品質を向上させる。さらに、強化ＳＡＯＣデコーダが限定的なリソース上で実行されている場合は、エンハンスメントは無視される可能性があっても、基本的な品質の復元は達成される。留意すべきことは、標準ＳＡＯＣデコーダからの復元と、標準ＳＡＯＣ準拠ＰＳＩのみを用いる強化ＳＡＯＣデコーダからの復元とは異なるが、知覚的には極めて似ていると判断されることである（その相違は、標準ＳＡＯＣビットストリームを強化ＳＡＯＣデコーダで復号する場合と同類のものである）。

図８は、上述のエンコーダのパラメトリック経路を実装した特定の一実施形態によるエンコーダを示すブロック図である。太黒字の機能ブロック（１０２、１０３）が本発明による処理を示す。具体的には、図８は、より有能なデコーダのためのエンハンスメントによって後方互換性のあるビットストリームを生成する２段符号化を示すブロック図である。

まず、信号は分析フレームに細分され、分析フレームは次に周波数領域へ変換される。複数の分析フレームが固定長のパラメータフレームにグルーピングされる。固定長のパラメータフレームは、例えば、標準ＳＡＯＣでは、１６および３２分析フレームの長さが一般的である。そのパラメータフレームの間は、信号特性は準定常に留まり、よって唯一のパラメータセットで特徴づけることができると想定される。信号特性がパラメータフレーム内で変わればモデリングエラーを被るので、より長いパラメータフレームは準定常の想定が満たされるようになる部分に細分することが有益であろう。このために、過渡検出が必要とされる。

過渡は、入力される全てのオブジェクトから過渡検出ユニット１０１によって別々に検出することができ、それらのオブジェクトのうちの唯一のオブジェクトにおいて過渡事象が存在すれば、その位置がグローバルな過渡位置とされる。過渡位置の情報は適切なウインドウイングシーケンスを構成するために使用される。その構成は、例えば、次の論理に基づくことができる。
- デフォルトウインドウ長さ、即ちデフォルトの信号変換ブロックの長さを、例えば２０４８サンプルに設定する。
- パラメータフレームの長さを、例えば、５０％の重なりをもった４つのデフォルトウインドウに対応する４０９６サンプルに設定する。パラメータフレームは、複数のウインドウを纏めてグルーピングし、ウインドウ毎に記述子を別々に有する代わりに、ブロック全体に単一の信号記述子セットが使用される。これにより、ＰＳＩの量を減らすことができる。
- 過渡が検出されていなければ、デフォルトウインドウおよびパラメータフレーム全長を用いる。
- 過渡が検出されれば、過渡の位置においてより優れた時間分解能を与えるようにウインドウイングを適合化する。

ウインドウシーケンス・ユニット１０２は、ウインドウイングシーケンスを構成する一方で、１つまたは複数の分析ウインドウからパラメータサブフレームも生成する。各サブセットが構成要素として分析され、サブブロック毎に唯一のＰＳＩパラメータセットが送信される。標準ＳＡＯＣと互換性のあるＰＳＩを生成するために、規定のパラメータブロック長さが主たるパラメータブロック長さとして使用され、そのブロック内に位置決めされる可能な過渡がパラメータサブセットを規定する。

構成されたウインドウシーケンスは、ｔ/ｆ分析ユニット１０３が実行する入力オーディオ信号の時間−周波数分析のために出力され、ＰＳＩの強化ＳＡＯＣエンハンスメント部分において送信される。

各分析ウインドウのスペクトルデータは、ＰＳＩ推定ユニット１０４によって、後方互換性のある（例えば、ＭＰＥＧ）ＳＡＯＣ部分のＰＳＩを推定するために使用される。このＰＳＩの推定は、複数個のスペクトルビンをＭＰＥＧＳＡＯＣのパラメトリック帯域へグルーピングし、かつこれらの帯域内のＩＯＣ、ＯＬＤおよび絶対オブジェクトエネルギー（ＮＲＧ）を推定することによって行われる。ＭＰＥＧＳＡＯＣの表記法におおまかに従えば、パラメータ化タイルにおける２つのオブジェクトスペクトルＳ_i（ｆ,ｎ）とＳ_j（ｆ,ｎ）の正規化積は、

と定義される。但し、行列

は、次式によって、（このパラメータフレームにおけるＮ個のフレームの）フレームｎにおけるＦ_nｔ/ｆ表現ビンからパラメトリックＢ帯域へのマッピングを定義し、

かつ、Ｓ^*はＳの複素共役である。スペクトル分解能は、１つのパラメータブロック内のフレーム間で変わる可能性があり、よって、マッピング行列はデータを共通の分解能ベースに変換する。このパラメータ化タイルにおける最大オブジェクトエネルギーは、最大オブジェクトエネルギー

であるものとして定義される。この値を得れば、ＯＬＤは、次式のような正規化されたオブジェクトエネルギーであるものと定義される。

最後に、ＩＯＣはクロスパワーから次式のように得ることができる。

これにより、ビットストリームの標準ＳＡＯＣ互換部分の推定が完結する。

粗パワースペクトル復元ユニット１０５は、ＯＬＤおよびＮＲＧを用いてパラメータ分析ブロックにおいてスペクトル包絡線の概算を復元するように構成されている。包絡線は、このブロックにおいて使用される最も高い周波数分解能で構成される。

各分析ウインドウのオリジナルのスペクトルは、パワースペクトル推定ユニット１０６によって、そのウインドウにおけるパワースペクトルを計算するために使用される。

得られたパワースペクトルは、周波数分解能適合化ユニット１０７によって、共通の高周波数分解能表現へ変換される。これは、例えば、パワースペクトル値の補間によって行うことができる。次に、パラメータブロック内のスペクトルを平均することにより、パワースペクトルの平均プロファイルが計算される。これは、パラメトリック帯域集計を省略するＯＬＤ推定にほぼ一致する。得られたスペクトルプロファイルは、精密分解能ＯＬＤとして考慮される。

デルタ推定ユニット１０８は、補正係数「デルタ」を、例えば、精密分解能ＯＬＤを粗なパワースペクトル復元で除することによって推定するように構成することができる。その結果、これは、各周波数ビンに対し、粗なスペクトルが与えられたとすると精密分解能ＯＬＤを近似するのに使用することのできる１つの（倍数的な）補正係数を与えるものである。

最後に、デルタモデリングユニット１０９は、推定された補正係数を送信用に効率的にモデリングするように構成されている。

効果的には、ビットストリームに対する強化ＳＡＯＣの修正は、ウインドウイングシーケンス情報と、「デルタ」を送信するためのパラメータとより成る。

以下、過渡検出について述べる。

信号特性が準定常のままであれば、（サイド情報の量に関する）符号化利得は、幾つかの時間フレームをパラメータブロックに結合することによって得ることができる。例えば、標準ＳＡＯＣの場合、１パラメータブロック当たり１６ＱＭＦフレームと３２ＱＭＦフレームという値がよく使用される。これらは、各々、１０２４サンプルおよび２０４８サンプルに相当する。パラメータブロックの長さは予め固定値に設定することができる。これによる１つの直接的効果はコーデック遅延である（エンコーダは、フルフレームを保有しなければ、これを符号化することができない）。長いパラメトリックブロックを用いる場合、基本的には準定常な想定が破られる場合の信号特性の著しい変化を検出することが有益であると思われる。著しい変化の位置を発見した後は、その位置で時間領域信号を分割することができ、準定常な想定は、これらの部分によって再びより良好に達成することができる。

ここでは、ＳＡＯＣに関連して使用されるべき新しい過渡検出方法について述べる。厳密な見方をすれば、本方法の目的は、過渡の検出ではなく、例えば音オフセットによって同じくトリガされる可能性のある信号パラメータ化の変化を検出することにある。

入力信号は、短い、重なり合ったフレームに分割され、かつこれらのフレームは、例えば離散フーリエ変換（ＤＦＴ:Discrete Fourier Transform）によって周波数領域へ変換される。複素スペクトルは、その複素共役を有する値を乗算する（即ち、その絶対値を二乗する）ことにより、パワースペクトルへ変換される。次に、標準ＳＡＯＣにおいて使用されるものに類似するパラメトリック帯域グルーピングが使用され、各オブジェクトにおける各時間フレーム内の各パラメトリック帯域のエネルギーが計算される。演算は、簡単に言えば、

であり、ここで、Ｓ_i（ｆ,ｎ）はオブジェクトｉの時間フレームｎにおける複素スペクトルである。合計は、帯域ｂにおける周波数ビンｆに渡って行われる。データから何らかの雑音効果を除去するために、値は、一次ＩＩＲフィルタ

によって低域通過フィルタリングされる。但し、０≦ａ_LP≦１はフィルタフィードバック係数であり、例えば、ａ_LP＝０.９である。

ＳＡＯＣにおける主たるパラメータ化は、オブジェクトレベル差（ＯＬＤ）である。提案する検出方法は、ＯＬＤがいつ変わるか、を検出しようとする。したがって、全てのオブジェクトペアが、

を用いて調べられる。全ての一意のオブジェクトペアの変化は、次式によって検出関数へと合計される。

取得された値は、しきい値Ｔと比較されて僅かなレベル偏差がフィルタリングで除かれ、連続する検出間の最小距離Ｌが強化される。したがって、検出関数は、次のようになる。

以下、強化されたＳＡＯＣ周波数分解能について述べる。

標準ＳＡＯＣ分析から得られる周波数分解能は、標準ＳＡＯＣにおいて最大値２８を有するパラメトリック帯域数に限定される。これらは、最も低い帯域上でこれらの帯域をさらに４つまでの複合サブバンドに分割するハイブリッドフィルタリング段へと続く６４バンドＱＭＦ分析より成るハイブリッドフィルタバンクから得られる。取得される周波数帯域は、ヒト聴覚系の臨界帯域分解能を模倣するパラメトリック帯域にグルーピングされる。そのグルーピングにより、必要とされるサイド情報データレートを下げることができる。

既存のシステムは、適度に低いデータレートであれば適度な分離品質をもたらす。主たる問題点は、トーン音をきれいに分離するには不十分な周波数分解能にある。これは、オブジェクトのトーン成分を取り巻く他のオブジェクトの「ハロ（halo）」として表れる。知覚的には、これは、粗さまたはボコーダ状アーティファクトとして観測される。このハロの有害な影響は、パラメトリック周波数分解能を増大させることによって減らすことができる。（４４.１ｋＨｚのサンプリング速度で）５１２バンド以上の分解能は、試験信号において知覚的に良好な分離をもたらすことが示されている。この分解能は、既存のシステムのハイブリッドフィルタリング段を拡張することによって達成することも可能ではあるが、十分な分離のためにはハイブリッドフィルタが極めて高次である必要があると思われ、計算コストが高くなる。

必要とされる周波数分解能を達成する単純な方法は、ＤＦＴベースの時間周波数変換を用いることである。これらは、高速フーリエ変換（ＦＦＴ:Fast Fourier Transform）アルゴリズムによって効率的に実装することができる。通常のＤＦＴの代わりとなる代替方法としては、ＣＭＤＣＴまたはＯＤＦＴが考えられる。相違点は、後者の２つが奇数であって、達成されるスペクトルが純粋な正および負の周波数を含むことにある。ＤＦＴと比較すると、周波数ビンは、０.５ビン幅だけシフトされる。ＤＦＴでは、一方のビンの中心が０Ｈｚであり、かつもう一方のビンのそれはナイキスト周波数である。ＯＤＦＴとＣＭＤＣＴとの相違点は、ＣＭＤＣＴが位相スペクトルに影響する追加的な変調後演算を含むことにある。これによる利点は、結果的に得られる複素スペクトルが、変形離散コサイン変換（ＭＤＣＴ:Modified Discrete Cosine Transform）および変形離散サイン変換（ＭＤＳＴ:Modified Discrete Sine Transform）より成ることにある。

長さＮのＤＦＴベース変換はＮ個の値を有する複素スペクトルを生成する。変換されたシーケンスが実数値であれば、完全な復元に必要なものはこれらの値のＮ/２個であり、他のＮ/２個の値はこれらの所与の値から単純な操作で得ることができる。分析は、通常、信号からＮ個の時間領域サンプルより成るフレームを取り出し、これらの値にウインドウイング関数を適用し、次にウインドウイングされたデータに対する実際の変換を計算して行なう。連続するブロックは、時間的に５０％重複し、かつウインドウイング関数は、連続するウインドウの二乗の合計が１になるように設計される。これにより、ウインドウイング関数がデータに２回適用される場合（時間領域信号を分析する際の１回目と、合成変換後、重複加算前の２回目）、信号修正のない分析プラス合成チェーンは、ロスレスであることが保証される。

連続するフレーム間の重複が５０％で、サンプルのフレーム長さが２０４８とすれば、効果的な時間分解能は１０２４サンプルである（４４.１ｋＨｚのサンプリング速度における２３.２ミリ秒に相当する）。これは、まず、標準ＳＡＯＣエンコーダにより生成されるビットストリームを復号できること、第２に、必要であれば、信号を強化ＳＡＯＣエンコーダにおいてより精密な時間分解能で分析できることが望ましい、という２つの理由にとって小さい値ではない。

ＳＡＯＣでは、複数のブロックをパラメータフレームにグルーピングすることが可能である。信号特性は、パラメータフレームを通じて、そのパラメータフレームが単一のパラメータセットで特徴づけられるに足る類似性を保つことが想定される。標準ＳＡＯＣにおいて通常遭遇するパラメータフレームの長さは、１６ＱＭＦフレームまたは３２ＱＭＦフレーム（標準により許容される長さは、７２ＱＭＦフレームまで）である。高周波数分解能を有するフィルタバンクを用いる場合も類似のグルーピングを行うことができる。パラメータフレームの間に信号特性が変わらない場合、グルーピングは、品質低下を生じることのない符号化効率を提供する。しかしながら、パラメータフレーム内で信号特性が変わる場合、グルーピングは、エラーを誘導する。標準ＳＡＯＣでは準定常信号によって使用されるデフォルトのグルーピング長さを規定できるだけでなく、パラメータサブブロックも規定できる。サブブロックはデフォルト長さより短いグルーピングを規定し、かつパラメータ化はサブブロック毎に別々に行われる。基礎を成すＱＭＦバンクの時間分解能に起因して、結果的に得られる時間分解能は６４時間領域サンプルであり、これは、高周波数分解能を有する固定フィルタバンクを用いて達成可能な分解能より遙かに精密である。この要件は、強化ＳＡＯＣデコーダに影響を与える。

変換長さが大きいフィルタバンクの使用は、良好な周波数分解能を提供するが、同時に時間分解能は低下する（所謂、不確定性原理）。単一の分析フレーム内で信号特性が変われば、低時間分解能が合成出力におけるブラーリング（blurring）を引き起こすことがある。したがって、信号が著しく変化する位置においてサブフレーム時間分解能を達成することが有益であると思われる。サブフレーム時間分解能は、当然ながら、より低い周波数分解能に繋がるが、信号変化の間は、時間分解能の方が正確に捕捉されるべき重要な側面であることが想定される。このサブフレーム時間分解能要件は、主として強化ＳＡＯＣエンコーダに（および必然的に、結果的にデコーダにも）影響を与える。

この同じ解法原理は次の２つの場合にも用いることができる。すなわち、信号が準定常である（過渡が検出されない）場合とパラメータ境界が存在しない場合に長い分析フレームを用いるということである。これらの２つの条件のうちの何れかが欠ければ、ブロック長さのスイッチングスキームを使用する。この条件に関しては、（標準ＳＡＯＣビットストリームを復号する間に）分割されていないフレームグループ間に存在しかつ２つの長いウインドウ間のクロスオーバーポイントに一致するパラメータ境界を例外とすることができる。このような場合、信号特性は、高分解能フィルタバンクにとって十分な定常性を保つことが想定される。パラメータ境界が（ビットストリームまたは過渡検出器から）伝えられると、フレーミングはより小さいフレーム長さを用いるように調整され、よって、時間分解能が局部的に高まる。

最初の２実施形態は、同じ基本的なウインドウシーケンス構成機構を用いる。ウインドウ長さＮのプロトタイプウインドウ関数ｆ（ｎ,Ｎ）を、指数範囲０≦ｎ≦Ｎ−１で定義する。単一のウインドウＷ_k（ｎ）を設計すると、３つの制御ポイント、即ち先行ウインドウ、現行ウインドウおよび次のウインドウの中心、ｃ_k-1、ｃ_kおよびｃ_k+1が必要とされる。

よって、実際のウインドウの位置は、

となる。但し、

である。本例示において使用されるプロトタイプウインドウ関数は、

として定義される正弦波ウインドウであるが、他の形式を用いることもできる。

以下、一実施形態による、過渡におけるクロスオーバについて述べる。

図９は、「過渡におけるクロスオーバ」ブロックのスイッチングスキームの原理を示したものである。具体的には、図９は、過渡におけるウインドウ・クロスオーバ・ポイントに対応するための正規ウインドウイングシーケンスの適合化を示す。線１１１は時間領域信号サンプルを表し、垂線１１２は検出された過渡（またはビットストリームからのパラメータ境界）の位置ｔを表し、線１１３はウインドウイング関数およびその時間範囲を示す。このスキームは、ウインドウの急峻さを規定する、過渡を取り巻く２つのウインドウｗ_kとｗ_k+1の間の重なりの量を決定することを必要とする。重なりの長さが小値に設定される場合、これらのウインドウは、その最大点を過渡の近くに有し、かつ過渡をまたぐ部分は急速に減衰する。重なりの長さも過渡の前後で異なる可能性がある。この手法では、過渡を囲む２つのウインドウまたはフレームの長さが調整される。過渡の位置は、取り囲むウインドウの中心をｃ_k＝ｔ−ｌ_bおよびｃ_k+1＝ｔ＋ｌ_aであるように画定する。ここで、ｌ_bおよびｌ_aは、各々、過渡の前および後の重なりの長さである。これらが画定されれば、上述の方程式を用いることができる。

以下、一実施形態による過渡分離について述べる。

図１０は、一実施形態による、過渡分離ブロックのスイッチングスキームの原理を示す。過渡上には短いウインドウｗ_kの中心が位置し、隣接する２つのウインドウｗ_k-1とｗ_k+1は、この短いウインドウを補足するように調整される。効果的には、隣接するウインドウは過渡に位置に限定され、よって、先行するウインドウは過渡より前にのみ信号を含み、かつ後続ウインドウは過渡後にのみ信号を含む。この手法において、過渡は３つのウインドウの中心ｃ_k＝ｔ−ｌ_b、ｃ_k＝ｔおよびｃ_k+1＝ｔ＋ｌ_aを画定し、ｌ_bおよびｌ_aは過渡より前と後の所望されるウインドウ範囲を画定する。これらが画定されれば、上述の方程式を用いることができる。

以下、一実施形態による、ＡＡＣ状フレーミングについて述べる。

先に述べた２つのウインドウイングスキームの自由度は、必ずしも必要とされない場合がある。知覚オーディオ符号化の分野では、異なる過渡処理も使用される。その場合の目的は、所謂プレエコーを引き起こすと思われる過渡の時間的拡散を低減することにある。ＭＰＥＧ−２/４ＡＡＣ［ＡＡＣ］では、ＬＯＮＧ（サンプル長さ、２０４８）およびＳＨＯＲＴ（サンプル長さ、２５６）という、２つの基本的なウインドウ長さが使用される。これらの２つに加えて、ＬＯＮＧからＳＨＯＲＴへ、かつその逆の遷移を有効化する２つの遷移ウインドウも規定されている。追加的な制約として、ＳＨＯＲＴウインドウは８個のウインドウより成るグループにおいて発生する必要がある。この方法では、ウインドウ間およびウインドウグループ間のストライドが、１０２４サンプルという一定の値を保つ。

ＳＡＯＣシステムが、オブジェクト信号、ダウンミックスまたはオブジェクト残留のためのＡＡＣベースコーデックを使用する場合は、このコーデックと容易に同期できるフレーミングスキームを有することが有益であると思われる。こうした理由により、ＡＡＣウインドウに基づくブロックのスイッチングスキームについて述べる。

図１１はＡＡＣ状ブロックスイッチングの一例を描いたものである。具体的には、図１１は、過渡を有する同じ信号、および結果として生じるＡＡＣ状ウインドウイングシーケンスを示す。過渡の時間的位置は、８個のＳＨＯＲＴウインドウでカバーされ、これらは、ＬＯＮＧウインドウからＬＯＮＧウインドウまでの遷移ウインドウによって囲まれていることが分かる。図から、過渡自体の中心は、単一のウインドウ内にも、２ウインドウ間のクロスオーバーポイントにも存在しないことが分かる。これは、ウインドウの位置が１つのグリッドに固定されるものの、このグリッドは、同時に一定のストライドを保証することに起因する。結果的に生じる時間的な丸め誤差は、ＬＯＮＧウインドウのみを使用することで生じる誤差に比べれば、知覚的に無関係であるとするに足る僅かなものであることが想定される。

ウインドウは、下記のように定義される。
- ＬＯＮＧウインドウ:Ｗ_LONG（ｎ）＝ｆ（ｎ,Ｎ_LONG）、但しＮ_LONG＝２０４８である。
- ＳＨＯＲＴウインドウ:Ｗ_SHORT（ｎ）＝ｆ（ｎ,Ｎ_SHORT）、但しＮ_SHORT＝２５６である。
- ＬＯＮＧからＳＨＯＲＴへの遷移ウインドウ

- ＳＨＯＲＴからＬＯＮＧへの遷移ウインドウ:Ｗ_STOP（ｎ）＝Ｗ_START（Ｎ_LONG−ｎ−１）

以下、実施形態による実装変形例について述べる。

ブロックのスイッチングスキームに関わらず、設計の別の選択肢として、実際のｔ/ｆ変換の長さがある。主たる目的が、後続の周波数領域演算をその分析フレームに渡って単純に保つことであれば、一定の変換長さを用いることができる。その長さは、適切な大値に、例えば、許容される最大フレームの長さに一致する大きな値に設定される。時間領域フレームがこの値より短ければ、その時間領域フレームは全長までゼロ詰めされる。留意すべきことは、ゼロ詰めの後、スペクトルがより多数のビンを有するとしても、実際の情報の量は、より短い変換と比較して増大されないことである。この場合、カーネル行列Ｋ（ｂ,ｆ,ｎ）は、ｎの全ての値に対して同じ次元を有する。

別の代替方法は、ウインドウイングされたフレームをゼロ詰めなしに変換するものである。これは、計算の複雑さが一定の変換長さの場合より小さい。しかしながら、カーネル行列Ｋ（ｂ,ｆ,ｎ）の場合、連続するフレーム間の異なる周波数分解能を考慮する必要がある。

以下、一実施形態による拡張されたハイブリッドフィルタリングについて述べる。

より高い周波数分解能を達成するための別の可能性は、標準ＳＡＯＣに使用されるハイブリッドフィルタバンクを、より精密な分解能用に修正することにあると思われる。標準ＳＡＯＣでは、６４個のＱＭＦ帯域のうちの最下の３つがナイキスト−フィルタバンクを通過され、帯域コンテンツがさらに細分される。

図１２は拡張されたＱＭＦハイブリッドフィルタリングを示す。ナイキストフィルタはＱＭＦ帯域毎に別々に反復され、出力は単一の高分解能スペクトル用に結合される。具体的には、図１２は、各ＱＭＦ帯域を、例えば１６のサブバンドに細分する（３２サブバンドへの複素フィルタリングを必要とする）、ＤＦＴベース手法が必要とするものに比較し得る周波数分解能を達成する方法を示している。この手法の欠点は、必要とされるフィルタプロトタイプが、帯域の狭さに起因して長いことにある。これにより、何らかの処理遅延が生じ、かつ計算の複雑さが増す。

ある代替方法は、ナイキストフィルタ・セットを効率的なフィルタバンク/変換（例えば、「ズーム」ＤＦＴ、離散コサイン変換、他）で置換することにより、拡張されたハイブリッドフィルタリングを実装することである。さらに、結果的な高分解能スペクトル係数に包含される、第１のフィルタ段（この場合は、ＱＭＦ）の漏出効果に起因して生じるエイリアシングは、周知のＭＰＥＧ−１/２レイヤ３ハイブリッドフィルタバンク［ＦＢ］［ＭＰＥＧ−１］に類似する高分解能スペクトル係数のエイリアシング相殺ポスト処理によって大幅に低減させることができる。

図１Ｂは、ある対応する実施形態による、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダを示す。ダウンミックス信号は、２つ以上のオーディオオブジェクト信号を符号化する。

このデコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域ダウンミックスサンプルを変換するための第１の分析サブモジュール１６１を備えている。

さらに、このデコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス発生器１６２を備え、各分析ウインドウは複数のサブバンドのうちの１つのサブバンドの複数のサブバンドサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有する。ウインドウシーケンス発生器１６２は、各分析ウインドウのウインドウ長さが２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように、複数の分析ウインドウを、例えばパラメトリックサイド情報に基づいて決定すべく構成されている。

さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第２の分析モジュール１６３を備えている。

さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、２つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニット１６４を備えている。

言い替えれば、その変換は２段階で実行される。第１の変換段階では、各々が複数のサブバンドサンプルを含む複数のサブバンドが生成される。次に、第２の段階において、さらなる変換が実行される。とりわけ、第２の段階に使用される分析ウインドウは、結果的に得られる変換されたダウンミックスの時間分解能および周波数分解能を決定する。

図１３は、変換にショートウインドウが使用される一例を示す。ショートウインドウの使用は、低周波数分解能に繋がるが、時間分解能を高くする。ショートウインドウの使用は、例えば、符号化されたオーディオオブジェクト信号に過渡が存在する場合に適切であることがある。（ｕ_i,jはサブバンドサンプルを示し、ｖ_s,rは時間−周波数領域における変換されたダウンミックスのサンプルを示す。）

図１４は、変換に、図１３の例よりも長いウインドウが使用される一例を示す。ロングウインドウの使用は、高周波数分解能に繋がるが、時間分解能を低くする。ロングウインドウの使用は、例えば、符号化されたオーディオオブジェクト信号に過渡が存在しない場合に適切であることがある。（この場合も同じく、ｕ_i,jはサブバンドサンプルを示し、ｖ_s,rは時間−周波数領域における変換されたダウンミックスのサンプルを示す。）

図２Ｂは、一実施形態による、２つ以上の入力されたオーディオオブジェクト信号を符号化するための対応するエンコーダを示す。２つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含む。

このエンコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域信号サンプルを変換するための第１の分析サブモジュール１７１を備えている。

さらに、このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニット１７２を備え、各分析ウインドウは複数のサブバンドのうちの１つのサブバンドの複数のサブバンドサンプルを含み、各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、ウインドウシーケンス・ユニット１７２は、各分析ウインドウのウインドウ長さが２つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。例えば、（任意選択の）過渡検出ユニット１７５は、入力されたオーディオオブジェクト信号のうちの１つの信号に過渡が存在するかどうかに関する情報をウインドウシーケンス・ユニット１７２へ提供することができる。

さらに、このエンコーダは、変換された信号サンプルを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第２の分析モジュール１７３を備えている。

さらに、このエンコーダは、変換された信号サンプルに依存してパラメトリックサイド情報を決定するためのＰＳＩ推定ユニット１７４を備えている。

他の実施形態によれば、分析を２段階で実行するために２つの分析モジュールが存在してもよいが、第２のモジュールは信号特性に依存してオンとオフが切り換えられる。

例えば、高い周波数分解能が要求され、かつ低い時間分解能を容認できれば、第２の分析モジュールはオンに切り換えられる。

これに対して、高い時間分解能が要求され、かつ低い周波数分解能を容認できれば、第２の分析モジュールはオフに切り換えられる。

図１Ｃは、このような実施形態による、ダウンミックス信号から１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダを示す。そのダウンミックス信号は、１つまたは複数のオーディオオブジェクト信号を符号化する。

このデコーダは、１つまたは複数のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニット１８１を備えている。

さらに、このデコーダは、複数の第１のサブバンドチャネルを含む第１の変換されたダウンミックスを得るために、ダウンミックス信号を変換するための第１の分析モジュール１８２を備えている。

さらに、このデコーダは、複数の第２のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、第１のサブバンドチャネルのうちの少なくとも１つを変換することによって第２の変換されたダウンミックスを生成するための第２の分析モジュール１８３を備え、第２の変換されたダウンミックスは、第２の分析モジュールによって変換されていない第１のサブバンドチャネルと、第２のサブバンドチャネルとを含む。

さらに、このデコーダは、非混合ユニット１８４を備え、非混合ユニット１８４は、起動指示が起動状態に設定されていれば、オーディオ出力信号を得るために１つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第２の変換されたダウンミックスをアンミックスするように、かつ起動指示が起動状態に設定されていなければ、オーディオ出力信号を得るために１つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第１の変換されたダウンミックスをアンミックスするように構成されている。

図１５は、高い周波数分解能が要求され、かつ低い時間分解能を容認できる一例を示す。結果的に、制御ユニット１８１は起動指示を起動状態に設定することによって（例えば、ブール変数（boolean variable）「activation_indication」を、「activation_indication=true」に設定することによって）、第２の分析モジュールをオンに切り換える。ダウンミックス信号は、第１の分析モジュール１８２（図１５には示されていない）によって変換され、第１の変換されたダウンミックスが得られる。図１５の例では、変換されたダウンミックスが３つのサブバンドを有する。より現実的なアプリケーションシナリオでは、変換されたダウンミックスは、例えば、３２個のサブバンドまたは６４個のサブバンドを有することができる。次に、第１の変換されたダウンミックスは、第２の分析モジュール１８３（図１５には示されていない）によって変換され、第２の変換されたダウンミックスが得られる。図１５の例では、変換されたダウンミックスが９個のサブバンドを有する。より現実的なアプリケーションシナリオでは、変換されたダウンミックスは、例えば、５１２個のサブバンド、１０２４個のサブバンドまたは２０４８個のサブバンドを有することができる。次に、非混合ユニット１８４は、第２の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得る。

例えば、非混合ユニット１８４は、制御ユニット１８１から起動指示を受信することができる。あるいは、例えば、非混合ユニット１８４は、第２の分析モジュール１８３から第２の変換されたダウンミックスを受信する場合はいつも、第２の変換されたダウンミックスがアンミックスされなければならないものと決定し、第２の分析モジュール１８３から第２の変換されたダウンミックスをしない場合はいつも、第１の変換されたダウンミックスがアンミックスされなければならないものと決定するようにする。

図１６は、高い時間分解能が要求され、かつ低い周波数分解能を容認できる一例を示す。結果的に、制御ユニット１８１は、起動指示を起動状態とは異なる状態に設定することによって（例えば、ブール変数「activation_indication」を、「activation_indication=false」に設定することによって）、第２の分析モジュールをオフに切り換える。ダウンミックス信号は、第１の分析モジュール１８２（図１６には示されていない）によって変換され、第１の変換されたダウンミックスが得られる。次は、図１５とは対照的に、第１の変換されたダウンミックスは、第２の分析モジュール１８３によってもう一度変換されることはない。その代わりに、非混合ユニット１８４は、第１の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得る。

一実施形態によれば、制御ユニット１８１は、１つまたは複数のオーディオオブジェクト信号のうちの少なくとも１つが、１つまたは複数のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存して、起動指示を起動状態に設定するように構成されている。

別の実施形態では、サブバンド変換指示が第１のサブバンドチャネルの各々へ割り当てられる。制御ユニット１８１は、１つまたは複数のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存して、第１のサブバンドチャネルの各々のサブバンド変換指示をサブバンド変換状態に設定するように構成されている。さらに、第２の分析モジュール１８３は、そのサブバンド変換指示がサブバンド変換状態に設定されている第１のサブバンドチャネルの各々を変換して複数の第２のサブバンドチャネルを取得するように、かつそのサブバンド変換指示がサブバンド変換状態に設定されていない第２のサブバンドチャネルの各々を変換しないように構成されている。

図１７は、制御ユニット１８１（図１７には示されていない）が第２のサブバンドのサブバンド変換指示をサブバンド変換状態に（例えば、ブール変数「subband_transform_indication_2」を、「subband transform_indication_2=true」に設定することによって）設定した一例を示す。したがって、第２の分析モジュール１８３（図１７には示されていない）は、第２のサブバンドを変換して３つの新しい「精密分解能」サブバンドを得る。図１７の例では、制御ユニット１８１は、第１および第３のサブバンドのサブバンド変換指示をサブバンド変換状態に設定していない（例えば、これは、制御ユニット１８１がブール変数「subband_transform_indication_1」および「subband_transform_indication_3」を「subband transform_indication_1=false」および「subband transform_indication_3=false」に設定することによって示すことができる）。したがって、第２の分析モジュール１８３は第１および第３のサブバンドを変換しない。その代わりに、第１のサブバンドおよび第３のサブバンドは、これら自体が第２の変換されたダウンミックスのサブバンドとして使用される。

図１８は、制御ユニット１８１（図１８には示されていない）が第１および第２のサブバンドのサブバンド変換指示をサブバンド変換状態に（例えば、ブール変数「subband_transform_indication_1」を「subband transform_indication_1=true」に設定することによって、かつ例えば、ブール変数「subband_transform_indication_2」を「subband transform_indication_2=true」に設定することによって）設定した一例を示す。したがって、第２の分析モジュール１８３（図１８には示されていない）は、第１および第２のサブバンドを変換して６つの新しい「精密分解能」サブバンドを得る。図１８の例では、制御ユニット１８１は、第３のサブバンドのサブバンド変換指示をサブバンド変換状態に設定していない（例えば、これは、制御ユニット１８１がブール変数「subband_transform_indication_3」を「subband transform_indication_3=false」に設定することによって示すことができる）。したがって、第２の分析モジュール１８３は第３のサブバンドを変換しない。その代わりに、第３のサブバンドは、それ自体が第２の変換されたダウンミックスのサブバンドとして使用される。

一実施形態によれば、第１の分析モジュール１８２は、複数の第１のサブバンドチャネルを含む第１の変換されたダウンミックスを得るために、直交ミラーフィルタ（ＱＭＦ）を使用することによりダウンミックス信号を変換するように構成されている。

一実施形態において、第１の分析モジュール１８２はダウンミックス信号を第１の分析ウインドウ長さに依存して変換するように構成され、第１の分析ウインドウ長さはその信号特性に依存し、かつ/または第２の分析モジュール１８３は、起動指示が起動状態に設定されていると、第１のサブバンドチャネルのうちの少なくとも１つを第２の分析ウインドウ長さに依存して変換することにより第２の変換されたダウンミックスを生成するように構成され、第２の分析ウインドウ長さはその信号特性に依存する。このような実施形態は、第２の分析モジュール１８３のオンとオフの切換え、および分析ウインドウの長さの設定を実現する。

一実施形態において、デコーダは、ダウンミックス信号から、１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するように構成され、そのウンミックス信号は２つ以上のオーディオオブジェクト信号を符号化する。制御ユニット１８１は、２つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号特性に依存して起動指示を起動状態に設定するように構成されている。さらに、非混合ユニット１８４は、起動指示が起動状態に設定されていれば、オーディオ出力信号を得るために１つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第２の変換されたダウンミックスをアンミックスするように、かつ起動指示が起動状態に設定されていなければ、オーディオ出力信号を得るために２つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第１の変換されたダウンミックスをアンミックスするように構成されている。

図２Ｃは、一実施形態による、入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。

このエンコーダは、入力されたオーディオオブジェクト信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニット１９１を備えている。

さらに、このエンコーダは、第１の変換されたオーディオオブジェクト信号を得るために、入力されたオーディオオブジェクト信号を変換するための第１の分析モジュール１９２を備え、第１の変換されたオーディオオブジェクト信号は複数の第１のサブバンドチャネルを含む。

さらに、このエンコーダは、複数の第２のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、複数の第１のサブバンドチャネルのうちの少なくとも１つを変換することによって第２の変換されたオーディオオブジェクト信号を生成するための第２の分析モジュール１９３を備え、第２の変換されたオーディオオブジェクト信号は、第２の分析モジュールによって変換されていない第１のサブバンドチャネルと、第２のサブバンドチャネルとを含む。

さらに、このエンコーダは、ＰＳＩ推定ユニット１９４を備え、ＰＳＩ推定ユニット１９４は、起動指示が起動状態に設定されていれば、第２の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ起動指示が起動状態に設定されていなければ、第１の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定するように構成されている。

一実施形態によれば、制御ユニット１９１は、入力されたオーディオオブジェクト信号が、入力されたオーディオオブジェクト信号の信号変化を示す過渡を含むかどうかに依存して、起動指示を起動状態に設定するように構成されている。

別の実施形態では、サブバンド変換指示が第１のサブバンドチャネルの各々へ割り当てられる。制御ユニット１９１は、入力されたオーディオオブジェクト信号の信号特性に依存して、第１のサブバンドチャネルの各々のサブバンド変換指示をサブバンド変換状態に設定するように構成されている。第２の分析モジュール１９３は、そのサブバンド変換指示がサブバンド変換状態に設定されている第１のサブバンドチャネルの各々を変換して複数の第２のサブバンドチャネルを取得するように、かつそのサブバンド変換指示がサブバンド変換状態に設定されていない第２のサブバンドチャネルの各々を変換しないように構成されている。

一実施形態によれば、第１の分析モジュール１９２は、入力されたオーディオオブジェクト信号の各々を直交ミラーフィルタを使用することによって変換するように構成されている。

別の実施形態において、第１の分析モジュール１９２は、入力されたオーディオオブジェクト信号を第１の分析ウインドウ長さに依存して変換するように構成され、第１の分析ウインドウ長さはその信号特性に依存し、かつ/または第２の分析モジュール１９３は、起動指示が起動状態に設定されていると、複数の第１のサブバンドチャネルのうちの少なくとも１つを第２の分析ウインドウ長さに依存して変換することにより第２の変換されたオーディオオブジェクト信号を生成するように構成され、第２の分析ウインドウ長さはその信号特性に依存する。

別の実施形態によれば、エンコーダは、入力されたオーディオオブジェクト信号および少なくとも１つのさらなる入力されたオーディオオブジェクト信号を符号化するように構成されている。制御ユニット１９１は、入力されたオーディオオブジェクト信号の信号特性に依存して、かつ少なくとも１つのさらなる入力されたオーディオオブジェクト信号の信号特性に依存して、起動指示を起動状態に設定するように構成されている。第１の分析モジュール１９２は、少なくとも１つのさらなる入力されたオーディオオブジェクト信号を変換して少なくとも１つのさらなる第１の変換されたオーディオオブジェクト信号を得るように構成され、少なくとも１つのさらなる第１の変換されたオーディオオブジェクト信号は、各々、複数の第１のサブバンドチャネルを含む。第２の分析モジュール１９３は、複数のさらなる第２のサブバンドチャネルを得るために、起動指示が起動状態に設定されていれば、少なくとも１つのさらなる第１の変換されたオーディオオブジェクト信号のうちの少なくとも１つの信号の複数の第１のサブバンドチャネルのうちの少なくとも１つを変換するように構成されている。さらに、ＰＳＩ推定ユニット１９４は、起動指示が起動状態に設定されていれば、複数のさらなる第２のサブバンドチャネルに基づいてパラメトリックサイド情報を決定するように構成されている。

本発明による方法および装置は、固定フィルタバンクまたは時間−周波数変換を用いる従来技術ＳＡＯＣ処理による上述の欠点を軽減する。より優れた主観的オーディオ品質は、ＳＡＯＣ内のオーディオオブジェクトの分析および合成に使用される変換またはフィルタバンクの時間/周波数分解能を動的に適合化することによって達成することができる。同時に、時間精度の欠如により生じるプレエコーおよびポストエコーのようなアーティファクト、および不十分なスペクトル精度により生じる聴覚粗さおよびダブルトークのようなアーティファクトは、同一のＳＡＯＣシステム内で最小限に抑えることができる。最も重要なこととして、本発明による適応型変換を備えた強化されたＳＡＯＣシステムは、標準ＳＡＯＣとの後方互換性を保持し、しかも標準ＳＡＯＣのそれに比肩し得る優れた知覚品質を提供する。

実施形態は、これまでに述べたようなオーディオエンコーダ、またはオーディオ符号化方法、または関連のコンピュータプログラムを提供する。さらに、実施形態は、これまでに述べたようなオーディオエンコーダ、またはオーディオ復号方法、または関連のコンピュータプログラムを提供する。さらに、実施形態は、これまでに述べたような符号化されたオーディオ信号、または符号化されたオーディオ信号を格納している記憶媒体を提供する。

幾つかの態様は、装置について記述されているが、これらの態様が、対応する方法に関する記述でもあることは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップについて記述されている態様は、対応するブロック、アイテム、または対応する装置の特徴を記述するものでもある。

本発明による分解された信号は、デジタル記憶媒体に格納することができ、または伝送媒体上、例えば無線伝送媒体上もしくはインターネット等の有線伝送媒体上で送信することができる。

所定の実装要件に依存して、本発明の実施形態は、ハードウェアまたはソフトウェアに実装することができる。その実装は、個々の方法が実行されるようにプログラム可能コンピュータシステムと協働する（または、協働することができる）電子的に読取り可能な制御信号を格納しているデジタル記憶媒体、例えば、フロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリ、を用いて実行することができる。

本発明による幾つかの実施形態は、本明細書に記述されている方法のうちの１つが実行されるように、プログラム可能コンピュータシステムと協働することができる電子的に読取り可能な制御信号を有する非一時的データキャリアを含む。

概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとして実装することができる。そのプログラムコードは、そのコンピュータ・プログラム・プロダクトがコンピュータ上で実行されると本発明の方法のうちの１つを実行するように動作可能なものである。そのプログラムコードは、例えば、機械読取り可能キャリア上へ格納することができる。

他の実施形態は、機械読取り可能キャリアに格納され、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを含む。

したがって、言い替えれば、本発明方法の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述されている方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明方法のさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを記録して備えるデータキャリア（または、デジタル記憶媒体、またはコンピュータ読取り可能媒体）である。

したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するように構成され、または適合化される処理手段、例えばコンピュータ、またはプログラマブル論理デバイスを含む。

さらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。

実施形態によっては、本明細書に記述されている方法の機能のうちの幾つか、または全てを実行するために、プログラマブル論理デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を使用することができる。実施形態によっては、フィールド・プログラマブル・ゲート・アレイが、本明細書に記述されている方法のうちの１つを実行するために、マイクロプロセッサと協働することができる。概して、本方法は、好ましくは、あらゆるハードウェア装置によって実行される。

これまでに述べた実施形態は、本発明の原理を単に例示したものである。いうまでもなく、当業者である他の者には、本明細書に記述されている配置および詳細の修正および変形は明らかである。したがって、本発明は、添付の特許請求の範囲によってのみ限定されるものであり、本明細書において実施形態を記述しかつ説明するために提示された特有の詳細によって限定されるものではない。

Claims

複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダであって、前記ダウンミックス信号は３つ以上のオーディオオブジェクト信号を符号化し、
該デコーダは、
複数の分析ウインドウを決定するためのウインドウシーケンス発生器（１３４）であって、前記分析ウインドウは各々、前記ダウンミックス信号の複数の時間領域ダウンミックスサンプルを含み、前記複数の分析ウインドウの各分析ウインドウはその分析ウインドウの前記時間領域ダウンミックスサンプルの数を示すウインドウ長さを有し、該ウインドウシーケンス発生器（１３４）は、前記複数の分析ウインドウの各分析ウインドウのウインドウ長さが、その分析ウインドウが前記ダウンミックス信号によって符号化されつつある前記３つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存するように、前記複数の分析ウインドウを決定するように構成されているウインドウシーケンス発生器（１３４）と、
変換されたダウンミックスを得るために、前記複数の分析ウインドウの各分析ウインドウの前記複数の時間領域ダウンミックスサンプルを、前記分析ウインドウの前記ウインドウ長さに依存して時間領域から時間−周波数領域へ変換するためのｔ／ｆ分析モジュール（１３５）と、
前記オーディオ出力信号を得るために、前記３つ以上のオーティオオブジェクト信号を符号化した前記変換されたダウンミックスを、前記３つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニット（１３６）と、を備えているデコーダ。
前記ウインドウシーケンス発生器（１３４）は、前記ダウンミックス信号によって符号化されつつある前記３つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡が前記複数の分析ウインドウのうちの第１の分析ウインドウと第２の分析ウインドウによって構成されるように前記複数の分析ウインドウを決定すべく構成され、前記過渡の位置ｔにより前記第１の分析ウインドウの第１の中心ｃ_ｋはｃ_ｋ＝ｔ−ｌ_ｂ（ｌ_ｂは数字）と画定され、かつ前記第２の分析ウインドウの第２の中心ｃ_ｋ＋１はｃ_ｋ＋１＝ｔ＋ｌ_ａ（ｌ_ａは数字）と画定され、ｌ_ｂは過渡ｔと前記第１の中心ｃ_ｋとの間の差を示す第１の数字であり、ｌ_ａは前記第２の中心ｃ_ｋ＋１と過渡ｔとの間の差を示す第２の数字であり、ｋは前記第１の分析ウインドウを示し、ｋ＋１は前記第２の分析ウインドウを示す請求項１に記載のデコーダ。
前記ウインドウシーケンス発生器（１３４）は、前記ダウンミックス信号によって符号化されつつある前記３つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡が前記複数の分析ウインドウのうちの第１の分析ウインドウによって構成されるように前記複数の分析ウインドウを決定すべく構成され、前記過渡の位置ｔにより前記第１の分析ウインドウの第１の中心ｃ_ｋはｃ_ｋ＝ｔと画定され、前記複数の分析ウインドウのうちの第２の分析ウインドウの第２の中心ｃ_ｋ−１はｃ_ｋ−１＝ｔ−ｌ_ｂ（ｌ_ｂは数字）と前記過渡の位置ｔによって画定され、かつ前記複数の分析ウインドウのうちの第３の分析ウインドウの第３の中心ｃ_ｋ＋１はｃ_ｋ＋１＝ｔ＋ｌ_ａ（ｌ_ａは数字）と画定され、ｌ_ｂは過渡ｔと前記第２の中心ｃ_ｋ−１との間の差を示す第１の数字であり、ｌ_ａは前記第３の中心ｃ_ｋ＋１と過渡ｔとの間の差を示す第２の数字であり、ｋは前記第１の分析ウインドウを示し、ｋ−１は前記第２の分析ウインドウを示し、ｋ＋１は前記第３の分析ウインドウを示す請求項１に記載のデコーダ。
前記ウインドウシーケンス発生器（１３４）は、前記複数の分析ウインドウの各々が第１の数の時間領域信号サンプルまたは第２の数の時間領域信号サンプルの何れかを含むように前記複数の分析ウインドウを決定すべく構成され、前記第２の数の時間領域信号サンプルは前記第１の数の時間領域信号サンプルより多く、かつ前記複数の分析ウインドウの各分析ウインドウはその分析ウインドウが前記ダウンミックス信号によって符号化されつつある前記３つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含む場合に前記第１の数の時間領域信号サンプルを含む請求項１に記載のデコーダ。
複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダであって、前記ダウンミックス信号は３つ以上のオーディオオブジェクト信号を符号化し、
該デコーダは、
複数のサブバンドサンプルを含む複数のサブバンドを得るために、前記複数の時間領域ダウンミックスサンプルを変換するための第１の分析サブモジュール（１６１）と、
複数の分析ウインドウを決定するためのウインドウシーケンス発生器（１６２）であって、前記分析ウインドウは各々、前記複数のサブバンドのうちの１つのサブバンドの複数のサブバンドサンプルを含み、前記複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、該ウインドウシーケンス発生器（１６２）は、前記複数の分析ウインドウの各分析ウインドウのウインドウ長さが、その分析ウインドウが前記ダウンミックス信号によって符号化されつつある３つ以上の前記オーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存するように、前記複数の分析ウインドウを決定するように構成されているウインドウシーケンス発生器（１６２）と、
変換されたダウンミックスを得るために、前記複数の分析ウインドウの各分析ウインドウの前記複数のサブバンドサンプルをその分析ウインドウの前記ウインドウ長さに依存して変換するための第２の分析モジュール（１６３）と、
前記オーディオ出力信号を得るために、前記変換されたダウンミックスを、前記３つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニット（１６４）と、を備えているデコーダ。
３つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダであって、前記３つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含み、
該エンコーダは、
複数の分析ウインドウを決定するためのウインドウシーケンス・ユニット（１０２）であって、前記分析ウインドウは各々、前記入力されたオーディオオブジェクト信号のうちの１つの信号の複数の前記時間領域信号サンプルを含み、前記分析ウインドウは各々、その分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有し、該ウインドウシーケンス・ユニット（１０２）は、前記複数の分析ウインドウの各分析ウインドウのウインドウ長さが、その分析ウインドウが３つ以上の前記オーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存するように、前記複数の分析ウインドウを決定するように構成されているウインドウシーケンス・ユニット（１０２）と、
変換された信号サンプルを得るために、前記各分析ウインドウの前記時間領域信号サンプルを時間領域から時間−周波数領域へ変換するためのｔ／ｆ分析ユニット（１０３）であって、該ｔ／ｆ分析ユニット（１０３）は、前記各分析ウインドウの前記複数の時間領域信号サンプルを、その分析ウインドウの前記ウインドウ長さに依存して変換するように構成されているｔ／ｆ分析ユニット（１０３）と、
前記変換された信号サンプルに依存してパラメトリックサイド情報を決定するためのＰＳＩ推定ユニット（１０４）と、を備えているエンコーダ。
前記エンコーダは、前記分析ウインドウの各々について、その分析ウインドウが前記３つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかを決定するために、前記３つ以上の入力されたオーディオオブジェクト信号の複数のオブジェクトレベル差を決定するように構成され、かつ前記オブジェクトレベル差のうちの第１の差と第２の差との差がしきい値を超えているかどうかを決定するように構成されている過渡検出ユニット（１０１）をさらに備えている請求項６に記載のエンコーダ。
前記過渡検出ユニット（１０１）は、前記オブジェクトレベル差のうちの前記第１の差と前記第２の差との前記差が前記しきい値を超えているかどうかを決定するために、検出関数ｄ（ｎ）を使用するように構成されている請求項７に記載のエンコーダ。
ただし、検出関数ｄ（ｎ）は、

として定義され、
ｎは指数を示し、
ｉは第１のオブジェクトを示し、
ｊは第２のオブジェクトを示し、かつ、
ｂはパラメトリック帯域を示す。
前記ウインドウシーケンス・ユニット（１０２）は、前記３つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡が前記複数の分析ウインドウのうちの第１の分析ウインドウと第２の分析ウインドウによって構成されるように前記複数の分析ウインドウを決定すべく構成され、前記過渡の位置ｔにより前記第１の分析ウインドウの第１の中心ｃ_ｋはｃ_ｋ＝ｔ−ｌ_ｂ（ｌ_ｂは数字）と画定され、かつ前記第２の分析ウインドウの第２の中心ｃ_ｋ＋１はｃ_ｋ＋１＝ｔ＋ｌ_ａ（ｌ_ａは数字）と画定され、ｌ_ｂは過渡ｔと前記第１の中心ｃ_ｋとの間の差を示す第１の数字であり、ｌ_ａは前記第２の中心ｃ_ｋ＋１と過渡ｔとの間の差を示す第２の数字であり、ｋは前記第１の分析ウインドウを示し、ｋ＋１は前記第２の分析ウインドウを示す請求項６から８のいずれか一項に記載のエンコーダ。
前記ウインドウシーケンス・ユニット（１０２）は、前記３つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡が前記複数の分析ウインドウのうちの第１の分析ウインドウによって構成されるように前記複数の分析ウインドウを決定すべく構成され、前記第１の分析ウインドウの第１の中心ｃ_ｋは前記過渡の位置ｔによりｃ_ｋ＝ｔと画定され、前記複数の分析ウインドウのうちの第２の分析ウインドウの第２の中心ｃ_ｋ−１はｃ_ｋ−１＝ｔ−ｌ_ｂ（ｌ_ｂは数字）と画定され、かつ前記複数の分析ウインドウのうちの第３の分析ウインドウの第３の中心ｃ_ｋ＋１はｃ_ｋ＋１＝ｔ＋ｌ_ａ（ｌ_ａは数字）と画定され、ｌ_ｂは過渡ｔと前記第２の中心ｃ_ｋ−１との間の差を示す第１の数字であり、ｌ_ａは前記第３の中心ｃ_ｋ＋１と過渡ｔとの間の差を示す第２の数字であり、ｋは前記第１の分析ウインドウを示し、ｋ−１は前記第２の分析ウインドウを示し、ｋ＋１は前記第３の分析ウインドウを示す請求項６から８のいずれか一項に記載のエンコーダ。
前記ウインドウシーケンス・ユニット（１０２）は、前記複数の分析ウインドウの各々が第１の数の時間領域信号サンプルまたは第２の数の時間領域信号サンプルの何れかを含むように前記複数の分析ウインドウを決定すべく構成され、前記第２の数の時間領域信号サンプルは前記第１の数の時間領域信号サンプルより多く、かつ前記複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが、前記３つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含む場合に前記第１の数の時間領域信号サンプルを含む請求項６から８のいずれか一項に記載のエンコーダ。
３つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダであって、前記３つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含み、
該エンコーダは、
複数のサブバンドサンプルを含む複数のサブバンドを得るために、前記複数の時間領域信号サンプルを変換するための第１の分析サブモジュール（１７１）と、
複数の分析ウインドウを決定するためのウインドウシーケンス・ユニット（１７２）であって、前記分析ウインドウは各々、前記複数のサブバンドのうちの１つのサブバンドの複数のサブバンドサンプルを含み、前記分析ウインドウは各々、その分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、該ウインドウシーケンス・ユニット（１７２）は、前記複数の分析ウインドウの各分析ウインドウのウインドウ長さが、その分析ウインドウが前記３つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存するように、前記複数の分析ウインドウを決定するように構成されているウインドウシーケンス・ユニット（１７２）と、
変換された信号サンプルを得るために、前記複数の分析ウインドウの各分析ウインドウの前記複数のサブバンドサンプルをその分析ウインドウの前記ウインドウ長さに依存して変換するための第２の分析モジュール（１７３）と、
前記変換された信号サンプルに依存してパラメトリックサイド情報を決定するためのＰＳＩ推定ユニット（１７４）と、を備えているエンコーダ。
複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するための復号方法であって、前記ダウンミックス信号は３つ以上のオーディオオブジェクト信号を符号化し、
該復号方法は、
複数の分析ウインドウを決定することであって、前記分析ウインドウは各々、前記ダウンミックス信号の複数の時間領域ダウンミックスサンプルを含み、前記複数の分析ウインドウの各分析ウインドウは、その分析ウインドウの前記時間領域ダウンミックスサンプルの数を示すウインドウ長さを有し、前記複数の分析ウインドウの決定は、前記複数の分析ウインドウの各分析ウインドウのウインドウ長さが、その分析ウインドウが前記ダウンミックス信号によって符号化されつつある前記３つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存するように実行されることと、
変換されたダウンミックスを得るために、前記複数の分析ウインドウの各分析ウインドウの前記複数の時間領域ダウンミックスサンプルをその分析ウインドウの前記ウインドウ長さに依存して時間領域から時間−周波数領域へ変換することと、
前記オーディオ出力信号を得るために、前記変換されたダウンミックスを、前記３つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスすること、を含む復号方法。
３つ以上の入力されたオーディオオブジェクト信号を符号化するための符号化方法であって、前記３つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含み、
該符号化方法は、
複数の分析ウインドウを決定することであって、前記分析ウインドウは各々、前記入力されたオーディオオブジェクト信号のうちの１つの信号の複数の前記時間領域信号サンプルを含み、前記分析ウインドウは各々、その分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有し、前記複数の分析ウインドウの決定は、前記複数の分析ウインドウの各分析ウインドウのウインドウ長さが、その分析ウインドウが前記３つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存するように実行されることと、
変換された信号サンプルを得るために、前記各分析ウインドウの前記時間領域信号サンプルを時間領域から時間−周波数領域へ変換することであって、前記各分析ウインドウの前記複数の時間領域信号サンプルの変換はその分析ウインドウの前記ウインドウ長さに依存することと、
前記変換された信号サンプルに依存してパラメトリックサイド情報を決定すること、を含む符号化方法。
複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、１つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成することによって復号するための復号方法であって、前記ダウンミックス信号は３つ以上のオーディオオブジェクト信号を符号化し、
該復号方法は、
複数のサブバンドサンプルを含む複数のサブバンドを得るために、前記複数の時間領域ダウンミックスサンプルを変換することと、
複数の分析ウインドウを決定することであって、前記分析ウインドウは各々、前記複数のサブバンドのうちの１つのサブバンドの複数のサブバンドサンプルを含み、前記複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、前記複数の分析ウインドウの決定は、前記複数の分析ウインドウの各分析ウインドウのウインドウ長さが、その分析ウインドウが前記ダウンミックス信号によって符号化されつつある前記３つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存するように実行されることと、
変換されたダウンミックスを得るために、前記複数の分析ウインドウの各分析ウインドウの前記複数のサブバンドサンプルを、その分析ウインドウの前記ウインドウ長さに依存して変換することと、
前記オーディオ出力信号を得るために、前記変換されたダウンミックスを前記３つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスすること、を含む復号方法。
３つ以上の入力されたオーディオオブジェクト信号を符号化するための符号化方法であって、前記３つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含み、
該符号化方法は、
複数のサブバンドサンプルを含む複数のサブバンドを得るために、前記複数の時間領域信号サンプルを変換することと、
複数の分析ウインドウを決定することであって、前記分析ウインドウは各々、前記複数のサブバンドのうちの１つのサブバンドの複数のサブバンドサンプルを含み、前記分析ウインドウは各々、その分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、前記複数の分析ウインドウの決定は、前記複数の分析ウインドウの各分析ウインドウのウインドウ長さが、その分析ウインドウが前記３つ以上のオーディオオブジェクト信号のうちの少なくとも１つの信号の信号変化を示す過渡を含むかどうかに依存するように実行されることと、
変換された信号サンプルを得るために、前記複数の分析ウインドウの各分析ウインドウの前記複数のサブバンドサンプルをその分析ウインドウの前記ウインドウ長さに依存して変換することと、
前記変換された信号サンプルに依存してパラメトリックサイド情報を決定すること、を含む符号化方法。
コンピュータまたは信号プロセッサ上で実行されると、請求項１３又は１５に記載の方法の１つを実装するためのコンピュータプログラム。
コンピュータまたは信号プロセッサ上で実行されると、請求項１４又は１６に記載の方法の１つを実装するためのコンピュータプログラム。