JP2011530913A

JP2011530913A - 空間出力マルチチャネルオーディオ信号を決定する装置

Info

Publication number: JP2011530913A
Application number: JP2011522431A
Authority: JP
Inventors: サッシャディスヒ; ビーレプルッキ; ミッコ−ヴィレライティネン; カンファーエルクト
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2008-08-13
Filing date: 2009-08-11
Publication date: 2011-12-22
Anticipated expiration: 2029-08-11
Also published as: EP2418877A1; CA2822867A1; CA2822867C; ES2553382T3; PL2421284T3; RU2537044C2; JP5425907B2; ES2392609T3; CN102348158B; CA2827507C; KR101226567B1; JP5379838B2; EP2421284A1; CN102165797B; KR20110050451A; BR122012003329A2; CA2734098C; US20120051547A1; CN102165797A; CA2827507A1

Abstract

入力オーディオ信号および入力パラメータに基づいて空間出力マルチチャネルオーディオ信号を決定する装置（１００）。装置（１００）は、互いに異なる第１の分解信号および第２の分解信号を得るために入力パラメータに基づいて入力オーディオ信号を分解するための分解装置（１１０）を含む。さらに、装置（１００）は、第１の意味的特性を有する第１のレンダリングされた信号を得るために第１の分解信号をレンダリングし、第１の意味的特性と異なる第２の意味的特性を有する第２のレンダリングされた信号を得るために第２の分解信号をレンダリングするためのレンダラ（１１０）を含む。装置（１００）は、空間出力マルチチャネルオーディオ信号を得るために第１のレンダリングされた信号および第２のレンダリングされた信号を処理するためのプロセッサ（１３０）を含む。
【選択図】図１ａ

Description

本発明は、オーディオ処理に関し、特に空間オーディオ特性の処理の分野に関する。

オーディオ処理および／または符号化は、いろいろな意味で進歩した。空間オーディオの活用のために、ますます多くの要求が生じている。多くの活用において、オーディオ信号処理は、信号を非相関化するかまたはレンダリングするために利用される。このような活用は、例えば、モノラルからステレオへのアップミックス、モノラル／ステレオからマルチチャネルへのアップミックス、人為的な残響、ステレオ拡大またはユーザー双方向ミキシング／レンダリングを実行する。

例えば拍手のような信号に似たノイズ状の信号のような信号の特定の種類に関して、従来の方法およびシステムは、満足できない知覚品質に悩まされ、または、オブジェクト指向のアプローチが使用されるならば、モデル化されるかまたは処理される聴覚事象の数のために生じる計算の複雑性に悩まされている。問題のある録音資料の他の例は、通常、例えば、一群の鳥、海岸、全速力で走る馬、行進兵士の師団などによって発されるノイズのような雰囲気材料である。

あるいは、ダウンミックスとともに伝送され、所望のマルチチャネル出力を形成するためにどのようにしてダウンミックスの信号をアップミックスするかについてのパラメータ記述を含む副情報によって、マトリクスは制御されることができる。この空間副情報は、通常アップミックスプロセスの前の信号エンコーダによって生成される。

これは、パラメトリックステレオ（Ｊ．Ｂｒｅｅｂａａｒｔ、Ｓ．ｖａｎｄｅＰａｒ、Ａ．Ｋｏｈｌｒａｕｓｃｈ、Ｅ．Ｓｃｈｕｉｊｅｒｓ、“Ｈｉｇｈ−ＱｕａｌｉｔｙＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇａｔＬｏｗＢｉｔｒａｔｅｓ” ｉｎＡＥＳ１１６ｔｈＣｏｎｖｅｎｔｉｏｎ、Ｂｅｒｌｉｎ、Ｐｒｅｐｒｉｎｔ６０７２、Ｍａｙ２００４参照）、およびＭＰＥＧサラウンド（Ｊ．Ｈｅｒｒｅ、Ｋ．Ｋｊｏｅｒｌｉｎｇ、Ｊ．Ｂｒｅｅｂａａｒｔ，ｅｔａｌ、“ＭＰＥＧＳｕｒｒｏｕｎｄ−ｔｈｅＩＳＯ／ＭＰＥＧＳｔａｎｄａｒｄｆｏｒＥｆｆｉｃｉｅｎｔａｎｄＣｏｍｐａｔｉｂｌｅＭｕｌｔｉ−ＣｈａｎｎｅｌＡｕｄｉｏＣｏｄｉｎｇ” ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２２ｎｄＡＥＳＣｏｎｖｅｎｔｉｏｎＶｉｅｎｎａ、Ａｕｓｔｒｉａ、Ｍａｙ２００７参照）において見られるようなパラメータ空間オーディオ符号化において実行される。パラメータステレオデコーダの典型的構造は、図７に示される。この例では、非相関化プロセスは変換領域において実行され、それは、例えば入力モノラル信号を多くの周波数帯域における周波数領域のような変換領域に変換する分析フィルタバンク７１０によって示される。

周波数領域において、デコリレータ７２０は、アップミックスマトリクス７３０でアップミックスされることになっている非相関化信号を生成する。アップミックスマトリクス７３０は、空間入力パラメータが供給され、パラメータ制御ステージ７５０に連結されるパラメータ変更ボックス７４０によって与えられるアップミックスパラメータを考慮する。図７に示される実施例において、空間パラメータは、ユーザーによって、または例えばバイノーラルレンダリング／提示のための後処理のような追加ツールによって、変更されることができる。この場合、アップミックスパラメータは、アップミックスマトリクス７３０に対する入力パラメータを形成するために、バイノーラルフィルタからのパラメータに結合されることができる。パラメータの測定は、パラメータ変更ブロック７４０で実施される。アップミックスマトリクス７３０の出力は、ステレオ出力信号を見つける合成フィルタバンク７６０に与えられる。

混合マトリクスにおいて、出力に供給される非相関化音の量は、例えば、ＩＣＣ（ＩＣＣ＝チャネル間相関（ＩｎｔｅｒｃｈａｎｎｅｌＣｏｒｒｅｌａｔｉｏｎ））および／または混合されるかユーザー定義の設定のような送信されたパラメータに基づいて制御されることができる。

他の従来のアプローチは、時間的置換方法によって確立される。拍手のような信号の非相関における熱心な提案は、例えば、ＧｅｒａｒｄＨｏｔｈｏ、ＳｔｅｖｅｎｖａｎｄｅＰａｒ、ＪｅｒｏｅｎＢｒｅｅｂａａｒｔ、“ＭｕｌｔｉｃｈａｎｎｅｌＣｏｄｉｎｇｏｆＡｐｐｌａｕｓｅＳｉｇｎａｌｓ” ｉｎＥＵＲＡＳＩＰＪｏｕｎａｌｏｎＡｄｖａｎｃｅｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、Ｖｏｌ．１、Ａｒｔ．１０、２００８において見ることができる。ここで、モノラルオーディオ信号は、非相関化出力チャネルを形成するための「スーパー」ブロック内で時間的にランダムに順序が変えられた擬似である重なり合う時間セグメントに分割される。置換は、ｎ個の出力チャネルに対して、相互に独立している。

他の方法は、非相関化信号を得るために、オリジナルのおよび遅延型のコピーの交互チャネル交換である。ドイツ特許出願１０２００７０１８０３２．４―５５を参照。

例えば、Ｗａｇｎｅｒ，Ａｎｄｒｅａｓ；Ｗａｌｔｈｅｒ，Ａｎｄｒｅａｓ；Ｍｅｌｃｈｏｉｒ，Ｆｒａｎｋ；Ｓｔｒａｕｓ，Ｍｉｃｈａｅｌ；“ＧｅｎｅｒａｔｉｏｎｏｆＨｉｇｈｌｙＩｍｍｅｒｓｉｖｅＡｔｍｏｓｐｈｅｒｅｓｆｏｒＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓＲｅｐｒｏｄｕｃｔｉｏｎ” ａｔ１１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＥＡＳＣｏｎｖｅｎｔｉｏｎ、Ｂｅｒｌｉｎ、２００４にあるような若干の従来の概念のオブジェクト指向のシステムにおいて、波面合成の応用によって、例えば１人の拍手のような多くのオブジェクトから実体験のように感じる場面をどのようにして作成するかが記述される。

さらにもう一つの方法はいわゆる「方向オーディオ符号化」（ＤｉｒＡＣ＝ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ）であり、異なる音声再生システムに適用可能な空間音声レンダリングの方法である（Ｐｕｌｋｋｉ、Ｖｉｌｌｅ、“ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｉｏＣｏｄｉｎｇ” ｉｎＪ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，Ｖｏｌ．５５、Ｎｏ．６、２００７参照）。分析部において、音の到着の拡散および方向は、時間および周波数に依存している単一の場所において推定される。合成部において、マイクロフォン信号は、まず非拡散および拡散パーツに分割されて、異なる戦略を用いて再生される。

Ｊ．Ｂｒｅｅｂａａｒｔ、Ｓ．ｖａｎｄｅＰａｒ、Ａ．Ｋｏｈｌｒａｕｓｃｈ、Ｅ．Ｓｃｈｕｉｊｅｒｓ、"Ｈｉｇｈ−ＱｕａｌｉｔｙＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇａｔＬｏｗＢｉｔｒａｔｅｓ" ｉｎＡＥＳ１１６ｔｈＣｏｎｖｅｎｔｉｏｎ、Ｂｅｒｌｉｎ、Ｐｒｅｐｒｉｎｔ６０７２、Ｍａｙ２００４Ｊ．Ｈｅｒｒｅ、Ｋ．Ｋｊｏｅｒｌｉｎｇ、Ｊ．Ｂｒｅｅｂａａｒｔ，ｅｔａｌ、"ＭＰＥＧＳｕｒｒｏｕｎｄ−ｔｈｅＩＳＯ／ＭＰＥＧＳｔａｎｄａｒｄｆｏｒＥｆｆｉｃｉｅｎｔａｎｄＣｏｍｐａｔｉｂｌｅＭｕｌｔｉ−ＣｈａｎｎｅｌＡｕｄｉｏＣｏｄｉｎｇ" ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２２ｎｄＡＥＳＣｏｎｖｅｎｔｉｏｎＶｉｅｎｎａ、Ａｕｓｔｒｉａ、Ｍａｙ２００７ＧｅｒａｒｄＨｏｔｈｏ、ＳｔｅｖｅｎｖａｎｄｅＰａｒ、ＪｅｒｏｅｎＢｒｅｅｂａａｒｔ、"ＭｕｌｔｉｃｈａｎｎｅｌＣｏｄｉｎｇｏｆＡｐｐｌａｕｓｅＳｉｇｎａｌｓ" ｉｎＥＵＲＡＳＩＰＪｏｕｎａｌｏｎＡｄｖａｎｃｅｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、Ｖｏｌ．１、Ａｒｔ．１０、２００８Ｗａｇｎｅｒ，Ａｎｄｒｅａｓ；Ｗａｌｔｈｅｒ，Ａｎｄｒｅａｓ；Ｍｅｌｃｈｏｉｒ，Ｆｒａｎｋ；Ｓｔｒａｕｓ，Ｍｉｃｈａｅｌ；"ＧｅｎｅｒａｔｉｏｎｏｆＨｉｇｈｌｙＩｍｍｅｒｓｉｖｅＡｔｍｏｓｐｈｅｒｅｓｆｏｒＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓＲｅｐｒｏｄｕｃｔｉｏｎ" ａｔ１１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＥＡＳＣｏｎｖｅｎｔｉｏｎ、Ｂｅｒｌｉｎ、２００４Ｐｕｌｋｋｉ、Ｖｉｌｌｅ、"ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｉｏＣｏｄｉｎｇ" ｉｎＪ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，Ｖｏｌ．５５、Ｎｏ．６、２００７

従来のアプローチには、多くの不利な点がある。例えば、拍手のような内容を有するオーディオ信号の誘導されたまたは誘導されないアップミックスは、強い非相関性を必要とする。したがって、一方では、強い非相関性は、例えば、コンサートホールにある雰囲気感覚を復元するために必要である。他方では、例えば、全域通過フィルタのような適当な非相関化フィルタが、例えば前および後反響のような時間的不鮮明化効果を導入することにより、１つの拍手のような一時的事象の品質の再生を低下させ、鳴り響く音をフィルタリングする。さらに、１つの拍手事象の空間パニングは、むしろ微細な時間グリッドにされなければならず、その一方で、雰囲気非相関化は長期にわたって準定常でなければならない。

Ｊ．Ｂｒｅｅｂａａｒｔ、Ｓ．ｖａｎｄｅＰａｒ、Ａ．Ｋｏｈｌｒａｕｓｃｈ、Ｅ．Ｓｃｈｕｉｊｅｒｓ、“Ｈｉｇｈ−ＱｕａｌｉｔｙＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇａｔＬｏｗＢｉｔｒａｔｅｓ” ｉｎＡＥＳ１１６ｔｈＣｏｎｖｅｎｔｉｏｎ、Ｂｅｒｌｉｎ、Ｐｒｅｐｒｉｎｔ６０７２、Ｍａｙ２００４およびＪ．Ｈｅｒｒｅ、Ｋ．Ｋｊｏｅｒｌｉｎｇ、Ｊ．Ｂｒｅｅｂａａｒｔ，ｅｔａｌ、“ＭＰＥＧＳｕｒｒｏｕｎｄ−ｔｈｅＩＳＯ／ＭＰＥＧＳｔａｎｄａｒｄｆｏｒＥｆｆｉｃｉｅｎｔａｎｄＣｏｍｐａｔｉｂｌｅＭｕｌｔｉ−ＣｈａｎｎｅｌＡｕｄｉｏＣｏｄｉｎｇ” ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２２ｎｄＡＥＳＣｏｎｖｅｎｔｉｏｎＶｉｅｎｎａ、Ａｕｓｔｒｉａ、Ｍａｙ２００７による最先端の技術であるシステムは、時間分解能対雰囲気安定および一時的な品質の低下対雰囲気非相関性を低下させる。

例えば、時間的置換方法を利用しているシステムは、出力オーディオ信号の一定の反復品質のため、出力音の知覚できる低下を示す。これは、異なる時点であるにもかかわらず、入力信号の同一の部分があらゆる出力チャネルにおいて不変であるように見えるという事実のためである。さらに、増加した拍手密度を回避するために、若干のオリジナルのチャネルはアップミックスの中で下げられなければならず、そのため、若干の重要な聴覚事象は結果として得られるアップミックスにおいて失われるかもしれない。

オブジェクト指向のシステムにおいて、概して、このような音声事象は、点状の音源の大きなグループとして空間に配置され、それは計算の複雑な実現につながる。

本発明の目的は、空間オーディオ処理のための改良された概念を提供することである。

この目的は、請求項１に記載の装置および請求項１６に記載の方法によって達成される。

オーディオ信号が、例えば、非相関性に関して、または、振幅パニング方法に関して、空間的なレンダリングが適応させられることができるいくつかのコンポーネントに分解されることができることは、本発明の発見である。換言すれば、本発明は、例えば、複数の音源を有するシナリオにおいて、フォアグラウンドおよびバックグラウンドの音源が区別され、レンダリングされ、または別々に非相関化されることができるという発見に基づくものである。一般に、オーディオオブジェクトの異なる空間深さおよび／または範囲は区別されることができる。

本発明のキーポイントのうちの１つは、拍手している観衆、一群の鳥、海岸、全速力で走る馬、行進兵士の分割などを起源とする音のような信号のフォアグラウンド部分またはバックグラウンド部分への分解であり、フォアグラウンド部分は、例えば、近くの音源から始められる聴覚事象を含み、バックグラウンド部分は知覚的に融合したはるか遠くの事象の雰囲気を保つ。最終的なミキシングの前に、例えば、相関を合成し、シーンをレンダリングするなどのために、これらの２つの信号部分は別に処理される。

実施例は信号のフォアグラウンド部分およびバックグラウンド部分だけを区別する必要はなく、それらは全てが別にレンダリングされまたは非相関化される複数の異なるオーディオ部分を区別することができる。

一般に、オーディオ信号は、実施例によって、ｎ個の異なる意味的な部分に分解され、それらは別に処理される。異なる意味的なコンポーネントの分解／別の処理は、実施例によって、時間領域および／または周波数領域において達成される。

実施例は、適度の計算コストでレンダリングされた音の優れた知覚品質の効果を提供することができる。実施例は、それとともに、特に、例えば、一群の鳥、海岸、全速力で走る馬、行進兵士の分割などによって発せられるノイズのような、拍手のような重大な意味をもつオーディオ材料または他の類似の雰囲気材料に対して、適度のコストで高い知覚品質を提供する新規な非相関性／レンダリング方法を提供する。
本発明の実施例は、添付の図面を参照して詳述される。

図１ａは、空間オーディオマルチチャネルオーディオ信号を決定する装置の実施例を示す図である。図１ｂは、他の実施例を示すブロック図である。図２は、多数の分解された信号を示す図である。図３は、フォアグラウンドおよびバックグラウンドの意味的な分解を有する実施例を示す図である。図４は、バックグラウンド信号コンポーネントを得るための一時的な分離法の実施例を示す図である。図５は、空間的に大きい範囲を有する音源の合成を示す図である。図６は、モノラルからステレオへのアップミキサにおける時間領域のデコリレータの技術の適用の１つの状態を示す図である。図７は、モノラルからステレオへのアップミキサにおける周波数領域のデコリレータの技術の適用の１つの状態を示す図である。

図１は、入力オーディオ信号に基づいて空間出力マルチチャネルオーディオ信号を決定する装置１００の実施例を示す。若干の実施例において、装置は、更に空間出力マルチチャネルオーディオ信号が入力パラメータに基づくように調整されることができる。入力パラメータは、局所的に生成され、または副情報として入力オーディオ信号が与えられる。

図１において表される実施例において、装置１００は、第１の意味的特性を有する第１の分解信号および第１の意味的特性とは異なる第２の意味的特性を有する第２の分解信号を得るために、入力オーディオ信号を分解するための分解装置１１０を含む。

さらに、装置１００は、第１の意味的特性を有する第１のレンダリング信号を得るための第１のレンダリング特性を用いて第１の分解信号をレンダリングするため、および第２の意味的特性を有する第２のレンダリング信号を得るための第２のレンダリング特性を用いて第２の分解信号をレンダリングするためのレンダラ１２０を含む。

意味的特性は、遠近、集中または広角などの空間的特性、例えば信号の音調、動静などの動的特性および／または例えば信号がフォアグラウンドまたはバックグラウンドにあるかなどの優位特性に対応し、その計測はそれぞれ行われる。

さらに、実施例において、装置１００は、空間出力マルチチャネルオーディオ信号を得るために、第１のレンダリングされた信号および第２のレンダリングされた信号を処理するためのプロセッサ１３０を含む。

換言すれば、入力パラメータに基づく若干の実施例において、分解装置１１０は入力オーディオ信号を分解する。入力オーディオ信号の分解は、入力オーディオ信号の異なる部分の意味的、例えば空間的特性に適用される。さらに、第１および第２のレンダリング特性に従ってレンダラ１２０によって行われるレンダリングは、例えば第１の分解信号がバックグラウンドオーディオ信号に対応し、第２の分解信号がフォアグラウンドオーディオ信号に対応するシナリオにおいて、異なるレンダリングを許可する空間特性に適用されるか、それぞれ反対に、デコリレータが適用される。以下において、用語「フォアグラウンド」は、オーディオ環境において優位なオーディオオブジェクトに関するものと理解され、それにより、見込みのある聴取者はフォアグラウンドオーディオオブジェクトに注意する。フォアグラウンドオーディオオブジェクトまたは音源は、バックグラウンドオーディオオブジェクトまたは音源と区別または識別される。バックグラウンドオーディオオブジェクトまたは音源は、フォアグラウンドオーディオオブジェクトまたは音源より優位でないため、オーディオ環境の見込みのある聴取者に目立たない。実施例において、フォアグラウンドオーディオオブジェクトまたは音源は、それに限られるものではないが、点状の音源であってもよく、バックグラウンドオーディオオブジェクトまたは音源は、空間的に広いオーディオオブジェクトまたは音源であり、バックグラウンドオーディオオブジェクトまたは音源は、空間的により広いオーディオオブジェクトまたは音源に対応する。

換言すれば、実施例において、第１のレンダリング特性は第１の意味的特性に基づくか適合させることができ、第２のレンダリング特性は第２の意味的特性に基づくか適合させることができる。一実施例において、第１の意味的特性および第１のレンダリング特性はフォアグラウンドの音源またはオーディオオブジェクトに対応し、レンダラ１２０は振幅パニングを第１の分解信号に適用するように構成されることができる。さらに、レンダラ１２０は、第１のレンダリングされた信号として、第１の分解信号の２つの振幅パンされたバージョンを提供する。この実施例において、第２の意味的特性および第２のレンダリング特性は、バックグラウンド音源またはオーディオオブジェクト、複数のそれらのそれぞれに対応し、レンダラ１２０は、第２の分解信号に非相関化を適用し、第２のレンダリングされた信号として第２の分解信号およびその非相関化バージョンを与えることができる。

実施例において、第１のレンダリング特性が遅延導入特性をもたないように、レンダラ１２０はさらに第１の分解信号をレンダリングする。換言すれば、第１の分解信号の非相関化がない。他の実施形態において、第１のレンダリング特性は第１の遅延量を有する遅延導入特性を有し、第２のレンダリング特性は第２の遅延量を有し、第２の遅延量は第１の遅延量より大きい。換言すれば、本実施例において、第１の分解信号および第２の分解信号の両方は非相関化されるが、非相関化のレベルはそれぞれの分解信号の非相関化バージョンに導入された遅延量に対応する。したがって、非相関性は、第１の分解信号に対するものより第２の分解信号に対するもののほうが強い。

実施例において、第１の分解信号および第２の分解信号は、重複および／または時間同期する。換言すれば、信号処理はブロック的に行われ、１ブロックの入力オーディオ信号サンプルは、分解装置１１０によって多くの分解信号のブロックに再分割される。実施例において、分解信号の数は、時間領域において少なくとも部分的に重複する、すなわち、それらは重なり合う時間領域サンプルを示している。換言すれば、分解信号は、重なり合う、すなわち、少なくとも部分的に同時のオーディオ信号を示す入力オーディオ信号の部分に対応する。実施例において、第１および第２の分解信号は、オリジナルの入力信号のフィルタリングされたまたは変換されたバージョンを示す。それらは、例えば近い音源またはより遠い音源に対応する構成された空間信号から抽出された信号部分を示す。他の実施例において、それらは、過渡信号コンポーネントおよび定常信号コンポーネントなどに対応する。

実施例において、レンダラ１２０は、第１のレンダラおよび第２のレンダラに再分割され、第１のレンダラは第１の分解信号をレンダリングすることができ、第２のレンダラは第２の分解信号をレンダリングすることができる。実施例において、レンダラ１２０は、例えば、順次分解信号を連続してレンダリングするプロセッサまたはデジタル信号処理装置上で実行されるためにメモリーに格納されるプログラムとして、ソフトウェアに実装される。

レンダラ１２０は、第１の非相関化信号を得るために第１の分解信号を非相関化しおよび／または第２の非相関化信号を得るために第２の分解信号を非相関化することができる。換言すれば、レンダラ１２０は、異なる非相関性またはレンダリング特性を用いて、両方の分解信号を非相関化する。実施例において、レンダラ１２０は、非相関化の代わりにまたは加えて、振幅パニングを第１または第２の分解信号のいずれか１つに適用する。

レンダラ１２０は、空間出力マルチチャネルオーディオ信号におけるチャネルと同様に多くのコンポーネントを有する第１および第２のレンダリングされた信号をレンダリングし、プロセッサ１３０は、空間出力マルチチャネルオーディオ信号を得るために第１および第２のレンダリングされた信号のコンポーネントを結合するのに適している。他の実施例において、レンダラ１２０は、空間出力マルチチャネルオーディオ信号より少ないコンポーネントを有する第１および第２のレンダリングされた信号をレンダリングすることができ、プロセッサ１３０は、空間出力マルチチャネルオーディオ信号を得るために第１および第２のレンダリングされた信号のコンポーネントをアップミキシングすることができる。

図１ｂは、図１ａの助けを借りて紹介されたのと類似の構成を有する装置１００の他の実施例を示す。しかしながら、図１ｂはより詳細な構成を有する実施例を示す。図１ｂは、入力オーディオ信号およびオプションとして入力パラメータを受信する分解装置１１０を示す。図１ｂから分かるように、分解装置は第１の分解信号および第２の分解信号を破線で示されるレンダラ１２０に提供する。図１ｂに示す実施例において、第１の分解信号が第１の意味的特性として点状の音源に対応し、レンダラ１２０が第１のレンダリング特性としての振幅パニングを第１の分解信号に適用するものと仮定される。実施例において、第１および第２の分解信号は交換可能である、すなわち、別の実施例において、振幅パニングが第２の分解信号に適用される。

図１ｂにおいて示される実施例において、レンダラ１２０は、第１の分解信号の信号経路において、第１の分解信号の２つのコピーを別に増幅する２台の調整可能な増幅器１２１および１２２を示す。実施例において、使用される異なる増幅率は入力パラメータから決定され、他の実施例において、それらは入力オーディオ信号から決定され、それはユーザーの入力に関してプリセットまたは局所的に発生する。２台の調整可能な増幅器１２１および１２２の出力はプロセッサ１３０に送られ、詳細は以下において与えられる。

図１ｂから分かるように、分解装置１１０は第２の分解信号をレンダラ１２０に提供し、それは第２の分解信号の処理経路において異なるレンダリングを行う。他の実施例において、第１の分解信号は、第２の分解信号と同様にまたは代わりに現在説明されている経路において処理される。第１および第２の分解信号は、実施例において交換されることができる。

デコリレータ１２３は、単に信号を遅延させるための単一のタップを用いてＩＩＲフィルタ（ＩＩＲ＝無限インパルス応答（ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｃｅ））、任意のＦＩＲフィルタ（ＦＩＲ＝有限インパルス応答（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｃｅ））または特別なＦＩＲフィルタとして行うことができる。

第１の分解信号の処理経路にしたがって、２つの調整可能な増幅器１２１および１２２から得られる第１の分解信号の２つの振幅パンされたバージョンも、プロセッサ１３０に供給される。他の実施例において、調整可能な増幅器１２１および１２２はプロセッサ１３０に存在してもよく、第１の分解信号およびパニング要素だけが、レンダラ１２０によって与えられる。

図１ｂに見られるように、図１ａの空間出力マルチチャネルオーディオ信号に対応する左チャンネルＬおよび右チャンネルＲを有するステレオ信号を提供するために出力を結合することによるこの実施例で、プロセッサ１３０は第１のレンダリングされた信号と第２のレンダリングされた信号とを処理または結合することができる。

図１ｂの実施例において、両方の信号経路で、ステレオ信号のための左右のチャネルは決定される。第１の分解信号の経路において、振幅パニングが２つの調整可能な増幅器１２１および１２２によって行われ、２つのコンポーネントが異なって増幅・減衰された２つの同相オーディオ信号という結果になる。これは、意味的特性またはレンダリング特性としての点状音源の印象に対応する。

図２はより一般的な他の実施例を示す。図２は分解装置１１０に対応する意味的分解ブロック２１０を示す。意味的分解２１０の出力は、レンダラ１２０に対応するレンダリングステージ２２０の入力である。レンダリングステージ２２０は、多くの個々のレンダラ２２１〜２２ｎから成る、すなわち、意味的分解装置２１０は、モノラル／ステレオ入力信号をｎ個の意味的特性を有するｎ個の分解信号に分解する。分解は分解制御パラメータに基づいて行われることができ、それはモノラル／ステレオ入力信号とともに与えられたり、プリセットされたり、局所的に発生させられたり、またはユーザーによって入力されたりすることができる。

換言すれば、分解装置１１０は、任意の入力パラメータに基づいて意味的に入力オーディオ信号を分解し、および／または入力オーディオ信号から入力パラメータを決定することができる。

非相関化またはレンダリングステージ２２０の出力は、非相関化またはレンダリングされた信号に基づいて、および任意にアップミックス制御パラメータに基づいて、マルチチャネル出力を決定するアップミックスブロック２３０に提供される。

通常、実施例は音声素材をｎ個の異なる意味的コンポーネントに分割し、図２においてＤ¹からＤⁿまで表示された適合するデコリレータでそれぞれのコンポーネントを別々に非相関化する。換言すれば、実施例において、レンダリング特性は、分解信号の意味的特性に適合することができる。デコリレータまたはレンダラの各々は、適宜に分解された信号コンポーネントの意味的特性に適合することができる。その後、処理されたコンポーネントは、出力マルチチャネル信号を得るために混合されることができる。異なるコンポーネントは、例えば、フォアグラウンドおよびバックグラウンドモデリングオブジェクトに対応する。

換言すれば、レンダラ１１０は、第１のレンダリングされた信号としてステレオまたはマルチチャネルアップミックス信号を得るために第１の分解信号および第１の非相関化信号を結合することができ、および／または第２のレンダリングされた信号としてステレオアップミックス信号を得るために第２の分解信号および第２の非相関化信号を結合することができる。

さらに、レンダラ１２０は、バックグラウンドオーディオ特性に従って第１の分解信号をレンダリングしおよび／またはフォアグラウンドオーディオ特性に従って第２の分解信号をレンダリングすることができ、その逆も同様である。

たとえば、拍手のような信号は、１つのはっきりした近くの拍手および非常に密度の高いはるか彼方の拍手から生じているノイズのような環境から成る信号として見られることができるので、この種の信号の適切な分解は、１つのコンポーネントとしての分離されたフォアグラウンドの拍手事象と他のコンポーネントとしてのノイズのようなバックグラウンドとを区別することによって得られる。換言すれば、実施例において、ｎ＝２である。このような実施例において、例えば、レンダラ１２０は、第１の分解信号の振幅パニングによって第１の分解信号をレンダリングする。換言すれば、フォアグラウンド拍手コンポーネントの相関またはレンダリングは、実施例において、その推定されたオリジナルの位置への各１つの事象の振幅パニングによって、Ｄ¹において成し遂げられる。

実施例において、レンダラ１２０は、例えば、第１または第２の非相関化信号を得るために第１または第２の分解信号を全域フィルタリングすることにより、第１および／または第２の分解信号をレンダリングする。

換言すれば、実施例において、バックグラウンドは、相互に独立したｍ個の全域フィルタＤ² ₁・・・_mの使用により非相関化されるかレンダリングされることができる。実施例において、準定常バックグラウンドだけが全域フィルタによって処理され、最先端の非相関化方法の時間的な不鮮明化効果がこのように回避されることができる。振幅パニングがフォアグラウンドオブジェクトの事象に適用されるので、Ｊ．Ｂｒｅｅｂａａｒｔ．Ｓ．ｖａｎｄｅＰａｒ，Ａ．Ｋｏｈｌｒａｕｓｈ，Ｅ．Ｓｃｈｕｉｊｅｒｓ， “Ｈｉｇｈ−ＱｕａｌｉｔｙＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇａｔＬｏｗＢｉｔｒａｔｅｓ” ｉｎＡＥＳ１１６ｔｈＣｏｎｖｅｎｔｉｏｎ，Ｂｅｒｏｉｎ，Ｐｒｅｐｒｉｎｔ６０７２，Ｍａｙ２００４ａｎｄＪ．Ｈｅｒｒｅ．Ｋ．Ｋｊｏｅｒｌｉｎｇ，Ｊ．Ｂｒｅｅｂａａｒｔ，ｗｔ．ａｌ．， “ＭＰＥＧＳｕｒｒｏｕｎｄ−ｔｈｅＩＳＯ／ＭＰＥＧＳｔａｎｄａｒｄｆｏｒＥｆｆｉｃｉｅｎｔａｎｄＣｏｍｐａｔｉｂｌｅＭｕｌｔｉ−ＣｈａｎｎｅｌＡｕｄｉｏＣｏｄｉｎｇ” ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２２ｎｄＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｖｉｅｎｎａ，Ａｕｓｔｒｉａ，Ｍａｙ２００７に示されているように、オリジナルのフォアグラウンドの拍手密度が最先端のシステムと対照的におよそ再構築される。

換言すれば、実施例において、分解装置１１０は、入力パラメータに基づいて意味的に入力オーディオ信号を分解することができ、入力パラメータは、例えば副情報として入力オーディオ信号とともに供給される。このような実施例において、分解装置１１０は、入力オーディオ信号から入力パラメータを決定することができる。他の実施例において、分解装置１１０は入力オーディオ信号から独立した制御パラメータとして入力パラメータを決定することができ、それは、局所的に生成されるか、プリセットされるか、またはユーザーによって入力される。

実施例において、レンダラ１２０は、広帯域振幅パニングを適用することによって、第１のレンダリングされた信号または第２のレンダリングされた信号の空間分布を得ることができる。換言すれば、上述の図１ｂの説明によれば、点状の音源を発生させる代わりに、音源のパニング位置は、特定の空間分布を有する音源を生成するために時間的に変化することができる。実施例において、レンダラ１２０が振幅パニングのための局所的に生成されたローパスノイズを適用し、すなわち、例えば図１ｂの調整可能な増幅器１２１および１２２のための振幅パニングのための倍率は、局所的に生成されたノイズ値に対応する、すなわち特定の帯域幅で時間変化する。

実施例は、導波または非導波モードで動作させることができる。導波シナリオにおいて、例えば図２における破線を参照して、非相関性は、例えば、バックグラウンドまたは環境部分だけに粗い時間グリッドで制御される標準的な技術の非相関化フィルタを適用することによって達成されることができ、もっと細かい時間グリッドで広帯域振幅パニングを使用して時間変化空間位置を介したフォアグラウンド部分におけるそれぞれの事象の再分配によって相関を得ることができる。換言すれば、実施例において、レンダラ１２０は、例えば異なるタイムスケールに基づいて、異なる時間グリッドで異なる分解信号のためにデコリレータを操作することができ、それはそれぞれのデコリレータのための異なるサンプルレートまたは異なる遅延に関するものである。一実施例において、フォアグラウンドおよびバックグラウンドの分離を行うと、フォアグラウンド部分は振幅パニングを使用することができ、バックグラウンド部分に関するデコリレータのための動作より非常に細かい時間グリッドで振幅が変わる。

さらに、例えば、拍手のような信号、すなわち準定常ランダム品質を有する信号の非相関性のために、それぞれ１つのフォアグラウンドの拍手の正確な空間位置は重大な重要性をもたず、むしろ多数の拍手事象の全体の分布の回復が強調される。実施例は、この事実を利用することができて、非導波モードで作動することができる。この種のモードにおいて、上述した振幅パニング要因は、ローパスノイズによって制御されることができる。図３は、シナリオを実装しているモノラルからステレオへのシステムを例示する。図３は、モノラル入力信号をフォアグラウンドおよびバックグラウンドの分解信号部分に分解するための分解装置１１０に対応する意味的分解ブロック３１０を示す。

図３から分かるように、信号のバックグラウンド分解部分は、全域通過Ｄ¹３２０によってレンダリングされる。非相関化信号は、レンダリングされないバックグラウンド分解部分とともに、プロセッサ１３０に対応するアップミックス３３０に与えられている。フォアグラウンド分解信号部分は、レンダラ１２０に対応する振幅パニングＤ²ステージ３４０に提供される。局所的に生成されたローパスノイズ３５０は、振幅パニングされた構成のフォアグラウンド分解信号をアップミックス３３０に提供することができる振幅パニングステージ３４０にも提供される。振幅パニングＤ²ステージ３４０は、オーディオチャンネルの２つのステレオ・セットの間の振幅選別のための倍率ｋを提供することによりその出力を決定する。倍率ｋは、ローパスノイズに基づく。

図３から分かるように、振幅パニング３４０とアップミックス３３０との間に１つの矢印がある。この１つの矢印は、振幅パニングされた信号を示す、すなわちステレオアップミックスの場合、すでに左および右チャンネルを示す。図３から分かるように、プロセッサ１３０に対応するアップミックス３３０は、ステレオ出力を引き出すために、バックグラウンドおよびフォアグラウンド分解信号を処理または結合する。

他の実施例はバックグラウンドおよびフォアグラウンド分解信号または分解のための入力パラメータを引き出すために本来の処理を使用する。分解装置１１０は、一時的な分離法に基づいて第１の分解信号および／または第２の分解信号を決定する。換言すれば、分解装置１１０は、分離法に基づいて第１および第２の分解信号を決定し、第１の決定された分解信号と入力オーディオ信号との間の違いに基づいて別の分解信号を決定する。他の実施例において、第１または第２の分解信号は、過渡分離法に基づいて決定され、別の分解信号は第１または第２の分解信号および入力オーディオ信号の間の違いに基づいて決定される。

分解装置１１０および／またはレンダラ１２０および／またはプロセッサ１３０は、ＤｉｒＡＣモノラル合成ステージおよび／またはＤｉｒＡＣ合成ステージおよび／またはＤｉｒＡＣ結合ステージを含む。実施例において、分解装置１１０は入力オーディオ信号を分解することができ、レンダラ１２０は第１および／または第２の分解信号をレンダリングすることができ、および／または、プロセッサ１３０は異なる周波数帯域に関して第１および／または第２のレンダリングされた信号を処理することができる。

実施例は、拍手のような信号のために次の近似を使用することができる。フォアグラウンドコンポーネントは過渡検出または分離法によって得ることができる一方（Ｐｕｌｋｋｉ，Ｖｉｌｌｅ； “ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ” ｉｎＪ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，Ｖｏｌ．５５，Ｎｏ．６，２００７参照）、バックグラウンドコンポーネントは残留信号によって得ることができる。図４は、例えば、図３における意味的分解３１０、すなわち分解装置１２０の実施例を実行するための拍手のような信号ｘ（ｎ）のバックグラウンドコンポーネントｘ´（ｎ）を得るための適切な方法の実施例を示す。図４は、ＤＦＴ４１０（ＤＦＴ＝離散フーリエ変換（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ））に入力される時間的離散入力信号ｘ（ｎ）を示す。ＤＦＴブロック４１０の出力は、スペクトルを平滑化するためのブロック４２０に与えられ、ＤＦＴの出力および平滑化スペクトルステージ４３０の出力に基づいてスペクトルホワイトニングするためのスペクトルホワイトニングブロック４３０に与えられる。

スペクトルホワイトニングステージ４３０の出力は、スペクトルを分離して、２つの出力、すなわちノイズおよび過渡残留信号および音の信号を提供するスペクトルピーク選別ステージ４４０に送られる。ノイズおよび過渡残留信号は、残留ノイズ信号がスペクトルピーク選別ステージ４４０の出力としての音の信号と共にミキシングステージ４６０に提供されるＬＰＣフィルタ４５０（ＬＰＣ＝線形予測符合化（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ））に提供される。ミキシングステージ４６０の出力は、平滑化スペクトルステージ４２０によって与えられる平滑化されたスペクトルに基づいてスペクトルを成形するスペクトル成形ステージ４７０に送られる。スペクトル成形ステージ４７０の出力は、バックグラウンドコンポーネントを表すｘ´（ｎ）を得るために、合成フィルタ４８０、すなわち逆離散フーリエ変換に送られる。フォアグラウンドコンポーネントは、入力信号および出力信号の違いとして、すなわちｘ（ｎ）−ｘ´（ｎ）として引き出されることができる。

本発明の実施例は、３Ｄゲームとして仮想現実感アプリケーションで動作させることができる。この種のアプリケーションにおいて、従来の概念に基づくときに、大きい空間広がりを有する音源の合成は複雑である。この種の音源は、例えば、海岸、鳥の群れ、全速力で走る馬、行進兵士の分割、拍手をする観衆などである。概して、この種の音声事象は、計算の複雑さにつながる点状の音源の大きなグループとして空間的に拡がる。Ｗａｇｎｅｒ，Ａｎｄｒｅａｓ；Ｗａｌｔｈｅｒ，Ａｎｄｒｅａｓ；Ｍｅｌｃｈｏｉｒ，Ｆｒａｎｋ；Ｓｔｒａｕｓ，Ｍｉｃｈａｅｌ； “ＧｅｎｅｒａｔｉｏｎｏｆＨｉｇｈｌｙＩｍｍｅｒｓｉｖｅＡｔｍｏｓｐｈｅｒｅｓｆｏｒＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓＲｅｐｒｏｄｕｃｔｉｏｎ” ａｔ１１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＥＡＳＣｏｎｖｅｎｔｉｏｎ，Ｂｅｒｌｉｎ，２００４参照。

実施例は、もっともらしく音源の範囲の合成を行うが、同時に、構造上および計算上のより低い複雑さを有する方法を実施する。実施例は、ＤｉｒＡＣ（ＤｉｒＡＣ＝方向オーディオ符合化（ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ））に基づく。Ｐｕｌｋｋｉ、Ｖｉｌｌｅ； “ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ” ｉｎＪ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，Ｖｏｌ．５５，Ｎｏ．６，２００７参照。換言すれば、実施例において、分解装置１１０および／またはレンダラ１２０および／またはプロセッサ１３０はＤｉｒＡＣ信号を処理する。換言すれば、分解装置１１０はＤｉｒＡＣモノラル合成ステージを含み、レンダラ１２０はＤｉｒＡＣ合成ステージを含み、および／またはプロセッサはＤｉｒＡＣ結合ステージを含む。

例えば、実施例は、例えば１つはフォアグラウンド音源のための、１つはバックグラウンド音源のための２つの合成構造だけを使用するＤｉｒＡＣ処理に基づく。フォアグラウンド音は制御方向データを有する単一のＤｉｒＡＣストリームに適用され、近くの点状の音源の認知という結果になる。バックグラウンド音は異なる制御をされた方向データを有する１つの直接的なストリームを再生し、それは空間的に広げられた音声オブジェクトの認知という結果になる。２つのＤｉｒＡＣストリームは結合され、例えば、任意のスピーカのセットアップのために、または、ヘッドホンのために復号化される。

図５は、空間的に大きい範囲を有する音源の合成を示す。図５は、近くの観衆の拍手のような近くの点状音源の認知に至るモノラルＤｉｒＡＣストリームをつくる上のモノラル合成ブロック６１０を示す。下のモノラル合成ブロック６２０は、例えば、観衆からの拍手の音としてバックグラウンド音を生成する空間的に広げられた音の認知に至るモノラルＤｉｒＡＣストリームをつくるために用いられる。２つのＤｉｒＡＣモノラル合成ブロック６１０および６２０の出力は、ＤｉｒＡＣ結合ステージ６３０において結合される。図５は、２つのＤｉｒＡＣ合成ブロック６１０および６２０だけが本実施例において用いられることを示す。それらのうちの１つは、近くの鳥または拍手をする観衆の中の近く人のようなフォアグラウンドにある音声事象をつくるために用いられ、その他は、バックグラウンド音、連続する鳥の群れの音などを生成する。

フォアグラウンド音は、方位角データが周波数で一定に保たれるようにＤｉｒＡＣモノラル合成ブロック６１０でモノラルＤｉｒＡＣストリームに変換されるが、ランダムに変化しまたは時間内の外部過程によって制御される。拡散性パラメータψは０に設定される、すなわち点状の音源を表している。ブロック６１０へのオーディオ入力は、例えばはっきりと区別できる鳥の鳴き声または拍手のように、時間的にオーバーラップしない音であるとみなされ、それは鳥や拍手のように近くの音源の認識を生成する。個々の音声事象はθ±θ_range__foreground方向において把握されるが、単事象は点状であると把握されるθおよびθ_range__foregroundを調整することによって、フォアグラウンド音事象の空間広がりは制御される。換言すれば、点状音源は、点の可能な位置が範囲θ±θ_range__foregroundに限定されている所で生成される。

バックグラウンドブロック６２０は、入力音声ストリームとして、例えば何百もの鳥または多くの遠くの拍手のような時間的にオーバーラップする多くの音声事象を含むことを目的として、フォアグラウンドオーディオストリームに存在しない全ての他の音声事象を含む信号をとる。所定の制限方位値θ±θ_range__backgroundの範囲で、与えられた方位角の値は、時間および周波数においてランダムに設定される。バックグラウンド音の空間広がりは、低い計算量で合成されることができる。また、拡散ψも制御される。それが加えられる場合、ＤｉｒＡＣデコーダは、全体として音源が聴取者を囲むときに用いることができるすべての方向に音を適用するであろう。この実施例において、それが囲まない場合、拡散は低く抑えられるか、０に近いか、または０である。

本発明の実施例は、レンダリングされた音の優れた知覚的品質が手頃な計算コストで成し遂げられるという効果を提供することができる。たとえば、図５に示されるように、実施例は空間音声レンダリングのモジュールの実施を可能にすることができる。

発明の方法の特定の実現要求に応じて、発明の方法は、ハードウェアにおいて、または、ソフトウェアで行うことができる。実現は、特に、電子的に読み込み可能な制御信号を有するフラッシュメモリ、ディスク、ＤＶＤまたはＣＤなどのデジタル記憶媒体を使用して実行されることができ、発明の方法が実行されるように、プログラム可能なコンピューターシステムと協働する。通常、本発明は、機械で読み取ることができるキャリアに格納されるプログラムコードを有するコンピュータプログラム製品であって、コンピュータプログラム製品がコンピュータ上で動作するときに、プログラムコードが発明の方法を実行するように実行される。換言すれば、発明の方法は、コンピュータプログラムがコンピュータ上で動作するときに、発明の方法のうちの少なくとも１つを実行するためのプログラムコードを有するコンピュータプログラムである。

Claims

入力オーディオ信号に基づいて空間出力マルチチャネルオーディオ信号を決定する装置（１００）であって、
第１の意味的特性を有する第１の分解信号、および前記第１の意味的特性と異なる第２の意味的特性を有する第２の分解信号を得るために、入力オーディオ信号を分解するための分解装置（１１０）、
前記第１の意味的特性を有する第１のレンダリングされた信号を得るために第１のレンダリング特性を用いて前記第１の分解信号をレンダリングし、前記第２の意味的特性を有する第２のレンダリングされた信号を得るために第２のレンダリング特性を用いて前記第２の分解信号をレンダリングするためのレンダラ（１２０）であって、前記第１のレンダリング特性と前記第２のレンダリング特性とは異なるものであるレンダラ、および
前記空間出力マルチチャネルオーディオ信号を得るために前記第１のレンダリングされた信号および前記第２のレンダリングされた信号を処理するプロセッサ（１３０）を含む、装置。
前記第１のレンダリング特性は前記第１の意味的特性に基づき、前記第２のレンダリング特性は前記第２の意味的特性に基づく、請求項１に記載の装置。
前記レンダラ（１２０）は、前記第１のレンダリング特性が遅延導入特性をもたず、または前記第１のレンダリング特性が第１の遅延を含む第１の遅延量を有する遅延導入特性を有するように前記第１の分解信号をレンダリングし、前記第２のレンダリング特性は、前記第１の遅延量より多い第２の遅延量を有する、請求項１または請求項２に記載の装置。
前記レンダラ（１２０）は、第１のレンダリング特性としての振幅パニングにより前記第１の分解信号をレンダリングし、第２のレンダリング特性としての第２の非相関化信号を得るために前記第２の分解信号を非相関化する、請求項１ないし請求項３のいずれかに記載の装置（１００）。
前記レンダラ（１２０）は、それぞれが空間出力マルチチャネルオーディオ信号におけるチャネルと同じくらい多くのコンポーネントを有する前記第１および第２のレンダリングされた信号をレンダリングし、前記プロセッサ（１３０）は、空間出力マルチチャネルオーディオ信号を得るために前記第１および第２のレンダリングされた信号のコンポーネントを結合する、請求項１ないし請求項４のいずれかに記載の装置（１００）。
前記レンダラ（１２０）は、それぞれが空間出力マルチチャネルオーディオ信号より少ないコンポーネントを有する前記第１および第２のレンダリングされた信号をレンダリングし、前記プロセッサ（１３０）は、空間出力マルチチャネルオーディオ信号を得るために前記第１および第２のレンダリングされた信号のコンポーネントをアップミキシングする、請求項１ないし請求項４のいずれかに記載の装置（１００）。
前記レンダラ（１２０）は、第１のレンダリング特性としてのフォアグラウンドオーディオ特性に従って前記第１の分解信号をレンダリングし、第２のレンダリング特性としてのバックグラウンドオーディオ特性に従って前記第２の分解信号をレンダリングする、請求項１ないし請求項６のいずれかに記載の装置（１００）。
前記レンダラ（１２０）は、前記第２の非相関化信号を得るために第２の信号を全域通過フィルタリングすることにより前記第２の分解信号をレンダリングする、請求項４ないし請求項７のいずれかに記載の装置（１００）。
前記分解装置（１１０）は、前記入力オーディオ信号からの制御パラメータとして入力パラメータを決定する、請求項１に記載の装置（１００）。
前記レンダラ（１２０）は、広帯域振幅パニングを適用することによって前記第１または第２のレンダリングされた信号の空間分布を得る、請求項４ないし請求項９のいずれかに記載の装置（１００）。
前記レンダラ（１２０）は、異なる時間グリッドに基づいて前記第１の分解信号および前記第２の分解信号をレンダリングする、請求項１ないし請求項１０のいずれかに記載の装置（１００）。
前記分解装置（１１０）は、過渡分離法に基づいて前記第１の分解信号および／または前記第２の分解信号を決定する、請求項１ないし請求項１１のいずれかに記載の装置（１００）。
前記分解装置（１１０）は、過渡分離法により前記第１の分解信号または前記第２の分解信号の一方を決定し、それと前記入力オーディオ信号との間の差に基づいて他方を決定する、請求項１２に記載の装置（１００）。
前記分解装置（１１０）および／または前記レンダラ（１２０）および／または前記プロセッサ（１３０）は、ＤｉｒＡＣモノラル合成ステージおよび／またはＤｉｒＡＣ合成ステージおよび／またはＤｉｒＡＣ結合ステージを含む、請求項１ないし請求項１３のいずれかに記載の装置（１００）。
前記分解装置（１１０）は入力オーディオ信号を分解し、前記レンダラ（１２０）は前記第１および／または第２の分解信号をレンダリングし、および／または前記プロセッサ（１３０）は異なる周波数帯域に関して前記第１および／または第２のレンダリングされた信号を処理する、請求項１ないし請求項１４のいずれかに記載の装置（１００）。
入力オーディオ信号および入力パラメータに基づいて空間出力マルチチャネルオーディオ信号を決定する方法であって、
第１の意味的特性を有する第１の分解信号、および第１の意味的特性と異なる第２の意味的特性を有する第２の分解信号を得るために、入力オーディオ信号を分解するステップ、
第１の意味的特性を有する第１のレンダリングされた信号を得るために第１のレンダリング特性を用いて前記第１の分解信号をレンダリングするステップ、
第２の意味的特性を有する第２のレンダリングされた信号を得るために第２のレンダリング特性を用いて前記第２の分解信号をレンダリングするステップであって、前記第１のレンダリング特性と前記第２のレンダリング特性とが互いに異なるものであるステップ、および
前記空間出力マルチチャネルオーディオ信号を得るために前記第１のレンダリングされた信号および前記第２のレンダリングされた信号を処理するステップを含む、方法。
プログラムコードがコンピュータまたはプロセッサで動くときに、請求項１６の方法を実行するためのプログラムコードを有する、コンピュータプログラム。