JP5895050B2

JP5895050B2 - 符号化された多チャンネルオーディオ信号を処理するオーディオ信号プロセッサ及びその方法

Info

Publication number: JP5895050B2
Application number: JP2014516462A
Authority: JP
Inventors: アキサカリハルマ; アーノルドゥスウェルナーヨハネスオーメン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-06-24
Filing date: 2012-06-04
Publication date: 2016-03-30
Anticipated expiration: 2032-06-04
Also published as: EP2724555A1; RU2595910C2; US20140133661A1; US9626975B2; RU2014102198A; JP2014520473A; CN103620673A; EP2724555B1; BR112013032727A2; CN103620673B; WO2012176084A1

Description

本発明は、オーディオ信号プロセッサ及びその処理方法に関連し、具体的には、次に限らないが、多チャンネル信号の同時レンダリングに関する。

過去数十年間において、オーディオ信号の提供の多様性及び柔軟性は急激に向上している。実際に、空間オーディオ、デジタルオーディオ符号化及び復号化、オーディオデバイスの小型化等の導入により、多くの様々な方法でオーディオ信号は消費されている。更に、付加的な機会及び機能性により、新しいユーザ経験及び使用シナリオが開発されている。

例えば複数のオーディオ源信号が同時にレンダリングされるが、空間的に分化されるオーディオデバイスが開発されている。このようなオーディオデバイスは、複数のオーディオ源信号を復号化して復号化された信号を提供し、復号化された信号は、次に、聴取者にはそれらの信号が様々な方向から発生しているように思われるように空間処理される。このようなオーディオプレイヤの例は、ハーマ（Harma）、Ａ．及びＳ．バン・デ・パー（van de Par）による論文「ヘッドホンリスニング用のトランジション効果の空間追跡（Spatial Track Transition Effects for Headphone Listening）」（第１０回デジタルオーディオ効果国際会議（ＤＡＦｘ１０）、２００７年、フランス、ボルドー）に記載される。

しかし、当該処理は、魅力的なユーザ経験を提供するが、付随する不利点もある。具体的には、当該処理の複雑度及び計算要件はかなり高い傾向があり、これにより、比較的パワフルな処理プラットフォームが必要となる。これは、費用及び電力消費量を増加し、消費者セグメントの小型ポータブルオーディオプレイヤには特に望ましくない。或いは、複雑度及び処理要件は、処理の質を妥協することにより又は処理可能なオーディオ源信号の数を制限することにより低減される。しかし、これではユーザ経験が悪化する。

したがって、改良されたアプローチが有利である。具体的には、柔軟性を高め、複雑度を低減し、計算要件を低減し、動作を容易にし、電力消費量を抑え、オーディオ品質を向上させ、ユーザ経験を高め、及び／又は、パフォーマンスを向上させるアプローチが有利である。

したがって、本発明は、好適には、上述した不利点のうちの１つ以上を、単独で又は任意の組み合わせで、軽減、緩和又は解消することを試みる。

本発明の一態様では、複数の符号化された多チャンネルオーディオ信号を受け取る受信器と、第１の符号化された多チャンネル信号を復号化して第１の復号化された多チャンネル信号を生成する多チャンネルデコーダと、複数の符号化された多チャンネルオーディオ信号のうちの少なくとも第２の符号化された多チャンネルオーディオ信号からオーディオ符号化データを、第２の符号化された多チャンネルオーディオ信号からのオーディオ符号化データを含む符号化された更なるオーディオ信号のチャンネル数が、第２の符号化された多チャンネル信号におけるチャンネル数より少ないように選択することによって、符号化された更なるオーディオ信号を生成する発生器と、符号化された更なるオーディオ信号を復号化することによって復号化された更なるオーディオ信号を生成する更なるデコーダと、少なくとも第１の復号化された多チャンネル信号と復号化された更なるオーディオ信号とを合成して多チャンネル出力信号を生成する合成器とを含む、オーディオ信号プロセッサが提供される。

本発明は、複数の符号化された多チャンネルオーディオ信号の処理を向上させる。具体的には、多くのシナリオにおいて、複雑度及び／又は計算リソースを低減される。複数の多チャンネルオーディオ信号からのオーディオを含む出力信号が、各多チャンネル信号のフル多チャンネル復号化を必要とすることなく生成される。計算リソース使用量が大幅に減少され、これにより、多数の多チャンネル信号が多チャンネル出力信号に含まれる。多くのシナリオにおいて、ユーザ経験が向上され、費用が削減され、及び／又は実施が容易にされる。

幾つかの実施形態では、オーディオ信号プロセッサは更に、例えばヘッドホンを使用する、多チャンネル出力信号をレンダリングする手段を含む。

符号化された多チャンネルオーディオ信号は、符号化されたステレオ信号である。幾つかの実施形態では、複数の符号化された多チャンネルオーディオ信号の多チャンネル信号は、同数のチャンネル、具体的には、符号化されたステレオ信号を有する。

符号化された更なるオーディオ信号は、第２の符号化された多チャンネルオーディオ信号より少ない数のチャンネルを有する多チャンネル信号である。他の実施形態では、符号化された更なるオーディオ信号は、第２の符号化された多チャンネルオーディオ信号と同数の又はより多くのチャンネルを有するが、第２の符号化された多チャンネルオーディオ信号からの符号化データは、これらのチャンネルのサブセットにのみ含まれ、当該サブセットは、第２の符号化された多チャンネルオーディオ信号より少ない数のチャンネルを含む。

発生器は、第２の符号化された多チャンネルオーディオ信号のオーディオ源を表す符号化されたオーディオデータのチャンネル数を削減する。具体的には、発生器は、第２の符号化された多チャンネルオーディオ信号のチャンネルのうちの１つ以上のチャンネルを切り捨てる。

第２の符号化された多チャンネル信号は、通常、第１の符号化された多チャンネル信号とは異なる。

本発明の任意選択的なフィーチャによれば、発生器は、第２の符号化された多チャンネル信号の単一のチャンネルからオーディオ符号化データを選択することによって、符号化された更なるオーディオ信号の第１のチャンネルを生成する。

これは、実施を容易にし、複雑さを低減し、及び／又は、計算リソースを削減する。具体的には、これにより、オーディオデータの複雑度の低い抽出／選択が可能となり、また、符号化データの任意の処理を不要にする。発生器は、符号化された更なるオーディオ信号を生成する際、単一のチャンネルのみからの符号化データを選択し、第２の符号化された多チャンネルオーディオ信号の他のチャンネルはすべて無視するか切り捨てる。

第１のチャンネルは、第２の符号化された多チャンネルオーディオ信号の単一のチャンネルのみからの符号化データを含む。

本発明の任意選択的なフィーチャによれば、符号化された更なるオーディオ信号は、多チャンネル信号であり、発生器は、第３の符号化された多チャンネル信号の単一のチャンネルからオーディオ符号化データを選択することによって、符号化された更なるオーディオ信号の第２のチャンネルを生成する。

符号化された更なるオーディオ信号は、複数の符号化された多チャンネル信号からの符号化データを含む。具体的には、符号化された更なるオーディオ信号は、第１の符号化された多チャンネル信号と同数のチャンネルを有するが、チャンネルのサブセットは、異なる符号化された多チャンネル信号から選択される多チャンネル信号である。

更なるデコーダは、多チャンネルデコーダであり、様々な符号化された多チャンネル信号からのチャンネルを含む符号化された更なるオーディオ信号の単一の多チャンネル復号化を行う。したがって、単一の多チャンネル復号化は、複数の受け取られた符号化された多チャンネル信号からのオーディオを同時に復号化する。更なるデコーダは、第１の符号化された多チャンネル信号を復号化するために使用される多チャンネルデコーダと同じでもよい。

本発明の任意選択的なフィーチャによれば、符号化された更なるオーディオ信号の単一のチャンネルの符号化されたオーディオデータは、第２の符号化された多チャンネル信号の単一のチャンネルの符号化されたオーディオデータと同一である。

これにより、特に効率的で、かつ、通常は、低複雑度で、及び／又は、低計算リソースの実施が可能となる。幾つかの実施形態では、符号化された更なるオーディオ信号の単一のチャンネルは、単に、第２の符号化された多チャンネル信号の単一のチャンネルからすべてのオーディオ符号化データをコピーすることによって生成される。

本発明の任意選択的なフィーチャによれば、第２の符号化された多チャンネル信号の単一のチャンネルは、中央−側方ステレオ信号用の中央チャンネル、左右ステレオ信号用の左チャンネル、及び左右ステレオ信号用の右チャンネルのうちの少なくとも１つである。

これは、特に有利な動作、性能及び／又は実施を提供する。具体的には、これにより、低複雑度及びリソース要件の低い実施が可能にされる一方で、非常に有利なユーザ経験が提供される。

本発明の任意選択的なフィーチャによれば、符号化された更なるオーディオ信号は、モノ信号である。

本発明の任意選択的なフィーチャによれば、符号化された更なるオーディオ信号は、複数の符号化された多チャンネルオーディオ信号のうちの様々な符号化された多チャンネルオーディオ信号からのオーディオ符号化データを含む様々なチャンネルを有する多チャンネル信号である。

これは、特に有利な動作、性能及び／又は実施を提供する。具体的には、これにより、低複雑度及びリソース要件の低い実施が可能にされる一方で、非常に有利なユーザ経験が提供される。このアプローチは、多くのシナリオにおいて、複数の様々な音源に対応するオーディオを同時に復号化する多チャンネルデコーダを使用することによって特に効率的な動作を可能にする。

本発明の任意選択的なフィーチャによれば、符号化された更なるオーディオ信号の各チャンネルは、様々な符号化された多チャンネルオーディオ信号のうちの１つの信号の１つのチャンネルに対応する。

これにより、特に効率的な実施が可能となる。

本発明の任意選択的なフィーチャによれば、発生器は、複数の符号化された多チャンネルオーディオ信号から符号化された更なるオーディオ信号の１つのチャンネル用のオーディオ符号化データを選択する。

これにより、効率的な実施が可能となり、また、具体的には、多くのシナリオにおいて、必要とされる復号化計算要件を実質的に低減される。符号化された更なるオーディオ信号の単一のチャンネルが、様々な符号化された多チャンネルオーディオ信号からの２つ（以上）のチャンネルから符号化データを選択することによって生成される。符号化データの当該選択は、例えば連続する符号化セグメントにおいて２つの符号化された多チャンネルオーディオ信号間で交互に行われてもよい。幾つかのシナリオでは、複数の符号化された多チャンネルオーディオ信号のチャンネルのうちの少なくとも１つのチャンネルのオーディオ符号化データの特徴に依存する選択といったより複雑な選択が適用される。例えば最も強い信号に対応する符号化データが選択される。

本発明の任意選択的なフィーチャによれば、発生器は、符号化された更なるオーディオ信号の符号化されたオーディオデータに対応するように第２の符号化された多チャンネルオーディオ信号の符号化制御データを変更することによって、符号化された更なるオーディオ信号用の符号化制御データを生成する。

これは、動作を容易にし、また、標準的なデコーダ機能といった標準的な機器が符号化された更なるオーディオ信号を処理できるようにする。例えばデータ転送速度を示すヘッダ情報が、オリジナルの符号化された多チャンネルオーディオ信号のデータから、符号化された更なるオーディオ信号を生成する際のオーディオ符号化データの選択を反映する値に変更される。例えばオリジナルの符号化された多チャンネルオーディオ信号は、中央−側方信号であり、符号化された更なるオーディオ信号はステレオ信号として生成され、各信号は、２つの異なる符号化された多チャンネルオーディオ信号の中央チャンネルの符号化データを含む。この場合、符号化された更なるオーディオ信号のデータ転送速度は、２つの中央−側方の符号化された多チャンネルオーディオ信号よりも高く、ヘッダデータは、これを反映するように変更される。

本発明の任意選択的なフィーチャによれば、オーディオ信号プロセッサは、ユーザ入力を受け取るユーザインターフェースと、仮想ユーザ位置と、複数の符号化された多チャンネルオーディオ信号に関連付けられた仮想空間音源位置とを表す空間モデルとを更に含み、発生器は、空間モデルに呼応して、第１の符号化された多チャンネル信号と、第２の符号化された多チャンネルオーディオ信号とを選択する。

これにより、複雑度は低い状態で非常に魅力的なユーザ経験が提供される。具体的には、復号化に必要とされる複雑度は低いため、より多くの仮想音源位置がモデルにレンダリングされ、これにより、ユーザ経験が向上される。

幾つかの実施形態では、ユーザインターフェースは、空間モデルの表現を提示するディスプレイを含む。

本発明の任意選択的なフィーチャによれば、合成器は、空間モデルに呼応して、少なくとも復号化された更なるオーディオ信号に空間処理を適用する。

これは、モデルの空間表現が聴覚的に提供されることで非常に有利なユーザ経験を提供する。

具体的には、ユーザインターフェースが、空間モデルの表現を提示するディスプレイを含む場合、音声と視覚とが組み合わされた空間ユーザ経験が提供される。更に、これは、同時に空間レンダリングされるべきすべての音源のフル復号化を必要とすることなく達成される。したがって、符号化された更なるオーディオ信号の生成は、復号化の複雑度及びリソース使用量を低減するだけでなく、空間レンダリングを容易にし、かつその複雑度及びリソース使用量も低減する。

本発明の任意選択的なフィーチャによれば、復号化された更なるオーディオ信号は、多チャンネル信号であり、空間処理は、空間モデルの様々な仮想空間音源位置に対応するように復号化された更なるオーディオ信号の様々なチャンネルを空間処理することを含む。

本発明の任意選択的なフィーチャによれば、発生合成器は、仮想ユーザ位置と、第２の符号化された多チャンネルオーディオ信号に関連付けられた仮想空間音源位置との距離に呼応して、第２の符号化された多チャンネルオーディオ信号を選択する。

本発明の一態様によれば、オーディオ信号を処理する方法であって、複数の符号化された多チャンネルオーディオ信号を受け取るステップと、第１の復号化された多チャンネル信号を生成するように、第１の符号化された多チャンネル信号を復号化するステップと、複数の符号化された多チャンネルオーディオ信号のうちの少なくとも第２の符号化された多チャンネルオーディオ信号からオーディオ符号化データを、第２の符号化された多チャンネルオーディオ信号からのオーディオ符号化データを含む符号化された更なるオーディオ信号のチャンネル数が、第２の符号化された多チャンネル信号におけるチャンネル数より少ないように選択することによって、符号化された更なるオーディオ信号を生成するステップと、符号化された更なるオーディオ信号を復号化することによって復号化された更なるオーディオ信号を生成するステップと、多チャンネル出力信号を生成するように、少なくとも第１の復号化された多チャンネル信号と復号化された更なるオーディオ信号とを合成するステップと、を含む方法が提供される。

本発明のこれらの及び他の態様、フィーチャ及び利点は、以下に説明される実施形態を参照して明らかとなろう。

本発明の実施形態をほんの一例として図面を参照して以下に説明する。

図１は、本発明の幾つかの実施形態によるオーディオ信号プロセッサの構成要素の一例を示す。図２は、本発明の幾つかの実施形態によるオーディオ信号プロセッサ用の信号合成器の構成要素の一例を示す。図３は、本発明の幾つかの実施形態によるオーディオ信号プロセッサの構成要素の一例を示す。図４は、オーディオアイテムのコレクションの空間モデルの視覚的表現の一例を示す。

以下の説明では、ポータブルオーディオプレイヤといったオーディオプレイヤによるステレオオーディオアイテムのレンダリングに適用可能な本発明の実施形態に重点を置く。しかし、当然ながら、本発明はこの用途に限られず、多くの他のオーディオ信号及びシステムにも適用される。

図１は、本発明の幾つかの実施形態によるオーディオ信号プロセッサの一例を示す。

図１のオーディオ信号プロセッサは、特に、複数の音源に対応する複数の符号化された多チャンネル信号を処理する。具体的には、複数の符号化された入力多チャンネル信号からのオーディオ成分を含む出力信号が生成される。符号化された多チャンネルオーディオ信号のそれぞれは、１つの符号化されたオーディオファイル（例えばＭＰ３符号化された曲）といった１つのオーディオアイテム又はエンティティである。

具体例では、様々な音源／オーディオアイテムが、結果として得られる信号におけるそれらの空間特性に基づいて分化されるように、空間処理が更に導入される。例えば様々な曲が、それらが様々な方向から発生していると知覚されるようにレンダリングされる。

したがって、図１のシステムでは、聴取者が複数の同時音源を有するリスニング環境を知覚するように、複数の入力信号から、複合出力信号が生成される。例えば多数の例えばＭＰ３符号化された曲が同時に提示される。したがって、聴取者には複数の同時オーディオアイテムが提供される。

従来では、同時多チャンネル信号のレンダリングは、すべての多チャンネル信号を、後続の、復号化された多チャンネル信号のチャンネル毎のミキシングで復号化することにより達成される。例えば受信した２つの符号化されたステレオ信号を同時レンダリングする場合、通常、復号化されたステレオ信号を生成するために、２つのステレオデコーダが使用される。次に、左出力チャンネルを生成するために、２つの復号化された左チャンネルがミキシングされる。同様に、右出力チャンネルを生成するために、２つの復号化された右チャンネルがミキシングされる。しかし、このようなアプローチは、計算要件が高く、また、比較的複雑である。実際に、多くの用途において、恐らく３又は４つの同時にレンダリングされる音源／オーディオアイテムを有することが望ましいため、３又は４つの同時多チャンネルデコーダが必要となる。しかし、付随する計算要件は、通常、例えばポータブル媒体又はオーディオプレイヤといった例えばポータブル用途で通常利用可能な計算要件よりも実質的に高い。実際に、このようなデバイスでは、通常、同時に動作可能なデコーダの数に制限（例えば３）がある。

発明者は、複数の多チャンネル音源が聴取者に同時に提示される多くの用途において、主音源をフル多チャンネルレンダリングで提供する一方で、他の音源は、チャンネル数を少なくしてレンダリングされること、具体的には、多くのシナリオにおいて、モノ信号としてレンダリングされることが許容される又は有利であることに気が付いた。図１のシステムは、この事実を、当該出力信号を生成する特定のアプローチと併せて利用し、複雑度及び計算リソースを実質的に低減する。具体的には、図１のシステムは、入力された多チャンネル信号の１つ（以上）をフル多チャンネル信号としてレンダリングされるように選択し、これには、フル多チャンネル復号化及び適切な処理の適用が含まれる。しかし、その他の多チャンネル信号については、復号化の前に、当該多チャンネル信号のオーディオ符号化データを直接操作することによって、チャンネル数の削減が行われる。結果として得られる符号化されたチャンネルのみが次に復号化される。通常、復号化に関連付けられる複雑度及びリソース要件が全体の複雑度及びリソース使用量に最も大きな影響を及ぼす要因の１つであるため、上記は、全体の複雑度及び計算リソース使用量にかなり大幅な低減をもたらす。

図１のオーディオ信号プロセッサは、複数の符号化された多チャンネルオーディオ信号を受け取る受信器１０１を含む。したがって、多数の入力信号が受け取られ、各入力信号は、１つの音源を表す多チャンネル信号である。本実施例では、各入力信号は、個別のオーディオアイテム、具体的には、曲といったオーディオファイルである。本実施例では、入力信号は、別個の、且つ、非関連の音源を表す。したがって、各入力信号は、その他の入力信号の音ステージ又は環境とは無関係の音ステージ又は環境を表す。したがって、入力信号間には、空間的、オーディオ的及び／又は知覚的相関関係はないが、これらの入力信号は、どの他の入力信号も考慮することなく、個別にレンダリングされる。

更に、各入力信号は、適切な符号化標準又はアルゴリズムに従って符号化される。例えばデータは、ＭＰ３、ＡＡＣ等の符号化に従って符号化される。具体的には、符号化は多チャンネルオーディオ信号の損失が伴う知覚符号化である。

入力された多チャンネル信号は、ステレオ信号であるか、又は、例えば５若しくは７チャンネルサラウンド信号の場合は、より多くのチャンネルを含む。以下の説明では、入力信号がステレオ信号である例に重点を置くが、当然ながら、説明される原理及びアプローチは、より多くのチャンネルを有する入力信号にも同等に適用される。

本実施例では、入力信号は、具体的には、ＭＰ３又はＡＡＣ符号化された曲といった多数の符号化されたオーディオファイルを記憶した内部の記憶媒体から受け取られる。本実施例における受信器１０１は、記憶媒体からオーディオファイルを抽出する機能を有する。当該記憶媒体は、例えばハードディスク又は半永久メモリである。記憶媒体からのファイルの抽出は、適切なユーザインターフェースを介して受け取られるユーザ選択によって制御される。

別の例として、入力信号は、例えばインターネット上のソースからストリーミングされるか、又は、デジタルラジオ放送を介して受け取られるリアルタイム信号である。入力信号は更に、同じソースから受け取られても、例えば別個の独立したソースから受け取られてもよい。

受信器１０１は選択器１０３に結合され、選択器１０３には、受け取られた（当該具体例では抽出された）符号化された多チャンネル信号が供給される。図１のシステムは、入力された符号化された多チャンネル信号のうちの１つがフル多チャンネル信号として含まれる一方で、その他の符号化された多チャンネル信号がチャンネル削減信号として含まれる多チャンネル出力信号を生成する。したがって、Ｎ個のチャンネルを有する１つの入力符号化された多チャンネル信号（以下、一次信号と呼ぶ）について、出力信号は、Ｎ個すべてのチャンネルを含む。しかし、残りの符号化された多チャンネル信号については、出力信号には、Ｍ個のチャンネル表現のみが含まれる。ここで、Ｍ＜Ｎである。具体例では、符号化された多チャンネル信号は、符号化されたステレオ信号であり、オーディオ信号プロセッサは、入力信号のうちの１つがステレオ信号として提供される一方で、その他の信号はモノ信号としてのみ含まれる出力ステレオ信号を生成する。

具体的には、選択器１０３は１つの一次信号を選択する。残りの符号化された多チャンネル信号は、以下、二次信号と呼ぶ。

選択器１０３は、多チャンネルデコーダ１０５に結合され、多チャンネルデコーダ１０５には符号化された一次信号が供給される。多チャンネルデコーダ１０５は、一次符号化済み多チャンネル信号を復号化して、一次復号化済み多チャンネル信号を生成する。具体例では、符号化された一次信号はステレオ信号であり、多チャンネルデコーダ１０５は、復号化されたステレオ信号を生成するステレオデコーダである。

多チャンネルデコーダ１０５は、出力プロセッサ１０７に結合され、出力プロセッサ１０７は、一次復号化済み多チャンネル信号を含む多チャンネル出力信号を生成する。

選択器１０３は更に、発生器１０９に結合され、発生器１０９には二次符号化済み多チャンネル信号が供給される。発生器１０９は、二次符号化済み多チャンネル信号のうちの１つ以上の信号からオーディオ符号化データを選択することによって、少なくとも１つのチャンネルが削減された符号化されたオーディオ信号を生成する。チャンネルが削減された符号化されたオーディオ信号は、二次符号化済み多チャンネル信号のうちの１つ以上の信号のオーディオ符号化データから生成される。しかし、チャンネルが削減された符号化されたオーディオ信号におけるチャンネル数は、チャンネルが削減された符号化された多チャンネル信号を生成するために使用される二次符号化済み多チャンネル信号のチャンネルの合計よりも少ない。したがって、チャンネルが削減された符号化された多チャンネル信号に含まれる二次符号化済み多チャンネル信号のうち少なくとも１つの信号につき、チャンネル数は削減される。

したがって、発生器１０９は、二次符号化済み多チャンネル信号からのオーディオ信号を表すために使用されるチャンネル数を減らす。更に、この削減は、二次符号化済み多チャンネル信号の符号化データからのオーディオ符号化データの選択によって達成される。したがって、チャンネルが削減された符号化されたオーディオ信号を生成するために単純なデータ移動、選択、及び組み合わせ演算が使用され、基礎となるオーディオ信号の復号化又は他の処理は必要としない。したがって、複雑でなく、多くのリソース要件を必要とすることなく、チャンネルを削減できる。

発生器は、第２のデコーダ１１１に結合され、第２のデコーダ１１１にはチャンネルが削減された符号化されたオーディオ信号が供給される。第２のデコーダは、以下、二次復号化済み信号と呼ぶチャンネルが削減された復号化された多チャンネル信号を生成するように、チャンネルが削減された符号化されたオーディオ信号を復号化し始める。

第２のデコーダ１１１は、出力プロセッサ１０７に結合され、出力プロセッサ１０７には二次復号化済み信号が供給される。出力プロセッサ１０７は、当該二次復号化済み信号を、多チャンネル出力信号に含める。したがって、多チャンネル出力信号は、復号化された一次信号と復号化された二次信号との組み合わせとして生成される。

複雑度の低い例として、出力プロセッサ１０７は、復号化された一次信号と、復号化された二次信号とのオーディオミキシングを単に行ってもよい。例えば復号化された一次信号の１つのチャンネルが、復号化された二次信号の１つのチャンネルとミキシングされる。二次信号が多チャンネル信号である場合、復号化されたオーディオ信号の各チャンネルが復号化された一次信号の１つのチャンネルとミキシングされるように、すべてのチャンネルについて、ミキシングは繰り返される。

したがって、出力プロセッサ１０７は、フル多チャンネル信号として表現される一次オーディオ源と、チャンネル削減信号として表現される１つ以上の二次オーディオ源とを含む多チャンネル出力信号を生成する。具体例として、１つの一次ステレオ入力源が、フルステレオ表現として表現される一方で、２つの二次ステレオ入力源が、２つのモノ表現として同時に表現される。本実施例では、２つの二次源は、左右の耳には、それぞれ、局在するように知覚される一方で、一次信号は、音ステージ全体を占める。

幾つかの実施形態では、出力回路１０７は、多チャンネル信号のオーディオ信号をレンダリングする適切な手段を駆動可能な多チャンネル信号を直接生成する。例えば出力回路１０７は、一対のヘッドホンを駆動するステレオ信号を直接生成しても、例えば５チャンネルサラウンドサウンドシステムの様々なスピーカ用の５つの空間チャンネルを生成してもよい。その他のシナリオでは、出力回路１０７は、他の機能、デバイス又は機器による処理及びレンダリングのための信号を単に生成する。実際に、幾つかの実施形態では、出力回路１０７は、出力多チャンネル信号を符号化し、これにより、出力多チャンネル信号が容易に通信、分配又は記憶されるようにする機能を含む。

本発明の発明者は、特に、複数のオーディオ源を同時にレンダリングする一方で、複雑度及びリソース要件を低減することによって、魅力的なユーザ経験が達成可能であることに気が付いた。具体的には、発明者は、１つの音源（又は音源のサブセット）をフル多チャンネル表現に維持する一方で、他の音源の多チャンネル性を低減することによって、魅力的なユーザ経験が達成可能であることに気が付いた。このことは、例えば一次音源を二次音源に対して強調する魅力的なユーザ経験を提供するだけでなく、複雑度を低減するためにも利用できる。実際に、発明者は、オーディオ符号化データの選択に基づく二次信号の符号化領域（予備復号化）チャンネル削減を、特定のレンダリングアプローチに活かすことによって、複雑度／計算負荷を大幅に低減することができることに気が付いた。具体的には、システムは、信号の復号化に必要なリソースを低減する。復号化演算の計算要件は、大抵の場合、オーディオ処理ユニット（特に、ポータブルオーディオプレイヤといった低リソースデバイス）には支配的なリソース負荷であるため、多くの場合、システムの全負荷が、全体として、実質的に低減される。

多くのシナリオにおける発生器１０９のチャンネル削減は、二次符号化済み多チャンネル信号のうちの１つの信号のチャンネルのうちの１つのチャンネルのオーディオデータを含むように、チャンネルが削減された符号化されたオーディオ信号のチャンネルを生成することを含む。したがって、幾つかの実施形態では、発生器１０９は、単に、１つの二次符号化済み多チャンネル信号の単一のチャンネルのすべてのオーディオ符号化データを選択し、それを、チャンネルが削減された符号化されたオーディオ信号の単一のチャンネルに含める。したがって、簡単なビット選択を使用して、チャンネルが削減された符号化されたオーディオ信号を生成できる。

単一のチャンネルは、コンテンツにおけるオリジナルのオーディオチャンネルのうちの１つ、又は、オーディオコーダのタイプに依存して、これらの幾つかの線形結合（linear combination）を表す。例えば一般的なステレオオーディオコーダは、オリジナルの左右の信号の代わりに、左右の入力オーディオチャンネルの和及び差信号を符号化する。この場合、発生器１０９は、例えば和信号のみを選択する。

したがって、幾つかの実施形態では、チャンネルが削減された符号化されたオーディオ信号の１つのチャンネルは、二次符号化済み多チャンネル信号のうちの１つの信号の単一のチャンネルと同一の符号化されたオーディオデータを含む。チャンネルが削減された符号化されたオーディオ信号は、１つ以上の二次符号化済み多チャンネル信号からの単純なチャンネル選択によって生成される。このチャンネル選択は、利用可能なチャンネルのサブセットを選択し、幾つかのチャンネルを切り捨て、これにより、チャンネルの全体的な削減がもたらされる。

当然ながら、チャンネルが削減された符号化されたオーディオ信号の符号化されたオーディオデータが、二次符号化済み多チャンネル信号の１つ以上のチャンネルからオーディオ符号化データを取ることにより単に選択される実施形態では、オーバーヘッドデータ、コントロールデータ、フォーマットデータ等といった他のデータは、変更される（又は、転送されない。即ち、新しいデータが生成される）。したがって、幾つかの実施形態では、基礎となるオーディオ信号を記述する符号化されたオーディオデータのみが抽出される一方で、オーバーヘッドデータは、チャンネルが削減された符号化されたオーディオ信号には転送されないか、又は、その過程で変更される。

具体例として、発生器１０９は、単一の二次符号化済み多チャンネル信号を受け取り、当該二次符号化済み多チャンネル信号のチャンネルのうちの１つのチャンネルを単に選択することによって、モノ信号を生成し始める。具体的には、二次符号化済み多チャンネル信号は、ステレオ信号であり、発生器は、当該ステレオ信号を、その信号の１つのチャンネルを選択することによって、モノ信号に下げる。

具体的には、二次符号化済み多チャンネル信号は、中央−側方（mid-side）信号として符号化されるステレオ信号であり、発生器１０９は、中央チャンネル（mid-channel）を選択することによって、モノ符号化されたオーディオ信号を生成する。これにより、非空間オーディオ情報のほとんどを含み、したがって、許容できない情報損失なくモノ信号としてレンダリングするのに特に適しているモノ信号がもたらされる。

二次符号化済み多チャンネル信号が、左右信号として符号化されたステレオ信号であるシナリオにおいて、発生器１０９は、左チャンネル及び右チャンネルのどちらかを選択することによってモノ符号化されたオーディオ信号を生成する。これは、ランダムに、又は、信号の特性に基づいて行われる。例えば最大平均振幅を有する信号が選択される。

したがって、幾つかの実施形態では、発生器１０９は、二次符号化済み多チャンネル信号のうちの１つの信号のチャンネルを単に選択し、符号化されたモノ信号が生成される。当該信号は次にモノデコーダによって復号化され、復号化されたモノ信号が生成される。当該復号化されたモノ信号は、一次復号化済み多チャンネル信号と合成される。したがって、デコーダ１１１は、単純なモノデコーダであってよい。モノデコーダの複雑度及びリソース使用量は、ステレオデコーダを含む多チャンネルエンコーダよりも実質的に低いので、複雑度及びパワーが極めて大幅に低減される。

このアプローチは更に、単一の二次符号化済み多チャンネル信号に限られない。むしろ、複数の二次符号化済み多チャンネル信号が、個別に、符号化されたモノ信号に変換される。符号化されたモノ信号のぞれぞれは、個別に復号化され、復号化されたモノ信号が生成される。複数の復号化されたモノ信号は、次に、一次復号化済み多チャンネル信号とミキシングされる。

具体例として、３つの符号化されたステレオ信号が同時にレンダリングされる。１つのステレオ信号が、ステレオ信号として復号化され、ステレオ信号としてレンダリングされる。２つの他のステレオ信号については、当該信号を符号化されたモノ信号に下げるために、符号化された領域チャンネル削減が行われる。モノエンコーダは、これらの信号を復号化し、結果として得られる復号化された信号は、それぞれ、左右の出力チャンネルに追加される。したがって、ユーザの各耳には、１つのフルメインステレオ信号と１つのモノ信号が合わされた同時レンダリングが提示される。

幾つかの実施形態では、チャンネルが削減された符号化されたオーディオ信号は、複数の符号化された多チャンネル信号からの貢献を含むように生成される。具体的には、チャンネルが削減された符号化されたオーディオ信号自体は、複数の二次符号化済み多チャンネル信号から生成された多チャンネル信号である。具体的には、チャンネルが削減された符号化されたオーディオ信号の各チャンネルは、１つの二次符号化済み多チャンネル信号からの１つのチャンネルを選択することによって生成される。例えば発生器１０９は、上述したように２つのモノ信号を生成するのではなく、１つの二次符号化済み多チャンネル信号から１つのチャンネルを、異なる符号化された多チャンネル信号から１つのチャンネルを選択することによって、符号化されたステレオ信号を生成する。結果としてられるステレオ信号は、次に、ステレオデコーダ（即ち、第２のデコーダ１１１はステレオデコーダである）によって復号化される。具体的には、多チャンネルデコーダ１０５及び第２のデコーダ１１１は、一次多チャンネル信号とチャンネルが削減された符号化されたオーディオ信号とを連続して復号化する同じデコーダとして実施される。結果として得られる復号化された二次ステレオ信号は、次に、一次復号化済みステレオ信号と、例えば単に２つのステレオ信号を合計することによって、ミキシングされる。

幾つかの実施形態では、チャンネルが削減された符号化されたオーディオ信号は、したがって、発生器１０９が、二次符号化済み多チャンネル信号のうちの１つの信号の１つのチャンネルからオーディオ符号化データを選択することによって第１のチャンネルを、二次符号化済み多チャンネル信号のうちの別の信号の１つのチャンネルからオーディオ符号化データを選択することによって第２のチャンネルを生成することによって作成された多チャンネル信号である。

より具体的には、２つの中央−側方符号化された信号の中央信号（mid signals）（即ち、オリジナルのステレオアイテムにおける左右のチャンネルの合計）の符号化された表現は、単一のステレオ信号の２つのチャンネルに含まれる。このオーディオ符号化データは、例えばブランデンブルク（Brandenburg）、Ｋ．による「｛ＩＳＯ−ＭＰＥＧ−１｝オーディオ：高品質デジタルオーディオの符号化のための共通標準（A Generic Standard for Coding of High-Quality Digital Audio）」（ジャーナル・オブ・ザ・オーディオエンジニアリング・ソサイティ（Journal of the Audio Engineering Society）、１９９４年、４２号：７８０〜７９２頁、ＭＰＥＧ−ＩレイヤＩＩＩ符号化（ＭＰ３）データの場合）にＭＰ３について説明されるような適切なデータヘッダ及び／又は及び符号化されたビットストリームの各定義によって示されるように、信号のステレオビットストリームの一部として記憶される。

次に、２つの入力オーディオ信号からの中央チャンネルデータストリームのオーディオ符号化データは、チャンネルが削減された符号化されたオーディオ信号を表す新しいビットストリームコンテナの左右のデータフィールドに付加される。入力信号が中央−側方符号化されておらず、左右符号化されている場合、発生器１０９は、代わりに、各入力ビットストリームから左又は右チャンネルのどちらかからのオーディオ符号化データを単に選択する。

幾つかの実施形態では、発生器１０９は更に、符号化された更なるオーディオ信号の符号化されたオーディオデータに対応するように二次符号化済み多チャンネルオーディオ信号の符号化制御データを変更する。符号化制御データは、基礎となるオーディオ信号を表すのではなくチャンネルが削減された符号化されたオーディオ信号自体の特徴を定義するオーバーヘッドデータである。符号化制御データは、例えば（例えばビットストリーム中の様々なデータの位置を定義するデータといった）メタデータ、データ転送速度、使用されるオプション等である。

具体例として、２つの中央−側方ステレオ信号のうちの２つの中央信号の符号化データ転送速度は、通常、２つの中央−側方ステレオ信号のそれぞれのデータ転送速度より相当に高い。これは、中央チャンネルのデータ転送速度は、通常、側方チャンネルよりも相当に高いからである。したがって、発生器は、現在のデータ転送速度を示すチャンネルが削減された符号化されたビットストリームのデータを、チャンネルが削減された符号化されたオーディオ信号の結果として得られるデータ転送速度に対応するように変更（設定）する。

したがって、チャンネルが削減された符号化されたオーディオ信号は、オーディオ符号化標準に従って符号化されたオーディオ信号に対応するように生成される。当該オーディオ符号化標準は、具体的には、入力された符号化された多チャンネル信号と同じ符号化標準である。これにより、チャンネルが削減された符号化されたオーディオ信号は任意の他の符号化されたオーディオ信号のように取り扱われ、また、特に、標準デコーダが第２のデコーダ１１１として使用される。

幾つかの実施形態では、発生器１０９は、複数の符号化された多チャンネルオーディオ信号からの符号化された更なるオーディオ信号の１つのチャンネルに対し、符号化データを選択する。したがって、幾つかの実施形態では、チャンネルが削減された符号化されたオーディオ信号の単一のチャンネルは、２つ以上の二次符号化済み多チャンネル信号からのオーディオ符号化データを合成することによって生成される。含めるべきオーディオ符号化データの選択は、時間及び／又は周波数セグメントにおいて行われ、当該選択は、各セグメントにおけるオーディオ符号化データの特徴に基づく。

具体的には、２つ以上の二次オーディオ信号のそれぞれのチャンネルは、発生器１０９によって、チャンネルが削減されたオーディオストリームの単一のチャンネルへとそれらの符号化表現において合成される。これは、個々のビットストリームのオーディオ符号化データを、共通のビットストリームへコピーする演算として行われる。１つの可能な実施形態では、合成は、各符号化されたサブバンド（符号化されたビットストリームにおけるスケールファクタバンド係数の値によって表される）における信号のエネルギーが、どの入力オーディオ信号が新しいビットストリームに入れるのかを決定するために使用されるように行われる。

幾つかの実施形態では、オーディオ信号プロセッサは、復号化されたオーディオ信号のうちの少なくとも１つの信号に空間処理を適用する機能を含む。空間処理は、通常、復号化されたオーディオ信号が互いにミキシングされる前に、当該復号化されたオーディオ信号に適用される。空間処理は、ユーザによって知覚された場合に、様々なチャンネルを様々な位置に知覚的に位置付けるように適用される。

図２は、二次音源用に空間処理を行う図１の合成器１０７の一例を示す。本実施例では、復号化された一次オーディオ信号（ｙ_１、ｙ_２）は、空間処理されていないが、ミキサ２０１に直接供給される。ミキサ２０１は、加重和（又は単に加重）の形式でミキシングを行う。復号化された一次オーディオ信号（ｙ_１、ｙ_２）は、ステレオ出力信号（ｏ_１、ｏ_２）に直接含められ、したがって、ユーザには、オリジナルの符号化されたステレオ信号の空間的ステレオ経験が提供される。

しかし、本実施例では、二次復号化済みオーディオ信号（ｘ_１、ｘ_２）の各チャンネルは、これらのチャンネルがオーディオシーンにおいて所与の位置から発生するものと知覚されるように空間処理される。空間処理は変更されてもよく、これにより、合成器１０７は、知覚される単一点のモノ音源を所望の位置に動かすことができる。

本実施例では、出力信号は、ヘッドホンを使用してレンダリングされ、また、２つの二次オーディオ源のみがレンダリングされる。合成器１０７は、復号化された二次オーディオ信号の１つのチャンネルを受け取る第１の空間プロセッサ２０３と、復号化された二次オーディオ信号の別のチャンネルを受け取る第２の空間プロセッサ２０５とを含む。空間プロセッサ２０３及び２０５は、具体的には、頭部伝達関数（ＨＲＴＦ）を様々なチャンネルに適用し、結果として、所与の位置から発生するものと知覚される出力信号がもたらされる。したがって、各空間プロセッサ２０３、２０５は、オーディオ源の所望の位置に対応するステレオ出力信号を生成する。これらのステレオ出力信号は、ミキサ２０１に供給される。ミキサ２０１は、これらのステレオ出力信号を、一次復号化済みステレオ信号とミキシングする。したがって、ミキサ２０１の出力は、オリジナルのステレオ信号として維持された一次ステレオ信号を含み、したがって、より広いステレオ音ステージを有する空間オーディオ信号である。更に、２つの単一点オーディオ源が、任意の所望の位置から来たものと思われるように空間的に移動可能な位置において生成される。

したがって、当該システムは、複数のオーディオ源の同時レンダリングを提供する（例えば当該システムは、複数のオーディオアイテムを同時再生できる）システムであり、オーディオアイテムのうちの１つ（又はそのサブセット）のみがフルステレオ再生でレンダリングされる。レンダリングされる他のオーディオアイテムはすべて、空間的に位置付けられ、モノ音響音源としてレンダリングされる。発明者は、このようなアプローチが多くのシナリオにおいて非常に有利なユーザ経験を提供するだけでなく、更に非常に効率的な処理も達成されることに気が付いた。実際に、当該システムは、当該見識を利用して、予備復号化チャンネル削減が行われ、これにより復号化処理の複雑度又は当該処理に使用されるリソースが低減されるシステムを更に作り出す。これは、計算及びメモリ要件、更には既存ソフトウェアブロックの効率的な再利用によるプログラムメモリ空間の相当な削減につながる。

複数の符号化された多チャンネル信号の同時レンダリングの説明したようなアプローチは、空間モデルに基づいたユーザインターフェースと共に用いられる場合に、特に有利なユーザ経験を提供する。図３は、音源の空間処理及び空間位置付けが空間モデルとそれに関連するユーザインターフェースとに依存するオーディオ処理ユニットの一例を示す。

当該オーディオ処理ユニットは、図１に記載されるものと対応するが、当該オーディオ処理ユニットは更に、仮想ユーザ位置と、符号化された多チャンネルオーディオ信号用の仮想空間音源位置とを表す空間モデル３０１を含む。更に、空間モデル３０１は、モデル（の一部）のグラフィック表現を表示するディスプレイ３０３に結合される。

本実施例では、空間モデル３０１は、適切な処理プラットフォーム上で実施され、例えばレンダリングされる可能性のあるすべてのオーディオアイテムの仮想３次元位置を含む。例えば空間モデル３０１は、符号化された曲のそれぞれの位置を適切な記憶媒体に記憶している。当該位置は、例えば曲のスタイル、ジャンル、アーティスト、曲名、長さ等の曲の特徴に基づいて決定される。

空間モデル３０１は更に、ユーザ入力に呼応して変化する仮想ユーザ位置を記録する。したがって、ユーザには、仮想空間モデル３０１においてオーディオアイテム間でユーザがあちこち移動できるユーザインターフェースが提供される。したがって、空間モデル３０１は、外部ユーザ入力を受け取るユーザ入力部３０５に接続される。ユーザ入力部３０５は、例えばディスプレイ３０３のタッチ入力部である。ディスプレイ３０３は、空間モデル内でユーザ位置が移動する際のユーザ位置の局在性のグラフィック表現を連続的に提示する。当該表現は、ユーザ位置が例えばアイコンによって表され、オーディオアイテムが別のアイコンとして表される２次元表現であってよい。

図４は、そのような表現の一例を示す。本実施例では、ユーザは、曲のコレクションをざっと見る。コレクションのうち、複数の曲は、同時に聴くことができるが、空間モデルとディスプレイ上の表現とに対応して様々な場所にレンダリングされる。本実施例では、ユーザの仮想位置は、ヘッドホンによって示され、アルバムのアイコンは、モデルに応じて、仮想ユーザ位置から「可視」であるオーディオアイテムを表す。

当該システムでは、一次符号化済み多チャンネル信号と、二次符号化済み多チャンネル信号とが、空間モデルに基づいて選択される。具体的には、一次符号化済み多チャンネル信号は、モデル内のユーザに最も近いオーディオアイテムとして選択され、二次符号化済み多チャンネル信号は、例えば２つの次に最も近いオーディオアイテムとして選択される。したがって、本実施例では、ユーザが、オーディオアイテムのうちの１つの近くに移動すると、対応するオーディオストリームが、フルステレオ再生にシームレスに変換される。同時に、その他のオーディオアイテムは、モノ信号として提示され、モデル内の相対位置に対応する位置からレンダリングされるように空間処理される。したがって、その他の付近のオーディオアイテムは、例えば背景におけるミュート信号としてレンダリングされる。これは、非常に魅力的なユーザ経験を提供し、例えば特に有利なブラウジング経験を提供する。

具体的には、空間レンダリングは、二次復号化済みオーディオ信号の様々なチャンネルに、様々な空間処理を適用する。特に、二次復号化済みオーディオ信号が、様々な入力オーディオ源に対応する様々なチャンネルを有するステレオ信号である本実施例では、１つのチャンネルの空間処理は、対応するオーディオアイテムの相対仮想位置に対応する一方で、その他のチャンネルの空間処理は、その他のオーディオアイテムの相対仮想位置に対応する。

当然ながら、明確とするための上記説明は、様々な機能回路、ユニット、及びプロセッサを参照して本発明の実施形態を説明している。しかし、本発明から逸脱することなく、様々な機能回路、ユニット又はプロセッサ間での機能の任意の適切な分散を使用できることは明らかであろう。例えば別個のプロセッサ又はコントローラによって行われるものとして説明される機能は、同じプロセッサ又はコントローラによって行われてもよい。したがって、特定の機能ユニット又は回路への参照は、厳密な論理的又は物理的構造体又は組織を示すものではなく、説明された機能を提供する適切な手段への参照としてのみ見なされる。

本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせを含む任意の適切な形式で実施される。本発明は、任意選択的に、１つ以上のデータプロセッサ及び／又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実施されてもよい。本発明の一実施形態の要素及び構成要素は、任意の適切な方法で、物理的に、機能的に、及び論理的に実施される。実際に、機能は、単一のユニットにおいて、複数のユニットにおいて、又は、他の機能ユニットの一部として実施される。したがって、本発明は、単一のユニットにおいて実施されても、様々なユニット、回路及びプロセッサ間で物理的かつ機能的に分散配置されてもよい。

本発明は、幾つかの実施形態に関連して説明してきたが、本明細書に記載される特定の形式に限定することは意図していない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。更に、ある特徴が、特定の実施形態に関連して説明されているかのように見えるが、当業者であれば、説明された実施形態の様々な特徴が、本発明に従って組み合わせることができることは認識できるであろう。特許請求の範囲において、「含む」との用語は、他の要素又はステップの存在を排除するものではない。

更に、複数の手段、要素、回路又は方法ステップが、個別に列挙されているが、これらは、例えば単一の回路、ユニット又はプロセッサによって実施される。また、個別の特徴が様々な請求項に含まれているが、これらの特徴は有利に組み合わされてもよく、また、様々な請求項における包含が、特徴の組み合わせが実現可能でない及び／又は有利ではないことを示唆するものではない。更に、１つの請求項のカテゴリにおける特徴の包含が、当該カテゴリへの限定を示唆するものではなく、むしろ、当該特徴が、他の請求項のカテゴリにも、適宜、同等に適用可能であることを示す。更に、請求項における特徴の順序も、特徴が実施されなければならない特定の順序を示唆するものではなく、また、特に、方法の請求項における個々のステップの順序は、当該ステップが当該順序で行わなければならないことを示唆するものではない。むしろ、当該ステップは、任意の適切な順序で行われてよい。なお、単数形での参照は、複数形を排除するものではない。したがって、「ａ」、「ａｎ」、「第１の」、「第２の」等への参照は、複数形を除外するものではない。請求項における参照符号は、明瞭にするための例として提供しているに過ぎず、当該請求項の範囲を限定するものとして解釈されるべきではない。

Claims

複数の符号化された多チャンネルオーディオ信号を受け取る受信器と、
前記複数の符号化された多チャンネルオーディオ信号のうちの第１の符号化された多チャンネルオーディオ信号を復号化して第１の復号化された多チャンネルオーディオ信号を生成する多チャンネルデコーダと、
前記複数の符号化された多チャンネルオーディオ信号のうちの少なくとも第２の符号化された多チャンネルオーディオ信号から符号化されたオーディオデータを、前記第２の符号化された多チャンネルオーディオ信号からの前記符号化されたオーディオデータを含む符号化された更なるオーディオ信号のチャンネル数が、前記第２の符号化された多チャンネルオーディオ信号におけるチャンネル数より少ないように、選択することによって、前記符号化された更なるオーディオ信号を抽出する発生器と、
前記符号化された更なるオーディオ信号を復号化することによって復号化された更なるオーディオ信号を生成する更なるデコーダと、
少なくとも前記第１の復号化された多チャンネルオーディオ信号と前記復号化された更なるオーディオ信号とを合成して多チャンネル出力信号を生成する合成器と、
を含む、オーディオ信号プロセッサ。
前記発生器は、前記第２の符号化された多チャンネルオーディオ信号の単一のチャンネルから符号化されたオーディオデータを選択することによって、前記符号化された更なるオーディオ信号の第１のチャンネルを抽出する、請求項１に記載のオーディオ信号プロセッサ。
前記符号化された更なるオーディオ信号は、多チャンネル信号であり、前記発生器は、第３の符号化された多チャンネルオーディオ信号の単一のチャンネルから符号化されたオーディオデータを選択することによって、前記符号化された更なるオーディオ信号の第２のチャンネルを生成する、請求項２に記載のオーディオ信号プロセッサ。
前記符号化された更なるオーディオ信号の単一のチャンネルの符号化されたオーディオデータは、前記第２の符号化された多チャンネルオーディオ信号の前記単一のチャンネルの符号化されたオーディオデータと同一である、請求項２に記載のオーディオ信号プロセッサ。
前記第２の符号化された多チャンネルオーディオ信号の前記単一のチャンネルは、
中央−側方ステレオ信号用の中央チャンネル、
左右ステレオ信号用の左チャンネル、及び
左右ステレオ信号用の右チャンネル
のうちの少なくとも１つである、請求項２に記載のオーディオ信号プロセッサ。
前記符号化された更なるオーディオ信号は、モノ信号である、請求項１に記載のオーディオ信号プロセッサ。
前記符号化された更なるオーディオ信号は、前記複数の符号化された多チャンネルオーディオ信号のうちの様々な符号化された多チャンネルオーディオ信号からの符号化されたオーディオデータを含む様々なチャンネルを有する多チャンネル信号である、請求項１に記載のオーディオ信号プロセッサ。
前記符号化された更なるオーディオ信号の各チャンネルは、前記様々な符号化された多チャンネルオーディオ信号のうちの１つの信号の１つのチャンネルに対応する、請求項７に記載のオーディオ信号プロセッサ。
前記発生器は、前記複数の符号化された多チャンネルオーディオ信号から前記符号化された更なるオーディオ信号の１つのチャンネル用の符号化されたオーディオデータを選択する、請求項１に記載のオーディオ信号プロセッサ。
前記発生器は、前記符号化された更なるオーディオ信号の前記符号化されたオーディオデータに対応するように前記第２の符号化された多チャンネルオーディオ信号の符号化制御データを変更することによって、前記符号化された更なるオーディオ信号用の符号化制御データを抽出する、請求項１に記載のオーディオ信号プロセッサ。
ユーザ入力を受け取るユーザインターフェースと、
仮想ユーザ位置と、前記複数の符号化された多チャンネルオーディオ信号に関連付けられた仮想空間音源位置とを表す空間モデルと、
を更に含み、
前記発生器は、前記空間モデルに呼応して、前記複数の符号化された多チャンネルオーディオ信号のうちの前記第１の符号化された多チャンネルオーディオ信号と、前記第２の符号化された多チャンネルオーディオ信号とを選択する、請求項１に記載のオーディオ信号プロセッサ。
前記合成器は、前記空間モデルに呼応して、少なくとも前記復号化された更なるオーディオ信号に空間処理を適用する、請求項１１に記載のオーディオ信号プロセッサ。
前記復号化された更なるオーディオ信号は、多チャンネル信号であり、前記空間処理は、前記空間モデルの様々な仮想空間音源位置に対応するように前記復号化された更なるオーディオ信号の様々なチャンネルを空間処理することを含む、請求項１２に記載のオーディオ信号プロセッサ。
前記発生器は、前記仮想ユーザ位置と、前記第２の符号化された多チャンネルオーディオ信号に関連付けられる前記仮想空間音源位置との距離に呼応して、前記第２の符号化された多チャンネルオーディオ信号を選択する、請求項１１に記載のオーディオ信号プロセッサ。
オーディオ信号を処理する方法であって、
複数の符号化された多チャンネルオーディオ信号を受け取るステップと、
第１の復号化された多チャンネルオーディオ信号を生成するように、前記複数の符号化された多チャンネルオーディオ信号のうちの第１の符号化された多チャンネルオーディオ信号を復号化するステップと、
前記複数の符号化された多チャンネルオーディオ信号のうちの少なくとも第２の符号化された多チャンネルオーディオ信号から符号化されたオーディオデータを、前記第２の符号化された多チャンネルオーディオ信号からの前記符号化されたオーディオデータを含む符号化された更なるオーディオ信号のチャンネル数が、前記第２の符号化された多チャンネルオーディオ信号におけるチャンネル数より少ないように、選択することによって、前記符号化された更なるオーディオ信号を抽出するステップと、
前記符号化された更なるオーディオ信号を復号化することによって復号化された更なるオーディオ信号を生成するステップと、
多チャンネル出力信号を生成するように、少なくとも前記第１の復号化された多チャンネルオーディオ信号と前記復号化された更なるオーディオ信号とを合成するステップと、
を含む方法。