JP2012525051A

JP2012525051A - オーディオ信号の合成

Info

Publication number: JP2012525051A
Application number: JP2012506612A
Authority: JP
Inventors: エリクジーピーシュイエルス; アルノルドゥスダブリュジェイオオメン; ボントフランシスクスエムジェイデ; ミコラオストロフスキー; アドリアーンジェイレインベルグ; イェロエンジーエイチコッペンス
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2009-04-21
Filing date: 2010-04-14
Publication date: 2012-10-18
Also published as: EP2422344A1; TW201106343A; RU2011147119A; WO2010122455A1; KR20120006060A; US20120039477A1; CN102414743A

Abstract

オーディオ合成装置は、ダウンミックス信号と、前記ダウンミックス信号をマルチサウンドソース信号に拡張するためのパラメトリック拡張データとを有する符号化信号を受信する。分解プロセッサ２０５は、少なくとも第１の信号成分及び第２の信号成分を生成するために前記ダウンミックス信号の信号分解を実行し、前記第２の信号成分は、前記第１の信号成分に少なくとも部分的に相関する。位置プロセッサ２０７は、前記パラメトリック拡張データに応じて前記第１の信号成分に関する第１の空間的位置指標を決定し、双耳プロセッサ２１１は、前記第１の空間的位置指標に基づいて前記第１の信号成分を合成し、異なる方向から生じるように前記第２の信号成分を合成する。本発明は、仮想ラウドスピーカ位置からの信号の組み合わせよりむしろ、適切な位置からの主要方向信号の直接的な合成を用いることにより、例えばヘッドホンから向上した空間的体験を与えることができる。

Description

本発明は、オーディオ信号の合成に関し、詳細には、排他的ではないが、ヘッドホン再生用の空間サラウンドサウンドオーディオの合成に関する。

種々のソース信号のデジタル符号化は、デジタル信号の再生及び通信がアナログ再生及び通信とますます置き換えられているので、最新の復号に関してますます重要になっている。例えば、音楽又は他のオーディオ信号を効果的に符号化するための符号化規格が開発されている。

最も有名なラウドスピーカ再生システムは、予め決められた位置の２つのラウドスピーカが典型的に用いられる、２チャンネルのステレオ音響に基づいている。斯様なシステムにおいて、サウンド空間は、２つのラウドスピーカ位置から発せられる２つのチャンネルに基づいて生成され、元のステレオ信号は、ラウドスピーカが聴取者に対するこれらの予め決められた位置の近くに置かれたときに所望のサウンドステージが再現されるように、典型的に生成される。斯様な場合において、ユーザは、最適聴取場所（sweet spot）にいるものと考えられ得る。

ステレオ信号は、しばしば、振幅パンニング（amplitude panning）を用いて生成される。斯様な技術において、個々のサウンドオブジェクトは、左チャンネル及び右チャンネルのそれぞれにおける対応する信号成分の振幅を調節することにより、これらのスピーカ間のサウンドステージ内に配置され得る。それ故、中央位置に対して、各チャンネルは、同相であり３ｄＢにより減衰された信号成分を供給する。左のラウドスピーカに向かう位置に対して、左チャンネルにおける信号の振幅は増大され、右のチャンネルにおける振幅はそれに応じて減少され、右のスピーカに向かう位置に対する逆の場合も同様である。

しかしながら、斯様なステレオ再生は空間的な体験を与え得るが、これは、準最適なものになる傾向にある。例えば、サウンドの位置が２つのラウドスピーカの間に制限され、最適な空間サウンド体験が小さな聴取エリア（小さな最適聴取場所）に制限され、特定の頭の向きが（スピーカ間の中間点に向かうように）要求され、スペクトル着色（spectral coloration）がスピーカから聴取者の耳までの経路長差の変化により生じる場合があり、振幅パンニングアプローチにより与えられた音源位置特定キューは、所望の位置の音源に対応する位置特定キューの大雑把な近似値にしかならない。

ラウドスピーカの再生の状況と比較して、ヘッドホンを介して再生されたステレオオーディオコンテンツは、聴取者の頭の内部から生じているように知覚される。外部音源から聴取者の耳までの音響経路の効果がないことは、不自然な印象を与える空間イメージをもたらす。

これを克服し、ヘッドホンからの向上した空間的体験を与えるために、双耳（binaural）処理が、ヘッドホンの各耳に対して適切な信号を生成するために取り入れられている。詳細には、左のイヤホン／ヘッドホンに対する信号は、信号が（頭及び耳の形状による如何なる影響も含む）一般的なステレオ設定において受信された場合に、左及び右のそれぞれのスピーカからユーザの左耳への音響伝達関数に対応するように推定された２つのフィルタによりフィルタリングされる。また、２つのフィルタは、左及び右のそれぞれのスピーカからユーザの右耳への音響伝達関数に対応するように右のイヤホン／ヘッドホンに対する信号にも適用される。

それ故、フィルタは、信号に対する、人間の頭及び場合により他のオブジェクトの影響をモデル化する知覚伝達関数を表す。良く知られたタイプの空間的知覚伝達関数は、インパルス応答による或る音源位置から鼓膜までの伝達を記述するいわゆる頭部伝達関数（ＨＲＴＦ；Head-Related Transfer Function）である。部屋の壁、天井及び床によりもたらされる反射をも考慮する別のタイプの空間的知覚伝達関数は、双耳聴室内インパルス応答（ＢＲＩＲ；Binaural Room Impulse Response）である。特定の位置からのサウンドを合成するために、対応する信号は、２つのＨＲＴＦ（又はＢＲＩＲ）によりフィルタリングされる。即ち、これら２つの２つのＨＲＴＦ（又はＢＲＩＲ）は、推定された位置から左耳及び右耳のそれぞれへの音響伝達関数を表す。斯様な２つのＨＲＴＦ（又はＢＲＩＲ）は、典型的には、ＨＲＴＦペア（又はＢＲＩＲペア）と呼ばれる。

双耳処理は、向上した空間的体験を与えることができ、特に"頭外"３Ｄ効果を作り出すことができる。

それ故、従来の双耳ステレオ処理は、個々のステレオスピーカの仮想位置の仮定に基づいている。そして、これは、これらのラウドスピーカからの信号成分により体験される音響伝達関数をモデル化することを求める。しかしながら、斯様なアプローチは、幾つかの劣化を取り込む傾向にあり、詳細には、ラウドスピーカを用いた従来のステレオシステムの多くの欠点に悩まされる。

実際には、仮想スピーカの固定されたセットに基づくヘッドホンオーディオ再生は、前に述べられたような、固定されたラウドスピーカの実際のセットにより本質的に取り込まれた欠点に悩まされる傾向にある。一の特定の欠点は、位置特定キューが所望位置の音源の実際の位置特定キューの大雑把な近似値になる傾向にあることであり、これは、低下した空間イメージをもたらす。他の欠点は、振幅パンニングが左右方向においてのみ機能し、任意の他の方向においては機能しないことである。

双耳処理は、２つよりも多いチャンネルをもつマルチチャンネルオーディオシステムまで拡張され得る。例えば、双耳処理は、例えば５又は７の空間チャンネルを有するサラウンドサウンドシステムに対して用いられ得る。斯様な例において、ＨＲＴＦは、ユーザの２つの耳のそれぞれまでの各スピーカ位置に対して決定される。それ故、２つのＨＲＴＦは、シミュレーションされた異なる音響伝達関数に対応する多数の信号成分をもたらす各スピーカ／チャンネルに対して用いられる。これは、知覚された品質の低下をもたらす傾向にある。例えば、ＨＲＴＦ関数は、知覚される正確な伝達関数の近似値に過ぎないので、組み合わせられた多数のＨＲＴＦは、ユーザにより知覚され得る誤差を取り込む傾向にある。それ故、これらの欠点は、マルチチャンネルシステムに対して増大する傾向にある。また、このアプローチは、高度な複雑性をもち、高い計算リソースを使用する。実際には、例えば５．１又は７．１のサラウンド信号を双耳信号に変換するために、非常に多くのフィルタリングが必要とされる。

しかしながら、近年、ステレオコンテンツの仮想サラウンドレンダリングの品質がいわゆるファントムマテリアライザーション（phantom materialization）により大幅に向上され得ることが提案されている。詳細には、斯様なアプローチは、欧州特許出願第０７１１７８３０．５号明細書、並びに、J. Breebaart及びE. Schuijersによる論文"Phantom Materialization: A Novel Method to Enhance Stereo Audio Reproduction on Headphones（IEEE Transactions on Audio, Speech, and Language Processing, Vol. 16, No. 8, pp. 1503-1511, November 2008）"において提案されている。

このアプローチにおいて、仮想ステレオ信号は、仮想ラウドスピーカ位置から生じる２つの音源を想定することによっては生成されず、むしろ、サウンド信号は、方向信号成分と間接／非相関信号成分とに分解される。この分解は、詳細には、適切な時間及び周波数範囲の双方に対して行われ得る。そして、方向成分は、ファントム位置の仮想ラウドスピーカをシミュレーションすることにより合成される。間接成分は、（典型的にはサラウンドスピーカの公称位置に対応する）固定位置の仮想ラウドスピーカをシミュレーションすることにより合成される。

例えば、ステレオ信号が右に向かって言わば１０°にパンニングされた単一のサウンド成分を有する場合には、ステレオ信号は、左チャンネルにおける信号の約２倍の大きさの、右チャンネルにおける信号を有し得る。従来の双耳処理において、このサウンド成分は、それ故、左スピーカから左耳へのＨＲＴＦによりフィルタリングされた左チャンネルからの成分、右スピーカから左耳へのＨＲＴＦによりフィルタリングされた右チャンネルからの成分、及び、右スピーカから右耳へのＨＲＴＦによりフィルタリングされた右チャンネルからの成分、により表されるだろう。これに対して、ファントムマテリアライザーションのアプローチにおいて、主要成分は、サウンド成分に対応する信号成分の合計として生成され、そして、この主要成分の方向が推定され得る（即ち右に向かって１０°）。ファントムマテリアライザーションのアプローチは、更に、２つのステレオチャンネルの共通成分（主要成分）が差し引かれた後の残りの信号成分を表す１又はそれ以上の拡散又は非相関信号を生成する。それ故、この残りの信号は、例えば、部屋内の反射から生じる音、反響音、環境ノイズ等のような、サウンド環境を表し得る。そして、ファントムマテリアライザーションのアプローチは、推定された位置から、即ち右に向かって１０°の位置から直接生じるように主要成分の合成を続ける。それ故、主要成分は、２つのＨＲＴＦだけを用いて合成される。即ち、２つのＨＲＴＦは、推定された位置から左耳及び右耳のそれぞれまでの音響伝達関数を表す。そして、拡散環境信号は、他の位置から生じるように合成され得る。

ファントムマテリアライザーションのアプローチは、仮想レンダリングシーンに対してスピーカ設定の制限を課さないという利点をもち、従って、非常に向上した空間的体験を与える。特に、聴取者により知覚されるサウンドステージにおける非常に明確で良好に規定されたサウンド位置が、典型的に実現され得る。

しかしながら、ファントムマテリアライザーションのアプローチによる問題は、これがステレオシステムに制限されることである。実際には、欧州特許出願第０７１１７８３０．５号明細書は、２つよりも多くのチャンネルが存在する場合には、ファントムマテリアライザーションのアプローチが（各ラウドスピーカペアに対応する）チャンネルの各ステレオペアに対して個別に及び独立して適用されるべきである、と明確に記載している。しかしながら、斯様なアプローチは、複雑でありリソースを要求するだけでなく、低下した性能を頻繁にもたし得る。

それ故、改良されたシステムが有利であるだろう。詳細には、増大したフレキシビリティ、削減された複雑性、削減されたリソース要求、２つよりも多いチャンネルをもつマルチチャンネルシステムに対する向上した適合性、向上した品質、向上した空間ユーザ体験、及び／又は、向上した性能を可能にするシステムが有利であるだろう。

従って、本発明は、前述した１又はそれ以上の欠点を単独で又は任意の組み合わせにおいて好ましくは軽減、緩和又は除去しようとする。

本発明の一態様によれば、マルチサウンドソース信号を合成するための装置であって、当該装置は、前記マルチサウンドソース信号を表す符号化信号を受信するためのユニットを有し、前記符号化信号は、前記マルチサウンドソースに関するダウンミックス信号と、前記ダウンミックス信号を前記マルチサウンドソース信号に拡張するためのパラメトリック拡張データとを有し、当該装置は、少なくとも第１の信号成分及び第２の信号成分を生成するために前記ダウンミックス信号の信号分解を実行するための分解ユニットを有し、前記第２の信号成分は、前記第１の信号成分に少なくとも部分的に相関し、当該装置は、前記パラメトリック拡張データに応じて前記第１の信号成分に関する第１の空間的位置指標を決定するための位置ユニットと、前記第１の空間的位置指標に基づいて前記第１の信号成分を合成するための第１の合成ユニットと、前記第１の信号成分とは異なる方向から生じるように前記第２の信号成分を合成するための第２の合成ユニットとを有する、装置が提供される。

本発明は、多くの状況において向上したオーディオ性能及び／又は促進された動作を提供することができる。

詳細には、本発明は、多くの状況において、向上した及びより良く規定された空間的体験を与えることができる。詳細には、向上したサラウンドサウンド体験には、サウンドステージにおける個々のサウンド成分のより良く規定された位置の知覚が与えられ得る。本発明は、２つよりも多くのチャンネルをもつマルチチャンネルシステムに適している。更に、本発明は、促進された及び向上したサラウンドサウンド体験を可能にし、例えばＭＰＥＧサラウンド規格のような、既存のマルチチャンネル（Ｎ＞２）符号化規格との高い互換性を可能にする。

パラメトリック拡張データは、詳細には、パラメトリック空間拡張データであり得る。パラメトリック拡張データは、例えば、ダウンミックスから複数の（２よりも多い）空間サウンドチャンネルへのアップミックスを特徴付け得る。

第２の信号成分は、例えば、１又はそれ以上の固定された位置から生ずるように合成され得る。各音源は、マルチチャンネル信号のチャンネルに対応し得る。マルチサウンドソース信号は、詳細には、２よりも多いチャンネルをもつマルチチャンネル信号であり得る。

第１の信号成分は、典型的には、主要方向信号成分に対応し得る。第２の信号成分は、拡散信号成分に対応し得る。例えば、第２の信号成分は、ほとんどが、例えば反響音や部屋の反射のような環境（ambiance）オーディオ効果を表し得る。第１の信号成分は、詳細には、古典的なラウドスピーカシステムで使用される振幅パンニング技術で得られるような、ファントムソースに近い成分に対応し得る。

幾つかの実施形態において、前記の分解が、例えば更なる方向信号及び／又は拡散信号であり得る追加の信号成分を更に生成し得ることが理解されるだろう。詳細には、第３の信号成分が、第１の信号成分と少なくとも部分的に相関するように生成され得る。斯様なシステムにおいて、第２の信号成分は、右側から主に生じるように合成され得る一方で、第３の信号は、左側から主に生じるように合成され得る（逆もまた同様である）。

第１の空間的位置指標は、例えば、第１の信号成分に対応するファントムソースの３次元位置、方向、角度及び／又は距離の指標であり得る。

本発明のオプション的な特徴によれば、本装置は、ダウンミックスを時間間隔周波数帯域ブロックに分割し、各時間間隔周波数帯域ブロックを個別に処理するように構成されるユニットを更に有する。

これは、多くの実施形態において、向上した性能、促進された動作、及び／又は、削減された複雑性を提供することができる。詳細には、本特徴は、多くの既存のマルチチャンネルコーディングシステムとの向上した互換性を可能にし、要求される処理を簡素化することができる。更に、本特徴は、サウンド信号のための向上した音源ポジショニングを提供することができる。ダウンミックスは、異なる位置の複数のサウンド成分からの貢献を有する。詳細には、本アプローチは、斯様な状況に関して、各サウンド成分が、制限された数の時間間隔周波数帯域ブロックにおいてしばしば支配的であるという事実を利用し、それに応じて、本アプローチは、各サウンド成分が所望位置に自動的に配置されることを可能にする。

本発明のオプション的な特徴によれば、第１の合成ユニットは、パラメトリックＨＲＴＦを第１の信号成分の時間間隔周波数帯域ブロックに適用するように構成され、パラメトリックＨＲＴＦは、第１の空間的位置指標により表された位置に対応し、各時間間隔周波数帯域ブロックに対して設定されたパラメータ値を有する。

これは、多くの実施形態において、向上した性能、促進された動作、及び／又は、削減された複雑性を提供することができる。詳細には、本特徴は、多くの既存のマルチチャンネルコーディングシステムとの向上した互換性を可能にし、要求される処理を簡素化することができる。実質的に削減された計算リソースの使用が、典型的に達成され得る。

パラメータ設定は、例えば、各時間間隔周波数帯域ブロックの信号値に適用されるべき複素数又は出力及び角度パラメータを有し得る。

本発明のオプション的な特徴によれば、マルチサウンドソース信号が空間マルチチャンネル信号である。

本発明は、（例えば２つよりも多いチャンネルをもつ）マルチチャンネル信号の向上した及び／又は促進された合成を可能にすることができる。

本発明のオプション的な特徴によれば、位置ユニットは、マルチチャンネル信号のチャンネルに関する想定スピーカ位置及びパラメトリック拡張データのアップミックスパラメータに応じて第１の空間的位置指標を決定するように構成され、前記アップミックスパラメータは、マルチチャンネル信号をもたらすためのダウンミックスのアップミックスを示す。

これは、多くの実施形態において、向上した性能、促進された動作、及び／又は、削減された複雑性を提供することができる。詳細には、これは、位置の正確な推定をもたらす特に実際的な実装を可能にし、それ故、高品質の空間的体験をもたらす。

本発明のオプション的な特徴によれば、パラメトリック拡張データは、ダウンミックス信号からマルチチャンネル信号のチャンネルへの変換を記述し、位置ユニットは、マルチチャンネル信号のチャンネルに関する想定スピーカ位置に対する重み及び角度の組み合わせに応じて第１の空間的位置指標に対する角度方向を決定するように構成され、チャンネルに対する各重みは、ダウンミックス信号からチャンネルへの変換の利得に依存する。

これは、第１の信号の位置推定の特に有利な決定を与えることができる。詳細には、これは、比較的低い複雑性の処理に基づいて正確な推定を可能にし、多くの実施形態において、既存のマルチチャンネル／ソース符号化規格に特に適し得る。

幾つかの実施形態において、本装置は、想定スピーカ位置の重み及び角度の組み合わせに応じて第２の信号成分の第２の空間的位置指標の角度方向を決定するための手段を有し、チャンネルの各重みは、ダウンミックス信号からチャンネルへの変換の振幅利得に依存する。

本発明のオプション的な特徴によれば、前記変換は、信号非相関関数を含む第１の下位変換と、信号非相関関数を含まない第２の下位変換とを含み、第１の空間的位置指標の決定は、第１の下位変換を考慮しない。

第１の下位変換は、詳細には、（ＭＰＥＧサラウンドデコーディングのような）パラメトリック空間復号動作の"ウェット（wet）"信号の処理に対応し、第２の下位変換は、"ドライ（dry）"信号の処理に対応し得る。

幾つかの実施形態において、本装置は、前記変換に応じて、及び、第２の下位変換を考慮することなく、第２の信号成分に関する第２の空間的位置指標を決定するように構成され得る。

本発明のオプション的な特徴によれば、本装置は、パラメトリック拡張データに応じて第２の信号成分に関する第２の空間的位置指標を生成するように構成された第２の位置ユニットと、第２の空間的位置指標に基づいて第２の信号成分を合成するように構成された第２の合成ユニットとを更に有する。

これは、多くの実施形態において、向上した空間的体験を提供することができ、詳細には、拡散信号成分の知覚を向上させることができる。

本発明のオプション的な特徴によれば、ダウンミックス信号は、モノラル信号であり、分解ユニットは、モノラル信号に対応する第１の信号成分とモノラル信号に対する非相関信号に対応する第２の信号成分とを生成するように構成される。

本発明は、単純なモノラルダウンミックスを用いた符号化スキームに対しても高品質な空間的体験を与えることができる。

本発明のオプション的な特徴によれば、第１の信号成分は、主要方向信号成分であり、第２の信号成分は、ダウンミックス信号に対する拡散信号成分である。

本発明は、方向信号及び拡散信号を分離して別々に合成することにより、向上した及びより良く規定された空間的体験を与えることができる。

本発明のオプション的な特徴によれば、第２の信号成分は、第１の信号成分に対するダウンミックスを補償することに起因する残留信号に対応する。

これは、多くの実施形態において特に有利な性能を与えることができる。この補償は、例えば、ダウンミックスの１又はそれ以上のチャンネルから第１の信号成分を差し引くことにより行われる。

本発明のオプション的な特徴によれば、分解ユニットは、ダウンミックスの複数のチャンネルに関する信号を組み合わせる関数に応じて第１の信号成分を決定するように構成され、前記関数は、少なくとも１つのパラメータに依存し、前記分解ユニットは、第１の信号成分に対する出力の大きさを最大にするように前記少なくとも１つのパラメータを決定するように更に構成される。

これは、多くの実施形態において特に有利な性能を与えることができる。詳細には、これは、ダウンミックス信号を（少なくとも）主要方向信号に対応する成分と拡散環境信号に対応する成分とに分解するための非常に効果的なアプローチを与えることができる。

本発明のオプション的な特徴によれば、マルチソース信号の各ソースはサウンドオブジェクトである。

本発明は、個々の又は複数のサウンドオブジェクトの向上した合成及びレンダリングを可能にする。サウンドオブジェクトは、例えば、ステレオサウンドオブジェクトのようなマルチチャンネルサウンドオブジェクトであってもよい。

本発明のオプション的な特徴によれば、第１の空間的位置指標は、第１の信号成分に関する距離指標を含み、第１の合成ユニットは、前記距離指標に応じて前記第１の信号成分を合成するように構成される。

これは、聴取者に対する空間的知覚及び空間的体験を向上させることができる。

本発明の一態様によれば、マルチサウンドソース信号を合成する方法であって、当該方法は、前記マルチサウンドソース信号を表す符号化信号を受信するステップを有し、前記符号化信号は、前記マルチサウンドソースに関するダウンミックス信号と、前記ダウンミックス信号を前記マルチサウンドソース信号に拡張するためのパラメトリック拡張データとを有し、当該方法は、少なくとも第１の信号成分及び第２の信号成分を生成するために前記ダウンミックス信号の信号分解を実行するステップを有し、前記第２の信号成分は、前記第１の信号成分に少なくとも部分的に相関し、当該方法は、前記パラメトリック拡張データに応じて前記第１の信号成分に関する第１の空間的位置指標を決定するステップと、前記第１の空間的位置指標に基づいて前記第１の信号成分を合成するステップと、前記第１の信号成分とは異なる方向から生じるように前記第２の信号成分を合成するステップとを有する、方法が提供される。

本発明のこれらの及び他の態様、特徴及び利点は、後述される実施形態から明らかになり、これらの実施形態を参照して説明されるだろう。

本発明の実施形態は、図面を参照して、単なる例により述べられるだろう。

ＭＰＥＧサラウンドオーディオコーデックの要素の一例を示す。本発明の幾つかの実施形態によるオーディオシンセサイザの要素の一例を示す。モノラル信号のための非相関信号を生成する要素の一例を示す。ＭＰＥＧサラウンドオーディオアップミキシングの要素の一例を示す。

以下の説明は、ＭＰＥＧサラウンド符号化信号を用いたシステムに適用可能な本発明の実施形態に集中するが、本発明は、このアプリケーションに限定されるものではなく、多くの他の符号化メカニズムに適用され得ることが理解されるだろう。

ＭＰＥＧサラウンドは、ISO/IEC 23003-1, MPEG Surroundの規格におけるMotion Pictures Expert Groupにより最近規格化されたマルチチャンネルオーディオコーディングにおける大きな進歩の一つである。ＭＰＥＧサラウンドは、既存のモノラル又はステレオに基づくコーダーがより多くのチャンネルに拡張されることを可能にするマルチチャンネルオーディオコーディングツールである。

図１は、ＭＰＥＧサラウンドで拡張されたステレオコアコーダーのブロック図の一例を示している。最初に、ＭＰＥＧサラウンドエンコーダは、ダウンミクサ１０１におけるマルチチャンネル入力信号からステレオダウンミックスを生成する。そして、空間パラメータが、ダウンミクサ１０１によりマルチチャンネル入力信号から推定される。これらのパラメータは、ＭＰＥＧサラウンドビットストリームに符号化される。ステレオダウンミックスは、例えばＨＥ−ＡＡＣコアエンコーダのようなコアエンコーダ１０３を用いてビットストリームに符号化される。生ずるコアコーダービットストリーム及び空間パラメータビットストリームは、全体ビットストリームを生成するためにマルチプレクサ１０５において統合される。典型的には、空間ビットストリームは、コアコーダービットストリームの補助データ部分に含まれる。

それ故、符号化信号は、別々に符号化されたモノラル又はステレオダウンミックス信号により表される。このダウンミックス信号は、モノラル又はステレオ出力信号を与えるためにレガシーデコーダにおいて復号又は合成され得る。更に、符号化信号は、ダウンミックス信号を符号化マルチチャンネル信号にアップミキシングするための空間パラメータを有するパラメトリック拡張データを含む。それ故、適切に用意されたデコーダは、空間パラメータを抽出し、これらの空間パラメータに基づいてダウンミックス信号をアップミキシングすることにより、マルチチャンネルサラウンド信号を生成することができる。空間パラメータは、例えば、当業者にとって良く知られているような、チャンネル間レベル差、チャンネル間相関係数、チャンネル間位相差、チャンネル間時間差等を含み得る。

より詳細には、図１のデコーダは、最初に、デマルチプレクサ１０７においてコアデータ（ダウンミックスのための符号化データ）及びパラメトリック拡張データ（空間パラメータ）を抽出する。ダウンミックス信号を表すデータ、即ちコアビットストリームは、ステレオダウンミックスを再生するためにデコーダユニット１０９において復号される。空間パラメータを表すデータを一緒にもつこのダウンミックスは、ビットストリームの対応するデータを復号することにより空間パラメータを最初に生成するＭＰＥＧサラウンド復号ユニット１１１に送られる。そして、空間パラメータは、マルチチャンネル出力信号を得るためにステレオダウンミックスをアップミックスするために用いられる。

図１の例において、ＭＰＥＧサラウンド復号ユニット１１１は、ヘッドホンで聴くのに適した２チャンネル空間サラウンド信号を与えるようにマルチチャンネルを処理する双耳プロセッサを含む。それ故、複数の出力チャンネルのそれぞれに関して、双耳プロセッサは、ＨＲＴＦをユーザの右耳及び左耳のそれぞれに適用する。例えば、５つの空間チャンネルに関して、全体で５つのＨＲＴＦペアセットが、２チャンネル空間サラウンド信号を生成するために含まれる。

それ故、本例において、ＭＰＥＧサラウンド復号ユニット１１１は、２ステージプロセスを有する。最初に、ＭＰＥＧサラウンドデコーダは、符号化されたマルチチャンネル信号を再生成するためにＭＰＥＧサラウンド互換性のある復号を実行する。そして、この復号されたマルチチャンネル信号は、双耳空間信号を生成するためにＨＲＴＦペアを適用する双耳プロセッサに送られる（双耳処理はＭＰＥＧサラウンド規格の部分ではない）。

それ故、図１のＭＰＥＧサラウンドシステムにおいて、合成された信号は、各チャンネルに対して一のラウドスピーカを伴う想定ラウドスピーカ設定に基づいている。ラウドスピーカは、ＨＲＴＦ関数に反映される公称位置にあると想定される。しかしながら、このアプローチは、準最適な性能を与える傾向にあり、実際には、異なるラウドスピーカ位置のそれぞれからユーザに届く信号成分をモデル化しようと効果的に試みるアプローチは、サウンドステージにおけるサウンドのあまり規定されていない位置をもたらす。例えば、ユーザがサウンドステージにおける特定の位置でサウンド成分を知覚することに関して、図１のアプローチは、最初に、このサウンド成分からラウドスピーカのそれぞれまでの貢献を計算し、そして、これらのラウドスピーカ位置のそれぞれから聴取者の耳に届く信号までの貢献を計算する。斯様なアプローチは、リソース要求だけでなく、オーディオ品質及び空間的体験についての知覚された削減をもたらすことが見出されている。

アップミキシング及びＨＲＴＦ処理は、例えばアップミキシング及びＨＲＴＦ処理の組み合わせられた効果を表す適切な単一のマトリクスをダウンミックス信号に適用することにより、幾つかのケースにおいて単一の処理ステップに組み合わせられ得る一方で、斯様なアプローチは、依然として、各チャンネルに関する個々のサウンド放射（ラウドスピーカ）が合成されるシステムを本質的に反映することも留意されるべきである。

図２は、本発明の幾つかの実施形態のオーディオシンセサイザの一例を示している。

本システムにおいて、ダウンミックスは、少なくとも２つの信号成分に分解され、一方の信号成分は、主要方向信号成分に対応し、他方の信号成分は、間接／非相関信号成分に対応する。そして、直接成分は、この直接信号成分に関するファントム位置での仮想ラウドスピーカを直接シミュレーションすることにより合成される。更に、ファントム位置は、パラメトリック拡張データの空間パラメータから決定される。それ故、方向信号は、一方の特定方向から生ずるように直接合成され、これに応じて、２つのＨＲＴＦ関数だけが、聴取者の耳に届く組み合わせられた信号成分の計算に含まれる。更に、ファントム位置は、（ステレオスピーカ間のような）任意の特定のスピーカのポジショニングに限定されるものではなく、聴取者の背後を含む任意の方向からのものであってもよい。また、ファントムソースの正確な位置は、パラメトリック拡張データにより制御され、それ故に、元の入力サラウンドサウンド信号の適切なサラウンドソース方向から生ずるように生成される。

間接成分は、方向信号とは独立して合成され、詳細には、計算されたファントム位置から概ね生じないように合成される。例えば、これは、１又はそれ以上の固定された位置から（例えば聴取者の背後に対して）生じるように合成され得る。それ故、拡散又は環境サウンド成分に対応する間接／非相関信号成分は、拡散した空間的サウンド体験を与えるために生成される。

このアプローチは、各サラウンドサウンドチャンネルに対する（仮想的）ラウドスピーカ設定及びサウンドソース位置に依存することに関連した幾つか又は全ての欠点を克服する。詳細には、これは、典型的には、より現実的な仮想サラウンドサウンド体験を与える。

それ故、図２のシステムは、以下のステージを有する改良されたＭＰＥＧサラウンド復号アプローチを与える。
・ダウンミックスの主要及び環境成分への信号分解
・ＭＰＥＧサラウンド空間パラメータに基づく方向分析
・方向分析から導出されたＨＲＴＦデータでの主要成分の双耳レンダリング
・固定位置に特に対応し得る異なるＨＲＴＦデータでの環境成分の双耳レンダリング

本システムは、詳細には、サブバンド領域又は周波数領域において動作する。それ故、ダウンミックス信号は、信号分解が生じるサブバンド領域又は周波数領域の表現に変換される。並行して、方向情報が空間パラメータから導出される。方向情報、典型的にはオプション的に距離情報をもつ角度データは、例えばヘッドトラッカーデバイスによりもたらされたオフセットを含めるために、調節され得る。そして、生ずる方向データに対応するＨＲＴＦデータは、主要及び環境成分をレンダリング／合成するために用いられる。生ずる信号は、最終出力信号をもたらす時間領域に戻すように変換される。

より詳細には、図２のデコーダは、左及び右チャンネルを有するステレオダウンミックス信号を受信する。ダウンミックス信号は、左及び右の領域変換プロセッサ２０１，２０３に送られる。領域変換プロセッサ２０１，２０３のそれぞれは、入力ダウンミックスチャンネルをサブバンド／周波数領域に変換する。

領域変換プロセッサ２０１，２０３は、周波数領域の表現を生成し、ダウンミックス信号は、（以下において時間周波数タイルとも呼ばれる）時間間隔周波数帯域ブロックに分割される。時間周波数タイルのそれぞれは、特定の時間間隔における特定の周波数間隔に対応する。例えば、ダウンミックス信号は、例えば３０ｍ秒の期間の時間フレームにより表され、領域変換プロセッサ２０１，２０３は、所与の数の周波数ビン（bin）をもたらす各時間フレームにおいてフーリエ変換（例えば、高速フーリエ変換）を実行し得る。そして、各フレームにおける各周波数ビンは、時間周波数タイルに対応し得る。幾つかの実施形態において、各時間周波数タイルは、例えば、複数の周波数ビン及び／又は時間フレームを含み得る。例えば、周波数ビンは、各時間周波数タイルがバーク（Bark）帯域に対応するように組み合わせられ得る。

多くの実施形態において、各時間周波数タイルは、典型的には、１００ｍ秒よりも小さく、２００Ｈｚ又は周波数タイルの中心周波数の半分よりも小さくなるだろう。

幾つかの実施形態において、デコーダの処理は、オーディオ帯域全体に対して実行されるだろう。しかしながら、特定の例において、各時間間隔周波数帯域ブロックは、個々に処理されるだろう。従って、以下の説明は、分解、方向解析及び合成動作が各時間間隔周波数帯域ブロックに対して個別に独立して適用される実施に集中する。更に、本例において、各時間間隔周波数帯域ブロックは、一の時間周波数タイルに対応するが、幾つかの実施形態において、例えば複数のＦＦＴビン又は時間フレームが、時間間隔周波数帯域ブロックを形成するために一緒にグループ化されてもよいことが理解されるだろう。

領域変換プロセッサ２０１，２０３は、少なくとも第１及び第２の信号成分を生成するためにダウンミックス信号の周波数領域の表現を分解するように構成された信号分解プロセッサ２０５に結合される。

第１の信号成分は、ダウンミックス信号の主要方向信号成分に対応するように生成される。詳細には、第１の信号成分は、古典的なラウドスピーカシステムにおける振幅パンニング技術で得られるファントムソースの推定になるように生成される。実際には、信号分解プロセッサ２０５は、ダウンミックス信号により表された音源から聴取者により受信される直接信号に対応する第１の信号成分を決定しようとする。

第２の信号成分は、第１の信号成分と少なくとも部分的に（及びしばしば実質的に完全に）非相関である信号成分である。それ故、第２の信号成分は、ダウンミックス信号のための拡散信号成分を表し得る。実際には、信号分解プロセッサ２０５は、ダウンミックス信号により表された音源から聴取者により受信される拡散又は間接信号に対応する第２の信号成分を決定しようとすることができる。それ故、第２の信号成分は、反響音、部屋の反射等のような、ダウンミックス信号により表されたサウンド信号の非方向成分を表し得る。従って、第２の信号成分は、ダウンミックス信号により表された環境サウンドを表す。

多くの実施形態において、第２の信号成分は、第１の信号成分に関するダウンミックスを補償することから生ずる残留信号に対応し得る。例えば、ステレオダウンミックスに関して、第１の信号成分は、重み付けが出力ニュートラル（power neutral）にならなければならないという制限を伴って、２つのチャンネルにおける信号の重み付けされた合計として生成され得る。例えば、

ここで、l及びrは、左及び右チャンネルのそれぞれにおけるダウンミックス信号であり、a及びbは、

という制約下でx₁の最大出力をもたらすように選択される重みである。

それ故、第１の信号は、ダウンミックスの複数のチャンネルのための信号を組み合わせた関数として生成される。この関数自身は、第１の信号成分に関する生ずる出力を最大にするために選択される２つのパラメータに依存する。本例において、これらのパラメータは、ダウンミックスの信号の組み合わせが出力ニュートラルになることをもたらすように更に制約される。即ち、これらのパラメータは、パラメータの変化が実現可能な出力に影響を与えないように選択される。

第１の信号の計算は、生ずる第１の信号成分が、聴取者に届くであろう主要方向信号に対応する可能性が高くなることを可能にする。

そして、本例において、第２の信号は、例えばダウンミックス信号から第１の信号を単純に差し引くことにより、残留信号として計算され得る。例えば、幾つかの状況において、２つの拡散信号は、一方の斯様な拡散信号が左側ダウンミックス信号に対応し、他方の斯様な拡散信号が右側ダウンミックス信号に対応するように生成される。第１の信号成分は、左側ダウンミックス信号から差し引かれ、第１の信号成分は、右側ダウンミックス信号から差し引かれる。

異なる分解アプローチが異なる実施形態において用いられ得ることが理解されるだろう。例えば、ステレオダウンミックス信号に関して、欧州特許出願第０７１１７８３０．５号明細書、並びに、J. Breebaart及びE. Schuijersによる論文"Phantom Materialization: A Novel Method to Enhance Stereo Audio Reproduction on Headphones（IEEE Transactions on Audio, Speech, and Language Processing, Vol. 16, No. 8, pp. 1503-1511, November 2008）"が適用され得る。

例えば、多数の分解技術は、ステレオダウンミックス信号を、１又はそれ以上の方向／主要信号成分と１又はそれ以上の環境信号成分とに分解するのに適し得る。

例えば、ステレオダウンミックスは、

に従って、単一の方向／主要成分と２つの環境成分とに分解され得る。ここで、lは、左側ダウンミックスチャンネルにおける信号を表し、rは、右側ダウンミックスチャンネルにおける信号を表し、mは、主要信号成分を表し、d_l及びd_rは、拡散信号成分を表す。γは、主要成分mと環境信号（d_l及びd_r）との間の相関がゼロになるように、並びに、主要方向信号成分mの出力が最大になるように選択されるパラメータである。

他の例として、単一の方向／主要成分と単一の環境成分とを生成するために回転操作が用いられてもよい。

ここで、αは、主要信号mと環境信号dとの間の相関がゼロになり、主要成分mの出力が最大になるように選択される。この例は、a=sin(α)及びb=sin(α)と同等の信号成分を生成する前の例に対応することに留意されたい。更に、環境信号dの計算は、主要成分mのためのダウンミックス信号の補償として理解され得る。

更に他の例として、分解が、ステレオ信号からの２つの主要成分と２つの環境成分とを生成してもよい。最初に、前述された回転操作が、単一の方向／主要成分を生成するために用いられ得る。

そして、右及び左の主要成分は、推定されたモノラル信号の最小二乗適合として推定され得る。

ここで、

ここで、m[k]，l[k]及びr[k]は、時間周波数K_tileに対応するメイン、左及び右の周波数／サブバンド領域サンプルを表す。

そして、２つの左及び右の環境成分d₁及びd₂は、

として計算される。

幾つかの実施形態において、ダウンミックス信号は、モノラル信号であり得る。斯様な実施形態において、信号分解プロセッサ２０５は、モノラル信号に対応する第１の信号成分を生成し得る一方で、第２の信号成分は、モノラル信号のための非相関信号に対応するように生成される。

詳細には、図３に示されるように、ダウンミックスは、主要方向信号成分として直接用いられ得る一方で、環境／拡散信号成分は、非相関フィルタ３０１をダウンミックス信号に適用することにより生成される。非相関フィルタ３０１は、当業者に知られているような、適切な全域通過フィルタであり得る。非相関フィルタ３０１は、詳細には、ＭＰＥＧサラウンドデコーディングのために典型的に用いられる非相関フィルタと同等であり得る。

図２のデコーダは、パラメトリック拡張データを受信し、このパラメトリック拡張データに応じて第１の信号成分に関する第１の空間的位置指標を決定するように構成された位置プロセッサ２０７を更に有する。それ故、空間パラメータに基づいて、位置プロセッサ２０７は、主要方向信号成分に対応するファントムソースに関する推定位置を計算する。

幾つかの実施形態において、位置プロセッサ２０７は、パラメトリック拡張データに応じて第２の信号成分に関する第２の空間的位置指標も決定し得る。それ故、空間パラメータに基づいて、位置プロセッサ２０７は、斯様な実施形態において、拡散信号成分に対応するファントムソースに関する１又はそれ以上の推定位置を計算し得る。

本例において、位置プロセッサ２０７は、ダウンミックス信号を、アップミックスされたマルチチャンネル信号にアップミックスするためのアップミックスパラメータを最初に決定することにより推定位置を生成する。アップミックスパラメータは、直接的にパラメトリック拡張データの空間パラメータであってもよく、又は、ここから導出されてもよい。そして、スピーカ位置は、アップミックスされたマルチチャンネル信号のチャンネルのそれぞれに対して想定され、推定位置は、アップミックスパラメータに依存してスピーカ位置を組み合わせることにより計算される。それ故、アップミックスパラメータが、ダウンミックス信号が第１のチャンネルに対する強い貢献及び第２のチャンネルに対する低い貢献を与えることを示す場合には、その後、第１のチャンネルのスピーカ位置は、第２のチャンネルよりも高く重み付けされる。

詳細には、空間パラメータは、ダウンミックス信号から、アップミックスされたマルチチャンネル信号のチャンネルへの変換を記述し得る。この変換は、例えば、アップミックスチャンネルの信号をダウンミックスチャンネルのための信号と関連付けるマトリックスにより表され得る。

そして、位置プロセッサ２０７は、各チャンネルに関する想定されたスピーカ位置のそれぞれに対する角度の重み付けされた組み合わせにより第１の空間的位置指標に関する角度方向を決定し得る。チャンネルに対する重み付けは、詳細には、ダウンミックス信号からそのチャンネルへの変換の利得（例えば振幅又は利得）を反映させるように計算され得る。

特定の例として、幾つかの実施形態において、位置プロセッサ２０７により実行された方向解析は、主要信号成分の方向がＭＰＥＧサラウンドデコーダの"ドライ"信号部分のための方向に対応し、環境成分の方向がＭＰＥＧサラウンドデコーダの"ウェット"信号部分の方向に対応するという仮定に基づき得る。この状況において、ウェット信号部分は、非相関フィルタを含むＭＰＥＧサラウンドアップミックス処理の部分に対応するように考慮され、ドライ信号部分は、これを含まない部分に対応するように考慮され得る。

図４は、ＭＰＥＧサラウンドアップミックス機能の一例を示している。示されるように、ダウンミックスは、第１のマトリクス操作を適用する第１のマトリクスプロセッサ４０１により、チャンネルの第１のセットに最初にアップミックスされる。

そして、生成された信号の幾つかは、非相関信号を生成するために非相関フィルタ４０３に送られる。その後、非相関出力信号は、非相関フィルタ４０３に送られない第１のマトリクスプロセッサ４０１からの信号と一緒に、第２のマトリクス操作を適用する第２のマトリクスプロセッサ４０５に送られる。そして、第２のマトリクスプロセッサ４０５の出力は、アップミックスされた信号になる。

それ故、ドライ部分は、非相関フィルタ４０３の入力又は出力信号を生成又は処理しない図６の機能の部分に対応し得る。

同様に、ウェット部分は、非相関フィルタ４０３の入力又は出力信号を生成又は処理する図６の機能の部分に対応し得る。

それ故、本例において、ダウンミックスは、第１のマトリクスプロセッサ４０１においてプレマトリクス（pre-matrix）M₁により最初に処理される。プレマトリクスM₁は、当業者に知られているような、ＭＰＥＧサラウンド空間パラメータの関数である。第１のマトリクスプロセッサ４０１の出力部分は、多数の非相関フィルタ４０３に送られる。非相関フィルタ４０３の出力は、プレマトリクスの残りの出力と一緒に、ミックスマトリクス（mix-matrix）M₂を適用する第２のマトリクスプロセッサ４０５の入力として用いられる。ミックスマトリクスM₂は、（当業者に知られているような）ＭＰＥＧサラウンド空間パラメータの関数である。

数学的に、このプロセスは、

として各時間周波数タイルに対して記述され得る。ここで、xは、ダウンミックス信号ベクトルを表し、M₁は、現在の時間周波数タイルに特有のＭＰＥＧサラウンドパラメータの関数であるプレマトリクスを表す。vは、ミックスマトリクスに直接送られる部分v_dirと非相関フィルタに送られる部分v_ambとにある中間信号ベクトルである。

非相関フィルタ４０３後の信号ベクトルwは、

として記述され得る。ここで、

は、非相関フィルタ４０３を表す。最終出力ベクトルyは、

としてミックスマトリクスから構成される。ここで、

は、ＭＰＥＧサラウンドパラメータの関数であるミックスマトリクスを表す。

前記の数学的表現から、最終出力信号は、ドライ信号及びウェット（非相関）信号の重畳であることが理解され得る。

ここで、

それ故、ダウンミックスからアップミックスされたマルチチャンネルサラウンド信号への変換は、信号非相関関数を含む第１の下位変換と、信号非相関関数を含まない第２の下位変換とを含むように考慮され得る。

詳細には、モノラルダウンミックスに関して、第１の下位変換は、

のように決定され得る。ここで、xは、モノラルダウンミックスを表し、G_dirは、ダウンミックスを出力チャンネルにマッピングする全体のマトリクスを表す。

そして、対応する仮想ファントム音源の方向（角度）は、例えば

のように導出され得る。ここで、

は、ラウドスピーカ設定に関連付けられた仮想角度を表す。

例えば、左前、右前、中央、左サラウンド及び右サラウンドのスピーカのそれぞれに関して、

が多くの場合適切であり得る。

他の実施形態において、

とは異なる重み付けが用いられてもよく、実際には、個々の実施形態の優先度及び要件に依存して、利得及び仮想角度の多くの他の関数が用いられ得ることが理解されるだろう。

以前の角度計算による問題は、異なる角度が、幾つかの状況において、互いに相殺する傾向にあり得ることである。例えば、

が全てのチャンネルに対してほぼ同等である場合には、決定された角度に対する高い感度が生じ得る。

幾つかの実施形態において、これは、例えば、

のような、全ての（隣接する）スピーカのペアに対する角度計算により軽減され得る。ここで、pは、スピーカのペアを表す。

それ故、下位変換

に基づいて、主要方向信号、即ち第１の信号成分の方向が推定され得る。時間周波数タイルにおける主要方向信号成分の位置（方向／角度）は、空間パラメータや仮想スピーカ位置により特徴付けられるアップミックスのドライ処理に対応する位置に対応するように決定される。

類似の態様において、角度は、

により与えられた下位変換に基づいて環境成分（第２の信号成分）に対して導出され得る。

それ故、本例において、時間周波数タイルにおける拡散信号成分のための位置（方向／角度）は、空間パラメータや仮想スピーカ位置により特徴付けられるアップミックスのウェット処理に対応する位置に対応するように決定される。これは、多くの実施形態において向上した空間的体験を与えることができる。

他の実施形態において、固定された位置又は複数の位置は、拡散信号成分に対して用いられ得る。それ故、環境成分の角度は、例えばサラウンドスピーカの位置で、固定された角度に設定され得る。

前記の例は、空間パラメータにより特徴付けられたＭＰＥＧサラウンドアップミキシングに基づいているのに対し、実際には、ダウンミックスの斯様なアップミキシングは位置プロセッサ２０７によっては実行されない。

ステレオダウンミックス信号に関して、例えば、２つの角度が導出され得る。これは、２つの主要信号成分が分解により生成され、実際には一の角度が各主要信号に対して計算され得る本例に対応し得る。

それ故、方向ドライアップミキシングは、

に対応し、２つの角度

をもたらす。

２つの斯様な角度の計算は、特に有利であり、ＭＰＥＧサラウンドが典型的には左及び右ダウンミックスチャンネル間の関係を規定する空間パラメータを含まないので、ＭＰＥＧサラウンドがステレオダウンミックスと一緒に用いられる状況に適している。

類似の態様において、２つの環境成分、即ち、左ダウンミックスチャンネルに対するものと右ダウンミックスチャンネルに対するものとがそれぞれ導出され得る。

及び

幾つかの実施形態において、位置プロセッサ２０７は、第１の信号成分のための距離指標を更に決定し得る。これは、後のレンダリングがこの距離を反映させるＨＲＴＦを用いることを可能にし、これに応じて、向上した空間的体験をもたらし得る。

一例として、前記距離は、

から推定され得る。ここで、d_min及びd_maxは、最小及び最大距離、例えばd_min=0.5m及びd_max=2.5mを表し、D_dirは、仮想音源位置の推定された距離を表す。

本例において、位置プロセッサ２０７は、主要方向信号成分及び／又は拡散信号成分の推定された位置を調節し得るオプショナル調節プロセッサ２０９に結合される。

例えば、オプショナル調節プロセッサ２０９は、ヘッドトラッキング情報を受信し、主要音源の位置を適宜調節し得る。代わりに、サウンドステージは、固定されたオフセットを、位置プロセッサ２０７により決定された角度に追加することにより回転され得る。

図２のシステムは、オプショナル調節プロセッサ２０９及び信号分解プロセさ２０５に結合された双耳プロセッサ２１１を更に有する。双耳プロセッサ２１１は、第１及び第２の信号成分（即ち、分解された主要方向信号成分及び拡散信号成分）、並びに、対応する推定された位置を、オプショナル調節プロセッサ２０９から受信する。

そして、これは、第１及び第２の信号成分がオプショナル調節プロセッサ２０９から受信した推定位置により示された位置から生じていると聴取者に思われるように、これらの信号成分のレンダリングを進める。

詳細には、双耳プロセッサ２１１は、第１の信号成分に対して推定された位置に対応する２つのＨＲＴＦ（各耳対して一つ）を取り出すように進行する。そして、これは、これらのＨＲＴＦを第１の信号成分に適用するように進行する。ＨＲＴＦは、例えば、各耳に対する各時間周波数タイルのための適切にパラメトライズされたＨＲＴＦ伝達関数を有するルックアップテーブルから取り出され得る。ルックアップテーブルは、例えば５°毎の角度のような多数の角度に対するＨＲＴＦ値のセット全体を有し得る。そして、双耳プロセッサ２１１は、推定された位置に最も密接に対応する角度に対するＨＲＴＦ値を単純に選択し得る。代わりに、双耳プロセッサ２１１は、利用可能なＨＲＴＦ値間の補間を用いてもよい。

同様に、双耳プロセッサ２１１は、所望の環境位置に対応するＨＲＴＦを第２の信号成分に適用する。幾つかの実施形態において、これは、固定された位置に対応し、それ故に、同一のＨＲＴＦが、第２の信号成分に対して常に用いられ得る。他の実施形態において、環境信号に関する位置が推定され、適切なＨＲＴＦ値が、ルックアップテーブルから取り出され得る。

そして、左及び右のそれぞれに対するＨＲＴＦフィルタリングされた信号は、双耳出力信号を生成するために組み合わせられる。双耳プロセッサ２１１は、左側双耳信号の周波数領域の表現を時間領域の表現に変換する第１の出力変換プロセッサ２１３と、右側双耳信号の周波数領域の表現を時間領域の表現に変換する第２の出力変換プロセッサ２１５とに更に結合される。そして、時間領域信号が出力され、例えば、聴取者により着用されたヘッドホンに送られ得る。

出力双耳信号の合成は、詳細には、単一のパラメータ値を各周波数タイルに適用することにより、時間及び周波数変化の態様で行われ、パラメータ値は、その周波数、タイル及び所望位置（角度）のＨＲＴＦ値を表す。それ故、ＨＲＴＦフィルタリングは、残りの処理と同一の時間周波数タイルを用いて周波数領域の乗算により実現され、これにより、高効率な計算を与える。

詳細には、J. Breebaart及びE. Schuijersによる"Phantom Materialization: A Novel Method to Enhance Stereo Audio Reproduction on Headphones（IEEE Transactions on Audio, Speech, and Language Processing, Vol. 16, No. 8, pp. 1503-1511, November 2008）"のアプローチが用いられ得る。

例えば、所与の合成角度

（及びオプション的に距離D）に関して、以下のパラメトリックＨＲＴＦデータが、各時間／周波数タイルに対して利用可能であり得る。
・左耳ＨＲＴＦの（平均）レベルパラメータ

・右耳ＨＲＴＦの（平均）レベルパラメータ

・左耳及び右耳ＨＲＴＦ間の平均位相差パラメータ

レベルパラメータは、ＨＲＴＦのスペクトルエンベロープを表し、位相差パラメータは、両耳間時間差の逐次定数近似（stepwise constant approximation）を表す。

前述した方向分析から導出された所与の合成角度

を伴う、所与の時間周波数タイルに関して、出力信号は、

のように構成される。ここで、mは、主要／方向成分の時間周波数タイルデータを表し、l_dir及びr_dirは、左及び右のそれぞれの主要／方向出力信号の時間周波数タイルデータを表す。

同様に、環境成分は、

に従って合成される。ここで、dは、環境成分の時間周波数タイルデータを表し、l_amb及びl_ambは、左及び右のそれぞれの環境出力信号の時間周波数タイルデータを表し、この場合において、合成角度

は、環境成分に対する方向解析に対応する。

最終出力信号は、主要及び環境出力成分を追加することにより構成される。複数の主要成分及び／又は複数の環境成分が解析ステージの間に導出される場合において、これらは、最終出力信号を形成するために個別に合成されて合計され得る。

角度がチャンネルペア毎に計算される実施形態に関して、これは、

として表され得る。

同様に、環境成分は、角度

に対してレンダリングされる。

前の説明は、マルチソース信号がマルチチャンネル信号に対応する場合、即ち、各信号ソースがマルチチャンネル信号のチャンネルに対応する場合の一例に集中している。

しかしながら、述べられた原理及びアプローチは、サウンドオブジェクトに直接適用されてもよい。それ故、幾つかの実施形態において、マルチソース信号の各ソースがサウンドオブジェクトであってもよい。

詳細には、ＭＰＥＧ標準化団体は、現在、"Spatial Audio Object Coding (SAOC)"ソリューションを標準化するプロセスを進めている。高いレベルの視点から、ＳＡＯＣにおいて、チャンネルの代わりに、サウンドオブジェクトが効果的に符号化される。ＭＰＥＧサラウンドにおいては、各スピーカチャンネルが、サウンドオブジェクトの異なる混合から生じるように考慮され得るのに対し、ＳＡＯＣにおいては、これらの個々のサウンドオブジェクトの推定が、対話式コントロールのためのデコーダで利用可能である（例えば、個々の楽器が個々に符号化され得る）。ＭＰＥＧサラウンドと同様に、ＳＡＯＣは、モノラル又はステレオダウンミックスを生成し、これは、その後、ＨＥ−ＡＡＣのような標準的なダウンミックスコーダーを用いてオプション的に符号化される。そして、空間オブジェクトパラメータは、元の空間サウンドオブジェクトがダウンミックスからどのように再生成され得るかを記述するために、ダウンミックス符号化されたビットストリームの補助データ部分に組み込まれる。デコーダ側では、ユーザは、位置、増幅、等化のような個々のオブジェクトの種々の特徴、及び、反響音のような効果のアプリケーションを制御するために、これらのパラメータを更にコントロールし得る。それ故、本アプローチは、エンドユーザが、例えば、個々のサウンドオブジェクトにより表された個々の楽器の個々の空間的位置を制御することを可能にする。

斯様な空間オーディオオブジェクトコーディングの場合において、単一のソース（モノラル）オブジェクトは、個々のレンダリングに対して容易に利用可能である。しかしながら、ステレオオブジェクト（２つの関連するオブジェクト）及びマルチチャンネルバックグラウンドオブジェクトに関して、個々のチャンネルは、通常、個別にレンダリングされる。しかしながら、幾つかの実施形態によれば、述べられた原理は、斯様なオーディオオブジェクトに適用され得ない。詳細には、オーディオオブジェクトは、主要方向信号成分と拡散信号成分とに分解され、これらは、所望位置から個別に直接的にレンダリングされ、これにより、向上した空間的体験をもたらす。

幾つかの実施形態において、述べられた処理は、周波数帯域全体に適用され得る、即ち、分解及び／又は位置の決定は、周波数帯域全体に基づいて決定され、及び／又は、周波数帯域全体に適用され得ることが理解されるだろう。これは、例えば、入力信号が１つだけの主要サウンド成分を有するときに役立ち得る。

しかしながら、大部分の実施形態において、この処理は、時間周波数タイルのグループにおいて個々に適用される。詳細には、解析及び処理は、各時間周波数タイルに対して個々に実行され得る。それ故、分解は、各時間周波数タイルに対して実行され、推定された位置は、各時間周波数タイルに対して決定され得る。更に、双耳処理は、その時間周波数タイルに対して決定された位置に対応するＨＲＴＦパラメータを、その時間周波数タイルに対して計算された第１及び第２の信号成分値に適用することにより、各時間周波数タイルに対して実行される。

これは、位置、分解等が異なる時間周波数タイルに対して変化する時間及び周波数変化処理をもたら得る。これは、とりわけ、入力信号が異なる方向等に対応する複数のサウンド成分を有する最も一般的な状況に対して有利である。斯様な場合において、異なる成分は、理想を言えば、（これらが異なる位置の音源に対応するので）異なる方向からレンダリングされるべきである。これは、ほとんどの状況において、各時間周波数タイルが典型的には一の支配的なサウンド成分を含むので、個々の時間周波数タイルの処理により自動的に実現され得る。この処理は、支配的なサウンド成分に適合するように決定される。それ故、本アプローチは、異なるサウンド成分の自動化された分離及び個々の処理をもたらすだろう。

明確さのための前記説明は、異なる機能ユニット及びプロセッサを参照して本発明を説明していることが理解されるだろう。しかしながら、異なる機能ユニット又はプロセッサ間の機能性の任意の適切な分配が本発明を損なうことなく用いられ得ることは明らかであるだろう。例えば、別個のプロセッサ又はコントローラにより実行されるように示された機能性は、同一のプロセッサ又はコントローラにより実行されてもよい。それ故、特定の機能ユニットへの言及は、厳密な論理的又は物理的構造又は機構を示すよりもむしろ、述べられた機能性を与えるための適切な手段への言及として理解されるに過ぎない。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組み合わせを含む任意の適切な形式において実装されてもよい。本発明は、オプション的に、１又はそれ以上のデータプロセッサ及び／又はデジタル信号プロセッサで実行するコンピュータソフトウェアとして少なくとも部分的に実装されてもよい。本発明の一実施形態の要素及びコンポーネントは、任意の適切な方法で物理的、機能的及び論理的に実装されてもよい。実際には、機能性は、単一のユニットにおいて、複数のユニットにおいて、又は、他の機能ユニットの部分として、実装され得る。そのため、本発明は、単一のユニットにおいて実装されてもよく、又は、異なるユニット及びプロセッサ間で物理的及び機能的に分配されてもよい。

本発明は、幾つかの実施形態と組み合わせて説明されたが、これは、ここに記載された特定の形式に限定されることが意図されるものではない。むしろ、本発明の範囲は、特許請求の範囲によってのみ限定される。加えて、一の特徴が特定の実施形態と組み合わせて述べられるように見えるが、当業者は、述べられた実施形態の種々の特徴が本発明に従って組み合わせられ得ることを理解するだろう。請求項において、有するという用語は、他の要素又はステップの存在を除外するものではない。

更に、個別に記載されているが、複数の手段、要素又は方法ステップは、例えば単一のユニット又はプロセッサにより実装されてもよい。加えて、個々の特徴が異なる請求項に含まれる場合があるが、これらは、場合により有利に組み合わせられてもよく、異なる従属請求項における包含は、これら特徴の組み合わせが実現可能ではない及び／又は有利ではないことを意味するものではない。また、請求項の一のカテゴリにおける一の特徴の包含は、このカテゴリへの限定を意味するものではなく、むしろ、この特徴が必要に応じて他の請求項のカテゴリに同等に適用可能であることを示す。更に、請求項中の特徴の順序は、これらの特徴が実行されるべき任意の特定の順序を意味するものではなく、とりわけ、方法に係る請求項中の個々のステップの順序は、これらのステップがこの順序で実行されるべきことを意味するものではない。むしろ、これらのステップは、任意の適切な順序で実行され得る。加えて、単数表記は、複数を除外するものではない。それ故、"第１"，"第２"等への言及は、複数を排除するものではない。請求項中の参照符号は、明確化した例として与えられるに過ぎず、如何なる態様においても請求項の範囲を限定するものとして考慮されるべきではない。

Claims

マルチサウンドソース信号を合成するための装置であって、
当該装置は、前記マルチサウンドソース信号を表す符号化信号を受信するためのユニットを有し、前記符号化信号は、前記マルチサウンドソースに関するダウンミックス信号と、前記ダウンミックス信号を前記マルチサウンドソース信号に拡張するためのパラメトリック拡張データとを有し、
当該装置は、少なくとも第１の信号成分及び第２の信号成分を生成するために前記ダウンミックス信号の信号分解を実行するための分解ユニットを有し、前記第２の信号成分は、前記第１の信号成分に少なくとも部分的に相関し、
当該装置は、
前記パラメトリック拡張データに応じて前記第１の信号成分に関する第１の空間的位置指標を決定するための位置ユニットと、
前記第１の空間的位置指標に基づいて前記第１の信号成分を合成するための第１の合成ユニットと、
前記第１の信号成分とは異なる方向から生じるように前記第２の信号成分を合成するための第２の合成ユニットとを有する、装置。
当該装置は、前記ダウンミックスを時間間隔周波数帯域ブロックに分割し、各時間間隔周波数帯域ブロックを個別に処理するように構成されるユニットを更に有する、請求項１に記載の装置。
前記第１の合成ユニットは、パラメトリックＨＲＴＦ（Head-Related Transfer Function）を第１の信号成分の時間間隔周波数帯域ブロックに適用するように構成され、
前記パラメトリックＨＲＴＦは、前記第１の空間的位置指標により表された位置に対応し、各時間間隔周波数帯域ブロックに対して設定されたパラメータ値を有する、請求項２に記載の装置。
前記マルチサウンドソース信号は、空間マルチチャンネル信号である、請求項１に記載の装置。
前記位置ユニットは、前記マルチチャンネル信号のチャンネルに関する想定スピーカ位置及び前記パラメトリック拡張データのアップミックスパラメータに応じて前記第１の空間的位置指標を決定するように構成され、
前記アップミックスパラメータは、前記マルチチャンネル信号をもたらすための前記ダウンミックスのアップミックスを示す、請求項４に記載の装置。
前記パラメトリック拡張データは、前記ダウンミックス信号から前記マルチチャンネル信号のチャンネルへの変換を記述し、
前記位置ユニットは、前記マルチチャンネル信号のチャンネルに関する前記想定スピーカ位置に対する重み及び角度の組み合わせに応じて前記第１の空間的位置指標に対する角度方向を決定するように構成され、
チャンネルに対する各重みは、前記ダウンミックス信号から前記チャンネルへの変換の利得に依存する、請求項４に記載の装置。
前記変換は、信号非相関関数を含む第１の下位変換と、信号非相関関数を含まない第２の下位変換とを含み、前記第１の空間的位置指標の決定は、前記第１の下位変換を考慮しない、請求項６に記載の装置。
当該装置は、
前記パラメトリック拡張データに応じて前記第２の信号成分に関する第２の空間的位置指標を生成するように構成された第２の位置ユニットと、
前記第２の空間的位置指標に基づいて前記第２の信号成分を合成するように構成された第２の合成ユニットとを更に有する、請求項１に記載の装置。
前記ダウンミックス信号は、モノラル信号であり、
前記分解ユニットは、前記モノラル信号に対応する前記第１の信号成分と前記モノラル信号に対する非相関信号に対応する前記第２の信号成分とを生成するように構成される、請求項１に記載の装置。
前記第１の信号成分は、主要方向信号成分であり、前記第２の信号成分は、前記ダウンミックス信号に対する拡散信号成分である、請求項１に記載の装置。
前記第２の信号成分は、前記第１の信号成分に対する前記ダウンミックスを補償することに起因する残留信号に対応する、請求項１に記載の装置。
前記分解ユニットは、前記ダウンミックスの複数のチャンネルに関する信号を組み合わせる関数に応じて前記第１の信号成分を決定するように構成され、
前記関数は、少なくとも１つのパラメータに依存し、
前記分解ユニットは、前記第１の信号成分に対する出力の大きさを最大にするように前記少なくとも１つのパラメータを決定するように更に構成される、請求項１に記載の装置。
前記マルチソース信号の各ソースは、サウンドオブジェクトである、請求項１に記載の装置。
前記第１の空間的位置指標は、前記第１の信号成分に関する距離指標を含み、
前記第１の合成ユニットは、前記距離指標に応じて前記第１の信号成分を合成するように構成される、請求項１に記載の装置。
マルチサウンドソース信号を合成する方法であって、
当該方法は、前記マルチサウンドソース信号を表す符号化信号を受信するステップを有し、前記符号化信号は、前記マルチサウンドソースに関するダウンミックス信号と、前記ダウンミックス信号を前記マルチサウンドソース信号に拡張するためのパラメトリック拡張データとを有し、
当該方法は、少なくとも第１の信号成分及び第２の信号成分を生成するために前記ダウンミックス信号の信号分解を実行するステップを有し、前記第２の信号成分は、前記第１の信号成分に少なくとも部分的に相関し、
当該方法は、
前記パラメトリック拡張データに応じて前記第１の信号成分に関する第１の空間的位置指標を決定するステップと、
前記第１の空間的位置指標に基づいて前記第１の信号成分を合成するステップと、
前記第１の信号成分とは異なる方向から生じるように前記第２の信号成分を合成するステップとを有する、方法。