JP7139409B2

JP7139409B2 - 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成

Info

Publication number: JP7139409B2
Application number: JP2020218137A
Authority: JP
Inventors: イェン，クアン―チック; ジェイ．ブリーバルト，ディルク; エイ．デヴィッドソン，グラント; ウィルソン，ロンダ; エム．クーパー，デイヴィッド; シュアン，ズーウェイ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2014-01-03
Filing date: 2020-12-28
Publication date: 2022-09-20
Anticipated expiration: 2034-12-18
Also published as: ES2709248T3; CN107770718A; CN107835483A; RU2017138558A; RU2017138558A3; MX365162B; HK1251757A1; CN107770717B; US20160345116A1; US10555109B2; US20190373397A1; JP2020025309A; KR20200075888A; US10771914B2; CN107750042A; CN105874820A; CN105874820B; US20200245094A1; JP2021061631A; ES2837864T3

Description

関連出願への相互参照
本願は2014年4月29日に出願された中国特許出願第201410178258.0号、2014年1月3日に出願された米国仮特許出願第61/923,579号および2014年5月5日に出願された米国仮特許出願第61/988,617号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。
１．発明の分野
本発明は、入力信号のチャネルの集合の各チャネルに（たとえば全チャネルに）バイノーラル室内インパルス応答（BRIR: Binaural Room Impulse Response）を適用することによって、マルチチャネル・オーディオ入力信号に応答してバイノーラル信号を生成するための方法（時にヘッドフォン仮想化方法と称される）およびシステムに関する。いくつかの実施形態では、少なくとも一つのフィードバック遅延ネットワーク（FDN: feedback delay network）がダウンミックスBRIRの後期残響部分を前記チャネルのダウンミックスに適用する。

２．発明の背景
ヘッドフォン仮想化（またはバイノーラル・レンダリング）は、標準的なステレオ・ヘッドフォンを使ってサラウンド・サウンド経験または没入的な音場を送達することをねらいとする技術である。

初期のヘッドフォン仮想化器は、バイノーラル・レンダリングにおける空間的情報を伝えるために頭部伝達関数（HRTF: head-related transfer function）を適用した。HRTFは、無響環境において空間内の特定の点（音源位置）から聴取者の両耳に音がどのように伝わるかを特徴付ける方向および距離依存のフィルタ対の集合である。両耳間時間差（ITD: interaural time difference）、両耳間レベル差（ILD: interaural level difference）、頭のシャドーイング効果（head shadowing effect）、肩および耳介反射に起因するスペクトルのピークおよびノッチといった本質的な空間的手がかりが、レンダリングされるHRTFフィルタリングされたバイノーラル・コンテンツにおいて知覚されることができる。人間の頭のサイズの制約条件のため、HRTFは、ほぼ1メートルより先の源距離に関しては十分または堅牢な手がかりを提供しない。結果として、HRTFのみに基づく仮想化器は通例、良好な頭外定位または知覚される距離を達成しない。

日常生活における音響イベントの多くは残響のある環境で生起する。残響のある環境では、HRTFによってモデル化される（源から耳への）直接経路に加えて、さまざまな反射経路を通じてもオーディオ信号が聴取者の耳に達する。反射は、距離、部屋サイズおよび空間の他の属性といった聴覚体験に深遠な影響を導入する。この情報をバイノーラル・レンダリングにおいて伝えるために、仮想化器は、直接経路HRTFにおける手がかりに加えて、部屋残響を適用する必要がある。バイノーラル室内インパルス応答（BRIR）は、特定の音響環境における空間内の特定の点から聴取者の耳までのオーディオ信号の変換を特徴付ける。理論上は、BRIRは空間的知覚に関するすべての音響手がかりを含む。

図１は、マルチチャネル・オーディオ入力信号のそれぞれの全周波数範囲チャネル（X₁,…,X_N）にバイノーラル室内インパルス応答（BRIR）を適用するよう構成された通常のヘッドフォン仮想化器の一つの型のブロック図である。チャネルX₁,…,X_Nのそれぞれは、想定される聴取者に対する異なる源方向（すなわち、対応するスピーカーの想定される位置から想定される聴取者位置への直接経路の方向）に対応するスピーカー・チャネルであり、そのような各チャネルは対応する源方向についてのBRIRによって畳み込みされる。各チャネルからの音響経路は、各耳についてシミュレートする必要がある。したがって、本稿の残りでは、用語BRIRは、一つのインパルス応答または左右の耳に関連付けられたインパルス応答の対のいずれをも指す。よって、サブシステム２はチャネルX₁をBRIR₁（対応する源方向についてのBRIR）と畳み込みするよう構成され、サブシステム４はチャネルX_NをBRIR_N（対応する源方向についてのBRIR）と畳み込みするよう構成される、などとなる。各BRIRサブシステム（サブシステム２、…、４のそれぞれ）の出力は、左チャネルおよび右チャネルを含む時間領域信号である。BRIRサブシステムの左チャネル出力どうしは加算要素６において混合され、BRIRサブシステムの右チャネルどうしは加算要素８において混合される。要素６の出力は、仮想化器から出力されるバイノーラル・オーディオ信号の左チャネルLであり、要素８の出力は、仮想化器から出力されるバイノーラル・オーディオ信号の右チャネルRである。

マルチチャネル・オーディオ入力信号は、低域効果（LFE: low frequency effects）またはサブウーファー・チャネルをも含んでいてもよい。これは図１では「LFE」チャネルとして同定されている。通常の仕方では、LFEチャネルはBRIRと畳み込みされないが、その代わり、図１の利得段５において（たとえば－3dB以上）減衰させられ、利得段５の出力が仮想化器のバイノーラル出力信号の各チャネルに等しく（加算要素６および８によって）混合される。段５の出力をBRIRサブシステム（２、…、４）の出力と時間整列させるために、LFE経路において追加的な遅延段が必要とされることがある。あるいはまた、LFEチャネルは単に無視されてもよい（すなわち、仮想化器に呈されないまたは仮想化器によって処理されない）。たとえば、本発明の図２の実施形態（後述）は、それが処理するマルチチャネル・オーディオ入力信号のいかなるLFEチャネルをも単に無視する。多くの消費者ヘッドフォンは、LFEチャネルを正確に再生することができない。

いくつかの通常の仮想化器では、入力信号は、時間領域から周波数領域への変換を受けてQMF（quadrature mirror filter［直交ミラー・フィルタ］）領域にされ、QMF領域周波数成分の諸チャネルを生成する。これらの周波数成分は（たとえば図１のサブシステム２、…、４のQMF領域実装において）QMF領域でフィルタリングを受けて、結果として得られる周波数成分が次いで（たとえば図１のサブシステム２、…、４のそれぞれの最終段において）時間領域に変換し戻される。それにより、仮想化器のオーディオ出力は時間領域信号（たとえば、時間領域バイノーラル信号）である。

一般に、ヘッドフォン仮想化器に入力されるマルチチャネル・オーディオ信号のそれぞれの全周波数範囲チャネルは、聴取者の耳に対して既知の位置にある音源から放出されるオーディオ・コンテンツを示すと想定される。ヘッドフォン仮想化器は、入力信号のそのような各チャネルにバイノーラル室内インパルス応答（BRIR）適用するよう構成される。各BRIRは、直接応答および反射という二つの部分に分解できる。直接応答は、音源の到来方向（DOA: direction of arrival）に対応するHRTFを、（音源と聴取者の間の）距離に起因する適正な利得および遅延をもって調整し、任意的には小さな距離についてのパララックス（parallax）効果をもって増強したものである。

BRIRの残りの部分は反射をモデル化する。早期の反射は通例一次または二次反射であり、比較的疎な時間的分布をもつ。各一次または二次反射のミクロ構造（たとえばITDおよびILD）は重要である。後期反射（聴取者に達する前に三つ以上の表面から反射された音）については、反射回数の増大とともにエコー密度が増大し、個々の反射のミクロ属性は観察しにくくなる。ますますより後期の反射については、マクロ構造（たとえば、残響減衰レート、両耳間コヒーレンスおよび全体的な残響のスペクトル分布）がより重要になる。このため、反射は、早期反射および後期残響という二つの部分にさらにセグメント分割できる。

直接応答の遅延は聴取者からの源距離を音速で割ったものであり、そのレベルは（源位置近くの壁または大きな表面がない場合）源距離に反比例する。他方、後期残響の遅延およびレベルは一般に源位置には敏感でない。実際的な事情のため、仮想化器は、異なる距離をもつ源からの直接応答を時間整列させるおよび／またはそのダイナミックレンジを圧縮することを選びうる。しかしながら、BRIR内での直接応答、早期反射および後期残響の間の時間的およびレベル関係は維持されるべきである。

典型的なBRIRの有効長さは、多くの音響環境において数百ミリ秒以上に達する。BRIRの直接的な適用は、数千のタップのフィルタとの畳み込みを必要とするが、これは計算的に高価である。加えて、パラメータ化なしでは、十分な空間分解能を達成するためには、異なる源位置についての諸BRIRを記憶する大きなメモリ・スペースを必要とする。最後だが軽んじてはならないこととして、音源位置は時間とともに変化しうるおよび／または聴取者の位置および配向は時間とともに変化しうる。そのような動きの正確なシミュレーションは時間変化するBRIRインパルス応答を要求する。そのような時間変化するフィルタの適正な補間および適用は、これらのフィルタのインパルス応答が多くのタップをもつ場合には、困難であることがある。

シミュレートされた残響をマルチチャネル・オーディオ入力信号の一つまたは複数のチャネルに適用するよう構成された空間的残響器を実装するために、フィードバック遅延ネットワーク（FDN）として知られる周知のフィルタ構造をもつフィルタが使用されることができる。FDNの構造は単純である。いくつかの残響タンク（たとえば、図４のFDNでは利得要素g₁および遅延線z^-n1を有する残響タンク）を有し、各残響タンクは遅延および利得をもつ。FDNの典型的な実装では、すべての残響タンクからの出力は、ユニタリー・フィードバック・マトリクスによって混合され、該マトリクスの出力がフィードバックされて残響タンクの入力と合計される。残響タンク出力に利得調整がなされてもよい。残響タンク出力（またはその利得調整されたバージョン）はマルチチャネルまたはバイノーラル再生のために好適に再混合されることができる。コンパクトな計算およびメモリ・フットプリントをもつFDNによって、自然に聞こえる残響が生成され、適用されることができる。したがって、FDNは、HRTFによって生成された直接応答を補足するよう仮想化器において使用されてきた。

たとえば、商業的に入手可能な「ドルビー・モバイル」ヘッドフォン仮想化器は、（左前方、右前方、中央、左サラウンドおよび右サラウンド・チャネルをもつ）五チャネル・オーディオ信号の各チャネルに残響を加え、五つの頭部伝達関数（「HRTF」）フィルタ対の集合の異なるフィルタ対を使って、それぞれの残響付加されたチャネルをフィルタリングするよう動作可能であるFDNベースの構造をもつ残響器を含む。「ドルビー・モバイル」ヘッドフォン仮想化器は、二チャネル・オーディオ入力信号に応答して二チャネルの「残響付加された」バイノーラル・オーディオ出力（残響が加えられた二チャネルの仮想サラウンド・サウンド出力）を生成するようにも動作可能である。残響付加されたバイノーラル出力がレンダリングされ、ヘッドフォン対によって再生されるとき、それは聴取者の鼓膜において、左前方、右前方、中央、左後方（サラウンド）および右後方（サラウンド）位置にある五つのラウドスピーカーからのHRTFフィルタリングされた残響付加された音として知覚される。仮想化器は、ダウンミックスされた二チャネル・オーディオ入力を（該オーディオ入力とともに受領されるいかなる空間的手がかりパラメータを使うこともなく）アップミックスし、五つのアップミックスされたオーディオ・チャネルを生成し、アップミックスされたチャネルに残響を加え、五つの残響付加されたチャネル信号をダウンミックスして仮想化器の二チャネルの残響付加された出力を生成する。それぞれのアップミックスされたチャネルについての残響はHRTFフィルタの異なる対においてフィルタリングされる。

仮想化器では、FDNはある残響減衰時間およびエコー密度を達成するよう構成される。しかしながら、FDNは早期反射のミクロ構造をシミュレートする柔軟性を欠く。さらに、通常の仮想化器では、FDNのチューニングおよび構成設定は大半が試行錯誤的なものである。

すべての反射経路（早期および後期）をシミュレートするのでないヘッドフォン仮想化器は有効な頭外定位を達成できない。発明者は、すべての反射経路（早期および後期）をシミュレートしようとするFDNを用いる仮想化器は、通例、早期反射および後期残響の両方をシミュレートし、両方をオーディオ信号に加えることにおいて、高々限られた成功しか収めていないことを認識するに至った。発明者はまた、FDNを用いるが残響減衰時間、両耳間コヒーレンスおよび直接対後期比といった空間的な音響属性を適正に制御する能力をもたない仮想化器は、ある程度の頭外定位を達成するかもしれないが、過度の音色の歪みおよび残響を導入するという代償を伴うことをも認識するに至った。

第一のクラスの実施形態では、本発明は、マルチチャネル・オーディオ入力信号のチャネルのある集合（たとえば、それらのチャネルのそれぞれまたは全周波数範囲チャネルのそれぞれ）に応答してバイノーラル信号を生成する方法である。本方法は：（ａ）前記集合の各チャネルに（たとえば前記集合の各チャネルを前記チャネルに対応するBRIRと畳み込みすることによって）バイノーラル室内インパルス応答（BRIR）を適用し、それによりフィルタリングされた信号を生成する段階であって、前記集合のチャネルのダウンミックス（たとえばモノフォニック・ダウンミックス）に共通の後期残響を加えるよう少なくとも一つのフィードバック遅延ネットワーク（FDN）を使うことによることを含む、段階と；（ｂ）フィルタリングされた信号を組み合わせてバイノーラル信号を生成する段階とを含む。典型的には、前記ダウンミックスに前記共通の後期残響を加えるために、FDNのバンクが使用される（たとえば、各FDNが異なる周波数帯域に共通の後期残響を加える）。典型的には、段階（ａ）は前記集合の各チャネルに、該チャネルについての単一チャネルBRIRの「直接応答および早期反射」部分を適用する段階を含み、前記共通の後期残響は、前記単一チャネルBRIRの少なくとも一部（たとえば全部）の後期残響部分の集団的なマクロ属性をエミュレートするよう生成されたものである。

マルチチャネル・オーディオ入力信号に応答して（またはそのような信号のチャネルのある集合に応答して）バイノーラル信号を生成する方法は、本稿では時に、「ヘッドフォン仮想化」方法と称され、そのような方法を実行するよう構成されたシステムは本稿では時に「ヘッドフォン仮想化器」（または「ヘッドフォン仮想化システム」または「バイノーラル仮想化器」）と称される。

第一のクラスの典型的な実装では、各FDNはフィルタバンク領域（たとえば、ハイブリッド複素直交ミラー・フィルタ（HCQMF: hybrid complex quadrature mirror filter）領域または直交ミラー・フィルタ（QMF）領域または間引きを含みうる他の変換もしくはサブバンド領域）において実装される。いくつかのそのような実施形態では、バイノーラル信号の周波数依存の空間的な音響属性は、後期残響を加えるために用いられる各FDNの構成を制御することによって制御される。典型的には、マルチチャネル信号のオーディオ・コンテンツの効率的なバイノーラル・レンダリングのために、チャネルのモノフォニック・ダウンミックスがFDNへの入力として使われる。第一のクラスの典型的な実施形態は、たとえば各FDNの入力利得、残響タンク利得、残響タンク遅延または出力マトリクス・パラメータのうちの少なくとも一つを設定するよう制御値をフィードバック遅延ネットワークに呈することによって、周波数依存の属性（たとえば、残響減衰時間、両耳間コヒーレンス、モード密度および直接対後期比）に対応するFDN係数を調整する段階を含む。これは、音響環境のよりよいマッチングおよびより自然に聞こえる出力を可能にする。

第二のクラスの実施形態では、本発明は、諸チャネルを有するマルチチャネル・オーディオ入力信号に応答してバイノーラル信号を生成する方法である。これは、入力信号のチャネルのある集合の各チャネル（たとえば、入力信号のチャネルのそれぞれまたは入力信号のそれぞれの全周波数範囲チャネル）にバイノーラル室内インパルス応答（BRIR）を適用することによる。これは、前記集合の各チャネルを、該チャネルについての単一チャネルBRIRの直接応答および早期反射をモデル化して該各チャネルに適用するよう構成された第一の処理経路において処理し、前記集合のチャネルのダウンミックス（たとえばモノフォニック（モノ）・ダウンミックス）を、該ダウンミックスへの共通の後期残響をモデル化して適用するよう構成された（前記第一の処理経路と並列な）第二の処理経路において処理することによることを含む。典型的には、前記共通の後期残響は、前記単一チャネルBRIRのうち少なくともいくつか（たとえば全部）の後期残響部分の集団的なマクロ属性をエミュレートするよう生成されたものである。典型的には、第二の処理経路は少なくとも一つのFDN（たとえば複数の周波数帯域のそれぞれについて一つのFDN）を含む。典型的には、第二の処理経路によって実装される各FDNのすべての残響タンクへの入力として、モノ・ダウンミックスが使われる。典型的には、音響環境をよりよくシミュレートし、より自然に聞こえるバイノーラル仮想化を生じるために、各FDNのマクロ属性の系統的な制御のための機構が提供される。たいていのそのようなマクロ属性は周波数依存なので、各FDNは典型的にはハイブリッド複素直交ミラー・フィルタ（HCQMF）領域、周波数領域、領域または別のフィルタバンク領域において実装され、各周波数帯域について異なるまたは独立なFDNが使われる。FDNをフィルタバンク領域において実装することの主要な恩恵は、周波数依存の残響属性をもつ残響の適用を許容するということである。さまざまな実施形態において、FDNは、多様なフィルタバンクの任意のものを使って、幅広い多様なフィルタバンク領域の任意のものにおいて実装される。それは、実または複素数値の直交ミラー・フィルタ（QMF）、有限インパルス応答フィルタ（FIRフィルタ）、無限インパルス応答フィルタ（IIRフィルタ）、離散フーリエ変換（DFT）、（修正）コサインまたはサイン変換、ウェーブレット変換またはクロスオーバー・フィルタを含むがそれに限られない。ある好ましい実装では、用いられるフィルタバンクまたは変換は、FDNプロセスの計算上の複雑さを低減するために間引き（たとえば、周波数領域信号表現のサンプリング・レートの減少）を含む。

第一のクラス（および第二のクラス）のいくつかの実施形態は、以下の特徴の一つまたは複数を実装する。

１．フィルタバンク領域（たとえばハイブリッド複素直交ミラー・フィルタ領域）のFDN実装またはハイブリッドのフィルタバンク領域FDN実装および時間領域後期残響フィルタ実装。これは典型的には、各周波数帯域についてのFDNのパラメータおよび／または設定の独立な調整を許容する（これは、周波数依存の音響属性の単純で柔軟な制御を可能にする）。これはたとえば、モード密度を周波数の関数として変化させるよう異なる帯域における残響タンク遅延を変化させる能力を提供することによる。

２．（マルチチャネル入力オーディオ信号から）第二の処理経路において処理される、ダウンミックスされた（たとえばモノフォニック・ダウンミックスされた）信号を生成するために用いられる特定のダウンミックス・プロセスは、各チャネルの源距離ならびに直接応答と後期応答の間の適正なレベルおよびタイミング関係を維持するための直接応答の扱いに依存する。

３．結果として生じる残響のスペクトルおよび／または音色を変えることなく位相多様性（diversity）および増大したエコー密度を導入するために、第二の処理経路において（たとえばFDNのバンクの入力または出力において）全域通過フィルタ（APF: all-pass filter）が適用される。

４．ダウンサンプル因子格子（downsample-factor grid）に量子化された遅延に関係した問題を克服するために、複素数値のマルチレート構造における各FDNのフィードバック経路において、端数遅延（fractional delay）が実装される。

５．FDNにおいて、残響タンク出力は、各周波数帯域における所望される両耳間コヒーレンスに基づいて設定される出力混合係数を使って、バイノーラル・チャネル中に直接、線形に混合される。任意的に、残響タンクの、バイノーラル出力チャネルへのマッピングは、バイノーラル・チャネル間の均衡した遅延を達成するために、諸周波数帯域を横断して交互する。また任意的に、残響タンク出力には、端数遅延および全体的なパワーを保存しつつそのレベルを等化するために、規格化因子が適用される。

６．周波数依存の残響減衰時間および／またはモード密度が、実際の部屋をシミュレートするよう各周波数帯域における残響タンク遅延および利得の適正な組み合わせを設定することによって制御される。

７．周波数帯域毎に（たとえば関連する処理経路の入力または出力のいずれかにおいて）一つのスケーリング因子が適用される。これは：
実際の部屋のDLRにマッチする周波数依存の直接対後期比（DLR: direct-to-late ratio）を制御する（目標DLRおよび残響減衰時間、たとえばT60に基づいて、必要とされるスケーリング因子を計算するために、単純なモデルが使用されてもよい）；
過剰なコーミング（combing）アーチファクトおよび／または低周波数のごろごろ音（low-frequency rumble）を緩和するための低周波数減衰を提供する；および／または
FDN応答に拡散場スペクトル整形（diffuse field spectral shaping）を適用するためである。

８．残響減衰時間、両耳間コヒーレンスおよび／または直接対後期比といった後期残響の本質的な周波数依存の属性を制御するために単純なパラメトリック・モデルが実装される。

本発明の諸側面は、オーディオ信号（たとえば、オーディオ・コンテンツがスピーカー・チャネルからなるオーディオ信号および／またはオブジェクト・ベースのオーディオ信号）のバイノーラル仮想化を実行する（または実行するよう構成されているまたはその実行をサポートする）方法およびシステムを含む。

別のクラスの実施形態では、本発明は、マルチチャネル・オーディオ入力信号のチャネルのある集合に応答してバイノーラル信号を生成する方法およびシステムである。これは、前記集合の各チャネルにバイノーラル室内インパルス応答（BRIR）を適用し、それによりフィルタリングされた信号を生成する段階であって、前記集合のチャネルのダウンミックスに共通の後期残響を加えるよう単一のフィードバック遅延ネットワーク（FDN）を使うことによることを含む、段階と；フィルタリングされた信号を組み合わせてバイノーラル信号を生成する段階とを実行することによることを含む。FDNは時間領域で実装される。そのようないくつかの実施形態では、時間領域FDNは：
前記ダウンミックスを受領するよう結合された入力をもつ入力フィルタであって、該入力フィルタは前記ダウンミックスに応答して第一のフィルタリングされたダウンミックスを生成するよう構成されている、入力フィルタと；
前記第一のフィルタリングされたダウンミックスに応答して第二のフィルタリングされたダウンミックスをするよう結合され、構成された全域通過フィルタと；
第一の出力および第二の出力をもつ残響適用サブシステムであって、前記残響適用サブシステムは残響タンクの集合を含み、各残響タンクは異なる遅延をもち、該残響適用サブシステムは、前記第二のフィルタリングされたダウンミックスに応答して第一の未混合バイノーラル・チャネルおよび第二の未混合バイノーラル・チャネルを生成し、前記第一の未混合バイノーラル・チャネルを前記第一の出力において呈し、前記第二の未混合バイノーラル・チャネルを前記第二の出力において呈するよう結合され、構成されている、残響適用サブシステムと；
前記残響適用サブシステムに結合され、前記第一の未混合バイノーラル・チャネルおよび第二の未混合バイノーラル・チャネルに応答して第一の混合済みバイノーラル・チャネルおよび第二の混合済みバイノーラル・チャネルを生成するよう構成されている、両耳間相互相関係数（IACC: interaural cross-correlation coefficient）フィルタリングおよび混合段とを含む。

入力フィルタは、各BRIRが少なくとも実質的に目標DLRにマッチする直接対後期比（DLR）をもつよう前記第一のフィルタリングされたダウンミックスを生成するよう（好ましくは、それを生成するよう構成された二つのフィルタのカスケードとして）実装されてもよい。

各残響タンクは、遅延された信号を生成するよう構成されていてもよく、前記各残響タンクにおいて伝搬する信号に利得を加えて、遅延された信号が少なくとも実質的に目標の遅延された利得にマッチする利得をもつようにするよう結合され、構成された残響フィルタ（たとえば、シェルフ・フィルタまたはシェルフ・フィルタのカスケードとして実装される）を含んでいてもよい。各BRIRの目標残響減衰時間特性（たとえばT₆₀特性）を達成するためである。

いくつかの実施形態では、前記第一の未混合バイノーラル・チャネルは前記第二の未混合バイノーラル・チャネルより進んでおり、前記残響タンクは、最も短い遅延をもつ第一の遅延された信号を生成するよう構成された第一の残響タンクと、二番目に短い遅延をもつ第二の遅延された信号を生成するよう構成された第二の残響タンクとを含む。前記第一の残響タンクは前記第一の遅延された信号に第一の利得を適用するよう構成され、前記第二の残響タンクは前記第二の遅延された信号に第二の利得を適用するよう構成され、前記第二の利得は前記第一の利得とは異なり、前記第二の利得は前記第一の利得とは異なり、前記第一の利得および前記第二の利得の適用により、前記第二の未混合バイノーラル・チャネルに対して前記第一の未混合バイノーラル・チャネルの減衰が帰結する。典型的には、前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルは、再センタリングされた（re-centered）ステレオ像を示す。いくつかの実施形態では、前記IACCフィルタリングおよび混合段は、前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルが少なくとも実質的に目標IACC特性に一致するIACC特性をもつよう前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルを生成するよう構成されている。

本発明の典型的な実施形態は、スピーカー・チャネルからなる入力オーディオおよびオブジェクト・ベースの入力オーディオの両方をサポートするための単純で統一された枠組みを提供する。オブジェクト・チャネルである入力信号チャネルにBRIRが適用される実施形態では、各オブジェクト・チャネルに対して実行される「直接応答および早期反射」処理は、そのオブジェクト・チャネルのオーディオ・コンテンツと一緒に提供されたメタデータによって示される源方向を想定する。スピーカー・チャネルである入力信号チャネルにBRIRが適用される実施形態では、各スピーカー・チャネルに対して実行される「直接応答および早期反射」処理は、そのスピーカー・チャネルに対応する源方向（すなわち、対応するスピーカーの想定される位置から想定される聴取者位置への直接経路の方向）を想定する。入力チャネルがオブジェクト・チャネルであるかスピーカー・チャネルであるかに関わりなく、「後期残響」処理は、入力チャネルのダウンミックス（たとえばモノフォニック・ダウンミックス）に対して実行され、ダウンミックスのオーディオ・コンテンツについてのいかなる特定の源方向も想定しない。

本発明の他の側面は、本発明の方法の任意の実施形態を実行するよう構成された（たとえばプログラムされた）ヘッドフォン仮想化器、そのような仮想化器を含むシステム（たとえばステレオ、マルチチャネルまたは他のデコーダ）および本発明の方法の任意の実施形態を実装するためのコードを記憶するコンピュータ可読媒体（たとえばディスク）である。

通常のヘッドフォン仮想化システムのブロック図である。本発明のヘッドフォン仮想化システムのある実施形態を含むシステムのブロック図である。本発明のヘッドフォン仮想化システムのもう一つの実施形態のブロック図である。図３のシステムの典型的な実装に含められる型のFDNのブロック図である。二つの特定の周波数（f_Aおよびf_B）のそれぞれにおけるT₆₀の値が、f_A＝10HzでT_60,A＝320msおよびf_B＝2.4kHzでT_60,B＝150msのように設定されている本発明の仮想化器のある実施形態によって達成されうる、Hz単位の周波数の関数としてのミリ秒単位での残響減衰時間（T₆₀）のグラフである。制御パラメータCoh_max、Coh_minおよびf_CがCoh_max＝0.95、Coh_min＝0.05およびf_C＝700Hzの値をもつよう設定されている本発明の仮想化器のある実施形態によって達成されうる、Hz単位の周波数の関数としての両耳間コヒーレンス（Coh）のグラフである。制御パラメータDLR_1K、DLR_slope、DLR_min、HPF_slopeおよびf_TがDLR_1K＝18dB、DLR_slope＝周波数10倍毎に6dB、DLR_min＝18dB、HPF_slope＝周波数10倍毎に6dBおよびf_T＝200Hzの値をもつよう設定されている本発明の仮想化器のある実施形態によって達成されうる、Hz単位の周波数の関数としての、1メートルの源距離でのdB単位での直接対後期比（DLR）のグラフである。本発明のヘッドフォン仮想化システムの後期残響処理サブシステムのもう一つの実施形態のブロック図である。本発明のシステムのいくつかの実施形態に含まれる型のFDNの時間領域実装のブロック図である。図９のフィルタ４００の実装の例のブロック図である。図９のフィルタ４０６の実装の例のブロック図である。後期残響処理サブシステム２２１が時間領域で実装される本発明のヘッドフォン仮想化システムのある実施形態のブロック図である。図９のFDNの要素４２２、４２３および４２４の実施形態のブロック図である。Ａは、フィルタ５００の典型的な実装の周波数応答（R1）、フィルタ５０１の典型的な実装の周波数応答（R2）およびフィルタ５００と５０１を並列に接続したものの周波数応答のグラフである。図９のFDNのある実装によって達成されうるIACC特性（曲線「I」）および目標（target）IACC特性（曲線「I_T」）の例のグラフである。フィルタ４０６、４０７、４０８および４０９のそれぞれをシェルフ・フィルタとして適切に実装することによって図９のFDNのある実装によって達成されうるT60特性のグラフである。フィルタ４０６、４０７、４０８および４０９のそれぞれを二つのIIRシェルフ・フィルタのカスケードとして適切に実装することによって図９のFDNのある実装によって達成されうるT60特性のグラフである。

〈記法および命名法〉
請求項を含む本開示を通じて、信号またはデータ「に対して」動作を実行する（たとえば信号またはデータをフィルタリングする、スケーリングする、変換するまたは利得を適用する）という表現は、信号またはデータに対して直接的に、または信号またはデータの処理されたバージョンに対して（たとえば、予備的なフィルタリングまたは前処理を該動作の実行に先立って受けている前記信号のバージョンに対して）該動作を実行することを表わすために広義で使用される。

請求項を含む本開示を通じて、「システム」という表現は、装置、システムまたはサブシステムを表わす広義で使用される。たとえば、仮想化器を実装するサブシステムは、仮想化器システムと称されてもよく、そのようなサブシステムを含むシステム（たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、前記サブシステムが入力のうちのM個を生成し、他のX－M個の入力は外部源から受領されるもの）も仮想化器システム（または仮想化器）と称されることがある。

請求項を含む本開示を通じて、用語「プロセッサ」は、データ（たとえばオーディオまたはビデオまたは他の画像データ）に対して動作を実行するよう（たとえばソフトウェアまたはファームウェアを用いて）プログラム可能または他の仕方で構成可能であるシステムまたは装置を表わす広義で使用される。プロセッサの例は、フィールド・プログラム可能なゲート・アレイ（または他の構成可能な集積回路またはチップセット）、オーディオまたは他のサウンド・データに対してパイプライン化された処理を実行するようプログラムされたおよび／または他の仕方で構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサもしくはコンピュータおよびプログラム可能なマイクロプロセッサ・チップまたはチップセットを含む。

請求項を含む本開示を通じて、表現「分解フィルタバンク」は、時間領域信号に対して変換（たとえば時間領域から周波数領域への変換）を適用して、一組の周波数帯域のそれぞれにおいて該時間領域信号の内容を示す値（たとえば周波数成分）を生成するよう構成されたシステム（たとえばサブシステム）を表わす広義で使用される。請求項を含む本開示を通じて、表現「フィルタバンク領域」は、変換または分解フィルタバンクによって生成される周波数成分の領域（たとえばそのような周波数成分が処理される領域）を表わす広義で使用される。フィルタバンク領域の例は（これに限られないが）周波数領域、直交ミラー・フィルタ（QMF）領域およびハイブリッド複素直交ミラー・フィルタ（HCQMF）領域を含む。分解フィルタバンクによって適用されうる変換の例は（これに限られないが）離散コサイン変換（DCT）、修正離散コサイン変換（MDCT）、離散フーリエ変換（DFT）およびウェーブレット変換を含む。分解フィルタバンクの例は（これに限られないが）直交ミラー・フィルタ（QMF）、有限インパルス応答フィルタ（FIRフィルタ）、無限インパルス応答フィルタ（IIRフィルタ）、クロスオーバー・フィルタおよび他の好適なマルチレート構造をもつフィルタを含む。

請求項を含む本開示を通じて、「メタデータ」という用語は、対応するオーディオ・データ（メタデータをも含むビットストリームの、オーディオ・コンテンツ）とは別個の異なるデータを指す。メタデータは、オーディオ・データに関連付けられ、該オーディオ・データの少なくとも一つの特徴または特性（たとえばそのオーディオ・データに対してどの型（単数または複数）の処理がすでに実行されているか、あるいは実行されるべきかまたはそのオーディオ・データによって示されるオブジェクトの軌跡）を示す。メタデータのオーディオ・データとの関連付けは、時間同期的である。このように、現在の（最も最近受領または更新された）メタデータは、対応するオーディオ・データが同時的に、示される特徴をもつおよび／または示される型のオーディオ・データ処理の結果を含むことを示しうる。

請求項を含む本開示を通じて、「結合する」または「結合される」という用語は、直接的または間接的な接続を意味するために使われる。よって、第一の装置が第二の装置に結合する場合、その接続は、直接接続を通じてであってもよいし、他の装置および接続を介した間接的な接続を通じてであってもよい。

請求項を含む本開示を通じて、以下の表現は以下の定義をもつ。

スピーカーおよびラウドスピーカーは、任意の音を発するトランスデューサを表わすものとして同義に使われる。この定義は、複数のトランスデューサ（たとえばウーファーおよびツイーター）として実装されるラウドスピーカーを含む。

スピーカー・フィード：ラウドスピーカーに直接加えられるオーディオ信号または直列の増幅器およびラウドスピーカーに加えられるオーディオ信号。

チャネル（または「オーディオ・チャネル」）：モノフォニック・オーディオ信号。そのような信号は典型的には、該信号を所望されるまたは公称上の位置にあるラウドスピーカーに直接加えるのと等価であるようにレンダリングされることができる。所望される位置は、物理的なラウドスピーカーでは典型的にそうであるように静的であってもよく、あるいは動的であってもよい。

オーディオ・プログラム：一つまたは複数のオーディオ・チャネル（少なくとも一つのスピーカー・チャネルおよび／または少なくとも一つのオブジェクト・チャネル）および任意的には関連するメタデータ（たとえば、所望される空間的オーディオ呈示を記述するメタデータ）の集合。

スピーカー・チャネル（または「スピーカー・フィード・チャネル」）：（所望されるまたは公称上の位置にある）指定されたラウドスピーカーに関連付けられているまたは定義されたスピーカー配位内での指定されたスピーカー・ゾーンに関連付けられているオーディオ・チャネル。スピーカー・チャネルは、該オーディオ信号を（所望されるまたは公称上の位置にある）指定されたラウドスピーカーにまたは指定されたスピーカー・ゾーン内のスピーカーに直接加えるのと等価であるようにレンダリングされる。

オブジェクト・チャネル：オーディオ源（時にオーディオ「オブジェクト」と称される）によって発される音を示すオーディオ・チャネル。典型的には、オブジェクト・チャネルは、パラメトリックなオーディオ源記述を決定する（たとえば、パラメトリックなオーディオ源記述を示すメタデータがオブジェクト・チャネル内に含められるまたはオブジェクト・チャネルと一緒に提供される）。源記述は、（時間の関数としての）源によって発された音、時間の関数としての源の見かけの位置（たとえば、3D空間座標）および任意的には源を特徴付ける少なくとも一つの追加的パラメータ（たとえば見かけの源サイズまたは幅）を決定してもよい。

オブジェクト・ベースのオーディオ・プログラム：一つまたは複数のオブジェクト・チャネルの集合を（および任意的には少なくとも一つのスピーカー・チャネルも）および任意的には関連するメタデータ（たとえば、オブジェクト・チャネルによって示される音を発するオーディオ・オブジェクトの軌跡を示すメタデータ、あるいは他の仕方でオブジェクト・チャネルによって示される音の所望される空間的オーディオ呈示を示すメタデータまたはオブジェクト・チャネルによって示される音の源である少なくとも一つのオーディオ・オブジェクトの識別情報を示すメタデータ）も含むオーディオ・プログラム。

レンダリング：オーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換するプロセスまたはオーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換し、該スピーカー・フィードを一つまたは複数のラウドスピーカーを使って音に変換するプロセス。（後者の場合、レンダリングは本稿では時にラウドスピーカー「による」レンダリングと称される。）オーディオ・チャネルは、信号を所望される位置にある物理的なラウドスピーカーに直接加えることによって（所望される位置「において」）トリビアルにレンダリングされることができる。あるいは、一つまたは複数のオーディオ・チャネルは、（聴取者にとって）そのようなトリビアルなレンダリングと実質的に等価であるよう設計された多様な仮想化技法の一つを使ってレンダリングされることができる。この後者の場合、各オーディオ・チャネルは、一般には所望される位置とは異なる既知の位置にあるラウドスピーカー（単数または複数）に加えられるべき一つまたは複数のスピーカー・フィードに変換されてもよく、それによりフィードに応答してラウドスピーカーによって発される音は、所望される位置から発しているように知覚されることになる。そのような仮想化技法の例は、ヘッドフォンを介したバイノーラル・レンダリング（たとえばヘッドフォン装着者のために7.1チャネルまでのサラウンド・サウンドをシミュレートする「ドルビー・ヘッドフォン」処理を使う）および波面合成（wave field synthesis）を含む。

マルチチャネル・オーディオ信号が「x.y」または「x.y.z」チャネル信号であるという本稿での記法は信号が「x」個の全周波数スピーカー・チャネル（想定される聴取者の耳の水平面に公称上位置されているスピーカーに対応）と、「y」個のLFE（またはサブウーファー）チャネルと、任意的にはまた「z」個の全周波数頭上スピーカー・チャネル（想定される聴取者の頭の上方に、たとえば部屋の天井またはその近くに位置されるスピーカーに対応）とを有することを表わす。

表現「IACC」は、本稿では、その通常の意味での両耳間相互相関係数を表わす。これは、聴取者の耳でのオーディオ信号到達時刻の間の差の指標であり、典型的には、到達する信号が大きさにおいて等しく正確に逆相であることを示す第一の値から到達する信号が類似性をもたないことを示す中間的な値を経て、同じ振幅および位相をもつ同一の到達する信号を示す最大値までの範囲内の数によって示される。

〈好ましい実施形態の詳細な説明〉
本発明の多くの実施形態が技術的に可能である。本開示からそれらをどのように実装するかは当業者には明確であろう。本発明のシステムおよび方法の実施形態を図２～図１４を参照して記述する。

図２は、本発明のヘッドフォン仮想化システムのある実施形態を含むシステム（２０）のブロック図である。本ヘッドフォン仮想化システム（時に仮想化器と称される）は、マルチチャネル・オーディオ入力信号のN個の全周波数範囲チャネル（X₁,…,X_N）にバイノーラル室内インパルス応答（BRIR）を適用するよう構成されている。チャネルX₁,…,X_N（これらはスピーカー・チャネルまたはオブジェクト・チャネルでありうる）のそれぞれは、想定される聴取者に対する特定の源方向および距離に対応し、図２のシステムは、そのような各チャネルを、対応する源方向および距離についてのBRIRによって畳み込みするよう構成されている。

システム２０は、エンコードされたオーディオ・プログラムを受領するよう結合されており、それからN個の全周波数範囲チャネル（X₁,…,X_N）を復元することによることを含め該プログラムをデコードし、それらを（図のように結合された要素１２、…１４、１５、１６、１８を有する）仮想化システムの要素１２、…、１４、１５に提供するよう結合され、構成されているサブシステム（図２には示さず）を含むデコーダであってもよい。デコーダは、追加的なサブシステムを含んでいてもよく、そのいくつかは、仮想化システムによって実行される仮想化機能に関係しない機能を実行し、そのいくつかは仮想化機能に関係する機能を実行してもよい。たとえば、後者の機能は、エンコードされたプログラムからのメタデータの抽出と、該メタデータを、該メタデータを用いて仮想化器システムの要素を制御する仮想化制御サブシステムに提供することとを含んでいてもよい。

サブシステム１２は（サブシステム１５とともに）チャネルX₁をBRIR₁（対応する源方向および距離についてのBRIR）と畳み込みするよう構成されており、サブシステム１４は（サブシステム１５とともに）チャネルX_NをBRIR_N（対応する源方向についてのBRIR）と畳み込みするよう構成されており、N－2個の他のBRIRサブシステムのそれぞれについても同様である。サブシステム１２、…、１４、１５のそれぞれの出力は、左チャネルおよび右チャネルを含む時間領域信号である。加算要素１６および１８は要素１２、…、１４、１５の出力に結合される。加算要素１６は、諸BRIRサブシステムの左チャネル出力どうしを組み合わせる（混合する）よう構成されており、加算要素１８は、諸BRIRサブシステムの右チャネル出力どうしを組み合わせる（混合する）よう構成されている。要素１６の出力は、図２の仮想化器から出力されるバイノーラル・オーディオ信号の左チャネルLであり、要素１８の出力は、図２の仮想化器から出力されるバイノーラル・オーディオ信号の右チャネルRである。

本発明の典型的な実施形態の重要な特徴は、本発明のヘッドフォン仮想化器の図２の実施形態を図１の通常のヘッドフォン仮想化器と比べることから明白になる。比較のために、図１および図２のシステムは、そのそれぞれに同じマルチチャネル・オーディオ入力信号が呈されるとき、それらのシステムが同じ直接応答および早期反射部分（すなわち、図２の関連するEBRIR_i）をもつBRIR_iを入力信号のそれぞれの全周波数範囲チャネルX_iに適用するよう（必ずしも同じ度合いの成功ではないが）、構成されているとする。図１または図２のシステムによって適用される各BRIR_iは、直接応答および早期反射部分（たとえば図２のサブシステム１２～１４によって適用されるEBRIR₁、…、EBRIR_Nの一つ）と後期残響部分という二つの部分に分解できる。図２の実施形態（および本発明の他の典型的な実施形態）は、複数の単一チャネルBRIR、すなわちBRIR_iの後期残響部分が源方向を横断して、よってすべてのチャネルを横断して共有されることができ、入力信号のすべての全周波数範囲チャネルのダウンミックスに同じ後期残響（すなわち共通の後期残響）を適用できることを想定する。このダウンミックスは、すべての入力チャネルのモノフォニック（モノ）ダウンミックスであることができるが、代替的には、入力チャネルから（たとえば入力チャネルの部分集合から）得られるステレオまたはマルチチャネルのダウンミックスであってもよい。

より具体的には、図２のサブシステム１２は、入力信号チャネルX₁をEBRIR₁（対応する源方向についての直接応答および早期反射BRIR部分）と畳み込みするよう構成され、サブシステム１４は、入力信号チャネルX_NをEBRIR_N（対応する源方向についての直接応答および早期反射BRIR部分）と畳み込みするよう構成される、などとなる。図２の後期残響サブシステム１５は、入力信号のすべての全周波数範囲チャネルのモノ・ダウンミックスを生成し、該ダウンミックスをLBRIR（ダウンミックスされるチャネルのすべてについての共通の後期残響）と畳み込みするよう構成されている。図２の仮想化器の各BRIRサブシステム（サブシステム１２、…、１４、１５のそれぞれ）の出力は、（対応するスピーカー・チャネルまたはダウンミックスから生成されたバイノーラル信号の）左チャネルおよび右チャネルを含む。それらのBRIRサブシステムの左チャネル出力は加算要素１６において組み合わされ（混合され）、それらのBRIRサブシステムの右チャネル出力は加算要素１８において組み合わされる（混合される）。

適切なレベル調整および時間整列がサブシステム１２、…、１４、１５において実装されていると想定して、加算要素１６は、対応する左バイノーラル・チャネル・サンプル（サブシステム１２、…、１４、１５の左チャネル出力）を単に合計してバイノーラル出力信号の左チャネルを生成するよう実装されることができる。同様に、やはり適切なレベル調整および時間整列がサブシステム１２、…、１４、１５において実装されていると想定して、加算要素１８も、対応する右バイノーラル・チャネル・サンプル（サブシステム１２、…、１４、１５の右チャネル出力）を単に合計してバイノーラル出力信号の右チャネルを生成するよう実装されることができる。

図２のサブシステム１５は、多様な仕方の任意のもので実装できるが、典型的には、それに呈される入力信号チャネルのモノフォニック・ダウンミックスに共通の後期残響を加えるよう構成された少なくとも一つのフィードバック遅延ネットワークを含む。典型的には、サブシステム１２、…、１４のそれぞれが、処理対象のチャネル（X_i）についての単一チャネルBRIRの直接応答および早期反射部分（EBRIR_i）を適用する場合、共通の後期残響は、（その「直接応答および早期反射部分」がサブシステム１２、…、１４によって適用される）それらの単一チャネルBRIRの少なくともいくつか（たとえば全部）の後期残響部分の集団的なマクロ属性をエミュレートするよう生成されている。たとえば、サブシステム１５のある実装は、それに呈される入力信号チャネルのモノフォニック・ダウンミックスに共通の後期残響を適用するよう構成されているフィードバック遅延ネットワーク（２０３、２０４、…、２０５）のバンクを含む、図３のサブシステム２００と同じ構造をもつ。

同様に、図２のサブシステム１２、…、１４は、（時間領域またはフィルタバンク領域の）多様な仕方の任意のもので実装でき、何らかの特定の用途のための好ましい実装は、（たとえば）パフォーマンス、計算およびメモリのようなさまざまな事情に依存する。ある例示的実装では、サブシステム１２、…、１４のそれぞれは、それに呈されるチャネルを、そのチャネルに関連付けられた直接および早期応答に対応するFIRフィルタと畳み込みするよう構成される。利得および遅延は、サブシステム１２、…、１４の出力がサブシステム１５の出力と単純にかつ効率的に組み合わされてもよいように適正に設定される。

図３は、本発明のヘッドフォン仮想化システムのもう一つの実施形態のブロック図である。図３の実施形態は図２の実施形態と同様であり、二つの（左および右チャネルの）時間領域信号が直接応答および早期反射処理サブシステム１００から出力され、二つの（左および右チャネルの）時間領域信号が後期残響処理サブシステム２００から出力される。加算要素２１０がサブシステム１００および２００の出力に結合される。要素２１０は、サブシステム１００および２００の左チャネル出力を組み合わせて（混合して）図３の仮想化器から出力されるバイノーラル・オーディオ信号の左チャネルLを生成し、サブシステム１００および２００の右チャネル出力を組み合わせて（混合して）図３の仮想化器から出力されるバイノーラル・オーディオ信号の右チャネルRを生成するよう構成される。適切なレベル調整および時間整列がサブシステム１００および２００において実装されていると想定して、要素２１０は、サブシステム１００および２００から出力される対応する左チャネル・サンプルを単純に合計してバイノーラル出力信号の左チャネルを生成し、サブシステム１００および２００から出力される対応する右チャネル・サンプルを単純に合計してバイノーラル出力信号の右チャネルを生成するよう実装されることができる。

図３のシステムでは、マルチチャネル・オーディオ入力信号のチャネルX_iは、二つの並列な処理経路に向けられ、そこで処理を受ける。一方は直接応答および早期反射処理サブシステム１００を通り、他方は後期残響処理サブシステム２００を通る。図３のシステムは、各チャネルX_iにBRIR_iを適用するよう構成されている。各BRIR_iは、直接応答および早期反射部分（サブシステム１００によって適用される）と後期残響部分（サブシステム２００によって適用される）という二つの部分に分解できる。動作では、直接応答および早期反射処理サブシステム１００はこうして仮想化器から出力されるバイノーラル・オーディオ信号の直接応答および早期反射部分を生成し、後期残響処理サブシステム（「後期残響生成器」）２００はこうして仮想化器から出力されるバイノーラル・オーディオ信号の後期残響部分を生成する。サブシステム１００および２００の出力は（加算サブシステム２１０によって）混合され、バイノーラル・オーディオ信号を生成し、該バイノーラル・オーディオ信号は典型的にはサブシステム２１０からレンダリング・システム（図示せず）に呈され、レンダリング・システムにおいてヘッドフォンによる再生のためのバイノーラル・レンダリングを受ける。

典型的には、一対のヘッドフォンによってレンダリングされ、再生されるとき、要素２１０から出力される典型的なバイノーラル・オーディオ信号は聴取者の鼓膜において、聴取者の前方、背後および上方の位置を含む幅広い多様な位置の任意のところにある「N」個のラウドスピーカーからの音として知覚される（ここでN≧2であり、Nは典型的には2、5または7である）。図３のシステムの動作において生成された出力信号の再生は、聴取者に、二つより多くの（たとえば五個または七個の）「サラウンド」源からくる音の経験を与えることができる。これらの源の少なくともいくつかは仮想的である。

直接応答および早期反射処理サブシステム１００は、（時間領域またはフィルタバンク領域の）多様な仕方の任意のもので実装でき、何らかの特定の用途のための好ましい実装は、（たとえば）パフォーマンス、計算およびメモリのようなさまざまな事情に依存する。ある例示的実装では、サブシステム１００は、それに呈される各チャネルを、そのチャネルに関連付けられた直接および早期応答に対応するFIRフィルタと畳み込みするよう構成される。利得および遅延は、サブシステム１００の出力がサブシステム２００の出力と（要素２１０において）単純にかつ効率的に組み合わされてもよいように適正に設定される。

図３に示されるように、後期残響生成器２００は、ダウンミックス・サブシステム２０１、分解フィルタバンク２０２、FDN（FDN ２０３、２０４、…、２０５）のバンクおよび合成フィルタバンク２０７を図のように結合したものを含む。サブシステム２０１は、マルチチャネル入力信号のチャネルをモノ・ダウンミックスにダウンミックスするよう構成されており、分解フィルタバンク２０２はモノ・ダウンミックスに変換を適用して、モノ・ダウンミックスを「K」個の周波数帯域に分割するよう構成されている。ここで、Kは整数である。それぞれの異なる周波数帯域における（フィルタバンク２０２から出力される）フィルタバンク領域値は、FDN ２０３、２０４、…、２０５のうちの異なるものに呈される（これらのFDNは「K」個あり、それぞれそれに呈されたフィルタバンク領域値にBRIRの後期残響部分を適用するよう結合され、構成されている）。フィルタバンク領域値は好ましくは、FDNの計算上の複雑さを軽減するよう、時間において間引きされる。

原理的には、（図３のサブシステム１００およびサブシステム２０１への）各入力チャネルは、そのBRIRの後期残響部分をシミュレートするよう独自のFDN（またはFDNのバンク）によって処理されることができる。異なる音源位置に関連付けられたBRIRの後期残響部分が典型的にはインパルス応答における二乗平均平方根の点では非常に異なっているという事実にもかかわらず、その平均パワー・スペクトル、そのエネルギー減衰構造、モード密度、ピーク密度などといった統計的な属性はしばしば非常に似通っている。したがって、一組のBRIRの後期残響部分は典型的には、チャネルを横断して知覚的にきわめて似通っているので、二つ以上のBRIRの後期残響部分をシミュレートするために一つの共通のFDNまたはFDN（たとえば、FDN ２０３、２０４、…、２０５）のバンクを使うことが可能である。典型的な実施形態では、そのような一つの共通のFDN（またはFDNのバンク）が用いられ、それへの入力は、入力チャネルから構築された一つまたは複数のダウンミックスから構成される。図２の例示的実装では、ダウンミックスはすべての入力チャネルのモノフォニック・ダウンミックス（サブシステム２０１の出力において呈される）である。

図２の実施形態を参照するに、FDN ２０３、２０４、…、２０５のそれぞれは、フィルタバンク領域において実装され、分解フィルタバンク２０２から出力される値のうちの異なる周波数帯域を処理して、各帯域についての左および右の残響付加された信号を生成するよう結合され、構成される。各帯域について、左の残響付加された信号はフィルタバンク領域値のシーケンスであり、右の残響付加された信号はフィルタバンク領域値の別のシーケンスである。合成フィルタバンク２０７は、周波数領域から時間領域への変換を、フィルタバンク領域値（たとえばQMF領域の周波数成分）の2K個のシーケンスに適用し、変換された値を集めて（後期残響が適用されたモノ・ダウンミックスのオーディオ・コンテンツを示す）左チャネル時間領域信号および（やはり後期残響が適用されたモノ・ダウンミックスのオーディオ・コンテンツを示す）右チャネル時間領域信号にする。これらの左チャネルおよび右チャネルの信号は要素２１０に出力される。

典型的な実装では、FDN ２０３、２０４、…、２０５のそれぞれはQMF領域で実装され、フィルタバンク２０２はサブシステム２０１からのモノ・ダウンミックスをQMF領域（たとえば、ハイブリッド複素直交ミラー・フィルタ（HCQMF）領域）に変換し、それにより、フィルタバンク２０２からFDN ２０３、２０４、…、２０５のそれぞれの入力に呈される信号はQMF領域周波数成分のシーケンスとなる。そのような実装では、フィルタバンク２０２からFDN ２０３に呈される信号は第一の周波数帯域におけるQMF領域周波数成分のシーケンスであり、フィルタバンク２０２からFDN ２０４に呈される信号は第二の周波数帯域におけるQMF領域周波数成分のシーケンスであり、フィルタバンク２０２からFDN ２０５に呈される信号は第「K」の周波数帯域におけるQMF領域周波数成分のシーケンスである。分解フィルタバンク２０２がそのように実装されるとき、合成フィルタバンク２０７はQMF領域から時間領域への変換をFDNからの出力QMF領域周波数成分の2K個のシーケンスに適用し、要素２１０に出力される左チャネルおよび右チャネルの後期残響付加された時間領域信号を生成する。

たとえば、図３のシステムにおいてK＝3であれば、合成フィルタバンク２０７に対する六つの入力（FDN ２０３、２０４および２０５のそれぞれから出力される周波数領域またはQMF領域サンプルを含む、左および右のチャネル）および２０７からの二つの出力（それぞれ時間領域サンプルからなる左および右のチャネル）がある。この例では、フィルタバンク２０７は典型的には二つの合成フィルバンクとして実装される。一つ（FDN ２０３、２０４および２０５からの三つの左チャネルが呈されるもの）はフィルタバンク２０７から出力される時間領域左チャネル信号を生成するよう構成され、第二のもの（FDN ２０３、２０４および２０５からの三つの右チャネルが呈されるもの）はフィルタバンク２０７から出力される時間領域右チャネル信号を生成するよう構成される。

任意的に、制御サブシステム２０９は、FDN ２０３、２０４、…、２０５のそれぞれに結合され、サブシステム２００によって適用される後期残響部分（LBRIR）を決定するためにそれらFDNのそれぞれに対して制御パラメータを呈するよう構成される。そのような制御パラメータの例を以下で述べる。いくつかの実装では、制御サブシステム２０９は、サブシステム２００によって入力チャネルのモノフォニック・ダウンミックスに適用される後期残響部分（LBRIR）のリアルタイム変動を実装するよう、リアルタイムで（すなわち、入力装置によってそれに呈されるユーザー・コマンドに応答して）動作可能であることが考えられる。

たとえば、図２のシステムへの入力信号が5.1チャネル信号（その全周波数範囲チャネルは次のチャネル順：L,R,C,Ls,Rsである）であれば、すべての全周波数範囲チャネルは同じ源距離をもち、ダウンミックス・サブシステム２０１は次のダウンミックス行列として実装されることができる。これは単に全周波数範囲チャネルを合計してモノ・ダウンミックスを形成する。

（FDN ２０３、２０４、…、２０５のそれぞれにおける要素３０１内の）全域通過フィルタリング後、モノ・ダウンミックスはパワーを保存する仕方で四つの残響タンクにアップミックスされる。

あるいはまた、（一例として）左側の諸チャネルを最初の二つの残響タンクにパンし、右側の諸チャネルを最後の二つの残響タンクにパンし、中央チャネルをすべての残響タンクにパンすることを選ぶことができる。この場合、ダウンミックス・サブシステム２０１は二つのダウンミックス信号を形成するよう実装されることになる。

この例では、（FDN ２０３、２０４、…、２０５のそれぞれにおける）残響タンクへのアップミックスは次のようになる。

二つのダウンミックス信号があるので、（FDN ２０３、２０４、…、２０５のそれぞれにおける要素３０１内の）全域通過フィルタリングは二度適用される必要がある。(L,Ls)、（R,Rs）およびCの後期応答について、そのすべてが同じマクロ属性をもつにもかかわらず、多様性が導入される。入力信号チャネルが異なる源距離をもつときは、いまだダウンミックス・プロセスにおいて適正な遅延および利得が適用される必要がある。

次に、図３の仮想化器のダウンミックス・サブシステム２０１ならびにサブシステム１００および２００の個別的な実装についての考察を述べる。

サブシステム２０１によって実装されるダウンミックス・プロセスは、ダウンミックスされるべき各チャネルについての（音源と想定される聴取者位置との間の）源距離と、直接応答の扱いとに依存する。直接応答の遅延t_dは：
t_d＝d/v_s
である。ここで、dは音源と聴取者との間の距離であり、v_sは音速である。さらに、直接応答の利得は1/dに比例する。これらのルールが異なる源距離をもつチャネルの直接応答の扱いにおいて保存されるならば、サブシステム２０１は、すべてのチャネルのストレートなダウンミックスを実装できる。後期残響の遅延およびレベルは一般に、源位置に敏感ではないからである。

実際的な事情のため、仮想化器（たとえば図３の仮想化器のサブシステム１００）は、異なる源距離をもつ入力チャネルについての直接応答を時間整列させるよう実装されてもよい。各チャネルについての直接応答と後期残響との間の相対的な遅延を保存するために、源距離dをもつチャネルは他のチャネルとダウンミックスされる前に(dmax－d)/v_sだけ遅延させられるべきである。ここで、dmaxは最大可能な源距離を表わす。

仮想化器（たとえば図３の仮想化器のサブシステム１００）は、直接応答のダイナミックレンジを圧縮するようにも実装されてもよい。たとえば、源距離dをもつチャネルについての直接応答は、d^-1の代わりに因子d^-αによってスケーリングされてもよい。ここで、0≦α≦1である。直接応答と後期残響との間のレベル差を保存するために、ダウンミックス・サブシステム２０１は、源距離dをもつチャネルを、他のスケーリングされたチャネルとダウンミックスする前に、因子d^1-αによってスケーリングするよう実装される必要があることがある。

図４のフィードバック遅延ネットワークは図３のFDN ２０３（または２０４または２０５）の例示的な実装である。図４のシステムは四つの残響タンク（それぞれ利得段g_iおよび遅延線z^-niを含む）をもつが、このシステムの変形（および本発明の仮想化器の実施形態において用いられる他のFDN）は四つより多いまたは四つより少ない残響タンクを実装する。

図４のFDNは、入力利得要素３００と、要素３００の出力に結合された全域通過フィルタ（APF: all-pass filter）３０１と、APF ３０１の出力に結合された加算要素３０２、３０３、３０４および３０５と、それぞれ要素３０２、３０３、３０４および３０５の異なるものの出力に結合された四つの残響タンクとを含む（各残響タンクは、利得要素g_k（要素３０６の一つ）と、それに結合された遅延線z^-Mk（要素３０７の一つ）と、それに結合された利得要素1/g_k（要素３０９の一つ）とを有し、0≦k－1≦3）。ユニタリー・マトリクス３０８が遅延線３０７の出力に結合され、要素３０２、３０３、３０４および３０５のそれぞれの第二の入力に対してフィードバック出力を呈するよう構成されている。利得要素３０９のうちの二つのもの（第一および第二の残響タンク）の出力は、加算要素３１０の入力に呈され、要素３１０の出力は出力混合マトリクス３１２の一方の入力に呈される。利得要素３０９のうちの他の二つのもの（第三および第四の残響タンク）の出力は、加算要素３１１の入力に呈され、要素３１１の出力は出力混合マトリクス３１２の他方の入力に呈される。

要素３０２は、遅延線z^-n1に対応するマトリクス３０８の出力を、第一の残響タンクの入力に加える（すなわち、マトリクス３０８を介した遅延線z^-n1の出力からのフィードバックを適用する）よう構成されている。要素３０３は、遅延線z^-n2に対応するマトリクス３０８の出力を、第二の残響タンクの入力に加える（すなわち、マトリクス３０８を介した遅延線z^-n2の出力からのフィードバックを適用する）よう構成されている。要素３０４は、遅延線z^-n3に対応するマトリクス３０８の出力を、第三の残響タンクの入力に加える（すなわち、マトリクス３０８を介した遅延線z^-n3の出力からのフィードバックを適用する）よう構成されている。要素３０５は、遅延線z^-n4に対応するマトリクス３０８の出力を、第四の残響タンクの入力に加える（すなわち、マトリクス３０８を介した遅延線z^-n4の出力からのフィードバックを適用する）よう構成されている。

図４のFDNの入力利得要素３００は、図３の分解フィルタバンク２０２から出力される変換されたモノフォニック・ダウンミックス信号（フィルタバンク領域信号）の一つの周波数帯域を受領するよう結合されている。入力利得要素３００は、それに呈されるフィルタバンク領域信号に、利得（スケーリング）因子G_inを適用する。集団的に、すべての周波数帯域についての（図３のFDN ２０３、２０４、…、２０５すべてによって実装される）スケーリング因子G_inは、後期残響のスペクトル整形およびレベルを制御する。図３の仮想化器のすべてのFDNにおける入力利得G_inを設定することは、しばしば以下の目標を考慮に入れる：
実際の部屋にマッチする、各チャネルに適用されるBRIRの直接対後期比（DLR）；
過剰なコーミング・アーチファクトおよび／または低周波数のごろごろ音を緩和するための必要な低周波数減衰；
拡散場スペクトル包絡のマッチング。

（図３のサブシステム１００によって適用される）直接応答がすべての周波数帯域において単位利得（unitary gain）を提供するとすると、特定のDLR（パワー比）は：
G_in＝sqrt(ln(10⁶)/(T60*DLR))
となるようG_inを設定することによって、達成できる。ここで、T60は、残響が60dB減衰するのにかかる時間として定義される残響減衰時間（これは以下で論じる残響遅延および残響利得によって決定される）であり、「ln」は自然対数関数を表わす。

入力利得因子G_inは処理されているコンテンツに依存してもよい。そのようなコンテンツ依存性の一つの応用は、入力チャネル信号間に存在するいかなる相関にもかかわりなく、各時間／周波数セグメントにおけるダウンミックスのエネルギーが、ダウンミックスされる個々のチャネル信号のエネルギーの和に等しいことを保証することである。その場合、入力利得因子は

と似たまたはこれに等しい項であることができる（あるいはそのような項を乗算されることができる）。ここで、iは所与の時間／周波数タイルまたはサブバンドのすべてのダウンミックス・サンプルにわたるインデックスであり、y(i)はそのタイルについてのダウンミックス・サンプルであり、x_i(j)はダウンミックス・サブシステム２０１の入力に呈される（チャネルX_iについての）入力信号である。

図４のFDNの典型的なQMF領域実装では、全域通過フィルタ（APF）３０１の出力から残響タンクの入力に呈される信号はQMF領域周波数成分のシーケンスである。より自然に聞こえるFDN出力を生成するために、利得要素３００の出力にAPF ３０１が適用されて、位相多様性および増大したエコー密度を導入する。代替的または追加的に、一つまたは複数の全域通過フィルタが、（図３の）ダウンミックス・サブシステム２０１への個々の入力に、該入力がサブシステム２０１においてダウンミックスされてFDNによって処理される前に適用されてもよく、あるいは図４に描かれる残響タンク・フィードフォワードまたはフィードバック経路において（たとえば、各残響タンクにおける遅延線z^-Mkに加えてまたはその代わりに）適用されてもよく、あるいはFDNの出力に（すなわち、出力マトリクス３１２の出力に）適用されてもよい。

残響タンク遅延z^-niを実装する際、残響モードが同じ周波数で整列するのを避けるために、残響遅延n_iは互いに素であるべきである。遅延の合計は、人工的に聞こえる出力を避けるために、十分なモード密度を提供するよう十分大きいべきである。だが、最短の遅延は、後期残響とBRIRの他の成分との間の過剰な時間ギャップを避けるために、十分短いべきである。

典型的には、残響タンク出力は、初期には、左または右のバイノーラル・チャネルのいずれかにパンされる。通常、二つのバイノーラル・チャネルにパンされている残響タンク出力のセットは同数であり、相互排他的である。二つのバイノーラル・チャネルのタイミングを均衡させることも望まれる。よって、最短の遅延をもつ残響タンク出力が一方のバイノーラル・チャネルに行くならば、二番目に短い遅延をもつ残響タンク出力は他方のチャネルに行くことになる。

周波数の関数としてモード密度を変えるよう、残響タンク遅延は周波数帯域を横断して異なることができる。一般に、より低い周波数帯域はより高いモード密度を必要とし、よってより長い残響タンク遅延を必要とする。

残響タンク利得g_iの振幅および残響タンク遅延は、合同して図４のFDNの残響遅延時間を決定する：
T₆₀＝－3n_i／log₁₀(|g_i|)/F_FRM
ここで、F_FRMは（図３の）フィルタバンク２０２のフレーム・レートである。残響タンク利得の位相は、残響タンク遅延がフィルタバンクのダウンサンプル因子格子に量子化されていることに関係する問題を克服するよう、端数遅延を導入する。

ユニタリー・フィードバック・マトリクス３０８は、フィードバック経路における諸残響タンクの間の均等な混合を提供する。

残響タンク出力のレベルを等化するために、利得要素３０９は規格化利得1/|g_i|を各残響タンクの出力に適用し、残響タンク利得のレベル効果を除去する一方でその位相によって導入される端数遅延を保存する。

出力混合マトリクス３１２（行列M_outとしても特定される）は、初期パニングからの未混合バイノーラル・チャネル（それぞれ要素３１０および３１１の出力）を混合して、所望される両耳間コヒーレンスをもつ出力の左および右のバイノーラル・チャネル（マトリクス３１２の出力において呈されるLおよびR信号）を達成するよう構成された2×2のマトリクスである。未混合バイノーラル・チャネルは、初期パニング後には、共通の残響タンク出力を全く含まないので、ほとんど無相関である。所望される両耳間コヒーレンスがCohであり、|Coh|≦1とすると、出力混合マトリクス３１２は

と定義されてもよい。残響タンク遅延が異なるので、未混合バイノーラル・チャネルの一方が常時他方より進んでいる。残響タンク遅延およびパニング・パターンの組み合わせが周波数帯域を横断して同一であれば、音像バイアスが帰結するであろう。このバイアスは、混合済みバイノーラル・チャネルが交互の周波数帯域において互いに進んだり遅れたりするよう、パニング・パターンが周波数帯域を横断して交互にされるならば、緩和できる。これは、出力混合マトリクス３１２を、奇数番目の周波数帯域においては（たとえば、第一の周波数帯域（図３のFDN ２０３によって処理される）、第三の周波数帯域などにおいては）前の段落で述べた形をもつよう、偶数番目の周波数帯域においては（たとえば、第二の周波数帯域（図３のFDN ２０４によって処理される）、第四の周波数帯域などにおいては）

の形をもつよう、実装することによって、達成されることができる。ここで、βの定義は同じままである。マトリクス３１２はすべての周波数帯域において同一であるよう実装されることができるが、交互の周波数帯域についてその入力のチャネル順が切り換えられてもよいことを注意しておくべきである。（たとえば、奇数周波数帯域では要素３１０の出力がマトリクス３１２の第一の入力に呈されてもよく、要素３１１の出力がマトリクス３１２の第二の入力に呈されてもよく、偶数周波数帯域では要素３１１の出力がマトリクス３１２の第一の入力に呈されてもよく、要素３１０の出力がマトリクス３１２の第二の入力に呈されてもよい。）
周波数帯域が（部分的に）重なり合う場合には、それについてマトリクス３１２の形が交互に変えられるような周波数範囲の幅を増すことができる（たとえば、二つまたは三つの連続する帯域ごとに一度変えることができる）。あるいは、連続する周波数帯域のスペクトル重なりについて補償するよう平均コヒーレンスが所望される値に等しいことを保証するために、（マトリクス３１２の形についての）上記の式におけるβの値が調整されることができる。

本発明の仮想化器におけるそれぞれの個別の周波数帯域についてのFDNについて、上記で定義した目標音響属性T60、CohおよびDLRが既知であれば、各FDN（各FDNは図４に示した構造を有していてもよい）は目標属性を達成するよう構成されることができる。特に、いくつかの実施形態では、本稿に記載される関係に従って目標属性を達成するよう、各FDNについての入力利得（G_in）および残響タンクの利得および遅延（g_iおよびn_i）ならびに出力マトリクスM_outのパラメータが（たとえば図３の制御サブシステム２０９によってそれに呈される制御値により）設定されることができる。実際上、特定の音響環境にマッチする自然に聞こえる後期残響を生成するために、単純な制御パラメータをもつモデルによって周波数依存の属性を設定することが十分であることがしばしばである。

次に、本発明の仮想化器のある実施形態の各特定の周波数帯域についてのFDNについての目標残響減衰時間（T₆₀）が少数の周波数帯域のそれぞれについて目標残響減衰時間（T₆₀）を決定することによってどのように決定できるかの例を述べる。FDN応答のレベルは時間とともに指数関数的に減衰する。T₆₀は減衰因子（decay factor）df（単位時間に対するdB減衰として定義される）に反比例する、すなわち：
T₆₀＝60/df
である。

減衰因子dfは周波数に依存し、一般に、対数周波数スケールに対して線形に増大する。よって、残響減衰時間も、周波数の関数であり、周波数が増加するにつれて一般に減少する。したがって、二つの周波数点についてのT₆₀の値を決定（たとえば設定）すれば、すべての周波数についてのT₆₀曲線が決定される。たとえば、周波数点f_Aおよびf_Bについての残響減衰時間がそれぞれT_60,AおよびT_60,Bであれば、T₆₀曲線は次のように定義される。

図５は、二つの特定の周波数（f_Aおよびf_B）のそれぞれにおいてT₆₀値がf_A＝10HzにおいてT_60,A＝320msおよびf_B＝2.4kHzにおいてT_60,B＝150msに設定される本発明の仮想化器のある実施形態によって達成されうるT₆₀曲線の例を示している。

次に、本発明の仮想化器のある実施形態の各特定の周波数帯域についてのFDNについての目標両耳間コヒーレンス（Coh）が少数の制御パラメータを設定することによってどのように達成できるかの例を述べる。後期残響の両耳間コヒーレンス（Coh）はおおむね拡散音場のパターンに従う。それはクロスオーバー周波数f_Cまでのsinc関数およびクロスオーバー周波数より上での定数によってモデル化できる。Coh曲線についての単純なモデルは次のようなものである。

ここで、パラメータCoh_minおよびCoh_maxは－1≦Coh_min＜Coh_max≦1を満たし、Cohの範囲を制御する。最適なクロスオーバー周波数f_Cは聴取者の頭のサイズに依存する。高すぎるf_Cは頭の中に定位される音源像につながり、一方、小さすぎるf_Cは拡散したまたは分割された音源像につながる。図６は、制御パラメータCoh_max、Coh_minおよびf_Cが次の値：Coh_max＝0.95、Coh_min＝0.05およびf_C＝700Hzをもつよう設定された本発明のある実施形態によって達成されうるCoh曲線の例である。

次に、本発明の仮想化器のある実施形態の各特定の周波数帯域についてのFDNについての目標直接対後期比（DLR）が少数の制御パラメータを設定することによってどのように達成できるかの例を述べる。dB単位での直接対後期比（DLR）は一般に、対数周波数に対して線形に増大し、DLR_1K（1kHzでのdB単位でのDLR）とDLRslope（周波数10倍当たりのdB単位）を設定することによって制御される。しかしながら、低周波数範囲での低いDLRはしばしば過剰なコーミング・アーチファクトにつながる。該アーチファクトを緩和するために、DLRを制御する二つの修正機構が加えられる：
最小DLRフロア、DLRmin（dB単位）；および
遷移周波数f_Tおよびそれより下の減衰曲線の傾きHPF_slope（周波数10倍当たりのdB単位）によって定義される高域通過フィルタ（high-pass filter）。

dB単位での、結果として得られるDLR曲線は、次のように定義される。

DLRはたとえ同じ音響環境にあっても源距離とともに変化することを注意しておくべきである。したがって、ここでのDLR_1KおよびDLR_minは1メートルなどの公称源距離についての値である。図７は、制御パラメータDLR_1K、DLR_slope、DLR_min、HPF_slopeおよびf_Tが次の値：DLR_1K＝18dB、DLR_slope＝6dB/周波数10x、DLR_min＝18dB、HPF_slope＝6dB/周波数10xおよびf_T＝200Hzをもつよう設定された本発明の仮想化器のある実施形態によって達成される、1メートルの源距離についてのDLR曲線の例である。

本稿に開示される実施形態の変形は次の特徴のうちの一つまたは複数をもつ：
本発明の仮想化器は、時間領域で実装される、あるいはFDNベースのインパルス応答捕捉およびFIRベースの信号フィルタリングをもつハイブリッド実装をもつ；
本発明の仮想化器は、後期残響処理サブシステムのためのダウンミックスされた入力信号を生成するダウンミックス段階の実行中に、周波数の関数としてエネルギー補償の適用を許容するよう実装される；
本発明の仮想化器は、外部因子に応答して（すなわち、制御パラメータの設定に応答して）適用される後期残響属性の手動または自動的な制御を許容するよう実装される。

システム・レイテンシーが決定的であり、分解および合成フィルタバンクによって引き起こされる遅延が禁止的である用途については、本発明の仮想化器の典型的な実施形態のフィルタバンク領域FDN構造は時間領域に変換されることができ、各FDN構造は本仮想化器のあるクラスの実施形態では時間領域で実装されることができる。時間領域実装では、入力利得因子（G_in）、残響タンク利得（g_i）および規格化利得（1/|g_i|）を適用するサブシステムは、周波数依存の制御を許容するために同様の振幅応答をもつフィルタによって置き換えられる。出力混合マトリクス（M_out）もフィルタのマトリクスによって置き換えられる。他のフィルタと異なり、フィルタのこのマトリクスの位相応答は枢要である。該位相応答によってパワー保存および両耳間コヒーレンスが影響されうるからである。時間領域実装における残響タンク遅延は、共通因子としてフィルタバンク・ストライドを共有することを避けるために（フィルタバンク領域実装における値とは）わずかに変えられる必要があることがある。さまざまな制約条件のため、本発明の仮想化器のFDNの時間領域実装の実行は、そのフィルタバンク実装の場合に正確にマッチしないことがある。

図８を参照して、次に、本発明の仮想化器の本発明の後期残響処理サブシステムのハイブリッド（フィルタバンク領域および時間領域）実装を記述する。本発明の後期残響処理サブシステムのこのハイブリッド実装は、図４の後期残響処理サブシステム２００に対する変形であり、FDNに基づくインパルス応答捕捉およびFIRに基づく信号フィルタリングを実装する。

図８は、図３のサブシステム２００の同一の符号を付けられた要素と同一である要素２０１、２０２、２０３、２０４、２０５および２０７を含む。これらの要素の上記の記述は図８の参照では繰り返さない。図８の実施形態では、単位インパルス生成器２１１が分解フィルタバンク２０２への入力信号（パルス）を呈するよう結合される。FIRフィルタとして実装されるLBRIRフィルタ２０８（モノ入力、ステレオ出力）は該BRIR（LBRIR）の適切な後期残響部分を、サブシステム２０１から出力されたモノフォニック・ダウンミックスに対して適用する。こうして、要素２１１、２０２、２０３、２０４、２０５および２０７は、LBRIRフィルタ２０８に対する処理サイドチェーンである。

後期残響部分LBRIRの設定が修正されるときはいつも、インパルス生成器２１１は、単位インパルスを要素２０２に対して呈するよう動作させられ、フィルタバンク２０７からの結果的な出力が捕捉され、（フィルタバンク２０７の出力によって決定された新たなLBRIRを適用するようフィルタ２０８を設定するため）フィルタ２０８に呈される。LBRIR設定変更から新たなLBRIRが有効になる時間までの時間経過を加速するために、新たなLBRIRのサンプルは、利用可能になるにつれて古いLBRIRを置き換えはじめることができる。FDNの内在的なレイテンシーを短縮するため、LBRIRの最初の諸ゼロは破棄できる。これらのオプションは、柔軟性を提供し、該ハイブリッド実装がFIRフィルタリングから追加される計算を代償として、（フィルタバンク領域実装によって提供されるパフォーマンスに比して）潜在的なパフォーマンス改善を提供することを許容する。

システム・レイテンシーが枢要であるが計算パワーがそれほど問題ではない用途については、サイドチェーン・フィルタバンク領域後期残響処理器（たとえば、図８の要素２１１、２０２、２０３、２０４、…、２０５によって実装されるもの）が、フィルタ２０８によって適用される有効FIRインパルス応答を補足するために使われることができる。FIRフィルタ２０８はこの捕捉されたFIR応答を実装し、（入力チャネルの仮想化の間に）入力チャネルのモノ・ダウンミックスに直接適用することができる。

さまざまなFDNパラメータ、よって結果として得られる後期残響属性は、手動でチューニングされ、その後、本発明の後期残響処理サブシステムの実施形態に固定構成として組み込まれることができる。たとえば、システムのユーザーによって（たとえば図３の制御サブシステム２０９を操作することによって）調整されることのできる一つまたは複数のプリセットによってである。しかしながら、後期残響の高レベルの記述、FDNパラメータとのその関係およびその挙動を修正する能力を与えられれば、FDNベースの後期残響処理器のさまざまな実施形態を制御するための幅広い多様な方法が構想される。それは以下のものを含む（ただしそれに限られない）。

１．エンドユーザーは、たとえば（たとえば図３の制御サブシステム２０９の実施形態によって実装される）ディスプレイ上のユーザー・インターフェースによってFDNパラメータを手動で制御し、あるいは（たとえば図３の制御サブシステム２０９の実施形態によって実装される）物理的なコントロールを使ってプリセットを切り換えてもよい。このようにして、エンドユーザーは、好み、環境またはコンテンツに応じて部屋シミュレーションを適応させることができる。

２．仮想化されるべきオーディオ・コンテンツの作者が、たとえば入力オーディオ信号と一緒に提供されるメタデータによって、コンテンツ自身と一緒に伝達される設定または所望されるパラメータを提供してもよい。そのようなメタデータは、パースされ、関連するFDNパラメータを制御するために（たとえば図３の制御サブシステム２０９の実施形態によって）用いられてもよい。したがって、メタデータは、残響時間、残響レベル、直接対残響比などといった属性を示してもよく、これらの属性は時間変化して、時間変化するメタデータによって示されてもよい。

３．再生装置が、一つまたは複数のセンサーによってその位置または環境を認識してもよい。たとえば、モバイル装置は、該装置がどこにあるかを判別するために、GSMネットワーク、全地球測位システム（GPS）、既知のWiFiアクセスポイントまたは他の任意の位置特定サービスを使ってもよい。その後、位置および／または環境を示すデータが、関連するFDNパラメータを制御するために（たとえば図３の制御サブシステム２０９の実施形態によって）用いられてもよい。こうして、FDNパラメータは、装置の位置に応答して、たとえば物理的環境を模倣するよう、修正されうる。

４．再生装置の位置に関係して、ある種の環境において消費者たちが使っている最も一般的な設定を導出するために、クラウド・サービスまたはソーシャル・メディアが使われてもよい。さらに、ユーザーは自分の現在の設定を、（既知の）位置と関連付けて、クラウドまたはソーシャル・メディア・サービスにアップロードして、他のユーザーまたは自分自身のために利用可能にしてもよい。

５．再生装置が、ユーザーの活動およびユーザーがいる環境を判別するために、カメラ、光センサー、マイクロフォン、加速度計、ジャイロスコープといった他のセンサーを含んでいてもよい。その特定の活動および／または環境についてFDNパラメータを最適化するためである。

６．FDNパラメータは、オーディオ・コンテンツによって制御されてもよい。オーディオ分類アルゴリズムまたは手動で注釈付けされたコンテンツが、オーディオの諸セグメントが発話、音楽、サウンド効果、無音などを含むかどうかを示してもよい。FDNパラメータはそのようなラベルに従って調整されてもよい。たとえば、直接対残響比は、ダイアログ了解性を改善するために、ダイアログについては低減されてもよい。さらに、現在のビデオ・セグメントの位置を判別するためにビデオ解析が使われてもよく、FDNパラメータはビデオにおいて描かれている環境をよりよくシミュレートするためにしかるべく調整されてもよい。および／または
７．半導体再生システムは、モバイル装置とは異なるFDN設定を使ってもよい。たとえば、設定は装置依存であってもよい。居間にある半導体システムは、典型的な（かなり残響のある）遠方の源をもつ居間シナリオをシミュレートしてもよく、一方、モバイル装置は聴取者により近くコンテンツをレンダリングしてもよい。

本発明の仮想化器のいくつかの実装は、整数サンプル遅延のほか端数遅延を適用するよう構成されているFDN（たとえば、図４のFDNの実装）を含む。たとえば、そのようなある実装では、整数個のサンプル期間に等しい整数遅延を加える遅延線と直列に、各残響タンク内で端数遅延要素が接続される（たとえば、各端数遅延要素は遅延線の一つの後に、または他の仕方でそれと直列に位置される）。端数遅延は、各周波数帯域において、fが遅延割合（fraction）、τがその帯域についての所望される遅延、Tがその帯域についてのサンプル期間であるとして、サンプル期間のある割合f＝τ/Tに対応する位相シフト（単位複素数乗算）によって近似できる。QMF領域において残響を適用するコンテキストにおいて、どのようにして端数遅延を加えるかはよく知られている。

第一のクラスの実施形態では、本発明は、マルチチャネル・オーディオ入力信号のチャネルのある集合（たとえば、それらのチャネルのそれぞれまたは全周波数範囲チャネルのそれぞれ）に応答してバイノーラル信号を生成するヘッドフォン仮想化方法である。本方法は：（ａ）前記集合の各チャネルに（たとえば図３のサブシステム１００および２００においてまたは図２のサブシステム１２、…、１４、１５において前記集合の各チャネルを前記チャネルに対応するBRIRと畳み込みすることによって）バイノーラル室内インパルス応答（BRIR）を適用し、それによりフィルタリングされた信号（たとえば、図３のサブシステム１００および２００の出力または図２のサブシステム１２、…、１４、１５の出力）を生成する段階であって、前記集合のチャネルのダウンミックス（たとえばモノフォニック・ダウンミックス）に共通の後期残響を加えるよう少なくとも一つのフィードバック遅延ネットワーク（たとえば図３のFDN ２０３、２０４、…、２０５）を使うことによることを含む、段階と；（ｂ）フィルタリングされた信号を（たとえば図３のサブシステム２１０または図２の要素１６および１８を含むサブシステムにおいて）組み合わせてバイノーラル信号を生成する段階とを含む。典型的には、前記ダウンミックスに前記共通の後期残響を加えるために、FDNのバンクが使用される（たとえば、各FDNが異なる周波数帯域に後期残響を加える）。典型的には、段階（ａ）は（たとえば図３のサブシステム１００または図２のサブシステム１２、…、１４において）前記集合の各チャネルに、該チャネルについての単一チャネルBRIRの「直接応答および早期反射」部分を適用する段階を含み、前記共通の後期残響は、前記単一チャネルBRIRの少なくとも一部（たとえば全部）の後期残響部分の集団的なマクロ属性をエミュレートするよう生成されたものである。

第一のクラスの典型的な実装では、各FDNはハイブリッド複素直交ミラー・フィルタ（HCQMF: hybrid complex quadrature mirror filter）領域または直交ミラー・フィルタ（QMF）領域において実装される。いくつかのそのような実施形態では、バイノーラル信号の周波数依存の空間的な音響属性は、後期残響を加えるために用いられる各FDNの構成を制御することによって（たとえば図３の制御サブシステム２０９を使って）制御される。典型的には、マルチチャネル信号のオーディオ・コンテンツの効率的なバイノーラル・レンダリングのために、チャネルのモノフォニック・ダウンミックス（たとえば、図３のサブシステム２０１によって生成されたダウンミックス）がFDNへの入力として使われる。典型的には、ダウンミックス・プロセスは、各チャネルについての源距離（すなわち、チャネルのオーディオ・コンテンツの想定される源と想定されるユーザー位置との間の距離）に基づいて制御され、各BRIR（すなわち、あるチャネルについての単一チャネルBRIRの直接応答および早期反射部分ならびにそのチャネルを含むダウンミックスについての共通の後期残響によって決定される各BRIR）の時間的およびレベル構造を保存するために源距離に対応する直接応答の扱いに依存する。ダウンミックされるべきチャネルはダウンミックスの間に種々の仕方で時間整列され、スケーリングされることができるが、各チャネルについてのBRIRの直接応答、早期反射および共通の後期残響部分の間の適正なレベルおよび時間的関係が維持されるべきである。（ダウンミックスを生成するよう）ダウンミックスされるすべてのチャネルについて共通の後期残響部分を生成するために単一のFDNバンクを使う実施形態では、ダウンミックスの生成の間に（ダウンミックスされる各チャネルに対して）適正な利得および遅延が適用される必要がある。

このクラスの典型的な実施形態は、周波数依存の属性（たとえば、残響減衰時間、両耳間コヒーレンス、モード密度および直接対後期比）に対応するFDN係数を調整する段階を含む。これは、音響環境のよりよいマッチングおよびより自然に聞こえる出力を可能にする。

第二のクラスの実施形態では、本発明は、マルチチャネル・オーディオ入力信号に応答してバイノーラル信号を生成する方法である。これは、入力信号のチャネルのある集合の各チャネル（たとえば、入力信号のチャネルのそれぞれまたは入力信号のそれぞれの全周波数範囲チャネル）にバイノーラル室内インパルス応答（BRIR）を適用する（たとえば各チャネルを対応するBRIRと畳み込みすることによって）ことによる。これは、前記集合の各チャネルを、該チャネルについての単一チャネルBRIRの直接応答および早期反射（たとえば、図２のサブシステム１２、１４または１５によって適用されるEBRIR）をモデル化して該各チャネルに適用するよう構成された第一の処理経路（たとえば、図３のサブシステム１００または図２のサブシステム１２、…、１４によって実装される）において処理し、前記集合のチャネルのダウンミックス（たとえばモノフォニック・ダウンミックス）を、前記第一の処理経路と並列な第二の処理経路（たとえば、図３のサブシステム２００または図２のサブシステム１５によって実装される）において処理することによることを含む。第二の処理経路は、共通の後期残響（たとえば、図２のサブシステム１５によって適用されるLBRIR）をモデル化して該ダウンミックスに適用するよう構成されている。典型的には、前記共通の後期残響は、前記単一チャネルBRIRのうち少なくともいくつか（たとえば全部）の後期残響部分の集団的なマクロ属性をエミュレートする。典型的には、第二の処理経路は少なくとも一つのFDN（たとえば複数の周波数帯域のそれぞれについて一つのFDN）を含む。典型的には、第二の処理経路によって実装される各FDNのすべての残響タンクへの入力として、モノ・ダウンミックスが使われる。典型的には、音響環境をよりよくシミュレートし、より自然に聞こえるバイノーラル仮想化を生じるために、各FDNのマクロ属性の系統的な制御のための機構が提供される（たとえば図３の制御サブシステム２０９）。たいていのそのようなマクロ属性は周波数依存なので、各FDNは典型的にはハイブリッド複素直交ミラー・フィルタ（HCQMF）領域、周波数領域、領域または別のフィルタバンク領域において実装され、各周波数帯域について異なるFDNが使われる。FDNをフィルタバンク領域において実装することの主要な恩恵は、周波数依存の残響属性をもつ残響の適用を許容するということである。さまざまな実施形態において、FDNは、多様なフィルタバンクの任意のものを使って、幅広い多様なフィルタバンク領域の任意のものにおいて実装される。それは、直交ミラー・フィルタ（QMF）、有限インパルス応答フィルタ（FIRフィルタ）、無限インパルス応答フィルタ（IIRフィルタ）またはクロスオーバー・フィルタを含むがそれに限られない。

１．フィルタバンク領域（たとえばハイブリッド複素直交ミラー・フィルタ領域）のFDN実装（たとえば図４のFDN実装）またはハイブリッド・フィルタバンク領域のFDN実装および時間領域の後期残響フィルタ実装（たとえば図８を参照して記述した構造）。これは典型的には、各周波数帯域についてのFDNのパラメータおよび／または設定の独立な調整を許容する（これは、周波数依存の音響属性の単純で柔軟な制御を可能にする）。これはたとえば、モード密度を周波数の関数として変化させるよう種々の帯域における残響タンク遅延に変化をつける能力を提供することによる。

２．（マルチチャネル入力オーディオ信号から）第二の処理経路において処理されたダウンミックスされた（たとえばモノフォニック・ダウンミックスされた）信号を生成するために用いられる特定のダウンミックス・プロセスは、各チャネルの源距離ならびに直接応答と後期応答の間の適正なレベルおよびタイミング関係を維持するための直接応答の扱いに依存する。

３．結果として生じる残響のスペクトルおよび／または音色を変えることなく位相多様性（diversity）および増大したエコー密度を導入するために、第二の処理経路において（たとえばFDNのバンクの入力または出力において）全域通過フィルタ（たとえば図４のAPF ３０１）が適用される。

５．FDNにおいて、残響タンク出力は、各周波数帯域における所望される両耳間コヒーレンスに基づいて設定される出力混合係数を使って、（たとえば図４のマトリクス３１２によって）バイノーラル・チャネル中に直接、線形に混合される。任意的に、残響タンクの、バイノーラル出力チャネルへのマッピングは、バイノーラル・チャネル間で均衡した遅延を達成するために、諸周波数帯域を横断して交互する。また任意的に、残響タンク出力には、端数遅延および全体的なパワーを保存しつつそのレベルを等化するために、規格化因子が適用される。

６．周波数依存の残響減衰時間が、実際の部屋をシミュレートするよう各周波数帯域における残響タンク遅延および利得の適正な組み合わせを設定することによって制御される。

７．周波数帯域毎に（たとえば関連する処理経路の入力または出力のいずれかにおいて）一つのスケーリング因子が（たとえば図４の要素３０６および３０９によって）適用される。これにより：
実際の部屋のDLRにマッチする周波数依存の直接対後期比（DLR: direct-to-late ratio）を制御する（目標DLRおよび残響減衰時間、たとえばT60に基づいて、必要とされるスケーリング因子を計算するために、単純なモデルが使用されてもよい）；
過剰なコーミング（combing）アーチファクトを緩和するための低周波数減衰を提供する；および／または
FDN応答に拡散場スペクトル整形（diffuse field spectral shaping）を適用する。

８．残響減衰時間、両耳間コヒーレンスおよび／または直接対後期比といった後期残響の本質的な周波数依存の属性を制御するために（たとえば図３の制御サブシステム２０９によって）単純なパラメトリック・モデルが実装される。

いくつかの実施形態では（たとえば、システム・レイテンシーが決定的であり、分解および合成フィルタバンクによって引き起こされる遅延が禁止的である用途については）、本発明のシステムの典型的な実施形態のフィルタバンク領域FDN構造（たとえば各周波数帯域における図４のFDN）は時間領域で実装されるFDN構造（たとえば、図９に示されるように実装されうる図１０のFDN ２２０）によって置き換えられる。本発明のシステムの時間領域実施形態では、入力利得因子（G_in）、残響タンク利得（g_i）および規格化利得（1/|g_i|）を適用するフィルタバンク領域実施形態のサブシステムは、周波数依存の制御を許容するために時間領域フィルタ（および／または利得要素）によって置き換えられる。典型的なフィルタバンク領域実装の出力混合マトリクス（たとえば、図４の出力混合マトリクス３１２）は（典型的な時間領域実施形態では）時間領域フィルタの出力集合（たとえば、図９の要素４２４の図１１の実装の要素５００～５０３）によって置き換えられる。典型的な時間領域実施形態の他のフィルタと異なり、フィルタのこの出力集合の位相応答は典型的には枢要である（該位相応答によってパワー保存および両耳間コヒーレンスが影響されうるから）。いくつかの時間領域実施形態では、残響タンク遅延は、（たとえば、共通因子としてフィルタバンク・ストライドを共有することを避けるために）対応するフィルタバンク領域実装における値から変えられる（たとえばわずかに変えられる）。

図１０は、図３と同様の本発明のヘッドフォン仮想化システムの実施形態のブロック図であるが、図３の要素２０２～２０７が図１０のシステムでは、時間領域で実装される単一のFDN ２２０によって置き換えられている（たとえば、図１０のFDN ２２０は図９のFDNと同様に実装されてもよい）。図１０では、二つの（左および右チャネルの）時間領域信号が、直接応答および早期反射処理サブシステム１００から出力され、二つの（左および右チャネルの）時間領域信号が、後期残響処理サブシステム２２１から出力される。サブシステム１００および２００の出力に加算要素２１０が結合されている。要素２１０は、サブシステム１００および２２１の左チャネル出力を組み合わせて（混合して）図１０の仮想化器から出力されるバイノーラル・オーディオ信号の左チャネルLを生成し、サブシステム１００および２２１の右チャネル出力を組み合わせて（混合して）図１０の仮想化器から出力されるバイノーラル・オーディオ信号の右チャネルRを生成するよう構成される。適切なレベル調整および時間整列がサブシステム１００および２２１において実装されていると想定して、要素２１０は、サブシステム１００および２２１から出力される対応する左チャネル・サンプルを単純に合計してバイノーラル出力信号の左チャネルを生成し、サブシステム１００および２２１から出力される対応する右チャネル・サンプルを単純に合計してバイノーラル出力信号の右チャネルを生成するよう実装されることができる。

図１０のシステムでは、（チャネルX_iをもつ）マルチチャネル・オーディオ入力信号は、二つの並列な処理経路に向けられ、そこで処理を受ける。一方は直接応答および早期反射処理サブシステム１００を通り、他方は後期残響処理サブシステム２２１を通る。図１０のシステムは、各チャネルX_iにBRIR_iを適用するよう構成されている。各BRIR_iは、直接応答および早期反射部分（サブシステム１００によって適用される）と後期残響部分（サブシステム２２１によって適用される）という二つの部分に分解できる。動作では、直接応答および早期反射処理サブシステム１００はこうして仮想化器から出力されるバイノーラル・オーディオ信号の直接応答および早期反射部分を生成し、後期残響処理サブシステム（「後期残響生成器」）２２１はこうして仮想化器から出力されるバイノーラル・オーディオ信号の後期残響部分を生成する。サブシステム１００および２２１の出力は（サブシステム２１０によって）混合され、バイノーラル・オーディオ信号を生成し、該バイノーラル・オーディオ信号は典型的にはサブシステム２１０からレンダリング・システム（図示せず）に呈され、レンダリング・システムにおいてヘッドフォンによる再生のためのバイノーラル・レンダリングを受ける。

（後期残響処理サブシステム２２１の）ダウンミックス・サブシステム２０１は、マルチチャネル入力信号のチャネルをモノ・ダウンミックス（これは時間領域信号）にダウンミックスするよう構成されており、FDN ２２０は後期残響部分をモノ・ダウンミックスに適用するよう構成されている。

図９を参照して、次に、図１０の仮想化器のFDN ２２０として用いることのできる時間領域FDNの例を記述する。図９のFDNは、マルチチャネル・オーディオ入力信号のすべてのチャネルのモノ・ダウンミックス（たとえば図１０のシステムのサブシステム２０１によって生成される）を受領するよう結合された入力フィルタ４００を含む。図９のFDNは、フィルタ４００の出力に結合された（図４のAPF ３０１に対応する）全域通過フィルタ（APF）４０１と、フィルタ４０１の出力に結合された入力利得要素４０１Ａと、要素４０１Ａの出力に結合された加算要素４０２、４０３、４０４および４０５（これらは図４の加算要素３０２、３０３、３０４および３０５に対応する）と、四つの残響タンクとを含む。各残響タンクは、要素４０２、４０３、４０４および４０５の異なるものの出力に結合され、残響フィルタ４０６および４０６Ａ、４０７および４０７Ａ、４０８および４０８Ａならびに４０９および４０９Ａのうちの一つと、それに結合された遅延線４１０、４１１、４１２および４１３のうちの一つ（図４の遅延線３０７に対応）と、これらの遅延線の一つの出力に結合された利得要素４１７、４１８、４１９および４２０のうちの一つとを有する。

ユニタリー・マトリクス４１５（図４のユニタリー・マトリクス３０８に対応し、典型的にはマトリクス３０８と同一であるよう実装される）が遅延線４１０、４１１、４１２および４１３の出力に結合される。マトリクス４１５は、要素４０２、４０３、４０４および４０５のそれぞれの第二の入力に対してフィードバック出力を呈するよう構成されている。

線４１０によって加えられる遅延（n1）が線４１１によって加えられる遅延（n2）より短く、線４１１によって加えられる遅延が線４１２によって加えられる遅延（n3）より短く、線４１２によって加えられる遅延が線４１３によって加えられる遅延（n4）より短いとき、（第一および第三の残響タンクの）利得要素４１７および４１９の出力が、加算要素４２２の入力に呈され、（第二および第四の残響タンクの）利得要素４１８および４２０の出力が、加算要素４２３の入力に呈される。要素４２２の出力はIACCおよび混合フィルタ４２４の一方の入力に呈され、要素４２３の出力はIACCフィルタリングおよび混合段４２４の他方の入力に呈される。

図９の利得要素４１７～４２０および要素４２２、４２３および４２４の実装の例を、図４の要素３１０および３１１ならびに出力混合マトリクス３１２の典型的な実装を参照しつつ述べる。図４の出力混合マトリクス３１２（行列M_outとしても特定される）は、初期パニングからの未混合バイノーラル・チャネル（それぞれ要素３１０および３１１の出力）を混合して、所望される両耳間コヒーレンスをもつ左および右のバイノーラル出力チャネル（マトリクス３１２の出力において呈される左耳「L」および右耳「R」信号）を生成するよう構成された2×2のマトリクスである。この初期パニングは要素３１０および３１１によって実装される。そのそれぞれは二つの残響タンク出力を組み合わせて未混合バイノーラル・チャネルの一つを生成し、最も短い遅延をもつ残響タンク出力は要素３１０の入力に呈され、二番目に短い遅延をもつ残響タンク出力は要素３１１の入力に呈される。図９の実施形態の要素４２２および４２３は、（それらの入力に対して呈された時間領域信号に対して、）図４の実施形態の（各周波数帯域における）要素３１０および３１１がそれらの入力に呈された（関連する周波数帯域における）フィルタバンク領域成分のストリームに対して実行するのと同じ型の初期パニングを実行する。

共通の残響タンク出力を全く含まないので、ほとんど無相関である前記未混合バイノーラル・チャネル（図４の要素３１０および３１１からまたは図９の要素４２２および４２３から出力されるもの）は、左右のバイノーラル出力チャネルについての所望される両耳間コヒーレンスを達成するパニング・パターンを実装するよう（図４のマトリクス３１２または図９の段４２４によって）混合されてもよい。しかしながら、残響タンク遅延が各FDN（すなわち、図９のFDNまたは図４におけるそれぞれの異なる周波数帯域について実装されるFDN）において異なるので、一方の未混合バイノーラル・チャネル（要素３１０および３１１または４２２および４２３の一方の出力）が常時他方の未混合バイノーラル・チャネル（要素３１０および３１１または４２２および４２３の他方の出力）より進んでいる。

このように、図４の実施形態では、残響タンク遅延およびパニング・パターンの組み合わせがすべての周波数帯域を横断して同一であれば、音像バイアスが帰結するであろう。このバイアスは、混合済みバイノーラル出力チャネルが交互の周波数帯域において互いに進んだり遅れたりするよう、パニング・パターンが周波数帯域を横断して交互にされるならば、緩和できる。たとえば、所望される両耳間コヒーレンスがCohであり、|Coh|≦1とすると、奇数番目の周波数帯域における出力混合マトリクス３１２はそれに呈される二つの入力を次の形

をもつ行列によって乗算するよう実装されてもよく、偶数番目の周波数帯域における出力混合マトリクス３１２はそれに呈される二つの入力を次の形

をもつ行列によって乗算するよう実装されてもよい。ここで、β＝arcsin(Coh)/2である。

あるいはまた、バイノーラル出力チャネルにおける上記の音像バイアスは、交互の周波数帯域についてその入力のチャネル順が切り換えられるならば（たとえば、奇数周波数帯域では要素３１０の出力がマトリクス３１２の第一の入力に呈されてもよく、要素３１１の出力がマトリクス３１２の第二の入力に呈されてもよく、偶数周波数帯域では要素３１１の出力がマトリクス３１２の第一の入力に呈されてもよく、要素３１０の出力がマトリクス３１２の第二の入力に呈されてもよい）、すべての周波数帯域についてのFDNにおいて同一であるようマトリクス３１２を実装することによって緩和できる。

図９の実施形態（および本発明のシステムのFDNの他の時間領域実施形態）では、要素４２２から出力される未混合バイノーラル・チャネル出力が常に要素４２３から出力される未混合バイノーラル・チャネル出力より進んでいる（遅れている）ときに普通なら帰結するであろう音像バイアスに対処するために周波数に基づいてパニングを交互させることはトリビアルではない。この音像バイアスは、本発明のシステムのFDNの典型的な時間領域実施形態では、本発明のシステムのFDNのフィルタバンク領域実施形態において典型的に対処されるのとは異なる仕方で対処される。特に、図９の実施形態（および本発明のシステムのFDNの他の時間領域実施形態）において、未混合バイノーラル・チャネル（たとえば図９の要素４２２および４２３からの出力）の相対利得は、利得要素（たとえば図９の要素４１７、４１８、４１９および４２０）によって、上記の均衡しないタイミングのために普通なら帰結するであろう音像バイアスを補償するよう決定される。ある利得要素（たとえば要素４１７）を最も早期に到達する信号（これはたとえば要素４２２によって一方の側にパンされている）を減衰させるよう実装し、ある利得要素（たとえば要素４１８）をその次に早期の信号（これはたとえば要素４２３によって他方の側にパンされている）をブーストするよう実装することにより、ステレオ像がセンタリングし直される。こうして、利得要素４１７を含む残響タンクは要素４１７の出力に第一の利得を適用し、利得要素４１８を含む残響タンクは要素４１８の出力に（第一の利得とは異なる）第二の利得を適用する。それにより、第一の利得および第二の利得は（要素４２２から出力される）第一の未混合バイノーラル・チャネルを、（要素４２３から出力される）第二の未混合バイノーラル・チャネルに対して減衰させる。

より具体的には、図９のFDNの典型的な実装では、四つの遅延線４１０、４１１、４１２および４１３は順次大きくなる長さをもち、それぞれ順次大きくなる遅延値n1、n2、n3およびn4をもつ。この実装では、フィルタ４１７はg₁の利得を適用する。こうして、フィルタ４１７の出力は、g₁の利得が適用された、遅延線４１０への入力の遅延されたバージョンである。同様に、フィルタ４１８はg₂の利得を適用し、フィルタ４１９はg₃の利得を適用し、フィルタ４２０はg₄の利得を適用する。こうして、フィルタ４１８の出力は、g₂の利得が適用された、遅延線４１１への入力の遅延されたバージョンであり、フィルタ４１９の出力は、g₃の利得が適用された、遅延線４１２への入力の遅延されたバージョンであり、フィルタ４２０の出力は、g₄の利得が適用された、遅延線４１３への入力の遅延されたバージョンである。

この実装では、次の利得値の選択：g₁＝0.5、g₂＝0.5、g₃＝0.5、g₄＝0.5は、（要素４２４から出力されるバイノーラル・チャネルによって示される）出力音像の一方の側への（すなわち、左または右チャネルへの）望ましくないバイアスにつながることがありうる。本発明のある実施形態によれば、（それぞれ要素４１７、４１８、４１９および４２０によって適用される）値g₁、g₂、g₃、g₄は、音像をセンタリングするために次のように選ばれる：g₁＝0.38、g₂＝0.6、g₃＝0.5、g₄＝0.5。こうして、出力ステレオ像は、本発明のある実施形態によれば、最も早期に到達する信号（これは今の例では要素４２２によって一方の側にパンされている）を二番目に遅く到達する信号に対して減衰させ（すなわち、g₁＜g₃のように選ぶ）、二番目に早期の信号（これは今の例では要素４２３によって他方の側にパンされている）を最も遅く到達する信号に対してブーストする（すなわち、g₄＜g₂のように選ぶ）ことにより、センタリングし直される。

図９の時間領域FDNの典型的な実装は、図４のフィルタバンク領域（CQMF領域）FDNに対して、以下の相違点および類似点をもつ。

同じユニタリー・フィードバック・マトリクスA（図４のマトリクス３０８および図９のマトリクス４１５）。

類似の残響タンク遅延n_i（すなわち、図４のCQMF実装における遅延は、1/T_sがサンプリング・レートであるとして（1/T_sは典型的には48KHzに等しい）、n₁＝17*64T_s＝1088*T_s、n₂＝21*64T_s＝1344*T_s、n₃＝26*64T_s＝1664*T_s、n₄＝29*64T_s＝1856*T_sであってもよく、一方、時間領域実装における遅延はn₁＝1089*T_s、n₂＝1345*T_s、n₃＝1663*T_s、n₄ = 185*T_sであってもよい。典型的なCQMF実装では、各遅延が64サンプルのブロックの継続時間の何らかの整数倍であるという実際上の制約条件があるが、時間領域では、各遅延の選択に関してより柔軟性があり、よって各残響タンクの遅延の選択に対してより柔軟性があることを注意しておく）。

類似の全域通過フィルタ実装（すなわち、図４のフィルタ３０１および図９のフィルタ４０１の同様の実装）。たとえば、全域通過フィルタは、いくつかの（たとえば三つの）全域通過フィルタの縦続〔カスケード〕によって実装されることができる。たとえば、それぞれの縦続された全域通過フィルタは、g＝0.6であるとして、

の形であってもよい。図４の全域通過フィルタ３０１は、サンプル・ブロックの好適な遅延（たとえば、n₁＝64*T_s、n₂＝128*T_sおよびn₃＝196*T_s）をもつ三つの縦続された全域通過フィルタによって実装されてもよく、一方、図９の全域通過フィルタ４０１（時間領域の全域通過フィルタ）は、同様な遅延（たとえば、n₁＝61*T_s、n₂＝127*T_sおよびn₃＝191*T_s）をもつ三つの縦続された全域通過フィルタによって実装されてもよい。

図９の時間領域FDNのいくつかの実装では、入力フィルタ４００は、図９のシステムによって適用されるBRIRの直接対後期比（DLR）を目標DLRに（少なくとも実質的に）マッチさせるとともに、図９のシステムを含む仮想化器（たとえば図１０の仮想化器）によって適用されるBRIRのDLRがフィルタ４００を置換する（またはフィルタ４００の構成設定を制御する）ことによって変更できるよう、実装される。たとえば、いくつかの実施形態では、フィルタ４００は、目標DLRを実装し、任意的には所望されるDLR制御を実装するフィルタの縦続（たとえば、図９Ａに示されるように結合された、第一のフィルタ４００Ａおよび第二のフィルタ４００Ｂ）として実装される。たとえば、該縦続のフィルタはIIRフィルタである（たとえば、フィルタ４００Ａは、目標低周波数特性にマッチするよう構成された一次バターワース高域通過フィルタ（IIRフィルタ）であり、フィルタ４００Ｂは、目標高周波数特性にマッチするよう構成された二次の低シェルフIIRフィルタ）。もう一つの例として、この縦続のフィルタは、IIRおよびFIRフィルタである（たとえば、フィルタ４００Ａは、目標低周波数特性にマッチするよう構成された二次バターワース高域通過フィルタ（IIRフィルタ）であり、フィルタ４００Ｂは、目標高周波数特性にマッチするよう構成された14次のFIRフィルタ）。典型的には、直接信号は固定されており、フィルタ４００は後期信号を目標DLRを達成するよう修正する。全域通過フィルタ（APF）４０１は好ましくは、図４のAPF ３０１と同じ機能を実行するよう、つまり位相多様性および増大したエコー密度を導入してより自然に聞こえるFDN出力を生成するよう実装される。入力フィルタ４００は振幅応答を制御する一方、APF ４０１は典型的には位相応答を制御する。

図９では、フィルタ４０６および利得要素４０６Ａは一緒になって残響フィルタを実装し、フィルタ４０７および利得要素４０７Ａは一緒になって別の残響フィルタを実装し、フィルタ４０８および利得要素４０８Ａは一緒になって別の残響フィルタを実装し、フィルタ４０９および利得要素４０９Ａは一緒になって別の残響フィルタを実装する。図９のフィルタ４０６、４０７、４０８および４０９のそれぞれは、好ましくは、1に近い最大利得値（単位利得）をもつフィルタとして実装され、利得要素４０６Ａ、４０７Ａ、４０８Ａおよび４０９Ａのそれぞれは、（関連する残響タンク遅延n_i後に）所望される減衰にマッチする、フィルタ４０６、４０７、４０８および４０９の対応するものの出力への減衰利得を適用するよう構成される。具体的には、利得要素４０６Ａは、要素４０６Ａの出力に、（残響タンク遅延n_i後の）遅延線４１０の出力が第一の目標の減衰した利得をもつような利得をもたせるよう、フィルタ４０６の出力に減衰利得（decaygain₁）を適用するよう構成され、利得要素４０７Ａは、要素４０７Ａの出力に、（残響タンク遅延n₂後の）遅延線４１１の出力が第二の目標の減衰した利得をもつような利得をもたせるよう、フィルタ４０７の出力に減衰利得（decaygain₂）を適用するよう構成され、利得要素４０８Ａは、要素４０８Ａの出力に、（残響タンク遅延n₃後の）遅延線４１２の出力が第三の目標の減衰した利得をもつような利得をもたせるよう、フィルタ４０８の出力に減衰利得（decaygain₃）を適用するよう構成され、利得要素４０９Ａは、要素４０９Ａの出力に、（残響タンク遅延n₄後の）遅延線４１３の出力が第四の目標の減衰した利得をもつような利得をもたせるよう、フィルタ４０９の出力に減衰利得（decaygain₄）を適用するよう構成される。

図９のシステムのフィルタ４０６、４０７、４０８および４０９のそれぞれおよび要素４０６Ａ、４０７Ａ、４０８Ａおよび４０９Ａのそれぞれは、好ましくは、図９のシステムを含む仮想化器（たとえば図１０の仮想化器）によって適用されるBRIRの目標T60特性を達成するよう実装される（フィルタ４０６、４０７、４０８および４０９のそれぞれは好ましくはIIRフィルタ、たとえばシェルフ・フィルタまたはシェルフ・フィルタの縦続として実装される）。ここで、T60は、残響減衰時間（T₆₀）を表わす。たとえば、いくつかの実施形態では、フィルタ４０６、４０７、４０８および４０９のそれぞれは、シェルフ・フィルタ（たとえば、図１３に示されるT60特性を達成するようQ＝0.3およびシェルフ周波数500Hzをもつシェルフ・フィルタ；図１３でT60は秒の単位をもつ）として、あるいは二つのIIRシェルフ・フィルタ（たとえば、図１４に示されるT60特性を達成するようシェルフ周波数100Hzおよび1000Hzをもつもの；図１４でT60は秒の単位をもつ）の縦続として、実装される。各シェルフ・フィルタの形状は、低周波数から高周波数への所望される変化曲線にマッチするよう決定される。フィルタ４０６がシェルフ・フィルタ（または複数のシェルフ・フィルタの縦続）として実装されるとき、フィルタ４０６および利得要素４０６Ａを有する残響フィルタも、シェルフ・フィルタ（またはシェルフ・フィルタの縦続）である。同様に、フィルタ４０７、４０８および４０９のそれぞれがシェルフ・フィルタ（またはシェルフ・フィルタの縦続）として実装されるとき、フィルタ４０７（または４０８または４０９）および対応する利得要素（４０７Ａ、４０８Ａまたは４０９Ａ）を有する各残響フィルタも、シェルフ・フィルタ（またはシェルフ・フィルタの縦続）である。

図９Ｂは、図９Ｂに示されるように結合された第一のシェルフ・フィルタ４０６Ｂおよび第二のシェルフ・フィルタ４０６Ｃの縦続として実装されたフィルタ４０６の例である。フィルタ４０７、４０８、４０９のそれぞれは、フィルタ４０６の図９Ｂの実装と同様に実装されてもよい。

いくつかの実施形態では、要素４０６Ａ、４０７Ａ、４０８Ａ、４０９Ａによって適用される減衰利得（decaygain_i）は次のように決定される。

ここで、iは残響タンク・インデックスであり（すなわち、要素４０６Ａはdecaygain₁を適用し、要素４０７Ａはdecaygain₂を適用し、などとなる）、niはi番目の残響タンクの遅延である（たとえば、n1は遅延線４１０によって適用される遅延）。Fsはサンプリング・レートであり、Tは、あるあらかじめ決められた低い周波数における所望される残響遅延時間（T₆₀）である。

図１１は、図９の以下の要素：要素４２２および４２３ならびにIACC（両耳間相互相関係数）フィルタリングおよび混合段４２４、の実施形態である。要素４２２は、（図９の）フィルタ４１７および４１９の出力を合計し、合計された信号を低シェルフ・フィルタ５００の入力に呈するよう結合され、構成されており、要素４２２は、（図９の）フィルタ４１８および４２０の出力を合計し、合計された信号を高域通過フィルタ５０１の入力に呈するよう結合され、構成されている。フィルタ５００および５０１の出力は要素５０２において加算（混合）され、バイノーラル左耳出力信号を生成し、フィルタ５００および５０１の出力は要素５０２において混合され（フィルタ５００の出力がフィルタ５０１の出力から要素５０２において減算される）、バイノーラル右耳出力信号を生成する。要素５０２および５０３は、フィルタ５００および５０１のフィルタリングされた出力を混合（加算および減算）して、（受け入れ可能な精度の範囲内で）目標IACC特性を達成するバイノーラル出力信号を生成する。図１１の実施形態では、低シェルフ・フィルタ５００および高域通過フィルタ５０１のそれぞれは、典型的には一次IIRフィルタとして実装される。フィルタ５００および５０１がそのような実装をもつ一例では、図１１の実施形態は、図１２において曲線「I」としてプロットされている例示的なIACC特性を達成しうる。これは、図１２において「I_T」としてプロットされている目標IACC特性に対する良好なマッチである。

図１１のＡは、図１１のフィルタ５００の典型的な実装の周波数応答（R1）、図１１のフィルタ５０１の典型的な実装の周波数応答（R2）および並列に接続したフィルタ５００および５０１の応答のグラフである。図１１のＡから、組み合わされた応答が100Hz～10,000Hzの範囲を横断して望ましいように平坦であることが明白である。

このように、あるクラスの実施形態では、本発明は、マルチチャネル・オーディオ入力信号のチャネルのある集合に応答してバイノーラル信号（たとえば、図１０の要素２１０の出力）を生成するシステム（たとえば図１０のシステム）および方法である。これは、前記集合の各チャネルにバイノーラル室内インパルス応答（BRIR）を適用し、それによりフィルタリングされた信号を生成する段階であって、前記集合のチャネルのダウンミックスに共通の後期残響を加えるよう単一のフィードバック遅延ネットワーク（FDN）を使うことによることを含む、段階と；フィルタリングされた信号を組み合わせて前記バイノーラル信号を生成する段階とを実行することによることを含む。FDNは時間領域で実装される。そのようないくつかの実施形態では、時間領域FDN（たとえば、図９のように構成された、図１０のFDN ２２０）は：
前記ダウンミックスを受領するよう結合された入力をもつ入力フィルタ（たとえば図９のフィルタ４００）であって、該入力フィルタは前記ダウンミックスに応答して第一のフィルタリングされたダウンミックスを生成するよう構成されている、入力フィルタと；
前記第一のフィルタリングされたダウンミックスに応答して第二のフィルタリングされたダウンミックスをするよう結合され、構成された全域通過フィルタ（たとえば図９の全域通過フィルタ４０１）と；
第一の出力（たとえば要素４２２の出力）および第二の出力（たとえば要素４２３の出力）をもつ残響適用サブシステム（たとえば図９の、要素４００、４０１および４２４以外のすべての要素）であって、前記残響適用サブシステムは残響タンクの集合を含み、各残響タンクは異なる遅延をもち、該残響適用サブシステムは、前記第二のフィルタリングされたダウンミックスに応答して第一の未混合バイノーラル・チャネルおよび第二の未混合バイノーラル・チャネルを生成し、前記第一の未混合バイノーラル・チャネルを前記第一の出力において呈し、前記第二の未混合バイノーラル・チャネルを前記第二の出力において呈するよう結合され、構成されている、残響適用サブシステムと；
前記残響適用サブシステムに結合され、前記第一の未混合バイノーラル・チャネルおよび第二の未混合バイノーラル・チャネルに応答して第一の混合済みバイノーラル・チャネルおよび第二の混合済みバイノーラル・チャネルを生成するよう構成されている、両耳間相互相関係数（IACC: interaural cross-correlation coefficient）フィルタリングおよび混合段（たとえば、図１１の要素５００、５０１、５０２、５０３として実装されてもよい図９の段４２４）とを含む。

入力フィルタは、各BRIRが少なくとも実質的に目標DLRにマッチする直接対後期比（DLR）をもつよう前記第一のフィルタリングされたダウンミックスを生成するよう（好ましくは、それを生成するよう構成された二つのフィルタのカスケード〔縦続〕として）実装されてもよい。

各残響タンクは、遅延された信号を生成するよう構成されていてもよく、前記各残響タンクにおいて伝搬する信号に利得を加えて、遅延された信号が少なくとも実質的に前記遅延された信号についての目標の遅延された利得にマッチする利得をもつようにするよう結合され、構成された残響フィルタ（たとえば、シェルフ・フィルタまたはシェルフ・フィルタのカスケードとして実装される）を含んでいてもよい。各BRIRの目標残響減衰時間特性（たとえばT₆₀特性）を達成するためである。

いくつかの実施形態では、前記第一の未混合バイノーラル・チャネルは前記第二の未混合バイノーラル・チャネルより進んでおり、前記残響タンクは、最も短い遅延をもつ第一の遅延された信号を生成するよう構成された第一の残響タンク（たとえば、遅延線４１０を含む図９の残響タンク）と、二番目に短い遅延をもつ第二の遅延された信号を生成するよう構成された第二の残響タンク（たとえば、遅延線４１１を含む図９の残響タンク）とを含む。前記第一の残響タンクは前記第一の遅延された信号に第一の利得を適用するよう構成され、前記第二の残響タンクは前記第二の遅延された信号に第二の利得を適用するよう構成され、前記第二の利得は前記第一の利得とは異なり、前記第二の利得は前記第一の利得とは異なり、前記第一の利得および前記第二の利得の適用により、前記第二の未混合バイノーラル・チャネルに対する前記第一の未混合バイノーラル・チャネルの減衰が帰結する。典型的には、前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルは、再センタリングされた（re-centered）ステレオ像を示す。いくつかの実施形態では、前記IACCフィルタリングおよび混合段は、前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルが少なくとも実質的に目標IACC特性に一致するIACC特性をもつよう前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルを生成するよう構成されている。

本発明の諸側面は、オーディオ信号（たとえば、オーディオ・コンテンツがスピーカー・チャネルからなるオーディオ信号および／またはオブジェクト・ベースのオーディオ信号）のバイノーラル仮想化を実行する（または実行するよう構成されているまたはその実行をサポートする）方法およびシステム（たとえば、図２のシステム２０または図３または図１０のシステム）を含む。

いくつかの実施形態では、本発明の仮想化器は、マルチチャネル・オーディオ入力信号を示す入力データを受領するまたは生成するよう結合され、該入力データに対して、本発明の方法の実施形態を含む多様な処理の任意のものを実行するようソフトウェア（またはファームウェア）をもってプログラムされたまたは（たとえば制御データに応答して）他の仕方で構成された汎用プロセッサであるまたはそれを含む。そのような汎用プロセッサは典型的には入力装置（たとえばマウスおよび／またはキーボード）、メモリおよび表示装置に結合される。たとえば、図３のシステム（または図２のシステム２０またはシステム２０の要素１２、…、１４、１５を有する仮想化器システム）は、汎用プロセッサにおいて実装されることができ、入力は前記オーディオ入力信号のN個のチャネルを示すオーディオ・データであり、出力はバイノーラル・オーディオ信号の二つのチャネルを示すオーディオ・データである。通常のデジタル‐アナログ変換器（DAC: digital-to-analog converter）が前記出力データに対して作用して、スピーカー（たとえばヘッドフォン対）による再生のための、バイノーラル信号チャネルのアナログ・バージョンを生成することができる。

本発明の個別的な実施形態および本発明の応用が本稿に記載されているが、本願において記載され特許請求される発明の範囲から外れることなく、本稿に記載されるこれらの実施形態および応用に対する多くの変形が可能であることは、当業者には明白であろう。本発明のある種の形が示され、記述されているが、本発明は記載され、示されている特定の実施形態や記載される特定の方法に限定されないことは理解されるべきである。

Claims

マルチチャネル・オーディオ入力信号のチャネルのある集合に応答してバイノーラル信号を生成する方法であって、当該方法は：
前記集合の各チャネルにバイノーラル室内インパルス応答（BRIR）を適用し、それによりフィルタリングされた信号を生成する段階と；
フィルタリングされた信号を組み合わせて前記バイノーラル信号を生成する段階とを含み、
前記集合の各チャネルにBRIRを適用することは、後期残響生成器を使って、該後期残響生成器に呈された制御値に応答して、共通の後期残響を前記集合のチャネルのダウンミックスに導入することを含み、前記共通の後期残響は前記集合の少なくともいくつかのチャネルにわたって共有される単一チャネルBRIRの後期残響部分の集団的なマクロ属性をエミュレートし、前記制御値のうちの一つまたは複数は目標両耳間コヒーレンスを達成するよう決定されたものであり、
前記マルチチャネル・オーディオ入力信号の左側チャネルは前記ダウンミックスの左チャネルに係数1をもって混合され、前記マルチチャネル・オーディオ入力信号の右側チャネルは前記ダウンミックスの右チャネルに係数1をもって混合される、
方法。
前記集合の各チャネルにBRIRを適用することは、前記集合の各チャネルに、該チャネルについての単一チャネルBRIRの直接応答および早期反射部分を適用することを含む、請求項１記載の方法。
前記後期残響生成器は、前記ダウンミックスに前記共通の後期残響を加えるためのフィードバック遅延ネットワークのバンクを含み、該バンクの各フィードバック遅延ネットワークは前記ダウンミックスの異なる周波数帯域に後期残響を加える、請求項１記載の方法。
前記フィードバック遅延ネットワークのそれぞれは複素直交ミラー・フィルタ領域で実装される、請求項３記載の方法。
前記後期残響生成器は、前記集合の前記チャネルの前記ダウンミックスに前記共通の後期残響を加えるための単一のフィードバック遅延ネットワークを含み、前記フィードバック遅延ネットワークは時間領域で実装される、請求項１記載の方法。
マルチチャネル・オーディオ入力信号のチャネルのある集合に応答してバイノーラル信号を生成するシステムであって、当該システムは：
前記集合の各チャネルにバイノーラル室内インパルス応答（BRIR）を適用し、それによりフィルタリングされた信号を生成し；
フィルタリングされた信号を組み合わせて前記バイノーラル信号を生成する、
一つまたは複数のプロセッサを有しており、
前記集合の各チャネルにBRIRを適用することは、後期残響生成器を使って、該後期残響生成器に呈された制御値に応答して、共通の後期残響を前記集合のチャネルのダウンミックスに導入することを含み、前記共通の後期残響は前記集合の少なくともいくつかのチャネルにわたって共有される単一チャネルBRIRの後期残響部分の集団的なマクロ属性をエミュレートし、前記制御値のうちの一つまたは複数は目標両耳間コヒーレンスを達成するよう決定されたものであり、
前記マルチチャネル・オーディオ入力信号の左側チャネルは前記ダウンミックスの左チャネルに係数1をもって混合され、前記マルチチャネル・オーディオ入力信号の右側チャネルは前記ダウンミックスの右チャネルに係数1をもって混合される、
システム。
前記集合の各チャネルにBRIRを適用することは、前記集合の各チャネルに、該チャネルについての単一チャネルBRIRの直接応答および早期反射部分を適用することを含む、請求項６記載のシステム。
前記後期残響生成器は、前記ダウンミックスに前記共通の後期残響を加えるよう構成されたフィードバック遅延ネットワークのバンクを含み、該バンクの各フィードバック遅延ネットワークは前記ダウンミックスの異なる周波数帯域に後期残響を加える、請求項６記載のシステム。
前記フィードバック遅延ネットワークのそれぞれは複素直交ミラー・フィルタ領域で実装される、請求項８記載のシステム。
前記後期残響生成器は、時間領域で実装されたフィードバック遅延ネットワークを含み、前記後期残響生成器は、前記共通の後期残響を前記ダウンミックスに加えるために、前記フィードバック遅延ネットワークにおいて時間領域で前記ダウンミックスを処理するよう構成されている、請求項６記載のシステム。
一連の命令を有する非一時的なコンピュータ可読記憶媒体であって、オーディオ信号処理装置が前記一連の命令を実行すると、前記オーディオ信号処理装置が請求項１記載の方法を実行する、記憶媒体。