JP6674021B2

JP6674021B2 - 音場記述を生成する装置、方法、及びコンピュータプログラム

Info

Publication number: JP6674021B2
Application number: JP2018523004A
Authority: JP
Inventors: ハーベツ，エマニュエル; ティエルガルト，オリヴァー; ケッヒ，ファビアン; ニーダーライトナー，アレクサンダー; カーン，アファン−ハサン; マーネ，ディルク
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2016-03-15
Filing date: 2017-03-10
Publication date: 2020-04-01
Anticipated expiration: 2037-03-10
Also published as: PT3338462T; MX2018005090A; EP3579577A1; KR102063307B1; US20200275227A1; JP2018536895A; US20190098425A1; ES2758522T3; KR102261905B1; US11272305B2; CA2999393C; CN112218211A; CA2999393A1; PL3338462T3; BR112018007276A2; EP3338462A1; KR20180081487A; JP7434393B2; CN112218211B; JP7043533B2

Description

本発明は、音場記述を生成する装置、方法、及びコンピュータプログラムに関し、さらに、音方向情報を用いた時間−周波数領域の（高次）アンビソニックス信号の合成に関する。

本発明は、空間音声記録再生の分野に属する。空間音声記録は、再生側において聞き手が収録場所にいるかのようにサウンド・イメージを認識するよう、多数のマイクロフォンで音場を捕らえることを目指す。空間音声記録の標準的な手法では、通常、間隔をあけて配置した全指向性マイクロフォン（例えば、ＡＢステレオ）、または同位置の指向性マイクロフォン（例えば、インテンシティステレオ）を用いる。
記録された信号は、標準的なステレオ・ラウドスピーカー・セットアップから再生されて、ステレオサウンド・イメージを得ることができる。
例えば、５．１ラウドスピーカー・セットアップを用いたサラウンド音響再生には、同様の録音技術、例えばラウドスピーカーの位置に向けた５つのカーディオイドマイクロフォン［ＡｒｒａｙＤｅｓｉｇｎ］（非特許文献３）を用いることができる。
最近では、７．１＋４ラウドスピーカー・セットアップなどの３Ｄ音響再生システムが登場し、４つの高所スピーカーを用いて高度な音を再生している。
このようなラウドスピーカー・セットアップ用の信号は、例えば非常に特定の、間隔をあけて配置された３Ｄマイクロフォン・セットアップ［ＭｉｃＳｅｔｕｐ３Ｄ］（非特許文献１３）で記録することができる。これらすべての録音技術は、特定のラウドスピーカー・セットアップ用に設計されているため、例えば記録された音を異なるラウドスピーカー構成で再生すべき時など、実用適用性が限られているという点において共通である。

特定のラウドスピーカー・セットアップ用の信号を直接記録する代わりに中間フォーマットの信号を記録すれば、任意のラウドスピーカー・セットアップの信号を再生側で生成でき、柔軟性が高くなる。
このような中間フォーマットは実用面において確立されており、（高次）アンビソニックス［Ａｍｂｉｓｏｎｉｃｓ］（非特許文献１）に代表される。アンビソニックス信号からは、ヘッドフォン再生用のバイノーラル信号を含む、各所望のラウドスピーカー・セットアップの信号を生成することができる。これには、標準的なアンビソニックスレンダラー［Ａｍｂｉｓｏｎｉｃｓ］（非特許文献１）、指向性オーディオ符号化（ＤｉｒＡＣ）［ＤｉｒＡＣ］（非特許文献６）、ＨＡＲＰＥＸ［ＨＡＲＰＥＸ］（非特許文献１１）など、アンビソニックス信号に適用される特定のレンダラーが必要である。

アンビソニックス信号は、各チャンネル（アンビソニックスコンポーネントと言う）がいわゆる空間基底関数の係数に相当する、多チャンネル信号を表す。これらの（各係数に対応する重みを持つ）空間基底関数の加重和により、録音場所での元の音場を再生成することができる［ＦｏｕｒｉｅｒＡｃｏｕｓｔ］（非特許文献１０）。
したがって、空間基底関数係数（すなわち、アンビソニックスコンポーネント）は、録音場所での音場のコンパクトな記述を表す。空間基底関数には、例えば、球面調和関数（ＳＨｓ）［ＦｏｕｒｉｅｒＡｃｏｕｓｔ］（非特許文献１０）や円筒調和関数（ＣＨｓ）［ＦｏｕｒｉｅｒＡｃｏｕｓｔ］（非特許文献１０）など異なるタイプのものがある。ＣＨｓは、（例えば２Ｄ音再生のために）２Ｄ空間の音場を記述する時に用いることができ、ＳＨｓは、（例えば２Ｄおよび３Ｄ音再生のために）２Ｄおよび３Ｄ空間の音場を記述するのに用いることができる。

３Ｄ空間基底関数（ＳＨｓなど）の場合、異なる次数ｌとモードｍに対する空間基底関数が存在する。この後者の場合、ｍとｌがｌ≧０かつ−ｌ≦ｍ≦ｌの範囲の整数である場合、各次数ｌに対してｍ＝２ｌ＋１モードが存在する。対応する空間基底関数の例が図１ａに示されていて、異なる次数ｌとモードｍに対する球面調和関数が図示されている。
ただし、次数ｌは「レベル」と称されることもあり、モードｍは「度」と称されることもある。
図１ａから分かるように、ゼロ次（第ゼロのレベル）ｌ＝０の球面調和関数は、記録場所での全指向音圧を表し、１次（第１のレベル）ｌ＝１の球面調和関数は、デカルト座標系の３次元に沿った双極子コンポーネントを表している。
これは、ある特定の次数（レベル）の空間基底関数は、次数ｌのマイクロフォンの指向性を記述することを意味する。
言い換えると、空間基底関数の係数は、次数（レベル）ｌおよびモードｍのマイクロフォンの信号に対応する。ただし、異なる次数およびモードの空間基底関数は互いに直交する。これは、例えば純粋な拡散音場において、全ての空間基底関数の係数が互いに無相関であることを意味する。

上述したように、あるアンビソニックス信号の各アンビソニックスコンポーネントは、特定のレベル（およびモード）の空間基底関数係数に対応する。
例えば、ＳＨｓを空間基底関数として用いて音場をレベルｌ＝１まで記述した場合、アンビソニックス信号は、４つのアンビソニックスコンポーネントを備えることになる（なぜなら次数ｌ＝０に対する１モード＋次数ｌ＝１に対する３モードがあるため）。
以下では、最高次ｌ＝１のアンビソニックス信号を１次アンビソニックス（ＦＯＡ）と呼び、最高次ｌ＞１のアンビソニックス信号を高次アンビソニックス（ＨＯＡ）と呼ぶ。音場を記述するために高次のｌを用いた場合、空間分解能が高くなる、すなわち音場を高精度で記述または再生成することができる。
したがって、ごくわずかの次数のみでも音場を記述することはできるが精度が低くなり（ただしデータ量は少ない）、より高い次数を用いれば精度を高く（データ量を多く）することができる。

異なる空間基底関数には、異なるが密接に関連した数学的定義がある。例えば、複素数値球面調和関数だけでなく、実数値球面調和関数も演算することができる。さらに、球面調和関数は、ＳＮ３Ｄ、Ｎ３ＤまたはＮ２Ｄ正規化などの異なる正規化項で演算してもよい。異なる定義は、例えば［Ａｍｂｉｘ］（非特許文献２）において見られる。幾つかの具体例を本発明の説明および実施の形態とともに後で示す。

所望のアンビソニックス信号は、多数のマイクロフォンによる録音から判定することができる。アンビソニックス信号を得る簡単な方法は、マイクロフォン信号からアンビソニックス信号（空間基底関数係数）を直接計算することである。
この手法では、例えば円上または球の表面上など、極めて特殊な位置で音圧を測定することが要求される。
その後、空間基底関数係数は、例えば［ＦｏｕｒｉｅｒＡｃｏｕｓｔ，ｐ．２１８］（非特許文献１０）に述べられているように、測定した音圧を積分することによって演算することができる。
この直接的な手法では、特定のマイクロフォン・セットアップ、例えば全指向性マイクロフォンの円配列または球面配列が必要となる。商用のマイクロフォン・セットアップの２つの典型的な例は、ＳｏｕｎｄＦｉｅｌｄＳＴ３５０マイクロフォンと、ＥｉｇｅｎＭｉｋｅ（登録商標）［ＥｉｇｅｎＭｉｋｅ］（非特許文献７）である。
残念ながら、特定のマイクロフォン配置が必要であるために、例えばマイクロフォンを小型の装置に組み込む必要がある時、あるいはマイクロフォン配列をビデオカメラと組み合わせる必要がある場合に、実用適用性がかなり限定されてしまう。
さらに、この直接的な手法で高次の空間係数を決定するには、ノイズに対する十分なロバスト性を確保するために比較的多数のマイクロフォンが必要となる。従って、アンビソニックス信号を得る直接的な方法は、非常に費用がかかることが多い。

本発明の目的は、音場コンポーネントの表現を有する音場記述を生成するための改良された概念を提供することにある。

この目的は、請求項１による装置、請求項２３による方法、または請求項２４によるコンピュータプログラムによって達成される。

本発明は、音場コンポーネントの表現を有する音場記述を生成する装置、方法、またはコンピュータプログラムに関する。方向判定器では、複数のマイクロフォン信号の複数の時間−周波数タイルの各時間−周波数タイルに対して、１つ以上の音方向が判定される。空間基底関数評価器は、複数の時間−周波数タイルの各時間−周波数タイルに対して、１つ以上の音方向を用いて１つ以上の空間基底関数を評価する。
さらに、音場コンポーネント計算器は、複数の時間−周波数タイルの各時間−周波数タイルに対して、１つ以上の音方向を用いて評価された１つ以上の空間基底関数に対応する１つ以上の音場コンポーネントを、対応する時間−周波数タイルに対する、複数のマイクロフォン信号のうち１つ以上のマイクロフォン信号から導出された参照信号を用いて計算する。

本発明は、任意の複合音場を記述する音場記述は、時間−周波数タイルからなる時間−周波数表現内の複数のマイクロフォン信号から効率的に導出できるという研究結果に基づくものである。
これらの時間−周波数タイルは、一方では複数のマイクロフォン信号を参照し、他方では音方向を判定するために用いられる。よって、音方向判定は、時間−周波数表現の時間−周波数タイルを用いてスペクトル領域内で行われる。そして、以降の処理の大部分は、同じ時間−周波数表現内で行われることが好ましい。
この目的のために、空間基底関数の評価は、各時間−周波数タイルに対して判定された１つ以上の音方向を用いて実行される。空間基底関数は、音方向に依存するが、周波数には影響されない。よって、周波数領域信号、すなわち時間−周波数タイルの信号による空間基底関数の評価が適用される。同じ時間−周波数表現内では、１つ以上の音方向を用いて評価された１つ以上の空間基底関数に対応する１つ以上の音場コンポーネントは、やはり同じ時間−周波数表現内に存在する参照信号とともに計算される。

信号の各ブロックおよび各周波数ビンに対する、すなわち各時間−周波数タイルに対する、これら１つ以上の音場コンポーネントを最終結果としてもよいし、あるいは１つ以上の空間基底関数に対応する１つ以上の時間領域音場コンポーネントを得るために、時間領域への再変換を行ってもよい。
実施によっては、上記１つ以上の音場コンポーネントは、時間−周波数タイルを用いて時間−周波数表現内で判定された直接音場コンポーネントであってもよいし、典型的には直接音場コンポーネントに加えて判定される拡散音場コンポーネントであってもよい。そして、直接部分と拡散部分を有する最終的な音場コンポーネントは、直接音場コンポーネントと拡散音場コンポーネントを結合することによって得ることができ、この結合は、実際の実施に応じて時間領域または周波数領域のいずれかで行うことができる。

１つ以上のマイクロフォン信号から参照信号を導出するために、いくつかの手順を実行することができる。このような手順は、複数のマイクロフォン信号から、あるマイクロフォン信号を単純に選択すること、あるいは上記１つ以上の音方向に基づいた高度な選択を行うことからなることができる。
高度な参照信号判定では、マイクロフォン信号が導出されたマイクロフォンのうち、音方向の最も近くに位置するマイクロフォンからの特定のマイクロフォン信号を、上記複数のマイクロフォン信号から選択する。さらなる代替案では、多チャンネルフィルタを２つ以上のマイクロフォン信号に適用して、これらのマイクロフォン信号を一緒にフィルタリングすることによって、時間ブロックのすべての周波数タイルに対して共通の参照信号が得られる。
あるいは、時間ブロック内の異なる周波数タイルに対して異なる参照信号を導出してもよい。異なる時間ブロックに対するものではあるが、これら異なる時間ブロック内の同じ周波数に対する異なる参照信号も、もちろん生成することができる。
従って、実施によっては、ある時間−周波数タイルに対する参照信号を、複数のマイクロフォン信号から自由に選択または導出することができる。

これに関連して、マイクロフォンは任意の場所に配置することができることを強調しておく。マイクロフォンは、異なる指向性を有していても良い。さらに、複数のマイクロフォン信号は、必ずしも実在する物理的マイクロフォンによって録音された信号である必要はない。むしろ、マイクロフォン信号は、実在する物理的マイクロフォンを模倣した、あるデータ処理操作を用いて、ある音場から人工的に作成したマイクロフォン信号であってもよい。

いくつかの実施の形態では、拡散音場コンポーネントを判定するために、異なる手順が可能であり、実施によってはこれらが有用である。典型的には、拡散部分は複数のマイクロフォン信号から参照信号として導出され、この（拡散）参照信号は、ある次数（またはレベルおよび／またはモード）の空間基底関数の平均応答とともに後に処理されて、この次数またはレベルまたはモードに対する拡散音コンポーネントが得られる。
従って、直接音コンポーネントは、所定の到来方向により、所定の空間基底関数の評価を用いて計算され、拡散音コンポーネントは当然、所定の到来方向を用いて計算されるのではなく、拡散参照信号を用い、かつ、この拡散参照信号と、ある次数またはレベルまたはモードの空間基底関数の平均応答を、所定の関数によって結合することによって計算される。
この関数による結合は、例えば、直接音コンポーネントの計算でも実行できるように乗算であってもいいし、例えば対数領域での計算が行われる際には、この結合は、加重乗算または加算または減算であってもよい。
乗算または加算／減算とは異なる他の結合は、さらなる非線形または線形関数を用いて実行することができるが、非線形関数が好ましい。ある直接音場コンポーネントと拡散音場コンポーネントを生成した後、直接音場コンポーネントと拡散音場コンポーネントを各時間−周波数タイルごとにスペクトル領域内で結合することによって、結合を実行することができる。
あるいは、ある次数の拡散音場コンポーネントと直接音場コンポーネントを、周波数領域から時間領域に変換することができ、その後、ある次数の直接時間領域コンポーネントと拡散時間領域コンポーネントの時間領域組み合わせも行うことができる。

状況によっては、拡散音場コンポーネントを非相関化するために更に非相関器を用いても良い。あるいは、非相関化された拡散音場コンポーネントは、異なる次数の異なる拡散音場コンポーネントに対する異なるマイクロフォン信号または異なる時間／周波数ビンを用いることによって、あるいは直接音場コンポーネントの計算のための異なるマイクロフォン信号と、拡散音場コンポーネントの計算のための異なるマイクロフォン信号とを用いることによって、生成されることができる。

好適な実施の形態では、上記空間基底関数は、公知のアンビソニックス音場記述の、あるレベル（次数）およびモードに関連した空間基底関数である。ある次数およびあるモードの音場コンポーネントは、あるレベルおよびあるモードと関連したアンビソニックス音場コンポーネントに対応するであろう。典型的には、第１の音場コンポーネントは、図１ａに次数ｌ＝０およびモードｍ＝０に対して示すように、全指向性空間基底関数に関連した音場コンポーネントとなるであろう。

第２の音場コンポーネントは、例えば、図１ａに関して次数ｌ＝１およびモードｍ＝−１に対応するｘ方向内の最大指向性を有する空間基底関数と関連づけられてもよかろう。第３の音場コンポーネントは、例えば、図１ａのモードｍ＝０、次数ｌ＝１に対応するであろうｙ方向の指向性を有する空間基底関数とすることができ、第４の音場コンポーネントは、例えば図１ａのモードｍ＝１、次数ｌ＝１に対応するｚ方向の指向性を有する空間基底関数とすることができよう。

ただし、もちろん、アンビソニックスとは別の他の音場記述も当業者にとって公知であり、アンビソニックス空間基底関数とは異なる空間基底関数に依存する、このような他の音場コンポーネントを、先に述べたように時間−周波数表現内で計算することも有益である。

以下の発明の実施形態では、アンビソニックス信号を得る実用的な方法について述べる。上述した最先端の手法とは対照的に、本手法は、２つ以上のマイクロフォンを有する任意のマイクロフォン・セットアップに適用することができる。さらに、高次のアンビソニックスコンポーネントを、比較的少ないマイクロフォンのみを用いて算出することができる。
従って、本手法は、比較的安価で実用的である。提案される実施の形態では、アンビソニックスコンポーネントは、上述した最先端の手法に関して特定の面に沿った音圧情報から直接算出するのではなく、パラメトリック手法に基づいて合成される。
このために、例えばＤｉｒＡＣ［ＤｉｒＡＣ］（非特許文献６）で用いたのと同様の、やや単純な音場モデルが想定される。さらに詳細には、録音場所の音場は、特定の音方向から到来する１つまたは数個の直接音に加えて、全ての方向から到来する拡散音からなると想定される。
このモデルに基づき、さらに直接音の音方向など音場に関するパラメトリック情報を用いることにより、アンビソニックスコンポーネントまたは任意の他の音場コンポーネントを、音圧をごく数回測定したものから合成することができる。本手法については、以下の項で詳細に説明する。

本発明の好適な実施の形態について、添付の図面を参照して以下で説明する。

図１ａは、異なる次数およびモードの球面調和関数を示す。図１ｂは、どのように参照マイクロフォンを到来方向情報に基づいて選択するかの一例を示す。図１ｃは、音場記述を生成する装置または方法の好ましい実施を示す。図１ｄは、例示的なマイクロフォン信号の時間−周波数変換を示し、周波数ビン１０、時間ブロック１の特定の時間−周波数タイル（１０，１）と、周波数ビン５、時間ブロック２の時間−周波数タイル（５，２）が明確に特定されている。図１ｅは、特定された時間−周波数ビン（１０，１）および（５，２）に対する音方向を用いた４つの例示的な空間基底関数の評価を図示する。図１ｆは、時間−周波数ビン（１０，１）および（５，２）に対する音場コンポーネントの計算、およびその後の周波数−時間変換とクロスフェード／重畳加算処理を図示する。図１ｇは、図１ｆの処理で得られた例示的な４つの音場コンポーネントｂ_１〜ｂ_４の時間領域表現を図示する。図２ａは、本発明の概略ブロック図を示す。図２ｂは、本発明の概略ブロック図を示し、結合器の前に逆時間−周波数変換が適用されている。図３ａは、参照マイクロフォン信号および音方向情報から、所望のレベルおよびモードのアンビソニックスコンポーネントを算出する本発明の実施の形態を示す。図３ｂは、参照マイクロフォンを到来方向情報に基づいて選択する本発明の実施の形態を示す。図４は、直接音アンビソニックスコンポーネントと拡散音アンビソニックスコンポーネントを算出する本発明の実施の形態を示す。図５は、拡散音アンビソニックスコンポーネントを非相関化する本発明の実施の形態を示す。図６は、直接音と拡散音を多数のマイクロフォンおよび音方向情報から抽出する本発明の実施の形態を示す。図７は、拡散音を多数のマイクロフォンから抽出し、拡散音アンビソニックスコンポーネントを非相関化する本発明の実施の形態を示す。図８は、ゲイン平滑化を空間基底関数応答に適用する本発明の実施の形態を示す。

好適な実施の形態を図１ｃに示す。図１ｃは、音場コンポーネントの時間領域表現や音場コンポーネントの周波数領域表現、符号化または復号化表現、または中間表現などの音場コンポーネントの表現を有する音場記述１３０を生成する装置または方法の実施の形態を示す。

この目的で、方向判定器１０２は、複数のマイクロフォン信号の複数の時間−周波数タイルの各時間−周波数タイルに対して１つ以上の音方向１３１を判定する。

従って、方向判定器は、その入力１３２において、少なくとも２つの異なるマイクロフォン信号を受信し、これら２つのマイクロフォン信号のそれぞれに対して、典型的には、スペクトルビンの次のブロックからなる時間−周波数表現が利用でき、スペクトルビンのブロックは、ある時間インデックスｎと関連付けられ、周波数インデックスはｋである。ある時間インデックスに対する周波数ビンのブロックは、あるウインドウ化操作によって生成される時間領域サンプルのブロックに対する時間領域信号のスペクトルを表す。

音方向１３１は、空間基底関数評価器１０３によって、複数の時間−周波数タイルの各時間−周波数タイルごとに、１つ以上の空間基底関数を評価するために用いられる。よって、ブロック１０３における処理の結果は、各時間−周波数タイルごとの１つ以上の評価空間基底関数となる。
図１ｅおよび１ｆを参照して述べるように、４つの空間基底関数など、２つあるいはさらに多くの異なる空間基底関数を用いるのが好ましい。よって、ブロック１０３の出力１３３では、時間−スペクトル表現の異なる時間−周波数タイルに対する異なる次数およびモードの評価空間基底関数が得られ、音場コンポーネント計算器２０１に入力される。
音場コンポーネント計算器２０１は、参照信号計算器（図１ｃには図示せず）によって生成される参照信号１３４もさらに用いる。参照信号１３４は、複数のマイクロフォン信号のうち１つ以上のマイクロフォン信号から導出され、同じ時間／周波数表現内の音場コンポーネント計算器によって用いられる。

よって、音場コンポーネント計算器２０１は、複数の時間−周波数タイルの各時間−周波数タイルに、その時間−周波数タイルに対する１つ以上の参照信号の助けを借りて、１つ以上の音方向を用いて評価された１つ以上の空間基底関数に対応する１つ以上の音場コンポーネントを計算するように構成されている。

実施によっては、空間基底関数評価器１０３は、二次元の場合は一次元、三次元の場合は二次元となる音方向がパラメータであるパラメータ化表現を空間基底関数に対して用い、音方向に対応するパラメータをパラメータ化表現に挿入して各空間基底関数に対する評価結果を得るように構成されている。

あるいは、空間基底関数評価器は、入力として空間基底関数識別および音方向を有し、出力として評価結果を有する各空間基底関数に対するルックアップ・テーブルを用いるように構成されている。この場合、空間基底関数評価器は、方向判定器１０２によって判定された１つ以上の音方向に対して、ルックアップ・テーブル入力の対応する音方向を判定するように構成されている。典型的には、例えば１０種類の異なる音方向など、一定数のテーブル入力が存在するように異なる方向入力が量子化される。

空間基底関数評価器１０３は、ルックアップ・テーブルに対する音方向入力とは直ちに一致しない特定の音方向に対して、対応するルックアップ・テーブル入力を判定するように構成される。これは、例えば、ある判定された音方向に対して、次に高い、あるいは次に低いルックアップ・テーブルへの音方向入力を用いることによって実行することができる。あるいは、２つの隣り合うルックアップ・テーブル入力の加重平均が計算されるようにテーブルを用いる。よって、手順は、次に低い方向入力に対するテーブル出力が判定されるというものになろう。さらに、次に高い入力に対するルックアップ・テーブル出力を判定して、それらの値の平均を計算する。

この平均は、２つの出力を加算し、その結果を２で割ることによって得られる単純平均であってもよいし、次に高いテーブル出力および次に低いテーブル出力に対する判定された音方向の位置に応じた加重平均であってもよい。よって、典型的には、重み付け係数は、判定された音方向と、これに対応する次に高い／次に低いルックアップ・テーブルへの入力との差に依存することになる。例えば、測定された方向が次に低い入力に近い場合、次に低い入力に対するルックアップ・テーブル結果には、次に高い入力に対するルックアップ・テーブル出力が重み付けされる重み付け係数よりも高い重み付け係数が乗算される。よって、判定された方向と次に低い入力との差が小さければ、次に低い入力に対するルックアップ・テーブルの出力は、音の方向に対する次に高いルックアップ・テーブル入力に対応するルックアップ・テーブルの出力を重み付けするために用いられる重み付け係数よりも高い重み付け係数で重み付けされることになる。

次に、異なるブロックの特定の計算に対する例をより詳細に示すために、図１ｄから図１ｇについて説明する。

図１ｄの上の図は、概略的なマイクロフォン信号を示す。ただし、マイクロフォン信号の実際の振幅を示すものではない。代わりに、ウインドウ、特にウインドウ１５１および１５２が図示されている。ウインドウ１５１は第１のブロック１を定義し、ウインドウ１５２は第２のブロック２を特定、判定する。よって、マイクロフォン信号は、好ましくは重複が５０％に等しい重複ブロックで処理される。ただし、より高度あるいは低度の重複を用いてもよく、全く重複していなくても構わない。ただし、重複処理は、ブロックアーチファクトを避けるために行われる。

マイクロフォン信号のサンプリング値の各ブロックは、スペクトル表現に変換される。時間インデックスｎ＝１のブロック、すなわちブロック１５１に対するスペクトル表現またはスペクトルが、図１ｄの中央の図に示されており、参照番号１５２に対応する第２のブロック２のスペクトル表現が図１ｄの下の図に示されている。さらに、例を示すために、各スペクトルは、１０個の周波数ビンを有する、すなわち周波数インデックスｋが例えば１から１０にわたるように図示されている。

よって、時間−周波数タイル（ｋ，ｎ）は、１５３における時間−周波数タイル（１０，１）であり、さらなる例では１５４における別の時間−周波数タイル（５，２）を示している。音場記述を生成する装置によって実行される更なる処理が、例えば、参照番号１５３と１５４によって示される時間−周波数タイルを用いて例として図示された図１ｄに示されている。

さらに、方向判定器１０２は、例として単位ノルムベクトルｎで示される音方向または“ＤＯＡ”（到来方向）を判定するものとする。代替的な方向指標としては、方位角、仰角、またはその両方の角度がある。このために、各マイクロフォン信号が図１ｄに示すように周波数ビンの以降のブロックによって表現される、上記複数のマイクロフォン信号の全てのマイクロフォン信号が方向判定器１０２によって用いられ、図１cの方向判定器１０２は、例えば音方向またはＤＯＡを判定する。
よって、例として、図１ｅの上部に示すように、時間−周波数タイル（１０，１）は音方向ｎ（１０，１）を有し、時間−周波数タイル（５，２）は音方向ｎ（５，２）を有する。三次元の場合、音方向はｘ、ｙ、ｚ成分を有する三次元ベクトルである。もちろん、２つの角度と１つの動径に依る球面座標などの他の座標系を用いてもよい。あるいは、角度を例えば方位角および仰角とすることができる。この場合、動径は必要ない。同様に、デカルト座標などの二次元の場合には、音方向の成分が２つ、すなわちｘ方向とｙ方向があり、あるいは動径と角度または方位角および仰角を有する円座標を用いても良い。

この手順は、時間−周波数タイル（１０，１）と（５，２）に対してだけでなく、マイクロフォン信号が表現される全ての時間−周波数タイルに対して実行される。

次に、必要な１つ以上の空間基底関数を判定する。特に、いくつの音場コンポーネント、あるいは一般的には音場コンポーネントの表現を生成すべきか判定される。ここで図１ｃの空間基底関数評価器１０３が用いる空間基底関数の数が、最終的に、スペクトル表現における各時間−周波数タイルに対する音場コンポーネントの数、または時間領域における音場コンポーネントの数を決める。

さらなる実施の形態に対しては、４つの音場コンポーネントの数を判定すべきとされ、例示的にはこれら４つの音場コンポーネントは、１つの全指向性音場コンポーネント（０に等しい次数に対応する）と、デカルト座標系の対応する座標方向の指向性を有する３方向音場コンポーネントとすることができる。

図１ｅの下の図は、異なる時間−周波数タイルに対する評価された空間基底関数Ｇ_ｉを図示する。よって、この例では、各時間−周波数タイルに対する４つの評価空間基底関数が判定されることが明らかになる。例として各ブロックが１０個の周波数ビンを有するとした場合、図１ｅに図示するように、ブロックｎ＝１に対して、およびブロックｎ＝２に対してなど、各ブロックに対して４０個の評価空間基底関数Ｇ_ｉが判定される。従って、まとめると、２つのみのブロックについて考え、各ブロックが１０個の周波数ビンを有するとした場合、これらの２つのブロックには２０個の時間−周波数タイルがあり、各時間−周波数タイルが４つの評価空間基底関数を有するので、この手順によって８０個の評価された空間基底関数が得られる。

図１ｆは、図１ｃの音場コンポーネント計算器２０１の好ましい実施を示す。図１ｆは、上の２つの図において、図１ｃのブロック２０１にライン１３４を介して入力される、判定された参照信号に対する周波数ビンの２つのブロックを示している。特に、特定のマイクロフォン信号または異なるマイクロフォン信号の組み合わせとすることができる参照信号は、図１ｄを参照して述べたのと同様に処理される。よって、例示的に、参照信号は、ブロックｎ＝１に対する参照スペクトル、およびブロックｎ＝２に対する参照信号スペクトルで表される。よって、参照信号は、ブロック１０３からブロック２０１にライン１３３を介して出力される時間−周波数タイルに対する評価空間基底関数の計算のために用いられたのと同じ時間−周波数パターンに分解される。

次に、音場コンポーネントの実際の計算を、１５５に示すような参照信号Ｐに対応する時間−周波数タイルと、これに関連した評価空間基底関数Ｇとの関数による結合によって行う。ｆ（．．．）によって表される関数による結合は、後に述べる図３ａ、３ｂでは１１５で示す乗算であることが好ましい。ただし、先に述べたように、他の関数による結合を用いても良い。ブロック１５５の関数による結合を利用して、ブロックｎ＝１に対して１５６、ブロックｎ＝２に対して１５７に示すような音場コンポーネントＢ_ｉの周波数領域（スペクトル）表現を得るために、各時間−周波数タイルに対して１つ以上の音場コンポーネントＢ_ｉを算出する。

よって、例示的に、一方には時間−周波数タイル（１０，１）に対する音場コンポーネントＢ_ｉの周波数領域表現を、他方には第２ブロックの時間−周波数タイル（５，２）に対する音場コンポーネントＢ_ｉの周波数領域表現を図示している。ただし、繰り返しになるが、図１ｆにおいて１５６および１５７に図示された音場コンポーネントＢ_ｉの数が、図１ｅの下部に図示した評価空間基底関数の数と同じであることは明らかである。

周波数領域音場コンポーネントのみが必要な場合、上記の計算は、ブロック１５６および１５７の出力で完了する。しかし、他の実施の形態では、第１の音場コンポーネントＢ_１のための時間領域表現、第２の音場コンポーネントＢ_２のためのさらなる時間領域表現などを得るために、音場コンポーネントの時間領域表現が必要とされる。

このため、第１のブロック１５６における周波数ビン１から周波数ビン１０の音場コンポーネントＢ_１が周波数−時間転送ブロック１５９に挿入されて、第１のブロックおよび第１のコンポーネントに対する時間領域表現を得る。

同様に、時間領域の第１のコンポーネント、すなわちｂ_１（ｔ）を判定、計算するために、周波数ビン１から周波数ビン１０の第２のブロックに対するスペクトル音場コンポーネントＢ_１が、さらなる周波数−時間変換１６０によって時間領域表現に変換される。

図１ｄの上部に示すように重複ウインドウが用いられているために、図１ｇの１６２に示すブロック１とブロック２との重複領域における第１のスペクトル表現ｂ_１（ｄ）の出力時間領域サンプルを計算するために、図１ｆの下部に示すクロスフェードまたは重畳加算処理１６１を用いることができる。

第１のブロックと第２のブロックとの重複領域１６３内の第２の時間領域音場コンポーネントｂ_２（ｔ）を計算するために、同様の手順が行われる。さらに、時間領域の第３の音場コンポーネントｂ_３（ｔ）を計算するために、特に、重複領域１６４のサンプルを計算するために、第１のブロックからのコンポーネントＤ_３および第２のブロックからのコンポーネントＤ_３が、手順１５９、１６０によって時間領域表現に対応して変換された後、得られた値がブロック１６１でクロスフェード／重畳加算される。

最後に、図１ｇに図示するように、重複領域１６５における第４の時間領域表現音場コンポーネントｂ_４（ｔ）の最終サンプルを得るために、第１のブロックの第４のコンポーネントＢ４と、第２のブロックの第４のコンポーネントＢ４に対して同様の手順を行う。

ただし、時間−周波数タイルを得るために、重複するブロックで処理を行うのでなく、重複しないブロックで処理を行う場合には、ブロック１６１に図示されるようなクロスフェード／重畳加算は必要ないことに留意すべきである。

さらに、２つよりも多い数のブロックが互いに重複するより高度の重複の場合、これに対応してより多くのブロック１５９、１６０が必要となり、図１ｇに示す時間領域表現のサンプルを最終的に得るために、２つの入力だけではなく３つの入力でブロック１６１のクロスフェード／重畳加算が計算される。

さらに、例えば重複領域ＯＬ_２３に対する時間領域表現のサンプルは、ブロック１５９、１６０における手順を第２のブロックと第３のブロックに適用することによって得られることに留意すべきである。これに対応して、重複領域ＯＬ_０１に対するサンプルは、ブロック０とブロック１のある数ｉの、対応するスペクトル音場コンポーネントＢ_ｉに手順１５９、１６０を実行することによって計算される。

さらに、既に概略を説明したように、音場コンポーネントの表現は、１５６および１５７に対して図１ｆで示すように周波数領域表現とすることができる。あるいは、音場コンポーネントの表現は図１ｇに示すように時間領域表現としてもよく、この場合、４つの音場コンポーネントは、あるサンプリングレートと関連したサンプル列を有する簡単な音信号を表している。さらに、音場コンポーネントの周波数領域表現あるいは時間領域表現を符号化してもよい。この符号化は、各音場コンポーネントが単一信号として符号化されるように別々に行ってもよいし、例えば４つの音場コンポーネントＢ_１〜Ｂ_４が４つのチャンネルを有する多チャンネル信号とみなされるように、一緒に符号化されてもよい。よって、任意の有用な符号化アルゴリズムで符号化される周波数領域表現あるいは時間領域表現もまた、音場コンポーネントの表現の１つである。

さらに、ブロック１６１によって行われるクロスフェード／重畳加算の前の時間領域における表現も、ある実施にとっては音場コンポーネントの有用な表現となりうる。さらに、コンポーネント１など、あるコンポーネントに対するブロックｎにわたるベクトル量子化の一種も、送信、保存、あるいは他の処理タスクのための音場コンポーネントの周波数領域表現を圧縮するために実行することができる。

［好適な実施の形態］
図２ａは、ブロック（１０）によって得られる、多数の（２つ以上の）マイクロフォンの信号から所望の次数（レベル）およびモードのアンビソニックスコンポーネントを合成することができる本新規な手法を示している。関連する最先端の手法とは異なり、マイクロフォン・セットアップには何ら制約がない。これは、多数のマイクロフォンを例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置してもよいことを意味する。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。

所望のアンビソニックスコンポーネントを得るために、複数のマイクロフォン信号はまず、ブロック（１０１）を用いて時間−周波数表現に変換される。このために、例えば、フィルターバンクまたは短時間フーリエ変換（ＳＴＦＴ）を用いることができる。ブロック（１０１）の出力は、時間−周波数領域の多数のマイクロフォン信号である。ただし、以下の処理は、時間−周波数タイルごとに別々に実行される。

時間−周波数領域の多数のマイクロフォン信号を変換した後、２つ以上のマイクロフォン信号からブロック（１０２Ａ）において１つ以上の音方向（時間−周波数タイルに対して）を判定する。音方向は、ある時間−周波数タイルに対する顕著な音がどこからマイクロフォン配列に届いているかを記述するものである。この方向は、通常、音の到来方向（ＤＯＡ）と呼ばれる。
ＤＯＡの代わりに、ＤＯＡの逆方向である音の伝搬方向、あるいは音方向を記述する他の手段を考えてもよい。１つまたは多数の音方向またはＤＯＡはブロック（１０２Ａ）において、例えば、ほとんどどのマイクロフォン・セットアップに対しても利用可能な最先端の狭帯域ＤＯＡ推定器を用いて推定される。ＤＯＡ推定器の適切な例が実施の形態１に挙げられている。
ブロック（１０２Ａ）で算出される音方向またはＤＯＡの数（１つ以上）は、例えば、許容される計算複雑性に依存するとともに、用いられるＤＯＡ推定器の性能またはマイクロフォン形状に依存する。音方向は、例えば二次元空間（例えば方位角の形式で表される）において、または三次元空間（例えば、方位角と仰角の形式で表される）において推定することができる。
以下では、大半の記述は、より一般的な三次元の場合に基づくが、全ての処理工程を二次元の場合にも適用するのは容易である。多くの場合、ユーザは、いくつの音方向またはＤＯＡ（例えば、１つ、２つ、または３つ）を推定するかを時間−周波数タイルごとに指定する。あるいは、最先端の手法、例えば［ＳｏｕｒｃｅＮｕｍ］（非特許文献２０）に説明されている手法を用いて、顕著な音の数を推定してもよい。

ある時間−周波数タイルに対してブロック（１０２Ａ）で推定された１つ以上の音方向は、その時間−周波数タイルに対する所望の次数（レベル）およびモードの空間基底関数の１つ以上の応答を算出するためにブロック（１０３Ａ）で用いられる。評価された各音方向に対して、１つの応答が算出される。
先の項で説明したように、空間基底関数は、例えば球面調和関数（例えば、処理が三次元空間で実行される場合）または円調和関数（例えば、処理が二次元空間で実行される場合）を表現することができる。空間基底関数の応答は、第１の実施の形態でより詳細に説明するように、対応する推定音方向において評価された空間基底関数である。

ある時間−周波数タイルに対して推定された１つ以上の音方向は、さらにブロック（２０１Ａ）において、つまりこの時間−周波数タイルに対して所望の次数（レベル）およびモードの１つ以上のアンビソニックスコンポーネントを算出するために用いられる。
このようなアンビソニックスコンポーネントは、推定された音方向から到来する指向性音に対するアンビソニックスコンポーネントを合成する。この時間−周波数タイルに対してブロック（１０３Ａ）で算出された空間基底関数の１つ以上の応答、および所定の時間−周波数タイルに対する１つ以上のマイクロフォン信号も、ブロック（２０１Ａ）に更に入力される。
ブロック（２０１Ａ）では、推定された各音方向および対応する空間基底関数の応答に対して、所望の次数（レベル）およびモードの１つのアンビソニックスコンポーネントが算出される。ブロック（２０１Ａ）の処理工程については、以下の実施の形態でさらに説明する。

本発明（１０）は、ある時間−周波数タイルに対して所望の次数（レベル）およびモードの拡散音アンビソニックスコンポーネントを算出することができる任意のブロック（３０１）を含んでいる。このコンポーネントは、例えば純粋拡散音場に対する、または周囲音に対するアンビソニックスコンポーネントを合成する。
ブロック（３０１）には、１つ以上のマイクロフォン信号に加え、ブロック（１０２Ａ）で推定された１つ以上の音方向が入力される。ブロック（３０１）の処理工程については、後の実施の形態でさらに説明する。

任意のブロック（３０１）で算出される拡散音アンビソニックスコンポーネントは、任意のブロック（１０７）においてさらに非相関化されてもよい。このために、最先端の非相関器を用いることができる。幾つかの例が実施の形態４に挙げられている。典型的には、異なる次数（レベル）およびモードに対して異なる非相関器または非相関器の異なる実施を適用することになるであろう。
こうすることで、非相関化された異なる次数（レベル）およびモードの拡散音アンビソニックスコンポーネントが、相互に無相関になる。これにより予期された物理的挙動が起こる、すなわち異なる次数（レベル）およびモードのアンビソニックスコンポーネントが、例えば［ＳｐＣｏｈｅｒｅｎｃｅ］（非特許文献２１）で説明されるように、拡散音または周囲音に対して相互に無相関になる。

ある時間−周波数タイルに対してブロック（２０１Ａ）で算出された所望の次数（レベル）およびモードの１つ以上の（直接音）アンビソニックスコンポーネントと、ブロック（３０１）で算出された対応する拡散音アンビソニックスコンポーネントとが、ブロック（４０１）で結合される。
後の実施の形態で説明するように、結合は、例えば（加重）和として実現することができる。ブロック（４０１）の出力は、所定の時間−周波数タイルに対する所望の次数（レベル）およびモードの最終的な合成アンビソニックスコンポーネントである。
当然、ある時間−周波数タイルに対して所望の次数（レベル）およびモードの単一の（直接音）アンビソニックスコンポーネントのみがブロック（２０１Ａ）で算出される（また、拡散音アンビソニックスコンポーネントがない）場合、結合器（４０１）は必要ない。

すべての時間−周波数タイルに対して所望の次数（レベル）およびモードの最終的なアンビソニックスコンポーネントを算出した後、アンビソニックスコンポーネントは、例えば、逆フィルターバンクや逆ＳＴＦＴとして実現することができる逆時間−周波数変換（２０）で、元の時間領域に変換しなおしてもよい。
ただし、逆時間−周波数変換は全ての適用において必要というわけではなく、したがって本発明の一部ではない。実際には、所望の最大次数（レベル）の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対してアンビソニックスコンポーネントを算出することになるであろう。

図２ｂは、同様の本発明を若干変更した実現例を示す。この図では、結合器（４０１）の前に逆時間−周波数変換（２０）が適用されている。
これは、逆時間−周波数変換が通常、線形変換であるため可能である。結合器（４０１）の前に逆時間−周波数変換を適用することによって、例えば、時間領域（図２ａのように時間―周波数領域ではなく）において非相関化を実行することができる。これによって、本発明を実施する際、ある適用では実用的な利点が得られる。

逆フィルターバンクは、どこか他の場所であってもよいことに留意すべきである。結合器および非相関器は一般に（非相関器は通常）、時間領域で適用されるべきである。
しかし、両方または一方のブロックのみを周波数領域で適用してもよい。

従って、好適な実施の形態は、複数の時間−周波数タイルの各時間−周波数タイルに対して、１つ以上の拡散音コンポーネントを計算する拡散コンポーネント計算器３０１を備えている。さらに、これらの実施の形態は、音場コンポーネントの周波数領域表現または時間領域表現を得るために拡散音情報と直接音場情報とを結合する結合器４０１を備えている。
さらに、実施によっては、拡散コンポーネント計算器は拡散音情報を非相関化する非相関器１０７をさらに備え、非相関器は、相関が拡散音コンポーネントの時間−周波数タイル表現で行われるように、周波数領域内に実装することができる。あるいは、非相関器は、図２ｂに図示するように時間領域内で動作するように構成されて、ある次数のある拡散音コンポーネントの時間表現の時間領域内で非相関化が行われる。

本発明に関する更なる実施の形態は、複数の時間領域マイクロフォン信号のそれぞれを、複数の時間−周波数タイルを有する周波数表現に変換する時間−周波数変換器１０１などの時間−周波数変換器を備える。
更なる実施の形態は、１つ以上の音場コンポーネント、または１つ以上の音場コンポーネント、すなわち直接音場コンポーネントと拡散音コンポーネントの組み合わせを、音場コンポーネントの時間領域表現に変換する図２ａまたは図２ｂのブロック２０などの周波数−時間変換器を備える。

特に、周波数−時間変換器２０は、１つ以上の音場コンポーネントを処理して複数の時間領域音場コンポーネントを得るように構成されていて、これらの時間領域音場コンポーネントは直接音場コンポーネントである。
さらに、周波数−時間変換器２０は、拡散音（場）コンポーネントを処理して複数の時間領域拡散（音場）コンポーネントを得るように構成され、結合器は、例えば図２ｂに示すように時間領域において時間領域（直接）音場コンポーネントと時間領域拡散（音場コンポーネント）の結合を実行するように構成されている。
あるいは、結合器４０１は、ある時間−周波数タイルの１つ以上の（直接）音場コンポーネントと、対応する時間−周波数タイルの拡散音（場）コンポーネントを周波数領域内で結合するように構成されており、周波数−時間変換器２０は、例えば図２ａに示すように、結合器４０１の結果を処理して時間領域の音場コンポーネント、すなわち時間領域の音場コンポーネントの表現を得るように構成される。

以下の実施の形態では、本発明のいくつかの実現例について、より詳細に説明する。ただし、実施の形態１〜７では、時間−周波数タイルあたり１つの音方向（よって、レベル、モード、時間、周波数あたり１つのみの空間基底関数の応答および１つのみの直接音アンビソニックスコンポーネント）を考える。
実施の形態８では、時間−周波数タイルあたり１より多い音方向を考えた例について説明している。この実施の形態の概念は、全ての他の実施の形態に容易に適用できる。

［実施の形態１］
図３ａは、多数（２つ以上）のマイクロフォンの信号から所望の次数（レベル）ｌおよびモードｍのアンビソニックスコンポーネントを合成することができる、本発明の実施の形態を示す。

本発明への入力は、多数（２つ以上）のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。

多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換（ＳＴＦＴ）を用いてブロック（１０１）で時間−周波数領域に変換される。時間−周波数変換（１０１）の出力は、時間−周波数領域の多数のマイクロフォン信号であり、Ｐ_{１．．．Ｍ}（ｋ，ｎ）で表される。ここで、ｋは周波数インデックス、ｎは時間インデックス、Ｍはマイクロフォンの数である。ただし、以下の処理は、各時間−周波数タイル（ｋ，ｎ）に対して別々に実行される。

マイクロフォン信号を時間−周波数領域に変換した後、２つ以上のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）を用いて時間および周波数ごとに、音方向推定がブロック（１０２Ｂ）において実行される。この実施の形態では、時間および周波数あたり単一の音方向を判定する。
（１０２Ｂ）における音方向推定には、最先端の狭帯域到来方向（ＤＯＡ）推定器を用いることができ、これは文献において異なるマイクロフォン配列形状に利用可能である。例えば、任意のマイクロフォン・セットアップに適用可能なＭＵＳＩＣアルゴリズム［ＭＵＳＩＣ］（非特許文献１４）を用いることができる。
全指向性マイクロフォンの均等直線配列、等距離格子点を備えた不均等直線配列、あるいは円配列の場合、ＭＵＳＩＣよりも計算上効率の良いＲｏｏｔＭＵＳＩＣアルゴリズム［ＲｏｏｔＭＵＳＩＣ１，ＲｏｏｔＭＵＳＩＣ２，ＲｏｏｔＭＵＳＩＣ３］（非特許文献１６〜１８）を適用することができる。回転不変サブアレイ構造を備えた直線配列または平面配列に適用できる他の公知の狭帯域ＤＯＡ推定器としてはＥＳＰＲＩＴ［ＥＳＰＲＩＴ］（非特許文献９）がある。

この実施の形態では、音方向推定器（１０２Ｂ）の出力は、時間インスタンスｎと周波数インデックスｋに対する音方向である。音方向は、例えば、単位ノルムベクトル

で、あるいは方位角φ（ｋ，ｎ）および／または仰角θ（ｋ，ｎ）で表現することができ、これらは例えば以下のような関係にある。
（数１）

仰角θ（ｋ，ｎ）推定されない場合（二次元の場合）、以下の工程ではゼロ仰角、すなわちθ（ｋ，ｎ）＝０と仮定することができる。この場合、単位ノルムベクトル

は、以下のように記すことができる。
（数２）

ブロック（１０２Ｂ）で音方向を推定した後、所望の次数（レベル）ｌおよびモードｍの空間基底関数の応答が、推定した音方向情報を用いて時間および周波数ごとに個々にブロック（１０３Ｂ）で判定される。
次数（レベル）ｌおよびモードｍの空間基底関数の応答は、

で表され、以下のように計算される。
（数３）

ここで、

は次数（レベル）ｌおよびモードｍの空間基底関数であり、ベクトル

または方位角φ（ｋ，ｎ）および／または仰角θ（ｋ，ｎ）によって示される方向に依存する。
従って、応答

は、ベクトル

あるいは方位角φ（ｋ，ｎ）および／または仰角θ（ｋ，ｎ）によって示される方向から到来する音の空間基底関数

の応答を表す。
例えば、空間基底関数としてＮ３Ｄ正規化による実数値の球面調和関数を考えた場合、

は、［ＳｐｈＨａｒｍ，Ａｍｂｉｘ，ＦｏｕｒｉｅｒＡｃｏｕｓｔ］（非特許文献２２，２，１０）として算出することができる。
（数４）

ここで、
（数５）

は、Ｎ３Ｄ正規化定数であり、

は、仰角によって決まる、次数（レベル）ｌおよびモードｍの関連するルジャンドル多項式であり、例えば［ＦｏｕｒｉｅｒＡｃｏｕｓｔ］（非特許文献１０）に定義されている。
ただし、所望の次数（レベル）ｌおよびモードｍの空間基底関数

の応答は、各方位角および／または仰角ごとに予め算出してルックアップ・テーブルに保存した後、推定された音方向に応じて選択してもよい。

この実施の形態では、第１のマイクロフォン信号を参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）と呼んでも一般性が失われることはない、すなわち、
（数６）

である。

この実施の形態では、参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）、時間−周波数タイル（ｋ，ｎ）対して、ブロック（１０３Ｂ）において判定した空間基底関数の応答

が乗算１１５などして結合される、すなわち、
（数７）

であり、これにより、時間−周波数タイル（ｋ，ｎ）に対する次数（レベル）ｌおよびモードｍの所望のアンビソニックスコンポーネント

が得られる。
得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆ＳＴＦＴを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生適用のために用いてもよい。
実際には、所望の最大次数（レベル）の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになる。

［実施の形態２］
図３ｂは、多数（２つ以上）のマイクロフォンの信号から所望の次数（レベル）ｌおよびモードｍのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態１と類似しているが、複数のマイクロフォンの信号から参照マイクロフォン信号を判定するブロック（１０４）をさらに備えている。

実施の形態１と同様に、本発明への入力は、多数（２つ以上）のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。

実施の形態１と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換（ＳＴＦＴ）を用いてブロック（１０１）で時間−周波数領域に変換される。時間−周波数変換（１０１）の出力は時間−周波数領域のマイクロフォン信号であり、Ｐ_{１．．．Ｍ}（ｋ，ｎ）で表される。以下の処理は、各時間−周波数タイル（ｋ，ｎ）に対して別々に実行される。

実施の形態１と同様に、２つ以上のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）を用いて時間および周波数ごとに、ブロック（１０２Ｂ）で音方向推定を実行する。対応する推定器については、実施の形態１で述べた通りである。音方向推定器（１０２Ｂ）の出力は、時間インスタンスｎおよび周波数インデックスｋごとの音方向である。音方向は、例えば、単位ノルムベクトル

で、あるいは方位角φ（ｋ，ｎ）および／または仰角θ（ｋ，ｎ）で表現することができ、これらは実施の形態１で説明したような関係にある。

実施の形態１と同様に、所望の次数（レベル）ｌおよびモードｍの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック（１０３Ｂ）で判定する。空間基底関数の応答は、

と表される。例えば、Ｎ３Ｄ正規化による実数値の球面調和関数を空間基底関数とすることができ、

は実施の形態１で説明したように判定することができる。

この実施の形態では、参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）をブロック（１０４）において多数のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）から判定する。このために、ブロック（１０４）は、ブロック（１０２Ｂ）で推定した音方向情報を用いる。
異なる時間−周波数タイルに対して、異なる参照信号を判定してもよい。音方向情報に基づいて多数のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）から参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）を判定するという異なる可能性がある。
例えば、多数のマイクロフォンから、推定した音方向に最も近いマイクロフォンを時間および周波数ごとに選択することができる。この手法が、図１ｂに視覚的に示されている。
例えば、マイクロフォン位置が位置ベクトル

によって与えられると仮定した場合、最も近いマイクロフォンのインデックスｉ（ｋ，ｎ）は、以下の問題を解くことによって得られる。
（数８）

その結果、検討中の時間および周波数に対する参照マイクロフォン信号は、以下によって与えられる。
（数９）

図１ｂの例では、

が

に最も近いので、時間−周波数タイル（ｋ，ｎ）の参照マイクロフォンはマイクロフォンＮｏ．３、すなわちｉ（ｋ，ｎ）＝３である。参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）を判定する別の手法は、多チャンネルフィルタをマイクロフォン信号に適用する、すなわち、
（数１０）

である。ここで

は、推定された音方向に応じた多チャンネルフィルタで、ベクトル

は、多数のマイクロフォン信号を含む。
文献には、Ｐ_ｒｅｆ（ｋ，ｎ）を算出するのに用いることができる、多くの異なる最適な多チャンネルフィルタ

があり、例えば、［ＯｐｔＡｒｒａｙＰｒ］（非特許文献１５）で導出されるｄｅｌａｙ＆ｓｕｍフィルタやＬＣＭＶフィルタがある。多チャンネルフィルタを用いることには［ＯｐｔＡｒｒａｙＰｒ］（非特許文献１５）で説明されるような異なる利点と欠点があるが、例えば、マイクロフォンの自生雑音を減少させることができる。

実施の形態１と同様に、参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）には、最後に、ブロック（１０３Ｂ）で判定した空間基底関数の応答

が、時間および周波数ごとに結合されて（乗算１１５されて）、時間−周波数タイル（ｋ，ｎ）に対する次数（レベル）ｌおよびモードｍの所望のアンビソニックスコンポーネント

が得られる。得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆ＳＴＦＴを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数（レベル）の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。

［実施の形態３］
図４は、多数（２つ以上）のマイクロフォンの信号から所望の次数（レベル）ｌおよびモードｍのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態１と類似しているが、直接音信号と拡散音信号のアンビソニックスコンポーネントを算出する。

実施の形態１と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換（ＳＴＦＴ）を用いてブロック（１０１）で時間−周波数領域に変換される。
時間−周波数変換（１０１）の出力は時間−周波数領域のマイクロフォン信号であり、Ｐ_{１．．．Ｍ}（ｋ，ｎ）で表される。以下の処理は、各時間−周波数タイル（ｋ，ｎ）に対して別々に実行される。

実施の形態１と同様に、２つ以上のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）を用いて時間および周波数ごとに、ブロック（１０２Ｂ）で音方向推定を実行する。
対応する推定器については、実施の形態１で述べた通りである。音方向推定器（１０２Ｂ）の出力は、時間インスタンスｎおよび周波数インデックスｋごとの音方向である。
音方向は、例えば、単位ノルムベクトル

実施の形態１と同様に、所望の次数（レベル）ｌおよびモードｍの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック（１０３Ｂ）で判定する。
空間基底関数の応答は、

で表される。
例えば、Ｎ３Ｄ正規化による実数値の球面調和関数を空間基底関数とすることができ、

は実施の形態１で説明したように判定することができる。

この実施の形態では、時間インデックスｎに依存しない、所望の次数（レベル）ｌおよびモードｍの空間基底関数の平均応答がブロック（１０６）から得られる。この平均応答は

で示され、全ての可能な方向から到来する音（拡散音や周囲音など）に対する空間基底関数の応答を記述している。平均応答

を定義する一つの例は、全ての可能な角度φおよび／またはθに対して空間基底関数

の二乗振幅の積分を考えることである。例えば、球上の全ての角度に対して積分した場合、
（数１１）

が得られる。

このような平均応答

の定義は、以下のように解釈することができる。実施の形態１で説明したように、空間基底関数

は、次数ｌのマイクロフォンの指向性と解釈することができる。
次数が高くなると、このようなマイクロフォンはますます指向性が高くなり、従って、全指向性マイクロフォン（次数ｌ＝０のマイクロフォン）と比較して実際の音場で得られる拡散音エネルギーまたは周囲音エネルギーが少なくなる。
上記において定められた

の定義によれば、平均応答

によって実数値係数が得られ、これは全指向性マイクロフォンに比べて、次数ｌのマイクロフォンの信号においてどのくらい拡散音エネルギーまたは周囲音エネルギーが減衰されるかを表している。
明らかに、球の方向に対して空間基底関数

の二乗振幅を積分することに加え、例えば、円の方向に対して

の二乗振幅を積分する、所望の方向（φ，θ）の任意の組に対して

の二乗振幅を平均する、二乗振幅の代わりに

の振幅を積分または平均する、所望の方向（φ，θ）の任意の組に対して

の加重和を取る、または拡散音または周囲音に対して次数ｌの上述した仮想マイクロフォンの所望の感度に対応する

の任意の所望の実数値を特定するなど、平均応答

を定義する異なる代替案がある。

平均空間基底関数応答は、あらかじめ計算してルックアップ・テーブルに保存しておいてもよく、応答値の判定は、ルックアップ・テーブルにアクセスして対応する値を読み出すことによって実行される。

実施の形態１と同様に、第１のマイクロフォン信号を参照マイクロフォン信号と呼んでも一般性が失われることはない、すなわち、Ｐ_ｒｅｆ（ｋ，ｎ）＝Ｐ_１（ｋ，ｎ）である。

この実施の形態では、参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）は、Ｐ_ｄｉｒ（ｋ，ｎ）で表される直接音信号と、Ｐ_ｄｉｆｆ（ｋ，ｎ）で表される拡散音信号を計算するためにブロック（１０５）で用いられる。
ブロック（１０５）では、直接音信号Ｐ_ｄｉｒ（ｋ，ｎ）は、例えば、単一チャンネルフィルタＷ_ｄｉｒ（ｋ，ｎ）を参照マイクロフォン信号に適用することによって計算することができる、すなわち、
（数１２）
Ｐ_ｄｉｒ（ｋ，ｎ）＝Ｗ_ｄｉｒ（ｋ，ｎ）Ｐ_ｒｅｆ（ｋ，ｎ）
である。

文献には、最適な単一チャンネルフィルタＷ_ｄｉｒ（ｋ，ｎ）を算出する異なる可能性がある。例えば、公知の平方根ウィーナフィルタを用いることができ、これは例えば［ＶｉｃｔａｕｌＭｉｃ］（非特許文献２３）に以下のように定義された。
（数１３）

ここで、ＳＤＲ（ｋ，ｎ）は時間インスタンスｎおよび周波数インデックスｋにおける信号対拡散比（ＳＤＲ）であり、［ＶｉｒｔｕａｌＭｉｃ］（非特許文献２３）で説明されるように直接音と拡散音の出力比を表す。
ＳＤＲは、多数のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）のうち任意の２つのマイクロフォンを用いて、文献において利用可能な最先端のＳＤＲ推定器、例えば２つの任意のマイクロフォン信号間の空間コヒーレンスに基づいた、［ＳＤＲｅｓｔｉｍ］（非特許文献１９）に提案される推定器で推定することができる。
ブロック（１０５）において、拡散音信号Ｐ_ｄｉｆｆ（ｋ，ｎ）は、例えば単一チャネルフィルタＷ_ｄｉｆｆ（ｋ，ｎ）を参照マイクロフォン信号に適用することによって計算することができる、すなわち、
（数１４）

である。

文献には、最適な単一チャネルフィルタＷ_ｄｉｆｆ（ｋ，ｎ）を算出する異なる可能性がある。例えば、公知の平方根ウィーナフィルタを用いることができ、これは例えば［ＶｉｒｔｕａｌＭｉｃ］（非特許文献２３）において以下のように定義された。
（数１５）

ここで、ＳＤＲ（ｋ，ｎ）は先に述べたように推定できるＳＤＲである。

この実施の形態において、ブロック（１０５）で判定した直接音信号Ｐ_ｄｉｒ（ｋ，ｎ）には、ブロック（１０３Ｂ）で判定した空間基底関数の応答

が時間および周波数ごとに結合される（乗算１１５ａされる）、すなわち、
（数１６）

これにより、時間−周波数タイル（ｋ，ｎ）に対する次数（レベル）ｌおよびモードｍの直接音アンビソニックスコンポーネント

が得られる。さらに、ブロック（１０５）で判定した拡散音信号Ｐ_ｄｉｆｆ（ｋ，ｎ）には、ブロック（１０６）で判定した空間基底関数の平均応答

が時間および周波数ごとに結合される（乗算１１５ｂされる）、すなわち、
（数１７）

であり、これにより、時間−周波数タイル（ｋ，ｎ）に対する次数（レベル）ｌおよびモードｍの拡散音アンビソニックスコンポーネント

が得られる。

最後に、直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

を、例えば加算演算（１０９）によって結合して、時間−周波数タイル（ｋ，ｎ）に対する所望の次数（レベル）ｌおよびモードｍの最終的なアンビソニックスコンポーネント

を得る、すなわち、
（数１８）

である。

得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆ＳＴＦＴを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数（レベル）の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。

例えば逆フィルターバンクまたは逆ＳＴＦＴを用いた時間領域への再変換は、

を算出する前、すなわち演算（１０９）の前に実行してもよいことを強調することは重要である。
これは、まず

と

を元の時間領域に変換しなおした後、両方のコンポーネントを演算（１０９）によって合計して最終的なアンビソニックスコンポーネント

を得ても良いことを意味する。これは、逆フィルターバンクまたは逆ＳＴＦＴが一般に線形演算であるため可能である。

この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

が異なるモード（次数）ｌに対して算出されるように構成できることに留意すべきである。
例えば、

は次数ｌ＝４まで算出することができ、一方、

は次数ｌ＝１までのみ算出してもよい（この場合、

は、ｌ＝１より大きい次数に対してはゼロになる）。
これによって、実施の形態４で説明するような一定の利点が得られる。例えば特定の次数（レベル）ｌまたはモードｍに対して

ではなく

のみを計算することが望ましい場合、例えばブロック（１０５）を、拡散音信号Ｐ_ｄｉｆｆ（ｋ，ｎ）がゼロに等しくなるように構成することができる。これは、例えば、先の式におけるフィルタＷ_ｄｉｆｆ（ｋ，ｎ）をゼロに、フィルタＷ_ｄｉｒ（ｋ，ｎ）を１に設定することによって実現できる。あるいは、手作業で先の式におけるＳＤＲを非常に高い値に設定することも可能であろう。

［実施の形態４］
図５は、多数（２つ以上）のマイクロフォンの信号から所望の次数（レベル）ｌおよびモードｍのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。
この実施の形態は、実施の形態３と類似しているが、拡散アンビソニックスコンポーネントに対する非相関器をさらに備えている。

実施の形態３と同様に、本発明への入力は、多数（２つ以上）のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。

実施の形態３と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換（ＳＴＦＴ）を用いてブロック（１０１）で時間−周波数領域に変換される。時間−周波数変換（１０１）の出力は時間−周波数領域のマイクロフォン信号であり、Ｐ_{１．．．Ｍ}（ｋ，ｎ）で表される。以下の処理は、各時間−周波数タイル（ｋ，ｎ）に対して別々に実行される。

実施の形態３と同様に、２つ以上のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）を用いて時間および周波数ごとに、ブロック（１０２Ｂ）で音方向推定を実行する。対応する推定器については、実施の形態１で述べた通りである。音方向推定器（１０２Ｂ）の出力は、時間インスタンスｎおよび周波数インデックスｋごとの音方向である。音方向は、例えば、単位ノルムベクトル

実施の形態３と同様に、所望の次数（レベル）ｌおよびモードｍの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック（１０３Ｂ）で判定する。
空間基底関数の応答は、

と表される。
例えば、Ｎ３Ｄ正規化による実数値の球面調和関数を空間基底関数とすることができ、

は実施の形態１で説明したように判定することができる。

実施の形態３と同様に、時間インデックスｎに依存しない、所望の次数（レベル）ｌおよびモードｍの空間基底関数の平均応答がブロック（１０６）から得られる。この平均応答は

で示され、全ての可能な方向から到来する音（拡散音または周囲音など）に対する空間基底関数の応答を表している。平均応答

は、実施の形態３で説明したように得られる。

実施の形態３と同様に、第１のマイクロフォン信号を参照マイクロフォン信号と呼んでも一般性が失われることはない、すなわち、Ｐ_ｒｅｆ（ｋ，ｎ）＝Ｐ_１（ｋ，ｎ）である。

実施の形態３と同様に、参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）は、Ｐ_ｄｉｒ（ｋ，ｎ）で表される直接音信号とＰ_ｄｉｆｆ（ｋ，ｎ）で表される拡散音信号を計算するためにブロック（１０５）で用いられる。
Ｐ_ｄｉｒ（ｋ，ｎ）とＰ_ｄｉｆｆ（ｋ，ｎ）の算出については、実施の形態３に説明した通りである。

実施の形態３と同様に、ブロック（１０５）で判定した直接音信号Ｐ_ｄｉｒ（ｋ，ｎ）には、ブロック（１０３Ｂ）で判定した空間基底関数の応答

が時間および周波数ごとに結合されて（乗算１１５ａされて）、時間−周波数タイル（ｋ，ｎ）に対する次数（レベル）ｌおよびモードｍの直接音アンビソニックスコンポーネント

が時間および周波数ごとに結合されて（乗算１１５ｂされて）、時間−周波数タイル（ｋ，ｎ）に対する次数（レベル）ｌおよびモードｍの拡散音アンビソニックスコンポーネント

が得られる。

この実施の形態では、計算された拡散音アンビソニックスコンポーネント

は、非相関器を用いてブロック（１０７）で非相関化され、

で表される非相関拡散音アンビソニックスコンポーネントが得られる。非相関化には、最先端の非相関化技術を用いることができる。異なるレベルおよびモードの非相関拡散音アンビソニックスコンポーネント

が互いに無相関になるよう、異なる次数（レベル）ｌおよびモードｍの拡散音アンビソニックスコンポーネント

には、通常、異なる非相関器または非相関器の実現例が適用される。こうする際、拡散音アンビソニックスコンポーネント

は期待された物理的挙動を有する、すなわち異なる次数およびモードのアンビソニックスコンポーネントは、音場が周囲のものまたは拡散している場合に相互に無相関になる［ＳｐＣｏｈｅｒｅｎｃｅ］（非特許文献２１）。ただし、拡散音アンビソニックスコンポーネント

は、非相関器（１０７）を適用する前に、例えば逆フィルターバンクまたは逆ＳＴＦＴを用いて元の時間領域に変換しなおしてもよいことに留意すべきである。

最後に、直接音アンビソニックスコンポーネント

と非相関拡散音アンビソニックスコンポーネント

を、例えば加算（１０９）によって結合して、時間−周波数タイル（ｋ，ｎ）に対する所望の次数（レベル）ｌおよびモードｍの最終的なアンビソニックスコンポーネント

を得る、すなわち、
（数１９）

である。

得られたアンビソニックスコンポーネント

を算出する前、すなわち、演算（１０９）の前に実行してもよいことを強調することは重要である。
これは、まず

と

を得ても良いことを意味する。これは、逆フィルターバンクまたは逆ＳＴＦＴが一般に線形演算であるため可能である。
同様に、非相関器（１０７）は、拡散音アンビソニックスコンポーネント

を元の時間領域に変換しなおした後に

に対して適用してもよい。非相関器の中には時間領域信号で動作するものがあるので、実用においてこれが有益かもしれない。

さらに、非相関器の前に逆フィルターバンクなどのブロックを図５に追加することができることに留意すべきで、逆フィルターバンクは本システムのいずれの場所に追加してもよい。

実施の形態３で説明したように、この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

が異なるモード（次数）ｌに対して算出されるように構成できる。
例えば、

は、次数ｌ＝４まで算出することができ、一方、

は次数ｌ＝１までのみ算出してもよい。これによって、計算複雑性が低くなる。

［実施の形態５］
図６は、多数（２つ以上）のマイクロフォンの信号から所望の次数（レベル）ｌおよびモードｍのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態４と類似しているが、直接音信号と拡散音信号が、複数のマイクロフォン信号から、到来方向情報を活用することによって判定される。

実施の形態４と同様に、本発明への入力は、多数（２つ以上）のマイクロフォンの信号である。マイクロフォンは、例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。

実施の形態４と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換（ＳＴＦＴ）を用いてブロック（１０１）で時間−周波数領域に変換される。
時間−周波数変換（１０１）の出力は時間−周波数領域のマイクロフォン信号であり、Ｐ_{１．．．Ｍ}（ｋ，ｎ）で表される。以下の処理は、各時間−周波数タイル（ｋ，ｎ）に対して別々に実行される。

実施の形態４と同様に、２つ以上のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）を用いて時間および周波数ごとに、ブロック（１０２Ｂ）で音方向推定を実行する。対応する推定器については、実施の形態１で述べた通りである。
音方向推定器（１０２Ｂ）の出力は、時間インスタンスｎおよび周波数インデックスｋごとの音方向である。音方向は、例えば、単位ノルムベクトル

実施の形態４と同様に、所望の次数（レベル）ｌおよびモードｍの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック（１０３Ｂ）で判定する。
空間基底関数の応答は、

は実施の形態１で説明したように判定することができる。

実施の形態４と同様に、時間インデックスｎに依存しない、所望の次数（レベル）ｌおよびモードｍの空間基底関数の平均応答がブロック（１０６）から得られる。この平均応答は

は、実施の形態３で説明したように得られる。

この実施の形態では、直接音信号Ｐ_ｄｉｒ（ｋ，ｎ）および拡散音信号Ｐ_ｄｉｆｆ（ｋ，ｎ）は、ブロック（１１０）において２つ以上の利用可能なマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）から時間インデックスｎおよび周波数インデックスｋごとに判定される。
このために、ブロック（１１０）は通常、ブロック（１０２）で判定した音方向情報を用いる。以下では、どのようにＰ_ｄｉｒ（ｋ，ｎ）およびＰ_ｄｉｆｆ（ｋ，ｎ）を判定するかを述べた、ブロック（１１０）の異なる例について説明する。

ブロック（１１０）の第１の例では、Ｐ_ｒｅｆ（ｋ，ｎ）で表される参照マイクロフォン信号を、ブロック（１０２Ｂ）によって得られる音方向情報に基づいて多数のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）から判定する。
参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）は、検討中の時間および周波数に対する推定音方向に最も近いマイクロフォン信号を選択することによって判定してもよい。
この参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）を判定するための選択処理については、実施の形態２で説明した。Ｐ_ｒｅｆ（ｋ，ｎ）を判定した後、例えば、単一チャネルフィルタＷ_ｄｉｒ（ｋ，ｎ）とＷ_ｄｉｆｆ（ｋ，ｎ）をそれぞれ参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）に適用することによって、直接音信号Ｐ_ｄｉｒ（ｋ，ｎ）と拡散音信号Ｐ_ｄｉｆｆ（ｋ，ｎ）を計算することができる。この手法および対応する単一チャネルフィルタの算出については、実施の形態３で説明した。

ブロック（１１０）の第２の例では、参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）を先の例のように判定し、単一チャネルフィルタＷ_ｄｉｒ（ｋ，ｎ）をＰ_ｒｅｆ（ｋ，ｎ）に適用することによってＰ_ｄｉｒ（ｋ，ｎ）を算出する。
しかし、拡散信号を判定するためには、第２の参照信号

を選択し、単一チャネルフィルタ

を第２の参照信号

に適用する、すなわち
（数２０）

である。

フィルタＷ_ｄｉｆｆ（ｋ，ｎ）は、例えば実施の形態３で説明したように算出することができる。
第２の参照信号

は、利用可能なマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）の１つに対応する。
しかし、異なる次数ｌおよびモードｍに対しては、異なるマイクロフォン信号を第２の参照信号として用いても良い。例えば、レベルｌ＝１、モードｍ＝−１に対しては、第１のマイクロフォン信号を第２の参照信号として用いてもよい、すなわち、

である。レベルｌ＝１、モードｍ＝０に対しては、第２のマイクロフォン信号を用いることができる、すなわち、

である。
レベルｌ＝１、モードｍ＝１に対しては、第３のマイクロフォン信号を用いることができる、すなわち、

である。利用可能なマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）は、例えば、異なる次数およびモードに対する第２の参照信号

にランダムに割り当てることができる。拡散または周囲録音状況に対しては、全てのマイクロフォン信号が通常同様の音響出力を備えるので、これは実用において合理的な手法である。
異なる次数およびモードに対して異なる第２の参照マイクロフォン信号を選択することには、得られる拡散音信号が異なる次数およびモードに対してしばしば（少なくとも部分的に）相互に無相関になるという利点がある。

ブロック（１１０）の第３の例では、直接音信号Ｐ_ｄｉｒ（ｋ，ｎ）を、ｗ_ｄｉｒ（ｎ）で示す多チャンネルフィルタを多数のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）に適用することによって判定する、すなわち、
（数２１）

であり、ここで、多チャンネルフィルタ

は推定された音方向に依存し、ベクトル

は多数のマイクロフォン信号を含む。
文献には、音方向情報からＰ_ｄｉｒ（ｋ，ｎ）を算出するために用いることができる、多くの異なる最適な多チャンネルフィルタ

、例えば、［ＩｎｆｏｒｍｅｄＳＦ］（非特許文献１２）で導出されたフィルタなどがある。
同様に、拡散音信号Ｐ_ｄｉｆｆ（ｋ，ｎ）は、多数のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）に

で示す多チャンネルフィルタを適用することによって判定される、すなわち、
（数２２）

であり、ここで、多チャンネルフィルタ

は推定された音方向に依存する。
文献には、Ｐ_ｄｉｆｆ（ｋ，ｎ）を算出するために用いることができる、多くの異なる最適な多チャンネルフィルタ

、例えば［ＤｉｆｆｕｓｅＢＦ］（非特許文献５）で導出されたフィルタなどがある。

ブロック（１１０）の第４の例では、Ｐ_ｄｉｒ（ｋ，ｎ）およびＰ_ｄｉｆｆ（ｋ，ｎ）を先の例と同様に多チャンネルフィルタ

と

をマイクロフォン信号

に適用することによってそれぞれ判定する。
しかし、異なる次数ｌおよびモードｍに対して得られた拡散音信号Ｐ_ｄｉｆｆ（ｋ，ｎ）が相互に無相関となるよう、異なる次数ｌおよびモードｍに対して異なるフィルタ

を用いる。出力信号の相関を最小にする、これらの異なるフィルタ

は、例えば［ＣｏｖＲｅｎｄｅｒ］（非特許文献４）で説明するように算出することができる。

実施の形態４と同様に、ブロック（１０５）で判定した直接音信号Ｐ_ｄｉｒ（ｋ，ｎ）には、ブロック（１０３Ｂ）で判定した空間基底関数の応答

が得られる。
さらに、ブロック（１０５）で判定した拡散音信号Ｐ_ｄｉｆｆ（ｋ，ｎ）には、ブロック（１０６）で判定した空間基底関数の平均応答

が得られる。

実施の形態３と同様に、算出された直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

は、例えば加算演算（１０９）によって結合されて、時間−周波数タイル（ｋ，ｎ）に対する所望の次数（レベル）ｌおよびモードｍの最終的なアンビソニックスコンポーネント

が得られる。得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆ＳＴＦＴを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数（レベル）の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。実施の形態３で説明したように、時間領域への再変換は、

を算出する前、すなわち演算（１０９）の前に実行してもよい。

と拡散音アンビソニックスコンポーネント

は、次数ｌ＝４まで算出することができ、一方、

は次数ｌ＝１までのみ算出してもよい（この場合、

はｌ＝１より大きい次数に対してはゼロになる）。例えば特定の次数（レベル）ｌまたはモードｍに対して

ではなく

のみを計算することが望ましい場合、例えばブロック（１１０）を、拡散音信号Ｐ_ｄｉｆｆ（ｋ，ｎ）がゼロに等しくなるように構成することができる。
これは、例えば、先の式におけるフィルタＷ_ｄｉｆｆ（ｋ，ｎ）をゼロに、フィルタＷ_ｄｉｒ（ｋ，ｎ）を１に設定することによって実現できる。同様に、フィルタ

をゼロに設定することもできよう。

［実施の形態６］
図７は、多数（２つ以上）のマイクロフォンの信号から所望の次数（レベル）ｌおよびモードｍのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態５と類似しているが、拡散アンビソニックスコンポーネントに対する非相関器をさらに備える。

実施の形態５と同様に、本発明への入力は、多数（２つ以上）のマイクロフォンの信号である。マイクロフォンは、例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。

実施の形態５と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換（ＳＴＦＴ）を用いてブロック（１０１）で時間−周波数領域に変換される。時間−周波数変換（１０１）の出力は時間−周波数領域のマイクロフォン信号であり、Ｐ_{１．．．Ｍ}（ｋ，ｎ）で表される。以下の処理は、各時間−周波数タイル（ｋ，ｎ）に対して別々に実行される。

実施の形態５と同様に、２つ以上のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）を用いて時間および周波数ごとに、ブロック（１０２Ｂ）で音方向推定を実行する。
対応する推定器については、実施の形態１で述べた通りである。音方向推定器（１０２Ｂ）の出力は、時間インスタンスｎおよび周波数インデックスｋごとの音方向である。音方向は、例えば、単位ノルムベクトル

実施の形態５と同様に、所望の次数（レベル）ｌおよびモードｍの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック（１０３Ｂ）で判定する。空間基底関数の応答は、

は実施の形態１で説明したように判定することができる。

実施の形態５と同様に、時間インデックスｎに依存しない、所望の次数（レベル）ｌおよびモードｍの空間基底関数の平均応答がブロック（１０６）から得られる。この平均応答は

は、実施の形態３で説明したように得られる。

実施の形態５と同様に、直接音信号Ｐ_ｄｉｒ（ｋ，ｎ）および拡散音信号Ｐ_ｄｉｆｆ（ｋ，ｎ）は、ブロック（１１０）において２つ以上の利用可能なマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）から時間インデックスｎおよび周波数インデックスｋごとに判定される。
このために、ブロック（１１０）は通常、ブロック（１０２Ｂ）で判定した音方向情報を用いる。ブロック（１１０）の異なる例については実施の形態５で説明した通りである。

実施の形態５と同様に、ブロック（１０５）で判定した直接音信号Ｐ_ｄｉｒ（ｋ，ｎ）には、ブロック（１０３）で判定した空間基底関数の応答

が得られる。

実施の形態４と同様に、計算された拡散音アンビソニックスコンポーネント

で表される非相関拡散音アンビソニックスコンポーネントが得られる。非相関化の根拠およびその方法については実施の形態４に述べた通りである。
実施の形態４と同様に、拡散音アンビソニックスコンポーネント

は、非相関器（１０７）を適用する前に、例えば逆フィルターバンクまたは逆ＳＴＦＴを用いて元の時間領域に変換しなおしてもよい。

実施の形態４と同様に、直接音アンビソニックスコンポーネント

と非相関拡散音アンビソニックスコンポーネント

が得られる。得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆ＳＴＦＴを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数（レベル）の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。実施の形態４で説明したように、時間領域への再変換は、

実施の形態４と同様に、この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

が異なるモード（次数）ｌに対して算出されるように構成することができる。例えば、

は、次数ｌ＝４まで計算することができ、一方、

は次数ｌ＝１までのみ算出してもよい。

［実施の形態７］
図８は、多数（２つ以上）のマイクロフォンの信号から所望の次数（レベル）ｌおよびモードｍのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。
この実施の形態は、実施の形態１と類似しているが、計算された空間基底関数の応答

に平滑化演算を適用するブロック（１１１）をさらに含む。

実施の形態１と同様に、本発明への入力は、多数（２つ以上）のマイクロフォンの信号である。マイクロフォンは、例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。
さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。

実施の形態１と同様に、第１のマイクロフォン信号を参照マイクロフォン信号と呼んでも一般性が失われることはない、すなわちＰ_ｒｅｆ（ｋ，ｎ）＝Ｐ_１（ｋ，ｎ）である。

実施の形態１と同様に、２つ以上のマイクロフォン信号Ｐ_{１．．．Ｍ}（ｋ，ｎ）を用いて時間および周波数ごとに、ブロック（１０２Ｂ）で音方向推定を実行する。
対応する推定器については、実施の形態１で述べた通りである。音方向推定器（１０２Ｂ）の出力は、時間インスタンスｎおよび周波数インデックスｋごとの音方向である。音方向は、例えば、単位ノルムベクトル

実施の形態１と同様に、所望の次数（レベル）ｌおよびモードｍの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック（１０３）で判定する。空間基底関数の応答は、

は実施の形態１で説明したように判定することができる。

実施の形態１とは異なり、応答

は、平滑化演算を

に適用するブロック（１１１）への入力として用いられる。ブロック（１１１）の出力は、

と表される平滑化応答関数である。
平滑化演算の目的は、実用において例えばブロック（１０２Ｂ）で推定した音方向φ（ｋ，ｎ）および／またはθ（ｋ，ｎ）にノイズが多い場合に起こる、

の値の望ましくない推定変動を低下させることにある。

に適用される平滑化は、例えば時間および／または周波数に対して実行することができる。例えば、時間平滑化は、以下の公知の再帰平均化フィルタを用いて実現することができる。
（数２３）

ここで、

は直前の時間フレームで算出された応答関数である。さらに、αは０と１の間の実数値であって、時間平滑化の強度を制御する。ゼロに近いαの値に対しては強い時間平均化を実行し、１に近いαの値に対しては短い時間平均化を実行する。
実際の適用ではαの値は適用によって変わり、例えばα＝０．５など一定にしてもよい。あるいは、スペクトル平滑化をブロック（１１１）で実行することもでき、これは応答

が多数の周波数帯域にわたって平均化されることを意味する。例えば、いわゆるＥＲＢ帯域内でのこのようなスペクトル平滑化が、［ＥＲＢｓｍｏｏｔｈ］（非特許文献８）に記述されている。

この実施の形態では、参照マイクロフォン信号Ｐ_ｒｅｆ（ｋ，ｎ）は、最後に、ブロック（１１１）で判定した空間基底関数の平滑化応答

と、時間および周波数ごとに結合されて（乗算１１５されて）など、時間−周波数タイル（ｋ，ｎ）に対する次数（レベル）ｌおよびモードｍの所望のアンビソニックスコンポーネント

が得られる。得られたアンビソニックスコンポーネント

当然ながら、ブロック（１１１）のゲイン平滑化は、本発明の他のすべての実施の形態にも適用することができる。

［実施の形態８］
本発明は、時間−周波数タイルごとに１つより多い音方向が考えられる、いわゆる多重波の場合にも適用できる。例えば、図３ｂに示す実施の形態２は、多重波の場合において実現できる。この場合、ブロック（１０２Ｂ）は、時間および周波数ごとにＪ個の音方向を推定する。
なお、Ｊは１より大きい整数、例えばＪ＝２である。多数の音方向を推定するためには、最先端の推定器、例えば［ＥＳＰＲＩＴ，ＲｏｏｔＭＵＳＩＣ１］（非特許文献９，１６）に述べられるＥＳＰＲＩＴまたはＲｏｏｔＭＵＳＩＣを用いることができる。この場合、ブロック（１０２Ｂ）の出力は、例えば、多数の方位角φ_{１．．．ｊ}（ｋ，ｎ）および／または仰角θ_１…Ｊ（ｋ，ｎ）で示される多数の音方向である。

その後、多数の音方向をブロック（１０３Ｂ）で用いて、各推定音方向に対して１つの応答が対応する多数の応答

を、例えば実施の形態１で説明したように算出する。
さらに、ブロック（１０２Ｂ）で計算した多数の音方向は、各多数の音方向に対して１つが対応する多数の参照信号Ｐ_{ｒｅｆ，１．．．ｊ}（ｋ，ｎ）を計算するためにブロック（１０４）で用いられる。多数の参照信号はそれぞれ、例えば、実施の形態２で説明したのと同様に、多数のマイクロフォン信号に多チャンネルフィルタｗ_１…Ｊ（ｎ）を適用することによって計算することができる。
例えば、第１の参照信号Ｐ_{ｒｅｆ，１}（ｋ，ｎ）は、方向φ_１（ｋ，ｎ）および／またはθ_１（ｋ，ｎ）からの音を抽出しつつ全ての他の方向からの音を減衰する、最先端の多チャンネルフィルタ

を適用することによって得られる。このようなフィルタは、例えば［ＩｎｆｏｒｍｅｄＳＦ］（非特許文献１２）で説明されるインフォームドＬＣＭＶフィルタとして算出することができる。そして、多数の参照信号Ｐ_{ｒｅｆ，１．．．ｊ}（ｋ，ｎ）には、対応する多数の応答

が乗算されて多数のアンビソニックスコンポーネント

が得られる。例えば、ｊ番目の音方向および参照信号にそれぞれ対応するｊ番目のアンビソニックスコンポーネントは、以下のように計算される。
（数２４）

最後に、Ｊ個のアンビソニックスコンポーネントを合計して、時間−周波数タイル（ｋ，ｎ）に対する次数（レベル）ｌおよびモードｍの最終的な所望のアンビソニックスコンポーネント

を得る、すなわち、
（数２５）

である。

当然、上述した他の実施の形態も多重波の場合に広げることができる。例えば、実施の形態５および６では、この実施の形態で述べたのと同様の多チャンネルフィルタを用いて、多数の音方向それぞれに対して１つが対応する多数の直接音Ｐ_{ｄｉｒ，１…Ｊ}（ｋ，ｎ）を算出することができる。
多数の直接音には、その後、対応する多数の応答

が乗算されて多数の直接音アンビソニックスコンポーネント

が得られ、これらを合計して最終的な所望の直接音アンビソニックスコンポーネント

を得ることができる。

なお、本発明は二次元（円筒形）または三次元（球形）アンビソニックス技術だけでなく、任意の音場コンポーネントを計算するための空間基底関数に依る他の技術にも適用可能であることに留意すべきである。

［本発明の実施の形態の一覧］
１．複数のマイクロフォン信号を時間−周波数領域に変換する。
２．上記複数のマイクロフォン信号から時間および周波数ごとに１つ以上の音方向を計算する。
３．上記１つ以上の音方向に依存する１つ以上の応答関数を各時間および周波数に対して算出する。
４．各時間および周波数に対して１つ以上の参照マイクロフォン信号を得る。
５．各時間および周波数に対して、上記１つ以上の参照マイクロフォン信号を上記１つ以上の応答関数で乗算して、所望の次数およびモードの１つ以上のアンビソニックスコンポーネントを得る。
６．所望の次数およびモードのアンビソニックスコンポーネントが複数得られた場合、該当するアンビソニックスコンポーネントを合計して最終的な所望のアンビソニックスコンポーネントを得る。
７．いくつかの実施の形態では、ステップ４で、上記１つ以上の参照マイクロフォン信号ではなく１つ以上の直接音および拡散音を複数のマイクロフォン信号から算出する。
８．上記１つ以上の直接音および拡散音を１つ以上の対応する直接音応答および拡散音応答で乗算して、所望の次数およびモードの１つ以上の直接音アンビソニックスコンポーネントおよび拡散音アンビソニックスコンポーネントを得る。
９．拡散音アンビソニックスコンポーネントは、異なる次数およびモードに対して、さらに非相関化してもよい。
１０．直接音アンビソニックスコンポーネントと拡散音アンビソニックスコンポーネントを合計して、所望の次数およびモードの最終的な所望のアンビソニックスコンポーネントを得る。

［Ａｍｂｉｓｏｎｉｃｓ］Ｒ．Ｋ．Ｆｕｒｎｅｓｓ， "Ａｍｂｉｓｏｎｉｃｓ − Ａｎｏｖｅｒｖｉｅｗ，" ｉｎＡＥＳ８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，Ａｐｒｉｌ１９９０，ｐｐ．１８１−１８９．［Ａｍｂｉｘ］Ｃ．Ｎａｃｈｂａｒ，Ｆ．Ｚｏｔｔｅｒ，Ｅ．Ｄｅｌｅｆｌｉｅ，ａｎｄＡ．Ｓｏｎｔａｃｃｈｉ， "ＡＭＢＩＸ − ＡＳｕｇｇｅｓｔｅｄＡｍｂｉｓｏｎｉｃｓＦｏｒｍａｔ"，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｍｂｉｓｏｎｉｃｓＳｙｍｐｏｓｉｕｍ２０１１．［ＡｒｒａｙＤｅｓｉｇｎ］Ｍ．ＷｉｌｌｉａｍｓａｎｄＧ．ＬｅＤｕ， "ＭｕｌｔｉｃｈａｎｎｅｌＭｉｃｒｏｐｈｏｎｅＡｒｒａｙＤｅｓｉｇｎ，" ｉｎＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１０８，２００８．［ＣｏｖＲｅｎｄｅｒ］Ｊ．ＶｉｌｋａｍｏａｎｄＶ．Ｐｕｌｋｋｉ， "ＭｉｎｉｍｉｚａｔｉｏｎｏｆＤｅｃｏｒｒｅｌａｔｏｒＡｒｔｉｆａｃｔｓｉｎＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇｂｙＣｏｖａｒｉａｎｃｅＤｏｍａｉｎＲｅｎｄｅｒｉｎｇ "，Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ，ｖｏｌ．６１，ｎｏ．９，２０１３．［ＤｉｆｆｕｓｅＢＦ］Ｏ．ＴｈｉｅｒｇａｒｔａｎｄＥ．Ａ．Ｐ．Ｈａｂｅｔｓ， "ＥｘｔｒａｃｔｉｎｇＲｅｖｅｒｂｅｒａｎｔＳｏｕｎｄＵｓｉｎｇａＬｉｎｅａｒｌｙＣｏｎｓｔｒａｉｎｅｄＭｉｎｉｍｕｍＶａｒｉａｎｃｅＳｐａｔｉａｌＦｉｌｔｅｒ，" ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ，ｖｏｌ．２１，ｎｏ．５，Ｍａｙ２０１４．［ＤｉｒＡＣ］Ｖ．Ｐｕｌｋｋｉ， "Ｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇｉｎｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎａｎｄｓｔｅｒｅｏｕｐｍｉｘｉｎｇ，" ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆＴｈｅＡＥＳ２８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，ｐｐ．２５１−２５８，Ｊｕｎｅ，２００６．［ＥｉｇｅｎＭｉｋｅ］Ｊ．ＭｅｙｅｒａｎｄＴ．Ａｇｎｅｌｌｏ， "Ｓｐｈｅｒｉｃａｌｍｉｃｒｏｐｈｏｎｅａｒｒａｙｆｏｒｓｐａｔｉａｌｓｏｕｎｄｒｅｃｏｒｄｉｎｇ，" ｉｎＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１１５，Ｏｃｔｏｂｅｒ２００３［ＥＲＢｓｍｏｏｔｈ］Ａ．ＦａｖｒｏｔａｎｄＣ．Ｆａｌｌｅｒ， "ＰｅｒｃｅｐｔｕａｌｌｙＭｏｔｉｖａｔｅｄＧａｉｎＦｉｌｔｅｒＳｍｏｏｔｈｉｎｇｆｏｒＮｏｉｓｅＳｕｐｐｒｅｓｓｉｏｎ"，ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２３，２００７．［ＥＳＰＲＩＴ］Ｒ．Ｒｏｙ，Ａ．Ｐａｕｌｒａｊ，ａｎｄＴ．Ｋａｉｌａｔｈ， "Ｄｉｒｅｃｔｉｏｎ−ｏｆ−ａｒｒｉｖａｌｅｓｔｉｍａｔｉｏｎｂｙｓｕｂｓｐａｃｅｒｏｔａｔｉｏｎｍｅｔｈｏｄｓ − ＥＳＰＲＩＴ，" ｉｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），Ｓｔａｎｆｏｒｄ，ＣＡ，ＵＳＡ，Ａｐｒｉｌ，１９８６．［ＦｏｕｒｉｅｒＡｃｏｕｓｔ］Ｅ．Ｇ．Ｗｉｌｌｉａｍｓ， "ＦｏｕｒｉｅｒＡｃｏｕｓｔｉｃｓ：ＳｏｕｎｄＲａｄｉａｔｉｏｎａｎｄＮｅａｒｆｉｅｌｄＡｃｏｕｓｔｉｃａｌＨｏｌｏｇｒａｐｈｙ，" ＡｃａｄｅｍｉｃＰｒｅｓｓ，１９９９．［ＨＡＲＰＥＸ］Ｓ．ＢｅｒｇｅａｎｄＮ．Ｂａｒｒｅｔｔ， "ＨｉｇｈＡｎｇｕｌａｒＲｅｓｏｌｕｔｉｏｎＰｌａｎｅｗａｖｅＥｘｐａｎｓｉｏｎ， " ｉｎ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＡｍｂｉｓｏｎｉｃｓａｎｄＳｐｈｅｒｉｃａｌＡｃｏｕｓｔｉｃｓ，Ｍａｙ，２０１０．［ＩｎｆｏｒｍｅｄＳＦ］Ｏ．Ｔｈｉｅｒｇａｒｔ，Ｍ．Ｔａｓｅｓｋａ，ａｎｄＥ．Ａ．Ｐ．Ｈａｂｅｔｓ， "ＡｎＩｎｆｏｒｍｅｄＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＦｉｌｔｅｒＢａｓｅｄｏｎＩｎｓｔａｎｔａｎｅｏｕｓＤｉｒｅｃｔｉｏｎ−ｏｆ−ＡｒｒｉｖａｌＥｓｔｉｍａｔｅｓ，" ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．２２，ｎｏ．１２，Ｄｅｃｅｍｂｅｒ２０１４．［ＭｉｃＳｅｔｕｐ３Ｄ］Ｈ．ＬｅｅａｎｄＣ．Ｇｒｉｂｂｅｎ， "Ｏｎｔｈｅｏｐｔｉｍｕｍｍｉｃｒｏｐｈｏｎｅａｒｒａｙｃｏｎｆｉｇｕｒａｔｉｏｎｆｏｒｈｅｉｇｈｔｃｈａｎｎｅｌｓ，" ｉｎ１３４ＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｒｏｍｅ，２０１３．［ＭＵＳＩＣ］Ｒ．Ｓｃｈｍｉｄｔ， "Ｍｕｌｔｉｐｌｅｅｍｉｔｔｅｒｌｏｃａｔｉｏｎａｎｄｓｉｇｎａｌｐａｒａｍｅｔｅｒｅｓｔｉｍａｔｉｏｎ，" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｎｔｅｎｎａｓａｎｄＰｒｏｐａｇａｔｉｏｎ，ｖｏｌ．３４，ｎｏ．３，ｐｐ．２７６−２８０，１９８６．［ＯｐｔＡｒｒａｙＰｒ］Ｂ．Ｄ．ＶａｎＶｅｅｎａｎｄＫ．Ｍ．Ｂｕｃｋｌｅｙ， "Ｂｅａｍｆｏｒｍｉｎｇ：Ａｖｅｒｓａｔｉｌｅａｐｐｒｏａｃｈｔｏｓｐａｔｉａｌｆｉｌｔｅｒｉｎｇ"，ＩＥＥＥＡＳＳＰＭａｇａｚｉｎｅ，ｖｏｌ．５，ｎｏ．２，１９８８．［ＲｏｏｔＭＵＳＩＣ１］Ｂ．ＲａｏａｎｄａｎｄＫ．Ｈａｒｉ， "Ｐｅｒｆｏｒｍａｎｃｅａｎａｌｙｓｉｓｏｆｒｏｏｔ−ＭＵＳＩＣ，" ｉｎＳｉｇｎａｌｓ，ＳｙｓｔｅｍｓａｎｄＣｏｍｐｕｔｅｒｓ，１９８８．Ｔｗｅｎｔｙ−ＳｅｃｏｎｄＡｓｉｌｏｍａｒＣｏｎｆｅｒｅｎｃｅｏｎ，ｖｏｌ．２，１９８８，ｐｐ．５７８−５８２．［ＲｏｏｔＭＵＳＩＣ２］Ａ．ＭｈａｍｄｉａｎｄＡ．Ｓａｍｅｔ， "Ｄｉｒｅｃｔｉｏｎｏｆａｒｒｉｖａｌｅｓｔｉｍａｔｉｏｎｆｏｒｎｏｎｕｎｉｆｏｒｍｌｉｎｅａｒａｎｔｅｎｎａ，" ｉｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ，ＣｏｍｐｕｔｉｎｇａｎｄＣｏｎｔｒｏｌＡｐｐｌｉｃａｔｉｏｎｓ（ＣＣＣＡ），２０１１ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，Ｍａｒｃｈ２０１１，ｐｐ．１−５．［ＲｏｏｔＭＵＳＩＣ３］Ｍ．ＺｏｌｔｏｗｓｋｉａｎｄＣ．Ｐ．Ｍａｔｈｅｗｓ， "Ｄｉｒｅｃｔｉｏｎｆｉｎｄｉｎｇｗｉｔｈｕｎｉｆｏｒｍｃｉｒｃｕｌａｒａｒｒａｙｓｖｉａｐｈａｓｅｍｏｄｅｅｘｃｉｔａｔｉｏｎａｎｄｂｅａｍｓｐａｃｅｒｏｏｔ−ＭＵＳＩＣ，" ｉｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１９９２．ＩＣＡＳＳＰ−９２．，１９９２ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，ｖｏｌ．５，１９９２，ｐｐ．２４５−２４８．［ＳＤＲｅｓｔｉｍ］Ｏ．Ｔｈｉｅｒｇａｒｔ，Ｇ．ＤｅｌＧａｌｄｏ，ａｎｄＥＡ．Ｐ．Ｈａｂｅｔｓ， "Ｏｎｔｈｅｓｐａｔｉａｌｃｏｈｅｒｅｎｃｅｉｎｍｉｘｅｄｓｏｕｎｄｆｉｅｌｄｓａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｓｉｇｎａｌ−ｔｏ−ｄｉｆｆｕｓｅｒａｔｉｏｅｓｔｉｍａｔｉｏｎ"，ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ，ｖｏｌ．１３２，ｎｏ．４，２０１２．［ＳｏｕｒｃｅＮｕｍ］Ｊ．−Ｓ．ＪｉａｎｇａｎｄＭ．−Ａ．Ｉｎｇｒａｍ， "Ｒｏｂｕｓｔｄｅｔｅｃｔｉｏｎｏｆｎｕｍｂｅｒｏｆｓｏｕｒｃｅｓｕｓｉｎｇｔｈｅｔｒａｎｓｆｏｒｍｅｄｒｏｔａｔｉｏｎａｌｍａｔｒｉｘ，" ｉｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ，２００４．ＷＣＮＣ．２００４ＩＥＥＥ，ｖｏｌ．１，Ｍａｒｃｈ，２００４．［ＳｐＣｏｈｅｒｅｎｃｅ］Ｄ．Ｐ．Ｊａｒｒｅｔｔ，Ｏ．Ｔｈｉｅｒｇａｒｔ，Ｅ．Ａ．Ｐ．Ｈａｂｅｔｓ，ａｎｄＰ．Ａ．Ｎａｙｌｏｒ， "Ｃｏｈｅｒｅｎｃｅ−ＢａｓｅｄＤｉｆｆｕｓｅｎｅｓｓＥｓｔｉｍａｔｉｏｎｉｎｔｈｅＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃＤｏｍａｉｎ，" ＩＥＥＥ２７ｔｈＣｏｎｖｅｎｔｉｏｎｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓｉｎＩｓｒａｅｌ（ＩＥＥＥＩ），２０１２．［ＳｐｈＨａｒｍ］Ｆ．Ｚｏｔｔｅｒ， "ＡｎａｌｙｓｉｓａｎｄＳｙｎｔｈｅｓｉｓｏｆＳｏｕｎｄ−ＲａｄｉａｔｉｏｎｗｉｔｈＳｐｈｅｒｉｃａｌＡｒｒａｙｓ"，ＰｈＤｔｈｅｓｉｓ，ＵｎｉｖｅｒｓｉｔｙｏｆＭｕｓｉｃａｎｄＰｅｒｆｏｒｍｉｎｇＡｒｔｓＧｒａｚ，２００９．［ＶｉｒｔｕａｌＭｉｃ］Ｏ．Ｔｈｉｅｒｇａｒｔ，Ｇ．ＤｅｌＧａｌｄｏ，Ｍ．Ｔａｓｅｓｋａ，ａｎｄＥ．Ａ．Ｐ．Ｈａｂｅｔｓ， "Ｇｅｏｍｅｔｒｙ−ｂａｓｅｄＳｐａｔｉａｌＳｏｕｎｄＡｃｑｕｉｓｉｔｉｏｎＵｓｉｎｇＤｉｓｔｒｉｂｕｔｅｄＭｉｃｒｏｐｈｏｎｅＡｒｒａｙｓ，" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎｉｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．２１，ｎｏ．１２，Ｄｅ

いくつかの態様について装置の文脈において説明したが、これらの態様は、対応する方法の記述も表し、ブロックまたは装置は、方法工程または方法工程の特徴に対応することは明らかである。同様に、方法工程の文脈において説明した態様も、対応する装置の対応するブロック、項目、または特徴の記述も表す。

本発明の信号は、デジタル記憶媒体に記憶することができる、あるいは無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。

実施要件によっては、本発明の実施の形態は、ハードウェアまたはソフトウェアに実装することができる。その実装は、各方法が実行されるようにプログラム可能なコンピュータシステムと連携する（または連携可能な）電子的に読み取り可能な制御信号を記憶した、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ，ＰＲＯＭ、ＥＰＲＯＭ，ＥＥＰＲＯＭ、またはフラッシュメモリなどのデジタル記憶媒体を用いて実施することができる。

本発明による幾つかの実施形態は、ここに述べた方法の１つが実行されるように、プログラム可能なコンピュータシステムと連携可能な電子的に読み取り可能な制御信号を有する持続性データ・キャリアを備えている。

概して、本発明の実施の形態は、プログラムコードを備えたコンピュータプログラム製品として実施することができ、このプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行された場合に上記の方法の１つを行うように働く。プログラムコードは、例えば機械可読キャリアに保存することができる。

他の実施の形態は、機械可読キャリアに保存された、上述した方法の１つを行うためのコンピュータプログラムを備える。

言い換えると、従って、本発明の方法の実施の形態は、コンピュータプログラムがコンピュータ上で実行された場合に、上述した方法の１つを行うためのプログラムコードを有するコンピュータプログラムである。

従って、本発明の方法のさらなる実施の形態は、上述した方法の１つを行うためのコンピュータプログラムを記録した、データ・キャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。

従って、本発明の方法のさらなる実施の形態は、上述した方法の１つを行うためのコンピュータプログラムを表すデータストリームまたは信号列である。データストリームまたは信号列は、例えば、データ通信接続、例えばインターネットを介して転送されるように構成してもよい。

さらなる実施の形態は、上述した方法の１つを行うように構成または適応された、処理手段、例えば、コンピュータまたはプログラマブル・ロジック・デバイスを備える。

さらなる実施の形態は、上述した方法の１つを行うためのコンピュータプログラムをインストールしたコンピュータを備える。

いくつかの実施の形態では、上述した方法の機能のいくつかまたは全てを実行するために、プログラマブル・ロジック・デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を用いてもよい。いくつかの実施の形態では、フィールド・プログラマブル・ゲート・アレイは、上述した方法の１つを行うためにマイクロプロセッサと協働することができる。概して、上記の方法は、任意のハードウェア装置によって実行されるのが好ましい。

上述した実施の形態は、本発明の原理を説明したものにすぎない。上述した配置および詳細の改良や変形が当業者にとって明らかであろうことは理解されよう。従って、これらの実施の形態の記載や説明によって提示される特定の詳細によってではなく、以下の特許請求項の範囲によってのみ限定されることが意図される。

１０１時間−周波数変換器
１０２方向判定器
１０３空間基底関数評価器
１０７非相関器
２０１音場コンポーネント計算器
３０１拡散コンポーネント計算器
４０１結合器
２０周波数−時間変換器

Claims

音場コンポーネントの表現を有する音場記述を生成する装置であって、
複数のマイクロフォン信号の複数の時間−周波数タイルの各時間−周波数タイルに対して、１つ以上の音方向を判定する方向判定器（１０２）と、
前記複数の時間−周波数タイルの各時間−周波数タイルに対して、前記１つ以上の音方向を用いて１つ以上の空間基底関数を評価する空間基底関数評価器（１０３）と、
前記複数の時間−周波数タイルの各時間−周波数タイルに対して、前記１つ以上の音方向を用いて評価された前記１つ以上の空間基底関数を用い、かつ対応する時間−周波数タイルに対する、前記複数のマイクロフォン信号のうち１つ以上のマイクロフォン信号から導出された参照信号を用いて、前記１つ以上の空間基底関数に対応する１つ以上の音場コンポーネントを計算する音場コンポーネント計算器（２０１）と、を備える装置。
前記複数の時間−周波数タイルの各時間−周波数タイルに対して、１つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器（３０１）と、
拡散音情報と直接音場情報を結合して前記音場コンポーネントの周波数領域表現または時間領域表現を得る結合器（４０１）と、をさらに備える、請求項１に記載の装置。
前記拡散音コンポーネント計算器（３０１）は、拡散音情報を非相関化する非相関器（１０７）をさらに備える、請求項２に記載の装置。
複数の時間領域マイクロフォン信号のそれぞれを、前記複数の時間−周波数タイルを有する時間−周波数表現に変換する時間−周波数変換器（１０１）をさらに備える、請求項１乃至３の何れか１項に記載の装置。
前記１つ以上の音場コンポーネント、または前記１つ以上の音場コンポーネントと拡散音コンポーネントとを結合したものを、前記音場コンポーネントの時間領域表現に変換する周波数−時間変換器（２０）をさらに備える、請求項１乃至４の何れか１項に記載の装置。
前記周波数−時間変換器（２０）は、前記１つ以上の音場コンポーネントを処理して複数の時間領域音場コンポーネントを得るように構成され、前記周波数−時間変換器は、前記拡散音コンポーネントを処理して複数の時間領域拡散コンポーネントを得るように構成され、
結合器（４０１）は、時間領域において前記時間領域音場コンポーネントと前記時間領域拡散コンポーネントとの結合を行うように構成され、または、結合器（４０１）は、周波数領域において、ある時間−周波数タイルの前記１つ以上の音場コンポーネントと、該当する時間−周波数タイルの前記拡散音コンポーネントとを結合するように構成され、
前記周波数−時間変換器（２０）は、前記結合器（４０１）の結果を処理して前記時間領域の音場コンポーネントを得るように構成される、請求項５に記載の装置。
前記１つ以上の音方向を用いて、前記１つ以上の音方向に基づいて前記複数のマイクロフォン信号から特定のマイクロフォン信号を選択することを用いて、或いは、２つ以上のマイクロフォン信号に適用される多チャンネルフィルタであって、前記１つ以上の音方向と、前記複数のマイクロフォン信号が得られるマイクロフォンの個々の位置とに依存する多チャンネルフィルタを用いて、前記複数のマイクロフォン信号から前記参照信号を計算する参照信号計算器（１０４）をさらに備える、請求項１乃至６の何れか１項に記載の装置。
前記空間基底関数評価器（１０３）は、空間基底関数として、パラメータが音方向であるパラメータ化表現を用い、前記音方向に対応するパラメータを前記パラメータ化表現に挿入して各空間基底関数の評価結果を得るように構成される、或いは、
前記空間基底関数評価器（１０３）は、入力として空間基底関数識別と、前記音方向とを有し、出力として評価結果を有する各空間基底関数に対して、ルックアップ・テーブルを用い、前記空間基底関数評価器（１０３）は、前記方向判定器によって判定された前記１つ以上の音方向に対して、前記ルックアップ・テーブル入力の対応する音方向を判定する、または前記方向判定器によって判定された前記１つ以上の音方向に隣接する２つのルックアップ・テーブル入力の加重または非加重平均を計算するように構成される、或いは、
前記空間基底関数評価器（１０３）は、空間基底関数として、パラメータが音方向であり、前記音方向が、二次元状況では方位角などの一次元または三次元状況では方位角および仰角などの二次元である、パラメータ化表現を用い、前記音方向に対応するパラメータを前記パラメータ化表現に挿入して、各空間基底関数に対する評価結果を得るように構成される、請求項１乃至７の何れか１項に記載の装置。
前記参照信号として、前記複数のマイクロフォン信号の直接部分または拡散部分を判定する直接または拡散音判定器（１０５）をさらに備え、
前記音場コンポーネント計算器（２０１）は、１つ以上の直接音場コンポーネントを計算する際にのみ前記直接部分を用いるように構成される、請求項１乃至５の何れか１項に記載の装置。
平均空間基底関数応答を判定する平均応答基底関数判定器（１０６）であって、計算処理またはルックアップ・テーブルアクセス処理を備える判定器と、
前記参照信号として前記拡散部分のみを、前記平均空間基底関数応答とともに用いて１つ以上の拡散音場コンポーネントを計算する拡散音コンポーネント計算器（３０１）と、をさらに備える請求項９に記載の装置。
直接音場コンポーネントと、拡散音場コンポーネントとを結合して前記音場コンポーネントを得る結合器（１０９）をさらに備える、請求項１０に記載の装置。
前記拡散音コンポーネント計算器（３０１）は、拡散音コンポーネントを所定の第１の数または次数まで計算するように構成され、
前記音場コンポーネント計算器（２０１）は、直接音場コンポーネントを所定の第２の数または次数まで計算するように構成され、
前記所定の第２の数または次数は、前記所定の第１の数または次数より大きく、
前記所定の第１の数または次数は、１以上である、請求項１０又は１１に記載の装置。
前記直接又は拡散音判定器（１０５）は、周波数領域表現または時間領域表現での空間基底関数の平均応答との結合の前または後に、拡散音コンポーネントを非相関化する非相関器（１０７）を備える、請求項１０乃至１２の何れか１項に記載の装置。
複数の時間−周波数タイルの各時間-周波数タイルに対して、１つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器（３０１）をさらに備え、
前記直接または拡散音判定器（１０５）は、
単一のマイクロフォン信号から前記直接部分と前記拡散部分を計算するように構成され、前記拡散音コンポーネント計算器（３０１）は、前記拡散部分を前記参照信号として用いて前記１つ以上の拡散音コンポーネントを計算するように構成され、前記音場コンポーネント計算器（２０１）は、前記直接部分を前記参照信号として用いて前記１つ以上の直接音場コンポーネントを計算するように構成される、或いは、
前記直接または拡散音判定器（１０５）は、
前記直接部分が計算されるマイクロフォン信号とは異なるマイクロフォン信号から拡散部分を計算するように構成され、前記拡散音コンポーネント計算器（３０１）は、前記拡散部分を前記参照信号として用いて前記１つ以上の拡散音コンポーネントを計算するように構成され、前記音場コンポーネント計算器（２０１）は、前記直接部分を前記参照信号として用いて前記１つ以上の直接音場コンポーネントを計算するように構成される、或いは、
複数の時間−周波数タイルの各時間-周波数タイルに対して、１つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器（３０１）をさらに備え、
前記直接または拡散音判定器（１０５）は、
異なるマイクロフォン信号を用いて異なる空間基底関数の拡散部分を計算するように構成され、前記拡散音コンポーネント計算器（３０１）は、第１の数に対応する平均空間基底関数応答に対する前記参照信号として第１の拡散部分を用い、第２の数の平均空間基底関数応答に対応する前記参照信号として異なる第２の拡散部分を使用するように構成され、前記第１の数は前記第２の数とは異なり、前記第１の数および第２の数は前記１つ以上の空間基底関数の任意の次数またはレベルおよびモードを示し、或いは、
複数の時間−周波数タイルの各時間-周波数タイルに対して、１つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器（３０１）をさらに備え、
前記直接または拡散音判定器（１０５）は、
前記複数のマイクロフォン信号に適用される第１の多チャンネルフィルタを用いて前記直接部分を計算し、前記複数のマイクロフォン信号に適用される第２の多チャンネルフィルタを用いて前記拡散部分を計算するように構成され、前記第２の多チャンネルフィルタは、前記第１の多チャンネルフィルタとは異なり、前記拡散音コンポーネント計算器（３０１）は、前記拡散部分を前記参照信号として用いて前記１つ以上の拡散音コンポーネントを計算するように構成され、前記音場コンポーネント計算器（２０１）は、前記直接部分を前記参照信号として用いて前記１つ以上の直接音場コンポーネントを計算するように構成される、或いは、
複数の時間−周波数タイルの各時間-周波数タイルに対して、１つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器（３０１）をさらに備え、
前記直接または拡散音判定器（１０５）は、
異なる空間基底関数の前記拡散部分を、前記異なる空間基底関数に対する異なる多チャンネルフィルタを用いて計算するように構成され、前記拡散音コンポーネント計算器（３０１）は、前記拡散部分を前記参照信号として用いて前記１つ以上の拡散音コンポーネントを計算するように構成され、前記音場コンポーネント計算器（２０１）は、前記直接部分を前記参照信号として用いて前記１つ以上の直接音場コンポーネントを計算するように構成される、請求項９に記載の装置。
前記空間基底関数評価器（１０３）は、時間方向または周波数方向で動作する、評価結果を平滑化するゲイン平滑器（１１１）を備え、
前記音場コンポーネント計算器（２０１）は、前記１つ以上の音場コンポーネントを計算する際に、平滑化された評価結果を使用するように構成される、請求項１乃至１４の何れか１項に記載の装置。
前記空間基底関数評価器（１０３）は、時間−周波数タイルに対し、前記方向判定器によって判定された少なくとも２つの音方向のそれぞれの音方向に、前記１つ以上の２つの空間基底関数の空間基底関数ごとに、評価結果を計算するように構成され、
参照信号計算器（１０４）は、各音方向に対して別々の参照信号を計算するように構成され、
前記音場コンポーネント計算器（２０１）は、各方向に対する前記音場コンポーネントを、前記音方向の評価結果と、前記音方向の参照信号とを用いて計算するように構成され、
前記音場コンポーネント計算器は、空間基底関数を用いて計算された異なる方向に対する音場コンポーネントを加算して、時間−周波数タイルにおける前記空間基底関数の音場コンポーネントを得るように構成される、請求項１乃至１５の何れか１項に記載の装置。
前記空間基底関数評価器（１０３）は、二次元または三次元状況のアンビソニックスに対して前記１つ以上の空間基底関数を用いるように構成される、請求項１乃至１６の何れか１項に記載の装置。
前記空間基底関数評価器（１０３）は、少なくとも２つのレベルまたは次数または少なくとも２つのモードの空間基底関数を少なくとも用いるように構成される、請求項１７に記載の装置。
前記音場コンポーネント計算器（２０１）は、レベル０、レベル１、レベル２、レベル３、レベル４からなるレベルのグループのうち少なくとも２つのレベルに対する前記音場コンポーネントを計算するように構成される、或いは、
前記音場コンポーネント計算器（２０１）は、モード（−４）、モード（−３）、モード（−２）、モード（−１）、モード（０）、モード（＋１）、モード（＋２）、モード（＋３）、モード（＋４）からなるモードのグループのうち少なくとも２つのモードに対する前記音場コンポーネントを計算するように構成される、請求項１８に記載の装置。
前記複数の時間−周波数タイルの各時間−周波数タイルに対して、１つ以上の拡散音コンポーネントを計算する拡散音コンポーネント計算器（３０１）と、
拡散音情報と直接音場情報とを結合して、前記音場コンポーネントの周波数領域表現または時間領域表現を得る結合器（４０１）と、を備え、
前記拡散音コンポーネント計算器または前記結合器は、前記音場コンポーネント計算器（２０１）が直接音場コンポーネントを計算するように構成された次数または数よりも小さい、所定の次数または数まで拡散音コンポーネントを計算または結合するように構成される、請求項１乃至１９の何れか１項に記載の装置。
前記所定の次数または数は１またはゼロであり、前記音場コンポーネント計算器（２０１）が音場コンポーネントを計算するように構成された次数または数は２以上である、請求項２０に記載の装置。
前記音場コンポーネント計算器（２０１）は、前記参照信号の時間−周波数タイルの信号を、空間基底関数から得た評価結果で乗算（１１５）して、前記空間基底関数に関連する音場コンポーネントの情報を得て、前記参照信号の時間−周波数タイルの信号を、更なる空間基底関数から得た更なる評価結果で乗算（１１５）して前記更なる空間基底関数に関連する更なる音場コンポーネントの情報を得るように構成される、請求項１乃至２１の何れか１項に記載の装置。
音場コンポーネントの表現を有する音場記述を生成する方法であって、
複数のマイクロフォン信号の複数の時間−周波数タイルの各時間−周波数タイルに対して、１つ以上の音方向を判定し（１０２）、
前記複数の時間−周波数タイルの各時間−周波数タイルに対して、前記１つ以上の音方向を用いて１つ以上の空間基底関数を評価し（１０３）、
前記複数の時間−周波数タイルの各時間−周波数タイルに対して、前記１つ以上の音方向を用いて評価された前記１つ以上の空間基底関数を用い、かつ対応する時間−周波数タイルに対する、前記複数のマイクロフォン信号のうち１つ以上のマイクロフォン信号から導出された参照信号を用いて、前記１つ以上の空間基底関数に対応する１つ以上の音場コンポーネントを計算する（２０１）、ことを含む方法。
コンピュータまたはプロセッサ上で実行されるときに、請求項２３に記載の、音場コンポーネントの表現を有する音場記述を生成する方法を実行するためのコンピュータプログラム。