JP6342986B2

JP6342986B2 - １次アンビソニックス信号の指向性を高める方法及び装置

Info

Publication number: JP6342986B2
Application number: JP2016503627A
Authority: JP
Inventors: ボエム，ヨハネス
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2013-03-22
Filing date: 2014-03-17
Publication date: 2018-06-13
Anticipated expiration: 2034-03-17
Also published as: WO2014147029A1; EP2976769A1; TWI646847B; EP2782094A1; BR112015019526A8; JP2016517033A; US20160057556A1; AU2014234480B2; US9838822B2; AU2014234480A1; BR112015019526A2; EP2976769B1; KR20150134336A; BR112015019526B1; TW201442522A; CN105051813B; KR102208258B1; CN105051813A

Description

本発明は、アンビソニックス音声信号処理及び音響効果の分野に関する。

アンビソニックス（Ambisonics）は、音圧に関してオーディオシーンを記述する技術であって、２Ｄ及び３Ｄの両方において、優れた空間分解能による複雑なオーディオシーンの記録、生成、伝送及び再生に対処する。アンビソニックスにおいて、空間オーディオシーンは、フーリエ−ベッセル級数の係数A_n ^m(k)によって記述される。いわゆるＢフォーマット信号として１次アンビソニックス信号を供給するマイクロホンアレイが知られている。しかし、１次アンビソニックス信号を２Ｄサラウンド又は３Ｄのためのスピーカ配置へと復号及びレンダリングすることは、音響指向性の限られた認知しか示さない。音源は、しばしば、それらが実際にあるよりも広いと認知される。特に、中心を外れた聴取位置について、音源は、スピーカ間のそれらの意図された実際上の位置の代わりに、最も近いスピーカ位置から聞こえてくるものとしてしばしば位置決めされる。１次アンビソニックス（Ｂフォーマット）信号は、音圧のフーリエ−ベッセル級数記述の４つの係数から成る。これらの係数は３Ｄ音場表現を形成する。それらはＷチャネル（モノミックス、すなわち０次）及びＸ，Ｙ，Ｚチャネル（１次）である。より高次の信号はより多くの係数を使用する。このことは、それらの係数がスピーカ信号へと復号される場合に、空間的な音源の位置決めの精度を向上させる。しかし、そのような高次の信号は、マイクロホンアレイによって供給されるＢフォーマット信号に含まれない。

指向性オーディオ・コーディング（Directional Audio Coding）（ＤｉｒＡＣ）は、オーディオ信号を表現又は再現するための既知の技術［５，９］である。それは、拡散音からダイレクトサウンドを分離するためにＢフォーマット復号器を使用し、次いで、周波数領域におけるダイレクトサウンドの選択的な増幅のためにベクトル方式による振幅パニング（Vector-Based Amplitude Panning）（ＶＢＡＰ）を使用し、合成フィルタリングの後に、最終的にその出力でスピーカ信号を供給する。

図１ａ）は、ＤｉｒＡＣに基づくＢフォーマット復号化の構造を示す。Ｂフォーマット信号１０は時間領域信号であり、分析フィルタバンクＡＦＢ_ＤにおいてＫ個の周波数バンド１１へとフィルタリングされる。音場解析ブロックＳＦＡ_Ｄは、拡散推定Ψ（ｆ_ｋ）１３及び到来方向（directions-of-arrival）（ＤｏＡ）１２を推定する。ＤｏＡは、バンドｋの特定の中間周波数でのソースへの方向の方位φ（ｆ_ｋ）及び傾斜Θ（ｆ_ｋ）である。１次アンビソニックス復号器ＡｍｂＤは、アンビソニックス信号をＬ個のスピーカ信号１４へとレンダリングする。直接拡散分離ブロックＤＤＳは、拡散推定１３から決定されるフィルタを用いて、１次アンビソニックス信号をＬ個のダイレクトサウンド信号１５及びＬ個の拡散音信号１６に分離する。Ｌ個の拡散音信号１６は、復号器ＡｍｂＤの出力１４に、拡散推定１３から得られる√Ψ（ｆ_ｋ）を乗じることによって、導出される。指向性信号は、√（１−Ψ（ｆ_ｋ））との乗算から導出される。ダイレクトサウンド信号１５は、ベクトル方式による振幅パニング（ＶＢＡＰ）［８］と呼ばれる技術を用いて、更に処理される。ＶＢＡＰユニットＶＰにおいて、（各周波数バンドにおける）各スピーカ信号のためのゲイン値は、ＤｏＡ１２及びスピーカの位置に従って、ダイレクトサウンドを所望の方向へパンするように乗じられる。拡散信号１６は、無相関フィルタリングＤＦによって無相関にされ、無相関にされた拡散信号１７は、ＶＢＡＰユニットＶＰから得られるダイレクトサウンド信号に加えられる。合成フィルタバンクＳＦＢ_Ｄは、周波数バンドを時間領域信号１９と結合し、該結合された信号がＬ個のスピーカによって再生され得る。時間積分のための平滑化フィルタ（図１に図示せず。）は、拡散推定Ψ（ｆ_ｋ）１３を計算するよう、且つ、ＶＢＡＰによって導出されたゲイン値を平滑化するよう、適用される。

図１ｂ）は、音場解析ブロックＳＦＡ_Ｄの詳細を示す。Ｂフォーマット信号は、原点（観測位置、ｒ＝０）での周波数領域における音場を表す。音響強度は、音場における運動及び位置エネルギの輸送を記述する。音場において、音響エネルギの全ての局所的な運動が正味の輸送に相当するわけではない。アクティブインテンシティＩ_ａ（時間平均された音響強度、ＤｏＡ〜Ｉ_ａ）は、指向性の正味エネルギ輸送の割合、すなわち、３つのデカルト方向のための単位時間ごとのエネルギである。Ｂフォーマット信号のアクティブインテンシティ１１ａは、アクティブインテンシティ解析ブロックＡＩＡ_Ｄにおいて得られ、拡散解析ブロックＤＡＢ_Ｄ及びＤｏＡ解析ブロックＤＯＡＡＢ_Ｄへ供給される。ＤｏＡ解析ブロックＤＯＡＡＢ_Ｄ及び拡散解析ブロックＤＡＢ_Ｄは、ＤｏＡ１２及び拡散推定１３を夫々出力する。ＤｉｒＡＣについては［９］において更に、また、基礎をなす理論は［５］において、記載される。

例えばＢフォーマットマイクロホン記録などの、１次アンビソニックス信号の指向性を高めることが望ましい。そのような指向性の強化は、よりリアルな再生のために、又は実際の記録された音響をより高次のコンテンツとミキシングするために、例えば、異なったスピーカセットアップのために再生されるよう意図されるフィルムサウンドに音響効果を加えるために、望ましい。本発明によって解決されるべき１つの課題は、１次アンビソニックス信号又はＢフォーマット信号の指向性を、たとえそのような信号の高次係数が利用可能でないとしても高めることである。

本発明に従って、この及び他の課題は、拡散音成分が変更されずにダイレクトサウンド成分を選択的に増幅することによって解決され得る。ダイレクトサウンドを選択的に増幅する場合に、次数を高められたアンビソニックスフォーマットの信号が得られることが有利である。これは、そのような信号が他のアンビソニックスフォーマットの信号と容易にミキシングされ得るためである。本発明によれば、１次アンビソニックス信号の次数を高めることが可能であり、これにより、指向性音響成分のみが考慮される。このことは、より高い次数（少なくとも２次）を有しながら、先と同じくアンビソニックスフォーマットの信号をもたらす。原理上は、１次アンビソニックス信号の指向性を高めるための開示される方法は、１次係数情報からより高次の係数を導出し、それらの導出された高次係数をアンビソニックス信号に加える。よって、１次アンビソニックス信号の１次係数情報（すなわち、０次及び１次の係数）は有利に保たれる（一実施形態において、再フォーマットを除く。）
言い換えると、付加的な指向性情報は、低次アンビソニックス信号から取り出され、その付加的な指向性情報は、より高次の係数を推定するのに使用される。このように、アンビソニックス信号の指向性は高められる。このことは、アンビソニックス信号がラウドスピーカ信号へと復号される場合に、空間的なソースの位置決めの精度を向上させる。本発明の１つの効果は、結果として得られる出力信号が入力信号よりも多くのエネルギを有することである。

本発明は、請求項１において定義されるような、１次アンビソニックス信号であり、０次及び１次の係数を有する入力信号の指向性を高めるための方法に関する。

本発明はまた、請求項９において定義されるような、０次及び１次の係数を有する１次アンビソニックス信号の指向性を高めるための装置に関する。

更に、本発明は、コンピュータで実行される場合に、該コンピュータに、請求項１において定義されるような、０次及び１次の係数を有する１次アンビソニックス信号の指向性を高めるための方法を実行させるコンピュータ可読命令を記憶したコンピュータ可読記憶媒体に関する。

いずれかの所与の次数のアンビソニックス信号は、たとえここで明示的に述べられていないとしても、一般的に、その所与の次数の係数のみならず、全てのより低次の次数の係数も含むことが知られる。例えば、２次のＨＯＡ信号は、２次の係数のみならず、０次及び１次の係数も含む。

本発明の有利な実施形態は、従属請求項、下記の記載及び図面において開示される。

本発明の例となる実施形態は、添付の図面を参照して記載される。
ａ）は、既知のＤｉｒＡＣベースのＢフォーマット復号器の構造を示し、ｂ）は、既知の音場解析ブロックの一般的な構造を示す。本発明の一般的な実施形態に従う装置の構造を示す。時間領域における結合を利用する実施形態に従う装置の構造を示す。周波数領域における結合を利用する第１実施形態に従う装置の構造を示す。周波数領域における結合を利用する第２実施形態に従う装置の構造を示す。本発明に従う方法のフローチャートを示す。結合ステップの詳細のフローチャートを示す。

図２は、本発明の一般的な実施形態に従う装置の構造を示す。時間領域の１次アンビソニックス信号１０（例えば、Ｂフォーマット信号）は、分析フィルタバンクＡＦＢにおいてフィルタをかけられ、４つの周波数領域チャネル２１が得られる。それらは入力信号１０の周波数領域表現である。周波数領域チャネルの１つは０次係数（すなわち、Ｗチャネル）を表し、残り３つの周波数領域チャネルは１次係数（Ｘ、Ｙ、Ｚチャネル）を表す。

ダイレクトサウンド分離ユニットＤＳＳは、４つの周波数領域チャネル２１に含まれるダイレクトサウンド（すなわち、指向性音響）２０を拡散音から分離する。実施形態において、ダイレクトサウンド分離ユニットＤＳＳは、単にＷチャネルを選択し、それをダイレクトサウンド２０として使用する。更に、音場解析ユニットＳＦＡは、４つの周波数領域チャネルの音場解析を実行して、周波数チャネルの周波数バンドごとにソース方向Θ，Φ２２及び拡散推定Ψ２３を得る。実施形態において、音場解析ユニットＳＦＡは、方向情報２２を得るために到来方向（ＤｏＡ）解析ユニットを有する。

ダイレクトサウンド分離器ＤＳＳによって得られたダイレクトサウンド２０は、次いでフィルタＦにおいてフィルタをかけられ、これによって、拡散成分が減衰されて、指向性音響が選択的に（相対的に）増幅される。フィルタＦは、選択的な増幅のために拡散推定Ψ２３を使用する。原理上は、それは、選択的に増幅されたダイレクトサウンド２４を得るようにダイレクトサウンド２０に√（２（１−Ψ（ｆ）））を乗じる。選択的に増幅されたダイレクトサウンド２４は、次いでＨＯＡ符号器ＨＯＡｅにおいてアンビソニックス符号化され、所定の次数Ｎ_０（Ｎ_０＞１、すなわち、少なくとも２次）のＨＯＡ信号２５が得られる。ＨＯＡ符号器ＨＯＡｅは、符号化のためにソース方向Θ，Φ２２を使用する。それは、Ｂフォーマットに従って０次及び１次の係数を有するアンビソニックスフォーマットを使用してよい。それはまた、代わりに、異なるアンビソニックスフォーマットを使用してよい。異なるアンビソニックスフォーマットは、通常は、Ｂフォーマットの順序とは異なる定義された係数の順序、若しくはＢフォーマットの係数スケーリングとは異なる係数スケーリング、又はその両方を有する。

選択器ＳＥＬは、ＨＯＡ信号２５の定義された部分を選択し、その選択された部分２５ａは、次いで結合及び合成ユニットＣＳにおいて原のＢフォーマット信号と結合される。選択された部分２５ａは、ＨＯＡ信号２５の高次部分、すなわち、少なくとも２次の部分（実施形態では係数）である。結合及び合成ユニットＣＳは、その出力において、スピーカ信号をレンダリングするのに使用され得る時間領域信号２９を（ＨＯＡフォーマットにおいて）供給する。結合及び合成ユニットＣＳは、アンビソニックスフォーマットの信号にフィルタをかけ、時間領域信号を得るために、合成フィルタＳＦを有する。

図２は、得られたＨＯＡ出力信号２９が高次の他のＨＯＡ入力信号３０とミキシングされ得る任意的な追加のミキサユニットＭＸを更に示す。他のＨＯＡ入力信号３０はまた、後述されるＨＯＡフォーマットアダプタＨＦＡにより、入力信号１０とは異なるアンビソニックスフォーマットを有することができる。ミキサＭＸは、得られたＨＯＡ出力信号２９（すなわち、エンハンスドＢフォーマット入力信号）及びＨＯＡ入力信号３０の混合を含むＨＯＡ信号３１を生成する。

結合及び合成ユニットＣＳの実施形態の２つの基本的なタイプは、以下で記載される。１つのタイプの実施形態では、結合及び合成ユニットＣＳは、時間領域において、選択された部分２５ａを原のＢフォーマット信号１０と結合する。従って、それは、時間領域への選択された部分２５ａのみの合成を実行する。他のタイプの実施形態では、結合及び合成ユニットＣＳは、周波数領域において、選択された部分２５ａを原のＢフォーマット信号１０と結合し、後で時間領域への合成を実行する。

図３は、第１のタイプの実施形態を示す。この実施形態では、結合及び合成ユニットＣＳは、合成された時間領域信号２６を得るように、合成フィルタバンクＳＦＢにおいて、ＨＯＡ信号２５のうちの選択された高次係数２５ａのみを合成する。時間領域結合器ユニットＣＢ_ｔは、時間領域出力信号２９を得るように、時間領域において、合成された時間領域信号２６を入力信号と結合する。一実施形態において、時間領域ＨＯＡフォーマットアダプタユニットＨＦＡ_ｔは、ＨＯＡ符号器ＨＯＡｅが使用するフォーマットに従って、時間領域入力信号のフォーマットを適応させる。これは、時間領域結合器ユニットＣＢ_ｔにおける得られた時間領域ＨＯＡ信号２８と合成された時間領域信号２６との結合を簡単にする。幾つかの実施形態において、例えば、ＨＯＡ符号器ＨＯＡｅが、ＨＯＡ入力信号と互換性があるフォーマットを使用する場合に、ＨＯＡフォーマットアダプタユニットＨＦＡ_ｔは必要とされなくてよい。ＨＯＡフォーマットアダプタユニットＨＦＡ_ｔは、ＨＯＡ信号の係数を再配置及び／又は再スケーリングしてよい。

分析フィルタバンクＡＦＢは、例えば、ＦＦＴ（高速フーリエ変換）を実行することによって、異なる周波数バンドを得る。これは時間遅延を生成する。一実施形態において、時間領域入力信号の遅延補償ユニットＤＣ、例えば、分析フィルタバンクＡＦＢや選択的増幅フィルタＦなどのフィルタバンク遅延を補償する。表されている実施形態では、遅延補償は、ＨＯＡフォーマット適応ＨＦＡより前に行われているが、それは、他の実施形態では、ＨＯＡフォーマット適応より後に行われ得る。更なる他の実施形態では、遅延補償は２つのステップにおいて行われる。１つの遅延補償ユニットはフォーマット適応より前にあり、もう１つの遅延補償ユニットはフォーマット適応ＨＦＡより後にある。

図４及び図５は、第２のタイプの結合及び合成ユニットＣＳを使用する実施形態を示す。この実施形態では、結合及び合成ユニットＣＳは、分析フィルタバンクから得られる、入力信号の周波数領域での０次及び１次のアンビソニックス信号を受信する。これは、図４に示される実施形態で見られるように、別個の分析フィルタバンクＡＦＢ’であってよく、あるいは、それは、図５に示される実施形態で見られるように、上記の分析フィルタバンクＡＦＢであってよい。後者の場合に、分析フィルタバンクＡＦＢによって供給される４つの周波数領域チャネル２１は、結合及び合成ユニットＣＳに直接入力される。周波数領域結合器ユニットＣＢ_ｆは、ＨＯＡ信号２５のうちの選択された高次係数２５ａを、周波数領域において、入力信号の０次及び１次のアンビソニックス係数と結合する。合成フィルタバンクＳＦＢ’は、結合されたアンビソニックス信号を合成し、時間領域出力信号２９が得られる。一実施形態において、任意的な周波数領域ＨＯＡフォーマット適応ＨＦＡ_ｆは、入力信号の０次及び１次のアンビソニックス係数に対して、それらをＨＯＡ信号２５のうちの選択された高次係数２５ａと結合するより前に実行される。ＨＯＡフォーマットアダプタユニットＨＦＡ_ｆは、ＨＯＡ信号の係数を再配置及び／又は再スケーリングしてよい。上述されたように、ＨＯＡフォーマットアダプタユニットＨＦＡ_ｆは、幾つかの実施形態では必要とされないことがある。更に、やはり上述されたように、遅延補償（図示せず。）は、処理チェーン（例えば、選択的増幅フィルタＦ、ＨＯＡ符号器ＨＯＡｅ）において挿入される可能性があるあらゆる遅延のために、一実施形態において使用されてよい。なお、分析フィルタバンクＡＦＢ、ＡＦＢ’によって挿入される遅延は補償される必要がないので、それは通常必要とされない。

時間領域結合器ＣＢ_ｔは、時間領域において動作する結合器であり、一方、周波数領域結合器ＣＢ_ｆは、周波数領域において動作する結合器である。いずれのタイプの結合器も、選択された部分２５ａの得られた係数を入力信号１０の（場合により再フォーマットされた）係数に加える。

概して、０次及び１次の係数を有する１次アンビソニックス時間領域信号の指向性を高める装置は、
１次アンビソニックス信号にフィルタをかけて、１次アンビソニックス信号の周波数領域表現である４つの周波数領域チャネルが得られ、周波数領域チャネルのうちの１つの周波数領域チャネル２０が０次係数を表し、３つの周波数領域チャネルが１次係数を表す、分析フィルタバンクＡＦＢと、
４つの周波数領域チャネルの音場解析を実行して、ソース方向Θ，Φ２２及び拡散推定Ψ２３が得られる音場解析ユニットＳＦＡと、
拡散推定Ψ２３が使用されて、０次係数を有する周波数領域チャネル２０にフィルタをかけ、ダイレクトサウンド成分２４が得られる選択的増幅フィルタＦと、
ソース方向Θ，Φ２２が使用されて、少なくとも２である所定の次数を持ったアンビソニックスフォーマットでダイレクトサウンド成分２４を符号化し、少なくとも０次、１次及び２次のアンビソニックス係数を含む、所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンド２５が得られる、高次アンビソニックス符号器ＨＯＡｅと、
所定の次数のアンビソニックスフォーマットにおける得られた符号化されたダイレクトサウンド２５から少なくとも２次のアンビソニックス係数２５ａを選択する選択器ＳＥＬと、
符号化されたダイレクトサウンドから選択された少なくとも２次のアンビソニックス係数２５ａを１次アンビソニックス入力信号１０のアンビソニックス係数と結合して、少なくとも２次のアンビソニックス信号の時間領域表現２９が得られる結合及び合成ユニットＣＳと
を有する。少なくとも２次の選択されたアンビソニックス係数２５ａは、０次又は１次の係数を含まないことが知られる。すなわち、選択器ＳＥＬは、低次係数を除外する。

一実施形態において、本発明は、１次のアンビソニックス信号１０（すなわち、０次及び１次の係数のみを持ったアンビソニックス信号）の指向性を高めるための方法に関する。概して、方法は、
音場解析ユニットＳＦＡにおいて、１次アンビソニックス信号から拡散推定Ψ２３及び方向情報Θ，Φ２２を生成するステップと、
選択的な増幅のためのフィルタＦにおいて拡散推定Ψ２３を使用して、１次アンビソニックス信号からダイレクトサウンド２４を分離して選択的に増幅するステップと、
ＨＯＡ符号器ＨＯＡｅにおいて方向情報Θ，Φ２２を使用して、選択的に増幅されたダイレクトサウンド２４を符号化し、少なくとも２次のＨＯＡ信号２５が得られるステップと、
ＨＯＡ信号２５から高次部分を選択し、該選択された高次部分が１次よりも高い次数の係数のみを含む（すなわち、０次の係数を含まず且つ１次の係数を含まない）ようにするステップと、
結合及び合成ユニットＣＳにおいて、ＨＯＡ信号２５から選択された高次係数を、入力された１次アンビソニックス信号と結合し、高次アンビソニックス信号（すなわち、少なくとも２次のアンビソニックス信号）の時間領域表現２９が得られるステップと
を有する。

一実施形態において、ＨＯＡ信号２５のうちの選択された高次係数を、入力された１次アンビソニックス信号１０と結合するステップは、分析フィルタバンクＡＦＢから入力信号の周波数領域での０次及び１次のアンビソニックス係数を受け取るステップと、ＨＯＡ信号２５のうちの選択された高次（すなわち、２次以上）係数を、周波数領域において、入力信号の０次及び１次のアンビソニックス係数と結合するステップと、結合されたアンビソニックス信号を合成フィルタバンクＳＦＢにおいて合成して時間領域出力信号２９を得るステップとを有する。

実施形態において、方法は、入力信号の０次及び１次のアンビソニックス係数に対して、それらをＨＯＡ信号２５のうちの選択された高次係数と結合するより前に、周波数領域ＨＯＡフォーマット適応ＨＦＡ_ｆを実行するステップを更に有する。

他の実施形態において、ＨＯＡ信号２５のうちの選択された高次係数を、入力された１次アンビソニックス信号１０と結合するステップは、ＨＯＡ信号２５のうちの選択された高次係数２５ａのみを合成フィルタバンクＳＦＢにおいて合成して、合成された時間領域信号２６を得るステップと、得られた合成された時間領域信号を時間領域において入力信号と結合して、時間領域出力信号２９を得るステップとを有する。実施形態において、時間領域入力信号の時間領域ＨＯＡフォーマット適応ＨＦＡ_ｔは、結合より前に実行される。更なる実施形態では、フィルタバンク遅延を補償するための時間領域入力信号の遅延補償ＤＣが、結合するステップより前に実行される。

高次係数は、分析フィルタバンクＡＦＢにおいて１次アンビソニックス入力信号１０にフィルタをかけ、フィルタ処理された信号の到来方向（ＤｏＡ）解析を実行して、拡散推定Ψ２３及び方向Φ，Θ２２が得られ、拡散推定Ψ２３を用いてＷチャネル（０次係数）にフィルタをかけ、それによりダイレクトサウンドＳ（ｆ）２０が分離され、高次アンビソニックス符号器ＨＯＡｅにおいてアンビソニックスフォーマットでダイレクトサウンドＳ（ｆ）を符号化することによって、得られる。結果として得られるＨＯＡ信号２５から、高次係数のみが使用され、入力信号の低次係数と結合され、その結果からアンビソニックス出力信号２９が合成される。

概して、ＨＯＡ信号２５のうちの選択された高次係数を、入力された１次アンビソニックス信号１０と結合するステップは、それらの夫々の係数を足し合わせることを有する。すなわち、出力信号２９は、入力信号１０の全ての係数と、更なる係数、すなわち、選択された部分２５ａのより高次の係数とを含む。

図６は、本発明の一実施形態に従う方法のフローチャートを示す。入力信号１０（０次及び１次の係数を有する１次アンビソニックス信号）の指向性を高める方法６０は、
４つの周波数領域チャネル２１が得られ、それらのうちの１つがアンビソニックスＷチャネル２０であるように、入力信号１０にフィルタをかけるステップｓ１と、
４つの周波数領域チャネル２１の音場解析ＳＦＡを実行して、ソース方向２２及び拡散推定２３が得られるステップｓ１と、
拡散推定２３が使用されて、周波数領域のアンビソニックスＷチャネル２０を選択してフィルタをかけ、入力信号のダイレクトサウンド成分２４が得られるステップｓ３と、
高次アンビソニックス符号器ＨＯＡｅにおいて、ソース方向２２が使用されて、所定の次数Ｎ_０を持ったアンビソニックスフォーマットでダイレクトサウンド成分２４を符号化し、所定の次数Ｎ_０のアンビソニックスフォーマットにおける符号化されたダイレクトサウンド２５が得られるステップｓ４と、
アンビソニックスフォーマットにおける得られた符号化されたダイレクトサウンド２５から、少なくとも２次（すなわち、より低い次数を除く２次以上の次数）のアンビソニックス係数を含む定義された部分２５ａを選択するステップｓ５と、
符号化されたダイレクトサウンド２５のうちの選択された部分の少なくとも２次のアンビソニックス係数を表す信号を入力信号１０を表す信号と結合し、少なくとも２次のアンビソニックス信号２９が得られるステップｓ６と
を有する。

フィルタリングステップｓ１において得られる４つの周波数領域チャネル２１は、１次アンビソニックス信号の周波数表現であり、周波数領域チャネル２１のうちの１つの第１の周波数領域チャネル（Ｗチャネル）２０は０次の係数を表し、一方、残り３つの周波数領域チャネル２１（Ｘ，Ｙ，Ｚチャネル）は１次の係数を表す。

符号化ステップｓ４で、高次アンビソニックス符号器ＨＯＡｅは、ソース方向Φ，Θ２２を用いて、所定の次数Ｎ_０を持ったアンビソニックスフォーマットにおいてダイレクトサウンド成分２４を符号化する。所定の数Ｎ_０は少なくとも２であり、所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンドは、少なくとも２次の次数のアンビソニックス係数を有する。

図７ａ）は、結合するステップｓ６が４つの周波数領域チャネル２１を入力信号１０の表現として使用する実施形態（図４，５に示される装置に対応）を示す。それは、
周波数領域結合器ユニットＣＢ_ｆにおいて、４つの周波数領域チャネル２１、２１’、２８の係数によって表される１次アンビソニックス信号１０のアンビソニックス係数を、少なくとも２次のエンハンスメント高次アンビソニックス信号２５のうちの選択された周波数成分２５ａと結合し、少なくとも２次のアンビソニックス信号の周波数領域表現であって、１次アンビソニックス入力信号１０と比較して指向性が高められている信号３７が得られるステップｓ６１と、
合成フィルタバンクＳＦＢ’において、得られた信号３７にフィルタをかけ、少なくとも２次の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現が得られるステップｓ６４と
を有する。

図７ｂ）は、結合するステップｓ６が入力信号１０の時間領域係数を使用する実施形態（図３に示される装置に対応）を示す。それは、
合成フィルタバンクＳＦＢにおいて、符号化されたダイレクトサウンド２５のうちの少なくとも２次の選択されたアンビソニックス係数２５ａにフィルタをかけ、少なくとも２次の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現２６が得られるステップｓ６２と、
時間領域結合器ＣＢ_ｔにおいて、１次アンビソニックス信号１０（又は、実際のＨＯＡフォーマットは適応され得るので、むしろ、１次アンビソニックス信号１０のアンビソニックス係数を表す係数）を、少なくとも２次のエンハンスメント高次アンビソニックス信号の時間領域表現２６と結合し、１次アンビソニックス信号１０と比較して指向性が高められている少なくとも２次のアンビソニックス信号の時間領域表現２９が得られるステップｓ６５と
を有する。

下記の記載は、アンビソニックスに関する更なる詳細を提供する。アンビソニックス理論では、空間オーディオシーンは、フーリエ−ベッセル級数の係数Ａ_n ^m(k)によって記述される。ソースがないボリュームについて、観測位置（ｒ，θ，φ）での音圧は、次の式（１）によって、その球座標の関数として記述され得る（半径ｒ、傾斜Θ、方位角Φ及び空間周波数ｋ＝ω／ｃ＝２πｆ／ｃ）：

上記の式において、数Ａ_n ^m(k)はアンビソニックス係数であり、j_n(kr)は、半径依存性を記述する第１種の球ベッセル関数であり、Y_n ^m(θ,φ)は、実際に実数値を有する球面調和関数（Spherical Harmonics）（ＳＨ）である。それらは角度依存性に関与する。nはアンビソニックス次数インデックスであり、mは等級である。小さいkrについてしか有効数字を有さないベッセル関数の性質により、総和級数は、十分な精度を伴って、ある次数n=Nで切り捨てられ得る。理論上完ぺきな再構成のために、N→∞である。更なる情報及び詳細は［１１］、［６］、［７］、［３］、［１３］において見直されてよい。アンビソニックス係数A_n ^mはアンビソニックス信号を形成する。それらは、音圧の物理単位（１Ｐａ）を有し、時間により変化する。信号A₀ ⁰は、アンビソニック記録のモノバージョンと見なされ得る。アンビソニックス係数の実際の値は、ＳＨの定義、より正確には、その正規化スキームによって、決定される。式（１）における係数A_n ^mの数は、２Ｄ表現についてはO=2N+1によって、そして、３Ｄ表現についてはO=(N+1)²によって、与えられる。

実際に、アンビソニックスは、実数値の球面調和関数（ＳＨ）を使用する。符号化及び復号化の動作に作用するＳＨのための正規化スキームの種々の定式化及び種類、すなわち、アンビソニックス係数の値が存在するので、定義は以下で与えられる。符号なし表現による実数値ＳＨの定式化は、ここでは次の式（２）の通りである：

上記の式において、

［外１］

は、Y_n ^mとY_n/ ^m/*との間の直交関係に対応する正規化因子である（表１を参照）。すなわち、次の式の通りである；

上記の式において、クロネッカのデルタδ_aaは、a=a’については１に等しく、それ以外は０である。下記では、直交正規化スキームが使用される。

P_n,|m|は、傾斜cos(θ)の依存性を記述する、関連するルジャンドル関数である。

［外２］

P_n,|m|は、式（３）によってロドリーグの公式を用いて表現され得る（すなわち、ここで提示される全ての定義は、実数値変数の補償があいまいさを生じさせ得るコンドン−ショートレー位相の使用なしで済ませる。）。しかし、実装される計算のためのより有効な方法が存在する：

方位角部分φに対する依存性は、次の式（４）によって与えられる：

表１は、アンビソニックス内で使用される一般的な正規化スキームを示す。δ_0,mは、m=0について１の値をとり、それ以外は０をとる。命名規則ＳＮ３Ｄ、Ｎ３Ｄは、［３］から採用される：

SoundField（登録商標）のようなマイクロホンによって記録された信号は、Ｂフォーマット信号を用いて表される。その技術は［２］において記載されている。４つのＢフォーマット信号が存在する。Ｗ信号は、無指向性マイクロホンによって記録された音圧に比例する信号を搬送するが、１／√２という因数によってスケーリングされる。Ｘ、Ｙ、Ｚ信号は、３つのデカルト方向における圧力勾配に比例する信号を搬送する。４つのＢフォーマット係数Ｗ、Ｘ、Ｙ、Ｚは、W=A₀ ⁰ _N3D/√2、X=A₁ ¹ _N3D/√3、Y=A₁ ^-1 _N3D/√3、Z=A₁ ⁰ _N3D/√3によるＮ３Ｄ正規化スキーム［３］，［４］を用いる１次ＨＯＡ係数に、及びW=A₀ ⁰ _SN3D/√2、X=A₁ ¹ _SN3D、Y=A₁ ^-1 _SN3D、Z=A₁ ⁰ _SN3DによるＳＮ３Ｄ正規化を用いるＨＯＡ係数に関係がある。更に、Ｂフォーマットは、因数iⁿが係数表現内で除外される平面波符号化モデルを想定する。

ＨＯＡ信号は、平面波によっても表現され得る。平面波の音圧は、球面調和関数のためのＮ３Ｄ正規化スキームを用いて、［１１］によって与えられている：

正確には、A_n ^mは、次のようになる：

上記の式で、P_S0(f)は、周波数ｆにおける座標系の原点での音圧である。Θ(f)_s、φ(f)_sは、ソースに対する方向（ＤｏＡ）（傾斜、方位角）であり、*は複素共役を示す。Ｂフォーマット及びSoundField（登録商標）マイクロホンシステムを含む多数のアンビソニックスフォーマット及びシステムは、平面波符号化及び復号化モデルを想定し、因数iⁿは除外される。その場合に、A_n ^mは、次のようになる：

上述されたように、図１ｂ）は、音場解析ブロックＳＦＡ_Ｄのビルディングブロックを表す。それは、実際には、一般化された時間−周波数の検討が使用され、それにより任意の時間窓が使用可能となる点を除いて、本発明の音場解析ブロックＳＦＡと同じようである。すなわち、音場解析は、種々の時間正規化へと簡略化される。この一般化は、任意の複素フィルタバンクの使用を可能にする。ここで考えられている他の一般化は、アクティブな音場が平面波の重ね合わせから組み立てられる点である。全ての音場パラメータは周波数の関数であり、それらは、フィルタバンクバンドkの夫々の中心周波数について計算され得る。ｋからのｆ_ｋの依存性は、下記の詳細な説明では省略される。

アクティブインテンシティが次に記載される。

アクティブインテンシティI_a(f)は、次の式（８）に従って定義される（［５］を参照）：

アクティブインテンシティの単位はW/m²=N/(ms)である。P(f)^*は、共役複素音圧（パスカル＝1N/m²）であり、U(f)は、３つのデカルト次元におけるm/sでの粒子速度ベクトルである。Re{.}は実数部分を表す。アクティブインテンシティの他の定式化は、［１１］において見られるように、１／２の更なる因数を使用する。それは、次いで、式（１３）のための更なる因数をもたらす。Ｂフォーマット信号Wは、音圧信号P(f)に比例し、信号X(f)=[X(f),Y(f),Z(f)]^Tは、音速Uに比例する。

上記の式において、e_iはデカルト座標軸の単位ベクトルであり、伝播する平面波の単位ベクトル方向のe_uである。Z₀は特性インピーダンスである（空気の密度と音速との積Z₀=ρ₀×c）。その場合に、アクティブインテンシティI_aは、次の（１０）のようにＢフォーマットを用いて表現され得る（［５］を参照）：

上記の式において、因数√２は、Ｂフォーマット内のＷ係数のスケーリングを表し、*は複素共役を表す。I_a(f)、X(f)は、デカルト座標における周波数のベクトル関数である。

到来方向が次に記載される。

アクティブインテンシティの単位ベクトルe_I(f)=[e_Ix(f),e_Iy(f),e_Iz(f)]^Tは、e_I=I_a(f)/||I_a(f)||によって与えられる。ＤｏＡの方位角は、次の式（１１）によってラジアンで与えられる：

上記の式において、I_ai(f)は、I_a(f)のデカルト成分であり、atan2は４象限逆正接である。仰角Θ(f)は、次の式（１２）によって計算され得る：

拡散が次に記載される。

音場のエネルギ密度、すなわち、単位ボリュームごとの音響エネルギ（物理単位N/m²=(kg・m/s²)/m²）は、［５］によって記載される：

上記の式において、||U||は行列ノルム２を記述し、ベクトルのユークリッド長さである。

アンビソニックス信号について、１次／Ｂフォーマットは、次のようになる：

下記で、表記法における周波数の依存性は、より良い読みやすさのために断念される。

拡散推定Ψは、［５］のように定義される：

［外３］

は、ＩＩＲフィルタによる１次又は窓掛け平均によって実現される時間平均化を用いて実装され得る期待値演算子である。Ψは、音場の非アクティブ部分の寄与を表す。１の値は、完全に拡散した音場（運動エネルギの寄与なし）を記述し、０の値は、完全にアクティブな音場を記述する。Ｂフォーマット信号を用いると、拡散は、次の式（１６）のように表現され得る：

拡散推定の代替の実現［１］は、次の式（１７）によって与えられる：

平均フィルタリングが次に記載される。

拡散推定及びＤｏＡ方向は、時間平均化を必要とする。期待値

［外４］

を近似するよう、平滑化フィルタ出力は、［１２］によって定義される：

y(n,k)=(1-g)x(n,k)+gy(n-1,k) （１８）

ここで、x(n,k)は入力であり、y(n-1,k)は、フィルタバンドkにおいて出力される遅延されたサンプル（変換ブロック）である。フィルタパラメータgはg=exp(-1/f_cτ)によって与えられる。ここで、f_cは、サブサンプリングフィルタバンクのサンプルレートである。５０％だけ重なり合った窓を持つブロックベースのフィルタバンクについて、f_cはf_c=f_s/N_hopになる。ホップサイズN_hopは、この５０％オーバラップの場合について、窓サイズの半分である。時定数τは平均化の特性を決定づける。小さい値は、入力信号の高速な変化が追随される必要がある場合に適切であり、大きい値は、長期平均に適している。

代替の実現手法が存在し、例えば（［１０］を参照）：

y(k,n)=ax(n,k)+(1-a)y(k,n-1) （１９）

ここで、a=N_hop/τf_sであり、τ≧N_hop/f_s。なお、τは、fsに対する絶対的な関係において見られる。

ブロック依存のスイッチパラメータcc及び２つの時定数τ_max、τ_minを有する適応フィルタは、次の時定数（２０）のために使用され得る：

ほとんどの場合において、如何なる１次アンビソニックス記録もＢフォーマット信号である。本発明に従う方法は、１次係数情報を保ちながら、既存の１次アンビソニックス記録のための高次アンビソニックス係数を導出する。到来方向（ＤｏＡ）解析は、周波数にわたって最も強い方向を導出するために実行される。Ｗチャネルは、それらの信号の全てのモノミックスに相当する。Ｗチャネルは、拡散部分が周波数にわたって除去されるようにフィルタをかけられる。よって、フィルタをかけられたＷチャネルは、周波数にわたるダイレクトサウンドの推定になる。ＤｏＡ方向は、３ＤのためにはO=(_Norder+1)²個の、２Ｄ実現のためにはO=(2N_order+1)個の係数を有して、予め割り当てられたアンビソニックス次数N_order>1の新しいＨＯＡ信号を形成するように、フィルタをかけられたＷチャネル信号のアンビソニックス符号化のために使用される。Ｂフォーマット記録（すなわち、１次信号）の４つの係数は、必要ならば新しいアンビソニックス信号と同じフォーマットに変換されたフォーマットであり、出力信号を形成するように新しい係数と結合される。結果として得られる出力ＨＯＡ信号係数Ｃ_ｎ ^ｍは、０及び１次係数の変換されたＢフォーマット係数と、より高次の成分の新しいＨＯＡ係数とから成る。

処理又は処理の部分は、分析フィルタバンクのフィルタバンク周波数領域において適用される。

一実施形態は、ＦＦＴベースの分析フィルタバンクを使用する。５０％が重なり合ったサイン窓は９６０個のサンプルに、又は代替的に、例えば６４０若しくは５１２個のサンプルに適用される。左右へのゼロパディングは、１０２４個のサンプルＦＦＴ長を得るために使用される。逆フィルタバンク（合成フィルタバンク）は、４８０（３２０，２５６）個のサンプルをリストアするために窓掛け及びオーバーレイ加算を使用する。代替的に使用可能なフィルタバンクは、人体感覚により良く適合するフィルタバンド幅を使用するものであって、ISO/IEC 23003/2007/2010（MPEG Surround，SAOC）において記載されている。ＦＦＴフィルタバンクを使用する場合に、２以上のフィルタバンドは、特に高周波のために、人体感覚により良く適応するように結合され得る。一実施形態において、バークの約４分の１のバンド幅が１つのＦＦＴフィルタバンドの細かさにより使用され、結合されたバンドにわたるアクティブインテンシティ及びエネルギの平均値が使用される。様々な実施形態において、音場パラメータ“アクティブインテンシティ”及び／又は“エネルギ密度”は、ＤｏＡ角度及び拡散推定を導出するために使用される。

一実施形態において、ＤｏＡ方向及び拡散推定のための式（１８）に従う特別の平滑化フィルタが使用される。その場合に、拡散推定の平滑化は、次のように実現される（周波数バンド依存性は、明りょうさのために省略される。）。

式（１５）に従う拡散推定は、

［外５］

によって与えられる。エニュメレータ

［外６］

の平滑化フィルタは、それらの成分のために同じ時定数を用いて１次ＩＩＲフィルタによって実現される。更に、フィルタは、小さいτ_min及び大きい時定数τ_maxによって特徴付けられる２つの係数を有する。時定数間の切り替えは、||I_a||の変化及び付加的な状態カウンタccに応じて実行される。このとき、I_aはフィルタ入力であり、

［外７］

は前の動作のフィルタ出力である。

［外８］

大きい時定数τ_maxを有する係数が使用される。

［外９］

小さい時定数τ_minによって特徴付けられる係数が使用され、ccは、１よりも大きいcc_maxにセットされる（例えば、cc_max=10）。

［外１０］

時定数τ=τ_min+((cc_max-cc)／cc_max)(τ_max-τ_min)が使用され、ccは、それがゼロにならない限り以後デクリメントされる（ブロック処理）。

ε₁は正の定数である。エネルギEの平滑化は、同じ適応フィルタ構造だが別個のフィルタを用いて、同じように実行される。それはτ_max、τ_min及び自己cc状態カウンタによって特徴付けられる。このとき、|E(n)|の変化は、大きい、小さい及び補間された時定数の間を切り替えるために使用される。

φ(f)及びΘ(f)は、２つの複素信号を生成することによって、アクティブインテンシティe_I(f)=I_a(f)/||I_a(f)||の単位ベクトルから導出される：

a₁=e_Ix+ie_Iy （２１）

及び

a₂=√(e_Ix ²+e_Iy ²)＋ie_Iz （２２）

上記の式において、i=√(-1)及びe_Ix、e_Iy、e_Izは、アクティブインテンシティの単位ベクトルのデカルト成分である。信号a₁、a₂は、式（１８）に従ってサブバンドごとに適応ＩＩＲ１次フィルタを用いてフィルタをかけられる：

b₁(n)=(1-g(Ψ))a₁(n)+g(Ψ)b₁(n-1) （２３）

そして、b₂(n)については、入力a₂(n)と、拡散Ψに依存する同じフィルタパラメータg(Ψ)とを用いて同様である。依存性は線形であってよい：

g(Ψ)=(g_max-g_min)Ψ+g_min

g_minはゼロに近く、g_max≦１である。

指向性信号φ，Θは、次のようにフィルタ出力から計算され得る：

φ=atan2(Im{b₁}/Re{b₁}) （２４）
Θ=atan2(Re{b₂}/Im{b₂}) （２５）

図２〜５を参照して上述された実施形態は、Ｂフォーマットの場合におけるＷ、Ｘ、Ｙ、Ｚによって表される４つの１次係数のために４つの分析フィルタを使用する。ＤｏＡ及び拡散推定の解析は、中心周波数f_kを有するK個の周波数バンドにおける上記の適応平滑化フィルタを用いて実行される。Ｗ係数信号は、Ｂフォーマットの場合には√(2(1-Ψ(f_k)))を、他の正規化された１次信号の場合には√(1-Ψ(f_k))を各周波数バンドにおいて乗じられて、信号Ｓを実現する。ＤｏＡ方向は、３ＤのためにはO=(_Norder+1)²個の、２Ｄ実現のためにはO=(2N_order+1)個の係数を有して、予め割り当てられたアンビソニックス次数N_order>1の新しいＨＯＡ信号を形成するように、周波数バンドにおいて信号Ｓをアンビソニックス符号化するために使用される。O個の新しいアンビソニックス信号はB_n ^mによって表される。一実施形態において、ＨＯＡ符号器は、因数iⁿを除外する直交正規化球面調和関数又はＮ３ｄを使用する。平面波符号化スキームが使用される：

上記の式において、B(f_k)は、O個のアンビソニックス係数B(f_k)=[B₀ ⁰(f_k),B₁ ^-1(fk),B₁ ⁰(f_k),B₁ ¹(f_k),B₂ ^-2(f_k),..]^Tを保持する、中間周波数f_kを持った夫々の周波数バンドkのためのベクトルである。

［外１１］

は、指向性の球面調和関数を保持する、サイズOx1のモードベクトルである：

Ｂフォーマット入力信号（例えば、記録）の４つの係数は、ＨＯＡ符号器ＨＯＡｅによって生成される新しいアンビソニックス信号と同じフォーマットに変換されたフォーマットである。これは、時々アンビソニックス係数内に含まれる因数iⁿの任意的な考慮とともに球面調和関数の種々の正規化への適応と、２Ｄ球面調和関数に適応するための３Ｄから２Ｄへの変換又はその逆の変換とを暗示することができる。変換され且つソートされ直されたＢフォーマット係数は、関係：[W,Y,Z,X]→[A₀ ⁰,A₁ ^-1,A₁ ⁰,A₁ ¹]及び２Ｄについては：[W,Y,X]→[A₀ ⁰,A₁ ^-1,A₁ ¹]を用いてA₀ ⁰,A₁ ^-1,A₁ ⁰,A₁ ¹と表される。

結果として得られるＨＯＡ信号C_n ^m２９は、変換されたＢフォーマット信号と、０及び１次係数が除去された新しいＨＯＡ係数B_n ^mとから成る。すなわち、C_n ^m:[A₀ ⁰,A₁ ^-1,A₁ ⁰,A₁ ¹,B₂ ^-2,B₂ ^-1,B₂ ⁰,B₂ ¹,B₂ ²,…’]。結果として得られるＨＯＡ信号C_n ^m２９は、３Ｄ実現のためのO=(N_order+1)²個の成分、又はC_n ^m:[A₀ ⁰,A₁ ^-1,
A₁ ¹,B₂ ^-2,B₂ ²,…]による２Ｄ実現のためのO=(2N_order+1)個の成分を有する。このプロシージャは、アンビソニックス信号のための次数アップミックスと見なされ得る。

図３に関連して上述された実施形態は、原の係数を時間領域において新しい係数と結合し、O-4個の合成フィルタ（文字“O”は非ゼロを意図される点を留意されたい。）及び付加的な遅延を用いてフィルタバンク遅延を補償する。図４及び５に示される実施形態は、フィルタバンク領域において結合し、O（非ゼロ）個の合成フィルタを使用する。

本発明に従う次数アップミックスの後、新しい信号C_n ^mは、幾つかの目的、例えば、信号D_n ^mを形成するようにN_orderの他のアンビソニックスコンテンツとミキシングすること、N_orderのアンビソニックス復号器を用いてL個のスピーカによる再生のためにC_n ^m又はD_n ^mを復号すること、データベースにおいてC_n ^m又はD_n ^mを伝送及び／又は記憶すること、などのために使用され得る。幾つかの場合、例えば、伝送及び／又は記憶する場合に、メタデータが、アンビソニックス信号のオリジナル及び実行された処理を示すために使用され得る。

本発明は、あらゆる低次のアンビソニックス信号の指向性も夫々の高次アンビソニックス信号へと高めるのに適しており、一方、ここで記載される例となる実施形態は、例えば２次信号へと高められるための１次（Ｂフォーマット）信号しか使用しない。しかし、同じ原理は、所与の次数のアンビソニックス信号をあらゆるより高い次数へも（例えば、２次信号を３次信号へ、１次信号を４次信号へ、など）高めるように適用され得る。一般的に、４次よりも高い次数の係数を生成することは意味をなさない。

本発明の１つの利点は、それが、Ｂフォーマット信号（例えば、１次マイクロホン記録）をより高次のコンテンツとミキシングして、その混合を復号する場合に空間再現の正確さを高めることを可能にする点である。

記載されている装置及び方法における、開示されているデバイスの形態及び詳細における、並びにそれらの動作における様々な削除、置換及び変更は、当業者によってなされ得るが、同じ結果を達成するように略同じように略同じ機能を実行するそれらの要素の全ての組み合わせが本発明の適用範囲内にあることは、明示的に意図される。本発明は、例示として記載されているのであり、明細書並びに（必要に応じて）特許請求の範囲及び図面において開示されている各特徴は、独立して、又はあらゆる適切な組み合わせにおいても、提供されてよい。特徴は、必要に応じて、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実装されてよい。特許請求の範囲に現れる参照符号は、単なる例示であって、特許請求の範囲の適用範囲を制限するものではない。

引用文献

Claims

１次アンビソニックス信号であり、０次及び１次の係数を有する入力信号の指向性を高める方法であって、
分析フィルタバンクにおいて前記入力信号にフィルタをかけるステップであって、前記１次アンビソニックス信号の周波数領域表現である４つの周波数領域チャネルが得られ、該周波数領域チャネルのうちの１つの第１周波数領域チャネルが０次係数を表し、残り３つの周波数領域チャネルが１次係数を表す、ステップと、
前記４つの周波数領域チャネルの音場解析を実行して、ソース方向及び拡散推定が得られるステップと、
フィルタにおいて、０次係数を有する前記第１周波数領域チャネルにフィルタをかけるステップであって、前記拡散推定が使用され、ダイレクトサウンド成分が得られるステップと、
高次アンビソニックス符号器において、少なくとも２である所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップであって、前記ソース方向が使用され、１次よりも高次のアンビソニックス係数を含む、前記所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンドが得られるステップと、
前記所定の次数のアンビソニックスフォーマットにおける前記得られた符号化されたダイレクトサウンドから２次以上のアンビソニックス係数を選択するステップであって、１次及び０次の係数が除外されるステップと、
結合及び合成ユニットにおいて、前記符号化されたダイレクトサウンドから選択された前記２次以上のアンビソニックス係数を表す信号を前記入力信号と結合するステップであって、指向性が高められた少なくとも２次のエンハンスド・アンビソニックス信号が得られるステップと
を有する方法。
前記符号化されたダイレクトサウンドから選択された前記２次以上のアンビソニックス係数を表す信号を前記入力信号と結合するステップは、
周波数領域結合器ユニットにおいて、前記４つの周波数領域チャネルのアンビソニックス信号を、前記符号化されたダイレクトサウンドから選択された前記２次以上のアンビソニックス係数の中から選択された周波数係数と結合し、少なくとも２次のアンビソニックス信号の周波数領域表現である信号が得られるステップと、
合成フィルタバンクにおいて前記得られた信号にフィルタをかけて、少なくとも２次の係数を有するエンハンスド・アンビソニックス信号の時間領域表現が得られるステップと
を有する、請求項１に記載の方法。
前記符号化されたダイレクトサウンドから選択された前記２次以上のアンビソニックス係数を表す信号を前記入力信号と結合するステップは、
合成フィルタバンクにおいて、前記符号化されたダイレクトサウンドから選択された前記２次以上のアンビソニックス係数にフィルタをかけて、２次以上の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現が得られるステップと、
時間領域結合器において、前記入力信号を表すアンビソニックス係数を、２次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合し、前記入力信号と比較して指向性が高められた少なくとも２次のエンハンスド・アンビソニックス信号の時間領域表現が得られるステップと
を有する、請求項１に記載の方法。
前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップにおいて、前記高次アンビソニックス符号器はＢフォーマットを使用する、
請求項１乃至３のうちいずれか一項に記載の方法。
前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップにおいて、前記高次アンビソニックス符号器は、Ｂフォーマット以外のアンビソニックスフォーマットを使用し、当該方法は、
前記結合するステップより前に、ＨＯＡフォーマット適応ユニットにおいて、前記Ｂフォーマット以外のアンビソニックスフォーマットに従って前記入力信号を再フォーマットし、前記入力信号の再フォーマットされたアンビソニックス係数が得られるステップを更に有し、
前記結合するステップにおいて、前記時間領域結合器は、前記入力信号の前記再フォーマットされたアンビソニックス係数を、２次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合する、
請求項３に記載の方法。
前記４つの周波数領域チャネルの音場解析を実行するステップは、
前記４つの周波数領域チャネルのアクティブインテンシティ解析を実行して、アクティブインテンシティを表す値が得られるステップと、
前記４つの周波数領域チャネルの拡散解析を実行して、前記拡散推定が得られるステップと、
前記アクティブインテンシティを表す値の到来方向解析を実行して、前記ソース方向が得られるステップと
を有する、請求項１乃至５のうちいずれか一項に記載の方法。
前記少なくとも２次のエンハンスド・アンビソニックス信号を、より高次の又は異なったアンビソニックスフォーマットの更なるＨＯＡ入力信号とミキシングして、前記入力信号と前記更なるＨＯＡ入力信号との混合を含むＨＯＡ信号が得られるステップ
を更に有する請求項１乃至６のうちいずれか一項に記載の方法。
前記エンハンスド・アンビソニックス信号は、３Ｄ実現のためのO=(N_order+1)²個の成分と、２Ｄ実現のためのO=(2N_order+1)個の成分とを有し、N_orderは、前記高次アンビソニックス符号器の次数であり、
前記エンハンスド・アンビソニックス信号は、C_n ^m:[A₀ ⁰,A₁ ^-1,A₁ ⁰,A₁ ¹,B₂ ^-2,B₂ ^-1,B₂ ⁰,B₂ ¹,B₂ ²,…’]に従うC_n ^m個の係数を有し、A_i ^jは、前記入力信号の係数であり、B_i ^jは、前記符号化されたダイレクトサウンドから選択された前記２次以上のアンビソニックス係数である、
請求項１乃至７のうちいずれか一項に記載の方法。
１次アンビソニックス信号であり、０次及び１次の係数を有する入力信号の指向性を高める装置であって、
前記入力信号にフィルタをかけて、前記１次アンビソニックス信号の周波数領域表現である４つの周波数領域チャネルが得られ、該周波数領域チャネルのうちの１つの第１周波数領域チャネルが０次係数を表し、残り３つの周波数領域チャネルが１次係数を表す、分析フィルタバンクと、
前記４つの周波数領域チャネルの音場解析を実行して、ソース方向及び拡散推定が得られる音場解析ユニットと、
前記拡散推定が使用されて、０次係数を有する前記第１周波数領域チャネルにフィルタをかけ、ダイレクトサウンド成分が得られるフィルタと、
前記ソース方向が使用されて、少なくとも２である所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化し、少なくとも０次、１次及び２次のアンビソニックス係数を含む、前記所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンドが得られる、高次アンビソニックス符号器と、
前記所定の次数のアンビソニックスフォーマットにおける前記得られた符号化されたダイレクトサウンドから少なくとも２次のアンビソニックス係数を選択する選択器と、
前記符号化されたダイレクトサウンドから選択された前記少なくとも２次のアンビソニックス係数に従う時間領域信号を前記１次アンビソニックス信号のアンビソニックス係数と結合して、少なくとも２次のエンハンスド・アンビソニックス信号の時間領域表現が得られる結合及び合成ユニットと
を有する装置。
前記結合及び合成ユニットは、
前記４つの周波数領域チャネルのアンビソニックス信号を、前記符号化されたダイレクトサウンドからの２次以上の前記選択されたアンビソニックス係数の中から選択された周波数係数と結合し、少なくとも２次のアンビソニックス信号の周波数領域表現である信号が得られる周波数領域結合器ユニットと、
前記得られた信号にフィルタをかけて、少なくとも２次の係数を有するエンハンスド・アンビソニックス信号の時間領域表現が得られる合成フィルタバンクと
を有する、請求項９に記載の装置。
前記結合及び合成ユニットは、
前記符号化されたダイレクトサウンドからの２次以上の前記選択されたアンビソニックス係数にフィルタをかけて、２次以上の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現が得られる合成フィルタバンクと、
前記入力信号を表すアンビソニックス係数を、２次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合し、前記入力信号と比較して指向性が高められた少なくとも２次のエンハンスド・アンビソニックス信号の時間領域表現が得られる時間領域結合器ユニットと
を有する、請求項９に記載の装置。
前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化する前記高次アンビソニックス符号器は、Ｂフォーマットを使用する、
請求項９乃至１１のうちいずれか一項に記載の装置。
前記高次アンビソニックス符号器は、前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するときに、Ｂフォーマット以外のアンビソニックスフォーマットを使用し、当該装置は、
前記Ｂフォーマット以外のアンビソニックスフォーマットに従って前記入力信号を再フォーマットし、前記入力信号の再フォーマットされたアンビソニックス係数が得られるＨＯＡフォーマット適応ユニットを更に有し、
前記時間領域結合器ユニットは、前記入力信号の前記再フォーマットされたアンビソニックス係数を、２次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合する、
請求項１１に記載の装置。
前記音場解析ユニットは、
前記４つの周波数領域チャネルのアクティブインテンシティ解析を実行して、アクティブインテンシティを表す値が得られるアクティブインテンシティ解析ブロックと、
前記４つの周波数領域チャネルの拡散解析を実行して、前記拡散推定が得られる拡散解析ブロックと、
前記アクティブインテンシティを表す値の到来方向解析を実行して、前記ソース方向が得られる到来方向解析ブロックと
を有する、請求項９乃至１３のうちいずれか一項に記載の装置。
前記少なくとも２次のエンハンスド・アンビソニックス信号を、より高次の又は異なったアンビソニックスフォーマットの他のＨＯＡ入力信号とミキシングして、前記入力信号と前記他のＨＯＡ入力信号との混合を含むＨＯＡ信号が得られるミキサユニット
を更に有する請求項９乃至１４のうちいずれか一項に記載の装置。