JP2016502797A

JP2016502797A - 複数のパラメトリック・オーディオ・ストリームを発生するための装置及び方法、並びに複数のラウドスピーカ信号を発生するための装置及び方法

Info

Publication number: JP2016502797A
Application number: JP2015542238A
Authority: JP
Inventors: ファビアン・クエヒ; ギオバンニ・デルガルド; アチム・クンツ; ヴィレ・プルッキ; アルコンティス・ポリティス
Original assignee: Technische Universitaet Ilmenau
Current assignee: Technische Universitaet Ilmenau
Priority date: 2012-11-15
Filing date: 2013-11-12
Publication date: 2016-01-28
Anticipated expiration: 2033-11-12
Also published as: MX2015006128A; BR112015011107A2; US20150249899A1; KR101715541B1; TWI512720B; CN104904240A; BR112015011107B1; EP2733965A1; CA2891087C; WO2014076058A1; TW201426738A; AR093509A1; CN104904240B; JP5995300B2; KR20150104091A; US10313815B2; EP2904818B1; RU2015122630A; RU2633134C2; ES2609054T3

Abstract

録音空間内での録音から得られる入力空間オーディオ信号（１０５）から複数のパラメトリック・オーディオ・ストリーム（１２５）（θi，Ψi，Ｗi）を発生するための装置（１００）は、セグメンタ（１１０）と発生器（１２０）とを備えている。セグメンタ（１１０）は入力空間オーディオ信号（１０５）から少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗi，Ｘi，Ｙi，Ｚi）を生成するように構成され、少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗi，Ｘi，Ｙi，Ｚi）は、録音空間の対応するセグメント（Ｓｅｇi）に関連づけられている。発生器（１２０）は、複数のパラメトリック・オーディオ・ストリーム（１２５）（θi，Ψi，Ｗi）を得るために、少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗi，Ｘi，Ｙi，Ｚi）の各々について、パラメトリック・オーディオ・ストリームを発生するように構成されている。【選択図】図１

Description

本発明は、一般的にはパラメトリック空間オーディオ処理に関し、具体的には複数のパラメトリック・オーディオ・ストリームを発生するための装置及び方法、並びに複数のラウドスピーカ信号を発生するための装置及び方法に関する。本発明のさらなる実施形態は、セクタベースのパラメトリック空間オーディオ処理に関する。

マルチチャネルリスニングにおいて、聴取者は複数のラウドスピーカで包囲される。このような配置ではオーディオを捕捉するための様々な既知方法が存在する。まず、これらの方法で生み出すことができるラウドスピーカシステムおよび空間印象について考察してみたい。一般的な２チャネル式ステレオ設定は、特殊技術なしでは、ラウドスピーカを接続する線上に聴覚事象を作り出すことしかできない。よって、他の方向から発する音は、生成され得ない。論理的には、聴取者の周囲でさらに多いラウドスピーカを用いれば、より多くの方向を包含することができ、よってより自然な空間印象を作り出すことができる。最も広く知られるマルチチャネル・ラウドスピーカ・システムおよびレイアウトは、５．１規格（「ＩＴＵ−Ｒ７７５−１」）であるが、これは、受聴位置に対する方位角が０゜、３０゜および１１０゜である５つのラウドスピーカより成る。また、異なる数のラウドスピーカが異なる方向に位置決めされる他のシステムも知られている。

当技術分野では、先に述べたラウドスピーカシステムに関して、録音環境で知覚される通りの空間印象を受聴状況において再生するための幾つかの異なる録音方法が設計されている。選択されたマルチチャネル・ラウドスピーカ・システムで空間音響を録音する理想的な方法は、存在するラウドスピーカと同数のマイクロフォンを用いることであると思われる。このような場合、任意の単一方向からの音が１つ、２つまたは３つのマイクロフォンでのみ録音されるように、マイクロフォンの指向性パターンも、ラウドスピーカの配置に一致すべきである。したがって、使用されるラウドスピーカが多くなるほど、より狭い指向性パターンが必要とされる。しかしながら、このような狭い指向性のマイクロフォンは、比較的高価であり、かつ典型的には、平坦でない周波数応答を有していて望ましくない。さらに、マルチチャネル再生への入力として指向性パターンが広すぎる幾つかのマイクロフォンを用いれば、単一方向から発する音が常に必要以上の数のラウドスピーカによって再生されるという事実に起因して、聴覚が彩色されてぼやける結果となる。故に、現行のマイクロフォンが最も適するものは、周囲の空間印象を目的としない２チャネル式の録音再生である。

別の知られた空間音響録音へのアプローチは、広範な空間エリアにわたって分散された多数のマイクロフォンを録音することである。例えば、ステージ上のオーケストラを録音する場合、各単一楽器を音源の近くに位置合わせされた所謂スポットマイクロフォンによって捉えることができる。正面音響ステージの空間分布は、例えば、従来のステレオマイクロフォンによって捕捉することができる。後期残響に対応する音場成分は、ステージから比較的遠距離に配置された幾つかのマイクロフォンによって捕捉することができる。よって、音響技師は、利用可能な全てのマイクロフォンチャネルの組合せを用いることにより、望ましいマルチチャネル出力をミキシングすることができる。しかしながら、この録音技術は、極めて大規模な録音設定と録音されたチャネルの手作業によって作られるミキシングを伴い、実際には、必ずしも実現可能ではない。

２０１０年８月３１日付けのT. Lokki, J. Merimaa, V. Pulkkiによる「Method for Reproducing Natural or Modified Spatial Impression in Multichannel Listening」と題する米国特許第７,７８７,６３８Ｂ２号明細書（特許文献１）、およびV. Pulkkiによる「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007（非特許文献１）に記述されているような、方向オーディオコーディング（ＤｉｒＡＣ：directional audio coding）に基づいて空間オーディオを録音し再生するための従来システムは、音場の単純なグローバルモデルに依存している。したがって、これらは幾つかの体系的な欠点を有し、これにより、実施において達成可能な音質と音響体験が限定される。

既知のソリューションにおける一般的な問題点は、それらが比較的複雑であり、かつ典型的には、空間音質の劣化に関連していることにある。

米国特許第７，７８７，６３８Ｂ２号明細書

V. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007 V. Pulkki著「Virtual sound source positioning using Vector Base Amplitude Panning」, J. Audio Eng. Soc., Vol. 45, pp. 456-466, 1997 R. Roy, T. Kailath共著「ESPRIT-estimation of signal parameters via rotational invariance techniques」, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 37, no. 7, pp. 984995, July 1989 Ｊ. Ahonen, V. Pulkki共著「Diffuseness estimation using temporal variation of intensity vectors」, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2009. WAS-PAA '09. , pp. 285-288, 18-21 Oct. 2009 O. Thiergart, G. Del Galdo, E. A. P. Habets共著「Signal-to-reverberant ratio estimation based on the complex spatial coherence between omnidirectional microphons」, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2012, pp. 309-312, 25-30 March 2012 A. Kuntz著「Wave field analysis using virtual circular microphone arrays」, Dr. Hut, 2009, ISBN: 978-3-86853-006-3 M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuech, D. Mahne, R. Schultz-Amling, O. Thiergart共著「A Spatial Filtering Approach for Directional Audio Coding」, 126th AES Convention, Paper 7653, Munich, Germany, 2009

したがって、本発明の目的は、比較的単純かつコンパクトなマイクロフォン構成を用いてより高い品質、よりリアルな空間音響の録音と再生を可能にする、パラメトリック空間オーディオ処理のための改良された概念を提供することにある。

この目的は、請求項１に記載の装置、請求項１３に記載の装置、請求項１５に記載の方法、請求項１６に記載の方法、請求項１７に記載のコンピュータプログラムまたは請求項１８に記載のコンピュータプログラムによって達成される。

本発明の一実施形態によれば、録音空間における録音から得られる入力空間オーディオ信号から複数のパラメトリック・オーディオ・ストリームを発生するための装置は、セグメンタと発生器とを備えている。セグメンタは入力空間オーディオ信号から少なくとも２つの入力セグメントオーディオ信号を生成するように構成されている。ここで、少なくとも２つの入力セグメントオーディオ信号は、録音空間の対応するセグメントに関連づけられている。発生器は、複数のパラメトリック・オーディオ・ストリームを得るために、前記少なくとも２つの入力セグメントオーディオ信号の各々についてパラメトリック・オーディオ・ストリームを発生するように構成されている。

本発明の基礎を成す基本的考案は、録音空間の対応するセグメントに関連づけられている少なくとも２つの入力セグメントオーディオ信号が入力空間オーディオ信号から生成されれば、かつ複数のパラメトリック・オーディオ・ストリームを得るために、少なくとも２つの入力セグメントオーディオ信号の各々についてパラメトリック・オーディオ・ストリームが発生されれば、改良されたパラメトリック空間オーディオ処理を達成できる、というものである。これは、比較的単純かつコンパクトなマイクロフォン構成を用いて、より高い品質、よりリアルな空間音響の録音と再生を達成することを可能にする。

さらなる実施形態によれば、セグメンタは、録音空間のセグメントの各々に関する指向性パターンを用いるように構成されている。ここで、指向性パターンは、少なくとも２つの入力セグメントオーディオ信号の指向性を指す。指向性パターンの使用により、特に複雑な音響シーンにおいて、モデルと観測される音場とのより優れた一致を得ることができる。

さらなる実施形態によれば、発生器は、複数のパラメトリック・オーディオ・ストリームを取得するように構成され、複数のパラメトリック・オーディオ・ストリームは各々、少なくとも２つの入力セグメントオーディオ信号の成分と、対応するパラメトリック空間情報とを含む。例えば、各パラメトリック・オーディオ・ストリームのパラメトリック空間情報は、到来方向（ＤＯＡ：direction-of-arrival）パラメータおよび／または拡散性パラメータを含む。ＤＯＡパラメータおよび／または拡散性パラメータを生成することにより、観測される音場をパラメトリック信号表現領域において記述することができる。

さらなる実施形態によれば、録音空間内で録音された入力空間オーディオ信号から導出される複数のパラメトリック・オーディオ・ストリームから複数のラウドスピーカ信号を発生するための装置は、レンダラとコンバイナとを備えている。レンダラは複数のパラメトリック・オーディオ・ストリームから複数の入力セグメントラウドスピーカ信号を生成するように構成されている。ここで、入力セグメントラウドスピーカ信号は、録音空間の対応するセグメントに関連づけられている。コンバイナは、複数のラウドスピーカ信号を得るために、入力セグメントラウドスピーカ信号を結合するように構成されている。

本発明のさらなる実施形態は、複数のパラメトリック・オーディオ・ストリームを発生するための方法と、複数のラウドスピーカ信号を発生するための方法を提供する。

図１は、セグメンタと発生器とを用いて、録音空間内での入力空間オーディオ信号録音から複数のパラメトリック・オーディオ・ストリームを発生するための装置の一実施形態を示すブロック図である。図２は、ミキシングまたはマトリクシング演算に基づく、図１による装置の実施形態のセグメンタを示す略図である。図３は、指向性パターンを用いる、図１による装置の実施形態のセグメンタを示す略図である。図４は、パラメトリック空間解析に基づく、図１による装置の実施形態の発生器を示す略図である。図５は、複数のパラメトリック・オーディオ・ストリームから複数のラウドスピーカ信号を発生するための、レンダラとコンバイナとを備える装置の一実施形態を示すブロック図である。図６は録音空間のセグメント例を示す略図であり、各セグメントが二次元（２Ｄ）平面内または三次元（３Ｄ）空間内の方向の部分集合を表す。図７は、録音空間の２つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図である。図８は、二次Ｂフォーマット入力信号を用いる、録音空間の２つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図である。図９は、パラメトリック信号表現領域における信号変更を含む、録音空間の２つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図である。図１０は、図１による装置の実施形態のセグメンタにより生成される入力セグメントオーディオ信号の極パターン例を示す略図である。図１１は、音場録音を実行するためのマイクロフォン構成例を示す略図である。図１２は、高次マイクロフォン信号を取得するための全方向性マイクロフォンの円形アレイ例を示す略図である。

以下、添付の図面を参照して、本発明の実施形態を説明する。

図面を用いて本発明をさらに詳細に論じる前に、諸図を通じて、同じ機能または同じ効果を有するエレメントである同等のエレメントには、これらのエレメントに関する記述および異なる実施形態において示されるその機能性が互いに交換可能であるように、または異なる実施形態において互いに適用され得るように、同じ参照数字が付されていることを指摘しておく。

図１は、セグメンタ１１０と発生器１２０とを用いて、録音空間内での録音から得られる入力空間オーディオ信号１０５から複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）を発生するための装置１００の一実施形態を示すブロック図である。例えば、入力空間オーディオ信号１０５は、全方向性信号Ｗおよび複数の異なる指向性信号Ｘ、Ｙ、Ｚ、Ｕ、Ｖ（または、Ｘ、Ｙ、Ｕ、Ｖ）を含む。図１に示されているように、装置１００はセグメンタ１１０と発生器１２０とを備えている。例えば、セグメンタ１１０は、入力空間オーディオ信号１０５の全方向性信号Ｗおよび複数の異なる指向性信号Ｘ、Ｙ、Ｚ、Ｕ、Ｖから、少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）を生成するように構成され、前記少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）は、録音空間の対応するセグメントＳｅｇ_iに関連づけられる。さらに、発生器１２０は、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）を得るために、少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の各々についてパラメトリック・オーディオ・ストリームを発生するように構成することができる。

複数のパラメトリック・オーディオ・ストリーム１２５を発生するための装置１００により、空間音質の劣化を回避すること、および比較的複雑なマイクロフォン構成を回避することができる。したがって、図１による装置１００の実施形態は、比較的単純かつコンパクトなマイクロフォン構成を用いて、より高い品質、よりリアルな空間音響録音を可能にする。

実施形態において、録音空間のセグメントＳｅｇ_iは、各々、二次元（２Ｄ）平面内または三次元（３Ｄ）空間内の方向の部分集合を表す。

実施形態において、録音空間のセグメントＳｅｇ_iは、各々、関連の指向性尺度によって特徴づけられている。

実施形態によれば、装置１００は、入力空間オーディオ信号１０５を得るために、音場録音を実行するように構成されている。例えば、セグメンタ１１０は、目的の全角度範囲を録音空間の複数のセグメントＳｅｇ_iに分割するように構成されている。さらに、録音空間のそれらのセグメントＳｅｇ_iは、各々が目的の全角度範囲に比べて低減された角度範囲にわたることができる。

図２は、ミキシング（またはマトリクシング）演算に基づく、図１による装置１００の実施形態のセグメンタ１１０を示す略図である。図２に好適な例として描かれているように、セグメンタ１１０は、録音空間のセグメントＳｅｇ_iに依存するミキシングまたはマトリクシング演算を用いて、全方向性信号Ｗおよび複数の異なる指向性信号Ｘ、Ｙ、Ｚ、Ｕ、Ｖから、少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）を発生するように構成されている。図２に好適な例として示されているセグメンタ１１０により、予め規定されたミキシングまたはマトリクシング演算を用いて、入力空間オーディオ信号１０５を構成する全方向性信号Ｗおよび複数の異なる指向性信号Ｘ、Ｙ、Ｚ、Ｕ、Ｖを少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）へマップすることが可能である。この予め規定されたミキシングまたはマトリクシング演算は、録音空間のセグメントＳｅｇ_iに依存し、かつ入力空間オーディオ信号１０５から少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）を分岐するために実質的に使用することができる。ミキシングまたはマトリクシング演算に基づく、セグメンタ１１０による少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の分岐は、音場の単純なグローバルモデルとは対照的に、先に述べた優位点の達成を実質的に可能にする。

図３は、（所望の、または予め決められた）指向性パターン３０５、ｑ_i（α）を用いる、図１による装置１００の実施形態のセグメンタ１１０を示す略図である。図３に好適な例として描かれているように、セグメンタ１１０は、録音空間のセグメントＳｅｇ_iの各々について、指向性パターン３０５、ｑ_i（α）を用いるように構成されている。さらに、指向性パターン３０５、ｑ_i（α）は、少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の指向性を示すことができる。

実施形態において、指向性パターン３０５、ｑ_i（α）は、次式によって与えられる。

ｑ_i（α）＝ａ＋ｂｃｏｓ（α＋Θ_i）（１）

但し、ａおよびｂは所望の指向性パターンを得るために変更することが可能な乗数を示し、αは方位角を示し、Θ_iは録音空間のｉ番目のセグメントの好ましい方向を示す。例えば、ａは０から１までの範囲内にあり、ｂは−１から１までの範囲内にある。

乗数ａ、ｂの１つの有益な選択肢として、ａ＝０．５およびｂ＝０．５とすることができ、その結果、次のような指向性パターンが得られる。

ｑ_i（α）＝０．５＋０．５ｃｏｓ（α＋Θ_i）（１ａ）

図３に好適な例として描かれているセグメンタ１１０により、録音空間の対応するセグメントＳｅｇ_iに関連づけられた少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）を得ることができ、セグメントＳｅｇ_iは各々予め決められた指向性パターン３０５、ｑ_i（α）を有する。ここで、録音空間のセグメントＳｅｇ_iの各々に対する指向性パターン３０５、ｑ_i（α）の使用は、装置１００によって得られる空間音質の増強を可能にすることを指摘しておく。

図４は、パラメトリック空間解析に基づく、図１による装置１００の実施形態の発生器１２０を示す略図である。図４に好適な例として描かれているように、発生器１２０は、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）を得るように構成されている。さらに、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）は、各々、少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の成分Ｗ_iおよび対応するパラメトリック空間情報θ_i、Ψ_iを含むことができる。

実施形態において、発生器１２０は、対応するパラメトリック空間情報θ_i、Ψ_iを得るために、少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の各々に対してパラメトリック空間解析を実行するように構成することができる。

実施形態において、各パラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）のパラメトリック空間情報θ_i、Ψ_iは、到来方向（ＤＯＡ）パラメータθ_iおよび／または拡散性パラメータΨ_iを含む。

実施形態において、図４に好適な例として描かれている発生器１２０により生成される到来方向（ＤＯＡ）パラメータθ_iおよび拡散性パラメータΨ_iは、パラメトリック空間オーディオ信号処理のためのＤｉｒＡＣパラメータを構成することができる。例えば、発生器１２０は、少なくとも２つの入力セグメントオーディオ信号１１５の時間−周波数表現を用いてＤｉｒＡＣパラメータ（例えば、ＤＯＡパラメータθ_iおよび拡散性パラメータΨ_i）を発生するように構成されている。

図５は、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）から複数のラウドスピーカ信号５２５（Ｌ₁，Ｌ₂，…）を発生するための、レンダラ５１０とコンバイナ５２０とを備えた装置５００の一実施形態を示すブロック図である。図５の実施形態において、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）は、録音空間において録音された入力空間オーディオ信号（例えば、図１の実施形態に好適な例として描かれている入力空間オーディオ信号１０５）から導出することができる。図５に示されているように、装置５００は、レンダラ５１０とコンバイナ５２０とを備えている。例えば、レンダラ５１０は複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）から複数の入力セグメントラウドスピーカ信号５１５を生成するように構成され、入力セグメントラウドスピーカ信号５１５は録音空間の対応するセグメント（Ｓｅｇ_i）に関連づけられる。さらに、コンバイナ５２０は、複数のラウドスピーカ信号５２５（Ｌ₁，Ｌ₂，…）を得るために、入力セグメントラウドスピーカ信号５１５を結合するように構成することができる。

図５の装置５００を用いることにより、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）から複数のラウドスピーカ信号５２５（Ｌ₁，Ｌ₂，…）を発生することができ、パラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）は、図１の装置１００から送信することができる。さらに、図５の装置５００は、比較的単純かつコンパクトなマイクロフォン構成から導出されるパラメトリック・オーディオ・ストリームを用いて、より高い品質、よりリアルな空間音響再生を達成することを可能にする。

実施形態において、レンダラ５１０は、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）を受信するように構成されている。例えば複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）は、各々、セグメントオーディオ成分Ｗ_iおよび対応するパラメトリック空間情報θ_i、Ψ_iを含む。さらに、レンダラ５１０は、複数の入力セグメントラウドスピーカ信号５１５を得るために、セグメントオーディオ成分Ｗ_iの各々を、対応するパラメトリック空間情報５０５（θ_i，Ψ_i）を用いて表現するように構成することができる。

図６は、録音空間のセグメント例Ｓｅｇ_i（ｉ＝１，２，３，４）６１０、６２０、６３０、６４０を示す略図６００である。図６の略図６００において、録音空間のセグメント例６１０、６２０、６３０、６４０は、各々、二次元（２Ｄ）平面内の方向の部分集合を表す。さらに、録音空間のセグメントＳｅｇ_iは、各々、三次元（３Ｄ）空間内の方向の部分集合を表すことができる。例えば、三次元（３Ｄ）空間内の方向の部分集合を表すセグメントＳｅｇ_iは、図６に好適な例として描かれているセグメント６１０、６２０、６３０、６４０に類似したものとすることができる。図６の略図６００によれば、図１の装置１００の４つのセグメント例６１０、６２０、６３０、６４０が好適な例として示されている。しかしながら、異なる数のセグメントＳｅｇ_i（ｉ＝１，２，…，ｎ、但し、ｉは整数の指数であり、ｎはセグメントの数を示す）を用いることもできる。セグメント例６１０、６２０、６３０、６４０は、各々、極座標系において表現することができる（例えば図６参照）。同様に、三次元（３Ｄ）空間の場合、セグメントＳｅｇ_iは、球座標系において表現することができる。

実施形態において、図１に好適な例として示されているセグメンタ１１０は、少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）を生成するために、セグメントＳｅｇ_i（例えば、図６のセグメント例６１０、６２０、６３０、６４０）を用いるように構成することができる。セグメント（または、セクタ）を用いることにより、音場のセグメントベース（または、セクタベース）のパラメトリックモデルを実現することができる。これにより、比較的コンパクトなマイクロフォン構成で、より高い品質の空間オーディオ録音と再生を達成することができる。

図７は、録音空間の２つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図７００である。図７の略図７００には、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）を発生するための装置１００の実施形態、および複数のラウドスピーカ信号５２５（Ｌ₁，Ｌ₂，…）を発生するための装置５００の実施形態が好適な例として描かれている。図７の略図７００に示されているように、セグメンタ１１０は、入力空間オーディオ信号１０５（例えば、マイクロフォン信号）を受信するように構成することができる。さらに、セグメンタ１１０は、少なくとも２つの入力セグメントオーディオ信号１１５（例えば、第１のセグメントのセグメントマイクロフォン信号７１５−１、および第２のセグメントのセグメントマイクロフォン信号７１５−２）を生成するように構成することができる。発生器１２０は、第１のパラメトリック空間解析ブロック７２０−１と、第２のパラメトリック空間解析ブロック７２０−２とを備えることができる。さらに、発生器１２０は、少なくとも２つの入力セグメントオーディオ信号１１５の各々についてパラメトリック・オーディオ・ストリームを発生するように構成することができる。装置１００の実施形態の出力では、複数のパラメトリック・オーディオ・ストリーム１２５が得られる。例えば、第１のパラメトリック空間解析ブロック７２０−１は、第１のセグメントの第１のパラメトリック・オーディオ・ストリーム７２５−１を出力し、一方で第２のパラメトリック空間解析ブロック７２０−２は、第２のセグメントの第２のパラメトリック・オーディオ・ストリーム７２５−２を出力する。さらに、第１のパラメトリック空間解析ブロック７２０−１により生成される第１のパラメトリック・オーディオ・ストリーム７２５−１は、第１のセグメントのパラメトリック空間情報（例えば、θ₁、Ψ₁）および第１のセグメントの１つまたは複数のセグメントオーディオ信号（例えば、Ｗ₁）を含むことができ、一方で、第２のパラメトリック空間解析ブロック７２０−２により生成される第２のパラメトリック・オーディオ・ストリーム７２５−２は、第２のセグメントのパラメトリック空間情報（例えば、θ₂、Ψ₂）および第２のセグメントの１つまたは複数のセグメントオーディオ信号（例えば、Ｗ₂）を含むことができる。装置１００の実施形態は、複数のパラメトリック・オーディオ・ストリーム１２５を送信するように構成することができる。図７の略図７００にも示されているように、装置５００の実施形態は、装置１００の実施形態から複数のパラメトリック・オーディオ・ストリーム１２５を受信するように構成することができる。レンダラ５１０は、第１のレンダリングユニット７３０−１と、第２のレンダリングユニット７３０−２とを備えることができる。さらに、レンダラ５１０は、受信した複数のパラメトリック・オーディオ・ストリーム１２５から複数の入力セグメントラウドスピーカ信号５１５を生成するように構成することができる。例えば、第１のレンダリングユニット７３０−１は、第１のセグメントの第１のパラメトリック・オーディオ・ストリーム７２５−１から第１のセグメントの入力セグメントラウドスピーカ信号７３５−１を生成するように構成することができ、一方で、第２のレンダリングユニット７３０−２は、第２のセグメントの第２のパラメトリック・オーディオ・ストリーム７２５−２から第２のセグメントの入力セグメントラウドスピーカ信号７３５−２を生成するように構成することができる。さらに、コンバイナ５２０は、複数のラウドスピーカ信号５２５（例えば、Ｌ₁、Ｌ₂、…）を得るために、入力セグメントラウドスピーカ信号５１５を結合するように構成することができる。

図７の実施形態は、音場のセグメントベース（または、セクタベース）のパラメトリックモデルを用いた、より高い品質の空間オーディオ録音再生の概念を本質的に表したものであり、これは、比較的コンパクトなマイクロフォン構成で複雑な空間オーディオシーンをも録音することを可能にする。

図８は、二次Ｂフォーマット入力信号１０５を用いる、録音空間の２つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図８００である。図８に略示されているラウドスピーカ信号の計算例は、図７に略示されているラウドスピーカ信号の計算例に本質的に対応している。図８の略図には、複数のパラメトリック・オーディオ・ストリーム１２５を発生するための装置１００の実施形態、および複数のラウドスピーカ信号５２５を発生するための装置５００の実施形態が好適な例として描かれている。図８に示されているように、装置１００の実施形態は、入力空間オーディオ信号１０５（例えば、［Ｗ，Ｘ，Ｙ，Ｕ，Ｖ］等のＢフォーマット・マイクロフォン・チャネル）を受信するように構成することができる。ここで、留意すべきことは、図８における信号Ｕ、Ｖが二次Ｂフォーマット成分であるということである。好適な例として「マトリクシング（matrixing）」と示されているセグメンタ１１０は、録音空間のセグメントＳｅｇ_iに依存するミキシングまたはマトリクシング演算を用いて、全方向性信号および複数の異なる指向性信号から、少なくとも２つの入力セグメントオーディオ信号１１５を発生するように構成することができる。例えば、少なくとも２つの入力セグメントオーディオ信号１１５は、第１のセグメントのセグメントマイクロフォン信号７１５−１（例えば、［Ｗ₁，Ｘ₁，Ｙ₁］）、および第２のセグメントのセグメントマイクロフォン信号７１５−２（例えば、［Ｗ₂，Ｘ₂、Ｙ₂］）を含むことができる。さらに、発生器１２０は、第１の指向性および拡散性解析ブロック７２０−１と、第２の指向性および拡散性解析ブロック７２０−２とを備えることができる。図８に好適な例として示されている第１および第２の指向性および拡散性解析ブロック７２０−１、７２０−２は、図７に好適な例として示されている第１および第２のパラメトリック空間解析ブロック７２０−１、７２０−２に本質的に対応する。発生器１２０は、複数のパラメトリック・オーディオ・ストリーム１２５を得るために、前記少なくとも２つの入力セグメントオーディオ信号１１５の各々についてパラメトリック・オーディオ・ストリームを発生するように構成することができる。例えば、発生器１２０は、第１のセグメントの第１のパラメトリック・オーディオ・ストリーム７２５−１を得るために、第１の指向性および拡散性解析ブロック７２０−１を用いて第１のセグメントのセグメントマイクロフォン信号７１５−１に対する空間解析を実行し、かつ第１のセグメントのセグメントマイクロフォン信号７１５−１から第１の成分（例えば、セグメントオーディオ信号Ｗ₁）を抽出するように構成することができる。さらに、発生器１２０は、第２のセグメントの第２のパラメトリック・オーディオ・ストリーム７２５−２を得るために、第２の指向性および拡散性解析ブロック７２０−２を用いて第２のセグメントのセグメントマイクロフォン信号７１５−２に対する空間解析を実行し、かつ第２のセグメントのセグメントマイクロフォン信号７１５−２から第２の成分（例えば、セグメントオーディオ信号Ｗ₂）を抽出するように構成することができる。例えば、第１のセグメントの第１のパラメトリック・オーディオ・ストリーム７２５−１は、抽出された第１の成分Ｗ₁だけでなく第１の到来方向（ＤＯＡ）パラメータθ₁および第１の拡散性パラメータΨ₁も含む、第１のセグメントのパラメトリック空間情報を含むことができ、一方で、第２のセグメントの第２のパラメトリック・オーディオ・ストリーム７２５−２は、抽出された第２の成分Ｗ₂だけでなく第２の到来方向（ＤＯＡ）パラメータθ₂および第２の拡散性パラメータΨ₂も含む、第２のセグメントのパラメトリック空間情報を含むことができる。装置１００の実施形態は、複数のパラメトリック・オーディオ・ストリーム１２５を送信するように構成することができる。

図８の略図８００にも示されているように、複数のラウドスピーカ信号５２５を発生するための装置５００の実施形態は、装置１００の実施形態から送信される複数のパラメトリック・オーディオ・ストリーム１２５を受信するように構成することができる。図８の略図８００において、レンダラ５１０は、第１のレンダリングユニット７３０−１と、第２のレンダリングユニット７３０−２とを備えている。例えば、第１のレンダリングユニット７３０−１は、第１の乗算器８０２と第２の乗算器８０４とを備えている。第１のレンダリングユニット７３０−１の第１の乗算器８０２は、第１のレンダリングユニット７３０−１によって直接音サブストリーム８１０を得るために、第１のセグメントの第１のパラメトリック・オーディオ・ストリーム７２５−１のセグメントオーディオ信号Ｗ₁へ第１の重み係数８０３

を印加するように構成することができ、一方で、第１のレンダリングユニット７３０−１の第２の乗算器８０４は、第１のレンダリングユニット７３０−１によって拡散サブストリーム８１２を得るために、第１のセグメントの第１のパラメトリック・オーディオ・ストリーム７２５−１のセグメントオーディオ信号Ｗ₁へ第２の重み係数８０５

を印加するように構成することができる。さらに、第２のレンダリングユニット７３０−２は、第１の乗算器８０６と第２の乗算器８０８とを備えることができる。例えば、第２のレンダリングユニット７３０−２の第１の乗算器８０６は、第２のレンダリングユニット７３０−２によって直接音ストリーム８１４を得るために、第２のセグメントの第２のパラメトリック・オーディオ・ストリーム７２５−２のセグメントオーディオ信号Ｗ₂へ第１の重み係数８０７

を印加するように構成することができ、一方で、第２のレンダリングユニット７３０−２の第２の乗算器８０８は、第２のレンダリングユニット７３０−２によって拡散サブストリーム８１６を得るために、第２のセグメントの第２のパラメトリック・オーディオ・ストリーム７２５−２のセグメントオーディオ信号Ｗ₂へ第２の重み係数８０９

を印加するように構成することができる。実施形態において、第１および第２のレンダリングユニット７３０−１、７３０−２の第１および第２の重み係数８０３、８０５、８０７、８０９は、対応する拡散性パラメータΨ_iから導出される。実施形態によれば、第１のレンダリングユニット７３０−１は利得係数乗算器８１１と脱相関処理ブロック８１３と結合ユニット８３２とを備えることができ、第２のレンダリングユニット７３０−２は利得係数乗算器８１５と脱相関処理ブロック８１７と結合ユニット８３４とを備えることができる。例えば、第１のレンダリングユニット７３０−１の利得係数乗算器８１１は、ブロック８２２によるベクトルベース振幅パンニング（ＶＢＡＰ：vector base amplitude panning）演算から得られる利得係数を、第１のレンダリングユニット７３０−１の第１の乗算器８０２により出力される直接音サブストリーム８１０へ印加するように構成することができる。さらに、第１のレンダリングユニット７３０−１の脱相関処理ブロック８１３は、脱相関／利得演算を、第１のレンダリングユニット７３０−１の第２の乗算器８０４の出力における拡散サブストリーム８１２へ適用するように構成することができる。さらに、第１のレンダリングユニット７３０−１の結合ユニット８３２は、第１のセグメントのセグメントラウドスピーカ信号７３５−１を得るために、利得係数乗算器８１１から得られる信号と脱相関処理ブロック８１３から得られる信号を結合するように構成することができる。例えば、第２のレンダリングユニット７３０−２の利得係数乗算器８１５は、ブロック８２４によるベクトルベース振幅パンニング（ＶＢＡＰ）演算から得られる利得係数を、第２のレンダリングユニット７３０−２の第１の乗算器８０６により出力される直接音サブストリーム８１４へ印加するように構成することができる。さらに、第２のレンダリングユニット７３０−２の脱相関処理ブロック８１７は、脱相関／利得演算を、第２のレンダリングユニット７３０−２の第２の乗算器８０８の出力における拡散サブストリーム８１６へ適用するように構成することができる。さらに、第２のレンダリングユニット７３０−２の結合ユニット８３４は、第２のセグメントのセグメントラウドスピーカ信号７３５−２を得るために、利得係数乗算器８１５から得られる信号と脱相関処理ブロック８１７から得られる信号を結合するように構成することができる。

実施形態において、第１および第２のレンダリングユニット７３０−１、７３０−２のブロック８２２、８２４によるベクトルベース振幅パンニング（ＶＢＡＰ）演算は、対応する到来方向（ＤＯＡ）パラメータθ_iに依存する。図８に好適な例として描かれているように、コンバイナ５２０は、複数のラウドスピーカ信号５２５（例えば、Ｌ₁、Ｌ₂、…）を得るために、入力セグメントラウドスピーカ信号５１５を結合するように構成することができる。図８に好適な例として描かれているように、コンバイナ５２０は、第１の合計ユニット８４２と、第２の合計ユニット８４４とを備えることができる。例えば、第１の合計ユニット８４２は、第１のラウドスピーカ信号８４３を得るために、第１のセグメントのセグメントラウドスピーカ信号７３５−１のうちの第１のものと、第２のセグメントのセグメントラウドスピーカ信号７３５−２のうちの第１のものとを合計するように構成される。さらに、第２の合計ユニット８４４は、第２のラウドスピーカ信号８４５を得るために、第１のセグメントのセグメントラウドスピーカ信号７３５−１のうちの第２のものと、第２のセグメントのセグメントラウドスピーカ信号７３５−２のうちの第２のものとを合計するように構成することができる。第１および第２のラウドスピーカ信号８４３、８４５は、複数のラウドスピーカ信号５２５を構成することができる。図８の実施形態を参照すると、セグメント毎に、潜在的には、全ての再生ラウドスピーカのラウドスピーカ信号を発生することができる点は留意されるべきである。

図９は、パラメトリック信号表現領域における信号変更を含む、録音空間の２つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図９００である。図９の略図９００におけるラウドスピーカ信号の計算例は、図７の略図７００におけるラウドスピーカ信号の計算例に本質的に対応している。しかしながら、図９の略図９００におけるラウドスピーカ信号の計算例は、追加的な信号変更を含む。

図９の略図９００において、装置１００は、セグメンタ１１０と、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）を得るための発生器１２０とを備えている。さらに、装置５００は、レンダラ５１０と、複数のラウドスピーカ信号５２５を得るためのコンバイナ５２０とを備えている。

例えば、装置１００は、さらに、パラメトリック信号表現領域における複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）を変更するための変更器９１０を備えることができる。さらに、変更器９１０は、パラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）のうちの少なくとも１つを、対応する変更制御パラメータ９０５を用いて変更するように構成することができる。この方法では、第１のセグメントの第１の変更されたパラメトリック・オーディオ・ストリーム９１６、および第２のセグメントの第２の変更されたパラメトリック・オーディオ・ストリーム９１８を得ることができる。第１および第２の変更されたパラメトリック・オーディオ・ストリーム９１６、９１８は、複数の変更されたパラメトリック・オーディオ・ストリーム９１５を構成することができる。実施形態において、装置１００は、複数の変更されたパラメトリック・オーディオ・ストリーム９１５を送信するように構成することができる。さらに、装置５００は、装置１００から送信される複数の変更されたパラメトリック・オーディオ・ストリーム９１５を受信するように構成することができる。

図９によるラウドスピーカ信号の計算例を用いることにより、より柔軟性のある空間オーディオ録音再生シーンを達成することができる。具体的には、パラメトリック領域において変更を適用すると、より高い品質の出力信号を得ることができる。複数のパラメトリックオーディオ表現（ストリーム）を発生する前に入力信号をセグメント化することにより、捕捉される音場の異なる成分の異なる処理をよりよく可能にする、より高い空間選択性が得られる。

図１０は、図１による複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）を発生するための装置１００の実施形態のセグメンタ１１０によって生成される入力セグメントオーディオ信号１１５（例えば、Ｗ_i，Ｘ_i，Ｙ_i）の極パターン例を示す略図１０００である。図１０の略図１０００では、入力セグメントオーディオ信号例１１５が二次元（２Ｄ）平面の個々の極座標系において視覚化されている。同様に、入力セグメントオーディオ信号例１１５は、三次元（３Ｄ）空間の個々の球座標系において視覚化することができる。図１０の略図１０００は、第１の入力セグメントオーディオ信号（例えば、全方向性信号Ｗ_i）の第１の指向性応答１０１０、第２の入力セグメントオーディオ信号（例えば、第１の指向性信号Ｘ_i）の第２の指向性応答１０２０および第３の入力セグメントオーディオ信号（例えば、第２の指向性信号Ｙ_i）の第３の指向性応答１０３０を好適な例として描いている。さらに、図１０の略図１０００には、第２の指向性応答１０２０とは反対の符号を有する第４の指向性応答１０２２、および第３の指向性応答１０３０とは反対の符号を有する第５の指向性応答１０３２が好適な例として描かれている。したがって、異なる指向性応答１０１０、１０２０、１０３０、１０２２、１０３２（極パターン）は、セグメンタ１１０により、入力セグメントオーディオ信号１１５用に使用することができる。ここで、入力セグメントオーディオ信号１１５は、時間および周波数に依存することができること、即ちＷ_i＝Ｗ_i（ｍ，ｋ）、Ｘ_i＝Ｘ_i（ｍ，ｋ）およびＹ_i＝Ｙ_i（ｍ，ｋ）であることを指摘しておく。但し、（ｍ，ｋ）は、空間オーディオ信号表現における時間−周波数タイルを示す指数である。

これに関連して、図１０は、入力信号の単一集合、即ち１つのセクタｉの信号１１５（例えば、［Ｗ_i，Ｘ_i，Ｙ_i］）の極線図を好適な例として描いていることは留意されるべきである。さらに、極線図プロットの正の部分と負の部分は、各々合わせて１つの信号の極線図を表す（例えば、部分１０２０と部分１０２２は合わせて信号Ｘ_iの極線図を示し、部分１０３０と部分１０３２は合わせて信号Ｙ_iの極線図を示す）。

図１１は、音場録音を実行するためのマイクロフォン構成例１１１０を示す略図１１００である。図１１の略図１１００において、マイクロフォン構成１１１０は、指向性マイクロフォンの複数の線形アレイ１１１２、１１１４、１１１６を備えることができる。図１１の略図１１００は、二次元（２Ｄ）観測空間を如何にして録音空間の異なるセグメントまたはセクタ１１０１、１１０２、１１０３（例えば、Ｓｅｇ_i、ｉ＝１，２，３）に分割できるかを好適な例として描いている。ここで、図１１のセグメント１１０１、１１０２、１１０３は、図６に好適な例として描かれているセグメントＳｅｇ_iに対応させることができる。同様に、マイクロフォン構成例１１１０は、三次元（３Ｄ）観測空間において使用することもでき、三次元（３Ｄ）観測空間は、所定のマイクロフォン構成用のセグメントまたはセクタに分割することができる。実施形態において、図１１の略図１１００におけるマイクロフォン構成例１１１０は、図１による装置１００の実施形態のための入力空間オーディオ信号１０５を生成するために使用することができる。例えば、マイクロフォン構成１１１０の指向性マイクロフォンの複数の線形アレイ１１１２、１１１４、１１１６は、入力空間オーディオ信号１０５用に異なる指向性信号を生成するように構成することができる。図１１のマイクロフォン構成例１１１０の使用により、音場のセグメントベース（またはセクタベース）のパラメトリックモデルを用いて空間オーディオの録音品質を最適化することができる。

先の実施形態において、装置１００および装置５００は、時間−周波数領域において動作するように構成することができる。

要約すれば、本発明の実施形態は、空間オーディオの高品質な録音と再生の分野に関する。音場のセグメントベースまたはセクタベースのパラメトリックモデルの使用は、複雑な空間オーディオシーンを比較的コンパクトなマイクロフォン構成で録音することも可能にする。現在の最新技術方法が想定する音場の単純なグローバルモデルとは対照的に、観測空間全体が分割される幾つかのセグメントに関して、パラメトリック情報を決定することができる。したがって、パラメトリック情報ならびに録音されたオーディオチャネルに基づいて、ほぼ任意のラウドスピーカ構成の演奏を実行することができる。

実施形態によれば、平坦な二次元（２Ｄ）音場録音の場合、目的の方位角範囲全体を、低減された方位角範囲にわたる複数のセクタまたはセグメントに分割することができる。同様に、３Ｄ事例においても、立体角範囲全体（方位角および仰角）を、より小さい角度範囲にわたるセクタまたはセグメントに分割することができる。異なるセクタまたはセグメントは、部分的に重なり合ってもよい。

実施形態によれば、各セクタまたはセグメントは関連の指向性尺度によって特徴づけられ、指向性尺度は対応するセクタまたはセグメントを明示または参照するために使用することができる。指向性尺度は、例えば、セクタまたはセグメントの中心に向かう（または中心からの）ベクトル、または２Ｄ事例では方位角、または３Ｄ事例では方位角および仰角の集合、であることができる。セグメントまたはセクタは、２Ｄ平面内または３Ｄ空間内双方の方向の部分集合と称することができる。表現を簡単にするために、これまでの例は、２Ｄ事例に関して好適な例として記述されているが、３Ｄ構成への拡大適用は容易である。

図６を参照すると、指向性尺度は、セグメントＳｅｇ₃の場合、原点、即ち座標の中心（０，０）から右へ、即ち極線図における座標（１，０）へ向かうベクトルとして定義することができ、または、図６において角度がｘ軸（水平軸）から（またはｘ軸を基準にして）計数されていれば、方位角０゜として定義することができる。

図１の実施形態を参照すると、装置１００は、入力として幾つかのマイクロフォン信号（入力空間オーディオ信号１０５）を受信するように構成することができる。これらのマイクロフォン信号は、例えば、実際の録音から結果的に生じるもの、または仮想環境においてシミュレートされた録音により人工的に発生されるもの、の何れかであることが可能である。これらのマイクロフォン信号から対応するセグメントマイクロフォン信号（入力セグメントオーディオ信号１１５）を決定することができ、セグメントマイクロフォン信号は対応するセグメント（Ｓｅｇ_i）に関連づけられる。セグメントマイクロフォン信号は固有の特性を特徴とする。それらのセグメントマイクロフォン信号の指向性ピックアップパターンは、関連の角度セクタ内で、このセクタの外の感度よりも著しく増大された感度を示すことができる。３６０゜の方位角範囲全体のセグメント化の例と、関連のセグメントマイクロフォン信号のピックアップパターンについては、図６を参照して示されている。図６の例において、セクタに関連づけられたマイクロフォンの指向性は、対応するセクタにより包含される角度範囲に従って回転される心臓型パターンを示す。例えば、０゜に向かうセクタ３（Ｓｅｇ₃）に関連づけられたマイクロフォンの指向性は、同じく０゜に向かう。ここで留意すべきことは、図６の極線図において、最大感度の方向は描かれた曲線の半径が最大を含む方向であるということである。したがって、Ｓｅｇ₃は、右から到来する音成分に対して最も高い感度を有する。言い替えれば、セグメントＳｅｇ₃は、（角度がｘ軸から計数されるものとすれば）方位角０゜にその好ましい方向を有する。

実施形態によれば、各セクタについて、ＤＯＡパラメータ（θ_i）をセクタベースの拡散性パラメータ（Ψ_i）と共に決定することができる。簡単に実現する場合は、拡散性パラメータ（Ψ_i）は全てのセクタで同じとすることができる。原則的には、あらゆるＤＯＡ推定アルゴリズムを（例えば、発生器１２０により）適用することができる。例えば、ＤＯＡパラメータ（θ_i）は、考慮されるセクタ内で大部分の音響エネルギーが進行する反対方向を反映するように解釈することができる。したがって、セクタベースの拡散性は、拡散性の音響エネルギーと、考慮されるセクタ内の合計音響エネルギーとの割合に関連する。留意すべきことは、パラメータ推定（発生器１２０により実行されるもの等）が、時変的に、かつ周波数帯域毎に個々に実行可能であるということである。

実施形態によれば、セクタ毎に、指向性オーディオストリーム（パラメトリック・オーディオ・ストリーム）が、主としてそのセクタにより表される角度範囲内の音場の空間オーディオ特性を記述するセグメントマイクロフォン信号（Ｗ_i）およびセクタベースのＤＯＡおよび拡散性パラメータ（θ_i，Ψ_i）を包含して構成することができる。例えば、再生用のラウドスピーカ信号５２５は、パラメトリックな指向性情報（θ_i，Ψ_i）および１つまたは複数のセグメントマイクロフォン信号１２５（例えば、Ｗ_i）を用いて決定することができる。これにより、セグメント毎に、セグメントラウドスピーカ信号５１５の集合を決定することができ、これは、次に、再生用の最終的なラウドスピーカ信号５２５を形成するために、コンバイナ５２０等（例えば、合計またはミキシング）によって結合することができる。セクタ内の直接音成分は、例えば、（V. Pulkki著「Virtual sound source positioning using Vector Base Amplitude Panning」, J. Audio Eng. Soc., Vol. 45, pp. 456-466, 1997（非特許文献２）に記述されているように）ベクトルベース振幅パンニング例を適用することにより、ポイント状ソースとして演奏することができるのに対して、拡散音は幾つかのラウドスピーカから同時に再生することができる。

図７におけるブロック図は、２つのセクタの事例に関して先に述べたようなラウドスピーカ信号５２５の計算を示している。図７において、太字の矢印はオーディオ信号を表すのに対して、細字の矢印はパラメトリック信号または制御信号を表す。図７には、セグメンタ１１０によるセグメントマイクロフォン信号１１５の発生、（例えば、発生器１２０による）セクタ毎のパラメトリック空間信号解析（ブロック７２０−１、７２０−１）の適用、レンダラ５１０によるセグメントラウドスピーカ信号５１５の発生、およびコンバイナ５２０によるセグメントラウドスピーカ信号５１５の結合が略示されている。

実施形態において、セグメンタ１１０は、マイクロフォン入力信号１０５の集合からのセグメントマイクロフォン信号１１５の発生を実行するように構成することができる。さらに、発生器１２０は、セクタ毎にパラメトリック・オーディオ・ストリーム７２５−１、７２５−２が得られるように、セクタ毎にパラメトリック空間信号解析の適用を実行するように構成することができる。例えば、パラメトリック・オーディオ・ストリーム７２５−１、７２５−２は各々、関連するパラメトリック情報（例えば、各々ＤＯＡパラメータθ₁、θ₂および拡散性パラメータΨ₁、Ψ₂）だけでなく、少なくとも１つのセグメントオーディオ信号（例えば、各々Ｗ₁、Ｗ₂）からもなるものとすることができる。レンダラ５１０は、特定のセクタについて発生されたパラメトリック・オーディオ・ストリーム７２５−１、７２５−２に基づいて、セクタ毎にセグメントラウドスピーカ信号５１５の発生を実行するように構成することができる。コンバイナ５２０は、最終的なラウドスピーカ信号５２５を得るために、セグメントラウドスピーカ信号５１５の結合を実行するように構成することができる。

図８におけるブロック図は、二次Ｂフォーマットマイクロフォン信号の適用例として示される２セクタ事例の場合のラウドスピーカ信号５２５の計算を示す。図８の実施形態に示されているように、２つ（２集合）のセグメントマイクロフォン信号７１５−１（例えば、［Ｗ₁，Ｘ₁，Ｙ₁］）および７１５−２（例えば、［Ｗ₂，Ｘ₂，Ｙ₂］）は、先に述べたように、マイクロフォン入力信号１０５の集合から（例えば、ブロック１１０による）ミキシングまたはマトリクシング演算によって発生させることができる。２つのセグメントマイクロフォン信号の各々について、（例えば、ブロック７２０−１、７２０−２により）指向性オーディオ解析を実行することができ、第１のセクタおよび第２のセクタについて各々、指向性オーディオストリーム７２５−１（例えば、θ₁、Ψ₁、Ｗ₁）および７２５−２（例えば、θ₂、Ψ₂、Ｗ₂）が生じる。

図８において、セグメントラウドスピーカ信号５１５は、次のようにして、セクタ毎に別々に発生させることができる。セグメントオーディオ成分Ｗ_iは、拡散性パラメータΨ_iから導出される乗数８０３、８０５、８０７、８０９による重み付けによって、２つの相補的なサブストリーム８１０、８１２、８１４、８１６に分割することができる。一方のサブストリームは主として直接音成分を伝送することができるのに対して、もう一方のサブストリームは主として拡散音成分を伝送することができる。直接音のサブストリーム８１０、８１４はＤＯＡパラメータθ_iにより決定されるパンニング利得８１１、８１５を用いて表現することができるのに対して、拡散サブストリーム８１２、８１６は脱相関処理ブロック８１３、８１７を用いて非コヒーレントに表現することができる。

最終ステップ例として、セグメントラウドスピーカ信号５１５は、ラウドスピーカ再生用の最終的な出力信号５２５を得るために、（例えば、ブロック５２０により）結合することができる。

図９の実施形態を参照すると、特筆すべきは、（パラメトリック・オーディオ・ストリーム１２５内の）推定されるパラメータも、再生用の実際のラウドスピーカ信号５２５が決定される前に（例えば、変更器９１０によって）変更できることである。例えば、ＤＯＡパラメータθ_iは、音響シーンの操作を達成するために再マッピングすることができる。他の事例において、所定のセクタのオーディオ信号（例えば、Ｗ_i）は、これらのセクタに包含される所定の方向または全方向から到来する音が望まれなければ、ラウドスピーカ信号５２５を計算する前に減衰させることができる。同様に、主として、または直接音のみが演奏される場合には、拡散音成分を減衰させることができる。図９には、パラメトリック・オーディオ・ストリーム１２５の変更９１０を含むこの処理が、２つのセグメントへのセグメント化の例に関連して好適な例として示されている。

以下、先の実施形態で実行された例示的な２Ｄ事例におけるセクタベースパラメータ推定の一実施形態について述べる。捕捉用に使用されるマイクロフォン信号は、所謂二次Ｂフォーマット信号に変換可能であるものとする。二次Ｂフォーマット信号は、対応するマイクロフォンの指向性パターンの形状によって記述することができる。
ｂ_W（α）＝１（２）
ｂ_X（α）＝ｃｏｓ（α）（３）
ｂ_Y（α）＝ｓｉｎ（α）（４）
ｂ_U（α）＝ｃｏｓ（２α）（５）
ｂ_V（α）＝ｓｉｎ（２α）（６）
ここで、αは方位角を示す。対応するＢフォーマット信号（例えば、図８の入力１０５）は、Ｗ（ｍ，ｋ）、Ｘ（ｍ，ｋ）、Ｙ（ｍ，ｋ）、Ｕ（ｍ，ｋ）およびＶ（ｍ，ｋ）で示され、ｍおよびｋは各々、時間および周波数指数を表す。ここで、ｉ番目のセクタに関連づけられたセグメントマイクロフォン信号は、指向性パターンｑ_i（α）を有するものとする。よって次には（例えば、ブロック１１０によって）、次式で表すことができる指向性パターンを有する追加的なマイクロフォン信号１１５、Ｗ_i（ｍ，ｋ）、Ｘ_i（ｍ，ｋ）、Ｙ_i（ｍ，ｋ）を決定することができる。
ｂ_Wi（α）＝ｑ_i（α）（７）
ｂ_Xi（α）＝ｑ_i（α）ｃｏｓ（α）（８）
ｂ_Yi（α）＝ｑ_i（α）ｓｉｎ（α）（９）

図１０には、例示的な心臓型パターン事例、ｑ_i（α）＝０．５＋０．５ｃｏｓ（α＋Θ_i）における記述するマイクロフォン信号の指向性パターン例が幾つか示されている。ｉ番目のセクタの好ましい方向は方位角Θ_iに依存する。図１０において、破線は、実線で描かれている指向性応答１０２０、１０３０とは反対の符号を有する指向性応答１０２２、１０３２（極パターン）を示す。

例示的なΘ_i＝０の事例の場合、信号Ｗ_i（ｍ，ｋ）、Ｘ_i（ｍ，ｋ）、Ｙ_i（ｍ，ｋ）は、次式に従って、二次Ｂフォーマット信号から、入力成分Ｗ、Ｘ、Ｙ、Ｕ、Ｖをミキシングして決定することができる点に留意されたい。
Ｗ_i（ｍ，ｋ）＝０.５Ｗ（ｍ，ｋ）＋０.５Ｘ（ｍ，ｋ）（１０）
Ｘ_i（ｍ，ｋ）＝０.２５Ｗ（ｍ，ｋ）＋０.５Ｘ（ｍ，ｋ）＋０.２５Ｕ（ｍ，ｋ）（１１）
Ｙ_i（ｍ，ｋ）＝０.５Ｙ（ｍ，ｋ）＋０.２５Ｖ（ｍ，ｋ）（１２）

このミキシング演算は、例えば図２においては、構成ブロック１１０において実行される。ｑ_i（α）の選択肢を変えると、二次Ｂフォーマット信号から成分Ｗ_i、Ｘ_i、Ｙ_iを得るミキシングルールも変わることに留意されたい。

セグメントマイクロフォン信号１１５、Ｗ_i（ｍ，ｋ）、Ｘ_i（ｍ，ｋ）、Ｙ_i（ｍ，ｋ）からは、次に、（例えば、ブロック１２０により）セクタベースのアクティブな強度ベクトル、

を計算することによって、ｉ番目のセクタに関連づけられたＤＯＡパラメータθ_iを決定することができる。ここで、Ｒｅ｛Ａ｝は複素数Ａの実数部を示し、＊は複素共役を示す。さらに、ρ₀は空気の密度であり、ｃは音速である。例えば単位ベクトルｅ_i（ｍ、ｋ）によって表される望ましいＤＯＡ推定θ_i（ｍ、ｋ）は、次式によって得ることができる。

さらに、セクタベースの音場エネルギー関連量も決定することができる。

次には、ｉ番目のセクタの望ましい拡散性パラメータΨ_i（ｍ，ｋ）を次式によって決定することができる。

ここで、ｇは適切なスケーリング係数を示し、Ｅ｛｝は期待値演算子であり、|| || はベクトルノルムを示す。拡散性パラメータΨ_i（ｍ，ｋ）は、平面波のみが存在し、かつこれが純粋な拡散音場の場合における値以下の正の値をとれば、ゼロであることが分かる。一般に、類似の挙動を示す拡散性、即ち直接音のみに対して０を与え、かつ完全な拡散音場に対して１に近似する拡散性に対しては、代替のマッピング関数を定義することができる。

図１１の実施形態を参照すると、異なるマイクロフォン構成に対しては、パラメータ推定の代替の実現を用いることができる。図１１に好適な例として示されているように、指向性マイクロフォンの複数の線形アレイ１１１２、１１１４、１１１６が使用可能である。図１１は、また、与えられたマイクロフォン構成に関して、２Ｄ観測空間をどのようにセクタ１１０１、１１０２、１１０３に分割し得るかの一例も示している。セグメントマイクロフォン信号１１５は、線形マイクロフォンアレイ１１１２、１１１４、１１１６の各々に適用されるフィルタ・アンド・サム・ビームフォーミング（filter and sum beam forming）等のビーム形成技術によって決定することができる。また、ビーム形成は省略してもよく、即ち、セクタ（Ｓｅｇ_i）毎に望ましい空間選択性を示す指向性マイクロフォンの指向性パターンを、セグメントマイクロフォン信号１１５を得るための唯一の手段として使用することができる。各セクタ内のＤＯＡパラメータθ_iは、（R. Roy, T. Kailath共著「ESPRIT-estimation of signal parameters via rotational invariance techniques」, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 37, no. 7, pp. 984995, July 1989（非特許文献３）に記述されているような）「ＥＳＰＲＩＴ」アルゴリズム等の一般的な推定技術を用いて推定することができる。各セクタの拡散性パラメータΨ_iは、例えば、（Ｊ. Ahonen, V. Pulkki共著「Diffuseness estimation using temporal variation of intensity vectors」, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2009. WAS-PAA '09. , pp. 285-288, 18-21 Oct. 2009（非特許文献４）に記述されているように）ＤＯＡ推定の時間的変動を評価することによって決定することができる。または、（O. Thiergart, G. Del Galdo, E. A. P. Habets共著「Signal-to-reverberant ratio estimation based on the complex spatial coherence between omnidirectional microphons」, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2012, pp. 309-312, 25-30 March 2012（非特許文献５）に記述されているような）異なるマイクロフォンと直接音対拡散音比との間のコヒーレンスの既知の関係を用いることができる。

図１２は、高次マイクロフォン信号（例えば、入力空間オーディオ信号１０５）を得るための、全方向性マイクロフォンの円形アレイ例１２１０の略図１２００を示す。図１２の略図１２００において、全方向性マイクロフォンの円形アレイ１２１０は、例えば、極線図における円（破線）に沿って等距離に配置された５つのマイクロフォンを備えている。実施形態において、全方向性マイクロフォンの円形アレイ１２１０は、後述するように、より高次（ＨＯ：higher order）のマイクロフォン信号を得るために使用することができる。（全方向性マイクロフォン１２１０により生成される）全方向性のマイクロフォン信号から例示的な二次マイクロフォン信号ＵおよびＶを計算するためには、少なくとも５つの独立したマイクロフォン信号が使用されるべきである。これは、例えば、図１２に好適な例として示されているもののような一様円形アレイ（ＵＣＡ：Uniform Circular Array）を用いて見事に達成することができる。所定の時間および周波数においてマイクロフォン信号から得られるベクトルは、例えば、ＤＦＴ（離散型フーリエ変換：Discrete Fourier transform）により変換することができる。次に、マイクロフォン信号Ｗ、Ｘ、Ｙ、ＵおよびＶ（即ち、入力空間オーディオ信号１０５）は、ＤＦＴ係数の線形結合によって得ることができる。ＤＦＴ係数は、マイクロフォン信号のベクトルから計算されるフーリエ級数の係数を表すことに留意されたい。

を、指向性パターン、

により定義される一般化されたｍ次マイクロフォン信号を示すものとする。但し、αは、

であるような方位角を示す。

すると、次式が証明され得る。

但し、

ここで、ｊは虚数単位、ｋは波数、ｒおよびφは極座標系を定義する半径および方位角、Ｊ_m（・）は第一種のｍ次ベッセル関数、

は極座標（ｒ、φ）上で測定される圧力信号のフーリエ級数の係数である。

アレイの設計および（高次の）Ｂ−フォーマット信号の計算実装に際しては、ベッセル関数の数値特性に起因する過剰な雑音増幅を回避するように注意しなければならないことに留意されたい。

記述している信号変換に関連する数学的背景および導出は、例えば、A. Kuntz著「Wave field analysis using virtual circular microphone arrays」, Dr. Hut, 2009, ISBN: 978-3-86853-006-3（非特許文献６）に記載されている。

本発明のさらなる実施形態は、録音空間内での録音から得られる入力空間オーディオ信号１０５から複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）を発生するための方法に関する。例えば、入力空間オーディオ信号１０５は、全方向性信号Ｗおよび複数の異なる指向性信号Ｘ、Ｙ、Ｚ、Ｕ、Ｖを含む。本方法は、入力空間オーディオ信号１０５（例えば、全方向性信号Ｗおよび複数の異なる指向性信号Ｘ、Ｙ、Ｚ、Ｕ、Ｖ）から、少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）を生成することを含み、前記少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）は録音空間の対応するセグメントＳｅｇ_iに関連づけられる。さらに、本方法は、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）を得るために、少なくとも２つの入力セグメントオーディオ信号１１５（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の各々についてパラメトリック・オーディオ・ストリームを発生することを含む。

本発明のさらなる実施形態は、録音空間内で録音された入力空間オーディオ信号１０５から導出される複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）から複数のラウドスピーカ信号５２５（Ｌ₁，Ｌ₂，…）を発生するための方法に関する。本方法は、複数のパラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）から複数の入力セグメントラウドスピーカ信号５１５を生成することを含み、入力セグメントラウドスピーカ信号５１５は録音空間の対応するセグメントＳｅｇ_iに関連づけられる。さらに、本方法は、複数のラウドスピーカ信号５２５（Ｌ₁，Ｌ₂，…）を得るために、入力セグメントラウドスピーカ信号５１５を結合することを含む。

本発明はブロックが実際または論理上のハードウェアコンポーネントを表すブロック図で記述されているが、本発明はコンピュータ実装方法によっても実装することができる。後者の場合、ブロックは対応する方法ステップを表し、これらのステップは対応する論理的または物理的なハードウェアブロックにより実行される機能を表す。

記述されている実施形態は、本発明の原理を単に例示したものである。当業者である他の者には、本明細書に記述されている配置および詳細の変更および変形が明らかであることが理解されよう。よって、本発明は、添付の特許請求の範囲によってのみ限定されるべきものであり、本明細書における実施形態を記述しかつ説明するものとして提示された特有の詳細によって限定されないことが意図されている。

一部の態様は、装置に関して記述されているが、これらの態様が対応する方法の説明でもあることは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップに関して記述されている態様は、対応する装置の対応するブロック、部材または特徴の説明でもある。方法ステップの幾つかまたは全ては、ハードウェア装置、例えばマイクロプロセッサ、プログラマブルコンピュータまたは電子回路などによって（またはハードウェア装置を用いて）実行することができる。実施形態によっては、最も重要な方法ステップのうちの何れか１つまたはそれ以上がこのような装置によって実行することができる。

パラメトリック・オーディオ・ストリーム１２５（θ_i，Ψ_i，Ｗ_i）は、デジタル記憶媒体に格納することができ、または、無線伝送媒体もしくはインターネットのような有線伝送媒体等の伝送媒体で伝送することができる。

所定の実装要件に依存して、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実装することができる。その実装は、電子的に読み出し可能な制御信号を記憶し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）デジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを用いて実行することができる。したがって、デジタル記憶媒体は、コンピュータ読取り可能とすることができる。

本発明による一部の実施形態は、本明細書に記述されている方法のうちの１つが実行されるように、プログラマブル・コンピュータ・システムと協働できる電子的に読取り可能な制御信号を有するデータキャリアを含む。

概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとして実装することができ、そのプログラムコードは、このコンピュータ・プログラム・プロダクトがコンピュータ上で実行されると方法のうちの１つを実行するように動作する。そのプログラムコードは、例えば、機械読取り可能なキャリアに格納することができる。

他の実施形態は、機械読取り可能キャリア上に格納されて、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを含む。

したがって、言い替えれば、本発明の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述されている方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを記録したデータキャリア（または、デジタル記憶媒体またはコンピュータ読取り可能な媒体）である。データキャリア、デジタル記憶媒体または記録用媒体は、典型的には、有形および／または非移行性である。

したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。そのデータストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するように構成または適合化される処理手段、例えばコンピュータまたはプログラマブル論理デバイス、を含む。

さらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。

本発明によるさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを受信機へ（例えば、電子的または光学的に）転送するように構成された装置またはシステムを含む。その受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどとすることができる。その装置またはシステムは、例えば、コンピュータプログラムを受信機へ転送するためのファイルサーバを備えることができる。

実施形態によっては、プログラマブル論理デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を、本明細書に記述されている方法の機能のうちの一部または全てを実行するために使用することができる。実施形態によっては、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述されている方法のうちの１つを実行するために、マイクロプロセッサによって動作することができる。概して、これらの方法は、好ましくはあらゆるハードウェア装置によって実行される。

本発明の実施形態は、単純かつコンパクトなマイクロフォン構成を用いて、高品質でリアルな空間音響の録音と再生を提供する。

本発明の実施形態は、（２０１０年８月３１日付けのT. Lokki, J. Merimaa, V. Pulkkiによる「Method for Reproducing Natural or Modified Spatial Impression in Multichannel Listening」と題する米国特許第７,７８７,６３８Ｂ２号明細書（特許文献１）、およびV. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007（非特許文献１）に記述されているような）方向オーディオコーディング（ＤｉｒＡＣ）に基づいており、ＤｉｒＡＣは異なるマイクロフォンシステムで、かつ任意のラウドスピーカ配置で使用することができる。ＤｉｒＡＣの利点は、マルチチャネル・ラウドスピーカ・システムを用いて、既存の音響環境の空間印象を可能な限り正確に再生することにある。選ばれた環境内部において、レスポンス（連続音またはインパルス応答）は、全方向性マイクロフォン（Ｗ）と、音の到来方向（ＤＯＡ）と音の拡散性を測定できるようにするマイクロフォンセットとで測定することができる。可能な一方法は、対応するデカルト座標軸に沿って配列された３つの８字形マイクロフォン（Ｘ、Ｙ、Ｚ）を適用することである。これを行うための一方法は「サウンドフィールド（SoundField）」マイクロフォンを用いることであり、サウンドフィールドマイクロフォンは望ましい全てのレスポンスを直接に生み出す。全方向性マイクロフォンの信号は音圧を表すのに対して、双極子信号は粒子速度ベクトルの対応要素に比例する点に留意することは興味深い。

これらの信号から、ＤｉｒＡＣパラメータ、即ち音のＤＯＡおよび観測音場の拡散性、を、適切な時間／周波数ラスタにおいて、ヒト聴覚系の分解能に対応する分解能で測定することができる。次に、実際のラウドスピーカ信号を、全方向性マイクロフォン信号から、（V. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007（非特許文献１）に記述されているような）ＤｉｒＡＣパラメータに基づいて決定することができる。直接音成分は、パンニング技術を用いて少数（例えば、１台または２台）のラウドスピーカのみで再生できるのに対して、拡散音成分は全てのラウドスピーカから同時に再生することができる。

ＤｉｒＡＣに基づく本発明の実施形態は、コンパクトなマイクロフォン構成による空間音響録音への単純な手法を表している。特に、本発明は、達成可能な音質および音響体験を従来技術における実施において制限している幾つかの体系的欠点を防止する。

従来のＤｉｒＡＣとは対照的に、本発明の実施形態はより高い品質のパラメトリック空間オーディオ処理を提供する。従来のＤｉｒＡＣは、音場の単純なグローバルモデルに依存していて、観測空間全体で１つのＤＯＡパラメータと１つの拡散性パラメータだけを用いる。これは、音場は、各時間／周波数タイルにつき平面波等の１つの単一直接音成分と１つのグローバルな拡散性パラメータだけで表現することができる、という想定に基づくものである。しかしながら、実際のところ、音場に関するこの簡易な想定は、当てはまらない場合が多いことが分かる。これは、特に、複雑な現実世界の音響において、例えば話者または楽器等の複数の音源が同時に関与している場合にいえることである。一方、本発明の実施形態は、観測される音場とモデルとの不一致を生じさせず、対応するパラメータ推定はより正確である。また、特に直接音成分が拡散的に演奏され、かつラウドスピーカ出力を聴いていて方向を知覚できない場合に、モデルとの不一致が生じることも防止することができる。実施形態では、（V. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007（非特許文献１）に記述されているように）全てのラウドスピーカから再生される無相関な拡散音を発生させるために逆相関器を用いることができる。従来技術では逆相関器によって望ましくない室効果が加わる場合の多いのに対して、本発明では、所定の空間広がりを有する音源をより正確に再生することができる（このような音源を正確に捕捉できないＤｉｒＡＣの単純な音場モデルを用いる場合とは対照的である。）。

本発明の実施形態は、想定される信号モデルにおいてより高値の自由度を提供し、複雑な音響シーンにおいてモデルとの一致を一層よくする。

さらに、セクタを発生するために指向性マイクロフォン（または、他の任意の時不変の線形的な、例えば物理的な手段）を用いる場合には、マイクロフォンの増大された固有の指向性を達成することができる。したがって、漠然とした方向、クロストークおよび着色を回避するために時変利得を適用する必要性は少ない。これにより、オーディオ信号経路における非線形処理が少なくなり、結果として品質が高まる。

概して、直接音成分は、より多くを直接音源（点音源／平面波源）として演奏することができる。結果として、非相関アーティファクトの発生は減少し、より多くの（正確に）局在化可能な事象を知覚することができ、かつより正確な空間再生を達成することができる。

本発明の実施形態は、正確なＤＯＡを関連づけられたより多くの割合の合計信号エネルギーが直接音事象に帰属され、かつより多くの情報が利用可能であることから、（M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuech, D. Mahne, R. Schultz-Amling, O. Thiergart共著「A Spatial Filtering Approach for Directional Audio Coding」, 126th AES Convention, Paper 7653, Munich, Germany, 2009（非特許文献７）において記述されているように）パラメトリック領域、例えば指向性フィルタリング、において、単純なグローバルモデルよりも優れた操作性を提供する。より多い（パラメトリックな）情報を準備することにより、例えば、複数の直接音成分を、または異なる方向から入射する初期反射からの直接音成分をも、分離することができる。

具体的には、実施形態は、次のような特徴を提供する。２Ｄの場合は、全方位角範囲は、低減された方位角範囲にわたるセクタに分割することができる。３Ｄの場合は、全立体角範囲は、低減された立体角範囲にわたるセクタに分割することができる。各セクタは、好ましい角度範囲に関連づけることができる。セクタ毎に、受信されるマイクロフォン信号から、主としてこの特定のセクタに割り当てられかつこの特定のセクタにより包含される方向から到来する音より成るセグメントマイクロフォン信号を決定することができる。また、これらのマイクロフォン信号は、シミュレートされた仮想録音によって人工的に決定することもできる。セクタ毎に、パラメトリックな音場解析を実行して、ＤＯＡおよび拡散性等の方向パラメータを決定することができる。セクタ毎に、パラメトリックな方向情報（ＤＯＡおよび拡散性）は、主として、この特定のセクタに関連づけられた音場の角度範囲の空間特性を記述する。再生の際には、セクタ毎に、ラウドスピーカ信号を方向パラメータおよびセグメントマイクロフォン信号に基づいて決定することができる。次に、全セクタの出力を結合することにより、全体出力が得られる。操作の際には、再生用のラウドスピーカ信号を計算する前に、その音響シーンの操作を達成すべく、推定されたパラメータおよび／またはセグメントオーディオ信号を変更することができる。

Claims

録音空間における録音から得られる入力空間オーディオ信号（１０５）から複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）を発生するための装置（１００）であって、
前記入力空間オーディオ信号（１０５）から少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）を生成するためのセグメンタ（１１０）と、
前記複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）を得るために、前記少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の各々についてパラメトリック・オーディオ・ストリームを発生するための発生器（１２０）と、を備え、
前記少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）は前記録音空間の対応するセグメント（Ｓｅｇ_i）に関連づけられている装置（１００）。
前記録音空間の前記セグメント（Ｓｅｇ_i）は、各々、二次元（２Ｄ）平面内または三次元（３Ｄ）空間内の方向の部分集合を表す請求項１に記載の装置（１００）。
前記録音空間の前記セグメント（Ｓｅｇ_i）は、各々、関連の指向性尺度によって特徴づけられている請求項１または２に記載の装置（１００）。
該装置（１００）は、前記入力空間オーディオ信号（１０５）を得るために、音場録音を実行するように構成され、
前記セグメンタ（１１０）は、目的の全角度範囲を前記録音空間の前記セグメント（Ｓｅｇ_i）に分割するように構成され、
前記録音空間の前記セグメント（Ｓｅｇ_i）は、各々、前記目的の全角度範囲より少ない角度範囲にわたっている請求項１から３のいずれか一項に記載の装置（１００）。
前記入力空間オーディオ信号（１０５）は全方向性信号（Ｗ）および複数の異なる指向性信号（Ｘ，Ｙ，Ｚ，Ｕ，Ｖ）を含む請求項１から４のいずれか一項に記載の装置（１００）。
前記セグメンタ（１１０）は、前記録音空間の前記セグメント（Ｓｅｇ_i）に依存するミキシング演算を用いて、前記全方向性信号（Ｗ）および前記複数の異なる指向性信号（Ｘ，Ｙ，Ｚ，Ｕ，Ｖ）から、前記少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）を発生するように構成されている請求項１から５のいずれか一項に記載の装置（１００）。
前記セグメンタ（１１０）は前記録音空間の前記セグメント（Ｓｅｇ_i）毎の指向性パターン（３０５）（ｑ_i（α））を用いるように構成され、
前記指向性パターン（３０５）（ｑ_i（α））は前記少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の指向性を示す請求項１から６のいずれか一項に記載の装置（１００）。
前記指向性パターン（３０５）（ｑ_i（α））は、
ｑ_i（α）＝ａ＋ｂｃｏｓ（α＋Θ_i）
によって与えられ、
ａおよびｂは望ましい指向性パターン（３０５）（ｑ_i（α））を得るために変更される乗数を示し、
αは方位角を示し、Θは前記録音空間のｉ番目のセグメントの好ましい方向を示す請求項７に記載の装置（１００）。
前記発生器（１２０）は前記複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）を得るように構成され、
前記複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）は各々、前記少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の成分（Ｗ_i）と、対応するパラメトリック空間情報（θ_i，Ψ_i）とを含む請求項１から８のいずれか一項に記載の装置（１００）。
前記発生器（１２０）は、前記対応するパラメトリック空間情報（θ_i，Ψ_i）を得るために、前記少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の各々に対してパラメトリック空間解析を実行するように構成されている請求項９に記載の装置（１００）。
前記パラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）の各々の前記パラメトリック空間情報（θ_i，Ψ_i）は、到来方向（ＤＯＡ）パラメータ（θ_i）および／または拡散性パラメータ（Ψ_i）を含んでいる請求項９または１０に記載の装置（１００）。
パラメトリック信号表現領域における前記複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）を変更するための変更器（９１０）をさらに備え、
前記変更器（９１０）は、前記パラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）のうちの少なくとも１つを、対応する変更制御パラメータ（９０５）を用いて変更するように構成されている請求項１から１１のいずれか一項に記載の装置（１００）。
録音空間において録音された入力空間オーディオ信号（１０５）から導出される複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）から複数のラウドスピーカ信号（５２５）（Ｌ₁，Ｌ₂，…）を発生するための装置（５００）であって、
前記複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）から複数の入力セグメントラウドスピーカ信号（５１５）を生成するためのレンダラ（５１０）と、
前記複数のラウドスピーカ信号（５２５）（Ｌ₁，Ｌ₂，…）を得るために、前記入力セグメントラウドスピーカ信号（５１５）を結合するためのコンバイナ（５２０）と、を備え、
前記入力セグメントラウドスピーカ信号（５１５）は前記録音空間の対応するセグメント（Ｓｅｇ_i）に関連づけられている装置（５００）。
前記レンダラ（５１０）は前記複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）を受信するように構成され、
前記複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）は、各々、セグメントオーディオ成分（Ｗ_i）および対応するパラメトリック空間情報（θ_i，Ψ_i）を含み、
前記レンダラ（５１０）は、前記複数の入力セグメントラウドスピーカ信号（５１５）を得るために、前記セグメントオーディオ成分（Ｗ_i）の各々を前記対応するパラメトリック空間情報（５０５）（θ_i，Ψ_i）を用いて表現するように構成されている請求項１３に記載の装置（５００）。
録音空間における録音から得られる入力空間オーディオ信号（１０５）から複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）を発生するための方法であって、
前記入力空間オーディオ信号（１０５）から少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）を生成するステップと、
前記複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）を得るために、前記少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）の各々についてパラメトリック・オーディオ・ストリームを発生するステップと、を含み、
前記少なくとも２つの入力セグメントオーディオ信号（１１５）（Ｗ_i，Ｘ_i，Ｙ_i，Ｚ_i）は前記録音空間の対応するセグメント（Ｓｅｇ_i）に関連づけられる方法。
録音空間において録音された入力空間オーディオ信号（１０５）から導出される複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）から複数のラウドスピーカ信号（５２５）（Ｌ₁，Ｌ₂，…）を発生するための方法であって、
前記複数のパラメトリック・オーディオ・ストリーム（１２５）（θ_i，Ψ_i，Ｗ_i）から複数の入力セグメントラウドスピーカ信号（５１５）を生成するステップと、
前記複数のラウドスピーカ信号（５２５）（Ｌ₁，Ｌ₂，…）を得るために、前記入力セグメントラウドスピーカ信号（５１５）を結合するステップと、を含み、
前記入力セグメントラウドスピーカ信号（５１５）は前記録音空間の対応するセグメント（Ｓｅｇ_i）に関連づけられる方法。
コンピュータ上でコンピュータプログラムが実行されると請求項１５に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
コンピュータ上でコンピュータプログラムが実行されると請求項１６に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。