JP6086923B2

JP6086923B2 - 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法

Info

Publication number: JP6086923B2
Application number: JP2014543912A
Authority: JP
Inventors: デル・ガルド，ジョバンニ; ティエルガルト，オリバー; ヘルレ，ユルゲン; クェフ，ファビアン; ハーベツ，エマニュエル; クラシウン，アレクサンドラ; クンツ，アヒム
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2011-12-02
Filing date: 2012-11-30
Publication date: 2017-03-01
Anticipated expiration: 2032-11-30
Also published as: WO2013079663A2; US9484038B2; CN104185869B9; RU2609102C2; AU2016202604A1; AU2012343819A1; MY167160A; TWI555412B; MX342794B; US20130142341A1; BR112014013336B1; JP2015502573A; CA2857614A1; BR112014013336A2; EP2600343A1; CN104185869B; EP2786374A2; AR089053A1; CA2857614C; EP2786374C0

Description

本発明はオーディオ処理に関し、特に、統合オーディオデータストリームを生成する装置および方法が提供される。

オーディオ処理、および特に空間オーディオ符号化は、ますます重要となってきている。従来的な空間音の録音は、再生側で、視聴者が、あたかもその録音場所にいるかのように、サウンドイメージを知覚するような音場を捉えることを目的としている。空間音の録音および再生技術に対する他のアプローチが、チャネル、オブジェクトまたはパラメトリックな表現に基づいた現状技術から知られている。

チャネルに基づく表現は、例えば５．１サラウンドサウンド設定のような、既知の設定において配置されたＮ個のスピーカによって再生されるＮ個の独立したオーディオ信号によってサウンドシーンを表す。空間音の録音についてのアプローチは、通常は、離隔された、例えばＡＢステレオ音響では無指向性マイクロフォン、例えばインテンシティステレオ音響ではコインシデント指向性マイクロフォンを採用する。また、例えばＡｍｂｉｓｏｎｉｃ方式では、非特許文献１に示されているように、Ｂフォーマットマイクロフォンのような、より洗練されたマイクロフォンが採用される。

既知の設定に対する所望のスピーカ信号は、録音されたマイクロフォン信号から直接導出され、そして個別に送信または録音される。より効率的な表現が、オーディオ符号化を個別の信号に適用することによって得られ、それは、場合によっては、例えば、５．１用のＭＰＥＧサラウンドでは、非特許文献２０に示されるように、効率を上げるために異なるチャネルの情報を併せて符号化する。

これらの技術の大きな欠点は、一旦スピーカ信号が演算されると、サウンドシーンを修正できないことである。

オブジェクトに基づく表現が、例えば、非特許文献２３に示される空間オーディオ・オブジェクト符号化（ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ：ＳＡＯＣ）で用いられる。

オブジェクトに基づく表現は、サウンドシーンをＮ個の独立したオーディオ・オブジェクトで表現する。この表現は、例えば、各オブジェクトの位置または音量を変えることによってサウンドシーンを操作できるので、再生側に高い柔軟性を与える。この表現は、例えば、マルチトラック録音から容易に利用可能となるものの、少ないマイクロフォンで録音された複雑なサウンドシーンから得るのは非常に難しい（例えば、非特許文献２０参照）。実際に、話者（または他の音放射物）は、まず局所化されてから、混合音から抽出されなければならず、これによってアーティファクトが生じてしまう。

パラメトリック表現はしばしば、空間マイクロフォンを採用して、空間音響を記述する空間サイド情報とともに、１以上のオーディオダウンミックス信号を判定する。一例として、非特許文献２７で検討される指向性オーディオ符号化（ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ：ＤｉｒＡＣ）がある。

用語「空間マイクロフォン」とは、音の到来方向を取得することができる、空間音の取得のための任意の装置（例えば、指向性マイクロフォンの組合せ、マイクロフォンアレイなど）をいう。

用語「非空間マイクロフォン」とは、単一の無指向型または指向性マイクロフォンのような、音の到来方向を取得するようには構成されていない任意の装置をいう。

他の例が、非特許文献４において提案されている。

ＤｉｒＡＣでは、空間的なキュー情報が、音の到来方向（ｄｉｒｅｃｔｉｏｎｏｆａｒｒｉｖａｌ：ＤＯＡ）と、時間‐周波数領域において演算される音場の拡散性と、含む。音再生に対しては、オーディオ再生信号が、パラメトリックな記述に基づいて導出される。これらの技術によると、任意のスピーカ設定を採用でき、ダウンミックス・モノ・オーディオ信号とサイド情報を含むことで表現が特に柔軟かつコンパクトであり、ウンドシーンでの容易な修正、例えば、音響ズーミング、指向のフィルタリング、シーン統合などが可能となるので、再生側で大きな柔軟性が得られる。

しかし、これらの技術は、録音される空間的なイメージが、使用される空間マイクロフォンに常に相対する点において、やはり制約がある。したがって、音響的な視点を変えることができず、サウンドシーン内での視聴位置を変えることができない。

仮想マイクロフォンのアプローチが、非特許文献１９に提案されている。このアプローチは、環境内で意のままに（すなわち、任意の位置および向きで）、仮想的に配置された任意の空間マイクロフォンの出力信号を演算することを可能とする。仮想マイクロフォン（ＶＭ）アプローチを特徴付ける柔軟性によって、後段処理ステップにおいてサウンドシーンを意のままに仮想的に捕捉することが可能となるが、サウンドシーンの効率的な送信、記憶および／または修正に使用できる音場の表現が利用可能となるわけではない。さらに、時間−周波数ビンあたり１つの音源しかアクティブなものとされず、したがって、同じ時間−周波数ビンにおいて２以上の音源がアクティブとなる場合には、サウンドシーンを正しく記述できない。またさらに、仮想マイクロフォン（ＶＭ）が受信機側で適用される場合には、全てのマイクロフォン信号がチャネルを介して送信される必要があり、これにより表現が不十分となる。一方、ＶＭが送信機側で適用される場合には、サウンドシーンをさらに操作することができず、モデルは柔軟性を失い、所与のスピーカ設定に制限されることになる。さらに、パラメトリック情報に基づいたサウンドシーンの操作を考慮するものでもない。

非特許文献２２に開示された方法では、音源位置推定が、分散配置されたマイクロフォンによって測定される対関係の到来時間差に基づいて行われる。またさらに、受信機は録音法に依存し、合成のために（例えば、スピーカ信号の生成のために）、全てのマイクロフォン信号を必要とする。

非特許文献２６に開示された方法は、ＤｉｒＡＣと同様に、到来方向をパラメータとして使用し、それゆえ、表現をサウンドシーンの特定の視点に制限してしまう。さらに、解析および合成の双方が通信システムの同じ側に適用される必要があるので、サウンドシーンの表現を送信／記憶することの可能性は提案されていない。

他の例として、異なる環境で録音されている参加者達が固有のサウンドシーンにおいて再生されることを必要とするような、テレビ会議アプリケーションがある。マルチポイント・コントロール・ユニット（ＭＣＵ）は、確実に固有のサウンドシーンが再生されるようにしなければならない。

非特許文献２１および特許文献２には、サウンドシーンの２以上のパラメトリックな表現を合成する発想が提案されている。

一方で、２以上のサウンドシーンの表現から効率的な方法で、サウンドシーンを修正するのに充分柔軟な固有のサウンドシーンを作り出すコンセプトが提供されていれば、非常に有益となっているであろう。

ＵＳ６１／２８７，５９６：ＡｎＡｐｐａｒａｔｕｓａｎｄａＭｅｔｈｏｄｆｏｒＣｏｎｖｅｒｔｉｎｇａＦｉｒｓｔＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＡｕｄｉｏＳｉｇｎａｌｉｎｔｏａＳｅｃｏｎｄＰａｒａｍｅｔｒｉｃＳｐａｔｉａｌＡｕｄｉｏＳｉｇｎａｌ．ＵＳ２０１１０２１６９０８：ＡｐｐａｒａｔｕｓｆｏｒＭｅｒｇｉｎｇＳｐａｔｉａｌＡｕｄｉｏＳｔｒｅａｍｓ．

ＭｉｃｈａｅｌＡ．Ｇｅｒｚｏｎ．Ａｍｂｉｓｏｎｉｃｓｉｎｍｕｌｔｉｃｈａｎｎｅｌｂｒｏａｄｃａｓｔｉｎｇａｎｄｖｉｄｅｏ．Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ，３３（１１）：８５９;８７１，１９８５．Ｖ．Ｐｕｌｋｋｉ， "Ｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇｉｎｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎａｎｄｓｔｅｒｅｏｕｐｍｉｘｉｎｇ" ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＥＳ２８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，ｐｐ．２５１−２５８，Ｐｉｔｅａ，Ｓｗｅｄｅｎ，Ｊｕｎｅ３０ − Ｊｕｌｙ２，２００６．Ｖ．Ｐｕｌｋｋｉ， "Ｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ" Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，ｖｏｌ．５５，ｎｏ．６，ｐｐ．５０３−５１６，Ｊｕｎｅ２００７．Ｃ．Ｆａｌｌｅｒ： "ＭｉｃｒｏｐｈｏｎｅＦｒｏｎｔ−ＥｎｄｓｆｏｒＳｐａｔｉａｌＡｕｄｉｏＣｏｄｅｒｓ" ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＥＳ１２５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｖｅｎｔｉｏｎ，ＳａｎＦｒａｎｃｉｓｃｏ，Ｏｃｔ．２００８．Ｍ．Ｋａｌｌｉｎｇｅｒ，Ｈ．Ｏｃｈｓｅｎｆｅｌｄ，Ｇ．ＤｅｌＧａｌｄｏ，Ｆ．Ｋｕｅｃｈ，Ｄ．Ｍａｈｎｅ，Ｒ．Ｓｃｈｕｌｔｚ−Ａｍｌｉｎｇ．ａｎｄＯ．Ｔｈｉｅｒｇａｒｔ， "Ａｓｐａｔｉａｌｆｉｌｔｅｒｉｎｇａｐｐｒｏａｃｈｆｏｒｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ" ｉｎＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２６，Ｍｕｎｉｃｈ，Ｇｅｒｍａｎｙ，Ｍａｙ２００９．Ｒ．Ｓｃｈｕｌｔｚ−Ａｍｌｉｎｇ，Ｆ．Ｋ;ｃｈ，Ｏ．Ｔｈｉｅｒｇａｒｔ，ａｎｄＭ．Ｋａｌｌｉｎｇｅｒ， "Ａｃｏｕｓｔｉｃａｌｚｏｏｍｉｎｇｂａｓｅｄｏｎａｐａｒａｍｅｔｒｉｃｓｏｕｎｄｆｉｅｌｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ" ｉｎＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２８，ＬｏｎｄｏｎＵＫ，Ｍａｙ２０１０．Ｊ．Ｈｅｒｒｅ，Ｃ．Ｆａｌｃｈ，Ｄ．Ｍａｈｎｅ，Ｇ．ＤｅｌＧａｌｄｏ，Ｍ．Ｋａｌｌｉｎｇｅｒ，ａｎｄＯ．Ｔｈｉｅｒｇａｒｔ， "ＩｎｔｅｒａｃｔｉｖｅｔｅｌｅｃｏｎｆｅｒｅｎｃｉｎｇｃｏｍｂｉｎｉｎｇｓｐａｔｉａｌａｕｄｉｏｏｂｊｅｃｔｃｏｄｉｎｇａｎｄＤｉｒＡＣｔｅｃｈｎｏｌｏｇｙ" ｉｎＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２８，ＬｏｎｄｏｎＵＫ，Ｍａｙ２０１０．Ｅ．Ｇ．Ｗｉｌｌｉａｍｓ，ＦｏｕｒｉｅｒＡｃｏｕｓｔｉｃｓ：ＳｏｕｎｄＲａｄｉａｔｉｏｎａｎｄＮｅａｒｆｉｅｌｄＡｃｏｕｓｔｉｃａｌＨｏｌｏｇｒａｐｈｙ，ＡｃａｄｅｍｉｃＰｒｅｓｓ，１９９９．Ａ．ＫｕｎｔｚａｎｄＲ．Ｒａｂｅｎｓｔｅｉｎ， "Ｌｉｍｉｔａｔｉｏｎｓｉｎｔｈｅｅｘｔｒａｐｏｌａｔｉｏｎｏｆｗａｖｅｆｉｅｌｄｓｆｒｏｍｃｉｒｃｕｌａｒｍｅａｓｕｒｅｍｅｎｔｓ" ｉｎ１５ｔｈＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅ（ＥＵＳＩＰＣＯ２００７），２００７．Ａ．ＷａｌｔｈｅｒａｎｄＣ．Ｆａｌｌｅｒ， "Ｌｉｎｅａｒｓｉｍｕｌａｔｉｏｎｏｆｓｐａｃｅｄｍｉｃｒｏｐｈｏｎｅａｒｒａｙｓｕｓｉｎｇｂ−ｆｏｒｍａｔｒｅｃｏｒｄｉｎｇｓ" ｉｎＡｕｄｉｏＥｎｇｉｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２８，ＬｏｎｄｏｎＵＫ，Ｍａｙ２０１０．Ｓ．ＲｉｃｋａｒｄａｎｄＺ．Ｙｉｌｍａｚ， "ＯｎｔｈｅａｐｐｒｏｘｉｍａｔｅＷ−ｄｉｓｊｏｉｎｔｏｒｔｈｏｇｏｎａｌｉｔｙｏｆｓｐｅｅｃｈ" ｉｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２００２．ＩＣＡＳＳＰ２００２．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，Ａｐｒｉｌ２００２，ｖｏｌ．１．Ｒ．Ｒｏｙ，Ａ．Ｐａｕｌｒａｊ，ａｎｄＴ．Ｋａｉｌａｔｈ， "Ｄｉｒｅｃｔｉｏｎ−ｏｆ−ａｒｒｉｖａｌｅｓｔｉｍａｔｉｏｎｂｙｓｕｂｓｐａｃｅｒｏｔａｔｉｏｎｍｅｔｈｏｄｓ ; ＥＳＰＲＩＴ" ｉｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），Ｓｔａｎｆｏｒｄ，ＣＡ，ＵＳＡ，Ａｐｒｉｌ１９８６．Ｒ．Ｓｃｈｍｉｄｔ， "Ｍｕｌｔｉｐｌｅｅｍｉｔｔｅｒｌｏｃａｔｉｏｎａｎｄｓｉｇｎａｌｐａｒａｍｅｔｅｒｅｓｔｉｍａｔｉｏｎ" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｎｔｅｎｎａｓａｎｄＰｒｏｐａｇａｔｉｏｎ，ｖｏｌ．３４，ｎｏ．３，ｐｐ．２７６−２８０，１９８６．Ｊ．ＭｉｃｈａｅｌＳｔｅｅｌｅ， "ＯｐｔｉｍａｌＴｒｉａｎｇｕｌａｔｉｏｎｏｆＲａｎｄｏｍＳａｍｐｌｅｓｉｎｔｈｅＰｌａｎｅ" ＴｈｅＡｎｎａｌｓｏｆＰｒｏｂａｂｉｌｉｔｙ，Ｖｏｌ．１０，Ｎｏ．３（Ａｕｇ．，１９８２），ｐｐ．５４８−５５３．Ｆ．Ｊ．Ｆａｈｙ，ＳｏｕｎｄＩｎｔｅｎｓｉｔｙ，Ｅｓｓｅｘ：ＥｌｓｅｖｉｅｒＳｃｉｅｎｃｅＰｕｂｌｉｓｈｅｒｓＬｔｄ．，１９８９．Ｒ．Ｓｃｈｕｌｔｚ−Ａｍｌｉｎｇ，Ｆ．Ｋ;ｃｈ，Ｍ．Ｋａｌｌｉｎｇｅｒ，Ｇ．ＤｅｌＧａｌｄｏ，Ｔ．ＡｈｏｎｅｎａｎｄＶ．Ｐｕｌｋｋｉ， "Ｐｌａｎａｒｍｉｃｒｏｐｈｏｎｅａｒｒａｙｐｒｏｃｅｓｓｉｎｇｆｏｒｔｈｅａｎａｌｙｓｉｓａｎｄｒｅｐｒｏｄｕｃｔｉｏｎｏｆｓｐａｔｉａｌａｕｄｉｏｕｓｉｎｇｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ" ｉｎＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２４，Ａｍｓｔｅｒｄａｍ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ，Ｍａｙ２００８．Ｍ．Ｋａｌｌｉｎｇｅｒ，Ｆ．Ｋｕｅｃｈ，Ｒ．Ｓｃｈｕｌｔｚ−Ａｍｌｉｎｇ，Ｇ．ＤｅｌＧａｌｄｏ，Ｔ．ＡｈｏｎｅｎａｎｄＶ．Ｐｕｌｋｋｉ， "Ｅｎｈａｎｃｅｄｄｉｒｅｃｔｉｏｎｅｓｔｉｍａｔｉｏｎｕｓｉｎｇｍｉｃｒｏｐｈｏｎｅａｒｒａｙｓｆｏｒｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ" ｉｎＨａｎｄｓ−ＦｒｅｅＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＭｉｃｒｏｐｈｏｎｅＡｒｒａｙｓ，２００８．ＨＳＣＭＡ２００８，Ｍａｙ２００８，ｐｐ．４５−４８．Ｒ．Ｋ．Ｆｕｒｎｅｓｓ， "Ａｍｂｉｓｏｎｉｃｓ − Ａｎｏｖｅｒｖｉｅｗ" ｉｎＡＥＳ８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，Ａｐｒｉｌ１９９０，ｐｐ．１８１−１８９．ＧｉｏｖａｎｎｉＤｅｌＧａｌｄｏ，ＯｌｉｖｅｒＴｈｉｅｒｇａｒｔ，ＴｏｂｉａｓＷｅｌｌｅｒ，ａｎｄＥ．Ａ．Ｐ．Ｈａｂｅｔｓ．Ｇｅｎｅｒａｔｉｎｇｖｉｒｔｕａｌｍｉｃｒｏｐｈｏｎｅｓｉｇｎａｌｓｕｓｉｎｇｇｅｏｍｅｔｒｉｃａｌｉｎｆｏｒｍａｔｉｏｎｇａｔｈｅｒｅｄｂｙｄｉｓｔｒｉｂｕｔｅｄａｒｒａｙｓ．ＩｎＴｈｉｒｄＪｏｉｎｔＷｏｒｋｓｈｏｐｏｎＨａｎｄｓ−ｆｒｅｅＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＭｉｃｒｏｐｈｏｎｅＡｒｒａｙｓ（ＨＳＣＭＡ ’１１），Ｅｄｉｎｂｕｒｇｈ，ＵｎｉｔｅｄＫｉｎｇｄｏｍ，Ｍａｙ２０１１．ＪｕｅｒｇｅｎＨｅｒｒｅ，ＣｏｒｎｅｌｉａＦａｌｃｈ，ＤｉｒｋＭａｈｎｅ，ＧｉｏｖａｎｎｉＤｅｌＧａｌｄｏ，ＭａｒｋｕｓＫａｌｌｉｎｇｅｒ，ａｎｄＯｌｉｖｅｒＴｈｉｅｒｇａｒｔ．ＩｎｔｅｒａｃｔｉｖｅｔｅｌｅｃｏｎｆｅｒｅｎｃｉｎｇｃｏｍｂｉｎｉｎｇｓｐａｔｉａｌａｕｄｉｏｏｂｊｅｃｔｃｏｄｉｎｇａｎｄＤｉｒＡＣｔｅｃｈｎｏｌｏｇｙ．ＩｎＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２８，５２０１０．Ｇ．ＤｅｌＧａｌｄｏ，Ｆ．Ｋｕｅｃｈ，Ｍ．Ｋａｌｌｉｎｇｅｒ，ａｎｄＲ．Ｓｃｈｕｌｔｚ−Ａｍｌｉｎｇ．Ｅｆｆｉｃｉｅｎｔｍｅｒｇｉｎｇｏｆｍｕｌｔｉｐｌｅａｕｄｉｏｓｔｒｅａｍｓｆｏｒｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎｉｎｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ２００９），２００９．ＥｍｍａｎｕｅｌＧａｌｌｏａｎｄＮｉｃｏｌａｓＴｓｉｎｇｏｓ．Ｅｘｔｒａｃｔｉｎｇａｎｄｒｅ−ｒｅｎｄｅｒｉｎｇｓｔｒｕｃｔｕｒｅｄａｕｄｉｔｏｒｙｓｃｅｎｅｓｆｒｏｍｆｉｅｌｄｒｅｃｏｒｄｉｎｇｓ．ＩｎＡＥＳ３０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＡｕｄｉｏＥｎｖｉｒｏｎｍｅｎｔｓ，２００７．ＪｅｒｏｅｎＢｒｅｅｂａａｒｔ，ＪｏｎａｓＥｎｇｄｅｇａｒｄ，ＣｏｒｎｅｌｉａＦａｌｃｈ，ＯｌｉｖｅｒＨｅｌｌｍｕｔｈ，ＪｏｈａｎｎｅｓＨｉｌｐｅｒｔ，ＡｎｄｒｅａｓＨｏｅｌｚｅｒ，ＪｅｒｏｅｓｎＫｏｐｐｅｎｓ，ＷｅｒｎｅｒＯｏｍｅｎ，ＢａｒｂａｒａＲｅｓｃｈ，ＥｒｉｋＳｃｈｕｉｊｅｒｓ，ａｎｄＬｅｏｎｉｄＴｅｒｅｎｔｉｅｖ．Ｓｐａｔｉａｌａｕｄｉｏｏｂｊｅｃｔｃｏｄｉｎｇ（ｓａｏｃ） − ｔｈｅｕｐｃｏｍｉｎｇｍｐｅｇｓｔａｎｄａｒｄｏｎｐａｒａｍｅｔｒｉｃｏｂｊｅｃｔｂａｓｅｄａｕｄｉｏｃｏｄｉｎｇ．ＩｎＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２４，５２００８．Ｒ．ＲｏｙａｎｄＴ．Ｋａｉｌａｔｈ．ＥＳＰＲＩＴ−ｅｓｔｉｍａｔｉｏｎｏｆｓｉｇｎａｌｐａｒａｍｅｔｅｒｓｖｉａｒｏｔａｔｉｏｎａｌｉｎｖａｒｉａｎｃｅｔｅｃｈｎｉｑｕｅｓ．Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，３７（７）：９８４;９９５，Ｊｕｌｙ１９８９．ＴａｐｉｏＬｏｋｋｉ，ＪｕｈａＭｅｒｉｍａａ，ａｎｄＶｉｌｌｅＰｕｌｋｋｉ．Ｍｅｔｈｏｄｆｏｒｒｅｐｒｏｄｕｃｉｎｇｎａｔｕｒａｌｏｒｍｏｄｉｆｉｅｄｓｐａｔｉａｌｉｍｐｒｅｓｓｉｏｎｉｎｍｕｌｔｉｃｈａｎｎｅｌｌｉｓｔｅｎｉｎｇ，２００６．ＳｖｅｉｎＭｅｒｇｅ．Ｄｅｖｉｃｅａｎｄｍｅｔｈｏｄｆｏｒｃｏｎｖｅｒｔｉｎｇｓｐａｔｉａｌａｕｄｉｏｓｉｇｎａｌ．ＵＳｐａｔｅｎｔａｐｐｌｉｃａｔｉｏｎ，Ａｐｐｌ．Ｎｏ．１０／５４７，１５１．ＶｉｌｌｅＰｕｌｋｋｉ．Ｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ．Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ，５５（６）：５０３;５１６，Ｊｕｎｅ２００７．Ｃ．ＵｈｌｅａｎｄＣ．Ｐａｕｌ：ＡｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｔｏａｍｂｉｅｎｃｅｅｘｔｒａｃｔｉｏｎｆｒｏｍｍｏｎｏｒｅｃｏｒｄｉｎｇｓｆｏｒｂｌｉｎｄｕｐｍｉｘｉｎｇｉｎＰｒｏｃ．ｏｆｔｈｅ１１ｔｈＩｎｔ．ＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ−０８），Ｅｓｐｏｏ，Ｆｉｎｌａｎｄ，Ｓｅｐｔｅｍｂｅｒ１−４，２００８．

本発明の目的は、統合オーディオデータストリーム、例えば、ＧＡＣストリームを生成するための改善されたコンセプトを提供することにある。

本発明の目的は、請求項１に記載の装置、請求項１７に記載の方法および請求項１８に記載のコンピュータプログラムによって解決される。

ひとつの態様によると、統合オーディオデータストリームを生成する装置が提供される。その装置は、複数の単層オーディオデータストリームを取得するデマルチプレクサを備え、このデマルチプレクサは１以上の入力オーディオデータストリームを受信する構成であり、各入力オーディオデータストリームは１層以上のレイヤを有し、デマルチプレクサは、１層以上のレイヤを有する入力オーディオデータストリームの各々を１層だけのレイヤを有する２以上の多重分離されたオーディオデータストリームに、２以上の多重分離されたオーディオデータストリームがともに入力オーディオデータストリームの１層以上のレイヤを有するように多重分離して、単層オーディオデータストリームのうちの２以上を得るように構成される。さらに、この装置は、複数の単層オーディオデータストリームに基づいて、例えば、複数の多重分離された単層オーディオデータストリームに基づいて、１層以上のレイヤを有する統合オーディオデータストリームを生成する統合モジュールを備える。入力データオーディオストリーム、多重分離されたオーディオデータストリーム、単層オーディオデータストリームおよび統合オーディオデータストリームの各レイヤは、圧力信号（音圧信号）の圧力値（音圧値）、音源の位置を示す位置値および音場の拡散を示す拡散値をオーディオデータとして含む。

さらなる態様では、この装置は、複数の単層オーディオデータストリームを取得するデマルチプレクサを備えることができ、デマルチプレクサは２以上の入力オーディオデータストリームを受信するように構成され、各入力オーディオデータストリームは１層以上のレイヤを有し、デマルチプレクサは、２層以上のレイヤを有する入力オーディオデータストリームの各々を１層のレイヤだけを有する２以上の多重分離されたオーディオデータストリームに、２以上の多重分離されたオーディオデータストリームがともに入力オーディオデータストリームの２層以上のレイヤを有するように多重分離して、単層オーディオデータストリームのうちの２以上を得るように構成される。さらに、この装置は、複数の単層オーディオデータストリームに基づいて、１層以上のレイヤを有する統合オーディオデータストリームを生成するための統合モジュールを備えていてもよい。

ひとつの態様では、この装置は、１層だけのレイヤを有する１以上の受信入力オーディオデータストリームを、それらをデマルチプレクサに入力することなく、統合モジュールに直接入力するように構成される。

単層データストリームおよび統合されたオーディオデータストリームのうちの、多重分離されたオーディオデータストリームの入力データオーディオストリームの各レイヤは、圧力信号の圧力値、位置値および拡散値をオーディオデータとして含み、オーディオデータは、複数の時間−周波数ビンのうちの１つの時間−周波数ビンに対して規定される。

この態様によると、２以上の録音されたサウンドシーンは、２以上のオーディオデータストリーム、例えば、ＧＡＣストリームを統合することによって、および単一のオーディオデータストリーム、例えば、単一のＧＡＣストリームを出力することによって統合される。

サウンドシーンの統合は、例えばテレビ会議アプリケーションで用いることができ、そこでは、異なる環境で録音されている参加者達が、固有のサウンドシーンにおいて再生されることが必要である。したがって、統合は、マルチポイント・コントロール・ユニット（ＭＣＵ）において行われて、ネットワークのトラフィックを軽減し、または、エンドユーザ達のところで行われて、合成の演算コスト（例えば、スピーカ信号の演算）を低減することができる。

ひとつの態様では、統合モジュールは、コスト値を単層オーディオデータストリームの各々に割り当てるコスト関数モジュールを備えることができ、統合モジュールは、単層オーディオデータストリームに割り当てられたコスト値に基づいて、統合オーディオデータストリームを生成するように構成される。

他の態様によると、コスト関数モジュールは、単層オーディオデータストリームの圧力値または拡散値の少なくとも１つに応じて、単層オーディオデータストリームの各々にコスト値を割り当てるように構成されてもよい。

さらなる態様では、コスト関数モジュールが、数式：
を適用することによって、単層オーディオデータストリームのグループのうちの各オーディオデータストリームにコスト値を割り当てるように構成される。ここで、Ｐ_ｉおよびΨ_ｉはそれぞれ、単層オーディオデータストリームのグループのうちのｉ番目のオーディオデータストリームのレイヤの、例えば各時間−周波数ビンに対する、圧力値および拡散値である。

他の態様によると、統合モジュールは、圧力統合部をさらに備えることができる。この圧力統合部は、複数の単層オーディオデータストリームのうちの１以上の単層オーディオデータストリームを有する第１のグループを判定し、複数の単層オーディオデータストリームのうちの異なる１以上の単層オーディオデータストリームを有する第２のグループを判定するように構成される。第１のグループの単層オーディオデータストリームの各々のコスト値は、第２のグループの単層オーディオデータストリームの各々のコスト値よりも大きてもよく、第１のグループの単層オーディオデータストリームの各々のコスト値は、第２のグループの単層オーディオデータストリームの各々のコスト値よりも小さくてよい。圧力統合部は、統合オーディオデータストリームの１層以上のレイヤにおける１以上の圧力値を、第１のグループの単層オーディオデータストリームの各々の各圧力値が統合オーディオデータストリームのレイヤのうちの１層における圧力値となるとともに、第２のグループの単層オーディオデータストリームの圧力値の組み合わせが統合オーディオデータストリームのレイヤのうちの１層における圧力値となるように生成するように構成される。

さらなる態様において、統合モジュールは、拡散性統合部をさらに備えることができる。拡散性統合部は、複数の単層オーディオデータストリームのうちの１以上の単層オーディオデータストリームを有する第３のグループを判定し、複数の単層オーディオデータストリームのうちの異なる１以上の単層オーディオデータストリームを有する第４のグループを判定するように構成される。第３のグループの単層オーディオデータストリームの各々のコスト値は、第４のグループの単層オーディオデータストリームの各々のコスト値よりも大きくてもよく、または、第３のグループの単層オーディオデータストリームの各々のコスト値は、第４のグループの単層オーディオデータストリームの各々のコスト値よりも小さくてもよい。拡散性統合部は、統合オーディオデータストリームの１層以上のレイヤにおける１以上の拡散値を、第３のグループの単層オーディオデータストリームの各々の各拡散値が統合オーディオデータストリームのレイヤのうちの１層における拡散値となるとともに、第４のグループの単層オーディオデータストリームの拡散値の組み合わせが統合オーディオデータストリームのレイヤのうちの１層における拡散値となるように生成するように構成される。

他の態様によると、統合モジュールは位置混合部（１４０３）をさらに備えることができる。位置混合部（１４０３）は、複数の単層オーディオデータストリームのうちの１以上の単層オーディオデータストリームを有する第５のグループを判定するように構成される。第５のグループの単層オーディオデータストリームの各々のコスト値は、複数の単層オーディオデータストリームの第５のグループを有しない単層オーディオデータストリームの各々のコスト値よりも大きくてもよく、または、第５のグループの単層オーディオデータストリームの各々のコスト値は、複数の単層オーディオデータストリームの第５のグループを構成しない単層オーディオデータストリームの各々のコスト値よりも小さくてもよい。位置混合部（１４０３）は、第５のグループの単層オーディオデータストリームの各々の各位置値が統合オーディオデータストリームのレイヤのうちの１層における位置値となるように、統合オーディオデータストリームの１層以上のレイヤにおける１以上の位置値を生成するように構成される。

他の態様によると、統合モジュールは、複数の単層オーディオデータストリームの単層オーディオデータストリームのうちの１以上の位置値を操作するためのサウンドシーン適応モジュールをさらに備えていてもよい。

さらなる態様によると、サウンドシーン適応モジュールは、位置値の回転、平行移動または非線形転換を適用して複数の単層オーディオデータストリームの単層オーディオデータストリームのうちの１以上の位置値を操作するように構成される。

他の態様によると、デマルチプレクサは複数の多重分離部を備え、これらの多重分離部の各々が、入力オーディオデータストリームの１以上を多重分離するように構成されていてもよい。

さらなる態様によると、装置は、１層だけのレイヤからなる人工データストリームを生成するための人工音源生成器をさらに備えることができる。人工音源生成器は、時間ドメインで表されている圧力情報を受信するとともに、位置情報を受信するように構成される。人工音源生成器は、圧力情報を複製して複数の時間−周波数ビンについて位置情報を生成するように構成されてもよい。人工音源生成器はさらに、圧力情報に基づいて拡散情報を計算するように構成されてもよい。

他の態様によると、人工音源生成器は、時間ドメインで表されている圧力情報を時間−周波数ドメインに変換するように構成されてもよい。

さらなる態様によると、人工音源生成器は、残響を圧力情報に付加するように構成されてもよい。

他の態様では、人工的な音源をサウンドシーンに挿入してもよい。人工的な音源の挿入は、仮想現実およびビデオゲームのようなアプリケーションにおいて特に有用であり、複雑なサウンドシーンを合成音源によって事前設定することができる。テレビ会議のシナリオでは、この挿入は、単一チャネルの、例えば携帯電話を介した、ダイアリングによって通信する参加者達を組み合わせるのに有用である。

本発明の好ましい実施の形態を以下に説明する。

一実施形態による統合オーディオデータストリームを生成する装置を示す図である。一実施形態による１以上の音源に関するオーディオデータを有するオーディオデータストリームに基づく少なくとも１つのオーディオ出力信号を生成する装置を示す図である。一実施形態による１以上の音源に関する音源データを有するオーディオデータストリームを生成する装置を示す図である。一実施形態によるオーディオデータストリームを示す図である。他の実施形態によるオーディオデータストリームを示す図である。さらに他の実施形態によるオーディオデータストリームを示す図である。他の実施形態による１以上の音源に関する音源データを有するオーディオデータストリームを生成する装置を示す図である。２つの音源および２つの均一な線形マイクロフォンアレイで構成されるサウンドシーンを示す図である。一実施形態によるオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成する装置６００を示す図である。一実施形態による１以上の音源に関する音源データを有するオーディオデータストリームを生成する装置６６０を示す図である。一実施形態による修正モジュールを示す図である。他の実施形態による修正モジュールを示す図である。一実施形態による送信機／解析部および受信機／合成部を示す図である。一実施形態による合成モジュールを示す図である。一実施形態による第１の合成段部を示す図である。一実施形態による第２の合成段部を示す図である。他の実施形態による合成モジュールを示す図である。一実施形態による仮想マイクロフォンのオーディオ出力信号を生成する装置を示す図である。一実施形態による仮想マイクロフォンのオーディオ出力信号を生成する装置および方法の入力および出力を示す図である。サウンドイベント位置推定器および情報演算モジュールを備える一実施形態による仮想マイクロフォンのオーディオ出力信号を生成する装置の基本構造を示す図である。実際の空間マイクロフォンが、各３個のマイクロフォンの均一線形アレイで図示される例示的シナリオを示す図である。３Ｄ空間における到来方向を推定するための３Ｄにおける２つの空間マイクロフォンを示す図である。現在の時間−周波数ビン（ｋ，ｎ）の等方性の点状音源が位置ｐ_ＩＰＬＳ（ｋ，ｎ）に位置する幾何学的配置を示す図である。一実施形態による情報演算モジュールを示す図である。他の実施形態による情報演算モジュールを示す。２つの現実の空間マイクロフォン、局在化されたサウンドイベントおよび仮想の空間マイクロフォンの位置を示す図である。一実施形態によってどのように仮想マイクロフォンに対する到来方向を取得するかを示す図である。一実施形態による仮想マイクロフォンの視点から音のＤＯＡを導出する可能な方法を示す図である。一実施形態による拡散性演算部を備える情報演算ブロックを示す図である。一実施形態による拡散性演算部を示す図である。サウンドイベントの位置推定が可能でない場合のシナリオを示す図である。一実施形態による仮想マイクロフォンのデータストリームを生成する装置を示す図である。他の実施形態によるオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成する装置を示す図である。他の実施形態による統合オーディオデータストリームを生成する装置の入力および出力を示す図である。他の実施形態による統合オーディオデータストリームを生成する装置を示す図である。一実施形態による統合モジュールを示す図である。可能なサウンドシーンを示す図である。可能なサウンドシーンを示す図である。可能なサウンドシーンを示す図である。実施形態による人工音源生成器を示す図である。実施形態による人工音源生成器を示す図である。２つのマイクロフォンアレイが直接音、壁に反射された音および拡散音を受信するシナリオを示す図である。２つのマイクロフォンアレイが直接音、壁に反射された音および拡散音を受信するシナリオを示す図である。２つのマイクロフォンアレイが直接音、壁に反射された音および拡散音を受信するシナリオを示す図である。

本発明の実施形態を詳細に説明する前に、仮想マイクロフォンのオーディオ出力信号を生成する装置を説明して、本発明のコンセプトに関する背景情報を提供する。

図１２は、ある環境にある構成可能な仮想位置ｐｏｓＶｍｉｃにおけるマイクロフォンの録音を模擬するためのオーディオ出力信号を生成する装置を示す。装置は、サウンドイベント位置推定器１１０および情報演算モジュール１２０を備える。サウンドイベント推定器１１０は、第１の方向情報ｄｉ１を第１の現実の空間マイクロフォンから受信し、第２の方向情報ｄｉ２を第２の現実の空間マイクロフォンから受信する。サウンドイベント位置推定器１１０は、環境において音波を放射する音源の位置を示す音源位置ｓｓｐを推定するように構成され、サウンドイベント位置推定器１１０は、環境における第１の現実マイクロフォン位置ｐｏｓ１ｍｉｃに位置している第１の現実の空間マイクロフォンから供給される第１の方向情報ｄｉ１に基づいて、および環境における第２の現実マイクロフォン位置に位置している第２の現実の空間マイクロフォンから供給される第２の方向情報ｄｉ２に基づいて音源位置ｓｓｐを推定するように構成される。情報演算モジュール１２０は、第１の現実の空間マイクロフォンによって録音されている第１の録音オーディオ入力信号ｉｓ１に基づいて、第１の現実のマイクロフォン位置ｐｏｓ１ｍｉｃに基づいて、および仮想マイクロフォンの仮想位置ｐｏｓＶｍｉｃに基づいてオーディオ出力信号を生成するように構成される。情報演算モジュール１２０は、第１の録音オーディオ入力信号ｉｓ１の振幅値、絶対値または位相値を調整することによって、第１の現実の空間マイクロフォンにおいて音源によって放射された音波の到来と仮想マイクロフォンにおける音波の到来との間の第１の遅延または振幅減衰を補償することによって、第１の録音オーディオ入力信号ｉｓ１を修正してオーディオ出力信号を取得することによって第１の修正オーディオ信号を生成するように構成された伝搬補償器を備える。

図１３は、一実施形態による装置および方法の入力および出力を示す。２以上の現実の空間マイクロフォン１１１、１１２、・・・、１１Ｎからの情報が装置に入力され／この方法によって処理される。この情報は、現実の空間マイクロフォンからの方向情報、例えば、到来方向（ＤＯＡ）推定値だけでなく現実の空間マイクロフォンによってピックアップされるオーディオ信号を備える。オーディオ信号および到来方向推定値などの方向情報は、時間−周波数ドメインにおいて表現される。例えば、２Ｄ幾何再構成が望まれ、信号の表示について旧来的なＳＴＦＴ（短時間フーリエ変換）ドメインが選択される場合、ＤＯＡをｋおよびｎ、すなわち、周波数インデックスおよび時間インデックスに応じたアジマス角として表現することができる。

実施形態においては、空間におけるサウンドイベントの局在化確認が、仮想マイクロフォンの位置を記載することと同様に、共通の座標系における現実の空間マイクロフォンおよび仮想の空間マイクロフォンの位置および向きに基づいて行われてもよい。この情報を、図１３における入力１２１・・・１２Ｎおよび１０４によって表すことができる。入力１０４は、以下に述べるように、仮想の空間マイクロフォンの特性、例えば、その位置およびピックアップパターンを追加的に指定することができる。仮想の空間マイクロフォンが複数の仮想センサを備える場合、それらの位置および対応する異なるピックアップパターンが検討されることになる。

装置または対応の方法の出力は、必要な場合、１以上のサウンド信号１０５である。このサウンド信号１０５は、１０４によって特定されたように定義および配置された空間マイクロフォンによってピックアップされる。さらに、装置（またはむしろ方法）は、仮想の空間マイクロフォンを採用することによって推定できる空間サイド情報１０６に対応する出力を供給する。

図１４は、２つの主処理装置であるサウンドイベント位置推定器２０１および情報演算モジュール２０２を備える一実施形態による装置を示す。サウンドイベント位置推定器２０１は、入力１１１・・・１１Ｎで構成されるＤＯＡに基づいて、およびＤＯＡが演算された現実の空間マイクロフォンの位置および向きの知識に基づいて、幾何的再構成を実行することができる。サウンドイベント位置推定器２０５の出力は、サウンドイベントが各時間および周波数ビンについて発生するような音源の（２Ｄまたは３Ｄにおける）位置推定値を含む。第２の処理ブロック２０２は、情報演算モジュールである。図１４の実施形態によると、第２の処理ブロック２０２は、仮想マイクロフォン信号および空間サイド情報を演算する。したがって、これを仮想マイクロフォン信号およびサイド情報演算ブロック２０２ともいう。仮想マイクロフォン信号およびサイド情報演算ブロック２０２は、サウンドイベント位置２０５を用いて、１１１・・・１１Ｎからなるオーディオ信号を処理して、仮想マイクロフォンオーディオ信号１０５を出力する。必要であれば、ブロック２０２が、仮想の空間マイクロフォンに対応する空間サイド情報１０６を演算するようにしてもよい。以下の実施形態は、ブロック２０１および２０２がどのように動作するのかの可能性を示す。

以降において、一実施形態によるサウンドイベント位置推定器の位置推定をより詳細に説明する。

問題の次元（２Ｄまたは３Ｄ）および空間マイクロフォンの数に応じて、位置推定に対するいくつかの解法が可能となる。

２Ｄにおいて２つの空間マイクロフォンが存在する場合（最も単純な場合）、単純な三角測量が可能となる。図１５は、現実の空間マイクロフォンが各３個のマイクロフォンの均一線形アレイ（ＵＬＡ）によって示される例示的シナリオを示す。アジマス角ａ１（ｋ，ｎ）およびａ２（ｋ，ｎ）で表現されるＤＯＡは、時間−周波数ビン（ｋ，ｎ）について演算される。これは、非特許文献１２に示されるＥＳＰＲＩＴまたは非特許文献１３に示される（ｒｏｏｔ）ＭＵＳＩＣのような適切なＤＯＡ推定器を、時間−周波数ドメインに変換される圧力信号に採用することによって実現される。

図１５に、２つの現実の空間マイクロフォン、ここでは２つの現実の空間マイクロフォンアレイ４１０および４２０を示す。２つの推定ＤＯＡとしてａ１（ｋ，ｎ）およびａ２（ｋ，ｎ）が２本の線で表され、第１の線４３０がＤＯＡａ１（ｋ，ｎ）を示し、第２の線４４０がＤＯＡａ２（ｋ，ｎ）を示す。三角測量は、各アレイの位置および向きを知る単純な幾何学的検討によって可能となる。

三角測量は、２本の線４３０、４４０が完全に平行な場合にはできない。しかし、現実の適用においては、これは非常に稀である。しかし、全ての三角測量の結果が、検討される空間におけるサウンドイベントに対する物理的または可能な位置に対応するわけではない。例えば、サウンドイベントの推定位置が遠すぎるか、さらには前提となる空間外にある場合、ＤＯＡは、使用されるモデルで物理的に解釈され得るいずれのサウンドイベントにも対応しないであろう。このような結果は、センサのノイズまたは強すぎる室内残響によってもたらされ得る。したがって、一実施形態によると、そのような望まれない結果には、情報演算モジュール２０２がそれらを適切に扱うように、フラグが立てられる。

図１６は、サウンドイベントの位置が３Ｄ空間で推定されるシナリオを示す。適切な空間マイクロフォン、例えば、平板または３Ｄマイクロフォンアレイが採用される。図１６では、第１の空間マイクロフォン５１０、例えば、第１の３Ｄマイクロフォンアレイ、および第２の空間マイクロフォン５２０、例えば、第１の３Ｄマイクロフォンアレイが示される。３Ｄ空間におけるＤＯＡを、例えば、アジマス角および仰角で表現することができる。ＤＯＡを表現するのに単位ベクトル５３０および５４０を用いることができる。２本の線５５０および５６０がＤＯＡに従って発射される。３Ｄにおいて、非常に信頼性の高い推定値を用いても、ＤＯＡに従って発射された２本の線５５０および５６０は交差し得ない。しかし、例えば、２本の線を接続する最短距離の中間点を選択することによって、それでも三角測量を実行することができる。

２Ｄの場合と同様に、三角測量は、方向の所定の組合せに対しては失敗する場合があり、または不能な結果をもたらす場合があり、それらについては、例えば、図１４の情報演算モジュール２０２に対してフラグが立てられてもよい。

３個以上の空間マイクロフォンが存在する場合には、いくつかの解法が可能となる。例えば、上記の三角測量を、現実の空間マイクロフォンの全ての対（Ｎ＝３の場合、１と２、１と３、および２と３）に対して実行してもよい。そして、得られる位置の平均が（ｘおよびｙ、および３Ｄが検討される場合にはｚにも沿って）とられるようにすればよい。

代替的に、より複雑なコンセプトが用いられてもよい。例えば、非特許文献１４に記載される確率的アプローチが適用されてもよい。

一実施形態によると、音場を、時間−周波数ドメインにおいて解析することができ、例えば、ｋおよびｎがそれぞれ周波数インデックスｋおよび時間インデックスｎをそれぞれ示す短時間フーリエ変換（ＳＴＦＴ）によって、取得することができる。ＳＴＦＴでは、所定のｋおよびｎに対する任意の位置ｐ_ｖにおける複素圧力Ｐ_ｖ（ｋ，ｎ）が、例えば、
を採用することによって、狭帯域の等方性点状音源によって放射された単一の球面波としてモデル化される。ここで、Ｐ_ＩＰＬＳ（ｋ，ｎ）は、ＩＰＬＳによってその位置ｐ_ＩＰＬＳ（ｋ，ｎ）において放射された信号である。複素ファクタγ（ｋ，ｐ_ＩＰＬＳ，ｐ_ｖ）は、ｐ_ＩＰＬＳ（ｋ，ｎ）からｐ_ｖへの伝搬を表し、例えば、それは適切な位相および絶対値の変位を導入する。ここでは、各時間−周波数ビンにおいて、１つのＩＰＬＳのみがアクティブであるという前提が適用される。それでもなお、異なる位置にある多数の狭帯域ＩＰＬＳが、単一の時間インスタンスにおいてアクティブとなることもある。

各ＩＰＬＳは、直接音または個別の室内反射をモデル化する。その位置ｐ_ＩＰＬＳ（ｋ，ｎ）は、理想的には、室内に位置する実際の音源または外部に位置する鏡像音源にそれぞれ対応するものであればよい。したがって、位置ｐ_ＩＰＬＳ（ｋ，ｎ）もサウンドイベントの位置を示すことになる。

なお、「実際の音源」とは、話者または楽器のような、録音環境において物理的に存在する実際の音源をいうものとする。これに対して、「音源」、「サウンドイベント」または「ＩＰＬＳ」を用いる場合、所定の時間インスタンスにおいて、または所定の時間−周波数ビンにおいて、アクティブとなる有効な音源のことをいい、音源は、例えば、現実の音源または鏡像源を表すことになる。

図３３ａ−３３ｂに、音源を局在化するマイクロフォンアレイを示す。局在化された音源は、それらの性質に応じて、異なる物理的解釈を有する。マイクロフォンアレイが直接音を受信する場合、それらは実際の音源（例えば、話者）の位置を局在確認することができる。マイクロフォンアレイが反射を受信する場合、それらは鏡像源の位置を局在確認することができる。鏡像源も音源である。

図３３ａに、２つのマイクロフォンアレイ１５１および１５２が直接音を実際の音源（物理的に存在する音源）１５３から受信するシナリオを示す。

図３３ｂに、２つのマイクロフォンアレイ１６１および１６２が反射音を受信するシナリオを示す。音は、壁によって反射されたものである。この反射のために、マイクロフォンアレイ１６１および１６２は、音が来たようにみえる位置であってスピーカ１６３の位置とは異なる位置を、鏡像源１６５の位置において局在確認する。

図３３ａの実際の音源１５３および鏡像源１６５の双方が音源となる。

図３３ｃは、２つのマイクロフォンアレイ１７１および１７２が拡散音を受信し、音源を局在確認することができないシナリオを示す。

単一波のモデルは、本源がＷ−ｄｉｓｊｏｉｎｔｏｒｔｈｏｇｏｎａｌｉｔｙ（ＷＤＯ）の条件を満たすこと、すなわち、時間−周波数の重なりが充分に小さいことを考慮すると、適度に反射する環境に対してのみ正確である。これは、例えば非特許文献１１に示されるように、会話信号に対して通常は正しい。

一方で、このモデルは、他の環境に対しては良い推定値を与え、したがってそれらの環境には適用可能である。

以降において、一実施形態による位置ｐ_ＩＰＬＳ（ｋ，ｎ）の推定を説明する。所定の時間−周波数ビンにおいてアクティブなＩＰＬＳの位置ｐ_ＩＰＬＳ（ｋ，ｎ）、およびそれゆえ時間−周波数ビンにおけるサウンドイベントの推定は、少なくとも２つの異なる観察点において測定された音の到来方向（ＤＯＡ）に基づいて三角測量によって推定される。

図１７は、現在の時間−周波数スロット（ｋ，ｎ）のＩＰＬＳが既知の位置ｐ_ＩＰＬＳ（ｋ，ｎ）に位置する場合の幾何状態を示す。必要なＤＯＡ情報を判定するために、既知の幾何、位置および向きの２つの現実の空間マイクロフォン、ここでは、位置６１０および６２０にそれぞれ配置される２つのマイクロフォンアレイが採用される。ベクトルｐ_１およびｐ_２は、位置６１０および６２０をそれぞれ指す。アレイの向きは、単位ベクトルｃ_１およびｃ_２によって規定される。音のＤＯＡは、例えば、ＤｉｒＡＣ解析（非特許文献２および非特許文献３参照）によって与えられるＤＯＡ推定アルゴリズムを用いて、各（ｋ，ｎ）について位置６１０および６２０において判定される。これによって、マイクロフォンアレイの視点に関する第１の視点単位ベクトルｅ_１ ^ｐｏｖ（ｋ，ｎ）および第２の視点単位ベクトル２^ｐｏｖ（ｋ，ｎ）（双方とも図１７には不図示である）が、ＤｉｒＡＣ解析の出力として与えられる。例えば、２Ｄで演算する場合、第１の視点単位ベクトルは以下のようになる。
ここで、φ_１（ｋ，ｎ）は、図１７に示すように、第１のマイクロフォンアレイにおいて推定されたＤＯＡのアジマス角を示す。原点におけるグローバル座標系に関して、対応するＤＯＡ単位ベクトルｅ_１（ｋ，ｎ）およびｅ_２（ｋ，ｎ）を、以下の数式を適用することによって演算することができる。
ここで、Ｒは座標変換行列であり、例えば、２Ｄにおいて演算する場合、
である。ｃ_１＝［ｃ_１、ｘ，ｃ_１、ｙ］^Ｔである。例えば、三角測量を実行するために、方向ベクトルｄ_１（ｋ，ｎ）およびｄ_２（ｋ，ｎ）を以下のように計算することができる。
ここで、ｄ_１（ｋ，ｎ）＝｜｜ｄ_１（ｋ，ｎ）｜｜およびｄ_２（ｋ，ｎ）＝｜｜ｄ_２（ｋ，ｎ）｜｜は、ＩＰＬＳと２つのマイクロフォンアレイとの未知数の距離である。以下の数式
をｄ_１（ｋ，ｎ）について解くことができる。最後に、ＩＰＬＳの位置ｐ_ＩＰＬＳ（ｋ，ｎ）が、
によって得られる。

他の実施形態では、式（６）をｄ_２（ｋ，ｎ）について解くことができ、ｐ_ＩＰＬＳ（ｋ，ｎ）は同様にｄ_２（ｋ，ｎ）を採用することによって演算される。

式（６）は、ｅ_１（ｋ，ｎ）およびｅ_２（ｋ，ｎ）が平行でない限りは、２Ｄで演算する場合に常に解を与える。しかし、３以上のマイクロフォンアレイを使用する場合、または３Ｄで演算する場合、方向ベクトルｄが交差しない場合には解は得られない。一実施形態によると、この場合、全ての方向ベクトルｄに最も近い点が演算され、その結果をＩＰＬＳの位置として使用することができる。

一実施形態では、全ての観察点ｐ_１、ｐ_２、・・・は、ＩＰＬＳによって放射された音が同じ時間的ブロックｎに入るように配置されるべきである。この要件は、観察点のうちの任意の２点間の距離Δが、
よりも小さい場合に簡単に満たされる。ここで、ｎ_ＦＦＴはＳＴＦＴのウインドウ長であり、０≦Ｒ＜１のＲは連続時間フレーム間の重なりを指定し、ｆ_ｓはサンプリング周波数である。例えば、５０％の重なり（Ｒ＝０．５）で４８ｋＨｚにおける１０２４ポイントのＳＴＦＴについて、上記要件を満たすアレイ間の最大間隔は、Δ＝３．６５ｍとなる。

以降において、一実施形態による情報演算モジュール２０２、例えば、仮想マイクロフォン信号およびサイド情報演算モジュールをより詳細に説明する。

図１８に、一実施形態による情報演算モジュール２０２の概略図を示す。情報演算部は、伝搬補償器５００、コンバイナ５１０およびスペクトル重み付け部５２０を備える。情報演算モジュール２０２は、サウンドイベント位置推定器によって推定された音源位置推定値ｓｓｐ、現実の空間マイクロフォンの１以上によって録音された１以上のオーディオ入力信号、現実の空間マイクロフォンの１以上の位置ｐｏｓＲｅａｌＭｉｃ、および仮想マイクロフォンの仮想位置ｐｏｓＶｍｉｃを受信する。それは、仮想マイクロフォンのオーディオ信号を示すオーディオ出力信号ｏｓを出力する。

図１９に、他の実施形態による情報演算モジュールを示す。図１９の情報演算モジュールは、伝搬補償器５００、コンバイナ５１０およびスペクトル重み付け部５２０を備える。伝搬補償器５００は、伝搬パラメータ演算モジュール５０１および伝搬補償モジュール５０４を備える。コンバイナ５１０は、合成ファクタ演算モジュール５０２および合成モジュール５０５を備える。スペクトル重み付け部５２０は、スペクトル重み付け部５０３、スペクトル重み付け適用モジュール５０６および空間サイド情報演算モジュール５０７を備える。

仮想マイクロフォンのオーディオ信号を演算するために、幾何情報、例えば、現実の空間マイクロフォン１２１・・・１２Ｎの位置および向き、仮想の空間マイクロフォン１０４の位置、向きおよび特性並びにサウンドイベント２０５の位置推定値が情報演算モジュール２０２に、特に、伝搬補償器５００の伝搬パラメータ演算モジュール５０１に、コンバイナ５１０の合成ファクタ演算モジュール５０２に、およびスペクトル重み付け部５２０のスペクトル重み付け演算部５０３に入力される。伝搬パラメータ演算モジュール５０１、合成ファクタ演算モジュール５０２およびスペクトル重み付け演算部５０３は、伝搬補償モジュール５０４、合成モジュール５０５およびスペクトル重み付け適用モジュール５０６におけるオーディオ信号１１１・・・１１Ｎの修正で使用されるパラメータを演算する。

情報演算モジュール２０２において、オーディオ信号１１１・・・１１Ｎは、まず、サウンドイベント位置と現実の空間マイクロフォンとの間の異なる伝搬長によって与えられる効果を補償するように修正されることになる。そして、信号は、例えば、信号−ノイズ比（ＳＮＲ）を改善するように合成されてもよい。最後に、結果として得られる信号は、任意の距離依存ゲイン関数だけでなく、仮想マイクロフォンの指向性ピックアップパターンを考慮に入れるようにスペクトル的に重み付けされてもよい。以下に、これらの３つのステップをより詳細に説明する。

ここで、伝搬補償をより詳細に説明する。図２０の上側部分に、２つの現実の空間マイクロフォン（第１のマイクロフォンアレイ９１０および第２のマイクロフォンアレイ９２０）、時間−周波数ビン（ｋ，ｎ）についての局在化されたサウンドイベントの位置９３０および仮想の空間マイクロフォンの位置９４０を示す。

図２０の下側部分は時間軸を示す。サウンドイベントが時刻ｔ０で放射されてから現実および仮想の空間マイクロフォンに伝搬するものとする。振幅だけでなく到来の時間遅延も時間とともに変化するので、伝搬距離が遠くなると、振幅は弱くなり、到来の時間遅延は長くなる。

この２つの現実のアレイにおける信号は、これらの相対遅延Ｄｔ１２が小さい場合に限り比較可能となる。そうでない場合には、これらの２つの信号の一方が時間的に再整列されて相対遅延Ｄｔ１２を補償し、おそらくは、拡縮されて異なる減衰を補償する必要がある。

仮想のマイクロフォンにおける到来と現実のマイクロフォンアレイにおける（現実の空間マイクロフォンの一方における）到来との間の遅延を補償することは、サウンドイベントの局在化とは無関係な遅延を変化させ、多くのアプリケーションに対して余計なものとなる。

図１９に戻り、伝搬パラメータ演算モジュール５０１は、遅延を、各現実の空間マイクロフォンについて、および各サウンドイベントについて補正されるように演算するように構成される。所望の場合には、それは異なる振幅減衰を補償することが考慮されるようにゲインファクタも演算する。

伝搬補償モジュール５０４は、これに従い、この情報を用いてオーディオ信号を修正するように構成される。信号が（フィルタバンクのタイムウインドウと比べて）少量の時間だけシフトされる場合には、単純な位相回転で足りる。遅延が大きい場合には、より複雑な実施構成が必要となる。

伝搬補償モジュール５０４の出力は、元の時間−周波数ドメインで表現される修正されたオーディオ信号である。

以降において、一実施形態による仮想マイクロフォンに対する伝搬補償の具体的な推定を、第１の現実の空間マイクロフォンの位置６１０および第２の現実の空間マイクロフォンの位置６２０を特に示す図１７を参照して説明する。

ここに説明する実施形態では、少なくとも第１の録音されたオーディオ入力信号、例えば、現実の空間マイクロフォン（例えば、マイクロフォンアレイ）のうちの少なくとも１つの圧力信号、例えば、第１の現実の空間マイクロフォンの圧力信号が利用可能であるものとする。検討されるマイクロフォンを基準マイクロフォンといい、その位置を基準位置ｐ_ｒｅｆといい、その圧力信号を基準圧力信号Ｐ_ｒｅｆ（ｋ，ｎ）という。しかし、伝搬補償は、１つの圧力信号に対してだけでなく、現実の空間マイクロフォンの複数または全ての圧力信号に対して行われてもよい。

ＩＰＬＳによって放射される圧力信号Ｐ_ＩＰＬＳ（ｋ，ｎ）とｐ_ｒｅｆに位置する基準マイクロフォンの基準圧力信号Ｐ_ｒｅｆ（ｋ，ｎ）との関係は、式（９）によって表現することができる。

一般に、複素ファクタγ（ｋ，ｐ_ａ，ｐ_ｂ）は、球面波のその原点からのｐ_ａからｐ_ｂへの伝搬によってもたらされる位相回転および振幅減衰を表す。しかし、現実のテストでは、γにおける振幅減衰のみを検討すれば、位相回転も検討する場合と比べて大幅に少ないアーティファクトを持つ仮想マイクロフォン信号で、もっともらしい印象が導かれることが示された。

空間の所定の点において測定され得る音エネルギーは、音源からの、図６では音源の位置ｐ_ＩＰＬＳからの、距離ｒに大きく依存する。多くの状況において、この依存性は、公知の物理的原理、例えば、点状音源の遠方場における音圧の１／ｒ減衰を用いて充分な精度でモデル化されることができる。基準マイクロフォンの距離、例えば、音源からの第１の現実のマイクロフォンの距離が既知である場合、そして音源からの仮想マイクロフォンの距離も既知である場合には、仮想マイクロフォンの位置における音エネルギーが、基準マイクロフォン、例えば、第１の現実の空間マイクロフォンの信号およびエネルギーから推定されることができる。これは、仮想マイクロフォンの出力信号は、適切なゲインを基準圧力信号に適用することによって得られることを意味する。

第１の現実の空間マイクロフォンが基準マイクロフォンであり、ｐ_ｒｅｆ＝ｐ_１であるものとする。図１７では、仮想マイクロフォンがｐ_ｖに位置する。図１７における幾何状態が詳細に把握されているので、基準マイクロフォン（図１７では、第１の現実の空間マイクロフォン）とＩＰＬＳとの距離ｄ_１（ｋ，ｎ）＝｜｜ｄ_１（ｋ，ｎ）｜｜は、仮想マイクロフォンとＩＰＬＳとの距離ｓ（ｋ，ｎ）＝｜｜ｓ（ｋ，ｎ）｜｜、すなわち、
とともに容易に判定される。

仮想マイクロフォンの位置における音圧Ｐ_ｖ（ｋ，ｎ）は、式（１）と式（９）を合成することによって演算され、
となる。

上述したように、いくつかの実施形態では、ファクタγは、伝搬に起因する振幅減衰だけを考慮するものである。音圧が１／ｒで減少するものとすると、
となる。

式（１）のモデルがあり、例えば、直接音のみが存在する場合には、式（１２）が絶対値情報を正確に再構成することができる。しかし、純粋な拡散音領域の場合、例えば、モデルの前提が成り立たない場合、提示された方法は、仮想マイクロフォンをセンサアレイの位置から離したときの信号の内在的な残響抑圧をもたらす。実際に、上述したように、拡散音領域では、ほとんどのＩＰＬＳが２つのセンサアレイの近くに局在化されることが予想される。したがって、仮想マイクロフォンをこれらの位置から遠ざけるときに、図１７において距離ｓ＝｜｜ｓ｜｜を増加気味にする。したがって、式（１１）による重み付けを適用する場合、基準圧力の大きさは減少する。これに対応して、仮想マイクロフォンを実際の音源に近づけると、直接音に対応する時間−周波数ビンは、オーディオ信号全体があまり拡散しない状態で知覚されるように増幅される。式（１２）における規則を調整することによって、直接音の増幅および拡散音の抑制を意のままに制御することができる。

第１の現実の空間マイクロフォンの録音されたオーディオ入力信号（例えば、圧力信号）に伝搬補償を実行することによって、第１の修正オーディオ信号が得られる。

実施形態においては、第２の現実の空間マイクロフォンの録音された第２のオーディオ入力信号（第２の圧力信号）に伝搬補償を実行することによって、第２の修正オーディオ信号が得られてもよい。

他の実施形態では、さらなる現実の空間マイクロフォンの録音されたさらなるオーディオ入力信号（さらなる圧力信号）に伝搬補償を実行することによって、さらなる修正オーディオ信号が得られてもよい。

ここで、一実施形態による図１９におけるブロック５０２とブロック５０５内の合成について、より詳細に説明する。異なる伝搬経路を補償して２以上の修正オーディオ信号を得るために、複数の異なる現実の空間マイクロフォンからの２以上のオーディオ信号が修正されたものとする。異なる伝搬経路を補償するために異なる現実の空間マイクロフォンからのオーディオ信号が一旦修正されると、それらが組み合わされてオーディオ品質を向上することができる。そのようにすることで、例えば、ＳＮＲが増加され、または残響が低減されることができる。

合成についての可能な解法としては、以下がある：
−重み付け平均、例えば、ＳＮＲ、仮想マイクロフォンまでの距離、または現実の空間マイクロフォンによって推定された拡散性を考慮して。従来的な解法、例えば、最大比合成（ＭＲＣ）または等ゲイン合成（ＥＱＣ）を採用できる。
−合成信号を得るための修正オーディオ信号の一部または全部の線形合成。修正オーディオ信号が線形合成において重み付けされて合成信号を得ることができる。または、
−選択。例えば、ＳＮＲ、距離または拡散性などに応じて、１つの信号のみが用いられる。

モジュール５０２の役割は、適用可能であれば、モジュール５０５で実行される合成のためのパラメータを演算することである。

ここで、実施形態によるスペクトル重み付けを詳細に説明する。これについては、図１９のブロック５０３および５０６が参照される。この最後のステップにおいて、合成から、または入力オーディオ信号の伝搬補償から得られるオーディオ信号は、入力１０４によって指定されるような仮想の空間マイクロフォンの空間的特性に応じて、および／または（２０５において与えられる）再構成された幾何状態に応じて、時間−周波数ドメインにおいて重み付けされる。

各時間−周波数ビンについて、幾何的再構成によって、図２１に示すような仮想マイクロフォンに対するＤＯＡを容易に得ることができる。またさらに、仮想マイクロフォンとサウンドイベントの位置との距離も容易に演算できる。

そして、時間−周波数ビンに対する重みが、所望される仮想マイクロフォンのタイプを考慮して演算される。

指向性マイクロフォンの場合、スペクトル重み付けを、予め定義されたピックアップパターンに応じて演算することができる。例えば、一実施形態によると、カージオイドマイクロフォンが、関数ｇ（θ）、
ｇ（θ）＝０．５＋０．５ｃｏｓ（θ）
によって定義されたピックアップパターンを有していてもよい。なお、θは、仮想の空間マイクロフォンを見る方向と、仮想マイクロフォンの視点からの音のＤＯＡとのなす角である。

他の可能性は芸術的な（非物理的な）減衰関数である。あるアプリケーションでは、仮想マイクロフォンから離れたサウンドイベントを、自由領域伝搬を特徴付けるものよりも大きいファクタで抑制することが望ましいことがある。この目的のため、いくつかの実施形態は、仮想マイクロフォンとサウンドイベントとの距離に依存する追加の重み付け関数を導入する。一実施形態では、仮想マイクロフォンからの所定の距離内（例えば、メートルで）のサウンドイベントのみがピックアップされるべきである。

仮想マイクロフォンの指向性に関して、任意の指向性パターンを仮想マイクロフォンに対して適用できる。そのようにすることで、例えば、ある音源を複雑なサウンドシーンから分離することができる。

音のＤＯＡは、仮想マイクロフォンの位置ｐ_ｖ内で演算され、
仮想マイクロフォンに対する任意の指向性を実現できる。ここで、ｃ_ｖは仮想マイクロフォンの指向を記述する単位ベクトルである。例えば、Ｐ_ｖ（ｋ，ｎ）は合成信号または伝搬補償された修正オーディオ信号を示すものとすると、数式：
は、カージオイド指向性を持つ仮想マイクロフォンの出力を計算する。このように潜在的に生成され得る指向パターンは、位置推定の精度に依存する。

実施形態では、１以上の現実の非空間的なマイクロフォン、例えば、無指向性マイクロフォンまたはカージオイドのような指向性マイクロフォンが、現実の空間マイクロフォンに加えてサウンドシーンに配置されて、図８に示す仮想マイクロフォン信号１０５のサウンド品質をさらに向上する。これらのマイクロフォンは何らの幾何的情報を収集するためにも使用されず、よりクリーンなオーディオ信号を供給するためだけに使用される。これらのマイクロフォンは、空間マイクロフォンよりも音源の近くに配置される。この場合、一実施形態によると、現実の非空間マイクロフォンのオーディオ信号およびそれらの位置は単に、現実の空間マイクロフォンのオーディオ信号の代わりの処理のために、図１９に示す伝搬補償モジュール５０４に入力される。そして、伝搬補償は、１以上の非空間マイクロフォンの位置に関して、１以上の非空間マイクロフォンの録音されたオーディオ信号に対して実行される。これによって、一実施形態が、追加の非空間マイクロフォンを用いて実現される。

さらなる実施形態では、仮想マイクロフォンの空間サイド情報の演算が実現される。マイクロフォンの空間サイド情報１０６を演算するために、図１９の情報演算モジュール２０２は、空間サイド情報演算モジュール５０７を備え、それは、音源の位置２０５並びに仮想マイクロフォンの位置、指向および特性１０４を入力として受信するように構成される。ある実施形態では、演算される必要があるサイド情報１０６に応じて、仮想マイクロフォンのオーディオ信号１０５を、空間サイド情報演算モジュール５０７への入力としても考慮することができる。

空間サイド情報演算モジュール５０７の出力は、仮想マイクロフォンのサイド情報１０６である。このサイド情報は、例えば、仮想マイクロフォンの視点から各時間−周波数ビン（ｋ，ｎ）について音のＤＯＡまたは拡散性であればよい。他の可能なサイド情報として、例えば、仮想マイクロフォンの位置で測定されたであろうアクティブな音の強度ベクトルＩａ（ｋ，ｎ）もあり得る。ここで、これらのパラメータがどのように導出されるかを説明する。

一実施形態によると、仮想の空間マイクロフォンに対するＤＯＡ推定が実現される。情報演算モジュール１２０は、仮想マイクロフォンの位置ベクトルに基づいて、および図２２に示されるサウンドイベントの位置ベクトルに基づいて、仮想マイクロフォンの到来方向を空間サイド情報として推定するように構成される。

図２２は、仮想マイクロフォンの視点から音のＤＯＡを導出する可能な方法を示す。図１９におけるブロック２０５によって与えられるサウンドイベントの位置は、各時間−周波数ビン（ｋ，ｎ）について、サウンドイベントの位置ベクトルである位置ベクトルｒ（ｋ，ｎ）で記述することができる。同様に、図１９における入力１０４として与えられる仮想マイクロフォンの位置は、仮想マイクロフォンの位置ベクトルである位置ベクトルｓ（ｋ，ｎ）で記述することができる。仮想マイクロフォンを見る方向はベクトルｖ（ｋ，ｎ）によって記述することができる。仮想マイクロフォンに対するＤＯＡは、ａ（ｋ，ｎ）によって与えられる。これは、ｖと音伝搬経路ｈ（ｋ，ｎ）とのなす角を表す。ｈ（ｋ，ｎ）は、数式：
を用いることによって演算される。

ここで、所望のＤＯＡａ（ｋ，ｎ）は、各（ｋ，ｎ）について、例えば、ｈ（ｋ，ｎ）とｖ（ｋ，ｎ）の内積の定義、すなわち、
によって演算できる。

他の実施形態では、情報演算モジュール１２０は、仮想マイクロフォンの位置ベクトルに基づいて、および図２２に示されるサウンドイベントの位置ベクトルに基づいて、仮想マイクロフォンにおけるアクティブな音の強度を空間サイド情報として推定するように構成されていてもよい。

上記に定義されるＤＯＡａ（ｋ，ｎ）から、仮想マイクロフォンの位置におけるアクティブな音の強度Ｉａ（ｋ，ｎ）を導出することができる。これについて、図１９における仮想マイクロフォンのオーディオ信号１０５が無指向性マイクロフォンの出力に対応するとした場合、例えば、仮想マイクロフォンは無指向性マイクロフォンであるものとする。さらに、図２２における視る方向ｖは座標系のｘ軸に平行であるものとする。所望のアクティブな音の強度ベクトルＩａ（ｋ，ｎ）は、仮想マイクロフォンの位置を通るエネルギーの総流量を記述するので、Ｉａ（ｋ，ｎ）は、数式：
に従って演算される。なお、［］^Ｔは転置ベクトルを示し、ｒｈｏは空気の密度であり、Ｐ_ｖ（ｋ，ｎ）は仮想の空間マイクロフォンによって測定された音圧であり、例えば、図１９におけるブロック５０６の出力１０５である。

一般座標系で表現されるがそれでも仮想マイクロフォンの位置においてアクティブな強度ベクトルが算出されるべき場合、以下の数式が適用されてもよい。

音の拡散性は、所与の時間−周波数スロットにおいて音場がどれだけ拡散しているかを表現する（例えば、非特許文献２参照）。拡散性は値Ψによって表現され、ここで、０≦Ψ≦１である。拡散性１は、音場の合計音場エネルギーが完全に拡散していることを示す。この情報は、例えば、空間音の再生において重要である。従来的には、拡散性はマイクロフォンアレイが配置される空間内の特定の点で演算される。

一実施形態によると、拡散性は、サウンドシーンにおける任意の位置に意のままに配置することができる仮想マイクロフォン（ＶＭ）に対して生成されたサイド情報に対する追加のパラメータとして演算されてもよい。これにより、仮想マイクロフォンの仮想位置におけるオーディオ信号以外に拡散性も計算する装置は、サウンドシーンにおける任意の点についてＤｉｒＡＣストリーム、すなわち、オーディオ信号、到来方向および拡散性を生成できるので、仮想ＤｉｒＡＣフロントエンドとしてみることができる。ＤｉｒＡＣストリームは、任意のマルチスピーカ設定においてさらに処理され、記憶され、送信され、および再生されることができる。この場合、視聴者は、あたかも彼または彼女が仮想マイクロフォンによって指定される位置にいるかのように、そしてその指向によって特定される方向を見ているかのようにサウンドシーンを体験する。

図２３は、仮想マイクロフォンにおける拡散性を演算するための拡散性演算部８０１を備える一実施形態による情報演算ブロックを示す。情報演算ブロック２０２は、図１４の入力に加えて、現実の空間マイクロフォンにおける拡散性も含む入力１１１−１１Ｎを受信するように構成される。Ψ^{（ＳＭ１）}−Ψ^{（ＳＭＮ）}がこれらの値を示すものとする。これらの追加的な入力は情報演算モジュール２０２に入力される。拡散演算部８０１の出力１０３は、仮想マイクロフォンの位置において演算される拡散性パラメータである。

一実施形態の拡散性演算部８０１を、より詳細な図２４において説明する。一実施形態によると、Ｎ個の空間マイクロフォンの各々における直接および拡散音のエネルギーが推定される。そして、ＩＰＬＳの位置についての情報および空間的な仮想マイクロフォンの位置についての情報を用いて、仮想マイクロフォンの位置におけるこれらのエネルギーのＮ個の推定値が得られる。最後に、推定値が合成されて推定精度を向上することができ、仮想マイクロフォンにおける拡散性パラメータを容易に演算することができる。

Ｅ_ｄｉｒ ^{（ＳＭ１）}からＥ_ｄｉｒ ^{（ＳＭＮ）}およびＥ_ｄｉｆｆ ^{（ＳＭ１）}からＥ_ｄｉｆｆ ^（ＳＭＮは、エネルギー解析部８１０によって演算されたＮ個の空間マイクロフォンの直接および拡散音のエネルギーの推定値を示す。ｉ番目の空間マイクロフォンについて、Ｐ_ｉが複素圧力信号でありΨ_ｉが拡散性である場合、エネルギーを、例えば、以下の数式によって演算することができる。

拡散音のエネルギーは、全ての位置で等しくなるべきであり、したがって、仮想マイクロフォンの拡散音エネルギーＥ_ｄｉｆｆ ^（ＶＭ）の推定値は、例えば、数式：
に従って、例えば、拡散性合成部８２０において、単に、Ｅ_ｄｉｒ ^{（ＳＭ１）}からＥ_ｄｉｒ ^{（ＳＭＮ）}までの平均をとることによって算出される。

推定値Ｅ_ｄｉｒ ^{（ＳＭ１）}からＥ_ｄｉｒ ^{（ＳＭＮ）}までのより効果的な合成は、推定器の分散を考慮することによって、例えば、ＳＮＲを考慮することによって、実行される。

直接音のエネルギーは、伝搬に起因して音源までの距離に依存する。したがって、これを考慮に入れて、Ｅ_ｄｉｒ ^{（ＳＭ１）}からＥ_ｄｉｒ ^{（ＳＭＮ）}までを修正することができる。これは、例えば、直接音伝搬調整部８３０によって実行されることができる。例えば、直接音領域のエネルギーが距離の二乗にわたって１減衰するとした場合、ｉ番目の空間マイクロフォンについての仮想マイクロフォンにおける直接音に対する推定値を、数式：
によって計算することができる。

拡散性合成部８２０と同様に、異なる空間マイクロフォンにおいて得られた直接音エネルギーの推定値を、例えば直接音合成部８４０によって、合成することができる。結果はＥ_ｄｉｒ ^（ＶＭ）であり、例えば、仮想マイクロフォンの直接音エネルギーに対する推定値となる。仮想マイクロフォンの拡散性Ψ^（ＶＭ）は、例えば拡散性副計算器８５０によって、数式：
により演算することができる。

上述したように、場合によっては、例えば、到来方向の誤った推定の場合において、サウンドイベント位置推定器によって実行されるサウンドイベントの位置推定は失敗する。図２５はそのようなシナリオを示す。これらの場合、異なる空間マイクロフォンで推定され、入力１１１−１１Ｎとして受信された拡散性パラメータにかかわらず、仮想マイクロフォンの拡散性１０３は、空間的にコヒーレントな再生ができないので、１（すなわち、完全に拡散）に設定されてもよい。

さらに、ＤＯＡ推定値の信頼性をＮ個の空間マイクロフォンにおいて考慮することができる。これは、例えば、ＤＯＡ推定器の分散またはＳＮＲの観点で表現され得る。そのような情報を拡散性副計算器８５０によって考慮することができるので、ＤＯＡ推定値に信頼性がない場合にＶＭ拡散性１０３を人工的に増加することができる。実際に、結果として、位置推定値２０５にも信頼性がなくなる。

図２ａは、一実施形態による、１以上の音源に関するオーディオデータを備えるオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成する装置１５０を示す。

装置１５０は、オーディオデータを備えるオーディオデータストリームを受信するための受信機１６０を備える。オーディオデータは、１以上の音源の各々についての１以上の圧力値を含む。さらに、オーディオデータは、音源の各々について、音源の１つの位置を示す１以上の位置値を含む。さらに、装置は、オーディオデータストリームのオーディオデータの１以上の圧力値のうちの少なくとも１つに基づいて、およびオーディオデータストリームのオーディオデータの１以上の位置値のうちの１つに基づいて、少なくとも１つのオーディオ出力信号を生成するための合成モジュール１７０を備える。オーディオデータは、複数の時間−周波数ビンのうちのある時間−周波数ビンについて定義される。音源の各々について、少なくとも１つの圧力値はオーディオデータで構成され、少なくとも１つの圧力値は、例えば、音源から発生する放射音波に関する圧力値であればよい。圧力値はオーディオ信号の値、例えば、仮想マイクロフォンのオーディオ出力信号を生成する装置によって生成されたオーディオ出力信号の圧力値であればよく、仮想マイクロフォンは音源の位置に配置される。

したがって、図２ａは、上記オーディオデータストリームを受信または処理するために採用され得る装置１５０を示す。すなわち、装置１５０は、受信機／合成側で採用される。オーディオデータストリームは、複数の音源の各々についての１以上の圧力値および１以上の位置値を備えるオーディオデータを有する。すなわち、圧力値および位置値の各々は、録音されるオーディオシーンの１以上の音源のうちの特定の音源に関連している。これは、位置値が、録音するマイクロフォンではなく音源の位置を示すことを意味する。圧力値について、これは、オーディオデータストリームが音源の各々についての１以上の圧力値を有していること、すなわち、圧力値が、現実の空間マイクロフォンの録音に関係する代わりに音源に関係するオーディオ信号であることを意味する。

一実施形態によると、受信機１６０はオーディオデータを備えるオーディオデータストリームを受信するように構成されていればよく、オーディオデータは音源の各々についての１以上の拡散値をさらに備える。合成モジュール１７０は、１以上の拡散値のうちの少なくとも１つに基づいて少なくとも１つのオーディオ出力信号を生成するように構成されていればよい。

図２ｂは、一実施形態による、１以上の音源に関する音源データを備えるオーディオデータストリームを生成する装置２００を示す。オーディオデータストリームを生成する装置２００は、少なくとも１つの空間マイクロフォンによって録音される少なくとも１つのオーディオ入力信号に基づいて、および少なくとも２つの空間マイクロフォンによって供給されるオーディオサイド情報に基づいて、音源データを判定するための判定器２１０を備える。さらに、装置２００は、オーディオデータストリームが音源データを備えるようにオーディオデータストリームを生成するためのデータストリーム生成器２２０を備える。音源データは音源の各々についての１以上の圧力値を含む。また、音源データは、音源の各々についての音源位置を示す１以上の位置値をさらに含む。さらに、音源データは、複数の時間−周波数ビンのうちのある時間−周波数ビンについて定義される。

装置２００によって生成されるオーディオデータストリームは、その後、送信される。したがって、装置２００は、解析／送信機側で採用されることになる。オーディオデータストリームは、複数の音源の各々についての１以上の圧力値および１以上の位置値を含むオーディオデータを有する。すなわち、圧力値および位置値の各々は、録音されるオーディオシーンの１以上の音源のうちの特定の音源に関係する。これは、位置値に関して、位置値が、録音するマイクロフォンではなく音源の位置を示すことを意味する。

さらなる実施形態では、判定器２１０は、少なくとも１つの空間マイクロフォンによる拡散性情報に基づいて音源データを判定するように構成される。データストリーム生成器２２０は、オーディオデータストリームが音源データを備えるようにオーディオデータストリームを生成するように構成されていればよい。音源データは、音源の各々についての１以上の拡散値をさらに含む。

図３ａは、一実施形態によるオーディオデータストリームを示す。オーディオデータストリームは、１つの時間−周波数ビンにおいてアクティブとなっている２つの音源に関するオーディオデータを有する。特に、図３ａは、時間−周波数ビン（ｋ，ｎ）について送信されるオーディオデータを示し、ここで、ｋは周波数インデックスを示し、ｎは時間インデックスを示す。オーディオデータは、第１の音源の圧力値Ｐ１、位置値Ｑ１および拡散値Ψ１を含む。位置値Ｑ１は、第１の音源の位置を示す３つの座標値Ｘ１、Ｙ１およびＺ１を含む。さらに、オーディオデータは、第２の音源の圧力値Ｐ２、位置値Ｑ２および拡散値Ψ２を含む。位置値Ｑ２は、第２の音源の位置を示す３つの座標値Ｘ２、Ｙ２およびＺ２を含む。

図３ｂは、他の実施形態によるオーディオストリームを示す。ここでも、オーディオデータは、第１の音源の圧力値Ｐ１、位置値Ｑ１および拡散値Ψ１を含む。位置値Ｑ１は、第１の音源の位置を示す３つの座標値Ｘ１、Ｙ１およびＺ１を含む。さらに、オーディオデータは、第２の音源の圧力値Ｐ２、位置値Ｑ２および拡散値Ψ２を含む。位置値Ｑ２は、第２の音源の位置を示す３つの座標値Ｘ２、Ｙ２およびＺ２を含む。

図３ｃは、オーディオデータストリームの他の説明を提供する。オーディオデータストリームは、幾何に基づく空間オーディオ符号化（ＧＡＣ）情報を与えるので、これを「幾何に基づく空間オーディオ符号化ストリーム」または「ＧＡＣストリーム」ともいう。オーディオデータストリームは、１以上の音源、例えば、１以上の等方性点状音源（ＩＰＬＳ）に関する情報を含む。既に上述したように、ＧＡＣストリームは、検討される時間−周波数ビンの周波数インデックスｋおよび時間インデックスｎに対して、以下の信号を含む:
・Ｐ（ｋ，ｎ）：音源、例えば、ＩＰＬＳの複素圧力。この信号は、潜在的に、直接音（ＩＰＬＳ自体から発生する音）および拡散音を含む。
・Ｑ（ｋ，ｎ）：音源、例えば、ＩＰＬＳの位置（例えば、３Ｄにおけるカーテシアン座標）：位置は、例えば、カーテシアン座標Ｘ（ｋ，ｎ）、Ｙ（ｋ，ｎ）、Ｚ（ｋ，ｎ）を含む。
・ＩＰＬＳの拡散性：Ψ（ｋ，ｎ）。このパラメータは、Ｐ（ｋ，ｎ）で構成される拡散音に対する直接音のパワー比に関連する。Ｐ（ｋ，ｎ）＝Ｐ_ｄｉｒ（ｋ，ｎ）＋Ｐ_ｄｉｆｆ（ｋ，ｎ）の場合、拡散性を表現する一つの可能性は、Ψ（ｋ，ｎ）＝｜Ｐ_ｄｉｆｆ（ｋ，ｎ）｜^２／｜Ｐ（ｋ，ｎ）｜^２となる。｜Ｐ（ｋ，ｎ）｜^２が既知である場合、他の等価な表現、例えば、直接−拡散比（ＤＤＲ）Γ＝｜Ｐｄｉｒ（ｋ，ｎ）｜^２／｜Ｐｄｉｆｆ（ｋ，ｎ）｜^２が可能となる。

既に述べたように、ｋおよびｎはそれぞれ周波数インデックスおよび時間インデックスを示す。所望の場合でかつ解析によってそれが可能な場合、２以上のＩＰＬＳを、所与の時間−周波数スロットで表現することができる。これは、Ｍ層の多レイヤとして図３ｃに示されるので、ｉ番目のレイヤに対する（すなわち、ｉ番目のＩＰＬＳに対する）圧力信号は、Ｐ_ｉ（ｋ，ｎ）で示される。便宜上、ＩＰＬＳの位置は、ベクトルＱ_ｉ（ｋ，ｎ）＝［Ｘ_ｉ（ｋ，ｎ），Ｙ_ｉ（ｋ，ｎ），Ｚ_ｉ（ｋ，ｎ）］^Ｔとして表すことができる。現状技術とは異なり、ＧＡＣストリームにおける全てのパラメータは、１以上の音源に対して、例えば、ＩＰＬＳに対して表されるので、録音位置との独立性を実現できる。図３ａおよび３ｂと同様に図３ｃにおいても、図における全ての数量が時間−周波数ドメインにおいて検討される。（ｋ，ｎ）の表記は説明の簡略化のため省略され、例えば、Ｐ_ｉはＰ_ｉ（ｋ，ｎ）を意味し、具体的にはＰ_ｉ＝Ｐ_ｉ（ｋ，ｎ）である。

以降において、一実施形態によるオーディオデータストリームを生成する装置をより詳細に説明する。図２ｂの装置のように、図４の装置は、判定器２１０、および判定器２１０に類似するデータストリーム生成器２２０を備える。判定器はオーディオ入力データを解析してどのデータストリーム生成器がオーディオデータストリームを生成するのかに基づいて音源を判定するので、判定器およびデータストリーム生成器を併せて、「解析モジュール」ということができる（図４における解析モジュール４１０参照）。

解析モジュール４１０は、Ｎ個の空間マイクロフォンの録音からＧＡＣストリームを演算する。所望のレイヤ数Ｍ（例えば、特定の時間−周波数ビンについて情報がオーディオデータストリームで構成されるべき音源の数）、空間マイクロフォンのタイプおよび数Ｎに応じて、解析のための異なる方法が考えられる。いくつかの例が以降に与えられる。

第１の例として、時間−周波数スロットあたりの、１つの音源、例えば、１つのＩＰＬＳに対するパラメータ推定が検討される。Ｍ＝１の場合、仮想の空間マイクロフォンが音源の位置、例えば、ＩＰＬＳの位置に配置される、仮想マイクロフォンのオーディオ出力信号を生成する装置について上述したコンセプトによって、ＧＡＣストリームを容易に得ることができる。これにより、圧力信号を対応の位置推定値および潜在的に拡散性とともにＩＰＬＳの位置において計算することが可能となる。これらの３つのパラメータはＧＡＣストリームにおいてともにグループ化され、送信または記憶される前に、図８におけるモジュール１０２によってさらに操作されることができる。

例えば、判定器は、仮想マイクロフォンのオーディオ出力信号を生成する装置のサウンドイベントの位置推定について提案されたコンセプトを採用することによって、音源の位置を判定することができる。さらに、判定器は、オーディオ出力信号を生成する装置を備え、仮想マイクロフォンの位置として判定された音源位置を用いて音源の位置における圧力値（例えば、生成されるオーディオ出力信号の値）および拡散性を算出することができる。

特に、例えば、図４における判定器２１０は、圧力信号、対応する位置推定値および対応する拡散性を判定するように構成される一方、データストリーム生成器２２０は、算出された圧力信号、位置推定値および拡散性に基づいてオーディオデータストリームを生成するように構成される。

他の例として、時間−周波数スロットあたりの、２つの音源、例えば、２つのＩＰＬＳについてのパラメータ推定値が検討される。解析モジュール４１０が、時間−周波数ビンあたりの２つの音源を推定する場合、現状技術の推定器に基づいて以下のコンセプトを用いることができる。

図５に、２つの音源および２つの均一線形マイクロフォンアレイで構成されるサウンドシーンを示す。非特許文献２４に示されるＥＳＰＲＩＴを例に説明する。

ＥＳＰＲＩＴ（非特許文献２４）が各アレイに個別に採用されて、各アレイにおいて各時間−周波数ビンについて２つのＤＯＡ推定値を得ることができる。対形成の両義性のために、音源の位置について２つの可能な解が生じる。図５から分かるように、２つの可能な解が（１，２）および（１’，２’）で与えられる。この両義性を解消するために、以下の解法を適用することができる。各音源で放射された信号は、推定される音源位置の方向に向けられたビーム形成器を用いて、適切なファクタを適用して伝搬を補償すること（例えば、音波によって経験される減衰の逆数を乗ずること）によって推定される。これは、可能な解の各々について、各アレイにおける各音源に対して実行されることができる。そして、音源（ｉ，ｊ）の各対について、

として推定誤差を定義できる。なお、（ｉ，ｊ）∈｛（１，２），（１’，２’）｝であり（図５参照）、Ｐ_ｉ，ｊは音源ｉからアレイｒによって見られる補償された信号パワーの略である。誤差は、実際の音源対に対して最小である。対形成の問題が解消され、正しいＤＯＡ推定値が演算されると、これらは、対応する圧力信号および拡散性推定値とともにＧＡＣストリームにグループ化される。圧力信号および拡散推定値を、１つの音源に対するパラメータ推定について既に上述した同様の方法を用いて得ることができる。

図６ａは、一実施形態によるオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成する装置６００を示す。装置６００は、受信機６１０および合成モジュール６２０を備える。受信機６１０は、少なくとも１つの音源に関して、オーディオデータの圧力値の少なくとも１つ、オーディオデータの位置値の少なくとも１つ、またはオーディオデータの拡散値の少なくとも１つを修正することによって、受信オーディオデータストリームのオーディオデータを修正する修正モジュール６３０を備える。

図６ｂは、一実施形態による１以上の音源に関する音源データを備えるオーディオデータストリームを生成する装置６６０を示す。オーディオデータストリームを生成する装置は、判定器６７０、データストリーム生成器６８０、さらには音源の少なくとも１つに関してオーディオデータの圧力値の少なくとも１つ、オーディオデータの位置値の少なくとも１つまたはオーディオデータの拡散値の少なくとも１つを修正することによってデータストリーム生成器によって生成されたオーディオデータストリームを修正する修正モジュール６９０を備える。

図６ａの修正モジュール６１０は受信機／合成側に採用されるが、図６ｂの修正モジュール６６０は、送信機／分析側に採用される。

修正モジュール６１０および６６０によって行われたオーディオデータストリームの修正も、音源の修正としてみなすことができる。したがって、修正モジュール６１０および６６０を、サウンドシーン操作モジュールともいうものとする。

ＧＡＣストリームによって与えられる音場表示によって、オーディオデータストリームの異なる種類の修正、すなわち、結果としてサウンドシーンの操作が可能となる。この文脈におけるいくつかの例が以下に挙げられる；
１．サウンドシーンにおいて、空間／容積の任意の部分を拡大する（例えば、点状の音源を、それが視聴者に幅広にみえるようにするために拡大する）
２．サウンドシーンにおいて、空間／容積の選択部分を、空間／容積の他の何らかの任意の部分に変換する（変換された空間／容積は、例えば、新たな場所へ移動される必要がある音源を含む）
３．位置に基づくフィルタリング、ここでは、サウンドシーンの選択領域が強調され、または部分的に／完全に抑制される。

以降において、オーディオデータストリーム、例えば、ＧＡＣストリームのレイヤは、特定の時間−周波数ビンに関して音源の１つの全てのオーディオデータを備えるものとする。

図７は、一実施形態による修正モジュールを示す。図７の修正部は、デマルチプレクサ４０１、操作プロセッサ４２０およびマルチプレクサ４０５を備える。

デマルチプレクサ４０１はＭ層ＧＡＣストリームの異なるレイヤを分離し、Ｍ個の単層レイヤＧＡＣストリームを形成するように構成される。さらに、操作プロセッサ４２０は、処理部４０２、４０３および４０４を備え、これらはＧＡＣストリームの各々に個別に適用される。さらに、マルチプレクサ４０５は、操作された単層レイヤＧＡＣストリームから、結果として得られるＭ層ＧＡＣストリームを形成するように構成される。

ＧＡＣストリームからの位置データおよび現実の音源（例えば、話者）の位置についての知識に基づいて、エネルギーは、各時間−周波数ビンについての所定の現実の音源に対応付けられることができる。そして、圧力値Ｐはそれに従って重み付けされてそれぞれの現実の音源（例えば、話者）の音量を修正する。これは、現実の音源（例えば、話者）の位置の演繹的情報または推定値を必要とする。

いくつかの実施形態では、現実の音源の位置についての知識が利用可能である場合には、ＧＡＣストリームからの位置データに基づいて、エネルギーを時間−周波数ビンごとに所定の現実の音源に対応付けることができる。

オーディオデータストリーム、例えば、ＧＡＣストリームの操作は、図６ａの少なくとも１つのオーディオ出力信号を生成する装置６００の修正モジュール６３０、すなわち、受信機／合成側で起こり、および／または図６ｂのオーディオデータストリームを生成する装置６６０の修正モジュール６９０、すなわち、送信機／解析側で起こる。

例えば、オーディオデータストリーム、すなわち、ＧＡＣストリームを、送信に先立って、または送信後の合成の前に修正することができる。

受信機／合成側における図６ａの修正モジュール６３０とは異なり、送信機／解析側における図６ｂの修正モジュール６９０は、入力１１１−１１Ｎ（録音される信号）および１２１−１２Ｎ（空間マイクロフォンの相対位置および向き）からの追加の情報、この情報は送信機側で利用可能となる、を利用することができる。この情報を用いて、図８に示す代替実施形態による修正部を実現することができる。

図９に、システムの模式的概略を示すことによって一実施形態を示し、ここでは、ＧＡＣストリームが送信機／解析側で生成され、選択的に、ＧＡＣストリームは送信機／解析側において修正モジュール１０２によって修正されてもよいし、選択的に、ＧＡＣストリームは修正モジュール１０３によって受信機／合成側において修正されてもよく、そして、ＧＡＣストリームは複数のオーディオ出力信号１９１・・・１９Ｌを生成するのに使用される。

送信機／解析側において、音場表示（例えば、ＧＡＣストリーム）は入力１１１−１１Ｎ、すなわち、Ｎ≧２個の空間マイクロフォンで録音される信号から、および入力１２１−１２Ｎ、すなわち、空間マイクロフォンの相対位置および向きから処理部１０１で演算される。

処理部１０１の出力は前述の音場表示であり、以降において、幾何に基づく空間的オーディオ符号化（Ｇｅｏｍｅｔｒｙ−ｂａｓｅｄｓｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇ：ＧＡＣ）ストリームと記す。非特許文献１９における提案と同様に、そして、構成可能な仮想位置における仮想マイクロフォンのオーディオ出力信号を生成する装置について説明したように、複雑なサウンドシーンは、短時間フーリエ変換（ＳＴＦＴ）によって与えられるもののような時間−周波数表示における特定のスロットにおいてアクティブとなる音源、例えば、等方性の点状音源（ＩＰＬＳ）によってモデル化される。

ＧＡＣストリームは、操作部ともいわれる選択的な修正モジュール１０２においてさらに処理されてもよい。修正モジュール１０２によって多数のアプリケーションが可能となる。そして、ＧＡＣストリームは、送信され、または記憶される。ＧＡＣストリームのパラメトリックな性質は、非常に効率的である。合成／受信機側において、もう１つの選択的な修正モジュール（操作部）１０３を採用してもよい。結果として得られるＧＡＣストリームは、スピーカ信号を生成する合成部１０４に入る。録音処理からの表示の独立性を考慮すると、再生側のエンドユーザは、サウンドシーンを潜在的に操作し、サウンドシーン内で視聴位置および向きを自由に決定することができる。

オーディオデータストリーム、例えば、ＧＡＣストリームの修正／操作は、図９における修正モジュール１０２および／または１０３において、モジュール１０２の送信に先立って、または合成１０３の前であって送信の後に、ＧＡＣストリームを修正することによって行われる。受信機／合成側における修正モジュール１０３とは異なり、送信機／解析側における修正モジュール１０２は、入力１１１−１１Ｎ（空間マイクロフォンによって与えられるオーディオデータ）および１２１−１２Ｎ（空間マイクロフォンの相対位置および向き）からの追加の情報、この情報は送信機側で利用可能となる、を利用することができる。図８は、この情報を用いる修正モジュールの代替実施形態を示す。

ＧＡＣストリームの操作についての異なるコンセプトの例を、図７および図８を参照して以下に説明する。同じ参照符号が付された処理部は同じ機能を有する。

１．容積の拡張
シーンにおける所定のエネルギーが、容積Ｖ内に位置するものとする。容積Ｖは、ある環境の所定の領域を示すものであればよい。Θは、対応の音源、例えば、ＩＰＬＳが容積Ｖ内で局在化される時間−周波数ビン（ｋ，ｎ）のセットを示す。

容積Ｖから他の容積Ｖ’への拡張が所望される場合、これは、（ｋ，ｎ）∈Θ（決定部４０３において評価される）である場合には常にＧＡＣストリームにおいてランダム項を位置データに追加し、図７および８における処理部４０４の出力４３１−４３Ｍが以下となるようにＱ（ｋ，ｎ）＝［Ｘ（ｋ，ｎ），Ｙ（ｋ，ｎ），Ｚ（ｋ，ｎ）］^Ｔ（インデックス層は便宜上省いている）を代入することによって達成される。
ここで、Φ_ｘ、Φ_ｙおよびΦ_ｚは、その範囲が元の容積Ｖに対する新たな容積Ｖ’の幾何状態に依存するランダム変数である。このコンセプトは、例えば、音源が幅広に知覚されるようにするために採用できる。この例では、元の容積Ｖは極めて小さく、すなわち、音源、例えば、ＩＰＬＳが全ての（ｋ，ｎ）∈Θについて同じ点Ｑ（ｋ，ｎ）＝［Ｘ（ｋ，ｎ），Ｙ（ｋ，ｎ），Ｚ（ｋ，ｎ）］^Ｔに局在化されるべきである。このメカニズムは、位置パラメータＱ（ｋ，ｎ）のディザリングの形態で理解される。

一実施形態によると、音源の各々の位置値の各々は少なくとも２つの座標値からなり、修正モジュールは、ある環境の所定エリア内に音源が位置することを座標値が示す場合に、少なくとも１つのランダム数を座標値に加算することによって座標値を修正するように構成される。

２．容積変換
容積拡張に加えて、ＧＡＣストリームからの位置データを、音場内の空間／容積の部分を再配置するように修正することができる。この場合も、操作されるデータは、局在化されたエネルギーの空間座標からなる。

Ｖは再配置されるべき容積を示し、Θはエネルギーが容積Ｖ内に局在化される全ての時間−周波数ビン（ｋ，ｎ）のセットを示す。ここでも、容積Ｖは、ある環境の所定エリアを示すものであればよい。

容積再配置は、全ての時間−周波数ビン（ｋ，ｎ）∈Θについて、Ｑ（ｋ，ｎ）が処理部４０４の出力４３１−４３Ｍにおけるｆ（Ｑ（ｋ，ｎ））によって置き換えられるようにＧＡＣストリームを修正することによって、達成される。ここで、ｆは、実行される容積操作を記述する空間座標（Ｘ，Ｙ，Ｚ）の関数である。関数ｆは、回転、平行移動などの簡単な線形変換、または他の任意の複雑な非線形マッピングを示す。この技術は、例えば、音源が容積Ｖ内で局在確認された時間−周波数ビンのセットにΘが対応することを確かめることによって、音源をある位置からサウンドシーン内の他の位置に移動させるのに使用することができる。この技術によって、シーン鏡像化、シーン回転、シーン拡大および／または縮小などのような、サウンドシーン全体への他の種々の複雑な操作が可能となる。例えば、容積Ｖに対して適切な線形マッピングを適用することによって、容積拡張の相補的効果、すなわち、容積縮小が実現され得る。これは、（ｋ，ｎ）∈ΘについてＱ（ｋ，ｎ）をｆ（Ｑ（ｋ，ｎ））∈Ｖ’にマッピングすることによってなされる。ここで、Ｖ’⊂Ｖであり、Ｖ’はＶよりも充分に小さい容積からなる。

一実施形態によると、修正モジュールは、ある環境の所定エリア内の位置に音源が位置することを座標値が示す場合に、座標値に確定的な関数を適用することによって、座標値を修正するように構成される。

３．位置に基づくフィルタリング
幾何に基づくフィルタリング（すなわち、位置に基づくフィルタリング）の概念は、サウンドシーンから空間／容積の部分を強調し、または完全に／部分的に除去する方法を与える。しかし、この場合、容積拡張および変換技術と比べて、適切なスカラー重み付けを適用することによって、ＧＡＣストリームからの圧力データのみが修正される。

幾何に基づくフィルタリングでは、送信機側１０２と受信機側の修正モジュール１０３とは、図８に示すように、前者が、力１１１−１１Ｎおよび１２１−１２Ｎを用いて、適切なフィルタ重み付けの演算を補助することにおいて異なる。目的が、空間／容積Ｖの選択部分から発生するエネルギーの抑制／増強であるとすると、幾何に基づくフィルタリングは、以下のように適用される。

全ての（ｋ，ｎ）∈Θについて、ＧＡＣストリームにおける複素圧力Ｐ（ｋ，ｎ）は、４０２の出力において、ηＰ（ｋ，ｎ）に修正される。ここで、ηは、例えば処理部４０２によって演算される、現実の重み付けファクタである。実施形態によっては、モジュール４０２を、拡散性に依存する重み付けファクタを演算するように構成することもできる。

幾何に基づくフィルタリングのコンセプトを、信号増強および音源分離のような複数のアプリケーションで使用することができる。アプリケーションのいくつかおよび必要な演繹的情報は以下を備える：
・残響。部屋の幾何状態を把握することによって、空間フィルタを、複数経路の伝搬によってもたらされる部屋境界外で局在確認されたエネルギーを抑制するのに使用することができる。このアプリケーションは、例えば、会議室および車内でのハンドフリー会話に利用できそうである。なお、遅い残響を抑制するためには、高い拡散性が場合、フィルタを閉じれば充分である。一方、早い反射を抑制するためには、位置依存型フィルタがより効果的である。この場合、既に述べたように、部屋の幾何状態が演繹的に把握される必要がある。
・背景ノイズ抑制。同様のコンセプトが背景ノイズを抑制するためにも使用できる。音源が位置し得る候補領域（例えば、会議室における参加者の椅子または車内の座席）が既知である場合には、これらの領域外に位置するエネルギーは背景ノイズに対応付けられ、したがって空間フィルタによって抑制される。このアプリケーションは、ＧＡＣストリームにおける利用可能なデータに基づいて、音源のおおよその位置の演繹的情報または推定値を必要とする。
・点状干渉の抑制。干渉が空間においてはっきりと局在化される場合、干渉の位置において局在化されるエネルギーを減衰させるのに、拡散よりも、位置に基づくフィルタリングを適用できる。これは、干渉の位置の演繹的情報または推定値を必要とする。
・エコー制御。この場合、抑制されるべき干渉はスピーカの信号である。この目的のため、点状干渉の場合と同様に、スピーカ位置またはその近接位置に局在化されるエネルギーが抑制される。これは、スピーカ位置の演繹的情報または推定値を必要とする。
・増強された音声検出。幾何に基づくフィルタリングの発明に対応付けられる信号増強技術が、例えば、車内における従来的な音声アクティビティ検出システムの前処理ステップとして実施される。残響またはノイズ抑制がアドオンされて、システム性能を向上させることができる。
・調査監視。所定のエリアからのエネルギーのみを維持して残りを抑制することは、調査監視アプリケーションにおいて一般に使用される技術である。これは、対象となるエリアの幾何および位置についての演繹的情報を必要とする。
・音源分離。同時にアクティブとなる複数の音源がある環境において、幾何に基づく空間フィルタリングを音源分離に対して適用できる。音源の位置を中心として適切に設計された空間フィルタを配置することによって、同時にアクティブとなる他の音源の抑制／減衰がもたらされる。この技術革新は、例えば、ＳＡＯＣにおけるフロントエンドとして使用される。音源位置の演繹的情報または推定値が必要となる。
・位置依存型自動ゲイン制御（ＡＧＣ）。位置に依存する重み付けが使用されて、例えば、テレビ会議アプリケーションにおける異なる話者の声の大きさを等化することができる。

以降において、実施形態による合成モジュールを説明する。一実施形態によると、合成モジュールは、オーディオデータストリームのオーディオデータの少なくとも１つの圧力値に基づいて、およびオーディオデータストリームのオーディオデータの少なくとも１つの位置値に基づいて、少なくとも１つのオーディオ出力信号を生成するように構成される。少なくとも１つの圧力値は、圧力信号、例えばオーディオ信号の圧力値である。

ＧＡＣ合成における動作の原理は、非特許文献２５で与えられる空間音の知覚についての前提によって動機付けられる。

特に、サウンドシーンの空間イメージを正しく知覚するのに必要な空間キューを、各時間−周波数ビンについての非拡散音の１つの到来方向を正しく再現することによって、得ることができる。したがって、図１０ａに示すこの合成は２段階に分けられる。

第１の段階は、サウンドシーン内の視聴者の位置および向きを検討し、Ｍ個のＩＰＬＳのうちのどれが各時間−周波数ビンについて支配的かを判定する。結果として、その圧力信号Ｐ_ｄｉｒおよび到来方向θが演算される。残りの音源および拡散音は、第２の圧力信号Ｐ_ｄｉｆｆにまとめられる。

第２の段階は、非特許文献２５に記載されるＤｉｒＡＣ合成の後半と同じである。非拡散音は点状音源を生成するパン機構で再生される一方、拡散音は、相関分離されてから、全てのスピーカから再生される。

図１０ａは、ＧＡＣストリームの合成を示す一実施形態による合成モジュールを示す。

第１段の合成部５０１は、別個に再生される必要がある圧力信号Ｐ_ｄｉｒおよびＰ_ｄｉｆｆを演算する。実際に、Ｐ_ｄｉｒは空間にコヒーレントに再生されなければならない音で構成され、Ｐ_ｄｉｆｆは拡散音で構成される。第１段の合成部５０１の第３の出力は、所望の視聴位置の視点からの到来方向（ＤＯＡ）θ５０５、すなわち、到来方向情報である。なお、到来方向（ＤＯＡ）は、２Ｄ空間の場合にはアジマス角として表され、３Ｄにおいてはアジマスおよび仰角の対によって表される。等価的には、ＤＯＡにおいて指し示される単位ノルムベクトルが使用されればよい。ＤＯＡは、（所望の視聴位置に対して）どの方向から信号Ｐ_ｄｉｒが来るべきなのかを指定する。第１段の合成部５０１はＧＡＣストリームを入力、すなわち、音場のパラメトリック表示として取得し、入力１４１によって指定される視聴者の位置および向きに基づいて上記信号を演算する。実際に、エンドユーザは、ＧＡＣストリームによって記述されるサウンドシーン内で視聴位置および向きを自由に決定できる。

第２段の合成部５０２は、スピーカ設定１３１の知識に基づいて、Ｌ個のスピーカ信号５１１−５１Ｌを演算する。処理部５０２が非特許文献２５に記載されるＤｉｒＡＣ合成の後半と同じであることを思い出してほしい。

図１０ｂは、一実施形態による第１の合成段部を示す。ブロックに供給される入力は、Ｍ層のレイヤで構成されたＧＡＣストリームである。第１のステップにおいて、処理部６０１はＭ層のレイヤを各１層のＭ個の並列ＧＡＣストリームに多重分離する。

ｉ番目のＧＡＣストリームは、圧力信号Ｐ_ｉ、拡散性Ψ_ｉおよび位置ベクトルＱ_ｉ＝［Ｘ_ｉ，Ｙ_ｉ，Ｚ_ｉ］^Ｔを有する。圧力信号Ｐ_ｉは１以上の圧力値を含む。位置ベクトルは位置値である。ここでは、少なくとも１つのオーディオ出力信号が、これらの値に基づいて生成される。

直接音および拡散音に対する圧力信号Ｐ_ｄｉｒおよびＰ_ｄｉｆｆは、拡散性Ψ_ｉから求められる適切なファクタを適用することによって、Ｐ_ｉから得られる。直接音を含む圧力信号は伝搬補償ブロック６０２に入力され、伝搬補償ブロック６０２は、音源位置、例えば、ＩＰＬＳの位置、から視聴者の位置への信号伝搬に対応する遅延を演算する。これに加えて、このブロックはまた、異なる大きさの減衰を補償するために必要なゲインファクタを演算する。他の実施形態では、異なる大きさの減衰のみが補償されるが、遅延は補償されない。

保障された圧力信号
はブロック６０３に入力され、ブロック６０３は最も強い入力のインデックスｉ_ｍａｘ
を出力する。

このメカニズムの根底にある主たる概念は、検討中の時間−周波数ビンにおいてアクティブとなっているＭ個のＩＰＬＳの中で、（視聴者の位置に対して）最も強いもののみが、コヒーレントに（すなわち、直接音として）再生されることになることである。ブロック６０４および６０５は、それらの入力から、ｉ_ｍａｘで定義されるものを選択する。ブロック６０７は、視聴者の位置および向き（入力１４１）に関するｉ_ｍａｘ番目のＩＰＬＳの到来方向を演算する。ブロック６０４の出力
は、ブロック５０１の出力、すなわち、ブロック５０２によって直接音として再生されることになる音信号Ｐ_ｄｉｒに対応する。拡散音、すなわち出力５０４Ｐ_ｄｉｆｆは、ｉ_ｍａｘ番目を除く、すなわち、∀ｊ≠ｉ_ｍａｘの全ての直接音信号
と同様に、Ｍ個のブランチにおける全ての拡散音の合計からなる。

図１０ｃに、第２の合成段部５０２を示す。既に述べたように、この段は、非特許文献２５において提案されている合成モジュールの後半と同じである。非拡散音Ｐ_ｄｉｒ５０３は、例えば、パンすることによって、ゲインが、到来方向（５０５）に基づいて、ブロック７０１において演算される点状音源として再生される。一方、拡散音Ｐ_ｄｉｆｆは、Ｌ個の個別の相関分離器（７１１−７１Ｌ）を通る。Ｌ個のスピーカ信号の各々について、直接および拡散音経路が、逆フィルタバンク（７０３）を通る前に追加される。

図１１に、代替実施形態による合成モジュールを示す。図中の全ての数量は、時間−周波数ドメインにおいて検討され、（ｋ，ｎ）の表記は、例えば、Ｐ_ｉ＝Ｐ_ｉ（ｋ，ｎ）のように便宜上省かれる。複数の複雑な音源、例えば、同時にアクティブとなる多数の音源の場合の再生におけるオーディオ品質を向上するために、合成モジュール、例えば、合成モジュール１０４を、例えば、図１１に示すように実現することができる。コヒーレントに再生される最も支配的なＩＰＬＳを選択するのではなく、図１１における合成は、Ｍ層の各々の完全な合成を個別に実行する。ｉ層目のレイヤからのＬ個のスピーカ信号は、ブロック５０２の出力であり、１９１_ｉ−１９Ｌ_ｉで示される。第１の合成段部５０１におけるｈ番目のスピーカ信号１９ｈは、１９ｈ_１−１９ｈ_Ｍの合計である。なお、図１０ｂとは異なり、ブロック６０７におけるＤＯＡ推定ステップは、Ｍ層のレイヤの各々について実行される必要はない。

図２６に、一実施形態による仮想マイクロフォンのデータストリームを生成する装置９５０を示す。仮想マイクロフォンのデータストリームを生成する装置９５０は、上記実施形態の１つによる、例えば、図１２による仮想マイクロフォンのオーディオ出力信号を生成する装置９６０、および上記実施形態の１つによる、例えば、図２ｂによるオーディオデータストリームを生成する装置９７０を備える。この装置９７０によって生成されるオーディオデータストリームは、仮想マイクロフォンのデータストリームである。

仮想マイクロフォンのオーディオ出力信号を生成するための、例えば、図２６における装置９６０は、サウンドイベント位置推定器および図１２にあるような情報演算モジュールを備える。サウンドイベント位置推定器は、環境におけるサウンドシーンの位置を示す音源位置を推定するように構成され、環境において第１の現実のマイクロフォン位置に配置される第１の現実の空間マイクロフォンによって与えられる第１の指向情報に基づいて、および環境において第２の現実のマイクロフォン位置に配置される第２の現実の空間マイクロフォンによって与えられる第２の指向情報に基づいて、音源位置を推定するように構成される。情報演算モジュールは、録音されるオーディオ入力信号に基づいて、第１の現実のマイクロフォン位置に基づいて、および計算されたマイクロフォン位置に基づいて、オーディオ出力信号を生成するように構成される。

仮想マイクロフォンのオーディオ出力信号を生成する装置９６０は、オーディオデータストリームを生成する装置９７０にオーディオ出力信号を供給するように構成される。オーディオデータストリームを生成する装置９７０は、判定器、例えば、図２ｂに関して説明した判定器２１０を備える。オーディオデータストリームを生成する装置９７０の判定器は、仮想マイクロフォンのオーディオ出力信号を生成する装置９６０によって供給されるオーディオ出力信号に基づいて、音源データを判定する。

図２７は、上記実施形態の１つによるオーディオデータストリームに基づいて、少なくとも１つのオーディオ出力信号を生成する装置９８０、例えば、仮想マイクロフォンのデータストリームを生成する装置９５０、例えば、図２６における装置９５０によって供給されるオーディオデータストリームとして、仮想マイクロフォンのデータストリームに基づいて、オーディオ出力信号を生成するように構成されている請求項１の装置を示す。

仮想マイクロフォンのデータストリームを生成する装置９８０は、オーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成する装置９８０に、生成された仮想マイクロフォン信号を入力する。なお、仮想マイクロフォンのデータストリームは、オーディオデータストリームである。オーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成する装置９８０は、例えば、図２ａの装置に関して述べたように、オーディオデータストリームとして、仮想マイクロフォンのデータストリームに基づいて、オーディオ出力信号を生成する。

図１は、一実施形態による統合オーディオ出力信号を生成する装置を示す。

一実施形態では、装置は複数の単層オーディオデータストリームを取得するためのデマルチプレクサ１８０を備え、デマルチプレクサ１８０は１以上の入力オーディオデータストリームを受信するように構成され、各入力オーディオデータストリームは１層以上のレイヤを含み、デマルチプレクサ１８０は、１以上の多重分離されたオーディオデータストリームがともに入力オーディオデータストリームの１層以上のレイヤを含むように、１層以上のレイヤを有する入力オーディオデータストリームの各々を１層だけのレイヤを有する２以上の多重分離オーディオデータストリームに多重分離して、２以上の単層オーディオデータストリームを得るように構成される。

さらなる実施形態では、装置は複数の単層オーディオデータストリームを取得するためのデマルチプレクサ１８０を備え、デマルチプレクサ１８０は２以上の入力オーディオデータストリームを受信するように構成され、各入力オーディオデータストリームは１層以上のレイヤを含み、デマルチプレクサ１８０は、２以上の多重分離されたオーディオデータストリームがともに入力オーディオデータストリームの２層以上のレイヤを含むように、２層以上のレイヤを有する入力オーディオデータストリームの各々を１層だけのレイヤを有する２以上の多重分離オーディオデータストリームに多重分離して、単層オーディオデータストリームの２以上を得るように構成される。

さらに、装置は、複数の単層オーディオデータストリームに基づいて、１層以上のレイヤを有する統合オーディオデータストリームを生成するための統合モジュール１９０を備える。入力データオーディオストリーム、多重分離されたオーディオデータストリーム、単層データストリームおよび統合オーディオデータストリームの各レイヤは、圧力信号の圧力値、位置値および拡散値をオーディオデータとして備え、オーディオデータは複数の時間−周波数ビンのうちのある時間−周波数ビンについて定義される。

一実施形態では、装置は、１層だけを有する１以上の受信入力オーディオデータストリームをデマルチプレクサに入力せずに統合モジュールに直接入力するように構成されることができる。破線１９５が参照される。

いくつかの実施形態では、デマルチプレクサ１８０は、多重分離されたオーディオデータストリームによって表された異なるサウンドシーンのボリューム（例えば、音量）を等化するために、多重分離されたオーディオデータストリームの圧力値を修正するように構成される。例えば、２つのオーディオデータストリームが２つの異なる録音環境から発生し、かつ（例えば、マイクロフォンから離れている音源に起因して、または単に感度が悪い若しくは前段増幅器のゲインが低いマイクロフォンに起因して）第１のものが低いボリュームで特徴付けられる場合、スカラーを第１のオーディオデータストリームの圧力値に乗じることによって第１のオーディオデータストリームのボリュームを増加することが可能である。同様に、第２のオーディオデータストリームのボリュームを同様のやり方で減少させることも可能である。

図２８は、他の実施形態による統合オーディオデータストリームを生成する装置の入力および出力を示す。多数のＭ個のオーディオデータストリーム、例えば、Ｍ個のＧＡＣストリームおよび、選択的に、挿入される人工的な音源の圧力信号ｐ（ｔ）および位置ｑ（ｔ）が、図２８の装置に入力される。他の実施形態では、２以上の人工的な音源（合成音源）が装置に入力される。出力には、オーディオ出力ストリーム、例えば、修正されたサウンドシーンを表すＧＡＣストリームが戻される。

同様に、オーディオ出力ストリーム、例えば、ＧＡＣストリームを、単一の（すなわち、統合されない）音源から直接生成することもできる。

装置への第１の種類の入力１１１１、１１１２、・・・、１１１Ｍは、オーディオデータストリーム、例えば、Ｍ個のＧＡＣストリームであり、ｉ番目のストリームは、Ｌ_ｉ層のレイヤ、ｉ∈｛１，２・・・，Ｍ｝を有する。ｉ番目のオーディオデータストリームの各レイヤは、時間−周波数ドメインにおいて、複素圧力信号の１以上の圧力値Ｐ_ｉ、音源の位置Ｑ_ｉ＝［Ｘ_ｉ，Ｙ_ｉ，Ｚ_ｉ］^Ｔおよび拡散性Ψ_ｉを有する。二次元表示が用いられる場合には、音源の位置を、Ｑ_ｉ＝［Ｘ_ｉ，Ｙ_ｉ］^Ｔとして定義できる。なお、全ての数量は、時間および周波数インデックス（ｋ，ｎ）に依存する。ただし、この数式においては、読みやすい状態とするともに明瞭化のために、時間および周波数の依存性は明示的には言及されない。

サウンドシーンに挿入される人工的な音源の圧力および位置についての入力１１２０は、選択的な情報であり、時間ドメインで表される。図２８の装置の出力１１４０は、オーディオデータストリーム、例えば、Ｌ_Ｏ層のレイヤを有するＧＡＣストリームである。

図２９は、他の実施形態による統合オーディオデータストリームを生成する装置を示す。図２９では、図１のデマルチプレクサが、複数の多重分離部を備える。図２９の装置は、多重分離部（ＤＥＭＵＸ）１２０１、（人工的な音源のためのオーディオストリーム、例えば、ＧＡＣストリームの生成を実現する）人工音源生成器１２０２、および統合モジュール１２０３を備える。

多重分離部１２０１の１つに関して、Ｌ_ｉ層のレイヤを備えるｉ番目のＧＡＣストリーム１１１ｉに対する多重分離部は、Ｌ_ｉ層の独立した単層ＧＡＣストリームを出力する。人工音源生成器１２０２は、人工的な音源に対して単層ＧＡＣストリームを生成する。

統合モジュール１２０３は、統合を実行するものであり、Ｎ個の単層ＧＡＣストリームを受信し、ここで、Ｎは以下の通りである。

図３０は、一実施形態による統合モジュール１２０３を示す。Ｎ個の単層オーディオデータストリーム、例えば、Ｎ個の単層ＧＡＣストリーム１２１１−１２１Ｎが統合されると、Ｌｏ≦Ｎにおいて、音源の組合せに対応するＬ_Ｏ層のレイヤを有するオーディオデータストリーム、例えば、１つのＧＡＣストリーム１１４０となる。

統合は、特に以下のコンセプトに基づく：各時間−周波数ビンについて、各々がＮ個のＧＡＣストリームの１つによって記述されるＮ個のＩＰＬＳがアクティブとなる。例えば、パワーおよび拡散性を考慮して、Ｌｏ個の最も顕著な音源が識別される。第１のＬｏ−１個の音源がそのまま統合オーディオデータストリーム、例えば、出力ＧＡＣストリームの第１のＬｏ−１層のレイヤに再割り当てられる一方、全ての残りの音源は最後のレイヤ、すなわち、Ｌｏ番目のレイヤに追加される。

図３０の装置は、コスト関数モジュール１４０１を備える。コスト関数モジュール１４０１は、Ｎ個の圧力信号およびＮ個の拡散パラメータを解析する。コスト関数モジュール１４０１は、各時間−周波数ビンについて最も顕著な音源を判定するように構成される。例えば、ｉ∈［１，Ｎ］のｉ番目のストリームについてのコスト関数ｆ_ｉは、例えば、高いパワーかつ低い拡散性の音源、例えば、ＩＰＬＳがコスト関数の高い値に帰着するように、
として定義される。コスト関数ｆ_ｉはコスト値を計算する。

コスト関数モジュール１４０１の出力は、最も高いｆ_ｉのＩＰＬＳのインデックスを備えるサイズＬｏ×１のベクトルｒである。さらに、インデックスが最も顕著なＩＰＬＳから最も顕著でないものの順にソートされる。この情報は、位置混合部１４０３、圧力統合部１４０４および拡散性統合部１４０５に渡され、各時間−周波数ビンについて結果として得られるＧＡＣストリームのパラメータが、それに従って計算される。パラメータをどのように演算するかについての実施形態を、以下に詳細に説明する。

図３０の装置は、サウンドシーン適応モジュール１４０２をさらに備える。サウンドシーン適応モジュール１４０２によって、統合ステップにわたる追加の制御が可能となり、ＧＡＣ位置情報が実際の統合に先立って操作される。このように、例えば、個別のシーンにおけるイベントの完全な重なりによる統合、音源を並べて配置することによる統合、重なりの量についての所定の制約による統合など、いくつかの統合手法を達成できる。

図３１ａ、図３１ｂおよび図３１ｃは、可能な音源シナリオを示す。図３１ａは、各一人の話者を有する２つの音源を示す。ベクトルは極座標系を示す。統合後に、いかなる修正もサウンドシーン適応モジュール１４０２によって実行されることなく、図３１ａの下段に図示されるようなサウンドシーンが実現されることになる。これは望ましくないかもしれない。１以上のサウンドシーンの座標系を操作することによって、統合サウンドシーンを意のままに構成することが可能となる。図３１ｂでは、一例として、回転が導入されるので、統合サウンドシーンにおいて話者が分離される。位置Ｑ_１からＱ_Ｎに適用される（図３１ｃに示すような）平行移動または非線形変換も可能である。

位置混合部１４０３、圧力統合部１４０４および拡散性統合部１４０５は、Ｎ個のパラメータストリームを入力として受信するように構成され、結果として得られるＬｏＧＡＣストリームのパラメータを演算するように構成される。

パラメータの各々は、以下のようにして得られる。

ａ．位置混合部１４０３は、出力ＧＡＣストリームの結果として得られる位置を判定するように構成される。出力ストリームＱ_ｉ’におけるｉ番目の音源の位置は、コスト関数モジュール１４０１によって与えられるベクトルｒによって示されるｉ番目の最も顕著な非拡散入力源の位置に対応する。
ここで、ｒ_ｉはｒのｉ番目の要素を示す。
ベクトルｒによって示されるＬｏ番目の最も顕著な非拡散入力源を判定することによって、位置混合部１４０３は、１以上の単層オーディオデータストリームを備えるグルー
プを判定する。このグループの単層オーディオデータストリームの各々のコスト値は、このグループを構成しないいずれの単層オーディオデータストリームのコスト値よりも大きくてもよい。位置混合部１４０３は、グループの単層オーディオデータストリームの各々の各位置値が、統合オーディオデータストリームのレイヤの１層における１つの位置値となるように、統合オーディオデータストリームの１層以上のレイヤにおける１以上の位置値を選択／生成するように構成される。

ｂ．ストリームの各々について結果として得られる圧力が、圧力統合部１４０４によって計算される。最後の（Ｌｏ番目の）ＧＡＣストリームを除いて、全てについての圧力信号は、入力ベクトルｒによる対応の圧力信号に等しい。Ｌｏ番目ＧＡＣストリームの圧力は、例えば、以下のように、Ｎ−Ｌｏ＋１個の残りの圧力信号の各々の圧力の線形合成として与えられる。
ベクトルｒによって示されるＬｏ−１番目の最も顕著な非拡散入力源を判定することによって、圧力統合部は、複数の単層オーディオデータストリームのうちの１以上の単層オーディオデータストリームを含む第１のグループを判定するとともに、複数の単層オーディオデータストリームのうちの１以上の異なる単層オーディオデータストリームを含む第２のグループ（ベクトルｒにおける残余の入力源）を判定するように構成され、第１のグループの単層オーディオデータストリームの各々のコスト値は、第２のグループの単層オーディオデータストリームの各々のコスト値よりも大きい。圧力統合部は、第１のグループの単層オーディオデータストリームの各々の各圧力値が、統合オーディオデータストリームのレイヤのうちの１層における圧力値となり、第２のグループの単層オーディオデータストリームの圧力値の合成値が、統合オーディオデータストリームのレイヤのうちの１層における圧力値となるように、統合オーディオデータストリームの１層以上のレイヤにおける１以上の圧力値を生成するように構成される。

ｃ．結果として得られるＧＡＣストリームの拡散性が、拡散性統合部１４０５によって演算される。他のパラメータと同様に、拡散性が入力ストリームから最後のＬｏ番目のＧＡＣストリームを除いて全てに複製される。
Ｌｏ番目の拡散性パラメータは、１つの位置Ｑ’_Ｌ０のみが割り当てられるので、例えば、圧力信号Ｐ’_Ｌ０がコヒーレントに再生されない、より多くのＩＰＬＳからの直接音を含むことを考慮して演算される。したがって、直接音に対応するＰ’_Ｌ０におけるエネルギーの量は、単に、
となる。結果として、拡散性は、
によって得られる。
ベクトルｒによって示されるＬｏ−１番目の最も顕著な非拡散入力源を判定することによって、拡散性統合部は、複数の単層オーディオデータストリームのうちの１以上の単層オーディオデータストリームを含む第１のグループを判定するとともに、複数の単層オーディオデータストリームのうちの１以上の異なる単層オーディオデータストリームを含む第２のグループ（ベクトルｒにおける残余の入力源）を判定するように構成され、第１のグループの単層オーディオデータストリームの各々のコスト値は、第２のグループの単層オーディオデータストリームの各々のコスト値よりも大きい。拡散性統合部は、第１のグループの単層オーディオデータストリームの各々の各拡散値が統合オーディオデータストリームのレイヤのうちの１層における拡散値となり、第２のグループの単層オーディオデータストリームの拡散値の合成値が統合オーディオデータストリームのレイヤのうちの１層における拡散値となるように、統合オーディオデータストリームの１層以上のレイヤにおける１以上の圧力値を生成するように構成される。

最後に、結果として得られるＬｏ個の単層ＧＡＣストリームは、ブロック１４０６において多重化されてＬ_Ｏ層のレイヤの最後のＧＡＣストリーム（出力１１４０）を形成する。

以降において、実施形態による人工音源生成器を、図３２ａおよび図３２ｂを参照してより詳細に説明する。

人工音源生成器は選択的なモジュールであり、人工的な音源の時間ドメインで表現された位置および圧力信号であってサウンドシーンに挿入されるべきものを、入力１１２０として使用する。そして、出力１２１Ｎとして、人工的な音源のＧＡＣストリームに戻る。

時間における音源の位置についての情報が、第１の処理ブロック１３０１に与えられる。音源が移動していない場合、ブロック１３０１は単に、位置を出力２１Ｎにおける全ての時間−周波数ビンＱ（ｋ，ｎ）に複製する。移動する音源について、ｑ（ｔ）における情報は、適切な時間ブロックｎに対応する全ての周波数ビンｋに複製される。そして、ブロック１３０１の出力は、ブロック１２０３に、ＧＡＣストリームとして直接渡される。挿入される音源１１２０の圧力信号ｐ（ｔ）は、
ａ．ＧＡＣストリームＰ（ｋ，ｎ）の圧力信号に直接変換され（図３２ａ参照）、
ｂ．まず反響させられてから、ＧＡＣストリームＰ（ｋ，ｎ）の圧力信号に変換される（図３２ｂ参照）。

図３２ａに示す実施形態ａ）によると、信号は、ブロック１３０２における解析フィルタバンクを用いて周波数ドメインに変換されてから、挿入された音源に対応するＧＡＣストリームのパラメータとして渡される。圧力信号ｐ（ｔ）がドライでない場合、信号は、ノイズおよび／または環境が検出される選択的ブロック１３０３を通過することになる。そして、ノイズおよび環境の情報は、拡散性推定値を演算するブロック１３０４に渡される。ブロック１３０３は、これらの目的のために、非特許文献２８に記載されるような現状技術のアルゴリズムを実施することができる。

そして、ノイズおよび環境についての情報が、拡散性推定値を演算するブロック１３０４に渡される。これは、ｐ（ｔ）で構成される環境およびノイズが合成においてコヒーレントに再生されることを回避するのに、特に有用である。したがって、前述のメカニズムは、信号の直接的な部分が低い拡散値に割り当てられる一方で、信号のうちのノイズのある環境的部分が高い拡散性に対応付けられることを保障する。ブロック１３０３および１３０４の信号経路に対する代替として、１２１Ｎにおける拡散性パラメータを単に一定値に設定することもできる。

図３２ｂに示す実施形態ｂ）では、ある意味で逆の状況がカバーされる。ｐ（ｔ）がドライな信号であるものとすると、残響を加えてｐ（ｔ）音をより自然なものとすること、すなわち、合成音源の音を、あたかもそれが部屋で録音されたかのようにすることが望ましい場合がある。これは、ブロック１３０５によって実現される。反響した信号および元の信号の双方が、解析フィルタバンク１３０２で実行される変換を受けてから、パワー比解析ブロック１３０６に渡される。ブロック１３０６は、例えば、直接−残響比（ＤＲＲ）を演算することによって、どれだけの残響およびどれだけの直接音が所定の時間−周波数ビンに存在するかについての情報を演算する。そして、この情報がブロック１３０４に渡され、拡散性が演算される。

拡散性パラメータは、高いＤＲＲに対しては低い値に設定される一方、（例えば、遅い残響の余韻において）残響が支配的な場合には高い値に設定される。

以降において、いくつかの特別な場合を説明する。
１．Ｍ個の単層ＧＡＣストリームがＬ_Ｏ＝１個のＧＡＣストリームに統合される必要がある場合には、単純化された実施形態を採用できる。結果として得られるＧＡＣストリームは以下によって特徴付けられる：
−圧力：圧力は、Ｍ個の圧力信号の合計となる
−位置：位置は、最も強い音源、例えば、最も強いＩＰＬＳの位置となる
−拡散性：拡散性は式（５）に従って演算される。
２．レイヤ数が入力における合計層数、すなわち、Ｌ_Ｏ＝Ｎに等しい場合には、出力ストリームを入力ストリームの連続とみることができる。

いくつかの側面を装置との関連で説明したが、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴にも対応することが分かるように、それらの側面が対応の方法の説明も表すことは明らかである。同様に、方法ステップに関連して、またはそれとして説明した側面はまた、対応の装置の対応するブロック、詳細または特徴の記載も表す。

本発明に係る分解された信号は、デジタル記録媒体に記録するか、もしくはインターネット等の無線伝達媒体または有線伝達媒体などの伝達媒体に送信することができる。

所定の実施要件に応じて、発明の実施形態はハードウェアで、またはソフトウェアで実施されることができる。その実施例は、例えば、そこに記憶された電子的に読み取り可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能コンピュータシステムと協働する（または協働ことができる）フレキシブルディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ（登録商標）またはフラッシュメモリといったデジタル記憶媒体を用いて実行することができる。

発明によるいくつかの実施形態は、電子的に読み取り可能な制御信号を有する一時的でないデータキャリアを備え、それらはここに記載された方法の１つが実行されるようにプログラム可能コンピュータシステムと協働することができる。

一般に、本発明の実施形態は、プログラムコードを持つコンピュータプログラム製品として実施でき、プログラムコードはコンピュータ上で稼働したときに方法の１つを実行するよう動作可能である。プログラムコードは、例えば、機械読取可能な担体に記憶される。

他の実施形態は、機械読取可能な担体に記憶され、ここに記載された方法の１つを実行するためのコンピュータプログラムからなる。

言い換えると、発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で稼働したときに、ここに記載された方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、発明の方法のさらなる実施形態は、ここに記載された方法の１つを実行するためのコンピュータプログラムを、そこに録音されて備えるデータ担体（すなわち、デジタル記憶媒体またはコンピュータ読取可能記録媒体）である。

したがって、発明の方法のさらなる実施形態は、ここに記載された方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネット等のデータ通信接続を介して転送されるように構成されることができる。

さらなる実施形態は、ここに記載された方法の１つを実行するように構成または適合された、例えば、コンピュータまたはプログラマブルロジックデバイスといった処理手段からなる。

さらなる実施形態は、ここに記載された方法の１つを実行するためのコンピュータプログラムをインストールされた状態で有するコンピュータからなる。

実施形態によっては、プログラム可能論理デバイス（例えば、フィールドプログラマブルゲートアレイ）が、ここに記載された方法の機能の一部または全部を実行するのに使用されてもよい。実施形態によっては、ここに記載された方法の１つを実行するために、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働することができる。一般に、それらの方法は、あらゆるハードウェア装置によって好適に実行される。

上述した実施形態は本発明の原理についての単なる例示である。構成の変形例および拡張例およびここに記載された詳細は当業者に明らかなものとなることが理解される。したがって、それは、ここに挙げた実施形態の説明および解説として示された具体的詳細によってではなく、特許請求の範囲の各請求項に記載された範囲によってのみ限定されることを意図するものである。

Claims

統合オーディオデータストリームを生成する装置であって、
各々が１層以上のレイヤを含む１以上の入力オーディオデータストリームを受け取り、各入力オーディオデータストリームを、各々が１層だけのレイヤを有し、全体として多重分離の対象となった入力オーディオデータストリームの１層以上のレイヤを含む２以上の多重分離オーディオデータストリームに多重分離して、２以上の単相オーディオデータストリームを得るデマルチプレクサ（１８０）と、
前記２以上の単層オーディオデータストリームに基づいて、１層以上のレイヤを有する統合オーディオデータストリームを生成する統合モジュール（１９０）と
を備え、
前記入力オーディオデータストリーム、前記多重分離オーディオデータストリーム、前記単層オーディオデータストリームおよび前記統合オーディオデータストリームの各レイヤが、音圧信号の音圧値、音源の位置を示す位置値および音場の拡散を示す拡散値をオーディオデータとして含む
装置。
請求項１に記載の装置において、前記デマルチプレクサ（１８０）は、２以上の入力オーディオデータストリームを受け取り、２層以上のレイヤを含む各入力オーディオデータストリームを、各々が１層だけのレイヤを有し、全体として多重分離の対象となった入力オーディオデータストリームの１層以上のレイヤを含む２以上の多重分離オーディオデータストリームに多重分離して、２以上の単相オーディオデータストリームを得る、装置。
請求項１または２に記載の装置において、前記オーディオデータが、複数の時間−周波数ビンのうちの１つの時間−周波数ビンについて定義される、装置。
請求項１から３のいずれか１項に記載の装置において、
前記統合モジュール（１９０）は、前記単層オーディオデータストリームの各々にサウンド合成の演算コストを示すコスト値を割り当てるコスト関数モジュール（１４０１）を備え、
前記統合モジュール（１９０）は、前記単層オーディオデータストリームに割り当てられた前記コスト値に基づいて、前記統合オーディオデータストリームを生成する、
装置。
請求項４に記載の装置において、前記コスト関数モジュール（１４０１）は、前記単層オーディオデータストリームの各々に、その単層オーディオデータストリームの音圧値または拡散値の少なくとも１つに応じてコスト値を割り当てる、装置。
請求項５に記載の装置において、前記コスト関数モジュール（１４０１）は、前記単層オーディオデータストリームの各オーディオデータストリームに対して、そのオーディオデータストリームが前記単層オーディオデータストリームのグループのｉ番目であるとするとき、そのオーディオデータのレイヤの音圧値Ｐ_ｉおよび拡散値Ψ_ｉとして、数式：
ｆ_ｉ（Ψ_ｉ，Ｐ_ｉ）＝（１-Ψ_ｉ）・｜Ｐ_ｉ｜^２
を適用することによって、前記コスト値を割り当てる、装置。
請求項４から６のいずれか１項に記載の装置において、
前記統合モジュール（１９０）は圧力統合部（１４０４）をさらに備え、
前記圧力統合部（１４０４）は、前記２以上の単層オーディオデータストリームのうちの１以上の単層オーディオデータストリームを含む第１のグループを判定し、前記複数の単層オーディオデータストリームのうちの他の１以上の単層オーディオデータストリームを含む第２のグループを判定する構成であり、
前記第１のグループの単層オーディオデータストリームの各々のコスト値は、前記第２のグループの単層オーディオデータストリームの各々のコスト値よりも大きく、または前記第１のグループの単層オーディオデータストリームの各々のコスト値が、前記第２のグループの単層オーディオデータストリームの各々のコスト値よりも小さく、
前記圧力統合部（１４０４）は、前記統合オーディオデータストリームの１層以上のレイヤにおける１以上の音圧値を、前記第１のグループの単層オーディオデータストリームの各々の各音圧値が前記統合オーディオデータストリームのレイヤのうちの１層における音圧値となり、前記第２のグループの単層オーディオデータストリームの音圧値の組み合わせが前記統合オーディオデータストリームのレイヤのうちの１層における音圧値となる
ように、生成する、
装置。
請求項４から７のいずれか１項に記載の装置において、
前記統合モジュール（１９０）は拡散性統合部（１４０５）をさらに備え、
前記拡散性統合部（１４０５）は、前記２以上の単層オーディオデータストリームのうちの１以上の単層オーディオデータストリームを含む第３のグループを判定し、前記複数の単層オーディオデータストリームのうちの他の１以上の単層オーディオデータストリームを含む第４のグループを判定する構成であり、
前記第３のグループの単層オーディオデータストリームの各々のコスト値が、前記第４のグループの単層オーディオデータストリームの各々のコスト値よりも大きく、または前記第３のグループの単層オーディオデータストリームの各々のコスト値が、前記第４のグループの単層オーディオデータストリームの各々のコスト値よりも小さく、
前記拡散性統合部（１４０５）は、前記統合オーディオデータストリームの１層以上のレイヤにおける１以上の拡散値を、前記第３のグループの単層オーディオデータストリームの各々の各拡散値が前記統合オーディオデータストリームのレイヤのうちの１層における拡散値となり、前記第４のグループの単層オーディオデータストリームの拡散値の組み合わせが前記統合オーディオデータストリームのレイヤのうちの１層における拡散値となるように、生成する、
装置。
請求項４から８のいずれか１項に記載の装置において、
前記統合モジュール（１９０）は位置混合部（１４０３）をさらに備え、
前記位置混合部（１４０３）は、前記２以上の単層オーディオデータストリームのうちの１以上の単層オーディオデータストリームを含む第５のグループを判定する構成であり、
前記第５のグループの単層オーディオデータストリームの各々のコスト値が、前記２以上の単層オーディオデータストリームの前記第５のグループを構成しない単層オーディオデータストリームのコスト値よりも大きく、または前記第５のグループの単層オーディオデータストリームの各々のコスト値が、前記２以上の単層オーディオデータストリームの前記第５のグループを構成しない単層オーディオデータストリームのコスト値よりも小さく、
前記位置混合部（１４０３）は、前記第５のグループの単層オーディオデータストリームの各々の各位置値が前記統合オーディオデータストリームのレイヤのうちの１層の位置値となるように、前記統合オーディオデータストリームの１層以上のレイヤにおける１以上の位置値を生成する
装置。
請求項３から９のいずれか１項に記載の装置において、前記統合モジュール（１９０）は、前記２以上の単層オーディオデータストリームの１以上について、その位置値を操作するサウンドシーン適応モジュール（１４０２）をさらに備える、装置。
請求項１０に記載の装置において、前記サウンドシーン適応モジュール（１４０２）は、位置値の回転、平行移動または非線形転換を適用して、前記２以上の単層オーディオデータストリームの１以上の位置値を操作する、装置。
請求項１から１１のいずれか１項に記載の装置において、前記デマルチプレクサ（１８０）は、前記多重分離オーディオデータストリームの１つについて、その音圧値の１つの大きさを、スカラー値を乗ずることによって修正する、装置。
請求項１から１２のいずれか１項に記載の装置において、前記デマルチプレクサ（１８０）は複数の多重分離部（１２０１）を備え、この複数の多重分離部（１２０１）の各々が、１以上の入力オーディオデータストリームを多重分離する、装置。
請求項１から１３のいずれか１項に記載の装置において、
１層だけのレイヤを含む人工データストリームを生成する人工音源生成器（１２０２）をさらに備え、
前記人工音源生成器（１２０２）は、時間ドメインで表されている音圧情報を受け取るとともに、位置情報を受け取る構成であり、
前記人工音源生成器（１２０２）は、前記位置情報を複製して複数の時間−周波数ビンについて位置情報を生成する構成である、
装置。
請求項１４に記載の装置において、前記人工音源生成器（１２０２）は、時間ドメインで表現されている音圧情報を時間−周波数ドメインに変換する構成である、装置。
請求項１４に記載の装置において、前記人工音源生成器（１２０２）は、残響を前記音圧情報に加える構成である、装置。
デマルチプレクサが、１層以上のレイヤを含む１以上の入力オーディオデータストリームを受け取り、各入力オーディオデータストリームを、各々が１層だけのレイヤを有し、
全体として多重分離の対象となった入力オーディオデータストリームの１層以上のレイヤを含む２以上の多重分離オーディオデータストリームに多重分離して、２以上の単相オーディオデータストリームを取得し、
前記２以上の単層オーディオデータストリームに基づいて、１層以上のレイヤを有する統合オーディオデータストリームを生成し、
前記入力オーディオデータストリーム、前記多重分離オーディオデータストリーム、前記単層オーディオデータストリームおよび前記統合オーディオデータストリームの各レイヤが、音力信号の音圧値、音源の位置を示す位置値および音場の拡散を示す拡散値をオーディオデータとして含む、
方法。
コンピュータまたは信号プロセッサで実行されるときに請求項１７の方法を実施するコンピュータプログラム。