JP7309876B2

JP7309876B2 - 拡散補償を用いたＤｉｒＡＣベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム

Info

Publication number: JP7309876B2
Application number: JP2021532191A
Authority: JP
Inventors: ギヨームフックス; オリヴァーティールガルト; スリカンスコルセ; シュテファンデーラ; マルクスムルトゥルス; ファビアンキュッヒ; アレキサンドレブテオン; アンドレアアイヒェンシーア; シュテファンバイヤー
Original assignee: フラウンホッファー－ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2018-12-07
Filing date: 2019-12-06
Publication date: 2023-07-18
Anticipated expiration: 2039-12-06
Also published as: US11838743B2; TWI745795B; KR20210102300A; CN113439303A; KR20230112750A; AU2019394097A1; US20210289314A1; CA3122170C; CA3122168C; US20210289313A1; CA3122168A1; CN113424257B; PT3891736T; CA3122164C; EP3891735B1; ES2940286T3; SG11202105719RA; US11937075B2; JP2022518664A; MX2021006565A

Description

本願発明は、音声符号化を対象とするものであり、特に、１つ以上の音響成分発生器を用いて入力信号から音場記述を生成することに関するものである。

指向性音声符号化（Directional Audio Coding；DirAC）技術[1]は、空間音響の分析と再生を効率的に行うためのアプローチである。DirACでは、周波数帯域ごとに測定された到来方位（ＤＯＡ）と拡散とに基づいて、音場の知覚的に動機付けられた表現を使用する。DirACは、ある時点とある重要な周波数帯域において、聴覚システムの空間分解能は、方位についての１つの手がかりと両耳間コヒーレンスを示す別の手がかりを解読することに限定されるという仮定に基づいて構築されている。空間音響は、無指向性拡散ストリームと指向性非拡散ストリームとの２つのストリームをクロスフェードさせることで、周波数領域で表現される。

DirACは本来、Ｂフォーマットの音を録音することを目的としているが、５．１のような特定のスピーカのセットアップに合わせたマイク信号[2]や、任意の構成のマイクアレイ[5]にも拡張できる。最新のケースでは、特定のスピーカのセットアップに合わせて信号を録音するのではなく、中間フォーマットの信号を録音することで，より柔軟性を高めることができる。

このような中間フォーマットは、実際に確立されており、（高次の）アンビソニックス（Ambisonics）により表現される[3]。アンビソニックス信号からは、ヘッドフォン再生のためのバイノーラル信号を含む、あらゆる所望のスピーカのセットアップの信号を生成することができる。そのためには、アンビソニックス信号に適用される特定のレンダラが必要であり、リニアなアンビソニックスレンダラ[3]や指向性オーディオ符号化（DirAC）のようなパラメトリックレンダラが使用される。

アンビソニックス信号は、マルチチャンネル信号として表現でき、各チャンネル（アンビソニックス成分と呼ばれる）は、いわゆる空間基底関数の係数に相当する。これら空間基底関数の加重和（重みは係数に対応）により、録音場所の元の音場を再現することができる[3]。したがって、空間基底関数の係数（すなわち、アンビソニックス成分）は、録音場所における音場をコンパクトに記述したものである。空間基底関数には、球面調和関数（ＳＨ）[3]や円筒調和関数（ＣＨ）[3]などのさまざまな種類がある。ＣＨは、２次元空間の音場を記述する場合（２次元音の再生など）に、一方、ＳＨは、２次元および３次元空間の音場を記述する場合（２次元および３次元音の再生など）に使用することができる。

DirACはすでに、１次アンビソニックス信号（Ｂフォーマットと呼ばれるＦＯＡ）やさまざまなマイクアレイから高次のアンビソニックス信号を配信するために拡張されている[5]。本明細書では、DirACのパラメータと基準信号から高次アンビソニックス信号をより効率的に合成する方法に焦点を当てている。本明細書では、ダウンミックス信号とも呼ばれる基準信号は、高次アンビソニックス信号のサブセット、またはアンビソニックス成分のサブセットの線形結合と見なされる。

さらに、本発明では、オーディオシーンのパラメトリック形式の伝送にDirACを使用する場合を考える。この場合、ダウンミックス信号は従来のオーディオコアエンコーダで符号化され、DirACのパラメータはサイド情報として圧縮されて伝送される。本方式の利点は、音声符号化の際に発生する量子化誤差を考慮できることである。

以下では、ＩＶＡＳ（Immersive Voice and Audio Services；没入型音声及びオーディオサービス）のために設計されたDirACをベースにした空間音声符号化システムの概要を紹介する。これは、DirAC 空間オーディオコーダのシステム概要のようなさまざまなコンテキストの１つを表す。このようなシステムの目的は、オーディオシーンを表現する様々な空間オーディオフォーマットを扱い、それらを低ビットレートで符号化し、送信後に元のオーディオシーンを可能な限り忠実に再現することである。

このシステムは、オーディオシーンの様々な表現を入力として受け入れることができる。入力されるオーディオシーンは、様々なスピーカ位置で再生されることを目的としたマルチチャンネル信号、時間経過に伴うオブジェクトの位置を記述したメタデータを伴った聴覚オブジェクト、またはリスナーまたは参照位置における音場を表現する１次または高次アンビソニックスフォーマットによってキャプチャすることができる。

このソリューションは、モバイルネットワーク上での会話サービスを可能にするために低遅延で動作することが期待されているため、このシステムは３ＧＰＰのＥＶＳ（Enhanced Voice Services；拡張音声サービス）をベースにしていることが好ましい。

図１ｂに示すように、エンコーダ（ＩＶＡＳエンコーダ）は、システムに提示されるさまざまなオーディオフォーマットを別々に、または同時にサポートすることができる。音声信号には、マイクで拾う本質的に音響的なものと、スピーカに送ることになる本質的に電気的なものとがある。サポートされるオーディオフォーマットは、マルチチャンネル信号、１次および高次アンビソニックス成分、およびオーディオオブジェクトである。複雑なオーディオシーンは、異なる入力フォーマットを組み合わせて記述することもできる。すべてのオーディオフォーマットはDirAC分析に送られ、DirAC分析はオーディオシーン全体のパラメトリック表現を抽出する。到来方位と時間周波数単位で測定した拡散がパラメータとなる。DirAC分析に続いて、空間メタデータエンコーダがDirACパラメータを量子化、符号化し、低ビットレートのパラメトリック表現を得る。

このパラメータとともに、異なるソースやオーディオ入力信号から得られたダウンミックス信号は、従来のオーディオコアコーダで伝送のために符号化される。この場合、ダウンミックス信号の符号化には、ＥＶＳベースのオーディオコーダが採用されている。ダウンミックス信号は、トランスポートチャンネルと呼ばれる様々なチャンネルで構成されている。この信号は、例えば、目標とするビットレートに応じて、Ｂフォーマット信号、ステレオペア、またはモノラルダウンミックスを構成する４つの係数信号であり得る。符号化された空間パラメータと符号化されたオーディオビットストリームは、通信チャンネルで伝送される前に多重化される。

異なるオーディオフォーマットをサポートするDirACベースの空間オーディオコーディングのエンコーダ側を図１ｂに示す。音響／電気入力１０００は、エンコーダインターフェース１０１０に入力され、エンコーダインターフェースは、１０１３に図示された１次アンビソニックス（ＦＯＡ）または高次アンビソニックス（ＨＯＡ）のための特定の機能を有する。さらに、このエンコーダインターフェースは、ステレオデータ、５．１データ、または２チャンネル以上もしくは５チャンネル以上のデータなどのマルチチャンネル（ＭＣ）データに対する機能を有している。さらに、エンコーダインターフェース１０１０は、例えばＳＡＯＣ（spatial audio object coding；空間オーディオオブジェクト符号化）を図示した１０１１のように、オブジェクトコーディングのための機能を有している。ＩＶＡＳエンコーダは、DirAC分析ブロック１０２１とダウンミックス（ＤＭＸ）ブロック１０２２とを有するDirACステージ１０２０からなる。ブロック１０２２によって出力された信号は、ＡＡＣまたはＥＶＳエンコーダのようなＩＶＡＳコアエンコーダ１０４０によって符号化され、ブロック１０２１によって生成されたメタデータは、DirACメタデータエンコーダ１０３０を用いて符号化される。

図２に示すデコーダでは、トランスポートチャンネルはコアデコーダによって復号され、DirACメタデータは復号されたトランスポートチャンネルとともにDirAC合成に送られる前にまず復号される。この段階で、さまざまなオプションが考えられる。従来のDirACシステムのように、ラウドスピーカやヘッドフォンでオーディオシーンを直接再生することも可能である（図２のＭＣ）。

デコーダは、エンコーダ側で提示された個々のオブジェクトをそのまま配信することもできる（図２のオブジェクト）。

また、シーンの回転、反射、移動などの他のさらなる操作（図２のＦＯＡ／ＨＯＡ）や、元のシステムでは定義されていない外部のレンダラを使用するために、シーンをアンビソニックスフォーマットにレンダリングするように要求することもできる。

様々なオーディオフォーマットを配信するDirAC-空間音声符号化のデコーダは、図２に示されており、ＩＶＡＳデコーダ１０４５と、その後に接続されたデコーダインターフェース１０４６とから構成されている。ＩＶＡＳデコーダ１０４５は、図１ｂのＩＶＡＳコアエンコーダ１０４０によって符号化されたコンテンツの復号化動作を実行するように構成されたＩＶＡＳコアデコーダ１０６０を備える。さらに、DirACメタデータエンコーダ１０３０によってエンコードされたコンテンツをデコードするためのデコード機能を提供するDirACメタデータデコーダ１０５０を備える。DirACシンセサイザ１０７０は、ブロック１０５０および１０６０からデータを受信し、いくつかのユーザインタラクティビティを用いるか否かにかかわらず、出力は、１０８３で図示されたＦＯＡ／ＨＯＡデータ、ブロック１０８２で図示されたマルチチャンネルデータ（ＭＣデータ）、またはブロック１０８０で図示されたオブジェクトデータを生成するデコーダインターフェース１０４６に入力される。

DirACパラダイムを用いた従来のＨＯＡ合成を図３に示す。ダウンミックス信号と呼ばれる入力信号は、周波数フィルタバンクによって時間-周波数分析される。周波数フィルタバンク２０００は、複素ＱＭＦのような複素フィルタバンクや、ＳＴＦＴのようなブロック変換でもよい。ＨＯＡ合成では、出力に(H＋１)²成分を含むＨ次のアンビソニックス信号を合成する。オプションとして、特定のスピーカレイアウトでレンダリングされたアンビソニックス信号を出力することもできる。以下では、ダウンミックス信号から(H＋１)²成分を得る方法を、場合によっては空間パラメータを入力しながら詳しく説明する。

ダウンミックス信号は、元のオーディオシーンを描写する元のマイク信号または元の信号の混合物であることができる。例えば、音場のマイクで音声シーンを捉えた場合、ダウンミックス信号は、シーンの全方位成分（Ｗ）、ステレオダウンミックス（Ｌ／Ｒ）、１次アンビソニックス信号（ＦＯＡ）のいずれかになる。

各時間周波数タイルについて、ダウンミックス信号がそのようなDirACパラメータを決定するための十分な情報を含んでいる場合には、ＤＯＡ（Direction-of-Arrival；到来方位）とも呼ばれる音の方位と、拡散係数とが、それぞれ方位推定器２０２０と拡散推定器２０１０とによって推定される。それは、例えば、ダウンミックス信号がＦＯＡ（First Oder Ambisonics；１次アンビソニックス）信号である場合である。また、ダウンミックス信号がそのようなパラメータを決定するのに十分でない場合は、空間パラメータを含む入力ビットストリームを介して、パラメータをDirAC合成に直接伝えることもできる。このビットストリームは、例えば、オーディオ伝送アプリケーションの場合、サイド情報として受信した量子化およびコード化されたパラメータで構成できる。この場合、パラメータは、スイッチ２０３０または２０４０によって示されるように、エンコーダ側でDirAC分析モジュールに与えられた元のマイクロフォン信号または入力オーディオフォーマットから、DirAC合成モジュールの外側で導出される。

例えば、基準信号P_refは、ダウンミックス信号の全方位成分、またはダウンミックス信号のKチャンネルの線形結合とすることができる。

得られたアンビソニックス成分は、逆フィルタバンク２０８０または逆ＳＴＦＴを使用して時間領域に戻し、保存、送信、または例えば空間音再生アプリケーションに使用することができる。あるいは、スピーカ信号またはバイノーラル信号を時間領域に変換する前に、特定のスピーカレイアウトで再生される信号またはヘッドフォンで再生される信号を得るために、各周波数帯域に対してリニアアンビソニックスレンダラ２０７０を適用することができる。

本発明の目的は、入力信号から音場記述を生成するための改良された概念を提供することである。

この目的は、請求項１の音場記述を生成する装置、請求項２０の音場記述を生成する方法、または請求項２１のコンピュータプログラムによって達成される。

第１の態様に係る本発明は、生成された全ての成分について、拡散部分の計算を含む音場成分合成を行う必要がないという知見に基づいている。拡散成分合成は、ある順序までしか行わなくても十分である。それにもかかわらず、エネルギー変動やエネルギー誤差を生じさせないために、拡散成分と直接成分を有する第１の音場成分グループの音場成分を生成する際に、エネルギー補償が行われ、このエネルギー補償は、拡散データと、第２の音場成分グループの数、第１の音場成分グループの最大次数、第２の音場成分グループの最大次数のうちの少なくとも１つに依存している。特に、本発明の第１の態様によれば、１つ以上のチャンネルからなる入力信号から音場記述を生成する装置は、入力信号から拡散データを取得する入力信号分析器と、入力信号から、音場成分ごとに直接成分と拡散成分とを有する第１の音場成分グループの１つ以上の音場成分を生成し、入力信号から、直接成分のみを有する第２の音場成分グループを生成する音場成分生成器とを備える。特に、音場成分生成器は、第１の音場成分グループを生成する際にエネルギー補償を行い、エネルギー補償は、拡散データと、第２の音場成分グループの数、第１の拡散成分グループの数、第１の音場成分グループの最大次数、および第２の音場成分グループの最大次数のうちの少なくとも１つに依存する。

第１の音場成分グループは、低次音場成分と中次音場成分で構成されていてもよく、第２のグループは高次音場成分で構成される。

本発明の第２の態様に係る、少なくとも２つのチャンネルからなる入力信号から音場記述を生成する装置は、入力信号から方位データおよび拡散データを得るための入力信号分析器を備える。さらに、本装置は、入力信号から得られる全方位成分に対する第１のエネルギーまたは振幅関連測定値を推定するための、および入力信号から導出される指向性成分に対する第２のエネルギーまたは振幅関連測定値を推定するための推定器を備える。さらに、本装置は、音場の音場成分を生成する音場成分生成器を備え、音場成分生成装置は、第１のエネルギーまたは振幅に関連する測定値、第２のエネルギーまたは振幅に関連する測定値、方位データおよび拡散データを用いて、指向性成分のエネルギー補償を行うように構成されている。

特に、本発明の第２の態様は、音場記述を生成する装置で指向性成分が受信され、同時に方位データと拡散データも受信される状況において、方位データと拡散データは、エンコーダ内での指向性成分または全方位成分の量子化またはその他の処理に起因して導入され得る誤差を補正するために利用することができるという知見に基づいている。このように、方位および拡散データは、そのまま音場記述生成の目的で単純に適用されるのではなく、このデータは、指向性成分のエネルギー損失の補償を元に戻す、あるいは少なくとも部分的に元に戻すために、指向性成分の補正のために「２度目」に利用される。

好ましくは、このエネルギー補償は、デコーダインターフェースで受信される低次成分、または入力信号を生成するオーディオエンコーダから受信したデータから生成される低次成分に対して行われる。

本発明の第３の態様によれば、モノラル信号またはマルチチャンネル信号からなる入力信号を用いて音場記述を生成する装置は、入力信号分析器と、低音成分生成器と、中音成分生成器と、高音成分生成器とを備える。特に、低次成分生成器、中次成分生成器、高次成分生成器のそれぞれに異なる特定の処理手順に基づいて、それぞれの次元で音場成分を生成するように構成されている。これにより、一方では処理要件、他方ではオーディオ品質要件、また他方では実用性手順の間の最適なトレードオフが確実に維持される。この手順により、例えば、脱相関器の使用は中次成分の生成にのみ制限され、低次成分の生成と高次成分の生成ではアーチファクトを生成しやすい脱相関器は回避される。一方、拡散成分エネルギーの損失に対するエネルギー補償を行うことが好ましく、このエネルギー補償は、低次音場成分のみ、または中次音場成分のみ、または低次音場成分と中次音場成分の両方で行われる。好ましくは、低次成分生成器内で形成された指向性成分のエネルギー補償も、送信された指向性拡散データを用いて行われる。

好ましい実施形態は、空間音声処理のための知覚的に動機づけられた技術である指向性オーディオ符号化パラダイム（DirAC）を使用して（高次）アンビソニックス信号を合成するための装置、方法、またはコンピュータプログラムに関するものである。

実施形態は、空間パラメータとダウンミックス信号からオーディオシーンのアンビソニックス表現を合成するための効率的な方法に関するものである。本方法のアプリケーションでは、オーディオシーンは送信されるため、送信データ量を削減するために符号化されるが、これに限定されない。ダウンミックス信号は、伝送に利用可能なビットレートによって、チャンネル数と品質が強く制約される。実施形態は、伝送されたダウンミックス信号に含まれる情報を利用して、品質を向上させながら合成の複雑さを軽減する効果的な方法に関する。

本発明の別の実施形態は、音場の拡散成分に関するもので、合成アーチファクトを避けるために、合成された成分の所定の次元までしかモデル化されないように制限することができる。本実施形態では、ダウンミックス信号を増幅することにより、結果として生じるエネルギーの損失を補償する方法を提供する。

別の実施形態では、音場の指向性成分に関する特性をダウンミックス信号内で変更することができる。ダウンミックス信号をさらにエネルギー正規化して、送信方位パラメータによって決定されるエネルギー関係を維持することができるが、注入された量子化または他のエラーによって送信中に壊れる。

続いて、本発明の好ましい実施形態について、添付の図面を参照して説明する。

図１ａは、アンビソニックスのチャンネル／成分のナンバリングを用いた球形調和関数を説明する図である。図１ｂは、DirACベースの空間音声符号化処理装置のエンコーダ側を示す図である。図２は、DirACベースの空間音声符号化処理装置のデコーダを示す図である。図３は、当技術分野で知られている高次のアンビソニックス合成プロセッサを示す図である。図４は、第１の態様、第２の態様、および第３の態様を適用した本発明の好ましい実施形態を示す図である。図５は、エネルギー補償の概要処理を示す図である。図６は、本願発明の第１の態様に係る音場記述を生成する装置を示す図である。図７は、本願発明の第２の態様に基づく音場記述を生成する装置を示す図である。図８は、本願発明の第３の態様に基づく音場記述を生成する装置を示す図である。図９は、図８の低次成分生成装置の好ましい実装例を示す図である。図１０は、図８の中次成分生成装置の好ましい実施例を示す図である。図１１は、図８の高次成分生成装置の好ましい実施例を示す図である。図１２ａは、第１の態様に従った補償ゲイン計算の好ましい実施例を示す図である。図１２ｂは、第２の態様に従ったエネルギー補償計算の実施例を示す図である。図１２ｃは、第１の態様と第２の態様とを組み合わせたエネルギー補償の好ましい実施例を示す図である。

図６は、本願発明の第１の態様に基づく音場記述を生成するための装置を示す図である。この装置は、図６の左に図示されている入力信号から拡散データを得るための入力信号分析器６００を含んでいる。さらに、本装置は、入力信号から、音場成分ごとに直接成分と拡散成分とを有する第１の音場成分グループの１つ以上の音場成分を生成するための音場成分生成器６５０を備えている。さらに、音場成分生成器は、入力信号から、直接成分のみを有する第２の音場成分グループを生成する。

特に、音場成分生成装置６５０は、第１の音場成分グループを生成する際に、エネルギー補償を行うように構成されている。エネルギー補償は、拡散データと、第２の音場成分グループの数、または第１の音場成分グループの最大次数、または第２の音場成分グループの最大次数に依存する。特に、本願発明の第１の態様によれば、第２の音場成分グループについて、直接成分のみが生成され、任意の拡散成分が生成されないことによるエネルギー損失を補償するために、エネルギー補償が行われる。

これとは逆に、第１の音場成分グループでは、直接部分と拡散部分とが音場成分に含まれる。したがって、音場成分生成器６５０は、上段の配列で図示されているように、他の図において参照符号８３０で図示されているように直接部分のみを有し、拡散部分を有さない音場成分を生成し、また、他の図に関して後に説明する参照符号８１０，８２０で図示されているように、直接部分と拡散部分とを有する音場成分を生成する。

図７は、本発明の第２の態様に従って、少なくとも２つのチャンネルからなる入力信号から音場記述を生成する装置を示す図である。この装置は、入力信号から方位データおよび拡散データを得るための入力信号分析器６００を備えている。さらに、入力信号から導出された全方位成分に対する第１のエネルギーまたは振幅に関連する尺度を推定するため、および、入力信号から導出された指向性成分に対する第２のエネルギーまたは振幅に関連する尺度を推定するための推定器７２０が設けられている。

さらに、音場記述を生成する装置は、音場の音場成分を生成するための音場成分生成器７５０を備え、音場成分生成器７５０は、第１の振幅測定値、第２のエネルギーまたは振幅に関連する測定値、方位データおよび拡散データを使用して、指向性成分のエネルギー補償を実行するように構成されている。このように、音場成分生成器は、本発明の第２の態様に従って、補正／補償された指向性（直接）成分、および、対応して実施される場合には、好ましくはエネルギー補償されないか、または、図６の文脈で説明したように拡散エネルギー補償の目的でのみエネルギー補償される全方位成分など、入力信号と同じ次元の他の成分を生成する。なお、振幅に関連する尺度は、Ｂ₀やＢ₁などの指向性成分や全方位成分のノルムや振幅、絶対値であってもよい。好ましくは、式に概説されているように、２の累乗によって得られるパワーまたはエネルギーが好ましいが、エネルギーまたは振幅関連の尺度を得るために、ノルムまたは振幅または絶対値に適用される他の累乗も同様に使用することができる。

実施の形態では、第２の態様に係る音場記述を生成する装置は、少なくとも２つのチャンネルからなる入力信号に含まれる指向性信号成分のエネルギー補償を、指向性成分が入力信号に含まれるように、または２つのチャンネルの差分を算出するなど入力信号から算出できるように行う。この装置は、高次データなどを生成することなく、補正のみを行うことができる。しかしながら、他の実施形態では、音場成分生成装置は、後述する参照符号８２０，８３０で示されるように、他の次元から音場成分も生成するように構成されているが、入力信号に対応するものが含まれていなかったこれらの（または高次の）音成分については、任意の指向性成分エネルギー補償は必ずしも行われない。

図８は、本発明の第３の態様に従い、モノラル信号またはマルチチャンネル信号からなる入力信号を用いて音場記述を生成する装置の好ましい実施例を示す。本装置は、入力信号を分析して方位データおよび拡散データを導出するための入力信号分析器６００を備えている。さらに、本装置は、入力信号から所定の次数および所定のモードまでの低次音場記述を生成するための低次成分生成器８１０を備え、低次成分生成器８１０は、入力信号または入力信号の一部をそのままコピーまたは取り込み、あるいは入力信号がマルチチャンネル信号である場合には入力信号のチャンネルの加重結合を行うことにより、低次音場記述を導出するように構成されている。さらに、装置は、中次音場記述が直接寄与と拡散寄与からなるように、方位データと拡散データを用いて、少なくとも１つの直接部分と、少なくとも１つの拡散部分の合成を用いて、所定の次数以上、または所定の次数かつ所定のモード以上かつ第１の打ち切り次数以下、または第１の打ち切り次数の中次音場記述を生成する中次成分生成器８２０を備える。

音場記述を生成する装置は、さらに、少なくとも１つの直接部分の合成を用いて、第１の打ち切り次元以上の成分を有する高次音場記述を生成するための高次成分生成器８３０を備え、高次音場記述は、直接寄与のみからなるものである。このように、実施形態では、高次音場記述が直接寄与のみからなるように、少なくとも１つの直接部分の合成は、拡散成分の合成を伴わずに実行される。

このように、低次成分生成器８１０は低次音場記述を生成し、中次成分生成器８２０は中次音場記述を生成し、高次成分生成器は高次音場記述を生成する。低次音場記述は、例えば、図１に例示した高次のアンビソニックス球形成分の文脈のように、ある次元やモードまで拡張される。しかしながら、本発明の第１、第２および／または第３の態様に従って、円筒形関数を有する音場記述や、任意のアンビソニックス表現とは異なる任意の他の成分を有する音場記述など、他の任意の音場記述も同様に生成することができる。

中次成分生成器８２０は、所定の次元またはモード以上で、以下の説明でもＬで示されるある打ち切り次数までの音場成分を生成する。最後に、高次成分生成器８３０は、打ち切り次数Ｌから、以下の説明でＨと示される最大次数までの音場成分生成を適用するように構成されている。

実装によっては、図６からの音場成分生成器６５０によって提供されるエネルギー補償は、直接／拡散音場成分のための図６の対応する参照符号によって図示された低次成分生成器８１０または中次成分生成器８２０内に適用することができない。さらに、音場成分生成器６５０によって生成された音場成分により生成された第２の音場成分グループは、図６の直接／非拡散表記の下で参照符号８３０により図示された図８の高次成分生成器８３０の出力に対応する。

図７に関して、指向性成分エネルギー補償は、好ましくは、図８に図示された低次成分生成器８１０内で実行され、すなわち、ブロック７５０から出て行く上側矢印の上の参照符号８１０によって図示されているように、所定の次元および所定のモードまでの一部またはすべての音場成分に対して実行されることが示されている。中次成分および高次成分の生成は、上側矢印の下に示された参照符号８２０，８３０によって図示されるように、図７のブロック７５０から出て行く上側のハッチングされた矢印に関して図示される。このように、図８の低次成分生成器８１０は、第１の態様に従った拡散エネルギー補償と、第２の態様に従った指向性（直接）信号補償とを適用してもよいが、中次成分生成器８２０は、出力信号に高い拡散成分エネルギーバジェットを持たせるために、そのエネルギーに関して強化することができる拡散部分を有する出力データを生成するので、拡散成分補償のみを行ってもよい。

次に、音場記述を生成するための１つの装置内における本願発明の第１の態様、第２の態様および第３の態様の実施を示す図４を参照する。

図４は、入力分析器６００を示す図である。入力分析器６００は、方位推定器６１０と、拡散推定器６２０と、スイッチ６３０，６４０とを備えている。入力信号分析器６００は、ＤＯＡおよび／または拡散情報として示される方位情報を時間／周波数ビンごとに発見するために、典型的には分析フィルタバンク４００に続いて、入力信号を分析するように構成される。方位情報ＤＯＡおよび／または拡散情報は、ビットストリームからも得られる。したがって、このデータが入力信号から取得できない状況、すなわち、入力信号が全方位成分Ｗのみを有する場合には、入力信号分析器は、ビットストリームから方位データおよび／または拡散データを取得する。例えば、入力信号が左チャンネルＬと右チャンネルＲを有する２チャンネル信号の場合、方位および／または拡散データを得るために分析を行うことができる。また、入力信号が１次アンビソニックス信号（ＦＯＡ）や、Ａフォーマットの信号やＢフォーマットの信号など、２チャンネル以上の信号である場合には、ブロック６１０または６２０によって実行される実際の信号分析を行うことができる。しかしながら、ビットストリームから、方位データおよび／または拡散データを取り出すためにビットストリームが分析される場合、これもまた、入力信号分析器６００によって行われる分析を表しているが、他の場合のような実際の信号分析は行われない。後者の場合、分析はビットストリームに対して行われ、入力信号はダウンミックス信号とビットストリームデータの両方で構成される。

さらに、図４に示す音場記述生成装置は、指向性ゲイン計算ブロック４１０、スプリッタ４２０、結合器４３０、デコーダ４４０、および合成フィルタバンク４５０を備えている。合成フィルタバンク４５０は、高次アンビソニクス表現のためのデータ、またはヘッドフォンによって再生される信号、すなわちバイノーラル信号、または特定のスピーカセットアップに一般的には無関係である音場記述から、特定のスピーカセットアップに適合して信号化されたマルチチャンネルを表す特定のスピーカセットアップに配置されたスピーカによって再生される信号を受信する。

さらに、音場記述を生成する装置には、一般的に「低次成分生成」ブロックと「低次成分混合」ブロックからなる低次成分生成器８１０を含む音場成分生成器が設けられている。さらに、「生成基準信号」ブロック８２１、脱相関器８２３，８２４、および「混合中次成分」ブロック８２５からなる中次成分生成器８２０が設けられている。そして、図４では、混合高次成分ブロック８２２で構成される高次成分生成器８３０も設けられている。さらに、参照符号９１０、９２０、９３０、９４０で図示される（拡散）補償ゲイン計算ブロックが設けられている。参照符号９１０～９４０については、図１２ａ～図１２ｃを参照してさらに説明する。

図４には図示されていないが、少なくとも拡散信号のエネルギー補償は、図４に明示的に示されているように、低次用の音場成分生成器で行われるだけでなく、このエネルギー補償は、中次成分混合器８２５でも行うことができる。

さらに、図４は、分析フィルタバンク４００によって生成されたように個々の時間／周波数タイルに対して全体の処理が実行される状況を示している。このように、各時間／周波数タイルに対して、あるＤＯＡ値、ある拡散値、およびこれらの値を適用するためのある処理、ならびに異なる補償を適用するためのある処理が実行される。さらに、音場成分は、個々の時間／周波数タイルについても生成／合成され、合成器４３０によって行われる合成も、個々の時間／周波数タイルごとに時間／周波数領域内で行われ、さらに、ＨＯＡデコーダ４４０の手順は、時間／周波数領域内で行われ、フィルタバンク合成４５０は、次に、ヘッドフォンのための全帯域幅の両耳信号、または特定のスピーカセットアップのスピーカのための全帯域幅のスピーカ信号を用いて、全帯域幅のＨＯＡ成分を有する全周波数帯域の時間領域信号を生成する。

この２つの原則に加えて、２つの拡張を適用することができる。

・ダウンミックス信号から抽出したＫ個の低次アンビソニックス成分を増幅することで、Ｈ次までの拡散音アンビソニックス成分をモデリングしないことによるエネルギー損失を補うことができる。

・ダウンミックス信号が非可逆符号化されている伝送アプリケーションでは、伝送されるダウンミックス信号が量子化誤差によって破壊されるが、ダウンミックス信号から抽出されたK個の低次アンビソニックス成分のエネルギー関係を制約することで、これを緩和することができる。

図４は、新方式の一例を示したものである。図３に示した状態との違いの１つは、合成するアンビソニックス成分の次元によって異なる混合プロセスの違いである。低次成分は、主にダウンミックス信号から直接抽出した低次成分から決定される。低次成分の混合は、抽出された成分をそのまま出力にコピーするだけの簡単なものでよい。

しかしながら、好ましい実施形態では、抽出された成分は、エネルギー補償、拡散の関数及び打ち切り次数Ｌ及びＨを適用することによって、またはエネルギー正規化、拡散関数及び音方位を適用することによって、またはそれらの両方を適用することによって、さらに処理される。

中次成分の混合は、実際には（オプションの拡散補償を除いて）最先端の方法と同様であり、打ち切り次数Ｌまでの直接音と拡散音の両方のアンビソニックス成分を生成して結合するが、低次成分の混合によって既に合成されたＫ個の低次成分は無視する。高次成分の混合は、打ち切り次数Ｈまでの残りの(Ｈ－Ｌ＋１)²個のアンビソニックス成分を生成することからなるが、直接音についてのみであり、拡散音は無視される。以下では、低次成分の混合または生成について詳しく説明する。

第１の態様は、エネルギー補償に関するもので、第１の態様に関する処理の概要を図６に一般的に示す。原理を、一般性を損なわない範囲で、K＝(Ｌ＋１)²の具体的なケースについて説明する。

Ｋ＜(Ｌ＋１)²の場合も同様の原理を用いることができ、(Ｌ＋１)²－Ｋの拡散音アンビソニックス成分を、脱相関器と平均的な拡散レスポンスを用いて合成することが可能である。

実際の実装では、得られる正規化ゲイン、補償ゲイン、またはその２つの組み合わせは、オーディオのアーチファクトにつながる可能性のある厳しいイコライゼーションの結果となる大きなゲイン係数を避けるために制限することができる。例えば、ゲインが－６～＋６dBになるように制限することができる。さらに、急激な変化を避け、安定化処理を行うために、ゲインを時間および／または周波数で平滑化することができる（移動平均または再帰平均による）。

続いて、技術の現状に対する好ましい実施形態の利点と長所のいくつかを要約する。

・DirAC内での簡素化された（より複雑でない）ＨＯＡ合成。
°すべてのアンビソニックス成分を完全に合成することなく、より直接的な合成が可能。
°必要な脱相関器の数と、最終的な品質への影響の低減。

・伝送中のダウンミックス信号に導入される符号化アーチファクトの低減。

・品質と処理効率の最適なトレードオフを有するように、３つの異なる次元の処理を分離する。

・
続いて、上記の説明に一部または全部含まれているいくつかの発明的態様がまとめられており、これらは互いに独立して、または互いに組み合わせて、あるいは３つの態様から任意に選択された２つの態様のみを組み合わせた特定の組み合わせで使用することができる。

第１の態様。拡散音成分のエネルギー補償

本発明は、１つ以上の信号成分からなる入力信号から音場記述を生成する際に、入力信号を分析して、入力信号で表現される音場の少なくとも拡散データを得ることができることに端を発している。入力信号の分析は、１つ以上の信号成分にメタデータとして関連付けられた拡散データの抽出であってもよいし、例えば、入力信号がＢフォーマット表現やＡフォーマット表現などの完全１次表現のように２つ、３つ、あるいはそれ以上の信号成分を有する場合には、入力信号の分析は実信号分析であってもよい。

さて、直接成分と拡散成分を有する第１のグループの１つ以上の音場成分を生成する音場成分生成器がある。さらに、第２のグループの１つ以上の音場成分が生成され、そのような第２のグループに対して、音場成分は直接成分のみを有する。

完全な音場生成とは対照的に、これは、考慮中の現在のフレームまたは現在の時間／周波数ビンの拡散値が０とは異なる値を有する場合には、エネルギー誤差を生じる。

このエネルギー誤差を補正するために、第１の音場成分グループを生成する際にエネルギー補償を行う。このエネルギー補償は、拡散データと、第２のグループの拡散成分の非合成によるエネルギー損失を表す第２のグループの音場成分数に依存する。

一実施形態では、第１のグループの音場成分生成器は、第１のグループの音場成分をコピーまたは加重加算を行うことで、すなわち複雑な空間基底関数評価を行わずに抽出する図４の低次ブランチとすることができる。そのため、第１の音場成分グループは、直接部分と拡散部分とに分けて利用できない。しかし、第１の音場成分グループ全体のエネルギーを増加させると、自動的に拡散部分のエネルギーも増加する。

あるいは、第１グループの１つ以上の音場成分のための音場成分生成器は、別々の直接部分の合成と拡散部分の合成に依拠した図４の中次ブランチとすることもできる。ここでは、拡散部分を別途用意し、一実施形態では、第２グループによるエネルギー損失を補償するために、音場成分の拡散部分を増加させ、直接部分は増加させない。しかし、別の方法として、この場合、直接部分と拡散部分とを結合した後に、得られる音場成分のエネルギーを増加させることもできる。

また、第１グループの１つ以上の音場成分の音場成分生成器は、図４の低次および中次成分のブランチでもよい。この場合、エネルギー補償は、低次成分のみに適用することも、低次成分と中次成分の両方に適用することも可能である。

第２の態様：直接音成分のエネルギー正規化

本発明では、２つ以上の音成分を持つ入力信号の生成に、何らかの量子化を伴っていたことを前提として出発する。典型的には、２つ以上の音成分を考える場合、入力信号の１つの音成分は、Ｂフォーマット表現の全方位マイクロフォン信号Ｗのような全方位信号とすることができ、他の音響成分は、Ｂフォーマット表現すなわち、１次のアンビソニックス表現の８の字型マイクロフォン信号Ｘ,Ｙ,Ｚのような個々の指向性信号とすることができる。

信号エンコーダが、完全な符号化動作に対してビットレート要件が高すぎる状況に陥った場合、典型的な手順は、エンコーダが全方位信号を可能な限り正確に符号化するが、エンコーダは、１つ以上の方向性成分が完全に０に低減されるほど低くてもよい指向性成分のために、より少ないビット数しか費やさない。これは、指向性情報におけるそのようなエネルギーの不整合および損失を意味する。

それにもかかわらず、例えば、あるフレームまたは時間／周波数ビンが１よりも低い特定の拡散と音の方位を持つという明示的なパラメトリックサイド情報を持つことによって得られる要件がある。したがって、パラメトリックデータに従って、ある方位を持つある非拡散成分を持つ一方で、他方では、送信された全方位信号や指向性信号がこの方位を反映していないという状況が生じ得る。例えば、全方位信号は情報を大きく損なうことなく伝送されているのに、左右の方位を担う指向性信号Ｙはビットの理由がないために０に設定されている可能性がある。このような場合、本来のオーディオシーンでは左から直接音成分が到来したとしても、伝送される信号には左右の指向性がないオーディオシーンが反映される。

このように、第２の発明では、入力信号に明示的に含まれているか、あるいは入力信号自体から得られる方位／拡散データを用いて、エネルギー関係の崩れを補正するために、直接音成分に対してエネルギーの正規化を行う。

このエネルギー正規化は、図４のすべての個々の処理ブランチの文脈において、全体的にまたは別々にのみ適用することができる。

本発明では、入力信号から受信した、あるいは入力信号の非欠陥部分から得られた付加的なパラメトリックデータを使用することができるため、何らかの理由で入力信号に含まれる符号化誤差を、入力信号から得られた付加的な方位データや拡散データを用いて低減することができる。

本発明では、入力信号から導出される全方位成分のエネルギーまたは振幅関連尺度と、入力信号から導出される指向性成分のさらなるエネルギーまたは振幅関連尺度を推定し、方位データ、拡散データとともに、エネルギー補償に用いる。このようなエネルギーまたは振幅に関連する尺度は、振幅そのもの、またはパワー、すなわち振幅の２乗と加算、またはパワーに一定の期間を乗じたものなどのエネルギー、または振幅に対する指数が１とは異なる振幅とそれに続く加算から得られる他の尺度とすることができる。このように、エネルギーや振幅に関連する尺度としては、指数が２の累乗に対して指数が３のラウドネスも考えられる。

第３の態様：異なる次元に対し異なる処理手順を有するシステムの実装

図４に示される第３の発明では、音場は、単一信号または２つ以上の信号成分を有する多成分信号を含む入力信号を使用して生成される。信号分析器は、入力信号が２つ以上の信号成分を有する場合には、明示的な信号分析によって、または入力信号に含まれる方位データおよび拡散データをメタデータとして抽出するために入力信号を分析することによって、入力信号から方位データおよび拡散データを導出する。

低次成分生成器は、入力信号から所定の次元までの低次音記述を生成するもので、入力信号から信号成分をコピーしたり、入力信号中の成分を加重合成したりすることで、入力信号から抽出できる利用可能なモードに対してこの作業を行う。

中次成分生成器は、分析器から得られた方位データと拡散データを用いて、少なくとも１つの直接成分の合成と、少なくとも１つの拡散成分の合成とを用いて、所定の次元または所定の次元以上の次元および所定のモード以上および第１の打ち切り次数以下の成分を有する中次音記述を生成し、中次音記述が直接寄与と拡散寄与とで構成されるようにする。

さらに、高次成分生成器は、拡散成分の合成を行わずに、少なくとも１つの直接成分の合成を用いて、第１の打ち切り以上、第２の打ち切り以下の次数の成分を持つ高次音記述を生成し、高次音記述が直接成分のみになるようにする。

本システム発明は、入力信号に含まれる情報を可能な限り利用して正確な低次音場生成を行うと同時に、低次音記述を行うための処理演算は、コピー操作や加重加算などの加重結合操作のみで済むため、労力が少なくて済むという大きなメリットがある。したがって、必要最小限の処理能力で、高品質な低次音記述を行うことができる。

中次音記述は、より多くの処理能力を必要とするが、分析された方位データおよび拡散データを用いて、典型的には次元まで、すなわち高次までの直接および拡散寄与を有する、非常に正確な中次音記述を生成することを可能にし、その下では、音場記述における拡散寄与は、知覚的観点から依然として必要とされる。

最後に、高次成分生成器では、拡散合成を行わずに直接合成のみを行うことで、高次音記述を生成する。これも、直接成分のみを生成することで、必要な処理能力を減らし、同時に、拡散合成を省略しても、知覚的観点からはそれほど問題にならない。

もちろん、第３の発明は、第１の発明および／または第２の発明と組み合わせることができるが、何らかの理由で高次成分発生器により拡散合成を行わないことの補償を適用しない場合でも、この手順は、一方での処理能力と他方でのオーディオ品質の間の最適な妥協をもたらす。入力信号の生成に使用された符号化を補償する低次エネルギーの正規化を行う場合も同様である。実施形態では、この補正を追加で行っているが、この補正を行わなくても、自明ではない大きなメリットが得られる。

図４は、並列伝送の象徴的な説明図として、各成分生成器で処理される成分の数を示している。図４に例示した低次成分生成器８１０は、入力信号から所定の次元および所定のモードまでの低次音場記述を生成するものであり、低次成分生成器８１０は、入力信号をそのままコピーまたは取り込み、あるいは入力信号のチャンネルの加重結合を行うことにより、低次音場記述を導出するように構成されている。低次成分生成ブロックと低次成分混合ブロックとの間に図示されているように、この低次成分生成器８１０では、Ｋ個の個々の成分が処理される。中次成分生成器８２０は、基準信号を生成し、例示的な状況として、フィルタバンク４００の入力または出力におけるダウンミックス信号に含まれる全方位信号が使用されることを概略的に示している。しかし、入力信号に左チャンネルと右チャンネルがある場合には、左チャンネルと右チャンネルの加算により得られたモノラル信号が基準信号生成器８２１によって算出される。さらに、中次成分生成器では、(Ｌ＋１)²－Ｋ個の成分が生成される。さらに、高次成分生成器は、(Ｈ＋１)²－(Ｌ＋１)²成分の数を生成するので、最終的に、結合器の出力において、フィルタバンク４００への入力における単一または複数（少数）の成分から、(Ｈ＋１)²成分が存在することになる。スプリッタは、個々の指向性／拡散データを、対応する成分生成器８１０、８２０、８３０に提供するように構成されている。したがって、低次成分生成器は、Ｋ個のデータ項目を受け取る。これは、スプリッタ４２０と低次成分混合ブロックとをまとめる線によって示される。

さらに、混合次数成分混合ブロック８２５は(Ｌ＋１)²－Ｋデータ項目を受信し、混合高次成分混合ブロックは(Ｈ＋１)²－(Ｌ＋１)²データ項目を受信する。対応して、個々の混合成分ブロックは、ある数の音場成分を結合器４３０に提供する。

続いて、図４の低次成分生成器８１０の好ましい実施例を、図９に関して説明する。入力信号は、入力信号検査器８１１に入力され、入力信号検査器８１１は、取得した情報を処理モード選択器８１２に提供する。処理モード選択器８１２は、番号１で示されるコピーブロック８１３、番号２で示される取り込み（そのまま）ブロック８１４、番号３および参照符号８１５で示される線形結合ブロック（第１のモード）、および番号４で示される線形結合（第２のモード）ブロック８１６として模式的に示される複数の異なる処理モードを選択するように構成される。例えば、入力信号検査器８１１がある種の入力信号を決定したとき、処理モード選択器８１２は、図９の表に示すように、複数の異なる処理モードのうちの１つを選択する。例えば、入力信号が全方位信号Ｗまたはモノラル信号の場合、コピー８１３または取り込み８１４が選択される。しかし、入力信号が、左チャンネル、右チャンネルのステレオ信号や、５．１チャンネル、７．１チャンネルのマルチチャンネル信号の場合は、入力信号から、左右を加算し、左右の差を計算して指向性成分を計算することで全方位信号Wを導出するために、線形結合ブロック８１５が選択される。

しかしながら、入力信号が結合ステレオ信号、すなわちミッド／サイド表現の場合、ミッド信号はすでに全方位信号を表し、サイド信号はすでに指向性成分を表しているので、ブロック８１３またはブロック８１４のいずれかが選択される。

同様に、入力信号が１次アンビソニックス信号（ＦＯＡ）であると判断された場合には、処理モードセレクタ８１２によってブロック８１３またはブロック８１４のいずれかが選択される。しかしながら、入力信号がＡフォーマット信号であると判定された場合、線形結合 (第２のモード) ブロック８１６が選択されて、Ａフォーマット信号に対して線形変換を行い、図８または図６のブロック８１０によって生成されたＫ個の低次成分ブロックを表す全方位成分および３方位成分を有する１次アンビソニックス信号を得る。さらに、図９は、対応するゲイン値gおよびg_sを有するヒューズ補償および／または直接補償を実行するために、ブロック８１３～８１６のうちの１つの出力にエネルギー補償を行うように構成されたエネルギー補償器９００を示している。

したがって、エネルギー補償器９００の実装は、図６の音場成分生成器６５０または図７の音場成分生成器７５０の処理にそれぞれ対応している。

図１０は、第１のグループに関するブロック６５０の直接／拡散下側矢印のための、図８の中次成分発生器８２０または音響成分発生器６５０の一部の好ましい実施を示す。具体的には、中次成分発生器８２０は、入力信号を受信し、入力信号がモノラル信号である場合にそのままコピーまたは取り込むことによって、または、前述したようにまたは全体の教示と共に参照により本明細書に組み込まれた国際公開公報ＷＯ２０１７／１５７８０３Ａ１に示されるように、計算によって入力信号から基準信号を導出することによって基準信号を発生する基準信号生成器８２１を備える。

重み付け器８２４の結果は拡散部分であり、拡散部分は、特定のモードmおよび特定の次元lに対する特定の中次音場成分を得るために、加算器８２５によって直接部分に加算される。ブロック８２３によって生成された拡散部分にのみ、図６に関して議論された拡散補償ゲインを適用することが好ましい。これは、有利には、（拡散）重み付け器によって行われる手順内で行うことができる。このように、図１０に例示されているように、完全な合成を受けていないより高い成分によって生じる拡散エネルギーの損失を補償するために、信号における拡散部分のみが強化される。

高次成分生成器について、直接部分のみの生成を図１１に示した。基本的に、高次成分生成器は、直接分岐に関して中次成分生成器と同じ方法で実装されるが、ブロック８２３、８２４、８２５、８２６を構成しない。したがって、高次成分生成器は、指向性ゲイン算出器４１０から入力データを受信し、基準信号生成器８２１から基準信号を受信する（直接）重み付け器８２２のみで構成される。好ましくは、高次成分生成器と中次成分生成器のための単一の基準信号のみが生成される。しかし、両ブロックは、場合によっては、個々の基準信号発生器を持つこともできる。それにもかかわらず、単一の基準信号発生器のみを有することが好ましい。このように、時間／周波数タイルに対して一定の拡散情報を持つ一定の指向性ゲインG_l ^mを持つ単一の重み付け方位のみを実行することになるので、高次成分生成器が行う処理は極めて効率的である。したがって、高次音場成分を極めて効率的かつ迅速に生成することができ、出力信号における拡散成分の非生成または拡散成分の非使用に起因する誤差は、低次音場成分または中次音場成分の好ましくは唯一の拡散部分を強調することによって容易に補償される。

通常、拡散部分は、コピーまたは (重み付けされた) 線形結合を実行することによって生成された低次音場成分内で別個に利用可能ではない。しかしながら、このような成分のエネルギーを高めることは、拡散部分のエネルギーを自動的に高める。直接部分のエネルギーの同時増強は、本件発明者によって見出されているように問題ではない。

続いて、個々の補償ゲインの算出方法をさらに説明するために図１２ａ～図１２ｃを参照する。

図１２ａは、図６の音場成分生成器６５０の好ましい実施形態を示している。（拡散）補償ゲインは、一実施形態では、拡散値、最大次数Ｈおよび打ち切り次数Ｌを用いて計算され、他の実施形態では、拡散補償ゲインは、低次処理ブランチ８１０における成分の数から得られるパラメータL_kを用いて計算される。さらに、パラメータlkと、低次成分生成器で実際に生成された成分の数Kとに応じて、パラメータmkが用いられる。さらに、Lkに応じた値Ｎも同様に用いられる。第１の実施形態の値Ｈ，Ｌ、あるいはＨ，Lk，mkはいずれも、一般に（第１の音場成分グループの数と関連する）第２の音場成分グループの数を表している。したがって、拡散成分が合成されない成分が多いほど、エネルギー補償ゲインは高くなる。一方、補正可能な低次音場成分の数が多いほど、すなわちゲイン係数を乗じるほど、ゲイン係数を小さくすることができる。一般的に、ゲイン係数gは常に１よりも大きくなる。

図１２ａは、（拡散）補償ゲイン計算機９１０によるゲイン係数gの計算と、その後の補償ゲインアプリケータ９００による「補正」されるべき（低次）成分へのこのゲイン係数の適用を示している。線形数の場合には、補償ゲインアプリケータは乗算器となり、対数の場合には、補償ゲインアプリケータは加算器となる。しかし、ブロック９１０による補償ゲインの計算の具体的な性質と方法に応じて、補償ゲイン適用の他の実装を行うことができる。したがって、ゲインは必ずしも乗算ゲインである必要はなく、他のゲインであってもよい。

図１２ｂは、（直接）補償ゲイン処理に関する第３の実施形態を示す図である。（直接）補償ゲイン計算機９２０は、入力として、図１２ｂにおいて「パワー全方位」として示された全方位成分に対するエネルギーまたは振幅関連の測定値を受け取る。さらに、指向性成分についての第２のエネルギーまたは振幅関連の測定値も、「パワー指向性」としてブロック９２０に入力される。さらに、直接補償ゲイン計算機９２０は、情報Q_Lまたは代替的に情報Ｎを追加で受信する。Ｎは、次元l当たりの係数の数である(2l+1)に等しく、Q_lは1/Nに等しい。さらに、ある時間／周波数タイル(k、n)に対する指向性ゲインG_l ^mも (直接)補償ゲインの計算に必要である。指向性ゲインは、例えば、図４の指向性ゲイン計算機４１０から導出されるものと同じデータである。(直接)補償ゲインg_sは、ブロック９２０から、ブロック９００と同様に実装できる補償ゲインアプリケータ９００に送られ、すなわち、「補正」されるべき成分を受け取り、補正された成分を出力する。

図１２ｃは、拡散音成分のエネルギー補償と直接音成分の補償のエネルギー正規化の組み合わせを共に行うための好ましい実施形態を示している。この目的のために、（拡散）補償ゲインgと（直接）補償ゲインg_sは、ゲイン結合器９３０に入力される。ゲイン結合器の結果（合成ゲイン）は、ポストプロセッサとして実装され、最小値または最大値への制限を行うか、または何らかのソフトな制限を行うために圧縮関数を適用するか、または時間または周波数タイル間の平滑化を行うゲインマニピュレータ９４０に入力される。制限された操作されたゲインは、圧縮されるか、平滑化されるか、または他の後処理方法で処理され、後処理されたゲインは、ゲインアプリケータによって低次成分（複数可）に適用され、補正された低次成分を得る。

線形ゲインg，g_sの場合、ゲイン結合器９３０は、乗算器として実装される。対数ゲインの場合、ゲイン結合器は、加算器として実装される。さらに、参照符号６２０で示される図７の推定器の実装に関して、推定器６２０は、振幅に適用されるパワーが１よりも大きい限り、全方位および指向性成分のための任意のエネルギーまたは振幅関連の尺度を提供することができることが概説されている。エネルギーまたは振幅関連の尺度としてのパワーの場合、指数は２に等しい。しかしながら、１．５から２．５の間の指数も有用である。さらに、パワー値ではなくラウドネス値に対応する振幅に３の累乗を適用するなど、さらに高い指数や累乗も有用である。このように、一般的には、エネルギーまたは振幅に関連する測定値を提供するには、２または３の累乗が好ましいが、１．５から４の累乗も一般的には好ましい。

続いて、本発明の態様に関するいくつかの実施例をまとめる。

第１の態様（拡散音成分のエネルギー補償）の主な実施例１ａ

１ａ１つ以上のチャンネルからなる入力信号から音場記述を生成する装置であって、
入力信号から拡散データを得るための入力信号分析器と、
前記入力信号から、各音場成分に直接成分と拡散成分を有する第１の音場成分グループの１つ以上の音場成分を生成し、前記入力信号から、直接成分のみを有する第２の音場成分グループを生成する音場成分生成器と、を備え、
前記音場成分生成器は、前記第１の音場成分グループを生成する際にエネルギー補償を行うように構成されており、前記エネルギー補償は、前記拡散データおよび前記第２の音場成分グループの数に応じて行うことを特徴とする音場記述生成装置。

第２の態様（直接信号成分のエネルギー正規化）に関する主な実施例１ｂ

１ｂ少なくとも２つのチャンネルからなる入力信号から音場記述を生成する装置であって、
入力信号から方位データおよび拡散データを取得する入力信号分析器と、
入力信号から導出された全方位成分の第１の振幅関連尺度を推定し、入力信号から導出された指向性成分の第２の振幅関連尺度を推定するための推定器と、を備え、
前記音場の音場成分を生成する音場成分生成器であって、前記音場成分生成器は、前記第１の振幅関連尺度、前記第２の振幅関連尺度、前記方位データおよび前記拡散データを用いて、前記指向性成分のエネルギー補償を行うように構成されている、音場成分生成装置。

第３の態様の主な実施例１ｃ：異なる生成器ブランチを持つシステムの実装

１ｃモノラル信号またはマルチチャンネル信号からなる入力信号を用いて音場記述を生成する装置であって、
入力信号を分析して方位データおよび拡散データを導出する入力信号分析器と、
前記入力信号から所定の次数およびモードまでの低次音記述を生成する低次成分生成器であって、前記入力信号をコピーするか、または前記入力信号のチャンネルを加重結合することにより、前記低次音記述を得るように構成されている低次成分生成器と、
前記所定の次数以上または前記所定の次数および前記所定のモード以上かつ前記第１の打ち切り次数以下の中次音記述を、前記方位データおよび前記拡散データを用いて、少なくとも１つの直接部分および少なくとも１つの拡散部分の合成を使用することにより生成し、前記中次音記述が指向性寄与および拡散寄与で構成されるようにするための中次成分生成器と、
前記高次音記述が直接寄与のみからなるように、拡散成分の合成を行わずに、少なくとも１つの直接部分の合成を用いて、前記第１の打ち切り次数以上の成分を有する高次音記述を生成する高次成分生成器と、を備えた装置。

２実施例１ａ、１ｂ、１ｃに記載の装置であって、
前記低次音記述、前記中次音記述、または前記高次音記述が、直交する出力音場の音場成分を含み、２つの音記述が１つの同じ音場成分を含まないようにする、または
前記中次成分生成器は、前記低次成分生成器が使用しない下の成分または第１の打ち切り次元の成分を生成する、装置。

３前述の実施例のうちの１つに記載の装置であって、
音場を表す１つまたは複数のオーディオチャンネルを有する入力ダウンミックス信号を受信するステップと、
前記音場を表す１つ以上の音の方位を受信または決定するステップと、
前記１つ以上の音方位を用いて、１つ以上の空間基底関数を評価するステップと、
入力されたダウンミックス信号チャンネルの第１の加重結合から、１つまたは複数の音場成分の第１のセットを導出するステップと、
入力ダウンミックス信号チャンネルの第２の重み付けされた結合と、１つまたは複数の評価された空間基底関数とから、１つ以上の直接音場成分の第２のセットを導出するステップと、
前記１つまたは複数の第１の音場成分のセットおよび１つまたは複数の第２の音場成分のセットを結合するステップと、を含む装置。

４前記第１および第２の音場成分のセットが直交している、前記実施例のうちの１つの装置。

５音場成分が直交基底関数の係数である、前記実施例のうちの１つの装置。

６音場成分が空間基底関数の係数である、前記実施例のうちの１つの装置。

７音場成分が球形または円形調和関数の係数である、前記実施例のうちの１つの装置。

８前記音場成分がアンビソニックス係数である前記実施例のうちの１つの装置。

９入力されたダウンミックス信号が３つ以下のオーディオチャンネルを有する、前記実施例の１つの装置。

１０前述の実施例の１つの装置であって、
拡散値を受信または決定するステップと、
前記拡散値の関数として、１つ以上の拡散音成分を生成するステップと、
前記１つ以上の拡散音成分を、１つ以上の直接音場成分の第２のセットに結合するステップと、をさらに含む装置。

１１拡散成分生成器が、拡散音情報を脱相関するための脱相関器をさらに備えている、前述の実施例の１つの装置。

１２前記１つ以上の音場成分の第１のセットが拡散値から導出される、前述の実施例の１つの装置。

１３前記１つ以上の音場成分の第１のセットが、１つ以上の音の方位から導出される、前記実施例の１つに記載の装置。

１４時間周波数依存の音の方位を導出する前記実施例のうちの１つの装置。

１５時間周波数依存の拡散値を導出する前記実施例のうちの１つの装置。

１６前述の実施例の１つの装置であって、時間領域ダウンミックス信号の複数のチャンネルを、複数の時間－周波数タイルを有する周波数表現に分解するステップをさらに含む、装置。

１７１つ以上のチャンネルからなる入力信号から音場記述を生成する方法であって、
前記入力信号から拡散データを取得するステップと、
前記入力信号から、音場成分ごとに直接成分と拡散成分を有する第１の音場成分グループのうち、１つ以上の音場成分を生成し、前記入力信号から、直接成分のみを有する第２の音場成分グループを生成するステップと、を含み、
前記生成は、前記第１の音場成分グループを生成する際にエネルギー補償を行うことを含み、前記エネルギー補償は、前記拡散データと前記第２の音場成分グループの数に依存する方法。

１８少なくとも２つのチャンネルからなる入力信号から音場記述を生成する方法であって、
入力信号から方位データおよび拡散データを取得するステップと、
前記入力信号から導出される全方位成分に対する第１の振幅関連尺度を推定し、前記入力信号から導出される指向性成分に対する第２の振幅関連尺度を推定するためのステップと、
前記音場の音場成分を生成するステップであって、前記音場成分生成器は、前記第１の振幅関連尺度、前記第２の振幅関連尺度、前記方位データおよび前記拡散データを用いて、前記指向性成分のエネルギー補償を行うように構成されているステップと、
を含む方法。

１９モノラル信号またはマルチチャンネル信号からなる入力信号を用いて音場記述を生成する方法であって、
入力信号を分析して、方位データおよび拡散データを導出するステップと、
前記入力信号から所定の次元およびモードまでの低次音記述を生成するステップであって、前記低次音生成器は、前記入力信号をコピーするか、または前記入力信号のチャンネルの加重結合を行うことにより、前記低次音記述を導出するように構成されているステップと、
前記所定の次元以上、または前記所定の次元および前記所定のモード以上で高次以下の中次音記述を、前記方位データおよび前記拡散データを用いて、少なくとも１つの直接部分および少なくとも１つの拡散部分の合成を用いて生成し、前記中次音記述が直接寄与および拡散寄与からなるようにするステップと、
拡散成分の合成を行わずに、少なくとも１つの直接部分の合成を用いて、高次以上の成分を持つ高次音記述を生成し、高次音記述が直接寄与のみで構成されるようにするステップと、
を含む方法。

２０コンピュータまたはプロセッサ上で実行されるとき、実施例１７、１８、または１９の１つの方法を実行するためのコンピュータプログラム。

ここで言及しておきたいのは、先に述べたようなすべての代替案または態様、および以下の請求項の独立請求項で定義されたすべての態様は、個別に、すなわち、企図された代替案、対象物、または独立請求項以外の代替案または対象物なしに使用できるということである。しかし、他の実施形態では、２つ以上の代替案または態様または独立請求項を互いに組み合わせることができ、他の実施形態では、すべての態様または代替案およびすべての独立請求項を互いに組み合わせることができる。

本発明的に符号化されたオーディオ信号は、デジタル記憶媒体や非一時的記憶媒体に保存することができ、また、無線伝送媒体やインターネットなどの有線伝送媒体などの伝送媒体を介して伝送することができる。

いくつかの態様を装置の文脈で説明してきたが、これらの態様は、ブロックまたは装置が方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明も表すことは明らかである。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明も表している。

特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、デジタル記憶媒体、例えばフロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＦＬＡＳＨメモリなど、その上に格納された電子的に読み取り可能な制御信号を有する媒体を用いて行うことができ、これらの媒体は、それぞれの方法が実行されるようなプログラム可能なコンピュータシステムと協働する（または協働することができる）。

本発明によるいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアであって、本明細書に記載されている方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができるデータキャリアを含んでいる。

一般に、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法の１つを実行するために動作可能である。プログラムコードは、例えば、機械読み取り可能なキャリアに格納することができる。

他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書に記載された方法の１つを実行するためのコンピュータプログラムを含む。

換言すれば、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載された方法の１つを実行するためのコンピュータプログラムをその上に記録したデータキャリア（またはデジタル記憶媒体、またはコンピュータ読み取り可能な媒体）である。

本発明方法のさらなる実施形態は、したがって、本明細書に記載された方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されていてもよい。

さらなる実施形態は、本明細書に記載された方法の１つを実行するように構成された、または適応された、例えばコンピュータ、またはプログラム可能な論理装置などの処理手段を備える。

さらなる実施形態は、本明細書に記載された方法の１つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータで構成される。

いくつかの実施形態では、本明細書に記載された方法の一部またはすべての機能性を実行するために、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用してもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載された方法の１つを実行するために、マイクロプロセッサと協働してもよい。一般に、本方法は、好ましくは、任意のハードウェア装置によって実行される。

上述した実施形態は、本発明の原理を説明するためのものに過ぎない。本明細書に記載された配置および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、差し迫った特許請求の範囲によってのみ制限され、本明細書の実施形態の説明および解説によって提示された特定の詳細によっては制限されないことが意図される。

参照によってその全体が組み込まれている参考文献
[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamaki, "Directional audio coding - perception-based reproduction of spatial sound", International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.

[2] M. V. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64

[3] R. K. Furness, "Ambisonics―An overview," in AES 8th International Conference, April 1990, pp. 181―189.

[4] C. Nachbar, F. Zotter, E. Deleflie, and A. Sontacchi, "AMBIX - A Suggested Ambisonics Format", Proceedings of the Ambisonics Symposium 2011

[5] "APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION" (corresponding to WO 2017/157803 A1)

Claims

１つ以上のチャンネルを含む入力信号から音場記述を生成する装置であって、前記装置は、
前記入力信号から拡散データを得るための入力信号分析器（６００）と、
音場成分ごとに直接成分および拡散成分を有する第１の音場成分グループのうちの１つ以上の音場成分を前記入力信号から生成し、直接成分のみを有する第２の音場成分グループを前記入力信号から生成するための音場成分生成器（６５０）と、
を備え、
前記音場成分生成器（６５０）は前記第１の音場成分グループを生成する際にエネルギー補償を行うように構成され、前記エネルギー補償は、前記拡散データと、前記第２の音場成分グループにおける音場成分の数、前記第１の音場成分グループにおける拡散成分の数、前記第１の音場成分グループの音場成分の最大次数、および前記第２の音場成分グループの音場成分の最大次数のうちの少なくとも１つとに依存する、装置。
前記音場成分生成器（６５０）は、
前記第１の音場成分グループの音場成分についての基準信号を提供するための基準信号提供器（８２１）と、
前記基準信号から脱相関信号を生成するための脱相関器（８２３、８２４）であって、
前記第１の音場成分グループの前記直接成分は前記基準信号から導出され、前記第１の音場成分グループの前記拡散成分は前記脱相関信号から導出される、脱相関器（８２３、８２４）と、
前記入力信号分析器（６００）により提供された到来方位データおよび拡散データのうちの少なくとも１つを用いて、前記直接成分および前記拡散成分を混合するためのミキサー（８２５）と
を備える、
中次成分生成器（８２０）を備える、請求項１に記載の装置。
前記入力信号は１つのモノラルチャンネルのみを含み、前記第１の音場成分グループの前記音場成分は１次以上の音場成分である、または前記入力信号は２つ以上のチャンネルを含み、前記第１の音場成分グループの音場成分は２次以上の音場成分である、請求項１または２に記載の装置。
前記入力信号はモノラル信号または少なくとも２つのチャンネルを含み、前記音場成分生成器（６５０）は、前記入力信号をコピーまたは取り込む、あるいは前記入力信号の前記チャンネルの加重結合を行うことによって低次音場成分を生成するための低次成分生成器（８１０）を備える、請求項１ないし３の１項に記載の装置。
前記入力信号は前記モノラル信号を含み、前記低次成分生成器（８１０）は、前記モノラル信号（８１３、８１４）を取り込むまたはコピーすることによって、０次アンビソニックス信号を生成するように構成される、または
前記入力信号は少なくとも２つのチャンネルを含み、前記低次成分生成器（８１０）は、前記２つのチャンネルを加算して０次アンビソニックス信号を生成し、前記２つのチャンネル（８１５）の差分に基づいて１次アンビソニックス信号を生成するように構成される、または
前記入力信号は３つまたは４つのチャンネルを持つ１次アンビソニックス信号を含み、前記低次成分生成器（８１０）は、前記入力信号（８１３、８１４）の前記３つまたは４つのチャンネルを取り込むまたはコピーすることによって１次アンビソニックス信号を生成するように構成される、または
前記入力信号は４つのチャンネルを有するＡフォーマット信号を含み、前記低次成分生成器（８１０）は、前記４つのチャンネル（８１６）の加重線形結合を行うことによって、１次アンビソニックス信号を計算するように構成される、
請求項４に記載の装置。
前記音場成分生成器（６５０）は、前記第２の音場成分グループの前記音場成分を生成するための高次成分生成器（８３０）を備え、前記第２の音場成分グループの前記音場成分は、前記第１の音場成分グループの前記音場成分を生成するために使用される打ち切り次元よりも高い次元を有する、請求項１ないし５の１項に記載の装置。
前記音場成分生成器（６５０）は、前記第１の音場成分グループの前記エネルギー補償を行うためのエネルギー補償器（９００）を備え、前記エネルギー補償器（９００）は、前記拡散データ、前記第１の音場成分グループの前記最大次数、および前記第２の音場成分グループの前記最大次数を用いて補償ゲインを算出するため、または前記拡散データ、前記第１の音場成分グループにおける拡散成分の数、および前記第２の音場成分グループの前記最大次数を用いて、補償ゲインを算出するための補償ゲイン計算機（９１０、９２０）を備える、請求項１ないし６の１項に記載の装置。
前記補償ゲイン計算機（９１０、９２０）は、
前記第２の音場成分グループにおける音場成分の数が増加すると前記補償ゲインを増加させる、または
前記第１の音場成分グループの音場成分の最大次数が増加すると前記補償ゲインを減少させる、または
拡散データの増加に伴って前記補償ゲインを増加させる、または
前記第２の音場成分グループの音場成分の最大次数が増加すると前記補償ゲインを増加させる、または
前記第１の音場成分グループにおける拡散成分の数が増加すると前記補償ゲインを減少させる
ように構成される、請求項７または８に記載の装置。
前記補償ゲイン計算機（９１０、９２０）は、前記入力信号から導出される全方位成分についての第１のエネルギーまたは振幅関連尺度をさらに使用して、また前記入力信号、前記拡散データ、および前記入力信号から得られる指向性データから導出される指向性成分についての第２のエネルギーまたは振幅関連尺度を用いて、前記補償ゲインを算出するように構成される、請求項８または９に記載の装置。
前記補償ゲイン計算機（９１０、９２０）は、前記拡散データと、前記第２の音場成分グループにおける音場成分の数、前記第１の音場成分グループにおける拡散成分の数、前記第１の音場成分グループの音場成分の前記最大次数、および前記第２の音場成分グループの音場成分の前記最大次数のうちの少なくとも１つとに依存して、第１のゲイン係数を計算し、前記入力信号から導出された全方位成分についての第１の振幅またはエネルギー関連尺度、前記入力信号から導出された指向性成分についての第２のエネルギーまたは振幅関連尺度、前記指向性データおよび前記拡散データに依存して第２のゲイン係数（g _s）を計算し、前記第１のゲイン係数および前記第２のゲイン係数を用いて前記補償ゲインを計算するように構成される、請求項８ないし１０の１項に記載の装置。
前記補償ゲイン計算機（９１０、９２０）は、固定された最大閾値または固定された最小閾値での制限を用いて、または低いまたは高いゲイン係数を中程度のゲイン係数に向かって圧縮して前記補償ゲインを得るための圧縮関数を用いて、ゲイン係数操作を実行するように構成される、請求項７ないし１１の１項に記載の装置。
前記エネルギー補償器（９００）は、前記補償ゲインを前記第１の音場成分グループの少なくとも１つの音場成分に適用するための補償ゲインアプリケータを備える、請求項７ないし１２の１項に記載の装置。
前記補償ゲインアプリケータは、前記補償ゲインを、前記第１の音場成分グループの各音場成分に、または前記第１の音場成分グループの拡散部分を有する１つ以上の音場成分のみに、または前記第１の音場成分グループの音場成分の拡散部分に適用するように構成される、請求項１３に記載の装置。
前記入力信号分析器（６００）は、前記入力信号に関連付けられたメタデータから前記拡散データを抽出する、または、２つ以上のチャンネルまたは成分を有する前記入力信号の信号分析（６１０、６２０）によって前記入力信号から前記拡散データを抽出するように構成される、請求項１ないし１４の１項に記載の装置。
前記入力信号は、入力次元までの１つまたは２つの音場成分のみを含み、前記音場成分生成器（６５０）は、前記第１の音場成分グループの前記音場成分と前記第２の音場成分グループの前記音場成分とを結合して前記入力次元よりも高い出力次元までの音場記述を得るための音場成分結合器（４３０）を備える、請求項１ないし１５の１項に記載の装置。
複数の異なる時間－周波数タイルについて、前記第１の音場成分グループおよび前記第２の音場成分グループの前記１つ以上の音場成分を生成するための分析フィルタバンク（４００）であって、前記入力信号分析器（６００）は、各時間－周波数タイルについて拡散データ項目を取得するように構成され、前記音場成分生成器（６５０）は、各時間－周波数タイルについて別々に前記エネルギー補償を実行するように構成される、分析フィルタバンク（４００）をさらに備える、請求項１ないし１６の１項に記載の装置。
前記第１の音場成分グループの前記１つ以上の音場成分および前記第２の音場成分グループの前記１つ以上の音場成分を使用して、前記入力信号から生成された前記音場記述のスペクトル領域表現または時間領域表現を生成するための高次デコーダ（４４０）をさらに備える、請求項１ないし１７の１項に記載の装置。
前記第１の音場成分グループと前記第２の音場成分グループとが互いに直交している、または前記音場成分は直交基底関数の係数、空間基底関数の係数、球形または円形調和関数の係数、およびアンビソニックス係数のうちの少なくとも１つである、請求項１ないし１８の１項に記載の装置。
１つ以上のチャンネルを備える入力信号から音場記述を生成する方法であって、
前記入力信号から拡散データを取得するステップと、
前記入力信号から、各音場成分に指向性成分と拡散成分を有する第１の音場成分グループの１つ以上の音場成分を生成し、また前記入力信号から、指向性成分のみを有する第２の音場成分グループを生成するステップと、
を含み、
前記生成するステップは、前記第１の音場成分グループを生成する際にエネルギー補償を行うステップを含み、前記エネルギー補償は前記拡散データと、前記第２の音場成分グループにおける音場成分の数、前記第１の音場成分グループにおける拡散成分の数、前記第１の音場成分グループの音場成分の最大次数、および前記第２の音場成分グループの音場成分の最大次数のうちの少なくとも１つとに依存する、方法。
コンピュータまたはプロセッサ上で実行されるときに、請求項２０の方法を実行するためのコンピュータプログラム。