JP2022518744A

JP2022518744A - 空間オーディオ表現を符号化するための装置および方法、またはトランスポートメタデータを使用して符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム

Info

Publication number: JP2022518744A
Application number: JP2021542163A
Authority: JP
Inventors: ケッヒ，ファビアン; ティエルガルト，オリヴァー; フックス，ギヨーム; デーラ，シュテファン; ブテオン，アレクサンドル; ヘッレ，ユルゲン; バイヤー，シュテファン
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2019-01-21
Filing date: 2020-01-21
Publication date: 2022-03-16
Also published as: US20210343300A1; TW202032538A; BR112021014135A2; MX2021008616A; CN113490980A; TWI808298B; AU2020210549B2; CA3127528A1; JP2024038192A; WO2020152154A1; KR20210124283A; ZA202105927B; AU2020210549A1; SG11202107802VA; EP3915106A1

Abstract

符号化されたオーディオ信号を得るためにオーディオシーンを表す空間オーディオ表現を符号化するための装置は、空間オーディオ表現からトランスポート表現（６１１）を生成し、トランスポート表現（６１１）の生成に関連する、またはトランスポート表現（６１１）の１つもしくは複数の指向特性を示すトランスポートメタデータ（６１０）を生成するためのトランスポート表現生成器（６００）と、符号化されたオーディオ信号を生成するための出力インターフェース（６４０）であって、符号化されたオーディオ信号がトランスポート表現（６１１）に関する情報およびトランスポートメタデータ（６１０）に関する情報を含む、出力インターフェース（６４０）と、を備える。【選択図】図６

Description

本発明の実施形態は、方向オーディオコーディングのためのトランスポートチャネルまたはダウンミックスシグナリングに関する。

方向オーディオコーディング（ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ（ＤｉｒＡＣ））技術［Ｐｕｌｋｋｉ０７］は、空間音の解析および再現の効率的な手法である。ＤｉｒＡＣは、空間パラメータ、すなわち、周波数帯域ごとに測定された到来方向（ｄｉｒｅｃｔｉｏｎｏｆａｒｒｉｖａｌ（ＤＯＡ））および拡散度に基づく音場の知覚的に動機付けられた表現を使用する。これは、１つの時点で１つの臨界帯域において、聴覚系の空間分解能は、方向についての１つのキューおよび両耳間コヒーレンスについての別のキューの復号に限定されるという仮定に基づいて構築される。空間音は、その場合、２つのストリーム、すなわち、無指向性拡散ストリームおよび指向性非拡散ストリームをクロスフェードすることによって周波数領域で表される。

ＤｉｒＡＣは、当初、記録されたＢフォーマットの音を対象としていたが、５．１［２］のような特定のスピーカセットアップまたは任意の構成のマイクロフォン配列［５］と一致するマイクロフォン信号に拡張することもできる。最新の事例では、特定のスピーカセットアップのための信号を記録するのではなく、代わりに中間フォーマットの信号を記録することによって、より高い柔軟性を達成することができる。

そのような中間フォーマットは、実際には十分に確立されており、（高次）アンビソニックス［３］で表される。アンビソニックス信号から、ヘッドフォン再生用のバイノーラル信号を含むすべての所望のスピーカセットアップの信号を生成することができる。これには、線形アンビソニックスレンダラ［３］または方向オーディオコーディング（ＤｉｒＡＣ）などのパラメトリックレンダラのどちらかを使用する、アンビソニックス信号に適用される特定のレンダラが必要である。

アンビソニックス信号を、各チャネル（アンビソニックス成分と呼ばれる）がいわゆる空間基底関数の係数と等価であるマルチチャネル信号として表すことができる。（係数に対応する重みを有する）これらの空間基底関数の加重和を用いて、録音場所における元の音場を再現することができる［３］。したがって、空間基底関数の係数（すなわち、アンビソニックス成分）は、録音場所における音場のコンパクトな記述を表す。様々なタイプの空間基底関数、例えば、球面調和関数（ＳＨｓ）［３］や円筒調和関数（ＣＨｓ）［３］が存在する。ＣＨｓは、２Ｄ空間における音場を記述するときに（例えば、２Ｄ音響再生のために）使用することができ、ＳＨｓは、２Ｄおよび３Ｄ空間における音場を記述するために（例えば、２Ｄおよび３Ｄ音響再生のために）使用することができる。

一例として、特定の方向

から到来するオーディオ信号

は、球面調和関数を切り捨て次数Ｈまで展開することによってアンビソニックスフォーマットで表すことができる次式の空間オーディオ信号

をもたらし、

式中、

は、次数ｌ、モードｍの球面調和関数であり、

は、展開係数である。切り捨て次数Ｈが増加すると、展開はより正確な空間表現をもたらす。アンビソニックスチャネル番号（ＡｍｂｉｓｏｎｉｃｓＣｈａｎｎｅｌＮｕｍｂｅｒｉｎｇ（ＡＣＮ））インデックスを有する次数Ｈ＝４までの球面調和関数が、次数ｎ、モードｍについて図１ａに示されている。

ＤｉｒＡＣは、１次アンビソニックス信号（Ｂフォーマットと呼ばれるＦＯＡ）から、または異なるマイクロフォン配列から高次アンビソニックス信号を提供するためにすでに拡張された［５］。この文献は、ＤｉｒＡＣパラメータおよび基準信号から高次アンビソニックス信号を合成するための、より効率的な方法に焦点を当てている。この文献では、基準信号は、ダウンミックス信号とも呼ばれ、高次アンビソニックス信号のサブセットまたはアンビソニックス成分のサブセットの線形結合とみなされる。

ＤｉｒＡＣ解析では、ＤｉｒＡＣの空間パラメータがオーディオ入力信号から推定される。当初、ＤｉｒＡＣは、例えばＢフォーマットマイクロフォンから得ることができる１次アンビソニックス（ｆｉｒｓｔ－ｏｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（ＦＯＡ））入力用に開発されたが、他の入力信号も十分に可能である。ＤｉｒＡＣ合成では、空間再現のための出力信号、例えばスピーカ信号は、ＤｉｒＡＣパラメータおよび関連付けられたオーディオ信号から計算される。合成のためだけに無指向性オーディオ信号を使用するための、またはＦＯＡ信号全体を使用するための解決策が記載されている［Ｐｕｌｋｋｉ０７］。あるいは、４つのＦＯＡ信号成分のサブセットのみを合成に使用することもできる。

空間音を効率的に表現するので、ＤｉｒＡＣは空間オーディオコーディングシステムの基礎としてもよく適している。そのようなシステムの目的は、低ビットレートで空間オーディオシーンをコード化し、伝送後に元のオーディオシーンを可能な限り忠実に再現することができることである。この場合、ＤｉｒＡＣ解析の後に空間メタデータ符号器が続き、空間メタデータ符号器は、低ビットレートのパラメトリック表現を得るためにＤｉｒＡＣパラメータを量子化および符号化する。メタデータと共に、元のオーディオ入力信号から導出されたダウンミックス信号が、従来のオーディオコアコーダによる伝送のためにコード化される。ダウンミックス信号のコード化には、例えば、ＥＶＳベースのオーディオコーダを採用することができる。ダウンミックス信号は、トランスポートチャネルと呼ばれる異なるチャネルからなる。ダウンミックス信号は、例えば、目標ビットレートに応じて、Ｂフォーマット信号（すなわち、ＦＯＡ）、ステレオペア、またはモノラルダウンミックスを構成する４つの係数信号とすることができる。コード化された空間パラメータおよびコード化されたオーディオビットストリームは、伝送前に多重化される。

コンテキスト：ＤｉｒＡＣベースの空間オーディオコーダのシステム概要
以下では、没入型音声オーディオサービス（ＩｍｍｅｒｓｉｖｅＶｏｉｃｅａｎｄＡｕｄｉｏＳｅｒｖｉｃｅｓ（ＩＶＡＳ））用に設計されたＤｉｒＡＣに基づく最新技術の空間オーディオコーディングシステムの概要を提示する。そのようなシステムの目的は、オーディオシーンを表す様々な空間オーディオフォーマットを処理し、それらを低ビットレートでコード化し、伝送後に元のオーディオシーンを可能な限り忠実に再現することができることである。

システムは、オーディオシーンの様々な表現を入力として受け入れることができる。入力オーディオシーンを、異なるスピーカ位置で再生されることを意図されたマルチチャネル信号によって、経時的にオブジェクトの位置を記述するメタデータを伴う聴覚オブジェクトによって、または聴取者もしくは基準位置における音場を表す１次アンビソニックスフォーマットもしくは高次アンビソニックスフォーマットによって表すことができる。

この解決策は、モバイルネットワーク上で会話サービスを可能にするために低レイテンシで動作することが期待されているので、システムは、３ＧＰＰ拡張音声サービス（ＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅ（ＥＶＳ））に基づくものであることが好ましい。

様々なオーディオフォーマットをサポートするＤｉｒＡＣベースの空間オーディオコーディングの符号器側が図１ｂに示されている。音響／電気入力１０００は符号器インターフェース１０１０に入力され、符号器インターフェースは、１０１３に示される１次アンビソニックス（ＦＯＡ）または高次アンビソニックス（ｈｉｇｈｏｒｄｅｒＡｍｂｉｓｏｎｉｃｓ（ＨＯＡ））のための特定の機能を有する。さらに、符号器インターフェースは、ステレオデータ、５．１データ、または２又は５よりも多いチャネルを有するデータなどのマルチチャネル（ＭＣ）データのための機能を有する。さらに、符号器インターフェース１０１０は、例えば、１０１１に示されるオーディオオブジェクトとしてのオブジェクトコーディングのための機能を有する。ＩＶＡＳ符号器は、ＤｉｒＡＣ解析ブロック１０２１とダウンミックス（ＤＭＸ）ブロック１０２２とを有するＤｉｒＡＣ段１０２０を備える。ブロック１０２２によって出力された信号は、ＡＡＣやＥＶＳ符号器などのＩＶＡＳコア符号器１０４０によって符号化され、ブロック１０２１によって生成されたメタデータは、ＤｉｒＡＣメタデータ符号器１０３０を使用して符号化される。

図１ｂは、様々なオーディオフォーマットをサポートするＤｉｒＡＣベースの空間オーディオコーディングの符号器側を示している。図１ｂに示されるように、符号器（ＩＶＡＳ符号器）は、システムに別々にまたは同時に提示される異なるオーディオフォーマットをサポートすることができる。オーディオ信号は、マイクロフォンによって拾われる音響的な性質であり得るか、または、スピーカに伝送されることになっている、電気的な性質であり得る。サポートされるオーディオフォーマットは、マルチチャネル信号（ＭＣ）、１次アンビソニックスおよび高次アンビソニックス（ＦＯＡ／ＨＯＡ）成分、ならびにオーディオオブジェクトであり得る。異なる入力フォーマットを組み合わせることによって複雑なオーディオシーンを記述することもできる。すべてのオーディオフォーマットは次いでＤｉｒＡＣ解析に伝送され、ＤｉｒＡＣ解析は完全なオーディオシーンのパラメトリック表現を抽出する。時間周波数単位ごとに測定された到来方向（ＤＯＡ）および拡散度は、空間パラメータを形成するか、またはより大きなパラメータセットの一部である。ＤｉｒＡＣ解析の後に空間メタデータ符号器が続き、空間メタデータ符号器は、低ビットレートのパラメトリック表現を得るためにＤｉｒＡＣパラメータを量子化および符号化する。

記載のチャネルベース、ＨＯＡベース、およびオブジェクトベースの入力フォーマットに加えて、ＩＶＡＳ符号器は、空間メタデータおよび／または方向メタデータからなる空間音のパラメトリック表現、ならびに１つまたは複数の関連付けられたオーディオ入力信号から構成される空間音のパラメトリック表現を受け取り得る。メタデータは、例えば、ＤｉｒＡＣメタデータ、すなわち音のＤＯＡおよび拡散度に対応し得る。メタデータはまた、関連付けられたエネルギー尺度、距離もしくは位置値、または音場のコヒーレンスに関連する尺度を有する複数のＤＯＡなどの追加の空間パラメータも含み得る。関連付けられたオーディオ入力信号は、モノラル信号、１次もしくは高次のアンビソニックス信号、Ｘ／Ｙステレオ信号、Ａ／Ｂステレオ信号、または様々な指向性パターンおよび／もしくは相互間隔を有するマイクロフォンによる録音から得られる信号の任意の他の結合から構成され得る。

パラメトリック空間オーディオ入力について、ＩＶＡＳ符号器は、入力空間メタデータに基づいて伝送に使用されるＤｉｒＡＣパラメータを決定する。

パラメータと共に、様々な音源またはオーディオ入力信号から導出されたダウンミックス（ＤＭＸ）信号が、従来のオーディオコアコーダにより伝送のために符号化される。この場合、ダウンミックス信号を符号化するためにＥＶＳベースのオーディオコーダが採用される。ダウンミックス信号は、トランスポートチャネルと呼ばれる様々なチャネルからなる。信号は、例えば、目標ビットレートに応じて、Ｂフォーマット信号もしくは１次アンビソニックス（ＦＯＡ）信号、ステレオペア、またはモノラルダウンミックスを構成する４つの係数信号とすることができる。コード化された空間パラメータおよびコード化されたオーディオビットストリームは、通信チャネル上で伝送される前に多重化される。

図２ａに、様々なオーディオフォーマットを提供するＤｉｒＡＣベースの空間オーディオコーディングの復号器側を示す。図２ａに示される復号器では、トランスポートチャネルはコア復号器によって復号され、ＤｉｒＡＣメタデータは、復号されたトランスポートチャネルと共にＤｉｒＡＣ合成に搬送される前にまず復号される。この段階では、異なる選択肢を考慮することができる。従来のＤｉｒＡＣシステム（図２ａのＭＣ）で通常可能であるように、任意のスピーカまたはヘッドフォン構成で直接オーディオシーンを再生することを要求することができる。復号器はまた、符号器側で提示されたように個々のオブジェクトを提供することもできる（図２ａのオブジェクト）。あるいは、シーンの回転、ミラーリング、もしくは移動などのさらなる操作のために、または元のシステムで定義されていない外部レンダラを使用するために、シーンをアンビソニックスフォーマット（図２ａのＦＯＡ／ＨＯＡ）にレンダリングするように要求することもできる。

図２ａに示される復号器では、トランスポートチャネルはコア復号器によって復号され、ＤｉｒＡＣメタデータは、復号されたトランスポートチャネルと共にＤｉｒＡＣ合成に搬送される前にまず復号される。この段階では、異なる選択肢を考慮することができる。従来のＤｉｒＡＣシステム（図２ａのＭＣ）で通常可能であるように、任意のスピーカまたはヘッドフォン構成で直接オーディオシーンを再生することを要求することができる。復号器はまた、符号器側で提示されたように個々のオブジェクトを提供することもできる（図２ａのオブジェクト）。あるいは、シーンの回転、反射、もしくは移動などの他のさらなる操作のために（図２ａのＦＯＡ／ＨＯＡ）、または元のシステムで定義されていない外部レンダラを使用するために、シーンをアンビソニックスフォーマットにレンダリングすることを要求することもできる。

様々なオーディオフォーマットを提供するＤｉｒＡＣ空間オーディオコーディングの復号器が図２ａに示されており、ＩＶＡＳ復号器１０４５と、続いて接続される復号器インターフェース１０４６とを備える。ＩＶＡＳ復号器１０４５は、図１ｂのＩＶＡＳコア符号器１０４０によって符号化されたコンテンツの復号操作を行うために構成されたＩＶＡＳコア復号器１０６０を備える。さらに、ＤｉｒＡＣメタデータ符号器１０３０によって符号化されたコンテンツを復号するための復号機能を提供するＤｉｒＡＣメタデータ復号器１０５０が設けられている。ＤｉｒＡＣ合成器１０７０が、ブロック１０５０およびブロック１０６０から、何らかのユーザインタラクティビティを使用するかまたは使用せずにデータを受け取り、その出力は、１０８３に示されるＦＯＡ／ＨＯＡデータ、ブロック１０８２に示されるマルチチャネルデータ（ＭＣデータ）、またはブロック１０８０に示されるオブジェクトデータを生成する復号器インターフェース１０４６に入力される。

ＤｉｒＡＣパラダイムを使用した従来のＨＯＡ合成が図２ｂに示されている。ダウンミックス信号と呼ばれる入力信号が、周波数フィルタバンクにより時間周波数解析される。周波数フィルタバンク２０００は、複素数値ＱＭＦのような複素数値フィルタバンクまたはＳＴＦＴのようなブロック変換とすることができる。ＨＯＡ合成は、出力において、（Ｈ＋１）^２成分を含む次数Ｈのアンビソニックス信号を生成する。任意選択で、ＨＯＡ合成は、特定のスピーカレイアウト上にレンダリングされたアンビソニックス信号を出力することもできる。以下では、場合によっては入力空間パラメータを伴うダウンミックス信号から（Ｈ＋１）^２成分をどのように取得するかを詳述する。

ダウンミックス信号は、元のマイクロフォン信号または元のオーディオシーンを描写する元の信号の混合とすることができる。例えば、オーディオシーンが音場マイクロフォンによって取り込まれる場合、ダウンミックス信号は、シーンの無指向成分（Ｗ）、ステレオダウンミックス（Ｌ／Ｒ）、または１次アンビソニックス信号（ＦＯＡ）とすることができる。

時間周波数タイルごとに、到来方向（ＤＯＡ）とも呼ばれる音方向と、拡散度係数とが、ダウンミックス信号がそのようなＤｉｒＡＣパラメータを決定するのに十分な情報を含む場合に、それぞれ、方向推定器２０２０と拡散度推定器２０１０とによって推定される。これは、例えば、ダウンミックス信号が１次アンビソニックス信号（ＦＯＡ）である場合である。代替として、またはダウンミックス信号がそのようなパラメータを決定するのに十分でない場合、パラメータを、空間パラメータを含む入力ビットストリームを介してＤｉｒＡＣ合成に直接搬送することができる。ビットストリームは、例えば、オーディオ伝送用途の場合にサイド情報として受け取られた量子化および符号化されたパラメータからなり得る。この場合、パラメータは、スイッチ２０３０またはスイッチ２０４０で示されるように、元のマイクロフォン信号または符号器側のＤｉｒＡＣ解析モジュールに与えられた入力オーディオフォーマットからＤｉｒＡＣ合成モジュールの外部で導出される。

音方向は、指向性利得評価器２０５０によって、複数の時間周波数タイルの各時間周波数タイルについて、（Ｈ＋１）^２指向性利得

の１つまたは複数のセットを評価するために使用され、式中、Ｈは合成アンビソニックス信号の次数である。

指向性利得は、合成すべきアンビソニックス信号の所望の次数（レベル）ｌおよびモードｍでの推定される音方向ごとの空間基底関数評価によって得ることができる。音方向は、例えば、単位ノルムベクトル

に関して、または方位角

および／もしくは仰角

に関して表現することができ、これらは、例えば、次式のように関連する。

音方向を推定または取得した後、所望の次数（レベル）ｌおよびモードｍの空間基底関数の応答を、例えば、ＳＮ３Ｄ正規化された実数値の球面調和関数を空間基底関数とみなすことによって決定することができ、

範囲は０≦ｌ≦Ｈ、－ｌ≦ｍ≦ｌである。

は、ルジャンドル関数であり、

は、ルジャンドル関数と三角関数両方の正規化項であり、ＳＮ３Ｄについて次式の形を取り、

式中、クロネッカーのデルタ

は、ｍ＝０では１、それ以外では０である。指向性利得は、次いで、次式のようにインデックス（ｋ，ｎ）の時間周波数タイルごとに直接推論される。

直接音アンビソニックス成分

は、ダウンミックス信号から基準信号

を導出し、指向性利得および拡散度

の係数関数で乗算されることによって計算される。

例えば、基準信号

は、ダウンミックス信号の無指向成分またはダウンミックス信号のＫチャネルの線形結合とすることができる。

拡散音アンビソニックス成分は、すべての可能な方向から到来する音についての空間基底関数の応答を使用してモデル化することができる。一例が、すべての可能な角度

および

にわたる空間基底関数

の二乗振幅の積分を考慮することによって平均応答

を定義することである。

拡散音アンビソニックス成分

は、平均応答および拡散度

の係数関数で乗算した信号

から計算される。

信号

は、基準信号

に適用される異なるデコリレータを使用することによって得ることができる。

最後に、直接音アンビソニックス成分と拡散音アンビソニックス成分とが、例えば、加算演算によって結合されて２０６０、時間周波数タイル（ｋ，ｎ）の所望の次数（レベル）ｌおよびモードｍの最終的なアンビソニックス成分

が得られ、すなわち、

である。

取得されたアンビソニックス成分は、逆フィルタバンク２０８０または逆ＳＴＦＴを使用して時間領域に逆変換され、格納され、伝送され、または例えば空間音響再生用途に使用され得る。あるいは、スピーカ信号またはバイノーラル信号を時間領域に変換する前に、特定のスピーカレイアウトでまたはヘッドフォンを介して再生されるべき信号を取得するために、線形アンビソニックスレンダラ２０７０を周波数帯域ごとに適用することもできる。

［Ｔｈｉｅｒｇａｒｔ１７］もまた、Ｌ＜Ｈの場合、拡散音成分

を次数Ｌまでしか合成できない可能性を教示していたことに留意されたい。これにより、デコリレータの集約的使用による合成アーチファクトを回避しながら、計算の複雑さが低減される。

本発明の目的は、入力信号から音場記述を生成するための改善された概念を提供することである。

最新技術：モノラルダウンミックス信号およびＦＯＡダウンミックス信号のためのＤｉｒＡＣ合成
受け取られたＤｉｒＡＣベースの空間オーディオコーディングストリームに基づく一般的なＤｉｒＡＣ合成について、以下で説明する。ＤｉｒＡＣ合成によって行われるレンダリングは、復号されたダウンミックスオーディオ信号および復号された空間メタデータに基づくものである。

ダウンミックス信号は、ＤｉｒＡＣ合成の入力信号である。信号は、フィルタバンクによって時間周波数領域に変換される。フィルタバンクは、複素数値ＱＭＦのような複素数値フィルタバンクまたはＳＴＦＴのようなブロック変換とすることができる。

ＤｉｒＡＣパラメータは、空間パラメータを含む入力ビットストリームを介してＤｉｒＡＣ合成に直接搬送することができる。ビットストリームは、例えば、オーディオ伝送用途の場合にサイド情報として受け取られた量子化および符号化されたパラメータからなり得る。

スピーカベースの音響再生のためのチャネル信号を決定するために、各スピーカ信号が、ダウンミックス信号およびＤｉｒＡＣパラメータに基づいて決定される。第ｊのスピーカの信号

は、直接音成分と拡散音成分との結合として得られ、すなわち、

である。

第ｊのスピーカチャネルの直接音成分

を、いわゆる基準信号

を拡散度パラメータ

および指向性利得係数

に依存する係数でスケーリングすることによって得ることができ、利得係数は音の到来方向（ＤＯＡ）に依存し、潜在的に第ｊのスピーカチャネルの位置にも依存する。音のＤＯＡを、例えば、単位ノルムベクトル

に関して、または方位角

および／もしくは仰角

指向性利得係数

を、ベクトルベースの振幅パンニング（ｖｅｃｔｏｒ－ｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ（ＶＢＡＰ））［Ｐｕｌｋｋｉ９７］などの周知の方法を使用して計算することができる。

以上を考慮して、直接音成分を、次式で表現することができる。

音のＤＯＡおよび拡散度を記述する空間パラメータは、トランスポートチャネルから復号器で推定されるか、またはビットストリームに含まれるパラメトリックメタデータから取得される。

拡散音成分

を、次式のように基準信号および拡散度パラメータに基づいて決定することができる。

正規化係数

は、再生スピーカ構成に依存する。通常、異なるスピーカチャネル

と関連付けられた拡散音成分はさらに処理され、すなわち、それらは相互に無相関化される。これは、出力チャネルごとの基準信号を無相関化することによっても達成することができ、すなわち、

であり、式中、

は、

の無相関化バージョンを表す。

第ｊの出力チャネルのための基準信号は、伝送されたダウンミックス信号に基づいて取得される。最も単純な場合には、ダウンミックス信号はモノラル無指向性信号（例えば、ＦＯＡ信号の無指向成分

）からなり、基準信号はすべての出力チャネルについて同一である。

トランスポートチャネルがＦＯＡ信号の４つの成分に対応する場合、基準信号を、ＦＯＡ成分の線形結合によって取得することができる。通常は、ＦＯＡ信号は、第ｊのチャネルの基準信号が第ｊのスピーカの方向を指し示す仮想カージオイドマイクロフォン信号に対応するように、結合される［Ｐｕｌｋｋｉ０７］。

ＤｉｒＡＣ合成は、通常、合成無相関化の必要量、指向性利得係数による非線形処理の程度、または異なるスピーカチャネル間のクロストークの両方を低減することができ、関連付けられるアーチファクトを回避または緩和することができるので、ダウンミックスチャネルの数の増加に対して改善された音響再生品質を提供する。

一般に、符号化されたオーディオシーンに多くの異なるトランスポート信号を導入するための直接的な手法は、一方では柔軟性がなく、他方ではビットレートを消費する。通常、１つまたは複数の成分に大きなエネルギー寄与がないため、例えば、１次アンビソニックス信号の４つの成分信号すべてを符号化されたオーディオ信号に導入することがあらゆる場合に必要ではない可能性もある。他方、ビットレート要件は厳しい可能性があり、これにより、空間オーディオ表現を表す符号化されたオーディオ信号に２つよりも多いトランスポートチャネルを導入することが禁止される。そのような厳しいビットレート要件の場合、符号器および復号器が特定の表現を事前に折衝することが必要になり、この事前折衝に基づいて、事前に折衝された方法に基づいて特定の量のトランスポート信号が生成され、次いで、オーディオ復号器は、事前に折衝された知識に基づいて符号化されたオーディオ信号からオーディオシーンを合成することができる。しかしながら、これは、ビットレート要件に関して有用であるが、柔軟性がなく、さらに、事前に折衝された手順は、特定のオーディオピースに最適ではない可能性があるか、またはオーディオピースのすべての周波数帯域もしくはすべての時間フレームに最適ではない可能性があるため、オーディオ品質の著しい低下をもたらす可能性もある。

よって、オーディオシーンを表す先行技術の手順は、ビットレート要件に関して最適ではなく、柔軟性がなく、さらに、オーディオ品質の著しい低下をもたらす可能性が高い。

本発明の目的は、空間オーディオ表現を符号化し、または符号化されたオーディオ信号を復号するための改善された概念を提供することである。

この目的は、請求項１に記載の空間オーディオ表現を符号化するための装置、請求項２１に記載の符号化されたオーディオ信号を復号するための装置、請求項３９に記載の空間オーディオ表現を符号化するための方法、請求項４１に記載の符号化されたオーディオ信号を復号するための方法、請求項４３に記載のコンピュータプログラム、または請求項４４に記載の符号化されたオーディオ信号によって達成される。

本発明は、空間オーディオ表現から導出されたトランスポート表現に加えて、トランスポート表現の生成に関連する、またはトランスポート表現の１つまたは複数の指向特性を示すトランスポートメタデータを使用することによって、ビットレート、柔軟性、およびオーディオ品質に関する著しい改善が得られるという知見に基づくものである。オーディオシーンを表す空間オーディオ表現を符号化するための装置は、したがって、オーディオシーンからトランスポート表現を生成し、さらに、トランスポート表現の生成に関連する、またはトランスポート表現の１つもしくは複数の指向特性を示す、またはトランスポート表現の生成に関連し、トランスポート表現の１つもしくは複数の指向特性を示すトランスポートメタデータを生成する。さらに、出力インターフェースが、トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む符号化されたオーディオ信号を生成する。

復号器側では、符号化されたオーディオ信号を復号するための装置は、トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む符号化されたオーディオ信号を受け取るためのインターフェースを備え、空間オーディオ合成器が、次いで、トランスポート表現に関する情報とトランスポートメタデータに関する情報の両方を使用して空間オーディオ表現を合成する。

ダウンミックス信号などのトランスポート表現がどのように生成されたかの明示的な指示、および／または追加のトランスポートメタデータによるトランスポート表現の１つまたは複数の指向特性の明示的な指示により、符号器が、一方では良好なオーディオ品質を提供し、他方では小さいビットレート要件を満たす、非常に柔軟な方法で符号化されたオーディオシーンを生成することが可能になる。さらに、トランスポートメタデータによって、符号器が、一方でのビットレート要件と他方での符号化されたオーディオ信号によって表されたオーディオ品質との間の必要な最適バランスを見つけることさえも可能である。よって、明示的なトランスポートメタデータの使用により、符号器が、トランスポート表現を生成する様々な方法を適用し、さらに、オーディオピースからオーディオピースのみならず、あるオーディオフレームから次のオーディオフレーム、または一方の周波数帯域から他方の周波数帯域に１つの同じオーディオフレーム内でトランスポート表現生成を適応させることさえも可能になる。当然ながら、柔軟性は、例えば、同じトランスポート表現を時間フレーム内のすべての周波数ビンに対して生成できるように、または代替として、同じトランスポート表現を、多くのオーディオ時間フレームにわたって１つの同じ周波数帯域に対して生成できるように、または個々のトランスポート表現を、各時間フレームの周波数ビンごとに生成できるように、トランスポート表現を時間／周波数タイルごとに個々に生成することによって得られる。空間オーディオ合成器が、符号器側で何が行われたかを知り、次いで、復号器側で最適な手順を適用することができるように、このすべての情報、すなわち、トランスポート表現を生成する方法、およびトランスポート表現がフルフレームに関連するか、それとも時間／周波数ビンのみに関連するか、それとも多くの時間フレームにわたる特定の周波数帯域に関連するかもまた、トランスポートメタデータに含まれる。

好ましくは、特定のトランスポートメタデータ代替案は、オーディオシーンを表す特定の成分セットのどの成分が選択されたかを示す選択情報である。さらなるトランスポートメタデータ代替案は、結合情報、すなわち、空間オーディオ表現の特定の成分信号がトランスポート表現を生成するために結合されたかどうか、および／またはどのように結合されたかに関する。トランスポートメタデータとして有用なさらなる情報は、特定のトランスポート信号またはトランスポートチャネルがどのセクタまたは半球に関連するかを示すセクタ／半球情報に関する。さらに、本発明のコンテキストにおいて有用なメタデータは、好ましくは、トランスポート表現内の複数の異なるトランスポート信号のトランスポート信号として含まれるオーディオ信号の視線方向を示す視線方向情報に関する。他の視線方向情報は、トランスポート表現が、例えば、（空間的に拡張された）マイクロフォン配列内の物理マイクロフォンによって、または同一指向性（coincident directional）マイクロフォンによって録音され得る１つまたは複数のマイクロフォン信号からなる場合の、マイクロフォン視線方向に関し、あるいは、これらのマイクロフォン信号を合成によって生成することもできる。他のトランスポートメタデータは、マイクロフォン信号が無指向性信号であるか、それともカージオイド形状や双極形状などの異なる形状を有するかを示す形状パラメータデータに関する。さらなるトランスポートメタデータは、トランスポート表現内に２つ以上のマイクロフォン信号を有する場合のマイクロフォンの位置に関する。他の有用なトランスポートメタデータは、１つまたは複数のマイクロフォンの向きデータ、２つのマイクロフォン間の距離を示す距離データまたはマイクロフォンの指向性パターンに関する。さらに、追加のトランスポートメタデータは、円形マイクロフォン配列などのマイクロフォン配列の記述もしくは識別、またはそのような円形マイクロフォン配列からのどのマイクロフォン信号がトランスポート表現として選択されたかに関し得る。

さらなるトランスポートメタデータは、ビームフォーミング、対応するビームフォーミング重み、または対応するビームの方向に関する情報に関し得、そのような状況では、トランスポート表現は、通常、特定のビーム方向を有する好ましくは合成によって作成された信号からなる。さらなるトランスポートメタデータ代替案は、含まれるトランスポート信号が無指向性マイクロフォン信号であるか、それともカージオイド信号や双極信号などの非無指向性マイクロフォン信号であるかについての純粋な情報に関し得る。

よって、様々なトランスポートメタデータ代替案は非常に柔軟であり、追加のトランスポートメタデータが通常、大量の追加のビットレートをもたらさないように非常にコンパクトな方法で表すことができることが明らかになる。代わりに、追加のトランスポートメタデータのビットレート要件は、通常、トランスポート表現の量の１％未満、さらには１／１０００未満、またはさらにはそれより小さくてもよい。他方で、しかしながら、この非常に少量の追加のメタデータは、より高い柔軟性をもたらし、同時に、追加の柔軟性に起因して、かつ異なるオーディオピースにわたって、または異なる時間フレームおよび／もしくは周波数ビンにわたる１つの同じオーディオピース内でさえ変化するトランスポート表現を有する可能性に起因して、オーディオ品質の著しい向上をもたらす。

好ましくは、符号器は、トランスポート表現およびトランスポートメタデータによってのみ得ることができる品質に優ってオーディオ品質を向上させるために、トランスポート表現およびトランスポートメタデータに加えて、符号化されたオーディオ信号に空間パラメータが含まれるように、空間オーディオ表現から空間パラメータを生成するためのパラメータプロセッサをさらに備える。これらの空間パラメータは、好ましくは、例えばＤｉｒＡＣコード化から知られるような、時間および／もしくは周波数に依存する到来方向（ＤｏＡ）データならびに／または周波数および／もしくは時間に依存する拡散度データである。

オーディオ復号器側では、入力インターフェースが、トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む符号化されたオーディオ信号を受け取る。さらに、符号化されたオーディオ信号を復号するための装置に設けられた空間オーディオ合成器は、トランスポート表現に関する情報とトランスポートメタデータに関する情報の両方を使用して空間オーディオ表現を合成する。好ましい実施形態では、復号器は、任意選択で伝送された空間パラメータをさらに使用して、トランスポートメタデータに関する情報およびトランスポート表現に関する情報を使用するだけでなく、空間パラメータも使用して、空間オーディオ表現を合成する。

符号化されたオーディオ信号を復号するための装置は、トランスポートメタデータを受け取り、受け取られたトランスポートメタデータを解釈またはパースし、次いで、結合器を制御してトランスポート表現信号を結合するか、またはトランスポート表現信号の中から選択するか、または１つもしくは複数の基準信号を生成する。結合器／選択器／基準信号生成器は、次いで、基準信号を、具体的に選択または生成された基準信号から必要な出力成分を計算する成分信号計算器に転送する。好ましい実施形態では、受け取られたトランスポートデータに基づいて、基準信号生成／選択が制御されるだけでなく、実際の成分計算も行われように、空間オーディオ合成器におけるような結合器／選択器／基準信号生成器がトランスポートメタデータによって制御されるだけでなく、成分信号計算器によっても制御される。しかしながら、成分信号計算のみがトランスポートメタデータによって制御されるか、または基準信号生成もしくは選択のみがトランスポートメタデータによって制御される実施形態も有用であり、既存の解決策に優る改善された柔軟性を提供する。

異なる信号選択代替案の好ましい手順は、成分信号の第１のサブセットのための基準信号としてトランスポート表現内の複数の信号のうちの１つを選択し、マルチチャネル出力、１次アンビソニックス出力もしくは高次アンビソニックス出力、オーディオオブジェクト出力、またはバイノーラル出力のための成分信号の他方の直交サブセットのためのトランスポート表現内の他方のトランスポート信号を選択することである。他の手順は、トランスポート表現に含まれる個々の信号の線形結合に基づく基準信号の計算に依拠する。特定のトランスポート表現の実施態様に応じて、トランスポートメタデータは、実際に伝送されたトランスポート信号から（仮想）チャネルの基準信号を決定し、伝送または生成された無指向性信号成分などのフォールバックに基づいて欠落している成分を決定するために使用される。これらの手順は、１次または高次アンビソニックス空間オーディオ表現の特定のモードおよび次数に関連する空間基底関数応答を使用した、欠落している、好ましくはＦＯＡ成分またはＨＯＡ成分の計算に依拠する。

他の実施形態は、トランスポート表現に含まれるマイクロフォン信号を記述するトランスポートメタデータに関し、伝送された形状パラメータおよび／または視線方向に基づいて、基準信号決定が受け取られたトランスポートメタデータに適合される。さらに、無指向性信号または双極信号の計算および残りの成分の追加の合成も、例えば、第１のトランスポートチャネルが左または前のカージオイド信号であり、第２のトランスポート信号が右または後のカージオイド信号であることを示すトランスポートメタデータに基づいて行われる。

さらなる手順は、特定のスピーカから特定のマイクロフォン位置までの最小距離に基づく基準信号の決定、または最も近い視線方向もしくは最も近いビームフォーマもしくは特定の最も近い配列位置を有するトランスポート表現に含まれるマイクロフォン信号の基準信号としての選択に関する。さらなる手順は、すべての直接音成分の基準信号として任意のトランスポート信号の選択、および拡散音基準信号の生成のための間隔を置いて配置されたマイクロフォンからの伝送された無指向性信号などのすべての利用可能なトランスポート信号の使用であり、対応する成分が、次いで、直接成分と拡散成分とを加算して、最終チャネルまたはアンビソニックス成分またはオブジェクト信号またはバイノーラルチャネル信号を得ることによって生成される。特定の基準信号に基づく実際の成分信号の計算において特に実施されるさらなる手順は、特定のマイクロフォン距離に基づく相関量の設定（好ましくは制限）に関する。

続いて添付の図面を参照して本発明の好ましい実施形態を開示する。

アンビソニックスチャネル／成分番号を有する球面調和関数を示す図である。ＤｉｒＡＣベースの空間オーディオコーディングプロセッサの符号器側を示す図である。ＤｉｒＡＣベースの空間オーディオコーディングプロセッサの復号器を示す図である。当技術分野から知られる高次アンビソニックス合成プロセッサを示す図である。様々なオーディオフォーマットをサポートするＤｉｒＡＣベースの空間オーディオコーディングの符号器側を示す図である。様々なオーディオフォーマットを提供するＤｉｒＡＣベースの空間オーディオコーディングの復号器側を示す図である。空間オーディオ表現を符号化するための装置のさらなる実施形態を示す図である。空間オーディオ表現を符号化するための装置のさらなる実施形態を示す図である。符号化されたオーディオ信号を復号するための装置のさらなる実施形態を示す図である。互いに個別に、または互いに一緒に使用可能なトランスポート表現生成器の１組の実施態様を示す図である。互いに個別に、または互いに一緒に使用可能な様々なトランスポートメタデータ代替案を示すテーブルを示す図である。トランスポートメタデータ、または適切な場合には空間パラメータのためのメタデータ符号器のさらなる実施態様を示す図である。図７の空間オーディオ合成器の好ましい実施態様を示す図である。ｎ個のトランスポート信号、トランスポートメタデータ、および任意選択の空間パラメータを有するトランスポート表現を有する符号化されたオーディオ信号を示す図である。スピーカ識別およびトランスポートメタデータに応じた基準信号選択器／生成器の機能を示すテーブルを示す図である。空間オーディオ合成器のさらなる実施形態を示す図である。様々なトランスポートメタデータを示すさらなるテーブルを示す図である。空間オーディオ合成器のさらなる実施態様を示す図である。空間オーディオ合成器のさらなる実施形態を示す図である。互いに個別に、または互いに一緒に使用可能な空間オーディオ合成器のさらなる１組の実施代替案を示す図である。直接信号および拡散信号を使用して低次または中次の音場成分を計算するための例示的な好ましい実施態様を示す図である。拡散成分なしで直接成分のみを使用した高次音場成分の計算のさらなる実施態様を示す図である。拡散部分と結合された直接部分を使用した（仮想）スピーカ信号成分またはオブジェクトの計算のさらなる実施態様を示す図である。

図６に、オーディオシーンを表す空間オーディオ表現を符号化するための装置を示す。この装置は、空間オーディオ表現からトランスポート表現を生成するためのトランスポート表現生成器６００を備える。さらに、トランスポート表現生成器６００は、トランスポート表現の生成に関連する、またはトランスポート表現の１つもしくは複数の指向特性を示すトランスポートメタデータを生成する。装置は、符号化されたオーディオ信号を生成するための出力インターフェース６４０をさらに備え、符号化されたオーディオ信号は、トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む。トランスポート表現生成器６００および出力インターフェース６４０に加えて、装置は、好ましくは、ユーザインターフェース６５０とパラメータプロセッサ６２０とを備える。パラメータプロセッサ６２０は、空間オーディオ表現から空間パラメータを導出するように構成され、好ましくは（符号化された）空間パラメータ６１２を提供する。さらに、（符号化された）空間パラメータ６１２に加えて、（符号化された）トランスポートメタデータ６１０および（符号化された）トランスポート表現６１１が、好ましくは３つの符号化された項目を符号化されたオーディオ信号に多重化するために出力インターフェース６４０に転送される。

図７に、符号化されたオーディオ信号を復号するための装置の好ましい実施態様を示す。符号化されたオーディオ信号は入力インターフェース７００に入力され、入力インターフェースは、符号化されたオーディオ信号内で、トランスポート表現に関する情報およびトランスポートメタデータに関する情報を受け取る。トランスポート表現７１１は、入力インターフェース７００から空間オーディオ合成器７５０に転送される。さらに、空間オーディオ合成器７５０は、入力インターフェースからトランスポートメタデータ７１０を受け取り、符号化されたオーディオ信号に含まれる場合、好ましくは、空間パラメータ７１２をさらに受け取る。空間オーディオ合成器７５０は、空間オーディオ表現を合成するために、項目７１０、項目７１１、好ましくはさらに項目７１２を使用する。

図３は、図３に空間オーディオ信号として示される空間オーディオ表現を符号化するための装置の好ましい実施態様を示す。特に、空間オーディオ信号は、ダウンミックス生成ブロック６０１および空間オーディオ解析ブロック６２１に入力される。空間オーディオ信号から空間オーディオ解析ブロック６２１から導出された空間パラメータ６１５は、メタデータ符号器６２２に入力される。さらに、ダウンミックス生成ブロック６０１によって生成されたダウンミックスパラメータ６１３もメタデータ符号器６０３に入力される。図３ではメタデータ符号器６２２とメタデータ符号器６０３の両方が単一のブロックとして示されているが、別々のブロックとして実施することもできる。ダウンミックスオーディオ信号６１４は、コア符号器６０３に入力され、コア符号化表現６１１は、符号化されたダウンミックスパラメータ６１０および符号化された空間パラメータ６１２をさらに受け取るビットストリーム生成器６４１に入力される。よって、図６に示されるトランスポート表現生成器６００は、図３の実施形態では、ダウンミックス生成ブロック６０１およびコア符号器ブロック６０３を備える。さらに、図６に示されるパラメータプロセッサ６２０は、空間パラメータ６１５のための空間オーディオ解析器ブロック６２１およびメタデータ符号器ブロック６２２を備える。さらに、図６のトランスポート表現生成器６００は、メタデータ符号器６０３によって符号化されたトランスポートメタデータ６１０として出力されるトランスポートメタデータ６３０のためのメタデータ符号器ブロック６０３をさらに備える。出力インターフェース６４０は、図３の実施形態では、ビットストリーム生成器６４１として実施される。

図４に、符号化されたオーディオ信号を復号するための装置の好ましい実施態様を示す。特に、この装置は、メタデータ復号器７５２とコア復号器７５１とを備える。メタデータ復号器７５２は、入力として、符号化されたトランスポートメタデータ７１０を受け取り、コア復号器７５１は、符号化されたトランスポート表現７１１を受け取る。さらに、メタデータ復号器７５２は、好ましくは、利用可能な場合、符号化された空間パラメータ７１２を受け取る。メタデータ復号器は、トランスポートメタデータ７１０を復号してダウンミックスパラメータ７２０を取得し、メタデータ復号器７５２は、好ましくは、符号化された空間パラメータ７１２を復号して復号された空間パラメータ７２２を取得する。復号されたトランスポート表現またはダウンミックスオーディオ表現７２１は、トランスポートメタデータ７２０と共に空間オーディオ合成ブロック７５３に入力され、さらに、空間オーディオ合成ブロック７５３は、２つの成分７２１および７２０または３つすべての成分７２１、７２０および７２２を使用して、図４に示されるような１次もしくは高次（ＦＯＡ／ＨＯＡ）表現７５４を含むか、またはマルチチャネル（ＭＣ）表現７５５を含むか、またはオブジェクト表現（オブジェクト）７５６を含む空間オーディオ表現を生成するために、空間パラメータ７２２を受け取り得る。よって、図７に示される符号化されたオーディオ信号を復号するための装置は、空間オーディオ合成器７５０内に、図４のブロック７５２、ブロック７５１およびブロック７５３を備え、空間オーディオ表現は、図４の７５４、７５５および７５６に示される代替案のうちの１つを備え得る。

図５に、オーディオシーンを表す空間オーディオ表現を符号化するための装置のさらなる実施態様を示す。ここで、オーディオシーンを表す空間オーディオ表現は、マイクロフォン信号、好ましくは、マイクロフォン信号と関連付けられた追加の空間パラメータとして提供される。よって、図６に関して論じたトランスポート表現６００は、図５の実施形態では、ダウンミックス生成ブロック６０１、ダウンミックスパラメータ６１３のためのメタデータ符号器６０３、およびダウンミックスオーディオ表現のためのコア符号器６０２を含む。図３の実施形態とは対照的に、マイクロフォン入力が、好ましくは分離された形で、一方でのマイクロフォン信号と、他方での空間パラメータとをすでに有しているので、符号化するための装置には空間オーディオ解析器ブロック６２１が含まれない。

図３から図５に関して論じた実施形態では、ダウンミックスオーディオ６１４はトランスポート表現を表し、ダウンミックスパラメータ６１３は、トランスポート表現の生成に関連するか、または、後述するように、トランスポート表現の１つもしくは複数の指向特性を示すトランスポートメタデータの代替物を表す。

本発明の好ましい実施形態：柔軟なトランスポートチャネル構成のためのダウンミックスシグナリング
いくつかの用途では、ビットレート制限によりＦＯＡ信号の４つの成分すべてをトランスポートチャネルとして伝送することは不可能であるが、信号成分またはチャネルの数が低減されたダウンミックス信号のみを伝送することは可能である。復号器における改善された再現品質を達成するために、伝送されたダウンミックス信号の生成を、時変的な方法で行うことができ、空間オーディオ入力信号に適応させることができる。空間オーディオコーディングシステムが柔軟なダウンミックス信号を含むことを可能にする場合、これらのトランスポートチャネルを伝送するだけでなく、ダウンミックス信号の重要な空間特性を指定するメタデータをさらに含むことが重要である。空間オーディオコーディングシステムの復号器に位置するＤｉｒＡＣ合成は、その場合、ダウンミックス信号の空間特性を考慮して最適な方法でレンダリングプロセスを適応させることができる。本発明は、したがって、空間オーディオ復号器におけるレンダリング品質を改善するために、ダウンミックストランスポートチャネルの重要な空間特性を指定または記述するために使用されるダウンミックス関連メタデータをパラメトリック空間オーディオコーディングストリームに含めることを提案する。

以下で、実際のダウンミックス信号構成の実例について説明する。

入力された空間オーディオ信号が水平面内の音響エネルギーを主に含む場合、無指向性信号、デカルト座標系のｘ軸に整列した双極信号およびｙ軸に整列した双極信号に対応するＦＯＡ信号の最初の３つの信号成分のみがダウンミックス信号に含められ、ｚ軸に整列した双極信号は除外される。

別の例では、トランスポートチャネルに必要なビットレートをさらに低減させるために、２つのダウンミックス信号のみが伝送され得る。例えば、左半球から発生する優勢な音響エネルギーがある場合、主に左方向からの音響エネルギーを含むダウンミックスチャネルと、主に反対方向、すなわち、この例では右半球から発生する音を含む追加のダウンミックスチャネルとを含むダウンミックスチャネルを生成することが有利である。これは、結果として得られる信号が、それぞれ、左右を指し示すカージオイド指向性パターンを有する指向性マイクロフォン信号に対応するようなＦＯＡ信号成分の線形結合によって達成することができる。同様に、ＦＯＡ入力信号を適切に結合することによって、前方と後方とをそれぞれの指し示す１次指向性パターン、または任意の他の所望の指向性パターンに対応するダウンミックス信号を生成することもできる。

ＤｉｒＡＣ合成段では、伝送された空間メタデータ（例えば、音のＤＯＡおよび拡散度）とオーディオトランスポートチャネルとに基づくスピーカ出力チャネルの計算は、実際に使用されるダウンミックス構成に適合されなければならない。より具体的には、第ｊのスピーカの基準信号

の最適な選択は、ダウンミックス信号の指向特性および第ｊのスピーカの位置に依存する。

例えば、ダウンミックス信号が、それぞれ左と右とを指し示す２つのカージオイドマイクロフォン信号に対応する場合、左半球に位置するスピーカの基準信号は、基準信号

として左を指し示すカージオイド信号だけを使用すべきである。中央に位置するスピーカは、代わりに両方のダウンミックス信号の線形結合を使用し得る。

他方、ダウンミックス信号が、それぞれ前方と後方とを指し示す２つのカージオイドマイクロフォン信号に対応する場合、前半球に位置するスピーカの基準信号は、基準信号

として前を指し示すカージオイド信号だけを使用すべきである。

ＤｉｒＡＣ合成がレンダリングのための基準信号として誤ったダウンミックス信号を使用する場合、空間オーディオ品質の著しい劣化が予期されざるを得ないことに留意することは重要である。例えば、左を指し示すカージオイドマイクロフォンに対応するダウンミックス信号が、右半球に位置するスピーカの出力チャネル信号を生成するために使用される場合、入力音場の左半球から発生する信号成分は、再生システムの右半球に主に向けられ、出力の誤った空間像をもたらすことになる。

したがって、対応する指向性マイクロフォン信号の指向性パターンなどのダウンミックス信号の空間特性を指定するパラメトリック情報を空間オーディオコーディングストリームに含めることが好ましい。空間オーディオコーディングシステムの復号器に位置するＤｉｒＡＣ合成は、その場合、ダウンミックス関連のメタデータに記載されているようにダウンミックス信号の空間特性を考慮して最適な方法でレンダリングプロセスを適応させることができる。

アンビソニックス成分選択を使用したＦＯＡおよびＨＯＡオーディオ入力のための柔軟なダウンミックス
この実施形態では、空間オーディオ信号、すなわち符号器へのオーディオ入力信号は、ＦＯＡ（１次アンビソニックス）またはＨＯＡ（高次アンビソニックス）オーディオ信号に対応する。符号器及び復号器に対応するブロックスキームが図３、図４に夫々示されている。符号器への入力は、空間オーディオ信号、例えば、ＦＯＡ信号またはＨＯＡ信号である。「空間オーディオ解析」ブロックでは、ＤｉｒＡＣパラメータ、すなわち、空間パラメータ（例えば、ＤＯＡや拡散度）が前述のように推定される。提案の柔軟なダウンミックスのダウンミックス信号は、「ダウンミックス生成」ブロックにおいて生成され、これについては以下でより詳細に説明する。生成されたダウンミックス信号は

と呼ばれ、式中、ｍはダウンミックスチャネルのインデックスである。生成されたダウンミックス信号は、次いで、例えば、前述のようにＥＶＳベースのオーディオコーダを使用して、「コア符号器」ブロックで符号化される。ダウンミックスパラメータ、すなわち、ダウンミックスがどのように作成されたかに関する関連情報またはダウンミックス信号の他の指向特性を記述するパラメータは、空間パラメータと共にメタデータ符号器で符号化される。最後に、符号化されたメタデータおよび符号化されたダウンミックス信号はビットストリームに変換され、これを復号器に伝送することができる。

以下では、「ダウンミックス生成」ブロックおよびダウンミックスパラメータについてより詳細に説明する。例えば、入力された空間オーディオ信号が水平面内の音響エネルギーを主に含む場合、無指向性信号

、デカルト座標系のｘ軸に整列した双極信号

およびｙ軸に整列した双極信号

に対応するＦＯＡ／ＨＯＡ信号の３つの信号成分のみがダウンミックス信号に含められ、ｚ軸に整列した双極信号

（および、存在する場合、他のすべての高次成分）は除外される。これは、ダウンミックス信号が、次式で与えられることを意味する。

あるいは、例えば、入力された空間オーディオ信号がｘｚ平面内の音響エネルギーを主に含む場合、ダウンミックス信号は、

の代わりに双極信号

を含む。

この実施形態では、図３に示されるダウンミックスパラメータは、どのＦＯＡ／ＨＯＡ成分がダウンミックス信号に含められたかの情報を含む。この情報は、例えば、選択されたＦＯＡ成分のインデックスに対応する整数のセットであり得る。例えば、

、

、および

の各成分が含まれる場合には｛１，２，４｝である。

ダウンミックス信号のためのＦＯＡ／ＨＯＡ成分の選択は、例えば、手動ユーザ入力に基づいて、または自動的に行うことができることに留意されたい。例えば、空間オーディオ入力信号が空港の滑走路で記録された場合、大部分の音響エネルギーは特定の垂直デカルト平面に含まれると仮定することができる。この場合、例えば、

、

および

の各成分が選択される。対照的に、記録が横断歩道で行われた場合、大部分の音響エネルギーが水平デカルト平面に含まれると仮定することができる。この場合、例えば、

、

および

の各成分が選択される。あるいは、例えば、ビデオカメラがオーディオ録音と共に使用される場合、顔認識アルゴリズムを使用して話者がどのデカルト平面内に位置するかを検出することができ、したがって、この平面に対応するＦＯＡ成分をダウンミックスのために選択することができる。あるいは、最新技術の音源定位アルゴリズムを使用することによって、最高のエネルギーを有するデカルト座標系の平面を決定することもできる。

また、ＦＯＡ／ＨＯＡ成分選択および対応するダウンミックスメタデータは、時間および周波数に依存することができ、例えば、異なる成分およびインデックスのセットが、それぞれ、（例えば、時間周波数点ごとの最高のエネルギーを有するデカルト平面を自動的に決定することによって）各周波数帯域および時間インスタンスに自動的に選択され得ることにも留意されたい。直接音響エネルギーの定位を、例えば、時間周波数に依存する空間パラメータに含まれる情報を利用することによって行うことができる［Ｔｈｉｅｒｇａｒｔ０９］。

この実施形態に対応する復号器ブロックスキームが図４に示されている。復号器への入力は、符号化されたメタデータおよび符号化されたダウンミックスオーディオ信号を含むビットストリームである。ダウンミックスオーディオ信号は「コア復号器」で復号され、メタデータは「メタデータ復号器」で復号される。復号されたメタデータは、空間パラメータ（例えば、ＤＯＡや拡散度）およびダウンミックスパラメータからなる。復号されたダウンミックスオーディオ信号および空間パラメータは、「空間オーディオ合成」ブロックにおいて所望の空間オーディオ出力信号を作成するために使用され、空間オーディオ出力信号は、例えば、ＦＯＡ／ＨＯＡ信号、マルチチャネル（ＭＣ）信号（例えば、スピーカ信号）、オーディオオブジェクト、またはヘッドフォン再生用のバイノーラルステレオ出力であり得る。空間オーディオ合成は、以下で説明するように、ダウンミックスパラメータによってさらに制御される。

前述の空間オーディオ合成（ＤｉｒＡＣ合成）は、各出力チャネルｊに適した基準信号

を必要とする。本発明では、追加のダウンミックスメタデータを使用してダウンミックス信号

から

を計算することが提案される。この実施形態では、ダウンミックス信号

は、ＦＯＡ信号またはＨＯＡ信号の具体的に選択された成分からなり、ダウンミックスメタデータは、どのＦＯＡ／ＨＯＡ成分が復号器に伝送されたかを記述する。

スピーカ（すなわち、復号器のＭＣ出力）にレンダリングする場合、［Ｐｕｌｋｋｉ０７］で説明されているように、スピーカチャネルごとに、対応するスピーカに向けられたいわゆる仮想マイクロフォン信号を計算するときに高品質の出力を達成することができる。通常、仮想マイクロフォン信号を計算するには、ＤｉｒＡＣ合成ですべてのＦＯＡ／ＨＯＡ成分が利用できる必要がある。しかしながら、この実施形態では、復号器において元のＦＯＡ／ＨＯＡ成分のサブセットのみが利用可能である。この場合、仮想マイクロフォン信号を、ダウンミックスメタデータによって示されるように、ＦＯＡ／ＨＯＡ成分が利用可能なデカルト平面についてのみ計算することができる。例えば、ダウンミックスメタデータが、

、

、および

の各成分が伝送されたことを示す場合、ｘｙ平面（水平面）内のすべてのスピーカの仮想マイクロフォン信号を計算することができ、計算は［Ｐｕｌｋｋｉ０７］に記載されているように行うことができる。水平面外の高置スピーカについては、基準信号

にフォールバックソリューションを使用することができ、例えば、無指向成分

を使用することができる。

例えば、ヘッドフォン再生のために、バイノーラルステレオ出力にレンダリングするときに同様の概念を使用できることに留意されたい。この場合、２つの出力チャネル用の２つの仮想マイクロフォンは仮想ステレオスピーカに向けられ、スピーカの位置は聴取者の頭部の向きに依存する。仮想スピーカが、ダウンミックスメタデータによって示されるように、ＦＯＡ／ＨＯＡ成分が伝送されたデカルト平面内に位置する場合、対応する仮想マイクロフォン信号を計算することができる。そうでない場合は、基準信号

、例えば無指向成分

に対してフォールバックソリューションが使用される。

ＦＯＡ／ＨＯＡ（図４の復号器のＦＯＡ／ＨＯＡ出力）にレンダリングするとき、ダウンミックスメタデータは以下のように使用される。ダウンミックスメタデータは、どのＦＯＡ／ＨＯＡ成分が伝送されたかを示す。これらの成分は、伝送された成分を復号器出力で直接使用することができるので、空間オーディオ合成で計算される必要がない。残りのすべてのＦＯＡ／ＨＯＡ成分は、空間音合成において、例えば、無指向成分

を基準信号

として使用することによって計算される。空間メタデータを使用した無指向成分

からのＦＯＡ／ＨＯＡ成分の合成は、例えば、［Ｔｈｉｅｒｇａｒｔ１７］に記載されている。

結合されたアンビソニックス成分を使用したＦＯＡおよびＨＯＡオーディオ入力のための柔軟なダウンミックス
この実施形態では、空間オーディオ信号、すなわち符号器へのオーディオ入力信号は、ＦＯＡ（１次アンビソニックス）またはＨＯＡ（高次アンビソニックス）オーディオ信号に対応する。符号器の対応するブロックスキームが図３および図４にそれぞれ示されている。この実施形態では、トランスポートチャネルに必要なビットレートをさらに低減させるために、２つのダウンミックス信号のみが符号器から復号器に伝送され得る。例えば、左半球から発生する優勢な音響エネルギーがある場合、主に左半球からの音響エネルギーを含むダウンミックスチャネルと、主に反対方向、すなわち、この例では右半球から発生する音を含む追加のダウンミックスチャネルとを含むダウンミックスチャネルを生成することが有利である。これは、結果として得られる信号が、例えば、それぞれ、左半球と右半球とを指し示すカージオイド指向性パターンを有する指向性マイクロフォン信号に対応するようなＦＯＡオーディオ入力信号成分またはＨＯＡオーディオ入力信号成分の線形結合によって達成することができる。同様に、ＦＯＡオーディオ入力信号またはＨＯＡオーディオ入力信号をそれぞれ適切に結合することによって、前方と後方とをそれぞれの指し示す１次（もしくは高次）指向性パターン、または任意の他の所望の指向性パターンに対応するダウンミックス信号を生成することもできる。

ダウンミックス信号は、図３の「ダウンミックス生成」ブロックの符号器で生成される。ダウンミックス信号は、ＦＯＡ信号成分またはＨＯＡ信号成分の線形結合から得られる。例えば、ＦＯＡオーディオ入力信号の場合、４つのＦＯＡ信号成分は、無指向性信号

、ならびに、指向性パターンがデカルト座標系のｘ軸、ｙ軸、ｚ軸と整列している３つの双極信号

、

および

に対応する。これらの４つの信号は、一般に、Ｂフォーマット信号と呼ばれる。結果として得られる指向性パターンは、４つのＢフォーマット成分の線形結合によって得ることができ、通常は、１次指向性パターンと呼ばれる。１次指向性パターンまたは対応する信号を、様々な方法で表現することができる。例えば、第ｍのダウンミックス信号

を、関連付けられた重みを有するＢフォーマット信号の線形結合、すなわち、

で表現することができる。

ＨＯＡオーディオ入力信号の場合は、線形結合を、利用可能なＨＯＡ係数を使用して同様に行うことができることに留意されたい。線形結合の重み、すなわちこの例では重み

、

および

は、結果として得られる指向性マイクロフォン信号、すなわち第ｍのダウンミックス信号

の指向性パターンを決定する。ＦＯＡオーディオ入力信号の場合、線形結合の所望の重みを、以下のように計算することができる。

式中、

である。

式中、

は、いわゆる１次パラメータまたは形状パラメータであり、

および

は、生成された第ｍの指向性マイクロフォン信号の視線方向の所望の方位角および仰角である。例えば、

の場合、カージオイド指向性を有する指向性マイクロフォンが達成され、

は無指向特性に対応し、

は双極特性に対応する。言い換えると、パラメータ

は、１次指向性パターンの一般的な形状を記述する。

線形結合の重み、例えば、

、

および

、または対応するパラメータ

、

および

は、対応する指向性マイクロフォン信号の指向性パターンを記述する。この情報は、図３の符号器のダウンミックスパラメータによって表され、メタデータの一部として復号器に伝送される。

ビットストリームにおいてダウンミックスパラメータを効率的に表すために、方向情報の量子化、または、テーブルがすべての関連パラメータを含む、インデックスによるテーブルエントリの参照を含めて、様々な符号化戦略を使用することができる。

いくつかの実施形態では、視線方向

および

ならびに形状パラメータ

に対して限られた数のプリセットのみを使用することで、すでに十分またはより効率的である。これは自明に、重み

、

および

にも限られた数のプリセットを使用することに相当する。例えば、形状パラメータを、無指向特性、カージオイド特性、および双極特性の３つの異なる指向性パターンのみを表すように制限することができる。可能な視線方向

および

の数を、それらが左、右、前、後、上、および下の場合のみを表すように制限することができる。

さらに単純な別の実施形態では、形状パラメータは固定されたままであり、カージオイドパターンに常に対応するか、または形状パラメータはまったく定義されない。視線方向と関連付けられたダウンミックスパラメータは、復号器におけるレンダリングプロセスが、左半球、右半球、または前半球に位置する特定のスピーカチャネルをレンダリングするための基準信号として最適なダウンミックスチャネルを使用することができるように、ダウンミックスチャネルの対が左／右チャネル対構成に対応するか、それとも前／後チャネル対構成に対応するかを示すために使用される。

実際の用途では、パラメータ

を、例えば手動で定義することができる（典型的には

）。視線方向

および

を、（例えば、最新技術の音源定位法を使用してアクティブな音源を定位し、第１のダウンミックス信号を定位された音源に向け、第２のダウンミックス信号を反対方向に向けることによって）自動的に設定することができる。

前の実施形態と同様に、ダウンミックスパラメータを時間周波数依存とすることができること、すなわち、（例えば、ダウンミックス信号を各周波数帯域で別々に定位されたアクティブな音源方向に応じて向けるときに）時間および周波数ごとに異なるダウンミックス構成が使用され得ることに留意されたい。定位を、例えば、時間周波数に依存する空間パラメータに含まれる情報を利用することによって行うことができる［Ｔｈｉｅｒｇａｒｔ０９］。

図４の復号器の「空間オーディオ合成」段では、前述のように伝送された空間パラメータ（音のＤＯＡや拡散度）およびダウンミックスオーディオチャネル

を使用する、復号器出力信号（ＦＯＡ／ＨＯＡ出力、ＭＣ出力、またはオブジェクト出力）の計算は、ダウンミックスメタデータによって指定される実際に使用されたダウンミックス構成に適合されなければならない。

例えば、スピーカ出力チャネル（ＭＣ出力）を生成する場合、基準信号

の計算は、実際に使用されたダウンミックス構成に適合されなければならない。より具体的には、第ｊのスピーカの基準信号

の最適な選択は、ダウンミックス信号の指向特性（例えば、その視線方向）および第ｊのスピーカの位置に依存する。例えば、ダウンミックスメタデータが、ダウンミックス信号が、それぞれ左と右とを指し示す２つのカージオイドマイクロフォン信号に対応することを示す場合、左半球に位置するスピーカの基準信号は、基準信号

として左を指し示すカージオイドダウンミックス信号を主に、またはそれだけを使用すべきである。中央に位置するスピーカは、代わりに両方のダウンミックス信号の線形結合（例えば、２つのダウンミックス信号の和）を使用し得る。他方、ダウンミックス信号が、それぞれ前方と後方とを指し示す２つのカージオイドマイクロフォン信号に対応する場合、前半球に位置するスピーカの基準信号は、基準信号

として前を指し示すカージオイド信号を主に、またはそれだけを使用すべきである。

図４の復号器でＦＯＡ出力またはＨＯＡ出力を生成するとき、基準信号

の計算も、ダウンミックスメタデータによって記述される、実際に使用されたダウンミックス構成に適合されなければならない。例えば、ダウンミックスメタデータが、ダウンミックス信号が、それぞれ左と右とを指し示す２つのカージオイドマイクロフォン信号に対応することを示す場合、第１のＦＯＡ成分（無指向成分）を合成するための基準信号

を、２つのカージオイドダウンミックス信号の和、すなわち、

として計算することができる。

実際、反対の視線方向を有する２つのカージオイド信号の和が無指向性信号をもたらすことが知られている。この場合、

は、所望のＦＯＡ出力信号またはＨＯＡ出力信号の第１の成分を直接もたらし、すなわち、この成分にはそれ以上の空間音合成は必要とされない。同様に、第３のＦＯＡ成分（ｙ方向の双極成分）を、２つのカージオイドダウンミックス信号の差、すなわち、

として計算することができる。

実際、反対の視線方向を有する２つのカージオイド信号の差が双極信号をもたらすことが知られている。この場合、

は、所望のＦＯＡ出力信号またはＨＯＡ出力信号の第３の成分を直接もたらし、すなわち、この成分にはそれ以上の空間音合成は必要とされない。残りのすべてのＦＯＡ成分またはＨＯＡ成分は、すべての方向からのオーディオ情報を含む無指向性基準信号から合成され得る。これは、この例では、残りのＦＯＡ成分またはＨＯＡ成分の合成に２つのダウンミックス信号の和が使用されることを意味する。ダウンミックスメタデータが２つのオーディオダウンミックス信号の異なる指向性を示す場合、基準信号

の計算をそれに応じて調整することができる。例えば、２つのカージオイドオーディオダウンミックス信号が（左右ではなく）前後に向けられている場合、２つのダウンミックス信号の差を使用して、第３のＦＯＡ成分の代わりに第２のＦＯＡ成分（ｘ方向の双極成分）を生成することができる。一般には、上記の例で示されるように、最適な基準信号

を、受け取られたダウンミックスオーディオ信号の線形結合、すなわち、

によって見つけることができ、式中、線形結合の重み

および

は、ダウンミックスメタデータに、すなわち、トランスポートチャネル構成および（例えば、第ｊのスピーカにレンダリングするときの）考慮された第ｊの基準信号に依存する。

空間メタデータを使用した無指向成分からのＦＯＡ成分またはＨＯＡ成分の合成は、例えば、［Ｔｈｉｅｒｇａｒｔ１７］に記載されていることに留意されたい。

一般に、空間オーディオ合成がレンダリングのための基準信号として誤ったダウンミックス信号を使用する場合、空間オーディオ品質の著しい劣化が予期されざるを得ないことに留意することは重要である。例えば、左を指し示すカージオイドマイクロフォンに対応するダウンミックス信号が、右半球に位置するスピーカの出力チャネル信号を生成するために使用される場合、入力音場の左半球から発生する信号成分は、再生システムの右半球に主に向けられ、出力の誤った空間像をもたらすことになる。

パラメトリック空間オーディオ入力のための柔軟なダウンミックス
この実施形態では、符号器への入力は、いわゆるパラメトリック空間オーディオ入力信号に対応し、パラメトリック空間オーディオ入力信号は、２つ以上のマイクロフォンからなる任意の配列構成のオーディオ信号を、空間音の空間パラメータ（例えば、ＤＯＡや拡散度）と共に含む。

この実施形態の符号器が図５に示されている。マイクロフォン配列の信号は、「ダウンミックス生成」ブロックにおいて１つまたは複数のオーディオダウンミックス信号を生成するために使用される。トランスポートチャネル構成（例えば、ダウンミックス信号がどのように計算されたか、またはその特性の一部）を記述するダウンミックスパラメータは、空間パラメータと共に、「メタデータ符号器」ブロックで符号化される符号器メタデータを表す。通常、空間パラメータは符号器への入力としてすでに提供されているので、（前の実施形態とは対照的に）パラメトリック空間オーディオ入力に空間オーディオ解析ステップは必要とされないことに留意されたい。ただし、パラメトリック空間オーディオ入力信号の空間パラメータと、空間オーディオ符号器によって生成された伝送用のビットストリームに含まれる空間パラメータとは、同一である必要はないことに留意されたい。この場合、入力空間パラメータと、伝送に使用されるパラメータと、のトランスコーディングまたはマッピングが、符号器で行われなければならない。ダウンミックスオーディオ信号は、例えば、ＥＶＳベースのオーディオコーデックを使用して、「コア符号器」ブロックで符号化される。符号化されたオーディオダウンミックス信号および符号化されたメタデータは、復号器に伝送されるビットストリームを形成する。復号器については、図４の同じブロックスキームが前の実施形態についてと同様に適用される。

以下では、オーディオダウンミックス信号および対応するダウンミックスメタデータをどのように生成することができるかについて説明する。

第１の例では、オーディオダウンミックス信号は、利用可能な入力マイクロフォン信号のサブセットを選択することによって生成される。選択は、手動で（例えば、プリセットに基づいて）、または自動的に行うことができる。例えば、Ｍ個の間隔を置いて配置された無指向性マイクロフォンを有する均一な円形配列のマイクロフォン信号が空間オーディオ符号器への入力として使用され、２つのオーディオダウンミックストランスポートチャネルが伝送に使用される場合、手動選択は、例えば、配列の前と後とのマイクロフォンに対応する信号対、または配列の左側と右側とのマイクロフォンに対応する信号対を選択することからなり得る。前後のマイクロフォンをダウンミックス信号として選択することにより、復号器で空間音を合成するときに前からの音と後からの音とを良好に区別することが可能になる。同様に、左右のマイクロフォンを選択することにより、復号器側で空間音をレンダリングするときにｙ軸に沿った空間音を良好に区別することが可能になる。例えば、録音された音源がマイクロフォン配列の左側に位置する場合、左右のマイクロフォンそれぞれへの音源の信号の到達時間には差がある。言い換えると、信号はまず左のマイクロフォンに到達し、次いで右のマイクロフォンに到達する。復号器におけるレンダリングプロセスでは、したがって、左半球に位置するスピーカにレンダリングするために左のマイクロフォン信号と関連付けられたダウンミックス信号を使用し、同様に、右半球に位置するスピーカにレンダリングするために右のマイクロフォン信号と関連付けられたダウンミックス信号を使用することも重要である。そうしないと、左と右のダウンミックス信号にそれぞれ含まれる時間差が、スピーカに不正確に向けられることになり、スピーカ信号によって生じる結果として生じる知覚キューも不正確になり、すなわち、聴取者によって知覚される空間音像も不正確になる。同様に、最適なレンダリング品質を達成するために、復号器において、前後または上下に対応するダウンミックスチャネルを区別できることも重要である。

適切なマイクロフォン信号の選択は、音響エネルギーの大部分を含む、または大部分の関連する音響エネルギーを含むと予想されるデカルト平面を考慮することによって行うことができる。自動選択を実行するために、例えば最新技術の音源定位を行い、次いで音源方向に対応する軸に最も近い２つのマイクロフォンを選択することができる。例えば、マイクロフォン配列が、間隔を置いて配置された無指向性マイクロフォンの代わりにＭ個の同一指向性（coincident directional)マイクロフォン（例えば、カージオイド）からなる場合に、同様の概念を適用することができる。この場合、大部分の音響エネルギーを含む（または含むと予想される）デカルト軸の方向および反対方向に向けられた２つの指向性マイクロフォンを選択することができる。

この第１の例では、ダウンミックスメタデータは、選択されたマイクロフォンに関する関連情報を含む。この情報は、例えば（例えば、デカルト座標系における絶対座標もしくは相対座標としての）選択されたマイクロフォンのマイクロフォン位置および／またはマイクロフォン間の距離および／または（例えば、極座標系における座標としての、すなわち、方位角

および仰角

としての）向きを含むことができる。さらに、ダウンミックスメタデータは、例えば、前述の１次パラメータ

を使用することによって、選択されたマイクロフォンの指向性パターンに関する情報を含むこともできる。

復号器側（図４）では、最適なレンダリング品質を得るために、「空間オーディオ合成」ブロックでダウンミックスメタデータが使用される。例えば、スピーカ出力（ＭＣ出力）では、ダウンミックスメタデータが、２つの特定の位置にある２つの無指向性マイクロフォンがダウンミックス信号として伝送されたことを示す場合、前述のようにスピーカ信号がそこから生成される基準信号

を、第ｊのスピーカ位置までの最小距離を有するダウンミックス信号に対応するように選択することができる。同様に、ダウンミックスメタデータが、視線方向

を有する２つの指向性マイクロフォンが伝送されたことを示す場合、スピーカ位置に向かう最も近い視線方向を有するダウンミックス信号に対応するように

を選択することができる。あるいは、第２の実施形態で説明したように、伝送された同一指向性（coincident directional)ダウンミックス信号の線形結合を行うこともできる。

復号器でＦＯＡ／ＨＯＡ出力を生成するとき、ダウンミックスメタデータが、間隔を置いて配置された無指向性マイクロフォンが伝送されたことを示す場合、すべてのＦＯＡ／ＨＯＡ成分の直接音を生成するために単一のダウンミックス信号が（任意に）選択され得る。実際、各無指向性マイクロフォンは、無指向特性により、再生されるべき直接音に関する同じ情報を含む。しかしながら、拡散音基準信号

を生成するために、伝送されたすべての無指向性ダウンミックス信号を考慮することができる。実際、音場が拡散である場合、間隔を置いて配置された無指向性ダウンミックス信号は、相互に無相関の基準信号

を生成するための無相関化がより少なくて済むように部分的に無相関化される。相互に無相関の基準信号は、例えば、［Ｖｉｌｋａｍｏ１３］で提案された共分散ベースのレンダリング手法を使用することによって、伝送されたダウンミックスオーディオ信号から生成することができる。

拡散音場における２つのマイクロフォンの信号間の相関は、マイクロフォン間の距離に強く依存することは周知であり、マイクロフォンの距離が大きいほど、拡散音場における記録される信号の相関は小さくなる［Ｌａｉｔｉｎｅｎ１１］。ダウンミックスパラメータに含まれるマイクロフォン距離に関連する情報を復号器において使用して、拡散音成分をレンダリングするのに適切であるようにするために、ダウンミックスチャネルがどれだけ合成的に無相関化されなければならないかを決定することができる。ダウンミックス信号が十分に大きいマイクロフォン間隔のためにすでに十分に無相関化されている場合、人工的な無相関化は破棄されてもよく、無相関化に関連するアーチファクトを回避することができる。

ダウンミックスメタデータが、例えば、同一指向性（coincident directional)マイクロフォン信号がダウンミックス信号として伝送されたことを示す場合には、次いで第２の実施形態で説明したように、ＦＯＡ／ＨＯＡ出力のための基準信号

を生成することができる。

符号器においてダウンミックスオーディオ信号としてマイクロフォンのサブセットを選択する代わりに、すべての利用可能なマイクロフォン入力信号（例えば、２つ以上）をダウンミックスオーディオ信号として選択することもできることに留意されたい。この場合、ダウンミックスメタデータは、マイクロフォン配列構成全体を、例えば、デカルトマイクロフォン位置、極座標のマイクロフォン視線方向

および

、または１次パラメータ

に関するマイクロフォン指向性として記述する。

第２の例では、ダウンミックスオーディオ信号は、「ダウンミックス生成」ブロック内の符号器において、入力マイクロフォン信号の線形結合を使用して、例えば、空間フィルタリング（ビームフォーミング）を使用して生成される。この場合、ダウンミックス信号

を、次式として計算することができる。

式中、

は、すべての入力マイクロフォン信号を含むベクトルであり、

は、線形結合の重み、すなわち、第ｍのオーディオダウンミックス信号についての、空間フィルタまたはビームフォーマの重みである。空間フィルタまたはビームフォーマを最適な方法で計算する様々な方法がある［Ｖｅｅｎ８８］。多くの場合、ビームフォーマが向けられる視線方向

が定義される。次いで、ビームフォーマの重みを、例えば、遅延和ビームフォーマまたはＭＶＤＲビームフォーマとして計算することができる［Ｖｅｅｎ８８］。この実施形態では、ビームフォーマの視線方向

は、オーディオダウンミックス信号ごとに定義される。これを、第２の実施形態で説明したのと同じ方法で、手動で（例えば、プリセットに基づいて）または自動的に行うことができる。異なるオーディオダウンミックス信号を表すビームフォーマ信号の視線方向

は、その場合、図４の復号器に伝送されるダウンミックスメタデータを表すことができる。

別の例は、復号器でスピーカ出力（ＭＣ出力）を使用する場合に特に適する。この場合、そのダウンミックス信号

は、そのビームフォーマの視線方向がスピーカ方向に最も近い

として使用される。必要なビームフォーマの視線方向は、ダウンミックスメタデータによって記述される。

すべての例において、トランスポートチャネル構成、すなわちダウンミックスパラメータを、前の実施形態と同様に、例えば空間パラメータに基づいて、時間周波数に依存して調整することができることに留意されたい。

続いて、本発明のさらなる実施形態またはすでに前に説明された実施形態について、同じ態様または追加の態様またはさらなる態様に関して論じる。

好ましくは、図６のトランスポート表現生成器６００は、図８ａに示される特徴のうちの１つまたは複数を含む。特に、ブロック６０２を制御するエネルギー位置決定器６０６が設けられる。ブロック６０２は、入力がＦＯＡ信号またはＨＯＡ信号であるときにアンビソニックス係数信号から選択するための選択器を備え得る。代替的または追加的に、エネルギー位置決定器６０６は、アンビソニックス係数信号を結合するための結合器も制御する。追加的または代替的に、マルチチャネル表現またはマイクロフォン信号からの選択も行われる。この場合、入力は、ＦＯＡデータまたはＨＯＡデータではなく、マイクロフォン信号またはマルチチャネル表現を有する。追加的または代替的に、図８ａの６０２に示されるように、チャネル結合またはマイクロフォン信号の結合も行われる。下の２つの代替案では、マルチチャネル表現またはマイクロフォン信号が入力される。

ブロック６０２のうちの１つまたは複数によって生成されたトランスポートデータは、（符号化された）トランスポートメタデータ６１０を生成するために、図６のトランスポート表現生成器６００に含まれるトランスポートメタデータ生成器６０５に入力される。

ブロック６０２のいずれも、好ましくは、その後に図３または図５に示されるようなコア符号器６０３によってさらに符号化される、符号化されていないトランスポート表現６１４を生成する。

トランスポート表現生成器６００の実際の実施態様は、図８ａのブロック６０２のうちの単一のブロックのみ、または図８ａに示されるブロックのうちの２つ以上を含み得ることを概説する。後者の場合、トランスポートメタデータ生成器６０５は、トランスポートメタデータ６１０に、項目６０２に示される代替案のいずれかが空間オーディオ表現のどの（時間および／または周波数）部分のために取られたかを示すさらなるトランスポートメタデータ項目をさらに含めるように構成される。よって、図８ａは、代替案６０２のうちの１つのみがアクティブである状況、または２つ以上がアクティブであり、トランスポート表現の生成またはダウンミキシングおよび対応するトランスポートメタデータについての異なる代替案の間で信号に依存した切り替えを行うことができる状況を示している。

図８ｂに、図６のトランスポート表現生成器６００が生成でき、図７の空間オーディオ合成器が使用できる様々なトランスポートメタデータ代替案のテーブルを示す。トランスポートメタデータ代替案は、オーディオ入力データ成分のセットのどのサブセットがトランスポート表現として選択されたかを示すメタデータの選択情報を含む。一例が、例えば、４つのＦＯＡ成分のうちの２つまたは３つのみが選択されたことである。あるいは、選択情報は、マイクロフォン信号配列のどのマイクロフォン信号が選択されたかを示していてもよい。図８ｂのさらなる代替案は、特定のオーディオ表現入力成分または信号がどのように結合されたかを示す結合情報である。特定の結合情報は、線形結合の重み、または、どのチャネルが、例えば等しい重みもしくは事前定義された重みで結合されたかに言及し得る。さらなる情報は、特定のトランスポート信号と関連付けられたセクタまたは半球情報に言及する。半球情報のセクタは、聴取位置に対する左セクタもしくは右セクタ、または前セクタもしくは後セクタ、あるいは１８０°セクタよりも小さいセクタを指し得る。

さらなる実施形態は、例えば、対応するトランスポート表現信号を生成する特定の物理マイクロフォンまたは仮想マイクロフォンの指向性の形状に言及する形状パラメータを示すトランスポートメタデータに関する。形状パラメータは、無指向性マイクロフォン信号形状またはカージオイドマイクロフォン信号形状または双極マイクロフォン信号形状または任意の他の関連する形状を示し得る。さらなるトランスポートメタデータ代替案は、マイクロフォンの位置、マイクロフォンの向き、マイクロフォン間の距離、または、例えば、（符号化された）トランスポート表現６１４に含まれるトランスポート表現信号を生成または記録したマイクロフォンの指向性パターンに関する。さらなる実施形態は、トランスポート表現に含まれる信号の視線方向もしくは複数の視線方向、またはビームフォーミング重みもしくはビームフォーマの方向に関するか、または、代替的もしくは追加的に、含まれるマイクロフォン信号が無指向性マイクロフォン信号かそれともカージオイドマイクロフォン信号かそれとも他の信号かに関連した情報に関する。（ビットレートに関する）非常に小さいトランスポートメタデータサイド情報を、単に、トランスポート信号が無指向性マイクロフォンからのマイクロフォン信号か、それとも無指向性マイクロフォンとは異なる任意の他のマイクロフォンからのマイクロフォン信号かを示す単一のフラグを含めることによって生成することができる。

図８ｃに、トランスポートメタデータ生成器６０５の好ましい実施態様を示す。特に、数値トランスポートメタデータについて、トランスポートメタデータ生成器は、トランスポートメタデータ量子化器６０５ａまたは６２２と、続いて接続されるトランスポートメタデータエントロピー符号器６０５ｂとを備える。図８ｃに示される手順は、パラメトリックメタデータ、特に空間パラメータにも適用することができる。

図９ａに、図７の空間オーディオ合成器７５０の好ましい実施態様を示す。空間オーディオ合成器７５０は、（復号された）トランスポートメタデータ７１０を解釈するためのトランスポートメタデータパーサを備える。ブロック７５２からの出力データは、図７の入力インターフェース７００から得られたトランスポート表現に含まれるトランスポート信号７１１をさらに受け取る、結合器／選択器／基準信号生成器７６０に導入される。トランスポートメタデータに基づき、結合器／選択器／基準信号生成器は、１つまたは複数の基準信号を生成し、これらの基準信号を、マルチチャネル出力のための一般的な成分、ＦＯＡ出力またはＨＯＡ出力のためのアンビソニックス成分、バイノーラル表現のための左右のチャネル、またはオーディオオブジェクト成分がモノラルオブジェクト信号もしくはステレオオブジェクト信号である場合のオーディオオブジェクト成分などの、合成された空間オーディオ表現の成分を計算する成分信号計算器７７０に転送する。

図９ｂに、例えば、項目６１１で示されるｎ個のトランスポート信号Ｔ１、Ｔ２、Ｔ_ｎからなり、さらに、トランスポートメタデータ６１０および任意選択の空間パラメータ６１２からなる符号化されたオーディオ信号を示す。異なるデータブロックの順序および他のデータブロックに対する特定のデータブロックのサイズは、図９ｂには概略的にのみ示されている。

図９ｃに、特定のトランスポートメタデータ、特定のトランスポート表現、および特定のスピーカセットアップのための結合器／選択器／基準信号生成器７６０の手順の概要テーブルを示す。特に、図９ｃの実施形態では、トランスポート表現は、左トランスポート信号（または前トランスポート信号または無指向性もしくはカージオイド信号）を含み、トランスポート表現は、例えば、右トランスポート信号（または、後トランスポート信号、無指向性トランスポート信号、またはカージオイドトランスポート信号）である第２のトランスポート信号Ｔ２をさらに含む。左／右の場合、左スピーカＡ用の基準信号は第１のトランスポート信号Ｔ１として選択され、右スピーカ用の基準信号はトランスポート信号Ｔ２として選択される。左サラウンドおよび右サラウンドについては、左信号および右信号は、対応するチャネルについてテーブル７７１に示されるように選択される。中央チャネルについては、左トランスポート信号Ｔ１と右トランスポート信号Ｔ２との和が、合成された空間オーディオ表現の中央チャネル成分の基準信号として選択される。

図９ｃには、第１のトランスポート信号Ｔ１が前トランスポート信号であり、第２のトランスポート信号Ｔ２が右トランスポート信号である場合のさらなる選択が示されている。その場合、第１のトランスポート信号Ｔ１が、左、右、中央に選択され第２のトランスポート信号Ｔ２が、左サラウンドおよび右サラウンドに選択される。

図９ｄに、図７の空間オーディオ合成器のさらなる好ましい実施態様を示す。ブロック９１０で、トランスポートまたはダウンミックスデータが、特定の１次アンビソニックスまたは高次アンビソニックスの選択に関して計算される。図９ｄには、例えば、４つの異なる選択代替案が示されており、第４の代替案では、その他の代替案では、無指向成分である第３の成分ではなく、２つのトランスポート信号Ｔ１、Ｔ２のみが選択される。

（仮想）チャネルの基準信号は、トランスポートダウンミックスデータに基づいて決定され、フォールバック手順が、欠落している成分、すなわち、図９ｄの例に関する第４の成分に、または第４の例の場合の２つの欠落した成分に使用される。次いで、ブロック９１２で、トランスポートデータから受け取られ、または導出された方向パラメータを使用してチャネル信号が生成される。よって、方向パラメータまたは空間パラメータを、図７の７１２に示されるように追加的に受け取ることができるか、またはトランスポート表現信号の信号解析によってトランスポート表現から導出することができる。

代替の実施態様では、ブロック９１３に示されるようにＦＯＡ成分としての成分の選択が行われ、図９ｄの項目９１４に示されるように、空間基底関数応答を使用して欠落している成分の計算が行われる。空間基底関数応答を使用する特定の手順が図１０のブロック４１０に示されており、図１０では、ブロック８２６が拡散部分の平均応答を提供し、図１０のブロック４１０が直接信号部分のモードｍおよび次数ｌごとの特定の応答を提供する。

図９ｅに、形状パラメータまたは、形状パラメータに加えてもしくは形状パラメータの代替として視線方向を特に含む特定のトランスポートメタデータを示すさらなるテーブルを示す。形状パラメータは、１、０．５または０である形状係数ｃ_ｍを含み得る。係数ｃ_Ｍ＝１はマイクロフォン録音特性の無指向性形状を示し、係数０．５はカージオイド形状を示し、値０は双極形状を示す。

さらに、様々な視線方向は、左、右、前、後、上、下、方位角φおよび仰角θからなる特定の到来方向を含むことができ、または代替として、短いメタデータは、トランスポート表現内の信号対が左／右対もしくは前／後対を含むという指示を含む。

図９ｆには、空間オーディオ合成器のさらなる実施態様が示されており、ブロック９１０で、トランスポートメタデータが、例えば、図７の入力インターフェース７００または空間オーディオ合成器７５０の入力ポートによって行われるように読み取られる。ブロック９５０で、基準信号の決定が、例えばブロック７６０によって行われるように、読み取られたトランスポートメタデータに適合される。次いで、ブロック９１６で、マルチチャネル、ＦＯＡ／ＨＯＡ、オブジェクトまたはバイノーラル出力、および、特に、これらの種類のデータ出力のための特定の成分が、ブロック９１５を介して得られた基準信号と、利用可能であれば、任意選択で伝送されたパラメトリックデータ７１２とを使用して計算される。

図９ｇに、結合器／選択器／基準信号生成器７６０のさらな実施態様を示す。トランスポートメタデータが、例えば、第１のトランスポート信号Ｔ１が左カージオイド信号であり、第２のトランスポート信号Ｔ２が右カージオイド信号であることを示す場合には、次いでブロック９２０で、Ｔ１とＴ２とを加算することによって無指向性信号が計算される。ブロック９２１で示されるように、Ｔ１とＴ２との差またはＴ２とＴ１との差を得ることによって、双極信号Ｙが計算される。次いで、ブロック９２２で、残りの成分が、基準として無指向性信号を使用して合成される。ブロック９２２で基準として使用される無指向性信号は、好ましくはブロック９２０の出力である。さらに、項目７１２に示されるように、ＦＯＡ成分やＨＯＡ成分などの残りの成分を合成するために、任意選択の空間パラメータも使用することができる。

図９ｈに、ブロック９３０に示されるように、２つ以上のマイクロフォン信号がトランスポート表現として受け取られ、関連付けられたトランスポートメタデータも受け取られるときに、空間オーディオ合成器または結合器／選択器／基準信号生成器７６０が行うことができる手順の様々な代替案のさらなる実施態様を示す。ブロック９３１に示されるように、特定の、例えばスピーカ位置までの最小距離を有するトランスポート信号の、ある信号成分の基準信号としての選択を行うことができる。ブロック９３２に示されるさらなる代替案は、特定のスピーカの基準信号としての最も近い視線方向を有する、または特定のスピーカもしくは、例えば、バイノーラル表現の左／右などの仮想音源に対する最も近いビームフォーマもしくは誤差位置を有するマイクロフォン信号の選択を含む。ブロック９３３に示されるさらなる代替案は、ＦＯＡ成分またはＨＯＡ成分の計算のためやスピーカ信号の計算のためなど、すべての直接音成分の基準信号として任意のトランスポート信号を選択することである。９３４に示されるさらなる代替案は、拡散音基準信号を計算するための無指向性信号などのすべての利用可能なトランスポート信号の使用に言及している。さらなる代替案は、トランスポートメタデータに含まれるマイクロフォン距離に基づいて成分信号を計算するための相関量の設定または制限に関する。

代替案９３１から代替案９３５のうちの１つまたは複数を行うためには、選択的マイクロフォンのマイクロフォン位置、マイクロフォン間距離、ｃ_Ｍなどのマイクロフォンの向きまたは指向性パターン、配列記述、ビームフォーミング係数ｗ_ｍまたは実際の到来方向または、例えば、トランスポートチャネルごとの方位角φおよび仰角θを有する音方向を含むものとして図９ｈの右側に示されているいくつかの関連付けられたトランスポートメタデータが有用である。

図１０に、直接／拡散手順のための低次または中次成分生成器の好ましい実施態様を示す。特に、低次または中次成分生成器は、入力信号を受け取り、入力信号がモノラル信号の場合にはコピーもしくはそのまま取得することによって、または前述のような、もしくはその教示全体が参照による本明細書に組み込まれる国際公報第２０１７／１５７８０３（Ａ１）号パンフレットに示されているような、計算によって入力信号から基準信号を導出することによって基準信号を生成する、好ましくは、トランスポートメタデータによって制御される基準信号生成器８２１を備える。

さらに、図１０は、特定のＤＯＡ情報（φ、θ）と、特定のモード数ｍおよび特定の次数ｌとから、指向性利得Ｇ_ｌ ^ｍを計算するように構成された指向性利得計算器４１０を示している。処理がｋ，ｎで参照される個々のタイルごとに時間／周波数領域で行われる好ましい実施形態では、指向性利得は、そのような時間／周波数タイルごとに計算される。重み付け器８２０は、基準信号および特定の時間／周波数タイルの拡散度データを受け取り、重み付け器８２０の結果は直接部分である。拡散部分は、特定の時間フレームおよび周波数ビンの拡散度値Ψを受け取り、特に、必要なモードｍおよび必要な次数ｌを入力として受け取る平均応答提供器８２６によって生成された、Ｄ_ｌで示される特定のモードｍおよび次数ｌへの平均応答を受け取る、無相関化フィルタ８２３および後続の重み付け器８２４によって行われる処理によって生成される。

重み付け器８２４の結果は拡散部分であり、拡散部分は、特定のモードｍおよび特定の次数ｌの特定の中次音場成分を得るために、加算器８２５によって直接部分に加算される。図６に関して論じられた拡散補償利得を、ブロック８２３によって生成された拡散部分にのみ適用することが好ましい。これを、（拡散）重み付け器によって行われる手順内で有利に行うことができる。よって、図１０に示されるように、完全な合成を受けない高次成分によって被る拡散エネルギーの損失を補償するために、信号内の拡散部分のみが強化される。

直接部分のみの生成が、高次成分生成器について図１１に示されている。基本的に、高次成分生成器は、直接分岐に関して低次または中次成分生成器と同じ方法で実施されるが、ブロック８２３、ブロック８２４、ブロック８２５およびブロック８２６を含まない。よって、高次成分生成器のみが、指向性利得計算器４１０から入力データを受け取り、基準信号生成器８２１から基準信号を受け取る（直接）重み付け器８２２を備える。好ましくは、高次成分生成器および低次または中次成分生成器の単一の基準信号のみが生成される。しかしながら、場合によっては両方のブロックが個々の基準信号生成器を有することもできる。とはいえ、単一の基準信号生成器のみを有することが好ましい。よって、高次成分生成器によって行われる処理は、時間／周波数タイルについての特定の拡散度情報Ψを有する特定の指向性利得Ｇ_ｌ ^ｍを有する単一の重み付け方向のみが行われることになるので、きわめて効率的である。よって、高次音場成分をきわめて効率的かつ迅速に生成することができ、拡散成分の非生成または出力信号における拡散成分の非使用に起因する誤差が、低次音場成分または好ましくは中次音場成分の拡散部分のみを強化することによって容易に補償される。図１１に示される手順を、低次または中次成分生成にも使用することができる。

図１０は、よって、拡散部分を有する低次または中次の音場成分の生成を示しており、図１１は、高次音場成分、または、一般に、拡散部分を必要としないか、もしくは受け取らない成分を計算する手順を示している。

しかしながら、特にＦＯＡ表現またはＨＯＡ表現のための音場成分を生成する際に、拡散部分を有する図１０の手順または拡散部分を有しない図１１の手順のどちらかを適用することができる。基準信号生成器８２１、７６０は、トランスポートメタデータによって図１０および図１１の両方の手順で制御される。さらに、重み付け器８２２は、空間基底関数応答Ｇ_ｌ ^ｎによってのみならず、好ましくは拡散度パラメータ７１２、７２２などの空間パラメータによっても制御される。さらに、好ましい実施形態では、拡散部分の重み付け器８２４もまた、トランスポートメタデータによって、特にマイクロフォン距離によって制御される。マイクロフォン距離Ｄと重み係数Ｗとの間の特定の関係が、図１０の概略図に示されている。距離Ｄが大きいと重み係数が小さくなり、距離が小さいと重み係数が大きくなる。よって、互いまで大きい距離を有するトランスポート信号表現に含まれる２つのマイクロフォン信号がある場合、両方のマイクロフォン信号がすでに完全に無相関化されていると仮定することができ、したがって、無相関化フィルタの出力を、最終的に、加算器８２５に入力される信号が、直接重み付け器８２２から加算器に入力される信号と比較して非常に小さくなるように、ゼロに近い重み係数で重み付けすることができる。極端な場合には、相関分岐をオフに切り替えることさえでき、これは、例えば、重みＷ＝０を設定することによって達成することができる。当然ながら、閾値演算などによって計算されるスイッチを使用することによって拡散分岐をオフに切り替える他の方法もある。

当然ながら、図１０に示される成分生成を、重み付け器８０４の制御なしでトランスポートメタデータによって基準信号生成器８２１、７６０を制御するだけで、あるいは、ブロック８２１、７６０の基準信号生成制御なしで重み付け器８０４を制御するだけで行うこともできる。

図１１に、拡散分岐が欠落しており、したがって、図１０の拡散重み付け器８２４の制御も行われない状況を示す。

図１０および図１２は、無相関化フィルタ８２３および重み付け器８２４を備える特定の拡散信号生成器８３０を示している。当然ながら重み付け器８２４と無相関化フィルタ８２３との間の信号処理の順番を入れ替えて、基準信号生成器８２１、７６０によって生成または出力された基準信号の重み付けが、信号が無相関化フィルタ８２３に入力される前に行われるようにすることもできる。

図１０は、ＦＯＡやＨＯＡなどの音場成分表現、すなわち、球形または円筒形の成分信号を有する表現の低次または中次の音場成分の生成を示しているが、図１２は、スピーカ成分信号またはオブジェクトの計算のための代替的または一般的な実施態様を示している。特に、スピーカ信号／オブジェクトの生成および計算のために、図９ａのブロック７６０に対応する基準信号生成器８２１、７６０が設けられる。さらに、図９ａに示される成分信号計算器７７０は、直接分岐には、重み付け器８２２を備え、拡散分岐には、無相関化フィルタ８２３と重み付け器８２４とを備える拡散信号生成器８３０を備える。さらに、図９ａの成分信号計算器７７０は、直接信号Ｐ_ｄｉｒと拡散信号Ｐ_ｄｉｆｆとの加算を行う加算器８２５をさらに備える。加算器の出力は、例示的な参照番号７５５、７５６で示されるように、（仮想）スピーカ信号またはオブジェクト信号またはバイノーラル信号である。特に、基準信号生成器８２１、７６０はトランスポートメタデータ７１０によって制御され、拡散重み付け器８２４もトランスポートメタデータ７１０によって制御することができる。一般に、成分信号計算器は、例えばＶＢＡＰ（ｖｉｒｔｕａｌｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ（仮想ベース振幅パンニング））利得などのパンニング利得を使用して、直接部分を計算する。利得は、到来方向情報から導出され、好ましくは方位角φおよび仰角θで与えられる。これにより、直接部分Ｐ_ｄｉｒが得られる。

さらに、基準信号計算器によって生成された基準信号Ｐ_ｒｅｆは、無相関化基準信号を得るために無相関化フィルタ８２３に入力され、次いで信号は、好ましくは拡散度パラメータを使用して、また好ましくはトランスポートメタデータ７１０から取得されたマイクロフォン距離を使用して重み付けされる。重み付け器８２４の出力は拡散成分Ｐ_ｄｉｆｆであり、加算器８２５は直接成分と拡散成分とを加算して、対応する表現のための特定のスピーカ信号またはオブジェクト信号またはバイノーラルチャネルを得る。特に、仮想スピーカ信号が計算されるとき、トランスポートメタデータに応答して基準信号計算器８２１、７６０によって行われる手順を、図９ｃに示されるように行うことができる。あるいは、基準信号を、定義された聴取位置から特定のスピーカを指すチャネルとして生成することもでき、基準信号のこの計算を、トランスポート表現に含まれる信号の線形結合を使用して行うことができる。

本発明の好ましい実施形態の一覧
ＦＯＡベースの入力
・空間オーディオシーン符号器
・空間オーディオシーン（例えばＦＯＡ成分）を表す空間オーディオ入力信号を受け取る
・少なくとも１つの方向パラメータを含む空間オーディオパラメータを生成するか、または受け取る
・受け取られたオーディオ入力信号に基づいてダウンミックスオーディオ信号を生成する（オプション：適応ダウンミックス生成のために空間オーディオパラメータも使用する）。
・ダウンミックス信号の指向特性を記述するダウンミックスパラメータを生成する（例えば、ダウンミックス係数や指向性パターン）。
・ダウンミックス信号、空間オーディオパラメータおよびダウンミックスパラメータを符号化する。

・空間オーディオシーン復号器
・ダウンミックスオーディオ信号、空間オーディオパラメータ、およびダウンミックスパラメータを含む符号化された空間オーディオシーンを受け取る
・ダウンミックスオーディオ信号、空間オーディオパラメータおよびダウンミックス／トランスポートチャネルパラメータを復号する
・ダウンミックスオーディオ信号、空間オーディオパラメータおよびダウンミックス（位置）パラメータに基づいて復号された表現を空間的にレンダリングするための空間オーディオレンダラ。

間隔を置いたマイクロフォンの録音および関連付けられた空間メタデータに基づく入力（パラメトリック空間オーディオ入力）：
・空間オーディオシーン符号器
・記録されたマイクロフォン信号から生成された少なくとも２つの空間オーディオ入力信号を生成するか、または受け取る
・少なくとも１つの方向パラメータを含む空間オーディオパラメータを生成するか、または受け取る
・記録されたマイクロフォン信号から生成された空間オーディオ入力信号の幾何学的または位置的特性（例えば、マイクロフォンの相対位置または絶対位置やマイクロフォン間の間隔）を記述する位置パラメータを生成するか、または受け取る。
・空間オーディオ入力信号、または空間オーディオ入力信号、空間オーディオパラメータ、および位置パラメータから導出されたダウンミックス信号を符号化する。

・空間オーディオシーン復号器
・少なくとも２つのオーディオ信号、空間オーディオパラメータ、および（オーディオ信号の位置特性に関連する）位置パラメータを含む符号化された空間オーディオシーンを受け取る。
・オーディオ信号、空間オーディオパラメータおよび位置パラメータを復号する
・オーディオ信号、空間オーディオパラメータおよび位置パラメータに基づいて復号された表現を空間的にレンダリングするための空間オーディオレンダラ。

いくつかの態様が装置の文脈で説明されているが、これらの態様は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明も表していることは明らかである。同様に、方法ステップの文脈で説明された態様も、対応する装置の対応するブロックまたは項目または特徴を表している。

特定の実施要件に応じて、本発明の実施形態を、ハードウェアまたはソフトウェアで実施することができる。実施態様は、それぞれの方法が行われるようにプログラマブルコンピュータシステムと協働する（または協働することができる）、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えば、フロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行することができる。

本発明によるいくつかの実施形態は、本明細書に記載される方法のうちの１つが行われるように、プログラマブルコンピュータシステムと協働することができる、電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作すると、方法のうちの１つを行うように動作する。プログラムコードは、例えば、機械可読キャリアに格納され得る。

他の実施形態は、機械可読キャリアまたは非一時的な記憶媒体に格納された、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムを含む。

言い換えると、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で動作するときに本明細書に記載される方法のうちの１つを行うためのプログラムコードを有するコンピュータプログラムである。

本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムが記録されているデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。

本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成され得る。

さらなる実施形態は、本明細書に記載される方法のうちの１つを行うように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを含む。

さらなる実施形態は、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムがインストールされたコンピュータを含む。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載される方法の機能の一部または全部が行われ得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書に記載される方法のうちの１つを行うためにマイクロプロセッサと協働し得る。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって行われる。

上述した実施形態は、本発明の原理の単なる例示である。当業者には本明細書に記載される構成および詳細の改変および変形が明らかになることを理解されたい。したがって、本明細書において実施形態の記述および説明として提示された具体的な詳細によってではなく、差し迫る特許請求の範囲によってのみ限定されることが意図されている。

参考文献
［Ｐｕｌｋｋｉ０７］Ｖ．Ｐｕｌｋｋｉ，’’ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ’’，Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，Ｖｏｌｕｍｅ５５Ｉｓｓｕｅ６ｐｐ．５０３－５１６；Ｊｕｎｅ２００７．
［Ｐｕｌｋｋｉ９７］Ｖ．Ｐｕｌｋｋｉ，’’ＶｉｒｔｕａｌＳｏｕｎｄＳｏｕｒｃｅＰｏｓｉｔｉｏｎｉｎｇＵｓｉｎｇＶｅｃｔｏｒＢａｓｅＡｍｐｌｉｔｕｄｅＰａｎｎｉｎｇ’’ Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，Ｖｏｌｕｍｅ４５Ｉｓｓｕｅ６ｐｐ．４５６－４６６；Ｊｕｎｅ１９９７
［Ｔｈｉｅｒｇａｒｔ０９］Ｏ．Ｔｈｉｅｒｇａｒｔ，Ｒ．Ｓｃｈｕｌｔｚ－Ａｍｌｉｎｇ，Ｇ．ＤｅｌＧａｌｄｏ，Ｄ．Ｍａｈｎｅ，Ｆ．Ｋｕｅｃｈ，’’ＬｏｃａｌｉｚａｔｉｏｎｏｆＳｏｕｎｄＳｏｕｒｃｅｓｉｎＲｅｖｅｒｂｅｒａｎｔＥｎｖｉｒｏｎｍｅｎｔｓＢａｓｅｄｏｎＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇＰａｒａｍｅｔｅｒｓ’’，ＡＥＳＣｏｎｖｅｎｔｉｏｎ１２７，ＰａｐｅｒＮｏ．７８５３，Ｏｃｔ．２００９
［Ｔｈｉｅｒｇａｒｔ１７］ＷＯ２０１７１５７８０３Ａ１，Ｏ．Ｔｈｉｅｒｇａｒｔｅｔ．ａｌ．’’ＡＰＰＡＲＡＴＵＳ，ＭＥＴＨＯＤＯＲＣＯＭＰＵＴＥＲＰＲＯＧＲＡＭＦＯＲＧＥＮＥＲＡＴＩＮＧＡＳＯＵＮＤＦＩＥＬＤＤＥＳＣＲＩＰＴＩＯＮ’’
［Ｌａｉｔｉｎｅｎ１１］Ｍ．Ｌａｉｔｉｎｅｎ，Ｆ．Ｋｕｅｃｈ，Ｖ．Ｐｕｌｋｋｉ，’’ＵｓｉｎｇＳｐａｃｅｄＭｉｃｒｏｐｈｏｎｅｓｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ ’’，ＡＥＳＣｏｎｖｅｎｔｉｏｎ１３０，ＰａｐｅｒＮｏ．８４３３，Ｍａｙ２０１１
［Ｖｉｌｋａｍｏ１３］Ｊ．Ｖｉｌｋａｍｏ，Ｖ．Ｐｕｌｋｋｉ，’’ＭｉｎｉｍｉｚａｔｉｏｎｏｆＤｅｃｏｒｒｅｌａｔｏｒＡｒｔｉｆａｃｔｓｉｎＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇｂｙＣｏｖａｒｉａｎｃｅＤｏｍａｉｎＲｅｎｄｅｒｉｎｇ’’，Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，Ｖｏｌ．６１，Ｎｏ．９，２０１３Ｓｅｐｔｅｍｂｅｒ
［Ｖｅｅｎ８８］Ｂ．Ｄ．ＶａｎＶｅｅｎ，Ｋ．Ｍ．Ｂｕｃｋｌｅｙ，’’Ｂｅａｍｆｏｒｍｉｎｇ：ａｖｅｒｓａｔｉｌｅａｐｐｒｏａｃｈｔｏｓｐａｔｉａｌｆｉｌｔｅｒｉｎｇ’’，ＩＥＥＥＡＳＳＰＭａｇ．，ｖｏｌ．５，ｎｏ．２，ｐｐ．４－２４，１９９８
［１］Ｖ．Ｐｕｌｋｋｉ，Ｍ－ＶＬａｉｔｉｎｅｎ，ＪＶｉｌｋａｍｏ，ＪＡｈｏｎｅｎ，ＴＬｏｋｋｉａｎｄＴＰｉｈｌａｊａｍａｋｉ，’’Ｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ－ｐｅｒｃｅｐｔｉｏｎ－ｂａｓｅｄｒｅｐｒｏｄｕｃｔｉｏｎｏｆｓｐａｔｉａｌｓｏｕｎｄ’’，ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎｔｈｅＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｏｎＳｐａｔｉａｌＨｅａｒｉｎｇ，Ｎｏｖ．２００９，Ｚａｏ；Ｍｉｙａｇｉ，Ｊａｐａｎ．
［２］Ｍ．Ｖ．ＬａｉｔｉｎｅｎａｎｄＶ．Ｐｕｌｋｋｉ，’’Ｃｏｎｖｅｒｔｉｎｇ５．１ａｕｄｉｏｒｅｃｏｒｄｉｎｇｓｔｏＢ－ｆｏｒｍａｔｆｏｒｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇｒｅｐｒｏｄｕｃｔｉｏｎ，’’ ２０１１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），Ｐｒａｇｕｅ，２０１１，ｐｐ．６１－６４
［３］Ｒ．Ｋ．Ｆｕｒｎｅｓｓ，’’Ａｍｂｉｓｏｎｉｃｓ－Ａｎｏｖｅｒｖｉｅｗ，’’ ｉｎＡＥＳ８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，Ａｐｒｉｌ１９９０，ｐｐ．１８１－１８９．
［４］Ｃ．Ｎａｃｈｂａｒ，Ｆ．Ｚｏｔｔｅｒ，Ｅ．Ｄｅｌｅｆｌｉｅ，ａｎｄＡ．Ｓｏｎｔａｃｃｈｉ，’’ＡＭＢＩＸ－ＡＳｕｇｇｅｓｔｅｄＡｍｂｉｓｏｎｉｃｓＦｏｒｍａｔ’’，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｍｂｉｓｏｎｉｃｓＳｙｍｐｏｓｉｕｍ２０１１

Claims

符号化されたオーディオ信号を得るためにオーディオシーンを表す空間オーディオ表現を符号化するための装置であって、前記装置が、
前記空間オーディオ表現からトランスポート表現を生成し、前記トランスポート表現の前記生成に関連する、または前記トランスポート表現の１つもしくは複数の指向特性を示すトランスポートメタデータを生成するためのトランスポート表現生成器（６００）と、
前記符号化されたオーディオ信号を生成するための出力インターフェース（６４０）であって、前記符号化されたオーディオ信号が前記トランスポート表現に関する情報および前記トランスポートメタデータに関する情報を含む、出力インターフェース（６４０）と
を備える、装置。
前記空間オーディオ表現から空間パラメータを導出するためのパラメータプロセッサ（６２０）をさらに備え、
前記出力インターフェース（６４０）が、前記符号化されたオーディオ信号を、前記符号化されたオーディオ信号が前記空間パラメータに関する情報をさらに含むように生成するように構成される、請求項１に記載の装置。
前記空間オーディオ表現が、多数の係数信号を含む１次アンビソニックスもしくは高次アンビソニックス表現、または複数のオーディオチャネルを含むマルチチャネル表現であり、
前記トランスポート表現生成器（６００）が、前記１次アンビソニックスもしくは高次アンビソニックス表現から１つもしくは複数の係数信号を選択するか、または前記高次アンビソニックスもしくは１次アンビソニックス表現からの係数を結合するように構成され、または前記トランスポート表現生成器（６００）が、前記マルチチャネル表現から１つもしくは複数のオーディオチャネルを選択するか、または前記マルチチャネル表現からの２つ以上のオーディオチャネルを結合するように構成され、
前記トランスポート表現生成器（６００）が、前記トランスポートメタデータとして、どの特定の１つもしくは複数の係数信号もしくはオーディオチャネルが選択されたかを示す情報、または前記２つ以上の係数信号もしくはオーディオチャネルがどのように結合されたか、または前記１次アンビソニックスもしくは高次アンビソニックスの係数信号もしくはオーディオチャネルのどれが結合されたか、の情報を生成するように構成される、
請求項１または２に記載の装置。
前記トランスポート表現生成器（６００）が、音響エネルギーの大部分が水平面内に位置するかどうかを判定するように構成されるか、または
無指向性係数信号、Ｘ係数信号およびＹ係数信号のみが、前記判定に応答して、もしくはオーディオ符号器設定に応答して前記トランスポート表現として選択され、
前記トランスポート表現生成器（６００）が、前記トランスポートメタデータを、前記トランスポートメタデータが前記係数信号の前記選択に関する情報を含むように決定するように構成される、
請求項１、２または３のいずれか一項に記載の装置。
前記トランスポート表現生成器（６００）が、音響エネルギーの大部分がｘｚ平面内に位置するかどうかを判定するように構成されるか、または
無指向性係数信号、Ｘ係数信号およびＺ係数信号のみが、前記判定に応答して、もしくはオーディオ符号器設定に応答して前記トランスポート表現として選択され、
前記トランスポート表現生成器（６００）が、前記トランスポートメタデータを、前記トランスポートメタデータが前記係数信号の前記選択に関する情報を含むように決定するように構成される、
請求項１、２、または３のいずれか一項に記載の装置。
前記トランスポート表現生成器（６００）が、音響エネルギーの大部分がｙｚ平面内に位置するかどうかを判定するように構成されるか、または
無指向性係数信号、Ｙ係数信号およびＺ係数信号のみが、前記判定に応答して、もしくはオーディオ符号器設定に応答して前記トランスポート表現として選択され、
前記トランスポート表現生成器（６００）が、前記トランスポートメタデータを、前記トランスポートメタデータが前記係数信号の前記選択に関する情報を含むように決定するように構成される、
請求項１、２、または３のいずれか一項に記載の装置。
前記トランスポート表現生成器（６００）が、優勢な音響エネルギーが、左右の半球や前後の半球などの特定のセクタもしくは半球から発生するかどうかを判定するように構成されるか、または
前記トランスポート表現生成器（６００）が、優勢な音響エネルギーが発生する前記特定のセクタもしくは半球からの、またはオーディオ符号器設定に応答した第１のトランスポート信号、および基準位置と前記特定のセクタもしくは半球とに関して反対方向を有する前記セクタや半球などの異なるセクタもしくは半球からの第２のトランスポート信号を生成するように構成され、
前記トランスポート表現生成器（６００）が、前記トランスポートメタデータを、前記トランスポートメタデータが、前記特定のセクタもしくは半球を識別するか、または前記異なるセクタもしくは半球を識別する情報を含むように決定するように構成される、
請求項１、２、または３のいずれか一項に記載の装置。
前記トランスポート表現生成器（６００）が、第１のトランスポート信号である第１の結果として得られる信号が、特定のセクタまたは半球に向けられた指向性マイクロフォン信号に対応し、第２のトランスポート信号である第２の結果として得られる信号が、異なるセクタまたは半球に向けられた指向性マイクロフォン信号に対応するように前記空間オーディオ表現の係数信号を結合するように構成される、
前記請求項のいずれか一項に記載の装置。
ユーザ入力を受け取るためのユーザインターフェース（６５０）をさらに備え、
前記トランスポート表現生成器（６００）が、前記ユーザインターフェース（６５０）で受け取られた前記ユーザ入力に基づいて前記トランスポート表現を生成するように構成され、
前記トランスポート表現生成器（６００）が、前記トランスポートメタデータを、前記トランスポートメタデータが前記ユーザ入力に関する情報を有するように生成するように構成される、
前記請求項のいずれか一項に記載の装置。
前記トランスポート表現生成器（６００）が、前記トランスポート表現および前記トランスポートメタデータを、時変的または周波数に依存する方法で生成して、第１のフレームの前記トランスポート表現および前記トランスポートメタデータが第２のフレームの前記トランスポート表現および前記トランスポートメタデータと異なるようにするか、または第１の周波数帯域の前記トランスポート表現および前記トランスポートメタデータが第２の異なる周波数帯域のトランスポート表現および前記トランスポートメタデータと異なるようにする、ように構成される、
前記請求項のいずれか一項に記載の装置。
前記トランスポート表現生成器（６００）が、前記空間オーディオ表現の２つ以上の係数信号の重み付き結合（６０２）によって１つまたは２つのトランスポート信号を生成するように構成され、
前記トランスポート表現生成器（６００）が、前記トランスポートメタデータを、前記トランスポートメタデータが、前記重み付き結合で使用される重みに関する情報、または生成された指向性マイクロフォン信号の視線方向としての方位角および／もしくは仰角に関する情報、または指向性マイクロフォン信号の指向特性を示す形状パラメータに関する情報を含むように計算するように構成される
前記請求項のいずれか一項に記載の装置。
前記トランスポート表現生成器（６００）が、量的なトランスポートメタデータを生成し、前記量的なトランスポートメタデータを量子化して（６０５ａ）量子化されたトランスポートメタデータを取得し、前記量子化されたトランスポートメタデータをエントロピー符号化する（６０５ｂ）ように構成され、前記出力インターフェース（６４０）が、前記符号化されたトランスポートメタデータを前記符号化されたオーディオ信号に含めるように構成される、
前記請求項のいずれか一項に記載の装置。
前記トランスポート表現生成器（６００）が、前記トランスポートメタデータをテーブルインデックスまたはプリセットパラメータに変換するように構成され、
前記出力インターフェース（６４０）が、前記テーブルインデックスまたは前記プリセットパラメータを前記符号化されたオーディオ信号に含めるように構成される、
請求項１から１１のいずれか一項に記載の装置。
前記空間オーディオ表現が、少なくとも２つのオーディオ信号および空間パラメータを含み、
パラメータプロセッサ（６２０）が、前記空間オーディオ表現から前記空間パラメータを抽出することによって前記空間オーディオ表現から前記空間パラメータを導出するように構成され、
前記出力インターフェース（６４０）が、前記空間パラメータに関する情報を前記符号化されたオーディオ信号に含めるか、もしくは前記空間パラメータから導出された処理された空間パラメータに関する情報を前記符号化されたオーディオ信号に含めるように構成され、または
前記トランスポート表現生成器（６００）が、前記トランスポート表現として前記少なくとも２つのオーディオ信号のサブセットを選択し、前記トランスポートメタデータを、前記トランスポートメタデータが前記サブセットの前記選択を示すように生成するか、または前記少なくとも２つのオーディオ信号もしくは前記少なくとも２つのオーディオ信号のサブセットを結合し、前記トランスポートメタデータを、前記トランスポートメタデータが、前記空間オーディオ表現の前記トランスポート表現を計算するために行われた前記オーディオ信号の前記結合に関する情報を含むように計算するように構成される、
前記請求項のいずれか一項に記載の装置。
前記空間オーディオ表現が、マイクロフォン配列によって取得された少なくとも２つのマイクロフォン信号のセットを含み、
前記トランスポート表現生成器（６００）が、前記マイクロフォン配列の特定の位置または特定のマイクロフォンと関連付けられた１つまたは複数の特定のマイクロフォン信号を選択するように構成され、
前記トランスポートメタデータが、前記特定の位置もしくは前記特定のマイクロフォンに関するか、または選択されたマイクロフォン信号と関連付けられた位置間のマイクロフォン距離に関する情報、または選択されたマイクロフォン信号と関連付けられたマイクロフォンのマイクロフォンの向きに関する情報、または選択されたマイクロフォンと関連付けられたマイクロフォン信号のマイクロフォン指向性パターンに関する情報を含む、
前記請求項のいずれか一項に記載の装置。
前記トランスポート表現生成器（６００）が、
ユーザインターフェース（６５０）によって受け取られたユーザ入力に従って前記空間オーディオ表現の１つもしくは複数の信号を選択するか、
どの位置がどの音響エネルギーを有するかに関する前記空間オーディオ表現の解析を行い（６０６）、解析結果に従って前記空間オーディオ表現の１つもしくは複数の信号を選択する（６０２）か、または
音源定位を行い、前記音源定位の結果に従って前記空間オーディオ表現の１つもしくは複数の信号を選択する（６０２）
ように構成される
請求項１５に記載の装置。
前記トランスポート表現生成器（６００）が、空間オーディオ表現のすべての信号を選択するように構成され、
前記トランスポート表現生成器（６００）が、前記トランスポートメタデータを、前記トランスポートメタデータが、前記空間オーディオ表現の導出元である、マイクロフォン配列を識別するように生成するように構成される、
請求項１から１５のいずれか一項に記載の装置。
前記トランスポート表現生成器（６００）が、空間フィルタリングまたはビームフォーミングを使用して前記空間オーディオ表現に含まれるオーディオ信号を結合する（６０２）ように構成され、
前記トランスポート表現生成器（６００）が、前記トランスポート表現の前記視線方向に関する情報または前記トランスポート表現を計算する際に使用されたビームフォーミング重みに関する情報を前記トランスポートメタデータに含めるように構成される、
前記請求項のいずれか一項に記載の装置。
前記空間オーディオ表現が、基準位置に関連した音場の記述であり、
パラメータプロセッサ（６２０）が、前記空間オーディオ表現から空間パラメータを導出するように構成され、前記空間パラメータが、前記基準位置における音の到来方向に関する時変的もしくは周波数に依存するパラメータまたは前記基準位置における前記音場の拡散度に関する時変的もしくは周波数に依存するパラメータを定義するか、または
前記トランスポート表現生成器（６００）が、前記トランスポート表現として、前記空間オーディオ表現に含まれる第１の数の個々の信号のよりも少ない第２の数の個々の信号を有するダウンミックス表現を生成するためのダウンミキサ（６０１）を備え、前記ダウンミキサ（６０１）が、前記空間オーディオ表現に含まれる前記個々の信号のサブセットを選択するか、もしくは前記第１の数の信号を前記第２の数の信号まで減らすために前記空間オーディオ表現に含まれる前記個々の信号を結合するように構成される、
前記請求項のいずれか一項に記載の装置。
パラメータプロセッサ（６２０）が、オーディオ信号解析を行うことによって前記空間オーディオ表現から前記空間パラメータを導出するための空間オーディオ解析器（６２１）を備え、
前記トランスポート表現生成器（６００）が、前記空間オーディオ解析器（６２１）の結果に基づいて前記トランスポート表現を生成するように構成されるか、または
前記トランスポート表現生成器（６００）が、前記トランスポート表現の前記トランスポート信号のうちの１つもしくは複数のオーディオ信号をコア符号化するためのコア符号器（６０３）を備えるか、または
前記パラメータプロセッサ（６２０）が、前記空間パラメータを量子化およびエントロピー符号化する（６２２）ように構成され、
前記出力インターフェース（６４０）が、コア符号化されたトランスポート表現（６１１）を前記トランスポート表現に関する前記情報として前記符号化されたオーディオ信号に含めるか、または前記エントロピー符号化された空間パラメータ（６１２）を空間パラメータに関する前記情報として前記符号化されたオーディオ信号に含めるように構成される、
前記請求項のいずれか一項に記載の装置。
符号化されたオーディオ信号を復号するための装置であって、
トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む前記符号化されたオーディオ信号を受け取るための入力インターフェース（７００）と、
前記トランスポート表現に関する前記情報および前記トランスポートメタデータに関する前記情報を使用して空間オーディオ表現を合成するための空間オーディオ合成器（７５０）と
を備える、装置。
前記入力インターフェース（７００）が、空間パラメータに関する情報をさらに含む前記符号化されたオーディオ信号を受け取るように構成され、
前記空間オーディオ合成器（７５０）が、前記空間パラメータに関する前記情報をさらに使用して前記空間オーディオ表現を合成するように構成される、請求項２１に記載の装置。
前記空間オーディオ合成器（７５０）が、
２つ以上の復号されたトランスポート信号を得るために前記トランスポート表現に関する前記情報を表す２つ以上の符号化されたトランスポート信号をコア復号するためのコア復号器（７５１）を備えるか、または
前記空間オーディオ合成器（７５０）が、前記空間オーディオ表現の１次アンビソニックスもしくは高次アンビソニックス表現（７５４）またはマルチチャネル信号（７５５）またはオブジェクト表現（７５６）またはバイノーラル表現を計算するように構成されるか、または
前記空間オーディオ合成器（７５０）が、前記トランスポートメタデータに関する前記情報を復号して前記復号されたトランスポートメタデータ（７２０）を導出するか、もしくは空間パラメータ（７２２）に関する情報を復号して復号された空間パラメータを得るためのメタデータ復号器（７５２）を備える、
請求項２１または２２に記載の装置。
前記空間オーディオ表現が、複数の成分信号を含み、
前記空間オーディオ合成器（７５０）が、前記空間オーディオ表現の成分信号について、前記トランスポート表現（７１１）に関する前記情報および前記トランスポートメタデータ（７１０）に関する前記情報を使用して基準信号を決定し（７６０）、
前記基準信号および空間パラメータに関する情報を使用して前記空間オーディオ表現の前記成分信号を計算する（７７０）か、または前記基準信号を使用して前記空間オーディオ表現の前記成分信号を計算する（７７０）
ように構成される、
請求項２１、２２、または２３のいずれか一項に記載の装置。
前記空間パラメータが、時変的または周波数に依存する到来方向または拡散度パラメータのうちの少なくとも１つを含み、
前記空間オーディオ合成器（７５０）が、前記空間オーディオ表現の前記複数の異なる成分を生成するために前記空間パラメータを使用して方向オーディオコーディング（ＤｉｒＡＣ）合成を行うように構成され、
前記空間オーディオ表現の第１の成分が、前記少なくとも２つのトランスポート信号のうちの１つまたは前記少なくとも２つのトランスポート信号の第１の組合せを使用して決定され、
前記空間オーディオ表現の第２の成分が、前記少なくとも２つのトランスポート信号のうちの別の１つまたは前記少なくとも２つのトランスポート信号の第２の組合せを使用して決定され、
前記空間オーディオ合成器（７５０）が、前記少なくとも２つのトランスポート信号のうちの前記１つもしくは前記別の１つの決定を行う（７６０）か、または前記トランスポートメタデータに従って前記第１の組合せもしくは前記異なる第２の組合せの決定を行う（７６０）ように構成される、
請求項２２から２４のいずれか一項に記載の装置。
前記トランスポートメタデータが、前記空間オーディオ表現の基準位置に関連する第１のセクタもしくは半球を指すものとしての第１のトランスポート信号および前記空間オーディオ表現の前記基準位置に関連する第２の異なるセクタもしくは半球を指すものとしての第２のトランスポート信号を示し、
前記空間オーディオ合成器（７５０）が、前記第１のトランスポート信号を使用し、前記第２のトランスポート信号を使用せずに前記第１のセクタもしくは半球と関連付けられた前記空間オーディオ表現の成分信号を生成する（９１５）ように構成されるか、または前記空間オーディオ合成器（７５０）が、前記第２のトランスポート信号を使用し、前記第１のトランスポート信号を使用せずに前記第２のセクタもしくは半球と関連付けられた前記空間オーディオ表現の別の成分信号を生成する（９１５）ように構成されるか、または
前記空間オーディオ合成器（７５０）が、前記第１のトランスポート信号と前記第２のトランスポート信号の第１の組合せを使用して前記第１のセクタもしくは半球と関連付けられた成分信号を生成する（９１５）か、または前記第１のトランスポート信号と前記第２のトランスポート信号の第２の組合せを使用して異なる第２のセクタもしくは半球と関連付けられた成分信号を生成する（９１５）ように構成され、前記第１の組合せが、前記第２の組合せよりも強い第１のトランスポート信号の影響を受けるか、または前記第２の組合せが、前記第１の組合せよりも強い第２のトランスポート信号の影響を受ける、
請求項２１から２５のいずれか一項に記載の装置。
前記トランスポートメタデータが、前記トランスポート表現のトランスポート信号と関連付けられた指向特性に関する情報を含み、
前記空間オーディオ合成器（７５０）が、１次アンビソニックス信号もしくは高次アンビソニックス信号、スピーカ位置および前記トランスポートメタデータを使用して仮想マイクロフォン信号を計算する（９１１）ように構成されるか、または
空間オーディオ合成器（７５０）が、前記トランスポートメタデータを使用して前記トランスポート信号の前記指向特性を決定し（９１１）、前記トランスポート信号の前記決定された指向特性に従って前記トランスポート信号から１次アンビソニックス成分もしくは高次アンビソニックス成分（７５４）を決定するか、または
フォールバックプロセスに従って前記トランスポート信号の前記指向特性と関連付けられていない１次アンビソニックス成分もしくは高次アンビソニックス成分（７５４）を決定する（９１１）
ように構成される、
請求項２１から２６のいずれか一項に記載の装置。
前記トランスポートメタデータが、第１のトランスポート信号と関連付けられた第１の視線方向に関する情報、および第２のトランスポート信号と関連付けられた第２の視線方向に関する情報を含み、
前記空間オーディオ合成器（７５０）が、前記空間オーディオ表現の成分信号の前記計算のための基準信号を、前記トランスポートメタデータ、および前記空間オーディオ表現の前記成分信号と関連付けられたスピーカの前記位置に基づいて選択する（７７１）ように構成される、
請求項２１から２７のいずれか一項に記載の装置。
前記第１の視線方向が左半球または前半球を示し、前記第２の視線方向が右半球または後半球を示し、
前記左半球内のスピーカの成分信号の前記計算に、前記第２のトランスポート信号ではなく前記第１のトランスポート信号が使用される（７７１）か、または前記右半球内のスピーカの成分信号の前記計算に、前記第１のトランスポート信号ではなく前記第２のトランスポート信号が使用される（７７１）か、または
前半球内のスピーカの前記計算に、前記第２のトランスポート信号ではなく前記第１のトランスポート信号が使用される（７７１）か、または後半球内のスピーカの前記計算に、前記第１のトランスポート信号ではなく前記第２のトランスポート信号が使用される（７７１）か、または
中央領域内のスピーカの前記計算に、前記左トランスポート信号と前記第２のトランスポート信号の組合せが使用される（７７１）か、または前記前半球と前記後半球との間の領域内のスピーカと関連付けられたスピーカ信号の前記計算に、前記第１のトランスポート信号と前記第２のトランスポート信号の組合せが使用される（７７１）、
請求項２８に記載の装置。
前記トランスポートメタデータに関する前記情報が、第１の視線方向として、左トランスポート信号の左方向を示し、第２の視線方向として、第２のトランスポート信号の右視線方向を示し、
前記空間オーディオ合成器（７５０）が、前記第１のトランスポート信号と前記第２のトランスポート信号とを加算する（９２０）ことによって第１のアンビソニックス成分を計算するか、または前記第１のトランスポート信号と前記第２のトランスポート信号とを減算する（９２１）ことによって第２のアンビソニックス成分を計算するように構成されるか、または前記第１のトランスポート信号と前記第２のトランスポート信号の和を使用して別のアンビソニックス成分が計算される（９２２）、
請求項２１から２９のいずれか一項に記載の装置。
前記トランスポートメタデータが、第１のトランスポート信号に、前視線方向を示し、第２のトランスポート信号に、後視線方向を示し、
前記空間オーディオ合成器（７５０）が、前記第１のトランスポート信号と前記第２のトランスポート信号との差（９２１）の前記計算を行うことによってｘ方向の１次アンビソニックス成分を計算し、前記第１のトランスポート信号と前記第２のトランスポート信号の加算（９２０）を使用して無指向性の１次アンビソニックス成分を計算し、
前記第１のトランスポート信号と前記第２のトランスポート信号の和を使用して別の１次アンビソニックス成分を計算する（９２２）
ように構成される、
請求項２１から２７のいずれか一項に記載の装置。
前記トランスポートメタデータが、重み係数または前記トランスポート表現のトランスポート信号の視線方向に関する情報を示し、
前記空間オーディオ合成器（７５０）が、前記視線方向もしくは前記重み係数に関する前記情報を使用し、前記トランスポート信号および前記空間パラメータを使用して、前記空間オーディオ表現の異なる１次アンビソニックス成分を計算する（９３２）ように構成されるか、または前記空間オーディオ合成器（７５０）が、前記視線方向もしくは前記重み係数に関する前記情報を使用し、前記トランスポート信号を使用して、前記空間オーディオ表現の異なる１次アンビソニックス成分を計算する（９３２）ように構成される、
請求項２１から２６のいずれか一項に記載の装置。
前記トランスポートメタデータが、２つの異なる位置にあるか、もしくは異なる視線方向を有するマイクロフォン信号から導出される前記トランスポート信号に関する情報を含み、
前記空間オーディオ合成器（７５０）が、スピーカ位置に最も近い位置を有する基準信号を選択する（９３１）か、もしくは前記空間オーディオ表現の基準位置およびスピーカ位置からの前記方向に対して最も近い視線方向を有する基準信号を選択する（９３２）ように構成されるか、または
前記空間オーディオ合成器（７５０）が、前記トランスポートメタデータによって示される２つの視線方向の間に配置されているスピーカの基準信号を決定するために前記トランスポート信号との線形結合を行う（７７１）ように構成される、
請求項２１から３２のいずれか一項に記載の装置。
前記トランスポートメタデータが、前記トランスポート信号と関連付けられたマイクロフォン位置間の距離に関する情報を含み、
前記空間オーディオ合成器（７５０）が、拡散信号生成器（８３０、８２３、８２４）を備え、前記拡散信号生成器（８３０、８２３、８２４）が、前記距離に関する前記情報を使用して前記拡散信号生成器によって生成された拡散信号中の無相関化信号の量を制御して、第１の距離では、前記拡散信号に、第２の距離での無相関化信号の量と比較して多い量の無相関化信号が含まれるようにするように構成され、前記第１の距離が前記第２の距離よりも小さいか、または
前記空間オーディオ合成器（７５０）が、前記マイクロフォン位置間の第１の距離について、基準信号もしくはスケーリングされた基準信号を無相関化するように構成された無相関化フィルタ（８２３）の出力信号と、音の到来方向情報から導出された利得を使用して重み付けされた前記基準信号（８２２）とを使用して、前記空間オーディオ表現の成分信号を計算し、前記マイクロフォン位置間の第２の距離について、無相関化処理なしで音の到来方向情報から導出された利得を使用して重み付けされた前記基準信号（８２２）を使用して、前記空間オーディオ表現の成分信号を計算するように構成され、前記第２の距離が前記第１の距離よりも大きいか、もしくは距離閾値よりも大きい、
請求項２１から３３のいずれか一項に記載の装置。
前記トランスポートメタデータが、前記トランスポート表現の前記トランスポート信号と関連付けられたビームフォーミングまたは空間フィルタリングに関する情報を含み、
前記空間オーディオ合成器（７５０）が、前記空間オーディオ表現の基準位置から前記スピーカへの視線方向に最も近い視線方向を有する前記トランスポート信号を使用してスピーカのためのスピーカ信号を生成する（９３２）ように構成される、
請求項２１から３４のいずれか一項に記載の装置。
前記空間オーディオ合成器（７５０）が、前記空間オーディオ表現の成分信号を、直接音成分と拡散音成分との結合（８２５）として決定するように構成され、前記直接音成分が、拡散度パラメータまたは方向パラメータに依存する係数で基準信号をスケーリングする（８２２）ことによって得られ、前記方向パラメータが音の到来方向に依存し、前記基準信号の前記決定が、前記トランスポートメタデータに関する前記情報に基づいて行われ（８２１、７６０）、前記拡散音成分が、前記同じ基準信号および前記拡散度パラメータを使用して決定される（８２３、８２４）、
請求項２１から３５のいずれか一項に記載の装置。
前記空間オーディオ合成器（７５０）が、前記空間オーディオ表現の成分信号を、直接音成分と拡散音成分との結合（８２５）として決定するように構成され、前記直接音成分が、拡散度パラメータまたは方向パラメータに依存する係数で基準信号をスケーリングする（８２２）ことによって得られ、前記方向パラメータが音の到来方向に依存し、前記基準信号の前記決定が、前記トランスポートメタデータに関する前記情報に基づいて行われ（８２１、７６０）、前記拡散音成分が、無相関化フィルタ（８２３）、前記同じ基準信号、および前記拡散度パラメータを使用して決定される（８２３、８２４）、
請求項２１から３６のいずれか一項に記載の装置。
前記トランスポート表現が、少なくとも２つの異なるマイクロフォン信号を含み、
前記トランスポートメタデータが、前記少なくとも２つの異なるマイクロフォン信号が、無指向性信号、双極信号またはカージオイド信号のうちの少なくとも１つであるかどうかを示す情報を含み、
前記空間オーディオ合成器が、前記空間オーディオ表現の成分について、個々の基準信号を決定するために、基準信号の決定を前記トランスポートメタデータに適応させ（９１５）、
前記それぞれの成分を、前記それぞれの成分に決定された前記個々の基準信号を使用して計算する（９１６）ように構成される、
請求項２１から３７のいずれか一項に記載の装置。
符号化されたオーディオ信号を得るためにオーディオシーンを表す空間オーディオ表現を符号化するための方法であって、前記方法が、
前記空間オーディオ表現からトランスポート表現を生成することと、
前記トランスポート表現の前記生成に関連する、または前記トランスポート表現の１つもしくは複数の指向特性を示すトランスポートメタデータを生成することと、
前記符号化されたオーディオ信号を生成することであって、前記符号化されたオーディオ信号が前記トランスポート表現に関する情報および前記トランスポートメタデータに関する情報を含む、ことと
を含む、方法。
前記空間オーディオ表現から空間パラメータを導出することをさらに含み、前記符号化されたオーディオ信号が、前記空間パラメータに関する情報をさらに含む、請求項３９に記載の方法。
符号化されたオーディオ信号を復号するための方法であって、前記方法が、
トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む前記符号化されたオーディオ信号を受け取ることと、
前記トランスポート表現に関する前記情報および前記トランスポートメタデータに関する前記情報を使用して空間オーディオ表現を合成することと
を含む、方法。
空間パラメータに関する情報を受け取ることをさらに含み、前記合成することが、前記空間パラメータに関する前記情報をさらに使用する、請求項４１に記載の方法。
コンピュータまたはプロセッサ上で動作するときに、請求項３９から４２のいずれか一項に記載の方法を行うためのコンピュータプログラム。
空間オーディオ表現のトランスポート表現（６１１）に関する情報と、
トランスポートメタデータ（６１０）に関する情報と
を含む、符号化されたオーディオ信号。
前記トランスポート表現（６１１）と関連付けられた空間パラメータ（６１２）に関する情報をさらに含む、請求項４４に記載の符号化されたオーディオ信号。