JP6067935B2

JP6067935B2 - 回転された高次アンビソニックスのバイノーラル化

Info

Publication number: JP6067935B2
Application number: JP2016516820A
Authority: JP
Inventors: モッレル、マーティン・ジェームス; セン、ディパンジャン; ピーターズ、ニルス・ガンザー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-05-29
Filing date: 2014-05-29
Publication date: 2017-01-25
Anticipated expiration: 2034-05-29
Also published as: WO2014194088A2; EP3005738A2; KR101723332B1; US20140355766A1; JP2016523467A; WO2014194088A3; KR20160015284A; CN105325015B; US9384741B2; CN105325015A; EP3005738B1

Description

優先権の主張
[0001]本出願は、２０１３年５月２９日に出願された米国仮特許出願第６１／８２８，３１３号の利益を主張するものである。

[0002]本開示は、オーディオレンダリングに関し、より具体的には、オーディオデータのバイノーラルレンダリング（binaural rendering）に関する。

[0003]一般に、回転された高次アンビソニックス（ＨＯＡ）のバイノーラルオーディオレンダリングのための技法が説明される。

[0004]一例として、バイノーラルオーディオレンダリングの方法は、変換情報を取得することと、この変換情報は、複数の階層的な要素の数を減少された複数の階層的な要素に減少させるために音場がどのように変換されたかについて説明する、この変換情報に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行することとを備える。

[0005]別の例では、デバイスは、変換情報を取得し、この変換情報は、複数の階層的な要素の数を減少された複数の階層的な要素に減少させるために音場がどのように変換されたかについて説明する、この変換情報に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行するように構成された１つまたは複数のプロセッサを備える。

[0006]別の例では、装置は、変換情報を取得するための手段と、この変換情報は、複数の階層的な要素の数を減少された複数の階層的な要素に減少させるために音場がどのように変換されたかについて説明する、この変換情報に基づいて、減少された複数の階層的な要素に対して前記バイノーラルオーディオレンダリングを実行するための手段とを備える。

[0007]別の例では、非一時的コンピュータ可読記憶媒体は、実行されると、１つまたは複数のプロセッサを、変換情報を取得し、この変換情報は、複数の階層的な要素の数を減少された複数の階層的な要素に減少させるために音場がどのように変換されたかについて説明する、この変換情報に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行するように構成する、その上に記憶された命令を備える。

[0008]技法の１つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。これらの技法の他の特徴、目的、および利点は、説明および図面から、ならびに特許請求の範囲から、明らかになろう。

[0009]様々な次数および副次数の球面調和基底関数を示す図。様々な次数および副次数の球面調和基底関数を示す図。 [0010]本開示において説明される技法の様々な態様を実施し得るシステムを示す図。 [0011]本開示において説明される技法の様々な態様を実施し得るシステムを示す図。 [0012]本開示において説明される技法の様々な態様を実施し得るオーディオ符号化デバイスを示すブロック図。本開示において説明される技法の様々な態様を実施し得るオーディオ符号化デバイスを示すブロック図。 [0013]本開示において説明されるバイノーラルオーディオレンダリング技法の様々な態様を実行し得るオーディオ再生デバイスの一例を示すブロック図。本開示において説明されるバイノーラルオーディオレンダリング技法の様々な態様を実行し得るオーディオ再生デバイスの一例を示すブロック図。 [0014]本開示において説明される技法の様々な態様によるオーディオ符号化デバイスによって実行される例示的な動作のモードを示す流れ図。 [0015]本開示において説明される技法の様々な態様によるオーディオ再生デバイスによって実行される例示的な動作のモードを示す流れ図。 [0016]本開示において説明される技法の様々な態様を実行し得るオーディオ符号化デバイスの別の例を示すブロック図。 [0017]図９の例に示されるオーディオ符号化デバイスの例示的な実装形態をより詳細に示すブロック図。 [0018]音場を回転させるために本開示において説明される技法の様々な態様を実行する一例を示す図。音場を回転させるために本開示において説明される技法の様々な態様を実行する一例を示す図。 [0019]第１の基準フレームに従って捕捉され、次いで第２の基準フレームに対して音場を表すために本開示において説明される技法に従って回転される例示的な音場を示す図である。 [0020]本開示において説明される技法に従って形成されるビットストリームを示す図。本開示において説明される技法に従って形成されるビットストリームを示す図。本開示において説明される技法に従って形成されるビットストリームを示す図。本開示において説明される技法に従って形成されるビットストリームを示す図。本開示において説明される技法に従って形成されるビットストリームを示す図。 [0021]本開示において説明される技法の回転態様を実施する際の図９の例に示されるオーディオ符号化デバイスの例示的な動作を示す流れ図である。 [0022]本開示において説明される技法の変換態様を実行する際の図９の例に示されるオーディオ符号化デバイスの例示的な動作を示す流れ図である。

[0023]図およびテキストの全体を通して、同じ参照文字は同じ要素を示す。

[0024]サラウンドサウンドの進化は、今日の娯楽のための多くの出力フォーマットを利用可能にしてきた。そのような家庭用サラウンドサウンドフォーマットは、ある特定の幾何学的座標のラウドスピーカー（loudspeakers）に対するフィードを黙示的に指定するので、これらのフォーマットの例は、たいてい「チャンネル」ベースである。これらには、一般的な５．１フォーマット（これは、フロントレフト（ＦＬ）と、フロントライト（ＦＲ）と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果（ＬＦＥ）という、６つのチャンネルを含む）、発展中の７．１フォーマット、７．１．４フォーマットおよび２２．２フォーマット（たとえば、超高精細テレビ規格で使用するための）などのハイトスピーカーを含む様々なフォーマットがある。非家庭用フォーマットは、「サラウンドアレイ」と呼ばれることが多い、（対称的な幾何学的配置および非対称的な幾何学的配置をした）任意の数のスピーカーにまたがることができる。そのようなアレイの一例としては、切頂二十面体のコーナー上の座標に位置決めされた３２のラウドスピーカーがある。

[0025]将来のＭＰＥＧエンコーダへの入力は、任意選択で、次の３つの可能なフォーマットすなわち（ｉ）あらかじめ指定された位置でラウドスピーカーによって再生されることを意味する、従来のチャンネルベースオーディオ（上記で説明された）、（ｉｉ）（様々な情報の中でも）ロケーション座標を含む関連付けられたメタデータを有する単一オーディオオブジェクトのための離散的なパルス符号変調（ＰＣＭ）データを含むオブジェクトベースオーディオ、および（ｉｉｉ）球面調和基底関数の係数（「球面調和係数（spherical harmonic coefficients）」すなわちＳＨＣと、「高次アンビソニックス（Higher Order Ambisonics）」すなわちＨＯＡと、「ＨＯＡ係数」とも呼ばれる）を使用して音場を表すことを含むシーンベースオーディオのうち１つである。この将来のＭＰＥＧエンコーダは、国際標準化機構／国際電気標準会議（ＩＳＯ）／（ＩＥＣ）のＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ１３４１１による「ＣａｌｌｆｏｒＰｒｏｐｏｓａｌｓｆｏｒ３ＤＡｕｄｉｏ」という名称の文書において、より詳細に説明され得る。この文書は、２０１３年１月にスイスのジュネーブで発表され、ｈｔｔｐ：／／ｍｐｅｇ．ｃｈｉａｒｉｇｌｉｏｎｅ．ｏｒｇ／ｓｉｔｅｓ／ｄｅｆａｕｌｔ／ｆｉｌｅｓ／ｆｉｌｅｓ／ｓｔａｎｄａｒｄｓ／ｐａｒｔｓ／ｄｏｃｓ／ｗ１３４１１．ｚｉｐで入手可能である。

[0026]市場には様々な「サラウンドサウンド」チャンネルベースのフォーマットがある。これらのフォーマットは、たとえば、５．１ホームシアターシステム（リビングルームへの進出を行うという点でステレオ以上に最も成功した）からＮＨＫ（ＮｉｐｐｏｎＨｏｓｏＫｙｏｋａｉすなわち日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ作成者（たとえば、ハリウッドスタジオ）は、一度に映画のサウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、標準策定機関が、標準化されたビットストリームへの符号化と、スピーカーの幾何学的配置（と数）および（レンダラ（renderer）を必要とする）再生の位置における音響条件に適合可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。

[0027]コンテンツ作成者に対するそのような柔軟性を提供するために、階層的な要素のセットが音場を表すために使用され得る。階層的な要素のセットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。このセットがより高次の要素を含むように拡張されるにつれて、表現はより詳細なものになり、分解能を増加させる。

[0028]階層的な要素のセットの一例は、球面調和係数（ＳＨＣ）のセットである。次の式は、ＳＨＣを使用した音場の記述または表現を示す。

[0029]この式は、時刻ｔにおける音場の任意の点｛ｒ_r，θ_r，φ_r｝における圧力ｐ_iがＳＨＣ

によって一意に表現可能であることを示す。ここで、

、ｃは音の速さ（約３４３ｍ／ｓ）、｛ｒ_r，θ_r，φ_r｝は基準の点（または観測点）、ｊ_n（・）は次数ｎの球ベッセル関数、

は次数ｎおよび副次数ｍの球面調和基底関数である。角括弧内の項は、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換などの様々な時間周波数変換によって近似可能な信号の周波数領域表現（すなわち、Ｓ（ω，ｒ_r，θ_r，φ_r）である）ことが認識できよう。階層的なセットの他の例は、ウェーブレット変換の係数のセットと、多分解能ベースの関数の係数の他のセットとを含む。

[0030]図１は、ゼロ次（ｎ＝０）から第４次（ｎ＝４）までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図１の例では明示的に示されていない下位次数ｍの拡張が存在する。

[0031]図２は、ゼロ次（ｎ＝０）から第４次（ｎ＝４）までの球面調和基底関数を示す別の図である。図２では、球面調和ベースの関数は、示される次数と副次数の両方を伴う３次元座標空間において示される。

[0032]ＳＨＣ

は、様々なマイクロフォンアレイ構成によって物理的に取得（たとえば、記録）されることが可能であり、または代替的に、音場のチャンネルベースの記述またはオブジェクトベースの記述から導出されることが可能である。ＳＨＣはシーンベースオーディオを表し、より効率的な送信または記憶を促進し得る符号化されたＳＨＣを取得するためにＳＨＣがオーディオエンコーダに入力され得る。たとえば、（１＋４）²（２５、したがって第４次）係数を含む第４次の表現が使用され得る。

[0033]前述のように、ＳＨＣは、マイクロフォンを使用するマイクロフォン記録から導出され得る。どのようにしてＳＨＣがマイクロフォンアレイから導出され得るかについての様々な例は、Ｐｏｌｅｔｔｉ，Ｍ．、「Ｔｈｒｅｅ−ＤｉｍｅｎｓｉｏｎａｌＳｕｒｒｏｕｎｄＳｏｕｎｄＳｙｓｔｅｍｓＢａｓｅｄｏｎＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓ」、Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．、第５３巻、第１１号、２００５年１１月、１００４〜１０２５ページに記載されている。

[0034]これらのＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場に対する係数

は

と表され得る。

[0035]ここで、ｉは

は、次数ｎの（第２種の）球ハンケル関数、｛ｒ_s，θ_s，φ_s｝はオブジェクトのロケーションである。オブジェクトソースエネルギーｇ（ω）を（たとえば、ＰＣＭストリームに対して高速フーリエ変換を実行するなどの時間周波数分析技法を使用する）周波数の関数と捉えることによって、各ＰＣＭオブジェクトとそのロケーションとをＳＨＣ

に変換することができる。さらに、各オブジェクトに対する

係数は付加的であることが（上式は線形であり直交方向の分解であるので）示され得る。このようにして、多数のＰＣＭオブジェクトが

係数によって（たとえば、個々のオブジェクトに対する係数ベクトルの和として）表され得る。本質的に、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含み、上記は、観測点｛ｒ_r，θ_r，φ_r｝の近傍における、個々のオブジェクトから全体的音場の表現への変換を表す。残りの数字は、以下でオブジェクトベースオーディオコーディングおよびＳＨＣベースオーディオコーディングの文脈で説明される。

[0036]図３は、本開示において説明される技法の様々な態様を実行し得るシステム１０を示す図である。図３の例に示されるように、システム１０は、コンテンツ作成者１２と、コンテンツ消費者１４とを含む。コンテンツ作成者１２およびコンテンツ消費者１４の文脈で説明されているが、技法は、オーディオデータを表すビットストリームを形成するためにＳＨＣ（ＨＯＡ係数とも呼ばれることがある）または音場の任意の他の階層的表現が符号化される任意の文脈で実施されてよい。その上、コンテンツ作成者１２は、数例を提供するとハンドセット（またはセルラー式電話）、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示において説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表すことができ得る。同様に、コンテンツ消費者１４は、数例を提供するとハンドセット（またはセルラー式電話）、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示において説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表すことができ得る。

[0037]コンテンツ作成者１２は、コンテンツ消費者１４などのコンテンツ消費者による消費のためのマルチチャンネルオーディオコンテンツを生成し得る映画撮影所または他のエンティティを表すことができ得る。いくつかの例では、コンテンツ作成者１２は、ＨＯＡ係数１１を圧縮することを望む個々のユーザを表すことができ得る。多くの場合、このコンテンツ作成者は、ビデオコンテンツとともに、オーディオコンテンツを生成する。コンテンツ消費者１４は、オーディオ再生システムへのアクセス権を所有するまたは有する個人を表し、このオーディオ再生システムは、オーディオコンテンツマルチチャンネルとしての再生のためにＳＨＣをレンダリングすることが可能な任意の形態のオーディオ再生システムを指すことがある。図３の例では、コンテンツ消費者１４は、オーディオ再生システム１６を含む。

[0038]コンテンツ作成者１２は、オーディオ編集システム１８を含む。コンテンツ作成者１２は、様々なフォーマット（ＨＯＡ係数として直接的に含む）のライブ記録７とオーディオオブジェクト９とを取得し、コンテンツ作成者１２は、オーディオ編集システム１８を使用して、これらを編集することができ得る。コンテンツ作成者は、編集プロセス中に、オーディオオブジェクト９からのＨＯＡ係数１１をレンダリングし、さらなる編集を必要とする音場の様々な面（aspect）を識別しようとするレンダリングされたスピーカーフィードをリッスンすること（listening）ができ得る。コンテンツ作成者１２は、次いで、（潜在的には、上記で説明された様式でソースＨＯＡ係数が導出され得るオーディオオブジェクト９のうち異なるオブジェクトの操作によって、間接的に）ＨＯＡ係数１１を編集することができ得る。コンテンツ作成者１２は、ＨＯＡ係数１１を生成するためにオーディオ編集システム１８を用いることができ得る。オーディオ編集システム１８は、オーディオデータを編集し、このオーディオデータを１つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。

[0039]編集プロセスが完了すると、コンテンツ作成者１２は、ＨＯＡ係数１１に基づいてビットストリーム３を生成することができ得る。すなわち、コンテンツ作成者１２は、ビットストリーム３を生成するために本開示において説明される技法の様々な態様に従ってＨＯＡ係数１１を符号化または圧縮するように構成されたデバイスを表すオーディオ符号化デバイス２を含む。オーディオ符号化デバイス２は、一例として、ワイヤードチャンネルであってもワイヤレスチャンネルであってもデータストレージデバイスなどであってもよい送信チャンネルにまたがる、送信のためにビットストリーム３を生成することができ得る。ビットストリーム３は、ＨＯＡ係数１１の符号化されたバージョンを表すことができ得、プライマリビットストリームと、サイドチャンネル情報と呼ばれることがある別のサイドビットストリームとを含むことができ得る。

[0040]以下でより詳細に説明されるが、オーディオ符号化デバイス２は、ベクトルベース合成または方向性ベース合成に基づいてＨＯＡ係数１１を符号化するように構成され得る。ベクトルベース合成法と方向性ベース合成法のどちらを実行するべきか決定するために、オーディオ符号化デバイス２は、ＨＯＡ係数１１に少なくとも部分的に基づいて、ＨＯＡ係数１１が音場の自然な記録（たとえば、ライブ記録７）を介して生成されたのかまたは一例としてＰＣＭオブジェクトなどのオーディオオブジェクト９から人工的に（すなわち、合成して）生成されたのか決定することができ得る。ＨＯＡ係数１１が生成されたフォームのオーディオオブジェクト９であったとき、オーディオ符号化デバイス２は、方向性ベース合成法を使用してＨＯＡ係数１１を符号化することができ得る。ＨＯＡ係数１１が、たとえばＥｉｇｅｎｍｉｋｅを使用してライブで捕捉されたとき、オーディオ符号化デバイス２は、ベクトルベース合成法に基づいてＨＯＡ係数１１を符号化することができ得る。上記の差異は、ベクトルベース合成法または方向性ベース合成法がどこで展開され得るかの一例を表す。ベクトルベース合成法または方向性ベース合成法のいずれかまたは両方が自然な記録、人工的に生成されたコンテンツ、またはこの２つの混合物（ハイブリッドコンテンツ）にとって有用であり得る他の場合もあり得る。その上、ＨＯＡ係数の単一の時間フレームをコーディングするために両方の方法を同時に使用することも可能である。

[0041]説明のために、オーディオ符号化デバイス２が、ＨＯＡ係数１１がライブで捕捉されたまたはライブ記録７などのライブ記録を表すと決定すると仮定すると、オーディオ符号化デバイス２は、線形可逆変換（ＬＩＴ：linear invertible transform）の適用を必要とするベクトルベース合成法を使用してＨＯＡ係数１１を符号化するように構成され得る。線形可逆変換の一例は、「特異値分解」（すなわち「ＳＶＤ」）と呼ばれる。この例では、オーディオ符号化デバイス２は、ＨＯＡ係数１１の分解されたバージョンを決定するために、ＨＯＡ係数１１にＳＶＤを適用することができ得る。オーディオ符号化デバイス２は、次いで、様々なパラメータを識別するために、このＨＯＡ係数１１の分解されたバージョンを分析してよく、これは、ＨＯＡ係数１１の分解されたバージョンのレンダリングを容易にすることができ得る。オーディオ符号化デバイス２は、次いで、識別されたパラメータに基づいてＨＯＡ係数１１の分解されたバージョンを再配列する（reorder）ことができ得る。変換はＨＯＡ係数のフレームにわたってＨＯＡ係数を再配列することができ得る（ここで、１つのフレームは通常、ＨＯＡ係数１１のＭ個のサンプルを含み、Ｍは、いくつかの例では、１０２４に設定される）ことを考えると、そのような再配列は、以下でより詳細に説明されるように、コーディング効率を改善することができ得る。ＨＯＡ係数１１の分解されたバージョンを再配列した後、オーディオ符号化デバイス２は、ＨＯＡ係数１１の分解されたバージョンのうち、音場のフォアグラウンド（または、言い換えれば、別個の、主な、または目立つ）成分を表すものを選択することができ得る。オーディオ符号化デバイス２は、フォアグラウンド成分を表すＨＯＡ係数１１の分解されたバージョンを、オーディオオブジェクトおよび関連付けられた方向性情報として指定することができ得る。

[0042]オーディオ符号化デバイス２はまた、少なくとも部分的に、ＨＯＡ係数１１のうち、音場の１つまたは複数のバックグラウンド（または、言い換えれば、周囲）成分を表すものを識別するために、ＨＯＡ係数１１に対して音場分析を実行することができ得る。いくつかの例では、バックグラウンド成分はＨＯＡ係数１１の任意の所与のサンプルのサブセットのみを含み得る（たとえば、ゼロ次球面基底関数および１次球面基底関数に対応するＨＯＡ係数などであり、２次球面基底関数または高次球面基底関数に対応するＨＯＡ係数は含まない）ことを考えると、オーディオ符号化デバイス２は、バックグラウンド成分に対してエネルギー補償を実行することができ得る。言い換えれば、次数減少が実行されるとき、オーディオ符号化デバイス２は、次数減少を実行することから生じる全体的エネルギーの変化を補償するために、ＨＯＡ係数１１のうち残りのバックグラウンドＨＯＡ係数を増加させる（たとえば、これに／からエネルギーを追加する／減ずる）ことができ得る。

[0043]オーディオ符号化デバイス２は、次に、バックグラウンド成分を表すＨＯＡ係数１１の各々およびフォアグラウンドオーディオオブジェクトの各々に対して、心理音響学的符号化の一形態（ＭＰＥＧサラウンド、ＭＰＥＧ−ＡＡＣ、ＭＰＥＧ−ＵＳＡＣなど、または心理音響学的符号化の他の既知の形態）を実行することができ得る。オーディオ符号化デバイス２は、フォアグラウンド方向性情報に対して補間の一形態を実行し、次いで、次数の削減されたフォアグラウンド方向性情報を生成するために、補間されたフォアグラウンド方向性情報に対して次数減少を実行することができ得る。オーディオ符号化デバイス２は、いくつかの例では、次数の削減されたフォアグラウンド方向性情報に対して量子化をさらに実行し、コーディングされたフォアグラウンド方向性情報を出力することができ得る。いくつかの例では、この量子化は、スカラー／エントロピー量子化を備えることができ得る。オーディオ符号化デバイス２は、次いで、符号化されたバックグラウンド成分と、符号化されたフォアグラウンドオーディオオブジェクトと、量子化された方向性情報とを含むために、ビットストリーム３を形成することができ得る。オーディオ符号化デバイス２は、次いで、コンテンツ消費者１４にビットストリーム３を送信または出力することができ得る。

[0044]図３ではコンテンツ消費者１４に直接的に送信されているように示されているが、コンテンツ作成者１２は、コンテンツ作成者１２とコンテンツ消費者１４の間に位置決めされた中間デバイスにビットストリーム３を出力することができ得る。この中間デバイスは、ビットストリーム３を要求することがあるコンテンツ消費者１４に後で配信するために、このビットストリームを記憶することができる。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにビットストリーム３を記憶することが可能な任意の他のデバイスを備えることができる。この中間デバイスは、ビットストリーム３を要求するコンテンツ消費者１４などの加入者に（おそらくは対応するビデオデータストリームを送信することとともに）ビットストリーム３をストリーミングすることが可能なコンテンツ配信ネットワークに存在してもよい。

[0045]代替的に、コンテンツ作成者１２は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にビットストリーム３を格納することができ得、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。この文脈において、送信チャンネルは、これらの媒体に格納されたコンテンツが送信されるチャンネルを指すことがある（および、小売店と他の店舗ベースの配信機構とを含み得る）。したがって、いずれにしても、本開示の技法は、この点に関して図３の例に限定されるべきではない。

[0046]図３の例にさらに示されるように、コンテンツ消費者１４は、オーディオ再生システム１６を含む。オーディオ再生システム１６は、マルチチャンネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表すことができ得る。オーディオ再生システム１６は、いくつかの異なるレンダラ５を含むことができ得る。レンダラ５は各々、異なる形態のレンダリングを提供することができ得、異なる形態のレンダリングは、ｖｅｃｔｏｒ−ｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ（ＶＢＡＰ）を実行する様々な方法のうち１つもしくは複数および／または音場合成を実行する様々な方法のうち１つもしくは複数を含むことができ得る。本明細書で使用されるとき、「Ａおよび／またはＢ」は、「ＡまたはＢ」、または「ＡおよびＢ」の両方を意味する。

[0047]オーディオ再生システム１６は、オーディオ復号デバイス４をさらに含むことができ得る。オーディオ復号デバイス４は、ビットストリーム３からＨＯＡ係数１１’を復号するように構成されたデバイスを表すことができ得、ＨＯＡ係数１１’は、ＨＯＡ係数１１に類似してよいが、非可逆的動作（たとえば、量子化）および／または送信チャンネルを介した送信により異なってもよい。すなわち、オーディオ復号デバイス４は、ビットストリーム３において指定される情報フォアグラウンド方向性を逆量子化することができ得るが、ビットストリーム３において指定されるフォアグラウンドオーディオオブジェクトおよびバックグラウンド成分を表す符号化されたＨＯＡ係数に対して心理音響学的復号を実行することもでき得る。オーディオ復号デバイス４は、復号されたフォアグラウンド方向性情報に対して補間をさらに実行し、次いで、復号されたフォアグラウンドオーディオオブジェクトおよび補間されたフォアグラウンド方向性情報に基づいて、フォアグラウンド成分を表すＨＯＡ係数を決定することができ得る。オーディオ復号デバイス４は、次いで、フォアグラウンド成分を表す決定されたＨＯＡ係数およびバックグラウンド成分を表す復号されたＨＯＡ係数に基づいてＨＯＡ係数１１’を決定することができ得る。

[0048]オーディオ再生システム１６は、ＨＯＡ係数１１’を取得するためにビットストリーム３を復号した後、ラウドスピーカーフィード６を出力するためにＨＯＡ係数１１’をレンダリングすることができ得る。ラウドスピーカーフィード６は、１つまたは複数のラウドスピーカー（説明を簡単にするために、図３の例には示されていない）を駆動することができ得る。

[0049]適切なレンダラを選択する、またはいくつかの例では、適切なレンダラを生成するために、オーディオ再生システム１６は、ラウドスピーカーの数および／またはラウドスピーカーの空間的な幾何学的配置を示すラウドスピーカー情報１３を取得することができ得る。いくつかの例では、オーディオ再生システム１６は、基準マイクロフォンを使用し、ラウドスピーカー情報１３を動的に決定するような様式でラウドスピーカーを駆動して、ラウドスピーカー情報１３を取得することができ得る。他の例では、またはラウドスピーカー情報１３の動的決定に関連して、オーディオ再生システム１６は、ユーザに、オーディオ再生システム１６とインターフェースし、ラウドスピーカー情報１６を入力することを促すことができ得る。

[0050]オーディオ再生システム１６は、次いで、ラウドスピーカー情報１３に基づいてオーディオレンダラ５のうち１つを選択することができ得る。いくつかの例では、オーディオレンダラ５のいずれも、ラウドスピーカー情報１３において指定される尺度に対して何らかの閾値類似性尺度（ラウドスピーカーの幾何学的配置に関する）の範囲内にないとき、オーディオ再生システム１６は、ラウドスピーカー情報１３に基づいてオーディオレンダラ５のうち１つを生成することができ得る。オーディオ再生システム１６は、いくつかの例では、最初にオーディオレンダラ５のうち既存のものを選択しようとしなくても、ラウドスピーカー情報１３に基づいてオーディオレンダラ５のうち１つを生成することができ得る。

[0051]図４は、オーディオデータのビットストリーム内のオーディオ信号情報を潜在的により効率的に表すために本開示で説明される技法を実行し得るシステム２０を示す図である。図３の例に示されるように、システム２０は、コンテンツ作成者２２と、コンテンツ消費者２４とを含む。コンテンツ作成者２２およびコンテンツ消費者２４の文脈で説明されているが、技法は、オーディオデータを表すビットストリームを形成するためにＳＨＣまたは音場の任意の他の階層的表現が符号化される任意の文脈で実施されてよい。構成要素２２、２４、３０、２８、３６、３１、３２、３８、３４、および３５は、同様の名前が付けられた図３の構成要素の例示的な例を表すことができ得る。その上、ＳＨＣ２７および２７’はそれぞれ、ＨＯＡ係数１１および１１’の例示的な例を表すことができ得る。

[0052]コンテンツ作成者２２は、コンテンツ消費者２４などのコンテンツ消費者による消費のためのマルチチャンネルオーディオコンテンツを生成し得る映画撮影所または他のエンティティを表すことができる。多くの場合、このコンテンツ作成者は、ビデオコンテンツとともに、オーディオコンテンツを生成する。コンテンツ消費者２４は、オーディオ再生システムへのアクセス権を所有するまたは有する個人を表し、このオーディオ再生システムは、オーディオコンテンツマルチチャンネルを再生することが可能な任意の形態のオーディオ再生システムを指すことがある。図４の例では、コンテンツ消費者２４は、オーディオ再生システム３２を含む。

[0053]コンテンツ作成者２２は、オーディオレンダラ２８、オーディオ、およびオーディオ編集システム３０を含む。オーディオレンダラ２６は、スピーカーフィード（「ラウドスピーカーフィード」、「スピーカー信号」、または「ラウドスピーカー信号」とも呼ばれることがある）をレンダリングまたは生成するオーディオ処理ユニットを表すことができる。各スピーカーフィードは、マルチチャンネルオーディオシステムの特定のチャンネルのための音を再現するスピーカーフィードに対応することができる。図４の例では、レンダラ３８は、従来の５．１サラウンドサウンドフォーマットのためのスピーカーフィードをレンダリングし、７．１サラウンドサウンドフォーマット、または２２．２サラウンドサウンドフォーマット、５．１サラウンドサウンドスピーカーシステム、７．１サラウンドサウンドスピーカーシステム、または２２．２サラウンドサウンドスピーカーシステムにおける５、７、または２２のスピーカーの各々のためのスピーカーフィードを生成することができる。代替的に、レンダラ２８は、上記で検討したソース球面調和係数の性質が与えられれば、任意の数のスピーカーを有する任意のスピーカー構成のためのソース球面調和係数からスピーカーフィードをレンダリングするように構成され得る。レンダラ２８は、このようにして、図４ではスピーカーフィード２９と示されているいくつかのスピーカーフィードを生成することができる。

[0054]コンテンツ作成者は、編集プロセス中に、球面調和係数２７（「ＳＨＣ２７」）をレンダリングし、高い忠実度を持たないまたは説得力のあるサラウンドサウンド経験を提供しない音場の面（aspect）を識別しようとするレンダリングされたスピーカーフィードをリッスンすることができる。次いで、コンテンツ作成者２２は、（多くの場合、上記で説明された様式でソース球面調和係数が導出され得る異なるオブジェクトの操作によって、間接的に）ソース球面調和係数を編集することができる。コンテンツ作成者２２は、球面調和係数２７を編集するためにオーディオ編集システム３０を用いることができる。オーディオ編集システム３０は、オーディオデータを編集し、このオーディオデータを１つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。

[0055]編集プロセスが完了すると、コンテンツ作成者２２は、球面調和係数２７に基づいてビットストリーム３１を生成することができる。すなわち、コンテンツ作成者２２は、ビットストリーム３１を生成することが可能な任意のデバイスを表すことができるビットストリーム生成デバイス３６を含む。いくつかの例では、ビットストリーム生成デバイス３６は、帯域幅が（一例として、エントロピー符号化によって）球面調和係数２７を圧縮し、ビットストリーム３１を形成するために許可されたフォーマットで球面調和係数２７のエントロピー符号化されたバージョンを配置するエンコーダを表すことができる。他の例では、ビットストリーム生成デバイス３６は、一例としてマルチチャンネルオーディオコンテンツまたはその派生物を圧縮するために従来のオーディオサラウンドサウンド符号化プロセスのプロセスに類似したプロセスを使用してマルチチャンネルオーディオコンテンツ２９を符号化するオーディオエンコーダ（おそらく、ＭＰＥＧサラウンドなどの知られているオーディオコーディング規格またはその派生物に適合するオーディオエンコーダ）を表すことができる。次いで、圧縮されたマルチチャンネルオーディオコンテンツ２９は、コンテンツ２９を帯域幅圧縮するように何らかの他の方法でエントロピー符号化またはコーディングされ、ビットストリーム３１を形成するために合意されたフォーマットに従って配置され得る。ビットストリーム３１を形成するために直接的に圧縮されるにせよ、ビットストリーム３１を形成するためにレンダリングされ、次いで圧縮されるにせよ、コンテンツ作成者２２は、ビットストリーム３１をコンテンツ消費者２４に送信することができる。

[0056]図４ではコンテンツ消費者２４に直接的に送信されているが示されているが、コンテンツ作成者２２は、コンテンツ作成者２２とコンテンツ消費者２４の間に位置決めされた中間デバイスにビットストリーム３１を出力することができる。この中間デバイスは、ビットストリーム３１を要求することがあるコンテンツ消費者２４に後で配信するために、このビットストリームを記憶することができる。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにビットストリーム３１を記憶することが可能な任意の他のデバイスを備えることができる。この中間デバイスは、ビットストリーム３１を要求するコンテンツ消費者２４などの加入者にビットストリーム３１を（おそらくは対応するビデオデータストリームを送信するとともに）ストリーミングすることが可能なコンテンツ配信ネットワークに存在してもよい。代替的に、コンテンツ作成者２２は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にビットストリーム３１を格納することができ、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。この文脈において、送信チャンネルは、これらの媒体に格納されたコンテンツが送信されるチャンネルを指すことがある（および、小売店と他の店舗ベースの配信機構とを含み得る）。したがって、いずれにしても、本開示の技法は、この点に関して図４の例に限定されるべきではない。

[0057]図４の例にさらに示されるように、コンテンツ消費者２４は、オーディオ再生システム３２を含む。オーディオ再生システム３２は、マルチチャンネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表すことができる。オーディオ再生システム３２は、いくつかの異なるレンダラ３４を含むことができる。レンダラ３４は各々、異なる形態のレンダリングを提供することができ、異なる形態のレンダリングは、ｖｅｃｔｏｒ−ｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ（ＶＢＡＰ）を実行する様々な方法のうち１つもしくは複数および／または音場合成を実行する様々な方法のうち１つもしくは複数を含むことができる。

[0058]オーディオ再生システム３２は、抽出デバイス３８をさらに含むことができる。抽出デバイス３８は、一般にビットストリーム生成デバイス３６のプロセスに相反し得るプロセスによって球面調和係数２７’（球面調和係数２７の修正された形態または複製物を表すことができる「ＳＨＣ２７’」）を抽出することが可能な任意のデバイスを表すことができる。いずれにしても、オーディオ再生システム３２は、球面調和係数２７’を受け取ることができ、レンダラ３４のうち１つを選択することができ、次いで、レンダラ３４のうち選択された１つは、いくつかのスピーカーフィード３５（説明を簡単にするために図４の例には示されていない、オーディオ再生システム３２に電気的にまたはおそらくワイヤレスで結合されたラウドスピーカーの数に対応する）を生成するために球面調和係数２７’をレンダリングする。

[0059]一般に、ビットストリーム生成デバイス３６がＳＨＣ２７を直接的に符号化するとき、ビットストリーム生成デバイス３６は、ＳＨＣ２７のすべてを符号化する。音場の各表現のために送られるＳＨＣ２７の数は、次数に依存し、（１＋ｎ）²／サンプルと数学的に表され得、ここで、ｎはこの場合も次数を示す。音場の第４次表現を達成するために、一例として、２５のＳＨＣが導出され得る。一般に、ＳＨＣの各々は、３２ビット符号付き浮動小数点数として表される。したがって、音場の第４次表現を表すために、この例では、合計２５×３２すなわち８００ビット／サンプルが必要とされる。４８ｋＨｚのサンプリングレートが使用されるとき、これは、３８，４００，０００ビット／秒を表す。いくつかの例では、ＳＨＣ２７のうち１つまたは複数が、目立つ（salient）情報（コンテンツ消費者２４で再現されるとき音場について説明する際に可聴または重要であるオーディオ情報を含む情報を指すことがある）を指定しないことがある。ＳＨＣ２７のうちこれらの非目立つＳＨＣを符号化することによって、送信チャンネル（コンテンツ配信ネットワークタイプの送信機構を仮定する）による帯域幅の非効率的な使用が生じることがある。これらの係数の格納を含む適用例では、上記は、記憶空間の非効率的な使用を表すことができる。

[0060]ビットストリーム生成デバイス３６は、ビットストリーム３１において、ビットストリーム３１に含まれるＳＨＣ２７のＳＨＣを識別し、ビットストリーム３１において、ＳＨＣ２７の識別されたＳＨＣを指定することができ得る。言い換えれば、ビットストリーム生成デバイス３６は、ビットストリーム３１において、ビットストリームに含まれると識別されないＳＨＣ２７のＳＨＣのうちいずれかを指定しなくても、ビットストリーム３１において、ＳＨＣ２７の識別されたＳＨＣを指定することができ得る。

[0061]いくつかの例では、ビットストリーム３１に含まれるＳＨＣ２７のＳＨＣを識別するとき、ビットストリーム生成デバイス３６は、複数のビットを有するフィールドを識別することができ得、この複数のビットのうち異なるビットは、ＳＨＣ２７の対応するビットがビットストリーム３１に含まれるかどうか識別する。いくつかの例では、ビットストリーム３１に含まれるＳＨＣ２７のＳＨＣを識別するとき、ビットストリーム生成デバイス３６は、（ｎ＋１）²ビットに等しい複数のビットを有するフィールドを指定することがあり、ここで、ｎは音場について説明する要素の階層的なセットの順序を示し、複数のビットの各々は、ＳＨＣ２７の対応するビットがビットストリーム３１に含まれるかどうか識別する。

[0062]いくつかの例では、ビットストリーム生成デバイス３６は、ビットストリーム３１に含まれるＳＨＣ２７のＳＨＣを識別するとき、複数のビットを有するビットストリーム３１内のフィールドを識別することがあり、この複数のビットのうち異なるビットは、ＳＨＣ２７の対応するビットがビットストリーム３１に含まれるかどうか識別する。ＳＨＣ２７の識別されたＳＨＣを指定するとき、ビットストリーム生成デバイス３６は、ビットストリーム３１において、複数のビットを有するフィールドのすぐ後のＳＨＣ２７の識別されたＳＨＣを指定することがある。

[0063]いくつかの例では、ビットストリーム生成デバイス３６は、さらに、ＳＨＣ２７のうち１つまたは複数が音場について説明するのに関連する情報を有すると決定することがある。ビットストリーム３１に含まれるＳＨＣ２７のＳＨＣを識別するとき、ビットストリーム生成デバイス３６は、音場について説明するのに関連する情報を有するＳＨＣ２７の決定された１つまたは複数がビットストリーム３１に含まれると識別することがある。

[0064]いくつかの例では、ビットストリーム生成デバイス３６は、さらに、ＳＨＣ２７のうち１つまたは複数が音場について説明するのに関連する情報を有すると決定することがある。ビットストリーム３１に含まれるＳＨＣ２７のＳＨＣを識別するとき、ビットストリーム生成デバイス３６は、ビットストリーム３１において、音場について説明するのに関連する情報を有するＳＨＣ２７の決定された１つまたは複数がビットストリーム３１に含まれることを識別し、ビットストリーム３１において、音場について説明するのに関連しない情報を有するＳＨＣ２７の残りのビットがビットストリーム３１に含まれないと識別することがある。

[0065]いくつかの例では、ビットストリーム生成デバイス３６は、ＳＨＣ２７値のうち１つまたは複数が閾値を下回ると決定することがある。ビットストリーム３１に含まれるＳＨＣ２７のＳＨＣを識別するとき、ビットストリーム生成デバイス３６は、ビットストリーム３１において、この閾値を上回るＳＨＣ２７のうち決定された１つまたは複数がビットストリーム３１内で指定されると決定することがある。閾値は、多くの場合、ゼロの値であってよいが、実際的な実装形態に関して、閾値は、ノイズフロア（すなわち周囲エネルギー）を表す値に設定されてもよいし、現在の信号エネルギー（閾値を信号に依存するようにし得る）に比例する何らかの値に設定されてもよい。

[0066]いくつかの例では、ビットストリーム生成デバイス３６は、音場について説明するのに関連する情報を提供するいくつかのＳＨＣ２７を減少させるために音場を調整または変換することがある。「調整」という用語は、線形可逆変換を表す任意の１つまたは複数の行列の適用を指すことができる。これらの例では、ビットストリーム生成デバイス３６は、音場がどのように調整されたかについて説明する、ビットストリーム３１内の調整情報（「変換情報」と呼ばれることもある）を指定することがある。その後でビットストリーム内で指定されるＳＨＣ２７のＳＨＣを識別する情報に加えて、この情報を指定すると説明されているが、技法のこの態様は、ビットストリームに含まれるＳＨＣ２７のＳＨＣを識別する情報を指定することの代替として説明され得る。したがって、技法は、この点に関して限定されるべきではなく、音場について説明する複数の階層的な要素からなるビットストリームを生成する方法を提供することができ得る。この方法は、音場について説明するのに関連する情報を提供する複数の階層的な要素の数を減少させるように音場を調整することと、音場がどのように調整されたかについて説明する調整情報をビットストリーム内で指定することとを備える。

[0067]いくつかの例では、ビットストリーム生成デバイス３６は、音場について説明するのに関連する情報を提供するいくつかのＳＨＣ２７を減少させるために音場を回転させることがある。これらの例では、ビットストリーム生成デバイス３６は、音場がどのように回転されたかについて説明する、ビットストリーム３１内の回転情報を指定することがある。回転情報は、方位角値（３６０度を知らせることが可能である）と、仰角値（１８０度を知らせることが可能である）とを備えることができる。いくつかの例では、回転情報は、ｘ軸およびｙ軸、ｘ軸およびｚ軸、ならびに／またはｙ軸およびｚ軸に対して指定される１つまたは複数の角度を備えることができ得る。いくつかの例では、方位角値は、１つまたは複数のビットを備え、一般に１０ビットを含む。いくつかの例では、仰角値は、１つまたは複数のビットを備え、一般に少なくとも９ビットを含む。ビットのこの選定によって、最も単純な実施形態では、１８０／５１２度の分解能（仰角と方位角の両方において）が可能になる。いくつかの例では、調整は回転を備えることがあり、上記で説明された調整情報は回転情報を含む。いくつかの例では、ビットストリーム生成デバイス３６は、音場について説明するのに関連する情報を提供するいくつかのＳＨＣ２７を減少させるために音場を平行移動することがある。これらの例では、ビットストリーム生成デバイス３６は、音場がどのように平行移動されたかについて説明する、ビットストリーム３１内の平行移動情報を指定することがある。いくつかの例では、調整は平行移動を備えることがあり、上記で説明された調整情報は平行移動情報を含む。

[0068]いくつかの例では、ビットストリーム生成デバイス３６は、閾値を上回る非ゼロ値を有するいくつかのＳＨＣ２７を減少させるように音場を調整し、音場がどのように調整されたかについて説明する、ビットストリーム３１内の調整情報を指定することがある。

[0069]いくつかの例では、ビットストリーム生成デバイス３６は、閾値を上回る非ゼロ値を有するいくつかのＳＨＣ２７を減少させるように音場を回転させ、音場がどのように回転されたかについて説明する、ビットストリーム３１内の回転情報を指定することがある。

[0070]いくつかの例では、ビットストリーム生成デバイス３６は、閾値を上回る非ゼロ値を有するいくつかのＳＨＣ２７を減少させるように音場を平行移動させ、音場がどのように平行移動されたかについて説明する、ビットストリーム３１内の平行移動情報を指定することがある。

[0071]音場の説明に関連する情報を含まないＳＨＣ２７のＳＨＣ（ＳＣＨ２７のゼロ値と評価されたサブセットなどの）はビットストリームにおいて指定されない、すなわち、ビットストリームに含まれないので、ビットストリーム３１に含まれるＳＨＣ２７のＳＨＣをビットストリーム３１において識別することによって、このプロセスは、帯域幅のより効率的な使用を促進することができる。その上、追加または代替として、音場の説明に関連する情報を指定するＳＨＣ２７の数を減少させるためにＳＨＣ２７を生成するとき、音場を調整することによって、このプロセスは、再度またはさらに、潜在的により効率的な帯域幅の使用をもたらすことができる。このプロセスの態様はともに、ビットストリーム３１内で指定されるために必要とされるＳＨＣ２７の数を減少させ、それによって、非固定レートシステム（数例を提供するための目標ビットレートを持たないまたはフレームまたはサンプルあたりビット配分を提供しないオーディオコーディング技法を指すことがある）における帯域幅の利用を潜在的に改善する、または、固定レートシステムでは、音場について説明するのにより関連する情報へのビットの割振りを潜在的にもたらすことができる。

[0072]次いで、コンテンツ消費者２４内で、抽出デバイス３８は、ビットストリーム生成デバイス３６に関して上記で説明されたプロセスに対して全体的に相反する上記で説明されたプロセスの態様に従って、オーディオコンテンツを表すビットストリーム３１を処理することができる。抽出デバイス３８は、ビットストリーム３１に含まれる音場について説明するＳＨＣ２７’のＳＨＣをビットストリーム３１から決定し、ＳＨＣ２７’の識別されたＳＨＣを決定するためにビットストリーム３１を解析することができる。

[0073]いくつかの例では、抽出デバイス３８は、ビットストリーム３１に含まれるＳＨＣ２７’のＳＨＣを決定するとき、抽出デバイス３８は、複数のビットを有するフィールドを決定するためにビットストリーム３１を解析することができ、複数のビットのうちの各ビットは、ＳＨＣ２７’の対応するビットがビットストリーム３１に含まれるかどうか識別する。

[0074]いくつかの例では、抽出デバイス３８は、ビットストリーム３１に含まれるＳＨＣ２７’のＳＨＣを決定するとき、（ｎ＋１）２ビットに等しい複数のビットを有するフィールドを指定することがあり、ここでこの場合も、ｎは、音場について説明する要素の階層的なセットの次数を示す。この場合も、複数のビットの各々は、ＳＨＣ２７’の対応するビットがビットストリーム３１に含まれるかどうか識別する。

[0075]いくつかの例では、抽出デバイス３８は、ビットストリーム３１に含まれるＳＨＣ２７’のＳＨＣを決定するとき、複数のビットを有するビットストリーム３１内のフィールドを識別するためにビットストリーム３１を解析することがあり、複数のビットのうち異なるビットは、ＳＨＣ２７’の対応するビットがビットストリーム３１に含まれるかどうか識別する。抽出デバイス３８は、ＳＨＣ２７’の識別されたＳＨＣを決定するためにビットストリーム３１を解析するとき、複数のビットを有するフィールドの後のビットストリーム３１からＳＨＣ２７’の識別されたＳＨＣを直接的に決定するためにビットストリーム３１を解析することがある。

[0076]いくつかの例では、抽出デバイス３８は、上記で説明されたプロセスの代替としてまたはこれとともに、音場について説明するのに関連する情報を提供するＳＨＣ２７’の数を減少させるように音場がどのように調整されたかについて説明する調整情報を決定するためにビットストリーム３１を解析することがある。抽出デバイス３８は、この情報をオーディオ再生システム３２に提供することができ、オーディオ再生システム３２は、音場について説明するのに関連する情報を提供するＳＨＣ２７’のＳＨＣに基づいて音場を再現するとき、複数の階層的な要素の数を減少させるために実行される調整を逆にするように調整情報に基づいて音場を調整する。

[0077]いくつかの例では、抽出デバイス３８は、上記で説明されたプロセスの代替としてまたはこれとともに、音場について説明するのに関連する情報を提供するＳＨＣ２７’の数を減少させるために音場がどのように回転されたかについて説明する回転情報を決定するためにビットストリーム３１を解析することがある。抽出デバイス３８は、この情報をオーディオ再生システム３２に提供することができ、オーディオ再生システム３２は、音場について説明するのに関連する情報を提供するＳＨＣ２７’のＳＨＣに基づいて音場を再現するとき、複数の階層的な要素の数を減少させるために実行される回転を逆にするように回転情報に基づいて音場を回転する。

[0078]いくつかの例では、抽出デバイス３８は、上記で説明されたプロセスの代替としてまたはこれとともに、音場について説明するのに関連する情報を提供するＳＨＣ２７’の数を減少させるために音場がどのように平行移動されたかについて説明する平行移動情報を決定するためにビットストリーム３１を解析することがある。抽出デバイス３８は、この情報をオーディオ再生システム３２に提供することができ得、オーディオ再生システム３２は、音場について説明するのに関連する情報を提供するＳＨＣ２７’のＳＨＣに基づいて音場を再現するとき、複数の階層的な要素の数を減少させるために実行される平行移動を逆にするように調整情報に基づいて音場を平行移動する。

[0079]いくつかの例では、抽出デバイス３８は、上記で説明されたプロセスの代替としてまたはこれとともに、非ゼロ値を有するＳＨＣ２７’の数を減少させるように音場がどのように調整されたかについて説明する調整情報を決定するためにビットストリーム３１を解析することがある。抽出デバイス３８は、この情報をオーディオ再生システム３２に提供することができ、オーディオ再生システム３２は、非ゼロ値を有するＳＨＣ２７’のＳＨＣに基づいて音場を再現するとき、複数の階層的な要素の数を減少させるために実行される調整を逆にするように調整情報に基づいて音場を調整する。

[0080]いくつかの例では、抽出デバイス３８は、上記で説明されたプロセスの代替としてまたはこれとともに、非ゼロ値を有するいくつかのＳＨＣ２７’を減少させるように音場がどのように回転されたかについて説明する回転情報を決定するためにビットストリーム３１を解析することがある。抽出デバイス３８は、この情報をオーディオ再生システム３２に提供することができ、オーディオ再生システム３２は、非ゼロ値を有するＳＨＣ２７’のＳＨＣに基づいて音場を再現するとき、複数の階層的な要素の数を減少させるために実行される回転を逆にするように回転情報に基づいて音場を回転する。

[0081]いくつかの例では、抽出デバイス３８は、上記で説明されたプロセスの代替としてまたはこれとともに、非ゼロ値を有するいくつかのＳＨＣ２７’を減少させるように音場がどのように平行移動されたかについて説明する平行移動情報を決定するためにビットストリーム３１を解析することがある。抽出デバイス３８は、この情報をオーディオ再生システム３２に提供することができ、オーディオ再生システム３２は、非ゼロ値を有するＳＨＣ２７’のＳＨＣに基づいて音場を再現するとき、複数の階層的な要素の数を減少させるために実行される平行移動を逆にするように平行移動情報に基づいて音場を平行移動する。

[0082]図５Ａは、本開示において説明される技法の様々な態様を実施し得るオーディオ符号化デバイス１２０を示すブロック図である。図９の例では単一のデバイスすなわちオーディオ符号化デバイス１２０として示されているが、技法は、１つまたは複数のデバイスによって実行されてよい。したがって、本技法はこの点に関して限定されるべきではない。

[0083]図５Ａの例では、オーディオ符号化デバイス１２０は、時間周波数分析ユニット１２２と、回転ユニット１２４と、空間分析ユニット１２６と、オーディオ符号化ユニット１２８と、ビットストリーム生成ユニット１３０とを含む。時間周波数分析ユニット１２２は、ＳＨＣ１２１（ＳＨＣ１２１は、１よりも大きい次数に関連付けられた少なくとも１つの係数を含み得るので、高次アンビソニックス（ＨＯＡ）とも呼ばれることがある）を時間領域から周波数領域に変換するように構成されたユニットを表すことができ得る。時間周波数分析ユニット１２２は、ＳＨＣ１２１を時間領域から周波数領域に変換するために、数例を提供すると高速フーリエ変換（ＦＦＴ）と離散コサイン変換（ＤＣＴ）と変形離散コサイン変換（ＭＤＣＴ）と離散サイン変換（ＤＳＴ）とを含む任意の形態のフーリエベース変換を適用することができ得る。ＳＨＣ１２１の変換されたバージョンはＳＨＣ１２１’として示され、時間周波数分析ユニット１２２は、これを回転分析ユニット１２４および空間分析ユニット１２６に出力することができ得る。いくつかの例では、ＳＨＣ１２１は、すでに、周波数領域において指定されていることがある。これらの例では、時間周波数分析ユニット１２２は、変換を適用したり受け取られたＳＨＣ１２１を変換したりすることなく、ＳＨＣ１２１’を回転分析ユニット１２４および空間分析ユニット１２６に渡すことができ得る。

[0084]回転ユニット１２４は、上記でより詳細に説明された技法の回転態様を実行するユニットを表すことができ得る。回転ユニット１２４は、ＳＨＣ１２１’のうち１つまたは複数を除去するように音場を回転させる（または、より一般的には、変換する）ために空間分析ユニット１２６とともに機能することができ得る。空間分析ユニット１２６は、上記で説明された「空間コンパクション（compaction）」アルゴリズムに類似した様式で空間分析を実行するように構成されたユニットを表すことができ得る。空間分析ユニット１２６は、変換情報１２７（仰角角度と方位角角度とを含むことができ得る）を回転ユニット１２４に出力することができ得る。次いで、回転ユニット１２４が、変換情報１２７（「回転情報１２７」とも呼ばれることがある）に従って音場を回転させ、ＳＨＣ１２１’の減少されたバージョンを生成することができ得、このＳＨＣ１２１’の減少されたバージョンは、図５Ａの例ではＳＨＣ１２５’と示されることがある。回転ユニット１２４は、ビットストリーム生成ユニット１２８に変換情報１２７を出力しながら、オーディオ符号化ユニット１２６にＳＨＣ１２５’を出力することができ得る。

[0085]オーディオ符号化ユニット１２６は、符号化されたオーディオデータ１２９を出力するためにＳＨＣ１２５’をオーディオ符号化するように構成されたユニットを表すことができ得る。オーディオ符号化ユニット１２６は、任意の形態のオーディオ符号化を実行することができ得る。一例として、オーディオ符号化ユニット１２６は、ｍｏｔｉｏｎｐｉｃｔｕｒｅｓｅｘｐｅｒｔｓｇｒｏｕｐ（ＭＰＥＧ）−２Ｐａｒｔ７規格（それ以外では、ＩＳＯ／ＩＥＣ１３８１８−７：１９９７と示される）および／またはＭＰＥＧ−４Ｐａｒｔ３〜５に従ってａｄｖａｎｃｅｄａｕｄｉｏｃｏｄｉｎｇ（ＡＡＣ）を実行することができ得る。オーディオ符号化ユニット１２６は、ＳＨＣ１２５’の各次数／副次数組合せを別個のチャンネルと効果的に扱い、ＡＡＣエンコーダの別個の例を使用して、これらの別個のチャンネルを符号化することができ得る。ＨＯＡの符号化に関するさらなる情報は、オランダのアムステルダムにおける第１２４回ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ、２００８年５月１７〜２０日で提示されたＥｒｉｃＨｅｌｌｅｒｕｄらの「ＥｎｃｏｄｉｎｇＨｉｇｈｅｒＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓｗｉｔｈＡＡＣ」という名称のＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎＰａｐｅｒ７３６６で見つけられ得る。オーディオ符号化ユニット１２６は、符号化されたオーディオデータ１２９をビットストリーム生成ユニット１３０に出力することができ得る。

[0086]ビットストリーム生成ユニット１３０は、何らかの既知のフォーマットに準拠したビットストリームを生成するように構成されたユニットを表すことができ得、これらのフォーマットは、所有権の保持されているものであってもよいし、自由に利用できるものであってもよいし、標準化されたものであってもよい。ビットストリーム生成ユニット１３０は、ビットストリーム１３１を生成するために、符号化されたオーディオデータ１２９で回転情報１２７を多重化することができ得る。ビットストリーム１３１は、ＳＨＣ２７’が、符号化されたオーディオデータ１２９で置き換えられ得ることを除いて、図６Ａ〜図６Ｅのうちいずれかに記載された例に適合することができ得る。ビットストリーム１３１、１３１’は各々、ビットストリーム３、３１の一例を表すことができ得る。

[0087]図５Ｂは、本開示において説明される技法の様々な態様を実施し得るオーディオ符号化デバイス２００を示すブロック図である。図５Ｂの例では単一のデバイスすなわちオーディオ符号化デバイス２００として示されているが、技法は、１つまたは複数のデバイスによって実行されてよい。したがって、本技法はこの点に関して限定されるべきではない。

[0088]オーディオ符号化デバイス２００は、図５Ａのオーディオ符号化デバイス１２０のように、時間周波数分析ユニット１２２と、オーディオ符号化ユニット１２８と、ビットストリーム生成ユニット１３０とを含む。オーディオ符号化デバイス１２０は、回転情報を取得して、ビットストリーム１３１’に埋め込まれたサイドチャンネル内の音場に提供する代わりに、ＳＨＣ１２１’を変換された球面調和係数２０２に変換するためにＳＨＣ１２１’にベクトルベースの分解を適用し、球面調和係数２０２は、オーディオ符号化デバイス１２０が音場回転およびその後の符号化のための回転情報を抽出し得る回転行列を含むことができ得る。その結果、この例では、回転情報は、ビットストリーム１３１’に埋め込まれる必要はない。なぜなら、レンダリングデバイスが、ＳＨＣの元の座標系を復元する目的で、ビットストリーム１３１’に対して符号化された変換された球面調和係数から回転情報を取得して音場を逆回転する（de-rotate）ために、類似の動作を実行し得るからである。この動作は、以下でさらに詳細に説明される。

[0089]図５Ｂの例に示されるように、オーディオ符号化デバイス２００は、ベクトルベース分解ユニット２０２と、オーディオ符号化ユニット１２８と、ビットストリーム生成ユニット１３０とを含む。ベクトルベース分解ユニット２０２は、ＳＨＣ１２１’を圧縮するユニットを表すことができ得る。いくつかの例では、ベクトルベース分解ユニット２０２は、ＳＨＣ１２１’を可逆的に（losslessly）圧縮することができ得るユニットを表す。ＳＨＣ１２１’は、複数のＳＨＣを表すことができ得、複数のＳＨＣのうち少なくとも１つは、１よりも大きな次数を有する（この種類のＳＨＣは、その一例がいわゆる「Ｂフォーマット」である低次アンビソニックスから区別するように高次アンビソニックス（ＨＯＡ）と呼ばれる）。ベクトルベース分解ユニット２０２は、ＳＨＣ１２１’を可逆的に圧縮することができ得るが、一般に、ベクトルベース分解ユニット２０２は、再現されるとき目立たないまたは音場について説明する際に関連しないＳＨＣ１２１’のＳＨＣを除去する（いくつかが、人間の聴覚系によって聴取されることが可能でないことがあるので）。この意味で、この圧縮の非可逆性は、ＳＨＣ１２１’の圧縮されたバージョンから再現されるとき、音場の感知される品質に過度に影響を及ぼさないことができ得る。

[0090]図５Ｂの例では、ベクトルベース分解ユニット２０２は、分解ユニット２１８と、音場成分抽出ユニット２２０とを含むことができ得る。分解ユニット２１８は、特異値分解と呼ばれる分析の一形態を実行するように構成されたユニットを表すことができ得る。ＳＶＤに関して説明されているが、技法は、線形的に無相関なデータのセットを提供する任意の類似の変換または分解に対して実行されてよい。また、本開示における「セット」への言及は、一般的に、特にそうではないと記載されない限り「非ゼロ」セットを指すことを意図し、いわゆる「空のセット」を含むセットの古典的な数学的定義を指すことを意図するものではない。

[0091]代替の変換は主成分分析を備えることができ得、主成分分析は、頭字語ＰＣＡによって省略されることが多い。ＰＣＡは、おそらく相関する変数の観測値のセットを、主成分と呼ばれる線形的に無相関な変数のセットに変換するために、直交変換を用いる数学的手順を指す。線形的に無相関な変数とは、互いに対する統計的線形関係（すなわち依存）を持たない変数を表す。これらの主成分は、互いに対する少しの統計的相関を有すると説明され得る。いずれにしても、いわゆる主成分の数は、元の変数の数以下である。一般に、変換は、第１の主成分が可能な最大の分散を有し（または、言い換えれば、データの変動性をできる限り多く説明し）、後続の各成分は、この連続した成分が先行する成分と直交する（これと無相関と言い換え得る）という制約下で可能な最高分散を有するというような方法で定義される。ＰＣＡは、ＳＨＣ１１Ａに関してＳＨＣ１１Ａの圧縮になり得る、次数減少の一形態を実行することができる。文脈に応じて、ＰＣＡは、いくつかの例を挙げれば、離散カルーネン−レーベ（Karhunen-Loeve）変換、ホテリング（Hotelling）変換、固有直交分解（ＰＯＤ）、および固有値分解（ＥＶＤ）などのいくつかの異なる名前によって呼ばれることがある。

[0092]いずれにしても、分解ユニット２１８は、変換された球面調和係数の２つ以上のセットに球面調和係数１２１’を変換するために、特異値分解（やはり、その頭字語「ＳＶＤ」によって示され得る）を実行する。図５Ｂの例では、分解ユニット２１８は、いわゆるＶ行列と、Ｓ行列と、Ｕ行列とを生成するために、ＳＨＣ１２１’に対してＳＶＤを実行することができ得る。ＳＶＤは、線形代数学では、ｍ×ｎの実行列または複素行列Ｘ（ここで、Ｘは、ＳＨＣ１２１’などのマルチチャンネルオーディオデータを表すことができ得る）の因数分解を次の形態で表すことができる。

[0093]Ｕはｍ×ｍの実ユニタリ行列または複素ユニタリ行列を表すことができ、ここで、Ｕのｍ列は、マルチチャンネルオーディオデータの左特異（left-singular）ベクトルとして一般に知られる。Ｓは、対角線上に非負実数を持つｍ×ｎの矩形対角行列を表すことができ、ここで、Ｓの対角線値は、マルチチャンネルオーディオデータの特異値として一般に知られる。Ｖ＊（Ｖの共役転置行列を示すことができる）はｎ×ｎの実ユニタリ行列または複素ユニタリ行列を表すことができ、ここで、Ｖ＊のｎ列は、マルチチャンネルオーディオデータの右特異（right-singular）ベクトルとして一般に知られる。

[0094]本開示では、球面調和係数１２１’を備えるマルチチャンネルオーディオデータに適用されると説明されているが、技法は、任意の形態のマルチチャンネルオーディオデータに適用されてよい。このようにして、オーディオ符号化デバイス２００は、マルチチャンネルオーディオデータの左特異ベクトルを表すＵ行列と、マルチチャンネルオーディオデータの特異値を表すＳ行列と、マルチチャンネルオーディオデータの右特異ベクトルを表すＶ行列とを生成し、マルチチャンネルオーディオデータをＵ行列、Ｓ行列、およびＶ行列のうち１つまたは複数の少なくとも一部分の関数として表すために、音場の少なくとも一部分を表すマルチチャンネルオーディオデータに対して特異値分解を実行することができ得る。

[0095]通常、上記で参照されたＳＶＤ数式中のＶ＊行列は、複素数を備える行列にＳＶＤが適用され得ることを示すために、Ｖ行列の共役転置行列として示される。実数のみを備える行列に適用されるとき、Ｖ行列の共役転置行列（すなわち、言い換えれば、Ｖ＊行列）は、Ｖ行列に等しいと見なされてよい。以下では、説明を簡単にするために、ＳＨＣ１２１’が実数を備え、その結果、Ｖ＊行列ではなくＶ行列がＳＶＤによって出力されると仮定される。Ｖ行列であると仮定されているが、技法は、類似のやり方で、複素係数を有するＳＨＣ１２１’に適用されてよく、ここで、ＳＶＤの出力はＶ＊行列である。したがって、技法は、この点について、Ｖ行列を生成するためにＳＶＤの適用を提供することのみに限定されるべきではなく、Ｖ＊行列を生成するために複素成分を有するＳＨＣ１１ＡへのＳＶＤの適用を含んでよい。

[0096]いずれにしても、分解ユニット２１８は、高次アンビソニックス（ＨＯＡ）オーディオデータ（このアンビソニックスオーディオデータは、ＳＨＣ１２１’のブロックもしくはサンプルまたはマルチチャンネルオーディオデータの任意の他の形態を含む）の各ブロック（フレームと呼ばれることがある）に対して、ＳＶＤのブロック単位の（block-wise）形態を実行することができ得る。変数Ｍは、サンプル中のオーディオフレームの長さを示すために使用され得る。たとえば、オーディオフレームが１０２４のオーディオサンプルを含むとき、Ｍは１０２４に等しい。したがって、分解ユニット２１８は、ブロックに対してブロック単位ＳＶＤを実行することができ得、ＳＨＣ１１ＡはＭ×（Ｎ＋１）²のＳＨＣを有し、ここで、Ｎもオーディオデータの次数ＨＯＡを示す。分解ユニット２１８は、このＳＶＤを実行することによって、Ｖ行列と、Ｓ行列１９Ｂと、Ｕ行列とを生成することができ得る。分解ユニット２１８は、これらの行列を音場成分抽出ユニット２０に渡すまたは出力することができ得る。Ｖ行列１９Ａは、（Ｎ＋１）²×（Ｎ＋１）²の大きさであってよく、Ｓ行列１９Ｂは（Ｎ＋１）²×（Ｎ＋１）²の大きさであってよく、Ｕ行列はＭ×（Ｎ＋１）²の大きさであってよく、ここで、Ｍはオーディオフレーム中のサンプルの数を指す。Ｍの一般的な値は１０２４であるが、本開示の技法は、Ｍのこの一般的な値に限定されるべきではない。

[0097]音場成分抽出ユニット２２０は、音場の別個の成分と音場のバックグラウンド成分とを決定し、次いで抽出して、音場の別個の成分を音場のバックグラウンド成分から効果的に分離するように構成されたユニットを表すことができ得る。音場の別個の成分は一般に、より高次の（音場のバックグラウンド成分に対して）基底関数（およびしたがって、より大きいＳＨＣ）にこれらの成分の別個性を正確に表すことを要求することを考えると、別個の成分をバックグラウンド成分から分離することによって、より多くのビットを別個の成分に割り当て、より少ないビット（相対的に言えば）をバックグラウンド成分に割り当てることができる。したがって、この変換（ＳＶＤ、またはＰＣＡを含む任意の他の形態の変換の形態における）の適用によって、本開示において説明される技法は、様々なＳＨＣへのビットの割当て、それによってＳＨＣ１２１’の圧縮を容易にすることができ得る。

[0098]その上、高次基底関数は一般に、音場のこれらのバックグラウンド部分の拡散性または背景性が与えられたこれらの成分を表すために必要とされることを考えると、技法は、音場のバックグラウンド成分の次数減少を可能にすることもでき得る。したがって、技法は、ＳＨＣ１２１’へのＳＶＤの適用によって音場の目立つ別個の成分または面を維持しながら、音場の拡散面またはバックグラウンド面の圧縮を可能にすることができ得る。

[0099]音場成分抽出ユニット２２０は、Ｓ行列に対して顕著性分析（salience analysis）を実行することができ得る。音場成分抽出ユニット２２０は、Ｓ行列の対角値を分析し、最大値を有するこれらの成分の変数Ｄの数値を選択することができ得る。言い換えれば、音場成分抽出ユニット２２０は、Ｓの下降（descending）対角値によって作製される曲線の傾きを分析することによって、２つの部分空間を分離する値Ｄを決定することができ得、大きい特異値はフォアグラウンド音または別個の音を表し、小さい特異値は音場のバックグラウンド成分を表す。いくつかの例では、音場成分抽出ユニット２２０は、特異値曲線の一次導関数と二次導関数とを使用してよい。音場成分抽出ユニット２２０はまた、数値Ｄを１と５の間に制限してもよい。別の例として、音場成分抽出ユニット２２０は、数値Ｄを１と（Ｎ＋１）²の間に制限してもよい。代替的に、音場成分抽出ユニット２２０は、数値Ｄを４の値などにあらかじめ定義してもよい。いずれにしても、ひとたび数値Ｄが推定されると、音場成分抽出ユニット２２０は、フォアグラウンド部分空間とバックグラウンド部分空間とを行列Ｕ、Ｖ、およびＳから抽出する。

[0100]いくつかの例では、音場成分抽出ユニット２２０は、Ｍ個のサンプルごとにこの分析を実行することができ得、これは、フレームごとと言い換え得る。この点に関して、Ｄはフレームごとに変化し得る。他の例では、音場成分抽出ユニット２２０は、この分析をフレームごとに複数回実行し、フレームの２つ以上の部分を分析することができ得る。したがって、技法は、この点に関して、本開示において説明される例に限定されるべきではない。

[0101]実際には、音場成分抽出ユニット２２０は、対角Ｓ行列の特異値を分析し、対角Ｓ行列の他の値よりも大きい相対値を有するそれらの値を識別することができ得る。音場成分抽出ユニット２２０は、別個の成分すなわち「フォアグラウンド」行列と拡散成分すなわち「バックグラウンド」行列とを生成するために、Ｄ値を識別し、これらの値を抽出することができ得る。フォアグラウンド行列は、元のＳ行列の（Ｎ＋１）²を有するＤ列を備える対角行列を表すことができ得る。いくつかの例では、バックグラウンド行列は、（Ｎ＋１）²−Ｄの列を有する行列を表すことができ得、これらの列の各々は、元のＳ行列の（Ｎ＋１）²の変換された球面調和係数を含む。元のＳ行列の（Ｎ＋１）²値を有するＤの列を備える行列を表す別個の行列として説明しているが、Ｓ行列は対角行列であり、各列におけるＤ番目の値の後のＤの列の（Ｎ＋１）²値はゼロの値であることが多いことを考えると、音場成分抽出ユニット２２０は、元のＳ行列のＤの値を有するＤの列を有するフォアグラウンド行列を生成するために、この行列を切り捨てることができ得る。完全なフォアグラウンド行列および完全なバックグラウンド行列に関して説明しているが、技法は、別個の行列の切り捨てられたバージョンおよびバックグラウンド行列の切り捨てられたバージョンに対して実施され得る。したがって、本開示の技法は、この点に関して限定されるべきではない。

[0102]言い換えれば、フォアグラウンド行列はＤ×（Ｎ＋１）²の大きさとすることができ得、バックグラウンド行列は（Ｎ＋１）²−Ｄ×（Ｎ＋１）²の大きさとすることができ得る。フォアグラウンド行列は、それらの主成分すなわち、言い換えれば、音場の別個の（ＤＩＳＴ）オーディオ成分であることに関して目立つように決定された特異値を含むことができ得るが、バックグラウンド行列は、バックグラウンド（ＢＧ）すなわち、言い換えれば、音場の周囲成分、拡散成分、または別個でないオーディオ成分であるように決定されたそれらの特異値を含むことができ得る。

[0103]音場成分抽出ユニット２２０はまた、Ｕ行列のための別個の行列とバックグラウンド行列とを生成するために、Ｕ行列を分析することができ得る。多くの場合、音場成分抽出ユニット２２０は、変数Ｄを識別するためにＳ行列を分析し、変数Ｄに基づいて、Ｕ行列のための別個の行列とバックグラウンド行列とを生成することができ得る。

[0104]音場成分抽出ユニット２２０はまた、Ｖ^Tのための別個の行列とバックグラウンド行列とを生成するために、Ｖ^T行列２３を分析することができ得る。多くの場合、音場成分抽出ユニット２２０は、変数Ｄを識別するためにＳ行列を分析し、変数Ｄに基づいて、Ｖ^Tのための別個の行列とバックグラウンド行列とを生成することができ得る。

[0105]ベクトルベース分解ユニット２０２は、ＳＨＣ１２１’を別個の行列とフォアグラウンド行列の行列乗算（積）として圧縮することによって取得される様々な行列を結合して出力することができ得、これは、ＳＨＣ２０２を含む音場の再構成された部分を生じることができ得る。一方、音場成分抽出ユニット２２０は、Ｖ^Tの別個の成分を含み得るベクトルベースの分解の方向性成分２０３を出力することができ得る。オーディオ符号化ユニット１２８は、ＳＨＣ２０２をＳＨＣ２０４にさらに圧縮するために符号化の一形態を実行するユニットを表すことができ得る。いくつかの例では、このオーディオ符号化ユニット１２８は、ａｄｖａｎｃｅｄａｕｄｉｏｃｏｄｉｎｇ（ＡＡＣ）符号化ユニットまたは統合された会話およびオーディオコーディング（ＵＳＡＣ）ユニットの１つまたは複数のインスタンスを表すことができ得る。ＡＡＣ符号化ユニットを使用して球面調和係数がどのように符号化され得るかに関するさらなる情報は、第１２４回Ｃｏｎｖｅｎｔｉｏｎ、２００８年５月１７〜２０日で提示され、ｈｔｔｐ：／／ｒｏ．ｕｏｗ．ｅｄｕ．ａｕ／ｃｇｉ／ｖｉｅｗｃｏｎｔｅｎｔ．ｃｇｉ？ａｒｔｉｃｌｅ＝８０２５＆ｃｏｎｔｅｘｔ＝ｅｎｇｐａｐｅｒｓで入手可能な、ＥｒｉｃＨｅｌｌｅｒｕｄらの「ＥｎｃｏｄｉｎｇＨｉｇｈｅｒＯｒｄｅｒＡｍｂｉｓｏｎｉｃｓｗｉｔｈＡＡＣ」という名称の大会論文で見つけられ得る。

[0106]本明細書において説明される技法によれば、ビットストリーム生成ユニット１３０は、音場について説明するのに関連する情報を提供するＳＨＣ２０４の数を減少させるために音場を調整または変換することができ得る。「調整」という用語は、線形可逆変換を表す任意の１つまたは複数の行列の適用を指すことができ得る。これらの例では、ビットストリーム生成ユニット１３０は、音場がどのように調整されたかについて説明する、ビットストリーム内の調整情報（「変換情報」と呼ばれることもある）を指定することがある。具体的には、ビットストリーム生成ユニット１３０は、方向性成分２０３を含むようにビットストリーム１３１’を生成することができ得る。その後でビットストリーム１３１’内で指定されるＳＨＣ２０４のＳＨＣを識別する情報に加えて、この情報を指定すると説明されているが、技法のこの態様は、ビットストリーム１３１’に含まれるＳＨＣ２０４のＳＨＣを識別する情報を指定することの代替として実行され得る。したがって、技法は、この点に関して限定されるべきではなく、音場について説明する複数の階層的な要素からなるビットストリームを生成する方法を提供することができ得る。この方法は、音場について説明するのに関連する情報を提供する複数の階層的な要素の数を減少させるように音場を調整することと、音場がどのように調整されたかについて説明する調整情報をビットストリーム内で指定することとを備える。

[0107]いくつかの例では、ビットストリーム生成ユニット１３０は、音場について説明するのに関連する情報を提供するＳＨＣ２０４の数を減少させるために音場を回転させることがある。これらの例では、ビットストリーム生成ユニット１３０は、最初に、音場のための回転情報を方向性成分２０３から取得することができ得る。回転情報は、方位角値（３６０度を知らせることが可能である）と、仰角値（１８０度を知らせることが可能である）とを備えることができる。いくつかの例では、ビットストリーム生成ユニット１３０は、基準に従って方向性成分２０３中に表される複数の方向性成分（たとえば、別個のオーディオオブジェクト）のうち１つを選択することができ得る。この基準は、音の最大振幅を示すベクトルの最大の大きさとすることができ得る。ビットストリーム生成ユニット１３０は、いくつかの例では、これをＵ行列、Ｓ行列、これらの組合せ、またはこれらの別個の成分から取得することができ得る。基準は、方向性成分の結合または平均とすることができ得る。

[0108]ビットストリーム生成ユニット１３０は、回転情報を使用して、音場について説明するのに関連する情報を提供するＳＨＣ２０４の数を減少させるようにＳＨＣ２０４の音場を回転させることができ得る。ビットストリーム生成ユニット１３０は、この減少された数のＳＨＣをビットストリーム１３１’に符号化することができ得る。

[0109]ビットストリーム生成ユニット１３０は、音場がどのように回転されたかについて説明する、ビットストリーム１３１’内の回転情報を指定することができ得る。いくつかの例では、ビットストリーム生成ユニット１３０は、方向性成分部品２０３を符号化することによって回転情報を指定し、これによって、対応するレンダラは、音場をビットストリーム１３１’からＳＨＣ２０４として抽出および再構成するために、音場のための回転情報を単独で取得し、ビットストリーム１３１’に符号化された、ＳＨＣ内で表された回転された音場を「逆回転する」ことができ得る。レンダラを回転させ、このようにして音場を「逆回転する」ようにレンダラを回転させるこのプロセスは、図６Ａ〜図６Ｂのレンダラ回転ユニット１５０に関して以下でより詳細に説明される。

[0110]これらの例では、ビットストリーム生成ユニット１３０は、回転情報を、方向性成分２０３を介して間接的にではなく、直接的に符号化する。そのような例では、方位角値は、１つまたは複数のビットを備え、一般に１０ビットを含む。いくつかの例では、仰角値は、１つまたは複数のビットを備え、一般に少なくとも９ビットを含む。ビットのこの選定によって、最も単純な実施形態では、１８０／５１２度の分解能（仰角と方位角の両方において）が可能になる。いくつかの例では、調整は回転を備えることがあり、上記で説明された調整情報は回転情報を含む。いくつかの例では、ビットストリーム生成ユニット１３１’は、音場について説明するのに関連する情報を提供するＳＨＣ２０４の数を減少させるために音場を平行移動することができ得る。これらの例では、ビットストリーム生成ユニット１３０は、音場がどのように平行移動されたかについて説明する、ビットストリーム１３１’内の平行移動情報を指定することがある。いくつかの例では、調整は平行移動を備えることができ得、上記で説明された調整情報は平行移動情報を含む。

[0111]図６Ａおよび図６Ｂは各々、本開示において説明されるバイノーラルオーディオレンダリング技法の様々な態様を実行し得るオーディオ再生デバイスの一例を示すブロック図である。単一のデバイスすなわち図６Ａの例ではオーディオ再生デバイス１４０Ａ、図６Ｂの例ではオーディオ再生デバイス１４０Ｂとして示されているが、技法は、１つまたは複数のデバイスによって実行されてよい。したがって、本技法はこの点に関して限定されるべきではない。

[0112]図６Ａの例に示されるように、オーディオ再生デバイス１４０Ａは、抽出ユニット１４２と、オーディオ復号ユニット１４４と、バイノーラルレンダリングユニット１４６とを含むことができ得る。抽出ユニット１４２は、符号化されたオーディオデータ１２９と変換情報１２７とをビットストリーム１３１から抽出するように構成されたユニットを表すことができ得る。抽出ユニット１４２は、変換情報１２７をバイノーラルレンダリングユニット１４６に渡しながら、抽出された符号化されたオーディオデータ１２９をオーディオ復号ユニット１４４に転送することができ得る。

[0113]オーディオ復号ユニット１４４は、ＳＨＣ１２５’を生成するように符号化されたオーディオデータ１２９を復号するように構成されたユニットを表すことができ得る。オーディオ復号ユニット１４４は、ＳＨＣ１２５’を符号化するために使用されたオーディオ符号化プロセスに相反するオーディオ復号プロセスを実行することができ得る。図６Ａの例に示されるように、オーディオ復号ユニット１４４は、時間周波数分析１４８を含むことができ得、時間周波数分析１４８は、ＳＨＣ１２５を時間領域から周波数領域に変換し、それによってＳＨＣ１２５’を生成するように構成されたユニットを表すことができ得る。すなわち、符号化されたオーディオデータ１２９が、時間領域から周波数領域に変換されないＳＨＣ１２５の圧縮された形態を表すとき、オーディオ復号ユニット１４４は、（周波数領域で指定される）ＳＨＣ１２５’を生成するようにＳＨＣ１２５を時間領域から周波数領域に変換するために時間周波数分析１４８を呼び出すことができ得る。いくつかの例では、ＳＨＣ１２５は、すでに、周波数領域において指定されていることがある。これらの例では、時間周波数分析ユニット１４８は、変換を適用したり受け取られたＳＨＣ１２１を変換したりすることなく、ＳＨＣ１２５’をバイノーラルレンダリング１４６に渡すことができ得る。周波数領域で指定されたＳＨＣ１２５’に関して説明しているが、技法は、時間領域で指定されるＳＨＣ１２５に対して実行され得る。

[0114]バイノーラルレンダリングユニット１４６は、ＳＨＣ１２５’をバイノーラル化するように構成されたユニットを表す。バイノーラル化レンダリングユニット１４６は、言い換えれば、左チャンネルおよび右チャンネルにＳＨＣ１２５’をレンダリングするように構成されたユニットを表すことができ得、これは、左チャンネルおよび右チャンネルが、ＳＨＣ１２５’が記録された部屋の中の聴取者によってどのように聴取されるかをモデル化するために空間化（spatialization）を特徴づけることができ得る。バイノーラルレンダリングユニット１４６は、ヘッドフォンなどのヘッドセットを介した再生に適した左チャンネル１６３Ａと右チャンネル１６３Ｂと（これらは、総称して「チャンネル１６３」と呼ばれることがある）を生成するようにＳＨＣ１２５’をレンダリングすることができ得る。図６Ａの例に示されるように、バイノーラルレンダリングユニット１４６は、レンダラ回転ユニット１５０と、エネルギー保存ユニット１５２と、複素数両耳室内インパルス応答（ＢＲＩＲ）ユニット１５４と、時間周波数分析ユニット１５６と、複素数乗算ユニット１５８と、加算ユニット１６０と、逆時間周波数分析ユニット１６２とを含む。

[0115]レンダラ回転ユニット１５０は、回転された基準フレームを有するレンダラ１５１を出力するように構成されたユニットを表すことができ得る。レンダラ回転ユニット１５０は、変換情報１２７に基づいて標準基準フレーム（多くの場合、ＳＨＣ１２５’から２２のチャンネルをレンダリングするために指定された基準フレーム）を有するレンダラを回転または変換することができ得る。言い換えれば、レンダラ回転ユニット１５０は、スピーカーの座標系をマイクロフォンの座標系のそれと位置合わせするために、ＳＨＣ１２５’によって表される音場を回転させるのではなく、スピーカーを効果的に再度位置決めすることができ得る。レンダラ回転ユニット１５０は、大きさＬ行×（Ｎ＋１）²−Ｕ列の行列によって定義され得る回転されたレンダラ１５１を出力することができ得、ここで、変数Ｌは、ラウドスピーカー（実物または仮想のいずれか）の数を示し、変数Ｎは、ＳＨＣ１２５’のうち１つが対応する基底関数の最高次数を示し、変数Ｕは、符号化プロセス中にＳＨＣ１２５’を生成するとき除去されるＳＨＣ１２１’の数を示す。多くの場合、この数値Ｕは、上記で説明されたＳＨＣ存在フィールド５０から導出され、ＳＨＣ存在フィールド５０は、本明細書において「ビット包含マップ」と呼ばれることもある。

[0116]レンダラ回転ユニット１５０は、ＳＨＣ１２５’をレンダリングするときの算出の複雑さを減少させるようにレンダラを回転させることができ得る。説明するために、レンダラが回転されない場合、バイノーラルレンダリングユニット１４６が、ＳＨＣ１２５’と比較してより大きなＳＨＣを含み得るＳＨＣ１２５を生成するためにＳＨＣ１２５’を回転させると考える。ＳＨＣ１２５に対して動作するときにＳＨＣの数を増加させることによって、バイノーラルレンダリングユニット１４６は、ＳＨＣの減少されたセットすなわち図６Ｂの例ではＳＨＣ１２５’に対して動作することと比較して、より多くの数学演算を実行することができ得る。したがって、基準フレームを回転させ、回転されたレンダラ１５１を出力することによって、レンダラ回転ユニット１５０は、ＳＨＣ１２５’をバイノーラルにレンダリングする複雑さを（数学的に）減少させることができ得、これが、ＳＨＣ１２５’のより効率的なレンダリング（処理サイクル、記憶領域消費などに関する）につながることができ得る。

[0117]レンダラ回転ユニット１５０はまた、いくつかの例では、レンダラがどのように回転されるか制御する方法をユーザに提供するために、ディスプレイを介してグラフィカルユーザインターフェース（ＧＵＩ）または他のインターフェースを提示することができ得る。いくつかの例では、ユーザは、シータ制御を指定することによって、このユーザにより制御される回転を入力するために、このＧＵＩまたは他のインターフェースと相互作用することができ得る。レンダラ回転ユニット１５０は、次いで、レンダリングをユーザ固有のフィードバックに合わせるために、このシータ制御によって変換情報を調整することができ得る。このようにして、レンダラ回転ユニット１５０は、ＳＨＣ１２５’のバイノーラル化を（主観的に）促進および／または改善するために、バイノーラル化（binauralization）プロセスのユーザ固有の制御を容易にすることができ得る。

[0118]エネルギー保存ユニット１５２は、ある量のＳＨＣが閾値の適用または他の類似のタイプの動作により失われるときに失われた何らかのエネルギーを潜在的に再導入するためにエネルギー保存プロセスを実行するように構成されたユニットを表す。エネルギー保存に関するさらなる情報は、ＡＣＴＡＡＣＵＳＴＩＣＡＵＮＩＴＥＤｗｉｔｈＡＣＵＳＴＩＣＡ、第９８巻、２０１２年、３７〜４７ページに公開された、Ｆ．Ｚｏｔｔｅｒらの「Ｅｎｅｒｇｙ−ＰｒｅｓｅｒｖｉｎｇＡｍｂｉｓｏｎｉｃＤｅｃｏｄｉｎｇ」という名称の論文で見つけられ得る。一般に、エネルギー保存ユニット１５２は、オーディオデータの量を当初記録されたように復元または維持しようとしてエネルギーを増加させる。エネルギー保存ユニット１５２は、レンダラ１５１’として示される、エネルギーが保存された回転されたレンダラを生成するように、回転されたレンダラ１５１の行列係数に対して動作することができ得る。エネルギー保存ユニット１５２は、大きさＬ行×（Ｎ＋１）²−Ｕ列の行列によって定義され得るレンダラ１５１’を出力することができ得る。

[0119]複素数両耳室内インパルス応答（ＢＲＩＲ）ユニット１５４は、２つのＢＲＩＲレンダリングベクトル１５５Ａと１５５Ｂとを生成するために、レンダラ１５１’および１つまたは複数のＢＲＩＲ行列に対して要素ごとの複素数乗算と加算とを実行するように構成されたユニットを表す。数学的には、これは、次の式（１）〜（５）に従って表すことができる。

ここで、Ｄ’は、ｘ軸およびｙ軸（ｘｙ）、ｘ軸およびｚ軸（ｘｚ）、ならびにｙ軸およびｚ軸（ｙｚ）に対して指定された角度のうち１つまたはすべてに基づいて回転行列Ｒを使用したレンダラをＤの回転されたレンダラを示す。

上記の式（２）および（３）では、ＢＲＩＲおよびＤ’における「ｓｐｋ」下付き文字は、ＢＲＩＲとＤ’の両方が同じ角度位置を有することを示す。言い換えれば、ＢＲＩＲは、Ｄが設計される仮想ラウドスピーカーレイアウトを表す。ＢＲＩＲ’およびＤ’の「Ｈ」下付き文字はＳＨ要素位置を表し、ＳＨ要素位置をすべて経験する。ＢＲＩＲ’は、ＨＯＡ領域に対するＢＲＩＲの変換されたフォームの空間領域を（球調和逆関数（ＳＨ^-1）タイプの表現として）表す。上記の式（２）および（３）は、ＳＨ次元であるレンダラ行列Ｄにおけるすべての（Ｎ＋１）²位置Ｈに関して実行され得る。ＢＲＩＲは、時間領域または周波数領域のいずれかにおいて表されてよく、ここで、ＢＲＩＲは依然として乗算である。記入「左」および「右」は、左チャンネルまたは左耳のためのＢＲＩＲ／ＢＲＩＲ’と、右チャンネルまたは右耳のためのＢＲＩＲ／ＢＲＩＲ’を指す。

上記の式（４）および（５）では、ＢＲＩＲ’’は、周波数領域内の左／右信号を指す。Ｈはこの場合も、ＳＨ係数（位置と呼ばれることもある）でループを作り、ここで、順番は、高次アンビソニックス（ＨＯＡ）とＢＲＩＲ’において同じである。一般に、このプロセスは、周波数領域では乗算、または時間領域では畳み込みとして実行される。このようにして、ＢＲＩＲ行列は、左チャンネル１６３Ａをバイノーラルにレンダリングするための左ＢＲＩＲ行列と、右チャンネル１６３Ｂをバイノーラルにレンダリングするための右ＢＲＩＲ行列とを含むことができ得る。複素数ＢＲＩＲユニット１５４は、ベクトル１５５Ａと１５５Ｂと（「ベクトル１５５」）を時間周波数分析ユニット１５６に出力する。

[0120]時間周波数分析ユニット１５６は、時間周波数分析ユニット１５６が、ベクトル１５５を時間領域から周波数領域に変換し、それによって、周波数領域で指定される２つのバイノーラルレンダリング行列１５７Ａと１５７Ｂと（「バイノーラルレンダリング行列１５７」）を生成するためにベクトル１５５に対して動作し得ることを除いて、上記で説明された時間周波数分析ユニット１４８に類似してよい。この変換は、ベクトル１５５の各々に対して、バイノーラルレンダリング行列１５７として示され得る（Ｎ＋１）²−Ｕ行×１０２４（または任意の他の数のポイント）を効果的に生成する１０２４ポイント変換を備えることができ得る。時間周波数分析ユニット１５６は、これらの行列１５７を複素数乗算ユニット１５８に出力することができ得る。技法が時間領域において実行される例では、時間周波数分析ユニット１５６は、ベクトル１５５を複素数乗算ユニット１５８に渡すことができ得る。前のユニット１５０、１５２、および１５４が周波数領域において動作する例では、時間周波数分析ユニット１５６は、行列１５７（これらの例では、複素数ＢＲＩＲユニット１５４によって生成される）を複素数乗算ユニット１５８に渡すことができ得る。

[0121]複素数乗算ユニット１５８は、大きさ（Ｎ＋１）²−Ｕ行×１０２４（または任意の他の数の変換ポイント）列の２つの行列１５９Ａと１５９Ｂと（「行列１５９」）を生成するために、行列１５７の各々によるＳＨＣ１２５’の要素ごとの複素数乗算を実行するように構成されたユニットを表すことができ得る。複素数乗算ユニット１５８は、これらの行列１５９を加算ユニット１６０に出力することができ得る。

[0122]加算ユニット１６０は、行列１５９の各々のすべての（Ｎ＋１）²−Ｕ行について加算するように構成されたユニットを表すことができ得る。説明するために、加算ユニット１６０は、単一の行と１０２４（または他の変換ポイント数値）の列とを有するベクトル１６１Ａを生成するために、行列１５９Ａの第１の行に沿って値を加算し、次いで第２の行、第３の行などの値を加算する。同様に、加算ユニット１６０は、単一の行と１０２４（または何らかの他の変換されるポイントの数値）の列とを有するベクトル１６１Ｂを生成するために、行列１５９Ｂの列の各々に沿って値を加算する。加算ユニット１６０は、ベクトル１６１Ａと１６１Ｂと（「ベクトル１６１」）を逆時間周波数分析ユニット１６２に出力する。

[0123]逆時間周波数分析ユニット１６２は、データを周波数領域から時間領域に変換するために逆変換を実行するように構成されたユニットを表すことができ得る。逆時間周波数分析ユニット１６２は、ベクトル１６１を受け取り、ベクトル１６１（またはその微分）を時間領域から周波数領域に変換するために使用される変換の逆である変換の適用によってベクトル１６１の各々を周波数領域から時間領域に変換することができ得る。逆時間周波数分析ユニット１６２は、バイノーラル化された左チャンネルと右チャンネル１６３とを生成するようにベクトル１６１を周波数領域から時間領域に変換することができ得る。

[0124]動作時、バイノーラルレンダリングユニット１４６は、変換情報を決定することができ得る。この変換情報は、音場について説明するのに関連する情報を提供する複数の階層的な要素の数（すなわち、図６Ａ〜図６Ｂの例ではＳＨＣ１２５’）を減少させるために音場がどのように変換されたかについて説明することができ得る。上記で説明されたように、バイノーラルレンダリングユニット１４６は、次いで、決定された変換情報１２７に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行することができ得る。

[0125]いくつかの例では、バイノーラルオーディオレンダリングを実行するとき、バイノーラルレンダリングユニット１４６は、決定された変換情報１２７に基づいて、ＳＨＣ１２５’をレンダリングする基準フレームを複数のチャンネル１６３に変換することができ得る。

[0126]いくつかの例では、変換情報１２７は、音場が回転された仰角角度と方位角角度とを少なくとも指定する回転情報を備える。これらの例では、バイノーラルレンダリングユニット１４６は、バイノーラルオーディオレンダリングを実行するとき、決定された回転情報に基づいて、レンダリング関数がＳＨＣ１２５’をレンダリング可能である基準フレームを回転させることができ得る。

[0127]いくつかの例では、バイノーラルレンダリングユニット１４６は、バイノーラルオーディオレンダリングを実行するとき、決定された変換情報１２７に基づいて、レンダリング関数がＳＨＣ１２５’をレンダリング可能である基準フレームを変換し、変換されたレンダリング関数に対してエネルギー保存関数を適用することができ得る。

[0128]いくつかの例では、バイノーラルレンダリングユニット１４６は、バイノーラルオーディオレンダリングを実行するとき、決定された変換情報１２７に基づいて、レンダリング関数がＳＨＣ１２５’をレンダリング可能である基準フレームを変換し、乗算演算を使用して、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することができ得る。

[0129]いくつかの例では、バイノーラルレンダリングユニット１４６は、バイノーラルオーディオレンダリングを実行するとき、決定された変換情報１２７に基づいて、レンダリング関数がＳＨＣ１２５’をレンダリング可能である基準フレームを変換し、畳み込み演算を必要とすることなく、乗算演算を使用して、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することができ得る。

[0130]いくつかの例では、バイノーラルレンダリングユニット１４６は、バイノーラルオーディオレンダリングを実行するとき、決定された変換情報１２７に基づいて、レンダリング関数がＳＨＣ１２５’をレンダリング可能である基準フレームを変換し、回転されたバイノーラルオーディオレンダリング関数を生成するために、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合し、左チャンネルと右チャンネル１６３とを生成するために、回転されたバイノーラルオーディオレンダリング関数をＳＨＣ１２５’に適用することができ得る。

[0131]いくつかの例では、オーディオ再生デバイス１４０Ａは、上記で説明されたバイノーラル化を実行するためにバイノーラルレンダリングユニット１４６を呼び出すことに加えて、符号化されたオーディオデータ１２９と変換情報１２７とを含むビットストリーム１３１を取り出し、ビットストリーム１３１からの符号化されたオーディオデータ１２９を解析し、ＳＨＣ１２５’を生成するために解析された符号化されたオーディオデータ１２９を復号するようにオーディオ復号ユニット１４４を呼び出すことができ得る。これらの例では、オーディオ再生デバイス１４０Ａは、ビットストリーム１３１からの変換情報１２７を解析することによって変換情報１２７を決定するために抽出ユニット１４２を呼び出すことができ得る。

[0132]いくつかの例では、オーディオ再生デバイス１４０Ａは、上記で説明されたバイノーラル化を実行するためにバイノーラルレンダリングユニット１４６を呼び出すことに加えて、符号化されたオーディオデータ１２９と変換情報１２７とを含むビットストリーム１３１を取り出し、ビットストリーム１３１からの符号化されたオーディオデータ１２９を解析し、ＳＨＣ１２５’を生成するために解析された符号化されたオーディオデータ１２９をａｄｖａｎｃｅｄａｕｄｉｏｃｏｄｉｎｇ（ＡＡＣ）方式に従って復号するようにオーディオ復号ユニット１４４を呼び出すことができ得る。これらの例では、オーディオ再生デバイス１４０Ａは、ビットストリーム１３１からの変換情報１２７を解析することによって変換情報１２７を決定するために抽出ユニット１４２を呼び出すことができ得る。

[0133]図６Ｂは、本開示において説明される技法の様々な態様を実行し得るオーディオ再生デバイス１４０Ｂの別の例を示すブロック図である。オーディオ再生デバイス１４０Ｂは、オーディオ再生デバイス１４０Ａ内に含まれる抽出ユニットおよびオーディオ復号ユニットと同じである抽出ユニット１４２とオーディオ復号ユニット１４４とを含むので、オーディオ再生デバイス１４０は、オーディオ再生デバイス１４０Ａに実質的に類似してよい。その上、オーディオ再生デバイス１４０Ｂは、バイノーラルレンダリングユニット１４６’が、上記でバイノーラルレンダリングユニット１４６に関してより詳細に説明された回転ユニット１５０、エネルギー保存ユニット１５２、複素数ＢＲＩＲユニット１５４、時間周波数分析ユニット１５６、複素数乗算ユニット１５８、加算ユニット１６０、および逆時間周波数分析ユニット１６２レンダラに加えて、ヘッドトラッキング補償ユニット１６４（「ヘッドトラッキング補償ユニット１６４」）をさらに含むことを除いて、オーディオ再生デバイス１４０Ａのバイノーラルレンダリングユニット１４６に実質的に類似したバイノーラルレンダリングユニット１４６’を含む。

[0134]ヘッドトラッキング補償ユニット１６４は、ヘッドトラッキング情報１６５と変換情報１２７とを受け取り、ヘッドトラッキング情報１６５に基づいて変換情報１２７を処理し、更新された変換情報１２７を出力するように構成されたユニットを表すことができ得る。ヘッドトラッキング情報１６５は、再生基準フレームとして感知または構成されるものに対して方位角角度と仰角角度と（すなわち、言い換えれば、１つまたは複数の球面座標）を指定することができ得る。

[0135]すなわち、ユーザはテレビなどのディスプレイに面して座らされてよく、ヘッドフォンは、音響学的ロケーション機構、ワイヤレス三角測量機構などを含む任意の数のロケーション識別機構を使用して設置され得る。ユーザの頭部は、この基準フレームに対して回転することができ得、ヘッドフォンは、ヘッドトラッキング情報１６５として検出し、ヘッドトラッキング補償ユニット１６４に提供することができ得る。ヘッドトラッキング補償ユニット１６４は、次いで、ユーザまたは聴取者の頭部の動きを考慮するようにヘッドトラッキング情報１６５に基づいて変換情報１２７を調整し、それによって、更新された変換情報１６７を生成することができ得る。次いで、レンダラ回転ユニット１５０とエネルギー保存ユニット１５２の両方が、この更新された変換ユニット情報１６７に対して動作することができ得る。

[0136]このようにして、ヘッドトラッキング補償ユニット１６４は、たとえばヘッドトラッキング情報１６５を決定することによって、ＳＨＣ１２５’によって表される音場に対する聴取者の頭部の位置を決定することができ得る。ヘッドトラッキング補償ユニット１６４は、決定された変換情報１２７および決定された聴取者の頭部の位置たとえばヘッドトラッキング情報１６５に基づいて、更新された変換情報１６７を決定することができ得る。バイノーラルレンダリングユニット１４６’の残りのユニットは、バイノーラルオーディオレンダリングを実行するとき、上記でオーディオ再生デバイス１４０Ａに関して説明された様式に類似した様式で、更新された変換情報１６７に基づいて、ＳＨＣ１２５’に対してバイノーラルオーディオレンダリングを実行することができ得る。

[0137]図７は、本開示において説明される技法の様々な態様によるオーディオ符号化デバイスによって実行される例示的な動作のモードを示す流れ図である。一般にＬ個のラウドスピーカーにわたって再現される空間的音場をバイノーラルヘッドフォン表現に変換するために、オーディオフレームごとにＬ×２の畳み込みが必要とされ得る。その結果、この従来のバイノーラル化方法は、ストリーミングシナリオでは算出的にコストが高いと考えられ得、それによって、オーディオのフレームは、中断されないリアルタイムで処理され出力されなければならない。使用されるハードウェアによっては、この従来のバイノーラル化プロセスは、利用可能であるよりも多くの算出コストを必要とすることがある。この従来のバイノーラル化プロセスは、時間領域畳み込みの代わりに周波数領域乗算を実行することによって、ならびに算出の複雑さを減少させるためにブロック単位の畳み込みを使用することによって、改善され得る。このバイノーラル化モデルをＨＯＡに適用することによって、一般に、算出の複雑さが、所望の音場を潜在的に適切に再現するためにＨＯＡ係数（Ｎ＋１）²よりも多くのラウドスピーカーの必要性により、さらに増加することがある。

[0138]対照的に、図７の例では、オーディオ符号化デバイスは、ＳＨＣの数を減少させるために音場を回転させるように例示的な動作のモード３００を適用することができ得る。動作のモード３００は、図５Ａのオーディオ符号化デバイス１２０に関して説明する。オーディオ符号化デバイス１２０は、球面調和係数を取得し（３０２）、ＳＨＣのための変換情報を取得するためにＳＨＣを分析する（３０４）。オーディオ符号化デバイス１２０は、変換情報に従って、ＳＨＣによって表される音場を回転させる（３０６）。オーディオ符号化デバイス１２０は、回転された音場を表した減少された球面調和係数（「減少されたＳＨＣ」）を生成する（３０８）。オーディオ符号化デバイス１２０はさらに、減少されたＳＨＣならびに変換情報をビットストリームに符号化し（３１０）、このビットストリームを出力または記憶する（３１２）ことができ得る。

[0139]図８は、本開示において説明される技法の様々な態様によるオーディオ再生デバイス（または「オーディオ復号デバイス」）によって実行される例示的な動作のモードを示す流れ図である。これらの技法は両方とも、閾値未満のＳＨＣの数を増加させるように最適に回転され、それによって、ＳＨＣの増加された除去をもたらし得るＨＯＡ信号を提供することができ得る。除去されるとき、結果として得られるＳＨＣは、（これらのＳＨＣは音場について説明する際に目立たないことを考えると）ＳＨＣの除去が感知できないように再生され得る。この変換情報（シータおよびファイすなわち（θ，φ））は、復号エンジンに、次いでバイノーラル再現方法（上記でより詳細に説明された）に送られる。本開示の技法は最初に、座標系が等しく回転されるように変換（または、この例では、回転）情報の送られたフォームの符号化エンジンの空間分析ブロックから、所望のＨＯＡレンダラを回転させることができ得る。続いて、破棄されたＨＯＡ係数はまた、レンダリング行列から破棄される。任意選択で、修正されたレンダラは、送られた回転された座標で音源を使用してエネルギー保存可能である。レンダリング行列は、左耳と右耳の両方のための意図されたラウドスピーカー位置のＢＲＩＲで乗算され、次いで、Ｌラウドスピーカー次元にわたって加算され得る。この時点で、信号が周波数領域にない場合、信号は周波数領域に変換され得る。その後、ＨＯＡ信号係数をバイノーラル化するために、複素数乗算が実行され得る。次いで、ＨＯＡ係数次元にわたって加算することによって、レンダラが信号に適用され得、２つのチャンネル周波数領域信号が取得され得る。信号は、最後に、信号を聴くために時間領域に変換され得る。

[0140]図８の例では、オーディオ再生デバイスは、例示的な動作のモード３２０を適用することができ得る。動作のモード３２０は、以下で図６Ａのオーディオ再生デバイス１４０Ａに関して説明する。オーディオ再生デバイス１４０Ａは、ビットストリームを取得し（３２２）、このビットストリームから、減少された球面調和係数（ＳＨＣ）と変換情報とを抽出する（３２４）。オーディオ再生デバイス１４０Ａは、変換情報に従ってレンダラをさらに回転させ（３２６）、バイノーラルオーディオ信号を生成するために、回転されたレンダラを減少されたＳＨＣに適用する（３２８）。オーディオ再生デバイス１４０Ａは、このバイノーラルオーディオ信号を出力する（３３０）。

[0141]本開示において説明される技法の利益は、畳み込みではなく乗算を実行することによって、算出費用が節約されることであり得る。第一に、ＨＯＡカウントはラウドスピーカーの数よりも小さくなければならないので、第二に、最適な回転によるＨＯＡ係数の減少のために、より少ない乗算の回数が必要とされることがある。ほとんどのオーディオコーデックは周波数領域に基づくので、時間領域信号ではなく周波数領域信号が出力可能であることが仮定され得る。また、ＢＲＩＲは、時間領域ではなく周波数領域において節約され、実行中の（on-the-fly）フーリエベース変換の算出を潜在的に省くことができ得る。

[0142]図９は、本開示において説明される技法の様々な態様を実行し得るオーディオ符号化デバイス５７０の別の例を示すブロック図である。図９の例では、次数減少ユニットは、音場成分抽出ユニット５２０の中に含まれると仮定されるが、説明を簡単にするために図示されない。しかしながら、オーディオ符号化デバイス５７０は、いくつかの例では分解ユニットを備えることがある、より一般的な変換ユニット５７２を含むことができ得る。

[0143]図１０は、図９の例に示されるオーディオ符号化デバイス５７０の例示的な実装形態をより詳細に示すブロック図である。図１０の例に示されるように、オーディオ符号化デバイス５７０の変換ユニット５７２は回転ユニット６５４を含む。オーディオ符号化デバイス５７０の音場成分抽出ユニット５２０は、空間分析ユニット６５０と、コンテンツ特性分析ユニット６５２と、コヒーレント成分抽出ユニット６５６と、拡散成分抽出ユニット６５８とを含む。オーディオ符号化デバイス５７０のオーディオ符号化ユニット５１４は、ＡＡＣコーディングエンジン６６０と、ＡＡＣコーディングエンジン１６２とを含む。オーディオ符号化デバイス５７０のビットストリーム生成ユニット５１６は、マルチプレクサ（ＭＵＸ）１６４を含む。

[0144]ＳＨＣの形態の３Ｄオーディオデータを表すために必要とされる帯域幅−ビット／秒に関して−は、消費者の使用に関して禁止とすることがある。たとえば、４８ｋＨｚのサンプリングレートを使用するとき、および３２ビット／同じ分解能を用いて−４次ＳＨＣ表現は、３６Ｍｂｉｔｓ／秒（２５×４８０００×３２ｂｐｓ）の帯域幅を表す。一般に約１００ｋｂｉｔｓ／秒である、ステレオ信号のための最先端のオーディオコーディングと比較すると、これは大きい数字である。図１０の例において実施される技法は、３Ｄオーディオ表現の帯域幅を減少させることができる。

[0145]空間分析ユニット６５０、コンテンツ特性分析ユニット６５２、および回転ユニット６５４は、ＳＨＣ５１１Ａを受け取ることができ得る。本開示の他の場所で説明されるように、ＳＨＣ５１１Ａは音場を表すことができ得る。ＳＨＣ５１１Ａは、ＳＨＣ２７またはＨＯＡ係数１１の一例を表すことができ得る。図１０の例では、空間分析ユニット６５０、コンテンツ特性分析ユニット６５２、および回転ユニット６５４は、音場の４次（ｎ＝４）表現のための２５のＳＨＣを受け取ることができ得る。

[0146]空間分析ユニット６５０は、音場の別個の成分と音場の拡散成分とを識別するためにＳＨＣ５１１Ａによって表される音場を分析することができる。音場の別個の成分とは、識別可能な方向から来ると知覚されるまたは音場のバックグラウンド成分すなわち拡散成分とは別個の音である。たとえば、個々の楽器によって生成される音は、識別可能な方向から来ると知覚され得る。対照的に、音場のバックグラウンド成分すなわち拡散成分は、識別可能な方向から来ると知覚されない。たとえば、森を通る風の音は、音場の拡散成分であり得る。

[0147]空間分析ユニット６５０は、最も多いエネルギーを有する別個の成分のそれを垂直軸および／または水平軸（この音場を記録した推定されたマイクロフォンに対する）と位置合わせするために音場を回転させる最適な角度を識別しようとする１つまたは複数の別個の成分を識別することができ得る。空間分析ユニット６５０は、これらの別個の成分が図１および図２の例に示される基礎をなす球面基底関数とより良く位置合わせするように音場が回転され得るように、この最適な角度を識別することができる。

[0148]いくつかの例では、空間分析ユニット６５０は、拡散音（低レベルの方向または低次ＳＨＣを有する音を指すことがあり、ＳＨＣ５１１ＡのＳＨＣが１以下の次数を有することを意味する）を含むＳＨＣ５１１Ａによって表される音場のパーセンテージを識別するために一種の拡散分析を実行するように構成されたユニットを表すことができる。一例として、空間分析ユニット６５０は、２００７年６月付けのＪ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．第５５巻第６号で公開された「ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ」という名称の、ＶｉｌｌｅＰｕｌｋｋｉによる論文で説明される様式に類似した様式で拡散分析を実行することができる。いくつかの例では、空間分析ユニット６５０は、拡散パーセンテージを決定するために拡散分析を実行するとき、ＳＨＣ５１１Ａのゼロ次サブセットおよび第１次サブセットなどのＨＯＡ係数の非ゼロサブセットのみを分析することがある。

[0149]コンテンツ特性分析ユニット６５２は、ＳＨＣ５１１Ａに少なくとも部分的に基づいて、ＳＨＣ５１１Ａが音場の自然な記録を介して生成されたのかまたは一例としてＰＣＭオブジェクトなどのオーディオオブジェクトから人工的に（すなわち、合成して）生成されたのか決定することができる。その上、コンテンツ特性分析ユニット６５２は、次いで、ＳＨＣ５１１Ａが音場の自然な記録を介して生成されたのかまたは人工的なオーディオオブジェクトから生成されたのかに少なくとも部分的に基づいて、ビットストリーム５１７に含むべきチャンネルの総数を決定することができる。たとえば、コンテンツ特性分析ユニット６５２は、ＳＨＣ５１１Ａが音場の自然な記録を介して生成されたのかまたは人工的なオーディオオブジェクトから生成されたのかに少なくとも部分的に基づいて、ビットストリーム５１７が１６のチャンネルを含むべきであると決定することができる。チャンネルの各々はモノラルチャンネルであってよい。コンテンツ特性分析ユニット６５２は、さらに、ビットストリーム５１７の出力ビットレート、たとえば１．２Ｍｂｐｓに基づいて、ビットストリーム５１７に含まれるべきチャンネルの総数の決定を実行することができる。

[0150]さらに、コンテンツ特性分析ユニット６５２は、ＳＨＣ５１１Ａが実際の音場の記録から生成されたのかまたは人工的なオーディオオブジェクトから生成されたのかに少なくとも部分的に基づいて、チャンネルのうちいくつが音場のコヒーレント成分または言い換えれば別個の成分に割り振るべきか、およびチャンネルのうちいくつが音場の拡散成分または言い換えればバックグラウンド成分に割り振るべきか、決定することができる。たとえば、ＳＨＣ５１１Ａが一例としてＥｉｇｅｎｍｉｃを使用して実際の音場の記録から生成されたとき、コンテンツ特性分析ユニット６５２は、チャンネルのうち３つを音場のコヒーレント成分に割り振ることがあり、残りのチャンネルを音場の拡散成分に割り振ることがある。この例では、ＳＨＣ５１１Ａが人工的なオーディオオブジェクトから生成されたとき、コンテンツ特性分析ユニット６５２は、チャンネルのうち５つを音場のコヒーレント成分に割り振ることがあり、残りのチャンネルを音場の拡散成分に割り振ることがある。このようにして、コンテンツ分析ブロック（すなわち、コンテンツ特性分析ユニット６５２）は、音場のタイプ（たとえば、拡散／方向性など）を決定し、次に抽出するべきコヒーレント／拡散成分の数を決定することができる。

[0151]目標ビットレートは、成分の数と、個々のＡＡＣコーディングエンジン（たとえば、ＡＡＣコーディングエンジン６６０、６６２）のビットレートとに影響を及ぼすことができる。言い換えれば、コンテンツ特性分析ユニット６５２は、さらに、ビットストリーム５１７の出力ビットレート、たとえば１．２Ｍｂｐｓに基づいて、いくつのチャンネルがコヒーレント成分に割り振るべきかおよびいくつのチャンネルが拡散成分に割り振るべきかという決定を実行することができる。

[0152]いくつかの例では、音場のコヒーレント成分に割り振られるチャンネルは、音場の拡散成分に割り振られるチャンネルよりも大きいビットレートを有することがある。たとえば、ビットストリーム５１７の最大ビットレートが１．２Ｍｂ／ｓｅｃであることがある。この例では、コヒーレント成分に割り振られる４つのチャンネルおよび拡散成分に割り振られる１６のチャンネルが存在することがある。その上、この例では、コヒーレント成分に割り振られるチャンネルの各々は、６４ｋｂ／ｓｅｃの最大ビットレートを有することがある。この例では、拡散成分に割り振られるチャンネルの各々は、４８ｋｂ／ｓｅｃの最大ビットレートを有することがある。

[0153]上述のように、コンテンツ特性分析ユニット６５２は、ＳＨＣ５１１Ａが実際の音場の記録から生成されたのかまたは人工的なオーディオオブジェクトから生成されたのか決定することができる。コンテンツ特性分析ユニット６５２は、この決定を様々な方法で行うことができる。たとえば、オーディオ符号化デバイス５７０は、第４次ＳＨＣを使用することがある。この例では、コンテンツ特性分析ユニット６５２は、２４のチャンネルをコーディングし、２５番目のチャンネル（ベクトルとして表され得る）を予測することができる。コンテンツ特性分析ユニット６５２は、２５番目のベクトルを決定するために、２４のチャンネルのうち少なくともいくつかにスカラーを適用し、結果として得られる値を追加することができる。その上、この例では、コンテンツ特性分析ユニット６５２は、予測された２５番目のチャンネルの精度を決定することがある。この例では、予測された２５番目のチャンネルの精度が比較的高い（たとえば、精度が特定の閾値を超える）場合、ＳＨＣ５１１Ａは、合成オーディオオブジェクトから生成された可能性がある。対照的に、予測された２５番目のチャンネルの精度が比較的低い（たとえば、精度が特定の閾値を下回る）場合、ＳＨＣ５１１Ａは、記録された音場を表す可能性が高い。たとえば、この例では、２５番目のチャンネルの信号対雑音比（ＳＮＲ）が１００デシベル（ｄｂ）を超える場合、ＳＨＣ５１１Ａは、合成オーディオオブジェクトから生成された音場を表す可能性が高い。対照的に、Ｅｉｇｅｎマイクロフォンを使用して記録された音場のＳＮＲは５〜２０ｄｂであることがある。したがって、実際の直接的な記録から生成されたＳＨＣ５１１Ａによって表される音場と合成オーディオオブジェクトから生成されたＳＨＣ２７によって表される音場の間に、ＳＮＲ比における明らかな境界が存在することがある。

[0154]その上、コンテンツ特性分析ユニット６５２は、ＳＨＣ５１１Ａが音場の自然な記録を介して生成されたのかまたは人工的なオーディオオブジェクトから生成されたのかに少なくとも部分的に基づいて、Ｖベクトルを量子化するためのコードブックを選択することができる。言い換えれば、コンテンツ特性分析ユニット６５２は、ＨＯＡ係数によって表される音場が記録されたのかまたは合成であるのかに応じて、Ｖベクトルを量子化するのに使用するための異なるコードブックを選択することができる。

[0155]いくつかの例では、コンテンツ特性分析ユニット６５２は、ＳＨＣ５１１Ａが実際の音場の記録から生成されたのかまたは人工的なオーディオオブジェクトから生成されたのか繰り返し決定することができる。いくつかのそのような例では、この繰返しの基準は、フレームごとであることがある。他の例では、コンテンツ特性分析ユニット６５２は、この決定を１回実行することができる。その上、コンテンツ特性分析ユニット６５２は、チャンネルの総数と、チャンネルコヒーレント成分チャンネルおよび拡散成分の割当てとを繰り返し決定することができる。いくつかのそのような例では、この繰返しの基準は、フレームごとであることがある。他の例では、コンテンツ特性分析ユニット６５２は、この決定を１回実行することができる。いくつかの例では、コンテンツ特性分析ユニット６５２は、Ｖベクトルを量子化するのに使用するためのコードブックを繰り返し選択することができる。いくつかのそのような例では、この繰返しの基準は、フレームごとであることがある。他の例では、コンテンツ特性分析ユニット６５２は、この決定を１回実行することができる。

[0156]回転ユニット６５４は、ＨＯＡ係数の回転演算を実行することができる。本開示の他の場所で（たとえば、図１１Ａおよび図１１Ｂに関して）説明されるように、回転演算を実行することによって、ＳＨＣ５１１Ａを表すために必要とされるビットの数が減少することができる。いくつかの例では、回転ユニット６５２によって実行される回転分析は、特異値分解（ＳＶＤ）分析の一例である。主成分分析（ＰＣＡ）、独立成分分析（ＩＣＡ）、およびカルーネン−レーベ変換（ＫＬＴ）は、適用可能であり得る関連技法である。

[0157]図１０の例では、コヒーレント成分抽出ユニット６５６は、回転されたＳＨＣ５１１Ａを回転ユニット６５４から受け取る。その上、コヒーレント成分抽出ユニット６５６は、回転されたＳＨＣ５１１Ａから、音場のコヒーレント成分に関連付けられた回転されたＳＨＣ５１１Ａの成分を抽出する。

[0158]さらに、コヒーレント成分抽出ユニット６５６は、１つまたは複数のコヒーレント成分チャンネルを生成する。コヒーレント成分チャンネルの各々は、音場のコヒーレント係数に関連付けられた回転されたＳＨＣ５１１Ａの異なるサブセットを含むことができる。図１０の例では、コヒーレント成分抽出ユニット６５６は、１から１６のコヒーレント成分チャンネルを生成することができる。コヒーレント成分抽出ユニット６５６によって生成されるコヒーレント成分チャンネルの数は、コンテンツ特性分析ユニット６５２によって音場のコヒーレント成分に割り振られるチャンネルの数によって決定され得る。コヒーレント成分抽出ユニット６５６によって生成されるコヒーレント成分チャンネルのビットレートは、コンテンツ特性分析ユニット６５２によって決定され得る。

[0159]同様に、図１０の例では、拡散成分抽出ユニット６５８は、回転されたＳＨＣ５１１Ａを回転ユニット６５４から受け取る。その上、拡散成分抽出ユニット６５８は、回転されたＳＨＣ５１１Ａから、音場の拡散成分に関連付けられた回転されたＳＨＣ５１１Ａの成分を抽出する。

[0160]さらに、拡散成分抽出ユニット６５８は、１つまたは複数の拡散成分チャンネルを生成する。拡散成分チャンネルの各々は、音場の拡散係数に関連付けられた回転されたＳＨＣ５１１Ａの異なるサブセットを含むことができる。図１０の例では、拡散成分抽出ユニット６５８は、１から９の拡散成分チャンネルを生成することができる。拡散成分抽出ユニット６５８によって生成される拡散成分チャンネルの数は、コンテンツ特性分析ユニット６５２によって音場の拡散成分に割り振られるチャンネルの数によって決定され得る。拡散成分抽出ユニット６５８によって生成される拡散成分チャンネルのビットレートは、コンテンツ特性分析ユニット６５２によって決定され得る。

[0161]図１０の例では、ＡＡＣコーディングユニット６６０は、コヒーレント成分抽出ユニット６５６によって生成されるコヒーレント成分チャンネルを符号化するためにＡＡＣコーデックを使用することができ得る。同様に、ＡＡＣコーディングユニット６６２は、拡散成分抽出ユニット６５８によって生成される拡散成分チャンネルを符号化するためにＡＡＣコーデックを使用することができ得る。マルチプレクサ６６４（「ＭＵＸ６６４」）は、ビットストリーム５１７を生成するために、サイドデータ（たとえば、空間分析ユニット６５０によって決定される最適な角度）とともに、符号化されたコヒーレント成分チャンネルと符号化された拡散成分チャンネルとを多重化することができる。

[0162]このようにして、技法は、オーディオ符号化デバイス５７０が、音場を表す球面調和係数が合成オーディオオブジェクトから生成されるかどうか決定することを可能にすることができ得る。

[0163]いくつかの例では、オーディオ符号化デバイス５７０は、球面調和係数が合成オーディオオブジェクトから生成されるかどうかに基づいて、音場の別個の成分を表す球面調和係数のサブセットを決定することができ得る。これらおよび他の例では、オーディオ符号化デバイス５７０は、球面調和係数のサブセットを含むようにビットストリームを生成することができ得る。オーディオ符号化デバイス５７０は、いくつかの例では、球面調和係数のサブセットをオーディオ符号化し、球面調和係数のオーディオ符号化されたサブセットを含むようにビットストリームを生成することができ得る。

[0164]いくつかの例では、オーディオ符号化デバイス５７０は、球面調和係数が合成オーディオオブジェクトから生成されるかどうかに基づいて、音場のバックグラウンド成分を表す球面調和係数のサブセットを決定することができ得る。これらおよび他の例では、オーディオ符号化デバイス５７０は、球面調和係数のサブセットを含むようにビットストリームを生成することができ得る。これらおよび他の例では、オーディオ符号化デバイス５７０は、球面調和係数のサブセットをオーディオ符号化し、球面調和係数のオーディオ符号化されたサブセットを含むようにビットストリームを生成することができ得る。

[0165]いくつかの例では、オーディオ符号化デバイス５７０は、回転された球面調和係数を生成するために、球面調和係数によって表される音場を回転させる角度を識別し、この識別された角度だけ音場を回転させる回転演算を実行するために、球面調和係数に対して空間分析を実行することができ得る。

[0166]いくつかの例では、オーディオ符号化デバイス５７０は、球面調和係数が合成オーディオオブジェクトから生成されるかどうかに基づいて、音場の別個の成分を表す球面調和係数の第１のサブセット、および球面調和係数が合成オーディオオブジェクトから生成されるかどうかに基づいて、音場のバックグラウンド成分を表す球面調和係数の第２のサブセットを決定することができ得る。これらおよび他の例では、オーディオ符号化デバイス５７０は、球面調和係数の第２の対象をオーディオ符号化するために使用される目標ビットレートよりも高い目標ビットレートを有する球面調和係数の第１のサブセットをオーディオ符号化することができ得る。

[0167]図１１Ａおよび図１１Ｂは、音場６４０を回転させるために本開示において説明される技法の様々な態様を実行する一例を示す図である。図１１Ａは、本開示で説明される技法の様々な態様による回転の前の音場６４０を示す図である。図１１Ａの例では、音場６４０は、ロケーション６４２Ａおよび６４２Ｂと示される、高圧の２つのロケーションを含む。これらのロケーション６４２Ａおよび６４２Ｂ（「ロケーション６４２」）は、ゼロでない傾きを有する線６４４に沿って存在する（水平線はゼロの傾きを有するので、これは、水平でない線を指す別の方法である）。ロケーション６４２はｘ座標およびｙ座標に加えてｚ座標を有することを考えると、高次球面基底関数は、この音場６４０を適切に表すために必要とされ得る（これらの高次球面基底関数は、音場の上部部分と下部部分または非水平部分について説明するので。音場６４０をＳＨＣ５１１Ａに直接的に減少させるのではなく、オーディオ符号化デバイス５７０は、ロケーション６４２をつなぐ線６４４が水平になるまで、音場６４０を回転させることができ得る。

[0168]図１１Ｂは、ロケーション６４２をつなぐ線６４４が水平になるまで回転された後の音場６４０を示す図である。この様式で音場６４０を回転させた結果、回転された音場６４０はもはや、ｚ座標を有する圧力（またはエネルギー）のロケーションを持たないことを考えると、ＳＨＣ５１１Ａは、ＳＨＣ５１１Ａの高次ＳＨＣがゼロと指定されるように導出され得る。このようにして、オーディオ符号化デバイス５７０は、非ゼロ値を有するＳＨＣ５１１Ａの数を減少させるように音場６４０を回転させ、平行移動させ、またはより一般的には、調整することができる。技法の様々な他の態様に関連して、オーディオ符号化デバイス５７０は、次いで、ＳＨＣ５１１Ａのこれらの高次ＳＨＣがゼロ値を有することを識別する３２ビット符号付き数を知らせるのではなく、ＳＨＣ５１１Ａのこれらの高次ＳＨＣが知らされないことをビットストリーム５１７のフィールド内で知らせることができ得る。オーディオ符号化デバイス５７０はまた、多くの場合は上記で説明された様式で方位角と仰角とを表すことによって、音場６４０がどのように回転されたかを示す、ビットストリーム５１７内の回転情報を指定することができ得る。オーディオ符号化デバイスなどのなどの抽出デバイスは、次いで、ＳＨＣ５１１Ａのこれらの知らされなかったＳＨＣはゼロ値を有し、ＳＨＣ５１１Ａに基づいて音場６４０を再現するとき、図１１Ａの例に示された音場６４０に音場６４０が似ているように音場６４０を回転させるために回転を実行することを暗示することができ得る。このようにして、オーディオ符号化デバイス５７０は、本開示において説明される技法によりビットストリーム５１７内で指定されるために必要とされるＳＨＣ５１１Ａの数を減少させることができ得る。

[0169]「空間コンパクション（compaction）」アルゴリズムは、音場の最適な回転を決定するために使用され得る。一実施形態では、オーディオ符号化デバイス５７０は、可能な方位角と仰角の組合せ（すなわち、上記の例では１０２４×５１２の組合せ）のすべてを反復し、各組合せに対して音場を回転させ、閾値を上回るＳＨＣ５１１Ａの数を計算するためにアルゴリズムを実行することができる。閾値を上回るＳＨＣ５１１Ａの最小数を生じさせる方位角／仰角候補の組合せは、「最適な回転」と呼ばれることがあるものと考えられ得る。この回転された形態では、音場は、音場を表すためのＳＨＣ５１１Ａの最小数を必要とすることがあり、次いで、コンパクションされると考えられ得る。いくつかの例では、調整は、この最適な回転を備えることがあり、上記で説明された調整情報は、この回転（「最適な回転」と呼ばれることがある）情報（方位角角度および仰角角度に関する）を含むことがある。

[0170]いくつかの例では、方位角角度と仰角角度とを指定するのではなく、オーディオ符号化デバイス５７０は、一例としてオイラー角の形態をした追加の角度を指定することがある。オイラー角は、ｚ軸、前ｘ軸、および前ｚ軸のまわりでの回転の角度を指定する。本開示では方位角角度と仰角角度の組合せに関して説明されているが、本開示の技法は、方位角角度と仰角角度のみを指定することに限定されるべきではなく、上記で述べられた３つのオイラー角を含む任意の数の角度を指定することを含んでよい。この意味で、オーディオ符号化デバイス５７０は、音場について説明するのに関連する情報を提供しビットストリーム内の回転情報としてオイラー角を指定する複数の階層的な要素の数を減少させるために音場を回転させることがある。オイラー角は、前述のように、音場がどのように回転されたかについて説明することができる。オイラー角を使用するとき、ビットストリーム抽出デバイスは、オイラー角を含む回転情報を決定するためにビットストリームを解析し、さらに、音場について説明するのに関連する情報を提供する複数の階層的な要素のビットに基づいて音場を再現するとき、オイラー角に基づいて音場を回転させることができる。

[0171]その上、いくつかの例では、これらの角度をビットストリーム５１７内で明示的に指定するのではなく、オーディオ符号化デバイス５７０は、回転を指定する１つまたは複数の角度のあらかじめ定義された組合せに関連付けられたインデックス（「回転インデックス」と呼ばれることがある）を指定することができる。言い換えれば、回転情報は、いくつかの例では、回転インデックスを含むことがある。これらの例では、ゼロの値などの回転インデックスの所与の値は、回転が実行されなかったことを示すことがある。この回転インデックスは、回転テーブルに関連して使用され得る。すなわち、オーディオ符号化デバイス５７０は、方位角角度と仰角角度の組合せの各々に関するエントリを備える回転テーブルを含むことができる。

[0172]代替的に、回転テーブルは、方位角角度と仰角角度の各組合せを表す各行列変換に関するエントリを含むことがある。すなわち、オーディオ符号化デバイス５７０は、方位角角度と仰角角度の組合せの各々によって音場を回転させるための各行列変換に関するエントリを有する回転テーブルを記憶することがある。一般に、オーディオ符号化デバイス５７０はＳＨＣ５１１Ａを受け取り、回転が実行されるとき、以下の式に従ってＳＨＣ５１１Ａ’を導出する。

[0173]上記の式では、ＳＨＣ５１１Ａ’は、第２の基準フレーム（ＥｎｃＭａｔ₂）に関して音場を符号化するための符号化行列、第１の基準フレーム（ＩｎｖＭａｔ₁）に関してＳＨＣ５１１Ａを音場に戻すための逆行列、およびＳＨＣ５１１Ａの関数として算出される。ＥｎｃＭａｔ₂は２５×３２の大きさであり、ＩｎｖＭａｔ₂は３２×２５の大きさである。ＳＨＣ５１１Ａ’とＳＨＣ５１１Ａの両方が２５の大きさであり、ＳＨＣ５１１Ａ’は、目立つオーディオ情報を指定しないＳＨＣ５１１Ａ’の除去により、さらに減少されてよい。ＥｎｃＭａｔ₂は、方位角角度と仰角角度の各組合せに対して変化してもよいが、ＩｎｖＭａｔ₁は、方位角角度と仰角角度の各組合せに対して変化しないままであってよい。回転テーブルは、各異なるＥｎｃＭａｔ₂をＩｎｖＭａｔ₁に乗算した結果を記憶するためのエントリを含んでよい。

[0174]図１２は、第１の基準フレームに従って捕捉され、次いで第２の基準フレームに対して音場を表すために本開示において説明される技法に従って回転される例示的な音場を示す図である。図１２の例では、Ｅｉｇｅｎマイクロフォン６４６を取り囲む音場は、図１２の例ではＸ₁軸、Ｙ₁軸、およびＺ₁軸によって示される第１の基準フレームを仮定して捕捉される。ＳＨＣ５１１Ａは、この第１の基準フレームに対して、音場について説明する。ＩｎｖＭａｔ₁は、ＳＨＣ５１１Ａを変換して音場に戻し、音場を、図１２の例ではＸ₂軸、Ｙ₂軸、およびＺ₂軸によって示される第２の基準フレームに回転させることを可能にする。上記で説明されたＥｎｃＭａｔ₂は、音場を回転させ、この回転された音場について第２の基準フレームに対して説明するＳＨＣ５１１Ａ’を生成することができる。

[0175]いずれにしても、上記の式は、次のように導出され得る。音場は、正面がｘ軸の方向と見なされるように、特定の座標系を用いて記録されることを考えると、Ｅｉｇｅｎマイクロフォンの３２のマイクロフォン位置（または他のマイクロフォン構成）は、この基準座標系から定義される。次いで、音場の回転は、この基準フレームの回転と見なされ得る。仮定される基準フレームに対して、ＳＨＣ５１１Ａは、次のように計算され得る。

[0176]上記の式では、

は、ｉ番目のマイクロフォン（ここで、この例では、ｉは１〜３２とすることができる）の位置（Ｐｏｓ_i）における球面基底関数を表す。ｍｉｃ_iベクトルは、時刻ｔに対するｉ番目のマイクロフォンのためのマイクロフォン信号を示す。位置（Ｐｏｓ_i）は、第１の基準フレーム（すなわち、この例では、回転の前の基準フレーム）におけるマイクロフォンの位置を指す。

[0177]上記の式は、代替的に、上記で示された数式に関して

と表され得る。

[0178]音場を（または第２の基準フレーム内で）回転させるために、位置（Ｐｏｓ_i）は第２の基準フレーム内で計算される。元のマイクロフォン信号が存在する限り、音場は、恣意的に回転されてよい。しかしながら、元のマイクロフォン信号（ｍｉｃ_i（ｔ））は入手不可能なことが多い。その場合、問題は、マイクロフォン信号（ｍｉｃ_i（ｔ））をＳＨＣ５１１Ａからどのように取り出すかであることがある。（３２マイクロフォンＥｉｇｅｎマイクロフォンの場合のように）Ｔ字型設計が使用される場合、この問題の解決策は、以下の式を解くことによって達成され得る。

[0179]このＩｎｖＭａｔ₁は、第１の基準フレームに対して指定されたマイクロフォンの位置に従って算出される球面調和基底関数を指定することができる。この式は、前述のように、［ｍｉｃ_i（ｔ）］＝［Ｅ_s（θ，φ）］^-1［ＳＨＣ］として表されることもある。

[0180]マイクロフォン信号（ｍｉｃ_i（ｔ））が、ひとたび上記の式によって取り出されると、音場について説明するマイクロフォン信号（ｍｉｃ_i（ｔ））は、第２の基準フレームに対応するＳＨＣ５１１Ａ’を算出するために回転され、以下の式になり得る。

[0181]ＥｎｃＭａｔ₂は、回転された位置（Ｐｏｓ_i’）から球面調和基底関数を指定する。このようにして、ＥｎｃＭａｔ₂は、方位角角度と仰角角度の組合せを効果的に指定することができる。したがって、回転テーブルが、方位角角度と仰角角度の各組合せに対する

の結果を記憶するとき、回転テーブルは、方位角角度と仰角角度の各組合せを効果的に指定する。上記の式は、

と表され得る。

[0182]ここで、θ₂，φ₂は、第２の方位角角度および第２の仰角角度異なる形態θ₁，φ₁によって表される第１の方位角角度および仰角角度を表す。θ₁，φ₁は第１の基準フレームに対応し、θ₂，φ₂は第２の基準フレームに対応する。したがって、ＩｎｖＭａｔ₁は［Ｅ_s（θ₁，φ₁）］^-1に対応することができ、ＥｎｃＭａｔ₂は［Ｅ_s（θ₂，φ₂）］に対応することができる。

[0183]上記は、次数ｎの球ベッセル関数を指すｊ_n（・）関数によって周波数領域におけるＳＨＣ５１１Ａの導出を示す様々な式において上記で表されるフィルタリング演算を考慮しない算出のより簡略化されたバージョンを表すことができる。時間領域では、このｊ_n（・）関数は、特定の次数ｎに固有のフィルタリング演算を表す。フィルタリングにより、回転は、次数ごとに実行され得る。例示するために、以下の式について考える。

[0184]これらの式から、ｂ_n（ｔ）は各次数に対して異なるので、次数に対する回転されたＳＨＣ５１１Ａ’は個別に行われる。その結果、上記の式は、回転されたＳＨＣ５１１Ａ’の第１次サブセットを算出するために、次のように変更されてよい。

[0185]ＳＨＣ５１１Ａの３つの第１次サブセットが存在することを考えると、ＳＨＣ５１１Ａ’ベクトルおよびＳＨＣ５１１Ａベクトルの各々は、上記の式では、大きさは３である。同様に、第２次の場合、以下の式が適用され得る。

[0186]この場合も、ＳＨＣ５１１Ａの５つの第２次サブセットが存在することを考えると、ＳＨＣ５１１Ａ’ベクトルおよびＳＨＣ５１１Ａベクトルの各々は、上記の式では、大きさは５である。他の次数すなわち第３次および第４次に対する残りの式は、（ＥｎｃＭａｔ₂の行の数、ＩｎｖＭａｔ₁の列の数、ならびに第３次および第４次のＳＨＣ５１１ＡベクトルおよびＳＨＣ５１１Ａ’ベクトルの大きさが第３次球面調和基底関数および第４次球面調和基底関数の各々の副次数の数（ｍ×２＋１）に等しいので）行列の大きさに関する同じパターンに従って、上記で説明された式と類似であってよい。

[0187]したがって、オーディオ符号化デバイス５７０は、いわゆる最適な回転を識別しようとして、方位角と仰角角度のあらゆる組合せに対して、この回転演算を実行することができる。オーディオ符号化デバイス５７０は、この回転演算を実行した後、閾値を上回るＳＨＣ５１１Ａ’の数を算出することができる。いくつかの例では、オーディオ符号化デバイス５７０は、オーディオフレームなどの持続時間にわたって音場を表す一連のＳＨＣ５１１Ａ’を導出するために、この回転を実行することができる。この持続時間にわたって音場を表す一連のＳＨＣ５１１Ａ’を導出するためにこの回転を実行することによって、オーディオ符号化デバイス５７０は、フレームまたは他の長さよりも短い持続時間にわたって音場について説明するＳＨＣ５１１Ａの各セットに対してこれを行うために比較すると、実行されなければならない回転演算の数を減少させることができる。いずれにしても、オーディオ符号化デバイス５７０は、このプロセス全体を通して、閾値よりも大きいＳＨＣ５１１Ａ’の最小数を有するＳＨＣ５１１Ａ’のビットを保存することができる。

[0188]しかしながら、方位角と仰角角度のあらゆる組合せに対してこの回転演算を実行することは、プロセッサの負荷が高かったり時間がかかったりすることがある。その結果、オーディオ符号化デバイス５７０は、回転アルゴリズムのこの「力づくの（brute force）」実装形態と特徴づけられるものを実行しないことがある。代わりに、オーディオ符号化デバイス５７０は、一般に良いコンパクションを提供する方位角角度と仰角角度のおそらく既知の（統計学的に）組合せのサブセットに対して回転を実行し、サブセット内の他の組合せと比較して良いコンパクションを提供するこのサブセットのそれらの近くの組合せに対してさらなる回転を実行することがある。

[0189]別の代替として、オーディオ符号化デバイス５７０は、組合せの既知のサブセットのみに対してこの回転を実行することがある。別の代替として、オーディオ符号化デバイス５７０は、組合せの軌道を（空間的に）たどり、この組合せの起動に対して回転を実行することがある。別の代替として、オーディオ符号化デバイス５７０は、閾値を上回る非ゼロ値を有するＳＨＣ５１１Ａ’の最大数を定義するコンパクション閾値を指定することがある。このコンパクション閾値は、オーディオ符号化デバイス５７０が回転を実行し、設定された閾値を上回る値を有するＳＨＣ５１１Ａ’の数がコンパクション閾値以下である（または、いくつかの例では、コンパクション閾値よりも少ない）と決定するとき、オーディオ符号化デバイス５７０は、残りの組合せに対して追加の回転演算を実行するのを止めるように、調査に対する停止点を効果的に設定することができる。さらに別の代替として、オーディオ符号化デバイス５７０は、組合せの階層的に配置されたツリー（または他のデータ構造）を通り、現在の組合せに対して回転演算を実行し、閾値よりも大きい非ゼロ値を有するＳＨＣ５１１Ａ’の数に応じてツリーを右または左に（たとえば、バイナリツリーの場合）通ることがある。

[0190]この意味で、これらの代替の各々は、第１の回転演算と第２の回転演算とを実行することと、閾値よりも大きい非ゼロ値を有するＳＨＣ５１１Ａ’の最小数という結果になる第１の回転演算と第２の回転演算のうち１つを特定するために第１の回転演算と第２の回転演算とを実行した結果を比較することとを含む。したがって、オーディオ符号化デバイス５７０は、第１の方位角角度および第１の仰角角度に従って音場を回転させ、音場について説明するのに関連する情報を提供する第１の方位角角度および第１の仰角角度に従って回転された音場を表す複数の階層的な要素の第１の数を決定するために、音場に対して第１の回転演算を実行することができる。オーディオ符号化デバイス５７０はまた、第２の方位角角度および第２の仰角角度に従って音場を回転させ、音場について説明するのに関連する情報を提供する第２の方位角角度および第２の仰角角度に従って回転された音場を表す複数の階層的な要素の第２の数を決定するために、音場に対して第２の回転演算を実行することができる。その上、オーディオ符号化デバイス５７０は、複数の階層的な要素の第１の数と複数の階層的な要素の第２の数の比較に基づいて、第１の回転演算または第２の回転演算を選択することができる。

[0191]いくつかの例では、回転アルゴリズムは持続時間に対して実行されることがあり、ここで、回転アルゴリズムのその後の呼出しは、回転アルゴリズムの過去の呼出しに基づいて回転演算を実行することができる。言い換えれば、回転アルゴリズムは、過去の持続時間にわたって音場を回転させたとき、決定された過去の回転情報に基づいて適応的であることがある。たとえば、オーディオ符号化デバイス５７０は、第１の持続時間たとえばオーディオフレームにわたってＳＨＣ５１１Ａ’を識別するために、この第１の持続時間にわたって音場を回転させることができる。オーディオ符号化デバイス５７０は、上記で説明された方法のうちいずれかにおいて、ビットストリーム５１７内で回転情報とＳＨＣ５１１Ａ’とを指定することができる。この回転情報は、第１の持続時間にわたって音場の回転について説明するので、第１の回転情報と呼ばれることがある。次いで、オーディオ符号化デバイス５７０は、第２の持続時間たとえば第２のオーディオフレームにわたってＳＨＣ５１１Ａ’を識別するために、この第１の回転情報に基づいて、この第２の持続時間にわたって音場を回転させることができる。オーディオ符号化デバイス５７０は、一例として、方位角角度と仰角角度の「最適な」組合せに対して調査を初期化するために、第２の持続時間にわたって第２の回転演算を実行するとき、この第１の回転情報を利用することができる。次いで、オーディオ符号化デバイス５７０は、ビットストリーム５１７内で第２の持続時間（「第２の回転情報」と呼ばれることがある）に対するＳＨＣ５１１Ａ’および対応する回転情報を指定することができる。

[0192]処理時間および／または消費を減少させるために回転アルゴリズムを実施するいくつかの異なる方法に関して上記で説明されているが、技法は、「最適な回転」と呼ばれ得るものの識別を減少または高速化し得る任意のアルゴリズムに対して実行され得る。その上、技法は、非最適な回転を識別するが、速度またはプロセッサもしくは他のリソースの利用に関して測定されることが多い、他の態様では実行を改善し得る任意のアルゴリズムに対して実行され得る。

[0193]図１３Ａ〜図１３Ｅは各々、本開示で説明される技法に従って形成されるビットストリーム５１７Ａ〜５１７Ｅを示す図である。図１３Ａの例では、ビットストリーム５１７Ａは、上記で図９に示されたビットストリーム５１７の一例を表すことができる。ビットストリーム５１７Ａは、ＳＨＣ存在フィールド６７０と、ＳＨＣ５１１Ａ’を格納するフィールド（このフィールドは「ＳＨＣ５１１Ａ’」と示される）とを含む。ＳＨＣ存在フィールド６７０は、ＳＨＣ５１１Ａの各々に対応するビットを含むことができる。ＳＨＣ５１１Ａ’は、ＳＨＣ５１１Ａの数よりも数が少ないことがある、ビットストリーム内で指定されるＳＨＣ５１１ＡのＳＨＣ５１１Ａ’を表すことができる。一般に、ＳＨＣ５１１Ａ’の各々は、非ゼロ値を有するＳＨＣ５１１ＡのＳＨＣ５１１Ａ’である。前述のように、任意の所与の音場の第４次表現の場合、（１＋４）²すなわち２５のＳＨＣが必要とされる。これらのＳＨＣのうち１つまたは複数を消去し、これらのゼロ値が付けられたＳＨＣを単一ビットで置き換えることによって３１ビットを節約することができ、この３１ビットは、音場の他の部分を表すためにより詳細に割り振られてもよいし、効率的な帯域幅利用を容易にするために除去されてもよい。

[0194]図１３Ｂの例では、ビットストリーム５１７Ｂは、上記で図９に示されたビットストリーム５１７の一例を表すことができる。ビットストリーム５１７Ｂは、変換情報フィールド６７２（「変換情報６７２」）と、ＳＨＣ５１１Ａ’を格納するフィールド（このフィールドは「ＳＨＣ５１１Ａ’」と示される）とを含む。変換情報６７２は、前述のように、平行移動情報、回転情報、および／または音場への調整を示す任意の他の形態の情報を備えることができる。いくつかの例では、変換情報６７２はまた、ビットストリーム５１７Ｂ内でＳＨＣ５１１Ａ’と指定されるＳＨＣ５１１Ａの最高次を指定することができる。すなわち、変換情報６７２は３の次数を示すことができ、抽出デバイスはこれを、ＳＨＣ５１１Ａ’がＳＨＣ５１１ＡのＳＨＣ５１１Ａ’までを含むことを示し、３の次数を有するＳＨＣ５１１ＡのＳＨＣ５１１Ａ’を含むと理解することができる。次いで、抽出デバイスは、４以上の次数を有するＳＨＣ５１１Ａをゼロに設定し、それによって、ビットストリーム内の４以上の次数のＳＨＣ５１１Ａの明示的な信号伝達を潜在的に除去するように構成され得る。

[0195]図１３Ｃの例では、ビットストリーム５１７Ｃは、上記で図９に示されたビットストリーム５１７の一例を表すことができる。ビットストリーム５１７Ｃは、変換情報フィールド６７２（「変換情報６７２」）と、ＳＨＣ存在フィールド６７０と、ＳＨＣ５１１Ａ’を格納するフィールド（このフィールドは「ＳＨＣ５１１Ａ’」と示される）とを含む。上記で図１３Ｂに関して説明されたようにＳＨＣ５１１Ａのどの次数が知らされないかを理解するように構成されるのではなく、ＳＨＣ存在フィールド６７０は、ＳＨＣ５１１Ａのうちどれがビットストリーム５１７Ｃ内でＳＨＣ５１１Ａ’と指定されるかを明示的に知らせることができる。

[0196]図１３Ｄの例では、ビットストリーム５１７Ｄは、上記で図９に示されたビットストリーム５１７の一例を表すことができる。ビットストリーム５１７Ｄは、次数フィールド６７４（「次数６０」）と、ＳＨＣ存在フィールド６７０と、方位角フラグ６７６（「ＡＺＦ６７６」）と、仰角フラグ６７８（「ＥＬＦ６７８」）と、方位角角度フィールド６８０（「方位角６８０」）と、仰角角度フィールド６８２（「仰角６８２」）と、ＳＨＣ５１１Ａ’を格納するフィールド（この場合も、このフィールドは「ＳＨＣ５１１Ａ’」と示される）とを含む。次数フィールド６７４は、ＳＨＣ５１１Ａ’の次数、すなわち、音場を表すために使用される球面基底関数の最高次数に対して上記のｎによって示される次数を指定する。次数フィールド６７４は、８ビットフィールドであると示されているが、３（第４次を指定するために必要とされるビットの数である）などの他の様々なビットサイズであってよい。ＳＨＣ存在フィールド６７０は、２５ビットフィールドと示されている。この場合も、しかしながら、ＳＨＣ存在フィールド６７０は、他の様々なビットサイズであってよい。ＳＨＣ存在フィールド６７０は、ＳＨＣ存在フィールド６７０が音場の第４次表現に対応する球面調和係数の各々のための１ビットを含み得ることを示すために、２５ビットと示される。

[0197]方位角フラグ６７６は、方位角フィールド６８０がビットストリーム５１７Ｄ内に存在するかどうか指定する１ビットフラグを表す。方位角フラグ６７６が１に設定されるとき、ＳＨＣ５１１Ａ’のための方位角フィールド６８０がビットストリーム５１７Ｄ内に存在する。方位角フラグ６７６がゼロに設定されるとき、ＳＨＣ５１１Ａ’のための方位角フィールド６８０は、ビットストリーム５１７Ｄ内に存在しないかまたは指定されない。同様に、仰角フラグ６７８は、仰角フィールド６８２がビットストリーム５１７Ｄ内に存在するかどうか指定する１ビットフラグを表す。仰角フラグ６７８が１に設定されるとき、ＳＨＣ５１１Ａ’のための仰角フィールド６８２がビットストリーム５１７Ｄ内に存在する。仰角フラグ６７８がゼロに設定されるとき、ＳＨＣ５１１Ａ’のための仰角フィールド６８２は、ビットストリーム５１７Ｄ内に存在しないかまたは指定されない。１は、対応するフィールドが存在することを知らせ、ゼロは、対応するフィールドが存在しないことを知らせると説明されているが、この規則は、ゼロは、対応するフィールドがビットストリーム５１７Ｄ内で指定されていることを指定し、１は、対応するフィールドがビットストリーム５１７Ｄ内で指定されていないことを指定するように、逆にされてよい。したがって、本開示で説明される技法は、この点について限定されるべきではない。

[0198]方位角フィールド６８０は、ビットストリーム５１７Ｄ内に存在するとき方位角角度を指定する１０ビットフィールドを表す。１０ビットフィールドとして示されているが、方位角フィールド６８０は他のビットサイズであってもよい。仰角フィールド６８２は、ビットストリーム５１７Ｄ内に存在するとき仰角角度を指定する９ビットフィールドを表す。フィールド６８０および６８２で指定される方位角角度および仰角角度はそれぞれ、上記で説明された回転情報を表すフラグ６７６および６７８と連動してよい。この回転情報は、元の基準フレームにおけるＳＨＣ５１１Ａを回復するように音場を回転させるために使用され得る。

[0199]ＳＨＣ５１１Ａ’フィールドは、大きさＸである可変フィールドとして示されている。ＳＨＣ５１１Ａ’フィールドは、ＳＨＣ存在フィールド６７０によって示されるビットストリーム内で指定されるＳＨＣ５１１Ａ’の数により変化してよい。大きさＸは、ＳＨＣ存在フィールド６７０内のＳＨＣ５１１Ａ’の数×３２ビット（各ＳＨＣ２７’の大きさである）の関数として導出され得る。

[0200]図１３Ｅの例では、ビットストリーム５１７Ｅは、上記で図９に示されたビットストリーム５１７の別の例を表すことができる。ビットストリーム５１７Ｅは、次数フィールド６７４（「次数６０」）と、ＳＨＣ存在フィールド６７０と、回転インデックスフィールド６８４と、ＳＨＣ５１１Ａ’を格納するフィールド（このフィールドは「ＳＨＣ５１１Ａ’」と示される）とを含む。次数フィールド６７４、ＳＨＣ存在フィールド６７０、およびＳＨＣ５１１Ａ’フィールドは、上記で説明されたフィールドに実質的に類似してよい。回転インデックスフィールド６８４は、仰角角度と方位角角度の１０２４×５１２（すなわち、言い換えれば、５２４２８８）の組合せのうち１つを指定するために使用される２０ビットフィールドを表すことができる。いくつかの例では、この回転インデックスフィールド６８４を指定するために１９ビットのみが使用されることがあり、オーディオ符号化デバイス５７０は、回転演算が行われたかどうか（および、したがって、回転インデックスフィールド６８４がビットストリーム内に存在するかどうか）示すために、ビットストリーム内で追加フラグを指定することがある。この回転インデックスフィールド６８４は、上記で述べられた回転インデックスを指定し、回転インデックスは、オーディオ符号化デバイス５７０とビットストリーム抽出デバイスの両方に共通する回転テーブル内のエントリを指すことができる。この回転テーブルは、いくつかの例では、方位角と仰角角度の異なる組合せを格納することがある。代替的に、回転テーブルは、上記で説明された行列を格納することがあり、この行列は、方位角と仰角角度の異なる組合せを行列形態で効果的に格納する。

[0201]図１４は、本開示において説明される技法の回転態様を実施する際の図９の例に示されるオーディオ符号化デバイス５７０の例示的な動作を示す流れ図である。最初に、オーディオ符号化デバイス５７０は、上記で説明された様々な回転アルゴリズムのうち１つまたは複数に従って方位角角度と仰角角度の組合せを選択することができる（８００）。次いで、オーディオ符号化デバイス５７０は、選択された方位角および仰角角度によって音場を回転させることができる（８０２）。上記で説明されたように、オーディオ符号化デバイス５７０は、上記で述べられたＩｎｖＭａｔ₁を使用してＳＨＣ５１１Ａから音場を最初に導出することができる。オーディオ符号化デバイス５７０はまた、回転された音場を表すＳＨＣ５１１Ａ’を決定することができる（８０４）。別個のステップまたは動作であると説明されているが、オーディオ符号化デバイス５７０は、方位角角度と仰角角度の組合せの選択を表す変換（［ＥｎｃＭａｔ₂］［ＩｎｖＭａｔ₁］の結果を表すことができる）を適用し、ＳＨＣ５１１Ａから音場を導出し、音場を回転させ、回転された音場を表すＳＨＣ５１１Ａ’を決定することができる。

[0202]いずれにしても、オーディオ符号化デバイス５７０は、次いで、閾値よりも大きいいくつかの決定されたＳＨＣ５１１Ａ’を算出し、この数を、前の方位角角度と仰角角度の組合せに対する前の反復のために算出された数と比較することができる（８０６、８０８）。第１の方位角角度と仰角角度の組合せに対する第１の反復では、この比較は、あらかじめ定義された前の数（ゼロに設定され得る）に対するものとすることができる。いずれにしても、ＳＨＣ５１１Ａ’の決定された数が前の数よりも小さい場合（「はい」８０８）、オーディオ符号化デバイス５７０は、ＳＨＣ５１１Ａ’と、方位角角度と、仰角角度とを格納し、多くの場合、回転アルゴリズムの前の反復から格納された、前のＳＨＣ５１１Ａ’、方位角角度、および仰角角度を置き換える（８１０）。

[0203]ＳＨＣ５１１Ａ’の決定された数が前の数よりも小さくない場合（「いいえ」８０８）、または以前に格納されたＳＨＣ５１１Ａ’、方位角角度、および仰角角度の代わりにＳＨＣ５１１Ａ’と、方位角角度と、仰角角度とを格納した後、オーディオ符号化デバイス５７０は、回転アルゴリズムが終了したかどうか決定することができる（８１２）。すなわち、オーディオ符号化デバイス５７０は、一例として、方位角角度と仰角角度のすべての利用可能な組合せが評価されたかどうか決定することができる。他の例では、オーディオ符号化デバイス５７０は、オーディオ符号化デバイス５７０が回転アルゴリズムを実行することを終了するように、他の基準が満たされたかどうか（組合せの定義されたサブセットのすべてが実行された、所与の軌道が通られたかどうか、階層ツリーがリーフノードまで通られたかどうかなど）決定することができる。終了されていない場合（「いいえ」８１２）、オーディオ符号化デバイス５７０は、別の選択された組合せに対して上記のプロセスを実行することができる（８００〜８１２）。終了した場合（「はい」８１２）、オーディオ符号化デバイス５７０は、上記で説明された様々な方法のうち１つで、格納されたＳＨＣ５１１Ａ’と、方位角角度と、仰角角度とをビットストリーム５１７内で指定することができる（９４）。

[0204]図１５は、本開示において説明される技法の変換態様を実行する際の図９の例に示されるオーディオ符号化デバイス５７０の例示的な動作を示す流れ図である。最初に、オーディオ符号化デバイス５７０は、線形可逆変換を表す行列を選択することができる（８２０）。線形可逆変換を表す行列の一例は、［ＥｎｃＭａｔ₂］［ＩｎｃＭａｔ₁］の結果である、上記で示された行列とすることができる。次いで、オーディオ符号化デバイス５７０は、音場を変換するために、この行列を音場に適用することができる（８２２）。オーディオ符号化デバイス５７０はまた、回転された音場を表すＳＨＣ５１１Ａ’を決定することができる（８２４）。別個のステップまたは動作であると説明されているが、オーディオ符号化デバイス５７０は、方位角角度と仰角角度の組合せの選択を表す変換（［ＥｎｃＭａｔ₂］［ＩｎｖＭａｔ₁］の結果を表すことができる）を適用し、ＳＨＣ５１１Ａから音場を導出し、音場を変換し、変換された音場を表すＳＨＣ５１１Ａ’を決定することができる。

[0205]いずれにしても、オーディオ符号化デバイス５７０は、次いで、閾値よりも大きいいくつかの決定されたＳＨＣ５１１Ａ’を算出し、この数を、変換された行列の前の適用に対する前の反復のために算出された数と比較することができる（８２６、８２８）。ＳＨＣ５１１Ａ’の決定された数が前の数よりも小さい場合（「はい」８２８）、オーディオ符号化デバイス５７０は、ＳＨＣ５１１Ａ’と、行列（または、行列に関連付けられたインデックスなどの、その何らかの微分）とを格納し、多くの場合、回転アルゴリズムの前の反復から格納された、前のＳＨＣ５１１Ａ’と行列（またはその微分）とを置き換える（８３０）。

[0206]ＳＨＣ５１１Ａ’の決定された数が前の数よりも小さくない場合（「いいえ」８２８）、または以前に格納されたＳＨＣ５１１Ａ’および行列の代わりにＳＨＣ５１１Ａ’と、行列とを格納した後、オーディオ符号化デバイス５７０は、変換アルゴリズムが終了したかどうか決定することができる（８３２）。すなわち、オーディオ符号化デバイス５７０は、一例として、すべての利用可能な変換行列が評価されたかどうか決定することができる。他の例では、オーディオ符号化デバイス５７０は、オーディオ符号化デバイス５７０が変換アルゴリズムを実行することを終了するように、他の基準が満たされたかどうか（利用可能な変換行列の定義されたサブセットのすべてが実行された、所与の軌道が通られたかどうか、階層ツリーがリーフノードまで通られたかどうかなど）決定することができる。終了されていない場合（「いいえ」８３２）、オーディオ符号化デバイス５７０は、別の選択された変換行列に対して上記のプロセスを実行することができる（８２０〜８３２）。終了した場合（「はい」８３２）、オーディオ符号化デバイス５７０は、上記で説明された様々な方法のうち１つで、格納された５１１Ａ’と行列とをビットストリーム５１７内で指定することができ得る（８３４）。

[0207]いくつかの例では、変換アルゴリズムは、単一の反復を実行し、単一の変換行列を評価することができる。すなわち、変換行列は、線形可逆変換を表す任意の行列を備えることができる。いくつかの例では、線形可逆変換は、音場を空間領域から周波数領域に変換することができる。そのような線形可逆変換の例としては、離散フーリエ変換（ＤＦＴ）があり得る。ＤＦＴの適用は、単一の適用のみを伴うことがあり、したがって、変換アルゴリズムが終了されたかどうかを決定するステップを必ずしも含まない。したがって、技法は、図１５の例に限定されるべきではない。

[0208]言い換えれば、線形可逆変換の一例は離散フーリエ変換（ＤＦＴ）である。２５のＳＨＣ５１１Ａ’は、２５の複素係数のセットを形成するために、ＤＦＴによって影響を及ぼされ得る。オーディオ符号化デバイス５７０はまた、ＤＦＴのビンサイズの分解能を潜在的に増加させ、たとえば高速フーリエ変換（ＦＦＴ）を適用することによってＤＦＴのより効率的な実装形態を潜在的に有するように、２の倍数である整数になるように２５のＳＨＣ５１１Ａ’をゼロパッド（zero-pad）することができる。いくつかの例では、ＤＦＴの分解能を２５の点以上に増加させることは、必ずしも必要とされない。変換領域では、オーディオ符号化デバイス５７０は、特定のビンにスペクトルエネルギーが存在するかどうか決定するために、閾値を適用することができる。オーディオ符号化デバイス５７０は、この文脈では、次いで、この閾値を下回るスペクトル係数エネルギーを破棄またはゼロ設定することができ、オーディオ符号化デバイス５７０は、破棄されたまたはゼロ設定されたＳＨＣ５１１Ａ’のうち１つまたは複数を有するＳＨＣ５１１Ａ’を回復するために逆変換を適用することができる。すなわち、破棄が適用された後、閾値を下回る係数は存在せず、その結果、より少ないビットが、音場を符号化するために使用され得る。

[0209]例に応じて、本明細書で説明された方法のいずれかのある行為またはイベントは、異なる順序で実行可能であり、追加されてもよいし、マージされてもよいし、全体的に除外されてもよい（たとえば、すべての説明された行為またはイベントが方法の実施に必要とは限らない）ことを理解されたい。その上、ある例では、行為またはイベントは、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサによって、順次ではなく、同時に実行されることがある。さらに、本開示のある態様は、わかりやすいように、単一のデバイス、モジュール、またはユニットによって実行されると説明されているが、本開示の技法は、デバイス、ユニット、またはモジュールの組合せによって実行されてよいことを理解されたい。

[0210]１つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実施されてよい。ソフトウェアで実施される場合、これらの機能は、コンピュータ可読媒体上に１つまたは複数の命令またはコードとして記憶または送信され、ハードウェアベースの処理ユニットによって実行されてもよい。コンピュータ可読媒体としては、データ記憶媒体などの有形媒体に相当するコンピュータ可読記憶媒体、またはたとえば通信プロトコルによる１つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体があり得る。

[0211]このようにして、コンピュータ可読媒体は、一般に、（１）非一時的な有形のコンピュータ可読記憶媒体、または（２）信号または搬送波などの通信媒体に相当し得る。データ記憶媒体は、本開示で説明される技法の実装形態のための命令、コード、および／またはデータ構造を取り出すために１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセス可能な任意の利用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ可読媒体を含むことができる。

[0212]限定ではなく、例とし、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶デバイス、フラッシュメモリ、または命令もしくはデータ構造の形態をした所望のプログラムコードを記憶するために使用可能でコンピュータによってアクセス可能な任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用してウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。

[0213]しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まず、代わりに、非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用されるディスク（disk）およびディスク（disc）は、コンパクトディスク（compact disc）（ＣＤ）、レーザーディスク（登録商標）（laser disc）、光ディスク（optical disc）、デジタル多用途ディスク（digital versatile disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（floppy disk）、およびBlu-ray（登録商標）ディスクを含み、ここでディスク（disk）は通常、磁気的にデータを再生するが、ディスク（disc）はレーザを用いて光学的にデータを再生する。上記の組合せも、コンピュータ可読媒体の範囲内に含められるべきである。

[0214]命令は、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の等価な集積回路もしくはディスクリート論理回路などの１つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造または本明細書で説明される技法の実装形態に適した任意の他の構造のうちいずれも指してもよい。さらに、いくつかの態様では、本明細書で説明される機能は、符号化および復号のために構成された専用のハードウェアおよび／またはソフトウェアモジュール内に設けられてもよいし、複合コーデックに組み込まれてもよい。また、技法は、１つまたは複数の回路または論理素子内で完全に実施されてよい。

[0215]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）、またはＩＣのセット（たとえば、チップセット）を含む多種多様なデバイスまたは装置において実施されてよい。様々な構成要素、モジュール、またはユニットが、開示された技法を実行するように構成されたデバイスの機能的態様を強調するために本開示で説明されているが、異なるハードウェアユニットによる実現を必ずしも必要としない。むしろ、上で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記の１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。

[0216]上記に加えて、または上記の代替として、次の例が説明される。次の例のうちいずれかにおいて説明される特徴は、本明細書で説明される他の例のうちいずれかで利用され得る。

[0217]一例は、変換情報を取得することと、この変換情報は、音場がどのように変換されたかについて説明する、決定された変換情報に基づいて、減少された数の複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行することとを備えるバイノーラルオーディオレンダリングの方法を対象とする。

[0218]いくつかの例では、バイノーラルオーディオレンダリングを実行することは、決定された変換情報に基づいて、減少された複数の階層的な要素をレンダリングする基準フレームを複数のチャンネルに変換することを備える。

[0219]いくつかの例では、変換情報は、音場が回転された仰角角度と方位角角度とを少なくとも指定する回転情報を備える。

[0220]いくつかの例では、変換情報は、１つまたは複数の角度を指定する回転情報を備え、その各々は、音場が回転された、ｘ軸およびｙ軸、ｘ軸およびｚ軸、またはｙ軸およびｚ軸に対して指定される、またバイノーラルオーディオレンダリングを実行することは、決定された回転情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを回転させることを備える。

[0221]いくつかの例では、バイノーラルオーディオレンダリングを実行することは、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することと、変換されたレンダリング関数に対してエネルギー保存関数を適用することとを備える。

[0222]いくつかの例では、バイノーラルオーディオレンダリングを実行することは、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することと、乗算演算を使用して、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することとを備える。

[0223]いくつかの例では、バイノーラルオーディオレンダリングを実行することは、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することと、畳み込み演算を必要とすることなく、乗算演算を使用して、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することとを備える。

[0224]いくつかの例では、バイノーラルオーディオレンダリングを実行することは、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することと、回転されたバイノーラルオーディオレンダリング関数を生成するために、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することと、左チャンネルと右チャンネルとを生成するために、回転されたバイノーラルオーディオレンダリング関数を減少された複数の階層的な要素に適用することとを備える。

[0225]いくつかの例では、複数の階層的な要素は複数の球面調和係数を備え、複数の球面調和係数のうち少なくとも１つは、１よりも大きい次数と関連付けられる。

[0226]いくつかの例では、方法はまた、符号化されたオーディオデータと変換情報とを含むビットストリームを取り出すことと、このビットストリームからの符号化されたオーディオデータを解析することと、減少された複数の球面調和係数を生成するために、解析された符号化されたオーディオデータを復号することとを備え、変換情報を決定することは、ビットストリームからの変換情報を解析することを備える。

[0227]いくつかの例では、方法はまた、符号化されたオーディオデータと変換情報とを含むビットストリームを取り出すことと、このビットストリームからの符号化されたオーディオデータを解析することと、減少された複数の球面調和係数を生成するために、ａｄｖａｎｃｅｄａｕｄｉｏｃｏｄｉｎｇ（ＡＡＣ）方式に従って、解析された符号化されたオーディオデータを復号することとを備え、変換情報を決定することは、ビットストリームからの変換情報を解析することを備える。

[0228]いくつかの例では、方法はまた、符号化されたオーディオデータと変換情報とを含むビットストリームを取り出すことと、このビットストリームからの符号化されたオーディオデータを解析することと、減少された複数の球面調和係数を生成するために、ｕｎｉｆｉｅｄｓｐｅｅｃｈａｎｄａｕｄｉｏｃｏｄｉｎｇ（ＵＳＡＣ）方式に従って、解析された符号化されたオーディオデータを復号することとを備え、変換情報を決定することは、ビットストリームからの変換情報を解析することを備える。

[0229]いくつかの例では、方法はまた、複数の球面調和係数によって表される音場に対する聴取者の頭部の位置を決定することと、決定された変換情報および決定された聴取者の頭部の位置に基づいて、更新された変換情報を決定することとを備え、バイノーラルオーディオレンダリングを実行することは、更新された変換情報に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行することを備える。

[0230]一例は、変換情報を決定し、この変換情報は、音場を説明するのに関連する情報を提供する複数の階層的な要素の数を減少させるために音場がどのように変換されたかについて説明する、この決定された変換情報に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行するように構成された１つまたは複数のプロセッサを備えるデバイスを対象とする。

[0231]いくつかの例では、１つまたは複数のプロセッサは、バイノーラルオーディオレンダリングを実行するとき、決定された変換情報に基づいて、減少された複数の階層的な要素をレンダリングする基準フレームを複数のチャンネルに変換するようにさらに構成される。

[0232]いくつかの例では、決定された変換情報は、音場が回転された仰角角度と方位角角度とを少なくとも指定する回転情報を備える。

[0233]いくつかの例では、変換情報は、１つまたは複数の角度を指定する回転情報を備え、その各々は、音場が回転された、ｘ軸およびｙ軸、ｘ軸およびｚ軸、またはｙ軸およびｚ軸に対して指定され、１つまたは複数のプロセッサは、バイノーラルオーディオレンダリングを実行するとき、決定された回転情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを回転させるようにさらに構成される。

[0234]いくつかの例では、１つまたは複数のプロセッサは、バイノーラルオーディオレンダリングを実行するとき、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換し、変換されたレンダリング関数に対してエネルギー保存関数を適用するようにさらに構成される。

[0235]いくつかの例では、１つまたは複数のプロセッサは、バイノーラルオーディオレンダリングを実行するとき、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換し、乗算演算を使用して、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するようにさらに構成される。

[0236]いくつかの例では、１つまたは複数のプロセッサは、バイノーラルオーディオレンダリングを実行するとき、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換し、畳み込み演算を必要とすることなく、乗算演算を使用して、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するようにさらに構成される。

[0237]いくつかの例では、１つまたは複数のプロセッサは、バイノーラルオーディオレンダリングを実行するとき、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換し、回転されたバイノーラルオーディオレンダリング関数を生成するために、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合し、左チャンネルと右チャンネルとを生成するために、回転されたバイノーラルオーディオレンダリング関数を減少された複数の階層的な要素に適用するようにさらに構成される。

[0238]いくつかの例では、複数の階層的な要素は複数の球面調和係数を備え、これらの複数の球面調和係数のうち少なくとも１つは、１よりも大きい次数と関連付けられる。

[0239]いくつかの例では、１つまたは複数のプロセッサは、符号化されたオーディオデータと変換情報とを含むビットストリームを取り出し、このビットストリームからの符号化されたオーディオデータを解析し、減少された複数の球面調和係数を生成するために、解析された符号化されたオーディオデータを復号するようにさらに構成され、１つまたは複数のプロセッサは、変換情報を決定するとき、ビットストリームからの変換情報を解析するようにさらに構成される。

[0240]いくつかの例では、１つまたは複数のプロセッサは、符号化されたオーディオデータと変換情報とを含むビットストリームを取り出し、このビットストリームからの符号化されたオーディオデータを解析し、減少された複数の球面調和係数を生成するために、ａｄｖａｎｃｅｄａｕｄｉｏｃｏｄｉｎｇ（ＡＡＣ）方式に従って、解析された符号化されたオーディオデータを復号するようにさらに構成され、１つまたは複数のプロセッサは、変換情報を決定するとき、ビットストリームからの変換情報を解析するようにさらに構成される。

[0241]いくつかの例では、１つまたは複数のプロセッサは、符号化されたオーディオデータと変換情報とを含むビットストリームを取り出し、このビットストリームからの符号化されたオーディオデータを解析し、減少された複数の球面調和係数を生成するために、ｕｎｉｆｉｅｄｓｐｅｅｃｈａｎｄａｕｄｉｏｃｏｄｉｎｇ（ＵＳＡＣ）方式に従って、解析された符号化されたオーディオデータを復号するようにさらに構成され、１つまたは複数のプロセッサは、変換情報を決定するとき、ビットストリームからの変換情報を解析するようにさらに構成される。

[0242]いくつかの例では、１つまたは複数のプロセッサは、複数の球面調和係数によって表される音場に対する聴取者の頭部の位置を決定し、決定された変換情報および決定された聴取者の頭部の位置に基づいて、更新された変換情報を決定するようにさらに構成され、１つまたは複数のプロセッサは、前記バイノーラルオーディオレンダリングを実行するとき、更新された変換情報に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行するようにさらに構成される、
[0243]一例は、変換情報を決定するための手段と、この変換情報は、音場を説明するのに関連する情報を提供する複数の階層的な要素の数を減少させるために音場がどのように変換されたかについて説明する、決定された変換情報に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行するための手段とを備えるデバイスを対象とする。

[0244]いくつかの例では、バイノーラルオーディオレンダリングを実行するための手段は、決定された変換情報に基づいて、減少された複数の階層的な要素をレンダリングする基準フレームを複数のチャンネルに変換するための手段を備える。

[0245]いくつかの例では、変換情報は、音場が回転された仰角角度と方位角角度とを少なくとも指定する回転情報を備える。

[0246]いくつかの例では、変換情報は、１つまたは複数の角度を指定する回転情報を備え、その各々は、音場が回転された、ｘ軸およびｙ軸、ｘ軸およびｚ軸、またはｙ軸およびｚ軸に対して指定される、バイノーラルオーディオレンダリングを実行するための手段は、決定された回転情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを回転させるための手段を備える。

[0247]いくつかの例では、バイノーラルオーディオレンダリングを実行するための手段は、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換するための手段と、変換されたレンダリング関数に対してエネルギー保存関数を適用するための手段とを備える。

[0248]いくつかの例では、バイノーラルオーディオレンダリングを実行するための手段は、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換するための手段と、乗算演算を使用して、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するための手段とを備える。

[0249]いくつかの例では、バイノーラルオーディオレンダリングを実行するための手段は、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換するための手段と、畳み込み演算を必要とすることなく、乗算演算を使用して、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するための手段とを備える。

[0250]いくつかの例では、バイノーラルオーディオレンダリングを実行するための手段は、決定された変換情報に基づいて、レンダリング関数が減少された複数の階層的な要素をレンダリング可能である基準フレームを変換するための手段と、回転されたバイノーラルオーディオレンダリング関数を生成するために、変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するための手段と、左チャンネルと右チャンネルとを生成するために、回転されたバイノーラルオーディオレンダリング関数を減少された複数の階層的な要素に適用するための手段とを備える。

[0251]いくつかの例では、複数の階層的な要素は複数の球面調和係数を備え、これらの複数の球面調和係数のうち少なくとも１つは、１よりも大きい次数と関連付けられる。

[0252]いくつかの例では、デバイスは、符号化されたオーディオデータと変換情報とを含むビットストリームを取り出すための手段と、このビットストリームからの符号化されたオーディオデータを解析するための手段と、減少された複数の球面調和係数を生成するために、解析された符号化されたオーディオデータを復号するための手段とをさらに備え、変換情報を決定するための手段は、ビットストリームからの変換情報を解析するための手段を備える。

[0253]いくつかの例では、デバイスは、符号化されたオーディオデータと変換情報とを含むビットストリームを取り出すための手段と、このビットストリームからの符号化されたオーディオデータを解析するための手段と、減少された複数の球面調和係数を生成するために、ａｄｖａｎｃｅｄａｕｄｉｏｃｏｄｉｎｇ（ＡＡＣ）方式に従って、解析された符号化されたオーディオデータを復号するための手段とをさらに備え、変換情報を決定するための手段は、ビットストリームからの変換情報を解析するための手段を備える。

[0254]いくつかの例では、デバイスは、符号化されたオーディオデータと変換情報とを含むビットストリームを取り出すための手段と、このビットストリームからの符号化されたオーディオデータを解析するための手段と、減少された複数の球面調和係数を生成するために、ｕｎｉｆｉｅｄｓｐｅｅｃｈａｎｄａｕｄｉｏｃｏｄｉｎｇ（ＵＳＡＣ）方式に従って、解析された符号化されたオーディオデータを復号するための手段とをさらに備え、変換情報を決定するための手段は、ビットストリームからの変換情報を解析するための手段を備える。

[0255]いくつかの例では、デバイスは、複数の球面調和係数によって表される音場に対する聴取者の頭部の位置を決定するための手段と、決定された変換情報および決定された聴取者の頭部の位置に基づいて、更新された変換情報を決定するための手段とをさらに備え、バイノーラルオーディオレンダリングを実行するための手段は、更新された変換情報に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行するための手段を備える。

[0256]一例は、実行されると、１つまたは複数のプロセッサに、変換情報を決定させ、この変換情報は、音場を説明するのに関連する情報を提供する複数の階層的な要素の数を減少させるために音場がどのように変換されたかについて説明する、決定された変換情報に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行させる命令をその上に記憶させた、非一時的コンピュータ可読記憶媒体を対象とする。

[0257]その上、上記で説明された例のうちいずれかに記載された具体的な特徴のうちいずれも、説明された技法の有益な実施形態に統合されてよい。すなわち、具体的な特徴のうちいずれも、技法のすべての例に適用可能である。

[0258]本技法の様々な実施形態が説明されてきた。これらおよび他の実施形態は、以下の特許請求の範囲内に入る。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
バイノーラルオーディオレンダリングの方法であって、
変換情報を取得することと、前記変換情報は、複数の階層的な要素の数を減少された複数の階層的な要素に減少させるために音場がどのように変換されたかについて説明する、
前記変換情報に基づいて、前記減少された複数の階層的な要素に対して前記バイノーラルオーディオレンダリングを実行することと
を備える、バイノーラルオーディオレンダリングの方法。
［Ｃ２］
前記バイノーラルオーディオレンダリングを実行することは、前記変換情報に基づいて、前記減少された複数の階層的な要素をレンダリングする基準フレームを複数のチャンネルに変換することを備える、Ｃ１に記載の方法。
［Ｃ３］
前記変換情報は、前記音場が変換された仰角角度と方位角角度とを少なくとも指定する回転情報を備える、Ｃ１に記載の方法。
［Ｃ４］
前記バイノーラルオーディオレンダリングを実行することは、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することと、
前記変換されたレンダリング関数に対してエネルギー保存関数を適用することと
を備える、Ｃ１に記載の方法。
［Ｃ５］
前記バイノーラルオーディオレンダリングを実行することは、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することと、
乗算演算を使用して、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することと
を備える、Ｃ１に記載の方法。
［Ｃ６］
前記バイノーラルオーディオレンダリングを実行することは、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することと、
畳み込み演算を必要とすることなく、乗算演算を使用して、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することと
を備える、Ｃ１に記載の方法。
［Ｃ７］
前記バイノーラルオーディオレンダリングを実行することは、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することと、
回転されたバイノーラルオーディオレンダリング関数を生成するために、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することと、
左チャンネルと右チャンネルとを生成するために、前記回転されたバイノーラルオーディオレンダリング関数を前記減少された複数の階層的な要素に適用することと
を備える、Ｃ１に記載の方法。
［Ｃ８］
前記複数の階層的な要素は複数の球面調和係数を備え、前記複数の球面調和係数のうち少なくとも１つは、１よりも大きい次数と関連付けられる、Ｃ１に記載の方法。
［Ｃ９］
符号化されたオーディオデータと前記変換情報とを含むビットストリームを取得することと、
解析された符号化されたオーディオデータを取得するために、前記ビットストリームからの前記符号化されたオーディオデータを解析することと、
前記減少された複数の球面調和係数を取得するために、前記解析された符号化されたオーディオデータを復号することと
をさらに備え、
ここにおいて、前記変換情報を取得することは、前記ビットストリームからの前記変換情報を解析することを備える、Ｃ１に記載の方法。
［Ｃ１０］
複数の球面調和係数によって表される前記音場に対する聴取者の頭部の位置を取得することと、
前記変換情報および前記聴取者の前記頭部の前記位置に基づいて、更新された変換情報を決定することと
をさらに備え、
ここにおいて、前記バイノーラルオーディオレンダリングを実行することは、前記更新された変換情報に基づいて、前記減少された複数の階層的な要素に対して前記バイノーラルオーディオレンダリングを実行することを備える、Ｃ１に記載の方法。
［Ｃ１１］
１つまたは複数のプロセッサは、
変換情報を取得し、前記変換情報は、複数の階層的な要素の数を減少された複数の階層的な要素に減少させるために音場がどのように変換されたかについて説明する、
前記変換情報に基づいて、前記減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行する
ように構成される、前記１つまたは複数のプロセッサを備えるデバイス。
［Ｃ１２］
前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記変換情報に基づいて、前記減少された複数の階層的な要素をレンダリングする基準フレームを複数のチャンネルに変換するようにさらに構成される、Ｃ１１に記載のデバイス。
［Ｃ１３］
前記変換情報は、前記音場が変換された仰角角度と方位角角度とを少なくとも指定する回転情報を備える、Ｃ１１に記載のデバイス。
［Ｃ１４］
前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換し、前記変換されたレンダリング関数に対してエネルギー保存関数を適用するようにさらに構成される、Ｃ１１に記載のデバイス。
［Ｃ１５］
前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換し、乗算演算を使用して、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するようにさらに構成される、Ｃ１１に記載のデバイス。
［Ｃ１６］
前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換し、畳み込み演算を必要とすることなく、乗算演算を使用して、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するようにさらに構成される、Ｃ１１に記載のデバイス。
［Ｃ１７］
前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換し、回転されたバイノーラルオーディオレンダリング関数を生成するために、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合し、左チャンネルと右チャンネルとを生成するために、前記回転されたバイノーラルオーディオレンダリング関数を前記減少された複数の階層的な要素に適用するようにさらに構成される、Ｃ１１に記載のデバイス。
［Ｃ１８］
前記複数の階層的な要素は複数の球面調和係数を備え、前記複数の球面調和係数のうち少なくとも１つは、１よりも大きい次数と関連付けられる、Ｃ１１に記載のデバイス。
［Ｃ１９］
前記１つまたは複数のプロセッサは、
符号化されたオーディオデータと前記変換情報とを含むビットストリームを取得し、
前記ビットストリームからの前記符号化されたオーディオデータを解析し、
前記減少された複数の球面調和係数を生成するために、前記解析された符号化されたオーディオデータを復号する
ようにさらに構成され、
ここにおいて、前記変換情報を取得するために、前記１つまたは複数のプロセッサは、前記ビットストリームからの前記変換情報を解析するようにさらに構成される、Ｃ１１に記載のデバイス。
［Ｃ２０］
前記１つまたは複数のプロセッサは、
減少された複数の階層的な要素に対して、前記複数の球面調和係数によって表される前記音場に対する聴取者の頭部の位置を取得し、
前記変換情報および前記聴取者の前記頭部の前記位置に基づいて、更新された変換情報を決定する
ようにさらに構成され、
ここにおいて、前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記更新された変換情報に基づいて、前記減少された複数の階層的な要素に対して前記バイノーラルオーディオレンダリングを実行するようにさらに構成される、Ｃ１１に記載のデバイス。
［Ｃ２１］
変換情報を取得するための手段と、前記変換情報は、複数の階層的な要素の数を減少された複数の階層的な要素に減少させるために音場がどのように変換されたかについて説明する、
前記変換情報に基づいて、前記減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行するための手段と
を備える装置。
［Ｃ２２］
前記バイノーラルオーディオレンダリングを実行するための前記手段は、前記変換情報に基づいて、前記減少された複数の階層的な要素をレンダリングする基準フレームを複数のチャンネルに変換するための手段を備える、Ｃ２１に記載の装置。
［Ｃ２３］
前記変換情報は、前記音場が変換された仰角角度と方位角角度とを少なくとも指定する回転情報を備える、Ｃ２１に記載の装置。
［Ｃ２４］
前記バイノーラルオーディオレンダリングを実行するための前記手段は、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換するための手段と、
前記変換されたレンダリング関数に対してエネルギー保存関数を適用するための手段と
を備える、Ｃ２１に記載の装置。
［Ｃ２５］
前記バイノーラルオーディオレンダリングを実行するための前記手段は、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換するための手段と、
畳み込み演算を必要とすることなく、乗算演算を使用して、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するための手段と
を備える、Ｃ２１に記載の装置。
［Ｃ２６］
前記バイノーラルオーディオレンダリングを実行するための前記手段は、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換するための手段と、
回転されたバイノーラルオーディオレンダリング関数を生成するために、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するための手段と、
左チャンネルと右チャンネルとを生成するために、前記回転されたバイノーラルオーディオレンダリング関数を前記減少された複数の階層的な要素に適用するための手段と
を備える、Ｃ２１に記載の装置。
［Ｃ２７］
前記複数の階層的な要素は複数の球面調和係数を備え、前記複数の球面調和係数のうち少なくとも１つは、１よりも大きい次数と関連付けられる、Ｃ２１に記載の装置。
［Ｃ２８］
符号化されたオーディオデータと前記変換情報とを含むビットストリームを取得するための手段と、
解析された符号化されたオーディオデータを取得するために、前記ビットストリームからの前記符号化されたオーディオデータを解析するための手段と、
前記減少された複数の球面調和係数を取得するために、前記解析された符号化されたオーディオデータを復号するための手段と
をさらに備え、
ここにおいて、前記変換情報を取得するための前記手段は、前記ビットストリームからの前記変換情報を解析するための手段を備える、Ｃ２１に記載の装置。
［Ｃ２９］
複数の球面調和係数によって表される前記音場に対する聴取者の頭部の位置を取得するための手段と、
前記変換情報および前記聴取者の前記頭部の前記位置に基づいて、更新された変換情報を決定するための手段と
をさらに備え、
ここにおいて、前記バイノーラルオーディオレンダリングを実行するための前記手段は、前記更新された変換情報に基づいて、前記減少された複数の階層的な要素に対して前記バイノーラルオーディオレンダリングを実行するための手段を備える、Ｃ２１に記載の装置。
［Ｃ３０］
実行されると、１つまたは複数のプロセッサを、
変換情報を取得し、前記変換情報は、複数の階層的な要素の数を減少された複数の階層的な要素に減少させるために音場がどのように変換されたかについて説明する、
前記変換情報に基づいて、前記減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行する
ように構成する、その上に記憶された命令を備える、非一時的コンピュータ可読記憶媒体。

Claims

バイノーラルオーディオレンダリングの方法であって、
変換情報および符号化されたオーディオデータを含むビットストリームを取得することと、
減少された複数の階層的な要素を取得するために前記符号化されたオーディオデータを復号することと、前記変換情報は、前記減少された複数の階層的な要素を生成するために複数の階層的な要素によって表される音場がどのように変換されたかについて説明し、前記減少された複数の階層的な要素は、前記複数の階層的な要素の数よりも小さい階層的な要素の数を有する、
前記変換情報に基づいて、前記減少された複数の階層的な要素に対して前記バイノーラルオーディオレンダリングを実行することと
を備える、バイノーラルオーディオレンダリングの方法。
前記バイノーラルオーディオレンダリングを実行することは、前記変換情報に基づいて、前記減少された複数の階層的な要素をレンダリングする基準フレームを複数のチャンネルに変換することを備える、請求項１に記載の方法。
前記変換情報は、前記音場が変換された仰角角度と方位角角度とを少なくとも指定する回転情報を備える、請求項１に記載の方法。
前記バイノーラルオーディオレンダリングを実行することは、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することと、
前記変換されたレンダリング関数に対してエネルギー保存関数を適用することと
を備える、請求項１に記載の方法。
前記バイノーラルオーディオレンダリングを実行することは、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することによって前記レンダリング関数を変換することと、
乗算演算を使用して、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することと
を備える、請求項１に記載の方法。
前記バイノーラルオーディオレンダリングを実行することは、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することによって前記レンダリング関数を変換することと、
畳み込み演算を必要とすることなく、乗算演算を使用して、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することと
を備える、請求項１に記載の方法。
前記バイノーラルオーディオレンダリングを実行することは、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することによってレンダリング関数を変換することと、
回転されたバイノーラルオーディオレンダリング関数を生成するために、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合することと、
左チャンネルと右チャンネルとを生成するために、前記回転されたバイノーラルオーディオレンダリング関数を前記減少された複数の階層的な要素に適用することと
を備える、請求項１に記載の方法。
前記複数の階層的な要素は複数の球面調和係数を備え、前記複数の球面調和係数のうち少なくとも１つは、１よりも大きい次数と関連付けられる、請求項１に記載の方法。
解析された符号化されたオーディオデータを取得するために、前記ビットストリームからの前記符号化されたオーディオデータを解析することと、
前記減少された複数の階層的な要素を取得するために、前記解析された符号化されたオーディオデータを復号することと、
前記ビットストリームからの前記変換情報を解析することと
をさらに備える、請求項１に記載の方法。
前記複数の階層的な要素によって表される前記音場に対する聴取者の頭部の位置を取得することと、
前記変換情報および前記聴取者の前記頭部の前記位置に基づいて、更新された変換情報を決定することと
をさらに備え、
ここにおいて、前記バイノーラルオーディオレンダリングを実行することは、前記更新された変換情報に基づいて、前記減少された複数の階層的な要素に対して前記バイノーラルオーディオレンダリングを実行することを備える、請求項１に記載の方法。
１つまたは複数のプロセッサは、
変換情報および符号化されたオーディオデータを含むビットストリームを取得し、
減少された複数の階層的な要素を取得するために前記符号化されたオーディオデータを復号し、前記変換情報は、前記減少された複数の階層的な要素を生成するために複数の階層的な要素によって表される音場がどのように変換されたかについて説明し、前記減少された複数の階層的な要素は、前記複数の階層的な要素の数よりも小さい階層的な要素の数を有する、
前記変換情報に基づいて、前記減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行する
ように構成される、前記１つまたは複数のプロセッサを備えるデバイス。
前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記変換情報に基づいて、前記減少された複数の階層的な要素をレンダリングする基準フレームを複数のチャンネルに変換するようにさらに構成される、請求項１１に記載のデバイス。
前記変換情報は、前記音場が変換された仰角角度と方位角角度とを少なくとも指定する回転情報を備える、請求項１１に記載のデバイス。
前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換し、前記変換されたレンダリング関数に対してエネルギー保存関数を適用するようにさらに構成される、請求項１１に記載のデバイス。
前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することによって前記レンダリング関数を変換し、乗算演算を使用して、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するようにさらに構成される、請求項１１に記載のデバイス。
前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することによって前記レンダリング関数を変換し、畳み込み演算を必要とすることなく、乗算演算を使用して、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するようにさらに構成される、請求項１１に記載のデバイス。
前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することによって前記レンダリング関数を変換し、回転されたバイノーラルオーディオレンダリング関数を生成するために、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合し、左チャンネルと右チャンネルとを生成するために、前記回転されたバイノーラルオーディオレンダリング関数を前記減少された複数の階層的な要素に適用するようにさらに構成される、請求項１１に記載のデバイス。
前記複数の階層的な要素は複数の球面調和係数を備え、前記複数の球面調和係数のうち少なくとも１つは、１よりも大きい次数と関連付けられる、請求項１１に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記ビットストリームからの前記符号化されたオーディオデータを解析し、
前記減少された複数の階層的な要素を生成するために、前記解析された符号化されたオーディオデータを復号し、
前記ビットストリームからの前記変換情報を解析する
ようにさらに構成される、請求項１１に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記複数の階層的な要素によって表される前記音場に対する聴取者の頭部の位置を取得し、
前記変換情報および前記聴取者の前記頭部の前記位置に基づいて、更新された変換情報を決定する
ようにさらに構成され、
ここにおいて、前記バイノーラルオーディオレンダリングを実行するために、前記１つまたは複数のプロセッサは、前記更新された変換情報に基づいて、前記減少された複数の階層的な要素に対して前記バイノーラルオーディオレンダリングを実行するようにさらに構成される、請求項１１に記載のデバイス。
変換情報および符号化されたオーディオデータを含むビットストリームを取得するための手段と、
減少された複数の階層的な要素を取得するために前記符号化されたオーディオデータを復号するための手段と、前記変換情報は、前記減少された複数の階層的な要素を生成するために複数の階層的な要素によって表される音場がどのように変換されたかについて説明し、前記減少された複数の階層的な要素は、前記複数の階層的な要素の数よりも小さい階層的な要素の数を有する、
前記変換情報に基づいて、前記減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行するための手段と
を備える装置。
前記バイノーラルオーディオレンダリングを実行するための前記手段は、前記変換情報に基づいて、前記減少された複数の階層的な要素をレンダリングする基準フレームを複数のチャンネルに変換するための手段を備える、請求項２１に記載の装置。
前記変換情報は、前記音場が変換された仰角角度と方位角角度とを少なくとも指定する回転情報を備える、請求項２１に記載の装置。
前記バイノーラルオーディオレンダリングを実行するための前記手段は、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換するための手段と、
前記変換されたレンダリング関数に対してエネルギー保存関数を適用するための手段と
を備える、請求項２１に記載の装置。
前記バイノーラルオーディオレンダリングを実行するための前記手段は、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することによって前記レンダリング関数を変換するための手段と、
畳み込み演算を必要とすることなく、乗算演算を使用して、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するための手段と
を備える、請求項２１に記載の装置。
前記バイノーラルオーディオレンダリングを実行するための前記手段は、
前記変換情報に基づいて、レンダリング関数が前記減少された複数の階層的な要素をレンダリング可能である基準フレームを変換することによって前記レンダリング関数を変換するための手段と、
回転されたバイノーラルオーディオレンダリング関数を生成するために、前記変換されたレンダリング関数を複素数両耳室内インパルス応答関数と結合するための手段と、
左チャンネルと右チャンネルとを生成するために、前記回転されたバイノーラルオーディオレンダリング関数を前記減少された複数の階層的な要素に適用するための手段と
を備える、請求項２１に記載の装置。
前記複数の階層的な要素は複数の球面調和係数を備え、前記複数の球面調和係数のうち少なくとも１つは、１よりも大きい次数と関連付けられる、請求項２１に記載の装置。
解析された符号化されたオーディオデータを取得するために、前記ビットストリームからの前記符号化されたオーディオデータを解析するための手段と、
前記減少された複数の階層的な要素を取得するために、前記解析された符号化されたオーディオデータを復号するための手段と、
前記ビットストリームからの前記変換情報を解析するための手段と、
をさらに備える、請求項２１に記載の装置。
前記複数の階層的な要素によって表される前記音場に対する聴取者の頭部の位置を取得するための手段と、
前記変換情報および前記聴取者の前記頭部の前記位置に基づいて、更新された変換情報を決定するための手段と
をさらに備え、
ここにおいて、前記バイノーラルオーディオレンダリングを実行するための前記手段は、前記更新された変換情報に基づいて、前記減少された複数の階層的な要素に対して前記バイノーラルオーディオレンダリングを実行するための手段を備える、請求項２１に記載の装置。
実行されると、１つまたは複数のプロセッサを、
変換情報および符号化されたオーディオデータを含むビットストリームを取得し、
減少された複数の階層的な要素を取得するために前記符号化されたオーディオデータを復号し、前記変換情報は、前記減少された複数の階層的な要素を生成するために複数の階層的な要素によって表される音場がどのように変換されたかについて説明し、前記減少された複数の階層的な要素は、前記複数の階層的な要素の数よりも小さい階層的な要素の数を有する、
前記変換情報に基づいて、前記減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行する
ように構成する、その上に記憶された命令を備える、非一時的コンピュータ可読記憶媒体。