JP2017535174A

JP2017535174A - Ｈｏａコンテンツの画面関連の適応

Info

Publication number: JP2017535174A
Application number: JP2017518939A
Authority: JP
Inventors: ペーターズ、ニルス・ガンザー; モッレル、マーティン・ジェームス; セン、ディパンジャン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-10-10
Filing date: 2015-10-09
Publication date: 2017-11-24
Anticipated expiration: 2035-10-09
Also published as: BR112017007267A2; US20160104495A1; BR112017007267B1; ES2774449T3; SG11201701554PA; CN106797527A; KR20170066400A; CN106797527B; EP3668124B1; EP3205122A1; US9940937B2; HUE047302T2; ES2900653T3; EP3668124A1; JP6599451B2; EP3205122B1; WO2016057935A1; KR102077375B1

Abstract

本開示は、１より高い次数を有する球面調和基底関数に対応する少なくとも１つの高次アンビソニック（ＨＯＡ）係数を備える高次アンビソニックオーディオデータのコーディングのための技法を記述する。本開示は、混在オーディオ／ビデオ再現シナリオにおいて視覚構成要素に対する音響要素の空間アライメントを潜在的に改善するために、ＨＯＡ音場を調整するための技法を記述する。一例において、ＨＯＡオーディオ信号をレンダリングするためのデバイスが、基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介してＨＯＡオーディオ信号をレンダリングするように構成される１つまたは複数のプロセッサを含む。

Description

[0001]本出願は、その内容全体が参照により本明細書に組み込まれる、２０１４年１０月１０日に出願された米国仮特許出願第６２／０６２，７６１号の利益を主張する。

[0002]本開示はオーディオデータに関し、より詳細には、高次アンビソニックオーディオデータのコーディングに関する。

[0003]高次アンビソニックス（ＨＯＡ）信号（複数の球面調和係数（ＳＨＣ）または他の階層的な要素によって表されることが多い）は、音場の３次元表現である。このＨＯＡ表現またはＳＨＣ表現は、ＳＨＣ信号からレンダリングされるマルチチャネルオーディオ信号を再生するために使用されるローカルスピーカー幾何学的配置に依存しない方法で、音場を表し得る。ＳＨＣ信号は、５．１オーディオチャネルフォーマットまたは７．１オーディオチャネルフォーマットなどのよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、ＳＨＣ信号はまた、下位互換性を容易にし得る。したがって、ＳＨＣ表現は、下位互換性にも対応する、音場のより良い表現を可能にし得る。

[0004]概して、高次アンビソニックスオーディオデータをコーディングするための技法が説明される。高次アンビソニックスオーディオデータは、１よりも大きい次数を有する球面調和基底関数に対応する少なくとも１つの高次アンビソニック（ＨＯＡ）係数を備え得る。本開示は、混在オーディオ／ビデオ再現シナリオにおいて視覚構成要素に対する音響要素の空間アライメントを潜在的に改善するために、ＨＯＡ音場を調整するための技法を記述する。

[0005]一例において、高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングするためのデバイスが、基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓（ｖｉｅｗｉｎｇｗｉｎｄｏｗ）の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介してＨＯＡオーディオ信号をレンダリングするように構成される１つまたは複数のプロセッサを含む。

[0006]別の例において、高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングする方法が、基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介してＨＯＡオーディオ信号をレンダリングすることを含む。

[0007]別の例において、高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングするための装置が、ＨＯＡオーディオ信号を受信するための手段と、基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介してＨＯＡオーディオ信号をレンダリングするための手段とを含む。

[0008]別の例において、コンピュータ可読記憶媒体が命令を記憶し、その命令は、１つまたは複数のプロセッサによって実行されるときに、１つまたは複数のプロセッサに、基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介して高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングさせることを含む、ＨＯＡオーディオ信号をレンダリングさせる。

[0009]本技法の１つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。本技法の他の特徴、目的、および利点は、その説明および図面、ならびに特許請求の範囲から明らかになろう。

[0010]様々な次数および副次数の球面調和基底関数を示す図。 [0011]本開示で説明される技法の様々な態様を実行することができるシステムを示す図。 [0012]本開示で説明される技法の様々な態様を実行することができる、図２の例に示されるオーディオ符号化デバイスの一例をより詳細に示すブロック図。 [0013]図２のオーディオ復号デバイスをより詳細に示すブロック図。 [0014]本開示で説明されるベクトルベース合成技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。 [0015]本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。 [0016]基準画面サイズおよび表示窓サイズに基づいて、元の方位角を修正方位角にマッピングするために使用され得る一例のマッピング関数を示す図。 [0017]基準画面サイズおよび表示窓サイズに基づいて、元の仰角を修正仰角にマッピングするために使用され得る一例のマッピング関数を示す図。 [0018]第１の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す図。 [0019]計算されたＨＯＡ効果行列の例を示す図。計算されたＨＯＡ効果行列の例を示す図。 [0020]効果行列がいかにプリレンダリングされ、ラウドスピーカーレンダリング行列に適用され得るかの一例を示す図。 [0021]効果行列の結果として、高次コンテンツ（たとえば、６次）が生じ得る場合に、この次数のレンダリング行列を乗算し、元の次数（ここでは、３次）の最終的なレンダリング行列をいかにあらかじめ計算し得るかの一例を示す図。 [0022]基準画面サイズおよび表示窓サイズに基づいて、元の方位角を修正方位角にマッピングするために使用され得る一例のマッピング関数を示す図。 [0023]基準画面サイズおよび表示窓サイズに基づいて、元の仰角を修正仰角にマッピングするために使用され得る一例のマッピング関数を示す図。 [0024]計算されたＨＯＡ効果行列を示す図。 [0025]基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す図。 [0026]基準画面サイズおよび表示窓サイズに基づいて、元の方位角を修正方位角にマッピングするために使用され得る一例のマッピング関数を示す図。 [0027]基準画面サイズおよび表示窓サイズに基づいて、元の仰角を修正仰角にマッピングするために使用され得る一例のマッピング関数を示す図。 [0028]計算されたＨＯＡ効果行列を示す図。 [0029]基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す図。 [0030]基準画面サイズおよび表示窓サイズに基づいて、元の方位角を修正方位角にマッピングするために使用され得る一例のマッピング関数を示す図。 [0031]基準画面サイズおよび表示窓サイズに基づいて、元の仰角を修正仰角にマッピングするために使用され得る一例のマッピング関数を示す図。 [0032]計算されたＨＯＡ効果行列を示す図。 [0033]基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す図。 [0034]基準画面サイズおよび表示窓サイズに基づいて、元の方位角を修正方位角にマッピングするために使用され得る一例のマッピング関数を示す図。 [0035]基準画面サイズおよび表示窓サイズに基づいて、元の仰角を修正仰角にマッピングするために使用され得る一例のマッピング関数を示す図。 [0036]計算されたＨＯＡ効果行列を示す図。 [0037]基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す図。 [0038]本開示の技法を実施するように構成されるオーディオレンダリングデバイスの例示的な実装形態を示すブロック図。本開示の技法を実施するように構成されるオーディオレンダリングデバイスの例示的な実装形態を示すブロック図。本開示の技法を実施するように構成されるオーディオレンダリングデバイスの例示的な実装形態を示すブロック図。 [0039]本開示で説明される画面に基づく適応技法を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。

[0040]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカーへのフィードを暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している５．１フォーマット（これは、次の６つのチャネル、すなわち、フロントレフト（ＦＬ）と、フロントライト（ＦＲ）と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果（ＬＦＥ）とを含む）、発展中の７．１フォーマット、７．１．４フォーマットおよび２２．２フォーマット（たとえば、超高精細度テレビジョン規格とともに使用するための）などのハイトスピーカーを含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」と呼ばれることが多い（対称な、および非対称な幾何学的配置の）任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂二十面体の角の座標に配置される３２個のラウドスピーカーを含む。

[0041]将来のＭＰＥＧエンコーダへの入力は、任意選択で、次の３つの可能なフォーマット、すなわち、（ｉ）あらかじめ指定された位置でラウドスピーカーを通じて再生されることが意図される、（上で論じられたような）従来のチャネルベースオーディオ、（ｉｉ）（情報の中でも）位置座標を含む関連付けられたメタデータを有する単一オーディオオブジェクトのための離散的なパルス符号変調（ＰＣＭ）データを伴うオブジェクトベースオーディオ、および（ｉｉｉ）球面調和基底関数の係数（「球面調和係数」すなわちＳＨＣ、「高次アンビソニックス」すなわちＨＯＡ、および「ＨＯＡ係数」とも呼ばれる）を使用して音場を表すことを伴うシーンベースオーディオのうちの１つである。将来のＭＰＥＧエンコーダは、２０１３年１月にスイスのジュネーブで発表された、ｈｔｔｐ：／／ｍｐｅｇ．ｃｈｉａｒｉｇｌｉｏｎｅ．ｏｒｇ／ｓｉｔｅｓ／ｄｅｆａｕｌｔ／ｆｉｌｅｓ／ｆｉｌｅｓ／ｓｔａｎｄａｒｄｓ／ｐａｒｔｓ／ｄｏｃｓ／ｗ１３４１１．ｚｉｐにおいて入手可能な、ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ／ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ（ＩＳＯ）／（ＩＥＣ）ＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ１３４１１による「ＣａｌｌｆｏｒＰｒｏｐｏｓａｌｓｆｏｒ３ＤＡｕｄｉｏ」と題される文書においてより詳細に説明され得る。

[0042]市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらのフォーマットは、たとえば、５．１ホームシアターシステム（リビングルームに進出するという点でステレオ以上に最も成功した）からＮＨＫ（ＮｉｐｐｏｎＨｏｓｏＫｙｏｋａｉすなわち日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ作成者（たとえば、ハリウッドスタジオ）は、一度に映画のサウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置（と数）および（レンダラを伴う）再生のロケーションにおける音響条件に適応可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。

[0043]コンテンツ作成者にそのような柔軟性を提供するために、要素の階層セットが音場を表すために使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細なものになり、分解能は向上する。

[0044]要素の階層セットの一例は、球面調和係数（ＳＨＣ）のセットである。次の式は、ＳＨＣを使用する音場の記述または表現を示す。

[0045]この式は、時間ｔにおける音場の任意の点｛ｒ_r，θ_r，ψ

φ_r｝における圧力ｐ_iが、ＳＨＣ、

によって一意に表され得ることを示す。ここで、

であり、ｃは音速（約３４３ｍ／ｓ）であり、｛ｒ_r，θ_r，φ_r｝は基準点（または観測点）であり、ｊ_n（・）は次数ｎの球ベッセル関数であり、

は次数ｎおよび副次数ｍの球面調和基底関数である。角括弧内の項は、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換などの様々な時間周波数変換によって近似され得る信号の周波数領域表現（すなわち、Ｓ（ω，ｒ_r，θ_r，φ_r））であることが認識できよう。階層セットの他の例は、ウェーブレット変換係数のセット、および多分解能基底関数の係数の他のセットを含む。

[0046]ビデオデータは多くの場合に、対応する同期したオーディオデータとともに表示され、オーディオデータは通常、ビデオデータの見え方（ｐｅｒｓｐｅｃｔｉｖｅ）と一致するように生成される。たとえば、レストランにおいて話をしている２人の近接撮影した見え方を示すビデオのフレーム中に、２人の会話は、他の食事客の会話、調理場の雑音、背景音楽などのレストラン内の任意の背景雑音に対して、大きく明瞭になる場合がある。２人が話をしている、より離れた見え方を示すビデオのフレーム中に、２人の会話は、その発生源が現時点でビデオのそのフレーム中に存在し得る背景雑音に対して、その大きさおよび明瞭度が下がる場合がある。

[0047]これまで、見え方に関する決定（たとえば、シーンのズームインおよびズームアウト、またはシーンの周囲のパニング）はコンテンツ製作者によって行われ、コンテンツの最終消費者は、元のコンテンツ製作者によって選択された見え方をほとんど、またはまったく変更できない。しかしながら、ビデオを見ているときに、ユーザが見る見え方をユーザが何らかのレベルで制御することが、より一般的になりつつある。一例として、フットボール放送中に、ユーザは、フィールドの大きな部分を示す映像配信を受信することができるが、特定のプレーヤまたは一群のプレーヤにズームインする能力を有する場合がある。本開示は、対応するビデオの知覚の変化に一致するようにオーディオ再現の知覚を適応させるための技法を導入する。たとえば、フットボールの試合を見ている間に、ユーザがクォーターバックにズームインする場合には、オーディオも、クォーターバックにズームインするオーディオ効果を生成するように適応し得る。

[0048]ビデオを再生するために使用されるディスプレイのサイズに応じて、ビデオのユーザの知覚も変化し得る。たとえば、１０インチタブレットにおいて映画を見るとき、ディスプレイ全体が視聴者の中心視野内にある場合があり、一方、１００インチテレビジョンにおいて同じ映画を見るとき、ディスプレイの外側部分は、視聴者の周辺視野内にしかない場合がある。本開示は、対応するビデオデータのために使用されるディスプレイのサイズに基づいて、オーディオ再現の知覚を適応させるための技法を導入する。

[0049]ＭＰＥＧ−Ｈ３Ｄオーディオビットストリームは、コンテンツ製作プロセス中に使用される基準画面サイズの情報をシグナリングするための新たなビットフィールドを含む。また、そのいくつかの例が本開示において説明されることになる、ＭＰＥＧ−Ｈ３Ｄ準拠オーディオデコーダが、復号されるオーディオに対応するビデオに関連して使用されるディスプレイ設定の実際の画面サイズを決定するように構成される。その結果として、本開示の技法によれば、画面関連オーディオコンテンツがビデオにおいて表示される同じ場所から知覚されるように、オーディオデコーダが、基準画面サイズおよび実際の画面サイズに基づいて、ＨＯＡ音場を適応させ得る。

[0050]本開示は、混在オーディオ／ビデオ再現シナリオにおいて視覚構成要素に対する音響要素の空間アライメントを確実にするために、ＨＯＡ音場がいかに調整され得るかに関する技法を記述する。本開示の技法は、ＨＯＡ専用コンテンツの場合に、または現在、画面関連オーディオオブジェクトのみが調整されるＨＯＡおよびオーディオオブジェクトの組合せを有するコンテンツの場合に、首尾一貫したオーディオ／ビデオ体感を生み出すのを助けるために利用され得る。

[0051]図１は、０次（ｎ＝０）から４次（ｎ＝４）までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図１の例では明示的に示されていない副次数ｍの拡張が存在する。

[0052]ＳＨＣ

は、様々なマイクロフォンアレイ構成によって物理的に獲得（たとえば、録音）されてよく、または代替的に、それらは音場のチャネルベースまたはオブジェクトベースの記述から導出されてよい。ＳＨＣはシーンベースのオーディオを表し、ここで、ＳＨＣは、より効率的な送信または記憶を促し得る符号化されたＳＨＣを取得するために、オーディオエンコーダに入力され得る。たとえば、（１＋４）²個の（２５個の、したがって４次の）係数を伴う４次表現が使用され得る。

[0053]上述されたように、ＳＨＣは、マイクロフォンアレイを使用したマイクロフォン録音から導出され得る。ＳＨＣがマイクロフォンアレイからどのように導出され得るかの様々な例は、Ｐｏｌｅｔｔｉ，Ｍ、「Ｔｈｒｅｅ−ＤｉｍｅｎｓｉｏｎａｌＳｕｒｒｏｕｎｄＳｏｕｎｄＳｙｓｔｅｍｓＢａｓｅｄｏｎＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓ」、Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．、Ｖｏｌ．５３、Ｎｏ．１１、２００５年１１月、１００４〜１０２５ページにおいて説明されている。

[0054]ＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数

は、

と表され得、ただし、ｉは

であり、

は次数ｎの（第２の種類の）球ハンケル関数であり、｛ｒ_s，θ_s、φ_s｝はオブジェクトのロケーションである。周波数の関数として（たとえば、ＰＣＭストリームに対して高速フーリエ変換を実行するなど、時間周波数分析技法を使用して）オブジェクトソースエネルギーｇ（ω）を知ることで、各ＰＣＭオブジェクトと対応するロケーションとをＳＨＣ

に変換することが可能となる。さらに、各オブジェクトについての

係数は、（上式は線形であり直交方向の分解であるので）加法的であることが示され得る。このようにして、多数のＰＣＭオブジェクトが

係数によって（たとえば、個々のオブジェクトについての係数ベクトルの和として）表され得る。本質的に、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含んでおり、上記は、観測点｛ｒ_r，θ_r，φ_r｝の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの数字は、以下でオブジェクトベースのオーディオコーディングおよびＳＨＣベースのオーディオコーディングの文脈で説明される。

[0055]図２は、本開示で説明される技法の様々な態様を実行することができるシステム１０を示す図である。図２の例に示されるように、システム１０は、コンテンツ作成者デバイス１２と、コンテンツ消費者デバイス１４とを含む。コンテンツ作成者デバイス１２およびコンテンツ消費者デバイス１４の文脈で説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、ＳＨＣ（ＨＯＡ係数とも呼ばれ得る）または音場の任意の他の階層的表現が符号化される任意の文脈で実施され得る。その上、コンテンツ作成者デバイス１２は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。同様に、コンテンツ消費者デバイス１４は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。

[0056]コンテンツ作成者デバイス１２は、コンテンツ消費者デバイス１４などのコンテンツ消費者デバイスのオペレータによる消費のためのマルチチャネルオーディオコンテンツを生成することができる、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例において、コンテンツクリエータデバイス１２は、圧縮ＨＯＡ係数１１を有するオーディオ信号を生成し、オーディオ信号に、１つまたは複数の視野（ＦＯＶ）パラメータも含むことを望む個々のユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともに、オーディオコンテンツを生成する。ＦＯＶパラメータは、たとえば、ビデオコンテンツのための基準画面サイズを記述し得る。コンテンツ消費者デバイス１４は、個人によって操作され得る。コンテンツ消費者デバイス１４は、マルチチャネルオーディオコンテンツとしての再生のためにＳＨＣをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム１６を含み得る。

[0057]コンテンツ作成者デバイス１２は、オーディオ編集システム１８を含む。コンテンツ作成者デバイス１２は、様々なフォーマットのライブ録音７（ＨＯＡ係数として直接含む）とオーディオオブジェクト９とを取得し、コンテンツ作成者デバイス１２は、オーディオ編集システム１８を使用してこれらを編集することができる。マイクロフォン５はライブ録音７をキャプチャすることができる。コンテンツ作成者は、編集プロセスの間に、オーディオオブジェクト９からのＨＯＡ係数１１をレンダリングし、さらなる編集を必要とする音場の様々な態様を特定しようとして、レンダリングされたスピーカーフィードを聞くことができる。コンテンツ作成者デバイス１２は次いで、（潜在的に、上記で説明された方法でソースＨＯＡ係数がそれから導出され得るオーディオオブジェクト９のうちの様々なオブジェクトの操作を通じて間接的に）ＨＯＡ係数１１とＦＯＶパラメータ１３とを編集することができる。コンテンツ作成者デバイス１２は、ＨＯＡ係数１１とＦＯＶパラメータ１３とを生成するためにオーディオ編集システム１８を採用することができる。オーディオ編集システム１８は、オーディオデータを編集し、このオーディオデータを１つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。

[0058]編集プロセスが完了すると、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１に基づいてオーディオビットストリーム２１を生成することができる。すなわち、コンテンツ作成者デバイス１２は、オーディオビットストリーム２１を生成するために、本開示で説明される技法の様々な態様に従って、ＨＯＡ係数１１を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス２０を含む。オーディオ符号化デバイス２０が、ビットストリーム２１内に、ＦＯＶパラメータ１３をシグナリングするための値を含み得る。オーディオ符号化デバイス２０は、一例として、有線チャネルまたはワイヤレスチャネル、データ記憶デバイスなどであり得る送信チャネルを介した送信のために、オーディオビットストリーム２１を生成することができる。オーディオビットストリーム２１は、ＨＯＡ係数１１の符号化されたバージョンを表すことができ、主要ビットストリームと、サイドチャネル情報とも呼ばれ得る別のサイドビットストリームとを含み得る。いくつかの例において、オーディオ符号化デバイス２０は、サイドチャネル内にＦＯＶパラメータ１３を含む場合があり、一方、他の例において、オーディオ符号化デバイス２０は、他の場所に、ＦＯＶパラメータ１３を含む場合がある。さらに別の例において、オーディオ符号化デバイス２０は、ＦＯＶパラメータ１３を符号化しない場合があり、代わりに、オーディオ再生システム１６が、ＦＯＶパラメータ１３’にデフォルト値を割り当てる場合がある。

[0059]図２では、コンテンツ消費者デバイス１４に直接的に送信されるものとして示されているが、コンテンツ作成者デバイス１２は、コンテンツ作成者デバイス１２とコンテンツ消費者デバイス１４との間に配置された中間デバイスにオーディオビットストリーム２１を出力することができる。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス１４に後で配信するために、オーディオビットストリーム２１を記憶することができる。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにオーディオビットストリーム２１を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、オーディオビットストリーム２１を要求するコンテンツ消費者デバイス１４などの加入者にオーディオビットストリーム２１を（場合によっては対応するビデオデータビットストリームを送信するとともに）ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在してもよい。

[0060]代替的に、コンテンツ作成者デバイス１２は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にオーディオビットストリーム２１を記憶することができ、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。この文脈において、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある（および、小売店と他の店舗ベースの配信機構とを含み得る）。したがって、いずれにしても、本開示の技法は、この点に関して図２の例に限定されるべきではない。

[0061]コンテンツクリエータデバイス１２はさらに、ビデオデータ２３を生成し、符号化するように構成される場合があり、コンテンツコンシューマデバイス１４が、ビデオデータ２３を受信し、復号するように構成される場合がある。ビデオデータ２３は、オーディオビットストリーム２１に関連付けられ、送信され得る。この関連で、コンテンツクリエータデバイス１２およびコンテンツコンシューマデバイス１４は、図２には明示されない付加的なハードウェアおよびソフトウェアを含み得る。コンテンツクリエータデバイス１２は、たとえば、ビデオデータを取り込むためのカメラと、ビデオデータを編集するためのビデオ編集システムと、ビデオデータを符号化するためのビデオエンコーダとを含む場合があり、コンテンツコンシューマデバイス１４も、ビデオデコーダと、ビデオレンダラとを含む場合がある。

[0062]図２の例にさらに示されるように、コンテンツ消費者デバイス１４は、オーディオ再生システム１６を含む。オーディオ再生システム１６は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム１６は、いくつかの異なるレンダラ２２を含み得る。レンダラ２２は各々、異なる形態のレンダリングを提供することができ、異なる形態のレンダリングは、ベクトルベース振幅パンニング（ＶＢＡＰ：vector-base amplitude panning）を実行する様々な方法の１つもしくは複数、および／または音場合成を実行する様々な方法の１つもしくは複数を含み得る。本明細書で使用される場合、「Ａおよび／またはＢ」は、「ＡまたはＢ」、または「ＡとＢ」の両方を意味する。

[0063]オーディオ再生システム１６は、オーディオ復号デバイス２４をさらに含み得る。オーディオ復号デバイス２４は、オーディオビットストリーム２１からＨＯＡ係数１１’とＦＯＶパラメータ１３’とを復号するように構成されたデバイスを表し得、ＨＯＡ係数１１’は、ＨＯＡ係数１１と類似し得るが、損失のある演算（たとえば、量子化）および／または送信チャネルを介した送信が原因で異なり得る。ＦＯＶパラメータ１３は、それに対して、無損失でコーティングされ得る。オーディオ再生システム１６は、ＨＯＡ係数１１’を取得するためにオーディオビットストリーム２１を復号した後、ラウドスピーカーフィード２５を出力するためにＨＯＡ係数１１’をレンダリングすることができる。後により詳細に説明されるように、オーディオ再生システム１６がＨＯＡ係数１１’をレンダリングするやり方は、場合によっては、ディスプレイ１５のＦＯＶパラメータとともに、ＦＯＶパラメータ１３’に基づいて変更され得る。ラウドスピーカーフィード２５は、１つまたは複数のラウドスピーカー（説明を簡単にするために図２の例には示されていない）を駆動することができる。

[0064]適切なレンダラを選択するために、またはいくつかの場合には、適切なレンダラを生成するために、オーディオ再生システム１６は、ラウドスピーカーの数および／またはラウドスピーカーの空間的な幾何学的配置を示すラウドスピーカー情報１３を取得することができる。いくつかの場合には、オーディオ再生システム１６は、基準マイクロフォンを使用してラウドスピーカー情報１３を取得し、ラウドスピーカー情報１３を動的に決定するような方法でラウドスピーカーを駆動することができる。他の場合には、またはラウドスピーカー情報１３の動的な決定とともに、オーディオ再生システム１６は、オーディオ再生システム１６とインターフェースをとりラウドスピーカー情報１３を入力するようにユーザに促すことができる。

[0065]オーディオ再生システム１６は次いで、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを選択することができる。いくつかの場合には、オーディオ再生システム１６は、ラウドスピーカー情報１３において指定された幾何学的配置に対する何らかの閾値類似性尺度（ラウドスピーカーの幾何学的配置に関する）内にいずれのオーディオレンダラ２２もないとき、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを生成することができる。オーディオ再生システム１６は、いくつかの場合には、オーディオレンダラ２２のうちの既存の１つを選択することを最初に試みることなく、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを生成することができる。その際、１つまたは複数のスピーカー３は、レンダリングされたラウドスピーカーフィード２５を再生することができる。

[0066]図２に示されるように、コンテンツコンシューマデバイス１４は、関連する表示デバイス、ディスプレイ１５も有する。図２の例において、ディスプレイ１５は、コンテンツコンシューマデバイス１４に組み込まれるように示される。しかしながら、他の例では、ディスプレイ１５は、コンテンツコンシューマデバイス１４の外部に存在し得る。後にさらに詳細に説明されるように、ディスプレイ１５は、ＦＯＶパラメータ１３’とは別である１つまたは複数の関連するＦＯＶパラメータを有する場合がある。ＦＯＶパラメータ１３’は、コンテンツ生成の時点で基準画面に関連付けられるパラメータを表し、一方、ディスプレイ１５のＦＯＶパラメータは、再生のために使用される表示窓のＦＯＶパラメータである。オーディオ再生システム１６は、ＦＯＶパラメータ１３’と、ディスプレイ１５に関連付けられるＦＯＶパラメータとの両方に基づいて、オーディオレンダラ２２のうちの１つを変更または生成し得る。

[0067]図３は、本開示で説明される技法の様々な態様を実行することができる、図２の例に示されるオーディオ符号化デバイス２０の一例をより詳細に示すブロック図である。オーディオ符号化デバイス２０は、コンテンツ分析ユニット２６と、ベクトルベース分解ユニット２７と、指向性ベース分解ユニット２８とを含む。以下で手短に説明されるが、オーディオ符号化デバイス２０に関するより多くの情報、およびＨＯＡ係数を圧縮またはさもなければ符号化する様々な態様は、２０１４年５月２９に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0068]コンテンツ分析ユニット２６は、ＨＯＡ係数１１がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを特定するために、ＨＯＡ係数１１のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット２６は、ＨＯＡ係数１１が実際の音場の録音から生成されたか人工的なオーディオオブジェクトから生成されたかを決定することができる。いくつかの場合には、フレーム化されたＨＯＡ係数１１が録音から生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１をベクトルベース分解ユニット２７に渡す。いくつかの場合には、フレーム化されたＨＯＡ係数１１が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１を指向性ベース分解ユニット２８に渡す。指向性ベース分解ユニット２８は、指向性ベースビットストリーム２１を生成するためにＨＯＡ係数１１の指向性ベース合成を実行するように構成されたユニットを表し得る。

[0069]図３の例に示されるように、ベクトルベース分解ユニット２７は、線形可逆変換（ＬＩＴ）ユニット３０と、パラメータ計算ユニット３２と、並べ替えユニット３４と、フォアグラウンド選択ユニット３６と、エネルギー補償ユニット３８と、聴覚心理オーディオコーダユニット４０と、ビットストリーム生成ユニット４２と、音場分析ユニット４４と、係数低減ユニット４６と、バックグラウンド（ＢＧ）選択ユニット４８と、空間時間的補間ユニット５０と、量子化ユニット５２とを含み得る。

[0070]線形可逆変換（ＬＩＴ）ユニット３０は、ＨＯＡチャネルの形態でＨＯＡ係数１１を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連付けられた係数のブロックまたはフレーム（ＨＯＡ［ｋ］と示され得、ただし、ｋはサンプルの現在のフレームまたはブロックを示し得る）を表す。ＨＯＡ係数１１の行列は、次元Ｄ：Ｍ×（Ｎ＋１）²を有し得る。

[0071]ＬＩＴユニット３０は、特異値分解と呼ばれるある形態の分析を実行するように構成されたユニットを表し得る。ＳＶＤに関して説明されているが、本開示で説明される技法は、線形的に無相関な、エネルギーが圧縮された出力のセットを提供する任意の類似の変換または分解に対して実行されてよい。また、本開示における「セット」への言及は、一般的に、それとは反対に特に明記されていない限り、非０のセットを指すことが意図され、いわゆる「空集合」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「ＰＣＡ」と呼ばれることが多い、主成分分析を備え得る。文脈に応じて、ＰＣＡは、いくつかの例を挙げれば、離散カルーネン−レーベ変換、ホテリング変換、固有直交分解（ＰＯＤ）、および固有値分解（ＥＶＤ）などのいくつかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという背後にある目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「無相関化」である。

[0072]いずれにしても、ＬＩＴユニット３０が、例として、特異値分解（やはり「ＳＶＤ」と呼ばれることがある）を実行すると仮定すると、ＬＩＴユニット３０は、ＨＯＡ係数１１を、変換されたＨＯＡ係数の２つ以上のセットに変換することができる。変換されたＨＯＡ係数の「セット」は、変換されたＨＯＡ係数のベクトルを含み得る。図３の例では、ＬＩＴユニット３０は、いわゆるＶ行列と、Ｓ行列と、Ｕ行列とを生成するために、ＨＯＡ係数１１に関してＳＶＤを実行することができる。ＳＶＤは、線形代数学では、ｙ×ｚの実行列または複素行列Ｘ（ここで、Ｘは、ＨＯＡ係数１１などのマルチチャネルオーディオデータを表し得る）の因数分解を以下の形で表し得る。

Ｕはｙ×ｙの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｕのｙ個の列は、マルチチャネルオーディオデータの左特異ベクトルとして知られる。Ｓは、対角線上に非負実数をもつｙ×ｚの矩形対角行列を表し得、ここで、Ｓの対角線値は、マルチチャネルオーディオデータの特異値として知られる。Ｖ＊（Ｖの共役転置を示し得る）はｚ×ｚの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｖ＊のｚ個の列は、マルチチャネルオーディオデータの右特異ベクトルとして知られる。

[0073]いくつかの例では、上で参照されたＳＶＤ数式中のＶ＊行列は、複素数を備える行列にＳＶＤが適用され得ることを反映するために、Ｖ行列の共役転置として示される。実数のみを備える行列に適用されるとき、Ｖ行列の複素共役（すなわち、言い換えれば、Ｖ＊行列）は、Ｖ行列の転置であると見なされてよい。以下では、説明を簡単にするために、ＨＯＡ係数１１が実数を備え、その結果、Ｖ＊行列ではなくＶ行列がＳＶＤによって出力されると仮定される。その上、本開示ではＶ行列として示されるが、Ｖ行列への言及は、適切な場合にはＶ行列の転置を指すものとして理解されるべきである。Ｖ行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するＨＯＡ係数１１に適用されてよく、ここで、ＳＶＤの出力はＶ＊行列である。したがって、本技法は、この点について、Ｖ行列を生成するためにＳＶＤの適用を提供することのみに限定されるべきではなく、Ｖ＊行列を生成するために複素成分を有するＨＯＡ係数１１へのＳＶＤの適用を含んでよい。

[0074]このようにして、ＬＩＴユニット３０は、次元Ｄ：Ｍ×（Ｎ＋１）²を有するＵＳ［ｋ］ベクトル３３（ＳベクトルとＵベクトルとの組み合わされたバージョンを表し得る）と、次元Ｄ：（Ｎ＋１）²×（Ｎ＋１）²を有するＶ［ｋ］ベクトル３５とを出力するために、ＨＯＡ係数１１に関してＳＶＤを実行することができる。ＵＳ［ｋ］行列中の個々のベクトル要素はＸ_ps（ｋ）とも呼ばれることがあり、一方、Ｖ［ｋ］行列の個々のベクトルはｖ（ｋ）とも呼ばれることがある。

[0075]Ｕ行列、Ｓ行列、およびＶ行列の分析は、それらの行列がＸによって上で表される背後の音場の空間的および時間的な特性を伝え、または表すということを明らかにし得る。（Ｍ個のサンプルの長さの）Ｕの中のＮ個のベクトルの各々は、（Ｍ個のサンプルによって表される時間期間の間は）時間の関数として、互いに直交しておりあらゆる空間特性（指向性情報とも呼ばれ得る）とは切り離されている、正規化された分離されたオーディオ信号を表し得る。空間的な形状と位置（ｒ、θ、φ）とを表す空間特性は代わりに、（各々が（Ｎ＋１）²の長さの）Ｖ行列の中の個々のｉ番目のベクトル、ｖ⁽ⁱ⁾（ｋ）によって表され得る。ｖ⁽ⁱ⁾（ｋ）ベクトルの各々の個々の要素は、関連付けられたオーディオオブジェクトのための音場の形状（幅を含む）と位置とを記述するＨＯＡ係数を表し得る。Ｕ行列中のベクトルとＶ行列中のベクトルの両方が、それらの２乗平均エネルギーが１に等しくなるように正規化される。したがって、Ｕの中のオーディオ信号のエネルギーは、Ｓの中の対角線要素によって表される。したがって、ＵＳ［ｋ］（個々のベクトル要素Ｘ_PS（ｋ）を有する）を形成するために、ＵとＳとを乗算することは、エネルギーを有するオーディオ信号を表す。（Ｕにおける）オーディオ時間信号と、（Ｓにおける）それらのエネルギーと、（Ｖにおける）それらの空間特性とを切り離すＳＶＤ分解の能力は、本開示で説明される技法の様々な態様を支援することができる。さらに、背後のＨＯＡ［ｋ］係数ＸをＵＳ［ｋ］とＶ［ｋ］とのベクトル乗算によって合成するモデルは、本文書全体で使用される、「ベクトルベース分解」という用語を生じさせる。

[0076]ＨＯＡ係数１１に関して直接実行されるものとして説明されるが、ＬＩＴユニット３０は、線形可逆変換をＨＯＡ係数１１の派生物に適用することができる。たとえば、ＬＩＴユニット３０は、ＨＯＡ係数１１から導出された電力スペクトル密度行列に関してＳＶＤを適用することができる。ＨＯＡ係数自体ではなくＨＯＡ係数の電力スペクトル密度（ＰＳＤ）に関してＳＶＤを実行することによって、ＬＩＴユニット３０は潜在的に、プロセッササイクルおよび記憶空間のうちの１つまたは複数に関してＳＶＤを実行することの計算的な複雑さを低減しつつ、ＳＶＤがＨＯＡ係数に直接適用されたかのように同じソースオーディオ符号化効率を達成することができる。

[0077]パラメータ計算ユニット３２は、相関パラメータ（Ｒ）、指向性特性パラメータ（θ、φ、ｒ）、およびエネルギー特性（ｅ）などの様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、Ｒ［ｋ］、θ［ｋ］、φ［ｋ］、ｒ［ｋ］、およびｅ［ｋ］として示され得る。パラメータ計算ユニット３２は、パラメータを特定するために、ＵＳ［ｋ］ベクトル３３に関してエネルギー分析および／または相関（もしくはいわゆる相互相関）を実行することができる。パラメータ計算ユニット３２はまた、以前のフレームのためのパラメータを決定することができ、ここで、以前のフレームパラメータは、ＵＳ［ｋ−１］ベクトルおよびＶ［ｋ−１］ベクトルの以前のフレームに基づいて、Ｒ［ｋ−１］、θ［ｋ−１］、φ［ｋ−１］、ｒ［ｋ−１］、およびｅ［ｋ−１］と示され得る。パラメータ計算ユニット３２は、現在のパラメータ３７と以前のパラメータ３９とを並べ替えユニット３４に出力することができる。

[0078]パラメータ計算ユニット３２によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット３４によって使用され得る。並べ替えユニット３４は、第１のＵＳ［ｋ］ベクトル３３からのパラメータ３７の各々を、第２のＵＳ［ｋ−１］ベクトル３３のためのパラメータ３９の各々に対して順番ごとに比較することができる。並べ替えユニット３４は、並べ替えられたＵＳ［ｋ］行列３３’（数学的には

として示され得る）と、並べ替えられたＶ［ｋ］行列３５’（数学的には

として示され得る）とをフォアグラウンドサウンド（または支配的サウンド−ＰＳ（predominant sound））選択ユニット３６（「フォアグラウンド選択ユニット３６」）およびエネルギー補償ユニット３８に出力するために、現在のパラメータ３７および以前のパラメータ３９に基づいて、ＵＳ［ｋ］行列３３およびＶ［ｋ］行列３５内の様々なベクトルを（一例として、ハンガリー法を使用して）並べ替えることができる。

[0079]音場分析ユニット４４は、目標ビットレート４１を潜在的に達成するために、ＨＯＡ係数１１に関して音場分析を実行するように構成されたユニットを表し得る。音場分析ユニット４４は、その分析および／または受信された目標ビットレート４１に基づいて、聴覚心理コーダのインスタンス化の総数（環境またはバックグラウンドチャネルの総数（ＢＧ_TOT）とフォアグラウンドチャネル、または言い換えれば支配的なチャネルの数との関数であり得るを決定することができる。聴覚心理コーダのインスタンス化の総数は、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓとして示され得る。

[0080]音場分析ユニット４４はまた、やはり目標ビットレート４１を潜在的に達成するために、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド（または言い換えれば環境的な）音場の最小次数（Ｎ_BG、または代替的にはＭｉｎＡｍｂＨＯＡｏｒｄｅｒ）と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数（ｎＢＧａ＝（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²）と、送るべき追加のＢＧＨＯＡチャネルのインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３として総称的に示され得る）とを決定することができる。バックグラウンドチャネル情報４２は、環境チャネル情報４３とも呼ばれ得る。ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓ−ｎＢＧａで残るチャネルの各々は、「追加のバックグラウンド／環境チャネル」、「アクティブなベクトルベースの支配的なチャネル」、「アクティブな指向性ベースの支配的な信号」、または「完全に非アクティブ」のいずれかであり得る。一態様では、チャネルタイプは、２ビットによって（「ＣｈａｎｎｅｌＴｙｐｅ」として）示されたシンタックス要素であり得る（たとえば、００：指向性ベースの信号、０１：ベクトルベースの支配的な信号、１０：追加の環境信号、１１：非アクティブな信号）。バックグラウンド信号または環境信号の総数、ｎＢＧａは、（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²＋（上記の例における）インデックス１０がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。

[0081]音場分析ユニット４４は、目標ビットレート４１に基づいて、バックグラウンド（または言い換えれば環境）チャネルの数とフォアグラウンド（または言い換えれば支配的な）チャネルの数とを選択し、目標ビットレート４１が比較的高いとき（たとえば、目標ビットレート４１が５１２Ｋｂｐｓ以上であるとき）はより多くのバックグラウンドチャネルおよび／またはフォアグラウンドチャネルを選択することができる。一態様では、ビットストリームのヘッダセクションにおいて、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓは８に設定され得るが、一方で、ＭｉｎＡｍｂＨＯＡｏｒｄｅｒは１に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分または環境部分を表すために４つのチャネルが確保され得るが、一方で、他の４つのチャネルは、フレームごとに、チャネルのタイプに応じて変化してよく、たとえば、追加のバックグラウンド／環境チャネルまたはフォアグラウンド／支配的なチャネルのいずれかとして使用され得る。フォアグラウンド／支配的な信号は、上記で説明されたように、ベクトルベースの信号または指向性ベースの信号のいずれかの１つであり得る。

[0082]いくつかの場合には、フレームのためのベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてＣｈａｎｎｅｌＴｙｐｅインデックスが０１である回数によって与えられ得る。上記の態様では、各々の追加のバックグラウンド／環境チャネル（たとえば、１０というＣｈａｎｎｅｌＴｙｐｅに対応する）に対して、（最初の４つ以外の）あり得るＨＯＡ係数のいずれがそのチャネルにおいて表され得るかの対応する情報。その情報は、４次のＨＯＡコンテンツについては、ＨＯＡ係数５〜２５を示すためのインデックスであり得る。最初の４つの環境ＨＯＡ係数１〜４は、ｍｉｎＡｍｂＨＯＡｏｒｄｅｒが１に設定されるときは常に送られ得、したがって、オーディオ符号化デバイスは、５〜２５のインデックスを有する追加の環境ＨＯＡ係数のうちの１つを示すことのみが必要であり得る。その情報はしたがって、「ＣｏｄｅｄＡｍｂＣｏｅｆｆＩｄｘ」として示され得る、（４次のコンテンツのための）５ビットのシンタックス要素を使用して送られ得る。いずれにしても、音場分析ユニット４４は、バックグラウンドチャネル情報４３とＨＯＡ係数１１とをバックグラウンド（ＢＧ）選択ユニット３６に、バックグラウンドチャネル情報４３を係数低減ユニット４６およびビットストリーム生成ユニット４２に、ｎＦＧ４５をフォアグラウンド選択ユニット３６に出力する。

[0083]バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報（たとえば、バックグラウンド音場（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ）と）に基づいて、バックグラウンドまたは環境ＨＯＡ係数４７を決定するように構成されたユニットを表し得る。たとえば、Ｎ_BGが１に等しいとき、バックグラウンド選択ユニット４８は、１以下の次数を有するオーディオフレームの各サンプルのＨＯＡ係数１１を選択することができる。バックグラウンド選択ユニット４８は次いで、この例では、インデックス（ｉ）のうちの１つによって特定されるインデックスを有するＨＯＡ係数１１を、追加のＢＧＨＯＡ係数として選択することができ、ここで、ｎＢＧａは、図２および図４の例に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスがオーディオビットストリーム２１からバックグラウンドＨＯＡ係数４７を解析することを可能にするために、オーディオビットストリーム２１において指定されるために、ビットストリーム生成ユニット４２に提供される。バックグラウンド選択ユニット４８は次いで、環境ＨＯＡ係数４７をエネルギー補償ユニット３８に出力することができる。環境ＨＯＡ係数４７は、次元Ｄ：Ｍ×［（Ｎ_BG＋１）²＋ｎＢＧａ］を有し得る。環境ＨＯＡ係数４７はまた、「環境ＨＯＡ係数４７」と呼ばれることもあり、ここで、環境ＨＯＡ係数４７の各々は、聴覚心理オーディオコーダユニット４０によって符号化されるべき別個の環境ＨＯＡチャネル４７に対応する。

[0084]フォアグラウンド選択ユニット３６は、（フォアグラウンドベクトルを特定する１つまたは複数のインデックスを表し得る）ｎＦＧ４５に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたＵＳ［ｋ］行列３３’と並べ替えられたＶ［ｋ］行列３５’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット３６は、（並べ替えられたＵＳ［ｋ］_1,...,nFG４９、ＦＧ_1,...,nfG［ｋ］４９、または

として示され得る）ｎＦＧ信号４９を、聴覚心理オーディオコーダユニット４０に出力することができ、ここで、ｎＦＧ信号４９は次元Ｄ：Ｍ×ｎＦＧを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット３６はまた、音場のフォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’（またはｖ^(1..nFG)（ｋ）３５’）を空間時間的補間ユニット５０に出力することができ、ここで、フォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’のサブセットは、次元Ｄ：（Ｎ＋１）²×ｎＦＧを有するフォアグラウンドＶ［ｋ］行列５１_kとして示され得る（これは、

として数学的に示され得る）。

[0085]エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡチャネルのうちの様々なチャネルの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を実行するように構成されたユニットを表し得る。エネルギー補償ユニット３８は、並べ替えられたＵＳ［ｋ］行列３３’、並べ替えられたＶ［ｋ］行列３５’、ｎＦＧ信号４９、フォアグラウンドＶ［ｋ］ベクトル５１_k、および環境ＨＯＡ係数４７のうちの１つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー補償された環境ＨＯＡ係数４７’を生成するために、そのエネルギー分析に基づいてエネルギー補償を実行することができる。エネルギー補償ユニット３８は、エネルギー補償された環境ＨＯＡ係数４７’を聴覚心理オーディオコーダユニット４０に出力することができる。

[0086]空間時間的補間ユニット５０は、ｋ番目のフレームのためのフォアグラウンドＶ［ｋ］ベクトル５１_kと以前のフレームのための（したがってｋ−１という表記である）フォアグラウンドＶ［ｋ−１］ベクトル５１_k-1とを受信し、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために空間時間的補間を実行するように構成されたユニットを表し得る。空間時間的補間ユニット５０は、並べ替えられたフォアグラウンドＨＯＡ係数を復元するために、ｎＦＧ信号４９をフォアグラウンドＶ［ｋ］ベクトル５１_kと再び組み合わせることができる。空間時間的補間ユニット５０は次いで、補間されたｎＦＧ信号４９’を生成するために、補間されたＶ［ｋ］ベクトルによって、並べ替えられたフォアグラウンドＨＯＡ係数を分割することができる。空間時間的補間ユニット５０はまた、オーディオ復号デバイス２４などのオーディオ復号デバイスが補間されたフォアグラウンドＶ［ｋ］ベクトルを生成しそれによってフォアグラウンドＶ［ｋ］ベクトル５１_kを復元できるように、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kを出力することができる。補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kは、残りのフォアグラウンドＶ［ｋ］ベクトル５３として示される。同じＶ［ｋ］およびＶ［ｋ−１］がエンコーダおよびデコーダにおいて（補間されたベクトルＶ［ｋ］を作成するために）使用されることを保証するために、ベクトルの量子化された／逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用され得る。空間時間的補間ユニット５０は、補間されたｎＦＧ信号４９’を聴覚心理オーディオコーダユニット４６に出力し、補間されたフォアグラウンドＶ［ｋ］ベクトル５１_kを係数低減ユニット４６に出力することができる。

[0087]係数低減ユニット４６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を量子化ユニット５２に出力するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行するように構成されたユニットを表し得る。低減されたフォアグラウンドＶ［ｋ］ベクトル５５は、次元Ｄ：［（Ｎ＋１）²−（Ｎ_BG＋１）²−ＢＧ_TOT］×ｎＦＧを有し得る。係数低減ユニット４６は、この点において、残りのフォアグラウンドＶ［ｋ］ベクトル５３における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット４６は、指向性情報をほとんどまたはまったく有しない（残りのフォアグラウンドＶ［ｋ］ベクトル５３を形成する）フォアグラウンドＶ［ｋ］ベクトルにおける係数を除去するように構成されたユニットを表し得る。いくつかの例では、（Ｎ_BGと示され得る）１次および０次の基底関数に対応する、明瞭な、または言い換えればフォアグラウンドＶ［ｋ］ベクトルの係数は、指向性情報をほとんど提供せず、したがって、（「係数低減」と呼ばれ得るプロセスを通じて）フォアグラウンドＶベクトルから除去され得る。この例では、対応する係数Ｎ_BGを特定するだけではなく、追加のＨＯＡチャネル（変数ＴｏｔａｌＯｆＡｄｄＡｍｂＨＯＡＣｈａｎによって示され得る）を［（Ｎ_BG＋１）²＋１，（Ｎ＋１）²］のセットから特定するために、より大きい柔軟性が与えられ得る。

[0088]量子化ユニット５２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮するための任意の形態の量子化を実行し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をビットストリーム生成ユニット４２に出力するように構成されたユニットを表し得る。動作において、量子化ユニット５２は、音場の空間成分、すなわちこの例では低減されたフォアグラウンドＶ［ｋ］ベクトル５５の１つまたは複数を圧縮するように構成されたユニットを表し得る。量子化ユニット５２は、「ＮｂｉｔＱ」で表される量子化モードシンタックス要素によって示されるような、以下の１２の量子化モードのうちのいずれか１つを実行することができる。
ＮｂｉｔＱ値量子化モードのタイプ
０〜３：予約済み
４：ベクトル量子化
５：ハフマンコーディングなしのスカラー量子化
６：ハフマンコーディングありの６ビットスカラー量子化
７：ハフマンコーディングありの７ビットスカラー量子化
８：ハフマンコーディングありの８ビットスカラー量子化
・・・・・・
１６：ハフマンコーディングありの１６ビットスカラー量子化
また、量子化ユニット５２は、前述のタイプの量子化モードのいずれかの量子化モードの予測されたバージョンを実行することもでき、以前のフレームのＶベクトルの要素（またはベクトル量子化が実行されるときの重み）と、現在のフレームのＶベクトルの要素（またはベクトル量子化が実行されるときの重み）との間の差が決定される。量子化ユニット５２は、その際、現在のフレーム自体のＶベクトルの要素の値ではなく、現在のフレームの要素または重みと、以前のフレームの要素または重みとの間の差を量子化することができる。

[0089]量子化ユニット５２は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の複数の符号化されたバージョンを取得するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５のそれぞれに対して複数の形の量子化を実行することができる。量子化ユニット５２は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７として、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の符号化されたバージョンのうちの１つまたは複数を選択することができる。量子化ユニット５２は、言い換えれば、本開示で説明される基準の任意の組合せに基づいて、出力切替えされ量子化されたＶベクトルとして使用するために、予測されないベクトル量子化されたＶベクトル、予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの１つを選択することができる。いくつかの例では、量子化ユニット５２は、ベクトル量子化モードと１つまたは複数のスカラー量子化モードとを含む、量子化モードのセットから量子化モードを選択し、選択されたモードに基づいて（または従って）、入力Ｖベクトルを量子化することができる。量子化ユニット５２は次いで、（たとえば、重み値またはそれを示すビットに関して）予測されないベクトル量子化されたＶベクトル、（たとえば、誤差値またはそれを示すビットに関して）予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの選択されたものを、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７としてビットストリーム生成ユニット５２に与えることができる。量子化ユニット５２はまた、量子化モードを示すシンタックス要素（たとえば、ＮｂｉｔｓＱシンタックス要素）と、Ｖベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与えることができる。

[0090]オーディオ符号化デバイス２０内に含まれる聴覚心理オーディオコーダユニット４０は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために、エネルギー補償された環境ＨＯＡ係数４７’および補間されたｎＦＧ信号４９’の各々の異なるオーディオオブジェクトまたはＨＯＡチャネルを符号化するために使用される。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とをビットストリーム生成ユニット４２に出力することができる。

[0091]オーディオ符号化デバイス２０内に含まれるビットストリーム生成ユニット４２は、既知のフォーマット（復号デバイスによって知られているフォーマットを指し得る）に適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム２１を生成するユニットを表す。オーディオビットストリーム２１は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット４２は、いくつかの例ではマルチプレクサを表してよく、マルチプレクサは、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とを受信することができる。ビットストリーム生成ユニット４２は次いで、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいて、オーディオビットストリーム２１を生成することができる。このようにして、ビットストリーム生成ユニット４２は、それにより、オーディオビットストリーム２１を取得するために、オーディオビットストリーム２１内のベクトル５７を指定することができる。オーディオビットストリーム２１は、主要またはメインビットストリームと、１つまたは複数のサイドチャネルビットストリームとを含み得る。

[0092]図３の例には示されないが、オーディオ符号化デバイス２０はまた、現在のフレームが指向性ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス２０から出力されるビットストリームを（たとえば、指向性ベースのビットストリーム２１とベクトルベースのビットストリーム２１との間で）切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、（ＨＯＡ係数１１が合成オーディオオブジェクトから生成されたことを検出した結果として）指向性ベース合成が実行されたか、または（ＨＯＡ係数が録音されたことを検出した結果として）ベクトルベース合成が実行されたかを示す、コンテンツ分析ユニット２６によって出力されるシンタックス要素に基づいて、切替えを実行することができる。ビットストリーム出力ユニットは、ビットストリーム２１の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定することができる。

[0093]その上、上述されたように、音場分析ユニット４４は、フレームごとに変化し得る、ＢＧ_TOT環境ＨＯＡ係数４７を特定することができる（が、時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。ＢＧ_TOTにおける変化は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５において表された係数への変化を生じ得る。ＢＧ_TOTにおける変化は、フレームごとに変化する（「環境ＨＯＡ係数」と呼ばれることもある）バックグラウンドＨＯＡ係数を生じ得る（が、この場合も時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。この変化は、追加の環境ＨＯＡ係数の追加または除去と、対応する、低減されたフォアグラウンドＶ［ｋ］ベクトル５５からの係数の除去またはそれに対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じることが多い。

[0094]結果として、音場分析ユニット４４は、いつ環境ＨＯＡ係数がフレームごとに変化するかをさらに決定し、音場の環境成分を表すために使用されることに関して、環境ＨＯＡ係数への変化を示すフラグまたは他のシンタックス要素を生成することができる（ここで、この変化はまた、環境ＨＯＡ係数の「遷移」または環境ＨＯＡ係数の「遷移」と呼ばれることもある）。具体的には、係数低減ユニット４６は、（ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎフラグまたはＡｍｂＣｏｅｆｆＩｄｘＴｒａｎｓｉｔｉｏｎフラグとして示され得る）フラグを生成し、そのフラグが（場合によってはサイドチャネル情報の一部として）オーディオビットストリーム２１中に含まれ得るように、そのフラグをビットストリーム生成ユニット４２に与えることができる。

[0095]係数低減ユニット４６は、環境係数遷移フラグを指定することに加えて、低減されたフォアグラウンドＶ［ｋ］ベクトル５５が生成される方法を修正することもできる。一例では、環境ＨＯＡ環境係数のうちの１つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット４６は、遷移中の環境ＨＯＡ係数に対応する低減されたフォアグラウンドＶ［ｋ］ベクトル５５のＶベクトルの各々について、（「ベクトル要素」または「要素」とも呼ばれ得る）ベクトル係数を指定することができる。この場合も、遷移中の環境ＨＯＡ係数は、ＢＧ_TOTからバックグラウンド係数の総数を追加または除去し得る。したがって、バックグラウンド係数の総数において生じた変化は、環境ＨＯＡ係数がビットストリーム中に含まれるか含まれないか、および、Ｖベクトルの対応する要素が、上記で説明された第２の構成モードおよび第３の構成モードにおいてビットストリーム中で指定されたＶベクトルのために含まれるか否かに影響を及ぼす。係数低減ユニット４６が、エネルギーにおける変化を克服するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を指定することができる方法に関するより多くの情報は、２０１５年１月１２日に出願された「ＴＲＡＮＳＩＴＩＯＮＩＮＧＯＦＡＭＢＩＥＮＴＨＩＧＨＥＲ＿ＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」という名称の米国特許出願第１４／５９４，５３３号において提供されている。

[0096]図４は、図２のオーディオ復号デバイス２４をより詳細に示すブロック図である。図４の例に示されているように、オーディオ復号デバイス２４は、抽出ユニット７２と、指向性ベース再構成ユニット９０と、ベクトルベース再構成ユニット９２とを含み得る。以下で説明されるが、オーディオ復号デバイス２４に関するより多くの情報、およびＨＯＡ係数を解凍またはさもなければ復号する様々な態様は、２０１４年５月２９日に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0097]抽出ユニット７２は、オーディオビットストリーム２１を受信し、ＨＯＡ係数１１の様々な符号化されたバージョン（たとえば、指向性ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン）を抽出するように構成されたユニットを表し得る。抽出ユニット７２は、ＨＯＡ係数１１が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述されたシンタックス要素から決定することができる。指向性ベース符号化が実行されたとき、抽出ユニット７２は、ＨＯＡ係数１１の指向性ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素（図４の例では指向性ベース情報９１として示される）とを抽出し、指向性ベース情報９１を指向性ベース再構成ユニット９０に渡すことができる。指向性ベース再構成ユニット９０は、指向性ベース情報９１に基づいてＨＯＡ係数１１’の形態でＨＯＡ係数を再構成するように構成されたユニットを表し得る。ビットストリームおよびビットストリーム内のシンタックス要素の構成が、以下で図７Ａ〜図７Ｊの例に関してより詳細に説明される。

[0098]ＨＯＡ係数１１がベクトルベース合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７（コーディングされた重み５７および／もしくはインデックス６３またはスカラー量子化されたＶベクトルを含み得る）と、符号化された環境ＨＯＡ係数５９と、対応するオーディオオブジェクト６１（符号化されたｎＦＧ信号６１と呼ばれる場合もある）とを抽出することができる。オーディオオブジェクト６１はそれぞれベクトル５７のうちの１つに対応する。抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をＶベクトル再構成ユニット７４に渡し、符号化された環境ＨＯＡ係数５９を符号化されたｎＦＧ信号６１とともに聴覚心理復号ユニット８０に渡すことができる。

[0099]Ｖベクトル再構成ユニット７４は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７から、Ｖベクトルを再構成するように構成されるユニットを表し得る。Ｖベクトル再構成ユニット７４は、量子化ユニット５２の動作と逆の方法で動作することができる。

[0100]聴覚心理復号ユニット８０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを復号し、それによってエネルギー補償された環境ＨＯＡ係数４７’と補間されたｎＦＧ信号４９’（補間されたｎＦＧオーディオオブジェクト４９’とも呼ばれ得る）とを生成するために、図３の例に示される聴覚心理オーディオコーダユニット４０とは逆の方法で動作することができる。聴覚心理復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’をフェードユニット７７０に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡すことができる。

[0101]空間時間的補間ユニット７６は、空間時間的補間ユニット５０に関して上記で説明されたものと同様の方法で動作することができる。空間時間的補間ユニット７６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５_kを受信し、また、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’を生成するために、フォアグラウンドＶ［ｋ］ベクトル５５_kおよび低減されたフォアグラウンドＶ［ｋ−１］ベクトル５５_k-1に関して空間時間的補間を実行することができる。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送することができる。

[0102]抽出ユニット７２はまた、いつ環境ＨＯＡ係数のうちの１つが遷移中であるかを示す信号７５７を、フェードユニット７７０に出力することもでき、フェードユニット７７０は次いで、ＳＣＨ_BG４７’（ここで、ＳＣＨ_BG４７’は、「環境ＨＯＡチャネル４７’」または「環境ＨＯＡ係数４７’」とも呼ばれ得る）および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定することができる。いくつかの例では、フェードユニット７７０は、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の各々に関して、反対に動作することができる。すなわち、フェードユニット７７０は、環境ＨＯＡ係数４７’のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を実行することができ、一方で、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行することができる。フェードユニット７７０は、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力し、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’をフォアグラウンド編成ユニット７８に出力することができる。この点において、フェードユニット７７０は、ＨＯＡ係数またはその派生物の様々な態様に関して、たとえば、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の形態で、フェード動作を実行するように構成されたユニットを表す。

[0103]フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を生成するために、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’および補間されたｎＦＧ信号４９’に関して行列乗算を実行するように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット７８は、フォアグラウンド、または言い換えると、ＨＯＡ係数１１’の支配的態様を再構成するために、オーディオオブジェクト４９’（それは、補間されたｎＦＧ４９’を表す別の方法である）をベクトル５５_k’’’と組み合わせることができる。フォアグラウンド編成ユニット７８は、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’による補間されたｎＦＧ信号４９’の行列乗算を実行することができる。

[0104]ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、ＨＯＡ係数１１’がＨＯＡ係数１１と同様であるが同じではないことがあることを反映している。ＨＯＡ係数１１とＨＯＡ係数１１’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。

[0105]図５は、本開示で説明されるベクトルベース合成技法の様々な態様を実行する際の、図３の例に示されるオーディオ符号化デバイス２０などのオーディオ符号化デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ符号化デバイス２０は、ＨＯＡ係数１１を受信する（１０６）。オーディオ符号化デバイス２０はＬＩＴユニット３０を呼び出すことができ、ＬＩＴユニット３０は、変換されたＨＯＡ係数（たとえば、ＳＶＤの場合、変換されたＨＯＡ係数はＵＳ［ｋ］ベクトル３３とＶ［ｋ］ベクトル３５とを備え得る）を出力するためにＨＯＡ係数に関してＬＩＴを適用することができる（１０７）。

[0106]オーディオ符号化デバイス２０は次に、上記で説明された方法で様々なパラメータを特定するために、ＵＳ［ｋ］ベクトル３３、ＵＳ［ｋ−１］ベクトル３３、Ｖ［ｋ］ベクトルおよび／またはＶ［ｋ−１］ベクトル３５の任意の組合せに関して上記で説明された分析を実行するために、パラメータ計算ユニット３２を呼び出すことができる。すなわち、パラメータ計算ユニット３２は、変換されたＨＯＡ係数３３／３５の分析に基づいて少なくとも１つのパラメータを決定することができる（１０８）。

[0107]オーディオ符号化デバイス２０は次いで、並べ替えユニット３４を呼び出すことができ、並べ替えユニット３４は、上記で説明されたように、並べ替えられた変換されたＨＯＡ係数３３’／３５’（または言い換えれば、ＵＳ［ｋ］ベクトル３３’およびＶ［ｋ］ベクトル３５’）を生成するために、パラメータに基づいて、変換されたＨＯＡ係数（この場合も、ＳＶＤの文脈では、ＵＳ［ｋ］ベクトル３３とＶ［ｋ］ベクトル３５とを指し得る）を並べ替えることができる（１０９）。オーディオ符号化デバイス２０は、前述の演算または後続の演算のいずれかの間に、音場分析ユニット４４を呼び出すこともできる。音場分析ユニット４４は、上記で説明されたように、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド音場の次数（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３としてまとめて示され得る）とを決定するために、ＨＯＡ係数１１および／または変換されたＨＯＡ係数３３／３５に関して音場分析を実行することができる（１０９）。

[0108]オーディオ符号化デバイス２０はまた、バックグラウンド選択ユニット４８を呼び出すことができる。バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報４３に基づいて、バックグラウンドまたは環境ＨＯＡ係数４７を決定することができる（１１０）。オーディオ符号化デバイス２０はさらに、フォアグラウンド選択ユニット３６を呼び出すことができ、フォアグラウンド選択ユニット３６は、ｎＦＧ４５（フォアグラウンドベクトルを特定する１つまたは複数のインデックスを表し得る）に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたＵＳ［ｋ］ベクトル３３’と並べ替えられたＶ［ｋ］ベクトル３５’とを選択することができる（１１２）。

[0109]オーディオ符号化デバイス２０は、エネルギー補償ユニット３８を呼び出すことができる。エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡ係数のうちの様々なものの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を実行し（１１４）、それによって、エネルギー補償された環境ＨＯＡ係数４７’を生成することができる。

[0110]オーディオ符号化デバイス２０はまた、空間時間的補間ユニット５０を呼び出すことができる。空間時間的補間ユニット５０は、補間されたフォアグラウンド信号４９’（「補間されたｎＦＧ信号４９’」とも呼ばれ得る）と残りのフォアグラウンド指向性情報５３（「Ｖ［ｋ］ベクトル５３」とも呼ばれ得る）とを取得するために、並べ替えられた変換されたＨＯＡ係数３３’／３５’に関して空間時間的補間を実行することができる（１１６）。オーディオ符号化デバイス２０は次いで、係数低減ユニット４６を呼び出すことができる。係数低減ユニット４６は、低減されたフォアグラウンド指向性情報５５（低減されたフォアグラウンドＶ［ｋ］ベクトル５５とも呼ばれ得る）を取得するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行することができる（１１８）。

[0111]オーディオ符号化デバイス２０は次いで、上記で説明された方法で、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために、量子化ユニット５２を呼び出すことができる（１２０）。

[0112]オーディオ符号化デバイス２０はまた、聴覚心理オーディオコーダユニット４０を呼び出すことができる。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために、エネルギー補償された環境ＨＯＡ係数４７’および補間されたｎＦＧ信号４９’の各ベクトルを聴覚心理コーディングすることができる。オーディオ符号化デバイスは次いで、ビットストリーム生成ユニット４２を呼び出すことができる。ビットストリーム生成ユニット４２は、コーディングされたフォアグラウンド指向性情報５７と、コーディングされた環境ＨＯＡ係数５９と、コーディングされたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいて、オーディオビットストリーム２１を生成することができる。

[0113]図６は、本開示で説明される技法の様々な態様を実行する際の、図４に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ復号デバイス２４は、オーディオビットストリーム２１を受信することができる（１３０）。ビットストリームを受信すると、オーディオ復号デバイス２４は抽出ユニット７２を呼び出すことができる。説明の目的で、ベクトルベース再構成が実行されるべきであることをオーディオビットストリーム２１が示すと仮定すると、抽出デバイス７２は、上述された情報を取り出すためにビットストリームを解析し、その情報をベクトルベース再構成ユニット９２に渡すことができる。

[0114]言い換えれば、抽出ユニット７２は、コーディングされたフォアグラウンド指向性情報５７（この場合も、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７とも呼ばれ得る）と、コーディングされた環境ＨＯＡ係数５９と、コーディングされたフォアグラウンド信号（コーディングされたフォアグラウンドｎＦＧ信号５９またはコーディングされたフォアグラウンドオーディオオブジェクト５９とも呼ばれ得る）とを、上記で説明された方法でオーディオビットストリーム２１から抽出することができる（１３２）。

[0115]オーディオ復号デバイス２４はさらに、逆量子化ユニット７４を呼び出すことができる。逆量子化ユニット７４は、低減されたフォアグラウンド指向性情報５５_kを取得するために、コーディングされたフォアグラウンド指向性情報５７をエントロピー復号および逆量子化することができる（１３６）。オーディオ復号デバイス２４はまた、聴覚心理復号ユニット８０を呼び出すことができる。聴覚心理復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’と補間されたフォアグラウンド信号４９’とを取得するために、符号化された環境ＨＯＡ係数５９と符号化されたフォアグラウンド信号６１とを復号することができる（１３８）。聴覚心理復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’をフェードユニット７７０に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡すことができる。

[0116]オーディオ復号デバイス２４は次に、空間時間的補間ユニット７６を呼び出すことができる。空間時間的補間ユニット７６は、並べ替えられたフォアグラウンド指向性情報５５_k’を受信し、また、補間されたフォアグラウンド指向性情報５５_k’’を生成するために、低減されたフォアグラウンド指向性情報５５_k／５５_k-1に関して空間時間的補間を実行することができる（１４０）。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送することができる。

[0117]オーディオ復号デバイス２４は、フェードユニット７７０を呼び出すことができる。フェードユニット７７０は、エネルギー補償された環境ＨＯＡ係数４７’がいつ遷移中であるかを示すシンタックス要素（たとえば、ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎシンタックス要素）を（たとえば、抽出ユニット７２から）受信またはさもなければ取得することができる。フェードユニット７７０は、遷移シンタックス要素と維持された遷移状態情報とに基づいて、エネルギー補償された環境ＨＯＡ係数４７’をフェードインまたはフェードアウトし、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力することができる。フェードユニット７７０はまた、シンタックス要素と維持された遷移状態情報とに基づいて、および、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の対応する１つまたは複数の要素をフェードアウトまたはフェードインし、フォアグラウンド編成ユニット７８に調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’を出力することができる（１４２）。

[0118]オーディオ復号デバイス２４は、フォアグラウンド編成ユニット７８を呼び出すことができる。フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を取得するために、調整されたフォアグラウンド指向性情報５５_k’’’による行列乗算ｎＦＧ信号４９’を実行することができる（１４４）。オーディオ復号デバイス２４はまた、ＨＯＡ係数編成ユニット８２を呼び出すことができる。ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に加算することができる（１４６）。

[0119]本開示の技法によれば、オーディオ復号デバイス２４が、製作および再現画面サイズに基づいて、ＨＯＡ効果行列を計算し得る。ＨＯＡ効果行列は、画面関連ＨＯＡレンダリング行列を生成するために、所与のＨＯＡレンダリング行列Ｒを乗算され得る。いくつかの実装形態において、ＨＯＡレンダリング行列の適応は、実行時に複雑さが増さないように、たとえば、オーディオ復号デバイス２４の初期化段階中に、オフラインで行われ得る。

[0120]本開示の１つの提案される技法は、球（Ω⁹⁰⁰）上の９００個の等間隔に配置されるサンプリング点を使用し、サンプリング点のそれぞれはＩＳＯ／ＩＥＣＤＩＳ２３００８−３の付属書Ｆ．９「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ−Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ−Ｐａｒｔ３：３Ｄａｕｄｉｏ」（これ以降、「ＤＩＳ２３００８」）において記述されるように、方向（θ、φ）を用いて規定される。それらの方向に基づいて、オーディオ復号デバイスが、ＤＩＳ２３００８の付属書Ｆ．１．５において略述されるように、モード行列Ψ⁹⁰⁰を計算し得る。それらの９００個のサンプリング点の方向はマッピング関数を介して修正され、それに応じて、修正モード行列Ψ_m ⁹⁰⁰が計算される。画面関連オーディオオブジェクトと画面関連ＨＯＡコンテンツとの間の不一致を回避するために、ＤＩＳ２３００８の１８．３節においてすでに記述されている同じマッピング関数が使用される。その際、効果行列Ｆが以下のように計算される。

[0121]その後、画面関連レンダリング行列が以下のように計算される。

[0122]この処理ステップのいかなる繰り返しも回避するために、行列

をあらかじめ計算した、そして記憶することができる。Ｄを生成するための式（１）および（２）における残りの演算の全数は、（９００＋Ｍ）^*（Ｎ＋１）⁴である。次数Ｎ＝４およびＭ＝２２個のスピーカーを用いるレンダリング行列の場合、複雑さは、約０．５８で重み付けされたＭＯＰＳである。

[0123]本開示の画面に基づく適応技法の第１の例が、ここで、図７〜図１１を参照しながら説明されることになる。図７Ａは、基準画面のための方位角を表示窓のための方位角にマッピングするために使用され得るマッピング関数の一例を示す。図７Ｂは、基準画面のための仰角を表示窓のための仰角にマッピングするために使用され得るマッピング関数の一例を示す。図７Ａおよび図７Ｂの例において、基準画面の角度は、方位角２９度〜−２９度および仰角１６．３度〜−１６．３度であり、表示窓の角度は、方位角５８度〜−５８度および仰角３２．６度〜−３２．６度である。したがって、図７Ａおよび図７Ｂの例において、表示窓は基準画面の大きさの２倍である。

[0124]本開示において使用されるときに、表示窓は、ビデオを再現するために使用される画面の全体または一部を指す場合がある。テレビジョン、タブレット、電話または他のそのようなデバイスにおいて全画面モードにおいて映画を再生するとき、表示窓は、そのデバイスの画面全体に対応し得る。しかしながら、他の例において、表示窓は、そのデバイスの画面全体未満に対応し得る。たとえば、４つのスポーツイベントを同時に再生するデバイスが、１つの画面上に４つの異なる表示窓を含む場合があるか、またはデバイスが、ビデオを再生するための単一の表示窓を有し、他のコンテンツを表示するために残りの画面エリアを使用する場合がある。表示窓の視野は、表示窓の物理的サイズ、および／または表示窓から閲覧場所（ｖｉｅｗｉｎｇｌｏｃａｔｉｏｎ）までの距離（実測、想定のいずれか）のようなパラメータに基づいて決定され得る。視野は、たとえば、方位角および仰角によって記述され得る。

[0125]本開示において使用されるときに、基準画面は、ＨＯＡオーディオデータの音場に対応する視野を指している。たとえば、ＨＯＡオーディオデータが、ある特定の視野（すなわち、基準画面）に対して生成されるか、または取り込まれる場合があるが、異なる視野（たとえば、表示窓の視野）に対して再現される場合がある。本開示において説明されるように、基準画面は、サイズ、場所または何らかの他のそのような特性に関して基準画面とは異なる画面上に局所的に再生するためにオーディオデコーダがＨＯＡオーディオデータを適応させ得る基準を提供する。説明のために、製作画面および再現画面を参照しながら、本開示における特定の技法が記述される場合がある。基準画面および表示窓にこれらの同じ技法が適用可能であることは理解されたい。

[0126]図８は、第１の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す。図８において、ドットはマッピング先に対応し、一方、ドットに入るラインは、対応するマッピング軌跡。破線の長方形は、基準画面サイズに対応し、実線の長方形は、表示窓サイズに対応する。

[0127]図６１は、画面関連効果が、コンテンツのＨＯＡ次数の増加をいかに引き起こし得るかの一例を示す。図６１の例において、効果行列は、３次の入力材料から４９個のＨＯＡ係数（６次）を生成するために計算される。しかしながら、行列が、（Ｎ＋１）²×（Ｎ＋１）²の要素を有する正方行列として計算される場合にも、満足のいく結果が達成され得る。

[0128]図１０は、効果行列がいかにプリレンダリングされ、ラウドスピーカーレンダリング行列に適用され得るかの一例を示しており、それにより、実行時に余分な計算を不要にする。

[0129]図１１は、効果行列の結果として、高次コンテンツ（たとえば、６次）が生じ得る場合に、この次数のレンダリング行列を乗算し、元の次数（ここでは、３次）の最終的なレンダリング行列をいかにあらかじめ計算し得るかの一例を示す。

[0130]本開示の画面に基づく適応技法の第２の例が、ここで、図１２および図１３を参照しながら説明されることになる。図１２Ａは、基準画面のための方位角を表示窓のための方位角にマッピングするために使用され得るマッピング関数の一例を示す。図１２Ｂは、基準画面のための仰角を表示窓のための仰角にマッピングするために使用され得るマッピング関数の一例を示す。図１２Ａおよび図１２Ｂの例において、基準画面の角度は、方位角２９度〜−２９度および仰角１６．３度〜−１６．３度であり、表示窓の角度は、方位角２９度〜-２９度および仰角３２．６度〜−３２．６度である。したがって、図１２Ａおよび図１２Ｂの例において、表示窓は基準画面の２倍の高さであるが、基準画面と同じ幅を有する。図１２Ｃは、第２の例の場合の計算されたＨＯＡ効果行列を示す。

[0131]図１３は、第２の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す。図１３において、ドットはマッピング先に対応し、一方、ドットに入るラインは、対応するマッピング軌跡。破線の長方形は、基準画面サイズに対応し、実線の長方形は、表示窓サイズに対応する。

[0132]本開示の画面に基づく適応技法の第３の例が、ここで、図１４および図１５を参照しながら説明されることになる。図１４Ａは、基準画面のための方位角を表示窓のための方位角にマッピングするために使用され得るマッピング関数の一例を示す。図１４Ｂは、基準画面のための仰角を表示窓のための仰角にマッピングするために使用され得るマッピング関数の一例を示す。図１４Ａおよび図１４Ｂの例において、基準画面の角度は、方位角２９度〜−２９度および仰角１６．３度〜−１６．３度であり、表示窓の角度は、方位角５８度〜-５８度および仰角１６．３度〜−１６．３度である。したがって、図１４Ａおよび図１４Ｂの例において、表示窓は基準画面の２倍の幅であるが、基準画面と同じ高さを有する。図１４Ｃは、第３の例の場合の計算されたＨＯＡ効果行列を示す。

[0133]図１５は、第３の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す。図１５おいて、ドットはマッピング先に対応し、一方、ドットに入るラインは、対応するマッピング軌跡。破線の長方形は、基準画面サイズに対応し、実線の長方形は、表示窓サイズに対応する。

[0134]本開示の画面に基づく適応技法の第４の例が、ここで、図１６および図１７を参照しながら説明されることになる。図１６Ａは、基準画面のための方位角を表示窓のための方位角にマッピングするために使用され得るマッピング関数の一例を示す。図１６Ｂは、基準画面のための仰角を表示窓のための仰角にマッピングするために使用され得るマッピング関数の一例を示す。図１６Ａおよび図１６Ｂの例において、基準画面の角度は、方位角２９度〜−２９度および仰角１６．３度〜−１６．３度であり、表示窓の角度は、方位角４９度〜−９度および仰角１６．３度〜−１６．３度である。したがって、図１４Ａおよび図１４Ｂの例において、表示窓は基準画面の２倍の幅であるが、基準画面と同じ高さを有する。図１６Ｃは、第３の例の場合の計算されたＨＯＡ効果行列を示す。

[0135]図１７は、第４の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す。図１７において、ドットはマッピング先に対応し、一方、ドットに入るラインは、対応するマッピング軌跡。破線の長方形は、基準画面サイズに対応し、実線の長方形は、表示窓サイズに対応する。

[0136]本開示の画面に基づく適応技法の第５の例が、ここで、図１８および図１９を参照しながら説明されることになる。図１８Ａは、基準画面のための方位角を表示窓のための方位角にマッピングするために使用され得るマッピング関数の一例を示す。図１８Ｂは、基準画面のための仰角を表示窓のための仰角にマッピングするために使用され得るマッピング関数の一例を示す。図１８Ａおよび図１８Ｂの例において、基準画面の角度は、方位角２９度〜−２９度および仰角１６．３度〜−１６．３度であり、表示窓の角度は、方位角４９度〜−９度および仰角１６．３度〜−１６．３度である。したがって、図１８Ａおよび図１８Ｂの例において、表示窓は、方位角の場所に関して、基準画面に対してシフトされる。図１８Ｃは、第５の例の場合の計算されたＨＯＡ効果行列を示す。

[0137]図１９は、第４の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す。図１９において、ドットはマッピング先に対応し、一方、ドットに入るラインは、対応するマッピング軌跡。破線の長方形は、基準画面サイズに対応し、実線の長方形は、表示窓サイズに対応する。

[0138]図２０Ａ〜図２０Ｃは、本開示において説明されるオーディオの画面に基づく適応のための技法の種々の態様を実現し得るオーディオ復号デバイス９００の別の例を示すブロック図である。簡単にするために、図２０Ａ〜図２０Ｃにおいて、オーディオ復号デバイス９００のすべての態様が示されるとは限らない。オーディオ復号デバイス９００の特徴および機能は、図２および図４に関して先に説明されたオーディオ復号デバイス２４のような、本開示において説明された他のオーディオ復号デバイスの特徴および機能とともに実現され得ると考えられる。

[0139]オーディオ復号デバイス９００は、ＵＳＡＣデコーダ９０２と、ＨＯＡデコーダ９０４と、ローカルレンダリング行列発生器９０６と、シグナリング／ローカルレンダリング行列決定器９０８と、ラウドスピーカーレンダラ９１０とを含む。オーディオ復号デバイス９００は、符号化されたビットストリーム（たとえば、ＭＰＥＧ−Ｈ３Ｄオーディオビットストリーム）を受信する。ＵＳＡＣ復号器９０２およびＨＯＡ復号器９０４は、上記のＵＳＡＣおよびＨＯＡオーディオ復号技法を用いて、ビットストリームを復号する。ローカルレンダリング行列発生器９０６は、復号されたオーディオを再生しているシステムのローカルラウドスピーカー構成に少なくとも部分的に基づいて、１つまたは複数のレンダリング行列を生成する。また、ビットストリームは、符号化されたビットストリームから復号され得る１つまたは複数のレンダリング行列も含み得る。ローカル／シグナリングレンダリング行列決定器９０８は、オーディオデータを再生するときに、ローカルに生成されたレンダリング行列またはシグナリングされたレンダリング行列のいずれを使用すべきか決定する。ラウドスピーカーレンダラ９１０は、選択されたレンダリング行列に基づいて、１つまたは複数のスピーカーにオーディオを出力する。

[0140]図２０Ｂは、オーディオ復号デバイス９００の別の例を示すブロック図である。図２０Ｂの例において、オーディオ復号デバイス９００はさらに、効果行列発生器９１２を含む。効果行列発生器９１２は、ビットストリームから、基準画面サイズを決定し、対応するビデオデータを表示するために使用されるシステムに基づいて、表示窓サイズを決定し得る。基準画面サイズおよび表示窓サイズに基づいて、効果行列発生器９１２は、ローカル／シグナリングレンダリング行列決定器９０８によって選択されたレンダリング行列（Ｒ’）を修正するためのアンド効果行列（Ｆ）を生成し得る。図２０Ｂの例において、ラウドスピーカーレンダラ９１０は、修正レンダリング行列（Ｄ）に基づいて、１つまたは複数のスピーカーにオーディオを出力し得る。図２０Ｃの例において、オーディオ復号デバイス９００は、ＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇ（）において、フラグが、ＳｃｒｅｅｎＲｅｌａｔｉｖｅフラグ＝１である場合には、効果のみをレンダリングするように構成され得る。

[0141]本開示の技法によれば、効果行列発生器９１２は、また、画面回転に応答して効果行列を生成し得る。効果行列発生器９１２は、たとえば、以下のアルゴリズムに従って効果行列を生成し得る。新たなマッピング関数のための一例のアルゴリズムは、擬似コードにおいて、以下の通りである。
％１．相対画面マッピングパラメータを計算する。

％２．基準画面の中心および表示窓の中心を見つける。

％３．画面関連マッピングを行う。

製作および表示窓の絶対位置ではなく、ｈｅｉｇｈｔＲａｔｉｏおよびｗｉｄｔｈＲａｔｉｏを使用するＭＰＥＧ−Ｈ画面関連マッピング関数を用いて、均等に分布する空間位置のマッピングを行う。
％４．音場を回転させる。
（３．）において処理された空間位置をｏｒｉｇｉｎａｌＣｅｎｔｅｒからｎｅｗＣｅｎｔｅｒに回転させる。
％５．ＨＯＡ効果行列を計算する。
元の空間位置および処理された空間位置（４．から）を使用する。

[0142]本開示の技法によれば、効果行列発生器９１２は、また、画面回転に応答して効果行列を生成し得る。効果行列発生器９１２は、たとえば、以下のアルゴリズムに従って効果行列を生成し得る。
１．相対画面マッピングパラメータを計算する：

ただし：

２．標準製作画面の中心座標およびローカル再現画面の中心を計算する：

３．画面関連マッピング：
ｈｅｉｇｈｔＲａｔｉｏおよびｗｉｄｔｈＲａｔｉｏを使用して画面関連マッピング関数を用いてΩ⁹⁰⁰を

にマッピングする。
４．位置を回転させる：
空間位置

を、回転カーネルＲを用いて、ｐｒｏｄｕｃｔｉｏｎＣｅｎｔｅｒ座標からｌｏｃａｌＣｅｎｔｅｒ座標に回転させ、結果として

を生成する。

ｙ軸回転（ピッチ）ｚ軸回転（ヨー）
５．ＨＯＡ効果行列を計算する：

ただし、Ψ_mr ⁹⁰⁰は、

から生成されるモード行列である。

[0143]図２０Ｃは、オーディオ復号デバイス９００の別の例を示すブロック図である。図２０Ｃの例において、オーディオ復号デバイス９００は全般的に、図２０Ｂの例の場合に先に説明されたのと同じように動作するが、図２０Ｃの例において、効果行列発生器９１２はさらに、ズーム動作のための倍率を決定し、倍率情報、基準画面サイズおよび表示窓サイズに基づいて、ローカル／シグナリングレンダリング行列決定器９０８によって選択されたレンダリング行列（Ｒ’）を修正するための効果行列（Ｆ）を生成するように構成される。図２０Ｃの例において、ラウドスピーカーレンダラ９１０は、修正レンダリング行列（Ｄ）に基づいて、１つまたは複数のスピーカーにオーディオを出力し得る。図２０Ｃの例において、オーディオ復号デバイス９００は、ＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇ（）において、フラグが、ＳｃｒｅｅｎＲｅｌａｔｉｖｅＨＯＡフラグ＝１である場合には、効果のみをレンダリングするように構成され得る。

[0144]フラグは、ＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇ（）シンタックス表（表１として以下に示される）内のＳｃｒｅｅｎＲｅｌａｔｉｖｅＨＯＡであり、画面関連ＨＯＡコンテンツが再現画面サイズに適応できるようにするのに十分である。公称の製作画面に関する情報は、メタデータオーディオ要素の一部として個別にシグナリングされ得る。

[0145]オーディオ再生システム１６のような本開示のオーディオ再生システムは、基準画面の１つまたは複数のＦＯＶパラメータ（たとえば、ＦＯＶパラメータ１３’）と、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカー（たとえば、スピーカー３）を介してＨＯＡオーディオ信号をレンダリングすることによって、ＨＯＡオーディオ信号をレンダリングするように構成され得る。レンダリングは、たとえば、ユーザ起動ズーム動作に応答して得られた倍率にさらに基づくことができる。いくつかの例において、基準画面のための１つまたは複数のＦＯＶパラメータは、基準画面の中心の場所と、表示窓の中心の場所とを含み得る。

[0146]オーディオ再生システム１６は、たとえば、ＨＯＡオーディオ信号を備える符号化されたオーディオデータのビットストリームを受信し得る。符号化されたオーディオデータは、対応するビデオデータに関連付けられ得る。オーディオ再生システム１６は、そのビットストリームから、対応するビデオデータのための基準画面の１つまたは複数のＦＯＶパラメータ（たとえば、ＦＯＶパラメータ１３’）を取得し得る。

[0147]また、オーディオ再生システム１６は、対応するビデオデータを表示するための表示窓の１つまたは複数のＦＯＶパラメータも取得し得る。表示窓のＦＯＶパラメータは、ユーザ入力、自動測定、デフォルト値などの任意の組合せに基づいて、ローカルで決定され得る。

[0148]オーディオ再生システム１６は、表示窓の１つまたは複数のＦＯＶパラメータと、基準画面の１つまたは複数のＦＯＶパラメータとに基づいて、オーディオレンダラ２２から、符号化されたオーディオデータのためのレンダラを決定し、オーディオレンダラ２２のうちの１つを修正し、修正されたレンダラと、符号化されたオーディオデータとに基づいて、１つまたは複数のスピーカーを介してＨＯＡオーディオ信号をレンダリングし得る。オーディオ再生システム１６は、ズーム動作が実行されるときに倍率にさらに基づいて、オーディオレンダラ２２のうちの１つを修正し得る。

[0149]オーディオ再生システム１６は、たとえば、必ずしも限定はされないが、１つまたは複数のスピーカーの空間的配置、および／または再生のために利用可能なスピーカーの数を含む、スピーカー構成に基づいて、符号化されたオーディオデータのためのレンダラを決定し得る。

[0150]オーディオレンダラ２２は、たとえば、符号化されたオーディオデータを再現フォーマットに変換するためのアルゴリズムを含み、および／またはレンダリングフォーマットを利用し得る。レンダリングフォーマットは、たとえば、行列、光線、ラインまたはベクトルのいずれかを含み得る。オーディオレンダラ２２は、ビットストリームにおいてシグナリングされ得るか、再生環境に基づいて決定され得る。

[0151]基準画面のための１つまたは複数のＦＯＶパラメータは、基準画面のための１つまたは複数の方位角を含み得る。基準画面のための１つまたは複数の方位角は、基準画面のための左方位角および基準画面のための右方位角を含み得る。基準画面のための１つまたは複数のＦＯＶパラメータは、その代わりに、またはそれに加えて、基準画面のための１つまたは複数の仰角を含み得る。基準画面のための１つまたは複数の仰角は、基準画面のための上仰角および基準画面のための下仰角を含み得る。

[0152]表示窓のための１つまたは複数のＦＯＶパラメータは、表示窓のための１つまたは複数の方位角を含み得る。表示窓のための１つまたは複数の方位角は、表示窓のための左方位角および表示窓のための右方位角を含み得る。表示窓のための１つまたは複数のＦＯＶパラメータは、表示窓のための１つまたは複数の方位角を含み得る。表示窓のための１つまたは複数の仰角は、表示窓のための上仰角および表示窓のための下仰角を含み得る。

[0153]オーディオ再生システム１６は、基準画面の１つまたは複数のＦＯＶパラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、スピーカーの方位角を修正するための方位角マッピング関数を決定し、方位角マッピング関数に基づいて、第１のスピーカーのための修正方位角を生成するために、１つまたは複数のスピーカーの第１のスピーカーのための方位角を修正することによって、オーディオレンダラ２２のうちの１つまたは複数を修正し得る。

[0154]方位角マッピング関数は、

を備える。
ただし、φ’は、第１のスピーカーのための修正方位角を表し、
φは第１のスピーカーのための方位角を表し、

は基準画面の左方位角を表し、

は基準画面の右方位角を表し、

は表示窓の左方位角を表し、

は表示窓の右方位角を表す。

[0155]オーディオ再生システム１６は、基準画面の１つまたは複数のＦＯＶパラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、スピーカーの仰角を修正するための仰角マッピング関数を決定し、仰角マッピング関数に基づいて、１つまたは複数のスピーカーの第１のスピーカーのための仰角を修正することによって、レンダラを修正し得る。

[0156]仰角マッピング関数は、

を備える。
ただし、θ’は、第１のスピーカーのための修正仰角を表し、
ただし、θは、第１のスピーカーのための仰角を表し、

は基準画面の上仰角を表し、

は基準画面の下仰角を表し、

は表示窓の上仰角を表し、

は表示窓の下仰角を表す。

[0157]オーディオ再生システム１６は、表示窓におけるユーザ起動ズーム機能に応答して、レンダラを修正し得る。たとえば、ユーザ起動ズーム機能に応答して、オーディオ再生システム１６は、ズームされた表示窓の１つまたは複数のＦＯＶパラメータを決定し、基準画面の１つまたは複数のＦＯＶパラメータと、ズームされた表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、レンダラを修正し得る。また、オーディオ再生システム１６は、倍率と、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、ズームされた表示窓の１つまたは複数のＦＯＶパラメータを決定し、ズームされた表示窓の１つまたは複数のＦＯＶパラメータと、基準画面の１つまたは複数のＦＯＶパラメータとに基づいて、スピーカーの方位角を修正するための方位角マッピング関数を決定し、方位角マッピング関数に基づいて、１つまたは複数のスピーカーの第１のスピーカーのための修正方位角を生成するために第１のスピーカーのための方位角を修正することによって、レンダラを修正し得る。

[0158]方位角マッピング関数は、

備える。
ただし、φ’は、第１のスピーカーのための修正方位角を表し、
φは第１のスピーカーのための方位角を表し、

は基準画面の左方位角を表し、

は基準画面の右方位角を表し、

はズームされた表示窓の左方位角を表し、

はズームされた表示窓の右方位角を表す。

[0159]また、オーディオ再生システム１６は、倍率と、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、ズームされた表示窓の１つまたは複数のＦＯＶパラメータを決定し、ズームされた表示窓の１つまたは複数のＦＯＶパラメータと、基準画面の１つまたは複数のＦＯＶパラメータとに基づいて、スピーカーの仰角を修正するための仰角マッピング関数を決定し、仰角マッピング関数に基づいて、１つまたは複数のスピーカーの第１のスピーカーのための修正仰角を生成するために第１のスピーカーのための仰角を修正することによって、レンダラを修正し得る。

[0160]仰角マッピング関数は、

は基準画面の上仰角を表し、

は基準画面の下仰角を表し、

はズームされた表示窓の上仰角を表し、

はズームされた表示窓の下仰角を表す。

[0161]オーディオ再生システム１６は、表示窓のための１つまたは複数の方位角と、倍率とに基づいて、ズームされた表示窓のための１つまたは複数の方位角を決定することによって、ズームされた表示窓の１つまたは複数のＦＯＶパラメータを決定し得る。オーディオ再生システム１６は、表示窓のための１つまたは複数の仰角と、倍率とに基づいて、ズームされた表示窓の１つまたは複数の仰角を決定することによって、ズームされた表示窓の１つまたは複数のＦＯＶパラメータを決定し得る。オーディオ再生システム１６は、基準画面の１つまたは複数のＦＯＶパラメータに基づいて、基準画面の中心を決定し、表示窓の１つまたは複数のＦＯＶパラメータに基づいて、表示窓の中心を決定し得る。

[0162]オーディオ再生システム１６は、符号化されたオーディオデータのためのレンダラを決定し、表示窓の中心と、基準画面の中心とに基づいて、レンダラを修正し、修正されたレンダラと、符号化されたオーディオデータとに基づいて、１つまたは複数のスピーカーを介してＨＯＡオーディオ信号をレンダリングするように構成され得る。

[0163]オーディオ再生システム１６は、以下のアルゴリズムに従って表示窓の中心を決定し得る。

ただし、「ｏｒｉｇｉｎａｌＷｉｄｔｈ」は基準画面の幅を表し、「ｏｒｉｇｉｎａｌＨｅｉｇｈｔ」は基準画面の高さを表し、「ｏｒｉｇｉｎａｌＡｎｇｌｅｓ．ａｚｉ（１）」は基準画面の第１の方位角を表し、「ｏｒｉｇｉｎａｌＡｎｇｌｅｓ．ａｚｉ（２）」は基準画面の第２の方位角を表し、「ｏｒｉｇｉｎａｌＡｎｇｌｅｓ．ｅｌｅ（１）」は基準画面の第１の仰角を表し、「ｏｒｉｇｉｎａｌＡｎｇｌｅｓ．ｅｌｅ（２）」は基準画面の第２の仰角を表し、「ｎｅｗＷｉｄｔｈ」は表示窓の幅を表し、「ｎｅｗＨｅｉｇｈｔ」は、表示窓の高さを表し、「ｎｅｗＡｎｇｌｅｓ．ａｚｉ（１）」は表示窓の第１の方位角を表し、「ｎｅｗＡｎｇｌｅｓ．ａｚｉ（２）」は表示窓の第２の方位角を表し、「ｎｅｗＡｎｇｌｅｓ．ｅｌｅ（１）」は表示窓の第１の仰角を表し、「ｎｅｗＡｎｇｌｅｓ．ｅｌｅ（２）」は表示窓の第２の仰角を表し、「ｏｒｉｇｉｎａｌＣｅｎｔｅｒ．ａｚｉ」は基準画面の中心の方位角を表し、「ｏｒｉｇｉｎａｌＣｅｎｔｅｒ．ｅｌｅ」は基準画面の中心の仰角を表し、「ｎｅｗＣｅｎｔｅｒ．ａｚｉ」は表示窓の中心の方位角を表し、「ｎｅｗＣｅｎｔｅｒ．ｅｌｅ」は表示窓の中心の仰角を表す。

[0164]オーディオ再生システム１６は、音場を基準画面の中心から表示窓の中心に回転させ得る。

[0165]ＨＯＡオーディオ信号は、ＭＰＥＧ−Ｈ３Ｄ準拠ビットストリームの一部とし得る。表示窓は、たとえば、再現画面、または再現画面の一部とし得る。また、表示窓はローカル画面に対応し得る。基準画面は、たとえば、製作画面とし得る。

[0166]オーディオ再生システム１６は、基準画面の１つまたは複数のＦＯＶパラメータのための値がデフォルト値に対応することを指示するシンタックス要素を受信し、および／または基準画面の１つまたは複数のＦＯＶパラメータのための値が、ＨＯＡオーディオ信号を備えるビットストリーム内に含まれるシグナリング値に対応することを指示するシンタックス要素を受信するように構成され得る。

[0167]図２１は、本開示において説明される画面に基づく適応技法を実行する際のオーディオ復号デバイスの一例の動作を示す流れ図である。図２１の技法は、コンテンツコンシューマデバイス１４に関して説明されるが、図２１の技法が、そのようなデバイスには必ずしも制限されず、他のタイプのオーディオレンダリングデバイスによって実行され得ることは理解されたい。コンテンツコンシューマデバイス１４が、表示窓のための１つまたは複数のＦＯＶパラメータと、基準画面のための１つまたは複数のＦＯＶパラメータとを取得する（１０００）。コンテンツコンシューマデバイス１４は、たとえば、ＨＯＡオーディオ信号を含むビットストリームから、基準画面のための１つまたは複数のＦＯＶパラメータを取得し得る。コンテンツコンシューマデバイス１４は、そして、ローカルディスプレイのサイズのようなローカルディスプレイの特性に基づいて、表示窓のための１つまたは複数のＦＯＶパラメータをローカルに取得し得る。また、ＦＯＶパラメータは、ディスプレイの向き、ビデオを表示するために使用されるズームの量、および他のそのような特性のような特性に基づく場合もある。基準画面の１つまたは複数のＦＯＶパラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、コンテンツコンシューマデバイス１４は、１つまたは複数のスピーカーを介して、ＨＯＡオーディオ信号をレンダリングする（１０２０）。

[0168]上記の技法は、任意の数の異なる状況およびオーディオエコシステムに関して実行され得る。いくつかの例示的な状況が以下で説明されるが、本技法はそれらの例示的な状況に限定されるべきではない。１つの例示的なオーディオエコシステムは、オーディオコンテンツと、映画スタジオと、音楽スタジオと、ゲーミングオーディオスタジオと、チャネルベースオーディオコンテンツと、コーディングエンジンと、ゲームオーディオステムと、ゲームオーディオコーディング／レンダリングエンジンと、配信システムとを含み得る。

[0169]映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信することができる。いくつかの例では、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション（ＤＡＷ）を使用することなどによって、（たとえば、２．０、５．１、および７．１の）チャネルベースオーディオコンテンツを出力することができる。音楽スタジオは、ＤＡＷを使用することなどによって、（たとえば、２．０、および５．１の）チャネルベースオーディオコンテンツを出力することができる。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、チャネルベースオーディオコンテンツベースの１つまたは複数のコーデック（たとえば、ＡＡＣ、ＡＣ３、ＤｏｌｂｙＴｒｕｅＨＤ、ＤｏｌｂｙＤｉｇｉｔａｌＰｌｕｓ、およびＤＴＳＭａｓｔｅｒＡｕｄｉｏ）を受信し符号化することができる。ゲーミングオーディオスタジオは、ＤＡＷを使用することなどによって、１つまたは複数のゲームオーディオステムを出力することができる。ゲームオーディオコーディング／レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングすることができる。本技法が実行され得る別の例示的な状況は、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、ＨＯＡオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、ＴＶ、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。

[0170]放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、ＨＯＡオーディオフォーマットを使用して、それらの出力をコーディングすることができる。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、ＴＶ、およびアクセサリ、ならびにカーオーディオシステムを使用して再生され得る単一の表現へと、ＨＯＡオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム１６など、汎用的なオーディオ再生システムにおいて（すなわち、５．１、７．１などの特定の構成を必要とすることとは対照的に）再生され得る。

[0171]本技法が実行され得る状況の他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、有線および／またはワイヤレス獲得デバイス（たとえば、Ｅｉｇｅｎマイクロフォン）、オンデバイスサラウンドサウンドキャプチャ、ならびにモバイルデバイス（たとえば、スマートフォンおよびタブレット）を含み得る。いくつかの例では、有線および／またはワイヤレス獲得デバイスは、有線および／またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。

[0172]本開示の１つまたは複数の技法によれば、モバイルデバイスが音場を獲得するために使用され得る。たとえば、モバイルデバイスは、有線および／もしくはワイヤレス獲得デバイス、ならびに／またはオンデバイスサラウンドサウンドキャプチャ（たとえば、モバイルデバイスに統合された複数のマイクロフォン）を介して、音場を獲得することができる。モバイルデバイスは次いで、再生要素のうちの１つまたは複数による再生のために、獲得された音場をＨＯＡ係数へとコーディングすることができる。たとえば、モバイルデバイスのユーザは、ライブイベント（たとえば、会合、会議、劇、コンサートなど）を録音し（その音場を獲得し）、録音をＨＯＡ係数へとコーディングすることができる。

[0173]モバイルデバイスはまた、ＨＯＡコーディングされた音場を再生するために、再生要素のうちの１つまたは複数を利用することができる。たとえば、モバイルデバイスは、ＨＯＡコーディングされた音場を復号し、再生要素のうちの１つまたは複数に信号を出力することができ、このことは再生要素のうちの１つまたは複数に音場を再作成させる。一例として、モバイルデバイスは、１つまたは複数のスピーカー（たとえば、スピーカーアレイ、サウンドバーなど）に信号を出力するために、ワイヤレスおよび／またはワイヤレス通信チャネルを利用することができる。別の例として、モバイルデバイスは、１つもしくは複数のドッキングステーションおよび／または１つもしくは複数のドッキングされたスピーカー（たとえば、スマート自動車および／またはスマート住宅の中のサウンドシステム）に信号を出力するために、ドッキング解決手段を利用することができる。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、たとえばリアルなバイノーラルサウンドを作成するために、ヘッドフォンレンダリングを利用することができる。

[0174]いくつかの例では、特定のモバイルデバイスは、３Ｄ音場を獲得することと、より後の時間に同じ３Ｄ音場を再生することの両方を行うことができる。いくつかの例では、モバイルデバイスは、３Ｄ音場を獲得し、３Ｄ音場をＨＯＡへと符号化し、符号化された３Ｄ音場を再生のために１つまたは複数の他のデバイス（たとえば、他のモバイルデバイスおよび／または他の非モバイルデバイス）に送信することができる。

[0175]本技法が実行され得るまた別の状況は、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、ＨＯＡ信号の編集をサポートし得る１つまたは複数のＤＡＷを含み得る。たとえば、１つまたは複数のＤＡＷは、１つまたは複数のゲームオーディオシステムとともに動作する（たとえば、機能する）ように構成され得る、ＨＯＡプラグインおよび／またはツールを含み得る。いくつかの例では、ゲームスタジオは、ＨＯＡをサポートする新しいステムフォーマットを出力することができる。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングすることができるレンダリングエンジンに、コーディングされたオーディオコンテンツを出力することができる。

[0176]本技法はまた、例示的なオーディオ獲得デバイスに関して実行され得る。たとえば、本技法は、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る、Ｅｉｇｅｎマイクロフォンに関して実行され得る。いくつかの例では、Ｅｉｇｅｎマイクロフォンの複数のマイクロフォンは、約４ｃｍの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例では、オーディオ符号化デバイス２０は、マイクロフォンから直接オーディオビットストリーム２１を出力するために、Ｅｉｇｅｎマイクロフォンに統合され得る。

[0177]別の例示的なオーディオ獲得状況は、１つまたは複数のＥｉｇｅｎマイクロフォンなど、１つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図３のオーディオ符号化デバイス２０などのオーディオエンコーダを含み得る。

[0178]モバイルデバイスはまた、いくつかの場合には、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、Ｘ、Ｙ、Ｚのダイバーシティを有し得る。いくつかの例では、モバイルデバイスは、モバイルデバイスの１つまたは複数の他のマイクロフォンに関してＸ、Ｙ、Ｚのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図３のオーディオ符号化デバイス２０などのオーディオエンコーダを含み得る。

[0179]耐衝撃性のビデオキャプチャデバイスは、３Ｄ音場を録音するようにさらに構成され得る。いくつかの例では、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。たとえば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周りのすべての活動（たとえば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など）を表す３Ｄ音場をキャプチャすることができる。

[0180]本技法はまた、３Ｄ音場を録音するように構成され得る、アクセサリで増強されたモバイルデバイスに関して実行され得る。いくつかの例では、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、１つまたは複数のアクセサリが追加されている。たとえば、Ｅｉｇｅｎマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述されたモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの３Ｄ音場をキャプチャすることができる。

[0181]本開示で説明される本技法の様々な態様を実行することができる例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の１つまたは複数の技法によれば、スピーカーおよび／またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として３Ｄ音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、有線接続またはワイヤレス接続のいずれかを介してオーディオ復号デバイス２４に結合され得る。本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。

[0182]いくつかの異なる例示的なオーディオ再生環境はまた、本開示で説明される技法の様々な態様を実行するために好適であり得る。たとえば、５．１スピーカー再生環境、２．０（たとえば、ステレオ）スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う９．１スピーカー再生環境、２２．２スピーカー再生環境、１６．０スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を実行するために好適な環境であり得る。

[0183]本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダードが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。たとえば、設計上の考慮事項が、７．１スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合（たとえば、右側のサラウンドスピーカーを配置することが可能ではない場合）、本開示の技法は、再生が６．１スピーカー再生環境で達成され得るように、レンダーが他の６つのスピーカーとともに補償することを可能にする。

[0184]その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見ることができる。本開示の１つまたは複数の技法によれば、スポーツの試合の３Ｄ音場が獲得され得（たとえば、１つまたは複数のＥｉｇｅｎマイクロフォンが野球場の中および／または周りに配置され得）、３Ｄ音場に対応するＨＯＡ係数が取得されデコーダに送信され得、デコーダがＨＯＡ係数に基づいて３Ｄ音場を再構成して、再構成された３Ｄ音場をレンダラに出力することができ、レンダラが再生環境のタイプ（たとえば、ヘッドフォン）についての指示を取得し、再構成された３Ｄ音場を、ヘッドフォンにスポーツの試合の３Ｄ音場の表現を出力させる信号へとレンダリングすることができる。

[0185]上記で説明された様々な場合の各々において、オーディオ符号化デバイス２０は、ある方法を実行し、またはさもなければ、オーディオ符号化デバイス２０が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの場合には、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ符号化デバイス２０が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0186]１つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体上の１つまたは複数の命令またはコード上に記憶され、またはこれを介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実装のために命令、コードおよび／またはデータ構造を取り出すために、１つまたは複数のコンピュータあるいは１つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0187]同様に、上記で説明された様々な場合の各々において、オーディオ復号デバイス２４は、ある方法を実行し、またはさもなければ、オーディオ復号デバイス２４が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの場合には、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ復号デバイス２４が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0188]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ここで、ディスク（disk）は、通常、データを磁気的に再生し、一方、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲の中に含まれるべきである。

[0189]命令は、１つもしくは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは他の同等の集積回路またはディスクリート論理回路などの１つもしくは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成されるか、または複合コーデックに組み込まれる、専用のハードウェアモジュールおよび／またはソフトウェアモジュール内で提供され得る。また、本技法は、１つもしくは複数の回路または論理要素で十分に実装され得る。

[0190]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）もしくはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置で実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットが説明されるが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、上で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記の１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。

[0191]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。

[0191]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングするためのデバイスであって、
１つまたは複数のプロセッサを備え、前記プロセッサは、
基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングするように構成される、デバイス。
［Ｃ２］
前記１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングするために、前記１つまたは複数のプロセッサはさらに、
符号化されたオーディオデータのためのレンダラを決定し、
前記表示窓の前記１つまたは複数のＦＯＶパラメータと、前記基準画面の前記１つまたは複数のＦＯＶパラメータとに基づいて、前記レンダラを修正するように構成される、Ｃ１に記載のデバイス。
［Ｃ３］
前記符号化されたオーディオデータのための前記レンダラを決定するために、前記１つまたは複数のプロセッサはさらに、スピーカー構成に基づいて、前記レンダラを決定するように構成される、Ｃ２に記載のデバイス。
［Ｃ４］
前記レンダラは、レンダリングフォーマットと、前記符号化されたオーディオデータを再現フォーマットに変換するためのアルゴリズムとのうちの１つまたは複数を備える、Ｃ２に記載のデバイス。
［Ｃ５］
前記レンダラを修正するために、１つまたは複数のプロセッサはさらに、
前記基準画面の前記１つまたは複数のＦＯＶパラメータと、前記表示窓の前記１つまたは複数のＦＯＶパラメータとに基づいて、スピーカーの角度を修正するための角度マッピング関数を決定し、
前記１つまたは複数のスピーカーの第１のスピーカーのための修正された角度を生成するために、前記角度マッピング関数に基づいて、前記第１のスピーカーのための角度を修正するように構成される、Ｃ２に記載のデバイス。
［Ｃ６］
前記１つまたは複数のプロセッサはさらに、
ユーザ起動ズーム機能に応答して、ズームされた表示窓の１つまたは複数のＦＯＶパラメータを決定し、
前記基準画面の前記１つまたは複数のＦＯＶパラメータと、前記ズームされた表示窓の前記１つまたは複数のＦＯＶパラメータとに基づいて、前記レンダラを修正するように構成される、Ｃ２に記載のデバイス。
［Ｃ７］
前記レンダラを修正するために、前記１つまたは複数のプロセッサはさらに、
ユーザ起動ズーム動作に応答して、倍率を取得し、
前記倍率と、前記表示窓の前記１つまたは複数のＦＯＶパラメータとに基づいて、ズームされた表示窓の１つまたは複数のＦＯＶパラメータを決定し、
前記ズームされた表示窓の前記１つまたは複数のＦＯＶパラメータと、前記基準画面の前記１つまたは複数のＦＯＶパラメータとに基づいて、スピーカーの角度を修正するための角度マッピング関数を決定し、
前記１つまたは複数のスピーカーの第１のスピーカーのための修正された角度を生成するために、前記角度マッピング関数に基づいて、前記第１のスピーカーのための角度を修正するように構成される、Ｃ６に記載のデバイス。
［Ｃ８］
前記ズームされた表示窓の前記１つまたは複数のＦＯＶパラメータを決定するために、前記１つまたは複数のプロセッサはさらに、前記表示窓のための１つまたは複数の方位角と、前記倍率とに基づいて、前記ズームされた表示窓のための１つまたは複数の方位角を決定するように構成され、前記ズームされた表示窓の前記１つまたは複数のＦＯＶパラメータを決定するために、前記１つまたは複数のプロセッサはさらに、前記表示窓のための１つまたは複数の仰角と、前記倍率とに基づいて、前記ズームされた表示窓のための１つまたは複数の仰角を決定するように構成される、Ｃ６に記載のデバイス。
［Ｃ９］
前記基準画面のための前記１つまたは複数のＦＯＶパラメータは、前記基準画面のための１つまたは複数の方位角または前記基準画面のための１つまたは複数の仰角のうちの少なくとも１つを備える、Ｃ１に記載のデバイス。
［Ｃ１０］
前記表示窓のための１つまたは複数のＦＯＶパラメータは、前記表示窓のための１つまたは複数の方位角または前記表示窓のための１つまたは複数の仰角のうちの少なくとも１つを備える、Ｃ１に記載のデバイス。
［Ｃ１１］
前記１つまたは複数のプロセッサはさらに、ユーザ起動ズーム動作に応答して取得された倍率に基づいて、前記ＨＯＡオーディオ信号をレンダリングするように構成される、Ｃ１に記載のデバイス。
［Ｃ１２］
前記基準画面のための前記１つまたは複数のＦＯＶパラメータは、前記基準画面の中心の場所および前記表示窓の中心の場所を備える、Ｃ１に記載のデバイス。
［Ｃ１３］
１つまたは複数のプロセッサはさらに、
前記基準画面の前記１つまたは複数のＦＯＶパラメータに基づいて、前記基準画面の前記中心を決定し、
前記表示窓の前記１つまたは複数のＦＯＶパラメータに基づいて、前記表示窓の前記中心を決定するように構成される、Ｃ１２に記載のデバイス。
［Ｃ１４］
前記１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングするために、前記１つまたは複数のプロセッサはさらに、
符号化されたオーディオデータのためのレンダラを決定し、
前記表示窓の前記中心と、前記基準画面の前記中心とに基づいて、前記レンダラを修正するように構成される、Ｃ１２に記載のデバイス。
［Ｃ１５］
前記１つまたは複数のプロセッサはさらに、
前記ＨＯＡオーディオ信号の音場を前記基準画面の前記中心から前記表示窓の前記中心に回転させるように構成される、Ｃ１２に記載のデバイス。
［Ｃ１６］
前記ＨＯＡオーディオ信号は、ＭＰＥＧ−Ｈ３Ｄ準拠ビットストリームを備える、Ｃ１に記載のデバイス。
［Ｃ１７］
前記１つまたは複数のプロセッサはさらに構成され、前記基準画面の前記１つまたは複数の視野（ＦＯＶ）パラメータと、前記表示窓の前記１つまたは複数のＦＯＶパラメータとに基づいて、前記ＨＯＡオーディオ信号のレンダリングが有効にされるどうかを指示するシンタックス要素を受信する、Ｃ１に記載のデバイス。
［Ｃ１８］
前記デバイスはさらに、前記１つまたは複数のスピーカーのうちの少なくとも１つのスピーカーを備え、前記ＨＯＡオーディオ信号をレンダリングするために、前記１つまたは複数のプロセッサはさらに、前記少なくとも１つのスピーカーを駆動するために、ラウドスピーカーフィードを生成するように構成される、Ｃ１に記載のデバイス。
［Ｃ１９］
前記デバイスはさらに、前記表示窓を表示するためのディスプレイを備え、前記表示窓の前記１つまたは複数のＦＯＶパラメータ、Ｃ１に記載のデバイス。
［Ｃ２０］
前記ＨＯＡオーディオ信号をレンダリングするために、前記１つまたは複数のプロセッサはさらに、複数のＨＯＡ係数を決定するために前記ＨＯＡオーディオ信号を復号し、前記ＨＯＡ係数をレンダリングするように構成される、Ｃ１に記載のデバイス。
［Ｃ２１］
前記ＨＯＡ係数をレンダリングするために、前記１つまたは複数のプロセッサはさらに、
球の９００個のサンプリング点のためのモード行列を生成し、
効果行列を生成するために、前記基準画面の前記１つまたは複数のＦＯＶパラメータと、前記表示窓の前記１つまたは複数のＦＯＶパラメータとに基づいて、前記モード行列を修正し、
前記効果行列に基づいて、前記ＨＯＡ係数をレンダリングするように構成される、Ｃ２０に記載のデバイス。
［Ｃ２２］
高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングする方法であって、
基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングすることを含む、方法。
［Ｃ２３］
前記ＨＯＡオーディオ信号を備える符号化されたオーディオデータのビットストリームを受信することと、ここにおいて、前記符号化されたオーディオデータは対応するビデオデータに関連付けられる、
前記ビットストリームから、前記対応するビデオデータのための前記基準画面の前記１つまたは複数のＦＯＶパラメータを取得することと、
前記対応するビデオデータを表示するための前記表示窓の前記１つまたは複数のＦＯＶパラメータを取得することとをさらに備える、Ｃ２２に記載の方法。
［Ｃ２４］
１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングすることは、
前記符号化されたオーディオデータのためのレンダラを決定することと、
前記表示窓の前記１つまたは複数のＦＯＶパラメータと、前記基準画面の前記１つまたは複数のＦＯＶパラメータとに基づいて、前記レンダラを修正することとを備える、Ｃ２２に記載の方法。
［Ｃ２５］
前記符号化されたオーディオデータのための前記レンダラを決定することは、前記１つまたは複数のスピーカーのスピーカー構成に基づいて、前記レンダラを決定することを備える、Ｃ２４に記載の方法。
［Ｃ２６］
前記基準画面の前記１つまたは複数のＦＯＶパラメータは、前記基準画面のための１つまたは複数の方位角または前記基準画面のための１つまたは複数の仰角のうちの少なくとも１つを備える、Ｃ２５に記載の方法。
［Ｃ２７］
複数のＨＯＡ係数を決定するために、前記ＨＯＡオーディオ信号を復号することと、
前記ＨＯＡ係数をレンダリングすることとをさらに備える、Ｃ２２に記載の方法。
［Ｃ２８］
高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングするための装置であって、
前記ＨＯＡオーディオ信号を受信するための手段と、
基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングするための手段とを備える、装置。
［Ｃ２９］
前記ＨＯＡオーディオ信号を備える符号化されたオーディオデータのビットストリームを受信するための手段と、ここにおいて、前記符号化されたオーディオデータは対応するビデオデータに関連付けられる、
前記ビットストリームから、前記対応するビデオデータのための前記基準画面の前記１つまたは複数のＦＯＶパラメータを取得するための手段と、
前記対応するビデオデータを表示するための前記表示窓の前記１つまたは複数のＦＯＶパラメータを取得するための手段とをさらに備える、Ｃ２８に記載の装置。
［Ｃ３０］
命令を記憶するコンピュータ可読記憶媒体であって、前記命令は、１つまたは複数のプロセッサによって実行されるとき、前記１つまたは複数のプロセッサに、
高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングすることを行わせ、前記レンダリングすることは、
基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングすること含む、コンピュータ可読記憶媒体。

Claims

高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングするためのデバイスであって、
１つまたは複数のプロセッサを備え、前記プロセッサは、
基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングするように構成される、デバイス。
前記１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングするために、前記１つまたは複数のプロセッサはさらに、
符号化されたオーディオデータのためのレンダラを決定し、
前記表示窓の前記１つまたは複数のＦＯＶパラメータと、前記基準画面の前記１つまたは複数のＦＯＶパラメータとに基づいて、前記レンダラを修正するように構成される、請求項１に記載のデバイス。
前記符号化されたオーディオデータのための前記レンダラを決定するために、前記１つまたは複数のプロセッサはさらに、スピーカー構成に基づいて、前記レンダラを決定するように構成される、請求項２に記載のデバイス。
前記レンダラは、レンダリングフォーマットと、前記符号化されたオーディオデータを再現フォーマットに変換するためのアルゴリズムとのうちの１つまたは複数を備える、請求項２に記載のデバイス。
前記レンダラを修正するために、１つまたは複数のプロセッサはさらに、
前記基準画面の前記１つまたは複数のＦＯＶパラメータと、前記表示窓の前記１つまたは複数のＦＯＶパラメータとに基づいて、スピーカーの角度を修正するための角度マッピング関数を決定し、
前記１つまたは複数のスピーカーの第１のスピーカーのための修正された角度を生成するために、前記角度マッピング関数に基づいて、前記第１のスピーカーのための角度を修正するように構成される、請求項２に記載のデバイス。
前記１つまたは複数のプロセッサはさらに、
ユーザ起動ズーム機能に応答して、ズームされた表示窓の１つまたは複数のＦＯＶパラメータを決定し、
前記基準画面の前記１つまたは複数のＦＯＶパラメータと、前記ズームされた表示窓の前記１つまたは複数のＦＯＶパラメータとに基づいて、前記レンダラを修正するように構成される、請求項２に記載のデバイス。
前記レンダラを修正するために、前記１つまたは複数のプロセッサはさらに、
ユーザ起動ズーム動作に応答して、倍率を取得し、
前記倍率と、前記表示窓の前記１つまたは複数のＦＯＶパラメータとに基づいて、ズームされた表示窓の１つまたは複数のＦＯＶパラメータを決定し、
前記ズームされた表示窓の前記１つまたは複数のＦＯＶパラメータと、前記基準画面の前記１つまたは複数のＦＯＶパラメータとに基づいて、スピーカーの角度を修正するための角度マッピング関数を決定し、
前記１つまたは複数のスピーカーの第１のスピーカーのための修正された角度を生成するために、前記角度マッピング関数に基づいて、前記第１のスピーカーのための角度を修正するように構成される、請求項６に記載のデバイス。
前記ズームされた表示窓の前記１つまたは複数のＦＯＶパラメータを決定するために、前記１つまたは複数のプロセッサはさらに、前記表示窓のための１つまたは複数の方位角と、前記倍率とに基づいて、前記ズームされた表示窓のための１つまたは複数の方位角を決定するように構成され、前記ズームされた表示窓の前記１つまたは複数のＦＯＶパラメータを決定するために、前記１つまたは複数のプロセッサはさらに、前記表示窓のための１つまたは複数の仰角と、前記倍率とに基づいて、前記ズームされた表示窓のための１つまたは複数の仰角を決定するように構成される、請求項６に記載のデバイス。
前記基準画面のための前記１つまたは複数のＦＯＶパラメータは、前記基準画面のための１つまたは複数の方位角または前記基準画面のための１つまたは複数の仰角のうちの少なくとも１つを備える、請求項１に記載のデバイス。
前記表示窓のための１つまたは複数のＦＯＶパラメータは、前記表示窓のための１つまたは複数の方位角または前記表示窓のための１つまたは複数の仰角のうちの少なくとも１つを備える、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサはさらに、ユーザ起動ズーム動作に応答して取得された倍率に基づいて、前記ＨＯＡオーディオ信号をレンダリングするように構成される、請求項１に記載のデバイス。
前記基準画面のための前記１つまたは複数のＦＯＶパラメータは、前記基準画面の中心の場所および前記表示窓の中心の場所を備える、請求項１に記載のデバイス。
１つまたは複数のプロセッサはさらに、
前記基準画面の前記１つまたは複数のＦＯＶパラメータに基づいて、前記基準画面の前記中心を決定し、
前記表示窓の前記１つまたは複数のＦＯＶパラメータに基づいて、前記表示窓の前記中心を決定するように構成される、請求項１２に記載のデバイス。
前記１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングするために、前記１つまたは複数のプロセッサはさらに、
符号化されたオーディオデータのためのレンダラを決定し、
前記表示窓の前記中心と、前記基準画面の前記中心とに基づいて、前記レンダラを修正するように構成される、請求項１２に記載のデバイス。
前記１つまたは複数のプロセッサはさらに、
前記ＨＯＡオーディオ信号の音場を前記基準画面の前記中心から前記表示窓の前記中心に回転させるように構成される、請求項１２に記載のデバイス。
前記ＨＯＡオーディオ信号は、ＭＰＥＧ−Ｈ３Ｄ準拠ビットストリームを備える、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサはさらに構成され、前記基準画面の前記１つまたは複数の視野（ＦＯＶ）パラメータと、前記表示窓の前記１つまたは複数のＦＯＶパラメータとに基づいて、前記ＨＯＡオーディオ信号のレンダリングが有効にされるどうかを指示するシンタックス要素を受信する、請求項１に記載のデバイス。
前記デバイスはさらに、前記１つまたは複数のスピーカーのうちの少なくとも１つのスピーカーを備え、前記ＨＯＡオーディオ信号をレンダリングするために、前記１つまたは複数のプロセッサはさらに、前記少なくとも１つのスピーカーを駆動するために、ラウドスピーカーフィードを生成するように構成される、請求項１に記載のデバイス。
前記デバイスはさらに、前記表示窓を表示するためのディスプレイを備え、前記表示窓の前記１つまたは複数のＦＯＶパラメータ、請求項１に記載のデバイス。
前記ＨＯＡオーディオ信号をレンダリングするために、前記１つまたは複数のプロセッサはさらに、複数のＨＯＡ係数を決定するために前記ＨＯＡオーディオ信号を復号し、前記ＨＯＡ係数をレンダリングするように構成される、請求項１に記載のデバイス。
前記ＨＯＡ係数をレンダリングするために、前記１つまたは複数のプロセッサはさらに、
球の９００個のサンプリング点のためのモード行列を生成し、
効果行列を生成するために、前記基準画面の前記１つまたは複数のＦＯＶパラメータと、前記表示窓の前記１つまたは複数のＦＯＶパラメータとに基づいて、前記モード行列を修正し、
前記効果行列に基づいて、前記ＨＯＡ係数をレンダリングするように構成される、請求項２０に記載のデバイス。
高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングする方法であって、
基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングすることを含む、方法。
前記ＨＯＡオーディオ信号を備える符号化されたオーディオデータのビットストリームを受信することと、ここにおいて、前記符号化されたオーディオデータは対応するビデオデータに関連付けられる、
前記ビットストリームから、前記対応するビデオデータのための前記基準画面の前記１つまたは複数のＦＯＶパラメータを取得することと、
前記対応するビデオデータを表示するための前記表示窓の前記１つまたは複数のＦＯＶパラメータを取得することとをさらに備える、請求項２２に記載の方法。
１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングすることは、
前記符号化されたオーディオデータのためのレンダラを決定することと、
前記表示窓の前記１つまたは複数のＦＯＶパラメータと、前記基準画面の前記１つまたは複数のＦＯＶパラメータとに基づいて、前記レンダラを修正することとを備える、請求項２２に記載の方法。
前記符号化されたオーディオデータのための前記レンダラを決定することは、前記１つまたは複数のスピーカーのスピーカー構成に基づいて、前記レンダラを決定することを備える、請求項２４に記載の方法。
前記基準画面の前記１つまたは複数のＦＯＶパラメータは、前記基準画面のための１つまたは複数の方位角または前記基準画面のための１つまたは複数の仰角のうちの少なくとも１つを備える、請求項２５に記載の方法。
複数のＨＯＡ係数を決定するために、前記ＨＯＡオーディオ信号を復号することと、
前記ＨＯＡ係数をレンダリングすることとをさらに備える、請求項２２に記載の方法。
高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングするための装置であって、
前記ＨＯＡオーディオ信号を受信するための手段と、
基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングするための手段とを備える、装置。
前記ＨＯＡオーディオ信号を備える符号化されたオーディオデータのビットストリームを受信するための手段と、ここにおいて、前記符号化されたオーディオデータは対応するビデオデータに関連付けられる、
前記ビットストリームから、前記対応するビデオデータのための前記基準画面の前記１つまたは複数のＦＯＶパラメータを取得するための手段と、
前記対応するビデオデータを表示するための前記表示窓の前記１つまたは複数のＦＯＶパラメータを取得するための手段とをさらに備える、請求項２８に記載の装置。
命令を記憶するコンピュータ可読記憶媒体であって、前記命令は、１つまたは複数のプロセッサによって実行されるとき、前記１つまたは複数のプロセッサに、
高次アンビソニック（ＨＯＡ）オーディオ信号をレンダリングすることを行わせ、前記レンダリングすることは、
基準画面の１つまたは複数の視野（ＦＯＶ）パラメータと、表示窓の１つまたは複数のＦＯＶパラメータとに基づいて、１つまたは複数のスピーカーを介して前記ＨＯＡオーディオ信号をレンダリングすること含む、コンピュータ可読記憶媒体。