[0048]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカーへのフィード(feeds)を暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している5.1フォーマット(これは、次の6つのチャネル、すなわち、フロントレフト(FL)と、フロントライト(FR)と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果(LFE)とを含む)、発展中の7.1フォーマット、7.1.4フォーマットおよび22.2フォーマット(たとえば、超高精細度テレビジョン規格とともに使用するための)などのハイトスピーカー(height speaker)を含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」としばしば呼ばれる(対称な、および非対称な幾何学的配置の)任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂20面体(truncated icosahedron)の角の座標に配置された32個のラウドスピーカーを含む。
[0049]将来のMPEGエンコーダへの入力は、場合によっては、次の3つの可能なフォーマット、すなわち、(i)あらかじめ指定された位置においてラウドスピーカーを通じて再生されることが意図される、(上記で説明された)従来のチャネルベースオーディオ、(ii)(情報の中でも)ロケーション座標を含んでいる関連するメタデータをもつ単一オーディオオブジェクトのための離散的なパルス符号変調(PCM)データを伴うオブジェクトベースオーディオ、ならびに(iii)球面調和基底関数の係数(「球面調和係数」すなわちSHC、「高次アンビソニックス」すなわちHOA、および「HOA係数」とも呼ばれる)を使用して音場を表すことを伴うシーンベースオーディオのうちの1つである。将来のMPEGエンコーダは、2013年1月にスイスのジュネーブで発表された、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、国際標準化機構/国際電気標準会議(ISO)/(IEC)JTC1/SC29/WG11/N13411による「Call for Proposals for 3D Audio」と題する文書においてより詳細に説明され得る。
[0050]市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらのフォーマットは、たとえば、5.1ホームシアタシステム(リビングルームに進出するという点でステレオ以上に最も成功した)からNHK(Nippon Hoso Kyokaiすなわち日本放送協会)によって開発された22.2システムに及ぶ。コンテンツ作成者(たとえば、ハリウッドスタジオ)は、一度に映画のためのサウンドトラックを作成することを望み、各スピーカー構成のためにサウンドトラックをミキシングし直すことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置(と数)および(レンダラを伴う)再生のロケーションにおける音響条件に適応可能でありそれらにアグノスティックな(agnostic)後続の復号と、を提供するための方法を考えている。
[0051]コンテンツ作成者にそのような柔軟性を提供するために、音場を表すための要素の階層セットが使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細になり、分解能は向上する。
[0052]要素の階層セットの一例は、球面調和係数(SHC)のセットである。次の式は、SHCを使用する音場の記述または表現を示す。
[0053]この式は、時間tにおける音場の任意の点
における圧力piが、SHC、
によって一意に表され得ることを示す。ここで、
であり、cは、音速(約343m/s)であり、
は、基準点(または観測点)であり、jn(・)は、次数nの球ベッセル関数であり、
は、次数nおよび副次数(suborder)mの球面調和基底関数である。角括弧内の項が、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、またはウェーブレット変換などの様々な時間−周波数変換によって概算され得る信号(すなわち、
)の周波数領域表現であることが認識され得る。階層セットの他の例としては、ウェーブレット変換係数のセットおよび多分解能基底関数(multiresolution basis fuction)の係数の他のセットがある。
[0054]図1は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。理解できるように、各次数について、説明を簡単にするために図示されているが図1の例では明示的に示されていない副次数mの拡張が存在する。
[0055]SHC
は、様々なマイクロフォンアレイ構成によって物理的に取得(たとえば、録音)され得るか、または代替的に、それらは音場のチャネルベースもしくはオブジェクトベースの記述から導出され得る。SHCはシーンベースオーディオを表し、ここで、SHCは、より効率的な送信または記憶を促し得る符号化されたSHCを取得するために、オーディオエンコーダに入力され得る。たとえば、(1+4)2個の(25個の、したがって4次の)係数を伴う4次表現が使用され得る。
[0056]上述されたように、SHCは、マイクロフォンアレイを使用するマイクロフォン録音から導出され得る。SHCがマイクロフォンアレイからどのように導出され得るかの様々な例は、Poletti,M、「Three−Dimensional Surround Sound Systems Based on Spherical Harmonics」、J.Audio Eng. Soc.、Vol. 53、No. 11、2005年11月、1004〜1025ページにおいて説明されている。
[0057]SHCがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数
は、
と表され得、ここで、iは
であり、
は、次数nの(第二種の)球ハンケル関数であり、
は、オブジェクトのロケーションである。周波数の関数として(たとえば、PCMストリームに対して高速フーリエ変換を実行するなど、時間−周波数分析技法を使用して)オブジェクトソースエネルギーg(ω)を知ることで、各PCMオブジェクトと対応するロケーションとをSHC
に変換することができる。さらに、各オブジェクトの
係数は、(上記が線形および直交分解であるので)加法的であることが示され得る。このようにして、多数のPCMオブジェクトは
係数によって(たとえば、個々のオブジェクトについての係数ベクトルの和として)表され得る。本質的に、これらの係数は、音場についての情報(3D座標の関数としての圧力)を含んでおり、上記は、観測点
の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの図は、以下でオブジェクトベースおよびSHCベースのオーディオコーディングのコンテキストで説明される。
[0058]図2は、本開示で説明される技法の様々な態様を実行し得るシステム10を示す図である。図2の例に示されているように、システム10は、コンテンツ作成者デバイス12と、コンテンツ消費者デバイス14とを含む。コンテンツ作成者デバイス12およびコンテンツ消費者デバイス14のコンテキストで説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、(HOA係数とも呼ばれ得る)SHCまたは音場の任意の他の階層的表現が符号化される任意のコンテキストで実装され得る。その上、コンテンツ作成者デバイス12は、いくつか例を挙げると、ハンドセット(もしくはセルラーフォン)、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実装することが可能な任意の形態のコンピューティングデバイスを表し得る。同様に、コンテンツ消費者デバイス14は、いくつか例を挙げると、ハンドセット(もしくはセルラーフォン)、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示で説明される技法を実装することが可能な任意の形態のコンピューティングデバイスを表し得る。
[0059]コンテンツ作成者デバイス12は、コンテンツ消費者デバイス14などのコンテンツ消費者デバイスの操作者による消費のためのマルチチャネルオーディオコンテンツを生成し得る、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例では、コンテンツ作成者デバイス12は、HOA係数11を圧縮することを望み得る個人ユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともにオーディオコンテンツを生成する。コンテンツ消費者デバイス14は、個人によって操作され得る。コンテンツ消費者デバイス14は、マルチチャネルオーディオコンテンツとしての再生のためにSHCをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム16を含み得る。
[0060]コンテンツ作成者デバイス12は、オーディオ編集システム18を含む。コンテンツ作成者デバイス12は、(HOA係数として直接含む)様々なフォーマットのライブ録音7とオーディオオブジェクト9とを取得し、コンテンツ作成者デバイス12は、オーディオ編集システム18を使用してこれらを編集し得る。マイクロフォン5はライブ録音7をキャプチャし得る。コンテンツ作成者は、編集プロセス中に、オーディオオブジェクト9からのHOA係数11をレンダリングし、さらなる編集を必要とする音場の様々な態様を識別しようとして、レンダリングされたスピーカーフィードを聞き得る。コンテンツ作成者デバイス12は、次いで、(潜在的に、上記で説明された方法でソースHOA係数がそれから導出され得るオーディオオブジェクト9のうちの様々なオブジェクトの操作を通じて間接的に)HOA係数11を編集し得る。コンテンツ作成者デバイス12は、HOA係数11を生成するためにオーディオ編集システム18を採用し得る。オーディオ編集システム18は、オーディオデータを編集し、このオーディオデータを1つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。
[0061]編集プロセスが完了すると、コンテンツ作成者デバイス12は、HOA係数11に基づいてビットストリーム21を生成し得る。すなわち、コンテンツ作成者デバイス12は、ビットストリーム21を生成するために、本開示で説明される技法の様々な態様に従って、HOA係数11を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス20を含む。オーディオ符号化デバイス20は、一例として、ワイヤードチャネルまたはワイヤレスチャネルであり得る送信チャネル、データ記憶デバイスなどを介した送信のために、ビットストリーム21を生成し得る。ビットストリーム21は、HOA係数11の符号化されたバージョンを表し得、主要ビットストリームと、サイドチャネル情報と呼ばれることがある別のサイドビットストリームとを含み得る。
[0062]図2では、コンテンツ消費者デバイス14に直接送信されるものとして示されているが、コンテンツ作成者デバイス12は、コンテンツ作成者デバイス12とコンテンツ消費者デバイス14との間に配置された中間デバイスにビットストリーム21を出力し得る。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス14に後で配信するために、ビットストリーム21を記憶し得る。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにビットストリーム21を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、ビットストリーム21を要求するコンテンツ消費者デバイス14などの加入者にビットストリーム21を(場合によっては対応するビデオデータビットストリームを送信するとともに)ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在し得る。
[0063]代替的に、コンテンツ作成者デバイス12は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスクまたは他の記憶媒体などの記憶媒体にビットストリーム21を記憶し得、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。このコンテキストでは、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある(および、小売店と他の店舗ベースの配信機構とを含み得る)。したがって、いずれにしても、本開示の技法は、この点に関して図2の例に限定されるべきではない。
[0064]図2の例にさらに示されているように、コンテンツ消費者デバイス14はオーディオ再生システム16を含む。オーディオ再生システム16は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム16は、いくつかの異なるレンダラ22を含み得る。レンダラ22はそれぞれ、異なる形態のレンダリングを提供し得、ここで、異なる形態のレンダリングは、ベクトルベース振幅パンニング(VBAP:vector-base amplitude panning)を実行する様々な方法のうちの1つもしくは複数、および/または音場合成を実行する様々な方法のうちの1つもしくは複数を含み得る。本明細書で使用される場合、「Aおよび/またはB」は、「AまたはB」、または「AとB」の両方を意味する。
[0065]オーディオ再生システム16は、オーディオ復号デバイス24をさらに含み得る。オーディオ復号デバイス24は、ビットストリーム21からHOA係数11’を復号するように構成されたデバイスを表し得、ここで、HOA係数11’は、HOA係数11と同様であり得るが、損失のある演算(たとえば、量子化)および/または送信チャネルを介した送信に起因して異なり得る。オーディオ再生システム16は、ビットストリーム21を復号してHOA係数11’を取得した後に、および、ラウドスピーカーフィード25を出力するためにHOA係数11’をレンダリングし得る。ラウドスピーカーフィード25は、(説明を簡単にするために図2の例には示されていない)1つまたは複数のラウドスピーカーを駆動し得る。
[0066]適切なレンダラを選択するために、またはいくつかの事例では、適切なレンダラを生成するために、オーディオ再生システム16は、ラウドスピーカーの数および/またはラウドスピーカーの空間的な幾何学的配置を示すラウドスピーカー情報13を取得し得る。いくつかの事例では、オーディオ再生システム16は、基準マイクロフォンを使用し、ラウドスピーカー情報13を動的に決定するような方法でラウドスピーカーを駆動して、ラウドスピーカー情報13を取得し得る。他の事例では、またはラウドスピーカー情報13の動的決定とともに、オーディオ再生システム16は、オーディオ再生システム16とインターフェースをとりラウドスピーカー情報13を入力するようにユーザに促し得る。
[0067]オーディオ再生システム16は、次いで、ラウドスピーカー情報13に基づいてオーディオレンダラ22のうちの1つを選択し得る。いくつかの事例では、オーディオ再生システム16は、オーディオレンダラ22のいずれもが、ラウドスピーカー情報13において指定されたラウドスピーカー幾何学的配置に対して(ラウドスピーカー幾何学的配置に関する)何らかのしきい値類似性測度(threshold similarity measure)内にないとき、ラウドスピーカー情報13に基づいてオーディオレンダラ22のうちの1つを生成し得る。オーディオ再生システム16は、いくつかの事例では、オーディオレンダラ22のうちの既存の1つを選択することを最初に試みることなく、ラウドスピーカー情報13に基づいてオーディオレンダラ22のうちの1つを生成し得る。1つまたは複数のスピーカー3は、次いで、レンダリングされたラウドスピーカーフィード25を再生し得る。言い換えれば、スピーカー3は、高次アンビソニックオーディオデータに基づいて音場を再生するように構成され得る。
[0068]図3は、本開示で説明される技法の様々な態様を実行し得る図2の例に示されるオーディオ符号化デバイス20の一例をより詳細に示すブロック図である。オーディオ符号化デバイス20は、コンテンツ分析ユニット26と、ベクトルベース分解ユニット27と、方向ベース分解ユニット28とを含む。
[0069]以下で手短に説明されるが、ベクトルベース分解ユニット27、およびHOA係数を圧縮する様々な態様に関するより多くの情報は、2014年5月29に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」と題する国際特許出願公開第WO2014/194099号において入手可能である。さらに、以下で要約されるベクトルベース分解の論述を含む、MPEG−H 3Dオーディオ規格によるHOA係数の圧縮の様々な態様のさらなる詳細は、
2014年7月25日付けのISO/IEC JTC 1/SC 29/WG 11による「Information technology − High efficiency coding and media delivery in heterogeneous environments − Part 3:3D audio」と題するISO/IEC DIS 23008-3文書(http://mpeg.chiariglione.org/standards/mpeg−h/3d−audio/dis−mpeg−h−3d−audioにおいて入手可能であり、以下では「MPEG−H 3Dオーディオ規格のフェーズI」と呼ばれる)、
2015年7月25日付けのISO/IEC JTC 1/SC 29/WG 11による「Information technology − High efficiency coding and media delivery in heterogeneous environments − Part 3:3D audio, AMENDMENT 3:MPEG−H 3D Audio Phase 2」と題するISO/IEC DIS 23008−3:2015/PDAM 3文書(http://mpeg.chiariglione.org/standards/mpeg−h/3d−audio/text−isoiec−23008−3201xpdam−3−mpeg−h−3d−audio−phase−2において入手可能であり、以下では「MPEG−H 3Dオーディオ規格のフェーズII」と呼ばれる)、および
2015年8月付けのIEEE Journal of Selected Topics in Signal ProcessingのVol. 9、No. 5で発表された、Jurgen Herreらの「MPEG−H 3D Audio − The New Standard for Coding of Immersive Spatial Audio」で確認できる。
[0070]コンテンツ分析ユニット26は、HOA係数11がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを識別するために、HOA係数11のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット26は、HOA係数11が実際の音場の録音から生成されたか、人工的なオーディオオブジェクトから生成されたかを決定し得る。いくつかの事例では、フレーム化されたHOA係数11が録音から生成されたとき、コンテンツ分析ユニット26は、HOA係数11をベクトルベース分解ユニット27に渡す。いくつかの事例では、フレーム化されたHOA係数11が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット26は、HOA係数11を方向ベース合成ユニット28に渡す。方向ベース合成ユニット28は、方向ベースビットストリーム21を生成するためにHOA係数11の方向ベース合成を実行するように構成されたユニットを表し得る。
[0071]図3の例に示されるように、ベクトルベース分解ユニット27は、線形可逆変換(LIT)ユニット30と、パラメータ計算ユニット32と、並べ替えユニット34と、フォアグラウンド選択ユニット36と、エネルギー補償ユニット38と、無相関化ユニット60(「decorrユニット60」として示される)と、利得制御ユニット62と、聴覚心理オーディオコーダユニット40と、ビットストリーム生成ユニット42と、音場分析ユニット44と、係数低減ユニット46と、バックグラウンド(BG)選択ユニット48と、空間時間的補間ユニット50と、量子化ユニット52とを含み得る。
[0072]線形可逆変換(LIT)ユニット30は、HOAチャネルの形態でHOA係数11を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連する係数(HOA[k]と示され得、ここで、kはサンプルの現在のフレームまたはブロックを示し得る)のブロックまたはフレームを表す。HOA係数11の行列は、次元D:M×(N+1)2を有し得る。
[0073]LITユニット30は、特異値分解と呼ばれる形態の分析を実行するように構成されたユニットを表し得る。SVDに関して説明されるが、本開示で説明される技法は、線形的に無相関な、エネルギー圧縮された出力のセットを提供する任意の同様の変換または分解に対して実行され得る。また、本開示における「セット」への言及は、概して、別段に特に明記されていない限り、非0のセットを指すものであり、いわゆる「空集合」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「PCA」としばしば呼ばれる、主成分分析を備え得る。コンテキストに応じて、PCAは、いくつかの例を挙げれば、離散カルーネンレーベ変換、ホテリング変換、固有直交分解(POD:proper orthogonal decomposition)、および固有値分解(EVD:eigenvalue decomposition)など、いくつかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという基礎をなす潜在的目標の1つにつながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「無相関化」うちの1つまたは複数を含み得る。
[0074]いずれにしても、LITユニット30が、例として、特異値分解(singular value decomposition)(やはり「SVD」と呼ばれることがある)を実行すると仮定すると、LITユニット30は、HOA係数11を、変換されたHOA係数の2つ以上のセットに変換し得る。変換されたHOA係数の「セット」は、変換されたHOA係数のベクトルを含み得る。図3の例では、LITユニット30は、いわゆるV行列と、S行列と、U行列とを生成するために、HOA係数11に関してSVDを実行することができる。SVDは、線形代数学では、y×zの実行列または複素行列X(ここで、Xは、HOA係数11などのマルチチャネルオーディオデータを表し得る)の因数分解を以下の形で表すことができる。
X=USV*
Uはy×yの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Uのy個の列は、マルチチャネルオーディオデータの左特異ベクトルとして知られる。Sは、対角線上に非負実数をもつy×zの矩形対角行列を表し得、ここで、Sの対角線値は、マルチチャネルオーディオデータの特異値として知られる。V*(Vの共役転置を示し得る)は、z×zの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、V*のz個の列は、マルチチャネルオーディオデータの右特異ベクトルとして知られる。
[0075]いくつかの例では、上で参照されたSVD数式中のV*行列は、複素数を備える行列にSVDが適用され得ることを反映するために、V行列の共役転置行列として示される。実数のみを備える行列に適用されるとき、V行列の複素共役(すなわち、言い換えれば、V*行列)は、V行列の転置であると見なされ得る。以下では、説明を簡単にするために、HOA係数11が実数を備え、その結果、V*行列ではなくV行列がSVDによって出力されると仮定される。その上、本開示ではV行列として示されるが、V行列への言及は、適切な場合にはV行列の転置を指すものとして理解されるべきである。V行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するHOA係数11に適用され得、ここで、SVDの出力はV*行列である。したがって、本技法は、この点について、V行列を生成するためにSVDの適用を提供することのみに限定されるべきではなく、V*行列を生成するために複素成分を有するHOA係数11へのSVDの適用を含み得る。
[0076]このようにして、LITユニット30は、次元D:M×(N+1)2を有するUS[k]ベクトル33(SベクトルとUベクトルとの組み合わされたバージョンを表し得る)と、次元D:(N+1)2×(N+1)2を有するV[k]ベクトル35とを出力するために、HOA係数11に関してSVDを実行することができる。US[k]行列中の個々のベクトル要素はXps(k)とも呼ばれることがあり、一方、V[k]行列の個々のベクトルはv(k)とも呼ばれることがある。
[0077]U行列、S行列、およびV行列の分析は、それらの行列がXによって上で表される基礎をなす音場の空間的および時間的特性を伝え、または表すということを明らかにし得る。(M個のサンプルの長さの)Uの中のN個のベクトルの各々は、(M個のサンプルによって表される時間期間について)時間の関数として、正規化された分離されたオーディオ信号を表し得、正規化された分離されたオーディオ信号は、互いに直交し、あらゆる空間特性(方向情報(directional information)とも呼ばれ得る)とは切り離されている。空間的形状および位置(r、シータ、ファイ)を表す空間的特性は、代わりに、(各々が(N+1)2の長さの)V行列中の個々のi番目のベクトル、v(i)(k)によって表され得る。
[0078]v(i)(k)ベクトルの各々の個々の要素は、関連するオーディオオブジェクトについての音場の(幅を含む)形状と位置とを記述するHOA係数を表し得る。U行列中のベクトルとV行列中のベクトルの両方が、それらの2乗平均平方根のエネルギーが1に等しくなるように正規化される。したがって、Uの中のオーディオ信号のエネルギーは、Sの中の対角線要素によって表される。したがって、US[k](個々のベクトル要素XPS(k)を有する)を形成するために、UとSとを乗算することは、エネルギーを有するオーディオ信号を表す。(Uにおける)オーディオ時間信号と、(Sにおける)それらのエネルギーと、(Vにおける)それらの空間的特性とを切り離すSVD分解の能力は、本開示で説明される技法の様々な態様をサポートし得る。さらに、基礎をなすHOA[k]係数XをUS[k]とV[k]とのベクトル乗算によって合成するモデルは、本文書全体で使用される、「ベクトルベース分解」という用語を生じさせる。
[0079]HOA係数11に関して直接実行されるものとして説明されるが、LITユニット30は、線形可逆変換をHOA係数11の派生物に適用し得る。たとえば、LITユニット30は、HOA係数11から導出された電力スペクトル密度行列に関してSVDを適用し得る。HOA係数自体ではなくHOA係数の電力スペクトル密度(PSD)に関してSVDを実行することによって、LITユニット30は、場合によっては、プロセッササイクルおよび記憶空間のうちの1つまたは複数に関してSVDを実行する計算の複雑さを低減しつつ、SVDがHOA係数に直接適用されたかのように同じソースオーディオ符号化効率を達成し得る。
[0080]パラメータ計算ユニット32は、相関パラメータ(R)、方向特性パラメータ(θ、φ、r)、およびエネルギー特性(e)など、様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、R[k]、θ[k]、φ[k]、r[k]およびe[k]として示され得る。パラメータ計算ユニット32は、パラメータを識別するために、US[k]ベクトル33に関してエネルギー分析および/または相関(もしくはいわゆる相互相関)を実行し得る。パラメータ計算ユニット32はまた、以前のフレームのためのパラメータを決定し得、ここで、以前のフレームパラメータは、US[k−1]ベクトルおよびV[k−1]ベクトルの以前のフレームに基づいて、R[k−1]、θ[k−1]、φ[k−1]、r[k−1]およびe[k−1]と示され得る。パラメータ計算ユニット32は、現在のパラメータ37と以前のパラメータ39とを並べ替えユニット34に出力し得る。
[0081]パラメータ計算ユニット32によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット34によって使用され得る。並べ替えユニット34は、第1のUS[k]ベクトル33からのパラメータ37の各々を、第2のUS[k−1]ベクトル33のためのパラメータ39の各々に対して順番に比較し得る。並べ替えユニット34は、並べ替えられたUS[k]行列33’(数学的には
として示され得る)と、並べ替えられたV[k]行列35’(数学的には
として示され得る)とをフォアグラウンド音声(または支配的音声(predominant sound)−PS)選択ユニット36(「フォアグラウンド選択ユニット36」)およびエネルギー補償ユニット38に出力するために、現在のパラメータ37および以前のパラメータ39に基づいて、US[k]行列33およびV[k]行列35内の様々なベクトルを(一例として、ハンガリアンアルゴリズムを使用して)並べ替え得る。
[0082]音場分析ユニット44は、ターゲットビットレート41を潜在的に達成するために、HOA係数11に関して音場分析を実行するように構成されたユニットを表し得る。音場分析ユニット44は、分析および/または受信されたターゲットビットレート41に基づいて、聴覚心理コーダのインスタンス化の総数(アンビエント(ambient)またはバックグラウンドチャネルの総数(BGTOT)と、フォアグラウンドチャネル、または言い換えれば支配チャネルの数との関数であり得る)を決定し得る。聴覚心理コーダのインスタンス化の総数は、numHOATransportChannelsとして示され得る。
[0083]音場分析ユニット44はまた、やはり目標ビットレート41を潜在的に達成するために、フォアグラウンドチャネルの総数(nFG)45と、バックグラウンド(または言い換えればアンビエント)音場の最小次数(NBG、または代替的にはMinAmbHOAorder)と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数(nBGa=(MinAmbHOAorder+1)2)と、送るべき追加のBG HOAチャネルのインデックス(i)(図3の例ではバックグラウンドチャネル情報43として総称的に示され得る)と、を決定することができる。バックグラウンドチャネル情報42は、アンビエントチャネル情報43とも呼ばれ得る。numHOATransportChannels−nBGaで残るチャネルの各々は、「追加のバックグラウンド/アンビエントチャネル」、「アクティブなベクトルベースの支配的チャネル」、「アクティブな方向ベースの支配的信号」、または「完全に非アクティブ」のいずれかであり得る。一態様では、チャネルタイプは、2ビットによって(「ChannelType」として)示されたシンタックス要素であり得る(たとえば、00:方向ベースの信号、01:ベクトルベースの支配的信号、10:追加のアンビエント信号、11:非アクティブな信号)。バックグラウンド信号またはアンビエント信号の総数、nBGaは、(MinAmbHOAorder+1)2+(上記の例における)インデックス10がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。
[0084]音場分析ユニット44は、ターゲットビットレート41に基づいて、バックグラウンド(または言い換えればアンビエント)チャネルの数と、フォアグラウンド(または言い換えれば支配的)チャネルの数とを選択し、ターゲットビットレート41が比較的高いとき(たとえば、ターゲットビットレート41が512Kbps以上であるとき)はより多くのバックグラウンドチャネルおよび/またはフォアグラウンドチャネルを選択し得る。一態様では、ビットストリームのヘッダセクションにおいて、numHOATransportChannelsは8に設定され得るが、一方で、MinAmbHOAorderは1に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分またはアンビエント部分を表すために4つのチャネルが確保され得るが、一方で、他の4つのチャネルは、フレームごとに、チャネルのタイプに応じて変化してよく、たとえば、追加のバックグラウンド/アンビエントチャネルまたはフォアグラウンド/支配的チャネルのいずれかとして使用され得る。フォアグラウンド/支配的信号は、上記で説明されたように、ベクトルベースの信号または方向ベースの信号のいずれか1つであり得る。
[0085]いくつかの事例では、フレームのためのベクトルベースの支配的信号の総数は、そのフレームのビットストリームにおいてChannelTypeインデックスが01である回数によって与えられ得る。上記の態様では、(たとえば、10のChannelTypeに対応する)追加のバックグラウンド/アンビエントチャネルごとに、(最初の4つ以外の)可能なHOA係数のうちのどれがそのチャネルにおいて表され得るかの対応する情報。その情報は、4次HOAコンテンツについては、HOA係数5〜25を示すためのインデックスであり得る。最初の4つのアンビエントHOA係数1〜4は、minAmbHOAorderが1に設定されるときは常に送られ得、したがって、オーディオ符号化デバイスは、5〜25のインデックスを有する追加のアンビエントHOA係数のうちの1つを示すことのみが必要であり得る。その情報はしたがって、「CodedAmbCoeffIdx」として示され得る、(4次コンテンツのための)5ビットのシンタックス要素を使用して送られ得る。いずれの場合も、音場分析ユニット44は、バックグラウンドチャネル情報43とHOA係数11とをバックグラウンド(BG)選択ユニット36に、バックグラウンドチャネル情報43を係数低減ユニット46およびビットストリーム生成ユニット42に、ならびにnFG45をフォアグラウンド選択ユニット36に出力する。
[0086]バックグラウンド選択ユニット48は、バックグラウンドチャネル情報(たとえば、バックグラウンド音場(NBG)と、送るべき追加のBG HOAチャネルの数(nBGa)およびインデックス(i))に基づいてバックグラウンドまたはアンビエントHOA係数47を決定するように構成されたユニットを表し得る。たとえば、NBGが1に等しいとき、バックグラウンド選択ユニット48は、1以下の次数を有するオーディオフレームの各サンプルのHOA係数11を選択し得る。バックグラウンド選択ユニット48は次いで、この例では、インデックス(i)のうちの1つによって識別されるインデックスを有するHOA係数11を、追加のBG HOA係数として選択することができ、ここで、nBGaは、図2および図4の例に示されるオーディオ復号デバイス24などのオーディオ復号デバイスがビットストリーム21からバックグラウンドHOA係数47を解析することを可能にするために、ビットストリーム21において指定されるために、ビットストリーム生成ユニット42に提供される。バックグラウンド選択ユニット48は次いで、アンビエントHOA係数47をエネルギー補償ユニット38に出力し得る。アンビエントHOA係数47は、次元D:M×[(NBG+1)2+nBGa]を有し得る。アンビエントHOA係数47はまた、「アンビエントHOA係数47」と呼ばれることもあり、ここで、アンビエントHOA係数47の各々は、聴覚心理オーディオコーダユニット40によって符号化されるべき別個のアンビエントHOAチャネル47に対応する。
[0087]フォアグラウンド選択ユニット36は、(フォアグラウンドベクトルを識別する1つまたは複数のインデックスを表し得る)nFG45に基づいて、音場のフォアグラウンド成分または明確な成分を表す、並べ替えられたUS[k]行列33’と、並べ替えられたV[k]行列35’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット36は、(並べ替えられたUS[k]1,...,nFG49、FG1,...,nfG[k]49、または
として示され得る)nFG信号49を、聴覚心理オーディオコーダユニット40に出力することができ、ここで、nFG信号49は次元D:M×nFGを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット36はまた、音場のフォアグラウンド成分に対応する並べ替えられたV[k]行列35’(またはv(1..nFG)(k)35’)を空間時間的補間ユニット50に出力し得、ここで、フォアグラウンド成分に対応する並べ替えられたV[k]行列35’のサブセットは、次元D:(N+1)2×nFGを有するフォアグラウンドV[k]行列51kとして示され得る(これは、
として数学的に示され得る)。
[0088]エネルギー補償ユニット38は、バックグラウンド選択ユニット48によるHOAチャネルの様々なチャネルの除去によるエネルギー損失を補償するために、アンビエントHOA係数47に関してエネルギー補償を実行するように構成されたユニットを表し得る。エネルギー補償ユニット38は、並べ替えられたUS[k]行列33’、並べ替えられたV[k]行列35’、nFG信号49、フォアグラウンドV[k]ベクトル51kおよびアンビエントHOA係数47のうちの1つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー補償されたアンビエントHOA係数47’を生成するためにそのエネルギー分析に基づいてエネルギー補償を実行し得る。エネルギー補償ユニット38は、エネルギー補償されたアンビエントHOA係数47’を無相関化ユニット60に出力し得る。
[0089]無相関化ユニット60は、1つまたは複数の無相関化されたアンビエントHOAオーディオ信号67を形成するために、エネルギー補償されたアンビエントHOA係数47’の間の相関を低減または解消するために本開示で説明される技法の様々な態様を実施するように構成されたユニットを表し得る。無相関化ユニット40’は、無相関化されたHOAオーディオ信号67を利得制御ユニット62に出力し得る。利得制御ユニット62は、利得制御されたアンビエントHOAオーディオ信号67’を取得するために、無相関化されたアンビエントHOAオーディオ信号67に関して自動利得制御(「AGC」と短縮され得る)を実行するように構成されたユニットを表し得る。利得制御を適用した後、自動利得制御ユニット62は、利得制御されたアンビエントHOAオーディオ信号67’を聴覚心理オーディオコーダユニット40に提供し得る。
[0090]オーディオ符号化デバイス20内に含まれる無相関化ユニット60は、無相関化されたHOAオーディオ信号67を取得するために、1つまたは複数の無相関化変換をエネルギー補償されたアンビエントHOA係数47’に適用するように構成されたユニットの単一または複数のインスタンスを表し得る。いくつかの例では、無相関化ユニット40’は、UHJ行列をエネルギー補償されたアンビエントHOA係数47’に適用し得る。本開示の様々な事例において、UHJ行列は「位相ベース変換」と呼ばれることもある。位相ベース変換の適用は、本明細書では「位相シフト無相関化」と呼ばれることもある。
[0091]アンビソニックUHJフォーマットは、モノメディアおよびステレオメディアと互換性があるように設計されたアンビソニックサラウンドサウンドシステムの発展形である。UHJフォーマットは、録音された音場が、利用可能なチャネルに従って変化する精度で再生される、システムの階層を含む。様々な事例では、UHJは「Cフォーマット」とも呼ばれる。頭文字は、システムに組み込まれるソースのいくつかを示し、UはUniversal(UD−4)、HはMatrix H、JはSystem 45Jから来ている。
[0092]UHJは、アンビソニックス技術内で方向性音情報を符号化および復号する階層システムである。利用可能なチャネルの数に応じて、システムはより多いまたはより少ない情報を伝えることができる。UHJは、完全にステレオ互換性およびモノ互換性がある。4つまでのチャネル(L、R、T、Q)が使用され得る。
[0093]一形態では、2チャネル(L、R)UHJ水平方向(または「平面」)サラウンド情報は、聴取端(listening end)においてUHJデコーダを使用することによって復元され得るノーマルステレオ信号チャネル−CD、FMまたはデジタル無線など−によって伝えられ得る。2つのチャネルを合計することは、従来の「パンポットされた(panpotted)モノ」ソースを合計するよりも正確な2チャネルバージョンの表現であり得る、互換性のあるモノ信号をもたらし得る。第3のチャネル(T)が利用可能である場合、第3のチャネルは、3チャネルUHJデコーダを介して復号されるときに、改善されたローカライゼーション(localization)精度を平面サラウンド効果にもたらすために使用され得る。第3のチャネルは、このためにフルオーディオ帯域幅を有することが必要ではないことはない場合があり、第3のチャネルが帯域幅制限されている場合、いわゆる「2 1/2チャネル」システムの可能性を招く。一例では、制限は5kHzであり得る。第3のチャネルは、たとえば、位相直交変調を用いて、FM無線を介してブロードキャストされ得る。第4のチャネル(Q)をUHJシステムに追加することは、4チャネルBフォーマットと同一の精度のレベルで、n as Periphonyと呼ばれることがある、高さを用いたフルサラウンドサウンドの符号化を可能にし得る。
[0094]2チャネルUHJは、アンビソニック録音の配信に一般に使用されるフォーマットである。2チャネルUHJ録音は、すべてのノーマルステレオチャネルを介して送信され得、ノーマル2チャネルメディアのいずれかは、変更なしで使用され得る。UHJは、復号することなしに、リスナーがステレオイメージ、ただし従来のステレオよりもかなり広いステレオイメージ(たとえば、いわゆる「スーパーステレオ」)を知覚することができるという点で、ステレオ互換性がある。左チャネルおよび右チャネルはまた、非常に高度なモノ互換性のために合計され得る。UHJデコーダを介してリプレイされると、サラウンド能力が明らかになる場合がある。
[0095]UHJ行列(または位相ベース変換)を適用する無相関化ユニット60の例示的な数学的表現は、次のとおりである。
[0096]上記の計算のいくつかの実装形態によれば、上記の計算に関する仮定は以下を含み得る。HOAバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序W(a00)、X(a11)、Y(a11−)、Z(a10)で、FuMa正規化される、1次アンビソニックスである。
[0097]上記に記載された計算では、無相関化ユニット40’は、定数値による様々な行列のスカラー乗算を実行することができる。たとえば、S信号を取得するために、無相関化ユニット60は、0.9397の定数値による(たとえば、スカラー乗算による)W行列のスカラー乗算と、0.1856の定数値によるX行列のスカラー乗算とを実行することができる。やはり上記に記載された計算に示されるように、無相関化ユニット60は、D信号およびT信号の各々を取得する際に(上記のUHJ符号化における「Hilbert( )」関数によって示される)ヒルベルト変換を適用し得る。上記のUHJ符号化における「imag( )」関数は、ヒルベルト変換の結果の(数学的な意味での)虚数が取得されることを示す。
[0098]UHJ行列(または位相ベース変換)を適用する無相関化ユニット60の別の例示的な数学的表現は、次のとおりである。
[0099]上記の計算のいくつかの例示的な実装形態では、上記の計算に関する仮定は以下を含み得る。HOAバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序W(a00)、X(a11)、Y(a11−)、Z(a10)で、N3D(すなわち「フル3D」)正規化される、1次アンビソニックスである。N3D正規化に関して本明細書で説明されるが、例示的な計算は、SN3D正規化された(すなわち「シュミット半正規化された)HOAバックグラウンドチャネルにも適用され得ることを諒解されよう。N3D正規化およびSN3D正規化は、使用されるスケーリングファクタの点で異なり得る。SN3D正規化に対して、N3D正規化の例示的な表現が以下に表される。
[0100]SN3D正規化において使用される重み付け係数の一例が以下に表される。
[0101]上記に記載された計算では、無相関化ユニット60は、定数値による様々な行列のスカラー乗算を実行することができる。たとえば、S信号を取得するために、無相関化ユニット60は、0.9396926の定数値による(たとえば、スカラー乗算による)W行列のスカラー乗算と、0.151520536509082の定数値によるX行列のスカラー乗算とを実行することができる。やはり上記に記載された計算に示されるように、無相関化ユニット60は、D信号およびT信号の各々を取得する際に(上記のUHJ符号化または位相シフト無相関化における「Hilbert( )」関数によって示される)ヒルベルト変換を適用することができる。上記のUHJ符号化における「imag( )」関数は、ヒルベルト変換の結果の(数学的な意味での)虚数が取得されることを示す。
[0102]無相関化ユニット60は、得られたS信号およびD信号が左オーディオ信号と右オーディオ信号と(または言い換えれば、ステレオオーディオ信号)を表すように、上記に記載された計算を実行することができる。いくつかのそのようなシナリオでは、無相関化ユニット60は、無相関化されたアンビエントHOAオーディオ信号67の一部としてT信号とQ信号とを出力し得るが、ビットストリーム21を受信する復号デバイスは、ステレオスピーカーの幾何学的配置(または言い換えれば、ステレオスピーカー構成)にレンダリングするとき、T信号とQ信号とを処理しない場合がある。例では、アンビエントHOA係数47’は、モノオーディオ再生システム上でレンダリングされるべき音場を表し得る。無相関化ユニット60は、無相関化されたアンビエントHOAオーディオ信号67の一部としてS信号とD信号とを出力することができ、ビットストリーム21を受信する復号デバイスは、モノオーディオフォーマットでレンダリングおよび/または出力されるべきオーディオ信号を形成するために、S信号とD信号とを組み合わせる(または「混合」する)ことができる。
[0103]これらの例では、復号デバイスおよび/または再生デバイスは、様々な方法でモノオーディオ信号を復元することができる。一例は、(S信号とD信号とによって表される)左信号と右信号とを混合することによるものである。別の例は、W信号を復号するためにUHJ行列(または位相ベース変換)を適用することによるものである。UHJ行列(または位相ベース変換)を適用することでS信号およびD信号の形態で自然左信号と自然右信号とを生成することによって、無相関化ユニット60は、(MPEG−H規格に記載されたモード行列などの)他の無相関化変換を適用する技法に対して潜在的な利点および/または潜在的な改善を実現するための本開示の技法を実装し得る。
[0104]様々な例では、無相関化ユニット60は、受信されたエネルギー補償されたアンビエントHOA係数47’のビットレートに基づいて、異なる無相関化変換を適用することができる。たとえば、無相関化ユニット60は、エネルギー補償されたアンビエントHOA係数47’が4チャネル入力を表すシナリオにおいて、上記で説明されたUHJ行列(または位相ベース変換)を適用することができる。より具体的には、4チャネル入力を表すエネルギー補償されたアンビエントHOA係数47’に基づいて、無相関化ユニット60は、4×4UHJ行列(または位相ベース変換)を適用することができる。たとえば、4×4行列は、エネルギー補償されたアンビエントHOA係数47’の4チャネル入力に直交し得る。言い換えれば、エネルギー補償されたアンビエントHOA係数47’がより少ない数のチャネル(たとえば、4)を表す事例では、無相関化ユニット60は、無相関化されたアンビエントHOAオーディオ信号67を取得するために、エネルギー補償されたアンビエントHOA信号47’のバックグラウンド信号を無相関化するために、選択された無相関化変換としてUHJ行列を適用することができる。
[0105]この例によれば、エネルギー補償されたアンビエントHOA係数47’がより多い数のチャネル(たとえば、9)を表す場合、無相関化ユニット60は、UHJ行列(または位相ベース変換)とは異なる無相関化変換を適用することができる。たとえば、エネルギー補償されたアンビエントHOA係数47’が9チャネル入力を表すシナリオでは、無相関化ユニット60は、エネルギー補償されたアンビエントHOA係数47’を無相関化するために、(たとえば、上記のMPEG−H 3Dオーディオ規格のフェーズIに記載された)モード行列を適用することができる。エネルギー補償されたアンビエントHOA係数47’が9チャネル入力を表す例では、無相関化ユニット60は、無相関化されたアンビエントHOAオーディオ信号67を取得するために、9×9モード行列を適用することができる。
[0106]今度は、(聴覚心理オーディオコーダ40などの)オーディオ符号化デバイス20の様々な構成要素は、AACまたはUSACに従って、無相関化されたアンビエントHOAオーディオ信号67を知覚的にコーディングすることができる。無相関化ユニット60は、HOAのAAC/USACコーディングを最適化し得るために、位相シフト無相関化変換(たとえば、4チャネル入力の場合はUHJ行列または位相ベース変換)を適用することができる。エネルギー補償されたアンビエントHOA係数47’(およびそれによって、無相関化されたアンビエントHOAオーディオ信号67)がステレオ再生システム上でレンダリングされるべきオーディオデータを表す例では、無相関化ユニット60は、AACおよびUSACが相対的にステレオオーディオデータ指向である(またはステレオオーディオデータ用に最適化されている)ことに基づいて、圧縮を改善または最適化するための本開示の技法を適用することができる。
[0107]無相関化ユニット60は、エネルギー補償されたアンビエントHOA係数47’がフォアグラウンドチャネルを含む状況において、エネルギー補償されたアンビエントHOA係数47’がいかなるフォアグラウンドチャネルも含まない状況においても、本明細書で説明される技法を適用することができることが理解されよう。一例として、無相関化ユニット40’は、エネルギー補償されたアンビエントHOA係数47’が0個(0)のフォアグラウンドチャネルと4個(4)のバックグラウンドチャネルとを含むシナリオ(たとえば、より低い/より少ないビットレートのシナリオ)において、上記で説明された技法および/または計算を適用することができる。
[0108]いくつかの例では、無相関化ユニット60は、ビットストリーム生成ユニット42に、ベクトルベースビットストリーム21の一部として、無相関化ユニット60が無相関化変換をエネルギー補償されたアンビエントHOA係数47’に適用したことを示す1つまたは複数のシンタックス要素をシグナリングさせ得る。そのような指示を復号デバイスに与えることによって、無相関化ユニット60は、復号デバイスがHOA領域におけるオーディオデータに対して相互無相関化変換を実行するのを可能にし得る。いくつかの例では、無相関化ユニット60は、ビットストリーム生成ユニット42に、UHJ行列(もしくは他の位相ベース変換)またはモード行列など、どの無相関化変換が適用されたかを示すシンタックス要素をシグナリングさせ得る。
[0109]無相関化ユニット60は、エネルギー補償されたアンビエントHOA係数47’に位相ベース変換を適用し得る。CAMB(k−1)の第1のOMIN HOA係数シーケンスのための位相ベース変換は、
によって定義され、係数dは、表1に定義されるとおりであり、信号フレームS(k−2)およびM(k−2)は、
によって定義され、A+90(k−2)およびB+90(k−2)は、
によって定義される。
CP,AMB(k−1)の第1のOMIN HOA係数シーケンスのための位相ベース変換は、それに応じて定義される。説明される変換は、1フレームの遅延を導入し得る。
[0110]上記では、XAMB,LOW,1(k−2)〜XAMB,LOW,4(k−2)は、無相関化されたアンビエントHOAオーディオ信号67に対応し得る。上記の式では、変数CAMB,1(k)変数は、「W」チャネルまたは成分と呼ばれることもある、(0:0)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。変数CAMB,2(k)変数は、「Y」チャネルまたは成分と呼ばれることもある、(1:−1)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。変数CAMB,3(k)変数は、「Z」チャネルまたは成分と呼ばれることもある、(1:0)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。変数CAMB,4(k)変数は、「X」チャネルまたは成分と呼ばれることもある、(1:1)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。CAMB,1(k)〜CAMB,3(k)は、アンビエントHOA係数47’に対応し得る。
[0111]以下の表1は、無相関化ユニット40が位相ベース変換を実行するために使用することができる係数の一例を示す。
[0112]いくつかの例では、(ビットストリーム生成ユニット42などの)オーディオ符号化デバイス20の様々な構成要素は、より低いターゲットビットレート(たとえば、128Kまたは256Kのターゲットビットレート)用の1次HOA表現のみを送信するように構成され得る。いくつかのそのような例によれば、オーディオ符号化デバイス20(または、ビットストリーム生成ユニット42などの、その構成要素)は、高次HOA係数(たとえば、1次よりも大きい次数を有する、または言い換えれば、N>1である係数)を破棄するように構成され得る。ただし、ターゲットビットレートが比較的高いとオーディオ符号化デバイス20が決定する例では、オーディオ符号化デバイス20(たとえば、ビットストリーム生成ユニット42)はフォアグラウンドチャネルとバックグラウンドチャネルとを分離することができ、(たとえば、より大きい量の)ビットをフォアグラウンドチャネルに割り当てることができる。
[0113]エネルギー補償されたアンビエントHOA係数47’に適用されるものとして説明されているが、オーディオ符号化デバイス20は、エネルギー補償されたアンビエントHOA係数47’に無相関化を適用しなくてもよい。代わりに、エネルギー補償ユニット38は、エネルギー補償されたアンビエントHOA係数47’を利得制御ユニット62に直接提供することができ、利得制御ユニット62は、エネルギー補償されたアンビエントHOA係数47’に関して自動利得制御を実行することができる。したがって、無相関化ユニット60は、無相関化ユニットが常に無相関化を実行するとは、またはオーディオ復号デバイス20に含まれるとは限らないことを示すために破線で示されている。
[0114]空間時間的補間ユニット50は、k番目のフレームのためのフォアグラウンドV[k]ベクトル51kと、以前のフレームのための(したがってk−1という表記である)フォアグラウンドV[k−1]ベクトル51k-1とを受信し、補間されたフォアグラウンドV[k]ベクトルを生成するために空間時間的補間を実行するように構成されたユニットを表し得る。空間時間的補間ユニット50は、並べ替えられたフォアグラウンドHOA係数を復元するために、nFG信号49をフォアグラウンドV[k]ベクトル51kと再び組み合わせ得る。空間時間的補間ユニット50は、次いで、補間されたnFG信号49’を生成するために、補間されたV[k]ベクトルによって、並べ替えられたフォアグラウンドHOA係数を分割し得る。
[0115]空間時間的補間ユニット50はまた、オーディオ復号デバイス24などのオーディオ復号デバイスが補間されたフォアグラウンドV[k]ベクトルを生成し、それによってフォアグラウンドV[k]ベクトル51kを復元し得るように、補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kを出力し得る。補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kは、残りのフォアグラウンドV[k]ベクトル53として示される。同じV[k]およびV[k−1]がエンコーダおよびデコーダにおいて(補間されたベクトルV[k]を作成するために)使用されることを保証するために、ベクトルの量子化/逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用され得る。空間時間的補間ユニット50は、補間されたnFG信号49’を利得制御ユニット62に出力し、補間されたフォアグラウンドV[k]ベクトル51kを係数低減ユニット46に出力し得る。
[0116]利得制御ユニット62はまた、利得制御されたnFG信号49’’を取得するために、補間されたnFG信号49’に関して自動利得制御(「AGC」と短縮され得る)を実行するように構成されたユニットを表し得る。利得制御を適用した後、自動利得制御ユニット62は、利得制御されたnFG信号49’’を聴覚心理オーディオコーダユニット40に提供することができる。
[0117]係数低減ユニット46は、低減されたフォアグラウンドV[k]ベクトル55を量子化ユニット52に出力するために、バックグラウンドチャネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関して係数低減を実行するように構成されたユニットを表し得る。低減されたフォアグラウンドV[k]ベクトル55は、次元D:[(N+1)2−(NBG+1)2−BGTOT]×nFGを有し得る。係数低減ユニット46は、この点において、残りのフォアグラウンドV[k]ベクトル53における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット46は、方向情報をほとんどまたはまったく有しない(残りのフォアグラウンドV[k]ベクトル53を形成する)フォアグラウンドV[k]ベクトルにおける係数を除去するように構成されたユニットを表し得る。いくつかの例では、(NBGと示され得る)1次および0次の基底関数に対応する、明確な、または言い換えればフォアグラウンドV[k]ベクトルの係数は、方向情報をほとんど提供せず、したがって、(「係数低減」と呼ばれ得るプロセスを通じて)フォアグラウンドVベクトルから除去され得る。この例では、対応する係数NBGを識別するだけではなく、(変数TotalOfAddAmbHOAChanによって示され得る)追加のHOAチャネルを[(NBG+1)2+1,(N+1)2]のセットから識別するために、より大きい柔軟性が与えられ得る。
[0118]量子化ユニット52は、コーディングされたフォアグラウンドV[k]ベクトル57を生成するために低減されたフォアグラウンドV[k]ベクトル55を圧縮するための任意の形態の量子化を実行し、コーディングされたフォアグラウンドV[k]ベクトル57をビットストリーム生成ユニット42に出力するように構成されたユニットを表し得る。動作において、量子化ユニット52は、音場の空間成分、すなわちこの例では低減されたフォアグラウンドV[k]ベクトル55のうちの1つまたは複数を圧縮するように構成されたユニットを表し得る。量子化ユニット52は、上記のMPEG−H 3Dオーディオコーディング規格のフェーズIまたはフェーズIIに記載された以下の12個の量子化モードのうちのいずれか1つを実行することができる。また、量子化ユニット52は、前述のタイプの量子化モードのいずれかの量子化モードの予測されたバージョンを実行することもでき、以前のフレームのVベクトルの要素(またはベクトル量子化が実行されるときの重み)と、現在のフレームのVベクトルの要素(またはベクトル量子化が実行されるときの重み)との間の差が決定される。量子化ユニット52は、その際、現在のフレーム自体のVベクトルの要素の値ではなく、現在のフレームの要素または重みと、以前のフレームの要素または重みとの間の差を量子化することができる。量子化ユニット52は、コーディングされたフォアグラウンドV[k]ベクトル57をビットストリーム生成ユニット42に提供することができる。量子化ユニット52はまた、量子化モードを示すシンタックス要素(たとえば、NbitsQシンタックス要素)と、Vベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与え得る。
[0119]オーディオ符号化デバイス20内に含まれる聴覚心理オーディオコーダユニット40は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、エネルギー補償されたアンビエントHOA係数47’および補間されたnFG信号49’の各々の様々なオーディオオブジェクトまたはHOAチャネルを符号化して、符号化されたアンビエントHOA係数59と符号化されたnFG信号61とを生成するために使用される。聴覚心理オーディオコーダユニット40は、符号化されたアンビエントHOA係数59と、符号化されたnFG信号61とをビットストリーム生成ユニット42に出力し得る。
[0120]オーディオ符号化デバイス20内に含まれるビットストリーム生成ユニット42は、(復号デバイスによって知られているフォーマットを指し得る)既知のフォーマットに適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム21を生成するユニットを表す。ビットストリーム21は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット42は、いくつかの例ではマルチプレクサを表し得、マルチプレクサは、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化されたアンビエントHOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とを受信し得る。ビットストリーム生成ユニット42は、次いで、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化されたアンビエントHOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とに基づいてビットストリーム21を生成し得る。このようにして、それにより、ビットストリーム生成ユニット42は、ビットストリーム21を取得するために、ビットストリーム21中でベクトル57を指定し得る。ビットストリーム21は、主要またはメインビットストリームと、1つまたは複数のサイドチャネルビットストリームとを含み得る。
[0121]図3の例には示されないが、オーディオ符号化デバイス20はまた、現在のフレームが方向ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス20から出力されるビットストリームを(たとえば、方向ベースのビットストリーム21とベクトルベースのビットストリーム21との間で)切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、(HOA係数11が合成オーディオオブジェクトから生成されたことを検出した結果として)方向ベース合成が実行されたか、(HOA係数が録音されたことを検出した結果として)ベクトルベース合成が実行されたかを示す、コンテンツ分析ユニット26によって出力されるシンタックス要素に基づいて、切替えを実行することができる。ビットストリーム出力ユニットは、ビットストリーム21の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定することができる。
[0122]その上、上述されたように、音場分析ユニット44は、フレームごとに変化し得るBGTOTアンビエントHOA係数47を識別し得る(が、時々、BGTOTは、2つ以上の(時間的に)隣接するフレームにわたって一定または同じままであり得る)。BGTOTにおける変化は、低減されたフォアグラウンドV[k]ベクトル55において表された係数への変化を生じさせ得る。BGTOTにおける変化は、フレームごとに変化する(「アンビエントHOA係数」と呼ばれることもある)バックグラウンドHOA係数を生じさせ得る(が、この場合も時々、BGTOTは、2つ以上の(時間的に)隣接するフレームにわたって一定または同じままであり得る)。この変化は、追加のアンビエントHOA係数の追加または除去と、対応する、低減されたフォアグラウンドV[k]ベクトル55からの係数の除去または低減されたフォアグラウンドV[k]ベクトル55に対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じさせることが多い。
[0123]その結果、音場分析ユニット44は、いつアンビエントHOA係数がフレームごとに変化するかをさらに決定し、音場のアンビエント成分を表すために使用されることに関して、アンビエントHOA係数への変化を示すフラグまたは他のシンタックス要素を生成し得る(ここで、この変化は、アンビエントHOA係数の「遷移」またはアンビエントHOA係数の「遷移」と呼ばれることもある)。特に、係数低減ユニット46は、(AmbCoeffTransitionフラグまたはAmbCoeffIdxTransitionフラグとして示され得る)フラグを生成し、そのフラグが(場合によってはサイドチャネル情報の一部として)ビットストリーム21中に含まれ得るように、そのフラグをビットストリーム生成ユニット42に与え得る。
[0124]係数低減ユニット46はまた、アンビエント係数遷移フラグを指定することに加えて、低減されたフォアグラウンドV[k]ベクトル55が生成される方法を修正し得る。一例では、アンビエントHOAアンビエント係数のうちの1つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット46は、遷移中のアンビエントHOA係数に対応する低減されたフォアグラウンドV[k]ベクトル55のVベクトルの各々について、(「ベクトル要素」または「要素」と呼ばれることもある)ベクトル係数を指定し得る。この場合も、遷移中のアンビエントHOA係数は、BGTOTからバックグラウンド係数の総数を追加または除去し得る。したがって、バックグラウンド係数の総数において生じた変化は、アンビエントHOA係数がビットストリーム中に含まれるか含まれないか、および、Vベクトルの対応する要素が、上記で説明された第2の構成モードおよび第3の構成モードにおいてビットストリーム中で指定されたVベクトルのために含まれるかどうかに影響を及ぼす。係数低減ユニット46が、エネルギーの変化を克服するために、低減されたフォアグラウンドV[k]ベクトル55を指定し得る方法に関するより多くの情報は、2015年1月12日に出願された「TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS」と題する米国出願第14/594,533号において提供されている。
[0125]この点において、ビットストリーム生成ユニット42は、多数の異なるコンテンツ配信のコンテキストに対応するために柔軟なビットストリーム生成を促進し得る様々な異なる符号化方式でビットストリーム21を生成し得る。オーディオ業界内で活発化しているように見える1つのコンテキストは、増大する異なる再生デバイスへのネットワークを介したオーディオデータの配信(または言い換えれば「ストリーミング」)である。様々な程度の再生能力を有するデバイスに、帯域幅が抑制されたネットワークを介してオーディオコンテンツを配信することは、(チャネルベースまたはオブジェクトベースのオーディオデータと比較して)帯域幅の大量消費と引き換えに再生中に高度の3Dオーディオフィデリティ(3D audio fidelity)を許容するHOAオーディオデータのコンテキストでは特に困難であり得る。
[0126]本開示で説明される技法によれば、ビットストリーム生成ユニット42は、HOA係数11の様々な再構成を可能にするために1つまたは複数のスケーラブルレイヤを利用することができる。レイヤの各々は、階層的であり得る。たとえば、第1のレイヤ(「ベースレイヤ」と呼ばれることがある)は、ステレオラウドスピーカーフィードがレンダリングされることを可能にするHOA係数の第1の再構成をもたらすことができる。第2のレイヤ(第1の「エンハンスメントレイヤ」と呼ばれることがある)は、HOA係数の第1の再構成に適用されたときに、水平方向サラウンドサウンドラウドスピーカーフィード(たとえば、5.1ラウドスピーカーフィード)がレンダリングされることを可能にするために、HOA係数の第1の再構成をスケーリングすることができる。第3のレイヤ(第2の「エンハンスメントレイヤ」と呼ばれることがある)は、HOA係数の第2の再構成に適用されたときに、3Dサラウンドサウンドラウドスピーカーフィード(たとえば、22.2ラウドスピーカーフィード)がレンダリングされることを可能にするために、HOA係数の第1の再構成をスケーリングすることができる。この点において、レイヤは、以前のレイヤを階層的スケーリングすると考えられ得る。言い換えれば、レイヤは、第1のレイヤが第2のレイヤと組み合わせられたときに、高次アンビソニックオーディオ信号のより高い分解表現を提供するように、階層的である。
[0127]上記では、直前のレイヤのスケーリングを可能にするものとして説明されているが、別のレイヤの上にある任意のレイヤが下位レイヤをスケーリングしてもよい。言い換えれば、上記の第3のレイヤは、第1のレイヤが第2のレイヤによって「スケーリング」されていなくても、第1のレイヤをスケーリングするために使用され得る。第3のレイヤは、第1のレイヤに直接適用されたとき、高さ情報を提供し、それによって、不規則に並べられたスピーカー幾何学的配置に対応する不規則なスピーカーフィードがレンダリングされることを可能にすることができる。
[0128]ビットストリーム生成ユニット42は、レイヤがビットストリーム21から抽出されることを可能にするために、ビットストリームにおいて指定されたレイヤの数の指示を指定し得る。ビットストリーム生成ユニット42は、レイヤの指示された数を含むビットストリーム21を出力し得る。ビットストリーム生成ユニット42は、図5に関連してより詳細に説明される。スケーラブルHOAオーディオデータを生成する様々な異なる例が、以下の図7A〜図9Bにおいて説明され、上記の例の各々に関するサイドバンド情報の一例が図10〜図13Bにおいて説明される。
[0129]図5は、本開示で説明されるスケーラブルオーディオコーディング技法の潜在的バージョンのうちの第1のものを実行するように構成されるときの図3のビットストリーム生成ユニット42をより詳細に示す図である。図5の例では、ビットストリーム生成ユニット42は、スケーラブルビットストリーム生成ユニット1000と非スケーラブルビットストリーム生成ユニット1002とを含む。スケーラブルビットストリーム生成ユニット1000は、図11〜図13Bの例において示され、そのような例に関して以下で説明されるものと同様のHOAFrames()を有する2つ以上のレイヤを備えるスケーラブルビットストリーム21(ただし、いくつかの事例では、スケーラブルビットストリームは、いくつかのオーディオコンテキストの場合に単一のレイヤを備え得る)を生成するように構成されたユニットを表す。非スケーラブルビットストリーム生成ユニット1002は、レイヤ、または言い換えればスケーラビリティを提供しない非スケーラブルビットストリーム21を生成するように構成されたユニットを表し得る。
[0130]非スケーラブルビットストリーム21とスケーラブルビットストリーム21の両方は、両方が通常、符号化されたアンビエントHOA係数59、符号化されたnFG信号61、およびコーディングされたフォアグラウンドV[k]ベクトル57の点で同じ基礎データ(underlying data)を含むことから、「ビットストリーム21」と呼ばれ得る。一方、非スケーラブルビットストリーム21とスケーラブルビットストリーム21との間の1つの差異は、レイヤ21A、21Bなどとして示され得るレイヤをスケーラブルビットストリーム21が含むことである。レイヤ21Aは、以下でより詳細に説明されるように、符号化されたアンビエントHOA係数59、符号化されたnFG信号61、およびコーディングされたフォアグラウンドV[k]ベクトル57のサブセットを含み得る。
[0131]スケーラブルビットストリーム21および非スケーラブルビットストリーム21は事実上、同じビットストリーム21の異なる表現であり得るが、非スケーラブルビットストリーム21が非スケーラブルビットストリーム21’として示されて、スケーラブルビットストリーム21と非スケーラブルビットストリーム21’を区別する。その上、いくつかの事例では、スケーラブルビットストリーム21は、非スケーラブルビットストリーム21に適合する様々なレイヤを含み得る。たとえば、スケーラブルビットストリーム21は、非スケーラブルビットストリーム21に適合するベースレイヤを含み得る。これらの事例では、非スケーラブルビットストリーム21’は、スケーラブルビットストリーム21のサブビットストリームを表すことができ、ここで、この非スケーラブルビットストリーム21’は、スケーラブルビットストリーム21の追加レイヤ(エンハンスメントレイヤと呼ばれる)により増強され得る。
[0132]ビットストリーム生成ユニット42は、スケーラブルビットストリーム生成ユニット1000を呼び出すべきか、非スケーラブルビットストリーム生成ユニット1002を呼び出すべきかを示すスケーラビリティ情報1003を取得し得る。言い換えれば、スケーラビリティ情報1003は、ビットストリーム生成ユニット42がスケーラブルビットストリーム21を生成すべきか、非スケーラブルビットストリーム21’を生成すべきかを示し得る。説明の目的で、スケーラビリティ情報1003は、ビットストリーム生成ユニット42がスケーラブルビットストリーム21’を出力するためにスケーラブルビットストリーム生成ユニット1000を呼び出すべきであることを示すと仮定される。
[0133]図5の例にさらに示されているように、ビットストリーム生成ユニット42は、符号化されたアンビエントHOA係数59A〜59Dと、符号化されたnFG信号61Aおよび61Bと、コーディングされたフォアグラウンドV[k]ベクトル57Aおよび57Bとを受信し得る。符号化されたアンビエントHOA係数59Aは、0の次数と0の副次数とを有する球面基底関数に関連する符号化されたアンビエントHOA係数を表し得る。符号化されたアンビエントHOA係数59Bは、1の次数と0の副次数とを有する球面基底関数に関連する符号化されたアンビエントHOA係数を表し得る。符号化されたアンビエントHOA係数59Cは、1の次数とマイナス1の副次数とを有する球面基底関数に関連する符号化されたアンビエントHOA係数を表し得る。符号化されたアンビエントHOA係数59Dは、1の次数とプラス1の副次数とを有する球面基底関数に関連する符号化されたアンビエントHOA係数を表し得る。符号化されたアンビエントHOA係数59A〜59Dは、上記で説明された符号化されたアンビエントHOA係数59の一例を表し得、結果的にまとめて、符号化されたアンビエントHOA係数59と呼ばれ得る。
[0134]符号化されたnFG信号61Aおよび61Bはそれぞれ、この例では、音場の2つの最も支配的なフォアグラウンド態様を表すUSオーディオオブジェクトを表し得る。コーディングされたフォアグラウンドV[k]ベクトル57Aおよび57Bは、それぞれ、符号化されたnFG信号61Aおよび61Bに関する方向情報(方向に加えて幅も指定し得る)を表し得る。符号化されたnFG信号61Aおよび61Bは、上記で説明された符号化されたnFG信号61の一例を表し得、結果的にまとめて、符号化されたnFG信号61と呼ばれ得る。コーディングされたフォアグラウンドV[k]ベクトル57Aおよび57Bは、上記で説明されたコーディングされたフォアグラウンドV[k]ベクトル57の一例を表し得、結果的にまとめて、コーディングされたフォアグラウンドV[k]ベクトル57と呼ばれ得る。
[0135]スケーラブルビットストリーム生成ユニット1000は、呼び出されると、図7A〜図9Bに関して以下で説明される方法と実質的に同様の方法で、レイヤ21Aおよび21Bを含むようにスケーラブルビットストリーム21を生成し得る。スケーラブルビットストリーム生成ユニット1000は、ビットストリーム21におけるレイヤの数ならびにレイヤ21Aおよび21Bの各々におけるフォアグラウンド要素およびバックグラウンド要素の数の指示を指定し得る。スケーラブルビットストリーム生成ユニット1000は、一例として、レイヤの数Lを指定し得るNumberOfLayersシンタックス要素を指定することができ、ここで変数Lは、レイヤの数を示し得る。次いで、スケーラブルビットストリーム生成ユニット1000は、(変数i=1〜Lとして示され得る)レイヤごとに、レイヤごとに送られる符号化されたアンビエントHOA係数59の数Biおよび符号化されたnFG信号61の数Fi(同じくまたは代替的に、対応するコーディングされたフォアグラウンドV[k]ベクトル57の数を示し得る)を指定し得る。
[0136]図5の例では、スケーラブルビットストリーム生成ユニット1000は、スケーラブルコーディングがイネーブルにされていることと、2つのレイヤがスケーラブルビットストリーム21に含まれていることと、第1のレイヤ21Aが4つの符号化されたアンビエントHOA係数59と0個の符号化されたnFG信号61とを含むことと、第2のレイヤ21Aが0個の符号化されたアンビエントHOA係数59とw個の符号化されたnFG信号61とを含むこととをスケーラブルビットストリーム21において指定し得る。スケーラブルビットストリーム生成ユニット1000はまた、符号化されたアンビエントHOA係数59を含むように第1のレイヤ21A(「ベースレイヤ21A」と呼ばれることもある)を生成し得る。スケーラブルビットストリーム生成ユニット1000はさらに、符号化されたnFG信号61とコーディングされたフォアグラウンドV[k]ベクトル57とを含むように第2のレイヤ21A(「エンハンスメントレイヤ21B」と呼ばれることがある)を生成し得る。スケーラブルビットストリーム生成ユニット1000は、スケーラブルビットストリーム21としてレイヤ21Aおよび21Bを出力し得る。いくつかの例では、スケーラブルビットストリーム生成ユニット1000は、(エンコーダ20の内部または外部のいずれかにある)メモリにスケーラブルビットストリーム21’を記憶し得る。
[0137]いくつかの事例では、スケーラブルビットストリーム生成ユニット1000は、レイヤの数、1つまたは複数のレイヤにおけるフォアグラウンド成分の数(たとえば、符号化されたnFG信号61およびコーディングされたフォアグラウンドV[k]ベクトル57の数)、ならびに1つまたは複数のレイヤにおけるバックグラウンド成分の数(たとえば、符号化されたアンビエントHOA係数59)の指示のうちの1つもしくは複数またはいずれかを指定しないことがある。成分は、本開示ではチャネルと呼ばれることもある。代わりに、スケーラブルビットストリーム生成ユニット1000は、現在のフレームに関するレイヤの数を以前のフレーム(たとえば、時間的に直近の以前のフレーム)に関するレイヤの数と比較し得る。比較の結果、差異がない(現在のフレームにおけるレイヤの数が以前のフレームにおけるレイヤの数に等しいことを意味するとき、スケーラブルビットストリーム生成ユニット1000は、同様の方法で各レイヤにおけるバックグラウンド成分およびフォアグラウンド成分の数を比較し得る。
[0138]言い換えれば、スケーラブルビットストリーム生成ユニット1000は、現在のフレームに関する1つまたは複数のレイヤにおけるバックグラウンド成分の数を、以前のフレームに関する1つまたは複数のレイヤにおけるバックグラウンド成分の数と比較し得る。スケーラブルビットストリーム生成ユニット1000はさらに、現在のフレームに関する1つまたは複数のレイヤにおけるフォアグラウンド成分の数を、以前のフレームに関する1つまたは複数のレイヤにおけるフォアグラウンド成分の数と比較し得る。
[0139]成分ベースの比較の両方の結果、差異がない(以前のフレームにおけるフォアグラウンド成分およびバックグラウンド成分の数が、現在のフレームにおけるフォアグラウンド成分およびバックグラウンド成分の数に等しいことを意味する)とき、スケーラブルビットストリーム生成ユニット1000はスケーラブルビットストリーム21において、レイヤの数、1つまたは複数のレイヤにおけるフォアグラウンド成分の数(たとえば、符号化されたnFG信号61およびコーディングされたフォアグラウンドV[k]ベクトル57の数)、ならびに1つまたは複数のレイヤにおけるバックグラウンド成分の数(たとえば、符号化されたアンビエントHOA係数59)の指示のうちの1つもしくは複数またはいずれかを指定するのではなく、現在のフレームにおけるレイヤの数が以前のフレームにおけるレイヤの数に等しいことの指示(たとえば、HOABaseLayerConfigurationFlagシンタックス要素)を指定し得る。次いで、オーディオ復号デバイス24は、以下でより詳細に説明されるように、レイヤ、バックグラウンド成分、およびフォアグラウンド成分の数の以前のフレームの指示が、レイヤ、バックグラウンド成分、およびフォアグラウンド成分の数の数の現在のフレームの指示に等しいと決定し得る。
[0140]上記の比較のいずれかの結果、差異があるとき、スケーラブルビットストリーム生成ユニット1000はスケーラブルビットストリーム21において、現在のフレームにおけるレイヤの数が以前のフレームにおけるレイヤの数に等しくないことの指示(たとえば、HOABaseLayerConfigurationFlagシンタックス要素)を指定し得る。その場合、スケーラブルビットストリーム生成ユニット1000は、上記のように、レイヤの数、1つまたは複数のレイヤにおけるフォアグラウンド成分の数(たとえば、符号化されたnFG信号61およびコーディングされたフォアグラウンドV[k]ベクトル57の数)、ならびに1つまたは複数のレイヤにおけるバックグラウンド成分の数(たとえば、符号化されたアンビエントHOA係数59)の指示を指定し得る。この点において、スケーラブルビットストリーム生成ユニット1000はビットストリームにおいて、現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化しているかどうかの指示を指定し、現在のフレームにおけるビットストリームのレイヤの指示された数を指定し得る。
[0141]いくつかの例では、フォアグラウンド成分の数の指示とバックグラウンド成分の数の指示とを指定しないのではなく、スケーラブルビットストリーム生成ユニット1000は、スケーラブルビットストリーム21における成分の数の指示(たとえば、iがレイヤの数に等しい[i]個のエントリを有するアレイであり得る、「NumChannels」シンタックス要素)を指定しないことがある。スケーラブルビットストリーム生成ユニット1000は、成分(これらの成分は「チャネル」と呼ばれることもある)の数のこの指示を、フォアグラウンド成分およびバックグラウンド成分の数がより一般的なチャネル数から導出され得ることから、フォアグラウンド成分およびバックグラウンド成分の数を指定しない代わりに、指定しないことがある。フォアグラウンド成分の数の指示およびバックグラウンドチャネルの数の指示の導出は、いくつかの例では、以下の表に従って進み得る。
ここで、ChannelTypeの説明は次のように与えられる。
ChannelType:
0:方向ベースの信号
1:ベクトルベースの信号(フォアグラウンド信号を表し得る)
2:追加のアンビエントHOA係数(バックグラウンド信号またはアンビエント信号を表し得る)
3:空
上記のSideChannelInfoシンタックス表に従ってChannelTypeをシグナリングした結果として、レイヤごとのフォアグラウンド成分の数が、1に設定されたChannelTypeシンタックス要素の数の関数として決定され得、レイヤごとのバックグラウンド成分の数が、2に設定されたChannelTypeシンタックス要素の数の関数として決定され得る。
[0142]スケーラブルビットストリーム生成ユニット1000は、いくつかの例では、ビットストリーム21からレイヤを抽出するための構成情報を提供する、フレームごとのHOADecoderConfigを指定し得る。HOADecoderConfigは、上の表の代替として、または上の表とともに指定され得る。以下の表は、ビットストリーム21におけるHOADecoderConfig_FrameByFrame()オブジェクトに関するシンタックスを定義し得る。
[0143]上記の表では、HOABaseLayerPresentシンタックス要素は、スケーラブルビットストリーム21のベースレイヤが存在するかどうかを示すフラグを表し得る。存在するとき、スケーラブルビットストリーム生成ユニット1000は、ベースレイヤに関する構成情報がビットストリーム21に存在するかどうかを示すシンタックス要素を表し得る、HOABaseLayerConfigurationFlagシンタックス要素を指定する。ベースレイヤに関する構成情報がビットストリーム21に存在するとき、スケーラブルビットストリーム生成ユニット1000は、レイヤの数(すなわち、この例ではNumLayersシンタックス要素)と、レイヤの各々に関するフォアグラウンドチャネルの数(すなわち、この例ではNumFGchannelsシンタックス要素)と、レイヤの各々に関するバックグラウンドチャネルの数(すなわち、この例ではNumBGchannelsシンタックス要素)とを指定する。ベースレイヤ構成が存在しないことをHOABaseLayerPresentフラグが示すとき、スケーラブルビットストリーム生成ユニット1000は、追加のシンタックス要素を一切提供しなくてよく、オーディオ復号デバイス24は、現在のフレームに関する構成データが以前のフレームに関する構成データと同じであると決定し得る。
[0144]いくつかの例では、スケーラブルビットストリーム生成ユニット1000は、スケーラブルビットストリーム21におけるHOADecoderConfigオブジェクトを指定し得るが、レイヤごとのフォアグラウンドチャネルおよびバックグラウンドチャネルの数を指定しなくてよく、ここでフォアグラウンドチャネルおよびバックグラウンドチャネルの数は静的であること、またはChannelSideInfo表に関して上記で説明されたように決定されることがある。HOADecoderConfigは、この例では、以下の表に従って定義され得る。
[0145]また別の代替では、HOADecoderConfigに関する上記のシンタックス表は、HOADecoderConfigに関する以下のシンタックス表に置き換えられ得る。
[0146]この点において、スケーラブルビットストリーム生成ユニット1000は、上記で説明されたように、ビットストリームの1つまたは複数のレイヤにおいて指定されたチャネルの数の指示をビットストリームにおいて指定し、ビットストリームの1つまたは複数のレイヤにおけるチャネルの指示された数を指定するように構成され得る。
[0147]その上、スケーラブルビットストリーム生成ユニット1000は、チャネルの数を示す(たとえば、以下でより詳細に説明されるように、NumLayersシンタックス要素またはcodedLayerCh syntaxシンタックス要素の形態による)シンタックス要素を指定するように構成され得る。
[0148]いくつかの例では、スケーラブルビットストリーム生成ユニット1000は、ビットストリームにおいて指定されたチャネルの総数の指示を指定するように構成され得る。スケーラブルビットストリーム生成ユニット1000は、これらの事例では、ビットストリームの1つまたは複数のレイヤにおけるチャネルの指示された総数を指定するように構成され得る。これらの事例では、スケーラブルビットストリーム生成ユニット1000は、チャネルの総数を示すシンタックス要素(たとえば、以下でより詳細に説明されるように、numHOATransportChannelsシンタックス要素)を指定するように構成され得る。
[0149]これらの例および他の例では、スケーラブルビットストリーム生成ユニット1000は、ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルのうちの1つの指示タイプを指定するように構成され得る。これらの事例では、スケーラブルビットストリーム生成ユニット1000は、ビットストリームの1つまたは複数のレイヤにおけるチャネルのうちの1つの指示されたタイプの指示された数を指定するように構成され得る。フォアグラウンドチャネルは、USオーディオオブジェクトと対応するVベクトルとを備え得る。
[0150]これらの例および他の例では、スケーラブルビットストリーム生成ユニット1000は、ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルのうちの1つの指示タイプを指定するように構成され得、チャネルのうちの1つのタイプの指示が、チャネルのうちの1つがフォアグラウンドチャネルであることを示す。これらの事例では、スケーラブルビットストリーム生成ユニット1000は、ビットストリームの1つまたは複数のレイヤにおけるフォアグラウンドチャネルを指定するように構成され得る。
[0151]これらの例および他の例では、スケーラブルビットストリーム生成ユニット1000は、ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルのうちの1つの指示タイプを指定するように構成され得、チャネルのうちの1つのタイプの指示が、チャネルのうちの1つがバックグラウンドチャネルであることを示す。これらの事例では、スケーラブルビットストリーム生成ユニット1000は、ビットストリームの1つまたは複数のレイヤにおけるバックグラウンドチャネルを指定するように構成され得る。バックグラウンドチャネルは、アンビエントHOA係数を備え得る。
[0152]これらの例および他の例では、スケーラブルビットストリーム生成ユニット1000は、チャネルのうちの1つのタイプを示すシンタックス要素(たとえば、ChannelTypeシンタックス要素)を指定するように構成され得る。
[0153]これらの例および他の例では、スケーラブルビットストリーム生成ユニット1000は、(たとえば、以下でより詳細に説明されるようにremainingChシンタックス要素またはnumAvailableTransportChannelsシンタックス要素によって定義されるようなレイヤのうちの1つが取得された後のビットストリームにおいて残存するチャネルの数に基づいて、チャネルの数の指示を指定するように構成され得る。
[0154]図7A〜図7Dは、HOA係数11の符号化された2層表現を生成する際のオーディオ符号化デバイス20の例示的な動作を示すフローチャートである。最初に図7Aの例を参照すると、無相関化ユニット60は最初に、エネルギー補償されたバックグラウンドHOA係数47A’〜47D’として表される1次アンビソニックスバックグラウンド(ここで、「アンビソニックスバックグラウンド」は、音場のバックグラウンド成分を表すアンビソニック係数を指し得る)に関してUHJ無相関化を適用し得る(300)。1次アンビソニックスバックグラウンド47A’〜47D’は、以下(次数,副次数)を有する球面基底関数に対応するHOA係数を含み得る。(0,0)、(1,0)、(1,−1)、(1,1)。
[0155]無相関化ユニット60は、上述のQ、T、LおよびRオーディオ信号として、無相関化されたアンビエントHOAオーディオ信号67を出力し得る。Qオーディオ信号は、高さ情報を提供し得る。Tオーディオ信号は、(スイートスポットの背後のチャネルを表すための情報を含む)水平方向情報を提供し得る。Lオーディオ信号は、左ステレオチャネルを提供する。Rオーディオ信号は、右ステレオチャネルを提供する。
[0156]いくつかの例では、UHJ行列は少なくとも、左オーディオチャネルに関連する高次アンビソニックオーディオデータを備え得る。他の例では、UHJ行列は少なくとも、右オーディオチャネルに関連する高次アンビソニックオーディオデータを備え得る。さらに他の例では、UHJ行列は少なくとも、ローカライゼーションチャネルに関連する高次アンビソニックオーディオデータを備え得る。他の例では、UHJ行列は少なくとも、高さチャネルに関連する高次アンビソニックオーディオデータを備え得る。他の例では、UHJ行列は少なくとも、自動利得補正のためのサイドバンドに関連する高次アンビソニックオーディオデータを備え得る。他の例では、UHJ行列は少なくとも、左オーディオチャネル、右オーディオチャネル、ローカライゼーションチャネル、および高さチャネル、ならびに自動利得補正のためのサイドバンドに関連する高次アンビソニックオーディオデータを備え得る。
[0157]利得制御ユニット62は、無相関化されたアンビエントHOAオーディオ信号67に自動利得制御(AGC)を適用し得る(302)。利得制御ユニット62は、調整されたアンビエントHOAオーディオ信号67’をビットストリーム生成ユニット42に渡し得、ビットストリーム生成ユニット42は、調整されたアンビエントHOAオーディオ信号67’に基づいてベースレイヤを形成し、高次アンビソニック利得制御データ(HOAGCD)に基づいてサイドバンドチャネルの少なくとも一部を形成し得る(304)。
[0158]利得制御ユニット62はまた、補間されたnFGオーディオ信号49’(「ベクトルベースの支配的信号」と呼ばれることもある)に関して自動利得制御を適用し得る(306)。利得制御ユニット62は、調整されたnFGオーディオ信号49’’を、調整されたnFGオーディオ信号49’’に関するHOAGCDとともにビットストリーム生成ユニット42に出力し得る。ビットストリーム生成ユニット42は、調整されたnFGオーディオ信号49’’に基づいて第2のレイヤを形成する一方、調整されたnFGオーディオ信号49’’に関するHOAGCDおよび対応するコーディングされたフォアグラウンドV[k]ベクトル57に基づいてサイドバンド情報の一部を形成し得る(308)。
[0159]高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤ(すなわち、ベースレイヤ)は、1以下の次数を有する1つまたは複数の球面基底関数に対応する高次アンビソニック係数を備え得る。いくつかの例では、第2のレイヤ(すなわち、エンハンスメントレイヤ)は、ベクトルベースの支配的オーディオデータを備える。
[0160]いくつかの例では、ベクトルベースの支配的オーディオは少なくとも、支配的オーディオデータと符号化されたVベクトルとを備える。上記で説明されたように、符号化されたVベクトルは、オーディオ符号化デバイス20のLITユニット30による線形可逆変換の適用を通じて高次アンビソニックオーディオデータから分解され得る。他の例では、ベクトルベースの支配的オーディオデータは少なくとも、追加の高次アンビソニックチャネルを備える。さらに他の例では、ベクトルベースの支配的オーディオデータは少なくとも、自動利得補正サイドバンドを備える。他の例では、ベクトルベースの支配的オーディオデータは少なくとも、支配的オーディオデータと、符号化されたVベクトルと、追加の高次アンビソニックチャネルと、自動利得補正サイドバンドとを備える。
[0161]第1のレイヤと第2のレイヤとを形成する際に、ビットストリーム生成ユニット42は、誤り検出、誤り訂正、または誤り検出と誤り訂正の両方を行う誤りチェックプロセスを実行し得る。いくつかの例では、ビットストリーム生成ユニット42は、第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行し得る。別の例では、オーディオコーディングデバイスは、第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行し、第2のレイヤ(すなわち、エンハンスメントレイヤ)に対して誤りチェックプロセスを実行するのを控え得る。また別の例では、ビットストリーム生成ユニット42は、第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行し得、第1のレイヤに誤りがないとの決定に応答して、オーディオコーディングデバイスは、第2のレイヤ(すなわち、エンハンスメントレイヤ)に対して誤りチェックプロセスを実行し得る。ビットストリーム生成ユニット42が第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行する上記の例のいずれでも、第1のレイヤは、誤りに対してロバストであるロバストレイヤと考えられ得る。
[0162]次に図7Bを参照すると、利得制御ユニット62およびビットストリーム生成ユニット42は、図7Aに関して上記で説明された利得制御ユニット62およびビットストリーム生成ユニット42の動作と同様の動作を実行する。ただし、無相関化ユニット60は、UHJ無相関化ではなくモード行列無相関化を1次アンビソニックスバックグラウンド47A’〜47D’に適用し得る(301)。
[0163]次に図7Cを参照すると、利得制御ユニット62およびビットストリーム生成ユニット42は、図7Aおよび図7Bの例に関して上記で説明された利得制御ユニット62およびビットストリームユニット42の動作と同様の動作を実行し得る。ただし、図7Cの例では、無相関化ユニット60は、1次アンビソニックスバックグラウンド47A’〜47D’に変換を一切適用しなくてよい。以下の例8A〜10Bの各々では、無相関化ユニット60が代替として、1次アンビソニックスバックグラウンド47A’〜47D’のうちの1つまたは複数に関して無相関化を適用しなくてよいことが仮定されるが、そのようなことは示されていない。
[0164]次に図7Dを参照すると、無相関化ユニット60およびビットストリーム生成ユニット42は、図7Aおよび図7Bの例にiwht関して上記で説明された利得制御ユニット52およびビットストリーム生成ユニット42の動作と同様の動作を実行し得る。ただし、図7Dの例では、利得制御ユニット62は、無相関化されたアンビエントHOAオーディオ信号67に利得制御を一切適用しなくてよい。以下の例8A〜10Bの各々では、利得制御ユニット52が代替として、無相関化アンビエントHOAオーディオ信号67のうちの1つまたは複数に関して無相関化を適用しなくてよいことが仮定されるが、そのようなことは示されていない。
[0165]図7A〜図7Dの例の各々では、ビットストリーム生成ユニット42は、ビットストリーム21における1つまたは複数のシンタックス要素を指定し得る。図10は、ビットストリーム21において指定されたHOA構成オブジェクトの一例を示す図である。図7A〜図7Dの例の各々に関して、ビットストリーム生成ユニット42は、codedVVecLengthシンタックス要素400を1または2に設定することができ、これは、1次バックグラウンドHOAチャネルがすべての支配的音声の1次成分を含むことを示す。ビットストリーム生成ユニット42はまた、ambienceDecorrelationMethodシンタックス要素402を、要素402が(たとえば、図7Aに関して上記で説明された)UHJ無相関化の使用をシグナリングし、(たとえば、図7Bに関して上記で説明された)行列モード無相関化の使用をシグナリングし、または(たとえば、図7Cに関して上記で説明された)無相関化が使用されていないことをシグナリングするように、設定し得る。
[0166]図11は、第1および第2のレイヤに関するビットストリーム生成ユニット42によって生成されたサイドバンド情報410を示す図である。サイドバンド情報410は、サイドバンドベースレイヤ情報412と、サイドバンド第2のレイヤ情報414Aおよび414Bとを含む。ベースレイヤのみがオーディオ復号デバイス24に提供されるとき、オーディオ符号化デバイス20は、サイドバンドベースレイヤ情報412のみを提供し得る。サイドバンドベースレイヤ情報412は、ベースレイヤに関するHOAGCDを含む。サイドバンド第2のレイヤ情報414Aは、トランスポートチャネル1〜4シンタックス要素と対応するHOAGCDとを含む。サイドバンド第2のレイヤ情報414Bは、(112または310に等しいChannelTypeシンタックス要素によって示されるように、トランスポートチャネル3および4が空であることを仮定すれば)トランスポートチャネル1および2に対応する、対応する2つのコーディングされた低減されたV[k]ベクトル57を含む。
[0167]図8Aおよび図8Bは、HOA係数11の符号化された3層表現を生成する際のオーディオ符号化デバイス20の例示的な動作を示すフローチャートである。最初に図8Aの例を参照すると、無相関化ユニット60および利得制御ユニット62は、図7Aに関して上記で説明された動作と同様の動作を実行し得る。ただし、ビットストリーム生成ユニット42は、調整されたアンビエントHOAオーディオ信号67のすべてではなく、調整されたアンビエントHOAオーディオ信号67のLオーディオ信号およびRオーディオ信号に基づいて、ベースレイヤを形成し得る(310)。ベースレイヤは、この点において、オーディオ復号デバイス24においてレンダリングされたときにステレオチャネルをもたらし得る。ビットストリーム生成ユニット42はまた、HOAGCDを含むベースレイヤに関するサイドバンド情報を生成し得る。
[0168]ビットストリーム生成ユニット42の動作はまた、ビットストリーム生成ユニット42が調整されたアンビエントHOAオーディオ信号67のQオーディオ信号およびTオーディオ信号に基づいて第2のレイヤを形成し得る(312)という点で、図7Aに関して上記で説明された動作とは異なり得る。図8Aの例における第2のレイヤは、オーディオ復号デバイス24においてレンダリングされたときに水平方向チャネルと3Dオーディオチャネルとをもたらし得る。ビットストリーム生成ユニット42はまた、HOAGCDを含む第2のレイヤに関するサイドバンド情報を生成し得る。ビットストリーム生成ユニット42はまた、図7Aの例において第2のレイヤを形成することに関して上記で説明された方法と実質的に同様の方法で、第3のレイヤを形成し得る。
[0169]ビットストリーム生成ユニット42は、図10に関して上記で説明されたものと同様のビットストリーム21に関するHOA構成オブジェクトを指定し得る。さらに、オーディオエンコーダ20のビットストリーム生成ユニット42は、1次HOAバックグラウンドが送信されることを示すために、MinAmbHoaOrderシンタックス要素404を2に設定する。
[0170]ビットストリーム生成ユニット42はまた、図12Aの例において示されるサイドバンド情報412と同様のサイドバンド情報を生成し得る。図12Aは、本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報412を示す図である。サイドバンド情報412は、サイドバンドベースレイヤ情報416と、サイドバンド第2のレイヤ情報418と、サイドバンド第3のレイヤ情報420Aおよび420Bとを含む。サイドバンドベースレイヤ情報416は、ベースレイヤに関するHOAGCDを提供し得る。サイドバンド第2のレイヤ情報418は、第2のレイヤに関するHOAGCDを提供し得る。サイドバンド第3のレイヤ情報420Aおよび420Bは、図11に関して上記で説明されたサイドバンド情報414Aおよび414Bと同様であり得る。
[0171]図7Aと同様に、ビットストリーム生成デバイス42は、誤りチェックプロセスを実行し得る。いくつかの例では、ビットストリーム生成デバイス42は、第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行し得る。別の例では、ビットストリーム生成デバイス42は、第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行し、第2のレイヤ(すなわち、エンハンスメントレイヤ)に対して誤りチェックプロセスを実行するのを控え得る。また別の例では、ビットストリーム生成デバイス42は、第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行し得、第1のレイヤに誤りがないとの決定に応答して、オーディオコーディングデバイスは、第2のレイヤ(すなわち、エンハンスメントレイヤ)に対して誤りチェックプロセスを実行し得る。オーディオコーディングデバイスが第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行する上記の例のいずれでも、第1のレイヤは、誤りに対してロバストであるロバストレイヤと考えられ得る。
[0172]3つのレイヤを提供するものとして説明されているが、いくつかの例では、ビットストリーム生成デバイス42は、たった2つのレイヤがあることの指示をビットストリームにおいて指定し、ステレオチャネル再生をもたらす高次アンビソニックオーディオ信号のバックグラウンド成分を示すビットストリームのレイヤのうちの第1のものと、単一の水平面上に配置された3つ以上のスピーカーによる水平方向マルチチャネル再生をもたらす高次アンビソニックオーディオ信号のバックグラウンド成分を示すビットストリームのレイヤのうちの第2のものとを指定し得る。言い換えれば、3つのレイヤを提供するものとして示されているが、ビットストリーム生成デバイス42は、いくつかの事例では3つのレイヤのうちの2つのみを生成し得る。ここでは詳細に説明されていないが、レイヤの任意のサブセットが生成され得ることを理解されたい。
[0173]次に図8Bを参照すると、利得制御ユニット62およびビットストリーム生成ユニット42は、図8Aに関して上記で説明された利得制御ユニット62およびビットストリーム生成ユニット42の動作と同様の動作を実行する。ただし、無相関化ユニット60は、UHJ無相関化ではなくモード行列無相関化を1次アンビソニックスバックグラウンド47A’に適用し得る(316)。いくつかの例では、1次アンビソニックスバックグラウンド47A’は、0次アンビソニック係数47A’を含み得る。利得制御ユニット62は、1次を有する球面調和係数に対応する1次アンビソニック係数、および無相関化されたアンビエントHOAオーディオ信号67に自動利得制御を適用し得る。
[0174]ビットストリーム生成ユニット42は、調整されたアンビエントHOAオーディオ信号67に基づいてベースレイヤを形成し、対応するHOAGCDに基づいてサイドバンドの少なくとも一部を形成し得る(310)。アンビエントHOAオーディオ信号67は、オーディオ復号デバイス24においてレンダリングされたときにモノチャネルをもたらし得る。ビットストリーム生成ユニット42は、調整されたアンビエントHOA係数47B’’〜47D’’に基づいて第2のレイヤを形成し、対応するHOAGCDに基づいてサイドバンドの少なくとも一部を形成し得る(318)。調整されたアンビエントHOA係数47B’’〜47D’’は、オーディオ復号デバイス24においてレンダリングされたときにX、YおよびZ(またはステレオ、水平方向および高さ)チャネルを提供し得る。ビットストリーム生成ユニット42は、図8Aに関して上記で説明された方法と同様の方法で、第3のレイヤとサイドバンド情報の少なくとも一部とを形成し得る。ビットストリーム生成ユニット42は、図12Bに関してより詳細に説明されるようにサイドバンド情報412を生成し得る(326)。
[0175]図12Bは、本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報414を示す図である。サイドバンド情報414は、サイドバンドベースレイヤ情報416と、サイドバンド第2のレイヤ情報422と、サイドバンド第3のレイヤ情報424A〜424Cとを含む。サイドバンドベースレイヤ情報416は、ベースレイヤに関するHOAGCDを提供し得る。サイドバンド第2のレイヤ情報422は、第2のレイヤに関するHOAGCDを提供し得る。サイドバンド第3のレイヤ情報424A〜424Cは、図11に関して上記で説明されたサイドバンド情報414Aおよび414Bと同様(サイドバンド情報414Aがサイドバンド第3のレイヤ情報424Aおよび424Bとして指定されることを除く)であり得る。
[0176]図9Aおよび図9Bは、HOA係数11の符号化された4層表現を生成する際のオーディオ符号化デバイス20の例示的な動作を示すフローチャートである。最初に図9Aの例を参照すると、無相関化ユニット60および利得制御ユニット62は、図8Aに関して上記で説明された動作と同様の動作を実行し得る。ビットストリーム生成ユニット42は、図8Aの例に関して上記で説明された方法と同様の方法で、すなわち、調整されたアンビエントHOAオーディオ信号67のすべてではなく、調整されたアンビエントHOAオーディオ信号67のLオーディオ信号およびRオーディオ信号に基づいて、ベースレイヤを形成し得る(310)。ベースレイヤは、この点において、オーディオ復号デバイス24においてレンダリングされたときにステレオチャネルをもたらし得る(または言い換えれば、ステレオチャネル再生をもたらし得る)。ビットストリーム生成ユニット42はまた、HOAGCDを含むベースレイヤに関するサイドバンド情報を生成し得る。
[0177]ビットストリーム生成ユニット42の動作は、ビットストリーム生成ユニット42が調整されたアンビエントHOAオーディオ信号67のTオーディオ信号(Qオーディオ信号ではない)に基づいて第2のレイヤを形成し得る(322)という点で、図8Aに関して上記で説明された動作とは異なり得る。図9Aの例における第2のレイヤは、オーディオ復号デバイス24においてレンダリングされたときに水平方向チャネル(または言い換えれば、単一の水平面上の3つ以上のラウドスピーカーによるマルチチャネル再生)をもたらし得る。ビットストリーム生成ユニット42はまた、HOAGCDを含む第2のレイヤに関するサイドバンド情報を生成し得る。ビットストリーム生成ユニット42はまた、調整されたアンビエントHOAオーディオ信号67のQオーディオ信号に基づいて第3のレイヤを形成し得る(324)。第3のレイヤは、1つまたは複数の水平面上に配置された3つ以上のスピーカーによる3次元再生をもたらし得る。ビットストリーム生成ユニット42は、図8Aの例において第3のレイヤを形成することに関して上記で説明された方法と実質的に同様の方法で、第4のレイヤを形成し得る(326)。
[0178]ビットストリーム生成ユニット42は、図10に関して上記で説明されたものと同様のビットストリーム21に関するHOA構成オブジェクトを指定し得る。さらに、オーディオエンコーダ20のビットストリーム生成ユニット42は、1次HOAバックグラウンドが送信されることを示すために、MinAmbHoaOrderシンタックス要素404を2に設定する。
[0179]ビットストリーム生成ユニット42はまた、図13Aの例において示されるサイドバンド情報412と同様のサイドバンド情報を生成し得る。図13Aは、本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報430を示す図である。サイドバンド情報430は、サイドバンドベースレイヤ情報416と、サイドバンド第2のレイヤ情報418と、サイドバンド第3のレイヤ情報432と、サイドバンド第4のレイヤ情報434Aおよび434Bとを含む。サイドバンドベースレイヤ情報416は、ベースレイヤに関するHOAGCDを提供し得る。サイドバンド第2のレイヤ情報418は、第2のレイヤに関するHOAGCDを提供し得る。サイドバンド第3のレイヤ情報430は、第3のレイヤに関するHOAGCDを提供し得る。サイドバンド第4のレイヤ情報434Aおよび434Bは、図12Aに関して上記で説明されたサイドバンド情報420Aおよび420Bと同様であり得る。
[0180]図7Aと同様に、ビットストリーム生成ユニット42は、誤りチェックプロセスを実行し得る。いくつかの例では、ビットストリーム生成デバイス42は、第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行し得る。別の例では、ビットストリーム生成デバイス42は、第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行し、残りのレイヤ(すなわち、エンハンスメントレイヤ)に対して誤りチェックプロセスを実行するのを控え得る。また別の例では、ビットストリーム生成デバイス42は、第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行し得、第1のレイヤに誤りがないとの決定に応答して、オーディオコーディングデバイスは、第2のレイヤ(すなわち、エンハンスメントレイヤ)に対して誤りチェックプロセスを実行し得る。オーディオコーディングデバイスが第1のレイヤ(すなわち、ベースレイヤ)に対して誤りチェックプロセスを実行する上記の例のいずれでも、第1のレイヤは、誤りに対してロバストであるロバストレイヤと考えられ得る。
[0181]次に図9Bを参照すると、利得制御ユニット62およびビットストリーム生成ユニット42は、図9Aに関して上記で説明された利得制御ユニット62およびビットストリーム生成ユニット42の動作と同様の動作を実行する。ただし、無相関化ユニット60は、UHJ無相関化ではなくモード行列無相関化を1次アンビソニックスバックグラウンド47A’に適用し得る(316)。いくつかの例では、1次アンビソニックスバックグラウンド47A’は、0次アンビソニック係数47A’を含み得る。利得制御ユニット62は、1次を有する球面調和係数に対応する1次アンビソニック係数、および無相関化されたアンビエントHOAオーディオ信号67に自動利得制御を適用し得る(302)。
[0182]ビットストリーム生成ユニット42は、調整されたアンビエントHOAオーディオ信号67に基づいてベースレイヤを形成し、対応するHOAGCDに基づいてサイドバンドの少なくとも一部を形成し得る(310)。アンビエントHOAオーディオ信号67は、オーディオ復号デバイス24においてレンダリングされたときにモノチャネルをもたらし得る。ビットストリーム生成ユニット42は、調整されたアンビエントHOA係数47B’’および47C’’に基づいて第2のレイヤを形成し、対応するHOAGCDに基づいてサイドバンドの少なくとも一部を形成し得る(322)。調整されたアンビエントHOA係数47B’’および47C’’は、単一の水平面上に配置された3つ以上のスピーカーによるX、Y水平方向マルチチャネル再生をもたらし得る。ビットストリーム生成ユニット42は、調整されたアンビエントHOA係数47D’’に基づいて第3のレイヤを形成し、対応するHOAGCDに基づいてサイドバンドの少なくとも一部を形成し得る(324)。調整されたアンビエントHOA係数47D’’は、1つまたは複数の水平面に配置された3つ以上のスピーカーによる3次元再生をもたらし得る。ビットストリーム生成ユニット42は、図8Aに関して上記で説明された方法と同様の方法で、第4のレイヤとサイドバンド情報の少なくとも一部とを形成し得る(326)。ビットストリーム生成ユニット42は、図12Bに関してより詳細に説明されるようにサイドバンド情報412を生成し得る。
[0183]図13Bは、本開示で説明される技法のスケーラブルコーディング態様に従って生成されたサイドバンド情報440を示す図である。サイドバンド情報440は、サイドバンドベースレイヤ情報416と、サイドバンド第2のレイヤ情報442と、サイドバンド第3のレイヤ情報444と、サイドバンド第4のレイヤ情報446A〜446Cとを含む。サイドバンドベースレイヤ情報416は、ベースレイヤに関するHOAGCDを提供し得る。サイドバンド第2のレイヤ情報442は、第2のレイヤに関するHOAGCDを提供し得る。サイドバンド第3のレイヤ情報は、第3のレイヤに関するHOAGCDを提供し得る。サイドバンド第4のレイヤ情報446A〜446Cは、図12Bに関して上記で説明されたサイドバンド情報424A〜424Cと同様であり得る。
[0184]図4は、図2のオーディオ復号デバイス24をより詳細に示すブロック図である。図4の例に示されているように、オーディオ復号デバイス24は、抽出ユニット72と、方向ベース再構成ユニット90と、ベクトルベース再構成ユニット92とを含み得る。以下で説明されるが、オーディオ復号デバイス24、およびHOA係数を解凍またはさもなければ復号する様々な態様に関するより多くの情報は、2014年5月29日に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という名称の国際特許出願公開第WO2014/194099号において入手可能である。また、上記のMPEG−H 3Dオーディオコーディング規格のフェーズIおよびフェーズIIならびにMPEG−H 3Dオーディオコーディング規格のフェーズIを要約した上記の対応する文書において、さらなる情報が確認できる。
[0185]抽出ユニット72は、ビットストリーム21を受信し、HOA係数11の様々な符号化されたバージョン(たとえば、方向ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン)を抽出するように構成されたユニットを表し得る。抽出ユニット72は、HOA係数11が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述のシンタックス要素から決定し得る。方向ベース符号化が実行されたとき、抽出ユニット72は、HOA係数11の方向ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素(図4の例では方向ベース情報91として示される)とを抽出し、方向ベース情報91を方向ベース再構成ユニット90に渡すことができる。方向ベース再構成ユニット90は、方向ベース情報91に基づいてHOA係数11’の形態でHOA係数を再構成するように構成されたユニットを表し得る。
[0186]HOA係数11がベクトルベース合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57(コーディングされた重み57および/もしくはインデックス63またはスカラー量子化されたVベクトルを含み得る)と、符号化されたアンビエントHOA係数59と、対応するオーディオオブジェクト61(符号化されたnFG信号61と呼ばれる場合もある)とを抽出することができる。オーディオオブジェクト61はそれぞれベクトル57のうちの1つに対応する。抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57をVベクトル再構成ユニット74に渡し、符号化されたアンビエントHOA係数59を符号化されたnFG信号61とともに聴覚心理復号ユニット80に渡すことができる。抽出ユニット72は、図6の例に関してより詳細に説明される。
[0187]図6は、本開示で説明される潜在的バージョンスケーラブルオーディオ復号技法のうちの第1のものを実行するように構成されるときの図4の抽出ユニット72をより詳細に示す図である。図6の例において、抽出ユニット72は、モード選択ユニット1010と、スケーラブル抽出ユニット1012と、非スケーラブル抽出ユニット1014とを含む。モード選択ユニット1010は、ビットストリーム21に関してスケーラブル抽出が実行されるべきか、非スケーラブル抽出が実行されるべきかを選択するように構成されたユニットを表す。モード選択ユニット1010は、ビットストリーム21が記憶されるメモリを含み得る。モード選択ユニット1010は、スケーラブルコーディングがイネーブルにされているかどうかの指示に基づいて、スケーラブル抽出が実行されるべきか、非スケーラブル抽出が実行されるべきかを決定し得る。HOABaseLayerPresentシンタックス要素は、ビットストリーム21を符号化するときにスケーラブルコーディングが実行されたかどうかの指示を表し得る。
[0188]スケーラブルコーディングがイネーブルにされていることをHOABaseLayerPresentシンタックス要素が示すとき、モード選択ユニット1010は、ビットストリーム21をスケーラブルビットストリーム21として識別し、スケーラブルビットストリーム21をスケーラブル抽出ユニット1012に出力し得る。スケーラブルコーディングがイネーブルにされていないことをHOABaseLayerPresentシンタックス要素が示すとき、モード選択ユニット1010は、ビットストリーム21を非スケーラブルビットストリーム21’として識別し、非スケーラブルビットストリーム21’を非スケーラブル抽出ユニット1014に出力し得る。非スケーラブル抽出ユニット1014は、MPEG−H 3Dオーディオコーディング規格のフェーズIに従って動作するように構成されたユニットを表す。
[0189]スケーラブル抽出ユニット1012は、以下でより詳細に説明される(また上で様々なHOADecoderConfig表において示された)様々なシンタックス要素に基づいて、スケーラブルビットストリーム21の1つまたは複数のレイヤから、アンビエントHOA係数59、符号化されたnFG信号61、およびコーディングされたフォアグラウンドV[k]ベクトル57のうちの1つまたは複数を抽出するように構成されたユニットを表し得る。図6の例では、スケーラブル抽出ユニット1012は、一例として、スケーラブルビットストリーム21のベースレイヤ21Aから、4つの符号化されたアンビエントHOA係数59A〜59Dを抽出し得る。スケーラブル抽出ユニット1012はまた、スケーラブルビットストリーム21のエンハンスメントレイヤ21Bから、(一例として)2つの符号化されたnFG信号61Aおよび61Bならびに2つのコーディングされたフォアグラウンドV[k]ベクトル57Aおよび57Bを抽出し得る。スケーラブル抽出ユニット1012は、アンビエントHOA係数59と、符号化されたnFG信号61と、コーディングされたフォアグラウンドV[k]ベクトル57とを、図4の例に示されたベクトルベース復号ユニット92に出力し得る。
[0190]より詳細には、オーディオ復号デバイス24の抽出ユニット72は、上記のHOADecoderCofnig_FrameByFrameシンタックス表に記載されたL個のレイヤのチャネルを抽出し得る。
[0191]上記のHOADecoderCofnig_FrameByFrameシンタックス表によれば、モード選択ユニット1010は最初に、HOABaseLayerPresentシンタックス要素を取得し得、HOABaseLayerPresentシンタックス要素は、スケーラブルオーディオ符号化が実行されたかどうかを示し得る。たとえば、HOABaseLayerPresentシンタックス要素の値0によって指定されているようにイネーブルにされていないとき、モード選択ユニット1010は、MinAmbHoaOrderシンタックス要素を決定することができ、非スケーラブルビットストリームを非スケーラブル抽出ユニット1014に提供し、非スケーラブル抽出ユニット1014は、上記で説明されたものと同様の非スケーラブル抽出プロセスを実行する。たとえば、HOABaseLayerPresentシンタックス要素の値1によって指定されているようにイネーブルにされているとき、モード選択ユニット1010は、MinAmbHoaOrderシンタックス要素値をマイナス1(−1)に設定し、スケーラブルビットストリーム21’をスケーラブル抽出ユニット1012に提供する。
[0192]スケーラブル抽出ユニット1012は、現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化しているかどうかの指示を取得し得る。現在のフレームにおいてビットストリームのフレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化しているかどうかの指示は、上記の表において「HOABaseLayerConfigurationFlag」シンタックス要素として示され得る。
[0193]スケーラブル抽出ユニット1012は、指示に基づいて現在のフレームにおけるビットストリームのレイヤの数のインジケーションを取得し得る。現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化していないことを指示が示すとき、スケーラブル抽出ユニット1012は、以下のように述べている上記のシンタックス表の部分に従って、現在のフレームにおけるビットストリームのレイヤの数を、以前のフレームにおけるビットストリームのレイヤの数に等しいものとして決定し得る。
ここで、「NumLayers」は、現在のフレームにおけるビットストリームのレイヤの数を表すシンタックス要素を表し得、「NumLayersPrevFrame」は、以前のフレームにおけるビットストリームのレイヤの数を表すシンタックス要素を表し得る。
[0194]上記のHOADecoderConfig_FrameByFrameシンタックス表によれば、スケーラブル抽出ユニット1012は、現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化していないことを指示が示すときに、現在のフレームについてのレイヤのうちの1つまたは複数におけるフォアグラウンド成分の現在の数の現在のフォアグラウンド指示が、以前のフレームのレイヤのうちの1つまたは複数におけるフォアグラウンド成分の以前の数についての以前のフォアグラウンド指示に等しいと決定し得る。言い換えれば、スケーラブル抽出ユニット1012は、HOABaseLayerConfigurationFlagが0に等しいときに、現在のフレームのレイヤのうちの1つまたは複数におけるフォアグラウンド成分の現在の数の現在のフォアグラウンド指示を表すNumFGchannels[i]シンタックス要素が、以前のフレームの1つまたは複数のレイヤにおけるフォアグラウンド成分の以前の数の以前のフォアグラウンド指示を表すNumFGchannels_PrevFrame[i]シンタックス要素に等しいと決定し得る。スケーラブル抽出ユニット1012はさらに、現在のフォアグラウンド指示に基づいて、現在のフレームにおける1つまたは複数のレイヤからフォアグラウンド成分を取得し得る。
[0195]スケーラブル抽出ユニット1012はまた、現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化していないことを指示が示すときに、現在のフレームに関するレイヤのうちの1つまたは複数におけるバックグラウンド成分の現在の数の現在のバックグラウンド指示が、以前のフレームのレイヤのうちの1つまたは複数におけるバックグラウンド成分の以前の数に関する以前のバックグラウンド指示に等しいと決定し得る。言い換えれば、スケーラブル抽出ユニット1012は、HOABaseLayerConfigurationFlagが0に等しいときに、現在のフレームのレイヤのうちの1つまたは複数におけるバックグラウンド成分の現在の数の現在のバックグラウンド指示を表すNumBGchannels[i]シンタックス要素が、以前のフレームの1つまたは複数のレイヤにおけるバックグラウンド成分の以前の数の以前のバックグラウンド指示を表すNumBGchannels_PrevFrame[i]シンタックス要素に等しいと決定し得る。スケーラブル抽出ユニット1012はさらに、現在のバックグラウンド指示に基づいて、現在のフレームにおける1つまたは複数のレイヤからバックグラウンド成分を取得し得る。
[0196]レイヤ、フォアグラウンド成分、およびバックグラウンド成分の数の様々な指示のシグナリングを潜在的に低減し得る上記の技法を可能にするために、スケーラブル抽出ユニット1012は、NumFGchannels_PrevFrame[i]シンタックス要素とNumBGchannels_PrevFrame[i]シンタックス要素とを、現在のフレームに関する指示(たとえば、NumFGchannels[i]シンタックス要素およびNumBGchannels[i])に設定し、i個のレイヤすべてを通じて繰り返し得る。これは、以下のシンタックスにおいて表される。
[0197]現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化していることを指示が示すとき(たとえば、HOABaseLayerConfigurationFlagが1に等しいとき)、スケーラブル抽出ユニット1012は、numHOATransportChannelsの関数としてNumLayerBitsシンタックス要素を取得し、NumLayerBitsシンタックス要素は、本開示で説明されていない他のシンタックス表に従って取得されたシンタックス表に入れられる。
[0198]スケーラブル抽出ユニット1012は、ビットストリームにおいて指定されたレイヤの数の指示(たとえば、NumLayersシンタックス要素)を取得し得、ここで指示は、NumLayerBitsシンタックス要素によって示されるビットの数を有し得る。NumLayersシンタックス要素は、ビットストリームにおいて指定されたレイヤの数を指定し得、ここでレイヤの数は、上記のようにLとして示され得る。スケーラブル抽出ユニット1012は次に、numHOATransportChannelsの関数としてnumAvailableTransportChannelsを決定し、numAvailableTransportChannelsの関数としてnumAvailable TransportChannelBitsを決定し得る。
[0199]スケーラブル抽出ユニット1012は次いで、i番目のレイヤに関して指定されたバックグラウンドHOAチャネルの数(Bi)とフォアグラウンドHOAチャネルの数(Fi)とを決定するために、1からNumLayers−1まで、NumLayersを通じて繰り返し得る。ビットストリームにおいて送られたフォアグラウンドHOAチャネルおよびバックグラウンドHOAチャネルの総数がスケーラブル抽出ユニット1012によって知られているとき(たとえば、フォアグラウンドHOAチャネルおよびバックグラウンドHOAチャネルの総数がシンタックス要素としてシグナリングされているとき)に最後のレイヤBLhが決定され得るので、スケーラブル抽出ユニット1012は最後のレイヤの数(NumLayer)まで繰り返さなくてよく、NumLayer−1までのみ繰り返し得る。
[0200]この点において、スケーラブル抽出ユニット1012は、レイヤの数の指示に基づいて、ビットストリームのレイヤを取得し得る。スケーラブル抽出ユニット1012は、上記で説明されたように、ビットストリーム21において指定されたチャネルの数の指示(たとえば、numHOATransportChannels)を取得し、少なくとも部分的に、レイヤの数の指示およびチャネルの数の指示に基づいてビットストリーム21のレイヤを取得するによって、レイヤを取得し得る。
[0201]各レイヤを通じて繰り返すとき、スケーラブル抽出ユニット1012は最初に、NumFGchannels[i]シンタックス要素を取得することによって、i番目のレイヤに関するフォアグラウンドチャネルの数を決定し得る。スケーラブル抽出ユニット1012は次いで、numAvailableTransportChannelsからNumFGchannels[i]を差し引き、numAvailableTransportChannelsを更新し、(「符号化されたnFG信号61」と呼ばれることもある)フォアグラウンドHOAチャネル61のNumFGchannels[i]がビットストリームから抽出されていることを反映する。このようにして、スケーラブル抽出ユニット1012は、レイヤのうちの少なくとも1つに関するビットストリーム21において指定されたフォアグラウンドチャネルの数の指示(たとえば、NumFGchannels)を取得し、フォアグラウンドチャネルの数の指示に基づいて、ビットストリームのレイヤのうちの少なくとも1つに関するフォアグラウンドチャネルを取得し得る。
[0202]同様に、スケーラブル抽出ユニット1012は、NumBGchannels[i]シンタックス要素を取得することによって、i番目のレイヤに関するバックグラウンドチャネルの数を決定し得る。スケーラブル抽出ユニット1012は次いで、numAvailableTransportChannelsからNumBGchannels[i]を差し引き、(「符号化されたアンビエントHOA係数59」と呼ばれることもある)バックグラウンドHOAチャネル59のNumBGchannels[i]がビットストリームから抽出されていることを反映する。このようにして、スケーラブル抽出ユニット1012は、レイヤのうちの少なくとも1つに関するビットストリーム21において指定されたバックグラウンドチャネルの数の指示(たとえば、NumBGchannels)を取得し、バックグラウンドチャネルの数の指示に基づいて、ビットストリームのレイヤのうちの少なくとも1つに関するバックグラウンドチャネルを取得し得る。
[0203]スケーラブル抽出ユニット1012は、numAvailableTransportsの関数としてnumAvailableTransportChannelsBitsを取得することによって、継続し得る。上記のシンタックス表に従って、スケーラブル抽出ユニット1012は、NumFGchannels[i]とNumBGchannels [i]とを決定するために、numAvailableTransportChannelsBitsによって指定されたビットの数を解析し得る。numAvailableTransportChannelBitsが変化する(たとえば、各繰返しの後に、より小さくなる)ことを仮定すれば、NumFGchannels[i]シンタックス要素とNumBGchannels [i]シンタックス要素とを表すために使用されるビットの数は減少し、それによって、NumFGchannels[i]シンタックス要素とNumBGchannels [i]シンタックス要素とをシグナリングする際のオーバーヘッドを潜在的に低減する可変長コーディングの形態をもたらす。
[0204]上述のように、スケーラブルビットストリーム生成ユニット1000は、NumFGchannelsシンタックス要素およびNumBGchannelsシンタックス要素の代わりにNumChannelsシンタックス要素を指定し得る。この事例では、スケーラブル抽出ユニット1012は、上記に示された第2のHOADecoderConfigシンタックス表に従って動作するように構成され得る。
[0205]この点において、スケーラブル抽出ユニット1012は、現在のフレームにおいてビットストリームのレイヤの数が以前のフレームにおけるビットストリームのレイヤの数と比較して変化していることを指示が示すときに、以前のフレームのレイヤのうちの1つまたは複数における成分の数に基づいて、現在のフレームに関するレイヤのうちの1つまたは複数における成分の数の指示を取得し得る。スケーラブル抽出ユニット1012はさらに、成分の数の指示に基づいて、現在のフレームに関する1つまたは複数のレイヤにおけるバックグラウンド成分の数の指示を取得し得る。スケーラブル抽出ユニット1012はまた、成分の数の指示に基づいて、現在のフレームに関する1つまたは複数のレイヤにおけるフォアグラウンド成分の数の指示を取得し得る。
[0206]レイヤの数がフレームごとに変化し得ること、フォアグラウンドチャネルおよびバックグラウンドチャネルの数の指示がフレームごとに変化し得ることを仮定すれば、レイヤの数が変化していることの指示は事実上、チャネルの数が変化していることも示し得る。結果として、レイヤの数が変化していることの指示により、スケーラブル抽出ユニット1012は、現在のフレームにおいてビットストリーム21における1つまたは複数のレイヤにおいて指定されたチャネルの数が以前のフレームのビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルの数と比較して変化しているかどうかの指示を取得し得る。したがって、スケーラブル抽出ユニット1012は、現在のフレームにおいてビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルの数が変化しているかどうかの指示に基づいて、チャネルのうちの1つを取得し得る。
[0207]その上、スケーラブル抽出ユニット1012は、現在のフレームにおいてビットストリーム21の1つまたは複数のレイヤにおいて指定されたチャネルの数が以前のフレームにおけるビットストリームの1つまたは複数のレイヤにおいて指定されたチャネルの数と比較して変化していないことを指示が示すときに、現在のフレームにおけるビットストリーム21の1つまたは複数のレイヤにおいて指定されたチャネルの数を、以前のフレームにおけるビットストリーム21の1つまたは複数のレイヤにおいて指定されたチャネルの数と同じものとして決定し得る。
[0208]さらに、スケーラブル抽出ユニット1012は、現在のフレームにおいてビットストリーム21の1つまたは複数のレイヤにおいて指定されたチャネルの数が以前のフレームにおけるビットストリームの1つまたは複数のレイヤにおいて指定されたチャネルの数と比較して変化していないことを指示が示すときに、現在のフレームに関するレイヤのうちの1つまたは複数におけるチャネルの現在の数が以前のフレームのレイヤのうちの1つまたは複数におけるチャネルの以前の数と同じであることの指示を取得し得る。
[0209]レイヤおよび成分(本開示では「チャネル」と呼ばれることもある)の数の様々な指示のシグナリングを潜在的に低減し得る上記の技法を可能にするために、スケーラブル抽出ユニット1012は、NumChannels_PrevFrame[i]シンタックス要素を、現在のフレームに関する指示(たとえば、NumChannels[i]シンタックス要素)に設定し、i個のレイヤすべてを通じて繰り返し得る。これは、以下のシンタックスにおいて表される。
[0210]代替的に、上記のシンタックス(NumLayersPrevFrame=NumLayersなど)は省略されてよく、上記に記載されたシンタックス表HOADecoderConfig(numHOATransportChannels)は、以下の表に記載されるように更新され得る。
[0211]また別の代替として、抽出ユニット72は、上記に記載された第3のHOADecoder Configに従って動作し得る。上記に記載された第3のHOADecoder Configシンタックス表によれば、スケーラブル抽出ユニット1012は、スケーラブルビットストリーム21から、ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルの数の指示を取得し、(音場のバックグラウンド成分またはフォアグラウンド成分を指し得る)チャネルの数の指示に基づいて、ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルを取得するように構成され得る。これらの事例および他の事例では、スケーラブル抽出ユニット1012は、チャネルの数を示すシンタックス要素(たとえば、上記の表におけるcodedLayerCh)を取得するように構成され得る。
[0212]これらの事例および他の事例では、スケーラブル抽出ユニット1012は、ビットストリームにおいて指定されたチャネルの総数の指示を取得するように構成され得る。スケーラブル抽出ユニット1012はまた、1つまたは複数のレイヤにおいて指定されたチャネルの数の指示およびチャネルの総数の指示に基づいて、1つまたは複数のレイヤにおいて指定されたチャネルを取得するように構成され得る。これらの事例および他の事例では、スケーラブル抽出ユニット1012は、チャネルの総数を示すシンタックス要素(たとえば、上述のNumHOATransportChannelsシンタックス要素)を取得するように構成され得る。
[0213]これらの事例および他の事例では、スケーラブル抽出ユニット1012は、ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルのうちの1つの指示タイプを取得するように構成され得る。スケーラブル抽出ユニット1012はまた、レイヤの数の指示およびチャネルのうちの1つのタイプの指示に基づいて、チャネルのうちの1つを取得するように構成され得る。
[0214]これらの事例および他の事例では、スケーラブル抽出ユニット1012は、ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルのうちの1つの指示タイプを取得するように構成され得、チャネルのうちの1つのタイプの指示が、チャネルのうちの1つがフォアグラウンドチャネルであることを示す。スケーラブル抽出ユニット1012は、レイヤの数の指示およびチャネルのうちの1つのタイプがフォアグラウンドチャネルであることの指示に基づいて、チャネルのうちの1つを取得するように構成され得る。これらの事例では、チャネルのうちの1つは、USオーディオオブジェクトと対応するVベクトルとを備える。
[0215]これらの事例および他の事例では、スケーラブル抽出ユニット1012は、ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルのうちの1つの指示タイプを取得するように構成され得、チャネルのうちの1つのタイプの指示が、チャネルのうちの1つがバックグラウンドチャネルであることを示す。これらの事例では、スケーラブル抽出ユニット1012はまた、レイヤの数の指示およびチャネルのうちの1つのタイプがバックグラウンドチャネルであることの指示に基づいて、チャネルのうちの1つを取得するように構成され得る。これらの事例では、チャネルのうちの1つは、バックグラウンド高次アンビソニック係数を備える。
[0216]これらの事例および他の事例では、スケーラブル抽出ユニット1012は、チャネルのうちの1つのタイプを示すシンタックス要素(たとえば、図30に関して上記で説明されたChannelTypeシンタックス要素)を取得するように構成され得る。
[0217]これらの事例および他の事例では、スケーラブル抽出ユニット1012は、レイヤのうちの1つが取得された後のビットストリームにおいて残存するチャネルの数に基づいて、チャネルの数の指示を取得するように構成され得る。すなわち、HOALayerChBitsシンタックス要素の値は、whileループの過程全体を通して上記のシンタックス表に記載されたようなremainingChシンタックス要素に応じて変わる。スケーラブル抽出ユニット1012は次いで、変化するHOALayerChBitsシンタックス要素に基づいて、codedLayerChシンタックス要素を解析し得る。
[0218]4つのバックグラウンドチャネルおよび2つのフォアグラウンドチャネルの例に戻ると、スケーラブル抽出ユニット1012は、レイヤの数が2、すなわち、図6の例ではベースレイヤ21Aおよびエンハンスメントレイヤ21Bであることの指示を受信し得る。スケーラブル抽出ユニット1012は、フォアグラウンドチャネルの数が、(たとえば、NumFGchannels[0]から)ベースレイヤ21Aに関して0、(たとえば、NumFGchannels[1]から)エンハンスメントレイヤ21Bに関して2であることの指示を取得し得る。スケーラブル抽出ユニット1012はまた、この例では、バックグラウンドチャネルの数が、(たとえば、NumBGchannels[0]から)ベースレイヤ21Aに関して4、(たとえば、NumBGchannels[1]から)エンハンスメントレイヤ21Bに関して0であることの指示を取得し得る。特定の例に関して説明されたが、バックグラウンドチャネルとフォアグラウンドチャネルとの任意の異なる組合せが示され得る。スケーラブル抽出ユニット1012は次いで、ベースレイヤ21Aからの指定された4つのバックグラウンドチャネル59A〜59Dと、エンハンスメントレイヤ21Bからの2つのフォアグラウンドチャネル61Aおよび61Bとを(サイドバンド情報からの対応するVベクトル情報57Aおよび57Bとともに)抽出し得る。
[0219]NumFGchannelsシンタックス要素およびNumBGchannelsシンタックス要素に関して上記で説明されたが、本技法はまた、上記のChannelSideInfoシンタックス表からのChannelTypeシンタックス要素を使用して実行され得る。この点において、NumFGchannelsおよびNumBG channelsはまた、チャネルのうちの1つのタイプの指示を表し得る。言い換えれば、NumBGchannelsは、チャネルのうちの1つのタイプがバックグラウンドチャネルであることの指示を表し得る。NumFGchannelsは、チャネルのうちの1つのタイプがフォアグラウンドチャネルであることの指示を表し得る。
[0220]したがって、ChannelTypeシンタックス要素が使用されるか、NumBGchannelsシンタックス要素とともにNumFGchannelsシンタックス要素が使用されるか(または場合によっては両方が使用されるか、いずれかの何らかのサブセットが使用されるか)にかかわらず、スケーラブルビットストリーム抽出ユニット1012は、ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルのうちの1つのタイプの指示を取得し得る。スケーラブルビットストリーム抽出ユニット1012は、チャネルのうちの1つがバックグラウンドチャネルであることをタイプの指示が示すときに、レイヤの数の指示およびチャネルのうちの1つのタイプがバックグラウンドチャネルであることの指示に基づいて、チャネルのうちの1つを取得し得る。スケーラブルビットストリーム抽出ユニット1012は、チャネルのうちの1つがフォアグラウンドチャネルであることをタイプの指示が示すときに、レイヤの数の指示およびチャネルのうちの1つのタイプがフォアグラウンドチャネルであることの指示に基づいて、チャネルのうちの1つを取得し得る。
[0221]Vベクトル再構成ユニット74は、符号化されたフォアグラウンドV[k]ベクトル57からVベクトルを再構成するように構成されたユニットを表し得る。Vベクトル再構成ユニット74は、量子化ユニット52の場合とは逆の方法で動作することができる。
[0222]聴覚心理復号ユニット80は、符号化されたアンビエントHOA係数59と符号化されたnFG信号61とを復号し、それによって調整されたアンビエントHOAオーディオ信号67’と調整された補間されたnFG信号49’’(調整された補間されたnFGオーディオオブジェクト49’とも呼ばれ得る)とを生成するために、図3の例に示される聴覚心理オーディオコーダユニット40とは逆の方法で動作することができる。聴覚心理復号ユニット80は、調整されたアンビエントHOAオーディオ信号67’と調整された補間されたnFG信号49’’とを逆利得制御ユニット86に渡し得る。
[0223]逆利得制御ユニット86は、調整されたアンビエントHOAオーディオ信号67’および調整された補間されたnFG信号49’’の各々に関して逆利得制御を実行するように構成されたユニットを表し得、ここで、この逆利得制御は、利得制御ユニット62によって実行される利得制御とは逆である。逆利得制御ユニット86は、図11〜図13Bの例に関して上記で説明されたサイドバンド情報において指定された対応するHOAGCDに従って、逆利得制御を実行し得る。逆利得制御ユニット86は、無相関化されたアンビエントHOAオーディオ信号67を再相関化ユニット88(図4の例において「recorrユニット88」として示される)に、補間されたnFGオーディオ信号49’’をフォアグラウンド編成ユニット78に出力し得る。
[0224]再相関化ユニット88は、雑音マスキング解除(noise unmasking)を低減または軽減するために、無相関化されたアンビエントHOAオーディオ信号67のバックグラウンドチャネルの間の相関を低減するために本開示の技法を実装し得る。再相関化ユニット88が選択された再相関化変換としてUHJ行列(たとえば、逆UHJ行列)を適用する例では、再相関化ユニット81は、データ処理動作を低減することによって、圧縮レートを改善し、コンピューティングリソースを節約することができる。
[0225]いくつかの例では、スケーラブルビットストリーム21は、符号化中に無相関化変換が適用されたことを示す1つまたは複数のシンタックス要素を含み得る。そのようなシンタックス要素をベクトルベースのビットストリーム21に含めることは、再相関化ユニット88が、無相関化されたアンビエントHOAオーディオ信号67に対して相互(reciprocal)無相関化(たとえば、相関化または再相関化)変換を実行するのを可能にし得る。いくつかの例では、信号シンタックス要素は、UHJ行列またはモード行列など、どの無相関化変換が適用されたかを示し、それによって、再相関化ユニット88が無相関化されたアンビエントHOAオーディオ信号67に適用すべき適切な再相関化変換を選択するのを可能にすることができる。
[0226]再相関化ユニット88は、エネルギー補償されたアンビエントHOA係数47’を取得するために、無相関化されたアンビエントHOAオーディオ信号67に関して再相関化を実行し得る。再相関化ユニット88は、エネルギー補償されたアンビエントHOA係数47’をフェードユニット770に出力し得る。無相関化を実行するものとして説明されているが、いくつかの例では、無相関化が実行されていないことがある。したがって、ベクトルベース再構成ユニット92は、再相関化ユニット88を実行しないこと、またはいくつかの例では再相関化ユニット88を含まないことがある。いくつかの例で再相関化ユニット88が存在しないことは、再相関化ユニット88の破線によって示される。
[0227]空間時間的補間ユニット76は、空間時間的補間ユニット50に関して上記で説明された方法と同様の方法で動作し得る。空間時間的補間ユニット76は、低減されたフォアグラウンドV[k]ベクトル55kを受信し、また、補間されたフォアグラウンドV[k]ベクトル55k’’を生成するために、フォアグラウンドV[k]ベクトル55kおよび低減されたフォアグラウンドV[k−1]ベクトル55k-1に関して空間時間的補間を実行し得る。空間時間的補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55k’’をフェードユニット770に転送し得る。
[0228]抽出ユニット72はまた、いつアンビエントHOA係数のうちの1つが遷移中であるかを示す信号757をフェードユニット770に出力し得、フェードユニット770は、次いで、SCHBG47’(ここで、SCHBG47’は「アンビエントHOAチャネル47’」または「アンビエントHOA係数47’」と呼ばれることもある)および補間されたフォアグラウンドV[k]ベクトル55k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定し得る。いくつかの例では、フェードユニット770は、アンビエントHOA係数47’および補間されたフォアグラウンドV[k]ベクトル55k’’の要素の各々に関して、反対に動作し得る。すなわち、フェードユニット770は、アンビエントHOA係数47’のうちの対応する1つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を実行し得、一方で、補間されたフォアグラウンドV[k]ベクトル55k’’の要素のうちの対応する1つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行し得る。フェードユニット770は、調整されたアンビエントHOA係数47’’をHOA係数編成ユニット82に出力し、調整されたフォアグラウンドV[k]ベクトル55k’’’をフォアグラウンド編成ユニット78に出力し得る。この点において、フェードユニット770は、HOA係数またはそれの派生物の様々な態様に関して、たとえば、アンビエントHOA係数47’および補間されたフォアグラウンドV[k]ベクトル55k’’の要素の形態で、フェード演算を実行するように構成されたユニットを表す。
[0229]フォアグラウンド編成ユニット78は、フォアグラウンドHOA係数65を生成するために、調整されたフォアグラウンドV[k]ベクトル55k’’’および補間されたnFG信号49’に関して行列乗算を実行するように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット78は、HOA係数11’のフォアグラウンド態様、または言い換えれば、支配的態様を再構成するために、(補間されたnFG信号49’を示すための別の方法である)オーディオオブジェクト49’をベクトル55k’’’と組み合わせ得る。フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55k’’’によって、補間されたnFG信号49’の行列乗算を実行し得る。
[0230]HOA係数編成ユニット82は、HOA係数11’を取得するために、フォアグラウンドHOA係数65を調整されたアンビエントHOA係数47’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、HOA係数11’がHOA係数11と同様であるが同じではないことがあることを反映している。HOA係数11とHOA係数11’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。
[0231]図14Aおよび図14Bは、本開示で説明される技法の様々な態様を実行する際のオーディオ符号化デバイス20の例示的な動作を示すフローチャートである。最初に図14Aの例を参照すると、オーディオ符号化デバイス20は、上記で説明された方法(たとえば、線形分解、補間など)で、HOA係数11の現在のフレームに関するチャネルを取得し得る(500)。チャネルは、符号化されたアンビエントHOA係数59、符号化されたnFG信号61(およびコーディングされたフォアグラウンドVベクトル57の形態による対応するサイドバンド)、または、符号化されたアンビエントHOA係数59と符号化されたnFG信号61(およびコーディングされたフォアグラウンドVベクトル57の形態による対応するサイドバンド)の両方を備え得る。
[0232]次いで、オーディオ符号化デバイス20のビットストリーム生成ユニット42は、上記で説明された方法でスケーラブルビットストリーム21におけるレイヤの数の指示を指定し得る(502)。ビットストリーム生成ユニット42は、スケーラブルビットストリーム21の現在のレイヤにおけるチャネルのサブセットを指定し得る(504)。ビットストリーム生成ユニット42は、現在のレイヤのためのカウンタを維持し得、ここでカウンタが現在のレイヤの指示を提供する。現在のレイヤにおけるチャネルを指定した後、ビットストリーム生成ユニット42は、カウンタを増分し得る。
[0233]次いでビットストリーム生成ユニット42は、現在のレイヤ(たとえば、カウンタ)が、ビットストリームにおいて指定されたレイヤの数よりも大きいかどうかを決定し得る(506)。現在のレイヤがレイヤの数よりも大きくない(「NO」506)とき、ビットストリーム生成ユニット42は、(カウンタが増分されたときに変化した)現在のレイヤにおけるチャネルの異なるサブセットを指定し得る(504)。ビットストリーム生成ユニット42は、現在のレイヤがレイヤの数よりも大きくなる(「YES」506)まで、この方法で継続し得る。現在のレイヤがレイヤの数よりも大きい(「YES」506)とき、ビットストリーム生成ユニットは、現在のフレームが以前のフレームになることに伴って次のフレームに進み、スケーラブルビットストリーム21の今現在のフレームに関するチャネルを取得することができる(500)。プロセスは、HOA係数11の最後のフレームに到達するまで継続し得る(500〜506)。上述のように、いくつかの例では、レイヤの数の指示は、スケーラブルビットストリーム21において明示的に示されないが、(たとえば、レイヤの数が、以前のフレームから現在のフレームまでで変化していないときに)暗黙的に指定されることがある。
[0234]次に図14Bの例を参照すると、オーディオ符号化デバイス20は、上記で説明された方法(たとえば、線形分解、補間など)でHOA係数11の現在のフレームに関するチャネルを取得し得る(510)。チャネルは、符号化されたアンビエントHOA係数59、符号化されたnFG信号61(およびコーディングされたフォアグラウンドVベクトル57の形態による対応するサイドバンド)、または符号化されたアンビエントHOA係数59と符号化されたnFG信号61(およびコーディングされたフォアグラウンドVベクトル57の形態による対応するサイドバンド)の両方を備え得る。
[0235]次いで、オーディオ符号化デバイス20のビットストリーム生成ユニット42は、上記で説明された方法でスケーラブルビットストリーム21のレイヤにおけるチャネルの数の指示を指定し得る(512)。ビットストリーム生成ユニット42は、スケーラブルビットストリーム21の現在のレイヤにおける対応するチャネルを指定し得る(514)。
[0236]次いでビットストリーム生成ユニット42は、現在のレイヤ(たとえば、カウンタ)がレイヤの数よりも大きいかどうかを決定し得る(516)。すなわち、図14Bの例では、レイヤの数は(スケーラブルビットストリーム21において指定されるのではなく)静的または固定的であり得る一方、レイヤごとのチャネルの数は、チャネルの数が静的または固定的であってシグナリングされなくてよい図14Aの例とは異なり、指定され得る。ビットストリーム生成ユニット42は依然として、現在のレイヤを示すカウンタを維持し得る。
[0237](カウンタによって示される)現在のレイヤがレイヤの数よりも大きくない(「NO」516)とき、ビットストリーム生成ユニット42は、(カウンタの増分に起因して変化した)今現在のレイヤに対するスケーラブルビットストリーム21の別のレイヤにおけるチャネルの数の別の指示を指定し得る(512)。ビットストリーム生成ユニット42はまた、ビットストリーム21の追加レイヤにおけるチャネルの対応する数を指定し得る(514)。ビットストリーム生成ユニット42は、現在のレイヤがレイヤの数よりも大きくなる(「YES」516)まで、この方法で継続し得る。現在のレイヤがレイヤの数よりも大きい(「YES」516)とき、ビットストリーム生成ユニットは、現在のフレームが以前のフレームになることに伴って次のフレームに進み、スケーラブルビットストリーム21の今現在のフレームに関するチャネルを取得することができる(510)。プロセスは、HOA係数11の最後のフレームに到達するまで継続し得る(510〜516)。
[0238]上述のように、いくつかの例では、チャネルの数の指示は、スケーラブルビットストリーム21において明示的に示されないが、(たとえば、レイヤの数が、以前のフレームから現在のフレームまでで変化していないときに)暗黙的に指定されることがある。その上、別個のプロセスとして説明されているが、図14Aおよび図14Bに関して説明された技法は、上記で説明された方法において組み合わせて実行されてよい。
[0239]図15Aおよび図15Bは、本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイス24の例示的な動作を示すフローチャートである。最初に図15Aの例を参照すると、オーディオ復号デバイス24は、スケーラブルビットストリーム21から現在のフレームを取得し得る(520)。現在のフレームは1つまたは複数のレイヤを含み得、レイヤの各々が1つまたは複数のチャネルを含み得る。チャネルは、符号化されたアンビエントHOA係数59、符号化されたnFG信号61(およびコーディングされたフォアグラウンドVベクトル57の形態による対応するサイドバンド)、または符号化されたアンビエントHOA係数59と符号化されたnFG信号61(およびコーディングされたフォアグラウンドVベクトル57の形態による対応するサイドバンド)の両方を備え得る。
[0240]次いで、オーディオ復号デバイス24の抽出ユニット72は、上記で説明された方法でスケーラブルビットストリーム21の現在のフレームにおけるレイヤの数の指示を取得し得る(522)。抽出ユニット72は、スケーラブルビットストリーム21の現在のレイヤにおけるチャネルのサブセットを取得し得る(524)。抽出ユニット72は、現在のレイヤのためのカウンタを維持し得、ここでカウンタが現在のレイヤの指示を提供する。現在のレイヤにおけるチャネルを指定した後、抽出ユニット72は、カウンタを増分し得る。
[0241]次いで抽出ユニット72は、現在のレイヤ(たとえば、カウンタ)が、ビットストリームにおいて指定されたレイヤの数よりも大きいかどうかを決定し得る(526)。現在のレイヤがレイヤの数よりも大きくない(「NO」526)とき、抽出ユニット72は、(カウンタが増分されたときに変化した)現在のレイヤにおけるチャネルの異なるサブセットを取得し得る(524)。抽出ユニット72は、現在のレイヤがレイヤの数よりも大きくなる(「YES」526)まで、この方法で継続し得る。現在のレイヤがレイヤの数よりも大きい(「YES」526)とき、抽出ユニット72は、現在のフレームが以前のフレームになることに伴って次のフレームに進み、スケーラブルビットストリーム21の今現在のフレームを取得することができる(520)。プロセスは、スケーラブルビットストリーム21の最後のフレームに到達するまで継続し得る(520〜526)。上述のように、いくつかの例では、レイヤの数の指示は、スケーラブルビットストリーム21において明示的に示されないが、(たとえば、レイヤの数が、以前のフレームから現在のフレームまでで変化していないときに)暗黙的に指定されることがある。
[0242]次に図15Bの例を参照すると、オーディオ復号デバイス24は、スケーラブルビットストリーム21から現在のフレームを取得し得る(530)。現在のフレームは1つまたは複数のレイヤを含み得、レイヤの各々が1つまたは複数のチャネルを含み得る。チャネルは、符号化されたアンビエントHOA係数59、符号化されたnFG信号61(およびコーディングされたフォアグラウンドVベクトル57の形態による対応するサイドバンド)、または符号化されたアンビエントHOA係数59と符号化されたnFG信号61(およびコーディングされたフォアグラウンドVベクトル57の形態による対応するサイドバンド)の両方を備え得る。
[0243]次いで、オーディオ復号デバイス24の抽出ユニット72は、上記で説明された方法でスケーラブルビットストリーム21のレイヤにおけるチャネルの数の指示を取得し得る(532)。ビットストリーム生成ユニット42は、スケーラブルビットストリーム21の現在のレイヤからチャネルの対応する数を取得し得る(534)。
[0244]次いで抽出ユニット72は、現在のレイヤ(たとえば、カウンタ)がレイヤの数よりも大きいかどうかを決定し得る(536)。すなわち、図15Bの例では、レイヤの数は(スケーラブルビットストリーム21において指定されるのではなく)静的または固定的であり得る一方、レイヤごとのチャネルの数は、チャネルの数が静的または固定的であってシグナリングされなくてよい図15Aの例とは異なり、指定され得る。抽出ユニット72は依然として、現在のレイヤを示すカウンタを維持し得る。
[0245](カウンタによって示される)現在のレイヤがレイヤの数よりも大きくない(「NO」536)とき、抽出ユニット72は、(カウンタの増分に起因して変化した)今現在のレイヤに対するスケーラブルビットストリーム21の別のレイヤにおけるチャネルの数の別の指示を取得し得る(532)。抽出ユニット72はまた、ビットストリーム21の追加レイヤにおけるチャネルの対応する数を指定し得る(514)。抽出ユニット72は、現在のレイヤがレイヤの数よりも大きくなる(「YES」516)まで、この方法で継続し得る。現在のレイヤがレイヤの数よりも大きい(「YES」516)とき、ビットストリーム生成ユニットは、現在のフレームが以前のフレームになることに伴って次のフレームに進み、スケーラブルビットストリーム21の今現在のフレームに関するチャネルを取得することができる(510)。プロセスは、HOA係数11の最後のフレームに到達するまで継続し得る(510〜516)。
[0246]上述のように、いくつかの例では、チャネルの数の指示は、スケーラブルビットストリーム21において明示的に示されないが、(たとえば、レイヤの数が、以前のフレームから現在のフレームまでで変化していないときに)暗黙的に指定されることがある。その上、別個のプロセスとして説明されているが、図15Aおよび図15Bに関して説明された技法は、上記で説明された方法において組み合わせて実行されてよい。
[0247]図16は、本開示で説明される技法の様々な態様による、図16の例に示されるビットストリーム生成ユニット42によって実行されるスケーラブルオーディオコーディングを示す図である。図16の例では、図2および図3の例に示されるオーディオ符号化デバイス20などのHOAオーディオエンコーダが、HOA係数11(「HOA信号11」と呼ばれることもある)を符号化し得る。HOA信号11は、24個のチャネルを備え、各チャネルが1024個のサンプルを有する。前述のように、各チャネルは、1024個のサンプルを含み、これらは、球面基底関数のうちの1つに対応する1024個のHOA係数を指し得る。オーディオ符号化デバイス20は、図5の例に示されるビットストリーム生成ユニット42に関して上記で説明されたように、符号化されたアンビエントHOA係数59(「バックグラウンドHOAチャネル59」と呼ばれることもある)をHOA信号11から取得するための様々な動作を実行し得る。
[0248]図16の例にさらに示されているように、オーディオ符号化デバイス20は、HOA信号11の最初の4つのチャネルとして、バックグラウンドHOAチャネル59を取得する。バックグラウンドHOAチャネル59は、
として示され、ここで1:4は、音場のバックグラウンド成分を表すようにHOA信号11の最初の4つのチャネルが選択されたことを反映する。このチャネル選択は、シンタックス要素においてB=4としてシグナリングされ得る。次いで、オーディオ符号化デバイス20のスケーラブルビットストリーム生成ユニット1000は、ベースレイヤ21A(2つ以上のレイヤのうちの第1のレイヤと呼ばれることがある)におけるHOAバックグラウンドチャネル59を指定し得る。
[0249]スケーラブルビットストリーム生成ユニット1000は、以下の式に従って指定されたようにバックグラウンドチャネル59と利得情報とを含むようにベースレイヤ21Aを生成し得る。
[0250]図16の例にさらに示されているように、オーディオ符号化デバイス20は、USオーディオオブジェクトおよび対応するVベクトルとして表され得る、F個のフォアグラウンドHOAチャネルを取得し得る。説明の目的で、F=2と仮定される。したがって、オーディオ符号化デバイス20は、第1および第2のUSオーディオオブジェクト61(「符号化されたnFG信号61」と呼ばれることもある)と第1および第2のVベクトル57(「コーディングされたフォアグラウンドV[k]ベクトル57」と呼ばれることもある)とを選択し得、ここで選択は、図5の例においてそれぞれUS1:2およびV1:2として示される。次いでスケーラブルビットストリーム生成ユニット1000は、第1および第2のUSオーディオオブジェクト61と第1および第2のVベクトル57とを含むように、スケーラブルビットストリーム21の第2のレイヤ21Bを生成し得る。
[0251]スケーラブルビットストリーム生成ユニット1000はまた、以下の式に従って指定されたようにVベクトル57とともにフォアグラウンドチャネル61と利得情報とを含むようにエンハンスメントレイヤ21Bを生成し得る。
[0252]スケーラブルビットストリーム21’からHOA係数11’を取得するために、図2および図3の例に示されるオーディオ復号デバイス24は、図6の例においてより詳細に示される抽出ユニット72を呼び出し得る。図6に関して上記で説明された方法で、符号化されたアンビエントHOA係数59A〜59Dと、符号化されたnFG信号61Aおよび61Bと、コーディングされたフォアグラウンドV[k]ベクトル57Aおよび57Bとを抽出し得る抽出ユニット72。次いで抽出ユニット72は、符号化されたアンビエントHOA係数59A〜59Dと、符号化されたnFG信号61Aおよび61Bと、コーディングされたフォアグラウンドV[k]ベクトル57Aおよび57Bとをベクトルベース復号ユニット92に出力し得る。
[0253]次いでベクトルベース復号ユニット92は、以下の式に従ってUSオーディオオブジェクト61をVベクトル57と乗算し得る。
第1の式は、Fに関する一般的な演算の数式を提供する。第2の式は、Fが2に等しいと仮定される例における数式を提供する。この乗算の結果は、フォアグラウンドHOA信号1020として示されている。次いでベクトルベース復号ユニット92は、(最も低い4つの係数がHOAバックグラウンドチャネル59としてすでに選択されたことを仮定した場合に)より高いチャネルを選択し、ここで、これらのより高いチャネルは以下のように示される。
ベクトルベース復号ユニット92は、言い換えれば、フォアグラウンドHOA信号1020からHOAフォアグラウンドチャネル65を取得する。
[0254]結果として、本技法は、(静的な数のレイヤを必要とするのとは反対に)可変階層化を容易にして、多数のコーディングコンテキストに対応し、場合により、音場のバックグラウンド成分およびフォアグラウンド成分を指定する際の柔軟性を格段に高めることができる。本技法は、図17〜図26に関して説明されるように、多くの他の使用事例をもたらし得る。これらの様々な使用事例は、別個にまたは一緒に所与のオーディオストリーム内で実行され得る。その上、スケーラブルオーディオ符号化技法内でこれらの成分を指定する際の柔軟性は、さらに多くの使用事例を可能にし得る。言い換えれば、本技法は、以下で説明される使用事例に限定されるべきではなく、バックグラウンド成分およびフォアグラウンド成分がスケーラブルビットストリームの1つまたは複数のレイヤにおいてシグナリングされ得る任意の方法を含み得る。
[0255]図17は、2つのレイヤがあり、ベースレイヤにおいて4つの符号化されたアンビエントHOA係数が指定され、エンハンスメントレイヤにおいて2つの符号化されたnFG信号が指定されることをシンタックス要素が示す一例の概念図である。図17の例はHOAフレームを示しており、図5の例に示されるスケーラブルビットストリーム生成ユニット1000が、符号化されたアンビエントHOA係数59A〜59Dに関するサイドバンドHOA利得補正データを含むベースレイヤを形成するために、フレームを区分し得る。スケーラブルビットストリーム生成ユニット1000はまた、2つのコーディングされたフォアグラウンドV[k]ベクトル57と符号化されたアンビエントnFG信号61に関するHOA利得補正データとを含むエンハンスメントレイヤ21を形成するHOAフレームを区分し得る。
[0256]図17の例にさらに示されているように、聴覚心理オーディオ符号化ユニット40は、ベースレイヤ時間的エンコーダ40Aと呼ばれることがある聴覚心理オーディオエンコーダ40Aおよびエンハンスメントレイヤ時間的エンコーダ40Bと呼ばれることがある聴覚心理オーディオエンコーダ40Bの別個のインスタンス化に分割されるものとして示されている。ベースレイヤ時間的エンコーダ40Aは、ベースレイヤの4つの成分を処理する聴覚心理オーディオエンコーダの4つのインスタンス化を表す。エンハンスメントレイヤ時間的エンコーダ40Bは、エンハンスメントレイヤの2つの成分を処理する聴覚心理オーディオエンコーダの2つのインスタンス化を表す。
[0257]図18は、本開示で説明されるスケーラブルオーディオコーディング技法の潜在的バージョンのうちの第2のものを実行するように構成されるときの図3のビットストリーム生成ユニット42をより詳細に示す図である。この例では、ビットストリーム生成ユニット42は、図5の例に関して上記で説明されたビットストリーム生成ユニット42と実質的に同様である。ただし、ビットストリーム生成ユニット42は、2つのレイヤ21Aおよび21Bではなく3つのレイヤ21A〜21Cを指定するために、スケーラブルコーディング技法の第2のバージョンを実行する。スケーラブルビットストリーム生成ユニット1000は、ベースレイヤ21Aにおいて2つの符号化されたアンビエントHOA係数および0個の符号化されたnFG信号が指定されることの指示と、第1のエンハンスメントレイヤ21Bにおいて0個の符号化されたアンビエントHOA係数および2つの符号化されたnFG信号が指定されることの指示と、第2のエンハンスメントレイヤ21Cにおいて0個の符号化されたアンビエントHOA係数および2つの符号化されたnFG信号61が指定されることの指示とを指定し得る。次いでスケーラブルビットストリーム生成ユニット1000は、ベースレイヤ21Aにおける2つの符号化されたアンビエントHOA係数59Aおよび59Bと、第1のエンハンスメントレイヤ21Bにおける2つの符号化されたnFG信号61Aおよび61Bならびに対応する2つのコーディングされたフォアグラウンドV[k]ベクトル57Aおよび57Bと、第2のエンハンスメントレイヤ21Cにおける2つの符号化されたnFG信号61Cおよび61Dならびに対応する2つのコーディングされたフォアグラウンドV[k]ベクトル57Cおよび57Dとを指定し得る。次いでスケーラブルビットストリーム生成ユニット1000は、スケーラブルビットストリーム21としてこれらのレイヤ21を出力し得る。
[0258]図19は、本開示で説明される潜在的バージョンスケーラブルオーディオ復号技法のうちの第2のものを実行するように構成されるときの図3の抽出ユニット72をより詳細に示す図である。この例では、ビットストリーム抽出ユニット72は、図6の例に関して上記で説明されたビットストリーム抽出ユニット72と実質的に同様である。ただし、ビットストリーム抽出ユニット72は、2つのレイヤ21Aおよび21Bではなく3つのレイヤ21A〜21Cに関して、スケーラブルコーディング技法の第2のバージョンを実行する。スケーラブルビットストリーム抽出ユニット1012は、ベースレイヤ21Aにおいて2つの符号化されたアンビエントHOA係数および0個の符号化されたnFG信号が指定されることの指示と、第1のエンハンスメントレイヤ21Bにおいて0個の符号化されたアンビエントHOA係数および2つの符号化されたnFG信号が指定されることの指示と、第2のエンハンスメントレイヤ21Cにおいて0個の符号化されたアンビエントHOA係数および2つの符号化されたnFG信号が指定されることの指示とを取得し得る。次いでスケーラブルビットストリーム抽出ユニット1012は、ベースレイヤ21Aからの2つの符号化されたアンビエントHOA係数59Aおよび59Bと、第1のエンハンスメントレイヤ21Bからの2つの符号化されたnFG信号61Aおよび61Bならびに対応する2つのコーディングされたフォアグラウンドV[k]ベクトル57Aおよび57Bと、第2のエンハンスメントレイヤ21Cからの2つの符号化されたnFG信号61Cおよび61Dならびに対応する2つのコーディングされたフォアグラウンドV[k]ベクトル57Cおよび57Dとを取得し得る。スケーラブルビットストリーム抽出ユニット1012は、符号化されたアンビエントHOA係数59と、符号化されたnFG信号61と、コーディングされたフォアグラウンドV[k]ベクトル57とを、ベクトルベース復号ユニット92に出力し得る。
[0259]図20は、図18のビットストリーム生成ユニットおよび図19の抽出ユニットが、本開示で説明される技法の潜在的バージョンのうちの第2のものを実行し得る、第2の使用事例を示す図である。たとえば、図18の例に示されるビットストリーム生成ユニット42は、スケーラブルビットストリーム21において指定されたレイヤの数が3であることを示すために、NumLayer(理解しやすいように「NumberOfLayers」として示される)シンタックス要素を指定し得る。ビットストリーム生成ユニット42はさらに、第1のレイヤ21A(「ベースレイヤ」とも呼ばれる)において指定されたバックグラウンドチャネルの数が2である一方、第1のレイヤ21Bにおいて指定されたフォアグラウンドチャネルの数が0である(すなわち、図20の例ではB1=2、F1=0)ことを指定し得る。ビットストリーム生成ユニット42はさらに、第2のレイヤ21B(「エンハンスメントレイヤ」とも呼ばれる)において指定されたバックグラウンドチャネルの数が0である一方、第2のレイヤ21Bにおいて指定されたフォアグラウンドチャネルの数が2である(すなわち、図20の例ではB2=0、F2=2)ことを指定し得る。ビットストリーム生成ユニット42はさらに、第2のレイヤ21C(「エンハンスメントレイヤ」とも呼ばれる)において指定されたバックグラウンドチャネルの数が0である一方、第2のレイヤ21Cにおいて指定されたフォアグラウンドチャネルの数が2である(すなわち、図20の例ではB3=0、F3=2)ことを指定し得る。ただし、フォアグラウンドチャネルおよびバックグラウンドチャネルの総数が(たとえば、totalNumBGchannelsおよびtotalNumFGchannelsなどの追加シンタックス要素によって)デコーダにおいてすでに知られているときに、オーディオ符号化デバイス20は必ずしも、第3のレイヤバックグラウンドおよびフォアグラウンドチャネル情報をシグナリングしなくてもよい。
[0260]ビットストリーム生成ユニット42は、これらのB1およびF1値をNumBGchannels[i]およびNumFGchannels[i]として指定し得る。上記の例では、オーディオ符号化デバイス20は、NumBGchannelsシンタックス要素を{2,0,0}として、NumFGchannelsシンタックス要素を{0,2,2}として指定し得る。ビットストリーム生成ユニット42はまた、スケーラブルビットストリーム21におけるバックグラウンドHOAオーディオチャネル59と、フォアグラウンドHOAチャネル61と、Vベクトル57とを指定し得る。
[0261]図2および図4の例に示されるオーディオ復号デバイス24は、図19のビットストリーム抽出ユニット72に関して上記で説明されたように、(たとえば、上記のHOADecoderConfigシンタックス表に記載されているように)ビットストリームからシンタックス要素を解析するために、オーディオ符号化デバイス20の場合とは逆の方法で動作し得る。オーディオ復号デバイス24はまた、同じく図19のビットストリーム抽出ユニット72に関して上記で説明されたように、解析されたシンタックス要素に従って、ビットストリーム21から、対応するバックグラウンドHOAオーディオチャネル1002およびフォアグラウンドHOAチャネル1010を解析し得る。
[0262]図21は、3つのレイヤがあり、ベースレイヤにおいて2つの符号化されたアンビエントHOA係数が指定され、第1のエンハンスメントレイヤにおいて2つの符号化されたnFG信号が指定され、第2のエンハンスメントレイヤにおいて2つの符号化されたnFG信号が指定されることをシンタックス要素が示す一例の概念図である。図21の例はHOAフレームを示しており、図18の例に示されるスケーラブルビットストリーム生成ユニット1000が、符号化されたアンビエントHOA係数59Aおよび59Bに関するサイドバンドHOA利得補正データを含むベースレイヤを形成するために、フレームを区分し得る。スケーラブルビットストリーム生成ユニット1000はまた、2つのコーディングされたフォアグラウンドV[k]ベクトル57と符号化されたアンビエントnFG信号61に関するHOA利得補正データとを含むエンハンスメントレイヤ21Bと、2つの追加のコーディングされたフォアグラウンドV[k]ベクトル57と符号化されたアンビエントnFG信号61に関するHOA利得補正データとを含むエンハンスメントレイヤ21Cとを形成するHOAフレームを区分し得る。
[0263]図21の例にさらに示されているように、聴覚心理オーディオ符号化ユニット40は、ベースレイヤ時間的エンコーダ40Aと呼ばれることがある聴覚心理オーディオエンコーダ40Aおよびエンハンスメントレイヤ時間的エンコーダ40Bと呼ばれることがある聴覚心理オーディオエンコーダ40Bの別個のインスタンス化に分割されるものとして示されている。ベースレイヤ時間的エンコーダ40Aは、ベースレイヤの4つの成分を処理する聴覚心理オーディオエンコーダの2つのインスタンス化を表す。エンハンスメントレイヤ時間的エンコーダ40Bは、エンハンスメントレイヤの2つの成分を処理する聴覚心理オーディオエンコーダの4つのインスタンス化を表す。
[0264]図22は、本開示で説明されるスケーラブルオーディオコーディング技法の潜在的バージョンのうちの第3のものを実行するように構成されるときの図3のビットストリーム生成ユニット42をより詳細に示す図である。この例では、ビットストリーム生成ユニット42は、図18の例に関して上記で説明されたビットストリーム生成ユニット42と実質的に同様である。ただし、ビットストリーム生成ユニット42は、2つのレイヤ21Aおよび21Bではなく3つのレイヤ21A〜21Cを指定するために、スケーラブルコーディング技法の第3のバージョンを実行する。その上、スケーラブルビットストリーム生成ユニット1000は、ベースレイヤ21Aにおいて0個の符号化されたアンビエントHOA係数および2つの符号化されたnFG信号が指定されることの指示と、第1のエンハンスメントレイヤ21Bにおいて0個の符号化されたアンビエントHOA係数および2つの符号化されたnFG信号が指定されることの指示と、第2のエンハンスメントレイヤ21Cにおいて0個の符号化されたアンビエントHOA係数および2つの符号化されたnFG信号が指定されることの指示とを指定し得る。次いでスケーラブルビットストリーム生成ユニット1000は、ベースレイヤ21Aにおける2つの符号化されたnFG信号61Aおよび61Bならびに対応する2つのコーディングされたフォアグラウンドV[k]ベクトル57Aおよび57Bと、第1のエンハンスメントレイヤ21Bにおける2つの符号化されたnFG信号61Cおよび61Dならびに対応する2つのコーディングされたフォアグラウンドV[k]ベクトル57Cおよび57Dと、第2のエンハンスメントレイヤ21Cにおける2つの符号化されたnFG信号61Eおよび61Fならびに対応する2つのコーディングされたフォアグラウンドV[k]ベクトル57Eおよび57Fとを指定し得る。次いでスケーラブルビットストリーム生成ユニット1000は、スケーラブルビットストリーム21としてこれらのレイヤ21を出力し得る。
[0265]図23は、本開示で説明される潜在的バージョンスケーラブルオーディオ復号技法のうちの第3のものを実行するように構成されるときの図4の抽出ユニット72をより詳細に示す図である。この例では、ビットストリーム抽出ユニット72は、図19の例に関して上記で説明されたビットストリーム抽出ユニット72と実質的に同様である。ただし、ビットストリーム抽出ユニット72は、2つのレイヤ21Aおよび21Bではなく3つのレイヤ21A〜21Cに関して、スケーラブルコーディング技法の第3のバージョンを実行する。その上、スケーラブルビットストリーム抽出ユニット1012は、ベースレイヤ21Aにおいて0個の符号化されたアンビエントHOA係数および2つの符号化されたnFG信号が指定されることの指示と、第1のエンハンスメントレイヤ21Bにおいて0個の符号化されたアンビエントHOA係数および2つの符号化されたnFG信号が指定されることの指示と、第2のエンハンスメントレイヤ21Cにおいて0個の符号化されたアンビエントHOA係数および2つの符号化されたnFG信号が指定されることの指示とを取得し得る。次いでスケーラブルビットストリーム抽出ユニット1012は、ベースレイヤ21Aからの2つの符号化されたnFG信号61Aおよび61Bならびに対応する2つのコーディングされたフォアグラウンドV[k]ベクトル57Aおよび57Bと、第1のエンハンスメントレイヤ21Bからの2つの符号化されたnFG信号61Cおよび61Dならびに対応する2つのコーディングされたフォアグラウンドV[k]ベクトル57Cおよび57Dと、第2のエンハンスメントレイヤ21Cからの2つの符号化されたnFG信号61Eおよび61Fならびに対応する2つのコーディングされたフォアグラウンドV[k]ベクトル57Eおよび57Fとを取得し得る。スケーラブルビットストリーム抽出ユニット1012は、符号化されたnFG信号61と、コーディングされたフォアグラウンドV[k]ベクトル57とを、ベクトルベース復号ユニット92に出力し得る。
[0266]図24は、本開示で説明される技法による、オーディオ符号化デバイスがマルチレイヤビットストリームにおける複数のレイヤを指定し得る第3の使用事例を示す図である。たとえば、図22のビットストリーム生成ユニット42は、ビットストリーム21において指定されたレイヤの数が3であることを示すために、NumLayer(理解しやすいように「NumberOfLayers」として示される)シンタックス要素を指定し得る。ビットストリーム生成ユニット42はさらに、第1のレイヤ(「ベースレイヤ」とも呼ばれる)において指定されたバックグラウンドチャネルの数が0である一方、第1のレイヤにおいて指定されたフォアグラウンドチャネルの数が2である(すなわち、図24の例ではB1=0、F1=2)ことを指定し得る。言い換えれば、ベースレイヤはアンビエントHOA係数のトランスポートのみを常にもたらすとは限らず、支配的または言い換えるとフォアグラウンドHOAオーディオ信号の指定を可能にし得る。
[0267]これらの2つのフォアグラウンドオーディオチャネルは、符号化されたnFG信号61A/BおよびコーディングされたフォアグラウンドV[k]ベクトル57A/Bとして示されており、以下の式によって数学的に表され得る。
は、2つのフォアグラウンドオーディオチャネルを示し、これらは対応するVベクトル(V1およびV2)とともに第1および第2のオーディオオブジェクト(US1およびUS2)によって表され得る。
[0268]ビットストリーム生成デバイス42はさらに、第2のレイヤ(「エンハンスメントレイヤ」とも呼ばれる)において指定されたバックグラウンドチャネルの数が0である一方、第2のレイヤにおいて指定されたフォアグラウンドチャネルの数が2である(すなわち、図24の例ではB2=0、F2=2)ことを指定し得る。これらの2つのフォーグラウンドオーディオチャネルは、符号化されたnFG信号61C/DおよびコーディングされたフォアグラウンドV[k]ベクトル57C/Dとして示されており、以下の式によって数学的に表され得る。
は、2つのフォアグラウンドオーディオチャネルを示し、これらは対応するVベクトル(V3およびV4)とともに第3および第4のオーディオオブジェクト(US3およびUS4)によって表され得る。
[0269]さらに、ビットストリーム生成ユニット42は、第3のレイヤ(「エンハンスメントレイヤ」とも呼ばれる)において指定されたバックグラウンドチャネルの数が0である一方、第3のレイヤにおいて指定されたフォアグラウンドチャネルの数が2である(すなわち、図24の例ではB3=0、F3=2)ことを指定し得る。これらの2つのフォーグラウンドオーディオチャネルは、フォアグラウンドオーディオチャネル1024として示されており、以下の式によって数学的に表され得る。
は、2つのフォアグラウンドオーディオチャネル1024を示し、これらは対応するVベクトル(V5およびV6)とともに第5および第6のオーディオオブジェクト(US5およびUS6)によって表され得る。ただし、フォアグラウンドチャネルおよびバックグラウンドチャネルの総数が(たとえば、totalNumBGchannelsおよびtotalNumFGchannelsなどの追加シンタックス要素によって)デコーダにおいてすでに知られているときに、ビットストリーム生成ユニット42は必ずしも、この第3のレイヤバックグラウンドおよびフォアグラウンドチャネル情報をシグナリングしなくてもよい。だが、フォアグラウンドチャネルおよびバックグラウンドチャネルの総数が(たとえば、totalNumBGchannelsおよびtotalNumFGchannelsなどの追加シンタックス要素によって)デコーダにおいてすでに知られているときに、ビットストリーム生成ユニット42は、第3のレイヤバックグラウンドおよびフォアグラウンドチャネル情報をシグナリングしないことがある。
[0270]ビットストリーム生成ユニット42は、これらのB1およびF1値をNumBGchannels[i]およびNumFGchannels[i]として指定し得る。上記の例では、オーディオ符号化デバイス20は、NumBGchannelsシンタックス要素を{0,0,0}として、NumFGchannelsシンタックス要素を{2,2,2}として指定し得る。オーディオ符号化デバイス20はまた、ビットストリーム21においてフォアグラウンドHOAチャネル1020〜1024を指定し得る。
[0271]図2および図4の例に示されるオーディオ復号デバイス24は、(たとえば、上記のHOADecoderConfigシンタックス表に記載されているように)ビットストリームからこれらのシンタックス要素を、図23のビットストリーム抽出ユニット72に関して上記で説明されたように解析するために、オーディオ符号化デバイス20の場合とは逆の方法で動作し得る。オーディオ復号デバイス24はまた、同じく図23のビットストリーム抽出ユニット72に関して上記で説明されたように、解析されたシンタックス要素に従ってビットストリーム21から対応するフォアグラウンドHOAオーディオチャネル1020〜1024を解析し、フォアグラウンドHOAオーディオチャネル1020〜1024の合算を通じてHOA係数1026を再構成し得る。
[0272]図25は、3つのレイヤがあり、ベースレイヤにおいて2つの符号化されたnFG信号が指定され、第1のエンハンスメントレイヤにおいて2つの符号化されたnFG信号が指定され、第2のエンハンスメントレイヤにおいて2つの符号化されたnFG信号が指定されることをシンタックス要素が示す一例の概念図である。図25の例はHOAフレームを示しており、図22の例に示されるスケーラブルビットストリーム生成ユニット1000が、符号化されたnFG信号61Aおよび61Bに関するサイドバンドHOA利得補正データと2つのコーディングされたフォアグラウンドV[k]ベクトル57とを形成するために、フレームを区分し得る。スケーラブルビットストリーム生成ユニット1000はまた、2つのコーディングされたフォアグラウンドV[k]ベクトル57と符号化されたアンビエントnFG信号61に関するHOA利得補正データとを含むエンハンスメントレイヤ21Bと、2つの追加のコーディングされたフォアグラウンドV[k]ベクトル57と符号化されたアンビエントnFG信号61に関するHOA利得補正データとを含むエンハンスメントレイヤ21Cとを形成するために、HOAフレームを区分し得る。
[0273]図25の例にさらに示されているように、聴覚心理オーディオ符号化ユニット40は、ベースレイヤ時間的エンコーダ40Aと呼ばれることがある聴覚心理オーディオエンコーダ40Aおよびエンハンスメントレイヤ時間的エンコーダ40Bと呼ばれることがある聴覚心理オーディオエンコーダ40Bの別個のインスタンス化に分割されるものとして示されている。ベースレイヤ時間的エンコーダ40Aは、ベースレイヤの4つの成分を処理する聴覚心理オーディオエンコーダの2つのインスタンス化を表す。エンハンスメントレイヤ時間的エンコーダ40Bは、エンハンスメントレイヤの2つの成分を処理する聴覚心理オーディオエンコーダの4つのインスタンス化を表す。
[0274]図26は、本開示で説明される技法による、オーディオ符号化デバイスがマルチレイヤビットストリームにおける複数のレイヤを指定し得る第3の使用事例を示す図である。たとえば、図2および図3の例に示されるオーディオ符号化デバイス20は、ビットストリーム21において指定されたレイヤの数が4であることを示すために、NumLayer(理解しやすいように「NumberOfLayers」として示される)シンタックス要素を指定し得る。オーディオ符号化デバイス20はさらに、第1のレイヤ(「ベースレイヤ」とも呼ばれる)において指定されたバックグラウンドチャネルの数が1である一方、第1のレイヤにおいて指定されたフォアグラウンドチャネルの数が0である(すなわち、図26の例ではB1=1、F1=0)ことを指定し得る。
[0275]オーディオ符号化デバイス20はさらに、第2のレイヤ(「第1のエンハンスメントレイヤ」とも呼ばれる)において指定されたバックグラウンドチャネルの数が1である一方、第2のレイヤにおいて指定されたフォアグラウンドチャネルの数が0である(すなわち、図26の例ではB2=1、F2=0)ことを指定し得る。オーディオ符号化デバイス20はまた、第3のレイヤ(「第2のエンハンスメントレイヤ」とも呼ばれる)において指定されたバックグラウンドチャネルの数が1である一方、第3のレイヤにおいて指定されたフォアグラウンドチャネルの数が0である(すなわち、図26の例ではB3=1、F3=0)ことを指定し得る。さらに、オーディオ符号化デバイス20は、第4のレイヤ(「エンハンスメントレイヤ」とも呼ばれる)において指定されたバックグラウンドチャネルの数が1である一方、第3のレイヤにおいて指定されたフォアグラウンドチャネルの数が0である(すなわち、図26の例ではB4=1、F4=0)ことを指定し得る。ただし、フォアグラウンドチャネルおよびバックグラウンドチャネルの総数が(たとえば、totalNumBGchannelsおよびtotalNumFGchannelsなどの追加シンタックス要素によって)デコーダにおいてすでに知られているときに、オーディオ符号化デバイス20は必ずしも、第4のレイヤバックグラウンドおよびフォアグラウンドチャネル情報をシグナリングしなくてもよい。
[0276]オーディオ符号化デバイス20は、これらのB1およびF1値をNumBGchannels[i]およびNumFGchannels[i]として指定し得る。上記の例では、オーディオ符号化デバイス20は、NumBGchannelsシンタックス要素を{1,1,1,1}として、NumFGchannelsシンタックス要素を{0,0,0,0}として指定し得る。オーディオ符号化デバイス20はまた、ビットストリーム21におけるバックグラウンドHOAオーディオチャネル1030を指定し得る。この点において、本技法は、図7A〜図9Bの例に関して上記で説明されたように、ビットストリーム21のベースレイヤおよびエンハンスメントレイヤにおいて指定される前に無相関化されていることがある、アンビエントまたは言い換えればバックグラウンドHOAチャネル1030をエンハンスメントレイヤが指定することを可能にし得る。しかしながら、本開示に記載される技法は、必ずしも無相関化に限定されず、上記で説明された無相関化に関連するビットストリームにおけるシンタックス要素または任意の他の指示を提供しないことがある。
[0277]図2および図4の例に示されるオーディオ復号デバイス24は、(たとえば、上記のHOADecoderConfigシンタックス表に記載されているように)ビットストリームからこれらのシンタックス要素を解析するために、オーディオ符号化デバイス20の場合とは逆の方法で動作し得る。オーディオ復号デバイス24はまた、解析されたシンタックス要素に従ってビットストリーム21から対応するバックグラウンドHOAオーディオチャネル1030を解析し得る。
[0278]上述のように、いくつかの事例では、スケーラブルビットストリーム21は、非スケーラブルビットストリーム21に適合する様々なレイヤを含み得る。たとえば、スケーラブルビットストリーム21は、非スケーラブルビットストリーム21に適合するベースレイヤを含み得る。これらの事例では、非スケーラブルビットストリーム21は、スケーラブルビットストリーム21のサブビットストリームを表すことができ、ここで、この非スケーラブルビットストリーム21は、スケーラブルビットストリーム21の追加レイヤ(エンハンスメントレイヤと呼ばれる)により増強され得る。
[0279]図27および図28は、本開示で説明される技法の様々な態様を実行するように構成され得るスケーラブルビットストリーム生成ユニット42とスケーラブルビットストリーム抽出ユニット72とを示すブロック図である。図27の例では、スケーラブルビットストリーム生成ユニット42は、図3の例に関して上記で説明されたビットストリーム生成ユニット42の一例を表し得る。スケーラブルビットストリーム生成ユニット42は、非スケーラブルビットストリーム21に(スケーラブルコーディングをサポートしないオーディオデコーダによって復号されるためのシンタックスおよび能力の点で)適合するベースレイヤ21を出力し得る。スケーラブルビットストリーム生成ユニット42は、スケーラブルビットストリーム生成ユニット42が非スケーラブルビットストリーム生成ユニット1002を含まないことを除いて、上記のビットストリーム生成ユニット42のいずれかに関して上記で説明された方法で動作し得る。代わりに、スケーラブルビットストリーム生成ユニット42は、非スケーラブルビットストリームに適合するベースレイヤ21を出力し、そのため、別個の非スケーラブルビットストリーム生成ユニット1000を必要としない。図28の例では、スケーラブルビットストリーム抽出ユニット72は、スケーラブルビットストリーム生成ユニット42とは逆に動作し得る。
[0280]図29は、本開示で説明される技法の様々な態様に従って動作するように構成され得るエンコーダ900を表す概念図を表す。エンコーダ900は、オーディオ符号化デバイス20の別の例を表し得る。エンコーダ900は、空間的分解ユニット902と、無相関化ユニット904と、時間的符号化ユニット906とを含み得る。空間的分解ユニット902は、(上述のオーディオオブジェクトの形態による)ベクトルベースの支配的音声と、これらのベクトルベースの支配的音声に関連する対応するVベクトルと、水平方向アンビエントHOA係数903とを出力するように構成されたユニットを表し得る。音場内で時間とともに各オーディオオブジェクトが移動する中、オーディオオブジェクトのうちの対応する1つの方向と幅の両方をVベクトルが表す点で、空間的分解ユニット902は方向ベースの分解とは異なり得る。
[0281]空間的分解ユニット902は、図3の例に示されるベクトルベース合成ユニット27のユニット30〜38および44〜52を含み、全般的に、ユニット30〜38および44〜52に関して上記で説明された方法で動作し得る。空間的分解ユニット902が聴覚心理符号化を実行しなくても、または場合によっては聴覚心理コーダユニット40を含まなくてもよく、ビットストリーム生成ユニット42を含まなくてもよいという点で、空間的分解ユニット902はベクトルベース合成ユニット27とは異なり得る。その上、スケーラブルオーディオ符号化のコンテキストでは、空間的分解ユニット902は、水平方向アンビエントHOA係数903をパススルーし得る(これはいくつかの例では、これらの水平方向アンビエントHOA係数が修正または場合によっては調整されなくてよく、HOA係数901から解析されることを意味する)。
[0282]水平方向アンビエントHOA係数903は、音場の水平方向成分を表す(HOAオーディオデータ901と呼ばれることもある)HOA係数901のいずれかを指し得る。たとえば、水平方向アンビエントHOA係数903は、0の次数と0の副次数とを有する球面基底関数に関連するHOA係数と、1の次数とマイナス1の副次数とを有する球面基底関数に対応する高次アンビソニック係数と、1の次数と1の副次数とを有する球面基底関数に対応する第3の高次アンビソニック係数とを含み得る。
[0283]無相関化ユニット904は、高次アンビソニックオーディオデータ903(ここで、アンビエントHOA係数903が、このHOAオーディオデータの一例である)の2つ以上のレイヤのうちの第1のレイヤに関して、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を取得するために無相関化を実行するように構成されたユニットを表し得る。ベースレイヤ903は、図21〜図26に関して上記で説明された第1のレイヤ、ベースレイヤ、またはベースサブレイヤのいずれかと同様であり得る。無相関化ユニット904は、上述のUHJ行列またはモード行列を使用して無相関化を実行し得る。無相関化ユニット904はまた、係数の数を減らすのではなく第1のレイヤの無相関化された表現を取得するために回転が実行されることを除いて、2014年2月27日に出願された「TRANSFORMING SPHERICAL HARMONIC COEFFICIENTS」と題する米国出願第14/192,829号に説明されている方法と同様の方法で、回転などの変換を使用して無相関化を実行し得る。
[0284]言い換えれば、無相関化ユニット904は、120度(0方位角度(azimuthal degrees)/0仰角度(elevational degrees)、120方位角度/0仰角度、および240方位角度/0仰角度など)で分離された3つの異なる水平方向軸に沿ってアンビエントHOA係数903のエネルギーを整合(align)させるように、音場の回転を実行し得る。3つの水平方向軸とこれらのエネルギーを整合させることによって、無相関化ユニット904は、無相関化ユニット904が3つの無相関化オーディオチャネル905を効果的にレンダリングするために空間的変換を利用し得るように、エネルギーを互いに無相関化しようと試み得る。無相関化ユニット904は、0度、120度および240度の方位角で空間的オーディオ信号905を計算するために、この空間的変換を適用し得る。
[0285]0度、120度および240度の方位角に関して説明されるが、本技法は、円の360方位角度を均等またはほぼ均等に分割する任意の3つの方位角に適用され得る。たとえば、本技法はまた、60度、180度および300度の方位角で空間的オーディオ信号905を計算する変換に関して実行され得る。その上、3つのアンビエントHOA係数901に関して説明されるが、本技法はより一般的に、上記で説明されたものを含む任意の水平方向HOA係数、ならびに2の次数と2の副次数とを有する球面基底関数、2の次数とマイナス2の副次数とを有する球面基底関数、...、Xの次数とXの副次数とを有する球面基底関数、およびXの次数とマイナスXの副次数とを有する球面基底関数(ここでXが3、4、5、6などを含む任意の数を表し得る)に関連するものなどの任意の他の水平方向HOA係数に関して実行され得る。
[0286]水平方向HOA係数の数が増加するにつれて、360度の円の均等またはほぼ均等な部分の数が増加し得る。たとえば、水平方向HOA係数の数が増加して5になったとき、無相関化ユニット904は、円を(たとえば、それぞれ約72度の)5つの均等なパーティションに区分し得る。Xの水平方向HOA係数の数は、別の例として、各パーティションが360度/X度を有するX個の均等なパーティションを生じさせる。
[0287]無相関化ユニット904は、水平方向アンビエントHOA係数903によって表される音場を回転させる量を示す回転情報を識別するために、音場分析、コンテンツ特性分析、および/または空間的分析を実行し得る。これらの分析のうちの1つまたは複数に基づいて、無相関化ユニット904は、音場を水平方向に回転させる角度としての回転情報(または回転情報が一例である他の変換情報)を識別し、音場を回転させて、高次アンビソニックオーディオデータのベースレイヤの回転された表現(より一般的な変換された表現の一例である)を効果的に取得し得る。
[0288]次いで無相関化ユニット904は、高次アンビソニックオーディオデータのベースレイヤ903(2つ以上のレイヤのうちの第1のレイヤ903と呼ばれることもある)の回転された表現に空間的変換を適用し得る。空間的変換は、高次アンビソニックオーディオデータの2つ以上のレイヤのうちのベースレイヤの回転された表現を、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現を取得するために、球面調和領域から空間領域に変換し得る。第1のレイヤの無相関化表現は、上述のように0度、120度および240度の3つの対応する方位角でレンダリングされた空間的オーディオ信号905を含み得る。次いで無相関化ユニット904は、時間的符号化ユニット906に水平方向アンビエント空間的オーディオ信号905を渡し得る。
[0289]時間的符号化ユニット906は、聴覚心理オーディオコーディングを実行するように構成されたユニットを表し得る。時間的符号化ユニット906は、2つの例を提供するAACエンコーダまたはUnified Speech and Audio Coder(USAC)を表し得る。時間的符号化ユニット906などの時間的オーディオ符号化ユニットは通常、5.1スピーカーセットアップの6個のチャネル(これらの6個のチャネルが、無相関化されたチャネルにレンダリングされている)などの無相関化されたオーディオデータに関して動作し得る。しかしながら、水平方向アンビエントHOA係数903は性質上付加的(additive in nature)であり、それによって、ある点では相関する。何らかの形態の無相関化を最初に実行することなく、これらの水平方向アンビエントHOA係数903を時間的符号化ユニット906に直接提供することで、意図されていないロケーションに音声が現れる空間的雑音マスキング解除が生じ得る。空間的雑音マスキング解除などのこれらの知覚アーティファクトは、上記で説明された変換ベースの(またはより詳細には、図29の例では回転ベースの)無相関化を実行することによって低減され得る。
[0290]図30は、図27の例で示されるエンコーダ900をより詳細に示す図である。図30の例では、エンコーダ900は、HOA1次水平方向限定(first order horizontal-only)ベースレイヤ903を符号化するベースレイヤエンコーダ900を表し得、空間的分解ユニット902がこのパススルーの例ではベースレイヤ903を無相関化ユニット904の音場分析ユニット910および2次元(2D)回転ユニット912に提供する以外に重要な動作を実行しないので、エンコーダ900はこのユニット902を示していない。
[0291]すなわち、無相関化ユニット904は、音場分析ユニット910と2D回転ユニット912とを含む。音場分析ユニット910は、回転角パラメータ911を取得するために、より詳細に上記で説明された音場分析を実行するように構成されたユニットを表す。回転角パラメータ911は、回転情報の形態による変換情報の一例を表す。2D回転ユニット912は、回転角パラメータ911に基づいて、音場のZ軸の周りで水平方向回転を実行するように構成されたユニットを表す。この回転は、回転が単一の回転軸のみを伴い、この例では仰角回転を一切含まないという点で、2次元である。2D回転ユニット912は、より一般的な逆変換情報の一例であり得る逆回転情報913を(一例として、逆回転角パラメータ913を取得するために、回転角パラメータ911を逆にすることによって)取得し得る。2D回転ユニット912は、エンコーダ900がビットストリームにおける逆回転角パラメータ913を指定し得るように、逆回転角パラメータ913を提供し得る。
[0292]言い換えれば、2D回転ユニット912は、2D空間的変換モジュール(0°、120°、240°)において使用される空間サンプリングポイントのうちの1つから支配的エネルギーが到着していることがあるように、音場分析に基づいて2D音場を回転させ得る。2D回転ユニット912は、一例として、以下の回転行列を適用し得る。
いくつかの例では、2D回転ユニット912は、フレームアーティファクトを回避するために、時間変動する回転角の平滑な遷移を確実にするために平滑化(補間)関数を適用し得る。この平滑化関数は、線形平滑化関数を備え得る。ただし、非線形平滑化関数を含む他の平滑化関数が使用されてもよい。2D回転ユニット912は、たとえば、スプライン平滑化関数を使用し得る。
[0293]説明すると、音場の支配的方向が1つの分析フレーム内で70°の方位にあることを音場分析ユニット910モジュールが示すとき、2D回転ユニット912は、支配的方向が0°になるように、φ=−70°で音場を平滑に回転させることができる。別の可能性として、2D回転ユニット912は、支配的方向が120°になるように、φ=50°で音場を回転させることができる。次いで、2D回転ユニット912は、デコーダが正しい逆回転動作を適用できるように、ビットストリーム内で追加のサイドバンドパラメータとして、適用された回転角913をシグナリングし得る。
[0294]図30の例にさらに示されているように、無相関化ユニット904はまた、2D空間的変換ユニット914を含む。2D空間的変換ユニット914は、ベースレイヤの回転された表現を球面調和領域から空間領域に変換して、回転されたベースレイヤ915を3つの方位角(たとえば、0、120および240)に効果的にレンダリングするように構成されたユニットを表す。2D空間的変換ユニット914は、回転されたベースレイヤ915の係数を、以下の変換行列で乗算し得、この行列は、HOA係数次数「00+」、「11−」、「11+」、およびN3D正規化を仮定している。
上記の行列は、360°の円が3つの部分に均等に分割されるように、方位角0°、120°および240°で空間的オーディオ信号905を計算する。上述のように、たとえば、60°、180°および300°で空間的信号を計算して、各部分が120度をカバーする限り、他の分割も可能である。
[0295]このようにして、本技法は、スケーラブル高次アンビソニックオーディオデータ符号化を実行するように構成されたデバイス900を提供し得る。デバイス900は、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤ903に関して、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を取得するために無相関化を実行するように構成され得る。
[0296]これらの事例および他の事例では、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤ903は、1以下の次数を有する1つまたは複数の球面基底関数に対応するアンビエント高次アンビソニック係数を備える。これらの事例および他の事例では、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤ903は、音場の水平方向態様を記述する球面基底関数にのみ対応するアンビエント高次アンビソニック係数を備える。これらの事例および他の事例では、音場の水平方向態様を記述する球面基底関数にのみ対応するアンビエント高次アンビソニック係数は、0の次数と0の副次数とを有する球面基底関数に対応する第1のアンビエント高次アンビソニック係数と、1の次数とマイナス1の副次数とを有する球面基底関数に対応する第2の高次アンビソニック係数と、1の次数と1の副次数とを有する球面基底関数に対応する第3の高次アンビソニック係数とを備え得る。
[0297]これらの事例および他の事例では、デバイス900は、高次アンビソニックオーディオデータの第1のレイヤ903に関して(たとえば、2D回転ユニット912によって)変換を実行するように構成され得る。
[0298]これらの事例および他の事例では、デバイス900は、高次アンビソニックオーディオデータの第1のレイヤ903に関して(たとえば、2D回転ユニット912によって)回転を実行するように構成され得る。
[0299]これらの事例および他の事例では、デバイス900は、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤ903に関して、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を取得するために(たとえば、2D回転ユニット912によって)変換を適用し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を(たとえば、2D空間的変換ユニット914によって)球面調和領域から空間領域に変換するように構成され得る。
[0300]これらの事例および他の事例では、デバイス900は、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤ903に関して、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの回転された表現915を取得するために回転を適用し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの回転された表現915を球面調和領域から空間領域に変換するように構成され得る。
[0301]これらの事例および他の事例では、デバイス900は、変換情報911を取得し、変換情報911に基づいて、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤ903に関して、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を取得するために変換を適用し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を球面調和領域から空間領域に変換するように構成され得る。
[0302]これらの事例および他の事例では、デバイス900は、回転情報911を取得し、回転情報911に基づいて、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤ903に関して、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの回転された表現915を取得するために回転を適用し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの回転された表現915を球面調和領域から空間領域に変換しているように構成され得る。
[0303]これらの事例および他の事例では、デバイス900は、少なくとも部分的に平滑化関数を使用して、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤ903に関して、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を取得するために変換を適用し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を球面調和領域から空間領域に変換するように構成され得る。
[0304]これらの事例および他の事例では、デバイス900は、少なくとも部分的に平滑化関数を使用して、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤ903に関して、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの回転された表現915を取得するために回転を適用し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの回転された表現915を球面調和領域から空間領域に変換するように構成され得る。
[0305]これらの事例および他の事例では、デバイス900は、逆変換または逆回転を適用するときに使用されるべき平滑化関数の指示を指定するように構成され得る。
[0306]これらの事例および他の事例では、デバイス900はさらに、Vベクトルを取得するために高次アンビソニックオーディオデータに線形可逆変換を適用し、図3に関して上記で説明されたように、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第2のレイヤとして、Vベクトルを指定するように構成され得る。
[0307]これらの事例および他の事例では、デバイス900はさらに、1の次数と0の副次数とを有する球面基底関数に関連する高次アンビソニック係数を取得し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第2のレイヤとして、高次アンビソニック係数を指定するように構成され得る。
[0308]これらの事例および他の事例では、デバイス900はさらに、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現に関して時間的符号化を実行するように構成され得る。
[0309]図31は、本開示で説明される技法の様々な態様に従って動作するように構成され得るオーディオデコーダ920を示すブロック図である。デコーダ920は、HOA係数を再構成すること、エンハンスメントレイヤのVベクトルを再構成すること、(時間的オーディオ復号ユニット922によって実行される)時間的オーディオ復号を実行することなどの点で、図2の例に示されるオーディオ復号デバイス24の別の例を表し得る。ただし、デコーダ920は、ビットストリームにおいて指定されるスケーラブルコーディングされた高次アンビソニックオーディオデータに関してデコーダ920が動作する点で異なる。
[0310]図31の例に示されているように、オーディオデコーダ920は、時間的復号ユニット922と、逆2D空間的変換ユニット924と、ベースレイヤレンダリングユニット928と、エンハンスメントレイヤ処理ユニット930とを含む。時間的復号ユニット922は、時間的符号化ユニット906の場合とは逆の方法で動作するように構成され得る。逆2D空間的変換ユニット924は、2D空間的変換ユニット914の場合とは逆の方法で動作するように構成されたユニットを表し得る。
[0311]言い換えれば、逆2D空間的変換ユニット924は、回転された水平方向アンビエントHOA係数915(「回転されたベースレイヤ915」と呼ばれることもある)を取得するために、空間的オーディオ信号905に以下の行列を適用するように構成され得る。逆2D空間的変換ユニット924は、以下の変換行列を使用して、3個の送信されたオーディオ信号905をHOA領域に戻す形で変換することができ、この行列は上記の行列と同様に、HOA係数次数「00+」、「11−」、「11+」、およびN3D正規化を仮定している。
上記の行列は、デコーダにおいて使用される変換行列の逆である。
[0312]逆2D回転ユニット926は、2D回転ユニット912に関して上記で説明された方法とは逆の方法で動作するように構成され得る。この点において、2D回転ユニット912は、回転角パラメータ911ではなく逆回転角パラメータ913に基づいて、上述の回転行列に従って回転を実行することができる。言い換えれば、逆回転ユニット926は、シグナリングされた回転φに基づいて、以下の行列を適用したことができ、この行列も、HOA係数次数「00+」、「11−」、「11+」、およびN3D正規化を仮定している。
逆2D回転ユニット926は、ビットストリームにおいてシグナリングされ得るか、または事前に構成され得る、時間変動する回転角の平滑な遷移を確実にするために、デコーダにおいて使用される同じ平滑化(補間)関数を使用し得る。
[0313]ベースレイヤレンダリングユニット928は、ベースレイヤの水平方向限定アンビエントHOA係数をラウドスピーカーフィードにレンダラするように構成されたユニットを表し得る。エンハンスメントレイヤ処理ユニット930は、スピーカーフィードをレンダリングするために(追加のアンビエントHOA係数およびVベクトルとVベクトルに対応するオーディオオブジェクトとに関して上記で説明された復号の多くを伴う別個のエンハンスメントレイヤ復号経路を介して復号された)受信されたエンハンスメントレイヤによりベースレイヤのさらなる処理を実行するように構成されたユニットを表し得る。エンハンスメントレイヤ処理ユニット930は、音場内でより現実的に動く可能性のある音を有するより没入できるオーディオ経験を可能にし得る音場のより高い分解表現を提供するために、ベースレイヤを効果的に拡張し得る。ベースレイヤは、図11〜図13Bに関して上記で説明された第1のレイヤ、ベースレイヤ、またはベースサブレイヤのいずれかと同様であり得る。エンハンスメントレイヤは、図11〜図13Bに関して上記で説明された第2のレイヤ、エンハンスメントレイヤ、またはエンハンスメントサブレイヤのいずれかと同様であり得る。
[0314]この点において、本技法は、スケーラブル高次アンビソニックオーディオデータ復号を実行するように構成されたデバイス920を提供する。デバイスは、高次アンビソニックオーディオデータ(たとえば、空間的オーディオ信号905)の2つ以上のレイヤのうちの第1のレイヤの無相関化された表現を取得するように構成され得、高次アンビソニックオーディオデータは音場を記述する。第1のレイヤの無相関化された表現は、高次アンビソニックオーディオデータの第1のレイヤに関して無相関化を実行することによって無相関化される。
[0315]いくつかの事例では、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤは、1以下の次数を有する1つまたは複数の球面基底関数に対応するアンビエント高次アンビソニック係数を備える。これらの事例および他の事例では、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤは、音場の水平方向態様を記述する球面基底関数にのみ対応するアンビエント高次アンビソニック係数を備える。これらの事例および他の事例では、音場の水平方向態様を記述する球面基底関数にのみ対応するアンビエント高次アンビソニック係数は、0の次数と0の副次数とを有する球面基底関数に対応する第1のアンビエント高次アンビソニック係数と、1の次数とマイナス1の副次数とを有する球面基底関数に対応する第2の高次アンビソニック係数と、1の次数と1の副次数とを有する球面基底関数に対応する第3の高次アンビソニック係数とを備える。
[0316]これらの事例および他の事例では、第1のレイヤの無相関化された表現は、エンコーダ900に関して上記で説明されたように、高次アンビソニックオーディオデータの第1のレイヤに関して変換を実行することによって、無相関化される。
[0317]これらの事例および他の事例では、デバイス920は、高次アンビソニックオーディオデータの第1のレイヤに関して(たとえば、逆2D回転ユニット926によって)回転を実行するように構成され得る。
[0318]これらの事例および他の事例では、デバイス920は、たとえば、逆2D空間的変換ユニット924および逆2D回転ユニット926に関して上記で説明されたように、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤを取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現を再相関化するように構成され得る。
[0319]これらの事例および他の事例では、デバイス920は、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を空間領域から球面調和領域に変換し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤを取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915に関して(たとえば、逆2D回転ユニット926に関して上記で説明されたように)逆変換を適用するように構成され得る。
[0320]これらの事例および他の事例では、デバイス920は、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を空間領域から球面調和領域に変換し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤを取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915に関して逆回転を適用するように構成され得る。
[0321]これらの事例および他の事例では、デバイス920は、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を空間領域から球面調和領域に変換し、変換情報913を取得し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤを取得するために、変換情報913に基づいて高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915に関して逆変換を適用するように構成され得る。
[0322]これらの事例および他の事例では、デバイス920は、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を空間領域から球面調和領域に変換し、回転情報913を取得し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤを取得するために、回転情報913に基づいて高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915に関して逆回転を適用するように構成され得る。
[0323]これらの事例および他の事例では、デバイス920は、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を空間領域から球面調和領域に変換し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤを取得するために、少なくとも部分的に平滑化関数を使用して高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915に関して逆変換を適用するように構成され得る。
[0324]これらの事例および他の事例では、デバイス920は、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915を取得するために、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの無相関化された表現905を空間領域から球面調和領域に変換し、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤを取得するために、少なくとも部分的に平滑化関数を使用して高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第1のレイヤの変換された表現915に関して逆回転を適用するように構成され得る。
[0325]これらの事例および他の事例では、デバイス920はさらに、逆変換または逆回転を適用するときに使用されるべき平滑化関数の指示を取得するように構成され得る。
[0326]これらの事例および他の事例では、デバイス920はさらに、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第2のレイヤの表現を取得するように構成され得、ここで、第2のレイヤの表現が、ベクトルベースの支配的オーディオデータを備え、ベクトルベースの支配的オーディオデータが少なくとも、支配的オーディオデータと符号化されたVベクトルとを備え、符号化されたVベクトルが、図3の例に関して上記で説明されたように、線形可逆変換の適用を通じて高次アンビソニックオーディオデータから分解される。
[0327]これらの事例および他の事例では、デバイス920はさらに、高次アンビソニックオーディオデータの2つ以上のレイヤのうちの第2のレイヤの表現を取得するように構成され得、ここで、第2のレイヤの表現が、1の次数と0の副次数とを有する球面基底関数に関連する高次アンビソニック係数を備える。
[0328]このようにして、本技法は、以下の項に記載された方法を実行するようにデバイスが構成されることを可能にすること、または実行するための手段を備える装置、もしくは実行されると、1つもしくは複数のプロセッサに実行させる命令を記憶した非一時的コンピュータ可読媒体を提供することができる。
[0329]項1A。ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化する方法であって、前記ビットストリームにおけるレイヤの数の指示を指定することと、前記レイヤの前記指示された数を含む前記ビットストリームを出力することとを備える方法。
[0330]項2A。前記ビットストリームに含まれるチャネルの数の指示を指定することをさらに備える、項1Aに記載の方法。
[0331]項3A。レイヤの前記数の前記指示は、以前のフレームに関する、前記ビットストリームにおけるレイヤの数の指示を備え、本方法は、現在のフレームに関して、前記ビットストリームのレイヤの数が、以前のフレームに関するビットストリームのレイヤの数と比較して、変化しているかどうかの指示を前記ビットストリームにおいて指定することと、前記現在のフレームにおける前記ビットストリームのレイヤの前記指示された数を指定することとをさらに備える、項1Aに記載の方法。
[0332]項4A。レイヤの前記指示された数を指定することは、前記現在のフレームにおいて、前記ビットストリームの前記レイヤの数が、前記以前のフレームにおける前記ビットストリームのレイヤの前記数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームに関する前記レイヤのうちの1つまたは複数におけるバックグラウンド成分の現在の数が、前記以前のフレームの前記レイヤのうちの1つまたは複数におけるバックグラウンド成分の以前の数に等しいことの指示を、前記ビットストリームにおいて指定することなく、レイヤの指示された数を指定することを備える、項3Aに記載の方法。
[0333]項5A。前記レイヤは、第1のレイヤが第2のレイヤと組み合わせられたときに、前記高次アンビソニックオーディオ信号のより高い分解能表現を提供するように、階層的である、項1Aに記載の方法。
[0334]項6A。前記ビットストリームの前記レイヤは、ベースレイヤとエンハンスメントレイヤとを備え、本方法は、前記高次アンビソニックオーディオ信号のバックグラウンド成分の無相関化された表現を取得するために、前記ベースレイヤの1つまたは複数のチャネルに関して無相関化変換を適用することをさらに備える、項1Aに記載の方法。
[0335]項7A。前記無相関化変換はUHJ変換を備える、項6Aに記載の方法。
[0336]項8A。前記無相関化変換はモード行列変換を備える、項6Aに記載の方法。
[0337]その上、本技法は、以下の項に記載された方法を実行するようにデバイスが構成されることを可能にすること、または実行するための手段を備える装置、もしくは実行されると、1つもしくは複数のプロセッサに実行させる命令を記憶した非一時的コンピュータ可読媒体を提供することができる。
[0338]項1B。ビットストリームを生成するために高次アンビソニックオーディオ信号を符号化する方法であって、前記ビットストリームの1つまたは複数のレイヤにおいて指定されたチャネルの数の指示を、前記ビットストリームにおいて指定することと、前記ビットストリームの前記1つまたは複数のレイヤにおける前記チャネルの前記指示された数を指定することとを備える方法。
[0339]項2B。前記ビットストリームにおいて指定されたチャネルの総数の指示を指定することをさらに備え、チャネルの前記指示された数を指定することは、前記ビットストリームの前記1つまたは複数のレイヤにおける前記チャネルの前記指示された総数を指定することを備える、項1Bに記載の方法。
[0340]項3B。前記ビットストリームにおける前記1つまたは複数のレイヤにおいて指定されたチャネルのうちの1つの指示タイプを指定することをさらに備え、チャネルの前記指示された数を指定することは、前記ビットストリームの前記1つまたは複数のレイヤにおける前記チャネルのうちの前記1つの前記指示されたタイプの前記指示された数を指定することを備える、項1Bに記載の方法。
[0341]項4B。前記ビットストリームにおける前記1つまたは複数のレイヤにおいて指定されたチャネルのうちの1つの指示タイプを指定することをさらに備え、前記チャネルのうちの前記1つのタイプの前記指示が、前記チャネルのうちの前記1つがフォアグラウンドチャネルであることを示し、チャネルの前記指示された数を指定することが、前記ビットストリームの前記1つまたは複数のレイヤにおける前記フォアグラウンドチャネルを指定することを備える、項1Bに記載の方法。
[0342]項5B。前記ビットストリームにおいて指定されたレイヤの数の指示を、前記ビットストリームにおいて指定することをさらに備える、項1Bに記載の方法。
[0343]項6B。前記ビットストリームにおける前記1つまたは複数のレイヤにおいて指定された前記チャネルのうちの1つの指示タイプを指定することをさらに備え、前記チャネルのうちの前記1つの前記タイプの前記指示が、前記チャネルのうちの前記1つがバックグラウンドチャネルであることを示し、前記チャネルの前記指示された数を指定することは、前記ビットストリームの前記1つまたは複数のレイヤにおける前記バックグラウンドチャネルを指定することを備える、項1Bに記載の方法。
[0344]項7B。前記チャネルのうちの前記1つはバックグラウンド高次アンビソニック係数を備える、項6Bに記載の方法。
[0345]項1B。チャネルの前記数の前記指示を指定することは、前記レイヤのうちの1つが指定された後に、前記ビットストリームにおいて残存するチャネルの数に基づいて、チャネルの前記数の指示を指定することを備える、項1Bに記載の方法。
[0346]このようにして、本技法は、以下の項に記載された方法を実行するようにデバイスが構成されることを可能にすること、または実行するための手段を備える装置、もしくは実行されると、1つもしくは複数のプロセッサに実行させる命令を記憶した非一時的コンピュータ可読媒体を提供することができる。
[0347]項1C。高次アンビソニックオーディオ信号を表すビットストリームを復号する方法であって、前記ビットストリームにおいて指定されたレイヤの数の指示を、前記ビットストリームから取得することと、レイヤの前記数の前記指示に基づいて前記ビットストリームの前記レイヤを取得することとを備える方法。
[0348]項2C。前記ビットストリームにおいて指定されたチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、レイヤの前記数の前記指示およびチャネルの前記数の前記指示に基づいて、前記ビットストリームの前記レイヤを取得することを備える、項1Cに記載の方法。
[0349]項3C。前記レイヤのうちの少なくとも1つに関する、前記ビットストリームにおいて指定されたフォアグラウンドチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、フォアグラウンドチャネルの前記数の前記指示に基づいて、前記ビットストリームの前記レイヤのうちの前記少なくとも1つに関するフォアグラウンドチャネルを取得することを備える、項1Cに記載の方法。
[0350]項4C。前記レイヤのうちの少なくとも1つに関する、前記ビットストリームにおいて指定されたバックグラウンドチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、バックグラウンドチャネルの前記数の前記指示に基づいて、前記ビットストリームの前記レイヤのうちの前記少なくとも1つに関するバックグラウンドチャネルを取得することを備える、項1Cに記載の方法。
[0351]項5C。前記レイヤの前記数の前記指示は、レイヤの前記数が2であることを示し、前記2つのレイヤは、ベースレイヤとエンハンスメントレイヤとを備え、前記レイヤを取得することは、フォアグラウンドチャネルの数が前記ベースレイヤに関して0、前記エンハンスメントレイヤに関して2であることの指示を取得することを備える、項1Cに記載の方法。
[0352]項6C。前記レイヤの前記数の前記指示は、レイヤの前記数が2であることを示し、前記2つのレイヤは、ベースレイヤとエンハンスメントレイヤとを備え、本方法は、バックグラウンドチャネルの数が前記ベースレイヤに関して4、前記エンハンスメントレイヤに関して0であることの指示を取得することをさらに備える、項1Cまたは5Cに記載の方法。
[0353]項7。前記レイヤの前記数の前記指示は、レイヤの前記数が3であることを示し、前記3つのレイヤは、ベースレイヤと、第1のエンハンスメントレイヤと、第2のエンハンスメントレイヤとを備え、本方法は、フォアグラウンドチャネルの数が前記ベースレイヤに関して0、前記第1のエンハンスメントレイヤに関して2、前記第3のエンハンスメントレイヤに関して2であることの指示を取得することをさらに備える、項1Cに記載の方法。
[0354]項8C。前記レイヤの前記数の前記指示は、レイヤの前記数が3であることを示し、前記3つのレイヤは、ベースレイヤと、第1のエンハンスメントレイヤと、第2のエンハンスメントレイヤとを備え、本方法は、バックグラウンドチャネルの数が前記ベースレイヤに関して2、前記第1のエンハンスメントレイヤに関して0、前記第3のエンハンスメントレイヤに関して0であることの指示を取得することをさらに備える、項1Cまたは7Cに記載の方法。
[0355]項9C。前記レイヤの前記数の前記指示は、レイヤの前記数が3であることを示し、前記3つのレイヤは、ベースレイヤと、第1のエンハンスメントレイヤと、第2のエンハンスメントレイヤとを備え、本方法は、フォアグラウンドチャネルの数が前記ベースレイヤに関して2、前記第1のエンハンスメントレイヤに関して2、前記第3のエンハンスメントレイヤに関して2であることの指示を取得することをさらに備える、項1Cに記載の方法。
[0356]項10C。前記レイヤの前記数の前記指示は、レイヤの前記数が3であることを示し、前記3つのレイヤは、ベースレイヤと、第1のエンハンスメントレイヤと、第2のエンハンスメントレイヤとを備え、本方法は、バックグラウンドチャネルの数が前記ベースレイヤに関して0、前記第1のエンハンスメントレイヤに関して0、前記第3のエンハンスメントレイヤに関して0であることを示すバックグラウンドシンタックス要素を取得することをさらに備える、項1Cまたは9Cに記載の方法。
[0357]項11C。前記レイヤの前記数の前記指示は、前記ビットストリームの以前のフレームにおけるレイヤの数の指示を備え、本方法は、現在のフレームにおいて、前記ビットストリームのレイヤの数が、前記以前のフレームにおける前記ビットストリームのレイヤの数と比較して、変化しているかどうかの指示を取得することと、前記現在のフレームにおいて前記ビットストリームのレイヤの数が変化しているかどうかの指示に基づいて、前記現在のフレームにおけるビットストリームのレイヤの数を取得することとをさらに備える、項1Cに記載の方法。
[0358]項12C。前記現在のフレームにおける前記ビットストリームのレイヤの数が、前記以前のフレームにおける前記ビットストリームのレイヤの数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームにおける前記ビットストリームのレイヤの数を、前記以前のフレームにおける前記ビットストリームのレイヤの数と同じものとして決定することをさらに備える、項11Cに記載の方法。
[0359]項13C。前記現在のフレームにおいて、前記ビットストリームのレイヤの数が、前記以前のフレームにおける前記ビットストリームのレイヤの数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームに関するレイヤのうちの1つまたは複数における成分の現在の数が、前記以前のフレームのレイヤのうちの1つまたは複数における成分の以前の数と同じであることの指示を取得することをさらに備える、項11Cに記載の方法。
[0360]項14C。レイヤの前記数の前記指示は、前記ビットストリームにおいて3つのレイヤが指定されていることを示し、前記レイヤを取得することは、ステレオチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第1のものを取得することと、1つまたは複数の水平面上に配置された3つ以上のスピーカーによる3次元再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第2のものを取得することと、前記高次アンビソニックオーディオ信号のフォアグラウンド成分を示すビットストリームのレイヤのうちの第3のものを取得することと、を備える、項1Cに記載の方法。
[0361]項15C。レイヤの前記数の前記指示は、前記ビットストリームにおいて3つのレイヤが指定されていることを示し、前記レイヤを取得することは、モノチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第1のものを取得することと、1つまたは複数の水平面上に配置された3つ以上のスピーカーによる3次元再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第2のものを取得することと、前記高次アンビソニックオーディオ信号のフォアグラウンド成分を示す前記ビットストリームのレイヤのうちの第3のものを取得することとを備える、項1Cに記載の方法。
[0362]項16C。レイヤの前記数の前記指示は、前記ビットストリームにおいて3つのレイヤが指定されていることを示し、前記レイヤを取得することは、ステレオチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第1のものを取得することと、単一の水平面上に配置された3つ以上のスピーカーによるマルチチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第2のものを取得することと、2つ以上の水平面上に配置された3つ以上のスピーカーによる3次元再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第3のものを取得することと、前記高次アンビソニックオーディオ信号のフォアグラウンド成分を示す前記ビットストリームのレイヤのうちの第4のものを取得することとを備える、項1Cに記載の方法。
[0363]項17C。レイヤの前記数の前記指示は、前記ビットストリームにおいて3つのレイヤが指定されていることを示し、前記レイヤを取得することは、モノチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第1のものを取得することと、単一の水平面上に配置された3つ以上のスピーカーによるマルチチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第2のものを取得することと、2つ以上の水平面上に配置された3つ以上のスピーカーによる3次元再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第3のものを取得することと、前記高次アンビソニックオーディオ信号のフォアグラウンド成分を示す前記ビットストリームのレイヤのうちの第4のものを取得することとを備える、項1Cに記載の方法。
[0364]項18C。レイヤの前記数の前記指示は、前記ビットストリームにおいて2つのレイヤが指定されていることを示し、前記レイヤを取得することは、ステレオチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第1のものを取得することと、単一の水平面上に配置された3つ以上のスピーカーによる水平方向マルチチャネル再生をもたらす前記高次アンビソニックオーディオ信号のバックグラウンド成分を示す前記ビットストリームのレイヤのうちの第2のものを取得することとを備える、項1Cに記載の方法。
[0365]項19C。前記ビットストリームにおいて指定されたチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、レイヤの前記数の前記指示およびチャネルの前記数の前記指示に基づいて前記ビットストリームの前記レイヤを取得することを備える、項1Cに記載の方法。
[0366]項20C。前記レイヤのうちの少なくとも1つに関する、前記ビットストリームにおいて指定されたフォアグラウンドチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、フォアグラウンドチャネルの前記数の前記指示に基づいて、前記ビットストリームの前記レイヤのうちの前記少なくとも1つに関する前記フォアグラウンドチャネルを取得することを備える、項1Cに記載の方法。
[0367]項21C。前記レイヤのうちの少なくとも1つに関する、前記ビットストリームにおいて指定されたバックグラウンドチャネルの数の指示を取得することをさらに備え、前記レイヤを取得することが、バックグラウンドチャネルの前記数の前記指示に基づいて、前記ビットストリームの前記レイヤのうちの前記少なくとも1つに関する前記バックグラウンドチャネルを取得することを備える、項1Cに記載の方法。
[0368]項22C。前記レイヤのうちの少なくとも1つに関する、前記ビットストリームにおいて指定されたフォアグラウンドチャネルの数の指示を、前記レイヤのうちの前記少なくとも1つが取得された後に前記ビットストリームにおいて残存するチャネルの数に基づいて解析することをさらに備え、前記レイヤを取得することが、フォアグラウンドチャネルの前記数の前記指示に基づいて、前記レイヤのうちの前記少なくとも1つのフォアグラウンドチャネルを取得することを備える、項1Cに記載の方法。
[0369]項23C。前記レイヤのうちの前記少なくとも1つが取得された後に前記ビットストリームにおいて残存するチャネルの前記数は、シンタックス要素によって表される、項22Cに記載の方法。
[0370]項24C。前記レイヤのうちの少なくとも1つに関する、前記ビットストリームにおいて指定されたバックグラウンドチャネルの数の指示を、前記レイヤのうちの前記少なくとも1つが取得された後のチャネルの数に基づいて解析することをさらに備え、前記バックグラウンドチャネルを取得することが、バックグラウンドチャネルの前記数の前記指示に基づいて、前記ビットストリームから前記レイヤのうちの前記少なくとも1つに関する前記バックグラウンドチャネルを取得することを備える、項1Cに記載の方法。
[0371]項25C。前記レイヤのうちの前記少なくとも1つが取得された後に前記ビットストリームにおいて残存するチャネルの前記数は、シンタックス要素によって表される、項24Cに記載の方法。
[0372]項26C。前記ビットストリームの前記レイヤは、ベースレイヤとエンハンスメントレイヤとを備え、本方法は、前記高次アンビソニックオーディオ信号のバックグラウンド成分の相関化された表現を取得するために、ベースレイヤの1つまたは複数のチャネルに関して相関化変換を適用することをさらに備える、項1Cに記載の方法。
[0373]項27C。前記相関化変換は逆UHJ変換を備える、項26Cに記載の方法。
[0374]項28C。前記相関化変換は逆モード行列変換を備える、項26Cに記載の方法。
[0375]項29C。前記ビットストリームの前記レイヤの各々に関するチャネルの数は固定である、項1Cに記載の方法。
[0376]その上、本技法は、以下の項に記載された方法を実行するようにデバイスが構成されることを可能にすること、または実行するための手段を備える装置、もしくは実行されると、1つもしくは複数のプロセッサに実行させる命令を記憶した非一時的コンピュータ可読媒体を提供することができる。
[0377]項1D。高次アンビソニックオーディオ信号を表すビットストリームを復号する方法であって、前記ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルの数の指示を、前記ビットストリームから取得することと、チャネルの前記数の前記指示に基づいて、前記ビットストリームにおける前記1つまたは複数のレイヤにおいて指定された前記チャネルを取得することとを備える方法。
[0378]項2D。前記ビットストリームにおいて指定されたチャネルの総数の指示を取得することをさらに備え、前記チャネルを取得することが、前記1つまたは複数のレイヤにおいて指定されたチャネルの前記数の前記指示およびチャネルの前記総数の前記指示に基づいて、前記1つまたは複数のレイヤにおいて指定された前記チャネルを取得することを備える、項1Dに記載の方法。
[0379]項3D。前記ビットストリームにおける前記1つまたは複数のレイヤにおいて指定された前記チャネルのうちの1つのタイプの指示を取得することをさらに備え、前記チャネルを取得することが、チャネルの前記数の前記指示および前記チャネルのうちの前記1つの前記タイプの前記指示に基づいて、前記チャネルのうちの前記1つを取得することを備える、項1Dに記載の方法。
[0380]項4D。前記ビットストリームにおける前記1つまたは複数のレイヤにおいて指定された前記チャネルのうちの1つの指示タイプを取得することをさらに備え、前記チャネルのうちの前記1つの前記タイプの前記指示が、前記チャネルのうちの前記1つがフォアグラウンドチャネルであることを示し、前記チャネルを取得することが、チャネルの前記数の前記指示および前記チャネルのうちの前記1つの前記タイプが前記フォアグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記1つを取得することを備える、項1Dに記載の方法。
[0381]項5D。前記ビットストリームにおいて指定された前記レイヤの数の指示を取得することをさらに備え、前記チャネルを取得することが、チャネルの前記数の前記指示およびレイヤの前記数の前記指示に基づいて、前記チャネルのうちの前記1つを取得することを備える、項1Dに記載の方法。
[0382]項6D。レイヤの前記数の前記指示は、前記ビットストリームの以前のフレームにおけるレイヤの数の指示を備え、本方法は、現在のフレームにおいて、前記ビットストリームにおいて、1つまたは複数のレイヤにおいて指定されたチャネルのレイヤの数が、前記以前のフレームの前記ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルの数と比較して、変化しているかどうかの指示を取得することを備え、前記チャネルを取得することは、前記現在のフレームにおいて、前記ビットストリームにおける1つまたは複数のレイヤにおいて指定されたチャネルの前記数が変化しているかどうかの前記指示に基づいて、前記チャネルのうちの前記1つを取得することを備える、項5Dに記載の方法。
[0383]項7D。前記現在のフレームにおいて、前記ビットストリームの前記1つまたは複数のレイヤにおいて指定されたチャネルの前記数が、前記以前のフレームにおける前記ビットストリームの前記1つまたは複数のレイヤにおいて指定されたチャネルの前記数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームにおける前記ビットストリームの前記1つまたは複数のレイヤにおいて指定されたチャネルの前記数を、前記以前のフレームにおける前記ビットストリームの前記1つまたは複数のレイヤにおいて指定されたチャネルの前記数と同じものとして決定することをさらに備える、項5Dに記載の方法。
[0384]項8D。1つまたは複数のプロセッサは、前記現在のフレームにおいて、前記ビットストリームの前記1つまたは複数のレイヤにおいて指定されたチャネルの前記数が、前記以前のフレームにおける前記ビットストリームの前記1つまたは複数のレイヤにおいて指定されたチャネルの前記数と比較して、変化していないことを前記指示が示すときに、前記現在のフレームに関する前記レイヤのうちの1つまたは複数におけるチャネルの現在の数が、前記以前のフレームの前記レイヤのうちの1つまたは複数におけるチャネルの以前の数と同じであることの指示を取得するようにさらに構成される、項5Dに記載の方法。
[0385]項9D。前記ビットストリームにおける前記1つまたは複数のレイヤにおいて指定された前記チャネルのうちの1つのタイプの指示を取得することをさらに備え、前記チャネルのうちの前記1つの前記タイプの前記指示が、前記チャネルのうちの前記1つがバックグラウンドチャネルであることを示し、前記チャネルを取得することが、レイヤの前記数の前記指示および前記チャネルのうちの前記1つの前記タイプが前記バックグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記1つを取得することを備える、項1Dに記載の方法。
[0386]項10D。前記ビットストリームにおける前記1つまたは複数のレイヤにおいて指定された前記チャネルのうちの1つの指示タイプを取得することをさらに備え、前記チャネルのうちの前記1つの前記タイプの前記指示が、前記チャネルのうちの前記1つがバックグラウンドチャネルであることを示し、前記チャネルを取得することが、レイヤの前記数の前記指示および前記チャネルのうちの前記1つの前記タイプが前記バックグラウンドチャネルであることの前記指示に基づいて、前記チャネルのうちの前記1つを取得することを備える、項9Dに記載の方法。
[0387]項11D。前記チャネルのうちの前記1つはバックグラウンド高次アンビソニック係数を備える、項9Dに記載の方法。
[0388]項12D。前記チャネルのうちの前記1つの前記タイプの前記指示を取得することは、前記チャネルのうちの前記1つの前記タイプを示すシンタックス要素を取得することを備える、項9Dに記載の方法。
[0389]項13D。チャネルの前記数の前記指示を指定することは、前記レイヤのうちの1つが取得された後に前記ビットストリームにおいて残存するチャネルの数に基づいて、チャネルの前記数の指示を取得することを備える、項1Dに記載の方法。
[0390]項14D。前記レイヤはベースレイヤを備える、項1Dに記載の方法。
[0391]項15D。前記レイヤはベースレイヤと1つまたは複数のエンハンスメントレイヤとを備える、項1Dに記載の方法。
[0392]項16D。前記1つまたは複数のレイヤの数は固定である、項1Dに記載の方法。
[0393]上記の技法は、任意の数の異なるコンテキストおよびオーディオエコシステムに関して実行され得る。いくつかの例示的なコンテキストが以下で説明されるが、本技法はそれらの例示的なコンテキストに限定されるべきではない。1つの例示的なオーディオエコシステムは、オーディオコンテンツと、映画スタジオと、音楽スタジオと、ゲーミングオーディオスタジオと、チャネルベースオーディオコンテンツと、コーディングエンジンと、ゲームオーディオステムと、ゲームオーディオコーディング/レンダリングエンジンと、配信システムとを含み得る。
[0394]映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信し得る。いくつかの例では、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション(DAW)を使用することなどによって、(たとえば、2.0、5.1、および7.1の)チャネルベースオーディオコンテンツを出力し得る。音楽スタジオは、DAWを使用することなどによって、(たとえば、2.0、および5.1の)チャネルベースオーディオコンテンツを出力し得る。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、チャネルベースオーディオコンテンツベースの1つまたは複数のコーデック(たとえば、AAC、AC3、ドルビートゥルーHD、ドルビーデジタルプラス、およびDTSマスタオーディオ)を受信し符号化し得る。ゲーミングオーディオスタジオは、DAWを使用することなどによって、1つまたは複数のゲームオーディオステムを出力し得る。ゲームオーディオコーディング/レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングし得る。本技法が実行され得る別の例示的なコンテキストは、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、HOAオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、TV、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。
[0395]放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、HOAオーディオフォーマットを使用してそれらの出力をコーディングし得る。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、TV、およびアクセサリ、ならびにカーオーディオシステムを使用して再生され得る単一の表現へと、HOAオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム16など、汎用的なオーディオ再生システムにおいて(すなわち、5.1、7.1などの特定の構成を必要とすることとは対照的に)再生され得る。
[0396]本技法が実行され得るコンテキストの他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、ワイヤードおよび/またはワイヤレス獲得デバイス(たとえば、Eigenマイクロフォン)と、オンデバイスサラウンドサウンドキャプチャと、モバイルデバイス(たとえば、スマートフォンおよびタブレット)とを含み得る。いくつかの例では、ワイヤードおよび/またはワイヤレス獲得デバイスは、ワイヤードおよび/またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。
[0397]本開示の1つまたは複数の技法によれば、モバイルデバイスは、音場を獲得するために使用され得る。たとえば、モバイルデバイスは、ワイヤードおよび/もしくはワイヤレス獲得デバイス、ならびに/またはオンデバイスサラウンドサウンドキャプチャ(たとえば、モバイルデバイスに統合された複数のマイクロフォン)を介して、音場を獲得し得る。モバイルデバイスは、次いで、再生要素のうちの1つまたは複数による再生のために、獲得された音場をHOA係数へとコーディングし得る。たとえば、モバイルデバイスのユーザは、ライブイベント(たとえば、会合、会議、劇、コンサートなど)を録音し(ライブイベントの音場を獲得し)、録音をHOA係数へとコーディングし得る。
[0398]モバイルデバイスはまた、HOAコーディングされた音場を再生するために、再生要素のうちの1つまたは複数を利用し得る。たとえば、モバイルデバイスは、HOAコーディングされた音場を復号し、再生要素のうちの1つまたは複数に信号を出力し得、それにより、再生要素のうちの1つまたは複数は音場を再作成することになる。一例として、モバイルデバイスは、1つまたは複数のスピーカー(たとえば、スピーカーアレイ、サウンドバーなど)に信号を出力するためにワイヤレスおよび/またはワイヤレス通信チャネルを利用し得る。別の例として、モバイルデバイスは、1つもしくは複数のドッキングステーションならびに/または1つもしくは複数のドッキングされたスピーカー(たとえば、スマートカーおよび/もしくはスマートホーム内のサウンドシステム)に信号を出力するために、ドッキングソリューションを利用し得る。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、たとえばリアルなバイノーラルサウンドを作成するために、ヘッドフォンレンダリングを利用し得る。
[0399]いくつかの例では、特定のモバイルデバイスは、3D音場を獲得することと、より後の時間に同じ3D音場を再生することの両方を行い得る。いくつかの例では、モバイルデバイスは、3D音場を獲得し、3D音場をHOAへと符号化し、符号化された3D音場を再生のために1つまたは複数の他のデバイス(たとえば、他のモバイルデバイスおよび/または他の非モバイルデバイス)に送信し得る。
[0400]本技法が実行され得るYまた別のコンテキストは、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、HOA信号の編集をサポートし得る1つまたは複数のDAWを含み得る。たとえば、1つまたは複数のDAWは、1つまたは複数のゲームオーディオシステムとともに動作する(たとえば、機能する)ように構成され得るHOAプラグインおよび/またはツールを含み得る。いくつかの例では、ゲームスタジオは、HOAをサポートする新しいステムフォーマットを出力し得る。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングし得るレンダリングエンジンに、コーディングされたオーディオコンテンツを出力し得る。
[0401]本技法はまた、例示的なオーディオ獲得デバイスに関して実行され得る。たとえば、本技法は、3D音場を録音するようにまとめて構成された複数のマイクロフォンを含み得る、Eigenマイクロフォンに関して実行され得る。いくつかの例では、Eigenマイクロフォンの複数のマイクロフォンは、約4cmの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例では、オーディオ符号化デバイス20は、ビットストリーム21をマイクロフォンから直接出力するために、Eigenマイクロフォンに統合され得る。
[0402]別の例示的なオーディオ獲得コンテキストは、1つまたは複数のEigenマイクロフォンなど、1つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図3のオーディオエンコーダ20などのオーディオエンコーダを含み得る。
[0403]モバイルデバイスはまた、いくつかの場合には、3D音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、X、Y、Zのダイバーシティを有し得る。いくつかの例では、モバイルデバイスは、モバイルデバイスの1つまたは複数の他のマイクロフォンに関してX、Y、Zのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図3のオーディオエンコーダ20などのオーディオエンコーダを含み得る。
[0404]耐衝撃性のビデオキャプチャデバイスは、3D音場を録音するようにさらに構成され得る。いくつかの例では、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。たとえば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周りすべての活動(たとえば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など)を表す3D音場をキャプチャし得る。
[0405]本技法はまた、3D音場を録音するように構成され得る、アクセサリで増強されたモバイルデバイスに関して実行され得る。いくつかの例では、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、1つまたは複数のアクセサリが追加されている。たとえば、Eigenマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述のモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの3D音場をキャプチャし得る。
[0406]本開示で説明される技法の様々な態様を実行し得る例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の1つまたは複数の技法によれば、スピーカーおよび/またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として3D音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、ワイヤード接続またはワイヤレス接続のいずれかを介してデコーダ24に結合され得る。本開示の1つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。
[0407]また、いくつかの異なる例示的なオーディオ再生環境は、本開示で説明される技法の様々な態様を実行するために好適であり得る。たとえば、5.1スピーカー再生環境、2.0(たとえば、ステレオ)スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う9.1スピーカー再生環境、22.2スピーカー再生環境、16.0スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を実行するために好適な環境であり得る。
[0408]本開示の1つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダラが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。たとえば、設計上の考慮事項が、7.1スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合(たとえば、右側のサラウンドスピーカーを配置することが可能ではない場合)、本開示の技法は、再生が6.1スピーカー再生環境で達成され得るように、レンダーが他の6つのスピーカーで補償することを可能にする。
[0409]その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見得る。本開示の1つまたは複数の技法によれば、スポーツの試合の3D音場が獲得され得(たとえば、1つまたは複数のEigenマイクロフォンが野球場の中および/または周りに配置され得)、3D音場に対応するHOA係数が取得されデコーダに送信され得、デコーダはHOA係数に基づいて3D音場を再構成して、再構成された3D音場をレンダラに出力し得、レンダラは、再生環境のタイプ(たとえば、ヘッドフォン)についての指示を取得し、再構成された3D音場を、ヘッドフォンにスポーツの試合の3D音場の表現を出力させる信号へとレンダリングし得る。
[0410]上記で説明された様々な事例の各々において、オーディオ符号化デバイス20は、ある方法を実行し、またはさもなければ、オーディオ符号化デバイス20が実行するように構成された方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの事例では、これらの手段は1つまたは複数のプロセッサを備え得る。いくつかの事例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成された専用プロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つまたは複数のプロセッサに、オーディオ符号化デバイス20が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。
[0411]1つまたは複数の例において、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、またはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実装のために命令、コードおよび/またはデータ構造を取り出すために、1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含むことできる。
[0412]同様に、上記で説明された様々な事例の各々において、オーディオ復号デバイス24は、ある方法を実行し、またはさもなければ、オーディオ復号デバイス24が実行するように構成された方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの事例では、これらの手段は1つまたは複数のプロセッサを備え得る。いくつかの事例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成された専用プロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つまたは複数のプロセッサに、オーディオ復号デバイス24が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。
[0413]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROMもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気ストレージデバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、代わりに、非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびBlu−ray(登録商標)ディスク(disc)を含み、ディスク(disk)は通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[0414]命令は、1つもしくは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、または他の等価な集積回路もしくはディスクリート論理回路など、1つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明される機能は、符号化および復号のために構成された専用のハードウェアおよび/もしくはソフトウェアモジュール内で与えられ、または複合コーデックに組み込まれ得る。また、本技法は、1つまたは複数の回路または論理要素で十分に実装され得る。
[0415]本開示の技法は、ワイヤレスハンドセット、集積回路(IC)またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置で実装され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を実行するように構成されたデバイスの機能的態様を強調するように本開示において記載されているが、異なるハードウェアユニットによる実現を必ずしも必要としない。むしろ、上記で説明されたように、様々なユニットが、好適なソフトウェアおよび/またはファームウェアとともに、上記で説明された1つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作可能なハードウェアユニットの集合によって与えられ得る。
[0416]本開示の様々な態様が説明された。本技法のこれらの態様および他の態様は、以下の特許請求の範囲内に入る。