サラウンドサウンドの進化は、今日の娯楽に利用可能な多数の出力フォーマットを生み出した。そのような消費者向けのサラウンドサウンドフォーマットの例は、いくつかの幾何学的座標中のラウドスピーカーへのフィードを暗黙的に指定するという点で、大半が「チャンネル」ベースである。消費者向けサラウンドサウンドフォーマットには、一般的な5.1フォーマット(これは、フロントレフト(FL)、フロントライト(FR)、センターまたはフロントセンター、バックレフトまたはサラウンドレフト、バックライトまたはサラウンドライト、および低周波効果(LFE)という6つのチャンネルを含む)、成長している7.1フォーマット、(たとえば、超解像度テレビジョン規格とともに使用するための)7.1.4フォーマットおよび22.2フォーマットのようなハイトスピーカーを含む様々なフォーマットがある。非消費者向けフォーマットは、「サラウンドアレイ」と呼ばれることが多い任意の数のスピーカー(対称的な、および非対称的な幾何学的配置の)に及ぶことができる。そのようなアレイの一例は、切頭正二十面体の角に座標上で配置される32個のラウドスピーカーを含む。
将来のMPEGエンコーダへの入力は、任意選択で、(i)事前に指定された場所にあるラウドスピーカーを通じて再生されることが意図される(上で論じられたような)従来のチャンネルベースのオーディオ、(ii)(情報の中でもとりわけ)位置座標を含む関連するメタデータを有する、単一のオーディオオブジェクトのための個別のパルス符号変調(PCM)データを伴うオブジェクトベースのオーディオ、および、(iii)球面調和基底関数(「球面調和係数」すなわちSHC、「高次アンビソニックス」すなわちHOA、および「HOA係数」とも呼ばれる)の係数を使用して音場を表すことを伴うシーンベースのオーディオという3つの可能性のあるフォーマットの1つである。将来のMPEGエンコーダは、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、スイスのジュネーブにおいて2013年1月に公表された、国際標準化機構/国際電気標準会議(ISO)/(IEC) JTC1/SC29/WG11/N13411による、「Call for Proposals for 3D Audio」という表題の文書においてより詳細に記述されてもよい。
市場には、様々な「サラウンドサウンド」チャンネルベースのフォーマットがある。それらはたとえば、5.1ホームシアターシステム(ステレオよりもリビングルームに入り込んだという意味では最も成功している)から、NHK(日本放送協会)によって開発された22.2システムにまでわたる。コンテンツ作成者(たとえば、ハリウッドスタジオ)は、映画のサウンドトラックを1回で作成することを望み、各スピーカー構成に対するサウンドトラックをリミックスすることに労力を費やすことを望まない。最近、規格開発団体は、標準化されたビットストリームへの符号化と、スピーカーの幾何学的配置(および数)に適合可能であり依存しない後続の復号と、再生の位置における音響条件(レンダラを含む)とを提供するための方法を検討している。
コンテンツ作成者にそのような柔軟性を提供するために、音場を表すために要素の階層的なセットが使用されてもよい。要素の階層的なセットとは、より低次の要素の基本的なセットがモデル化された音場の完全な表現を提供するように要素が並べられる、要素のセットを指す場合がある。セットが高次の要素を含むように拡張されるにつれて、表現はより詳細になり、分解能が向上する。
要素の階層的なセットの一例は、球面調和係数(SHC)のセットである。次の式は、SHCを使用した音場の記述または表現を示す。
この式は、時間tにおける、音場の任意の点{rr,θr,φr}における圧力piが、SHC、
によって一意に表されることが可能であることを示す。ここで、
であり、cは音の速さ(約343m/s)であり、{rr,θr,φr}は基準の点(または観測点)であり、jn(・)は次数nの球面ベッセル関数であり、
は、次数nおよび位数mの球面調和基底関数である。角括弧の中の項は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、またはウェーブレット変換のような様々な時間-周波数の変換によって近似することができる、信号の周波数領域の表現(すなわち、S{ωr,rr,θr,φr})であることを認識できる。階層的なセットの他の例は、ウェーブレット変換係数のセットと、多分解能基底関数の係数の他のセットとを含む。
ビデオデータはしばしば、対応する同期したオーディオデータとともに表示され、オーディオデータは通常、ビデオデータの視点と一致するように生成される。たとえば、2人の人物がレストランで話している近接した視点を示すビデオのフレームの間は、2人の人物の会話は、他の客の会話、厨房の雑音、背景音楽などの、レストランのあらゆる背景雑音よりも大きく、明瞭である場合がある。2人の人物が話しているより離れた視点を示すビデオフレームの間は、2人の人物の会話は、その源が今回はビデオのフレームの中にある場合がある背景雑音よりも、小さく不明瞭である場合がある。
従来は、視点に関する判断(たとえば、シーンのズームインおよびズームアウトまたはシーンのパンニング)は、コンテンツの最終消費者が元のコンテンツ作成者により選ばれた視点を変える能力をほとんどまたはまったく有しない状態で、コンテンツ作成者により行われる。しかしながら、ユーザがビデオを視聴しているときに自身が見る視点についてあるレベルの制御権を有することが、より一般的になってきている。一例として、フットボール中継の間に、ユーザはフィールドの大部分を映すビデオフィードを受け取る場合があるが、ある特定のプレーヤーまたはプレーヤーのグループにズームインすることが可能である場合がある。本開示は、対応するビデオの知覚の変化と一致する方式でオーディオ再生の知覚を適応させるための技法を紹介する。たとえば、フットボールの試合を観ている間にユーザがクォーターバックにズームインする場合、オーディオも、クォーターバックにズームインするオーディオエフェクトを生み出すように適応されてもよい。
ユーザによるビデオの知覚はまた、ビデオを再生するために使用されているディスプレイのサイズに応じて変化する場合がある。たとえば、10インチのタブレットで映画を視聴しているとき、ディスプレイ全体が視聴者の中心の視界の中にある場合があるが、同じ映画を100インチのテレビジョンで視聴するときは、ディスプレイの外側部分は視聴者の周辺の視界の中にあるだけである場合がある。本開示は、対応するビデオデータのために使用されているディスプレイのサイズに基づいて、オーディオ再生の知覚を適応させるための技法を紹介する。
MPEG-H 3Dオーディオビットストリームは、コンテンツ作成プロセスの間に使用される参照画面サイズの情報をシグナリングするための、新しいビットフィールドを含む。そのいくつかの例が本開示において説明される、MPEG-H 3D準拠のオーディオデコーダは、復号されているオーディオに対応するビデオとともに使用されているディスプレイ構成の実際の画面サイズを決定するようにも構成されてもよい。その結果、本開示の技法によれば、オーディオデコーダは、参照画面サイズおよび実際の画面サイズに基づいてHOA音場を適応させてもよく、その結果、画面に関連するオーディオコンテンツは、ビデオにおいて示されているのと同じ位置から知覚される。
本開示は、オーディオ/ビデオ混合再生の状況において、視覚成分への音響成分の空間的な整合を確実にするために、HOA音場をどのように調整することができるかということについての技法を説明する。本開示の技法は、現在は画面に関連するオーディオオブジェクトしか調整されない、HOAのみのコンテンツに対して、またはHOAとオーディオオブジェクトの組合せを伴うコンテンツに対して、一貫したオーディオ/ビデオ体験を作り出すのを助けるために利用されてもよい。
図1は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。図に見られるように、各次数に対して、示されてはいるが図示を簡単にするために図1の例では明示的に注記されていない、位数mの展開がある。
SHC
は、様々なマイクロフォンアレイ構成によって物理的に取得される(たとえば、記録される)ことが可能であり、または代替的には、音場のチャンネルベースまたはオブジェクトベースの記述から導出されることが可能である。SHCはシーンベースのオーディオを表し、ここでSHCは、より効率的な送信または記憶を促すことがある符号化されたSHCを取得するための、オーディオエンコーダへの入力であってもよい。たとえば、(1+4)2個(25個、したがって4次)の係数を伴う4次の表現が使用されてもよい。
上で述べられたように、SHCは、マイクロフォンアレイを使用したマイクロフォン録音から導出されてもよい。SHCがマイクロフォンアレイからどのように導出されてもよいかの様々な例は、Poletti, M、「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」、J. Audio Eng. Soc、Vol. 53、No. 11、2005年11月、1004-1025頁に記述されている。
SHCがオブジェクトベースの記述からどのように導出されてもよいかを示すために、次の式を検討する。個々のオーディオオブジェクトに対応する音場に対する係数
は、次のように表されてもよい。
ここでiは
であり、
は次数nの(第二種の)球ハンケル関数であり、{rs,θs,φs}はオブジェクトの位置である。オブジェクトソースのエネルギーg(ω)を周波数の関数として(たとえば、PCMストリームに対する高速フーリエ変換の実行のような、時間-周波数分析技法を使用して)知ることによって、各PCMオブジェクトおよび対応する場所をSHC
へと変換することが可能になる。さらに、(上記は線形であり直交方向の分解であるので)各オブジェクトに対する
係数が加法的であることが示されることが可能である。このようにして、多数のPCMオブジェクトが、
係数によって(たとえば、個々のオブジェクトに対する係数ベクトルの合計として)表されることが可能である。基本的に、係数は音場についての情報(3D座標の関数としての圧力)を含み、上記は、観測点{rr,θr,φr}の近傍における個々のオブジェクトから音場全体の表現への変換を表す。以下で、残りの図が、オブジェクトベースおよびSHCベースのオーディオコーディングの状況において説明される。
図2は、本開示において説明される技法の様々な態様を実行する場合があるシステム10を示す図である。図2の例に示されるように、システム10は、コンテンツ作成者デバイス12とコンテンツ消費者デバイス14とを含む。コンテンツ作成者デバイス12およびコンテンツ消費者デバイス14の状況で説明されるが、本技法は、SHC(HOA係数とも呼ばれる場合がある)または音場の任意の他の階層的表現がオーディオデータを表すビットストリームを形成するために符号化されるあらゆる状況において実施されてもよい。その上、コンテンツ作成者デバイス12は、いくつか例を挙げると、ハンドセット(または携帯電話)、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示において説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表す場合がある。同様に、コンテンツ消費者デバイス14は、いくつか例を挙げると、ハンドセット(または携帯電話)、タブレットコンピュータ、スマートフォン、セットトップボックス、スタンドアロン受信機(たとえば、「受信機デバイス」)、テレビジョン(たとえば、「スマートTV」)、またはデスクトップコンピュータを含む、本開示において説明される技法を実施することが可能な任意の形式のコンピューティングデバイスを表してもよい。
コンテンツ作成者デバイス12は、コンテンツ消費者デバイス14のようなコンテンツ消費者デバイスの操作者による消費のためにマルチチャンネルオーディオコンテンツを生成する場合がある、映画スタジオまたは他のエンティティによって操作されてもよい。いくつかの例では、コンテンツ作成者デバイス12は、圧縮HOA係数11を伴うオーディオ信号を生成すること、および1つまたは複数の視野角(FOV)パラメータをオーディオ信号に含めることも望む、個々のユーザにより操作されてもよい。しばしば、コンテンツ作成者はビデオコンテンツとともにオーディオコンテンツを生成する。FOVパラメータは、たとえば、ビデオコンテンツの参照画面サイズを記述してもよい。コンテンツ消費者デバイス14は、個人によって操作されてもよい。コンテンツ消費者デバイス14はオーディオ再生システム16を含んでよく、これは、マルチチャンネルオーディオコンテンツとしての再生のためにSHCをレンダリングすることが可能な任意の形態のオーディオ再生システムを指す場合がある。
コンテンツ作成者デバイス12は、オーディオ編集システム18を含む。コンテンツ作成者デバイス12は、様々なフォーマットのライブ録音7(HOA係数として直接含む)およびオーディオオブジェクト9を取得し、コンテンツ作成者デバイス12はオーディオ編集システム18を使用してこれらを編集してもよい。マイクロフォン5は、ライブ録音7をキャプチャしてもよい。コンテンツ作成者は、編集プロセスの間に、オーディオオブジェクト9からHOA係数11をレンダリングし、さらなる編集を必要とする音場の様々な態様を特定しようと試みて、レンダリングされたスピーカーフィードを聴取してもよい。コンテンツ作成者デバイス12は次いで、(場合によっては、ソースHOA係数が上で説明された方式でそれから導出されてもよい、オーディオオブジェクト9の異なる1つの操作を通じて間接的に)HOA係数11およびFOVパラメータ13を編集してもよい。コンテンツ作成者デバイス12は、オーディオ編集システム18を利用してHOA係数11およびFOVパラメータ13を生成してもよい。オーディオ編集システム18は、1つまたは複数のソース球面調和係数として、オーディオデータを編集し、オーディオデータを出力することが可能な任意のシステムを表す。
編集プロセスが完了すると、コンテンツ作成者デバイス12は、HOA係数11に基づいてオーディオビットストリーム21を生成してもよい。すなわち、コンテンツ作成者デバイス12は、オーディオビットストリーム21を生成するために、本開示において説明された技法の様々な態様に従って、HOA係数11を符号化し、または別様に圧縮するように構成されるデバイスを表す、オーディオ符号化デバイス20を含む。オーディオ符号化デバイス20は、FOVパラメータ13をシグナリングするための値をオーディオビットストリーム21に含めてもよい。オーディオ符号化デバイス20は、一例として、有線チャンネルまたはワイヤレスチャンネル、データ記憶デバイスなどであってもよい送信チャンネルにわたる送信のために、オーディオビットストリーム21を生成してもよい。オーディオビットストリーム21は、HOA係数11の符号化されたバージョンを表す場合があり、主要ビットストリームと、サイドチャンネル情報と呼ばれる場合がある別のサイドビットストリームとを含んでもよい。いくつかの例では、オーディオ符号化デバイス20はサイドチャンネルにFOVパラメータ13を含めてもよいが、他の例では、オーディオ符号化デバイス20は他の箇所にFOVパラメータ13を含めてもよい。さらに他の例では、オーディオ符号化デバイス20はFOVパラメータ13を符号化しなくてもよく、代わりに、オーディオ再生システム16がデフォルトの値をFOVパラメータ13'に割り当ててもよい。
図2ではコンテンツ消費者デバイス14に直接送信されるものとして示されるが、コンテンツ作成者デバイス12は、コンテンツ作成者デバイス12とコンテンツ消費者デバイス14との間に配置された中間デバイスにオーディオビットストリーム21を出力してもよい。中間デバイスは、ビットストリームを要求する場合があるコンテンツ消費者デバイス14への後の配信のために、オーディオビットストリーム21を記憶してもよい。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、携帯電話、スマートフォン、スタンドアロン受信機(受信機デバイスなど)、セットトップボックス、テレビジョン(たとえば、いくつかの例では「スマートTV」であってもよい、統合されたディスプレイおよびスピーカーデバイス)、またはオーディオデコーダによる後の取出しのためにオーディオビットストリーム21を記憶することが可能な任意の他のデバイスを備えてもよい。中間デバイスは、オーディオビットストリーム21を要求するコンテンツ消費者デバイス14のような契約者に、オーディオビットストリーム21をストリーミングすることが(場合によっては対応するビデオデータビットストリームを送信することとともに)可能なコンテンツ配信ネットワーク中に存在してもよい。
代替的に、コンテンツ作成者デバイス12は、オーディオビットストリーム21を、コンパクトディスク、デジタルビデオディスク、高品位ビデオディスク、または他の記憶媒体のような記憶媒体に記憶することができ、これらの大半がコンピュータによって読み取られることが可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれる場合がある。この文脈では、送信チャンネルは、媒体に記憶されたコンテンツがそれによって送信されるチャンネルを指す場合がある(かつ、小売店または他の店舗ベースの配信機構を含む場合がある)。したがって、いずれにしても、本開示の技法はこの点に関して図2の例に限定されるべきではない。
コンテンツ作成者デバイス12はさらに、ビデオデータ23を生成し符号化するように構成されてもよく、コンテンツ消費者デバイス14はビデオデータ23を受信し復号するように構成されてもよい。ビデオデータ23は、オーディオビットストリーム21と関連付けられ、それとともに送信されてもよい。この点において、コンテンツ作成者デバイス12およびコンテンツ消費者デバイス14は、図2に明示的に示されない追加のハードウェアおよびソフトウェアを含んでもよい。コンテンツ作成者デバイス12は、たとえば、ビデオデータを取得するためのカメラ、ビデオデータを編集するためのビデオ編集システム、およびビデオデータを符号化するためのビデオエンコーダを含んでもよく、コンテンツ消費者デバイス14は、ビデオデコーダおよびビデオレンダラも含んでもよい。
図2の例にさらに示されるように、コンテンツ消費者デバイス14はオーディオ再生システム16を含む。オーディオ再生システム16は、マルチチャンネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表す場合がある。オーディオ再生システム16は、いくつかの異なるレンダラ22を含んでもよい。レンダラ22は各々、異なる形式のレンダリングを提供することができ、ここで、異なる形式のレンダリングは、ベクトルベースの振幅パンニング(VBAP)を実行する様々な方法の1つまたは複数、および/または、音場合成を実行する様々な方法の1つまたは複数を含んでもよい。本明細書で使用される場合、「Aおよび/またはB」は「AまたはB」、または「AとB」の両方を意味する。
オーディオ再生システム16はさらに、オーディオ復号デバイス24を含んでもよい。オーディオ復号デバイス24は、オーディオビットストリーム21からHOA係数11'およびFOVパラメータ13'を復号するように構成されるデバイスを表すことができ、HOA係数11'は、HOA係数11と同様である場合があるが、有損失の動作(たとえば、量子化)および/または送信チャンネルを介した送信が原因で異なる場合がある。FOVパラメータは、対照的に、無損失でコーディングされてもよい。オーディオ再生システム16は、オーディオビットストリーム21を復号してHOA係数11'を取得した後で、HOA係数11'をレンダリングしてラウドスピーカーフィード25を出力してもよい。以下でより詳細に説明されるように、オーディオ再生システム16がHOA係数11'をレンダリングする方式は、いくつかの事例では、ディスプレイ15のFOVパラメータとともにFOVパラメータ13'に基づいて修正されてもよい。ラウドスピーカーフィード25は、1つまたは複数のラウドスピーカー(図示を簡単にするために図2の例に示されていない)を駆動してもよい。ラウドスピーカーは、ラウドスピーカーフィード25によって表されるレンダリングされたオーディオ信号などの、レンダリングされたオーディオ信号を出力するように構成されてもよい。
適切なレンダラを選択するために、またはいくつかの例では、適切なレンダラを生成するために、オーディオ再生システム16は、ラウドスピーカーの数および/またはラウドスピーカーの空間的な配置を示すラウドスピーカー情報13を取得してもよい。いくつかの例では、オーディオ再生システム16は、基準マイクロフォンを使用してラウドスピーカー情報13を取得し、ラウドスピーカー情報13を動的に決定するような方式でラウドスピーカーを駆動してもよい。他の例では、またはラウドスピーカー情報13の動的な決定とともに、オーディオ再生システム16は、オーディオ再生システム16とインターフェースをとりラウドスピーカー情報13を入力するようにユーザを促してもよい。
オーディオ再生システム16は次いで、ラウドスピーカー情報13に基づいて、オーディオレンダラ22の1つを選択してもよい。いくつかの例では、オーディオ再生システム16は、オーディオレンダラ22のいずれもがラウドスピーカー情報13において指定されるラウドスピーカーの幾何学的配置に対して(ラウドスピーカーの幾何学的配置に関する)何らかの閾値の類似性の尺度の範囲内にないとき、ラウドスピーカー情報13に基づいてオーディオレンダラ22の1つを生成してもよい。オーディオ再生システム16は、いくつかの例では、オーディオレンダラ22の既存の1つを選択することを最初に試みることなく、ラウドスピーカー情報13に基づいてオーディオレンダラ22の1つを生成してもよい。1つまたは複数のスピーカー3は次いで、レンダリングされたラウドスピーカーフィード25を再生してもよい。
図2に示されるように、コンテンツ消費者デバイス14はまた、関連するディスプレイデバイスであるディスプレイ15を有する。図2の例では、ディスプレイ15はコンテンツ消費者デバイス14に組み込まれるものとして示されているが、他の例では、ディスプレイ15はコンテンツ消費者デバイス14の外部にあってもよい。以下でより詳細に説明されるように、ディスプレイ15は、FOVパラメータ13'とは別個の1つまたは複数の関連するFOVパラメータを有してもよい。FOVパラメータ13'は、コンテンツ作成の時点の参照画面と関連付けられるパラメータを表し、一方、ディスプレイ15のFOVパラメータは再生のために使用されるビューイングウィンドウのFOVパラメータである。オーディオ再生システム16は、FOVパラメータ13'と、ディスプレイ15と関連付けられるFOVパラメータとの両方に基づいて、オーディオレンダラ22の1つを修正または生成してもよい。
図3は、本開示において説明される技法の様々な態様を実行する場合がある図2の例に示されるオーディオ符号化デバイス20の一例をより詳細に示すブロック図である。オーディオ符号化デバイス20は、コンテンツ分析ユニット26、ベクトルベースの分解ユニット27、および指向性ベースの合成ユニット28を含む。以下で簡単に説明されるが、オーディオ符号化デバイス20に関するさらなる情報およびHOA係数を圧縮または別様に符号化する様々な態様は、2014年5月29日に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という表題の国際特許出願公開第2014/194099号において入手可能である。
コンテンツ分析ユニット26は、HOA係数11のコンテンツを分析して、HOA係数11が生の録音から生成されるコンテンツを表すかオーディオオブジェクトから生成されるコンテンツを表すかを特定するように構成されるユニットを表す。コンテンツ分析ユニット26は、HOA係数11が実際の音場の記録から生成されたか人工的なオーディオオブジェクトから生成されたかを決定してもよい。いくつかの例では、フレーム化されたHOA係数11が録音から生成されたとき、コンテンツ分析ユニット26は、HOA係数11をベクトルベースの分解ユニット27に渡す。いくつかの例では、フレーム化されたHOA係数11が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット26は、HOA係数11を指向性ベースの分解ユニット28に渡す。指向性ベースの分解ユニット28は、HOA係数11の指向性ベースの合成を実行して指向性ベースのビットストリーム21を生成するように構成されるユニットを表す場合がある。
図3の例に示されるように、ベクトルベースの分解ユニット27は、線形可逆変換(LIT)ユニット30、パラメータ計算ユニット32、並べ替えユニット34、フォアグラウンド選択ユニット36、エネルギー補償ユニット38、音響心理学的オーディオコーダユニット40、ビットストリーム生成ユニット42、音場分析ユニット44、係数削減ユニット46、バックグラウンド(BG)選択ユニット48、空間-時間補間ユニット50、および量子化ユニット52を含んでもよい。
線形可逆変換(LIT)ユニット30は、HOAチャンネルの形式でHOA係数11を受け取り、各チャンネルは、球面基底関数(これはHOA[k]と示されることがあり、kはサンプルの現在のフレームまたはブロックを示す場合がある)の所与の次数、位数と関連付けられる係数のブロックまたはフレームを表す。HOA係数11の行列は、D: M x (N+1)2という次元を有する場合がある。
LITユニット30は、特異値分解と呼ばれるある形式の分析を実行するように構成されるユニットを表す場合がある。SVDに関して説明されるが、本開示において説明される技法は、線形的に相関付けられない、エネルギー圧縮された出力のセットを提供する、任意の同様の変換または分解に関して実行されてもよい。また、本開示における「セット」への言及は、特に反対のことが述べられていない限り0ではないセットを指すことが一般に意図されており、いわゆる「空集合」を含む伝統的な数学的な集合の定義を指すことは意図されていない。代替的な変換は、「PCA」と呼ばれることが多い主要成分分析を備える場合がある。状況に応じて、PCAは、いくつか例を挙げると、個別のカルーネンレーベ変換、ホテリング変換、固有直交分解(POD)、および固有値分解(EVD)のような、いくつかの異なる名称で呼ばれる場合がある。オーディオデータを圧縮するという背後の目標につながるそのような演算の特性は、マルチチャンネルオーディオデータの「エネルギー圧縮」および「非相関化」である。
いずれにしても、LITユニット30が例示を目的に特異値分解(これはやはり「SVD」と呼ばれる場合がある)を実行すると仮定すると、LITユニット30は、変換されたHOA係数の2つ以上のセットへとHOA係数11を変換してもよい。変換されたHOA係数の「セット」は、変換されたHOA係数のベクトルを含んでもよい。図3の例では、LITユニット30は、HOA係数11に関してSVDを実行して、いわゆるV行列、S行列、およびU行列を生成してもよい。線形代数において、SVDは、y対zの実数または複素数の行列X(ここでXはHOA係数11のようなマルチチャンネルオーディオデータを表す場合がある)の、次の形式での要素分解を表す場合がある。
X = USV*
Uは、y対yの実数または複素数の単位行列を表す場合があり、ここで、Uのy個の列はマルチチャンネルオーディオデータの左特異ベクトルとして知られている。Sは対角線上に非負の実数を有するy対zの長方の対角行列を表す場合があり、Sの対角方向の値はマルチチャンネルオーディオデータの特異値として知られている。V*(これはVの共役転置を示す場合がある)は、z対zの実数または複素数の単位行列を表す場合があり、ここで、V*のz個の列はマルチチャンネルオーディオデータの右特異ベクトルとして知られている。
いくつかの例では、上で参照されたSVDの数学的表現におけるV*行列は、SVDが複素数を備える行列に適用されてもよいことを反映するために、V行列の共役転置として示される。実数だけを備える行列に適用されるとき、V行列の複素共役(または言い換えると、V*行列)はV行列の転置と見なされる場合がある。下では、図示を簡単にするために、HOA係数11は実数を備え、結果としてV*行列ではなくV行列がSVDを通じて出力されることが仮定される。その上、本開示ではV行列として示されるが、V行列への言及は、適切であればV行列の転置を指すものとして理解されるべきである。V行列であると仮定されるが、本技法は、複素数の係数を有するHOA係数11に同様の方式で適用される場合があり、このときSVDの出力はV*行列である。したがって、この点において、本技法は、V行列を生成するためにSVDを適用することだけに限定されるべきではなく、V*行列を生成するために複素数の成分を有するHOA係数11にSVDを適用することを含んでもよい。
このようにして、LITユニット30は、HOA係数11に関してSVDを実行して、次元D: M x (N+1)2を有するUS[k]ベクトル33(これはSベクトルとUベクトルの組み合わされたバージョンを表す場合がある)と、次元D: (N+1)2 x (N+1)2を有するV[k]ベクトル35とを出力してもよい。US[k]行列中の個々のベクトル要素はXps(k)とも呼ばれる場合があるが、V[k]行列の個々のベクトルはv(k)とも呼ばれる場合がある。
U行列、S行列、およびV行列の分析は、これらの行列がXによって上で表される背後の音場の空間的および時間的な特性を搬送または表現することを明らかにする場合がある。(M個のサンプルの長さの)Uの中のN個のベクトルの各々は、(M個のサンプルによって表される期間について)時間の関数として正規化された別々のオーディオ信号を表す場合があり、これらのオーディオ信号は、互いに直交しており、あらゆる空間的な特性(これは指向性情報とも呼ばれる場合がある)に対して無関係にされている。空間的な形状および場所(r、θ、φ)を表す空間特性は代わりに、個々のi番目のベクトルv(i)(k)によって、V行列(各々長さが(N+1)2である)において表される場合がある。v(i)(k)ベクトルの各々の個々の要素は、関連するオーディオオブジェクトに対する音場の形状(幅を含む)および場所を記述するHOA係数を表す場合がある。U行列およびV行列の中のベクトルの両方が、それらの二乗平均平方根エネルギーが1に等しくなるように正規化される。したがって、Uの中のオーディオ信号のエネルギーは、Sの中の対角線上の要素によって表される。したがって、UとSを乗算してUS[k](個々のベクトル要素Xps(k)を伴う)を形成することで、エネルギーを有するオーディオ信号が表される。SVD分解により、オーディオ時間信号(Uの中の)と、それらのエネルギー(Sの中の)と、それらの空間特性(Vの中の)とを無関係にできることで、本開示において説明される技法の様々な態様がサポートされてもよい。さらに、US[k]とV[k]のベクトル乗算による、背後のHOA[k]係数Xを合成するモデルは、「ベクトルベースの分解」という用語を生じさせ、これは本文書の全体で使用される。
HOA係数11に関して直接実行されるものとして説明されるが、LITユニット30は、HOA係数11から導出されるものに線形可逆変換を適用してもよい。たとえば、LITユニット30は、HOA係数11から導出されるパワースペクトル密度行列に関してSVDを適用してもよい。係数自体ではなくHOA係数のパワースペクトル密度(PSD)に関してSVDを実行することによって、LITユニット30は、プロセッササイクルと記憶空間の1つまたは複数に関する、SVDの実行の計算的な複雑さを低減できる可能性がありながら、SVDがHOA係数に直接適用されているかのように、同じソースオーディオの符号化の効率を達成する場合がある。
パラメータ計算ユニット32は、相関パラメータ(R)、方向特性パラメータ(θ,φ,r)、およびエネルギー特性(e)のような様々なパラメータを計算するように構成されるユニットを表す。現在のフレームに対するパラメータの各々は、R[k]、θ[k]、φ[k]、r[k]、およびe[k]と示されてもよい。パラメータ計算ユニット32は、US[k]ベクトル33に関してエネルギー分析および/または相関付け(またはいわゆる相互相関付け)を実行して、パラメータを特定してもよい。パラメータ計算ユニット32はまた、前のフレーム対するパラメータを決定してもよく、ここで前のフレームパラメータは、US[k-1]ベクトルおよびV[k-1]ベクトルの前のフレームに基づいて、R[k-1]、θ[k-1]、φ[k-1]、r[k-1]、およびe[k-1]と示されてもよい。パラメータ計算ユニット32は、現在のパラメータ37および前のパラメータ39を並べ替えユニット34に出力してもよい。
パラメータ計算ユニット32によって計算されるパラメータは、オーディオオブジェクトを並べ替えてオーディオオブジェクトの自然な評価または経時的な連続性を表すために、並べ替えユニット34によって使用されてもよい。並べ替えユニット34は、第1のUS[k]ベクトル33からのパラメータ37の各々を、第2のUS[k-1]ベクトル33に対するパラメータ39の各々に対して順番に比較してもよい。並べ替えユニット34は、現在のパラメータ37および前のパラメータ39に基づいてUS[k]行列33およびV[k]行列35内の様々なベクトルを並べ替えて(一例として、ハンガリアンアルゴリズムを使用して)、並べ替えられたUS[k]行列33'(これは
と数学的に示される場合がある)と、並べ替えられたV[k]行列35'(これは
と数学的に示される場合がある)とを、フォアグラウンド音声(または支配的な音声-PS)選択ユニット36(「フォアグラウンド選択ユニット36」)およびエネルギー補償ユニット38に出力してもよい。
音場分析ユニット44は、目標ビットレート41を潜在的に達成するために、HOA係数11に関して音場分析を実行するように構成されるユニットを表す場合がある。音場分析ユニット44は、分析および/または受信された目標ビットレート41に基づいて、音響心理学的なコーダの実体の総数(これは、環境またはバックグラウンドチャンネルの総数(BGTOT)と、フォアグラウンドチャンネル、または言い換えると支配的なチャンネルの数との関数である場合がある)を決定してもよい。音響心理学的なコーダの実体の総数は、numHOATransportChannelsと示すことができる。
音場分析ユニット44はまた、やはり目標ビットレート41を潜在的に達成するために、フォアグラウンドチャンネルの総数(nFG)45、バックグラウンド(または言い換えると環境)音場の最小の次数(NBG、または代替的にMinAmbHOAorder)、バックグラウンド音場の最小の次数を表す実際のチャンネルの対応する数(nBGa = (MinAmbHOAorder + 1)2)、および送信すべき追加のBG HOAチャンネルのインデックス(i)(これらは図3の例ではバックグラウンドチャンネル情報43としてまとめて示される場合がある)を決定してもよい。バックグラウンドチャンネル情報42はまた、環境チャンネル情報43と呼ばれる場合がある。numHOATransportChannels - nBGaにより残るチャンネルの各々は、「追加のバックグラウンド/環境チャンネル」、「アクティブなベクトルベースの支配的なチャンネル」、「アクティブな指向性ベースの支配的なチャンネル」、または「完全に非アクティブ」のいずれかであってもよい。一態様では、チャンネルタイプは、2ビット(たとえば、00:指向性ベースの信号、01:ベクトルベースの支配的な信号、10:追加の環境信号、11:非アクティブ信号)による、(「ChannelType」として)示されるシンタックス要素であってもよい。バックグラウンド信号または環境信号の総数nBGaは、(MinAmbHOAorder +1)2+(上の例の)インデックス10がそのフレームのためのビットストリームにおいてチャンネルタイプとして現れる回数によって与えられてもよい。
音場分析ユニット44は、目標ビットレート41に基づいてバックグラウンド(または言い換えると環境)チャンネルの数とフォアグラウンド(または言い換えると支配的な)チャンネルの数とを選択して、目標ビットレート41が比較的高いとき(たとえば、目標ビットレート41が512Kbps以上であるとき)より多数のバックグラウンドおよび/またはフォアグラウンドチャンネルを選択してもよい。一態様では、ビットストリームのヘッダセクションでは、numHOATransportChannelsは8に設定されてもよいが、MinAmbHOAorderは1に設定されてもよい。この状況では、各フレームにおいて、4つのチャンネルが音場のバックグラウンド部分または環境部分を表すために専用であってよく、一方で他の4つのチャンネルは、フレームごとにチャンネルのタイプに応じて変化することが可能であり、たとえば、追加のバックグラウンド/環境チャンネルまたはフォアグラウンド/支配的なチャンネルのいずれかとして使用することが可能である。フォアグラウンド/支配的な信号は、上で説明されたように、ベクトルベースの信号または指向性ベースの信号の1つである可能性がある。
いくつかの例では、フレームに対するベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてChannelTypeインデックスが01である回数によって与えられてもよい。上の態様では、各々の追加のバックグラウンド/環境チャンネル(たとえば、10というChannelTypeに対応する)に対して、可能性のあるHOA係数(最初の4つ以外)のいずれがそのチャンネルにおいて表されてもよいかの対応する情報である。4次のHOAコンテンツに対するこの情報は、HOA係数5〜25を示すためのインデックスであってもよい。最初の4つの環境HOA係数1〜4は、minAmbHOAorderが1に設定されるときはすべて送信されてもよいので、オーディオ符号化デバイスは、5〜25というインデックスを有する追加の環境HOA係数の1つを示すことだけが必要である場合がある。したがって、この情報は、「CodedAmbCoeffIdx」と示される場合がある、(4次のコンテンツでは)5ビットのシンタックス要素を使用して送信されてもよい。いずれにしても、音場分析ユニット44は、バックグラウンドチャンネル情報43およびHOA係数11をバックグラウンド(BG)選択ユニット36に出力し、バックグラウンドチャンネル情報43を係数削減ユニット46およびビットストリーム生成ユニット42に出力し、nFG45をフォアグラウンド選択ユニット36に出力する。
バックグラウンド選択ユニット48は、バックグラウンドチャンネル情報(たとえば、バックグラウンド音場(NBG)ならびに送信すべき追加のBG HOAチャンネルの数(nBGa)およびインデックス(i))に基づいて、バックグラウンドまたは環境HOA係数47を決定するように構成されるユニットを表す場合がある。たとえば、NBGが1に等しいとき、バックグラウンド選択ユニット48は、1以下の次数を有するオーディオフレームの各サンプルに対するHOA係数11を選択してもよい。この例では、バックグラウンド選択ユニット48は次いで、追加のBG HOA係数としてインデックス(i)の1つによって特定されるインデックスを有するHOA係数11を選択し、ここで、nBGaは、図2および図4の例において示されるオーディオ復号デバイス24のようなオーディオ復号デバイスが、オーディオビットストリーム21からのバックグラウンドHOA係数47を解析することを可能にするために、オーディオビットストリーム21において指定されることになるビットストリーム生成ユニット42に提供される。バックグラウンド選択ユニット48は次いで、環境HOA係数47をエネルギー補償ユニット38に出力してもよい。環境HOA係数47は、D: M x [(NBG+1)2 + nBGa]という次元を有する場合がある。環境HOA係数47はまた、「環境HOA係数47」とも呼ばれることがあり、環境HOA係数47の各々が、音響心理学的オーディオコーダユニット40によって符号化されるべき別の環境HOAチャンネル47に対応する。
フォアグラウンド選択ユニット36は、nFG45(これはフォアグラウンドベクトルを特定する1つまたは複数のインデックスを表す場合がある)に基づいて音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたUS[k]行列33'および並べ替えられたV[k]行列35'を選択するように構成されるユニットを表す場合がある。フォアグラウンド選択ユニット36は、nFG信号49(並べ替えられたUS[k]1,…, nFG 49、FG1,…, nfG[k] 49、または
として示されてもよい)を音響心理学的オーディオコーダユニット40に出力してもよく、ここでnFG信号49は次元D: M x nFGを有してもよく、各々がモノオーディオオブジェクトを表す。フォアグラウンド選択ユニット36はまた、音場のフォアグラウンド成分に対応する並べ替えられたV[k]行列35'(またはv(1..nFG)(k) 35')を空間-時間補間ユニット50に出力してもよく、ここで、フォアグラウンド成分に対応する並べ替えられたV[k]行列35'のサブセットは、次元D:(N+1)2 x nFGを有するフォアグラウンドV[k]行列51k(これは、
として数学的に示される場合がある)として示されてもよい。
エネルギー補償ユニット38は、環境HOA係数47に関してエネルギー補償を実行して、バックグラウンド選択ユニット48によるHOAチャンネルの様々なものの削除が原因のエネルギーの損失を補償するように構成されるユニットを表す場合がある。エネルギー補償ユニット38は、並べ替えられたUS[k]行列33'、並べ替えられたV[k]行列35'、nFG信号49、フォアグラウンドV[k]ベクトル51k、および環境HOA係数47の1つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー分析に基づいてエネルギー補償を実行してエネルギー補償された環境HOA係数47'を生成してもよい。エネルギー補償ユニット38は、エネルギー補償された環境HOA係数47'を音響心理学的オーディオコーダユニット40に出力してもよい。
空間-時間補間ユニット50は、k番目のフレームに対するフォアグラウンドV[k]ベクトル51kと前のフレーム(したがってk-1という表記である)に対するフォアグラウンドV[k-1]ベクトル51k-1とを受信して、空間-時間補間を実行して補間されたフォアグラウンドV[k]ベクトルを生成するように構成されるユニットを表す場合がある。空間-時間補間ユニット50は、nFG信号49をフォアグラウンドV[k]ベクトル51kと再び組み合わせて、並べ替えられたフォアグラウンドHOA係数を復元してもよい。空間-時間補間ユニット50は次いで、並べ替えられたフォアグラウンドHOA係数を補間されたV[k]ベクトルによって除算し、補間されたnFG信号49'を生成してもよい。空間-時間補間ユニット50はまた、オーディオ復号デバイス24のようなオーディオ復号デバイスが補間されたフォアグラウンドV[k]ベクトルを生成してそれによってフォアグラウンドV[k]ベクトル51kを復元できるように、補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kを出力してもよい。補間されたフォアグラウンドV[k]を生成するために使用されるフォアグラウンドV[k]ベクトル51kは、残りのフォアグラウンドV[k]ベクトル53として示される。同じV[k]およびV[k-1]が(補間されたベクトルV[k]を作成するために)エンコーダおよびデコーダにおいて使用されることを確実にするために、ベクトルの量子化された/逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用されてもよい。空間-時間補間ユニット50は、補間されたnFG信号49'を音響心理学的オーディオコーダユニット46に出力し、補間されたフォアグラウンドV[k]ベクトル51kを係数削減ユニット46に出力してもよい。
係数削減ユニット46は、バックグラウンドチャンネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関する係数削減を実行して、削減されたフォアグラウンドV[k]ベクトル55を量子化ユニット52に出力するように構成されるユニットを表す場合がある。削減されたフォアグラウンドV[k]ベクトル55は、次元D:[(N+1)2-(NBG+1)2-BGTOT] x nFGを有する場合がある。係数削減ユニット46は、この点で、残りのフォアグラウンドV[k]ベクトル53の中の係数の数を削減するように構成されるユニットを表す場合がある。言い換えると、係数削減ユニット46は、指向性情報をほとんどまたはまったく有しないフォアグラウンドV[k]ベクトルの中の係数(これらが残りのフォアグラウンドV[k]ベクトル53を形成する)を除去するように構成されるユニットを表す場合がある。いくつかの例では、1次および0次の基底関数(NBGとして示されてもよい)に対応する、明瞭な、または言い換えるとフォアグラウンドのV[k]ベクトルの係数は、ほとんど指向性情報を提供しないので、フォアグラウンドVベクトルから(「係数削減」と呼ばれる場合があるプロセスを通じて)除去することができる。この例では、NBGに対応する係数を特定するためだけではなく、[(NBG +1)2+1, (N+1)2]のセットから追加のHOAチャンネル(変数TotalOfAddAmbHOAChanによって示されてもよい)を特定するためにも、より大きい柔軟性が提供されてもよい。
量子化ユニット52は、任意の形式の量子化を実行して削減されたフォアグラウンドV[k]ベクトル55を圧縮して、コーディングされたフォアグラウンドV[k]ベクトル57を生成し、コーディングされたフォアグラウンドV[k]ベクトル57をビットストリーム生成ユニット42に出力するように構成されるユニットを表す場合がある。動作において、量子化ユニット52は、音場の空間成分、すなわちこの例では削減されたフォアグラウンドV[k]ベクトル55の1つまたは複数を圧縮するように構成されるユニットを表す場合がある。量子化ユニット52は、「NbitsQ」と表記される量子化モードシンタックス要素によって示されるような、以下の12個の量子化モードのうちの任意の1つを実行してもよい。
NbitsQの値 量子化モードのタイプ
0-3: 予備
4: ベクトル量子化
5: ハフマンコーディングを伴わないスカラー量子化
6: ハフマンコーディングを伴う6ビットスカラー量子化
7: ハフマンコーディングを伴う7ビットスカラー量子化
8: ハフマンコーディングを伴う8ビットスカラー量子化
… …
16: ハフマンコーディングを伴う16ビットスカラー量子化
量子化ユニット52はまた、上述のタイプの量子化モードのいずれかの予測されるバージョンを実行してもよく、前のフレームのVベクトルの要素(またはベクトル量子化が実行されたときの重み)と、現在のフレームのVベクトルの要素(またはベクトル量子化が実行されたときの重み)との間の差分が決定される。次いで、量子化ユニット52は、現在のフレームのVベクトルの要素の値自体ではなく、現在のフレームの要素または重みと前のフレームの要素または重みとの間の差分を量子化してもよい。
量子化ユニット52は、削減されたフォアグラウンドV[k]ベクトル55の各々に対して複数の形態の量子化を実行して、削減されたフォアグラウンドV[k]ベクトル55の複数のコーディングされたバージョンを取得してもよい。量子化ユニット52は、削減されたフォアグラウンドV[k]ベクトル55のコーディングされたバージョンの1つを、コーディングされたフォアグラウンドV[k]ベクトル57として選択してもよい。言い換えれば、量子化ユニット52は、本開示において論じられる基準の任意の組合せに基づいて、予測されないベクトル量子化されたVベクトル、予測されるベクトル量子化されたVベクトル、ハフマンコーディングされていないスカラー量子化されたVベクトル、およびハフマンコーディングされたスカラー量子化されたVベクトルの1つを選択して、出力が切り替えられる量子化されたVベクトルとして使用してもよい。いくつかの例では、量子化ユニット52は、ベクトル量子化モードおよび1つまたは複数のスカラー量子化モードを含む量子化モードのセットから量子化モードを選択し、選択された量子化モードに基づいて(または従って)、入力Vベクトルを量子化してもよい。次いで、量子化ユニット52は、(たとえば、重み値またはそれを示すビットに関する)予測されないベクトル量子化されたVベクトル、(たとえば、誤り値またはそれを示すビットに関する)予測されるベクトル量子化されたVベクトル、ハフマンコーディングされていないスカラー量子化されたVベクトル、およびハフマンコーディングされたスカラー量子化されたVベクトルのうちの選択された1つを、コーディングされたフォアグラウンドV[k]ベクトル57としてビットストリーム生成ユニット42に提供してもよい。量子化ユニット52はまた、量子化モードを示すシンタックス要素(たとえば、NbitsQシンタックス要素)と、Vベクトルを逆量子化するために、または別様に再構築するために使用される任意の他のシンタックス要素とを提供してもよい。
オーディオ符号化デバイス20内に含まれる音響心理学的オーディオコーダユニット40は、音響心理学的オーディオコーダの複数の実体を表してもよく、これらの各々が、エネルギー補償された環境HOA係数47'と補間されたnFG信号49'の各々の異なるオーディオオブジェクトまたはHOAチャンネルを符号化して、符号化されたHOA係数59および符号化されたnFG信号61を生成するために使用される。音響心理学的オーディオコーダユニット40は、符号化された環境HOA係数59および符号化されたnFG信号61をビットストリーム生成ユニット42に出力してもよい。
オーディオ符号化デバイス20内に含まれるビットストリーム生成ユニット42は、既知のフォーマット(復号デバイスにより知られているフォーマットを指す場合がある)に合わせるためにデータをフォーマットし、それによってベクトルベースのビットストリーム21を生成するユニットを表す。オーディオビットストリーム21は、言い換えると、上で説明された方式で符号化されている、符号化されたオーディオデータを表す場合がある。ビットストリーム生成ユニット42は、いくつかの例ではマルチプレクサを表すことがあり、マルチプレクサは、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャンネル情報43とを受け取ってもよい。ビットストリーム生成ユニット42は次いで、コーディングされたフォアグラウンドV[k]ベクトル57、符号化された環境HOA係数59、符号化されたnFG信号61、およびバックグラウンドチャンネル情報43に基づいて、オーディオビットストリーム21を生成してもよい。このようにして、ビットストリーム生成ユニット42はそれによって、オーディオビットストリーム21の中でベクトル57を指定してオーディオビットストリーム21を取得してもよい。オーディオビットストリーム21は、一次ビットストリームまたは主要ビットストリームと、1つまたは複数のサイドチャンネルビットストリームとを含んでもよい。
図3の例には示されないが、オーディオ符号化デバイス20はまた、現在のフレームが指向性ベースの合成を使用して符号化されるべきか、またはベクトルベースの合成を使用して符号化されるべきかに基づいて、オーディオ符号化デバイス20からビットストリーム出力を(たとえば、指向性ベースのビットストリーム21とベクトルベースのビットストリーム21との間で)切り替える、ビットストリーム出力ユニットを含んでもよい。ビットストリーム出力ユニットは、(HOA係数11が合成オーディオオブジェクトから生成されたことを検出した結果として)指向性ベースの合成が実行されたか、または(HOA係数が記録されたことを検出した結果として)ベクトルベースの合成が実行されたかを示す、コンテンツ分析ユニット26によって出力されるシンタックス要素に基づいて、切替えを実行してもよい。ビットストリーム出力ユニットは、オーディオビットストリーム21のそれぞれの1つとともに、切替えを、または現在のフレームのために使用される現在の符号化を示すために、正しいヘッダシンタックスを指定してもよい。
その上、上で述べられたように、音場分析ユニット44は、環境HOA係数47に対するBGTOTを特定することができ、これはフレームごとに変化する場合がある(ただし、時には、BGTOTは2つ以上の(時間的に)隣接するフレームにわたって一定または同一のままであることがある)。BGTOTの変化は、削減されたフォアグラウンドV[k]ベクトル55において表される係数の変化をもたらす場合がある。BGTOTの変化は、フレームごとに変化するバックグラウンドHOA係数(「環境HOA係数」とも呼ばれる場合がある)をもたらす場合がある(ただし、やはり時には、BGTOTは2つ以上の(時間的に)隣接するフレームにわたって一定または同一のままであることがある)。この変化はしばしば、追加の環境HOA係数の追加または除去、および削減されたフォアグラウンドV[k]ベクトル55からの係数の対応する除去またはそれへの係数の対応する追加によって表される、音場の態様に対するエネルギーの変化をもたらす場合がある。
結果として、音場分析ユニット44はさらに、環境HOA係数がいつ変化するかをフレームごとに決定し、音場の環境成分を表すために使用されるという点で環境HOA係数に対する変化を示すフラグまたは他のシンタックス要素を生成してもよい(ここでこの変化は、環境HOA係数の「遷移」または環境HOA係数の「遷移」とも呼ばれる場合がある)。具体的には、係数削減ユニット46は、フラグ(AmbCoeffTransitionフラグまたはAmbCoeffIdxTransitionフラグとして示されてもよい)を生成して、フラグがオーディオビットストリーム21に含まれてもよいようにフラグをビットストリーム生成ユニット42に(場合によってはサイドチャンネル情報の一部として)提供してもよい。
係数削減ユニット46はまた、環境係数遷移フラグを指定することに加えて、削減されたフォアグラウンドV[k]ベクトル55がどのように生成されるかを修正してもよい。一例では、環境HOA係数の1つが現在のフレームの間に遷移中であると決定すると、係数削減ユニット46は、遷移中の環境HOA係数に対応する削減されたフォアグラウンドV[k]ベクトル55のVベクトルの各々に対するベクトル係数(「ベクトル要素」または「要素」とも呼ばれる場合がある)を指定してもよい。やはり、遷移中の環境HOA係数は、バックグラウンド係数の総数BGTOTを増大または減少させてもよい。したがって、バックグラウンド係数の総数の結果として起こる変化は、環境HOA係数がビットストリームに含まれるか含まれないかに、および、Vベクトルの対応する要素が上で説明された第2および第3の構成モードにおいてビットストリーム中で指定されるVベクトルのために含まれるかどうかに、影響を与える。係数削減ユニット46が、どのように、削減されたフォアグラウンドV[k]ベクトル55を指定してエネルギーにおける変化を克服するかに関するより多くの情報は、2015年1月12日に出願された「TRANSITIONING OF AMBIENT HIGHER-ORDER AMBISONIC COEFFICIENTS」と題する米国特許出願第14/594,533号において提供される。
図4は、図2のオーディオ復号デバイス24をより詳細に示すブロック図である。図4の例に示されるように、オーディオ復号デバイス24は、抽出ユニット72と、指向性ベースの再構築ユニット90と、ベクトルベースの再構築ユニット92とを含んでもよい。以下で説明されるが、オーディオ復号デバイス24に関するさらなる情報およびHOA係数を展開または別様に復号する様々な態様は、2014年5月29日に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という表題の国際特許出願公開第2014/194099号において入手可能である。
抽出ユニット72は、オーディオビットストリーム21を受信し、HOA係数11の様々な符号化されたバージョン(たとえば、指向性ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン)を抽出するように構成されるユニットを表す場合がある。抽出ユニット72は、HOA係数11が、様々な指向性ベースのバージョンを介して符号化されたか、またはベクトルベースのバージョンを介して符号化されたかを示す、上で述べられたシンタックス要素から決定してもよい。指向性ベースの符号化が実行されたとき、抽出ユニット72は、HOA係数11の指向性ベースのバージョンと、符号化されたバージョンと関連付けられるシンタックス要素(これは図4の例では指向性ベースの情報91として示される)とを抽出し、指向性ベースの情報91を指向性ベースの再構築ユニット90に渡すことができる。指向性ベースの再構築ユニット90は、指向性ベースの情報91に基づいてHOA係数11'の形式でHOA係数を再構築するように構成されるユニットを表す場合がある。ビットストリームおよびビットストリーム内でのシンタックス要素の配置が、図7A〜図7Jの例に関してより詳細に以下で説明される。
HOA係数11がベクトルベースの合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57(これはコーディングされた重み57および/もしくはインデックス63またはスカラー量子化されたVベクトルを含んでもよい)、符号化された環境HOA係数59、および対応するオーディオオブジェクト61(これは符号化されたnFG信号61とも呼ばれる場合がある)を抽出してもよい。オーディオオブジェクト61は各々、ベクトル57の1つに対応する。抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57をVベクトル再構築ユニット74に、符号化された環境HOA係数59とともに符号化されたnFG信号61を音響心理学的復号ユニット80に渡すことができる。
Vベクトル再構築ユニット74は、符号化されたフォアグラウンドV[k]ベクトル57からVベクトルを再構築するように構成されるユニットを表す場合がある。Vベクトル再構築ユニット74は、量子化ユニット52とは逆の方式で動作してもよい。
音響心理学的復号ユニット80は、符号化された環境HOA係数59および符号化されたnFG信号61を復号し、それによって、エネルギー補償された環境HOA係数47'および補間されたnFG信号49'(補間されたnFGオーディオオブジェクト49'とも呼ばれる場合がある)を生成するために、図3の例に示される音響心理学的オーディオコーダユニット40とは逆の方式で動作してもよい。音響心理学的復号ユニット80は、エネルギー補償された環境HOA係数47'をフェードユニット770に渡し、nFG信号49'をフォアグラウンド編成ユニット78に渡すことができる。
空間-時間補間ユニット76は、空間-時間補間ユニット50に関して上で説明されたものと同様の方式で動作してもよい。空間-時間補間ユニット76は、削減されたフォアグラウンドV[k]ベクトル55kを受け取り、フォアグラウンドV[k]ベクトル55kおよび削減されたフォアグラウンドV[k-1]ベクトル55k-1に関して空間-時間補間を実行して、補間されたフォアグラウンドV[k]ベクトル55k''を生成してもよい。空間-時間補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55k''をフェードユニット770に転送してもよい。
抽出ユニット72はまた、環境HOA係数の1つが遷移中であることを示す信号757をフェードユニット770に出力することができ、フェードユニット770は次いで、SHCBG47'(ここでSHCBG47'は「環境HOAチャンネル47''」または「環境HOA係数47''」とも示されてもよい)と補間されたフォアグラウンドV[k]ベクトル55k''の要素のどちらがフェードインまたはフェードアウトされるかを決定してもよい。いくつかの例では、フェードユニット770は、環境HOA係数47'および補間されたフォアグラウンドV[k]ベクトル55k''の要素の各々に関して逆に動作してもよい。すなわち、フェードユニット770は、環境HOA係数47'の対応する1つに関するフェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行しながら、補間されたフォアグラウンドV[k]ベクトル55k''の要素の対応する1つに関するフェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行してもよい。フェードユニット770は、調整された環境HOA係数47''をHOA係数編成ユニット82に出力し、調整されたフォアグラウンドV[k]ベクトル55k''をフォアグラウンド編成ユニット78に出力してもよい。この点において、フェードユニット770は、たとえば環境HOA係数47'および補間されたフォアグラウンドV[k]ベクトル55k''の要素の形の、HOA係数の様々な態様またはHOA係数から導出されたものに関して、フェード動作を実行するように構成されるユニットを表す。
フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55k'''および補間されたnFG信号49'に関して行列乗算を実行して、フォアグラウンドHOA係数65を生成するように構成される、ユニットを表す場合がある。この点において、フォアグラウンド編成ユニット78は、(補間されたnFG信号49'を表記するための別の方法である)オーディオオブジェクト49'をベクトル55k'''と結合して、HOA係数11'のフォアグラウンドの、言い換えれば顕著な側面を再構築してもよい。フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55k'''によって補間されたnFG信号49'の行列乗算を実行してもよい。
HOA係数編成ユニット82は、HOA係数11'を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47''と組み合わせるように構成されるユニットを表す場合がある。プライム表記は、HOA係数11'がHOA係数11と類似する場合があるが同じではないことを反映する。HOA係数11と11'との間の差分は、有損失の送信媒体、量子化、または他の有損失の動作を介する送信が原因の損失に起因する場合がある。
図5は、本開示において説明されるベクトルベースの合成技法の様々な態様を実行する際の、図3の例に示されるオーディオ符号化デバイス20のようなオーディオ符号化デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ符号化デバイス20は、HOA係数11を受け取る(106)。オーディオ符号化デバイス20はLITユニット30を呼び出すことができ、LITユニット30は、HOA係数に関してLITを適用して変換されたHOA係数を出力してもよい(たとえば、SVDの場合、変換されたHOA係数はUS[k]ベクトル33およびV[k]ベクトル35を備える場合がある)(107)。
オーディオ符号化デバイス20は次に、パラメータ計算ユニット32を呼び出して、US[k]ベクトル33、US[k-1]ベクトル33、V[k]および/またはV[k-1]ベクトル35の任意の組合せに関して上で説明された分析を実行して、上で説明された方式で様々なパラメータを特定してもよい。すなわち、パラメータ計算ユニット32は、変換されたHOA係数33/35の分析に基づいて、少なくとも1つのパラメータを決定してもよい(108)。
オーディオ符号化デバイス20は次いで、並べ替えユニット34を呼び出すことができ、並べ替えユニット34は、上で説明されたように、並べ替えられた変換されたHOA係数33'/35'(または言い換えると、US[k]ベクトル33'およびV[k]ベクトル35')を生成するために、パラメータに基づいて変換されたHOA係数(これは、SVDの状況ではやはり、US[k]ベクトル33およびV[k]ベクトル35を指す場合がある)を並べ替えることができる(109)。オーディオ符号化デバイス20は、前述の動作または後続の動作のいずれかの間に、音場分析ユニット44を呼び出すこともできる。音場分析ユニット44は、上で説明されたように、HOA係数11および/または変換されたHOA係数33/35に関して音場分析を実行して、フォアグラウンドチャンネルの総数(nFG)45、バックグラウンド音場の次数(NBG)、および、送信すべき追加のBG HOAチャンネルの数(nBGa)とインデックス(i)(これらは図3の例ではまとめてバックグラウンドチャンネル情報43として示されてもよい)を決定してもよい(109)。
オーディオ符号化デバイス20はまた、バックグラウンド選択ユニット48を呼び出すことができる。バックグラウンド選択ユニット48は、バックグラウンドチャンネル情報43に基づいて、バックグラウンドまたは環境HOA係数47を決定してもよい(110)。オーディオ符号化デバイス20はさらに、フォアグラウンド選択ユニット36を呼び出すことができ、フォアグラウンド選択ユニット36は、nFG45(これはフォアグラウンドベクトルを特定する1つまたは複数のインデックスを表す場合がある)に基づいて音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたUS[k]ベクトル33'および並べ替えられたV[k]ベクトル35'を選択してもよい(112)。
オーディオ符号化デバイス20は、エネルギー補償ユニット38を呼び出すことができる。エネルギー補償ユニット38は、環境HOA係数47に関してエネルギー補償を実行して、バックグラウンド選択ユニット48によるHOA係数の様々な1つの削除が原因のエネルギーの損失を補償し(114)、それによって、エネルギー補償された環境HOA係数47'を生成してもよい。
オーディオ符号化デバイス20はまた、空間-時間補間ユニット50を呼び出すことができる。空間-時間補間ユニット50は、並べ替えられた変換されたHOA係数33'/35'に関して空間-時間補間を実行して、補間されたフォアグラウンド信号49'(「補間されたnFG信号49'」とも呼ばれる場合がある)および残りのフォアグラウンド指向性情報53(「V[k]ベクトル53'」とも呼ばれる場合がある)を取得してもよい(116)。オーディオ符号化デバイス20は次いで、係数削減ユニット46を呼び出すことができる。係数削減ユニット46は、バックグラウンドチャンネル情報43に基づいて、残りのフォアグラウンドV[k]ベクトル53に関して係数削減を実行して、削減されたフォアグラウンド指向性情報55(削減されたフォアグラウンドV[k]ベクトル55とも呼ばれる場合がある)を取得してもよい(118)。
オーディオ符号化デバイス20は次いで、量子化ユニット52を呼び出して、上で説明された方式で、削減されたフォアグラウンドV[k]ベクトル55を圧縮し、コーディングされたフォアグラウンドV[k]ベクトル57を生成してもよい(120)。
オーディオ符号化デバイス20はまた、音響心理学的オーディオコーダユニット40を呼び出すことができる。音響心理学的オーディオコーダユニット40は、エネルギー補償された環境HOA係数47'および補間されたnFG信号49'の各ベクトルを音響心理学的にコーディングし、符号化された環境HOA係数59および符号化されたnFG信号61を生成してもよい。オーディオ符号化デバイスは次いで、ビットストリーム生成ユニット42を呼び出すことができる。ビットストリーム生成ユニット42は、コーディングされたフォアグラウンド指向性情報57、コーディングされた環境HOA係数59、コーディングされたnFG信号61、およびバックグラウンドチャンネル情報43に基づいて、オーディオビットストリーム21を生成してもよい。
図6は、本開示において説明される技法の様々な態様を実行する際の、図4に示されるオーディオ復号デバイス24のようなオーディオ復号デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ復号デバイス24は、オーディオビットストリーム21を受信してもよい(130)。ビットストリームを受信すると、オーディオ復号デバイス24は、抽出ユニット72を呼び出すことができる。議論の目的で、ベクトルベースの再構築が実行されるべきであることをオーディオビットストリーム21が示すと仮定すると、抽出ユニット72は、ビットストリームを解析して上で述べられた情報を取り出し、この情報をベクトルベースの再構築ユニット92に渡すことができる。
言い換えると、抽出ユニット72は、コーディングされたフォアグラウンド指向性情報57(やはり、コーディングされたフォアグラウンドV[k]ベクトル57とも呼ばれる場合がある)、コーディングされた環境HOA係数59、およびコーディングされたフォアグラウンド信号(コーディングされたフォアグラウンドnFG信号61またはコーディングされたフォアグラウンドオーディオオブジェクト61とも呼ばれる場合がある)を、上で説明された方式でオーディオビットストリーム21から抽出してもよい(132)。
オーディオ復号デバイス24はさらに、逆量子化ユニット74を呼び出すことができる。逆量子化ユニット74は、コーディングされたフォアグラウンド指向性情報57をエントロピー復号し逆量子化して、削減されたフォアグラウンド指向性情報55kを取得してもよい(136)。オーディオ復号デバイス24はまた、音響心理学的復号ユニット80を呼び出すことができる。音響心理学的復号ユニット80は、符号化された環境HOA係数59および符号化されたフォアグラウンド信号61を復号して、エネルギー補償された環境HOA係数47'および補間されたフォアグラウンド信号49'を取得してもよい(138)。音響心理学的復号ユニット80は、エネルギー補償された環境HOA係数47'をフェードユニット770に渡し、nFG信号49'をフォアグラウンド編成ユニット78に渡すことができる。
オーディオ復号デバイス24は次に、空間-時間補間ユニット76を呼び出すことができる。空間-時間補間ユニット76は、並べ替えられたフォアグラウンド指向性情報55k'を受け取り、削減されたフォアグラウンド指向性情報55k/55k-1に関して空間-時間補間を実行して、補間されたフォアグラウンド指向性情報55k''を生成してもよい(140)。空間-時間補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55k''をフェードユニット770に転送してもよい。
オーディオ復号デバイス24は、フェードユニット770を呼び出すことができる。フェードユニット770は、エネルギー補償された環境HOA係数47'がいつ遷移中であるかを示すシンタックス要素(たとえば、AmbCoeffTransitionシンタックス要素)を、(たとえば抽出ユニット72から)受信し、または別様に取得してもよい。フェードユニット770は、遷移シンタックス要素および維持される遷移状態情報に基づいて、調整された環境HOA係数47''をHOA係数編成ユニット82に出力する、エネルギー補償された環境HOA係数47'をフェードインまたはフェードアウトしてもよい。フェードユニット770はまた、シンタックス要素および維持されている遷移状態情報に基づいて、調整されたフォアグラウンドV[k]ベクトル55k'''をフォアグラウンド編成ユニット78に出力する、補間されたフォアグラウンドV[k]ベクトル55k''の対応する1つまたは複数の要素をフェードアウトまたはフェードインしてもよい(142)。
オーディオ復号デバイス24は、フォアグラウンド編成ユニット78を呼び出すことができる。フォアグラウンド編成ユニット78は、調整されたフォアグラウンド指向性情報55k'''によるnFG信号49'の行列乗算を実行して、フォアグラウンドHOA係数65を取得してもよい(144)。オーディオ復号デバイス24はまた、HOA係数編成ユニット82を呼び出すことができる。HOA係数編成ユニット82は、HOA係数11'を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47''に加算してもよい(146)。
本開示の技法によれば、オーディオ復号デバイス24は、作成画面サイズおよび再生ウィンドウサイズに基づいてHOAエフェクト行列を計算してもよい。HOAエフェクト行列は次いで、画面に関連するHOAレンダリング行列を作り出すために所与のHOAレンダリング行列Rと乗じられてもよい。いくつかの実装形態では、HOAレンダリング行列の適応は、たとえば、ランタイムの複雑さが上がらないように、オーディオ復号デバイス24の初期化段階の間にオフラインで行われてもよい。
本開示の1つの提案される技法は、球面上の900個の等しく離隔されたサンプリング点(Ω900)を使用し、サンプリング点の各々は、ISO/IEC DIS 23008-3、Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio(以後「DIS 23008」)のAnnex F.9に記載されるように方向(θ,φ)を用いて定義される。それらの方向に基づいて、オーディオ復号デバイス24は、DIS 23008のAnnex F.1.5において概説されるようにモード行列Ψ900を計算してもよい。オーディオ復号デバイス24は、マッピング関数を介してそれらの900個のサンプリング点の方向を修正してもよく、オーディオ復号デバイス24は、それに従って修正されたモード行列Ψm 900を計算してもよい。画面に関連するオーディオオブジェクトと画面に関連するHOAコンテンツとの不一致を避けるために、オーディオ復号デバイス24は、DIS 23008の18.3項にすでに記載されているものと同じマッピング関数を使用してもよい。オーディオ復号デバイス24は、エフェクト行列Fを
として計算してもよい。
次いでオーディオ復号デバイス24は、画面に関連するレンダリング行列を
D = RF (2)
として計算してもよい。
いくつかの例では、オーディオ復号デバイス24は、上で説明された処理ステップの1つまたは複数の反復を避けるために、行列pinv
を事前に計算して記憶してもよい。Dを生成するための式(1)および(2)における残りの演算の総数は(900+M)*(N+1)4である。次数がN=4かつM=22のスピーカーについてのレンダリング行列では、複雑さは約0.58加重MOPSである。本開示の別の提案される技法によれば、オーディオ復号デバイス24は、予備エフェクト行列およびラウドネス補償を使用して、画面に関連するレンダリング行列を生成してもよい。上で説明された方式における900個の等しく離隔されたサンプリング点を使用することと比較すると、予備エフェクト行列およびラウドネス補償を使用することは、望ましい品質を達成しながらオーディオ復号デバイス24の処理の複雑さを下げる場合がある。レンダリング行列を考慮せずにエフェクト行列を計算することで、オーディオ復号デバイス24は、計算的な複雑さを大きく高める一方で、すべてのスピーカーが同じ平面に位置する傾向がある5.1または7.1スピーカー構成などの一部のスピーカー構成に対して、音質の観点でほとんどまたはまったく利益をもたらさない場合がある。加えて、いくつかのHOA領域の計算をラウドスピーカー領域の計算で置き換えることで、オーディオ復号デバイス24は全体的な計算の複雑さを下げる場合があり、それは、HOA領域の計算がラウドスピーカー領域の計算と比較して相対的に複雑な傾向があるからである。
オーディオ復号デバイス24は、M個の等距離の空間的な方向に基づいてマッピングを計算してもよい。
- M > (N+1)2、ここでNはHOAの次数である。
オーディオ復号デバイス24は、ラウドスピーカーフィード領域の中にある予備エフェクト行列
を、次のように、元のレンダリング行列Rを用いてレンダリングされたこれらの方向と関連付けられるHOA係数から計算してもよい。
本開示の態様による別の例では、オーディオ復号デバイス24は、ラウドスピーカーフィード領域の中にある予備エフェクト行列
を、次のように、元のレンダリング行列Rを用いてレンダリングされたこれらの方向と関連付けられるHOA係数から計算してもよい。
ここで、DIS, Annex F.1.5に記載されるように、
である。
本開示の態様による他の例では、オーディオ復号デバイス24は、レンダリング行列Rを使用せずに、予備エフェクト行列
を計算してもよい。これらの例によれば、オーディオ復号デバイス24は、HOA領域の中にある予備エフェクト行列
を、次のように、元のレンダリング行列Rを用いてレンダリングされたこれらの方向と関連付けられるHOA係数から計算してもよい。
ここで、DIS, Annex F.1.5に記載されるように、
である。
本開示のいくつかの例によれば、オーディオ復号デバイス24は、ラウドスピーカーフィード領域の中にある最終行列Fの各々の空間的な方向lに対して、次のようにラウドネス補償を適用してもよい。
本開示の態様による例では、オーディオ復号デバイス24は、ラウドスピーカーフィード領域の中にある最終行列Fの各々の空間的な方向lに対して、次のようにラウドネス補償を適用してもよい。
予備エフェクト行列
(たとえば、HOA領域の中の)がレンダリング行列Rを使用せずに計算される本開示の他の例では、オーディオ復号デバイス24は、最終行列F(たとえば、HOA行列の中の)の各々の空間的な方向lに対して、次のようにラウドネス補償を適用してもよい。
いくつかの例では、オーディオ復号デバイス24は、本開示の技法を実施して、対応するビデオデータに影響する視点の変化に対応するようにモード行列Ψ(O,M)を動的に生成してもよい。オーディオ復号デバイス24は、本技法を実施して、本明細書において論じられる様々な視点パラメータのうちの任意の1つまたは複数に基づいてモード行列Ψ(O,M)を操作してもよいことが理解されるだろう。例として、モード行列Ψ(O,M)の動的な視点ベースの更新が、ビデオデータのズーミング情報に関して以下で説明される。動的なズーミング事象の間、オーディオ復号デバイス24は、動的に更新されるモード行列Ψ(O,M)を使用して新しいエフェクト行列Fを計算してもよい。動的なズーミング事象の終了を検出すると(たとえば、ズーミング状態が現在静的であることを検出すると)、オーディオ復号デバイス24は、使用される空間サンプリング点の数(「M」)が900であるモード行列Ψm 900に戻ってもよい。以下でより詳細に説明されるように、オーディオ復号デバイス24は、本開示の画面ベースの適応技法を実施して、コンピューティングリソースの使用量を節約しながら動的なズーミング事象に対応してもよい。
オーディオ復号デバイス24が動的なズーム事象に対応するために実施してもよい本開示の画面ベースの適応技法の例が、以下で概説されるステップを使用して(たとえば、オーディオ復号デバイス24のコンポーネントの様々な組合せによって)実行されてもよい。まず、オーディオ復号デバイス24は、DIS 23008のAnnex F.1.5において概説されるようにモード行列Ψ(O,M)を生成してもよい。対応するビデオコンテンツの視点が静的である(たとえば、ズーム事象が現在発生していない)ことをオーディオ復号デバイス24が検出する場合、オーディオ復号デバイス24は「M」の値を900(九百)となるように設定してもよい。言い換えると、静的な視点の場合、オーディオ復号デバイス24は、全体で900個のサンプリング点を使用してモード行列Ψ(O,M)を生成してもよい。しかしながら、ビデオデータが現在ズーミング事象(ズームインまたはズームアウトのいずれか)を受けていることをオーディオ復号デバイス24が検出する場合、オーディオ復号デバイス24は、サンプル点の数を動的に生成してもよい。
本開示のいくつかの態様によれば、進行中のズーミング事象の間、オーディオ復号デバイス24は、オーディオデータのHOA次数を計算パラメータとして使用して、モード行列Ψ(O,M)を計算してもよい。たとえば、オーディオ復号デバイス24は、次の式に従ってサンプリング点の数を計算してもよい。
M = (N + 2)2
この例では、「M」はサンプリング点の数を表し、「N」はアンビソニックス係数の次数を示す。したがって、画面ベースの適応における動的なズームへの対応のこれらの例によれば、オーディオ復号デバイス24は、最も高次の係数が4次である場合、36個のサンプリング点を使用してモード行列を生成する。より具体的には、この特定の例では、「N」=4であり、上の式を解くと「M」に対して36という値を生む。他の使用事例の状況にこの等式を適用すると、オーディオ復号デバイス24は、最も高次の係数が5次である場合には49個のサンプリング点を使用してモード行列を生成し、または、オーディオ復号デバイス24は、最も高次の係数が6次である場合に64個のサンプリング点を使用してモード行列を生成する。DIS 23008のAnnex F.9において定義されるように、「M」個のサンプリング点の方向は(θ,φ)によって与えられる。
第2に、オーディオ復号デバイス24は、DIS 23008の18.3項において定義されるマッピング関数を使用して、M個のサンプリング点の方向を修正してもよい。「M」および修正された方向の計算に基づいて、オーディオ復号デバイス24は、モード行列Ψ(O,M)を計算してもよい。上で説明されたように、DIS 23008のAnnex F.1.5によれば、モード行列
である。
第3に、オーディオ復号デバイス24は、予備エフェクト行列
(たとえば、HOA領域の中の)を次のように計算または生成してもよく、
ここで、
はモード行列の擬似逆行列
を示す。
第4に、オーディオ復号デバイス24は、各々の空間的な方向に対して、HOAレンダリング行列Rを使用することによってラウドネス値を計算してもよい。より具体的には、本明細書において説明される例示的な作業フローによれば、オーディオ復号デバイス24は、DISの12.4.3.2項において定義されるようなHOAレンダリング行列Rを使用してもよい。空間的な方向は、本明細書ではl=1...Mとして示される。たとえば、オーディオ復号デバイス24は、次の式に従ってラウドネス補正値を計算してもよい。
第5に、オーディオ復号デバイス24は、上で説明されたように計算されたモード行列を使用して、最終エフェクト行列を計算してもよい。たとえば、オーディオ復号デバイス24は、次の式に従って、HOA領域の中にある最終エフェクト行列Fを計算してもよい。
ここで、diag(A)はベクトルAを含む対角行列を示す。
第6に、オーディオ復号デバイス24は、式D=RFに従って、新しいレンダリング行列を計算してもよい。本開示のズーム依存の適応技法によれば、オーディオ復号デバイス24がローカルのズーム情報を入手できない場合、オーディオ復号デバイス24は、ズームベースの適応をモード行列Ψ(O,M)の生成に、または結果として、最終エフェクト行列
の生成に適用しない場合がある。したがって、本開示の動的なズーム対応技法によれば、オーディオ復号デバイス24は、高次アンビソニックスのための画面に関連する処理について説明されたものと同じアルゴリズム原理を適用してもよいが、オーディオ復号デバイス24は、LocalZoomAreaSize()インターフェースによって与えられるデータに従って、ランタイムにおいてレンダリング行列を適応させてもよい。動的なズーミング事象が終了した(たとえば、画面コンテンツの視点が現在静的である)ことを検出すると、オーディオ復号デバイス24は、「M」について900という値を使用することに戻ってもよい。言い換えると、オーディオ復号デバイス24は、モード行列を生成する際に900個のサンプリング点を使用することに戻ってもよい。
動的なズーミング事象の間、オーディオ復号デバイス24は、方向がDISのAnnex F.2からF.9において与えられるM = (N + 2)2個の等しく離隔されたサンプリング点を伴うモード行列Ψ(O,M)に基づいて、新しいエフェクト行列Fを計算してもよい。ズームが静的であることをオーディオ復号デバイス24が検出すると、オーディオ復号デバイス24は、上で説明されたようなM=900個の空間的なサンプリング点を伴うモード行列Ψ(O,M)に基づいて、新しいエフェクト行列Fを計算してもよい。ズーム事象は、入力デバイス(たとえば、マウスおよび/またはキーボード)または入力/出力デバイス(たとえば、タッチスクリーンまたは容量性スタイラスで操作される画面)により提供されるピンチまたはピンチアウトのジェスチャーを用いて本明細書において説明されるが、ズーム事象は他の刺激(たとえば、他のタイプのユーザ入力)にも応答して誘引されてもよいことが理解されるだろう。
本開示の動的なズームの調整は、既存の技法を上回る1つまたは複数の潜在的な利点および改善をもたらす場合がある。たとえば、動的なズーム事象の間にモード行列を計算する際に使用されるサンプリング点の数を減らすことによって、オーディオ復号デバイス24は、本開示の技法を実施して、オーディオフィードのレンダリングの間に画面ベースの適応に対処する際の計算的な複雑さおよびリソースの消費を減らす場合がある。上で説明されたように、いくつかの状況では、オーディオ復号デバイス24は、ズーム事象の間、サンプリング点を900から36に減らしてもよい。モード行列の計算の間の計算的な複雑さを下げることによって、オーディオ復号デバイス24は、本開示の技法を実施して、画面ベースの適応をより効率的に実行しながら、ズーム事象の間だけ品質を下げたオーディオフィードを送達してもよい。そして、オーディオ復号デバイス24は、ズームが完了するとオーディオフィードの品質を復元してもよい。
いくつかの例では、オーディオ復号デバイス24は、特定のシンタックス要素が有効にされる場合にのみ、本開示の画面に関連する適応技法を実行してもよい。たとえば、これらの例では、オーディオ復号デバイス24は、DISのTable 119のHOAConfig()セクションにおけるisScreenRelativeフラグが有効状態でシグナリングされる(たとえば、1という値に設定されている)場合にのみ、モード行列の画面に関連する適応を実行してもよい。別の言い方をすると、これらの例では、オーディオ復号デバイス24は、有効状態の(たとえば、1という値に設定されている)isScreenRelativeフラグをオーディオ復号デバイス24がビットストリームにおいて受信する場合にのみ、モード行列の画面に関連する適応を実行してもよい。
加えて、本開示の1つまたは複数の態様によれば、オーディオ復号デバイス24は、初期化段階の間にのみHOAレンダリング行列を計算してもよい。たとえば、本開示の画面に関連する適応技法は音場のために使用されるHOAレンダリング行列を修正するので、オーディオ復号デバイス24は、HOAレンダリング行列の計算を初期化段階に制限してもよい。オーディオ復号デバイス24がローカルの画面サイズ情報を入手できない場合、オーディオ復号デバイス24はどのような画面に関連する適応も適用しなくてよい。いくつかの例では、オーディオ復号デバイス24が方位角の画面サイズ情報だけを入手できる事例では、オーディオ復号デバイス24は、垂直方向の次元においてはどのような画面に関連する適応も適用しなくてよい。
ラウドネス補償を実行することによって、オーディオ復号デバイス24はたとえば、マッピングのエフェクトを補償してもよい。上の例では、lは1から大文字Mまでの空間的な方向であり、A(l)はA1からAmまでの成分を伴うベクトルである。「diag(A)」はA(l)に対応する対角方向の成分を伴う行列を表し、行列の中の他の位置は0に等しい。上の説明された技法は、エフェクト行列の空間的な伸長および/または圧縮により引き起こされる望ましくない方向依存のラウドネス差分を等しくするためにオーディオ復号デバイス24が使用してもよい、ラウドネス補償ステップを含む。予備エフェクト行列および得られるエフェクト行列Fは、ラウドスピーカー信号領域の中にある。
オーディオ復号デバイス24は次いで、画面に関連するレンダリング行列を次のように計算してもよい。
D = FR
本開示の画面ベースの適応技法の第1の例が、ここで図7〜図11を参照して説明される。図7Aは、参照画面の方位角をビューイングウィンドウの方位角にマッピングするために使用されてもよいマッピング関数の例を示す。図7Bは、参照画面の仰角をビューイングウィンドウの仰角にマッピングするために使用されてもよいマッピング関数の例を示す。図7Aおよび図7Bの例では、参照画面の角度は、29度から-29度の方位角および16.3度から-16.3度の仰角であり、ビューイングウィンドウの角度は、58度から-58度の方位角および32.6度から-32.6度の仰角である。したがって、図7Aおよび図7Bの例では、ビューイングウィンドウは参照画面の2倍の大きさである。
本開示において使用されるように、ビューイングウィンドウとはビデオを再生するために使用される画面のすべてまたは一部を指す場合がある。本開示の態様に従って使用することができるテレビジョンは、様々な例では、1つまたは複数のスピーカーおよび/またはディスプレイを含むデバイスなどの、統合されたデバイスを表す場合がある。様々な例において、テレビジョンは、有線および/またはワイヤレス(たとえば、Ethernet(登録商標)またはWiFi(登録商標))接続を通じて受信されたオーディオビジュアルビットストリームを処理できるという点で、いわゆる「スマート」テレビジョンまたはスマートTVであってもよい。スマートテレビジョンまたは「スマートTV」は、メモリデバイスおよび1つまたは複数のプロセッサとともに、通信インターフェース(たとえば、Ethernet(登録商標)カードまたはWiFi(登録商標)カード)を含んでもよい。テレビジョン、タブレット、電話、または他のそのようなデバイス上でフルスクリーンモードで映画を再生するとき、ビューイングウィンドウはデバイスの画面全体に相当する場合がある。しかしながら、他の例では、ビューイングウィンドウは、デバイスの画面全体よりも小さいものに相当する場合がある。たとえば、4つのスポーツイベントを同時に再生しているデバイスは、1つの画面上に4つの別個のビューイングウィンドウを含む場合があり、または、デバイスは、ビデオを再生するための単一のビューイングウィンドウを有し、他のコンテンツを表示するために残りの画面エリアを使用する場合がある。ビューイングウィンドウの視野角は、ビューイングウィンドウの物理サイズおよび/またはビューイングウィンドウからビューイング位置までの距離(測定されたか、推測されたかのいずれか)などのパラメータに基づいて決定されてもよい。視野角は、たとえば、方位角および仰角によって記述されてもよい。
本開示において使用されるように、参照画面は、HOAオーディオデータの音場に対応する視野角を指す。たとえば、HOAオーディオデータは、ある視野角(すなわち、参照画面)に関して生成またはキャプチャされる場合があるが、異なる視野角(たとえば、ビューイングウィンドウの視野角)に関して再生される場合がある。本開示において説明されるように、参照画面は、サイズ、位置、または何らかの他のそのような特性が参照画面と異なる画面上でのローカル再生のためにオーディオデコーダがそれによってHOAオーディオデータを適応させてもよい、基準を提供する。説明を目的に、本開示におけるいくつかの技法は、作成画面および再生画面に言及して説明される場合がある。これらの同じ技法は参照画面およびビューイングウィンドウに適用可能であることを理解されたい。
図8は、第1の例に対する参照画面およびビューイングウィンドウのエフェクトとして音場の所望の画面に関連した拡大エフェクトのベクトル場を示す。図8において、点はマッピング先に対応し、一方で点に向かう線はマッピング軌跡に対応する。破線の長方形は参照画面サイズに対応し、実線の長方形はビューイングウィンドウサイズに対応する。
図9は、画面に関連するエフェクトがどのようにコンテンツのHOA次数の増大を引き起こす場合があるかの例を示す。図9の例では、エフェクト行列は、3次の入力材料から49個のHOA係数(6次)を作成するように計算される。しかしながら、行列が(N+1)2 x (N+1)2の要素を伴う正方形の行列として計算される場合には、満足のいく結果も達成される場合がある。
図10は、エフェクト行列がどのように事前にレンダリングされラウドスピーカーレンダリング行列に適用され、したがってランタイムにおいて余剰の計算を必要としない場合があるかの例を示す。
図11は、エフェクト行列が高次のコンテンツ(たとえば、6次)をもたらすことがある場合に、この次数のレンダリング行列が元の次数(ここでは3次)の最終レンダリング行列を事前に計算するためにどのように乗算される場合があるかの例を示す。
本開示の画面ベースの適応技法の第2の例が、ここで図12〜図13を参照して説明される。図12Aは、参照画面の方位角をビューイングウィンドウの方位角にマッピングするために使用されてもよいマッピング関数の例を示す。図12Bは、参照画面の仰角をビューイングウィンドウの仰角にマッピングするために使用されてもよいマッピング関数の例を示す。図12Aおよび図12Bの例では、参照画面の角度は、29度から-29度の方位角および16.3度から-16.3度の仰角であり、ビューイングウィンドウの角度は、29度から-29度の方位角および32.6度から-32.6度の仰角である。したがって、図12Aおよび図12Bの例では、ビューイングウィンドウは、高さが参照画面の2倍であるが、幅が参照画面と同じである。図12Cは、第2の例に対する計算されたHOAエフェクト行列を示す。
図13は、第2の例に対する参照画面およびビューイングウィンドウのエフェクトとして音場の所望の画面に関連した拡大エフェクトのベクトル場を示す。図13において、点はマッピング先に対応し、一方で点に向かう線はマッピング軌跡に対応する。破線の長方形は参照画面サイズに対応し、実線の長方形はビューイングウィンドウサイズに対応する。
本開示の画面ベースの適応技法の第3の例が、ここで図14〜図15を参照して説明される。図14Aは、参照画面の方位角をビューイングウィンドウの方位角にマッピングするために使用されてもよいマッピング関数の例を示す。図14Bは、参照画面の仰角をビューイングウィンドウの仰角にマッピングするために使用されてもよいマッピング関数の例を示す。図14Aおよび図14Bの例では、参照画面の角度は、29度から-29度の方位角および16.3度から-16.3度の仰角であり、ビューイングウィンドウの角度は、58度から-58度の方位角および16.3度から-16.3度の仰角である。したがって、図14Aおよび図14Bの例では、ビューイングウィンドウは、幅が参照画面の2倍であるが、高さが参照画面と同じである。図14Cは、第3の例に対する計算されたHOAエフェクト行列を示す。
図15は、第3の例に対する参照画面およびビューイングウィンドウのエフェクトとして音場の所望の画面に関連した拡大エフェクトのベクトル場を示す。図15において、点はマッピング先に対応し、一方で点に向かう線はマッピング軌跡に対応する。破線の長方形は参照画面サイズに対応し、実線の長方形はビューイングウィンドウサイズに対応する。
本開示の画面ベースの適応技法の第4の例が、ここで図16〜図17を参照して説明される。図16Aは、参照画面の方位角をビューイングウィンドウの方位角にマッピングするために使用されてもよいマッピング関数の例を示す。図16Bは、参照画面の仰角をビューイングウィンドウの仰角にマッピングするために使用されてもよいマッピング関数の例を示す。図16Aおよび図16Bの例では、参照画面の角度は、29度から-29度の方位角および16.3度から-16.3度の仰角であり、ビューイングウィンドウの角度は、49度から-9度の方位角および16.3度から-16.3度の仰角である。したがって、図14Aおよび図14Bの例では、ビューイングウィンドウは、幅が参照画面の2倍であるが、高さが参照画面と同じである。図16Cは、第3の例に対する計算されたHOAエフェクト行列を示す。
図17は、第4の例に対する参照画面およびビューイングウィンドウのエフェクトとして音場の所望の画面に関連した拡大エフェクトのベクトル場を示す。図17において、点はマッピング先に対応し、一方で点に向かう線はマッピング軌跡に対応する。破線の長方形は参照画面サイズに対応し、実線の長方形はビューイングウィンドウサイズに対応する。
本開示の画面ベースの適応技法の第5の例が、ここで図18〜図19を参照して説明される。図18Aは、参照画面の方位角をビューイングウィンドウの方位角にマッピングするために使用されてもよいマッピング関数の例を示す。図18Bは、参照画面の仰角をビューイングウィンドウの仰角にマッピングするために使用されてもよいマッピング関数の例を示す。図18Aおよび図18Bの例では、参照画面の角度は、29度から-29度の方位角および16.3度から-16.3度の仰角であり、ビューイングウィンドウの角度は、49度から-9度の方位角および16.3度から-16.3度の仰角である。したがって、図18Aおよび図18Bの例では、ビューイングウィンドウは、参照画面に対して相対的に方位角の位置がシフトされている。図18Cは、第5の例に対する計算されたHOAエフェクト行列を示す。
図19は、第4の例に対する参照画面およびビューイングウィンドウのエフェクトとして音場の所望の画面に関連した拡大エフェクトのベクトル場を示す。図19において、点はマッピング先に対応し、一方で点に向かう線はマッピング軌跡に対応する。破線の長方形は参照画面サイズに対応し、実線の長方形はビューイングウィンドウサイズに対応する。
図20A〜図20Fは、本開示において説明されるオーディオの画面ベースの適応のための技法の様々な態様を実施してもよいオーディオ復号デバイス900の別の例を示すブロック図である。簡潔にするために、オーディオ復号デバイス900のすべての態様が図20A〜図20Fに示されているとは限らない。オーディオ復号デバイス900の特徴および機能は、図2および図4に関して上で説明されたオーディオ復号デバイス24などの、本開示において説明される他のオーディオ復号デバイスの特徴および機能と連携して実装されてもよいことが企図される。
オーディオ復号デバイス900は、USACデコーダ902、HOAデコーダ904、ローカルレンダリング行列生成器906、シグナリング済/ローカルレンダリング行列決定器908、およびラウドスピーカーレンダラ910を含む。オーディオ復号デバイス900は、符号化されたビットストリーム(たとえば、MPEG-H 3Dオーディオビットストリーム)を受信する。USACデコーダ902およびHOAデコーダ904は、上で説明されたUSACおよびHOAオーディオ復号技法を使用してビットストリームを復号する。ローカルレンダリング行列生成器906は、復号されたオーディオを再生するであろうシステムのローカルラウドスピーカー構成に少なくとも一部基づいて、1つまたは複数のレンダリング行列を生成する。ビットストリームはまた、符号化されたビットストリームから復号されてもよい1つまたは複数のレンダリング行列を含んでもよい。ローカル/シグナリング済レンダリング行列決定器908は、オーディオデータを再生するときに、ローカルで生成またはシグナリングされたレンダリング行列のうちのいずれを使用すべきかを決定する。ラウドスピーカーレンダラ910は、選ばれたレンダリング行列に基づいて1つまたは複数のスピーカーにオーディオを出力する。
図20Bは、オーディオ復号デバイス900の別の例を示すブロック図である。図20Bの例では、オーディオ復号デバイス900はさらに、エフェクト行列生成器912を含む。エフェクト行列生成器912は、参照画面サイズをビットストリームから決定し、対応するビデオデータを表示するために使用されているシステムに基づいて、ビューイングウィンドウサイズを決定してもよい。参照画面サイズおよびビューイングウィンドウサイズに基づいて、エフェクト行列生成器912は、ローカル/シグナリング済レンダリング行列決定器908によって選択されるレンダリング行列(R')を修正するためのエフェクト行列(F)を生成してもよい。図20Bの例では、ラウドスピーカーレンダラ910は、修正されたレンダリング行列(D)に基づいて1つまたは複数のスピーカーにオーディオを出力してもよい。図20Cの例では、オーディオ復号デバイス900は、HOADecoderConfig()においてフラグisScreenRelative flag == 1である場合にのみエフェクトをレンダリングするように構成されてもよい。
本開示の技法によれば、エフェクト行列生成器912はまた、画面の回転に応答してエフェクト行列を生成してもよい。エフェクト行列生成器912は、たとえば、次のアルゴリズムに従ってエフェクト行列を生成してもよい。擬似コードでの、新しいマッピング関数の例示的なアルゴリズムは次の通りである。
%1.相対的な画面マッピングパラメータを計算する
originalWidth = originalAngles.azi(1) - originalAngles.azi(2);
originalHeight = originalAngles.ele(1) - originalAngles.ele(2);
newWidth = newAngles.azi(1) - newAngles.azi(2);
newHeight = newAngles.ele(1) - newAngles.ele(2);
%2.参照画面の中心およびビューイングウィンドウの中心を見つける
originalCenter.azi = originalAngles.azi(1) - originalWidth * 0.5;
originalCenter.ele = originalAngles.ele(1) - originalHeight * 0.5;
newCenter.azi = newAngles.azi(1) - newWidth * 0.5;
newCenter.ele = newAngles.ele(1) - newHeight * 0.5;
%3.相対的な画面に関連するマッピングを行う
heightRatio = newHeight/originalHeight;
widthRatio = newWidth/originalWidth;
再生およびビューイングウィンドウの絶対的な場所ではなく、heightRatioおよびwidthRatioを使用したMPEG-Hの画面に関連するマッピング関数を使用して等しく分散された空間的な場所のマッピング
%4.音場を回転する
(3.)において処理される空間的な場所をoriginalCenterからnewCenterに回転する
%5.HOAエフェクト行列を計算する
元の空間的な場所および(4.からの)処理された空間的な場所を使用する
本開示の技法によれば、エフェクト行列生成器912はまた、画面の回転に応答してエフェクト行列を生成してもよい。エフェクト行列生成器912は、たとえば、次のアルゴリズムに従ってエフェクト行列を生成してもよい。
1.相対的な画面マッピングパラメータを計算する:
widthRatio = localWidth / productionWidth;
heightRatio = localHeight /productionHeight;
ただし、
productionWidth = production_Azi_L - production_Azi_R;
productionHeight = production_Ele_Top - production_Ele_Down;
localWidth = local_Azi_L - local_Azi_R;
localHeight = local_Ele_Top - local_Ele_Down;
2.基準作成画面の中心座標およびローカル再生画面の中心を計算する:
productionCenter_Azi = production_Azi_L -productionWidth /2;
productionCenter_Ele = production_Ele_Top - productionHeight /2;
localCenter_Azi = local_Azi_L -localWidth/2;
localCenter_Ele = local_Ele_Top -localHeight/2;
3.画面に関連するマッピング:
heightRatioおよびwidthRatioを使用する画面に関連するマッピング関数を用いた、
へのΩ900のマッピング
4.場所を回転する:
空間的な場所
を、回転カーネルRを使用して、productionCenter座標からlocalCenter座標に回転し、
を得る
y軸回転(ピッチ) z軸回転(ヨー)
5.HOAエフェクト行列を計算する:
ただし、Ψmr 900は
から作成されるモード行列である
図20Cは、オーディオ復号デバイス900の別の例を示すブロック図である。図20Cの例では、オーディオ復号デバイス900は全般に、図20Bの例について上で説明されたのと同じ方式で動作するが、図20Cの例では、エフェクト行列生成器912はさらに、ズーム動作のためのスケーリング係数を決定し、スケーリング情報、参照画面サイズ、およびビューイングウィンドウサイズに基づいて、ローカル/シグナリング済レンダリング行列決定器908により選択されるレンダリング行列(R')を修正するためのエフェクト行列(F)を生成するように構成される。図20Cの例では、ラウドスピーカーレンダラ910は、修正されたレンダリング行列(D)に基づいて1つまたは複数のスピーカーにオーディオを出力してもよい。図20Cの例では、オーディオ復号デバイス900は、HOADecoderConfig()においてフラグisScreenRelativeHOA flag == 1である場合にのみエフェクトをレンダリングするように構成されてもよい。
HOADecoderConfig()シンタックス表(Table 1(表1)として下に示される)におけるフラグisScreenRelativeHOAは、再生ウィンドウサイズ(「再生画面サイズ」とも呼ばれる場合がある)への画面に関連するHOAコンテンツの適応を可能にするのに十分である。ノミナルの作成画面についての情報は、メタデータオーディオ要素の一部として別個にシグナリングされてもよい。
図20Dは、オーディオ復号デバイス900の別の例を示すブロック図である。図20Dの例では、オーディオ復号デバイス900はさらに、ラウドネス補償器914、最終エフェクト行列生成器916、および最終レンダラ生成器918を含む。ラウドネス補償器914は、上で説明されたようにラウドネス補償を実行する。ラウドネス補償器914は、たとえば、上で説明されたように、最終行列Fに適用される各々の空間的な方向lに対してラウドネス補償を実行する。最終エフェクト行列生成器916は、上で説明されたように最終エフェクト行列を生成する。最終レンダラ生成器918は、たとえば、上で説明されたD=FRの計算を実行することによって、最終レンダリング行列を作成する。
図20Eは、オーディオ復号デバイス900の別の例を示すブロック図である。図20Eの例では、予備エフェクト行列およびエフェクト行列生成器912は、予備エフェクト行列Fを生成する際の入力として元のレンダリング行列Rを使用しなくてもよい。
図20Fは、オーディオ復号デバイス900の別の例を示すブロック図である。図20Fの例では、予備エフェクト行列およびエフェクト行列生成器912は、モード行列を生成する際に追加のパラメータとしてローカルズームサイズを使用してもよい。いくつかの例では、予備エフェクト行列およびエフェクト行列生成器912は、モード行列を生成する際のパラメータとして、ズームされたウィンドウ(たとえば、参照ウィンドウと比較してズームインまたはズームアウトされたウィンドウ)のローカルズームサイズを使用する。たとえば、予備エフェクト行列およびエフェクト行列生成器912は、オーディオ復号デバイス24の他のコンポーネントから受け取られたデータを処理することなどによって、ユーザにより開始されるズームコマンドを検出してもよい。そして、予備エフェクト行列およびエフェクト行列生成器912は、ユーザにより開始されるズームコマンドにより提供されるズーミング特性を呈する特定のズーミング動作のパラメータに基づいて、FOVパラメータ(たとえば、修正された方位角情報および/または修正された仰角情報のうちの1つまたは複数)を取得してもよい。予備エフェクト行列およびエフェクト行列生成器912は、モード行列を生成する際のズーミング動作に対応するFOVパラメータを組み込んでもよい。したがって、図20Fは、上で説明された動的なズーム適応技法を実行するように構成される、オーディオ復号デバイス900の例示的な実装形態を示す。
オーディオ再生システム16などの本開示のオーディオ再生システムは、レンダリング行列に基づいて予備エフェクト行列を生成し、予備エフェクト行列に基づいてHOAオーディオ信号をレンダリングするように構成されてもよい。オーディオ再生システム16は、たとえば、スピーカー構成に基づいてレンダリング行列を決定するように構成されてもよい。オーディオ再生システム16は、予備エフェクト行列に基づいて最終レンダリング行列を生成し、予備エフェクト行列に基づいてHOAオーディオ信号をレンダリングしてもよい。オーディオ再生システム16は、たとえば、参照画面の1つまたは複数の視野角(FOV)パラメータおよびビューイングウィンドウの1つまたは複数のFOVパラメータに基づいて、予備エフェクト行列を生成してもよい。予備エフェクト行列を生成するために、オーディオ再生システム16は、画面に関連する適応に応答して空間的な方向のマッピングを実行し、空間的な方向と関連付けられるHOA係数に基づいて予備エフェクト行列を計算するように構成されてもよい。そのような例では、予備エフェクト行列は、ローカルに生成された予備エフェクト行列であってもよい。オーディオ再生システム16はさらに、レンダリング行列に基づいて複数の空間的な方向についてラウドネスを補償するように構成されてもよい。
オーディオ再生システム16などの本開示のオーディオ再生システムは、加えて、または代替的に、エフェクト行列を生成することの一部としてラウドネス補償プロセスを実行し、エフェクト行列に基づいてHOAオーディオ信号をレンダリングするように構成されてもよい。ラウドネス補償プロセスを実行するために、オーディオ再生システム16は、レンダリング行列に基づいて複数の空間的な方向についてラウドネスを補償してもよい。ラウドネス補償プロセスを実行するために、オーディオ再生システム16は、レンダリング行列に基づいて複数の空間的な方向についてラウドネスを補償してもよい。ラウドネス補償プロセスを実行するために、オーディオ再生システム16は、マッピング関数に基づいて複数の空間的な方向についてラウドネスを補償するように構成されてもよい。ラウドネス補償プロセスを実行するために、オーディオ再生システム16は、複数の元の音の位置と複数の対応するマッピング先(たとえば、図15〜図19のマッピング先)との間の最小の誤差を決定するように構成されてもよい。ラウドネス補償プロセスを実行するために、オーディオ再生システム16は、複数の元の音の位置と複数の対応するマッピング先との間のエネルギーの正規化を決定するように構成されてもよい。
オーディオ再生システム16などの本開示のオーディオ再生システムは、参照画面の1つまたは複数のFOVパラメータ(たとえば、FOVパラメータ13')およびビューイングウィンドウの1つまたは複数のFOVパラメータに基づいて1つまたは複数のスピーカー(たとえば、スピーカー3)を通じてHOAオーディオ信号をレンダリングすることによって、HOAオーディオ信号をレンダリングするように構成されてもよい。このレンダリングは、たとえば、ユーザにより開始されるズーム動作に応答して取得されるスケーリング係数にさらに基づいてよい。いくつかの例では、参照画面のための1つまたは複数のFOVパラメータは、参照画面の中心の位置およびビューイングウィンドウの中心の位置を含んでもよい。
オーディオ再生システム16は、たとえば、HOAオーディオ信号を備える符号化されたオーディオデータのビットストリームを受信してもよい。符号化されたオーディオデータは、対応するビデオデータと関連付けられてもよい。オーディオ再生システム16は、対応するビデオデータのための参照画面の1つまたは複数のFOVパラメータ(たとえば、FOVパラメータ13')をビットストリームから取得してもよい。
オーディオ再生システム16はまた、対応するビデオデータを表示するためのビューイングウィンドウの1つまたは複数のFOVパラメータを取得してもよい。ビューイングウィンドウのFOVパラメータは、ユーザ入力の任意の組合せ、自動化された測定、デフォルト値などに基づいて、ローカルで決定されてもよい。
オーディオ再生システム16は、ビューイングウィンドウの1つまたは複数のFOVパラメータおよび参照画面の1つまたは複数のFOVパラメータに基づいて、オーディオレンダラ22から、符号化されたオーディオデータのためのレンダラを決定し、オーディオレンダラ22のうちの1つを修正し、修正されたレンダラおよび符号化されたオーディオデータに基づいて、1つまたは複数のスピーカーを通じてHOAオーディオ信号をレンダリングしてもよい。オーディオ再生システム16は、ズーム動作が実行されるとき、スケーリング係数にさらに基づいてオーディオレンダラ22のうちの1つを修正してもよい。
オーディオ再生システム16は、たとえば、必ずしも限定はされないが、1つまたは複数のスピーカーの空間的な幾何学的配置および/または再生に利用可能なスピーカーの数を含む、スピーカー構成に基づいて、符号化されたオーディオデータのためのレンダラを決定してもよい。
オーディオレンダラ22は、たとえば、符号化されたオーディオデータを再生フォーマットに変換するためのアルゴリズムを含んでもよく、かつ/またはあるレンダリングフォーマットを利用してもよい。レンダリングフォーマットは、たとえば、行列、放射線、線、またはベクトルのいずれかを含んでもよい。オーディオレンダラ22は、ビットストリームにおいてシグナリングされてもよく、または再生環境に基づいて決定されてもよい。
参照画面の1つまたは複数のFOVパラメータは、参照画面の1つまたは複数の方位角を含んでもよい。参照画面の1つまたは複数の方位角は、参照画面の左側方位角および参照画面の右側方位角を含んでもよい。参照画面の1つまたは複数のFOVパラメータは、代替的に、または加えて、参照画面の1つまたは複数の仰角を含んでもよい。参照画面の1つまたは複数の仰角は、参照画面の上側仰角および参照画面の下側仰角を含んでもよい。
ビューイングウィンドウの1つまたは複数のFOVパラメータは、ビューイングウィンドウの1つまたは複数の方位角を含んでもよい。ビューイングウィンドウの1つまたは複数の方位角は、ビューイングウィンドウの左側方位角およびビューイングウィンドウの右側方位角を含んでもよい。ビューイングウィンドウの1つまたは複数のFOVパラメータは、ビューイングウィンドウの1つまたは複数の方位角を含んでもよい。ビューイングウィンドウの1つまたは複数の仰角は、ビューイングウィンドウの上側仰角およびビューイングウィンドウの下側仰角を含んでもよい。
オーディオ再生システム16は、参照画面の1つまたは複数のFOVパラメータおよびビューイングウィンドウの1つまたは複数のFOVパラメータに基づいてスピーカーの方位角を修正するための方位角マッピング関数を決定し、方位角マッピング関数に基づいて1つまたは複数のスピーカーのうちの第1のスピーカーの方位角を修正して第1のスピーカーの修正された方位角を生成することによって、オーディオレンダラ22のうちの1つまたは複数を修正してもよい。
方位角マッピング関数は、
を備え、ここでψ'は第1のスピーカーの修正された方位角を表し、ψは第1のスピーカーの方位角を表し、
は参照画面の左側方位角を表し、
は参照画面の右側方位角を表し、
はビューイングウィンドウの左側方位角を表し、
はビューイングウィンドウの右側方位角を表す。
オーディオ再生システム16は、参照画面の1つまたは複数のFOVパラメータおよびビューイングウィンドウの1つまたは複数のFOVパラメータに基づいてスピーカーの仰角を修正するための仰角マッピング関数を決定し、仰角マッピング関数に基づいて1つまたは複数のスピーカーのうちの第1のスピーカーの仰角を修正することによって、レンダラを修正してもよい。
仰角マッピング関数は、
を備え、ただしθ'は第1のスピーカーの修正された仰角を表し、
θは第1のスピーカーの仰角を表し、
は参照画面の上側仰角を表し、
は参照画面の下側仰角を表し、
はビューイングウィンドウの上側仰角を表し、
はビューイングウィンドウの下側仰角を表す。
オーディオ再生システム16は、ビューイングウィンドウにおいてユーザにより開始されるズーム機能に応答して、レンダラを修正してもよい。たとえば、ユーザにより開始されるズーム機能に応答して、オーディオ再生システム16は、ズームされたビューイングウィンドウの1つまたは複数のFOVパラメータを決定し、参照画面の1つまたは複数のFOVパラメータおよびズームされたビューイングウィンドウの1つまたは複数のFOVパラメータに基づいて、レンダラを修正してもよい。オーディオ再生システム16はまた、スケーリング係数およびビューイングウィンドウの1つまたは複数のFOVパラメータに基づいてズームされたビューイングウィンドウの1つまたは複数のFOVパラメータを決定し、ズームされたビューイングウィンドウの1つまたは複数のFOVパラメータおよび参照画面の1つまたは複数のFOVパラメータに基づいてスピーカーの方位角などの角度を修正するための方位角マッピング関数を決定し、方位角マッピング関数に基づいて1つまたは複数のスピーカーのうちの第1のスピーカーの角度(たとえば、方位角)を修正して第1のスピーカーの修正された角度(たとえば、修正された方位角)を生成することによって、レンダラを修正してもよい。
方位角マッピング関数は、
を備え、ここでψ'は第1のスピーカーの修正された方位角を表し、ψは第1のスピーカーの方位角を表し、
は参照画面の左側方位角を表し、
は参照画面の右側方位角を表し、
はズームされたビューイングウィンドウの左側方位角を表し、
はズームされたビューイングウィンドウの右側方位角を表す。
オーディオ再生システム16は、スケーリング係数およびビューイングウィンドウの1つまたは複数のFOVパラメータに基づいてズームされたビューイングウィンドウの1つまたは複数のFOVパラメータを決定し、ズームされたビューイングウィンドウの1つまたは複数のFOVパラメータおよび参照画面の1つまたは複数のFOVパラメータに基づいてスピーカーの仰角を修正するための仰角マッピング関数を決定し、仰角マッピング関数に基づいて1つまたは複数のスピーカーのうちの第1のスピーカーの仰角を修正して第1のスピーカーの修正された仰角を生成することによって、レンダラを修正してもよい。
仰角マッピング関数は、
を備え、ただしθ'は第1のスピーカーの修正された仰角を表し、
θは第1のスピーカーの仰角を表し、
は参照画面の上側仰角を表し、
は参照画面の下側仰角を表し、
はズームされたビューイングウィンドウの上側仰角を表し、
はズームされたビューイングウィンドウの下側仰角を表す。
オーディオ再生システム16は、ビューイングウィンドウの1つまたは複数の方位角およびスケーリング係数に基づいてズームされたビューイングウィンドウの1つまたは複数の方位角を決定することによって、ズームされたビューイングウィンドウの1つまたは複数のFOVパラメータを決定してもよい。オーディオ再生システム16は、ビューイングウィンドウの1つまたは複数の仰角およびスケーリング係数に基づいてズームされたビューイングウィンドウの1つまたは複数の仰角を決定することによって、ズームされたビューイングウィンドウの1つまたは複数のFOVパラメータを決定してもよい。オーディオ再生システム16は、参照画面の1つまたは複数のFOVパラメータに基づいて参照画面の中心を決定し、ビューイングウィンドウの1つまたは複数のFOVパラメータに基づいてビューイングウィンドウの中心を決定してもよい。
オーディオ再生システム16は、符号化されたオーディオデータのためのレンダラを決定し、ビューイングウィンドウの中心および参照画面の中心に基づいてレンダラを修正し、修正されたレンダラおよび符号化されたオーディオデータに基づいて1つまたは複数のスピーカーを通じてHOAオーディオ信号をレンダリングするように構成されてもよい。
オーディオ再生システム16は、次のアルゴリズムに従ってビューイングウィンドウの中心を決定してもよい。
originalWidth = originalAngles.azi(1) - originalAngles.azi(2);
originalHeight = originalAngles.ele(1) - originalAngles.ele(2);
newWidth = newAngles.azi(1) - newAngles.azi(2);
newHeight = newAngles.ele(1) - newAngles.ele(2);
originalCenter.azi = originalAngles.azi(1) - originalWidth * 0.5;
originalCenter.ele = originalAngles.ele(1) - originalHeight * 0.5;
newCenter.azi = newAngles.azi(1) - newWidth * 0.5;
newCenter.ele = newAngles.ele(1) - newHeight * 0.5,
ここで、「originalWidth」は参照画面の幅を表し、「originalHeight」は参照画面の高さを表し、「originalAngles.azi(1)」は参照画面の第1の方位角を表し、「originalAngles.azi(2)」は参照画面の第2の方位角を表し、「originalAngles.ele(1)」は参照画面の第1の仰角を表し、「originalAngles.ele(2)」は参照画面の第2の仰角を表し、「newWidth」はビューイングウィンドウの幅を表し、「newHeight」はビューイングウィンドウの高さを表し、「newAngles.azi(1)」はビューイングウィンドウの第1の方位角を表し、「newAngles.azi(2)」はビューイングウィンドウの第2の方位角を表し、「newAngles.ele(1)」はビューイングウィンドウの第1の仰角を表し、「newAngles.ele(2)」はビューイングウィンドウの第2の仰角を表し、「originalCenter.azi」は参照画面の中心の方位角を表し、「originalCenter.ele」は参照画面の中心の仰角を表し、「newCenter.azi」はビューイングウィンドウの中心の方位角を表し、「newCenter.ele」はビューイングウィンドウの中心の仰角を表す。
オーディオ再生システム16は、参照画面の中心からビューイングウィンドウの中心に音場を回転してもよい。
HOAオーディオ信号は、MPEG-H 3D準拠ビットストリームの一部であってもよい。ビューイングウィンドウは、たとえば、再生画面または再生画面の一部分であってもよい。ビューイングウィンドウはローカル画面にも相当する場合がある。参照画面は、たとえば作成画面であってもよい。
オーディオ再生システム16は、参照画面の1つまたは複数のFOVパラメータの値がデフォルト値に対応することを示すシンタックス要素を受信し、かつ/または、HOAオーディオ信号を備えるビットストリームに含まれるシグナリングされた値に参照画面の1つまたは複数のFOVパラメータの値が対応することを示すシンタックス要素を受信するように構成されてもよい。
予備エフェクト行列、エフェクト行列、レンダリング行列、最終レンダリング行列、または本開示において説明される他のタイプの行列を含む行列は、様々な方法で処理されてもよい。たとえば、行列は、行、列、ベクトルとして、または他の方法で処理(たとえば、記憶、加算、乗算、取出し)が行われてもよい。本開示において使用される場合、行列という用語は、行列データと関連付けられるデータ構造を指す場合があることを理解されたい。
図21は、本開示の1つまたは複数の技法を実施するためにシステムが実行する場合がある例示的なプロセス940を示すフローチャートである。本開示の様々な態様によれば、プロセス940は様々なシステムおよび/またはデバイスによって実行されてもよいことが理解されるだろう。しかしながら、議論を簡単にするために、プロセス940は、オーディオ再生システムおよび/またはその様々なコンポーネントによって実行されるものとして本明細書では説明される。プロセス940は、オーディオ再生システム16がHOAオーディオ信号のHOA係数を取得するときに開始してもよい(941)。たとえば、オーディオ再生システム16のオーディオ復号デバイス24は、オーディオビットストリーム21からHOA係数11'を取得してもよい。そして、オーディオ再生システム16は、HOA係数11'の空間的な方向に基づいてエフェクト行列を生成してもよい(942)。たとえば、オーディオ再生システム16は、予備エフェクト行列
を、HOA係数11'の空間的な方向に基づいて生成し、予備エフェクト行列
を使用してエフェクト行列(または「最終」エフェクト行列)Fを生成してもよい。
オーディオ再生システム16は、エフェクト行列Fを使用して新しいレンダリング行列を計算してもよい(944)。たとえば、オーディオ再生システム16は、式D=FRに従って新しいレンダリング行列(シンボル「D」により示される)を計算してもよく、ここで「R」は元のレンダリング行列を示す。オーディオ再生システム16は、新しいレンダリング行列Dを使用してHOA信号をラウドスピーカーフィードへとレンダリングしてもよい(946)。たとえば、オーディオ再生システム16は、新しいレンダリング行列Dを使用して、スピーカー3のうちの1つまたは複数を介して再生されるように、HOA係数11'をラウドスピーカーフィード25のうちの1つまたは複数へとレンダリングしてもよい。そして、オーディオ再生システム16は、ラウドスピーカーフィード25を出力して、スピーカー3のうちの1つまたは複数などの1つまたは複数のラウドスピーカーを駆動してもよい(948)。
図22は、本開示の1つまたは複数の技法を実施するためにシステムが実行する場合がある例示的なプロセス960を示すフローチャートである。本開示の様々な態様によれば、プロセス960は様々なシステムおよび/またはデバイスによって実行されてもよいことが理解されるだろう。しかしながら、議論を簡単にするために、プロセス960は、オーディオ再生システムおよび/またはその様々なコンポーネントによって実行されるものとして本明細書では説明される。プロセス960は、オーディオ再生システム16がHOAオーディオ信号のHOA係数を取得するときに開始してもよい(961)。たとえば、オーディオ再生システム16のオーディオ復号デバイス24は、オーディオビットストリーム21からHOA係数11'を取得してもよい。
そして、オーディオ再生システム16は、ラウドネス補償を実行してエフェクト行列を生成してもよい(962)。たとえば、オーディオ再生システム16は、ラウドネス補償を実行してマッピングの1つまたは複数の影響を補償してもよい。オーディオ再生システム16は、マッピングにより引き起こされる場合がある、エフェクト行列の空間的な伸長および/または圧縮により引き起こされる1つまたは複数の望ましくない方向依存のラウドネス差分を等しくするために、ラウドネス補償を実行してもよい。オーディオ再生システム16は、エフェクト行列を使用して新しいレンダリング行列を計算してもよい(964)。たとえば、オーディオ再生システム16は、式D=FRに従って新しいレンダリング行列(シンボル「D」により示される)を計算してもよく、ここで「R」は元のレンダリング行列を示し、「F」はラウドネス補償を使用して生成されるエフェクト行列を示す。
オーディオ再生システム16は、新しいレンダリング行列Dを使用してHOA信号をラウドスピーカーフィードへとレンダリングしてもよい(966)。たとえば、オーディオ再生システム16は、新しいレンダリング行列Dを使用して、スピーカー3のうちの1つまたは複数を介して再生されるように、HOA係数11'をラウドスピーカーフィード25のうちの1つまたは複数へとレンダリングしてもよい。そして、オーディオ再生システム16は、ラウドスピーカーフィード25を出力して、スピーカー3のうちの1つまたは複数などの1つまたは複数のラウドスピーカーを駆動してもよい(968)。
図23は、本開示の1つまたは複数の技法を実施するためにシステムが実行する場合がある例示的なプロセス980を示すフローチャートである。本開示の様々な態様によれば、プロセス980は様々なシステムおよび/またはデバイスによって実行されてもよいことが理解されるだろう。しかしながら、議論を簡単にするために、プロセス980は、オーディオ再生システムおよび/またはその様々なコンポーネントによって実行されるものとして本明細書では説明される。プロセス980は、オーディオ再生システム16がHOAオーディオ信号のHOA係数を取得するときに開始してもよい(981)。たとえば、オーディオ再生システム16のオーディオ復号デバイス24は、オーディオビットストリーム21からHOA係数11'を取得してもよい。
そして、オーディオ再生システム16は、ラウドネス補償を使用しHOA係数11'の空間的な方向を使用してエフェクト行列を生成してもよい(982)。たとえば、オーディオ再生システム16は、予備エフェクト行列
を、上で説明された式のうちの1つまたは複数に従って計算または生成してもよい。加えて、オーディオ再生システム16は、HOA係数11'の各々の空間的な方向に対して、HOAレンダリング行列を使用することによってラウドネス値を計算してもよい。そして、オーディオ再生システム16は、上で説明されたように計算されたモード行列を使用して、最終エフェクト行列を計算してもよい。
オーディオ再生システム16は、エフェクト行列を使用して新しいレンダリング行列を計算してもよい(984)。たとえば、オーディオ再生システム16は、式D=FRに従って新しいレンダリング行列(シンボル「D」により示される)を計算してもよく、ここで「R」は元のレンダリング行列を示し、「F」はラウドネス補償およびHOA係数11'の空間的な方向を使用して生成されるエフェクト行列を示す。
オーディオ再生システム16は、新しいレンダリング行列Dを使用してHOA信号をラウドスピーカーフィードへとレンダリングしてもよい(986)。たとえば、オーディオ再生システム16は、新しいレンダリング行列Dを使用して、スピーカー3のうちの1つまたは複数を介して再生されるように、HOA係数11'をラウドスピーカーフィード25のうちの1つまたは複数へとレンダリングしてもよい。そして、オーディオ再生システム16は、ラウドスピーカーフィード25を出力して、スピーカー3のうちの1つまたは複数などの1つまたは複数のラウドスピーカーを駆動してもよい(988)。
前述の技法は、任意の数の異なる状況およびオーディオエコシステムに関して実行されてもよい。いくつかの例示的な状況が下で説明されるが、本技法は例示的な状況に限定されるべきではない。1つの例示的なオーディオエコシステムは、オーディオコンテンツ、映画スタジオ、音楽スタジオ、ゲーミングオーディオスタジオ、チャンネルベースのオーディオコンテンツ、コーディングエンジン、ゲームオーディオステム、ゲームオーディオコーディング/レンダリングエンジン、および配信システムを含んでもよい。
映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受け取ることができる。いくつかの例では、オーディオコンテンツは、取得の成果を表す場合がある。映画スタジオは、デジタルオーディオワークステーション(DAW)を使用することなどによって、チャンネルベースのオーディオコンテンツ(たとえば、2.0、5.1、および7.1の)を出力してもよい。音楽スタジオは、DAWを使用することなどによって、チャンネルベースのオーディオコンテンツ(たとえば、2.0および5.1の)を出力してもよい。いずれの場合でも、コーディングエンジンは、配信システムによる出力のために、1つまたは複数のコーデック(たとえば、AAC、AC3、Dolby True HD、Dolby Digital Plus、およびDTS Master Audio)に基づいて、チャンネルベースのオーディオコンテンを受け取り符号化してもよい。ゲーミングオーディオスタジオは、DAWを使用することなどによって、1つまたは複数のゲームオーディオステムを出力してもよい。ゲームオーディオコーディング/レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャンネルベースのオーディオコンテンツへとコーディングおよびまたはレンダリングしてもよい。本技法が実行されてもよい別の例示的な状況は、放送用録音オーディオオブジェクト、プロフェッショナルオーディオシステム、消費者向けオンデバイスキャプチャ、HOAオーディオフォーマット、オンデバイスレンダリング、消費者向けオーディオ、TV、アクセサリ、およびカーオーディオシステムを含んでもよい、オーディオエコシステムを備える。
放送用録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、HOAオーディオフォーマットを使用して出力をコーディングしてもよい。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、TV、アクセサリ、およびカーオーディオシステムを使用して再生されてもよい単一の表現へと、HOAオーディオフォーマットを使用してコーディングされてもよい。言い換えると、オーディオコンテンツの単一の表現は、オーディオ再生システム16のような、一般的なオーディオ再生システムにおいて(すなわち、5.1、7.1などのような特定の構成を必要とするのではなく)再生されてもよい。
本技法が実行されてもよい状況の他の例は、取得要素および再生要素を含んでもよいオーディオエコシステムを含む。取得要素は、有線および/またはワイヤレス取得デバイス(たとえば、Eigenマイクロフォン)、オンデバイスサラウンドサウンドキャプチャ、およびモバイルデバイス(たとえば、スマートフォンおよびタブレット)を含んでもよい。いくつかの例では、有線および/またはワイヤレス取得デバイスは、有線および/またはワイヤレス通信チャンネルを介してモバイルデバイスに結合されてもよい。本明細書において使用される「結合された」という用語は、様々なタイプの接続を含んでもよい。たとえば、デバイスのメモリデバイスコンポーネントは、メモリデバイスがバスなどにより通信可能に接続されている場合、1つまたは複数のプロセッサ(たとえば、処理回路)に「結合され」てもよい。
本開示の1つまたは複数の技法によれば、モバイルデバイスは音場を取得するために使用されてもよい。たとえば、モバイルデバイスは、有線および/もしくはワイヤレス取得デバイスならびに/またはオンデバイスサラウンドサウンドキャプチャ(たとえば、モバイルデバイスに組み込まれた複数のマイクロフォン)を介して、音場を取得してもよい。モバイルデバイスは次いで、再生要素の1つまたは複数による再生のために、取得された音場をHOA係数へとコーディングしてもよい。たとえば、モバイルデバイスのユーザは、ライブイベント(たとえば、会合、会議、演劇、コンサートなど)を録音(ライブイベントの音場を取得)して、その録音をHOA係数へとコーディングしてもよい。
モバイルデバイスはまた、再生要素の1つまたは複数を利用して、HOAコーディングされた音場を再生してもよい。たとえば、モバイルデバイスは、HOAコーディングされた音場を復号し、再生要素の1つまたは複数に音場を再生成させる信号を再生要素の1つまたは複数に出力してもよい。一例として、モバイルデバイスは、有線および/またはワイヤレス通信チャンネルを利用して、信号を1つまたは複数のスピーカー(たとえば、スピーカーアレイ、サウンドバーなど)に出力してもよい。別の例として、モバイルデバイスは、ドッキングによる方法を利用して、1つまたは複数のドッキングステーションおよび/または1つまたは複数のドッキングされたスピーカー(たとえば、スマートカーおよび/またはスマートホームにおけるサウンドシステム)に信号を出力してもよい。別の例として、モバイルデバイスは、たとえばリアルなバイノーラルサウンドを生成するために、ヘッドフォンレンダリングを利用して、ヘッドフォンのセットに信号を出力してもよい。
いくつかの例では、特定のモバイルデバイスは、3D音場を取得することと、後で同じ3D音場を再生することとの両方を行うことができる。いくつかの例では、モバイルデバイスは、3D音場を取得し、3D音場をHOAへと符号化し、符号化された3D音場を再生のために1つまたは複数の他のデバイス(たとえば、他のモバイルデバイスおよび/または他の非モバイルデバイス)に送信してもよい。
本技法が実行されてもよいさらに別の状況は、オーディオコンテンツ、ゲームスタジオ、コーディングされたオーディオコンテンツ、レンダリングエンジン、および配信システムを含んでもよい、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、HOA信号の編集をサポートする場合がある、1つまたは複数のDAWを含んでもよい。たとえば、1つまたは複数のDAWは、1つまたは複数のゲームオーディオシステムとともに動作する(たとえば、機能する)ように構成されてもよい、HOAプラグインおよび/またはツールを含んでもよい。いくつかの例では、ゲームスタジオは、HOAをサポートする新たなステムフォーマットを出力してもよい。いずれにしても、ゲームスタジオは、コーディングされたオーディオコンテンツを、配信システムによる再生のために音場をレンダリングする場合があるレンダリングエンジンに出力してもよい。
本技法はまた、例示的なオーディオ取得デバイスに関して実行されてもよい。たとえば、本技法は、3D音場を記録するように全体的に構成される複数のマイクロフォンを含んでもよい、Eigenマイクロフォンに関して実行されてもよい。いくつかの例では、Eigenマイクロフォンの複数のマイクロフォンは、半径が約4cmの実質的に球形のボールの表面上に配置されてもよい。いくつかの例では、オーディオ符号化デバイス20は、マイクロフォンから直接オーディオビットストリーム21を出力するために、Eigenマイクロフォンに統合されてもよい。
別の例示的なオーディオ取得の状況は、1つまたは複数のEigenマイクロフォンのような1つまたは複数のマイクロフォンから信号を受信するように構成されてもよい中継車を含んでもよい。中継車はまた、図3のオーディオ符号化デバイス20のようなオーディオエンコーダを含んでもよい。
モバイルデバイスはまた、いくつかの例では、3D音場を記録するように全体的に構成される複数のマイクロフォンを含んでもよい。言い換えると、複数のマイクロフォンは、X、Y、Zのダイバーシティを有する場合がある。いくつかの例では、モバイルデバイスは、モバイルデバイスの1つまたは複数の他のマイクロフォンに関してX、Y、Zのダイバーシティを提供するように回転されてもよい、マイクロフォンを含んでもよい。モバイルデバイスはまた、図3のオーディオ符号化デバイス20のようなオーディオエンコーダを含んでもよい。
高耐久性のビデオキャプチャデバイスがさらに、3D音場を記録するように構成されてもよい。いくつかの例では、高耐久性のビデオキャプチャデバイスは、活動に関与しているユーザのヘルメットに取り付けられてもよい。たとえば、高耐久性のビデオキャプチャデバイスは、ホワイトウォーターラフティング中のユーザのヘルメットに取り付けられてもよい。このようにして、高耐久性のビデオキャプチャデバイスは、ユーザの周囲の活動を表す3D音場(たとえば、ユーザの背後の水しぶき、ユーザの前にいる別のラフターの声など)をキャプチャしてもよい。
本技法はまた、3D音場を記録するように構成されてもよい、アクセサリにより増強されたモバイルデバイスに関して実行されてもよい。いくつかの例では、モバイルデバイスは上で論じられたモバイルデバイスと同様であってよく、1つまたは複数のアクセサリが追加されている。たとえば、Eigenマイクロフォンは、アクセサリで増強されたモバイルデバイスを形成するために、上で述べられたモバイルデバイスに取り付けられてもよい。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャコンポーネントを使用するだけの場合よりも、高品質なバージョンの3D音場をキャプチャしてもよい。
本開示において説明される本技法の様々な態様を実行する場合がある例示的なオーディオ再生デバイスが、下で論じられる。本開示の1つまたは複数の技法によれば、スピーカーおよび/またはサウンドバーは、3D音場を再生しながらでも、あらゆる任意の構成で並べられてもよい。その上、いくつかの例では、ヘッドフォン再生デバイスが、有線接続またはワイヤレス接続のいずれかを介してオーディオ復号デバイス24に結合されてもよい。本開示の1つまたは複数の技法によれば、音場の単一の一般的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用されてもよい。
いくつかの異なる例示的なオーディオ再生環境も、本開示において説明される技法の様々な態様を実行するのに適していることがある。たとえば、5.1スピーカー再生環境、2.0(たとえば、ステレオ)スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う9.1スピーカー再生環境、22.2スピーカー再生環境、16.0スピーカー再生環境、オートモーティブスピーカー再生環境、およびイヤホン再生環境を伴うモバイルデバイスが、本開示において説明される技法の様々な態様を実行するための適切な環境であってもよい。
本開示の1つまたは複数の技法によれば、音場の単一の一般的な表現が、前述の再生環境のいずれかで音場をレンダリングするために利用されてもよい。加えて、本開示の技法は、上で説明されたもの以外の再生環境での再生のために、レンダラが一般的な表現から音場をレンダリングすることを可能にする場合がある。たとえば、設計上の考慮事項が7.1スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合(たとえば、右のサラウンドスピーカーを配置することが可能ではない場合)、本開示の技法は、6.1スピーカー再生環境での再生が達成されてもよいように、レンダラが他の6つのスピーカーによって補償することを可能にする。
その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を観ることがある。本開示の1つまたは複数の技法によれば、スポーツの試合の3D音場が取得されてよく(たとえば、1つまたは複数のEigenマイクロフォンが野球場の中および/または周囲に配置されてよく)、3D音場に対応するHOA係数が取得されデコーダに送信されてよく、デコーダがHOA係数に基づいて3D音場を再構築し、再構築された3D音場をレンダラに出力することができ、レンダラは、再生環境のタイプ(たとえば、ヘッドフォン)についての指示を取得し、再構築された3D音場を、ヘッドフォンにスポーツの試合の3D音場の表現を出力させる信号へとレンダリングしてもよい。
上で説明された様々な例の各々において、オーディオ符号化デバイス20が、方法を実行してよく、またはそうでなければ、オーディオ符号化デバイス20が実行するように構成される方法の各ステップを実行するための手段を備えてよいことを理解されたい。いくつかの例では、この手段は、1つまたは複数のプロセッサを備えてよい。いくつかの例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶されている命令によって構成される、特別なプロセッサを表す場合がある。言い換えると、符号化の例のセットの各々における本技法の様々な態様は、実行されると、オーディオ符号化デバイス20が実行するように構成されている方法を1つまたは複数のプロセッサに実行させる命令を記憶している、非一時的コンピュータ可読記憶媒体を提供してもよい。
1つまたは複数の例において、説明される機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装されてもよい。ソフトウェアで実装される場合、機能は、1つもしくは複数の命令またはコードとしてコンピュータ可読媒体上に記憶され、またはコンピュータ可読媒体を介して送信されてよく、かつハードウェアに基づく処理ユニットによって実行されてよい。コンピュータ可読媒体は、データ記憶媒体のような有形の媒体に対応するコンピュータ可読記憶媒体を含んでもよい。データ記憶媒体は、本開示で説明された技法を実装するための命令、コード、および/またはデータ構造を取り出すために1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセス可能である任意の利用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ可読媒体を含んでもよい。
同様に、上で説明された様々な例の各々において、オーディオ復号デバイス24が、方法を実行してよく、またはそうでなければ、オーディオ復号デバイス24が実行するように構成される方法の各ステップを実行するための手段を備えてよいことを理解されたい。いくつかの例では、この手段は、1つまたは複数のプロセッサを備える場合がある。いくつかの例では、1つまたは複数のプロセッサは、非一時的コンピュータコンピュータ可読記憶媒体に記憶されている命令によって構成される、特別なプロセッサを表す場合がある。言い換えると、符号化の例のセットの各々における本技法の様々な態様は、実行されると、オーディオ復号デバイス24が実行するように構成されている方法を1つまたは複数のプロセッサに実行させる命令を記憶している、非一時的コンピュータ可読記憶媒体を提供してもよい。
限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気記憶デバイス、フラッシュメモリ、または、命令もしくはデータ構造の形式の所望のプログラムコードを記憶するために使用され、コンピュータによってアクセスされてもよい任意の他の媒体を含むことができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、代わりに非一時的な有形記憶媒体を指すことを理解されたい。ディスク(disk)およびディスク(disc)は、本明細書で使用される場合、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびブルーレイディスク(disc)を含み、ディスク(disk)は通常、データを磁気的に再生するが、ディスク(disc)は、レーザーを用いてデータを光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲内に同じく含まれるべきである。
命令は、1つまたは複数のデジタル信号プロセッサ(DSP)、処理回路(プログラマブル処理回路、固定機能回路、またはプログラマブル処理回路と固定機能回路の組合せ)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、または他の等価な集積論理回路もしくは個別論理回路などの、1つまたは複数のプロセッサによって実行されてもよい。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または本明細書で説明される技法の実装に適した任意の他の構造のいずれかを指す場合がある。さらに、いくつかの態様では、本明細書で説明される機能は、符号化および復号のために構成された専用のハードウェアモジュールおよび/またはソフトウェアモジュール内に与えられてよく、あるいは複合コーデックに組み込まれてよい。また、技法は、1つまたは複数の回路または論理要素において完全に実装されてもよい。
本開示の技法は、ワイヤレスハンドセット、集積回路(IC)、またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置において実装されてもよい。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために、様々なコンポーネント、モジュール、またはユニットが説明されたが、それらのコンポーネント、モジュール、またはユニットは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。そうではなくて、上で説明されたように、様々なユニットは、コーデックハードウェアユニットにおいて結合されてよく、または適切なソフトウェアおよび/もしくはファームウェアとともに、前述のような1つもしくは複数のプロセッサを含む、相互動作可能なハードウェアユニットの集合によって提供されてよい
本技法の様々な態様が説明されてきた。本技法のこれらのおよび他の態様は、以下の特許請求の範囲内に入る。