JP2016524726A

JP2016524726A - 球面調和係数に対して空間マスキングを実行すること

Info

Publication number: JP2016524726A
Application number: JP2016516797A
Authority: JP
Inventors: セン、ディパンジャン; モッレル、マーティン・ジェームス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-05-28
Filing date: 2014-05-28
Publication date: 2016-08-18
Also published as: US9412385B2; CN105247612B; EP3005357B1; US20140355768A1; EP3005357A1; CN105247612A; KR20160012215A; WO2014194001A1

Abstract

概して、球面調和係数に対して空間マスキングを実行する技法について説明する。一例として、プロセッサを備えるオーディオ符号化デバイスは、本技法の様々な態様を実行し得る。プロセッサは、空間マスキングしきい値を識別するために、３次元音場を記述する球面調和係数に基づいて空間解析を実行するように構成され得る。プロセッサは、複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングし、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮するようにさらに構成され得る。【選択図】図１３

Description

[0001]本出願は、２０１３年５月２８日に出願された米国仮出願第６１／８２８，１３２号の利益を主張する。

[0002] 本技法はオーディオデータに関し、より詳細には、オーディオデータのコーディングに関する。

[0003] 高次アンビソニックス（ＨＯＡ：higher order ambisonics）信号（しばしば複数の球面調和係数（ＳＨＣ：spherical harmonic coefficients）または他の階層要素hierarchical elementsによって表される）は、音場の３次元表現(three-dimensional representation)である。このＨＯＡ表現またはＳＨＣ表現は、このＳＨＣ信号からレンダリングされるマルチチャンネルオーディオ信号を再生するために使用されるローカルスピーカー幾何学的配置(local speaker geometry)に依存しない方法で、この音場を表し得る。このＳＨＣ信号はまた、このＳＨＣ信号が、５．１オーディオチャンネルフォーマットまたは７．１オーディオチャンネルフォーマットなどの、よく知られており広く採用されているマルチチャンネルフォーマットにレンダリングされ得るので、後方互換性を可能にし得る。従って、ＳＨＣ表現は、後方互換性にも適応する、音場のより優れた表現を可能にし得る。

[0004] 概して、（高次アンビソニック（ＨＯＡ：higher-order ambisonic）係数とも呼ばれ得る）球面調和係数に対して空間マスキングを実行するための技法について説明する。空間マスキングは、比較的大きい音がより静かな音に空間的に近接したロケーションで生じると、ヒトの聴覚系がより静かな音を検出できないことを活用し得る。本開示で説明する技法は、比較的大きい（またはエネルギーが多い）音によってマスクされ得るこれらのより静かな（またはエネルギーが少ない）音を識別するために、オーディオコーディングデバイスが球面調和係数によって表される音場を評価することを可能にし得る。次いで、オーディオコーディングデバイスは、より静かな音をコーディングするためにより多くのビットを割り当てるとともに、より大きい音をコーディングするためにより多くのビットを割り当て（またはいくつかのビットを維持し）得る。この点において、本開示で説明する技法は球面調和係数のコーディングを容易にし得る。

[0005] 一態様では、方法が、定義されたスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号することと、複数の球面調和係数を生成するために、生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行することと、複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングすることとを備える。

[0006] 別の態様では、オーディオ復号デバイスが、第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号し、複数の球面調和係数を生成するために、生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行し、複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングするように構成された１つまたは複数のプロセッサを備える。

[0007] 別の態様では、オーディオ復号デバイスが、第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号するための手段と、複数の球面調和係数を生成するために、生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行するための手段と、複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングするための手段とを備える。

[0008] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、オーディオ復号デバイスの１つまたは複数のプロセッサに、第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号させ、複数の球面調和係数を生成するために、生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行させ、複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングさせる命令を記憶している。

[0009] 別の態様では、オーディオデータを圧縮する方法が、空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析(spatial analysis)を実行することと、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてオーディオデータを圧縮することとを備える。

[0010] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行し、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてオーディオデータを圧縮するように構成された１つまたは複数のプロセッサを備える。

[0011] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてオーディオデータを圧縮するための手段とを備える。

[0012] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、１つまたは複数のプロセッサに、空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてオーディオデータを圧縮させる命令を記憶している。

[0013] 別の態様では、オーディオを圧縮する方法が、マルチチャンネルオーディオデータを生成するために、３次元でオーディオの音場を記述する複数の球面調和係数をレンダリングすることと、空間マスキングしきい値を識別するために、マルチチャンネルオーディオデータに対して空間解析を実行することと、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮することとを備える。

[0014] 別の態様では、デバイスが、マルチチャンネルオーディオデータを生成するために、３次元でオーディオの音場を記述する複数の球面調和係数をレンダリングし、空間マスキングしきい値を識別するために、マルチチャンネルオーディオデータに対して空間解析を実行し、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮するように構成された１つまたは複数のプロセッサを備える。

[0015] 別の態様では、デバイスが、マルチチャンネルオーディオデータを生成するために、３次元でオーディオの音場を記述する複数の球面調和係数をレンダリングするための手段と、空間マスキングしきい値を識別するために、マルチチャンネルオーディオデータに対して空間解析を実行するための手段と、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮するための手段とを備える。

[0016] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、１つまたは複数のプロセッサに、マルチチャンネルオーディオデータを生成するために、３次元でオーディオの音場を記述する複数の球面調和係数をレンダリングさせ、空間マスキングしきい値を識別するために、マルチチャンネルオーディオデータに対して空間解析を実行させ、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮させる命令を記憶している。

[0017] 別の態様では、オーディオデータを圧縮する方法が、圧縮されたオーディオデータを表すビットストリームのターゲットビットレートを決定することと、空間マスキングしきい値を識別するために、３次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行することと、圧縮されたオーディオデータを表すビットストリームを生成するために、ターゲットビットレートに基づいて、ｉ）パラメトリックチャンネル間オーディオ符号化(parametric inter-channel audio encoding)および空間マスキングしきい値を使用した空間マスキング、またはｉｉ）パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行することとを備える。

[0018] 別の態様では、デバイスが、圧縮されたオーディオデータを表すビットストリームのターゲットビットレートを決定し、空間マスキングしきい値を識別するために、３次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し、圧縮されたオーディオデータを表すビットストリームを生成するために、ターゲットビットレートに基づいて、ｉ）パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはｉｉ）パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行するように構成された１つまたは複数のプロセッサを備える。

[0019] 別の態様では、デバイスが、圧縮されたオーディオデータを表すビットストリームのターゲットビットレートを決定するための手段と、空間マスキングしきい値を識別するために、３次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、圧縮されたオーディオデータを表すビットストリームを生成するために、ターゲットビットレートに基づいて、ｉ）パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはｉｉ）パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行するための手段とを備える。

[0020] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、１つまたは複数のプロセッサに、圧縮されたオーディオデータを表すビットストリームのターゲットビットレートを決定させ、空間マスキングしきい値を識別するために、３次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、圧縮されたオーディオデータを表すビットストリームを生成するために、ターゲットビットレートに基づいて、ｉ）パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはｉｉ）パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行させる命令を記憶している。

[0021] 別の態様では、マルチチャンネルオーディオデータを圧縮する方法であって、本方法が、空間マスキングしきい値を識別するために、３次元でマルチチャンネルオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行することと、マルチチャンネルオーディオデータを生成するために、球面調和係数をレンダリングすることと、空間マスキングしきい値を使用して、マルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して空間マスキングを実行することと、ビットストリームを生成するために、マルチチャンネルオーディオデータの空間的にマスクされた１つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行することとを備える。

[0022] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、３次元でマルチチャンネルオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し、マルチチャンネルオーディオデータを生成するために、球面調和係数をレンダリングし、空間マスキングしきい値を使用して、マルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して空間マスキングを実行し、ビットストリームを生成するために、マルチチャンネルオーディオデータの空間的にマスクされた１つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行するための１つまたは複数のプロセッサを備える。

[0023] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、３次元でマルチチャンネルオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、マルチチャンネルオーディオデータを生成するために、球面調和係数をレンダリングするための手段と、空間マスキングしきい値を使用して、マルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して空間マスキングを実行するための手段と、ビットストリームを生成するために、マルチチャンネルオーディオデータの空間的にマスクされた１つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行するための手段とを備える。

[0024] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、１つまたは複数のプロセッサに、空間マスキングしきい値を識別するために、３次元でマルチチャンネルオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、マルチチャンネルオーディオデータを生成するために、球面調和係数をレンダリングさせ、空間マスキングしきい値を使用して、マルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して空間マスキングを実行させ、ビットストリームを生成するために、マルチチャンネルオーディオデータの空間的にマスクされた１つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行させる命令を記憶している。

[0025] 別の態様では、オーディオデータを圧縮する方法であって、本方法が、空間マスキングしきい値を識別するために、３次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行することと、空間マスキングしきい値を使用して、複数の球面調和係数に対して空間マスキングを実行することと、複数の空間的にマスクされた球面調和係数を含むビットストリームを生成することとを備える。

[0026] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、３次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し、空間マスキングしきい値を使用して、複数の球面調和係数に対して空間マスキングを実行し、複数の空間的にマスクされた球面調和係数を含むビットストリームを生成するための１つまたは複数のプロセッサを備える。

[0027] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、３次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、空間マスキングしきい値を使用して、複数の球面調和係数に対して空間マスキングを実行するための手段と、複数の空間的にマスクされた球面調和係数を含むビットストリームを生成するための手段とを備える。

[0028] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、１つまたは複数のプロセッサに、空間マスキングしきい値を識別するために、３次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、空間マスキングしきい値を使用して、複数の球面調和係数に対して空間マスキングを実行させ、複数の空間的にマスクされた球面調和係数を含むビットストリームを生成させる命令を記憶している。

[0029] 本技法の１つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。これらの技法の他の特徴、目的、および利点は、説明および図面から、並びに特許請求の範囲から、明らかになろう。

様々な次数および副次数の球面調和基底関数を示す図である。様々な次数および副次数の球面調和基底関数を示す図である。様々な次数および副次数の球面調和基底関数を示す図である。２次元または３次元音場を記述する球面調和係数をコーディングするために本開示で説明する技法の様々な態様を実行し得る、例示的なオーディオ符号化デバイスを示すブロック図である。２次元または３次元音場を記述する球面調和係数をコーディングするために本開示で説明する技法の様々な態様を実行し得る、例示的なオーディオ符号化デバイスを示すブロック図である。２次元または３次元音場を記述する球面調和係数を復号するために本開示で説明する技法の様々な態様を実行し得る、例示的なオーディオ復号デバイスを示すブロック図である。図４Ａの例に示すオーディオ符号化ユニットの例示的な変形形態をより詳細に示すブロック図である。図４Ａの例に示すオーディオ符号化ユニットの例示的な変形形態をより詳細に示すブロック図である。図４Ａの例に示すオーディオ符号化ユニットの例示的な変形形態をより詳細に示すブロック図である。図２のオーディオ復号ユニットの一例をより詳細に示すブロック図である。図５の例に示すオーディオレンダリングユニットをより詳細に示すブロック図である。本開示で説明する技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャートである。本開示で説明する技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャートである。本開示で説明する空間マスキング技法の様々な態様を示す図である。本開示で説明する技法の様々な態様に従って、ビットストリームを生成する異なる形態が実行され得る、図４Ａの例に示すオーディオ符号化デバイスの変形形態を示すブロック図である。本開示で説明する技法の様々な態様を実行し得る例示的なオーディオ符号化デバイスを示すブロック図である。

[0041] サラウンド音の発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのようなサラウンド音フォーマットの例は、（以下の６つのチャンネル、すなわち、フロントレフト（ＦＬ）と、フロントライト（ＦＲ）と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果（ＬＦＥ）とを含む）一般的な５．１フォーマット、発展中の７．１フォーマット、および（たとえば、超高精細テレビジョン規格で使用するための）来るべき２２．２フォーマットを含む。さらなる例は、球面調和アレイのためのフォーマットを含む。

[0042] 将来のＭＰＥＧエンコーダへの入力は、オプションとして３つの考えられるフォーマット、すなわち、（ｉ）事前指定された位置にあるラウドスピーカーを通じて再生されるように意図されている、従来のチャンネルベースのオーディオ、（ｉｉ）（他の情報の中でも）ロケーション座標を含む関連付けられたメタデータを有する単一オーディオオブジェクトのための離散パルスコード変調（ＰＣＭ）データを含む、オブジェクトベースのオーディオ、および（ｉｉｉ）球面調和基底関数(spherical harmonic basis functions)の係数（「球面調和係数(spherical harmonic coefficients)」またはＳＨＣとも呼ばれる）を使用して音場を表すことを含む、シーンベースのオーディオのうちの１つである。

[0043] 市場には様々な「サラウンド音」フォーマットがある。これらのフォーマットは、たとえば、５．１ホームシアターシステム（リビングルームへの進出を行うという点でステレオ以上に最も成功した）からＮＨＫ（ＮｉｐｐｏｎＨｏｓｏＫｙｏｋａｉすなわち日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ作成者（たとえば、ハリウッドスタジオ）は、一度に映画のサウンドトラックを作成することを望み、スピーカー構成ごとにサウンドトラックをリミックス(remix)することに労力を費やすことを望まない。最近では、標準化委員会が、標準化されたビットストリームへの符号化と、スピーカー幾何学的配置およびレンダラのロケーションにおける音響条件に適合可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。

[0044] コンテンツ作成者にそのような柔軟性を提供するために、階層的な要素のセット(hierarchical set of elements)が音場を表すために使用され得る。階層的な要素のセットは、より低次の要素の基本セット(basic set of lower-ordered elements)がモデル化された音場の完全な表現を提供するように要素が順序付けられる、要素のセットを指し得る。このセットはより高次の要素(higher-order elements)を含むように拡張されるので、表現はより詳細なものになる。

[0045] 階層的な要素のセットの一例は、ＳＨＣのセットである。次の式は、ＳＨＣを使用した音場の記述または表現を示す。

[0046] この式は、音場の任意の点｛ｒ_r，θ_r，φ_r｝における圧力ｐ_iが

によって一意的に表され得ることを示す。ここで、

であり、ｃは、音速（約３４３ｍ／ｓ）であり、｛ｒ_r，θ_r，φ_r｝は、基準点（または観測点）であり、Ｊ_n（・）は、次数ｎの球ベッセル関数であり、

は、次数ｎおよび副次数ｍの球面調和基底関数である。角括弧内の項は、離散フーリエ変換（ＤＦＴ: discrete cosine transform）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換(wavelet transform)などの、様々な時間周波数変換によって近似され得る信号の周波数領域表現（すなわち、Ｓ（ω，ｒ_r，θ_r，φ_r））であることが、認識され得る。階層的なセットの他の例は、ウェーブレット変換係数のセット、および多重分解能基底関数の係数の他のセット(other sets of coefficients of multiresolution basis functions)を含む。

[0047] 図１は、０次球面調和基底関数（第１の行）と、１次球面調和基底関数（第２の行）と、２次球面調和基底関数（第３の行）とを示す図である。次数（ｎ）は表の行によって識別され、第１の行は０次を指し、第２の行は１次を指し、第３の行は２次を指す。副次数（ｍ）は表の列によって識別され、これらの列は図３により詳細に示されている。０次球面調和基底関数に対応するＳＨＣは、音場のエネルギーを指定するものと考えられ得るが、残りのより高次の球面調和基底関数に対応するＳＨＣは、そのエネルギーの方向を指定し得る。

[0048] 図２は、０次（ｎ＝０）から４次（ｎ＝４）までの球面調和基底関数を示す図である。わかるように、各次数に対して、図示されているが説明を簡単にするために図２の例では明示的に述べられていない副次数ｍという拡張がある。

[0049] 図３は、０次（ｎ＝０）から４次（ｎ＝４）までの球面調和基底関数を示す別の図である。図３では、球面調和基底関数が、示される次数と副次数の両方を伴う３次元座標空間において示される。

[0050] いずれの場合も、

は、様々なマイクロフォンアレイ構成によって物理的に取得（たとえば、記録）され得るか、または別法として、音場のチャンネルベースの記述またはオブジェクトベースの記述から導出され得る。前者は、エンコーダへのシーンベースのオーディオ入力を表す。たとえば、１＋２⁴個の（２５個の、従って４次）係数を伴う４次表現が使用され得る。

これらのＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場の係数

は

と表され得、ここで、ｉは

であり、

は次数ｎの（第２の種類の）球ハンケル関数であり、｛ｒ_s，θ_s、φ_s｝はオブジェクトのロケーションである。周波数の関数として（たとえば、ＰＣＭストリームに対して高速フーリエ変換を実行するなど、時間周波数解析技法を使用して）ソースエネルギーｇ（ω）を知ることで、各ＰＣＭオブジェクトとそのロケーションとを

に変換できる。さらに、各オブジェクトに対する

係数は、（上式は線形であり直交方向の分解であるので）加法的であることが示され得る。このようにして、多数のＰＣＭオブジェクトが

係数によって（たとえば、個々のオブジェクトに対する係数ベクトルの和として）表され得る。基本的に、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含み、上式は、観測点｛ｒ_r，θ_r，φ_r｝の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの図について、オブジェクトベースおよびＳＨＣベースのオーディオコーディングのコンテキストにおいて以下で説明する。

[0051] 図４Ａおよび図４Ｂは各々、２次元または３次元音場を記述する球面調和係数をコーディングするために本開示で説明する技法の様々な態様を実行し得る、例示的なオーディオ符号化デバイス１０を示すブロック図である。図４Ａの例では、オーディオ符号化デバイス１０が概して、デスクトップコンピュータ、ラップトップコンピュータ、ワークステーション、タブレットもしくはスレートコンピュータ、専用のオーディオ記録デバイス、セルラーフォン（いわゆる「スマートフォン」を含む）、パーソナルメディアプレーヤデバイス、パーソナルゲーミングデバイス、またはオーディオデータを符号化することが可能な任意の他のタイプのデバイスなど、オーディオデータを符号化することが可能な任意のデバイスを表す。

[0052] 単一のデバイス、すなわち、図４Ａの例におけるデバイス１０として示されているが、デバイス１０内に含まれるものとして以下で言及される様々な構成要素またはユニットは、実際には、デバイス１０の外にある別個のデバイスを形成し得る。言い換えれば、単一のデバイス、すなわち、図４Ａの例におけるデバイス１０によって実行されるものとして本開示で説明しているが、本技法は、複数のデバイスを備えるシステムによって実装されるか、またはさもなければ実行され得、これらのデバイスの各々は各々、以下でより詳細に説明する様々な構成要素またはユニットのうちの１つまたは複数を含み得る。従って、本技法は、図４Ａの例に限定されるべきではない。

[0053] 図４Ａの例に示すように、オーディオ符号化デバイス１０は、時間周波数解析ユニット１２と、オーディオレンダリングユニット１４と、オーディオ符号化ユニット１６と、空間解析ユニット１８とを備える。時間周波数解析ユニット１２は、球面調和係数（ＳＨＣ）２０Ａを時間領域から周波数領域に変換するためにＳＨＣ２０Ａの時間周波数解析を実行するように構成されたユニットを表し得る。時間周波数解析ユニット１２はＳＨＣ２０Ｂを出力し得、ＳＨＣ２０Ｂは周波数領域において表されるＳＨＣ２０Ａを示し得る。時間周波数解析ユニット１２に関して説明しているが、本技法は、周波数領域に変換されたＳＨＣ２０Ｂに対して実行されるのではなく、時間領域に残されたＳＨＣ２０Ａに対して実行され得る。

[0054] ＳＨＣ２０Ａは、１つまたは複数の球面調和に関連付けられた係数を指し得る。これらの球面調和は、フーリエ級数の三角基底関数(trigonometric basis functions of a Fourier series)に類似していてもよい。すなわち、球面調和は、フーリエ級数の三角関数がどのようにストリングの振動の基本モードを表し得るかに類似した、マイクロフォンの周りの球体の振動の基本モードを表し得る。これらの係数は、これらの球面調和の使用を必要とする、球面座標における波動方程式を解くことによって、導出され得る。この意味で、ＳＨＣ２０Ａは、対応する球面調和のボリューム乗数を示す係数を有する一連の球面調和として、マイクロフォンを取り囲む３Ｄ音場を表し得る。

[0055] 低次アンビソニックス（１次アンビソニックスとも呼ばれ得る）は、音情報をＷ、Ｘ、ＹおよびＺで示される４つのチャンネルに符号化し得る。この符号化フォーマットは、しばしば「Ｂフォーマット」と呼ばれる。Ｗチャンネルは、全指向性マイクロフォンの出力に対応するキャプチャされた音信号の無指向性モノ構成要素を指す。Ｘ、ＹおよびＺチャンネルは、３次元における指向性構成要素である。Ｘ、ＹおよびＺチャンネルは典型的に、３つの８の字マイクロフォンの出力に対応し、それぞれ、１つ目は前方を向き、２つ目は左側を向き、３つ目は上方を向く。これらのＢフォーマット信号は通常、音場の球面調和分解(spherical harmonic decomposition of the soundfield)に基づき、圧力（Ｗ）と、空間内のある点における３つの構成要素の圧力勾配（Ｘ、ＹおよびＺ）とに対応する。ともに、これらの４つのＢフォーマット信号（すなわち、Ｗ、Ｘ、ＹおよびＺ）はマイクロフォンの周りの音場に近似する。形式上、これらのＢフォーマット信号は多重極展開の１次打切り(first-order truncation of the multipole expansion)を表し得る。

[0056] 高次アンビソニックスは、元の１次Ｂフォーマットよりも精細なモーダル構成要素(finer modal components)を表す、より多くのチャンネルを使用する音場を表す形態を指す。結果として、高次アンビソニックスはかなり多くの空間情報をキャプチャし得る。「高次アンビソニックス」という用語の「高次」は、球面調和に関して球体上の関数のマルチモーダル展開のさらなる項を指す。高次アンビソニックスによって空間情報を増加させることにより、球体への圧力としてのキャプチャされた音のより良い表現が得られ得る。ＳＨＣ２０Ａを生成するために高次アンビソニックスを使用することは、オーディオデコーダに存在するスピーカーによるキャプチャされた音のより良い再生を可能にし得る。

[0057] オーディオレンダリングユニット１４は、ＳＨＣ２０Ｂを１つまたは複数のチャンネル２２Ａ〜２２Ｎ（「スピーカーフィード２２Ａ〜２２Ｎ」とも呼ばれ得る「チャンネル２２」）にレンダリングするように構成されたユニットを表す。代替的に、ＳＨＣ２０ＡをＳＨＣ２０Ｂに変換しないとき、オーディオレンダリングユニット１４は、ＳＨＣ２０Ａから１つまたは複数のチャンネル２２Ａ〜２２Ｎをレンダリングするように構成されたユニットを表し得る。場合によっては、オーディオレンダリングユニット１４は、ＳＨＣ２０Ｂを、高密度Ｔ設計(dense T-design)の幾何学的配置で配置された３２個のスピーカーに対応する３２個のチャンネル（図４の例においてチャンネル２２として示す）にレンダリングし得る。オーディオレンダリングユニット１４は、デコーダにおけるＳＨＣ２０Ｂの復元を容易にするために、ＳＨＣ２０Ｂを、高密度Ｔ設計で配置された３２個のスピーカーに対応する３２個のチャンネルにレンダリングし得る。すなわち、ＳＨＣ２０Ｂを、この高密度Ｔ設計で配置された３２個のスピーカーに対応するこれらの３２個のチャンネルにレンダリングするのに関係する数式は、可逆である行列を含み、その結果、逆行列（Ｒ^-1として示され得る）を乗じたこの行列（変数Ｒによって示され得る）は、単位行列（Ｉとして示され、数式全体はＲＲ^-1＝Ｉである）に等しい。上記の数式は、オーディオデコーダにおいてＳＨＣ３２Ｂを復元するときに損失がない（または、言い換えれば、ほとんどまたはまったく誤差がもたらされない）ことを暗に示す。

[0058] オーディオ符号化ユニット１６は、チャンネル２２をビットストリーム２４に圧縮するために何らかの形態のオーディオ符号化を実行するように構成されたユニットを表し得る。いくつかの例では、オーディオ符号化ユニット１６が、国際標準化機構（ＩＳＯ：International Organization for Standardization）／国際電気標準会議（ＩＥＣ：International Electrotechnical Commission）２３００３−１で規定されたムービングピクチャエキスパーツグループ（ＭＰＥＧ：Moving Picture Experts Group）サラウンドまたはＭＰＥＧ−ＤＰａｒｔ１（「空間オーディオコーディング(Spatial Audio Coding)」または「ＳＡＣ」とも呼ばれ得る）またはＭＰＥＧ−２規格（ＩＳＯ／ＩＥＣ１３８１８−７：１９９７としても知られている）のＰａｒｔ７とＭＰＥＧ−４規格（ＩＳＯ／ＩＥＣ１４４９６−３：１９９９としても知られている）のＰａｒｔ３内のＳｕｂｐａｒｔ４の両方で規定されたＭＰＥＧアドバンストオーディオコーディング（ＡＡＣ：Advanced Audio Coding）などの既知の空間オーディオ符号化規格に準拠するオーディオエンコーダの変更バージョンを含み得る。

[0059] 空間解析ユニット１８は、ＳＨＣ２０Ａの空間解析を実行するように構成されたユニットを表し得る。空間解析ユニット１８は、音場における比較的高いおよび低い圧力密度（しばしば、方位角、角度、仰角および半径（または同等のデカルト座標）のうちの１つまたは複数の関数として表される）のエリアを識別するために、この空間解析を実行し得、空間プロパティ２６を識別するためにＳＨＣ２０Ａを解析する。これらの空間プロパティ２６は、ある一定の特性を有するＳＨＣ２０Ａの様々な部分の方位角、角度、仰角および半径のうちの１つまたは複数を指定し得る。空間解析ユニット１８は、オーディオ符号化ユニット１６によるオーディオ符号化を容易にするために空間プロパティ２６を識別し得る。すなわち、空間解析ユニット１８は空間プロパティ２６をオーディオ符号化ユニット１６に提供し得、オーディオ符号化ユニット１６は、ＳＨＣ２０Ａによって表される音場の心理音響空間または位置マスキング(psychoacoustic spatial or positional masking)と他の空間特性(other spatial characteristics)とを利用するように変更され得る。

[0060] 空間マスキングは、高エネルギーの音響エネルギーが音場に存在するときにヒトの聴覚系が音場の隣接する空間部分（または３Ｄセグメント）をマスクする傾向を活用し得る。すなわち、音場の高エネルギー部分はヒトの聴覚系を圧倒し得るので、ヒトの聴覚系によってエネルギーの部分（しばしば、低エネルギーの隣接エリア）を検出する（または判別する）ことができない。結果として、ＳＨＣ２０Ａによって画定された音場の隣接するエリアにおいて高エネルギー部分が検出されたときにヒトの聴覚系が音を検出する（または判別する）ことができない可能性がある場合、オーディオ符号化ユニット１８は、より少ないビット数（または同等に、より高い量子化雑音）が空間のこれらのいわゆる「マスクされた」セグメントにおいて音場を表すことを可能にし得る。これは、より低い精度を有する（雑音がより高い可能性があることを意味する）それらの「マスクされた」空間領域において音場を表すことに類似している。

[0061] 動作の際、オーディオ符号化デバイス１０は、音場の空間プロパティ２６を識別するために、３次元音場を記述するＳＨＣ２０Ａに対して空間解析を実行することに対して、最初に空間解析ユニット１８を呼び出すことによって、本開示で説明する技法の様々な態様を実施し得る。次いで、オーディオ符号化デバイス１０は、ＳＨＣ２０Ａ（上記で述べたように、時間周波数解析が実行されないとき）またはＳＨＣ２０Ｂ（時間周波数解析が実行されるとき）のいずれかから（「マルチチャンネルオーディオデータ２２」とも呼ばれ得る）チャンネル２２をレンダリングするために、オーディオレンダリングユニット１４を呼び出し得る。レンダリングこのマルチチャンネルオーディオデータ２２の後またはそれと同時に、オーディオ符号化デバイス１０は、識別された空間プロパティ２６に基づいてマルチチャンネルオーディオデータ２２を符号化して、ビットストリーム２４を生成するために、オーディオ符号化ユニット１６を呼び出し得る。上記で述べたように、オーディオ符号化ユニット１６は、空間プロパティ２６を活用するために（たとえば、上記で説明した空間マスキングを実行するために）様々な方法で変更されている、規格に準拠した形態のオーディオ符号化を実行し得る。

[0062] このようにして、本技法は、以下でより詳細に説明するように、図５の例に示すオーディオ復号デバイス３０などのオーディオ復号デバイスがＳＨＣ２０Ａを復元し得るように、ＳＨＣ２０Ａを効果的に符号化し得る。（時間周波数解析が実行されるかどうかに応じて）ＳＨＣ２０ＡまたはＳＨＣ２０Ｂを、高密度Ｔ設計で配置された３２個のスピーカーにレンダリングすることを選択することによって、数式は可逆であり、このことは、レンダリングのせいで正確さを失うことがほとんどまたはまったくないことを意味する。通常デコーダに存在するよりも多くのスピーカーを含む高密度スピーカー幾何学的配置を選択することによって、本技法は音場の良好な再合成を実現する。言い換えれば、高密度スピーカー幾何学的配置を想定してマルチチャンネルオーディオデータをレンダリングすることによって、マルチチャンネルオーディオデータは、音場を記述する十分な量のデータを含み、その結果、オーディオ復号デバイス３０においてＳＨＣ２０Ａを再構成すると、オーディオ復号デバイス３０は、最善ではないスピーカー幾何学的配置で構成されたデコーダ−ローカルスピーカーを使用して、十分な忠実度を有する音場を再合成し得る。「最適なスピーカー幾何学的配置」という句は、様々な普及しているサラウンド音規格によって定義されたものなど、規格によって指定されたもの、および／または、高密度Ｔ設計の幾何学的配置またはプラトン立体の幾何学的配置など、いくつかの幾何学的配置に忠実であるスピーカー幾何学的配置を指し得る。

[0063] 場合によっては、この空間マスキングは、同時マスキングなどの他のタイプのマスキングとともに実行され得る。空間マスキングによく似た同時マスキングは、ヒトの聴覚系の現象を伴い、他の音と同時に（およびしばしば少なくとも部分的に同時に）生成された音がその他の音をマスクする。典型的に、マスキング音はその他の音よりも高いボリュームで生成される。マスキング音はまた、周波数において、マスクされた音の近くで類似していてもよい。従って、単独で実行されるものとして本開示で説明しているが、空間マスキング技法は、上述の同時マスキングなどの他の形態のマスキングとともにまたはそれと同時に実行され得る。

[0064] 図４Ｂは、図４Ａの例に示すオーディオ符号化デバイス１０の変形形態を示すブロック図である。図４Ｂの例では、オーディオ符号化デバイス１０の変形形態が、「オーディオ符号化デバイス１１」として示されている。オーディオ符号化デバイス１１は、オーディオ符号化デバイス１１も時間周波数解析ユニット１２と、オーディオレンダリングユニット１４と、オーディオ符号化ユニット１６と、空間解析ユニット１８とを含むという点で、オーディオ符号化デバイス１０に類似していてもよい。しかしながら、オーディオ符号化デバイス１１の空間解析ユニット１８は、ＳＨＣ２０Ａ上で動作するのではなく、（空間マスキングしきい値を含み得る）空間パラメータ２６を識別するためにチャンネル２２を処理し得る。この点において、オーディオ符号化デバイス１１の空間解析ユニット１８は、空間領域ではなくチャンネル領域において空間解析を実行し得る。

[0065] このようにして、本技法は、オーディオ符号化デバイス１１が、（図４Ｂの例においてチャンネル２２として示されている）マルチチャンネルオーディオデータを生成するために、３次元でオーディオの音場を記述する複数の球面調和係数２０Ｂをレンダリングすることを可能にし得る。次いで、オーディオ符号化デバイス１１は、空間マスキングしきい値を識別するために、マルチチャンネルオーディオデータに対して空間解析を実行し、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮し得る。

[0066] 場合によっては、オーディオデータを圧縮するとき、オーディオ符号化デバイス１１は、空間マスキングしきい値に基づいて、マルチチャンネルオーディオデータの時間ベース表現またはマルチチャンネルオーディオデータの周波数ベース表現のいずれかについてビットストリーム中にビットを割り振り得る。

[0067] 場合によっては、オーディオデータを圧縮するとき、オーディオ符号化デバイス１１は、空間マスキングしきい値と時間マスキングしきい値とに基づいて、マルチチャンネルオーディオデータの時間ベース表現またはマルチチャンネルオーディオデータの周波数ベース表現のいずれかについてビットストリーム中にビットを割り振り得る。

[0068] 場合によっては、オーディオデータを圧縮するとき、オーディオ符号化デバイス１１は、ビットストリームを生成するために、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化（ＭＰＥＧサラウンドオーディオ符号化など）を実行し得る。

[0069] 場合によっては、オーディオデータを圧縮するとき、オーディオ符号化デバイス１１は、ビットストリームを生成するために、空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを表すためのビットを割り振ること得る。

[0070] 場合によっては、オーディオ符号化デバイス１１は、マルチチャンネルオーディオデータを空間領域から時間領域に変換し得る。次いで、オーディオデータを圧縮するとき、オーディオ符号化デバイス１１は、ビットストリームを生成するために、空間マスキングしきい値に基づいて、変換されたマルチチャンネルオーディオデータの様々な周波数ビン(various frequency bins)を表すためのビットを割り振り得る。

[0071] 図５は、３次元音場を記述する球面調和係数を復号するために本開示で説明する技法の様々な態様を実行し得る、例示的なオーディオ復号デバイス１０を示すブロック図である。オーディオ復号デバイス３０は概して、デスクトップコンピュータ、ラップトップコンピュータ、ワークステーション、タブレットもしくはスレートコンピュータ、専用のオーディオ記録デバイス、セルラーフォン（いわゆる「スマートフォン」を含む）、パーソナルメディアプレーヤデバイス、パーソナルゲーミングデバイス、またはオーディオデータを復号することが可能な任意の他のタイプのデバイスなど、オーディオデータを復号することが可能な任意のデバイスを表す。

[0072] 概して、オーディオ復号デバイス３０は、空間解析を実行することを除いて、オーディオ符号化デバイス１０によって実行されるオーディオ符号化プロセスの逆であるオーディオ復号プロセスを実行し、空間解析は典型的に、外部からの無関係のデータ（たとえば、マスクされるか、またはヒトの聴覚系によって知覚されることが不可能であるデータ）の除去を容易にするために、オーディオ符号化デバイス１０によって使用される。言い換えれば、オーディオ符号化デバイス１０はオーディオデータ表現の精度を低下させる可能性があり、これは、典型的なヒトの聴覚系(human auditory system)がこれらのエリア（たとえば、上述したような時間と空間の両方における「マスクされた」エリア）における精度の欠如を判別することができないことがあるためである。このオーディオデータが無関係であるとすれば、オーディオ復号デバイス３０は、そのような外部からのオーディオデータを再挿入するために空間解析を実行する必要がない。

[0073] 単一のデバイス、すなわち、図５の例におけるデバイス３０として示されているが、デバイス３０内に含まれるものとして以下で言及される様々な構成要素またはユニットは、デバイス３０の外にある別個のデバイスを形成し得る。言い換えれば、単一のデバイス、すなわち、図５の例におけるデバイス３０によって実行されるものとして本開示で説明しているが、本技法は、複数のデバイスを備えるシステムによって実装されるか、またはさもなければ実行され得、これらのデバイスの各々は各々、以下でより詳細に説明する様々な構成要素またはユニットのうちの１つまたは複数を含み得る。従って、本技法は、図５の例に限定されるべきではない。

[0074] 図５の例に示すように、オーディオ復号デバイス３０は、オーディオ復号ユニット３２と、逆オーディオレンダリングユニット３４と、逆時間周波数解析ユニット３６と、オーディオレンダリングユニット３８とを備える。オーディオ復号ユニット１６は、ビットストリーム２４を圧縮解除してチャンネル２２を復元するために何らかの形態のオーディオ復号を実行するように構成されたユニットを表し得る。いくつかの例では、オーディオ復号ユニット３２が、ＭＰＥＧＳＡＣまたはＭＰＥＧＡＣＣなどの既知の空間オーディオ符号化規格に準拠するオーディオデコーダの変更バージョンを含み得る。

[0075] 逆オーディオレンダリングユニット３４は、ＳＨＣ２０Ｂを復元するためにオーディオ符号化デバイス１０のオーディオレンダリングユニット１４によって実行されるレンダリングプロセスの逆であるレンダリングプロセスを実行するように構成されたユニットを表し得る。逆オーディオレンダリングユニット３４は、上記で説明した逆変換行列Ｒ^-1を適用し得る。代替的に、ＳＨＣ２０Ｂを生成するためにＳＨＣ２０Ａが変換されなかったとき、逆オーディオレンダリングユニット３４は、逆行列Ｒ^-1の適用によってチャンネル２２からＳＨＣ２０Ａをレンダリングするように構成されたユニットを表し得る。場合によっては、逆オーディオレンダリングユニット３４は、上記で説明した理由で、高密度Ｔ設計で配置された３２個のスピーカーに対応する３２個のチャンネルからＳＨＣ２０Ｂをレンダリングし得る。

[0076] 逆時間周波数解析ユニット３６は、球面調和係数（ＳＨＣ）２０Ｂを周波数領域から時間領域に変換するためにＳＨＣ２０Ｂの逆時間周波数解析を実行するように構成されたユニットを表し得る。逆時間周波数解析ユニット３６はＳＨＣ２０Ａを出力し得、ＳＨＣ２０Ａは時間領域において表されるＳＨＣ２０Ｂを示し得る。逆時間周波数解析ユニット３６に関して説明しているが、本技法は、周波数領域におけるＳＨＣ２０Ｂに対して実行されるのではなく、時間領域におけるＳＨＣ２０Ａに対して実行され得る。

[0077] オーディオレンダリングユニット３８は、チャンネル４０Ａ〜４０Ｎ（一般に「マルチチャンネルオーディオデータ４０」または「ラウドスピーカーフィード４０」とも呼ばれ得る「チャンネル４０」）をレンダリングするように構成されたユニットを表す。オーディオレンダリングユニット３８は、（しばしば行列の形態で表される）変換をＳＨＣ２０Ａに適用し得る。ＳＨＣ２０Ａは３次元で音場を記述するので、ＳＨＣ２０Ａは、（マルチチャンネルオーディオデータ４０を再生するスピーカーの幾何学的配置を指し得る）大半のデコーダ−ローカルスピーカー幾何学的配置に適応することが可能な方法でマルチチャンネルオーディオデータ４０のレンダリングを容易にするオーディオフォーマットを表す。さらに、ＳＨＣ２０Ａを、オーディオ符号化デバイス１０において高密度Ｔ設計で配置された３２個のスピーカーに対するチャンネルにレンダリングすることによって、本技法は、オーディオレンダリングユニット３８がキャプチャされたオーディオデータをデコーダ−ローカルスピーカー幾何学的配置を使用して十分な忠実度および正確さで再生することを可能にするために、デコーダにおいて（ＳＨＣ２０Ａの形態の）十分なオーディオ情報を提供する。マルチチャンネルオーディオデータ４０のレンダリングについてのさらなる情報について、図８に関して以下に説明する。

[0078] 動作の際、オーディオ復号デバイス３０は、ビットストリーム２４を復号して、第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータ２２を生成するために、オーディオ復号ユニット３２を呼び出し得る。この第１のスピーカー幾何学的配置は上述の高密度Ｔ設計を備え得、一例として、スピーカーの数は３２であってもよい。３２個のスピーカーを含むものとして本開示で説明しているが、高密度Ｔ設計のスピーカー幾何学的配置は、いくつかの代替例を実現するために、６４個または１２８個のスピーカーを含み得る。次いで、オーディオ復号デバイス３０は、生成されたザ第１のマルチチャンネルオーディオデータ２２に対して逆レンダリングプロセスを実行して、ＳＨＣ２０Ｂ（時間周波数変換が実行されるとき）またはＳＨＣ２０Ａ（時間周波数解析が実行されないとき）を生成するために、逆オーディオレンダリングユニット３４を呼び出し得る。オーディオ復号デバイス３０はまた、時間周波数解析がオーディオ符号化デバイス１０によって実行されたときに、ＳＨＣ２０Ｂを周波数領域から時間領域に変換し直してＳＨＣ２０Ａを生成するために、逆時間周波数解析ユニット３６を呼び出し得る。いずれの場合も、次いで、オーディオ復号デバイス３０は、符号化−復号された（encoded-decoded）ＳＨＣ２０Ａに基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータ４０をレンダリングするために、オーディオレンダリングユニット３８を呼び出し得る。

[0079] 図６Ａ〜図６Ｃは各々、図４Ａの例に示すオーディオ符号化ユニット１６の異なる例示的な変形形態をより詳細に示すブロック図である。図４Ａの例では、オーディオ符号化ユニット１６が、サラウンドエンコーダ５０Ａ〜５０Ｎ（「サラウンドエンコーダ５０」）と、オーディオエンコーダ５２Ａ〜５２Ｎ（「オーディオエンコーダ５２」）とを含む。サラウンドエンコーダ５０の各々は、（サラウンド音オーディオ符号化マルチチャンネルオーディオデータと呼ばれ得るマルチチャンネルオーディオデータのサラウンド音符号化バージョンを生成するようにマルチチャンネルオーディオデータを符号化するために、ある形態のオーディオサラウンド符号化を実行するように構成されたユニットを表し得る。オーディオエンコーダ５２の各々は、（図４Ａの例に示すビットストリーム２４の一部分を指し得る）ビットストリーム２４Ａを生成するために、サラウンド音オーディオ符号化マルチチャンネルオーディオデータをオーディオ符号化するように構成されたユニットを表し得る。

[0080] サラウンドエンコーダ５０の各々は、マルチチャンネルオーディオデータを符号化するために、上記で言及したＭＰＥＧサラウンドの変更バージョンを実行し得る。この変更バージョンは、（図１の例に示す）空間解析モジュール１８によって決定された空間プロパティ２６に基づいてマルチチャンネルオーディオデータ２２を符号化するＭＰＥＧサラウンドのバージョンを表し得る。サラウンドエンコーダ５０の各々は、空間パラメータ推定ユニット５４Ａ〜５４Ｎ（「空間パラメータ推定ユニット５４」）のうちの対応する１つを含み得る。オーディオエンコーダ５２のうちの対応する１つは、チャンネル２２の対応するサブセットの１つを詳細に符号化し得る。しかしながら、チャンネル２２の対応するサブセットのこの１つを詳細に符号化する前に、それぞれの空間パラメータ推定ユニット５４の各々は、チャンネル２２の対応するサブセットの１つに対するチャンネル２２の対応するサブセットの残りを符号化し得る。すなわち、空間パラメータ推定ユニット５４の各々は、チャンネル２２の対応するサブセットの１つとチャンネル２２の対応するサブセットの残りとの間の差分を反映する空間パラメータを決定するか、または、場合によっては、推定し得る。これらの空間パラメータは、いくつかの例を挙げると、チャンネル間レベル、チャンネル間時間、およびチャンネル間相関を含み得る。空間パラメータ推定ユニット５４は各々、（やはり、図４Ａの例に示すビットストリーム２４の一部分を指し得る）ビットストリーム２４Ｂとして、これらの空間パラメータを出力し得る。

[0081] 場合によっては、空間パラメータ推定ユニット５４は各々、空間解析ユニット１８によって決定された空間プロパティ２６に少なくとも部分的に基づいてこれらの空間パラメータを決定するように変更され得る。例示すると、空間パラメータ推定ユニット５４の各々は、チャンネル間のデルタまたは差分を計算し、それによって、空間プロパティ２６に基づいて（チャンネル間レベルと、チャンネル間時間と、チャンネル間相関とを含み得る）空間パラメータを決定し得る。たとえば、空間プロパティ２６に基づいて、空間パラメータ推定ユニット５４は、空間パラメータを指定するための正確さ（または、言い換えれば、多くのエネルギーが存在しないときにパラメータを量子化するのにどの程度荒いか）を決定し得る。

[0082] いずれの場合も、サラウンドエンコーダ５０の各々は、チャンネル２２の対応するサブセットの１つをオーディオエンコーダ５２の対応する１つに出力し、オーディオエンコーダ５２の対応する１つは、チャンネル２２の対応するサブセットのこの１つをモノオーディオ信号として符号化する。すなわち、オーディオエンコーダ５２の各々は、モノオーラルオーディオエンコーダ５２を表す。オーディオエンコーダ５２は、エントロピーエンコーダ５６Ａ〜５６Ｎ（「エントロピーエンコーダ５６」）のうちの対応する１つを含み得る。エントロピーエンコーダ５６の各々は、チャンネル２２の対応するサブセットの１つを符号化するために、ハフマンコーディングなどのある形態のロスレス統計コーディング（一般に誤称の「エントロピーコーディング」と呼ばれる）を実行し得る。場合によっては、エントロピーエンコーダ５６は各々、空間プロパティ２６に基づいて、このエントロピーコーディングを実行し得る。エントロピーエンコーダ５６の各々は、マルチチャンネルオーディオデータの符号化バージョンを出力し得、この符号化バージョンは、ビットストリーム２４を形成するために、マルチチャンネルオーディオデータの他の符号化バージョンおよび空間パラメータ２４Ｂと多重化され得る。

[0083] 図６Ｂの例では、オーディオエンコーダ５２の各々が別個のエントロピーエンコーダ５６を含むのではなく、オーディオ符号化ユニット１６が、オーディオエンコーダ５２の出力の各々をエントロピー符号化する（「統計ロスレスコーディングする」とも呼ばれ得る）単一のエントロピーエンコーダ５６を含む。ほとんど全ての他の方法では、図６Ｂの例に示すオーディオ符号化ユニット１６が、図６Ｃの例に示すオーディオ符号化ユニット１６に類似していてもよい。図６Ｂの例には示されていないが、オーディオ符号化ユニット１６は、単一のビットストリームを形成するためにオーディオエンコーダ５２の各々の出力を併合するまたはさもなければ結合する混合器または混合ユニットを含み得、このビットストリームに対して、エントロピーエンコーダ５６は、このビットストリームを圧縮しビットストリーム２４Ａを形成するために、統計ロスレスコーディングを実行し得る。

[0084] 図６Ｃの例では、オーディオ符号化ユニット１６が、エントロピーエンコーダ５６を含まないオーディオエンコーダ５２Ａ〜５２Ｎを含む。図６Ｃの例に示すオーディオ符号化ユニット１６は、オーディオデータを符号化するためのいかなる形態のエントロピー符号化も含まない。代わりに、このオーディオ符号化ユニット１６は、本開示で説明する空間マスキング技法を実行し得る。場合によっては、図６Ｃのオーディオ符号化デバイス１６は、いかなる形態のエントロピー符号化も実行することなしに、（以下でより詳細に説明するように、時間的にまたは空間にのいずれかで、あるいは時間的にと空間的にの両方で）マスキングを実行するだけである。

[0085] 図７は、図５のオーディオ復号ユニット３２の一例をより詳細に示すブロック図である。最初に図７の例を参照すると、オーディオ復号ユニット３２の第１の変形形態は、オーディオデコーダ７０Ａ〜７０Ｎ（「オーディオデコーダ７０」）と、サラウンドデコーダ７２Ａ〜７２Ｎ（「サラウンドデコーダ７２」）とを含む。オーディオデコーダ７０の各々は、図６Ａの例に関して上記で説明したオーディオエンコーダ５０によって実行されるプロセスの逆であるモノオーラルオーディオ復号プロセスを実行し得る。説明を簡単にするために図７の例には示されていないが、オーディオデコーダ７０の各々は、エントロピー符号化ユニット１６の図６Ａ〜図６Ｃに関して上記で説明した変形形態に類似したエントロピーデコーダを含んでもよく、含まなくてもよい。オーディオデコーダ７０の各々は、図７の例において部分２４Ａとして示される、ビットストリーム２４のそれぞれの部分を受信し、チャンネル２２の対応するサブセットの１つを出力するために部分２４Ａのそれぞれを復号し得る。ビットストリーム２４の部分２４Ａおよびビットストリーム２４の部分２４Ｂは、説明を簡単にするために図７の例には示されていないデマルチプレクサを使用して逆多重化され得る。

[0086] サラウンドデコーダ７２Ａは、空間パラメータに基づいて、ビットストリーム部分２４Ｂとして示されるチャンネル２２の対応するサブセットの残りを再合成するように構成されたユニットを表し得る。サラウンドデコーダ７２は各々、チャンネル２２の対応するサブセットの復号された１つとこれらの空間パラメータとを受信する、音合成ユニット７６Ａ〜７６Ｎ（「音合成ユニット７６」）のうちの対応する１つを含み得る。空間パラメータに基づいて、音合成ユニット７６の各々は、チャンネル２２の対応するサブセットの残りを再合成し得る。このようにして、オーディオ復号ユニット３２は、マルチチャンネルオーディオデータ２２を生成するために、ビットストリーム２４を復号し得る。

[0087] 図８は、図５の例に示すオーディオ復号ユニット３２のオーディオレンダリングユニット３８をより詳細に示すブロック図である。概して、図８はＳＨＣ２０Ａからデコーダ−ローカルスピーカー幾何学的配置と適合するマルチチャンネルオーディオデータ４０への変換を示す。（やはり、デコーダにおけるスピーカー幾何学的配置を指し得る）いくつかのローカルスピーカー幾何学的配置の場合、可逆性を保証するいくつかの変換は、望ましいとは言えない音像の質を生じることがある。すなわち、音再生は、キャプチャされているオーディオと比較されたとき、必ずしも音の正しい定位を生じるとは限らないことがある。この望ましいとは言えない像の質を補正するために、本技法は、「仮想スピーカー」と呼ばれ得る概念を導入するようにさらに拡張され得る。１つまたは複数のラウドスピーカーが、上述のＩＴＵ−ＲＢＳ．７７５−１などの規格によって指定されたいくつかの角度トレランスを有する特定のまたは定義された空間領域中で再配置または配置されることを必要とするのではなく、上記のフレームワークは、ベクトルベース振幅パンニング（ＶＢＡＰ：vector base amplitude panning）、距離ベースの振幅パンニング、または他の形態のパンニングなど、何らかの形態のパンニングを含むように変更され得る。説明のためにＶＢＡＰに焦点を当てると、ＶＢＡＰは、「仮想スピーカーvirtual speakers」として特徴付けられ得るものを効果的に導入し得る。ＶＢＡＰは、概して、１つまたは複数のラウドスピーカーが、仮想スピーカーをサポートする１つまたは複数のラウドスピーカーのロケーションおよび／または角度のうちの少なくとも１つと異なるロケーションおよび角度のうちの１つまたは複数において仮想スピーカーから発生するように思われる音を効果的に出力するように、これらの１つまたは複数のラウドスピーカーへのフィードを変更し得る。

[0088] 例示すると、ＳＨＣに関してラウドスピーカーフィードを決定するための上記の式は、次のように変更され得る。

[0089] 上記の式において、ＶＢＡＰ行列はＭ行×Ｎ列のサイズであり、ただし、Ｍはスピーカーの数を示し（上記の式では５に等しくなるはずであり）、Ｎは仮想スピーカーの数を示す。ＶＢＡＰ行列は、聴取者の定義されたロケーションからスピーカーの位置の各々へのベクトルと、聴取者の定義されたロケーションから仮想スピーカーの位置の各々へのベクトルとの関数として計算され得る。上記の式中のＤ行列はＮ行×（ｏｒｄｅｒ＋１）²列のサイズであり得、ただし、ｏｒｄｅｒはＳＨ関数の次数を指し得る。Ｄ行列は次の行列を表し得る。

[0090] ｇ行列（または、単一の列しかないとすればベクトル）は、デコーダ−ローカル幾何学的配置で配置されたスピーカーに対するスピーカーフィードの利得を表し得る。この式において、ｇ行列はＭのサイズである。Ａ行列（または、単一の列しかないとすればベクトル）はＳＨＣ２０Ａを示し得、（Ｏｒｄｅｒ＋１）（Ｏｒｄｅｒ＋１）のサイズであり、これは（Ｏｒｄｅｒ＋１）²としても示され得る。

[0091] 事実上、ＶＢＡＰ行列は、スピーカーのロケーションと仮想スピーカーの位置とを考慮する「利得調整」と呼ばれ得るものを提供するＭ×Ｎ行列である。このようにしてパンニングを導入することにより、ローカルスピーカー幾何学的配置によって再生されたとき、より良質の像を生じるマルチチャンネルオーディオのより良い再生がもたらされ得る。さらに、この式にＶＢＡＰを組み込むことによって、本技法は、様々な規格において指定されたスピーカー幾何学的配置とは整合しない劣悪なスピーカー幾何学的配置を克服し得る。

[0092] 実際には、この式は、反転させられ、ＳＨＣ２０Ａを、本開示ではやはりデコーダ−ローカル幾何学的配置と呼ばれ得るラウドスピーカーの特定の幾何学的配置または構成のためのマルチチャンネルフィード４０に変換し直すために使用され得る。すなわち、この式は、ｇ行列について解くために反転させられ得る。反転させられた式は次のようになり得る。

[0093] ｇ行列は、この例において、５．１スピーカー構成における５つのラウドスピーカーの各々についてのスピーカー利得を表し得る。この構成において使用される仮想スピーカーロケーションは、５．１マルチチャンネルフォーマット仕様または規格において定義されているロケーションに対応し得る。これらの仮想スピーカーの各々をサポートし得るラウドスピーカーのロケーションは、任意の数の知られているオーディオ定位技法を使用して決定され得、それらの多くは、（オーディオ／ビデオ受信機（Ａ／Ｖ受信機）、テレビジョン、ゲーミングシステム、デジタルビデオディスクシステム、または他のタイプのヘッドエンドシステムなどの）ヘッドエンドユニットに対して各ラウドスピーカーのロケーションを決定するために特定の周波数を有するトーンを再生することを伴う。代替的に、ヘッドエンドユニットのユーザが、ラウドスピーカーの各々のロケーションを手動で指定し得る。いずれの場合も、これらの知られているロケーションと考えられる角度とを鑑みて、ヘッドエンドユニットは、利得について解き、ＶＢＡＰを介して仮想ラウドスピーカーの理想的な構成を仮定し得る。

[0094] この点において、本技法は、デバイスまたは装置が、デコーダ−ローカル幾何学的配置におけるスピーカーを駆動して、異なるローカル幾何学的配置で構成された仮想スピーカーから発生するように思われる音を出す複数のチャンネルを生成するために、複数の仮想チャンネルに対してベクトルベース振幅パンニングまたは他の形態のパンニングを実行することを可能にし得る。従って、本技法は、オーディオ復号ユニット３２が、複数のチャンネルを生成するためにＳＨＣ２０Ａなどの複数の球面調和係数に対して変換を実行することを可能にし得る。複数のチャンネルの各々は、対応する異なる空間領域に関連付けられ得る。さらに、複数のチャンネルの各々は、複数の仮想チャンネルを備え得、複数の仮想チャンネルは、対応する異なる空間領域に関連付けられ得る。本技法は、場合によっては、デバイスが、マルチチャンネルオーディオデータ４０の複数のチャンネルを生成するために仮想チャンネルに対してベクトルベース振幅パンニングを実行することを可能にし得る。

[0095] 図９は、本開示で説明する技法の様々な態様を実行する際の、図４の例に示すオーディオ符号化デバイス１０などのオーディオ符号化デバイスの例示的な動作を示すフローチャートである。動作の際、オーディオ符号化デバイス１０は、音場の空間プロパティ２６を識別するために、３次元音場を記述するＳＨＣ２０Ａに対して空間解析を実行する（９０）ことに対して、最初に空間解析ユニット１８を呼び出すことによって、本開示で説明する技法の様々な態様を実施し得る。次いで、オーディオ符号化デバイス１０は、ＳＨＣ２０Ａ（上記で述べたように、時間周波数解析が実行されないとき）またはＳＨＣ２０Ｂ（時間周波数解析が実行されるとき）のいずれかから（「マルチチャンネルオーディオデータ２２」とも呼ばれ得る）マルチチャンネルオーディオデータ２２をレンダリングする（９２）ために、オーディオレンダリングユニット１４を呼び出し得る。レンダリングこのマルチチャンネルオーディオデータ２２の後またはそれと同時に、オーディオ符号化デバイス１０は、識別された空間プロパティ２６に基づいてマルチチャンネルオーディオデータ２２を符号化して、ビットストリーム２４を生成する（９４）ためにオーディオ符号化ユニット１６を呼び出し得る。上記で述べたように、オーディオ符号化ユニット１６は、空間プロパティ２６を活用するために（たとえば、上記で説明した空間マスキングを実行するために）様々な方法で変更されている、規格に準拠した形態のオーディオ符号化を実行し得る。

[0096] 図１０は、本開示で説明する技法の様々な態様を実行する際の、図５の例に示すオーディオ復号デバイス３０などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。動作の際、オーディオ復号デバイス３０は、ビットストリーム２４を復号して、第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータ２２を生成する（１００）ために、オーディオ復号ユニット３２を呼び出し得る。この第１のスピーカー幾何学的配置は上述の高密度Ｔ設計を備え得、一例として、スピーカーの数は３２であってもよい。概して、デコーダローカルスピーカー幾何学的配置によるオーディオデータの再生中の高忠実度を実現するために、第１のスピーカー幾何学的配置におけるスピーカーの数は、デコーダ−ローカルスピーカー幾何学的配置におけるスピーカーの数を越えるべきである。

[0097] 次いで、オーディオ復号デバイス３０は、生成されたザ第１のマルチチャンネルオーディオデータ２２に対して逆レンダリングプロセスを実行して、ＳＨＣ２０Ｂ（時間周波数変換が実行されるとき）またはＳＨＣ２０Ａ（時間周波数解析が実行されないとき）を生成する（１０２）ために、逆オーディオレンダリングユニット３４を呼び出し得る。オーディオ復号デバイス３０はまた、時間周波数解析がオーディオ符号化デバイス１０によって実行されたときに、ＳＨＣ２０Ｂを周波数領域から時間領域に変換し直してＳＨＣ２０Ａを生成するために、逆時間周波数解析ユニット３６を呼び出し得る。いずれの場合も、次いで、オーディオ復号デバイス１０は、ＳＨＣ２０Ａに基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータ４０をレンダリングする（１０４）ために、オーディオレンダリングユニット３８を呼び出し得る。

[0098] このようにして、本技法は、既存のオーディオコーダを使用し（ＳＨＣからの空間情報に適応させるためにオーディオコーダの様々な態様を変更し）得る。そうするために、本技法はＳＨ係数を取り、（レンダラＲ１を使用して）ＳＨ係数を、任意であるが高密度のラウドスピーカーのセットにレンダリングし得る。これらのラウドスピーカーの幾何学的配置は、逆レンダラ（Ｒ１＿ｉｎｖ）がＳＨ信号を再生成できるようなものであり得る。いくつかの例では、レンダラが単に単一の行列（周波数に依存しない）であり、Ｒ１×Ｒ１＿ｉｎｖ＝単位行列となるような、対応する逆の行列（inverse counter-part matrix）を有するものであり得る。これらのレンダラは、Ｔ設計またはプラトン立体によって記述される幾何学的配置のために存在する。レンダラ（Ｒ１）によって生成されたラウドスピーカーフィードは、ＳＨＣから収集／解析された空間情報によって変更される「オフザシェルフ」オーディオコーダを使用してコーディングされ得る。場合によっては、本技法は通常のオーディオコーディング手法を取ってもよく、それによって、スピーカーフィード間のチャンネル間レベル／時間／相関のうちの１つまたは複数が維持される。圧縮は、より多くのチャンネルを単一のチャンネル用に割り振られたビットにパックするためなどに使用される。

[0099] デコーダにおいて、本技法は、デコーダがスピーカーフィードを復元し、スピーカーフィードをＩＮＶＥＲＳＥ−ＲＥＮＤＥＲＥＲ（Ｒ１＿ｉｎｖ）にかけて元のＳＨＣを取り出すことを可能にし得る。これらのＳＨＣは、ローカルスピーカー幾何学的配置の要求に応えることが意図されている別のレンダラ（Ｒ２）に供給され得る。典型的に、本技法は、Ｒ１の出力において生成されたスピーカーフィードの数が、常にレンダラＲ２の出力にある可能性があるスピーカーの数に対して高密度であることを実現する。言い換えれば、第１のマルチチャンネルオーディオデータをレンダリングするとき、常にＲ２レンダラの出力にある可能性があるスピーカーの実際の数よりもはるかに多いスピーカーの数が想定される。

[0100] 例に応じて、本明細書で説明する技法のうちのいずれかの、いくつかの動作またはイベントは、異なるシーケンスで実行され得、全体的に追加、併合、または除外され得ることが、認識されるべきである（たとえば、説明する動作またはイベントの全てが、本技法の実施のために必要であるとは限らない）。さらに、いくつかの例では、動作またはイベントが、連続的にではなく、同時に、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサを通じて実行され得る。

[0101] 図１１は、本開示で説明する空間マスキング技法の様々な態様を示す図である。図１１の例では、グラフ１１０が、ＳＨＣとして表される音場内の３次元区間における点を示すｘ軸を含む。グラフ１１０のｙ軸は、利得をデシベルで示す。グラフ１１０は、ある所与の周波数（たとえば、周波数ｆ₁）における点２（Ｐ₂）について空間マスキングしきい値がどのように計算されるかを図示している。空間マスキングしきい値は、（Ｐ₂の観点からの）他の全ての点のエネルギーの合計として計算され得る。すなわち、破線はＰ₂の観点からの点１（Ｐ₁）および点３（Ｐ₃）のマスキングエネルギーを表す。エネルギーの総量は、空間マスキングしきい値を表し得る。Ｐ₂が空間マスキングしきい値よりも大きいエネルギーを有しない限り、Ｐ₂のＳＨＣを送るか、またはさもなければ符号化する必要がない。数学的に、空間マスキング（ＳＭ_th）しきい値は、以下の式に従って計算され得る。

上式で、

は、点Ｐ_iにおけるエネルギーを示す。空間マスキングしきい値は、各点の観点からその点について、また、各周波数（または周波数帯を表し得る周波数ビン）について計算され得る。

[0102] 図４Ａの例に示す空間解析ユニット１８は、一例として、得られたビットストリームのサイズを潜在的に減少させるように、上記の式に従って空間マスキングしきい値を計算し得る。場合によっては、空間マスキングしきい値を計算するために実行されるこの空間解析は、チャンネル２２上の別個のマスキングブロックを用いて実行され、オーディオ符号化ユニット１６にフィードバックされ得る。グラフ１１０はｄＢ領域を図示しているが、本技法は空間領域でも実行され得る。

[0103] いくつかの例では、空間マスキングしきい値が時間（または、言い換えれば、同時）マスキングしきい値とともに使用され得る。しばしば、空間マスキングしきい値は、総マスキングしきい値を生成するために時間マスキングしきい値に加えられ得る。場合によっては、総マスキングしきい値を生成するときに、空間マスキングしきい値と時間マスキングしきい値とに重みが適用される。これらのしきい値は、（信号対雑音比（ＳＮＲ）などの）比の関数として表され得る。総しきい値は、ビットを各周波数ビンに割り振るときに、ビットアロケータによって使用され得る。図４Ａのオーディオ符号化ユニット１６は、一形態において、空間マスキングしきい値、時間マスキングしきい値または総マスキングしきい値のうちの１つまたは複数を使用してビットを周波数ビンに割り振るビットアロケータを表し得る。

[0104] 図１２は、本開示で説明する技法の様々な態様に従ってビットストリーム２４を生成する異なる形態が実行され得る、図４Ａの例に示すオーディオ符号化デバイスの変形形態を示すブロック図である。図１２の例に示すように、オーディオ符号化デバイス１０の変形形態は、オーディオ符号化デバイス１０’として示されている。オーディオ符号化デバイス１０’は、オーディオ符号化デバイス１０’が類似のユニット、すなわち、図１２の例における時間周波数解析ユニット１２と、オーディオレンダリングユニット１４と、オーディオ符号化ユニット１６と、空間解析ユニット１８とを含むという点で、図４Ａのオーディオ符号化デバイス１０に類似している。

[0105] しかしながら、オーディオ符号化デバイス１０’は、チャンネル２２を符号化する前にＳＨＣ２０Ｂをレンダリングするか、または最初にＳＨＣ２０Ｂをチャンネル２２にレンダリングすることなしにＳＨＣ２０Ｂを直接オーディオ符号化ユニット１６に送信するかを決定するユニットを表す、モードセレクタユニット１５０も含む。モードセレクタユニット１５０は、ユーザ、別のデバイスからの入力として、またはターゲットビットレート１５２が入力され得る任意の他の方法を介して、ターゲットビットレート１５２を受信し得る。ターゲットビットレート１５２は、ビットストリーム２４のビットレートまたは圧縮のレベルを定義するデータを表し得る。

[0106] 一例で、ビットレート１５２によって指定されたより高いビットレートの場合、モードセレクタユニット１５０は、ＳＨＣ２０Ｂが、本開示で説明する技法の空間マスキング態様を使用して、オーディオ符号化ユニット１６によって直接オーディオ符号化されるべきであると決定し得る。より高いビットレートの一例は、２５６キロビット毎秒（Ｋｂｐｓ）以上のビットレートであり得る。従って、２５６Ｋｂｐｓ、５１２Ｋｂｐｓおよび／または１．２メガビット毎秒（Ｍｂｐｓ）などのビットレート（ただし、２５６Ｋｂｐｓは、この例で、より低いビットレートからより高いビットレートを決定するために使用されるしきい値ビットレートを表し得る）の場合、オーディオ符号化ユニット１６はＳＨＣ２０Ｂ上で直接動作し得、ＳＨＣ２０Ｂはオーディオレンダリングユニット１４によってチャンネル２２にレンダリングされない。

[0107] ビットレート１５２によって指定されたより低いビットレートの場合、モードセレクタユニット１５０は、ＳＨＣ２０Ｂがチャンネル２２を生成するためにオーディオレンダリングユニット１４によって最初にレンダリングされ、次いで、その後でオーディオ符号化ユニット１６によって符号化されるべきであると決定し得る。この事例で、オーディオ符号化ユニット１６は、第１のチャンネルに対して空間マスキング技法を実行し得るが、残りのチャンネルは、ＭＰＥＧサラウンド方式および他のパラメトリックチャンネル間符号化方式に従って実行されるものなどのパラメトリック符号化を受ける。

[0108] オーディオ符号化ユニット１６は、ビットストリーム２４を生成するときにパラメトリックチャンネル間符号化が実行されたかどうかを復号デバイスが決定し得るように、ビットストリームにおけるモードセレクタユニット１５０によって選択されたモードを（符号化形態または非符号化形態のいずれかで）指定し得る。詳細に示されていないが、オーディオ復号デバイス３０は、オーディオ符号化デバイス１０’の方法と同様の方法で変更され得る（ただし、そのようなオーディオ復号デバイス３０はオーディオ復号デバイス３０’と呼ばれ得る）。同様に、このオーディオ復号デバイス３０’は、チャンネル２２を逆オーディオレンダリングユニット３４に出力するか、またはＳＨＣ２０Ｂを逆時間周波数解析ユニット３６に出力するかを決定する、モードセレクタユニット１５０に類似したモードセレクタユニットを含み得る。場合によっては、このモードは、ビットストリーム２４が対応するターゲットビットレート１５２から推論され得る（ただし、このターゲットビットレート１５２はビットストリーム２４において指定され得、事実上、オーディオ復号デバイス３０’がこのモードをターゲットビットレート１５２から推論し得るとした場合のモードを表す）。

[0109] この点において、本開示で説明する技法は、オーディオ符号化デバイス１０’がオーディオデータを圧縮する方法を実行することを可能にし得る。この方法を実行する際、オーディオ符号化デバイス１０’は、圧縮されたオーディオデータを表すビットストリームのターゲットビットレートを決定し、空間マスキングしきい値を識別するために、３次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し得る。ターゲットビットレートに基づいて、オーディオ符号化デバイス１０’は、圧縮されたオーディオデータを表すビットストリームを生成するために、ｉ）パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはｉｉ）パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行し得る。

[0110] 場合によっては、ｉ）パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはｉｉ）パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行するとき、オーディオ符号化デバイス１０’は、ターゲットビットレートがしきい値ビットレートを下回ると決定し、ターゲットビットレートがしきい値ビットレートを下回ると決定したことに応答して、ビットストリームを生成するために、パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキングを実行し得る。しきい値ビットレートは、たとえば、２５６キロビット毎秒（Ｋｂｐｓ）に等しくてもよい。

[0111] 場合によっては、ｉ）パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはｉｉ）パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行するとき、オーディオ符号化デバイス１０’は、ターゲットビットレートがしきい値ビットレートに等しいか、またはしきい値ビットレートを超えると決定し、ターゲットビットレートがしきい値ビットレートに等しいか、またはしきい値ビットレートを超えると決定したことに応答して、ビットストリームを生成するために、パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングを実行し得る。

[0112] 場合によっては、オーディオ符号化デバイス１０’はさらに、複数の球面調和係数をマルチチャンネルオーディオデータにレンダリングし得る。ｉ）パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはｉｉ）パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行するとき、オーディオ符号化デバイス１０’は、ターゲットビットレートがしきい値ビットレートを下回ると決定し、ターゲットビットレートがしきい値ビットレートを下回ると決定したことに応答して、ビットストリームを生成するために、マルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して空間マスキングしきい値を使用した空間マスキングを実行し、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行し得る。やはり、しきい値ビットレートは２５６キロビット毎秒（Ｋｂｐｓ）に等しくてもよい。

[0113] 場合によっては、オーディオ符号化デバイス１０’はまた、空間マスキングしきい値に基づいて、オーディオデータの時間ベース表現またはオーディオデータの周波数ベース表現のいずれかについてビットストリーム中にビットを割り振り得る。

[0114] 場合によっては、パラメトリックチャンネル間オーディオ符号化は、ムービングピクチャエキスパーツグループ（ＭＰＥＧ）サラウンドを備える。

[0115] さらに、本開示で説明する技法は、オーディオ符号化デバイス１０’がマルチチャンネルオーディオデータを圧縮する方法を実行することを可能にし得る。この方法を実行する際、オーディオ符号化デバイス１０’は、空間マスキングしきい値を識別するために、３次元でマルチチャンネルオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し、マルチチャンネルオーディオデータを生成するために、球面調和係数をレンダリングし得る。オーディオ符号化デバイス１０’はまた、ビットストリームを生成するために、空間マスキングしきい値を使用してマルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して空間マスキングを実行し、マルチチャンネルオーディオデータの空間的にマスクされた１つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行し得る。

[0116] 場合によっては、オーディオ符号化デバイス１０’は、マルチチャンネルオーディオデータをビットストリームとして符号化するためのターゲットビットレートを決定し得る。このコンテキストでは、空間マスキングとパラメトリックチャンネル間オーディオ符号化とを実行するとき、オーディオ符号化デバイス１０’は、ターゲットビットレートがしきい値ビットレート未満である場合、ビットストリームを生成するために、マルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して空間マスキングを実行し、マルチチャンネルオーディオデータの空間的にマスクされた１つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行すること。

[0117] 場合によっては、しきい値ビットレートは２５６キロビット毎秒（Ｋｂｐｓ）に等しい。場合によっては、このしきい値ビットレートはユーザまたはアプリケーションによって指定される。すなわち、このしきい値ビットレートは構成可能であり得るか、または静的に設定され得る。場合によっては、ターゲットビットレートは１２８キロビット毎秒（Ｋｂｐｓ）に等しい。場合によっては、パラメトリックチャンネル間オーディオ符号化は、ムービングピクチャエキスパーツグループ（ＭＰＥＧ）サラウンドを備える。

[0118] 場合によっては、オーディオ符号化デバイス１０’はまた、時間マスキングしきい値を使用して、マルチチャンネルオーディオデータに対して時間マスキングを実行する。

[0119] 加えて、本技法の様々な態様はさらに（または代替的に）、オーディオ符号化デバイス１０’がオーディオデータを圧縮する方法を実行することを可能にし得る。この方法を実行する際、オーディオ符号化デバイス１０’は、空間マスキングしきい値を識別するために、３次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し、空間マスキングしきい値を使用して複数の球面調和係数に対して空間マスキングを実行し、複数の空間的にマスクされた球面調和係数を含むビットストリームを生成し得る。

[0120] オーディオ符号化デバイス１０’は、場合によっては、マルチチャンネルオーディオデータをビットストリームとして符号化するためのターゲットビットレートを決定し得る。空間マスキングを実行するとき、オーディオ符号化デバイス１０’は、ターゲットビットレートがしきい値ビットレート以上である場合、複数の球面調和係数に対して空間マスキングを実行し得る。場合によっては、しきい値ビットレートは２５６キロビット毎秒（Ｋｂｐｓ）に等しい。これらの事例では、ターゲットビットレートが２５６キロビット毎秒（Ｋｂｐｓ）以上である。

[0121] 場合によっては、オーディオ符号化デバイス１０’はさらに、時間マスキングしきい値を使用して、複数の球面調和係数に対して時間マスキングを実行し得る。

[0122] 球面調和係数に対して空間マスキング解析を実行するものとして上記で説明したが、図１２の例に関して上記で説明した本技法はまた、いわゆる「チャンネル領域」で、空間解析が図４Ｂのオーディオ符号化デバイス１１によってチャンネル領域でどのように実行されるかに類似して実行される。従って、本技法は、この点において、図１２の例に限定されるべきではない。

[0123] 図１３は、本開示で説明する技法の様々な態様を実行し得る例示的なオーディオ符号化デバイス１６０を示すブロック図である。図１３の例に示すように、オーディオ符号化デバイス１６０は、時間周波数解析ユニット１６２と、同時マスキングユニット１６４と、空間マスキングユニット１６６と、ビット割振りユニット１６８とを含み得る。時間周波数ユニット１６２は、図４Ａの例に示すオーディオ符号化デバイス１０の時間周波数解析ユニット１２に類似しているか、または実質的に類似していてもよい。時間周波数ユニット１６２は、ＳＨＣ１７０Ａを受信し、ＳＨＣ１７０Ａを時間領域から周波数領域に変換し得る（ただし、ＳＨＣ１７０Ａの周波数領域バージョンは「ＳＨＣ１７０Ｂ」として示される）。

[0124] 同時マスキングユニット１６４は、１つまたは複数の同時マスキングしきい値１７２を決定するために、ＳＨＣ１７０Ｂの（「時間解析」とも呼ばれ得る）同時解析を実行するユニットを表す。同時マスキングユニット１６４は、一例として、同時ではあるが別個の音を識別するために、ＳＨＣ１７０Ｂによって記述される音場を評価し得る。２つの同時の音の間の利得に大きい差分がある場合、典型的には、（最も大きいエネルギーを有する音を表し得る）最も大きい音のみが正確に表される必要とするが、同程度のより静かな音はあまり正確でなく表されることがある（これは典型的には、より少ないビットを同程度の静かな音に割り振ることによって行われる）。いずれの場合も、同時メイキングユニット１６４は、（しばしば、周波数ビンごとに周波数ビン上で指定される）１つまたは複数の同時マスキングしきい値１７２を出力し得る。

[0125] 空間マスキングユニット１６６は、（同様に、周波数ビンごとに周波数ビン上で指定され得る）１つまたは複数の空間マスキングしきい値１７４を決定するために、ＳＨＣ１７０Ｂに対しておよび上記で説明した本技法の様々な態様に従って空間解析を実行するユニットを表し得る。空間マスキングユニット１６６は、総マスキングしきい値１７８を形成するために結合器１７６によって時間マスキングしきい値１７２と結合される空間マスキングしきい値１７４を出力し得る。結合器１７６は、総マスキングしきい値１７８を生成するために時間マスキングしきい値１７２を空間マスキングしきい値１７４と結合するための任意の他の形態の数学演算を追加または実行し得る。

[0126] ビット割振りユニット１６８は、総マスキングしきい値１７８などのしきい値に基づいて、オーディオデータを表すビットストリーム１８０中にビットを割り振ることが可能な任意のユニットを表す。ビット割振りユニット１６８は、より多くのまたはより少ないビットを割り振るときを識別するために、様々なしきい値１７８を使用してビットを割り振り得る。通常、ビット割振りユニット１６８は複数のいわゆる「パス」において動作し、ビット割振りユニット１６８は、第１の初期ビット割振りパスの間に、ビットストリーム１８０中にＳＨＣ１７０Ｂを表すためのビットを割り振る。ビット割振りユニット１６８は、（ターゲットビットレートに対応し得る）ビットバジェットを超えないように、この第１のパスの間に、控えめにビットを割り振り得る。第２のおよび場合によっては後続のビット割振りパスの間に、ビット割振りユニット１６８は、ＳＨＣ１７０Ｂの様々な周波数ビンがビットストリーム１８０中でどのように表されるかをさらに洗練するために、（ターゲットビットレートに対応し得る）ビットバジェット(bit budget)に残っている任意のビットを割り振り得る。総マスキングしきい値１７８に基づいてビットを割り振るものとして説明したが、ビット割振りユニット１６８は、空間マスキングしきい値１７４、時間マスキングしきい値１７２および総マスキングしきい値１７８のうちのいずれか１つまたは複数に基づいてビットを割り振り得る。

[0127] 図１４は、本開示で説明する技法の様々な態様を実行する際の、図１３の例に示すオーディオ符号化デバイス１６０などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。動作の際、オーディオ復号の時間周波数ユニット１６２はＳＨＣ１７０Ａを受信し（２００）、ＳＨＣ１７０Ａを時間領域から周波数領域に変換し得る（２０２）（ただし、ＳＨＣ１７０Ａの周波数領域バージョンは、「ＳＨＣ１７０Ｂ」として示される）。

[0128] 次いで、オーディオ符号化デバイス１６０の同時マスキングユニット１６４は、１つまたは複数の同時マスキングしきい値１７２を決定するために、ＳＨＣ１７０Ｂの（「時間解析」とも呼ばれ得る）同時解析を実行し得る（２０４）。同時メイキングユニット１６４は、（しばしば、周波数ビンごとに周波数ビン上で指定される）１つまたは複数の同時マスキングしきい値１７２を出力し得る。

[0129] オーディオ符号化デバイス１６０の空間マスキングユニット１６６は、（同様に、周波数ビンごとに周波数ビン上で指定され得る）１つまたは複数の空間マスキングしきい値１７４を決定するために、ＳＨＣ１７０Ｂに対しておよび上記で説明した本技法の様々な態様に従って空間解析を実行し得る（２０６）。空間マスキングユニット１６６は、総マスキングしきい値１７８を形成するために結合器１７６によって（「時間マスキングしきい値１７２」とも呼ばれ得る）同時マスキングしきい値１７２と結合される空間マスキングしきい値１７４を出力し得る（２０８）。結合器１７６は、総マスキングしきい値１７８を生成するために時間マスキングしきい値１７２を空間マスキングしきい値１７４と結合するための任意の他の形態の数学演算を追加または実行し得る。

[0130] ビット割振りユニット１６８は、総マスキングしきい値１７８などのしきい値に基づいて、オーディオデータを表すビットストリーム１８０中にビットを割り振ることが可能な任意のユニットを表す。ビット割振りユニット１６８は、上記で説明した方法で、より多くのまたはより少ないビットを割り振るときを識別するために、様々なしきい値１７８を使用してビットを割り振り得る（２１０）。やはり、総マスキングしきい値１７８に基づいてビットを割り振るものとして説明したが、ビット割振りユニット１６８は、空間マスキングしきい値１７４、時間マスキングしきい値１７２および総マスキングしきい値１７８のうちのいずれか１つまたは複数に基づいてビットを割り振り得る。

[0131] １つまたは複数の例では、説明した機能が、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体上で記憶されるか、またはコンピュータ可読媒体を介して送信され得、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体、またはコンピュータプログラムの、ある場所から別の場所への、たとえば、通信プロトコルによる転送を容易にする任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、（１）非一時的である有体のコンピュータ可読記憶媒体または（２）信号もしくは搬送波などの通信媒体に相当し得る。データ記憶媒体は、本開示で説明する技法の実装のための命令、コードおよび／またはデータ構造を取り出すために１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0132] 限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、フラッシュメモリ、または、命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。また、任意の接続がコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用してウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まないが、代わりに非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（ＣＤ）と、レーザーディスク（登録商標）と、光ディスクと、デジタル多用途ディスク（ＤＶＤ）と、フロッピー（登録商標）ディスクと、ブルーレイ（登録商標）ディスクとを含み、ディスク（disk）は、通常、磁気的にデータを再生し、ディスク（disc）は、レーザーを用いてデータを光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲内に含められるべきである。

[0133] 命令は、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の等価な集積回路もしくはディスクリート論理回路などの１つまたは複数のプロセッサによって実行され得る。従って、本明細書で使用する「プロセッサ」という用語は、前述の構造または本明細書で説明する技法の実装形態に適した任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明する機能が、符号化および復号のために構成された専用のハードウェアモジュールおよび／またはソフトウェアモジュール内に与えられるか、あるいは複合コーデックに組み込まれ得る。また、本技法は、１つまたは複数の回路または論理要素において完全に実施され得る。

[0134] 本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）、またはＩＣのセット（たとえば、チップセット）を含む多種多様なデバイスまたは装置において実施され得る。開示する技法を実行するように構成されたデバイスの機能的態様を強調するために、様々な構成要素、モジュール、またはユニットについて本開示で説明したが、それらの構成要素、モジュール、またはユニットは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明したように、様々なユニットは、適切なソフトウェアおよび／またはファームウェアとともに、上記で説明した１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わされるか、または相互動作ハードウェアユニットの集合によって提供され得る。

[0135] 本技法の様々な実施形態について説明した。本技法のこれらおよび他の態様は以下の特許請求の範囲の範疇にある。

[0135] 本技法の様々な実施形態について説明した。本技法のこれらおよび他の態様は以下の特許請求の範囲の範疇にある。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
マルチチャンネルオーディオデータを圧縮する方法であって、
空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行することと、
前記複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることと、
ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮することとを備える方法。
［Ｃ２］
前記ビットストリームのターゲットビットレートを決定することをさらに備え、
前記マルチチャンネルオーディオデータを圧縮することは、前記圧縮されたオーディオデータを表すビットストリームを生成するために、前記ターゲットビットレートに基づいて、ｉ）パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した空間マスキング、またはｉｉ）前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することを備える、Ｃ１に記載の方法。
［Ｃ３］
ｉ）前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキング、またはｉｉ）前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することは、
前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキングを実行することとを備える、Ｃ２に記載の方法。
［Ｃ４］
ｉ）前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキング、またはｉｉ）前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することは、
前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記マルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して前記空間マスキングしきい値を使用した前記空間マスキングを実行し、前記マルチチャンネルオーディオデータに対して前記パラメトリックチャンネル間オーディオ符号化を実行することとを備える、Ｃ２に記載の方法。
［Ｃ５］
前記球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることは、前記球面調和係数から３２個のスピーカーに対する前記マルチチャンネルオーディオデータの３２個のチャンネルをレンダリングすることを備える、Ｃ１に記載の方法。
［Ｃ６］
前記球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることは、前記球面調和係数から高密度Ｔ設計で配置された３２個のスピーカーに対応する前記マルチチャンネルオーディオデータの３２個のチャンネルをレンダリングすることを備える、Ｃ１に記載の方法。
［Ｃ７］
前記マルチチャンネルオーディオデータを圧縮することは、前記空間マスキングしきい値に基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振ることを備える、Ｃ１に記載の方法。
［Ｃ８］
前記マルチチャンネルオーディオデータを圧縮することは、前記空間マスキングしきい値と時間マスキングしきい値とに基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振ることを備える、Ｃ１に記載の方法。
［Ｃ９］
前記マルチチャンネルオーディオデータを圧縮することは、前記識別された空間マスキングしきい値に基づいてエントロピー符号化を実行することを備える、Ｃ１に記載の方法。
［Ｃ１０］
変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を時間領域から周波数領域に変換することをさらに備え、
前記マルチチャンネルオーディオデータをレンダリングすることは、前記変換された複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることを備える、Ｃ１に記載の方法。
［Ｃ１１］
空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行し、前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングし、ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮するように構成された１つまたは複数のプロセッサを備えるオーディオ符号化デバイス。
［Ｃ１２］
前記１つまたは複数のプロセッサは、前記ビットストリームのターゲットビットレートを決定するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記圧縮されたオーディオデータを表すビットストリームを生成するために、前記ターゲットビットレートに基づいて、ｉ）パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した空間マスキング、またはｉｉ）前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行するように構成される、Ｃ１１に記載のオーディオ符号化デバイス。
［Ｃ１３］
前記１つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキングを実行するように構成される、Ｃ１２に記載のオーディオ符号化デバイス。
［Ｃ１４］
前記１つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記マルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して前記空間マスキングしきい値を使用した前記空間マスキングを実行し、前記マルチチャンネルオーディオデータに対して前記パラメトリックチャンネル間オーディオ符号化を実行するように構成される、Ｃ１２に記載のオーディオ符号化デバイス。
［Ｃ１５］
前記１つまたは複数のプロセッサは、前記球面調和係数から３２個のスピーカーに対する前記マルチチャンネルオーディオデータの３２個のチャンネルをレンダリングするようにさらに構成される、Ｃ１１に記載のオーディオ符号化デバイス。
［Ｃ１６］
前記１つまたは複数のプロセッサは、前記球面調和係数から高密度Ｔ設計で配置された３２個のスピーカーに対応する前記マルチチャンネルオーディオデータの３２個のチャンネルをレンダリングするようにさらに構成される、Ｃ１１に記載のオーディオ符号化デバイス。
［Ｃ１７］
前記１つまたは複数のプロセッサは、前記空間マスキングしきい値に基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振るようにさらに構成される、Ｃ１１に記載のオーディオ符号化デバイス。
［Ｃ１８］
前記１つまたは複数のプロセッサは、前記空間マスキングしきい値と時間マスキングしきい値とに基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振るようにさらに構成される、Ｃ１１に記載のオーディオ符号化デバイス。
［Ｃ１９］
前記１つまたは複数のプロセッサは、前記識別された空間マスキングしきい値に基づいてエントロピー符号化を実行するようにさらに構成される、Ｃ１１に記載のオーディオ符号化デバイス。
［Ｃ２０］
前記１つまたは複数のプロセッサは、変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を時間領域から周波数領域に変換し、前記マルチチャンネルオーディオデータをレンダリングするときに、前記変換された複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングするようにさらに構成される、Ｃ１１に記載のオーディオ符号化デバイス。
［Ｃ２１］
空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、
前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングするための手段と、
ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮するための手段とを備えるオーディオ符号化デバイス。
［Ｃ２２］
実行されると、オーディオ符号化デバイスの１つまたは複数のプロセッサに、
空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、
前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングさせ、
ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮させる命令を記憶した非一時的コンピュータ可読記憶媒体。
［Ｃ２３］
定義されたスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号することと、
複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行することと、
前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングすることとを備える方法。
［Ｃ２４］
前記ビットストリームのターゲットビットレートを決定することをさらに備え、
前記ビットストリームを復号することは、前記ターゲットビットレートに基づいて、前記第１のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対してパラメトリックチャンネル間オーディオ復号を実行することを備える、Ｃ２３に記載の方法。
［Ｃ２５］
前記パラメトリックチャンネル間オーディオ復号を実行することは、
前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記第１のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対して前記パラメトリックチャンネル間オーディオ復号を実行することとを備える、Ｃ２４に記載の方法。
［Ｃ２６］
前記しきい値ビットレートは２４−２キロビット毎秒（Ｋｂｐｓ）に等しい、Ｃ２５に記載の方法。
［Ｃ２７］
前記逆レンダリングプロセスを実行することは、前記複数の球面調和係数を生成するために、２３個のスピーカーに対応する前記第１のマルチチャンネルオーディオデータの２３個のチャンネルに対して前記逆レンダリングプロセスを実行することを備える、Ｃ２３に記載の方法。
［Ｃ２８］
前記逆レンダリングプロセスを実行することは、前記複数の球面調和係数を生成するために、高密度Ｔ設計で配置された２３個のスピーカーに対応する前記第１のマルチチャンネルオーディオデータの２３個のチャンネルに対して前記逆レンダリングプロセスを実行することを備える、Ｃ２３に記載の方法。
［Ｃ２９］
変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を周波数領域から時間領域に変換することをさらに備え、
前記第２のマルチチャンネルオーディオデータをレンダリングすることは、前記変換された複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第２のマルチチャンネルオーディオデータをレンダリングすることを備える、Ｃ２３に記載の方法。
［Ｃ３０］
前記第２のマルチチャンネルオーディオデータをレンダリングすることは、前記複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第２のマルチチャンネルオーディオデータを生成するために、前記複数の球面調和係数に対して変換を実行することを備える、Ｃ２３に記載の方法。
［Ｃ３１］
前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルは、前記ローカルスピーカー幾何学的配置とは異なる幾何学的配置で配置された仮想スピーカーに対応する複数の仮想チャンネルを備え、
前記第２のマルチチャンネルオーディオデータをレンダリングすることは、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想ラウドスピーカーチャンネルに対してパンニングを実行することをさらに備える、Ｃ３０に記載の方法。
［Ｃ３２］
パンニングを実行することは、前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想チャンネルに対してベクトルベース振幅パンニングを実行することを備える、Ｃ３１に記載の方法。
［Ｃ３３］
前記複数の仮想チャンネルの各々は、対応する異なる定義された空間領域に関連付けられる、Ｃ３２に記載の方法。
［Ｃ３４］
前記異なる定義された空間領域は、オーディオフォーマット仕様およびオーディオフォーマット規格のうちの１つまたは複数で定義される、Ｃ３３に記載の方法。
［Ｃ３５］
第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号し、複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行し、前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングするように構成された１つまたは複数のプロセッサを備えるオーディオ復号デバイス。
［Ｃ３６］
前記１つまたは複数のプロセッサは、前記ビットストリームのターゲットビットレートを決定するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記ターゲットビットレートに基づいて、前記第１のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対してパラメトリックチャンネル間オーディオ復号を実行するように構成される、Ｃ３５に記載のオーディオ復号デバイス。
［Ｃ３７］
前記１つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記第１のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対して前記パラメトリックチャンネル間オーディオ復号を実行するように構成される、Ｃ３６に記載のオーディオ復号デバイス。
［Ｃ３８］
前記しきい値ビットレートは２４−２キロビット毎秒（Ｋｂｐｓ）に等しい、Ｃ３７に記載のオーディオ復号デバイス。
［Ｃ３９］
前記１つまたは複数のプロセッサは、前記逆レンダリングプロセスを実行するときに、前記複数の球面調和係数を生成するために、２３個のスピーカーに対応する前記第１のマルチチャンネルオーディオデータの２３個のチャンネルに対して前記逆レンダリングプロセスを実行するように構成される、Ｃ３５に記載のオーディオ復号デバイス。
［Ｃ４０］
前記１つまたは複数のプロセッサは、前記逆レンダリングプロセスを実行するときに、前記複数の球面調和係数を生成するために、高密度Ｔ設計で配置された２３個のスピーカーに対応する前記第１のマルチチャンネルオーディオデータの２３個のチャンネルに対して前記逆レンダリングプロセスを実行するように構成される、Ｃ３５に記載のオーディオ復号デバイス。
［Ｃ４１］
前記１つまたは複数のプロセッサは、変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を周波数領域から時間領域に変換するように構成され、
前記１つまたは複数のプロセッサは、前記第２のマルチチャンネルオーディオデータをレンダリングするときに、前記変換された複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第２のマルチチャンネルオーディオデータをレンダリングするように構成される、Ｃ３５に記載のオーディオ復号デバイス。
［Ｃ４２］
前記１つまたは複数のプロセッサは、前記第２のマルチチャンネルオーディオデータをレンダリングするときに、前記複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第２のマルチチャンネルオーディオデータを生成するために、前記複数の球面調和係数に対して変換を実行するように構成される、Ｃ３５に記載のオーディオ復号デバイス。
［Ｃ４３］
前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルは、前記ローカルスピーカー幾何学的配置とは異なる幾何学的配置で配置された仮想スピーカーに対応する複数の仮想チャンネルを備え、
前記１つまたは複数のプロセッサは、前記第２のマルチチャンネルオーディオデータをレンダリングするときに、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想ラウドスピーカーチャンネルに対してパンニングを実行するように構成される、Ｃ４２に記載のオーディオ復号デバイス。
［Ｃ４４］
前記１つまたは複数のプロセッサは、パンニングを実行するときに、前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想チャンネルに対してベクトルベース振幅パンニングを実行するように構成される、Ｃ４３に記載のオーディオ復号デバイス。
［Ｃ４５］
前記複数の仮想チャンネルの各々は、対応する異なる定義された空間領域に関連付けられる、Ｃ４４に記載のオーディオ復号デバイス。
［Ｃ４６］
前記異なる定義された空間領域は、オーディオフォーマット仕様およびオーディオフォーマット規格のうちの１つまたは複数で定義される、Ｃ４５に記載のオーディオ復号デバイス。
［Ｃ４７］
第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号するための手段と、
複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行するための手段と、
前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングするための手段とを備えるオーディオ復号デバイス。
［Ｃ４８］
実行されると、オーディオ復号デバイスの１つまたは複数のプロセッサに、
第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号させ、
複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行させ、
前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングさせる、命令を記憶した非一時的コンピュータ可読記憶媒体。

Claims

マルチチャンネルオーディオデータを圧縮する方法であって、
空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行することと、
前記複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることと、
ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮することと
を備える方法。
前記ビットストリームのターゲットビットレートを決定することをさらに備え、
前記マルチチャンネルオーディオデータを圧縮することは、前記圧縮されたオーディオデータを表すビットストリームを生成するために、前記ターゲットビットレートに基づいて、ｉ）パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した空間マスキング、またはｉｉ）前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することを備える、
請求項１に記載の方法。
ｉ）前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキング、またはｉｉ）前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することは、
前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキングを実行することと
を備える、請求項２に記載の方法。
ｉ）前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキング、またはｉｉ）前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することは、
前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記マルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して前記空間マスキングしきい値を使用した前記空間マスキングを実行し、前記マルチチャンネルオーディオデータに対して前記パラメトリックチャンネル間オーディオ符号化を実行することと
を備える、請求項２に記載の方法。
前記球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることは、前記球面調和係数から３２個のスピーカーに対する前記マルチチャンネルオーディオデータの３２個のチャンネルをレンダリングすることを備える、請求項１に記載の方法。
前記球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることは、前記球面調和係数から高密度Ｔ設計で配置された３２個のスピーカーに対応する前記マルチチャンネルオーディオデータの３２個のチャンネルをレンダリングすることを備える、請求項１に記載の方法。
前記マルチチャンネルオーディオデータを圧縮することは、前記空間マスキングしきい値に基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振ることを備える、請求項１に記載の方法。
前記マルチチャンネルオーディオデータを圧縮することは、前記空間マスキングしきい値と時間マスキングしきい値とに基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振ることを備える、請求項１に記載の方法。
前記マルチチャンネルオーディオデータを圧縮することは、前記識別された空間マスキングしきい値に基づいてエントロピー符号化を実行することを備える、請求項１に記載の方法。
変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を時間領域から周波数領域に変換することをさらに備え、
前記マルチチャンネルオーディオデータをレンダリングすることは、前記変換された複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることを備える、
請求項１に記載の方法。
空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行し、前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングし、ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮するように構成された１つまたは複数のプロセッサ
を備えるオーディオ符号化デバイス。
前記１つまたは複数のプロセッサは、前記ビットストリームのターゲットビットレートを決定するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記圧縮されたオーディオデータを表すビットストリームを生成するために、前記ターゲットビットレートに基づいて、ｉ）パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した空間マスキング、またはｉｉ）前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行するように構成される、
請求項１１に記載のオーディオ符号化デバイス。
前記１つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキングを実行するように構成される、請求項１２に記載のオーディオ符号化デバイス。
前記１つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記マルチチャンネルオーディオデータの１つまたは複数のベースチャンネルに対して前記空間マスキングしきい値を使用した前記空間マスキングを実行し、前記マルチチャンネルオーディオデータに対して前記パラメトリックチャンネル間オーディオ符号化を実行するように構成される、請求項１２に記載のオーディオ符号化デバイス。
前記１つまたは複数のプロセッサは、前記球面調和係数から３２個のスピーカーに対する前記マルチチャンネルオーディオデータの３２個のチャンネルをレンダリングするようにさらに構成される、請求項１１に記載のオーディオ符号化デバイス。
前記１つまたは複数のプロセッサは、前記球面調和係数から高密度Ｔ設計で配置された３２個のスピーカーに対応する前記マルチチャンネルオーディオデータの３２個のチャンネルをレンダリングするようにさらに構成される、請求項１１に記載のオーディオ符号化デバイス。
前記１つまたは複数のプロセッサは、前記空間マスキングしきい値に基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振るようにさらに構成される、請求項１１に記載のオーディオ符号化デバイス。
前記１つまたは複数のプロセッサは、前記空間マスキングしきい値と時間マスキングしきい値とに基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振るようにさらに構成される、請求項１１に記載のオーディオ符号化デバイス。
前記１つまたは複数のプロセッサは、前記識別された空間マスキングしきい値に基づいてエントロピー符号化を実行するようにさらに構成される、請求項１１に記載のオーディオ符号化デバイス。
前記１つまたは複数のプロセッサは、変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を時間領域から周波数領域に変換し、前記マルチチャンネルオーディオデータをレンダリングするときに、前記変換された複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングするようにさらに構成される、請求項１１に記載のオーディオ符号化デバイス。
空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、
前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングするための手段と、
ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮するための手段と
を備えるオーディオ符号化デバイス。
実行されると、オーディオ符号化デバイスの１つまたは複数のプロセッサに、
空間マスキングしきい値を識別するために、３次元音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、
前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングさせ、
ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮させる
命令を記憶した非一時的コンピュータ可読記憶媒体。
定義されたスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号することと、
複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行することと、
前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングすることと
を備える方法。
前記ビットストリームのターゲットビットレートを決定することをさらに備え、
前記ビットストリームを復号することは、前記ターゲットビットレートに基づいて、前記第１のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対してパラメトリックチャンネル間オーディオ復号を実行することを備える、
請求項２３に記載の方法。
前記パラメトリックチャンネル間オーディオ復号を実行することは、
前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記第１のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対して前記パラメトリックチャンネル間オーディオ復号を実行することと
を備える、請求項２４に記載の方法。
前記しきい値ビットレートは２４−２キロビット毎秒（Ｋｂｐｓ）に等しい、請求項２５に記載の方法。
前記逆レンダリングプロセスを実行することは、前記複数の球面調和係数を生成するために、２３個のスピーカーに対応する前記第１のマルチチャンネルオーディオデータの２３個のチャンネルに対して前記逆レンダリングプロセスを実行することを備える、請求項２３に記載の方法。
前記逆レンダリングプロセスを実行することは、前記複数の球面調和係数を生成するために、高密度Ｔ設計で配置された２３個のスピーカーに対応する前記第１のマルチチャンネルオーディオデータの２３個のチャンネルに対して前記逆レンダリングプロセスを実行することを備える、請求項２３に記載の方法。
変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を周波数領域から時間領域に変換することをさらに備え、
前記第２のマルチチャンネルオーディオデータをレンダリングすることは、前記変換された複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第２のマルチチャンネルオーディオデータをレンダリングすることを備える、
請求項２３に記載の方法。
前記第２のマルチチャンネルオーディオデータをレンダリングすることは、前記複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第２のマルチチャンネルオーディオデータを生成するために、前記複数の球面調和係数に対して変換を実行することを備える、請求項２３に記載の方法。
前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルは、前記ローカルスピーカー幾何学的配置とは異なる幾何学的配置で配置された仮想スピーカーに対応する複数の仮想チャンネルを備え、
前記第２のマルチチャンネルオーディオデータをレンダリングすることは、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想ラウドスピーカーチャンネルに対してパンニングを実行することをさらに備える、
請求項３０に記載の方法。
パンニングを実行することは、前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想チャンネルに対してベクトルベース振幅パンニングを実行することを備える、請求項３１に記載の方法。
前記複数の仮想チャンネルの各々は、対応する異なる定義された空間領域に関連付けられる、請求項３２に記載の方法。
前記異なる定義された空間領域は、オーディオフォーマット仕様およびオーディオフォーマット規格のうちの１つまたは複数で定義される、請求項３３に記載の方法。
第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号し、複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行し、前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングするように構成された１つまたは複数のプロセッサを備える
オーディオ復号デバイス。
前記１つまたは複数のプロセッサは、前記ビットストリームのターゲットビットレートを決定するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記ターゲットビットレートに基づいて、前記第１のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対してパラメトリックチャンネル間オーディオ復号を実行するように構成される、
請求項３５に記載のオーディオ復号デバイス。
前記１つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記第１のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対して前記パラメトリックチャンネル間オーディオ復号を実行するように構成される、請求項３６に記載のオーディオ復号デバイス。
前記しきい値ビットレートは２４−２キロビット毎秒（Ｋｂｐｓ）に等しい、請求項３７に記載のオーディオ復号デバイス。
前記１つまたは複数のプロセッサは、前記逆レンダリングプロセスを実行するときに、前記複数の球面調和係数を生成するために、２３個のスピーカーに対応する前記第１のマルチチャンネルオーディオデータの２３個のチャンネルに対して前記逆レンダリングプロセスを実行するように構成される、請求項３５に記載のオーディオ復号デバイス。
前記１つまたは複数のプロセッサは、前記逆レンダリングプロセスを実行するときに、前記複数の球面調和係数を生成するために、高密度Ｔ設計で配置された２３個のスピーカーに対応する前記第１のマルチチャンネルオーディオデータの２３個のチャンネルに対して前記逆レンダリングプロセスを実行するように構成される、請求項３５に記載のオーディオ復号デバイス。
前記１つまたは複数のプロセッサは、変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を周波数領域から時間領域に変換するように構成され、
前記１つまたは複数のプロセッサは、前記第２のマルチチャンネルオーディオデータをレンダリングするときに、前記変換された複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第２のマルチチャンネルオーディオデータをレンダリングするように構成される、
請求項３５に記載のオーディオ復号デバイス。
前記１つまたは複数のプロセッサは、前記第２のマルチチャンネルオーディオデータをレンダリングするときに、前記複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第２のマルチチャンネルオーディオデータを生成するために、前記複数の球面調和係数に対して変換を実行するように構成される、請求項３５に記載のオーディオ復号デバイス。
前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルは、前記ローカルスピーカー幾何学的配置とは異なる幾何学的配置で配置された仮想スピーカーに対応する複数の仮想チャンネルを備え、
前記１つまたは複数のプロセッサは、前記第２のマルチチャンネルオーディオデータをレンダリングするときに、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想ラウドスピーカーチャンネルに対してパンニングを実行するように構成される、
請求項４２に記載のオーディオ復号デバイス。
前記１つまたは複数のプロセッサは、パンニングを実行するときに、前記第２のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想チャンネルに対してベクトルベース振幅パンニングを実行するように構成される、請求項４３に記載のオーディオ復号デバイス。
前記複数の仮想チャンネルの各々は、対応する異なる定義された空間領域に関連付けられる、請求項４４に記載のオーディオ復号デバイス。
前記異なる定義された空間領域は、オーディオフォーマット仕様およびオーディオフォーマット規格のうちの１つまたは複数で定義される、請求項４５に記載のオーディオ復号デバイス。
第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号するための手段と、
複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行するための手段と、
前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングするための手段と
を備えるオーディオ復号デバイス。
実行されると、オーディオ復号デバイスの１つまたは複数のプロセッサに、
第１のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第１のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号させ、
複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行させ、
前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第２のマルチチャンネルオーディオデータをレンダリングさせる、
命令を記憶した非一時的コンピュータ可読記憶媒体。