JP2023139188A

JP2023139188A - 方向性音源のエンコードおよびデコードのための方法、装置およびシステム

Info

Publication number: JP2023139188A
Application number: JP2023120422A
Authority: JP
Inventors: アール．ツィンゴス，ニコラス; R Tsingos Nicolas; トーマス，マーク，アール．，ピー．; R P Thomas Mark; フェルシュ，クリストフ; Fersch Christof
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2018-04-16
Filing date: 2023-07-25
Publication date: 2023-10-03
Also published as: RU2020127190A; WO2019204214A3; US20240212693A1; CN111801732A; EP3782152A2; BR112020016912A2; US11315578B2; JP2021518923A; JP7321170B2; US20220328052A1; KR20200141981A; WO2019204214A2; US11887608B2; US20210118452A1; RU2020127190A3

Abstract

【課題】複雑な放射パターンの表現および効率的な符号化を実現するオーディオ・データをデコードする方法を提供する。
【解決手段】オーディオ・エンコード方法は、オーディオ・オブジェクトに対応するモノ（モノフォニック）・オーディオ信号と、オーディオ・オブジェクトに対応する放射パターンの表現とを受領するプロセスと、モノ・オーディオ信号をエンコードし、源放射パターンをエンコードして放射パターン・メタデータを決定するプロセスと、を有する。放射パターンは、複数のサンプル時間、複数の周波数帯域および複数の方向に対応する音レベルを含んでいてもよい。放射パターンをエンコードすることは、放射パターンの表現の球面調和関数変換を決定し、該球面調和関数変換を圧縮して、エンコードされた放射パターン・メタデータを得ることに関わってもよい。
【選択図】図１Ａ

Description

関連出願への相互参照
本願は、2018年8月16日に出願された米国特許出願第62/658,067号；2018年6月6日に出願された米国特許出願第62/681,429号；および2018年10月4日に出願された米国特許出願第62/741,419号の利益を主張するものである。これらの出願の内容はここに参照によってその全体において組み込まれる。

技術分野
本開示は、複数の動的なおよび／または移動する方向性音源に基づく方向性音源および聴覚シーンのエンコードおよびデコードに関する。

実世界の音源は、自然のものでも人工のもの（スピーカー、楽器、声、機械的装置）でも、非等方的な仕方で音を放射する。音源の放射パターン（または「指向性（directivity）」）を特徴付けることは、適正なレンダリングのために、特にビデオゲームや仮想現実／拡張現実（VR/AR）アプリケーションのような対話的環境の文脈において枢要となりうる。これらの環境では、ユーザーは一般に、方向性オーディオ・オブジェクトのまわりを歩くことによって方向性オーディオ・オブジェクトと対話し、それにより、生成されるサウンドに関する聴覚的な観点を変化させる（6自由度[DoF]レンダリングともいう）。ユーザーはまた、仮想オブジェクトをつかんで動的に回転させることができ、これも、対応する音源（単数または複数）の放射パターンにおける異なる方向のレンダリングを必要とする。源から聴取者への直接伝搬効果の、より現実的なレンダリングに加えて、放射特性は、源とその環境（たとえば、ゲームにおける仮想環境）との間の高次の音響結合においても主要な役割を果たし、よって、残響音（すなわち、エコーにおけるように行ったり来たりする波）に影響を及ぼす。結果として、そのような残響は、知覚される距離のような他の空間的手がかりに影響を及ぼす可能性がある。

ほとんどのオーディオ・ゲーム・エンジンは、方向性音源を表現しレンダリングする何らかの仕方を提供するが、一般には、単純な一次余弦関数または「サウンドコーン」（たとえば、冪余弦関数）および単純な高周波ロールオフ・フィルタの定義に依拠する単純な方向性利得に制限される。これらの表現は、実世界の放射パターンを表現するには不十分であり、また、多数の方向性音源の単純化された／組み合わされた表現にはあまり適していない。

さまざまなオーディオ処理方法が本明細書に開示される。いくつかのそのような方法は、方向性オーディオ・データをエンコードすることに関わることがある。たとえば、いくつかの方法は、オーディオ・オブジェクトに対応するモノ・オーディオ信号と、該オーディオ・オブジェクトに対応する放射パターンの表現とを受領することに関わってもよい。前記放射パターンは、たとえば、複数のサンプル時間、複数の周波数帯域および複数の方向に対応する音レベルを含んでいてもよい。いくつかのそのような方法は、モノ・オーディオ信号をエンコードし、源放射パターンをエンコードして放射パターン・メタデータを決定することに関わってもよい。放射パターンのエンコードは、放射パターンの表現の球面調和関数変換を決定し、該球面調和関数変換を圧縮して、エンコードされた放射パターン・メタデータを得ることに関わっていてもよい。

いくつかのそのような方法は、オーディオ・オブジェクトのクラスターに基づいて複数の方向性オーディオ・オブジェクトをエンコードすることに関わってもよい。放射パターンは、各周波数帯域についての平均音レベル値を反映するセントロイドを表わしてもよい。いくつかのそのような実装では、複数の方向性オーディオ・オブジェクトは、各オーディオ・オブジェクトの球面調和関数係数の時間変動する、エネルギーで重み付けされた平均に対応する指向性をもつ単一の方向性オーディオ・オブジェクトとしてエンコードされる。エンコードされた放射パターン・メタデータは、各オーディオ・オブジェクトの位置の平均であるオーディオ・オブジェクトのクラスターの位置を示してもよい。

いくつかの方法は、方向性オーディオ・オブジェクトのグループの放射パターンに関するグループ・メタデータをエンコードすることに関わってもよい。いくつかの例では、源放射パターンは、周波数毎にある方向における入力放射パターンの振幅に対して再スケーリングされて、規格化された放射パターンを決定してもよい。いくつかの実装によれば、球面調和関数変換を圧縮することは、特異値分解法、主成分分析、離散コサイン変換、データ独立な基底（data-independent bases）、および／または球面調和関数係数の閾値次数より上の球面調和関数変換の球面調和関数係数を消去することに関わってもよい。

いくつかの代替的な方法は、オーディオ・データをデコードすることに関わってもよい。たとえば、いくつかのそのような方法は、エンコードされたコア・オーディオ信号、エンコードされた放射パターン・メタデータおよびエンコードされたオーディオ・オブジェクト・メタデータを受領し、エンコードされたコア・オーディオ信号をデコードしてコア・オーディオ信号を決定することに関わってもよい。いくつかのそのような方法は、エンコードされた放射パターン・メタデータをデコードして、デコードされた放射パターンを決定し、オーディオ・オブジェクト・メタデータをデコードし、前記オーディオ・オブジェクト・メタデータおよび前記デコードされた放射パターンに基づいて前記コア・オーディオ信号をレンダリングすることに関わってもよい。

いくつかの事例では、オーディオ・オブジェクト・メタデータは、時間変化する3自由度（3DoF）または6自由度（6DoF）の源配向情報の少なくとも1つを含んでいてもよい。コア・オーディオ信号は、オブジェクトのクラスターに基づく複数の方向性オブジェクトを含んでいてもよい。デコードされた放射パターンは、各周波数帯域についての平均値を反映するセントロイドを表わしていてもよい。いくつかの例では、レンダリングは、少なくとも部分的には前記デコードされた放射データに基づくサブバンド利得を前記デコードされたコア・オーディオ信号に適用することに基づいてもよい。エンコードされた放射パターン・メタデータは、球面調和関数係数の時間および周波数変動する集合に対応してもよい。

いくつかの実装によれば、エンコードされた放射パターン・メタデータは、オーディオ・オブジェクト型メタデータを含んでいてもよい。オーディオ・オブジェクト型メタデータは、たとえば、パラメトリック指向性パターン・データを示してもよい。パラメトリック指向性パターン・データは、余弦関数、正弦関数および／またはカージオイド関数を含んでいてもよい。いくつかの例では、オーディオ・オブジェクト型メタデータは、データベース指向性パターン・データを示してもよい。エンコードされた放射パターン・メタデータをデコードしてデコードされた放射パターンを決定することは、オーディオ・オブジェクト型および対応する指向性パターン・データを含む指向性データ構造に問い合わせることに関わってもよい。いくつかの例では、オーディオ・オブジェクト型メタデータは、動的な指向性パターン・データを示してもよい。動的な指向性パターン・データは、球面調和関数係数の時間および周波数変化する集合に対応しうる。いくつかの方法は、エンコードされたコア・オーディオ信号を受領する前に、動的な指向性パターン・データを受領することに関わってもよい。

本明細書に記載される方法の一部または全部は、一つまたは複数の非一時的媒体に記憶された命令（たとえば、ソフトウェア）に従って一つまたは複数の装置によって実行されてもよい。そのような非一時的媒体は、ランダムアクセスメモリ（RAM）デバイス、読出し専用メモリ（ROM）デバイスなどを含むが、これらに限定されない、本明細書に記載されたもののようなメモリ・デバイスを含んでいてもよい。よって、本開示に記載された主題のさまざまな革新的な側面は、ソフトウェアを格納した一つまたは複数の非一時的媒体に実装できる。ソフトウェアは、たとえば、オーディオ・データを処理するために少なくとも1つの装置を制御するための命令を含んでいてもよい。ソフトウェアは、たとえば、本明細書に開示されているような制御システムの一つまたは複数のコンポーネントによって実行可能であってもよい。ソフトウェアは、たとえば、本明細書に開示された方法の一つまたは複数を実行するための命令を含んでいてもよい。

本開示の少なくともいくつかの側面は、装置を介して実装されてもよい。たとえば、一つまたは複数の装置が、本明細書に開示された方法を少なくとも部分的に実行するよう構成されてもよい。いくつかの実装では、装置は、インターフェース・システムおよび制御システムを含んでいてもよい。インターフェース・システムは、一つまたは複数のネットワーク・インターフェース、制御システムとメモリ・システムとの間の一つまたは複数のインターフェース、制御システムと別のデバイスとの間の一つまたは複数のインターフェース、および／または一つまたは複数の外部装置インターフェースを含んでいてもよい。制御システムは、汎用の単一チップまたはマルチチップのプロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）、または他のプログラマブル論理デバイス、離散ゲートまたはトランジスタ論理、または離散的なハードウェア・コンポーネントのうちの少なくとも1つを含んでいてもよい。よって、いくつかの実装では、制御システムは、一つまたは複数のプロセッサと、該一つまたは複数のプロセッサに動作上結合された一つまたは複数の非一時的な記憶媒体とを含んでいてもよい。

いくつかのそのような例によれば、制御システムは、少なくとも1つのオーディオ・オブジェクトに対応するオーディオ・データを、インターフェース・システムを介して受領するように構成されてもよい。いくつかの例では、オーディオ・データは、モノフォニック・オーディオ信号、オーディオ・オブジェクト位置メタデータ、オーディオ・オブジェクト・サイズ・メタデータおよびレンダリング・パラメータを含んでいてもよい。いくつかのそのような方法は、レンダリング・パラメータが位置モードを示すか指向性モードを示すかを判定し、レンダリング・パラメータが指向性モードを示すと判定すると、位置メタデータおよび／またはサイズ・メタデータによって示される指向性パターンに従って、少なくとも1つのラウドスピーカーを介した再生のためにオーディオ・データをレンダリングすることに関わってもよい。

いくつかの例では、オーディオ・データのレンダリングは、オーディオ・オブジェクト位置メタデータをオーディオ・オブジェクト配向メタデータとして解釈することに関わってもよい。オーディオ・オブジェクト位置メタデータは、たとえば、x,y,z座標データ、球面座標データおよび／または円筒座標データを含んでいてもよい。いくつかの事例では、オーディオ・オブジェクト配向メタデータは、ヨー、ピッチ、ロール・データを含んでいてもよい。

いくつかの例によれば、オーディオ・データのレンダリングは、オーディオ・オブジェクト・サイズ・メタデータを、指向性パターンに対応する指向性メタデータとして解釈することに関わってもよい。いくつかの実装では、オーディオ・データのレンダリングは、複数の指向性パターンを含むデータ構造に問い合わせし、位置メタデータおよび／またはサイズ・メタデータを前記指向性パターンのうちの一つまたは複数にマッピングすることを含んでいてもよい。いくつかの事例では、制御システムは、インターフェース・システムを介して前記データ構造を受領するように構成されてもよい。いくつかの例では、データ構造は、オーディオ・データに先立って受領されてもよい。いくつかの実装では、オーディオ・データはドルビー・アトモス・フォーマットで受領されてもよい。オーディオ・オブジェクト位置メタデータは、たとえば、世界座標またはモデル座標に対応しうる。

本明細書に記載される主題の一つまたは複数の実装の詳細が、添付の図面および下記の記述において記載される。他の特徴、側面、および利点は、本記述、図面、および特許請求の範囲から明白となるであろう。下記の図の相対的な寸法は、縮尺通りに描かれないことがあることを留意されたい。さまざまな図面における同様の参照番号および記号は、一般に、同様の要素を示す。

一例によるオーディオ・エンコード方法のブロックを示す流れ図である。

一例による、方向性オーディオ・オブジェクトについてのフレーム毎の指向性情報を動的にエンコードするためのエンコード・システムによって実装されうるプロセスのブロックを示す。

一例によるデコード・システムによって実装されうるプロセスのブロックを示す。

図２Aおよび２Bは、2つの異なる周波数帯域におけるオーディオ・オブジェクトの放射パターンを表わす。

一例による、規格化された放射パターンおよび規格化されていない放射パターンの例を示すグラフである。

オーディオ・データおよびさまざまな型のメタデータを含む階層の例を示す。

一例によるオーディオ・デコード方法のブロックを示す流れ図である。

ドラム・シンバルを描いている。

スピーカー・システムの例を示す。

複数のオーディオ・オブジェクトをエンコードする一例を示す。

本明細書に開示された方法の少なくともいくつかを実行するように構成されうる装置のコンポーネントの例を示すブロック図である。

さまざまな図面における同様の参照番号および符号は、同様の要素を示す。

本開示のある側面は、複雑な放射パターンの表現および効率的な符号化に関する。いくつかのそのような実装は、以下のうちの一つまたは複数を含んでいてもよい：
１．実数値球面調和関数（spherical harmonics、SPH）分解の、時間および周波数に依存するN次係数としての一般的な音放射パターンの表現（N≧1）。この表現は、再生オーディオ信号のレベルに依存して拡張することもできる。方向性源信号自体がHOAのようなPCM表現である場合とは逆に、モノ・オブジェクト信号が、その指向性情報とは別個にエンコードされることができ、指向性情報は、諸サブバンドにおける時間依存のスカラーSPH係数の集合として表現される。
２．この情報を表現するために必要なビットレートを下げるための効率的なエンコード方式
３．いくつかの放射する音源から構成されるシーンが、レンダリング時に、その知覚品質を保持しながら、同等の低減された数の源によって表現できるように、放射パターンを動的に組み合わせる解決策。

本開示のある側面は、各モノ・オーディオ・オブジェクトについてのメタデータを、N次の球面調和関数基底（N≧1）において投影されたモノ・オーディオ・オブジェクトの指向性を表わす時間／周波数に依存する係数の集合によって補完するために、一般的な放射パターンを表わすことに関する。

一次放射パターンは、あらかじめ定義された一組の周波数帯域（たとえば、1/3オクターブ）についての4つのスカラー利得係数の集合によって表現できる。周波数バンドの組〔集合〕は、ビンまたはサブバンドとしても知られている。ビンまたはサブバンドは、短時間フーリエ変換（STFT）または単一のデータ・フレーム（たとえば、ドルビー・アトモスでのように512個のサンプル）についての知覚的フィルタバンクに基づいて決定されてもよい。結果として得られるパターンは、オブジェクトのまわりの必要な方向で球面調和関数分解を評価することによって、レンダリングされることができる。

一般に、この放射パターンは、源の特性であり、経時的に一定であってもよい。しかしながら、オブジェクトが回転または変化する動的なシーンを表現したり、またはデータがランダムにアクセスできることを保証したりするには、規則的な時間間隔でこの係数の集合を更新することが有益であることがある。動くオブジェクトのある動的な聴覚シーンの文脈では、オブジェクト回転の結果は、オブジェクト配向の明示的な別個のエンコードを必要とすることなく、時間変化する係数において直接エンコードされることができる。

音源のそれぞれの型は、典型的には周波数帯域によって異なる特徴的な放射／放出パターンを有する。たとえば、バイオリンは、トランペット、ドラムまたはベルとは非常に異なる放射パターンを有しうる。さらに、楽器のような音源は、ピアニシモとフォルテシモのパフォーマンス・レベルで異なる仕方で放射することがある。結果として、放射パターンは、音を出すオブジェクトのまわりの方向だけでなく、放射するオーディオ信号の圧力レベルの関数でもあることがあり、圧力レベルも時間変化しうる。

よって、空間内のある点で音場を単に表現する代わりに、いくつかの実装は、異なる視点（vantage point）からレンダリングできるように、オーディオ・オブジェクトの放射パターンに対応するオーディオ・データをエンコードすることに関わる。いくつかの事例では、放射パターンは、時間および周波数によって変化する放射パターンであってもよい。エンコード・プロセスに入力されるオーディオ・データは、いくつかの事例では、方向性マイクロフォンからのオーディオ・データの複数のチャネル（たとえば、4、6、8、20またはそれ以上のチャネル）を含んでいてもよい。各チャネルは、音源の周囲の空間内の特定の位置にあるマイクロフォンからのデータに対応してもよく、それから放射パターンを導出することができる。各マイクロフォンから音源への相対方向が既知であるとすると、これは、結果として得られる球面関数が、各入力マイクロフォン信号の種々のサブバンドにおける観察されるエネルギー・レベルに最もよく一致するよう、球面調和関数係数の集合の数値的な当てはめ〔フィッティング〕によって達成できる。たとえば、Nicolas TsingosおよびPradeep Kumar Govindarajuの国際出願第PCT/US2017/053946号「Method, Systems and Apparatus for Determining Audio Representations」に関連して記載されている方法およびシステムを参照されたい。同出願はここに参照によって組み込まれる。他の例では、オーディオ・オブジェクトの放射パターンは、数値シミュレーションによって決定されてもよい。

単にサンプル・レベルで方向性マイクロフォンからのオーディオ・データをエンコードする代わりに、いくつかの実装は、モノフォニック・オーディオ・オブジェクト信号を、エンコードされたオーディオ・オブジェクトの少なくともいくつかについての放射パターンを表わす対応する放射パターン・メタデータとともに、エンコードすることに関わる。いくつかの実装では、放射パターン・メタデータは球面調和関数データとして表現されうる。いくつかのそのような実装は、平滑化プロセスおよび／または圧縮／データ削減プロセスに関わってもよい。

図1Aは、一例による、オーディオ・エンコード方法のブロックを示す流れ図である。方法1は、たとえば、一つまたは複数のプロセッサおよび一つまたは複数の非一時的メモリ・デバイスを含む制御システム（図8を参照して後述する制御システム815など）によって実装されてもよい。他の開示される方法と同様に、方法1のすべてのブロックが必ずしも図1Aに示される順序で実行されるわけではない。さらに、代替的な方法は、より多くのブロックまたはより少ないブロックを含みうる。

この例では、ブロック5は、オーディオ・オブジェクトに対応するモノ・オーディオ信号を受領し、また、オーディオ・オブジェクトに対応する放射パターンの表現を受領することに関わる。この実装によれば、放射パターンは、複数のサンプル時間、複数の周波数帯域および複数の方向に対応する音レベルを含む。この例によれば、ブロック10は、モノ・オーディオ信号をエンコードすることに関わる。

図1Aに示される例では、ブロック15は、源放射パターンをエンコードして放射パターン・メタデータを決定することに関わる。この実装によれば、放射パターンの表現をエンコードすることは、放射パターンの表現の球面調和関数変換を決定し、球面調和関数変換を圧縮して、エンコードされた放射パターン・メタデータを得ることに関わる。いくつかの実装では、放射パターンの表現は、規格化された放射パターンを決定するために、周波数毎に、ある方向における入力放射パターンの振幅に対して再スケーリングされてもよい。

いくつかの事例では、球面調和関数変換を圧縮することは、いくつかの高次球面調和関数係数を破棄することに関わってもよい。いくつかのそのような例は、球面調和関数係数の閾値次数より上、たとえば次数3より上、次数4より上、次数5より上の、球面調和関数変換の球面調和関数係数を除去することに関わる。

しかしながら、いくつかの実装は、代替的および／または追加的な圧縮方法に関わってもよい。いくつかのそのような実装によれば、球面調和関数変換を圧縮することは、特異値分解法、主成分分析、離散コサイン変換、データ独立な基底、および／または他の方法に関わってもよい。

いくつかの例によれば、方法1はまた、複数の方向性オーディオ・オブジェクトをオーディオ・オブジェクトのグループまたは「クラスター」としてエンコードすることに関わってもよい。いくつかの実装は、方向性オーディオ・オブジェクトのグループの放射パターンに関するグループ・メタデータをエンコードすることに関わってもよい。いくつかの事例では、複数の方向性オーディオ・オブジェクトは、各オーディオ・オブジェクトの球面調和関数係数の時間変化する、エネルギーで重み付けされた平均に対応する指向性をもつ単一の方向性オーディオ・オブジェクトとしてエンコードされてもよい。いくつかのそのような例において、エンコードされた放射パターン・メタデータは、各周波数帯域についての平均音レベル値に対応するセントロイドを表わしてもよい。たとえば、エンコードされた放射パターン・メタデータ（または関連するメタデータ）は、クラスター内の各方向性オーディオ・オブジェクトの位置の平均であるオーディオ・オブジェクトのクラスターの位置を示してもよい。

図1Bは、一例による、方向性オーディオ・オブジェクトについての、フレームごとの指向性情報を動的にエンコードするためにエンコード・システム100によって実装されうるプロセスのブロックを示す。このプロセスは、たとえば、図8を参照して後述する制御システム815のような制御システムを介して実装されてもよい。エンコード・システム100は、上記で論じたようなモノ・オブジェクト信号に対応しうるモノ・オーディオ信号101を受領してもよい。モノ・オーディオ信号101は、ブロック111でエンコードされ、シリアル化ブロック112に提供されてもよい。

ブロック102では、基準座標系に対する一組の周波数帯域における異なる音レベルでの静的なまたは時間変化する方向性エネルギー・サンプルが処理されうる。基準座標系は、モデル座標空間または世界座標空間のようなある種の座標空間において決定されうる。

ブロック105では、ブロック102からの時間変化する方向性エネルギー・サンプルの周波数依存の再スケーリングが実行されてもよい。一例では、周波数依存の再スケーリングは、以下に記載されるように、図2A～2Cに示される例に従って実行されうる。規格化は、たとえば高周波についての、低周波方向に対する、振幅の再スケーリングに基づいていてもよい。

周波数依存の再スケーリングは、コア・オーディオの想定される捕捉方向に基づいて再規格化されてもよい。そのようなコア・オーディオの想定された捕捉方向は、音源に対する聴取方向を表わしてもよい。たとえば、この聴取方向は、注視方向と呼ばれることができ、ここで、注視方向は、座標系に対してある方向（たとえば、前方方向または後方方向）であってもよい。

ブロック106では、105の再スケーリングされた指向性出力が球面調和関数基底に投影されてもよく、その結果、球面調和関数の係数が与えられる。

ブロック108では、ブロック106の球面係数は、瞬時音レベル107および／または回転ブロック109からの情報に基づいて処理される。瞬時音レベル107は、ある方向において、ある時刻に測定されうる。回転ブロック109からの情報は、時間変化する源配向103の（任意的な）回転を示しうる。一例では、ブロック109において、もともと記録された入力データに対する、源配向における時間依存性の修正を考慮するために、球面係数が調整されることができる。

ブロック108では、コア・オーディオ信号の想定される捕捉方向の方向に対して決定される等化に基づいて、目標レベル決定がさらに実行されてもよい。ブロック108は、目標レベル決定に基づいて等化された一組の回転された球面係数を出力しうる。

ブロック110では、放射パターンのエンコードが、源放射パターンに関連する球面係数の、より小さな部分空間上への投影に基づいていてもよく、その結果、エンコードされた放射パターン・メタデータが得られる。図1Aに示されるように、ブロック110では、SVD分解および圧縮アルゴリズムが、ブロック108によって出力される球面係数に対して実行されてもよい。一例では、ブロック110のSVD分解および圧縮アルゴリズムは、後述する式11～13に関連して説明される原理に従って実行されてもよい。

あるいはまた、ブロック110は、不可逆圧縮につながる空間に球面調和関数表現

を投影するために、主成分分析（PCA）および／またはデータ独立な基底、たとえば2D DCTといった他の方法を利用することに関わってもよい。110の出力は、入力の、より小さい部分空間へのデータの投影、すなわち、エンコードされた放射パターンTを表わす行列Tであってもよい。エンコードされた放射パターンT、エンコードされたコア・モノ・オーディオ信号111、および任意の他のオブジェクト・メタデータ104（たとえば、x,y,z、任意的な源配向など）は、シリアル化ブロック112においてシリアル化されて、エンコードされたビットストリームを出力してもよい。いくつかの例では、放射構造は、各エンコードされたオーディオ・フレームにおいて、以下のビットストリーム・シンタックス構造によって表現されてもよい：
Byte freqBandModePreset （たとえば、広帯域、オクターブ、広帯域、1/3オクターブ、一般）
これは、サブバンドの数Nおよび中心周波数の値を決める）
Byte order （球面調和次数N）
Int * coefficients （(N+1)*(N+1)*K個の値）

そのようなシンタックスは、音源の異なる圧力／強度レベルについての係数の異なる集合を含んでいてもよい。あるいはまた、指向性情報が異なる信号レベルで利用可能であり、源のレベルが再生時にさらに決定できない場合、係数の単一の集合が動的に生成されてもよい。たとえば、そのような係数は、エンコード時におけるオブジェクト・オーディオ信号の時間変化するレベルに基づいて、低レベル係数と高レベル係数との間を補間することによって生成されてもよい。

モノ・オーディオ・オブジェクト信号に対する入力放射パターンは、主応答軸（それが記録された方向または複数の記録の平均でありうる）のような所与の方向に対して「規格化」されてもよく、エンコードされた指向性および最終レンダリングは、この「規格化」と整合する必要がある場合がある。一例では、この規格化はメタデータとして指定されてもよい。一般に、指向性情報が適用されなかった場合にオブジェクトの音色の良好な表現を伝えるであろう、コア・オーディオ信号をエンコードすることが望ましい。

指向性エンコード
本開示のある側面は、係数の数が分解の次数に対して二次で増大するので、指向性情報のための効率的なエンコード方式を実装することに向けられる。指向性情報のための効率的なエンコード方式は、たとえば限定された帯域幅のネットワークを通じた、終点レンダリング装置への、聴覚シーンの最終的な発送送出のために実装されてもよい。

各係数を表現するために16ビットが使用されるとすると、1/3オクターブ帯域での4次の球面調和関数表現は、フレーム当たり25×31～＝12kbitを必要とすることになる。この情報を30Hzでリフレッシュするには、少なくとも400kbpsの伝送ビットレートを必要とし、現在のオブジェクト・ベースのオーディオ・コーデックがオーディオおよびオブジェクト・メタデータの両方を伝送するために現在必要としている以上のものである。一例では、放射パターンは、
G(θ_i,φ_i,ω) 式(1)
によって表現されてもよい。

式(1)において、(θ_i,φ_i)、i∈{1…P}は音響源に対する離散的な余緯度角θ∈[0,π]および方位角φ∈[0,2π)を表わし、Pは離散的な角度の総数を表わし、ωはスペクトル周波数を表わす。図2Aおよび図2Bは、2つの異なる周波数帯域におけるオーディオ・オブジェクトの放射パターンを表わす。図2Aは、たとえば、100～300Hzの周波数帯域におけるオーディオ・オブジェクトの放射パターンを表わしてもよく、図2Bは、たとえば、1kHz～2kHzの周波数帯域における同じオーディオ・オブジェクトの放射パターンを表わしてもよい。低周波数は、比較的、全方向性に近い傾向があるため、図2Aに示される放射パターンは、図2Bに示される放射パターンよりも相対的に円形に近い。図2Aにおいて、G(θ₀,φ₀,ω)は主応答軸200の方向における放射パターンを表わし、一方、G(θ₁,φ₁,ω)は任意の方向205における放射パターンを表わす。

いくつかの例では、放射パターンは、オーディオ・オブジェクトに対応する音源のまわりに物理的に配置された複数のマイクロフォンによって捕捉され、決定されてもよいが、他の例では、放射パターンは、数値シミュレーションを介して決定されてもよい。複数のマイクロフォンの例では、放射パターンは、たとえばライブ記録を反映して、時間的に変化してもよい。放射パターンは、低周波数（たとえば、＜100Hz）、中間周波数（100Hz＜かつ＞1kHz）および高周波数（＞10kHz）を含む多様な周波数で捕捉されうる。放射パターンは、空間表現としても知られることがある。

別の例では、放射パターンは、ある方向における、ある周波数での捕捉された放射パターンG(θ_i,φ_i,ω)に基づく規格化を反映してもよい。たとえば：

式(2)において、G(θ₀,φ₀,ω)は主応答軸の方向における放射パターンを表わす。再び図2Bを参照すると、一例での、放射パターンG(θ_i,φ_i,ω)および規格化された放射パターンH(θ_i,φ_i,ω)を見ることができる。図2Cは、一例による規格化された放射パターンおよび規格化されていない放射パターンの例を示すグラフである。この例では、図2CでH(θ₀,φ₀,ω)と表わされる主応答軸の方向における規格化された放射パターンは、周波数帯域の図示された範囲にわたって、実質的に同じ振幅をもつ。この例では、図2CでH(θ₁,φ₁,ω)と表わされる方向205（図2Aに示されている）における規格化された放射パターンは、図2CでG(θ₁,φ₁,ω)と表わされる規格化されていない放射パターンよりも高い周波数において、相対的に、より高い振幅をもつ。所定の周波数帯域について、放射パターンは、表記上の便宜のために一定であると想定されてもよいが、実際には、たとえば弦楽器で用いられる異なるボーイング技法により、時間とともに変化してもよい。

放射パターン、またはそのパラメトリック表現は、伝送されてもよい。放射パターンの前処理が、その送信に先立って実行されてもよい。一例において、放射パターンまたはパラメトリック表現は、計算アルゴリズムによって前処理されてもよく、アルゴリズムの例は、図1Aに関連して示されている。前処理の後、放射パターンは、たとえば

に基づいて、直交球面基底上で分解されうる。

式(3)において、H(θ_i,φ_i,ω)は前記空間表現を表わし、

は、前記空間表現よりも少ない要素をもつ球面調和関数表現を表わす。H(θ_i,φ_i,ω)と

の間の変換は、たとえば、実の完全規格化された球面調和関数：

を使用することに基づいてもよい。

式(4)において、P_n ^m(x)は陪ルジャンドル多項式、位数m∈{－N…N}、次数n∈{0…N}であり、

である。

他の球面基底が使用されてもよい。離散的なデータに対して球面調和関数変換を実行するための任意の手法が使用されうる。一例では、行列変換

を定義することによって、最小二乗法が使用されてもよく、それにより、球面調和関数表現が空間表現に

として関係付けられる。

式(7)において、

である。球面調和関数表現および／または空間表現は、さらなる処理のために記憶されてもよい。

疑似逆行列

は、形式：

の重み付けされた最小二乗解であってもよい。

正則化された解は、球面サンプルの分布が大量の欠けているデータを含む場合にも適用可能でありうる。欠落データは、（たとえば、マイクロフォンのカバー範囲が不均一であるため）指向性サンプルが利用できない領域または方向に対応しうる。多くの場合、空間的サンプルの分布は十分に一様であり、恒等重み付け行列Wが、受け入れられる結果をもたらす。また、しばしばP≫(N＋1)²であると想定され、球面調和関数表現

は、空間表現

よりも少ない要素を含み、それにより、放射パターン・データを平滑化する不可逆圧縮の第1段階を与える。

ここで、離散的な周波数帯域ω_k、k∈{1…K}について考える。行列H(ω)を積み重ねて、各周波数域が行列の列で表わされるようにすることができる。

すなわち、空間表現H(ω)は、周波数ビン／帯域／セットに基づいて決定されうる。結果として、球面調和関数表現は：

に基づいていてもよい。

式(10)において、

は、球面調和関数領域でのすべての離散周波数についての放射パターンを表わす。

の近隣の列は高度に相関しており、表現における冗長性につながることが予期される。いくつかの実装は、

を

の形の行列因子分解によってさらに分解することに関わる。

いくつかの実施形態は、特異値分解（SVD）を実行することに関わってもよく、ここで、

は左および右の特異行列を表わし、

はその対角線に沿った降順の特異値の行列を表わす。行列Vの情報は、受領または記憶されうる。あるいはまた、主成分分析（PCA）および2D DCTのようなデータ独立な基底を用いて、

を、不可逆圧縮に導く空間に投影してもよい。

O＝(N＋1)²とする。いくつかの例では、圧縮を実現するために、エンコーダは、

に基づく積を計算することにより、より小さな特異値に対応する成分を廃棄してもよい。

式(12)において、

はΣの打ち切りされたコピーを表わす。行列Tは、入力の、より小さな部分空間へのデータの投影を表わしうる。Tは、その後、さらなる処理のために伝送される、エンコードされた放射パターン・データを表わす。デコード、受信側では、いくつかの例では、行列Tが受領されてもよく、

の低ランク近似が

に基づいて再構成されてもよい。式(13)において、

はVの打ち切りされたコピーを表わす。行列Vは、伝送されてもよく、またはデコーダ側で記憶されてもよい。

下記は、打ち切りされた分解ベクトルおよび打ち切りされた右特異ベクトルを伝送するための3つの例である：
１．送信器は、エンコードされた放射Tおよび打ち切りされた右特異ベクトルV'を、各オブジェクトについて独立して送信してもよい。
２．オブジェクトが、たとえば、類似性指標に従ってグループ化されてもよく、UおよびVが複数のオブジェクトのための代表基底として計算されてもよい。よって、エンコードされた放射はオブジェクトごとに伝送でき、UおよびVはオブジェクトのグループごとに伝送されうる。
３．左および右の特異行列UおよびVが、代表的なデータ（たとえば、トレーニング・データ）の大規模なデータベース上であらかじめ計算されてもよく、Vに関する情報が、受信機の側で記憶されてもよい。いくつかのそのような例においては、エンコード化された放射のみが、オブジェクトごとに伝送されてもよい。DCTは、受信機の側で記憶されうる基底のもう一つの例である。

方向性オブジェクトの空間エンコード
複数のオブジェクトを含む複雑な聴覚シーンがエンコードされ伝送されるとき、個々のオブジェクトがより少数の代表的なクラスターで置き換えられる空間的符号化技法を、シーンの聴覚的な知覚を最も良く保存する仕方で適用することが可能である。一般に、音源のグループを代表的な「セントロイド」によって置き換えることは、各メタデータ・フィールドについての集約値／平均値を計算することを必要とする。たとえば、音源のクラスターの位置は、各音源の位置の平均とすることができる。（たとえば、式1～12を参照して）上述したような球面調和関数分解を用いて各源の放射パターンを表現することにより、源のクラスターについての平均放射パターンを構築するために、各源についての各サブバンドにおける係数の集合を線形結合することが可能である。時間を追ってラウドネスまたは球面調和関数係数のエネルギーで重み付けされた平均を計算することによって、もとのシーンをより良く保存する、時間変化する知覚的に最適化された表現を構築することが可能である。

図1Cは、一例によるデコード・システムによって実装されうるプロセスのブロックを示す。図1Cに示されるブロックは、たとえば、一つまたは複数のプロセッサおよび一つまたは複数の非一時的メモリ・デバイスを含むデコード装置の制御システム（図8を参照して後述する制御システム815など）によって実装されてもよい。ブロック150では、メタデータおよびエンコードされたコア・モノ・オーディオ信号が受領され、シリアル化解除されてもよい。シリアル化解除された情報は、オブジェクト・メタデータ151、エンコードされたコア・オーディオ信号、およびエンコードされた球面係数を含んでいてもよい。ブロック152では、エンコードされたコア・オーディオ信号がデコードされてもよい。ブロック153では、エンコードされた球面係数がデコードされてもよい。エンコードされた放射パターン情報は、エンコードされた放射パターンTおよび／または行列Vを含んでいてもよい。行列Vは、

を空間に投影するために使用される方法に依存する。図1Bのブロック110において、SVDアルゴリズムが使用される場合、行列Vは、デコード・システムによって受領されてもよく、記憶されていてもよい。

オブジェクト・メタデータ151は、源から聴取者への相対方向に関する情報を含んでいてもよい。一例では、メタデータ151は、6DoF空間に対する、聴取者の距離および方向ならびに一つまたは複数のオブジェクトの距離および方向に関する情報を含んでもよい。たとえば、メタデータ151は、6DoF空間における源の相対的な回転、距離、および方向に関する情報を含んでいてもよい。クラスター内の複数のオブジェクトの例では、メタデータ・フィールドは、オブジェクトのクラスターの集約値／平均値を反映する代表的な「セントロイド」に関する情報を反映してもよい。

次いで、デコードされたコア・オーディオ信号およびデコードされた球面調和関数係数をレンダラー154がレンダリングしてもよい。一例では、レンダラー154は、オブジェクト・メタデータ151に基づいて、デコードされたコア・オーディオ信号およびデコードされた球面調和関数係数をレンダリングしてもよい。レンダラー154は、メタデータ151からの情報、たとえば、源から聴取者への相対方向に基づいて、放射パターンの球面係数についてのサブバンド利得を決定してもよい。レンダラー154は、次いで、対応するデコードされた放射パターン（単数または複数）の決定されたサブバンド利得、源および／または聴取者の姿勢情報（たとえば、x、y、z、ヨー、ピッチ、ロール）155に基づいて、コア・オーディオ・オブジェクト信号をレンダリングしてもよい。聴取者の姿勢情報は、6DoF空間におけるユーザーの位置および観察方向に対応してもよい。聴取者の姿勢情報は、たとえば光学追跡装置のような、VR再生システムにローカルな源から受信されてもよい。源姿勢情報は、音を出すオブジェクトの、空間における位置および配向に対応する。それはまた、ローカル追跡システムから推測されることもできる。たとえば、ユーザーの手が追跡され、仮想の音を出すオブジェクトを対話的に操作する場合、または追跡される物理的な小道具（prop）／代理（proxy）オブジェクトが使用される場合である。

図3は、オーディオ・データおよびさまざまな型のメタデータを含む階層の例を示す。本明細書に提供される他の図面と同様に、図3に示されるオーディオ・データおよびメタデータの数および型は、単に例として提供されている。いくつかのエンコーダは、図3に示されるオーディオ・データおよびメタデータの完全な集合（データセット345）を提供してもよく、他方、他のエンコーダは、図3に示されるメタデータの一部のみ、たとえば、データセット315のみ、データセット325のみ、またはデータセット335のみを提供してもよい。

この例では、オーディオ・データは、モノフォニック・オーディオ信号301を含む。モノフォニック・オーディオ信号301は、本明細書では時に「コア・オーディオ信号」と呼ばれることがあるものの一例であるが、いくつかの例では、コア・オーディオ信号は、クラスターに含まれる複数のオーディオ・オブジェクトに対応する諸オーディオ信号を含んでいてもよい。

この例では、オーディオ・オブジェクト位置メタデータ305は、デカルト座標として表現される。しかしながら、代替的な例では、オーディオ・オブジェクト位置メタデータ305は、球面座標または極座標のような他の型の座標を介して表現されてもよい。よって、オーディオ・オブジェクト位置メタデータ305は、3自由度（3DoF）位置情報を含んでいてもよい。この例によれば、オーディオ・オブジェクト・メタデータは、オーディオ・オブジェクト・サイズ・メタデータ310を含む。代替的な例では、オーディオ・オブジェクト・メタデータは、一つまたは複数の他の型のオーディオ・オブジェクト・メタデータを含んでいてもよい。

この実装では、データセット315は、モノフォニック・オーディオ信号301、オーディオ・オブジェクト位置メタデータ305、およびオーディオ・オブジェクト・サイズ・メタデータ310を含む。データセット315は、たとえば、ドルビー・アトモス（商標）オーディオ・データ・フォーマットで提供されてもよい。

この例では、データセット315は、任意的なレンダリング・パラメータRをも含む。いくつかの開示される実装によれば、任意的なレンダリング・パラメータRは、データセット315のオーディオ・オブジェクト・メタデータの少なくとも一部が、その「通常」の意味で（たとえば、位置またはサイズのメタデータとして）解釈されるべきか、あるいは指向性メタデータとして解釈されるべきかを示すことができる。いくつかの開示される実装では、「通常」モードは、本明細書では「位置モード」と称されることがあり、代替モードは、本明細書では「指向性モード」と称されることがある。いくつかの例が、図5A～図6を参照して以下に記述される。

この例によれば、配向メタデータ320は、オーディオ・オブジェクトのヨー、ピッチおよびロールを表現するための角度情報を含む。この例では、配向メタデータ320は、ヨー、ピッチ、ロールをΦ、Θ、Ψとして示す。データセット325は、6自由度（6 DoF）のアプリケーションのためにオーディオ・オブジェクトを配向させるのに十分な情報を含む。

この例では、データセット335は、オーディオ・オブジェクト型メタデータ330を含む。いくつかの実装では、オーディオ・オブジェクト型メタデータ330は、対応する放射パターン・メタデータを示すために使用されてもよい。エンコードされた放射パターン・メタデータが、デコードされた放射パターンを決定するために（たとえば、デコーダまたはデコーダからオーディオ・データを受領する装置によって）使用されてもよい。いくつかの例では、オーディオ・オブジェクト型メタデータ330は、本質的に、「私はトランペットです」、「私はバイオリンです」などを示しうる。いくつかの例では、デコード装置は、オーディオ・オブジェクト型および対応する指向性パターンのデータベースへのアクセスを有していてもよい。いくつかの例によれば、データベースは、エンコードされたオーディオ・データと一緒に、またはオーディオ・データの伝送前に、提供されうる。そのようなオーディオ・オブジェクト型メタデータ330は本稿では「データ指向性パターン・データ」と称されることがある。

いくつかの例によれば、オーディオ・オブジェクト型メタデータは、パラメトリック指向性パターン・データを示してもよい。いくつかの例では、オーディオ・オブジェクト型メタデータ330は、指定された電力の余弦関数に対応する指向性パターンを示してもよく、カージオイド関数などを示してもよい。

いくつかの例では、オーディオ・オブジェクト型メタデータ330は、放射パターンが球面調和関数係数の集合に対応することを示してもよい。たとえば、オーディオ・オブジェクト型メタデータ330は、球面調和関数係数340がデータセット345において提供されていることを示してもよい。いくつかのそのような例では、球面調和関数係数340は、たとえば上述したように、球面調和関数係数の時間および／または周波数によって変化する集合であってもよい。そのような情報は、図3に示されるメタデータ階層構造の残りと比較して、最大量のデータを必要とする可能性がある。よって、いくつかのそのような例では、球面調和関数係数340は、モノフォニック・オーディオ信号301および対応するオーディオ・オブジェクト・メタデータとは別個に提供されてもよい。たとえば、球面調和関数係数340は、リアルタイム動作（たとえば、ゲーム、映画、音楽演奏などのリアルタイム・レンダリング動作）が開始される前に、オーディオ・データの送信の開始時に提供されてもよい。

いくつかの実装によれば、再生システムにオーディオを提供する装置のようなデコーダ側の装置は、再生システムの能力を判別し、それらの能力に応じて指向性情報を提供してもよい。たとえば、データセット345全体がデコーダに提供される場合であっても、指向性情報のうちの使用可能な部分のみが、そのようないくつかの実装において、再生システムに提供されてもよい。いくつかの例では、デコード装置は、デコード装置の能力に従って、どの型（単数または複数）の指向性情報を使用するかを決定してもよい。

図4は、一例によるオーディオ・デコード方法のブロックを示す流れ図である。方法400は、たとえば、一つまたは複数のプロセッサおよび一つまたは複数の非一時的メモリ・デバイスを含むデコード装置の制御システム（図8を参照して後述する制御システム815など）によって実装されてもよい。他の開示された方法と同様に、方法400のすべてのブロックが必ずしも図4に示された順序で実行されるわけではない。さらに、代替的な方法は、より多くの、またはより少ないブロックを含んでいてもよい。

この例では、ブロック405は、エンコードされたコア・オーディオ信号、エンコードされた放射パターン・メタデータ、およびエンコードされたオーディオ・オブジェクト・メタデータを受領することに関わる。エンコードされた放射パターン・メタデータは、オーディオ・オブジェクト型メタデータを含んでいてもよい。エンコードされたコア・オーディオ信号は、たとえば、モノフォニック・オーディオ信号を含んでいてもよい。いくつかの例では、オーディオ・オブジェクト・メタデータは、3DoF位置情報、6DoFの位置情報および源配向情報、オーディオ・オブジェクト・サイズ・メタデータなどを含んでいてもよい。オーディオ・オブジェクト・メタデータは、いくつかの事例では、時間的に変化してもよい。

この例では、ブロック410は、エンコードされたコア・オーディオ信号をデコードして、コア・オーディオ信号を決定することを含む。ここで、ブロック415は、エンコードされた放射パターン・メタデータをデコードして、デコードされた放射パターンを決定することを含む。この例では、ブロック420は、他のエンコードされたオーディオ・オブジェクト・メタデータの少なくとも一部をデコードすることに関わる。ここで、ブロック430は、オーディオ・オブジェクト・メタデータ（たとえば、オーディオ・オブジェクト位置、配向および／またはサイズ・メタデータ）およびデコードされた放射パターンに基づいてコア・オーディオ信号をレンダリングすることに関わる。

ブロック415は、特定の実装に依存して、さまざまな型の動作に関わりうる。いくつかの事例では、オーディオ・オブジェクト型メタデータは、データベース指向性パターン・データを示してもよい。エンコードされた放射パターン・メタデータをデコードしてデコードされた放射パターンを決定することは、オーディオ・オブジェクト型および対応する指向性パターン・データを含む指向性データ構造に問い合わせることに関わってもよい。いくつかの例において、オーディオ・オブジェクト型のメタデータは、余弦関数、正弦関数またはカージオイド関数に対応する指向性パターン・データのようなパラメトリック指向性パターン・データを示してもよい。

いくつかの実装によれば、オーディオ・オブジェクト型メタデータは、球面調和関数係数の時間および／または周波数によって変化する集合のような動的な指向性パターン・データを示してもよい。いくつかのそのような実装は、エンコードされたコア・オーディオ信号を受領する前に、動的な指向性パターン・データを受領することに関わってもよい。

いくつかの事例では、ブロック405で受領したコア・オーディオ信号は、クラスターに含まれる複数のオーディオ・オブジェクトに対応するオーディオ信号を含んでいてもよい。いくつかのそのような例によれば、コア・オーディオ信号は、複数の方向性オーディオ・オブジェクトを含みうるオーディオ・オブジェクトのクラスターに基づいていてもよい。ブロック415で決定されたデコードされた放射パターンは、クラスターのセントロイドに対応してもよく、複数の方向性オーディオ・オブジェクトの各方向性オーディオ・オブジェクトの各周波数帯域についての平均値を表わしていてもよい。ブロック430のレンダリング・プロセスは、デコードされた放射データに少なくとも部分的に基づくサブバンド利得をデコードされたコア・オーディオ信号に適用することに関わってもよい。いくつかの例では、コア・オーディオ信号をデコードし、それに指向性処理をデコードして適用した後、信号はさらに、聴取者位置に対してその意図された位置に仮想化されてもよい。それには、オーディオ・オブジェクト位置メタデータおよびヘッドフォンを通じたバイノーラル・レンダリング、再生環境のラウドスピーカーを使用したレンダリング等の既知のレンダリング・プロセスを使用する。

図3を参照して上述したように、いくつかの実装では、オーディオ・データは、レンダリング・パラメータ（図3ではRとして示されている）を伴っていてもよい。レンダリング・パラメータは、ドルビー・アトモス・メタデータのような、少なくとも一部のオーディオ・オブジェクト・メタデータが、通常の仕方で（たとえば、位置またはサイズのメタデータとして）解釈されるべきか、あるいは指向性メタデータとして解釈されるべきかを示しうる。通常モードは「位置モード」と称されることがあり、代替モードは、本明細書では「指向性モード」と称されることがある。よって、いくつかの例では、レンダリング・パラメータは、少なくともいくらかのオーディオ・オブジェクト・メタデータを、スピーカーに対する方向として解釈するか、または部屋もしくは他の再生環境に対する位置として解釈するかを示しうる。そのような実装は、たとえば、以下に説明するように、複数のドライバをもつスマートスピーカーを使用する指向性レンダリングのために特に有用でありうる。

図5Aは、ドラム・シンバルを描いている。この例では、ドラム・シンバル505は、実質的に垂直な主応答軸515を有する指向性パターン510を有する音を発しているところを示されている。指向性パターン510自体も主として垂直であり、主応答軸515からのある程度の広がりがある。

図5Bは、スピーカー・システムの例を示す。この例では、スピーカー・システム525は、上方を含むさまざまな方向に音を放射するように構成された複数のスピーカー／トランスデューサを含む。最上位のスピーカーは、いくつかの事例では、たとえば、高さ／天井スピーカー（z＝1）をシミュレートするために天井から音が反射されるように位置をレンダリングするために、従来のドルビー・アトモスの仕方で（「位置モード」）で使用されることができる。いくつかのそのような事例では、対応するドルビー・アトモス・レンダリングは、特定の位置を有するオーディオ・オブジェクトの知覚を向上させる、追加的な高さ仮想化処理を含んでいてもよい。

他の使用事例では、同じ上方発射スピーカー（単数または複数）を「指向性モード」で動作させることができる。これは、たとえば、図5Aに示される指向性パターン510と同様の指向性パターンを有するドラム、シンボル、または他のオーディオ・オブジェクトの指向性パターンをシミュレートするためである。いくつかのスピーカー・システム525は、所望の指向性パターンの構築を助けることができるビームフォーミングが可能であってもよい。いくつかの例では、特定の位置を有するオーディオ・オブジェクトの知覚を減少させるために、仮想化処理は含まれない。

図6は、一例によるオーディオ・デオード方法のブロックを示す流れ図である。方法600は、たとえば、一つまたは複数のプロセッサおよび一つまたは複数の非一時的メモリ・デバイスを含むデコード装置の制御システム（図8を参照して後述する制御システム815など）によって実装されてもよい。他の開示された方法と同様に、方法600のすべてのブロックが必ずしも図6に示される順序で実行されるわけではない。さらに、代替的な方法は、より多くの、またはより少ないブロックを含んでいてもよい。

この例では、ブロック605は、少なくとも1つのオーディオ・オブジェクトに対応するオーディオ・データを受領することに関わる。該オーディオ・データは、モノフォニック・オーディオ信号、オーディオ・オブジェクト位置メタデータ、オーディオ・オブジェクト・サイズ・メタデータ、およびレンダリング・パラメータを含む。この実装では、ブロック605は、デコード装置のインターフェース・システム（図8のインターフェース・システム810など）を介してこれらのデータを受領することに関わる。いくつかの事例では、オーディオ・データはドルビー・アトモス（商標）フォーマットで受領されてもよい。オーディオ・オブジェクト位置メタデータは、特定の実装に依存して、世界座標またはモデル座標に対応しうる。

この例では、ブロック610は、レンダリング・パラメータが位置モードを示すか指向性モードを示すかを判定することに関わる。図6に示される例では、レンダリング・パラメータが指向性モードを示すと判定される場合、ブロック615において、オーディオ・データは、位置メタデータまたはサイズ・メタデータのうちの少なくとも1つによって示される指向性パターンに従って、再生（たとえば、少なくとも1つのラウドスピーカー、ヘッドフォンなどを介した再生）のためにレンダリングされる。たとえば、指向性パターンは、図5Aに示されるものと同様であってもよい。

いくつかの例では、オーディオ・データのレンダリングは、オーディオ・オブジェクト位置メタデータをオーディオ・オブジェクト配向メタデータとして解釈することに関わってもよい。オーディオ・オブジェクト位置メタデータは、デカルト／x,y,z座標データ、球面座標データ、または円筒座標データであってもよい。オーディオ・オブジェクト配向メタデータは、ヨー、ピッチ、ロールのメタデータであってもよい。

いくつかの実装によれば、オーディオ・データのレンダリングは、オーディオ・オブジェクト・サイズ・メタデータを、指向性パターンに対応する指向性メタデータとして解釈することに関わってもよい。いくつかのそのような例では、オーディオ・データのレンダリングは、複数の指向性パターンを含むデータ構造に問い合わせし、位置メタデータまたはサイズ・メタデータのうちの少なくとも1つを、指向性パターンのうちの一つまたは複数にマッピングすることに関わってもよい。いくつかのそのような実装は、インターフェース・システムを介して、データ構造を受領することに関わってもよい。いくつかのそのような実装によれば、データ構造は、オーディオ・データの前に受領されてもよい。

図7は、複数のオーディオ・オブジェクトをエンコードする一例を示している。一例では、オブジェクト1～nの情報701、702、703などがエンコードされてもよい。一例では、ブロック710において、オーディオ・オブジェクト701～703のための代表的なクラスターが決定されてもよい。一例では、音源のグループは、集計され、代表的な「セントロイド」によって表わされてもよい。これは、メタデータ・フィールドについての集約値／平均値を計算することに関わる。たとえば、音源のクラスターの位置は、各音源の位置の平均とすることができる。ブロック720では、代表的なクラスターについての放射パターンがエンコードされることができる。いくつかの例では、クラスターについての放射パターンは、図1Aまたは図1Bを参照して上述した原理に従ってエンコードされてもよい。

図8は、本明細書に開示された方法の少なくとも一部を実行するように構成されうる装置のコンポーネントの例を示すブロック図である。たとえば、装置805は、図1A～1C、図4、図6および／または図7を参照して上述した方法のうちの一つまたは複数を実行するように構成されてもよい。いくつかの例では、装置805は、パーソナルコンピュータ、デスクトップコンピュータ、またはオーディオ処理を提供するように構成された他のローカル装置であってもよく、またはそれらを含んでいてもよい。いくつかの例では、装置805は、サーバーであってもよく、サーバーを含んでいてもよい。いくつかの例によれば、装置805は、ネットワーク・インターフェースを介してサーバーと通信するように構成されたクライアント装置であってもよい。装置805のコンポーネントは、ハードウェアを介して、非一時的媒体上に記憶されたソフトウェアを介して、ファームウェアを介して、および／またはそれらの組み合わせによって実装されうる。図8および本願で開示されている他の図に示されているコンポーネントの型および数は、単に例示として示されているに過ぎない。代替的な実装は、より多くの、より少数の、および／または異なるコンポーネントを含んでいてもよい。

この例では、装置805は、インターフェース・システム810および制御システム815を含む。インターフェース・システム810は、一つまたは複数のネットワーク・インターフェース、制御システム815とメモリ・システムとの間の一つまたは複数のインターフェース、および／または一つまたは複数の外部装置インターフェース（一つまたは複数のユニバーサル・シリアル・バス（USB）・インターフェースなど）を含んでいてもよい。いくつかの実装では、インターフェース・システム810は、ユーザー・インターフェース・システムを含んでいてもよい。ユーザー・インターフェース・システムは、ユーザーからの入力を受領するように構成されてもよい。いくつかの実装では、ユーザー・インターフェース・システムは、ユーザーにフィードバックを提供するように構成されてもよい。たとえば、ユーザー・インターフェース・システムは、対応するタッチおよび／またはジェスチャー検出システムを有する一つまたは複数のディスプレイを含んでいてもよい。いくつかの例では、ユーザー・インターフェース・システムは、一つまたは複数のマイクロフォンおよび／またはスピーカーを含んでもよい。いくつかの例によれば、ユーザー・インターフェース・システムは、モーター、バイブレータ等のような触覚フィードバックを提供する装置を含んでいてもよい。制御システム815は、たとえば、汎用の単一チップまたはマルチチップ・プロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASICS）、フィールド・プログラマブル・ゲート・アレイ（FPGA）、または他のプログラマブル論理デバイス、離散的なゲートまたはトランジスタ論理、および／または離散的なハードウェア・コンポーネントを含んでいてもよい。

いくつかの例では、装置805は、単一の装置で実装されてもよい。しかしながら、いくつかの実装では、装置805は、複数の装置で実装されてもよい。いくつかのそのような実装では、制御システム815の機能は、複数の装置に含まれてもよい。いくつかの例において、装置805は、別の装置のコンポーネントであってもよい。

本開示のさまざまな例示的実施形態は、ハードウェアまたは特殊目的回路、ソフトウェア、論理、またはそれらの任意の組み合わせで実施されうる。いくつかの側面はハードウェアで実装されてもよく、他の側面はコントローラ、マイクロプロセッサ、または他のコンピューティング装置によって実行されうるファームウェアまたはソフトウェアで実装されてもよい。一般に、本開示はまた、上述の方法を実行するのに好適な装置をも包含すると理解される。たとえば、メモリおよび該メモリに結合されたプロセッサを有する装置（空間レンダラー）であって、プロセッサは、命令を実行し、本開示の実施形態に従って方法を実行するように構成される、装置である。

本開示の例示的な実施形態のさまざまな側面が、ブロック図、フローチャートとして、または何らかの他の絵表現を用いて図示され、記述されているが、本明細書に記載のブロック、装置、システム、技法、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラ、または他のコンピューティング装置、またはそれらの何らかの組み合わせにおいて実装されうることが理解されるであろう。

さらに、フローチャートに示されるさまざまなブロックは、方法ステップとして、および／またはコンピュータ・プログラム・コードの動作から帰結する動作として、および／または関連する機能（単数または複数）を実行するように構築された複数の結合された論理回路素子として見なされてもよい。たとえば、本開示の実施形態は、機械読み取り可能な媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム製品を含む。該コンピュータ・プログラムは、上記の方法を実行するように構成されたプログラム・コードを含む。

本開示の文脈において、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれとの関連で使用するためのプログラムを含む、または記憶することができる任意の有体の媒体でありうる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、もしくは半導体システム、装置、もしくはデバイス、または上記の任意の好適な組み合わせを含みうるが、それらに限定されない。機械読取り可能記憶媒体のより具体的な例は、一つまたは複数のワイヤをもつ電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（RAM）、読み出し専用メモリ（ROM）、消去可能なプログラマブル読み出し専用メモリ（EPROMまたはフラッシュメモリ）、光ファイバー、ポータブルなコンパクトディスク読み出し専用メモリ（CD-ROM）、光記憶装置、磁気記憶装置、または上記の任意の好適な組み合わせを含む。

本開示の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてもよく、プログラム・コードは、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置によって実行されると、フローチャートおよび／またはブロック図に指定された機能／動作を実施させる。プログラム・コードは、完全にコンピュータ上で、一部はコンピュータ上で、スタンドアローンのソフトウェア・パッケージとして、一部はコンピュータ上で一部はリモート・コンピュータ上で、または完全にリモート・コンピュータまたはサーバー上で実行されうる。

さらに、動作が特定の順序で描かれているが、これは、そのような動作が、図示された特定の順序でまたは逐次的な順序で実行されること、または、望ましい結果を達成するために、図示されたすべての動作が実行されることを要求するものとして理解されるべきではない。ある種の状況では、マルチタスクおよび並列処理が有利でありうる。同様に、いくつかの具体的な実装の詳細が上記の議論に含まれているが、これらは、いずれかの発明の範囲、または特許請求されうるものに対する限定と解釈されるべきではなく、むしろ、特定の発明の特定の実施形態に固有でありうる特徴の記述と解釈されるべきである。別々の実施形態の文脈において本明細書に記載されるある種の特徴は、単一の実施形態において組み合わせて実装されてもよい。逆に、単一の実施形態の文脈において記述されるさまざまな特徴は、複数の実施形態において別々に、または任意の好適なサブコンビネーションにおいて実装されてもよい。

明細書および図面は、提案される方法および装置の原理を例解するに過ぎないことを注意しておくべきである。よって、当業者は、本明細書に明示的に記載または図示されていないが、本発明の原理を具現し、その精神および範囲内に含まれるさまざまな構成を考案することができるであろうことが理解されるであろう。さらに、本明細書に記載されたすべての例は、主として、提案された方法および装置の原理、ならびに発明者によって当該技術を促進するために寄与される概念を理解することにおいて読者を助ける教育目的のためのみにはっきりと意図されており、そのように具体的に記載された例および条件に限定されることなく解釈される。さらに、本発明の原理、側面、および実施形態、ならびにそれらの個別的な例を記載する本明細書のすべての陳述は、それらの均等物を包含することが意図されている。

いくつかの態様を記載しておく。
〔態様１〕
方向性オーディオ・データをエンコードする方法であって：
オーディオ・オブジェクトに対応するモノ・オーディオ信号と、該オーディオ・オブジェクトに対応する放射パターンの表現とを受領する段階であって、前記放射パターンは、複数のサンプル時間、複数の周波数帯域および複数の方向に対応する音レベルを含む、段階と；
前記モノ・オーディオ信号をエンコードする段階と；
前記源放射パターンをエンコードして放射パターン・メタデータを決定する段階とを含み、
前記放射パターンをエンコードすることは、前記放射パターンの表現の球面調和関数変換を決定し、該球面調和関数変換を圧縮して、エンコードされた放射パターン・メタデータを得ることを含む、
方法。
〔態様２〕
オーディオ・オブジェクトのクラスターに基づいて複数の方向性オーディオ・オブジェクトをエンコードすることをさらに含んでおり、前記放射パターンは、各周波数帯域についての平均音レベル値を反映するセントロイドを表わす、態様１に記載の方法。
〔態様３〕
前記複数の方向性オーディオ・オブジェクトは、各オーディオ・オブジェクトの球面調和関数係数の時間変動する、エネルギーで重み付けされた平均に対応する指向性をもつ単一の方向性オーディオ・オブジェクトとしてエンコードされる、態様２に記載の方法。
〔態様４〕
前記エンコードされた放射パターン・メタデータは、各オーディオ・オブジェクトの位置の平均である、オーディオ・オブジェクトのクラスターの位置を示す、態様２または３に記載の方法。
〔態様５〕
方向性オーディオ・オブジェクトのグループの放射パターンに関するグループ・メタデータをエンコードすることをさらに含む、態様１ないし４のうちいずれか一項に記載の方法。
〔態様６〕
前記源放射パターンは、周波数毎にある方向における入力放射パターンの振幅に対して再スケーリングされて、規格化された放射パターンが決定される、態様１ないし５のうちいずれか一項に記載の方法。
〔態様７〕
前記球面調和関数変換を圧縮することは、特異値分解法、主成分分析、離散コサイン変換、データ独立な基底、または球面調和関数係数の閾値次数より上の前記球面調和関数変換の球面調和関数係数を消去することのうちの少なくとも一つを含む、態様１ないし６のうちいずれか一項に記載の方法。
〔態様８〕
オーディオ・データをデコードする方法であって：
エンコードされたコア・オーディオ信号、エンコードされた放射パターン・メタデータおよびエンコードされたオーディオ・オブジェクト・メタデータを受領する段階と；
前記エンコードされたコア・オーディオ信号をデコードしてコア・オーディオ信号を決定する段階と；
前記エンコードされた放射パターン・メタデータをデコードして、デコードされた放射パターンを決定する段階と；
前記オーディオ・オブジェクト・メタデータをデコードする段階と；
前記オーディオ・オブジェクト・メタデータおよび前記デコードされた放射パターンに基づいて前記コア・オーディオ信号をレンダリングする段階とを含む、
方法。
〔態様９〕
前記オーディオ・オブジェクト・メタデータは、時間変化する3自由度（3DoF）または6自由度（6DoF）の源配向情報の少なくとも1つを含む、態様８に記載の方法。
〔態様１０〕
前記コア・オーディオ信号は、オブジェクトのクラスターに基づく複数の方向性オブジェクトを含み、前記デコードされた放射パターンは、各周波数帯域についての平均値を反映するセントロイドを表わす、態様８または９に記載の方法。
〔態様１１〕
前記レンダリングは、少なくとも部分的には前記デコードされた放射データに基づいてサブバンド利得を前記デコードされたコア・オーディオ信号に適用することに基づく、態様８ないし１０のうちいずれか一項に記載の方法。
〔態様１２〕
前記エンコードされた放射パターン・メタデータが、球面調和関数係数の時間および周波数によって変化する集合に対応する、態様８ないし１１のうちいずれか一項に記載の方法。
〔態様１３〕
前記エンコードされた放射パターン・メタデータが、オーディオ・オブジェクト型メタデータを含む、態様８ないし１２のうちいずれか一項に記載の方法。
〔態様１４〕
前記オーディオ・オブジェクト型メタデータが、パラメトリック指向性パターン・データを示し、前記パラメトリック指向性パターン・データは、余弦関数、正弦関数またはカージオイド関数からなる関数のリストから選択される一つまたは複数の関数を含む、態様１３に記載の方法。
〔態様１５〕
前記オーディオ・オブジェクト型メタデータは、データベース指向性パターン・データを示し、前記エンコードされた放射パターン・メタデータをデコードしてデコードされた放射パターンを決定することは、オーディオ・オブジェクト型および対応する指向性パターン・データを含む指向性データ構造に問い合わせすることを含む、態様１３に記載の方法。
〔態様１６〕
前記オーディオ・オブジェクト型メタデータは、動的な指向性パターン・データを示し、前記動的な指向性パターン・データは、球面調和関数係数の時間および周波数によって変化する集合に対応する、態様１３に記載の方法。
〔態様１７〕
前記エンコードされたコア・オーディオ信号を受領する前に、前記動的な指向性パターン・データを受領することをさらに含む、態様１６に記載の方法。
〔態様１８〕
インターフェース・システム；および
制御システムを有するオーディオ・デコード装置であって、
前記制御システムは：
少なくとも1つのオーディオ・オブジェクトに対応するオーディオ・データを、前記インターフェース・システムを介して受領する段階であって、前記オーディオ・データは、モノフォニック・オーディオ信号、オーディオ・オブジェクト位置メタデータ、オーディオ・オブジェクト・サイズ・メタデータおよびレンダリング・パラメータを含む、段階と；
前記レンダリング・パラメータが位置モードを示すか指向性モードを示すかを判定し；前記レンダリング・パラメータが指向性モードを示すと判定すると、前記位置メタデータまたは前記サイズ・メタデータの少なくとも一方によって示される指向性パターンに従って、少なくとも1つのラウドスピーカーを介した再生のために前記オーディオ・データをレンダリングする段階とを実行するよう構成されている、
装置。
〔態様１９〕
前記オーディオ・データをレンダリングすることは、前記オーディオ・オブジェクト位置メタデータをオーディオ・オブジェクト配向メタデータとして解釈することを含む、態様１８に記載の装置。
〔態様２０〕
前記オーディオ・オブジェクト位置メタデータは、x,y,z座標データ、球面座標データまたは円筒座標データのうちの少なくとも一つを含み、前記オーディオ・オブジェクト配向メタデータは、ヨー、ピッチ、およびロール・データを含む、態様１９に記載の装置。
〔態様２１〕
前記オーディオ・データのレンダリングは、前記オーディオ・オブジェクト・サイズ・メタデータを、前記指向性パターンに対応する指向性メタデータとして解釈することを含む、態様１８ないし２０のうちいずれか一項に記載の装置。
〔態様２２〕
前記オーディオ・データをレンダリングすることは、複数の指向性パターンを含むデータ構造に問い合わせし、前記位置メタデータまたは前記サイズ・メタデータの少なくとも一方を前記指向性パターンのうちの一つまたは複数にマッピングすることを含む、態様１８ないし２１のうちいずれか一項に記載の装置。
〔態様２３〕
前記制御システムは、前記インターフェース・システムを介して前記データ構造を受領するように構成されている、態様２２に記載の装置。
〔態様２４〕
前記データ構造は、前記オーディオ・データに先立って受領される、態様２３に記載の装置。
〔態様２５〕
前記オーディオ・データはドルビー・アトモス・フォーマットで受領される、態様１８ないし２４のうちいずれか一項に記載の装置。
〔態様２６〕
前記オーディオ・オブジェクト位置メタデータは、世界座標またはモデル座標に対応する、態様１８ないし２５のうちいずれか一項に記載の装置。

Claims

オーディオ・データをデコードする方法であって：
エンコードされたコア・オーディオ信号、エンコードされた放射パターン・メタデータおよびエンコードされたオーディオ・オブジェクト・メタデータを受領する段階であって、前記オーディオ・オブジェクト・メタデータは、6DoFの源配向情報を含む、段階と；
前記エンコードされたコア・オーディオ信号をデコードしてコア・オーディオ信号を決定する段階と；
前記エンコードされた放射パターン・メタデータをデコードして、デコードされた放射パターンを決定する段階と；
前記オーディオ・オブジェクト・メタデータをデコードする段階と；
前記オーディオ・オブジェクト・メタデータおよび前記デコードされた放射パターンに基づいて前記コア・オーディオ信号をレンダリングする段階とを含む、
方法。
前記コア・オーディオ信号は、オブジェクトのクラスターに基づく複数の方向性オブジェクトを含み、前記デコードされた放射パターンは、各周波数帯域についての平均値を反映するセントロイドを表わす、請求項１に記載の方法。
前記エンコードされた放射パターン・メタデータが、球面調和関数係数の時間および周波数によって変化する集合に対応する、請求項１に記載の方法。
前記エンコードされた放射パターン・メタデータが、オーディオ・オブジェクト型メタデータを含む、請求項１に記載の方法。
前記オーディオ・オブジェクト型メタデータが、パラメトリック指向性パターン・データを示し、前記パラメトリック指向性パターン・データは、余弦関数、正弦関数またはカージオイド関数からなる関数のリストから選択される一つまたは複数の関数を含む
請求項４に記載の方法。
前記オーディオ・オブジェクト型メタデータが、動的な指向性パターン・データを示し、前記動的な指向性パターン・データは、球面調和関数係数の時間および周波数によって変化する集合に対応する、
請求項４に記載の方法。
前記エンコードされたコア・オーディオ信号を受領する前に、前記動的な指向性パターン・データを受領することをさらに含む、請求項６に記載の方法。
前記レンダリングは、少なくとも部分的には前記デコードされた放射パターンに基づいてサブバンド利得を前記デコードされたコア・オーディオ信号に適用することに基づく、請求項１に記載の方法。
前記オーディオ・オブジェクト型メタデータは、データベース指向性パターン・データを示し、前記エンコードされた放射パターン・メタデータをデコードしてデコードされた放射パターンを決定することは、オーディオ・オブジェクト型および対応する指向性パターン・データを含む指向性データ構造に問い合わせすることを含む、請求項４に記載の方法。
一つまたは複数のプロセッサによって実行されると一つまたは複数のプロセッサに請求項１に記載の方法を実行させる命令を記憶している、非一時的なコンピュータ読み取り可能な媒体。
インターフェース・システム；および
制御システムを有するオーディオ・デコード装置であって、
前記制御システムは：
少なくとも1つのオーディオ・オブジェクトに対応するオーディオ・データを、前記インターフェース・システムを介して受領する段階であって、前記オーディオ・データは、モノフォニック・オーディオ信号、オーディオ・オブジェクト位置メタデータ、オーディオ・オブジェクト・サイズ・メタデータおよびレンダリング・パラメータを含み、前記オーディオ・オブジェクト位置メタデータは、6DoFの源配向情報を含む、段階と；
前記レンダリング・パラメータが位置モードを示すか指向性モードを示すかを判定し；前記レンダリング・パラメータが指向性モードを示すと判定すると、前記オーディオ・オブジェクト位置メタデータまたは前記オーディオ・オブジェクト・サイズ・メタデータの少なくとも一方によって示される指向性パターンに従って、少なくとも1つのラウドスピーカーを介した再生のために前記オーディオ・データをレンダリングする段階とを実行するよう構成されている、
装置。