JP6676801B2

JP6676801B2 - マルチチャンネル音声コンテンツを表すビットストリームを生成する方法、およびデバイス

Info

Publication number: JP6676801B2
Application number: JP2019038692A
Authority: JP
Inventors: ディパンジャン・セン; マーティン・ジェームス・モレル; ニルス・ガンザー・ペーターズ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-02-08
Filing date: 2019-03-04
Publication date: 2020-04-08
Anticipated expiration: 2034-02-07
Also published as: UA118342C2; RU2661775C2; KR102182761B1; PH12015501587B1; AU2014214786A1; CN104981869A; MY186004A; SG11201505048YA; EP2954521B1; CA2896807A1; ZA201506576B; CN104981869B; JP2016510435A; EP2954521A1; JP2019126070A; IL239748B; KR20190115124A; PH12015501587A1; WO2014124261A1; US20140226823A1

Description

[0001]本出願は、２０１３年２月８日に出願された米国仮出願第６１／７６２，７５８号の便益を主張する。

[0002]本開示は、音声コーディングに関し、より詳しくは、コーディングされた音声データを指定するビットストリームに関する。

[0003]音声コンテンツの作成の間、音響技師は、音声コンテンツを再現するために使用されるスピーカーの目標構成に合わせて音声コンテンツを調整しようとして特定のレンダラーを使用して音声コンテンツをレンダリングすることもある。言い換えれば、音響技師は、音声コンテンツをレンダリングし、目標とされる構成に配置されたスピーカーを使用してレンダリングされた音声コンテンツを再生することもある。音響技師は次いで、音声コンテンツの様々な態様をリミックスし、リミックスされた音声コンテンツをレンダリングし、目標とされる構成に配置されたスピーカーを使用してレンダリングされ、リミックスされた音声コンテンツをふたたび再生することもある。音響技師は、ある芸術的意図が音声コンテンツによって提供されるまで、このように繰り返すこともある。このようにして、音響技師は、ある芸術的意図を提供するまたはさもなければ再生中にある音場を提供する音声コンテンツを作成することもある（たとえば、音声コンテンツと一緒に上映される映像コンテンツと合わせるために）。

[0004]一般に、音声データを表すビットストリームで音声レンダリング情報を指定するための技法が、述べられる。言い換えれば、本技法は、音声コンテンツ作成中に使用される音声レンダリング情報を再生デバイスに信号伝達するための方法を提供することができ、その再生デバイスは次いで、音声コンテンツをレンダリングするために音声レンダリング情報を使用することができる。このようにレンダリング情報を提供することは、再生デバイスが、音響技師によって意図されたように音声コンテンツをレンダリングし、それによって芸術的意図がリスナーによって潜在的に理解されるように、音声コンテンツの適切な再生を潜在的に確実にすることを可能にする。言い換えれば、音響技師によってレンダリング中に使用されるレンダリング情報は、本開示で述べられる技法に従って提供され、その結果音声再生デバイスは、音響技師によって意図されたように音声コンテンツをレンダリングするためにレンダリング情報を利用することができ、それによって、この音声レンダリング情報を提供しないシステムと比較して、音声コンテンツの作成中と再生中の両方でのより一貫した体験を確実にする。

[0005]一態様では、マルチチャンネル音声コンテンツを表すビットストリームを生成する方法であって、本方法は、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を指定することを備える。

[0006]別の態様では、マルチチャンネル音声コンテンツを表すビットストリームを生成するように構成されるデバイスであって、本デバイスは、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を指定するように構成される１つまたは複数のプロセッサを備える。

[0007]別の態様では、マルチチャンネル音声コンテンツを表すビットストリームを生成するように構成されるデバイスであって、本デバイスは、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を指定するための手段と、音声レンダリング情報を記憶するための手段とを備える。

[0008]別の態様では、非一時的コンピュータ可読記憶媒体は、実行されるとき、１つまたは複数のプロセッサに、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を指定させる命令をその上に記憶している。

[0009]別の態様では、ビットストリームからマルチチャンネル音声コンテンツをレンダリングする方法であって、本方法は、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を決定することと、音声レンダリング情報に基づいて複数のスピーカーフィード（speaker feed）をレンダリングすることとを備える。

[0010]別の態様では、ビットストリームからマルチチャンネル音声コンテンツをレンダリングするように構成されるデバイスであって、本デバイスは、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を決定し、音声レンダリング情報に基づいて複数のスピーカーフィードをレンダリングするように構成される１つまたは複数のプロセッサを備える。

[0011]別の態様では、ビットストリームからマルチチャンネル音声コンテンツをレンダリングするように構成されるデバイスであって、本デバイスは、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を決定するための手段と、音声レンダリング情報に基づいて複数のスピーカーフィードをレンダリングするための手段とを備える。

[0012]別の態様では、非一時的コンピュータ可読記憶媒体は、実行されるとき、１つまたは複数のプロセッサに、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を決定させ、音声レンダリング情報に基づいて複数のスピーカーフィードをレンダリングする命令をその上に記憶している。

[0013]本技法の１つまたは複数の態様の詳細は、付随する図面および以下の説明で明らかにされる。これらの技法の他の特徴、目的、および利点は、説明および図面、ならびに特許請求の範囲から明らかとなる。

[0014]様々な次数および階数の球面調和基底関数を例示する図。様々な次数および階数の球面調和基底関数を例示する図。様々な次数および階数の球面調和基底関数を例示する図。 [0015]本開示で述べられる技法の様々な態様を実施することができるシステムを例示する図。 [0016]本開示で述べられる技法の様々な態様を実施することができるシステムを例示する図。 [0017]本開示で述べられる技法の様々な態様を行うことができる別のシステム５０を例示するブロック図。 [0018]本開示で述べられる技法の様々な態様を行うことができる別のシステム６０を例示するブロック図。 [0019]本開示で述べられる技法に従って形成されるビットストリーム３１Ａを例示する図。本開示で述べられる技法に従って形成されるビットストリーム３１Ｂを例示する図。本開示で述べられる技法に従って形成されるビットストリーム３１Ｃを例示する図。本開示で述べられる技法に従って形成されるビットストリーム３１Ｄを例示する図。 [0020]本開示で述べられる技法の様々な態様を行う際の、図４〜図８Ｄの例で示されるシステム２０、３０、５０および６０の１つなどのシステムの動作例を示すフローチャート。

[0021]サラウンド音響の発展は、今日では娯楽のための多くの出力フォーマットを利用可能にしている。そのようなサラウンド音響フォーマットの例は、一般的な５．１フォーマット（それは、次の６つのチャンネル、フロントレフト（ＦＬ）、フロントライト（ＦＲ）、センターまたはフロントセンター、バックレフトまたはサラウンドレフト、バックライトまたはサラウンドライト、および低周波効果（ＬＦＥ）を含む）、成長中の７．１フォーマット、および来たる２２．２フォーマット（たとえば、超高精細テレビジョン標準規格で使用するための）を含む。さらなる例は、球面調和アレイのためのフォーマットを含む。

[0022]将来のＭＰＥＧ符号化器への入力は、オプションとして３つの可能性があるフォーマット、（ｉ）従来のチャンネルベースの音声、それは、事前に指定された位置でのラウドスピーカーを通じて再生されることを意図されている、（ｉｉ）オブジェクトベースの音声、それは、それらの位置座標（他の情報の中で）を含有する関連メタデータを有する単一の音声オブジェクトのための離散パルスコード変調（ＰＣＭ）データを含む、および（ｉｉｉ）情景ベースの音声、それは、球面調和基底関数の係数（また「球面調和係数」またはＳＨＣとも呼ばれる）を使用して音場を表すことを含む、の１つである。

[0023]市場には様々な「サラウンド音響」フォーマットがある。それらは、たとえば５．１ホームシアターシステム（それは、ステレオを越えてリビングルームに入り込むという観点から最も成功している）からＮＨＫ（ニッポンホーソーキョウカイまたは日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ制作者（たとえば、ハリウッドスタジオ）は、一度に映画のためのサウンドトラックを作成したいと思い、各スピーカー構成のためにサウンドトラックをリミックスする努力を費やしたくないと思う。最近、標準化委員会は、標準化されたビットストリームへの符号化と、スピーカーの幾何学的配置およびレンダラーの位置での音響条件に適合可能で、非依存の後続の復号とを提供するための方法を考えている。

[0024]コンテンツ制作者にそのような柔軟性を提供するために、要素の階層的なセットが、音場を表すために使用されてもよい。要素の階層的なセットは、より低く順序付けられた要素の基本セットが、モデル化された音場の完全な表現を提供するように、その中の要素が順序付けられる要素のセットを指してもよい。セットが、より高次の要素を含むように拡張されると、表現は、より詳細なものになる。

[0025]要素の階層的なセットの一例は、球面調和係数（ＳＨＣ）のセットである。次の式は、ＳＨＣを使用する音場の記述または表現を示す。

この式は、音場の任意の点｛ｒ_r、θ_r、φ_r｝における圧力ｐ_iが、ＳＨＣ

によって一意的に表され得ることを示す。ここで、

であり、ｃは、音速（約３４３ｍ／ｓ）であり、｛ｒ_r、θ_r、φ_r｝は、基準点（または観測点）であり、Ｊ_n（・）は、次数ｎの球ベッセル関数であり、

は、次数ｎおよび階数ｍの球面調和基底関数である。角括弧中の項は、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換などの、様々な時間・周波数変換によって近似され得る信号の周波数領域表現（すなわち、Ｓ｛ω、ｒ_r、θ_r、φ_r｝）であることが、認識され得る。階層的なセットの他の例は、ウェーブレット変換係数のセット、および多重分解能基底関数の係数の他のセットを含む。

[0026]図１は、ゼロ次球面調和基底関数１０と、一次球面調和基底関数１２Ａ〜１２Ｃと、二次球面調和基底関数１４Ａ〜１４Ｅとを例示する図である。次数は、行１６Ａ〜１６Ｃとして示される、表の行によって識別され、行１６Ａは、ゼロ次を指し、行１６Ｂは、一次を指し、行１６Ｃは、二次を指す。階数は、列１８Ａ〜１８Ｅとして示される、表の列によって識別され、列１８Ａは、ゼロ階を指し、列１８Ｂは、一階を指し、列１８Ｃは、負の一階を指し、列１８Ｄは、二階を指し、列１８Ｅは、負の二階を指す。ゼロ次球面調和基底関数１０に対応するＳＨＣは、音場のエネルギーを指定すると考えられてもよく、一方残りのより高次の球面調和基底関数（たとえば、球面調和関数１２Ａ〜１２Ｃおよび１４Ａ〜１４Ｅ）に対応するＳＨＣは、そのエネルギーの方向を指定してもよい。

[0027]図２は、ゼロ次（ｎ＝０）から四次（ｎ＝４）までの球面調和基底関数を例示する図である。図に見られるように、各次数について、図示されるがしかし例示目的を容易にするために図２の例では明確に気付かれない階数ｍの拡張がある。

[0028]図３は、ゼロ次（ｎ＝０）から四次（ｎ＝４）までの球面調和基底関数を例示する別の図である。図３では、球面調和基底関数は、次数と階数の両方が示されて三次元座標空間で示される。

[0029]いずれにしても、ＳＨＣ

は、様々なマイクロフォンアレイ構成によって物理的に取得され得る（たとえば、記録され得る）か、または別法として、それらは、音場のチャンネルベースのまたはオブジェクトベースの記述から導出され得る。前者は、符号化器への情景ベースの音声入力を表す。たとえば、１＋２⁴（２５、したがって四次）係数を含む四次表現が、使用されてもよい。

[0030]これらのＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々の音声オブジェクトに対応する音場についての係数

は、

として表されてもよく、ただしｉは、

であり、

は、次数ｎの球ハンケル関数（第二種の）であり、｛ｒ_s、θ_s、φ_s｝は、オブジェクトの位置である。周波数の関数としてのソースエネルギーｇ（ω）を知ること（たとえば、ＰＣＭストリームに高速フーリエ変換を行うなどの、時間・周波数解析技法を使用して）は、我々が各ＰＣＭオブジェクトとその位置とをＳＨＣ

に転換することを可能にする。さらに、各オブジェクトについての

係数は加法的であることが、示され得る（上記は、線形直交分解であるので）。このようにして、多数のＰＣＭオブジェクトが、

係数によって表され得る（たとえば、個々のオブジェクトについての係数ベクトルの和として）。本質的に、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含有し、上記は、観測点｛ｒ_r、θ_r、φ_r｝の近くでの、個々のオブジェクトから音場全体の表現への変換を表す。残りの図は、オブジェクトベースおよびＳＨＣベースの音声コーディングという文脈において以下で述べられる。

[0031]図４は、音声データを表すビットストリームでレンダリング情報を信号伝達するために本開示で述べられる技法を行うことができるシステム２０を例示するブロック図である。図４の例で示されるように、システム２０は、コンテンツ制作者２２とコンテンツ消費者２４とを含む。コンテンツ制作者２２は、コンテンツ消費者２４などのコンテンツ消費者による消費のためのマルチチャンネル音声コンテンツを生成することができる映画スタジオまたは他のエンティティを表してもよい。しばしば、このコンテンツ制作者は、映像コンテンツと併せて音声コンテンツを生成する。コンテンツ消費者２４は、マルチチャンネル音声コンテンツを再生する能力がある音声再生システムの任意の形を指してもよい音声再生システム３２を所有するまたはそれにアクセスできる個人を表す。図４の例では、コンテンツ消費者２４は、音声再生システム３２を含む。

[0032]コンテンツ制作者２２は、音声レンダラー２８と音声編集システム３０とを含む。音声レンダラー２６は、スピーカーフィード（それはまた、「ラウドスピーカーフィード」、「スピーカー信号」、または「ラウドスピーカー信号」と呼ばれることもある）をレンダリングするまたはさもなければ生成する音声処理ユニットを表してもよい。各スピーカーフィードは、マルチチャンネル音声システムの特定のチャンネルについて音を再現するスピーカーフィードに対応してもよい。図４の例では、レンダラー３８は、５．１、７．１または２２．２サラウンド音響スピーカーシステムでの５、７または２２個のスピーカーの各々についてスピーカーフィードを生成する、従来の５．１、７．１または２２．２サラウンド音響フォーマットについてスピーカーフィードをレンダリングしてもよい。別法として、レンダラー２８は、上で論じられたソース球面調和係数の特性を所与として、任意の数のスピーカーを有する任意のスピーカー構成についてソース球面調和係数からスピーカーフィードをレンダリングするように構成されてもよい。レンダラー２８は、このように、スピーカーフィード２９として図４で示される、いくつかのスピーカーフィードを生成することができる。

[0033]コンテンツ制作者２２は、編集プロセスの間、高忠実度を有さないまたは納得のいくサラウンド音響体験を提供しない音場の態様を識別しようとしてスピーカーフィードに耳を傾けながら、スピーカーフィードを生成するために球面調和係数２７（「ＳＨＣ２７」）をレンダリングしてもよい。コンテンツ制作者２２は次いで、ソース球面調和係数を編集してもよい（しばしば間接的に、ソース球面調和係数が上で述べられたように導出され得る、異なるオブジェクトの操作を通じて）。コンテンツ制作者２２は、球面調和係数２７を編集するために音声編集システム３０を用いてもよい。音声編集システム３０は、音声データを編集し、１つまたは複数のソース球面調和係数としてこの音声データを出力する能力がある任意のシステムを表す。

[0034]編集プロセスが、完了すると、コンテンツ制作者２２は、球面調和係数２７に基づいてビットストリーム３１を生成してもよい。すなわち、コンテンツ制作者２２は、ビットストリーム生成デバイス３６を含み、それは、ビットストリーム３１を生成する能力がある任意のデバイスを表してもよい。場合によっては、ビットストリーム生成デバイス３６は、球面調和係数２７を帯域幅圧縮し（一例として、エントロピー符号化を通じて）、ビットストリーム３１を形成するために認められたフォーマットで球面調和係数２７のエントロピー符号化バージョンを配置する符号化器を表してもよい。他の場合には、ビットストリーム生成デバイス３６は、一例としてマルチチャンネル音声コンテンツまたはその派生物を圧縮するために従来の音声サラウンド音響符号化プロセスのそれらに似たプロセスを使用して、マルチチャンネル音声コンテンツ２９を符号化する音声符号化器（おそらく、ＭＰＥＧサラウンド、またはその派生物などの、既知の音声コーディング標準で準拠するもの）を表してもよい。圧縮されたマルチチャンネル音声コンテンツ２９は次いで、コンテンツ２９を帯域幅圧縮するためにエントロピー符号化されまたはある他の方法でコーディングされ、ビットストリーム３１を形成するために合意したフォーマットに従って配置されてもよい。ビットストリーム３１を形成するために直接圧縮されようと、レンダリングされ、次いでビットストリーム３１を形成するために圧縮されようと、コンテンツ制作者２２は、コンテンツ消費者２４にビットストリーム３１を送信することができる。

[0035]図４ではコンテンツ消費者２４に直接送信されるとして示されるが、コンテンツ制作者２２は、コンテンツ制作者２２とコンテンツ消費者２４との間に位置付けられる中間デバイスにビットストリーム３１を出力してもよい。この中間デバイスは、このビットストリームを要求することもあるコンテンツ消費者２４への後の配送のためにビットストリーム３１を記憶することができる。中間デバイスは、ファイルサーバー、ウェブサーバー、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または音声復号器による後の取出しのためにビットストリーム３１を記憶する能力がある任意の他のデバイスを備えてもよい。別法として、コンテンツ制作者２２は、コンパクトディスク、デジタルビデオディスク、高精細ビデオディスクまたはその大部分がコンピュータによって読み出される能力があり、したがってコンピュータ可読記憶媒体と呼ばれることもある他の記憶媒体などの、記憶媒体にビットストリーム３１を記憶してもよい。この文脈において、送信チャンネルは、これらの媒体に記憶されたコンテンツがそれによって送信される、それらのチャンネルを指してもよい（小売店と他の店ベースの配送機構とを含んでもよい）。いずれにしても、本開示の技法はしたがって、この点において図４の例に限定されるべきでない。

[0036]図４の例でさらに示されるように、コンテンツ消費者２４は、音声再生システム３２を含む。音声再生システム３２は、マルチチャンネル音声データを再生する能力がある任意の音声再生システムを表してもよい。音声再生システム３２は、いくつかの異なるレンダラー３４を含んでもよい。レンダラー３４は、異なる形のレンダリングをそれぞれ提供してもよく、ただし異なる形のレンダリングは、ベクトルベースの振幅パニング（ＶＢＡＰ）を行う様々な方法の１つもしくは複数、距離ベースの振幅パニング（ＤＢＡＰ）を行う様々な方法の１つもしくは複数、単純なパニングを行う様々な方法の１つもしくは複数、近接場補償（ＮＦＣ）フィルタリングを行う様々な方法の１つもしくは複数および／または波動場合成を行う様々な方法の１つもしくは複数を含んでもよい。

[0037]音声再生システム３２はさらに、抽出デバイス３８を含んでもよい。抽出デバイス３８は、一般にビットストリーム生成デバイス３６のそれに対して相反的なこともあるプロセスを通じて球面調和係数２７’（「ＳＨＣ２７’」、それは、球面調和係数２７の変更形または複製を表すこともある）を抽出する能力がある任意のデバイスを表してもよい。いずれにしても、音声再生システム３２は、球面調和係数２７’を受け取ることができる。音声再生システム３２は次いで、レンダラー３４の１つを選択してもよく、それは次いで、いくつかのスピーカーフィード３５（例示目的を容易にするために図４の例では示されない、音声再生システム３２に電気的にまたはおそらくワイヤレスで結合されるラウドスピーカーの数に対応する）を生成するために球面調和係数２７’をレンダリングする。

[0038]典型的には、音声再生システム３２は、音声レンダラー３４のいずれか１つを選択してもよく、ビットストリーム３１が受け取られるソース（数例を提供するために、ＤＶＤプレーヤー、ブルーレイ（登録商標）プレーヤー、スマートフォン、タブレットコンピュータ、ゲーム機、およびテレビ受像機などの）に応じて音声レンダラー３４の１つまたは複数を選択するように構成されてもよい。音声レンダラー３４のいずれか１つが、選択されてもよいが、しばしばコンテンツを制作するときに使用された音声レンダラーは、コンテンツが、音声レンダラーのこの１つ、すなわち図４の例では音声レンダラー２８を使用してコンテンツ制作者２２によって制作されたという事実に起因して、レンダリングのより良い（おそらく最良の）形を提供する。同じまたは少なくとも近い（レンダリングの形の観点から）、音声レンダラー３４の１つを選択することは、音場のより良い表現を提供することができ、コンテンツ消費者２４による良いサラウンド音響体験をもたらすことができる。

[0039]本開示で述べられる技法に従って、ビットストリーム生成デバイス３６は、音声レンダリング情報３９（「音声レンダリングインフォ３９」）を含むためにビットストリーム３１を生成してもよい。音声レンダリング情報３９は、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラー、すなわち図４の例では音声レンダラー２８を識別する信号値を含んでもよい。場合によっては、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含む。

[0040]場合によっては、信号値は、ビットストリームが、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含むことを示すインデックスを規定する２つ以上のビットを含む。場合によっては、インデックスが、使用されるとき、信号値はさらに、ビットストリームに含まれるマトリックスの行の数を規定する２つ以上のビットと、ビットストリームに含まれるマトリックスの列の数を規定する２つ以上のビットとを含む。この情報を使用し、二次元マトリックスの各係数が典型的には、３２ビット浮動小数点数によって規定されると仮定すると、マトリックスのビットの観点からのサイズは、行の数、列の数、およびマトリックスの各係数を規定する浮動小数点数のサイズ、すなわちこの例では３２ビットの関数として計算され得る。

[0041]場合によっては、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する。レンダリングアルゴリズムは、ビットストリーム生成デバイス３６と抽出デバイス３８の両方に知られているマトリックスを含んでもよい。すなわち、レンダリングアルゴリズムは、パニング（たとえば、ＶＢＡＰ、ＤＢＡＰもしくは単純なパニング）またはＮＦＣフィルタリングなどの、他のレンダリングステップに加えてマトリックスの適用を含んでもよい。場合によっては、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のマトリックスの１つと関連するインデックスを規定する２つ以上のビットを含む。この場合もやはり、ビットストリーム生成デバイス３６と抽出デバイス３８の両方は、インデックスが複数のマトリックスの特定の１つを一意的に識別することができるように、複数のマトリックスと複数のマトリックスの次数とを示す情報で構成されてもよい。別法として、ビットストリーム生成デバイス３６は、インデックスが複数のマトリックスの特定の１つを一意的に識別することができるように、複数のマトリックスおよび／または複数のマトリックスの次数を規定するビットストリーム３１でのデータを指定してもよい。

[0042]場合によっては、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む。この場合もやはり、ビットストリーム生成デバイス３６と抽出デバイス３８の両方は、インデックスが複数のマトリックスの特定の１つを一意的に識別することができるように、複数のレンダリングアルゴリズムと複数のレンダリングアルゴリズムの次数とを示す情報で構成されてもよい。別法として、ビットストリーム生成デバイス３６は、インデックスが複数のマトリックスの特定の１つを一意的に識別することができるように、複数のマトリックスおよび／または複数のマトリックスの次数を規定するビットストリーム３１でのデータを指定してもよい。

[0043]場合によっては、ビットストリーム生成デバイス３６は、ビットストリームで音声フレームごとに音声レンダリング情報３９を指定する。他の場合には、ビットストリーム生成デバイス３６は、ビットストリームで一回音声レンダリング情報３９を指定する。

[0044]抽出デバイス３８は次いで、ビットストリームで指定される音声レンダリング情報３９を決定してもよい。音声レンダリング情報３９に含まれる信号値に基づいて、音声再生システム３２は、音声レンダリング情報３９に基づいて複数のスピーカーフィード３５をレンダリングしてもよい。上で述べられたように、信号値は、場合によっては、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含んでもよい。この場合、音声再生システム３２は、そのマトリックスで音声レンダラー３４の１つを構成することができ、そのマトリックスに基づいてスピーカーフィード３５をレンダリングするために音声レンダラー３４のこの１つを使用する。

[0045]場合によっては、信号値は、ビットストリームが、球面調和係数２７’をスピーカーフィード３５にレンダリングするために使用されるマトリックスを含むことを示すインデックスを規定する２つ以上のビットを含む。抽出デバイス３８は、インデックスに応答してビットストリームからマトリックスを解析してもよく、そうすると音声再生システム３２は、解析されたマトリックスで音声レンダラー３４の１つを構成し、スピーカーフィード３５をレンダリングするためにレンダラー３４のこの１つを呼び出してもよい。信号値が、ビットストリームに含まれるマトリックスの行の数を規定する２つ以上のビットと、ビットストリームに含まれるマトリックスの列の数を規定する２つ以上のビットとを含むとき、抽出デバイス３８は、インデックスに応答し、上で述べられたように行の数を規定する２つ以上のビットおよび列の数を規定する２つ以上のビットに基づいてビットストリームからマトリックスを解析してもよい。

[0046]場合によっては、信号値は、球面調和係数２７’をスピーカーフィード３５にレンダリングするために使用されるレンダリングアルゴリズムを指定する。これらの場合、音声レンダラー３４のいくつかまたはすべては、これらのレンダリングアルゴリズムを行ってもよい。音声再生デバイス３２は次いで、球面調和係数２７’からスピーカーフィード３５をレンダリングするために、指定されたレンダリングアルゴリズム、たとえば音声レンダラー３４の１つを利用してもよい。

[0047]信号値が、球面調和係数２７’をスピーカーフィード３５にレンダリングするために使用される複数のマトリックスの１つと関連するインデックスを規定する２つ以上のビットを含むとき、音声レンダラー３４のいくつかまたはすべては、この複数のマトリックスを表してもよい。それゆえに、音声再生システム３２は、インデックスと関連する音声レンダラー３４の１つを使用して球面調和係数２７’からスピーカーフィード３５をレンダリングすることができる。

[0048]信号値が、球面調和係数２７’をスピーカーフィード３５にレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含むとき、音声レンダラー３４のいくつかまたはすべては、これらのレンダリングアルゴリズムを表してもよい。それゆえに、音声再生システム３２は、インデックスと関連する音声レンダラー３４の１つを使用して球面調和係数２７’からスピーカーフィード３５をレンダリングすることができる。

[0049]この音声レンダリング情報がビットストリームで指定される頻度に応じて、抽出デバイス３８は、音声フレームごとにまたは一回音声レンダリング情報３９を決定してもよい。

[0050]このように音声レンダリング情報３９を指定することによって、本技法は、コンテンツ制作者２２がマルチチャンネル音声コンテンツ３５を再現しようと意図した仕方に従って、マルチチャンネル音声コンテンツ３５のより良い再現を潜在的にもたらすことができる。結果として、本技法は、より没入できるサラウンド音響またはマルチチャンネル音声体験を提供することができる。

[0051]ビットストリームで信号伝達される（またはさもなければ指定される）として述べられるが、音声レンダリング情報３９は、ビットストリームから分離したメタデータとして、または言い換えれば、ビットストリームから分離したサイド情報（side information）として指定されてもよい。ビットストリーム生成デバイス３６は、本開示で述べられる技法を支援しないそれらの抽出デバイスとのビットストリーム互換性を維持する（それによってそれらの抽出デバイスによる解析の成功を可能にする）ように、ビットストリーム３１から分離したこの音声レンダリング情報３９を生成してもよい。それに応じて、ビットストリームで指定されるとして述べられるが、本技法は、ビットストリーム３１から分離した音声レンダリング情報３９を指定するための他の方法を可能にすることもある。

[0052]その上、ビットストリーム３１でまたはビットストリーム３１から分離したメタデータもしくはサイド情報で信号伝達されるまたはさもなければ指定されるとして述べられるが、本技法は、ビットストリーム生成デバイス３６が、ビットストリーム３１での音声レンダリング情報３９の一部分とビットストリーム３１から分離したメタデータとしての音声レンダリング情報３９の一部分とを指定することを可能にすることもある。たとえば、ビットストリーム生成デバイス３６は、ビットストリーム３１でマトリックスを識別するインデックスを指定してもよく、ただし識別されたマトリックスを含む複数のマトリックスを指定する表は、ビットストリームから分離したメタデータとして指定されてもよい。音声再生システム３２は次いで、インデックスの形でのビットストリーム３１およびビットストリーム３１から分離して指定されたメタデータから音声レンダリング情報３９を決定してもよい。音声再生システム３２は、場合によっては、事前に構成されたまたは構成されるサーバー（音声再生システム３２の製造業者または標準化団体によって提供される可能性が最も高い）から表と任意の他のメタデータとをダウンロードするまたはさもなければ取り出すように構成されてもよい。

[0053]言い換えれば、上で述べられたように、より高次のアンビソニックス（Ambisonics）（ＨＯＡ）は、空間フーリエ変換に基づいて音場の指向性情報を記述するための方法を表すことができる。典型的には、アンビソニックス次数Ｎがより高いほど、空間分解能はより高く、球面調和（ＳＨ）係数の数（Ｎ＋１）＾２はより大きく、データを送信し、記憶するために必要とされる帯域幅はより大きい。

[0054]この記述の潜在的利点は、大部分の任意のラウドスピーカー設定（たとえば、５．１、７．１、２２．２・・・）でこの音場を再現する可能性である。音場記述からＭ個のラウドスピーカー信号への転換は、（Ｎ＋１）²個の入力およびＭ個の出力を有する静的レンダリングマトリックスを介して行われてもよい。その結果、あらゆるラウドスピーカー設定は、専用のレンダリングマトリックスを必要とすることもある。所望のラウドスピーカー設定についてレンダリングマトリックスを計算するためのいくつかのアルゴリズムが、存在することもあり、それらは、ガーゾン（Gerzon）基準などの、ある客観的尺度または主観的尺度について最適化されることもある。不規則なラウドスピーカー設定については、アルゴリズムは、凸最適化などの、反復数値最適化手法に起因して複雑になることもある。待ち時間なしに不規則なラウドスピーカー配置についてレンダリングマトリックスを計算するためには、利用できる十分な計算リソースを有することが、有益なこともある。不規則なラウドスピーカー設定は、建築的制約および美的好みに起因して家庭のリビングルーム環境でよく見られることもある。したがって、最良の音場再現については、そのような状況について最適化されたレンダリングマトリックスが、音場の再現をより正確に可能にすることもあるという点で好まれることもある。

[0055]音声復号器は通常、多くの計算リソースを必要としないので、そのデバイスは、消費者が手軽に使える時間で不規則なレンダリングマトリックスを計算することができないこともある。本開示で述べられる技法の様々な態様は、次のようなクラウドベースの計算手法を使用のために提供することができる。

１．音声復号器は、サーバーにラウドスピーカー座標を（および場合によっては、また校正マイクロフォンで得られるＳＰＬ測定結果も）インターネット接続を介して送ることができる。

２．クラウドベースのサーバーは、レンダリングマトリックスを（および、消費者が後でこれらの異なるバージョンから選ぶことができるように、おそらく少数の異なるバージョンを）計算することができる。

３．サーバーは次いで、インターネット接続を介して音声復号器にレンダリングマトリックスを（または異なるバージョンを）送り返すことができる。

[0056]この手法は、規則的なスピーカー構成または幾何学的配置について通常設計されるレンダリングマトリックスと比較して、より最適な音声再現もまた容易にしながら、製造業者が音声復号器の製造コストを低く保つことを可能にすることもある（強力なプロセッサが、これらの不規則なレンダリングマトリックスを計算するために必要とされないこともあるので）。レンダリングマトリックスを計算するためのアルゴリズムはまた、音声復号器が出荷された後に最適化されてもよく、ハードウェア改訂またはリコールさえものコストを潜在的に低減する。本技法はまた、場合によっては、将来の製品開発にとって有益なこともある消費者製品の異なるラウドスピーカー設定に関する多くの情報を収集することもできる。

[0057]図５は、本開示で述べられる技法の他の態様を行うことができる別のシステム３０を例示するブロック図である。システム２０から分離したシステムとして示されるが、システム２０とシステム３０の両方は、単一システム内に統合されてもよくまたはさもなければ単一システムによって行われてもよい。上で述べられた図４の例では、本技法は、球面調和係数という文脈において述べられた。しかしながら、本技法は、１つまたは複数の音声オブジェクトとして音場をとらえる表現を含む、音場の任意の表現に関して同様に行われてもよい。音声オブジェクトの例は、パルスコード変調（ＰＣＭ）音声オブジェクトを含んでもよい。それゆえに、本技法が、球面調和係数２７および２７’の代わりに音声オブジェクト４１および４１’に関して行われてもよいということを除いて、システム３０は、システム２０に似たシステムを表す。

[0058]この文脈において、音声レンダリング情報３９は、場合によっては、音声オブジェクト４１をスピーカーフィード２９にレンダリングするために使用されるレンダリングアルゴリズム、すなわち図５の例では音声レンダラー２９によって用いられるものを指定してもよい。他の場合には、音声レンダリング情報３９は、音声オブジェクト４１をスピーカーフィード２９にレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックス、すなわち図５の例では音声レンダラー２８と関連するものを規定する２つ以上のビットを含む。

[0059]音声レンダリング情報３９が、音声オブジェクト３９’を複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定するとき、音声レンダラー３４のいくつかまたはすべては、異なるレンダリングアルゴリズムを表してもよくまたはさもなければ行ってもよい。音声再生システム３２は次いで、音声レンダラー３４の１つを使用して音声オブジェクト３９’からスピーカーフィード３５をレンダリングしてもよい。

[0060]音声レンダリング情報３９が、音声オブジェクト３９をスピーカーフィード３５にレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む場合には、音声レンダラー３４のいくつかまたはすべては、異なるレンダリングアルゴリズムを表してもよくまたはさもなければ行ってもよい。音声再生システム３２は次いで、インデックスと関連する音声レンダラー３４の１つを使用して音声オブジェクト３９’からスピーカーフィード３５をレンダリングしてもよい。

[0061]二次元マトリックスを備えるとして上で述べられるが、本技法は、任意の次元のマトリックスに関して実施されてもよい。場合によっては、マトリックスは、実係数を有するだけであってもよい。他の場合には、マトリックスは、複素係数を含んでもよく、ただし虚数成分は、追加の次元を表してもよくまたは導入してもよい。複素係数を有するマトリックスは、いくつかの文脈ではフィルタと呼ばれることもある。

[0062]次の事項は、前述の技法を要約するための１つの方法である。オブジェクトまたはより高次のアンビソニックス（ＨｏＡ）ベースの３Ｄ／２Ｄ音場再構築に関しては、含まれるレンダラーがあってもよい。レンダラーについて２つの用途があってもよい。第１の用途は、局所的音響景観での音場再構築を最適化するために局所的条件（ラウドスピーカーの数および幾何学的配置などの）を考慮するためであってもよい。第２の用途は、たとえば音響芸術家がコンテンツの芸術的意図を提供することができるように、コンテンツ制作時にレンダラーを彼／彼女に提供することであってもよい。取り組まれる１つの潜在的な問題は、コンテンツを制作するためにどのレンダラーが使用されたかについての情報を音声コンテンツと一緒に送信することである。

[0063]本開示で述べられる技法は、（ｉ）レンダラー（典型的なＨｏＡ実施形態では、これは、サイズＮ×Ｍのマトリックスであり、ただしＮは、ラウドスピーカーの数であり、Ｍは、ＨｏＡ係数の数である）の送信または（ｉｉ）周知であるレンダラーの表へのインデックスの送信の１つまたは複数を提供することができる。

[0064]この場合もやはり、ビットストリームで信号伝達される（またはさもなければ指定される）として述べられるが、音声レンダリング情報３９は、ビットストリームから分離したメタデータとしてまたは言い換えれば、ビットストリームから分離したサイド情報として指定されてもよい。ビットストリーム生成デバイス３６は、本開示で述べられる技法を支援しないそれらの抽出デバイスとのビットストリーム互換性を維持する（それによってそれらの抽出デバイスによる解析の成功を可能にする）ように、ビットストリーム３１から分離したこの音声レンダリング情報３９を生成してもよい。それに応じて、ビットストリームで指定されるとして述べられるが、本技法は、ビットストリーム３１から分離した音声レンダリング情報３９を指定するための他の方法を可能にすることもある。

[0065]その上、ビットストリーム３１でまたはビットストリーム３１から分離したメタデータもしくはサイド情報で信号伝達されるまたはさもなければ指定されるとして述べられるが、本技法は、ビットストリーム生成デバイス３６が、ビットストリーム３１での音声レンダリング情報３９の一部分とビットストリーム３１から分離したメタデータとしての音声レンダリング情報３９の一部分とを指定することを可能にすることもある。たとえば、ビットストリーム生成デバイス３６は、ビットストリーム３１でのマトリックスを識別するインデックスを指定してもよく、ただし識別されたマトリックスを含む複数のマトリックスを指定する表は、ビットストリームから分離したメタデータとして指定されてもよい。音声再生システム３２は次いで、インデックスの形でのビットストリーム３１およびビットストリーム３１から分離して指定されるメタデータから音声レンダリング情報３９を決定してもよい。音声再生システム３２は、場合によっては、事前に構成されたまたは構成されるサーバー（音声再生システム３２の製造業者または標準化団体によって提供される可能性が最も高い）から表と任意の他のメタデータとをダウンロードするまたはさもなければ取り出すように構成されてもよい。

[0066]図６は、本開示で述べられる技法の様々な態様を行うことができる別のシステム５０を例示するブロック図である。システム２０およびシステム３０から分離したシステムとして示されるが、システム２０、３０および５０の様々な態様は、単一システム内に統合されてもよくまたはさもなければ単一システムによって行われてもよい。システム５０が、音声オブジェクト４１に似た音声オブジェクトおよびＳＨＣ２７に似たＳＨＣの１つまたは複数を表してもよい音声コンテンツ５１に関して動作してもよいということを除いて、システム５０は、システム２０および３０と同様であってもよい。加えて、システム５０は、図４および図５の例に関して上で述べられたようにビットストリーム３１で音声レンダリング情報３９を信号伝達しなくてもよいが、しかし代わりにビットストリーム３１から分離したメタデータ５３としてこの音声レンダリング情報３９を信号伝達してもよい。

[0067]図７は、本開示で述べられる技法の様々な態様を行うことができる別のシステム６０を例示するブロック図である。システム２０、３０および５０から分離したシステムとして示されるが、システム２０、３０、５０および６０の様々な態様は、単一システム内に統合されてもよくまたはさもなければ単一システムによって行われてもよい。システム６０が、図４および図５の例に関して上で述べられたようにビットストリーム３１で音声レンダリング情報３９の一部分を信号伝達してもよく、ビットストリーム３１から分離したメタデータ５３としてこの音声レンダリング情報３９の一部分を信号伝達してもよいということを除いて、システム６０は、システム５０と同様であってもよい。いくつかの例では、ビットストリーム生成デバイス３６は、メタデータ５３を出力してもよく、それは次いで、サーバーまたは他のデバイスにアップロードされてもよい。音声再生システム３２は次いで、このメタデータ５３をダウンロードするまたはさもなければ取り出してもよく、それは次いで、抽出デバイス３８によってビットストリーム３１から抽出される音声レンダリング情報を増強するために使用される。

[0068]図８Ａ〜図８Ｄは、本開示で述べられる技法に従って形成されるビットストリーム３１Ａ〜３１Ｄを例示する図である。図８Ａの例では、ビットストリーム３１Ａは、上で図４、図５および図８で示されるビットストリーム３１の一例を表してもよい。ビットストリーム３１Ａは、信号値５４を規定する１つまたは複数のビットを含む音声レンダリング情報３９Ａを含む。この信号値５４は、以下で述べられる種類の情報の任意の組合せを表してもよい。ビットストリーム３１Ａはまた、音声コンテンツ５１の一例を表してもよい音声コンテンツ５８も含む。

[0069]図８Ｂの例では、ビットストリーム３１Ｂは、ビットストリーム３１Ａと同様であってもよく、ただし信号値５４は、インデックス５４Ａと、信号伝達されるマトリックスの行サイズ５４Ｂを規定する１つまたは複数のビットと、信号伝達されるマトリックスの列サイズ５４Ｃを規定する１つまたは複数のビットと、マトリックス係数５４Ｄとを備える。インデックス５４Ａは、２から５ビットを使用して規定されてもよく、一方行サイズ５４Ｂおよび列サイズ５４Ｃの各々は、２から１６ビットを使用して規定されてもよい。

[0070]抽出デバイス３８は、インデックス５４Ａを抽出し、マトリックスがビットストリーム３１Ｂに含まれることをインデックスが信号伝達するかどうかを決定してもよい（ただし、００００または１１１１などの、あるインデックス値は、マトリックスがビットストリーム３１Ｂで明確に指定されることを信号伝達してもよい）。図８Ｂの例では、ビットストリーム３１Ｂは、マトリックスがビットストリーム３１Ｂで明確に指定されることを信号伝達するインデックス５４Ａを含む。結果として、抽出デバイス３８は、行サイズ５４Ｂと列サイズ５４Ｃとを抽出することができる。抽出デバイス３８は、行サイズ５４Ｂと、列サイズ５４Ｃと、各マトリックス係数の信号伝達される（図８Ａで図示されず）または暗黙のビットサイズとの関数としてマトリックス係数を表す、解析すべきビット数を計算するように構成されてもよい。これらの決定されたビット数を使用して、抽出デバイス３８は、マトリックス係数５４Ｄを抽出してもよく、音声再生デバイス２４は、上で述べられたように音声レンダラー３４の１つを構成するために、そのマトリックス係数５４Ｄを使用してもよい。ビットストリーム３１Ｂで一回音声レンダリング情報３９Ｂを信号伝達するとして示されるが、音声レンダリング情報３９Ｂは、ビットストリーム３１Ｂで複数回または分離した帯域外チャンネルで少なくとも部分的にまたは完全に（場合によってはオプションのデータとして）信号伝達されてもよい。

[0071]図８Ｃの例では、ビットストリーム３１Ｃは、上で図４、図５および図８で示されるビットストリーム３１の一例を表してもよい。ビットストリーム３１Ｃは、この例ではアルゴリズムインデックス５４Ｅを指定する信号値５４を含む音声レンダリング情報３９Ｃを含む。ビットストリーム３１Ｃはまた、音声コンテンツ５８も含む。アルゴリズムインデックス５４Ｅは、上で述べられたように、２から５ビットを使用して規定されてもよく、ただしこのアルゴリズムインデックス５４Ｅは、音声コンテンツ５８をレンダリングするときに使用されるべきレンダリングアルゴリズムを識別することができる。

[0072]抽出デバイス３８は、アルゴリズムインデックス５０Ｅを抽出し、マトリックスがビットストリーム３１Ｃに含まれることをアルゴリズムインデックス５４Ｅが信号伝達するかどうかを決定してもよい（ただし００００または１１１１などの、あるインデックス値は、マトリックスがビットストリーム３１Ｃで明確に指定されることを信号伝達してもよい）。図８Ｃの例では、ビットストリーム３１Ｃは、マトリックスがビットストリーム３１Ｃで明確に指定されないことを信号伝達するアルゴリズムインデックス５４Ｅを含む。結果として、抽出デバイス３８は、アルゴリズムインデックス５４Ｅを音声再生デバイスに転送し、それは、対応する１つ（可能な場合は）のレンダリングアルゴリズム（それは、図４〜図８の例ではレンダラー３４として示される）を選択する。図８Ｃの例では、ビットストリーム３１Ｃで一回音声レンダリング情報３９Ｃを信号伝達するとして示されるが、音声レンダリング情報３９Ｃは、ビットストリーム３１Ｃで複数回または分離した帯域外チャンネルで少なくとも部分的にもしくは完全に（場合によってはオプションのデータとして）信号伝達されてもよい。

[0073]図８Ｄの例では、ビットストリーム３１Ｃは、上で図４、図５および図８で示されるビットストリーム３１の一例を表してもよい。ビットストリーム３１Ｄは、この例ではマトリックスインデックス５４Ｆを指定する信号値５４を含む音声レンダリング情報３９Ｄを含む。ビットストリーム３１Ｄはまた、音声コンテンツ５８も含む。マトリックスインデックス５４Ｆは、上で述べられたように、２から５ビットを使用して規定されてもよく、ただしこのマトリックスインデックス５４Ｆは、音声コンテンツ５８をレンダリングするときに使用されるべきレンダリングアルゴリズムを識別することができる。

[0074]抽出デバイス３８は、マトリックスインデックス５０Ｆを抽出し、マトリックスがビットストリーム３１Ｄに含まれることをマトリックスインデックス５４Ｆが信号伝達するかどうかを決定してもよい（ただし００００または１１１１などの、あるインデックス値は、マトリックスがビットストリーム３１Ｃで明確に指定されることを信号伝達してもよい）。図８Ｄの例では、ビットストリーム３１Ｄは、マトリックスがビットストリーム３１Ｄで明確に指定されないことを信号伝達するマトリックスインデックス５４Ｆを含む。結果として、抽出デバイス３８は、マトリックスインデックス５４Ｆを音声再生デバイスに転送し、それは、対応する１つ（可能な場合は）のレンダラー３４を選択する。図８Ｄの例では、ビットストリーム３１Ｄで一回音声レンダリング情報３９Ｄを信号伝達するとして示されるが、音声レンダリング情報３９Ｄは、ビットストリーム３１Ｄで複数回または分離した帯域外チャンネルで少なくとも部分的にもしくは完全に（場合によってはオプションのデータとして）信号伝達されてもよい。

[0075]図９は、本開示で述べられる技法の様々な態様を行う際の、図４〜図８Ｄの例で示されるシステム２０、３０、５０および６０の１つなどのシステムの動作例を示すフローチャートである。システム２０に関して以下で述べられるが、図９に関して論じられる技法はまた、システム３０、５０および６０のいずれか１つによって実施されてもよい。

[0076]上で論じられたように、コンテンツ制作者２２は、獲得されたまたは生成された音声コンテンツ（それは、図４の例ではＳＨＣ２７として示される）を制作するまたは編集するために音声編集システム３０を用いてもよい。コンテンツ制作者２２は次いで、上でより詳細に論じられたように、生成されたマルチチャンネルスピーカーフィード２９へと音声レンダラー２８を使用してＳＨＣ２７をレンダリングしてもよい（７０）。コンテンツ制作者２２は次いで、音声再生システムを使用してこれらのスピーカーフィード２９を再生し、一例として所望の芸術的意図を獲得するために、さらなる調整または編集が必要とされるかどうかを決定してもよい（７２）。さらなる調整が、望まれるときは（「イエス」７２）、コンテンツ制作者２２は、ＳＨＣ２７をリミックスし（７４）、ＳＨＣ２７をレンダリングし（７０）、さらなる調整が必要かどうかを決定してもよい（７２）。さらなる調整が、望まれないときは（「ノー」７２）、ビットストリーム生成デバイス３６は、音声コンテンツを表すビットストリーム３１を生成してもよい（７６）。ビットストリーム生成デバイス３６はまた、上でより詳細に述べられたように、ビットストリーム３１で音声レンダリング情報３９を生成し、指定してもよい（７８）。

[0077]コンテンツ消費者２４は次いで、ビットストリーム３１と音声レンダリング情報３９とを得ることができる（８０）。一例として、抽出デバイス３８は次いで、ビットストリーム３１から音声コンテンツ（それは、図４の例ではＳＨＣ２７’として示される）と音声レンダリング情報３９とを抽出してもよい。音声再生システム３２は次いで、上で述べられたように音声レンダリング情報３９に基づいてＳＨＣ２７’をレンダリングし（８２）、レンダリングされた音声コンテンツを再生することができる（８４）。

[0078]本開示で述べられる技法はしたがって、第１の例として、マルチチャンネル音声コンテンツを表すビットストリームを生成するデバイスが音声レンダリング情報を指定することを可能にすることもある。デバイスは、この第１の例では、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を指定するための手段を含む。

[0079]第１の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含む、第１の例のデバイス。

[0080]第２の例では、第１の例のデバイスであって、信号値は、ビットストリームが、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含むことを示すインデックスを規定する２つ以上のビットを含む、第１の例のデバイス。

[0081]第２の例のデバイスであって、音声レンダリング情報はさらに、ビットストリームに含まれるマトリックスの行の数を規定する２つ以上のビットと、ビットストリームに含まれるマトリックスの列の数を規定する２つ以上のビットとを含む、第２の例のデバイス。

[0082]第１の例のデバイスであって、信号値は、音声オブジェクトを複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する、第１の例のデバイス。

[0083]第１の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する、第１の例のデバイス。

[0084]第１の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のマトリックスの１つと関連するインデックスを規定する２つ以上のビットを含む、第１の例のデバイス。

[0085]第１の例のデバイスであって、信号値は、音声オブジェクトを複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む、第１の例のデバイス。

[0086]第１の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む、第１の例のデバイス。

[0087]第１の例のデバイスであって、音声レンダリング情報を指定するための手段は、ビットストリームで音声フレームごとに音声レンダリング情報を指定するための手段を備える、第１の例のデバイス。

[0088]第１の例のデバイスであって、音声レンダリング情報を指定するための手段は、ビットストリームで一回音声レンダリング情報を指定するための手段を備える、第１の例のデバイス。

[0089]第３の例では、実行されるとき、１つまたは複数のプロセッサにビットストリームで音声レンダリング状を指定させる命令をその上に記憶した非一時的コンピュータ可読記憶媒体であって、音声レンダリング情報は、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する、非一時的コンピュータ可読記憶媒体。

[0090]第４の例では、ビットストリームからマルチチャンネル音声コンテンツをレンダリングするためのデバイスであって、本デバイスは、マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を決定するための手段と、ビットストリームで指定される音声レンダリング情報に基づいて複数のスピーカーフィードをレンダリングするための手段とを備える、デバイス。

[0091]第４の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含み、複数のスピーカーフィードをレンダリングするための手段は、マトリックスに基づいて複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0092]第５の例では、第４の例のデバイスであって、信号値は、ビットストリームが、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含むことを示すインデックスを規定する２つ以上のビットを含み、デバイスはさらに、インデックスに応答してビットストリームからマトリックスを解析するための手段を備え、複数のスピーカーフィードをレンダリングするための手段は、解析されたマトリックスに基づいて複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0093]第５の例のデバイスであって、信号値はさらに、ビットストリームに含まれるマトリックスの行の数を規定する２つ以上のビットと、ビットストリームに含まれるマトリックスの列の数を規定する２つ以上のビットとを含み、ビットストリームからマトリックスを解析するための手段は、インデックスに応答し、行の数を規定する２つ以上のビットおよび列の数を規定する２つ以上のビットに基づいてビットストリームからマトリックスを解析するための手段を備える、第５の例のデバイス。

[0094]第４の例のデバイスであって、信号値は、音声オブジェクトを複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定し、複数のスピーカーフィードをレンダリングするための手段は、指定されたレンダリングアルゴリズムを使用して音声オブジェクトから複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0095]第４の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定し、複数のスピーカーフィードをレンダリングするための手段は、指定されたレンダリングアルゴリズムを使用して球面調和係数から複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0096]第４の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のマトリックスの１つと関連するインデックスを規定する２つ以上のビットを含み、複数のスピーカーフィードをレンダリングするための手段は、インデックスと関連する複数のマトリックスの１つを使用して球面調和係数から複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0097]第４の例のデバイスであって、信号値は、音声オブジェクトを複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含み、複数のスピーカーフィードをレンダリングするための手段は、インデックスと関連する複数のレンダリングアルゴリズムの１つを使用して音声オブジェクトから複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0098]第４の例のデバイスであって、信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含み、複数のスピーカーフィードをレンダリングするための手段は、インデックスと関連する複数のレンダリングアルゴリズムの１つを使用して球面調和係数から複数のスピーカーフィードをレンダリングするための手段を備える、第４の例のデバイス。

[0099]第４の例のデバイスであって、音声レンダリング情報を決定するための手段は、ビットストリームから音声フレームごとに音声レンダリング情報を決定するための手段を含む、第４の例のデバイス。

[0100]第４の例のデバイスであって、音声レンダリング情報手段を決定するための手段は、ビットストリームから一回音声レンダリング情報を決定することを含む、第４の例のデバイス。

[0101]第６の例では、実行されるとき、１つまたは複数のプロセッサにマルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を決定させ、ビットストリームで指定された音声レンダリング情報に基づいて複数のスピーカーフィードをレンダリングさせる命令をその上に記憶した非一時的コンピュータ可読記憶媒体。

[0102]例に応じて、本明細書で述べられる方法のいずれかのあるアクトまたはイベントは、異なる順序で行われてもよく、加えられ、併合され、または完全に除外されてもよい（たとえば、すべての述べられたアクトまたはイベントが、本方法の実施に必要であるとは限らない）ということが、理解されるべきである。その上、ある例では、アクトまたはイベントは、たとえば連続的によりもむしろ、マルチスレッド処理、割り込み処理、または複数プロセッサを通じて同時に行われてもよい。加えて、本開示のある態様は、明確にするために単一のデバイス、モジュールまたはユニットによって行われるとして述べられるが、本開示の技法は、デバイス、ユニットまたはモジュールの組合せによって行われてもよいことが、理解されるべきである。

[0103]１つまたは複数の例では、述べられる機能は、ハードウェアまたはハードウェアおよびソフトウェア（それは、ファームウェアを含んでもよい）の組合せで実施されてもよい。もしソフトウェアで実施されるならば、機能は、非一時的コンピュータ可読媒体上にあり、ハードウェアベースの処理ユニットによって実行される１つまたは複数の命令またはコードとして記憶されまたは送信されてもよい。コンピュータ可読媒体は、コンピュータ可読記憶媒体を含んでもよく、それは、データ記憶媒体などの有形媒体、またはたとえば通信プロトコルに従って１つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体に対応する。

[0104]このようにして、コンピュータ可読媒体は一般に、（１）非一時的である有形コンピュータ可読記憶媒体または（２）信号もしくは搬送波などの通信媒体に対応することもある。データ記憶媒体は、本開示で述べられる技法の実施のための命令、コードおよび／またはデータ構造を取り出すために１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であってもよい。コンピュータプログラム製品が、コンピュータ可読媒体を含むこともある。

[0105]例としてであって、限定でなく、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令もしくはデータ構造の形で所望のプログラムコードを記憶するために使用され、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。また、任意の接続も、コンピュータ可読媒体と適切に呼ばれる。たとえば、もし命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用してウェブサイト、サーバー、または他のリモートソースから送信されるならば、そのとき同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。

[0106]しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まないが、しかし代わりに非一時的有形記憶媒体に向けられることが、理解されるべきである。ディスク（disk）およびディスク（disc）は、本明細書で使用される場合、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびブルーレイディスク（disc）を含み、ただしディスク（disk）は通常、磁気的にデータを再現し、一方ディスク（disc）は、レーザーで光学的にデータを再現する。上記の組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。

[0107]命令は、１つまたは複数のデジタルシグナルプロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の等価な集積されたもしくはディスクリートのロジック回路などの、１つまたは複数のプロセッサによって実行されてもよい。それに応じて、「プロセッサ」という用語は、本明細書で使用される場合、前述の構造または本明細書で述べられる技法の実施に適した任意の他の構造のいずれかを指してもよい。加えて、いくつかの態様では、本明細書で述べられる機能性は、符号化および復号のために構成される、または複合コーデックに組み込まれる、専用ハードウェアおよび／またはソフトウェアモジュール内で提供されてもよい。また、本技法は、１つまたは複数の回路またはロジック要素で完全に実施されることもあり得る。

[0108]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置で実施されてもよい。様々なコンポーネント、モジュール、またはユニットは、開示される技法を行うように構成されるデバイスの機能的態様を強調するために本開示で述べられるが、しかし必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上で述べられたように、様々なユニットは、適切なソフトウェアおよび／またはファームウェアと併せて、上で述べられたような１つまたは複数のプロセッサを含む、コーデックハードウェアユニットで組み合わされてもよくまたは相互運用ハードウェアユニットの集合によって提供されてもよい。

[0109]本技法の様々な実施形態が、述べられた。これらの実施形態および他の実施形態は、次の請求項の範囲内である。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］マルチチャンネル音声コンテンツを表すビットストリームを生成する方法であって、前記方法は、
前記マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を指定することを備える、方法。
［Ｃ２］前記信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含む、Ｃ１に記載の方法。
［Ｃ３］前記信号値は、前記ビットストリームが、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含むことを示すインデックスを規定する２つ以上のビットを含む、Ｃ１に記載の方法。
［Ｃ４］前記信号値はさらに、前記ビットストリームに含まれる前記マトリックスの行の数を規定する２つ以上のビットと、前記ビットストリームに含まれる前記マトリックスの列の数を規定する２つ以上のビットとを含む、Ｃ３に記載の方法。
［Ｃ５］前記信号値は、音声オブジェクトまたは球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する、Ｃ１に記載の方法。
［Ｃ６］前記信号値は、音声オブジェクトまたは球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のマトリックスの１つと関連するインデックスを規定する２つ以上のビットを含む、Ｃ１に記載の方法。
［Ｃ７］前記信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む、Ｃ１に記載の方法。
［Ｃ８］前記音声レンダリング情報を指定することは、前記ビットストリームで音声フレームごとに、前記ビットストリームで一回または前記ビットストリームから分離したメタデータから前記音声レンダリング情報を指定することを含む、Ｃ１に記載の方法。
［Ｃ９］マルチチャンネル音声コンテンツを表すビットストリームを生成するように構成されるデバイスであって、前記デバイスは、
前記マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を指定するように構成される１つまたは複数のプロセッサを備える、デバイス。
［Ｃ１０］前記信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含む、Ｃ９に記載のデバイス。
［Ｃ１１］前記信号値は、前記ビットストリームが、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含むことを示すインデックスを規定する２つ以上のビットを含む、Ｃ９に記載のデバイス。
［Ｃ１２］前記信号値はさらに、前記ビットストリームに含まれる前記マトリックスの行の数を規定する２つ以上のビットと、前記ビットストリームに含まれる前記マトリックスの列の数を規定する２つ以上のビットとを含む、Ｃ１１に記載のデバイス。
［Ｃ１３］前記信号値は、音声オブジェクトまたは球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する、Ｃ９に記載のデバイス。
［Ｃ１４］前記信号値は、音声オブジェクトまたは球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のマトリックスの１つと関連するインデックスを規定する２つ以上ビットを含む、Ｃ９に記載のデバイス。
［Ｃ１５］前記信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上ビットを含む、Ｃ９に記載のデバイス。
［Ｃ１６］ビットストリームからマルチチャンネル音声コンテンツをレンダリングする方法であって、前記方法は、
前記マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を決定することと、
前記音声レンダリング情報に基づいて複数のスピーカーフィードをレンダリングすることとを備える、方法。
［Ｃ１７］前記信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含み、
前記複数のスピーカーフィードをレンダリングすることは、前記信号値に含まれる前記マトリックスに基づいて前記複数のスピーカーフィードをレンダリングすることを備える、Ｃ１６に記載の方法。
［Ｃ１８］前記信号値は、前記ビットストリームが、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含むことを示すインデックスを規定する２つ以上のビットを含み、
前記方法はさらに、前記インデックスに応答して前記ビットストリームから前記マトリックスを解析することを備え、
前記複数のスピーカーフィードをレンダリングすることは、前記解析されたマトリックスに基づいて前記複数のスピーカーフィードをレンダリングすることを備える、Ｃ１６に記載の方法。
［Ｃ１９］前記信号値はさらに、前記ビットストリームに含まれる前記マトリックスの行の数を規定する２つ以上のビットと、前記ビットストリームに含まれる前記マトリックスの列の数を規定する２つ以上のビットとを含み、
前記ビットストリームから前記マトリックスを解析することは、前記インデックスに応答し、行の数を規定する前記２つ以上のビットおよび列の数を規定する前記２つ以上のビットに基づいて前記ビットストリームから前記マトリックスを解析することを備える、Ｃ１８に記載の方法。
［Ｃ２０］前記信号値は、音声オブジェクトまたは球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定し、
前記複数のスピーカーフィードをレンダリングすることは、前記指定されたレンダリングアルゴリズムを使用して前記音声オブジェクトまたは前記球面調和係数から前記複数のスピーカーフィードをレンダリングすることを備える、Ｃ１６に記載の方法。
［Ｃ２１］前記信号値は、音声オブジェクトまたは球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される複数のマトリックスの１つと関連するインデックスを規定する２つ以上のビットを含み、
前記複数のスピーカーフィードをレンダリングすることは、前記インデックスと関連する前記複数のマトリックスの前記１つを使用して前記音声オブジェクトまたは前記球面調和係数から前記複数のスピーカーフィードをレンダリングすることを備える、Ｃ１６に記載の方法。
［Ｃ２２］前記音声レンダリング情報は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含み、
前記複数のスピーカーフィードをレンダリングすることは、前記インデックスと関連する前記複数のレンダリングアルゴリズムの前記１つを使用して前記球面調和係数から前記複数のスピーカーフィードをレンダリングすることを備える、Ｃ１６に記載の方法。
［Ｃ２３］前記音声レンダリング情報を決定することは、前記ビットストリームから音声フレームごとに、前記ビットストリームから一回または前記ビットストリームから分離したメタデータから前記音声レンダリング情報を決定することを含む、Ｃ１６に記載の方法。
［Ｃ２４］ビットストリームからマルチチャンネル音声コンテンツをレンダリングするように構成されるデバイスであって、前記デバイスは、
前記マルチチャンネル音声コンテンツを生成するときに使用される音声レンダラーを識別する信号値を含む音声レンダリング情報を決定し、前記音声レンダリング情報に基づいて複数のスピーカーフィードをレンダリングするように構成される１つまたは複数のプロセッサを備える、デバイス。
［Ｃ２５］前記信号値は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含み、
前記１つまたは複数のプロセッサはさらに、前記複数のスピーカーフィードをレンダリングするとき、前記信号値に含まれる前記マトリックスに基づいて前記複数のスピーカーフィードをレンダリングするように構成される、Ｃ２４に記載のデバイス。
［Ｃ２６］前記信号値は、前記ビットストリームが、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを含むことを示すインデックスを規定する２つ以上のビットを含み、
前記１つまたは複数のプロセッサはさらに、前記インデックスに応答して前記ビットストリームから前記マトリックスを解析するように構成され、
前記１つまたは複数のプロセッサはさらに、前記複数のスピーカーフィードをレンダリングするとき、前記複数のスピーカーフィードをレンダリングするように構成され、前記解析されたマトリックスに基づいて前記複数のスピーカーフィードをレンダリングすることを備える、Ｃ２４に記載のデバイス。
［Ｃ２７］前記信号値はさらに、前記ビットストリームに含まれる前記マトリックスの行の数を規定する２つ以上のビットと、前記ビットストリームに含まれる前記マトリックスの列の数を規定する２つ以上のビットとを含み、
前記１つまたは複数のプロセッサはさらに、前記ビットストリームから前記マトリックスを解析するとき、前記インデックスに応答し、行の数を規定する前記２つ以上のビットおよび列の数を規定する前記２つ以上のビットに基づいて前記ビットストリームから前記マトリックスを解析するように構成される、Ｃ２６に記載のデバイス。
［Ｃ２８］前記信号値は、音声オブジェクトまたは球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定し、
前記１つまたは複数のプロセッサはさらに、前記複数のスピーカーフィードをレンダリングするとき、前記複数のスピーカーフィードをレンダリングするように構成され、前記指定されたレンダリングアルゴリズムを使用して前記音声オブジェクトまたは前記球面調和係数から前記複数のスピーカーフィードをレンダリングすることを備える、Ｃ２４に記載のデバイス。
［Ｃ２９］前記信号値は、音声オブジェクトまたは球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される複数のマトリックスの１つと関連するインデックスを規定する２つ以上のビットを含み、
前記１つまたは複数のプロセッサはさらに、前記複数のスピーカーフィードをレンダリングするとき、前記複数のスピーカーフィードをレンダリングするように構成され、前記インデックスと関連する前記複数のマトリックスの前記１つを使用して前記音声オブジェクトまたは前記球面調和係数から前記複数のスピーカーフィードをレンダリングすることを備える、Ｃ２４に記載のデバイス。
［Ｃ３０］前記音声レンダリング情報は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含み、
前記１つまたは複数のプロセッサはさらに、前記複数のスピーカーフィードをレンダリングするとき、前記複数のスピーカーフィードをレンダリングするように構成され、前記インデックスと関連する前記複数のレンダリングアルゴリズムの前記１つを使用して前記球面調和係数から前記複数のスピーカーフィードをレンダリングすることを備える、Ｃ２４に記載のデバイス。

Claims

マルチチャンネル音声コンテンツを表すビットストリームを生成する方法であって、前記方法は、
音声符号化器の１つまたは複数のプロセッサによって、前記ビットストリームにおいて前記マルチチャンネル音声コンテンツを生成するときに使用されるべき音声レンダラーを識別する信号値を含む音声レンダリング情報を指定することを備え、ここにおいて、前記音声レンダリング情報は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを規定する複数のマトリックス係数を含む、方法。
前記信号値は、前記ビットストリームが、前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される前記マトリックスを含むことを示すインデックスを規定する２つ以上のビットを含む、請求項１に記載の方法。
前記信号値はさらに、前記ビットストリームに含まれる前記マトリックスの行の数を規定する２つ以上のビットと、前記ビットストリームに含まれる前記マトリックスの列の数を規定する２つ以上のビットとを含む、請求項２に記載の方法。
音声オブジェクトまたは前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する第２の信号値を指定することをさらに備える、請求項１に記載の方法。
前記信号値はさらに、音声オブジェクトまたは前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される、複数のマトリックスのうちの前記マトリックスと関連するインデックスを規定する２つ以上のビットを含む、請求項１に記載の方法。
前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む第２の信号値を指定することをさらに備える、請求項１に記載の方法。
前記音声レンダリング情報を指定することは、前記ビットストリームで音声フレームごとに、前記ビットストリームで一回、または前記ビットストリームから分離したメタデータから、前記音声レンダリング情報を指定することを含む、請求項１に記載の方法。
マルチチャンネル音声コンテンツを表すビットストリームを生成するように構成されるデバイスであって、前記デバイスは、
前記ビットストリームにおいて、前記マルチチャンネル音声コンテンツを生成するときに使用されるべき音声レンダラーを識別する信号値を含む音声レンダリング情報を指定するように構成される１つまたは複数のプロセッサを含む音声符号化器と、ここにおいて、前記音声レンダリング情報は、球面調和係数を複数のスピーカーフィードにレンダリングするために使用されるマトリックスを規定する複数のマトリックス係数を含み、
前記１つまたは複数のプロセッサに結合され、前記音声レンダリング情報を記憶するように構成されたメモリと
備える、デバイス。
前記信号値はさらに、前記ビットストリームが、前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される前記マトリックスを含むことを示すインデックスを規定する２つ以上のビットを含む、請求項８に記載のデバイス。
前記信号値はさらに、前記ビットストリームに含まれる前記マトリックスの行の数を規定する２つ以上のビットと、前記ビットストリームに含まれる前記マトリックスの列の数を規定する２つ以上のビットとを含む、請求項９に記載のデバイス。
前記１つまたは複数のプロセッサはさらに、音声オブジェクトまたは前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する第２の信号値を指定するように構成される、請求項８に記載のデバイス。
前記信号値は、音声オブジェクトまたは前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される、複数のマトリックスのうちの前記マトリックスと関連するインデックスを規定する２つ以上のビットを含む、請求項８に記載のデバイス。
前記１つまたは複数のプロセッサはさらに、前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む第２の信号値を指定するように構成される、請求項８に記載のデバイス。
ビットストリームからマルチチャンネル音声コンテンツをレンダリングする方法であって、前記方法は、
前記ビットストリームから、前記マルチチャンネル音声コンテンツを生成するときに使用されるべき音声レンダラーを識別する信号値を含む音声レンダリング情報を決定することと、ここにおいて、前記音声レンダリング情報は、球面調和係数を複数のスピーカーフィードの形で前記マルチチャンネル音声コンテンツにレンダリングするために使用されるマトリックスを規定する複数のマトリックス係数を含み、
前記球面調和係数からおよび前記音声レンダリング情報に基づいて、前記複数のスピーカーフィードの形で前記マルチチャンネル音声コンテンツをレンダリングすることと
を備える、方法。
前記複数のスピーカーフィードをレンダリングすることは、前記マトリックスに基づいて前記複数のスピーカーフィードをレンダリングすることを備える、請求項１４に記載の方法。
前記信号値は、前記ビットストリームが、前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される前記マトリックスを含むことを示すインデックスを規定する２つ以上のビットを含み、
前記方法はさらに、前記インデックスに応答して前記ビットストリームから前記マトリックスを解析することを備え、
前記複数のスピーカーフィードをレンダリングすることは、前記解析されたマトリックスに基づいて前記複数のスピーカーフィードをレンダリングすることを備える、請求項１４に記載の方法。
前記信号値はさらに、前記ビットストリームに含まれる前記マトリックスの行の数を規定する２つ以上のビットと、前記ビットストリームに含まれる前記マトリックスの列の数を規定する２つ以上のビットとを含み、
前記ビットストリームから前記マトリックスを解析することは、前記インデックスに応答し、行の数を規定する前記２つ以上のビットおよび列の数を規定する前記２つ以上のビットに基づいて、前記ビットストリームから前記マトリックスを解析することを備える、請求項１６に記載の方法。
音声オブジェクトまたは前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する第２の信号値を指定するための手段をさらに備え、
ここにおいて、前記複数のスピーカーフィードをレンダリングすることは、前記指定されたレンダリングアルゴリズムを使用して前記音声オブジェクトまたは前記球面調和係数から前記複数のスピーカーフィードをレンダリングすることを備える、請求項１４に記載の方法。
前記信号値は、音声オブジェクトまたは前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される、複数のマトリックスのうちの前記マトリックスと関連するインデックスを規定する２つ以上のビットを含み、
前記複数のスピーカーフィードをレンダリングすることは、前記インデックスと関連する、前記複数のマトリックスのうちの前記マトリックスを使用して前記音声オブジェクトまたは前記球面調和係数から前記複数のスピーカーフィードをレンダリングすることを備える、請求項１４に記載の方法。
球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む第２の信号値を指定することをさらに備え、
ここにおいて、前記複数のスピーカーフィードをレンダリングすることは、前記インデックスと関連する前記複数のレンダリングアルゴリズムの前記１つを使用して前記球面調和係数から前記複数のスピーカーフィードをレンダリングすることを備える、請求項１４に記載の方法。
前記音声レンダリング情報を決定することは、前記ビットストリームから音声フレームごとに、前記ビットストリームから一回、または前記ビットストリームから分離したメタデータから、前記音声レンダリング情報を決定することを含む、請求項１４に記載の方法。
ビットストリームからマルチチャンネル音声コンテンツをレンダリングするように構成されるデバイスであって、前記デバイスは、
前記ビットストリームから、前記マルチチャンネル音声コンテンツを生成するときに使用されるべき音声レンダラーを識別する信号値を含む音声レンダリング情報を決定することと、ここにおいて、前記音声レンダリング情報は、球面調和係数を複数のスピーカーフィードの形で前記マルチチャンネル音声コンテンツにレンダリングするために使用されるマトリックスを規定する複数のマトリックス係数を含み、
前記球面調和係数からおよび前記音声レンダリング情報に基づいて、前記複数のスピーカーフィードとして前記マルチチャンネル音声コンテンツをレンダリングすることと
を行うように構成される１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサに結合され、前記複数のスピーカーフィードを記憶するように構成されたメモリと
を備える、デバイス。
前記１つまたは複数のプロセッサは、前記マトリックスに基づいて前記複数のスピーカーフィードをレンダリングするように構成される、請求項２２に記載のデバイス。
前記信号値は、前記ビットストリームが、前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される前記マトリックスを含むことを示すインデックスを規定する２つ以上のビットを含み、
前記１つまたは複数のプロセッサはさらに、前記インデックスに応答して前記ビットストリームから前記マトリックスを解析するように構成され、
前記１つまたは複数のプロセッサは、前記解析されたマトリックスに基づいて前記複数のスピーカーフィードをレンダリングするように構成される、請求項２２に記載のデバイス。
前記信号値はさらに、前記ビットストリームに含まれる前記マトリックスの行の数を規定する２つ以上のビットと、前記ビットストリームに含まれる前記マトリックスの列の数を規定する２つ以上のビットとを含み、
前記１つまたは複数のプロセッサは、前記インデックスに応答し、行の数を規定する前記２つ以上のビットおよび列の数を規定する前記２つ以上のビットに基づいて、前記ビットストリームから前記マトリックスを解析するように構成される、請求項２４に記載のデバイス。
前記１つまたは複数のプロセッサはさらに、音声オブジェクトまたは球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用されるレンダリングアルゴリズムを指定する第２の信号値を指定するように構成され、
前記１つまたは複数のプロセッサは、前記指定されたレンダリングアルゴリズムを使用して前記音声オブジェクトまたは前記球面調和係数から前記複数のスピーカーフィードをレンダリングするように構成される、請求項２２に記載のデバイス。
前記信号値は、音声オブジェクトまたは前記球面調和係数を前記複数のスピーカーフィードにレンダリングするために使用される、複数のマトリックスのうちの前記マトリックスと関連するインデックスを規定する２つ以上のビットを含み、
前記１つまたは複数のプロセッサは、前記インデックスと関連する前記複数のマトリックスの前記１つを使用して前記音声オブジェクトまたは前記球面調和係数から前記複数のスピーカーフィードをレンダリングするように構成される、請求項２２に記載のデバイス。
前記１つまたは複数のプロセッサはさらに、球面調和係数を複数のスピーカーフィードにレンダリングするために使用される複数のレンダリングアルゴリズムの１つと関連するインデックスを規定する２つ以上のビットを含む第２の信号値を指定するように構成され、
前記１つまたは複数のプロセッサは、前記インデックスと関連する前記複数のレンダリングアルゴリズムの前記１つを使用して前記球面調和係数から前記複数のスピーカーフィードをレンダリングするように構成される、請求項２２に記載のデバイス。
前記複数のマトリックス係数は、前記球面調和係数を、不規則なスピーカーの幾何学的配置において配置されたスピーカーに対応する前記複数のスピーカーフィードにレンダリングするために使用される前記マトリックスを規定する、請求項８に記載のデバイス。
前記複数のマトリックス係数は、前記球面調和係数を、規則的であるが、標準化されていないスピーカーの幾何学的配置において配置されたスピーカーに対応する前記複数のスピーカーフィードにレンダリングするために使用される前記マトリックスを規定する、請求項２２に記載のデバイス。
１つまたは複数のマイクロフォンによって、前記球面調和係数を表す音声データをとらえることをさらに備える、請求項１に記載の方法。
前記１つまたは複数のプロセッサに結合され、前記球面調和係数を表す音声データをとらえるように構成された１つまたは複数のマイクロフォンをさらに備える、請求項８に記載のデバイス。
１つまたは複数のラウドスピーカーによって、および前記複数のスピーカーフィードに基づいて、前記球面調和係数によって表される音場を再現することをさらに備える、請求項１４に記載の方法。
前記１つまたは複数のプロセッサに結合され、前記複数のスピーカーフィードに基づいて、前記球面調和係数によって表される音場を再現するように構成された１つまたは複数のラウドスピーカーをさらに備える、請求項２２に記載のデバイス。