JP6239145B2

JP6239145B2 - 幾何学的な距離定義を使用してオーディオレンダリングする装置および方法

Info

Publication number: JP6239145B2
Application number: JP2016559271A
Authority: JP
Inventors: シモーネフューク; ヤンプログスティーズ; マクスノイエンドルフ; ユルゲンヘッレ; ベルンハルトグリル
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2014-03-26
Filing date: 2015-03-04
Publication date: 2017-11-29
Anticipated expiration: 2035-03-04
Also published as: AU2018204548A1; CA2943460C; BR112016022078A2; US20230370799A1; RU2666473C2; AU2018204548B2; KR101903873B1; US20200260205A1; PL3123747T3; US11632641B2; PT3123747T; EP3123747B1; CN108924729B; EP3123747A1; JP2017513387A; KR20160136437A; TW201537452A; WO2015144409A1; BR112016022078B1; US10587977B2

Description

本発明は、オーディオ信号処理、特に、オーディオレンダリングする装置および方法に関し、より詳細には、幾何学的な距離定義を使用してオーディオレンダリングする装置および方法に関する。

日常生活におけるマルチメディアコンテンツの消費の増加に伴い、高度なマルチメディアソリューションに対する要求が着実に増加している。この局面において、オーディオオブジェクトの位置決めは重要な役割を演ずる。オーディオオブジェクトの実在するスピーカーセットアップに対する最適な位置決めが望ましい。

技術水準において、オーディオオブジェクトは知られている。オーディオオブジェクトは、例えば、関連するメタデータを有するサウンドトラックとみなすことができる。メタデータは、例えば、生のオーディオデータの特性、例えば所望の再生位置またはボリュームレベルを記述することができる。オブジェクトベースのオーディオの利点は、予め定義された動きが、再生側での特別なレンダリングプロセスによって、全ての再生スピーカーレイアウトに対して可能な最良の方法で再生できることである。

幾何学的メタデータは、どこでオーディオオブジェクトがレンダリングされるべきか、例えば、方位角または仰角または基準点、例えばリスナーに対する絶対位置を定義するために用いることができる。メタデータは、オブジェクトオーディオ信号とともに記憶されるまたは伝送される。

ＭＰＥＧ-Ｈの局面において、第１０５回ＭＰＥＧミーティングにおいて、オーディオグループは、異なるアプリケーション規格の要求条件およびタイムラインをレビューした（ＭＰＥＧ＝Moving Picture Experts Group）。そのレビューによれば、次世代放送システムに対して、時間における一定のポイントおよび特定の要求条件を満たすことが重要である。それによれば、システムは、エンコーダ入力においてオーディオオブジェクトを受け入れることが可能でなければならない。さらに、システムは、オーディオオブジェクトのシグナリング、配信およびレンダリングをサポートし、例えば、ダイアログ拡張、代替ランゲージトラックおよびオーディオ記述言語に対して、オブジェクトのユーザー制御を可能にしなければならない。

技術水準において、異なるコンセプトが知られている。第１のコンセプトは、オブジェクトベースのオーディオに対する反射音レンダリングである（特許文献２を参考）。スピーカーロケーション情報に対するスナップは、有用なレンダリング情報としてメタデータ定義に含まれる。しかしながら、特許文献２において、再生プロセスにおいてどのように情報が用いられるかの情報は提供されない。さらに、どのように２つの位置の間の距離が決定されるかの情報は提供されない。

拡張３Ｄオーディオオーサリングおよびレンダリングに対する技術水準の他のコンセプト、システムおよびツールが特許文献４に記述されている。特許文献４の図６ｂは、どのようにスピーカーへの「スナッピング」をアルゴリズム的に実現することができるかを示した図解図である。詳しくは、特許文献４によれば、オーディオオブジェクトの位置をスピーカーロケーション（特許文献４の図６ｂのブロック６６５を参照）にスナップすることが決定される場合、オーディオオブジェクト位置は、スピーカーロケーション（特許文献４の図６ｂのブロック６７０を参照）、一般にはオーディオオブジェクトに対して受信された意図された（ｘ、ｙ、ｚ）位置に最も近いものにマップされる。特許文献４によれば、スナッピングは、再生スピーカーの小グループにおよび／または個々の再生スピーカーに適用されるかもしれない。しかしながら、特許文献４は、球面座標の代わりに直交（ｘ,ｙ,ｚ）座標を用いる。さらに、レンダラーの挙動は、スピーカーロケーションに対するマップオーディオオブジェクト位置として記述され、スナップフラグが１である場合に詳細な記述は提供されない。さらにまた、どのように最も近いスピーカーが決定されるかの詳細は提供されない。

特許文献１に記載された適応オーディオ信号生成、符号化およびレンダリングのための他の従来技術、システムおよび方法によれば、メタデータ情報（メタデータエレメント）は、「１つ以上の音響コンポーネントが、位置のメタデータによって示されたような音響コンポーネントの意図された再生ロケーションに最も近いスピーカーによる再生のためのスピーカーフィードにレンダリングされる」ことを指定している。しかしながら、どのように最も近いスピーカーが決定されるかの情報は提供されない。

更なる従来技術において、非特許文献１に記載されたオーディオ定義モデル、「ｃｈａｎｎｅｌＬｏｃｋ」と呼ばれるメタデータフラグが定義されている。１にセットされた場合、レンダラーは、通常のレンダリングよりむしろ、オブジェクトを最も近いチャンネルまたはスピーカーにロックすることができる。しかしながら、最も近いチャンネルの決定は記述されていない。

他の従来技術において、オブジェクトベースのオーディオのアップミックスが記述されている（特許文献３を参照）。特許文献３は、異なるアプリケーションの分野におけるスピーカーの距離尺度の使用を記述している。ここで、それはオブジェクトベースのオーディオマテリアルのアップミックスに対して用いられる。レンダリングシステムは、オブジェクトベースのオーディオプログラム（およびプログラムをプレイするために使用されるスピーカーの位置の知識）から、プログラムによって指示されたオーディオソースの各位置と各々のスピーカーの位置との間の距離を決定するように構成される。さらにまた、特許文献３のレンダリングシステムは、プログラムによって指示された各実際のソース位置（例えば、ソース軌道に沿った各ソース位置）に対して、実際のソース位置に最も近いフルセットのそれらのスピーカーから成るフルセットのスピーカーのサブセット（「プライマリー」サブセット）（または実際のソース位置に最も近いフルセットのそのスピーカー）を決定するように構成され、ここで、この局面において「最も近い」は、なんらかの合理的に定義されたという意味において定義されたものである。しかしながら、どのように距離を計算すべきかの情報は提供されない。

米国特許出願公開第２０１４／０１３３６８３号明細書「System and Method for Adaptive Audio Signal Generation, Coding and Rendering」（請求項４８）国際公開第２０１４／０３６０８５「Reflected sound rendering for object-based audio」（プレイバックアプリケーション章）米国特許出願公開第２０１４／０１３３６８２号明細書「Upmixing object based audio」（実施形態の簡単な説明と請求項７１ｂ）米国特許出願公開第２０１４／０１１９５８１号明細書「System and Tools for Enhanced 3D Audio Authoring and Rendering」

「Audio Definition Model」、EBU-TECH 3364、インターネット＜URL: https://tech.ebu.ch/docs/tech/tech3364.pdf＞

本発明の目的は、オーディオレンダリングに対して改良されたコンセプトを提供することである。本発明の目的は、請求項１に記載の装置によって、請求項１３に記載のデコーダデバイスによって、請求項１４に記載の方法によって、そして請求項１５に記載のコンピュータプログラムによって解決される。

位置に関連するオーディオオブジェクトを再生する装置が提供される。装置は、位置のスピーカーまでの距離を計算するまたは位置のスピーカーまでの距離を読み取る距離計算器を備える。距離計算器は、最小距離を有する解をとるように構成される。装置は、解に対応するスピーカーを用いてオーディオオブジェクトを再生するように構成される。

実施形態によれば、距離計算器は、例えば、装置によって受信される最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能な場合にのみ、位置のスピーカーまでの距離を計算するまたは位置のスピーカーまでの距離を読み取るように構成することができる。さらに、距離計算器は、例えば、最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能な場合にのみ、最小距離を有する解をとるように構成することができる。さらに、装置は、例えば、最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能である解のみに対応するスピーカーを用いてオーディオオブジェクトを再生するように構成することができる。

実施形態において、装置は、例えば、最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能な場合に、オーディオオブジェクトにいかなるレンダリングも行わないように構成することができる。

実施形態によれば、距離計算器は、例えば、重み付けユークリッド距離または大円弧距離を返す距離関数によって距離を計算するように構成することができる。

実施形態において、距離計算器は、例えば、方位角および仰角における重み付け絶対差分を返す距離関数によって距離を計算するように構成することができる。

実施形態によれば、距離計算器は、例えば、累乗ｐ（ｐは数である））に対する重み付け絶対差分を返す距離関数によって距離を計算するように構成することができる。実施形態において、ｐは、例えば、ｐ＝２にセットすることができる。

実施形態によれば、距離計算器は、例えば、重み付け角度差分を返す距離関数によって距離を計算するように構成することができる。

実施形態において、距離関数は、例えば、次式によって定義することができる。

ｄｉｆｆＡｎｇｌｅ＝ａｃｏｓ（ｃｏｓ（ａｚＤｉｆｆ）＊ｃｏｓ（ｅｌＤｉｆｆ））

ここで、ａｚＤｉｆｆは２つの方位角の差分を示し、ｅｌＤｉｆｆは２つの仰角の差分を示し、ｄｉｆｆＡｎｇｌｅは重み付け角度差分を示す。

実施形態によれば、距離計算器は、例えば、位置の１つのスピーカーまでの各距離Δ（Ｐ₁，Ｐ₂）が次式によって計算されるように、位置のスピーカーまでの距離を計算するように構成することができる。

Δ（Ｐ₁，Ｐ₂）＝｜β₁−β₂｜＋｜α₁−α₂｜

α₁は位置の方位角を示し、α₂は前記１つのスピーカーの方位角を示し、β₁は位置の仰角を示し、β₂は前記１つのスピーカーの仰角を示す。または、α₁は前記１つのスピーカーの方位角を示し、α₂は位置の方位角を示し、β₁は前記１つのスピーカーの仰角を示し、β₂は位置の仰角を示す。

実施形態において、距離計算器は、例えば、位置の１つのスピーカーまでの各距離が次式によって計算されるように、位置のスピーカーまでの距離Δ（Ｐ₁，Ｐ₂）を計算するように構成することができる。

Δ（Ｐ₁，Ｐ₂）＝｜β₁−β₂｜＋｜α₁−α₂｜＋｜ｒ₁−ｒ₂｜

α₁は位置の方位角を示し、α₂は前記１つのスピーカーの方位角を示し、β₁は位置の仰角を示し、β₂は前記１つのスピーカーの仰角を示し、ｒ₁は位置の半径を示し、ｒ₂は前記１つのスピーカーの半径を示す。または、α₁は前記１つのスピーカーの方位角を示し、α₂は位置の方位角を示し、β₁は前記１つのスピーカーの仰角を示し、β₂は位置の仰角を示し、ｒ₁は前記１つのスピーカーの半径を示し、ｒ₂は位置の半径を示す。

実施形態によれば、距離計算器は、例えば、位置の１つのスピーカーまでの各距離Δ（Ｐ₁，Ｐ₂）が次式によって計算されるように、位置のスピーカーまでの距離を計算するように構成することができる。

Δ（Ｐ₁，Ｐ₂）＝ｂ・｜β₁−β₂｜＋ａ・｜α₁−α₂｜

α₁は位置の方位角を示し、α₂は前記１つのスピーカーの方位角を示し、β₁は位置の仰角を示し、β₂は前記１つのスピーカーの仰角を示し、ａは第１の数であり、ｂは第２の数である。または、α₁は前記１つのスピーカーの方位角を示し、α₂は位置の方位角を示し、β₁は前記１つのスピーカーの仰角を示し、β₂は位置の仰角を示し、ａは第１の数であり、ｂは第２の数である。

実施形態において、距離計算器は、例えば、位置の１つのスピーカーまでの各距離Δ（Ｐ₁，Ｐ₂）が次式によって計算されるように、位置のスピーカーまでの距離を計算するように構成することができる。

Δ（Ｐ₁，Ｐ₂）＝ｂ・｜β₁−β₂｜＋ａ・｜α₁−α₂｜＋ｃ・｜ｒ₁−ｒ₂｜

α₁は位置の方位角を示し、α₂は前記１つのスピーカーの方位角を示し、β₁は位置の仰角を示し、β₂は前記１つのスピーカーの仰角を示し、ｒ₁は位置の半径を示し、ｒ₂は前記１つのスピーカーの半径を示し、ａは第１の数であり、ｂは第２の数である。または、α₁は前記１つのスピーカーの方位角を示し、α₂は位置の方位角を示し、β₁は前記１つのスピーカーの仰角を示し、β₂は位置の仰角を示し、ｒ₁は前記１つのスピーカーの半径を示し、ｒ₂は位置の半径を示し、ａは第１の数であり、ｂは第２の数であり、ｃは第３の数である。

実施形態によれば、デコーダデバイスが提供される。デコーダデバイスは、ビットストリームを復号化し、１つ以上のオーディオ入力チャンネルを取得し、１つ以上の入力オーディオオブジェクトを取得し、圧縮されたオブジェクトメタデータを取得し、１つ以上のＳＯＡＣトランスポートチャンネルを取得する、ＵＳＡＣデコーダを備える。さらに、デコーダデバイスは、１つ以上ＳＡＯＣトランスポートチャンネルを復号化し、一群の１つ以上のレンダリングされたオーディオオブジェクトを取得する、ＳＡＯＣデコーダを備える。さらにまた、デコーダデバイスは、圧縮されたオブジェクトメタデータを復号化し、未圧縮のメタデータを取得する、オブジェクトメタデータデコーダを備える。さらに、デコーダデバイスは、１つ以上のオーディオ入力チャンネルを変換し、１つ以上の変換チャンネルを取得する、フォーマットコンバータを備える。さらにまた、デコーダデバイスは、一群の１つ以上のレンダリングされたオーディオオブジェクトの１つ以上のレンダリングされたオーディオオブジェクトと、１つ以上の入力オーディオオブジェクトと、１つ以上の変換されたチャンネルとを混合し、１つ以上の復号化されたオーディオチャンネルを取得する、ミキサーを備える。オブジェクトメタデータデコーダとミキサーは、共に上述された実施形態の１つに係る装置を形成する。オブジェクトメタデータデコーダは、上述された実施形態の１つに係る装置の距離計算器を備え、距離計算器は、１つ以上の入力オーディオオブジェクトの各入力オーディオオブジェクトに対して、前記入力オーディオオブジェクトに関連する位置のスピーカーまでの距離を計算するまたは前記入力オーディオオブジェクトに関連する位置のスピーカーまでの距離を読み込み、最小距離を有する解をとるように構成される。ミキサーは、前記入力オーディオオブジェクトに対して、１つ以上の復号化されたオーディオチャンネルの１つの中で、上述された実施形態の１つに係る装置の距離計算器によって決定された解に対応するスピーカーに対して、１つ以上の入力オーディオオブジェクトの各入力オーディオオブジェクトを出力するように構成される。

位置に関連するオーディオオブジェクトを再生する方法は、以下を備える。

- 位置のスピーカーまでの距離を計算するまたは位置のスピーカーまでの距離を読み込む。

- 最小距離を有する解をとる。

- 解に対応するスピーカーを用いてオーディオオブジェクトを再生する。

さらに、コンピュータプログラムがコンピュータ上または信号処理器上で実行されるとき、上述された方法を実施するコンピュータプログラムが提供される。

以下において、本発明の実施形態が図面を参照して更に詳細に記述される。

実施形態に係る装置である。実施形態に係るオブジェクトレンダラーを示す。実施形態に係るオブジェクトメタデータプロセッサを示す。３Ｄオーディオエンコーダの概要を示す。実施形態に係る３Ｄオーディオエンコーダの概要を示す。フォーマットコンバータの構造を示す。

図１は、位置に関連するオーディオオブジェクトを再生する装置１００が提供される。

装置１００は、位置のスピーカーまでの距離を計算するまたは位置のスピーカーまでの距離を読み込む、距離計算器１１０を備える。距離計算器１１０は、最小距離を有する解をとるように構成される。

装置１００は、解に対応するスピーカーを用いてオーディオオブジェクトを再生するように構成される。

たとえば、各スピーカーに対して、位置（オーディオオブジェクトの位置）と前記スピーカー（前記スピーカーのロケーション）の間の距離が決定される。

実施形態によれば、距離計算器は、例えば、装置１００によって受信されている最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能である場合にのみ、位置のスピーカーまでの距離を計算するまたは位置のスピーカーまでの距離を読み取るように構成することができる。さらに、距離計算器は、例えば、最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能な場合にのみ、最小距離を有する解をとるように構成することができる。さらに、装置１００は、例えば、最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能である解のみに対応するスピーカーを用いてオーディオオブジェクトを再生するように構成することができる。

実施形態において、装置１００は、例えば、最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能な場合に、オーディオオブジェクト上にいかなるレンダリングも行わないように構成することができる。

実施形態によれば、距離計算器は、例えば、重み付けユークリッド距離または大円弧距離を返す距離関数に従って距離を計算するように構成することができる。

実施形態によれば、距離計算器は、例えば、累乗ｐ（ｐは数である）に対する重み付け絶対差分を返す距離関数によって距離を計算するように構成することができる。実施形態において、ｐは、例えばｐ＝２にセットすることができる。

実施形態において、距離計算器は、例えば、位置の１つのスピーカーまでの各距離Δ（Ｐ₁，Ｐ₂）が次式によって計算されるように、位置のスピーカーまでの距離を計算するように構成することができる。

Δ（Ｐ₁，Ｐ₂）＝｜β₁−β₂｜＋｜α₁−α₂｜＋｜ｒ₁−ｒ₂｜

α₁は位置の方位角を示し、α₂は前記１つのスピーカーの方位角を示し、β₁は位置の仰角を示し、β₂は前記１つのスピーカーの仰角を示し、ｒ₁は位置の半径を示し、ｒ₂は前記１つのスピーカーの半径を示す。または、α₁は前記１つのスピーカーの方位角を示し、α₂は位置の方位角を示し、β₁は前記１つのスピーカーの仰角を示し、β₂は位置の仰角を示し、ｒ₁は前記１つのスピーカーの半径を示し、ｒ₂は位置の半径を示す。

実施形態において、距離計算器は、例えば、位置の１つのスピーカーまでの各距離Δ（Ｐ₁，Ｐ₂）が次式によって計算されるように、位置のスピーカーまでの距離を計算するように構成することができる。

Δ（Ｐ₁，Ｐ₂）＝ｂ・｜β₁−β₂｜＋ａ・｜α₁−α₂｜＋ｃ・｜ｒ₁−ｒ₂｜

α₁は位置の方位角を示し、α₂は前記１つのスピーカーの方位角を示し、β₁は位置の仰角を示し、β₂は前記１つのスピーカーの仰角を示し、ｒ₁は位置の半径を示し、ｒ₂は前記１つのスピーカーの半径を示し、ａは第１の数であり、ｂは第２の数であり、ｃは第３の数である。または、α₁は前記１つのスピーカーの方位角を示し、α₂は位置の方位角を示し、β₁は前記１つのスピーカーの仰角を示し、β₂は位置の仰角を示し、ｒ₁は前記１つのスピーカーの半径を示し、ｒ₂は位置の半径を示し、ａは第１の数であり、ｂは第２の数であり、ｃは第３の数である。

以下において、本発明の実施形態が記述される。実施形態は、オーディオレンダリングに対して幾何学的な距離定義を用いるコンセプトを提供する。

オブジェクトメタデータは、次のいずれかを定義するために用いることができる。

１) 空間においてどこでオブジェクトがレンダリングされるべきか、または

２) オブジェクトを再生するためにどのスピーカーが用いられるべきか

メタデータにおいて示されるオブジェクトの位置が単一のスピーカーにかからない場合、オブジェクトレンダラーは、複数のスピーカーと定義されたパニング規則を用いることをベースとする出力信号を構築する。パニングは、局所音または音色に関して準最適である。

それ故に、特定の音は特定の方向から単一のスピーカーから来るべきであると定義することは、オブジェクトベースのコンテンツの製作者には望ましいと考えられる。

このスピーカーがユーザーのスピーカーセットアップにおいて存在しないことが起こる可能性がある。そのとき、レンダリングなしで最も近い利用可能なスピーカーによって再生されることを強いるフラグが、メタデータにおいてセットされる。

本発明は、所望のオブジェクト位置から許容可能な偏差からなるいくつかの重み付けを可能とする最も近いスピーカーをどのように発見することができるかを記述する。

図２は、実施形態に係るオブジェクトレンダラーを示す。

オブジェクトベースのオーディオフォーマットにおいて、メタデータはオブジェクト信号とともに記憶されるまたは伝送される。オーディオオブジェクトは、メタデータおよび再生環境に関する情報を用いて再生側でレンダリングされる。この種の情報は、例えばスピーカーの数またはスクリーンのサイズである。

表１．メタデータの例

オブジェクトに対して、幾何学的メタデータは、どのようにそれらがレンダリングされるべきか、例えば方位または高さにおける角度または基準位置、例えばリスナーに対する絶対位置を定義するために用いることができる。レンダラーは、幾何学的データおよび利用可能なスピーカーとそれらの位置に基づいてスピーカー信号を計算する。

オーディオオブジェクト（３Ｄ空間、例えば与えられた方位、高さおよび距離に関連するオーディオ信号）が、その関連する位置にレンダリングされるべきでないが、その代わりにローカルのスピーカーセットアップに存在するスピーカーによって再生される場合、一つの方法は、オブジェクトがメタデータによって再生されるべきスピーカーを定義することである。

にもかかわらず、製作者が特定のスピーカーによって再生されるオブジェクトコンテンツを望まないが、むしろ次の利用可能なスピーカー、すなわち「幾何学的に最も近い」スピーカー）によって再生されることを望むケースがある。これは、どのスピーカーがどのオーディオ信号に対応するかを定義するかまたは複数のスピーカー間でレンダリングする必要なしに、離散的な再生を可能にする。

本発明に係る実施形態は、以下の方法で上記から明らかになる。

メタデータフィールド：

表２．ＧｒｏｕｐＤｅｆｉｎｉｔｉｏｎ（）のシンタックス

ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔこのフラグは、メタデータエレメントグループのメンバーはレンダリングされるべきでないが、メンバーの幾何学的な位置に最も近いスピーカーによって直接再生されるべきであることを定義する。

ローカルのスピーカーセットアップを考慮に入れ、どのスピーカーによってまたはどの方向から音がレンダリングされるべきかの特定の情報によって、対応するレンダラーに対して信号のルーティングを実行するりマッピングが、オブジェクトメタデータプロセッサにおいてなされる。

図３は、実施形態に係るオブジェクトメタデータプロセッサを示す。

距離計算に対するストラテジーは、以下のように記述される。

− 最も近いスピーカーメタデータフラグがセットされている場合、音は最も近いスピーカーを通じて再生される

− このために、次のスピーカーまでの距離が計算される（または予め記憶されたテーブルから読み取る）

− 最小距離を有する解がとられる

− 距離関数は、例えば以下とすることができる（しかしながらそれに限定されない）

− 重み付けユークリッドまたは大円弧距離

− 方位角および仰角における重み付け絶対差分

− 累乗ｐ（ｐ＝２＝> 最小２乗法）に対する重み付け絶対差分

− 重み付け角度差分、例えばｄｉｆｆＡｎｇｌｅ＝ａｃｏｓ（ｃｏｓ（ａｚＤｉｆｆ）＊ｃｏｓ（ｅｌＤｉｆｆ）））

最も近いスピーカー計算に対する例は以下に提示される。

オーディオエレメントグループのｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔフラグが使用可能な場合、オーディオエレメントグループのメンバーはオーディオエレメントの与えられた位置に最も近いスピーカーによって各々再生される。レンダリングは適用されない。

極座標系における２つの位置Ｐ₁およびＰ₂の距離は、それらの方位角αおよび仰角βの絶対差分として定義される。

Δ（Ｐ₁，Ｐ₂）＝｜β₁−β₂｜＋｜α₁−α₂｜＋｜ｒ₁−ｒ₂｜

この距離は、オーディオエレメントの求められている位置Ｐ_wantedに関して、Ｎ個の出力スピーカーの全ての既知の位置Ｐ₁〜Ｐ_Nに対して計算されなければならない。

最も近い既知のスピーカー位置は、以下のようにオーディオエレメントの求められている位置までの距離が最小限になるものである。

Ｐ_next＝ｍｉｎ（Δ（Ｐ_wanted，Ｐ₁），Δ（Ｐ_wanted，Ｐ₂），・・・，Δ（Ｐ_wanted，Ｐ_N））

この式によって、仰角、方位角および／または半径に対して重み付けを加えることが可能である。そのような方法で、以下のように高い数によって方位角偏差を重み付けすることによって、方位角偏差が仰角偏差より許容されないように決めることが可能である。

Δ（Ｐ₁，Ｐ₂）＝ｂ・｜β₁−β₂｜＋ａ・｜α₁−α₂｜＋ｃ・｜ｒ₁−ｒ₂｜

実施例は、バイノーラルレンダリングに対する最も近いスピーカーの計算に関する。

オーディオコンテンツがヘッドホンまたはステレオスピーカーセットアップ上でバイノーラルステレオ信号として再生される場合、伝統的にオーディオコンテンツの各チャンネルはバイノーラルルームインパルス応答または頭部関連インパルス応答と数学的に結合される。

このインパルス応答の測定位置は、関連するチャンネルのオーディオコンテンツが知覚されるべき方向に対応しなければならない。マルチチャネルのオーディオシステムまたはオブジェクトベースのオーディオにおいて、定義可能な位置（スピーカーまたはオブジェクト位置のいずれかによって）の数は、利用可能なインパルス応答の数より大きいというケースがある。そのケースにおいて、チャンネル位置またはオブジェクト位置に対して利用可能な専用のものがない場合、適当なインパルス応答が選択されなければならない。知覚における最小の位置的変化のみを課すため、選択されたインパルス応答は「幾何学的に最も近い」インパルス応答とすべきである。

両方のケースにおいて、既知の位置（すなわち再生スピーカーまたはＢＲＩＲ）のリストのいずれが求められている位置に対して次であるかを決定することを必要とする（ＢＲＩＲ＝ＢｉｎａｕｒａｌＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）。それ故に、異なる位置の間の「距離」が定義されなければならない。

異なる位置の間の距離は、それらの方位角および仰角の絶対差分としてここで定義される。

以下の公式は、仰角αおよび方位角βによって定義される座標系において２つの位置Ｐ₁、Ｐ₂の距離を計算するために用いられる。

Δ（Ｐ₁，Ｐ₂）＝｜β₁−β₂｜＋｜α₁−α₂｜

次のように、第３の変数として半径ｒを加えることが可能である。

Δ（Ｐ₁，Ｐ₂）＝｜β₁−β₂｜＋｜α₁−α₂｜＋｜ｒ₁−ｒ₂｜

最も近い既知の位置は、求められている位置までの距離は最小となるものである。

Ｐ_next＝ｍｉｎ（Δ（Ｐ_wanted，Ｐ₁），Δ（Ｐ_wanted，Ｐ₂），・・・，Δ（Ｐ_wanted，_PN））

実施形態において、重みは、例えば、次のように立体角、方位角および／または半径に加えることができる。

Δ（Ｐ₁，Ｐ₂）＝ｂ・｜β₁−β₂｜＋ａ・｜α₁−α₂｜＋ｃ・｜ｒ₁−ｒ₂｜

いくつかの実施形態によれば、最も近いスピーカーは、例えば、以下のように決定することができる。

極座標系における２つの位置Ｐ₁およびＰ₂の距離は、例えば、次のようにそれらの方位角φおよび仰角θの絶対差分として定義することができる。

Δ（Ｐ₁，Ｐ₂）＝｜θ₁−θ₂｜＋｜φ₁−φ₂｜

最も近い既知のスピーカー位置は、次のようにオーディオエレメントの求められている位置までの距離が最小になるものである。

Ｐ_next＝ｍｉｎ（Δ（Ｐ_wanted，Ｐ₁），Δ（Ｐ_wanted，Ｐ₂），・・・，Δ（Ｐ_wanted，Ｐ_N））

たとえば、いくつかの実施形態によれば、ＣｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔフラグが１に等しい場合、いくつかの実施形態による最も近いスピーカーのプレイアウト処理をオーディオオブジェクトのグループの各メンバーに対して最も近い存在するスピーカーの位置を決定することによって行うことができる。

最も近いスピーカーのプレイアウト処理は、例えば、動的な位置データによるエレメントのグループに対して特に意味があると考えられる。最も近い既知のスピーカー位置は、例えば、オーディオエレメントの所望の／求められている位置までの距離が最小となるものとすることができる。

以下において、３Ｄオーディオコーデックシステムのシステム概要が提供される。本発明の実施形態は、この種の３Ｄオーディオコーデックシステムおいて行使することができる。３Ｄオーディオコーデックシステムは、例えば、チャンネルおよびオブジェクト信号の符号化に対して、ＭＰＥＧ−ＤＵＳＡＣコーデックに基づくことができる。

実施形態によれば、大量のオブジェクトの符号化に対して効率を増大させるため、ＭＰＥＧＳＡＯＣ技術が適用されてきた（ＳＡＯＣ＝ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）。たとえば、いくつかの実施形態によれば、３種類のレンダラーが、例えば、チャンネルにオブジェクトをレンダリングする、ヘッドホンにチャンネルをレンダリングする、または異なるスピーカーセットアップにチャンネルをレンダリングするタスクを実行することができる。

オブジェクト信号がＳＡＯＣを用いて明確に伝送されるまたはパラメトリック符号化されるとき、対応するオブジェクトメタデータ情報は圧縮され、３Ｄオーディオビットストリームに多重化される。

図４および図５は、３Ｄオーディオシステムの異なるアルゴリズム的ブロックを示す。特に、図４は、３Ｄオーディオエンコーダの概要を図示している。図５は、実施形態に係る３Ｄオーディオデコーダの概要を図示している。

ここで、図４および図５のモジュールの可能な実施形態が説明される。

図４において、プリレンダラー８１０（ミキサーとも称される）が図示されている。図４の構成において、プリレンダラー８１０（ミキサー）はオプションである。プリレンダラー８１０は、符合化の前にチャンネル＋オブジェクト入力シーンをチャンネルシーンに変換するためにオプションとして用いることができる。エンコーダ側のプリレンダラー８１０は、機能的に、例えば、以下で記述されるデコーダ側のオブジェクトレンダラー／ミキサー９２０の機能に関係することができる。オブジェクトのプリレンダリングは、基本的に同時にアクティブなオブジェクト信号の数から独立しているエンコーダ入力における決定的な信号エントロピーを確実にする。オブジェクトのプリレンダリングによって、いかなるオブジェクトメタデータの伝送も必要とされない。離散オブジェクト信号は、エンコーダが用いるように構成されているチャンネルレイアウトにレンダリングされる。各チャンネルに対するオブジェクトの重みは、関連するオブジェクトメタデータ（ＯＡＭ）から取得される。

スピーカーチャンネル信号、離散オブジェクト信号、オブジェクトダウンミックス信号およびプリレンダリングされた信号に対するコアコーデックは、ＭＰＥＧ−ＤＵＳＡＣ技術（ＵＳＡＣコアコーデック）に基づいている。ＵＳＡＣエンコーダ８２０（例えば、図４に図示された）は、構築するチャンネルによる多重信号‐および入力のチャンネルおよびオブジェクトアサインメントの幾何学的なおよびセマンティックな情報に基づくオブジェクトマッピング情報の符号化を処理する。このマッピング情報は、どのように入力チャンネルおよびオブジェクトがＵＳＡＣチャンネルエレメント（ＣＰＥ、ＳＣＥ、ＬＦＥ）にマッピングされるかを記述する。

ＳＡＯＣデータまたはオブジェクトメタデータのような全ての付加的なペイロードは、拡張エレメントを通過し、例えば、ＵＳＡＣエンコーダのレートコントロールにおいて考慮することができる。

オブジェクトの符号化は、レート／ディストーションの要求条件およびレンダラーに対する対話要求条件によって異なる方法で可能である。以下のオブジェクト符号化の変形が可能である。

− プリレンダリングされたオブジェクト：オブジェクト信号は、プリレンダリングされ、符合化の前に２２．２チャンネル信号に混合される。引き続く符号化チェーンは２２．２チャンネル信号を参照されたい。

− 離散オブジェクト波形：オブジェクトは、ＵＳＡＣエンコーダ８２０にモノラル波形として供給される。ＵＳＡＣエンコーダ８２０は、チャンネル信号に加えてオブジェクトを伝送するため、単一のチャンネルエレメントＳＣＥを用いる。復号化されたオブジェクトは、レシーバー側でレンダリングされ、混合される。圧縮されたオブジェクトメタデータ情報は、レシーバー／レンダラーに並んで伝送される。

− パラメトリックオブジェクト波形：オブジェクトの属性およびそれらの互いに対する関係は、ＳＡＯＣパラメータによって記述される。オブジェクト信号のダウンミックスは、ＵＳＡＣエンコーダ８２０によって符号化される。パラメトリック情報は、並んで伝送される。ダウンミックスチャンネルの数は、オブジェクトの数および全体のデータレートによって選択される。圧縮されたオブジェクトメタデータ情報は、ＳＡＯＣレンダラーに伝送される。

デコーダ側で、ＵＳＡＣデコーダ９１０はＵＳＡＣ復号化を行う。

さらに、実施形態によれば、デコーダが提供される（図５を参照）。デコーダは、ビットストリームを復号化し、１つ以上のオーディオ入力チャンネルを取得し、１つ以上のオーディオオブジェクトを取得し、圧縮されたオブジェクトメタデータを取得し、１つ以上のＳＡＯＣトランスポートチャンネルを取得する、ＵＳＡＣデコーダ９１０を備える。

さらにまた、デコーダは、１つ以上のＳＡＯＣトランスポートチャンネルを復号化し、１つ以上のレンダリングされたオーディオオブジェクトの第１のグループを取得する、ＳＡＯＣデコーダ９１５を備える。

さらにまた、デコーダは、１つ以上のオーディオ入力チャンネルを変換し、１つ以上の変換されたチャンネルを取得する、フォーマットコンバータ９２２を備える。

さらに、デコーダは、１つ以上のレンダリングされたオーディオオブジェクトの第１のグループのオーディオオブジェクトと、１つ以上のレンダリングされたオーディオオブジェクトの第２のグループのオーディオオブジェクトと、１つ以上の変換されたチャンネルとを混合し、１つ以上の復号化されたオーディオチャンネルを取得する、ミキサー９３０を備える。

図５において、デコーダの特定の実施形態が図示されている。ＳＡＯＣエンコーダ８１５（ＳＡＯＣエンコーダ８１５はオプションである。図４を参照）およびオブジェクト信号に対するＳＡＯＣデコーダ９１５（図５を参照）は、ＭＰＥＧＳＡＯＣ技術に基づいている。本システムは、より少ない数の送信チャンネルと付加的パラメトリックデータ（ＯＬＤ、ＩＯＣ、ＤＭＧ）（ＯＬＤ＝オブジェクトレベル差、ＩＯＣ＝オブジェクト間相関、ＤＭＧ＝ダウンミックスゲイン）に基づいて多くのオーディオオブジェクトを再構築し、修正し、レンダリングすることができる。付加的なパラメトリックデータは、全てのオブジェクトを個別に送信するために必要なデータレートより有意に低いデータレートを呈し、符号化を非常に効率的にする。

ＳＡＯＣエンコーダ８１５は、入力としてモノラル波形としてのオブジェクト／チャンネル信号をとり、パラメトリック情報（それは、３Ｄオーディオビットストリームにパックされている）とＳＡＯＣトランスポートチャンネル（それは、単一のチャンネルエレメントを用いて符号化され、送信される）を出力する。

ＳＡＯＣデコーダ９１５は、復号化ＳＡＯＣトランスポートチャンネルとパラメトリック情報からオブジェクト／チャンネル信号を復元し、再生レイアウトと、解凍されたオブジェクトメタデータ情報と、オプションとしてユーザー対話処理情報とに基づいて出力オーディオシーンを生成する。

オブジェクトメタデータコーデックに関して、各オブジェクトに対して、３Ｄ空間におけるオブジェクトの幾何学的な位置と広がりを特定する関連するメタデータは、時間および空間におけるオブジェクト属性の定量化によって、例えば、図４のメタデータエンコーダ８１８によって、効率的に符号化される。圧縮されたオブジェクトメタデータｃＯＡＭ（ｃＯＡＭ＝圧縮されたオーディオオブジェクトメタデータ）は、サイド情報としてレシーバーに送信される。レシーバーにおいて、ｃＯＡＭは、メタデータデコーダ９１８によって復号化される。

たとえば、図５において、メタデータデコーダ９１８は、上述の実施形態のいずれかによって、例えば、図１の距離計算器１１０を実施することができる。

オブジェクトレンダラー、例えば、図５のオブジェクトレンダラー９２０は、圧縮されたオブジェクトメタデータを利用し、与えられた再生フォーマットによってオブジェクト波形を生成する。各オブジェクトは、そのメタデータによって特定の出力チャンネルにレンダリングされる。このブロックの出力は、部分的な結果の合計から結果として生じる。いくつかの実施形態において、最も近いスピーカーの決定が行われる場合、オブジェクトレンダラー９２０は、たとえば、ミキサー９３０に対してレンダリングすることなく、ＵＳＡＣ−３Ｄデコーダ９１０から受信されたオーディオオブジェクトをパスすることができる。ミキサー９３０は、たとえば、距離計算器によって決定された（例えば、メタデータデコーダ９１８の中で実施された）スピーカーに、オーディオオブジェクトをパスすることができる。この実施形態によって、例えば、距離計算器と、ミキサー９３０と、オプションとしてオブジェクトレンダラー９２０とを備えることができるメタデータデコーダ９１８は、図１の装置１００を一緒に実施することができる。

たとえば、メタデータデコーダ９１８は、距離計算器（図示せず）を備え、前記距離計算器またはメタデータデコーダ９１８は、例えば、ミキサー９３０に対する接続（図示せず）によって、ＵＳＡＣ−３Ｄデコーダから受信された１つ以上のオーディオオブジェクトの各オーディオオブジェクトに対する最も近いスピーカーをシグナリングすることができる。ミキサー９３０は、ここでスピーカーチャンネルの中で、複数のスピーカーの最も近いスピーカー（距離計算器で決定される）に対してのみ、オーディオオブジェクトを出力することができる。

いくつかの他の実施形態において、最も近いスピーカーは、ミキサー９３０に対して、距離計算器またはメタデータデコーダ９１８によって、１つ以上のオーディオオブジェクトに対してシグナリングされるだけである。

チャンネルベースのコンテンツ並びに離散／パラメトリックオブジェクトの両方が復号化される場合、チャンネルベースの波形とレンダリングされたオブジェクト波形は、例えば、図５のミキサー９３０によって結果として生じる波形を出力する前に（またはバイノーラルレンダラーまたはスピーカーレンダラーモジュールのような後処理モジュールにそれらを供給する前に）混合される。

バイノーラルレンダラーモジュール９４０は、各入力チャンネルが仮想音源によって表されるように、例えば、マルチチャンネルオーディオマテリアルのバイノーラルダウンミックスを産出することができる。処理は、ＱＭＦドメインにおいてフレームワイズに行われる。バイノーラル化は、例えば、測定されたバイノーラルルームインパルス応答に基づくことができる。

スピーカーレンダラー９２２は、例えば、送信されたチャンネル配置と所望の再生フォーマットの間で変換することができる。これは、従って以下においてフォーマットコンバータ９２２と呼ばれる。フォーマットコンバータ９２２は、低い数の出力チャンネルへの変換を実行し、例えば、それはダウンミックスを構築する。本システムは、入出力フォーマットの与えられた組合せに対して最適化されたダウンミックスマトリクスを自動的に生成し、これらのマトリクスをダウンミックスプロセスにおいて適用する。フォーマットコンバータ９２２は、標準のスピーカー構成並びに非標準のスピーカー位置によるランダム構成を可能にする。

実施形態によれば、デコーダデバイスが提供される。デコーダデバイスは、ビットストリームを復号化し、１つ以上のオーディオ入力チャンネルを取得し、１つ以上の入力オーディオオブジェクトを取得し、圧縮されたオブジェクトメタデータを取得し、１つ以上のＳＡＯＣトランスポートチャンネルを取得する、ＵＳＡＣデコーダ９１０を備える。

さらに、デコーダデバイスは、１つ以上ＳＡＯＣトランスポートチャンネルを復号化し、一群の１つ以上のレンダリングされたオーディオオブジェクトを取得する、ＳＡＯＣデコーダ９１５を備える。

さらにまた、デコーダデバイスは、圧縮されたオブジェクトメタデータを復号化し、未圧縮のメタデータを取得する、オブジェクトメタデータデコーダ９１８を備える。

さらに、デコーダデバイスは、１つ以上のオーディオ入力チャンネルを変換し、１つ以上の変換されたチャンネルを取得する、フォーマットコンバータ９２２を備える。

さらにまた、デコーダデバイスは、一群の１つ以上のレンダリングされたオーディオオブジェクトの１つ以上のレンダリングされたオーディオオブジェクトと、１つ以上の入力オーディオオブジェクトと、１つ以上の変換されたチャンネルとを混合し、１つ以上の復号化されたオーディオチャンネルを取得する、ミキサー９３０を備える。

オブジェクトメタデータデコーダ９１８とミキサー９３０は、共に上述の実施形態の１つ、例えば図１の実施形態に係る装置１００を形成する。

オブジェクトメタデータデコーダ９１８は、上述の実施形態の１つに係る装置１００の距離計算器１１０を備え、距離計算器１１０は、１つ以上の入力オーディオオブジェクトの各入力オーディオオブジェクトに対して、前記入力オーディオオブジェクトに関連する位置のスピーカーまでの距離を計算する、または前記入力オーディオオブジェクトに関連する位置のスピーカーまでの距離を読み込み、最小距離を有する解をとるように構成される。

ミキサー９３０は、前記入力オーディオオブジェクトに対して、１つ以上の復号化されたオーディオチャンネルの１つの中で、上述の実施形態の１つに係る装置１００の距離計算器１１０によって決定された解に対応するスピーカーに対して、１つ以上の入力オーディオオブジェクトの各入力オーディオオブジェクトを出力するように構成される。

このような実施形態において、オブジェクトレンダラー９２０は、例えばオプションとすることができる。いくつかの実施形態において、オブジェクトレンダラー９２０は、存在することができるが、メタデータ情報が、最も近いスピーカープレイアウトがアクティブでないことを示している場合に、入力オーディオオブジェクトをレンダリングすることができるだけである。メタデータ情報が、最も近いスピーカープレイアウトがアクティブであることを示している場合に、オブジェクトレンダラー９２０は、例えば、入力オーディオオブジェクトをレンダリングすることなく、入力オーディオオブジェクトを直接ミキサーにパスすることができる。

図６は、フォーマットコンバータの構造を示す。図６は、ＱＭＦドメイン（ＱＭＦドメイン＝直交ミラーフィルタドメイン）においてダウンミックスを処理するダウンミックスコンフィギュレータ１０１０とダウンミックスプロセッサを示す。

以下において、本発明の実施形態の更なる実施形態およびコンセプトが記述される。

実施形態において、オーディオオブジェクトは、例えばオブジェクトレンダラーによって、例えば、メタデータおよび再生環境に関する情報を用いて再生側でレンダリングすることができる。この種の情報は、例えば、スピーカーの数またはスクリーンのサイズとすることができる。オブジェクトレンダラーは、例えば、幾何学的データおよび利用可能なスピーカーおよびそれらの位置に基づいてスピーカー信号を計算することができる。

オブジェクトのユーザー制御は、例えば、記述的メタデータによって、例えばビットストリーム内のオブジェクトの存在およびオブジェクトのハイレベル属性に関する情報によって実現することができる、または、例えば、拘束性メタデータによって、例えばどれだけの対話処理が可能であるかまたはコンテンツクリエーターによって使用可能であるかの情報によって実現することができる。

実施形態によれば、シグナリング、配信、およびオーディオオブジェクトのレンダリングは、位置的メタデータによって、例えば構造的メタデータ、たとえば、オブジェクトのグループ化および階層化によって、例えば、特定のスピーカーにおよびオブジェクトとしての信号チャンネルにレンダリングする能力によって、および、例えば、オブジェクトシーンをスクリーンサイズに適応させる手段によって実現することができる。

それ故に、３Ｄ空間におけるオブジェクトの既に定義された幾何学的位置およびレベルに加えて、新しいメタデータフィールドが開発された。

一般に、オブジェクト位置は、メタデータにおいて示される３Ｄ空間における位置によって定義される。

この再生スピーカーは、ローカルのスピーカーセットアップに存在する特定のスピーカーである可能性がある。このケースにおいて、所望のスピーカーは、メタデータによって直接定義される可能性がある。

にもかかわらず、製作者が、オーディオオブジェクトが、特定のスピーカーによって再生されることを望まないが、むしろ次の利用可能なスピーカー、例えば「幾何学的に最も近い」スピーカーによって再生されることを望むケースがある。これは、どのスピーカーがどのオーディオ信号に対応するかを定義する必要なしに離散的な再生を可能とする。これは、製作者がどのスピーカーを選択することができるかを知ることができないように、再生スピーカーレイアウトを製作者に対して未知とすることができるので、有益である。

実施形態は、いかなる平方根演算またはｃｏｓ／ｓｉｎ関数も必要としない距離関数の単純な定義を提供する。実施形態において、距離関数は、角度ドメイン（方位角、仰角、距離）において働くので、他のいかなる座標系（直交、経度／緯度）への変換も必要とされない。実施形態によれば、方位角偏差、仰角偏差および半径偏差の間でフォーカスをシフトする可能性を提供する関数において重み付けがある。本関数における重み付けは、例えば、人間の聴覚の能力に対して調整する（例えば、方位角および仰角方向における顕著な差異によって重みを調整する）ことができる。本関数は、最も近いスピーカーの決定に対してだけでなく、バイノーラルルームインパルス応答またはバイノーラルレンダリングに対する頭部関連インパルス応答の選択に対しても適用することができる。このケースにおいていかなるインパルス応答の補間も必要とされず、その代わりに「最も近い」インパルス応答を用いることができる。

実施形態によれば、ｍａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔと呼ばれる「ＣｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ」フラグは、例えば、音がレンダリングなしに最も近い利用可能なスピーカーによって再生されることを強制するオブジェクトベースのメタデータにおいて定義することができる。オブジェクトは、例えば、その「ＣｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ」フラグが１にセットされている場合に、最も近いスピーカーによる再生に対してマークすることができる。「ＣｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ」フラグは、例えば、オブジェクトの「グループ」のレベルについて定義することができる。オブジェクトのグループは、ユニオンとしてレンダリングされるまたは修正されるべき関連オブジェクトの集合のコンセプトである。このフラグが１にセットされる場合に、それはグループの全てのメンバーに対して適用可能である。

実施形態によれば、最も近いスピーカーの決定に対して、グループ、例えば一群のオーディオオブジェクトのｍａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔフラグがイネーブルである場合に、グループのメンバーはオブジェクトの所定の位置に最も近いスピーカーによって各々再生される。いかなるレンダリングも適用されない。「ＣｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ」がグループに対してイネーブルである場合に、以下の処理が行われる。

グループメンバーの各々に対して、メンバーの幾何学的な位置が（動的オブジェクトメタデータ（ＯＡＭ）から）決定され、予め記憶されたテーブルにおけるルックアップまたは距離尺度の助けによる計算によって、最も近いスピーカーが決定される。メンバー位置の存在するスピーカーのすべて（またはサブセットのみ）までの距離が計算される。最小距離をもたらすスピーカーは最も近いスピーカーとして定義され、メンバーはその最も近いスピーカーに対してルーティングされる。グループメンバーは、その最も近いスピーカーによって各々再生される。

すでに記述されたように、最も近いスピーカーの決定に対する距離尺度は、たとえば、次のように実施することができる。

− 方位角および仰角における重み付けされた絶対差分
− 方位角、仰角および半径／距離における重み付けされた絶対差分およびたとえば（それに限定されないが）
− 累乗ｐ（ｐ＝２＝> 最小２乗法）に対する重み付けされた絶対差分
− （重み付けされた）ピタゴラスの定理／ユークリッド距離

直交座標に対する距離ｄは、例えば、次式を使用することによって実現することができる。

ここで、ｘ₁、ｙ₁、ｚ₁は第１の位置のｘ、ｙ、ｚ座標値であり、ｘ₂、ｙ₂、ｚ₂は第２の位置のｘ、ｙ、ｚ座標値であり、ｄは第１の位置と第２の位置の間の距離である。

極座標に対する距離尺度ｄは、例えば、次式を使用することによって実現することができる。

ここで、α₁、β₁、ｒ₁は第１の位置の極座標であり、α₂、β₂、ｒ₂は第２の位置の極座標であり、ｄは第１の位置と第２の位置の間の距離である。

重み付けされた角度差分は、例えば、次式によって定義することができる。

ｄｉｆｆＡｎｇｌｅ＝ａｃｏｓ（ｃｏｓ（α₁−α₂）・ｃｏｓ（β₁−β₂））

順行距離、大円弧距離、または大圏距離に関して、距離は、球体の表面に沿って測定された（球体の内部を通る直線と対比されるような）ものである。平方根演算および三角関数を、例えば、使用することができる。座標は、例えば、緯度と経度に変換することができる。

上述された式に戻ると、

Δ（Ｐ₁，Ｐ₂）＝｜β₁−β₂｜＋｜α₁−α₂｜＋｜ｒ₁−ｒ₂｜

本式は、次式のオリジナルのタクシー幾何学定義におけるような直交座標の代わりに、極座標を用いた修正されたタクシー幾何学距離とみなすことができる。

Δ（Ｐ₁，Ｐ₂）＝｜ｘ₁−ｘ₂｜＋｜ｙ₁−ｙ₂｜

この式によって、仰角、方位角および／または半径に重み付けを加えることが可能である。そのような方法で、高い数で方位角偏差を重み付けすることによって、方位角偏差が仰角偏差より許容できないように決めることが可能である。

Δ（Ｐ₁，Ｐ₂）＝ｂ・｜β₁−β₂｜＋ａ・｜α₁−α₂｜＋ｃ・｜ｒ₁−ｒ₂｜

更なる補足の注釈として、実施形態において、図２の「レンダリングされたオブジェクトオーディオ」は、例えば「レンダリングされたオブジェクトベースのオーディオ」とみなすことができることに留意すべきである。図２において、静的オブジェクトメタデータに関するｕｓａｃＣｏｎｆｉｇＥｘｔｅｎｔｉｏｎおよびｕｓａｃＥｘｔｅｎｓｉｏｎは、特定の実施形態の例としてのみ用いられる。

図３に関して、いくつかの実施形態において、図３の動的オブジェクトメタデータは、例えば、位置的ＯＡＭ（オーディオオブジェクトメタデータ、位置的データ＋ゲイン）とすることができることに留意すべきである。いくつかの実施形態では、「ルート信号」は、例えば、フォーマットコンバータに対するまたはオブジェクトレンダラーに対するルーティングシグナルによって行うことができる。

いくつかの態様が装置の局面において記載されたが、これらの態様は、また対応する方法の記載を表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの構成に対応する。同様に、方法ステップの局面において記載された態様は、対応する装置の対応するブロックまたは項目または構成の記載を表す。

発明の分解された信号は、デジタル記憶媒体に記憶することができる、または無線伝送媒体または有線伝送媒体のような伝送媒体、例えばインターネット上で伝送することができる。

特定の実施要求によって、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に格納される電子的に読取可能な制御信号を有し、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する（または協働することができる）、デジタル記憶媒体、たとえば、フロッピーディスク（登録商標）、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはＦＬＡＳＨメモリを用いて実行することができる。

本発明に係るいくつかの実施形態は、本願明細書に記載された方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読取可能な制御信号を有する非遷移的なデータキャリアを備える。

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、方法の１つを実行するために動作するプログラムコードによるコンピュータプログラム製品として実施することができる。プログラムコードは、機械読取可能キャリアに格納することができる。

他の実施形態は、機械読取可能キャリアに格納された、本願明細書に記載された方法の１つを実行するためのコンピュータプログラムを備える。

言い換えれば、発明の方法の実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の１つを実行するプログラムコードを有するコンピュータプログラムである。

発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の１つを実行するためのコンピュータプログラムをその上に記録されて備えるデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。

発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の１つを実行するコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続を介して、たとえばインターネットを介して、伝送されるように構成することができる。

更なる実施形態は、本願明細書に記載された方法の１つを実行するように構成されたまたは適合された処理手段、たとえばコンピュータ、またはプログラマブルロジックデバイスを備える。

更なる実施形態は、本願明細書に記載された方法の１つを実行するコンピュータプログラムがその上にインストールされたコンピュータを備える。

いくつかの実施形態では、プログラマブルロジックデバイス（たとえばフィールドプログラマブルゲートアレイ）を、本願明細書に記載された方法の機能の一部または全てを実行するために用いることができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の１つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。

上述された実施形態は、単に本発明の原理に対して示されたものである。本願明細書に記載された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。それ故に、本願発明は、間近に迫った特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述および説明の方法によって示された特定の詳細によって制限されないことが意図される。

Claims

位置に関連するオーディオオブジェクトを再生する装置（１００）であって、
前記位置のスピーカーまでの距離を計算する距離計算器（１１０）を備え、前記距離計算器（１１０）は、最小距離を有する解をとるように構成され、
前記装置は、前記解に対応するスピーカーを用いて前記オーディオオブジェクトを再生するように構成され、
前記距離計算器（１１０）は、大円弧距離を返す、または方位角および仰角における重み付け絶対差分を返す、または重み付け角度差分を返す距離関数によって距離を計算するように構成された、
装置（１００）。
前記距離計算器（１１０）は、最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能な場合にのみ、前記位置のスピーカーまでの距離を計算するように構成され、前記距離計算器（１１０）は、最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能な場合にのみ、最小距離を有する解をとるように構成され、
前記スピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能である解のみに対応するスピーカーを用いて前記オーディオオブジェクトを再生するように構成された、
請求項１に記載の装置（１００）。
前記最も近いスピーカープレイアウトフラグ（ｍｄａｅ＿ｃｌｏｓｅｓｔＳｐｅａｋｅｒＰｌａｙｏｕｔ）が使用可能な場合に、前記オーディオオブジェクトにいかなるレンダリングも行わないように構成された、請求項２に記載の装置（１００）。
前記距離関数は、

ｄｉｆｆＡｎｇｌｅ＝ａｃｏｓ（ｃｏｓ（ａｚＤｉｆｆ）＊ｃｏｓ（ｅｌＤｉｆｆ））

ここで、ａｚＤｉｆｆは、２つの方位角の差分を示し、
ｅｌＤｉｆｆは、２つの仰角の差分を示し、
ｄｉｆｆＡｎｇｌｅは、重み付け角度差分を示す、

に従って定義される、請求項１〜３のいずれかに記載の装置（１００）。
前記距離計算器（１１０）は、前記位置の１つのスピーカーまでの各距離Δ（Ｐ₁，Ｐ₂）が、

Δ（Ｐ₁，Ｐ₂）＝｜β₁−β₂｜＋｜α₁−α₂｜

ここで、α₁は前記位置の方位角を示し、α₂は前記１つのスピーカーの方位角を示し、β₁は前記位置の仰角を示し、β₂は前記１つのスピーカーの仰角を示す、または

ここで、α₁は前記１つのスピーカーの方位角を示し、α₂は前記位置の方位角を示し、β₁は前記１つのスピーカーの仰角を示し、β₂は前記位置の仰角を示す、

に従って計算されるように、前記位置のスピーカーまでの距離を計算するように構成された、請求項１〜４のいずれかに記載の装置。
前記距離計算器（１１０）は、前記位置の１つのスピーカーまでの各距離Δ（Ｐ₁，Ｐ₂）が、

Δ（Ｐ₁，Ｐ₂）＝｜β₁−β₂｜＋｜α₁−α₂｜＋｜ｒ₁−ｒ₂｜

ここで、α₁は前記位置の方位角を示し、α₂は前記１つのスピーカーの方位角を示し、β₁は前記位置の仰角を示し、β₂は前記１つのスピーカーの仰角を示し、ｒ₁は前記位置の半径を示し、ｒ₂は、前記１つのスピーカーの半径を示す、または

ここで、α₁は前記１つのスピーカーの方位角を示し、α₂は前記位置の方位角を示し、β₁は前記１つのスピーカーの仰角を示し、β₂は前記位置の仰角を示し、ｒ₁は前記１つのスピーカーの半径を示し、ｒ₂は前記位置の半径を示す、

に従って計算されるように、前記位置のスピーカーまでの距離を計算するように構成された、請求項１〜４のいずれかに記載の装置（１００）。
前記距離計算器（１１０）は、前記位置の１つのスピーカーまでの各距離Δ（Ｐ₁，Ｐ₂）が、

Δ（Ｐ₁，Ｐ₂）＝ｂ・｜β₁−β₂｜＋ａ・｜α₁−α₂｜

ここで、α₁は前記位置の方位角を示し、α₂は前記１つのスピーカーの方位角を示し、β₁は前記位置の仰角を示し、β₂は前記１つのスピーカーの仰角を示し、ａは第１の数であり、ｂは第２の数である、または

ここで、α₁は前記１つのスピーカーの方位角を示し、α₂は前記位置の方位角を示し、β₁は前記１つのスピーカーの仰角を示し、β₂は前記位置の仰角を示し、ａは第１の数であり、ｂは第２の数である、

に従って計算されるように、前記位置のスピーカーまでの距離を計算するように構成された、請求項１〜４のいずれかに記載の装置（１００）。
前記距離計算器（１１０）は、前記位置の１つのスピーカーまでの各距離Δ（Ｐ₁，Ｐ₂）が、

Δ（Ｐ₁，Ｐ₂）＝ｂ・｜β₁−β₂｜＋ａ・｜α₁−α₂｜＋ｃ・｜ｒ₁−ｒ₂｜

ここで、α₁は前記位置の方位角を示し、α₂は前記１つのスピーカーの方位角を示し、β₁は前記位置の仰角を示す、β₂は前記１つのスピーカーの仰角を示し、ｒ₁は前記位置の半径を示し、ｒ₂は前記１つのスピーカーの半径を示し、ａは第１の数であり、ｂは第２の数であり、ｃは第３の数である、または

ここで、α₁は前記１つのスピーカーの方位角を示し、α₂は前記位置の方位角を示し、β₁は前記１つのスピーカーの仰角を示し、β₂は前記位置の仰角を示し、ｒ₁は前記１つのスピーカーの半径を示し、ｒ₂は前記位置の半径を示し、ａは第１の数であり、ｂは第２の数であり、ｃは第３の数である、

に従って計算されるように、前記位置のスピーカーまでの距離を計算するように構成された、請求項１〜４のいずれかに記載の装置（１００）。
ビットストリームを復号化し、１つ以上のオーディオ入力チャンネルを取得し、１つ以上の入力オーディオオブジェクトを取得し、圧縮されたオブジェクトメタデータを取得し、１つ以上のＳＡＯＣトランスポートチャンネルを取得する、ＵＳＡＣデコーダ（９１０）と、
１つ以上ＳＡＯＣトランスポートチャンネルを復号化し、一群の１つ以上のレンダリングされたオーディオオブジェクトを取得する、ＳＡＯＣデコーダ（９１５）と、
前記圧縮されたオブジェクトメタデータを復号化し、未圧縮のメタデータを取得する、オブジェクトメタデータデコーダ（９１８）と、
前記１つ以上のオーディオ入力チャンネルを変換し、１つ以上の変換されたチャンネルを取得する、フォーマットコンバータ（９２２）と、
前記一群の１つ以上のレンダリングされたオーディオオブジェクトの１つ以上のレンダリングされたオーディオオブジェクトと、前記１つ以上の入力オーディオオブジェクトと、前記１つ以上の変換されたチャンネルとを混合し、１つ以上の復号化されたオーディオチャンネルを取得する、ミキサー（９３０）と、
を備え、
前記オブジェクトメタデータデコーダ（９１８）と前記ミキサー（９３０）は、共に請求項１〜８のいずれかに記載の装置（１００）を形成し、
前記オブジェクトメタデータデコーダ（９１８）は、請求項１〜８のいずれかに記載の装置（１００）の距離計算器（１１０）を備え、前記距離計算器（１１０）は、前記１つ以上の入力オーディオオブジェクトの各入力オーディオオブジェクトに対して、前記入力オーディオオブジェクトに関連する位置のスピーカーまでの距離を計算し、最小距離を有する解をとるように構成され、
前記ミキサー（９３０）は、前記入力オーディオオブジェクトに対して、前記１つ以上の復号化されたオーディオチャンネルの１つの中で、請求項１〜８のいずれかに記載の装置（１００）の距離計算器（１１０）によって決定された解に対応するスピーカーに対して、前記１つ以上の入力オーディオオブジェクトの各入力オーディオオブジェクトを出力するように構成された、
デコーダデバイス。
位置に関連するオーディオオブジェクトを再生する方法であって、
前記位置のスピーカーまでの距離を計算するステップと、
最小距離を有する解をとるステップと、
前記解に対応するスピーカーを用いて前記オーディオオブジェクトを再生するステップと、
を備え、
前記距離を計算するステップは、大円弧距離を返す、または方位角および仰角における重み付け絶対差分を返す、または重み付け角度差分を返す距離関数によって行われる、
方法。
コンピュータプログラムがコンピュータ上または信号処理器上で実行されるとき、請求項１０に記載の方法を実施する、コンピュータプログラム。