JP6055576B2 - 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン - Google Patents

任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン Download PDF

Info

Publication number
JP6055576B2
JP6055576B2 JP2016529770A JP2016529770A JP6055576B2 JP 6055576 B2 JP6055576 B2 JP 6055576B2 JP 2016529770 A JP2016529770 A JP 2016529770A JP 2016529770 A JP2016529770 A JP 2016529770A JP 6055576 B2 JP6055576 B2 JP 6055576B2
Authority
JP
Japan
Prior art keywords
audio
gain
cluster
cluster centroid
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016529770A
Other languages
English (en)
Other versions
JP2016530792A (ja
Inventor
ソレ,アントニオ マテオス
ソレ,アントニオ マテオス
センガルレ,ギウリオ
ジェロエンブリーバルト,ディルク
エール. トウィンゴ,ニコラ
エール. トウィンゴ,ニコラ
Original Assignee
ドルビー・インターナショナル・アーベー
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー, ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2016530792A publication Critical patent/JP2016530792A/ja
Application granted granted Critical
Publication of JP6055576B2 publication Critical patent/JP6055576B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

関連出願への相互参照
本願は2013年7月30日に出願されたスペイン特許出願第P201331169号および2014年6月9日に出願された米国仮特許出願第62/009,536号からの優先権を主張する。各出願の内容はここに参照によってその全体において組み込まれる。
技術分野
本開示は、オーディオ・データを処理することに関する。特に、本開示は、オーディオ・オブジェクトに対応するオーディオ・データを処理することに関する。
1927年に映画に音声が導入されて以来、映画サウンドトラックの芸術的な意図を捉えてその内容を再現するために使われる技術は着実に進歩を遂げてきた。1970年代には、ドルビーは、3つのスクリーン・チャネルおよびモノのサラウンド・チャネルとの混合をエンコードおよび配布するコスト効率のよい手段を導入した。ドルビーは1990年代に、離散的な左、中央および右スクリーン・チャネル、左および右のサラウンド・アレイおよび低域効果のためのサブウーファー・チャネルを与える5.1チャネル・フォーマットをもって映画館にデジタル・サウンドをもたらした。2010年に導入されたドルビー・サラウンド7.1は、既存の左および右サラウンド・チャネルを四つの「ゾーン」に分割することによって、サラウンド・チャネルの数を増やした。
映画館およびホームシアターのオーディオ再生システムはいずれもますます多用途かつ複雑になりつつある。ホームシアターのオーディオ再生システムはますます多くのスピーカーを含むようになってきている。チャネル数が増し、ラウドスピーカー・レイアウトが平面的な二次元(2D)アレイから高さを含む三次元(3D)アレイに移行するにつれ、再生環境における音の再現はますます複雑なプロセスになりつつある。改善されたオーディオ処理方法が望ましいであろう。
V. Pulkki、Compensating Displacement of Amplitude-Panned Virtual Sources、Audio Engineering Society (AES) International Conference on Virtual, Synthetic and Entertainment Audio
オーディオ・オブジェクトを処理するための改善された方法が提供される。本稿での用法では、用語「オーディオ・オブジェクト」は、オーディオ信号(本稿では「オーディオ・オブジェクト信号」とも称される)および関連するメタデータを指してもよい。関連するメタデータは、いかなる特定の再生環境も参照することなく生成または「オーサリング」されてもよい。関連するメタデータは、オーディオ・オブジェクト位置データ、オーディオ・オブジェクト利得データ、オーディオ・オブジェクト・サイズ・データ、オーディオ・オブジェクト軌跡データなどを含んでいてもよい。本稿での用法では、用語「クラスタリング」および「グループ化」または「組み合わせ」は、適応的なオーディオ再生システムにおける伝送およびレンダリングのために適応的なオーディオ・コンテンツのユニット中のデータの量を減らすために、オブジェクトおよび/またはベッド(チャネル)を「クラスター」に組み合わせることを記述するために交換可能に使われる。本稿での用法では、用語「レンダリング」は、オーディオ・オブジェクトまたはクラスターを、特定の再生環境のためのスピーカー・フィード信号に変換するプロセスを指しうる。レンダリング・プロセスは、少なくとも部分的には、前記関連するメタデータに従って、かつ再生環境データに従って実行されてもよい。再生環境データは、再生環境中のスピーカーの数の指示および再生環境内の各スピーカーの位置の指示を含んでいてもよい。
本稿に記述されるいくつかの実装は、N個のオーディオ・オブジェクトを含むオーディオ・データを受領することに関わっていてもよい。オーディオ・オブジェクトは、オーディオ信号および関連するメタデータを含んでいてもよい。メタデータは、少なくともオーディオ・オブジェクト位置データを含んでいてもよい。いくつかの実施形態では、本方法は、N個のオーディオ・オブジェクトからM個のクラスターを生成するオーディオ・オブジェクト・クラスタリング・プロセスを実行することに関わっていてもよい。MはNより小さい数である。
クラスタリング・プロセスは、M個の代表的なオーディオ・オブジェクトを選択し、該M個の代表的なオーディオ・オブジェクトのそれぞれのオーディオ・オブジェクト位置データに従って前記M個のクラスターのそれぞれについてのクラスター重心位置を決定することに関わっていてもよい。いくつかの実装では、各クラスター重心位置は、あるクラスターに関連付けられたすべてのオーディオ・オブジェクトの位置を代表する単一の位置であってもよい。
クラスタリング・プロセスは、前記N個のオーディオ・オブジェクトのそれぞれについてのオーディオ信号の、前記M個のクラスターの少なくとも一つへの利得寄与を決定することに関わっていてもよい。いくつかの実装では、利得寄与の決定は、ラウドネス中心位置を決定し、コスト関数の最小値を決定することに関わっていてもよい。いくつかの例では、コスト関数の第一の項は、ラウドネス中心位置とオーディオ・オブジェクト位置との間の差を表わしていてもよい。
いくつかの実装では、ラウドネス中心位置は、クラスター重心位置および各クラスターに割り当てられた利得の関数であってもよい。いくつかの例では、ラウドネス中心位置を決定することは、重み付けプロセスを介して諸クラスター重心位置を組み合わせることに関わっていてもよい。ここで、クラスター重心位置に適用される重みはそのクラスター重心位置に割り当てられた利得に対応する。たとえば、ラウドネス中心位置を決定することは:各クラスター重心位置と各クラスター重心位置に割り当てられた利得との積を決定し;それらの積の和を計算し;すべてのクラスター重心位置についての利得の和を決定し;前記積の和を前記利得の和で割ることに関わってもよい。
いくつかの実装では、コスト関数の第二の項は、オブジェクト位置とクラスター重心位置との間の距離を表わしていてもよい。たとえば、コスト関数の第二の項は、オブジェクト位置とクラスター重心位置との間の距離の二乗に比例してもよい。いくつかの実装では、コスト関数の第三の項は、決定された利得寄与についてのスケールを設定してもよい。いくつかの実装では、コスト関数は各クラスターに割り当てられた利得の二次関数であってもよい。しかしながら、他の実装では、コスト関数は二次関数でなくてもよい。
いくつかの実装では、本方法は、オーディオ・オブジェクトの、対応するクラスターにおける利得寄与に従って、少なくとも一つのクラスター重心位置を修正することに関わっていてもよい。いくつかの例では、少なくとも一つのクラスター重心位置が時間変化してもよい。
本稿に記載されるいくつかの代替的な実装は、N個のオーディオ・オブジェクトを含むオーディオ・データを受領することに関わっていてもよい。オーディオ・オブジェクトはオーディオ信号および関連するメタデータを含んでいてもよい。メタデータは、少なくともオーディオ・オブジェクト位置データを含んでいてもよい。いくつかの実装では、本方法は、N個のオーディオ・オブジェクトのそれぞれについてのオーディオ信号の、M個のスピーカーのうちの少なくとも一つへの利得寄与を決定することに関わっていてもよい。
たとえば、利得寄与を決定することは、ラウドネス中心位置を決定し、コスト関数の最小値を決定することに関わっていてもよい。ラウドネス中心位置は、スピーカー位置および各スピーカーに割り当てられた利得の関数であってもよい。いくつかの例では、コスト関数の第一の項は、ラウドネス中心位置とオーディオ・オブジェクト位置との間の差を表わしていてもよい。
ラウドネス中心位置を決定することは:重み付けプロセスを介して諸スピーカー位置を組み合わせることに関わっていてもよい。ここで、スピーカー位置に適用される重みはそのスピーカー位置に割り当てられた利得に対応する。たとえば、ラウドネス中心位置を決定することは:各スピーカー位置と各対応するスピーカーに割り当てられた利得との積を決定し;それらの積の和を計算し;すべてのスピーカーについての利得の和を決定し;前記積の和を前記利得の和で割ることに関わってもよい。
いくつかの実装では、コスト関数の第二の項は、オーディオ・オブジェクト位置とスピーカー位置との間の距離を表わしていてもよい。たとえば、コスト関数の第二の項は、オーディオ・オブジェクト位置とスピーカー位置との間の距離の二乗に比例してもよい。いくつかの実装では、コスト関数の第三の項が、決定された利得寄与についてのスケールを設定する。
いくつかの実装では、コスト関数は各スピーカーに割り当てられた利得の二次関数であってもよい。しかしながら、他の実装では、コスト関数は二次関数でなくてもよい。
本稿に開示される方法は、ハードウェア、ファームウェア、一つまたは複数の非一時的媒体に記憶されたソフトウェアおよび/またはそれらの組み合わせを介して実装されてもよい。たとえば、本開示の少なくともいくつかの側面は、インターフェース・システムおよび論理システムを含む装置において実装されてもよい。インターフェース・システムはユーザー・インターフェースおよび/またはネットワーク・インターフェースを含んでいてもよい。いくつかの実装では、本装置は、メモリ・システムを含んでいてもよい。インターフェース・システムは、論理システムとメモリ・システムとの間の少なくとも一つのインターフェースを含んでいてもよい。
論理システムは、汎用の単一チップまたは複数チップ・プロセッサのような少なくとも一つのプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理、離散的なハードウェア・コンポーネントおよび/またはそれらの組み合わせを含んでいてもよい。いくつかの実装では、論理システムは、一つまたは複数の非一時的媒体に記憶されたソフトウェアに従って、少なくとも部分的には、本稿に開示される方法を実行することができてもよい。
いくつかの実装では、論理システムは、インターフェース・システムを介して、N個のオーディオ・オブジェクトを含むオーディオ・データを受領し、前記N個のオーディオ・オブジェクトのそれぞれについてのオーディオ・オブジェクト信号の、M個のスピーカーのうちの少なくとも一つへの利得寄与を決定することができてもよい。オーディオ・オブジェクトはオーディオ信号および関連するメタデータを含んでいてもよい。メタデータは、少なくともオーディオ・オブジェクト位置データを含んでいてもよい。いくつかの例では、利得寄与を決定することは、ラウドネス中心位置を決定し、コスト関数の最小値を決定することに関わっていてもよい。ラウドネス中心位置は、スピーカー位置および各スピーカーに割り当てられた利得の関数であってもよい。コスト関数の第一の項は、ラウドネス中心位置とオーディオ・オブジェクト位置との間の差を表わしていてもよい。いくつかの実装では、ラウドネス中心位置を決定することは、重み付けプロセスを介して諸スピーカー位置を組み合わせることに関わっていてもよい。ここで、スピーカー位置に適用される重みはそのスピーカー位置に割り当てられた利得に対応する。
いくつかの実装では、論理システムは、インターフェース・システムを介して、N個のオーディオ・オブジェクトを含むオーディオ・データを受領し、前記N個のオーディオ・オブジェクトのそれぞれについてのオーディオ・オブジェクト信号の、M個のクラスターのうちの少なくとも一つへの利得寄与を決定することができてもよい。オーディオ・オブジェクトは、オーディオ信号および関連するメタデータを含んでいてもよい。メタデータは、少なくともオーディオ・オブジェクト位置データを含んでいてもよい。
いくつかの実装では、論理システムは、N個のオーディオ・オブジェクトからM個のクラスターを生成するオーディオ・オブジェクト・クラスタリング・プロセスを実行することができてもよい。MはNより小さい数である。たとえば、クラスタリング・プロセスは:M個の代表的なオーディオ・オブジェクトを選択し;該M個の代表的なオーディオ・オブジェクトのそれぞれのオーディオ・オブジェクト位置データに従って前記M個のクラスターのそれぞれについてのクラスター重心位置を決定し;前記N個のオーディオ・オブジェクトのそれぞれについてのオーディオ・オブジェクト信号の、前記M個のクラスターのうちの少なくとも一つへの利得寄与を決定することに関わっていてもよい。各クラスター重心位置は、あるクラスターに関連付けられたすべてのオーディオ・オブジェクトの位置を代表する単一の位置であってもよい。いくつかの実装では、少なくとも一つのクラスター重心位置が時間変化してもよい。
いくつかの例では、利得寄与の決定は、ラウドネス中心位置を決定し、コスト関数の最小値を決定することに関わっていてもよい。ラウドネス中心位置は、クラスター重心位置および各クラスターに割り当てられた利得の関数であってもよい。コスト関数の第一の項は、ラウドネス中心位置とオーディオ・オブジェクト位置との間の差を表わしていてもよい。いくつかの実装では、ラウドネス中心位置を決定することは、重み付けプロセスを介して諸クラスター重心位置を組み合わせることに関わっていてもよい。ここで、クラスター重心位置に適用される重みはそのクラスター重心位置に割り当てられた利得に対応する。
いくつかの実装では、コスト関数の第二の項は、オブジェクト位置とスピーカー位置またはクラスター重心位置との間の距離を表わしていてもよい。たとえば、コスト関数の第二の項は、オブジェクト位置とスピーカー位置またはクラスター重心位置との間の距離の二乗に比例してもよい。いくつかの実装では、コスト関数の第三の項が、決定された利得寄与についてのスケールを設定してもよい。いくつかの実装では、コスト関数は各スピーカーまたはクラスターに割り当てられた利得の二次関数であってもよい。しかしながら、他の実装では、コスト関数は二次関数でなくてもよい。
本明細書に記載される主題の一つまたは複数の実装の詳細が、付属の図面および以下の記述において記載される。他の特徴、側面および利点は、該記述、図面および請求項から明白になるであろう。以下の図の相対的な寸法は縮尺通りに描かれていないことがあることを注意しておく。
ドルビー・サラウンド5.1配位をもつ再生環境の例を示す図である。 ドルビー・サラウンド7.1配位をもつ再生環境の例を示す図である。 AおよびBは、高さスピーカー配位を含むホームシアター再生環境の二つの例を示す図である。 仮想再生環境においてさまざまな高さにあるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース(GUI)の例を示す図である。 別の再生環境の例を示す図である。 クラスタリング・プロセスを実行できるシステムの例を示すブロック図である。 適応的なオーディオ処理システムにおいてオブジェクトおよび/またはベッドをクラスタリングすることのできるシステムの例を示すブロック図である。 AおよびBは、二つの異なる時点におけるオーディオ・オブジェクトのクラスターへの寄与を描く図である。 AおよびBは、オーディオ・オブジェクトに対応する利得を決定することの例を示す図である。 オーディオ・オブジェクトを諸スピーカー位置にレンダリングするいくつかの方法の概観を与える流れ図である。 オーディオ・オブジェクトを諸クラスターにレンダリングするいくつかの方法の概観を与える流れ図である。 オーディオ・オブジェクトを諸クラスターにレンダリングするいくつかの方法の概観を与える流れ図である。 クラスター重心位置を、対応するクラスターにおけるオーディオ・オブジェクトの利得寄与に従って修正することの例を与える図である。 クラスター重心位置を、対応するクラスターにおけるオーディオ・オブジェクトの利得寄与に従って修正することの例を与える図である。 本開示のさまざまな側面を実装することのできる装置のコンポーネントの例を与えるブロック図である。 オーディオ処理装置のコンポーネントの例を与える図である。 さまざまな図面における同様の参照符号および指定は同様の要素を示す。
以下の記述は、本開示のいくつかの斬新な側面およびこれら斬新な側面が実装されうるコンテキストの例を記述する目的のためのある種の実装に向けられる。しかしながら、本稿の教示はさまざまな異なる仕方で適用されることができる。たとえば、さまざまな実装が具体的な再生環境を使って記述されているが、本稿の教示は他の既知の再生環境および将来導入されうる再生環境に広く適用可能である。さらに、記載される実装は、ハードウェア、ソフトウェア、ファームウェア、クラウド・ベースのシステム等のようなさまざまな装置およびシステムにおいて少なくとも部分的には実装されてもよい。したがって、本開示の教示は、図面に示されるおよび/または本稿で記述される実装に限定されることは意図されておらず、むしろ広い適用可能性をもつものである。
図1は、ドルビー・サラウンド5.1配位をもつ再生環境の例を示している。この例において、再生環境は映画館再生環境である。ドルビー・サラウンド5.1は1990年代に開発されたが、この配位はいまだ広く家庭および映画館の再生環境に配備されている。映画館再生環境では、プロジェクター105が、たとえば映画のためのビデオ画像をスクリーン150に投影するよう構成されていてもよい。オーディオ・データは、該ビデオ画像と同期され、サウンド・プロセッサ110によって処理されてもよい。電力増幅器115はスピーカー・フィード信号を再生環境100のスピーカーに与えてもよい。
ドルビー・サラウンド5.1配位は、左サラウンド・アレイ122のための左サラウンド・チャネル120および右サラウンド・アレイ127のための右サラウンド・チャネル125を含む。ドルビー・サラウンド5.1配位は左スピーカー・アレイ132のための左チャネル130、中央スピーカー・アレイ137のための中央チャネル135および右スピーカー・アレイ142のための右チャネル140をも含む。映画館環境では、これらのチャネルはそれぞれ左スクリーン・チャネル、中央スクリーン・チャネルおよび右スクリーン・チャネルと称されることがある。サブウーファー145について別個の低域効果(LFE: low-frequency effects)チャネル144が設けられる。
2010年に、ドルビーはドルビー・サラウンド7.1を導入することによってデジタル映画館サウンドに対する向上を提供した。図2は、ドルビー・サラウンド7.1配位をもつ再生環境の例を示している。デジタル・プロジェクター205はデジタル・ビデオ・データを受領し、ビデオ画像をスクリーン150上に投影するよう構成されていてもよい。オーディオ・データは、サウンド・プロセッサ210によって処理されてもよい。電力増幅器215がスピーカー・フィード信号を再生環境200のスピーカーに提供してもよい。
ドルビー・サラウンド5.1と同様に、ドルビー・サラウンド7.1配位は、左スピーカー・アレイ132のための左チャネル、中央スピーカー・アレイ137のための中央チャネル135、右スピーカー・アレイ142のための右チャネル140およびサブウーファー145のためのLFEチャネル144を含む。ドルビー・サラウンド7.1配位は、左側方サラウンド(Lss: left side surround)・アレイ220および右側方サラウンド(Rss: right side surround)・アレイ225を含み、そのそれぞれは単一チャネルによって駆動されてもよい。
しかしながら、ドルビー・サラウンド7.1は、ドルビー・サラウンド5.1の左および右のサラウンド・チャネルを四つのゾーンに分割することによって、サラウンド・チャネルの数を増している。すなわち、左側方サラウンド・アレイ220および右側方サラウンド・アレイ225に加えて、左後方サラウンド(Lrs: left rear surround)・スピーカー224および右後方サラウンド(Rrs: right rear surround)・スピーカー226のために別個のチャネルが含まれる。再生環境200内のサラウンド・ゾーンの数を増すことは、音の定位を著しく改善できる。
より没入的な環境を生成しようとする努力において、いくつかの再生環境は、増加した数のチャネルによって駆動される増加した数のスピーカーをもって構成されることがある。さらに、いくつかの再生環境は、さまざまな高さに配備されるスピーカーを含むことがあり、そのようなスピーカーの一部は再生環境の座席領域より上方のエリアからの音を生成するよう構成された「高さスピーカー(height speaker)」であることがある。
図3のAおよびBは、高さスピーカー配位を含むホームシアター再生環境の二つの例を示している。これらの例では、再生環境300aおよび300bは、左サラウンド・スピーカー322、右サラウンド・スピーカー327、左スピーカー332、右スピーカー342、中央スピーカー337およびサブウーファー145を含むドルビー・サラウンド5.1配位の主な特徴を含む。しかしながら、再生環境300は、高さスピーカーのためのドルビー・サラウンド5.1配位の拡張を含み、これはドルビー・サラウンド5.1.2配位と称されることがある。
図3のAは、ホームシアター再生環境の天井360に取り付けられた高さスピーカーをもつ再生環境の例を示している。この例では、再生環境300aは、左上中間(Ltm: left top middle)位置にある高さスピーカー352および右上中間(Rtm: right top middle)位置にある高さスピーカー357を含んでいる。図3のBに示される例では、左スピーカー332および右スピーカー342は、天井360から音を反射させるよう構成されたドルビー・エレベーション(Dolby Elevation)・スピーカーである。適正に構成されれば、反射音は、聴取者365によって、あたかも音源が天井360から発しているかのように知覚されうる。しかしながら、これらのスピーカーの数および配位は単に例として挙げられている。いくつかの現行のホームシアター実装は、34個までのスピーカー位置を提供しており、構想されているホームシアター実装はさらに多くのスピーカー位置を許容することがありうる。
よって、現在のトレンドは、より多くのスピーカーおよびより多くのチャネルを含めるだけでなく、異なる高さのスピーカーをも含めるものである。チャネルの数が増し、スピーカー・レイアウトが2Dから3Dに移行するにつれて、サウンドを位置決めし、レンダリングするタスクはますます難しくなる。
よって、ドルビーは、3Dオーディオ・サウンド・システムのための機能を高めるおよび/またはオーサリング複雑さを軽減する、ユーザー・インターフェースを含むがそれに限られないさまざまなツールを開発した。いくつかのそのようなツールは、オーディオ・オブジェクトおよび/またはオーディオ・オブジェクトのためのメタデータを生成するために使用されうる。
図4Aは、仮想再生環境におけるさまざまな高さにあるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース(GUI)の例を示している。GUI 400はたとえば、論理システムからの命令に従って、ユーザー入力装置から受領される信号に従って、などにより表示装置上に表示されてもよい。いくつかのそのような装置は図11を参照して後述する。
仮想再生環境404のような仮想再生環境への言及に関する本稿での用法では、用語「スピーカー・ゾーン」は概括的に、実際の再生環境の再生スピーカーと一対一対応があってもなくてもよい論理的な構造体を指す。たとえば、「スピーカー・ゾーン位置」は、映画館再生環境の特定の再生スピーカー位置に対応してもしなくてもよい。その代わり、用語「スピーカー・ゾーン位置」は概括的に、仮想再生環境のゾーンを指してもよい。いくつかの実装では、仮想再生環境のスピーカー・ゾーンは、たとえば、二チャネル・ステレオ・ヘッドホンの組を使ってリアルタイムに仮想サラウンド・サウンド環境を生成するドルビー・ヘッドホン(商標)(時にモバイル・サラウンド(商標)と称される)のような仮想化技術の使用を通じて、仮想スピーカーに対応してもよい。GUI 400には、第一の高さに七つのスピーカー・ゾーン402aがあり、第二の高さに二つのスピーカー・ゾーン402bがあり、仮想再生環境404内のスピーカー・ゾーンは合計九つとなっている。この例では、スピーカー・ゾーン1〜3は仮想再生環境404の前方領域405にある。前方領域405はたとえば、映画館再生環境の、スクリーン150が位置する領域、家庭の、テレビジョン・スクリーンが位置する領域などに対応してもよい。
ここで、スピーカー・ゾーン4は概括的には左領域410のスピーカーに対応し、スピーカー・ゾーン5は仮想再生環境404の右領域415のスピーカーに対応する。スピーカー・ゾーン6は左後方領域412に対応し、スピーカー・ゾーン7は仮想再生環境404の右後方領域414に対応する。スピーカー・ゾーン8は上領域420aのスピーカーに対応し、スピーカー・ゾーン9は上領域420bのスピーカーに対応し、これは仮想天井領域であってもよい。したがって、図4Aに示されるスピーカー・ゾーン1〜9の位置は実際の再生環境の再生スピーカーの位置に対応してもしなくてもよい。さらに、他の実装はより多数またはより少数のスピーカー・ゾーンおよび/または高さを含んでいてもよい。
本稿に記載されるさまざまな実装において、GUI 400のようなユーザー・インターフェースが、オーサリング・ツールおよび/またはレンダリング・ツールの一部として使用されてもよい。いくつかの実装では、オーサリング・ツールおよび/またはレンダリング・ツールは、一つまたは複数の非一時的な媒体上に記憶されるソフトウェアを介して実装されてもよい。オーサリング・ツールおよび/またはレンダリング・ツールは、(少なくとも部分的には)図11を参照して後述する論理システムおよび他の装置のようなハードウェア、ファームウェアなどによって実装されてもよい。いくつかのオーサリング実装では、関連するオーサリング・ツールが関連するオーディオ・データについてのメタデータを生成するために使用されてもよい。メタデータは、たとえば、三次元空間におけるオーディオ・オブジェクトの位置および/または軌跡を示すデータ、スピーカー・ゾーン制約条件データなどを含んでいてもよい。メタデータは、実際の再生環境の特定のスピーカー・レイアウトに関してではなく、仮想再生環境404のスピーカー・ゾーン402に関して生成されてもよい。レンダリング・ツールは、オーディオ・データおよび関連するメタデータを受領してもよく、再生環境のためのオーディオ利得およびスピーカー・フィード信号を計算してもよい。そのようなオーディオ利得およびスピーカー・フィード信号は、振幅パン・プロセスに従って計算されてもよい。振幅パン・プロセスは、音が再生環境中の位置Pから来ているような知覚を創り出すことができるものである。たとえば、スピーカー・フィード信号は、次式
xi(t)=gix(t) i=1,…,N (式1)
に従って再生環境の再生スピーカー1ないしNに与えられてもよい。
式(1)において、xi(t)はスピーカーiに加えられるスピーカー・フィード信号を表し、giは対応するチャネルの利得因子を表し、x(t)はオーディオ信号を表し、tは時間を表す。利得因子はたとえばここに参照により組み込まれる非特許文献1のSection 2、pp.3-4に記載される振幅パン方法(amplitude panning methods)に従って決定されてもよい。いくつかの実装では、利得は周波数依存であってもよい。いくつかの実装では、x(t)をx(t−Δt)で置き換えることによって時間遅延が導入されてもよい。
いくつかのレンダリング実装では、スピーカー・ゾーン402を参照して生成されたオーディオ再生データは、ドルビー・サラウンド5.1配位、ドルビー・サラウンド7.1配位、浜崎22.2配位または他の配位であってもよい幅広い範囲の再生環境のスピーカー位置にマッピングされうる。たとえば、図2を参照するに、レンダリング・ツールは、スピーカー・ゾーン4および5についてのオーディオ再生データを、ドルビー・サラウンド7.1配位をもつ再生環境の左側方サラウンド・アレイ220および右側方サラウンド・アレイ225にマッピングしてもよい。スピーカー・ゾーン1、2および3についてのオーディオ再生データは、それぞれ左スクリーン・チャネル230、右スクリーン・チャネル240および中央スクリーン・チャネル235にマッピングされてもよい。スピーカー・ゾーン6および7についてのオーディオ再生データは、左後方サラウンド・スピーカー224および右後方サラウンド・スピーカー226にマッピングされてもよい。
図4Bは、別の再生環境の例を示している。いくつかの実装では、レンダリング・ツールは、スピーカー・ゾーン1、2および3についてのオーディオ再生データを再生環境450の対応するスクリーン・スピーカー455にマッピングしてもよい。レンダリング・ツールは、スピーカー・ゾーン4および5についてのオーディオ再生データを、左側方サラウンド・アレイ460および右側方サラウンド・アレイ465にマッピングしてもよく、スピーカー・ゾーン8および9についてのオーディオ再生データを、左頭上スピーカー470aおよび右頭上スピーカー470bにマッピングしてもよい。スピーカー・ゾーン6および7についてのオーディオ再生データは、左後方サラウンド・スピーカー480aおよび右後方サラウンド・スピーカー480bにマッピングされてもよい。
いくつかのオーサリング実装では、オーサリング・ツールは、オーディオ・オブジェクトについてのメタデータを生成するために使われてもよい。メタデータは、オブジェクトの3D位置、レンダリング制約条件、コンテンツ型(たとえばダイアログ、効果など)および/または他の情報を指示してもよい。実装に依存して、メタデータは、幅データ、利得データ、軌跡データなどの他の型のデータを含んでいてもよい。いくつかのオーディオ・オブジェクトは静的であってもよく、一方、他のオーディオ・オブジェクトは動いてもよい。
オーディオ・オブジェクトは、所与の時点における三次元空間内でのオーディオ・オブジェクトの位置を示す位置メタデータを一般に含む関連するメタデータに従ってレンダリングされる。オーディオ・オブジェクトが再生環境においてモニタリングまたは再生されるとき、オーディオ・オブジェクトは、ドルビー5.1およびドルビー7.1のような伝統的なチャネル・ベースのシステムの場合のようにあらかじめ決められた物理的チャネルに出力されるのではなく、前記位置メタデータに従って、再生環境に存在するスピーカーを使ってレンダリングされうる。
位置メタデータに加えて、意図されるオーディオ効果を生成するために他の型のメタデータが必要とされることがある。たとえば、いくつかの実装では、オーディオ・オブジェクトに関連付けられたメタデータは、「幅」と称されることもあるオーディオ・オブジェクト・サイズを示してもよい。サイズ・メタデータは、オーディオ・オブジェクトが占める空間的な面積または体積を示すために使用されてもよい。空間的に大きなオーディオ・オブジェクトは、単にオーディオ・オブジェクト位置メタデータによってのみ定義される位置をもつ点音源としてではなく、大きな空間的領域をカバーするものとして知覚されるべきである。たとえば、いくつかの事例では、大きなオーディオ・オブジェクトは、再生環境のかなりの部分、可能性としては聴取者を取り囲みさえする部分を占めるものとして知覚されるべきである。
映画館サウンドトラックは、数百のオブジェクトを含むことがあり、それぞれが関連付けられた位置メタデータ、サイズ・メタデータおよび可能性としては他の空間的メタデータをもつ。さらに、映画館サウンド・システムは数百のスピーカーを含むことができ、それらのスピーカーは、オーディオ・オブジェクト位置およびサイズの満足のいく知覚を与えるよう個々に制御されうる。したがって、映画館では、数百のスピーカーによって数百のオブジェクトが再生されることがあり、オブジェクトからスピーカーへの信号マッピングは、パン係数の非常に大きな行列からなる。オブジェクトの数がMによって与えられ、スピーカーの数がNによって与えられるとき、この行列はN×N個までの要素をもつ。
テレビジョン、オーディオ・ビデオ受信器(AVR: audio-video receiver)およびモバイル装置のような消費者装置の限界のため、各オーディオ・オブジェクトが互いに別個なままのサウンドトラック全体を消費者装置に送達することは現実的ではない。たとえば、ホームシアターのオーディオ処理能力、ディスク記憶スペースおよびビットレート限界は、一般に、映画館サウンド・システムと同等ではない。よって、いくつかの実装では、消費者装置のために提供されるオーディオ・データを簡略化する方法に関わることがある。そのような実装は、何らかの点で、たとえば空間位置、空間的サイズおよび/またはコンテンツ型に関して同様であるオーディオ・オブジェクトのデータを組み合わせる「クラスタリング」プロセスに関わってもよい。そのような実装はたとえば、ダイアログが、中央スピーカーに近くない位置または大きなクラスター・サイズのような望ましくないメタデータをもつクラスターに混合されることを防止してもよい。クラスタリングのいくつかの例は図5〜図7のBを参照して後述する。
〈オブジェクト・クラスタリングを通じたシーン単純化〉
以下の記述の目的のためには、用語「クラスタリング」および「グループ化」または「組み合わせ」は、適応的なオーディオ再生システムにおける伝送およびレンダリングのために適応的なオーディオ・コンテンツのユニット中のデータの量を低減するために、オブジェクトおよび/またはベッド(チャネル)を組み合わせることを記述するために交換可能に使われ;用語「低減」は、オブジェクトおよびベッドのそのようなクラスタリングを通じて適応的なオーディオのシーン単純化を実行する工程を指すために使用されうる。本記述を通じた用語「クラスタリング」および「グループ化」または「組み合わせ」は、オブジェクトまたはベッド・チャネルの単一のクラスターへの厳密に一意的な割り当てのみに限定されず、オブジェクトまたはベッド・チャネルは、オブジェクトまたはベッド信号の出力クラスターまたは出力ベッド信号への相対的な寄与を決定する重みまたは利得ベクトルを使って、二つ以上の出力ベッドまたはクラスターにわたって分散されてもよい。
ある実施形態では、適応的なオーディオ・システムは、オブジェクト・クラスタリングおよびチャネル・ベッドおよびオブジェクトの組み合わせによって作り出される空間的シーンの知覚的に透明な単純化を通じて、オブジェクト・ベースのオーディオ・コンテンツの帯域幅を低減するよう構成される少なくとも一つのコンポーネントを含む。該コンポーネント(単数または複数)によって実行されるオブジェクト・クラスタリング・プロセスは、空間位置、オブジェクト・コンテンツ型、時間的属性、オブジェクト・サイズおよび/またはその他を含みうるオブジェクトについてのある種の情報を使って、同様のオブジェクトを、もとのオブジェクトを置き換えるオブジェクト・クラスターにグループ化することによって、空間的シーンの複雑さを低減する。
もとの複雑なベッドおよびオーディオ・トラックに基づいて説得力のあるユーザー経験を配送し、レンダリングするための標準的なオーディオ符号化のための追加的なオーディオ処理は、一般に、シーン単純化および/またはオブジェクト・クラスタリングと称される。この処理の主要な目的は、再生装置に送達される個々のオーディオ要素(ベッドおよびオブジェクト)の数を減らすが、それでももともとオーサリングされたコンテンツとレンダリングされる出力との間の知覚される差が最小化されるように十分な空間的情報を保持するクラスタリングまたはグループ化技法を通じて、空間的シーンを低減することである。
シーン単純化プロセスは、空間位置、時間的属性、コンテンツ型、サイズおよび/または他の適切な特性といったオブジェクトについての情報を使って動的にオブジェクトを低減された数にクラスタリングして、低減された帯域幅のチャネルまたは符号化システムにおいてオブジェクト+ベッドのコンテンツのレンダリングを容易にすることができる。このプロセスは、次のクラスタリング動作のうちの一つまたは複数を実行することによって、オブジェクトの数を減らすことができる:(1)オブジェクトをオブジェクトにクラスタリングする;(2)オブジェクトをベッドとクラスタリングする;(3)オブジェクトおよび/またはベッドをオブジェクトにクラスタリングする。さらに、オブジェクトは、二つ以上のクラスターにわたって分配されることができる。プロセスは、オブジェクトのクラスタリングおよびクラスタリング解除を制御するために、オブジェクトについての時間的情報を使ってもよい。
いくつかの実装では、オブジェクト・クラスターは構成要素となるオブジェクトの個々の波形およびメタデータ要素を、単一の等価な波形およびメタデータのセットで置き換えて、N個のオブジェクトについてのデータが、単一のオブジェクトについてのデータで置き換えられるようにする。これにより本質的にはオブジェクト・データをNから1に圧縮する。代替的または追加的に、オブジェクトまたはベッド・チャネルは、(たとえば振幅パン技法を使って)二つ以上のクラスターにわたって分配されてもよい。これは、M<Nとして、オブジェクト・データをNからMに減らす。クラスタリング・プロセスは、クラスタリングによる圧縮とクラスタリングされたオブジェクトの音の劣化との間のトレードオフを決定するために、クラスタリングされるオブジェクトの位置、ラウドネスまたは他の特性における変化に起因する歪みに基づく誤差メトリックを使ってもよい。いくつかの実施形態では、クラスタリング・プロセスは、同期的に実行されることができる。代替的または追加的に、クラスタリング・プロセスは、クラスタリングを通じたオブジェクト単純化を制御するために聴覚的シーン解析(ASA: auditory scene analysis)および/またはイベント境界検出を使うことによるなどの、イベント駆動であってもよい。
いくつかの実施形態では、プロセスは、エンドポイント・レンダリング・アルゴリズムおよび/または装置の知識を、クラスタリングを制御するために利用してもよい。このようにして、再生装置のある種の特性または属性が、クラスタリング・プロセスに情報を与えるために使用されてもよい。たとえば、スピーカーとヘッドフォンあるいは他のオーディオ・ドライバとで異なるクラスタリング方式が利用されてもよく、可逆符号化と不可逆符号化とで異なるクラスタリング方式が使われてもよい、などとなる。
図5は、クラスタリング・プロセスを実行することのできるシステムの例を示すブロック図である。図5に示されるように、システム500は、低下した帯域幅で出力オーディオ信号を生成するために入力オーディオ信号を処理するエンコーダ504およびデコーダ506段を含む。いくつかの実装では、部分520および部分530は異なる位置にあってもよい。たとえば、部分520はポスト・プロダクション・オーサリング・システムに対応してもよく、部分530はホームシアター・システムのような再生環境に対応してもよい。図5に示される例では、入力信号の一部509が既知の圧縮技法を通じて処理されて、圧縮されたオーディオ・ビットストリーム505を生成する。この圧縮されたオーディオ・ビットストリーム505がデコーダ段506によってデコードされて出力507の少なくとも一部を生成してもよい。そのような既知の圧縮技法は、入力オーディオ・コンテンツ509を解析し、オーディオ・データを量子化し、次いでオーディオ・データ自身に対してマスキングなどの圧縮技法を実行することに関わってもよい。圧縮技法は不可逆であっても可逆であってもよく、ユーザーが192kbps、256kbps、512kbpsなどといった圧縮された帯域幅を選択することを許容しうるシステムにおいて実装されてもよい。
適応オーディオ・システムにおいて、入力オーディオの少なくとも一部は、オーディオ・オブジェクトを含む入力信号501を含み、該オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含む。メタデータは、オブジェクト空間位置、オブジェクト・サイズ、コンテンツ型、ラウドネスなどといった、関連するオーディオ・コンテンツのある種の特性を定義する。いかなる実際的な数のオーディオ・オブジェクト(たとえば数百のオブジェクト)が再生のために上記システムを通じて処理されてもよい。幅広い多様な再生システムおよび伝送媒体における多数のオブジェクトの正確な再生を容易にするために、システム500は、もとのオブジェクトをより少数のオブジェクト・グループに組み合わせることによってオブジェクトの数を、オブジェクトのより少ない、より扱いやすい数まで削減するクラスタリング・プロセスまたはコンポーネント502を含む。
このように、クラスタリング・プロセスはオブジェクトのグループを構築して、個々の入力オブジェクト501のもとのセットから、より少数の出力グループ503を生成する。クラスタリング・プロセス502は本質的には、オーディオ・データ自身のほかにオブジェクトのメタデータを処理して、削減された数のオブジェクト・グループを生成する。任意の時点におけるどのオブジェクトが他のオブジェクトと最も適切に組み合わされるかを決定するために、メタデータが解析され、組み合わされる諸オブジェクトについての対応する諸オーディオ波形が合計されて、代替オブジェクトまたは組み合わされたオブジェクトを生成してもよい。この例では、組み合わされたオブジェクト・グループは次いでエンコーダ504に入力され、該エンコーダ504が、デコーダ506への伝送のためのオーディオおよびメタデータを含むビットストリーム505を生成するよう構成される。
一般に、オブジェクト・クラスタリング・プロセス502を組み込む適応オーディオ・システムは、もとの空間的オーディオ・フォーマットからメタデータを生成する諸コンポーネントを含む。システム500は、通常のチャネル・ベースのオーディオ要素およびオーディオ・オブジェクト符号化要素の両方を含む一つまたは複数のビットストリームを処理するよう構成されたオーディオ処理システムの一部を含む。諸オーディオ・オブジェクト符号化要素を含む拡張層が、チャネル・ベースのオーディオ・コーデック・ビットストリームまたはオーディオ・オブジェクト・ビットストリームに加えられてもよい。よって、この例では、ビットストリーム505は、既存のスピーカーおよびドライバ設計または個々に指定可能なドライバおよびドライバ定義を利用する次世代スピーカーと一緒に使うためのレンダラーによって処理されるべき拡張層を含む。
この空間的オーディオ・プロセッサからの空間的オーディオ・コンテンツは、オーディオ・オブジェクト、チャネルおよび位置メタデータを含んでいてもよい。オブジェクトがレンダリングされるとき、該オブジェクトは、位置メタデータおよび再生スピーカーの位置に従って、一つまたは複数のスピーカーに割り当てられてもよい。サイズ・メタデータのような追加的なメタデータがオブジェクトに関連付けられていて、再生位置を変更したりまたは他の仕方で再生のために使われるスピーカーを制限したりしてもよい。メタデータは、空間的パラメータ(たとえば位置、サイズ、速度、強度、音色など)を制御するレンダリング手がかりを提供し、聴取環境におけるどのドライバ(単数または複数)またはスピーカー(単数または複数)が披露の間にそれぞれの音を再生するかを指定するエンジニアのミキシング入力に応答して、オーディオ・ワークステーションにおいて生成されてもよい。該メタデータは、空間的オーディオ・プロセッサによるパッケージングおよび転送のために、ワークステーションにおいてそれぞれのオーディオ・データと関連付けられてもよい。
図6は、適応オーディオ処理システムにおけるオブジェクトおよび/またはベッドをクラスタリングできるシステムの例を示すブロック図である。図6に示される例では、シーン単純化タスクを実行することのできるオブジェクト処理コンポーネント606は、任意の数の入力オーディオ・ファイルおよびメタデータを読み込む。入力オーディオ・ファイルは入力オブジェクト602および関連付けられたオブジェクト・メタデータを含み、ベッド604および関連付けられたベッド・メタデータを含んでいてもよい。このように、この入力ファイル/メタデータは、「ベッド」または「オブジェクト」トラックに対応する。
この例では、オブジェクト処理コンポーネント606は、より少数の出力オブジェクトおよびベッド・トラックを生成するために、メディア・インテリジェンス/コンテンツ分類、空間的歪み解析およびオブジェクト選択/クラスタリング情報を組み合わせることができる。具体的には、オブジェクトは一緒にクラスタリングされて、新たな等価な諸オブジェクトまたは諸オブジェクト・クラスター608を、関連付けられたオブジェクト/クラスター・メタデータとともに生成することができる。これらのオブジェクトは、ベッドへの「ダウンミックス〔下方混合〕」のために選択されることもできる。これは、図6では、出力ベッド・オブジェクトおよび関連付けられたメタデータ620を形成するためにベッド612との組み合わせ618のためにレンダラー616に入力される下方混合されたオブジェクト610の出力として示されている。出力ベッド構成620(たとえば、ドルビー5.1配位)は必ずしも、たとえばAtmos(商標)映画館については9.1であることができる入力ベッド構成と一致する必要はない。入力トラックからのメタデータを組み合わせることによって、出力トラックについて新しいメタデータが生成され、入力トラックからのオーディオを組み合わせることによって、出力トラックについて新しいオーディオ・データも生成される。
この実装では、オブジェクト処理コンポーネント606はある種の処理構成設定情報622を使うことができる。そのような処理構成設定情報622は出力オブジェクトの数、フレーム・サイズおよびある種のメディア・インテリジェンス設定を含んでいてもよい。メディア・インテリジェンスとは、コンテンツ型(すなわち、ダイアログ/音楽/効果/など)、領域(セグメント/分類)、前処理結果、聴覚的シーン解析結果および他の同様の情報といった、オブジェクトの(またはオブジェクトに関連付けられた)パラメータまたは特性を含むことができる。たとえば、オブジェクト処理コンポーネント606は、どのオーディオ信号が発話、音楽および/または特殊効果音に対応するかを判別することができてもよい。この実装では、オブジェクト処理コンポーネント606は、オーディオ信号を解析することによって、少なくともいくつかのそのような特性を決定することができる。代替的または追加的に、オブジェクト処理コンポーネント606は、タグ、ラベルなどといった関連付けられたメタデータに従って少なくともいくつかのそのような特性を決定することができてもよい。
ある代替的な実施形態では、単純化メタデータ(たとえば、どのオブジェクトがどのクラスターに属するか、どのオブジェクトがベッドにレンダリングされるか、など)のほかにすべてのもとのトラックへの参照を保持することによって、オーディオ生成は猶予されることができる。そのような情報は、たとえば、スタジオとエンコード・ハウスとの間で、または他の同様のシナリオにおいてシーン単純化プロセスの機能を分散させるために有用であることがある。
上記に鑑み、各クラスターは、いくつかのオーディオ・オブジェクオからのオーディオ信号およびメタデータの組み合わせを受領してもよいことが明白であろう。各オーディオ・オブジェクトの属性の寄与は、規則セットによって決定されてもよい。そのような規則セットは、パン・アルゴリズムと考えられてもよい。このコンテキストにおいて、パン・アルゴリズムは、各オーディオ・オブジェクトのオーディオ信号およびメタデータならびに各クラスターの位置を与えられて、オーディオ・オブジェクト毎について、各クラスターに対応する信号の集合を生成しうる。クラスターの位置を表わす点は、本稿では「クラスター重心」と称されることがある。
原理的には、オーディオ・オブジェクトの各クラスターへの寄与を計算するために、さまざまなパン・アルゴリズムを使うことが可能でありうる。しかしながら、静的なスピーカー・レイアウトについては非常に有用ないくつかのパン・アルゴリズムは、オーディオ・オブジェクト属性のクラスターへの寄与を決定するためには最適でないことがある。一つの理由は、再生環境におけるスピーカー・レイアウトと異なり、クラスター重心位置は時間変化することがしばしばで、大きく時間変動することもあるからである。
図7のAおよびBは、少なくとも二つの時点における、オーディオ・オブジェクトの、クラスターへの寄与を描いている。図7のAおよびBでは、各楕円はオーディオ・オブジェクトを表わす。各楕円のサイズは、対応するオーディオ・オブジェクトについてのオーディオ信号の振幅または「ラウドネス」と対応する。図7のAには14個のオーディオ・オブジェクトしか示されていないが、これらのオーディオ・オブジェクトは、図7のAによって表わされる時点におけるシーンにおいて関わっているオーディオ・オブジェクトのほんの一部であってもよい。この時点において、(上記したような)クラスタリング・プロセスが、図7のAに示される14個のオーディオ・オブジェクトが、図7のAにおいてC1およびC2とラベル付けされている二つのクラスターにグループ化されることを決定している。
クラスタリング・プロセスは、オーディオ・オブジェクト710aおよび710bを、それら二つのクラスターについての最も代表的なオーディオ・オブジェクトであるとして選択している。この例では、オーディオ・オブジェクト710aおよび710bは、それらの対応するオーディオ・データが、近くの他のオーディオ・オブジェクトに比べて、最も高い振幅をもっていたために選択された。よって、破線矢印によって示されるように、オーディオ・オブジェクト705cのオーディオ・データを含む近くのオーディオ・オブジェクトからのオーディオ・データが、オーディオ・オブジェクト710aおよび710bのオーディオ・データと組み合わされて、クラスターC1およびC2の結果的なオーディオ信号を形成する。この例では、クラスターC1の位置に対応するクラスター重心710aはオーディオ・オブジェクト710aの位置と同じ位置をもつと見なされる。クラスターC2の位置に対応するクラスター重心710bは、オーディオ・オブジェクト710bの位置と同じ位置をもつと見なされる。
しかしながら、図7のBによって表わされる時点では、オーディオ・オブジェクト710aおよび710cを含むオーディオ・オブジェクトのいくつかは、図7のAに示される配位に対して位置を変えている。図7のBによって表わされる時点では、クラスタリング・プロセスは、図7のBに示される14個のオーディオ・オブジェクトは三つのクラスターにグループ化されることを決定している。オーディオ・オブジェクト710aおよび710cの新たな位置を与えられて、オーディオ・オブジェクト705cが今や、オーディオ・オブジェクト705d、705e、705fおよび705gを含む近くのオーディオ・オブジェクトを最もよく代表すると見なされる。したがって、オーディオ・オブジェクト705d、705e、705fおよび705gについてのオーディオ・データは、今や、クラスターC3の結果的なオーディオ信号に寄与することになる。オーディオ・オブジェクト705hおよび705iだけがクラスターC1の結果的なオーディオ信号に寄与し続ける。
いくつかのパン・アルゴリズムは、スピーカー位置に基づく幾何学的な構造の生成を必要とする。たとえば、ベクトル・ベースの振幅パン(VBAP: vector-based amplitude panning)アルゴリズムは、スピーカー位置によって定義される凸包の三角形分割を必要とする。クラスターの位置は、スピーカー・レイアウトとは異なり、しばしば時間変化するので、動いているクラスターに対応するオーディオ・データをレンダリングするために幾何学的な構造に基づくパン・アルゴリズムを使うことは、非常に高い時間レートでの幾何学的構造(諸VBAPアルゴリズムによって使用される三角形のような)の再計算を必要とし、これはかなりの計算負担を要求することがある。よって、動いているクラスターに対応するオーディオ・データをレンダリングするためにそのようなアルゴリズムを使うことは、消費者装置にとって最適ではないことがある。さらに、たとえ計算コストが問題でなかったとしても、動きのあるクラスターに対応するオーディオ・データをレンダリングするための幾何学的構造に基づくパン・アルゴリズムの使用は、クラスター動きのため、結果における不連続性につながることがある。クラスターが動くにつれて、パン・アルゴリズムのために、異なる幾何学的構造が選択される必要があるのである。構造のこの変化は離散的な変化であり、これはたとえクラスターの動きが小さくても起こりうる。
幾何学的構造を要求しないパン・アルゴリズムでさえ、動きのあるクラスターに対応するオーディオ・データをレンダリングするためには便利でないことがある。距離ベースの振幅パン(DBAP: distance-based amplitude panning)のようないくつかのパン・アルゴリズムは、スピーカーの空間密度に大きな変動があるときには最適ではない。聴取者を取り囲む空間のいくつかの領域がスピーカーによって密に覆われ、該空間の他の領域が疎なスピーカー分布を含むスピーカー・レイアウトでは、パン・アルゴリズムはこの事実を考慮に入れるべきである。さもなければ、オーディオ・オブジェクトは、スピーカーによって密に覆われている領域に位置すると知覚される傾向がある。単に、エネルギーの最も大きな割合がそこに集中しているという事実のためである。この問題は、クラスターへのレンダリングのコンテキストではより困難になることがある。クラスターはしばしば空間中で動き、空間密度における有意な変動を作り出すことがあるからである。
さらに、オーディオ・オブジェクトのレンダリングに参加するクラスターの部分集合を動的に選択するプロセスは、たとえオーディオ・オブジェクトのメタデータの連続的な変動が生じるときでも、常に連続的な結果を生成するわけではない。潜在的な不連続の一つの理由は、選択プロセスが離散的であることである。たとえば図7のAおよびBに示されるように、一つまたは複数のオーディオ・オブジェクト(たとえばオーディオ・オブジェクト705aおよび705c)のなめらかな動きでさえ、他のオーディオ・オブジェクトのオーディオ寄与が別のクラスターに「割り当て直される」ことを引き起こしうる。
本稿で提供されるいくつかの実装は、オーディオ・オブジェクトをスピーカーまたはクラスターの任意のレイアウトにパンするための方法に関わる。いくつかのそのようなパン実装は、幾何学的な構造に基づくパン・アルゴリズムの使用を必要としない。本稿で開示される方法は、オーディオ・オブジェクトのメタデータが連続的に変化するときおよび/またはクラスター位置が連続的に変化するとき、連続的な結果を生じうる。いくつかのそのような実装によれば、クラスター位置および/またはオーディオ・オブジェクト位置における小さな変化は、計算された利得における小さな変化につながる。いくつかのそのような方法は、スピーカー密度またはクラスター密度の変動を補償する。開示される方法は、時間変化する位置をもつことがあるクラスターに対応するオーディオ・データをレンダリングするために好適でありうるが、そのような方法は、オーディオ・データを任意のレイアウトを有する物理的なスピーカーにレンダリングするために使われてもよい。
本稿に開示されるいくつかの実装によれば、パン・アルゴリズムの利得計算は、ラウドネス中心(CL: center of loudness)の概念に基づく。これは概念的に、質量中心の概念に似ている。いくつかのそのような実装によれば、パン・アルゴリズムは、ラウドネス中心がオーディオ・オブジェクトの位置に一致する(または実質的に一致する)よう、スピーカーまたはクラスターについて利得を決定する。
図8のAおよびBは、オーディオ・オブジェクトに対応する利得を決定する例を示している。これらの例における議論は主としてスピーカーについての利得を決定することに焦点を当てられているが、同じ一般的概念はクラスターについての利得を決定することに当てはまる。図8のAおよびBは、オーディオ・オブジェクト705およびスピーカー805、810および815を描いている。この例において、オーディオ・オブジェクト705は、スピーカー805と810の中間に位置されている。ここで、オーディオ・オブジェクト705の3D空間における位置は、原点820を基準として、位置
Figure 0006055576
によって示される。
ラウドネス中心の位置は次のように決定されうる。
Figure 0006055576
式(2)において、→付きのrCLはラウドネス中心の位置を表わし、→付きのriはスピーカーiの位置を表わし、giはスピーカーiの利得を表わす。
スピーカー805、810および815の位置は図8のAおよびBにおいてそれぞれ→付きのr1、r2、r3として示されている。よって、図8のAおよびBに示される例では、ラウドネス中心の位置は次のように決定されうる。
Figure 0006055576
ここで、g1、g2およびg3はそれぞれスピーカー805、810および815の利得を表わす。
いくつかの実装は、→付きのrCLが→付きのroに一致するまたは実質的に一致するように利得を選択することに関わる。たとえば、式(2)を参照するに、いくつかの方法は、
Figure 0006055576
となるようgiを選ぶことに関わってもよい。そのような方法は、ポジティブな属性をもつ。たとえば、→付きのrClがあるスピーカー位置に一致する場合、いくつかのそのような実装では、そのスピーカーのみに利得が割り当てられる。→付きのrCLが複数のスピーカー位置の間の直線上にある場合には、いくつかのそのような実装では、その直線に沿ったスピーカーにのみ利得が割り当てられる。
いくつかの実装は、追加的な有利な規則を含む。たとえば、いくつかの実装は、一意的でない解を消去するための規則を含む。
いくつかのそのような規則は、利得が決定されるスピーカー(またはクラスター)の数を最小化することに関わってもよい。再び図8のAを参照するに、スピーカー805、810および815のそれぞれについて、利得の二つの例が示されている。オーディオ・オブジェクト705はスピーカー805と810の中間にあるので、g1およびg2を同じ値に設定し、一方でg3=0と設定することで、ベクトルrCL=ベクトルroとなる。この例では、g1およびg2は1に設定される。しかしながら、やはりベクトルrCL=ベクトルroとできるような利得のさまざまな他の組み合わせがある。一つのそのような例も図8のAに示されている。この図に示される第二の例において、g1=0.5、g2=0.3およびg3=0.1である。
よって、いくつかの実装は、オーディオ・オブジェクトからより遠いスピーカー(またはクラスター)に利得を適用することにペナルティーを与える規則に関わってもよい。たとえば上記の二つの間シナリオのように、そのような実装は、g1およびg2を1に設定し、一方でg3=0と設定することでベクトルrCL=ベクトルroとすることを優先することになる。
そのような規則は、いくつかの一意的でない解を消去できるが、全部ではない。たとえば図8のBに示されるように、たとえオーディオ・オブジェクトからより遠いスピーカー(またはクラスター)に利得を適用することにペナルティーを与える規則が適用され、g1およびg2が同じ値に設定され、一方でg3=0と設定したとしても、いまだ、ベクトルrCL=ベクトルroとなるようなg1およびg2の無限個の値がある。したがって、いくつかの実装では、多くの一意的でない解のうちから単一の解を選択するために、スケーリング因子が利得に適用される。
いくつかの実装では、パン・アルゴリズムの以上の規則(および可能性としては他の規則)は、コスト関数を介して実装されてもよい。コスト関数は、オーディオ・オブジェクトの位置、スピーカー(またはクラスター)位置および対応する利得に基づいていてもよい。パン・アルゴリズムは、利得に関してコスト関数を最小にすることに関わっていてもよい。いくつかの例によれば、コスト関数の主要項は、ラウドネス中心位置とオーディオ・オブジェクト位置の間(ベクトルrCLとベクトルroの間)の差を表わす。コスト関数は、多くの可能な解のうちから解を区別し、選択する「正則化」項を含んでいてもよい。たとえば、正則化項は、オーディオ・オブジェクトから相対的により遠いスピーカー(またはクラスター)に利得を適用することにペナルティーを与えてもよい。
図9は、オーディオ・オブジェクトをスピーカー位置にレンダリングするいくつかの方法の概観を与える流れ図である。方法900の動作は、本稿に記載される他の方法と同様に、必ずしも示される順序で実行されるのではない。さらに、これらの方法は、図示および/または記述されるより多数または少数のブロックを含んでいてもよい。これらの方法は、少なくとも部分的には、図10Eおよび図11に示され、後述するような論理システムによって実装されてもよい。そのような論理システムは、オーディオ処理システムのコンポーネントであってもよい。代替的または追加的に、そのような方法は、ソフトウェアが記憶されている非一時的媒体を介して実装されてもよい。ソフトウェアは、少なくとも部分的には、本稿に記載される方法を実行するよう一つまたは複数の装置を制御するための命令を含んでいてもよい。
この例では、方法900は、N個のオーディオ・オブジェクトを含むオーディオ・データを受領することに関わるブロック905で始まる。該オーディオ・データはたとえばオーディオ処理システムによって受領されてもよい。この例では、オーディオ・オブジェクトは、オーディオ信号および関連するメタデータを含む。メタデータは、本稿の他所で記述されるようなさまざまな型のメタデータを含んでいてもよいが、この例では少なくともオーディオ・オブジェクト位置データを含む。
ここで、ブロック910は、N個のオーディオ・オブジェクトのそれぞれについてのオーディオ・オブジェクト信号の、M個のスピーカーのうちの少なくとも一つへの利得寄与を決定することに関わる。この例では、利得寄与の決定は、スピーカー位置および各スピーカーに割り当てられる利得の関数であるラウドネス中心位置を決定することに関わる。ここで、利得寄与の決定は、コスト関数の最小値を決定することに関わる。この例では、コスト関数の第一の項は、ラウドネス中心位置とオーディオ・オブジェクト位置との間の差を表わす。
いくつかの実装によれば、ラウドネス中心位置の決定は、重み付けプロセスを介して諸スピーカー位置を組み合わせることに関わっていてもよい。ここで、スピーカー位置に適用される重みはそのスピーカー位置に割り当てられた利得に対応する。いくつかのそのような実装では、コスト関数の第一の項は次のようなものであってもよい。
Figure 0006055576
式(3)において、ECLはラウドネス中心とオーディオ・オブジェクトの位置の間の誤差を表わす。よって、いくつかの実装では、ラウドネス中心位置を決定することは:各スピーカー位置と各対応するスピーカーに割り当てられた利得との積を決定し;それらの積の和を計算し;すべてのスピーカーについての利得の和を決定し;前記積の和を前記利得の和で割ることに関わってもよい。
上記のように、いくつかの実装では、コスト関数の第二の項は、オブジェクト位置とスピーカー位置との間の距離を表わす。いくつかのそのような実装では、コスト関数の第二の項は、オーディオ・オブジェクト位置とスピーカー位置との間の距離の二乗に比例する。よって、コスト関数の第二の項は、源から相対的により遠いスピーカーに利得を適用することについてのペナルティーに関わりうる。この項は、コスト関数が、たとえば図8のAを参照して上記したオプションの間で差別化することを許容できる。いくつかのそのような実装では、コスト関数の第二の項は次のようなものであってもよい。
Figure 0006055576
式(4)において、Edistanceは、源から相対的により遠いスピーカーに利得を適用することについてのペナルティーを表わし、αdistanceは距離重み付け因子を表わす。Edistanceは上記の正則化項の例である。いくつかの実装では、重み付け因子αdistanceは0.1から0.001までの間であってもよい。一例では、αdistance=0.01である。
いくつかの実装では、コスト関数の第三の項が、決定された利得寄与についてのスケールを設定してもよい。この項は、コスト関数が、たとえば図8のBを参照して上記したオプションの間の差別化をし、潜在的には無限個の利得セットのうちから単一の利得セットを選択することを許容できる。いくつかのそのような実装では、コスト関数の第三の項は次のようなものであってもよい。
Figure 0006055576
式(5)において、Esum-to-oneは諸利得のスケールを設定する項であり、αscale-to-oneは利得寄与についてのスケーリング因子を表わす。いくつかの例では、αscale-to-oneは1に設定されてもよい。しかしながら、他の例では、αsum-to-oneは2または他の正の数のような別の値に設定されてもよい。
いくつかの実装では、コスト関数は各スピーカーに割り当てられる利得の二次関数であってもよい。いくつかのそのような実装では、二次関数は前記した第一、第二および第三の項を次のように含んでいてもよい。
Figure 0006055576
式(6)において、E[gi]は、giの二次であるコスト関数を表わす。二次のコスト関数に関わる実装は、潜在的な利点を有することがありうる。たとえば、コスト関数の最小化が一般にストレート(解析的)である。さらに、二次のコスト関数では、唯一の最小値がある。しかしながら、代替的な実装は、高次のコスト関数のような二次でないコスト関数を使ってもよい。これらの代替的な実装はいくつかの潜在的な恩恵があるものの、コスト関数の最小化は二次のコスト関数についての最小化プロセスに比べてストレートでないことがある。さらに、高次のコスト関数では、一般に二つ以上の最小値がある。高次のコスト関数についてグローバルな最小を決定することは困難であることがある。
いくつかの実装は、ボリューム保存を保証するために、つまり任意のスピーカー・レイアウトにおいてオーディオ・オブジェクトが同じボリューム/ラウドネスをもって知覚されることを保証するために、コスト関数を適用することから帰結する利得を調整するプロセスに関わる。いくつかの実装では、利得は次のように規格化されてもよい。
Figure 0006055576
式(7)において、gi normalizedは規格化されたスピーカー(またはクラスター)利得を表わし、pは定数を表わす。いくつかの例では、pは[1,2]の範囲内であってもよい。
利得寄与を決定するためにコスト関数を使う上記の議論は主としてスピーカーへのレンダリングに関して記述されてきたが、そのような方法は、時間変化しうるクラスターであってもよいクラスターの利得寄与を決定するために特に有用でありうる。
図10Aおよび図10Bは、オーディオ・オブジェクトをクラスターにレンダリングするいくつかの方法の概観を与える流れ図である。方法1000の動作は、本稿に記載される他の方法と同様に、必ずしも示される順序で実行されるのではない。さらに、これらの方法は、図示および/または記述されるより多数または少数のブロックを含んでいてもよい。これらの方法は、少なくとも部分的には、図10Eおよび図11に示され、後述するような論理システムによって実装されてもよい。そのような論理システムは、オーディオ処理システムのコンポーネントであってもよい。代替的または追加的に、そのような方法は、ソフトウェアが記憶されている非一時的媒体を介して実装されてもよい。ソフトウェアは、少なくとも部分的には、本稿に記載される方法を実行するよう一つまたは複数の装置を制御するための命令を含んでいてもよい。
この例では、方法1000は、N個のオーディオ・オブジェクトを含むオーディオ・データを受領することに関わるブロック1005で始まる。該オーディオ・データはたとえばオーディオ処理システムによって受領されてもよい。この例では、オーディオ・オブジェクトは、オーディオ信号および関連するメタデータを含む。メタデータは、本稿の他所で記述されるようなさまざまな型のメタデータを含んでいてもよいが、この例では少なくともオーディオ・オブジェクト位置データを含む。この例では、ブロック1010は、MはNより小さい数であるとして、N個のオーディオ・オブジェクトからM個のクラスターを生成するオーディオ・オブジェクト・クラスタリング・プロセスを実行することに関わる。
図10Bは、ブロック1010の詳細の一例を示している。この例では、ブロック1010aは、M個の代表的なオーディオ・オブジェクトを選択することに関わる。本稿の他所で述べたように、該代表的なオーディオ・オブジェクトは、個別的な実装に依存してさまざまな基準に従って選択されうる。たとえば図7のAおよびBを参照して上記したように、一つのそのような基準は、各オーディオ・オブジェクトについてのオーディオ信号の振幅であってもよい。つまり、相対的に「よりラウドな」オーディオ・オブジェクトがブロック1010aにおいて代表として選択されてもよい。
ここで、ブロック1010bは、上記M個の代表的なオーディオ・オブジェクトのそれぞれのオーディオ・オブジェクト位置データに従って前記M個のクラスターのそれぞれについてのクラスター重心位置を決定することに関わる。ここで、各クラスター重心位置は、あるクラスターに関連付けられるすべてのオーディオ・オブジェクトの位置を代表する単一の位置である。この例では、各クラスター重心位置は、M個の代表的なオーディオ・オブジェクトのうちの一つの位置に対応する。
この例では、ブロック1010cは、前記N個のオーディオ・オブジェクトのそれぞれについてのオーディオ信号の、前記M個のクラスターの少なくとも一つへの利得寄与を決定することに関わる。ここで、利得寄与の決定は、クラスター重心位置および各クラスターに割り当てられた利得の関数であるラウドネス中心位置を決定し、コスト関数の最小値を決定することに関わる。この実装では、コスト関数の第一の項は、ラウドネス中心位置とオーディオ・オブジェクト位置との間の差を表わす。
よって、前記M個のクラスターのそれぞれへの利得寄与を決定するプロセスは、M個のスピーカーのそれぞれに対する利得寄与を決定するというコンテキストにおいて上記したようにして実質的に実行されてもよい。しかしながら、クラスター重心位置は時間変化することがあり、再生環境のスピーカー位置は一般には時間変化しないので、プロセスはいくつかの点で違うことがありうる。
したがって、いくつかの実装では、ラウドネス中心位置を決定することは、重み付けプロセスを介して諸クラスター重心位置を組み合わせることに関わっていてもよい。ここで、クラスター重心位置に適用される重みはそのクラスター重心位置に割り当てられた利得に対応する。たとえば、ラウドネス中心位置を決定することは:各クラスター重心位置と各クラスター重心位置に割り当てられた利得との積を決定し;それらの積の和を計算し;すべてのクラスター重心位置についての利得の和を決定し;前記積の和を前記利得の和で割ることに関わってもよい。
いくつかの例では、コスト関数の第二の項は、オブジェクト位置とクラスター重心位置との間の距離を表わす。たとえば、コスト関数の第二の項は、オブジェクト位置とクラスター重心位置との間の距離の二乗に比例してもよい。いくつかの実装では、コスト関数の第三の項は、決定された利得寄与についてのスケールを設定してもよい。コスト関数は各クラスターに割り当てられた利得の二次関数であってもよい。
この例では、任意的なブロック1015が、オーディオ・オブジェクトの、対応するクラスターにおける利得寄与に従って、少なくとも一つのクラスター重心位置を修正することに関わる。上記のように、いくつかの実装では、クラスター重心位置は単にクラスターの代表として選択されたオーディオ・オブジェクトの位置であってもよい。任意的なブロック1015を含む実装では、代表的なオーディオ・オブジェクトの位置は、初期クラスター重心位置であってもよい。各クラスターへのオーディオ・オブジェクト信号寄与を決定する上述した手順を実行した後、そのような実装では、決定された利得に従って、少なくとも一つの修正されたクラスター重心位置が決定されてもよい。
図10Cおよび図10Dは、オーディオ・オブジェクトの対応するクラスターにおける利得寄与に従ってクラスター重心位置を修正する例を与えている。図10Cおよび図10Dは図7のAおよびBの修正バージョンである。図10Cでは、クラスター重心710aの位置が、クラスターC1およびC2へのオーディオ・オブジェクト信号寄与を決定する上述した手順を実行した後に修正されている。この例では、クラスター重心710aの位置は、クラスターC1における二番目にラウドなオーディオ・オブジェクトであるオーディオ・オブジェクト705cのより近くにシフトされている。クラスター重心710aの修正された位置は破線のアウトラインで示されている。
同様に、図10Dでは、クラスター重心710aの位置が、クラスターC1、C2およびC3へのオーディオ・オブジェクト信号寄与を決定する上述した手順を実行した後に修正されている。この例では、クラスター重心710aの位置は、この時点でのクラスターC1内の唯一の他のオーディオ・オブジェクトであるオーディオ・オブジェクト705hおよび705iの中点のより近くにシフトされている。
図10Eは、本稿のさまざまな側面を実装することのできる装置のコンポーネントの例を与えるブロック図である。装置1050はたとえば、オーディオ処理システムであってもよい(あるいはその一部であってもよい)。
この例では、装置1050は、インターフェース・システム1055および論理システム1060を含む。論理システム1060はたとえば、汎用の単一チップまたは複数チップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理および/または離散的なハードウェア・コンポーネントを含んでいてもよい。
この例では、装置1050はメモリ・システム1065を含む。メモリ・システム1065は、フラッシュメモリ、ハードドライブなどといった一つまたは複数の好適な型の非一時的な記憶媒体を含んでいてもよい。インターフェース・システム1055はネットワーク・インターフェース、前記論理システムと前記メモリ・システムとの間のインターフェースおよび/または外部装置インターフェース(たとえばユニバーサル・シリアル・バス(USB)インターフェース)を含んでいてもよい。
この例では、論理システム1060は、少なくとも部分的には、本稿に開示される方法を実行することができる。たとえば、論理システム1060は、インターフェース・システムを介して、オーディオ信号および関連するメタデータを含むN個のオーディオ・オブジェクトを含むオーディオ・データを受領することができてもよい。メタデータは、少なくともオーディオ・オブジェクト位置データを含んでいてもよい。
いくつかの実装では、論理システム1060は、前記N個のオーディオ・オブジェクトのそれぞれについてのオーディオ・オブジェクト信号の、M個のスピーカーのうちの少なくとも一つへの利得寄与を決定することができてもよい。利得寄与を決定することは、スピーカー位置および各スピーカーに割り当てられた利得の関数であるラウドネス中心位置を決定し、コスト関数の最小値を決定することに関わっていてもよい。コスト関数の第一の項は、ラウドネス中心位置とオーディオ・オブジェクト位置との間の差を表わしていてもよい。ラウドネス中心位置を決定することは、重み付けプロセスを介してスピーカー位置を組み合わせることに関わっていてもよい。ここで、スピーカー位置に適用される重みはそのスピーカー位置に割り当てられた利得に対応する。
いくつかの実装では、論理システム1060は、MはNより小さい数であるとして、N個のオーディオ・オブジェクトからM個のクラスターを生成するオーディオ・オブジェクト・クラスタリング・プロセスを実行することができてもよい。クラスタリング・プロセスは、M個の代表的なオーディオ・オブジェクトを選択し、該M個の代表的なオーディオ・オブジェクトのそれぞれのオーディオ・オブジェクト位置データに従って前記M個のクラスターのそれぞれについてのクラスター重心位置を決定することに関わってもよい。各クラスター重心位置は、たとえば、あるクラスターに関連付けられたすべてのオーディオ・オブジェクトの位置を代表する単一の位置であってもよい。
論理システム1060は、前記N個のオーディオ・オブジェクトのそれぞれについてのオーディオ・オブジェクト信号の、M個のクラスターのうちの少なくとも一つへの利得寄与を決定することができてもよい。利得寄与の決定は、クラスター重心位置および各クラスターに割り当てられた利得の関数であるラウドネス中心位置を決定し、コスト関数の最小値を決定することに関わっていてもよい。いくつかの実装では、ラウドネス中心位置を決定することは、重み付けプロセスを介して諸クラスター重心位置を組み合わせることに関わっていてもよい。ここで、クラスター重心位置に適用される重みはそのクラスター重心位置に割り当てられた利得に対応する。少なくとも一つのクラスター重心位置が時間変化してもよい。
コスト関数の第一の項は、ラウドネス中心位置とオーディオ・オブジェクト位置との間の差を表わしていてもよい。コスト関数の第二の項は、オブジェクト位置とスピーカー位置またはクラスター重心位置との間の距離を表わしていてもよい。たとえば、コスト関数の第二の項は、オブジェクト位置とスピーカー位置またはクラスター重心位置との間の距離の二乗に比例してもよい。コスト関数の第三の項が、決定された利得寄与についてのスケールを設定してもよい。コスト関数は各スピーカーまたはクラスターに割り当てられた利得の二次関数であってもよい。
いくつかの実装では、論理システム1060は、一つまたは複数の非一時的な媒体に記憶されているソフトウェアに従って、本稿に開示される方法を少なくとも部分的に実行することができてもよい。非一時的媒体は、ランダム・アクセス・メモリ(RAM)および/または読み出し専用メモリ(ROM)のような、論理システム1060に付随するメモリを含んでいてもよい。非一時的媒体は、メモリ・システム1065のメモリを含んでいてもよい。
図11は、オーディオ処理システムのコンポーネントの例を与えるブロック図である。この例では、オーディオ処理システム1100はインターフェース・システム1105を含む。インターフェース・システム1105は無線ネットワーク・インターフェースのようなネットワーク・インターフェースを含んでいてもよい。代替的または追加的に、インターフェース・システム1105は、ユニバーサル・シリアル・バス(USB)インターフェースまたは他のそのようなインターフェースを含んでいてもよい。
オーディオ処理システム1100は論理システム1110を含む。論理システム1110は、汎用の単一チップまたは複数チップ・プロセッサのようなプロセッサを含んでいてもよい。論理システム1110は、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理または離散的なハードウェア・コンポーネントまたはそれらの組み合わせを含んでいてもよい。論理システム1110は、オーディオ処理システム1100の他のコンポーネントを制御するよう構成されていてもよい。図11にはオーディオ処理システム1100のコンポーネント間のインターフェースは示されていないが、論理システム1110は、他のコンポーネントとの通信のためのインターフェースをもって構成されていてもよい。それらの他のコンポーネントは、適宜互いとの通信のために構成されていてもいなくてもよい。
論理システム1110は、本稿に記載される型の機能を含むがそれに限られないオーディオ処理機能を実行するよう構成されていてもよい。いくつかのそのような実装では、論理システム1110は、(少なくとも部分的には)一つまたは複数の非一時的な媒体に記憶されているソフトウェアに従って動作するよう構成されていてもよい。非一時的媒体は、ランダム・アクセス・メモリ(RAM)および/または読み出し専用メモリ(ROM)のような、論理システム1110に付随するメモリを含んでいてもよい。非一時的媒体は、メモリ・システム1115のメモリを含んでいてもよい。メモリ・システム1115は、フラッシュメモリ、ハードドライブなどといった一つまたは複数の好適な型の非一時的記憶媒体を含んでいてもよい。
表示システム1130は、オーディオ処理システム1100の具現に依存して、一つまたは複数の好適な型のディスプレイを含んでいてもよい。たとえば、表示システム1130は液晶ディスプレイ、プラズマ・ディスプレイ、双安定ディスプレイなどを含んでいてもよい。
ユーザー入力システム1135は、ユーザーからの入力を受け入れるよう構成された一つまたは複数の装置を含んでいてもよい。いくつかの実装では、ユーザー入力システム1135は、表示システム1130のディスプレイにかぶさるタッチスクリーンを含んでいてもよい。ユーザー入力システム1135はマウス、トラックボール、ジェスチャー検出システム、ジョイスティック、一つまたは複数のGUIおよび/または表示システム1130上に呈示されるメニュー、ボタン、キーボード、スイッチなどを含んでいてもよい。いくつかの実装では、ユーザー入力システム1135は、マイクロホン1125を含んでいてもよい:ユーザーは、マイクロホン1125を介してオーディオ処理システム1100についての音声コマンドを提供してもよい。論理システムは、音声認識のために、そしてそのような音声コマンドに従ってオーディオ処理システム1100の少なくともいくつかの動作を制御するために構成されていてもよい。いくつかの実装では、ユーザー入力システム1135はユーザー・インターフェースであり、したがってインターフェース・システム1105の一部であると考えられてもよい。
電力システム1140は、ニッケル‐カドミウム電池またはリチウム・イオン電池のような一つまたは複数の好適なエネルギー蓄積装置を含んでいてもよい。電力システム1140は電気コンセントから電力を受領するよう構成されていてもよい。
本開示に記載される実装へのさまざまな修正が、当業者にはすぐに明白となりうる。本稿において定義される一般的な原理は、本開示の精神または範囲から外れることなく、他の実装に適用されてもよい。このように、特許請求の範囲は、本稿に示される実装に限定されることは意図されておらず、本稿に開示される開示、原理および新規な特徴と整合する最も広い範囲を与えられるべきものである。

Claims (16)

  1. N個のオーディオ・オブジェクトを含むオーディオ・データを受領する段階であって、前記オーディオ・オブジェクトは、オーディオ信号および関連するメタデータを含み、前記メタデータは、少なくともオーディオ・オブジェクト位置データを含む、段階と;
    前記N個のオーディオ・オブジェクトからM個のクラスターを生成するオーディオ・オブジェクト・クラスタリング・プロセスを実行する段階とを含む方法であって、MはNより小さい数であり、前記クラスタリング・プロセスは:
    M個の代表的なオーディオ・オブジェクトを選択する段階と;
    前記M個の代表的なオーディオ・オブジェクトのそれぞれのオーディオ・オブジェクト位置データに従って前記M個のクラスターのそれぞれについてのクラスター重心位置を決定する段階であって、各クラスター重心位置は、あるクラスターに関連付けられるすべてのオーディオ・オブジェクトの位置を代表する単一の位置である、段階と;
    前記N個のオーディオ・オブジェクトのそれぞれについてのオーディオ信号の、前記M個のクラスターの少なくとも一つへの利得寄与を決定する段階とを実行することを含み、前記利得寄与の決定は:
    クラスター重心位置および各クラスターに割り当てられた利得の関数であるラウドネス中心位置を決定し;
    コスト関数の最小値を決定することに関わり、前記コスト関数は、前記ラウドネス中心位置とオーディオ・オブジェクト位置との間の差を表わす第一の項と、オブジェクト位置とクラスター重心位置との間の距離を表わす第二の項と、決定された利得寄与についてのスケールを設定する第三の項との三つの項を含み、該コスト関数が決定された利得寄与の間の差別化をし、利得寄与の複数のセットから利得寄与の単一のセットを選択することを許容し、利得寄与の前記単一のセットが選択されるクラスターの数が最小化される
    方法。
  2. 前記ラウドネス中心位置を決定することは、重み付けプロセスを介して諸クラスター重心位置を組み合わせることに関わり、クラスター重心位置に適用される重みはそのクラスター重心位置に割り当てられる利得に対応する、請求項1記載の方法。
  3. 前記ラウドネス中心位置を決定することは:
    各クラスター重心位置と各クラスター重心位置に割り当てられた利得との積を決定し;
    それらの積の和を計算し;
    すべてのクラスター重心位置についての利得の和を決定し;
    前記積の和を前記利得の和で割ることに関わる、
    請求項1記載の方法。
  4. 前記コスト関数の前記第二の項は、オブジェクト位置とクラスター重心位置との間の距離の二乗に比例する、請求項記載の方法。
  5. 前記コスト関数は各クラスターに割り当てられた利得の二次関数である、請求項1記載の方法。
  6. オーディオ・オブジェクトの、対応するクラスターにおける利得寄与に従って、少なくとも一つのクラスター重心位置を修正する段階をさらに含む、請求項1記載の方法。
  7. 少なくとも一つのクラスター重心位置が時間変化する、請求項1記載の方法。
  8. 請求項1記載の方法を実行するよう少なくとも一つの装置を制御するための命令を含むソフトウェアが記憶されている非一時的な媒体。
  9. インターフェース・システムと;
    論理システムとを有する装置であって、前記論理システムは:
    前記インターフェース・システムを介して、N個のオーディオ・オブジェクトを含むオーディオ・データを受領する段階であって、前記オーディオ・オブジェクトは、オーディオ信号および関連するメタデータを含み、前記メタデータは、少なくともオーディオ・オブジェクト位置データを含む、段階と;
    前記N個のオーディオ・オブジェクトからM個のクラスターを生成するオーディオ・オブジェクト・クラスタリング・プロセスを実行する段階であって、MはNより小さい数であり、該クラスタリング・プロセスは:
    M個の代表的なオーディオ・オブジェクトを選択し;
    該M個の代表的なオーディオ・オブジェクトのそれぞれのオーディオ・オブジェクト位置データに従って前記M個のクラスターのそれぞれについてのクラスター重心位置を決定し、各クラスター重心位置は、クラスターに関連付けられたすべてのオーディオ・オブジェクトの位置を代表する単一の位置であり;
    前記N個のオーディオ・オブジェクトのそれぞれについてのオーディオ・オブジェクト信号の、前記M個のクラスターのうちの少なくとも一つへの利得寄与を決定することを含む、段階とを実行することができ、
    前記利得寄与の決定は:
    クラスター重心位置および各クラスターに割り当てられた利得の関数であるラウドネス中心位置を決定し;
    コスト関数の最小値を決定することに関わり、前記コスト関数は、ラウドネス中心位置とオーディオ・オブジェクト位置との間の差を表わす第一の項と、オブジェクト位置とクラスター重心位置との間の距離を表わす第二の項と、決定された利得寄与についてのスケールを設定する第三の項との三つの項を含み、該コスト関数が決定された利得寄与の間の差別化をし、利得寄与の複数のセットから利得寄与の単一のセットを選択することを許容し、利得寄与の前記単一のセットが選択されるクラスターの数が最小化される
    装置。
  10. ラウドネス中心位置を決定することは、重み付けプロセスを介して諸クラスター重心位置を組み合わせることに関わり、クラスター重心位置に適用される重みはそのクラスター重心位置に割り当てられた利得に対応する、請求項記載の装置。
  11. 前記コスト関数の前記第二の項は、オブジェクト位置とスピーカー位置またはクラスター重心位置との間の距離の二乗に比例する、請求項記載の装置。
  12. 少なくとも一つのクラスター重心位置が時間変化する、請求項記載の装置。
  13. 前記コスト関数が各スピーカーまたはクラスターに割り当てられた利得の二次関数である、請求項記載の装置。
  14. さらにメモリ・デバイスを有しており、前記インターフェースが前記論理システムと前記メモリ・デバイスとの間のインターフェースを有する、請求項記載の装置。
  15. 前記インターフェースがネットワーク・インターフェースを有する、請求項記載の装置。
  16. 前記論理システムが、汎用の単一チップまたは複数チップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理および離散的なハードウェア・コンポーネントからなる要素の群から選択される少なくとも一つの要素を含む、請求項記載の装置。
JP2016529770A 2013-07-30 2014-06-17 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン Active JP6055576B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
ES201331169 2013-07-30
ESP201331169 2013-07-30
US201462009536P 2014-06-09 2014-06-09
US62/009,536 2014-06-09
PCT/US2014/042768 WO2015017037A1 (en) 2013-07-30 2014-06-17 Panning of audio objects to arbitrary speaker layouts

Publications (2)

Publication Number Publication Date
JP2016530792A JP2016530792A (ja) 2016-09-29
JP6055576B2 true JP6055576B2 (ja) 2016-12-27

Family

ID=52432313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016529770A Active JP6055576B2 (ja) 2013-07-30 2014-06-17 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン

Country Status (6)

Country Link
US (1) US9712939B2 (ja)
EP (1) EP3028476B1 (ja)
JP (1) JP6055576B2 (ja)
CN (1) CN105432098B (ja)
HK (1) HK1216810A1 (ja)
WO (1) WO2015017037A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112954580B (zh) 2014-12-11 2022-06-28 杜比实验室特许公司 元数据保留的音频对象聚类
WO2017004584A1 (en) * 2015-07-02 2017-01-05 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
CN106385660B (zh) * 2015-08-07 2020-10-16 杜比实验室特许公司 处理基于对象的音频信号
WO2017027308A1 (en) * 2015-08-07 2017-02-16 Dolby Laboratories Licensing Corporation Processing object-based audio signals
US10251007B2 (en) 2015-11-20 2019-04-02 Dolby Laboratories Licensing Corporation System and method for rendering an audio program
US10278000B2 (en) 2015-12-14 2019-04-30 Dolby Laboratories Licensing Corporation Audio object clustering with single channel quality preservation
US9949052B2 (en) 2016-03-22 2018-04-17 Dolby Laboratories Licensing Corporation Adaptive panner of audio objects
US10325610B2 (en) 2016-03-30 2019-06-18 Microsoft Technology Licensing, Llc Adaptive audio rendering
US10779106B2 (en) 2016-07-20 2020-09-15 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
WO2018017394A1 (en) * 2016-07-20 2018-01-25 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
US10056086B2 (en) 2016-12-16 2018-08-21 Microsoft Technology Licensing, Llc Spatial audio resource management utilizing minimum resource working sets
EP3574661B1 (en) 2017-01-27 2021-08-11 Auro Technologies NV Processing method and system for panning audio objects
US11082790B2 (en) 2017-05-04 2021-08-03 Dolby International Ab Rendering audio objects having apparent size
US11172318B2 (en) * 2017-10-30 2021-11-09 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers
US10999693B2 (en) * 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
US11503422B2 (en) * 2019-01-22 2022-11-15 Harman International Industries, Incorporated Mapping virtual sound sources to physical speakers in extended reality applications
CN113366865B (zh) * 2019-02-13 2023-03-21 杜比实验室特许公司 用于音频对象聚类的自适应响度规范化
US12003933B2 (en) 2019-07-30 2024-06-04 Dolby Laboratories Licensing Corporation Rendering audio over multiple speakers with multiple activation criteria
EP4005233A1 (en) 2019-07-30 2022-06-01 Dolby Laboratories Licensing Corporation Adaptable spatial audio playback
CA3146871A1 (en) 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Acoustic echo cancellation control for distributed audio devices
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
EP3857919B1 (en) * 2019-12-02 2022-05-18 Dolby Laboratories Licensing Corporation Methods and apparatus for conversion from channel-based audio to object-based audio
US11070932B1 (en) * 2020-03-27 2021-07-20 Spatialx Inc. Adaptive audio normalization
WO2023172582A2 (en) * 2022-03-07 2023-09-14 Spatialx Inc. Adjustment of audio systems and audio scenes
WO2024025803A1 (en) 2022-07-27 2024-02-01 Dolby Laboratories Licensing Corporation Spatial audio rendering adaptive to signal level and loudspeaker playback limit thresholds

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
DE10355146A1 (de) 2003-11-26 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Tieftonkanals
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
DE102005033239A1 (de) 2005-07-15 2007-01-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Steuern einer Mehrzahl von Lautsprechern mittels einer graphischen Benutzerschnittstelle
US20110002469A1 (en) * 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
EP2194527A3 (en) 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
EP2478716B8 (en) * 2009-11-04 2014-01-08 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for calculating driving coefficients for loudspeakers of a loudspeaker arrangement for an audio signal associated with a virtual source
DE102010030534A1 (de) 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
TWI489450B (zh) 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
US9530421B2 (en) 2011-03-16 2016-12-27 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2727380B1 (en) 2011-07-01 2020-03-11 Dolby Laboratories Licensing Corporation Upmixing object based audio
CA3157717A1 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP6186435B2 (ja) * 2012-08-07 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS
IL302328B2 (en) 2013-05-24 2024-05-01 Dolby Int Ab Encoding audio scenes
WO2014187989A2 (en) 2013-05-24 2014-11-27 Dolby International Ab Reconstruction of audio scenes from a downmix
WO2015017223A1 (en) 2013-07-29 2015-02-05 Dolby Laboratories Licensing Corporation System and method for reducing temporal artifacts for transient signals in a decorrelator circuit
EP3028273B1 (en) 2013-07-31 2019-09-11 Dolby Laboratories Licensing Corporation Processing spatially diffuse or large audio objects
CN105900169B (zh) 2014-01-09 2020-01-03 杜比实验室特许公司 音频内容的空间误差度量
CN104882145B (zh) 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类

Also Published As

Publication number Publication date
EP3028476A1 (en) 2016-06-08
JP2016530792A (ja) 2016-09-29
EP3028476B1 (en) 2019-03-13
CN105432098B (zh) 2017-08-29
HK1216810A1 (zh) 2016-12-02
US9712939B2 (en) 2017-07-18
US20160212559A1 (en) 2016-07-21
WO2015017037A1 (en) 2015-02-05
CN105432098A (zh) 2016-03-23

Similar Documents

Publication Publication Date Title
JP6055576B2 (ja) 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン
JP7116144B2 (ja) 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
JP6732764B2 (ja) 適応オーディオ・コンテンツのためのハイブリッドの優先度に基づくレンダリング・システムおよび方法
RU2803638C2 (ru) Обработка пространственно диффузных или больших звуковых объектов
RU2820838C2 (ru) Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161202

R150 Certificate of patent or registration of utility model

Ref document number: 6055576

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250