JP6190947B2 - オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 - Google Patents

オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 Download PDF

Info

Publication number
JP6190947B2
JP6190947B2 JP2016513405A JP2016513405A JP6190947B2 JP 6190947 B2 JP6190947 B2 JP 6190947B2 JP 2016513405 A JP2016513405 A JP 2016513405A JP 2016513405 A JP2016513405 A JP 2016513405A JP 6190947 B2 JP6190947 B2 JP 6190947B2
Authority
JP
Japan
Prior art keywords
audio objects
audio
downmix
metadata
side information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016513405A
Other languages
English (en)
Other versions
JP2016522911A (ja
Inventor
プルンハーゲン,ヘイコ
クヨーリング,クリストファー
ヒルヴォーネン,トニ
ヴィレモーズ,ラルス
ジェローエン ブリーバート,ディルク
ジェローエン ブリーバート,ディルク
ヨナス サミュエルソン,レイフ
ヨナス サミュエルソン,レイフ
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2016522911A publication Critical patent/JP2016522911A/ja
Application granted granted Critical
Publication of JP6190947B2 publication Critical patent/JP6190947B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

関連出願への相互参照
本願は2013年5月24日に出願された米国仮特許出願第61/827,246号、2013年10月21日に出願された米国仮特許出願第61/827,246号、2014年4月1日に出願された米国仮特許出願第61/973,623号の出願日の利益を主張するものであり、そのそれぞれはここにその全体において参照によって組み込まれる。
技術分野
本開示は概括的にはオーディオ・オブジェクトを含むオーディオ・シーンの符号化に関する。詳細には、オーディオ・オブジェクトのエンコードおよびデコードのためのエンコーダ、デコーダおよび関連する方法に関する。
オーディオ・シーンは一般にオーディオ・オブジェクトおよびオーディオ・チャネルを含む。オーディオ・オブジェクトは、時間とともに変わりうる関連付けられた空間位置をもつオーディオ信号である。オーディオ・チャネルは、三つの前方スピーカー、二つのサラウンド・スピーカーおよび低域効果スピーカーをもついわゆる5.1スピーカー配位のようなマルチチャネル・スピーカー配位のチャネルに直接対応するオーディオ信号である。
オーディオ・オブジェクトの数は典型的には非常に多い、たとえば数百個のオーディオ・オブジェクトのオーダーであることがあるので、オーディオ・オブジェクトがデコーダ側で効率的に再構築されることを許容する符号化方法が必要とされている。オーディオ・オブジェクトをエンコーダ側でマルチチャネル・ダウンミックスに(すなわち、5.1配位のようなある種のマルチチャネル・スピーカー配位のチャネルに対応する複数のオーディオ・チャネルに)組み合わせて、デコーダ側で該マルチチャネル・ダウンミックスからパラメトリックにオーディオ・オブジェクトを再構成する提案がされている。
そのようなアプローチの利点は、オーディオ・オブジェクト再構成をサポートしないレガシー・デコーダがマルチチャネル・ダウンミックスを直接、マルチチャネル・スピーカー配位での再生のために使用しうるということである。例として、5.1ダウンミックスは、5.1配位のラウドスピーカーで直接再生されうる。
だが、このアプローチの欠点は、マルチチャネル・ダウンミックスがデコーダ側でオーディオ・オブジェクトの十分良好な再構成を与えないことがあるということである。たとえば、5.1配位の左前方スピーカーと同じ水平位置をもつが垂直位置は異なる二つのオーディオ・オブジェクトを考える。これらのオブジェクトは典型的には5.1ダウンミックスの同じチャネルに組み合わされる。これは、同じダウンミックス・チャネルから二つのオーディオ・オブジェクトの近似を再構成する必要があるデコーダ側でのオーディオ・オブジェクト再構成にとっては困難な状況をなす。このプロセスは完璧な再構成を保証できず、時には耳に聞こえるアーチファクトにつながることさえある。
このように、オーディオ・オブジェクトの効率的かつ改善された再構成を提供するエンコード/デコード方法が必要とされている。
たとえばダウンミックスからのオーディオ・オブジェクトの再構成の際、しばしばサイド情報またはメタデータが用いられる。そのようなサイド情報の形および内容はたとえば再構成されるオーディオ・オブジェクトの忠実さおよび/または再構成の実行の計算量に影響する。したがって、再構成されるオーディオ・オブジェクトの忠実さを高めることを許容するおよび/または再構成の計算量を軽減することを許容する新しい、代替的なサイド情報フォーマットをもつエンコード/デコード方法を提供することが望ましい。
ここで例示的な実施形態について付属の図面を参照して述べる。
例示的な実施形態に基づくエンコーダの概略図である。 例示的な実施形態に基づくオーディオ・オブジェクトの再構成をサポートするデコーダの概略図である。 例示的な実施形態に基づくオーディオ・オブジェクトの再構成をサポートしない低計算量デコーダの概略図である。 例示的な実施形態に基づくオーディオ・シーンの単純化のための逐次的に配列されたクラスタリング・コンポーネントを有するエンコーダの概略図である。 例示的な実施形態に基づくオーディオ・シーンの単純化のための並列に配置されたクラスタリング・コンポーネントを有するエンコーダの概略図である。 メタデータ・インスタンスのセットのためのレンダリング行列を計算する典型的な既知のプロセスを示す図である。 オーディオ信号のレンダリングにおいて用いられる係数曲線の導出を示す図である。 ある例示的な実施形態に基づくメタデータ・インスタンス補間方法を示す図である。 例示的な実施形態に基づく追加的なメタデータ・インスタンスの導入の例を示す図である。 例示的な実施形態に基づく追加的なメタデータ・インスタンスの導入の例を示す図である。 ある例示的な実施形態に基づく、低域通過フィルタをもつサンプルホールド回路を使う補間方法を示す図である。 すべての図面は概略的であり、一般に、本開示を明快にするために必要な部分を示すのみである。一方、他の部分は省略されたり示唆されるだけであったりすることがある。特に断わりのない限り、同様の参照符号は異なる図面における同様の部分を指す。
上記に鑑み、オーディオ・オブジェクトの効率的な改善された再構成を許容するおよび/または再構成されるオーディオ・オブジェクトの忠実さを高めることを許容するおよび/または再構成の計算量を軽減することを許容するエンコーダ、デコーダおよび関連する方法を提供することが目的である。
〈I.概観――エンコーダ〉
第一の側面によれば、オーディオ・オブジェクトをエンコードするためのエンコード方法、エンコーダおよびコンピュータ・プログラム・プロダクトが提供される。
例示的な実施形態によれば、オーディオ・オブジェクトをデータ・ストリームにエンコードする方法であって:
N>1であるとして、N個のオーディオ・オブジェクトを受領する段階と;
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算する段階と;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算する段階と;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、方法が提供される。
上記の構成では、M個のダウンミックス信号は、いかなるラウドスピーカー配位とも独立にN個のオーディオ・オブジェクトから形成される。これは、M個のダウンミックス信号が、M個のチャネルをもつスピーカー配位のチャネルでの再生に好適なオーディオ信号に制約されないことを含意する。その代わり、M個のダウンミックス信号は、たとえばN個のオーディオ・オブジェクトのダイナミクスに適応し、デコーダ側でのオーディオ・オブジェクトの再構成を改善するようある基準に従ってより自由に選択されうる。
5.1配位の左前方スピーカーと同じ水平位置をもつが垂直位置は異なる二つのオーディオ・オブジェクトをもつ例に戻ると、提案される方法は、第一のオーディオ・オブジェクトを第一のダウンミックス信号に入れ、第二のオーディオ・オブジェクトを第二のダウンミックス信号に入れることを許容する。これは、デコーダにおけるオーディオ・オブジェクトの完璧な再構成を可能にする。一般に、そのような完璧な再構成は、アクティブなオーディオ・オブジェクトの数がダウンミックス信号の数を超えない限り、可能である。アクティブなオーディオ・オブジェクトの数のほうが多い場合には、提案される方法は、デコーダにおいて再構成されたオーディオ・オブジェクトにおいて生じる可能な近似誤差が、再構成されたオーディオ・シーンに対して全く知覚的影響を与えないまたは可能な最小の知覚的影響を与えるように、同じダウンミックス信号に混合される必要のあるオーディオ・オブジェクトの選択を許容する。
M個のダウンミックス信号が適応的であることの第二の利点は、ある種のオーディオ・オブジェクトが他のオーディオ・オブジェクトと厳密に別個のままにしておくことができることである。たとえば、ダイアログが空間的属性に関して正確にレンダリングされ、デコーダにおけるオブジェクト処理を許容することを保証するために、任意のダイアログ・オブジェクトをバックグラウンド・オブジェクトと別個にしておくことが有利であることがある。オブジェクト処理はたとえば、了解性を改善するための、ダイアログ向上またはダイアログ・ラウドネスの増大である。他の応用(たとえばカラオケ)では、一つまたは複数のオブジェクトの完全なミュートを許容することが有利でありうる。これも、そのようなオブジェクトが他のオブジェクトと混合されないことを要求する。特定のスピーカー配位に対応するマルチチャネル・ダウンミックスを使う通常の方法は、他のオーディオ・オブジェクトとの混合中に存在するオーディオ・オブジェクトの完全なミュートは許容しない。
ダウンミックス信号という語は、ダウンミックス信号が他の信号の混合、すなわち組み合わせであることを反映している。単語「ダウン」は、ダウンミックス信号の数Mが典型的にはオーディオ・オブジェクトの数Nより少ないことを示す。
例示的な実施形態によれば、本方法は、さらに、各ダウンミックス信号を空間位置に関連付け、ダウンミックス信号の前記空間位置を前記データ・ストリーム中に前記ダウンミックス信号のためのメタデータとして含めることを含んでいてもよい。これは、レガシー再生システムの場合に低計算量のデコードが使用されることを許容するので有利である。より精密には、ダウンミックス信号に関連付けられたメタデータは、デコーダ側で、ダウンミックス信号を、レガシー再生システムのチャネルにレンダリングするために使われてもよい。
例示的な実施形態によれば、N個のオーディオ・オブジェクトは、該N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、ダウンミックス信号に関連付けられる空間位置はN個のオーディオ・オブジェクトの空間位置に基づいて計算される。よって、ダウンミックス信号は、N個のオーディオ・オブジェクトの空間位置に依存する空間位置をもつオーディオ・オブジェクトとして解釈されてもよい。
さらに、N個のオーディオ・オブジェクトの空間位置およびM個のダウンミックス信号に関連付けられた空間位置は時間変化してもよい。すなわち、オーディオ・フレームの時間フレームの間で変動してもよい。換言すれば、ダウンミックス信号は、時間フレームの間で変化する関連付けられた位置をもつ動的オーディオ・オブジェクトと解釈されてもよい。これは、ダウンミックス信号が固定した空間的なラウドスピーカー位置に対応する従来技術のシステムと対照的である。
典型的には、サイド情報も時間変化し、それによりオーディオ・オブジェクトの再構成を支配するパラメータが時間的に変化することを許容する。
エンコーダは、ダウンミックス信号の計算について異なる基準を適用してもよい。N個のオーディオ・オブジェクトがN個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられる例示的な実施形態によれば、M個のダウンミックス信号を計算するための前記基準は、N個のオーディオ・オブジェクトの空間的近接性に基づいていてもよい。たとえば、互いに近接しているオーディオ・オブジェクトは同じダウンミックス信号に組み合わされてもよい。
N個のオーディオ・オブジェクトに関連付けられたメタデータがさらに、N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含む例示的な実施形態によれば、M個のダウンミックス信号を計算するための前記基準はさらに、N個のオーディオ・オブジェクトの前記重要性値に基づいていてもよい。たとえば、N個のオーディオ・オブジェクトのうち最も重要なもの(単数または複数)はダウンミックス信号に直接マッピングされてもよく、一方、残りのオーディオ・オブジェクトは残りのダウンミックス信号を形成するために組み合わされる。
特に、例示的な実施形態によれば、M個のダウンミックス信号を計算する段階は、N個のオーディオ・オブジェクトの空間的近接性およびもし該当すれば重要性値に基づいてN個のオーディオ・オブジェクトをM個のクラスターと関連付け、各クラスターについてのダウンミックス信号を、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせを形成することによって計算することを含む第一のクラスタリング手順を含む。いくつかの場合には、オーディオ・オブジェクトは高々一つのクラスターの一部をなしうる。他の場合には、オーディオ・オブジェクトはいくつかのクラスターの一部をなしてもよい。このようにして、オーディオ・オブジェクトから種々のグループ、すなわちクラスターが形成される。各クラスターは、ダウンミックス信号によって表わされることができ、該ダウンミックス信号はオーディオ・オブジェクトと考えられてもよい。このクラスタリング・アプローチは、各ダウンミックス信号を、そのダウンミックス信号に対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される空間位置に関連付けることを許容する。この解釈では、第一のクラスタリング手順は、このように、N個のオーディオ・オブジェクトの次元をM個のオーディオ・オブジェクトに、柔軟な仕方で低減する。
各ダウンミックス信号に関連付けられた空間位置はたとえば、そのダウンミックス信号に対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置の重心または重み付けされた重心として計算されてもよい。重みはたとえば、オーディオ・オブジェクトの重要性値に基づいていてもよい。
例示的な実施形態によれば、N個のオーディオ・オブジェクトは、N個のオーディオ・オブジェクトの空間位置を入力としてもつK平均アルゴリズムを適用することによって、M個のクラスターに関連付けられる。
オーディオ・シーンは、膨大な数のオーディオ・オブジェクトを有することがあるので、本方法は、オーディオ・シーンの次元を減らし、それによりオーディオ・オブジェクトを再構成するときのデコーダ側での計算量を低減するためのさらなる策を講じてもよい。特に、本方法はさらに、第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすための第二のクラスタリング手順を有していてもよい。
ある実施形態によれば、第二のクラスタリング手順は、M個のダウンミックス信号の計算に先立って実行される。よって、その実施形態では、第一の複数のオーディオ・オブジェクトはオーディオ・シーンのもとのオーディオ・オブジェクトに対応し、第二の、低減した複数のオーディオ・オブジェクトは、M個のダウンミックス信号が計算されるベースとなるN個のオーディオ・オブジェクトに対応する。さらに、そのような実施形態では、N個のオーディオ・オブジェクトに基づいて形成された(デコーダにおいて再構成されるべき)前記一組のオーディオ・オブジェクトは、N個のオーディオ・オブジェクトに対応する、すなわち等しい。
もう一つの実施形態によれば、第二のクラスタリング手順は、M個のダウンミックス信号の計算と並列に実行される。そのような実施形態では、M個のダウンミックス信号が計算されるベースとなるN個のオーディオ・オブジェクトも第二のクラスタリング手順に入力される前記第一の複数のオーディオ・オブジェクトも、オーディオ・シーンのもとのオーディオ・オブジェクトに対応する。さらに、そのような実施形態では、N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクト(デコーダにおいて再構成されるもの)は、前記第二の複数のオーディオ・オブジェクトに対応する。よって、このアプローチでは、M個のダウンミックス信号は、低減した数のオーディオ・オブジェクトに基づいてではなく、オーディオ・シーンのもとのオーディオ・オブジェクトに基づいて計算される。
例示的な実施形態によれば、第二のクラスタリング手順は:
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と;
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と;
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と;
前記第二の複数のオーディオ・オブジェクトについての空間位置を含むメタデータを計算する段階であって、前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置が、対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される、段階と;
前記第二の複数のオーディオ・オブジェクトについてのメタデータを前記データ・ストリーム中に含める段階とを含む。
換言すれば、第二のクラスタリング手順は、等しいまたは非常に近い位置をもつオブジェクトのような、オーディオ・シーンに存在する空間的な冗長性を活用する。さらに、前記第二の複数のオーディオ・オブジェクトを生成するときに、オーディオ・オブジェクトの重要性値が考慮に入れられてもよい。
上述したように、オーディオ・シーンはオーディオ・チャネルを含んでいてもよい。そのようなオーディオ・チャネルは、静的な位置、すなわちオーディオ・チャネルに対応するラウドスピーカーの位置に関連付けられたオーディオ・オブジェクトと考えられてもよい。より詳細には、第二のクラスタリング手順はさらに:
少なくとも一つのオーディオ・チャネルを受領する段階と;
前記少なくとも一つのオーディオ・チャネルのそれぞれを、そのオーディオ・チャネルのラウドスピーカー位置に対応する静的な空間位置をもつオーディオ・オブジェクトに変換する段階と;
変換された少なくとも一つのオーディオ・チャネルを前記第一の複数のオーディオ・オブジェクトに含める段階とを含んでいてもよい。
このようにして、本方法は、オーディオ・チャネルもオーディオ・オブジェクトも含むオーディオ・シーンのエンコードを許容する。
例示的な実施形態によれば、例示的な実施形態に基づくデコード方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。
例示的な実施形態によれば、オーディオ・オブジェクトをデータ・ストリームにエンコードするためのエンコーダであって:
N>1であるとして、N個のオーディオ・オブジェクトを受領するよう構成された受領コンポーネントと;
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算するよう構成されたダウンミックス・コンポーネントと;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算するよう構成された解析コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有する、エンコーダが提供される。
〈II.概観――デコーダ〉
第二の側面によれば、マルチチャネル・オーディオ・コンテンツをデコードするためのデコード方法、デコーダおよびコンピュータ・プログラム・プロダクトが提供される。
第二の側面は、一般に第一の側面と同じ特徴および利点をもちうる。
例示的な実施形態によれば、エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダにおける方法であって:
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領する段階と;
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階とを含む、方法が提供される。
例示的な実施形態によれば、前記データ・ストリームはさらに、前記M個のダウンミックス信号に関連付けられた空間位置を含む前記M個のダウンミックス信号についてのメタデータを含み、当該方法はさらに:
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されている場合には、前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する前記段階を実行し、
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されていない場合には、前記M個のダウンミックス信号についての前記メタデータを、前記M個のダウンミックス信号を再生システムの出力チャネルにレンダリングするために使うことを含む。
例示的な実施形態によれば、前記M個のダウンミックス信号に関連付けられた空間位置は時間変化する。
例示的な実施形態によれば、前記サイド情報は時間変化する。
例示的な実施形態によれば、前記データ・ストリームはさらに、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの空間位置を含む、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトについてのメタデータを含み、当該方法はさらに、
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての前記メタデータを、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、再生システムの出力チャネルにレンダリングするために使うことを含む。
例示的な実施形態によれば、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトに等しい。
例示的な実施形態によれば、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの組み合わせである複数のオーディオ・オブジェクトを含み、その数はNより少ない。
例示的な実施形態によれば、例示的な実施形態に基づくデコード方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。
例示的な実施形態によれば、エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダであって:
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領するよう構成された受領コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成するよう構成された再構成コンポーネントとを有する、デコーダが提供される。
〈III.概観――サイド情報およびメタデータについてのフォーマット〉
第三の側面によれば、オーディオ・オブジェクトをエンコードするためのエンコード方法、エンコーダおよびコンピュータ・プログラム・プロダクトが提供される。
第三の側面に基づく方法、エンコーダおよびコンピュータ・プログラム・プロダクトは一般に、第一の側面に基づく方法、エンコーダおよびコンピュータ・プログラム・プロダクトと共通する特徴および利点をもちうる。
例示的な実施形態によれば、オーディオ・オブジェクトをデータ・ストリームとしてエンコードする方法であって:
N>1であるとして、N個のオーディオ・オブジェクトを受領する段階と;
M≦Nであるとして、前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算する段階と;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変のサイド情報を計算する段階と;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、方法が提供される。
本例示的実施形態では、本方法はさらに、前記データ・ストリーム中に:
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンスと;
各サイド情報インスタンスについての、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含めることを含む。
本例示的実施形態では、前記サイド情報は時間可変である、たとえば時間変化し、オーディオ・オブジェクトの前記再構成を支配するパラメータが時間的に変化することを許容する。このことは、前記の諸サイド情報インスタンスの存在によって反映される。現在の再構成設定からそれぞれの所望される再構成設定への遷移を開始する時点および完了する時点を定義する遷移データを含むサイド情報フォーマットを用いることによって、現在の再構成設定と単一のサイド情報インスタンスによって指定される単一の所望される再構成設定とに基づいて、すなわち他のいかなるサイド情報インスタンスの知識もなしに、補間が実行されうるという意味で、サイド情報インスタンスどうしが互いにより独立にされる。
したがって、提供されるサイド情報フォーマットは、既存のサイド情報インスタンスどうしの間の追加的なサイド情報インスタンスの計算/導入を容易にする。特に、提供されるサイド情報フォーマットは、再生品質に影響することなく、追加的なサイド情報インスタンスの計算/導入を許容する。本開示では、既存のサイド情報インスタンスどうしの間の新たなサイド情報インスタンスを計算/導入するプロセスは、サイド情報の「再サンプリング」と称される。サイド情報の再サンプリングはしばしば、ある種のオーディオ処理タスクの間に必要とされる。たとえば、オーディオ・コンテンツがたとえばカット/マージ/混合によって編集されるとき、そのような編集はサイド情報インスタンスの間で生起することがある。この場合、サイド情報の再サンプリングが必要とされることがある。もう一つのそのような事例は、オーディオ信号および関連付けられたサイド情報がフレーム・ベースのオーディオ・コーデックを用いてエンコードされるときである。この場合、伝送の際のフレーム損失の耐性を改善するために、各オーディオ・コーデック・フレームについて、好ましくはそのコーデック・フレームの先頭のタイムスタンプをもつ、少なくとも一つのサイド情報インスタンスをもつことが望ましい。たとえば、オーディオ信号/オブジェクトは、ビデオ・コンテンツを含むオーディオビジュアル信号またはマルチメディア信号の一部であってもよい。そのような用途では、オーディオ・コンテンツのフレーム・レートを、ビデオ・コンテンツのフレーム・レートに一致するよう修正することが望ましいことがある。それにより、サイド情報の対応する再サンプリングが望ましいことがありうる。
ダウンミックス信号およびサイド情報が含められるデータ・ストリームは、たとえば、ビットストリーム、特に記憶されるまたは伝送されるビットストリームであってもよい。
前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算するというのは、M個のダウンミックス信号のそれぞれが、前記N個のオーディオ・オブジェクトの一つまたは複数のオーディオ内容の組み合わせ、たとえば線形結合を形成することによって得られることを意味する。換言すれば、N個のオーディオ・オブジェクトのそれぞれが必ずM個のダウンミックス信号のそれぞれに寄与する必要はない。
ダウンミックス信号という語は、ダウンミックス信号が他の信号の混合、すなわち組み合わせであることを反映している。ダウンミックス信号はたとえば、他の信号の加法的混合であってもよい。単語「ダウン」は、ダウンミックス信号の数Mが典型的にはオーディオ・オブジェクトの数Nより少ないことを示す。
ダウンミックス信号は、たとえば、前記第一の側面内の例示的実施形態の任意のものに基づいて、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ信号の組み合わせを形成することによって計算されてもよい。あるいはまた、ダウンミックス信号は、ダウンミックス信号がM個のチャネルをもつスピーカー配位のチャネル上での再生のために好適であるように前記N個のオーディオ信号の組み合わせを形成することによって計算されてもよい。この後者は本稿では後方互換なダウンミックスと称される。
二つの独立に割り当て可能な部分を含む遷移データというのは、それら二つの部分が互いに独立に割り当て可能である、すなわち互いとは独立に割り当てられてもよいことが意図されている。しかしながら、遷移データのそれらの部分がたとえばメタデータのサイド情報の他の型についての遷移データの部分と一致してもよいことは理解される。
本例示的実施形態では、遷移データの二つの独立に割り当て可能な部分は、組み合わさって、遷移を開始する時点および遷移を完了する時点を定義する。すなわち、これら二つの時点は、遷移データの前記二つの独立に割り当て可能な部分から導出可能である。
ある例示的実施形態によれば、本方法はさらに、第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすためのクラスタリング手順を含んでいてもよい。ここで、前記N個のオーディオ・オブジェクトは、前記第一の複数のオーディオ・オブジェクトまたは前記第二の複数のオーディオ・オブジェクトをなす。前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記第二の複数のオーディオ・オブジェクトに一致する。本例示的実施形態では、クラスタリング手順は:
前記第二の複数のオーディオ・オブジェクトについての空間位置を含む時間可変なクラスター・メタデータを計算する段階と;
前記デコーダに伝送するために、前記データ・ストリーム中に:
第二の組のオーディオ・オブジェクトをレンダリングするためのそれぞれの所望されるレンダリング設定を指定する複数のクラスター・メタデータ・インスタンスと;
各クラスター・メタデータ・インスタンスについての、現在のレンダリング設定から、そのクラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始する時点およびそのクラスター・メタデータ・インスタンスによって指定される前記所望されるレンダリング設定への前記遷移を完了する時点を、組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含める段階とを含む。
オーディオ・シーンは、膨大な数のオーディオ・オブジェクトを有することがあるので、本方法は、前記第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすことによってオーディオ・シーンの次元を減らすためのさらなる策を講じてもよい。本例示的実施形態では、前記N個のオーディオ・オブジェクトに基づいて形成され、前記ダウンミックス信号および前記サイド情報に基づいてデコーダ側で再構成される前記一組のオーディオ・オブジェクトは、前記第二の複数のオーディオ・オブジェクトと一致する。該第二の複数のオーディオ・オブジェクトは、前記第一の複数のオーディオ信号によって表わされるオーディオ・シーンの簡略化および/またはより低次元の表現に対応し、デコーダ側での再構成のための計算量が軽減される。
前記クラスター・メタデータを前記データ・ストリームに含めることは、たとえば前記ダウンミックス信号および前記サイド情報に基づいて前記第二の組のオーディオ信号が再構成されたあとに、デコーダ側での前記第二の組のオーディオ信号のレンダリングを許容する。
前記サイド情報と同様に、本例示的実施形態における前記クラスター・メタデータは時間可変である、たとえば時間変化し、前記第二の複数のオーディオ・オブジェクトの前記レンダリングを支配するパラメータが時間的に変化することを許容する。前記ダウンミックス・メタデータについてのフォーマットは、前記サイド情報についてと同様であってもよく、同じまたは対応する利点を有していてもよい。特に、本例示的実施形態において提供されるクラスター・メタデータの形は、クラスター・メタデータの再サンプリングを容易にする。クラスター・メタデータの再サンプリングは、たとえば、前記クラスター・メタデータおよび前記サイド情報に関連するそれぞれの遷移を開始および完了する共通の時点を提供するために、および/または前記クラスター・メタデータを、関連付けられたオーディオ信号のフレーム・レートに調整するために用いられてもよい。
ある例示的実施形態によれば、前記クラスタリング手順はさらに:
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と;
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と;
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と;
前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置を、それぞれのクラスターに関連付けられた、すなわちそのオーディオ・オブジェクトが代表するクラスターに関連付けられた諸オーディオ・オブジェクトの空間位置に基づいて計算する段階とを含む。
換言すれば、このクラスタリング手順は、等しいまたは非常に近い位置をもつオブジェクトのような、オーディオ・シーンに存在する空間的な冗長性を活用する。さらに、前記第二の複数のオーディオ・オブジェクトを生成するときに、オーディオ・オブジェクトの重要性値が考慮に入れられてもよい。これについては上記第一の側面における例示的実施形態との関連で述べた。
前記第一の複数のオーディオ・オブジェクトを少なくとも一つのクラスターと関連付けることは、前記第一の複数のオーディオ・オブジェクトのそれぞれを前記少なくとも一つのクラスターのうちの一つまたは複数と関連付けることを含む。いくつかの場合には、オーディオ・オブジェクトは高々一つのクラスターの一部をなしうる。他の場合には、オーディオ・オブジェクトはクラスタリング手順の一部としていくつかのクラスターの間で分割されてもよい。
前記第一の複数のオーディオ・オブジェクトの空間的近接性は、前記第一の複数のオーディオ・オブジェクトのうちのそれぞれのオーディオ・オブジェクトの間の距離および/またはそれらの相対位置に関係していてもよい。たとえば、互いに近いオーディオ・オブジェクトは、同じクラスターと関連付けられてもよい。
オーディオ・オブジェクトが、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるとは、そのオーディオ・オブジェクトに関連付けられたオーディオ・コンテンツ/信号が、そのクラスターに関連付けられたそれぞれのオーディオ・オブジェクトに関連付けられたオーディオ・コンテンツ/信号の組み合わせとして形成されうることを意味する。
ある例示的な実施形態によれば、それぞれのクラスター・メタデータ・インスタンスのために遷移データによって定義されるそれぞれの時点は、対応するサイド情報インスタンスのために遷移データによって定義されるそれぞれの時点と一致してもよい。
サイド情報およびクラスター・メタデータに関連付けられる遷移を開始および完了するのに同じ時点を用いることにより、サイド情報およびクラスター・メタデータの、合同再サンプリングのような合同処理が容易にされる。
さらに、サイド情報およびクラスター・メタデータに関連付けられる遷移を開始および完了するのに同じ時点を使うことは、デコーダ側での合同再構成およびレンダリングを容易にする。たとえば、再構成およびレンダリングがデコーダ側で合同動作として実行される場合、再構成およびレンダリングのための合同設定が、それぞれのサイド情報インスタンスおよびメタデータ・インスタンスについて決定されうるおよび/または再構成およびレンダリングのための合同設定の間の補間が、それぞれの設定について別個に補間を実行する代わりに用いられうる。そのような合同補間は、補間する必要のある係数/パラメータが少なくなるので、デコーダ側での計算量を減らしうる。
ある例示的な実施形態によれば、クラスタリング手順は、M個のダウンミックス信号の計算に先立って実行されてもよい。本例示的実施形態では、前記第一の複数のオーディオ・オブジェクトはオーディオ・シーンのもとのオーディオ・オブジェクトに対応し、前記M個のダウンミックス信号が計算されるベースとなるN個のオーディオ・オブジェクトは前記第二の、低減した複数のオーディオ・オブジェクトをなす。よって、本例示的実施形態では、N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクト(デコーダで再構成されるもの)は、前記N個のオーディオ・オブジェクトと一致する。
あるいはまた、クラスタリング手順は、M個のダウンミックス信号の計算と並列に実行されてもよい。本代替的実施形態によれば、M個のダウンミックス信号が計算されるベースとなるN個のオーディオ・オブジェクトは、オーディオ・シーンのもとのオーディオ・オブジェクトに対応する前記第一の複数のオーディオ・オブジェクトをなす。よって、このアプローチでは、M個のダウンミックス信号は、低減した数のオーディオ・オブジェクトに基づいてではなく、オーディオ・シーンのもとのオーディオ・オブジェクトに基づいて計算される。
ある例示的な実施形態によれば、本方法はさらに:
各ダウンミックス信号を、前記ダウンミックス信号をレンダリングするための時間可変な空間位置に関連付ける段階と;
前記ダウンミックス信号の前記空間位置を含むダウンミックス・メタデータを前記データ・ストリームにさらに含める段階とを含み、
当該方法はさらに、前記データ・ストリームに:
前記ダウンミックス信号をレンダリングするためのそれぞれの所望されるダウンミックス・レンダリング設定を指定する複数のダウンミックス・メタデータ・インスタンスと;
各ダウンミックス・メタデータ・インスタンスについての、現在のダウンミックス・レンダリング設定から、そのダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を開始する時点および前記ダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含めることを含む。
ダウンミックス・メタデータを前記データ・ストリームに含めることは、レガシー再生設備の場合に低計算量のデコードが使用されることを許容する点で有利である。より正確には、ダウンミックス・メタデータは、ダウンミックス信号をレガシー再生システムのチャネルにレンダリングするために、デコーダ側で使用されうる。すなわち、典型的には計算的により複雑な動作であるN個のオブジェクトに基づいて形成された前記複数のオーディオ・オブジェクトを再構成することがない。
本例示的実施形態によれば、M個のダウンミックス信号に関連付けられた空間位置は時間可変である、たとえば時間変化してもよく、ダウンミックス信号は、時間フレームまたはダウンミックス・メタデータ・インスタンスの間で変化しうる関連付けられた位置をもつ動的オーディオ・オブジェクトと解釈されてもよい。これは、ダウンミックス信号が固定した空間的なラウドスピーカー位置に対応する従来技術のシステムと対照的である。より進化した機能をもつデコード・システムでは、同じデータ・ストリームが、オブジェクト指向の仕方で再生されうることが想起される。
いくつかの例示的実施形態では、N個のオーディオ・オブジェクトは、N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられていてもよく、ダウンミックス信号に関連付けられた空間位置はたとえば、N個のオーディオ・オブジェクトの空間位置に基づいて計算されてもよい。このように、ダウンミックス信号は、N個のオーディオ・オブジェクトの空間位置に依存する空間位置をもつオーディオ・オブジェクトと解釈されてもよい。
ある例示的実施形態によれば、それぞれのダウンミックス・メタデータ・インスタンスについての遷移データによって定義されるそれぞれの時点は、対応するサイド情報インスタンスについての遷移データによって定義されるそれぞれの時点と一致してもよい。サイド情報およびダウンミックス・メタデータに関連付けられる遷移を開始および完了するのに同じ時点を用いることにより、サイド情報およびダウンミックス・メタデータの合同処理、たとえば再サンプリングが容易になる。
ある例示的実施形態によれば、それぞれのダウンミックス・メタデータ・インスタンスについての遷移データによって定義されるそれぞれの時点は、対応するクラスター・メタデータ・インスタンスについての遷移データによって定義されるそれぞれの時点と一致してもよい。クラスター・メタデータおよびダウンミックス・メタデータに関連付けられる遷移を開始および終了するのに同じ時点を用いることにより、クラスター・メタデータおよびダウンミックス・メタデータの合同処理、たとえば再サンプリングが容易になる。
例示的な実施形態によれば、N>1として、N個のオーディオ・オブジェクトをデータ・ストリームとしてエンコードするエンコーダが提供される。本エンコーダは:
M≦Nであるとして、前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算するよう構成されているダウンミックス・コンポーネントと;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変のサイド情報を計算するよう構成されている解析コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有しており、
前記多重化コンポーネントは、前記デコーダへの伝送のために、前記データ・ストリーム中に:
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンスと;
各サイド情報インスタンスについての、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含めるよう構成される。
第四の側面によれば、マルチチャネル・オーディオ・コンテンツをデコードするためのデコード方法、デコーダおよびコンピュータ・プログラム・プロダクトが提供される。
第四の側面に基づく方法、デコーダおよびコンピュータ・プログラム・プロダクトは、第三の側面に基づく方法、エンコーダおよびコンピュータ・プログラム・プロダクトと協働することが意図されており、対応する特徴および利点をもちうる。
第四の側面に基づく方法、デコーダおよびコンピュータ・プログラム・プロダクトは、一般に、第二の側面に基づく方法、デコーダおよびコンピュータ・プログラム・プロダクトと共通の特徴および利点をもちうる。
例示的な実施形態によれば、データ・ストリームに基づいてオーディオ・オブジェクトを再構成する方法であって:
N>1およびM≦Nであるとして、N個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変なサイド情報とを含むデータ・ストリームを受領する段階と;
前記M個のダウンミックス信号および前記サイド情報に基づいて、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階とを含み、
前記データ・ストリームは、複数のサイド情報インスタンスを含み、前記データ・ストリームはさらに、各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含み、
前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階は:
現在の再構成設定に従って再構成を実行し;
あるサイド情報インスタンスについての遷移データによって定義される時点において、前記現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始し;
そのサイド情報インスタンスについての前記遷移データによって定義される時点において前記遷移を完了することを含む。
上記のように、現在の再構成設定からそれぞれの所望される再構成設定への遷移を開始する時点および完了する時点を定義する遷移データを含むサイド情報フォーマットを用いることにより、たとえばサイド情報の再サンプリングが容易になる。
データ・ストリームは、たとえば、エンコーダ側で生成されたビットストリームの形で受領されてもよい。
前記M個のダウンミックス信号および前記サイド情報に基づいて、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階は、たとえば、サイド情報に基づいて決定される係数を用いてダウンミックス信号の少なくとも一つの線形結合を形成することを含んでいてもよい。前記M個のダウンミックス信号および前記サイド情報に基づいて、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階は、たとえば、サイド情報に基づいて決定される係数を用いて、ダウンミックス信号および任意的には該ダウンミックス信号から導出される一つまたは複数の追加的な(たとえば脱相関された)信号の少なくとも一つの線形結合を形成することを含んでいてもよい。
ある例示的実施形態によれば、データ・ストリームはさらに、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての時間可変なクラスター・メタデータを含んでいてもよい。クラスター・メタデータは、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての空間位置を含む。データ・ストリームは、複数のクラスター・メタデータ・インスタンスを含んでいてもよく、データ・ストリームはさらに、各クラスター・メタデータ・インスタンスについて、現在のレンダリング設定から、そのクラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始する時点およびそのクラスター・メタデータ・インスタンスによって指定される前記所望されるレンダリング設定への前記遷移を完了する時点を、組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含んでいてもよい。
本方法はさらに:
前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、あらかじめ定義されたチャネル配位の出力チャネルにレンダリングするために前記クラスター・メタデータを使うことを含んでいてもよく、該レンダリングは:
現在のレンダリング設定に従ってレンダリングを実行し;
あるクラスター・メタデータ・インスタンスについての遷移データによって定義される時点において、前記現在のレンダリング設定から、そのクラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始し;
そのクラスター・メタデータ・インスタンスについての前記遷移データによって定義される時点において前記所望されるレンダリング設定への前記遷移を完了することを含む。
前記あらかじめ定義されたチャネル配位は、たとえば、特定の再生システムと互換な、すなわち特定の再生システムでの再生に好適な、出力チャネルの配位に対応してもよい。
前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、あらかじめ定義されたチャネル配位の出力チャネルにレンダリングすることは、たとえば、レンダラーにおいて、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、クラスター・メタデータの制御のもとでレンダラーの出力チャネル(のあらかじめ定義された配位)にマッピングすることを含んでいてもよい。
前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトをレンダリングすることは、たとえば、クラスター・メタデータに基づいて決定される係数を用いて、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトの線形結合を形成することを含んでいてもよい。
ある例示的実施形態によれば、それぞれのクラスター・メタデータ・インスタンスについての遷移データによって定義されるそれぞれの時点は、対応するサイド情報インスタンスについて前記遷移データによって定義されるそれぞれの時点と一致してもよい。
ある例示的実施形態によれば、本方法はさらに:
前記再構成の少なくとも一部および前記レンダリングの少なくとも一部を、それぞれ現在の再構成設定および現在のレンダリング設定に関連する再構成行列およびレンダリング行列の行列積として形成される第一の行列に対応する組み合わされた動作として実行し;
あるサイド情報インスタンスおよびあるクラスター・メタデータ・インスタンスについての遷移データによって定義される時点において、前記現在の再構成およびレンダリング設定から、それぞれそのサイド情報インスタンスおよびそのクラスター・メタデータ・インスタンスによって指定される所望される再構成設定およびレンダリング設定への組み合わされた遷移を開始し;
そのサイド情報インスタンスおよびそのクラスター・メタデータ・インスタンスについての前記遷移データによって定義される時点において前記組み合わされた遷移を完了することを含み、前記組み合わされた遷移は、前記第一の行列の行列要素と、それぞれ前記所望される再構成設定および前記所望されるレンダリング設定に関連する再構成行列およびレンダリング行列の行列積として形成される第二の行列の行列要素との間を補間することを含む。
再構成設定およびレンダリング設定の別個の遷移ではなく、上記の意味での組み合わされた遷移を実行することにより、より少数のパラメータ/係数を補間すればよくなり、計算量の低減が許容される。
本例示的実施形態において言及されるような再構成行列またはレンダリング行列のような行列は、たとえば、単一行または単一列からなっていてもよく、よってベクトルに対応していてもよいことは理解しておくものとする。
ダウンミックス信号からのオーディオ・オブジェクトの再構成はしばしば、異なる周波数帯域において異なる再構成行列を用いることによって実行される。一方、レンダリングはしばしば、すべての周波数について同じレンダリング行列を用いることによって実行される。そのような場合、再構成およびレンダリングの組み合わされた動作に対応する行列、たとえば本例示的実施形態において言及した上記第一および第二の行列は、典型的には周波数依存であってもよい。すなわち、異なる周波数帯域については、行列要素の異なる値が典型的には用いられてもよい。
ある例示的実施形態によれば、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトと一致してもよい。すなわち、本方法は、前記M個のダウンミックス信号および前記サイド情報に基づいて前記N個のオーディオ・オブジェクトを再構成することを含んでいてもよい。
あるいはまた、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの組み合わせである、N個より少ない複数のオーディオ・オブジェクトを含んでいてもよい。すなわち、本方法は、前記M個のダウンミックス信号および前記サイド情報に基づいて前記N個のオーディオ・オブジェクトのこれらの組み合わせを再構成することを含んでいてもよい。
ある例示的実施形態によれば、データ・ストリームはさらに、前記M個のダウンミックス信号に関連付けられた時間可変な空間位置を含む前記M個のダウンミックス信号についてのダウンミックス・メタデータを含んでいてもよい。データ・ストリームは、複数のダウンミックス・メタデータ・インスタンスを含んでいてもよく、データ・ストリームはさらに、各ダウンミックス・メタデータ・インスタンスについて、現在のダウンミックス・レンダリング設定から、そのダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を開始する時点およびそのダウンミックス・メタデータ・インスタンスによって指定される前記所望されるダウンミックス・レンダリング設定への前記遷移を完了する時点を、組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含んでいてもよい。
本方法はさらに:
デコーダがオーディオ・オブジェクト再構成をサポートするよう動作可能である(または構成されている)場合、再構成する段階を、前記M個のダウンミックス信号および前記サイド情報、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトに基づいて実行し;
デコーダがオーディオ・オブジェクト再構成をサポートするよう動作可能でない(または構成されていない)場合、前記ダウンミックス・メタデータおよび前記M個のダウンミックス信号を前記M個のダウンミックス信号のレンダリングのために出力することを含んでいてもよい。
デコーダがオーディオ・オブジェクト再構成をサポートするよう動作可能であり、データ・ストリームがさらに、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトに関連付けられたクラスター・メタデータをさらに含む場合、デコーダはたとえば、再構成された一組のオーディオ・オブジェクトのレンダリングのために、再構成された一組のオーディオ・オブジェクト、クラスター・メタデータを出力してもよい。
デコーダがオーディオ・オブジェクト再構成をサポートするよう動作可能でない場合には、たとえばサイド情報および該当するならクラスター・メタデータを破棄して、前記ダウンミックス・メタデータおよび前記M個のダウンミックス信号を出力として提供してもよい。その場合、出力は、レンダラーによって、前記M個のダウンミックス信号をレンダラーの出力チャネルにレンダリングするために用いられてもよい。
任意的に、本方法はさらに、前記ダウンミックス・メタデータに基づいて、あらかじめ定義された出力配位の出力チャネル、たとえばレンダラーの出力チャネルに、あるいはデコーダの出力チャネルに(デコーダがレンダリング機能をもつ場合)、前記M個のダウンミックス信号をレンダリングすることを含んでいてもよい。
例示的実施形態によれば、データ・ストリームに基づいてオーディオ・オブジェクトを再構成するデコーダが提供される。本デコーダは:
N>1およびM≦Nであるとして、N個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変なサイド情報とを含むデータ・ストリームを受領するよう構成されている受領コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報に基づいて、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成するよう構成されている再構成コンポーネントとを有し、
前記データ・ストリームは、関連する複数のサイド情報インスタンスを含み、前記データ・ストリームはさらに、各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含む。
再構成コンポーネントは、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成することを、少なくとも:
現在の再構成設定に従って再構成を実行し;
あるサイド情報インスタンスについての遷移データによって定義される時点において、前記現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始し;
そのサイド情報インスタンスについての前記遷移データによって定義される時点において前記遷移を完了することによって行なうよう構成されている。
ある例示的実施形態によれば、上記第三または第四の側面における方法はさらに、一つまたは複数の追加的なサイド情報インスタンスであって、該一つまたは複数の追加的なサイド情報インスタンスの直前または直後のサイド情報インスタンスと実質的に同じ再構成設定を指定するものを生成することを含んでいてもよい。同様の仕方で追加的なクラスター・メタデータ・インスタンスおよび/またはダウンミックス・メタデータ・インスタンスが生成される例示的実施形態も構想される。
上記のように、より多くのサイド情報インスタンスを生成することによる前記サイド情報の再サンプリングは、いくつかの状況において有利でありうる。たとえばオーディオ信号/オブジェクトおよび関連するサイド情報がフレーム・ベースのオーディオ・コーデックを使ってエンコードされるとき、各オーディオ・コーデック・フレームについて少なくとも一つのサイド情報インスタンスをもつことが望ましいので、そのような構成が有利でありうる。エンコーダ側では、解析コンポーネントによって提供されるサイド情報インスタンスは、たとえば、ダウンミックス・コンポーネントによって提供されるダウンミックス信号のフレーム・レートと一致しないような仕方で時間的に分布していることがありうる。よって、サイド情報は、ダウンミックス信号の各フレームについて少なくとも一つのサイド情報インスタンスがあるよう新たなサイド情報インスタンスを導入することによって、有利に再サンプリングされうる。同様に、デコーダ側では、受領されたサイド情報インスタンスは、たとえば、受領されたダウンミックス信号のフレーム・レートと一致しないような仕方で時間的に分布していることがありうるので、サイド情報は、ダウンミックス信号の各フレームについて少なくとも一つのサイド情報インスタンスがあるよう新たなサイド情報インスタンスを導入することによって、有利に再サンプリングされうる。
追加的なサイド情報インスタンスは、たとえば、選択された時点について:該追加的なサイド情報インスタンスの直後のサイド情報インスタンスをコピーし、選択された時点および前記直後のサイド情報インスタンスについての遷移データによって定義される時点に基づいてその追加的なサイド情報インスタンスについての遷移データを決定することによって、生成されてもよい。
第五の側面によれば、データ・ストリーム中でM個のオーディオ信号と一緒にエンコードされたサイド情報をトランスコードするための方法、装置およびコンピュータ・プログラム・プロダクトが提供される。
第五の側面に基づく方法、装置およびコンピュータ・プログラム・プロダクトは、第三および第四の側面に基づく方法、エンコーダ、デコーダおよびコンピュータ・プログラム・プロダクトと協働することが意図されており、対応する特徴および利点をもちうる。
例示的な実施形態によれば、データ・ストリームにおいてM個のオーディオ信号と一緒にエンコードされたサイド情報をトランスコードする方法が提供される。本方法は:
データ・ストリームを受領する段階と;
前記データ・ストリームから、M≧1として、M個のオーディオ信号と、前記M個のオーディオ信号からの、一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む、関連する時間可変なサイド情報とを抽出する段階であって、抽出されたサイド情報は:
前記オーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンス;および
各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含む、段階と;
一つまたは複数の追加的なサイド情報インスタンスであって、該一つまたは複数の追加的なサイド情報インスタンスの直前または直後のサイド情報インスタンスと実質的に同じ再構成設定を指定する追加的なサイド情報インスタンスを生成する段階と;
前記M個のオーディオ信号および前記サイド情報をデータ・ストリームに含める段階とを含む。
本例示的実施形態では、前記一つまたは複数の追加的なサイド情報インスタンスは、前記サイド情報が受領されたデータ・ストリームから抽出された後に生成されてもよく、生成された一つまたは複数の追加的なサイド情報インスタンスは次いで、前記M個のオーディオ信号および他のサイド情報インスタンスと一緒にデータ・ストリーム中に含められてもよい。
第三の側面に関連して上記したように、より多くのサイド情報インスタンスを生成することによるサイド情報の再サンプリングは、いくつかの状況において有利でありうる。たとえばオーディオ信号/オブジェクトおよび関連するサイド情報がフレーム・ベースのオーディオ・コーデックを使ってエンコードされるとき、各オーディオ・コーデック・フレームについて少なくとも一つのサイド情報インスタンスをもつことが望ましいので、そのような構成が有利でありうる。
データ・ストリームがさらに、第三および第四の側面との関係で述べたクラスター・メタデータおよび/またはダウンミックス・メタデータを含む実施形態も構想される。本方法はさらに、前記追加的なサイド情報インスタンスが生成される仕方と同様に、追加的なダウンミックス・メタデータ・インスタンスおよび/またはクラスター・メタデータ・インスタンスを生成することを含む。
ある例示的実施形態によれば、前記M個のオーディオ信号は、第一のフレーム・レートに従って、受領されたデータ・ストリーム中で符号化されていてもよく、本方法はさらに:
前記M個のオーディオ信号を処理して、前記M個のダウンミックス信号が符号化されているフレーム・レートを前記第一のフレーム・レートとは異なる第二のフレーム・レートに変える段階と;
少なくとも、前記一つまたは複数の追加的なサイド情報インスタンスを生成することによって、前記第二のフレーム・レートに一致するおよび/または前記第二のフレーム・レートと互換になるよう、前記サイド情報を再サンプリングする段階とを含んでいてもよい。
第三の側面との関係で上記したように、オーディオ信号を処理してオーディオ信号の符号化に使われるフレーム・レートを変える、たとえば修正されたフレーム・レートが、前記オーディオ信号が属するオーディオビジュアル信号のビデオ・コンテンツのフレーム・レートに一致するようにすることがいくつかの状況では有利でありうる。各サイド情報インスタンスについての遷移データの存在は、第三の側面との関係で上記したように、サイド情報の再サンプリングを容易にする。サイド情報は、たとえば、処理されたオーディオ信号の各フレームについて少なくとも一つのサイド情報インスタンスがあるよう、追加的なサイド情報インスタンスを生成することによって、新たなフレーム・レートに一致するよう再サンプリングされてもよい。
例示的実施形態によれば、データ・ストリームにおいてM個のオーディオ信号と一緒にエンコードされたサイド情報をトランスコードする装置が提供される。
本装置は:
データ・ストリームを受領し、前記データ・ストリームから、M≧1として、M個のオーディオ信号と、前記M個のオーディオ信号からの、一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む、関連する時間可変なサイド情報とを抽出するよう構成された受領コンポーネントを有しており、抽出されたサイド情報は:
前記オーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンス;および
各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含む。
本装置はさらに:
一つまたは複数の追加的なサイド情報インスタンスであって、該一つまたは複数の追加的なサイド情報インスタンスの直前または直後のサイド情報インスタンスと実質的に同じ再構成設定を指定する追加的なサイド情報インスタンスを生成するよう構成されている再サンプリング・コンポーネントと;
前記M個のオーディオ信号および前記サイド情報をデータ・ストリームに含めるよう構成されている多重化コンポーネントとを有する。
ある例示的実施形態によれば、第三、第四または第五の側面における方法は、さらに:第一のサイド情報インスタンスによって指定される第一の所望される再構成設定と、前記第一のサイド情報インスタンスの直後の一つまたは複数のサイド情報インスタンスによって指定される一つまたは複数の所望される再構成設定との間の差を計算し;計算された差があらかじめ定義された閾値より低いことに応答して前記一つまたは複数のサイド情報インスタンスを除去することを含んでいてもよい。クラスター・メタデータ・インスタンスおよび/またはダウンミックス・メタデータ・インスタンスが類似の仕方で除去される例示的実施形態も構想されている。
本例示的実施形態に基づいてサイド情報インスタンスを除去することにより、たとえばデコーダ側での再構成の際に、これらのサイド情報インスタンスに基づく無用な計算が回避されうる。あらかじめ定義された閾値を適切な(たとえば十分低い)レベルに設定することにより、再構成されたオーディオ信号の再生品質および/または忠実度は少なくとも近似的には維持されながらも、サイド情報インスタンスは除去されうる。
所望される再構成設定の間の差はたとえば、再構成の一部として用いられる一組の計数についてのそれぞれの値の間の差に基づいて計算されてもよい。
第三、第四または第五の側面における例示的実施形態によれば、各サイド情報インスタンスについての遷移データの前記二つの独立に割り当て可能な部分は:
所望される再構成設定への遷移を開始する時点を示すタイムスタンプと、所望される再構成設定への遷移を完了する時点を示すタイムスタンプ;
所望される再構成設定への遷移を開始する時点を示すタイムスタンプと、所望される再構成設定への遷移を開始する時点から所望される再構成設定に達するための継続時間を示す補間継続時間パラメータ;または
所望される再構成設定への遷移を完了する時点を示すタイムスタンプと、所望される再構成設定への遷移を開始する時点から所望される再構成設定に達するための継続時間を示す補間継続時間パラメータであってもよい。
換言すれば、遷移を開始および終了する時点は、それぞれの時点を示す二つのタイムスタンプによってまたはそれらのタイムスタンプの一方と遷移の継続時間を示す補間継続時間パラメータとの組み合わせによって、前記遷移データにおいて定義されうる。
それぞれのタイムスタンプはたとえば、M個のダウンミックス信号および/またはN個のオーディオ・オブジェクトを表わすために用いられる時間ベースを参照することによってそれぞれの時点を示してもよい。
第三、第四または第五の側面における例示的実施形態によれば、各クラスター・メタデータ・インスタンスについての遷移データの前記二つの独立に割り当て可能な部分は:
所望されるレンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を完了する時点を示すタイムスタンプ;
所望されるレンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を開始する時点から所望されるレンダリング設定に達するための継続時間を示す補間継続時間パラメータ;または
所望されるレンダリング設定への遷移を完了する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を開始する時点から所望されるレンダリング設定に達するための継続時間を示す補間継続時間パラメータであってもよい。
第三、第四または第五の側面における例示的実施形態によれば、各ダウンミックス・メタデータ・インスタンスについての遷移データの前記二つの独立に割り当て可能な部分は:
所望されるダウンミックス・レンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を完了する時点を示すタイムスタンプ;
所望されるダウンミックス・レンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を開始する時点から所望されるダウンミックス・レンダリング設定に達するための継続時間を示す補間継続時間パラメータ;または
所望されるダウンミックス・レンダリング設定への遷移を完了する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を開始する時点から所望されるダウンミックス・レンダリング設定に達するための継続時間を示す補間継続時間パラメータであってもよい。
例示的実施形態によれば、前記第三、第四または第五の側面における方法のいずれかの方法を実行するための命令をもつコンピュータ可読媒体を含むコンピュータ・プログラム・プロダクトが提供される。
〈IV.例示的実施形態〉
図1は、ある例示的実施形態に基づく、オーディオ・オブジェクト120をデータ・ストリーム140にエンコードするエンコーダ100を示している。エンコーダ100は、受領コンポーネント(図示せず)、ダウンミックス・コンポーネント102、エンコーダ・コンポーネント104、解析コンポーネント106および多重化コンポーネント108を有する。オーディオ・データの一つの時間フレームをエンコードするためのエンコーダ100の動作を下記で述べるが、下記の方法は時間フレーム・ベースで繰り返されることは理解される。同じことは図2〜図5の説明にも当てはまる。
受領コンポーネントは、複数のオーディオ・オブジェクト(N個のオーディオ・オブジェクト)120およびそれらのオーディオ・オブジェクト120に関連するメタデータ122を受領する。本稿での用法でのオーディオ・オブジェクトは、典型的には時間とともに(時間フレームと時間フレームの間で)変わる関連付けられた空間位置、すなわち動的な空間位置をもつオーディオ信号をいう。オーディオ・オブジェクト120に関連付けられたメタデータ122は典型的には、オーディオ・オブジェクト120が、デコーダ側で再生のためにどのようにレンダリングされるべきかを記述する情報を含む。特に、オーディオ・オブジェクト120に関連付けられたメタデータ122は、オーディオ・シーンの三次元空間内でのオーディオ・オブジェクト120の空間位置についての情報を含む。空間位置はデカルト座標において、あるいは方位角および高度のような方向角に任意的に距離で補足したものによって表現されることができる。オーディオ・オブジェクト120に関連付けられたメタデータ122はさらに、オブジェクト・サイズ、オブジェクト・ラウドネス、オブジェクト重要性、オブジェクト・コンテンツ型、ダイアログ向上の適用もしくはあるラウドスピーカーのレンダリングからの除外(いわゆるゾーン・マスク)などの個別的なレンダリング指示および/または他のオブジェクト属性を含んでいてもよい。
図4を参照して述べるように、これらのオーディオ・オブジェクト120は、オーディオ・シーンの簡略化された表現に対応してもよい。
N個のオーディオ・オブジェクト120はダウンミックス・コンポーネント102に入力される。ダウンミックス・コンポーネント102は、N個のオーディオ・オブジェクト120の組み合わせ、典型的には線形結合を形成することによって、M個のダウンミックス信号を計算する。たいていの場合、データ・ストリーム140に含まれるデータの量が低減されるよう、ダウンミックス信号124の数はオーディオ・オブジェクト120の数より少ない。すなわちM<Nである。しかしながら、データ・ストリーム140の目標ビットレートが高い用途については、ダウンミックス信号124の数はオブジェクト120の数に等しくてもよい。すなわちM=Nとなる。
ダウンミックス・コンポーネント102はさらに、ここでL個の補助オーディオ信号127とラベル付けされる一つまたは複数の補助オーディオ信号127を計算してもよい。補助オーディオ信号127の役割は、デコーダ側でのN個のオーディオ・オブジェクト120の再構成を改善することである。補助オーディオ信号127は、N個のオーディオ・オブジェクト120の一つまたは複数に、直接またはこれらの組み合わせとして、対応してもよい。たとえば、補助オーディオ信号127は、ダイアログに対応するオーディオ・オブジェクト120など、N個のオーディオ・オブジェクト120のうちの特に重要なものに対応してもよい。重要性は、N個のオーディオ・オブジェクト120に関連付けられるメタデータ122によって反映されても、あるいはそれから導出されてもよい。
M個のダウンミックス信号124および存在すればL個の補助信号127は、その後、ここでコア・エンコーダとラベル付けされるエンコーダ・コンポーネント104によってエンコードされて、M個のエンコードされたダウンミックス信号126およびL個のエンコードされた補助信号129を生成してもよい。エンコーダ・コンポーネント104は、当技術分野で知られている知覚的オーディオ・コーデックであってもよい。既知の知覚的オーディオ・コーデックの例はドルビー・デジタルおよびMPEG AACを含む。
いくつかの実施形態では、ダウンミックス・コンポーネント102はさらに、M個のダウンミックス信号124をメタデータ125に関連付けてもよい。特に、ダウンミックス・コンポーネント102は、各ダウンミックス信号124を空間位置に関連付け、該空間位置をメタデータ125に含めてもよい。オーディオ・オブジェクト120に関連付けられたメタデータ122と同様に、ダウンミックス信号124に関連付けられたメタデータ125も、サイズ、ラウドネス、重要性および/または他の属性に関係するパラメータを含んでいてもよい。
特に、ダウンミックス信号124に関連付けられた空間位置は、N個のオーディオ・オブジェクト120の空間位置に基づいて計算されてもよい。N個のオーディオ・オブジェクト120の空間位置は動的であってもよい、すなわち時間変化してもよく、M個のダウンミックス信号124に関連付けられた空間位置も動的であってもよい。換言すれば、M個のダウンミックス信号124はそれ自身がオーディオ・オブジェクトとして解釈されてもよい。
解析コンポーネント106は、M個のダウンミックス信号124およびもし存在すればL個の補助信号129からのN個のオーディオ・オブジェクト120(またはN個のオーディオ・オブジェクト120の知覚的に好適な近似)の再構成を許容するパラメータを含むサイド情報128を計算する。サイド情報128も時間可変であってもよい。たとえば、解析コンポーネント106は、パラメトリック符号化のための任意の既知の技法に従ってM個のダウンミックス信号124、もしあればL個の補助信号127およびN個のオーディオ・オブジェクト120を解析することによってサイド情報128を計算してもよい。あるいはまた、解析コンポーネント106は、N個のオーディオ・オブジェクトおよび(時間変化する)ダウンミックス行列を提供することによるなど該N個のオーディオ・オブジェクトからM個のダウンミックス信号がどのように生成されたかについての情報を解析することによって、サイド情報128を計算してもよい。その場合、M個のダウンミックス信号124は、解析コンポーネント106への入力として厳密には要求されない。
M個のエンコードされたダウンミックス信号126、L個のエンコードされた補助信号129、サイド情報128、N個のオーディオ・オブジェクトに関連付けられたメタデータ122およびダウンミック信号に関連付けられたメタデータ125は次いで多重化コンポーネント108に入力され、該多重化コンポーネント108は、多重化技法を使って、その入力データを単一のデータ・ストリーム140に含める。このように、データ・ストリーム140は四つの型のデータを含みうる。
a)M個のダウンミックス信号126(および任意的にL個の補助信号129)
b)M個のダウンミックス信号に関連付けられたメタデータ125
c)M個のダウンミックス信号からN個のオーディオ・オブジェクトを再構成するためのサイド情報128
d)N個のオーディオ・オブジェクトに関連付けられたメタデータ122。
上述したように、オーディオ・オブジェクトを符号化するためのいくつかの従来技術のシステムは、M個のダウンミックス信号が、M個のチャネルをもつスピーカー配位のチャネルでの再生に好適なように選ばれることを要求する。これは本稿で後方互換なダウンミックスと称される。そのような従来技術の要求は、オーディオ・オブジェクトがあらかじめ定義された仕方でのみ組み合わされうるという点で、ダウンミックス信号の計算を制約する。よって、従来技術によれば、ダウンミックス信号は、デコーダ側でのオーディオ・オブジェクトの再構成を最適にするという観点から選択されるのではない。
従来技術のシステムとは異なり、ダウンミックス・コンポーネント102は、N個のオーディオ・オブジェクトに関して信号適応的な仕方でM個のダウンミックス信号124を計算する。特に、ダウンミックス・コンポーネント102は、各時間フレームについて、M個のダウンミックス信号124を、現在何らかの基準を最適化するオーディオ・オブジェクト120の組み合わせとして計算してもよい。基準は典型的には、5.1または他のラウドスピーカー配位のようないかなるラウドスピーカー配位とも独立であるよう定義される。これは、M個のダウンミックス信号124またはそのうちの少なくとも一つが、Mチャネルをもつスピーカー配位のチャネルでの再生に好適であるオーディオ信号に制約されないことを含意する。よって、ダウンミックス・コンポーネント102は、たとえばデコーダ側でのオーディオ・オブジェクト120の再構成を改善するために、M個のダウンミックス信号124を、N個のオーディオ・オブジェクト120の時間変動(N個のオーディオ・オブジェクトの空間位置を含むメタデータ122の時間変動を含む)に適応させてもよい。
ダウンミックス・コンポーネント102は、M個のダウンミックス信号を計算するために異なる基準を適用してもよい。一例によれば、M個のダウンミックス信号は、該M個のダウンミックス信号に基づくN個のオーディオ・オブジェクトの再構成が最適化されるよう、計算されてもよい。たとえば、ダウンミックス・コンポーネント102は、N個のオーディオ・オブジェクト120およびM個のダウンミックス信号124に基づく該N個のオーディオ・オブジェクトの再構成から形成される再構成誤差を最小にしてもよい。
別の例によれば、基準はN個のオーディオ・オブジェクト120の空間位置に、特に空間的近接性に基づく。上記で論じたように、N個のオーディオ・オブジェクト120は、該N個のオーディオ・オブジェクト120の空間位置を含む関連付けられたメタデータ122を有する。該メタデータ122に基づいて、N個のオーディオ・オブジェクト120の空間的近接性が導出されてもよい。
より詳細には、ダウンミックス・コンポーネント102は、M個のダウンミックス信号124を決定するために、第一のクラスタリング手順を適用してもよい。第一のクラスタリング手順は、N個のオーディオ・オブジェクト120を、空間的近接性に基づいてM個のクラスターに関連付けることを含んでいてもよい。関連付けられたメタデータ122によって表わされる、オブジェクト・サイズ、オブジェクト・ラウドネス、オブジェクト重要性を含む前記N個のオーディオ・オブジェクト120のさらなる属性も、オーディオ・オブジェクト120をM個のクラスターに関連付ける際に、考慮に入れられてもよい。
一例によれば、よく知られたK平均アルゴリズムが、N個のオーディオ・オブジェクトのメタデータ122(空間位置)を入力として、N個のオーディオ・オブジェクト120を空間的近接性に基づいてM個のクラスターに関連付けるために使われてもよい。N個のオーディオ・オブジェクト120の前記さらなる属性は、K平均アルゴリズムにおける重み付け因子として使われてもよい。
別の例によれば、第一のクラスタリング手順は、メタデータ122によって与えられるオーディオ・オブジェクトの重要性を選択基準として使う選択手順に基づいていてもよい。より詳細には、ダウンミックス・コンポーネント102は、最も重要な諸オーディオ・オブジェクト120をそのまま通過させ、M個のダウンミックス信号のうちの一つまたは複数がN個のオーディオ・オブジェクト120の一つまたは複数に対応するようにしてもよい。残りの、それほど重要でないオーディオ・オブジェクトは、上記で論じたように、空間的近接性に基づいてクラスターに関連付けられてもよい。
オーディオ・オブジェクトをクラスタリングするさらなる例は、米国仮特許出願第61/865,072号および同出願の優先権を主張するその後の出願において与えられている。
別の例によれば、第一のクラスタリング手順は、あるオーディオ・オブジェクト120をM個のクラスターのうちの二つ以上に関連付けてもよい。たとえば、オーディオ・オブジェクト120は、M個のクラスターにわたって分配されてもよい。ここで、分配はたとえば、オーディオ・オブジェクト120の空間位置に、また任意的にはオブジェクト・サイズ、オブジェクト・ラウドネス、オブジェクト重要性などを含むオーディオ・オブジェクトのさらなる属性にも依存する。分配は割合によって反映されてもよい。たとえば、オーディオ・オブジェクトは三つのクラスターに割合20%、30%、50%に従って分配される。
ひとたびN個のオーディオ・オブジェクト120がM個のクラスターに関連付けられたら、ダウンミックス・コンポーネント102は、各クラスターについてのダウンミックス信号124を、そのクラスターに関連付けられたオーディオ・オブジェクト120の組み合わせ、典型的には線形結合を形成することによって計算する。典型的には、ダウンミックス・コンポーネント102は、オーディオ・オブジェクト120に関連付けられたメタデータ122に含まれるパラメータを、組み合わせを形成するときの重みとして使ってもよい。例として、あるクラスターに関連付けられているオーディオ・オブジェクト120はオブジェクト・サイズ、オブジェクト・ラウドネス、オブジェクト重要性、オブジェクト位置、クラスターに関連付けられた空間位置に対するオブジェクトからの距離(詳細は後述)などに従って重み付けされてもよい。オーディオ・オブジェクト120がM個のクラスターにわたって分配される場合には、分配を反映する割合が、組み合わせを形成するときの重みとして使われてもよい。
第一のクラスタリング手順は、M個のダウンミックス信号124のそれぞれの空間位置との関連付けを簡単に許容するという点で有利である。たとえば、ダウンミックス・コンポーネント102は、クラスターに対応するダウンミックス信号124の空間位置を、そのクラスターに関連付けられたオーディオ・オブジェクト120の空間位置に基づいて計算してもよい。そのクラスターに関連付けられているオーディオ・オブジェクトの空間位置の重心または重み付けされた重心がこの目的のために使われてもよい。重み付けされた重心の場合には、クラスターに関連付けられたオーディオ・オブジェクト120の組み合わせを形成するときと同じ重みが使われてもよい。
図2は、図1のエンコーダ100に対応するデコーダ200を示している。デコーダ200は、オーディオ・オブジェクト再構成をサポートする型のものである。デコーダ200は、受領コンポーネント208、デコーダ・コンポーネント204および再構成コンポーネント206を有する。デコーダ200はさらに、レンダラー210を有していてもよい。あるいはまた、デコーダ200は再生システムの一部をなすレンダラー210に結合されてもよい。
受領コンポーネント208は、エンコーダ100からデータ・ストリーム240を受領するよう構成されている。受領コンポーネント208は、受領されたデータ・ストリーム240をその成分に多重分離するよう構成された多重分離〔デマルチプレックス〕コンポーネントを有する。該成分は、この場合は、M個のエンコードされたダウンミックス信号226と、任意的にL個のエンコードされた補助信号229と、M個のダウンミックス信号およびL個の補助信号からのN個のオーディオ・オブジェクトの再構成のためのサイド情報228と、該N個のオーディオ・オブジェクトに関連付けられたメタデータ222である。
デコーダ・コンポーネント204はM個のエンコードされたダウンミックス信号226および任意的にL個の補助信号227を処理してM個のダウンミックス信号224を生成する。上記でさらに論じたように、M個のダウンミックス信号224は、N個のオーディオ・オブジェクトからエンコーダ側で適応的に、すなわち、いかなるラウドスピーカー配位とも独立な基準に従ってN個のオーディオ・オブジェクトの組み合わせを形成することによって、形成されたものである。
次いで、オブジェクト再構成コンポーネント206は、エンコーダ側で導出されたサイド情報228によって案内されてM個のダウンミックス信号224および任意的にL個の補助信号227に基づいてN個のオーディオ・オブジェクト220(またはこれらのオーディオ・オブジェクトの知覚的に好適な近似)を再構成する。オブジェクト再構成コンポーネント206は、オーディオ・オブジェクトのそのようなパラメトリックな再構成のための任意の既知の技法を適用しうる。
次いで、再構成されたN個のオーディオ・オブジェクト220は、再生のために好適なマルチチャネル出力信号230を生成するために、オーディオ・オブジェクト222に関連付けられたメタデータ222および再生システムのチャネル配位についての知識を使ってレンダラーによって処理される。典型的なスピーカー再生配位は22.2および11.1を含む。サウンドバー・スピーカー・システムまたはヘッドフォン(バイノーラル呈示)での再生は、そのような再生システムのための専用レンダラーを用いても可能である。
図3は、図1のエンコーダ100に対応する低計算量デコーダ300を示している。デコーダ300はオーディオ・オブジェクト再構成をサポートしない。デコーダ300は、受領コンポーネント308およびデコーダ・コンポーネント304を有する。デコーダ300はさらに、レンダラー310を有していてもよい。あるいはまた、該デコーダは再生システムの一部をなすレンダラー310に結合されてもよい。
上記で論じたように、後方互換なダウンミックス(5.1ダウンミックスのような)、すなわちM個のチャネルをもつ再生システム上での直接再生のために好適なM個のダウンミックス信号を含むダウンミックスを使う従来技術のシステムは、(たとえば5.1マルチチャネル・ラウドスピーカー・セットアップしかサポートしない)レガシー再生システムのための低計算量のデコードを簡単に可能にする。そのような従来技術のシステムは典型的には、後方互換なダウンミックス信号自身をデコードし、サイド情報(図2の項目228参照)およびオーディオ・オブジェクトに関連付けられているメタデータ(図2の項目222参照)といったデータ・ストリームの追加的な部分を破棄する。しかしながら、ダウンミックス信号が上記のように適応的に形成されるとき、ダウンミックス信号は一般に、レガシー・システム上での直接再生のためには好適ではない。
デコーダ300は、特定の再生配位のみをサポートするレガシー再生システム上での再生のために適応的に形成されるM個のダウンミックス信号の低計算量デコードを許容するデコーダの例である。
受領コンポーネント308は、図1のエンコーダ100のようなエンコーダからビットストリーム340を受領する。受領コンポーネント308は、ビットストリーム340をその成分に多重分離する。この場合は、受領コンポーネント308は、エンコードされたM個のダウンミックス信号326およびM個のダウンミックス信号に関連付けられたメタデータ325を保持するだけである。L個の補助信号(図2の項目229参照)、N個のオーディオ・オブジェクトに関連付けられているメタデータ(図2の項目222参照)およびサイド情報(図2の項目228参照)といった、データ・ストリーム340の他の成分は破棄される。
デコーダ・コンポーネント304はM個のエンコードされたダウンミックス信号326をデコードしてM個のダウンミックス信号324を生成する。次いで、M個のダウンミックス信号は、ダウンミックス・メタデータと一緒に、(典型的にはM個のチャネルをもつ)M個のダウンミックス信号をレガシー再生フォーマットに対応するマルチチャネル出力330にレンダリングするレンダラー310に入力される。ダウンミックス・メタデータ325はM個のダウンミックス信号324の空間位置を含むので、レンダラー310は典型的には図2のレンダラー210と同様であってもよい。唯一の違いは、レンダラー310は、オーディオ・オブジェクト220およびその関連付けられたメタデータ222の代わりに、今やM個のダウンミックス信号324および該M個のダウンミックス信号324に関連付けられたメタデータ325を入力として取るということである。
図1との関連で上述したように、N個のオーディオ・オブジェクト120は、オーディオ・シーンの簡略化された表現に対応してもよい。
一般に、オーディオ・シーンは、オーディオ・オブジェクトおよびオーディオ・チャネルを含んでいてもよい。オーディオ・チャネルとは、ここでは、マルチチャネル・スピーカー配位のあるチャネルに対応するオーディオ信号を意味する。そのようなマルチチャネル・スピーカー配位の例は22.2配位、11.1配位などを含む。オーディオ・チャネルは、そのチャネルのスピーカー位置に対応する空間位置をもつ静的なオーディオ・オブジェクトとして解釈してもよい。
いくつかの場合には、オーディオ・シーン内のオーディオ・オブジェクトおよびオーディオ・チャネルの数は、100を超えるオーディオ・オブジェクトおよび1〜24のオーディオ・チャネルなど、膨大であることがある。これらのオーディオ・オブジェクト/チャネルのすべてがデコーダ側で再構成される場合、大量の計算パワーが必要とされる。さらに、オブジェクト・メタデータおよびサイド情報に関連付けられた帰結するデータ・レートは、多数のオブジェクトが入力として与えられる場合には、一般に、非常に大きい。このため、デコーダ側で再構成されるべきオーディオ・オブジェクトの数を減らすために、オーディオ・シーンを簡略化することが有利である。この目的のために、エンコーダは、第二のクラスタリング手順に基づいてオーディオ・シーン内のオーディオ・オブジェクトの数を減らすクラスタリング・コンポーネントを有していてもよい。第二のクラスタリング手順は、等しいまたは非常に近い位置をもつオーディオ・オブジェクトなど、オーディオ・シーン内に存在する空間的冗長性を活用することをねらいとする。追加的に、オーディオ・オブジェクトの知覚的重要性が考慮に入れられてもよい。一般に、そのようなクラスタリング・コンポーネントは、図1のダウンミックス・コンポーネント102と逐次的にまたは並列に配置されうる。逐次的な配置は図4を参照して述べる。並列な配置は図5を参照して述べる。
図4はエンコーダ400を示している。図1を参照して述べたコンポーネントに加えて、エンコーダ400は、クラスタリング・コンポーネント409を有する。クラスタリング・コンポーネント409は、ダウンミックス・コンポーネント102と逐次的に配置されている。つまり、クラスタリング・コンポーネント409の出力がダウンミックス・コンポーネント102に入力される。
クラスタリング・コンポーネント409は、オーディオ・オブジェクト421aおよび/またはオーディオ・チャネル421bを、オーディオ・オブジェクト421aの空間位置を含む関連付けられたメタデータ423と一緒に、入力として受ける。クラスタリング・コンポーネント409は、各オーディオ・チャネル421bをオーディオ・チャネル421bに対応するスピーカー位置の空間位置に関連付けることによって、オーディオ・チャネル421bを静的なオーディオ・オブジェクトに変換する。オーディオ・オブジェクト421aおよびオーディオ・チャネル421bから形成された静的なオーディオ・オブジェクトは、第一の複数のオーディオ・オブジェクト421と見ることができる。
クラスタリング・コンポーネント409は一般に、前記第一の複数のオーディオ・オブジェクト421を、ここでは図1のN個のオーディオ・オブジェクト120に対応する第二の複数のオーディオ・オブジェクトに減らす。この目的のため、クラスタリング・コンポーネント409は第二のクラスタリング手順を適用してもよい。
第二のクラスタリング手順は一般に、ダウンミックス・コンポーネント102に関して上記した第一のクラスタリング手順と同様である。したがって、第一のクラスタリング手順の記述は第二のクラスタリング手順にも当てはまる。
特に、第二のクラスタリング手順は、第一の複数のオーディオ・オブジェクト121を、第一の複数のオーディオ・オブジェクト121の空間的近接性に基づいて、少なくとも一つのクラスター、ここではN個のクラスターに関連付けることを含む。さらに上記で述べたように、クラスターとの関連付けは、メタデータ423によって表わされる、オーディオ・オブジェクトの他の属性にも基づいていてもよい。次いで、各クラスターは、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせ(線形結合)であるオブジェクトによって表わされる。図示した例では、N個のクラスターがあるのでN個のオーディオ・オブジェクト120が生成される。クラスタリング・コンポーネント409はさらに、そのように生成されたN個のオーディオ・オブジェクト120についてのメタデータ122を計算する。メタデータ122は、N個のオーディオ・オブジェクト120の空間位置を含む。N個のオーディオ・オブジェクト120のそれぞれの空間位置は、対応するクラスターに関連付けられているオーディオ・オブジェクトの空間位置に基づいて計算されてもよい。例として、空間位置は、図1を参照して上記でさらに説明したように、クラスターに関連付けられているオーディオ・オブジェクトの空間位置の重み付けされた重心として計算されてもよい。
クラスタリング・コンポーネント409によって生成されるN個のオーディオ・オブジェクト120は次いで、図1を参照してさらに述べたように、ダウンミックス・コンポーネント120に入力される。
図5はエンコーダ500を示している。図1を参照して述べたコンポーネントに加えて、エンコーダ500は、クラスタリング・コンポーネント509を有する。クラスタリング・コンポーネント509は、ダウンミックス・コンポーネント102と並列に配置されている。つまり、ダウンミックス・コンポーネント102とクラスタリング・コンポーネント509は同じ入力をもつ。
入力は、図1のN個のオーディオ・オブジェクト120に対応する第一の複数のオーディオ・オブジェクトを、該第一の複数のオーディオ・オブジェクトの空間位置を含むメタデータ122と一緒に含む。第一の複数のオーディオ・オブジェクト120は、図4の第一の複数のオーディオ・オブジェクト121と同様に、オーディオ・オブジェクトおよび静的なオーディオ・オブジェクトに変換されるオーディオ・チャネルを含む。ダウンミックス・コンポーネント102がオーディオ・シーンの簡略化されたバージョンに対応する低減した数のオーディオ・オブジェクトに対して作用する図4の逐次的な配置とは対照的に、図5のダウンミックス・コンポーネント102は、M個のダウンミックス信号124を生成するためにオーディオ・シーンのフル・オーディオ・コンテンツに対して作用する。
クラスタリング・コンポーネント509は機能において図4を参照して述べたクラスタリング・コンポーネント409と同様である。特に、クラスタリング・コンポーネント509は、上記の第二のクラスタリング手順を適用することによって、第一の複数のオーディオ・オブジェクト120を、ここではK個のオーディオ・オブジェクトによって示されている第二の複数のオーディオ・オブジェクト521に減らす。典型的にはM<K<N(高ビット用途についてはM≦K≦N)である。このように、第二の複数のオーディオ・オブジェクト521は、N個のオーディオ・オブジェクト126に基づいて形成された一組のオーディオ・オブジェクトである。さらに、クラスタリング・コンポーネント509は、第二の複数のオーディオ・オブジェクト521の空間位置を含む第二の複数のオーディオ・オブジェクト521(K個のオーディオ・オブジェクト)についてのメタデータ522を計算する。メタデータ522は、多重分離コンポーネント108によってデータ・ストリーム540に含められる。解析コンポーネント106は、M個のダウンミックス信号124からの第二の複数のオーディオ・オブジェクト521、すなわち前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクト(ここではK個のオーディオ・オブジェクト)の再構成を可能にするサイド情報528を計算する。サイド情報528は、多重化コンポーネント108によってデータ・ストリーム540に含められる。上記でさらに論じたように、解析コンポーネント106はたとえばサイド情報528を、第二の複数のオーディオ・オブジェクト521およびM個のダウンミックス信号124を解析することによって導出してもよい。
エンコーダ500によって生成されるデータ・ストリーム540は、図2のデコーダまたは図3のデコーダ300によってデコードされうる。しかしながら、図2の再構成されたオーディオ・オブジェクト(N個のオーディオ・オブジェクトとラベル付けられる)は今や図5の第二の複数のオーディオ・オブジェクト521(K個のオーディオ・オブジェクトとラベル付けされる)に対応し、該オーディオ・オブジェクトに関連付けられたメタデータ222(N個のオーディオ・オブジェクトのメタデータとラベル付けられる)は今や図5の第二の複数のオーディオ・オブジェクトのメタデータ522(K個のオーディオ・オブジェクトのメタデータとラベル付けされる)に対応する。
オブジェクト・ベースのオーディオ・エンコード/デコード・システムでは、オブジェクトに関連付けられたサイド情報またはメタデータは典型的には、付随するデータ・レートを制限するために、時間的に比較的低頻度で(まれに)更新される。オブジェクト位置についての典型的な更新間隔は、オブジェクトの速度、要求される位置精度、メタデータの記憶もしくは伝送のための利用可能な帯域幅などに依存して、10から500ミリ秒の間の範囲でありうる。そのようなまれな、またさらには不規則なメタデータ更新は、二つの相続くメタデータ・インスタンスの中間のオーディオ・サンプルについて、メタデータおよび/またはレンダリング行列(すなわち、レンダリングにおいて用いられる行列)の補間を必要とする。補間なしでは、レンダリング行列における結果的なステップごとの変化が、ステップごとの行列更新によって導入されるスペクトル・スプラッター(splatter)の結果として、望ましくないスイッチング・アーチファクト、クリック音、ジッパー・ノイズまたは他の望ましくないアーチファクトを引き起こすことがありうる。
図6は、一組のメタデータ・インスタンスに基づく、オーディオ信号またはオーディオ・オブジェクトのレンダリングのためのレンダリング行列を計算するための典型的な既知のプロセスを示している。図6に示されるように、一組のメタデータ・インスタンス(m1ないしm4)610は、時間軸620に沿ってその位置によって示される一組の時点(t1ないしt4)に対応する。その後、各メタデータ・インスタンスは、該メタデータ・インスタンスと同じ時点において有効なそれぞれのレンダリング行列(c1ないしc4)630またはレンダリング設定に変換される。こうして、図のように、メタデータ・インスタンスm1は時点t1におけるレンダリング行列c1を生成し、メタデータ・インスタンスm2は時点t2におけるレンダリング行列c2を生成し、などとなる。簡単のため、図6は各メタデータ・インスタンスm1ないしm4について一つのレンダリング行列しか示していない。しかしながら、実際的なシステムでは、レンダリング行列c1は、出力信号yj(t)を生成するためにそれぞれのオーディオ信号xi(t)に適用されるべき一組のレンダリング行列係数または利得係数c1,i,jを含んでいてもよい。
yj(t)=Σi xi(t)c1,i,j
レンダリング行列630は一般に、異なる時点における利得値を表わす係数を含む。メタデータ・インスタンスは、所定の離散的な時点において定義され、メタデータ時点の中間のオーディオ・サンプルについては、レンダリング行列630をつなぐ破線640によって示されるように、レンダリング行列は補間される。そのような補間は線形に実行することができるが、他の補間方法(帯域制限された補間、正弦/余弦補間など)が使われることもできる。メタデータ・インスタンス(および対応するレンダリング行列)の間の時間間隔は、「補間継続時間」と称される。そのような期間は一様であってもよく、あるいは時刻t2とt3の間の補間継続時間に比べて時刻t3とt4の間の補間継続時間がより長いなど、異なっていてもよい。
多くの場合、メタデータ・インスタンスからのレンダリング行列係数の計算はよく定義されるが、(補間された)レンダリング行列が与えられてメタデータ・インスタンスを計算する逆のプロセスはしばしば困難であるか、またはさらには不可能である。これに関し、メタデータからレンダリング行列を生成するプロセスは時に暗号学的一方向性関数と見なされることができる。既存のメタデータ・インスタンスの間の新しいメタデータ・インスタンスを計算するプロセスは、メタデータの「再サンプリング」と称される。メタデータの再サンプリングはしばしば、ある種のオーディオ処理タスクの間に必要となる。たとえば、オーディオ・コンテンツがカット/マージ/混合などにより編集されるとき、そのような編集はメタデータ・インスタンスの中間のところで生起することがある。この場合、メタデータの再サンプリングが必要とされる。もう一つのそのような事例はオーディオおよび関連付けられたメタデータがフレーム・ベースのオーディオ・コーデックを用いてエンコードされるときである。この場合、伝送の間のフレーム損失に対する耐性を改善するために、各オーディオ・コーデック・フレームについて、好ましくはそのコーデック・フレームの先頭にタイムスタンプをもつ少なくとも一つのメタデータ・インスタンスをもつことが望ましい。さらに、メタデータの補間は、二値のメタデータのような、標準的な技法が二回目毎に多少なりとも正しくない値を導出することになるある種の型のメタデータについても効果がない。たとえば、0排除マスク(zero exclusion masks)のような二値フラグがある種の時点においてある種のオブジェクトをレンダリングから排除するために使われる場合、レンダリング行列係数からまたはメタデータの近隣のインスタンスからメタデータの有効な集合を推定することは事実上不可能である。これは図6では、時刻t3とt4の間の補間継続時間におけるレンダリング行列係数からメタデータ・インスタンスm3aを外挿または導出する失敗した試行として示されている。図6に示されるように、メタデータ・インスタンスmxは、ある種の離散的な時点txにおいてのみ確定的に定義され、それが関連付けられた一組の行列係数cxを生じる。これらの離散的な時刻txの中間では、行列係数の諸セットが、過去または将来のメタデータ・インスタンスに基づいて補間される必要がある。しかしながら、上記のように、現在のメタデータ補間方式は、メタデータ補間プロセスにおける不可避的な不正確さに起因する空間的オーディオ品質の損失を被る。例示的な実施形態に基づく代替的な補間方式について図7〜図11を参照して下記に述べる。
図1〜図5を参照して述べた例示的な実施形態では、N個のオーディオ・オブジェクト120、220に関連付けられたメタデータ122、222およびK個のオブジェクト522に関連付けられたメタデータ522は、少なくともいくつかの例示的実施形態では、クラスタリング・コンポーネント409および509に発し、クラスター・メタデータと称されてもよい。さらに、ダウンミックス信号124、324に関連付けられたメタデータ125、325はダウンミックス・メタデータと称されてもよい。
図1、図4および図5を参照して述べたように、ダウンミックス・コンポーネント102は、N個のオーディオ・オブジェクト120の組み合わせを信号適応的な仕方で、すなわちいかなるラウドスピーカー配位とも独立な基準に従って、形成することによって、M個のダウンミックス信号124を計算してもよい。ダウンミックス・コンポーネント102のそのような動作は、第一の側面における例示的な実施形態の特徴である。他の側面における例示的な実施形態によれば、ダウンミックス・コンポーネント102はたとえば、信号適応的な仕方で、あるいはM個のダウンミックス信号がM個のチャネルをもつスピーカー配位のチャネルでの再生に好適なように、すなわち後方互換なダウンミックスとして、N個のオーディオ・オブジェクト120の組み合わせを形成することによって、M個のダウンミックス信号124を計算してもよい。
ある例示的な実施形態では、図4を参照して述べたエンコーダ400は、再サンプリングのために、すなわち追加的なメタデータおよびサイド情報インスタンスを生成するために特に好適なメタデータおよびサイド情報フォーマットを用いる。本例示的実施形態では、解析コンポーネント106は、N個のオーディオ・オブジェクト120を再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンスと、各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含む形で、サイド情報128を計算する。本例示的実施形態では、各サイド情報インスタンスについての前記遷移データの前記二つの独立に割り当て可能な部分は:所望される再構成設定への遷移を開始する時点を示すタイムスタンプと、所望される再構成設定への遷移を開始する時点から所望される再構成設定に到達するための継続時間を示す補間継続時間パラメータとである。遷移が起こる期間は、本例示的実施形態では、遷移が始まるべき時刻と遷移期間の長さによって一意的に定義される。サイド情報128のこの特定の形は、図7〜図11を参照して後述する。この遷移期間を一意的に定義するいくつかの他の方法があることは理解される。たとえば、該期間の開始、終了または中間点の形の基準点に該期間の長さを付したものが前記遷移データにおいて、該期間を一意的に定義するために用いられてもよい。あるいはまた、前記期間の始点および終点が、該期間を一意的に定義するために用いられてもよい。
本例示的実施形態では、クラスタリング・コンポーネント409は第一の複数のオーディオ・オブジェクト421を、ここでは図1のN個のオーディオ・オブジェクト120に対応する第二の複数のオーディオ・オブジェクトに減らす。クラスタリング・コンポーネント409は、生成されたN個のオーディオ・オブジェクト120についてのクラスター・メタデータ122を計算する。該メタデータは、デコーダ側のレンダラー210においてN個のオーディオ・オブジェクト122のレンダリングを可能にする。クラスタリング・コンポーネント409は、クラスター・メタデータ122を、N個のオーディオ・オブジェクト120をレンダリングするためのそれぞれの所望されるレンダリング設定を指定する複数のクラスター・メタデータ・インスタンスと、各クラスター・メタデータ・インスタンスについて、現在のレンダリング設定から、そのクラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始する時点および所望されるレンダリング設定までの該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含む形で、クラスター・メタデータ122を提供する。本例示的実施形態では、各クラスター・メタデータ・インスタンスについての前記遷移データの前記二つの独立に割り当て可能な部分は:所望されるレンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を開始する時点から所望されるレンダリング設定に到達するための継続時間を示す補間継続時間パラメータとである。クラスター・メタデータ122のこの特定の形は、図7〜図11を参照して後述する。
本例示的実施形態では、ダウンミックス・コンポーネント102は各ダウンミックス信号124を空間位置に関連付け、該空間位置を、デコーダ側でのレンダラー310においてM個のダウンミックス信号のレンダリングを許容するダウンミックス・メタデータ125に含める。ダウンミックス・コンポーネント102は、ダウンミックス信号をレンダリングするためのそれぞれの所望されるダウンミックス・レンダリング設定を指定する複数のダウンミックス・メタデータ・インスタンスと、各ダウンミックス・メタデータ・インスタンスについて、現在のダウンミックス・レンダリング設定から、そのダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を開始する時点および所望されるダウンミックス・レンダリング設定までの該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含む形で、ダウンミックス・メタデータ125を提供する。本例示的実施形態では、各ダウンミックス・メタデータ・インスタンスについての前記遷移データの前記二つの独立に割り当て可能な部分は:所望されるダウンミックス・レンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を開始する時点から所望されるダウンミックス・レンダリング設定に到達するための継続時間を示す補間継続時間パラメータとである。
本例示的実施形態では、同じフォーマットがサイド情報128、クラスター・メタデータ122およびダウンミックス・メタデータ125について用いられる。このフォーマットが、オーディオ信号のレンダリングのためのメタデータに関し、これから図7〜図11を参照して記述される。しかしながら、図7〜図11を参照して記述される以下の例において、「オーディオ信号のレンダリングのためのメタデータ」のような用語および表現は、「オーディオ・オブジェクトの再構成のためのサイド情報」、「オーディオ・オブジェクトのレンダリングのためのクラスター・メタデータ」または「ダウンミックス信号のレンダリングのためのダウンミックス・メタデータ」のような対応する用語または表現によって置き換えられてもよいことは理解される。
図7は、ある例示的な実施形態に基づく、オーディオ信号のレンダリングにおいて用いられる係数曲線の、メタデータに基づく導出を示している。図7に示されるように、たとえば一意的な時間サンプルに関連付けられた異なる時点txにおいて生成されるメタデータ・インスタンスmxのセットは、変換器710によって対応する行列係数値cxの諸セットに変換される。係数のこれらのセットは、オーディオ・コンテンツがレンダリングされるべき再生システムにおけるさまざまなスピーカーおよびドライバにオーディオ信号をレンダリングするために用いられる、利得因子とも称される利得値を表わす。次いで、補間器720が利得因子cxを補間して、離散的な時刻txの間の係数曲線を生成する。ある実施形態では、各メタデータ・インスタンスmxに関連付けられたタイムスタンプtxは、ランダムな時点、クロック回路によって生成される同期的な諸時点、フレーム境界のようなオーディオ・コンテンツに関係した時間イベントまたは他の任意の適切な時間をもつイベントに対応してもよい。上記のように、図7を参照して与えられる説明は、オーディオ・オブジェクトの再構成のためのサイド情報にも同様に当てはまる。
図8は、ある実施形態に基づくメタデータ・フォーマットを示している(そして、上記のように、以下の説明は対応するサイド情報フォーマットにも同様に当てはまる)。これは、上記のように、現在の方法に付随する補間問題の少なくともいくつかに対処する。それは、遷移もしくは補間の開始時刻としてのタイムスタンプを定義し、各メタデータ・インスタンスを、遷移継続時間または補間継続時間(「ライプ・サイズ」とも称される)を表わす補間継続時間パラメータをもって増強することによる。図8に示されるように、メタデータ・インスタンスm2ないしm4(810)のセットは、レンダリング行列c2ないしc4(830)のセットを指定する。各メタデータ・インスタンスは、特定の時点txにおいて生成され、各メタデータ・インスタンスはそのタイムスタンプに関して定義される。t2に対するm2、t3に対するm3などである。関連付けられたレンダリング行列830は、それぞれの補間継続時間d2、d3、d4(840)の間の遷移を実行した後に、各メタデータ・インスタンス810の関連付けられたタイムスタンプ(t1ないしt4)から生成される。補間継続時間(またはランプ・サイズ)を示す補間継続時間パラメータは、各メタデータ・インスタンスと一緒に含められる。すなわち、メタデータ・インスタンスm2はd2を含み、m3はd3を含み、などとなる。概略的に、このことはmx=(metadata(tx),dx)→cxのように表現できる。このようにして、メタデータは本質的には、現在のレンダリング設定(たとえば前のメタデータから帰結する現在のレンダリング行列)から新しいレンダリング設定(たとえば現在のメタデータから帰結する新しいレンダリング行列)にどのように進むかの概略を提供する。各メタデータ・インスタンスは、該メタデータ・インスタンスが受領された瞬間に対する将来のある指定された時点において発効することが意図されており、係数曲線は係数の前の状態から導出される。よって、図8において、m2は継続時間d2後にc2を生成し、m3は継続時間d3後にc3を生成し、m4は継続時間d4後にc4を生成する。補間のためのこの方式では、前のメタデータが知られている必要はなく、前のレンダリング行列またはレンダリング状態だけが要求される。用いられる補間は、システム制約条件および構成に依存して線形または非線形でありうる。
図8のメタデータ・フォーマットは、図9に示されるメタデータの無損失な再サンプリングを許容する。図9は、例示的な実施形態に基づく、メタデータの無損失な処理の第一の例を示している(そして、上記のように、以下の説明は対応するサイド情報フォーマットにも同様に当てはまる)。図9は、補間継続時間d2ないしd4を含む、それぞれ将来のレンダリング行列c2ないしc4を指すメタデータ・インスタンスm2ないしm4を示している。メタデータ・インスタンスm2ないしm4のタイムスタンプはt2ないしt4として与えられている。図9の例では、時刻t4aにおけるメタデータ・インスタンスm4aが加えられる。そのようなメタデータは、システムのエラー耐性を向上させるまたはメタデータ・インスタンスをオーディオ・フレームの先頭/末尾に同期させるなど、いくつかの理由で加えられうる。たとえば、時刻t4aは、メタデータに関連付けられたオーディオ・コンテンツを符号化するために用いられるオーディオ・コーデックが新しいフレームを開始する時刻を表わしてもよい。無損失な動作のために、m4aのメタデータ値はm4のと同一である(すなわち、いずれも目標レンダリング行列c4を記述する)が、その点に到達するための時間d4aはd4−d4aだけ短縮されている。換言すれば、メタデータ・インスタンスm4aは、前のメタデータ・インスタンスm4のと同一であり、よってc3とc4の間の補間曲線は変更されない。しかしながら、新たな補間継続時間d4aはもとの継続時間d4より短い。これは、事実上、メタデータ・インスタンスのデータ・レートを増大させる。これは、誤り訂正のようなある種の状況において有益でありうる。
無損失なメタデータ補間の第二の例が図10に示されている(そして、上記のように、以下の説明は対応するサイド情報フォーマットにも同様に当てはまる)。この例では、この例では、目標は二つのメタデータ・インスタンスm3およびm4の中間にメタデータm3aの新たなセットを含めることである。図10は、ある時間期間にわたってレンダリング行列が不変のままである場合を示している。したがって、この状況では、新たなセットのメタデータm3aの値は、補間継続時間m3aを除いて以前のメタデータm3のものと同一である。補間継続時間d3aの値は、t4〜t3aに対応する値に、すなわち次のメタデータ・インスタンスm4に関連付けられた時刻t4と新たなセットのメタデータm3aに関連付けられた時刻t3aとの間の差に設定されるべきである。図10に示される場合は、たとえば、オーディオ・オブジェクトが静的であり、オーサリング・ツールがこの静的な性質のためそのオブジェクトについての新しいメタデータを送るのを停止するときに生起しうる。そのような場合、たとえばメタデータをコーデック・フレームと同期させるために、新たなメタデータ・インスタンスm3aを挿入することが望ましいことがありうる。
図8ないし図10に示した例では、現在から望まれるレンダリング行列またはレンダリング状態への補間は、線形補間によって実行された。他の例示的実施形態では、異なる補間方式が使われてもよい。あるそのような代替的な補間方式は、サンプルホールド回路をその後の低域通過フィルタと組み合わせたものを使う。図11は、ある例示的な実施形態に基づく、低域通過フィルタと一緒にサンプルホールド回路を使う補間方式を示している(そして、上記のように、以下の説明は対応するサイド情報フォーマットにも同様に当てはまる)。図11に示されるように、メタデータ・インスタンスm2ないしm4は、サンプルホールド・レンダリング行列係数c2およびc3に変換される。サンプルホールド・プロセスは、係数状態をすぐに所望される状態にジャンプさせ、その結果、図のようなステップ毎の曲線1110となる。この曲線1110はその後、低域通過フィルタリングされて、なめらかな、補間された曲線1120が得られる。補間フィルタ・パラメータ(たとえば、カットオフ周波数または時定数)は、時間サンプルおよび補間継続時間パラメータに加えて、メタデータの一部として信号伝達されることができる。システムの要求およびオーディオ信号の特性に依存して異なるパラメータが使用されてもよいことが理解される。
ある例示的実施形態では、補間継続時間またはランプ・サイズは、0の値または実質的に0に近い値を含むいかなる実際的な値をもつこともできる。そのような小さな補間継続時間は、ファイルの最初のサンプルにおいてすぐにレンダリング行列を設定することまたはストリームの編集、スプライシングまたは連結を許容することを可能にするための初期化のような場合に特に有用である。この型の破壊的編集では、レンダリング行列を瞬間的に変更できることは、編集後のコンテンツの空間的属性を維持するために有益である。
ある例示的実施形態では、本稿に記載される補間方式は、メタデータ・ビットレートを低下させる間引き方式におけるように、メタデータ・インスタンスの除去(および同様に上記のようにサイド情報インスタンスの除去)と互換である。メタデータ・インスタンスの除去は、システムが初期フレーム・レートより低いフレーム・レートで再サンプリングすることを許容する。この場合、エンコーダによって提供されるメタデータ・インスタンスおよびその関連付けられた補間継続時間データは、ある種の特性に基づいて除去されうる。たとえば、エンコーダにおける解析コンポーネントは、信号の有意な停滞の期間があるかどうかを判定するためにオーディオ信号を解析し、そのような場合、デコーダ側へのデータの伝送の帯域幅要求を減らすために、すでに生成されたある種のメタデータ・インスタンスを除去してもよい。メタデータ・インスタンスの除去は、代替的または追加的に、デコーダにおいてまたはトランスコードにおいてなど、エンコーダとは別個のコンポーネントにおいて実行されてもよい。トランスコーダは、エンコーダによって生成または追加されたメタデータ・インスタンスを除去してもよく、オーディオ信号を第一のレートから第二のレートに再サンプリングするデータ・レート変換器において用いられてもよい。ここで、第二のレートは第一のレートの整数倍であってもなくてもよい。どのメタデータ・インスタンスを除去するかを決定するためにオーディオ信号を解析する代わりに、エンコーダ、デコーダまたはトランスコーダはメタデータを解析してもよい。たとえば、図10を参照するに、第一のメタデータ・インスタンスm3によって指定される第一の所望される再構成設定c3(または再構成行列)と、第一のメタデータ・インスタンスm3の直後のメタデータ・インスタンスm3aおよびm4によって指定される所望される再構成設定c3aおよびc4(または再構成行列)との間の差が計算されてもよい。この差はたとえば、それぞれのレンダリング行列に行列ノルムを用いることによって計算されてもよい。差が、たとえば再構成されるオーディオ信号の認容される歪みに対応する、あらかじめ定義された閾値より低ければ、第一のメタデータ・インスタンスm2に続くメタデータ・インスタンスm3aおよびm4は除去されてもよい。図10に示した例では、第一のメタデータ・インスタンスm3の直後のメタデータ・インスタンスm3aは第一のメタデータ・インスタンスm3aと同じレンダリング設定を指定し(c3=c3a)、よって除去される。一方、次のメタデータ設定m4は異なるレンダリング設定c4を指定し、用いられる閾値に依存して、メタデータとして保持されてもよい。
図2を参照して記述されたデコーダ200では、オブジェクト再構成コンポーネント206は、M個のダウンミックス信号224およびサイド情報に基づいてN個のオーディオ・オブジェクト220を再構成することの一部として補間を用いてもよい。図7〜図11を参照して述べた補間方式と同様に、N個のオーディオ・オブジェクト220の再構成はたとえば:現在の再構成設定に基づいて再構成を実行し;サイド情報インスタンスについて遷移データによって定義される時点において、現在の再構成設定から前記サイド情報インスタンスによって指定される所望される再構成設定への遷移を開始し;前記サイド情報インスタンスについて前記遷移データによって定義される時点において前記所望される再構成設定への前記遷移を完了することを含んでいてもよい。
同様に、レンダラー210は、再生のために好適なマルチチャネル出力信号230を生成するために、再構成されたN個のオーディオ・オブジェクト220をレンダリングすることの一部として補間を用いてもよい。図7〜図11を参照して述べた補間方式と同様に、レンダリングは:現在のレンダリング設定に基づいてレンダリングを実行し;クラスター・メタデータ・インスタンスについて遷移データによって定義される時点において、現在のレンダリング設定から前記クラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始し;前記クラスター・メタデータ・インスタンスについて前記遷移データによって定義される時点において前記所望されるレンダリング設定への前記遷移を完了することを含んでいてもよい。
いくつかの実施形態では、オブジェクト再構成部206およびレンダラー210は分離可能なユニットであってもよく、および/または別個のプロセスとして実行される動作に対応していてもよい。他の例示的実施形態では、オブジェクト再構成部206およびレンダラー210は、単一のユニットまたはプロセスとして具現され、再構成およびレンダリングが組み合わされた動作として実行されるのでもよい。そのような例示的実施形態では、レンダリング行列および再構成行列に対して別個に補間を実行するのではなく、再構成およびレンダリングのために用いられる行列は単一の行列に組み合わされて、それが補間されてもよい。
図3を参照して記述される低計算量デコーダ300では、レンダラー310が、M個のダウンミックス信号324をマルチチャネル出力330にレンダリングすることの一部として補間を実行してもよい。図7〜図11を参照して述べた補間方式と同様に、レンダリングは:現在のダウンミックス・レンダリング設定に基づいてレンダリングを実行し;ダウンミックス・メタデータ・インスタンスについて遷移データによって定義される時点において、現在のダウンミックス・レンダリング設定から前記ダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を開始し;前記ダウンミックス・メタデータ・インスタンスについて前記遷移データによって定義される時点において前記所望されるダウンミックス・レンダリング設定への前記遷移を完了することを含んでいてもよい。先述したように、レンダラー310は、デコーダ300に含まれてもよく、あるいは別個の装置/ユニットであってもよい。レンダラー310がデコーダ300とは別個である例示的実施形態では、デコーダは、レンダラー310におけるM個のダウンミックス信号のレンダリングのために、ダウンミックス・メタデータ325およびM個のダウンミックス信号324を出力してもよい。
〈等価物、拡張、代替その他〉
上記の記述を吟味すれば、当業者には本開示のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、本開示はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本開示の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する当業者によって、開示される実施形態に対する変形が理解され、実施されることができる。請求項において、「有する/含む」の語は他の要素またはステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項に記載されているというだけの事実がこれらの施策の組み合わせが有利に使用できないことを示すものではない。
上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働していくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。
すべての図面は概略的であり、一般に、本開示を明快にするために必要な部分を示すだけである。一方、他の部分は省略されたり、単に示唆するに留めたりすることもある。特に断わりのない限り、同様の参照符号は異なる図面において同様の部分を指す。
いくつかの態様を記載しておく。
〔態様1〕
オーディオ・オブジェクトをデータ・ストリームにエンコードする方法であって:
N>1であるとして、N個のオーディオ・オブジェクトを受領する段階と;
M個のダウンミックス信号を計算する段階であって、M≦Nであり、該計算は、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによる、段階と;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算する段階と;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、
方法。
〔態様2〕
各ダウンミックス信号を空間位置に関連付け、前記ダウンミックス信号の前記空間位置を前記データ・ストリーム中に前記ダウンミックス信号のためのメタデータとして含めることをさらに含む、態様1記載の方法。
〔態様3〕
前記N個のオーディオ・オブジェクトは、該N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、前記ダウンミックス信号に関連付けられる前記空間位置は前記N個のオーディオ・オブジェクトの空間位置に基づいて計算される、態様2記載の方法。
〔態様4〕
前記N個のオーディオ・オブジェクトの空間位置および前記M個のダウンミックス信号に関連付けられた空間位置は時間変化する、態様3記載の方法。
〔態様5〕
前記サイド情報が時間変化する、態様1ないし4のうちいずれか一項記載の方法。
〔態様6〕
前記N個のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性に基づく、態様1ないし5のうちいずれか一項記載の方法。
〔態様7〕
前記N個のオーディオ・オブジェクトに関連付けられた前記メタデータがさらに、前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含み、前記M個のダウンミックス信号を計算するための前記基準はさらに、前記N個のオーディオ・オブジェクトの前記重要性値に基づく、態様6記載の方法。
〔態様8〕
前記M個のダウンミックス信号を計算する段階は、前記N個のオーディオ・オブジェクトの空間的近接性およびもし該当すれば重要性値に基づいて前記N個のオーディオ・オブジェクトをM個のクラスターと関連付け、各クラスターについてのダウンミックス信号を、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせを形成することによって計算することを含む、態様6または7記載の方法。
〔態様9〕
各ダウンミックス信号は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置に基づいて計算される空間位置に関連付けられる、態様8記載の方法。
〔態様10〕
各ダウンミックス信号に関連付けられる空間位置は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置の重心または重み付けされた重心として計算される、態様9記載の方法。
〔態様11〕
前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置を入力としてもつK平均アルゴリズムを適用することによって、前記M個のクラスターに関連付けられる、態様8ないし10のうちいずれか一項記載の方法。
〔態様12〕
第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすための第二のクラスタリング手順をさらに有し、前記第一および第二の複数のオーディオ・オブジェクトの一方が前記N個のオーディオ・オブジェクトに対応する、態様1ないし11のうちいずれか一項記載の方法。
〔態様13〕
前記第二のクラスタリング手順は:
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と;
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と;
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と;
前記第二の複数のオーディオ・オブジェクトについての空間位置を含むメタデータを計算する段階であって、前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置が、対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される、段階と;
前記第二の複数のオーディオ・オブジェクトについてのメタデータを前記データ・ストリーム中に含める段階とを含む、
態様12記載の方法。
〔態様14〕
前記第二のクラスタリング手順はさらに:
少なくとも一つのオーディオ・チャネルを受領する段階と;
前記少なくとも一つのオーディオ・チャネルのそれぞれを、そのオーディオ・チャネルのラウドスピーカー位置に対応する静的な空間位置をもつオーディオ・オブジェクトに変換する段階と;
変換された少なくとも一つのオーディオ・チャネルを前記第一の複数のオーディオ・オブジェクトに含める段階とを含む、
態様13記載の方法。
〔態様15〕
前記第二の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記N個のオーディオ・オブジェクトに対応する、態様12ないし14のうちいずれか一項記載の方法。
〔態様16〕
前記第一の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記第二の複数のオーディオ・オブジェクトに対応する、態様12ないし14のうちいずれか一項記載の方法。
〔態様17〕
態様1ないし16のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
〔態様18〕
オーディオ・オブジェクトをデータ・ストリームにエンコードするためのエンコーダであって:
N>1であるとして、N個のオーディオ・オブジェクトを受領するよう構成された受領コンポーネントと;
M個のダウンミックス信号を計算するよう構成されたダウンミックス・コンポーネントであって、M≦Nであり、前記計算は、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによる、ダウンミックス・コンポーネントと;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算するよう構成された解析コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有する、
エンコーダ。
〔態様19〕
エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダにおける方法であって:
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領する段階と;
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する段階とを含む、
方法。
〔態様20〕
前記データ・ストリームはさらに、前記M個のダウンミックス信号に関連付けられた空間位置を含む前記M個のダウンミックス信号についてのメタデータを含み、当該方法はさらに:
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されている場合には、前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する前記段階を実行し、
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されていない場合には、前記M個のダウンミックス信号についての前記メタデータを、前記M個のダウンミックス信号を再生システムの出力チャネルにレンダリングするために使うことを含む、
態様19記載の方法。
〔態様21〕
前記M個のダウンミックス信号に関連付けられた前記空間位置が時間変化する、態様20記載の方法。
〔態様22〕
前記サイド情報が時間変化する、態様19ないし21のうちいずれか一項記載の方法。
〔態様23〕
前記データ・ストリームはさらに、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトの空間位置を含む、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについてのメタデータを含み、当該方法はさらに、
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての前記メタデータを、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、再生システムの出力チャネルにレンダリングするために使うことを含む、
態様19ないし22のうちいずれか一項記載の方法。
〔態様24〕
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトに等しい、態様19ないし23のうちいずれか一項記載の方法。
〔態様25〕
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの組み合わせである複数のオーディオ・オブジェクトを含み、その数はNより少ない、態様19ないし23のうちいずれか一項記載の方法。
〔態様26〕
態様19ないし25のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
〔態様27〕
エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダであって:
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領するよう構成された受領コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するよう構成された再構成コンポーネントとを有する、
デコーダ。

Claims (27)

  1. オーディオ・オブジェクトをデータ・ストリームにエンコードする方法であって:
    N>1であるとして、N個のオーディオ・オブジェクトを受領する段階と;
    M個のダウンミックス信号を計算する段階であって、M≦Nであり、該計算は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することにより、前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置および前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含むメタデータに関連付けられており、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの前記重要性値に基づく、段階と;
    前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算する段階と;
    前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、
    方法。
  2. 前記M個のダウンミックス信号のうちの一つが前記N個のオーディオ・オブジェクトのうちの一つに対応し、前記N個のオーディオ・オブジェクトのうちの前記一つは、前記N個のオーディオ・オブジェクトのうち前記N個のオーディオ・オブジェクトの他のものとの関係で最も重要であるオーディオ・オブジェクトである、請求項1記載の方法。
  3. 各ダウンミックス信号を空間位置に関連付け、前記ダウンミックス信号の前記空間位置を前記データ・ストリーム中に前記ダウンミックス信号のためのメタデータとして含めることをさらに含む、請求項1または2記載の方法。
  4. 前記N個のオーディオ・オブジェクトは、該N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、前記ダウンミックス信号に関連付けられる前記空間位置は前記N個のオーディオ・オブジェクトの空間位置に基づいて計算される、請求項3記載の方法。
  5. 前記N個のオーディオ・オブジェクトの空間位置および前記M個のダウンミックス信号に関連付けられた空間位置は時間変化する、請求項4記載の方法。
  6. 前記サイド情報が時間変化する、請求項1ないし5のうちいずれか一項記載の方法。
  7. 前記M個のダウンミックス信号を計算する段階は、前記N個のオーディオ・オブジェクトの空間的近接性および重要性値に基づいて前記N個のオーディオ・オブジェクトをM個のクラスターと関連付け、各クラスターについてのダウンミックス信号を、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせを形成することによって計算することを含む、請求項1ないし6のうちいずれか一項記載の方法。
  8. 各ダウンミックス信号は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置に基づいて計算される空間位置に関連付けられる、請求項7記載の方法。
  9. 各ダウンミックス信号に関連付けられる空間位置は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置の重心または重み付けされた重心として計算される、請求項8記載の方法。
  10. 前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置を入力としてもつK平均アルゴリズムを適用することによって、前記M個のクラスターに関連付けられる、請求項7ないし9のうちいずれか一項記載の方法。
  11. 第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすための第二のクラスタリング手順をさらに有し、前記第一および第二の複数のオーディオ・オブジェクトの一方が前記N個のオーディオ・オブジェクトに対応する、請求項1ないし10のうちいずれか一項記載の方法。
  12. 前記第二のクラスタリング手順は:
    前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と;
    前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と;
    前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と;
    前記第二の複数のオーディオ・オブジェクトについての空間位置を含むメタデータを計算する段階であって、前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置が、対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される、段階と;
    前記第二の複数のオーディオ・オブジェクトについてのメタデータを前記データ・ストリーム中に含める段階とを含む、
    請求項11記載の方法。
  13. 前記第二のクラスタリング手順はさらに:
    少なくとも一つのオーディオ・チャネルを受領する段階と;
    前記少なくとも一つのオーディオ・チャネルのそれぞれを、そのオーディオ・チャネルのラウドスピーカー位置に対応する静的な空間位置をもつオーディオ・オブジェクトに変換する段階と;
    変換された少なくとも一つのオーディオ・チャネルを前記第一の複数のオーディオ・オブジェクトに含める段階とを含む、
    請求項12記載の方法。
  14. 前記第二の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記N個のオーディオ・オブジェクトに対応する、請求項11ないし13のうちいずれか一項記載の方法。
  15. 前記第一の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記第二の複数のオーディオ・オブジェクトに対応する、請求項11ないし13のうちいずれか一項記載の方法。
  16. コンピュータに請求項1ないし15のうちいずれか一項記載の方法を実行させるためのコンピュータ・プログラム。
  17. オーディオ・オブジェクトをデータ・ストリームにエンコードするためのエンコーダであって:
    N>1であるとして、N個のオーディオ・オブジェクトを受領するよう構成された受領コンポーネントと;
    M個のダウンミックス信号を計算するよう構成されたダウンミックス・コンポーネントであって、M≦Nであり、前記計算は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することにより、前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置および前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含むメタデータに関連付けられており、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの前記重要性値に基づく、ダウンミックス・コンポーネントと;
    前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算するよう構成された解析コンポーネントと;
    前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有する、
    エンコーダ。
  18. エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダにおける方法であって:
    M個のダウンミックス信号を含むデータ・ストリームを受領する段階であって、前記M個のダウンミックス信号は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであり、M≦Nであり、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す前記N個のオーディオ・オブジェクトの重要性値に基づく、段階と;
    前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を受領する段階と;
    前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する段階とを含む、
    方法。
  19. 前記M個のダウンミックス信号のうちの一つが前記N個のオーディオ・オブジェクトのうちの一つに対応し、前記N個のオーディオ・オブジェクトのうちの前記一つは、前記N個のオーディオ・オブジェクトのうち前記N個のオーディオ・オブジェクトの他のものとの関係で最も重要であるオーディオ・オブジェクトである、請求項18記載の方法。
  20. 前記データ・ストリームはさらに、前記M個のダウンミックス信号に関連付けられた空間位置を含む前記M個のダウンミックス信号についてのメタデータを含み、当該方法はさらに:
    前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されている場合には、前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する前記段階を実行し、
    前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されていない場合には、前記M個のダウンミックス信号についての前記メタデータを、前記M個のダウンミックス信号を再生システムの出力チャネルにレンダリングするために使うことを含む、
    請求項18または19記載の方法。
  21. 前記M個のダウンミックス信号に関連付けられた前記空間位置が時間変化する、請求項20記載の方法。
  22. 前記サイド情報が時間変化する、請求項18ないし21のうちいずれか一項記載の方法。
  23. 前記データ・ストリームはさらに、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトの空間位置を含む、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについてのメタデータを含み、当該方法はさらに、
    前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての前記メタデータを、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、再生システムの出力チャネルにレンダリングするために使うことを含む、
    請求項18ないし22のうちいずれか一項記載の方法。
  24. 前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトに等しい、請求項18ないし23のうちいずれか一項記載の方法。
  25. 前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの組み合わせである複数のオーディオ・オブジェクトを含み、その数はNより少ない、請求項18ないし23のうちいずれか一項記載の方法。
  26. コンピュータに請求項18ないし25のうちいずれか一項記載の方法を実行させるためのコンピュータ・プログラム。
  27. エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダであって:
    M個のダウンミックス信号を含むデータ・ストリームを受領するよう構成された受領コンポーネントを有しており、前記M個のダウンミックス信号は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであり、M≦Nであり、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの重要性値に基づき、
    前記受領コンポーネントはさらに、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を受領するよう構成されており、
    当該デコーダはさらに、
    前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するよう構成された再構成コンポーネントを有する、
    デコーダ。
JP2016513405A 2013-05-24 2014-05-23 オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 Active JP6190947B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361827246P 2013-05-24 2013-05-24
US61/827,246 2013-05-24
US201361893770P 2013-10-21 2013-10-21
US61/893,770 2013-10-21
US201461973623P 2014-04-01 2014-04-01
US61/973,623 2014-04-01
PCT/EP2014/060733 WO2014187990A1 (en) 2013-05-24 2014-05-23 Efficient coding of audio scenes comprising audio objects

Publications (2)

Publication Number Publication Date
JP2016522911A JP2016522911A (ja) 2016-08-04
JP6190947B2 true JP6190947B2 (ja) 2017-08-30

Family

ID=50943284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016513405A Active JP6190947B2 (ja) 2013-05-24 2014-05-23 オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化

Country Status (10)

Country Link
US (1) US9892737B2 (ja)
EP (1) EP3005356B1 (ja)
JP (1) JP6190947B2 (ja)
KR (1) KR101760248B1 (ja)
CN (1) CN105229732B (ja)
BR (2) BR112015029129B1 (ja)
ES (1) ES2640815T3 (ja)
HK (1) HK1213685A1 (ja)
RU (1) RU2630754C2 (ja)
WO (1) WO2014187990A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016052191A1 (ja) * 2014-09-30 2017-07-20 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP6729382B2 (ja) * 2014-10-16 2020-07-22 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US10475463B2 (en) * 2015-02-10 2019-11-12 Sony Corporation Transmission device, transmission method, reception device, and reception method for audio streams
CN106162500B (zh) * 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
AU2016269886B2 (en) 2015-06-02 2020-11-12 Sony Corporation Transmission device, transmission method, media processing device, media processing method, and reception device
EP3332557B1 (en) * 2015-08-07 2019-06-19 Dolby Laboratories Licensing Corporation Processing object-based audio signals
US10278000B2 (en) 2015-12-14 2019-04-30 Dolby Laboratories Licensing Corporation Audio object clustering with single channel quality preservation
EP3488623B1 (en) 2016-07-20 2020-12-02 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
CN113242508B (zh) 2017-03-06 2022-12-06 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
KR102683551B1 (ko) * 2017-10-05 2024-07-11 소니그룹주식회사 복호 장치 및 방법, 그리고 프로그램을 기록한 컴퓨터 판독가능 기록매체
US11323757B2 (en) * 2018-03-29 2022-05-03 Sony Group Corporation Information processing apparatus, information processing method, and program
CN108733342B (zh) * 2018-05-22 2021-03-26 Oppo(重庆)智能科技有限公司 音量调节方法、移动终端及计算机可读存储介质
EP3874491B1 (en) 2018-11-02 2024-05-01 Dolby International AB Audio encoder and audio decoder
BR112021009306A2 (pt) * 2018-11-20 2021-08-10 Sony Group Corporation dispositivo e método de processamento de informações, e, programa.
EP3915106A1 (en) * 2019-01-21 2021-12-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a spatial audio representation or apparatus and method for decoding an encoded audio signal using transport metadata and related computer programs
CN114762041A (zh) * 2020-01-10 2022-07-15 索尼集团公司 编码设备和方法、解码设备和方法、以及程序
EP4295587A1 (en) * 2021-02-20 2023-12-27 Dolby Laboratories Licensing Corporation Clustering audio objects

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567675B2 (en) 2002-06-21 2009-07-28 Audyssey Laboratories, Inc. System and method for automatic multiple listener room acoustic correction with low filter orders
DE10344638A1 (de) 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7813513B2 (en) 2004-04-05 2010-10-12 Koninklijke Philips Electronics N.V. Multi-channel encoder
GB2415639B (en) 2004-06-29 2008-09-17 Sony Comp Entertainment Europe Control of data processing
MX2007011915A (es) 2005-03-30 2007-11-22 Koninkl Philips Electronics Nv Codificacion de audio multicanal.
ATE455348T1 (de) * 2005-08-30 2010-01-15 Lg Electronics Inc Vorrichtung und verfahren zur dekodierung eines audiosignals
CN101484936B (zh) 2006-03-29 2012-02-15 皇家飞利浦电子股份有限公司 音频解码
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
EP2067138B1 (en) * 2006-09-18 2011-02-23 Koninklijke Philips Electronics N.V. Encoding and decoding of audio objects
RU2407072C1 (ru) * 2006-09-29 2010-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
WO2008039043A1 (en) 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP2337380B8 (en) 2006-10-13 2020-02-26 Auro Technologies NV A method and encoder for combining digital data sets, a decoding method and decoder for such combined digital data sets and a record carrier for storing such combined digital data sets
SG175632A1 (en) * 2006-10-16 2011-11-28 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
JP5337941B2 (ja) 2006-10-16 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
CN101490744B (zh) * 2006-11-24 2013-07-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP5394931B2 (ja) * 2006-11-24 2014-01-22 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の復号化方法及びその装置
US8290167B2 (en) 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
WO2009049895A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
KR101147780B1 (ko) 2008-01-01 2012-06-01 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
KR101461685B1 (ko) 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
WO2010013450A1 (ja) * 2008-07-29 2010-02-04 パナソニック株式会社 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2214161A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
EP2461321B1 (en) 2009-07-31 2018-05-16 Panasonic Intellectual Property Management Co., Ltd. Coding device and decoding device
PL2465114T3 (pl) 2009-08-14 2020-09-07 Dts Llc System do adaptacyjnej transmisji potokowej obiektów audio
US9432790B2 (en) 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
KR101418661B1 (ko) 2009-10-20 2014-07-14 돌비 인터네셔널 에이비 다운믹스 시그널 표현에 기초한 업믹스 시그널 표현을 제공하기 위한 장치, 멀티채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치, 왜곡 제어 시그널링을 이용하는 방법들, 컴퓨터 프로그램 및 비트 스트림
AU2010321013B2 (en) 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
TWI444989B (zh) 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
MX2012011532A (es) 2010-04-09 2012-11-16 Dolby Int Ab Codificacion a estereo para prediccion de complejos basados en mdct.
GB2485979A (en) 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding
JP2012151663A (ja) 2011-01-19 2012-08-09 Toshiba Corp 立体音響生成装置及び立体音響生成方法
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
US10051400B2 (en) 2012-03-23 2018-08-14 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) * 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
JP6186435B2 (ja) 2012-08-07 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
JP6019266B2 (ja) 2013-04-05 2016-11-02 ドルビー・インターナショナル・アーベー ステレオ・オーディオ・エンコーダおよびデコーダ
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
MY173644A (en) 2013-05-24 2020-02-13 Dolby Int Ab Audio encoder and decoder
CA3211308A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes

Also Published As

Publication number Publication date
BR112015029129A2 (pt) 2017-07-25
CN105229732A (zh) 2016-01-06
BR122020017144B1 (pt) 2022-05-03
HK1213685A1 (zh) 2016-07-08
US20160125887A1 (en) 2016-05-05
US9892737B2 (en) 2018-02-13
CN105229732B (zh) 2018-09-04
RU2630754C2 (ru) 2017-09-12
JP2016522911A (ja) 2016-08-04
ES2640815T3 (es) 2017-11-06
KR101760248B1 (ko) 2017-07-21
EP3005356A1 (en) 2016-04-13
EP3005356B1 (en) 2017-08-09
WO2014187990A1 (en) 2014-11-27
KR20160003058A (ko) 2016-01-08
BR112015029129B1 (pt) 2022-05-31
RU2015150055A (ru) 2017-05-26

Similar Documents

Publication Publication Date Title
US11705139B2 (en) Efficient coding of audio scenes comprising audio objects
JP6190947B2 (ja) オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
EP3127109B1 (en) Efficient coding of audio scenes comprising audio objects
JP7413418B2 (ja) 信号をインタリーブするためのオーディオ復号器

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170807

R150 Certificate of patent or registration of utility model

Ref document number: 6190947

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250