JP6096789B2

JP6096789B2 - オーディオオブジェクトのエンコーディング及びデコーディング

Info

Publication number: JP6096789B2
Application number: JP2014539442A
Authority: JP
Inventors: ヘラルデュスヘンリキュスコッペンス，イェルーン; ウェルネルヨーハネスオーメン，アルノルデュス; デケルクホフ，レオンマリアファン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-11-01
Filing date: 2012-10-29
Publication date: 2017-03-15
Anticipated expiration: 2032-10-29
Also published as: BR112014010062B1; US9966080B2; CN103890841A; US20140297296A1; EP2751803B1; RU2618383C2; RU2014122111A; EP2751803A1; IN2014CN03413A; JP2014532901A; BR112014010062A8; CN103890841B; WO2013064957A1; BR112014010062A2

Description

本発明は、オーディオオブジェクトのエンコーディング及びデコーディングに関し、特に、それだけに限られないが、ＭＰＥＧＳＡＯＣ（Spatial Audio Object Coding）標準に従うオーディオオブジェクトのエンコーディング及びデコーディングに関する。

マルチチャネルオーディオは広く知られており、ホームシネマ及びマルチチャネル音楽システムを含む多種多様な用途で普及している。オーディオエンコーディングはしばしば、オーディオ信号の有効なデータ表現を提供するデータストリームを生成するために使用される。そのようなオーディオエンコーディングは、オーディオ信号の有効な記憶及び分配を可能にする。多種多様なオーディオエンコーディング標準は、従来のモノ及びステレオ両方のオーディオ信号のエンコーディング及びデコーディングのために、更に、マルチチャネルオーディオ信号のエンコーディング及びデコーディングのために整備されてきた。語マルチチャネルは以降、２よりも多いチャネルを指すために使用される。専用のオーディオ標準の使用は、多くの異なるシステム、デバイス及びアプリケーションの間の相互作用及び互換性を可能にし、従って、有効な標準が順守されることが重要である。しかし、新しい標準が整備されるか、又は既存の標準が変更される場合に、有意な問題が現れる。特に、標準の変更は、実行するために時間がかかり且つ煩雑であることがあるのみならず、既存の設備が新しい、すなわち実際には、既存の標準に適さないことも生じさせることがある。新しい標準又は標準の変更の導入を容易にするために、それらは既存の標準に対して可能な限り少ない変更を求めることが望ましい。幾つかの場合に、既存の標準と十分に互換性がある変更を行うことが更に可能である。すなわち、変更は、既存の標準仕様への如何なる変更も伴わずに適用され得る。これの例は、ビットストリーム・ウォータマーキングである。ビットストリーム・ウォータマーキングにおいて、特定のビットストリーム要素は、ビットストリームが依然として標準仕様に従ってデコーディングされ得るような互換性のある様式で変更される。たとえ出力が変更されるとしても、品質の違いは概して可聴でない。

ＭＰＥＧサラウンドは、マルチチャネルオーディオコーディングにおける主要な進歩の１つであり、近年、ＩＳＯ／ＩＥＣ２３００３−１におけるモーション・ピクチャ・エキスパーツ・グループ（Motion Picture Experts Group）によって標準化された。ＭＰＥＧサラウンドは、既存のモノ又はステレオベースのサービスがマルチチャネルアプリケーションへ拡張されること可能にするマルチチャネルオーディオコーディングツールである。図１は、ＭＰＥＧサラウンドにより拡張されたステレオコアコーダのブロック図を示す。最初に、ＭＰＥＧサラウンドエンコーダは、マルチチャネル入力信号からステレオダウンミックスを生成する。次に、空間パラメータが、マルチチャネル入力信号から推定される。それらのパラメータは、ＭＰＥＧサラウンドビットストリームにエンコーディングされる。ステレオダウンミックスはコアエンコーダ、例えば、ＨＥ−ＡＡＣを用いてビットストリームに符号化される。結果として得られるコアコーダビットストリームと、空間ビットストリームとは、総体的なビットストリームを生成するためにマージされる。通常、空間ビットストリームは、コアコーダビットストリームの補助データ又はユーザデータ部分に含まれる。デコーダ側で、コア及び空間ビットストリームは分離される。ステレオコアビットストリームは、ステレオダウンミックスを再現するためにデコーディングされる。このダウンミックスは、空間ビットストリームと共に、ＭＰＥＧサラウンドデコーダへ入力される。空間ビットストリームは、空間パラメータを供給するためにデコーディングされる。次いで、空間パラメータは、マルチチャネル出力信号を得るためにステレオダウンミックスをアップミキシングするよう使用される。

マルチチャネル入力信号の空間画像はパラメータ化されるので、ＭＰＥＧサラウンドは、マルチチャネルスピーカセットアップ以外の他のレンダリング装置上への同じマルチチャネルビットストリームのデコーディングを可能にする。一例は、ヘッドホンにおける仮想サラウンド再現である。これは、ＭＰＥＧサラウンド両耳性デコーディング処理と呼ばれる。このモードにおいて、現実のサラウンド経験は通例のヘッドホンを用いて提供され得る。図２は、出力が両耳性へデコーディングされるＭＰＥＧサラウンドにより拡張されたステレオコアコーデックのブロック図を示す。エンコーダ処理は図１のそれと同じである。システムにおいて、空間パラメータは頭部伝達関数（ＨＲＴＦ；Head Related Transfer Function）と結合され、結果は所謂両耳性出力を生成するために使用される。

ＭＰＥＧサラウンドの概念を踏まえると、ＭＰＥＧは、個々のオーディオオブジェクトのエンコーディングのためのシステム標準化した。この標準は、‘空間オーディオオブジェクト符号化（Spatial Audio Object Coding）’（ＭＰＥＧ−ＤＳＡＯＣ）ＩＳＯ／ＩＥＣ２３００３−２として知られている。高度な観点から、ＳＡＯＣは、各音響オブジェクトが通常音響画像における単一の音源に対応し得るオーディオチャネルに代えて、音響オブジェクトを効率的にエンコーディングする。ＭＰＥＧサラウンドでは、各スピーカチャネルは、音響オブジェクトの種々の混合によって生じると考えられ得、一方、ＳＡＯＣでは、データは、個々の音響オブジェクトについて提供される。ＭＰＥＧサラウンドと同様に、モノ又はステレオダウンミックスはＳＡＯＣでも生成される。具体的に、ＳＡＯＣはまた、ＨＥ−ＡＡＣのような標準のダウンミックスコーダを用いて符号化されるモノ又はステレオダウンミックスを生成する。このように、従来の再生装置は、パラメトリックデータを無視し、モノ又はステレオダウンミックスを再生し、一方、ＳＡＯＣデコーダは、原の音響オブジェクトを取り出すよう、又はそれらが所望の出力構成においてレンダリングされることを可能にするよう、信号をアップミキシングすることができる。オブジェクト及びダウンミックスパラメータは、相対レベルを提供し且つ個々のＳＡＯＣオブジェクトについての情報を得るよう、ダウンミックス符号化されたビットストリームの補助データ部分において埋め込まれて、それらのダウンミックスをステレオ／モノダウンミックスに反映させる。デコーダ側で、ユーザは、個々のオブジェクトの様々な特徴（例えば、空間位置、アプリケーション及びイコライゼーション）を、それらのパラメータを操作することで制御することができ、あるいは、ユーザは、リバーブのような効果を個々のオブジェクトに適用することができる。

図３は、通例のＳＡＯＣエンコーディングについてのブロック図を示す。ＳＡＯＣエンコーダは、従来のモノ又はステレオエンコーダの前に置かれた前処理モジュールであると見なされ得る。前処理モジュールは、多数のＮ個のオブジェクト信号からステレオ（又はモノ）ダウンミックスを生成することから成る。加えて、オブジェクトパラメータが取り出され、ダウンミックスマトリクスＭに関する情報と共にＳＡＯＣビットストリームに格納される。ＳＡＯＣダウンミックス情報は２種類のパラメータにおいてエンコーディングされる。第１に、ＤＭＧ（ダウンミックスゲイン（Downmix Gain））パラメータは、オブジェクトに適用されるゲインを示す。ＤＣＬＤ（ダウンミックスチャネルレベル差（Downmix Channel Level Difference））パラメータは、ステレオダウンミックスにおける２つのチャネルにわたるオブジェクトの分布を伝える。それらのパラメータいずれもオブジェクト毎に定義される。

ＳＡＯＣデコーダは反対の動作を実行してよい。受信されたモノ又はステレオダウンミックスはデコーディングされ、所望の出力構成へアップミキシングされてよい。アップミックス動作は、図４で表されるように、レンダリングマトリクスに基づく所望の出力構成へのオーディオチャネルのマッピングの前にそれらのオーディオオブジェクトを生成するようモノ又はステレオダウンミックスのアップミキシングの組み合わされた動作を含む。このとき、モノ又はステレオ入力ダウンミックスは最初に、ＳＡＯＣパラメータに基づきＮ個のオーディオオブジェクトへアップミキシングされる。結果として得られるＮ個のオーディオオブジェクトは次いで、どこに個々のオブジェクトが位置づけられるかを定義するレンダリングマトリクスを用いてＰ個の出力チャネルへダウンミキシングされる。図４は概念的ＳＡＯＣデコーディングを表す。しかし、通常、アップミックスマトリクス及びレンダリングマトリクスは単一のマトリクスにまとめられ、モノ又はステレオダウンミックスからの出力チャネルの生成は単一の動作として実行される。その例が図５で示される。図５は、Ｐが１又は２に等しく、特にＰ＝２について、出力が両耳性空間出力チャネルであってよい具体例を示す。よって、２つの出力チャネルが、所望の両耳性空間画像を生成するよう、個々のオブジェクトに適用されたＨＲＴＦパラメータを用いて生成される。図６は、Ｐ＞２であり、ＭＰＥＧサラウンド（ＭＰＳ）デコーディング／処理がＰ個の出力チャネルを生成するために使用される例を表す。

しかし、ＳＡＯＣに関連する課題は、仕様がモノダウンミックス及びステレオダウンミックスしかサポートせず、一方、マルチチャネルミックスが使用されるか又は時々必要とされる多数の用途及び使用ケース、例えば、ＤＶＤ及びブルーレイがあることである。従って、ＳＡＯＣがそのようなマルチチャネル用途、すなわち、マルチチャネルダウンミックスをサポートすることが望ましいが、これは、煩雑であり、実用的でなく、複雑性を増大させ、下位互換性の低下をもたらしうる、ＳＡＯＣ標準仕様への有意な修正を必要とする。

特に、ＳＡＯＣエンコーディング及びデコーディングのために整備された既存のアルゴリズム、機能ユニット、専用のハードウェア等がマルチチャネルオーディオのための改善されたサポートを可能にしながら再利用され得る場合が、有利である。

従って、オブジェクトのエンコーディング及び／又はデコーディング（例えば、ＳＡＯＣエンコーディング／デコーディング）のための改善されたアプローチが有利であり、特に、柔軟性の改善、標準化されたアプローチに対する影響の低減、下位互換性の改善又は容易化、エンコーディング及び／又はデコーディング機能の再利用の拡大、実施の容易化、オブジェクトエンコーディングにおけるマルチチャネルサポート、及び／又は性能の改善を可能にするアプローチが、有利である。

従って、本発明は、望ましくは上記の欠点の１又はそれ以上を１つずつ又は組み合わせて解消し、軽減し又は排除しようとする。

本発明の態様に従って、Ｎ個のオーディオオブジェクトを受信する受信部と、前記Ｎ個のオーディオオブジェクトをＭ個のオーディオチャネルへとミキシングするミキサと、Ｋ＝１又は２且つＫ＜Ｍとして、前記Ｍ個のオーディオチャネルからＫ個のオーディオチャネルを導出するチャネル回路と、前記Ｋ個のオーディオチャネルに対する前記Ｎ個のオーディオオブジェクトの夫々の少なくとも部分についてのオーディオオブジェクト・アップミックス・パラメータを生成するパラメータ回路と、前記オーディオオブジェクト・アップミックス・パラメータと前記Ｍ個のオーディオチャネルとを含む出力データストリームを生成する出力回路とを有するオーディオオブジェクトエンコーダが提供される。

本発明は、オーディオオブジェクトのエンコーディングをサポートしながらマルチチャネルレンダリングシステムの改善された性能を提供することができるオーディオエンコーディングを可能にすることができる。システムは、幾つかのシナリオにおいては、改善されたマルチチャネルレンダリングを可能にすることができ、幾つかのシナリオにおいては、改善されたオーディオオブジェクト機能を可能にすることができる。低データレートは、Ｋ個のオーディオチャネルに関連するオーディオオブジェクト・アップミックス・パラメータとＭ個のオーディオチャネルとを結合ことによって達成可能であり、それにより、Ｋ個のオーディオチャネルについてのエンコーディングされたデータを出力データストリームに含めることが不要となる。

本発明は、モノ及びステレオ信号のみに基づきオーディオオブジェクトのエンコーディング（及び／又はデコーディング）を提供するオーディオオブジェクトエンコーディングシステムにおける（２よりも多いチャネルによる）マルチチャネルサポートを可能にすることができる。エンコーディングは、マルチチャネル信号が関連するオーディオオブジェクトデータと共に提供される出力データストリームを生成してよい。なお、関連するオーディオオブジェクトデータは、マルチチャネル信号に対してではなくむしろ、マルチチャネル信号から導出され得るモノ又はステレオ信号に対して定義される。

本発明は、多くの用途において、既存のオーディオオブジェクトエンコーディング及び／又はデコーディング機能による改善された再利用及び／又は下位互換性を可能にすることができる。

オーディオオブジェクトは、オーディオ環境における単一音源に対応するオーディオ信号成分であってよい。具体的に、オーディオオブジェクトは、オーディオ環境におけるただ１つの位置からの音声を含んでよい。オーディオオブジェクトは関連する位置を有してよいが、如何なる特定のレンダリング音源構成とも関連付けられず、特に、如何なる特定のラウドスピーカ構成とも関連付けられなくてよい。

出力データストリームは、Ｋ個のオーディオチャネルの如何なるエンコーディングデータも含まなくてよい。幾つかの実施形態において、Ｎ個のオーディオオブジェクトのうちの１以上又は全ての全ては、Ｋ個のオーディオチャネルから生成される。

Ｋ個のオーディオチャネルの導出は各セグメントにおいて実行されてよく、具体的な導出は、例えばセグメント間で、動的に変化してよい。多くの実施形態及び／又はシナリオにおいて、ＭはＮよりも小さい。

本発明の任意の特徴に従って、前記チャネル回路は、前記Ｍ個のオーディオチャネルをダウンミキシングすることによって前記Ｋ個のオーディオチャネルを導出するよう配置される。

これは、多くのシナリオ及び用途において、特に有利なシステムを提供してよい。特に、それは機能の再利用を可能にすることができ、効率的なオーディオオブジェクトのエンコーディング及びデコーディングを可能にすることができる。具体的に、アプローチは、生成されたダウンミックスが、やはりＭ個のオーディオチャネルにおいて表される全てのオーディオオブジェクトについてＫ個のオーディオチャネルにおける適切な成分を提供することを可能にすることができる。

幾つかの実施形態において、ダウンミキシングは、Ｍ個のオーディオチャネルの夫々がＫ個のオーディオチャネルのうちの少なくとも１つにおいて、幾つかの実施形態では、Ｋ個のオーディオチャネルのうちの全てにおいて表されるようにするものであってよい。

本発明の任意の特徴に従って、前記チャネル回路は、前記Ｍ個のオーディオチャネルの中からＫ個のチャネルのサブセットを選択することによって、前記Ｋ個のオーディオチャネルを導出するよう配置される。

これは、多くのシナリオ及び用途において、特に有利なシステムを提供してよい。特に、それは機能の再利用を可能にすることができ、効率的なオーディオオブジェクトのエンコーディング及びデコーディングを可能にすることができる。多くの実施形態において、それは、複雑性を低減し及び／又は柔軟性を高めることができる。Ｋ個のオーディオチャネルの選択は、異なるＫ個のオーディオチャネルが異なる時間セグメントにおいて選択されることを可能にするよう動的に変更されてよい。

本発明の任意の特徴に従って、前記出力データストリームは、前記Ｍ個のオーディオチャネルについてのマルチチャネル符号化データストリームを含み、前記オーディオオブジェクト・アップミックス・パラメータは、前記マルチチャネル符号化データストリームの部分において含まれる。

これは、多くの実施形態において、特に有利な出力データストリームを提供してよい。特に、それは、直接的にマルチチャネルオーディオを、及びモノ及び／又はステレオ信号に基づきオーディオオブジェクトエンコーディングをサポートする複合データストリームを可能にすることができ、それにより下位互換性を可能にする。よって、マルチチャネルのエンコーディングされたデータストリームが提供され、これは、マルチチャネル信号と、符号化されたマルチチャネル信号に基づくオブジェクトのデコーディングを依然として可能にするが、符号化されたマルチチャネル信号に対して提供されないオーディオオブジェクト・アップミックス・パラメータとを含む。

本発明の任意の特徴に従って、前記出力回路は、前記Ｍ個のオーディオチャネルへの前記Ｎ個のオーディオオブジェクトのミキシングを表すミキシングデータを前記出力データストリームに含めるよう配置される。

これは、多くの実施形態において、改善された性能を可能にすることができ、特に、多くの実施形態において、改善されたオーディオオブジェクトのデコーディング及び機能がデコーダで提供されることを可能にすることができる。混合データは、例えば、時間周波数領域において定義されてよい。

本発明の態様に従って、Ｎ個のオーディオオブジェクトのＭチャネルミックスについてのオーディオデータと、Ｋ＝１又は２且つＫ＜Ｍとして、Ｋ個のオーディオチャネルに対する前記Ｎ個のオーディオチャネルについてのオーディオオブジェクト・アップミックス・パラメータとを含むデータストリームを受信する受信部と、前記Ｍチャネルミックスから前記Ｋ個のオーディオチャネルを導出するチャネル回路と、前記オーディオオブジェクト・アップミックス・パラメータに基づき前記Ｋ個のオーディオチャネルをアップミキシングすることによって少なくとも部分的に生成されるＮ個のオーディオオブジェクトからＰ個のオーディオ信号を生成するオブジェクトデコーダとを有するオーディオオブジェクトデコーダが提供される。

本発明は、オーディオオブジェクトのデコーディングを可能にすることができ、特に、直接的にマルチチャネルレンダリングシステムをサポートする信号に基づく効率的なオーディオオブジェクトデコーディングを可能にすることができる。オーディオオブジェクトデコーダは、Ｋ個のオーディオチャネルについて受信される如何なるオーディオエンコーディングデータにもよらずにＰ個のオーディオ信号を生成してよい。

オブジェクトデコーダは、Ｋ個のオーディオチャネルをＮ個のオーディオオブジェクトへアップミキシングし、次いで該Ｎ個のオーディオオブジェクトをＰ個のオーディオチャネルへマッピングすることによって、Ｐ個のオーディオ信号を生成するよう配置されてよい。マッピングは、レンダリングマトリクスによって表現されてよい。Ｎ個のオーディオオブジェクトへのＫ個のオーディオチャネルのアップミキシングと、Ｐ個の出力チャネルへのＮ個のオーディオオブジェクトのマッピングとは、単一の統合された動作として実行されてよい。具体的に、ＫｔｏＮアップミックスマトリクスは、Ｐ個の出力信号を生成するようＫ個のオーディオチャネルへ直接的に適用されるＫｔｏＰマトリクスを生成するよう、ＮｔｏＰマトリクスと結合されてよい。よって、オブジェクトデコーダは、Ｎ個のオーディオオブジェクトについてのオーディオオブジェクト・アップミックス・パラメータと、Ｐ個の出力信号についてのレンダリングマトリクスとに基づきＰ個の出力チャネルを生成するよう配置されてよい。幾つかの実施形態において、Ｎ個のオーディオオブジェクトは明示的に生成されてよく、特に、Ｐ個のオーディオ信号の夫々は、Ｎ個のオーディオオブジェクトの中の単一オーディオオブジェクトに対応してよい。幾つかのシナリオにおいて、ＮはＰに等しくてよい。

本発明の任意の特徴に従って、前記チャネル回路は、Ｍ個のオーディオチャネルをダウンミキシングすることによって前記Ｋ個のオーディオチャネルを導出するよう配置される。

これは、多くのシナリオ及び実施形態において、特に有利なシステムを提供してよい。特に、それは、有効なオーディオオブジェクトのエンコーディング及びデコーディングを可能にすることができる。具体的に、アプローチは、生成されたダウンミックスが、やはりＭ個のオーディオチャネルにおいて表される全てのオーディオオブジェクトについてＫ個のオーディオチャネルにおける適切な成分を提供することを可能にすることができる。幾つかの実施形態において、オブジェクトデコーダは、オーディオオブジェクト・アップミックス・パラメータに基づきＫ個のオーディオチャネルをアップミキシングすることによってＮ個のオーディオオブジェクトを生成するよう配置されてよい。

本発明の任意の特徴に従って、前記データストリームは、前記Ｍ個のオーディオチャネルから前記Ｋ個のオーディオチャネルへダウンミキシングするエンコーダを示すダウンミックスデータを更に含み、前記チャネル回路は、前記ダウンミックスデータに応答して前記ダウンミキシングを適応させるよう配置される。

これは、多くの実施形態において、柔軟性の増大及び／又は性能の改善を可能にすることができる。例えば、それは、特定の信号特性へのダウンミックスの適応を可能にすることができ、例えば、ダウンミックスが、全てのＮ個のオーディオオブジェクトの適切な信号成分を提供してオブジェクトのデコーダにおける生成を可能にするようＮ個のオーディオオブジェクトに適応されることを可能にすることができる。

幾つかの実施形態において、Ｍ個のオーディオチャネルからＫ個のオーディオチャネルへの固定の又は所定のダウンミックスは、エンコーダ及びデコーダにおいて使用されてよい。これは複雑性を低減することができ、具体的に、ダウンミックスを示すデータをデータストリームに含める必要性を取り除いて、潜在的にデータレートの低減を可能にすることができる。

本発明の任意の特徴に従って、前記チャネル回路は、Ｍ個のオーディオチャネルの中からＫ個のチャネルのサブセットを選択することによって前記Ｋ個のオーディオチャネルを導出するよう配置される。

これは、多くの実施形態において、改善及び／又は容易化されたオーディオオブジェクトのエンコーディングを可能にすることができる。それは、多くの実施形態において、複雑性の低減を可能にすることができる。

本発明の任意の特徴に従って、前記データストリームは、Ｌ＝１又は且つＬ＜Ｍとして、Ｌ個のオーディオチャネルに対する前記Ｎ個のオーディオオブジェクトについての更なるオーディオオブジェクト・アップミックス・パラメータを更に含み、前記Ｌ個のオーディオチャネル及び前記Ｋ個のオーディオチャネルは、前記Ｍ個のオーディオチャネルの中の異なるサブセットであり、前記オブジェクトデコーダは更に、前記更なるオーディオオブジェクト・アップミックス・パラメータに基づき前記Ｌ個のオーディオチャネルをアップミキシングすることによって少なくとも部分的に生成されるＮ個のオーディオオブジェクトから前記Ｐ個のオーディオ信号を生成するよう配置される。

これは、多くの実施形態において、改善されたオーディオオブジェクトのデコーディングを可能にすることができる。特に、それは、Ｋよりも多い（及び特にＭ個全ての）オーディオチャネルにおける夫々のオーディオオブジェクトの信号成分がオーディオオブジェクトの生成の際に使用されることを可能にすることができる。

サブセットはバラバラであってよい。幾つかの実施形態において、更なるアップミキシングは、関連するオーディオオブジェクト・アップミックス・パラメータを伴うオーディオチャネルの１又はそれ以上の更なるサブセットに基づいてよい。幾つかの実施形態において、サブセットの結合は、全てのＭ個のオーディオチャネルを含んでよい。

本発明の任意の特徴に従って、前記Ｐ個のオーディオ信号のうちの少なくとも１つは、前記オーディオオブジェクト・アップミックス・パラメータに基づく前記Ｋ個のオーディオチャネルのアップミキシングと、前記更なるオーディオオブジェクト・アップミックス・パラメータに基づく前記Ｌ個のオーディオチャネルのアップミキシングとからの寄与を結合することによって生成される。

本発明の任意の特徴に従って、前記データストリームは、Ｍ個のオーディオチャネルへの前記Ｎ個のオーディオオブジェクトのミキシングを表すミックスデータを含み、前記オブジェクトデコーダは、前記ミックスデータ及び前記オーディオオブジェクト・アップミックス・パラメータに応答して前記Ｎ個のオーディオオブジェクトのうちの少なくともサブセットについての残余データを生成し、該残余データに応答して前記Ｐ個のオーディオ信号を生成するよう配置される。

これは、多くの実施形態において、デコーディングされたオーディオオブジェクトのうちの１つ、幾つか、又は全ての改善された品質を提供してよい。多くの実施形態において、それは、例えば、ＳＡＯＣ標準のような、残余データを受け取ることができる標準化されたオーディオオブジェクトデコーディングアルゴリズムとの互換性を可能にすることができる。残余データは、具体的に、Ｋ個のオーディオチャネル及びオーディオオブジェクト・アップミックス・パラメータから生成されたオーディオオブジェクトと、Ｍ個のオーディオチャネル及びダウンミックスデータに基づき生成された対応するオーディオオブジェクトとの間の差を示してよい。

本発明の態様に従って、Ｎ個のオーディオオブジェクトを受信するステップと、前記Ｎ個のオーディオオブジェクトをＭ個のオーディオチャネルへとミキシングするステップと、Ｋ＝１又は２且つＫ＜Ｍとして、前記Ｍ個のオーディオチャネルからＫ個のオーディオチャネルを導出するステップと、前記Ｋ個のオーディオチャネルに対する前記Ｎ個のオーディオオブジェクトの夫々の少なくとも部分についてのオーディオオブジェクト・アップミックス・パラメータを生成するステップと、前記オーディオオブジェクト・アップミックス・パラメータと前記Ｍ個のオーディオチャネルとを含む出力データストリームを生成するステップとを有する、オーディオオブジェクトのエンコーディング方法が提供される。

本発明の任意の特徴に従って、Ｎ個のオーディオオブジェクトのＭチャネルミックスについてのオーディオデータと、Ｋ＝１又は２且つＫ＜Ｍとして、Ｋ個のオーディオチャネルに対する前記Ｎ個のオーディオチャネルについてのオーディオオブジェクト・アップミックス・パラメータとを含むデータストリームを受信するステップと、前記Ｍチャネルミックスから前記Ｋ個のオーディオチャネルを導出するステップと、前記オーディオオブジェクト・アップミックス・パラメータに基づき前記Ｋ個のオーディオチャネルをアップミキシングすることによって少なくとも部分的に生成されるＮ個のオーディオオブジェクトからＰ個のオーディオ信号を生成するステップとを有する、オーディオオブジェクトのデコーディング方法が提供される。

本発明のそれら及び他の態様、特徴及び利点は、以降で記載される実施形態から明らかであり、それらを参照して説明される。

先行技術に従うＭＰＥＧサラウンドシステムの例示である。先行技術に従うＭＰＥＧ両耳性サラウンドシステムの例示である。先行技術に従うＭＰＥＧＳＡＯＣエンコーダの例示である。先行技術に従うＭＰＥＧＳＡＯＣデコーダの例を表す。先行技術に従うＭＰＥＧＳＡＯＣデコーダの例を表す。先行技術に従うＭＰＥＧＳＡＯＣデコーダの例を表す。本発明の幾つかの実施形態に従うオーディオオブジェクトエンコーダの要素の例を表す。本発明の幾つかの実施形態に従うオーディオオブジェクトデコーダの要素の例を表す。本発明の幾つかの実施形態に従うオーディオオブジェクトエンコーダの要素を表す。本発明の幾つかの実施形態に従うエンコーダ出力データストリームの例を表す。本発明の幾つかの実施形態に従うオーディオオブジェクトデコーダの要素の例を表す。本発明の幾つかの実施形態に従うオーディオオブジェクトデコーダの要素の例を表す。

本発明の実施形態は、単なる一例として、図面を参照して記載される。

以下の記載は、Ｎ個のオーディオオブジェクトがＭ個のオーディオチャネルへダウンミキシングされる、すなわち、Ｍ＜Ｎであるところのオブジェクトエンコーダ及びデコーダシステムに焦点を当てる。しかし、当然に、他のミックスが使用されてよく、Ｍは幾つかの実施形態及びシナリオではＮ以上であってよい。

図７は、本発明の幾つかの実施形態に従うオーディオオブジェクトエンコーダの要素を表す。

エンコーダは、Ｎ個のオーディオオブジェクトを受信する受信器（ＲＸ）７０１を有する。夫々のオーディオオブジェクトは、通常、単一の音源に対応する。よって、オーディオチャネル、及び特に、従来の空間マルチチャネル信号のオーディオチャネルと対照的に、オーディオオブジェクトは、実質的に異なる位置を有しうる複数の音源からの成分を有さない。同様に、各オーディオオブジェクトは、音源の完全な発現を提供する。よって、各オーディオオブジェクトは、ただ１つの音源についての空間位置データと関連付けられる。具体的に、各オーディオオブジェクトは、音源の単一の完全な発現と見なされてよく、且つ、単一の空間位置と関連付けられてよい。

更に、オーディオオブジェクトは、如何なる特定のレンダリング構成とも関連付けられず、具体的に、音響トランスデューサの如何なる特定の空間構成ともに関連付けられない。よって、一般的に、特にサラウンド音響セットアップのような、特定の空間スピーカセットアップと関連付けられる従来の空間音響チャネルと対照的に、オーディオオブジェクトは、如何なる特定の空間レンダリング構成によっても定義されない。

Ｎ個のオーディオオブジェクトはＮｔｏＭダウンミキサ（Ｎ−Ｍ）７０３へ供給される。ＮｔｏＭダウンミキサ７０３はＮ個のオーディオオブジェクトをＭ個のオーディオチャネルへダウンミキシングする。この例では、Ｍ＜Ｎであるが、当然に、幾つかのシナリオでは、ＮはＭ以下であってよい。図７の具体例において、Ｍは５に等しいが、当然に、他の実施形態では、例えば、Ｍ＝７又はＭ＝９といった、他のチャネル数が使用されてよい。

よって、ＮｔｏＭダウンミキサ７０３は、オーディオオブジェクトがそれらのチャネルにわたって拡散されるＭチャネルマルチチャネル信号を生成する。Ｎ個のオーディオオブジェクトと対照的に、Ｍ個のオーディオチャネルは従来のオーディオチャネルであり、それらは通常、複数のオーディオオブジェクト、よって、異なる位置を有する複数の音源からのデータを含む。更に、個々のオーディオオブジェクトは、概してＭ個のオーディオチャネルにわたって広がり、しばしば、Ｍ個のオーディオチャネルの夫々は、所与のオーディオオブジェクトからの成分を含む。なお、幾つかのシナリオでは、幾つかのオーディオオブジェクトは、Ｍ個のオーディオチャネルのサブセットにおいてのみ表されてよい。

ＮｔｏＭダウンミキサ７０３は、マルチチャネル信号（以降、Ｍ個のオーディオチャネルによって提供される信号を表すために使用される。）を生成する。これは、マルチチャネル信号として直接的にレンダリングされてよい。具体的に、Ｍ個のオーディオチャネルによって形成されるマルチチャネル信号は空間サラウンド信号であってよく、具体例においては、Ｍ個のオーディオチャネルは夫々、５チャンネルシステムのフロントレフト、フロントライト、センター、サラウンドレフト及びサラウンドライトチャネルであってよい（然るに、Ｍ＝５）。よって、Ｍ個のオーディオチャネルによって形成されるマルチチャネル信号は、特定のレンダリング構成と関連付けられ、具体的に、各オーディオチャネルは、レンダリング位置と関連付けられたオーディオチャネルである。

ＮｔｏＭダウンミキサ７０３は、個々のオーディオオブジェクトがＭ個のオーディオチャネルによって提供されるサラウンド画像において望まれるように位置づけられるように、ダウンミックスを実行することができる。例えば、１つのオーディオオブジェクトは、直接フロントに位置づけられ得、他のオブジェクトは、公称のリスニング位置の左に位置づけられ得る、等。ＮｔｏＭダウンミックスは、具体的に、マルチチャネル信号が直接レンダリングされる場合に、Ｍ個のオーディオチャネルの結果として得られるサラウンド音響信号が所望の空間分布を提供するように、手動により制御されてよい。ＮｔｏＭダウンミックスは、具体的に、Ｍ個のオーディオチャネルから所望のサラウンド信号を供給するよう人によって手動で生成されるＮｔｏＭダウンミックスマトリクスに基づくことができる。

Ｍ個のオーディオチャネルは、Ｍチャネルエンコーダ（ＥＮＣ）７０５へ供給される。Ｍチャネルエンコーダ７０５は、何らかの適切なエンコーディングアルゴリズムに従ってＭ個のオーディオチャネルをエンコーディングするよう進む。Ｍチャネルエンコーダ７０５は、通常、対応するサラウンド信号の有効な表現を提供するよう従来のマルチチャネルエンコーディングスキームを用いる。

Ｍ個のオーディオチャネルのエンコーディングは、通常は望ましいが、全ての実施形態において必須でないことは明らかである。例えば、ＮｔｏＭダウンミキサ７０３は、直接使用され得る信号の周波数領域又は時間領域の表現を直接生成してよい。例えば、エンコーディングされていないＰＣＭデータを用いてＭ個のオーディオチャネルをオブジェクトデコーダへ送信することが可能である。なお、有効なエンコーディングは、実質的にデータレートを低減することができ、従って、通常は使用される。

エンコーディングされたマルチチャネル信号は、具体的に、従来のマルチチャネル信号に対応してよく、マルチチャネル信号を受信する従来のオーディオ装置は、然るべく直接的にマルチチャネル信号をレンダリングすることができる。

図７のエンコーダは、原のＮ個のオーディオオブジェクトが適切に装備されたオブジェクトデコーディング装置において再生されることを可能にするオーディオオブジェクト・アップミックス・パラメータを供給する機能を更に有する。なお、オーディオオブジェクト・アップミックス・パラメータは、Ｍ個のオーディオチャネルに対して提供されず、代わりに、Ｋ個のオーディオチャネルに対して提供される。ここで、Ｋは１又は２である。よって、エンコーダは、モノ又はステレオ信号に対してオーディオオブジェクト・アップミックス・パラメータを生成する。これは、原のオーディオオブジェクトからのモノ又はステレオダウンミックス信号に基づくオブジェクトエンコーディング及びデコーディングしか可能にしない標準との互換性を可能にする。これは、多くのシナリオにおいて、モノ又はステレオ信号のための標準のオーディオオブジェクトエンコーダ又はデコーダ機能がマルチチャネルサポートにより再利用されることを可能にすることができる。例えば、アプローチは、ＳＡＯＣとの改善された互換性を可能にするために使用されてよい。

エンコーダはＭｔｏＫレジューサ（Ｍ−Ｋ）７０７を有する。ＭｔｏＫレジューサ７０７は、ＮｔｏＭダウンミキサ７０３からＭ個のオーディオチャネルを受け取って、Ｍ個のオーディオチャネルからＫ個のオーディオチャネルを導出するよう進む。ここで、Ｋは１又は２である。

ＭｔｏＫレジューサ７０７はパラメータ回路（ＰＡＲ）７０９へ結合される。パラメータ回路７０９はまた、受信器７０１から原のＮ個のオーディオオブジェクトを受け取る。ＭｔｏＫレジューサ７０７は、Ｋ個のオーディオチャネルに対するＮ個のオーディオオブジェクトの夫々の少なくとも部分についてのオーディオオブジェクト・アップミックス・パラメータを生成するよう配置される。よって、オーディオオブジェクト・アップミックス・パラメータは、如何にしてＮ個のオーディオオブジェクト（の一部又は全て）がＭｔｏＫレジューサ７０７から受信されたモノ又はステレオ信号から生成され得るのかを記述するよう生成される。

Ｍチャネルエンコーダ７０５及びパラメータ回路７０９は出力回路（ＭＵＸ）７１１へ結合される。出力回路７１１は、パラメータ回路７０９から受信されるオーディオオブジェクト・アップミックス・パラメータと、Ｍチャネルエンコーダ７０５から受信されるエンコーディングされたＭ個のオーディオチャネルとを含む出力データストリームを生成する。なお、出力データストリームは、Ｋ個のオーディオチャネルの如何なるデータも（エンコーディングされていようといまいと）含まない。よって、出力データストリームは、たとえオーディオオブジェクトのデコーディング又は処理が可能でないとしても旧来のマルチチャネル装置によって直接にレンダリングされ得るエンコーディングされたマルチチャネル信号を含むよう生成される。加えて、オーディオオブジェクト・アップミックス・パラメータが供給され、これは、原のＮ個のオーディオオブジェクトがデコーダ側で再生されることを可能にすることができる。なお、オーディオオブジェクト・アップミックス・パラメータは、データストリームに含まれる信号に対して供給されず、代わりに、出力データストリームに含まれないステレオ又はモノ信号に対して供給される。これは、動作が、モノ及びステレオ信号に制限されるオーディオオブジェクトエンコーディング及びデコーディングアプローチと互換性があることを可能にする。例えば、既存のＳＡＯＣエンコーディング又はデコーディングユニットは、マルチチャネルサポートを可能にしながら再使用され得る。

更に、Ｋ個のオーディオチャネルは出力データストリームに含まれないが、それらはデコーダによってマルチチャネル信号から導出され得る。然るに、適切に装備されたデコーダは、Ｋ個のオーディオチャネルを導出して、オーディオオブジェクト・アップミックス・パラメータに基づきＮ個のオーディオオブジェクトを生成してよい。これは具体的に、基礎的なステレオ又はモノ信号に基づき既存のアップミックス機能により行われ得る。よって、アプローチは、単一の出力データストリームが、出力データストリームに含まれないが依然として原のオーディオオブジェクトが生成されることを可能にするモノ又はステレオ信号に関連するオーディオオブジェクトデータと、マルチチャネル装置によって直接にレンダリングされ得るマルチチャネル信号とを提供することを可能にすることができる。

出力データストリームは、具体的に、Ｍ個のオーディオチャネルについてのマルチチャネルのエンコーディングされたデータストリームを有してよく、このとき、マルチチャネルのエンコーディングされたデータストリームはオーディオオブジェクト・アップミックス・パラメータを更に含む。よって、マルチチャネルのエンコーディングされたデータストリームは、マルチチャネル信号自体と、マルチチャネル信号に含まれる個々のオーディオオブジェクトを生成するデータとを含むよう供給されてよいが、そのデータは、マルチチャネル信号自体には無関係であり、むしろ、マルチチャネルのエンコーディングされたデータストリームに含まれないモノ又はステレオ信号と関係がある。オーディオオブジェクト・アップミックス・パラメータは、具体的に、マルチチャネルのエンコーディングされたデータストリームの付属の、補助的な又は任意のデータフィールドに含まれてよい。

図８は、本発明の幾つかの実施形態に従うデコーダの例を表す。

デコーダは、図７のエンコーダから出力データストリームを受け取る受信器（ＤＥＭＵＸ）８０１を有する。よって、受信器は、Ｋ個のオーディオチャネルに対するＮ個のオーディオオブジェクトについてのオーディオオブジェクト・アップミックス・パラメータと共に、Ｎ個のオーディオオブジェクトのＭチャネルダウンミックスについてのオーディオデータを含むデータストリームを受け取る。ここで、Ｋ＝１又は２且つＫ＜Ｍである。例では、Ｍチャネルダウンミックスについてのオーディオデータは、エンコーディングされたオーディオデータである。

Ｍチャネルダウンミックスについてのエンコーディングされたオーディオデータはマルチチャネルデコーダ（ＤＥＣ）８０３へ供給される。マルチチャネルデコーダ８０３は、エンコーディングされたオーディオデータからＭ個のオーディオチャネルを生成する。Ｍ個のオーディオチャネルはＭｔｏＫチャネルプロセッサ（Ｍ−Ｋ）８０５へ供給される。ＭｔｏＫチャネルプロセッサ８０５は、Ｍ個のオーディオチャネルからＫ個のオーディオチャネルを導出する。ＭｔｏＫプロセッサ８０５は、具体的に、図７のＭｔｏＫチャネルレジューサ７０７と同じ動作を実行する。結果として得られるＫ個のオーディオチャネルはオブジェクトデコーダ８０７へ供給される。オブジェクトデコーダ（ＯＤＥＣ）８０７は、オーディオオブジェクト・アップミックス・パラメータに基づきＫ個のオーディオチャネルをアップミキシングすることによってＮ個のオーディオオブジェクトを生成する。オブジェクトデコーダ８０７は、具体的に、図７のパラメータ回路７０９の逆の動作を実行する。

図８の例では、オブジェクトデコーダ８０７はＮ個のオーディオオブジェクトを再生し、それらのオーディオオブジェクトは次いで、特定のスピーカ構成へ個々に処理及び／又はマッピングされ得ることは明らかである。よって、例では、Ｐ個の出力信号が生成され、ここでＰ＝Ｎであり、各出力信号はＮ個のオーディオオブジェクトのうちの１つと対応する。

幾つかの実施形態において、所与のスピーカ構成へのマッピングは、例えば、単一のマトリクス乗算を適用することによって、オブジェクトデコーダ８０７のアップミキシングと組み合わされてよい。このとき、マトリクス係数は、Ｎ個のオーディオオブジェクトへのＫ個のオーディオチャネルのマッピングの複合マトリクス乗算と、スピーカ構成のチャネルへのＮ個のオーディオオブジェクトのマッピングのマトリクス乗算とを反映する。

具体的に、Ｐ個のオーディオ信号が生成されてよく、Ｐ個のオーディオ信号の夫々は、所与のＰチャネルレンダリング構成の空間出力チャネルと対応してよい。これは、オブジェクトデコーダ８０７が、Ｎ個のオーディオオブジェクトをＰ個のオーディオ信号にマッピングするレンダリングマトリクスを適用することによって、達成されてよい。通常、Ｋ個のオーディオチャネルからＮ個のオーディオオブジェクトを生成するオブジェクトアップミックスマトリクスは、Ｎ個のオーディオオブジェクトをＰ個のオーディオ信号にマッピングするレンダリングマトリクスと結合される。よって、単一の結合されたオブジェクトアップミックス及びレンダリングマトリクスが、Ｐ個のオーディオ信号を生成するようＫ個のオーディオチャネルに適用される。結合されたオブジェクトアップミックス及びレンダリングマトリクスは、具体的に、オブジェクトアップミックスマトリクス及びレンダリングマトリクスを乗算することによって生成され得る。

幾つかの実施形態において、ＭｔｏＫチャネルプロセッサ８０５及びＭｔｏＫチャネルレジューサ７０７は、Ｍ個のオーディオチャネルをダウンミキシングすることによってＫ個のオーディオチャネルを生成するよう配置されてよい。特に、ダウンミックスは、全てのオーディオオブジェクトがダウンミックスにおいて有意な信号成分を有し、それによってＫ個のオーディオチャネルに基づくアップミキシングがＮ個の全てのオーディオオブジェクトにとって有効であることを可能にするように、生成されてよい。

このアプローチの例が図９で表されている。具体例において、オブジェクトエンコーディングはＳＡＯＣ標準と互換性があり、よって、ＳＡＯＣエンコーダが具体的に使用される。具体例では、Ｍ＝５且つＫ＝２である。

更に、図９の例では、Ｋ個のオーディオチャネルの生成は、Ｎ個のオーディオオブジェクトからＭ個のオーディオチャネルを生成する動作と、Ｍ個のオーディオチャネルからＫ個のオーディオチャネルを生成する動作とを単一の動作にまとめることによって、実行されることが分かる。

具体的に、Ｍ個のオーディオチャネルは、Ｍ個のオーディオチャネルを提供するようエンコーダレンダリングマトリクスＭ_Ｎｔｏ５をＮ個のオーディオオブジェクトに適用することによって、生成されてよい（マトリクス乗算は、当業者に知られているように、夫々の周波数時間タイルについて実行されてよい。）。同様に、Ｋ個のオーディオチャネルは、Ｋ個のオーディオチャネルを提供するようレンダリングマトリクスＭ_５ｔｏ２をＭ個のオーディオチャネルに適用することによって、生成されてよい（マトリクス乗算は、当業者に知られているように、夫々の周波数時間タイルについて実行されてよい。）。それら２つのマトリクス演算の逐次演算は、単一のマトリクス演算が複合演算を実行することによって置換されてよい。具体的に、マトリクス：

Ｍ_Ｎｔｏ２＝Ｍ_５ｔｏ２・Ｍ_Ｎｔｏ５

による単一のマトリクス乗算がＮ個のオーディオオブジェクトに直接適用されてよい。なお、これは、マトリクス_Ｍｔｏ５の適用によってＮｔｏＭダウンミキサ７０３によって生成されるＭ（具体例では、５）個のオーディオチャネルにマトリクスＭ_５ｔｏ２を適用することと同じである。よって、デコーダでは、Ｋ個のオーディオチャネルが単純に、Ｍ（すなわち、具体例では、５）個のオーディオチャネルとダウンミックスマトリクスＭ_５ｔｏ２とを乗算することによって生成される。

レンダリングマトリクスＭ_Ｎｔｏ５を選択又は決定するための如何なる適切なアプローチ又は方法も使用されてよいことは、明らかである。通常、マトリクスは、所望の音響画像を提供するよう（半）手動で生成される。

同様に、ダウンミックスマトリクスＭ_５ｔｏ２を選択又は決定するための如何なる適切なアプローチ又は方法も使用されてよいことは、明らかである。幾つかの実施形態において、固定又は所定のダウンミックスマトリクスＭ_５ｔｏ２が使用されてよい。この所定のマトリクスはデコーダで知られていてよく、デコーダは、然るべくそれをＭ個のオーディオチャネルに適用して、オーディオオブジェクト生成に必要とされるステレオ信号を生成することができる。

他の実施形態においては、ダウンミックスマトリクスＭ_５ｔｏ２は、特定の特性に依存するエンコーダにおいて適応又は最適化される可変マトリクスであってよい。例えば、ダウンミックスマトリクスＭ_５ｔｏ２は、全てのオーディオオブジェクトが結果として得られるステレオ信号において望まれるように表現されることが確かにされるように、決定されてよい。そのような実施形態では、エンコーダで使用されるダウンミックスマトリクスＭ_５ｔｏ２に関する情報は、出力データストリームに含まれてよい。次いで、デコーダは、ダウンミックスマトリクスＭ_５ｔｏ２を取り出し、これをデコーディングされたＭ個のオーディオチャネルに適用して、ＳＡＯＣパラメータが適用され得るＫ個のオーディオチャネルを生成してよい。

ステレオダウンミックスへの適応マルチチャネルを可能にする場合に、データは、例えば、ＳＡＯＣデータの伝送と同様に、マルチチャネルビットストリームのシンタックスにおいて補助データ構造を用いることによって伝送され得る。これは図１０で表されており、図１０は異なる２つのオプションを示す：
−ダウンミックスパラメータは、ＳＡＯＣコンテナの前（又は後）の別個のコンテナにおいて送信される；及び
−ダウンミックスパラメータは、ＳＡＯＣＥｘｔｅｎｔｉｏｎＣｏｎｆｉｇ（）フィールドにおいて新しいエントリとしてＳＡＯＣコンテナ内で送信される。

幾つかの実施形態において、Ｍ個のオーディオチャネルからのＫ個のオーディオチャネルの導出は、Ｍ個のオーディオチャネルからサブセットを選択することによって実行される。

例えば、ＳＡＯＣエンコーディングは、Ｍ個のオーディオチャネルによって形成される５チャンネルサラウンド信号のフロントレフト及びフロントライトチャネルのような、ただ２つのオーディオチャネルに応答して実行されてよい。

しかし、多くのシナリオにおいては、そのようなアプローチは、（Ｍ個の全てのオーディオチャネルからの、ひいてはＮ個全てのオーディオオブジェクトからの寄与がダウンミキシングされたＫ個のオーディオチャネルに含まれるように、Ｍ個のオーディオチャネルがＫ個のオーディオチャネルへダウンミキシングされ得るダウンミキシングされたチャネルと対照的に、）潜在的に所与のオーディオオブジェクトからの如何なる信号成分も含まない選択されたサブセットチャネルにより、次善にデコーディングされたオブジェクトをもたらしうる。

そのような問題は場合により、デコーダが他のパラレルアプローチを用いてＮ個のオーディオオブジェクトの幾つかの部分又は全てを生成することによって、対処されてよい。例えば、ＳＡＯＣセンドエフェクト（send effect）を用いることは、センドエフェクトとして生成される寄与を導入するよう機能定義センドエフェクトを結びつける。センドエフェクトは、それが、選択されたＫ個のオーディオチャネルから有意な品質を有して生成され得ないオーディオオブジェクトへの寄与を提供することができるように、定義されてよい。

幾つかの実施形態において、オーディオオブジェクトからの寄与は、Ｍ個のオーディオチャネルの複数のサブセットから生成されてよく、各サブセットは適切なオーディオオブジェクト・アップミックス・パラメータと共に提供される。幾つかの実施形態において、各オーディオオブジェクトは、Ｍ個のオーディオチャネルの単一サブセットから生成されてよく、異なるオーディオオブジェクトは、如何にしてオブジェクトがＭ個のオーディオチャネルへダウンミキシングされたかに依存して、異なるサブセットから選択される。しかし、通常、Ｎ個のオーディオオブジェクトは、Ｍ個のオーディオチャネルのうちのＫよりも多いチャネルにわたって分布し、従って、オーディオオブジェクトは、Ｍ個のオーディオチャネルの異なるサブセットのアップミキシングからの寄与を結合することによって、生成されてよい。

よって、エンコーダは、Ｎ個のオーディオオブジェクトの異なるサブセットを供給される並列パラメータ推定器を有してよい。代替的に、Ｎ個全てのオーディオオブジェクトは、並列パラメータ推定器の夫々へ供給される。レンダリングマトリクスＭ_Ｎｔｏ５は、パラメータ推定器の信号出力がＭチャネルミックスを構成するように分割されて、各パラメータ推定器におけるダウンミックスマトリクスとして使用される。例えば、１つのパラメータ推定器は、Ｍ個のオーディオチャネルのうちのＫ個のオーディオチャネルを生成してよく、他のパラメータ推定器は、Ｍ個のオーディオチャネルのうちのＬ個のオーディオチャネルを生成してよい。例えば、１つのパラメータ推定器はフロントレフト及びライトチャネルを生成し、他の推定器はセンタチャネルを生成する。パラメータ推定器は更に、夫々のチャネルについてオーディオオブジェクト・アップミックス・パラメータを生成する。夫々の個々のパラメータ推定器についてのオーディオオブジェクト・アップミックス・パラメータは、オーディオオブジェクト・アップミックス・パラメータの別個の組として、例えば、具体的に、別個のＳＡＯＣパラメータデータストリームとして、出力データストリームに含まれる。

よって、エンコーダは、夫々がＭ個のオーディオチャネルのステレオ又はモノサブセットと関連付けられる複数の並列ＳＡＯＣ互換データストリームを生成してよい。対応するデコーダは、その場合に、標準ＳＡＯＣデコーダセットアップを用いて個々にそれらのＳＡＯＣ互換データストリームの夫々をデコーディングしてよい。結果として得られるデコーディングされたオーディオオブジェクト成分は、完全なオーディオオブジェクトに（又は直接に、所望の出力スピーカ構成に対応する出力チャネルに）まとめられる。よって、アプローチは、Ｍ個のオーディオチャネルにおける全ての信号成分が個々のオーディオオブジェクトを生成するときに利用され得ることを可能にしてよい。具体的に、サブセットは、それらが共にＭ個のオーディオチャネルの全てを含み、各オーディオチャネルが単一のサブセットにおいてのみ含まれるように、選択されてよい。よって、サブセットは、Ｍ個全てのオーディオチャネルをバラバラにして含んでよい。

具体例として、複数のＳＡＯＣストリームは、各ストリームがマルチチャネルダウンミックスのモノ又はステレオサブセットに作用するように、Ｍオーディオチャネルダウンミックと共に包含／送信され得る。場合により特定の又は複数のストリームに存在するオブジェクトによれば、オーディオオブジェクトを所望の出力（スピーカ）構成へ分配するようデコーダ側で使用されるレンダリングマトリクスは、個々の寄与を個々のオーディオオブジェクトに結合するよう適応され得る。アプローチは、特に高い再構成品質を提供することができる。

図９の実施形態と比較して、Ｎｔｏ５マトリクスは、５つのオーディオチャネルのＫチャネルダウンミックスを提供するよう５ｔｏ２ダウンミックスマトリクスと結合されないそのような具体例に含まれる。むしろ、Ｎｔｏ５マトリクスは別々にされ、ビットストリームが全て１のビットストリームへと多重化される３つの並列ＳＡＯＣエンコーダへ送信される。例えば、Ｍ_ｄｍｘは、Ｌがレフト（Ｌｅｆｔ）を表し、Ｒがライト（Ｒｉｇｈｔ）を表し、Ｃがセンタ（Ｃｅｎｔｒｅ）を表し、添え字ｆがフロント（ｆｒｏｎｔ）表し、添え字ｓがサラウンド（ｓｕｒｒｏｕｎｄ）を表すとして、｛Ｌ_ｆ，Ｒ_ｆ，Ｃ，Ｌ_ｓ，Ｒ_ｓ｝の典型的な５チャネル順序付けについて通常うまく働く３つの並列ＳＡＯＣストリームを提供するよう、Ｍ_{ｄｍｘ，１}、Ｍ_{ｄｍｘ，２}及びＭ_{ｄｍｘ，３}に分割され得る。Ｍ_ｄｍｘ並びにＭ_{ｄｍｘ，１}、Ｍ_{ｄｍｘ，２}及びＭ_{ｄｍｘ，３}は、次のとおりである。

図１１は、そのようなアプローチのためのデコーダの例を示す。

幾つかの実施形態において、エンコーダは更に、Ｍ個のオーディオチャネルへのＮ個のオーディオオブジェクトのダウンミキシングを表すダウンミックスデータを出力データストリームに含めるよう配置されてよい。例えば、Ｍ個のオーディオチャネルへのＮ個のオーディオオブジェクトのダウンミックスを記述するエンコーダレンダリングマトリクスが出力データストリームに含まれてよい（すなわち、図９の具体例では、マトリクスＭ_Ｎｔｏ５が含まれてよい。）。

更なる情報は、異なる実施形態において異なるように使用されてよい。

具体的に、幾つかの実施形態において、ダウンミックスデータは、Ｍ個のオーディオチャネルに基づきオーディオオブジェクトのサブセットを生成するために使用されてよい。Ｋ個のオーディオチャネルと比べてＭ個のオーディオチャネルには利用可能な更なる情報が存在するので、これは、品質が改善されたオーディオオブジェクトが生成されることを可能にすることができる。しかし、処理は、対応するオーディオオブジェクトエンコーディング／デコーディング標準と互換性がないことがあり、よって、追加の機能を必要とすることがある。更に、計算要求は、通常、Ｋ個の信号に基づく標準の（及び通常は大いに最適化された）オブジェクトデコーディングについてよりも高い。従って、Ｍ個のオーディオチャネル及びダウンミックスデータに基づくオーディオデコーディングは、オーディオオブジェクトのサブセットにのみ、そして通常は、ごく少数の最も支配的なオーディオオブジェクトにのみ制限されてよい。残りのオーディオオブジェクトは、Ｋ個のオーディオチャネルに基づき、標準化されたデコーダにより生成されてよい。このデコーディングはしばしば、例えば、専用の且つ標準化されたハードウェアを用いることによって、実質的により有効であり得る。

更に、ＳＡＯＣのような幾つかのエンコーディング標準は、エンコーダから残余データを受け取ることができる。このとき、エンコーディングされたデータは、ダウンミックスに基づきデコーダによって生成される原のオーディオオブジェクトと、オーディオオブジェクト・アップミックス・パラメータとの間の差を反映する。具体的に、ＳＡＯＣは、残余データが最大４つのオーディオオブジェクトについて提供されることを可能するエンハンスド・オーディオ・オブジェクツ（ＥＡＯ；Enhanced Audio Objects）として知られる機能をサポートする。

幾つかの実施形態において、Ｍ個のオーディオチャネルへのＮ個のオーディオオブジェクトのダウンミキシングを表すダウンミックスデータは、デコーダで残余データを生成するために使用され得る。具体的に、デコーダは、ダウンミックスデータ、Ｍ個のオーディオチャネル、及びオーディオオブジェクト・アップミックス・パラメータに基づき特定のオーディオオブジェクトを計算することができる。加えて、同じオブジェクトは、Ｋ個のオーディオチャネル及びオーディオオブジェクト・アップミックス・パラメータに基づきデコーディングされ得る。残余データは、それらの間の差を示すものとして生成され得る。この残余データは次いで、Ｎ個のオーディオオブジェクトのデコーディングにおいて使用され得る。このデコーディングは、Ｋ個のオーディオチャネルに基づき且つ残余データがエンコーダから供給されることを可能にするオブジェクトデコーディング標準のための標準化されたアプローチを使用してよい。

そのようなアプローチにおいて、ダウンミックスデータ及びＭ個のオーディオチャネルによって提供される更なる情報は、よって、エンコーダでよりもデコーダで残余データ情報を生成するために使用される。よって、残余データは伝送される必要がない。ダウンミックスデータ及びＭ個のオーディオチャネルから生成されるオブジェクトは、エンコーディング前の対応するオーディオオブジェクトと同じでないことがあるが、更なる情報は、通常、依然として、Ｋ個のオーディオチャネルから生成される対応するオーディオオブジェクトに対して改善を提供することは、明らかである。

具体例として、標準のＳＡＯＣデコーダはプリプロセッサを設けられてよく、プリプロセッサは、あたかもそれがエンコーダで生成された残余データであるかのようにＳＡＯＣデコーダへ供給される残余データを生成する。よって、ＳＡＯＣデコーダは、ＳＡＯに関するＳＡＯＣ標準に従って十分に動作することができる。そのようなデコーダの例が図１２で表されている。

プリプロセッサは、具体的に、Ｍ_ｔｏ５マトリクスを用いてオーディオオブジェクトを計算してよい。例えば、オーディオオブジェクトは、次の式を用いて５チャネルダウンミックスから生成されてよい。

この式は、ダウンミックスチャネルＸ_１からオブジェクトを再構成する。ここで、ＯＬＤは、ＳＡＯＣパラメータにおけるＯＬＤ（オブジェクトレベル差；Object Level Difference）の線形表現である。この式は、対応するＳＡＯＣパラメータを用いて、Ｘ_１の各時間−周波数タイルへ適用されてよい。

上記の再構成は無相関のオブジェクトを仮定する。ＳＡＯＣＩＯＣパラメータを含めることによって、例えば、次の式を用いることによって、オブジェクト間の相関を考慮することが可能である。

この再構成は、ダウンミックスチャネル１にあるオブジェクトｋのゲインにより重み付けられる（Ｍ_{Ｎｔｏ５，１ｋ}）。

全ての５つのチャネルからの同様の再構成を結合することは、オブジェクトｋへのゲインに従って重み付けられるオブジェクト再構成を与える。すなわち、オブジェクトｋが最大ゲインを有するチャネルは、オブジェクトｋの結合された再構成に最大寄与を与える。ここで、結合された再構成は、次のように表される。

上記の式で、Σ^５ _ｃ＝１Ｍ_{Ｎｔｏ５，ｃｋ}は、再構成を正確なレベルへと正規化する。

他の例として、代替の重み付けされた再構成は、ダウンミックスチャネルにおけるオブジェクトの‘孤立化（isolatedness）’を目指す。次の式が定義される。

この場合、代替の再構成は、次のように表され得る。

代替の再構成は、オブジェクトｋの正規化されたサブ再構成（Ｂ_ｃｋ・Ｘ_ｃ）の各々を、対応するダウンミックスチャネルへのその相対寄与により重み付ける。

Ｍ個のオーディオチャネル及びＮｔｏＭダウンミックスからオーディオオブジェクトを生成する他のアプローチが他の実施形態において使用され得ることは、明らかである。

ＥＡＯがエンコーディングされるＳＡＯＣエンコーダにおいて、対応する残余データは、原のオブジェクト信号と、モノ又はステレオＳＡＯＣダウンミックスに基づく再構成との間の差として計算される。従って、それらのエンハンスド・オブジェクト（Ｘ_ｅａｏ）は、通例のオブジェクト（Ｘ_ｒｅｇ）とは別個に処理される。

通例のオブジェクトは、Ｋ×Ｎのダウンミックスマトリクス（Ｄ）のサブマトリクス（Ｄ_ｒｅｇ）に従ってダウンミキシングされる。ここで、次の条件が成り立つ。

結果は、

Ｙ_ｒｅｇ＝Ｄ_ｒｅｇ・Ｘ_ｒｅｇ

のように、Ｋチャネルダウンミックスである。

ＥＡＯはまた、対応するサブマトリクスＤ_ｅａｏを用いてダウンミキシングされ、結果として得られるダウンミックスは、

Ｙ＝Ｙ_ｒｅｇ＋Ｄ_ｅａｏ・Ｘ_ｅａｏ

のように、ＳＡＯＣダウンミックスへと、通例のオブジェクトのダウンミックス（Ｙ_ｒｅｇ）と結合される。

このダウンミックスはＳＡＯＣデコーダの入力で期待される。

ダウンミックスＹ_ｒｅｇ及びＥＡＯを入力信号として用いて、中間の補助信号がＮ_ｅａｏ×（Ｋ＋Ｎ_ｅａｏ）マトリクスＤ_ａｕｘを用いて、次のように計算される。

ここで、ＥＡＯの数はＮ_ｅａｏ＝Ｎ−Ｎ_ｒｅｇである。

ダウンミックスＹ及び補助信号Ｙ_ａｕｘの生成は、次の単一マトリクス式において結合され得る。

マトリクスＤ_ａｕｘは、マトリクスＤ_ｅｘｔが可逆であり且つダウンミックスからのＥＡＯの分離が最適化されるように、選択される。Ｄ_ａｕｘの要素は、ＳＡＯＣ標準において定義され、よってデコーダにおいて利用可能である。ＳＡＯＣデコーダでは、Ｄ_ｅｘｔの逆数を用いて、ＥＡＯ（Ｘ_ｅａｏ）は、入力としてダウンミックス（Ｙ）及び補助信号（Ｙ_ａｕｘ）を用いて通例のオブジェクト（Ｙ_ｒｅｇ）から分離され得る。

符号化効率を改善するために、補助信号は、次のように、デコーダで予め利用可能なデータから導出される予測係数によりダウンミックス信号から予測される。

補助信号と予測された補助信号の差Ｒである予測誤差は、ＳＡＯＣ標準の残余符号化メカニズムを用いて有効に符号化され得る。

この実施形態の残余は、ＥＡＯ（＝Ｘ_ｅａｏ）としてＭチャネルオブジェクト再構成
（外１）

を用いて上述されたのと同じように生成され得る。個々のオブジェクトは既にミキシングされているので、それらのステップは省略可能である。よって、次の式が与えられる。

４つのＥＡＯの場合には、次のとおりである。

次いで、残余が次のように計算される。

結果として得られる残余は次いで、ＳＡＯＣビットストリームに挿入され得る。ＳＡＯＣビットストリームにおいて、残余が計算されるオブジェクトはＥＡＯとして識別される。標準のＳＡＯＣデコーダは次いで、Ｎ個のオーディオチャネルを生成するように標準のＳＡＯＣＥＡＯデコーディングを実行するよう進むことができる。

これは、多くの実施形態において、デコーディングされたオーディオオブジェクトの改善された品質を提供する。多くの実施形態において、それは、例えば、ＳＡＯＣ標準のように、残余データを受け取ることができる標準化されたオーディオオブジェクトデコーディングアルゴリズムとの互換性を可能にすることができる。残余データは、具体的に、Ｋ個のオーディオチャネル及びオーディオオブジェクト・アップミックス・パラメータから生成されるオーディオオブジェクトと、Ｍ個のオーディオチャネル及びダウンミックスデータに基づき生成される対応するオーディオオブジェクトとの間の差を示してよい。

明瞭さのために上記の記述は、異なる機能の回路、ユニット及びプロセッサを参照して本発明の実施形態を記載していることは、明らかである。なお、異なる機能の回路、ユニット又はプロセッサの間の機能の如何なる適切な分布も、本発明から逸脱することなしに使用されてよいことは明らかである。例えば、別個のプロセッサ又はコントローラによって実行されるよう表されている機能は、同じプロセッサ又はコントローラによって実行されてよい。従って、特定の機能のユニット又は回路への言及は、厳密な論理的又は物理的構造又は体系を示すというよりむしろ、記載される機能を提供するための適切な手段への言及としてのみ見られるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの何らかの組み合わせを含む如何なる適切な形態においても実施され得る。本発明は任意に、１以上のデータプロセッサ及び／又はデジタル信号プロセッサで実行されるコンピュータソフトウェアとして少なくとも部分的に実施されてよい。本発明の実施形態の要素及び部品は、如何なる適切な方法においても物理的、機能的及び論理的に実施されてよい。実際に、機能は、単一のユニットにおいて、複数のユニットにおいて、又は他の機能ユニットの部分として実施されてよい。そのようなものとして、本発明は単一のユニットにおいて実施されてよく、あるいは、異なるユニット、回路、及びプロセッサの間で物理的及び機能的に分配されてよい。

本発明は幾つかの実施形態に関連して記載されてきたが、ここで説明されている特定の形態に制限されるよう意図されない。むしろ、本発明の適用範囲は、添付の特許請求の範囲によってのみ制限される。加えて、特徴は特定の実施形態に関連して記載されるよう現れることがあるが、当業者には明らかなように、記載される実施形態の様々な特徴は本発明に従って組み合わされてよい。特許請求の範囲において、語“有する”又は“含む”等は、他の要素又はステップの存在を除外しない。

更に、たとえ個々に挙げられるとしても、複数の手段、要素、回路又は方法ステップは、例えば、単一の回路、ユニット又はプロセッサによって、実施されてよい。加えて、個々の特徴が異なる請求項に含まれることがあるが、それらは場合により、有利に組み合わされてよく、異なる請求項における包含は、特徴の組み合わせが容易及び／又は有利でないことを暗示するわけではない。また、１つのカテゴリの請求項における特徴の包含は、このカテゴリへの限定を暗示するわけではなくむしろ、その特徴が必要に応じて他の請求項カテゴリに同じく適用可能であることを示す。更に、特許請求の範囲における特徴の順序は、特徴が働かされるべき如何なる特定の順序も暗示せず、特に、方法の請求項における個々のステップの順序は、それらのステップが個の順序で実行されなければならないことを暗示するわけでない。むしろ、ステップは如何なる適切な順序でも実行されてよい。加えて、単一参照は複数個を除外しない。よって、“１つ（の）”、“第１（の）”、“第２（の）”等といった参照は複数個を排除しない。特許請求の範囲における参照符号は、単に例示の明確化として提供され、決して特許請求の範囲の適用範囲を制限するよう解釈されるべきではない。

Claims

Ｎ個のオーディオオブジェクトを受信する受信部と、
前記Ｎ個のオーディオオブジェクトをＭ個のオーディオチャネルへとミキシングするミキサと、
Ｋ＝１又は２且つＫ＜Ｍとして、前記Ｍ個のオーディオチャネルからＫ個のオーディオチャネルを導出するチャネル回路と、
前記Ｋ個のオーディオチャネルに対する前記Ｎ個のオーディオオブジェクトの夫々の少なくとも部分についてのオーディオオブジェクト・アップミックス・パラメータを生成するパラメータ回路と、
前記オーディオオブジェクト・アップミックス・パラメータと前記Ｍ個のオーディオチャネルとを含む出力データストリームを生成する出力回路と
を有するオーディオオブジェクトエンコーダ。
前記チャネル回路は、前記Ｍ個のオーディオチャネルをダウンミキシングすることによって前記Ｋ個のオーディオチャネルを導出するよう配置される、
請求項１に記載のオーディオオブジェクトエンコーダ。
前記チャネル回路は、前記Ｍ個のオーディオチャネルの中からＫ個のチャネルのサブセットを選択することによって、前記Ｋ個のオーディオチャネルを導出するよう配置される、
請求項１に記載のオーディオオブジェクトエンコーダ。
前記出力データストリームは、前記Ｍ個のオーディオチャネルについてのマルチチャネル符号化データストリームを含み、前記オーディオオブジェクト・アップミックス・パラメータは、前記マルチチャネル符号化データストリームの部分において含まれる、
請求項１に記載のオーディオオブジェクトエンコーダ。
前記出力回路は、前記Ｍ個のオーディオチャネルへの前記Ｎ個のオーディオオブジェクトのミキシングを表すミキシングデータを前記出力データストリームに含めるよう配置される、
請求項１に記載のオーディオオブジェクトエンコーダ。
Ｎ個のオーディオオブジェクトのＭチャネルミックスについてのオーディオデータと、Ｋ＝１又は２且つＫ＜Ｍとして、Ｋ個のオーディオチャネルに対する前記Ｎ個のオーディオチャネルについてのオーディオオブジェクト・アップミックス・パラメータとを含むデータストリームを受信する受信部と、
前記Ｍチャネルミックスから前記Ｋ個のオーディオチャネルを導出するチャネル回路と、
前記オーディオオブジェクト・アップミックス・パラメータに基づき前記Ｋ個のオーディオチャネルをアップミキシングすることによって少なくとも部分的に生成されるＮ個のオーディオオブジェクトからＰ個のオーディオ信号を生成するオブジェクトデコーダと
を有するオーディオオブジェクトデコーダ。
前記チャネル回路は、Ｍ個のオーディオチャネルをダウンミキシングすることによって前記Ｋ個のオーディオチャネルを導出するよう配置される、
請求項６に記載のオーディオオブジェクトデコーダ。
前記データストリームは、前記Ｍ個のオーディオチャネルから前記Ｋ個のオーディオチャネルへダウンミキシングするエンコーダを示すダウンミックスデータを更に含み、前記チャネル回路は、前記ダウンミックスデータに応答して前記ダウンミキシングを適応させるよう配置される、
請求項７に記載のオーディオオブジェクトデコーダ。
前記チャネル回路は、Ｍ個のオーディオチャネルの中からＫ個のチャネルのサブセットを選択することによって前記Ｋ個のオーディオチャネルを導出するよう配置される、
請求項７に記載のオーディオオブジェクトデコーダ。
前記データストリームは、Ｌ＝１又は且つＬ＜Ｍとして、Ｌ個のオーディオチャネルに対する前記Ｎ個のオーディオオブジェクトについての更なるオーディオオブジェクト・アップミックス・パラメータを更に含み、前記Ｌ個のオーディオチャネル及び前記Ｋ個のオーディオチャネルは、前記Ｍ個のオーディオチャネルの中の異なるサブセットであり、前記オブジェクトデコーダは更に、前記更なるオーディオオブジェクト・アップミックス・パラメータに基づき前記Ｌ個のオーディオチャネルをアップミキシングすることによって少なくとも部分的に生成されるＮ個のオーディオオブジェクトから前記Ｐ個のオーディオ信号を生成するよう配置される、
請求項９に記載のオーディオオブジェクトデコーダ。
前記Ｐ個のオーディオ信号のうちの少なくとも１つは、前記オーディオオブジェクト・アップミックス・パラメータに基づく前記Ｋ個のオーディオチャネルのアップミキシングと、前記更なるオーディオオブジェクト・アップミックス・パラメータに基づく前記Ｌ個のオーディオチャネルのアップミキシングとからの寄与を結合することによって生成される、
請求項１０に記載のオーディオオブジェクトデコーダ。
前記データストリームは、Ｍ個のオーディオチャネルへの前記Ｎ個のオーディオオブジェクトのミキシングを表すミックスデータを含み、前記オブジェクトデコーダは、前記ミックスデータ及び前記オーディオオブジェクト・アップミックス・パラメータに応答して前記Ｎ個のオーディオオブジェクトのうちの少なくともサブセットについての残余データを生成し、該残余データに応答して前記Ｐ個のオーディオ信号を生成するよう配置される、
請求項６に記載のオーディオオブジェクトデコーダ。
Ｎ個のオーディオオブジェクトを受信するステップと、
前記Ｎ個のオーディオオブジェクトをＭ個のオーディオチャネルへとミキシングするステップと、
Ｋ＝１又は２且つＫ＜Ｍとして、前記Ｍ個のオーディオチャネルからＫ個のオーディオチャネルを導出するステップと、
前記Ｋ個のオーディオチャネルに対する前記Ｎ個のオーディオオブジェクトの夫々の少なくとも部分についてのオーディオオブジェクト・アップミックス・パラメータを生成するステップと、
前記オーディオオブジェクト・アップミックス・パラメータと前記Ｍ個のオーディオチャネルとを含む出力データストリームを生成するステップと
を有する、オーディオオブジェクトのエンコーディング方法。
Ｎ個のオーディオオブジェクトのＭチャネルミックスについてのオーディオデータと、Ｋ＝１又は２且つＫ＜Ｍとして、Ｋ個のオーディオチャネルに対する前記Ｎ個のオーディオチャネルについてのオーディオオブジェクト・アップミックス・パラメータとを含むデータストリームを受信するステップと、
前記Ｍチャネルミックスから前記Ｋ個のオーディオチャネルを導出するステップと、
前記オーディオオブジェクト・アップミックス・パラメータに基づき前記Ｋ個のオーディオチャネルをアップミキシングすることによって少なくとも部分的に生成されるＮ個のオーディオオブジェクトからＰ個のオーディオ信号を生成するステップと
を有する、オーディオオブジェクトのデコーディング方法。
コンピュータで実行される場合に請求項１３又は１４に記載の方法を実行するよう適応されたコンピュータプログラムコードを有するコンピュータプログラム。