JP2017535153A

JP2017535153A - オーディオ・エンコーダおよびデコーダ

Info

Publication number: JP2017535153A
Application number: JP2017517248A
Authority: JP
Inventors: コッペンス，イェルーン; ヴィレモーズ，ラルス; ヒルヴォーネン，トニ; ショエルリング，クリストファー
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2014-10-01
Filing date: 2015-10-01
Publication date: 2017-11-24
Anticipated expiration: 2035-10-01
Also published as: ES2709117T3; RU2696952C2; US10163446B2; RU2017113711A; WO2016050899A1; BR112017006278A2; KR20220066996A; CN107077861A; EP3201916A1; JP6732739B2; CN107077861B; EP3201916B1; RU2017113711A3; KR20170063657A; US20170249945A1; KR102482162B1

Abstract

本開示はオーディオ符号化の分野に属し、特に、オーディオ情報が少なくとも一つのダイアログ・オブジェクトを含む複数のオーディオ・オブジェクトによって表現される場合の空間的オーディオ符号化の分野に関する。特に、本開示は、オーディオ・システムにおけるデコーダにおいてダイアログを向上させるための方法および装置を提供する。さらに、本開示は、オーディオ・システムにおけるデコーダによってダイアログが向上させられることを許容するためのそのようなオーディオ・オブジェクトのエンコードのための方法および装置を提供する。

Description

関連出願への相互参照
本願は2014年10月1日に出願された米国仮特許出願第62/058,157号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。

技術分野
本開示は、概括的にはオーディオ符号化に関する。詳細には、オーディオ・システムにおけるデコーダにおいてダイアログを向上させるための方法および装置に関する。本開示はさらに、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードする方法および装置に関する。

通常のオーディオ・システムでは、チャネル・ベースのアプローチが用いられる。各チャネルはたとえば、一つのスピーカーまたは一つのスピーカー・アレイのコンテンツを表わしうる。そのようなシステムのための可能な符号化方式は、離散的なマルチチャネル符号化またはMPEGサラウンドのようなパラメトリック符号化を含む。

より最近では、新たなアプローチが開発されている。このアプローチは、オブジェクト・ベースであり、これはたとえば映画館用途において複雑なオーディオ・シーンを符号化するときに有利でありうる。オブジェクト・ベースのアプローチを用いるシステムでは、三次元オーディオ・シーンが、付随するメタデータ（たとえば位置メタデータ）をもつオーディオ・オブジェクトによって表現される。これらのオーディオ・オブジェクトはオーディオ信号の再生の間、三次元オーディオ・シーン内を動き回る。本システムはさらに、いわゆるベッド・チャネルを含んでいてもよい。ベッド・チャネルとは、たとえば上記のような通常のオーディオ・システムのためのある種の出力チャネルに直接マッピングされる信号として記述されてもよい。

ダイアログ向上は、音楽、背景音および効果音といった他の成分に対してダイアログ・レベルを向上させるまたは増大させる技法である。オブジェクト・ベースのオーディオ・コンテンツは、ダイアログが別個のオブジェクトによって表現できるので、ダイアログ向上のために好適でありうる。しかしながら、状況によっては、オーディオ・シーンは膨大な数のオブジェクトを含むことがある。オーディオ・シーンを表現するために必要とされる複雑さおよびデータ量を低減するために、オーディオ・シーンは、オーディオ・オブジェクトの数を減らすことによって、すなわちオブジェクト・クラスタリングによって単純化されてもよい。このアプローチは、オブジェクト・クラスターのいくつかにおいて、ダイアログと他のオブジェクトの間の混合を導入することがある。

オーディオ・システムにおけるデコーダにおいてそのようなオーディオ・クラスターについてダイアログ向上の可能性を導入することによって、デコーダの計算量が増大することがある。

例示的実施形態についてここで付属の図面を参照して述べる。
例示的実施形態に従ってオーディオ・システムにおいてダイアログを向上させるための高品質デコーダの一般化されたブロック図である。例示的実施形態に従ってオーディオ・システムにおいてダイアログを向上させるための低計算量デコーダの第一の一般化されたブロック図である。例示的実施形態に従ってオーディオ・システムにおいてダイアログを向上させるための低計算量デコーダの第二の一般化されたブロック図である。例示的実施形態に従ってダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードするための方法を示す図である。例示的実施形態に従ってダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードするためのエンコーダの一般化されたブロック図である。すべての図面は概略的であり、一般に、本開示を明快にするために必要な部分を示すのみである。一方、他の部分は省略されたり示唆されるだけであったりすることがある。特に断わりのない限り、同様の参照符号は異なる図面における同様の部分を指す。

上記に鑑み、目的は、デコーダにおけるダイアログ向上の複雑さを低減することをねらいとするエンコーダおよびデコーダならびに関連する方法を提供することである。

〈Ｉ．概観――デコーダ〉
第一の側面によれば、例示的実施形態は、デコード方法、デコーダおよびデコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、デコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもちうる。

例示的実施形態によれば、オーディオ・システムにおけるデコーダにおいてダイアログを向上させる方法が提供される。本方法は：複数のダウンミックス信号を受領する段階であって、前記ダウンミックス信号はダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトのダウンミックスである、段階と、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を受領する段階と、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを受領する段階と、向上パラメータおよび前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを使って前記係数を修正する段階と、修正された係数を使ってダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階とを含む。

前記向上パラメータは典型的には、デコーダにおいて利用可能なユーザー設定である。ユーザーはたとえば、前記ダイアログのボリュームを増大させるためにリモコンを使ってもよい。結果として、前記向上パラメータは典型的には、オーディオ・システムにおいてエンコーダによってデコーダに提供されはしない。多くの場合、向上パラメータはダイアログの利得に変換されるが、ダイアログの減衰に変換されることもある。さらに、向上パラメータはダイアログのある種の周波数に関係することがある。たとえばダイアログの周波数依存の利得または減衰である。

ダイアログという用語は、本明細書の文脈では、いくつかの実施形態では、有意なダイアログのみが向上され、たとえば背景のおしゃべりやダイアログの残響バージョンは向上されないと理解される。ダイアログは、人の間の会話を含みうるが、独白、ナレーションまたは他の発話をも含んでいてもよい。

本稿での用法では、オーディオ・オブジェクトは、オーディオ信号と、三次元空間における該オブジェクトの位置のような追加的情報とを含む。追加的情報は、典型的には、所与の再生システムでオーディオ・オブジェクトを最適にレンダリングするために使われる。オーディオ・オブジェクトという用語は、オーディオ・オブジェクトのクラスター、すなわちオブジェクト・クラスターをも包含する。オブジェクト・クラスターは少なくとも二つのオーディオ・オブジェクトの混合を表わし、典型的には、それらのオーディオ・オブジェクトの混合を、オーディオ信号および三次元空間におけるオブジェクト・クラスターの位置のような追加的情報として含む。オブジェクト・クラスターにおける前記少なくとも二つのオーディオ・オブジェクトは、個々の空間的位置が近いことに基づいて混合されてもよく、オブジェクト・クラスターの空間的位置は個々のオブジェクト位置の平均として選ばれてもよい。

本稿での用法では、ダウンミックス信号とは、前記複数のオーディオ・オブジェクトの少なくとも一つのオーディオ・オブジェクトの組み合わせである信号をいう。ベッド・チャネルのようなオーディオ・シーンの他の信号もダウンミックス信号に組み合わされてもよい。ダウンミックス信号の数は典型的には（必ずではないが）オーディオ・オブジェクトおよびベッド・チャネルの数の和より少ない。このことが、ダウンミックス信号がダウンミックス〔下方混合〕と称されるゆえんである。ダウンミックス信号はダウンミックス・クラスターも称されてもよい。

本稿での用法では、サイド情報は、メタデータと称されることもある。

係数を示すサイド情報という用語は、本明細書の文脈では、係数が、たとえばビットストリームにおいてエンコーダから送られるサイド情報に直接的に存在すること、あるいは該サイド情報に存在するデータから計算されることと理解される。

本方法によれば、前記複数のオーディオ・オブジェクトの再構成を可能にする係数は、ダイアログを表わす前記のちに再構成された少なくとも一つのオーディオ・オブジェクトの向上を提供するために修正される。ダイアログを表わす再構成された少なくとも一つのオーディオ・オブジェクトを再構成されたあとに向上させる通常の方法、すなわち再構成を可能にする係数を修正しない方法に比べ、本方法は本方法を実装するデコーダの低減された数学的複雑さ、よって低減された計算量を提供する。

例示的実施形態によれば、向上パラメータを使って係数を修正する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトの再構成を可能にする係数に、向上パラメータを乗算することを含む。これは、係数を修正するための計算量の低い演算であるが、それでも係数間の相互比（mutual ratio）を保つ。

例示的実施形態によれば、本方法はさらに：前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を、前記サイド情報から計算することを含む。

例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトを少なくとも再構成する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトのみを再構成することを含む。

多くの場合、ダウンミックス信号は、オーディオ・シーンを所与のスピーカー構成、たとえば標準的な5.1構成にレンダリングまたは出力することに対応しうる。そのような場合、低計算量のデコードは、向上されるべきダイアログを表わすオーディオ・オブジェクトのみを再構成することによって達成されうる。

例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトのみの再構成は、ダウンミックス信号の脱相関を含まない。これは、再構成段階の複雑さを軽減する。さらに、すべてのオーディオ・オブジェクトが再構成されるわけではないので、すなわち、そうしたオーディオ・オブジェクトについてはレンダリングされるべきオーディオ・コンテンツの品質は低下しうるので、ダイアログを表わす前記少なくとも一つのオブジェクトを再構成するときに脱相関を使うことは、向上されたレンダリングされたオーディオ・コンテンツの知覚されるオーディオ品質を改善しない。結果として、脱相関は省略できる。

例示的実施形態によれば、本方法はさらに：ダイアログを表わす再構成された前記少なくとも一つのオブジェクトを前記ダウンミックス信号と、少なくとも一つの別個の信号としてマージする段階を含む。結果として、再構成された前記少なくとも一つのオブジェクトは、再びダウンミックス信号に混合されたり、あるいはダウンミックス信号と組み合わされたりする必要はない。結果として、この実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報は必要とされない。

例示的実施形態によれば、本方法はさらに、前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報をもつデータを受領し、前記複数のダウンミックス信号およびダイアログを表わす再構成された前記少なくとも一つのオブジェクトを、前記空間的情報をもつデータに基づいてレンダリングすることを含む。

例示的実施形態によれば、本方法はさらに、前記ダウンミックス信号およびダイアログを表わす再構成された前記少なくとも一つのオブジェクトを、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を使って、組み合わせることを含む。前記ダウンミックス信号は、ある種のスピーカー構成（たとえば5.1スピーカー構成または7.1スピーカー構成）について常時オーディオ出力（AAO: always-audio-out）をサポートするためにダウンミックスされてもよい。すなわち、ダウンミックス信号は、そのようなスピーカー構成での再生のために直接使われることができる。ダウンミックス信号とダイアログを表わす再構成された前記少なくとも一つのオブジェクトとを組み合わせることによって、AAOが引き続きサポートされるのと同時に、ダイアログ向上が達成される。換言すれば、いくつかの実施形態によれば、ダイアログを表わす、再構成され、ダイアログ向上された少なくとも一つのオブジェクトは、引き続きAAOをサポートするために、もとのダウンミックス信号に混合される。

例示的実施形態によれば、本方法はさらに、ダウンミックス信号とダイアログを表わす再構成された前記少なくとも一つのオブジェクトとの組み合わせをレンダリングすることを含む。

例示的実施形態によれば、本方法はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を受領することを含む。オーディオ・システムにおけるエンコーダは、ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトをダウンミックスするときにこの型の情報をすでにもっていることがあり、あるいは該情報はエンコーダによって簡単に計算されうる。

例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されたかを記述する受領された前記情報は、エントロピー符号化によって符号化される。これは、該情報を伝送するための必要とされるビットレートを低減しうる
例示的実施形態によれば、本方法はさらに、前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報をもつデータを受領し、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する前記情報を、前記空間的情報をもつデータに基づいて計算する段階を含む。この実施形態の利点は、ダウンミックス信号およびサイド情報を含むビットストリームをエンコーダに伝送するために必要とされるビットレートが低減されるということでありうる。前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する前記空間的情報は、いずれにせよデコーダによって受領されうるのであり、さらなる情報やデータがデコーダによって受領される必要がないからである。

例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されたかを記述する前記情報を計算する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置を、前記複数のダウンミックス信号についての空間位置にマッピングする関数を適用することを含む。該関数はたとえば、ベクトル・ベースの振幅パン（VBAP: vector base amplitude panning）アルゴリズムのような3Dパン・アルゴリズムであってもよい。他のいかなる好適な関数が使われてもよい。

例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階は、前記複数のオーディオ・オブジェクトを再構成することを含む。その場合、本方法は、前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報をもつデータを受領し、前記空間的情報をもつデータに基づいて、再構成された前記複数のオーディオ・オブジェクトをレンダリングすることを含んでいてもよい。ダイアログ向上は上記のように前記複数のオーディオ・オブジェクトの再構成を可能にする係数に対して実行されるので、いずれも行列演算である前記複数のオーディオ・オブジェクトの再構成および再構成されたオーディオ・オブジェクトへのレンダリングは、一つの演算に組み合わされてもよい。これは、二つの演算の複雑さを軽減する。

例示的実施形態によれば、処理機能をもつ装置上で実行されたときに第一の側面のいずれかの方法を実行するよう適応されているコンピュータ・コード命令を有するコンピュータ可読媒体が提供される。

例示的実施形態によれば、オーディオ・システムにおいてダイアログを向上させるデコーダが提供される。本デコーダは：複数のダウンミックス信号を受領する段階であって、前記ダウンミックス信号はダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトのダウンミックスである、段階を実行し、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を受領し、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを受領するよう構成された受領段を有する。本デコーダはさらに、向上パラメータおよび前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを使って前記係数を修正するよう構成された修正段を有する。本デコーダはさらに、修正された係数を使ってダイアログを表わす前記少なくとも一つのオブジェクトを再構成するよう構成された再構成段を有する。

〈ＩＩ．概観――エンコーダ〉
第二の側面によれば、例示的実施形態は、エンコード方法、エンコーダおよびエンコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、エンコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもちうる。一般に、第二の側面の特徴は第一の側面の対応する特徴と同じ利点をもちうる。

例示的実施形態によれば、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードする方法が提供される。本方法は：ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を決定し、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を決定し、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを決定し、前記複数のダウンミックス信号、前記サイド情報および前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを含むビットストリームを形成することを含む。

例示的実施形態によれば、本方法はさらに、前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報を決定し、該空間的情報を前記ビットストリームに含める段階を含む。

例示的実施形態によれば、前記複数のダウンミックス信号を決定する段階はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する情報を決定することを含む。ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述するこの情報は、この実施形態によれば、前記ビットストリームに含められる。

例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する決定された情報は、エントロピー符号化を使ってエンコードされる。

例示的実施形態によれば、本方法はさらに、前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報を決定し、前記複数のオーディオ・オブジェクトについての空間位置に対応する前記空間的情報を前記ビットストリームに含める段階を含む。

例示的実施形態によれば、処理機能をもつ装置上で実行されたときに第二の側面のいずれかの方法を実行するよう適応されているコンピュータ・コード命令を有するコンピュータ可読媒体が提供される。

例示的実施形態によれば、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードするエンコーダが提供される。本エンコーダは：ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を決定し、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を決定するよう構成されたダウンミックス段と、前記複数のダウンミックス信号および前記サイド情報を含むビットストリームを形成するよう構成された符号化段とを有しており、前記ビットストリームはさらに、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを含む。

〈ＩＩＩ．例示的実施形態〉
上記のように、ダイアログ向上は、他のオーディオ成分に対するダイアログ・レベルの増大に関する。コンテンツ生成から適正に編成されると、オブジェクト・コンテンツは、ダイアログが別個のオブジェクトによって表現できるので、ダイアログ向上のために好適である。オブジェクト（すなわち、オブジェクト・クラスターまたはダウンミックス信号）のパラメトリック符号化は、ダイアログと他のオブジェクトとの間の混合を導入することがある。

そのようなオブジェクト・クラスターに混合されたダイアログを向上させるためのデコーダについて、ここで図１〜図３との関連で述べる。図１は、例示的実施形態に基づく、オーディオ・システムにおいてダイアログを向上させるための高品質デコーダ１００の一般化されたブロック図である。デコーダ１００は受領段１０４においてビットストリーム１０２を受領する。受領段１０４は、コア・デコーダとみなされてもよく、ビットストリーム１０２をデコードして、ビットストリーム１０２のデコードされたコンテンツを出力する。ビットストリーム１０２はたとえば、複数のダウンミックス信号１１０またはダウンミックス・クラスターを含んでいてもよい。ダウンミックス・クラスターは、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトのダウンミックスである。こうして、受領段は、典型的には、ビットストリーム１０２の諸部分をデコードしてダウンミックス信号１１０を形成するよう適応されていてもよいダウンミックス・デコーダ・コンポーネントを有する。形成されるダウンミックス信号は、ドルビー・デジタル・プラスまたはMPEG規格、たとえばAAC、USACまたはMP3のようなデコーダの音デコード・システムと互換であるようにされる。ビットストリーム１０２はさらに、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報１０８を含んでいてもよい。効率的なダイアログ向上のために、ビットストリーム１０２はさらに、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータ１０８を含んでいてもよい。このデータ１０８は、サイド情報１０８に組み込まれていてもよいし、あるいはサイド情報１０８とは別個であってもよい。下記で詳細に論じるように、サイド情報１０８は典型的には、ドライ・アップミックス行列Cに変換できるドライ・アップミックス係数と、ウェット・アップミックス行列Pに変換できるウェット・アップミックス係数とを含む。

デコーダ１００はさらに、向上パラメータ１４０および前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データ１０８を使ってサイド情報１０８において示される前記係数を修正するよう構成された修正段１１２を有する。向上パラメータ１４０は、いかなる好適な仕方で修正段１１２において受領されてもよい。諸実施形態によれば、修正段１１２はドライ・アップミックス行列Cおよびウェット・アップミックス行列Pの両方、少なくとも前記ダイアログに対応する係数、を修正する。

修正段１１２はこのように、所望されるダイアログ向上を、ダイアログ・オブジェクト（単数または複数）に対応する係数に適用する。ある実施形態によれば、向上パラメータ１４０を使って係数を修正する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトの再構成を可能にする係数に、向上パラメータ１４０を乗算することを含む。換言すれば、修正は、ダイアログ・オブジェクトに対応する係数の固定した増幅を含む。

いくつかの実施形態では、デコーダ１００はさらに、プレ脱相関器段１１４および脱相関器段１１６を有する。これら二つの段１１４、１１６は一緒になって、ダウンミックス信号１１０の組み合わせの脱相関されたバージョンを形成する。これはのちに前記複数のダウンミックス信号１１０からの前記複数のオーディオ・オブジェクトの再構成（たとえばアップミックス）のために使われることになる。図１で見て取れるように、サイド情報１０８は、修正段１１２における係数の修正前に、プレ脱相関器段１１４に入力されてもよい。諸実施形態によれば、サイド情報１０８において示される係数は、修正されたドライ・アップミックス行列１２０、修正されたウェット・アップミックス行列１４２および図１で参照符号１４４で表わされるプレ脱相関器行列Qに変換される。修正されたウェット・アップミックス行列は、後述するように、再構成段１２４において脱相関器信号１２２をアップミックスするために使われる。

プレ脱相関器行列Qは、プレ脱相関器段１１４において使われ、諸実施形態によれば、
Q＝(absP)^TC
によって計算されてもよい。ここで、absPは、未修正のウェット・アップミックス行列Pの要素の絶対値を取ることによって得られる行列を表わし、Cは未修正のドライ・アップミックス行列を表わす。

ドライ・アップミックス行列Cおよびウェット・アップミックス行列Pに基づいてプレ脱相関係数Qを計算する代替的な仕方が構想されている。たとえば、Q＝(absP₀)^TCとして計算されてもよい。ここで、行列P₀は、Pの各列を規格化することによって得られる。

プレ脱相関器行列Qを計算することは、比較的複雑さの低い計算に関わるのみであり、よってデコーダ側で便利に用いることができる。しかしながら、いくつかの実施形態によれば、プレ脱相関器行列Qはサイド情報１０８に含められる。

換言すれば、デコーダは、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクト１２６の再構成を可能にする係数を、サイド情報から計算するよう構成されていてもよい。このようにして、プレ脱相関器行列は、修正段において係数に対してなされるいかなる修正にも影響されない。プレ脱相関器行列が修正されればプレ脱相関器段１１４および脱相関器段１１６における脱相関プロセスが、望まれないかもしれないさらなるダイアログ向上を導入することがあるので、これは有利でありうる。他の実施形態によれば、サイド情報は、修正段１１２における係数の修正後に、プレ脱相関器段１１４に入力される。デコーダ１００は高品質デコーダなので、前記複数のオーディオ・オブジェクトのすべてを再構成するよう構成されていてもよい。これは、再構成段１２４においてなされる。デコーダ１００の再構成段１２４は、ダウンミックス信号１１０と、脱相関された信号１２２と、前記複数のダウンミックス信号１１０からの前記複数のオーディオ・オブジェクトの再構成を可能にする修正された係数１２０、１４２とを受領する。こうして、再構成段は、オーディオ・オブジェクトをオーディオ・システムの出力構成、たとえば7.1.4チャネル出力にレンダリングするのに先立って、パラメトリックにオーディオ・オブジェクトを再構成できる。しかしながら、典型的には、これは多くの場合には行なわれない。再構成段１２４におけるオーディオ・オブジェクト再構成およびレンダリング段１２８におけるレンダリングは行列演算であり、これらは計算効率のよい実装のために組み合わせることができるからである（破線１３４で表わす）。三次元空間内の正しい位置においてオーディオ・オブジェクトをレンダリングするために、ビットストリーム１０２はさらに、前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報をもつデータ１０６を有する。

いくつかの実施形態によれば、デコーダ１００は再構成されたオブジェクトを、デコーダ外部で処理され、レンダリングされることができるよう、出力として提供するよう構成される。この実施形態によれば、デコーダ１００は結果として、再構成されたオーディオ・オブジェクト１２６を出力し、レンダリング段１２８は含まない。

オーディオ・オブジェクトの再構成は典型的には周波数領域、たとえば直交ミラー・フィルター（QMF）領域で実行される。しかしながら、オーディオは時間領域で出力される必要があることがある。この理由で、デコーダはさらに、レンダリングされた信号１３０がたとえば逆直交ミラー・フィルター（IQMF）バンクを適用することによって時間領域に変換される変換段１３２を有する。いくつかの実施形態によれば、変換段１３２における時間領域への変換は、レンダリング段１２８における信号のレンダリングに先立って実行されてもよい。

まとめると、図１との関連で述べたデコーダ実装は、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を、オーディオ・オブジェクトの再構成に先立って、修正することによって、ダイアログ向上を効率的に実装する。係数に対して向上を実行することは、フレーム当たり数回の乗算のコストがかかる。ダイアログに関係する各係数について一回、かける周波数帯域の数である。典型的な場合においてたいていの場合には、乗算の数はダウンミックス・チャネルの数（たとえば5〜7）かけるパラメータ帯域の数（たとえば20〜40）に等しいが、ダイアログが脱相関寄与も受けるならより多いこともできる。これに対し、再構成されたオブジェクトに対してダイアログ向上を実行するという従来技術の解決策は、サンプル毎、かける周波数帯域の数、かける複素信号のために2の乗算につながる。これは典型的にはフレーム当たり16*64*2＝2048乗算に、しばしばそれ以上になる。

オーディオ・エンコード／デコード・システムは典型的には、時間‐周波数空間を、たとえば好適なフィルタバンクを入力オーディオ信号に適用することによって、時間／周波数タイルに分割する。時間／周波数タイルとは、一般に、ある時間区間およびある周波数帯域に対応する時間‐周波数空間の部分を意味する。時間区間は典型的には、オーディオ・エンコード／デコード・システムにおいて使われる時間フレームの継続時間に対応してもよい。周波数帯域は、エンコードまたはデコードされるオーディオ信号／オブジェクトの周波数範囲全体の全周波数範囲の一部である。周波数帯域は、典型的には、エンコード／デコード・システムにおいて使われるフィルタバンクによって定義される一つまたはいくつかの近隣の周波数帯域に対応してもよい。周波数帯域がフィルタバンクによって定義されるいくつかの近隣の周波数帯域に対応する場合、これは、オーディオ信号のデコード・プロセスにおいて非一様な周波数帯域をもつことを許容する。たとえば、オーディオ信号のより高い周波数についてはより広い周波数帯域とする。

代替的な出力モードでは、デコーダの複雑さを節約するために、ダウンミックスされたオブジェクトは再構成されない。ダウンミックス信号はこの実施形態においては、出力構成、たとえば5.1構成に直接レンダリングされるべき信号と考えられる。これは、常時オーディオ出力（AAO）動作としても知られる。図２および図３は、この低計算量の実施形態についてもダイアログの向上を許容するデコーダ２００、３００を記述する。

図２は、第一の諸例示的実施形態に基づくオーディオ・システムにおけるダイアログを向上させるための低計算量デコーダ２００を記述している。デコーダ１００は、受領段１０４またはコア・デコーダにおいてビットストリーム１０２を受領する。受領段１０４は図１との関連で述べたように構成されていてもよい。結果として、受領段はサイド情報１０８およびダウンミックス信号１１０を出力する。サイド情報１０８によって示される係数は向上パラメータ１４０によって修正される。これは修正段１１２によって上記したとおりであるが、ダイアログがダウンミックス信号１１０においてすでに存在しており、その結果、向上パラメータは、後述するように、サイド情報１０８の修正のために使われる前にスケールダウンされる必要があることがあるという違いを考慮に入れる必要がある。さらなる相違点は、低計算量デコーダ２００においては脱相関が使われないので（後述）修正段１１２はサイド情報１０８内のドライ・アップミックス係数を修正するだけであり、その結果、サイド情報１０８にウェット・アップミックス係数が存在していたとしても無視するということでありうる。いくつかの実施形態では、訂正は、脱相関寄与の省略によって引き起こされるダイアログ・オブジェクトの予測におけるエネルギー損失を考慮に入れてもよい。修正段１１２による修正は、ダイアログ・オブジェクトが、ダウンミックス信号と組み合わされたときに結果として向上されたダイアログを生じる向上信号として再構成されることを保証する。修正された係数２１８およびダウンミックス信号は再構成段２０４に入力される。再構成段では、ダイアログを表わす前記少なくとも一つのオブジェクトのみが、修正された係数２１８を使って再構成されてもよい。デコーダ２００のデコード複雑さをさらに低減するために、再構成段２０４におけるダイアログを表わす前記少なくとも一つのオブジェクトの再構成は、ダウンミックス信号１１０の脱相関に関わらない。こうして、再構成段２０４はダイアログ向上信号（単数または複数）２０６を生成する。多くの実施形態において、再構成段２０４は再構成段１２４の一部分であり、該一部分は、ダイアログを表わす前記少なくとも一つのオブジェクトの再構成に関係している部分である。

引き続きサポートされる出力構成、すなわちダウンミックス信号１１０がサポートするようダウンミックスされた出力構成（たとえば5.1または7.1構成）に従って信号を出力するために、ダイアログ向上された信号２０６は、再びダウンミックス信号１１０にダウンミックスされる、あるいはダウンミックス信号１１０と組み合わされる必要がある。この理由で、デコーダは、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を使って、ダイアログ向上オブジェクトを、ダウンミックス信号１１０においてダイアログ・オブジェクトがどのように表現されているかに対応する表現２１０に戻すよう混合する適応的混合段２０８を有する。この表現は、次いでダウンミックス信号１１０と組み合わされて、結果として得られる組み合わされた信号２１４が向上されたダイアログを含むようにされる。

複数のダウンミックス信号におけるダイアログを向上させるための上記の概念的な諸段階は、前記複数のダウンミックス信号１１０の一つの時間‐周波数タイルを表わす行列Dに対する単一の行列演算によって実装されてもよい。

D_b＝D＋MD 式1
ここで、D_bは、ブーストされたダイアログ部分を含む修正されたダウンミックス２１４である。修正行列Mは
M＝GC 式2
によって得られる。ここで、Gはダウンミックス利得の[ダウンミックス・チャネル数,ダイアログ・オブジェクト数]行列、すなわち、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号１１０の現在デコードされている時間‐周波数タイルD中に混合されたかを記述する情報２０２である。Cは修正された係数２１８の[ダイアログ・オブジェクト数,ダウンミックス・チャネル数]行列である。

複数のダウンミックス信号におけるダイアログを向上させるための代替的な実装は、各要素が前記複数のダウンミックス信号１１０の単一の時間‐周波数サンプルを表わす列ベクトルX[ダウンミックス・チャネル数]に対する行列演算によって実装されてもよい。

X_b＝EX 式3
ここで、X_bは向上されたダイアログ部分を含む修正されたダウンミックス２１４である。修正行列Eは
E＝I＋GC 式4
によって得られる。ここで、Iは[ダウンミックス・チャネル数,ダイアログ・オブジェクト数]の恒等行列、Gはダウンミックス利得の[ダウンミックス・チャネル数,ダイアログ・オブジェクト数]行列、すなわちダイアログを表わす前記少なくとも一つのオブジェクトがどのように現在デコードされている複数のダウンミックス信号１１０中に混合されたかを記述する情報２０２であり、Cは修正された係数２１８の[ダイアログ・オブジェクト数,ダウンミックス・チャネル数]行列である。

行列Eはフレーム中の各周波数帯域および時間サンプルについて計算される。典型的には、行列Eのためのデータはフレーム当たり一度伝送され、行列は時間‐周波数タイルにおける各時間サンプルについて、前のフレームにおける対応する行列との補間によって計算される。

いくつかの実施形態によれば、情報２０２はビットストリーム１０２の一部であり、ダイアログ・オブジェクトをダウンミックス信号にダウンミックスするためのオーディオ・システムにおけるエンコーダによって使われたダウンミックス係数を含む。

いくつかの実施形態では、ダウンミックス信号はスピーカー構成のチャネルに対応しない。そのような実施形態では、ダウンミックス信号を、再生のために使われる構成のスピーカーに一致する位置にレンダリングすることが有益である。これらの実施形態については、ビットストリーム１０２は前記複数のダウンミックス信号１１０についての位置データを担持してもよい。

そのような受領された情報２０２に対応するビットストリームの例示的なシンタックスについてこれから述べる。ダイアログ・オブジェクトは二つ以上のダウンミックス信号に混合されてもよい。こうして、各ダウンミックス・チャネルについてのダウンミックス係数は、下記の表に従ってビットストリーム中に符号化されてもよい。

7つ中5番目のダウンミックス信号がダイアログ・オブジェクトを含むだけであるようダウンミックスされるオーディオ・オブジェクトについてのダウンミックス係数を表わすビットストリームは、0000111100のようになる。対応して、5番目のダウンミックス信号中に1/15、7番目のダウンミックス信号中に14/15がダウンミックスされているオーディオ・オブジェクトについてのダウンミックス係数を表わすビットストリームは000010000011101のようになる。

このシンタックスでは、値0が最も頻繁に伝送される。ダイアログ・オブジェクトは典型的にはすべてのダウンミックス信号中にあるのではなく、たいていはただ一つのダウンミックス信号にあるからである。よって、これらのダウンミックス係数は有利には、上記の表において定義されたエントロピー符号化によって符号化されうる。0でない係数に対して1ビット多く費やし、0の値について1のみとすることによって、平均的な語長はたいていの場合について5ビット未満になる。たとえば、ダイアログ・オブジェクトが7つのダウンミックス信号中の一つに存在するときは、平均して、係数当たり1/7*(1［ビット］*6［係数］＋5［ビット］*1［係数］)＝1.57ビットである。すべての係数を4ビットを用いてすなおに符号化すると、コストは係数当たり1/7*(4［ビット］*7［係数］)＝4ビットとなる。ダイアログ・オブジェクトが（7つのダウンミックス信号のうち）6つまたは7つのダイアログ信号にある場合にのみ、すなおな符号化より高価になる。上記のようなエントロピー符号化は、ダウンミックス係数を伝送するための必要とされるビットレートを低減する。

あるいはまた、ダウンミックス係数を伝送するためにハフマン符号化が使われることができる。

他の実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報２０２はデコーダによって受領されず、その代わりにデコーダ２００の受領段１０４または別の適切な段において計算される。これは、デコーダ２００によって受領されるビットストリーム１０２を伝送するための必要とされるビットレートを低減する。この計算は、前記複数のダウンミックス信号１１０およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報をもつデータに基づくことができる。そのようなデータは、典型的にはオーディオ・システムにおけるエンコーダによってビットストリーム１０２に含められるので、典型的にはデコーダ２００によってすでに知られている。計算は、ダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置を前記複数のダウンミックス信号１１０についての空間位置にマッピングする関数を適用することを含む。アルゴリズムは、3Dパン・アルゴリズム、たとえばベクトル・ベースの振幅パン（VBAP）アルゴリズムであってもよい。VBAPは、複数の物理的音源、たとえばラウドスピーカーのセットアップ、すなわちスピーカー出力構成を使って、仮想音源、たとえばダイアログ・オブジェクトを、任意の方向に位置決めする方法である。したがって、そのようなアルゴリズムは、ダウンミックス信号の位置をスピーカー位置として使うことによって、ダウンミックス係数を計算するために再利用できる。

上記の式1および2の記法を使うと、GはrendCoef＝R(spkPos,sourcePos)とすることによって計算される。ここで、Rは、spkPosに位置するnbrSpeakers個のダウンミックス・チャネルにレンダリングされるsourcePos（たとえばデカルト座標）に位置するダイアログ・オブジェクトについてレンダリング係数ベクトルrendCoef[nbrSpeakers×1]を提供するための3Dパン・アルゴリズム（たとえばVBAP）である（各行がダウンミックス信号の座標に対応する行列）。すると、Gは
G＝[rendCoef₁,rendCoef₂,…,rendCoef_n] 式5
によって得られる。ここで、rendCoef_iは、n個のダイアログ・オブジェクトのうちダイアログ・オブジェクトiについてのレンダリング係数である。

オーディオ・オブジェクトの再構成は典型的には、図１との関連で上記したようにQMF領域で実行され、音は時間領域で出力される必要があることがあるので、デコーダ２００はさらに、組み合わされた信号２１４がたとえば逆QMFを適用することによって時間領域の信号２１６に変換される変換段１３２を有する。

諸実施形態によれば、デコーダ２００はさらに、変換段１３２の上流または変換段１３２の下流にレンダリング段（図示せず）を有していてもよい。上記で論じたように、ダウンミックス信号はいくつかの場合には、スピーカー構成のチャネルに対応しない。そのような実施形態では、ダウンミックス信号を、再生のために使われる構成のスピーカーと対応する位置にレンダリングすることが有益である。これらの実施形態について、ビットストリーム１０２は、前記複数のダウンミックス信号１１０についての位置データを担持してもよい。

オーディオ・システムにおいてダイアログを向上させるための低計算量デコーダの代替的な実施形態が図３に示されている。図３に示したデコーダ３００と上記のデコーダ２００との間の主要な相違は、再構成されたダイアログ向上オブジェクト２０６が、再構成段２０４後にダウンミックス信号１１０と再び組み合わされないということである。その代わり、再構成された少なくとも一つのダイアログ向上オブジェクト２０６は、少なくとも一つの別個の信号として、ダウンミックス信号１１０とマージされる。上記のように典型的にはデコーダ３００によってすでに知られている前記少なくとも一つのダイアログ・オブジェクトについての空間的情報は、前記複数のダウンミックス信号についての空間位置情報３０４に基づくダウンミックス信号のレンダリングと一緒に追加的な信号２０６をレンダリングするために、前記追加的な信号２０６が上記のような変換段によって時間領域に変換された後または前に使われる。

図２〜図３との関連で述べたデコーダ２００、３００の実施形態両方について、ダイアログがダウンミックス信号１１０にすでに存在していること、向上された再構成されたダイアログ・オブジェクト２０６が、図２との関連で述べたようにダウンミックス信号１１０と組み合わされるのでも、あるいは図３との関連で述べたようにダウンミックス信号１１０とマージされるのでも、これに加わることを考慮に入れる必要がある。結果として、向上パラメータの絶対値が、ダウンミックス信号中の既存ダイアログが絶対値1をもつことに基づいて計算される場合、向上パラメータはg_DEは、たとえば1を引かれる必要がある。

図４は、例示的実施形態に基づく、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードする方法４００を記述している。図４に示される方法４００の段階の順序は例として示されていることを注意しておくべきである。

方法４００の第一段階は、前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報を決定する任意的な段階S401である。典型的には、オブジェクト・オーディオには、各オブジェクトがどこにレンダリングされるべきかの記述が伴う。これは典型的には、座標（たとえばデカルト座標、極座標など）を用いてなされる。

本方法の第二段階は、ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を決定する段階S402である。これは、ダウンミックス段階とも称されうる。

たとえば、各ダウンミックス信号は前記複数のオーディオ・オブジェクトの線形結合であってもよい。他の実施形態では、ダウンミックス信号における各周波数帯域が前記複数のオーディオ・オブジェクトの異なる組み合わせを含みうる。よって、この方法を実装するオーディオ・エンコード・システムは、オーディオ・オブジェクトからダウンミックス信号を決定し、エンコードするダウンミックス・コンポーネントを有する。エンコードされたダウンミックス信号はたとえば5.1または7.1サラウンド信号であってもよく、これはドルビー・デジタル・プラスまたはMPEG規格、たとえばAAC、USACまたはMP3のような確立された音デコード・システムと後方互換である。これによりAAOが達成される。

複数のダウンミックス信号を決定する段階S402は任意的に、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する情報を決定することS404を含んでいてもよい。多くの実施形態において、ダウンミックス係数はダウンミックス演算における処理から帰結する。いくつかの実施形態では、これは、最小平均二乗誤差（MMSE: minimum mean square error）アルゴリズムを使ってダイアログ・オブジェクト（単数または複数）をダウンミックス信号と比較することによってなされてもよい。

オーディオ・オブジェクトをダウンミックスする多くの方法がある。たとえば、空間的に互いに近いオブジェクトをダウンミックスするアルゴリズムが使われてもよい。このアルゴリズムによれば、空間内のどの位置にオブジェクトの集中があるかが判別される。これらの位置が次いで、ダウンミックス信号位置のための重心として使われる。これはほんの一例である。他の例は、ダウンミックスするときに、可能であれば、ダイアログ・オブジェクトを他のオーディオ・オブジェクトから別個に保つことを含む。ダイアログ分離を改善するとともに、デコーダ側でのダイアログ向上をさらに単純化するためである。

方法４００の第四段階は、前記複数のダウンミックス信号についての空間位置に対応する空間的情報を決定する任意的な段階S406である。前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報を決定する前記任意的な段階S401が省略された場合には、段階S406はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報を決定することを含む。

空間的情報は、典型的には、上記のように前記複数のダウンミックス信号を決定するS402ときに知られている。

本方法における次の段階は、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を決定する段階S408である。これらの係数は、アップミックス・パラメータと称されてもよい。アップミックス・パラメータはたとえば、ダウンミックス信号およびオーディオ・オブジェクトから、たとえばMMSE最適化によって決定されてもよい。アップミックス・パラメータは典型的には、ドライ・アップミックス係数およびウェット・アップミックス係数を含む。ドライ・アップミックス係数は、エンコードされるべきオーディオ信号を近似するダウンミックス信号の線形マッピングを定義する。よって、ドライ・アップミックス係数は、ダウンミックス信号を入力として取り、エンコードされるべきオーディオ信号を近似する一組のオーディオ信号を出力する線形変換の定量的属性を定義する係数である。決定された一組のドライ・アップミックス係数はたとえば、オーディオ信号の最小平均二乗誤差近似に対応するダウンミックス信号の線形マッピングを定義してもよい。すなわち、ダウンミックス信号の前記一組の線形マッピングの間で、決定された一組のドライ・アップミックス係数は、最小平均二乗の意味でオーディオ信号を最もよく近似する線形マッピングを定義してもよい。

ウェット・アップミックス係数はたとえば、受領されたオーディオ信号の共分散と、ダウンミックス信号の線形マッピングによって近似されるオーディオ信号の共分散との間の差に基づいて、あるいはそれらを比較することによって、決定されてもよい。

換言すれば、アップミックス・パラメータは、ダウンミックス信号からのオーディオ・オブジェクトの再構成を許容するアップミックス行列の要素に対応しうる。アップミックス・パラメータは典型的には、ダウンミックス信号およびオーディオ・オブジェクトに基づいて、個々の時間／周波数タイルに関して計算される。このように、アップミックス・パラメータは各時間／周波数タイルについて決定される。たとえば、アップミックス行列（ドライ・アップミックス係数およびウェット・アップミックス係数を含む）は、各時間／周波数タイルについて決定されてもよい。

図４に示される、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードする方法の第六段階は、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを決定する段階S410である。典型的には、前記複数のオーディオ・オブジェクトには、どのオブジェクトがダイアログを含むかを示すメタデータが伴っていてもよい。あるいはまた、当技術分野において既知の発話検出器が使われてもよい。

記載される方法の最終段階は、ダウンミックス段階S402によって決定された前記複数のダウンミックス信号と、再構成のための係数が決定される段階S408によって決定された前記サイド情報と、段階S410との関連で上記したように、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データとを含むビットストリームを形成する段階S412を含む。このビットストリームは、上記の任意的な段階S401、S404、S406、S408によって出力または決定されたデータをも含んでいてもよい。

図５では、エンコーダ５００のブロック図が例として示されている。エンコーダは、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードし、最終的に、ビットストリーム５２０を送出するよう構成されている。ビットストリーム５２０は、上記で図１〜図３との関連で述べたデコーダ１００、２００、３００のうちのいずれかによって受領されてもよい。

本デコーダは、ダウンミックス・コンポーネント５０４と再構成パラメータ計算コンポーネント５０６とを有するダウンミックス段５０３を有する。ダウンミックス・コンポーネントは、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクト５０２を受領し、前記複数のオーディオ・オブジェクト５０２のダウンミックスである複数のダウンミックス信号５０７を決定する。ダウンミックス信号はたとえば5.1または7.1であってもよい。上記のように、前記複数のオーディオ・オブジェクト５０２は実際には複数のオブジェクト・クラスター５０２であってもよい。つまり、ダウンミックス・コンポーネント５０４の上流に、より多数の複数のオーディオ・オブジェクトから複数のオブジェクト・クラスターを決定するクラスタリング・コンポーネント（図示せず）が存在していてもよい。

ダウンミックス・コンポーネント５０４はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する情報５０５を決定してもよい。

前記複数のダウンミックス信号５０７および前記複数のオーディオ・オブジェクト（またはオブジェクト・クラスター）は、再構成パラメータ計算コンポーネント５０６によって受領される。再構成パラメータ計算コンポーネント５０６はたとえば、最小平均二乗誤差（MMSE）最適化を使って、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報５０９を決定する。上記のように、サイド情報５０９は典型的には、ドライ・アップミックス係数およびウェット・アップミックス係数を含む。

例示的エンコーダ５００は、さらに、ドルビー・デジタル・プラスまたはMPEG規格、たとえばAAC、USACまたはMP3のような確立された音デコード・システムと後方互換であるようにダウンミックス信号５０７をエンコードするよう適応されていてもよいダウンミックス・エンコーダ・コンポーネント５０８を有していてもよい。

エンコーダ５００はさらに、少なくとも前記エンコードされたダウンミックス信号５１０と、前記サイド情報５０９と、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータ５１６とをビットストリーム中に組み合わせるマルチプレクサ５１８を有する。ビットストリーム５２０は、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する情報５０５をも含んでいてもよい。この情報はエントロピー符号化によって符号化されてもよい。さらに、ビットストリーム５２０は、前記複数のダウンミックス信号と、ダイアログを表わす前記少なくとも一つのオブジェクトとについての空間位置に対応する空間的情報５１４をも含んでいてもよい。さらに、ビットストリーム５２０は、ビットストリーム中の前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報５１２を含んでいてもよい。

まとめると、本開示はオーディオ符号化の分野に属し、特に、オーディオ情報が少なくとも一つのダイアログ・オブジェクトを含む複数のオーディオ・オブジェクトによって表現される場合の空間的オーディオ符号化の分野に関する。特に、本開示は、オーディオ・システムにおけるデコーダにおいてダイアログを向上させるための方法および装置を提供する。さらに、本開示は、オーディオ・システムにおけるデコーダによってダイアログが向上させられることを許容するためのそのようなオーディオ・オブジェクトのエンコードのための方法および装置を提供する。

〈等価物、拡張、代替その他〉
上記の記述を吟味すれば、当業者には本開示のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、本開示はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本開示の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。

さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する当業者によって、開示される実施形態に対する変形が理解され、実施されることができる。請求項において、「有する／含む」の語は他の要素またはステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項に記載されているというだけの事実がこれらの施策の組み合わせが有利に使用できないことを示すものではない。

上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。逆に、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体（または非一時的な媒体）および通信媒体（または一時的な媒体）を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク（DVD）または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。

Claims

オーディオ・システムにおけるデコーダにおいてダイアログを向上させる方法であって：
複数のダウンミックス信号を受領する段階であって、前記ダウンミックス信号はダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトのダウンミックスである、段階と、
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を受領する段階と、
前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを受領する段階と、
向上パラメータおよび前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを使って前記係数を修正する段階と、
修正された係数を使ってダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階とを含む、
方法。
前記向上パラメータを使って前記係数を修正する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトの再構成を可能にする係数に、前記向上パラメータを乗算することを含む、請求項１記載の方法。
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を、前記サイド情報から計算することを含む、請求項１または２記載の方法。
ダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトのみを再構成することを含む、請求項１ないし３のうちいずれか一項記載の方法。
ダイアログを表わす前記少なくとも一つのオブジェクトのみの再構成は、前記ダウンミックス信号の脱相関を含まない、請求項４記載の方法。
ダイアログを表わす再構成された前記少なくとも一つのオブジェクトを前記ダウンミックス信号と、少なくとも一つの別個の信号としてマージする段階をさらに含む、請求項４または５記載の方法。
前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報をもつデータを受領する段階と、
前記複数のダウンミックス信号およびダイアログを表わす再構成された前記少なくとも一つのオブジェクトを、前記空間的情報をもつデータに基づいてレンダリングする段階とを含む、
請求項６記載の方法。
前記ダウンミックス信号およびダイアログを表わす再構成された前記少なくとも一つのオブジェクトを、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を使って、組み合わせる段階をさらに含む、
請求項４または５記載の方法。
前記ダウンミックス信号とダイアログを表わす再構成された前記少なくとも一つのオブジェクトとの組み合わせをレンダリングする段階をさらに含む、請求項８記載の方法。
ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を受領する段階をさらに含む、
請求項８または９記載の方法。
ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されたかを記述する受領された前記情報は、エントロピー符号化によって符号化されている、請求項１０記載の方法。
前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報をもつデータを受領する段階と、
ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する前記情報を、前記空間的情報をもつデータに基づいて計算する段階とをさらに含む、
請求項８または９記載の方法。
前記計算する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置を、前記複数のダウンミックス信号についての空間位置にマッピングする関数を適用することを含む、請求項１２記載の方法。
前記関数が3Dパン・アルゴリズムである、請求項１３記載の方法。
ダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階は、前記複数のオーディオ・オブジェクトを再構成することを含む、請求項１記載の方法。
前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報をもつデータを受領する段階と、
前記空間的情報をもつデータに基づいて、再構成された前記複数のオーディオ・オブジェクトをレンダリングする段階とをさらに含む、
請求項１５記載の方法。
請求項１ないし１６のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
オーディオ・システムにおいてダイアログを向上させるデコーダであって：
ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を受領し、
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を受領し、
前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを受領するよう構成された受領段と；
向上パラメータおよび前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを使って前記係数を修正するよう構成された修正段と；
修正された係数を使ってダイアログを表わす前記少なくとも一つのオブジェクトを再構成するよう構成された再構成段とを有する、
デコーダ。
ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードする方法であって：
ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を決定する段階と、
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を決定する段階と、
前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを決定する段階と、
前記複数のダウンミックス信号、前記サイド情報および前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを含むビットストリームを形成する段階とを含む、
方法。
前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報を決定する段階と、
前記空間的情報を前記ビットストリームに含める段階とをさらに含む、
請求項１９記載の方法。
前記複数のダウンミックス信号を決定する段階はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する情報を決定することを含み、
当該方法はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する前記情報を、前記ビットストリームに含める段階を含む、
請求項１９または２０記載の方法。
ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する決定された前記情報が、エントロピー符号化を使ってエンコードされる、請求項２１記載の方法。
前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報を決定する段階と、
前記複数のオーディオ・オブジェクトについての空間位置に対応する前記空間的情報を前記ビットストリームに含める段階とをさらに含む、
請求項１９ないし２２のうちいずれか一項記載の方法。
請求項１９ないし２３のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードするエンコーダであって：
ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を決定し、
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を決定するよう構成されたダウンミックス段と、
前記複数のダウンミックス信号および前記サイド情報を含むビットストリームであって、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータをさらに含むビットストリームを形成するよう構成された符号化段とを有する、
エンコーダ。