JP7383685B2

JP7383685B2 - バイノーラル・ダイアログ向上

Info

Publication number: JP7383685B2
Application number: JP2021205176A
Authority: JP
Inventors: ジョナスサミュエルソン，レイフ; ジェローンブリーバート，ディルク; マシュークーパー，デイヴィッド; コッペンス，イェルーン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2016-01-29
Filing date: 2021-12-17
Publication date: 2023-11-20
Anticipated expiration: 2037-01-26
Also published as: JP2023166560A; CN112218229A; CN112218229B; US20220060838A1; JP2019508947A; US11641560B2; US20190037331A1; EP3409029A1; US10375496B2; US20200329326A1; WO2017132396A1; JP2022031955A; US10701502B2; JP7023848B2; US20190356997A1; CN108702582A; US11950078B2; CN108702582B; US20230345192A1; US11115768B2

Description

関連出願への相互参照
本願は2016年1月29日に出願された米国仮特許出願第62/288,590号および2016年1月29日に出願された欧州特許出願第16153468.0号の優先権を主張するものである。両出願の内容はここに参照によってその全体において組み込まれる。

発明の分野
本発明は、オーディオ信号処理の分野に関し、特に時に没入的オーディオ・コンテンツと称される立体音響化コンポーネントをもつオーディオ信号について、ダイアログ・コンポーネントの効率的な推定のための方法およびシステムを開示する。

本明細書を通じて背景技術のいかなる議論も、いかなる仕方でも、そのような技術が当分野において広く知られているまたは技術常識の一部をなすことの自認と考えられるべきではない。

オーディオのコンテンツ生成、符号化、頒布および再生は、伝統的にはチャネル・ベースのフォーマットで実行される。すなわち、コンテンツ・エコシステムを通じて一つの特定の目標再生システムが構想されている。そのような目標再生システム・オーディオ・フォーマットの例はモノ、ステレオ、5.1、7.1などであり、これらのフォーマットのことを、もとのコンテンツの異なる呈示（presentation）と称する。上記の呈示は典型的にはラウドスピーカーを通じて再生されるが、注目すべき例外はステレオ呈示であり、これはヘッドフォンを通じて直接再生されることも多い。

一つの具体的な呈示は、典型的にはヘッドフォンでの再生を目標にする、バイノーラル呈示である。バイノーラル呈示の特徴は、二チャネル信号であって、各信号がそれぞれ左および右の鼓膜でまたは鼓膜近くで知覚されるコンテンツを表わすという点である。バイノーラル呈示は、ラウドスピーカーを通じて直接再生されることができるが、好ましくは、バイノーラル呈示は、クロストーク打ち消し技法を使ってラウドスピーカーを通じた再生に好適な呈示に変換される。

種々の構成、たとえばステレオ、5.1、7.1におけるラウドスピーカーおよびヘッドフォンのような種々のオーディオ再生システムを上記で紹介した。上記の例から、もとのコンテンツの呈示は自然な、意図される、関連するオーディオ再生システムをもつが、もちろん、異なるオーディオ再生システムで再生されることもできることが理解される。

コンテンツが意図されたものとは異なる再生システムで再生される場合、ダウンミックス〔下方混合〕またはアップミックス〔上方混合〕・プロセスが適用されることができる。たとえば、5.1コンテンツは、特定のダウンミックスの式を用いることによって、ステレオ再生システムで再生できる。もう一つの例は7.1スピーカー・セットアップでのステレオ・エンコードされたコンテンツの再生であり、これはいわゆるアップミックス・プロセスを含むことがあり、アップミックス・プロセスはステレオ信号に存在している情報によって案内されるまたはされないことができる。アップミックスできる一つのシステムは、ドルビー・ラボラトリーズ社からのDolby Pro Logicである（Roger Dressler、"Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com）。

代替的なオーディオ・フォーマット・システムは、Dolby Atmosシステムによって提供されるようなオーディオ・オブジェクト・フォーマットである。この型のフォーマットでは、オブジェクトまたはコンポーネントが聴取者のまわりの特定の位置をもつものとして定義される。該位置は時間変化してもよい。このフォーマットのオーディオ・コンテンツは時に、没入的オーディオ・コンテンツ（immersive audio content）と称される。本願のコンテキストの範囲内では、オーディオ・オブジェクト・フォーマットは上記のような呈示とは考えられず、むしろ、エンコーダにおいて一つまたは複数の呈示にレンダリングされるもとのコンテンツのフォーマットと考えられることを注意しておく。レンダリング後に、該呈示はエンコードされ、デコーダに伝送される。

マルチチャネルおよびオブジェクト・ベースのコンテンツが上述したようなバイノーラル呈示に変換されるとき、特定の諸位置におけるラウドスピーカーおよびオブジェクトからなる音響シーンは、頭部インパルス応答（HRIR: head-related impulse response）または両耳室内インパルス応答（BRIR: binaural room impulse response）によってシミュレートされる。これらは、それぞれ無響のまたは残響のある（シミュレートされた）環境における各ラウドスピーカー／オブジェクトから鼓膜までの音響経路をシミュレートする。特に、オーディオ信号はHRIRまたはBRIRと畳み込みされて、両耳間レベル差（ILD）、両耳間時間差（ITD）およびスペクトル手がかりを復元することができ、これらが聴取者が個々の各ラウドスピーカー／オブジェクトの位置を判別することを許容する。音響環境（残響）のシミュレーションは、知覚される距離を達成する助けにもなる。図１は、コンテンツ記憶部１２から読まれる二つのオブジェクトまたはチャネル信号x_i １０、１１を、四つのHRIR、たとえば１４による処理のためにレンダリングするための処理フローの概略的な全体像を示している。HRIR出力はその後、それぞれのチャネル信号について加算１５、１６され、ヘッドフォン１８を介した聴取者への再生のためのヘッドフォン・スピーカー出力を生成する。HRIRの基本原理はたとえば、非特許文献１で説明されている。
Wightman, Frederic L., and Doris J. Kistler. "Sound localization." Human psychophysics. Springer New York, 1993. 155-192 HRIR/BRIR畳み込み手法にはいくつかの欠点が伴う。その一つは、ヘッドフォン再生のために必要とされるかなりの量の畳み込み処理である。HRIRまたはBRIR畳み込みは、すべての入力オブジェクトまたはチャネルについて別個に適用される必要があり、よって計算量は典型的にはチャネルまたはオブジェクトの数とともに線形に増大する。ヘッドフォンはしばしばバッテリー駆動のポータブル装置との関連で使われるので、高い計算量は、バッテリー寿命をかなり短くしうるので、望ましくない。さらに、たとえば同時にアクティブな100を超えるオブジェクトを含みうるオブジェクト・ベースのオーディオ・コンテンツの導入で、HRIR畳み込みの計算量は、伝統的なチャネル・ベースのコンテンツよりも実質的に高くなることがある。

この目的のため、2015年8月25日に出願された、同時係属中の未公開の米国仮特許出願第62/209,735号は、ヘッドフォンのための没入的オーディオを効率的に伝送およびデコードするために使用できる呈示変換のためのデュアルエンドの手法を記載している。すべてのオブジェクトのレンダリングをデコーダのみに頼るのではなく、レンダリング・プロセスをエンコーダとデコーダの間で分割することによって、符号化効率およびデコード計算量削減が達成される。

生成の際に特定の空間位置に関連付けられるコンテンツの一部は、オーディオ・コンポーネントと称される。空間位置は、空間内の点または分散された位置であることができる。オーディオ・コンポーネントは、サウンド・アーチストがサウンドトラック中にミキシングする、すなわち空間的に位置決めする個々のオーディオ源すべてと考えることができる。典型的には、内容的な意味（たとえばダイアログ）が関心対象のコンポーネントに割り当てられ、よって、処理（たとえばダイアログ向上）の目標が定義される。コンテンツ生成の間に生成されるオーディオ・コンポーネントは典型的には、もとのコンテンツから種々の呈示まで、処理チェーンを通じて存在していることを注意しておく。たとえば、オブジェクト・フォーマットでは、関連付けられた空間位置をもつダイアログ・オブジェクトがあることがある。ステレオ呈示では、水平面内に空間的に位置されたダイアログ・コンポーネントがあることがある。

いくつかの応用では、オーディオ信号中のダイアログ・コンポーネントを抽出することが望ましい。たとえばそのようなコンポーネントを強調または増幅するためである。ダイアログ向上（DE: dialogue enhancement）の目標は、コンテンツのうち、発話と背景オーディオの混合を含む発話部分を修正して、発話がエンドユーザーにとって、より聞き取りやすくなるおよび／またはより疲れにくくなるようにすることであってもよい。DEのもう一つの用途は、たとえばエンドユーザーによってわずらわしいと知覚されるダイアログを減衰させることである。DE方法には、エンコーダ側およびデコーダ側という二つの基本的なクラスがある。デコーダ側DE（シングルエンドと呼ばれる）は、向上されていないオーディオを再構成するデコードされたパラメータおよび信号のみに対して作用する。すなわち、ビットストリームにはDEのための専用のサイド情報は存在しない。エンコーダ側DE（デュアルエンドと呼ばれる）では、デコーダにおいてDEを行なうために使用できる専用のサイド情報がエンコーダにおいて計算されて、ビットストリームに挿入される。

図２は、通常のステレオ例におけるデュアルエンド・ダイアログ向上の例を示している。ここで、デコーダ２４においてデコードされた非向上ステレオ信号２３からダイアログ２２を抽出できるようにする専用パラメータ２１が、エンコーダ２０において計算される。抽出されたダイアログは（部分的にはエンドユーザーによって制御される量だけ）レベル修正、たとえばブースト２５され、非向上出力２３に加えられて、最終的な出力２６を形成する。専用パラメータ２１は、非向上オーディオ２７から盲目的に抽出されることができ、あるいはパラメータ計算において、別個に提供されるダイアログ信号２８を活用することができる。

もう一つの手法は特許文献１に記載されている。ここで、デコーダへのビットストリームは、オブジェクト・ダウンミックス信号（たとえばステレオ呈示）、オーディオ・オブジェクトの再構成を可能にするオブジェクト・パラメータおよび再構成されたオーディオ・オブジェクトの操作を許容するオブジェクト・ベースのメタデータを含んでいる。特許文献１の図１０に示されるように、操作は、発話に関係したオブジェクトの増幅を含んでいてもよい。このように、この手法は、デコーダ側におけるもとのオーディオ・オブジェクトの再構成を必要とするが、これは典型的には計算的に強い要求である。
米国特許第8,315,396号バイノーラル・コンテキストでも効率的にダイアログ推定を提供することが一般に望まれている。

バイノーラル・コンテキストにおいて、すなわち、ダイアログ・コンポーネント（単数または複数）が抽出されるもとになるオーディオ呈示または抽出されたダイアログが加えられるオーディオ呈示の少なくとも一方が（残響のあるまたは無響の）バイノーラル表現であるときに、効率的なダイアログ向上を提供することが本発明の目的である。

本発明の第一の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法が提供される。各コンポーネントは空間位置に関連付けられており、本方法は、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を提供し、第二のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第二のオーディオ信号呈示を提供し、第一のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し、ダイアログ推定パラメータの集合を第一のオーディオ信号呈示に適用し、ダイアログ・コンポーネントのダイアログ呈示を形成し、ダイアログ呈示を第二のオーディオ信号呈示と組み合わせて、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、第一および第二のオーディオ信号呈示の少なくとも一方はバイノーラル・オーディオ信号呈示である。

本発明の第二の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法が提供される。各コンポーネントは空間位置に関連付けられており、本方法は、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を受領し、第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合を受領し、第一のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し、呈示変換パラメータの集合を第一のオーディオ信号呈示に適用して、第二のオーディオ信号呈示を形成し、ダイアログ推定パラメータの集合を第一のオーディオ信号呈示に適用してダイアログ・コンポーネントのダイアログ呈示を形成し、ダイアログ呈示を第二のオーディオ信号呈示と組み合わせて、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、第一のオーディオ信号呈示および第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である。

本発明の第三の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法が提供される。各コンポーネントは空間位置に関連付けられており、本方法は、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を受領し、第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合を受領し、第二のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し、呈示変換パラメータの集合を第一のオーディオ信号呈示に適用して、第二のオーディオ信号呈示を形成し、ダイアログ推定パラメータの集合を第二のオーディオ信号呈示に適用してダイアログ・コンポーネントのダイアログ呈示を形成し、ダイアログ呈示を第二のオーディオ信号呈示と加算して、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、第一のオーディオ信号呈示および第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である。

本発明の第四の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダが提供される。各コンポーネントは空間位置に関連付けられており、本デコーダは、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、第一のオーディオ信号呈示からダイアログ・コンポーネントを推定できるようにするよう構成されたダイアログ推定パラメータの集合とを受領してデコードするコア・デコーダと、ダイアログ推定パラメータの集合を第一のオーディオ信号呈示に適用してダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と、ダイアログ呈示を第二のオーディオ信号呈示と組み合わせて、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する手段とを有し、第一および第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である。

本発明の第五の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダが提供される。各コンポーネントは空間位置に関連付けられており、本デコーダは、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合と、第一のオーディオ信号呈示からダイアログ・コンポーネントを推定できるようにするよう構成されたダイアログ推定パラメータの集合とを受領するコア・デコーダと、呈示変換パラメータの集合を第一のオーディオ信号呈示に適用して、第二のオーディオ再生システムでの再生のために意図された第二のオーディオ信号呈示を形成するよう構成された変換ユニットと、ダイアログ推定パラメータの集合を第一のオーディオ信号呈示に適用してダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と、ダイアログ呈示を第二のオーディオ信号呈示と組み合わせて、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する手段とを有し、第一のオーディオ信号呈示および第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である。

本発明の第六の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダが提供される。各コンポーネントは空間位置に関連付けられており、本デコーダは、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合と、第一のオーディオ信号呈示からダイアログ・コンポーネントを推定できるようにするよう構成されたダイアログ推定パラメータの集合とを受領するコア・デコーダと、呈示変換パラメータの集合を第一のオーディオ信号呈示に適用して、第二のオーディオ再生システムでの再生のために意図された第二のオーディオ信号呈示を形成するよう構成された変換ユニットと、ダイアログ推定パラメータの集合を第二のオーディオ信号呈示に適用してダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と、ダイアログ呈示を第二のオーディオ信号呈示と加算して、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する加算ブロックとを有し、第一のオーディオ信号呈示および第二のオーディオ信号呈示のうちの一つがバイノーラル・オーディオ信号呈示である。

本発明は、専用のパラメータ集合が、一つのオーディオ信号呈示からダイアログ呈示を抽出する効率的な仕方を提供しうるという洞察に基づいている。抽出されたダイアログ呈示はその後、別のオーディオ信号呈示と組み合わされてもよい。ここで、それらの呈示の少なくとも一方はバイノーラル呈示である。本発明によれば、ダイアログを向上させるためにもとのオーディオ・オブジェクトを再構成する必要がない。その代わりに、オーディオ・オブジェクトの呈示、たとえばバイノーラル呈示、ステレオ呈示などに対して直接、専用のパラメータが適用される。本発明概念は、それぞれ個別的な利点をもつ多様な個別的実施形態を可能にする。

ここでの「ダイアログ向上」という表現は、ダイアログ・コンポーネントを増幅またはブーストすることに制約されず、むしろ、選択されたダイアログ・コンポーネントの減衰にも関係しうることを注意しておく。よって、一般に、「ダイアログ向上」という表現は、オーディオ・コンテンツの一つまたは複数のダイアログに関係したコンポーネントのレベル修正を指す。レベル修正の利得因子Gは、ダイアログを減衰させるために0より小さくても、あるいはダイアログを強調するために0より大きくてもよい。

いくつかの実施形態では、第一および第二の呈示はいずれも（残響のあるまたは無響の）バイノーラル呈示である。一方のみがバイノーラルである場合、他方の呈示はステレオまたはサラウンド・オーディオ信号呈示であってもよい。

異なる呈示の場合、ダイアログ呈示が第二のオーディオ信号呈示に対応するよう、ダイアログ推定パラメータは呈示変換をも実行するよう構成されてもよい。

本発明は、有利には、いわゆるサイマルキャスト・システムの特定の型で実装されてもよく、エンコードされたビットストリームは、第一のオーディオ信号呈示を第二のオーディオ信号呈示に変換するのに好適な変換パラメータの集合をも含む。

本発明の実施形態について、これから単に例として、付属の図面を参照して記述する。
二つの音源またはオブジェクトについてのHRIR畳み込みプロセスの概略的な全体像を示す図である。各チャネルまたはオブジェクトは一対のHRIR／BRIRによって処理される。ステレオ・コンテキストにおけるダイアログ向上を概略的に示す図である。本発明に基づくダイアログ向上の原理を示す概略的なブロック図である。本発明のある実施形態に基づく、単一呈示ダイアログ向上の概略的なブロック図である。本発明のさらなる実施形態に基づく、二呈示ダイアログ向上の概略的なブロック図である。本発明のさらなる実施形態に基づく、図５におけるバイノーラル・ダイアログ推定器の概略的なブロック図である。本発明のある実施形態に基づく、ダイアログ向上を実装するサイマルキャスト・デコーダの概略的なブロック図である。本発明のもう一つの実施形態に基づく、ダイアログ向上を実装するサイマルキャスト・デコーダの概略的なブロック図である。ａ、ｂは、本発明のさらにもう一つの実施形態に基づく、ダイアログ向上を実装するサイマルキャスト・デコーダの概略的なブロック図である。本発明のさらにもう一つの実施形態に基づく、ダイアログ向上を実装するサイマルキャスト・デコーダの概略的なブロック図である。本発明のさらにもう一つの実施形態に基づく、ダイアログ向上を実装するサイマルキャスト・デコーダの概略的なブロック図である。本発明のさらにもう一つの実施形態を示す概略的なブロック図である。

下記で開示されるシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、下記の記述において「段」と称されるタスクの分割は必ずしも物理的なユニットへの分割に対応するものではない。逆に、一つの物理的コンポーネントが複数の機能を有してもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサもしくはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとして実装されてもよく、あるいは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体（または非一時的な媒体）および通信媒体（または一時的な媒体）を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータといった情報の記憶のための任意の方法または技術で実装された、揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク（DVD）または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは他の任意の媒体であって所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができるものを含む。さらに、当業者には、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことはよく知られている。

本発明の実施形態を実装するさまざまな仕方が、図３～図６を参照して論じられる。これらすべての実施形態は概括的には、一つまたは複数のオーディオ・コンポーネントをもつ入力オーディオ信号にダイアログ向上を適用するためのシステムおよび方法に関する。各コンポーネントは空間位置に関連付けられている。示される諸ブロックは典型的にはデコーダにおいて実装される。

呈示される実施形態では、入力信号は好ましくは、たとえばフィルタバンク、たとえば直交ミラー・フィルタ（QMF）、離散フーリエ変換（DFT）、離散コサイン変換（DCT）または入力信号を多様な周波数帯域に分割する他の任意の手段によって、時間／周波数タイルに分解される。そのような変換の結果は、インデックスiおよび離散時間インデックスnをもつ入力についての入力信号x_i[n]が時間スロット（またはフレーム）kおよびサブバンドbについてのサブバンド信号x_i[b,k]によって表わされる、ということである。たとえば、ステレオ呈示からのバイノーラル・ダイアログ呈示の推定を考える。x_j[b,k]、j＝1,2が左および右のステレオ・チャネルのサブバンド信号を表わし、＾付きのd_i[b,k]、i＝1,2が推定された左および右のバイノーラル・ダイアログ信号のサブバンド信号を表わすとする。ダイアログ推定は次のように計算されてもよい。

ここで、B_p、Kは所望される時間／周波数タイルに対応する周波数（b）および時間（k）インデックスの集合であり、pはパラメータ帯域インデックスであり、mは畳み込みタップ・インデックスであり、w_ijm ^Bp,Kは入力インデックスj、パラメータ帯域B_p、サンプル範囲もしくは時間スロットK、出力インデックスiおよび畳み込みタップ・インデックスmに属する行列係数である。上記の定式化を使うと、ダイアログは（ステレオ信号に関し；このステレオ信号の場合はJ＝2）パラメータwによってパラメータ表現される（parameterized）。集合Kにおける時間スロットの数は周波数とは独立であり、周波数に対しては定数であり、典型的には時間区間5～40msに対応するよう選ばれる。周波数インデックスの集合の数Pは典型的には1～25の間であり、各集合における周波数インデックスの数は典型的には、聴覚の特性を反映して、周波数が増すとともに増大する（低周波数のほうがパラメータ表現における周波数分解能が高い）。

ダイアログ・パラメータwは、エンコーダにおいて計算され、ここに参照によって組み込まれる2015年8月25日に出願された米国仮特許出願第62/209,735号に開示される技法を使ってエンコードされてもよい。これらのパラメータwは次いでビットストリームにおいて伝送され、デコーダによってデコードされ、その後、上記の式を使って適用される。推定の線形性のため、目標信号（きれいなダイアログまたはきれいなダイアログの推定）が利用可能である場合には、エンコーダ計算は、最小平均平方誤差（MMSE）方法を使って実装されることができる。

Pの選択およびKにおける時間スロット数の選択は品質とビットレートとの間のトレードオフになる。さらに、パラメータwは、（より低い品質を代償として）ビットレートを下げるために、たとえばi≠jのときにはw_ijm ^Bp,K＝0と想定し、これらのパラメータは単に伝送しないことによって、制約されることができる。Mの選択も品質／ビットレートのトレードオフである。ここに参照によって組み込まれる2015年8月25日に出願された米国特許出願第62/209,742号参照。信号のバイノーラル化はITD（位相差）を導入するので、パラメータwは一般に複素数値である。しかしながら、パラメータは、ビットレートを下げるために、実数値であると制約されることができる。さらに、人間が、1.5～2kHzのあたりの位相／絶対値カットオフ周波数というある周波数より上では左右の信号の間の位相差および時間差に敏感でないことはよく知られている。よって、その周波数より上では、バイノーラル処理は典型的には、左右のバイノーラル信号の間に位相差が導入されないようになされ、よってパラメータは品質の損失なしに実数値であることができる（非特許文献２参照）。上記の品質／ビットレート・トレードオフは、各時間／周波数タイルにおいて独立に行なうことができる。
Breebaart, J., Nater, F., Kohlrausch, A. (2010). Spectral and spatial parameter resolution requirements for parametric, filter-bank-based HRTF processing. J. Audio Eng. Soc., 58 No 3, p.126-140 一般に、次の形の推定器を使うことが提案される。

ここで、＾yおよびxの少なくとも一方がバイノーラル信号である。すなわち、I＝2またはJ＝2またはI＝J＝2である。記法の便宜のため、以下では、ダイアログを推定するために使われる種々のパラメータ集合に言及するときに、しばしば時間／周波数タイルのインデックスB_p、Kおよびi,j,mインデックスを省略する。

上記の推定器は、行列記法で便利に次のように表現できる（記法の簡単のため時間／周波数タイル・インデックスは省略）。

ここで、

はそれぞれx_j[b,k－m]および＾y_i[b,k]のベクトル化されたバージョンを列に含んでおり、W_mはJ行I列のパラメータ行列である。推定器の上記の形は、ダイアログ抽出だけを実行するときまたは呈示変換だけを実行するときならびに抽出および呈示変換の両方がパラメータの単一の集合を使ってなされるときに使用されうる。これについては下記の実施形態で詳述される。

図３を参照するに、第一のオーディオ信号呈示３１は、複数の空間化されたオーディオ・コンポーネントを含む没入型オーディオ信号からレンダリングされている。この第一のオーディオ信号呈示は、一つまたは複数の抽出されたダイアログ・コンポーネントの呈示３３を提供するために、ダイアログ推定器３２に提供される。ダイアログ推定器３２は、ダイアログ推定パラメータ３４の専用の集合を提供される。ダイアログ呈示は、利得ブロック３５によってレベル修正（たとえばブースト）され、次いで、オーディオ信号の第二の呈示３６と組み合わされて、ダイアログ向上出力３７を形成する。のちに論じるように、組み合わせは単純な加算でもよいが、ダイアログ呈示と第一の呈示の加算後に和に変換を適用して、それによりダイアログ向上された第二の呈示を形成することをも含んでいてもよい。

本発明によれば、呈示の少なくとも一つがバイノーラル呈示（残響ありまたは無響）である。下記でさらに論じるように、第一および第二の呈示は異なっていてもよく、ダイアログ呈示は第二の呈示に対応してもしなくてもよい。たとえば、第一のオーディオ信号呈示は第一のオーディオ再生システム、たとえば一組のラウドスピーカーでの再生のために意図されていてもよく、一方、第二のオーディオ信号呈示は第二のオーディオ再生システム、たとえばヘッドフォンでの再生のために意図されていてもよい。

単一の呈示
図４でのデコーダ実施形態では、第一および第二の呈示４１、４６ならびにダイアログ呈示４３はみな（残響のあるまたは無響の）バイノーラル呈示である。よって、（バイノーラル）ダイアログ推定器４２――および専用のパラメータ４４――はバイノーラル・ダイアログ・コンポーネントを推定し、それが、ブロック４５でレベル修正されて第二のオーディオ呈示４６に加えられて出力４７を形成する。

図４の実施形態では、パラメータ４４はいかなる呈示変換を実行するようにも構成されない。それでも、最良品質のためには、バイノーラル・ダイアログ推定器４２は、位相／絶対値カットオフ周波数までの周波数帯域では複素数値であるべきである。呈示変換がされないときでもなぜ複素数値の推定器が必要とされうるかを説明するために、バイノーラル・ダイアログと他のバイノーラル背景コンテンツとの混合であるバイノーラル信号からバイノーラル・ダイアログを推定することを考える。ダイアログの最適な抽出はしばしば、たとえば右のバイノーラル信号の諸部分を左のバイノーラル信号から減算して、背景コンテンツを打ち消すことを含む。バイノーラル処理は、その性質上、左右の信号の間の時間（位相）差を導入するので、何らかの減算ができる前に、それらの位相差が補償される必要があり、そのような補償は複素数値のパラメータを必要とするのである。実際、パラメータのMMSE計算の結果を調べるとき、パラメータは一般に、実数値であるよう制約されなければ、複素数値として現われる。実際上は、複素数値のパラメータか実数値のパラメータかの選択は、品質とビットレートとの間のトレードオフである。上述したように、パラメータは、高周波数での微細構造波形位相差に敏感でないことを利用して、全く品質損失なしに、周波数位相／絶対値カットオフ周波数より上では実数値であることができる。

二つの呈示
図５のデコーダ実施形態では、第一および第二の呈示が異なっている。図示した例では、第一の呈示５１は非バイノーラル呈示であり（たとえばステレオ2.0またはサラウンド5.1）、一方、第二の呈示５６はバイノーラル呈示である。この場合、ダイアログ推定パラメータ５４の集合は、バイノーラル・ダイアログ推定器５２が、非バイノーラル呈示５１からバイノーラル・ダイアログ呈示５３を推定することを許容するように構成される。呈示は逆にしてもよいことを注意しておく。その場合、バイノーラル・ダイアログ推定器はたとえばバイノーラル・オーディオ呈示からステレオ・ダイアログ呈示を推定することになる。いずれの場合にも、ダイアログ推定器は、ダイアログ・コンポーネントを抽出し、呈示変換を実行する必要がある。バイノーラル・ダイアログ呈示５３はブロック５５によってレベル修正され、第二の呈示５６に加えられる。

図５に示されるように、バイノーラル・ダイアログ推定器５２は、ダイアログ抽出および呈示変換という二つの動作を実行するために構成された、パラメータ５４の単一の集合を受領する。しかしながら、図６に示されるように、（残響のあるまたは無響の）バイノーラル・ダイアログ推定器６２がパラメータの二つの集合D1、D2を受領して、一つの集合（D1）がダイアログを抽出するよう構成され（ダイアログ抽出パラメータ）、一つの集合（D2）がダイアログ呈示変換を実行するよう構成される（ダイアログ変換パラメータ）ことも可能である。これは、これらの部分集合D1、D2の一方または両方がすでにデコーダにおいて利用可能である実装において有利でありうる。たとえば、ダイアログ抽出パラメータD1は、図２に示される通常のダイアログ抽出のために利用可能であることがある。さらに、パラメータ変換パラメータD2は、のちに論じるように、サイマルキャスト実装において利用可能であることがある。

図６では、ダイアログ抽出（ブロック６２ａ）が、呈示変換（ブロック６２ｂ）より前に行なわれるものとして示されているが、この順序はむろん、逆にされてもよい。計算効率の理由で、たとえパラメータが二つの別個の集合D1、D2として提供されるとしても、まずパラメータの二つの集合を一つの組み合わされた行列変換に組み合わせて、その後、この組み合わされた変換を入力信号６１に適用することが有利であることがある。

さらに、ダイアログ抽出は一次元的であり、抽出されたダイアログがモノ表現となることができることを注意しておく。すると、変換パラメータD2は位置メタデータであり、呈示変換はモノ・ダイアログを、その位置に対応するHRTF、HRIRまたはBRIRを使ってレンダリングすることを含む。あるいはまた、所望されるレンダリングされたダイアログ呈示がラウドスピーカー再生のために意図されている場合、モノ・ダイアログは、振幅パンまたはベクトル基底振幅パン（VBAP: vector-based amplitude panning）のようなラウドスピーカー・レンダリング技法を使ってレンダリングされることができる。

サイマルキャスト実装
図７～図１１は、サイマルキャスト・システム、すなわち一つのオーディオ呈示が一組の変換パラメータと一緒にエンコードされ、デコーダに伝送されるシステムのコンテキストで本発明の実施形態を示している。それらの変換パラメータはデコーダが前記オーディオ呈示を、意図された再生システムに適応した異なる呈示（たとえば、ヘッドフォンのためのバイノーラル呈示として示される）に変換できるようにする。そのようなシステムのさまざまな側面は、ここに参照によって組み込まれる、2015年8月25日に出願された、同時係属中の未公開の米国仮特許出願第62/209,735号において詳細に記述されている。簡単のため、図７～図１１はデコーダ側のみを示している。

図７に示されるように、コア・デコーダ７１は、オーディオ・コンポーネントの初期のオーディオ信号呈示を含むエンコードされたビットストリーム７２を受領する。図示されている場合、この初期呈示はステレオ呈示zであるが、他の任意の呈示であってもよい。ビットストリーム７２は、呈示変換パラメータw(y)の集合をも含んでいる。これらのパラメータは、ステレオ信号zの行列変換７３を実行して、再構成された無響バイノーラル信号＾yを生成するために、行列係数として使われる。変換パラメータw(y)は、米国仮特許出願第62/209,735号で論じられているように、エンコーダで決定されたものである。図示されている場合、ビットストリーム７２は、ステレオ信号zの行列変換７４を実行して、無響環境シミュレーション、ここではフィードバック遅延ネットワーク（FDN）７５のための再構成された入力信号＾fを生成するための行列係数として使われるパラメータw(f)の集合をも含んでいる。これらのパラメータw(f)は、呈示変換パラメータw(y)と同様の仕方で決定されたものである。FDN ７５は入力信号＾fを受領し、音響環境シミュレーション出力FDN_outを提供し、該出力は無響バイノーラル信号＾yと組み合わされて、残響のあるバイノーラル信号を提供してもよい。

図７の実施形態において、ビットストリームはさらに、ステレオ信号zの行列変換を実行して無響のバイノーラル・ダイアログ呈示Dを生成するためにダイアログ推定器７６において行列係数として使われるダイアログ推定パラメータw(D)の集合を含んでいる。ダイアログ呈示Dはブロック７７においてレベル修正（たとえばブースト）され、再構成された無響信号＾yおよび無響環境シミュレーション出力FDN_outと、加算ブロック７８において組み合わされる。

図７は、本質的には、図５の実施形態のサイマルキャスト・コンテキストにおける実装である。

図８の実施形態では、ステレオ信号z、変換パラメータw(y)の集合およびパラメータw(f)のさらなる集合が受領され、図７と同じようにデコードされ、要素７１、７３、７４、７５、７８は図７に関して論じたものと等価である。さらに、ここでのビットストリーム８２は、信号zに対してダイアログ推定器８６によって適用されるダイアログ推定パラメータw(D1)の集合をも含んでいる。しかしながら、この実施形態では、ダイアログ推定パラメータw(D1)は、いかなる呈示変換をも提供するよう構成されていない。したがって、ダイアログ推定器８６からのダイアログ呈示出力D_stereoは、初期オーディオ信号呈示、ここではステレオ呈示に対応する。ダイアログ呈示D_stereoはブロック８７においてレベル修正され、次いで加算８８において信号zに加えられる。ダイアログ向上された信号（z＋D_stereo）は次いで、変換パラメータw(y)の集合によって変換される。

図８は、図６の実施形態のサイマルキャスト・コンテキストでの実装として見ることができる。ここで、w(D1)がD1として使われ、w(y)がD2として使われる。しかしながら、図６ではパラメータの両方の集合がダイアログ推定器６２において適用される一方、図８では、抽出されたダイアログD_stereoは信号zに加えられ、変換w(y)は組み合わされた信号（z＋D）に適用される。

パラメータw(D1)の集合が、サイマルキャスト実装においてステレオ信号のダイアログ向上を提供するために使われるダイアログ向上パラメータと同一であってもよいことを注意しておく。この代替が図９のａに示されている。ここでは、ダイアログ抽出９６ａがコア・デコーダ９１の一部をなすものとして示されている。さらに、図９のａでは、パラメータ集合w(y)を使う呈示変換９６ｂが利得の前に、信号zの変換とは別個に実行される。このように、この実施形態は、ダイアログ推定器６２が両方の変換９６ａ、９６ｂを含んでいて、図６に示される場合とさらによく似ている。

図９のｂは、図９のａの実施形態の修正版を示している。この場合、呈示変換はパラメータ集合w(y)を使ってではなく、バイノーラル・ダイアログ推定専用のビットストリーム部分において提供されているパラメータw(D2)の追加的な集合を用いて実行される。

ある実施形態では、図９のｂにおける上述した専用の呈示変換w(D2)は実数値であり、単一タップ（M＝1）であり、フルバンド（P＝1）の行列である。

図１０は、図９のａ～ｂの実施形態の修正版を示している。この場合、ダイアログ抽出器９６ａはやはりステレオ・ダイアログ呈示D_stereoを提供し、やはりコア・デコーダ９１の一部をなすものとして示されている。しかしながら、ここでは、ステレオ・ダイアログ呈示D_stereoは、ブロック９７でのレベル修正後に、（FDNからの無響の環境シミュレーションとともに）無響バイノーラル信号＾yに直接加えられる。

異なる呈示をもつ信号を組み合わせること、たとえばステレオ・ダイアログ信号を（向上されていないバイノーラル・ダイアログ・コンポーネントを含む）バイノーラル信号に加算することは、当然ながら、空間定位のアーチファクトにつながることを注意しておく。向上されていないバイノーラル・ダイアログ・コンポーネントは、同じコンポーネントのステレオ呈示に比べて空間的に異なっていると知覚されるからである。

さらに、異なる呈示をもつ信号を組み合わせることは、ある周波数帯域ではダイアログ・コンポーネントの強め合う加算に、他の周波数帯域では弱め合う加算につながることがあることを注意しておく。その理由は、バイノーラル処理がITD（位相差）を導入し、ある周波数帯域では同相であり、他の帯域では逆相である信号を加算し、それがダイアログ・コンポーネントにおける音色付け（coloring）アーチファクトにつながるからである（さらに、音色付けは左耳と右耳とで異なることがある）。ある実施形態では、この型のアーチファクトを低減するよう、バイノーラル処理において、位相／絶対値カットオフ周波数より上での位相差は回避される。

異なる呈示をもつ信号を組み合わせる場合についての最後の注釈として、一般に、バイノーラル処理はダイアログの了解性を低下させることがあることが認められる。ダイアログ向上の目標が了解性を最大にすることである場合、非バイノーラルであるダイアログ信号を抽出し、レベル修正（たとえばブースト）することが有利であることがある。より具体的には、たとえ再生のために意図される最終的な呈示がバイノーラルであっても、そのような場合にステレオ・ダイアログ信号を抽出してレベル修正（たとえばブースト）して、それをバイノーラル呈示と組み合わせることが有利であることがある（了解性向上のために、上記のように、音色付けアーチファクトと空間定位アーチファクトとをトレードオフ）。

図１１の実施形態では、ステレオ信号z、変換パラメータw(y)の集合およびパラメータw(f)のさらなる集合が図７と同じようにして受領され、デコードされる。さらに、図８と同様に、ビットストリームは、いかなる呈示変換も提供するよう構成されていないダイアログ推定パラメータw(D1)の集合をも含んでいる。しかしながら、この実施形態では、ダイアログ推定パラメータw(D1)はダイアログ推定器１６によって、再構成された無響バイノーラル信号＾yに対して適用されて、無響バイノーラル・ダイアログ呈示Dを提供する。このダイアログ呈示Dはブロック１１７によってレベル修正され、加算１１８においてFDN_outとともに信号＾yに加えられる。

図１１は、本質的には、図５の単一呈示の実施形態の、サイマルキャスト・コンテキストでの実装である。しかしながら、それは、図６の実装のD1とD2の順序を逆にしたものと見ることもできる。ここで、D1としてはやはりw(D1)は使われ、D2としてw(y)が使われる。しかしながら、図６ではパラメータの両方の集合がダイアログ推定器において適用されたのに対して、図９では、変換パラメータD2は、＾yを得るためにすでに適用されており、ダイアログ推定器１６は、残響のあるバイノーラル・ダイアログ呈示Dを得るために、パラメータw(D1)を信号＾yに適用する必要があるだけである。

いくつかの応用では、ダイアログ・レベル修正因子Gの所望される値に依存して、異なる処理を適用することが望ましいことがある。ある実施形態では、例示的な適切な処理が、因子Gが所与の閾値より大きいか小さいかの判定に基づいて選択される。もちろん、二つ以上の閾値および二つ以上の代替的な処理があってもよい。たとえば、th1およびth2が二つの所与の閾値であるとして、G＜th1のときの第一の処理、th1≦G＜th2のときの第二の処理およびG≧th2のときの第三の処理である。

図１２に示される個別的な例では、閾値は0であり、G＜0（ダイアログの減衰）のときには第一の処理が適用され、G＞0（ダイアログの強調）のときには第二の処理が適用される。この目的のために、図１２の回路は、二つのポジションAおよびBをもつスイッチ１２１の形の選択論理を含む。スイッチは、ブロック１２２から利得因子Gの値を提供され、G＜0のときはポジションAを、G＞0のときはポジションBを取るよう構成される。

スイッチがポジションAにあるとき、回路はここでは、行列変換８６からの推定されたステレオ・ダイアログをステレオ信号zと組み合わせ、次いで、組み合わされた信号に対して行列変換７３を実行して、再構成された無響バイノーラル信号を生成するよう構成される。フィードバック遅延ネットワーク７５からの出力が次いで、この信号と７８において組み合わされる。この処理は本質的には、上記で論じた図８に対応することを注意しておく。

スイッチがポジションBにあるとき、回路はここでは、バイノーラル・ダイアログ推定を提供するために、行列変換８６からのステレオ・ダイアログに変換パラメータw(D2)を適用するよう構成される。次いで、この推定が変換７３からの無響のバイノーラル信号およびフィードバック遅延ネットワーク７５からの出力に加えられる。この処理は本質的には、上記で論じた図９のｂに対応することを注意しておく。

当業者は、ポジションAおよびBにおけるそれぞれの処理について他の多くの代替を認識するであろう。たとえば、スイッチがポジションBにあるときの処理は上記の代わりに図１０のものに対応してもよい。しかしながら、図１２の実施形態の主要な貢献は、スイッチ１２１の導入である。これが利得因子Gの値に依存した代替的な処理を可能にする。

解釈
本明細書を通じて「一つの実施形態」「いくつかの実施形態」または「ある実施形態」への言及は、その実施形態との関連で記載されている特定の特徴、構造または特性が本発明の少なくとも一つの実施形態に含まれることを意味する。よって、「一つの実施形態において」「いくつかの実施形態において」または「ある実施形態において」という句が本明細書を通じた随所に現われることは、必ずしもみなが同じ実施形態を指しているのではないが、指していてもよい。さらに、特定の特徴、構造または特性は、いかなる好適な仕方で組み合わされてもよい。このことは、一つまたは複数の実施形態において、本開示から当業者には明白であろう。

本稿での用法では、特に断わりのない限り、共通のオブジェクトを記述する順序形容語「第一」「第二」「第三」などの使用は、単に同様のオブジェクトの異なるインスタンスが言及されていることを示すものであって、そのように記述されるオブジェクトが時間的、空間的、ランキングにおいてまたは他のいかなる仕方においても、所与の序列でなければならないことを含意することは意図されていない。

付属の請求項および本稿の記述において、有する、から構成されるまたは含むという用語の任意のものは、少なくともその後続の要素／特徴を含むが他のものを排除しないことを意味するオープンな用語である。よって、請求項において使われるときの有するの用語は、その後に挙げられる手段または要素または段階に制限するものとして解釈されるべきではない。たとえば、AおよびBを有する装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本稿で使われる含む、含んでいるという用語の任意のものも、少なくともその用語に続く要素／特徴を含むが他のものを排除しないことを意味するオープンな用語である。よって、含むは、有すると同義であり、有するを意味する。

本稿での用法では、用語「例示的」は、性質を示すのではなく、例を挙げる意味で使われる。すなわち、「例示的実施形態」は、必ず例示的な性質の実施形態であるのではなく、例として与えられている実施形態である。

本発明の例示的実施形態の上記の記述において、開示の流れをよくし、さまざまな発明側面の一つまたは複数のものの理解を助けるため、本発明のさまざまな特徴が時に単一の実施形態、図面またはその記述にまとめられていることを理解しておくべきである。しかしながら、この開示法は、請求される発明が、各請求項に明示的に記載されているよりも多くの事項を必要とするという意図を反映したものと解釈されるものではない。むしろ、付属の請求項が反映するように、発明の諸側面は、単一の上記の開示される実施形態の全事項よりも少ないものに存する。このように、付属の請求項は、ここに明示的に詳細な説明に組み込まれ、各請求項がそれ自身として本発明の別個の実施形態をなす。

さらに、本稿に記載されるいくつかの実施形態が他の実施形態に含まれるいくつかの特徴を含むが他の特徴を含まなくても、異なる実施形態の特徴の組み合わせは本発明の範囲内であり、異なる実施形態をなすことが意図されている。当業者はこれを理解するであろう。たとえば、付属の請求項では、請求される実施形態の任意のものが任意の組み合わせにおいて使用できる。

さらに、実施形態のいくつかは、本稿では方法または方法の要素の組み合わせであって、コンピュータ・システムのプロセッサによってまたは該機能を実行する他の手段によって実装されることができるものとして記述されている。よって、そのような方法または方法の要素を実行するための必要な命令をもつプロセッサは、前記方法または方法の要素を実行する手段をなす。さらに、装置実施形態の本稿に記載される要素は、本発明を実行するための該要素によって実行される機能を実行する手段の一例である。

本稿で与えられる記述では、数多くの個別的詳細が記載される。しかしながら、本発明の実施形態がそうした個別的詳細なしでも実施できることは理解される。他方、本記述の理解をかすませないために、よく知られた方法、構造および技法は詳細に示していない。

同様に、請求項において使われるときの用語、結合されたは、直接接続のみに限定されるものと解釈されるべきではない。用語「結合された」および「接続された」ならびにその派生形が使われることがある。これらの用語は互いの同義語として意図されていないことを理解しておくべきである。よって、装置Bに結合された装置Aという表現の範囲は、装置Aの出力が装置Bの入力に直接接続される装置またはシステムに限定されるべきではない。それは、Aの出力とBの入力との間の経路が存在することを意味し、該経路は他の装置または手段を含む経路であってもよい。「結合された」は二つ以上の要素が直接物理的または電気的に接していること、あるいは二つ以上の要素が互いに直接接触してはいないが、それでも互いと協働または相互作用することを意味しうる。

このように、本発明の個別的実施形態を記述してきたが、当業者は本発明の精神から外れることなく、それに他のおよびさらなる修正がなされてもよいことを認識するであろう。それらすべての変更および修正を本発明の範囲内にはいるものとして請求することが意図されている。たとえば、上記で与えた公式はいずれも単に使用されうる手順の代表である。ブロック図から機能が追加または削除されてもよく、機能ブロックの間で動作が交換されてもよい。本発明の範囲内で記述される方法に段階が追加または削除されてもよい。

いくつかの態様を記載しておく。
〔態様１〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法であって、各コンポーネントは空間位置に関連付けられており、当該方法は：
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を提供し；
第二のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第二のオーディオ信号呈示を提供し；
前記第一のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し；
ダイアログ推定パラメータの前記集合を前記第一のオーディオ信号呈示に適用し、前記ダイアログ・コンポーネントのダイアログ呈示を形成し；
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせて、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、
前記第一および第二のオーディオ信号呈示の少なくとも一方はバイノーラル・オーディオ信号呈示である、
方法。
〔態様２〕
前記第一および第二のオーディオ信号呈示がバイノーラル・オーディオ信号呈示である、態様１記載の方法。
〔態様３〕
前記第一および第二のオーディオ信号呈示のうち一方のみがバイノーラル・オーディオ信号呈示である、態様１記載の方法。
〔態様４〕
前記第一および第二のオーディオ信号呈示のうち他方がステレオまたはサラウンド・オーディオ信号呈示である、態様３記載の方法。
〔態様５〕
ダイアログ変換パラメータの集合を受領し、ダイアログ推定パラメータの前記集合の適用の前または後にダイアログ変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することをさらに含む、態様３または４記載の方法。
〔態様６〕
前記ダイアログ推定パラメータは、前記ダイアログ呈示が前記第二のオーディオ信号呈示に対応するよう呈示変換をも実行するよう構成されている、態様３または４記載の方法。
〔態様７〕
前記第一のオーディオ信号呈示を提供することが、初期のオーディオ信号呈示および呈示変換パラメータの集合を受領し、呈示変換パラメータの前記集合を前記初期のオーディオ信号呈示に適用することを含む、態様２記載の方法。
〔態様８〕
前記第一のオーディオ信号呈示の前記第二のオーディオ信号呈示への変換を可能にするよう構成された呈示変換パラメータの集合を受領し、前記第一のオーディオ信号呈示に呈示変換パラメータの前記集合を適用して前記第二のオーディオ信号呈示を形成することをさらに含む、態様１ないし７のうちいずれか一項記載の方法。
〔態様９〕
ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することをさらに含む、態様８記載の方法。
〔態様１０〕
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせることが、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの前記集合を適用することを含む、態様８記載の方法。
〔態様１１〕
前記第一のオーディオ信号呈示がエンコーダから受領される、態様１ないし１０のうちいずれか一項記載の方法。
〔態様１２〕
前記ダイアログ呈示に因子Gによるレベル修正を適用することをさらに含む、態様１ないし１１のうちいずれか一項記載の方法。
〔態様１３〕
Gが所与の閾値より小さいときは第一の処理が適用され、Gが前記閾値より大きいときは第二の処理が適用される、態様１２記載の方法。
〔態様１４〕
前記閾値が0に等しく、G＜0はダイアログの減衰を表わし、G＞0はダイアログの強調を表わす、態様１３記載の方法。
〔態様１５〕
前記第一の処理が、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの集合を適用することを含む、態様１３または１４記載の方法。
〔態様１６〕
前記第二の処理が、ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することを含む、態様１３ないし１５のうちいずれか一項記載の方法。
〔態様１７〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法であって、各コンポーネントは空間位置に関連付けられており、当該方法は：
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を受領し；
前記第一のオーディオ信号呈示の、第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示への変換を可能にするよう構成された呈示変換パラメータの集合を受領し；
前記第一のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し；
呈示変換パラメータの前記集合を前記第一のオーディオ信号呈示に適用して、第二のオーディオ信号呈示を形成し；
ダイアログ推定パラメータの前記集合を前記第一のオーディオ信号呈示に適用して前記ダイアログ・コンポーネントのダイアログ呈示を形成し；
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせて、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み；
前記第一のオーディオ信号呈示および前記第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である、
方法。
〔態様１８〕
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせることが、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの前記集合を適用することを含む、態様１７記載の方法。
〔態様１９〕
前記ダイアログ推定パラメータは、前記ダイアログ呈示が前記第二のオーディオ信号呈示に対応するよう呈示変換をも実行するよう構成されている、態様１７記載の方法。
〔態様２０〕
ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することをさらに含む、態様１７記載の方法。
〔態様２１〕
前記ダイアログ呈示がモノ呈示であり、当該方法がさらに：
前記ダイアログ・コンポーネントに関係する位置データを受領し；
前記第二のオーディオ信号呈示と組み合わせる前に、前記位置データを使って、前記モノ・ダイアログ呈示をレンダリングすることをさらに含む、
態様１７記載の方法。
〔態様２２〕
前記レンダリングすることが：
前記位置データに基づいてライブラリから頭部伝達関数（HRTF）を選択し；
選択されたHRTFを前記モノ・ダイアログ呈示に適用することを含む、
態様２１記載の方法。
〔態様２３〕
前記レンダリングすることが、振幅パンを含む、態様２１記載の方法。
〔態様２４〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法であって、各コンポーネントは空間位置に関連付けられており、当該方法は：
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を受領し；
前記第一のオーディオ信号呈示の、第二のオーディオ再生システムでの再生のために意図されている前記第二のオーディオ信号呈示への変換を可能にするよう構成された呈示変換パラメータの集合を受領し；
前記第二のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し；
呈示変換パラメータの前記集合を前記第一のオーディオ信号呈示に適用して、第二のオーディオ信号呈示を形成し；
ダイアログ推定パラメータの前記集合を前記第二のオーディオ信号呈示に適用して前記ダイアログ・コンポーネントのダイアログ呈示を形成し；
前記ダイアログ呈示を前記第二のオーディオ信号呈示と加算して、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、
前記第一のオーディオ信号呈示および前記第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である、
方法。
〔態様２５〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダであって、各コンポーネントは空間位置に関連付けられており、当該デコーダは：
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、前記第一のオーディオ信号呈示からダイアログ・コンポーネントを推定することを可能にするよう構成されたダイアログ推定パラメータの集合とを受領してデコードするコア・デコーダと；
ダイアログ推定パラメータの前記集合を前記第一のオーディオ信号呈示に適用して前記ダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と；
前記ダイアログ呈示を第二のオーディオ信号呈示と組み合わせて、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する手段とを有し；
前記第一および第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である、
デコーダ。
〔態様２６〕
前記第一および第二のオーディオ信号呈示のうち一方がステレオまたはサラウンド・オーディオ信号呈示である、態様２５記載のデコーダ。
〔態様２７〕
前記コア・デコーダが、ダイアログ変換パラメータの集合を受領するようさらに構成され、前記ダイアログ推定器が、ダイアログ推定パラメータの前記集合の適用の前または後にダイアログ変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成するようさらに構成されている、態様２５または２６記載のデコーダ。
〔態様２８〕
前記ダイアログ推定器は、前記ダイアログ呈示が前記第二のオーディオ信号呈示に対応するよう、ダイアログ推定パラメータの前記集合を使って呈示変換をも実行するよう構成されている、態様２５または２６記載のデコーダ。
〔態様２９〕
前記コア・デコーダが、呈示変換パラメータの集合を受領するようさらに構成されており、当該デコーダがさらに：
呈示変換パラメータの前記集合を前記第一のオーディオ信号呈示に適用して前記第二のオーディオ信号呈示を形成するよう構成されている変換ユニットを有する、
態様２５ないし２８のうちいずれか一項記載のデコーダ。
〔態様３０〕
前記ダイアログ推定器が、ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成するようさらに構成されている、態様２９記載のデコーダ。
〔態様３１〕
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせる手段が、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成する加算ブロックを含み、前記変換ユニットが、該和に、呈示変換パラメータの前記集合を適用するよう構成されている、態様２９記載のデコーダ。
〔態様３２〕
前記ダイアログ呈示に因子Gによるレベル修正を適用するよう構成されたレベル修正ブロックをさらに有する、態様２５ないし３１のうちいずれか一項記載のデコーダ。
〔態様３３〕
Gが所与の閾値より小さいときは前記ダイアログ推定パラメータの第一の適用を選択するよう構成された選択論理をさらに有しており、Gが前記閾値より大きいときは第二の処理が適用される、態様３２記載のデコーダ。
〔態様３４〕
前記閾値が0に等しく、G＜0はダイアログの減衰を表わし、G＞0はダイアログの強調を表わす、態様３３記載のデコーダ。
〔態様３５〕
前記第一の適用が、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの集合を適用することを含む、態様３３または３４記載のデコーダ。
〔態様３６〕
前記第二の適用が、ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することを含む、態様３３ないし３５のうちいずれか一項記載のデコーダ。
〔態様３７〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダであって、各コンポーネントは空間位置に関連付けられており、当該デコーダは：
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、前記第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合と、前記第一のオーディオ信号呈示からダイアログ・コンポーネントを推定できるようにするよう構成されたダイアログ推定パラメータの集合とを受領するコア・デコーダと；
呈示変換パラメータの前記集合を前記第一のオーディオ信号呈示に適用して、第二のオーディオ再生システムでの再生のために意図された第二のオーディオ信号呈示を形成するよう構成された変換ユニットと；
ダイアログ推定パラメータの前記集合を前記第一のオーディオ信号呈示に適用して前記ダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と；
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせて、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する手段とを有し；
前記第一のオーディオ信号呈示および前記第二のオーディオ信号呈示のうち一方のみがバイノーラル・オーディオ信号呈示である、
デコーダ。
〔態様３８〕
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせる手段が、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成する加算ブロックを含み、前記変換ユニットが、該和に、呈示変換パラメータの前記集合を適用するよう構成されている、態様３７記載のデコーダ。
〔態様３９〕
前記ダイアログ推定器は、前記ダイアログ呈示が前記第二のオーディオ信号呈示に対応するよう、ダイアログ推定パラメータの前記集合を使って呈示変換をも実行するよう構成されている、態様３７記載のデコーダ。
〔態様４０〕
前記ダイアログ推定器は、ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成するよう構成されている、態様３７記載のデコーダ。
〔態様４１〕
前記ダイアログ呈示がモノ呈示であり、前記コア・デコーダが、前記ダイアログ・コンポーネントに関係する位置データを受領するようさらに構成されており、当該デコーダがさらに：
前記第二のオーディオ信号呈示と組み合わせる前に、前記位置データを使って、前記モノ・ダイアログ呈示をレンダリングする構成されたレンダラーをさらに有する、
態様３７記載のデコーダ。
〔態様４２〕
前記レンダラーが：
前記位置データに基づいてライブラリから頭部伝達関数（HRTF）を選択し；
選択されたHRTFを前記モノ・ダイアログ呈示に適用するよう構成されている、
態様４１記載のデコーダ。
〔態様４３〕
前記レンダラーが振幅パンを適用するよう構成されている、態様４１記載のデコーダ。
〔態様４４〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダであって、各コンポーネントは空間位置に関連付けられており、当該デコーダは：
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合と、前記第一のオーディオ信号呈示からダイアログ・コンポーネントを推定できるようにするよう構成されたダイアログ推定パラメータの集合とを受領するコア・デコーダと；
呈示変換パラメータの前記集合を前記第一のオーディオ信号呈示に適用して、第二のオーディオ再生システムでの再生のために意図された第二のオーディオ信号呈示を形成するよう構成された変換ユニットと；
ダイアログ推定パラメータの前記集合を前記第二のオーディオ信号呈示に適用して前記ダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と；
前記ダイアログ呈示を前記第二のオーディオ信号呈示と加算して、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する加算ブロックとを有し；
前記第一のオーディオ信号呈示および前記第二のオーディオ信号呈示のうちの一方のみがバイノーラル・オーディオ信号呈示である、
デコーダ。

Claims

一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法であって、各コンポーネントは空間位置に関連付けられており、当該方法は：
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を提供し；
第二のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第二のオーディオ信号呈示を提供し；
前記第一のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し；
ダイアログ推定パラメータの前記集合を前記第一のオーディオ信号呈示に適用し、前記ダイアログ・コンポーネントのダイアログ呈示を形成し；
前記ダイアログ呈示に因子Gによるレベル修正を適用する段階であって、Gが所与の閾値より小さいときは第一の処理が適用され、Gが前記閾値より大きいときは第二の処理が適用され、前記第一の処理が、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの集合を適用することを含む、段階を実行し；
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせて、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、
前記第一および第二のオーディオ信号呈示の少なくとも一方はバイノーラル・オーディオ信号呈示である、
方法。
前記第一および第二のオーディオ信号呈示がバイノーラル・オーディオ信号呈示である、請求項１記載の方法。
前記第一および第二のオーディオ信号呈示のうち一方のみがバイノーラル・オーディオ信号呈示である、請求項１記載の方法。
前記第一および第二のオーディオ信号呈示のうち他方がステレオまたはサラウンド・オーディオ信号呈示である、請求項３記載の方法。
ダイアログ変換パラメータの集合を受領し、ダイアログ推定パラメータの前記集合の適用の前または後にダイアログ変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することをさらに含む、請求項３または４記載の方法。
前記第一のオーディオ信号呈示を提供することが、初期のオーディオ信号呈示および呈示変換パラメータの集合を受領し、呈示変換パラメータの前記集合を前記初期のオーディオ信号呈示に適用することを含む、請求項２記載の方法。
前記第一のオーディオ信号呈示の前記第二のオーディオ信号呈示への変換を可能にするよう構成された呈示変換パラメータの集合を受領し、前記第一のオーディオ信号呈示に呈示変換パラメータの前記集合を適用して前記第二のオーディオ信号呈示を形成することをさらに含む、請求項１ないし６のうちいずれか一項記載の方法。
ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することをさらに含む、請求項７記載の方法。
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせることが、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの前記集合を適用することを含む、請求項７記載の方法。
前記閾値が0に等しく、G＜0はダイアログの減衰を表わし、G＞0はダイアログの強調を表わす、請求項１記載の方法。
前記第二の処理が、ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することを含む、請求項１０記載の方法。
前記ダイアログ呈示がモノ呈示であり、当該方法がさらに：
前記ダイアログ・コンポーネントに関係する位置データを受領し；
前記第二のオーディオ信号呈示と組み合わせる前に、前記位置データを使って、前記モノ・ダイアログ呈示をレンダリングすることをさらに含む、
請求項１記載の方法。
前記レンダリングすることが：
前記位置データに基づいてライブラリから頭部伝達関数（HRTF）を選択し；
選択されたHRTFを前記モノ・ダイアログ呈示に適用すること；または
振幅パンのいずれかを含む、
請求項１２記載の方法。