JP2018537710A

JP2018537710A - パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡

Info

Publication number: JP2018537710A
Application number: JP2018525387A
Authority: JP
Inventors: イエルーンブレーバールト，ディルク; マシュークーパー，デイヴィッド; エフ．デイヴィス，マーク; エス．マクグラス，デイヴィッド; ヘルリンク，クリストファー; ムント，ハラルト; ジェイ．ウィルソン，ロンダ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2015-11-17
Filing date: 2016-11-17
Publication date: 2018-12-20
Anticipated expiration: 2036-11-17
Also published as: EP3716653B1; KR102586089B1; UA125582C2; US10893375B2; IL259348A; AU2016355673A1; CL2018001287A1; CN113038354A; CA3005113A1; AU2020200448B2; KR20180082461A; AU2016355673B2; JP6740347B2; BR122020025280B1; EP3378239A1; CA3080981C; SG11201803909TA; US20190342694A1; EP4236375A2; CN108476366B

Abstract

再生のためにチャネル・ベースまたはオブジェクト・ベースの入力オーディオをエンコードする方法。本方法は、（ａ）前記チャネル・ベースまたはオブジェクト・ベースの入力オーディオを初期の出力呈示に初期にレンダリングし；（ｂ）前記チャネル・ベースまたはオブジェクト・ベースの入力オーディオから優勢オーディオ成分の推定値を決定し、前記初期の出力呈示を前記優勢オーディオ成分にマッピングするための一連の優勢オーディオ成分重み付け因子を決定し；（ｃ）前記優勢オーディオ成分の方向または位置の推定値を決定し；（ｄ）前記初期の出力呈示、前記優勢オーディオ成分重み付け因子、前記優勢オーディオ成分の方向または位置を、再生のためのエンコードされた信号としてエンコードすることを含む。

Description

本発明は、任意的に頭部追跡を利用するときの改良された形のパラメトリック・バイノーラル出力のためのシステムおよび方法を提供する。

本明細書を通じて背景技術のいかなる議論も、いかなる仕方でも、そのような技術が当分野において広く知られているまたは技術常識の一部をなすことの自認と考えられるべきではない。

オーディオ・コンテンツのコンテンツ生成、符号化、頒布および再生は、伝統的にはチャネル・ベースである。すなわち、コンテンツ・エコシステムを通じて一つの特定の目標再生システムが構想されている。そのような目標再生システムの例はモノ、ステレオ、5.1、7.1、7.1.4などである。

コンテンツが意図されたものとは異なる再生システムで再生される場合、ダウンミックス〔下方混合〕またはアップミックス〔上方混合〕が適用されることができる。たとえば、5.1コンテンツは、特定の既知のダウンミックスの式を用いることによって、ステレオ再生システムで再生できる。もう一つの例は7.1スピーカー・セットアップでのステレオ・コンテンツの再生であり、これはいわゆるアップミックス・プロセスを含むことがあり、アップミックス・プロセスは、Dolby Pro Logicのようないわゆるマトリクス・エンコーダによって使われるような、ステレオ信号に存在する情報によって案内されることも、されないこともできる。アップミックス・プロセスを案内するために、ダウンミックスの式に特定の位相関係を含めることによって、あるいは別の言い方をすれば、複素数値のダウンミックスの式を適用することによって、ダウンミックス前の信号のもとの位置についての情報が、暗黙的に信号伝達されることができる。二次元に配置されたスピーカーとのコンテンツのために複素数値のダウンミックス係数を使うそのようなダウンミックス方法のよく知られた例が、LtRtである（非特許文献２）。

結果として得られる（ステレオ）ダウンミックス信号は、ステレオ・ラウドスピーカー・システムを通じて再生されることができ、あるいはサラウンドおよび／または高さスピーカーをもつラウドスピーカー・セットアップにアップミックスされることができる。信号の意図された位置は、チャネル間の位相関係からアップミキサーによって導出されることができる。たとえば、LtRtステレオ表現では、逆相の（たとえば−1に近いチャネル間波形規格化相互相関係数をもつ）信号は、理想的には一つまたは複数のサラウンド・スピーカーによって再生されるべきであり、一方、（＋1に近い）正の相関は、その信号が聴取者の前方のスピーカーによって再生されるべきであることを示す。

多様なアップミックス・アルゴリズムおよび戦略が開発されているが、その相違はステレオ・ダウンミックスからマルチチャネル信号を再生成する戦略にある。比較的単純なアップミキサーでは、ステレオ波形信号の規格化された相互相関係数は時間の関数として追跡され、一方、信号（単数または複数）は、規格化された相互相関係数の値に依存して、前方または後方スピーカーにステアリングされる。この手法は、同時に存在する聴覚オブジェクトが一つだけの比較的単純なコンテンツについてはうまく機能する。より高度なアップミキサーは、特定の周波数領域から導出される統計的情報に基づいて、ステレオ入力からマルチチャネル出力への信号の流れを制御する（非特許文献１、２）。具体的には、ステアリングされるもしくは優勢な成分およびステレオ（拡散）残差信号に基づく信号モデルが、個別の時間／周波数タイルにおいて用いられることができる。優勢成分および残差信号の推定のほかに、方向角（方位角、可能性としては仰角で補強）も推定され、その後、優勢成分信号が一つまたは複数のラウドスピーカーにステアリングされて、再生中に（推定された）位置を再構成する。

マトリクス・エンコーダおよびデコーダ／アップミキサーの使用は、チャネル・ベースのコンテンツに限定されない。オーディオ産業における最近の発展は、チャネルではなくオーディオ・オブジェクトに基づき、一つまたは複数のオブジェクトはオーディオ信号および関連するメタデータからなる。メタデータは、中でも、その意図される位置を時間の関数として示す。そのようなオブジェクト・ベースのオーディオ・コンテンツについても、非特許文献２で概説されるように、マトリクス・エンコーダが使用されることができる。そのようなシステムでは、オーディオ信号は、オブジェクト位置メタデータに依存するダウンミックス係数を用いて、ステレオ信号表現にダウンミックスされる。

マトリクス・エンコードされたコンテンツのアップミックスおよび再生は、必ずしもラウドスピーカーでの再生に限定されない。優勢成分信号および（意図される）位置からなる、ステアリングされるまたは優勢な成分の表現は、頭部インパルス応答（HRIR: head-related impulse response）との畳み込みによってヘッドフォンでの再生を許容する（非特許文献３）。この方法を実装するシステムの単純な方式が図１に示されている（１）。マトリクス・エンコードされたフォーマットの入力信号２はまず解析３されて、優勢成分方向および大きさを決定する。優勢成分信号は、優勢成分方向に基づいてルックアップ６から導出された一対のHRIRによって畳み込み４、５され、ヘッドフォン再生７のための出力信号を計算する。再生信号は、優勢成分解析段３によって決定された方向からくるように知覚される。この方式は、広帯域信号にも、個々のサブバンドにも適用でき、さまざまな仕方で、残差（または拡散）信号の専用の処理で補強されることができる。

マトリクス・エンコーダの使用は、AVレシーバーへの配信およびAVレシーバーでの再生に非常に好適であるが、低い伝送データ・レートおよび低い電力消費を要求するモバイル・アプリケーションのためには問題となることがある。

使われるコンテンツがチャネル・ベースであるかオブジェクト・ベースであるかに関わりなく、マトリクス・エンコーダおよびデコーダは、マトリクス・エンコーダからデコーダに配送される信号の、かなり正確なチャネル間位相関係に依拠する。換言すれば、配送フォーマットはほぼ波形保存であるべきである。そのような波形保存への依存は、ビットレートが制約された条件においては問題となることがある。そのような条件では、オーディオ・コーデックは、よりよいオーディオ品質を得るために、波形符号化ツールではなくパラメトリック方法を用いる。波形保存ではないことが一般に知られているそのようなパラメトリック・ツールの例は、しばしばスペクトル帯域複製、パラメトリック・ステレオ、空間オーディオ符号化などと称され、MPEG-4オーディオ・コーデックにおいて実装されている（非特許文献４）。

前節で概説したように、アップミキサーは、信号の解析およびステアリング（またはHRIR畳み込み）からなる。AVレシーバーのような電源のある装置については、これは一般に問題を起こさないが、携帯電話およびタブレットのようなバッテリー動作の装置については、これらのプロセスに関わる計算量および対応するメモリ要求は、バッテリー寿命への負の影響のため、しばしば望ましくない。

上述した解析は典型的には、追加的なオーディオ・レイテンシーをも導入する。そのようなオーディオ・レイテンシーが望ましくない理由は、（１）ビデオ・ディスプレイがオーディオ‐ビデオの音声同期を維持することを要求し、かなりの量のメモリおよび処理パワーを必要とすることと、（２）頭部追跡の場合に頭の動きとオーディオ・レンダリングの間の非同期／レイテンシーを引き起こしうることである。

マトリクス・エンコードされたダウンミックスは、強い逆相信号成分が存在する可能性のため、ステレオ・ラウドスピーカーまたはヘッドフォン上で最適に聞こえないことがある。

Gundry, K.、"A New Matrix Decoder for Surround Sound," AES 19th International Conf., Schloss Elmau, Germany, 2001 Vinton, M., McGrath, D., Robinson, C., Brown, P.、"Next generation surround decoding and up-mixing for consumer and professional applications", AES 57th International Conf, Hollywood, CA, USA, 2015 Wightman, F. L., and Kistler, D. J. (1989)、"Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867 ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio, 2009 Mania, Katerina, et al.、"Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1st Symposium on Applied perception in graphics and visualization. ACM, 2004 Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., & Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (pp. 247-254). IEEE Van de Par, Steven, and Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000

改善された形のパラメトリック・バイノーラル出力を提供することが本発明の目的である。

本発明の第一の側面によれば、再生のためにチャネルまたはオブジェクト・ベースの入力オーディオをエンコードする方法が提供される。本方法は：（ａ）前記チャネルまたはオブジェクト・ベースの入力オーディオを初期の出力呈示（たとえば初期の出力表現）に初期にレンダリングし；（ｂ）前記チャネルまたはオブジェクト・ベースの入力オーディオから優勢オーディオ成分の推定値を決定し、前記初期の出力呈示を前記優勢オーディオ成分にマッピングするための一連の優勢オーディオ成分重み付け因子を決定し；（ｃ）前記優勢オーディオ成分の方向または位置の推定値を決定し；（ｄ）前記初期の出力呈示、前記優勢オーディオ成分重み付け因子、前記優勢オーディオ成分の方向または位置を、再生のためのエンコードされた信号としてエンコードすることを含む。前記初期の出力呈示を前記優勢オーディオ成分にマッピングするための前記一連の優勢オーディオ成分重み付け因子を提供することにより、前記優勢オーディオ成分重み付け因子および前記初期の出力呈示を利用して、前記優勢成分の前記推定値を決定することができる。

いくつかの実施形態では、本方法はさらに、前記初期の出力呈示より前記優勢オーディオ成分もしくはその前記推定値のいずれかのレンダリングだけ小さいものである残差混合の推定値を決定することを含む。本方法は、前記チャネルまたはオブジェクト・ベースの入力オーディオの無残響のバイノーラル混合を生成し、残差混合の推定値を決定することをも含むことができ、ここで、前記残差混合の推定値は、前記無残響のバイノーラル混合より、前記優勢オーディオ成分もしくはその前記推定値のいずれかのレンダリングだけ小さいものである。さらに、本方法は、前記初期の出力呈示を前記残差混合の推定値にマッピングするための一連の残差行列係数を決定することをも含むことができる。

前記初期の出力呈示は、ヘッドフォンまたはラウドスピーカー呈示を含むことができる。前記チャネルまたはオブジェクト・ベースの入力オーディオは、時間および周波数でタイリングされることができ、エンコード段階は、一連の時間ステップおよび一連の周波数帯域について繰り返されることができる。前記初期の出力呈示は、ステレオ・スピーカー混合を含むことができる。

本発明のさらなる側面によれば、エンコードされたオーディオ信号をデコードする方法が提供される。前記エンコードされたオーディオ信号は：第一の（たとえば初期の）出力呈示（たとえば、第一の／初期の出力表現）と；優勢オーディオ成分の方向および優勢オーディオ成分重み付け因子とを含み、本方法は：（ａ）前記優勢オーディオ成分重み付け因子および初期の出力呈示を利用して、推定された優勢成分を決定し；（ｂ）前記優勢オーディオ成分の方向に従って、前記推定された優勢成分を、バイノーラル化により、意図される聴取者に対するある空間位置にレンダリングして、レンダリングされたバイノーラル化推定優勢成分を形成し；（ｃ）前記第一の（たとえば初期の）出力呈示から残差成分推定値を再構成し；（ｄ）前記レンダリングされたバイノーラル化推定優勢成分および前記残差成分推定値を組み合わせて、出力空間化オーディオ・エンコード信号を形成する段階を含む。

前記エンコードされたオーディオ信号はさらに、残差オーディオ信号を表わす一連の残差行列係数を含むことができ、段階（ｃ）はさらに、（ｃ１）前記残差行列係数を前記第一の（たとえば初期の）出力呈示に適用して、前記残差成分推定値を再構成することを含む。

いくつかの実施形態では、前記残差成分推定値は、前記第一の（たとえば初期の）出力呈示から、前記レンダリングされたバイノーラル化推定優勢成分を引くことによって再構成されることができる。段階（ｂ）は、意図される聴取者の頭の配向を示す入力頭部追跡信号に基づく、前記推定された優勢成分の初期回転を含むことができる。

本発明のさらなる側面によれば、オーディオ・ストリームのデコードおよびヘッドフォンを使う聴取者のための再生のための方法が提供される。本方法は：（ａ）第一のオーディオ表現および追加的なオーディオ変換データを含むデータ・ストリームを受領する段階と；（ｂ）前記聴取者の配向を表わす頭部配向データを受領する段階と；（ｃ）前記第一のオーディオ表現および受領された変換データに基づいて一つまたは複数の補助信号を生成する段階と；（ｄ）前記第一のオーディオ表現および前記補助信号の組み合わせからなる第二のオーディオ表現を生成する段階であって、前記補助信号のうち一つまたは複数は、前記頭部配向データに応答して修正されている、段階と；（ｅ）前記第二のオーディオ表現を出力オーディオ・ストリームとして出力する段階とを含む。

いくつかの実施形態はさらに、前記補助信号の前記修正は、音源位置から前記聴取者の耳までの音響経路のシミュレーションからなる。前記変換データは：行列処理係数と、音源位置または音源方向の少なくとも一方とからなることができる。変換プロセスは、時間または周波数の関数として適用されることができる。前記補助信号は、少なくとも一つの優勢成分を表わすことができる。前記音源位置または方向は、前記変換データの一部として受領されることができ、前記頭部配向データに応答して回転されることができる。いくつかの実施形態では、最大回転量は、方位角または仰角において360度未満の値に制限される。前記二次表現は、前記第一の表現から、変換もしくはフィルタバンク領域において行列処理することによって得られる。前記変換データはさらに、追加的な行列処理係数を含むことができ、段階（ｄ）はさらに、前記第一のオーディオ呈示および前記補助オーディオ信号を組み合わせるのに先立って、前記追加的な行列処理係数に応答して前記第一のオーディオ呈示を修正することを含むことができる。

本発明の実施形態について、これから単に例として、付属の図面を参照して記述する。
マトリクス・エンコードされたコンテンツのためのヘッドフォン・デコーダを概略的に示す図である。ある実施形態に基づくエンコーダを概略的に示す図である。デコーダの概略的なブロック図である。エンコーダの詳細な視覚化である。デコーダの一つの形をより詳細に示す図である。

実施形態は、オブジェクト・ベースまたはチャネル・ベースのオーディオ・コンテンツを表現するシステムおよび方法であって、（１）ステレオ再生と互換であり、（２）頭部追跡を含むバイノーラル再生を許容し、（３）デコーダ計算量が低く、（４）マトリクス・エンコードに頼らないが、それでいてマトリクス・エンコードと互換なものを提供する。

これは、一つまたは複数の優勢成分（または優勢オブジェクトまたはそれらの組み合わせ）のエンコーダ側での解析を組み合わせ、ダウンミックスからこれらの優勢成分を予測する重みを、追加的なパラメータと組み合わせて含めることによって達成される。追加的なパラメータは、ステアリングされたまたは優勢な成分だけに基づくバイノーラル・レンダリングと、完全なコンテンツの所望されるバイノーラル呈示との間の誤差を最小にするものである。

ある実施形態では、優勢成分（または複数の優勢成分）の解析が、デコーダ／レンダラーではなく、エンコーダにおいて提供される。次いで、オーディオ・ストリームは、優勢成分の方向を示すメタデータと、優勢成分（単数または複数）がどのようにして、関連するダウンミックス信号から得られることができるかについての情報とを用いて補強される。

図２は、好ましい実施形態のエンコーダ２０の一つの形を示している。オブジェクトまたはチャネル・ベースのコンテンツ２１は、優勢成分（単数または複数）を決定するために解析２３にかけられる。この解析は、時間および周波数の関数として行なわれてもよい（オーディオ・コンテンツは時間タイルおよび周波数サブタイルに分割されているとする）。このプロセスの結果は、優勢成分信号２６（または複数の優勢成分信号）および関連する位置（単数または複数）または方向（単数または複数）の情報２５である。その後、伝送されるダウンミックスからの優勢成分信号の再構成を許容するために、重みが推定２４され、出力２７される。このダウンミックス生成器２２は必ずしもLtRtダウンミックス規則に従う必要はなく、負でない実数値のダウンミックス係数を使う標準的なITU（LoRo）ダウンミックスであることができる。最後に、出力ダウンミックス信号２９、重み２７および位置データ２５は、オーディオ・エンコーダ２８によってパッケージされて、頒布のために準備される。

ここで図３に目を転じると、好ましい実施形態の対応するデコーダ３０が示されている。オーディオ・デコーダはダウンミックス信号を再構成する。信号は入力３１され、オーディオ・デコーダ３２によってダウンミックス信号、重みおよび優勢成分の方向にアンパックされる。その後、優勢成分推定重みが、ステアリングされる成分（単数または複数）を再構成３４するために使われ、ステアリングされる成分は、伝送された位置または方向データを使ってレンダリング３６される。位置データは任意的に、頭部回転または並進情報３８に依存して修正３３されてもよい。さらに、再構成された優勢成分は、ダウンミックスから減算３５されてもよい。任意的に、ダウンミックス・パス内に優勢成分の減算があるが、代替的に、この減算は、後述するように、エンコーダにおいて行なわれてもよい。

減算器３５における再構成された優勢成分の除去または打ち消しを改善するために、優勢成分出力は、減算に先立ってまず、伝送された位置または方向データを使ってレンダリングされてもよい。図３ではこの任意的なレンダリング段３９が示されている。

ここで戻ってまずエンコーダをより詳細に述べることにすると、図４は、オブジェクト・ベースの（たとえばドルビー・アトモス）オーディオ・コンテンツを処理するためのエンコーダ４０の一つの形を示している。オーディオ・オブジェクトはもともとアトモス・オブジェクト４１として記憶されており、初期に、ハイブリッド複素数値直交ミラー・フィルタ（HCQMF: hybrid complex-valued quadrature mirror filter）バンク４２を使って時間および周波数タイルに分割される。対応する時間および周波数インデックスを省略するときは、入力オブジェクト信号はx_i[n]によって表わすことができる。現在フレーム内での対応する位置は単位ベクトル

〔便宜上、→p_iとも記す〕によって与えられ、インデックスiはオブジェクト番号を表わし、インデックスnは時間を表わす（たとえばサブバンド・サンプル・インデックス）。入力オブジェクト信号x_i[n]はチャネルまたはオブジェクト・ベースの入力オーディオについての例である。

無残響のサブバンド・バイノーラル混合Y(y_l,y_r)が、位置→p_iに対応するHRIRのサブバンド表現を表わす複素数値のスカラーH_l,i、H_r,i（たとえば、一タップのHRTF ４８）を使って生成４３される：

あるいはまた、バイノーラル混合Y(y_l,y_r)は、頭部インパルス応答（HRIR）を使った畳み込みによって生成されてもよい。さらに、ステレオ・ダウンミックスz_l、z_r（例示的に、初期の出力呈示を具現する）が、振幅パン利得係数g_l,i,、g_r,iを使って生成４４される：

優勢成分の方向ベクトル→p_D（例示的に、優勢オーディオ成分方向または位置を具現する）は、各オブジェクトについての単位方向ベクトルの重み付けされた和を初期に計算することによって、優勢成分４５を計算することによって、推定されることができる：

ここで、σ_i ²は信号x_i[n]のエネルギー：

であり、(.)^*は複素共役演算子である。

優勢／ステアリングされる信号d[n]（例示的に、優勢オーディオ成分を具現する）はその後、次式によって与えられる：

ここで、F(→p₁,→p₂)は、単位ベクトル→p₁、→p₂の間の増大する距離とともに減少する利得を生じる関数である。たとえば、高次球面調和関数に基づく指向性パターンをもつ仮想マイクロフォンを生成するために、一つの実装は：

に対応する。ここで、→p_iは、二次元または三次元座標系における単位方向ベクトルを表わし、(・)は二つのベクトルについてのドット積演算子であり、a、b、cは例示的パラメータである’（たとえばa＝b＝0.5；c＝1）。

重みまたは予測係数w_l,d、w_r,dが計算４６され、推定されるステアリングされる信号＾d[n]：

を計算４７するために使われる。ここで、重みw_l,d、w_r,dは、ダウンミックス信号z_l、z_rが与えられたときに、d[n]と＾d[n]の間の平均方法誤差を最小化するものである。重みw_l,d、w_r,dは、初期の出力呈示（たとえばz_l、z_r）を優勢オーディオ成分（たとえば＾d[n]）にマッピングするための優勢オーディオ成分重み付け因子の例である。これらの重みを導出するための既知の方法は、最小平均平方誤差（MMSE: minimum mean-square error）予測器を適用することによる：

ここで、R_abは、信号aおよび信号bについての信号間の共分散行列であり、εは正則化パラメータである。

その後、優勢成分信号＾dの方向／位置→p_Dに関連付けられたHRTF（HRIR）H_l,D、H_r,D ５０を使って、無残響のバイノーラル混合y_l、y_rから優勢成分信号のレンダリングされた推定値＾d[n]を減算４９して、残差バイノーラル混合~y_l、~y_r：

を生成することができる。

最後に、最小平均平方誤差推定値を使って、ステレオ混合z_l、z_rから残差バイノーラル混合~y_l、~y_rの再構成を許容する、予測係数または重みw_i,jのもう一つの集合が推定５１される：

ここで、R_abは表現aおよび表現bについての信号間の共分散行列であり、εは正則化パラメータである。予測係数または重みw_i,jは、初期の出力呈示（たとえばz_l、z_r）を残差バイノーラル混合の推定値~y_l、~y_rにマッピングするための残差行列係数の例である。上記の式は、何らかの予測損失を克服するために、追加的なレベル制約条件をかけられてもよい。エンコーダは、以下の情報を出力する：
ステレオ混合z_l、z_r（例示的に、初期の出力呈示を具現する）；
優勢成分w_l,d、w_r,dを推定するための係数（例示的に、優勢オーディオ成分重み付け因子を具現する）；
優勢成分の位置または方向→p_D；
そして任意的に、残差重みw_i,j（例示的に、残差行列係数を具現する）。

上記の記述は単一の優勢成分に基づくレンダリングに関するものだが、いくつかの実施形態では、エンコーダは、複数の優勢成分を検出し、複数の優勢成分のそれぞれについて重みおよび方向を決定し、複数の優勢成分のそれぞれを無残響バイノーラル混合Yから減算し、次いで複数の優勢成分のそれぞれが無残響バイノーラル混合Yから減算された後に残差重みを決定するよう適応されてもよい。

〈デコーダ／レンダラー〉
図５は、デコーダ／レンダラー６０の一つの形をより詳細に示している。デコーダ／レンダラー６０は、アンパックされた入力情報z_l、z_r；w_l,d、w_r,d；→p_D；w_i,jから、聴取者７１に対して出力するためのバイノーラル混合y_l,y_rを再構成することをねらいとするプロセスを適用する。よって、ステレオ混合z_l、z_rは第一のオーディオ表現の例であり、予測係数または重みw_i,jおよび／または優勢成分信号＾dの方向／位置→p_Dは、追加的なオーディオ変換データの例である。

初期に、ステレオ・ダウンミックスは、HCQMF分解バンク６１のような好適なフィルタバンクまたは変換６１を使って時間／周波数タイルに分割される。離散フーリエ変換、（修正）コサインまたはサイン変換、時間領域フィルタバンクまたはウェーブレット変換のような他の変換も等しく適用されうる。その後、推定された優勢成分信号＾d[n]が、予測係数重みw_l,d、w_r,dを使って計算６３される：

推定された優勢成分信号＾d[n]は、補助信号の例である。よって、この段階は、前記第一のオーディオ表現および受領された変換データに基づいて一つまたは複数の補助信号を生成することに対応する。

この優勢成分信号は、その後、HRTF ６９を用いて、レンダリング６５および修正６８される。HRTF ６９は、伝送された位置／方向データ→p_Dに基づき、可能性としては頭部追跡器から得られた情報６２に基づいて修正（回転）されている。最後に、全無残響バイノーラル出力は、レンダリングされた優勢成分信号を、予測係数重みw_i,jに基づく再構成された残差~y_l、~y_rと加算６６したものからなる：

全無残響バイノーラル出力は、第二のオーディオ表現の例である。よって、この段階は、前記第一のオーディオ表現および前記補助信号の組み合わせからなる第二のオーディオ表現を生成することに対応すると言ってもよい。ここで、前記補助信号の一つまたは複数は、前記頭部配向データに応答して修正されている。

二つ以上の優勢信号についての情報が受領される場合には、各優勢信号がレンダリングされて、再構成された残差信号に加えられてもよいことを注意しておくべきである。

頭部回転や並進が適用されない限り、出力信号＾y_l、＾y_rは、

である限りにおいて、参照バイノーラル信号y_l、y_rに非常に近い（二乗平均平方根誤差の意味で）はずである。

〈主要な特性〉
上記の式の定式化から観察できるように、ステレオ呈示から無残響バイノーラル呈示を構築するための実効的な動作は、2×2行列７０からなり、行列係数は伝送された情報w_l,d、w_r,d；→p_D；w_i,jおよび頭部追跡器の回転および／または並進に依存する。これは、プロセスの複雑さが比較的低いことを示す。優勢成分の分解がデコーダではなくエンコーダにおいて適用されるからである。

優勢成分が推定されない場合（たとえばw_l,d、w_r,d＝0）、記載される解決策は、パラメトリック・バイノーラル方法と等価である。

ある種のオブジェクトを頭部回転／頭部追跡から除外したい場合には、これらのオブジェクトは、（１）優勢成分方向解析および（２）優勢成分信号予測から除外されることができる。結果として、これらのオブジェクトは、係数w_i,jを通じて、ステレオからバイノーラルに変換され、よっていかなる頭部回転または並進によっても影響されない。

同様の考え方により、オブジェクトは「素通し」モードに設定されることができる。つまり、バイノーラル呈示において、それらのオブジェクトはHRIR畳み込みではなく振幅パンにかけられる。これは、一タップHRTFではなく、単に係数H_.,iについての振幅パン利得を使って得られる。

〈拡張〉
実施形態は、ステレオ・ダウンミックスの使用に限定されない。他のチャネル数を用いることもできる。

図５を参照して述べたデコーダ６０は、レンダリングされた優勢成分方向に、行列係数w_i,jによって行列処理された入力信号を加えたものからなる出力信号をもつ。該係数は、たとえば下記のようなさまざまな仕方で導出できる。

１．係数w_i,jは、信号~y_l、~y_rのパラメトリック再構成によってエンコーダにおいて決定されることができる。換言すれば、この実装では、係数w_i,jは、もとの入力オブジェクト／チャネルをバイノーラルにレンダリングするときに得られたであろうバイノーラル信号y_l、y_rを忠実に再構成することをねらいとする。換言すれば、係数w_i,jはコンテンツ駆動である。

２．係数w_i,jは、たとえば方位角±45度における固定した空間位置についてのHRTFを表わすために、エンコーダからデコーダに送られることができる。換言すれば、残差信号は、ある位置における二つの仮想ラウドスピーカーを通じた再生をシミュレートするために処理される。HRTFを表わすこれらの係数がエンコーダからデコーダに伝送されるので、仮想スピーカーの位置は時間および周波数を通じて変化できる。この手法が、残差信号を表わすための静的な仮想スピーカーを使って用いられる場合には、係数w_i,jはエンコーダからデコーダに伝送される必要はなく、その代わり、デコーダに固定的に組み込まれていてもよい。この手法の変形は、デコーダにおいて利用可能な、それぞれ対応する係数w_i,jをもつ静的な位置の限定された集合からなる。どの静的な位置が残差信号を処理するために使われるかの選択は、エンコーダからデコーダに信号伝達される。

信号~y_l、~y_rは、デコーダにおけるこれらの信号の統計的解析によって二つより多い信号を再構成するいわゆるアップミキサーにかけられて、続いて、結果として得られるアップミックスされた信号のバイノーラル・レンダリングがされてもよい。

記載される方法は、伝送される信号Zがバイノーラル信号であるシステムにおいても適用できる。その特定の場合、図５のデコーダ６０はそのままであり、一方、図４における「ステレオ（LoRo）混合を生成」とラベル付けされたブロックは、信号対Yを生成するブロックと同じである「無残響バイノーラル混合を生成」４３によって置き換えられるべきである。さらに、必要に応じて、混合の他の形が生成されることができる。

この手法は、オブジェクトまたはチャネルの特定のサブセットからなる伝送されたステレオ混合から、一つまたは複数のFDN入力信号を再構成する方法に拡張されることができる。

本手法は、デコーダ側において、複数の優勢成分が、伝送されたステレオ混合から予測され、レンダリングされることで拡張されることができる。各時間／周波数タイルについて一つの優勢成分だけを予測するという根本的な制限はない。特に、優勢成分の数は、各時間／周波数タイルについて異なっていてもよい。

〈解釈〉
本明細書を通じて「一つの実施形態」「いくつかの実施形態」または「ある実施形態」への言及は、その実施形態との関連で記載されている特定の特徴、構造または特性が本発明の少なくとも一つの実施形態に含まれることを意味する。よって、「一つの実施形態において」「いくつかの実施形態において」または「ある実施形態において」という句が本明細書を通じた随所に現われることは、必ずしもみなが同じ実施形態を指しているのではないが、指していてもよい。さらに、特定の特徴、構造または特性は、いかなる好適な仕方で組み合わされてもよい。このことは、一つまたは複数の実施形態において、本開示から当業者には明白であろう。

本稿での用法では、特に断わりのない限り、共通のオブジェクトを記述する順序形容語「第一」「第二」「第三」などの使用は、単に同様のオブジェクトの異なるインスタンスが言及されていることを示すものであって、そのように記述されるオブジェクトが時間的、空間的、ランキングにおいてまたは他のいかなる仕方においても、所与の序列でなければならないことを含意することは意図されていない。

付属の請求項および本稿の記述において、有する、から構成されるまたは含むという用語の任意のものは、少なくともその後続の要素／特徴を含むが他のものを排除しないことを意味するオープンな用語である。よって、請求項において使われるときの有するの用語は、その後に挙げられる手段または要素または段階に制限するものとして解釈されるべきではない。たとえば、AおよびBを有する装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本稿で使われる含む、含んでいるという用語の任意のものも、少なくともその用語に続く要素／特徴を含むが他のものを排除しないことを意味する。よって、含むは、有すると同義であり、有するを意味する。

本稿での用法では、用語「例示的」は、性質を示すのではなく、例を挙げる意味で使われる。すなわち、「例示的実施形態」は、必ず例示的な性質の実施形態であるのではなく、例として与えられている実施形態である。

本発明の例示的実施形態の上記の記述において、開示の流れをよくし、さまざまな発明側面の一つまたは複数のものの理解を助けるため、本発明のさまざまな特徴が時に単一の実施形態、図面またはその記述にまとめられていることを注意しておくべきである。しかしながら、この開示法は、請求される発明が、各請求項に明示的に記載されているよりも多くの事項を必要とするという意図を反映したものと解釈されるものではない。むしろ、付属の請求項が反映するように、発明の諸側面は、単一の上記の開示される実施形態の全事項よりも少ないものに存する。このように、付属の請求項は、ここに明示的に詳細な説明に組み込まれ、各請求項がそれ自身として本発明の別個の実施形態をなす。

さらに、本稿に記載されるいくつかの実施形態が他の実施形態に含まれるいくつかの特徴を含むが他の特徴を含まなくても、異なる実施形態の特徴の組み合わせは本発明の範囲内であり、異なる実施形態をなすことが意図されている。当業者はこれを理解するであろう。たとえば、付属の請求項では、請求される実施形態の任意のものが任意の組み合わせにおいて使用できる。

さらに、実施形態のいくつかは、本稿では方法または方法の要素の組み合わせであって、コンピュータ・システムのプロセッサによってまたは該機能を実行する他の手段によって実装されることができるものとして記述されている。よって、そのような方法または方法の要素を実行するための必要な命令をもつプロセッサは、前記方法または方法の要素を実行する手段をなす。さらに、装置実施形態の本稿に記載される要素は、本発明を実行するための該要素によって実行される機能を実行する手段の一例である。

本稿で与えられる記述では、数多くの個別的詳細が記載される。しかしながら、本発明の実施形態がそうした個別的詳細なしでも実施できることは理解される。他方、本記述の理解をかすませないために、よく知られた方法、構造および技法は詳細に示していない。

同様に、請求項において使われるときの用語、結合されたは、直接接続のみに限定されるものと解釈されるべきではない。用語「結合された」および「接続された」ならびにその派生形が使われることがある。これらの用語は互いの同義語として意図されていないことを理解しておくべきである。よって、装置Bに結合された装置Aという表現の範囲は、装置Aの出力が装置Bの入力に直接接続される装置またはシステムに限定されるべきではない。それは、Aの出力とBの入力との間の経路が存在することを意味し、該経路は他の装置または手段を含む経路であってもよい。「結合された」は二つ以上の要素が直接物理的または電気的に接していること、あるいは二つ以上の要素が互いに直接接触してはいないが、それでも互いと協働または相互作用することを意味しうる。

このように、本発明の実施形態を記述してきたが、当業者は本発明の精神から外れることなく、それに他のおよびさらなる修正がなされてもよいことを認識するであろう。それらすべての変更および修正を本発明の範囲内にはいるものとして請求することが意図されている。たとえば、上記の公式はいずれも単に使用されうる手順の代表である。ブロック図から機能が追加または削除されてもよく、機能ブロックの間で動作が交換されてもよい。本発明の範囲内で記述される方法に段階が追加または削除されてもよい。

以下の付番実施例（EEE: enumerated example embodiment）から、本発明のさまざまな側面が理解されうる。
〔EEE１〕
再生のためにチャネル・ベースまたはオブジェクト・ベースの入力オーディオをエンコードする方法であって：
（ａ）前記チャネル・ベースまたはオブジェクト・ベースの入力オーディオを初期の出力呈示に初期にレンダリングし；
（ｂ）前記チャネル・ベースまたはオブジェクト・ベースの入力オーディオから優勢オーディオ成分の推定値を決定し、前記初期の出力呈示を前記優勢オーディオ成分にマッピングするための一連の優勢オーディオ成分重み付け因子を決定し；
（ｃ）前記優勢オーディオ成分の方向または位置の推定値を決定し；
（ｄ）前記初期の出力呈示、前記優勢オーディオ成分重み付け因子、前記優勢オーディオ成分の方向または位置を、再生のためのエンコードされた信号としてエンコードすることを含む、
方法。
〔EEE２〕
前記初期の出力呈示より前記優勢オーディオ成分もしくはその前記推定値のいずれかのレンダリングだけ小さいものである残差混合の推定値を決定することをさらに含む、EEE１記載の方法。
〔EEE３〕
前記チャネル・ベースまたはオブジェクト・ベースの入力オーディオの無残響のバイノーラル混合を生成し、残差混合の推定値を決定することを含み、ここで、前記残差混合の推定値は、前記無残響のバイノーラル混合より、前記優勢オーディオ成分もしくはその前記推定値のいずれかのレンダリングだけ小さいものである、EEE１記載の方法。
〔EEE４〕
前記初期の出力呈示を前記残差混合の推定値にマッピングするための一連の残差行列係数を決定することをさらに含む、EEE２または３記載の方法。
〔EEE５〕
前記初期の出力呈示は、ヘッドフォンまたはラウドスピーカー呈示を含む、EEE１ないし４のうちいずれか一項記載の方法。
〔EEE６〕
前記チャネル・ベースまたはオブジェクト・ベースの入力オーディオは、時間および周波数タイリングされ、前記エンコードする段階は、一連の時間ステップおよび一連の周波数帯域について繰り返される、EEE１ないし５のうちいずれか一項記載の方法。
〔EEE７〕
前記初期の出力呈示は、ステレオ・スピーカー混合を含む、EEE１ないし６のうちいずれか一項記載の方法。
〔EEE８〕
エンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は：
・初期の出力呈示と；
・優勢オーディオ成分の方向および優勢オーディオ成分重み付け因子とを含み、
当該方法は：
（ａ）前記優勢オーディオ成分重み付け因子および初期の出力呈示を利用して、推定された優勢成分を決定し；
（ｂ）前記優勢オーディオ成分の方向に従って、前記推定された優勢成分を、バイノーラル化により、意図される聴取者に対するある空間位置にレンダリングして、レンダリングされたバイノーラル化推定優勢成分を形成し；
（ｃ）前記第一の出力呈示から残差成分推定値を再構成し；
（ｄ）前記レンダリングされたバイノーラル化推定優勢成分および前記残差成分推定値を組み合わせて、出力空間化オーディオ・エンコード信号を形成する段階を含む、
方法。
〔EEE９〕
前記エンコードされたオーディオ信号はさらに、残差オーディオ信号を表わす一連の残差行列係数を含み、前記段階（ｃ）はさらに：
（ｃ１）前記残差行列係数を前記第一の出力呈示に適用して、前記残差成分推定値を再構成することを含む、
EEE８記載の方法。
〔EEE１０〕
前記残差成分推定値は、前記第一の出力呈示から、前記レンダリングされたバイノーラル化推定優勢成分を引くことによって再構成される、EEE８記載の方法。
〔EEE１１〕
前記段階（ｂ）が、意図される聴取者の頭の配向を示す入力頭部追跡信号に基づく、前記推定された優勢成分の初期回転を含む、EEE８記載の方法。
〔EEE１２〕
ヘッドフォンを使う聴取者のためのオーディオ・ストリームのデコードおよび再生のための方法であって、当該方法は：
（ａ）第一のオーディオ表現および追加的なオーディオ変換データを含むデータ・ストリームを受領する段階と；
（ｂ）前記聴取者の配向を表わす頭部配向データを受領する段階と；
（ｃ）前記第一のオーディオ表現および受領された変換データに基づいて一つまたは複数の補助信号を生成する段階と；
（ｄ）前記第一のオーディオ表現および前記補助信号の組み合わせからなる第二のオーディオ表現を生成する段階であって、前記補助信号のうち一つまたは複数は、前記頭部配向データに応答して修正されている、段階と；
（ｅ）前記第二のオーディオ表現を出力オーディオ・ストリームとして出力する段階とを含む、
方法。
〔EEE１３〕
前記補助信号の前記修正は、音源位置から前記聴取者の耳までの音響経路のシミュレーションからなる、EEE１２記載の方法。
〔EEE１４〕
前記変換データは：行列処理係数と、音源位置または音源方向の少なくとも一方とからなる、EEE１２または１３記載の方法。
〔EEE１５〕
変換プロセスは、時間または周波数の関数として適用される、EEE１２ないし１４のうちいずれか一項記載の方法。
〔EEE１６〕
前記補助信号は、少なくとも一つの優勢成分を表わす、EEE１２ないし１５のうちいずれか一項記載の方法。
〔EEE１７〕
前記変換データの一部として受領される前記音源位置または方向は、前記頭部配向データに応答して回転される、EEE１２ないし１６のうちいずれか一項記載の方法。
〔EEE１８〕
最大回転量は、方位角または仰角において360度未満の値に制限される、EEE１７記載の方法。
〔EEE１９〕
前記二次表現は、前記第一の表現から、変換もしくはフィルタバンク領域において行列処理することによって得られる、EEE１２ないし１８のうちいずれか一項記載の方法。
〔EEE２０〕
前記変換データはさらに、追加的な行列処理係数を含み、段階（ｄ）はさらに、前記第一のオーディオ呈示および前記補助オーディオ信号を組み合わせるのに先立って、前記追加的な行列処理係数に応答して前記第一のオーディオ呈示を修正することを含む、EEE１２ないし１９のうちいずれか一項記載の方法。
〔EEE２１〕
EEE１ないし２０のうちいずれか一項記載の方法を実行するよう構成された、一つまたは複数のデバイスを有する装置。
〔EEE２２〕
一つまたは複数のプロセッサによって実行されたときにEEE１ないし２０のうちいずれか一項記載の方法を一つまたは複数のデバイスに実行させる、命令のプログラムを有するコンピュータ可読記憶媒体。

Claims

再生のためにチャネル・ベースまたはオブジェクト・ベースの入力オーディオをエンコードする方法であって：
（ａ）前記チャネル・ベースまたはオブジェクト・ベースの入力オーディオを初期の出力呈示に初期にレンダリングし；
（ｂ）前記チャネル・ベースまたはオブジェクト・ベースの入力オーディオから優勢オーディオ成分の推定値を決定し、前記初期の出力呈示を前記優勢オーディオ成分にマッピングするための一連の優勢オーディオ成分重み付け因子を決定して、前記優勢オーディオ成分重み付け因子および前記初期の出力呈示を利用して前記優勢成分の推定値を決定できるようにし；
（ｃ）前記優勢オーディオ成分の方向または位置の推定値を決定し；
（ｄ）前記初期の出力呈示、前記優勢オーディオ成分重み付け因子、前記優勢オーディオ成分の方向または位置を、再生のためのエンコードされた信号としてエンコードすることを含む、
方法。
前記初期の出力呈示より前記優勢オーディオ成分もしくはその前記推定値のいずれかのレンダリングだけ小さいものである残差混合の推定値を決定することをさらに含む、請求項１記載の方法。
前記チャネル・ベースまたはオブジェクト・ベースの入力オーディオの無残響のバイノーラル混合を生成し、残差混合の推定値を決定することを含み、ここで、前記残差混合の推定値は、前記無残響のバイノーラル混合より、前記優勢オーディオ成分もしくはその前記推定値のいずれかのレンダリングだけ小さいものである、請求項１記載の方法。
前記初期の出力呈示を前記残差混合の推定値にマッピングするための一連の残差行列係数を決定することをさらに含む、請求項２または３記載の方法。
前記初期の出力呈示は、ヘッドフォンまたはラウドスピーカー呈示を含む、請求項１ないし４のうちいずれか一項記載の方法。
前記チャネル・ベースまたはオブジェクト・ベースの入力オーディオは、時間および周波数タイリングされ、前記エンコードする段階は、一連の時間ステップおよび一連の周波数帯域について繰り返される、請求項１ないし５のうちいずれか一項記載の方法。
前記初期の出力呈示は、ステレオ・スピーカー混合を含む、請求項１ないし６のうちいずれか一項記載の方法。
エンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は：
・初期の出力呈示と；
・優勢オーディオ成分の方向および優勢オーディオ成分重み付け因子とを含み、
当該方法は：
（ａ）前記優勢オーディオ成分重み付け因子および初期の出力呈示を利用して、推定された優勢成分を決定し；
（ｂ）前記優勢オーディオ成分の方向に従って、前記推定された優勢成分を、バイノーラル化により、意図される聴取者に対するある空間位置にレンダリングして、レンダリングされたバイノーラル化推定優勢成分を形成し；
（ｃ）前記初期の出力呈示から残差成分推定値を再構成し；
（ｄ）前記レンダリングされたバイノーラル化推定優勢成分および前記残差成分推定値を組み合わせて、出力空間化オーディオ・エンコード信号を形成する段階を含む、
方法。
前記エンコードされたオーディオ信号はさらに、残差オーディオ信号を表わす一連の残差行列係数を含み、前記段階（ｃ）はさらに：
（ｃ１）前記残差行列係数を前記初期の出力呈示に適用して、前記残差成分推定値を再構成することを含む、
請求項８記載の方法。
前記残差成分推定値は、前記初期の出力呈示から、前記レンダリングされたバイノーラル化推定優勢成分を引くことによって再構成される、請求項８記載の方法。
前記段階（ｂ）が、意図される聴取者の頭の配向を示す入力頭部追跡信号に基づく、前記推定された優勢成分の初期回転を含む、請求項８ないし１０のうちいずれか一項記載の方法。
ヘッドフォンを使う聴取者のためのオーディオ・ストリームのデコードおよび再生のための方法であって、当該方法は：
（ａ）第一のオーディオ表現および追加的なオーディオ変換データを含むデータ・ストリームを受領する段階と；
（ｂ）前記聴取者の配向を表わす頭部配向データを受領する段階と；
（ｃ）前記第一のオーディオ表現および受領された変換データに基づいて一つまたは複数の補助信号を生成する段階と；
（ｄ）前記第一のオーディオ表現および前記補助信号の組み合わせからなる第二のオーディオ表現を生成する段階であって、前記補助信号のうち一つまたは複数は、前記頭部配向データに応答して修正されている、段階と；
（ｅ）前記第二のオーディオ表現を出力オーディオ・ストリームとして出力する段階とを含む、
方法。
前記補助信号の前記修正は、音源位置から前記聴取者の耳までの音響経路のシミュレーションからなる、請求項１２記載の方法。
前記変換データは：行列処理係数と、音源位置または音源方向の少なくとも一方とからなる、請求項１２または１３記載の方法。
変換プロセスは、時間または周波数の関数として適用される、請求項１２ないし１４のうちいずれか一項記載の方法。
前記補助信号は、少なくとも一つの優勢成分を表わす、請求項１２ないし１５のうちいずれか一項記載の方法。
前記変換データの一部として受領される前記音源位置または方向は、前記頭部配向データに応答して回転される、請求項１２ないし１６のうちいずれか一項記載の方法。
最大回転量は、方位角または仰角において360度未満の値に制限される、請求項１７記載の方法。
前記二次表現は、前記第一の表現から、変換もしくはフィルタバンク領域において行列処理することによって得られる、請求項１２ないし１７のうちいずれか一項記載の方法。
前記変換データはさらに、追加的な行列処理係数を含み、段階（ｄ）はさらに、前記第一のオーディオ呈示および前記補助オーディオ信号を組み合わせるのに先立って、前記追加的な行列処理係数に応答して前記第一のオーディオ呈示を修正することを含む、請求項１２ないし１９のうちいずれか一項記載の方法。
請求項１ないし２０のうちいずれか一項記載の方法を実行するよう構成された、一つまたは複数のデバイスを有する装置。
一つまたは複数のプロセッサによって実行されたときに請求項１ないし２０のうちいずれか一項記載の方法を一つまたは複数のデバイスに実行させる、命令のプログラムを有するコンピュータ可読記憶媒体。