JP7286876B2

JP7286876B2 - 変換パラメータによるオーディオ符号化／復号化

Info

Publication number: JP7286876B2
Application number: JP2022517390A
Authority: JP
Inventors: イエローンブリーバールト，ディルク; ブランドメイヤー，アレックス; アンキャリークラム，ポピー; スティールジョイナー，マクレガー; エス．マグラス，デイヴィッド; ファネッリ，アンドレア; ジェイ．ウィルソン，ロンダ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-09-23
Filing date: 2020-09-22
Publication date: 2023-06-05
Anticipated expiration: 2040-09-22
Also published as: WO2021061675A1; EP4035426A1; US20220366919A1; JP2022548697A; CN114503608B; EP4035426B1; CN114503608A

Description

本発明は、１つ以上のオーディオ成分を含むオーディオコンテンツの符号化及び復号化に関係がある。

没入型エンターテイメントコンテンツは、通常、映画館、ホームオーディオシステム及びヘッドホンなどの対象再生システムにわたるオーディオの作成、コーディング、分配及び再生のために、チャネル又はオブジェクトベースのフォーマットを用いる。チャネルベースのフォーマット及びオブジェクトベースのフォーマットは両方とも、オーディオが再生されている対象システムのために再生を最適化するために、ダウンミキシングなどの種々のレンダリングストラテジを用いる。

ヘッドホン再生の場合に、図１に表されている、１つの可能性のあるレンダリングソリューションは、頭部インパルス応答（head-related impulse responses，ＨＲＩＳ）（時間領域）又は頭部伝達関数（head-related transfer functions，ＨＲＴＦ）（周波数領域）を使用して、マルチチャネルスピーカ再生システムをシミュレートする。ＨＲＩＲ及びＨＲＴＦは、音がスピーカからリスナーの鼓膜へ伝わるものとして。音響環境の様々な局面をシミュレートする。具体的に、これらの応答は、両耳間時間差（interaural time differences，ＩＴＤ）や両耳間レベル差（interaural level differences，ＩＴＬ）などの特定のキューと、環境内での音の空間的位置に関するリスナーの知覚を知らせるスペクトルキューとを導入する。残響キューの更なるシミュレーションは、リスナーに対する音の知覚距離を知らせ、部屋又は他の環境の具体的な物理特性に関する情報を提供することができる。結果として得られる２チャネル信号は、オーディオコンテンツのバイノーラル再生プレゼンテーションと呼ばれる。

しかし、このアプローチは、いくつかの課題を提示する。第１に、データネットワーク上での没入型コンテンツフォーマット（高チャネルカウント又はオブジェクトベース）の配信は、伝送のためのバンド幅の増大及びこの配信の関連コスト／技術的制限に関連している。第２に、再生デバイスでＨＲＩＲ／ＨＲＴＦを活用することは、配信されたコンテンツにおいてチャネル又はオブジェクトごとに信号処理が適用されることを必要とする。これは、レンダリングの複雑性が、配信されるチャネル／オブジェクトごとに線形に増大することを暗示する。処理出力及びバッテリ寿命が限られているモバイルデバイスは、ヘッドホンオーディオ再生のために使用されるデバイスであることが多いため、そのようなレンダリングシナリオでは、バッテリ寿命が短縮され、他のアプリケーション（すなわち、グラフィック／ビデオレンダリング）に利用可能な処理が制限されることになる。

デバイス側の要求を減らすための１つの解決策は、送信前にＨＲＩＲ／ＨＲＴＦによる畳み込みを実行して（「バイノーラル事前レンダリング（binaural pre-rendering）」）、デバイスでのオーディオレンダリングの計算の複雑さと、送信に必要な全体的なバンド幅との両方を減らす（つまり、より多くのチャネル又はオブジェクト数の代わりに、２つのオーディオチャネルを配信する）。ただし、バイノーラル事前レンダリングには追加的な制約が付随する。コンテンツに導入された様々な空間キュー（ＩＴＤＤ、ＩＬＤ、及びスペクトルキュー）は、ラウドスピーカでオーディオを再生するときにも存在し、有効にこれらのキューが２回適用されることになり、最終的なオーディオ再生に不要なアーティファクトを導入する。

国際公開第２０１７／０３５２８１号（特許文献１）には、再生システムがコンテンツ生成／符号化中に想定された指定レイアウトに一致しないときに、第１信号表現を第２信号表現に変換するための変換パラメータの形でメタデータを使用する方法が開示されている。この方法の適用の具体例は、ステレオラウドスピーカ対を対象とした信号表現としてオーディオを符号化し、この信号表現がヘッドホン再生を対象とした信号プレゼンテーションに変換されることを可能にするメタデータ（パラメータ）を導入することである。この場合に、メタデータは、ＨＲＩＲ／ＢＲＩＲ畳み込みプロセスから生じる空間キューを導入する。このアプローチによれば、再生デバイスは、比較的に低いコスト（バンド幅及び処理出力）で２つの異なる信号プレゼンテーションへのアクセスを有する。

国際公開第２０１７／０３５２８１号

有意な改善を示すものの、特許文献１のアプローチにはいくつかの欠点がある。例えば、音の空間的位置を知覚する人間の能力を表すＩＴＤ、ＩＬＤ及びスペクトルキューは、個々の身体的特性の違いにより、個人間で異なっている。具体的に、耳、頭部、及び導体のサイズ及び形状がキューの性質を決定し、全てのキューが個人間で実質的に異なる可能性がある。各個人は、空間聴覚の目的で、身体と音響環境との相互作用から生じる特定のキューを最適に活用することを時間をかけて学んできた。従って、メタデータパラメータによってもたらされるプレゼンテーション変換は、変換によって復号化プロセス中に導入される空間キューが音響環境との自然に発生する相互作用に一致しないということで、かなりの数の個人にとってヘッドホンでの最適なオーディオ再生につながらない場合がある。

費用効率的な方法で再生デバイスにおける信号プレゼンテーションの改善された個別化をもたらす満足な解決法を提供することが望まれている。

従って、本発明の目的は、再生デバイスにおける信号プレゼンテーションの改善された個別化を提供することである。更なる目的は、再生品質及び効率を最適化するとともに、ヘッドホン再生中にチャネル及びオブジェクトベースの空間オーディオコンテンツの創造的意図を保つことである。

本発明の第１の態様に従って、この及び他の目的は、１つ以上のオーディオ成分を含む入力オーディオコンテンツを符号化する方法であって、各オーディオ成分が空間的位置に関連する、前記方法において、
前記入力オーディオコンテンツのオーディオ再生プレゼンテーションをレンダリングするステップであり、前記オーディオ再生プレゼンテーションがオーディオ再生システムでの再生を目的とする、ステップと、
Ｍ組の伝達関数を前記入力オーディオコンテンツに適用することによってＭ個のバイノーラル表現の組を決定するステップであり、前記Ｍ組の伝達関数が個別的なバイノーラル再生プロファイルの集合に基づく、ステップと、
前記オーディオ再生プレゼンテーションから前記Ｍ個のバイノーラル表現のＭ個の近似への変換を可能にするＭ組の変換パラメータを計算するステップであり、前記Ｍ組の変換パラメータが、前記Ｍ個のバイノーラル表現と前記Ｍ個の近似との間の差を最適化することによって決定される、ステップと、
前記オーディオ再生プレゼンテーション及び前記Ｍ組の変換パラメータを、デコーダへの伝送のために符号化するステップと
を有する方法によって達成される。

本発明の第２の態様に従って、この及び他の目的は、個人化されたバイノーラル再生プレゼンテーションをオーディオビットストリームから復号する方法であって、
オーディオ再生システムでの再生を目的としたオーディオ再生プレゼンテーションを受け取り復号するステップと、
前記オーディオ再生プレゼンテーションからＭ個のバイノーラル表現のＭ個の近似への変換を可能にするＭ組の変換パラメータを受け取り復号するステップであり、前記Ｍ組の変換パラメータが、前記Ｍ個のバイノーラル表現と、前記オーディオ再生プレゼンテーションへの前記変換パラメータの適用によって生成された前記Ｍ個の近似との間の差を最小限にするようエンコーダによって決定されたものである、ステップと、
前記Ｍ組の変換パラメータを、変換パラメータの個人化された組に結合するステップと、
前記変換パラメータの個人化された組を前記オーディオ再生プレゼンテーションに適用して、前記個人化されたバイノーラル再生プレゼンテーションを生成するステップと
を有する方法によって達成される。

本発明の第３の態様に従って、この及び他の目的は、１つ以上のオーディオ成分を含む入力オーディオコンテンツを符号化するエンコーダであって、各オーディオ成分が空間的位置に関連する、前記エンコーダにおいて、
前記入力オーディオコンテンツのオーディオ再生プレゼンテーションをレンダリングする第１レンダラであり、前記オーディオ再生プレゼンテーションがオーディオ再生システムでの再生を目的とする、前記第１レンダラと、
Ｍ組の伝達関数を前記入力オーディオコンテンツに適用することによってＭ個のバイノーラル表現の組を決定する第２レンダラであり、前記Ｍ組の伝達関数が個別的なバイノーラル再生プロファイルの集合に基づく、前記第２レンダラと、
前記オーディオ再生プレゼンテーションから前記Ｍ個のバイノーラル表現のＭ個の近似への変換を可能にするＭ組の変換パラメータを計算するパラメータ推定モジュールであり、前記Ｍ組の変換パラメータが、前記Ｍ個のバイノーラル表現と前記Ｍ個の近似との間の差を最適化することによって決定される、前記パラメータ推定モジュールと、
前記オーディオ再生プレゼンテーション及び前記Ｍ組の変換パラメータを、デコーダへの伝送のために符号化する符号化モジュールと
を有するエンコーダによって達成される。

本発明の第４の態様に従って、この及び他の目的は、個人化されたバイノーラル再生プレゼンテーションをオーディオビットストリームから復号するデコーダであって、
前記オーディオビットストリームを受け取り、オーディオ再生システムでの再生を対象としたオーディオ再生プレゼンテーションと、前記オーディオ再生プレゼンテーションからＭ個のバイノーラル表現のＭ個の近似への変換を可能にするＭ組の変換パラメータとを復号する復号化モジュールであり、前記Ｍ組の変換パラメータが、前記Ｍ個のバイノーラル表現と、前記オーディオ再生プレゼンテーションへの前記変換パラメータの適用によって生成された前記Ｍ個の近似との間の差を最小限にするようエンコーダによって決定されたものである、前記復号化モジュール、
前記Ｍ組の変換パラメータを、変換パラメータの個人化された組に結合する処理モジュールと、
前記変換パラメータの個人化された組を前記オーディオ再生プレゼンテーションに適用して、前記個人化されたバイノーラル再生プレゼンテーションを生成するプレゼンテーション変換モジュールと
を有するデコーダによって達成される。

本発明のいくつかの態様に従って、エンコーダ側で、複数の変換パラメータセット（複数のメタデータストリーム）は、入力されたオーディオのレンダリングされた再生プレゼンテーションとともに符号化される。複数のメタデータストリームは、入力された没入型オーディオコンテンツのバイノーラル表現の組を、複数の（個別的な）聴覚プロファイル、デバイス伝達関数、ＨＲＴＦ又は個人間のＨＲＴＦの差を表すプロファイルを用いて決定することと、次いで、再生プレゼンテーションを発端として表現を近似するよう必要な変換パラメータを計算することとによって導出される変換パラメータ又はレンダリング係数の別個の組を表す。

本発明のいくつかの態様に従って、デコーダ（再生）側で、変換パラメータは、個々のリスナーのために彼らの聴覚プロファイル、選択されたヘッドホンデバイス及び／又はリスナー特有の空間キュー（ＩＴＤ、ＩＬＤ、スペクトルキュー）に関して最適化されたバイノーラル再生プレゼンテーションを提供するよう再生プレゼンテーションを変換するために使用される。これは、メタデータストリームに存在するデータの選択又は結合によって達成され得る。より具体的には、個人化されたプレゼンテージョンが、ユーザ特有の選択又は結合ルールの適用によって取得される。

変換パラメータを用いて、符号化された再生プレゼンテーションからのバイノーラル再生プレゼンテーションの近似を可能にする概念は、それ自体は目新しいものではなく、参照により本願に援用される上記の特許文献１でいくらか詳細に論じられている。

本発明の実施形態によれば、複数の、そのような変換パラメータセットは、個人化（personalization）を可能にするために用いられる。個人化されたバイノーラルプレゼンテーションは、その後に、所与のユーザのために、その所与のユーザの聴覚プロファイル、再生デバイス及びＨＲＴＦを可能な限り近く一致させることに関して実現され得る。

本発明は、バイノーラルプレゼンテーションが、従来の再生プレゼンテーションよりも大幅に、個人化からの恩恵を受け、変換パラメータの概念がそのような個人化の提供に対する費用効率的なアプローチを提供するという認識に基づいている。

本発明は、本発明の目下好適な実施形態を示す添付の図面を参照して、より詳細に記載される。

バイノーラル再生プレゼンテーションへのオーディオデータのレンダリングを表す。本発明の実施形態に従うエンコーダ／デコーダシステムを概略的に示す。本発明の更なる実施形態に従うエンコーダ／デコーダシステムを概略的に示す。

以下で開示されているシステム及び方法は、ソフトウェア、ファームウェア、ハードウェア又はそれらの組み合わせとして実装されてよい。ハードウェア実装では、タスクの分割は、物理ユニットへの分割に必ずしも対応しない。それとは反対に、１つの物理コンポーネントが複数の機能を備えていることがあり、１つのタスクがいくつかの物理コンポーネントによって協調して実行されることがある。あるコンポーネント又は全てのコンポーネントは、デジタル信号プロセッサ又はマイクロプロセッサによって実行されるソフトウェアとして実装されても、あるいは、ハードウェアとして又は特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体（又は非一時的な媒体）及び通信媒体（又は一時的な媒体）を有し得るコンピュータ可読媒体で配布されてもよい。当業者によく知られているように、「コンピュータ記憶媒体」という用語は、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータなどの情報の記憶のための如何なる方法又は技術でも実装された揮発性及び不揮発性の両方のリムーバブル及び非リムーバブル媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ若しくは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル・バーサタイル・ディスク（ＤＶＤ）若しくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又は他の磁気記憶デバイス、又は所望の情報を記憶するために使用可能であって、コンピュータによってアクセス可能であるあらゆる他の媒体を含むが、これらに限られない。更に、通信媒体が、通常、搬送波又は他の輸送メカニズムなどの変調されたデータ信号でコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータを具体化し、そして、如何なる情報配信媒体も含むことは、当業者によく知られている。

ここで開示されている実施形態は、ステレオ又はヘッドホン（バイノーラル）再生に適しているチャネル及び／又はオブジェクトベースのオーディオの低ビットレートかつ低複雑性の符号化／復号化のための方法を提供する。これは、（１）特定のオーディオ再生システム（例えば、ラウドスピーカ、しかしこの限りでない。）を対象としたオーディオ再生プレゼンテーションをレンダリングすることと、（２）ヘッドホンでの再生を対象としたバイノーラルプレゼンテーションの組へのそのオーディオ再生プレゼンテーションの変換を可能にする追加のメタデータを加えることとによって、達成される。バイノーラルプレゼンテーションは、定義上、２チャネルプレゼンテーション（ヘッドホン用）であるが、オーディオ再生プレゼンテーションは、原理上、いくつでもチャネルを有することができる（例えば、ステレオラウドスピーカプレゼンテーション用には２、又は５．１ラウドスピーカプレゼンテーション用には５）。しかし、具体的な実施形態の以下の記載では、オーディオ再生プレゼンテーションは、常に２チャネルプレゼンテーション（ステレオ又はバイノーラル）である。

以下の開示で、「バイノーラル表現」という表現は、バイノーラル情報を表す信号対のためにも使用されるが、必ずしもそれ自体が再生を目的しているとは限らない。例えば、いくつかの実施形態において、バイノーラルプレゼンテーション（presentation）は、バイノーラル表現（representations）の結合によって、又はバイノーラルプレゼンテーションとバイノーラル表現とを結合することによって、達成され得る。

［個別的に最適化されたバイノーラルオーディオのラウドスピーカ互換配信］
図２に表されている第１実施形態において、エンコーダ１１は、マルチチャネル又はオブジェクトベースの（没入型）オーディオコンテンツ１０を再生プレゼンテーションＺ、ここでは、２つのラウドスピーカでの再生を対象とした２チャネル（ステレオ）プレゼンテーションにレンダリングする第１レンダリングモジュール１２を含む。エンコーダ１１は、データベース１４に記憶されているＨＲＴＦ（又はその導出されたデータ）を用いて、オーディオコンテンツをＭ個のバイノーラルプレゼンテーションＹｍ（ｍ＝１，・・・，Ｍ）の組にレンダリングする第２レンダリングモジュール１３を更に含む。エンコーダ１１は、再生プレゼンテーションＺ及びＭ個のバイノーラルプレゼンテーションＹｍの組を受け取るよう接続されており、バイノーラルプレゼンテーションＹｍの夫々についてのプレゼンテーション変換パラメータＷｍの組を計算するよう構成されたパラメータ推定モジュール１５を更に有する。プレゼンテーション変換パラメータＷｍは、ラウドスピーカプレゼンテーションＺからのＭ個のバイノーラルプレゼンテーションの近似を可能にする。最後に、エンコーダ１１は、再生プレゼンテーションＺ及びパラメータセットＷｍを、符号化されたビットストリーム２０に結合する実際の符号化モジュール１６を含む。

図２は、デコーダ２１を更に表す。デコーダ２１は、ビットストリーム２０を再生プレゼンテーションＺ及びＭ個のパラメータセットＷｍに復号する復号化モジュール２２を含む。デコーダ２１は、ｍ組の変換パラメータを受け、Ｍ個のパラメータセットＷｍの選択又は結合であるひと組の変換パラメータＷ’を出力するよう構成される処理モジュール２３を更に有する。処理モジュール２３によって実行される選択又は結合は、結果として得られるバイノーラルプレゼンテーションＹ’を現在のリスナーのために最適化するよう構成される。それは、前に記憶されたユーザプロファイル２４に基づいても、あるいは、ユーザにより制御されたプロセスであってもよい。

プレゼンテーション変換モジュール２５は、変換パラメータＷ’をオーディオプレゼンテーションＺに適用して、推定（個人化）されたバイノーラルプレゼンテーションＹ’を供給するよう構成される。

図２のエンコーダ／デコーダでの処理について、これより、更に詳細に論じる。

離散時間サンプルインデックスｎを有する入力チャネル又はオブジェクトｘ_ｉ［ｎ］の組を考えると、ここではラウドスピーカチャネルの組である対応する再生プレゼンテーションＺは、レンダラ１２において、スピーカｓに対するオブジェクト／チャネルｉのゲインを表す振幅パニング（amplitude panning）ゲインｇ_ｓ，ｉを用いて生成される：

入力コンテンツがチャネル又はオブジェクトベースであるか否かに応じて、振幅パニングゲインｇ_ｓ，ｉは、一定であるか（チャネルベース）、あるいは、時間変化するか（オブジェクトベース）（関連する時間変化する位置メタデータの関数として）のどちらかである。

並行して、ヘッドホンプレゼンテーション信号対Ｙｍ＝｛Ｙ_ｌ，ｍ，Ｙ_ｒ，ｍ｝が、レンダラ１３において、各入力ｉ及び各プレゼンテーションｍについて一対のフィルタｈ_{｛ｌ，ｒ｝，ｍ，ｉ}を用いてレンダリングされる：

ここで、（○）は、畳み込み演算子である。各入力ｉ及び各プレゼンテーションｍについてのフィルタｈ_{｛ｌ，ｒ｝，ｍ，ｉ}の対は、方位角（azimuth angle）（α）及び仰角（elevation angle）（θ）によって与えられる音源から両耳までの、プレゼンテーションｍごとの音響伝達関数（頭部伝達関数，ＨＲＴＦ）を記述するＭ個のＨＲＴＦセットｈ_{｛ｌ，ｒ｝，ｍ}（α，θ）から導出される。一例として、様々なプレゼンテーションｍは、個々のリスナーを参照してもよく、ＨＲＴＦセットは、各リスナーの人体測定特性の差を反映する。便宜上、あるプレゼンテーションのＮ個の時間連続的なサンプルのフレームは、次の通りに表記される：

上記の特許文献１で記載されているように、推定モジュール１５は、プレゼンテーションＹｍとその推定（ハット付き）Ｙｍとの間の平均平方二乗誤差（ＲＭＳＥ）を最小化することによって、プレゼンテーションｍについてのプレゼンテーション変換データＷｍを計算する：

これは、次を与える：

ここで、（＊）は、複素共役転置演算子であり、イプシロンは、正則化パラメータである。プレゼンテーションｍごとのプレゼンテーション変換データＷｍは、エンコーダ出力ビットストリーム２０を形成するように、符号化モジュール１６によって、再生プレゼンテーションＺとともに符号化される。

デコーダ側では、復号化モジュール２２が、ビットストリーム２０を再生プレゼンテーションＺ及びプレゼンテーション変換データＷｍに復号する。処理ブロック２３は、ユーザ入力又は前に記憶されたユーザプロファイル２４に基づき、個人化されたプレゼンテーション変換Ｗ’を供給するようプレゼンテーション変換データＷｍの全て又は一部を使用又は結合する。近似された個人化された出力バイノーラルプレゼンテーションＹ’が、次いで：

によって与えられる。

一例で、ブロック２３での処理は、単純に、Ｍ個のパラメータセットＷｍからの１つの選択である。しかし、個人化されたプレゼンテーション変換Ｗ’は、代替的に、Ｍ組のプレゼンテーション変換係数Ｗｍの加重線形結合として定式化さえ得る：

ここで、重みａｍは、少なくとも２人のリスナーについて異なっている。

個人化されたプレゼンテーション変換Ｗ’は、モジュール２５において、推定された個人化されたバイノーラルプレゼンテーションＹ’を供給するよう、復号された再生プレゼンテーションＺに適用される。

変換は、線形ゲインＮ×２行列の適用であってよく、Ｎは、オーディオ再生プレゼンテーションにおけるチャネルの数であり、行列の要素は、変換パラメータによって形成される。この場合に、変換が２チャネルラウドスピーカプレゼンテーションから２チャネルバイノーラルプレゼンテーションへであるとき、行列は２×２行列になる。

個人化されたバイノーラルプレゼンテーションＹ’は、ヘッドホンの組２６へ出力されてよい。

［デフォルトのバイノーラルプレゼンテーションをサポートする個別的なプレゼンテーション］
ラウドスピーカ互換プレゼンテーションが不要である場合には、再生プレゼンテーションは、ラウドスピーカプレゼンテーションの代わりに、バイノーラルプレゼンテーションであってよい。このバイノーラルプレゼンテーションは、デフォルトのＨＲＴＦで、例えば、全てのリスナーのための万能的（on-size-fits-all）解決法を提供することを目的としているＨＲＴＦで、レンダリングされてよい。デフォルトのＨＲＴＦ

の例は、ダミー頭部又はマネキンから測定又は導出されるものである。デフォルトのＨＲＴＦセットの他の例は、個々のリスナーからのセット全体で平均化されたセットである。その場合に、信号対Ｚは：

によって与えられる。

［カノニカルＨＲＴＦセットに基づいた実施形態］
他の実施形態では、複数のバイノーラルプレゼンテーションを生成するために使用されるＨＲＴＦは、それらが広範な人体測定の変動性をカバーするように選択される。その場合に、エンコーダで使用されるＨＲＴＦは、それらのＨＲＴＦセットのうちの１つ以上の組み合わせがリスナーの幅広い集団にわたる如何なる既存のＨＲＴＦセットも記述することができるということで、カノニカル（canonical）ＨＲＴＦセットと呼ばれ得る。カノニカルＨＲＴＦの数は、周波数によって異なることがある。カノニカルＨＲＴＦセットは、ＨＲＴＦセットをクラスタリングし、外れ値を識別し、多変量密度推定を行い、頭部の直径及び耳介のサイズなどの人体測定属性の極値を使用することによって、決定され得る。

カノニカルＨＲＴＦを用いて生成されたビットストリームは、個人化されたプレゼンテーションを復号化及び再生するための選択又は結合ルールを必要とする。特定のリスナーのＨＲＴＦが知られており、左（ｌ）及び右（ｒ）の耳並びに方向ｉについてのｈ’_{｛ｌ，ｒ｝，ｉ}によって与えられる場合に、例えば、ある距離基準に基づいてリスナーのＨＲＴＦセットに最も類似している復号化のためのカノニカルＨＲＴＦセットｍ’を使用することを選択することができる。例えば：

代替的に、ＨＲＴＦセットｍとリスナーのＨＲＴＦｈ’_{｛ｌ，ｒ｝，ｉ}との間の相関などの類似性メトリックに基づいて、カノニカルＨＲＴＦにわたって重みａｍを用いて加重平均を計算することができる：

［ＨＲＴＦ基底関数の限られた組を使用する実施形態］
カノニカルＨＲＴＦを使用する代わりに、ＨＲＴＦの母集団は、固定基底関数の組と、特定のＨＲＴＦセットを再構成するためのユーザ依存の重みの組とに分解されてもよい。この概念は、それ自体は目新しいものではなく、文献に記載されている。そのような直交基底関数を計算する１つの方法は、論文Zhang, Mengfan & Ge, Zhongshu & Liu, Tiejun & Wu, Xihong & Qu, Tianshu著，Modeling of Individual HRTFs based on Spatial Principal Component Analysis（２０１９年）で論じられている主成分分析（principal component analysis，ＰＣＡ）を使用することである。

プレゼンテーション変換という観点でのこのような基底関数の適用は今までになく、限られた数のプレゼンテーション変換データセットを使用して個人化のための高い精度を取得することができる。

例となる実施形態として、個人化されたＨＲＴＦセット

は、基底関数ｍごとに重みａｍを用いたＨＲＴＦ基底関数ｂ_{ｌ，ｍ，ｉ}、ｂ_{ｒ，ｍ，ｉ}の加重和によって構成され得る：

レンダリングのために、個人化されたバイノーラルプレゼンテーションは、次いで：

によって与えられる。

和を並べ替えると、これは、基底関数の夫々から生成された寄与の加重和と同じであることが分かる：

基底関数寄与は、バイノーラル情報を表すが、それらが、リスナー間の差しか表さないために、単独で聞かれることを意図されていないという意味で、プレゼンテーションではない。それらは、バイノーラル差分表現と呼ばれ得る。

図３のエンコーダ／デコーダシステムを参照して、エンコーダ３１において、バイノーラルレンダラ３２は、データベース１４からの選択されたＨＲＴＦセットを入力オーディオ１０に適用することによって一次（デフォルト）バイノーラル表現Ｚをレンダリングする。並行して、レンダラ３３は：

に従って、データベース３４からの基底関数を入力オーディオ１０に適用することによって様々なバイノーラル差分表現をレンダリングする。

ｍ組の変換係数Ｗｍは、モジュール３５によって、複数のバイノーラル表現を基底関数寄与で置換することによって、上述されたのと同じように計算される：

符号化モジュール３６は、（デフォルト）バイノーラル表現Ｚ及びｍ組の変換パラメータＷｍを符号化して、ビットストリーム４０に含める。

デコーダ側では、変換パラメータが、バイノーラル差分表現の近似を計算するために使用され得る。これらは、次いで、個人化されたバイノーラル差分（ハット付き）Ｙを供給するよう、個々のリスナー間で異なる重みａｍを用いて加重和として結合され得る：

あるいは、更に簡単に、同じ結合技術が、プレゼンテーション変換係数に適用されてもよい：

従って、個人化されたバイノーラル差分を生成するための個人化されたプレゼンテーション変換行列（ハット付き）Ｗ’は：

によって与えられる。

図３のデコーダ４１に表されているのが、このアプローチである。ビットストリーム４０は、復号化モジュール４２で復号され、ｍ個のパラメータセットＷｍは、個人化されたプレゼンテーション変換（ハット付き）Ｗ’を取得するよう、処理ブロック４３において、個人プロファイル情報４４を用いて処理される。変換（ハット付き）Ｗ’は、プレゼンテーション変換モジュール４５において、個人化されたバイノーラル差分

を取得するよう、デフォルトのバイノーラルプレゼンテーションに適用される。上記と同様に、変換（ハット付き）Ｗ’は、線形ゲイン２×２行列であってよい。

個人化されたバイノーラルプレゼンテーションＹ’は、：

に従って、このバイノーラル差分をデフォルトのバイノーラルプレゼンテーションＺに適用することによって、最終的に取得される。

これを記載する他の方法は：

に従って、全体の個人化変換Ｗ’を定義することである。

類似しているが代替的であるアプローチにおいて、第１のプレゼンテーション変換データの組（バー付き）Ｗは、ラウドスピーカ再生を対象とした第１再生プレゼンテーションＺをバイノーラルプレゼンテーションに変換し得る。このとき、バイノーラルプレゼンテーションは、個人化されていないデフォルトのバイノーラルプレゼンテーションである。

この場合に、ビットストリーム４０は、ステレオ再生プレゼンテーションと、プレゼンテーション変換パラメータ（バー付き）Ｗと、上述されたようにバイノーラル差分を表すｍ組の変換パラメータＷｍとを含む。デコーダでは、デフォルトの（一次）バイノーラルプレゼンテーションが、第１のプレゼンテーション変換パラメータの組（バー付き）Ｗを再生プレゼンテーションＺに適用することによって取得される。個人化されたバイノーラル差分は、図３を参照して記載されているのと同じようにして取得され、この個人化されたバイノーラル差分は、デフォルトのバイノーラルプレゼンテーションに加えられる。この場合に、全体の変換行列Ｗ’は：

になる。

［複数のプレゼンテーション変換データセットの選択及び効率的なコーディング］
プレゼンテーション変換データＷｍは、通常、プレゼンテーション又は基底関数の範囲に対して、時間及び周波数の関数として計算される。更なるデータ削減技術がなければ、変換データに関連した、結果として得られるデータレートは、相当なものになる可能性がある。

しばしば適用される１つの技術は、差動コーディング（differential coding）を用いることである。変換データセットが、時間、周波数、又は変換セットｍのいずれかにわたって差分値を計算するときに、より低いエントロピを有している場合には、ビットレートの大幅な削減が達成され得る。そのような差動コーディングは、あらゆるフレームに対して、ビットレート最小化制約に基づいて、時間、周波数、及び／又はプレゼンテーション差分エントロピーコーディングを適用するための選択を行うことができるという意味で、動的に適用され得る。

プレゼンテーション変換メタデータの伝送ビットレートを低減するための他の方法は、プレゼンテーション変換セットの数を周波数により変化させることである。例えば、ＨＲＴＦのＰＣＡ分析により、個々のＨＲＦＴは、低周波数で少数の基底関数を使用して正確に再構成可能であり、高周波数ではより多くの基底関数を必要とすることが明らかになった。

その上、エンコーダは、プレゼンテーション変換データの特定の組を動的に、例えば、時間及び周波数の関数として、送信又は破棄することを選択することができる。例えば、基底関数プレゼンテーションのいくつかは、処理されているコンテンツに応じて、特定のフレーム又は周波数範囲で非常に低い信号エネルギを有する場合がある。

特定の基本プレゼンテーション信号のエネルギが低い理由の直感的な例の１つは、リスナーの前にある１つのオブジェクトがアクティブであるシーンである。このようなコンテンツの場合、リスナーの頭部のサイズを表す如何なる基底関数も、プレゼンテーション全体にほとんど影響しない。このようなコンテンツの場合、バイノーラルレンダリングはリスナー間で非常に似ているからである。従って、この単純なケースでは、エンコーダは、そのような母集団の違いを表す基底関数プレゼンテーション変換データを破棄することを選択してもよい。

より一般的には、基底関数プレゼンテーションｙ_ｌ，ｍ、ｙ_ｒ，ｍが：

としてレンダリングされる場合に、各基底関数プレゼンテーションのエネルギσ_ｍ ^２を計算することができる：

ここで、＜・＞は、期待値演算子である。その後に、対応するエネルギσ_ｍ ^２が特定の閾値を下回る場合には、関連する基底関数プレゼンテーション変換データＷｍを破棄することができる。この閾値は、例えば、絶対エネルギ閾値又は相対エネルギ閾値（他の基底関数プレゼンテーションエネルギに対する）であってよく、あるいは、レンダリングされたシーンについて推定された聴覚マスキング曲線に基づいてもよい。

［むすび］
特許文献１に記載されているように、上記のプロセスは、通常、時間及び周波数の関数
として用いられる。そのために、プレゼンテーション変換係数Ｗｍの別個の組が、通常、多数の周波数バンド及び時間フレームについて、計算及び伝送される。時間及び周波数において必要なセグメンテーションを提供する適切な変換又はフィルタバンクには、離散フーリエ変換（discrete Fourier transform）、直交ミラーフィルタバンク（quadrature mirror filter banks，ＱＭＦ）、聴覚フィルタバンク、ウェーブレット変換、などがある。ＤＦＴの場合には、サンプルインデックスｎはＤＦＴビンインデックスを表し得る。一般性を失うことなく、表記を簡単にするために、時間及び周波数インデックスは、本明細書の全体を通じて省略されている。

プレゼンテーション変換データが２つ以上の周波数バンドについて生成及び伝送される場合に、セット数はバンド間で変化し得る。例えば、低周波数では、２又は３のプレゼンテーション変換データセットしか送信しなくてもよい。高周波数では、他方で、ＨＲＴＦデータが、低周波数（例えば、１ｋＨｚ未満）でよりも高周波数（例えば、４ｋＨｚ超）で被験者間でかなり大きい分散を通常は示すという事実により、プレゼンテーション変換データセットの数は、大幅に多くなる可能性がある。

その上、プレゼンテーション変換データセットの数は、時間によって変化し得る。バイノーラル信号がリスナー間で事実上同じであるフレーム又はサブバンドが存在する場合があるので、変換パラメータの組は１つで十分である。潜在的なより複雑な性質の他のフレームでは、より多数のプレゼンテーション変換データセットが、全てのユーザの全ての可能なＨＲＴＦのカバレッジを提供するために必要とされる。

ここで使用されるように、別段指定されない限りは、共通のオブジェクトを記載するための序数形容詞「第１」、「第２」、「第３」などの使用は、同じオブジェクトの異なるインスタンスが参照されていることを単に示しており、そのように記載されているオブジェクトが時間的に、空間的に、順位付け、又は何らかの他の方法で所与の順序になければならないことを暗示する意図はない。

以下の特許請求の範囲及び本明細書中の記載において、「有する」（comprising）、「から成る」（comprised of）、又は「有する」（which comprises）との用語のうちのいずれか１つは、続く要素／特徴を少なくとも含むが他を除外しないことを意味する非限定的用語（open term）である。よって、「有する」（comprising）との用語は、特許請求の範囲で使用される場合に、その後に挙げられている手段又は要素又はステップを限定するものとして解釈されるべきではない。例えば、「Ａ及びＢを有するデバイス」（a device comprising A and B）との表現の範囲は、要素Ａ及びＢからのみ成るデバイスに限定されるべきではない。本明細書で使用される「含む」（including）又は「含む」（which includes若しくはthat includes）との用語のうちのいずれか１つも、その用語に続く要素／特徴を少なくとも含むが他を除外しないことをやはり意味する非限定的用語である。よって、「含む」（including）は、「有する」（comprising）と同義であり、それを意味する。

ここで使用されるように、「例となる」（exemplary）という用語は、品質を示すのではなく、例を与える意味で使用される。すなわち、「例となる実施形態」は、必然的に例となる品質の実施形態であるのとは対照的に、例として与えられている実施形態である。

当然ながら、本発明の例となる実施形態の上記の記載において、本発明の様々な特徴は、開示を合理化し、様々な発明態様のうちの１つ以上の理解を助ける目的で、単一の実施形態、図、又はその説明にまとめられることがある。ただし、この開示の方法は、請求されている発明が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映していると解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、発明の態様は、前述の単一の開示された実施形態の全ての特徴よりも少ない特徴にある。従って、詳細な説明に続く特許請求の範囲は、これにより、この詳細な説明に明示的に組み込まれ、各請求項は、本発明の別個の実施形態としてそれ自体で成り立つ。

更に、ここで記載されているいくつかの実施形態は、他の実施形態に含まれるいくつかの特徴を含むが他の特徴を含まず、一方で、異なる実施形態の特徴の組み合わせは、本発明の範囲内にあり、当業者によって理解されるように、異なる実施形態を形成するよう意図される。例えば、以下の特許請求の範囲では、請求されている実施形態のいずれかが、任意の組み合わせで使用されてもよい。

更に、実施形態のいくつかは、コンピュータシステムのプロセッサによって又は機能を実行する他の手段によって実装され得る方法又は方法の要素の組み合わせとして本明細書で記載される。よって、そのような方法又は方法の要素を実行する必須の命令を持ったプロセッサは、方法又は方法の要素を実行する手段を形成する。更に、装置の実施形態の、本明細書で記載される要素は、本発明を実行するためにその要素によって実行される機能を実行する手段の例である。

本明細書で与えられている説明では、多数の具体的な詳細が示されている。しかし、本発明の実施形態は、これらの具体的な詳細によらずとも実施され得ることが理解される。他の事例では、よく知られている方法、構造及び技術は、この説明の理解を不明りょうにしないように示されていない。

同様に、留意されるべきは、「結合される」（coupled）との用語は、特許請求の範囲で使用される場合に、直接的な接続にのみ限定するものとして解釈されるべきではない。「結合される」及び「接続される」（connected）という用語は、それらの派生物とともに、使用されることがある。理解されるべきは、これらの用語は互いに同義語として意図されたものではないことである。よって、「デバイスＢへ結合されたデバイスＡ」（a device A coupled to a device B）との表現の範囲は、デバイスＡの出力がデバイスＢの入力へ直接に接続されるデバイス又はシステムに限定されるべきではない。それは、Ａの出力とＢの入力との間に、他のデバイス又は手段を含む経路を含んでもよい経路が存在することを意味する。「結合される」は、２つ以上の要素が直接的な物理的又は電気的接触状態にあること、あるいは、２つ以上の要素が互いに直接に接してはないが、それでもなお互いに協働又は相互作用することを意味し得る。

このように、本発明の具体的な実施形態が記載されてきたが、当業者は、他の及び更なる変更が、本発明の精神から逸脱せずに、それらの実施形態に行われてもよく、全てのそのような変更及び改良は発明の範囲内にあるものとして請求されることが意図される、と認識するだろう。例えば、上記の如何なる式も、使用される可能性がある手順の代表的なものにすぎない。ブロック図に機能を追加又は削除したり、機能ブロック間で操作を交換したりすることもできる。ステップは、本発明の範囲内で説明される方法に追加又は削除され得る。例えば、図示されている実施形態では、エンドポイントデバイスは、一対のオンイヤーヘッドホンとして図示されている。しかしながら、本発明は、インイヤーヘッドホン及び補聴器などの他のエンドポイントデバイスにも適用可能である。

［関連出願への相互参照］
本願は、２０１９年９月２３日付けで出願された米国特許仮出願第６２／９０４，０７０号と、２０２０年６月２日付けで出願された米国特許仮出願第６３／０３３，３６７号とに対する優先権を主張するものである。これらの出願は、参照によって本願に援用される。

Claims

１つ以上のオーディオ成分を含む入力オーディオコンテンツを符号化する方法であって、各オーディオ成分が空間的位置に関連する、前記方法において、
前記入力オーディオコンテンツのオーディオ再生プレゼンテーションをレンダリングするステップであり、前記オーディオ再生プレゼンテーションがオーディオ再生システムでの再生を目的とする、ステップと、
Ｍ組の伝達関数を前記入力オーディオコンテンツに適用することによってＭ個のバイノーラル表現の組を決定するステップであり、前記Ｍ組の伝達関数が個別的なバイノーラル再生プロファイルの集合に基づく、ステップと、
前記オーディオ再生プレゼンテーションから前記Ｍ個のバイノーラル表現のＭ個の近似への変換を可能にするＭ組の変換パラメータを計算するステップであり、前記Ｍ組の変換パラメータが、前記Ｍ個のバイノーラル表現と前記Ｍ個の近似との間の差を最適化することによって決定される、ステップと、
前記オーディオ再生プレゼンテーション及び前記Ｍ組の変換パラメータを、デコーダへの伝送のために符号化するステップと
を有する方法。
前記Ｍ個のバイノーラル表現は、ヘッドホンでの再生を目的とするＭ個の個別的なバイノーラル再生プレゼンテーションであり、
前記Ｍ個の個別的なバイノーラル再生プレゼンテーションは、Ｍ個の個別的な再生プロファイルに対応する、
請求項１に記載の方法。
前記Ｍ個のバイノーラル表現は、ヘッドホンでの再生を目的とするＭ個のカノニカルバイノーラル再生プレゼンテーションであり、
前記Ｍ個のカノニカルバイノーラル再生プレゼンテーションは、個別的な再生プロファイルのより大きい集合に相当する、
請求項１に記載の方法。
前記Ｍ組の伝達関数は、Ｍ組の頭部伝達関数である、
請求項１に記載の方法。
前記オーディオ再生プレゼンテーションは、ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションであり、
前記Ｍ個のバイノーラル表現は、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているＭ個の信号対である、
請求項１に記載の方法。
前記オーディオ再生プレゼンテーションは、ラウドスピーカシステムを対象とし、
前記Ｍ個のバイノーラル表現は、
ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションと、
前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているＭ－１個の信号対と
を含む、
請求項１に記載の方法。
前記Ｍ個の信号対は、Ｍ個の主成分分析（ＰＣＡ）基底関数によってレンダリングされる、
請求項５に記載の方法。
前記伝達関数の組の数Ｍは、異なる周波数バンドごとに異なる、
請求項１に記載の方法。
変換パラメータの個人化された組を前記オーディオ再生プレゼンテーションに適用するステップが、線形ゲインＮ×２行列を前記オーディオ再生プレゼンテーションに適用することによって実行され、
Ｎは、前記オーディオ再生プレゼンテーションにおけるチャネルの数であり、
前記行列の要素は、前記変換パラメータによって形成される、
請求項１に記載の方法。
個人化されたバイノーラル再生プレゼンテーションをオーディオビットストリームから復号する方法であって、
オーディオ再生システムでの再生を目的としたオーディオ再生プレゼンテーションを受け取り復号するステップと、
前記オーディオ再生プレゼンテーションからＭ個のバイノーラル表現のＭ個の近似への変換を可能にするＭ組の変換パラメータを受け取り復号するステップであり、前記Ｍ組の変換パラメータが、前記Ｍ個のバイノーラル表現と、前記オーディオ再生プレゼンテーションへの前記変換パラメータの適用によって生成された前記Ｍ個の近似との間の差を最小限にするようエンコーダによって決定されたものである、ステップと、
前記Ｍ組の変換パラメータを、変換パラメータの個人化された組に結合するステップと、
前記変換パラメータの個人化された組を前記オーディオ再生プレゼンテーションに適用して、前記個人化されたバイノーラル再生プレゼンテーションを生成するステップと
を有する方法。
前記Ｍ組の変換パラメータを結合するステップは、当該Ｍ組のうちの１つとして、個人化された組を選択することを含む、
請求項１０に記載の方法。
前記Ｍ組の変換パラメータを結合するステップは、当該Ｍ組の線形結合として、個人化された組を形成することを含む、
請求項１０に記載の方法。
前記オーディオ再生プレゼンテーションは、ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションであり、
前記Ｍ組の変換パラメータは、前記オーディオ再生プレゼンテーションから、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているＭ個の信号対への変換を可能にし、
前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションに適用するステップは、
前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションへ線形ゲイン２×２行列として適用することによって、個人化されたバイノーラル差分を形成することと、
前記個人化されたバイノーラル差分と、前記一次バイノーラル再生プレゼンテーションとを足し合わせることと
を含む、
請求項１０に記載の方法。
前記オーディオ再生プレゼンテーションは、ラウドスピーカで再生されることを目的とし、
前記Ｍ組の変換パラメータのうちの第１組は、前記オーディオ再生プレゼンテーションから一次バイノーラル再生プレゼンテーションの近似への変換を可能にし、変換パラメータの残りの組は、前記オーディオ再生プレゼンテーションから、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているＭ－１個の信号対への変換を可能にし、
前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションに適用するステップは、
前記第１組の変換パラメータを前記オーディオ再生プレゼンテーションに適用することによって一次バイノーラル再生プレゼンテーションを形成することと、
前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションに線形ゲイン２×２行列として適用することによって、個人化されたバイノーラル差分を形成することと、
前記個人化されたバイノーラル差分と、前記一次バイノーラル再生プレゼンテーションとを足し合わせることと
を含む、
請求項１０に記載の方法。
前記第１組の変換パラメータを前記オーディオ再生プレゼンテーションに適用するステップは、線形ゲインＮ×２行列を前記オーディオ再生プレゼンテーションに適用することによって実行され、
Ｎは、前記オーディオ再生プレゼンテーションにおけるチャネルの数であり、前記行列の要素は、前記変換パラメータによって形成される、
請求項１４に記載の方法。
１つ以上のオーディオ成分を含む入力オーディオコンテンツを符号化するエンコーダであって、各オーディオ成分が空間的位置に関連する、前記エンコーダにおいて、
前記入力オーディオコンテンツのオーディオ再生プレゼンテーションをレンダリングする第１レンダラであり、前記オーディオ再生プレゼンテーションがオーディオ再生システムでの再生を目的とする、前記第１レンダラと、
Ｍ組の伝達関数を前記入力オーディオコンテンツに適用することによってＭ個のバイノーラル表現の組を決定する第２レンダラであり、前記Ｍ組の伝達関数が個別的なバイノーラル再生プロファイルの集合に基づく、前記第２レンダラと、
前記オーディオ再生プレゼンテーションから前記Ｍ個のバイノーラル表現のＭ個の近似への変換を可能にするＭ組の変換パラメータを計算するパラメータ推定モジュールであり、前記Ｍ組の変換パラメータが、前記Ｍ個のバイノーラル表現と前記Ｍ個の近似との間の差を最適化することによって決定される、前記パラメータ推定モジュールと、
前記オーディオ再生プレゼンテーション及び前記Ｍ組の変換パラメータを、デコーダへの伝送のために符号化する符号化モジュールと
を有するエンコーダ。
前記第２レンダラは、ヘッドホンでの再生を目的とするＭ個の個別的なバイノーラル再生プレゼンテーションをレンダリングするよう構成され、
前記Ｍ個の個別的なバイノーラル再生プレゼンテーションは、Ｍ個の個別的な再生プロファイルに対応する、
請求項１６に記載のエンコーダ。
前記第２レンダラは、ヘッドホンでの再生を目的とするＭ個のカノニカルバイノーラル再生プレゼンテーションをレンダリングするよう構成され、
前記Ｍ個のカノニカルバイノーラル再生プレゼンテーションは、個別的な再生プロファイルのより大きい集合に相当する、
請求項１６に記載のエンコーダ。
前記第１レンダラは、ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションをレンダリングするよう構成され、
前記第２レンダラは、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているＭ個の信号対をレンダリングするよう構成される、
請求項１６に記載のエンコーダ。
前記第１レンダラは、ラウドスピーカシステムを対象としたオーディオ再生プレゼンテーションをレンダリングするよう構成され、
前記第２レンダラは、
ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションと、
前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているＭ－１個の信号対と
をレンダリングするよう構成される、
請求項１６に記載のエンコーダ。
個人化されたバイノーラル再生プレゼンテーションをオーディオビットストリームから復号するデコーダであって、
前記オーディオビットストリームを受け取り、オーディオ再生システムでの再生を対象としたオーディオ再生プレゼンテーションと、前記オーディオ再生プレゼンテーションからＭ個のバイノーラル表現のＭ個の近似への変換を可能にするＭ組の変換パラメータとを復号する復号化モジュールであり、前記Ｍ組の変換パラメータが、前記Ｍ個のバイノーラル表現と、前記オーディオ再生プレゼンテーションへの前記変換パラメータの適用によって生成された前記Ｍ個の近似との間の差を最小限にするようエンコーダによって決定されたものである、前記復号化モジュール、
前記Ｍ組の変換パラメータを、変換パラメータの個人化された組に結合する処理モジュールと、
前記変換パラメータの個人化された組を前記オーディオ再生プレゼンテーションに適用して、前記個人化されたバイノーラル再生プレゼンテーションを生成するプレゼンテーション変換モジュールと
を有するデコーダ。
前記処理モジュールは、前記Ｍ組のうちの１つを前記個人化された組として選択するよう構成される、
請求項２１に記載のデコーダ。
前記処理モジュールは、個人化された組を前記Ｍ組の線形結合として形成するよう構成される、
請求項２１に記載のデコーダ。
前記オーディオ再生プレゼンテーションは、ヘッドホンで再生されることを目的としている一次バイノーラル再生プレゼンテーションであり、
前記Ｍ組の変換パラメータは、前記オーディオ再生プレゼンテーションから、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているＭ個の信号対への変換を可能にし、
前記プレゼンテーション変換モジュールは、
前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションへ線形ゲイン２×２行列として適用することによって、個人化されたバイノーラル差分を形成し、
前記個人化されたバイノーラル差分と、前記一次バイノーラル再生プレゼンテーションとを足し合わせる
よう構成される、
請求項２１に記載のデコーダ。
前記オーディオ再生プレゼンテーションは、ラウドスピーカで再生されることを目的とし、
前記Ｍ組の変換パラメータのうちの第１組は、前記オーディオ再生プレゼンテーションから一次バイノーラル再生プレゼンテーションの近似への変換を可能にし、変換パラメータの残りの組は、前記オーディオ再生プレゼンテーションから、前記一次バイノーラル再生プレゼンテーションと、個別的な再生プロファイルに対応するバイノーラル再生プレゼンテーションとの間の差を夫々表しているＭ－１個の信号対への変換を可能にし、
前記プレゼンテーション変換モジュールは、
前記第１組の変換パラメータを前記オーディオ再生プレゼンテーションに適用することによって一次バイノーラル再生プレゼンテーションを形成し、
前記変換パラメータの個人化された組を前記一次バイノーラル再生プレゼンテーションに線形ゲイン２×２行列として適用することによって、個人化されたバイノーラル差分を形成し、
前記個人化されたバイノーラル差分と、前記一次バイノーラル再生プレゼンテーションとを足し合わせる
よう構成される、
請求項２１に記載のデコーダ。
プロセッサによって実行される場合に請求項１乃至９のうちいずれか一項に記載の方法を実行するよう構成されたコンピュータプログラムコード部分を含むコンピュータプログラム。
一時的なコンピュータ可読媒体に記憶されている、
請求項２６に記載のコンピュータプログラム。
プロセッサによって実行される場合に請求項１０乃至１５のうちいずれか一項に記載の方法を実行するよう構成されたコンピュータプログラムコード部分を含むコンピュータプログラム。
一時的なコンピュータ可読媒体に記憶されている、
請求項２８に記載のコンピュータプログラム。