JP2022553913A

JP2022553913A - 空間オーディオ表現およびレンダリング

Info

Publication number: JP2022553913A
Application number: JP2022521423A
Authority: JP
Inventors: ビルカモユハ; ライティネンミッコ－ビッレ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2019-10-11
Filing date: 2020-09-29
Publication date: 2022-12-27
Also published as: GB2588171A; GB201914716D0; US20220369061A1; EP4046399A1; WO2021069794A1; CN114556973A; EP4046399A4

Abstract

【課題】空間オーディオ表現およびレンダリング。【解決手段】少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得し、バイノーラルレンダリバイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得し、レンダリングに関連する少なくとも１つのデータセットを取得し、少なくとも１つのデータセットおよび少なくとも１つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいて、バイノーラルオーディオ信号を生成するように構成された手段を含む装置。【選択図】図１

Description

本出願は空間オーディオ表現およびレンダリングのための装置および方法に関する。ただし、オーディオデコーダのためのオーディオ表現に限定されるものではない。

低ビットレート動作からトランスペアレンシーまでの範囲の多数の動作点をサポートするイマーシブ（Ｉｍｍｅｒｓｉｖｅ）オーディオコーデックが実装されている。このようなコーデックの一例は、仮想現実（ＶＲ）のためのイマーシブ音声およびオーディオのようなイマーシブサービスでの使用を含む３ＧＰＰ（登録商標）４Ｇ／５Ｇネットワークのような通信ネットワーク上での使用に適するように設計されているイマーシブ音声およびオーディオサービス（ＩＶＡＳ）コーデックである。この音声コーデックは、音声、音楽、汎用音声の符号化、復号、レンダリングを扱うことが期待される。さらに、音場および音源に関する空間情報を含むチャネルベースのオーディオおよびシーンベースのオーディオ入力をサポートすることが期待される。コーデックはまた、様々な伝送条件下で会話サービスを可能にし、高いエラーロバスト性をサポートするために、短い待ち時間で動作することが期待される。

入力信号は、いくつかのサポートされたフォーマットのうちの１つで（およびフォーマットのいくつかの許容された組み合わせで）ＩＶＡＳエンコーダに提示され得る。例えば、モノラルオーディオ信号（メタデータなし）は、ＥＶＳ（ＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅ）エンコーダを使用して符号化され得る。他の入力フォーマットは、新たなＩＶＡＳ符号化ツールを利用することができる。ＩＶＡＳのために提案される１つの入力フォーマットは、メタデータ支援空間オーディオ（ＭＡＳＡ）フォーマットであり、エンコーダは例えば、フォーマットの効率的な送信のためにモノラルおよびステレオ符号化ツールとメタデータ符号化ツールとの組み合わせを利用することができる。ＭＡＳＡは、空間オーディオ処理に適したパラメトリック空間オーディオフォーマットである。パラメータ空間オーディオ処理はオーディオ信号処理の分野であり、音（または音シーン）の空間的側面は、パラメータのセットを使用して記述される。例えば、マイクロホンアレイからのパラメトリック空間オーディオキャプチャでは、例えば周波数帯域における直接－全体比や周囲－全体エネルギー比として表される、マイクロホンアレイの信号から、周波数帯域における音の方向や、周波数帯域において捕捉された音の方向性部分と無方向性部分の相対的なエネルギーなどのパラメータのセットを推定することは、典型かつ有効な選択である。これらのパラメータは、マイクロフォンアレイの位置における捕捉された音の知覚空間特性をよく記述することが知られている。これらのパラメータは、それに応じて空間音の合成、バイノーラルでのヘッドホン、ラウドスピーカ、またはアンビソニック（Ａｍｂｉｓｏｎｉｃｓ）のような他のフォーマットに利用することができる。

例えば、オーディオ信号および空間メタデータの２つのチャネル（ステレオ）が存在し得る。空間メタデータは、さらに時間周波数パラメータ区間における音の到来方向を記述する方向インデックス、レベル／位相差、方位指数のエネルギー比率を表す直接対全エネルギー比（Ｄｉｒｅｃｔ－ｔｏ－ｔｏｔａｌｅｎｅｒｇｙｒａｔｉｏ）、拡散性、方向指数を表すエネルギーの広がりを表す拡散コヒーレンスなどのコヒーレンス、周囲の方向に対する無指向性音のエネルギー比を表す拡散全エネルギー比（Ｄｉｆｆｕｓｅ－ｔｏ－ｔｏｔａｌｅｎｅｒｇｙｒａｔｉｏ）、無指向性音の周囲の方向に対するコヒーレンスを表すサラウンドコヒーレンス、エネルギー比の合計が１であることが必要である残響（マイクノイズなど）音のエネルギー比を表す残響対全エネルギー比、指標の方向から発生した音の距離をメートル単位で対数スケールで表す距離、マルチチャンネルラウドスピーカー信号に関する共分散マトリクス、またはこれらの共分散マトリクスに関連する任意のデータ、特定のデコーダを導く他のパラメータ、例えば、中心予測係数や１対２復号化係数（ＭＰＥＧサラウンドなどで使用）のようなパラメータを定義することができる。これらのパラメータのいずれも、周波数帯域で決定することができる。

日常環境において自然なオーディオシーンを聞くことは、特定の方向の音についてだけではない。背景の雰囲気がなくても、耳に到達する音のエネルギーの大部分は直接音からではなく、音響環境からの間接音（すなわち、反射や残響）であることが典型的である。離散的な反射および残響を含む室内効果に基づいて、リスナーは他の特徴の中でも音源距離および室内（ｒｏｏｍ）特性（小型、大きい、ウェット、残響）を聴覚的に知覚し、室内は、オーディオコンテンツの知覚される感覚を追加する。言い換えれば、音響環境は、空間音の本質的かつ知覚的に関連する特徴である。

リスナーは（例えば、無響室とは対照的に）通常の室内で音楽を聴き、音楽（例えば、ステレオまたは５．１含有量）は、通常の残響を有する室内で聴かれることが期待される方法で典型的に生成され、これは音に対する包絡および広がりを作り出す。無響室で通常の音楽を聴くことは、室内効果の欠如のために不快であることが知られている。したがって、通常の音楽は、通常の室内で残響を伴って聴かれることになる（基本的には常に聴かれる）。

第１態様によれば、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得することと、バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得することと、バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得することと、少なくとも１つのデータセットおよび少なくとも１つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成することとを備える手段を備える装置が提供される。

バイノーラルレンダリングに関連する少なくとも１つのデータセットは、バイノーラルルームインパルス応答または伝達関数のセット、頭部関連インパルス応答または伝達関数のセット、バイノーラルルームインパルス応答または伝達関数に基づくデータセット、および頭部関連インパルス応答または伝達関数に基づくデータセットのうちの少なくとも１つを備えることができる。

バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットは、事前定義されたバイノーラルルームインパルス応答または伝達関数のセットと、事前定義された頭部関連インパルス応答または伝達関数のセットと、バイノーラルルームインパルス応答または伝達関数に基づく事前定義されたデータセットと、取り込まれた頭部関連インパルス応答または伝達関数に基づく事前定義されたデータセットとのうちの少なくとも１つを備えることができる。

本願手段は、少なくとも１つのデータセットを第１部分と第２部分とに分割するようにさらに構成されてもよく、手段は少なくとも１つのデータセットの第１部分と少なくとも１つの事前定義されたデータセットとの第１部分の組合せを生成するように構成されてもよい。

少なくとも１つのデータセットおよび少なくとも１つの事前定義されたデータセットの少なくとも一部と空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成するように構成された手段は、少なくとも１つのデータセットの第１部分と少なくとも１つの事前定義されたデータセットと空間オーディオ信号との組合せに基づいて第１部分バイノーラルオーディオ信号を生成するように構成され得る。

少なくとも１つのデータセットの少なくとも一部と少なくとも１つの事前定義されたデータセットとの組合せを生成するように構成された手段は、少なくとも１つのデータセットの第２部分と少なくとも１つの事前定義されたデータセットの少なくとも一部との組合せと、少なくとも１つのデータセットの第２部分がヌルセットである少なくとも１つの事前定義されたデータセットの少なくとも一部と、少なくとも１つのデータセットの第２部分が実質的に誤りを有する、雑音が多い、または破損していると判定された少なくとも１つの事前定義されたデータセットの少なくとも一部とのうちの１つを含む第２部分組合せを生成するようにさらに構成され得る。

少なくとも１つのデータセットの少なくとも一部と少なくとも１つの事前定義されたデータセットとの組合せに基づいてバイノーラルオーディオ信号を生成するように構成された手段、および空間オーディオ信号は、第２部分組合せと空間オーディオ信号とに基づいて第２部分バイノーラルオーディオ信号を生成するように構成され得る。

少なくとも１つのデータセットの少なくとも一部と少なくとも１つの事前定義されたデータセットとの組合せに基づいてバイノーラルオーディオ信号を生成するように構成された手段、および空間オーディオ信号は、第１部分のバイノーラルオーディオ信号と第２部分のバイノーラルオーディオ信号とを結合するように構成され得る。

少なくとも１つのデータセットを第１部分と第２部分とに分割するように構成された手段は、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオフ機能を有する第１ウィンドウ機能を生成するように構成されてもよく、第１ウィンドウ機能は第１部分を生成するために少なくとも１つのデータセットに適用され、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオン機能を有する第２ウィンドウ機能を生成し、第２ウィンドウ機能は第２部分を生成するために少なくとも１つのデータセットに適用される。

手段は、少なくとも１つのデータセットの少なくとも一部と、少なくとも１つの事前定義されたデータセットとの組合せを生成するように構成され得る。

少なくとも１つのデータセットおよび少なくとも１つの事前定義データセットの少なくとも一部の組合せを生成するように構成された手段は、少なくとも１つのデータセットの選択に基づいて初期組合せデータセットを生成し、決定されたしきい値より大きい方向差を有する初期組合せデータセットの少なくとも１つの一対の隣接する要素によって定義された初期組合せデータセット内の少なくとも１つのギャップを決定し、各ギャップについて、
少なくとも１つの事前定義データセット内で、ギャップ内に位置する方向を有する少なくとも１つの事前定義データセットの要素を識別し、少なくとも１つの事前定義データセットの識別された要素と初期組合せデータセットとを結合するように構成され得る。

決定された閾値は、方位閾値と、仰角閾値とを含んでもよい。

少なくとも１つのデータセットの少なくとも一部と少なくとも１つの事前定義されたデータセットとの組合せは方向の範囲にわたって定義されてもよく、方向の範囲にわたって、組合せは定義されたしきい値を超える方向ギャップを含まない。

少なくとも１つのデータセットの少なくとも１つの部分は、実質的な誤りがないこと、
実質的なノイズがないこと、および実質的な破損がないことのうちの少なくとも１つで少なくとも１つのデータセットの要素であってもよい。

少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを備える空間オーディオ信号を取得するように構成された手段は、さらなる機器から空間オーディオ信号を受信するように構成され得る。

バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得するように構成された手段は、さらなる機器から少なくとも１つのデータセットを受信するように構成され得る。

第２態様によれば、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得するステップと、
バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得するステップと、バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得するステップと、少なくとも１つのデータセットおよび少なくとも１つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成するステップとを含む方法が提供される。

本方法は、少なくとも１つのデータセットを第１部分と第２部分とに分割するステップと、少なくとも１つのデータセットの第１部分と少なくとも１つの事前定義されたデータセットとの第１部分の組合せを生成するステップとをさらに含むことができる。

少なくとも１つのデータセットと少なくとも１つの事前定義データセットと空間オーディオ信号の少なくとも一部との組み合わせに基づいてバイノーラルオーディオ信号を生成することは、少なくとも１つのデータセットの第１部分と、少なくとも１つの事前定義データセットと空間オーディオ信号との組み合わせに基づいて、第１部分バイノーラルオーディオ信号を生成することを含み得る。

少なくとも１つのデータセットの少なくとも一部と少なくとも１つの事前定義されたデータセットの少なくとも一部との組み合わせを生成することは、少なくとも１つのデータセットの第２部分と少なくとも１つの事前定義されたデータセットの少なくとも一部との組み合わせと、少なくとも１つのデータセットの第２部分がヌルセットである少なくとも１つの事前定義されたデータセットの少なくとも一部と、少なくとも１つのデータセットの第２部分が実質的に誤りを有する、ノイズが多い、または破損していると判定される少なくとも１つの事前定義されたデータセットの少なくとも一部とのうちの１つを備える第２部分組み合わせを生成することをさらに備えることができる。

少なくとも１つのデータセットと少なくとも１つの予め規定されたデータセットとの少なくとも一部の組み合わせに基づいてバイノーラル音声信号を生成すること、および空間音声信号は、第２部分の組み合わせおよび空間音声信号に基づいて第２部分のバイノーラル音声信号を生成することを含み得る。

少なくとも１つのデータセットと少なくとも１つの予め規定されたデータセットとの少なくとも一部の組み合わせに基づいてバイノーラル信号を生成すること、および空間オーディオ信号は、第１部分バイノーラルオーディオ信号と第２部分バイノーラルオーディオ信号とを組み合わせることを含み得る。

少なくとも１つのデータセットを第１部分と第２部分とに分割することは、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオフ機能を有する第１ウィンドウ機能を生成することであって、第１ウィンドウ機能は第１部分を生成するために少なくとも１つのデータセットに適用されることと、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオン機能を有する第２ウィンドウ機能を生成することと、第２ウィンドウ機能は第２部分を生成するために少なくとも１つのデータセットに適用されることとを備えることができる。

この方法は、少なくとも１つのデータセットの少なくとも一部と、少なくとも１つの事前定義データセットとの組み合わせを生成することを含む。

少なくとも１つのデータセットおよび少なくとも１つの事前定義データセットの少なくとも一部の組合せを生成するステップは、少なくとも１つのデータセットの選択に基づいて初期組合せデータセットを生成するステップと、初期組合せデータセットの少なくとも１つの一対の隣接する要素によって定義される初期組合せデータセット内の少なくとも１つのギャップを、決定されたしきい値よりも大きい方向差で決定するステップと、各ギャップについて、少なくとも１つの事前定義データセット内で、ギャップ内に位置する方向を有する少なくとも１つの事前定義データセットの要素を識別するステップと、少なくとも１つの事前定義データセットの識別された要素と、初期組合せデータセットとを結合するステップとを含むことができる。

少なくとも１つのデータセットの少なくとも一部と少なくとも１つの事前定義されたデータセットとの組合せは、方向の範囲にわたって定義されてもよく、方向の範囲にわたって、組合せは定義されたしきい値を超える方向ギャップを含まない。

少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを備える空間オーディオ信号を取得することは、さらなる装置から空間オーディオ信号を受信することを備えることができる。

バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得することは、さらなる装置から少なくとも１つのデータセットを受信することを備えることができる。

第３の態様によれば、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つの記憶装置とを備える装置が提供され、少なくとも１つの記憶装置およびコンピュータプログラムコードは少なくとも１つのプロセッサを用いて、装置に、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得させ、バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得させ、バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得させ、少なくとも１つのデータセットおよび少なくとも１つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成させるように構成される。

装置はさらに、少なくとも１つのデータセットを第１部分と第２部分とに分割し、少なくとも１つのデータセットの第１部分と少なくとも１つの事前定義データセットとの第１部分の組み合わせを生成するようにされてもよい。

少なくとも１つのデータセットおよび少なくとも１つの事前定義されたデータセットの少なくとも一部と空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成させる装置は、少なくとも１つのデータセットの第１部分と少なくとも１つの事前定義されたデータセットと空間オーディオ信号との組合せに基づいて第１部分バイノーラルオーディオ信号を生成させることができる。

少なくとも１つのデータセットの少なくとも一部と少なくとも１つの事前定義されたデータセットとの組合せを生成させる装置は、少なくとも１つのデータセットの第２部分と少なくとも１つの事前定義されたデータセットの少なくとも一部との組合せと、少なくとも１つのデータセットの第２部分がヌルセットである少なくとも１つの事前定義されたデータセットの少なくとも一部と、少なくとも１つのデータセットの第２部分が実質的に誤りを有する、ノイズが多い、または破損していると判定される少なくとも１つの事前定義されたデータセットの少なくとも一部とのうちの１つを含む第２部分組合せを生成させることができる。

少なくとも１つのデータセットの少なくとも一部と少なくとも１つの事前定義データセットとの組み合わせ、および空間音声信号に基づいてバイノーラル音声信号を生成する装置は、第２部分の組み合わせと空間音声信号とに基づいて第２部分のバイノーラル音声信号を生成するようにしてもよい。

少なくとも１つのデータセットの少なくとも一部と少なくとも１つの事前定義データセットとの組み合わせ、および空間オーディオ信号に基づいてバイノーラルオーディオ信号を生成する本装置は、第１部分のバイノーラルオーディオ信号と第２部分のバイノーラルオーディオ信号とを組み合わせるようにさせてもよい。

少なくとも１つのデータセットを第１部分と第２部分とに分割する装置は、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオフ機能を有する第１ウィンドウ機能を生成するようにされてもよく、第１ウィンドウ機能は第１部分を生成するために少なくとも１つのデータセットに適用され、決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオン機能を有する第２ウィンドウ機能を生成し、第２ウィンドウ機能は第２部分を生成するために少なくとも１つのデータセットに適用される。

装置は、少なくとも１つのデータセットの少なくとも一部と、少なくとも１つの事前定義データセットとの組み合わせを生成するようにされてもよい。

少なくとも１つのデータセットおよび少なくとも１つの事前定義データセットの少なくとも一部の組合せを生成させる装置は少なくとも１つのデータセットの選択に基づいて初期組合せデータセットを生成させ、決定されたしきい値より大きい方向差を有する初期組合せデータセットの少なくとも１つの一対の隣接する要素によって定義された初期組合せデータセット内の少なくとも１つのギャップを決定し、各ギャップについて、少なくとも１つの事前定義データセット内で、ギャップ内に位置する方向を有する少なくとも１つの事前定義データセットの要素を識別し、少なくとも１つの事前定義データセットの識別された要素と初期組合せデータセットとを結合させることができる。

少なくとも１つのデータセットの少なくとも１つの部分は、実質的な誤りがないこと、実質的なノイズがないこと、および実質的な破損がないことのうちの少なくとも１つで少なくとも１つのデータセットの要素であってもよい。

少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを備える空間オーディオ信号を取得するようにされた装置は、さらなる装置から空間オーディオ信号を受信するようにされてもよい。

バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得するようにされた装置は、さらなる装置から少なくとも１つのデータセットを受信するようにされてもよい。

第４の態様によれば、少なくとも１つのオーディオ信号および少なくとも１つのオーディオ信号に関連する空間メタデータを含む空間オーディオ信号を得るように構成された回路を得るステップと、バイノーラルレンダリングに関連する少なくとも１つのデータセットを得るように構成された回路を得るステップと、バイノーラルレンダリングに関連する少なくとも１つの事前定義データセットを得るように構成された回路を得るステップと、少なくとも１つのデータセットおよび少なくとも１つの事前定義データセットの少なくとも一部と、前記少なくとも１つの事前定義データセットと、前記空間オーディオ信号との組み合わせに基づいて、バイノーラルオーディオ信号を生成するように構成された回路を生成するステップとを含む装置が提供される。

第５の態様によれば、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得することと、バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得することと、バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得することと、少なくとも１つのデータセットおよび少なくとも１つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成することと、を装置に実行させるための命令［またはプログラム命令を備えるコンピュータ可読媒体］を備えるコンピュータプログラムが提供される。

第６の態様によれば、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得することと、バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得することと、バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得することと、少なくとも１つのデータセットおよび少なくとも１つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成することと、を装置に実行させるためのプログラム命令を備える非一時的コンピュータ可読媒体が提供される。

第７の態様によれば、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得するための手段と、バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得するための手段と、バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得するための手段と、少なくとも１つのデータセットおよび少なくとも１つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成するための手段とを備える装置が提供される。

第８の態様によれば、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを備える空間オーディオ信号を取得することと、バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得することと、バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得することと、少なくとも１つのデータセットおよび少なくとも１つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成することと、を装置に実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。

上述の方法の動作を実行するように構成された装置。

コンピュータに上述の方法を実行させるためのプログラム命令を含むコンピュータプログラム。

媒体に記憶されたコンピュータプログラム製品は、装置に本明細書に記載された方法を実行させることができる。

電子デバイスは、本明細書で説明されるような装置を備えることができる。

チップセットは、本明細書に記載されるような装置を備えてもよい。

本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。

本出願をより良く理解するために、添付の図面を例として参照する。
図１は、いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す。図２は、いくつかの実施形態に従う例示的な装置の動作のフロー図を示す。図３は、いくつかの実施形態による、図１に示されるような合成プロセッサを概略的に示す。図４はいくつかの実施形態に従う、図３に示されるような例示的な装置の動作のフロー図を示す。図５は、いくつかの実施形態による前期／後期部分分割器の例を示す。図６は、いくつかの実施形態による、組み合わされた前期パートレンダリングデータを生成するための例示的な方法の流れ図を示す。図７は、いくつかの実施形態によるレンダリングデータの例示的な補間または曲線フィッティングを示す。図８はいくつかの実施形態による、図３に示されるような初期および後期レンダラの例をさらに詳細に示す。図９は、前の図に示される装置を実装するのに適したデバイスの例を示す。

以下に、ロードされたバイノーラルデータセットを使用して、（搬送）オーディオ信号（複数可）およびオーディオ信号（複数可）に関連する空間メタデータを含む空間オーディオストリーム（または空間オーディオ信号）をレンダリングするための適切な装置および可能なメカニズムをさらに詳細に説明する。その目的はバイノーラルレンダラに最適以下の方向分解能を持つＨＲＴＦとＢＲＩＲの負荷を可能にすると同時に、最適な再生音質（正確な方向知覚と低域なし音色）を提供することである。これは、リスナーが個々のＨＲＴＦ／ＢＲＩＲをロードする場合に重要であり、これは通常、高い指向性解像度では測定できない。

個別に測定されたＨＲＴＦ／ＢＲＩＲを使用することは、局在化を改善し、音色を高めることが示されている。したがって、リスナーは、バイノーラルレンダラ（および／またはＩＶＡＳなどのバイノーラルレンダラを含むコーデック）に対する個々の応答をロードすることに関心があり得る。しかしながら、そのような応答を得ることは一般的ではないので（この出願を作成する時点で）、それらを測定する規則的または標準化された方法はない。結果として、それらは様々な方法で測定されてもよく、これは任意の方向分解能を有する応答にもつながり得る（すなわち、応答の数、および利用可能な応答のデータポイント間の間隔は様々な測定方法の間で著しく異なり得る）。実際には、高い空間忠実度で全ての方向にオーディオをレンダリングすることを目的とする既知のバイノーラルレンダリング方法において予想されるよりも少ないＨＲＴＦが利用可能であり得る。

この多様な効果は、空間オーディオ信号のレンダリングに使用されるＢＲＩＲデータベースの文脈において、より明らかである。それらは典型的には専門的に生成されたデータセットに対してさえも、ＨＲＴＦデータベースよりも下側指向性分解能を有する（そして典型的には利用者提供データセットにおいてより下側分解能を有する）。これには、通常の部屋にカスタムバイノーラル測定システムを設置することが困難であり、非常に時間がかかるという実用的な理由がある。したがって、典型的には、例えば、５．１および／または７．１＋４などの共通マルチチャネルスピーカレイアウトに対応する、数個のデータポイントのみが利用可能である。ＨＲＴＦ／ＢＲＩＲデータセットのスパース性は、バイノーラルレンダリングの課題を引き起こす。例えば、ＨＲＴＦ／ＢＲＩＲデータセットは水平方向のみを含むことができ、一方、レンダリングは、レンダリング高さもサポートする必要があることがある。レンダラはデータセットがまばらである方向（例えば、５．１バイノーラルレンダリングデータセットが１８０度でＨＲＴＦ／ＢＲＩＲを有していない）にも、サウンドを正確にレンダリングする必要がある。さらに、レンダリングは任意の軸上でのヘッドトラッキングを必要とすることがあり、したがって、良好な空間精度で任意の方向にレンダリングすることが関連するようになる。データセットがまばらであるときのデータポイント間の補間は原則としてオプションであるが、まばらなデータポイントによる補間はサウンドの音色の着色、不正確で非点状の定位などの深刻な人工産物をもたらす可能性がある。さらに、利用者提供データセットはまた、破損する可能性があり、例えば、それは、低いＳＮＲを有するか、またはバイノーラルでなければ、バイノーラルレンダリングの品質（例えば、音色、空間精度、外部化）に影響を及ぼす、歪んだまたは破損した応答を有する可能性がある。

さらに、ロードされたデータセットがＨＲＴＦデータセットである場合、定義により、データセットは無響空間にのみ伝達関数を含み、反射も残響も含まない。しかしながら、部屋効果（反射及び／または残響を含む）をレンダリングすることは、マルチチャネル信号（例えば、５．１）のような特定の信号タイプで有益であることが知られている。マルチチャネル信号は、通常の部屋で残響を伴って聴かれるように生成される。無響空間（ＨＲＴＦレンダリングがそれに対応する）で聴かれる場合、それらは、広さおよび包絡を欠いていると知覚され、したがって、知覚されるオーディオ品質を低下させる。したがって、バイノーラルレンダラは、（ロードされたデータセットがＨＲＴＦデータセットであっても）すべての場合において部屋効果の追加をサポートすべきである。

したがって、この概念は、任意の解像度、および潜在的に測定品質問題を有するＨＲＴＦおよびＢＲＩＲセットをロードすることを可能にするレンダラが提供される概念である。さらに、いくつかの実施形態で説明したレンダラは、任意の方向に音源を有することができるデータフォーマットからバイノーラルオーディオをレンダリングするように構成される（ＭＡＳＡフォーマットおよび／または頭部追跡バイノーラライゼーションなど）。さらに、いくつかの実施形態では、レンダラが任意のロードされたＨＲＴＦおよびＢＲＩＲデータセットからの添加の部屋応答を伴って、および伴わずに、バイノーラルオーディオをレンダリングするように構成される。

さらに、実施形態は高指向性解像度データセット（すべての場合、特にリスナーによってロードされたデータセットでは保証できない）を必要とせずに動作するように構成することができ、さらに、任意の方向に対して良好な品質を有するバイノーラルレンダリングを実施する（音色の彩色および最適以下の空間化をもたらす）。

実施形態はロードされたバイノーラルデータセット（例えば、ＨＲＴＦおよびＢＲＩＲに基づく）を使用する、搬送オーディオ信号（複数可）および空間メタデータを含む空間オーディオストリームのバイノーラルレンダリングに関する。したがって、実施形態は、低い指向性分解能を有するバイノーラルデータセットを用いてさえも、良好な指向性精度および無色の音色を有するバイノーラル空間オーディオを生成することができる方法を説明する。さらに、いくつかの実施形態では、これはロードされたバイノーラルデータセットを事前定義バイノーラルデータセットと組み合わせ（知覚マッチング手順を含む）、組み合わせられたバイノーラルデータセットを使用して空間オーディオストリームをバイノーラル出力にレンダリングすることによって達成することができる。

いくつかの実施形態では、バイノーラルレンダラが例えば、デコーダ（ＩＶＡＳデコーダなど）の一部であってもよい。したがって、それは、バイノーラル出力にレンダリングされる空間オーディオストリームを受信または取り出すことができる。さらに、バイノーラルレンダラは、バイノーラルデータセットの負荷をサポートする。これらのバイノーラルデータセットは例えば、聴取者によってロードされてもよく、例えば、聴取者のために調整された個々の応答を含んでもよい。

バイノーラルレンダラはさらに、いくつかの実施形態では、事前定義バイノーラルデータセットを含む。典型的な状態では、事前定義バイノーラルレンダリングデータセットが空間的に正確であることを特徴とし、この手段、空間的に密であるＢＲＩＲ／ＨＲＴＦデータセットに基づく。したがって、事前定義されたデータセットは、レンダラーに事前に存在する、確実な高品質のデフォルトデータセットを表す。

ロードされたバイノーラル・レンダリング・データ・セットは（例えば、個人的な応答であるように）レンダリングに使用されるように選択された応答からなることができるが、ある意味では次善である。次善とは、例えば、下記を意味することができる。
・データセットは（例えば、２２．２または５．１方向に対応する）スパースな測定セットに基づく。いくつかの方向（例えば、仰角、側面）は、応答を有さない場合がある。本発明は単一の（バイノーラルの）応答と同じくらい低い負荷を可能にし、依然として任意の方向へのレンダリングを提供する。
・データセットは、ノイズまたは破損した測定手順の影響を受ける。

いくつかの実施形態では、ロードされたバイノーラルデータセットが、例えば、以下によって、事前定義データセットと組み合わされる。
・ロードされたデータがまばらである方向（すなわち、データセットにおける大きな角度ギャップ）において、事前定義されたデータを実質的に利用するように、ロードされたデータセットに事前定義されたデータセットを追加する。
・ロードされたバイノーラル・レンダリング・データを、事前定義バイノーラル・レンダリング・データと部分的にまたは完全に置き換える。

加えて、実施形態は、例えば、以下によって、結合されたデータセットに対して知覚マッチング手順を実行する実装を説明する。
・ロードされたデータセットに基づいて、結合されたデータセットのスペクトル特性を調整する。
・ロードされたデータセットに基づいて、結合されたデータセットの両耳間位相／時間プロパティを調整する。

したがって、結果として得られるバイノーラル・データ・セットは空間的に密であり、ロードされたバイノーラル・データ・セットの特徴に一致することができる。空間オーディオは、このデータセットを使用してレンダリングされる。その結果、聴取者は、正確な指向性知覚および無色の音色を有する個別化されたバイノーラル空間オーディオ再生を得る。

いくつかの実施形態では、ロードされたデータセットがＨＲＴＦデータセットであり、バイノーラル残響がレンダリングされる必要がある場合、バイノーラル残響をレンダリングするために、事前定義バイノーラル残響データ（または「後期パートレンダリングデータ」）が使用される。

さらに、いくつかの実施形態では、事前定義データセットがＢＲＩＲデータセットである場合、事前定義データセットの前期の部分は本明細書で詳細に説明するように、処理動作で使用されるように抽出される。

いくつかの実施形態では、ロードされたデータセットがＢＲＩＲデータセットである場合、ロードされたデータセットの前期の部分が抽出されて、本明細書で詳細に説明されるような処理動作で使用される。

さらに、いくつかの実施形態では、バイノーラル残響をレンダリングする必要がある場合、バイノーラル残響をレンダリングするために使用されるように、ロードされたデータセットの後半部分が抽出される。いくつかの実施形態ではそれは直接使用されてもよく、または事前定義後期残響バイノーラルデータが、それがロードされたデータセットの特徴（例えば、残響時間またはスペクトル特性）に一致するように修正されてもよい。

図１を参照すると、いくつかの実施形態による、オーディオキャプチャおよびレンダリングを実施するための例示的な装置およびシステムが示されている。

システム１９９は、エンコーダ／アナライザ１０１部分およびデコーダ／シンセサイザ１０５部分とともに示されている。

いくつかの実施形態におけるエンコーダ／アナライザ１０１部分は、入力オーディオ信号１１０を受信するように構成されたオーディオ信号入力を含む。入力オーディオ信号は、例えば、携帯電話に搭載された２つ以上のマイクロフォン、例えばＢフォーマットマイクロフォンまたはアイゲンマイク（Ｅｉｇｅｎｍｉｋｅ）のような他のマイクロフォンアレイ、アンビソニック信号、例えば、一次アンビソニック（ＦＯＡ）、高次アンビソニック（ＨＯＡ）、ラウドスピーカサラウンドミックスおよび／またはオブジェクトなど、任意の適切なソースから得ることができる。入力オーディオ信号１１０は、分析プロセッサ１１１および輸送信号発生器１１３に供給されてもよい。

エンコーダ／アナライザ１０１部分は、分析プロセッサ１１１を含むことができる。分析プロセッサ１１１は、適切なメタデータ１１２を生成する入力オーディオ信号に対して空間分析を実行するように構成される。したがって、分析プロセッサ１１１の目的は、周波数帯域における空間メタデータを推定することである。前述の入力タイプのすべてについて、適切な空間メタデータ、例えば、周波数帯域における方向および直接対総エネルギー比（または拡散性、すなわち、周囲対総比などの同様のパラメータ）を生成するための既知の方法が存在する。これらの方法は本明細書で詳述されるが、いくつかの例は入力信号に対して適切な時間周波数変換を実行し、次いで、入力が携帯電話マイクロフォンアレイであるときの周波数帯域において、マイクロフォン間相関を最大化するマイクロフォンペアの遅延値を推定し、その遅延に対応する方向値を定式化すること（ＧＢ特許出願第１６１９５７３．７号およびＰＣＴ特許出願第ＰＣＴ／ＦＩ２０１７／０５０７７８号に記載されるように）、および相関値に基づいて比率パラメータを定式化することを含み得る。

メタデータにはさまざまな形式があり、空間メタデータやその他のメタデータを含めることができる。空間メタデータの典型的なパラメータ化は、各周波数帯域θ（ｋ，ｎ）における１つの方向パラメータと、各周波数帯域ｒ（ｋ，ｎ）における関連する直接対総エネルギー比であり、ここで、ｋは、周波数帯域インデックスであり、ｎは、時間フレームインデックスである。方向および比率を決定または推定することは、オーディオ信号が得られる装置または実装に依存する。例えば、メタデータは、ＧＢ特許出願第１６１９５７３．７号およびＰＣＴ特許出願第ＰＣＴ／ＦＩ２０１７／０５０７７８号に記載されている方法を使用して、空間オーディオキャプチャ（ＳＰＡＣ）を使用して取得または推定することができる。言い換えれば、この特定の状況では、空間オーディオパラメータが音場を特徴付けることを目的とするパラメータを含む。一部の実施形態では、生成されるパラメータが周波数帯域ごとに異なる場合がある。したがって、例えば、帯域Ｘではすべてのパラメータが生成され、送信されるが、帯域Ｙではパラメータのうちの１つだけが生成され、送信され、さらに、帯域Ｚではパラメータは生成または送信されない。これの実際的な例は、最高帯域のようないくつかの周波数帯域に対して、パラメータのいくつかが知覚上の理由のために必要とされないことであり得る。

入力がＦＯＡ信号またはＢフォーマットマイクロフォンである場合、分析プロセッサ１１１は、方向パラメータが作成される強度ベクトルなどのパラメータを決定し、強度ベクトル長さを全体的な音場エネルギー推定値と比較して比パラメータを決定するように構成することができる。この方法は、指向性オーディオ符号化（ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ：ＤｉｒＡＣ）として文献で知られている。

入力がＨＯＡ信号である場合、分析プロセッサは、信号のＦＯＡサブセットを取り、上記の方法を使用するか、またはＨＯＡ信号を複数のセクタに分割するかのいずれかを行うことができ、その各セクタにおいて、上記の方法が利用される。このセクタベースの方法は、高次ＤｉｒＡＣ（ＨＯ－ＤｉｒＡＣ）として文献で知られている。この場合、周波数帯域当たり２つ以上の同時方向パラメータが存在する。

入力がラウドスピーカサラウンドミックスおよび／またはオブジェクトである場合、解析プロセッサ１１１は信号を（球面調和エンコードゲインの使用を介して）ＦＯＡ信号に変換し、上述のように方向および比パラメータを解析するように構成されてもよい。

したがって、分析プロセッサ１１１の出力は、周波数帯域で決定された空間メタデータである。空間メタデータは周波数帯域における方向および比率を含むことができるが、先に列挙したメタデータタイプのいずれかを有することもできる。空間メタデータは、時間、また頻度的に変化することができる。

いくつかの実施形態では、空間分析がシステム１９９の外部で実施することができる。例えば、いくつかの実施形態では、オーディオ信号に関連する空間メタデータが別個のビットストリームとしてエンコーダに提供されてもよい。いくつかの実施形態では、空間メタデータが空間（方向）インデックス値のセットとして提供されてもよい。

エンコーダ／分析器１０１部分は、搬送信号発生器１１３を備えることができる。搬送信号発生器１１３は入力信号を受信し、適切な搬送音声信号１１４を生成するように構成される。搬送オーディオ信号は、ステレオまたはモノラルオーディオ信号であることができる。搬送オーディオ信号１１４の生成は、以下に要約されるような公知方法を使用して実施することができる。

入力が携帯電話マイクロフォンアレイ音声信号である場合、搬送信号発生器１１３は、左右のマイクロフォン対を選択し、自動利得制御、マイクロフォン雑音除去、風雑音除去、および等化などの適当な処理を信号対に適用するように構成されてもよい。

入力がＦＯＡ／ＨＯＡ信号またはＢフォーマットマイクロフォンである場合、トランスポート信号生成器１１３は、２つの対向するカージオイド信号などの左右方向に向かう指向性ビーム信号を定式化するように構成され得る。

入力がラウドスピーカーのサラウンドミックスおよび／またはオブジェクトである場合、搬送信号発生器１１３は、左辺チャネルを左ダウンミックスチャネルに組み合わせ、右辺については同じダウンミックス信号を発生させ、適切なゲインで両方の搬送チャネルにセンターチャネルを追加するように構成することができる。

いくつかの実施形態では、トランスポート信号発生器１１３が入力をバイパスするように構成される。例えば、解析および合成が中間符号化なしに、単一の処理ステップで同じ装置で行われる状況もある。トランスポートチャネルの数はまた、任意の適切な数であり得る（むしろ、実施例において議論されるように、１つまたは２つのチャネル）。

いくつかの実施形態では、エンコーダ／アナライザ部１０１がエンコーダ／マルチプレクサ１１５を備えることができる。エンコーダ／マルチプレクサ１１５は、搬送オーディオ信号１１４およびメタデータ１１２を受信するように構成することができる。エンコーダ／マルチプレクサ１１５はさらに、エンコードされた、または圧縮された形態のメタデータ情報および搬送オーディオ信号を生成するように構成され得る。いくつかの実施形態では、エンコーダ／マルチプレクサ１１５は、さらに、伝送または記憶の前に、単一のデータストリーム１１６にインターリーブし、多重化し、またはエンコードされたオーディオ信号内にメタデータを埋め込むことができる。多重化は、任意の適切なスキームを使用して実施することができる。

エンコーダ／マルチプレクサ１１５は例えば、ＩＶＡＳエンコーダ、または任意の他の適切なエンコーダとして実装することができる。したがって、エンコーダ／マルチプレクサ１１５はオーディオ信号およびメタデータを符号化し、ビットストリーム１１６（たとえば、ＩＶＡＳビットストリーム）を形成するように構成される。

次いで、このビットストリーム１１６は鎖線によって示されるように、送信／格納１０３され得る。いくつかの実施形態では、エンコーダ／マルチプレクサ１１５は存在しない（したがって、以下で説明するように、デコーダ／デマルチプレクサ１２１は存在しない）。

システム１９９はさらに、デコーダ／シンセサイザ部１０５を含むことができる。デコーダ／シンセサイザ部１０５は、ビットストリーム１１６を受信し、取り出し、または他の方法で取得し、ビットストリームから、リスナー／リスナー再生装置に提示される適切なオーディオ信号を生成するように構成される。

デコーダ／シンセサイザ部１０５は、ビットストリームを受信し、符号化されたストリームを逆多重化し、次いでオーディオ信号を復号してトランスポート信号１２４およびメタデータ１２２を得るように構成されたデコーダ／デマルチプレクサ１２１を備えることができる。

さらに、いくつかの実施形態では、上述したように、デマルチプレクサ／デコーダ１２１が存在しなくてもよい（例えば、エンコーダ／アナライザ部１０１およびデコーダ／シンセサイザ１０５の両方が同じ装置内に位置するので、関連するエンコーダ／マルチプレクサ１１５が存在しない場合）。

デコーダ／シンセサイザ部１０５は、合成プロセッサ１２３を備えることができる。合成プロセッサ１２３は、搬送オーディオ信号１２４、空間メタデータ１２２、および、ＢＲＩＲまたはＨＲＴＦに対応するロード済バイノーラルレンダリング・データセット１２６を取得するように構成され、ヘッドホンを介して再生することができるバイノーラル出力信号１２８を生成する。

このシステムの動作は図２に示すようなフロー・ダイアグラムに関して要約され、図２はステップ２０１に示すような入力オーディオ信号の受信の例を示している。

次に、流れ図は、ステップ２０３によって図２に示されるような空間メタデータを生成するための入力オーディオ信号の分析（空間）を示す。

次いで、ステップ２０４によって、図２に示すように、入力オーディオ信号から搬送オーディオ信号が生成される。

生成された搬送オーディオ信号およびメタデータは次に、ステップ２０５によって図２に示されるように多重化され得る。これは、図２に任意の破線のボックスとして示されている。

符号化された信号はステップ２０７によって図２に示されるように、搬送オーディオ信号および空間メタデータを生成するために、さらに逆多重化され、復号化されることができる。これは、任意の破線のボックスとしても示されている。

次に、ステップ２０９によって図２に示すように、バイノーラルオーディオ信号を、搬送オーディオ信号、空間メタデータ、および、ＢＲＩＲまたはＨＲＴＦに対応するバイノーラルレンダリング・データセットに基づいて合成することができる。

次いで、合成されたバイノーラルオーディオ信号を、ステップ２１１によって図２に示すように、適当な出力装置、例えばヘッドフォンのセットに出力することができる。

図３を参照すると、合成プロセッサ１２３がさらに詳細に示されている。

いくつかの実施形態では、合成プロセッサ１２３が前期／後期部分分割器３０１を備える。前期／後期部分分割器３０１は、バイノーラルレンダリングデータセット１２６（ＢＲＩＲまたはＨＲＴＦに対応する）を受信するように構成される。いくつかの実施形態では、バイノーラルレンダリングデータセットが任意の適切な形態であってもよい。例えば、いくつかの実施形態では、データセットが判定された方向のセットについて、ＨＲＴＦ（頭部伝達関数）、ＨＲＩＲ（頭部関連インパルス応答）、ＢＲＩＲ（バイノーラル室内インパルス応答）、またはＢＲＴＦ（バイノーラル室伝達関数）の形態である。いくつかの実施形態では、データセットがＨＲＴＦ、ＨＲＩＲ、ＢＲＩＲ、またはＢＲＴＦに基づくパラメータ化されたデータセットである。パラメトリゼーションは例えば、Ｂａｒｋバンドのような周波数帯における時間差およびスペクトルであり得る。さらに、いくつかの実施形態では、データセットが別の領域に変換された、例えば球面調和関数に変換された、ＨＲＴＦ、ＨＲＩＲ、ＢＲＩＲ、またはＢＲＴＦであってもよい。

以下の例では、レンダリングデータが決定された方向のセットに対するＨＲＩＲまたはＢＲＩＲ（すなわち、時間領域インパルス応答一対のセット）の典型的な形式である。応答がＨＲＴＦまたはＢＲＴＦである場合、それらは、例えば、以下の処理のためにＨＲＩＲまたはＢＲＩＲに逆時間周波数変換され得る。他の例も記載されている。

前期／後期部分分割器３０１は、ロードされたバイノーラルレンダリングデータを、前期パートレンダリングデータコンバイナ３０３に供給されるロードされた前期データ３０２と、遅期パートレンダリングデータコンバイナ３０５に供給されるロードされた遅期データ３０４とに定義されるパートに分割するように構成される。

データセットがＨＲＩＲデータのみを含むいくつかの実施形態では、これはロードされた前期データ３０２として直接提供される。ロードされた前期データ３０２は、いくつかの実施形態ではこの時点で周波数領域に変換され得る。このような例でロードされた遅延データ３０４は、遅延部分が存在しないことのみを示す。

データ・セットがＢＲＩＲデータ・セットであるいくつかの実施形態では、ウィンドウ処理を適用して、ロードされた前期データ３０２に対する応答を、大部分が指向性（直接部分および潜在的に第１反射を含む）であり、ロードされた遅いデータ３０４が大部分が残響であるように分割することができる。分割は、例えば、以下のステップで実行することができる。

第１に、ＢＲＩＲの最大エネルギーの時間を測定する（これにより、最初に到達する音の時間の近似値が得られる）。

第２に、ウィンドウ関数を設計する。図５に、設計ウィンドウ関数の例を示す。図５は例えば、前期の部分を抽出するための第１ウィンドウ５５１を備えるウィンドウ関数を示す。このウィンドウ関数は最大エネルギー５０１の時間の後に、定義されたオフセット５０３時間まで単一である。第１ウィンドウ５５１の関数は、その後ゼロになるまで、クロスオーバ５０５の時間を通して減少する。

ウィンドウ関数は、交差５０５時間の開始までゼロ値を有する後期部分を抽出するための第２ウィンドウ５５３をさらに備える。第２ウィンドウ５５３の関数値はクロスオーバ５０５の時間を通じて１まで増加し、その後は１である。

これは、適切な機能の一例に過ぎず、他の機能を使用することができる。いくつかの実施形態では、オフセット時間が例えば、５ｍｓとすることができ、クロスオーバ時間は例えば、２ｍｓとすることができる。第３に、ウィンドウ関数をＢＲＩＲに適用して、ウィンドウ化された前期の部分およびウィンドウ化された後期部分を得ることができる。

第４に、ウィンドウ化された前期部分は、ロードされた前期データ３０２として前期部分レンダリングデータコンバイナ３０３に提供される。いくつかの実施形態では、ロードされた前期データがこの時点で周波数領域に変換されてもよい。

第５に、ウィンドウ化された遅れ部分は、ロードされた遅れデータ３０４として遅れ部分レンダリング・データ・コンバイナ３０５に供給される。

いくつかの実施形態では合成プロセッサはまた、事前定義された前期データ３００および事前定義された後期データ３９２を含み、これらは事前定義されたＨＲＩＲ、ＢＲＩＲなどの応答に基づいて、上述したのと同等のステップで生成された可能性がある。データセットが遅い部分を含まないこれらの実施形態では、事前定義遅い部分３９２が遅い部分が存在しないことのみを示す。

いくつかの実施形態では、合成プロセッサ１２３が前期パートレンダリングデータコンバイナ３０３を備える。前期の部分レンダリングデータ結合器３０３は、事前定義された前期のデータ３００およびロードされた前期のデータ３０２を受信するように構成される。前期パートレンダリングデータコンバイナ３０３は、ロードされた前期データが空間的に密であるかどうかを評価するように構成される。

例えば、いくつかの実施形態では、前期の部分レンダリングデータコンバイナ３０３が水平方向の密度基準に基づいて、データが空間的に密であるかどうかを判定するように構成される。これらの実施形態では、前期パートレンダリングデータコンバイナが応答の水平解像度が十分に密であることをチェックすることができる。例えば、水平応答間の最大アジマスギャップは、閾値よりも大きくない。この水平応答距離閾値は例えば、１０度とすることができる。

例えば、いくつかの実施形態では、前期パートレンダリングデータコンバイナ３０３が高度密度基準に基づいて、データが空間的に密であるかどうかを判定するように構成される。これらの実施形態では、前期パートレンダリングデータコンバイナが最も近い応答が閾値よりも角度的に離れている、仰角での方向がないことをチェックすることができる。この垂直方向応答距離閾値は例えば、１０度または２０度とすることができる。

これらの条件が満たされる場合、前期部分レンダリングデータ結合器３０３は、結合された初期部分レンダリングデータ３０６として、修正なしにロードされた初期データ３０２を初期部分レンダラー３０７に提供するように構成される。

条件が満たされない場合、初期部分レンダリングデータ結合器３０３は結合された初期部分レンダリングデータを形成するために、事前定義された初期データ３００も使用するように構成される。

本明細書で説明される例では、事前定義前期データ３００が上述のように、水平方向の密度基準および仰角密度基準を満たすと仮定される。さらに、本明細書に記載される実施形態では結合が適切な密度基準を満たさないロードされたデータセットに基づくが、結合は上記の密度基準が満たされたが、ロードされたデータが別個の欠陥を有する、例えば、データのＳＮＲが不良であるか、さもなければデータが破損している状況でも実施され得る。

前期の部分レンダリング・データ・コンバイナ３０３は例えば、図６に記載されるような方法でデータを結合するように構成することができる。このアプローチでは、ロードされた前期のレンダリング・データ３０２がロードされたデータが存在するそれらの方向でサウンドをレンダリングするために使用され、他の方向では事前に定義された前期のデータ３００である。このアプローチはロードされた前期データが高品質の測定値（例えば、良好なＳＮＲ、有効な測定手順）を含むことが知られているが、それがまばらであるため、いくつかの方向に付加される必要がある場合に有用である。

図６は、これらの実施形態による、ロードされた前期部分データ３０２と事前定義された前期部分データ３００との組み合わせの流れ図を示す。

第１動作はステップ６０１によって図６に示されるように、ロードされた前期データのコピーとして予備的に組み合わされた前期データを生成する動作である。言い換えれば、前期部分レンダリングデータ結合器３０３はロードされた前期データを結合前期部分レンダリングデータ３０６に単にコピーすることによって、最初に、予備的に結合された前期データを生成する。

次の動作はギャップが閾値よりも大きい場合に、結合されたデータに水平ギャップがあるかどうかを評価する動作である。これは、図６のステップ６０３に示されている。

このようなギャップが見つかった場合、事前定義前期データ３００から結合された前期部分データ３０６への応答がギャップに追加される。これは、図６のステップ６０５に示されている。

次いで、動作は、ステップ６０３に戻る矢印によって示されるさらなる評価チェックにループバックすることができる。言い換えれば、必要な場合の評価および充填の手順は、閾値よりも大きい結合データに水平方向のギャップがなくなるまで繰り返される。

組み合わされたデータに元の水平方向のギャップがなかった場合、またはギャップが埋められた場合、前期パートレンダリングデータコンバイナ３０３は、事前定義された前期データのすべての方向をチェックするように構成することができる。言い換えれば、この動作は事前定義前期データから、組み合わされた前期部分データにおける最も近いデータ点に対して最大の角度差を有する方向を見つけ、この差がステップ６０７によって図６に示されるように、しきい値よりも大きいかどうかを判定する動作である。

差が閾値より大きい場合、ステップ６０９によって図６に示すように、対応する応答が、事前定義前期部分データ３００から組み合わされた前期部分データ３０６に追加される。

次いで、動作はステップ６０７に戻り、ここで、前記の最大角度差推定値が閾値より大きい限り、手順が繰り返される。

角度差が閾値よりも小さい場合、ステップ６１１によって、図６に示すように、組み合わされた前期部分データが出力される。

いくつかの実施形態では、前期パートレンダリングデータコンバイナ６０３がロードされた前期パートデータ６０２を使用せずに、事前定義前期パートデータ６００を結合された前期パートデータとして直接使用するように構成される。このアプローチはロードされたデータセットに最適以下（例えば、不十分なＳＮＲ、不適切な測定手順）が存在し得る場合に有用である。

したがって、結果として得られる組み合わされた前期データ３０６は、前述の水平および垂直密度基準が満たされるような密度を有するデータ点（応答方向）を有する。

いくつかの実施形態では、前期パーツレンダリングデータコンバイナ３０３が事前定義前期データ３００からの結合された前期パーツデータ３０６におけるデータポイントに知覚マッチング手順を適用するように構成される。

したがって、いくつかの実施形態では、前期パートレンダリングデータコンバイナ３０３がスペクトルマッチングを実行するように構成される。

予備ステップとして、元の予め定義され、ロードされた前期データセットのすべてのデータポイント（方向）のエネルギーが、周波数帯域において測定される。

ここで、ＨＲＴＦ_{ｌｏａｄｅｄ}（ｂ，ｃｈ，ｑ）はロードされた前期部分データ３０２の複素利得であり、ＨＲＴＦ_ｐｒｅ（ｂ，ｃｈ，ｑ）は、事前定義前期部分データ３００の複素利得であり、ｂは、ビンインデックス（ここでｂ∈ｋは、「すべてのビンが帯域ｋに属する」ことを意味する）であり、ｃｈは、チャンネル（すなわち、耳）インデックスであり、ｑ_ｌは、は、ロードされた前期データセットにおけるレスポンスのインデックスであり、事ｑ_ｐは、前定義前期データセットにおけるインデックスである。

たとえ表現ＨＲＴＦが使用されたとしても、応答は無響ではないかもしれないが、ＢＲＩＲ応答の前期の部分に対応するかもしれない。いくつかの実施形態では、ＨＲＴＦ（ｂ，ｃｈ，ｑ_ｃ）は、組み合わされた前期部分データ３０６の複素利得を、対応するデータセットインデックスとして示す。

いくつかの実施形態では、２つの角度値が定義される。
α_ｌ，ｃ（ｑ_ｌ，ｑ_ｃ）は、ロードされた前期データセットにおける、ｑ_ｌ番目データポイントと、結合された前期データセットにおける、ｑ_ｃ番目データポイントとの間の角度差であり、
α_ｐ，ｃ（ｑ_ｐ，ｑ_ｃ）は、事前定義前期データセットにおけるｑ_ｐ番目データポインと、結合された前期データセットにおけるｑ_ｃ番目データポイントとの間の角度差である。

次に、いくつかの実施形態では、以下の動作が事前定義前期部分データ３００から発信される結合された前期部分データにおける各データ点に対して実行される。

最初に、ロードされた初期データセットの加重平均エネルギー値を見つける。

ここで、Ｑ_ｌはロードされた前期データセットにおけるデータポイントの数であり、ｗ（α_ｌ，ｃ（ｑ_ｌ，ｑ_ｃ））は、α_ｌ，ｃ（ｑ_ｌ，ｑ_ｃ）が減少すると増加する重み付け式である。
たとえば、

である。

第２に、事前定義初期データセットの重み付けされたエネルギー値を見つける。

ここで、Ｑ_ｐは事前定義された初期データセットのデータポイントの数である。

第３に、平均エネルギーを補正するための等化ゲインを定式化する。

第４に、帯域ｋに属するすべてのビンｂについて、等化利得ｇ_ＥＱ（ｋ）を、（事前定義前期部分データから生じた）組み合わされた前期データにおけるｑ_ｃ番目応答に適用する。

次いで、上記の動作を、事前定義前期部分データから生じた組み合わされた前期部分データにおけるすべてのインデックスについて、およびすべての周波数帯域ｋについて繰り返すことができる。

いくつかの実施形態では、前期パートレンダリングデータコンバイナがデータセット間の最大両耳間時間遅延差の差を考慮する位相／時間マッチングを任意選択で適用するように構成される。例えば、位相／時間マッチングのために、以下の動作を実行することができる。

最初に、水平面にある初期の部分応答から、低周波数範囲（例えば、１．５ｋＨｚまで）でのバイノーラル間時間差（ＩＴＤ）を推定する。バイノーラル間時間差は例えば、左右の耳応答の（この周波数範囲における）群遅延のメジアンの差によって見つけることができる。推定されたＩＴＤ値は、ＩＴＤ（θ_ｐ）で標示され、ここで、θ_ｐは、方位値であり、ｐ＝１…Ｐであり、Ｐは、水平面における応答の数である。

第２に、事前定義前期部分データセットに由来する応答インデックスｐと、ロードされた前期部分データセットに由来する応答インデックスｐとを別々に、ＩＴＤデータに正弦曲線ＩＴＤ_ｍａｘｓｉｎθをフィットさせ、ここで、ＩＴＤ_ｍａｘは解くべき変数である。フィッティングは０．７～１．０ミリ秒（または何らかの他の間隔）からのＩＴＤ_ｍａｘ値（例えば、１００）を試験し、どの値が最小の差ｅを提供するかを試験することによって、簡単に実行することができる。

ＩＴＤ_ｍａｘは、事前定義データセットに由来するインデックスｐから推定することができ、結果は、ＩＴＤ_{ｍａｘ，ｐｒｅ}であり、また、ロードされたデータセットに由来するインデックスｐであり、結果は、ＩＴＤ_{ｍａｘ，ｌｏａｄｅｄ}である。図７には、正弦曲線（点線）を例示的なＩＴＤデータ（円として示す）にフィッティングする２つの例が示されている。

第３に、ＩＴＤスケーリング項を、

のように見つける。

第４に、少なくとも低周波数範囲（例えば、１．５ｋＨｚまで）において、事前定義前期部分データセットから発信された結合データにおける応答を、

によって更新する。ここで、ｑは応答インデックスであり、θ_ｑは、応答方位角であり、φ_ｑは、応答仰角であり、ｂは、ビンインデックスであり、ｃｈは、チャネル（または耳）インデックスであり、ｆ（ｂ）は、周波数ビンの中心周波数（Ｈｚ）であり、ｓ（ｃｈ）は、ｃｈ＝１のとき１であり、および、ｃｈ＝２のとき、－１である関数である。

上記の例では、水平応答を使用して、ＩＴＤを決定し、ＩＴＤ_ｍａｘを見出す。いくつかの実施形態では、例えば、応答が水平面にない（しかし、代わりに、例えば、均一な球面分布にある）場合、全ての応答、または特定の仰角範囲における応答が、ＩＴＤ_ｍａｘ決定のために選択され得る。次いで、前述の誤差測度は例えば、

のように修正され得る。

組み合わされた前期パートレンダリングデータは、その後、前期パートレンダラ３０７に出力されてもよい。

いくつかの実施形態では、たとえ、表現ＨＲＴＦ´´（ｂ，ｃｈ）が使用されたとしても、応答は無響ではなく、ＢＲＩＲ応答の前期の部分に対応し得る。

いくつかの実施形態では、合成プロセッサ１２３がレイトパートレンダリングデータコンバイナ３０５を備える。遅延部分レンダリングデータ結合器３０５は事前定義された遅延部分データ３９２およびロードされた遅延部分データ３０４を受信し、遅延部分レンダラ３０９に出力される結合された遅延部分レンダリングデータ３１２を生成するように構成され得る。

いくつかの実施形態では、事前定義済みおよびロードされた後期パートレンダリングデータがそれらが存在する場合、ＢＲＩＲに基づく後期パートウィンドウ化応答を含む。そのような実施形態における後期パートレンダリングデータコンバイナ３０５は、以下のように構成され得る。

まず、ロードされた遅延部品データ３０４が存在するか否かを判定する。ロードされた遅延部分データ３０４が存在する場合、ロードされた遅延部分データ３０４を結合された遅延部分レンダリングデータ３１２として直接使用する。一例として、利用可能なすべての応答は、後半パートレンダー３０９に転送され、その後、これらの応答の使用方法を決定する。いくつかの実施形態では、応答のサブセットが選択され（例えば、１つの応答ペアが左に向かい、別の応答ペアが右に向かう）、組み合わされた後期パートレンダリングデータ３１２として使用され、後期パートレンダラ３０９に転送されてもよい。

ロードされた遅延部分データ３０４が存在せず、事前定義された遅延部分データ３９２が存在する場合、事前定義された遅延部分データを結合された遅延部分レンダリングデータ３１２として使用する。しかしながら、この場合、結合された遅延部分レンダリングデータ３１２に等化を適用する。イコライゼーション・ゲインは、例えば、

によって周波数帯域で得られる。

等化利得は例えば、組み合わされた遅延部分レンダリングデータ３１２を周波数変換し、周波数領域で等化利得を適用し、その結果を時間領域に逆変換することによって適用することができる。

ロードされた遅れ部分データ３０４も事前定義遅れ部分データ３９２も存在しない場合、組み合わされた遅れ部分レンダリングデータ３１２は、遅れ残響データが存在しないことを示すだけである。これは、遅延部分レンダリングが実施されると、後述するように、遅延部分レンダラ３０９におけるデフォルトの遅延部分レンダリング手順をトリガする。

組み合わされた後期パートレンダリングデータ３１２は、その後、後期パートレンダラ３０９に提供される。

いくつかの実施形態では、合成プロセッサ１２３が前期の部分レンダラ３０７と後期部分レンダラ３０９とに分割され得るレンダラを備える。前期部分レンダラ３０７は図８に関してさらに詳細に示されており、前期部分レンダラ３０７は搬送オーディオ信号１２２、空間メタデータ１２４、合成前期部分レンダリングデータ３０６を受信し、合成器３１１への適切なバイノーラル前期部分信号３０８を生成するように構成されている。

いくつかの実施形態において図８にさらに詳細に示される前期の部分レンダラ３０７は、時間周波数変換器８０１を備える。時間周波数トランス８０１は（時間領域）搬送音声信号１２２を受信し、それらを時間周波数領域に変換するように構成される。適切な変換は例えば、短時間フーリエ変換（ＳＴＦＴ）および複素変調直交ミラーフィルタバンク（ＱＭＦ）を含む。結果として得られる信号は、ｘ_ｉ（ｂ，ｎ）として示され得る。ここで、ｉは、チャネルインデックス、ｂは、時間周波数変換の周波数ビンインデックス、および、ｎは、時間インデックスである時間周波数信号は、例えば、ここではベクトル形式で表現される（例えば、ベクトル形式が２つのチャネルの場合）

次に、以下の処理動作を、時間周波数領域内で、周波数帯域にわたって実施することができる。周波数帯域は、適用された時間周波数トランスフォーマー（フィルターバンク）の１つまたは複数の周波数ビン（個々の周波数成分）とすることができる。いくつかの実施形態では、周波数帯がバーク周波数帯のような知覚的に関連した解像度に近似することができ、この解像度は高周波数よりも低周波数においてスペクトル的により選択的である。あるいは、いくつかの実装形態では周波数帯域が周波数ビンに対応することができる。周波数帯域は、典型的には空間メタデータが分析プロセッサによって決定された周波数帯域（または近似周波数帯域）である。各周波数帯ｋは、最低周波数ビンｂ_ｌｏｗ（ｋ）および最高周波数ビンｂ_ｈｉｇｈ（ｋ）に関して定義され得る。

いくつかの実施形態における時間周波数搬送信号８０２は、共分散マトリクス推定器８０７およびミキサ８１１に供給され得る。

前期部分レンダラ３０７は、いくつかの実施形態では共分散マトリクス推定器８０７を備える。共分散マトリクス推定器８０７は時間周波数領域搬送信号８０２を受信し時間周波数搬送信号の共分散マトリクスと、それらの全体的エネルギー推定値（周波数帯域内）を推定するように構成される。共分散マトリクスは例えば、いくつかの実施形態では、

のように推定することができる。ここで、上付き文字Ｈは共役転置を示す。共分散マトリクスの推定は、いくつかの時間指数ｎにわたるＩＩＲ平均またはＦＩＲ平均のような時間的平均化を含み得る。推定共分散マトリクス８１０は、混合ルール決定器８０９に出力することができる。

また、共分散マトリクス推定器８０７は、全体のエネルギー推定値Ｅ（ｋ，ｎ）８０８、すなわち、Ｃ_ｘ（ｋ，ｎ）の対角値の和を生成し、この全体のエネルギー推定値を目標共分散マトリクス決定器８０５に提供するように構成することができる。

いくつかの実施形態では、前期パートレンダラー３０７は、ＨＲＴＦ決定器８３３からなる。ＨＲＴＦ決定器８３３は、ＨＲＴＦの好適に密なセットである結合された初期パートレンダリングデータ３０６を受信してもよい。ＨＲＴＦ決定器は、角度θ（ｋ，ｎ）および周波数帯域ｋについて２ｘ１複素値頭部関連伝達関数（ＨＲＴＦ）ｈ（θ（ｋ，ｎ），ｋ）を決定するように構成される。いくつかの実施形態では、ＨＲＴＦ決定器８３３は、角度θ（ｋ，ｎ）が得られる空間メタデータ１２４を受信し、出力ＨＲＴＦデータ３３６に対するＨＲＴＦを決定するように構成される。

例えば、ＨＲＴＦ決定器８３３は、帯域ｋの中間周波数におけるＨＲＴＦを決定することができる。リスナーの頭の向きの追跡が関与する場合、方向パラメータθ（ｋ，ｎ）は、現在の頭の向きを考慮するために、ＨＲＴＦを得る前に修正され得る。いくつかの実施形態では、ＨＲＴＦ決定器８３３は、各バンドｋの拡散場共分散マトリクスを決定してもよく、これは、例えば、ｄ＝１．．．Ｄである方向θ_ｄの均等に分布したセットを取ることによって、結合された初期部分レンダリングデータ３０６に基づいて策定されてもよく、拡散場共分散マトリクスを以下のように推定することによっても、決定することができる。

Ｄは、拡散場の共分散マトリクスを次のように推定する。拡散場共分散マトリクスは、判定されたＨＲＴＦに加えて、出力ＨＲＴＦデータ３３６の一部として提供することができる。

ＨＲＴＦ決定器８３３は、任意の適切な方法（方向θ（ｋ，ｎ）に対するＨＲＴＦが決定されるとき）を使用することによって、ＨＲＴＦの補間を適用してもよい。例えば、いくつかの実施形態では、１組のＨＲＴＦが周波数の関数として、両耳間レベル差および左耳および右耳のエネルギーに分解される。次いで、所与の角度におけるＨＲＴＦが必要とされるとき、ＨＲＴＦセットにおける最も近い既存のデータ点が見出され、所与の角度における遅延およびエネルギーが補間される。これらのエネルギー及び遅延は次に、使用される複素乗算器として変換することができる。

いくつかの実施形態では、ＨＲＴＦがＨＲＴＦデータセットを、周波数帯における一組の球面調和ビーム形成マトリクスに変換することによって、補間される。次に、ある周波数に対する任意の角度に対するＨＲＴＦを、その角度に対する球面調和重みベクトルを定式化し、そのベクトルをその周波数のビーム成形マトリクスと掛けることにより決定することができる。結果は、再び２×１ＨＲＴＦベクトルである。

いくつかの実施形態では、ＨＲＴＦ決定器８３３が利用可能なＨＲＴＦデータポイントから最も近いＨＲＴＦを単に選択する。

いくつかの実施形態では、前期部分レンダラ３０７がターゲット共分散マトリクス決定器８０５を備える。ターゲット共分散マトリクス決定器８０５は、この例では少なくとも１つの方向パラメータθ（ｋ，ｎ）と、少なくとも１つの直接対総エネルギー比パラメータｒ（ｋ，ｎ）と、総エネルギー推定値Ｅ（ｋ，ｎ）８０８と、ＨＲＴＦｈ（θ（ｋ，ｎ），ｋ）および拡散場共分散マトリクスＣ_Ｄ（ｋ）からなるＨＲＴＦデータ３３６とを備えることができる空間メタデータ１２４を受信するように構成される。次に、共分散マトリクス決定器８０５は、空間メタデータ１２４、データ３０６、および全体エネルギー推定値８０８に基づいてターゲット共分散マトリクス８０６を決定するように構成される。例えば、対象共分散マトリクス決定器８０５は、次式により対象共分散マトリクスを定式化することができる。

次に、目標共分散マトリクスＣ_ｙ（ｋ，ｎ）８０６を混合規則決定器８０９に供給することができる。

いくつかの実施形態では、前期の部分レンダラ３０７が混合規則決定器８０９を備える。混合ルール決定器８０９は、ターゲット共分散マトリクス８０６及び推定共分散マトリクス８１０を受け取るように構成される。混合ルール決定器８０９は、ターゲット共分散マトリクスＣ_ｙ（ｋ，ｎ）８０６および測定された共分散マトリクスＣ_ｘ（ｋ，ｎ）８１０に基づいて混合マトリクスＭ（ｋ，ｎ）８１２を生成するように構成される。

いくつかの実施形態では、混合マトリクスが「空間オーディオの時間周波数処理のための最適化共分散領域フレームワーク（Ｏｐｔｉｍｉｚｅｄｃｏｖａｒｉａｎｃｅｄｏｍａｉｎｆｒａｍｅｗｏｒｋｆｏｒｔｉｍｅ-ｆｒｅｑｕｅｎｃｙｐｒｏｃｅｓｓｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏ）」、ＪＶｉｌｋａｍｏ、ＴＢａｃｋｓｔｒｏｍ、ＡＫｕｎｔｚ－ＪｏｕｒｎａｌｏｆＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ６１、ｎｏ．６（２０１３）：４０３－４１１に記載されている方法に基づいて生成される。

いくつかの実施形態では、混合規則決定器８０９が混合マトリクスの生成を導くプロトタイプマトリクス

を決定するように構成される。

まとめると、共分散マトリクスＣ_ｘ（ｋ，ｎ）を持つ信号に適用すると、混合マトリクスＭ（ｋ，ｎ）を提供することができる。それは、最小二乗最適化の方法で、共分散マトリクスＣ_ｙ（ｋ，ｎ）を持つ信号を生成する。マトリクスＱは、このようなミキシングにおける信号コンテンツをガイドする。この例ではマトリクスは単に恒等マトリクスであるということになる。左右の処理された信号が元の左右の信号にできるだけ似ているはずだからである。言い換えれば、設計は処理された出力のためにＣ_ｙ（ｋ，ｎ）を取得しながら、信号を最小限に変更することである。混合マトリクスＭ（ｋ，ｎ）は、各周波数帯ｋに対して定式化され、ミキサー８１１に提供される。ヘッドトラッキングが関係するいくつかの実施形態では、マトリクスＱがヘッド方向に基づいて適合させることができる。例えば、ユーザが１８０度回転すると、マトリクスＱは対角線でゼロであり、非対角線で１である。この手段は実際には左側の出力チャネルが元の右側チャネル（１８０度の頭部回転の場合）にできるだけ似ているべきであり、逆もまた同様である。

前期の部分レンダラ３０７は、いくつかの実施形態ではミキサー８１１を備える。ミキサー８１１は、オーディオ信号８０２およびミキシングマトリクス８１２を受信する。ミキサー８１１は、各周波数ビンｂ内の時間周波数オーディオ信号（入力信号）を処理して、２つの処理された（初期の部分）時間周波数信号８１４を生成するように構成される。これは、例えば、以下の式に基づいて形成することができる。

バンドｋは、ビンｂが存在するバンドである。

上記の手順は、入力信号ｘ（ｂ，ｎ）が所望の目標共分散マトリクス特性を有する出力信号ｙ（ｂ，ｎ）をレンダリングするために、それらの間に適切なインコヒーレンスを有することを仮定する。状況によっては、入力信号が例えば、単一のチャネル搬送信号のみが存在する場合、または、そうでなければ信号が高度に相関している場合、適切なチャネル間インコヒーレンスを有さない。したがって、いくつかの実施形態では、相関除去動作が実装されて、ｘ（ｂ，ｎ）に基づいて相関除去された信号を生成し、上の方程式の信号ｙ（ｂ，ｎ）に追加される特定の残留信号に非相関信号を混合する。このような残留信号を得る手順は公知であり、例えば、上記の基準に記載されている。

処理されたバイノーラル（前期の部分）時間周波数信号ｙ（ｂ，ｎ）８１４は、逆Ｔ／Ｆ変圧器８１３に供給される。

いくつかの実施形態では、前期の部分レンダラ３０７がバイノーラル（前期の部分）時間周波数信号ｙ（ｂ，ｎ）８１４を受信し、Ｔ／Ｆ変成器８０１によって印加される印加された時間周波数変換に対応する逆時間周波数変換を印加するように構成された逆Ｔ／Ｆ変成器８１３を含む。逆数Ｔ／Ｆ変成器８１３の出力はバイノーラル（前期の部分）信号３０８であり、これは、（図３に示すように）結合器３１１に渡される。

組み合わされた後期パートレンダリングデータ３１２が後期パート応答が、存在しないという表示のみである場合、後期パートレンダラ３０９は、デフォルトのバイノーラル後期パート応答を使用してバイノーラル後期パート信号３１０を生成するように構成される。例えば、後半部レンダラ３０９は、バイノーラル拡散技術分野バイノーラル間相関、および典型的なリスニングルームに対応する事前定義されたセットに従った減衰時間およびスペクトルを有するように処理された一対のホワイトノイズ応答を生成することができる。前述のパラメータの各々は、周波数の関数として定義されてもよい。いくつかの実施形態において、これらのセットは、ユーザ定義可能であってもよい。

いくつかの実施形態では、遅延パートレンダリング３０９が遅延パートレンダリングがレンダリングされるべきか否かを決定する指示を受信することもできる。遅延部分レンダリングが必要でない場合、遅延部分レンダラ３０９は出力を提供しない。後期パートレンダリングが必要な場合、後期パートレンダラ３０９は適当な方法に従って残響を生成し、追加するように構成される。

例えば、いくつかの実施形態では、後期部分バイノーラル出力を生成するためにコンボルバが適用される。コンボリューションを実行するために、いくつかの信号処理構造が知られている。畳み込みは、ＦＦＴ畳み込みまたは部分ＦＦＴ畳み込みを用いて効率的に適用することができ、例えば、Ｇａｒｄｎｅｒ、ＷｉｌｌｉａｍＧ．「入出力遅延なしで効率的な畳み込み（Ｅｆｆｉｃｉｅｎｔｃｏｎｖｏｌｕｔｉｏｎｗｉｔｈｏｕｔｉｎｐｕｔ／ｏｕｔｐｕｔｄｅｌａｙ）」、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ９７．ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，１９９４。

いくつかの実施形態では、後期パート・レンダラ３０９が（後期パート・レンダリング・データ・コンバイナ３０５から）多くの方向から後期パートＢＲＩＲ応答を受信することができる。レンダリング用のＢＲＩＲペアを選択するには、少なくとも次の手順を実行する必要がある。例えば、ある実施形態では、搬送オーディオ信号が１一対の残響応答で処理される単一のチャネルに加算される。ＢＲＩＲの典型的なセットにおけるように、いくつかの方向からの応答があり、応答は、中央前部ＢＲＩＲテールのような、セットにおける応答対の１つとして選択されてもよい。残響応答はまた、複数の方向からのＢＲＩＲに基づく結合（例えば、平均化）応答であってもよい。いくつかの実施形態では搬送オーディオチャネル（例えば、２つのチャネル）は異なる一対の残響応答で処理される。畳み込みの結果は、２チャネルバイノーラル遅延部分出力を得るために一緒に合計される（左右の耳出力は別々に）。２つのトランスポートチャンネルのこの例では、左側トランスポート信号の残響特性を、例えば左側９０度のＢＲＩＲ（または利用可能な最も近いレスポンス）から選択し、それに対応して右辺を選択することができる。この場合も、残響応答は複数の方向からのＢＲＩＲに基づいて組み合わせる（例えば、平均化する）ことができる。

バイノーラル遅延部分信号は次に、結合器３１１ブロックに供給されることができる。

いくつかの実施形態では、合成プロセッサが前期パートレンダラ３０７からバイノーラル前期パート信号３０８を受信し、後期パートレンダラ３０９からバイノーラル後期パート信号３１０を受信し、これらを（左および右チャネルについて別々に）結合または合計するように構成された結合器３１１を備えることができる。この信号はヘッドホンで再生されることがある。

図４を参照すると、合成プロセッサの動作を示す流れ図が示されている。

流れ図は、ステップ４０１によって図４に示される搬送オーディオ信号、空間メタデータ、およびロードされたバイノーラルレンダリングデータセットなどの入力を受信する動作を示す。

さらに、この方法はステップ４０３によって図４に示すように、ロードされたバイノーラルレンダリングデータセットから前期／遅期パートレンダリングデータセットを決定することを含む。

ステップ４０５によって、図４に、決定されたロードされた初期パーツレンダリングデータと事前に決定された初期パーツレンダリングデータに基づく初期パーツレンダリングデータの生成を示す。

決定されたロードされた遅延部分レンダリングデータと事前に決定された遅延部分レンダリングデータに基づく遅延部分レンダリングデータの生成は、ステップ４０６によって図４に示される。

さらに、ステップ４０７によって図４に示されるように、前期パートレンダリングデータ、ならびに搬送オーディオ信号および空間メタデータに基づくバイノーラルレンダリングが存在し得る。

さらに、ステップ４０８によって図４に示されるように、後期パートレンダリングデータ、および搬送オーディオ信号（およびオプションとして後期レンダリング制御信号）に基づくバイノーラルレンダリングが存在し得る。

次いで、ステップ４０９によって、図４に示すように、前期レンダリング信号と遅期レンダリング信号とを組み合わせるか、または合計することができる。

次いで、組み合わせられたバイノーラルオーディオ信号は、ステップ４１１によって、図４に示されるように出力されてもよい。

上記では、バイノーラルレンダリングデータセットが１組の方向からの応答からなる状況例を説明した。これは典型的な形式であるが、バイノーラルデータは他の形式であってもよい。例えば、レンダリング・データ（事前定義及び／またはロードされた）は、球面調和領域にあることができる。例えば、ＨＲＴＦデータセットをフィルタまたは複素値球面調和係数として近似することが可能であることが知られている。アンビソニック信号がこのようなフィルタまたはゲインで処理されると、結果はバイノーラライズされたオーディオ信号になる。そのような実施形態では、ロードされたバイノーラルレンダリングデータが球面調和領域にあるとき、それは方向の任意の離散セットに対応しない。換言すれば、密度の考慮もはや重要ではない。しかしながら、そのロードされたレンダリングデータセットに他の品質問題（例えば、ノイズ）がある場合、それは、事前定義レンダリングデータで置き換えることができ、前述の知覚マッチング手順を使用することができる。

いくつかの実施形態では、事前定義された前期部分レンダリングデータが球調和領域（例えば、第３または第４次のアムビソニック領域）に格納される。これは、そのようなデータセットがアンビソニックオーディオをバイノーラル出力にレンダリングするため、および任意の角度についてＨＲＴＦを決定するための両方に使用され得るからである。次に、ユーザがパーソナライズされたＨＲＩＲまたはＢＲＩＲ（例えば、スパースセット）をシステムにロードすると、以下のステップを実行して、組み合わされた前期パートレンダリングデータを決定することができる。

第１に、事前定義（球面調和領域）レンダリングデータに基づいて、ＨＲＴＦのセット、例えば、球面的に等間隔のＨＲＴＦデータセットを決定する。

第２に、上述のように、結合および知覚マッチング手順を実行する。

第３に、例えば、最小二乗法で組み合わされた前期部分レンダリングデータセットを近似する球面調和ゲインを見つけることによって、結果として得られる組み合わされた前期部分レンダリングデータセットを球面調和領域に戻す。

レンダリングデータはパラメータ化された形成、すなわち、いかなるドメインにおいても応答としてではなく、記憶することができる。例えば、これは、左右の耳エネルギーおよび両耳間時間差の形成で、１組の方向に格納されてもよい。この場合、パラメータ化された形式はＨＲＴＦに直接変換することができ、以前に例示したすべての手順を適用することができる。また、後期パートレンダリングデータは例えば、残響時間及び周波数の関数としてのスペクトルとしてパラメータ化することができる。

本明細書で詳細に説明する概念は、ロードされたデータセットが空間的にスパースであっても、高密度データセットを生成する方法を示す。レンダリング段階において、音が特定の角度にレンダリングされる必要があるとき、システムは、
組み合わせた前期データセットから最も近い応答を選択する（特に密集した前期データセットが生成されている場合）こと、
公知方法（例）を使用して、最も近いデータポイント間を補間する。振幅パニングを実行するかのように、最も近いデータポイントにわたる（時間または周波数領域における）応答の重量平均を公式化すること、
例えば、エネルギーとＩＴＤを別々に補間することによって、パラメトリックな方法でデータ点間を補間し、球面調和領域（ＳＨＤ）において前期描画データを使用すること（これは、本質的に、任意の方向への補間も手段する）、
のうちの１つを行うことができる。

いくつかの実施形態では、本発明で作成された結合バイノーラルレンダリングデータセットが球面調和領域（ＳＨＤ）、時間領域、周波数領域、および／またはパラメトリック領域などの任意の領域に格納または使用されてもよい。

本明細書で説明される例では、後期パートレンダリングが後期パート応答および畳み込みに基づいていた例示的な状況が説明された。しかしながら、例えば、より効率的な方法で残響を実行する多数の既存の残響器構造が存在する。

フィードバック遅延ネットワーク（ＦＤＮ）を実装することができる。ＦＤＮは、複数の相互接続されたフィードバックループにおいて信号を循環させ、遅延残響を出力する残響信号処理構造である。

「『残響器（Ｔｈｅｒｅｖｅｒｂｅｒａｔｏｒ）』Ｖｉｌｋａｍｏ、Ｊ．、Ｎｅｕｇｅｂａｕｅｒ、ＢａｎｄＰｌｏｇｓｔｉｅｓ、Ｊ．、２０１２．Ｓｐａｒｓｅｆｒｅｑｕｅｎｃｙ－ｄｏｍａｉｎｒｅｖｅｒｂｅｒａｔｏｒ、ＪｏｕｒｎａｌｏｆＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ、５９（１２）、ｐｐ．９３６－９４３）」、はＦＤＮよりも単純なループ構造を使用するが、多数の周波数帯域を有する。

２つの実質的にインコヒーレントな残響応答（例えば、上記のいずれか）を生成することができる任意の残響器を、バイノーラル遅延部分信号を生成するために使用することができる。典型的には残響器構造が実質的にインコヒーレントな信号を発生し、次いで、これらの信号は周波数依存的に混合され、残響音場において人間にとって自然であるバイノーラル間相関を得る。後期パートレンダリングデータがＢＲＩＲ後期パート応答の形成である場合、幾つかの残響器（例えば、上記出版物のもの）を用いて、残響パラメータを調整して、ＢＲＩＲ後期パート応答を近似することが可能である。これは、典型的にはＢＲＩＲ後部応答の対応する特徴に適合するように、残響器の周波数及びスペクトル利得に応じて残響時間をセットする手段である。

いくつかの実施形態では、組み合わされた後期パートレンダリングデータが典型的には、例えば、畳み込みが使用される場合、後期パートレンダラが使用する特定の信号処理構造に関連する形式である。上述のような残響器が使用される場合、後期パートレンダリングデータは、周波数の関数としての残響時間のような構成パラメータの形成である。このようなパラメータは、ユーザがレンダリングに使用されるＢＲＩＲデータセットをロードする場合、残響応答から推定することができる。

ある実施形態では、知覚マッチング手順がデータセット上で実行する代わりに、空間オーディオレンダリング中に実行することができる。

この例では、混合マトリクスが入力が２チャネル搬送オーディオ信号であることに基づいて定義される。しかしながら、これらの方法は、任意の数の搬送オーディオチャネルのための実施形態に適合させることができる。

ロードされたバイノーラルレンダリングデータセットと共に、事前定義バイノーラルレンダリングデータセットをどのように使用するかが上述されている。これは、いくつかの実施形態では高品質の事前定義バイノーラルレンダリングデータセットを使用することによって、ロードされたバイノーラルレンダリングデータセットに従ってバイノーラルレンダリングの再生品質を改善することができる。

前述の説明は処理が単一の処理エンティティ上で行われる状況（バイノーラル・レンダリング・データ・セットの負荷およびバイノーラル・オーディオ出力のレンダリングを処理する）を暗示することができるが、処理は複数の処理エンティティ上で行うことができることを理解されたい。例えば、処理の一部はオフラインであり、処理の一部はリアルタイムであり得るので、処理は異なるソフトウェアモジュールおよび／または装置上で行われ得る。

したがって、処理ステップを２つ以上の異なる装置またはソフトウェアモジュールに分散させることができることは、当業者には明らかである。１つの実際的な例では、処理ステップのいくつかを、コンピュータ上で実行される第１プログラム内で実施することが可能であり、一方、処理の他の部分は別のプログラム、例えば、別個のコンピュータまたは携帯電話上で実行されるオーディオ処理ライブラリ内で実施することができる。

バイノーラルレンダリングデータセットの分析に関連するステップはデータ可視化が可能であり、したがって、応答特徴推定のいずれかにおける潜在的なエラーを検出することが可能である任意の適切なプラットフォーム上で実行され得る。

実用的な例として、処理の一部を実行するために適切なプログラムを使用する場合、関連するステップは、以下を含むことができる。
・バイノーラルルームインパルス応答（ＢＲＩＲ）のセットがプログラムにロードされる、
・プログラムにおいて、ＢＲＩＲデータセットは早い部分と遅い部分とに分割される、
・プログラムにおいて、早い部分と遅い部分のスペクトル情報が推定される、
・プログラムにおいて、周波数の関数としての残響時間（例えば、ＢＲＩＲセットの平均）が推定される、
・スペクトル情報および残響時間はプログラムからエクスポートされ、オーディオ処理ソフトウェアモジュールに組み込まれ、ここで、ソフトウェアモジュールは事前定義されたＨＲＴＦデータセットおよび構成可能な残響器を有する、
・オーディオ処理ソフトウェアが事前定義されたＨＲＴＦデータセットに基づいて処理のスペクトルを変更するためにスペクトル情報を使用することを可能にされる、
・オーディオ処理ソフトウェアが残響時間（およびスペクトル情報）を使用して、残響器を構成することを可能にされる、
・ソフトウェアは例えば、携帯電話上でコンパイルされ、実行され、したがって、ルーム効果がロードされたＢＲＩＲデータセットに基づくが、事前定義ＨＲＴＦデータセットも使用することによって、ルーム効果を有するバイノーラルオーディオをレンダリングすることが可能になる。

上記において、「結合バイノーラルデータセット」は、事前定義ＨＲＴＦデータセットと、ロードされたＢＲＩＲデータセットに基づいて検索されたスペクトル情報と、ロードされたＢＲＩＲデータセットに基づいて検索された残響パラメータとからなる。上記のこの例によって示されるように、当業者は、様々な方法で様々なプラットフォームに処理を分配することができることが理解される。

図９に関して、上述したように、システムの装置部品のいずれかとして使用され得る例示的な電子装置。デバイスは、任意の適切な電子デバイスまたは装置であることができる。例えば、いくつかの実施形態では、デバイス１７００がモバイルデバイス、ユーザ装置、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。この装置は例えば、図１に示すようにエンコーダ／アナライザ部１０１またはデコーダ／シンセサイザ部１０５、または上述のような任意の機能ブロックを実装するように構成することができる。

いくつかの実施形態では、デバイス１７００が少なくとも１つのプロセッサまたは中央処理装置１７０７を備える。

プロセッサ１７０７は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成され得る。

いくつかの実施形態では、装置１７００が記憶装置１７１１を備える。

いくつかの実施形態では、少なくとも１つのプロセッサ１７０７が記憶装置１７１１に結合される。記憶装置１７１１は、任意の適切な記憶手段とすることができる。

ある実施形態では、記憶装置１７１１がプロセッサ１７０７上に実装可能なプログラムコードを格納するためのプログラムコードセクションを含む。さらに、いくつかの実施形態では、記憶装置１７１１が、データ、例えば、本明細書で説明される実施形態にしたがって処理された、または処理されるべきデータを格納するための格納されたデータセクションをさらに備えることができる。プログラム・コード・セクション内に記憶された実施されたプログラム・コードおよび記憶されたデータ・セクション内に記憶されたデータは、メモリ・プロセッサ結合を介して必要なときにいつでもプロセッサ１７０７によって検索することができる。

いくつかの実施形態では、装置１７００がユーザインターフェース１７０５を備える。ユーザインターフェース１７０５は、いくつかの実施形態ではプロセッサ１７０７に結合することができる。いくつかの実施形態では、プロセッサ１７０７がユーザインターフェース１７０５の動作を制御し、ユーザインターフェース１７０５から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース１７０５がユーザが、例えばキーパッドを介してデバイス１７００にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース１７０５がユーザが装置１７００から情報を取得することを可能にすることができる。例えば、ユーザインターフェース１７０５は、装置１７００からユーザに情報を表示するように構成されたディスプレイを備えることができる。ユーザインターフェース１７０５は、いくつかの実施形態では情報を装置１７００に入力することを可能にすることと、装置１７００のユーザに情報をさらに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。いくつかの実施形態では、ユーザインターフェース１７０５が通信するためのユーザインターフェースであることができる。

いくつかの実施形態では、装置１７００が入力／出力ポート１７０９を備える。入出力ポート１７０９は、いくつかの実施形態ではトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ１７０７に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の好適なトランシーバまたは送信機および／または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。

トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバが適切なユニバーサル移動通信システム（ＵＭＴＳ）プロトコル、例えばＩＥＥＥ８０２．Ｘのような無線ローカルエリアネットワーク（ＷＬＡＮ）プロトコル、Ｂｌｕｅｔｏｏｔｈ（登録商標）のような適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路（ＩＲＤＡ）を使用することができる。

トランシーバ入出力ポート１７０９は、信号を受信するように構成されてもよい。

いくつかの実施形態では、装置１７００が合成装置の少なくとも一部として使用されてもよい。入力／出力ポート１７０９は、ヘッドホン（ヘッドトラック式または非トラック式ヘッドホンであることができる）または同様のものに結合されてもよい。

一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実施することができる。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様はコントローラ、マイクロプロセッサ、または他の計算装置によって実行されてもよいファームウェアまたはソフトウェアで実装されてもよいが、本発明はそれに限定されない。本発明の様々な態様はブロック図、フローチャートとして、またはいくつかの他の絵画的表現を使用して図示および目的され得るが、本明細書で目的されるこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他の計算装置、あるいはそれらのいくつかの組合せで実装され得ることをよく理解されたい。

本発明の実施形態は、モバイルデバイスのデータプロセッサによって、実行可能なコンピュータソフトウェアで実現することができる。例えば、プロセッサ・エンティティのような、またはハードウェアによって、またはソフトウェアとハードウェアの組み合わせによって実装される。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表すことができることに留意されたい。このソフトウェアは、メモリチップなどの物理媒体、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー（登録商標）ディスクなどの磁気媒体、およびたとえばＤＶＤやそのデータの別形のＣＤなどの光学媒体に格納することができる。

メモリは、ローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよびリムーバブルメモリなど、任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカル技術環境に適した任意のタイプとすることができ、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの１つ以上を含むことができる。

本発明の実施形態は、集積回路モジュールなどの様々な部品で実施することができる。集積回路の設計は高度に自動化された処理によるものであり、大規模である。論理レベルの設計を、エッチングされ、半導体基板上に形成される準備ができている整った半導体回路設計に変換するための、複雑で強力なソフトウェアツールが利用可能である。

カリフォルニア州サンノゼにあるＳｙｎｏｐｓｙｓ、ＩｎｃｏｆＭｏｕｎｔａｉｎＶｉｅｗ、ＣａｌｉｆｏｒｎｉａａｎｄＣａｄｅｎｃｅＤｅｓｉｇｎから提供されているようなプログラムは設計の十分に確立されたルール、および予め記憶された設計モジュールのライブラリを用いて、導体を自動的にルーティングし、半導体チップ上の部品の位置を特定する。

半導体回路の設計が完了すると、標準化された電子フォーマット（例えば、Ｏｐｕｓ、ＧＤＳＩＩなど）の結果として得られる設計は、製造のために半導体製造施設または「ファブ」に送信されてもよい。

前述の説明は、本発明の例示的な実施形態の完全かつ有益な説明を、例示的かつ非限定的な例として提供した。

しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になるのであろう。

しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。

Claims

少なくとも１つのオーディオ信号と、該少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを含む空間オーディオ信号を取得し、
バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得し、
バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得し、
前記少なくとも１つのデータセットの少なくとも一部および前記少なくとも１つの事前定義されたデータセットと、前記空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成する
ように構成された手段を備える装置。
バイノーラルレンダリングに関連する前記少なくとも１つのデータセットは、
バイノーラル室内インパルス応答または伝達関数のセット、
頭部に関連するインパルス応答または伝達関数のセット、
バイノーラル室内インパルス応答または伝達関数に基づくデータセット、および、
頭部関連インパルス応答または伝達関数に基づくデータセット
のうちの少なくとも１つを含む、
請求項１に記載の装置。
バイノーラルレンダリングに関連する前記少なくとも１つの事前定義データセットは、
事前定義バイノーラル室内インパルス応答または伝達関数のセット、
事前定義頭部関連インパルス応答または伝達関数のセット、
バイノーラル室内インパルス応答または伝達関数に基づく事前定義データセット、
および、捕捉された頭部関連インパルス応答または伝達関数に基づく事前定義データセット、
のうちの少なくとも１つを含む、
請求項１または２に記載の装置。
前記手段はさらに、前記少なくとも１つのデータセットを第１部分と第２部分とに分割するように構成され、
前記手段は、前記少なくとも１つのデータセットの前記第１部分と前記少なくとも１つの事前定義データセットとの第１部分の組合せを生成するように構成される、
請求項１ないし３のいずれか１項に記載の装置。
前記少なくとも１つのデータセットおよび前記少なくとも１つの事前定義データセットの少なくとも一部と、および、前記空間オーディオ信号と、の組合せに基づいてバイノーラルオーディオ信号を生成するように構成された前記手段は、
前記少なくとも１つのデータセットの前記第１部分および前記少なくとも１つの事前定義データセットと、前記空間オーディオ信号と、の組合せに基づいて、第１部分バイノーラルオーディオ信号を生成するように構成されている、
請求項４に記載の装置。
前記少なくとも１つのデータセットの少なくとも一部と、前記少なくとも１つの事前定義されたデータセットとの組合せを生成するように構成された手段は、
前記少なくとも１つのデータセットの前記第２部分と、前記少なくとも１つの事前定義データセットの前記少なくとも一部との組み合わせと、
前記少なくとも１つのデータセットの前記第２部分がヌルセットである前記少なくとも１つの事前定義データセットの少なくとも一部と、
少なくとも１つのデータセットの第２部分が実質的に、誤りを有するか、ノイズが多いか、または破損していると判定される少なくとも１つの事前定義データセットの少なくとも一部と、
のうちの１つを含む第２部分組合せを生成するようにさらに構成される、
請求項４および５のいずれか１項に記載の装置。
前記少なくとも１つのデータセットの少なくとも一部と、前記少なくとも１つの事前定義データセットとの組み合わせ、および、前記空間オーディオ信号に基づいてバイノーラルオーディオ信号を生成するように構成された前記手段は、
前記第２部分組み合わせおよび前記空間オーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するように構成される、
請求項６に記載の装置。
請求項５に従属するときに、前記少なくとも１つのデータセットの少なくとも一部と前記少なくとも１つの事前定義データセットとの組合せ、および前記空間オーディオ信号に基づいてバイノーラルオーディオ信号を生成するように構成された前記手段は、
前記第１部分のバイノーラルオーディオ信号と前記第２部分のバイノーラルオーディオ信号とを結合するように構成される、
請求項７に記載の装置。
前記少なくとも１つのデータセットを第１部分と第２部分とに分割するように構成された前記手段は、
決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオフ機能を有する第１ウィンドウ機能を生成し、ここで、該第１ウィンドウ機能は、前記第１部分を生成するために少なくとも１つのデータセットに適用され、
決定された最大エネルギーの時間からのオフセット時間とクロスオーバ時間とに基づいてロールオン機能を有する第２ウィンドウ機能を生成するように構成され、ここで、該第２ウィンドウ機能は、前記第２部分を生成するために、前記少なくとも１つのデータセットに適用されるものである、
請求項４ないし８のいずれか１項に記載の装置。
前記手段は、前記少なくとも１つのデータセットの少なくとも一部と、前記少なくとも１つの事前定義データセットとの組合せを生成するように構成される、請求項１ないし９のいずれか１項に記載の機器。
前記少なくとも１つのデータセットの少なくとも一部と、前記少なくとも１つの事前定義されたデータセットとの組合せを生成するように構成された前記手段は、
前記少なくとも１つのデータセットの選択に基づいて初期結合データセットを生成し、
決定されたしきい値より大きい方向差を有する初期結合データセットの隣接要素の少なくとも１つのペアによって定義される該初期結合データセット内の少なくとも１つのギャップを決定し、
ギャップごとに、
前記少なくとも１つの事前定義されたデータセット内で、該ギャップ内に位置する方向を有する前記少なくとも１つの事前定義されたセットの要素を識別し、
前記少なくとも１つの事前定義されたデータセットの識別された要素と前記初期結合データセットとを結合するように構成される、
請求項１０に記載の装置。
前記決定された閾値は、方位角閾値および仰角閾値を含む、請求項１０または１１に記載の装置。
前記少なくとも１つのデータセットの少なくとも一部と前記少なくとも１つの事前定義されたデータセットとの組み合わせが、方向の範囲にわたって定義され、
前記方向の範囲にわたって、前記組み合わせが、定義された閾値を超える方向ギャップを含まない、請求項１ないし１２のいずれか１項に記載の装置。
前記少なくとも１つのデータセットの少なくとも一部が、実質的な誤りがない、実質的なノイズがない、実質的な破損がない、のうちの少なくとも１つである前記少なくとも１つのデータセットの要素である、請求項１ないし１２のいずれか１項に記載の装置。
前記少なくとも１つのオーディオ信号と、前記少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを含む空間オーディオ信号を取得するように構成された前記手段は、
前記空間オーディオ信号を、さらなる装置から受信するように構成される、
請求項１から１４のいずれかに記載の装置。
バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得するように構成された手段は、さらなる装置から該少なくとも１つのデータセットを受信するように構成される、請求項１ないし１５のいずれか１項に記載の装置。
少なくとも１つのオーディオ信号と、該少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを含む空間オーディオ信号を取得するステップと、
バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得するステップと、
バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得するステップと、
少なくとも１つのデータセットの少なくとも一部および前記少なくとも１つの事前定義データセットと、前記空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成するステップと、
を含む方法。
バイノーラルレンダリングに関連する前記少なくとも１つのデータセットは、
バイノーラル室内インパルス応答または伝達関数のセット、
頭部に関連するインパルス応答または伝達関数のセット、
バイノーラル室内インパルス応答または伝達関数に基づくデータセット、および、
頭部関連インパルス応答または伝達関数に基づくデータセット
のうちの少なくとも１つを含む、
請求項１７に記載の方法。
バイノーラルレンダリングに関連する前記少なくとも１つの事前定義データセットは、
事前定義バイノーラル室内インパルス応答または伝達関数のセット、
事前定義頭部関連インパルス応答または伝達関数のセット、
バイノーラル室内インパルス応答または伝達関数に基づく事前定義データセット、および、
捕捉された頭部関連インパルス応答または伝達関数に基づく事前定義データセットのうちの少なくとも１つを含む、
請求項１７または１８に記載の方法。
前記方法は、
前記少なくとも１つのデータセットを第１部分と第２部分とに分割するステップと、
前記少なくとも１つのデータセットの前記第１部分および前記少なくとも１つの事前定義データセットの第１部分の組み合わせを生成するステップと、
をさらに含む、請求項１７ないし１９のいずれか１項に記載の方法。
前記少なくとも１つのデータセットの少なくとも一部と、前記少なくとも１つの事前定義データセットと、前記空間オーディオ信号との組み合わせに基づいて、前記バイノーラルオーディオ信号を生成するステップは、
前記少なくとも１つのデータセットの前記第１部分、前記少なくとも１つの事前定義データセット、および前記空間オーディオ信号の組み合わせに基づいて、第１部分のバイノーラルオーディオ信号を生成することを含む、請求項２０に記載の方法。
少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備える装置であって、
該少なくとも１つのメモリおよび該コンピュータプログラムコードは、該少なくとも１つのプロセッサを用いて、該装置に、少なくとも、
少なくとも１つのオーディオ信号と、前記少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを含む空間オーディオ信号を取得するステップと、
バイノーラルレンダリングに関連する少なくとも１つのデータセットを取得するステップと、
バイノーラルレンダリングに関連する少なくとも１つの事前定義されたデータセットを取得するステップと、
前記少なくとも１つのデータセットおよび前記少なくとも１つの事前定義されたデータセットの少なくとも一部と、空間オーディオ信号との組合せに基づいてバイノーラルオーディオ信号を生成するステップと、
を実行させるように構成される、
装置。