JP2022552474A

JP2022552474A - 空間オーディオ表現およびレンダリング

Info

Publication number: JP2022552474A
Application number: JP2022521323A
Authority: JP
Inventors: ビルカモユハ; ライティネンミッコ－ビッレ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2019-10-11
Filing date: 2020-09-29
Publication date: 2022-12-16
Also published as: GB2593419A; US20240089692A1; CN114586381A; EP4042723A4; GB201914712D0; EP4042723A1; WO2021069793A1

Abstract

【課題】空間オーディオ表現およびレンダリング。【解決手段】空間オーディオ信号を受信し、空間オーディオ信号は少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを含み、室内効果制御指標を取得し、室内効果制御指標に基づいて、室内効果が少なくとも１つのオーディオ信号に適用されるべきかどうかを決定するように構成された手段を含む装置であって、前記室内効果が前記空間オーディオ信号に適用される場合、前記手段は、少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成し、少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成し、ここで、少なくとも第２部分バイノーラルオーディオ信号は、第１部分バイノーラルオーディオ信号の応答とは異なった応答を有するように、少なくとも部分的に室内効果を用いて生成され、結合されたバイノーラルオーディオ信号を生成するために、第１部分バイノーラルオーディオ信号および第２部分バイノーラルオーディオ信号を結合するように構成される、装置。【選択図】図１

Description

本出願は空間オーディオ表現およびレンダリングのための装置および方法に関する。ただし、オーディオデコーダのためのオーディオ表現に限定されるものではない。

低ビットレート動作からトランスペアレンシーまでの範囲の多数の動作点をサポートするイマーシブ（Ｉｍｍｅｒｓｉｖｅ）オーディオコーデックが実装されている。このようなコーデックの一例は、仮想現実（ＶＲ）のためのイマーシブ音声およびオーディオのようなイマーシブサービスでの使用を含む３ＧＰＰ（登録商標）４Ｇ／５Ｇネットワークのような通信ネットワーク上での使用に適するように設計されているイマーシブ音声およびオーディオサービス（ＩＶＡＳ）コーデックである。この音声コーデックは、音声、音楽、汎用音声の符号化、復号、レンダリングを扱うことが期待される。さらに、音場および音源に関する空間情報を含むチャネルベースのオーディオおよびシーンベースのオーディオ入力をサポートすることが期待される。コーデックはまた、様々な伝送条件下で会話サービスを可能にし、高いエラーロバスト性をサポートするために、短い待ち時間で動作することが期待される。

入力信号は、いくつかのサポートされたフォーマットのうちの１つで（およびフォーマットのいくつかの許容された組み合わせで）ＩＶＡＳエンコーダに提示され得る。例えば、モノラルオーディオ信号（メタデータなし）は、ＥＶＳ（ＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅ）エンコーダを使用して符号化され得る。他の入力フォーマットは、新たなＩＶＡＳ符号化ツールを利用することができる。ＩＶＡＳのために提案される１つの入力フォーマットは、メタデータ支援空間オーディオ（ＭＡＳＡ）フォーマットであり、エンコーダは例えば、フォーマットの効率的な送信のためにモノラルおよびステレオ符号化ツールとメタデータ符号化ツールとの組み合わせを利用することができる。ＭＡＳＡは、空間オーディオ処理に適したパラメトリック空間オーディオフォーマットである。パラメータ空間オーディオ処理はオーディオ信号処理の分野であり、音（または音シーン）の空間的側面は、パラメータのセットを使用して記述される。例えば、マイクロホンアレイからのパラメトリック空間オーディオキャプチャでは、例えば周波数帯域における直接－全体比や周囲－全体エネルギー比として表される、マイクロホンアレイの信号から、周波数帯域における音の方向や、周波数帯域において捕捉された音の方向性部分と無方向性部分の相対的なエネルギーなどのパラメータのセットを推定することは、典型かつ有効な選択である。これらのパラメータは、マイクロフォンアレイの位置における捕捉された音の知覚空間特性をよく記述することが知られている。これらのパラメータは、それに応じて空間音の合成、バイノーラルでのヘッドホン、ラウドスピーカ、またはアンビソニック（Ａｍｂｉｓｏｎｉｃｓ）のような他のフォーマットに利用することができる。

例えば、オーディオ信号および空間メタデータの２つのチャネル（ステレオ）が存在し得る。空間メタデータは、さらに、時間周波数パラメータ区間における音の到来方向を記述する方向インデックス、レベル／位相差、方位指数のエネルギー比率を表す直接対全エネルギー比（Ｄｉｒｅｃｔ－ｔｏ－ｔｏｔａｌｅｎｅｒｇｙｒａｔｉｏ）、拡散性、方向指数を表すエネルギーの広がりを表す拡散コヒーレンスなどのコヒーレンス、周囲の方向に対する無指向性音のエネルギー比を表す拡散全エネルギー比（Ｄｉｆｆｕｓｅ－ｔｏ－ｔｏｔａｌｅｎｅｒｇｙｒａｔｉｏ）、無指向性音の周囲の方向に対するコヒーレンスを表すサラウンドコヒーレンス、エネルギー比の合計が１であることが必要である残響（マイクノイズなど）音のエネルギー比を表す残響対全エネルギー比、指標の方向から発生した音の距離をメートル単位で対数スケールで表す距離、マルチチャンネルラウドスピーカー信号に関する共分散マトリクス、またはこれらの共分散マトリクスに関連する任意のデータ、特定のデコーダを導く他のパラメータ、例えば、中心予測係数や１対２復号化係数（ＭＰＥＧサラウンドなどで使用）、のようなパラメータを定義することができる。これらのパラメータのいずれも、周波数帯域で決定することができる。

日常環境において自然なオーディオシーンを聞くことは、特定の方向の音についてだけではない。背景の雰囲気がなくても、耳に到達する音のエネルギーの大部分は直接音からではなく、音響環境からの間接音（すなわち、反射や残響）であることが典型的である。離散的な反射および残響を含む室内効果に基づいて、リスナは他の特徴の中でも音源距離および室内（ｒｏｏｍ）特性（小型、大きい、ウェット、残響）を聴覚的に知覚し、室内は、オーディオコンテンツの知覚される感覚を追加する。言い換えれば、音響環境は、空間音の本質的かつ知覚的に関連する特徴である。

リスナは（例えば、無響室とは対照的に）通常の室内で音楽を聴き、音楽（例えば、ステレオまたは５．１含有量）は、通常の残響を有する室内で聴かれることが期待される方法で典型的に生成され、これは音に対する包絡および広がりを作り出す。無響室で通常の音楽を聴くことは、室内効果の欠如のために不快であることが知られている。したがって、通常の音楽は、通常の室内で残響を伴って聴かれることになる（基本的には常に聴かれる）。

第１の態様によれば、空間オーディオ信号を受信するように構成され、空間オーディオ信号は少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを含み、室内効果制御指標を取得し、室内効果制御指標に基づいて、室内効果が少なくとも１つのオーディオ信号に適用されるべきかどうかを決定し、ここで、前記手段は室内効果が空間オーディオ信号に適用されるべきとき、少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成し、少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成し、ここで、少なくとも第２部分バイノーラルオーディオ信号は、第１部分バイノーラルオーディオ信号の応答とは異なった応答を有するように、室内効果を少なくとも部分的に有して生成され、結合されたバイノーラルオーディオ信号を生成するように、第１部分バイノーラルオーディオ信号および第２部分バイノーラルオーディオ信号を結合するように構成される、手段を備える装置が提供される。

空間メタデータは、少なくとも１つの方向パラメータを備えることができ、少なくとも１つのオーディオ信号に基づいて第１部分バイノーラルオーディオ信号を生成するように構成される手段と、空間メタデータとは、少なくとも１つのオーディオ信号および少なくとも１つの方向パラメータに基づいて第１部分バイノーラルオーディオ信号を生成するように構成されることができる。

空間メタデータは、少なくとも１つの比率パラメータを含むことができ、少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するように構成された手段は、少なくとも１つのオーディオ信号および少なくとも１つの比率パラメータに基づいて第２部分バイノーラルオーディオ信号を生成するようにさらに構成することができる。

少なくとも１つの方向パラメータは、周波数帯に関連付けられた方向であることができる。

少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成するように構成された手段は、少なくとも１つのオーディオ信号を分析して、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性を決定し、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性にさらに基づいて第１部分バイノーラルオーディオ信号を生成するように構成され得る。

少なくとも１つのオーディオ信号は、少なくとも２つのオーディオ信号を含むことができ、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性を決定するために少なくとも１つのオーディオ信号を分析するように構成された手段は、少なくとも２つのオーディオ信号間の共分散を推定するように構成することができ、第１部分バイノーラルオーディオ信号を生成するように構成された前記手段は、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性にさらに基づいて、少なくとも２つのオーディオ信号間の推定共分散に基づいて混合係数を生成し、混合係数に基づいて少なくとも２つのオーディオ信号を混合して第１部分バイノーラルオーディオ信号を生成するように構成することができる。

少なくとも２つの搬送オーディオ信号間の推定共分散に基づいて混合係数を生成するように構成された手段は、目標共分散に基づいて混合係数を生成するようにさらに構成されてもよい。

この手段は、推定共分散に基づいて総合エネルギー推定値を生成し、方向パラメータに基づいて頭部関連伝達関数データを決定し、頭部関連伝達関数データ、空間メタデータ、および総合エネルギー推定値に基づいて目標共分散を決定するようにさらに構成され得る。

少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するように構成された手段は、少なくとも１つのオーディオ信号に残響器（ｒｅｖｅｒｂｅｒａｔｏｒ）を適用するように構成され得る。

室内効果制御指標を取得するように構成された手段は、空間オーディオ信号の符号器によって設定されたフラグとして室内効果制御指標を受信することと、ユーザ入力として室内効果制御指標を受信することと、空間オーディオ信号のタイプを示すインジケータを取得することに基づいて室内効果制御指標を決定することと、空間オーディオ信号のタイプを決定するために空間オーディオ信号の分析に基づいて室内効果制御指標を決定することとのうちの少なくとも１つを実行するように構成され得る。

少なくとも１つのオーディオ信号は、エンコーダによって生成される少なくとも１つの搬送オーディオ信号であることができる。

第２部分バイノーラル信号は、第１部分バイノーラルオーディオ信号の時間応答よりも長い時間応答を有することができる。

第２の態様によれば、空間オーディオ信号を受信するステップであって、空間オーディオ信号は少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを含む、ステップと、室内効果制御指標を取得するステップと、室内効果制御指標に基づいて、室内効果が少なくとも１つのオーディオ信号に適用されるべきかどうかを決定するステップとを含む、方法が提供される。前記方法は、前記空間オーディオ信号に適用されるべきときに、前記少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成するステップと、前記少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するステップであって、前記少なくとも第２部分バイノーラルオーディオ信号は、前記第１部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、前記室内効果とともに少なくとも部分的に生成される、ステップと、結合されたバイノーラルオーディオ信号を生成するために、前記第１部分バイノーラルオーディオ信号および前記第２部分バイノーラルオーディオ信号を結合するステップを含む。

空間メタデータは、少なくとも１つの方向パラメータを備えることができ、少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成することは、少なくとも１つのオーディオ信号および少なくとも１つの方向パラメータに基づいて第１部分バイノーラルオーディオ信号を生成することを含むことができる。

空間メタデータは少なくとも１つの比率パラメータを含み、少なくとも１つのオーディオ信号に基づいて第２部分のバイノーラルオーディオ信号を生成することは、少なくとも１つのオーディオ信号と少なくとも１つの比率パラメータに基づいて第２部分のバイノーラルオーディオ信号を生成することを更に含み得る。

少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分のバイノーラルオーディオ信号を生成することは、少なくとも１つのオーディオ信号を分析して、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性を決定することと、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性にさらに基づいて、第１部分のバイノーラルオーディオ信号を生成することとを含み得る。

少なくとも１つのオーディオ信号は少なくとも２つのオーディオ信号を含むことができ、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性を決定するために、少なくとも１つのオーディオ信号を分析することは、少なくとも２つのオーディオ信号の間の共分散を推定することを含むことができ、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性にさらに基づいて、第１部分のバイノーラルオーディオ信号を生成することは、少なくとも２つのオーディオ信号の間の推定共分散に基づいて混合係数を生成することと、混合係数に基づいて少なくとも２つのオーディオ信号を混合して第１部分のバイノーラルオーディオ信号を生成することを含んでもよい。

少なくとも２つの搬送オーディオ信号間の推定共分散に基づいて混合係数を生成することは、目標共分散に基づいて混合係数を生成することを更に含み得る。

本方法は、推定共分散に基づいて全体エネルギー推定値を生成するステップと、方向パラメータに基づいて頭部関連伝達関数データを決定するステップと、頭部関連伝達関数データ、空間メタデータ、および全体エネルギー推定値に基づいて目標共分散を決定するステップとをさらに含むことができる。

少なくとも１つのオーディオ信号に基づいて第２部分のバイノーラルオーディオ信号を生成することは、少なくとも１つのオーディオ信号にリバーブを適用することを含み得る。

室内演出制御表示を得るステップは、空間オーディオ信号のエンコーダによって設定されたフラグとして室内演出制御表示を受信ステップと、ユーザ入力として室内演出制御表示を受信するステップと、空間オーディオ信号のタイプを示すインジケータを得ることに基づいて室内演出制御表示を決定するステップと、空間オーディオ信号のタイプを決定するために空間オーディオ信号の分析に基づいて室内演出制御表示を決定するステップとのうちの少なくとも１つを含むことができる。

第３の態様によれば、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備える装置であって、少なくとも１つのメモリと、コンピュータプログラムコードとを含み、少なくとも１つのメモリと、コンピュータプログラムコードとを含み、少なくとも１つのメモリと、コンピュータプログラムコードとを含み、少なくとも１つのプロセッサと、を備え、少なくとも１つのプロセッサとは、装置に、空間オーディオ信号を受信し、ここで、空間オーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータと、を備える空間オーディオ信号と、を含み、室内効果制御指標を取得し、室内効果制御指標に基づいて、室内効果が空間オーディオ信号に適用されるべきかどうかを決定し、ここで、手段は、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成し、少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成し、ここで、少なくとも第２部分バイノーラルオーディオ信号は、少なくとも部分的に、第１部分のバイノーラルオーディオ信号の応答とは異なった応答を有するように室内効果で生成され、第１部分のバイノーラルオーディオ信号と第２部分のバイノーラルオーディオ信号とを結合して、結合されたバイノーラルオーディオ信号を生成するように構成されるようにさせる、装置が提供される。

空間メタデータは、少なくとも１つの方向パラメータを含むことができ、この装置は、少なくとも１つのオーディオ信号に基づいて第１部分バイノーラルオーディオ信号を生成させることができ、空間メタデータは、少なくとも１つのオーディオ信号および少なくとも１つの方向パラメータに基づいて第１部分バイノーラルオーディオ信号を生成させることができる。

空間メタデータは少なくとも１つの比率パラメータを含むことができ、少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成させる装置は、少なくとも１つのオーディオ信号および少なくとも１つの比率パラメータに基づいて第２部分バイノーラルオーディオ信号を生成させることができる。

少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成するようにされた装置は、少なくとも１つのオーディオ信号を分析して、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性を決定し、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性にさらに基づいて第１部分バイノーラルオーディオ信号を生成するようにすることができる。

少なくとも１つのオーディオ信号は少なくとも２つのオーディオ信号を含むことができ、少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性を決定するために少なくとも１つのオーディオ信号を分析するようにされた装置は、少なくとも２つのオーディオ信号の間の共分散を推定するようにされることができ、装置は少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性にさらに基づいて、第１部分のバイノーラルオーディオ信号を生成するようにされた装置は、少なくとも２つのオーディオ信号の間の推定共分散に基づいて混合係数を生成し、第１部分のバイノーラルオーディオ信号を生成するために、混合係数に基づいて少なくとも２つのオーディオ信号を混合するようにされることができる。

少なくとも２つの搬送オーディオ信号間の推定共分散に基づいてミキシング係数を生成するようにした装置はさらに、目標共分散に基づいてミキシング係数を生成するようにすることができる。

この装置はさらに、推定共分散に基づいて全体的エネルギー推定値を生成し、方向パラメータに基づいて頭部関連伝達関数データを決定し、頭部関連伝達関数データ、空間メタデータ、および全体的エネルギー推定値に基づいて目標共分散を決定するようにされ得る。

少なくとも１つのオーディオ信号に基づいて第２部分のバイノーラルオーディオ信号を生成するようにした装置は、少なくとも１つのオーディオ信号にリバーブ器を適用するようにされることができる。

室内効果制御指標を取得するようにされた装置は、空間オーディオ信号のエンコーダによって設定されたフラグとして室内効果制御指標を受信することと、ユーザ入力として室内効果制御指標を受信することと、空間オーディオ信号のタイプを示すインジケータを取得することに基づいて室内効果制御指標を決定することと、空間オーディオ信号のタイプを決定するために空間オーディオ信号の分析に基づいて室内効果制御指標を決定することとのうちの少なくとも１つを実行するようにされ得る。

第４の態様によれば、空間オーディオ信号を受信するように構成された受信回路であって、前記空間オーディオ信号は少なくとも１つのオーディオ信号と、前記少なくとも１つのオーディオ信号に関連する空間メタデータとを含む、受信回路と、室内効果制御表示を得るように構成された回路と、前記室効果制御表示に基づいて、室効果が前記空間オーディオ信号に加えられるべきか否かを判断するように構成された判断回路とを備える装置が提供される。ここで、前記装置は、前記空間オーディオ信号に室効果が加えられるべきか否かを判断するように構成された判断回路であって、前記少なくとも１つのオーディオ信号および空間メタデータに基づいて、第１部分バイノーラルオーディオ信号を生成するように構成された回路と、前記追加された室効果が前記空間オーディオ信号に加えられるべきときに、前記少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成し、前記少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成し、少なくとも前記第２部分バイノーラルオーディオ信号は、前記第１部分バイノーラルオーディオ信号の応答と異なる応答を有するように、少なくとも部分的に前記室効果と共に生成されるように構成された回路と、第１部分のバイノーラルオーディオ信号と第２部分のバイノーラルオーディオ信号とを結合して結合されたバイノーラルオーディオ信号を生成するように構成された結合回路とを備える。

第５の態様によれば、装置に、空間オーディオ信号を受信するステップであって、空間オーディオ信号は少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを含む、ステップと、室内効果制御指標を取得するステップと、室内効果制御指標に基づいて、室内効果が空間オーディオ信号に適用されるべきかどうかを決定するステップと、を含む方法を実行させる命令［またはプログラム命令を含むコンピュータ可読媒体］を含むコンピュータプログラムが提供される。この方法は、空間オーディオ信号に適用されるべきとき、少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成するステップと、少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するステップであって、少なくとも第２部分バイノーラルオーディオ信号は、第１部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果で生成される、ステップと、結合されたバイノーラルオーディオ信号を生成するために、第１部分バイノーラルオーディオ信号および第２部分バイノーラルオーディオ信号を結合するステップと、を含む。

第６の態様によれば、装置に、空間オーディオ信号を受信するステップであって、該空間オーディオ信号は、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを備える、ステップと、室内効果制御指標を取得するステップと、室内効果制御指標に基づいて、室内効果が空間オーディオ信号に適用されるべきかどうかを決定するステップと、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成するステップと、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するステップと、少なくとも第２部分バイノーラルオーディオ信号は第１部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果を用いて生成するステップと、室内効果が空間オーディオ信号に適用されるべきとき、結合されたバイノーラルオーディオ信号を生成するために、第１部分バイノーラルオーディオ信号および第２部分バイノーラルオーディオ信号を結合するステップと、を実行させるためのプログラム命令を備える非一時的コンピュータ可読媒体が提供される。

第７の態様によれば、空間オーディオ信号を受信する手段であって、空間オーディオ信号を含み、空間オーディオ信号は少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを含む、手段と、室内効果制御指標を取得する手段と、室内効果制御指標に基づいて、室内効果制御指標が空間オーディオ信号に適用されるべきかどうかを決定する手段と、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも１つのオーディオ信号と空間メタデータとに基づいて第１部分バイノーラルオーディオ信号とを生成する手段と、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成する手段であって、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも第２部分バイノーラルオーディオ信号は第１部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果を用いて生成される、手段と、結合バイノーラル音声信号を生成するために、前記空間音声信号に室内効果を適用する場合、前記第１部分バイノーラル音声信号と前記第２部分バイノーラル音声信号とを結合する手段と、を備える装置が提供される。

第８の態様によれば、空間オーディオ信号を受信し、空間オーディオ信号は少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを備え、室内効果制御指標を取得し、室内効果制御指標に基づいて、室内効果制御指標が空間オーディオ信号に適用されるべきかどうかを決定し、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成し、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成し、少なくとも第２部分バイノーラルオーディオ信号は、第１部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果を用いて生成され、室内効果が空間オーディオ信号に適用されるべきときに、結合されたバイノーラルオーディオ信号を生成するために、第１部分バイノーラルオーディオ信号、および第２部分バイノーラルオーディオ信号を結合することを、装置に少なくとも実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。

上述の動作を実行するための手段を備える装置。

上述の方法の動作を実行するように構成された装置。

コンピュータに上述の方法を実行させるためのプログラム命令を含むコンピュータプログラム。

媒体に記憶されたコンピュータプログラム製品は、装置に本明細書に記載された方法を実行させることができる。

電子デバイスは、本明細書で説明されるような装置を備えることができる。

チップセットは、本明細書に記載されるような装置を備えてもよい。

本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。

本出願をより良く理解するために、添付の図面を例として参照する。
図１は、いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す。図２は、いくつかの実施形態に従う例示的な装置の動作のフロー図を示す。図３は、いくつかの実施形態による、図１に示されるような合成プロセッサを概略的に示す。図４はいくつかの実施形態に従う、図３に示されるような例示的な装置の動作のフロー図を示す。図５は先の図に示される装置を実施するのに適した例示的な装置を示す。

以下に、レンダリングされた空間メタデータ支援オーディオ信号に対する室内効果の制御および付加のための適切な装置および可能な機構をさらに詳細に説明する。

以下の例はＭＡＳＡ符号化および復号に焦点を当てているが、提示された方法は搬送オーディオ信号および空間メタデータを利用する任意のシステムに適用可能であることに留意されたい。空間メタデータは、例えば、方向、レベル／位相差、直接対全エネルギー比、拡散性、コヒーレンス（拡散および／周囲コヒーレンスなど）、および距離の任意のタイプの組合せで、以下のパラメータのうちのいくつかを含むことができる。典型的には、パラメータは時間周波数領域で与えられる。したがって、以下において、用語ＩＶＡＳおよび／またはＭＡＳＡが使用される場合、それらは、任意の他の適切なコーデックおよび／またはメタデータフォーマットおよび／またはシステムと置き換えることができることを理解されたい。

以下の例では、ＩＶＡＳストリームがバイノーラル出力、マルチチャネル出力、およびアンビソニック（ＦＯＡ／ＨＯＡ）出力を含む様々な出力フォーマットに復号化およびレンダリングすることができる。さらに、出力フォーマットが入力フォーマットなどに対応できる、外部レンダリングのためのインタフェースがある可能性がある。

空間（例えばＭＡＳＡ）メタデータは、出力フォーマットに依存しない方法で所望の空間オーディオ認識を描写するので、空間メタデータを有する任意のストリームを、上述の任意の出力フォーマットに柔軟に描写することができる。しかし、ＭＡＳＡストリームはさまざまな入力から発生することができるため、デコーダが受信する搬送オーディオ信号の特性が異なる場合がある。したがって、デコーダは最適なオーディオ品質を生成することができるように、これらの態様を考慮に入れるように構成される。

パラメトリックオーディオ信号をレンダリングするための方法は、ＭＰＥＧサラウンドにおいて、５．１音が５．１音を再合成するための情報を含むステレオダウンミックスおよび空間メタデータの形成で伝達されることを含む。本質的に、空間メタデータはステレオ音を５．１音にステレオ音をステアリングし、デコリレーションを適用するためのデコーディングマトリクスを生成する係数からなる。ＭＰＥＧサラウンドバイノーラルデコーダでは、これらのパラメータを利用して適切なＨＲＴＦを選択・混合し、中間の５．１ラウドスピーカ音を生成する必要なしに、効率的なステレオ・イノーラル（２ｘ２）ミキシング手順を生成する。

さらに、パラメトリックオーディオ信号のレンダリングは指向性オーディオ符号化（ＤｉｒＡＣ）を用いて実施することができ、この指向性オーディオ符号化（ＤｉｒＡＣ）は、その第１の形成において、Ｂフォーマットマイクロフォン信号（４つの異なるビームパターンからなる）に基づいて空間メタデータを推定する。レンダリング段階では、マイクロホン信号は拡散度パラメータ（アンビエンス／トータルエネルギー比パラメータ）の関数として周波数帯域の直接信号と周囲信号に分割される。バイノーラル再生に関連して、一構成では、再生が直接部分が、仮想サラウンドラウドスピーカセットアップに振幅パンされ、アンビエンスが、仮想ラウドスピーカセットアップのすべてまたはサブセットに非相関化され、次いで、仮想３Ｄラウドスピーカ信号が、頭部関連伝達関数（ＨＲＴＦ）で処理されてバイノーラル出力を生成するように実施される。

さらに、パラメトリックオーディオ信号をレンダリングすることは、任意の中間信号生成（例えば、直接的および周囲的な部分）を回避するパラメトリック空間オーディオ合成フレームワークを含むことができ、最小二乗法最適化ミキシングソリューションが利用可能なオーディオ信号から対象の空間音を直接生成することを可能にする。このアプローチはオーディオ信号で独立した信号を効率的に利用し、再生音の知覚品質を低下させることが知られている低減相関手順を使用する必要性を低減らす。この方法は特定のパラメトリックレンダラではなく、パラメトリックレンダラによって適用することができる方法であり、例えば、ＤｉｒＡＣに関連して、例えば、マルチチャネルレンダリングおよびバイノーラルレンダリングにおいて利用することができる。例えば、このアプローチは、「空間オーディオの時間周波数処理のための最適化共分散領域フレームワーク」、ＪＶｉｌｋａｍｏ、ＴＢ偏カストローム、ＡＫｕｎｔｚ、ＪｏｕｒｎａｌｏｆＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ６１、ｎｏ。６（２０１３）：４０３－４１１にさらに詳細に記載されている。

以下の実施形態で論じられる概念は、レンダリングされた空間オーディオ信号への室内効果の付加に関する。日常環境において自然なオーディオシーンを聞くことは、特定の方向の音についてだけではない。背景の雰囲気がなくても、耳に到達する音エネルギーの大部分は直接音ではなく、典型的には音響環境からの間接音（すなわち、反射や残響）である。離散的な反射および残響を含む室内効果に基づいて、我々は他の特徴の中でも音源距離および室内特性（小型、大きい、ウェット、残響）を聴覚的に知覚し、室内は、オーディオコンテンツの知覚される感覚を追加する。言い換えれば、音響環境は空間音の知覚的に関連した特徴である。

リスナは通常、（例えば、無響室とは対照的に）通常の室内で音楽を聴くので、音楽（例えば、ステレオまたは５．１チャンネルコンテンツ）は通常の残響を有する室内で聴かれることが期待される方法で生成され、これは音に対する包絡および広がりを作り出す。無響室で通常の音楽を聴くことは、室内効果の欠如のために不快であることが知られている。したがって、通常の音楽は、通常の室内で残響を伴って聴かれるべきである（基本的には常に聴かれる）。

例えば、頭部伝達関数（ＨＲＴＦ）ベースのレンダリングを使用するマルチチャネルコンテンツ（例えば、５．１）のバイナウラル空間音レンダリングは、無響室での聴取に対応する。このように、室内効果の欠如により、不自然で不快であると感じられる。室内効果を加えるためのバイノーラル室内インパルス応答（ＢＲＩＲ）ベースの技術は、典型的にはマルチチャネルコンテンツ（５．１など）のバイノーラルレンダリングに使用される。

しかしながら、室内効果を加えることが望ましくない信号タイプもある。例えば、モバイルデバイスでキャプチャされた空間音のバイノーラルレンダリングである。モバイルデバイスキャプチャされたオーディオの目的は、典型的には空間音がキャプチャされた位置にリスナを「移送」し、リスナが存在するかのように音シーンを忠実にレンダリングすることである。キャプチャされたオーディオは記録空間の自然な残響を含み、したがって、追加の残響を追加しないＨＲＴＦベースのバイノーラルレンダリング方法が好ましい。レンダリングされたオーディオはキャプチャ空間の室内効果とレンダリングの室内効果の両方を含むので、レンダリングに室内効果を追加することは不自然なリスニング体験を引き起こす。

したがって、バイノーラルレンダリングにおいて室内効果を追加する必要がある状況があり、室内効果を追加する必要がない状況がある。

以下でさらに詳細に論じられる概念は、装置および方法の提供であり、例えば、いくつかの実施形態では、空間オーディオストリームの上で動作するバイノーラルレンダラおよび／またはバイノーラルレンダリングのための方法が提供され、これは、（様々なソースからの、任意の特性を有する）搬送オーディオ信号と、典型的には少なくとも周波数帯域の方向を含む空間メタデータ（方向は任意の値を有することができる）を含むことができる。さらに、いくつかの実施形態では、バイノーラルレンダリングのためのバイノーラルレンダラおよび／または方法が、（それをレンダリングするかどうかの指標に基づいて）追加された室内効果を伴っておよび伴わずにバイノーラル信号をレンダリングするように構成される。

したがって、実施形態は、搬送オーディオ信号（１つ以上）および空間メタデータ（少なくとも、周波数帯域内の方向からなる）を含む空間オーディオストリームのバイノーラルレンダリングに関する。そのような実施形態では、空間オーディオストリーム（モバイルおよび５．１などの様々なソースからのものとすることができる）に基づいて、室内効果を伴う、および伴わないバイノーラルオーディオ出力をレンダリングすることができる方法が提案される。さらに、いくつかの実施形態では、このレンダラが、空間メタデータ、早期部分レンダリングのためのバイノーラルレンダリングデータ、および、搬送オーディオ信号の確率的分析に基づいて、バイノーラル信号をレンダリングすることによって、また、指標が、付加室効果用バイノーラルレンダリングデータに基づき、付加室効果用バイノーラル信号（「早期部分」信号と組み合わせられる）「追加室内効果」を示す場合、これらの信号をレンダリングすることによって、レンダリングを実行するように構成される。

いくつかの実施形態では、１つ以上の搬送オーディオ信号および空間メタデータからなる、パラメトリックオーディオストリームを取得するレンダラおよび／またはデコーダがあってもよい。空間オーディオストリームは例えば、それを記憶装置から検索することによって、またはネットワークを介してそれを受信することによって、得ることができる。

空間メタデータは、少なくとも周波数帯域の方向を含むことができる。これらの方向は、（ラウドスピーカセットアップ方向のような所定の方向の代わりに）任意の方向を指すことができる。したがって、レンダリング方法は、任意の方向へのレンダリングをサポートするように設定する必要がある。他のパラメータは、音が周波数帯域内にどのように指向性または周囲があるかを示す比率パラメータを含むことができる。さらなるパラメータは、指向性音が点状または幅広に再生されるべきかどうか、または任意の他のパラメータを含むことができる。

いくつかの実施形態では、搬送オーディオ信号が例えば、（任意の潜在的な前処理が実行される）空間マイクロフォン信号、同時入射マイクロフォン信号、サラウンドラウドスピーカ信号のダウンミックス、オーディオオブジェクトのダウンミックス、任意の順序のアンビソニック信号、または任意の順序のアンビソニック信号のサブセット、上記の任意の混合、または任意の他のタイプのうちの１つとすることができる。

レンダラはさらに、いくつかの実施形態では、追加されたルーム応答をレンダリングするかどうかに関する指標を受信するように構成される。指標は、様々な方法で得ることができる。例えば、それは利用者から得られるか、または空間オーディオストリームと共に受信されてもよい。また、空間オーディオストリームに基づいて決定されてもよい。例えば、５．１音のダウンミックスがトランスポート信号として検出された場合、指標は「室内効果を追加する」ように設定されてもよい。一方、マイク信号がトランスポート信号として検出された場合、表示が「室内効果なし」に設定されることができる。

いくつかの実施形態では、「早期部分」および「室内効果」バイノーラル信号が別々にレンダリングされる。早期の部分のバイノーラル信号は周波数帯域でレンダリングされ、したがって、一部の実施形態における搬送信号は時間周波数領域に変換され得る。

一部の実施形態では、初期部レンダラが周波数帯における搬送信号確率特性（共分散マトリクス）を推定することによって、レンダリングを実行するように構成される。共分散マトリクスは輸送チャネルのエネルギー、相関、相互位相の情報を含んでいる。次いで、この情報は、多くの搬送オーディオ信号タイプに起因して、様々な信号特性に適応するようにレンダリングを構成するために使用される。例えば、「離間した」、「一致した」、「ダウンミックス」タイプは、空間メタデータが類似している状況であっても、非常に異なる確率的特性を有することができる。

さらに、いくつかの実施形態では、ターゲット共分散マトリクスが空間メタデータを使用して周波数帯域において決定される。例えば、音が一定の角度から到来する場合、左右の耳（各周波数）に一定のスペクトルを有し、一定の位相依存性を有する必要がある。これらは、早期パートレンダリングのためのバイノーラルレンダリングデータを使用して、例えば、その特定の角度におけるＨＲＴＦペアを使用して決定される。同様に、比率パラメータは、バイノーラル出力チャネルがどのように相関されるべきかに影響を及ぼす、等々である。したがって、受信された空間メタデータに対応するこれらのバイノーラル特性のすべてを反映するターゲット共分散マトリクスが構築される。

そして、搬送信号共分散マトリクスと目標共分散マトリクスが既知であれば、混合ソリューションを定式化することができる。混合ソリューション（周波数帯域単位）は、トランスポートオーディオ信号に適用すると、判定されたターゲット共分散マトリクスにしたがって共分散マトリクスを持つ出力信号を生成するようになっている。結果として得られる信号は時間領域に戻され、結果はレンダリングされた早期部分バイノーラル信号である。

このように、信号確率特性を測定し、それに応じて処理を構成する手順のために、処理は、各種搬送信号タイプに対して最適化され得る。このような処理は、室内効果を付加しない。

いくつかの実施形態では、指標が室内効果をレンダリングするように設定されると、室内効果がレンダリングされる。室内効果のレンダリングは、例えば、測定されたＢＲＩＲの後期部分を含むことができる追加の室内レンダリングのために、搬送オーディオ信号をバイノーラルレンダリングデータと畳み込むことによって実行されることができる。例えば、ペアのＢＲＩＲから早期／方向部分を減衰／除去し、後期（バイノーラル）応答のみを畳み込み残響器として使用することが可能である。畳み込みは、ＦＦＴベースの畳み込み技法を用いて効率的に実装できる。

さらに、いくつかの実施形態では、早期部分バイノーラル信号および追加された室内効果バイノーラル信号が（例えば、それらを合計することによって）組み合わされ、ヘッドホンを介して再生され得る適切な出力形式のバイノーラル信号をもたらす。

いくつかの実施形態では、結合の前に、他の経路の１つがより長い遅延を有することが知られている信号経路の１つに、さらなる「整列」遅延が導入されてもよい。

したがって、種々のソースからのパラメトリック空間オーディオ信号をバイノーラル出力にレンダリングする結果として、本明細書でさらに詳細に説明するような実施形態は（適当な指標に基づいて）室内効果を有する（または付加されない）バイノーラル信号を生成することができ、さらに、バイノーラル信号出力は、搬送オーディオ信号の変化する、事前定義されていない特性のために最適化することができる。実施形態は、オーディオ信号を任意の方向にレンダリングするように構成することができる。

図１を参照すると、いくつかの実施形態による、オーディオキャプチャおよびレンダリングを実施するための例示的な装置およびシステムが示されている。

システム１９９は、エンコーダ／アナライザ１０１部分およびデコーダ／シンセサイザ１０５部分とともに示されている。

いくつかの実施形態におけるエンコーダ／アナライザ１０１部分は、入力オーディオ信号１１０を受信するように構成されたオーディオ信号入力を含む。入力オーディオ信号は、例えば、携帯電話に搭載された２つ以上のマイクロフォン、例えばＢフォーマットマイクロフォンまたはアイゲンマイク（Ｅｉｇｅｎｍｉｋｅ）のような他のマイクロフォンアレイ、アンビソニック信号、例えば、一次アンビソニック（ＦＯＡ）、高次アンビソニック（ＨＯＡ）、ラウドスピーカサラウンドミックスおよび／またはオブジェクトなど、任意の適切なソースから得ることができる。入力オーディオ信号１１０は、分析プロセッサ１１１および輸送信号発生器１１３に供給されてもよい。

エンコーダ／アナライザ１０１部分は、分析プロセッサ１１１を含むことができる。分析プロセッサ１１１は、適切なメタデータ１１２を生成する入力オーディオ信号に対して空間分析を実行するように構成される。したがって、分析プロセッサ１１１の目的は、周波数帯域における空間メタデータを推定することである。前述の入力タイプのすべてについて、適切な空間メタデータ、例えば、周波数帯域における方向および直接対総エネルギー比（または拡散性、すなわち、周囲対総比などの同様のパラメータ）を生成するための既知の方法が存在する。これらの方法は本明細書で詳述されるが、いくつかの例は入力信号に対して適切な時間周波数変換を実行し、次いで、入力が携帯電話マイクロフォンアレイであるときの周波数帯域において、マイクロフォン間相関を最大化するマイクロフォンペアの遅延値を推定し、その遅延に対応する方向値を定式化すること（ＧＢ特許出願第１６１９５７３．７号およびＰＣＴ特許出願第ＰＣＴ／ＦＩ２０１７／０５０７７８号に記載されるように）、および相関値に基づいて比率パラメータを定式化することを含み得る。

メタデータにはさまざまな形式があり、空間メタデータやその他のメタデータを含めることができる。空間メタデータの典型的なパラメータ化は、各周波数帯域θ（ｋ，ｎ）における１つの方向パラメータと、各周波数帯域ｒ（ｋ，ｎ）における関連する直接対総エネルギー比であり、ここで、ｋは、周波数帯域インデックスであり、ｎは、時間フレームインデックスである。方向および比率を決定または推定することは、オーディオ信号が得られる装置または実装に依存する。例えば、メタデータは、ＧＢ特許出願第１６１９５７３．７号およびＰＣＴ特許出願第ＰＣＴ／ＦＩ２０１７／０５０７７８号に記載されている方法を使用して、空間オーディオキャプチャ（ＳＰＡＣ）を使用して取得または推定することができる。言い換えれば、この特定の状況では、空間オーディオパラメータが音場を特徴付けることを目的とするパラメータを含む。一部の実施形態では、生成されるパラメータが周波数帯域ごとに異なる場合がある。したがって、例えば、帯域Ｘではすべてのパラメータが生成され、送信されるが、帯域Ｙではパラメータのうちの１つだけが生成され、送信され、さらに、帯域Ｚではパラメータは生成または送信されない。これの実際的な例は、最高帯域のようないくつかの周波数帯域に対して、パラメータのいくつかが知覚上の理由のために必要とされないことであり得る。

入力がＦＯＡ信号またはＢフォーマットマイクロフォンである場合、分析プロセッサ１１１は、方向パラメータが得られる強度ベクトルなどのパラメータを決定し、強度ベクトル長さを全体的な音場エネルギー推定値と比較して比パラメータを決定するように構成することができる。この方法は、指向性オーディオ符号化（ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ：ＤｉｒＡＣ）として文献で知られている。

入力がＨＯＡ信号である場合、分析プロセッサ１１１は、信号のＦＯＡサブセットを取り、上記の方法を使用するか、またはＨＯＡ信号を複数のセクタに分割するかのいずれかを行うことができ、その各セクタにおいて、上記の方法が利用される。このセクタベースの方法は、高次ＤｉｒＡＣ（ＨＯ－ＤｉｒＡＣ）として文献で知られている。この場合、周波数帯域当たり２つ以上の同時方向パラメータが存在する。

入力がラウドスピーカサラウンドミックスおよび／またはオブジェクトである場合、解析プロセッサ１１１は信号を（球面調和エンコードゲインの使用を介して）ＦＯＡ信号に変換し、上述のように方向および比パラメータを解析するように構成されてもよい。

したがって、分析プロセッサ１１１の出力は、周波数帯域で決定された空間メタデータである。空間メタデータは周波数帯域における方向および比率を含むことができるが、先に列挙したメタデータタイプのいずれかを有することもできる。空間メタデータは、時間、また頻度的に変化することができる。

いくつかの実施形態では、空間分析がシステム１９９の外部で実施することができる。例えば、いくつかの実施形態では、オーディオ信号に関連する空間メタデータが別個のビットストリームとしてエンコーダに提供されてもよい。いくつかの実施形態では、空間メタデータが空間（方向）インデックス値のセットとして提供されてもよい。

エンコーダ／分析器１０１部分は、搬送信号発生器１１３を備えることができる。搬送信号発生器１１３は入力信号を受信し、適切な搬送音声信号１１４を生成するように構成される。搬送オーディオ信号は、ステレオまたはモノラルオーディオ信号であることができる。搬送オーディオ信号１１４の生成は、以下に要約されるような公知方法を使用して実施することができる。

入力が携帯電話マイクロフォンアレイ音声信号である場合、搬送信号発生器１１３は、左右のマイクロフォン対を選択し、自動利得制御、マイクロフォン雑音除去、風雑音除去、および等化などの適当な処理を信号対に適用するように構成されてもよい。

入力がＦＯＡ／ＨＯＡ信号またはＢフォーマットマイクロフォンである場合、トランスポート信号生成器１１３は、２つの対向するカージオイド信号などの左右方向に向かう指向性ビーム信号を定式化するように構成され得る。

入力がラウドスピーカーのサラウンドミックスおよび／またはオブジェクトである場合、搬送信号発生器１１３は、左辺チャネルを左ダウンミックスチャネルに組み合わせ、右辺については同じダウンミックス信号を発生させ、適切なゲインで両方の搬送チャネルにセンターチャネルを追加するように構成することができる。

いくつかの実施形態では、トランスポート信号発生器１１３が入力をバイパスするように構成される。例えば、解析および合成が中間符号化なしに、単一の処理ステップで同じ装置で行われる状況もある。トランスポートチャネルの数はまた、任意の適切な数であり得る（むしろ、実施例において議論されるように、１つまたは２つのチャネル）。

いくつかの実施形態では、エンコーダ／アナライザ部１０１がエンコーダ／マルチプレクサ１１５を備えることができる。エンコーダ／マルチプレクサ１１５は、搬送オーディオ信号１１４およびメタデータ１１２を受信するように構成することができる。エンコーダ／マルチプレクサ１１５はさらに、エンコードされた、または圧縮された形態のメタデータ情報および搬送オーディオ信号を生成するように構成され得る。いくつかの実施形態では、エンコーダ／マルチプレクサ１１５は、さらに、伝送または記憶の前に、単一のデータストリーム１１６にインターリーブし、多重化し、またはエンコードされたオーディオ信号内にメタデータを埋め込むことができる。多重化は、任意の適切なスキームを使用して実施することができる。

エンコーダ／マルチプレクサ１１５は例えば、ＩＶＡＳエンコーダ、または任意の他の適切なエンコーダとして実装することができる。したがって、エンコーダ／マルチプレクサ１１５はオーディオ信号およびメタデータを符号化し、ビットストリーム１１６（たとえば、ＩＶＡＳビットストリーム）を形成するように構成される。

次いで、このビットストリーム１１６は鎖線によって示されるように、送信／格納１０３され得る。いくつかの実施形態では、エンコーダ／マルチプレクサ１１５は存在しない（したがって、以下で説明するように、デコーダ／デマルチプレクサ１２１は存在しない）。

システム１９９はさらに、デコーダ／シンセサイザ部１０５を含むことができる。デコーダ／シンセサイザ部１０５は、ビットストリーム１１６を受信し、取り出し、または他の方法で取得し、ビットストリームから、リスナ／リスナ再生装置に提示される適切なオーディオ信号を生成するように構成される。

デコーダ／シンセサイザ部１０５は、ビットストリームを受信し、符号化されたストリームを逆多重化し、次いでオーディオ信号を復号してトランスポート信号１２４およびメタデータ１２２を得るように構成されたデコーダ／デマルチプレクサ１２１を備えることができる。

さらに、いくつかの実施形態では、上述したように、デマルチプレクサ／デコーダ１２１が存在しなくてもよい（例えば、エンコーダ／アナライザ部１０１およびデコーダ／シンセサイザ１０５の両方が同じ装置内に位置するので、関連するエンコーダ／マルチプレクサ１１５が存在しない場合）。

デコーダ／シンセサイザ部１０５は、合成プロセッサ１２３を備えることができる。合成プロセッサ１２３は、搬送オーディオ信号１２４、空間メタデータ１２２、および追加された室内効果制御信号またはインジケータを取得するように構成され、ヘッドホンを介して再生することができるバイノーラル出力信号１２８を生成する。

このシステムの動作は図２に示すようなフロー・ダイアグラムに関して要約され、図２はステップ２０１に示すような入力オーディオ信号の受信の例を示している。

次に、流れ図は、ステップ２０３によって図２に示されるような空間メタデータを生成するための入力オーディオ信号の分析（空間）を示す。

次いで、ステップ２０４によって、図２に示すように、入力オーディオ信号から搬送オーディオ信号が生成される。

生成された搬送オーディオ信号およびメタデータは次に、ステップ２０５によって図２に示されるように多重化され得る。これは、図２に任意の破線のボックスとして示されている。

符号化された信号はステップ２０７によって図２に示されるように、搬送オーディオ信号および空間メタデータを生成するために、さらに逆多重化され、復号化されることができる。これは、任意の破線のボックスとしても示されている。

次に、ステップ２０９によって図２に示すように、バイノーラルオーディオ信号を、搬送オーディオ信号、空間メタデータ、および追加された室内効果制御信号またはインジケータに基づいて合成することができる。

次いで、合成されたバイノーラルオーディオ信号を、ステップ２１１によって図２に示すように、適当な出力装置、例えばヘッドフォンのセットに出力することができる。

図３を参照すると、合成プロセッサ１２３がさらに詳細に示されている。

いくつかの実施形態では、合成プロセッサ１２３が時間周波数変換器３０１を備える。時間周波数変成器３０１は、時間周波数領域に変換する（時間領域）搬送オーディオ信号１２２を受信するように構成される。適切な変換は例えば、短時間Ｆｏｕｒｉｅｒ変換（ＳＴＦＴ）および複素変調直交ミラーフィルタバンク（ＱＭＦ）を含む。結果として得られる信号は、ｘ_ｉ（ｂ，ｎ）として示され得る。ここで、ｉは、チャネルインデックス、ｂは、時間周波数変換の周波数ビンインデックス、および、ｎは、時間インデックスである。時間周波数信号は、例えば、ここではベクトル形式で表現される（例えば、ベクトル形式が２つのチャネルの場合）

次に、以下の処理動作を、時間周波数領域内で、周波数帯域にわたって実施することができる。周波数帯域は、適用された時間周波数トランスフォーマー（フィルターバンク）の１つまたは複数の周波数ビン（個々の周波数成分）とすることができる。いくつかの実施形態では、周波数帯がバーク周波数帯のような知覚的に関連した解像度に近似することができ、この解像度は高周波数よりも低周波数においてスペクトル的により選択的である。あるいは、いくつかの実装形態では周波数帯域が周波数ビンに対応することができる。周波数帯域は、典型的には空間メタデータが分析プロセッサによって決定された周波数帯域（または近似周波数帯域）である。各周波数帯ｋは、最低周波数ビンｂ_ｌｏｗ（ｋ）および最高周波数ビンｂ_ｈｉｇｈ（ｋ）に関して定義され得る。

いくつかの実施形態における時間周波数搬送信号３０２は、共分散マトリクス推定器３０７およびミキサ３１１に供給され得る。

合成プロセッサ１２３は、いくつかの実施形態では共分散マトリクス推定器３０７を備える。共分散マトリクス推定器３０７は時間周波数領域搬送信号３０２を受信し、時間周波数搬送信号の共分散マトリクスと、それらの全体的エネルギー推定値（周波数帯域内）を推定するように構成される。共分散マトリクスは例えば、いくつかの実施形態では、

のように推定することができる。ここで、上付き文字Ｈは共役転置を示す。共分散マトリクスの推定は、いくつかの時間指数ｎにわたるＩＩＲ平均またはＦＩＲ平均のような時間的平均化を含み得る。

推定共分散マトリクス３１０は、混合ルール決定器３０９に出力することができる。

また、共分散マトリクス推定器３０７は、全体のエネルギー推定値Ｅ（ｋ，ｎ）３０８、すなわち、Ｃ_ｘ（ｋ，ｎ）の対角値の和を生成し、この全体のエネルギー推定値を目標共分散マトリクス決定器３０５に提供するように構成することができる。

いくつかの実施形態では、合成プロセッサ１２３がＨＲＴＦ決定器３０３を備える。ＨＲＴＦ決定器３０３は、適切に密集したＨＲＴＦの設定またはＨＲＴＦ補間器を含んでもよい。ＨＲＴＦ判定器は、角度θ（ｋ，ｎ）および周波数帯域ｋに対する２ｘ１複素値ヘッド関連伝達関数（ＨＲＴＦ）ｈ（θ（ｋ，ｎ），ｋ）を決定するように構成される。いくつかの実施形態では、ＨＲＴＦ決定器３０３が空間メタデータ１２４を受信し、（空間メタデータにおける方向パラメータである）角度から出力ＨＲＴＦを決定するように構成される。

例えば、帯域ｋの中間周波数におけるＨＲＴＦを決定することができる。リスナの頭方位追跡が含まれる場合、方向パラメータθ（ｋ，ｎ）は現在の頭方位を考慮するために、ＨＲＴＦを取得する前に修正することができる。

ＨＲＴＦ決定器３０３のＨＲＴＦデータセットはいくつかの実施形態では合成プロセッサ１２３のために事前に定式化され、固定されることができ、複数のＨＲＴＦデータセットから選択することができる。いくつかの実施形態ではＨＲＴＦ決定器３０３のＨＲＴＦデータセットがまた、各帯域ｋについて拡散フィールド共分散マトリクスを有し、これは例えば、ｄ＝１．．Ｄである、方向θ_ｄの等しく分布したセットをとることによって定式化され得る。拡散フィールドの共分散マトリクスを、

のように推定する。

ＨＲＴＦデータは、任意の適切な方法を使用することによってレンダリングされ、補間され得る。例えば、いくつかの実施形態では、ＨＲＴＦの設定が周波数の関数として、左耳と右耳の両耳間時間差およびエネルギーに分解される。次いで、所与の角度におけるＨＲＴＦが必要とされるとき、ＨＲＴＦセットにおける最も近い既存のデータ点が見出され、所与の角度における遅延およびエネルギーが補間される。これらのエネルギーおよび遅延は次に、使用される複素乗算器として変換することができる。

いくつかの実施形態では、ＨＲＴＦがＨＲＴＦデータセットを、周波数帯域内の球面調和バイノーラル復号マトリクスのセットに変換するために内挿される。次いで、任意の角度に対するＨＲＴＦはその角度に対する球面調和重みベクトルを定式化し、それをそのマトリックスと乗算することにより決定できる。結果は、再び２×１ＨＲＴＦベクトルである。

幾つかの実施例では、ＨＲＴＦの補間がそれらを仮想拡声器として扱い、例えば振幅パンニングを介して補間ＨＲＴＦを得ることによって実施することができる。

定義により、ＨＲＴＦは、無響空間における耳への特定の方向からの応答を指す。しかしながら、ＨＲＴＦデータセットの代わりに、（ＨＲＴＦ部分に加えて）バイノーラルルームインパルス応答の早期部分も含む別のデータセットを使用することが完全に可能である。このようなデータセットは例えば、１階または壁面の反射に起因するスペクトルおよび他の特徴も含む。

ＨＲＴＦデータ３０４（これは、ｈ（θ（ｋ，ｎ），ｋ）およびＣ_Ｄ（ｋ）から構成される）は、ＨＲＴＦ決定器３０３によって出力され、ターゲット共分散マトリクス決定器３０５に渡され得る。

いくつかの実施形態では、合成プロセッサ１２３がターゲット共分散マトリクス決定器３０５を備える。ターゲット共分散マトリクス決定器３０５は、この例では少なくとも１つの方向パラメータθ（ｋ，ｎ）と、少なくとも１つの直接対総エネルギー比パラメータｒ（ｋ，ｎ）と、ＨＲＴＦデータ３０４と、総エネルギー推定値Ｅ（ｋ，ｎ）３０８とを備えることができる空間メタデータ１２４を受信するように構成される。次に、共分散マトリクス決定器３０５は、空間メタデータ１２４、ＨＲＴＦデータ３０４、および全体エネルギー推定値３０８に基づいて、ターゲット共分散マトリクス３０６を決定するように構成される。例えば、対象共分散マトリクス決定器３０５は、

により対象共分散マトリクスを定式化することができる。

次に、目標共分散マトリクスＣ_ｙ（ｋ，ｎ）３０６を混合規則決定器３０９に供給することができる。

合成プロセッサ１２３は、いくつかの実施形態では混合規則決定器３０９を備える。混合ルール決定器３０９は、ターゲット共分散マトリクス３０６および推定共分散マトリクス３１０を受信するように構成される。混合ルール決定器３０９は、ターゲット共分散マトリクスＣ_ｙ（ｋ，ｎ）３０６および測定された共分散マトリクスＣ_ｘ（ｋ，ｎ）３１０に基づいて混合マトリクスＭ（ｋ，ｎ）３１２を生成するように構成される。

いくつかの実施形態では、混合マトリクスが、「空間オーディオの時間周波数処理のための最適化共分散領域フレームワーク（Ｏｐｔｉｍｉｚｅｄｃｏｖａｒｉａｎｃｅｄｏｍａｉｎｆｒａｍｅｗｏｒｋｆｏｒｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｐｒｏｃｅｓｓｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏ）」、ＪＶｉｌｋａｍｏ、ＴＢａｃｋｓｔｒｏｍ，ＡＫｕｎｔｚ、ＪｏｕｒｎａｌｏｆＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ６１、ｎｏ．６（２０１３）：４０３－４１１に記載された方法に基づいて生成される。

いくつかの実施形態では、混合規則決定器３０９が混合マトリクスの生成を導くプロトタイプ・マトリクス

を決定するように構成される。

まとめると、共分散マトリクスＣ_ｘ（ｋ，ｎ）を持つ信号に適用すると、共分散マトリクスＣ_ｙ（ｋ，ｎ）を持つ信号を生成する混合マトリクスＭ（ｋ，ｎ）を、最小二乗最適化された方法で提供することができる。マトリックスＱは、このようなミキシングにおける信号コンテンツをガイドする。この例ではマトリックスは単に恒等マトリックスであるということになる。左右の処理された信号が元の左右の信号にできるだけ似ているはずだからである。言い換えれば、設計は処理された出力のためにＣ_ｙ（ｋ，ｎ）を取得しながら、信号を最小限に変更することである。混合マトリックスＭ（ｋ，ｎ）は、各周波数帯ｋについて定式化され、ミキサー３１１に提供される。

この例では、混合マトリクスが入力が、２チャネル搬送オーディオ信号であることに基づいて定義される。しかしながら、これらの方法は、任意の数の搬送オーディオチャネルのための実施形態に適合させることができる。合成プロセッサ１２３は、いくつかの実施形態ではミキサー３１１を備える。ミキサー３１１は、時間周波数オーディオ信号３０２およびミキシングマトリクス３１２を受信する。ミキサー３１１は、各周波数ビンｂ内の時間周波数オーディオ信号（入力信号）を処理して、２つの処理された（第１または初期の部分）時間周波数信号３１４を生成するように構成される。これは、例えば、

の式に基づいて形成することができる。ここで、周波数帯ｂは、ビンｂが存在するバンドである。

上記の手順は、入力信号ｘ（ｂ，ｎ）は、所望の目標共分散マトリクス特性を有する出力信号ｙ（ｂ，ｎ）をレンダリングするために、それらの間に適切なインコヒーレンスを有することを仮定する。状況によっては、入力信号が、例えば、単一のチャネル搬送信号のみが存在する場合、または、そうでなければ信号が高度に相関している場合、適切なチャネル間インコヒーレンスを有さない。したがって、いくつかの実施形態では、相関除去動作が実装されて、相関除去された信号ｘ（ｂ，ｎ）に基づいて相関除去された信号を生成し、上の方程式の信号ｙ（ｂ，ｎ）に追加される特定の残留信号に非相関信号を混合する。このような残留信号を得る手順は公知であり、例えば、上記の基準に記載されている。

処理されたバイノーラル（早期の部分）時間周波数信号ｙ（ｂ，ｎ）３１４は、逆Ｔ／Ｆ変圧器３１３に供給される。

いくつかの実施形態では、合成プロセッサ１２３がバイノーラル（早期の部分）時間周波数信号ｙ（ｂ，ｎ）３１４を受信し、Ｔ／Ｆ変圧器３０１によって印加される印加された時間周波数変換に対応する逆時間周波数変換を印加するように構成された逆Ｔ／Ｆ変圧器３１３を含む。逆数Ｔ／Ｆ変換器３１３の出力は、バイノーラル処理の早期の／ドライ部分（すなわち、遅い残響を含まない）に対応するバイノーラル（早期の部分）信号３１６である。したがって、上記の手順はバイノーラル処理の（第１の）早い／ドライ部分を説明し、以下のプロセスは、バイノーラル処理の（第２の）遅い／ウェット部分を説明する。ある実施形態では、合成プロセッサ１２３は、搬送オーディオ信号１２２を受信し、時間領域残響動作を搬送オーディオ信号１２２に適用して、追加された室内効果制御（インジケータ）１２６に基づいて後期残響バイノーラル室効果信号３１８を生成するように構成された残響器３５１を備える。しかしながら、いくつかの実施形態における残響器は時間周波数領域の残響器を含み、これは実装される場合、時間周波数搬送信号（例えば、Ｔ／Ｆ変圧器３０１によって生成されるよう）を受信するように構成され、その出力は、逆数Ｔ／Ｆ変圧器３１３の前で、混合器３１１の出力と混合されるか、または結合される（または混合器内のバイノーラルＴ／Ｆ早期部分信号３１４に結合される）。

残響器３５１は、室内効果（すなわち、バイノーラル残響）が出力されるべきかどうかの指標を含む、追加された室内効果制御信号または情報１２６も受信するように構成される。室内効果が出力されるべきでない場合、残響器３５１は、出力を提供しないように構成される。室内効果が出力されるべき場合、残響器は以下でさらに詳細に説明されるように、室内効果を追加するように構成されてもよい。追加の室内効果制御１２６の判定または取得は、任意の適切な方法に基づくことができる。例えば、いくつかの実施形態では、追加の室内効果制御１２６が利用者から取得されてもよい。いくつかのさらなる実施形態では、追加された室内効果制御１２６が空間オーディオストリーム（例えば、空間メタデータの中でエンコーダによって設定されたフラグ）と一緒に受信されてもよい。追加室内効果制御１２６は、空間オーディオストリームに基づいて決定されてもよい。例えば、追加された室内効果制御１２６は空間オーディオ信号のタイプに基づいて決定されてもよい（例えば、ビットストリームは空間オーディオ信号が５．１サラウンドミックスから生じるという指標を含み、次いで、デコーダは、室内効果をレンダリングすることを知っている）。いくつかの実施形態では、追加された室内効果制御が空間オーディオ信号の分析に基づいて決定されてもよい。例えば、空間オーディオ信号およびメタデータは、空間オーディオ信号が、５．１チャネル信号、または、追加の室内効果が望まれる他の何らかのタイプから生じるかどうかを決定するために監視される。ここでは、追加の室内効果が望ましくないような、空間オーディオをキャプチャする携帯電話などの空間オーディオキャプチャシステムからではなく、追加の室内効果が望ましい。追加の室内効果が望ましくないのは、例えば、空間オーディオ信号に必要な雰囲気および／または残響が既に存在するからである。

例えば、５．１サウンドのダウンミックスがトランスポート信号として検出された場合、指標は「室内効果を追加する」ように設定されてもよい。一方、マイク信号がトランスポート信号として検出された場合、表示が「室内効果なし」に設定されることができる。いくつかの実施形態では、追加された室内効果制御はまた、残響を制御する他の情報、例えば、残響時間および周波数の関数としての全体的なレベルを有する可能性がある。

残響器３５１は、残響を生成するために任意の適切な残響方法を実装することができる。例えば、いくつかの実施形態では、残響器３５１が事前に規定された残響応答を伴う畳み込みを実行するように構成される。例えば、Ｇａｒｄｎｅｒ、ＷｉｌｌｉａｍＧ．「入力／出力遅延なしの効率的な畳み込み（Ｅｆｆｉｃｉｅｎｔｃｏｎｖｏｌｕｔｉｏｎｗｉｔｈｏｕｔｉｎｐｕｔ／ｏｕｔｐｕｔｄｅｌａｙ）」ＩｎＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ９７．ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ、１９９４に記載があるように、畳み込みは、高速フーリエ変換（ＦＦＴ）畳み込みまたは部分ＦＦＴ畳み込みを用いて効率的に適用することができる。

残響応答は、例えば、ＢＲＩＲの第１または早期部分（ＨＲＴＦ／乾燥レンダリングに対応する）が完全に減衰され、第２または遅い部分のみを残す、適切なウィンドウ処理によってバイノーラル室インパルス応答（ＢＲＩＲ）から取得されてもよい。このような応答はバイノーラル室内効果信号を生成するために、効率的な畳み込み演算で適用することができる。

いくつかの実施形態では、搬送オーディオ信号が１ペアの残響応答で処理される単一のチャネルに加算される。ＢＲＩＲの典型的な設定と同様に、いくつかの方向からの応答があり、残響応答はセンターフロントＢＲＩＲのように、設定内の応答の１つから窓を開けることができるのであろう。残響応答はまた、複数の方向からのＢＲＩＲに基づく結合（例えば平均化）応答であることができる。

いくつかの実施形態では搬送オーディオチャネルが異なるペアの残響応答で処理され、結果は２チャネル出力を得るために一緒に合計される。この場合、左側のトランスポート信号に対する残響反応は例えば左側の９０度のＢＲＩＲから、そしてそれに対応して右側に窓を開けることができる。これらの実施形態では、残響応答が複数の方向からのＢＲＩＲに基づいて組み合わせる（例えば、平均化する）こともできる。

いくつかの実施形態では、残響器は、Ｖｉｌｋａｍｏ、Ｊ．、Ｎｅｕｇｅｂａｕｅｒ、ＢａｎｄＰｌｏｇｓｔｉｅｓ、Ｊ．、「スパース時間領域残響器（ｓｐａｒｓｅｆｒｅｑｕｅｎｃｙ－ｄｏｍａｉｎｒｅｖｅｒｂｅｒａｔｏｒ）」、ＪｏｕｒｎａｌｏｆＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ、５９（１２）、ｐｐ．９３６－９４３記載されているような、時間領域残響器またはスパース周波数領域残響器であるフィードバック遅延ネットワーク（ＦＤＮ）を含む。このような実施形態では、残響時間（Ｔ６０、すなわち、音が６０ｄＢ減衰するのに要する時間）および周波数帯域のエネルギーを構成することを可能にする任意の残響構造によって、既存の後期残響応答を知覚的に近似することが可能であり得る。残響器アルゴリズムのこれらの残響パラメータは、近似されている既存の応答の対応する特性に一致するように設定することができる。また、残響パラメータは、目的が既存の遅い部分の応答を模倣しない場合、手動で構成されてもよい。

バイノーラル出力のための後期残響は、拡散音場相関が周波数の関数として一致するように生成されるべきであるが、これは既知の様々な方法で説明されている特徴である。周波数帯域に対する拡散技術分野相関は、拡散技術分野共分散マトリクスＣ_Ｄ（ｋ）から求めることができる。

次いで、バイノーラル室効果信号３１８（残響処理された時間領域信号）を結合器３１５に供給することができる。

コンバイナ３１５は初期（逆数Ｔ／Ｆ変成器３１３からの双胴初期部分信号３１６）および後期（リバーブ器３５１からの双胴室効果信号３１８）を受信し、これらを（別々に左右のチャンネルについて）組み合わせるか、または合計するように構成される。したがって、この組み合わせは、バイノーラル処理の初期／乾燥部分に対応するバイノーラル時間領域信号とバイノーラル室効果信号とを組み合わせて、必要／要求されたときに追加の室効果を有する、結果として得られる空間化されたバイノーラル時間領域信号を生成する。この信号はヘッドホンで再生されることができる。

図４を参照すると、合成プロセッサの動作を示す流れ図が示されている。

流れ図はステップ４０１によって図４に示されるように、搬送オーディオ信号、空間メタデータ、および追加された室内効果制御インジケータなどを受信する動作を示す。

さらに、ＨＲＴＦデータは、ステップ４０２によって図４に示すように決定される。

搬送オーディオ信号と追加ルームエフェクト制御に基づくルームエフェクトバイノーラルオーディオ信号の生成が、ステップ４０３によって図４に示されている。

時間周波数領域搬送オーディオ信号の生成は、ステップ４０５によって図４に示される。

Ｔ／Ｆ搬送オーディオ信号および共分散マトリクスに基づく全体エネルギーに基づく共分散マトリクスの推定を、ステップ４０７によって図４に示す。

ＨＲＴＦデータ、空間メタデータ、エネルギー推定値に基づく目標共分散マトリクスの判定は、ステップ４０９によって図４に示される。

目標共分散マトリクスと推定共分散マトリクスを決定したら、ステップ４１１によって図４に示すように、推定共分散マトリクスと目標共分散マトリクスに基づいて混合ルールを決定する。

次いで、時間周波数搬送信号は、ステップ４１３によって図４に示されるような混合ルールに基づいて混合され得る。

次いで、これらの混合オーディオ信号は時間領域に戻って変換されるか、または時間領域等価オーディオ信号が図４に示すように、ステップ４１５によって生成される。

室内効果バイノーラルオーディオ信号（必要な場合）および早期混合オーディオ信号は次に、ステップ４１７によって図４に示すように結合（または合計）することができる。

次いで、組み合わせられたバイノーラルオーディオ信号は、ステップ４１９によって、図４に示されるように出力されてもよい。

いくつかの実施形態では、後期残響処理を制御するために空間メタデータを利用することが可能である。バイノーラル再生の文脈におけるバイノーラル残響の重要な目的は、音の外部化／距離知覚を可能にすることである。したがって、状況によっては、残響を、周囲部分よりも多くの音を導くようにレンダリングすることが有用であり得る。したがって、リバーブに供給される信号を制御するために、直接対全エネルギー比パラメータ（または当量のパラメータ）を適用することができる。これは、リバーバレータを適用する前に、周波数帯域内のトランスポート信号に√（ｒ（ｋ，ｎ））を乗算し、周波数領域バイノーラルリバーバレータアルゴリズムを使用することによって達成することができる。さらに、空間メタデータに基づいてリバーバレータに供給される信号の量に対する任意のタイプの制御を実施することができる。

図５に関して、上述したように、システムの装置部品のいずれかとして使用され得る例示的な電子装置。デバイスは、任意の適切な電子デバイスまたは装置であることができる。例えば、いくつかの実施形態では、デバイス１７００がモバイルデバイス、ユーザ装置、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。この装置は例えば、図１に示すようにエンコーダ／アナライザ部１０１またはデコーダ／シンセサイザ部１０５、または上述のような任意の機能ブロックを実装するように構成することができる。

いくつかの実施形態では、デバイス１７００が少なくとも１つのプロセッサまたは中央処理装置１７０７を備える。

プロセッサ１７０７は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成され得る。

いくつかの実施形態では、装置１７００が記憶装置１７１１を備える。

いくつかの実施形態では、少なくとも１つのプロセッサ１７０７が記憶装置１７１１に結合される。記憶装置１７１１は、任意の適切な記憶手段とすることができる。

ある実施形態では、記憶装置１７１１がプロセッサ１７０７上に実装可能なプログラムコードを格納するためのプログラムコードセクションを含む。さらに、いくつかの実施形態では、記憶装置１７１１が、データ、例えば、本明細書で説明される実施形態にしたがって処理された、または処理されるべきデータを格納するための格納されたデータセクションをさらに備えることができる。プログラム・コード・セクション内に記憶された実施されたプログラム・コードおよび記憶されたデータ・セクション内に記憶されたデータは、メモリ・プロセッサ結合を介して必要なときにいつでもプロセッサ１７０７によって検索することができる。

いくつかの実施形態では、装置１７００がユーザインターフェース１７０５を備える。ユーザインターフェース１７０５は、いくつかの実施形態ではプロセッサ１７０７に結合することができる。いくつかの実施形態では、プロセッサ１７０７がユーザインターフェース１７０５の動作を制御し、ユーザインターフェース１７０５から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース１７０５がユーザが例えばキーパッドを介してデバイス１７００にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース１７０５が、ユーザが装置１７００から情報を取得することを可能にすることができる。例えば、ユーザインターフェース１７０５は、装置１７００からユーザに情報を表示するように構成されたディスプレイを備えることができる。ユーザインターフェース１７０５は、いくつかの実施形態では情報を装置１７００に入力することを可能にすることと、装置１７００のユーザに情報をさらに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。いくつかの実施形態では、ユーザインターフェース１７０５が通信するためのユーザインターフェースであることができる。

いくつかの実施形態では、装置１７００が入力／出力ポート１７０９を備える。入出力ポート１７０９は、いくつかの実施形態ではトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ１７０７に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の好適なトランシーバまたは送信機および／または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。

トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバが適切なユニバーサル移動通信システム（ＵＭＴＳ）プロトコル、例えばＩＥＥＥ８０２．Ｘのような無線ローカルエリアネットワーク（ＷＬＡＮ）プロトコル、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ（登録商標））のような適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路（ＩＲＤＡ）を使用することができる。

トランシーバ入出力ポート１７０９は、信号を受信するように構成されてもよい。

いくつかの実施形態では、装置１７００が合成装置の少なくとも一部として使用されてもよい。入力／出力ポート１７０９は、ヘッドホン（ヘッドトラック式または非トラック式ヘッドホンであることができる）または同様のものに結合されてもよい。

一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実施することができる。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様はコントローラ、マイクロプロセッサ、または他の計算装置によって実行されてもよいファームウェアまたはソフトウェアで実装されてもよいが、本発明はそれに限定されない。本発明の様々な態様はブロック図、フローチャートとして、またはいくつかの他の絵画的表現を使用して図示および目的され得るが、本明細書で目的されるこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他の計算装置、あるいはそれらのいくつかの組合せで実装され得ることをよく理解されたい。

本発明の実施形態は、モバイルデバイスのデータプロセッサによって、実行可能なコンピュータソフトウェアで実現することができる。例えば、プロセッサ・エンティティのような、またはハードウェアによって、またはソフトウェアとハードウェアの組み合わせによって実装される。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表すことができることに留意されたい。このソフトウェアは、メモリチップなどの物理媒体、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー（登録商標）ディスクなどの磁気媒体、およびたとえばＤＶＤやそのデータの別形のＣＤなどの光学媒体に格納することができる。

メモリは、ローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよびリムーバブルメモリなど、任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカル技術環境に適した任意のタイプとすることができ、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの１つ以上を含むことができる。

本発明の実施形態は、集積回路モジュールなどの様々な部品で実施することができる。集積回路の設計は高度に自動化された処理によるものであり、大規模である。論理レベルの設計を、エッチングされ、半導体基板上に形成される準備ができている整った半導体回路設計に変換するための、複雑で強力なソフトウェアツールが利用可能である。

カリフォルニア州サンノゼにあるＳｙｎｏｐｓｙｓ、ＩｎｃｏｆＭｏｕｎｔａｉｎＶｉｅｗ、ＣａｌｉｆｏｒｎｉａａｎｄＣａｄｅｎｃｅＤｅｓｉｇｎから提供されているようなプログラムは設計の十分に確立されたルール、および予め記憶された設計モジュールのライブラリを用いて、導体を自動的にルーティングし、半導体チップ上の部品の位置を特定する。

半導体回路の設計が完了すると、標準化された電子フォーマット（例えば、Ｏｐｕｓ、ＧＤＳＩＩなど）の結果として得られる設計は、製造のために半導体製造施設または「ファブ」に送信されてもよい。

前述の説明は、本発明の例示的な実施形態の完全かつ有益な説明を、例示的かつ非限定的な例として提供した。

しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になるのであろう。

しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。

Claims

空間オーディオ信号を受信し、ここで、前記空間オーディオ信号は、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを含み、
室内効果制御標示を取得し、
前記室内効果制御標示に基づいて、室内効果が少なくとも１つのオーディオ信号に適用されるべきかどうかを決定する
ように構成された手段を備える装置であって、
ここで、前記手段は、
室内効果が空間オーディオ信号に適用されるべきときに、前記少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成し、
前記少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成し、ここで、少なくとも第２部分バイノーラルオーディオ信号は、
前記第１部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果で生成されるものであり、
結合バイノーラルオーディオ信号を生成するために、第１部分バイノーラルオーディオ信号と第２部分バイノーラルオーディオ信号とを結合する
ように構成される、
装置。
前記空間メタデータは少なくとも１つの方向パラメータを含み、
前記手段は、前記少なくとも１つのオーディオ信号に基づいて第１部分バイノーラルオーディオ信号を生成するように構成され、
前記空間メタデータは、前記少なくとも１つのオーディオ信号および前記少なくとも１つの方向パラメータに基づいて、前記第１部分バイノーラルオーディオ信号を生成するように構成される、請求項１に記載の装置。
前記空間メタデータは少なくとも１つの比率パラメータを含み、
前記少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するように構成された前記手段は、前記少なくとも１つのオーディオ信号および前記少なくとも１つの比率パラメータに基づいて、前記第２部分バイノーラルオーディオ信号を生成するようにさらに構成される、
請求項１に記載の装置。
前記少なくとも１つの方向パラメータは、周波数帯域に関連する方向である、請求項２に記載の装置。
前記少なくとも１つのオーディオ信号および空間メタデータに基づいて、前記第１部分バイノーラルオーディオ信号を生成するように構成された前記手段は、
前記少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性を決定するために、前記少なくとも１つのオーディオ信号を分析し、
前記少なくとも１つのオーディオ信号に関連する前記少なくとも１つの確率的特性にさらに基づいて、前記第１部分のバイノーラルオーディオ信号を生成する
ように構成される、
請求項１から４のいずれか１項に記載の装置。
前記少なくとも１つのオーディオ信号は少なくとも２つのオーディオ信号を含み、
前記少なくとも１つのオーディオ信号に関連付けられた少なくとも１つの確率的特性を決定するために前記少なくとも１つのオーディオ信号を分析するように構成された手段は、前記少なくとも２つのオーディオ信号間の共分散を推定するように構成され、
前記少なくとも１つのオーディオ信号に関連付けられた前記少なくとも１つの確率的特性にさらに基づいて、前記第１部分バイノーラルオーディオ信号を生成するように構成された手段は、
前記少なくとも２つのオーディオ信号間の推定共分散に基づいてミキシング係数を生成し、
前記第１部分バイノーラルオーディオ信号を生成するために、前記ミキシング係数に基づいて少なくとも２つのオーディオ信号をミキシングする
ように構成される、
請求項５に記載の装置。
前記少なくとも２つの搬送オーディオ信号間の推定共分散に基づいてミキシング係数を生成するように構成された前記手段は、目標共分散に基づいて前記ミキシング係数を生成するようにさらに構成される、請求項６に記載の装置。
請求項２に従属する場合、または請求項２に従属する請求項の場合、
前記手段は、さらに、
前記推定共分散に基づく総合エネルギー推定値を生成し、
頭部伝達関数データを前記方向パラメータに基づいて決定し、
前記頭部伝達関数データ、前記空間メタデータ、および前記全体的エネルギー推定値に基づいて前記目標共分散を決定する
ように構成される、
請求項７に記載の装置。
前記少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するように構成された前記手段は、前記少なくとも１つのオーディオ信号に残響器（ｒｅｖｅｒｂｅｒａｔｏｒ）を適用するように構成される、請求項１ないし８のいずれか１項に記載の装置。
室内効果制御標示を取得するように構成された手段は、
空間オーディオ信号のエンコーダによってセットされたフラグとして室内効果制御標示を受信するステップと、
前記室内効果制御標示をユーザ入力として受信するステップと、
空間音声信号のタイプを示す指標を得ることに基づいて前記室内効果制御標示を決定するステップと、
空間音声信号のタイプを決定するために、前記空間音声信号の分析に基づいて前記室内効果制御標示を決定するステップと、
の少なくとも１つを実行するように構成されている、
請求項１ないし９のいずれか１項に記載の装置。
前記少なくとも１つのオーディオ信号は、エンコーダによって生成された少なくとも１つの搬送オーディオ信号である、請求項１ないし１０のいずれか１項に記載の装置。
前記第２部分バイノーラル信号は、前記第１部分バイノーラルオーディオ信号の時間応答よりも長い時間応答を有する、請求項１ないし１１のいずれか１項に記載の装置。
空間オーディオ信号を受信するステップであって、該空間オーディオ信号は、少なくとも１つのオーディオ信号と、前記少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを含む、ステップと、
室内効果制御標示を取得するステップと、
室内効果制御標示に基づいて、室内効果が前記少なくとも１つのオーディオ信号に適用されるべきかどうかを決定するステップと、
前記室内効果が前記空間オーディオ信号に適用されるべきときに、前記少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成するステップと、
前記室内効果が空間オーディオ信号に適用されるとき、前記少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するステップであって、少なくとも前記第２部分バイノーラルオーディオ信号は前記第１部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果で生成される、ステップと、
室内効果が空間オーディオ信号に適用されるとき、結合バイノーラルオーディオ信号を生成するために前記第１部分バイノーラルオーディオ信号と前記第２部分バイノーラルオーディオ信号とを結合するステップと、
を含む方法。
前記空間メタデータは少なくとも１つの方向パラメータを含み、
前記少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成するステップは、前記少なくとも１つのオーディオ信号および前記少なくとも１つの方向パラメータに基づいて前記第１部分バイノーラルオーディオ信号を生成するステップを含む、
請求項１３に記載の方法。
前記空間メタデータは、少なくとも１つの比率パラメータを含み、
前記少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するステップは、
前記少なくとも１つのオーディオ信号および前記少なくとも１つの比率パラメータに基づいて前記第２部分バイノーラルオーディオ信号を生成するステップをさらに含む、
請求項１３に記載の方法。
前記少なくとも１つの方向パラメータは、周波数帯域に関連する方向である、請求項１４に記載の方法。
前記少なくとも１つのオーディオ信号および空間メタデータに基づいて、前記第１部分バイノーラルオーディオ信号を生成するステップは、
少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性を決定するために、少なくとも１つのオーディオ信号を分析するステップと、
前記少なくとも１つのオーディオ信号に関連する前記少なくとも１つの確率的特性にさらに基づいて、前記第１部分バイノーラルオーディオ信号を生成するステップと、
を含む、
請求項１３ないし１６のいずれか１項に記載の方法。
前記少なくとも１つのオーディオ信号は少なくとも２つのオーディオ信号を含み、
前記少なくとも１つのオーディオ信号に関連する少なくとも１つの確率的特性を決定するために、前記少なくとも１つのオーディオ信号を分析するステップは、前記少なくとも２つのオーディオ信号間の共分散を推定することを含み、
前記少なくとも１つのオーディオ信号に関連する前記少なくとも１つの確率的特性にさらに基づいて、前記第１部分のバイノーラルオーディオ信号を生成するステップは、
前記少なくとも２つのオーディオ信号間の前記推定共分散に基づいて混合係数を生成するステップと、
最初のパートのバイノーラルオーディオ信号を生成するために、混合係数に基づいて少なくとも２つのオーディオ信号を混合するステップと、
を含む、
請求項１７に記載の方法。
前記少なくとも２つの搬送オーディオ信号間の前記推定共分散に基づいて混合係数を生成するステップは、目標共分散に基づいて前記混合係数を生成するステップを更に含む、請求項１８に記載の方法。
請求項１４に従属する場合、または請求項１４に従属する場合、
前記推定共分散に基づく全体的エネルギー推定値を生成するステップと、
前記方向パラメータに基づいて頭部伝達関数データを決定するステップと、
前記頭部伝達関数データ、空前記間メタデータ、および前記全体エネルギー推定値に基づいて目標共分散を決定するステップと、
をさらに含む、請求項１９に記載の方法。
前記少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成するステップは、前記少なくとも１つのオーディオ信号に残響器を適用するステップを含む、請求項１３から２０のいずれか１項に記載の方法。
室内効果制御表示を得ることが、空間オーディオ信号のエンコーダによってセットされたフラグとして室内効果制御指標を受信するステップと、
ユーザ入力として前記室内効果制御指標を受信するステップと、
空間音声信号のタイプを示す指標を得ることに基づいて前記室内効果制御標示を決定するステップと、
空間音声信号のタイプを決定するために、前記空間音声信号の分析に基づいて前記室内効果制御標示を決定するステップと、
のうちの少なくとも１つを含む、請求項１３ないし２１のいずれか１項に記載の方法。
前記少なくとも１つのオーディオ信号は、エンコーダによって生成された少なくとも１つの搬送オーディオ信号である、請求項１３ないし２２のいずれか１項に記載の方法。
前記第２部分バイノーラル信号は、前記第１部分バイノーラルオーディオ信号の時間応答よりも長い時間応答を有する、請求項１３ないし２３のいずれか１項に記載の方法。
少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備える、装置であって、
該少なくとも１つのメモリおよび該コンピュータプログラムコードは、該少なくとも１つのプロセッサを用いて、該装置に、少なくとも、
空間オーディオ信号を受信させ、ここで、該空間オーディオ信号は、少なくとも１つのオーディオ信号と、前記少なくとも１つのオーディオ信号に関連付けられた空間メタデータとを含み、
室内効果制御標示を取得させ、
前記室内効果制御標示に基づいて、室内効果が前記少なくとも１つのオーディオ信号に適用されるべきかどうかを決定させる
ように構成され、
前記手段は、
前記室内効果が空間オーディオ信号に適用されるべきときに、前記少なくとも１つのオーディオ信号および空間メタデータに基づいて第１部分バイノーラルオーディオ信号を生成し、
前記少なくとも１つのオーディオ信号に基づいて第２部分バイノーラルオーディオ信号を生成し、
少なくとも前記第２部分バイノーラルオーディオ信号は、前記第１部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に前記室内効果で生成され、
結合バイノーラルオーディオ信号を生成するために、前記第１部分バイノーラルオーディオ信号と前記第２部分バイノーラルオーディオ信号とを結合する
ように構成される、装置。